JP2020095224A

JP2020095224A - 音声補正装置および音声補正方法

Info

Publication number: JP2020095224A
Application number: JP2018234912A
Authority: JP
Inventors: 松尾　直司; Naoji Matsuo; 直司松尾
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2018-12-14
Filing date: 2018-12-14
Publication date: 2020-06-18
Anticipated expiration: 2038-12-14
Also published as: US20200194020A1; US11308970B2; JP7095586B2

Abstract

【課題】雑音の発生しやすい環境で雑音抑圧処理をした音声信号の認識精度を高くすること。【解決手段】音声補正装置の補正部は、学習装置の学習部１５０によって機械学習されたモデルを基にして、雑音抑圧処理の行われた第３音声情報を補正した補正音声情報を生成する。ここで、学習装置の強調部１４５は、雑音が発生している際に録音された音声情報であって、かつ、雑音抑圧処理の行われた第１音声情報と、雑音の発生していない環境で録音された音声情報を示す第２音声情報とを取得する。強調部１４５は、第２音声情報の帯域のうち、第１音声信号のＳＮＲが低い帯域に対応する帯域の成分を強調した強調情報を生成する。学習部は、第１音声情報と、強調情報とを基にして、モデルを機械学習する。【選択図】図２

Description

本発明は、音声補正装置等に関する。

安全面と便利さの面で、車室内における音声認識アプリケーションの利用が増えている。音声認識アプリケーションを安全かつ手軽に使用するために、車に設置した小型ユニットのマイクを用いたハンズフリーの音声入力が用いられている。マイクを用いて録音した音声信号には、走行雑音やエアコン動作音などの雑音が含まれるため、音声認識を行う前処理として、スペクトルサブトラクションやマイクアレイなどによる雑音抑圧処理が行われる。

ここで、雑音抑圧処理を行うと、一般的には抑圧結果に歪みが生じて不自然な音声となり、音声認識率が低下する場合がある。また、雑音抑圧処理を行うよりも、雑音抑圧処理を行わない方が、音声認識率がよくなる場合もあり得る。特に、雑音抑圧処理を行う前のＳＮＲ（Signal Noise Ratio）が低い帯域において歪みが大きくなる。このため、雑音抑圧処理を行った後に、更に、雑音抑圧処理前のＳＮＲが低い帯域における音質を補正することが好ましい。

従来技術には、機械学習を用いて音声信号の音質を補正するものがある。図２２は、従来技術による学習処理を説明するための図である。図２２に示すように、学習装置１０は、記憶部１１ａ，１１ｂ、窓掛部１２ａ，１２ｂ、ＦＦＴ（Fast Fourier Transform）処理部１３ａ，１３ｂ、パワースペクトル算出部１４ａ，１４ｂ、機械学習部１５を有する。

記憶部１１ａは、雑音抑圧信号を記憶する記憶装置である。雑音抑圧信号は、雑音の発生する環境においてマイク（図示略）が集音した音声信号に対して、雑音抑圧処理を行ったものである。

記憶部１１ｂは、教師信号を記憶する記憶装置である。教師信号は、雑音の発生していない理想的な環境においてマイクが集音した音声信号である。

窓掛部１２ａは、記憶部１１ａから雑音抑圧信号を取得し、窓掛を行う処理部である。たとえば、窓掛部１２ａは、ハニング窓などの時間窓を５０％オーバーラップさせて、窓掛を行う。窓掛部１２ａは、窓掛を行った雑音抑圧信号を、ＦＦＴ処理部１３ａに出力する。

窓掛部１２ｂは、記憶部１１ｂから教師信号を取得し、窓掛を行う処理部である。たとえば、窓掛部１２ｂは、時間窓を５０％オーバーラップさせて、ハニング窓などの窓掛を行う。窓掛部１２ｂは、窓掛を行った教師信号を、ＦＦＴ処理部１３ｂに出力する。

ＦＦＴ処理部１３ａは、窓掛部１２ａにより設定された時間窓に対応する雑音抑圧信号に対して、ＦＦＴを行うことで、雑音抑圧信号の周波数毎の成分を抽出する処理部である。ＦＦＴ処理部１３ａは、雑音抑圧信号の周波数毎の成分の情報をパワースペクトル算出部１４ａに出力する。

ＦＦＴ処理部１３ｂは、窓掛部１２ｂにより設定された時間窓に対応する教師信号に対して、ＦＦＴを行うことで、教師信号の周波数毎の成分を抽出する処理部である。ＦＦＴ処理部１３ｂは、教師信号の周波数毎の成分の情報をパワースペクトル算出部１４ｂに出力する。

パワースペクトル算出部１４ａは、雑音抑圧信号の周波数毎の成分を基にして、周波数毎のパワースペクトルを算出する処理部である。パワースペクトル算出部１４ａは、雑音抑圧信号の周波数毎のパワーの情報を、機械学習部１５に出力する。以下の説明では、雑音抑圧信号の周波数毎のパワーの情報を「雑音抑圧パワースペクトル」と表記する。

パワースペクトル算出部１４ｂは、教師信号の周波数毎の成分を基にして、周波数毎のパワーを算出する処理部である。パワースペクトル算出部１４ｂは、教師信号の周波数毎のパワーの情報を、機械学習部１５に出力する。以下の説明では、教師信号の周波数毎のパワーの情報を「教師パワースペクトル」と表記する。

学習装置１０の窓掛部１２ａ，１２ｂ、ＦＦＴ処理部１３ａ，１３ｂ、パワースペクトル算出部１４ａ，１４ｂは、上記の処理を繰り返し実行することで、雑音抑圧パワースペクトルと、教師パワースペクトルとの複数の組を、機械学習部１５に出力する。

機械学習部１５は、雑音抑圧パワースペクトルと教師パワースペクトルとの複数の組を基にして、雑音抑圧パワースペクトルの形状が、教師パワースペクトルの形状に近づくように補正するモデルを機械学習する処理部である。

たとえば、機械学習部１５は、ニューラルネットワーク（ＮＮ）の入力層に、雑音抑圧パワースペクトルの各周波数のパワー（Ｐ１（ｆ_０）、Ｐ１（ｆ_１）、Ｐ１（ｆ_２）、・・・、Ｐ１（ｆ_ｎ））を入力する。この場合に、ＮＮの出力層から出力される各周波数のパワーを（Ｐ１’（ｆ_０）、Ｐ１’（ｆ_１）、Ｐ１’（ｆ_２）、・・・、Ｐ１’（ｆ_ｎ））とする。

機械学習部１５は、（Ｐ１’（ｆ_０）、Ｐ１’（ｆ_１）、Ｐ１’（ｆ_２）、・・・、Ｐ１’（ｆ_ｎ））と、教師パワースペクトルの各周波数のパワー（Ｐ２（ｆ_０）、Ｐ２（ｆ_１）、Ｐ２（ｆ_２）、・・・、Ｐ２（ｆ_ｎ））との差分に基づく評価関数が０に近づくように、ＮＮの重みを調整する。機械学習部１５は、雑音抑圧パワースペクトルと教師パワースペクトルとの複数の組を基にして、上記処理を繰り返し行うことで、ＮＮの重みを学習する。

学習装置１０は、機械学習部１５に学習されたモデルの情報を、図２３に示す補正装置に通知する。

図２３は、従来技術による補正処理を説明するための図である。図２３に示すように、補正装置２０は、記憶部２１ａ，２１ｂ、窓掛部２２、ＦＦＴ処理部２３、パワースペクトル算出部２４、補正部２５、ＩＦＦＴ（Inverse Fast Fourier Transform）処理部２６、オーバーラップ加算部２７を有する。

記憶部２１ａは、補正の対象となる雑音抑圧信号を記憶する記憶装置である。

記憶部２１ｂは、雑音抑圧信号の音質を補正した音声信号を記憶する記憶装置である。

窓掛部２２は、記憶部２１ａから雑音抑圧信号を取得し、窓掛を行う処理部である。たとえば、窓掛部２２は、ハニング窓などの時間窓を５０％オーバーラップさせて、窓掛を行う。窓掛部２２は、窓掛を行った雑音抑圧信号を、ＦＦＴ処理部２３に出力する。

ＦＦＴ処理部２３は、窓掛部２２により設定された時間窓に対応する雑音抑圧信号に対して、ＦＦＴを行うことで、雑音抑圧信号の周波数毎の成分を抽出する処理部である。ＦＦＴ処理部２３は、雑音抑圧信号の周波数毎の成分の情報をパワースペクトル算出部２４に出力する。また、ＦＦＴ処理部２３は、ＦＦＴを行った際のスペクトルの情報を、ＩＦＦＴ処理部２６に出力する。

パワースペクトル算出部２４は、雑音抑圧信号の周波数毎の成分を基にして、周波数毎のパワースペクトル（雑音抑圧パワースペクトル）を算出する処理部である。パワースペクトル算出部２４は、雑音抑圧パワースペクトルを、補正部２５に出力する。

補正部２５は、機械学習部１５によって学習されたモデル（ＮＮ）を用いて、雑音抑圧パワースペクトルの形状を補正する処理部である。補正部２５は、補正した雑音抑圧パワースペクトルを、ＩＦＦＴ処理部２６に出力する。たとえば、補正部２５は、雑音抑圧パワースペクトルの周波数毎のパワーを、ＮＮの入力層に入力し、ＮＮの出力層から出力される各パワー（周波数毎のパワー）を、補正した雑音抑圧パワースペクトルとする。以下の説明では、補正した雑音抑圧パワースペクトルを、「補正パワースペクトル」と表記する。

ＩＦＦＴ処理部２６は、ＦＦＴ処理部２３からのスペクトルのパワーを、ＩＦＦＴ処理部２６の中で計算する補正前のパワースペクトルと補正部２５からの補正パワースペクトルの比を用いて補正して、逆フーリエ変換を行うことで、パワー補正後のスペクトルを、時間と振幅との関係を示す音声信号に変換する処理部である。ＩＦＦＴ処理部２６が逆フーリエ変換を行う際には、ＦＦＴ処理部２３から通知されるスペクトルの情報を利用する。ＩＦＦＴ処理部２６は、逆フーリエ変換した音声信号を、オーバーラップ加算部２７に出力する。

オーバーラップ加算部２７は、ＩＦＦＴ処理部２６から出力される各音声信号を、５０％オーバーラップさせて加算する処理部である。オーバーラップ加算部２７は、オーバーラップ加算した音声信号を、記憶部２１ｂに格納する。

特開２０１１−０８１０３３号公報特開２００６−１８０３９２号公報特開２０１１−１１９８９８号公報

しかしながら、上述した従来技術では、雑音の発生する環境で雑音抑圧処理を行った音声信号の認識精度を高めることができないという問題がある。

たとえば、ＳＮＲ、パワースペクトルのパワー（レベル）、雑音の関係は、次の様な関係がある。「ＳＮＲが低い帯域は、パワースペクトルのパワーの低い帯域に対応し、かかる帯域は、雑音の影響が大きい」。一方、「ＳＮＲが高い帯域は、パワースペクトルのパワーの高い帯域に対応し、かかる帯域は、雑音の影響が小さい」。

上記の関係により、音声信号に対して雑音抑圧処理を行うと、多くの場合、ＳＮＲの低い帯域ほど、抑圧量が大きくなり、歪みも大きくなる。

図２で説明した学習処理では、雑音抑圧パワースペクトルと教師パワースペクトルとの差分に基づく評価関数の値が０に近づくようにモデルの学習を行っている。雑音抑圧パワースペクトルと教師パワースペクトルとの差分は、パワーが大きい帯域においてより大きくなるため、上記の学習処理により学習されるモデルでは、パワーの大きい帯域を優先した重み付けによる補正が行われる。

すなわち、上記の学習方法では、雑音抑圧処理により生じる、歪み量の大きい帯域（ＳＮＲの低い帯域）に対する補正が不十分である。

１つの側面では、本発明は、雑音の発生する環境で雑音抑圧処理を行った音声信号の認識精度を高めることができる音声補正装置および音声補正方法を提供することを目的とする。

第１の案では、音声補正装置は、強調部と、学習部と、補正部とを有する。強調部は、雑音が発生している際に録音された音声情報であって、かつ、雑音抑圧処理の行われた第１音声情報と、雑音の発生していない環境で録音された音声情報を示す第２音声情報とを取得し、第２音声情報の帯域のうち、第１音声情報のＳＮＲ（Signal Noise Ratio）が低い帯域に対応する帯域の成分を強調した強調情報を生成する。学習部は、第１音声情報と、強調情報とを基にして、モデルを機械学習する。補正部は、学習部によって機械学習されたモデルを基にして、雑音抑圧処理の行われた第３音声情報を補正した補正音声情報を生成する。

雑音の発生しやすい環境で雑音抑圧処理をした音声信号の認識精度を高くすることができる。

図１は、本実施例１に係るシステムの一例を示す図である。図２は、本実施例１に係る学習装置の構成を示す機能ブロック図である。図３は、パワースペクトルのパワーとゲインとの関係を示す図である。図４は、本実施例１に係る強調部の処理を説明するための図である。図５は、本実施例１に係る音声補正装置の構成を示す機能ブロック図である。図６は、本実施例１に係る逆強調部の処理を説明するための図である。図７は、本実施例１に係る学習装置の処理手順を示すフローチャートである。図８は、本実施例１に係る音声補正装置の処理手順を示すフローチャートである。図９は、本実施例２に係るシステムの一例を示す図である。図１０は、本実施例２に係る学習装置の構成を示す機能ブロック図である。図１１は、本実施例２に係る強調部の処理を説明するための図である。図１２は、本実施例２に係る音声補正装置の構成を示す機能ブロック図である。図１３は、本実施例２に係る逆強調部の処理を説明するための図である。図１４は、本実施例２に係る学習装置の処理手順を示すフローチャートである。図１５は、本実施例２に係る音声補正装置の処理手順を示すフローチャートである。図１６は、実際の音声信号を用いた場合の強調処理を示す図である。図１７は、実際の音声信号を用いた場合の逆強調処理を示す図である。図１８は、認識装置の構成を示す機能ブロック図である。図１９は、本実施例に係る学習装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。図２０は、本実施例に係る音声補正装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。図２１は、本実施例に係る認識装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。図２２は、従来技術による学習処理を説明するための図である。図２３は、従来技術による補正処理を説明するための図である。

以下に、本願の開示する音声補正装置および音声補正方法の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

図１は、本実施例１に係るシステムの一例を示す図である。図１に示すように、このシステムは、マイク３０、雑音抑圧装置３５、認識装置４０、学習装置１００、音声補正装置２００を有する。マイク３０は、雑音抑圧装置３５に接続される。

音声補正装置２００は、雑音抑圧装置３５、認識装置４０、学習装置１００に接続される。図示を省略するが、音声補正装置２００は、ネットワークを介して、雑音抑圧装置３５、学習装置１００、認識装置４０に接続されてもよい。マイク３０、雑音抑圧装置３５、音声補正装置２００、認識装置４０は、車両等に搭載されていてもよい。また、マイク３０、雑音抑圧装置３５、音声補正装置２００が、車両等に搭載され、音声補正装置２００は、ネットワークを介して、認識装置４０、学習装置１００に接続されていてもよい。

マイク３０は、集音した音声信号を雑音抑圧装置３５に出力する装置である。マイク３０は、雑音の発生する環境において、音声信号を集音する。たとえば、マイク３０は、車内に設置される。

雑音抑圧装置３５は、マイク３０が集音した音声信号に対して、雑音抑圧処理を行う処理部である。雑音抑圧処理は、スペクトルサブトラクションやマイクアレイなどに対応する処理である。雑音抑圧装置３５は、雑音抑圧処理を行った音声信号（雑音抑圧信号）を、音声補正装置２００に出力する。以下の説明では、雑音抑圧処理を行った音声信号を「雑音抑圧信号」と表記する。

認識装置４０は、音声補正装置２００から出力される音声信号に対して、音声認識を行う装置である。後述するように、音声補正装置２００から出力される音声信号は、雑音抑圧信号を補正した音声信号である。

学習装置１００は、予め準備された、雑音抑圧信号と、教師信号とを基にして、モデルを機械学習する装置である。教師信号は、雑音の発生していない理想的な環境においてマイクが集音（録音）した音声信号である。学習装置１００は、機械学習したモデルの情報を、音声補正装置２００に通知する。

ここで、学習装置１００は、モデルを機械学習する場合に、次の処理を行う。学習装置１００は、教師信号の全帯域のうち、雑音抑圧信号のＳＮＲの低い帯域に対応する帯域の成分を強調する。以下の説明では、強調した教師信号を「強調信号」と表記する。本実施例１では、学習装置１００は、教師信号の帯域のうち、パワーが閾値未満となる帯域に対応するパワーに１より大きいゲインを乗算することで、強調信号を生成する。

学習装置１００は、雑音抑圧信号のパワースペクトルの形状が、強調信号のパワースペクトルの形状に近づくように補正するモデルを機械学習する。雑音抑圧信号のパワースペクトルの形状と、強調信号のパワースペクトルの形状との差分は、上記の強調により、ＳＮＲの低い帯域（パワースペクトルのパワーの低い帯域）においてより大きくなるため、学習装置１００の機械学習により学習されるモデルでは、ＳＮＲの低い帯域を優先した重み付けによる補正が行われる。

音声補正装置２００は、学習装置１００により学習されたモデルを用いて、雑音抑圧信号を補正する装置である。音声補正装置２００は、補正した雑音抑圧信号を、認識装置４０に出力する。

上記のように、学習装置１００により学習されるモデルでは、ＳＮＲの低い帯域を優先した重み付けによる補正が行われる。このため、雑音抑圧信号に含まれるＳＮＲの低い帯域に含まれる歪みに対応する補正を行うことができ、これにより、雑音の発生する環境で雑音抑圧処理を行った音声信号の認識精度を高めることができる。

次に、図１に示した学習装置１００の構成の一例について説明する。図２は、本実施例１に係る学習装置の構成を示す機能ブロック図である。図２に示すように、この学習装置１００は、記憶部１１０と、窓掛部１２０ａ，１２０ｂ、ＦＦＴ処理部１３０ａ，１３０ｂ、パワースペクトル算出部１４０ａ，１４０ｂ、強調部１４５、学習部１５０、通知部１６０を有する。

各処理部（１２０ａ，１２０ｂ、１３０ａ，１３０ｂ、１４０ａ，１４０ｂ、１４５、１５０、１６０）は、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等によって、学習装置１００内部に記憶されたプログラムがＲＡＭ（Random Access Memory）等を作業領域として実行されることにより実現される。また、各処理部は、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現されてもよい。

記憶部１１０は、雑音抑圧信号データベース１１０ａと、教師信号データベース１１０ｂと、学習モデル情報１１０ｃとを有する。記憶部１１０は、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ（Flash Memory）などの半導体メモリ素子や、ＨＤＤ（Hard Disk Drive）などの記憶装置に対応する。

雑音抑圧信号データベース１１０ａは、雑音抑圧信号を格納するデータベースである。かかる雑音抑圧信号は、雑音環境で録音された音声信号に対して、雑音抑圧処理を行った信号である。

教師信号データベース１１０ｂは、教師信号を格納するデータベースである。かかる教師信号は、雑音の発生しない理想的な環境で録音された音声信号である。

学習モデル情報１１０ｃは、学習部１５０により学習されるモデルである。たとえば、学習部１５０により学習されるモデルは、ニューラルネットワークである。ニューラルネットワークは、入力層、隠れ層、出力層の各層を有し、各層において、複数のノードがエッジで接続される。各層は、活性化関数と呼ばれる関数を持ち、エッジは、重みを持つ。

窓掛部１２０ａは、雑音抑圧信号データベース１１０ａから雑音抑圧信号を取得し、窓掛を行う処理部である。たとえば、窓掛部１２０ａは、ハニング窓などの時間窓を５０％オーバーラップさせて、窓掛を行う。窓掛部１２０ａは、窓掛を行った雑音抑圧信号を、ＦＦＴ処理部１３０ａに出力する。

窓掛部１２０ｂは、教師信号データベース１１０ｂから教師信号を取得し、窓掛を行う処理部である。たとえば、窓掛部１２０ｂは、ハニング窓などの時間窓を５０％オーバーラップさせて、窓掛を行う。窓掛部１２０ｂは、窓掛を行った教師信号を、ＦＦＴ処理部１３０ｂに出力する。

ＦＦＴ処理部１３０ａは、窓掛部１２０ａにより設定された時間窓に対応する雑音抑圧信号に対して、ＦＦＴを行うことで、雑音抑圧信号の周波数毎の成分を抽出する処理部である。ＦＦＴ処理部１３０ａは、雑音抑圧信号の周波数毎の成分の情報をパワースペクトル算出部１４０ａに出力する。

ＦＦＴ処理部１３０ｂは、窓掛部１２０ｂにより設定された時間窓に対応する教師信号に対して、ＦＦＴを行うことで、教師信号の周波数毎の成分を抽出する処理部である。ＦＦＴ処理部１３０ｂは、教師信号の周波数毎の成分の情報をパワースペクトル算出部１４０ｂに出力する。

パワースペクトル算出部１４０ａは、雑音抑圧信号の周波数毎の成分を基にして、周波数毎のパワースペクトルを算出する処理部である。パワースペクトル算出部１４０ａは、雑音抑圧信号の周波数毎のパワーの情報を、学習部１５０に出力する。以下の説明では、雑音抑圧信号の周波数毎のパワーの情報を「雑音抑圧パワースペクトル」と表記する。

パワースペクトル算出部１４０ｂは、教師信号の周波数毎の成分を基にして、周波数毎のパワーを算出する処理部である。パワースペクトル算出部１４０ｂは、教師信号の周波数毎のパワーの情報を、強調部１４５に出力する。以下の説明では、教師信号の周波数毎のパワーの情報を「教師パワースペクトル」と表記する。

強調部１４５は、教師信号の全帯域のうち、雑音抑圧信号のＳＮＲの低い帯域に対応する帯域の成分を強調する。ここで、雑音抑圧信号のＳＮＲの低い帯域は、パワースペクトルのパワーが低い帯域に対応する。強調部１４５は、図３に示すパワースペクトルのパワーに応じたゲインを、教師パワースペクトルに乗算することで、強調する。

図３は、パワースペクトルのパワーとゲインとの関係を示す図である。図３に示すグラフの横軸は、パワースペクトルの周波数毎のパワーに対応する軸である。グラフの縦軸は、ゲインに対応する軸である。図３に示すように、パワースペクトルの帯域のうち、パワーがＰｔ以上の帯域に対しては、ゲイン＝１が乗算される。パワースペクトルの帯域のうち、パワーがＰｔ未満の帯域に対しては、１を超えるゲイン（最大ａ）が乗算される。ａは、事前に設定される値である。

図４は、本実施例１に係る強調部の処理を説明するための図である。図４に示すグラフは、教師パワースペクトルの一例である。このグラフの横軸は周波数に対応する軸である。グラフの縦軸は、パワーに対応する軸である。図４に示す例では、帯域ｆｔにおいて、パワーがＰｔ未満となる。このため、強調部１４５は、帯域ｆｔに対応するパワーに、図３に示したグラフに基づくゲイン（１を超えるゲイン）を乗算することで、教師パワースペクトルを強調する。その他の帯域については、パワーがＰｔ以上となるため、乗算されるゲインが１となり、強調されない。以下の説明では、強調部１４５の処理後の教師パワースペクトルの情報を、「強調パワースペクトル」と表記する。強調部１４５は、強調パワースペクトルを、学習部１５０に出力する。

図２の説明に戻る。学習装置１００の窓掛部１２０ａ，１２０ｂ、ＦＦＴ処理部１３０ａ，１３０ｂ、パワースペクトル算出部１４０ａ，１４０ｂ、強調部１４５は、上記の処理を繰り返し実行することで、雑音抑圧パワースペクトルと、強調パワースペクトルとの複数の組を、学習部１５０に出力する。

学習部１５０は、雑音抑圧パワースペクトルと強調パワースペクトルとの複数の組を基にして、雑音抑圧パワースペクトルの形状が、強調パワースペクトルの形状に近づくように補正するモデルを機械学習する処理部である。学習部１５０は、機械学習したモデルの情報を、学習モデル情報１１０ｃとして、記憶部１１０に格納する。

たとえば、学習部１５０は、ニューラルネットワーク（ＮＮ）の入力層に、雑音抑圧パワースペクトルの各周波数のパワー（Ｐ１（ｆ_０）、Ｐ１（ｆ_１）、Ｐ１（ｆ_２）、・・・、Ｐ１（ｆ_ｎ））を入力する。この場合に、ＮＮの出力層から出力される各周波数のパワーを（Ｐ１’（ｆ_０）、Ｐ１’（ｆ_１）、Ｐ１’（ｆ_２）、・・・、Ｐ１’（ｆ_ｎ））とする。

学習部１５０は、（Ｐ１’（ｆ_０）、Ｐ１’（ｆ_１）、Ｐ１’（ｆ_２）、・・・、Ｐ１’（ｆ_ｎ））と、強調パワースペクトルの各周波数のパワー（Ｐ３（ｆ_０）、Ｐ３（ｆ_１）、Ｐ３（ｆ_２）、・・・、Ｐ３（ｆ_ｎ））の差分とに基づく評価関数が０に近づくように、ＮＮの重みを調整する。学習部１５０は、雑音抑圧パワースペクトルと強調パワースペクトルとの複数の組を基にして、上記処理を繰り返し行うことで、ＮＮの重みを学習する。

雑音抑圧信号のパワースペクトルの形状と、強調パワースペクトルの形状との差分は、上記の強調部１４５の強調により、ＳＮＲの低い帯域（パワースペクトルのパワーの低い帯域）においてより大きくなる。このため、学習部１５０の機械学習により学習されるモデルを用いて補正を行うと、ＳＮＲの低い帯域を優先した重み付けによる補正が行われる。

通知部１６０は、学習モデル情報１１０ｃを、音声補正装置２００に通知する処理部である。

次に、図１に示した音声補正装置２００の構成の一例について説明する。図５は、本実施例１に係る音声補正装置の構成を示す機能ブロック図である。図５に示すように、この音声補正装置２００は、取得部２０５、記憶部２１０、窓掛部２２０、ＦＦＴ処理部２３０、パワースペクトル算出部２４０、補正部２５０、逆強調部２５５、ＩＦＦＴ処理部２６０、オーバーラップ加算部２７０、通信部２８０を有する。

各処理部（２０５、２２０、２３０、２４０、２５０、２５５、２６０、２７０、２８０）は、例えば、ＣＰＵやＭＰＵ等によって、音声補正装置２００内部に記憶されたプログラムがＲＡＭ等を作業領域として実行されることにより実現される。また、各処理部は、例えば、ＡＳＩＣやＦＰＧＡ等の集積回路により実現されてもよい。

取得部２０５は、雑音抑圧装置３５から、雑音抑圧信号を取得する処理部である。取得部２０５は、雑音抑圧信号を、記憶部２１０の雑音抑圧信号データ２１０ａに格納する。

記憶部２１０は、学習モデル情報１１０ｃと、雑音抑圧信号データ２１０ａと、補正音声信号データ２１０ｂとを有する。記憶部２１０は、ＲＡＭ、ＲＯＭ、フラッシュメモリなどの半導体メモリ素子や、ＨＤＤなどの記憶装置に対応する。

学習モデル情報１１０ｃは、学習装置１００から通知される学習モデルの情報である。学習モデル情報１１０ｃに関する説明は、図２で説明した、学習モデル情報１１０ｃに関する説明と同様である。

雑音抑圧信号データ２１０ａは、雑音抑圧信号を格納するデータ領域である。かかる雑音抑圧信号は、雑音環境で録音された音声信号に対して、雑音抑圧処理を行った信号である。

補正音声信号データ２１０ｂは、雑音抑圧信号を補正した音声信号を格納するデータ領域である。以下の説明では、雑音抑圧信号を補正した音声信号を「補正音声信号」と表記する。

窓掛部２２０は、雑音抑圧信号データ２１０ａから雑音抑圧信号を取得し、窓掛を行う処理部である。たとえば、窓掛部２２０は、ハニング窓などの時間窓を５０％オーバーラップさせて、窓掛を行う。窓掛部２２０は、窓掛を行った雑音抑圧信号を、ＦＦＴ処理部２３０に出力する。

ＦＦＴ処理部２３０は、窓掛部２２０により設定された時間窓に対応する雑音抑圧信号に対して、ＦＦＴを行うことで、雑音抑圧信号の周波数毎の成分を抽出する処理部である。ＦＦＴ処理部２３０は、雑音抑圧信号の周波数毎の成分の情報をパワースペクトル算出部２４０に出力する。また、ＦＦＴ処理部２３０は、ＦＦＴを行った際のスペクトルの情報を、ＩＦＦＴ処理部２６０に出力する。

パワースペクトル算出部２４０は、雑音抑圧信号の周波数毎の成分を基にして、周波数毎のパワースペクトル（雑音抑圧パワースペクトル）を算出する処理部である。パワースペクトル算出部２４０は、雑音抑圧パワースペクトルを、補正部２５０に出力する。

補正部２５０は、学習装置１００により学習された学習モデル情報１１０ｃのモデル（ＮＮ）を用いて、雑音抑圧パワースペクトルの形状を補正する処理部である。補正部２５０は、補正した雑音抑圧パワースペクトルを、逆強調部２５５に出力する。

補正部２５０は、雑音抑圧パワースペクトルの周波数毎のパワーを、ＮＮの入力層に入力し、ＮＮの出力層から出力される各パワー（周波数毎のパワー）を、補正した雑音抑圧パワースペクトルとする。学習装置１００により学習された学習モデル情報１１０ｃのモデルを用いて補正を行うと、ＳＮＲの低い帯域（パワーの低い帯域）を優先した重み付けによる補正が行われる。以下の説明では、補正した雑音抑圧パワースペクトルを「補正パワースペクトル」と表記する。

逆強調部２５５は、図３に示すパワースペクトルのパワーに応じたゲインを用いて、補正パワースペクトルを除算することで、補正パワースペクトルの帯域のうち、雑音抑圧信号のＳＮＲの低い帯域に対応する帯域のパワーを弱める（逆強調する）。

図６は、本実施例１に係る逆強調部の処理を説明するための図である。図６に示すグラフは、補正パワースペクトルの一例である。このグラフの横軸は周波数に対応する軸である。グラフの縦軸は、パワーに対応する軸である。図６に示す例では、帯域ｆｔにおいて、パワーがＰｔ未満となる。このため、強調部１４５は、帯域ｆｔに対応するパワーを、図３に示したグラフに基づくゲイン（１を超えるゲイン）により除算することで、教師パワースペクトルを弱める。その他の帯域については、パワーがＰｔ以上となるため、除算に用いるゲインが１となり、変化しない。

以下の説明では、逆強調部２５５が処理した補正パワースペクトルを、単に「補正パワースペクトル」と表記する。逆強調部２５５は、補正パワースペクトルを、ＩＦＦＴ処理部２６０に出力する。

ＩＦＦＴ処理部２６０は、ＦＦＴ処理部２３０からのスペクトルのパワーを、ＩＦＦＴ処理部２６０の中で計算する補正前のパワースペクトルと逆強調部２５５からの補正パワースペクトルの比を用いて補正して、逆フーリエ変換を行うことで、補正パワースペクトルを、時間と振幅との関係を示す音声信号に変換する処理部である。ＩＦＦＴ処理部２６０が逆フーリエ変換を行う際には、ＦＦＴ処理部２３０から通知されるスペクトルの情報を利用する。ＩＦＦＴ処理部２６０は、逆フーリエ変換した音声信号を、オーバーラップ加算部２７０に出力する。

オーバーラップ加算部２７０は、ＩＦＦＴ処理部２６０から出力される各音声信号を、５０％オーバーラップさせて加算する処理部である。オーバーラップ加算部２７０は、オーバーラップ加算した音声信号（補正した雑音抑圧信号）を、補正音声信号データ２１０ｂに格納する。

通信部２８０は、学習装置１００および認識装置４０との間でデータ通信を実行する処理部である。たとえば、通信部２８０は、学習装置１００から、学習モデル情報１１０ｃの通知を受信した場合には、受信した学習モデル情報１１０ｃを記憶部２１０に格納する。また、通信部２８０は、補正音声信号データ２１０ｂに格納された雑音抑圧信号を、認識装置４０に送信する。

次に、本実施例１の学習装置１００の処理手順の一例について説明する。図７は、本実施例１に係る学習装置の処理手順を示すフローチャートである。図７に示すように、学習装置１００の窓掛部１２０ａは、雑音抑圧信号に対して窓掛を行う。学習装置１００の窓掛部１２０ｂは、教師信号に対して窓掛を行う（ステップＳ１０１）。

学習装置１００のＦＦＴ処理部１３０ａは、窓掛された雑音抑圧信号に対して、ＦＦＴ処理を行う。学習装置１００のＦＦＴ処理部１３０ｂは、窓掛された教師信号に対して、ＦＦＴ処理を行う（ステップＳ１０２）。

学習装置１００のパワースペクトル算出部１４０ａは、ＦＦＴ処理された雑音抑圧信号のパワースペクトル（雑音抑圧パワースペクトル）を算出する。学習装置１００のパワースペクトル算出部１４０ｂは、ＦＦＴ処理された教師信号のパワースペクトル（教師パワースペクトル）を算出する（ステップＳ１０３）。

学習装置１００の強調部１４５は、教師パワースペクトルの帯域のうち、パワーが閾値未満となる帯域を特定する（ステップＳ１０４）。たとえば、パワーが閾値未満となる帯域は、雑音抑圧信号のＳＮＲの低い帯域に相当するものである。強調部１４５は、教師パワースペクトルの帯域のうち、パワーが閾値未満となる帯域に対して、１を超えるゲインを乗算した強調パワースペクトルを生成する（ステップＳ１０５）。

学習部１５０は、雑音抑圧パワースペクトルと強調パワースペクトルとを基にして、機械学習を行う（ステップＳ１０６）。学習装置１００は、機械学習を継続する場合には（ステップＳ１０７，Ｙｅｓ）、ステップＳ１０１に移行する。一方、学習装置１００は、機械学習を継続しない場合には（ステップＳ１０７，Ｎｏ）、ステップＳ１０８に移行する。学習装置１００の通知部１６０は、学習モデル情報１１０ｃを、音声補正装置２００に通知する（ステップＳ１０８）。

次に、本実施例１に係る音声補正装置２００の処理手順の一例について説明する。図８は、本実施例１に係る音声補正装置の処理手順を示すフローチャートである。図８に示すように、音声補正装置２００の取得部２０５は、雑音抑圧装置３５から、雑音抑圧信号を取得し、雑音抑圧信号データ２１０ａに格納する（ステップＳ２０１）。

音声補正装置２００の窓掛部２２０は、雑音抑圧信号に対して、窓掛を行う（ステップＳ２０２）。音声補正装置２００のＦＦＴ処理部２３０は、窓掛された雑音抑圧信号に対して、ＦＦＴ処理を行う（ステップＳ２０３）。

音声補正装置２００のパワースペクトル算出部２４０は、ＦＦＴ処理された雑音抑圧信号のパワースペクトル（雑音抑圧パワースペクトル）を算出する（ステップＳ２０４）。音声補正装置２００の補正部２５０は、学習モデル情報１１０ｃに基づくモデルに雑音抑圧パワースペクトルを入力して、補正処理を実施する（ステップＳ２０５）。

音声補正装置２００の逆強調部２５５は、補正パワースペクトルの帯域のうち、パワーが閾値未満となる帯域を特定する（ステップＳ２０６）。逆強調部２５５は、補正パワースペクトルの帯域のうち、パワーが閾値未満となる帯域を１を超えるゲインで除算する（ステップＳ２０７）。

音声補正装置２００のＩＦＦＴ処理部２６０は、補正パワースペクトルのパワーで、Ｓ２０３の結果のスペクトルのパワーを補正してＩＦＦＴ処理を行う（ステップＳ２０８）。音声補正装置２００のオーバーラップ加算部２７０は、オーバーラップ加算を実行する（ステップＳ２０９）。オーバーラップ加算部２７０は、オーバーラップ加算した音声信号を、補正音声信号データ２１０ｂに格納する（ステップＳ２１０）。

音声補正装置２００の通信部２８０は、補正音声信号データ２１０ｂの音声信号を、認識装置４０に送信する（ステップＳ２１１）。音声補正装置２００は、処理を継続する場合には（ステップＳ２１２，Ｙｅｓ）、ステップＳ２０１に移行する。音声補正装置２００は、処理を継続しない場合には（ステップＳ２１２，Ｎｏ）、処理を終了する。

次に、本実施例１に係る学習装置１００および音声補正装置２００の効果について説明する。学習装置１００は、教師パワースペクトルの全帯域のうち、雑音抑圧信号のＳＮＲの低い帯域に対応する帯域の成分を強調することで、強調パワースペクトルを生成する。学習装置１００は、雑音抑圧パワースペクトルの形状が、強調パワースペクトルの形状に近づくように補正するモデルを機械学習する。雑音抑圧信号のパワースペクトルの形状と、強調信号のパワースペクトルの形状との差分は、強調処理により、ＳＮＲの低い帯域（パワースペクトルのパワーの低い帯域）においてより大きくなるため、学習装置１００の機械学習により学習されるモデルでは、ＳＮＲの低い帯域を優先した重み付けによる補正が行われる。

音声補正装置２００は、学習装置１００により学習されたモデル（学習モデル情報）を基にして、雑音抑制信号を補正することで、ＳＮＲの低い帯域に発生した歪みを補正することができる。この補正により、雑音の発生する環境で雑音抑圧処理を行った音声信号の認識精度を高めることができる。

学習装置１００は、教師信号を強調する場合に、教師パワースペクトルの帯域のうち、パワーが閾値未満となる帯域のパワーに１を超えるゲインを乗算する。これにより、雑音抑圧信号のＳＮＲの低い帯域に対応する帯域の成分を強調することができる。

音声補正装置２００は、補正部２５０が補正した補正パワースペクトルの帯域のうち、パワーが閾値未満となる帯域のパワーに１を超えるゲインで除算する。かかる処理を行うことで、補正パワースペクトルの歪みを補正した上で、補正パワースペクトルから、学習装置１００の強調処理による影響を除去することができる。

なお、発明者は、高速走行時（85miles/h）の雑音混じり音声（8話者、計1,920発声）の雑音抑圧後の音声信号に対し、アイドリング時の雑音混じり音声（同じ8話者、同じ発声計1,920発声）を教師信号とし、学習処理と補正処理の実験を実施した。

評価の程度を式（１）で評価するものとする。式（１）の値が大きいほど、補正の効果が大きいことを示す。

１０×ｌｏｇ_１０｛（教師信号のパワー）／（教師信号のパワー−補正結果の音声信号のパワー）｝ｄＢ・・・（１）

実験の結果、従来技術では、式（１）の値が２．２ｄＢとなり、本発明では、式（１）の値が「９．５ｄＢ」となった。すなわち、本実施例１で説明した学習装置１００、音声補正装置２００によって、雑音の発生する環境で雑音抑圧処理を行った音声信号の認識精度を高めることができる。

ところで、本実施例１で説明した学習装置１００と音声補正装置２００とは、異なる装置である場合について説明したが、学習装置１００と、音声補正装置２００とは、同一の装置に含まれていてもよい。すなわち、音声補正装置２００は、図２に示した各データ、各処理部を有し、上述した学習装置１００と同様の学習処理を行って、学習モデル情報１１０ｃを生成してもよい。

また、学習装置１００の強調部１４５は、図７のステップＳ１０４、Ｓ１０５において、教師パワースペクトルの帯域のうち、パワーが閾値未満となる帯域を特定し、特定した帯域のパワーに対して、ゲインを乗算していた。しかし、強調部１４５の処理は、これに限定されるものではない。たとえば、強調部１４５は、教師パワースペクトルの各帯域のパワーに、パワーに応じたゲインを乗算することで、強調パワースペクトルを生成してもよい。

音声補正装置２００の逆強調部２４５は、図８のステップＳ２０６、２０７において、補正パワースペクトルの帯域のうち、パワーが閾値未満となる帯域を特定し、特定した帯域のパワーを、ゲインで除算していた。しかし、逆強調部２４５の処理は、これに限定されるものではない。たとえば、逆強調部２４５は、補正パワースペクトルの各帯域のパワーを、パワーに応じたゲインで除算することで、強調処理の影響を除外してもよい。

図９は、本実施例２に係るシステムの一例を示す図である。図９に示すように、このシステムは、マイク３０、雑音抑圧装置３５、認識装置４０、学習装置３００、音声補正装置４００を有する。マイク３０は、雑音抑圧装置３５に接続される。

音声補正装置４００は、雑音抑圧装置３５、認識装置４０、学習装置３００に接続される。図示を省略するが、音声補正装置４００は、ネットワークを介して、雑音抑圧装置３５、学習装置３００、認識装置４０に接続されてもよい。マイク３０、雑音抑圧装置３５、音声補正装置４００、認識装置４０は、車両等に搭載されていてもよい。また、マイク３０、雑音抑圧装置３５、音声補正装置４００が、車両等に搭載され、音声補正装置４００は、ネットワークを介して、認識装置４０、学習装置３００に接続されていてもよい。

マイク３０、雑音抑圧装置３５、認識装置４０の説明は、図１で説明したマイク３０、雑音抑圧装置３５、認識装置４０の説明と同様である。

学習装置３００は、予め準備された、雑音抑圧信号と、教師信号とを基にして、モデルを機械学習する装置である。学習装置３００は、機械学習したモデルの情報を、音声補正装置４００に通知する。

ここで、学習装置１００は、モデルを機械学習する場合に、次の処理を行う。学習装置３００は、教師信号の全帯域のうち、雑音抑圧信号のＳＮＲの低い帯域に対応する帯域の成分を強調する。以下の説明では、強調した教師信号を「強調信号」と表記する。本実施例２では、学習装置３００は、教師信号のパワースペクトルから、雑音抑圧信号のパワースペクトルを減算することで、強調信号を生成する。

学習装置３００は、雑音抑圧信号のパワースペクトルの形状が、強調信号のパワースペクトルの形状に近づくように補正するモデルを機械学習する。雑音抑圧信号のパワースペクトルの形状と、強調信号のパワースペクトルの形状との差分は、上記の強調により、ＳＮＲの低い帯域（パワースペクトルのパワーの低い帯域）においてより大きくなるため、学習装置１００の機械学習により学習されるモデルでは、ＳＮＲの低い帯域に対する補正の度合いをより大きくすることができる。

音声補正装置４００は、学習装置３００により学習されたモデルを用いて、雑音抑圧信号を補正する装置である。音声補正装置４００は、補正した雑音抑圧信号を、認識装置４０に出力する。

上記のように、学習装置３００により学習されるモデルでは、ＳＮＲの低い帯域により大きな補正が加えられるような重み付けが行われる。このため、雑音抑圧信号に含まれるＳＮＲの低い帯域に含まれる歪みに対応する補正を行うことができ、これにより、雑音の発生する環境で雑音抑圧処理を行った音声信号の認識精度を高めることができる。

次に、図９に示した学習装置３００の構成の一例について説明する。図１０は、本実施例２に係る学習装置の構成を示す機能ブロック図である。図１０に示すように、この学習装置３００は、記憶部３１０と、窓掛部３２０ａ，３２０ｂ、ＦＦＴ処理部３３０ａ，３３０ｂ、パワースペクトル算出部３４０ａ，３４０ｂ、強調部３４５、学習部３５０、通知部３６０を有する。

各処理部（３２０ａ，３２０ｂ、３３０ａ，３３０ｂ、３４０ａ，３４０ｂ、３４５、３５０、３６０）は、例えば、ＣＰＵやＭＰＵ等によって、学習装置３００内部に記憶されたプログラムがＲＡＭ等を作業領域として実行されることにより実現される。また、各処理部は、例えば、ＡＳＩＣやＦＰＧＡ等の集積回路により実現されてもよい。

記憶部３１０は、雑音抑圧信号データベース３１０ａと、教師信号データベース３１０ｂと、学習モデル情報３１０ｃとを有する。記憶部３１０は、ＲＡＭ、ＲＯＭ、フラッシュメモリなどの半導体メモリ素子や、ＨＤＤなどの記憶装置に対応する。

雑音抑圧信号データベース３１０ａは、雑音抑圧信号を格納するデータベースである。かかる雑音抑圧信号は、雑音環境で録音された音声信号に対して、雑音抑圧処理を行った信号である。

教師信号データベース３１０ｂは、教師信号を格納するデータベースである。かかる教師信号は、雑音の発生しない理想的な環境で録音された音声信号である。

学習モデル情報３１０ｃは、学習部３５０により学習されるモデルである。たとえば、学習部３５０により学習されるモデルは、ニューラルネットワークである。ニューラルネットワークは、入力層、隠れ層、出力層の各層を有し、各層において、複数のノードがエッジで接続される。各層は、活性化関数と呼ばれる関数を持ち、エッジは、重みを持つ。

窓掛部３２０ａは、雑音抑圧信号データベース３１０ａから雑音抑圧信号を取得し、窓掛を行う処理部である。たとえば、窓掛部３２０ａは、ハニング窓などの時間窓を５０％オーバーラップさせて、窓掛を行う。窓掛部３２０ａは、窓掛を行った雑音抑圧信号を、ＦＦＴ処理部３３０ａに出力する。

窓掛部３２０ｂは、教師信号データベース３１０ｂから教師信号を取得し、窓掛を行う処理部である。たとえば、窓掛部３２０ｂは、ハニング窓などの時間窓を５０％オーバーラップさせて、窓掛を行う。窓掛部３２０ｂは、窓掛を行った教師信号を、ＦＦＴ処理部３３０ｂに出力する。

ＦＦＴ処理部３３０ａは、窓掛部３２０ａにより設定された時間窓に対応する雑音抑圧信号に対して、ＦＦＴを行うことで、雑音抑圧信号の周波数毎の成分を抽出する処理部である。ＦＦＴ処理部３３０ａは、雑音抑圧信号の周波数毎の成分の情報をパワースペクトル算出部３４０ａに出力する。

ＦＦＴ処理部３３０ｂは、窓掛部３２０ｂにより設定された時間窓に対応する教師信号に対して、ＦＦＴを行うことで、教師信号の周波数毎の成分を抽出する処理部である。ＦＦＴ処理部３３０ｂは、教師信号の周波数毎の成分の情報をパワースペクトル算出部３４０ｂに出力する。

パワースペクトル算出部３４０ａは、雑音抑圧信号の周波数毎の成分を基にして、周波数毎のパワースペクトルを算出する処理部である。パワースペクトル算出部３４０ａは、雑音抑圧信号の周波数毎のパワーの情報を、強調部３４５および学習部３５０に出力する。以下の説明では、雑音抑圧信号の周波数毎のパワーの情報を「雑音抑圧パワースペクトル」と表記する。

パワースペクトル算出部３４０ｂは、教師信号の周波数毎の成分を基にして、周波数毎のパワーを算出する処理部である。パワースペクトル算出部３４０ｂは、教師信号の周波数毎のパワーの情報を、強調部３４５に出力する。以下の説明では、教師信号の周波数毎のパワーの情報を「教師パワースペクトル」と表記する。

強調部３４５は、教師信号の全帯域のうち、雑音抑圧信号のＳＮＲの低い帯域に対応する帯域の成分を強調する。ここで、雑音抑圧信号のＳＮＲの低い帯域は、パワースペクトルのパワーが低い帯域に対応する。具体的には、強調部３４５は、教師パワースペクトルから、雑音抑圧パワースペクトルを減算することで、「強調パワースペクトル」を生成する。強調部３４５は、強調パワースペクトルの情報を学習部３５０に出力する。

図１１は、本実施例２に係る強調部の処理を説明するための図である。図１１では、教師パワースペクトル５０ａ、雑音抑圧パワースペクトル５０ｂ、強調パワースペクトル５０ｃを示す。各パワースペクトル５０ａ，５０ｂ，５０ｃの横軸は、周波数に対応する軸であり、縦軸は、パワーに対応する軸である。雑音抑圧信号のＳＮＲの低い帯域は、パワーの低い帯域であり、たとえば、周波数ｆｔとなる。強調部３４５は、教師パワースペクトル５０ａから、雑音抑圧パワースペクトル５０ｂを減算することで、強調パワースペクトル５０ｃを生成する。強調パワースペクトル５０ｃでは、雑音抑圧信号のＳＮＲの低い帯域に対応する周波数のパワーが強調される。

図１０の説明に戻る。学習装置３００の窓掛部３２０ａ，３２０ｂ、ＦＦＴ処理部３３０ａ，３３０ｂ、パワースペクトル算出部３４０ａ，３４０ｂ、強調部３４５は、上記の処理を繰り返し実行することで、雑音抑圧パワースペクトルと、強調パワースペクトルとの複数の組を、学習部３５０に出力する。

学習部３５０は、雑音抑圧パワースペクトルと強調パワースペクトルとの複数の組を基にして、雑音抑圧パワースペクトルの形状が、強調パワースペクトルの形状に近づくように補正するモデルを機械学習する処理部である。学習部３５０は、機械学習したモデルの情報を、学習モデル情報３１０ｃとして、記憶部３１０に格納する。学習部３５０が、雑音抑圧パワースペクトルと強調パワースペクトルとの複数の組を基にして、機械学習を行う処理は、実施例１で説明した学習部１５０の機械学習と同様である。

通知部３６０は、学習モデル情報３１０ｃを、音声補正装置４００に通知する処理部である。

次に、図９に示した音声補正装置４００の構成の一例について説明する。図１２は、本実施例２に係る音声補正装置の構成を示す機能ブロック図である。図１２に示すように、この音声補正装置４００は、取得部４０５、記憶部４１０、窓掛部４２０、ＦＦＴ処理部４３０、パワースペクトル算出部４４０、補正部４５０、逆強調部４５５、ＩＦＦＴ処理部４６０、オーバーラップ加算部４７０、通信部４８０を有する。

各処理部（４０５、４２０、４３０、４４０、４５０、４５５、４６０、４７０、４８０）は、例えば、ＣＰＵやＭＰＵ等によって、音声補正装置４００内部に記憶されたプログラムがＲＡＭ等を作業領域として実行されることにより実現される。また、各処理部は、例えば、ＡＳＩＣやＦＰＧＡ等の集積回路により実現されてもよい。

取得部４０５は、雑音抑圧装置３５から、雑音抑圧信号を取得する処理部である。取得部４０５は、雑音抑圧信号を、記憶部４１０の雑音抑圧信号データ４１０ａに格納する。

記憶部４１０は、学習モデル情報３１０ｃと、雑音抑圧信号データ４１０ａと、補正音声信号データ４１０ｂとを有する。記憶部４１０は、ＲＡＭ、ＲＯＭ、フラッシュメモリなどの半導体メモリ素子や、ＨＤＤなどの記憶装置に対応する。

学習モデル情報３１０ｃは、学習装置３００から通知される学習モデルの情報である。学習モデル情報３１０ｃに関する説明は、図１０で説明した、学習モデル情報３１０ｃに関する説明と同様である。

雑音抑圧信号データ４１０ａは、雑音抑圧信号を格納するデータ領域である。かかる雑音抑圧信号は、雑音環境で録音された音声信号に対して、雑音抑圧処理を行った信号である。

補正音声信号データ４１０ｂは、雑音抑圧信号を補正した音声信号を格納するデータ領域である。以下の説明では、雑音抑圧信号を補正した音声信号を「補正音声信号」と表記する。

窓掛部４２０は、雑音抑圧信号データ４１０ａから雑音抑圧信号を取得し、窓掛を行う処理部である。たとえば、窓掛部４２０は、ハニング窓などの時間窓を５０％オーバーラップさせて、窓掛を行う。窓掛部４２０は、窓掛を行った雑音抑圧信号を、ＦＦＴ処理部４３０に出力する。

ＦＦＴ処理部４３０は、窓掛部４２０により設定された時間窓に対応する雑音抑圧信号に対して、ＦＦＴを行うことで、雑音抑圧信号の周波数毎の成分を抽出する処理部である。ＦＦＴ処理部４３０は、雑音抑圧信号の周波数毎の成分の情報をパワースペクトル算出部４４０に出力する。また、ＦＦＴ処理部４３０は、ＦＦＴを行った際のスペクトルの情報を、ＩＦＦＴ処理部４６０に出力する。

パワースペクトル算出部４４０は、雑音抑圧信号の周波数毎の成分を基にして、周波数毎のパワースペクトル（雑音抑圧パワースペクトル）を算出する処理部である。パワースペクトル算出部４４０は、雑音抑圧パワースペクトルを、補正部４５０および逆強調部４５５に出力する。

補正部４５０は、学習装置３００により学習された学習モデル情報３１０ｃのモデル（ＮＮ）を用いて、雑音抑圧パワースペクトルの形状を補正する処理部である。補正部４５０は、補正した雑音抑圧パワースペクトルを、逆強調部４５５に出力する。

補正部４５０は、雑音抑圧パワースペクトルの周波数毎のパワーを、ＮＮの入力層に入力し、ＮＮの出力層から出力される各パワー（周波数毎のパワー）を、補正した雑音抑圧パワースペクトルとする。学習装置３００により学習された学習モデル情報３１０ｃのモデルを用いて補正を行うと、ＳＮＲの低い帯域に対する補正の度合いがより大きくなる。以下の説明では、補正した雑音抑圧パワースペクトルを「補正パワースペクトル」と表記する。

逆強調部４５５は、補正部４５０による補正を行った上で、補正パワースペクトルに雑音パワースペクトルを加算することで、学習装置３００の強調部３４５の処理の影響（減算の影響）を除去する。

図１３は、本実施例２に係る逆強調部の処理を説明するための図である。図１３では、補正パワースペクトル５１ａ、雑音抑圧パワースペクトル５１ｂ、加算結果のパワースペクトル５１ｃを示す。各パワースペクトル５１ａ，５１ｂ，５１ｃの横軸は、周波数に対応する軸であり、縦軸は、パワーに対応する軸である。逆強調部４５５は、補正パワースペクトル５１ａと、雑音抑圧パワースペクトル５１ｂとを加算することで、加算結果のパワースペクトル５１ｃを生成する。かかる処理を逆強調部４５５が実行することで、減算の影響が除去される。

逆強調部４５５は、加算結果のパワースペクトル５１ｃを、ＩＦＦＴ処理部４６０に出力する。以下の説明では、補正パワースペクトル５１ａと、雑音抑圧パワースペクトル５１ｂとを加算して得られる加算結果のパワースペクトル５１ｃを、単に、補正パワースペクトルと表記する。

ＩＦＦＴ処理部４６０は、ＦＦＴ処理部４３０からのスペクトルのパワーを、ＩＦＦＴ処理部４６０の中で計算する補正前のパワースペクトルと逆強調部４５５からの補正パワースペクトルの比を用いて補正して、逆フーリエ変換を行うことで、補正パワースペクトルを、時間と振幅との関係を示す音声信号に変換する処理部である。ＩＦＦＴ処理部４６０が逆フーリエ変換を行う際には、ＦＦＴ処理部４３０から通知されるスペクトルの情報を利用する。ＩＦＦＴ処理部４６０は、逆フーリエ変換した音声信号を、オーバーラップ加算部４７０に出力する。

オーバーラップ加算部４７０は、ＩＦＦＴ処理部４６０から出力される各音声信号を、５０％オーバーラップさせて加算する処理部である。オーバーラップ加算部４７０は、オーバーラップ加算した音声信号（補正した雑音抑圧信号）を、補正音声信号データ４１０ｂに格納する。

通信部４８０は、学習装置３００および認識装置４０との間でデータ通信を実行する処理部である。たとえば、通信部４８０は、学習装置３００から、学習モデル情報３１０ｃの通知を受信した場合には、受信した学習モデル情報３１０ｃを記憶部４１０に格納する。また、通信部４８０は、補正音声信号データ４１０ｂに格納された雑音抑圧信号を、認識装置４０に送信する。

次に、本実施例２の学習装置３００の処理手順の一例について説明する。図１４は、本実施例２に係る学習装置の処理手順を示すフローチャートである。図１４に示すように、学習装置３００の窓掛部３２０ａは、雑音抑圧信号に対して窓掛を行う。学習装置３００の窓掛部３２０ｂは、教師信号に対して窓掛を行う（ステップＳ３０１）。

学習装置３００のＦＦＴ処理部３３０ａは、窓掛された雑音抑圧信号に対して、ＦＦＴ処理を行う。学習装置３００のＦＦＴ処理部３３０ｂは、窓掛された教師信号に対して、ＦＦＴ処理を行う（ステップＳ３０２）。

学習装置３００のパワースペクトル算出部３４０ａは、ＦＦＴ処理された雑音抑圧信号のパワースペクトル（雑音抑圧パワースペクトル）を算出する。学習装置３００のパワースペクトル算出部３４０ｂは、ＦＦＴ処理された教師信号のパワースペクトル（教師パワースペクトル）を算出する（ステップＳ３０３）。

学習装置３００の強調部３４５は、教師パワースペクトルから雑音抑圧パワースペクトルを減算して、強調パワースペクトルを生成する（ステップＳ３０４）。

学習装置３００の学習部３５０は、雑音抑圧パワースペクトルと強調パワースペクトルとを基にして、機械学習を行う（ステップＳ３０５）。学習装置３００は、機械学習を継続する場合には（ステップＳ３０６，Ｙｅｓ）、ステップＳ３０１に移行する。一方、学習装置３００は、機械学習を継続しない場合には（ステップＳ３０６，Ｎｏ）、ステップＳ３０７に移行する。学習装置３００の通知部３６０は、学習モデル情報３１０ｃを、音声補正装置４００に通知する（ステップＳ３０７）。

次に、本実施例２に係る音声補正装置４００の処理手順の一例について説明する。図１５は、本実施例２に係る音声補正装置の処理手順を示すフローチャートである。図１５に示すように、音声補正装置４００の取得部４０５は、雑音抑圧装置３５から、雑音抑圧信号を取得し、雑音抑圧信号データ４１０ａに格納する（ステップＳ４０１）。

音声補正装置２００の窓掛部２２０は、雑音抑圧信号に対して、窓掛を行う（ステップＳ４０２）。音声補正装置４００のＦＦＴ処理部４３０は、窓掛された雑音抑圧信号に対して、ＦＦＴ処理を行う（ステップＳ４０３）。

音声補正装置４００のパワースペクトル算出部４４０は、ＦＦＴ処理された雑音抑圧信号のパワースペクトル（雑音抑圧パワースペクトル）を算出する（ステップＳ４０４）。音声補正装置４００の補正部４５０は、学習モデル情報３１０ｃに基づくモデルに雑音抑圧パワースペクトルを入力して、補正処理を実施する（ステップＳ４０５）。

音声補正装置４００の逆強調部４５５は、補正パワースペクトルに、雑音抑圧パワースペクトルを加算する（ステップＳ４０６）。

音声補正装置４００のＩＦＦＴ処理部４６０は、補正パワースペクトルに対してＩＦＦＴ処理を行う（ステップＳ４０７）。音声補正装置４００のオーバーラップ加算部４７０は、オーバーラップ加算を実行する（ステップＳ４０８）。オーバーラップ加算部４７０は、オーバーラップ加算した音声信号を、補正音声信号データ４１０ｂに格納する（ステップＳ４０９）。

音声補正装置４００の通信部４８０は、補正音声信号データ４１０ｂの音声信号を、認識装置４０に送信する（ステップＳ４１０）。音声補正装置４００は、処理を継続する場合には（ステップＳ４１１，Ｙｅｓ）、ステップＳ４０１に移行する。音声補正装置４００は、処理を継続しない場合には（ステップＳ４１１，Ｎｏ）、処理を終了する。

次に、本実施例２に係る学習装置３００および音声補正装置４００の効果について説明する。学習装置１００は、教師パワースペクトルから雑音抑圧パワースペクトルを減算することで、雑音抑圧信号のＳＮＲの低い帯域に対応する帯域の成分が強調された、強調パワースペクトルを生成する。学習装置３００は、雑音抑圧パワースペクトルの形状が、強調パワースペクトルの形状に近づくように補正するモデルを機械学習する。雑音抑圧信号のパワースペクトルの形状と、強調信号のパワースペクトルの形状との差分は、強調処理により、ＳＮＲの低い帯域（パワースペクトルのパワーの低い帯域）においてより大きくなるため、学習装置１００の機械学習により学習されるモデルでは、ＳＮＲの低い帯域の補正の度合いがより大きくなる。

音声補正装置４００は、学習装置３００により学習されたモデル（学習モデル情報）を基にして、雑音抑制信号を補正することで、ＳＮＲの低い帯域に発生した歪みを補正することができる。この補正により、雑音の発生する環境で雑音抑圧処理を行った音声信号の認識精度を高めることができる。

音声補正装置４００は、補正部４５０が補正した補正パワースペクトルに雑音抑圧パワースペクトルを加算する。かかる処理を行うことで、補正パワースペクトルの歪みを補正した上で、補正パワースペクトルから、学習装置３００の強調処理（減算）による影響を除去することができる。

ところで、本実施例２で説明した学習装置３００と音声補正装置４００とは、異なる装置である場合について説明したが、学習装置３００と、音声補正装置４００とは、同一の装置に含まれていてもよい。すなわち、音声補正装置４００は、図１２に示した各データ、各処理部を有し、上述した学習装置３００と同様の学習処理を行って、学習モデル情報３１０ｃを生成してもよい。

ここで、実際の音声信号を用いた場合の強調処理、逆強調処理の一例について説明する。図１６は、実際の音声信号を用いた場合の強調処理を示す図である。図１６では、教師パワースペクトル５２ａ、雑音抑圧パワースペクトル５２ｂ、強調パワースペクトル５２ｃを示す。各パワースペクトル５２ａ，５２ｂ，５２ｃの横軸は、周波数に対応する軸であり、縦軸は、パワーに対応する軸である。強調部３４５は、教師パワースペクトル５２ａから、雑音抑圧パワースペクトル５２ｂを減算することで、強調パワースペクトル５２ｃを生成する。強調パワースペクトル５２ｃでは、雑音抑圧信号のＳＮＲの低い帯域に対応する周波数のパワー（領域Ａ１、Ａ２、Ａ３、Ａ４に含まれるパワー）が強調されている。

図１７は、実際の音声信号を用いた場合の逆強調処理を示す図である。図１７では、補正パワースペクトル５３ａ、雑音抑圧パワースペクトル５３ｂ、加算結果のパワースペクトル５３ｃを示す。各パワースペクトル５３ａ，５３ｂ，５３ｃの横軸は、周波数に対応する軸であり、縦軸は、パワーに対応する軸である。図１７の補正パワースペクトル５３ａは、補正部４５０に補正されたパワースペクトルであり、領域Ｂ１、Ｂ２、Ｂ３、Ｂ４、Ｂ５、Ｂ６、Ｂ７に含まれるパワーがより大きく補正される。領域Ｂ１、Ｂ２、Ｂ３、Ｂ４、Ｂ５、Ｂ６、Ｂ７は、雑音抑圧信号のＳＮＲの低い帯域に対応するものである。逆強調部４５５は、補正パワースペクトル５３ａと、雑音抑圧パワースペクトル５３ｂとを加算することで、加算結果のパワースペクトル５３ｃを生成する。かかる処理を逆強調部４５５が実行することで、図１６でおこなった、減算の影響が除去される。

次に、本実施例１、２に示した認識装置４０の構成の一例について説明する。図１８は、認識装置の構成を示す機能ブロック図である。図１８に示すように、この認識装置４０は、通信部４１と、記憶部４２と、制御部４３とを有する。ここでは一例として、認識総理４０が、音声補正装置２００に接続されている場合について説明する。

通信部４１は、音声補正装置２００とデータ通信を行う処理部である。たとえば、通信部４１は、通信装置に対応する。後述する制御部４３は、通信部４１を介して、音声補正装置２００とデータをやり取りする。たとえば、通信部４１は、雑音抑圧信号を補正した音声信号を受信し、受信した音声信号を、制御部４３に出力する。

記憶部４２は、音声信号データ４２ａを有する。記憶部４２は、ＲＡＭ、ＲＯＭ、フラッシュメモリなどの半導体メモリ素子や、ＨＤＤなどの記憶装置に対応する。

音声信号データ４２ａは、音声補正装置２００から送信される音声信号を格納するデータ領域である。音声補正装置２００から送信される音声信号は、雑音抑圧信号を補正した音声信号である。

制御部４３は、取得部４３ａ、音声認識部４３ｂ、通知部４３ｃを有する。制御部４３は、ＣＰＵやＭＰＵ等によって、認識装置４０内部に記憶されたプログラムがＲＡＭ等を作業領域として実行されることにより実現される。また、制御部４３は、例えば、ＡＳＩＣやＦＰＧＡ等の集積回路により実現されてもよい。

取得部４３ａは、音声補正装置２００から音声信号を取得し、取得した音声信号を、音声信号データ４２ａに格納する処理部である。

音声認識部４３ｂは、音声信号データ４２ａに格納された音声信号を取得し、音声認識を行う処理部である。たとえば、音声認識部４３は、予め音声認識辞書情報を保持しておき、かかる音声認識辞書情報と、音声信号とを比較して、音声認識を行う。たとえば、音声認識部４３ｂは、音声認識の結果を基にして、音声信号を文字列に変換してもよいし、音声信号の特徴を抽出して、音声信号に対応する人物の識別等をおこなってもよい。音声認識部４３ｂは、音声認識結果を、通知部４３ｃに出力する。音声認識部４３ｂは、音声認識結果を、記憶部４２に格納してもよい。

通知部４３ｃは、音声認識結果を予め指定された外部装置（図示略）に通知する処理部である。また、通知部４３ｃは、図示しない表示装置に、音声認識結果を出力して表示させてもよい。

なお、実施例１、２では、音声補正装置１００，２００と、認識装置４０とが別々の装置である場合について説明したがこれに限定されるものではない。音声補正装置１００，２００は、図１８で説明した各処理部、各データを有し、認識装置４０と同様の処理を行ってもよい。

次に、実施例に示した学習装置１００，３００、音声補正装置２００，４００と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図１９は、本実施例に係る学習装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

図１９に示すように、コンピュータ５００は、各種演算処理を実行するＣＰＵ５０１と、ユーザからのデータの入力を受け付ける入力装置５０２と、ディスプレイ５０３とを有する。また、コンピュータ５００は、記憶媒体からプログラム等を読み取る読み取り装置５０４と、有線または無線ネットワークを介して、外部装置等との間でデータの授受を行うインタフェース装置５０５とを有する。コンピュータ５００は、各種情報を一時記憶するＲＡＭ５０６と、ハードディスク装置５０７とを有する。そして、各装置５０１〜５０７は、バス５０８に接続される。

ハードディスク装置５０７は、窓掛プログラム５０７ａ、ＦＦＴ処理プログラム５０７ｂ、パワースペクトル算出プログラム５０７ｃ、強調プログラム５０７ｄ、学習プログラム５０７ｅ、通知プログラム５０７ｆを有する。ＣＰＵ５０１は、窓掛プログラム５０７ａ、ＦＦＴ処理プログラム５０７ｂ、パワースペクトル算出プログラム５０７ｃ、強調プログラム５０７ｄ、学習プログラム５０７ｅ、通知プログラム５０７ｆを読み出してＲＡＭ５０６に展開する。

窓掛プログラム５０７ａは、窓掛プロセス５０６ａとして機能する。ＦＦＴ処理プログラム５０７ｂは、ＦＦＴ処理プロセス５０６ｂとして機能する。パワースペクトル算出プログラム５０７ｃは、パワースペクトル算出プロセス５０６ｃとして機能する。強調プログラム５０７ｄは、強調プロセス５０６ｄとして機能する。学習プログラム５０７ｅは、学習プロセス５０６ｅとして機能する。通知プログラム５０７ｆは、通知プロセス５０６ｆとして機能する。

窓掛プロセス５０６ａの処理は、窓掛部１２０ａ，１２０ｂ，３２０ａ，３２０ｂの処理に対応する。ＦＦＴ処理プロセス５０６ｂの処理は、ＦＦＴ処理部１３０ａ，１３０ｂ，３３０ａ，３３０ｂの処理に対応する。パワースペクトル算出プロセス５０６ｃの処理は、パワースペクトル算出部１４０ａ，１４０ｂ，３４０ａ，３４０ｂの処理に対応する。強調プロセス５０６ｄの処理は、強調部１４５，３４５の処理に対応する。学習プロセス５０６ｅの処理は、学習部１５０，３５０の処理に対応する。通知プロセス５０６ｆの処理は、通知部１６０，３６０の処理に対応する。

なお、各プログラム５０７ａ〜５０７ｆについては、必ずしも最初からハードディスク装置５０７に記憶させておかなくてもよい。例えば、コンピュータ５００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ−ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ５００が各プログラム５０７ａ〜５０７ｆを読み出して実行するようにしてもよい。

図２０は、本実施例に係る音声補正装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

図２０に示すように、コンピュータ６００は、各種演算処理を実行するＣＰＵ６０１と、ユーザからのデータの入力を受け付ける入力装置６０２と、ディスプレイ６０３とを有する。また、コンピュータ６００は、記憶媒体からプログラム等を読み取る読み取り装置６０４と、有線または無線ネットワークを介して、外部装置等との間でデータの授受を行うインタフェース装置６０５とを有する。コンピュータ６００は、各種情報を一時記憶するＲＡＭ６０６と、ハードディスク装置６０７とを有する。そして、各装置６０１〜６０７は、バス６０８に接続される。

ハードディスク装置６０７は、取得プログラム６０７ａ、窓掛プログラム６０７ｂ、ＦＦＴ処理プログラム６０７ｃ、パワースペクトル算出プログラム６０７ｄ、補正プログラム６０７ｅを有する。ハードディスク装置６０７は、逆強調プログラム６０７ｆ、ＩＦＦＴ処理プログラム６０７ｇ、オーバーラップ加算プログラム６０７ｈ、通信プログラム６０７ｉを有する。ＣＰＵ６０１は、各プログラム６０７ａ〜６０７ｉを読み出してＲＡＭ６０６に展開する。

取得プログラム６０７ａは、取得プロセス６０６ａとして機能する。窓掛プログラム６０７ｂは、窓掛プロセス６０６ｂとして機能する。ＦＦＴ処理プログラム６０７ｃは、ＦＦＴ処理プロセス６０６ｃとして機能する。パワースペクトル算出プログラム６０７ｄは、パワースペクトル算出プロセス６０６ｄとして機能する。補正プログラム６０７ｅは、補正プロセス６０６ｅとして機能する。逆強調プログラム６０７ｆは、逆強調プロセス６０６ｆとして機能する。ＩＦＦＴ処理プログラム６０７ｇは、ＩＦＦＴ処理プロセス６０６ｇとして機能する。オーバーラップ加算プログラム６０７ｈは、オーバーラップ加算プロセス６０６ｈとして機能する。通信プログラム６０７ｉは、通信プロセス６０６ｉとして機能する。

取得プロセス６０６ａの処理は、取得部２０５，４０５の処理に対応する。窓掛プロセス６０６ｂの処理は、窓掛部２２０，４２０の処理に対応する。ＦＦＴ処理プロセス６０６ｃの処理は、ＦＦＴ処理部２３０、４３０の処理に対応する。パワースペクトル算出プロセス６０６ｄの処理は、パワースペクトル算出部２４０，４４０の処理に対応する。補正プロセス６０６ｅの処理は、補正部２５０，４５０の処理に対応する。逆強調プロセス６０６ｆの処理は、逆強調部２５５，４５５の処理に対応する。ＩＦＦＴ処理プロセス６０６ｇの処理は、ＩＦＦＴ処理部２６０，４６０の処理に対応する。オーバーラップ加算プロセス６０６ｈの処理は、オーバーラップ加算部２７０，４７０の処理に対応する。通信プロセス６０６ｉの処理は、通信部２８０，４８０の処理に対応する。

なお、各プログラム６０７ａ〜６０７ｉについては、必ずしも最初からハードディスク装置６０７に記憶させておかなくてもよい。例えば、コンピュータ６００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ−ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ６００が各プログラム６０７ａ〜６０７ｉを読み出して実行するようにしてもよい。

図２１は、本実施例に係る認識装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。コンピュータ７００は、各種演算処理を実行するＣＰＵ７０１と、ユーザからのデータの入力を受け付ける入力装置７０２と、ディスプレイ７０３とを有する。また、コンピュータ７００は、記憶媒体からプログラム等を読み取る読み取り装置６０４と、有線または無線ネットワークを介して、外部装置等との間でデータの授受を行うインタフェース装置７０５とを有する。コンピュータ７００は、各種情報を一時記憶するＲＡＭ７０６と、ハードディスク装置７０７とを有する。そして、各装置７０１〜７０７は、バス７０８に接続される。

ハードディスク装置７０７は、取得プログラム７０７ａ、音声認識プログラム７０７ｂ、通知プログラム７０７ｃを有する。ＣＰＵ７０１は、各プログラム７０７ａ〜７０７ｃを読み出してＲＡＭ７０６に展開する。

取得プログラム７０７ａは、取得プロセス７０６ａとして機能する。音声認識プログラム７０７ｂは、音声認識プロセス７０６ｂとして機能する。通知プログラム７０７ｃは、通知プロセス７０６ｃとして機能する。

取得プロセス７０６ａの処理は、取得部４３ａの処理に対応する。音声認識プロセス７０６ｂの処理は、音声認識部４３ｂの処理に対応する。通知プロセス７０６ｃの処理は、通知部４３ｃの処理に対応する。

なお、各プログラム７０７ａ〜７０７ｃについては、必ずしも最初からハードディスク装置７０７に記憶させておかなくてもよい。例えば、コンピュータ７００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ−ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ７００が各プログラム７０７ａ〜７０７ｃを読み出して実行するようにしてもよい。

以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。

（付記１）雑音が発生している際に録音された音声情報であって、かつ、雑音抑圧処理の行われた第１音声情報と、雑音の発生していない環境で録音された音声情報を示す第２音声情報とを取得し、前記第２音声情報の帯域のうち、前記第１音声情報のＳＮＲ（Signal Noise Ratio）が低い帯域に対応する帯域の成分を強調した強調情報を生成する強調部と、
前記第１音声情報と、前記強調情報とを基にして、モデルを機械学習する学習部と、
前記学習部によって機械学習されたモデルを基にして、雑音抑圧処理の行われた第３音声情報を補正した補正音声情報を生成する補正部と
を有することを特徴とする音声補正装置。

（付記２）前記強調部は、前記第２音声情報の帯域のうち、成分の値が閾値未満となる帯域を強調対象の帯域として特定し、前記第２音声情報の帯域のうち、前記強調対象の帯域に対応する帯域の成分に１より大きいゲインを乗算することで、前記強調情報を生成することを特徴とする付記１に記載の音声補正装置。

（付記３）前記補正部によって補正された前記補正音声情報の帯域のうち、前記強調対象の帯域に対応する帯域の成分を前記ゲインで除算する逆強調部と、前記補正音声情報の帯域のうち、前記強調対象の帯域に対応する帯域の成分を前記ゲインで除算された情報を基にして音声認識を行う音声認識部を更に有することを特徴とする付記２に記載の音声補正装置。

（付記４）前記強調部は、前記第２音声情報から前記第１音声情報を減算することで、前記強調情報を生成することを特徴とする付記１に記載の音声補正装置。

（付記５）前記補正部によって補正された前記補正音声情報に、前記第３音声情報を加算する逆強調部と、前記補正音声情報に前記第３音声情報が加算された情報を基にして音声認識を行う音声認識部を更に有することを特徴とする付記４に記載の音声補正装置。

（付記６）コンピュータが、
雑音が発生している際に録音された音声情報であって、かつ、雑音抑圧処理の行われた第１音声情報と、雑音の発生していない環境で録音された音声情報を示す第２音声情報とを取得し、前記第２音声情報の帯域のうち、前記第１音声情報のＳＮＲ（Signal Noise Ratio）が低い帯域に対応する帯域の成分を強調した強調情報を生成し、
前記第１音声情報と、前記強調情報とを基にして、モデルを機械学習し、
機械学習された前記モデルを基にして、雑音抑圧処理の行われた第３音声情報を補正した補正音声情報を生成する
処理を実行することを特徴とする音声補正方法。

（付記７）前記強調情報を生成する処理は、前記第２音声情報の帯域のうち、成分の値が閾値未満となる帯域を強調対象の帯域として特定し、前記第２音声情報の帯域のうち、前記強調対象の帯域に対応する帯域の成分に１より大きいゲインを乗算することで、前記強調情報を生成することを特徴とする付記６に記載の音声補正方法。

（付記８）前記補正音声情報の帯域のうち、前記強調対象の帯域に対応する帯域の成分を前記ゲインで除算し、前記補正音声情報の帯域のうち、前記強調対象の帯域に対応する帯域の成分を前記ゲインで除算した情報を基にして音声認識を行う処理を更に実行することを特徴とする付記７に記載の音声補正方法。

（付記９）前記強調情報を生成する処理は、前記第２音声情報から前記第１音声情報を減算することで、前記強調情報を生成することを特徴とする付記６に記載の音声補正方法。

（付記１０）前記補正音声情報に、前記第３音声情報を加算し、前記補正音声情報に前記第３音声情報が加算した情報を基にして音声認識を行う処理を更に実行することを特徴とする付記９に記載の音声補正方法。

１００，３００学習装置
１１０，２１０，３１０，４１０記憶部
１１０ａ，３１０ａ雑音抑圧信号データベース
２１０ａ，４１０ａ雑音抑圧信号データ
１１０ｂ，３１０ｂ教師信号データベース
２１０ｂ，４１０ｂ補正音声信号データ
１１０ｃ，３１０ｃ学習モデル情報
１２０ａ，１２０ｂ，２２０，３２０ａ，３２０ｂ，４２０窓掛部
１３０ａ，１３０ｂ，２３０，３３０ａ，３３０ｂ，４３０ＦＦＴ処理部
１４０ａ，１４０ｂ，２４０，３４０ａ，３４０ｂ，４４０パワースペクトル算出部
１４５，３４５強調部
１５０，３５０学習部
１６０，３６０通知部
２００，４００音声補正装置
２０５，４０５取得部
２５０，４５０補正部
２５５，４５５逆強調部
２６０，４６０ＩＦＦＴ処理部
２７０，４７０オーバーラップ加算部
２８０，４８０通信部

Claims

雑音が発生している際に録音された音声情報であって、かつ、雑音抑圧処理の行われた第１音声情報と、雑音の発生していない環境で録音された音声情報を示す第２音声情報とを取得し、前記第２音声情報の帯域のうち、前記第１音声情報のＳＮＲ（Signal Noise Ratio）が低い帯域に対応する帯域の成分を強調した強調情報を生成する強調部と、
前記第１音声情報と、前記強調情報とを基にして、モデルを機械学習する学習部と、
前記学習部によって機械学習されたモデルを基にして、雑音抑圧処理の行われた第３音声情報を補正した補正音声情報を生成する補正部と
を有することを特徴とする音声補正装置。
前記強調部は、前記第２音声情報の帯域のうち、成分の値が閾値未満となる帯域を強調対象の帯域として特定し、前記第２音声情報の帯域のうち、前記強調対象の帯域に対応する帯域の成分に１より大きいゲインを乗算することで、前記強調情報を生成することを特徴とする請求項１に記載の音声補正装置。
前記補正部によって補正された前記補正音声情報の帯域のうち、前記強調対象の帯域に対応する帯域の成分を前記ゲインで除算する逆強調部と、前記補正音声情報の帯域のうち、前記強調対象の帯域に対応する帯域の成分を前記ゲインで除算された情報を基にして音声認識を行う音声認識部を更に有することを特徴とする請求項２に記載の音声補正装置。
前記強調部は、前記第２音声情報から前記第１音声情報を減算することで、前記強調情報を生成することを特徴とする請求項１に記載の音声補正装置。
前記補正部によって補正された前記補正音声情報に、前記第３音声情報を加算する逆強調部と、前記補正音声情報に前記第３音声情報が加算された情報を基にして音声認識を行う音声認識部を更に有することを特徴とする請求項４に記載の音声補正装置。
コンピュータが、
雑音が発生している際に録音された音声情報であって、かつ、雑音抑圧処理の行われた第１音声情報と、雑音の発生していない環境で録音された音声情報を示す第２音声情報とを取得し、前記第２音声情報の帯域のうち、前記第１音声情報のＳＮＲ（Signal Noise Ratio）が低い帯域に対応する帯域の成分を強調した強調情報を生成し、
前記第１音声情報と、前記強調情報とを基にして、モデルを機械学習し、
機械学習された前記モデルを基にして、雑音抑圧処理の行われた第３音声情報を補正した補正音声情報を生成する
処理を実行することを特徴とする音声補正方法。