JP6243858B2

Patents

Full documents

Title

Abstract

Claims

All

Any

Exact

Not

Add AND condition

These CPCs and their children

These exact CPCs

Add AND condition

Exact

Exact Batch

Similar

Substructure

Substructure (SMARTS)

Full documents

Claims only

Add AND condition

Application Numbers

Publication Numbers

Either

Add AND condition

音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム

Images (0)

Landscapes

Circuit For Audible Band Transducer

JP6243858B2

Japan

Download PDF

Find Prior Art

Similar

Other languages: English
Inventor: 雅清藤本; 雅清藤本; 中谷　智広; 智広中谷
Current Assignee The listed assignees may be inaccurate. : Nippon Telegraph and Telephone Corp

2015

2015-02-05

Application filed by Nippon Telegraph and Telephone Corp

2015-02-05

Priority to JP2015021453A

2016-08-08

Publication of JP2016143043A

2017-12-06

Application granted

2017-12-06

Publication of JP6243858B2

Status

Active

2035-02-05

Anticipated expiration

Info: Patent citations (2); Cited by (19); Legal events; Similar documents; Priority and Related Applications
External links: Espacenet; Global Dossier; Discuss

Description

本発明は、音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラムに関する。

近年、自動音声認識は、情報化社会の中で利用局面が増えつつあり、技術の進歩が大きく期待されている。自動音声認識を実際の環境で利用する場合には、処理対象とする音声信号以外の信号、つまり雑音が含まれる音響信号から雑音を取り除き、所望の音声信号を抽出する必要がある。

例えば、音声信号と雑音信号が混合された信号を入力とし、あらかじめ推定した音声信号及び雑音信号それぞれの確率モデルから入力混合信号の確率モデルを生成する。その際、入力混合信号の確率モデルを構成する音声信号及び雑音信号それぞれの確率モデルと、入力混合信号に含まれる音声信号及び雑音信号それぞれの統計量との差分をテイラー級数近似で表現する。その差分をＥＭアルゴリズムを用いて推定し、入力混合信号の確率モデルを最適化する。その後、最適化された入力混合信号の確率モデルと音声信号の確率モデルのパラメータを用いて雑音を抑圧する方法が開示されている（例えば非特許文献１参照）。

また、例えば、音声信号と雑音信号が混合された信号を入力とし，多数話者の学習用音声データを用いて学習された音声信号の確率モデルを入力混合信号に含まれる音声信号の発話者の特徴に適応（話者適応）させ、かつ統計的な性質が多峰的な分布に従う雑音信号に対処するため、入力混合信号より音声信号と、雑音信号とをそれぞれ抽出する。この際、ＳＮ比を基準として、単位時間毎に各抽出信号の信頼度を算出する。抽出した音声信号及び雑音信号と、各信号の信頼度とを用いて話者適応のパラメータと、多峰的な分布に従う雑音信号の確率モデルをＥＭアルゴリズムにより推定する。その後、話者適応後の音声信号の確率モデルと、推定した雑音の確率モデルとから入力信号の最適な確率モデルを生成し、入力混合信号の最適な確率モデルと話者適応後の音声信号の確率モデルのパラメータを用いて雑音を抑圧する方法が開示されている（例えば非特許文献２参照）。

P. J. Moreno, B. Raj, and R. M. Stern, "A vector Taylor series approach for environment-independent speech recognition." in Proceedings of ICASSP '96, vol. II, pp. 733-736, May 1996. M. Fujimoto and T. Nakatani, "A reliable data selection for model-based noise suppression using unsupervised joint speaker adaptation and noise model estimation." in Proceedings of ICSPCC '12, pp. 4713-4716, Aug 2012.

しかしながら、上記従来技術は、例えば非特許文献１において、入力混合信号に含まれる雑音信号の特徴が定常的かつ、その分布（頻度分布もしくは確率分布）が単峰性であるという前提のもとで雑音抑圧を行う技術である。しかし、実環境における雑音信号の多くは非定常的な特徴を持ち、その分布は多峰性であることが多い。そのため、非定常的な雑音信号に対応できず、十分な雑音抑圧性能が得られない。また、入力混合信号に含まれる音声信号と雑音信号との関係が非線形関数により表現されるため、テイラー級数近似を用いても音声信号及び雑音信号それぞれの確率モデルのパラメータ推定の際に解析解が得られない。そのため、音声信号及び雑音信号それぞれの確率モデルパラメータの最適解が得られず、十分な雑音抑圧性能が得られない。

また、上記従来技術は、例えば非特許文献２において、多峰的な分布に従う雑音信号の確率モデルを推定することにより、非定常的な雑音信号に対応することが可能であっても、話者適応のパラメータと、多峰的な分布に従う雑音信号の確率モデルとをＥＭアルゴリズムにより推定する。音声信号の確率モデルには、混合正規分布（Gaussian Mixture Model：ＧＭＭ）を用いるが、入力混合信号から音声信号と雑音信号とを抽出、話者適応パラメータ推定及び雑音抑圧フィルタを設計する際には、音声信号のＧＭＭに含まれる各要素分布に対する事後確率（音声事後確率と定義）が必要となる。これは，入力混合信号に含まれる音声信号が、各時刻において音声信号のＧＭＭ内のどの要素分布に属するかという識別問題に相当する。しかし、識別器としてのＧＭＭの性能は低く、ＧＭＭでは十分な雑音抑圧性能が得られない。

本願が開示する実施形態の一例は、上記に鑑みてなされたものであって、雑音抑圧性能を向上させることを目的とする。

本願の実施形態の一例は、学習用の音声信号から音響特徴量を抽出する。そして、実施形態の一例は、抽出された音響特徴量と、音声信号の混合正規分布とを対応付けるラベル情報を生成する。そして、実施形態の一例は、学習用の音声信号及び学習用の雑音信号を含む学習用の音響信号から正規化された音響特徴量を抽出する。そして、実施形態の一例は、生成されたラベル情報と、抽出された正規化された音響特徴量とを用いて、音声モデルを学習する。

また、本願の実施形態の一例は、上記音声モデル学習方法により学習された音声モデルを音声モデル記憶部に保存する。そして、実施形態の一例は、音声信号及び雑音信号を含む混合音響信号から音響特徴量を抽出する。そして、実施形態の一例は、混合音響信号から正規化された音響特徴量を抽出する。そして、実施形態の一例は、音声モデルと、抽出された正規化された音響特徴量とを用いて、音声事後確率を計算する。そして、実施形態の一例は、計算された音声事後確率と、音声信号の混合正規分布とを用いて、混合音響信号における雑音信号を抑圧する。

本願が開示する実施形態の一例によれば、例えば、雑音抑圧性能を向上させることができる。

図１は、音声モデル学習装置の構成の一例を示す図である。図２は、音声モデル学習装置の第１音響特徴抽出部の処理手順の一例を示すフローチャートである。図３は、音声モデル学習装置の第２音響特徴抽出部の処理手順の一例を示すフローチャートである。図４は、雑音抑圧装置の構成の一例を示す図である。図５は、雑音抑圧装置のパラメータ推定部の構成の一例を示す図である。図６は、雑音抑圧装置のパラメータ推定部の処理手順の一例を示すフローチャートである。図７は、雑音抑圧装置のパラメータ推定部による信頼データ選択処理のサブルーチンの一例を示すフローチャートである。図８は、雑音抑圧装置の雑音抑圧部の構成の一例を示す図である。図９は、雑音抑圧装置の雑音抑圧フィルタ推定部の処理手順の一例を示すフローチャートである。図１０は、雑音抑圧装置の雑音抑圧フィルタ適用部の処理手順の一例を示すフローチャートである。図１１は、実施形態による効果の一例を示す図である。図１２は、プログラムが実行されることにより、音声モデル学習装置及び雑音抑圧装置が実現されるコンピュータの一例を示す図である。

［実施形態］
以下、本願が開示する音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラムの実施形態を説明する。なお、以下の実施形態は、一例を示すに過ぎず、本願が開示する技術を限定するものではない。また、以下に示す実施形態及びその他の実施形態は、矛盾しない範囲で適宜組合せてもよい。

なお、以下の実施形態では、例えば、ベクトル又はスカラーであるＡに対し、“＾Ａ”と記載する場合は「“Ａ”の真上に“＾”が記された記号」と同等とし、“￣Ａ”と記載する場合は「“Ａ”の真上に“￣”が記された記号」と同等であるとする。また、“Ａ”がベクトルである場合には、「ベクトルＡ」と表記し、“Ａ”がスカラーである場合には、単に「Ａ」と表記し、“Ａ”が集合である場合には、「集合Ａ」と表記するものとする。また、例えばベクトルＡの関数ｆは、ｆ（ベクトルＡ）と表記するものとする。なお、行列Ａに対し、行列Ａ^−１は、行列Ａの逆行列を表す。

また、以下の実施形態では、音声信号の識別器として、ディープニューラルネットワーク（Deep Neural Network：ＤＮＮ）に基づく識別器を導入する。ＤＮＮは、多層パーセプトロンの一種であり、通常の多層パーセプトロンが３層程度の識別層を有するのに対し、実施形態では、３層より多くの識別層を有し、より深いネットワークを構築する。具体的には、各識別層を制約付きボルツマンマシン（Restricted Boltzmann Machine：ＲＢＭ)で学習し、その後、各識別層のＲＢＭを連結してネットワーク全体のパラメータを調整することにより、深い識別層を持つニューラルネットワークを構築することができる。このような深い識別層を持たせることで、音声信号の識別性能を高めることができる。

ＤＮＮによる音声信号の識別器を雑音抑圧に導入するためには、ＤＮＮの出力層に含まれる各ノードと、音声信号のＧＭＭの各要素分布との対応付けを行う必要がある。そのために、先ず、各時刻における雑音の存在しない音声信号が、音声信号のＧＭＭに含まれるどの要素分布に属するかを示した分布ラベルを生成する。その後、音声信号と雑音信号との混合信号と、分布ラベルを用いて音声信号のＤＮＮを学習する。このような方法を用いることにより、音声信号のＧＭＭの各要素と音声信号のＤＮＮの出力層の各ノードとの対応付けが可能となる。

また、音声信号のＤＮＮを用いることで、入力混合信号に含まれる音声信号の識別性能が向上し、入力混合信号からの音声信号と雑音信号との抽出精度、及び、話者適応パラメータと、雑音抑圧フィルタとの推定精度とを改善することが可能となる。

なお、ＤＮＮについては、文献１「A. Mohamed, G. Dahl, G. Hinton, “Acoustic Modeling Using Deep Belief Networks.”, IEEE Transactions on Audio, Speech, and Language Processing, vol. 20, no1., pp. 14-22, 2012.」、文献２「久保陽太郎，“ディープラーニングによるパターン認識”，情報処理，vol. 54，no. 5，pp. 500-508，April 2013.」に詳述されている。

（音声モデル学習装置の構成）
図１は、音声モデル学習装置の構成の一例を示す図である。音声モデル学習装置１００は、音声ＧＭＭ記憶装置３００、音声ＤＮＮ記憶装置４００が接続される。音声ＧＭＭ記憶装置３００は、音声ＧＭＭ３００ａを記憶する。音声ＤＮＮ記憶装置４００は、後述する音声ＤＮＮ学習部１４０により学習されたパラメータである重み行列Ｗ_ｊと、バイアスベクトルｖ_ｊとを含む音声ＤＮＮ４００ａを記憶する。音声モデル学習装置１００は、学習用音声信号Ｏ^{ｃｌｅａｎ} _τ及び学習用音声信号Ｏ^{ｃｌｅａｎ} _τと学習用雑音信号とが混合した学習用混合信号Ｏ^{ｎｏｉｓｙ} _τを入力とし、ＤＮＮのパラメータである重み行列Ｗ_ｊと、バイアスベクトルｖ_ｊとを出力する。音声モデル学習装置１００は、第１音響特徴抽出部１１０、第２音響特徴抽出部１２０、最尤分布推定部１３０、音声ＤＮＮ学習部１４０を有する。

第１音響特徴抽出部１１０は、学習用音声信号Ｏ^{ｃｌｅａｎ} _τを入力とし、学習用音声信号Ｏ^{ｃｌｅａｎ} _τから音声ＤＮＮの学習に用いる対応分布ラベルＬａｂ_ｔを得るための特徴量である学習用対数メルスペクトルのベクトルＯ^{ｃｌｅａｎ} _ｔを抽出する。

図２は、音声モデル学習装置の第１音響特徴抽出部の処理手順の一例を示すフローチャートである。図２に従い、第１音響特徴抽出部１１０の処理を説明する。先ず、第１音響特徴抽出部１１０は、フレーム切出処理にて学習用音声信号Ｏ^{ｃｌｅａｎ} _τ（τは離散信号のサンプル点）を時間軸方向に一定時間幅で始点を移動させながら、一定時間長の音響信号をフレームとして切り出す（ステップＳ１１０ａ）。例えば、第１音響特徴抽出部１１０は、Ｆｒａｍｅ＝４００個のサンプル点（１６，０００Ｈｚ×２５ｍｓ）の音響信号Ｏ^{ｃｌｅａｎ} _τ，ｎを、Ｓｈｉｆｔ＝１６０個のサンプル点（１６，０００Ｈｚ×１０ｍｓ）ずつ始点を移動させながら切り出す。ここで、ｔはフレーム番号、ｎはフレーム内のｎ番目のサンプル点を表す。その際、第１音響特徴抽出部１１０は、例えば、下記（１）式に示すハミング窓のような窓関数ｗ_ｎを掛け合わせて切り出す。

その後、第１音響特徴抽出部１１０は、音響信号Ｏ^{ｃｌｅａｎ} _ｔ，ｎに対して、Ｍ点（Ｍは２のべき乗かつＦｒａｍｅ以上の値であり、例えばＭ＝５１２）の高速フーリエ変換処理を実行し、複素数スペクトルのベクトルＳｐｃ^{ｃｌｅａｎ} _ｔ＝｛Ｓｐｃ^{ｃｌｅａｎ} _ｔ，０，・・・，Ｓｐｃ^{ｃｌｅａｎ} _ｔ，ｍ，・・・，Ｓｐｃ^{ｃｌｅａｎ} _{ｔ，Ｍ−１}｝^Ｔを得る（ｍは、周波数ビンの番号）（ステップＳ１１０ｂ）。なお、｛・｝^Ｔは、行列又はベクトルの転置を表す。次に、各Ｓｐｃ^{ｃｌｅａｎ} _ｔ，ｍの絶対値に対して、メルフィルタバンク分析処理（ステップＳ１１０ｃ）、対数化処理（ステップＳ１１０ｄ）を適用し、Ｒ次元（例えばＲ＝２４）の対数メルスペクトルを要素に持つベクトルＯ^{ｃｌｅａｎ} _ｔ＝｛Ｏ^{ｃｌｅａｎ} _ｔ，０，・・・，Ｏ^{ｃｌｅａｎ} _ｔ，ｒ，・・・，Ｏ^{ｃｌｅａｎ} _{ｔ，Ｒ−１}｝^Ｔを算出する（ｒはベクトルＯ^{ｃｌｅａｎ} _ｔの要素番号）。この結果、第１音響特徴抽出部１１０は、学習用対数メルスペクトルとして、ベクトルＯ^{ｃｌｅａｎ} _ｔを出力する。

第２音響特徴抽出部１２０は、学習用音声信号Ｏ^{ｃｌｅａｎ} _τと学習用雑音信号とが混合した学習用混合信号Ｏ^{ｎｏｉｓｙ} _τを入力とし、学習用混合信号Ｏ^{ｎｏｉｓｙ} _τから音声モデル学習を実施するための特徴量である学習用正規化対数メルスペクトルのベクトルＯ^{ｎｏｉｓｙ} _ｔを抽出する。

図３は、音声モデル学習装置の第２音響特徴抽出部の処理手順の一例を示すフローチャートである。図３に従い、第２音響特徴抽出部１２０の処理を説明する。第２音響特徴抽出部１２０は、ステップＳ１２０ａ〜Ｓ１２０ｄにおいて、Ｏ^{ｎｏｉｓｙ} _τに対して、図２に示す、Ｏ^{ｃｌｅａｎ} _τに対して実行されるステップＳ１１０ａ〜Ｓ１１０ｄそれぞれと同様の処理を実行する。

次に、第２音響特徴抽出部１２０は、ステップＳ１２０ｄの対数化処理にて得られた学習用混合信号Ｏ^{ｎｏｉｓｙ} _τの対数メルスペクトルに対して、正規化処理を適用する（ステップＳ１２０ｅ）。具体的には、第２音響特徴抽出部１２０は、学習用混合信号Ｏ^{ｎｏｉｓｙ} _τの対数メルスペクトル全体から求めた学習用混合信号Ｏ^{ｎｏｉｓｙ} _τの対数メルスペクトルの平均と標準偏差を用いて、学習用混合信号Ｏ^{ｎｏｉｓｙ} _τの対数メルスペクトルを平均０、分散１に正規化する。

次に、第２音響特徴抽出部１２０は、ステップＳ１２０ｅの正規化処理にて正規化された学習用混合信号Ｏ^{ｎｏｉｓｙ} _τの対数メルスペクトルの１次と、２次の回帰係数を算出し、正規化された学習用混合信号Ｏ^{ｎｏｉｓｙ} _τの対数メルスペクトルと合わせて３Ｒ次元のベクトルＯ^ｎｏｒｍ _ｔ＝｛Ｏ^ｎｏｒｍ _ｔ，０，・・・，Ｏ^ｎｏｒｍ _ｔ，ｒ，・・・，Ｏ^ｎｏｒｍ _{ｔ，３Ｒ−１}｝^Ｔを構成する回帰係数付与処理を実行する（ステップＳ１２０ｆ）。その後、第２音響特徴抽出部１２０は、ステップＳ１２０ｆの回帰係数付与処理にて回帰係数が付与されたベクトルＯ^ｎｏｒｍ _ｔをフレームｔの前後Ｚフレーム｛ｔ−Ｚ，・・・，ｔ，・・・，ｔ＋Ｚ｝分だけ結合した３Ｒ×（２Ｒ＋１）次元のベクトルＯ^ｎｏｒｍ _ｔ＝｛ベクトルＯ^ｎｏｒｍ _ｔ―Ｚ ^Ｔ，・・・，ベクトルＯ^ｎｏｒｍ _ｔ ^Ｔ，・・・，ベクトルＯ^ｎｏｒｍ _ｔ＋Ｚ ^Ｔ｝^Ｔを算出するフレーム連結処理を実行する（例えばＺ＝５）（ステップＳ１２０ｇ）。この結果、第２音響特徴抽出部１２０は、学習用正規化対数メルスペクトルのベクトルＯ^ｎｏｒｍ _ｔを出力する。

最尤分布推定部１３０は、第１音響特徴抽出部１１０の出力である学習用対数メルスペクトルのベクトルＯ^{ｃｌｅａｎ} _ｔと、音声ＧＭＭ記憶装置３００の主記憶上に記憶された音声ＧＭＭ３００ａとを用いて、対応分布ラベルＬａｂ_ｔを得る。

最尤分布推定部１３０は、学習用対数メルスペクトルのベクトルＯ^{ｃｌｅａｎ} _ｔと、音声ＧＭＭ３００ａとを用いて、音声ＤＮＮの学習に用いる対応分布ラベルＬａｂ_ｔを、下記（２）式により推定する。

上記（２）式において、ｋは音声ＧＭＭ３００ａに含まれる正規分布の番号であり、最大値Ｋを取る。Ｋは総正規分布数である。例えば、Ｋ＝５１２である。上記（２）式において、ｗ_ＳＩ，ｋは音声ＧＭＭ３００ａの混合重みであり、ベクトルμ_ＳＩ,ｋは音声ＧＭＭ３００ａの平均ベクトルであり、ベクトルΣ_ＳＩ,ｋは音声ＧＭＭ３００ａの対角分散行列である。それぞれのパラメータであるｗ_ＳＩ，ｋ、ベクトルμ_ＳＩ,ｋ、ベクトルΣ_ＳＩ,ｋは、多数話者の学習用音声データを用いて事前に推定されたものである。また、上記（２）式において、関数Ｎ（・）は、下記（３）式で与えられる多次元正規分布の確率密度関数である。上記（２）式は、ｋを１≦ｋ≦Ｋの範囲で走査した場合のｍａｘ｛・｝を対応分布ラベルＬａｂ_ｔとする。

音声ＤＮＮ学習部１４０は、対応分布ラベルＬａｂ_ｔと学習用正規化対数メルスペクトルのベクトルＯ^{ｎｏｉｓｙ} _ｔとを用いて、音声ＤＮＮ４００ａのパラメータである重み行列Ｗ_ｊとバイアスベクトルｖ_ｊとを学習する。音声ＤＮＮ学習部１４０は、最尤分布推定部１３０により推定された対応分布ラベルＬａｂ_ｔと、第２音響特徴抽出部１２０により計算された学習用正規化対数メルスペクトルのベクトルＯ^{ｎｏｉｓｙ} _ｔとを用いて、音声ＤＮＮ４００ａとして、Ｊ層の隠れ層を持つＤＮＮを学習する（例えばＪ＝５）。ＤＮＮの一般的な学習方法は、前述の文献１及び文献２に示されるとおりである。

音声ＤＮＮ学習部１４０は、音声ＤＮＮ４００ａのパラメータである重み行列Ｗ_ｊと、バイアスベクトルｖ_ｊとを、音声ＤＮＮ記憶装置４００へ出力し、主記憶上に記憶させる。なお、重み行列Ｗ_ｊはＤ_ｊ×Ｄ_ｊ−１次元の行列であり、バイアスベクトルｖ_ｊはＤ_ｊ次元の縦ベクトルである（例えば、Ｄ_０＝３Ｒ×(２Ｚ＋１)、Ｄ_ｊ＝２０４８（ｊ＝１，・・・，Ｊ−１）、Ｄ_ｊ＝Ｋ）。

（雑音抑圧装置の構成）
図４は、雑音抑圧装置の構成の一例を示す図である。雑音抑圧装置２００は、音声ＧＭＭ記憶装置３００、音声ＤＮＮ記憶装置４００が接続される。雑音抑圧装置２００は、音声信号及び雑音信号が混合された入力混合信号Ｏ_τを入力とし、入力混合信号Ｏ_τにおいて雑音信号が抑圧されたと推定される雑音抑圧信号＾Ｓ_τを出力する。雑音抑圧装置２００は、第１音響特徴抽出部２１０、第２音響特徴抽出部２２０、パラメータ推定部２３０、雑音抑圧部２４０を有する。

第１音響特徴抽出部２１０は、音声信号及び雑音信号が混合した入力混合信号Ｏ_τを入力とし、入力混合信号Ｏ_τに対して雑音抑圧を実施するための特徴量である複素数スペクトルのベクトルＳｐｃ_ｔ及び入力混合信号Ｏ_τの対数メルスペクトルのベクトルＯ_ｔを抽出する。第１音響特徴抽出部２１０は、音声モデル学習装置１００の第１音響特徴抽出部１１０と同様の処理機能を有する。

第２音響特徴抽出部２２０は、入力混合信号Ｏ_τを入力とし、入力混合信号Ｏ_τから音声事後確率Ｐ_ｔ，ｋを計算するための特徴量である正規化対数メルスペクトルのベクトルＯ^ＤＮＮ _ｔを抽出する。第２音響特徴抽出部２２０は、音声モデル学習装置１００の第２音響特徴抽出部１２０と同様の処理機能を有する。

パラメータ推定部２３０は、第１音響特徴抽出部２１０により抽出された対数メルスペクトルのベクトルＯ_ｔと、音声ＧＭＭ記憶装置３００に記憶された音声ＧＭＭ３００ａと、第２音響特徴抽出部２２０により抽出された正規化対数メルスペクトルのベクトルＯ^ＤＮＮ _ｔと、音声ＤＮＮ記憶装置４００に記憶された音声ＤＮＮ４００ａとを用いて、話者適応パラメータのベクトルｂと、雑音の確率モデルである雑音ＧＭＭのパラメータセットλとを推定する。

多数話者の学習用音声データから推定されたパラメータから構成される音声ＧＭＭ３００ａは、話者独立（Speaker Independent：ＳＩ）ＧＭＭと呼ばれ、特定話者の学習用音声データから推定されたパラメータから構成される音声ＧＭＭは、話者依存（Speaker Dependent:ＳＤ）ＧＭＭと呼ばれる。話者独立ＧＭＭを特定話者の学習用音声データを用いて学習することは、実用的ではないため、話者適応処理により、話者依存ＧＭＭを得る。すなわち、下記（４）式による話者適応処理により、話者独立ＧＭＭの平均ベクトルμ_ＳＩ，ｋを変換することにより、話者依存ＧＭＭの平均ベクトルμ_ＳＤ，ｋを得る。

上記（４）式において、ベクトルｂは話者適応パラメータであり、Ｒ次元のベクトルでる。ベクトルｂは、音声ＧＭＭ３００ａに含まれる正規分布の番号ｋに対して独立のパラメータとする。一方、雑音ＧＭＭは、下記（５）式により与えられる。

上記（５）式において、ｌは雑音ＧＭＭに含まれる正規分布の番号、Ｌは正規分布の総数である（例えば、Ｌ＝４）。また、ベクトルＮ_ｔは雑音の対数メルスペクトルであり、ｐ_Ｎ（ベクトルＮ_ｔ）は雑音ＧＭＭの尤度である。また、ｗ_Ｎ，ｌは雑音ＧＭＭの混合重みであり、ベクトルμ_Ｎ，ｌは雑音ＧＭＭの平均ベクトル、行列Σ_Ｎ，ｌは雑音ＧＭＭの対角分散行列である。以後、雑音ＧＭＭのパラメータセットをλ＝｛ｗ_Ｎ，ｌ，ベクトルμ_Ｎ，ｌ，行列Σ_Ｎ，ｌ｝と定義する。

パラメータ推定部２３０は、話者適応パラメータのベクトルｂと、雑音ＧＭＭのパラメータセットλは、ＥＭアルゴリズムにより推定する。ＥＭアルゴリズムは、ある確率モデルのパラメータ推定に用いられる方法であり、確率モデルのコスト関数（対数尤度関数）の期待値を計算するＥｘｐｅｃｔａｔｉｏｎ−ｓｔｅｐ（Ｅ−ｓｔｅｐ）と、コスト関数を最大化するＭａｘｉｍｉｚａｔｉｏｎ−ｓｔｅｐ（Ｍ−ｓｔｅｐ）とを、収束条件を満たすまで繰り返すことによりパラメータを最適化する。

さらに、図４に示すパラメータ推定部２３０の詳細構成について説明する。図５は、雑音抑圧装置のパラメータ推定部の構成の一例を示す図である。図５に示すように、パラメータ推定部２３０は、初期化部２３１、確率及び信号推定部２３２、信頼データ選択部２３３、話者適応パラメータ推定部２３４、雑音ＧＭＭ推定部２３５、収束判定部２３６を有する。

図６は、雑音抑圧装置のパラメータ推定部の処理手順の一例を示すフローチャートである。図６に従い、パラメータ推定部２３０の処理を説明する。先ず、初期化部２３１は、ＥＭアルゴリズムの繰り返しインデックスをｉ＝１と初期化する（ステップＳ２３０ａ）。次に、初期化部２３１は、ＥＭアルゴリズムにおける話者適応パラメータのベクトルｂと、雑音ＧＭＭのパラメータセットλの初期値を、下記（６）〜（１１）式により推定する初期値推定処理を実行する（ステップＳ２３０ｂ）。ここで、下記（９）式におけるＵは初期値推定に要するフレーム数である（例えばＵ＝１０）。また、下記（９）式におけるｄｉａｇ｛・｝は、行列・の対角成分のみを計算し、非対角成分を０とすることを表す。

上記（９）式において、添え字ｉはＥＭアルゴリズムにおけるｉ回目の繰り返し推定におけるパラメータであることを示す。また、上記（６）式におけるベクトル０は、要素が０であるＲ次元縦ベクトルである。また、上記（１０）式におけるＧａｕｓｓＲａｎｄ（・）は、正規乱数の発生関数である。

次に、確率及び信号推定部２３２は、正規化対数メルスペクトルのベクトルＯ^ＤＮＮ _ｔと、音声ＤＮＮ４００ａ記憶されるパラメータである重み行列Ｗ_ｊ及びバイアスベクトルｖ_ｊとを用いて、下記（１２）式〜（１５）式により、音声事後確率Ｐ_ｔ，ｋを計算する音声事後確率計算処理を実行する（ステップＳ２３０ｃ）。

なお、上記（１４）式において、Ｗ_{ｊ，ｋ，ｋ´}は重み行列Ｗ_ｊの要素であり、ｖ_ｊ，ｋはバイアスベクトルｖ_ｊの要素であり、上記（１５）式において、Ｏ^ＤＮＮ _ｔ，ＫはベクトルＯ^ＤＮＮ _ｔの要素である。

次に、確率及び信号推定部２３２は、（ｉ−１）回目の繰り返し推定における話者適応パラメータのベクトルｂ^{（ｉ−１）}と、（ｉ−１）回目の繰り返し推定における雑音ＧＭＭのパラメータセットλ^{（ｉ−１）}と、音声ＧＭＭ３００ａのパラメータを利用して、下記（１６）式のような、対数メルスペクトルのベクトルＯ_ｔのＧＭＭを構成する混合信号ＧＭＭ生成処理を実行する（ステップＳ２３０ｄ）。

なお、上記（１６）式において、ｐ_ｏ ^（ｉ）（ベクトルＯ^ｔ）は、ステップＳ２３０ｄの混合信号ＧＭＭ生成処理にて生成される対数メルスペクトルのベクトルＯ_ｔの、音声ＧＭＭ３００ａに対する尤度である。また、ｗ_{Ｏ，ｋ，ｌ} ^（ｉ）、ベクトルμ_{Ｏ，ｋ，ｌ} ^（ｉ）、行列Σ_{Ｏ，ｋ，ｌ} ^（ｉ）は、それぞれ、（ｉ−１）回目の繰り返し推定における話者適応パラメータセットのベクトルｂ^{（ｉ−１）}と、雑音ＧＭＭのパラメータセットλ^(ｉ−１)と、音声ＧＭＭ３００ａのパラメータとから生成される対数メルスペクトルのベクトルＯｔのＧＭＭの混合重み、平均ベクトル、対角分散行列であり、下記（１７）式〜（２０）式で与えられる。

なお、上記（１８）式において、対数関数ｌｏｇ（・）及び指数関数ｅｘｐ（・）は、ベクトルの要素毎に演算を行う。また、上記（１８）式及び（２０）式において、ベクトル１は、全ての要素が１であるＲ次元縦ベクトルである。また、上記（１９）式において、Ｈ_ｋ，ｌ ^（ｉ）は、関数ｈ（・）のヤコビ行列である。

次に、確率及び信号推定部２３２は、ｉ回目の繰り返し推定における対数メルスペクトルのベクトルＯ_ｔの確率モデルのコスト関数Ｑｏ（・）の期待値を、下記（２１）式により計算する期待値計算処理を実行する（ＥＭアルゴリズムのＥ−ｓｔｅｐ）（ステップＳ２３０ｅ）。

上記（２１）式において、ベクトルＯ_{０：Ｔ−１}＝｛Ｏ_０，・・・，Ｏ_ｔ，・・・Ｏ_Ｔ−１｝である。また、上記（２１）式において、Ｔは対数メルスペクトルのベクトルＯ_ｔの総フレーム数である。また、上記（２１）式において、Ｐ_{ｔ，ｋ，ｌ} ^（ｉ）は、下記（２２）式及び（２３）により、フレームｔにおける音声ＧＭＭ３００ａの正規分布番号ｋ及び雑音ＧＭＭの正規分布番号ｌに対して与えられる音声事後確率である。

なお、ＥＭアルゴリズムのＭ−ｓｔｅｐは、ステップＳ２３０ｆの信号推定処理、ステップＳ２３０ｇの信頼データ選択処理、ステップＳ２３０ｈの話者適応パラメータ推定処理、ステップＳ２３０ｉの雑音ＧＭＭパラメータ推定処理に該当する。

ステップＳ２３０ｆにおいて、確率及び信号推定部２３２は、話者適応パラメータのベクトルｂ^（ｉ）と、雑音ＧＭＭのパラメータセットλ^（ｉ）を更新するために用いる、クリーン音声の対数メルスペクトルのベクトルＳ_ｔ ^（ｉ）と、雑音の対数メルスペクトルのベクトルＮ_ｔ ^（ｉ）とを、対数メルスペクトルのベクトルＯ_ｔから推定する。クリーン音声の対数メルスペクトルのベクトルＳ_ｔ ^（ｉ）と、雑音の対数メルスペクトルのベクトルＮ_ｔ ^（ｉ）は、下記（２４）式及び（２５）式により推定される。

次に、信頼データ選択部２３３は、話者適応パラメータのベクトルｂ^（ｉ）と、雑音ＧＭＭのパラメータセットλ^（ｉ）とを推定する際に用いる、クリーン音声の推定対数メルスペクトルのベクトル＾Ｓ_ｔ ^（ｉ）と、雑音の推定対数メルスペクトル＾Ｎ_ｔ ^（ｉ）とを選択する信頼データ選択処理を実行する（ステップＳ２３０ｇ）。

図７は、雑音抑圧装置のパラメータ推定部による信頼データ選択処理のサブルーチンの一例を示すフローチャートである。信頼データ選択処理は、全フレームにおいて、クリーン音声と、雑音とのいずれが優勢であるかを判定した結果に基づき、クリーン音声が優勢であれば、各フレーム番号ｔをクリーン音声信号フレームの集合Ｔ_Ｓ ^（ｉ）に格納し、雑音が優勢であれば、各フレーム番号ｔを雑音フレームの集合Ｔ_Ｎ ^（ｉ）に格納する処理である。図７に示すように、先ず、信頼データ選択部２３３は、各フレームｔにおけるＳＮ比であるＳＮＲ_ｔ ^（ｉ）を、下記（２６）式により計算する。

上記（２６）式において、＾Ｓ_ｔ，ｒ ^（ｉ）は、フレームｔにおけるクリーン音声の推定対数メルスペクトルのベクトル＾Ｓ_ｔ ^（ｉ）の要素であり、＾Ｎ_ｔ，ｒ ^（ｉ）は、フレームｔにおける雑音の推定対数メルスペクトルのベクトル＾Ｎ_ｔ ^（ｉ）の要素である。そして、信頼データ選択部２３３は、上記（２６）式により得られた、各フレームｔにおけるＳＮ比であるＳＮＲ_ｔ ^（ｉ）にｋ−ｍｅａｎクラスタリングを適用して、全てのフレームｔにおけるＳＮＲ_ｔ ^（ｉ）を２つのクラスＣ＝０，１に分類し、各クラスの平均ＳＮ比をＡｖｅＳＮＲ_ｃ ^（ｉ）と定義する（以上、ステップＳ２３０ｇ−１）。

そして、信頼データ選択部２３３は、各フレームｔにおいてＡｖｅＳＮＲ_ｃ＝０ ^（ｉ）≧ＡｖｅＳＮＲ_ｃ＝１ ^（ｉ）であるか否かを判定する（ステップＳ２３０ｇ−２）。信頼データ選択部２３３は、フレームｔにおいてＡｖｅＳＮＲ_ｃ＝０ ^（ｉ）≧ＡｖｅＳＮＲ_ｃ＝１ ^（ｉ）であると判定した場合、ステップＳ２３０ｇ−３へ処理を移す。一方、信頼データ選択部２３３は、フレームｔにおいてＡｖｅＳＮＲ_ｃ＝０ ^（ｉ）＜ＡｖｅＳＮＲ_ｃ＝１ ^（ｉ）であると判定した場合、ステップＳ２３０ｇ−６へ処理を移す。

ステップＳ２３０ｇ−３では、信頼データ選択部２３３は、各フレームｔにおけるＳＮＲ_ｔ ^（ｉ）がＳＮＲ_ｔ ^（ｉ）∈｛Ｃ＝０｝、すなわち、ＳＮＲ_ｔ ^（ｉ）が集合｛Ｃ＝０｝（Ｃ＝０のクラスタ）に属するか否かを判定する。信頼データ選択部２３３は、ＳＮＲ_ｔ ^（ｉ）∈｛Ｃ＝０｝であると判定したフレームｔについては、ステップＳ２３０ｇ−４へ処理を移す。一方、信頼データ選択部２３３は、ＳＮＲ_ｔ ^（ｉ）∈｛Ｃ＝１｝であると判定したフレームｔについては、ステップＳ２３０ｇ−５へ処理を移す。

ステップＳ２３０ｇ−４では、信頼データ選択部２３３は、ステップＳ２３０ｇ−３で判定したフレーム番号ｔを、クリーン音声信号フレームの集合Ｔ_Ｓ ^（ｉ）へ格納する。一方、ステップＳ２３０ｇ−５では、信頼データ選択部２３３は、ステップＳ２３０ｇ−３で判定したフレーム番号ｔを、雑音信号フレームの集合Ｔ_Ｎ ^（ｉ）へ格納する。

他方、ステップＳ２３０ｇ−６では、信頼データ選択部２３３は、各フレームｔにおけるＳＮＲ_ｔ ^（ｉ）がＳＮＲ_ｔ ^（ｉ）∈｛Ｃ＝１｝、すなわち、ＳＮＲ_ｔ ^（ｉ）が集合｛Ｃ＝１｝（Ｃ＝１のクラスタ）に属するか否かを判定する。信頼データ選択部２３３は、ＳＮＲ_ｔ ^（ｉ）∈｛Ｃ＝１｝であると判定したフレームｔについては、ステップＳ２３０ｇ−７へ処理を移す。一方、信頼データ選択部２３３は、ＳＮＲ_ｔ ^（ｉ）∈｛Ｃ＝０｝であると判定したフレームｔについては、ステップＳ２３０ｇ−８へ処理を移す。

ステップＳ２３０ｇ−７では、信頼データ選択部２３３は、ステップＳ２３０ｇ−６で判定したフレーム番号ｔを、クリーン音声信号フレームの集合Ｔ_Ｓ ^（ｉ）へ格納する。一方、ステップＳ２３０ｇ−８では、信頼データ選択部２３３は、ステップＳ２３０ｇ−６で判定したフレーム番号ｔを、雑音信号フレームの集合Ｔ_Ｎ ^（ｉ）へ格納する。ステップＳ２３０ｇ−４、Ｓ２３０ｇ−５、Ｓ２３０ｇ−７、Ｓ２３０ｇ−８の処理が終了すると、信頼データ選択部２３３は、図６に示す雑音抑圧装置のパラメータ推定部２３０の処理へ処理を復帰させる。

次に、話者適応パラメータ推定部２３４は、ステップＳ２３０ｃの音声事後確率計算処理にて得た音声事後確率Ｐ_ｔ，ｋと、ステップＳ２３０ｆの信号推定処理にて推定したクリーン音声の対数メルスペクトル＾Ｓ_ｔ ^（ｉ）と、ステップＳ２３０ｇの信頼データ選択処理にて推定したクリーン音声信号フレームの集合Ｔ_Ｓ ^（ｉ）を用いて、下記（２７）式により、話者適応パラメータのベクトルｂ^（ｉ）を更新する話者適応パラメータ推定処理を実行する（ステップＳ２３０ｈ）。

次に、雑音ＧＭＭ推定部２３５は、ステップＳ２３０ｅの期待値計算処理にて得た音声事後確率Ｐ_ｔ，ｌ ^（ｉ）と、ステップＳ２３０ｆの信号推定処理にて推定した雑音の対数メルスペクトルのベクトル＾Ｎ_ｔ ^（ｉ）と、ステップＳ２３０ｇの信頼データ選択処理にて推定した雑音信号フレームの集合Ｔ_Ｎ ^（ｉ）を用いて、下記（２８）式〜（３０）式により、雑音ＧＭＭのパラメータセットλ^（ｉ）を更新する雑音ＧＭＭパラメータ推定処理を実行する（ステップＳ２３０ｉ）。

次に、収束判定部２３６は、所定の収束条件が満されるか否かを判定する収束判定処理を実行する（ステップＳ２３０ｊ）。収束判定部２３６は、所定の収束条件が満される場合は、ベクトルｂ＝ｂ（ｉ）として、パラメータ推定部２３０の処理を終了する。一方、収束判定部２３６は、所定の収束条件が満たされない場合は、ｉを１インクリメント（ｉ←ｉ＋１）し（ステップＳ２３０ｋ）、ステップＳ２３０ｄへ処理を移す。なお、所定の収束条件は、下記（３１）式で表される。なお、下記（３１）式おいて、Ｑ_Ｏ（・）は、上記（２１）式で定義される。また、下記（３１）式おいて、η＝０．０００１とする。

また、さらに、図４に示す雑音抑圧部２４０の詳細構成について説明する。図８は、雑音抑圧装置の雑音抑圧部の構成の一例を示す図である。雑音抑圧部２４０は、複素数スペクトルのベクトルＳｐｃ_ｔと、対数メルスペクトルのベクトルＯ_ｔと、音声ＧＭＭ３００ａと、話者適応パラメータのベクトルｂと、雑音ＧＭＭのパラメータセットλと、音声事後確率Ｐ_ｔ，ｋとを用いて雑音抑圧フィルタを構成し、雑音を抑圧して雑音抑圧信号＾Ｓ_τを得る。

図８に示すように、雑音抑圧部２４０は、雑音抑圧フィルタ推定部２４１、雑音抑圧フィルタ適用部２４２を有する。雑音抑圧フィルタ推定部２４１は、対数メルスペクトルのベクトルＯｔと、音声ＧＭＭ３００ａと、話者適応パラメータのベクトルｂと、雑音ＧＭＭのパラメータセットλと、音声事後確率Ｐ_ｔ，ｋとを入力とし、雑音抑圧フィルタＦ_ｔ，ｍ ^Ｌｉｎを推定する。雑音抑圧フィルタ適用部２４２は、複素数スペクトルのベクトルＳｐｃ_ｔと、雑音抑圧フィルタＦ_ｔ，ｍ ^Ｌｉｎとを入力とし、雑音を抑圧して雑音抑圧信号＾Ｓ_τを得る。

図９は、雑音抑圧装置の雑音抑圧フィルタ推定部の処理手順の一例を示すフローチャートである。先ず、雑音抑圧フィルタ推定部２４１は、音声ＧＭＭ３００ａと、話者適応パラメータのベクトルｂと、雑音ＧＭＭのパラメータセットλとから、対数メルスペクトルのベクトルＯｔのＧＭＭのパラメータを、下記（３２）式〜（３５）式のように生成する確率モデル生成処理を実行する（ステップＳ２４１ａ）。

次に、雑音抑圧フィルタ推定部２４１は、下記（３６）式及び（３７）式により、事後確率Ｐ_{ｔ，ｋ，ｌ}を、対数メルスペクトルのベクトルＯ_ｔのＧＭＭのパラメータと、対数メルスペクトルのベクトルＯ_ｔと、音声事後確率Ｐ_ｔ，ｋとを用いて計算する確率計算処理を実行する（ステップＳ２４１ｂ）。

次に、雑音抑圧フィルタ推定部２４１は、音声ＧＭＭ３００ａの平均ベクトルμ_ＳＩ，ｋと、話者適応パラメータのベクトルｂとから生成される話者依存（ＳＤ）ＧＭＭの平均ベクトルμ_ＳＤ，ｋと、雑音ＧＭＭのパラメータセットλに含まれる雑音ＧＭＭの平均ベクトルμ_Ｎ，ｌと、事後確率Ｐ_{ｔ，ｋ，ｌ}とを用いて、メル周波数軸上での雑音抑圧フィルタＦ_ｔ，ｒ ^Ｍｅｌを、下記（３８）式のように推定する雑音抑圧フィルタ推定処理を実行する（ステップＳ２４１ｃ）。なお、下記（３８）式は、ベクトルの要素毎の表記である。

次に、雑音抑圧フィルタ推定部２４１は、メル周波数軸上での雑音抑圧フィルタＦ_ｔ，ｒ ^Ｍｅｌを、線形周波数軸上での雑音抑圧フィルタＦ_ｔ，ｒ ^Ｌｉｎへ変換する雑音抑圧フィルタ変換処理を実行する（ステップＳ２４１ｄ）。メル周波数軸上での雑音抑圧フィルタＦ_ｔ，ｒ ^Ｍｅｌを、線形周波数軸上での雑音抑圧フィルタＦ_ｔ，ｒ ^Ｌｉｎへ変換する処理は、３次スプライン補間をメル周波数軸に適用することにより、線形周波数軸上での雑音抑圧フィルタの値が推定されるものである。ステップＳ２４１ｄが終了すると、雑音抑圧フィルタ推定部２４１の処理は終了する。

図１０は、雑音抑圧装置の雑音抑圧フィルタ適用部の処理手順の一例を示すフローチャートである。先ず、雑音抑圧フィルタ適用部２４２は、複素数スペクトルのベクトルＳｐｃ_ｔに対して雑音抑圧フィルタＦ_ｔ，ｍ ^Ｌｉｎを、下記（３９）式のように掛け合わせることにより、雑音抑圧された複素数スペクトル＾Ｓ_ｔ，ｍを得るフィルタリング処理を実行する（ステップＳ２４２ａ）。なお、下記（３９）式は、ベクトルの要素毎の表記である。

次に、雑音抑圧フィルタ適用部２４２は、複素数スペクトル＾Ｓ_ｔ，ｍに対して逆高速フーリエ変換を適用することにより、フレームｔにおける雑音抑圧音声＾Ｓ_ｔ，ｎを得る逆高速フーリエ変化処理を実行する（ステップＳ２４２ｂ）。次に、雑音抑圧フィルタ適用部２４２は、各フレームｔの雑音抑圧音声＾Ｓ_ｔ，ｎを、下記（４０）式及び（４１）式のように、窓関数ｗ_ｎを解除しながら連結して、連続した雑音抑圧音声＾ｓ_τを得る波形連結処理を実行する（ステップＳ２４２ｃ）。ステップＳ２４２ｃが終了すると、雑音抑圧フィルタ適用部２４２の処理は終了する。

［実施形態による効果］
実施形態の効果を示すため、音声信号と雑音信号が混在する音響信号を実施形態の雑音抑圧装置２００へ入力し、雑音抑圧を実施した例を示す。以下、実験方法及び結果について説明する。

実験では、ＡＵＲＯＲＡ４とよばれる雑音環境下音声認識データベースを用いて評価を行った。ＡＵＲＯＲＡ４の評価データセットは、Ａ：雑音の無い音声、Ｂ：６種類の雑音が混在した音声、Ｃ：異なるマイクで収録された雑音の無い音声、Ｄ：異なるマイクで収録された６種類の雑音が混在した音声の４セットで構成される。ＡＵＲＯＲＡ４の詳細については、文献３「N. Parihar, J. Picone, D. Pearce, H.G. Hirsch，“Performance analysis of the Aurora large vocabulary baseline system.” in Proceedings of the European Signal Processing Conference, Vienna, Austria, 2004.」に記載のとおりである。

ＡＵＲＯＲＡ４の音声データは、サンプリング周波数１６，０００Ｈｚ、量子化ビット数１６ビットで離散サンプリングされたモノラル信号である。この音声データに基づく音響信号に対し、１フレームの時間長を２５ｍｓ（Ｆｒａｍｅ＝４００サンプル点）とし、１０ｍｓ（Ｓｈｉｆｔ＝１６０サンプル点）ごとにフレームの始点を移動させて、音響特徴抽出を行った。

音声ＧＭＭ３００ａとして、Ｒ＝２４次元の対数メルスペクトルを音響特徴量とする混合分布数Ｋ＝５１２のＧＭＭを用い、ＡＵＲＯＲＡ４の雑音の混合が無い学習用音声データを用いて学習した。雑音ＧＭＭの混合分布数にはＬ＝４を与えた。音声ＤＮＮ４００ａには、Ｒ＝２４次元の対数メルスペクトルとその１次及び２次の回帰係数、及び現在のフレームを中心に前後Ｚ＝５フレームずつの特徴量を含む合計Ｄ_０＝３Ｒ×（２Ｚ＋１）＝７９２次元のベクトルを音響特徴量としてＪ＝５層の隠れ層を有し、入力層にＤ_０＝７９２ノード、隠れ層にＤ_ｊ＝２０４８（ｊ＝１，・・・，４）ノード、出力層にＤ_５＝Ｋ＝５１２ノードを有するＤＮＮを用い、ＡＵＲＯＲＡ４の雑音が混合した学習用音声データを用いて学習した。

音声認識は、有限状態トランスデューサーに基づく認識器により行った。有限状態トランスデューサーに基づく認識器の詳細は、文献４「T. Hori, et al.，“Efficient WFST-based one-pass decoding with on-the-fly hypothesis rescoring in extremely large vocabulary continuous speech recognition.” IEEE Trans. on ASLP, vol. 15, no. 4, pp. 1352-1365, May 2007.」に記載のとおりである。

音響モデルにはＤＮＮを用いており、７層の隠れ層を有する。各隠れ層のノード数は、２０４８である。また、出力層のノード数は、３０４２である。音声認識の音響特徴量は、１フレームの時間長を２５ｍｓ（Ｆｒａｍｅ＝４００）とし、１０ｍｓ（Ｓｈｉｆｔ＝１６００サンプル点）ごとにフレームの始点を移動させて分析した２４次元の対数メルスペクトルとその１次及び２次の回帰係数、及び現在のフレームを中心に前後５フレームずつの特徴量を含む合計７９２次元のベクトルである。また、言語モデルにはＴｒｉ−ｇｒａｍを用い、語彙数は５，０００単語である。また、音声認識の評価尺度は、下記（４２）式の単語誤り率（Word Error Rate：ＷＥＲ）とした。下記（４２）式のＮは総単語数、Ｄは脱落誤り単語数、Ｓは置換誤り単語数、Ｉは挿入誤り単語数であり、ＷＥＲの値が小さい程、音声認識性能が高いことを示す。

図１１は、実施形態による効果の一例を示す図である。図１１に示す「従来技術」は、、文献５「M. Fujimoto and T. Nakatani, “A reliable data selection for model-based noise suppression using unsupervised joint speaker adaptation and noise model estimation.” in Proceedings of ICSPCC '12, pp. 4713-4716, Aug 2012.」に開示されている方法による雑音抑圧結果を示す。図１１は、「雑音抑圧なし」、「従来技術」、「実施形態」の各音声認識の評価結果の比較を示す。図１１に示すとおり、実施形態は、従来技術に比べ、雑音を含む評価セットＢ及びＤにおいて、ＷＥＲが小さいことから、より高い雑音抑圧性能を得られることが分かる。

すなわち、実施形態によれば、様々な雑音が存在する環境において、音響信号に含まれる雑音信号が多峰性の分布に従う非定常雑音であっても、入力された音響信号から雑音信号を抑圧して、目的とする音声信号を高品質で取り出すことができる。

［その他の実施形態］
その他の実施形態では、図２のステップＳ１１０ａ及び図３のステップＳ１２０ａのフレーム切り出し処理において、窓関数ｗ_ｎとして、ハミング窓以外に、方形窓、ハニング窓、ブラックマン窓などの窓関数を利用してもよい。また、その他の実施形態では、音声ＧＭＭ３００ａに代えて、音声信号の確率モデルとして、隠れマルコフモデル（Hidden Markov Model:ＨＭＭ）等の他の確率モデルを用いてもよい。また、その他の実施形態では、雑音ＧＭＭに代えて、雑音信号の確率モデルとして、ＨＭＭ等の他の確率モデルを用いてもよい。

また、その他の実施形態では、話者適応パラメータのベクトルｂを、下記（４３）式のように、音声ＧＭＭ３００ａに含まれる正規分布の番号ｋに依存するパラメータとしてもよい。

また、その他の実施形態では、図６のステップＳ２３０ｇ及び図７に示す信頼データ選択処理を、ｋ−ｍｅａｎクラスタリングに代えて、下記（４４）式に示すように、所定閾値Ｔｈ_ＳＮＲを用いて実行してもよい。

また、その他の実施形態では、図９のステップＳ２４１ｃの雑音抑圧フィルタ推定処理において、上記（３８）式のような各事後確率Ｐ_{ｔ，ｋ，ｌ}の重み付け平均ではなく、最大の重みつまり最大の事後確率Ｐ_{ｔ，ｋ，ｌ}により重み付けした推定結果を用いてもよい。この場合、最大の事後確率Ｐ_{ｔ，ｋ，ｌ}が他の事後確率Ｐ_{ｔ，ｋ，ｌ}と比べて十分大きいことが望ましい。

（音声モデル学習装置及び雑音抑圧装置の装置構成について）
図１に示す音声モデル学習装置１００及び図４に示す雑音抑圧装置２００の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要さない。すなわち、音声モデル学習装置１００及び雑音抑圧装置２００の機能の分散及び統合の具体的形態は図示のものに限られず、全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。例えば、音声モデル学習装置１００及び雑音抑圧装置２００は、一体の装置であってもよい。

また、実施形態では、音声モデル学習装置１００及び雑音抑圧装置２００は別装置とし、音声モデル学習装置１００の第１音響特徴抽出部１１０及び第２音響特徴抽出部１２０と、雑音抑圧装置２００の第１音響特徴抽出部２１０及び第２音響特徴抽出部２２０とは、それぞれ異なる機能構成部とした。しかし、これに限らず、第１音響特徴抽出部１１０と第１音響特徴抽出部２１０、及び／又は、第２音響特徴抽出部１２０と第２音響特徴抽出部２２０は、同一の機能構成部であってもよい。

また、実施形態では、音声ＧＭＭ記憶装置３００及び音声ＤＮＮ記憶装置４００は、音声モデル学習装置１００及び雑音抑圧装置２００と別装置であるとした。しかし、これに限らず、音声ＧＭＭ記憶装置３００及び／又は音声ＤＮＮ記憶装置４００は、音声モデル学習装置１００及び／又は雑音抑圧装置２００と一体の装置であってもよい。

また、音声モデル学習装置１００及び雑音抑圧装置２００において行われる各処理は、全部又は任意の一部が、ＣＰＵ（Central Processing Unit）等の処理装置及び処理装置により解析実行されるプログラムにて実現されてもよい。また、音声モデル学習装置１００及び雑音抑圧装置２００において行われる各処理は、ワイヤードロジックによるハードウェアとして実現されてもよい。

また、実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともできる。もしくは、実施形態において説明した各処理のうち、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上述及び図示の処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて適宜変更することができる。

（プログラムについて）
図１２は、プログラムが実行されることにより、音声モデル学習装置及び雑音抑圧装置が実現されるコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。コンピュータ１０００において、これらの各部はバス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ（Read Only Memory）１０１１及びＲＡＭ（Random Access Memory）１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０３１に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１０４１に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１０４１に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１０５１、キーボード１０５２に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１０６１に接続される。

ハードディスクドライブ１０３１は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、音声モデル学習装置１００及び雑音抑圧装置２００の各処理を規定するプログラムは、コンピュータ１０００によって実行される指令が記述されたプログラムモジュール１０９３として、例えばハードディスクドライブ１０３１に記憶される。例えば、音声モデル学習装置１００及び雑音抑圧装置２００における機能構成と同様の情報処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０３１に記憶される。

また、実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０３１に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０３１に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０３１に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１０４１等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３やプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３やプログラムデータ１０９４は、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

上記実施形態及びその他の実施形態は、本願が開示する技術に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

１００音声モデル学習装置
１１０第１音響特徴抽出部
１２０第２音響特徴抽出部
１３０最尤分布推定部
１４０音声ＤＮＮ学習部
２００雑音抑圧装置
２１０第１音響特徴抽出部
２２０第２音響特徴抽出部
２３０パラメータ推定部
２３１初期化部
２３２確率及び信号推定部
２３３信頼データ選択部
２３４話者適応パラメータ推定部
２３５雑音ＧＭＭ推定部
２３６収束判定部
２４０雑音抑圧部
２４１雑音抑圧フィルタ推定部
２４２雑音抑圧フィルタ適用部
３００音声ＧＭＭ記憶装置
３００ａ音声ＧＭＭ
４００音声ＤＮＮ記憶装置
４００ａ音声ＤＮＮ
１０００コンピュータ
１０１０メモリ
１０２０ＣＰＵ

Claims (12)

Hide Dependent

音声モデル学習装置が実行する音声モデル学習方法であって、
学習用の音声信号から音響特徴量を抽出する学習用特徴量抽出工程と、
前記学習用特徴量抽出工程により抽出された音響特徴量と、音声信号の混合正規分布とを対応付けるラベル情報を生成する音声ラベル生成工程と、
前記学習用の音声信号及び学習用の雑音信号を含む学習用の音響信号から正規化された音響特徴量を抽出する学習用正規化特徴量抽出工程と、
前記音声ラベル生成工程により生成されたラベル情報と、前記学習用正規化特徴量抽出工程により抽出された正規化された音響特徴量とを用いて、音声モデルを学習する音声モデル学習工程と
を含んだことを特徴とする音声モデル学習方法。
前記音声モデル学習工程は、前記音声信号の混合正規分布と、前記学習用正規化特徴量抽出工程により抽出された正規化された音響特徴量に対応するディープニューラルネットワークの出力層の各ノードとを対応付けることにより前記音声モデルを学習する
ことを特徴とする請求項１に記載の音声モデル学習方法。
雑音抑圧装置が実行する雑音抑圧方法であって、
請求項１又は２に記載の音声モデル学習方法により学習された前記音声モデルを音声モデル記憶部に保存する音声モデル記憶工程と、
音声信号及び雑音信号を含む混合音響信号から音響特徴量を抽出する特徴抽出工程と、
前記混合音響信号から正規化された音響特徴量を抽出する正規化特徴量抽出工程と、
前記音声モデルと、前記正規化特徴量抽出工程により抽出された正規化された音響特徴量とを用いて、音声事後確率を計算する音声事後確率計算工程と、
前記音声事後確率計算工程により計算された音声事後確率と、音声信号の混合正規分布とを用いて、前記混合音響信号における前記雑音信号を抑圧する雑音抑圧工程と
を含んだことを特徴とする雑音抑圧方法。
前記混合音響信号に含まれる前記音声信号及び前記雑音信号を推定する信号推定工程と、
前記信号推定工程により推定された前記音声信号及び前記雑音信号から、前記音声信号の混合正規分布を前記音声信号に該当する音声の話者に適応させるための話者適応パラメータを推定する話者適応パラメータ推定工程と、
前記信号推定工程により推定された前記雑音信号から、雑音信号の混合正規分布を生成する雑音混合正規分布生成工程と、
前記話者適応パラメータ及び前記音声信号の混合正規分布と、前記雑音信号の混合正規分布とから、前記混合音響信号の混合正規分布を生成する混合正規分布生成工程と、
前記音声事後確率と前記混合音響信号の混合正規分布とから、前記混合音響信号に含まれる前記音声信号の期待値及び前記雑音信号の期待値を計算する期待値計算工程と
をさらに含み、
前記信号推定工程、前記話者適応パラメータ推定工程、前記雑音混合正規分布生成工程、前記混合正規分布生成工程及び前記期待値計算工程は、前記期待値計算工程により計算された前記音声信号の期待値及び前記雑音信号の期待値が所定条件を満たすまで、前記音声信号の期待値及び前記雑音信号の期待値について再帰的に処理を繰り返す
ことを特徴とする請求項３に記載の雑音抑圧方法。
前記信号推定工程により推定された前記音声信号及び前記雑音信号から所定条件を満たす信号を選択する選択工程
をさらに備え、
前記話者適応パラメータ推定工程は、前記選択工程により選択された前記音声信号及び前記雑音信号から前記話者適応パラメータを推定し、
前記雑音混合正規分布生成工程は、前記選択工程により選択された前記雑音信号から前記雑音信号の混合正規分布を生成する
ことを特徴とする請求項４に記載の雑音抑圧方法。
学習用の音声信号から音響特徴量を抽出する学習用特徴量抽出部と、
前記学習用特徴量抽出部により抽出された音響特徴量と、音声信号の混合正規分布とを対応付けるラベル情報を生成する音声ラベル生成部と、
前記学習用の音声信号及び学習用の雑音信号を含む学習用の音響信号から正規化された音響特徴量を抽出する学習用正規化特徴量抽出部と、
前記音声ラベル生成部により生成されたラベル情報と、前記学習用正規化特徴量抽出部により抽出された正規化された音響特徴量とを用いて、音声モデルを学習する音声モデル学習部と
を備えることを特徴とする音声モデル学習装置。
前記音声モデル学習部は、前記音声信号の混合正規分布と、前記学習用正規化特徴量抽出部により抽出された正規化された音響特徴量に対応するディープニューラルネットワークの出力層の各ノードとを対応付けることにより前記音声モデルを学習する
ことを特徴とする請求項６に記載の音声モデル学習装置。
請求項６又は７に記載の音声モデル学習装置により学習された前記音声モデルを記憶する音声モデル記憶部と、
音声信号及び雑音信号を含む混合音響信号から音響特徴量を抽出する特徴抽出部と、
前記混合音響信号から正規化された音響特徴量を抽出する正規化特徴量抽出部と、
前記音声モデルと、前記正規化特徴量抽出部により抽出された正規化された音響特徴量とを用いて、音声事後確率を計算する音声事後確率計算部と、
前記音声事後確率計算部により計算された音声事後確率と、音声信号の混合正規分布とを用いて、前記混合音響信号における前記雑音信号を抑圧する雑音抑圧部と
を備えることを特徴とする雑音抑圧装置。
前記混合音響信号に含まれる前記音声信号及び前記雑音信号を推定する信号推定部と、
前記信号推定部により推定された前記音声信号及び前記雑音信号から、前記音声信号の混合正規分布を前記音声信号に該当する音声の話者に適応させるための話者適応パラメータを推定する話者適応パラメータ推定部と、
前記信号推定部により推定された前記雑音信号から、雑音信号の混合正規分布を生成する雑音混合正規分布生成部と、
前記話者適応パラメータ及び前記音声信号の混合正規分布と、前記雑音信号の混合正規分布とから、前記混合音響信号の混合正規分布を生成する混合正規分布生成部と、
前記音声事後確率と前記混合音響信号の混合正規分布とから、前記混合音響信号に含まれる前記音声信号の期待値及び前記雑音信号の期待値を計算する期待値計算部と
をさらに備え、
前記信号推定部、前記話者適応パラメータ推定部、前記雑音混合正規分布生成部、前記混合正規分布生成部及び前記期待値計算部は、前記期待値計算部により計算された前記音声信号の期待値及び前記雑音信号の期待値が所定条件を満たすまで、前記音声信号の期待値及び前記雑音信号の期待値について再帰的に処理を繰り返す
ことを特徴とする請求項８に記載の雑音抑圧装置。
前記信号推定部により推定された前記音声信号及び前記雑音信号から所定条件を満たす信号を選択する選択部
をさらに備え、
前記話者適応パラメータ推定部は、前記選択部により選択された前記音声信号及び前記雑音信号から前記話者適応パラメータを推定し、
前記雑音混合正規分布生成部は、前記選択部により選択された前記雑音信号から前記雑音信号の混合正規分布を生成する
ことを特徴とする請求項９に記載の雑音抑圧装置。
請求項６又は７に記載の音声モデル学習装置としてコンピュータを機能させる音声モデル学習プログラム。
請求項８、９又は１０に記載の雑音抑圧装置としてコンピュータを機能させる雑音抑圧プログラム。

Patent Citations (2)

Publication number Priority date Publication date Assignee Title

Family To Family Citations

JP5670298B2

* 2011-11-30 2015-02-18 日本電信電話株式会社雑音抑圧装置、方法及びプログラム

JP5740362B2

* 2012-07-31 2015-06-24 日本電信電話株式会社雑音抑圧装置、方法、及びプログラム

* Cited by examiner, † Cited by third party

Cited By (19)

Publication number Priority date Publication date Assignee Title

CN108417207A

* 2018-01-19 2018-08-17 苏州思必驰信息科技有限公司一种深度混合生成网络自适应方法及系统

Family To Family Citations

JP7019138B2

* 2017-02-28 2022-02-15 国立大学法人電気通信大学符号化装置、符号化方法およびプログラム

JP6588936B2

* 2017-03-22 2019-10-09 日本電信電話株式会社雑音抑圧装置、その方法、及びプログラム

CN106991999B

* 2017-03-29 2020-06-02 北京小米移动软件有限公司语音识别方法及装置

CN107452389B

* 2017-07-20 2020-09-01 大象声科（深圳）科技有限公司一种通用的单声道实时降噪方法

CN109754821B

* 2017-11-07 2023-05-02 北京京东尚科信息技术有限公司信息处理方法及其系统、计算机系统和计算机可读介质

WO2019162990A1

* 2018-02-20 2019-08-29 三菱電機株式会社学習装置、音声区間検出装置および音声区間検出方法

CN108922560B

* 2018-05-02 2022-12-02 杭州电子科技大学一种基于混合深度神经网络模型的城市噪声识别方法

CN108777146A

* 2018-05-31 2018-11-09 平安科技（深圳）有限公司语音模型训练方法、说话人识别方法、装置、设备及介质

JP7231181B2

* 2018-07-17 2023-03-01 国立研究開発法人情報通信研究機構耐雑音音声認識装置及び方法、並びにコンピュータプログラム

CN111028852A

* 2019-11-06 2020-04-17 杭州哲信信息技术有限公司一种基于cnn的智能呼叫系统中的噪声去除方法

JP7504601B2

* 2020-01-28 2024-06-24 株式会社東芝信号処理装置、信号処理方法およびプログラム

CN111402922B

* 2020-03-06 2023-06-30 武汉轻工大学基于小样本的音频信号分类方法、装置、设备及存储介质

CN111489763B

* 2020-04-13 2023-06-20 武汉大学一种基于gmm模型的复杂环境下说话人识别自适应方法

JP7641371B2

2020-10-20 2025-03-06 フラウンホーファー－ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン処理されたオーディオ信号を提供するための装置、処理されたオーディオ信号を提供するための方法、ニューラルネットワークパラメータを提供するための装置、およびニューラルネットワークパラメータを提供するための方法

CN113223505B

* 2021-04-30 2023-12-08 珠海格力电器股份有限公司模型训练、数据处理方法、装置、电子设备及存储介质

CN113593591B

* 2021-07-27 2024-06-11 北京小米移动软件有限公司语料降噪方法及装置、电子设备和存储介质

KR102725549B1

* 2022-10-21 2024-11-04 주식회사 히어디엘 대역통과필터와 딥러닝을 이용한 음성파형의 주변잡음 제거 장치 및 방법

CN118918918A

* 2024-08-22 2024-11-08 青岛润恒益科技有限公司一种音频信号的增强方法及系统

* Cited by examiner, † Cited by third party, ‡ Family to family citation