JP5731929B2

JP5731929B2 - 音声強調装置とその方法とプログラム

Info

Publication number: JP5731929B2
Application number: JP2011172939A
Authority: JP
Inventors: ソウデンメレツ; 慶介木下; 中谷　智広; 智広中谷; マークデルクロア
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2011-08-08
Filing date: 2011-08-08
Publication date: 2015-06-10
Anticipated expiration: 2031-08-08
Also published as: JP2013037177A

Description

この発明は、雑音やチャネル歪（音響歪み）を伴った音響信号から、音響歪みを取り除いた信号を特徴量領域で抽出する音声強調装置と、その方法とプログラムに関する。

雑音やチャネル歪みのある環境で音響信号を収音すると、本来の信号に音響歪みが重畳された信号として観測される。ここで雑音とは、加法性があるものである。また、チャネル歪みとは、乗法性の雑音であり特にフレーム長より短い時間に生じる歪みのことである。その音響信号が音声の場合、重畳した音響歪みの影響により音声の明瞭性は大きく低下してしまう。明瞭性が低下することにより、本来の音声信号の性質を抽出することが困難となり、自動音声認識（以下、音声認識）システムの認識率も著しく低下する。この認識率の低下を防ぐためには、重畳した音響歪みを取り除く工夫（方法）が必要である。

この音響歪みを取り除く方法は、音声認識の他にも、例えば、機械制御インターフェースにおける機械と人間との対話装置、楽曲を検索したり採譜したりする音楽情報処理システムなどに利用することが出来る。

図８に、従来の音声強調装置８００の機能構成例を示してその動作を簡単に説明する。音声強調装置８００は、特徴量抽出部８１と、音響歪みパラメータ推定部８２と、クリーン音声ガウス混合分布記憶部８３と、クリーン音声特徴量推定部８４と、を具備する。特徴量抽出部８１は、入力信号を特徴量に変換する。音響歪みパラメータ推定部８２は、その特徴量と、クリーン音声ガウス混合分布記憶部８３に記憶された混合ガウス分布モデルを用いて、入力信号に含まれる音響歪みに関するパラメータを最尤推定する。クリーン音声特徴量推定部８４は、最尤推定したパラメータと入力信号の特徴量を用いてクリーン音声特徴量の最小二乗誤差推定を行う。この方法によれば、入力信号から効果的に音響歪みの影響を取り除いて、入力信号を強調することが可能となる。

P. J. Moreno, "Speech Recognition in Noisy Environments," PhD thesis, Carnegie Mellon University, 1996.

しかし、従来の特徴量を用いた音声強調方法では、音響歪みパラメータ推定に空間情報を用いる考えが無かったので、入力信号が１チャネルであることが通常であった。その結果、パラメータ推定の精度が不十分である課題があった。

この発明は、このような課題に鑑みてなされたものであり、入力信号を多チャネル化することで空間情報を利用可能とし、十分なパラメータ推定精度が得られる特徴量領域で動作する音声強調装置と、その方法とプログラムを提供することを目的とする。

この発明の音声強調装置は、特徴量抽出部と、クリーン音声ガウス混合分布記憶部と、音響歪みパラメータ推定部と、クリーン音声特徴量推定部と、を具備する。特徴量推定部は、多チャネル音響信号を観測信号とし、それぞれのチャネルの音響信号の特徴量を抽出する。クリーン音声ガウス混合分布記憶部は、クリーン音声の混合ガウス分布を記憶する。音響歪みパラメータ推定部は、多チャネルの観測信号の特徴量と、クリーン音声ガウス混合モデルを入力として、上記観測信号に含まれる加法性雑音成分とチャネル応答歪みに関する音響歪みパラメータを最尤推定する。クリーン音声特徴量推定部は、多チャネルの観測信号の特徴量と、音響歪みパラメータ推定部で推定した音響歪みパラメータと、クリーン音声ガウス混合モデルを入力として、観測信号に含まれるクリーン音声を最小二乗誤差推定してクリーン音声信号の特徴量を推定する。

この発明の音声強調装置によれば、チャネル間情報（空間情報）を用いることで、クリーン音声の推定精度を向上させることが出来る。評価実験で確認した具体的な効果については後述する。

この発明の音声強調装置１００の機能構成例を示す図。音声強調装置１００の動作フローを示す図。特徴量抽出部１０の動作フローを示す図。音響歪みパラメータ推定部３０の機能構成例を示す図。音響歪みパラメータ推定部３０の動作フローを示す図クリーン音声特徴量推定部４０の機能構成例を示す図。クリーン音声特徴量推定部４０の動作フローを示す図。従来の雑音除去装置８００の機能構成例を示す図。

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。実施例の説明の前に、各信号についてモデル化と定義を行う。

〔モデル化と定義〕
観測信号の特徴量を、つまり観測信号を、対数メルスペクトル領域で式（１）に示すようにモデル化する。

Ｙ_ｎ，ｔ（ｐ）はｎ番目のマイクロホンでの観測信号特徴量、Ｓ_ｔ（ｐ）はクリーン音声特徴量べクトルのｐ番目の要素、Ｖ_ｎ，ｔ（ｐ）はｎ番目のマイクロホンで観測される加法性雑音の成分、Ｑ_ｎ，ｔ（ｐ）はｎ番目のマイクロホンと話者間の室内伝達関数に対応するチャネル応答成分である。ｔは時間フレームのインデックスである。また、ｆ（ａ，ｂ，ｃ）は式（２）で定義されるものである。

観測信号ｙ_ｔ、雑音信号ｖ_ｔ、チャネル応答成分ｑ、クリーン音声ｓ_ｔについて以下のようにベクトルと行列表現を用いる。なお、観測信号ｙ_ｔは全チャネルを表し、ｙ_ｎ，ｔはマイクロホン番号ごとの観測信号である。この関係は雑音信号ｖ_ｔとチャネル応答成分ｑについても同様である。

クリーン音声を用いた事前学習で得られるガウス混合モデルを式（４）に示すように定義する。

ここでＫは混合数を表し、ｃ_ｋはｋ番目のガウス分布に対する混合重みを表す。平均μ_ｓ，ｋ＝[τ_ｓ，ｋ（１）．．．τ_ｓ，ｋ（Ｐ）]^Ｔ、共分散行列Σ_ｓｓ，ｋ、混合重みｃ_ｋは、すべて事前学習時にクリーン音声から学習される。また、共分散行列Σ_ｓｓ，ｋとしては、対角成分以外の成分はゼロである対角共分散を仮定した。

式（１）を用いれば、観測信号について精度の高いモデル化が行われるが、この非線形な観測モデルをそのまま用いると、音響歪みパラメータの推定が非常に複雑になる。複雑なパラメータ推定を回避するために、１次のテーラー展開を用いて式（１）を近似する。

はじめに、加法性雑音成分ｖ_ｎを単一ガウス分布と仮定し、分散Σ_ｖｖ及び平均μ_ｖ＝[μ^Ｔ _ｖ１．．．μ^Ｔ _ｖＮ]と仮定する。ここでμ_ｖｎはμ_ｖｎ＝[τ_ｖｎ（１）．．．τ_ｖｎ（Ｐ）]^Ｔである。これらの定義を用いると、（μ_ｖ，μ_ｓ，ｋ，ｑ_０）における観測信号ｙ_ｔの１次のテーラー展開は式（５）のように表される。

ここでＩ_ＮＰ×ＰはＮＰ×Ｐ次元の行列であり、そのｎ番目（ｎ＝１，…，Ｎ）の行列内のブロックはＰ×Ｐ次元の単位行列からなる。Ｉ_ＮＰ×Ｐの次元に注目すると、Ｐ×ＰのＮ倍の次元であることが分かり、すべてのマイクロホン信号が考慮されたモデル化が行われていることが分かる。クリーン音声ｓに関する１次のテーラー展開係数Ｄ^（ｓ） _ｋもＮＰ×Ｐ次元の構造を持つ。チャネル応答成分ｑに関する１次のテーラー展開係数Ｄ^（ｑ） _ｋと、雑音信号に関する１次のテーラー展開係数Ｄ^（ｖ） _ｋは、ＮＰ×ＮＰ次元のブロック対角行列である。ｇ_ｋは補正項であり、式（６）で定義される。

この実施例では、雑音に関する項の共分散行列については、周波数間での相関はゼロと仮定し、その対角要素のみを考慮した。対角要素については後述する。対角成分を考慮することで、効果的にチャネル間情報を用いることが可能となる。

図１に、この発明の音声強調装置１００の機能構成例を示す。その動作フローを図２に示す。音声強調装置１００は、特徴量抽出部１０と、クリーン音声ガウス混合分布記憶部２０と、音響歪みパラメータ推定部３０と、クリーン音声特徴量推定部４０と、制御部５０と、を具備する。音声強調装置１００の各部の機能は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

特徴量抽出部１０は、多チャネル音響信号を観測信号とし、それぞれのチャネルの音響信号の特徴量を抽出する（ステップＳ１０）。クリーン音声ガウス混合分布記憶部２０は、クリーン音声の混合ガウス分布を記憶する。

音響歪みパラメータ推定部３０は、特徴量抽出部１０が出力する多チャネルの観測信号の特徴量と、クリーン音声ガウス混合分布記憶部２０に記憶されたクリーン音声ガウス混合モデルを入力として、観測信号に含まれる加法性雑音成分とチャネル応答歪みに関する音響歪みパラメータを最尤推定する（ステップＳ３０）。

クリーン音声特徴量推定部４０は、特徴量抽出部１０が出力する多チャネルの観測信号の特徴量と、音響歪みパラメータ推定部３０で推定した音響歪みパラメータと、クリーン音声ガウス混合分布記憶部２０に記憶されたクリーン音声ガウス混合モデルを入力として、観測信号に含まれるクリーン音声を最小二乗誤差推定してクリーン音声信号の特徴量を推定する（ステップＳ４０）。制御部５０は、上記した各部間の時系列的な動作等を制御するものである。

以上述べたように動作することで、音声強調装置１００は、チャネル間情報を用いたクリーン音声特徴量の推定精度を向上させることが出来る。

以降において、音声強調装置１００の各部の機能を更に詳しく説明する。

〔特徴量抽出部〕
特徴量抽出部１０は、クリーン音声に雑音とチャネル歪みが重畳した観測信号を、複数（Ｎ個）のマイクロホンで収音した多チャネルの音響信号を入力として、それぞれの音響信号から対数スペクトルを抽出するものであり、マイクロホンの数に対応した複数の特徴量抽出部１０_１〜１０_Ｎで構成される。その動作フローを図３に示す。

観測信号は、例えば３０ｍｓ程度の短時間ハミング窓で窓かけされる（ステップＳ１０ａ）。それぞれ窓かけされた観測信号は離散フーリエ変換を経てパワースペクトルに変換される（ステップＳ１０ｃ）。パワースペクトルに変換された観測信号は、その後、各周波数で対数スペクトルの観測信号特徴量Ｙ_１，ｔ（ｐ）〜Ｙ_Ｎ，ｔ（ｐ）に変換される（ステップＳ１０ｄ）。

〔音響歪みパラメータ推定部〕
音響歪みパラメータ推定部３０は、チャネル応答成分ｑと、加法性雑音成分ｖ_ｎの平均μ_ｖと、その共分散Σ_ｖｖを、期待値最大化法を用いて最尤推定する。加法性雑音成分の共分散Σ_ｖｖには、複数チャネル間の相互関係を表す空間情報が含まれている。空間情報とは、式（７）の行列中のσ_ｎ，ｍ（ｎ≠ｍ）を指す。

期待値最大化法（ＥＭアルゴリズムとも称する）では、一般的に初期パラメータλ＝｛μ_ｖ，Σ_ｖｖ，ｑ}を基に、^￣λを変化させ尤度関数を最大化することを行う。そして、この尤度関数の最大化は、以下の補助関数Ｑを繰り返し最大化することで行う。

ここで、補助関数Ｑは、初期パラメータλが固定という仮定のもとでの最適化対象^￣λの関数であることを表している。また、ＳとＶは、時間フレーム１〜Ｔまでのクリーン音声と加法性雑音それぞれの特徴量からなる。Ｔは各発話のフレーム数であり、Ｋはガウス混合モデルのインデックスの集合を表す。Ｋ_ｓは混合数を表す。

加法性雑音とチャネル応答成分に関する項は、最終的にはＥＭアルゴリズムの中で一緒に推定されるものではあるが、ここでは説明の都合上、各要素の推定に関して別々に説明を行う。

まず、加法性雑音に関するパラメータ推定について説明する。補助関数Ｑの計算のために、加法性雑音に関する項としては観測信号に関する事後確率ｐ（ｋ|ｙ_ｔ，λ）、雑音の確率分布ｐ（Ｖ_ｔ|^￣Σ_ｖｖ，^￣μ_Ｖ）、雑音の事後分布ｐ（Ｖ_ｔ|ｙ_ｔ，ｋ，λ）の計算が必要になる。これらの項の計算を行うことで、加法性雑音に関する最適パラメータ^￣μ_ｖ ^０、^￣Σ_ｖｖ ^０を推定することが可能となる。以下に、加法性雑音に関する項を計算するための式の導出を行う。

はじめに、観測信号に関する確率密度関数ｐ（ｙ_ｔ|ｋ，λ）は、平均μ_ｙ，ｋ、共分散Σ_ｙｙ，ｋを持つガウス分布であることを利用する。そうすることで、観測信号に関する事後確率ｐ（ｋ|ｙ_ｔ，λ）は次式で求めることができる。

ここで、ｋはすべてのチャネル間で共通のクリーン音声に関するパラメータであることに注意すると、複数のマイクロホンを用いることで、上記事後確率ｐ（ｋ|ｙ_ｔ，λ）の推定に用いることのできる情報量が増えることが分かる。より多くの情報量に基づき事後確率の推定が行われるため、事後確率の推定精度を向上させる効果が期待できる。

次に、雑音の確率分布ｐ（Ｖ_ｔ|^￣Σ_ｖｖ，^￣μ_Ｖ）もガウス分布であることを考慮すると、雑音の事後分布ｐ（Ｖ_ｔ|ｙ_ｔ，ｋ，λ）もガウス分布であることが分かる。このガウス分布の平均と分散の計算のためには、結合分布[ｙ_ｔ ^Ｔｖ_ｔ ^Ｔ]^Ｔの平均と分散が、以下のように与えられることを利用する。

ここで、Σ_ｙｙ，ｋは式（１１）で表され、Σ_ｖｙ，ｋは式（１２）で表せる。

上記の結合分布を考慮すると、雑音に関する事後分布ｐ（Ｖ_ｔ|ｙ_ｔ，ｋ，λ）は、以下の平均と分散を持つガウス分布となる。

非特許文献１では^〜Σ_ｙｙ，ｋの逆行列計算が必要となるが、この行列はランクＰとなり、１ch処理（つまり、Ｎ＝１）の場合のみにフルランクとなる。しかし、この実施例では多チャネル（Ｎ＞１）での定式化を行っているため、この行列はランク落ちとなり、逆行列計算が困難となる。

上記した２つの式は、非正則行列の逆行列計算を伴わないため、多チャネル処理により適した定式化である。

ここでｐ（ｙ_ｔ|ｖ_ｔ，ｋ，^￣ｑ）とｃ_ｋは、^￣Σ_ｖｖと^￣μ_ｖとは独立であるため、雑音に関する最適パラメータ^￣μ_ｖ ^ｏ、^￣Σ_ｖｖ ^ｏは式（１５）、式（１６）のようにそれぞれ求めることができる。式（１５）と式（１６）は、補助関数Ｑ（λ，^￣λ）をそれぞれの変数に関して偏微分し、勾配をゼロとすることで導出される。

次に、チャネル応答に関する項に関するパラメータ推定について説明する。チャネル応答パラメータの最適値^￣ｑ^ｏを求めるためには、観測の事後分布ｐ（ｙ_ｔ|ｖ_ｔ，ｋ，^￣ｑ）が以下の平均と共分散^〜Σ_ｙｙ，ｋを持つガウス分布であることを利用する。

ここで共分散行列^〜Σ_ｙｙ，ｋは非正則であるため、チャネル応答パラメータの最適値^￣ｑは、補助関数Ｑを^￣ｑついて最大化するだけでは、一意に求めることはできない。そこで、チャネル応答パラメータの最適値^￣ｑ_ｎ ^ｏの推定には、各チャネルごとに補助関数を補助関数Ｑと同様の形で定義し、以下の式を導出した。ここで、^￣ｑ_ｎ ^ｏは各チャネルごとのチャネル応答パラメータの推定値である。

ここで、^〜Σ_{ｙｎｙｎ，ｋ}は、以下の可逆な行列となる。

また、^〜μ_ｖｎ，ｋ（ｙ_ｎ，ｔ，λ）は次式で定義される。

図４に、音響歪みパラメータ推定部３０の機能構成例を示す。その動作フローを図５に示す。音響歪みパラメータ推定部３０は、雑音成分分解手段３１と、チャネル応答成分分解手段３２と、クリーン音声成分分解手段３３と、期待値計算手段３４と、最大化手段３５と、を具備する。

最初に、音響歪みパラメータの更新された加法性雑音成分の平均ベクトル^￣μ_ｘの初期値を雑音成分分解手段３１に設定する。と共に、更新されたクリーン音声特徴量ベクトル^￣ｑの初期値をチャネル応答成分分解手段３２に設定する。雑音に関する項μ_ｘとΣ_ｙｙの初期値は、観測信号中の最もエネルギーの小さい部分から推定した。また、ｑについては、ランダムな初期値を与える（ステップＳ３０）。

雑音成分分解手段３１は、更新された加法性雑音成分の平均ベクトル^￣μ_ｘを、マイクロホン毎の特徴量領域のスカラー量τ_ｖｎ（ｐ）（μ_ｖｎ＝[τ_ｖｎ（１）．．．τ_ｖｎ（Ｐ）]^Ｔ）に分解する。ｎは１〜Ｎ、ｐは１〜Ｐである。チャネル応答成分分解手段３２は、更新されたクリーン音声特徴量ベクトル^￣ｑを、ｎ番目のマイクロホンと話者間の室内伝達関数に対応するチャネル応答成分Ｑ_ｎ（ｐ）に分解する。クリーン音声成分分解手段３３は、クリーン音声ガウス混合分布記憶部２０に記憶されたクリーン音声ガウス混合分布の平均ベクトルμ_ｓ，ｋを、特徴量領域のスカラー量τ_ｓ，ｋ（ｐ）（μ_ｓ，ｋ＝[τ_ｓ，ｋ（１）．．．τ_ｓ，ｋ（Ｐ）]^Ｔ）に分解する（ステップＳ３１〜Ｓ３２）。

期待値計算手段３４は、雑音成分分解手段３１とチャネル応答成分分解手段３２とクリーン音声成分分解手段３３の出力する特徴量領域のそれぞれのスカラー量を入力として、クリーン音声の特徴量と加法性雑音の特徴量とチャネル応答成分の特徴量とでモデル化した観測信号を、テーラー展開したそれぞれの特徴量に関する１次のテーラー展開係数Ｄ_ｋ ^（ｓ），Ｄ_ｋ ^（ｑ），Ｄ_ｋ ^（ｖ）と観測信号に関する事後確率ｐ（ｋ|ｙ_ｔ，λ）の期待値を計算する（ステップＳ３３）。事後確率ｐ（ｋ|ｙ_ｔ，λ）は、上記した式（９）で計算する。

クリーン音声ｓに関する１次のテーラー展開係数Ｄ_ｋ ^（ｓ）は、ＮＰ×Ｐ次元の構造を持つ、ｎ番目の行列内のブロックであるＰ×Ｐ次元の行列Ｄ_ｎ，ｋ ^（ｓ）の中のｐ番目（ｐ＝１，…，Ｐ）の対角要素は、式（２１）で与えられる。

ここで、Ｑ_0ｎ（ｐ）は、テーラー展開の展開点のチャネル応答成分である。

チャネル応答成分ｑに関する１次のテーラー展開係数Ｄ_ｋ ^（ｑ）と加法性雑音成分μ_ｖに関する１次のテーラー展開係数Ｄ_ｋ ^（ｖ）は、ＮＰ×ＮＰ次元のブロック対角行列であり、ｎ番目のブロック対角要素はＰ×Ｐ次元の対角行列Ｄ_ｎ，ｋ ^（ｑ），Ｄ_ｎ，ｋ ^（ｖ）であり、その中のｐ番目（ｐ＝１，…，Ｐ）の対角要素は、式（２２）と式（２３）で与えられる。

ここで、ｆ（・）は各要素ごとに作用する関数である。また、以下の仮定を用いている。

期待値計算手段３４の処理は、全てのガウス分布ｋ（混合数Ｋ）について行われる。

最大化手段３４は、期待値計算手段３３で計算された１次のテーラー展開係数Ｄ_ｋ ^（ｓ），Ｄ_ｋ ^（ｑ），Ｄ_ｋ ^（ｖ）と事後確率ｐ（ｋ|ｙ_ｔ，λ）を入力として、雑音に関する最適パラメータ^￣μ_ｖ ^ｏ、^￣Σ_ｖｖ ^ｏを上記した式（１５）と式（１６）を用いて更新する。それと同時に、チャネル応答パラメータの最適値^￣ｑ_ｎ ^ｏも上記した式（１８）を用いて更新する（ステップＳ３４０）。

更新されたパラメータ^￣μ_ｖ、^￣ｑ_ｎ、^￣Σ_ｖｖ、は、ベクトル成分分解手段３１と３２と、期待値計算手段３４に出力（帰還）され、補助関数の値が十分に最大化され、パラメータが最適値（^￣μ_ｖ ^ｏ、^￣Σ_ｖｖ ^ｏ、^￣ｑ_ｎ ^ｏ）に十分に近づくまで（ステップＳ３４１の収束）、ステップＳ３１〜Ｓ３４０の処理が繰り返される。

なお、１次のテーラー展開係数を用いる例で説明を行ったが、より高次のテーラー展開係数を用いても良い。計算は複雑になるが、パラメータの推定精度の向上が期待できる。

〔クリーン音声特徴量推定部〕
図６に、クリーン音声特徴量推定部４０の機能構成例を示す。その動作フローを図７に示す。クリーン音声特徴量推定部４０は、音声強調フィルタ算出手段４１と音声強調フィルタ処理手段４２を備える。

音声強調フィルタ算出手段４１は、特徴量抽出部１０が出力する観測信号の特徴量Ｙ_１，ｔ（ｐ）〜Ｙ_Ｎ，ｔ（ｐ）と、音響歪みパラメータ推定部３０が出力する音響歪みパラメータ^￣μ_ｖ ^ｏ，^￣Σ_ｖｖ ^ｏ，^￣ｑ_ｎ ^ｏと１次のテーラー展開係数Ｄ_ｋ ^（ｓ），Ｄ_ｋ ^（ｑ），Ｄ_ｋ ^（ｖ）と、クリーン音声ガウス混合分布記憶部２０にされたクリーン音声の統計量μ_ｓ，ｋ,Σ_ｓｓ，ｋとを、入力として特徴量領域の多チャネルウィナーフィルタＨ_ｋを次式を用いて算出する（ステップＳ４１）。

ここで^〜Σ_ｙｙ，ｋは式（２９）で計算される。補正項ｇ_ｋは上記した式（６）で計算される。

音声強調フィルタ処理手段４２は、ウィナーフィルタＨ_ｋと、観測信号の特徴量Ｙ_１，ｔ（ｐ）〜Ｙ_Ｎ，ｔ（ｐ）と、１次のテーラー展開係数Ｄ_ｋ ^（ｓ），Ｄ_ｋ ^（ｑ），Ｄ_ｋ ^（ｖ）と、クリーン音声ガウス混合分布記憶部２０にされたクリーン音声の統計量μ_ｓ，ｋとを、入力としてクリーン音声特徴量の最小二乗誤差推定値＾ｓ_ｔを音声強調済み特徴量として計算する（ステップＳ４２）。

クリーン音声特徴量の最小二乗誤差推定値＾ｓ_ｔは式（３０）で表せる。

ここで、クリーン音声特徴量ｓ_ｔの分布はガウス混合モデルで与えられることを考慮すると、クリーン音声特徴量の最小二乗誤差推定値＾ｓ_ｔは次式で与えられる。

ここで、μ_ｙ，ｋは式（２５）のように計算される。

この実施例では、空間情報を明示的に含むパラメータΣ_ｖｖが、多チャネルウィナーフィルタＨ_ｋを計算するために用いるパラメータΣ_ｙｙ，ｋの計算に用いられるため、ウィナーフィルタによるクリーン音声推定精度が向上する。さらに、式（３１）に使われているｐ（ｋ|ｙ_ｔ）も、音響歪みパラメータ推定部３０で空間情報を用いてより精度良く推定されているため、クリーン音声特徴量推定の精度が向上する。

〔評価実験〕
この発明の音声強調装置１００の性能を評価する目的で評価実験を行った。実験条件は次の通りとした。

評価には、ＴＩ-Digitデータベースを用いた数字認識実験を用いた。標本化周波数は8kHzとした。音響モデルの学習には、ＴＩ-Digitデータベースから得られるクリーン音声8440文を用いた。音響モデルは話者非依存とし、各単語について18状態からなる隠れマルコフモデルを用いた。各状態でのガウス混合モデルの混合数は3とした。特徴量としては、13次のメル周波数ケプストラム（ＭＦＣＣ）にそのΔ成分とΔΔ成分を加えた39次元のＭＦＣＣ特徴量を用いた。これらの設定は一般的な実験で広く用いられている設定に倣ったものである。

この発明の音声強調方法は、特徴量領域で行うが、特徴量領域としては対数メルスペクトル領域を用いた。事前学習でのガウス混合モデルの学習には、音声認識の音響モデル学習に用いたデータと同じＴＩ-Digitデータベースから得られるクリーン音声8440文を用いた。ガウス混合モデルの混合数は、Ｋ＝256とした。音声強調後の処理音声は対数スペクトル領域の信号であるため、処理後の音声は、音声認識の事前学習時と同様の処理手順を用いて、39次元のＭＦＣＣ特徴量に変換した。音響歪みパラメータ推定部３０のＥＭアルゴリズムの繰り返し回数は最大１０回とした。

２チャネルの評価用観測信号の作成には、学習で用いられていないＴＩ-Digitデータベースの評価用クリーン音声1001文を用いた。これらのクリーン音声を、実測されたＲＷＣＰデータベースの２種類の室内インパルス応答（それぞれ残響時間０秒と、０．３１秒）に畳み込み、２つの残響条件を模擬し、その後、この残響音声に、ＡＵＲＯＲＡ-２データベースに含まれるノイズ区間、若しくは定常白色雑音を、いくつかのＳＮＲ条件（0，5，10，15，20dB）で足し合わせた。実験条件としては、合計２０種類（２残響条件×２雑音条件×５ＳＮＲ条件）の異なる雑音残響環境を模擬した。

表１〜４に、各雑音、残響条件での実験結果（単語正解精度）を示した。表中のベースラインは、音声強調処理を行わずに観測信号をそのまま認識した場合の単語正解精度である。従来法１及び２は、各々のマイク観測信号に異なる従来法を適用して音声強調を行い、処理信号を認識した場合の単語正解精度である。

チャネル間情報（空間情報）を用いるこの発明の音声強調方法が高い認識性能を示し、この発明の有効性を確認することが出来た。

上記した音声強調装置１００における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）/ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

多チャネル音響信号を観測信号とし、チャネルごとの観測信号の特徴量を抽出する特徴量抽出部と、
クリーン音声ガウス混合モデルを記憶するクリーン音声ガウス混合分布記憶部と、
上記チャネルごとの観測信号の特徴量と、上記クリーン音声ガウス混合モデルとを入力として、上記チャネルごとの観測信号の特徴量に含まれる当該チャネルの加法性雑音成分を特定するパラメータと上記チャネルごとのチャネル応答歪みを特定するパラメータとを含む音響歪みパラメータを最尤推定する音響歪みパラメータ推定部と、
上記チャネルごとの観測信号の特徴量と、上記音響歪みパラメータ推定部で推定した音響歪みパラメータと、上記クリーン音声ガウス混合モデルを入力として、上記観測信号に含まれるクリーン音声を最小二乗誤差推定してクリーン音声信号の特徴量を推定するクリーン音声特徴量推定部と、
を具備し、
上記加法性雑音成分を特定するパラメータは、当該パラメータに含まれる雑音の事後分布の平均および分散を表す項に複数の上記チャネル間の相互関係を表す上記チャネルごとの加法性雑音成分の共分散を含み、
上記雑音の事後分布の平均および分散は、上記チャネルごとの観測信号と上記チャネルごとの加法性雑音成分との結合分布の平均と分散に基づいて算出されるガウス分布の平均および分散であり、
上記最尤推定は、上記加法性雑音成分を特定するパラメータを、上記雑音の事後分布の平均および分散に基づいて推定する処理を含む
ことを特徴とする音声強調装置。
請求項１に記載した音声強調装置において、
上記音響歪みパラメータ推定部は、
更新された加法性雑音成分の平均ベクトル￣μ_ｖを、マイクロホン毎の特徴量領域のスカラー量τ_ｖｎ（ｐ）に分解する雑音成分分解手段と、
更新されたチャネル応答成分ベクトル￣ｑを、ｎ番目のマイクロホンと話者間の室内伝達関数に対応するチャネル応答成分Ｑ_ｎ（ｐ）に分解するチャネル応答成分分解手段と、
クリーン音声ガウス混合分布記憶部に記憶されたクリーン音声ガウス混合分布の平均ベクトルμ_ｓ，ｋを、特徴量領域のスカラー量τ_ｓ，ｋ（ｐ）に分解するクリーン音声成分分解手段と、
雑音信号とチャネル応答成分とクリーン音声ガウス混合分布の上記特徴量領域のスカラー量と上記観測信号の特徴量を入力として、クリーン音声の特徴量と加法性雑音の特徴量とチャネル応答成分の特徴量とでモデル化した観測信号を、テーラー展開したそれぞれの特徴量に関するテーラー展開係数と上記観測信号に関する事後確率の期待値を計算する期待値計算手段と、
上記期待値計算手段で計算した上記テーラー展開係数と上記事後確率を入力として、上記更新された加法性雑音成分の平均ベクトル￣μ_ｖと共分散￣Σ_ｖｖと上記更新されたチャネル応答成分ベクトル￣ｑとをさらに更新させ、上記加法性雑音成分の平均ベクトル￣μ_ｖを上記雑音成分分解手段に、上記チャネル応答成分ベクトル￣ｑを上記チャネル応答成分分解手段に、上記共分散￣Σ_ｖｖを上記期待値計算手段に、それぞれ帰還する処理を、それらの値が最大化するまで繰り返す最大化手段と、
を備えたことを特徴とする音声強調装置。
請求項１又は２に記載した音声強調装置において、
上記クリーン音声特徴量推定部は、
上記特徴量抽出部が出力する観測信号の特徴量Ｙ_１，ｔ（ｐ）〜Ｙ_Ｎ，ｔ（ｐ）と、上記音響歪みパラメータ推定部が出力する音響歪みパラメータμ_ｖ，Σ_ｖｖ，ｑと上記テーラー展開係数Ｄ_ｋ ^（ｓ），Ｄ_ｋ ^（ｑ），Ｄ_ｋ ^（ｖ）と、上記クリーン音声ガウス混合分布記憶部に記憶されたクリーン音声の統計量μ_ｓ，ｋ，Σ_ｓｓ，ｋを入力として、特徴量領域の多チャネルウィナーフィルタＨ_ｋを算出する音声強調フィルタ算出手段と、
上記多チャネルウィナーフィルタＨ_ｋと、上記観測信号の特徴量Ｙ_１，ｔ（ｐ）〜Ｙ_Ｎ，ｔ（ｐ）と、上記テーラー展開係数Ｄ_ｋ ^（ｓ），Ｄ_ｋ ^（ｑ），Ｄ_ｋ ^（ｖ）と、上記クリーン音声ガウス混合分布記憶部に記憶されたクリーン音声の統計量μ_ｓ，ｋとを入力として、クリーン音声特徴量の最小二乗誤差推定値＾ｓ_ｔを音声強調済み特徴量として計算する音声強調フィルタ処理手段と、
を備えたことを特徴とする音声強調装置。
多チャネル音響信号を観測信号とし、チャネルごとの観測信号の特徴量を抽出する特徴量抽出過程と、
上記チャネルごとの観測信号の特徴量と、クリーン音声ガウス混合分布記憶部に記憶されたクリーン音声ガウス混合モデルとを入力として、上記チャネルごとの観測信号の特徴量に含まれる当該チャネルの加法性雑音成分を特定するパラメータと上記チャネルごとのチャネル応答歪みを特定するパラメータとを含む音響歪みパラメータを最尤推定する音響歪みパラメータ推定過程と、
上記チャネルごとの観測信号の特徴量と、上記音響歪みパラメータ推定部で推定した音響歪みパラメータと、上記クリーン音声ガウス混合モデルを入力として、上記観測信号に含まれるクリーン音声を最小二乗誤差推定してクリーン音声信号の特徴量を推定するクリーン音声特徴量推定過程と、
を含み、
上記加法性雑音成分を特定するパラメータは、当該パラメータに含まれる雑音の事後分布の平均および分散を表す項に複数の上記チャネル間の相互関係を表す上記チャネルごとの加法性雑音成分の共分散を含み、
上記雑音の事後分布の平均および分散は、上記チャネルごとの観測信号と上記チャネルごとの加法性雑音成分との結合分布の平均と分散に基づいて算出されるガウス分布の平均および分散であり、
上記最尤推定は、上記加法性雑音成分を特定するパラメータを、上記雑音の事後分布の平均および分散に基づいて推定する処理を含む
ことを特徴とする音声強調方法。
請求項４に記載した音声強調方法において、
上記音響歪みパラメータ推定過程は、
更新された加法性雑音成分の平均ベクトル￣μ_ｖを、マイクロホン毎の特徴量領域のスカラー量τ_ｖｎ（ｐ）に分解する雑音成分分解ステップと、
更新されたチャネル応答成分ベクトル￣ｑを、ｎ番目のマイクロホンと話者間の室内伝達関数に対応するチャネル応答成分Ｑ_ｎ（ｐ）に分解するチャネル応答成分分解ステップと、
クリーン音声ガウス混合分布記憶部に記憶されたクリーン音声ガウス混合分布の平均ベクトルμ_ｓ，ｋを、特徴量領域のスカラー量τ_ｓ，ｋ（ｐ）に分解するクリーン音声成分分解ステップと、
雑音信号とチャネル応答成分とクリーン音声ガウス混合分布の上記特徴量領域のスカラー量と上記観測信号の特徴量を入力として、クリーン音声の特徴量と加法性雑音の特徴量とチャネル応答成分の特徴量とでモデル化した観測信号を、テーラー展開したそれぞれの特徴量に関するテーラー展開係数と上記観測信号に関する事後確率の期待値を計算する期待値計算ステップと、
上記期待値計算ステップで計算した上記テーラー展開係数と上記事後確率を入力として、上記更新された加法性雑音成分の平均ベクトル￣μ_ｖと共分散￣Σ_ｖｖと上記更新されたチャネル応答成分ベクトル￣ｑとをさらに更新させ、上記加法性雑音成分の平均ベクトル￣μ_ｖを上記雑音成分分解ステップに、上記チャネル応答成分ベクトル￣ｑを上記チャネル応答成分分解ステップに、上記共分散￣Σ_ｖｖを上記期待値計算ステップに、それぞれ帰還する処理を、それらの値が最大化するまで繰り返す最大化ステップと、
を含むことを特徴とする音声強調方法。
請求項４又は５に記載した音声強調方法において、
上記クリーン音声特徴量推定過程は、
上記特徴量抽出過程が出力する観測信号の特徴量Ｙ_１，ｔ（ｐ）〜Ｙ_Ｎ，ｔ（ｐ）と、上記音響歪みパラメータ推定過程が出力する音響歪みパラメータμ_ｖ，Σ_ｖｖ，ｑと上記テーラー展開係数Ｄ_ｋ ^（ｓ），Ｄ_ｋ ^（ｑ），Ｄ_ｋ ^（ｖ）と、上記クリーン音声ガウス混合分布記憶部に記憶されたクリーン音声の統計量μ_ｓ，ｋ，Σ_ｓｓ，ｋを入力として、特徴量領域の多チャネルウィナーフィルタＨ_ｋを算出する音声強調フィルタ算出ステップと、
上記多チャネルウィナーフィルタＨ_ｋと、上記観測信号の特徴量Ｙ_１，ｔ（ｐ）〜Ｙ_Ｎ，ｔ（ｐ）と、上記テーラー展開係数Ｄ_ｋ ^（ｓ），Ｄ_ｋ ^（ｑ），Ｄ_ｋ ^（ｖ）と、上記クリーン音声ガウス混合分布記憶部に記憶されたクリーン音声の統計量μ_ｓ，ｋとを入力として、クリーン音声特徴量の最小二乗誤差推定値＾ｓ_ｔを音声強調済み特徴量として計算する音声強調フィルタ処理ステップと、
を含むことを特徴とする音声強調方法。
請求項１乃至３の何れかに記載した音声強調装置としてコンピュータを機能させるためのプログラム。