JP5966689B2

JP5966689B2 - 音響モデル適応装置、音響モデル適応方法および音響モデル適応プログラム

Info

Publication number: JP5966689B2
Application number: JP2012150743A
Authority: JP
Inventors: 秀治古明地; 隆行荒川; 孝文越仲
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2012-07-04
Filing date: 2012-07-04
Publication date: 2016-08-10
Anticipated expiration: 2032-07-04
Also published as: JP2014013324A

Description

本発明は、音響モデルを雑音に適応させるための音響モデル適応装置、音響モデル適応方法および音響モデル適応プログラムに関する。

音声認識装置の性能は、実運用における雑音の影響によって著しく劣化するため、耐雑音手法が必要となる。性能劣化の原因は、音響モデル学習時に用いられた音声信号（以下、学習データと記す。)と、実運用で認識対象となる音声信号（以下、テストデータと記す。）とが異なることにより生じる、音響モデルとテストデータとの間の不一致である。このような不一致を抑制することを目的とした音声認識向けの耐雑音手法として、モデル適応法がある。

モデル適応法は、テストデータが含む雑音の統計量（以下、雑音統計量という。）を音響モデルに反映させることで、音響モデルを構成する混合ガウス分布を、テストデータが作る分布に近づける。雑音の統計量は、例えば、雑音の特徴量の平均や分散である。モデル適応法として、例えば、ＶＴＳ（ＶｅｃｔｏｒＴａｙｌｏｒＳｅｒｉｅｓ）適応法がある（例えば、非特許文献１参照。）。ＶＴＳ適応法は、ＭＦＣＣ（Ｍｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔ）のような音響特徴量空間における、音声と雑音、雑音付加音声との関係を規定する非線形関数を１次テイラー近似し、クリーン音響モデル（学習データにクリーンな音声を使用して学習した音響モデル）を雑音に適応する。これにより、ＶＴＳ適応法は、非線形関数から生じる複雑さを排除し、線形演算のみの低演算な雑音適応を行う。

しかし、ＶＴＳ適応法では、分散が大きい、または、非線形性の影響が大きい領域に平均を持つガウス分布の雑音適応に際して、テイラー近似の誤差が大きくなり、適応精度を劣化させる。そこで、予め、適応する音響モデルのガウス分布の個数を認識時に必要とする個数よりも増やして学習しておく。これにより、各々のガウス分布の分散が小さくなり、線形近似による誤差を小さくすることができる。しかし、ガウス分布の個数を増やした音響モデルを予め用意することにより、計算量が増加してしまうことが短所となる。

ガウス分布の個数を増やした音響モデルを用意出来ない場合に、適応精度の劣化を抑える方法として、ＵＴ（ＵｎｓｃｅｎｔｅｄＴｒａｎｓｆｏｒｍ）適応法がある（例えば、特許文献１参照。）。ＵＴ適応法では、ガウス分布毎に「シグマポイント」と呼ばれるサンプルの集合を生成し、サンプル点毎に雑音適応し、雑音適応ガウス分布を生成する。サンプル点の生成は、ガウス分布の個数を増やす処理に準ずる。これにより、ＵＴ適応法は、ガウス分布の個数を増やした音響モデルが用意できない場合において、ＶＴＳ適応法よりも高い精度で、音響モデルを雑音適応できる。

特開２０１０−０７８６５０号公報

Ａ．Ａｃｅｒｏ，Ｌ．Ｄｅｎｇ，Ｔ．Ｋｒｉｓｔｊａｎｓｓｏｎ，ａｎｄＪ．Ｚｈａｎｇ， "ＨＭＭＡｄａｐｔａｔｉｏｎｕｓｉｎｇＶｅｃｔｏｒＴａｙｌｏｒＳｅｒｉｅｓｆｏｒＮｏｉｓy ＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ"，ｉｎＰｒｏｃ．ＩＣＳＬＰ，Ｖｏｌ．３，ｐｐ．８６９−８７２，２０００．

しかし、クリーン音響モデルを構成するガウス分布の中には、線形近似を用いた雑音適応をしても適応誤差が小さいものが存在する。このため、クリーン音響モデルの全てのガウス分布に対して、ガウス分布を増やしてＶＴＳ適応法を実施する方法や、シグマポイントを生成するＵＴ適応法といった、高精度だが高演算量を必要とする方法を適用することは計算量の無駄である。

そこで、本発明は、適応精度を劣化させることなく、より低演算量で音響モデルを雑音適応することができる音響モデル適応装置および音響モデル適応方法および音響モデル適応プログラムを提供することを目的とする。

本発明による音響モデル適応装置は、音響モデルを雑音に適応して雑音音響モデルを生成する音響モデル適応装置であって、雑音に適応する音響モデルを増やして雑音適応する第一の雑音適応部と、線形近似を用いて雑音適応する第二の雑音適応部と、音響モデルと当該音響モデルを適応する雑音の統計量とに基づいて、第一の雑音適応部または第二の雑音適応部を選択する適応方式選択部とを備えたことを特徴とする。

本発明による音響モデル適応方法は、音響モデルを雑音に適応して雑音音響モデルを生成する音響モデル適応方法であって、音響モデルと当該音響モデルを適応する雑音の統計量とに基づいて、雑音に適応する音響モデルを増やして雑音適応を行うか、または、線形近似を用いて雑音適応を行うかを選択し、選択に基づいて雑音適応を行うことを特徴とする。

本発明による音響モデル適応プログラムは、音響モデルを雑音に適応して雑音音響モデルを生成する音響モデル適応装置における音響モデル適応プログラムであって、コンピュータに、音響モデルと当該音響モデルを適応する雑音の統計量とに基づいて、雑音に適応する音響モデルを増やして雑音適応を行うか、または、線形近似を用いて雑音適応を行うかを選択し、選択に基づいて雑音適応を行う処理を実行させることを特徴とする。

本発明によれば、高演算かつ高精度な方法と比較して同程度の適応精度で、つまり、適応精度を劣化させることなく、より低演算量で音響モデルを雑音適応することができる。

本発明による音響モデル適応装置の第１の実施形態における構成を示すブロック図である。第１の実施形態における音響モデル適応装置の動作の一例を示すフローチャートである。本発明による音響モデル適応装置の第２の実施形態における構成を示すブロック図である。第２の実施形態における第一の雑音適応部の動作の一例を示すフローチャートである。認識に用いるガウス分布集合と第一の雑音適応部で用いるガウス分布集合との関係を示す木構造の音響モデルの構成の一例を示す説明図である。本発明による音響モデル適応装置の第３の実施形態における構成を示すブロック図である。第３の実施形態における適応方式選択部３０３の動作の一例を示すフローチャートである。本発明による音響モデル適応装置の最小構成を示すブロック図である。本発明による音響モデル適応装置の他の最小構成を示すブロック図である。

実施形態１．
以下、本発明の第１の実施形態を図面を参照して説明する。

図１は、本発明による音響モデル適応装置の第１の実施形態における構成を示すブロック図である。図１に示すように、音響モデル適応装置１００は、雑音統計量取得部１０１と、ガウス分布取得部１０２と、適応方式選択部１０３と、第一の雑音適応部１０４と、第二の雑音適応部１０５と、ガウス分布格納部１０６とを備える。

また、図１に示すように、音響モデル適応装置１００は、音響モデル適応装置１００が入力する情報を記憶するクリーン音響モデル記憶装置１および雑音統計量記憶装置２と接続される。また、音響モデル適応装置１００は、音響モデル適応装置１００が出力する情報を記憶する雑音適応音響モデル記憶装置３と接続される。

なお、雑音統計量取得部１０１、ガウス分布取得部１０２、適応方式選択部１０３、第一の雑音適応部１０４、第二の雑音適応部１０５およびガウス分布格納部１０６は、音響モデル適応装置１００が備えるＣＰＵ等によって実現される。

図２は、第１の実施形態における音響モデル適応装置１００の動作の一例を示すフローチャートである。

図２に示すように、雑音統計量取得部１０１が、雑音統計量記憶装置２から雑音統計量を取得する（ステップＳ１０１）。ガウス分布取得部１０２が、クリーン音響モデル記憶装置１からクリーン音響モデルを構成するガウス分布パラメータを一つずつ取得する（ステップＳ１０２）。適応方式選択部１０３が、ステップＳ１０１において取得された雑音統計量と、ステップＳ１０２において取得されたガウス分布パラメータとを基に、適応方式に第一の雑音適応部１０４の方式を用いるか、第二の雑音適応部１０５の方式を用いるか、を選択する（ステップＳ１０３）。つまり、第一の雑音適応部１０４と第二の雑音適応部１０５のどちらに雑音適応を実行させるか、を選択する。

適応方式選択部１０３が第一の雑音適応部１０４の方式を選択した場合は（ステップＳ１０３におけるＹｅｓ）、第一の雑音適応部１０４が、ガウス分布パラメータを雑音適応する（ステップＳ１０４）。適応方式選択部１０３が第二の雑音適応部１０５の方式を選択した場合は（ステップＳ１０３におけるＮｏ）、第二の雑音適応部１０５が、ガウス分布パラメータを雑音適応する（ステップＳ１０５）。

ガウス分布格納部１０６は、雑音適応したガウス分布パラメータ（以下、雑音適応音響モデルという。）を、雑音適応音響モデル記憶装置３に格納する（ステップＳ１０６）。

次に、本実施形態における音響モデル適応装置１００が備える各構成要素の詳細について説明する。

まず、音響モデル適応装置１００が入力する情報を記憶するクリーン音響モデル記憶装置１および雑音統計量記憶装置２、音響モデル適応装置１００が出力する情報を記憶する雑音適応音響モデル記憶装置３の詳細を説明する。次に、音響モデル適応装置１００の構成要素である、雑音統計量取得部１０１、ガウス分布取得部１０２、適応方式選択部１０３、第一の雑音適応部１０４、第二の雑音適応部１０５、ガウス分布格納部１０５の詳細を説明する。

クリーン音響モデル記憶装置１は、学習データにクリーンな音声を使用して学習したクリーン音響モデルを記憶する。以下、学習及び認識に用いる特徴量を、パワーに相当するＣ０特徴量を含むＭＦＣＣ１３次元とする。Ｃ０特徴量は、ＭＦＣＣ１３次元の０次の要素である。なお、ＭＦＣＣ１３次元、その一次動的成分（１３次元）及び二次動的成分（１３次元）で構成される計３９次元のベクトルとしてもよい。なお、パワーに相当する特徴量を含めば、例示したものに限らずあらゆる特徴量を使用することができる。以下の説明で、クリーン音響モデルのガウス分布における平均と分散をそれぞれ次のように表す。

μ_ｘ，ｉ，Σ_ｘ，ｉ（ｉ＝１，…，Ｎ）

ここで、添え字ｘはクリーン音響モデルのパラメータであることを示す。添え字ｉはガウス分布の分布ＩＤ番号を示す。Ｎはクリーン音響モデルに含まれるガウス分布の総数を示す。

雑音統計量記憶装置２は、適応に用いる雑音の統計量を記憶する。本実施形態では、雑音統計量記憶装置２は、認識で用いるものと同じ特徴量領域における雑音の平均、分散を、雑音の統計量として記憶する。特徴量領域は、ある処理によって作られた特徴量の集合または空間をいう。以下の説明では、雑音の平均、分散をそれぞれ次のように表す。

μ_ｎ，Σ_ｎ

雑音適応音響モデル記憶装置３は、音響モデル適応装置１００によって適応された雑音適応音響モデルを記憶する。以下の説明では、音響モデルの各ガウス分布パラメータである平均と分散とを次のように表す。

μ_ｙ￣，ｉ，Σ_ｙ￣，ｉ（ｉ＝１，…，Ｎ）

ここで、添え字ｙ￣（￣は、ｙの上に付く。以下同じ。）は雑音適応音響モデルのパラメータであることを示す。添え字ｉはガウス分布の分布ＩＤ番号を示す。

雑音統計量取得部１０１は、雑音統計量記憶装置２に格納されている雑音統計量μ_ｎ，Σ_ｎを取得し、適応方式選択部１０３と、第一の雑音適応部１０４と、第二の雑音適応部１０５とに渡す。

ガウス分布取得部１０２は、クリーン音響モデル記憶装置１に格納されているクリーン音響モデルのＮ個のガウス分布パラメータμ_ｘ，ｉ，Σ_ｘ，ｉ（ｉ＝１，…，Ｎ）を一つずつ取得し適応方式選択部１０３に渡す。

適応方式選択部１０３は、ガウス分布取得部１０２と雑音統計量取得部１０１とからそれぞれ渡された、クリーン音響モデルのガウス分布パラメータ｛μ_ｘ，ｉ，Σ_ｘ，ｉ｝と雑音統計量｛μ_ｎ，Σ_ｎ｝とを比較する。適応方式選択部１０３は、比較の結果に応じて、ガウス分布パラメータ｛μ_ｘ，ｉ，Σ_ｘ，ｉ｝を、第一の雑音適応部１０４で雑音適応するべきか、第二の雑音適応部１０５で雑音適応するべきかを選択する。以下に示すように、当該比較は、スカラー関数Ｃｏｍｐ（μ_ｘ，ｉ，Σ_ｘ，ｉ，μ_ｎ，Σ_ｎ）を導入し、これが閾値Ｔｈ以上の値か、閾値Ｔｈ未満の値かを調べることで行う。

式１を満たすとき、適応方式選択部１０３は、ガウス分布パラメータ｛μ_ｘ，ｉ，Σ_ｘ，ｉ｝を第二の雑音適応部１０５に渡す。

式２を満たすとき、適応方式選択部１０３は、ガウス分布パラメータ｛μ_ｘ，ｉ，Σ_ｘ，ｉ｝を第一の雑音適応部１０４に渡す。

次に、Ｃｏｍｐ（μ_ｘ，ｉ，Σ_ｘ，ｉ，μ_ｎ，Σ_ｎ）の具体的な例を説明する。

適応方式を選択する場合、例えば、ガウス分布の平均μ_ｘ，ｉと雑音の平均μ_ｎとのＣ０特徴量の差分を調べればよい。このとき、ガウス分布の平均μ_ｘ，ｉのＣ０特徴量、雑音の平均μ_ｎのＣ０特徴量をそれぞれ、（μ_ｘ，ｉ）_０、（μ_ｎ）_０とすれば、比較関数は式３のようになる。

これは、Ｃ０特徴量はパワーに関する特徴量であることと、音声と雑音のパワーの差の大きさは雑音付加音声を示す非線形関数の非線形の度合いに影響を与えることとを利用している。

また、適応方式を選択する場合に、ガウス分布の分散のＣ０特徴量を用いてもよい。これは、線形近似による適応誤差は適応するガウス分布の分散の大きさにも依存するためである。ここで、（ｆ（ｘ，ｎ））_０を、雑音付加音声のＣ０特徴量を示す非線形関数とする（ｘ，ｎは、それぞれ、音声、雑音の特徴量とする。）。なお、ｆ（ｘ，ｎ）は、具体的には、式４のように示される。式４において、ＤはＤＣＴ行列を示し、Ｄ^−１はＤＣＴ逆行列を示す。

（ｆ（ｘ，ｎ））_０のｘ＝μ_ｘ，ｉ、ｎ＝μ_ｎにおけるテイラー近似式のＣ０特徴量を、（ｆ￣μ_ｘ，ｉ，μ_ｎ（ｘ、ｎ））_０と表す（￣は、ｆの上に付く。μ_ｘ，ｉ，μ_ｎはｆの添え字を表す。以下同じ。）。ここで、ｆ￣μ_ｘ，ｉ，μ_ｎは式５のように示される。

式５におけるＦ_ｉは、ｆ（ｘ、ｎ）のｘに関する、ｘ＝μ_ｘ，ｉ、ｎ＝μ_ｎにおけるヤコビアンを示す。ガウス分布の分散Σ_ｘ，ｉから導出される、Ｃ０特徴量に関する２個のシグマポイントを、σ_１，０＝＋√（Σ_ｘ，ｉ）_０、σ_２，０＝−√（Σ_ｘ，ｉ）_０とする。すると、比較関数は、式６のように示される。なお、（Σ_ｘ，ｉ）_０は、０列目のベクトルとする。

なお、式３、式６のＣｏｍｐ（μ_ｘ，ｉ，Σ_ｘ，ｉ，μ_ｎ，Σ_ｎ）を、それぞれＣｏｍｐ_１（μ_ｘ，ｉ，Σ_ｘ，ｉ，μ_ｎ，Σ_ｎ）、Ｃｏｍｐ_２（μ_ｘ，ｉ，Σ_ｘ，ｉ，μ_ｎ，Σ_ｎ）として、それぞれの線形和を比較関数としてもよい。式７は、そのときの比較関数を示す。ｗ_１、ｗ_２は重みを表す。

また、式６に関して、Ｃ０特徴量以外の特徴量を用いてもよい。例えば、全ての特徴量を使うとすると、式８のように表すことができる。

ここで、Ｊは特徴量の次元数を示し、σ_１，ｊ＝＋√（Σ_ｘ，ｉ）_ｊ、σ_２，ｊ＝−√（Σ_ｘ，ｉ）_ｊである。なお、（Σ_ｘ，ｉ）_ｊは、行列Σ_ｘ，ｉのｊ列目の列ベクトルを示す。なお、式１、２における最適な閾値Ｔｈや、式７における組み合わせ時の重みは、実験的に求めたものを使用してもよい。

第二の雑音適応部１０５は、ＶＴＳ適応法を用いて、μ_ｙ￣，ｉ，Σ_ｙ￣，ｉを出力する。特徴量をパワーに相当するＣ０特徴量を含むＭＦＣＣ１３次元としたときのＶＴＳ適応法による変換式は、以下のように表される。

第二の雑音適応部１０５は、｛μ_ｙ￣，ｉ，Σ_ｙ￣，ｉ｝を、ガウス分布格納部１０６に渡す。なお、一次動的特徴量に関するパラメータ｛Δμ_ｘ，ｉ，ΔΣ_ｘ，ｉ｝や二次動的特徴量｛ΔΔμ_ｘ，ｉ，ΔΔΣ_ｘ，ｉ｝に関するパラメータのＶＴＳ適応法による変換式は、以下のように表される。

ここで、ΔΣ_ｎ，ΔΔΣ_ｎは雑音の一次動的特徴量及び二次動的特徴量の分散を示す。

第一の雑音適応部１０４は、ＵＴ適応法を用いて、μ_ｙ￣，ｉ，Σ_ｙ￣，ｉを出力する。特徴量をパワーに相当するＣ０特徴量を含むＭＦＣＣ１３次元としたときのＵＴ適応法による変換式は、以下のように表される。

ここで、Ｓ_ｋはシグマポイントを示し、式１７のように表される。

μ_ｓ，ｉ，Σ_ｓ，ｉは式１８のように表される。

ここで、Ｄ＝１３である。また、（√Σ）_ｋは行列Σのｋ列目のベクトルを示す。そして、ｗ_ｋ＝１／４Ｄである。そして、｛μ_ｙ￣，ｉ，Σ_ｙ￣，ｉ｝を、ガウス分布格納部１０６に渡す。なお、一次動的特徴量に関するパラメータ｛Δμ_ｘ，ｉ，ΔΣ_ｘ，ｉ｝や二次動的特徴量｛ΔΔμ_ｘ，ｉ，ΔΔΣ_ｘ，ｉ｝に関するパラメータのＵＴ適応法による変換式は、以下のように表される。

Ｆ´_ｉは、式１５におけるμ_ｙ￣，ｉのμ_ｘ，ｉに関するヤコビアンを示す。

ガウス分布格納部１０６は、雑音適応したガウス分布パラメータ｛μ_ｙ￣，ｉ，Σ_ｙ￣，ｉ｝を雑音適応音響モデル記憶装置３に格納する。

以上に説明したように、本実施形態では、ガウス分布の平均のＣ０特徴量と、雑音の平均のＣ０特徴量との差分が一定値以上である場合に、ＵＴ適応法を適用するようにしている。従って、本実施形態によれば、全ガウス分布にＵＴ適応法を用いる場合と比較して、同程度の適応精度で、かつ、より低演算量で音響モデルを雑音適応できる。

実施形態２．
以下、本発明の第２の実施形態を図面を参照して説明する。

図３は、本発明による音響モデル適応装置の第２の実施形態における構成を示すブロック図である。

音響モデル適応装置２００の構成は、第１の実施形態における音響モデル適応装置１００の構成と同様である。ただし、図３に示すように、音響モデル適応装置２００は、詳細ガウス分布取得部２０７を備える。

また、音響モデル適応装置２００は、適応方式選択部１０３、第一の雑音適応部１０４の代わりに、適応方式選択部２０３、第一の雑音適応部２０４を備える。

また、音響モデル適応装置２００は、クリーン音響モデル記憶装置１および雑音統計量記憶装置２の他に、音響モデル適応装置２００が入力する情報を記憶する詳細クリーン音響モデル記憶装置７と接続される。

なお、適応方式選択部２０３、第一の雑音適応部２０４および詳細ガウス分布取得部２０７は、音響モデル適応装置２００が備えるＣＰＵ等によって実現される。

なお、本実施形態における音響モデル適応装置２００の動作の概要は、図２に示す音響モデル適応装置１００の動作の概要と同様であるため、説明を省略する。

次に、本実施形態における音響モデル適応装置２００が備える各構成要素の詳細について説明する。

詳細クリーン音響モデル記憶装置７は、クリーン音響モデル記憶装置１が記憶するクリーン音響モデルのパラメータをさらに増加して学習した詳細クリーン音響モデルを格納する。以下の説明では、詳細クリーン音響モデルのガウス分布における平均と分散を、それぞれ次のように表す。

μ_ｘ，ｉｊ，Σ_ｘ，ｉｊ（ｉ＝１，…，Ｎ、ｊ＝１，…，Ｎ）

ここで、μ_ｘ，ｉｊ，Σ_ｘ，ｉｊは、クリーン音響モデルにおける分布ＩＤをｉとするガウス分布から派生したｊ番目のガウス分布パラメータである。

適応方式選択部２０３は、ガウス分布取得部１０２と雑音統計量取得部１０１とからそれぞれ渡された、クリーン音響モデルのガウス分布パラメータ｛μ_ｘ，ｉ，Σ_ｘ，ｉ｝と雑音統計量｛μ_ｎ，Σ_ｎ｝とを比較する。当該比較は、第１の実施形態における適応方式選択部１０３と同じ方法であってもよい。適応方式選択部２０３は、比較の結果に応じて、ガウス分布パラメータ｛μ_ｘ，ｉ，Σ_ｘ，ｉ｝を、第一の雑音適応部２０４で雑音適応するべきか、第二の雑音適応部１０５で雑音適応するべきかを選択する。適応方式選択部２０３は、雑音適応に第一の雑音適応部２０４を選択した場合、詳細ガウス分布取得部２０７にクリーン音響モデルのガウス分布パラメータ｛μ_ｘ，ｉ，Σ_ｘ，ｉ｝を渡す。

詳細ガウス分布取得部２０７は、適応方式選択部２０３から受けるガウス分布パラメータ｛μ_ｘ，ｉ，Σ_ｘ，ｉ｝のＩＤ番号ｉに基づく、Ｎ_ｉ個のガウス分布パラメータ｛μ_ｘ，ｉｊ，Σ_ｘ，ｉｊ｝（ｊ＝１，…，Ｎ_ｉ）を詳細クリーン音響モデル記憶装置７から取得する。そして、詳細ガウス分布取得部２０７は、Ｎ_ｉ個のガウス分布パラメータ｛μ_ｘ，ｉｊ，Σ_ｘ，ｉｊ｝（ｊ＝１，…，Ｎ_ｉ）を第一の雑音適応部２０４に渡す。

第一の雑音適応部２０４は、Ｎ_ｉ個のガウス分布パラメータ｛μ_ｘ，ｉｊ，Σ_ｘ，ｉｊ｝（ｊ＝１，…，Ｎ_ｉ）を雑音適応する。第一の雑音適応部２０４は、雑音適応したガウス分布パラメータμ_ｙ￣，ｉ，Σ_ｙ￣，ｉを出力する。

図４は、第２の実施形態における第一の雑音適応部２０４の動作の一例を示すフローチャートである。

図４に示すように、第一の雑音適応部２０４は、適応方式選択部２０３から受けるガウス分布パラメータ｛μ_ｘ，ｉ，Σ_ｘ，ｉ｝のＩＤ番号ｉに基づく、Ｎ_ｉ個のガウス分布パラメータ｛μ_ｘ，ｉｊ，Σ_ｘ，ｉｊ｝（ｊ＝１，…，Ｎ_ｉ）を取得する（ステップＳ２０４１）。

図５は、認識に用いるガウス分布集合と第一の雑音適応部２０４で用いるガウス分布集合との関係を示す木構造の音響モデル（木構造音響モデル）の構成の一例を示す説明図である。

第一の雑音適応部２０４は、それぞれのガウス分布に対して、式９、式１０に示すＶＴＳ適応法を用いて、雑音特徴量｛μ_ｎ，Σ_ｎ｝に適応したＮ_ｉ個のガウス分布パラメータ｛μ_{ｙ￣，ｉｊ}，Σ_{ｙ￣，ｉｊ}｝（ｊ＝１，…，Ｎ_ｉ）を取得する（ステップＳ２０４２）。

第一の雑音適応部２０４は、Ｎ_ｉ個の雑音適応したガウス分布パラメータ｛μ_{ｙ￣，ｉｊ}，Σ_{ｙ￣，ｉｊ}｝（ｊ＝１，…，Ｎ_ｉ）を一つのガウス分布パラメータに統合し、一つの雑音適応したガウス分布パラメータ｛μ_ｙ￣，ｉ，Σ_ｙ￣，ｉ｝を取得する（ステップＳ２０４２）。

ここで、ｗ´_ｊは混合重みで、Σ_ｊ＝１ ^Ｎｉ（ｗ´_ｊ）＝１である。Σ_ｊ＝１ ^Ｎｉは、ｊ＝１からｊ＝Ｎ_ｉまでの総和を示す。混合重みは、実験的に定めてもよいし、等確率すなわち１／Ｎ_ｉとしてもよい。そして、｛μ_ｙ￣，ｉ，Σ_ｙ￣，ｉ｝を、ガウス分布格納部１０６に渡す。

以上に説明したように、本実施形態では、ガウス分布の平均のＣ０特徴量と、雑音の平均のＣ０特徴量との差分が一定値以上である場合に、ガウス分布の混合数を増やしてＶＴＳ適応するようにしている。従って、本実施形態によれば、全ガウス分布の適応における計算量の増加を防止することができる。つまり、より低演算量で音響モデルを雑音適応できる。また、適応精度を劣化させることがない。

実施形態３．
以下、本発明の第３の実施形態を図面を参照して説明する。

図６は、本発明による音響モデル適応装置の第３の実施形態における構成を示すブロック図である。

音響モデル適応装置３００の構成は、第１の実施形態における音響モデル適応装置１００の構成と同様である。

ただし、図６に示すように、音響モデル適応装置３００は、適応方式選択部１０３の代わりに、適応方式選択部３０３を備える。また、音響モデル適応装置３００は、第一の雑音適応部１０４と第二の雑音適応部１０５の代わりに、第一の雑音適応部３０４１と、第二の雑音適応部３０４２と、第三の雑音適応部３０４３（図示せず）と、第四の雑音適応部３０４４とを備える。

なお、本実施形態における音響モデル適応装置３００の動作の概要は、図２に示す音響モデル適応装置１００の動作の概要と同様である。ただし、図２に示すステップＳ１０４、Ｓ１０５に相当する分岐が雑音適応部の数に応じて増える。

なお、適応方式選択部３０３、第一の雑音適応部３０４１、第二の雑音適応部３０４２、第三の雑音適応部３０４３および第四の雑音適応部３０４４は、音響モデル適応装置３００が備えるＣＰＵ等によって実現される。

次に、本実施形態における音響モデル適応装置３００が備える各構成要素の詳細について説明する。

適応方式選択部３０３は、クリーン音響モデルのガウス分布パラメータ｛μ_ｘ，ｉ，Σ_ｘ，ｉ｝と雑音統計量｛μ_ｎ，Σ_ｎ｝とを比較する。適応方式選択部３０３は、比較の結果に応じて、ガウス分布パラメータ｛μ_ｘ，ｉ，Σ_ｘ，ｉ｝を第一の雑音適応部から第四の雑音適応部のうちのどの雑音適応部で雑音適応するべきか、を決定する。決定の際、適応方式選択部３０３は、第１の実施形態で記載したスカラー関数Ｃｏｍｐ（μ_ｘ，ｉ，Σ_ｘ，ｉ，μ_ｎ，Σ_ｎ）を用いる。また、適応方式選択部３０３は、二つの閾値Ｔｈ_１、Ｔｈ_２（ただし、Ｔｈ_１＜Ｔｈ_２）を用いる。なお、Ｔｈ_１、Ｔｈ_２は実験的に求めたものを使用してもよい。

図７は、第３の実施形態における適応方式選択部３０３の動作の一例を示すフローチャートである。

図７に示すように、適応方式選択部３０３は、ガウス分布取得部１０２からクリーン音響モデルのガウス分布パラメータ｛μ_ｘ，ｉ，Σ_ｘ，ｉ｝を取得し（ステップＳ３０３１）、雑音統計量取得部１０１から｛μ_ｎ，Σ_ｎ｝を取得する（ステップＳ３０３２）。

まず、適応方式選択部３０３は、一つ目の閾値Ｔｈ_１とＣｏｍｐ（μ_ｘ，ｉ，Σ_ｘ，ｉ，μ_ｎ，Σ_ｎ）との比較を行う（ステップＳ３０３３）。

式２５を満たす場合は（ステップＳ３０３３におけるＹｅｓ）、適応方式選択部３０３は、ガウス分布パラメータ｛μ_ｘ，ｉ，Σ_ｘ，ｉ｝を第一の雑音適応部３０４１に渡す（ステップＳ３０３６）。そして、第一の雑音適応部３０４１が、ガウス分布パラメータ｛μ_ｘ，ｉ，Σ_ｘ，ｉ｝の雑音適応を行う。

そうでない場合は（ステップＳ３０３３におけるＮｏ）、適応方式選択部３０３は、二つ目の閾値Ｔｈ_２とＣｏｍｐ（μ_ｘ，ｉ，Σ_ｘ，ｉ，μ_ｎ，Σ_ｎ）との比較を行う（ステップＳ３０３４）。

式２６を満たす場合は（ステップＳ３０３４におけるＹｅｓ）、適応方式選択部３０３は、ガウス分布パラメータ｛μ_ｘ，ｉ，Σ_ｘ，ｉ｝を第二の雑音適応部３０４２に渡す（ステップＳ３０３７）。そして、第二の雑音適応部３０４２が、ガウス分布パラメータ｛μ_ｘ，ｉ，Σ_ｘ，ｉ｝の雑音適応を行う。

そうでない場合は（ステップＳ３０３４におけるＮｏ）、クリーン音響モデルのパラメータと雑音の統計量とのパワー差が大きいことが考えられる。具体的には、雑音が大きい場合およびクリーン音響モデルのパラメータが大きい場合の二通りが考えられる。この二通りを区別するために、（μ_ｘ、ｉ）_０と（μ_ｎ）_０とを比較する（ステップＳ３０３５）。

式２７を満たす場合は（ステップＳ３０３５におけるＹｅｓ）、適応方式選択部３０３は、ガウス分布パラメータ｛μ_ｘ，ｉ，Σ_ｘ，ｉ｝を第三の雑音適応部３０４３に渡す（ステップＳ３０３８）。そして、第三の雑音適応部３０４３が、ガウス分布パラメータ｛μ_ｘ，ｉ，Σ_ｘ，ｉ｝の雑音適応を行う。

そうでない場合は（ステップＳ３０３５におけるＮｏ）、適応方式選択部３０３は、ガウス分布パラメータ｛μ_ｘ，ｉ，Σ_ｘ，ｉ｝を第四の雑音適応部３０４４に渡す（ステップＳ３０３９）。そして、第四の雑音適応部３０４４が、ガウス分布パラメータ｛μ_ｘ，ｉ，Σ_ｘ，ｉ｝の雑音適応を行う。

第一の雑音適応部３０４１は、式１５、式１６に示されるＵＴ適応法を適用し、｛μ_ｙ￣，ｉ，Σ_ｙ￣，ｉ｝を出力する。

第二の雑音適応部３０４２は、式９、式１０に示されるＶＴＳ適応法を適用し、｛μ_ｙ￣，ｉ，Σ_ｙ￣，ｉ｝を出力する。

第三の雑音適応部３０４３は、｛μ_ｘ，ｉ，Σ_ｘ，ｉ｝を、｛μ_ｙ￣，ｉ，Σ_ｙ￣，ｉ｝として出力する。

第三の雑音適応部３０４４は、｛μ_ｎ，Σ_ｎ｝を、｛μ_ｙ￣，ｉ，Σ_ｙ￣，ｉ｝として出力する。

各雑音適応部から出力された｛μ_ｙ￣，ｉ，Σ_ｙ￣，ｉ｝は、ガウス分布格納部１０６に格納される。

以上に説明したように、本実施形態によれば、ＶＴＳ適応法よりも低演算の第三の雑音適応部と第四の雑音適応部とを備えることにより、第一の実施の形態における音響モデル適応装置１００よりも、精度を保ちつつ、計算量を減らすことができる。

なお、本実施形態では、４つの雑音適応部を備えるモデル適応装置を例にしたが、雑音適応部の数は４つに限定されない。つまり、モデル適応装置３００は、演算量と適応精度とがそれぞれ異なる雑音適応部をいくつ備えていてもよい。例えば、適応の近似粒度に応じた数の雑音適応部を備えていてもよい。

図８は、本発明による音響モデル適応装置の最小構成を示すブロック図である。図９は、本発明による音響モデル適応装置の他の最小構成を示すブロック図である。

図８に示すように、音響モデル適応装置（図１に示す音響モデル適応装置１００に相当。）は、音響モデルを雑音に適応して雑音音響モデルを生成する音響モデル適応装置であって、雑音に適応する音響モデルを増やして雑音適応する第一の雑音適応部２０−１（図１に示す音響モデル適応装置１００における第一の雑音適応部１０４に相当。）と、線形近似を用いて雑音適応する第二の雑音適応部２０−２（図１に示す音響モデル適応装置１００における第二の雑音適応部１０５に相当。）と、音響モデルと当該音響モデルを適応する雑音の統計量とに基づいて、第一の雑音適応部２０−１または第二の雑音適応部２０−２を選択する適応方式選択部１０（図１に示す音響モデル適応装置１００における適応方式選択部１０３に相当。）とを備える。

上記の実施形態には、以下のような音響モデル適応装置も開示されている。

（１）適応方式選択部１０は、音響モデルと当該音響モデルを適応する雑音の統計量とに基づいて、音響モデルの学習時に用いられた音声と雑音とのパワーの差を判定し、パワーの差が予め定められた閾値より大きい場合は第一の雑音適応部２０−１を選択し、閾値以下である場合は第二の雑音適応部２０−２を選択する音響モデル適応装置。

そのような構成によれば、非線形性の影響が大きい領域に平均を持つガウス分布を正確に認識することができる。それは、音声と雑音のパワーの差の大きさは、雑音付加音声を示す非線形関数の非線形の度合いに影響を与えるからである。

（２）音響モデルはガウス分布を含み、第一の雑音適応部２０−１は、ガウス分布ごとに複数のシグマポイントを生成し、複数のシグマポイントごとに雑音適応を行う音響モデル適応装置。

そのような構成によれば、適応するガウス分布に応じて、ＵＴ適応法を適用することができる。例えば、非線形性の影響が大きい領域に平均を持つガウス分布を雑音適応する場合はＵＴ適応法を適用し、それ以外の場合は計算量が少ないＶＴＳ適応方法を適用することができる。従って、全ガウス分布の適応における計算量の増加を防止することができる。

（３）音響モデルはガウス分布を含み、第一の雑音適応部２０−１（図２に示す音響モデル適応装置２００における第一の雑音適応部２０４に相当。）は、ガウス分布から派生させた複数のガウス分布を雑音に適応する音響モデル適応装置。

そのような構成によれば、適応するガウス分布に応じて、ガウス分布パラメータを増加させることができる。従って、全ガウス分布の適応における計算量の増加を防止することができる。

（４）図９に示すように、音響モデルを雑音音響モデルとして出力する第三の雑音適応部２０−３（図６に示す音響モデル適応装置３００における第三の雑音適応部３０４３（図示せず）に相当。）と、雑音の統計量を雑音音響モデルとして出力する第四の雑音適応部２０−４（図６に示す音響モデル適応装置３００における第四の雑音適応部３０４４に相当。）とを備え、適応方式選択部１０（図６に示す音響モデル適応装置３００における適応方式選択部３０３に相当。）は、音響モデルの学習時に用いられた音声と雑音とのパワーの差が予め定められた第二の閾値（閾値Ｔｈ_２に相当）以上である場合に、音声のパワーの方が大きいときは第三の雑音適応部２０−３を選択し、小さいときは第四の雑音適応部２０−４を選択する音響モデル適応装置。

そのような構成によれば、全ガウス分布の適応における計算量の増加を防止することができる。それは、クリーン音響モデルのパラメータと雑音の統計量とのパワー差が大きい場合に、より低演算量で雑音適応を行うことができるからである。

（５）音響モデルを雑音に適応して雑音音響モデルを生成する音響モデル適応装置であって、演算量と適応精度とがそれぞれ異なる複数の雑音適応部（例えば、図６に示すモデル適応装置３００第一の雑音適応部３０４１、第二の雑音適応部３０４２、第三の雑音適応部３０４３および第四の雑音適応部３０４４に相当。）と、音響モデルおよび音響モデルに適応する雑音の統計量に基づいて、複数の雑音適応部のうちのいずれか一つを選択する適応方式選択部とを備える音響モデル適応装置。

そのような構成によれば、高演算かつ高精度な方法と比較して、適応精度を劣化させることなく、より低演算量で音響モデルを雑音適応することができる。

１クリーン音響モデル記憶装置
２雑音統計量記憶装置
３雑音適応音響モデル記憶装置
７詳細クリーン音響モデル記憶装置
１０、１０３、２０３、３０３適応方式選択部
２０−１、１０４、２０４、３０４１第一の雑音適応部
２０−２、１０５、３０４２第二の雑音適応部
２０−３第三の雑音適応部
２０−４、３０４４第四の雑音適応部
１００、２００、３００モデル適応装置
１０１雑音統計量取得部
１０２ガウス分布取得部
１０６ガウス分布格納部
２０７詳細ガウス分布取得部

Claims

音響モデルを雑音に適応して雑音音響モデルを生成する音響モデル適応装置であって、
雑音に適応する音響モデルを増やして雑音適応する第一の雑音適応部と、
線形近似を用いて雑音適応する第二の雑音適応部と、
音響モデルと当該音響モデルを適応する雑音の統計量とに基づいて、前記第一の雑音適応部または前記第二の雑音適応部を選択する適応方式選択部とを備えた
ことを特徴とする音響モデル適応装置。
適応方式選択部は、音響モデルと当該音響モデルを適応する雑音の統計量とに基づいて、前記音響モデルの学習時に用いられた音声と前記雑音とのパワーの差を判定し、前記パワーの差が予め定められた閾値より大きい場合は第一の雑音適応部を選択し、閾値以下である場合は第二の雑音適応部を選択する
請求項１に記載の音響モデル適応装置。
音響モデルはガウス分布を含み、
第一の雑音適応部は、前記ガウス分布ごとに複数のシグマポイントを生成し、前記複数のシグマポイントごとに雑音適応を行う
請求項１または請求項２に記載の音響モデル適応装置。
音響モデルはガウス分布を含み、
第一の雑音適応部は、前記ガウス分布から派生させた複数のガウス分布を雑音に適応する
請求項１または請求項２に記載の音響モデル適応装置。
音響モデルを雑音音響モデルとして出力する第三の雑音適応部と、
雑音の統計量を雑音音響モデルとして出力する第四の雑音適応部とを備え、
適応方式選択部は、前記音響モデルの学習時に用いられた音声と前記雑音とのパワーの差が予め定められた第二の閾値以上である場合に、前記音声のパワーの方が大きいときは第三の雑音適応部を選択し、小さいときは第四の雑音適応部を選択する
請求項１から請求項４のうちのいずれか１項に記載の音響モデル適応装置。
音響モデルを雑音に適応して雑音音響モデルを生成する音響モデル適応装置であって、
演算量と適応精度とがそれぞれ異なる複数の雑音適応部と、
音響モデルおよび音響モデルに適応する雑音の統計量に基づいて、前記複数の雑音適応部のうちのいずれか一つを選択する適応方式選択部とを備える
ことを特徴とする音響モデル適応装置。
音響モデルを雑音に適応して雑音音響モデルを生成する音響モデル適応方法であって、
音響モデルと当該音響モデルを適応する雑音の統計量とに基づいて、雑音に適応する音響モデルを増やして雑音適応を行うか、または、線形近似を用いて雑音適応を行うかを選択し、前記選択に基づいて雑音適応を行う
ことを特徴とする音響モデル適応方法。
音響モデルを雑音に適応して雑音音響モデルを生成する音響モデル適応装置における音響モデル適応プログラムであって、
コンピュータに、
音響モデルと当該音響モデルを適応する雑音の統計量とに基づいて、雑音に適応する音響モデルを増やして雑音適応を行うか、または、線形近似を用いて雑音適応を行うかを選択し、前記選択に基づいて雑音適応を行う処理を実行させる
ための音響モデル適応プログラム。