[第1の実施の形態]
以下、図面を参照しつつ、本発明の一実施の形態について説明する。なお、以下の説明に用いる図面では、同一の部品には同一の符号を付してある。それらの名称及び機能も同一である。したがって、それらについての説明は繰返さない。以下の説明のテキスト中で使用する記号「^」等は、本来はその直後の文字の直上に記載すべきものであるが、テキスト記法の制限により当該文字の直前に記載する。式中では、これらの記号等は本来の位置に記載してある。また以下の説明のテキスト中では、ベクトル又は行列については例えば「ベクトルXt」、「行列ΣW」等のように直前に「ベクトル」、「行列」等を付した通常のテキストの形で記載するが、式中ではいずれも太字で記載する。
[構成]
〈音声認識システム全体の構成〉
図1に、本実施の形態に係る音声認識システム100全体の構成を示す。図1を参照して、この音声認識システム100は、音源102が発生する音122から音声認識に用いる音声の特徴を表す特徴量ベクトル126を抽出するための前処理部104と、前処理部104に接続され、音声の特徴と音素との関係を表す確率モデル(音響モデル)を準備するための前処理用音響モデル部106と、認識対象の言語における単語の連接確率等を表す確率モデル(言語モデル)を準備するための言語モデル部108と、言語モデル部108の言語モデル及び所定の音響モデルを用いて、前処理部104から出力された特徴量に対応する単語等を探索するための探索部110と、探索部110に接続され、探索部110による探索に用いられる音響モデルを準備するための認識用音響モデル部109とを含む。
音声認識システム100はさらに、前処理部104による特徴量ベクトル126の抽出に用いられ、後述する状態空間モデルにおける拘束条件を定めるための係数からなる、拘束条件パラメータ138を含む。
音源102は、認識されるべき音声(目的音声)120を発話する話者116と、話者116の周囲で雑音121を発生する雑音源118とを含む。音源102が発生し前処理部104により収録される音122は、話者116の発話により発生する雑音のない目的音声120と雑音121とが重畳した音となる。本明細書では、目的音声120を「クリーン音声」と呼ぶ。これに対して、前処理部104に到達し、前処理部104により収録される音122、すなわち、クリーン音声120と雑音121とが重畳した音122を、「雑音重畳音声」と呼ぶ。
前処理部104は、雑音重畳音声122を収録し、その結果得られる観測信号に所定の信号処理を施すことにより、観測信号に関する所定の特徴量ベクトル(以下、この特徴量ベクトルを単に「観測信号の特徴量」と呼ぶことがある。)124を抽出するための計測部112と、計測部112により抽出された観測信号の特徴量124に含まれる雑音の成分を、前処理用音響モデル部106により準備される音響モデルと拘束条件パラメータ138とを用いて抑圧するための雑音抑圧部114とを含む。
計測部112は、観測信号を時間長数10ミリ秒のフレームごとに対数メルフィルタバンク分析し、得られる対数メルスペクトルを要素とするベクトルを観測信号の特徴量124として出力する。
雑音抑圧部114は、前処理用音響モデル部106により準備される音響モデルと拘束条件パラメータ138とを用いて、観測信号の特徴量124を基に、クリーン音声120の特徴量ベクトルをフレームごとに逐次推定する機能を持つ。そしてこの逐次推定によって得られる特徴量ベクトルを、音声認識に用いる音声の特徴量ベクトル126として探索部110に出力する。この際、まず雑音121の特徴量ベクトルを推定し、その結果を基にクリーン音声120の特徴量ベクトルを推定する。なお、本明細書では、特徴量ベクトル126によって表される音声を「推定クリーン音声」と呼ぶ。また、特徴量ベクトル126を「推定クリーン音声の特徴量」と呼ぶ。
探索部110は、推定クリーン音声の特徴量126を用いて、認識用音響モデル部109により準備された音響モデルと、言語モデル部108により準備された言語モデルとを基に、適合する目的言語の単語等を探索し、その結果を認識出力128として出力する。
〈前処理用の音響モデル〉
以下に、前処理用音響モデル部106により準備される音響モデルについて説明する。図1に示す前処理用音響モデル部106は、クリーン音声120に対する音響モデルとして、ガウス混合モデル(GMM:Gaussian Mixture Model)130を準備し保持する。前処理用音響モデル部106は、予め用意されたクリーン音声120に関する学習データを記憶するための学習データ記憶部132と、学習データ記憶部132内の学習データを用いてGMM130に対する学習を行なうためのモデル学習部134と、モデル学習部134による学習で得られるGMM130を記憶するためのGMM記憶部136とを含む。
図2に、GMM130の概念を模式的に示す。図2を参照して、GMM130は、時系列信号を、一つの定常信号源(状態)によりモデル化した確率モデルである。このGMM130においては、クリーン音声120の特徴量ベクトルとして出力される可能性のあるベクトルと、そのベクトルが出力される確率(以下、単に「出力確率」と呼ぶ。)とが定義される。出力確率は混合正規分布140によって表現される。GMM130における混合正規分布140は、複数の要素分布148A,148B,…,148Kを含む。これらの要素分布148A,148B,…,148Kはいずれも単一正規分布である。例えば、混合正規分布140に含まれるある要素分布150をktとする。要素分布ktは、単一正規分布であり、分布の平均μS,ktと分散ΣS,ktとにより表現される。この要素分布kt150にしたがった確率で出力されるパラメータのベクトルをベクトルSkt,tとする。以下の説明では、GMM130から出力されるパラメータベクトルSkt,tを、「(GMM130の)出力パラメータ」と呼ぶ。
〈状態空間モデル〉
以下に、状態空間モデルについて説明する。状態空間モデルは、観測信号の生成過程を表した観測方程式と、処理の対象の変化する過程(以下、この過程を「状態遷移過程」と呼ぶ。)を表した状態方程式とからなる動的モデルである。図3に状態空間モデル160を模式的に示す。
時刻tのフレーム(以下、単に「第tフレーム」と呼ぶ。)における観測信号の特徴量124(図1参照)をXtとする。観測信号の特徴量Xtは、上記のとおり雑音重畳音声122から得られる対数メルスペクトルを要素に持つベクトルである。この観測信号の特徴量Xtは、クリーン音声120と雑音121とが重畳した音の対数メルスペクトルを要素に持つ。ここに、第tフレームにおけるクリーン音声120の対数メルスペクトルを要素に持つベクトルをクリーン音声の特徴量ベクトルStとする。また、雑音121の対数メルスペクトルを要素に持つベクトルを雑音の特徴量ベクトルNtとする。ベクトルXt、St、及びNtの次元数は同一である。なお、以下に説明する処理はこれらベクトル及び行列の要素についてそれぞれ行なわれるが、以下の説明では、簡単のために各要素を特に区別して言及することはしない。
まず、状態空間モデル160における観測信号の生成過程について説明する。観測信号の特徴量Xtは、計測によって得られる既知のベクトルである。これに対し、クリーン音声の特徴量ベクトルStと雑音の特徴量ベクトルNtとはいずれも、計測によっては得ることのできない未知のベクトルである。
ここで、クリーン音声120の出力過程がGMMでモデル化できるものと仮定する。すなわち、第tフレームにおけるクリーン音声の特徴量ベクトルStが、GMM130内のある要素分布kt150(図2参照)にしたがって出力される出力パラメータベクトルSkt,tにより表現されるものと仮定する。ただし、クリーン音声の特徴量ベクトルStと出力パラメータベクトルSkt,tとの間には誤差が存在する。この誤差もまたベクトルである。この誤差を誤差ベクトルVtとする。誤差ベクトルVtは、次の式に示すように、平均が0で分散がΣS,ktの単一正規分布で表現される確率分布にしたがう値を要素に持つものとする。
ただし、この式においてΣ
S,ktはGMM130内のある要素分布k
t150より得られるパラメータの共分散行列を表し、記号「〜」は左辺の値が右辺に示される確率分布にしたがうことを示す。すなわち、左辺の値が右辺に示す確率分布にしたがったサンプリングにより推定できることを示す。また、この式において、「N(μ,Σ)」は、平均がμで分散がΣの単一正規分布を表す。
上記の仮定に基づき、観測信号の特徴量Xt124の生成過程は、雑音の特徴量ベクトルNt、出力パラメータベクトルSkt,t、及び誤差ベクトルVtを用いて、次の式(1)に示す観測方程式により表現されるものとする。
なお、式(1)でIは単位ベクトルを表す。また、ベクトルの対数、ベクトルの指数演算
はそれぞれ、ベクトルの各要素について対数をとり、又は指数計算し、その結果を成分と
するベクトルを表すものとする。
次に、状態空間モデル160における処理対象の状態遷移過程について述べる。状態空間モデル160においては、雑音の特徴量ベクトルNtが処理の対象になる。ここで、雑音の特徴量ベクトルNtがランダムウォーク過程にしたがって変化するものと仮定する。すなわち、第t−1フレームにおける雑音の特徴量ベクトルNt-1が第tフレームにおける雑音の特徴量ベクトルNtとの間に、ランダムな変化が生じるものと仮定する。このランダムな変化を表すベクトルをランダムガウス雑音ベクトルWtとする。ランダムガウス雑音ベクトルWtは、平均が0で分散がΣwの単一正規分布で表現される確率分布にしたがう値を要素に持つランダムガウス雑音であるものとする。
ただし、この式においてΣ
Wは、ランダムガウス雑音ベクトルW
tの共分散行列を表す。
上記の仮定に基づき雑音の特徴量ベクトルNtの状態遷移過程を表現する状態方程式を定義すると、状態方程式は、次の式(2)のようになる。
しかし、ランダムウォーク過程に基づく上記の仮定では、雑音の特徴量ベクトルN
tの変化をランダムガウス雑音ベクトルW
tで規定している。そのため、式(2)に示す状態方程式では、雑音の特徴量ベクトルN
tの時間変化を正確に表現することはできない。そこで、本実施の形態では、図1に示す拘束条件パラメータ138を用いて、雑音の特徴量ベクトルN
tの変化に対し、拘束条件を設ける。拘束条件及びそのための拘束条件パラメータ138の詳細については、後述する。
〈雑音抑圧部114の構成〉
図4に、雑音抑圧部114(図1参照)の構成をブロック図で示す。図4を参照して、雑音抑圧部114は、観測信号の特徴量Xt124、GMM130、及び拘束条件パラメータ138を用いて、雑音の特徴量ベクトルNtの出力される確率を表す確率分布(以下、「雑音確率分布」と呼ぶ。)をフレームごとに逐次的に推定し、雑音確率分布を表すパラメータ(以下、このパラメータを「雑音確率分布の推定パラメータ」と呼ぶ。)を生成するための雑音確率分布推定部200を含む。雑音抑圧部114はさらに、雑音確率分布推定部200により出力された雑音確率分布の推定パラメータ206及びGMM130を基に、観測信号の特徴量Xt124の出力される確率を表す確率分布(以下、「観測信号分布」と呼ぶ。)を推定し、観測信号確率分布を表すパラメータ208(以下、このパラメータを「観測信号分布のパラメータ」と呼ぶ。)を生成するための観測信号分布推定部202と、雑音確率分布の推定パラメータ206、観測信号分布のパラメータ208、及びGMM130を基に、推定クリーン音声の特徴量126を生成するためのクリーン音声推定部204とを含む。
雑音確率分布推定部200は、雑音確率分布をフレームごとに逐次推定し、雑音確率分布の推定パラメータ206を出力する機能を持つ。ここに、観測信号の特徴量X0,…,Xtからなるベクトルの系列を系列X0:t={X0,…,Xt}とし、雑音の特徴量ベクトルN0,…,Ntからなるベクトルの系列を系列N0:t={N0,…,Nt}とする。観測信号ベクトルの系列X0:tが与えられた時の系列N0:tの事後確率分布p(N0:t|X0:t)は、1次マルコフ連鎖を用いて、次の式(3)のように表される。
したがって雑音の特徴量ベクトルNtの確率分布を逐次推定する問題は、観測信号ベクトルの系列X0:tが与えられた時の事後確率p(N0:t|X0:t)を最大にするような系列N0:tを推定する問題に帰着する。雑音確率分布推定部200は、観測信号の特徴量Xt124と、GMM130と、状態空間モデル160と、雑音の状態遷移に関する上記の拘束条件パラメータ138とに基づきこの推定を行なう。その際、雑音確率分布推定部200は、パーティクルフィルタと呼ばれる手法を用いる。この推定法は、ある状態空間モデルにより表現される状態空間内に、局限された状態空間(パーティクル)を多数生成して各パーティクルにおいてパラメータの確率分布を推定し、そして各パーティクルを用いて、状態空間内におけるパラメータの確率分布を近似的に表現する手法である。
観測信号分布推定部202は、観測信号分布のパラメータ208として、各パーティクルにおける観測信号分布の平均ベクトル及び共分散行列を算出する機能を持つ。観測信号分布のパラメータ208の算出には、例えば、VTS(Vector Taylor Series)法と呼ばれるHMM合成法が用いられる。
クリーン音声推定部204は、フレームごとに、各パーティクルにおけるクリーン音声のパラメータを推定し、推定クリーン音声の特徴量126を、それら推定されたパラメータの重み付き和によって算出する機能を持つ。推定クリーン音声の特徴量126の算出には、例えば、最小2乗誤差(Minimum Mean Square Error:MMSE)推定法が用いられる。クリーン音声推定部204はさらに、雑音確率分布推定部200に、次のフレームへの移行に関する要求210を発行する機能を持つ。
〈パーティクルフィルタ〉
以下に、パーティクルフィルタについて説明する。この手法では、多数のパーティクルにおける初期的なパラメータを、ランダムなサンプリングにより、又は当該パラメータの初期的な状態を表す確率分布からのサンプリングにより決定する。そして、以下の処理をフレームごとに行なう。すなわち、あるフレームに対応して各パーティクルにおいてパラメータが決定されると、まず、各パーティクルのパラメータを当該フレームに後続するフレームに対応するものに更新する。続いて、更新の尤度に応じて各パーティクルに対して重みを付与する。続いて、更新後のパーティクルにおけるパラメータの確率分布にしたがい、当該後続のフレームに対応する各パーティクルのパラメータを再サンプリングする。続いて、再サンプリングされたパラメータを基に、当該後続のフレームに対応する各パーティクルのパラメータを決定する。以上の処理をフレームごとに行なうことにより、逐次的に各パーティクルにおけるパラメータを決定する。
パーティクルフィルタにおいて、状態空間モデル160におけるパラメータはそれぞれ、パーティクルにおけるパラメータの重み付き和によって近似的に表現される。ここに、パーティクルの数をJ個とし、第tフレームでの、j(1≦j≦J)番目のパーティクルにおける雑音の特徴量ベクトルをベクトルNt (j)とする。さらに、第tフレームにおけるj番目のパーティクルに対する重みをwt (j)とする。式(3)に示す事後確率分布p(N0:t|X0:t)は、次の式(4)に示すモンテカルロサンプリングにより近似的に表現される。
なお、この式においてδ()は、Dirac-delta関数を表す。
j番目のパーティクルにおける雑音の特徴量ベクトルの系列N0:t (j)を出力する確率分布をq(N0:t (j)|X0:t)とすると、パーティクルに対する重みwt (j)は、次の式(5)により与えられる。
確率分布q(N
0:t (j)|X
0:t)は、次の式(6)に示す連鎖モデルで表現されるものとする。
また、上記の式(3)の事後確率分布p(N
0:t|X
0:t)は、ベイズ則により次の式(7)のように表現できる。
したがって、式(5)、式(6)、及び式(7)より、パーティクルに対する重みw
t (j)は、式(8)によって与えられることになる。
ここで、p(N
t (j)|N
t-1 (j))=q(N
t (j)|N
0:t-1 (j),X
0:t)と仮定すると、式(8)より、式(9)が得られる。
式(9)のp(X
t|N
t (j))は、次の式(10)に示す確率密度関数によりモデル化される。
雑音確率分布推定部200は、雑音確率分布の推定パラメータ206として、パーティクルj(1≦j≦J)ごとに、パーティクルにおける雑音の特徴量ベクトルNt (j)に関する式(4)における確率密度関数p(N0:t (j)|X0:t)のパラメータと、そのパーティクルに対する重みwt (j)とを、図3に示す状態空間モデル160に基づいて逐次的に算出する。確率密度関数p(N0:t (j)|X0:t)のパラメータは、そのパーティクルにおける雑音の特徴量ベクトルNt (j)の平均ベクトル^Nt (j)と共分散行列ΣNt (j)とを含む。以下、確率密度関数p(N0:t|X0:t)の平均ベクトル^Nt (j)と共分散行列ΣNt (j)とを、「(j番目の)パーティクルにおける雑音のパラメータ」と呼ぶ。
〈状態遷移過程に対する拘束条件〉
上記のとおり、式(2)に示す状態方程式では、雑音の特徴量ベクトルNtの時間変化を正確に表現することはできない。そこで、本実施の形態では、各パーティクルにおける雑音の特徴量ベクトルNt (j)(1≦j≦J)の変化に対し、次の式(11)に示す状態方程式を導入する。
この状態方程式(11)において第1項と第2項とは、第t+1フレームにおけるパーティクルの散らばりを抑制するための拘束条件である。以下この拘束条件を第1の拘束条件と呼ぶ。また、状態方程式(11)において第3項は、j番目のパーティクルにおける雑音の特徴量ベクトルの時間推移に対する拘束条件である。以下、この拘束条件を第2の拘束条件と呼ぶ。
状態方程式(11)においてαは忘却係数であり、βは第2の拘束条件に対するスケーリング係数である。
第1の拘束条件において、ベクトル^Ntは、第tフレームの各パーティクルにおける雑音の特徴量ベクトルNt (1),…,Nt (J)の加重平均であり、次の式(12)により与えられる。
すなわち、第1の拘束条件により、各パーティクルにおける雑音の特徴量ベクトルは、加重平均ベクトル^N
tに近づくよう補正される。
第2の拘束条件において、ベクトルμNt (j)は、j番目のパーティクルにおける過去Tフレーム分の雑音の特徴量ベクトルNt-T+1 (j),…,Nt (j)の平均(Polyak Average)であり、次の式(13)により与えられる。
すなわち、第2の拘束条件により、パーティクルにおける雑音の特徴量ベクトルにそれぞれ、そのパーティクルにおけるPolyak Averageベクトルμ
Nt (j)がフィードバックされる。本実施の形態では、式(11)に示す状態方程式の忘却係数α及び第2の拘束条件に対するスケーリング係数βと、式(13)におけるフレーム数Tとが、図1に示す拘束条件パラメータ138として与えられる。
雑音確率分布推定部200は、観測方程式(1)と上記の状態方程式(11)とにより表される状態空間モデルに基づくパーティクルフィルタを用いて、雑音確率分布の逐次推定を行なう。
〈雑音確率分布推定部200の構成〉
図5に、雑音確率分布推定部200の構成をブロック図で示す。図5を参照して、雑音確率分布推定部200は、クリーン音声推定部204からの要求210を受けて、観測信号の特徴量124から処理対象となるフレームを選択し、当該フレームに対応する観測信号の特徴量124をフレームに応じた出力先に与えるためのフレーム選択部220を含む。
雑音確率分布推定部200はさらに、フレーム選択部220から観測信号の特徴量124を受けて、初期的な状態における雑音を表す確率分布(以下、「雑音初期分布」と呼ぶ。)を推定し、多数(J個)のパーティクルについて、t=0のフレーム(以下、このフレームを「初期フレーム」と呼ぶ。)における雑音確率分布の推定パラメータ206を決定するための雑音初期分布推定部222と、フレーム選択部220から観測信号の特徴量124を受け、各パーティクルについて、t(t≧1)番目のフレームにおける雑音確率分布の推定パラメータ206を、逐次的に算出するための逐次計算部224とを含む。
フレーム選択部220は、要求210が与えられる度に、処理対象のフレームを順次選択する。フレーム選択部220は、処理対象として初期フレームを選択すると、観測信号の特徴量Xt124のうち最初の所定フレーム分(例えば10フレーム分)を、雑音初期分布推定部222に与える。またフレーム選択部220は、処理対象としてその他(t≧1)のフレームを選択すると、そのフレームにおける観測信号の特徴量Xt124を逐次計算部224に与える。
雑音初期分布推定部222は、雑音初期分布のパラメータを、以下のようにして推定する。
すなわち、雑音初期分布推定部222は、雑音初期分布が、単一正規分布であるものとみなして、雑音初期分布を推定する。雑音の初期値ベクトルをベクトルN0とし、雑音初期分布をp(N0)とする。雑音初期分布p(N0)における平均ベクトルをμNとし、共分散行列を行列ΣNとすると、雑音初期分布p(N0)は次の式(14)のように表される。
雑音初期分布推定部222は、最初の所定フレーム分の区間の観測信号の特徴量X
t124が雑音121の成分のみからなるものとみなし、式(14)に示す雑音初期分布p(N
0)の平均ベクトルμ
Nと共分散行列Σ
Nとを推定する。例えば、0≦t≦9の10フレーム分の区間が雑音121の成分のみからなる区間に該当する場合、雑音初期分布推定部222は、平均ベクトルμ
Nと共分散行列Σ
Nとをそれぞれ、次の式(15)と式(16)とによって算出する。ただし、式(16)においてベクトルの右肩に付した「T」は転置を表す。
そして雑音初期分布推定部222は、初期フレーム(t=0)でのj番目のパーティクルにおける雑音のパラメータであるベクトルN
0 (j)と共分散行列Σ
N0 (j)とを、それぞれ、式(17)及び式(18)のように設定する。
すなわち、雑音初期分布推定部222は、j番目のパーティクルにおける雑音の特徴量ベクトルN
0 (j)を、初期分布p(N
0)からのサンプリングによって生成し、共分散行列Σ
N0 (j)を、初期分布p(N
0)の共分散行列Σ
Nに設定する。雑音初期分布推定部222は、式(17)と式(18)とに示す設定をパーティクルj(1≦j≦J)ごとに行なう。
逐次計算部224は、GMM130から出力パラメータ240をサンプリングするためのGMMサンプリング部226を含む。逐次計算部224はさらに、観測信号の特徴量124を受けて、各パーティクルにおける雑音のパラメータを更新するための更新部230と、更新後のパーティクルに対する重みを算出するための重み算出部232と、算出された重みに基づき、パーティクルにおける雑音のパラメータを再サンプリングするための再サンプリング部234と、再サンプリングされた各パーティクル及び第t−1フレームにおける各パーティクルに基づき、各パーティクルにおける雑音のパラメータを決定し、雑音確率分布の推定パラメータ206を生成するための推定パラメータ生成部236とを含む。
GMMサンプリング部226は、パーティクルj(1≦j≦J)ごとに、GMM130(図2参照)内の混合分布140から、パーティクルに対応する要素分布kt (j)を、その混合重みに基づいてサンプリングする。GMMサンプリング部226はさらに、出力パラメータベクトルS(j) kt (j) ,tを、要素分布kt (j)からサンプリングして、更新部230に与える。ここにGMM130における要素分布148A,…,148Kの混合重みをPS,ktとすると、要素分布kt (j)は、混合重みPS,ktを出力確率とする確率分布にしたがう。すなわち、GMM130から次の式(19)に示すサンプリングによって得られる。
要素分布k
t (j)の平均ベクトルをベクトルμ
kt (j)とし、要素分布k
t (j)の共分散行列を行列Σ
S,kt (j)とすると、j番目のパーティクルにおけるGMM130の出力パラメータベクトルS
(j) kt (j) ,tは、要素分布k
t (j)から、次の式(20)に示すサンプリングによって得られる。
なお、フレーム選択部220はさらに、GMMサンプリング部226に対し、第tフレームにおけるGMMの出力パラメータのサンプリングを要求する機能を持つ。
更新部230は、上記の観測方程式(1)及び状態方程式(11)からなる動的モデルを状態空間モデルとする拡張カルマンフィルタによって、第t−1フレームに対応する各パーティクルにおける雑音のパラメータを、第tフレームに対応するものに更新する機能を持つ。この際、拘束条件パラメータ138と、状態空間モデル160(図3)と、GMMサンプリング部226によりサンプリングされた出力パラメータS(j) kt (j) ,tとを基にパラメータの更新を行なう。なお、拡張カルマンフィルタは、観測方程式(1)に示すように非線形項を含む状態空間モデルに対応したカルマンフィルタである。
図6に、更新部230の構成をブロック図で示す。図6を参照して、更新部230は、第t−1フレームの雑音確率分布の推定パラメータ206を基に、第t−1フレームについて、状態方程式(11)の上記した第1の拘束条件に係る加重平均ベクトル^Nt-1を上記の式(12)を用いて算出するための加重平均算出部250を含む。
更新部230はさらに、第t−1フレーム以前の各フレームについて、各パーティクルにおける雑音のパラメータを、パーティクルごとに蓄積するためのバッファメモリ部252と、バッファメモリ部252に蓄積された雑音のパラメータ及び拘束条件パラメータ138により定められるフレーム数Tを基に、各パーティクルについて、第t−1フレームにおける、上記の式(13)に示すTフレーム分のPolyak AverageベクトルμNt-1 (j)を算出するためのPolyak Average算出部254と、Polyak AverageベクトルμNt-1 (j)と第t−1フレームにおける雑音確率分布の推定パラメータ206とを基に、状態方程式(11)の第2の拘束条件におけるフィードバック分に対応するベクトルを算出するための、フィードバック部256とを含む。フィードバック部256は、Polyak AverageベクトルμNt-1 (j)と第t−1フレームにおける平均ベクトル^Nt-1 (j)との差分μNt-1 (j)−^Nt-1 (j)を算出する。
更新部230はさらに、観測方程式(1)と状態方程式(11)とからなるモデルを状態空間モデルとする拡張カルマンフィルタを用いて、第t−1フレームに対応するパーティクルにおける雑音のパラメータを、第tフレームに対応するものに更新するための拡張カルマンフィルタ部258とを含む。拡張カルマンフィルタ部258は、j番目のパーティクルにおける雑音のパラメータの更新に、第tフレームにおける観測信号の特徴量Xt124と、j番目のパーティクルにおけるGMM130(図2参照)の出力パラメータベクトルS(j) kt (j) ,tと、拘束条件パラメータ138として与えられる忘却係数α及びスケーリング係数βと、加重平均ベクトル^Nt-1と、差分μNt-1 (j)−^Nt-1 (j)とを用いる。
本実施の形態における拡張カルマンフィルタの分布更新式を、以下の式(21)〜式(26)に示す。なお、これらの数式において第t−1フレームに対応するパラメータから予測される第tフレームにおけるパラメータについては添え字として「t|t-1」を付してある。
ただし、行列Σ
Wは、前述したとおり、第t−1フレームから第tフレームへの状態変化の際に雑音の特徴量ベクトルN
tに生じるランダムガウス雑音ベクトルW
t-1の共分散行列を表す。
再び図5を参照して、重み算出部232は、第tフレームでの観測信号の特徴量ベクトルXt124と、第tフレームの各パーティクルにおけるGMM130の出力パラメータベクトルS(j) kt (j) ,tと、当該フレームの当該パーティクルにおける雑音のパラメータである平均ベクトル^Nt (j)及び共分散行列ΣNt (j)と、第t−1フレームのパーティクルに対する重みwt-1 (j)とを基に、上記の式(9)及び式(10)に示す算出方法を用いて、第tフレームのパーティクルに対する重みwt (j)を算出する機能を持つ。なお、重みwt (j)(1≦j≦J)は、Σj=1〜Jwt (j)=1となるように正規化される。
再サンプリング部234は、パラメータが更新されたパーティクルにおける雑音の確率分布にしたがい、第tフレームに対応する各パーティクルにおける雑音のパラメータを再サンプリングする機能を持つ。この際、再サンプリング部234は、微小な重みwt (j)しか与えられていないパーティクルにおける雑音の確率分布からは、雑音のパラメータの再サンプリングを行なわない。一方、大きな重みwt (j)が与えられているパーティクルにおける確率分布からは、重みwt (j)の大きさに応じた回数再サンプリングを行ない、得られた雑音のパラメータをそれぞれ、当該再サンプリングの回数と同数のパーティクルに割当てる。ただし再サンプリングの全回数及びパーティクルの全数は一定(J)である。このようにするのは、各パーティクルに割当てられる重みが、上記の式(9)から分かるように観測信号の特徴量Xt124の尤度に対応しているからである。
推定パラメータ生成部236は、マルコフ連鎖モンテカルロ法のMetropolis-Hastingsアルゴリズムにより、第tフレームに対応するパーティクルを再生成する機能を持つ。図7に、推定パラメータ生成部236の構成をブロック図で示す。図7を参照して、推定パラメータ生成部236は、第t−1フレームに対応する各パーティクルにおける雑音のパラメータを、第tフレームに対応するものに再更新するための再更新部262を含む。再更新部262は、再サンプリング部234による再サンプリングで得られた各パーティクルにおける雑音のパラメータを用いて、状態空間モデル160における雑音確率分布を生成する。そして、当該生成した確率分布と拘束条件パラメータ138とに基づき、図6に示す更新部230と同様の手法を用いて、上記の式(21)〜式(26)に示す分布更新式により表される拡張カルマンフィルタによって、各パーティクルにおける雑音のパラメータの再更新を行なう。
推定パラメータ生成部236はさらに、再更新されたパーティクルに対する重み(これを以下「wt *(j)」とする。)を上記の式(9)及び式(10)に示す算出方法を用いて算出するための重み再計算部264を含む。
推定パラメータ生成部236はさらに、再サンプリングされたパーティクルに対する重みwt (j)及び再更新されたパーティクルに対する重みwt *(j)から、再更新された雑音のパラメータを許容するか否かの判定に用いる許容確率νを算出するための許容確率算出部266と、所定の乱数発生方法により0から1までの閉区間内の乱数uを発生させるための乱数発生部268と、許容確率νと乱数uとに基づき、第tフレームに対応するパーティクルにおけるパラメータとして、再サンプリングされたパーティクルにおける雑音のパラメータと、再更新されたパーティクルにおける雑音のパラメータとの一方を選択するためのパラメータ選択部270とを含む。
許容確率算出部266は、重みwt (j)及び重みwt *(j)から次の式(27)にしたがって、許容確率νを算出する機能を持つ。
パラメータ選択部270は、乱数uが許容確率ν以下であれば、当該パーティクルにおける雑音のパラメータ及びその重みを再更新で得られた新たなパラメータ及びその重みに変更する機能を持つ。
〈コンピュータによる実現〉
以下の説明からも明らかなように、図1に示す音声認識システム100の前処理部104、前処理用音響モデル部106、及び探索部110は、いずれもコンピュータハードウェアと、その上で実行されるプログラムと、コンピュータハードウェアに格納されたデータとにより実現可能である。図8に、前処理部104(図1参照)に含まれる雑音抑圧部114が行なう雑音抑圧処理を実現するコンピュータプログラムの制御構造をフローチャートで示す。
図8を参照して、雑音抑圧処理が開始されると、ステップ302において、初期状態における雑音の特徴量N0の各要素の値に対応する初期分布を推定する。すなわち、上記の式(15)及び式(16)に示す算出方法により、式(4)に示す雑音初期分布p(N0)のパラメータである平均ベクトルμN及び共分散行列ΣNを算出する。さらに、式(17)及び式(18)にしたがい雑音初期分布p(N0)からベクトルN0 (j)(j=1,…,J)をサンプリングし、初期フレームの各パーティクルにおける雑音のパラメータを推定する。
ステップ304では、雑音抑圧の対象となるフレームを次のフレームに移行させる。以下の説明では、移行後のフレームが第tフレームであるものとする。ステップ306では、パーティクルフィルタを用いて、処理対象のフレームについて、各パーティクルにおける雑音のパラメータを推定する。すなわち、確率密度関数p(N0:t (j)|X0:t)のパラメータである平均ベクトル^Nt (j)及び共分散行列ΣNt (j)を推定し、さらに、各パーティクルに対する重みwt (j)を定めて、雑音確率分布の推定パラメータ206を生成する。このステップでの処理については、図9を用いて後述する。
ステップ308では、観測信号分布のパラメータ208を推定する。すなわち、ステップ306で定めた各パーティクルの雑音のパラメータ^Nt (j)、及びΣNt (j)を用いて、各パーティクルにおける観測信号の特徴量Xt124の確率分布を推定する。さらに、GMM130を構成する要素分布k(1≦k≦K)ごとに、パーティクルにおける観測信号の特徴量Xt124の確率分布の平均ベクトルμXkt (j) ,tと、共分散行列ΣXk,t (j)とを算出する。
ステップ310では、MMSE推定法により、第tフレームにおける推定クリーン音声の特徴量126を算出する。すなわちまず、ステップ306及びステップ308の処理で得られたパラメータを用いて、MMSE推定法によって、MMSE推定値ベクトル^Stを算出し、推定クリーン音声の特徴量126(図1参照)として出力する。
この式において、P(k|X
t,(j))は、j番目のパーティクルにおける、GMM130内の要素分布kに対する混合重みを表す。混合重みP(k|X
t,(j))は、次の数式により算出される。
ステップ312では、終了判定を行なう。すなわち第tフレームが最終のフレームであれば雑音抑圧処理を終了する。さもなければステップ304に戻る。
図9に、ステップ306(図8参照)において行なわれる雑音確率分布の推定パラメータ206の生成処理を実現するプログラムの制御構造をフローチャートで示す。図9を参照して、雑音確率分布の推定パラメータの生成処理が開始されると、ステップ320において、拡張カルマンフィルタによる更新を行なう際の雑音121の状態遷移過程に対する第1及び第2の拘束条件に係るパラメータベクトルを算出する。すなわち、第t−1フレームのパーティクルでの雑音のパラメータの加重平均ベクトル^Nt-1を式(12)を用いて算出する。そして、パーティクルの各々において、過去Tフレーム分の当該パーティクルにおける雑音のパラメータからPolyak AverageベクトルμNt-1 (j)を算出し、平均ベクトル^Nt-1 (j)との差分μNt-1 (j)−^Nt-1 (j)を算出する。
ステップ322では、式(21)〜式(26)に示す拡張カルマンフィルタを用いて、第t−1フレームのパーティクルにおける雑音確率分布から、第tフレームの各パーティクルにおける雑音のパラメータを推定する。
ステップ324では、第tフレームの各パーティクルに対する重みwt (j)を、式(9)及び式(10)によって算出する。そして、重みwt (j)を正規化する。ステップ326では、各パーティクルに対する重みwt (j)を基に、各パーティクルからの再サンプリングの回数を決定し、当該パーティクルにおける雑音確率分布に基づいてパラメータを再サンプリングする。ステップ328では、Metropolis-Hastingsアルゴリズムを用いて第tフレームのパーティクルを再生成する。
図10にステップ328(図9参照)における処理の詳細をフローチャートで示す。図10を参照して、ステップ328における処理が開始されると、ステップ340において、図9に示すステップ320と同様に、加重平均ベクトル^Nt-1を、式(12)に示す算出方法で算出する。そして、パーティクルの各々において、過去Tフレーム分の当該パーティクルにおける雑音のパラメータからPolyak AverageベクトルμNt-1 (j)を算出し、平均ベクトル^Nt-1 (j)との差分μNt-1 (j)−^Nt-1 (j)を算出する。
続くステップ342では、ステップ326(図9参照)での再サンプリングで得られた各パーティクルにおける雑音パラメータにより表現される雑音確率分布を用いて、式(21)〜式(26)に示す拡張カルマンフィルタにより、各パーティクルにおける雑音のパラメータの再更新を行なう。すなわち、第tフレームのパーティクルを新たに準備し、ステップ322(図9参照)での処理と同様の処理により、第t−1フレームのパーティクルに対応するパラメータから、第tフレームのパーティクルに対応するパラメータへの再更新を行ない、準備したパーティクルのパラメータに設定する。ステップ344では、ステップ342で準備したパーティクルに対する重みwt *(j)を、図9に示すステップ324の処理と同様の処理で算出し正規化する。
ステップ346では、ステップ324の処理で算出された重みwt (j)と、ステップ344で算出された重みwt *(j)との比較により、ステップ342で準備されたパーティクルの許容確率νを定める。ステップ348では、区間[0,1]の値からなる一様な集合U[0,1]の中から任意の値を選択することにより乱数uを発生する。ステップ350では、ステップ348で発生した乱数uの値と、ステップ346で定めた許容確率νの値とを比較する。uが許容確率の値以下であれば、ステップ352へ進む。さもなければステップ354に進む。ステップ352では、ステップ342で準備されたパーティクルを許容する。すなわち、ステップ326での再サンプリングで得られたパラメータを、準備されたパーティクルのパラメータで置換して処理を終了する。ステップ354では、ステップ342で準備されたパーティクルを棄却する。すなわち、準備されたパーティクル及びそのパラメータを棄却し、処理を終了する。
[動作]
本実施の形態に係る音声認識システム100は以下のように動作する。
まず、図5に示す雑音確率分布推定部200が、初期フレーム(t=0)における雑音確率分布の推定パラメータ206を生成する動作について説明する。図1に示す計測部112が、音源102から雑音重畳音声122を受け、観測信号の特徴量Xt124を抽出する。抽出された特徴量Xt124は、雑音抑圧部114の図5に示す雑音確率分布推定部200に与えられる。図5を参照して、雑音確率分布推定部200のフレーム選択部220は、特徴量Xt124のうち最初の10フレーム分を、雑音初期分布推定部222に与える。雑音初期分布推定部222は、上記の式(14)〜式(16)に示す処理により雑音初期分布p(N0)を推定する。さらに、雑音初期分布p(N0)から、上記の式(17)及び式(18)に示すサンプリングをJ回行なう。このサンプリングによって、各パーティクルにおける雑音の初期的なパラメータであるベクトルN0 (j)及び共分散行列ΣN0 (j)が決定される。雑音確率分布推定部200は、これらのパラメータを、初期フレームにおける雑音確率分布の推定パラメータ206として出力する。
次に、雑音確率分布推定部200の逐次推定部224が、第tフレーム(t≧1)における雑音確率分布の推定パラメータ206を生成する動作について説明する。図5を参照して、次のフレームの処理の開始要求210に応答して、フレーム選択部220は、GMMサンプリング部226に、第tフレームにおけるGMMの出力パラメータのサンプリングを要求するとともに、観測信号の特徴量Xt124を更新部230に与える。
GMMサンプリング部226は、GMM130から、出力パラメータベクトルS(j) kt (j) ,tのサンプリングを行なう。例えば、j番目のパーティクルにおいて、GMMサンプリング部226が、図2に示すGMM130内の混合正規分布140の中から、混合重みにしたがった確率で要素分布kt (j)のサンプリングを行なう。その結果、要素分布kt (j)として、要素分布150がサンプリングされたものとする。GMMサンプリング部226はさらに、要素分布kt (j)により表される出力確率の分布にしたがい、出力パラメータベクトルS(j) kt (j) ,tをサンプリングする。GMMサンプリング部226は、総数Jの各パーティクルにおける出力パラメータベクトルS(j) kt (j) ,tをそれぞれ、以上の手順でサンプリングし、図5に示す更新部230に与える。
図11に、逐次計算部224によるパラメータの更新、及び再サンプリングの概要を模式的に示す。図11においては、ある雑音のパラメータが左右方向に分布し、時間が上から下に進行する。また、図11においては、パーティクルを白抜きの丸印と黒塗りの丸印とによって模式的に示す。例えば、白抜きの丸印で示すパーティクルが重みwt (j)の値の微小なパーティクルであり、黒塗りの丸印で示すパーティクルが重みwt (j)の値の大きなパーティクルであるものとする。
図11を参照して、第t−1フレームに対応するパーティクルにより状態空間420が近似的に表現されているものとする。更新部230は、以下のようにして、状態空間420内の各パーティクルにおける雑音のパラメータを、第tフレームに対応する状態空間430内の各パーティクルにおける雑音のパラメータに更新する。
まず、図6に示す更新部230の拡張カルマンフィルタ部258は、第t−1フレームの各パーティクルにおける推定確率分布の推定パラメータ206を取得する。取得された推定確率分布の推定パラメータ206は、加重平均算出部250、バッファメモリ252、及びフィードバック部256に与えられる。なお、この時点で、バッファメモリ252には、少なくとも第t−1フレーム以前のTフレーム分について、推定確率分布の推定パラメータ206が格納されている。
図6に示す加重平均算出部250は、推定確率分布の推定パラメータ206が与えられると、式(12)に示す加重平均ベクトル^Nt-1を算出する。この加重平均ベクトル^Nt-1をに基づき、式(11)に示す状態方程式における第1の拘束条件を導入して、雑音の平均ベクトルを補正すると、補正後の雑音確率分布における雑音のパラメータは、補正前の平均ベクトル^Nt-1 (j)より、加重平均ベクトル^Nt-1に近づく。したがって、パーティクルの散らばりが抑制される。
新たな推定確率分布の推定パラメータ206がバッファメモリ部252に蓄積されると、Polyak Average算出部254は、バッファメモリ部252に蓄積されているTフレーム分の推定確率分布のパラメータ206を用いて、各パーティクルにおける式(13)に示すPolyak AverageベクトルμNt (j)を算出する。算出したPolyak AverageベクトルμNt-1 (j)は、フィードバック部256に与えられる。フィードバック部256は、各パーティクルにおいて、Polyak AverageベクトルμNt-1 (j)と、平均ベクトル^Nt-1 (j)との差分μNt-1 (j)−^Nt-1 (j)を算出する。なお、バッファメモリ部252に推定確率分布の推定パラメータ206がTフレーム分蓄積されていない場合、Polyak Average算出部254は、バッファメモリ部252に蓄積されているだけのフレーム分の雑音確率分布の推定パラメータ206を用いて、Polyak AverageベクトルμNt (j)を算出する。
図12に、Polyak Average及びフィードバックの概念を模式的に示す。図12(A)及び(B)はいずれも、j番目のパーティクルにおけるPolyak AverageベクトルμNt (j)とそのパーティクルに対応する雑音の特徴量ベクトルNt-4 (j),…,Nt+1 (j)との関係を表している。なお、図12(A)は、雑音の特徴量ベクトルの時間遷移が緩やかである場合を示し、図12(B)は、時間遷移が激しい場合を示す。これらの図において、時間は左から右に進行し、雑音の特徴量は上下方向に変化する。図12(A)及び図(B)においては、第tフレームにおけるPolyak AverageベクトルμNt (j)を、白抜きの丸印で示す。なお、この図に示すPolyak AverageベクトルμNt (j)においては、T=5フレーム分であるものとする。
図12(A)を参照して、第t−1フレームにおける雑音の特徴量Nt-1 (j)と、Polyak AverageベクトルμNt (j)との間には、差分μNt (j)−Nt (j)が生じる。図12(B)に示すような時間遷移の激しい場合においても同様に、雑音の特徴量Nt (j)と、Polyak AverageベクトルμNt (j)との間には、差分μNt (j)−Nt (j)が生じる。図12(A)における雑音の特徴量ベクトルNt-4 (j),…,Nt (j)の変動に比べて、図12(B)における雑音の特徴量ベクトルNt-4 (j),…,Nt (j)の変動は大きい。すなわち図12(A)における雑音の特徴量ベクトルNt-4 (j),…,Nt (j)同士の差異は、図12(B)における当該それらの差異より小さい。
Polyak AverageベクトルμNt (j)は、Nt-4 (j),…,Nt (j)の平均である。そのため、Polyak AverageベクトルμNt (j)のとり得る範囲は、Nt-4 (j),…,Nt (j)の最小から最大までの範囲である。したがって、図12(A)に示すように、これらの特徴量ベクトル同士の差異が小さければ、その分Polyak AverageベクトルμNt-1 (j)のとり得る範囲は狭くなる。差分μNt-1 (j)−Nt-1 (j)の変動幅は自ずから小さくなる。これに対して、図12(B)に示すように雑音の特徴量ベクトル同士の差異が大きければ、その分Polyak AverageベクトルμNt (j)のとり得る範囲は広くなる。差分μNt (j)−Nt (j)の変動幅も自ずから大きくなる。すなわち、差分μNt (j)−Nt (j)は、過去Tフレーム分の雑音の変化を反映する。この差分に基づき、次のフレームにおける雑音の特徴量ベクトルNt+1 (j)を予測すると、過去Tフレーム分の雑音の変化が反映された特徴量ベクトルが得られる。
拡張カルマンフィルタ部258(図6参照)は、加重平均ベクトル^Nt-1と、差分ベクトルμNt-1 (j)−Nt-1 (j)と、拘束条件パラメータ138により定められる忘却係数α及びスケーリング係数βと、観測信号の特徴量Xt124と、出力パラメータ240とを基に、式(21)〜式(26)により示す拡張カルマンフィルタによって各パーティクルの更新を行なう。
この更新において、式(21)に示す、雑音の一期先予測パラメータNt|t-1 (j)においては、^Nt-1 (j)の散らばりが抑制される。また、過去Tフレーム分のパラメータの変動がフィードバックされる。すなわち、過去の変動が大きかった場合には、一期先予測パラメータNt|t-1 (j)の変動も大きくなる。反対に過去の変動が小さかった場合には、一期先予測パラメータNt|t-1 (j)の変動も小さくなる。したがって、パラメータの時間推移に対する拘束条件が、過去のパラメータの変動によって強化される。
以上のようにして、各パーティクルの更新を行なわれることにより、図11に示す状態空間420内の各パーティクルは更新され、パラメータが更新されたパーティクルにより第tフレームに対応する状態空間430が表現される。
これに応答して、重み算出部232が、状態空間430内の各パーティクルに対する重みwt (j)を、式(22)及び式(23)によって算出する。再サンプリング部234は、重みwt (j)に基づき、パーティクルにおける雑音のパラメータを再サンプリングする。この際、再サンプリング部234はまず、状態空間430内の各パーティクルからの再サンプリングの回数を、パーティクルに対する重みwt (j)に応じてパーティクルごとに設定する。白抜きの丸印で表される重みの微小なパーティクルからのサンプリングの回数を0に設定する。また、黒塗りの丸印で表される重みの大きなパーティクルからのサンプリングの回数を、重みの大きさに応じて1〜3に設定する。続いて、状態空間430内のパーティクルにおける雑音確率分布に基づき、設定された回数ずつ、雑音のパラメータの再サンプリングを行なう。このようにして、第tフレームに対応する新たな状態空間440を表現するパーティクルがそれぞれ形成される。
再サンプリング部234によるこのような再サンプリングが繰返し行なわれると、あるフレームに対応するパーティクルの多くにおける雑音のパラメータが、それ以前の時点のフレームに対応する少数のパーティクルにおける雑音のパラメータの確率分布からサンプリングされたものとなるおそれがある。そこで、推定パラメータ生成部236は、Metropolis-Hastingsアルゴリズムを用いて、新たに第tフレームに対応するパーティクルにおけるパラメータを生成することにより、このような事態を防止する。図7に示す再更新部262は、状態空間440における雑音確率分布にしたがい、第t−1フレームに対応する状態空間420内のパーティクルにおける雑音のパラメータを再更新する。重み再計算部264は、再更新されたパーティクルに対する重みwt *(j)を算出する。許容確率算出部266は、再更新されたパーティクルに対する重みwt *(j)と、再サンプリングされたパーティクルに対する重みwt (j)とを基に、許容確率νを算出する。パラメータ選択部270は、許容確率νと、乱数発生部268が発生した[0,1]の区間の乱数uとを比較し、乱数uが許容確率ν以下であれば、再サンプリングされたパーティクルにおけるパラメータを、再更新されたパーティクルにおけるパラメータで置換する。さもなければ、再更新されたパーティクルにおけるパラメータを棄却する。
以上のような動作をフレームごとに繰返すことにより、各フレームに対応して、各パーティクルにおける雑音のパラメータである、平均ベクトル^Nt (j)及び共分散行列ΣNt (j)が推定される。各パーティクルにおける雑音のパラメータである平均ベクトル^Nt (j)及び共分散行列ΣNt (j)と、各パーティクルに対する重みwt (j)とが、雑音確率分布の推定パラメータ206となる。雑音確率分布推定部200は、雑音確率分布の推定パラメータ206と観測信号の特徴量ベクトルXt124とを、フレームごとに、図4に示す観測信号分布推定部202に与える。
図4を参照して、観測信号分布推定部202は、観測信号分布のパラメータ208として、VTS法によって、第tフレームに対応する各パーティクルにおける観測信号分布の平均ベクトル及び共分散行列を生成する。これにより、各パーティクルにおいて雑音の確率分布と観測信号の確率分布とが推定されたことになる。クリーン音声推定部204は、MMSE推定法により、第tフレームに対応する各パーティクルにおいて、クリーン音声120のMMSE推定値ベクトル^St (j)を算出する。さらに、MMSE推定値ベクトル^St (j)と重みwt (j)とを用いて、第tフレームにおける推定クリーン音声の特徴量ベクトル^St126を算出し、図1に示す探索部110に出力する。
図1に示す探索部110は、推定クリーン音声の特徴量ベクトル^St126を用いて、認識用音響モデル部109に保持された音響モデルと、言語モデル部108に保持された言語モデルとを基に、適合する目的言語の単語等を探索し、その結果を認識出力128として出力する。
[第2の実施の形態]
式(1)に示す観測方程式と式(11)に示す状態方程式とに基づく状態空間モデル160(図3参照)は、過去の第tフレームでのj番目のパーティクルにおける雑音の特徴量ベクトルNt (j)の時間変化状況に応じて未来のパラメータを予測するモデルである。第1の実施の形態においては、拘束条件パラメータ138(図1参照)を時間固定のものとして扱っており、状態方程式(11)を時間変化に対して定常的なものとして、未来のパラメータを予測した。しかし、非定常雑音の時間変化の様相は時々刻々と変化するため、拘束条件パラメータもまた、時間の経過に伴い変化することが望ましい。そこで、以下に説明する第2の実施の形態では、それぞれ異なるパラメータの設定された複数の状態空間モデルの中から、未来予測に最適な状態空間モデルをフレームごとに選ぶ。そして各フレームにおいて選択した状態空間モデルを適用し、パーティクルの更新を行なう。
[構成]
図13に、本実施の形態に係る音声認識システムにおいて、図1に示す前処理部104に代えて用いられる前処理部500の構成を示す。図13を参照して、前処理部500は、図1に示す前処理部104のものと同一の計測部112と、GMM130を用い、複数の状態空間モデルを選択的に適用して計測部112の出力する観測信号の特徴量124に含まれる雑音の成分を抑圧するための雑音抑圧部510とを含む。雑音抑圧部510は、図1に示す前処理部104と異なり、拘束条件パラメータとして所与のものを使用しない。その代り雑音抑圧部510は、後述のとおり、フレームの移行時に逐次的に拘束条件パラメータを決定し、当該拘束条件パラメータを使用して雑音の抑圧を行なう。
図14に、本実施の形態に係る雑音抑圧部510の構成をブロック図で示す。図14を参照して、雑音抑圧部510は、第1の実施の形態に係る雑音抑圧部114のものとそれぞれ同一の雑音確率分布推定部200、観測信号分布推定部202、及びクリーン音声推定部204を含む。雑音抑圧部510はさらに、クリーン音声推定部204により発行される次のフレームへの移行に関する要求210を受けるように接続され、フレームが移行する度にそのフレームに対応する拘束条件パラメータ522を決定し、雑音確率分布推定部200に与えるための拘束条件パラメータ決定部520を含む。
図15に、拘束条件パラメータ決定部520の構成をブロック図で示す。拘束条件パラメータ決定部520は、要求210を受ける度に忘却係数α、スケーリング係数β、及びフレーム数Tの値をそれぞれ決定するためのα決定部530、β決定部532、及びT決定部534と、α決定部530により決定された忘却係数α、β決定部532により決定されたスケーリング係数β、及びT決定部534により決定されたフレーム数Tを、拘束条件パラメータ522として出力し雑音確率分布推定部200(図14参照)に与えるための拘束条件パラメータ出力部536とを含む。
α決定部530、β決定部532、及びT決定部534はそれぞれ、忘却係数α、スケーリング係数β、及びフレーム数Tのとり得る値を一覧にしたα状態−パラメータ表540、β状態−パラメータ表544、及びT状態−パラメータ表548と、要求210を受ける度にα状態−パラメータ表540、β状態−パラメータ表544、及びT状態−パラメータ表548を用いてそれぞれ、忘却係数α、スケーリング係数β、及びフレーム数Tの値をエルゴディックモデルによる確率分布にしたがって選択し出力するためのエルゴディックモデル部542、546、及び550とを含む。
α状態−パラメータ表540、β状態−パラメータ表544、及びT状態−パラメータ表548の例を、それぞれ図16(A)、(B)、及び(C)に示す。図16(A)を参照して、α状態−パラメータ表540の各行は、忘却係数αの状態に対応している。また、α状態−パラメータ表540には、状態番号の欄と、忘却係数αの欄とが設けられている。すなわち、α状態−パラメータ表540は、忘却係数αが4つの状態を有し、一つの状態が一つの状態番号と忘却係数αのとり得る一つのパラメータ値との組により構成されていることを表す。なお状態番号は、対応のパラメータ値が小さな状態ほど若い番号となるように予め付与される。
図16(B)に示すβ状態−パラメータ表544、及び図16(C)に示すT状態−パラメータ表548もまた、α状態−パラメータ表540と類似の構成である。ただし、列挙されているパラメータ値はそれぞれ、スケーリング係数βに対応するもの、及びフレーム数Tに対応するものになっている。
図17に、忘却係数αの状態遷移過程を模式的に示す。図17を参照して、忘却係数αの状態遷移過程は、エルゴディックモデルによってモデル化されている。忘却係数αを出力しうる状態番号1〜4の状態がある。これらの状態はそれぞれ、α状態−パラメータ表540により、忘却係数αのとり得るパラメータ値に対応している。フレームが移行する度に、これらの状態のうち一つが忘却係数αのパラメータ値を出力する。フレーム移行前の状態からある確率で他の状態に状態が遷移し、遷移先の状態がパラメータαを出力する。この状態遷移を矢印で示す。本実施の形態では、自己ループを含めすべての状態の間の遷移が許容される。
エルゴディックモデル部542は、忘却係数αの状態を、フレーム移行の度に状態番号1〜4のいずれかの状態へ遷移させることによって、各フレームにおける忘却係数αの値を決定する。
エルゴディックモデル部542、546、及び550は、対応のパラメータが異なることを除けば、いずれも同一の機能を有し独立に動作する。エルゴディックモデル部542、546、及び550を代表して、α決定部530のエルゴディックモデル部542の構成を図18にブロック図で示す。図18を参照して、エルゴディックモデル部542は、α状態−パラメータ表540における各状態の状態番号と所定のパラメータγ(1≧γ>0)570とをもとに、各状態間の遷移に対し状態遷移確率を割当てるための状態遷移確率割当部572と、状態遷移確率割当部572が割当てた状態遷移確率を一覧にした状態遷移確率表574と、フレーム移行の要求210を受ける度に、状態遷移確率表574を用いてフレーム移行前の状態から各状態への状態遷移確率を決定するための状態遷移確率決定部562と、状態遷移確率決定部562が決定したフレーム移行前の状態から各状態への状態遷移確率をもとにフレーム移行後の状態を選択し、その状態番号を出力するための状態遷移部564と、状態遷移部564により出力された状態番号を記憶するための状態番号記憶部560と、状態遷移部564により出力された状態番号に対応するパラメータ値をα状態−パラメータ表540から読出して、拘束条件パラメータ出力部536に出力するためのパラメータ読出部566とを含む。
状態遷移確率割当部572は、α状態−パラメータ表540が準備された時点で、α状態−パラメータ表540の状態のうちの任意の二つの組合せに対し、当該二つの状態の状態番号の差の絶対値の単調減少関数として、当該二つの状態間での状態遷移確率を決定する。図20に、状態番号とパラメータの値との関係を概略的に示す。図20を参照して、第tフレーム及び第t+1フレームにおける状態の状態番号をそれぞれ、mt (j)、nt+1 (j)とする。状態遷移確率割当部572は、α状態−パラメータ表540(図16(A)参照)の行ごとに、状態番号mt (j)からその行の状態番号をnt+1 (j)とした場合の状態番号の変化量dmn,t (j)=|nt+1 (j)−mt (j)|を算出する。そしてパラメータγ570を用い、次の数式によって、自己ループへの状態遷移確率を1とした場合の状態mt (j)から状態nt+1 (j)への状態遷移確率の相対量(以下、この量を「(状態遷移確率の)割当量」と呼ぶ。)amn,t (j)を決定する。
そして、Σ
na
mn,t (j)=1となるよう割当量a
mn,t (j)を正規化し、正規化後の割当量a
mn,t (j)を、m
t (j)とn
t+1 (j)との間の状態遷移確率とし、状態遷移確率表574に格納する。
図19に状態遷移確率表574の一例を示す。図19を参照して、この状態遷移確率表574は、状態数4のエルゴディックモデルにおいて、パラメータγ570の値を0.5に設定した場合の各状態間の状態遷移確率を示すものである。状態遷移確率表574の各行は遷移前の状態に対応しており、各欄は遷移先の状態に対応している。状態遷移確率表574のどの行においても、その行の状態番号と同じ状態番号に対応する欄に格納される状態遷移確率が、状態遷移確率の最大値をとっている。すなわち、他の状態に遷移するよりも自己ループする確率がより高く設定される。
再び図18を参照して、状態遷移確率決定部562は、要求210が与えられる度に、状態番号記憶部560に記憶されている状態番号を参照し、さらに、状態遷移確率表574の当該状態番号の行を読出して、状態遷移部564に与える。
状態遷移部564は、状態遷移確率表574の、状態遷移確率決定部562より与えられた行における各欄に表される状態遷移確率にしたがったモンテカルロサンプリングにより、遷移先の状態を選択し、選択した状態の状態番号を状態番号記憶部560及びパラメータ読出部566に与える機能を持つ。パラメータ読出部566は、状態遷移部564により出力された状態番号に対応する状態のパラメータ値を、α状態−パラメータ表540より読出して出力する機能を持つ。状態番号記憶部560は、状態遷移部564が出力した状態番号を記憶する。この番号は、次のフレーム移行時に、状態遷移確率決定部562により参照される。
〈コンピュータによる実現〉
以下の説明からも明らかなように、図13に示す前処理部500は、図1に示す前処理部104と同様に、コンピュータハードウェアと、その上で実行されるプログラムと、コンピュータハードウェアに格納されたデータとにより実現可能である。図21に、前処理部500に含まれる雑音抑圧部510(図14参照)が行なう雑音抑圧処理を実現するコンピュータプログラムの制御構造をフローチャートで示す。
図21を参照して、本実施の形態に係る雑音抑圧処理を実現するコンピュータプログラムの制御構造は、図8に示す第1の実施の形態に係る雑音抑圧処理を実現するコンピュータプログラムの制御構造と類似する。ただし、本実施の形態に係る雑音抑圧処理においては、ステップ304において次のフレームへ処理対象を移行した後、ステップ600に進む。ステップ600では、移行後のフレームで雑音の確率分布の推定に使用する拘束条件パラメータ522を決定し、ステップ306に進む。なお、ステップ306では、ステップ600で決定された拘束条件パラメータ522を使用して処理を行なうことになる。
ステップ600において、拘束条件パラメータ522を決定する処理は、忘却係数α、スケーリング係数β、及びフレーム数Tに対し、同様の処理がそれぞれ独立に実行される。図22に、これら独立に実行される処理を代表して、忘却係数αを決定する処理の制御構造をフローチャートで示す。図22を参照して、忘却係数αを決定する処理が開始されると、ステップ620において、予め記憶しておいた移行前のフレームにおいて忘却係数αを出力した状態の状態番号mt-1 (j)を取得する。ステップ622では、状態遷移確率表574(図19参照)の、ステップ620で取得した状態番号に対応する行を参照し、状態番号mt-1 (j)の状態と各状態との間の状態遷移確率の割当を読出す。
ステップ624では、ステップ622で読出した状態遷移確率にしたがい、状態番号nt (j)に関するモンテカルロサンプリングを実行し、サンプリングにより選択された状態番号nt (j)の状態を遷移先の状態として選択する。ステップ626では、ステップ624で選択された状態番号nt (j)の状態から忘却係数αの値を出力し、処理を終了する。
[動作]
本実施の形態に係る雑音抑圧部510は、フレーム移行の要求がある度に拘束条件パラメータ決定部520が拘束条件パラメータ522を決定し更新する。また、雑音確率分布推定部200は、式(11)に示す状態方程式における第1の拘束条件を導入して、雑音の平均ベクトルを補正する際各パーティクルにおける式(13)に示すPolyak AverageベクトルμNt (j)を算出する際、並びに式(21)〜式(26)により示す拡張カルマンフィルタによって各パーティクルの更新を行なう際に、更新された拘束条件パラメータ522を使用して処理を実行する。これらの点を除き、雑音抑圧部510は、第1の実施の形態に係る雑音抑圧部114と同一の動作を実行する。拘束条件パラメータ決定部520の図15に示すエルゴディックモデル部542、546、及び550に要求210が与えられると、エルゴディックモデル部542、546、及び550はそれぞれ独立に動作し、忘却係数α、スケーリング係数β、及びフレーム数Tの値をそれぞれ決定する。
以下、エルゴディックモデル部542、546、及び550を代表して、α決定部530のエルゴディックモデル部542の動作を説明する。まず、図18に示すエルゴディックモデル部542の状態遷移確率割当部572が状態遷移確率の割当を予め決定し、状態遷移確率表574(図19参照)を生成する動作について説明する。
図18を参照して、エルゴディックモデル部542にα状態−パラメータ表540とパラメータγ570とが与えられると、状態遷移確率割当部572は、α状態−パラメータ表540(図16(A)参照)の一つ目の行を処理対象に定める。そして、当該遷移前状態の状態番号と、α状態−パラメータ表540の各行における状態番号とを基に、遷移前状態と各状態との間の状態番号の変化量dmn,t (j)を算出する。例えば、状態遷移時に自己ループする場合、状態番号の変化量dmn,t (j)=0となる。
各遷移先状態について変化量dmn,t (j)を算出すると、状態遷移確率割当部572は次に、パラメータγ570を状態番号の変化量dmn,t (j)でべき乗して割当量amn,t (j)を算出する。パラメータγ570の値が1>γ>0に設定されていれば、自己ループにおいて状態番号の変化量dmn,t (j)は0となり、割当量amn,t (j)は、最大値γ0=1となる。自己以外への状態遷移では、状態番号の変化量dmn,t (j)の値が大きくなるほど小さくなる。パラメータγ570の値が1に設定されていれば、割当量amn,t (j)は、状態番号の変化量dmn,t (j)の値に関係なくamn,t (j)=1となる。
状態遷移確率割当部572はさらに、割当量amn,t (j)の各々を、Σnamn,t (j)=1となるよう正規化する。このようにして算出された正規化後の割当量amn,t (j)の各々を、状態遷移確率表574の遷移先の1行目の対応する欄に格納する。そして、α状態−パラメータ表540(図16(A)参照)の次の行を処理対象に定める。
パラメータγ570が1>γ>0に設定されていれば、各状態への状態遷移確率は、自己ループにおいて最大値となり、自己ループ以外の状態遷移においては、dmn,t (j)の値が大きくなるほど低い値となる。α状態−パラメータ表540においては、出力するパラメータ値が小さな状態ほど若い状態番号が付与されている。状態番号の変化量dmn,t (j)が小さければ、その分フレーム移行前後での忘却係数αの値の変動は小さく、状態番号の変化量dmn,t (j)が大きければその分忘却係数αの値の変動は大きくなる。したがって、パラメータγ570を1>γ>0に設定すると、各状態への状態遷移確率は、忘却係数αの値の変動が小さい状態に遷移する確率が高くなるように割当てられる。これに対し、パラメータγ570を1に設定すると、割当量amn,t (j)は、状態番号の変化量dmn,t (j)の値に関係なくamn,t (j)=1となる。そのため各状態への状態遷移確率は全て同じ確率になる。
この動作を繰返すことによりα状態−パラメータ表540の全ての行について処理が終了すると、状態遷移確率割当部572は動作を完了する。以上の一連の動作は、図15に示すエルゴディックモデル部542、546、及び550においてそれぞれ独立に実行される。
次に、エルゴディックモデル部542がフレーム移行の要求210を受けてフレーム移行後のフレームにおける忘却係数αの値を決定する動作を説明する。図14に示すクリーン音声推定部204が次のフレームへの移行の要求210を発行すると、要求210は、雑音確率分布推定部200に与えられるばかりでなく、拘束条件パラメータ決定部520の図18に示す状態遷移確率決定部562にも与えられる。状態遷移確率決定部562に要求210が与えられる時点では既に、状態番号記憶部560は、フレーム移行前の状態について、その状態番号mt (j)を記憶している。状態遷移確率決定部562は、要求210に応答して、状態番号mt (j)を状態番号記憶部560から読出す。そして、状態遷移確率表574(図19参照)の状態番号mt (j)の行を読出し、状態遷移部564に与える。
状態遷移部564は、与えられた行の各欄に格納されている、各状態への状態遷移確率にしたがったモンテカルロサンプリングにより遷移先の状態を選択する。そして選択した状態の状態番号を状態番号記憶部560及びパラメータ読出部566に与える。状態遷移部564が状態を選択すると、パラメータ読出部566は、状態遷移部564により選択された状態のパラメータ値を、α状態−パラメータ表540より読出して出力する。状態番号記憶部560は、状態遷移部564が出力した状態番号を記憶する。
以上の処理と同様の処理を図15に示すβ決定部532及びT決定部534もまた、要求210に応答して実行する。拘束条件パラメータ出力部536は、α決定部530から忘却係数αを、β決定部532からスケーリング係数βを、T決定部からフレーム数Tを受けると、それらをまとめて拘束条件パラメータ522として、図14に示す雑音確率分布推定部200に与える。雑音確率分布推定部200は、第1の実施の形態と同様の動作で雑音確率分布の推定パラメータ206を逐次的に生成し、観測信号の特徴量ベクトルXt124とともに、フレームごとに、図14に示す観測信号分布推定部202に与える。
雑音確率分布の推定パラメータ206を生成する際の処理において、状態空間モデル160を形成する状態方程式(11)における拘束条件パラメータは、処理対象のフレームごとに再設定される。これにより、フレームごとに状態空間モデルが変動するため、時間の推移とともに変動する非定常雑音をより適切に推定することが可能になる。
[実験]
本発明の第1及び第2の実施の形態に係る音声認識システムによる効果を確認するために、観測信号からの雑音の推定実験と、観測信号の認識実験とを行なった。以下、実験方法及び結果について説明する。
本実験では、日本語の雑音下音声認識評価用共通データベースに収録されたクリーン音声1001文のデータに、雑音を人工的に加算して、雑音重畳音声122(図1参照)の試料を生成した。また加算する雑音には、それぞれ実環境で収録された工場雑音と道路工事雑音とを使用した。本実験では、雑音を加算していない試料と、クリーン音声に雑音をそれぞれ20dB、15dB、10dB、5dB、及び0dBのSNR(Signal-to-Noise Ratio)で加算した試料とを用意した。用意した各試料を23次対数メルフィルタバンク処理し、得られた23次対数メルスペクトルの各成分を要素とするベクトルをそれぞれ生成し、認識対象の特徴量ベクトルとした。
認識実験では、比較のために、上記の各試料から、本実施の形態に係る雑音抑圧処理の方法を含む次の各方法で、探索に用いる特徴量を生成した。すなわち、パーティクルフィルタを用いて雑音確率分布の逐次推定を行ない、得られた雑音確率分布のパラメータを用いてMMSE推定法により特徴量を生成した。また、雑音確率分布の逐次推定を行なうにあたり、パーティクルフィルタとして、次の3種のものを用いた。すなわち、状態遷移過程にランダムウォーク過程を仮定し上記の状態方程式(2)を導入したパーティクルフィルタ(PF1)と、状態遷移過程に時間固定の拘束条件パラメータ138に基づく拘束条件を設定し上記の状態方程式(11)を導入したパーティクルフィルタ(PF2)と、時間変動する拘束条件パラメータ522に基づく拘束条件を設定し上記の状態方程式(11)を導入したパーティクルフィルタ(PF3)とである。
第1の実施の形態に係るパーティクルフィルタは、PF2のパーティクルフィルタであり、第2の実施の形態に係るパーティクルフィルタはPF3である。本認識実験ではさらに、比較のために外乱抑圧処理を行なわない観測信号の特徴量(HTK)と、非特許文献2に記載の方式で雑音抑圧処理を施した観測信号の特徴量(ETSI)と、パーティクルフィルタを用いた雑音確率分布の逐次推定を行なわずにMMSE推定法により特徴量を生成する方式で雑音抑圧処理を施した観測信号の特徴量(MMSE)と、逐次EMアルゴリズムによる雑音の逐次推定の結果を用いて雑音抑圧処理を施した観測信号の特徴量(SEM:Sequential Expectation Maximization)とを用いた探索も行なった。
上記のいずれのパーティクルフィルタを用いて処理を行なう場合にも、GMM130(図1参照)には、混合分布数512のモデルを用いた。この処理においては、ランダムガウス雑音ベクトルWtの共分散行列を、ΣW=diag(0.0001)に設定した。また、処理に用いるパーティクルの総数Jを50に設定した。
なお、第1の実施の形態に係るパーティクルフィルタ(PF2)を用いて処理を行なう際、拘束条件パラメータ138には次の値を用いた。すなわち工場雑音環境下では、忘却係数α、フィードバック係数β、及びフレーム数Tのパラメータ値にそれぞれ、0.20、0.5、10を使用した。道路工事雑音環境下では、忘却係数α、フィードバック係数β、及びフレーム数Tのパラメータ値にそれぞれ、0.20、0.5、20を使用した。
第2の実施の形態に係るパーティクルフィルタ(PF3)を用いて処理を行なう際、状態遷移確率の割当に使用するパラメータγには0.6を使用した。
抑圧後の推定クリーン音声を用いた音声認識を行なう際の特徴量には、0次を含む13次MFCC(Mel Frequency Cepstrum Coefficient)と、1次及び2次の回帰係数とを含む39次元の特徴量を用いた。また、図1に示す認識用音響モデル109には、16状態20混合分布のHMMを用いた。
この認識実験における処理に、市販のクロック周波数3.2ギガヘルツ、32ビットのCPU(Central Processing Unit)を用いた場合、PF1、PF2、及びPF3のいずれのパーティクルフィルタを用いた場合も、処理に要した時間は、観測信号における実時間と同程度であった。すなわち、認識処理を実時間で処理できることが明らかとなった。逐次EMアルゴリズムによる雑音の推定の結果を用いて雑音抑圧処理を施した場合(SEM)、その処理に要した時間は、結果が収束するまでの処理の反復回数がデータに依存して変化する。本実験においては処理時間は実時間の2倍〜4倍であった。
図23に、雑音の推定実験の結果を示す。図13は、工場雑音の各フレームにおける、対数メルフィルタバンクの1番目のフィルタによる出力値(以下、「真の雑音」と呼ぶ。)と、パーティクルフィルタを用いた雑音抑圧処理において当該出力値に対応する推定結果とを示すグラフである。このグラフにおいては、比較のため、状態遷移過程にランダムウォーク過程を仮定したパーティクルフィルタと、第1の実施の形態に係るパーティクルフィルタ(PF2)とによる推定結果を示す。このグラフの横軸は、フレーム番号を表す。すなわちグラフ上、左から右に進むにしたがい時間が経過する。
図23を参照して、このグラフにおいて、44フレームまでの区間は、雑音121のみが観測された区間であった。また、45フレーム以降の区間は、雑音121と目的音声120との重畳した雑音重畳音声が観測された区間であった。雑音のみの区間においては、ランダムウォーク過程を仮定したパーティクルフィルタによる処理結果も、本実施の形態に係るパーティクルフィルタによる処理結果も、真の雑音に近い時間軌跡となっている。よってこの区間では、いずれの処理方法でも時間変動が推定できていることが分かる。しかし、雑音重畳音声が観測された区間において、本実施の形態に係るパーティクルフィルタによる雑音の推定誤差は、ランダムウォーク過程を導入したパーティクルフィルタによる雑音の推定誤差より小さくなっている。よって、本実施の形態に係る雑音抑圧処理により、特に雑音重畳音声が観測される区間において雑音が高精度に推定され、抑圧されることが分かる。
表1及び表2に、各試料に対する認識実験で得られた単語認識率を、上記の処理方法別に示す。
表1及び表2を参照して、パーティクルフィルタPF1、PF2、又はPF3による雑音抑圧処理を行なうことで、高い単語認識率が得られることが分かる。中でも上記第1の実施の形態に係るパーティクルフィルタPF2及び第2の実施の形態に係るパーティクルフィルタPF3は、他のいずれの処理方法より高い単語認識率が得られることが分かる。よって、第1の実施の形態及び第2の実施の形態に係る拘束条件が有効な作用を奏したことは明らかである。特に第2の実施の形態に係るパーティクルフィルタPF3による処理を施した試料に対する認識結果は、最良の結果を示しており、また、第1の実施の形態に係るパーティクルフィルタ(PF2)による処理を施した試料に対する認識結果よりもさらに高い。よって、拘束条件パラメータを時間変動させることが、有効な作用を奏したこともまた明らかとなった。
以上の実験結果から、本実施の形態の雑音抑圧処理により、非定常な雑音と目的音声とが重畳する環境下での音声認識率が改善され、かつ実時間処理が可能になることが明らかとなった。
表3及び表4に、第2の実施の形態に係るパーティクルフィルタ(PF3)において、パラメータγ570を変化させた場合の単語認識率を示す。
表3及び表4より、パラメータγを変化させても、雑音種別、SNRに関わらず音声認識率の変動は1%以下であった。単語認識率に対するパラメータγの依存性は低いと言える。したがって、拘束条件パラメータに含まれる忘却係数α、スケーリング係数β、及びフレーム数Tのフレームごとの変動を許容すること自体が、音声認識率の改善に寄与することと考えられる。
[変形例等]
なお、上記各実施の形態においては、パーティクルフィルタによる処理を雑音の抑圧に用いている。そのため、雑音抑圧後の推定クリーン音声のパラメータを用いて探索を行なう前に、さらに音響モデル適応を行なうこともできる。音響モデル適応により、推定クリーン音声に適合した音響モデルを探索に用いることができるようになる。したがって、音声認識率が向上することが期待される。
また、上記各実施の形態においては、前処理用の音響モデルにGMMを用いたが、前処理用の音響モデルにHMMを用いてもよい。この場合、上記の式(20)に示す要素分布のサンプリングに先立ち、HMMの遷移確率にしたがって状態のサンプリングを行なえばよい。
上記第1の実施の形態では、図6に示すPolyak Average算出部254は、拘束条件パラメータ138により定められたTフレーム分のPolyak Averageを算出した。しかし、第1の実施の形態においては、バッファメモリ部252が雑音確率分布の推定パラメータ206をTフレーム分保持し、Polyak Average算出部254がバッファメモリ部252に保持されている当該Tフレーム分の雑音確率分布の推定パラメータ206を基にPolyak Averageを算出するようにしてもよい。
上記第2の実施の形態では、状態番号がパラメータ値の昇順に付与されていた。しかしパラメータ値の降順に付与されていても、昇順に付与された場合と同様に動作する。
また、上記第2の実施の形態では、拘束条件パラメータの状態遷移確率は、直前のフレームに対応する状態に依存して決定された。しかし、本発明はこのような実施の形態には限定されない。例えば、直前のフレームのみでなく、より過去の状態の影響を考慮して、拘束条件パラメータに関する状態遷移確率の決定を行なうようにしてもよい。
また、上記第2の実施の形態では、各エルゴディックモデル部は、全ての状態間での状態遷移に関し状態遷移確率の割当を予め決定しておき、フレームを移行するたびに決定された状態遷移確率の割当にしたがって、フレーム移行後の拘束条件パラメータの値を決定した。しかし、本発明はこのような実施の形態には限定されない。例えば、フレームを移行する度に、状態遷移確率の割当を決定するようにしてもよい。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。