JP4617497B2

JP4617497B2 - 雑音抑圧装置、コンピュータプログラム、及び音声認識システム

Info

Publication number: JP4617497B2
Application number: JP2005356665A
Authority: JP
Inventors: 雅清藤本; 哲中村
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2005-07-01
Filing date: 2005-12-09
Publication date: 2011-01-26
Anticipated expiration: 2025-12-09
Also published as: JP2007041499A

Description

本発明は、雑音が発生する実環境下での音声認識技術に関し、特に、非定常的な雑音が発生する環境下での音声認識率を改善するための雑音抑圧装置及びそれを使用した音声認識システムに関する。

人間にとって容易かつ自然なヒューマンマシンインタフェースを実現するための技術として、音声認識技術が研究されている。近年では、大規模な音声・テキストデータベースと統計確率的な音声認識手法とにより、高い認識率での音声認識が実現されるようになった。今日ではさらに、人間と機械とが接する実環境下において、高速にかつ高い認識率で音声認識を実現するための応用技術開発が進められている。

実環境が実験室等の環境と大きく異なる点の一つに、雑音の存在がある。雑音は、無視できない音量で、絶え間なく、かつ不規則に発生し、時間の経過とともに変動する。雑音は、音声認識を行なう際の妨げとなる。雑音が発生する実環境下での音声認識率を改善することは、音声認識の応用技術開発を行なう上で、早急に解決されるべき問題である。

雑音が発生する環境下での音声認識率を改善するための技術の一つに、時間の経過に対し定常的な性質を持つ雑音について、音声認識の前処理の段階で雑音を推定し抑圧する技術がある。

後掲の非特許文献１には、定常的な雑音の一般的な抑圧方法であるスペクトルサブトラクション法が開示されている。この方法では、発話の前の区間において観測された雑音の振幅スペクトルと発話中の区間における雑音の振幅スペクトルとが同じであると仮定する。そしてこの仮定に基づき、発話時に観測された音声信号の振幅スペクトルから、発話直前に観測された雑音の振幅スペクトルを減算して、雑音を抑圧する。

後掲の非特許文献２には、分散型音声認識における雑音抑圧方法が開示されている。この方法では、発話直前に観測された雑音の振幅スペクトルを用いて、ウィナフィルタ理論に基づく雑音の抑圧を行なう。

音声認識の前処理の段階において雑音を逐次的に推定し抑圧する技術もある。後掲の非特許文献３には、逐次ＥＭ（Expectation Maximization）アルゴリズムを適用して雑音の最尤推定値を逐次的に求める方法が開示されている。逐次ＥＭアルゴリズムを用いて逐次的に雑音を推定する方法では、雑音の時間変動に対処しつつ高精度に雑音の推定及び抑圧を行なうことができる。

後掲の非特許文献４及び非特許文献５に開示された、カルマンフィルタを用いて雑音の推定値を逐次的に求める方法も一般的に用いられている。この方法では、一期先予測とフィルタリングとを交互に行なうことによって、雑音を逐次的に推定し抑圧する。

また、雑音環境下での音声認識率を改善するための技術として、雑音を考慮した確率モデルを用いて適応的に音声認識を行なう技術がある。例えば後掲の特許文献１には、パーティクルフィルタと呼ばれる逐次推定法を用いて、雑音パラメータの推定と、ＨＭＭ（Hidden Markov Model：隠れマルコフモデル）を構成する隠れ状態の時間的成長とを行ない、当該ＨＭＭに基づく音声認識を行なう音声認識システムが開示されている。

Ｓ．Ｆ．ボル：「スペクトルサブトラクションを用いた、音声内の音響ノイズの抑圧」、ＩＥＥＥＴｒａｎｓ．ＡＳＳＰ、Ｖｏｌ．２７、Ｎｏ．２、１１３−１２０頁、１９７９年（S.F.Boll: "Suppression of Acoustic Noise in Speech Using Spectral Subtraction," IEEE Trans. ASSP, Vol. 27, No. 2, pp. 113-120, 1979）欧州電気通信標準化機構（ＥＴＳＩ：European Telecommunications Standards Institute）勧告ＥＳ２０２０５０Ｖ１．１．３ "音声の処理、伝送、及び品質の局面（ＳＴＱ），分配型音声認識：上級フロントエンド特徴抽出アルゴリズム；圧縮アルゴリズム"、２００３年１１月（ETSI ES 202 050 V1.1.3, "Speech Processing, Transmission and Quality Aspects (STQ), Distributed Speech Recognition: Advanced Front-end Feature Extraction Algorithm; Compression Algorithms," Nov. 2003.）Ｍ．アフィフィ、Ｏ．シオアン：「ロバスト音声認識のための最適な忘却による逐次推定」、ＩＥＥＥＴｒａｎｓ．ＳＡＰ、Ｖｏｌ．１２、Ｎｏ．１、１９−２６頁、２００４年（M.Afify, O.Siohan: "Sequential Estimation with Optimal Forgetting for Robust Speech Recognition," IEEE Trans. SAP, Vol. 12, No.1, pp. 19-26, 2004）有本卓：「カルマンフィルター」、産業図書中野道雄監修、西山清著：「パソコンで解くカルマンフィルタ」、丸善特開２００２−２５１１９８号公報

非特許文献１及び非特許文献２に記載の技術はいずれも、雑音が定常的なものであるという前提のもとで雑音の推定及び抑圧を行なう技術である。しかし、実環境において雑音の多くは非定常である。すなわち、雑音の音響的特徴は時間の経過に伴い変動する。そのため、非特許文献１及び非特許文献２に記載の技術では、雑音の時間変動に対応できず、高精度に雑音を抑圧することができない。

非特許文献３に記載の技術では、逐次ＥＭアルゴリズムが用いられている。逐次ＥＭアルゴリズムで雑音を推定する場合、観測された音声信号のフレーム毎に、そのフレームにおけるパラメータが尤度関数の局所最適値に収束するまで反復計算を行なう必要がある。そのため、雑音が変動する度に膨大な量の計算が必要となり、計算に時間を要する。よって、この手法により実時間で雑音を推定し抑圧するのは困難である。

非特許文献４及び非特許文献５に記載の技術では、カルマンフィルタを用いて雑音を推定する。この推定方法は、一期先予測とフィルタリングとを交互に行なう方法であり、逐次ＥＭアルゴリズムのような反復計算を必要とはしない。しかし、カルマンフィルタを用いた手法は、雑音の事後確率分布が単一正規分布であるものとして確率分布を推定する。真の事後確率分布が混合分布であった場合には、単一正規分布で近似される。そのため、精度が劣化する。

特許文献１に記載の音声認識システムのように、雑音を考慮したモデルを用いて音声認識を行なう技術では、雑音が重畳された音声と確率モデルとのマッチングが行なわれる。そのため、例えば音響モデル適応など、雑音のない音声に基づいて行なうべき前処理を実行できない。

それゆえに、本発明の目的は、非定常雑音が発生する環境下での音声認識率を改善し、かつ雑音を短時間で抑圧することができる雑音抑圧装置を提供することである。

本発明の第１の局面に係る雑音抑圧装置は、雑音が発生する環境下での目的音声の観測により得られる観測信号における雑音の成分を抑圧するための装置である。この雑音抑圧装置は、観測信号について所定周期ごとにフレーム化された所定時間長のフレームよりそれぞれ抽出される特徴量を受け、雑音の時間推移に関し所定の拘束条件の設けられた複数のパーティクルを有するパーティクルフィルタを用いて、雑音を表す確率分布の推定パラメータをフレームごとに逐次生成するための雑音推定手段と、観測信号の特徴量と、推定パラメータと、目的音声に関する所定の音響モデルとを用いて、フレームごとに目的音声の推定特徴量を算出するための目的音声推定手段とを含む。

好ましくは、雑音推定手段は、雑音の初期分布を推定し、複数のパーティクルの各々において、初期フレームの雑音を表す確率分布の推定パラメータを初期分布にしたがった確率でそれぞれ設定するための初期パラメータ設定手段と、各パーティクルにおいて、第１のフレームでの推定パラメータと当該第１のフレームに先行する所定数のフレームでの推定パラメータとから、拘束条件に基づき当該推定パラメータに対する変更量を算出するための変更量算出手段と、音響モデルと、観測信号の特徴量と、変更量算出手段により算出された変更量とを基に、拡張カルマンフィルタを用いて、各パーティクルにおける第１のフレームの推定パラメータを、それぞれ第１のフレームに後続する第２のフレームに対応するものに更新するための更新手段と、第２のフレームにおける複数のパーティクルの各々に対する重みを算出するための重み算出手段と、更新手段により更新された雑音の推定パラメータと重み算出手段により算出された重みとを用いて、第２のフレームにおける雑音を表す確率分布の推定パラメータを生成するための手段とを含む。

より好ましくは、拘束条件は、推定パラメータに対する過去のフレームのフィードバックを含む。第１のフレーム及び当該第１のフレームに先行する所定数のフレームにおける推定パラメータの平均を求め、推定パラメータの平均と第１フレームにおける推定パラメータとの差分を基に、変更量を算出するための手段を含む。

雑音抑圧装置はさらに、第１のフレームについて、各パーティクルにおける推定パラメータと当該パーティクルに対する重みとを用いて、第１のフレームでの推定パラメータの加重平均を算出するための加重平均算出手段を含んでもよい。更新手段は、音響モデルと、観測信号の特徴量と、変更量及び加重平均とを基に、拡張カルマンフィルタを用いて、各パーティクルにおける第１のフレームの推定パラメータを、それぞれ第１のフレームに後続する第２のフレームに対応するものに更新するための手段を含む。

さらに好ましくは、雑音抑圧装置はさらに、変更量算出手段が変更量を算出するのに使用するフレームの数を、予め定められた複数種類の数の中から、所定の確率モデルにしたがってフレームごとに選択するためのフレーム数選択手段を含む。

確率モデルは、変更量算出手段が変更量を算出するのに使用するフレームの数からの変化量の絶対値に対する単調減少関数として、次のフレームで変更量算出手段が変更量を算出するのに使用するフレームの数が選択される確率を割当てるものであってもよい。

フレーム数選択手段は、互いに異なる、予め定められた複数種類の自然数にそれぞれ対応付けられた複数の状態を準備するための手段と、複数の状態の間での状態遷移確率を決定するための状態遷移確率決定手段とを含んでもよい。変更量算出手段が変更量を算出するのに用いるフレームの数は、複数の状態の中から選択された状態に対応付けられた自然数である。フレーム数選択手段はさらに、変更量算出手段が変更量を算出するのに用いたフレームの数に対応する状態から、状態遷移確率にしたがって次の状態を選択するための手段と、選択された状態に対応する自然数を、次のフレームで変更量算出手段が使用する際に使用するフレームの数に設定するための手段とを含む。

準備するための手段は、互いに異なる、予め定められた複数種類の自然数にそれぞれ対応付けられた複数の状態を準備し、状態の各々に対し所定の順序にしたがい番号を付与するための手段を含んでもよい。状態遷移確率決定手段は、複数の状態のうちの任意の二つの組合せに対し、それら二つの状態にそれぞれ付与された二つの番号の差の絶対値に対する単調減少関数として、それら二つの状態の間での状態遷移確率を決定する。

付与するための手段は、状態の各々に対し、自然数の昇順又は降順に番号を付与してもよい。

好ましくは、拘束条件は、所定の制御パラメータにより規定される。雑音抑圧装置はさらに、制御パラメータの値を、予め定められた複数種類の数の中から、所定の確率モデルにしたがってフレームごとに選択するための制御パラメータ値選択手段を含む。

より好ましくは、確率モデルは、拘束条件を規定する制御パラメータの値からの変化量の絶対値に対する単調減少関数として、次のフレームでの拘束条件を規定する制御パラメータの値が選択される確率を割当てる。

より好ましくは、制御パラメータ値選択手段は、互いに異なる、予め定められた複数種類の値にそれぞれ対応付けられた複数の状態を準備するための手段と、複数の状態の間での状態遷移確率を決定するための状態遷移確率決定手段とを含む。制御パラメータの値は、複数の状態の中から選択された状態に対応付けられた値であり、制御パラメータ値選択手段はさらに、拘束条件を規定する制御パラメータの値に対応する状態から、状態遷移確率にしたがって次の状態を選択するための手段と、選択された状態に対応する値を、次のフレームでの拘束条件を規定する制御パラメータに設定するための手段とを含む。

さらに好ましくは、準備するための手段は、互いに異なる、予め定められた複数種類の値にそれぞれ対応付けられた複数の状態を準備し、状態の各々に対し所定の順序にしたがい番号を付与するための手段を含む。状態遷移確率決定手段は、複数の状態のうちの任意の二つの組合せに対し、それら二つの状態にそれぞれ付与された番号の差の絶対値の単調減少関数として、それら二つの状態の間での状態遷移確率を決定する。

付与するための手段は、状態の各々に対し、値の昇順又は降順に番号を付与してもよい。

本発明の第２の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを本発明の第１の局面に係るいずれかの雑音抑圧装置として動作させる。

本発明の第３の局面に係る音声認識システムは、本発明の第１の局面に係るいずれかの雑音抑圧装置と、雑音抑圧装置により算出される目的音声の推定特徴量を受けて、目的音声に関する所定の音響モデルと、認識対象言語に関する所定の言語モデルとを用いて、目的音声に関する音声認識を行なうための音声認識手段とを含む。

［第１の実施の形態］
以下、図面を参照しつつ、本発明の一実施の形態について説明する。なお、以下の説明に用いる図面では、同一の部品には同一の符号を付してある。それらの名称及び機能も同一である。したがって、それらについての説明は繰返さない。以下の説明のテキスト中で使用する記号「＾」等は、本来はその直後の文字の直上に記載すべきものであるが、テキスト記法の制限により当該文字の直前に記載する。式中では、これらの記号等は本来の位置に記載してある。また以下の説明のテキスト中では、ベクトル又は行列については例えば「ベクトルＸ_t」、「行列Σ_W」等のように直前に「ベクトル」、「行列」等を付した通常のテキストの形で記載するが、式中ではいずれも太字で記載する。

［構成］
〈音声認識システム全体の構成〉
図１に、本実施の形態に係る音声認識システム１００全体の構成を示す。図１を参照して、この音声認識システム１００は、音源１０２が発生する音１２２から音声認識に用いる音声の特徴を表す特徴量ベクトル１２６を抽出するための前処理部１０４と、前処理部１０４に接続され、音声の特徴と音素との関係を表す確率モデル（音響モデル）を準備するための前処理用音響モデル部１０６と、認識対象の言語における単語の連接確率等を表す確率モデル（言語モデル）を準備するための言語モデル部１０８と、言語モデル部１０８の言語モデル及び所定の音響モデルを用いて、前処理部１０４から出力された特徴量に対応する単語等を探索するための探索部１１０と、探索部１１０に接続され、探索部１１０による探索に用いられる音響モデルを準備するための認識用音響モデル部１０９とを含む。

音声認識システム１００はさらに、前処理部１０４による特徴量ベクトル１２６の抽出に用いられ、後述する状態空間モデルにおける拘束条件を定めるための係数からなる、拘束条件パラメータ１３８を含む。

音源１０２は、認識されるべき音声（目的音声）１２０を発話する話者１１６と、話者１１６の周囲で雑音１２１を発生する雑音源１１８とを含む。音源１０２が発生し前処理部１０４により収録される音１２２は、話者１１６の発話により発生する雑音のない目的音声１２０と雑音１２１とが重畳した音となる。本明細書では、目的音声１２０を「クリーン音声」と呼ぶ。これに対して、前処理部１０４に到達し、前処理部１０４により収録される音１２２、すなわち、クリーン音声１２０と雑音１２１とが重畳した音１２２を、「雑音重畳音声」と呼ぶ。

前処理部１０４は、雑音重畳音声１２２を収録し、その結果得られる観測信号に所定の信号処理を施すことにより、観測信号に関する所定の特徴量ベクトル（以下、この特徴量ベクトルを単に「観測信号の特徴量」と呼ぶことがある。）１２４を抽出するための計測部１１２と、計測部１１２により抽出された観測信号の特徴量１２４に含まれる雑音の成分を、前処理用音響モデル部１０６により準備される音響モデルと拘束条件パラメータ１３８とを用いて抑圧するための雑音抑圧部１１４とを含む。

計測部１１２は、観測信号を時間長数１０ミリ秒のフレームごとに対数メルフィルタバンク分析し、得られる対数メルスペクトルを要素とするベクトルを観測信号の特徴量１２４として出力する。

雑音抑圧部１１４は、前処理用音響モデル部１０６により準備される音響モデルと拘束条件パラメータ１３８とを用いて、観測信号の特徴量１２４を基に、クリーン音声１２０の特徴量ベクトルをフレームごとに逐次推定する機能を持つ。そしてこの逐次推定によって得られる特徴量ベクトルを、音声認識に用いる音声の特徴量ベクトル１２６として探索部１１０に出力する。この際、まず雑音１２１の特徴量ベクトルを推定し、その結果を基にクリーン音声１２０の特徴量ベクトルを推定する。なお、本明細書では、特徴量ベクトル１２６によって表される音声を「推定クリーン音声」と呼ぶ。また、特徴量ベクトル１２６を「推定クリーン音声の特徴量」と呼ぶ。

探索部１１０は、推定クリーン音声の特徴量１２６を用いて、認識用音響モデル部１０９により準備された音響モデルと、言語モデル部１０８により準備された言語モデルとを基に、適合する目的言語の単語等を探索し、その結果を認識出力１２８として出力する。

〈前処理用の音響モデル〉
以下に、前処理用音響モデル部１０６により準備される音響モデルについて説明する。図１に示す前処理用音響モデル部１０６は、クリーン音声１２０に対する音響モデルとして、ガウス混合モデル（ＧＭＭ：Gaussian Mixture Model）１３０を準備し保持する。前処理用音響モデル部１０６は、予め用意されたクリーン音声１２０に関する学習データを記憶するための学習データ記憶部１３２と、学習データ記憶部１３２内の学習データを用いてＧＭＭ１３０に対する学習を行なうためのモデル学習部１３４と、モデル学習部１３４による学習で得られるＧＭＭ１３０を記憶するためのＧＭＭ記憶部１３６とを含む。

図２に、ＧＭＭ１３０の概念を模式的に示す。図２を参照して、ＧＭＭ１３０は、時系列信号を、一つの定常信号源（状態）によりモデル化した確率モデルである。このＧＭＭ１３０においては、クリーン音声１２０の特徴量ベクトルとして出力される可能性のあるベクトルと、そのベクトルが出力される確率（以下、単に「出力確率」と呼ぶ。）とが定義される。出力確率は混合正規分布１４０によって表現される。ＧＭＭ１３０における混合正規分布１４０は、複数の要素分布１４８Ａ，１４８Ｂ，…，１４８Ｋを含む。これらの要素分布１４８Ａ，１４８Ｂ，…，１４８Ｋはいずれも単一正規分布である。例えば、混合正規分布１４０に含まれるある要素分布１５０をｋ_tとする。要素分布ｋ_tは、単一正規分布であり、分布の平均μ_S,ktと分散Σ_S,ktとにより表現される。この要素分布ｋ_t１５０にしたがった確率で出力されるパラメータのベクトルをベクトルＳ_kt,tとする。以下の説明では、ＧＭＭ１３０から出力されるパラメータベクトルＳ_kt,tを、「（ＧＭＭ１３０の）出力パラメータ」と呼ぶ。

〈状態空間モデル〉
以下に、状態空間モデルについて説明する。状態空間モデルは、観測信号の生成過程を表した観測方程式と、処理の対象の変化する過程（以下、この過程を「状態遷移過程」と呼ぶ。）を表した状態方程式とからなる動的モデルである。図３に状態空間モデル１６０を模式的に示す。

時刻ｔのフレーム（以下、単に「第ｔフレーム」と呼ぶ。）における観測信号の特徴量１２４（図１参照）をＸ_tとする。観測信号の特徴量Ｘ_tは、上記のとおり雑音重畳音声１２２から得られる対数メルスペクトルを要素に持つベクトルである。この観測信号の特徴量Ｘ_tは、クリーン音声１２０と雑音１２１とが重畳した音の対数メルスペクトルを要素に持つ。ここに、第ｔフレームにおけるクリーン音声１２０の対数メルスペクトルを要素に持つベクトルをクリーン音声の特徴量ベクトルＳ_tとする。また、雑音１２１の対数メルスペクトルを要素に持つベクトルを雑音の特徴量ベクトルＮ_tとする。ベクトルＸ_t、Ｓ_t、及びＮ_tの次元数は同一である。なお、以下に説明する処理はこれらベクトル及び行列の要素についてそれぞれ行なわれるが、以下の説明では、簡単のために各要素を特に区別して言及することはしない。

まず、状態空間モデル１６０における観測信号の生成過程について説明する。観測信号の特徴量Ｘ_tは、計測によって得られる既知のベクトルである。これに対し、クリーン音声の特徴量ベクトルＳ_tと雑音の特徴量ベクトルＮ_tとはいずれも、計測によっては得ることのできない未知のベクトルである。

ここで、クリーン音声１２０の出力過程がＧＭＭでモデル化できるものと仮定する。すなわち、第ｔフレームにおけるクリーン音声の特徴量ベクトルＳ_tが、ＧＭＭ１３０内のある要素分布ｋ_t１５０（図２参照）にしたがって出力される出力パラメータベクトルＳ_kt,tにより表現されるものと仮定する。ただし、クリーン音声の特徴量ベクトルＳ_tと出力パラメータベクトルＳ_kt,tとの間には誤差が存在する。この誤差もまたベクトルである。この誤差を誤差ベクトルＶ_tとする。誤差ベクトルＶ_tは、次の式に示すように、平均が０で分散がΣ_S,ktの単一正規分布で表現される確率分布にしたがう値を要素に持つものとする。

ただし、この式においてΣ_S,ktはＧＭＭ１３０内のある要素分布ｋ_t１５０より得られるパラメータの共分散行列を表し、記号「〜」は左辺の値が右辺に示される確率分布にしたがうことを示す。すなわち、左辺の値が右辺に示す確率分布にしたがったサンプリングにより推定できることを示す。また、この式において、「Ｎ（μ，Σ）」は、平均がμで分散がΣの単一正規分布を表す。

上記の仮定に基づき、観測信号の特徴量Ｘ_t１２４の生成過程は、雑音の特徴量ベクトルＮ_t、出力パラメータベクトルＳ_kt,t、及び誤差ベクトルＶ_tを用いて、次の式（１）に示す観測方程式により表現されるものとする。

なお、式（１）でＩは単位ベクトルを表す。また、ベクトルの対数、ベクトルの指数演算
はそれぞれ、ベクトルの各要素について対数をとり、又は指数計算し、その結果を成分と
するベクトルを表すものとする。

次に、状態空間モデル１６０における処理対象の状態遷移過程について述べる。状態空間モデル１６０においては、雑音の特徴量ベクトルＮ_tが処理の対象になる。ここで、雑音の特徴量ベクトルＮ_tがランダムウォーク過程にしたがって変化するものと仮定する。すなわち、第ｔ−１フレームにおける雑音の特徴量ベクトルＮ_t-1が第ｔフレームにおける雑音の特徴量ベクトルＮ_tとの間に、ランダムな変化が生じるものと仮定する。このランダムな変化を表すベクトルをランダムガウス雑音ベクトルＷ_tとする。ランダムガウス雑音ベクトルＷ_tは、平均が０で分散がΣ_wの単一正規分布で表現される確率分布にしたがう値を要素に持つランダムガウス雑音であるものとする。

ただし、この式においてΣ_Wは、ランダムガウス雑音ベクトルＷ_tの共分散行列を表す。

上記の仮定に基づき雑音の特徴量ベクトルＮ_tの状態遷移過程を表現する状態方程式を定義すると、状態方程式は、次の式（２）のようになる。

しかし、ランダムウォーク過程に基づく上記の仮定では、雑音の特徴量ベクトルＮ_tの変化をランダムガウス雑音ベクトルＷ_tで規定している。そのため、式（２）に示す状態方程式では、雑音の特徴量ベクトルＮ_tの時間変化を正確に表現することはできない。そこで、本実施の形態では、図１に示す拘束条件パラメータ１３８を用いて、雑音の特徴量ベクトルＮ_tの変化に対し、拘束条件を設ける。拘束条件及びそのための拘束条件パラメータ１３８の詳細については、後述する。

〈雑音抑圧部１１４の構成〉
図４に、雑音抑圧部１１４（図１参照）の構成をブロック図で示す。図４を参照して、雑音抑圧部１１４は、観測信号の特徴量Ｘ_t１２４、ＧＭＭ１３０、及び拘束条件パラメータ１３８を用いて、雑音の特徴量ベクトルＮ_tの出力される確率を表す確率分布（以下、「雑音確率分布」と呼ぶ。）をフレームごとに逐次的に推定し、雑音確率分布を表すパラメータ（以下、このパラメータを「雑音確率分布の推定パラメータ」と呼ぶ。）を生成するための雑音確率分布推定部２００を含む。雑音抑圧部１１４はさらに、雑音確率分布推定部２００により出力された雑音確率分布の推定パラメータ２０６及びＧＭＭ１３０を基に、観測信号の特徴量Ｘ_t１２４の出力される確率を表す確率分布（以下、「観測信号分布」と呼ぶ。）を推定し、観測信号確率分布を表すパラメータ２０８（以下、このパラメータを「観測信号分布のパラメータ」と呼ぶ。）を生成するための観測信号分布推定部２０２と、雑音確率分布の推定パラメータ２０６、観測信号分布のパラメータ２０８、及びＧＭＭ１３０を基に、推定クリーン音声の特徴量１２６を生成するためのクリーン音声推定部２０４とを含む。

雑音確率分布推定部２００は、雑音確率分布をフレームごとに逐次推定し、雑音確率分布の推定パラメータ２０６を出力する機能を持つ。ここに、観測信号の特徴量Ｘ₀，…，Ｘ_tからなるベクトルの系列を系列Ｘ_0:t＝｛Ｘ₀，…，Ｘ_t｝とし、雑音の特徴量ベクトルＮ₀，…，Ｎ_tからなるベクトルの系列を系列Ｎ_0:t＝｛Ｎ₀，…，Ｎ_t｝とする。観測信号ベクトルの系列Ｘ_0:tが与えられた時の系列Ｎ_0:tの事後確率分布ｐ（Ｎ_0:t｜Ｘ_0:t）は、１次マルコフ連鎖を用いて、次の式（３）のように表される。

したがって雑音の特徴量ベクトルＮ_tの確率分布を逐次推定する問題は、観測信号ベクトルの系列Ｘ_0:tが与えられた時の事後確率ｐ（Ｎ_0:t｜Ｘ_0:t）を最大にするような系列Ｎ_0:tを推定する問題に帰着する。雑音確率分布推定部２００は、観測信号の特徴量Ｘ_t１２４と、ＧＭＭ１３０と、状態空間モデル１６０と、雑音の状態遷移に関する上記の拘束条件パラメータ１３８とに基づきこの推定を行なう。その際、雑音確率分布推定部２００は、パーティクルフィルタと呼ばれる手法を用いる。この推定法は、ある状態空間モデルにより表現される状態空間内に、局限された状態空間（パーティクル）を多数生成して各パーティクルにおいてパラメータの確率分布を推定し、そして各パーティクルを用いて、状態空間内におけるパラメータの確率分布を近似的に表現する手法である。

観測信号分布推定部２０２は、観測信号分布のパラメータ２０８として、各パーティクルにおける観測信号分布の平均ベクトル及び共分散行列を算出する機能を持つ。観測信号分布のパラメータ２０８の算出には、例えば、ＶＴＳ（Vector Taylor Series）法と呼ばれるＨＭＭ合成法が用いられる。

クリーン音声推定部２０４は、フレームごとに、各パーティクルにおけるクリーン音声のパラメータを推定し、推定クリーン音声の特徴量１２６を、それら推定されたパラメータの重み付き和によって算出する機能を持つ。推定クリーン音声の特徴量１２６の算出には、例えば、最小２乗誤差（Minimum Mean Square Error：ＭＭＳＥ）推定法が用いられる。クリーン音声推定部２０４はさらに、雑音確率分布推定部２００に、次のフレームへの移行に関する要求２１０を発行する機能を持つ。

〈パーティクルフィルタ〉
以下に、パーティクルフィルタについて説明する。この手法では、多数のパーティクルにおける初期的なパラメータを、ランダムなサンプリングにより、又は当該パラメータの初期的な状態を表す確率分布からのサンプリングにより決定する。そして、以下の処理をフレームごとに行なう。すなわち、あるフレームに対応して各パーティクルにおいてパラメータが決定されると、まず、各パーティクルのパラメータを当該フレームに後続するフレームに対応するものに更新する。続いて、更新の尤度に応じて各パーティクルに対して重みを付与する。続いて、更新後のパーティクルにおけるパラメータの確率分布にしたがい、当該後続のフレームに対応する各パーティクルのパラメータを再サンプリングする。続いて、再サンプリングされたパラメータを基に、当該後続のフレームに対応する各パーティクルのパラメータを決定する。以上の処理をフレームごとに行なうことにより、逐次的に各パーティクルにおけるパラメータを決定する。

パーティクルフィルタにおいて、状態空間モデル１６０におけるパラメータはそれぞれ、パーティクルにおけるパラメータの重み付き和によって近似的に表現される。ここに、パーティクルの数をＪ個とし、第ｔフレームでの、ｊ（１≦ｊ≦Ｊ）番目のパーティクルにおける雑音の特徴量ベクトルをベクトルＮ_t ^(j)とする。さらに、第ｔフレームにおけるｊ番目のパーティクルに対する重みをｗ_t ^(j)とする。式（３）に示す事後確率分布ｐ（Ｎ_0:t｜Ｘ_0:t）は、次の式（４）に示すモンテカルロサンプリングにより近似的に表現される。

なお、この式においてδ（）は、Dirac-delta関数を表す。

ｊ番目のパーティクルにおける雑音の特徴量ベクトルの系列Ｎ_0:t ^(j)を出力する確率分布をｑ（Ｎ_0:t ^(j)｜Ｘ_0:t）とすると、パーティクルに対する重みｗ_t ^(j)は、次の式（５）により与えられる。

確率分布ｑ（Ｎ_0:t ^(j)｜Ｘ_0:t）は、次の式（６）に示す連鎖モデルで表現されるものとする。

また、上記の式（３）の事後確率分布ｐ（Ｎ_0:t｜Ｘ_0:t）は、ベイズ則により次の式（７）のように表現できる。

したがって、式（５）、式（６）、及び式（７）より、パーティクルに対する重みｗ_t ^(j)は、式（８）によって与えられることになる。

ここで、ｐ（Ｎ_t ^(j)｜Ｎ_t-1 ^(j)）＝ｑ（Ｎ_t ^(j)｜Ｎ_0:t-1 ^(j)，Ｘ_0:t）と仮定すると、式（８）より、式（９）が得られる。

式（９）のｐ（Ｘ_t｜Ｎ_t ^(j)）は、次の式（１０）に示す確率密度関数によりモデル化される。

雑音確率分布推定部２００は、雑音確率分布の推定パラメータ２０６として、パーティクルｊ（１≦ｊ≦Ｊ）ごとに、パーティクルにおける雑音の特徴量ベクトルＮ_t ^(j)に関する式（４）における確率密度関数ｐ（Ｎ_0:t ^(j)｜Ｘ_0:t）のパラメータと、そのパーティクルに対する重みｗ_t ^(j)とを、図３に示す状態空間モデル１６０に基づいて逐次的に算出する。確率密度関数ｐ（Ｎ_0:t ^(j)｜Ｘ_0:t）のパラメータは、そのパーティクルにおける雑音の特徴量ベクトルＮ_t ^(j)の平均ベクトル＾Ｎ_t ^(j)と共分散行列Σ_Nt ^(j)とを含む。以下、確率密度関数ｐ（Ｎ_0:t｜Ｘ_0:t）の平均ベクトル＾Ｎ_t ^(j)と共分散行列Σ_Nt ^(j)とを、「（ｊ番目の）パーティクルにおける雑音のパラメータ」と呼ぶ。

〈状態遷移過程に対する拘束条件〉
上記のとおり、式（２）に示す状態方程式では、雑音の特徴量ベクトルＮ_tの時間変化を正確に表現することはできない。そこで、本実施の形態では、各パーティクルにおける雑音の特徴量ベクトルＮ_t ^(j)（１≦ｊ≦Ｊ）の変化に対し、次の式（１１）に示す状態方程式を導入する。

この状態方程式（１１）において第１項と第２項とは、第ｔ＋１フレームにおけるパーティクルの散らばりを抑制するための拘束条件である。以下この拘束条件を第１の拘束条件と呼ぶ。また、状態方程式（１１）において第３項は、ｊ番目のパーティクルにおける雑音の特徴量ベクトルの時間推移に対する拘束条件である。以下、この拘束条件を第２の拘束条件と呼ぶ。

状態方程式（１１）においてαは忘却係数であり、βは第２の拘束条件に対するスケーリング係数である。

第１の拘束条件において、ベクトル＾Ｎ_tは、第ｔフレームの各パーティクルにおける雑音の特徴量ベクトルＮ_t ⁽¹⁾，…，Ｎ_t ^(J)の加重平均であり、次の式（１２）により与えられる。

すなわち、第１の拘束条件により、各パーティクルにおける雑音の特徴量ベクトルは、加重平均ベクトル＾Ｎ_tに近づくよう補正される。

第２の拘束条件において、ベクトルμ_Nt ^(j)は、ｊ番目のパーティクルにおける過去Ｔフレーム分の雑音の特徴量ベクトルＮ_t-T+1 ^(j)，…，Ｎ_t ^(j)の平均（Polyak Average）であり、次の式（１３）により与えられる。

すなわち、第２の拘束条件により、パーティクルにおける雑音の特徴量ベクトルにそれぞれ、そのパーティクルにおけるPolyak Averageベクトルμ_Nt ^(j)がフィードバックされる。本実施の形態では、式（１１）に示す状態方程式の忘却係数α及び第２の拘束条件に対するスケーリング係数βと、式（１３）におけるフレーム数Ｔとが、図１に示す拘束条件パラメータ１３８として与えられる。

雑音確率分布推定部２００は、観測方程式（１）と上記の状態方程式（１１）とにより表される状態空間モデルに基づくパーティクルフィルタを用いて、雑音確率分布の逐次推定を行なう。

〈雑音確率分布推定部２００の構成〉
図５に、雑音確率分布推定部２００の構成をブロック図で示す。図５を参照して、雑音確率分布推定部２００は、クリーン音声推定部２０４からの要求２１０を受けて、観測信号の特徴量１２４から処理対象となるフレームを選択し、当該フレームに対応する観測信号の特徴量１２４をフレームに応じた出力先に与えるためのフレーム選択部２２０を含む。

雑音確率分布推定部２００はさらに、フレーム選択部２２０から観測信号の特徴量１２４を受けて、初期的な状態における雑音を表す確率分布（以下、「雑音初期分布」と呼ぶ。）を推定し、多数（Ｊ個）のパーティクルについて、ｔ＝０のフレーム（以下、このフレームを「初期フレーム」と呼ぶ。）における雑音確率分布の推定パラメータ２０６を決定するための雑音初期分布推定部２２２と、フレーム選択部２２０から観測信号の特徴量１２４を受け、各パーティクルについて、ｔ（ｔ≧１）番目のフレームにおける雑音確率分布の推定パラメータ２０６を、逐次的に算出するための逐次計算部２２４とを含む。

フレーム選択部２２０は、要求２１０が与えられる度に、処理対象のフレームを順次選択する。フレーム選択部２２０は、処理対象として初期フレームを選択すると、観測信号の特徴量Ｘ_t１２４のうち最初の所定フレーム分（例えば１０フレーム分）を、雑音初期分布推定部２２２に与える。またフレーム選択部２２０は、処理対象としてその他（ｔ≧１）のフレームを選択すると、そのフレームにおける観測信号の特徴量Ｘ_t１２４を逐次計算部２２４に与える。

雑音初期分布推定部２２２は、雑音初期分布のパラメータを、以下のようにして推定する。

すなわち、雑音初期分布推定部２２２は、雑音初期分布が、単一正規分布であるものとみなして、雑音初期分布を推定する。雑音の初期値ベクトルをベクトルＮ₀とし、雑音初期分布をｐ（Ｎ₀）とする。雑音初期分布ｐ（Ｎ₀）における平均ベクトルをμ_Nとし、共分散行列を行列Σ_Nとすると、雑音初期分布ｐ（Ｎ₀）は次の式（１４）のように表される。

雑音初期分布推定部２２２は、最初の所定フレーム分の区間の観測信号の特徴量Ｘ_t１２４が雑音１２１の成分のみからなるものとみなし、式（１４）に示す雑音初期分布ｐ（Ｎ₀）の平均ベクトルμ_Nと共分散行列Σ_Nとを推定する。例えば、０≦ｔ≦９の１０フレーム分の区間が雑音１２１の成分のみからなる区間に該当する場合、雑音初期分布推定部２２２は、平均ベクトルμ_Nと共分散行列Σ_Nとをそれぞれ、次の式（１５）と式（１６）とによって算出する。ただし、式（１６）においてベクトルの右肩に付した「Ｔ」は転置を表す。

そして雑音初期分布推定部２２２は、初期フレーム（ｔ＝０）でのｊ番目のパーティクルにおける雑音のパラメータであるベクトルＮ₀ ^(j)と共分散行列Σ_N0 ^(j)とを、それぞれ、式（１７）及び式（１８）のように設定する。

すなわち、雑音初期分布推定部２２２は、ｊ番目のパーティクルにおける雑音の特徴量ベクトルＮ₀ ^(j)を、初期分布ｐ（Ｎ₀）からのサンプリングによって生成し、共分散行列Σ_N0 ^(j)を、初期分布ｐ（Ｎ₀）の共分散行列Σ_Nに設定する。雑音初期分布推定部２２２は、式（１７）と式（１８）とに示す設定をパーティクルｊ（１≦ｊ≦Ｊ）ごとに行なう。

逐次計算部２２４は、ＧＭＭ１３０から出力パラメータ２４０をサンプリングするためのＧＭＭサンプリング部２２６を含む。逐次計算部２２４はさらに、観測信号の特徴量１２４を受けて、各パーティクルにおける雑音のパラメータを更新するための更新部２３０と、更新後のパーティクルに対する重みを算出するための重み算出部２３２と、算出された重みに基づき、パーティクルにおける雑音のパラメータを再サンプリングするための再サンプリング部２３４と、再サンプリングされた各パーティクル及び第ｔ−１フレームにおける各パーティクルに基づき、各パーティクルにおける雑音のパラメータを決定し、雑音確率分布の推定パラメータ２０６を生成するための推定パラメータ生成部２３６とを含む。

ＧＭＭサンプリング部２２６は、パーティクルｊ（１≦ｊ≦Ｊ）ごとに、ＧＭＭ１３０（図２参照）内の混合分布１４０から、パーティクルに対応する要素分布ｋ_t ^(j)を、その混合重みに基づいてサンプリングする。ＧＭＭサンプリング部２２６はさらに、出力パラメータベクトルＳ^(j) _kt ^(j) _,tを、要素分布ｋ_t ^(j)からサンプリングして、更新部２３０に与える。ここにＧＭＭ１３０における要素分布１４８Ａ，…，１４８Ｋの混合重みをＰ_S,ktとすると、要素分布ｋ_t ^(j)は、混合重みＰ_S,ktを出力確率とする確率分布にしたがう。すなわち、ＧＭＭ１３０から次の式（１９）に示すサンプリングによって得られる。

要素分布ｋ_t ^(j)の平均ベクトルをベクトルμ_kt ^(j)とし、要素分布ｋ_t ^(j)の共分散行列を行列Σ_S,kt ^(j)とすると、ｊ番目のパーティクルにおけるＧＭＭ１３０の出力パラメータベクトルＳ^(j) _kt ^(j) _,tは、要素分布ｋ_t ^(j)から、次の式（２０）に示すサンプリングによって得られる。

なお、フレーム選択部２２０はさらに、ＧＭＭサンプリング部２２６に対し、第ｔフレームにおけるＧＭＭの出力パラメータのサンプリングを要求する機能を持つ。

更新部２３０は、上記の観測方程式（１）及び状態方程式（１１）からなる動的モデルを状態空間モデルとする拡張カルマンフィルタによって、第ｔ−１フレームに対応する各パーティクルにおける雑音のパラメータを、第ｔフレームに対応するものに更新する機能を持つ。この際、拘束条件パラメータ１３８と、状態空間モデル１６０（図３）と、ＧＭＭサンプリング部２２６によりサンプリングされた出力パラメータＳ^(j) _kt ^(j) _,tとを基にパラメータの更新を行なう。なお、拡張カルマンフィルタは、観測方程式（１）に示すように非線形項を含む状態空間モデルに対応したカルマンフィルタである。

図６に、更新部２３０の構成をブロック図で示す。図６を参照して、更新部２３０は、第ｔ−１フレームの雑音確率分布の推定パラメータ２０６を基に、第ｔ−１フレームについて、状態方程式（１１）の上記した第１の拘束条件に係る加重平均ベクトル＾Ｎ_t-1を上記の式（１２）を用いて算出するための加重平均算出部２５０を含む。

更新部２３０はさらに、第ｔ−１フレーム以前の各フレームについて、各パーティクルにおける雑音のパラメータを、パーティクルごとに蓄積するためのバッファメモリ部２５２と、バッファメモリ部２５２に蓄積された雑音のパラメータ及び拘束条件パラメータ１３８により定められるフレーム数Ｔを基に、各パーティクルについて、第ｔ−１フレームにおける、上記の式（１３）に示すＴフレーム分のPolyak Averageベクトルμ_Nt-1 ^(j)を算出するためのPolyak Average算出部２５４と、Polyak Averageベクトルμ_Nt-1 ^(j)と第ｔ−１フレームにおける雑音確率分布の推定パラメータ２０６とを基に、状態方程式（１１）の第２の拘束条件におけるフィードバック分に対応するベクトルを算出するための、フィードバック部２５６とを含む。フィードバック部２５６は、Polyak Averageベクトルμ_Nt-1 ^(j)と第ｔ−１フレームにおける平均ベクトル＾Ｎ_t-1 ^(j)との差分μ_Nt-1 ^(j)−＾Ｎ_t-1 ^(j)を算出する。

更新部２３０はさらに、観測方程式（１）と状態方程式（１１）とからなるモデルを状態空間モデルとする拡張カルマンフィルタを用いて、第ｔ−１フレームに対応するパーティクルにおける雑音のパラメータを、第ｔフレームに対応するものに更新するための拡張カルマンフィルタ部２５８とを含む。拡張カルマンフィルタ部２５８は、ｊ番目のパーティクルにおける雑音のパラメータの更新に、第ｔフレームにおける観測信号の特徴量Ｘ_t１２４と、ｊ番目のパーティクルにおけるＧＭＭ１３０（図２参照）の出力パラメータベクトルＳ^(j) _kt ^(j) _,tと、拘束条件パラメータ１３８として与えられる忘却係数α及びスケーリング係数βと、加重平均ベクトル＾Ｎ_t-1と、差分μ_Nt-1 ^(j)−＾Ｎ_t-1 ^(j)とを用いる。

本実施の形態における拡張カルマンフィルタの分布更新式を、以下の式（２１）〜式（２６）に示す。なお、これらの数式において第ｔ−１フレームに対応するパラメータから予測される第ｔフレームにおけるパラメータについては添え字として「_t|t-1」を付してある。

ただし、行列Σ_Wは、前述したとおり、第ｔ−１フレームから第ｔフレームへの状態変化の際に雑音の特徴量ベクトルＮ_tに生じるランダムガウス雑音ベクトルＷ_t-1の共分散行列を表す。

再び図５を参照して、重み算出部２３２は、第ｔフレームでの観測信号の特徴量ベクトルＸ_t１２４と、第ｔフレームの各パーティクルにおけるＧＭＭ１３０の出力パラメータベクトルＳ^(j) _kt ^(j) _,tと、当該フレームの当該パーティクルにおける雑音のパラメータである平均ベクトル＾Ｎ_t ^(j)及び共分散行列Σ_Nt ^(j)と、第ｔ−１フレームのパーティクルに対する重みｗ_t-1 ^(j)とを基に、上記の式（９）及び式（１０）に示す算出方法を用いて、第ｔフレームのパーティクルに対する重みｗ_t ^(j)を算出する機能を持つ。なお、重みｗ_t ^(j)（１≦ｊ≦Ｊ）は、Σ_j=1〜Ｊｗ_t ^(j)＝１となるように正規化される。

再サンプリング部２３４は、パラメータが更新されたパーティクルにおける雑音の確率分布にしたがい、第ｔフレームに対応する各パーティクルにおける雑音のパラメータを再サンプリングする機能を持つ。この際、再サンプリング部２３４は、微小な重みｗ_t ^(j)しか与えられていないパーティクルにおける雑音の確率分布からは、雑音のパラメータの再サンプリングを行なわない。一方、大きな重みｗ_t ^(j)が与えられているパーティクルにおける確率分布からは、重みｗ_t ^(j)の大きさに応じた回数再サンプリングを行ない、得られた雑音のパラメータをそれぞれ、当該再サンプリングの回数と同数のパーティクルに割当てる。ただし再サンプリングの全回数及びパーティクルの全数は一定（Ｊ）である。このようにするのは、各パーティクルに割当てられる重みが、上記の式（９）から分かるように観測信号の特徴量Ｘ_t１２４の尤度に対応しているからである。

推定パラメータ生成部２３６は、マルコフ連鎖モンテカルロ法のMetropolis-Hastingsアルゴリズムにより、第ｔフレームに対応するパーティクルを再生成する機能を持つ。図７に、推定パラメータ生成部２３６の構成をブロック図で示す。図７を参照して、推定パラメータ生成部２３６は、第ｔ−１フレームに対応する各パーティクルにおける雑音のパラメータを、第ｔフレームに対応するものに再更新するための再更新部２６２を含む。再更新部２６２は、再サンプリング部２３４による再サンプリングで得られた各パーティクルにおける雑音のパラメータを用いて、状態空間モデル１６０における雑音確率分布を生成する。そして、当該生成した確率分布と拘束条件パラメータ１３８とに基づき、図６に示す更新部２３０と同様の手法を用いて、上記の式（２１）〜式（２６）に示す分布更新式により表される拡張カルマンフィルタによって、各パーティクルにおける雑音のパラメータの再更新を行なう。

推定パラメータ生成部２３６はさらに、再更新されたパーティクルに対する重み（これを以下「ｗ_t ^*(j)」とする。）を上記の式（９）及び式（１０）に示す算出方法を用いて算出するための重み再計算部２６４を含む。

推定パラメータ生成部２３６はさらに、再サンプリングされたパーティクルに対する重みｗ_t ^(j)及び再更新されたパーティクルに対する重みｗ_t ^*(j)から、再更新された雑音のパラメータを許容するか否かの判定に用いる許容確率νを算出するための許容確率算出部２６６と、所定の乱数発生方法により０から１までの閉区間内の乱数ｕを発生させるための乱数発生部２６８と、許容確率νと乱数ｕとに基づき、第ｔフレームに対応するパーティクルにおけるパラメータとして、再サンプリングされたパーティクルにおける雑音のパラメータと、再更新されたパーティクルにおける雑音のパラメータとの一方を選択するためのパラメータ選択部２７０とを含む。

許容確率算出部２６６は、重みｗ_t ^(j)及び重みｗ_t ^*(j)から次の式（２７）にしたがって、許容確率νを算出する機能を持つ。

パラメータ選択部２７０は、乱数ｕが許容確率ν以下であれば、当該パーティクルにおける雑音のパラメータ及びその重みを再更新で得られた新たなパラメータ及びその重みに変更する機能を持つ。

〈コンピュータによる実現〉
以下の説明からも明らかなように、図１に示す音声認識システム１００の前処理部１０４、前処理用音響モデル部１０６、及び探索部１１０は、いずれもコンピュータハードウェアと、その上で実行されるプログラムと、コンピュータハードウェアに格納されたデータとにより実現可能である。図８に、前処理部１０４（図１参照）に含まれる雑音抑圧部１１４が行なう雑音抑圧処理を実現するコンピュータプログラムの制御構造をフローチャートで示す。

図８を参照して、雑音抑圧処理が開始されると、ステップ３０２において、初期状態における雑音の特徴量Ｎ₀の各要素の値に対応する初期分布を推定する。すなわち、上記の式（１５）及び式（１６）に示す算出方法により、式（４）に示す雑音初期分布ｐ（Ｎ₀）のパラメータである平均ベクトルμ_N及び共分散行列Σ_Nを算出する。さらに、式（１７）及び式（１８）にしたがい雑音初期分布ｐ（Ｎ₀）からベクトルＮ₀ ^(j)（ｊ＝１，…，Ｊ）をサンプリングし、初期フレームの各パーティクルにおける雑音のパラメータを推定する。

ステップ３０４では、雑音抑圧の対象となるフレームを次のフレームに移行させる。以下の説明では、移行後のフレームが第ｔフレームであるものとする。ステップ３０６では、パーティクルフィルタを用いて、処理対象のフレームについて、各パーティクルにおける雑音のパラメータを推定する。すなわち、確率密度関数ｐ（Ｎ_0:t ^(j)｜Ｘ_0:t）のパラメータである平均ベクトル＾Ｎ_t ^(j)及び共分散行列Σ_Nt ^(j)を推定し、さらに、各パーティクルに対する重みｗ_t ^(j)を定めて、雑音確率分布の推定パラメータ２０６を生成する。このステップでの処理については、図９を用いて後述する。

ステップ３０８では、観測信号分布のパラメータ２０８を推定する。すなわち、ステップ３０６で定めた各パーティクルの雑音のパラメータ＾Ｎ_t ^(j)、及びΣ_Nt ^(j)を用いて、各パーティクルにおける観測信号の特徴量Ｘ_t１２４の確率分布を推定する。さらに、ＧＭＭ１３０を構成する要素分布ｋ（１≦ｋ≦Ｋ）ごとに、パーティクルにおける観測信号の特徴量Ｘ_t１２４の確率分布の平均ベクトルμ_Xkt ^(j) _,tと、共分散行列Σ_Xk,t ^(j)とを算出する。

ステップ３１０では、ＭＭＳＥ推定法により、第ｔフレームにおける推定クリーン音声の特徴量１２６を算出する。すなわちまず、ステップ３０６及びステップ３０８の処理で得られたパラメータを用いて、ＭＭＳＥ推定法によって、ＭＭＳＥ推定値ベクトル＾Ｓ_tを算出し、推定クリーン音声の特徴量１２６（図１参照）として出力する。

この式において、Ｐ（ｋ｜Ｘ_t，（ｊ））は、ｊ番目のパーティクルにおける、ＧＭＭ１３０内の要素分布ｋに対する混合重みを表す。混合重みＰ（ｋ｜Ｘ_t，（ｊ））は、次の数式により算出される。

ステップ３１２では、終了判定を行なう。すなわち第ｔフレームが最終のフレームであれば雑音抑圧処理を終了する。さもなければステップ３０４に戻る。

図９に、ステップ３０６（図８参照）において行なわれる雑音確率分布の推定パラメータ２０６の生成処理を実現するプログラムの制御構造をフローチャートで示す。図９を参照して、雑音確率分布の推定パラメータの生成処理が開始されると、ステップ３２０において、拡張カルマンフィルタによる更新を行なう際の雑音１２１の状態遷移過程に対する第１及び第２の拘束条件に係るパラメータベクトルを算出する。すなわち、第ｔ−１フレームのパーティクルでの雑音のパラメータの加重平均ベクトル＾Ｎ_t-1を式（１２）を用いて算出する。そして、パーティクルの各々において、過去Ｔフレーム分の当該パーティクルにおける雑音のパラメータからPolyak Averageベクトルμ_Nt-1 ^(j)を算出し、平均ベクトル＾Ｎ_t-1 ^(j)との差分μ_Nt-1 ^(j)−＾Ｎ_t-1 ^(j)を算出する。

ステップ３２２では、式（２１）〜式（２６）に示す拡張カルマンフィルタを用いて、第ｔ−１フレームのパーティクルにおける雑音確率分布から、第ｔフレームの各パーティクルにおける雑音のパラメータを推定する。

ステップ３２４では、第ｔフレームの各パーティクルに対する重みｗ_t ^(j)を、式（９）及び式（１０）によって算出する。そして、重みｗ_t ^(j)を正規化する。ステップ３２６では、各パーティクルに対する重みｗ_t ^(j)を基に、各パーティクルからの再サンプリングの回数を決定し、当該パーティクルにおける雑音確率分布に基づいてパラメータを再サンプリングする。ステップ３２８では、Metropolis-Hastingsアルゴリズムを用いて第ｔフレームのパーティクルを再生成する。

図１０にステップ３２８（図９参照）における処理の詳細をフローチャートで示す。図１０を参照して、ステップ３２８における処理が開始されると、ステップ３４０において、図９に示すステップ３２０と同様に、加重平均ベクトル＾Ｎ_t-1を、式（１２）に示す算出方法で算出する。そして、パーティクルの各々において、過去Ｔフレーム分の当該パーティクルにおける雑音のパラメータからPolyak Averageベクトルμ_Nt-1 ^(j)を算出し、平均ベクトル＾Ｎ_t-1 ^(j)との差分μ_Nt-1 ^(j)−＾Ｎ_t-1 ^(j)を算出する。

続くステップ３４２では、ステップ３２６（図９参照）での再サンプリングで得られた各パーティクルにおける雑音パラメータにより表現される雑音確率分布を用いて、式（２１）〜式（２６）に示す拡張カルマンフィルタにより、各パーティクルにおける雑音のパラメータの再更新を行なう。すなわち、第ｔフレームのパーティクルを新たに準備し、ステップ３２２（図９参照）での処理と同様の処理により、第ｔ−１フレームのパーティクルに対応するパラメータから、第ｔフレームのパーティクルに対応するパラメータへの再更新を行ない、準備したパーティクルのパラメータに設定する。ステップ３４４では、ステップ３４２で準備したパーティクルに対する重みｗ_t ^*(j)を、図９に示すステップ３２４の処理と同様の処理で算出し正規化する。

ステップ３４６では、ステップ３２４の処理で算出された重みｗ_t ^(j)と、ステップ３４４で算出された重みｗ_t ^*(j)との比較により、ステップ３４２で準備されたパーティクルの許容確率νを定める。ステップ３４８では、区間［０，１］の値からなる一様な集合Ｕ_[0,1]の中から任意の値を選択することにより乱数ｕを発生する。ステップ３５０では、ステップ３４８で発生した乱数ｕの値と、ステップ３４６で定めた許容確率νの値とを比較する。ｕが許容確率の値以下であれば、ステップ３５２へ進む。さもなければステップ３５４に進む。ステップ３５２では、ステップ３４２で準備されたパーティクルを許容する。すなわち、ステップ３２６での再サンプリングで得られたパラメータを、準備されたパーティクルのパラメータで置換して処理を終了する。ステップ３５４では、ステップ３４２で準備されたパーティクルを棄却する。すなわち、準備されたパーティクル及びそのパラメータを棄却し、処理を終了する。

［動作］
本実施の形態に係る音声認識システム１００は以下のように動作する。

まず、図５に示す雑音確率分布推定部２００が、初期フレーム（ｔ＝０）における雑音確率分布の推定パラメータ２０６を生成する動作について説明する。図１に示す計測部１１２が、音源１０２から雑音重畳音声１２２を受け、観測信号の特徴量Ｘ_t１２４を抽出する。抽出された特徴量Ｘ_t１２４は、雑音抑圧部１１４の図５に示す雑音確率分布推定部２００に与えられる。図５を参照して、雑音確率分布推定部２００のフレーム選択部２２０は、特徴量Ｘ_t１２４のうち最初の１０フレーム分を、雑音初期分布推定部２２２に与える。雑音初期分布推定部２２２は、上記の式（１４）〜式（１６）に示す処理により雑音初期分布ｐ（Ｎ₀）を推定する。さらに、雑音初期分布ｐ（Ｎ₀）から、上記の式（１７）及び式（１８）に示すサンプリングをＪ回行なう。このサンプリングによって、各パーティクルにおける雑音の初期的なパラメータであるベクトルＮ₀ ^(j)及び共分散行列Σ_N0 ^(j)が決定される。雑音確率分布推定部２００は、これらのパラメータを、初期フレームにおける雑音確率分布の推定パラメータ２０６として出力する。

次に、雑音確率分布推定部２００の逐次推定部２２４が、第ｔフレーム（ｔ≧１）における雑音確率分布の推定パラメータ２０６を生成する動作について説明する。図５を参照して、次のフレームの処理の開始要求２１０に応答して、フレーム選択部２２０は、ＧＭＭサンプリング部２２６に、第ｔフレームにおけるＧＭＭの出力パラメータのサンプリングを要求するとともに、観測信号の特徴量Ｘ_t１２４を更新部２３０に与える。

ＧＭＭサンプリング部２２６は、ＧＭＭ１３０から、出力パラメータベクトルＳ^(j) _kt ^(j) _,tのサンプリングを行なう。例えば、ｊ番目のパーティクルにおいて、ＧＭＭサンプリング部２２６が、図２に示すＧＭＭ１３０内の混合正規分布１４０の中から、混合重みにしたがった確率で要素分布ｋ_t ^(j)のサンプリングを行なう。その結果、要素分布ｋ_t ^(j)として、要素分布１５０がサンプリングされたものとする。ＧＭＭサンプリング部２２６はさらに、要素分布ｋ_t ^(j)により表される出力確率の分布にしたがい、出力パラメータベクトルＳ^(j) _kt ^(j) _,tをサンプリングする。ＧＭＭサンプリング部２２６は、総数Ｊの各パーティクルにおける出力パラメータベクトルＳ^(j) _kt ^(j) _,tをそれぞれ、以上の手順でサンプリングし、図５に示す更新部２３０に与える。

図１１に、逐次計算部２２４によるパラメータの更新、及び再サンプリングの概要を模式的に示す。図１１においては、ある雑音のパラメータが左右方向に分布し、時間が上から下に進行する。また、図１１においては、パーティクルを白抜きの丸印と黒塗りの丸印とによって模式的に示す。例えば、白抜きの丸印で示すパーティクルが重みｗ_t ^(j)の値の微小なパーティクルであり、黒塗りの丸印で示すパーティクルが重みｗ_t ^(j)の値の大きなパーティクルであるものとする。

図１１を参照して、第ｔ−１フレームに対応するパーティクルにより状態空間４２０が近似的に表現されているものとする。更新部２３０は、以下のようにして、状態空間４２０内の各パーティクルにおける雑音のパラメータを、第ｔフレームに対応する状態空間４３０内の各パーティクルにおける雑音のパラメータに更新する。

まず、図６に示す更新部２３０の拡張カルマンフィルタ部２５８は、第ｔ−１フレームの各パーティクルにおける推定確率分布の推定パラメータ２０６を取得する。取得された推定確率分布の推定パラメータ２０６は、加重平均算出部２５０、バッファメモリ２５２、及びフィードバック部２５６に与えられる。なお、この時点で、バッファメモリ２５２には、少なくとも第ｔ−１フレーム以前のＴフレーム分について、推定確率分布の推定パラメータ２０６が格納されている。

図６に示す加重平均算出部２５０は、推定確率分布の推定パラメータ２０６が与えられると、式（１２）に示す加重平均ベクトル＾Ｎ_t-1を算出する。この加重平均ベクトル＾Ｎ_t-1をに基づき、式（１１）に示す状態方程式における第１の拘束条件を導入して、雑音の平均ベクトルを補正すると、補正後の雑音確率分布における雑音のパラメータは、補正前の平均ベクトル＾Ｎ_t-1 ^(j)より、加重平均ベクトル＾Ｎ_t-1に近づく。したがって、パーティクルの散らばりが抑制される。

新たな推定確率分布の推定パラメータ２０６がバッファメモリ部２５２に蓄積されると、Polyak Average算出部２５４は、バッファメモリ部２５２に蓄積されているＴフレーム分の推定確率分布のパラメータ２０６を用いて、各パーティクルにおける式（１３）に示すPolyak Averageベクトルμ_Nt ^(j)を算出する。算出したPolyak Averageベクトルμ_Nt-1 ^(j)は、フィードバック部２５６に与えられる。フィードバック部２５６は、各パーティクルにおいて、Polyak Averageベクトルμ_Nt-1 ^(j)と、平均ベクトル＾Ｎ_t-1 ^(j)との差分μ_Nt-1 ^(j)−＾Ｎ_t-1 ^(j)を算出する。なお、バッファメモリ部２５２に推定確率分布の推定パラメータ２０６がＴフレーム分蓄積されていない場合、Polyak Average算出部２５４は、バッファメモリ部２５２に蓄積されているだけのフレーム分の雑音確率分布の推定パラメータ２０６を用いて、Polyak Averageベクトルμ_Nt ^(j)を算出する。

図１２に、Polyak Average及びフィードバックの概念を模式的に示す。図１２（Ａ）及び（Ｂ）はいずれも、ｊ番目のパーティクルにおけるPolyak Averageベクトルμ_Nt ^(j)とそのパーティクルに対応する雑音の特徴量ベクトルＮ_t-4 ^(j)，…，Ｎ_t+1 ^(j)との関係を表している。なお、図１２（Ａ）は、雑音の特徴量ベクトルの時間遷移が緩やかである場合を示し、図１２（Ｂ）は、時間遷移が激しい場合を示す。これらの図において、時間は左から右に進行し、雑音の特徴量は上下方向に変化する。図１２（Ａ）及び図（Ｂ）においては、第ｔフレームにおけるPolyak Averageベクトルμ_Nt ^(j)を、白抜きの丸印で示す。なお、この図に示すPolyak Averageベクトルμ_Nt ^(j)においては、Ｔ＝５フレーム分であるものとする。

図１２（Ａ）を参照して、第ｔ−１フレームにおける雑音の特徴量Ｎ_t-1 ^(j)と、Polyak Averageベクトルμ_Nt ^(j)との間には、差分μ_Nt ^(j)−Ｎ_t ^(j)が生じる。図１２（Ｂ）に示すような時間遷移の激しい場合においても同様に、雑音の特徴量Ｎ_t ^(j)と、Polyak Averageベクトルμ_Nt ^(j)との間には、差分μ_Nt ^(j)−Ｎ_t ^(j)が生じる。図１２（Ａ）における雑音の特徴量ベクトルＮ_t-4 ^(j)，…，Ｎ_t ^(j)の変動に比べて、図１２（Ｂ）における雑音の特徴量ベクトルＮ_t-4 ^(j)，…，Ｎ_t ^(j)の変動は大きい。すなわち図１２（Ａ）における雑音の特徴量ベクトルＮ_t-4 ^(j)，…，Ｎ_t ^(j)同士の差異は、図１２（Ｂ）における当該それらの差異より小さい。

Polyak Averageベクトルμ_Nt ^(j)は、Ｎ_t-4 ^(j)，…，Ｎ_t ^(j)の平均である。そのため、Polyak Averageベクトルμ_Nt ^(j)のとり得る範囲は、Ｎ_t-4 ^(j)，…，Ｎ_t ^(j)の最小から最大までの範囲である。したがって、図１２（Ａ）に示すように、これらの特徴量ベクトル同士の差異が小さければ、その分Polyak Averageベクトルμ_Nt-1 ^(j)のとり得る範囲は狭くなる。差分μ_Nt-1 ^(j)−Ｎ_t-1 ^(j)の変動幅は自ずから小さくなる。これに対して、図１２（Ｂ）に示すように雑音の特徴量ベクトル同士の差異が大きければ、その分Polyak Averageベクトルμ_Nt ^(j)のとり得る範囲は広くなる。差分μ_Nt ^(j)−Ｎ_t ^(j)の変動幅も自ずから大きくなる。すなわち、差分μ_Nt ^(j)−Ｎ_t ^(j)は、過去Ｔフレーム分の雑音の変化を反映する。この差分に基づき、次のフレームにおける雑音の特徴量ベクトルＮ_t+1 ^(j)を予測すると、過去Ｔフレーム分の雑音の変化が反映された特徴量ベクトルが得られる。

拡張カルマンフィルタ部２５８（図６参照）は、加重平均ベクトル＾Ｎ_t-1と、差分ベクトルμ_Nt-1 ^(j)−Ｎ_t-1 ^(j)と、拘束条件パラメータ１３８により定められる忘却係数α及びスケーリング係数βと、観測信号の特徴量Ｘ_t１２４と、出力パラメータ２４０とを基に、式（２１）〜式（２６）により示す拡張カルマンフィルタによって各パーティクルの更新を行なう。

この更新において、式（２１）に示す、雑音の一期先予測パラメータＮ_t|t-1 ^(j)においては、＾Ｎ_t-1 ^(j)の散らばりが抑制される。また、過去Ｔフレーム分のパラメータの変動がフィードバックされる。すなわち、過去の変動が大きかった場合には、一期先予測パラメータＮ_t|t-1 ^(j)の変動も大きくなる。反対に過去の変動が小さかった場合には、一期先予測パラメータＮ_t|t-1 ^(j)の変動も小さくなる。したがって、パラメータの時間推移に対する拘束条件が、過去のパラメータの変動によって強化される。

以上のようにして、各パーティクルの更新を行なわれることにより、図１１に示す状態空間４２０内の各パーティクルは更新され、パラメータが更新されたパーティクルにより第ｔフレームに対応する状態空間４３０が表現される。

これに応答して、重み算出部２３２が、状態空間４３０内の各パーティクルに対する重みｗ_t ^(j)を、式（２２）及び式（２３）によって算出する。再サンプリング部２３４は、重みｗ_t ^(j)に基づき、パーティクルにおける雑音のパラメータを再サンプリングする。この際、再サンプリング部２３４はまず、状態空間４３０内の各パーティクルからの再サンプリングの回数を、パーティクルに対する重みｗ_t ^(j)に応じてパーティクルごとに設定する。白抜きの丸印で表される重みの微小なパーティクルからのサンプリングの回数を０に設定する。また、黒塗りの丸印で表される重みの大きなパーティクルからのサンプリングの回数を、重みの大きさに応じて１〜３に設定する。続いて、状態空間４３０内のパーティクルにおける雑音確率分布に基づき、設定された回数ずつ、雑音のパラメータの再サンプリングを行なう。このようにして、第ｔフレームに対応する新たな状態空間４４０を表現するパーティクルがそれぞれ形成される。

再サンプリング部２３４によるこのような再サンプリングが繰返し行なわれると、あるフレームに対応するパーティクルの多くにおける雑音のパラメータが、それ以前の時点のフレームに対応する少数のパーティクルにおける雑音のパラメータの確率分布からサンプリングされたものとなるおそれがある。そこで、推定パラメータ生成部２３６は、Metropolis-Hastingsアルゴリズムを用いて、新たに第ｔフレームに対応するパーティクルにおけるパラメータを生成することにより、このような事態を防止する。図７に示す再更新部２６２は、状態空間４４０における雑音確率分布にしたがい、第ｔ−１フレームに対応する状態空間４２０内のパーティクルにおける雑音のパラメータを再更新する。重み再計算部２６４は、再更新されたパーティクルに対する重みｗ_t ^*(j)を算出する。許容確率算出部２６６は、再更新されたパーティクルに対する重みｗ_t ^*(j)と、再サンプリングされたパーティクルに対する重みｗ_t ^(j)とを基に、許容確率νを算出する。パラメータ選択部２７０は、許容確率νと、乱数発生部２６８が発生した［０，１］の区間の乱数ｕとを比較し、乱数ｕが許容確率ν以下であれば、再サンプリングされたパーティクルにおけるパラメータを、再更新されたパーティクルにおけるパラメータで置換する。さもなければ、再更新されたパーティクルにおけるパラメータを棄却する。

以上のような動作をフレームごとに繰返すことにより、各フレームに対応して、各パーティクルにおける雑音のパラメータである、平均ベクトル＾Ｎ_t ^(j)及び共分散行列Σ_Nt ^(j)が推定される。各パーティクルにおける雑音のパラメータである平均ベクトル＾Ｎ_t ^(j)及び共分散行列Σ_Nt ^(j)と、各パーティクルに対する重みｗ_t ^(j)とが、雑音確率分布の推定パラメータ２０６となる。雑音確率分布推定部２００は、雑音確率分布の推定パラメータ２０６と観測信号の特徴量ベクトルＸ_t１２４とを、フレームごとに、図４に示す観測信号分布推定部２０２に与える。

図４を参照して、観測信号分布推定部２０２は、観測信号分布のパラメータ２０８として、ＶＴＳ法によって、第ｔフレームに対応する各パーティクルにおける観測信号分布の平均ベクトル及び共分散行列を生成する。これにより、各パーティクルにおいて雑音の確率分布と観測信号の確率分布とが推定されたことになる。クリーン音声推定部２０４は、ＭＭＳＥ推定法により、第ｔフレームに対応する各パーティクルにおいて、クリーン音声１２０のＭＭＳＥ推定値ベクトル＾Ｓ_t ^(j)を算出する。さらに、ＭＭＳＥ推定値ベクトル＾Ｓ_t ^(j)と重みｗ_t ^(j)とを用いて、第ｔフレームにおける推定クリーン音声の特徴量ベクトル＾Ｓ_t１２６を算出し、図１に示す探索部１１０に出力する。

図１に示す探索部１１０は、推定クリーン音声の特徴量ベクトル＾Ｓ_t１２６を用いて、認識用音響モデル部１０９に保持された音響モデルと、言語モデル部１０８に保持された言語モデルとを基に、適合する目的言語の単語等を探索し、その結果を認識出力１２８として出力する。

［第２の実施の形態］
式（１）に示す観測方程式と式（１１）に示す状態方程式とに基づく状態空間モデル１６０（図３参照）は、過去の第ｔフレームでのｊ番目のパーティクルにおける雑音の特徴量ベクトルＮ_t ^(j)の時間変化状況に応じて未来のパラメータを予測するモデルである。第１の実施の形態においては、拘束条件パラメータ１３８（図１参照）を時間固定のものとして扱っており、状態方程式（１１）を時間変化に対して定常的なものとして、未来のパラメータを予測した。しかし、非定常雑音の時間変化の様相は時々刻々と変化するため、拘束条件パラメータもまた、時間の経過に伴い変化することが望ましい。そこで、以下に説明する第２の実施の形態では、それぞれ異なるパラメータの設定された複数の状態空間モデルの中から、未来予測に最適な状態空間モデルをフレームごとに選ぶ。そして各フレームにおいて選択した状態空間モデルを適用し、パーティクルの更新を行なう。

［構成］
図１３に、本実施の形態に係る音声認識システムにおいて、図１に示す前処理部１０４に代えて用いられる前処理部５００の構成を示す。図１３を参照して、前処理部５００は、図１に示す前処理部１０４のものと同一の計測部１１２と、ＧＭＭ１３０を用い、複数の状態空間モデルを選択的に適用して計測部１１２の出力する観測信号の特徴量１２４に含まれる雑音の成分を抑圧するための雑音抑圧部５１０とを含む。雑音抑圧部５１０は、図１に示す前処理部１０４と異なり、拘束条件パラメータとして所与のものを使用しない。その代り雑音抑圧部５１０は、後述のとおり、フレームの移行時に逐次的に拘束条件パラメータを決定し、当該拘束条件パラメータを使用して雑音の抑圧を行なう。

図１４に、本実施の形態に係る雑音抑圧部５１０の構成をブロック図で示す。図１４を参照して、雑音抑圧部５１０は、第１の実施の形態に係る雑音抑圧部１１４のものとそれぞれ同一の雑音確率分布推定部２００、観測信号分布推定部２０２、及びクリーン音声推定部２０４を含む。雑音抑圧部５１０はさらに、クリーン音声推定部２０４により発行される次のフレームへの移行に関する要求２１０を受けるように接続され、フレームが移行する度にそのフレームに対応する拘束条件パラメータ５２２を決定し、雑音確率分布推定部２００に与えるための拘束条件パラメータ決定部５２０を含む。

図１５に、拘束条件パラメータ決定部５２０の構成をブロック図で示す。拘束条件パラメータ決定部５２０は、要求２１０を受ける度に忘却係数α、スケーリング係数β、及びフレーム数Ｔの値をそれぞれ決定するためのα決定部５３０、β決定部５３２、及びＴ決定部５３４と、α決定部５３０により決定された忘却係数α、β決定部５３２により決定されたスケーリング係数β、及びＴ決定部５３４により決定されたフレーム数Ｔを、拘束条件パラメータ５２２として出力し雑音確率分布推定部２００（図１４参照）に与えるための拘束条件パラメータ出力部５３６とを含む。

α決定部５３０、β決定部５３２、及びＴ決定部５３４はそれぞれ、忘却係数α、スケーリング係数β、及びフレーム数Ｔのとり得る値を一覧にしたα状態−パラメータ表５４０、β状態−パラメータ表５４４、及びＴ状態−パラメータ表５４８と、要求２１０を受ける度にα状態−パラメータ表５４０、β状態−パラメータ表５４４、及びＴ状態−パラメータ表５４８を用いてそれぞれ、忘却係数α、スケーリング係数β、及びフレーム数Ｔの値をエルゴディックモデルによる確率分布にしたがって選択し出力するためのエルゴディックモデル部５４２、５４６、及び５５０とを含む。

α状態−パラメータ表５４０、β状態−パラメータ表５４４、及びＴ状態−パラメータ表５４８の例を、それぞれ図１６（Ａ）、（Ｂ）、及び（Ｃ）に示す。図１６（Ａ）を参照して、α状態−パラメータ表５４０の各行は、忘却係数αの状態に対応している。また、α状態−パラメータ表５４０には、状態番号の欄と、忘却係数αの欄とが設けられている。すなわち、α状態−パラメータ表５４０は、忘却係数αが４つの状態を有し、一つの状態が一つの状態番号と忘却係数αのとり得る一つのパラメータ値との組により構成されていることを表す。なお状態番号は、対応のパラメータ値が小さな状態ほど若い番号となるように予め付与される。

図１６（Ｂ）に示すβ状態−パラメータ表５４４、及び図１６（Ｃ）に示すＴ状態−パラメータ表５４８もまた、α状態−パラメータ表５４０と類似の構成である。ただし、列挙されているパラメータ値はそれぞれ、スケーリング係数βに対応するもの、及びフレーム数Ｔに対応するものになっている。

図１７に、忘却係数αの状態遷移過程を模式的に示す。図１７を参照して、忘却係数αの状態遷移過程は、エルゴディックモデルによってモデル化されている。忘却係数αを出力しうる状態番号１〜４の状態がある。これらの状態はそれぞれ、α状態−パラメータ表５４０により、忘却係数αのとり得るパラメータ値に対応している。フレームが移行する度に、これらの状態のうち一つが忘却係数αのパラメータ値を出力する。フレーム移行前の状態からある確率で他の状態に状態が遷移し、遷移先の状態がパラメータαを出力する。この状態遷移を矢印で示す。本実施の形態では、自己ループを含めすべての状態の間の遷移が許容される。

エルゴディックモデル部５４２は、忘却係数αの状態を、フレーム移行の度に状態番号１〜４のいずれかの状態へ遷移させることによって、各フレームにおける忘却係数αの値を決定する。

エルゴディックモデル部５４２、５４６、及び５５０は、対応のパラメータが異なることを除けば、いずれも同一の機能を有し独立に動作する。エルゴディックモデル部５４２、５４６、及び５５０を代表して、α決定部５３０のエルゴディックモデル部５４２の構成を図１８にブロック図で示す。図１８を参照して、エルゴディックモデル部５４２は、α状態−パラメータ表５４０における各状態の状態番号と所定のパラメータγ（１≧γ＞０）５７０とをもとに、各状態間の遷移に対し状態遷移確率を割当てるための状態遷移確率割当部５７２と、状態遷移確率割当部５７２が割当てた状態遷移確率を一覧にした状態遷移確率表５７４と、フレーム移行の要求２１０を受ける度に、状態遷移確率表５７４を用いてフレーム移行前の状態から各状態への状態遷移確率を決定するための状態遷移確率決定部５６２と、状態遷移確率決定部５６２が決定したフレーム移行前の状態から各状態への状態遷移確率をもとにフレーム移行後の状態を選択し、その状態番号を出力するための状態遷移部５６４と、状態遷移部５６４により出力された状態番号を記憶するための状態番号記憶部５６０と、状態遷移部５６４により出力された状態番号に対応するパラメータ値をα状態−パラメータ表５４０から読出して、拘束条件パラメータ出力部５３６に出力するためのパラメータ読出部５６６とを含む。

状態遷移確率割当部５７２は、α状態−パラメータ表５４０が準備された時点で、α状態−パラメータ表５４０の状態のうちの任意の二つの組合せに対し、当該二つの状態の状態番号の差の絶対値の単調減少関数として、当該二つの状態間での状態遷移確率を決定する。図２０に、状態番号とパラメータの値との関係を概略的に示す。図２０を参照して、第ｔフレーム及び第ｔ＋１フレームにおける状態の状態番号をそれぞれ、ｍ_t ^(j)、ｎ_t+1 ^(j)とする。状態遷移確率割当部５７２は、α状態−パラメータ表５４０（図１６（Ａ）参照）の行ごとに、状態番号ｍ_t ^(j)からその行の状態番号をｎ_t+1 ^(j)とした場合の状態番号の変化量ｄ_mn,t ^(j)＝｜ｎ_t+1 ^(j)−ｍ_t ^(j)｜を算出する。そしてパラメータγ５７０を用い、次の数式によって、自己ループへの状態遷移確率を１とした場合の状態ｍ_t ^(j)から状態ｎ_t+1 ^(j)への状態遷移確率の相対量（以下、この量を「（状態遷移確率の）割当量」と呼ぶ。）ａ_mn,t ^(j)を決定する。

そして、Σ_nａ_mn,t ^(j)＝１となるよう割当量ａ_mn,t ^(j)を正規化し、正規化後の割当量ａ_mn,t ^(j)を、ｍ_t ^(j)とｎ_t+1 ^(j)との間の状態遷移確率とし、状態遷移確率表５７４に格納する。

図１９に状態遷移確率表５７４の一例を示す。図１９を参照して、この状態遷移確率表５７４は、状態数４のエルゴディックモデルにおいて、パラメータγ５７０の値を０．５に設定した場合の各状態間の状態遷移確率を示すものである。状態遷移確率表５７４の各行は遷移前の状態に対応しており、各欄は遷移先の状態に対応している。状態遷移確率表５７４のどの行においても、その行の状態番号と同じ状態番号に対応する欄に格納される状態遷移確率が、状態遷移確率の最大値をとっている。すなわち、他の状態に遷移するよりも自己ループする確率がより高く設定される。

再び図１８を参照して、状態遷移確率決定部５６２は、要求２１０が与えられる度に、状態番号記憶部５６０に記憶されている状態番号を参照し、さらに、状態遷移確率表５７４の当該状態番号の行を読出して、状態遷移部５６４に与える。

状態遷移部５６４は、状態遷移確率表５７４の、状態遷移確率決定部５６２より与えられた行における各欄に表される状態遷移確率にしたがったモンテカルロサンプリングにより、遷移先の状態を選択し、選択した状態の状態番号を状態番号記憶部５６０及びパラメータ読出部５６６に与える機能を持つ。パラメータ読出部５６６は、状態遷移部５６４により出力された状態番号に対応する状態のパラメータ値を、α状態−パラメータ表５４０より読出して出力する機能を持つ。状態番号記憶部５６０は、状態遷移部５６４が出力した状態番号を記憶する。この番号は、次のフレーム移行時に、状態遷移確率決定部５６２により参照される。

〈コンピュータによる実現〉
以下の説明からも明らかなように、図１３に示す前処理部５００は、図１に示す前処理部１０４と同様に、コンピュータハードウェアと、その上で実行されるプログラムと、コンピュータハードウェアに格納されたデータとにより実現可能である。図２１に、前処理部５００に含まれる雑音抑圧部５１０（図１４参照）が行なう雑音抑圧処理を実現するコンピュータプログラムの制御構造をフローチャートで示す。

図２１を参照して、本実施の形態に係る雑音抑圧処理を実現するコンピュータプログラムの制御構造は、図８に示す第１の実施の形態に係る雑音抑圧処理を実現するコンピュータプログラムの制御構造と類似する。ただし、本実施の形態に係る雑音抑圧処理においては、ステップ３０４において次のフレームへ処理対象を移行した後、ステップ６００に進む。ステップ６００では、移行後のフレームで雑音の確率分布の推定に使用する拘束条件パラメータ５２２を決定し、ステップ３０６に進む。なお、ステップ３０６では、ステップ６００で決定された拘束条件パラメータ５２２を使用して処理を行なうことになる。

ステップ６００において、拘束条件パラメータ５２２を決定する処理は、忘却係数α、スケーリング係数β、及びフレーム数Ｔに対し、同様の処理がそれぞれ独立に実行される。図２２に、これら独立に実行される処理を代表して、忘却係数αを決定する処理の制御構造をフローチャートで示す。図２２を参照して、忘却係数αを決定する処理が開始されると、ステップ６２０において、予め記憶しておいた移行前のフレームにおいて忘却係数αを出力した状態の状態番号ｍ_t-1 ^(j)を取得する。ステップ６２２では、状態遷移確率表５７４（図１９参照）の、ステップ６２０で取得した状態番号に対応する行を参照し、状態番号ｍ_t-1 ^(j)の状態と各状態との間の状態遷移確率の割当を読出す。

ステップ６２４では、ステップ６２２で読出した状態遷移確率にしたがい、状態番号ｎ_t ^(j)に関するモンテカルロサンプリングを実行し、サンプリングにより選択された状態番号ｎ_t ^(j)の状態を遷移先の状態として選択する。ステップ６２６では、ステップ６２４で選択された状態番号ｎ_t ^(j)の状態から忘却係数αの値を出力し、処理を終了する。

［動作］
本実施の形態に係る雑音抑圧部５１０は、フレーム移行の要求がある度に拘束条件パラメータ決定部５２０が拘束条件パラメータ５２２を決定し更新する。また、雑音確率分布推定部２００は、式（１１）に示す状態方程式における第１の拘束条件を導入して、雑音の平均ベクトルを補正する際各パーティクルにおける式（１３）に示すPolyak Averageベクトルμ_Nt ^(j)を算出する際、並びに式（２１）〜式（２６）により示す拡張カルマンフィルタによって各パーティクルの更新を行なう際に、更新された拘束条件パラメータ５２２を使用して処理を実行する。これらの点を除き、雑音抑圧部５１０は、第１の実施の形態に係る雑音抑圧部１１４と同一の動作を実行する。拘束条件パラメータ決定部５２０の図１５に示すエルゴディックモデル部５４２、５４６、及び５５０に要求２１０が与えられると、エルゴディックモデル部５４２、５４６、及び５５０はそれぞれ独立に動作し、忘却係数α、スケーリング係数β、及びフレーム数Ｔの値をそれぞれ決定する。

以下、エルゴディックモデル部５４２、５４６、及び５５０を代表して、α決定部５３０のエルゴディックモデル部５４２の動作を説明する。まず、図１８に示すエルゴディックモデル部５４２の状態遷移確率割当部５７２が状態遷移確率の割当を予め決定し、状態遷移確率表５７４（図１９参照）を生成する動作について説明する。

図１８を参照して、エルゴディックモデル部５４２にα状態−パラメータ表５４０とパラメータγ５７０とが与えられると、状態遷移確率割当部５７２は、α状態−パラメータ表５４０（図１６（Ａ）参照）の一つ目の行を処理対象に定める。そして、当該遷移前状態の状態番号と、α状態−パラメータ表５４０の各行における状態番号とを基に、遷移前状態と各状態との間の状態番号の変化量ｄ_mn,t ^(j)を算出する。例えば、状態遷移時に自己ループする場合、状態番号の変化量ｄ_mn,t ^(j)＝０となる。

各遷移先状態について変化量ｄ_mn,t ^(j)を算出すると、状態遷移確率割当部５７２は次に、パラメータγ５７０を状態番号の変化量ｄ_mn,t ^(j)でべき乗して割当量ａ_mn,t ^(j)を算出する。パラメータγ５７０の値が１＞γ＞０に設定されていれば、自己ループにおいて状態番号の変化量ｄ_mn,t ^(j)は０となり、割当量ａ_mn,t ^(j)は、最大値γ⁰＝１となる。自己以外への状態遷移では、状態番号の変化量ｄ_mn,t ^(j)の値が大きくなるほど小さくなる。パラメータγ５７０の値が１に設定されていれば、割当量ａ_mn,t ^(j)は、状態番号の変化量ｄ_mn,t ^(j)の値に関係なくａ_mn,t ^(j)＝１となる。

状態遷移確率割当部５７２はさらに、割当量ａ_mn,t ^(j)の各々を、Σ_nａ_mn,t ^(j)＝１となるよう正規化する。このようにして算出された正規化後の割当量ａ_mn,t ^(j)の各々を、状態遷移確率表５７４の遷移先の１行目の対応する欄に格納する。そして、α状態−パラメータ表５４０（図１６（Ａ）参照）の次の行を処理対象に定める。

パラメータγ５７０が１＞γ＞０に設定されていれば、各状態への状態遷移確率は、自己ループにおいて最大値となり、自己ループ以外の状態遷移においては、ｄ_mn,t ^(j)の値が大きくなるほど低い値となる。α状態−パラメータ表５４０においては、出力するパラメータ値が小さな状態ほど若い状態番号が付与されている。状態番号の変化量ｄ_mn,t ^(j)が小さければ、その分フレーム移行前後での忘却係数αの値の変動は小さく、状態番号の変化量ｄ_mn,t ^(j)が大きければその分忘却係数αの値の変動は大きくなる。したがって、パラメータγ５７０を１＞γ＞０に設定すると、各状態への状態遷移確率は、忘却係数αの値の変動が小さい状態に遷移する確率が高くなるように割当てられる。これに対し、パラメータγ５７０を１に設定すると、割当量ａ_mn,t ^(j)は、状態番号の変化量ｄ_mn,t ^(j)の値に関係なくａ_mn,t ^(j)＝１となる。そのため各状態への状態遷移確率は全て同じ確率になる。

この動作を繰返すことによりα状態−パラメータ表５４０の全ての行について処理が終了すると、状態遷移確率割当部５７２は動作を完了する。以上の一連の動作は、図１５に示すエルゴディックモデル部５４２、５４６、及び５５０においてそれぞれ独立に実行される。

次に、エルゴディックモデル部５４２がフレーム移行の要求２１０を受けてフレーム移行後のフレームにおける忘却係数αの値を決定する動作を説明する。図１４に示すクリーン音声推定部２０４が次のフレームへの移行の要求２１０を発行すると、要求２１０は、雑音確率分布推定部２００に与えられるばかりでなく、拘束条件パラメータ決定部５２０の図１８に示す状態遷移確率決定部５６２にも与えられる。状態遷移確率決定部５６２に要求２１０が与えられる時点では既に、状態番号記憶部５６０は、フレーム移行前の状態について、その状態番号ｍ_t ^(j)を記憶している。状態遷移確率決定部５６２は、要求２１０に応答して、状態番号ｍ_t ^(j)を状態番号記憶部５６０から読出す。そして、状態遷移確率表５７４（図１９参照）の状態番号ｍ_t ^(j)の行を読出し、状態遷移部５６４に与える。

状態遷移部５６４は、与えられた行の各欄に格納されている、各状態への状態遷移確率にしたがったモンテカルロサンプリングにより遷移先の状態を選択する。そして選択した状態の状態番号を状態番号記憶部５６０及びパラメータ読出部５６６に与える。状態遷移部５６４が状態を選択すると、パラメータ読出部５６６は、状態遷移部５６４により選択された状態のパラメータ値を、α状態−パラメータ表５４０より読出して出力する。状態番号記憶部５６０は、状態遷移部５６４が出力した状態番号を記憶する。

以上の処理と同様の処理を図１５に示すβ決定部５３２及びＴ決定部５３４もまた、要求２１０に応答して実行する。拘束条件パラメータ出力部５３６は、α決定部５３０から忘却係数αを、β決定部５３２からスケーリング係数βを、Ｔ決定部からフレーム数Ｔを受けると、それらをまとめて拘束条件パラメータ５２２として、図１４に示す雑音確率分布推定部２００に与える。雑音確率分布推定部２００は、第１の実施の形態と同様の動作で雑音確率分布の推定パラメータ２０６を逐次的に生成し、観測信号の特徴量ベクトルＸ_t１２４とともに、フレームごとに、図１４に示す観測信号分布推定部２０２に与える。

雑音確率分布の推定パラメータ２０６を生成する際の処理において、状態空間モデル１６０を形成する状態方程式（１１）における拘束条件パラメータは、処理対象のフレームごとに再設定される。これにより、フレームごとに状態空間モデルが変動するため、時間の推移とともに変動する非定常雑音をより適切に推定することが可能になる。

［実験］
本発明の第１及び第２の実施の形態に係る音声認識システムによる効果を確認するために、観測信号からの雑音の推定実験と、観測信号の認識実験とを行なった。以下、実験方法及び結果について説明する。

本実験では、日本語の雑音下音声認識評価用共通データベースに収録されたクリーン音声１００１文のデータに、雑音を人工的に加算して、雑音重畳音声１２２（図１参照）の試料を生成した。また加算する雑音には、それぞれ実環境で収録された工場雑音と道路工事雑音とを使用した。本実験では、雑音を加算していない試料と、クリーン音声に雑音をそれぞれ２０ｄＢ、１５ｄＢ、１０ｄＢ、５ｄＢ、及び０ｄＢのＳＮＲ（Signal-to-Noise Ratio）で加算した試料とを用意した。用意した各試料を２３次対数メルフィルタバンク処理し、得られた２３次対数メルスペクトルの各成分を要素とするベクトルをそれぞれ生成し、認識対象の特徴量ベクトルとした。

認識実験では、比較のために、上記の各試料から、本実施の形態に係る雑音抑圧処理の方法を含む次の各方法で、探索に用いる特徴量を生成した。すなわち、パーティクルフィルタを用いて雑音確率分布の逐次推定を行ない、得られた雑音確率分布のパラメータを用いてＭＭＳＥ推定法により特徴量を生成した。また、雑音確率分布の逐次推定を行なうにあたり、パーティクルフィルタとして、次の３種のものを用いた。すなわち、状態遷移過程にランダムウォーク過程を仮定し上記の状態方程式（２）を導入したパーティクルフィルタ（ＰＦ１）と、状態遷移過程に時間固定の拘束条件パラメータ１３８に基づく拘束条件を設定し上記の状態方程式（１１）を導入したパーティクルフィルタ（ＰＦ２）と、時間変動する拘束条件パラメータ５２２に基づく拘束条件を設定し上記の状態方程式（１１）を導入したパーティクルフィルタ（ＰＦ３）とである。

第１の実施の形態に係るパーティクルフィルタは、ＰＦ２のパーティクルフィルタであり、第２の実施の形態に係るパーティクルフィルタはＰＦ３である。本認識実験ではさらに、比較のために外乱抑圧処理を行なわない観測信号の特徴量（ＨＴＫ）と、非特許文献２に記載の方式で雑音抑圧処理を施した観測信号の特徴量（ＥＴＳＩ）と、パーティクルフィルタを用いた雑音確率分布の逐次推定を行なわずにＭＭＳＥ推定法により特徴量を生成する方式で雑音抑圧処理を施した観測信号の特徴量（ＭＭＳＥ）と、逐次ＥＭアルゴリズムによる雑音の逐次推定の結果を用いて雑音抑圧処理を施した観測信号の特徴量（ＳＥＭ：Sequential Expectation Maximization）とを用いた探索も行なった。

上記のいずれのパーティクルフィルタを用いて処理を行なう場合にも、ＧＭＭ１３０（図１参照）には、混合分布数５１２のモデルを用いた。この処理においては、ランダムガウス雑音ベクトルＷ_tの共分散行列を、Σ_W＝diag（0.0001）に設定した。また、処理に用いるパーティクルの総数Ｊを５０に設定した。

なお、第１の実施の形態に係るパーティクルフィルタ（ＰＦ２）を用いて処理を行なう際、拘束条件パラメータ１３８には次の値を用いた。すなわち工場雑音環境下では、忘却係数α、フィードバック係数β、及びフレーム数Ｔのパラメータ値にそれぞれ、０．２０、０．５、１０を使用した。道路工事雑音環境下では、忘却係数α、フィードバック係数β、及びフレーム数Ｔのパラメータ値にそれぞれ、０．２０、０．５、２０を使用した。

第２の実施の形態に係るパーティクルフィルタ（ＰＦ３）を用いて処理を行なう際、状態遷移確率の割当に使用するパラメータγには０．６を使用した。

抑圧後の推定クリーン音声を用いた音声認識を行なう際の特徴量には、０次を含む１３次ＭＦＣＣ（Mel Frequency Cepstrum Coefficient）と、１次及び２次の回帰係数とを含む３９次元の特徴量を用いた。また、図１に示す認識用音響モデル１０９には、１６状態２０混合分布のＨＭＭを用いた。

この認識実験における処理に、市販のクロック周波数３．２ギガヘルツ、３２ビットのＣＰＵ（Central Processing Unit）を用いた場合、ＰＦ１、ＰＦ２、及びＰＦ３のいずれのパーティクルフィルタを用いた場合も、処理に要した時間は、観測信号における実時間と同程度であった。すなわち、認識処理を実時間で処理できることが明らかとなった。逐次ＥＭアルゴリズムによる雑音の推定の結果を用いて雑音抑圧処理を施した場合（ＳＥＭ）、その処理に要した時間は、結果が収束するまでの処理の反復回数がデータに依存して変化する。本実験においては処理時間は実時間の２倍〜４倍であった。

図２３に、雑音の推定実験の結果を示す。図１３は、工場雑音の各フレームにおける、対数メルフィルタバンクの１番目のフィルタによる出力値（以下、「真の雑音」と呼ぶ。）と、パーティクルフィルタを用いた雑音抑圧処理において当該出力値に対応する推定結果とを示すグラフである。このグラフにおいては、比較のため、状態遷移過程にランダムウォーク過程を仮定したパーティクルフィルタと、第１の実施の形態に係るパーティクルフィルタ（ＰＦ２）とによる推定結果を示す。このグラフの横軸は、フレーム番号を表す。すなわちグラフ上、左から右に進むにしたがい時間が経過する。

図２３を参照して、このグラフにおいて、４４フレームまでの区間は、雑音１２１のみが観測された区間であった。また、４５フレーム以降の区間は、雑音１２１と目的音声１２０との重畳した雑音重畳音声が観測された区間であった。雑音のみの区間においては、ランダムウォーク過程を仮定したパーティクルフィルタによる処理結果も、本実施の形態に係るパーティクルフィルタによる処理結果も、真の雑音に近い時間軌跡となっている。よってこの区間では、いずれの処理方法でも時間変動が推定できていることが分かる。しかし、雑音重畳音声が観測された区間において、本実施の形態に係るパーティクルフィルタによる雑音の推定誤差は、ランダムウォーク過程を導入したパーティクルフィルタによる雑音の推定誤差より小さくなっている。よって、本実施の形態に係る雑音抑圧処理により、特に雑音重畳音声が観測される区間において雑音が高精度に推定され、抑圧されることが分かる。

表１及び表２に、各試料に対する認識実験で得られた単語認識率を、上記の処理方法別に示す。

表１及び表２を参照して、パーティクルフィルタＰＦ１、ＰＦ２、又はＰＦ３による雑音抑圧処理を行なうことで、高い単語認識率が得られることが分かる。中でも上記第１の実施の形態に係るパーティクルフィルタＰＦ２及び第２の実施の形態に係るパーティクルフィルタＰＦ３は、他のいずれの処理方法より高い単語認識率が得られることが分かる。よって、第１の実施の形態及び第２の実施の形態に係る拘束条件が有効な作用を奏したことは明らかである。特に第２の実施の形態に係るパーティクルフィルタＰＦ３による処理を施した試料に対する認識結果は、最良の結果を示しており、また、第１の実施の形態に係るパーティクルフィルタ（ＰＦ２）による処理を施した試料に対する認識結果よりもさらに高い。よって、拘束条件パラメータを時間変動させることが、有効な作用を奏したこともまた明らかとなった。

以上の実験結果から、本実施の形態の雑音抑圧処理により、非定常な雑音と目的音声とが重畳する環境下での音声認識率が改善され、かつ実時間処理が可能になることが明らかとなった。

表３及び表４に、第２の実施の形態に係るパーティクルフィルタ（ＰＦ３）において、パラメータγ５７０を変化させた場合の単語認識率を示す。

表３及び表４より、パラメータγを変化させても、雑音種別、ＳＮＲに関わらず音声認識率の変動は１％以下であった。単語認識率に対するパラメータγの依存性は低いと言える。したがって、拘束条件パラメータに含まれる忘却係数α、スケーリング係数β、及びフレーム数Ｔのフレームごとの変動を許容すること自体が、音声認識率の改善に寄与することと考えられる。

［変形例等］
なお、上記各実施の形態においては、パーティクルフィルタによる処理を雑音の抑圧に用いている。そのため、雑音抑圧後の推定クリーン音声のパラメータを用いて探索を行なう前に、さらに音響モデル適応を行なうこともできる。音響モデル適応により、推定クリーン音声に適合した音響モデルを探索に用いることができるようになる。したがって、音声認識率が向上することが期待される。

また、上記各実施の形態においては、前処理用の音響モデルにＧＭＭを用いたが、前処理用の音響モデルにＨＭＭを用いてもよい。この場合、上記の式（２０）に示す要素分布のサンプリングに先立ち、ＨＭＭの遷移確率にしたがって状態のサンプリングを行なえばよい。

上記第１の実施の形態では、図６に示すPolyak Average算出部２５４は、拘束条件パラメータ１３８により定められたＴフレーム分のPolyak Averageを算出した。しかし、第１の実施の形態においては、バッファメモリ部２５２が雑音確率分布の推定パラメータ２０６をＴフレーム分保持し、Polyak Average算出部２５４がバッファメモリ部２５２に保持されている当該Ｔフレーム分の雑音確率分布の推定パラメータ２０６を基にPolyak Averageを算出するようにしてもよい。

上記第２の実施の形態では、状態番号がパラメータ値の昇順に付与されていた。しかしパラメータ値の降順に付与されていても、昇順に付与された場合と同様に動作する。

また、上記第２の実施の形態では、拘束条件パラメータの状態遷移確率は、直前のフレームに対応する状態に依存して決定された。しかし、本発明はこのような実施の形態には限定されない。例えば、直前のフレームのみでなく、より過去の状態の影響を考慮して、拘束条件パラメータに関する状態遷移確率の決定を行なうようにしてもよい。

また、上記第２の実施の形態では、各エルゴディックモデル部は、全ての状態間での状態遷移に関し状態遷移確率の割当を予め決定しておき、フレームを移行するたびに決定された状態遷移確率の割当にしたがって、フレーム移行後の拘束条件パラメータの値を決定した。しかし、本発明はこのような実施の形態には限定されない。例えば、フレームを移行する度に、状態遷移確率の割当を決定するようにしてもよい。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。

本発明の一実施の形態に係る音声認識システム１００の構成を示す概略図である。ＧＭＭ１３０の概念を示す概略図である。観測信号の状態空間モデル１６０の概念を示す概略図である。雑音抑圧部１１４の構成を示すブロック図である。雑音確率分布推定部２００の構成を示すブロック図である。更新部２３０の構成を示すブロック図である。推定パラメータ生成部２３６の構成を示すブロック図である。雑音抑圧処理の制御構造を示すフローチャートである。雑音確率分布の推定パラメータ２０６の生成処理の制御構造を示すフローチャートである。 Metropolis-Hastingsアルゴリズムによるサンプリング処理の制御構造を示すフローチャートである。パーティクルフィルタによる処理の概要を示す図である。 Polyak Average及びフィードバックの概念を示す模式図である。本発明の第２の実施の形態に係る前処理部５００の構成を示す図である。第２の実施の形態に係る雑音抑圧部５１０の構成示すブロック図である。拘束条件パラメータ決定部５２０の構成を示すブロック図である。状態−パラメータ表５４０、５４４、及び５４８の一例を示す図である。エルゴディックモデルの概念を示す図である。エルゴディックモデル部５４２の構成を示すブロック図である。状態遷移確率表５７４の一例を示す図である。拘束条件パラメータαの状態遷移の概要を示す図である。第２の実施の形態に係る雑音抑圧処理の制御構造を示すフローチャートである。拘束条件パラメータの決定処理の制御構造を示すブロック図である。第１の実施の形態に係る雑音抑圧処理による工場雑音の推定実験の結果を示す図である。

符号の説明

１００音声認識システム
１０２音源
１０４，５００前処理部
１０６前処理用音響モデル部
１０８言語モデル部
１０９認識用音響モデル部
１１０探索部
１１２計測部
１１４，５１０雑音抑圧部
１１６話者
１１８雑音源
１２０クリーン音声
１２１雑音
１２２雑音重畳音声
１２４観測信号の特徴量
１２６推定クリーン音声の特徴量
１３０ＧＭＭ
１３２学習データ記憶部
１３４モデル学習部
１３６ＧＭＭ記憶部
１３８，５２２拘束条件パラメータ
１６０状態空間モデル
２００雑音確率分布推定部
２０２観測信号分布推定部
２０４クリーン音声推定部
２２０フレーム選択部
２２２雑音初期分布推定部
２２４逐次計算部
２２６ＧＭＭサンプリング部
２３０更新部
２３２重み算出部
２３４再サンプリング部
２３６推定パラメータ生成部
２４０出力パラメータ
２５０加重平均算出部
２５２バッファメモリ部
２５４ Polyak Average算出部
２５６フィードバック部
２５８拡張カルマンフィルタ部
２６２再更新部
２６４重み再計算部
２６６許容確率算出部
２６８乱数発生部
２７０パラメータ選択部
５２０拘束条件パラメータ決定部
５３０ α決定部
５３２ β決定部
５３４Ｔ決定部
５３６拘束条件パラメータ出力部
５４０ α状態−パラメータ表
５４２，５４６，５５０エルゴディックモデル部
５４４ β状態−パラメータ表
５４８Ｔ状態−パラメータ表
５６０状態番号記憶部
５６２状態遷移確率決定部
５６４状態遷移部
５６６パラメータ読出部
５７０パラメータγ
５７２状態遷移確率割当部
５７４状態遷移確率表

Claims

雑音が発生する環境下での目的音声の観測により得られる観測信号における雑音の成分を抑圧するための雑音抑圧装置であって、
前記観測信号について所定周期ごとにフレーム化された所定時間長のフレームよりそれぞれ抽出される特徴量を受け、前記雑音の時間推移に関し所定の拘束条件の設けられた複数のパーティクルを有するパーティクルフィルタを用いて、前記雑音を表す確率分布の推定パラメータを前記フレームごとに逐次生成するための雑音推定手段と、
前記観測信号の特徴量と、前記推定パラメータと、前記目的音声に関する所定の音響モデルとを用いて、前記フレームごとに前記目的音声の推定特徴量を算出するための目的音声推定手段とを含み、
前記雑音推定手段は、
前記雑音の初期分布を推定し、前記複数のパーティクルの各々において、初期フレームの雑音を表す確率分布の推定パラメータを前記初期分布にしたがった確率でそれぞれ設定するための初期パラメータ設定手段と、
各パーティクルにおいて、第１のフレームでの前記推定パラメータと当該第１のフレームに先行する所定数のフレームでの前記推定パラメータとから、前記拘束条件に基づき当該推定パラメータに対する変更量を算出するための変更量算出手段と、
前記音響モデルと、前記観測信号の特徴量と、前記変更量算出手段により算出された変更量とを基に、拡張カルマンフィルタを用いて、各パーティクルにおける前記第１のフレームの推定パラメータを、それぞれ当該第１のフレームに後続する第２のフレームに対応するものに更新するための更新手段と、
前記第２のフレームにおける前記複数のパーティクルの各々に対する重みを算出するための重み算出手段と、
前記更新手段により更新された雑音の推定パラメータと前記重み算出手段により算出された重みとを用いて、前記第２のフレームにおける前記雑音を表す確率分布の推定パラメータを生成するための手段とを含み、
前記拘束条件は、前記推定パラメータに対する過去のフレームからのフィードバックを含み、
前記変更量算出手段は、各パーティクルについて、前記第１のフレーム及び当該第１のフレームに先行する所定数のフレームにおける前記推定パラメータの平均を求め、当該推定パラメータの平均と前記第１フレームにおける前記推定パラメータとの差分を基に、前記変更量を算出するための手段を含む、雑音抑圧装置。
さらに、前記変更量算出手段が前記変更量を算出するのに使用するフレームの数を、予め定められた複数種類の数の中から、所定の確率モデルにしたがってフレームごとに選択するためのフレーム数選択手段を含む、請求項１に記載の雑音抑圧装置。
前記確率モデルは、前記変更量算出手段が前記変更量を算出するのに使用するフレームの数からの変化量の絶対値に対する単調減少関数として、次のフレームで前記変更量算出手段が前記変更量を算出するのに使用するフレームの数が選択される確率を割当てる、請求項２に記載の雑音抑圧装置。
前記フレーム数選択手段は、
互いに異なる、予め定められた複数種類の自然数にそれぞれ対応付けられた複数の状態を準備するための手段と、
前記複数の状態の間での状態遷移確率を決定するための状態遷移確率決定手段とを含み、
前記変更量算出手段が前記変更量を算出するのに用いるフレームの数は、前記複数の状態の中から選択された状態に対応付けられた自然数であり、
前記フレーム数選択手段はさらに、
前記変更量算出手段が前記変更量を算出するのに用いたフレームの数に対応する状態から、前記状態遷移確率にしたがって次の状態を選択するための手段と、
当該選択された状態に対応する自然数を、次のフレームで前記変更量算出手段が使用する際に使用する前記フレームの数に設定するための手段とを含む、請求項２に記載の雑音抑圧装置。
前記準備するための手段は、互いに異なる、予め定められた複数種類の自然数にそれぞれ対応付けられた複数の状態を準備し、当該状態の各々に対し所定の順序にしたがい番号を付与するための手段を含み、
前記状態遷移確率決定手段は、前記複数の状態のうちの任意の二つの組合せに対し、当該二つの状態にそれぞれ付与された二つの番号の差の絶対値に対する単調減少関数として、当該二つの状態の間での状態遷移確率を決定する、請求項４に記載の雑音抑圧装置。
コンピュータにより実行されると、当該コンピュータを請求項１〜請求項５のいずれかに記載の雑音抑圧装置として動作させる、コンピュータプログラム。
請求項１〜請求項５のいずれかに記載の雑音抑圧装置と、
前記雑音抑圧装置により算出される前記目的音声の推定特徴量を受けて、前記目的音声に関する所定の音響モデルと、認識対象言語に関する所定の言語モデルとを用いて、前記目的音声に関する音声認識を行なうための音声認識手段とを含む、音声認識システム。