JP2005062890A

JP2005062890A - クリーン信号確率変数の推定値を識別する方法

Info

Publication number: JP2005062890A
Application number: JP2004239994A
Authority: JP
Inventors: James G Droppo; ジー．ドロッポジェームス; Li Deng; デンリー; Alejandro Acero; アセロアレサンドロ
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2003-08-19
Filing date: 2004-08-19
Publication date: 2005-03-10
Anticipated expiration: 2024-08-19
Also published as: US20050043945A1; JP2011158918A; EP1508893A3; KR20110131147A; EP1508893A2; KR101201146B1; KR101117940B1; JP4855661B2; CN1584984A; US7363221B2; CN1584984B; EP1508893B1; KR20050020949A

Abstract

【課題】雑音を正確に推定してパターン認識信号中の雑音を低減するシステムおよび方法を提供する。
【解決手段】本方法およびシステムは、少なくともクリーン信号確率変数および雑音確率変数の関数として、マッピング確率変数を定義する。次いで、マッピング確率変数の値の分布の少なくとも１つのアスペクトを記述するモデルパラメータを判定する。モデルパラメータに基づいて、クリーン信号確率変数の推定値を判定する。本発明の多くの態様では、マッピング確率変数は信号対雑音比変数であり、本方法およびシステムは、モデルパラメータから信号対雑音比変数の値を推定する。
【選択図】図４

Description

本発明は、クリーン信号確率変数の推定値を識別する方法に関し、より詳細には、雑音低減に関連し、パターン認識で使用される信号から雑音を除去するための、クリーン信号確率変数の推定値を識別する方法および記録媒体に関する。

音声認識システムなどのパターン認識システムは、入力信号をとり、この信号を復号して、この信号で表されるパターンを見つけようとするものである。例えば音声認識システムでは、音声信号（しばしばテスト信号と呼ばれる）が、認識システムによって受け取られ、復号されて、この音声信号で表される単語列が識別される。

入力テスト信号を復号するために、ほとんどの認識システムは、テスト信号の一部が特定のパターンを表す尤度を記述する１つまたは複数のモデルを利用する。このようなモデルの例としては、ニューラルネット、ダイナミックタイムワーピング、セグメントモデル、隠れマルコフモデルがある。

モデルを入力信号の復号に使用することができるようになる前に、モデルをトレーニングしなければならない。これは通常、既知のトレーニングパターンから生成された入力トレーニング信号を測定することによって行う。例えば音声認識では、話者が既知のテキストから読み上げることによって、音声信号の集合を生成する。次いで、これらの音声信号を使用してモデルをトレーニングする。

モデルが最適に動作するためには、モデルをトレーニングするのに使用される信号が、復号される最終的なテスト信号に類似しているべきである。具体的には、トレーニング信号は、復号されるテスト信号と同じ量およびタイプの雑音を有するべきである。

通常、トレーニング信号は、「クリーンな」条件下で収集され、比較的無雑音と考えられる。これと同じ低いレベルの雑音をテスト信号でも達成するために、従来技術のシステムの多くは、テスト用データに雑音低減技法を適用する。

テストデータ中の雑音を低減するための既知の２つの技法では、雑音の多い音声が、時間領域におけるクリーン音声と雑音との線形の組合せとしてモデル化される。認識デコーダは、対数領域にあるメル周波数フィルタバンク機構に作用するので、時間領域におけるこの線形関係は、対数領域では以下のように近似される。
ｙ＝ｌｎ（ｅ^ｘ＋ｅ^ｎ）＋ε 式１
上式で、ｙは雑音の多い音声であり、ｘはクリーン音声であり、ｎは雑音であり、εは残余である。ｘとｎが一定であり同位相である場合、εが０になるのが理想的である。しかし、εが０の期待値を有することができるとしても、実データでは、εは０でない値を有する。したがって、εは分散を有する。

これを補償するために、従来技術によるシステムの１つは、εをガウス型としてモデル化しており、このガウス型の分散は、雑音ｎおよびクリーン音声ｘの値に依存する。このシステムは、真の分布のすべての領域について優れた近似値を提供するが、ｘとｎの両方で推論が必要なので、トレーニングに時間がかかる。

別のシステムでは、εは、雑音ｎにもクリーン音声ｘにも依存しないガウス型としてモデル化された。分散がｘにもｎにも依存していなかったので、その値はｘおよびｎが変化しても変化しないことになった。この結果、分散が過度に高く設定された場合に、雑音がクリーン音声よりもずっと大きいとき、またはクリーン音声が雑音よりもずっと大きいときは、優れたモデルを提供しないことになった。また、分散が過度に低く設定された場合に、雑音とクリーン音声とがほぼ等しいときは、優れたモデルを提供しないことになった。これに対処するために、従来技術では、反復的なテイラー級数近似を用いて分散を最適レベルに設定していた。

このシステムは、残余を雑音またはクリーン音声に依存するものとしてモデル化してはいなかったが、ｘとｎの両方で推論が必要だったので、使用するにはやはり時間がかかった。

いくつかの文献に上述のような従来の技術に関連した技術内容が開示されている（例えば、非特許文献１参照）。

T. Kristjansson他, "Joint estimation of noise and channel distortion in a generalized EM framework," in Proc. ASRU 2001, Italy, December 2001

従来のシステムには上述したような種々の問題があり、さらなる改善が望まれている。
本発明は、このような状況に鑑みてなされたもので、その目的とするところは、最適な推定のための主要量として瞬時の信号対雑音比を使用して雑音を低減する、クリーン信号確率変数の推定値を識別する方法を提供することにある。

パターン認識信号中の雑音を低減するシステムおよび方法を提供する。本方法およびシステムは、少なくともクリーン信号確率（random）変数および雑音確率変数の関数として、マッピング確率変数を定義する。次いで、マッピング確率変数の値の分布の少なくとも１つのアスペクトを記述するモデルパラメータを判定する。モデルパラメータに基づいて、クリーン信号確率変数の推定値を判定する。本発明の多くの態様では、マッピング確率変数は信号対雑音変数であり、本方法およびシステムは、モデルパラメータから信号対雑音変数の値を推定する。

本発明によれば、最適な推定のための主要量として瞬時の信号対雑音比を使用して雑音を低減できる。

以下、図面を参照して本発明を適用できる実施形態を詳細に説明する。図１に、本発明を実施することのできる適したコンピューティングシステム環境１００の例を示す。コンピューティングシステム環境１００は、適したコンピューティング環境の一例にすぎず、本発明の使用または機能の範囲についてどんな制限も意味するものではない。またコンピューティング環境１００は、この例示的な動作環境であるコンピューティングシステム環境１００に示すコンポーネントのいずれか１つまたは組合せに関してどんな依存や要件を有するものとも解釈すべきではない。

本発明は、その他多くの汎用または専用コンピューティングシステム環境または構成でも機能する。本発明と共に使用するのに適するであろう周知のコンピューティングシステム、環境、および／または構成の例には、限定しないがパーソナルコンピュータ、サーバコンピュータ、ハンドヘルドデバイスまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能な民生用電子機器、ネットワークＰＣ（personal computer）、ミニコンピュータ、メインフレームコンピュータ、電話システムや、これらのシステムまたはデバイスのいずれかを含む分散コンピューティング環境などが含まれる。

本発明は、プログラムモジュールなど、コンピュータによって実行されるコンピュータ実行可能命令の一般的な状況で述べることができる。一般にプログラムモジュールは、特定のタスクを実施するか特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。本発明は分散コンピューティング環境で実施されるように設計されており、通信ネットワークを介してリンクされたリモート処理デバイスによってタスクが実施される。分散コンピューティング環境では、プログラムモジュールは、メモリ記憶デバイスを含めたローカルとリモートの両方のコンピュータ記憶媒体に位置する。

図１を参照すると、本発明を実施するための例示的なシステムは、コンピュータ１１０の形の汎用コンピューティングデバイスを含む。コンピュータ１１０のコンポーネントには、限定しないがプロセッシングユニット１２０と、システムメモリ１３０と、システムメモリを含めた様々なシステムコンポーネントをプロセッシングユニット１２０に結合するシステムバス１２１とを含めることができる。システムバス１２１は、様々なバスアーキテクチャのいずれかを用いた、メモリバスまたはメモリコントローラ、周辺機器バス、ローカルバスを含めて、いくつかのタイプのバス構造のいずれかとすることができる。限定ではなく例として、このようなアーキテクチャには、ＩＳＡ（ＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ）バス、ＭＣＡ（ＭｉｃｒｏＣｈａｎｎｅｌＡｒｃｈｉｔｅｃｔｕｒｅ）バス、ＥＩＳＡ（ＥｎｈａｎｃｅｄＩＳＡ）バス、ＶＥＳＡ（ＶｉｄｅｏＥｌｅｃｔｒｏｎｉｃｓＳｔａｎｄａｒｄｓＡｓｓｏｃｉａｔｉｏｎ）ローカルバス、ＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ）バス（メザニンバスとも呼ばれる）が含まれる。

コンピュータ１１０は通常、様々なコンピュータ可読媒体を備える。コンピュータ可読媒体は、コンピュータ１１０からアクセスできる任意の利用可能な媒体とすることができ、揮発性と不揮発性の媒体、リムーバブルとノンリムーバブルの媒体の両方が含まれる。限定ではなく例として、コンピュータ可読媒体には、コンピュータ記憶媒体および通信媒体を含めることができる。コンピュータ記憶媒体には、コンピュータ可読命令、データ構造、プログラムモジュール、その他のデータなどの情報を記憶するための任意の方法または技術で実現された、揮発性と不揮発性、リムーバブルとノンリムーバブルの両方の媒体が含まれる。コンピュータ記憶媒体には、限定しないがＲＡＭ（random access memory）、ＲＯＭ（random access memory）、ＥＥＰＲＯＭ（electrically erasable programmable read-only memory）、フラッシュメモリまたはその他のメモリ技術、ＣＤ（compact disc）−ＲＯＭ、ＤＶＤ（Digital Versatile Disc）またはその他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置またはその他の磁気記憶デバイスが含まれ、あるいは、所望の情報を記憶するのに使用でき、コンピュータ１１０からアクセスできるその他の任意の媒体が含まれる。通信媒体は通常、搬送波やその他の移送機構などの変調されたデータ信号中に、コンピュータ可読命令、データ構造、プログラムモジュール、またはその他のデータを組み入れたものであり、任意の情報送達媒体が含まれる。「変調されたデータ信号」という語は、情報が信号に符号化される形で１つまたは複数の特性が設定または変更された信号を意味する。限定ではなく例として、通信媒体には、有線ネットワークや直接配線式接続などの有線媒体と、音響、ＲＦ（radio frequency）、赤外線、その他の無線媒体などの無線媒体とが含まれる。以上の任意の組合せもコンピュータ可読媒体の範囲に含めるべきである。

システムメモリ１３０は、読取り専用メモリ（ＲＯＭ）１３１やランダムアクセスメモリ（ＲＡＭ）１３２など、揮発性および／または不揮発性メモリの形のコンピュータ記憶媒体を含む。ＲＯＭ１３１には通常、起動中などにコンピュータ１１０内の要素間で情報を転送するのを助ける基本ルーチンを含むＢＩＯＳ（Basic Input/Output System）１３３が記憶されている。ＲＡＭ１３２は通常、プロセッシングユニット１２０がすぐにアクセス可能な、かつ／またはプロセッシングユニット１２０が現在作用している、データおよび／またはプログラムモジュールを含む。限定ではなく例として、図１には、オペレーティングシステム１３４、アプリケーションプログラム１３５、その他のプログラムモジュール１３６、プログラムデータ１３７を示す。

コンピュータ１１０は、その他のリムーバブル／ノンリムーバブル、揮発性／不揮発性コンピュータ記憶媒体を備えることもできる。例にすぎないが図１には、ノンリムーバブル不揮発性の磁気媒体に対して読み書きするハードディスクドライブ１４１と、リムーバブル不揮発性磁気ディスク１５２に対して読み書きする磁気ディスクドライブ１５１と、ＣＤＲＯＭやその他の光媒体などリムーバブル不揮発性光ディスク１５６に対して読み書きする光ディスクドライブ１５５を示す。この例示的な動作環境で使用できる他のリムーバブル／ノンリムーバブル、揮発性／不揮発性コンピュータ記憶媒体には、限定しないが磁気テープカセット、フラッシュメモリカード、ＤＶＤ、デジタルビデオテープ、ソリッドステートＲＡＭ、ソリッドステートＲＯＭなどが含まれる。ハードディスクドライブ１４１は通常、インタフェース１４０などのノンリムーバブルメモリインタフェースを介してシステムバス１２１に接続され、磁気ディスクドライブ１５１および光ディスクドライブ１５５は通常、インタフェース１５０などのリムーバブルメモリインタフェースでシステムバス１２１に接続される。

以上に論じ図１に示した各ドライブおよびそれらに関連するコンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、その他のデータの記憶域をコンピュータ１１０に提供する。例えば図１には、ハードディスクドライブ１４１がオペレーティングシステム１４４、アプリケーションプログラム１４５、その他のプログラムモジュール１４６、プログラムデータ１４７を記憶しているのが示されている。これらのコンポーネントは、オペレーティングシステム１３４、アプリケーションプログラム１３５、その他のプログラムモジュール１３６、プログラムデータ１３７と同じものとすることもでき、異なるものとすることもできることに留意されたい。ここでは、オペレーティングシステム１４４、アプリケーションプログラム１４５、その他のプログラムモジュール１４６、プログラムデータ１４７が少なくとも異なるコピーであることを示すために、異なる番号を付けてある。

ユーザは、キーボード１６２、マイクロホン１６３、マウスやトラックボールやタッチパッドと一般に呼ばれるポインティングデバイス１６１などの入力デバイスを介して、コンピュータ１１０にコマンドおよび情報を入力することができる。その他の入力デバイス（図示せず）には、ジョイスティック、ゲームパッド、衛星放送受信アンテナ、スキャナなどを含めることができる。これらおよびその他の入力デバイスは、システムバスに結合されたユーザ入力インタフェース１６０を介してプロセッシングユニット１２０に接続されることが多いが、パラレルポート、ゲームポート、ユニバーサルシリアルバス（ＵＳＢ）など、その他のインタフェースおよびバス構造で接続されてもよい。モニタ１９１または他のタイプの表示デバイスも、ビデオインタフェース１９０などのインタフェースを介してシステムバス１２１に接続される。モニタに加えて、コンピュータは、スピーカ１９７やプリンタ１９６など、その他の周辺出力デバイスも備えることができ、これらは出力周辺インタフェース１９５を介して接続することができる。

コンピュータ１１０は、リモートコンピュータ１８０など１つまたは複数のリモートコンピュータへの論理接続を用いて、ネットワーク化された環境で操作される。リモートコンピュータ１８０は、パーソナルコンピュータ、ハンドヘルドデバイス、サーバ、ルータ、ネットワークＰＣ、ピアデバイス、またはその他の一般的なネットワークノードとすることができ、通常はコンピュータ１１０に関して上述した要素の多くまたはすべてを備える。図１に示す論理接続は、ローカルエリアネットワーク（ＬＡＮ）１７１およびワイドエリアネットワーク（ＷＡＮ）１７３を含むが、その他のネットワークを含むこともできる。このようなネットワーキング環境は、オフィス、企業全体のコンピュータネットワーク、イントラネット、インターネットでよくみられる。

コンピュータ１１０は、ＬＡＮネットワーキング環境で使用されるときは、ネットワークインタフェースまたはアダプタ１７０を介してＬＡＮ１７１に接続される。ＷＡＮネットワーキング環境で使用されるときは通常、インターネットなどのＷＡＮ１７３を介した通信を確立するためのモデム１７２またはその他の手段を備える。モデム１７２は内蔵でも外付けでもよく、ユーザ入力インタフェース１６０またはその他の適切な機構を介してシステムバス１２１に接続することができる。ネットワーク化された環境では、コンピュータ１１０に関して示したプログラムモジュールまたはその一部をリモートのメモリ記憶デバイスに記憶することができる。限定ではなく例として、図１には、リモートアプリケーションプログラム１８５がリモートコンピュータ１８０上にあるものとして示す。図示のネットワーク接続は例示的なものであり、コンピュータ間に通信リンクを確立するための他の手段を使用することもできることは理解されるであろう。

図２は、例示的なコンピューティング環境であるモバイルデバイス２００のブロック図である。モバイルデバイス２００は、マイクロプロセッサ２０２、メモリ２０４、入出力（Ｉ／Ｏ）コンポーネント２０６、および、リモートコンピュータまたは他のモバイルデバイスと通信するための通信インタフェース２０８を備える。一実施形態では、前述のコンポーネントは、適したバス２１０を介して相互に通信するように結合されている。

モバイルデバイス２００への総合的な電力が遮断されたときにメモリ２０４に記憶済みの情報が失われないように、メモリ２０４は、電池バックアップモジュール（図示せず）付きのランダムアクセスメモリ（ＲＡＭ）などの不揮発性電子メモリとして実装される。メモリ２０４の一部は、プログラム実行のためにアドレス指定可能メモリとして割り振られることが好ましく、メモリ２０４の別の部分は、ディスクドライブへの記憶をシミュレートするなど、記憶のために使用されることが好ましい。

メモリ２０４は、オペレーティングシステム２１２、アプリケーションプログラム２１４、ならびにオブジェクト記憶域２１６を含む。動作中、オペレーティングシステム２１２は、プロセッサ２０２によってメモリ２０４から実行されることが好ましい。オペレーティングシステム２１２は、好適な一実施形態では、ＭｉｃｒｏｓｏｆｔＣｏｒｐｏｒａｔｉｏｎから市販されているＷＩＮＤＯＷＳ（登録商標）ＣＥブランドのオペレーティングシステムである。オペレーティングシステム２１２は、モバイルデバイス向けに設計されたものであることが好ましく、アプリケーション２１４が公開アプリケーションプログラミングインタフェースおよびメソッドのセットを介して利用することのできるデータベース機能を実現する。オブジェクト記憶域２１６中のオブジェクトは、少なくとも部分的に公開アプリケーションプログラミングインタフェースおよびメソッドへの呼出しに応答して、アプリケーション２１４およびオペレーティングシステム２１２によって維持される。

通信インタフェース２０８は、モバイルデバイス２００が情報を送受信することを可能にする多くのデバイスおよび技術を表す。これらのデバイスには、少数の例を挙げれば、有線または無線モデム、衛星受信機、放送チューナが含まれる。モバイルデバイス２００はまた、コンピュータとデータを交換するためにコンピュータに直接接続することもできる。このような場合、通信インタフェース２０８は、赤外線トランシーバ、あるいはシリアルまたはパラレル通信接続とすることができ、これらはすべてストリーミング情報を伝送することができる。

入出力コンポーネント２０６には、タッチセンシティブスクリーン、ボタン、ローラ、マイクロホンなどの様々な入力デバイス、ならびに、オーディオ生成器、振動デバイス、表示装置を含めた様々な出力デバイスが含まれる。以上に列挙したデバイスは例であり、すべてがモバイルデバイス２００上にある必要はない。さらに、本発明の範囲内で、その他の入出力デバイスがモバイルデバイス２００に付属しているか、モバイルデバイス２００と共にみられるものとしてもよい。

本発明の一態様では、雑音の多い音声と、クリーン音声と雑音とを足した和との差に関する誤差項の中で０分散を仮定することによって、パターン認識信号中の雑音を低減するシステムおよび方法が提供される。これは過去には行われてこなかった。というのは、これは実際の挙動をうまくモデル化しないと考えられていたからであり、また、分散の値が０だと、雑音がクリーン音声よりもずっと大きいときにはクリーン音声の計算が不安定になったからである。このことは以下の式からわかる。
ｘ＝ｌｎ（ｅ^ｙ−ｅ^ｎ）式２
上式で、ｘはクリーン音声の特徴ベクトルであり、ｙは雑音の多い音声の特徴ベクトルであり、ｎは雑音の特徴ベクトルである。ｎがｘよりもずっと大きい場合、ｎとｙはほぼ等しい。これが生じたとき、ｘはｎの変化の影響を受けやすくなる。さらに、対数内の項が負にならないように、ｎに対して制約を課さなければならない。

これらの問題を克服するために、本発明は、信号対雑音比ｒを利用する。これは、特徴ベクトルの対数領域では以下のように表される。
ｒ＝ｘ−ｎ式３

式３は、マッピング確率変数ｒに関する定義の１つを提供するものであることに留意されたい。マッピング確率変数に関する異なる定義を形成することになる、ｘとｎの関係の修正形も、本発明の範囲内である。

この定義を使用し、前述の式２を書き換えて、以下のように特徴ベクトルｒで表したｘおよびｎの定義を提供することができる。
ｘ＝ｙ−ｌｎ（ｅ^ｒ＋１）＋ｒ式４
ｎ＝ｙ−ｌｎ（ｅ^ｒ＋１）式５

式４と５の両方で、ｘとｎは両方とも確率変数であって固定ではないことに留意されたい。したがって本発明では、雑音ｎまたはクリーン音声ｘに対する可能な値に制約を課すことなく、残余に０の値を仮定する。

ｘおよびｎに関するこれらの定義を使用して、以下のように同時確率分布関数を定義することができる。
ｐ（ｙ，ｒ，ｘ，ｎ，ｓ）＝ｐ（ｙ｜ｘ，ｎ）ｐ（ｒ｜ｘ，ｎ）ｐ（ｘ，ｓ）ｐ（ｎ）式６
上式で、ｓは音素などの音声状態であり、ｐ（ｙ｜ｘ，ｎ）は、所与のクリーン音声特徴ベクトルｘおよび雑音特徴ベクトルｎの場合の、雑音の多い音声の特徴ベクトルｙの確率を表す観測確率であり、ｐ（ｒ｜ｘ，ｎ）は、所与のクリーン音声特徴ベクトルおよび雑音特徴ベクトルの場合の、信号対雑音比特徴ベクトルｒの確率を表す信号対雑音確率であり、ｐ（ｘ，ｓ）は、クリーン音声特徴ベクトルと音声状態の同時確率であり、ｐ（ｎ）は、雑音特徴ベクトルの事前確率である。

観測確率と信号対雑音比確率は両方とも、ｘおよびｎの決定論的関数である。この結果、以下のように、条件付き確率をディラック（Dirac）のデルタ関数によって表すことができる。
ｐ（ｙ｜ｘ，ｎ）＝δ（ｌｎ（ｅ^ｘ＋ｅ^ｎ）−ｙ）式７
ｐ（ｒ｜ｘ，ｎ）＝δ（ｘ−ｎ−ｒ）式８
上式で、

これにより、同時確率密度関数をｘおよびｎに対して周辺化して、以下のように同時確率ｐ（ｙ，ｒ，ｓ）を生み出すことができる。

上式で、ｐ（ｘ，ｓ）は、平均

および分散

を伴うガウス型として表される確率ｐ（ｘ｜ｓ）と、音声状態に関する事前確率ｐ（ｓ）とに分離され、確率ｐ（ｎ）は、平均μ^ｎおよび分散σ^ｎを伴うガウス型として表される。

ガウス分布に適用される非線形関数を簡単にするために、本発明の一実施形態では、以下のように、非線形関数の一部に１次テイラー級数近似を利用する。

上式で、

上式で、

は、テイラー級数展開のための展開点であり、

は、信号対雑音比展開点ベクトル

中の各要素に対して実施されるようなベクトル関数であり、

は、信号対雑音比展開点ベクトルの各ベクトル要素に対して括弧内の関数を実施して、それらの値を行列の対角線に沿って配置する行列関数である。以下では簡単にするために、

を

として表し、

を

として表す。

次いで、式１５のテイラー級数近似を、式１４中のｌｎ（ｅ^ｒ＋１）に代入して、以下の式を生み出すことができる。

標準的なガウス処理数式を使用して、式１８を以下の因数分解された形式に配置することができる。
ｐ（ｙ，ｒ，ｓ）＝ｐ（ｒ｜ｙ，ｓ）ｐ（ｙ｜ｓ）ｐ（ｓ）式１９
上式で、

かつ、

上式で、

および

は、音声状態ｓについての信号対雑音比の平均および分散である。

本発明の一態様では、式２０〜２６を使用して、クリーン音声および／または信号対雑音比の推定値を判定する。これらの判定を行う方法を、図４のブロック図を参照しながら以下に述べる図３の流れ図に示す。

図３のステップ３００で、クリーントレーニング音声およびトレーニングテキストから、クリーン音声モデルの平均

および分散

、ならびに各音声状態ｓの事前確率ｐ（ｓ）をトレーニングする。各音声状態ｓごとに、異なる平均および分散をトレーニングすることに留意されたい。これらをトレーニングした後、クリーン音声モデルパラメータを雑音低減パラメータ記憶ユニット４１６に記憶する。

ステップ３０２で、入力された発話から特徴を抽出する。これを行うために、図４のマイクロホン４０４が、話者４００および１つまたは複数の加法性雑音源４０２からの可聴周波を電気信号に変換する。次いで、電気信号はアナログデジタル変換器４０６によってサンプリングされて、一連のデジタル値が生成され、フレームコンストラクタ４０８によって値のフレームにグループ化される。一実施形態では、ＡＤ変換器４０６は、アナログ信号を１６ｋＨｚおよび１サンプルあたり１６ビットでサンプリングして、それにより毎秒３２キロバイトの音声データを生成し、フレームコンストラクタ４０８は、２５ミリ秒分のデータを含む新しいフレームを１０ミリ秒ごとに生成する。

フレームコンストラクタ４０８から提供された各データフレームは、特徴抽出器４１０によって特徴ベクトルに変換される。このような特徴ベクトルを識別する方法は当技術分野で周知であり、これらの方法には、３９次元のメル周波数ケプストラム係数（ＭＦＣＣ）抽出が含まれる。特定の一実施形態では、ほとんどのＭＦＣＣ抽出システムで使用される対数エネルギー特徴をＣ_０で置き換え、スペクトルの大きさの代わりにパワースペクトル密度を使用する。

ステップ３０４で、図３の方法は、雑音推定ユニット４１２を使用して入力信号の各フレームごとの雑音を推定する。知られている任意の雑音推定技法を本発明の元で使用することができる（例えば、非特許文献１参照）。あるいは、単純な音声／非音声検出器を使用してもよい。

発話全体または発話の大部分にわたる雑音の推定値を、雑音モデルトレーナ４１４が使用して、推定された雑音からの平均μ^ｎおよび分散σ^ｎを含む雑音モデルを構築する。雑音モデルは、雑音低減パラメータ記憶域４１６に記憶される。

ステップ３０６で、雑音低減ユニット４１８が、クリーン音声モデルの平均と雑音モデルの平均とを使用して、式２１および２２のテイラー級数展開のための初期展開点

を判定する。具体的には、各音声ユニットごとの初期展開点は、その音声ユニットのクリーン音声平均と、雑音の平均との差に等しく設定される。

テイラー級数展開点を初期化すると、ステップ３０８で、雑音低減ユニット４１８は、式２１および２２中のテイラー級数展開を使用して、各音声ユニットごとに信号対雑音比の平均

を計算する。ステップ３１２で、信号対雑音比の平均を、これらの平均の前の値（もしあれば）と比較して、平均が安定値に収束したかどうかを判定する。収束していない場合（またはこれが最初の反復である場合）は、プロセスはステップ３１０に進み、テイラー級数展開点を信号対雑音比のそれぞれの平均に設定する。次いでプロセスはステップ３０８に戻り、式２１および２２を使用して信号対雑音比の平均を再推定する。信号対雑音比の平均が収束するまで、ステップ３０８、３１０、３１２を繰り返す。

信号対雑音比の平均が安定すれば、プロセスはステップ３１４に進み、テイラー級数展開を使用して、クリーン音声の推定値および／または信号対雑音比の推定値を判定する。クリーン音声の推定値は、以下のように計算される。

上式で、

また上式で、ｐ（ｙ｜ｓ）は前述の式２３〜２６を使用して計算され、ｐ（ｓ）はクリーン音声モデルからとられる。

信号対雑音比の推定値は、以下のように計算される。

このように図３のプロセスで、入力信号の各フレームごとに、信号対雑音比の推定値４２０および／またはクリーン音声特徴ベクトルの推定値４２２を生み出すことができる。

信号対雑音比およびクリーン音声特徴ベクトルの推定値は、所望のどんな目的にも使用することができる。一実施形態では、クリーン音声特徴ベクトルの推定値は、図５に示す音声認識システム中で直接に使用される。

入力信号がトレーニング信号である場合は、クリーン音声特徴ベクトルの一連の推定値４２２がトレーナ５００に提供され、トレーナ５００は、クリーン音声特徴ベクトルの推定値およびトレーニングテキスト５０２を使用して、音響モデル５０４をトレーニングする。このようなモデルをトレーニングする技法は当技術分野で知られており、これらについての説明は本発明の理解に必要ではない。

入力信号がテスト信号である場合は、クリーン音声特徴ベクトルの推定値がデコーダ５０６に提供され、デコーダ５０６は、特徴ベクトルのストリーム、レキシコン５０８、言語モデル５１０、音響モデル５０４に基づいて、最も尤度の高い単語シーケンスを識別する。復号に使用される特定の方法は本発明にとって重要ではなく、知られているいくつかの復号方法のうちのどれを使用してもよい。

最も公算の高い仮説単語シーケンスが、信頼度測定モジュール５１２に提供される。信頼度測定モジュール５１２は、２次音響モデル（図示せず）に部分的に基づいて、音声認識装置によって間違って識別された可能性の最も高い単語はどれかを識別する。次いで信頼度測定モジュール５１２は、間違って識別されたかもしれない単語はどれかを示す識別子と共に、仮説単語シーケンスを出力モジュール５１４に提供する。信頼度測定モジュール５１２が本発明の実施に必須ではないことは、当業者なら理解するであろう。

図４および５には音声システムを示してあるが、本発明は、任意のパターン認識システムで使用することができ、音声に限定されない。

本発明を特定の実施形態に関して述べたが、本発明の趣旨および範囲を逸脱することなく形態および細部に変更を加えることもできることは、当業者なら理解するであろう。

本発明を適用できる実施形態のコンピューティング環境の１つのブロック図である。本発明を適用できる実施形態の代替コンピューティング環境のブロック図である。本発明を適用できる実施形態の雑音低減システムを使用する方法の流れ図である。本発明を適用できる実施形態の雑音低減システムおよび信号対雑音認識システムのブロック図である。本発明を適用できる実施形態のパターン認識システムのブロック図である。

符号の説明

４００話者
４０２加法性雑音
４０４マイクロホン
４０８フレームコンストラクタ
４１０特徴抽出器
４１２雑音推定
４１４雑音モデルトレーナ
４１６雑音低減パラメータ記憶
４１８雑音低減
４２２クリーン音声特徴ベクトルの推定値
５００トレーナ
５０２トレーニングテキスト
５０４音響モデル
５０６デコーダ
５０８レキシコン
５１０言語モデル
５１２信頼度測定モジュール
５１４出力モジュール

Claims

雑音の多い信号の中にみられるクリーン信号の一部を表すクリーン信号確率変数の推定値を識別する方法であって、
少なくとも前記クリーン信号確率変数および雑音確率変数の関数として、マッピング確率変数を定義するステップと、
前記マッピング確率変数の値の分布の少なくとも１つのアスペクトを記述する分布パラメータを判定するステップと、
前記分布パラメータを使用して、実測値から前記クリーン信号確率変数の推定値を判定するステップと
を備えることを特徴とする方法。
少なくとも前記クリーン信号確率変数および前記雑音確率変数の関数として前記マッピング確率変数を定義するステップは、前記クリーン信号確率変数と前記雑音確率変数との比として前記マッピング変数を定義するステップを含む
ことを特徴とする請求項１に記載の方法。
前記分布パラメータを使用して前記マッピング確率変数の推定値を判定するステップ
をさらに備えることを特徴とする請求項１に記載の方法。
コンピュータ実行可能命令を有するコンピュータ読み取り可能な記録媒体であって、前記コンピュータ実行可能命令は、
信号対雑音比変数の関数として確率変数を定義するステップと、
前記定義した関数に基づいて前記信号対雑音比についての分布パラメータを判定するステップと、
前記分布パラメータを使用して前記信号対雑音比の推定値を判定するステップと
を実施する命令であることを特徴とするコンピュータ読み取り可能な記録媒体。
前記確率変数は、クリーン信号の一部を表すクリーン信号確率変数を含む
ことを特徴とする請求項４に記載のコンピュータ読み取り可能な記録媒体。
前記確率変数は、観測された信号中の雑音を表す雑音信号確率変数を含む
ことを特徴とする請求項４に記載のコンピュータ読み取り可能な記録媒体。
確率変数を定義するステップは、前記確率変数を実測値の関数として定義するステップをさらに含む
ことを特徴とする請求項４に記載のコンピュータ読み取り可能な記録媒体。
分布パラメータを判定するステップは、テイラー級数展開を使用して関数を近似するステップを含む
ことを特徴とする請求項２に記載の方法。
反復を実施するステップをさらに備え、該ステップは、
テイラー級数展開を使用して平均を計算するステップと、
前記テイラー級数展開のための新しい展開点を前記平均に等しく設定するステップと、
前記新しい展開点を使用して前記反復ステップを繰り返すステップとを含む
ことを特徴とする請求項８に記載の方法。
前記クリーン信号確率変数の値の分布の少なくとも１つのアスペクトを記述するクリーン信号モデルパラメータを判定するステップと、
前記クリーン信号モデルパラメータを使用して前記クリーン信号確率変数の推定値を判定するステップと
をさらに備えることを特徴とする請求項１に記載の方法。
前記雑音確率変数の値の分布の少なくとも１つのアスペクトを記述する雑音モデルパラメータを判定するステップと、
前記雑音モデルパラメータを使用して前記クリーン信号確率変数の推定値を判定するステップと
をさらに備えることを特徴とする請求項１０に記載の方法。