JP2005062890A - クリーン信号確率変数の推定値を識別する方法 - Google Patents

クリーン信号確率変数の推定値を識別する方法 Download PDF

Info

Publication number
JP2005062890A
JP2005062890A JP2004239994A JP2004239994A JP2005062890A JP 2005062890 A JP2005062890 A JP 2005062890A JP 2004239994 A JP2004239994 A JP 2004239994A JP 2004239994 A JP2004239994 A JP 2004239994A JP 2005062890 A JP2005062890 A JP 2005062890A
Authority
JP
Japan
Prior art keywords
random variable
noise
signal
computer
clean signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004239994A
Other languages
English (en)
Other versions
JP4855661B2 (ja
Inventor
James G Droppo
ジー.ドロッポ ジェームス
Li Deng
デン リー
Alejandro Acero
アセロ アレサンドロ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2005062890A publication Critical patent/JP2005062890A/ja
Application granted granted Critical
Publication of JP4855661B2 publication Critical patent/JP4855661B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Abstract

【課題】 雑音を正確に推定してパターン認識信号中の雑音を低減するシステムおよび方法を提供する。
【解決手段】 本方法およびシステムは、少なくともクリーン信号確率変数および雑音確率変数の関数として、マッピング確率変数を定義する。次いで、マッピング確率変数の値の分布の少なくとも1つのアスペクトを記述するモデルパラメータを判定する。モデルパラメータに基づいて、クリーン信号確率変数の推定値を判定する。本発明の多くの態様では、マッピング確率変数は信号対雑音比変数であり、本方法およびシステムは、モデルパラメータから信号対雑音比変数の値を推定する。
【選択図】 図4

Description

本発明は、クリーン信号確率変数の推定値を識別する方法に関し、より詳細には、雑音低減に関連し、パターン認識で使用される信号から雑音を除去するための、クリーン信号確率変数の推定値を識別する方法および記録媒体に関する。
音声認識システムなどのパターン認識システムは、入力信号をとり、この信号を復号して、この信号で表されるパターンを見つけようとするものである。例えば音声認識システムでは、音声信号(しばしばテスト信号と呼ばれる)が、認識システムによって受け取られ、復号されて、この音声信号で表される単語列が識別される。
入力テスト信号を復号するために、ほとんどの認識システムは、テスト信号の一部が特定のパターンを表す尤度を記述する1つまたは複数のモデルを利用する。このようなモデルの例としては、ニューラルネット、ダイナミックタイムワーピング、セグメントモデル、隠れマルコフモデルがある。
モデルを入力信号の復号に使用することができるようになる前に、モデルをトレーニングしなければならない。これは通常、既知のトレーニングパターンから生成された入力トレーニング信号を測定することによって行う。例えば音声認識では、話者が既知のテキストから読み上げることによって、音声信号の集合を生成する。次いで、これらの音声信号を使用してモデルをトレーニングする。
モデルが最適に動作するためには、モデルをトレーニングするのに使用される信号が、復号される最終的なテスト信号に類似しているべきである。具体的には、トレーニング信号は、復号されるテスト信号と同じ量およびタイプの雑音を有するべきである。
通常、トレーニング信号は、「クリーンな」条件下で収集され、比較的無雑音と考えられる。これと同じ低いレベルの雑音をテスト信号でも達成するために、従来技術のシステムの多くは、テスト用データに雑音低減技法を適用する。
テストデータ中の雑音を低減するための既知の2つの技法では、雑音の多い音声が、時間領域におけるクリーン音声と雑音との線形の組合せとしてモデル化される。認識デコーダは、対数領域にあるメル周波数フィルタバンク機構に作用するので、時間領域におけるこの線形関係は、対数領域では以下のように近似される。
y=ln(e+e)+ε 式1
上式で、yは雑音の多い音声であり、xはクリーン音声であり、nは雑音であり、εは残余である。xとnが一定であり同位相である場合、εが0になるのが理想的である。しかし、εが0の期待値を有することができるとしても、実データでは、εは0でない値を有する。したがって、εは分散を有する。
これを補償するために、従来技術によるシステムの1つは、εをガウス型としてモデル化しており、このガウス型の分散は、雑音nおよびクリーン音声xの値に依存する。このシステムは、真の分布のすべての領域について優れた近似値を提供するが、xとnの両方で推論が必要なので、トレーニングに時間がかかる。
別のシステムでは、εは、雑音nにもクリーン音声xにも依存しないガウス型としてモデル化された。分散がxにもnにも依存していなかったので、その値はxおよびnが変化しても変化しないことになった。この結果、分散が過度に高く設定された場合に、雑音がクリーン音声よりもずっと大きいとき、またはクリーン音声が雑音よりもずっと大きいときは、優れたモデルを提供しないことになった。また、分散が過度に低く設定された場合に、雑音とクリーン音声とがほぼ等しいときは、優れたモデルを提供しないことになった。これに対処するために、従来技術では、反復的なテイラー級数近似を用いて分散を最適レベルに設定していた。
このシステムは、残余を雑音またはクリーン音声に依存するものとしてモデル化してはいなかったが、xとnの両方で推論が必要だったので、使用するにはやはり時間がかかった。
いくつかの文献に上述のような従来の技術に関連した技術内容が開示されている(例えば、非特許文献1参照)。
T. Kristjansson他, "Joint estimation of noise and channel distortion in a generalized EM framework," in Proc. ASRU 2001, Italy, December 2001
従来のシステムには上述したような種々の問題があり、さらなる改善が望まれている。
本発明は、このような状況に鑑みてなされたもので、その目的とするところは、最適な推定のための主要量として瞬時の信号対雑音比を使用して雑音を低減する、クリーン信号確率変数の推定値を識別する方法を提供することにある。
パターン認識信号中の雑音を低減するシステムおよび方法を提供する。本方法およびシステムは、少なくともクリーン信号確率(random)変数および雑音確率変数の関数として、マッピング確率変数を定義する。次いで、マッピング確率変数の値の分布の少なくとも1つのアスペクトを記述するモデルパラメータを判定する。モデルパラメータに基づいて、クリーン信号確率変数の推定値を判定する。本発明の多くの態様では、マッピング確率変数は信号対雑音変数であり、本方法およびシステムは、モデルパラメータから信号対雑音変数の値を推定する。
本発明によれば、最適な推定のための主要量として瞬時の信号対雑音比を使用して雑音を低減できる。
以下、図面を参照して本発明を適用できる実施形態を詳細に説明する。図1に、本発明を実施することのできる適したコンピューティングシステム環境100の例を示す。コンピューティングシステム環境100は、適したコンピューティング環境の一例にすぎず、本発明の使用または機能の範囲についてどんな制限も意味するものではない。またコンピューティング環境100は、この例示的な動作環境であるコンピューティングシステム環境100に示すコンポーネントのいずれか1つまたは組合せに関してどんな依存や要件を有するものとも解釈すべきではない。
本発明は、その他多くの汎用または専用コンピューティングシステム環境または構成でも機能する。本発明と共に使用するのに適するであろう周知のコンピューティングシステム、環境、および/または構成の例には、限定しないがパーソナルコンピュータ、サーバコンピュータ、ハンドヘルドデバイスまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能な民生用電子機器、ネットワークPC(personal computer)、ミニコンピュータ、メインフレームコンピュータ、電話システムや、これらのシステムまたはデバイスのいずれかを含む分散コンピューティング環境などが含まれる。
本発明は、プログラムモジュールなど、コンピュータによって実行されるコンピュータ実行可能命令の一般的な状況で述べることができる。一般にプログラムモジュールは、特定のタスクを実施するか特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。本発明は分散コンピューティング環境で実施されるように設計されており、通信ネットワークを介してリンクされたリモート処理デバイスによってタスクが実施される。分散コンピューティング環境では、プログラムモジュールは、メモリ記憶デバイスを含めたローカルとリモートの両方のコンピュータ記憶媒体に位置する。
図1を参照すると、本発明を実施するための例示的なシステムは、コンピュータ110の形の汎用コンピューティングデバイスを含む。コンピュータ110のコンポーネントには、限定しないがプロセッシングユニット120と、システムメモリ130と、システムメモリを含めた様々なシステムコンポーネントをプロセッシングユニット120に結合するシステムバス121とを含めることができる。システムバス121は、様々なバスアーキテクチャのいずれかを用いた、メモリバスまたはメモリコントローラ、周辺機器バス、ローカルバスを含めて、いくつかのタイプのバス構造のいずれかとすることができる。限定ではなく例として、このようなアーキテクチャには、ISA(Industry Standard Architecture)バス、MCA(Micro Channel Architecture)バス、EISA(Enhanced ISA)バス、VESA(Video Electronics Standards Association)ローカルバス、PCI(Peripheral Component Interconnect)バス(メザニンバスとも呼ばれる)が含まれる。
コンピュータ110は通常、様々なコンピュータ可読媒体を備える。コンピュータ可読媒体は、コンピュータ110からアクセスできる任意の利用可能な媒体とすることができ、揮発性と不揮発性の媒体、リムーバブルとノンリムーバブルの媒体の両方が含まれる。限定ではなく例として、コンピュータ可読媒体には、コンピュータ記憶媒体および通信媒体を含めることができる。コンピュータ記憶媒体には、コンピュータ可読命令、データ構造、プログラムモジュール、その他のデータなどの情報を記憶するための任意の方法または技術で実現された、揮発性と不揮発性、リムーバブルとノンリムーバブルの両方の媒体が含まれる。コンピュータ記憶媒体には、限定しないがRAM(random access memory)、ROM(random access memory)、EEPROM(electrically erasable programmable read-only memory)、フラッシュメモリまたはその他のメモリ技術、CD(compact disc)−ROM、DVD(Digital Versatile Disc)またはその他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置またはその他の磁気記憶デバイスが含まれ、あるいは、所望の情報を記憶するのに使用でき、コンピュータ110からアクセスできるその他の任意の媒体が含まれる。通信媒体は通常、搬送波やその他の移送機構などの変調されたデータ信号中に、コンピュータ可読命令、データ構造、プログラムモジュール、またはその他のデータを組み入れたものであり、任意の情報送達媒体が含まれる。「変調されたデータ信号」という語は、情報が信号に符号化される形で1つまたは複数の特性が設定または変更された信号を意味する。限定ではなく例として、通信媒体には、有線ネットワークや直接配線式接続などの有線媒体と、音響、RF(radio frequency)、赤外線、その他の無線媒体などの無線媒体とが含まれる。以上の任意の組合せもコンピュータ可読媒体の範囲に含めるべきである。
システムメモリ130は、読取り専用メモリ(ROM)131やランダムアクセスメモリ(RAM)132など、揮発性および/または不揮発性メモリの形のコンピュータ記憶媒体を含む。ROM131には通常、起動中などにコンピュータ110内の要素間で情報を転送するのを助ける基本ルーチンを含むBIOS(Basic Input/Output System)133が記憶されている。RAM132は通常、プロセッシングユニット120がすぐにアクセス可能な、かつ/またはプロセッシングユニット120が現在作用している、データおよび/またはプログラムモジュールを含む。限定ではなく例として、図1には、オペレーティングシステム134、アプリケーションプログラム135、その他のプログラムモジュール136、プログラムデータ137を示す。
コンピュータ110は、その他のリムーバブル/ノンリムーバブル、揮発性/不揮発性コンピュータ記憶媒体を備えることもできる。例にすぎないが図1には、ノンリムーバブル不揮発性の磁気媒体に対して読み書きするハードディスクドライブ141と、リムーバブル不揮発性磁気ディスク152に対して読み書きする磁気ディスクドライブ151と、CD ROMやその他の光媒体などリムーバブル不揮発性光ディスク156に対して読み書きする光ディスクドライブ155を示す。この例示的な動作環境で使用できる他のリムーバブル/ノンリムーバブル、揮発性/不揮発性コンピュータ記憶媒体には、限定しないが磁気テープカセット、フラッシュメモリカード、DVD、デジタルビデオテープ、ソリッドステートRAM、ソリッドステートROMなどが含まれる。ハードディスクドライブ141は通常、インタフェース140などのノンリムーバブルメモリインタフェースを介してシステムバス121に接続され、磁気ディスクドライブ151および光ディスクドライブ155は通常、インタフェース150などのリムーバブルメモリインタフェースでシステムバス121に接続される。
以上に論じ図1に示した各ドライブおよびそれらに関連するコンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、その他のデータの記憶域をコンピュータ110に提供する。例えば図1には、ハードディスクドライブ141がオペレーティングシステム144、アプリケーションプログラム145、その他のプログラムモジュール146、プログラムデータ147を記憶しているのが示されている。これらのコンポーネントは、オペレーティングシステム134、アプリケーションプログラム135、その他のプログラムモジュール136、プログラムデータ137と同じものとすることもでき、異なるものとすることもできることに留意されたい。ここでは、オペレーティングシステム144、アプリケーションプログラム145、その他のプログラムモジュール146、プログラムデータ147が少なくとも異なるコピーであることを示すために、異なる番号を付けてある。
ユーザは、キーボード162、マイクロホン163、マウスやトラックボールやタッチパッドと一般に呼ばれるポインティングデバイス161などの入力デバイスを介して、コンピュータ110にコマンドおよび情報を入力することができる。その他の入力デバイス(図示せず)には、ジョイスティック、ゲームパッド、衛星放送受信アンテナ、スキャナなどを含めることができる。これらおよびその他の入力デバイスは、システムバスに結合されたユーザ入力インタフェース160を介してプロセッシングユニット120に接続されることが多いが、パラレルポート、ゲームポート、ユニバーサルシリアルバス(USB)など、その他のインタフェースおよびバス構造で接続されてもよい。モニタ191または他のタイプの表示デバイスも、ビデオインタフェース190などのインタフェースを介してシステムバス121に接続される。モニタに加えて、コンピュータは、スピーカ197やプリンタ196など、その他の周辺出力デバイスも備えることができ、これらは出力周辺インタフェース195を介して接続することができる。
コンピュータ110は、リモートコンピュータ180など1つまたは複数のリモートコンピュータへの論理接続を用いて、ネットワーク化された環境で操作される。リモートコンピュータ180は、パーソナルコンピュータ、ハンドヘルドデバイス、サーバ、ルータ、ネットワークPC、ピアデバイス、またはその他の一般的なネットワークノードとすることができ、通常はコンピュータ110に関して上述した要素の多くまたはすべてを備える。図1に示す論理接続は、ローカルエリアネットワーク(LAN)171およびワイドエリアネットワーク(WAN)173を含むが、その他のネットワークを含むこともできる。このようなネットワーキング環境は、オフィス、企業全体のコンピュータネットワーク、イントラネット、インターネットでよくみられる。
コンピュータ110は、LANネットワーキング環境で使用されるときは、ネットワークインタフェースまたはアダプタ170を介してLAN171に接続される。WANネットワーキング環境で使用されるときは通常、インターネットなどのWAN173を介した通信を確立するためのモデム172またはその他の手段を備える。モデム172は内蔵でも外付けでもよく、ユーザ入力インタフェース160またはその他の適切な機構を介してシステムバス121に接続することができる。ネットワーク化された環境では、コンピュータ110に関して示したプログラムモジュールまたはその一部をリモートのメモリ記憶デバイスに記憶することができる。限定ではなく例として、図1には、リモートアプリケーションプログラム185がリモートコンピュータ180上にあるものとして示す。図示のネットワーク接続は例示的なものであり、コンピュータ間に通信リンクを確立するための他の手段を使用することもできることは理解されるであろう。
図2は、例示的なコンピューティング環境であるモバイルデバイス200のブロック図である。モバイルデバイス200は、マイクロプロセッサ202、メモリ204、入出力(I/O)コンポーネント206、および、リモートコンピュータまたは他のモバイルデバイスと通信するための通信インタフェース208を備える。一実施形態では、前述のコンポーネントは、適したバス210を介して相互に通信するように結合されている。
モバイルデバイス200への総合的な電力が遮断されたときにメモリ204に記憶済みの情報が失われないように、メモリ204は、電池バックアップモジュール(図示せず)付きのランダムアクセスメモリ(RAM)などの不揮発性電子メモリとして実装される。メモリ204の一部は、プログラム実行のためにアドレス指定可能メモリとして割り振られることが好ましく、メモリ204の別の部分は、ディスクドライブへの記憶をシミュレートするなど、記憶のために使用されることが好ましい。
メモリ204は、オペレーティングシステム212、アプリケーションプログラム214、ならびにオブジェクト記憶域216を含む。動作中、オペレーティングシステム212は、プロセッサ202によってメモリ204から実行されることが好ましい。オペレーティングシステム212は、好適な一実施形態では、Microsoft Corporationから市販されているWINDOWS(登録商標)CEブランドのオペレーティングシステムである。オペレーティングシステム212は、モバイルデバイス向けに設計されたものであることが好ましく、アプリケーション214が公開アプリケーションプログラミングインタフェースおよびメソッドのセットを介して利用することのできるデータベース機能を実現する。オブジェクト記憶域216中のオブジェクトは、少なくとも部分的に公開アプリケーションプログラミングインタフェースおよびメソッドへの呼出しに応答して、アプリケーション214およびオペレーティングシステム212によって維持される。
通信インタフェース208は、モバイルデバイス200が情報を送受信することを可能にする多くのデバイスおよび技術を表す。これらのデバイスには、少数の例を挙げれば、有線または無線モデム、衛星受信機、放送チューナが含まれる。モバイルデバイス200はまた、コンピュータとデータを交換するためにコンピュータに直接接続することもできる。このような場合、通信インタフェース208は、赤外線トランシーバ、あるいはシリアルまたはパラレル通信接続とすることができ、これらはすべてストリーミング情報を伝送することができる。
入出力コンポーネント206には、タッチセンシティブスクリーン、ボタン、ローラ、マイクロホンなどの様々な入力デバイス、ならびに、オーディオ生成器、振動デバイス、表示装置を含めた様々な出力デバイスが含まれる。以上に列挙したデバイスは例であり、すべてがモバイルデバイス200上にある必要はない。さらに、本発明の範囲内で、その他の入出力デバイスがモバイルデバイス200に付属しているか、モバイルデバイス200と共にみられるものとしてもよい。
本発明の一態様では、雑音の多い音声と、クリーン音声と雑音とを足した和との差に関する誤差項の中で0分散を仮定することによって、パターン認識信号中の雑音を低減するシステムおよび方法が提供される。これは過去には行われてこなかった。というのは、これは実際の挙動をうまくモデル化しないと考えられていたからであり、また、分散の値が0だと、雑音がクリーン音声よりもずっと大きいときにはクリーン音声の計算が不安定になったからである。このことは以下の式からわかる。
x=ln(e−e) 式2
上式で、xはクリーン音声の特徴ベクトルであり、yは雑音の多い音声の特徴ベクトルであり、nは雑音の特徴ベクトルである。nがxよりもずっと大きい場合、nとyはほぼ等しい。これが生じたとき、xはnの変化の影響を受けやすくなる。さらに、対数内の項が負にならないように、nに対して制約を課さなければならない。
これらの問題を克服するために、本発明は、信号対雑音比rを利用する。これは、特徴ベクトルの対数領域では以下のように表される。
r=x−n 式3
式3は、マッピング確率変数rに関する定義の1つを提供するものであることに留意されたい。マッピング確率変数に関する異なる定義を形成することになる、xとnの関係の修正形も、本発明の範囲内である。
この定義を使用し、前述の式2を書き換えて、以下のように特徴ベクトルrで表したxおよびnの定義を提供することができる。
x=y−ln(e+1)+r 式4
n=y−ln(e+1) 式5
式4と5の両方で、xとnは両方とも確率変数であって固定ではないことに留意されたい。したがって本発明では、雑音nまたはクリーン音声xに対する可能な値に制約を課すことなく、残余に0の値を仮定する。
xおよびnに関するこれらの定義を使用して、以下のように同時確率分布関数を定義することができる。
p(y,r,x,n,s)=p(y|x,n)p(r|x,n)p(x,s)p(n) 式6
上式で、sは音素などの音声状態であり、p(y|x,n)は、所与のクリーン音声特徴ベクトルxおよび雑音特徴ベクトルnの場合の、雑音の多い音声の特徴ベクトルyの確率を表す観測確率であり、p(r|x,n)は、所与のクリーン音声特徴ベクトルおよび雑音特徴ベクトルの場合の、信号対雑音比特徴ベクトルrの確率を表す信号対雑音確率であり、p(x,s)は、クリーン音声特徴ベクトルと音声状態の同時確率であり、p(n)は、雑音特徴ベクトルの事前確率である。
観測確率と信号対雑音比確率は両方とも、xおよびnの決定論的関数である。この結果、以下のように、条件付き確率をディラック(Dirac)のデルタ関数によって表すことができる。
p(y|x,n)=δ(ln(e+e)−y) 式7
p(r|x,n)=δ(x−n−r) 式8
上式で、
Figure 2005062890
これにより、同時確率密度関数をxおよびnに対して周辺化して、以下のように同時確率p(y,r,s)を生み出すことができる。
Figure 2005062890
上式で、p(x,s)は、平均
Figure 2005062890
および分散
Figure 2005062890
を伴うガウス型として表される確率p(x|s)と、音声状態に関する事前確率p(s)とに分離され、確率p(n)は、平均μおよび分散σを伴うガウス型として表される。
ガウス分布に適用される非線形関数を簡単にするために、本発明の一実施形態では、以下のように、非線形関数の一部に1次テイラー級数近似を利用する。
Figure 2005062890
上式で、
Figure 2005062890
上式で、
Figure 2005062890
は、テイラー級数展開のための展開点であり、
Figure 2005062890
は、信号対雑音比展開点ベクトル
Figure 2005062890
中の各要素に対して実施されるようなベクトル関数であり、
Figure 2005062890
は、信号対雑音比展開点ベクトルの各ベクトル要素に対して括弧内の関数を実施して、それらの値を行列の対角線に沿って配置する行列関数である。以下では簡単にするために、
Figure 2005062890
Figure 2005062890
として表し、
Figure 2005062890
Figure 2005062890
として表す。
次いで、式15のテイラー級数近似を、式14中のln(e+1)に代入して、以下の式を生み出すことができる。
Figure 2005062890
標準的なガウス処理数式を使用して、式18を以下の因数分解された形式に配置することができる。
p(y,r,s)=p(r|y,s)p(y|s)p(s) 式19
上式で、
Figure 2005062890
かつ、
Figure 2005062890
上式で、
Figure 2005062890
および
Figure 2005062890
は、音声状態sについての信号対雑音比の平均および分散である。
本発明の一態様では、式20〜26を使用して、クリーン音声および/または信号対雑音比の推定値を判定する。これらの判定を行う方法を、図4のブロック図を参照しながら以下に述べる図3の流れ図に示す。
図3のステップ300で、クリーントレーニング音声およびトレーニングテキストから、クリーン音声モデルの平均
Figure 2005062890
および分散
Figure 2005062890
、ならびに各音声状態sの事前確率p(s)をトレーニングする。各音声状態sごとに、異なる平均および分散をトレーニングすることに留意されたい。これらをトレーニングした後、クリーン音声モデルパラメータを雑音低減パラメータ記憶ユニット416に記憶する。
ステップ302で、入力された発話から特徴を抽出する。これを行うために、図4のマイクロホン404が、話者400および1つまたは複数の加法性雑音源402からの可聴周波を電気信号に変換する。次いで、電気信号はアナログデジタル変換器406によってサンプリングされて、一連のデジタル値が生成され、フレームコンストラクタ408によって値のフレームにグループ化される。一実施形態では、AD変換器406は、アナログ信号を16kHzおよび1サンプルあたり16ビットでサンプリングして、それにより毎秒32キロバイトの音声データを生成し、フレームコンストラクタ408は、25ミリ秒分のデータを含む新しいフレームを10ミリ秒ごとに生成する。
フレームコンストラクタ408から提供された各データフレームは、特徴抽出器410によって特徴ベクトルに変換される。このような特徴ベクトルを識別する方法は当技術分野で周知であり、これらの方法には、39次元のメル周波数ケプストラム係数(MFCC)抽出が含まれる。特定の一実施形態では、ほとんどのMFCC抽出システムで使用される対数エネルギー特徴をCで置き換え、スペクトルの大きさの代わりにパワースペクトル密度を使用する。
ステップ304で、図3の方法は、雑音推定ユニット412を使用して入力信号の各フレームごとの雑音を推定する。知られている任意の雑音推定技法を本発明の元で使用することができる(例えば、非特許文献1参照)。あるいは、単純な音声/非音声検出器を使用してもよい。
発話全体または発話の大部分にわたる雑音の推定値を、雑音モデルトレーナ414が使用して、推定された雑音からの平均μおよび分散σを含む雑音モデルを構築する。雑音モデルは、雑音低減パラメータ記憶域416に記憶される。
ステップ306で、雑音低減ユニット418が、クリーン音声モデルの平均と雑音モデルの平均とを使用して、式21および22のテイラー級数展開のための初期展開点
Figure 2005062890
を判定する。具体的には、各音声ユニットごとの初期展開点は、その音声ユニットのクリーン音声平均と、雑音の平均との差に等しく設定される。
テイラー級数展開点を初期化すると、ステップ308で、雑音低減ユニット418は、式21および22中のテイラー級数展開を使用して、各音声ユニットごとに信号対雑音比の平均
Figure 2005062890
を計算する。ステップ312で、信号対雑音比の平均を、これらの平均の前の値(もしあれば)と比較して、平均が安定値に収束したかどうかを判定する。収束していない場合(またはこれが最初の反復である場合)は、プロセスはステップ310に進み、テイラー級数展開点を信号対雑音比のそれぞれの平均に設定する。次いでプロセスはステップ308に戻り、式21および22を使用して信号対雑音比の平均を再推定する。信号対雑音比の平均が収束するまで、ステップ308、310、312を繰り返す。
信号対雑音比の平均が安定すれば、プロセスはステップ314に進み、テイラー級数展開を使用して、クリーン音声の推定値および/または信号対雑音比の推定値を判定する。クリーン音声の推定値は、以下のように計算される。
Figure 2005062890
上式で、
Figure 2005062890
また上式で、p(y|s)は前述の式23〜26を使用して計算され、p(s)はクリーン音声モデルからとられる。
信号対雑音比の推定値は、以下のように計算される。
Figure 2005062890
このように図3のプロセスで、入力信号の各フレームごとに、信号対雑音比の推定値420および/またはクリーン音声特徴ベクトルの推定値422を生み出すことができる。
信号対雑音比およびクリーン音声特徴ベクトルの推定値は、所望のどんな目的にも使用することができる。一実施形態では、クリーン音声特徴ベクトルの推定値は、図5に示す音声認識システム中で直接に使用される。
入力信号がトレーニング信号である場合は、クリーン音声特徴ベクトルの一連の推定値422がトレーナ500に提供され、トレーナ500は、クリーン音声特徴ベクトルの推定値およびトレーニングテキスト502を使用して、音響モデル504をトレーニングする。このようなモデルをトレーニングする技法は当技術分野で知られており、これらについての説明は本発明の理解に必要ではない。
入力信号がテスト信号である場合は、クリーン音声特徴ベクトルの推定値がデコーダ506に提供され、デコーダ506は、特徴ベクトルのストリーム、レキシコン508、言語モデル510、音響モデル504に基づいて、最も尤度の高い単語シーケンスを識別する。復号に使用される特定の方法は本発明にとって重要ではなく、知られているいくつかの復号方法のうちのどれを使用してもよい。
最も公算の高い仮説単語シーケンスが、信頼度測定モジュール512に提供される。信頼度測定モジュール512は、2次音響モデル(図示せず)に部分的に基づいて、音声認識装置によって間違って識別された可能性の最も高い単語はどれかを識別する。次いで信頼度測定モジュール512は、間違って識別されたかもしれない単語はどれかを示す識別子と共に、仮説単語シーケンスを出力モジュール514に提供する。信頼度測定モジュール512が本発明の実施に必須ではないことは、当業者なら理解するであろう。
図4および5には音声システムを示してあるが、本発明は、任意のパターン認識システムで使用することができ、音声に限定されない。
本発明を特定の実施形態に関して述べたが、本発明の趣旨および範囲を逸脱することなく形態および細部に変更を加えることもできることは、当業者なら理解するであろう。
本発明を適用できる実施形態のコンピューティング環境の1つのブロック図である。 本発明を適用できる実施形態の代替コンピューティング環境のブロック図である。 本発明を適用できる実施形態の雑音低減システムを使用する方法の流れ図である。 本発明を適用できる実施形態の雑音低減システムおよび信号対雑音認識システムのブロック図である。 本発明を適用できる実施形態のパターン認識システムのブロック図である。
符号の説明
400 話者
402 加法性雑音
404 マイクロホン
408 フレームコンストラクタ
410 特徴抽出器
412 雑音推定
414 雑音モデルトレーナ
416 雑音低減パラメータ記憶
418 雑音低減
422 クリーン音声特徴ベクトルの推定値
500 トレーナ
502 トレーニングテキスト
504 音響モデル
506 デコーダ
508 レキシコン
510 言語モデル
512 信頼度測定モジュール
514 出力モジュール

Claims (11)

  1. 雑音の多い信号の中にみられるクリーン信号の一部を表すクリーン信号確率変数の推定値を識別する方法であって、
    少なくとも前記クリーン信号確率変数および雑音確率変数の関数として、マッピング確率変数を定義するステップと、
    前記マッピング確率変数の値の分布の少なくとも1つのアスペクトを記述する分布パラメータを判定するステップと、
    前記分布パラメータを使用して、実測値から前記クリーン信号確率変数の推定値を判定するステップと
    を備えることを特徴とする方法。
  2. 少なくとも前記クリーン信号確率変数および前記雑音確率変数の関数として前記マッピング確率変数を定義するステップは、前記クリーン信号確率変数と前記雑音確率変数との比として前記マッピング変数を定義するステップを含む
    ことを特徴とする請求項1に記載の方法。
  3. 前記分布パラメータを使用して前記マッピング確率変数の推定値を判定するステップ
    をさらに備えることを特徴とする請求項1に記載の方法。
  4. コンピュータ実行可能命令を有するコンピュータ読み取り可能な記録媒体であって、前記コンピュータ実行可能命令は、
    信号対雑音比変数の関数として確率変数を定義するステップと、
    前記定義した関数に基づいて前記信号対雑音比についての分布パラメータを判定するステップと、
    前記分布パラメータを使用して前記信号対雑音比の推定値を判定するステップと
    を実施する命令であることを特徴とするコンピュータ読み取り可能な記録媒体。
  5. 前記確率変数は、クリーン信号の一部を表すクリーン信号確率変数を含む
    ことを特徴とする請求項4に記載のコンピュータ読み取り可能な記録媒体。
  6. 前記確率変数は、観測された信号中の雑音を表す雑音信号確率変数を含む
    ことを特徴とする請求項4に記載のコンピュータ読み取り可能な記録媒体。
  7. 確率変数を定義するステップは、前記確率変数を実測値の関数として定義するステップをさらに含む
    ことを特徴とする請求項4に記載のコンピュータ読み取り可能な記録媒体。
  8. 分布パラメータを判定するステップは、テイラー級数展開を使用して関数を近似するステップを含む
    ことを特徴とする請求項2に記載の方法。
  9. 反復を実施するステップをさらに備え、該ステップは、
    テイラー級数展開を使用して平均を計算するステップと、
    前記テイラー級数展開のための新しい展開点を前記平均に等しく設定するステップと、
    前記新しい展開点を使用して前記反復ステップを繰り返すステップとを含む
    ことを特徴とする請求項8に記載の方法。
  10. 前記クリーン信号確率変数の値の分布の少なくとも1つのアスペクトを記述するクリーン信号モデルパラメータを判定するステップと、
    前記クリーン信号モデルパラメータを使用して前記クリーン信号確率変数の推定値を判定するステップと
    をさらに備えることを特徴とする請求項1に記載の方法。
  11. 前記雑音確率変数の値の分布の少なくとも1つのアスペクトを記述する雑音モデルパラメータを判定するステップと、
    前記雑音モデルパラメータを使用して前記クリーン信号確率変数の推定値を判定するステップと
    をさらに備えることを特徴とする請求項10に記載の方法。
JP2004239994A 2003-08-19 2004-08-19 クリーン信号確率変数の推定値を識別する方法 Expired - Fee Related JP4855661B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/643,370 US7363221B2 (en) 2003-08-19 2003-08-19 Method of noise reduction using instantaneous signal-to-noise ratio as the principal quantity for optimal estimation
US10/643,370 2003-08-19

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2011090398A Division JP2011158918A (ja) 2003-08-19 2011-04-14 クリーン信号確率変数の推定値を識別する方法

Publications (2)

Publication Number Publication Date
JP2005062890A true JP2005062890A (ja) 2005-03-10
JP4855661B2 JP4855661B2 (ja) 2012-01-18

Family

ID=34063458

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2004239994A Expired - Fee Related JP4855661B2 (ja) 2003-08-19 2004-08-19 クリーン信号確率変数の推定値を識別する方法
JP2011090398A Pending JP2011158918A (ja) 2003-08-19 2011-04-14 クリーン信号確率変数の推定値を識別する方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2011090398A Pending JP2011158918A (ja) 2003-08-19 2011-04-14 クリーン信号確率変数の推定値を識別する方法

Country Status (5)

Country Link
US (1) US7363221B2 (ja)
EP (1) EP1508893B1 (ja)
JP (2) JP4855661B2 (ja)
KR (2) KR101117940B1 (ja)
CN (1) CN1584984B (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012504250A (ja) * 2008-09-29 2012-02-16 株式会社東芝 音声認識方法
WO2016009654A1 (ja) * 2014-07-16 2016-01-21 日本電気株式会社 雑音抑圧システムと雑音抑圧方法及びプログラムを格納した記録媒体

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7107210B2 (en) * 2002-05-20 2006-09-12 Microsoft Corporation Method of noise reduction based on dynamic aspects of speech
US7103540B2 (en) * 2002-05-20 2006-09-05 Microsoft Corporation Method of pattern recognition using noise reduction uncertainty
DE102004002546A1 (de) * 2004-01-17 2005-08-04 Abb Patent Gmbh Verfahren zum Betrieb eines Durchflussmesssystems
US8175877B2 (en) * 2005-02-02 2012-05-08 At&T Intellectual Property Ii, L.P. Method and apparatus for predicting word accuracy in automatic speech recognition systems
US7844453B2 (en) * 2006-05-12 2010-11-30 Qnx Software Systems Co. Robust noise estimation
US8831111B2 (en) * 2006-05-19 2014-09-09 The Hong Kong University Of Science And Technology Decoding with embedded denoising
US8369417B2 (en) * 2006-05-19 2013-02-05 The Hong Kong University Of Science And Technology Optimal denoising for video coding
ES2394515T3 (es) * 2007-03-02 2013-02-01 Telefonaktiebolaget Lm Ericsson (Publ) Métodos y adaptaciones en una red de telecomunicaciones
EP2210427B1 (en) 2007-09-26 2015-05-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for extracting an ambient signal
JP5642339B2 (ja) * 2008-03-11 2014-12-17 トヨタ自動車株式会社 信号分離装置及び信号分離方法
MY154452A (en) 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
ATE539433T1 (de) 2008-07-11 2012-01-15 Fraunhofer Ges Forschung Bereitstellen eines zeitverzerrungsaktivierungssignals und codierung eines audiosignals damit
US20100262423A1 (en) * 2009-04-13 2010-10-14 Microsoft Corporation Feature compensation approach to robust speech recognition
CN101894563B (zh) * 2010-07-15 2013-03-20 瑞声声学科技(深圳)有限公司 语音增强的方法
US8731923B2 (en) * 2010-08-20 2014-05-20 Adacel Systems, Inc. System and method for merging audio data streams for use in speech recognition applications
US20120143604A1 (en) * 2010-12-07 2012-06-07 Rita Singh Method for Restoring Spectral Components in Denoised Speech Signals
CN102571230A (zh) * 2011-12-22 2012-07-11 中国人民解放军总参谋部第六十三研究所 基于高阶统计量与信噪比盲估计的分布式协同信号识别方法
US20150287406A1 (en) * 2012-03-23 2015-10-08 Google Inc. Estimating Speech in the Presence of Noise
CN103280215B (zh) * 2013-05-28 2016-03-23 北京百度网讯科技有限公司 一种音频特征库建立方法及装置
CN105448303B (zh) * 2015-11-27 2020-02-04 百度在线网络技术(北京)有限公司 语音信号的处理方法和装置
CN107797000A (zh) * 2017-10-25 2018-03-13 成都西井科技有限公司 基于模型的分析的微波信号检测方法
CN112307422A (zh) * 2020-10-30 2021-02-02 天津光电通信技术有限公司 一种低信噪比下信号时频分析方法、装置及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06289891A (ja) * 1993-04-02 1994-10-18 Mitsubishi Electric Corp 音声認識装置
JPH09258768A (ja) * 1996-03-25 1997-10-03 Mitsubishi Electric Corp 騒音下音声認識装置及び騒音下音声認識方法
JPH10254499A (ja) * 1997-03-14 1998-09-25 Nippon Telegr & Teleph Corp <Ntt> 帯域分割型雑音低減方法及び装置
JPH11345000A (ja) * 1998-06-03 1999-12-14 Nec Corp 雑音消去方法及び雑音消去装置
US20020002455A1 (en) * 1998-01-09 2002-01-03 At&T Corporation Core estimator and adaptive gains from signal to noise ratio in a hybrid speech enhancement system

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4897878A (en) * 1985-08-26 1990-01-30 Itt Corporation Noise compensation in speech recognition apparatus
US5704007A (en) * 1994-03-11 1997-12-30 Apple Computer, Inc. Utilization of multiple voice sources in a speech synthesizer
JP3484757B2 (ja) * 1994-05-13 2004-01-06 ソニー株式会社 音声信号の雑音低減方法及び雑音区間検出方法
US5864812A (en) * 1994-12-06 1999-01-26 Matsushita Electric Industrial Co., Ltd. Speech synthesizing method and apparatus for combining natural speech segments and synthesized speech segments
US5850629A (en) * 1996-09-09 1998-12-15 Matsushita Electric Industrial Co., Ltd. User interface controller for text-to-speech synthesizer
CA2296330C (en) * 1997-07-31 2009-07-21 British Telecommunications Public Limited Company Generation of voice messages
KR100304666B1 (ko) * 1999-08-28 2001-11-01 윤종용 음성 향상 방법
US6879957B1 (en) * 1999-10-04 2005-04-12 William H. Pechter Method for producing a speech rendition of text from diphone sounds
US20030158734A1 (en) * 1999-12-16 2003-08-21 Brian Cruickshank Text to speech conversion using word concatenation
JP2002366186A (ja) * 2001-06-11 2002-12-20 Hitachi Ltd 音声合成方法及びそれを実施する音声合成装置
US7010488B2 (en) * 2002-05-09 2006-03-07 Oregon Health & Science University System and method for compressing concatenative acoustic inventories for speech synthesis

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06289891A (ja) * 1993-04-02 1994-10-18 Mitsubishi Electric Corp 音声認識装置
JPH09258768A (ja) * 1996-03-25 1997-10-03 Mitsubishi Electric Corp 騒音下音声認識装置及び騒音下音声認識方法
JPH10254499A (ja) * 1997-03-14 1998-09-25 Nippon Telegr & Teleph Corp <Ntt> 帯域分割型雑音低減方法及び装置
US20020002455A1 (en) * 1998-01-09 2002-01-03 At&T Corporation Core estimator and adaptive gains from signal to noise ratio in a hybrid speech enhancement system
JPH11345000A (ja) * 1998-06-03 1999-12-14 Nec Corp 雑音消去方法及び雑音消去装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012504250A (ja) * 2008-09-29 2012-02-16 株式会社東芝 音声認識方法
US8417522B2 (en) 2008-09-29 2013-04-09 Kabushiki Kaisha Toshiba Speech recognition method
WO2016009654A1 (ja) * 2014-07-16 2016-01-21 日本電気株式会社 雑音抑圧システムと雑音抑圧方法及びプログラムを格納した記録媒体
US10748551B2 (en) 2014-07-16 2020-08-18 Nec Corporation Noise suppression system, noise suppression method, and recording medium storing program

Also Published As

Publication number Publication date
US20050043945A1 (en) 2005-02-24
JP2011158918A (ja) 2011-08-18
EP1508893A3 (en) 2007-09-05
KR20110131147A (ko) 2011-12-06
EP1508893A2 (en) 2005-02-23
KR101201146B1 (ko) 2012-11-13
KR101117940B1 (ko) 2012-02-29
JP4855661B2 (ja) 2012-01-18
CN1584984A (zh) 2005-02-23
US7363221B2 (en) 2008-04-22
CN1584984B (zh) 2010-05-26
EP1508893B1 (en) 2013-05-22
KR20050020949A (ko) 2005-03-04

Similar Documents

Publication Publication Date Title
JP4855661B2 (ja) クリーン信号確率変数の推定値を識別する方法
JP4219774B2 (ja) 劣化信号から雑音を除去する非線形観測モデル
JP4491210B2 (ja) 再帰的構成における反復ノイズ推定法
JP4824286B2 (ja) 漸進的ベイズ学習を使用する雑音推定の方法
US7617098B2 (en) Method of noise reduction based on dynamic aspects of speech
US7460992B2 (en) Method of pattern recognition using noise reduction uncertainty
JP2005527002A (ja) ノイズの低減に関連する不確実性を判定する方法
JP4731855B2 (ja) 調波モデルに基づくフロントエンドを使用する頑強な音声認識のための方法およびコンピュータ可読記録媒体
US7254536B2 (en) Method of noise reduction using correction and scaling vectors with partitioning of the acoustic space in the domain of noisy speech
JP2006087082A (ja) 多感覚音声強調のための方法および装置
JP2005157354A (ja) 複数感知の音声強調のための方法および機器
US6944590B2 (en) Method of iterative noise estimation in a recursive framework
JP2004310098A (ja) スイッチング状態空間型モデルによる変分推論を用いた音声認識の方法
US7475012B2 (en) Signal detection using maximum a posteriori likelihood and noise spectral difference

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070820

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100827

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101125

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20101214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110414

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20110415

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110415

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20110512

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110708

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110914

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111021

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111027

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141104

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4855661

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees