JP2004302470A - 漸進的ベイズ学習を使用する雑音推定の方法 - Google Patents

漸進的ベイズ学習を使用する雑音推定の方法 Download PDF

Info

Publication number
JP2004302470A
JP2004302470A JP2004101400A JP2004101400A JP2004302470A JP 2004302470 A JP2004302470 A JP 2004302470A JP 2004101400 A JP2004101400 A JP 2004101400A JP 2004101400 A JP2004101400 A JP 2004101400A JP 2004302470 A JP2004302470 A JP 2004302470A
Authority
JP
Japan
Prior art keywords
noise
frame
approximation
estimate
estimation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004101400A
Other languages
English (en)
Other versions
JP4824286B2 (ja
Inventor
Alejandro Acero
アセロ アレサンドロ
Li Deng
リ デン
James G Droppo
ジー.ドロッポ ジェームズ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2004302470A publication Critical patent/JP2004302470A/ja
Application granted granted Critical
Publication of JP4824286B2 publication Critical patent/JP4824286B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Noise Elimination (AREA)
  • Complex Calculations (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Picture Signal Circuits (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】 漸進的ベイズ学習を使用して、雑音を含む信号内の付加雑音を推定する方法および装置を提供する。
【解決手段】 経時変化する事前雑音分布が想定され、先行する時間ステップで計算された事後に関する近似を使用して、ハイパーパラメータ(平均および分散)が再帰的に更新される。時間領域内の付加雑音は、漸進的ベイズ学習を適用する前に、対数スペクトラムまたはケプストラム領域内で表される。別々のフレームの各々の雑音に関する平均および分散の両方の推定結果は、同じ対数スペクトラムまたはケプストラム領域内において音声の特徴の拡張を実行するために使用される。
【選択図】 図4

Description

本発明は、雑音推定に関する。より詳細には、本発明は、パターン認識に使用される信号の雑音推定に関する。
音声認識システムなどのパターン認識システムは、入力信号を受け取り、信号を復号して、信号によって表されたパターンを見つけようと試みる。例えば、音声認識システムでは、認識システムによって音声信号(テスト信号と呼ばれることが多い)が受け取られ、音声信号によって表された文字列を識別するために復号される。
入力信号は、典型的には、何らかの形の雑音によって破壊される。パターン認識システムの性能を向上させるためには、雑音を含む信号における雑音を推定することが望ましい場合が多い。
過去には、いくつかのフレームワークを使用して、信号内の雑音を推定してきた。第1のフレームワークでは、バッチアルゴリズムが使用され、これは、入力信号内の他のフレーム内に見られる雑音とは無関係に、入力信号の各フレーム内の雑音を推定する。個々の雑音推定値が平均されて、すべてのフレームに関するコンセンサス雑音(consensus noise)値が形成される。第2のフレームワークでは、再帰的アルゴリズムが使用され、これは、1または複数の、以前のまたは連続するフレームの雑音推定値に基づいて、現在のフレーム内の雑音を推定する。こうした再帰的技法は、経時的にゆっくりと変化する雑音を見込む。
1つの再帰的技法では、雑音を含む信号(noisy signal)は、クリーン信号(clean signal)と雑音信号(noise signal)の非線形関数となると想定される。計算を促進するために、この非線形関数は、いくつかの展開点に関して計算された、切断テイラー級数展開によって近似されることが多い。一般にテイラー級数展開は、展開点において、関数の最良推定値を表す。従って、テイラー級数近似法の良さは、展開点の選択と同程度にすぎない。ただし、従来技術の下では、テイラー級数の展開点は、フレームごとに最適化されることはなかった。従って、再帰的アルゴリズムで生成される雑音推定値は、理想的とは言えない。
最尤(ML:maximum-likelihood)および最大事後(MAP:maximum a posteriori)技法が、音響の場で反復的に線形化された非線形モデルを使用して、非定常雑音の連続点推定に使用されてきた。一般に、雑音の分布に関する単純なガウスモデルを使用して、MAP推定は、より品質の良い雑音推定を提供した。ただし、MAP技法では、事前ガウス雑音(Gaussian noise prior)に関連付けられた平均および分散パラメータは、各々音声フリーのテスト発声(speech-free test utterance)のセグメントから決定された。非定常雑音の場合、この近似は、実際の事前雑音統計(noise prior statistics)を適正に反映するものでない可能性がある。
以上に鑑みて、パターン信号の雑音推定における、より効果的な雑音推定技法が求められている。
非定常雑音を推定するための新しい方法は、漸進的ベイズ学習(incremental bayes learning)を使用する。一態様では、この技法は、ハイパーパラメータ(平均および分散)によって定義可能な雑音推定を、経時変化する事前雑音分布の仮定として定義することができ、事前雑音分布は、先行する時間またはフレームステップで計算された事後近似(approximation posterior)を使用して、再帰的に更新される。他の態様では、この技法は、各フレームについて連続的に、各フレーム内の雑音を推定するものとして定義して、現在のフレームの雑音推定が、現在のフレームのデータ尤度のガウス近似、および以前の一連のフレームにおける雑音のガウス近似に基づくようにすることができる。
図1に、本発明を実施することができる好適なコンピューティングシステム環境100の一例を示す。コンピューティングシステム環境100は、好適なコンピューティング環境の一例を示すものに過ぎず、本発明の使用または機能の範囲に関して、どのような制限も提案することを意図するものではない。さらに、コンピューティング環境100は、例示的オペレーティング環境100に示された構成要素のいずれか1つまたはいずれかの組合せに関して、どのような依存性または要件をも有するものと解釈するべきではない。
本発明は、多数の他の汎用または特定用途向けコンピューティングシステム環境または構成でも動作可能である。本発明で使用するのに好適な、よく知られたコンピューティングシステム、環境および/または構成の例には、これに限定されないが、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースシステム、セットトップボックス、プログラム可能消費家電、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、電話システム、上記いずれかのシステムを含む分散コンピューティング環境などを含む。
本発明は、コンピュータによって実行される、プログラムモジュールなどの、コンピュータ実行可能命令の一般的な文脈で説明することができる。一般に、プログラムモジュールには、特定のタスクを実行するか、または特定の抽象データ型を実施する、ルーチン、プログラム、オブジェクト、構成要素、データストラクチャなどが含まれる。プログラムおよびモジュールによって実行されるタスクについては、以下に図を用いて説明する。当分野の技術者であれば、本明細書の記述および/または図面を、以下で論じるいずれかの形のコンピュータ読取り可能媒体上で実施可能な、コンピュータ実行可能命令として実施することができる。
本発明は、通信ネットワークを介してリンクされたリモート処理デバイスによってタスクが実行される、分散コンピューティング環境でも実施可能である。分散コンピューティング環境では、プログラムモジュールは、メモリ記憶デバイスを含む、ローカルおよびリモートのどちらのコンピュータ記憶媒体にも配置することができる。
図1を参照すると、本発明を実施するための例示的システムには、コンピュータ110の形式の汎用コンピューティングデバイスが含まれる。コンピュータ110の構成要素は、これに限定されないが、処理ユニット120、システムメモリ130、および、システムメモリを含む様々なシステム構成要素を処理ユニット120に結合するシステムバス121を含むことができる。システムバス121は、メモリバスまたはメモリコントローラ、周辺バス、および、様々なバスアーキテクチャのうちのいずれかを使用するローカルバスを含む、いくつかの種類のバス構造のうちのいずれであってもよい。例を挙げると、これに限定されないが、こうしたアーキテクチャは、ISA(Industry Standard Architecture)バス、MCA(Micro Channel Architecture)バス、EISA(Enhanced ISA)バス、VESA(Video Electronics Standards Association)ローカルバス、および、メザニンバスとも呼ばれるPCI(Peripheral Component Interconnect)バスを含むことができる。
コンピュータ110は、典型的には、様々なコンピュータ読取り可能媒体を含む。コンピュータ読取り可能媒体は、コンピュータ110がアクセス可能な任意の使用可能媒体であってよく、揮発性および不揮発性媒体、取外し可能および取外し不能媒体の、どちらも含む。例を挙げると、コンピュータ読取り可能媒体は、コンピュータ記憶媒体および通信媒体を含むことができるが、これらに限定されない。コンピュータ記憶媒体は、コンピュータ読取り可能命令、データストラクチャ、プログラムモジュール、または他のデータなどの情報を格納するための、任意の方法または技術で実施された、揮発性および不揮発性、取外し可能および取外し不能のどちらの媒体も含む。コンピュータ記憶媒体は、これに限定されないが、RAM、ROM、EEPROM、フラッシュメモリまたは他のメモリ技術、CD−ROM、DVD(Digital Versatile Disk)または他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶または他の磁気記憶デバイス、あるいは、所望の情報の格納に使用可能であり、コンピュータ110がアクセス可能な、任意の他の媒体を含む。通信媒体は、典型的には、コンピュータ読取り可能命令、データストラクチャ、プログラムモジュール、または他のデータを、搬送波または他の移送メカニズムなどの変調データ信号で具体化し、任意の情報送達媒体を含む。「変調データ信号」という用語は、その特徴のうちの1または複数を、信号内の情報を符号化するのと同じ方法で設定または変更した信号を意味する。例を挙げると、これらに限定されないが、通信媒体は、有線ネットワークまたはダイレクトワイヤード接続などの有線媒体、および音波、RF、赤外線、および他の無線媒体などの無線媒体を含む。コンピュータ読取り可能媒体の範囲内は、上記のいずれかの組合せも含む。
システムメモリ130は、読取り専用メモリ(ROM)131およびランダムアクセスメモリ(RAM)132などの、揮発性および/または不揮発性メモリの形のコンピュータ記憶媒体を含む。起動時などに、コンピュータ110内の要素間で情報を転送するのに役立つ、基本ルーチンを含む基本入出力システム133(BIOS)は、通常、ROM131内に格納される。RAM132は、典型的には、処理ユニット120によって即時にアクセス可能であり、および/または、現在作動中である、データおよび/またはプログラムモジュールを含む。例を挙げると、これらに限定されないが、図1は、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136、およびプログラムデータ137を示す。
コンピュータ110は、他の取外し可能/取外し不能、揮発性/不揮発性の、コンピュータ記憶媒体を含むこともできる。単なる例に過ぎないが、図1には、取外し不能の不揮発性磁気媒体から読み取るかまたはこれに書き込むハードディスクドライブ141、取外し可能な不揮発性磁気ディスク152から読み取るかまたはこれに書き込む磁気ディスクドライブ151、および、CD ROMまたは他の光媒体などの取外し可能な不揮発性光ディスク156から読み取るかまたはこれに書き込む光ディスクドライブ155が示されている。例示的なオペレーティング環境で使用可能な、他の取外し可能/取外し不能、揮発性/不揮発性のコンピュータ記憶媒体は、これらに限定されないが、磁気テープカセット、フラッシュメモリカード、デジタル多用途ディスク、デジタルビデオテープ、ソリッドステートRAM、ソリッドステートROMなどを含む。ハードディスクドライブ141は、典型的には、インタフェース140などの取外し不能メモリインタフェースを介して、システムバス121に接続され、磁気ディスクドライブ151および光ディスクドライブ155は、典型的には、インタフェース150などの取外し可能メモリインタフェースによって、システムバス121に接続される。
上述し、図1に示した、ドライブおよびそれらの関連付けられたコンピュータ記憶媒体は、コンピュータ読取り可能命令、データストラクチャ、プログラムモジュール、およびコンピュータ110に関する他のデータの記憶域を提供するものである。例えば、図1では、ハードディスクドライブ141は、オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、およびプログラムデータ147を格納するものとして示されている。これらの構成要素は、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136、およびプログラムデータ137と同じであっても異なっていてもよいことに留意されたい。オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、およびプログラムデータ147には、少なくとも異なるコピーであることを示すために、ここでは異なる番号が与えられている。
ユーザは、キーボード162、マイクロフォン163、および、マウス、トラックボールまたはタッチパッドなどのポインティングデバイス161を介して、コマンドおよび情報をコンピュータ110に入力することができる。他の入力デバイス(図示せず)には、ジョイスティック、ゲームパッド、衛星放送用パラボラアンテナ、スキャナなどが含まれる。これらおよび他の入力デバイスは、システムバスに結合されたユーザ入力インタフェース160を介して、処理ユニット120に接続されることが多いが、パラレルポート、ゲームポート、またはユニバーサルシリアルバス(USB)などの、他のインタフェースおよびバス構造によって接続することもできる。モニタ191または他のタイプのディスプレイデバイスも、ビデオインタフェース190などのインタフェースを介して、システムバス121に接続される。コンピュータは、モニタに加えて、出力周辺インタフェース195を介して接続可能な、スピーカ197およびプリンタ196などの他の周辺出力デバイスを含むこともできる。
コンピュータ110は、リモートコンピュータ180などの1または複数のリモートコンピュータへの論理接続を使用して、ネットワーク化環境で動作可能である。リモートコンピュータ180は、パーソナルコンピュータ、ハンドヘルドデバイス、サーバ、ルータ、ネットワークPC、ピアデバイス、または他の共通ネットワークノードであってよく、典型的には、コンピュータ110に関して上記で述べた要素の多くまたはすべてを含む。図1に示された論理接続には、ローカルエリアネットワーク(LAN)171およびワイドエリアネットワーク(WAN)173が含まれるが、他のネットワークを含むこともできる。こうしたネットワーキング環境は、オフィス、企業規模のコンピュータネットワーク、イントラネット、およびインターネットでよく見られる。
LANネットワーキング環境で使用される場合、コンピュータ110は、ネットワークインタフェースまたはアダプタ170を介してLAN171に接続される。WANネットワーキング環境で使用される場合、コンピュータ110は、通常、インターネットなどのWAN173を介した通信を確立するために、モデム172または他の手段を含む。内蔵または外付けが可能なモデム172は、ユーザ入力インタフェース160または他の適切なメカニズムを介して、システムバス121に接続することができる。ネットワーク化環境では、コンピュータ110関して示されたプログラムモジュールまたはその一部を、リモートメモリ記憶デバイスに格納することができる。例を挙げると、図1では、リモートアプリケーションプログラム185がリモートコンピュータ180上に常駐しているように示されているが、これに限定されるものではない。示されたネットワーク接続は例示的なものであり、コンピュータ間に通信リンクを確立する他の手段が使用可能であることを理解されよう。
図2は、例示的なコンピューティング環境である、移動デバイス200を示す構成図である。移動デバイス200は、マイクロプロセッサ202、メモリ204、入出力(I/O)構成要素206、および、リモートコンピュータまたは他の移動デバイスと通信するための通信インタフェース208を含む。一実施形態では、前述の構成要素は、相互に通信するために、好適なバス210を介して結合される。
メモリ204は、移動デバイス200への一般的な電力が遮断されたときに、メモリ204に格納された情報が失われないように、バッテリバックアップモジュール(図示せず)を備えた、ランダムアクセスメモリ(RAM)などの不揮発性電子メモリとして実装される。好ましくは、メモリ204の一部がアドレス可能メモリとして割り振られ、好ましくは、メモリ204の他の部分が、ディスクドライブ上の記憶域をシミュレートするような記憶域に使用される。
メモリ204は、オペレーティングシステム212、アプリケーションプログラム214、ならびにオブジェクトストア216を含む。オペレーション時には、オペレーティングシステム212は、好ましくは、メモリ204からプロセッサ202によって実行される。好ましい一実施形態では、オペレーティングシステム212は、Microsoft Corporationから市販されている、WINDOWS(登録商標)CEブランドのオペレーティングシステムである。オペレーティングシステム212は、好ましくは移動デバイス用に設計され、アプリケーション214が、露出された(exposed)アプリケーションプログラミングインタフェースおよびメソッドのセットを介して使用可能なデータベース機能を実施する。オブジェクトストア216内のオブジェクトは、露出されたアプリケーションプログラミングインタフェースおよびメソッドへの呼び出しに応答して、少なくとも部分的に、アプリケーション214およびオペレーティングシステム212によって維持される。
通信インタフェース208は、移動デバイス200が情報を送受信できるようにする、多数のデバイスおよび技術を表す。デバイスは、一例を挙げると、有線および無線モデム、衛星受信機、ならびに放送チューナを含む。移動デバイス200は、データを交換するために、コンピュータに直接接続することもできる。このような場合には、通信インタフェース208は、赤外線受信機、ならびにシリアルまたはパラレル通信接続であってよく、それらはすべて、ストリーミング情報を伝送することができる。
入出力構成要素206は、タッチセンシティブスクリーン、ボタン、ローラ、およびマイクロフォンなどの様々な入力デバイス、ならびに、音声生成器、バイブレーティングデバイス、およびディスプレイを含む、様々な出力デバイスを含む。上述したデバイスは、例として示したものであって、移動デバイス200上にすべてが存在する必要はない。さらに、他の入出力デバイスは、本発明の範囲内にある移動デバイス200に取り付けられるか、またはこのデバイスが見つけることができる。
本発明の一態様の下で、パターン認識信号における雑音を推定するシステムおよび方法が提供される。これを実行するために、本発明は、再帰的アルゴリズムを使用して、少なくとも1つの隣接フレームに関して見つけられた雑音推定に部分的に基づき、雑音を含む信号の各フレームでの雑音を推定する。本発明の下では、漸進的ベイズ学習を使用することによって、単一のフレームに関する雑音を推定するが、ここでは、経時変化する事前雑音分布が想定され、雑音推定値は、先行フレームで計算された事後雑音に関する近似を使用して、再帰的に更新される。この再帰的プロセスを通して、雑音推定は非定常雑音を追跡することができる。
Figure 2004302470
を、対数領域(ログスペクトラムまたはケプストラム)で表された、一連の雑音を含む音声観察データとし、普遍性を失うことなしにスカラ値付けされるものと想定する。データ
Figure 2004302470
を使用して、同じデータ長さtを持つ、破壊した雑音シーケンス
Figure 2004302470
を逐次推定する。ベイズの学習フレームワークでは、雑音n(未知のパラメータとして扱われる)に関する知識は、所与のp(n)の事前分布に含まれると想定される。雑音シーケンスが定常である場合、すなわち、雑音の統計プロパティが経時的に変化しない場合、雑音パラメータnに関する従来のベイズ推論(すなわち事後を算出する)は、いかなる時点でも、以下の「バッチモード」ベイズ規則を介して実施することが可能であり、
Figure 2004302470
ここで、Θは、雑音パラメータ空間の許容領域である。
Figure 2004302470
が与えられると、原則として、雑音nに関する任意の推定が可能である。例えば、雑音nに関する従来のMAP点推定は、事後
Figure 2004302470
のグローバルまたはローカルの最大として計算される。最小平均二乗誤差(MMSE)推定は、事後
Figure 2004302470
を介した期待値である。
ただし、雑音シーケンスが非定常であり、雑音を含む音声
Figure 2004302470
のトレーニングデータが、ほとんどの実際の音声の特徴を拡張した応用の場合と同様に、逐次提示される場合、経時的に変化している雑音統計を追跡するために、新しい雑音推定技法が求められる。反復的な応用では、ベイズ規則は以下のように表すことができる。
Figure 2004302470
雑音の多い音声yとその過去の
Figure 2004302470
所与のn、または
Figure 2004302470
との間に、条件付き独立性があると想定し、事後
Figure 2004302470
内が平滑であると想定すると、以前の数式は、以下のように表すことができる。
Figure 2004302470
非定常雑音の漸進的な学習を、数式(1)を以下のように繰返し使用することにより、確立することができる。初期には、雑音を含む音声データyがなく、既知の事前p(n|y)=p(n)から事後PDFが得られるが、ここで、p(n)は、既知の雑音のみのフレームの分析および推定されたガウスから取得される。次にt=1の場合、式(1)を使用すると、
Figure 2004302470
が生成され、t=2の場合は、すでに数式2から計算されたp(n|y)を使用して、
Figure 2004302470
が生成される。t=3の場合、式(1)は、
Figure 2004302470
となり、以下同様である。従って、このプロセスは、以下のように、再帰的に一連の事後(p(y|n)が使用可能であるとすると)を生成し、
Figure 2004302470
これは、非定常雑音シーケンス
Figure 2004302470
に関する、漸進的ベイズの推定を行うための基本を提供する。次に、これまで論じてきた漸進的ベイズの推定の一般原理を、事前雑音がガウスであるという単純化された想定の下で、フレーム形式のデータPDF(p(y|n))を供給する特定の音響ひずみモデルに適用する。
雑音に適用すると、漸進的ベイズの学習は、最も近い過去まで観察されたデータが与えられた事後を使用して、雑音に関する現在の「事前」分布を更新するが、これは、この事後が、現時点以前のパラメータに関する最も完全な情報であるためである。この方法が図3に示されており、第1のステップでは、雑音を含む信号300がフレームに分割される。ステップ302では、各フレームについて、漸進的ベイズ学習が適用され、各フレームの雑音推定は、経時変化する事前雑音分布を想定し、雑音推定は、先行する時間フレームで計算された事後雑音に関する近似を使用して、再帰的に更新される。従って、式(3)の事後シーケンスは、(1フレームの大きさのタイムシフトを伴う)雑音分布パラメータに関して、経時変化する事前シーケンス(すなわち、事前進化)となる。一実施形態では、ステップ302は、式(1)で示された事後における平滑を想定する、先行フレーム、好ましくは直前のフレームにおける雑音推定を使用しながら、現在のフレームに関するデータ尤度p(y|n)の計算を含むことが可能である。
データ尤度p(y|n)が非ガウスである(簡単に説明する)場合、事後は、必然的に非ガウスである。式(1)を連続して適用すると、結果として、高速に展開する以前の事後の組合せとなり、処理が困難形となる。この困難を克服するために、近似法が求められる。使用される近似法は、yとnの間の非線形関係を線形化するために、1次テイラー級数展開を適用することである。これにより、p(y|n)のガウス形となる。従って、過去のデータ履歴
Figure 2004302470
について事後から継承された、経時変化する事前雑音PDFp(nτ+1)は、ガウスによって以下のように近似することができ、
Figure 2004302470
上式で、μnτおよび
Figure 2004302470
は、事前PDFを特徴付けるハイパーパラメータ(平均および分散)と呼ばれる。次に、再帰的ベイズ規則である式(1)から計算された式(3)の事後シーケンスは、ハイパーパラメータの一時進化を決定する、原則的な方法を提供し、これについて以下で論じる。
データ尤度p(y|n)を計算するための音響ひずみおよびクリーン音声モデルを示す。第1に、クリーン音声xの対数スペクトラムについて、以下のような経時変化しないガウスモデル混合を想定する。
Figure 2004302470
次に、以下のように、対数スペクトラム領域内の単純な非線形音響ひずみモデルを、使用することができ、
exp(y)=exp(x)+exp(n) または y=x+g(n-x) (6)
上式で、非線形関数は、以下のようになる。
g(z)=log[1+exp(z)]
データ尤度p(y|n)に関する有用な形を得るために、テイラー級数展開を使用して、式(6)の非線形性gを線形化する。これにより、線形化モデル
Figure 2004302470
が与えられ、ここで、nはテイラー級数展開点であり、1次級数展開係数は、以下のように容易に計算することができる。
Figure 2004302470
式(7)の関数gおよびg’を評価する際に、クリーン音声値xは、「最適な」混合ガウス構成要素mの平均(μ(m))とみなされる。
式(7)は、(nを固定した後の)ランダム変数xからyへの線形変換を定義する。この変換に基づいて、ラプラス近似法により、xに関するPDF(式5)から、以下のyに関するPDFが取得され、
Figure 2004302470
ここで、最適な混合構成要素は、以下のように決定され、
Figure 2004302470
ここで、近似ガウスの平均および分散は、以下のようになる。
Figure 2004302470
以下に示すように、p(y|n)に関するガウス推定を使用して、そのアルゴリズムを展開する。上記では、p(y|n)に関するガウス推定を提供するために、テイラー級数展開およびラプラス近似法を使用したが、本発明を逸脱することなくガウス推定を提供するために、他の技法も使用できることを理解されたい。例えば、式(8)のラプラス近似の使用に加えて、近似または(小数の構成要素を備えた)ガウス混合モデルに関する計算技法を使用することができる。
事前雑音において経時変化する平均および分散を推定するためのアルゴリズムを提供可能である。式(8)のようなp(y|n)に関する、および数式4のような
Figure 2004302470
に関する、近似ガウス形が与えられた場合、平均μnτおよび分散
Figure 2004302470
の経時変化するハイパーパラメータの逐次推定として表される、事前雑音進化を決定するためのアルゴリズムを提供可能である。式(4)および(8)を式(1)に代入すると、以下が得られ、
Figure 2004302470
ここで、μ1=yt-μx(m0)-gm0+g'm0n0であり、雑音が平滑であるという想定を使用した。左側および右側の平均および分散は、それぞれ、事前進化公式を取得するために、以下のように式(10)で突き合わされ、
Figure 2004302470
ここで、
Figure 2004302470
である。式(11)を確立する際には、雑音のテイラー級数展開点として、以前の時間の事前平均、すなわち
Figure 2004302470
が使用される。ガウス計算で適切に確立された結果(a1=g'm0に設定)も、以下のように使用した。
Figure 2004302470
単純化されても依然として効果的な想定のセットに基づいて、近似再帰的ベイズ規則の2次項突合せ(quadratic term matching)が使用され、式(11)で要約された事前雑音進化公式を首尾よく導出する。平均雑音推定は、RMS誤差削減によって、より正確に測定されることがわかっているが、分散情報を使用して、信頼性の基準を提供することができる。
上述した雑音推定技法は、雑音正規化技法または雑音除去で使用可能である(例えば、2002年4月5日出願、米国特許出願第10/117142号「Method of Noise Reduction Using Correction Vectors Based on Dynamic Aspects of Speech and Noise Normalization」明細書)。本発明は、クリーン信号を生成するために、各フレームに関して識別された推定雑音が雑音を含む信号から除去される、雑音削減システムの一部として、より直接的に使用することも可能である(例えば、2002年9月6日出願、米国特許出願第10/237163号「Non-linear Observation Model for Removing Noise from Corrupted Signals」明細書)。
図4は、雑音削減を実行することができる本発明の雑音推定技法を使用可能な環境を示すブロック図である。具体的に言えば、図4に、本発明の雑音推定技法を使用することができる音声認識システムを示す。このシステムは、音響モデルをトレーニングするために使用されるトレーニング信号における雑音を削減し、および/または、テスト信号の言語内容を識別するために音響モデルに対して再度適用されるテスト信号における雑音を削減する。
図4では、トレーナまたはユーザいずれかの話し手400が、マイクロフォン404に向かって話す。マイクロフォン404は、1または複数の雑音源からの付加雑音402も受け取る。マイクロフォン404によって検出された音波信号は、電気信号に変換され、アナログ−デジタル変換器406に送られる。
図4の実施形態では、付加雑音402はマイクロフォン404を介して入ってくるように示されているが、他の実施形態では、付加雑音402が、A/D変換器406の後のデジタル信号として、入力音声信号に追加されることもある。
A/D変換器406は、マイクロフォン404からのアナログ信号を、一連のデジタル値に変換する。いくつかの実施形態では、A/D変換器406は、16kHzおよびサンプルあたり16ビットで、アナログ信号をサンプリングし、それにより、毎秒32キロバイトの音声データを作成する。これらのデジタル値は、フレームコンストラクタ407に送られ、一実施形態では、10ミリ秒ごとに開始される25ミリ秒フレームに、この値をグループ化する。
フレームコンストラクタ407によって作成されたデータのフレームは、特徴抽出器408に送られ、各フレームから特徴を抽出する。特徴抽出モジュールの例は、線形予測符号化(LPC)、LPC導出ケプストラム、知覚線形予測(PLP)、聴覚モデル特徴抽出、およびメル周波数ケプストラム係数(MFCC)特徴抽出を実行するためのモジュールを含む。本発明は、これらの特徴抽出モジュールに限定されるものではなく、本発明の文脈において、他のモジュールも使用可能であることに留意されたい。
特徴抽出モジュールは、それぞれが音声信号のフレームに関連付けられた、特徴ベクトルのストリームを生成する。この特徴ベクトルのストリームが雑音削減モジュール410に送られ、本発明の雑音推定技法を使用して、各フレーム内の雑音を推定する。
雑音削減モジュール410の出力は、一連の「クリーン」特徴ベクトルである。入力信号がトレーニング信号の場合、この一連の「クリーン」特徴ベクトルはトレーナ424に送られ、「クリーン」特徴ベクトルおよびトレーニングテキスト426を使用して、音響モデル418をトレーニングする。こうしたモデルをトレーニングする技法は、当分野で知られており、本発明を理解するために、それらについて説明する必要はない。
入力信号がテスト信号の場合、「クリーン」特徴ベクトルは復号器412に送られ、これが、特徴ベクトルのストリームに基づいて、最も可能性の高い用語のシーケンス、辞書414、言語モデル416、および音響モデル418を識別する。復号に使用される特定の方法は、本発明にとって重要ではなく、復号用のいくつかの知られた方法のうちのいずれも使用可能である。
最も可能性の高い仮説用語のシーケンスが、信頼測度モジュール420に送られる。信頼測度モジュール420は、部分的に2次音響モデル(図示せず)に基づいて、どの用語が音声認識装置によって最も不適切に識別された可能性が高いかを識別する。次に、信頼測度モジュール420は、仮説用語のシーケンスを、どの用語が不適切に識別された可能性があるかを示す識別子と共に、出力モジュール422に送る。当分野の技術者であれば、本発明を実施するために、信頼測度モジュール420が必ずしも必要でないことを理解されよう。
図4は音声認識システムを示しているが、本発明は、どんなパターン認識システムでも使用可能であり、音声に限定されるものではない。
以上、本発明について、特定の実施形態を参照しながら説明してきたが、当分野の技術者であれば、本発明の精神および範囲を逸脱することなく、形式および詳細が変更可能であることを理解されよう。
本発明を実施することができるコンピューティング環境を示すブロック図である。 本発明を実施することができる代替コンピューティング環境を示すブロック図である。 本発明の一実施形態の下で雑音を推定する方法を示す流れ図である。 本発明を使用することができるパターン認識システムを示すブロック図である。
符号の説明
400 話し手
402 付加雑音
404 マイクロフォン
406 アナログ−デジタル変換器
407 フレームコンストラクタ
408 特徴抽出噐
410 雑音削減モジュール
412 復号器
414 辞書
416 言語モデル
418 音響モデル
420 信頼測度モジュール
422 出力モジュール
424 トレーナ
426 トレーニングテキスト

Claims (20)

  1. 雑音を含む信号内の雑音を推定する方法であって、
    前記雑音を含む信号をフレームに分割すること、および、
    漸進的ベイズ学習を使用して、フレームに関する平均および分散の両方を含む雑音推定を決定し、経時変化する事前雑音分布が想定され、雑音推定が、先行するフレームで計算された事後雑音に関する近似を使用して再帰的に更新されること
    を備えたことを特徴とする方法。
  2. 雑音推定を決定することは、
    先行するフレームで計算された事後雑音に関する近似を使用して、前記雑音を含む信号の第1のフレームに関する雑音推定を決定すること、
    前記雑音を含む信号の第2のフレームに関するデータ尤度推定を決定すること、および、
    前記第2のフレームに関するデータ尤度推定および前記第1のフレームに関する前記雑音推定を使用して、前記第2のフレームに関する雑音推定を決定すること
    を含むことを特徴とする請求項1に記載の方法。
  3. 前記第2のフレームに関する前記データ尤度推定を決定することは、クリーン信号および雑音信号の非線形関数として、前記雑音を含む信号の定義に部分的に基づく数式内の前記第2のフレームに関する前記データ尤度推定を使用することを含むことを特徴とする請求項2に記載の方法。
  4. 前記数式は、さらに前記非線形関数への近似に基づくことを特徴とする請求項3に記載の方法。
  5. 前記近似は、前記第1のフレームに関する前記雑音推定によって部分的に定義された時点での非線形関数に等しいことを特徴とする請求項2、3または4に記載の方法。
  6. 前記近似は、テイラー級数展開であることを特徴とする請求項5に記載の方法。
  7. 前記近似は、さらにラプラス近似を得ることを含むことを特徴とする請求項6に記載の方法。
  8. 前記第2のフレームに関する前記データ尤度推定を使用することは、非線形関数のテイラー級数展開のための展開点として、前記第1のフレームに関する前記雑音推定を使用することを含むことを特徴とする請求項2、3または4に記載の方法。
  9. 前記事後雑音に関する近似を使用することは、ガウス近似を使用することを含むことを特徴とする請求項1ないし4のいずれかに記載の方法。
  10. 前記雑音推定は、ガウス近似に基づくものであることを特徴とする請求項1ないし4のいずれかに記載の方法。
  11. 前記雑音推定は、各フレームに関する雑音推定を連続して決定することを含むことを特徴とする請求項10に記載の方法。
  12. 雑音を含む信号内の雑音を推定するための方法であって、
    前記雑音を含む信号をフレームに分割すること、および、
    各フレームに関して連続的に、各フレーム内の雑音を推定し、現在のフレームに関する雑音推定は、前記現在のフレームに関するデータ尤度のガウス近似、および事前フレームのシーケンスにおける雑音のガウス近似に基づくこと
    を備えたことを特徴とする方法。
  13. 前記各フレーム内の雑音を推定することは、クリーン信号および雑音信号の非線形関数として、前記雑音を含む信号の定義に部分的に基づく数式を使用して、前記現在のフレーム内のデータ尤度に関する近似を決定することを含むことを特徴とする請求項12に記載の方法。
  14. 前記数式は、さらに前記非線形関数への近似に基づくことを特徴とする請求項13に記載の方法。
  15. 前記近似は、前のフレームに関する前記雑音推定によって部分的に定義された時点での非線形関数に等しいことを特徴とする請求項14に記載の方法。
  16. 前記近似は、テイラー級数展開であることを特徴とする請求項15に記載の方法。
  17. 前記近似は、ラプラス近似をさらに含むことを特徴とする請求項16に記載の方法。
  18. 前記雑音推定は、雑音平均推定および雑音分散推定を含むことを特徴とする請求項12ないし17のいずれかに記載の方法。
  19. コンピュータが読み取り可能な命令を含むコンピュータ読取り可能媒体であって、実装されると、請求項1ないし18に記載の方法のいずれかをコンピュータに実行させることを特徴とするコンピュータ読取り可能媒体。
  20. 請求項1ないし18に記載の方法のいずれかを実行するように適合されることを特徴とするシステム。
JP2004101400A 2003-03-31 2004-03-30 漸進的ベイズ学習を使用する雑音推定の方法 Expired - Fee Related JP4824286B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/403,638 2003-03-31
US10/403,638 US7165026B2 (en) 2003-03-31 2003-03-31 Method of noise estimation using incremental bayes learning

Publications (2)

Publication Number Publication Date
JP2004302470A true JP2004302470A (ja) 2004-10-28
JP4824286B2 JP4824286B2 (ja) 2011-11-30

Family

ID=32850571

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004101400A Expired - Fee Related JP4824286B2 (ja) 2003-03-31 2004-03-30 漸進的ベイズ学習を使用する雑音推定の方法

Country Status (12)

Country Link
US (1) US7165026B2 (ja)
EP (1) EP1465160B1 (ja)
JP (1) JP4824286B2 (ja)
KR (1) KR101004495B1 (ja)
CN (1) CN100336102C (ja)
AT (1) ATE526664T1 (ja)
AU (1) AU2004201076B2 (ja)
BR (1) BRPI0400793A (ja)
CA (1) CA2461083C (ja)
ES (1) ES2371548T3 (ja)
MX (1) MXPA04002919A (ja)
RU (1) RU2370831C2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100901367B1 (ko) 2008-10-09 2009-06-05 인하대학교 산학협력단 조건 사후 최대 확률 기반 최소값 제어 재귀평균기법을 이용한 음성 향상 방법
CN103854662A (zh) * 2014-03-04 2014-06-11 中国人民解放军总参谋部第六十三研究所 基于多域联合估计的自适应语音检测方法
JP2015501002A (ja) * 2012-01-27 2015-01-08 三菱電機株式会社 混合信号における音声を強調する方法

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7103540B2 (en) * 2002-05-20 2006-09-05 Microsoft Corporation Method of pattern recognition using noise reduction uncertainty
US6957226B2 (en) * 2002-06-27 2005-10-18 Microsoft Corporation Searching multi-media databases using multi-media queries
US7729908B2 (en) * 2005-03-04 2010-06-01 Panasonic Corporation Joint signal and model based noise matching noise robustness method for automatic speech recognition
KR100755678B1 (ko) 2005-10-28 2007-09-05 삼성전자주식회사 개체명 검출 장치 및 방법
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
JP4868999B2 (ja) * 2006-09-22 2012-02-01 富士通株式会社 音声認識方法、音声認識装置及びコンピュータプログラム
US8423364B2 (en) * 2007-02-20 2013-04-16 Microsoft Corporation Generic framework for large-margin MCE training in speech recognition
US7925502B2 (en) * 2007-03-01 2011-04-12 Microsoft Corporation Pitch model for noise estimation
US7626889B2 (en) * 2007-04-06 2009-12-01 Microsoft Corporation Sensor array post-filter for tracking spatial distributions of signals and noise
US8214215B2 (en) 2008-09-24 2012-07-03 Microsoft Corporation Phase sensitive model adaptation for noisy speech recognition
GB2464093B (en) * 2008-09-29 2011-03-09 Toshiba Res Europ Ltd A speech recognition method
KR101597752B1 (ko) * 2008-10-10 2016-02-24 삼성전자주식회사 잡음 추정 장치 및 방법과, 이를 이용한 잡음 감소 장치
US8639502B1 (en) 2009-02-16 2014-01-28 Arrowhead Center, Inc. Speaker model-based speech enhancement system
AU2010295226B2 (en) * 2009-09-15 2015-05-28 The University Of Sydney A method and system for multiple dataset Gaussian process modeling
US20110178800A1 (en) * 2010-01-19 2011-07-21 Lloyd Watts Distortion Measurement for Noise Suppression System
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
CN102543092B (zh) * 2010-12-29 2014-02-05 联芯科技有限公司 一种噪声估计方法及装置
CN102185661B (zh) * 2010-12-31 2013-08-21 哈尔滨工业大学深圳研究生院 基于梯度法贝叶斯准则下的噪声增强分布检测方法及系统
US20120245927A1 (en) * 2011-03-21 2012-09-27 On Semiconductor Trading Ltd. System and method for monaural audio processing based preserving speech information
CN103295582B (zh) * 2012-03-02 2016-04-20 联芯科技有限公司 噪声抑制方法及其系统
US9258653B2 (en) 2012-03-21 2016-02-09 Semiconductor Components Industries, Llc Method and system for parameter based adaptation of clock speeds to listening devices and audio applications
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
CN104253650B (zh) * 2013-06-27 2016-12-28 富士通株式会社 信道内非线性损伤的估计装置及方法
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
WO2016033364A1 (en) 2014-08-28 2016-03-03 Audience, Inc. Multi-sourced noise suppression
CN105099618A (zh) * 2015-06-03 2015-11-25 香港中文大学深圳研究院 一种基于物理层网络编码的解码方法及相应数据处理方法
US10474950B2 (en) * 2015-06-29 2019-11-12 Microsoft Technology Licensing, Llc Training and operation of computational models
CN109657273B (zh) * 2018-11-16 2023-07-04 重庆大学 一种基于噪声增强的贝叶斯参数估计方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1115491A (ja) * 1997-06-16 1999-01-22 Digital Equip Corp <Dec> 環境的に補償されたスピーチ処理方法
JPH11296515A (ja) * 1998-04-10 1999-10-29 Nippon Telegr & Teleph Corp <Ntt> 言語モデルの近似学習装置及び方法、並びに、近似学習プログラムを記録した記録媒体
JP2001195084A (ja) * 1999-11-29 2001-07-19 Matsushita Electric Ind Co Ltd 音声認識のための文脈依存モデルの作成方法
WO2001097415A1 (en) * 2000-06-16 2001-12-20 At & T Laboratories-Cambridge Limited Method of extracting a signal
WO2002023842A1 (en) * 2000-09-11 2002-03-21 Fox Digital Apparatus and method for using adaptive algorithms to exploit sparsity in target weight vectors in an adaptive channel equalizer
JP2002123285A (ja) * 2000-10-13 2002-04-26 Sony Corp 話者適応装置および話者適応方法、記録媒体、並びに音声認識装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4852181A (en) * 1985-09-26 1989-07-25 Oki Electric Industry Co., Ltd. Speech recognition for recognizing the catagory of an input speech pattern
IL84948A0 (en) * 1987-12-25 1988-06-30 D S P Group Israel Ltd Noise reduction system
US5148489A (en) * 1990-02-28 1992-09-15 Sri International Method for spectral estimation to improve noise robustness for speech recognition
US5727124A (en) * 1994-06-21 1998-03-10 Lucent Technologies, Inc. Method of and apparatus for signal recognition that compensates for mismatching
US5604839A (en) * 1994-07-29 1997-02-18 Microsoft Corporation Method and system for improving speech recognition through front-end normalization of feature vectors
CA2216224A1 (en) * 1997-09-19 1999-03-19 Peter R. Stubley Block algorithm for pattern recognition
US6343267B1 (en) * 1998-04-30 2002-01-29 Matsushita Electric Industrial Co., Ltd. Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques
KR100304666B1 (ko) * 1999-08-28 2001-11-01 윤종용 음성 향상 방법
ITRM20000404A1 (it) * 2000-07-21 2002-01-21 Mario Zanchini Dispositivo contenitore pieghevole di rifiuti per autoveicoli, a struttura autoadesiva e con sacchetti sostituibili.
US20030055640A1 (en) * 2001-05-01 2003-03-20 Ramot University Authority For Applied Research & Industrial Development Ltd. System and method for parameter estimation for pattern recognition
US6944590B2 (en) * 2002-04-05 2005-09-13 Microsoft Corporation Method of iterative noise estimation in a recursive framework
US7107210B2 (en) * 2002-05-20 2006-09-12 Microsoft Corporation Method of noise reduction based on dynamic aspects of speech
US20040064314A1 (en) * 2002-09-27 2004-04-01 Aubert Nicolas De Saint Methods and apparatus for speech end-point detection
JP3523243B1 (ja) * 2002-10-01 2004-04-26 沖電気工業株式会社 ノイズ低減装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1115491A (ja) * 1997-06-16 1999-01-22 Digital Equip Corp <Dec> 環境的に補償されたスピーチ処理方法
JPH11296515A (ja) * 1998-04-10 1999-10-29 Nippon Telegr & Teleph Corp <Ntt> 言語モデルの近似学習装置及び方法、並びに、近似学習プログラムを記録した記録媒体
JP2001195084A (ja) * 1999-11-29 2001-07-19 Matsushita Electric Ind Co Ltd 音声認識のための文脈依存モデルの作成方法
WO2001097415A1 (en) * 2000-06-16 2001-12-20 At & T Laboratories-Cambridge Limited Method of extracting a signal
JP2004503983A (ja) * 2000-06-16 2004-02-05 エイティー アンド ティー ラボラトリーズ−ケンブリッジ リミテッド 信号を抽出する方法
WO2002023842A1 (en) * 2000-09-11 2002-03-21 Fox Digital Apparatus and method for using adaptive algorithms to exploit sparsity in target weight vectors in an adaptive channel equalizer
JP2004509521A (ja) * 2000-09-11 2004-03-25 フォックス ディジタル 適応アルゴリズムを用いて適応チャネル等化器の重みベクトルのスパーシティを活用する装置および方法
JP2002123285A (ja) * 2000-10-13 2002-04-26 Sony Corp 話者適応装置および話者適応方法、記録媒体、並びに音声認識装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100901367B1 (ko) 2008-10-09 2009-06-05 인하대학교 산학협력단 조건 사후 최대 확률 기반 최소값 제어 재귀평균기법을 이용한 음성 향상 방법
JP2015501002A (ja) * 2012-01-27 2015-01-08 三菱電機株式会社 混合信号における音声を強調する方法
CN103854662A (zh) * 2014-03-04 2014-06-11 中国人民解放军总参谋部第六十三研究所 基于多域联合估计的自适应语音检测方法

Also Published As

Publication number Publication date
CA2461083A1 (en) 2004-09-30
KR20040088360A (ko) 2004-10-16
BRPI0400793A (pt) 2005-01-11
CN1534598A (zh) 2004-10-06
JP4824286B2 (ja) 2011-11-30
MXPA04002919A (es) 2005-06-17
AU2004201076B2 (en) 2009-08-13
KR101004495B1 (ko) 2010-12-31
RU2370831C2 (ru) 2009-10-20
ATE526664T1 (de) 2011-10-15
US20040190732A1 (en) 2004-09-30
EP1465160B1 (en) 2011-09-28
RU2004109571A (ru) 2005-10-20
CA2461083C (en) 2013-01-29
US7165026B2 (en) 2007-01-16
AU2004201076A1 (en) 2004-10-21
EP1465160A2 (en) 2004-10-06
EP1465160A3 (en) 2005-01-12
ES2371548T3 (es) 2012-01-05
CN100336102C (zh) 2007-09-05

Similar Documents

Publication Publication Date Title
JP4824286B2 (ja) 漸進的ベイズ学習を使用する雑音推定の方法
EP1396845B1 (en) Method of iterative noise estimation in a recursive framework
US7617098B2 (en) Method of noise reduction based on dynamic aspects of speech
US7289955B2 (en) Method of determining uncertainty associated with acoustic distortion-based noise reduction
US7769582B2 (en) Method of pattern recognition using noise reduction uncertainty
US7418383B2 (en) Noise robust speech recognition with a switching linear dynamic model
EP1508893B1 (en) Method of noise reduction using instantaneous signal-to-noise ratio as the Principal quantity for optimal estimation
US6944590B2 (en) Method of iterative noise estimation in a recursive framework
JP2004102287A (ja) 劣化信号から雑音を除去する非線形観測モデル
US20050149325A1 (en) Method of noise reduction using correction and scaling vectors with partitioning of the acoustic space in the domain of noisy speech
JP2004310098A (ja) スイッチング状態空間型モデルによる変分推論を用いた音声認識の方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070308

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100302

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100528

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110128

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110525

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20110526

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110526

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20110615

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110902

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110908

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140916

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees