JP4750271B2 - ノイズ補償されたスピーチ認識システムおよび方法 - Google Patents
ノイズ補償されたスピーチ認識システムおよび方法 Download PDFInfo
- Publication number
- JP4750271B2 JP4750271B2 JP2000530903A JP2000530903A JP4750271B2 JP 4750271 B2 JP4750271 B2 JP 4750271B2 JP 2000530903 A JP2000530903 A JP 2000530903A JP 2000530903 A JP2000530903 A JP 2000530903A JP 4750271 B2 JP4750271 B2 JP 4750271B2
- Authority
- JP
- Japan
- Prior art keywords
- noise
- speech
- input signal
- speech recognition
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 39
- 230000000694 effects Effects 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 6
- 230000001419 dependent effect Effects 0.000 claims description 5
- 230000015556 catabolic process Effects 0.000 claims description 3
- 238000006731 degradation reaction Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims 2
- 230000002194 synthesizing effect Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 9
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000002238 attenuated effect Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Description
発明の背景
I.発明の分野
本発明はスピーチ処理に関する。なお特に、本発明は話された語または句の自動認識のシステムおよび方法に関する。
II.関連技術の記述
スピーチ信号のデジタル処理は、特にセルラー電話およびPCS応用において広範囲にわたる使用を見出された。1つのデジタルスピーチ処理技術がスピーチ認識の技術である。スピーチ認識の使用は安全性の理由による重要性を得ている。例えば、スピーチ認識はセルラー電話キーパッドの押しボタンの手動作業に置き換って使用されるかもしれない。これはユーザが自動車を運転している間に電話コールを開始するとき特に重要である。スピーチ認識なしに電話を使用するとき、運転者はハンドルから片手を離し、コールをダイヤルするボタンを押す間電話キーパッドを見なくてはならない。これらの行為は自動車事故の可能性を増大する。スピーチ認識は、運転者が道路を連続的に見守りハンドルに両手を維持しながら電話コールをかけることを可能にする。スピーチ認識を含んでいるハンドフリーカーキットは安全理由のため将来システムにおいて多分法律によって要求されるであろう。
【0002】
今日使用にある最も普通の型の話者依存スピーチ認識は2つのフェイズ、訓練フェイズおよび認識フェイズで作動する。訓練フェイズにおいて、スピーチ認識システムは、ユーザが一度または二度語彙の各語を話すことをうながし、それによってシステムはこれら特定の語または句に対するユーザスピーチの特徴を学ぶことができる。認識語彙サイズは典型的に小さく(50語以下)、スピーチ認識システムは、それを訓練させたユーザにのみ高い認識精度を達成するであろう。ハンドフリーカーキットシステムの例示的語彙は、普通電話をかける同僚、友達あるいは家族メンバーの20名と同様に、キーパッドに数字、キーワード“コール”、“センド”、“ダイヤル”、“キャンセル”、“クリア”、“アッド”、“デリート”、“ヒストリー”、“プログラム”、“イエス”、および“ノー”を含む。一度訓練が完了すると、ユーザは訓練されたキーワードを話すことによりコールを認識フェイズに開始できる。例えば、もし名前“ジョン”が訓練された名前の1つであったなら、ユーザは句“コールジョン”と言うことによりジョンにコールを開始できる。スピーチ認識システムは“コール”と“ジョン”の語を認識し、ユーザがジョンの電話番号として既に入力した番号をダイヤルする。
【0003】
話者依存スピーチ認識システムの訓練ユニット6のブロック図が図1に示される。訓練ユニット6は入力s(n)として、訓練されるべき語または句の一組のデジタル化されたスピーチサンプルを受ける。スピーチ信号s(n)はパラメタ決定ブロック7を通され、特定の語または句のユーザの発音の特徴をとらえているNパラメタ{ p(n) n=1…N}のテンプレートを発生する。パラメタ決定ユニット7は多くのスピーチパラメタ決定技術の何れかを実行してもよく、その多くは技術においてよく知られている。パラメタ決定技術の例示的実施例は、本発明の譲受け人に譲渡され、ここに引用文献として組込まれた“可変レートボコーダ”と題するU.S.特許No.5,414,796に記述されたボコーダエンコーダである。パラメタ決定技術の代わりの実施例は高速フーリエ変換(FFT)であり、ここにNパラメタはN FFT係数である。他の実施例はFFT係数に基づいたパラメタを引き出す。各話された語または句はテンプレートデータベース8に記憶されたNパラメタの1つのテンプレートを発生する。訓練がM語彙語について完成された後、テンプレートデータベース8はMテンプレートを含み、各々Nパラメタを含んでいる。テンプレートデータベース8は不揮発性メモリのある型に記憶され、そのためパワーがターンオフされたときテンプレートは常駐する。
【0004】
図2は話者依存スピーチ認識システムの認識フェイズ中作動するスピーチ認識ユニット10のブロック図である。スピーチ認識ユニット10は全般的に訓練ユニット6からのテンプレートデータベース8であるテンプレートデータベース14を含む。スピーチ認識ユニット10への入力は、認識されるべきスピーチであるデジタル化された入力スピーチx(n)である。入力スピーチx(n)がパラメタ決定ブロック12に通され、訓練ユニット6のパラメタ決定ユニット7と同じパラメタ決定技術を実行する。パラメタ決定ブロック12は入力スピーチx(n)の特徴をモデルにするNパラメタ{t(n) n=1…N}の認識テンプレートを発生する。認識テンプレートt(n)はそれからパターン比較ブロック16へ通され、テンプレートt(n)およびテンプレートデータベース14に記憶された全てのテンプレート間でパターン比較を実行する。テンプレートt(n)およびテンプレートデータベース14の各テンプレート間の隔たりが決定ブロック18に転送され、認識テンプレートt(n)に最も近い相手となるテンプレートをテンプレートデータベース14から選択する。決定ブロック18の出力は語彙の語が話されたときの決定である。
【0005】
認識システムがいかに良く語彙の話された語または句を正確に認識するかで認識精度が測定される。例えば、95%の認識精度は認識ユニットが語彙の語を100の内95回正確に認識することを示す。伝統的なスピーチ認識システムにおいて、認識精度はノイズの存在でひどく低下される。精度損失の主な理由は、訓練フェイズが典型的に静かな環境で起るが、認識は典型的にノイズ環境で起ることである。例えば、ハンドフリーカーキットスピーチ認識システムは自動車がガレージに位置するか車道に駐車される間に通常訓練され、それ故エンジンおよびエアコンは運転しておらず、窓は通常閉められる。しかし、認識は通常自動車が動いている間に使用され、それ故エンジンは運転しており、道路や風のノイズが存在し、窓は開いているかもしれない。訓練および認識フェイズ間のノイズレベルの不均衡のため、認識テンプレートは訓練中に得られた何れのテンプレートとも良好な相手を形成しない。これは認識間違いまたは失敗の可能性を増大する。
【0006】
図3はノイズの存在でスピーチ認識を実行しなくてはならないスピーチ認識ユニット20を示す。図3に示されるように、合計器22がノイズ悪化されたスピーチ信号r(n)を発生するようにスピーチ信号x(n)とノイズ信号w(n)を加算する。合計器22はシステムの物理的な要素ではなく、ノイズ環境の人工物であることが理解されるであろう。ノイズ悪化されたスピーチ信号r(n)はパラメタ決定ブロック24に入力され、それはノイズ悪化テンプレートt1(n)を発生する。パターン比較ブロック28はテンプレートt1(n)を静かな環境で構成されたテンプレートデータベース26の全てのテンプレートと比較する。ノイズ悪化テンプレートt1(n)が訓練テンプレートの何れとも正確に相手とならないので、決定ブロック30により発生された決定は認識間違いまたは失敗である高い可能性がある。
【0007】
発明の概要
本発明はノイズの存在で話された語または句の自動認識のシステムおよび方法である。話者依存スピーチ認識システムは2つのフェイズ、訓練フェイズおよび認識フェイズで作動する。伝統的スピーチ認識システムの訓練フェイズにおいて、ユーザが特定語彙の全ての語または句を話すことをうながす。各語または句のデジタルスピーチサンプルが話された語を特徴付けるパラメタのテンプレートを発生するように処理される。訓練フェイズの出力はかかるテンプレートのライブラリである。認識フェイズにおいて、ユーザは所望の動作を開始するため特定の語または句を話す。話された語または句はデジタル化されテンプレートを発生するために処理され、それは訓練中に発生された全てのテンプレートと比較される。最も近い相手が実行されるであろう動作を決定する。スピーチ認識システムの精度を制限する主たる害はノイズの存在である。このノイズはテンプレートデータベースが作られた訓練中に存在しなかったので、認識中のノイズの付加は認識精度をひどく低下させる。発明は認識精度を改善するため認識のときに存在する特定のノイズ状態を勘案する必要を認識する。
【0008】
パラメタのテンプレートを記憶する代わりに、改良されたスピーチ処理システムおよび方法は、訓練フェイズにおいて各話された語または句のデジタル化されたスピーチサンプルを記憶する。訓練フェイズ出力はそれ故デジタル化されたスピーチデータベースである。認識フェイズにおいて、可聴周波環境のノイズ特徴が連続的に監視される。認識を開始するためユーザが語または句を話すとき、スピーチデータベースの各信号にノイズ信号を加算し、各スピーチプラスノイズ信号のパラメタ決定を実行することにより、ノイズ補償テンプレートデータベースが構成される。この加算されたノイズ信号の一実施例は、実際のノイズの特徴に似た特徴を有する人為的に合成されたノイズ信号である。代わりの実施例はユーザが認識を開始するため語または句を話す直前に起ったノイズのタイムウインドウの記憶である。テンプレートデータベースが認識されるべき話された語または句に存在するノイズと同じ型を使用して構成されるので、スピーチ認識ユニットはテンプレート間で良好な相手を見出し得、認識精度を改善する。
【0009】
本発明の特長、目的および利点は、同じ参照符号が対応している同一物を示す図面と共に理解されるとき以下に示す詳細な記述からより明らかになるであろう。
【0010】
好ましい実施例の詳細な記述
この発明はノイズが存在するときスピーチ認識精度を改善するシステムおよび方法を提供する。計算機パワーおよびメモリ集積度における最近の進歩を利用し、認識中のノイズの存在を計算に入れるように訓練および認識フェイズを修正する。スピーチ認識ユニットの機能は、ノイズ悪化されたスピーチに計算された認識テンプレートに最も近い相手を見出すことである。ノイズの特徴が時間および位置とともに変わるので、発明はテンプレートデータベースを構成する最良時間が認識フェイズ中であることを認識する。
【0011】
図4はスピーチ認識システムの改良された訓練ユニット40のブロック図を示す。図1に示された伝統的な訓練方法に対立するものとして、訓練ユニット40はパラメタ決定ステップを除去するために修正される。パラメタのテンプレートを記憶する代わりに、実際の語または句のデジタル化されたスピーチサンプルが記憶される。かくして、訓練ユニット40は入力スピーチサンプルs(n)として受け、スピーチデータベース42にデジタル化されたスピーチサンプルs(n)を記憶する。訓練後スピーチデータベース42はMスピーチ信号を含み、ここにMは語彙の語の数である。パラメタ決定を実行する従来のシステムおよび方法がスピーチパラメタのみを記憶することによりスピーチの特徴についての情報を失うのに対し、このシステムおよび方法は認識フェイズで使用の全てのスピーチ情報を保存してもよい。
【0012】
図5は訓練ユニット40と組合せて使用する改良されたスピーチ認識ユニット50のブロック図を示す。スピーチ認識ユニット50への入力はノイズ悪化されたスピーチ信号r(n)である。ノイズ悪化されたスピーチ信号r(n)はスピーチ信号x(n)をノイズ信号w(n)と加算している合計器52により発生される。前述のように合計器52はシステムの物理的要素ではなく、ノイズ環境の人工物である。
【0013】
スピーチ認識ユニット50はスピーチデータベース60を含み、それは訓練フェイズ中に記憶されたデジタル化されたスピーチサンプルを含む。スピーチ認識ユニット50はまたパラメタ決定ブロック54を含み、ノイズ悪化されたスピーチ信号r(n)がノイズ悪化されたテンプレートt1(n)を作るためにそれを通過される。伝統的な音声認識システムとしてパラメタ決定ブロック54は多くのスピーチパラメタ決定技術の何れかを実行してもよい。
【0014】
例示的パラメタ決定技術は線形予測コーディング(LPC)分析技術を使用する。LPC分析技術はデジタルフィルタとして声道をモデルにする。LPC分析の使用で、LPCケプストル係数c(m)がスピーチ信号を表わすためのパラメタであるように計算され得る。係数c(m)は以下のステップを使用して計算される。第1に、ノイズ悪化されたスピーチ信号r(n)がウインドウ関数v(n)を適用することによりスピーチサンプルのフレームに窓をかけられる:
【数1】
例示的実施において、ウインドウ関数v(n)はハミングウインドウであり、フレームサイズNは160に等しい。次に、自己相関係数が等式を使用して窓をかけられたサンプルについて計算される:
【数2】
例示的実施例において、P、計算されるべき自己相関係数の数はLPC予測器のオーダーに等しく、それは10である。LPC係数はそのときダービン(Dnrbin)の再帰アルゴリズムを使用して自己相関値から直接計算される。アルゴリズムは以下のように開始され得る:
【数3】
【数4】
【数5】
【数6】
【数7】
【数8】
6.もしi<Pならi=i+1で[数4]へ行く (8)
【数9】
7.LPC係数の最終解が以下として与えられる
LPC係数はそれから以下の等式を使用してLPCケプストル係数に変換される:
【数10】
【数11】
【数12】
LPCケプストル係数の代わりに他の技術がパラメタ決定のために使用され得ることが理解されるであろう。
【0015】
加えて、信号r(n)はスピーチの存在または不存在を決定するスピーチ検出ブロック56へ通される。スピーチ検出ブロック56は多くの技術の何れかを使用してスピーチの存在または不存在を決定する。かかる方法の1つは“可変レートボコーダ”と題する前述のU.S.特許No.5,414,796に記述される。この技術はスピーチの存在または不存在に関して決定をするためにスピーチ活動のレベルを分析する。スピーチ活動のレベルは背景ノイズエネルギー見積もりとの比較において信号のエネルギーに基礎を置かれる。第1に、エネルギーE(n)が各フレームについて計算され、それは好ましい実施例において160サンプルで構成される。背景ノイズエネルギー見積もりB(n)はそれから等式を使用して計算され得る:
【数13】
もしB(n) <160000なら、閾値は以下のようにB(n)を使用して計算される:
【数14】
【数15】
【数16】
もしB(n) >160000なら、3つの閾値が以下のように計算される:
【数17】
【数18】
【数19】
このスピーチ検出方法は、エネルギーE(n)が閾値T2(B(n))より大きいときにスピーチの存在を示し、エネルギーE(n)が閾値T2(B(n))より小さいときスピーチの不存在を示す。代わりの実施例において、この方法は背景ノイズエネルギー見積もりおよび2つまたはそれ以上の周波数帯域における閾値を計算するために拡張され得る。加えて、数式[数13]−[数19]により提供された値は実験的に決定され、環境に依存して修正されてもよい。
【0016】
スピーチ検出ブロック56がスピーチが存在しないと決定したとき、それはノイズ分析、モデルおよび合成ブロック58を可能にさせる制御信号を送る。スピーチの不存在において、受けられた信号r(n)はノイズ信号w(n)と同じであることが注目されるであろう。
【0017】
ノイズ分析、モデルおよび合成ブロック58が可能にされるとき、それはノイズ信号r(n)の特徴を分析し、それをモデルにし、かつ実際のノイズw(n)に似た特徴を有するノイズ信号w1(n)を合成する。ノイズ分析、モデルおよび合成を行なう例示的実施例は本発明の譲受け人に譲渡され、ここに引用文献として組込まれた“エコーキャンセラーにおけるノイズ置換システムおよび方法”と題するU.S.特許No.5,646,991に開示される。この方法はノイズ信号r(n)を以下により与えられる予測誤差フィルタを通すことによりノイズ分析を実行する:
【数20】
ここにP、予測器のオーダは例示的実施例において5である。LPC係数aiは式[数1]から[数9]を使用して前に説明されたように計算される。一度LPC係数が得られたなら、合成されたノイズサンプルはホワイトノイズが以下により与えられるノイズ合成フィルタを通すことにより同じスペクトル特性で発生され得る:
【数21】
それはノイズ分析のために使用されたフィルタのちょうど逆である。合成されたノイズエネルギーを実際のノイズエネルギーに等しくするため、各合成されたノイズサンプルにスケール係数を適用した後出力は合成されたノイズw1(n)である。
【0018】
合成されたノイズw1(n)は、合成されたノイズ悪化スピーチサンプルの組を発生するため合計器62によりスピーチデータベース60にあるデジタルスピーチサンプルの各組に加算される。それから、合成されたノイズ悪化スピーチサンプルの各組はパラメタ決定ブロック64を通され、それはパラメタ決定ブロック54で使用されたような同じパラメタ決定技術を使用している合成されたノイズ悪化スピーチサンプルの各組のパラメタの組を発生する。パラメタ決定ブロック64は各組のスピーチサンプルのパラメタのテンプレートを生成し、そのテンプレートはノイズ補償されたテンプレートデータベース66に記憶される。ノイズ補償されたテンプレートデータベース66は、もし伝統的な訓練が認識中に存在するのと同じ型のノイズで起ったなら構成される一組のテンプレートである。U.S.特許No.5,646,991に開示された方法に加えて、見積もられたノイズw1(n)を生成する多くの可能な方法があることを注目せよ。代わりの実施例は、ユーザが黙っているときに存在する実際のノイズのタイムウインドウを単純に記憶し、このノイズ信号を見積もられたノイズw1(n)として使用することである。認識されるべき語または句が話される前に適切に記憶されたノイズのタイムウインドウがこの方法の例示的実施例である。また他の方法は特定の期間中得られたノイズの種々のウインドウを平均することである。
【0019】
図5を参照すると、パターン比較ブロック68がノイズ悪化テンプレートt1(n)をノイズ補償テンプレートデータベース66の全てのテンプレートと比較する。ノイズの影響がノイズ補償テンプレートデータベース66のテンプレートに含まれるので、決定ブロック70はt1(n)の良好な相手を見出し得る。この方法でノイズの影響を計算に入れることにより、スピーチ認識システムの精度が改善される。
【0020】
前述された好ましい実施例は技術に熟練した者なら誰でも本発明を作りまたは使用することが可能なように提供された。これらの実施例に対する種々の修正が技術に熟練した者に既に明らかであり、ここに定義された基本的原理は発明の才能の使用なく他の実施例に適用されるかもしれない。かくして本発明はここに示された実施例に限定されることを意図されず、ここに開示された原理および新規な特徴を構成する最も広い範囲に従うべきである。
【図面の簡単な説明】
【図1】 スピーチ認識システムの訓練ユニットのブロック図である。
【図2】 スピーチ認識ユニットのブロック図である。
【図3】 ノイズにより悪化されたスピーチ入力のスピーチ認識を実行するスピーチ認識ユニットのブロック図である。
【図4】 スピーチ認識システムの改良された訓練ユニットのブロック図である。
【図5】 例示的に改良されたスピーチ認識ユニットのブロック図である。
【符号の説明】
6、40…訓練ユニット、 7…パラメタ決定ユニット、 8、14、26、66…テンプレートデータベース、 10、20、50…スピーチ認識ユニット、 12、24、54、64…パラメタ決定ブロック、 16、28、68…パターン比較ブロック、 18、30、70…決定ブロック、 22、52、62…合計器、 42、60…スピーチデータベース、 56…スピーチ検出ブロック、 58…合成ブロック
Claims (15)
- 訓練されるべき語または句の信号を受け、前記各語または句のデジタル化されたサンプルを発生し、かつ前記デジタル化されたサンプルをスピーチデータベースに記憶する訓練ユニットと、
認識されるべきノイズ悪化入力信号を受け、前記スピーチデータベースの前記デジタル化されたサンプルに、前記入力信号を受けることによるノイズの影響を適用することによりノイズ補償されたテンプレートデータベースを発生し、かつ前記ノイズ補償されたテンプレートデータベースに基づいて前記ノイズ悪化入力信号のスピーチ認識結果を提供するスピーチ認識ユニットとを含み、
前記スピーチ認識ユニットが、
前記ノイズ悪化入力信号を受け、前記入力信号にスピーチが存在するか否かを決定し、ここにおいて、前記入力信号にスピーチが存在するか否かを前記決定することは背景ノイズのエネルギーと前記入力信号から計算されたエネルギーとの比較に基づき、前記背景ノイズのエネルギーは前記入力信号から計算された前記エネルギーに基づいて推定され、前記入力信号にスピーチが存在しないと決定されたとき前記入力信号がノイズ信号と指定されるスピーチ検出ユニットと、
スピーチが前記入力信号に存在しないことの決定により活動的にされるノイズユニットとを含み、前記ノイズユニットは前記ノイズ信号を分析し、前記ノイズ信号の特徴を有する合成されたノイズ信号に連続的に合成し、前記合成されたノイズ信号は前記スピーチデータベースの前記デジタル化されたサンプルにノイズの影響を適用するスピーチ認識システム。 - 前記スピーチ決定ユニットが前記入力信号のスピーチ活性化のレベルを分析することによりスピーチの存在を決定する請求項1のスピーチ認識システム。
- 前記ノイズユニットが線形予測コーディング(LPC)技術を使用して分析し、前記合成されたノイズ信号に合成する請求項1のスピーチ認識システム。
- 前記合成されたノイズ信号が認識されるべき前記入力信号の直前に記憶されたウインドウの前記ノイズ信号に対応する請求項1のスピーチ認識システム。
- 前記合成されたノイズ信号が時間の予定の期間に記憶された種々のウインドウの前記ノイズ信号の平均に対応する請求項1のスピーチ認識システム。
- 前記スピーチ認識ユニットが、
前記ノイズ悪化入力信号を受け、予め決定されたパラメタ決定技術に従って前記入力信号を表わすパラメタのテンプレートを発生する第1のパラメタ決定ユニットと、
前記デジタル化されたサンプルに適用されたノイズの影響とともに前記スピーチデータベースを受け、前記予め決定されたパラメタ決定技術に従って前記ノイズ補償されたテンプレートデータベースを発生する第2のパラメタ決定ユニットと、
最良の相手を決定するため前記入力信号を表わすパラメタの前記テンプレートを前記ノイズ補償されたテンプレートデータベースのテンプレートと比較し、それにより前記スピーチ認識結果を確認するパターン比較ユニットとをさらに含む請求項1のスピーチ認識システム。 - 前記パラメタ決定技術が線形予測コーディング(LPC)分析技術である請求項6のスピーチ認識システム。
- 前記スピーチ決定ユニットが前記入力信号のスピーチ活性化のレベルを分析することによりスピーチの存在を決定する請求項6のスピーチ認識システム。
- 前記ノイズユニットが線形予測コーディング(LPC)技術を使用して分析し、前記合成されたノイズ信号に合成する請求項6のスピーチ認識システム。
- 前記合成されたノイズ信号が認識されるべき前記入力信号の直前に記憶されたウインドウの前記ノイズ信号に対応する請求項6のスピーチ認識システム。
- 前記合成されたノイズ信号が時間の予定の期間に記憶された種々のウインドウの前記ノイズ信号の平均に対応する請求項6のスピーチ認識システム。
- 入力信号を認識する話者依存のスピーチ認識システムのスピーチ認識ユニットであって、前記スピーチ認識ユニットはノイズ環境の影響を計算に入れており、
スピーチデータベースにおける訓練語彙の語または句のデジタル化されたサンプルを記憶する手段と、
前記訓練語彙のノイズ悪化されたデジタルサンプルを発生するために、前記訓練語彙のデジタル化されたサンプルに前記入力信号と関連したノイズの影響を適用する手段と、
前記ノイズ悪化されたデジタルサンプルに基づいてノイズ補償されたテンプレートデータベースを発生する手段と、
前記ノイズ補償されたテンプレートデータベースに基づいて前記入力信号のスピーチ認識結果を決定する手段とを含み、
前記ノイズの影響を適用する手段が、
前記入力信号にスピーチが存在するか否かを決定し、ここにおいて、前記入力信号にスピーチが存在するか否かを前記決定することは背景ノイズのエネルギーと前記入力音声から計算されたエネルギーとの比較に基づき、前記背景ノイズのエネルギーは前記入力信号から計算された前記エネルギーに基づいて推定され、前記入力信号にスピーチが存在しないと決定されたとき前記入力信号がノイズ信号と指定される手段と、
前記ノイズ信号を分析し、合成されたノイズ信号に連続的に合成し、前記合成されたノイズ信号は前記語彙の前記デジタル化されたサンプルに加算される手段とを含むスピーチ認識ユニット。 - 前記入力信号を受け、予め決定されたパラメタ決定技術に従って前記入力信号を表わすパラメタのテンプレートを発生する第1のパラメタ決定手段と、
前記語彙の前記ノイズ悪化されたデジタルサンプルを受け、前記予め決定されたパラメタ決定技術に従って前記ノイズ補償されたテンプレートデータベースのテンプレートを発生する第2のパラメタ決定手段とをさらに含み、
前記スピーチ認識結果を決定する手段が、最良の相手を決定するため前記入力信号を表わすパラメタの前記テンプレートを前記ノイズ補償されたテンプレートデータベースのテンプレートと比較し、それにより前記スピーチ認識結果を確認する請求項12のスピーチ認識ユニット。 - ノイズ環境の影響を計算に入れたスピーチ認識方法であって、
語彙に属している、訓練された各語または句のデジタル化されたサンプルを発生し、
前記デジタル化されたサンプルをスピーチデータベースに記憶し、
認識されるべきノイズ悪化された入力信号を受け、
前記語彙のノイズ悪化されたデジタルサンプルを発生するため、前記語彙の前記デジタル化されたサンプルに前記入力信号と関連したノイズの影響を適用し、前記適用は前記入力信号を受けることにより行われ、
前記ノイズ悪化されたデジタルサンプルに基づいてノイズ補償されたテンプレートデータベースを発生し、
前記ノイズ補償されたテンプレートデータベースに基づいて前記ノイズ悪化入力信号のスピーチ認識結果を提供するステップを含み、
ノイズの影響を適用する前記ステップが、
前記入力信号にスピーチが存在するか否かを決定し、ここにおいて、前記入力信号にスピーチが存在するか否かを前記決定することは背景ノイズのエネルギーと前記入力音声から計算されたエネルギーとの比較に基づき、前記背景ノイズのエネルギーは前記入力信号から計算された前記エネルギーに基づいて推定され、前記入力信号にスピーチが存在しないと決定されたとき前記入力信号がノイズ信号と指定され、
前記ノイズ信号を分析し、合成されたノイズ信号に連続的に合成し、前記合成されたノイズ信号は前記ノイズ悪化されたデジタルサンプルを発生するため前記語彙の前記デジタル化されたサンプルに加算されるステップを含むスピーチ認識方法。 - 予定のパラメタ決定技術に従って前記入力信号を表わすパラメタのテンプレートを発生し、
前記予定のパラメタ決定技術に従って前記ノイズ補償されたテンプレートデータベースのためのテンプレートを発生するステップをさらに含み、
前記スピーチ認識結果を提供するステップが最良の相手を決定するため前記入力信号を表わすパラメタの前記テンプレートを前記ノイズ補償されたテンプレートデータベースのテンプレートと比較し、それにより前記スピーチ認識結果を確認する請求項14のスピーチ認識方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/018,257 US6381569B1 (en) | 1998-02-04 | 1998-02-04 | Noise-compensated speech recognition templates |
US09/018,257 | 1998-02-04 | ||
PCT/US1999/002280 WO1999040571A1 (en) | 1998-02-04 | 1999-02-03 | System and method for noise-compensated speech recognition |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2002502993A JP2002502993A (ja) | 2002-01-29 |
JP2002502993A5 JP2002502993A5 (ja) | 2006-03-30 |
JP4750271B2 true JP4750271B2 (ja) | 2011-08-17 |
Family
ID=21787025
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000530903A Expired - Lifetime JP4750271B2 (ja) | 1998-02-04 | 1999-02-03 | ノイズ補償されたスピーチ認識システムおよび方法 |
Country Status (9)
Country | Link |
---|---|
US (2) | US6381569B1 (ja) |
EP (1) | EP1058925B1 (ja) |
JP (1) | JP4750271B2 (ja) |
KR (1) | KR100574594B1 (ja) |
CN (1) | CN1228761C (ja) |
AU (1) | AU2577499A (ja) |
DE (1) | DE69916255T2 (ja) |
HK (1) | HK1035600A1 (ja) |
WO (1) | WO1999040571A1 (ja) |
Families Citing this family (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6744887B1 (en) * | 1999-10-05 | 2004-06-01 | Zhone Technologies, Inc. | Acoustic echo processing system |
JP4590692B2 (ja) * | 2000-06-28 | 2010-12-01 | パナソニック株式会社 | 音響モデル作成装置及びその方法 |
US6631348B1 (en) * | 2000-08-08 | 2003-10-07 | Intel Corporation | Dynamic speech recognition pattern switching for enhanced speech recognition accuracy |
JP4244514B2 (ja) * | 2000-10-23 | 2009-03-25 | セイコーエプソン株式会社 | 音声認識方法および音声認識装置 |
US6999926B2 (en) * | 2000-11-16 | 2006-02-14 | International Business Machines Corporation | Unsupervised incremental adaptation using maximum likelihood spectral transformation |
US7236929B2 (en) * | 2001-05-09 | 2007-06-26 | Plantronics, Inc. | Echo suppression and speech detection techniques for telephony applications |
JP4240878B2 (ja) * | 2001-12-13 | 2009-03-18 | 四一 安藤 | 音声認識方法及び音声認識装置 |
JP3885002B2 (ja) * | 2002-06-28 | 2007-02-21 | キヤノン株式会社 | 情報処理装置およびその方法 |
US7340397B2 (en) * | 2003-03-03 | 2008-03-04 | International Business Machines Corporation | Speech recognition optimization tool |
US20050228673A1 (en) * | 2004-03-30 | 2005-10-13 | Nefian Ara V | Techniques for separating and evaluating audio and video source data |
DE102004049347A1 (de) * | 2004-10-08 | 2006-04-20 | Micronas Gmbh | Schaltungsanordnung bzw. Verfahren für Sprache enthaltende Audiosignale |
US8219391B2 (en) * | 2005-02-15 | 2012-07-10 | Raytheon Bbn Technologies Corp. | Speech analyzing system with speech codebook |
WO2006089055A1 (en) * | 2005-02-15 | 2006-08-24 | Bbn Technologies Corp. | Speech analyzing system with adaptive noise codebook |
CN1936829B (zh) * | 2005-09-23 | 2010-05-26 | 鸿富锦精密工业(深圳)有限公司 | 声音输出系统及方法 |
US7729911B2 (en) * | 2005-09-27 | 2010-06-01 | General Motors Llc | Speech recognition method and system |
KR100751923B1 (ko) * | 2005-11-11 | 2007-08-24 | 고려대학교 산학협력단 | 잡음환경에 강인한 음성인식을 위한 에너지 특징 보상 방법및 장치 |
US20070118372A1 (en) * | 2005-11-23 | 2007-05-24 | General Electric Company | System and method for generating closed captions |
CN100389421C (zh) * | 2006-04-20 | 2008-05-21 | 北京理工大学 | 一种快速构造用于关键词检出任务的语音数据库的方法 |
CN101636783B (zh) * | 2007-03-16 | 2011-12-14 | 松下电器产业株式会社 | 声音分析装置、声音分析方法及系统集成电路 |
US8868417B2 (en) * | 2007-06-15 | 2014-10-21 | Alon Konchitsky | Handset intelligibility enhancement system using adaptive filters and signal buffers |
US9343079B2 (en) | 2007-06-15 | 2016-05-17 | Alon Konchitsky | Receiver intelligibility enhancement system |
US8190440B2 (en) * | 2008-02-29 | 2012-05-29 | Broadcom Corporation | Sub-band codec with native voice activity detection |
US8615397B2 (en) * | 2008-04-04 | 2013-12-24 | Intuit Inc. | Identifying audio content using distorted target patterns |
US8433564B2 (en) * | 2009-07-02 | 2013-04-30 | Alon Konchitsky | Method for wind noise reduction |
DE102009059138A1 (de) | 2009-12-19 | 2010-07-29 | Daimler Ag | Verfahren und Testsystem zum Testen eines Spracherkennungssystems |
US20120143604A1 (en) * | 2010-12-07 | 2012-06-07 | Rita Singh | Method for Restoring Spectral Components in Denoised Speech Signals |
US9143571B2 (en) * | 2011-03-04 | 2015-09-22 | Qualcomm Incorporated | Method and apparatus for identifying mobile devices in similar sound environment |
US10078690B2 (en) * | 2011-12-31 | 2018-09-18 | Thomson Licensing Dtv | Method and device for presenting content |
CN103514878A (zh) * | 2012-06-27 | 2014-01-15 | 北京百度网讯科技有限公司 | 声学建模方法及装置和语音识别方法及装置 |
US9293148B2 (en) | 2012-10-11 | 2016-03-22 | International Business Machines Corporation | Reducing noise in a shared media session |
CN103903616B (zh) * | 2012-12-25 | 2017-12-29 | 联想(北京)有限公司 | 一种信息处理的方法及电子设备 |
CN103544953B (zh) * | 2013-10-24 | 2016-01-20 | 哈尔滨师范大学 | 一种基于背景噪声最小统计量特征的声音环境识别方法 |
US9466310B2 (en) * | 2013-12-20 | 2016-10-11 | Lenovo Enterprise Solutions (Singapore) Pte. Ltd. | Compensating for identifiable background content in a speech recognition device |
US9858922B2 (en) | 2014-06-23 | 2018-01-02 | Google Inc. | Caching speech recognition scores |
US9299347B1 (en) | 2014-10-22 | 2016-03-29 | Google Inc. | Speech recognition using associative mapping |
WO2017001611A1 (de) * | 2015-06-30 | 2017-01-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Verfahren und vorrichtung zum zuordnen von geräuschen und zum analysieren |
US9786270B2 (en) | 2015-07-09 | 2017-10-10 | Google Inc. | Generating acoustic models |
CN105405447B (zh) * | 2015-10-27 | 2019-05-24 | 航宇救生装备有限公司 | 一种送话呼吸噪声屏蔽方法 |
US10229672B1 (en) | 2015-12-31 | 2019-03-12 | Google Llc | Training acoustic models using connectionist temporal classification |
US20180018973A1 (en) | 2016-07-15 | 2018-01-18 | Google Inc. | Speaker verification |
CN106816154A (zh) * | 2016-12-15 | 2017-06-09 | 北京青笋科技有限公司 | 一种具有智能降噪功能的灯具语音识别控制方法 |
KR102410820B1 (ko) * | 2017-08-14 | 2022-06-20 | 삼성전자주식회사 | 뉴럴 네트워크를 이용한 인식 방법 및 장치 및 상기 뉴럴 네트워크를 트레이닝하는 방법 및 장치 |
US10706840B2 (en) | 2017-08-18 | 2020-07-07 | Google Llc | Encoder-decoder models for sequence to sequence mapping |
US10762905B2 (en) * | 2018-07-31 | 2020-09-01 | Cirrus Logic, Inc. | Speaker verification |
CN109256144B (zh) * | 2018-11-20 | 2022-09-06 | 中国科学技术大学 | 基于集成学习与噪声感知训练的语音增强方法 |
CN109841227B (zh) * | 2019-03-11 | 2020-10-02 | 南京邮电大学 | 一种基于学习补偿的背景噪声去除方法 |
CN110808030B (zh) * | 2019-11-22 | 2021-01-22 | 珠海格力电器股份有限公司 | 语音唤醒方法、系统、存储介质及电子设备 |
EP3862782A1 (en) * | 2020-02-04 | 2021-08-11 | Infineon Technologies AG | Apparatus and method for correcting an input signal |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4933973A (en) | 1988-02-29 | 1990-06-12 | Itt Corporation | Apparatus and methods for the selective addition of noise to templates employed in automatic speech recognition systems |
US5095503A (en) | 1989-12-20 | 1992-03-10 | Motorola, Inc. | Cellular telephone controller with synthesized voice feedback for directory number confirmation and call status |
CA2483296C (en) | 1991-06-11 | 2008-01-22 | Qualcomm Incorporated | Variable rate vocoder |
US5307405A (en) | 1992-09-25 | 1994-04-26 | Qualcomm Incorporated | Network echo canceller |
DE4340679A1 (de) | 1993-11-30 | 1995-06-01 | Detecon Gmbh | Sprachmodul für die akustische Wiedergabe von SAPI 3 Messages (Short Message Service) in einer Mobilstation (MS) |
US5845246A (en) * | 1995-02-28 | 1998-12-01 | Voice Control Systems, Inc. | Method for reducing database requirements for speech recognition systems |
IL116103A0 (en) | 1995-11-23 | 1996-01-31 | Wireless Links International L | Mobile data terminals with text to speech capability |
US5778342A (en) * | 1996-02-01 | 1998-07-07 | Dspc Israel Ltd. | Pattern recognition system and method |
US5950123A (en) | 1996-08-26 | 1999-09-07 | Telefonaktiebolaget L M | Cellular telephone network support of audible information delivery to visually impaired subscribers |
-
1998
- 1998-02-04 US US09/018,257 patent/US6381569B1/en not_active Expired - Lifetime
-
1999
- 1999-02-03 EP EP99905664A patent/EP1058925B1/en not_active Expired - Lifetime
- 1999-02-03 JP JP2000530903A patent/JP4750271B2/ja not_active Expired - Lifetime
- 1999-02-03 WO PCT/US1999/002280 patent/WO1999040571A1/en active IP Right Grant
- 1999-02-03 DE DE69916255T patent/DE69916255T2/de not_active Expired - Lifetime
- 1999-02-03 AU AU25774/99A patent/AU2577499A/en not_active Abandoned
- 1999-02-03 KR KR1020007008543A patent/KR100574594B1/ko not_active IP Right Cessation
- 1999-02-03 CN CNB998048860A patent/CN1228761C/zh not_active Expired - Lifetime
-
2000
- 2000-12-01 US US09/728,650 patent/US20010001141A1/en not_active Abandoned
-
2001
- 2001-08-14 HK HK01105667A patent/HK1035600A1/xx not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
US20010001141A1 (en) | 2001-05-10 |
KR20010040669A (ko) | 2001-05-15 |
CN1296607A (zh) | 2001-05-23 |
HK1035600A1 (en) | 2001-11-30 |
EP1058925B1 (en) | 2004-04-07 |
KR100574594B1 (ko) | 2006-04-28 |
DE69916255D1 (de) | 2004-05-13 |
EP1058925A1 (en) | 2000-12-13 |
DE69916255T2 (de) | 2005-04-14 |
WO1999040571A1 (en) | 1999-08-12 |
JP2002502993A (ja) | 2002-01-29 |
CN1228761C (zh) | 2005-11-23 |
US6381569B1 (en) | 2002-04-30 |
AU2577499A (en) | 1999-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4750271B2 (ja) | ノイズ補償されたスピーチ認識システムおよび方法 | |
US10109271B2 (en) | Frame erasure concealment technique for a bitstream-based feature extractor | |
EP1301922B1 (en) | System and method for voice recognition with a plurality of voice recognition engines | |
US8024184B2 (en) | Speech recognition device, speech recognition method, computer-executable program for causing computer to execute recognition method, and storage medium | |
US8666736B2 (en) | Noise-reduction processing of speech signals | |
US9530432B2 (en) | Method for determining the presence of a wanted signal component | |
US6182036B1 (en) | Method of extracting features in a voice recognition system | |
US20060165202A1 (en) | Signal processor for robust pattern recognition | |
US20020052741A1 (en) | Voice recognition system | |
JP2002311989A (ja) | チャネル歪みおよび背景雑音の両方に対して補正した音声認識方法 | |
US6792405B2 (en) | Bitstream-based feature extraction method for a front-end speech recognizer | |
JP2004251998A (ja) | 対話理解装置 | |
Kim et al. | Performance improvement of a bitstream-based front-end for wireless speech recognition in adverse environments | |
Gibson et al. | Speech signal processing | |
Tan et al. | Speech recognition over mobile Networks | |
JPH09230886A (ja) | 音声認識用耐雑音隠れマルコフモデル作成方法及びその作成方法を用いる音声認識装置 | |
JP2003513320A (ja) | 音声信号からの雑音の消去 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060203 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060203 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090310 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090423 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090804 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091203 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20091214 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20091225 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110519 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140527 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |