JP4750271B2

JP4750271B2 - ノイズ補償されたスピーチ認識システムおよび方法

Info

Publication number: JP4750271B2
Application number: JP2000530903A
Authority: JP
Inventors: サイ、ギルバート・シー; ビー、ニン
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 1998-02-04
Filing date: 1999-02-03
Publication date: 2011-08-17
Anticipated expiration: 2019-02-03
Also published as: US20010001141A1; KR20010040669A; CN1296607A; HK1035600A1; EP1058925B1; KR100574594B1; DE69916255D1; EP1058925A1; DE69916255T2; WO1999040571A1; JP2002502993A; CN1228761C; US6381569B1; AU2577499A

Description

【０００１】
発明の背景
I．発明の分野
本発明はスピーチ処理に関する。なお特に、本発明は話された語または句の自動認識のシステムおよび方法に関する。
II．関連技術の記述
スピーチ信号のデジタル処理は、特にセルラー電話およびPCS応用において広範囲にわたる使用を見出された。１つのデジタルスピーチ処理技術がスピーチ認識の技術である。スピーチ認識の使用は安全性の理由による重要性を得ている。例えば、スピーチ認識はセルラー電話キーパッドの押しボタンの手動作業に置き換って使用されるかもしれない。これはユーザが自動車を運転している間に電話コールを開始するとき特に重要である。スピーチ認識なしに電話を使用するとき、運転者はハンドルから片手を離し、コールをダイヤルするボタンを押す間電話キーパッドを見なくてはならない。これらの行為は自動車事故の可能性を増大する。スピーチ認識は、運転者が道路を連続的に見守りハンドルに両手を維持しながら電話コールをかけることを可能にする。スピーチ認識を含んでいるハンドフリーカーキットは安全理由のため将来システムにおいて多分法律によって要求されるであろう。
【０００２】
今日使用にある最も普通の型の話者依存スピーチ認識は２つのフェイズ、訓練フェイズおよび認識フェイズで作動する。訓練フェイズにおいて、スピーチ認識システムは、ユーザが一度または二度語彙の各語を話すことをうながし、それによってシステムはこれら特定の語または句に対するユーザスピーチの特徴を学ぶことができる。認識語彙サイズは典型的に小さく（50語以下）、スピーチ認識システムは、それを訓練させたユーザにのみ高い認識精度を達成するであろう。ハンドフリーカーキットシステムの例示的語彙は、普通電話をかける同僚、友達あるいは家族メンバーの20名と同様に、キーパッドに数字、キーワード“コール”、“センド”、“ダイヤル”、“キャンセル”、“クリア”、“アッド”、“デリート”、“ヒストリー”、“プログラム”、“イエス”、および“ノー”を含む。一度訓練が完了すると、ユーザは訓練されたキーワードを話すことによりコールを認識フェイズに開始できる。例えば、もし名前“ジョン”が訓練された名前の１つであったなら、ユーザは句“コールジョン”と言うことによりジョンにコールを開始できる。スピーチ認識システムは“コール”と“ジョン”の語を認識し、ユーザがジョンの電話番号として既に入力した番号をダイヤルする。
【０００３】
話者依存スピーチ認識システムの訓練ユニット６のブロック図が図１に示される。訓練ユニット６は入力s(n)として、訓練されるべき語または句の一組のデジタル化されたスピーチサンプルを受ける。スピーチ信号s(n)はパラメタ決定ブロック７を通され、特定の語または句のユーザの発音の特徴をとらえているＮパラメタ{ p(n) ｎ＝1…N}のテンプレートを発生する。パラメタ決定ユニット７は多くのスピーチパラメタ決定技術の何れかを実行してもよく、その多くは技術においてよく知られている。パラメタ決定技術の例示的実施例は、本発明の譲受け人に譲渡され、ここに引用文献として組込まれた“可変レートボコーダ”と題するU.S．特許No．5,414,796に記述されたボコーダエンコーダである。パラメタ決定技術の代わりの実施例は高速フーリエ変換(FFT)であり、ここにNパラメタはN FFT係数である。他の実施例はFFT係数に基づいたパラメタを引き出す。各話された語または句はテンプレートデータベース８に記憶されたNパラメタの1つのテンプレートを発生する。訓練がM語彙語について完成された後、テンプレートデータベース８はMテンプレートを含み、各々Nパラメタを含んでいる。テンプレートデータベース８は不揮発性メモリのある型に記憶され、そのためパワーがターンオフされたときテンプレートは常駐する。
【０００４】
図２は話者依存スピーチ認識システムの認識フェイズ中作動するスピーチ認識ユニット10のブロック図である。スピーチ認識ユニット10は全般的に訓練ユニット６からのテンプレートデータベース８であるテンプレートデータベース14を含む。スピーチ認識ユニット10への入力は、認識されるべきスピーチであるデジタル化された入力スピーチｘ(n)である。入力スピーチｘ(n)がパラメタ決定ブロック12に通され、訓練ユニット６のパラメタ決定ユニット７と同じパラメタ決定技術を実行する。パラメタ決定ブロック12は入力スピーチｘ(n)の特徴をモデルにするNパラメタ｛t(n) n=1…N｝の認識テンプレートを発生する。認識テンプレートt(n)はそれからパターン比較ブロック16へ通され、テンプレートt(n)およびテンプレートデータベース14に記憶された全てのテンプレート間でパターン比較を実行する。テンプレートt(n)およびテンプレートデータベース14の各テンプレート間の隔たりが決定ブロック18に転送され、認識テンプレートt(n)に最も近い相手となるテンプレートをテンプレートデータベース14から選択する。決定ブロック18の出力は語彙の語が話されたときの決定である。
【０００５】
認識システムがいかに良く語彙の話された語または句を正確に認識するかで認識精度が測定される。例えば、95%の認識精度は認識ユニットが語彙の語を100の内95回正確に認識することを示す。伝統的なスピーチ認識システムにおいて、認識精度はノイズの存在でひどく低下される。精度損失の主な理由は、訓練フェイズが典型的に静かな環境で起るが、認識は典型的にノイズ環境で起ることである。例えば、ハンドフリーカーキットスピーチ認識システムは自動車がガレージに位置するか車道に駐車される間に通常訓練され、それ故エンジンおよびエアコンは運転しておらず、窓は通常閉められる。しかし、認識は通常自動車が動いている間に使用され、それ故エンジンは運転しており、道路や風のノイズが存在し、窓は開いているかもしれない。訓練および認識フェイズ間のノイズレベルの不均衡のため、認識テンプレートは訓練中に得られた何れのテンプレートとも良好な相手を形成しない。これは認識間違いまたは失敗の可能性を増大する。
【０００６】
図３はノイズの存在でスピーチ認識を実行しなくてはならないスピーチ認識ユニット20を示す。図３に示されるように、合計器22がノイズ悪化されたスピーチ信号ｒ(n)を発生するようにスピーチ信号ｘ(n)とノイズ信号ｗ(n)を加算する。合計器22はシステムの物理的な要素ではなく、ノイズ環境の人工物であることが理解されるであろう。ノイズ悪化されたスピーチ信号ｒ(n)はパラメタ決定ブロック24に入力され、それはノイズ悪化テンプレートt1(n)を発生する。パターン比較ブロック28はテンプレートt1(n)を静かな環境で構成されたテンプレートデータベース26の全てのテンプレートと比較する。ノイズ悪化テンプレートt1(n)が訓練テンプレートの何れとも正確に相手とならないので、決定ブロック30により発生された決定は認識間違いまたは失敗である高い可能性がある。
【０００７】
発明の概要
本発明はノイズの存在で話された語または句の自動認識のシステムおよび方法である。話者依存スピーチ認識システムは２つのフェイズ、訓練フェイズおよび認識フェイズで作動する。伝統的スピーチ認識システムの訓練フェイズにおいて、ユーザが特定語彙の全ての語または句を話すことをうながす。各語または句のデジタルスピーチサンプルが話された語を特徴付けるパラメタのテンプレートを発生するように処理される。訓練フェイズの出力はかかるテンプレートのライブラリである。認識フェイズにおいて、ユーザは所望の動作を開始するため特定の語または句を話す。話された語または句はデジタル化されテンプレートを発生するために処理され、それは訓練中に発生された全てのテンプレートと比較される。最も近い相手が実行されるであろう動作を決定する。スピーチ認識システムの精度を制限する主たる害はノイズの存在である。このノイズはテンプレートデータベースが作られた訓練中に存在しなかったので、認識中のノイズの付加は認識精度をひどく低下させる。発明は認識精度を改善するため認識のときに存在する特定のノイズ状態を勘案する必要を認識する。
【０００８】
パラメタのテンプレートを記憶する代わりに、改良されたスピーチ処理システムおよび方法は、訓練フェイズにおいて各話された語または句のデジタル化されたスピーチサンプルを記憶する。訓練フェイズ出力はそれ故デジタル化されたスピーチデータベースである。認識フェイズにおいて、可聴周波環境のノイズ特徴が連続的に監視される。認識を開始するためユーザが語または句を話すとき、スピーチデータベースの各信号にノイズ信号を加算し、各スピーチプラスノイズ信号のパラメタ決定を実行することにより、ノイズ補償テンプレートデータベースが構成される。この加算されたノイズ信号の一実施例は、実際のノイズの特徴に似た特徴を有する人為的に合成されたノイズ信号である。代わりの実施例はユーザが認識を開始するため語または句を話す直前に起ったノイズのタイムウインドウの記憶である。テンプレートデータベースが認識されるべき話された語または句に存在するノイズと同じ型を使用して構成されるので、スピーチ認識ユニットはテンプレート間で良好な相手を見出し得、認識精度を改善する。
【０００９】
本発明の特長、目的および利点は、同じ参照符号が対応している同一物を示す図面と共に理解されるとき以下に示す詳細な記述からより明らかになるであろう。
【００１０】
好ましい実施例の詳細な記述
この発明はノイズが存在するときスピーチ認識精度を改善するシステムおよび方法を提供する。計算機パワーおよびメモリ集積度における最近の進歩を利用し、認識中のノイズの存在を計算に入れるように訓練および認識フェイズを修正する。スピーチ認識ユニットの機能は、ノイズ悪化されたスピーチに計算された認識テンプレートに最も近い相手を見出すことである。ノイズの特徴が時間および位置とともに変わるので、発明はテンプレートデータベースを構成する最良時間が認識フェイズ中であることを認識する。
【００１１】
図４はスピーチ認識システムの改良された訓練ユニット40のブロック図を示す。図１に示された伝統的な訓練方法に対立するものとして、訓練ユニット40はパラメタ決定ステップを除去するために修正される。パラメタのテンプレートを記憶する代わりに、実際の語または句のデジタル化されたスピーチサンプルが記憶される。かくして、訓練ユニット40は入力スピーチサンプルｓ(n)として受け、スピーチデータベース42にデジタル化されたスピーチサンプルｓ(n)を記憶する。訓練後スピーチデータベース42はMスピーチ信号を含み、ここにMは語彙の語の数である。パラメタ決定を実行する従来のシステムおよび方法がスピーチパラメタのみを記憶することによりスピーチの特徴についての情報を失うのに対し、このシステムおよび方法は認識フェイズで使用の全てのスピーチ情報を保存してもよい。
【００１２】
図５は訓練ユニット40と組合せて使用する改良されたスピーチ認識ユニット50のブロック図を示す。スピーチ認識ユニット50への入力はノイズ悪化されたスピーチ信号r(n)である。ノイズ悪化されたスピーチ信号r(n)はスピーチ信号x(n)をノイズ信号w(n)と加算している合計器52により発生される。前述のように合計器52はシステムの物理的要素ではなく、ノイズ環境の人工物である。
【００１３】
スピーチ認識ユニット50はスピーチデータベース60を含み、それは訓練フェイズ中に記憶されたデジタル化されたスピーチサンプルを含む。スピーチ認識ユニット50はまたパラメタ決定ブロック54を含み、ノイズ悪化されたスピーチ信号r(n)がノイズ悪化されたテンプレートt1(n)を作るためにそれを通過される。伝統的な音声認識システムとしてパラメタ決定ブロック54は多くのスピーチパラメタ決定技術の何れかを実行してもよい。
【００１４】
例示的パラメタ決定技術は線形予測コーディング（LPC）分析技術を使用する。LPC分析技術はデジタルフィルタとして声道をモデルにする。LPC分析の使用で、LPCケプストル係数c(m)がスピーチ信号を表わすためのパラメタであるように計算され得る。係数c(m)は以下のステップを使用して計算される。第1に、ノイズ悪化されたスピーチ信号r(n)がウインドウ関数v(n)を適用することによりスピーチサンプルのフレームに窓をかけられる：
【数１】

例示的実施において、ウインドウ関数v(n)はハミングウインドウであり、フレームサイズNは160に等しい。次に、自己相関係数が等式を使用して窓をかけられたサンプルについて計算される：
【数２】

例示的実施例において、P、計算されるべき自己相関係数の数はLPC予測器のオーダーに等しく、それは10である。LPC係数はそのときダービン（Dnrbin）の再帰アルゴリズムを使用して自己相関値から直接計算される。アルゴリズムは以下のように開始され得る：
【数３】

【数４】

【数５】

【数６】

【数７】

【数８】
６．もしｉ<Pならｉ＝ｉ＋１で［数４］へ行く（８）
【数９】
７．LPC係数の最終解が以下として与えられる

LPC係数はそれから以下の等式を使用してLPCケプストル係数に変換される：
【数１０】

【数１１】

【数１２】

LPCケプストル係数の代わりに他の技術がパラメタ決定のために使用され得ることが理解されるであろう。
【００１５】
加えて、信号r(n)はスピーチの存在または不存在を決定するスピーチ検出ブロック56へ通される。スピーチ検出ブロック56は多くの技術の何れかを使用してスピーチの存在または不存在を決定する。かかる方法の１つは“可変レートボコーダ”と題する前述のU.S.特許No．5,414,796に記述される。この技術はスピーチの存在または不存在に関して決定をするためにスピーチ活動のレベルを分析する。スピーチ活動のレベルは背景ノイズエネルギー見積もりとの比較において信号のエネルギーに基礎を置かれる。第1に、エネルギーE(n)が各フレームについて計算され、それは好ましい実施例において160サンプルで構成される。背景ノイズエネルギー見積もりB(n)はそれから等式を使用して計算され得る：
【数１３】

もしB(n) <160000なら、閾値は以下のようにB(n)を使用して計算される：
【数１４】

【数１５】

【数１６】

もしB(n) >160000なら、３つの閾値が以下のように計算される：
【数１７】

【数１８】

【数１９】

このスピーチ検出方法は、エネルギーE(n)が閾値Ｔ2(B(n)）より大きいときにスピーチの存在を示し、エネルギーE(n)が閾値Ｔ2(B(n)）より小さいときスピーチの不存在を示す。代わりの実施例において、この方法は背景ノイズエネルギー見積もりおよび２つまたはそれ以上の周波数帯域における閾値を計算するために拡張され得る。加えて、数式［数１３］−［数１９］により提供された値は実験的に決定され、環境に依存して修正されてもよい。
【００１６】
スピーチ検出ブロック56がスピーチが存在しないと決定したとき、それはノイズ分析、モデルおよび合成ブロック58を可能にさせる制御信号を送る。スピーチの不存在において、受けられた信号ｒ(n)はノイズ信号w(n)と同じであることが注目されるであろう。
【００１７】
ノイズ分析、モデルおよび合成ブロック58が可能にされるとき、それはノイズ信号ｒ(n)の特徴を分析し、それをモデルにし、かつ実際のノイズw(n)に似た特徴を有するノイズ信号w1(n)を合成する。ノイズ分析、モデルおよび合成を行なう例示的実施例は本発明の譲受け人に譲渡され、ここに引用文献として組込まれた“エコーキャンセラーにおけるノイズ置換システムおよび方法”と題するU.S．特許No．5,646,991に開示される。この方法はノイズ信号ｒ(n)を以下により与えられる予測誤差フィルタを通すことによりノイズ分析を実行する：
【数２０】

ここにP、予測器のオーダは例示的実施例において５である。LPC係数ａ_iは式［数１］から［数９］を使用して前に説明されたように計算される。一度LPC係数が得られたなら、合成されたノイズサンプルはホワイトノイズが以下により与えられるノイズ合成フィルタを通すことにより同じスペクトル特性で発生され得る：
【数２１】

それはノイズ分析のために使用されたフィルタのちょうど逆である。合成されたノイズエネルギーを実際のノイズエネルギーに等しくするため、各合成されたノイズサンプルにスケール係数を適用した後出力は合成されたノイズw1(n)である。
【００１８】
合成されたノイズw1(n)は、合成されたノイズ悪化スピーチサンプルの組を発生するため合計器62によりスピーチデータベース60にあるデジタルスピーチサンプルの各組に加算される。それから、合成されたノイズ悪化スピーチサンプルの各組はパラメタ決定ブロック64を通され、それはパラメタ決定ブロック54で使用されたような同じパラメタ決定技術を使用している合成されたノイズ悪化スピーチサンプルの各組のパラメタの組を発生する。パラメタ決定ブロック64は各組のスピーチサンプルのパラメタのテンプレートを生成し、そのテンプレートはノイズ補償されたテンプレートデータベース66に記憶される。ノイズ補償されたテンプレートデータベース66は、もし伝統的な訓練が認識中に存在するのと同じ型のノイズで起ったなら構成される一組のテンプレートである。U.S.特許Ｎo．5,646,991に開示された方法に加えて、見積もられたノイズw1(n)を生成する多くの可能な方法があることを注目せよ。代わりの実施例は、ユーザが黙っているときに存在する実際のノイズのタイムウインドウを単純に記憶し、このノイズ信号を見積もられたノイズw1(n)として使用することである。認識されるべき語または句が話される前に適切に記憶されたノイズのタイムウインドウがこの方法の例示的実施例である。また他の方法は特定の期間中得られたノイズの種々のウインドウを平均することである。
【００１９】
図５を参照すると、パターン比較ブロック68がノイズ悪化テンプレートt1(n)をノイズ補償テンプレートデータベース66の全てのテンプレートと比較する。ノイズの影響がノイズ補償テンプレートデータベース66のテンプレートに含まれるので、決定ブロック70はt1(n)の良好な相手を見出し得る。この方法でノイズの影響を計算に入れることにより、スピーチ認識システムの精度が改善される。
【００２０】
前述された好ましい実施例は技術に熟練した者なら誰でも本発明を作りまたは使用することが可能なように提供された。これらの実施例に対する種々の修正が技術に熟練した者に既に明らかであり、ここに定義された基本的原理は発明の才能の使用なく他の実施例に適用されるかもしれない。かくして本発明はここに示された実施例に限定されることを意図されず、ここに開示された原理および新規な特徴を構成する最も広い範囲に従うべきである。
【図面の簡単な説明】
【図１】スピーチ認識システムの訓練ユニットのブロック図である。
【図２】スピーチ認識ユニットのブロック図である。
【図３】ノイズにより悪化されたスピーチ入力のスピーチ認識を実行するスピーチ認識ユニットのブロック図である。
【図４】スピーチ認識システムの改良された訓練ユニットのブロック図である。
【図５】例示的に改良されたスピーチ認識ユニットのブロック図である。
【符号の説明】
６、40…訓練ユニット、７…パラメタ決定ユニット、８、14、26、66…テンプレートデータベース、 10、20、50…スピーチ認識ユニット、 12、24、54、64…パラメタ決定ブロック、 16、28、68…パターン比較ブロック、 18、30、70…決定ブロック、 22、52、62…合計器、 42、60…スピーチデータベース、 56…スピーチ検出ブロック、 58…合成ブロック

Claims

訓練されるべき語または句の信号を受け、前記各語または句のデジタル化されたサンプルを発生し、かつ前記デジタル化されたサンプルをスピーチデータベースに記憶する訓練ユニットと、
認識されるべきノイズ悪化入力信号を受け、前記スピーチデータベースの前記デジタル化されたサンプルに、前記入力信号を受けることによるノイズの影響を適用することによりノイズ補償されたテンプレートデータベースを発生し、かつ前記ノイズ補償されたテンプレートデータベースに基づいて前記ノイズ悪化入力信号のスピーチ認識結果を提供するスピーチ認識ユニットとを含み、
前記スピーチ認識ユニットが、
前記ノイズ悪化入力信号を受け、前記入力信号にスピーチが存在するか否かを決定し、ここにおいて、前記入力信号にスピーチが存在するか否かを前記決定することは背景ノイズのエネルギーと前記入力信号から計算されたエネルギーとの比較に基づき、前記背景ノイズのエネルギーは前記入力信号から計算された前記エネルギーに基づいて推定され、前記入力信号にスピーチが存在しないと決定されたとき前記入力信号がノイズ信号と指定されるスピーチ検出ユニットと、
スピーチが前記入力信号に存在しないことの決定により活動的にされるノイズユニットとを含み、前記ノイズユニットは前記ノイズ信号を分析し、前記ノイズ信号の特徴を有する合成されたノイズ信号に連続的に合成し、前記合成されたノイズ信号は前記スピーチデータベースの前記デジタル化されたサンプルにノイズの影響を適用するスピーチ認識システム。
前記スピーチ決定ユニットが前記入力信号のスピーチ活性化のレベルを分析することによりスピーチの存在を決定する請求項１のスピーチ認識システム。
前記ノイズユニットが線形予測コーディング（LPC）技術を使用して分析し、前記合成されたノイズ信号に合成する請求項１のスピーチ認識システム。
前記合成されたノイズ信号が認識されるべき前記入力信号の直前に記憶されたウインドウの前記ノイズ信号に対応する請求項１のスピーチ認識システム。
前記合成されたノイズ信号が時間の予定の期間に記憶された種々のウインドウの前記ノイズ信号の平均に対応する請求項１のスピーチ認識システム。
前記スピーチ認識ユニットが、
前記ノイズ悪化入力信号を受け、予め決定されたパラメタ決定技術に従って前記入力信号を表わすパラメタのテンプレートを発生する第1のパラメタ決定ユニットと、
前記デジタル化されたサンプルに適用されたノイズの影響とともに前記スピーチデータベースを受け、前記予め決定されたパラメタ決定技術に従って前記ノイズ補償されたテンプレートデータベースを発生する第2のパラメタ決定ユニットと、
最良の相手を決定するため前記入力信号を表わすパラメタの前記テンプレートを前記ノイズ補償されたテンプレートデータベースのテンプレートと比較し、それにより前記スピーチ認識結果を確認するパターン比較ユニットとをさらに含む請求項１のスピーチ認識システム。
前記パラメタ決定技術が線形予測コーディング（LPC）分析技術である請求項６のスピーチ認識システム。
前記スピーチ決定ユニットが前記入力信号のスピーチ活性化のレベルを分析することによりスピーチの存在を決定する請求項６のスピーチ認識システム。
前記ノイズユニットが線形予測コーディング（LPC）技術を使用して分析し、前記合成されたノイズ信号に合成する請求項６のスピーチ認識システム。
前記合成されたノイズ信号が認識されるべき前記入力信号の直前に記憶されたウインドウの前記ノイズ信号に対応する請求項６のスピーチ認識システム。
前記合成されたノイズ信号が時間の予定の期間に記憶された種々のウインドウの前記ノイズ信号の平均に対応する請求項６のスピーチ認識システム。
入力信号を認識する話者依存のスピーチ認識システムのスピーチ認識ユニットであって、前記スピーチ認識ユニットはノイズ環境の影響を計算に入れており、
スピーチデータベースにおける訓練語彙の語または句のデジタル化されたサンプルを記憶する手段と、
前記訓練語彙のノイズ悪化されたデジタルサンプルを発生するために、前記訓練語彙のデジタル化されたサンプルに前記入力信号と関連したノイズの影響を適用する手段と、
前記ノイズ悪化されたデジタルサンプルに基づいてノイズ補償されたテンプレートデータベースを発生する手段と、
前記ノイズ補償されたテンプレートデータベースに基づいて前記入力信号のスピーチ認識結果を決定する手段とを含み、
前記ノイズの影響を適用する手段が、
前記入力信号にスピーチが存在するか否かを決定し、ここにおいて、前記入力信号にスピーチが存在するか否かを前記決定することは背景ノイズのエネルギーと前記入力音声から計算されたエネルギーとの比較に基づき、前記背景ノイズのエネルギーは前記入力信号から計算された前記エネルギーに基づいて推定され、前記入力信号にスピーチが存在しないと決定されたとき前記入力信号がノイズ信号と指定される手段と、
前記ノイズ信号を分析し、合成されたノイズ信号に連続的に合成し、前記合成されたノイズ信号は前記語彙の前記デジタル化されたサンプルに加算される手段とを含むスピーチ認識ユニット。
前記入力信号を受け、予め決定されたパラメタ決定技術に従って前記入力信号を表わすパラメタのテンプレートを発生する第1のパラメタ決定手段と、
前記語彙の前記ノイズ悪化されたデジタルサンプルを受け、前記予め決定されたパラメタ決定技術に従って前記ノイズ補償されたテンプレートデータベースのテンプレートを発生する第2のパラメタ決定手段とをさらに含み、
前記スピーチ認識結果を決定する手段が、最良の相手を決定するため前記入力信号を表わすパラメタの前記テンプレートを前記ノイズ補償されたテンプレートデータベースのテンプレートと比較し、それにより前記スピーチ認識結果を確認する請求項１２のスピーチ認識ユニット。
ノイズ環境の影響を計算に入れたスピーチ認識方法であって、
語彙に属している、訓練された各語または句のデジタル化されたサンプルを発生し、
前記デジタル化されたサンプルをスピーチデータベースに記憶し、
認識されるべきノイズ悪化された入力信号を受け、
前記語彙のノイズ悪化されたデジタルサンプルを発生するため、前記語彙の前記デジタル化されたサンプルに前記入力信号と関連したノイズの影響を適用し、前記適用は前記入力信号を受けることにより行われ、
前記ノイズ悪化されたデジタルサンプルに基づいてノイズ補償されたテンプレートデータベースを発生し、
前記ノイズ補償されたテンプレートデータベースに基づいて前記ノイズ悪化入力信号のスピーチ認識結果を提供するステップを含み、
ノイズの影響を適用する前記ステップが、
前記入力信号にスピーチが存在するか否かを決定し、ここにおいて、前記入力信号にスピーチが存在するか否かを前記決定することは背景ノイズのエネルギーと前記入力音声から計算されたエネルギーとの比較に基づき、前記背景ノイズのエネルギーは前記入力信号から計算された前記エネルギーに基づいて推定され、前記入力信号にスピーチが存在しないと決定されたとき前記入力信号がノイズ信号と指定され、
前記ノイズ信号を分析し、合成されたノイズ信号に連続的に合成し、前記合成されたノイズ信号は前記ノイズ悪化されたデジタルサンプルを発生するため前記語彙の前記デジタル化されたサンプルに加算されるステップを含むスピーチ認識方法。
予定のパラメタ決定技術に従って前記入力信号を表わすパラメタのテンプレートを発生し、
前記予定のパラメタ決定技術に従って前記ノイズ補償されたテンプレートデータベースのためのテンプレートを発生するステップをさらに含み、
前記スピーチ認識結果を提供するステップが最良の相手を決定するため前記入力信号を表わすパラメタの前記テンプレートを前記ノイズ補償されたテンプレートデータベースのテンプレートと比較し、それにより前記スピーチ認識結果を確認する請求項１４のスピーチ認識方法。