JP3848845B2

JP3848845B2 - 変換行列を用いた自動音声認識の雑音適応化方法

Info

Publication number: JP3848845B2
Application number: JP2001119722A
Authority: JP
Inventors: スリザラクリストフ; リガツィオルカ; ボーマンロバート; ジュンカジャン−クロード
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2000-04-18
Filing date: 2001-04-18
Publication date: 2006-11-22
Anticipated expiration: 2021-04-18
Also published as: DE60100637T2; US6529872B1; US6691091B1; JP2001356791A; EP1148471B1; DE60100637D1; EP1148471A1

Description

【０００１】
【発明の属する技術分野】
本発明は主として自動音声認識システムに関する。特に、本発明は雑音がある場合に認識器を適応化してその性能を向上させる技術に関する。
【０００２】
【従来の技術】
現在の自動音声認識システムは研究室条件下では適度に良好に機能するが、実世界のアプリケーションで使用されるときは急激に性能を低下させる。実世界アプリケーションにおける認識器の性能に影響を及ぼしている大きな要因の一つは音声信号を汚染する環境雑音の存在である。この雑音問題に対処するために、スペクトルサブトラクションや並列モデル結合など多数の方法が開発されている。しかしながら、これらの解決策は制限がありすぎるか計算コストが高すぎるかどちらかである。
【０００３】
近年、雑音が雑音Ａから雑音Ｂに変わる場合に、付加雑音に対処するために、ヤコビ適応化方法が提案されている。例えば、ヤマグチの米国特許６，０２６，３５９号には、モデルのパラメータを表現するテイラー展開のヤコビ行列を格納し、その格納したヤコビ行列に基づいてパターン認識におけるモデル適応化を行う方式が記載されている。
【０００４】
【発明が解決しようとする課題】
しかしながら、上記の方法がうまく機能するためには、雑音Ａと雑音Ｂが特性とレベルに関して互いに近いことが必要である。例えば、ヤコビ適応化技術は、雑音Ａが時速３０マイルで平坦な道路を走行する車両の客室内で測定され、雑音Ｂが、例えば、時速４５マイルで走行する同じ道路上の同じ車両内で測定された雑音であるような同じ特性を有する場合に、うまく機能すると思われる。
【０００５】
雑音ＡとＢが互いにもっと遠い場合、例えば、雑音Ａが時速３０マイルの上記車両内で測定され、雑音Ｂが窓を下ろした状態の上記車両や時速６０マイルの上記車両内で測定される場合には、上記公知のヤコビ適応化技術は機能しなくなり始める。
【０００６】
このヤコビ雑音適応化方法は、試験時（システムが使用中のとき）に存在するような雑音を学習時に期待することは難しい場合が多いので、実際の多くのアプリケーションではその有用性に限界がある。また、ヤコビ雑音適応化技術はその必要とされる計算コスト（処理時間および／または必要記憶容量）の高さのために非実用的であるので、多数のアプリケーションにおいてヤコビ適応化技術を改良することには限界がある。
【０００７】
【課題を解決するための手段】
本発明は上記の欠点に対処するものであり、ヤコビ行列を使用する代わりに、ヤコビ行列の形に似ているが異なる値を含む変換行列を使用する。この変換行列は、学習時と認識時のそれぞれの雑音が遥かに遠い場合を補償する。本発明の方法の好ましい実施形態では、α適応化パラメータを用いてヤコビ行列の線形変換または非線形変換を行うことにより変換行列を生成する。あるいは、その変換処理を、ニューラルネットワークや他の人工知能機構を使用するなど、他の線形または非線形変換手段により行うことも可能である。計算速度を上げるために、結果得られる変換行列を主成分分析などの次元圧縮技術を用いて圧縮してもよい。
【０００８】
本発明とその目的および長所をより深く理解するために、以下の詳細説明と添付の図面が参照される。
【０００９】
【発明の実施の形態】
図１は本発明が解決しようとする課題を示す。図に符号１０で示すように、例えば、自動音声認識システムが走行中の車両の客室内などの騒音環境内で動作しなければならないと仮定する。客室内で測定される雑音レベルは、一般に、車両の速度が上昇すると、雑音Ａから雑音Ａ’に上昇する。雑音レベルがＡからＡ’に上昇しても、雑音の特性と品質はほぼ同じままである。例えば、走行中の車両内では、通常、雑音スペクトルは車両速度が上昇するにつれて予測可能に変化する。風騒音の場合、振幅は上昇するが、その非常にランダムな白色雑音特性とピンク雑音特性を保持する。路面雑音（路面上を転動するタイヤの音）の周波数は速度の上昇に比例して増大する。
【００１０】
残念ながら、実世界アプリケーションの多くは、周囲雑音の品質を図１の符号１０の状態が示すようには容易に予測できない。例えば、携帯セルラー電話の場合、符号１０で示す範囲の雑音下にある走行車両内で使用される場合もあれば、全く異なる様々な交通音にあふれている街角で使用される場合もあり、また全く異なる雑音品質を有する商店街で使用される場合もある。このような様々な雑音品質の幅広いダイバーシティを図１に符号１２で示す。この図では、３種類の異なる雑音パターンをそれぞれ雑音Ａ、雑音Ｂ、雑音Ｃで図示している。雑音品質が予測不可能であることは、これら様々な雑音環境内で機能しなければならない自動音声認識システムにとってこれまで大いにやりがいをもたらすものであった。
【００１１】
図２は音声認識アプリケーションにおける本発明の一実施形態を示す。この音声認識アプリケーションでは、モデル準拠の認識器を採用する。モデルは学習時に開発され、後に認識時に使用される。図２では、通常、システムの学習段階を符号２０で示し、認識段階を符号４０で示す。符号２２に示すように、入力音声は雑音条件Ａ下の学習段階時に提供される。この入力音声を利用して、ステップ２４に示すように音声モデルに学習させ、例えば、符号２６で図示するような音声モデルを得る。典型的な入力音声信号では、例えば音声の開始前または音声の終了後など、音声が存在しない時間がある。このような無音声部分を利用して雑音条件Ａに関連する基準雑音Ｎａを示すデータを記録してもよい。図２では、この基準雑音Ｎａをブロック２８で格納する。必要ならば、音声モデル２６の構築のために使用される場合と同じ学習処理を用いて雑音をモデル化（背景モデル化）してもよい。
【００１２】
音声モデルに学習させた後、ステップ３０で変換行列の集合を算出し、ステップ３２で格納する。これらの行列を認識時に使用して音声モデルを適応化し、認識時に存在する雑音条件下でより優れた性能を発揮させるようにする。基本的なヤコビ適応化処理は、認識時の雑音の品質が学習時とほぼ同じであることを想定している。そうでない場合には、古典的なヤコビ適応化法は全く最適ではない結果を生じることがある。
【００１３】
改良型適応化技術は初期雑音条件Ｎａに関して生成された変換行列の集合を使用することを基本にしている。変換行列は初期雑音条件Ｎａに関して生成されたヤコビ行列の集合に線形変換または非線形変換を適用することによって計算される。本好ましい実施形態では、次の節で開示するようなα適応化因子を適用することによって変換（線形も非線形も）を実行する。α適応化因子が現時点で好ましいが、ニューラルネットワークや他の人工知能構成要素を利用して変換を行ってもよい。
【００１４】
行列の操作は非常に計算コストの高い処理になりうる。無視できないコスト要因は全ての行列を格納するのに必要な記憶領域である。代表的な実施形態では、辞典の各項目用の音声モデルが複数の隠れマルコフモデル状態を使用し、その各状態に関連して複数のガウス密度が使用される。すなわち、各状態の各ガウス密度に対して一つの行列が存在することになる。その結果、数百の行列を格納する必要が生じることになる。
【００１５】
好ましい実施形態では、行列分解ステップ３６を実行して計算量を軽減したヤコビ行列集合３８を生成する。以下により詳しく説明するように、この好ましい分解技術は、主成分分析（ＰＣＡ）を利用して計算量を軽減した変換行列を作成する。
【００１６】
認識時には、ステップ４２でユーザから入力音声が提供される。入力音声は、符号４４で示すように、雑音条件Ｂ（目的雑音Ｎｂとも称する）に関連している。上述したように、雑音条件Ｂが学習時に使用される雑音条件Ａと品質的に異なっていれば、従来のヤコビ適応化技術は最適な結果を全く生じないかもしれない。しかしながら、発明者らは、（ヤコビ行列が学習時に定義された場合に実行される）α適応化処理が雑音悪条件下での認識性能を大きく向上させることがわかった。発明者らの試験結果を以下の実施例で示す。
【００１７】
図２に符号４４で示す目的雑音Ｎｂは入力音声４２から抽出された後、符号４６で示すように基準雑音Ｎａとの差を算出するために使用される。その後、符号４８で示すように、上記雑音差と学習時に作成された圧縮済変換行列とを利用して新しい適応音声モデルを算出する。その結果得られた適応音声モデル５０をステップ５２で利用して入力音声４２に対して音声認識を実行し、認識出力５４を生じる。
【００１８】
α適応化
上記変換行列の作用をより詳しく理解するためには、従来のヤコビ適応化を理解することが有利である。従来のヤコビ適応化は並列モデル結合（ＰＭＣ）として知られる別の形の適応化に関連している。従来、ヤコビ適応化は、ＰＭＣが必要とする計算の負担を軽減するために、ＰＭＣの近似法として使用されている。ＰＭＣは、音声モデルの密度ごとに平均ベクトルをスペクトル領域に変換しなければならないので、計算コストが非常に高い。その後、目的雑音に平均ベクトルを付加した後、結果得られたベクトルをケプストラム領域に逆変換しなければならない。通常、このように１回の行列乗算と２回の非線形関数を利用する二重変換は組込み型システムにとって非常に時間を消費することになる。
【００１９】
従来、ヤコビ適応化はケプストラム領域でのＰＭＣの近似法として利用されている。比較のため、以下に示す式１はＰＭＣ演算を記述しており、大文字のＦは離散コサイン変換（ＤＣＴ）の行列を示す。式２はより計算コストの高いＰＭＣ演算の近似法として利用される従来のヤコビ適応化演算を示す。
【００２０】
【式１】

【００２１】
【式２】

【００２２】
ヤコビ適応化近似法が有する問題は、（システム利用時に被る）目的雑音の品質が（システム学習時に存在する）基準雑音と類似している場合のみに成立するという点である。この問題の本質を、雑音増加時の対数スペクトル領域における有雑音音声のパラメータ評価を図示した図３で示す。すなわち、この図は対数スペクトル領域におけるＰＭＣ適応化と従来のヤコビ適応化の比較を示している。図３において、左側の陰影領域は音声信号の出力が雑音よりも遥かに大きい状態に相当し、右側の陰影領域は雑音の出力が音声信号の出力よりも大きい状態に相当する。学習時の環境と試験時の環境がこれら２つの領域に関して同じであれば、ヤコビ適応化とＰＭＣ適応化は同様に機能する。しかしながら、これら２つの環境の一方が中間領域にある場合や他方の環境と別の領域に存在する場合には、ヤコビ適応化はＰＭＣ適応化と異なるものとなり、実際には常にモデルの適応化を過小評価することになる。
【００２３】
発明者らは従来のヤコビ適応化がヤコビ行列の線形または非線形変換により大幅に改良できることを見出した。線形または非線形変換を行うため、好ましい実施形態では、以下「α適応化パラメータ」と称するパラメータを採用する。以下の式３は非線形変換を実行するためのα適応化パラメータの好ましい使用例を示す。式４は線形変換を実行するためのα適応化パラメータの別の使用例を示す。上述したように、上記の変換を実行するために現時点ではα適応化パラメータを利用することが好ましいが、他の変換技術も利用可能である。例えば、ニューラルネットワークや他の人工知能構成要素を利用し、初期雑音条件に関するヤコビ行列を変換してもよい。さらに別の変換技術として、入力音声に対して第１のα適応化パラメータまたは因子を適用し、雑音に対して第２のα適応化パラメータまたは因子を適用する方法がある。それ以外の変形例も利用可能である。
【００２４】
【式３】

【００２５】
【式４】

【００２６】
式３に示すように、α適応化パラメータは次のように機能する。基準雑音がゼロに近く、αの値が大きすぎない場合には、（ｘ座標ＮとαＮでそれぞれ算出された）両接線が水平である。基準雑音が非常に大きい場合には、両接線が直線ｙ＝ｘに相当する。基準雑音が図３の中央領域に属する場合には、接線の新しい傾斜が従来のヤコビ適応化曲線によって生じる傾斜よりも大きくなることになる。
【００２７】
式３においてα適応化パラメータを利用することにより、行列の非線形変換が得られる。分子と分母の両方をパラメータで乗算することにより、非線形変換効果が発生する。式４では、α適応化パラメータを分子／分母の商に対して乗算するので、線形変換効果が発生する。
【００２８】
どちらの場合でも、α適応化パラメータの主要な効果は音声モデルに付加される適応化バイアスを増大させることである。このことは、雑音の影響を過小評価する従来のヤコビ適応化の欠点を補正するので、有利である。本明細書の後の節では、α適応化パラメータを用いて実行可能な改良例である実験結果を示す。
【００２９】
α適応化パラメータの選択
理論的には、α適応化パラメータの最適値は環境に依存している。すなわち、αの値は目的雑音と基準雑音との間の不一致が大きいほどより大きい必要がある。しかしながら、発明者らはα適応化パラメータが理論的に予想される値よりもはるかに安定していることを見出した。α適応化を従来のヤコビ適応化の代わりに利用して変換行列を生成すると、音声認識精度のばらつきは、α値が小さい場合には小さく、α値が中間値の場合には増加し、αが一定の値を超えて上昇すると再び小さくなる。この現象は図３の曲線形状に拠るものである。すなわち、αの値に関わらず、接線の傾斜は０と１の間でのみ変動する。
【００３０】
この点を明らかにするために、発明者らは不利な環境の中で数字認識の実験セットを行った。１から９までの数と“ｏ”および“ゼロ”のモデルと無声のモデルからなる１２個の文脈独立数字モデルを作成した。無声は５つの状態を持つ隠れマルコフモデル（ＨＭＭ）によってモデル化された。残りのモデルでは１５個の状態を使用した。全ての隠れマルコフモデルの各状態において４つのガウス密度を使用した。上記の学習用セットを使用し、８０個のスピーカーから発声された３８０３個の数字シーケンスからなるモデルを学習させた。学習用セットを雑音のない研究室条件下で記録した。図４および図５はαが１から４までの値域内で変動する場合の精度のばらつきを示す。以下の６種類の異なる音響環境に基づいてデータを作成した。
【００３１】
１．クリーンな条件で記録された妥当性検証コーパス。
【００３２】
２．ＳＮ比１０ｄＢの車両騒音を加えた場合の妥当性検証コーパス。
【００３３】
３．ＳＮ比０ｄＢの車両騒音を加えた場合の妥当性検証コーパス。
【００３４】
４．ＳＮ比１５ｄＢの白色雑音を加えた場合の妥当性検証コーパス。
【００３５】
５．時速３０マイルの車両内で記録された試験コーパス。
【００３６】
６．時速６０マイルの車両内で記録された別の試験コーパス。
【００３７】
図４および図５から、音響環境がどうであろうと、αの様々な値に対する精度のばらつきがα＝２．４からα＝３．６までの値域内では非常に小さいことがわかる。このことは、αが本発明の実施形態で適切に使用可能な安定した値域を有していることを実証している。約２．４ないし３．６の間のα適応化パラメータが推奨されるが、これが単に安定した値域のひとつの可能性を例示しているに過ぎないことは理解できるであろう。一般に、他のα値を使用して有益な結果を得ることもできる。別の言い方をすれば、αの真の“最適”値と充分考慮された値域（例えば、２．４〜３．６）内で選択されるそれ以外の値との間の精度の低下は非常に小さい。発明者らのデータは“最適”値からの精度の低下が３％未満であることを示している。したがって、本改良型ヤコビ適応化法は非常にロバストな方法である。
【００３８】
計算コストを削減する次元圧縮技術
上述したように、ヤコビ適応化はＰＭＣよりも計算コストが低くて済むが、それでもまだ認識システム、特に組込み型システムに対してかなり厄介な負担を掛けている。
【００３９】
発明者らは各変換行列が以下の式５により表現可能であることに気付いた。
【００４０】
【式５】

但し、
【式６】

は次元数NFilt×NFiltの対角行列である（NFiltはスペクトルフィルタバンク内で使用されるフィルタの数を示す）。
【００４１】
したがって、各変換行列は、実際にはヤコビ行列が属する空間の基底であるNFilt個の標準行列の重み付き和の形で表現可能である。これら標準行列は次のように定義される。すなわち、
【式７】

但し、diag(i)は位置ｉで１である以外は全て０であるNFilt×NFilt対角行列を指す。
【００４２】
したがって、各変換行列は次のように表現することができる。
【式８】

【００４３】
したがって、Nd（全ての音声モデルの総密度数）個の行列を格納する代わりに、NFilt個の標準行列とNd×NFilt個の係数γｉを格納すれば済む。これにより、必要記憶容量を大幅に低減させることができる。
【００４４】
しかしながら、この解法はアルゴリズムの時間複雑性を増加させるのでさらに改良の余地がある。実際、全ての変換行列を格納する場合、式２が全密度に対して直接適用され、それにはＮｄ個の行列乗算が必要になる。
【００４５】
第２の解法を選択する場合、式２の右側部分が次のようになる。
【式９】

【００４６】
この等式では、計算コストはNFilt個の行列加算とNFilt個の行列スカラ倍であり、それを各密度ごとに繰り返す必要がある。したがって、総計算コストは2・Nd・NFilt個の行列演算になる。
【００４７】
余計な計算時間を使用したくないならば、標準行列の数を減らす必要がある。
【００４８】
空間の次元を圧縮する好適な技術はその空間に属する要素の集合に主成分分析を実行することである。そこで、まず全てのベクトル
【式１０】

を算出し、このベクトル集合に対して特異値分解を実行した。その結果得られた標準ベクトルを利用してNFilt個の標準ヤコビ行列
【式１１】

を算出し、各固有値の降順でソートした。
【００４９】
上述したように、主成分分析を利用することにより、計算の負担軽減をかなり向上させることができる。実験の結果、有効標準行列数を５つまで削減可能であることが分かった。さらに削減することも可能である。行列数を削減することにより、適応化の実行に必要な記憶領域だけでなく計算時間も低減させることができる。次元圧縮（主成分分析）により実現される改良をより詳しく理解するために、表１において、変換行列適応化処理を主成分分析を採用した場合と採用しなかった場合とで比較する。
【００５０】
【表１】

【００５１】
上記表１において、第１欄は標準行列数である次元数を示す。その次の欄は使用されるα適応化値を示す。残りの欄は、認識精度の百分率と次の３つの環境条件、すなわち、クリーンな状態（無雑音）、時速３０マイルの走行車両および時速６０マイルの走行車両に関して必要な計算時間（データベース全体にわたる適応化のμ秒単位の累積時間）である。
【００５２】
実験結果
上述の雑音適応化技術を様々な条件下で試験した。その試験結果をこの節で開示する。適応化システムを試験するために、カーナビゲーションシステム用の音声認識器を使用した。勿論、本文に記載の適応化技術はカーナビゲーションやその他の認識タスクに限定されるものではない。走行車両内の雑音条件は様々な車両速度でまったく広範囲に変化するので、本発明の試験に対してカーナビゲーションを選択した。すなわち、車両環境内での適応化システムの試験を該適応化システムの能力を測る好適な尺度として選択した。
【００５３】
これらの実験の準備は既に記載した場合と同様である。３つの試験用セットは、（１）（学習用セットと異なる）２０個のスピーカーによって発声され学習用セットと同じ条件で記録される４６２個の数字シーケンスから構成される妥当性検証セットと、（２）別のスピーカーによって発声され時速３０マイルの車両内で記録される９４７個の数字シーケンスから構成される妥当性検証セットと、（３）（２）と同じスピーカーから発声されるが時速６０マイルの車両内で記録される５つの数字からなり４７５個のシーケンスから構成される妥当性検証セットを備えるように構成された。
【００５４】
単純なループ型文法を使用し、全ての数（“ｏ”と“ゼロ”のモデルは同じ数）と無声音の遷移確率を等しくして認識を実行した。認識されたセンテンスの中の無声音を除去した後、１０個の数に関して精度を計算した。
【００５５】
これら最初の実験では、信号を９個のＰＬＰ係数（残余誤差を含む）と９個のデルタ係数からなるベクトル系列に符号化した。最初の９個の静的な係数の平均値に対してのみ、実行する場合は、適応化を適用した。適応化に当り、各センテンスの３０個の第１フレームを使用して目的雑音を計算した。
【００５６】
以下の表２に示す結果は、適応化を行わない隠れマルコフモデル（ＨＭＭ）の性能と並列モデル結合（ＰＭＣ）および従来のヤコビ適応化（ＪＡ）を利用して得られた結果とを比較したものである。すなわち、表２は雑音がある場合に並列モデル結合とヤコビ適応化がいかにして認識精度を向上させるかを示したものである。しかしながら、表２はα適応化を用いた改良型変換行列適応化の性能を示していない。この表は改良型変換行列適応化技術をさらに詳しく理解するための基準線となるよう提示したものである。
【００５７】
【表２】

【００５８】
【表３】

【００５９】
表３はα因子がある場合とない場合の並列モデル結合とヤコビ適応化の両方の比較性能を示す。表３では、α適応化を伴う変換行列適応化を“α−ＴＭ”と示す。比較のために、並列モデル結合技術に対してもα因子を適用し、その結果をα−ＰＭＣ”の行で示した。
【００６０】
表３の結果を比較すると、改良型変換行列適応化（α−ＴＭ）が雑音存在下で標準ヤコビ適応化（ＪＡ）よりも非常に優れた性能を発揮していることに気付く。α因子はＰＭＣ適応化の性能をほとんど低下させなかったが、大幅な性能の向上ももたらさなかった。
【００６１】
上記の実験結果は、α適応化因子を採用した改良型変換行列適応化技術が標準ヤコビ適応化よりも非常に優れた結果をもたらすことを示している。さらに、変換行列適応化は本質的にＰＭＣよりも計算コストが低くて済むので、多くの処理能力や記憶容量を持たない組込み型認識システムにとって理想的な候補になる。そのようなアプリケーションとしては、例えば、セルラー電話認識システムや車両ナビゲーションシステムやその他消費製品がある。
【００６２】
さらに、本明細書に記載の次元圧縮技術を利用することによりシステムの性能をさらに向上させることも可能である。変換行列適応化と組み合わせることにより、多数の認識アプリケーションで良好に機能するコンパクトで効率のよいロバストな適応化システムが得られる。
【００６３】
本発明をその好ましい実施形態の形で説明したが、本発明が特許請求の範囲に記載の発明の精神から逸脱することなく変更可能であることは理解できるであろう。
【図面の簡単な説明】
【図１】本発明の理解に役立つ様々な雑音条件を示す図である。
【図２】改良型変換行列適応化の好ましい実施形態を示す学習段階および認識段階のデータフロー図である。
【図３】従来のヤコビ適応化と並列モデル結合（ＰＭＣ）適応化とを比較した対数スペクトル特性図である。
【図４】認識精度に対する様々なα値の影響を示すα適応化パラメータ曲線である。
【図５】認識精度に対する様々なα値の影響を示すα適応化パラメータ曲線である。
【符号の説明】
２０学習段階
２６音声モデル
３８圧縮済ヤコビ行列集合
４０認識段階
５０適応音声モデル
Ａ初期雑音条件
Ｂ認識時雑音条件
Ｎａ基準雑音
Ｎｂ目的雑音

Claims

音声認識システムにおいて雑音適応化を実行する方法であって、
第１の雑音条件下で音声モデルの集合を作成する工程と、
上記第１の雑音条件下の音声モデルに関してヤコビ行列の集合を設ける行程と、
学習時の平均背景雑音に相当するスペクトルエネルギーのベクトルに対してスカラーを乗算することにより上記ヤコビ行列を変換して変換行列の集合を定義し、音声認識に利用するため上記変換行列を格納する工程と、
第２の雑音条件下で入力音声を提供する工程と、
上記第１および第２の雑音条件に基づいて雑音条件の第１の変化を求める工程と、
上記雑音条件の第１の変化と上記変換行列を利用して上記音声モデルの集合を適応化する工程とを備えている雑音適応化方法。
上記ヤコビ行列を変換する行程は、スカラーαを数１に示すように適用することによる線形変換を利用して行う、

ここで、Ｎは雑音スペクトル、Ｓは音声スペクトル、Ｃはケプストラム、Δは変動分を表す、
ことを特徴とする請求項１記載の雑音適応化方法。
上記ヤコビ行列を変換する工程はスカラーαを数２に示すように適用することによる非線形変換を利用して行う、

ここで、Ｎは雑音スペクトル、Ｓは音声スペクトル、Ｃはケプストラム、Δは変動分、Ｆは離散コサイン変換（ＤＣＴ）の行列を表す、
ことを特徴とする請求項１記載の雑音適応化方法。
上記スカラーは２．４ないし３．６の値域にほぼ関連する値を有することを特徴とする請求項１記載の雑音適応化方法。
次元圧縮処理を用いて上記変換行列を分解する工程をさらに備えている請求項１記載の雑音適応化方法。
上記次元圧縮処理は主成分分析を使用することを特徴とする請求項５記載の雑音適応化方法。
学習時に作成され使用時に使用される音声認識システムの雑音適応化用適応行列を作成する方法であって、
上記学習時に関連する第１の雑音条件下で音声モデルの集合を作成する工程と、
上記第１の雑音条件下の音声モデルに関してヤコビ行列の集合を算出する工程と、
学習時の平均背景雑音に相当するスペクトルエネルギーのベクトルに対してスカラーを乗算することにより上記ヤコビ行列の集合を変換し、学習時の雑音と使用時の雑音との間の差を補償する工程と、
使用時に上記音声認識システムが使用するための適応行列として上記変換された行列の集合を格納する工程とを備えている適応行列作成方法。
上記変換処理は上記ヤコビ行列に対してスカラーαを数３に示すように適用することによる線形変換を実行することである、

ここで、Ｎは雑音スペクトル、Ｓは音声スペクトル、Ｃはケプストラム、Δは変動分を表す、
ことを特徴とする請求項７記載の適応行列作成方法。
上記変換処理は上記ヤコビ行列に対してスカラーαを数４に示すように適用することによる非線形変換を実行することである、

ここで、Ｎは雑音スペクトル、Ｓは音声スペクトル、Ｃはケプストラム、Δは変動分、Ｆは離散コサイン変換（ＤＣＴ）の行列を表す、
ことを特徴とする請求項７記載の適応行列作成方法。
上記スカラーは２．４ないし３．６の値域にほぼ関連する値を有することを特徴とする請求項７記載の適応行列作成方法。
次元圧縮処理を用いて上記適応行列を分解する工程をさらに備えている請求項７記載の適応行列作成方法。
上記次元圧縮処理は主成分分析を使用することを特徴とする請求項１１記載の適応行列作成方法。
第１の雑音条件下で訓練される音声モデルの集合と、
第２の雑音条件に従って上記音声モデルを適応化する適応化システムと、
上記音声モデルに相当する格納された適応行列の集合を含み、上記適応化システムに関連する記憶部とを備え、
上記適応行列は、学習時の平均背景雑音に相当するスペクトルエネルギーのベクトルに対してスカラーを乗算することにより上記第１の雑音条件のヤコビ行列の集合に対して線形変換または非線形変換を適用することにより作成された変換行列であることを特徴とする音声認識器。
上記スカラーは２．４ないし３．６の値域にほぼ関連する値を有する重み付け因子の形で上記ヤコビ行列に適用されることを特徴とする請求項１３記載の音声認識器。
上記適応行列の集合は次元圧縮により分解されることを特徴とする請求項１３記載の音声認識器。
上記適応行列の集合は主成分分析により分解されることを特徴とする請求項１３記載の音声認識器。