JP3848845B2 - 変換行列を用いた自動音声認識の雑音適応化方法 - Google Patents
変換行列を用いた自動音声認識の雑音適応化方法 Download PDFInfo
- Publication number
- JP3848845B2 JP3848845B2 JP2001119722A JP2001119722A JP3848845B2 JP 3848845 B2 JP3848845 B2 JP 3848845B2 JP 2001119722 A JP2001119722 A JP 2001119722A JP 2001119722 A JP2001119722 A JP 2001119722A JP 3848845 B2 JP3848845 B2 JP 3848845B2
- Authority
- JP
- Japan
- Prior art keywords
- noise
- matrix
- adaptation
- speech
- jacobian
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000006978 adaptation Effects 0.000 title claims description 94
- 239000011159 matrix material Substances 0.000 title claims description 68
- 238000000034 method Methods 0.000 title claims description 53
- 230000009466 transformation Effects 0.000 claims description 44
- 230000003044 adaptive effect Effects 0.000 claims description 12
- 238000006243 chemical reaction Methods 0.000 claims description 11
- 238000000513 principal component analysis Methods 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 10
- 238000007906 compression Methods 0.000 claims description 9
- 230000003595 spectral effect Effects 0.000 claims description 9
- 238000001228 spectrum Methods 0.000 claims description 9
- 230000006835 compression Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 6
- 230000001131 transforming effect Effects 0.000 claims 4
- 238000012360 testing method Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 238000010200 validation analysis Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- IXKSXJFAGXLQOQ-XISFHERQSA-N WHWLQLKPGQPMY Chemical compound C([C@@H](C(=O)N[C@@H](CC=1C2=CC=CC=C2NC=1)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CC(C)C)C(=O)N1CCC[C@H]1C(=O)NCC(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CC(O)=O)C(=O)N1CCC[C@H]1C(=O)N[C@@H](CCSC)C(=O)N[C@@H](CC=1C=CC(O)=CC=1)C(O)=O)NC(=O)[C@@H](N)CC=1C2=CC=CC=C2NC=1)C1=CNC=N1 IXKSXJFAGXLQOQ-XISFHERQSA-N 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 101100425901 Rattus norvegicus Tpm1 gene Proteins 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
【発明の属する技術分野】
本発明は主として自動音声認識システムに関する。特に、本発明は雑音がある場合に認識器を適応化してその性能を向上させる技術に関する。
【0002】
【従来の技術】
現在の自動音声認識システムは研究室条件下では適度に良好に機能するが、実世界のアプリケーションで使用されるときは急激に性能を低下させる。実世界アプリケーションにおける認識器の性能に影響を及ぼしている大きな要因の一つは音声信号を汚染する環境雑音の存在である。この雑音問題に対処するために、スペクトルサブトラクションや並列モデル結合など多数の方法が開発されている。しかしながら、これらの解決策は制限がありすぎるか計算コストが高すぎるかどちらかである。
【0003】
近年、雑音が雑音Aから雑音Bに変わる場合に、付加雑音に対処するために、ヤコビ適応化方法が提案されている。例えば、ヤマグチの米国特許6,026,359号には、モデルのパラメータを表現するテイラー展開のヤコビ行列を格納し、その格納したヤコビ行列に基づいてパターン認識におけるモデル適応化を行う方式が記載されている。
【0004】
【発明が解決しようとする課題】
しかしながら、上記の方法がうまく機能するためには、雑音Aと雑音Bが特性とレベルに関して互いに近いことが必要である。例えば、ヤコビ適応化技術は、雑音Aが時速30マイルで平坦な道路を走行する車両の客室内で測定され、雑音Bが、例えば、時速45マイルで走行する同じ道路上の同じ車両内で測定された雑音であるような同じ特性を有する場合に、うまく機能すると思われる。
【0005】
雑音AとBが互いにもっと遠い場合、例えば、雑音Aが時速30マイルの上記車両内で測定され、雑音Bが窓を下ろした状態の上記車両や時速60マイルの上記車両内で測定される場合には、上記公知のヤコビ適応化技術は機能しなくなり始める。
【0006】
このヤコビ雑音適応化方法は、試験時(システムが使用中のとき)に存在するような雑音を学習時に期待することは難しい場合が多いので、実際の多くのアプリケーションではその有用性に限界がある。また、ヤコビ雑音適応化技術はその必要とされる計算コスト(処理時間および/または必要記憶容量)の高さのために非実用的であるので、多数のアプリケーションにおいてヤコビ適応化技術を改良することには限界がある。
【0007】
【課題を解決するための手段】
本発明は上記の欠点に対処するものであり、ヤコビ行列を使用する代わりに、ヤコビ行列の形に似ているが異なる値を含む変換行列を使用する。この変換行列は、学習時と認識時のそれぞれの雑音が遥かに遠い場合を補償する。本発明の方法の好ましい実施形態では、α適応化パラメータを用いてヤコビ行列の線形変換または非線形変換を行うことにより変換行列を生成する。あるいは、その変換処理を、ニューラルネットワークや他の人工知能機構を使用するなど、他の線形または非線形変換手段により行うことも可能である。計算速度を上げるために、結果得られる変換行列を主成分分析などの次元圧縮技術を用いて圧縮してもよい。
【0008】
本発明とその目的および長所をより深く理解するために、以下の詳細説明と添付の図面が参照される。
【0009】
【発明の実施の形態】
図1は本発明が解決しようとする課題を示す。図に符号10で示すように、例えば、自動音声認識システムが走行中の車両の客室内などの騒音環境内で動作しなければならないと仮定する。客室内で測定される雑音レベルは、一般に、車両の速度が上昇すると、雑音Aから雑音A’に上昇する。雑音レベルがAからA’に上昇しても、雑音の特性と品質はほぼ同じままである。例えば、走行中の車両内では、通常、雑音スペクトルは車両速度が上昇するにつれて予測可能に変化する。風騒音の場合、振幅は上昇するが、その非常にランダムな白色雑音特性とピンク雑音特性を保持する。路面雑音(路面上を転動するタイヤの音)の周波数は速度の上昇に比例して増大する。
【0010】
残念ながら、実世界アプリケーションの多くは、周囲雑音の品質を図1の符号10の状態が示すようには容易に予測できない。例えば、携帯セルラー電話の場合、符号10で示す範囲の雑音下にある走行車両内で使用される場合もあれば、全く異なる様々な交通音にあふれている街角で使用される場合もあり、また全く異なる雑音品質を有する商店街で使用される場合もある。このような様々な雑音品質の幅広いダイバーシティを図1に符号12で示す。この図では、3種類の異なる雑音パターンをそれぞれ雑音A、雑音B、雑音Cで図示している。雑音品質が予測不可能であることは、これら様々な雑音環境内で機能しなければならない自動音声認識システムにとってこれまで大いにやりがいをもたらすものであった。
【0011】
図2は音声認識アプリケーションにおける本発明の一実施形態を示す。この音声認識アプリケーションでは、モデル準拠の認識器を採用する。モデルは学習時に開発され、後に認識時に使用される。図2では、通常、システムの学習段階を符号20で示し、認識段階を符号40で示す。符号22に示すように、入力音声は雑音条件A下の学習段階時に提供される。この入力音声を利用して、ステップ24に示すように音声モデルに学習させ、例えば、符号26で図示するような音声モデルを得る。典型的な入力音声信号では、例えば音声の開始前または音声の終了後など、音声が存在しない時間がある。このような無音声部分を利用して雑音条件Aに関連する基準雑音Naを示すデータを記録してもよい。図2では、この基準雑音Naをブロック28で格納する。必要ならば、音声モデル26の構築のために使用される場合と同じ学習処理を用いて雑音をモデル化(背景モデル化)してもよい。
【0012】
音声モデルに学習させた後、ステップ30で変換行列の集合を算出し、ステップ32で格納する。これらの行列を認識時に使用して音声モデルを適応化し、認識時に存在する雑音条件下でより優れた性能を発揮させるようにする。基本的なヤコビ適応化処理は、認識時の雑音の品質が学習時とほぼ同じであることを想定している。そうでない場合には、古典的なヤコビ適応化法は全く最適ではない結果を生じることがある。
【0013】
改良型適応化技術は初期雑音条件Naに関して生成された変換行列の集合を使用することを基本にしている。変換行列は初期雑音条件Naに関して生成されたヤコビ行列の集合に線形変換または非線形変換を適用することによって計算される。本好ましい実施形態では、次の節で開示するようなα適応化因子を適用することによって変換(線形も非線形も)を実行する。α適応化因子が現時点で好ましいが、ニューラルネットワークや他の人工知能構成要素を利用して変換を行ってもよい。
【0014】
行列の操作は非常に計算コストの高い処理になりうる。無視できないコスト要因は全ての行列を格納するのに必要な記憶領域である。代表的な実施形態では、辞典の各項目用の音声モデルが複数の隠れマルコフモデル状態を使用し、その各状態に関連して複数のガウス密度が使用される。すなわち、各状態の各ガウス密度に対して一つの行列が存在することになる。その結果、数百の行列を格納する必要が生じることになる。
【0015】
好ましい実施形態では、行列分解ステップ36を実行して計算量を軽減したヤコビ行列集合38を生成する。以下により詳しく説明するように、この好ましい分解技術は、主成分分析(PCA)を利用して計算量を軽減した変換行列を作成する。
【0016】
認識時には、ステップ42でユーザから入力音声が提供される。入力音声は、符号44で示すように、雑音条件B(目的雑音Nbとも称する)に関連している。上述したように、雑音条件Bが学習時に使用される雑音条件Aと品質的に異なっていれば、従来のヤコビ適応化技術は最適な結果を全く生じないかもしれない。しかしながら、発明者らは、(ヤコビ行列が学習時に定義された場合に実行される)α適応化処理が雑音悪条件下での認識性能を大きく向上させることがわかった。発明者らの試験結果を以下の実施例で示す。
【0017】
図2に符号44で示す目的雑音Nbは入力音声42から抽出された後、符号46で示すように基準雑音Naとの差を算出するために使用される。その後、符号48で示すように、上記雑音差と学習時に作成された圧縮済変換行列とを利用して新しい適応音声モデルを算出する。その結果得られた適応音声モデル50をステップ52で利用して入力音声42に対して音声認識を実行し、認識出力54を生じる。
【0018】
α適応化
上記変換行列の作用をより詳しく理解するためには、従来のヤコビ適応化を理解することが有利である。従来のヤコビ適応化は並列モデル結合(PMC)として知られる別の形の適応化に関連している。従来、ヤコビ適応化は、PMCが必要とする計算の負担を軽減するために、PMCの近似法として使用されている。PMCは、音声モデルの密度ごとに平均ベクトルをスペクトル領域に変換しなければならないので、計算コストが非常に高い。その後、目的雑音に平均ベクトルを付加した後、結果得られたベクトルをケプストラム領域に逆変換しなければならない。通常、このように1回の行列乗算と2回の非線形関数を利用する二重変換は組込み型システムにとって非常に時間を消費することになる。
【0019】
従来、ヤコビ適応化はケプストラム領域でのPMCの近似法として利用されている。比較のため、以下に示す式1はPMC演算を記述しており、大文字のFは離散コサイン変換(DCT)の行列を示す。式2はより計算コストの高いPMC演算の近似法として利用される従来のヤコビ適応化演算を示す。
【0020】
【式1】
【0021】
【式2】
【0022】
ヤコビ適応化近似法が有する問題は、(システム利用時に被る)目的雑音の品質が(システム学習時に存在する)基準雑音と類似している場合のみに成立するという点である。この問題の本質を、雑音増加時の対数スペクトル領域における有雑音音声のパラメータ評価を図示した図3で示す。すなわち、この図は対数スペクトル領域におけるPMC適応化と従来のヤコビ適応化の比較を示している。図3において、左側の陰影領域は音声信号の出力が雑音よりも遥かに大きい状態に相当し、右側の陰影領域は雑音の出力が音声信号の出力よりも大きい状態に相当する。学習時の環境と試験時の環境がこれら2つの領域に関して同じであれば、ヤコビ適応化とPMC適応化は同様に機能する。しかしながら、これら2つの環境の一方が中間領域にある場合や他方の環境と別の領域に存在する場合には、ヤコビ適応化はPMC適応化と異なるものとなり、実際には常にモデルの適応化を過小評価することになる。
【0023】
発明者らは従来のヤコビ適応化がヤコビ行列の線形または非線形変換により大幅に改良できることを見出した。線形または非線形変換を行うため、好ましい実施形態では、以下「α適応化パラメータ」と称するパラメータを採用する。以下の式3は非線形変換を実行するためのα適応化パラメータの好ましい使用例を示す。式4は線形変換を実行するためのα適応化パラメータの別の使用例を示す。上述したように、上記の変換を実行するために現時点ではα適応化パラメータを利用することが好ましいが、他の変換技術も利用可能である。例えば、ニューラルネットワークや他の人工知能構成要素を利用し、初期雑音条件に関するヤコビ行列を変換してもよい。さらに別の変換技術として、入力音声に対して第1のα適応化パラメータまたは因子を適用し、雑音に対して第2のα適応化パラメータまたは因子を適用する方法がある。それ以外の変形例も利用可能である。
【0024】
【式3】
【0025】
【式4】
【0026】
式3に示すように、α適応化パラメータは次のように機能する。基準雑音がゼロに近く、αの値が大きすぎない場合には、(x座標NとαNでそれぞれ算出された)両接線が水平である。基準雑音が非常に大きい場合には、両接線が直線y=xに相当する。基準雑音が図3の中央領域に属する場合には、接線の新しい傾斜が従来のヤコビ適応化曲線によって生じる傾斜よりも大きくなることになる。
【0027】
式3においてα適応化パラメータを利用することにより、行列の非線形変換が得られる。分子と分母の両方をパラメータで乗算することにより、非線形変換効果が発生する。式4では、α適応化パラメータを分子/分母の商に対して乗算するので、線形変換効果が発生する。
【0028】
どちらの場合でも、α適応化パラメータの主要な効果は音声モデルに付加される適応化バイアスを増大させることである。このことは、雑音の影響を過小評価する従来のヤコビ適応化の欠点を補正するので、有利である。本明細書の後の節では、α適応化パラメータを用いて実行可能な改良例である実験結果を示す。
【0029】
α適応化パラメータの選択
理論的には、α適応化パラメータの最適値は環境に依存している。すなわち、αの値は目的雑音と基準雑音との間の不一致が大きいほどより大きい必要がある。しかしながら、発明者らはα適応化パラメータが理論的に予想される値よりもはるかに安定していることを見出した。α適応化を従来のヤコビ適応化の代わりに利用して変換行列を生成すると、音声認識精度のばらつきは、α値が小さい場合には小さく、α値が中間値の場合には増加し、αが一定の値を超えて上昇すると再び小さくなる。この現象は図3の曲線形状に拠るものである。すなわち、αの値に関わらず、接線の傾斜は0と1の間でのみ変動する。
【0030】
この点を明らかにするために、発明者らは不利な環境の中で数字認識の実験セットを行った。1から9までの数と“o”および“ゼロ”のモデルと無声のモデルからなる12個の文脈独立数字モデルを作成した。無声は5つの状態を持つ隠れマルコフモデル(HMM)によってモデル化された。残りのモデルでは15個の状態を使用した。全ての隠れマルコフモデルの各状態において4つのガウス密度を使用した。上記の学習用セットを使用し、80個のスピーカーから発声された3803個の数字シーケンスからなるモデルを学習させた。学習用セットを雑音のない研究室条件下で記録した。図4および図5はαが1から4までの値域内で変動する場合の精度のばらつきを示す。以下の6種類の異なる音響環境に基づいてデータを作成した。
【0031】
1.クリーンな条件で記録された妥当性検証コーパス。
【0032】
2.SN比10dBの車両騒音を加えた場合の妥当性検証コーパス。
【0033】
3.SN比0dBの車両騒音を加えた場合の妥当性検証コーパス。
【0034】
4.SN比15dBの白色雑音を加えた場合の妥当性検証コーパス。
【0035】
5.時速30マイルの車両内で記録された試験コーパス。
【0036】
6.時速60マイルの車両内で記録された別の試験コーパス。
【0037】
図4および図5から、音響環境がどうであろうと、αの様々な値に対する精度のばらつきがα=2.4からα=3.6までの値域内では非常に小さいことがわかる。このことは、αが本発明の実施形態で適切に使用可能な安定した値域を有していることを実証している。約2.4ないし3.6の間のα適応化パラメータが推奨されるが、これが単に安定した値域のひとつの可能性を例示しているに過ぎないことは理解できるであろう。一般に、他のα値を使用して有益な結果を得ることもできる。別の言い方をすれば、αの真の“最適”値と充分考慮された値域(例えば、2.4〜3.6)内で選択されるそれ以外の値との間の精度の低下は非常に小さい。発明者らのデータは“最適”値からの精度の低下が3%未満であることを示している。したがって、本改良型ヤコビ適応化法は非常にロバストな方法である。
【0038】
計算コストを削減する次元圧縮技術
上述したように、ヤコビ適応化はPMCよりも計算コストが低くて済むが、それでもまだ認識システム、特に組込み型システムに対してかなり厄介な負担を掛けている。
【0039】
発明者らは各変換行列が以下の式5により表現可能であることに気付いた。
【0040】
【式5】
但し、
【式6】
は次元数NFilt×NFiltの対角行列である(NFiltはスペクトルフィルタバンク内で使用されるフィルタの数を示す)。
【0041】
したがって、各変換行列は、実際にはヤコビ行列が属する空間の基底であるNFilt個の標準行列の重み付き和の形で表現可能である。これら標準行列は次のように定義される。すなわち、
【式7】
但し、diag(i)は位置iで1である以外は全て0であるNFilt×NFilt対角行列を指す。
【0042】
したがって、各変換行列は次のように表現することができる。
【式8】
【0043】
したがって、Nd(全ての音声モデルの総密度数)個の行列を格納する代わりに、NFilt個の標準行列とNd×NFilt個の係数γiを格納すれば済む。これにより、必要記憶容量を大幅に低減させることができる。
【0044】
しかしながら、この解法はアルゴリズムの時間複雑性を増加させるのでさらに改良の余地がある。実際、全ての変換行列を格納する場合、式2が全密度に対して直接適用され、それにはNd個の行列乗算が必要になる。
【0045】
第2の解法を選択する場合、式2の右側部分が次のようになる。
【式9】
【0046】
この等式では、計算コストはNFilt個の行列加算とNFilt個の行列スカラ倍であり、それを各密度ごとに繰り返す必要がある。したがって、総計算コストは2・Nd・NFilt個の行列演算になる。
【0047】
余計な計算時間を使用したくないならば、標準行列の数を減らす必要がある。
【0048】
空間の次元を圧縮する好適な技術はその空間に属する要素の集合に主成分分析を実行することである。そこで、まず全てのベクトル
【式10】
を算出し、このベクトル集合に対して特異値分解を実行した。その結果得られた標準ベクトルを利用してNFilt個の標準ヤコビ行列
【式11】
を算出し、各固有値の降順でソートした。
【0049】
上述したように、主成分分析を利用することにより、計算の負担軽減をかなり向上させることができる。実験の結果、有効標準行列数を5つまで削減可能であることが分かった。さらに削減することも可能である。行列数を削減することにより、適応化の実行に必要な記憶領域だけでなく計算時間も低減させることができる。次元圧縮(主成分分析)により実現される改良をより詳しく理解するために、表1において、変換行列適応化処理を主成分分析を採用した場合と採用しなかった場合とで比較する。
【0050】
【表1】
【0051】
上記表1において、第1欄は標準行列数である次元数を示す。その次の欄は使用されるα適応化値を示す。残りの欄は、認識精度の百分率と次の3つの環境条件、すなわち、クリーンな状態(無雑音)、時速30マイルの走行車両および時速60マイルの走行車両に関して必要な計算時間(データベース全体にわたる適応化のμ秒単位の累積時間)である。
【0052】
実験結果
上述の雑音適応化技術を様々な条件下で試験した。その試験結果をこの節で開示する。適応化システムを試験するために、カーナビゲーションシステム用の音声認識器を使用した。勿論、本文に記載の適応化技術はカーナビゲーションやその他の認識タスクに限定されるものではない。走行車両内の雑音条件は様々な車両速度でまったく広範囲に変化するので、本発明の試験に対してカーナビゲーションを選択した。すなわち、車両環境内での適応化システムの試験を該適応化システムの能力を測る好適な尺度として選択した。
【0053】
これらの実験の準備は既に記載した場合と同様である。3つの試験用セットは、(1)(学習用セットと異なる)20個のスピーカーによって発声され学習用セットと同じ条件で記録される462個の数字シーケンスから構成される妥当性検証セットと、(2)別のスピーカーによって発声され時速30マイルの車両内で記録される947個の数字シーケンスから構成される妥当性検証セットと、(3)(2)と同じスピーカーから発声されるが時速60マイルの車両内で記録される5つの数字からなり475個のシーケンスから構成される妥当性検証セットを備えるように構成された。
【0054】
単純なループ型文法を使用し、全ての数(“o”と“ゼロ”のモデルは同じ数)と無声音の遷移確率を等しくして認識を実行した。認識されたセンテンスの中の無声音を除去した後、10個の数に関して精度を計算した。
【0055】
これら最初の実験では、信号を9個のPLP係数(残余誤差を含む)と9個のデルタ係数からなるベクトル系列に符号化した。最初の9個の静的な係数の平均値に対してのみ、実行する場合は、適応化を適用した。適応化に当り、各センテンスの30個の第1フレームを使用して目的雑音を計算した。
【0056】
以下の表2に示す結果は、適応化を行わない隠れマルコフモデル(HMM)の性能と並列モデル結合(PMC)および従来のヤコビ適応化(JA)を利用して得られた結果とを比較したものである。すなわち、表2は雑音がある場合に並列モデル結合とヤコビ適応化がいかにして認識精度を向上させるかを示したものである。しかしながら、表2はα適応化を用いた改良型変換行列適応化の性能を示していない。この表は改良型変換行列適応化技術をさらに詳しく理解するための基準線となるよう提示したものである。
【0057】
【表2】
【0058】
【表3】
【0059】
表3はα因子がある場合とない場合の並列モデル結合とヤコビ適応化の両方の比較性能を示す。表3では、α適応化を伴う変換行列適応化を“α−TM”と示す。比較のために、並列モデル結合技術に対してもα因子を適用し、その結果をα−PMC”の行で示した。
【0060】
表3の結果を比較すると、改良型変換行列適応化(α−TM)が雑音存在下で標準ヤコビ適応化(JA)よりも非常に優れた性能を発揮していることに気付く。α因子はPMC適応化の性能をほとんど低下させなかったが、大幅な性能の向上ももたらさなかった。
【0061】
上記の実験結果は、α適応化因子を採用した改良型変換行列適応化技術が標準ヤコビ適応化よりも非常に優れた結果をもたらすことを示している。さらに、変換行列適応化は本質的にPMCよりも計算コストが低くて済むので、多くの処理能力や記憶容量を持たない組込み型認識システムにとって理想的な候補になる。そのようなアプリケーションとしては、例えば、セルラー電話認識システムや車両ナビゲーションシステムやその他消費製品がある。
【0062】
さらに、本明細書に記載の次元圧縮技術を利用することによりシステムの性能をさらに向上させることも可能である。変換行列適応化と組み合わせることにより、多数の認識アプリケーションで良好に機能するコンパクトで効率のよいロバストな適応化システムが得られる。
【0063】
本発明をその好ましい実施形態の形で説明したが、本発明が特許請求の範囲に記載の発明の精神から逸脱することなく変更可能であることは理解できるであろう。
【図面の簡単な説明】
【図1】本発明の理解に役立つ様々な雑音条件を示す図である。
【図2】改良型変換行列適応化の好ましい実施形態を示す学習段階および認識段階のデータフロー図である。
【図3】従来のヤコビ適応化と並列モデル結合(PMC)適応化とを比較した対数スペクトル特性図である。
【図4】認識精度に対する様々なα値の影響を示すα適応化パラメータ曲線である。
【図5】認識精度に対する様々なα値の影響を示すα適応化パラメータ曲線である。
【符号の説明】
20 学習段階
26 音声モデル
38 圧縮済ヤコビ行列集合
40 認識段階
50 適応音声モデル
A 初期雑音条件
B 認識時雑音条件
Na 基準雑音
Nb 目的雑音
Claims (16)
- 音声認識システムにおいて雑音適応化を実行する方法であって、
第1の雑音条件下で音声モデルの集合を作成する工程と、
上記第1の雑音条件下の音声モデルに関してヤコビ行列の集合を設ける行程と、
学習時の平均背景雑音に相当するスペクトルエネルギーのベクトルに対してスカラーを乗算することにより上記ヤコビ行列を変換して変換行列の集合を定義し、音声認識に利用するため上記変換行列を格納する工程と、
第2の雑音条件下で入力音声を提供する工程と、
上記第1および第2の雑音条件に基づいて雑音条件の第1の変化を求める工程と、
上記雑音条件の第1の変化と上記変換行列を利用して上記音声モデルの集合を適応化する工程とを備えている雑音適応化方法。 - 上記スカラーは2.4ないし3.6の値域にほぼ関連する値を有することを特徴とする請求項1記載の雑音適応化方法。
- 次元圧縮処理を用いて上記変換行列を分解する工程をさらに備えている請求項1記載の雑音適応化方法。
- 上記次元圧縮処理は主成分分析を使用することを特徴とする請求項5記載の雑音適応化方法。
- 学習時に作成され使用時に使用される音声認識システムの雑音適応化用適応行列を作成する方法であって、
上記学習時に関連する第1の雑音条件下で音声モデルの集合を作成する工程と、
上記第1の雑音条件下の音声モデルに関してヤコビ行列の集合を算出する工程と、
学習時の平均背景雑音に相当するスペクトルエネルギーのベクトルに対してスカラーを乗算することにより上記ヤコビ行列の集合を変換し、学習時の雑音と使用時の雑音との間の差を補償する工程と、
使用時に上記音声認識システムが使用するための適応行列として上記変換された行列の集合を格納する工程とを備えている適応行列作成方法。 - 上記スカラーは2.4ないし3.6の値域にほぼ関連する値を有することを特徴とする請求項7記載の適応行列作成方法。
- 次元圧縮処理を用いて上記適応行列を分解する工程をさらに備えている請求項7記載の適応行列作成方法。
- 上記次元圧縮処理は主成分分析を使用することを特徴とする請求項11記載の適応行列作成方法。
- 第1の雑音条件下で訓練される音声モデルの集合と、
第2の雑音条件に従って上記音声モデルを適応化する適応化システムと、
上記音声モデルに相当する格納された適応行列の集合を含み、上記適応化システムに関連する記憶部とを備え、
上記適応行列は、学習時の平均背景雑音に相当するスペクトルエネルギーのベクトルに対してスカラーを乗算することにより上記第1の雑音条件のヤコビ行列の集合に対して線形変換または非線形変換を適用することにより作成された変換行列であることを特徴とする音声認識器。 - 上記スカラーは2.4ないし3.6の値域にほぼ関連する値を有する重み付け因子の形で上記ヤコビ行列に適用されることを特徴とする請求項13記載の音声認識器。
- 上記適応行列の集合は次元圧縮により分解されることを特徴とする請求項13記載の音声認識器。
- 上記適応行列の集合は主成分分析により分解されることを特徴とする請求項13記載の音声認識器。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/551001 | 2000-04-18 | ||
US09/551,001 US6529872B1 (en) | 2000-04-18 | 2000-04-18 | Method for noise adaptation in automatic speech recognition using transformed matrices |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001356791A JP2001356791A (ja) | 2001-12-26 |
JP3848845B2 true JP3848845B2 (ja) | 2006-11-22 |
Family
ID=24199418
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001119722A Expired - Fee Related JP3848845B2 (ja) | 2000-04-18 | 2001-04-18 | 変換行列を用いた自動音声認識の雑音適応化方法 |
Country Status (4)
Country | Link |
---|---|
US (2) | US6529872B1 (ja) |
EP (1) | EP1148471B1 (ja) |
JP (1) | JP3848845B2 (ja) |
DE (1) | DE60100637T2 (ja) |
Families Citing this family (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7387253B1 (en) | 1996-09-03 | 2008-06-17 | Hand Held Products, Inc. | Optical reader system comprising local host processor and optical reader |
JP5105682B2 (ja) * | 2000-02-25 | 2012-12-26 | ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー | 基準変換手段を伴なう音声認識装置 |
US6631348B1 (en) * | 2000-08-08 | 2003-10-07 | Intel Corporation | Dynamic speech recognition pattern switching for enhanced speech recognition accuracy |
US7457750B2 (en) * | 2000-10-13 | 2008-11-25 | At&T Corp. | Systems and methods for dynamic re-configurable speech recognition |
US6876966B1 (en) * | 2000-10-16 | 2005-04-05 | Microsoft Corporation | Pattern recognition training method and apparatus using inserted noise followed by noise reduction |
US7003455B1 (en) | 2000-10-16 | 2006-02-21 | Microsoft Corporation | Method of noise reduction using correction and scaling vectors with partitioning of the acoustic space in the domain of noisy speech |
US20020087306A1 (en) * | 2000-12-29 | 2002-07-04 | Lee Victor Wai Leung | Computer-implemented noise normalization method and system |
EP1229516A1 (en) * | 2001-01-26 | 2002-08-07 | Telefonaktiebolaget L M Ericsson (Publ) | Method, device, terminal and system for the automatic recognition of distorted speech data |
US7062433B2 (en) * | 2001-03-14 | 2006-06-13 | Texas Instruments Incorporated | Method of speech recognition with compensation for both channel distortion and background noise |
US6985858B2 (en) * | 2001-03-20 | 2006-01-10 | Microsoft Corporation | Method and apparatus for removing noise from feature vectors |
US6912497B2 (en) * | 2001-03-28 | 2005-06-28 | Texas Instruments Incorporated | Calibration of speech data acquisition path |
US7165028B2 (en) * | 2001-12-12 | 2007-01-16 | Texas Instruments Incorporated | Method of speech recognition resistant to convolutive distortion and additive distortion |
US7117148B2 (en) * | 2002-04-05 | 2006-10-03 | Microsoft Corporation | Method of noise reduction using correction vectors based on dynamic aspects of speech and noise normalization |
GB2389217A (en) * | 2002-05-27 | 2003-12-03 | Canon Kk | Speech recognition system |
US20040064314A1 (en) * | 2002-09-27 | 2004-04-01 | Aubert Nicolas De Saint | Methods and apparatus for speech end-point detection |
JP4033299B2 (ja) * | 2003-03-12 | 2008-01-16 | 株式会社エヌ・ティ・ティ・ドコモ | 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム |
JP4333369B2 (ja) * | 2004-01-07 | 2009-09-16 | 株式会社デンソー | 雑音除去装置、及び音声認識装置、並びにカーナビゲーション装置 |
US7729908B2 (en) * | 2005-03-04 | 2010-06-01 | Panasonic Corporation | Joint signal and model based noise matching noise robustness method for automatic speech recognition |
US7729909B2 (en) * | 2005-03-04 | 2010-06-01 | Panasonic Corporation | Block-diagonal covariance joint subspace tying and model compensation for noise robust automatic speech recognition |
US7693713B2 (en) * | 2005-06-17 | 2010-04-06 | Microsoft Corporation | Speech models generated using competitive training, asymmetric training, and data boosting |
US20070033027A1 (en) * | 2005-08-03 | 2007-02-08 | Texas Instruments, Incorporated | Systems and methods employing stochastic bias compensation and bayesian joint additive/convolutive compensation in automatic speech recognition |
US7584097B2 (en) * | 2005-08-03 | 2009-09-01 | Texas Instruments Incorporated | System and method for noisy automatic speech recognition employing joint compensation of additive and convolutive distortions |
JP2007114413A (ja) * | 2005-10-19 | 2007-05-10 | Toshiba Corp | 音声非音声判別装置、音声区間検出装置、音声非音声判別方法、音声区間検出方法、音声非音声判別プログラムおよび音声区間検出プログラム |
US7877255B2 (en) * | 2006-03-31 | 2011-01-25 | Voice Signal Technologies, Inc. | Speech recognition using channel verification |
AU2006343470B2 (en) * | 2006-05-16 | 2012-07-19 | Loquendo S.P.A. | Intersession variability compensation for automatic extraction of information from voice |
JP4282704B2 (ja) * | 2006-09-27 | 2009-06-24 | 株式会社東芝 | 音声区間検出装置およびプログラム |
US8180637B2 (en) * | 2007-12-03 | 2012-05-15 | Microsoft Corporation | High performance HMM adaptation with joint compensation of additive and convolutive distortions |
JP4950930B2 (ja) * | 2008-04-03 | 2012-06-13 | 株式会社東芝 | 音声/非音声を判定する装置、方法およびプログラム |
US8214215B2 (en) * | 2008-09-24 | 2012-07-03 | Microsoft Corporation | Phase sensitive model adaptation for noisy speech recognition |
KR101239318B1 (ko) * | 2008-12-22 | 2013-03-05 | 한국전자통신연구원 | 음질 향상 장치와 음성 인식 시스템 및 방법 |
US8433564B2 (en) * | 2009-07-02 | 2013-04-30 | Alon Konchitsky | Method for wind noise reduction |
KR20120054845A (ko) * | 2010-11-22 | 2012-05-31 | 삼성전자주식회사 | 로봇의 음성인식방법 |
JP5966689B2 (ja) * | 2012-07-04 | 2016-08-10 | 日本電気株式会社 | 音響モデル適応装置、音響モデル適応方法および音響モデル適応プログラム |
WO2014100236A1 (en) | 2012-12-19 | 2014-06-26 | Visa International Service Association | System and method for voice authentication |
US8949224B2 (en) | 2013-01-15 | 2015-02-03 | Amazon Technologies, Inc. | Efficient query processing using histograms in a columnar database |
CN103903630A (zh) * | 2014-03-18 | 2014-07-02 | 北京捷通华声语音技术有限公司 | 一种用于消除稀疏噪声方法及装置 |
JP6464650B2 (ja) * | 2014-10-03 | 2019-02-06 | 日本電気株式会社 | 音声処理装置、音声処理方法、およびプログラム |
CN106384588B (zh) * | 2016-09-08 | 2019-09-10 | 河海大学 | 基于矢量泰勒级数的加性噪声与短时混响的联合补偿方法 |
JP6767326B2 (ja) * | 2017-09-08 | 2020-10-14 | 日本電信電話株式会社 | センサ信号処理方法、センサ信号処理装置、およびプログラム |
CN110570845B (zh) * | 2019-08-15 | 2021-10-22 | 武汉理工大学 | 一种基于域不变特征的语音识别方法 |
US11335329B2 (en) * | 2019-08-28 | 2022-05-17 | Tata Consultancy Services Limited | Method and system for generating synthetic multi-conditioned data sets for robust automatic speech recognition |
CN113223505B (zh) * | 2021-04-30 | 2023-12-08 | 珠海格力电器股份有限公司 | 模型训练、数据处理方法、装置、电子设备及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5226092A (en) * | 1991-06-28 | 1993-07-06 | Digital Equipment Corporation | Method and apparatus for learning in a neural network |
US6026359A (en) * | 1996-09-20 | 2000-02-15 | Nippon Telegraph And Telephone Corporation | Scheme for model adaptation in pattern recognition based on Taylor expansion |
US6182270B1 (en) * | 1996-12-04 | 2001-01-30 | Lucent Technologies Inc. | Low-displacement rank preconditioners for simplified non-linear analysis of circuits and other devices |
US6154716A (en) * | 1998-07-29 | 2000-11-28 | Lucent Technologies - Inc. | System and method for simulating electronic circuits |
-
2000
- 2000-04-18 US US09/551,001 patent/US6529872B1/en not_active Expired - Lifetime
- 2000-07-31 US US09/628,376 patent/US6691091B1/en not_active Expired - Lifetime
-
2001
- 2001-04-18 DE DE60100637T patent/DE60100637T2/de not_active Expired - Fee Related
- 2001-04-18 EP EP01303537A patent/EP1148471B1/en not_active Expired - Lifetime
- 2001-04-18 JP JP2001119722A patent/JP3848845B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
DE60100637T2 (de) | 2004-06-17 |
US6529872B1 (en) | 2003-03-04 |
US6691091B1 (en) | 2004-02-10 |
JP2001356791A (ja) | 2001-12-26 |
EP1148471B1 (en) | 2003-08-27 |
DE60100637D1 (de) | 2003-10-02 |
EP1148471A1 (en) | 2001-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3848845B2 (ja) | 変換行列を用いた自動音声認識の雑音適応化方法 | |
US7089182B2 (en) | Method and apparatus for feature domain joint channel and additive noise compensation | |
Sreenivas et al. | Codebook constrained Wiener filtering for speech enhancement | |
JP4218982B2 (ja) | 音声処理 | |
JP3154487B2 (ja) | 音声認識の際の雑音のロバストネスを改善するためにスペクトル的推定を行う方法 | |
Stern et al. | Compensation for environmental degradation in automatic speech recognition | |
JPH07271394A (ja) | 確実な電話音声認識のための信号バイアスの除去 | |
Cui et al. | Noise robust speech recognition using feature compensation based on polynomial regression of utterance SNR | |
van Dalen et al. | Extended VTS for noise-robust speech recognition | |
Kim et al. | Cepstrum-domain acoustic feature compensation based on decomposition of speech and noise for ASR in noisy environments | |
JPH0850499A (ja) | 信号識別方法 | |
Coto-Jimenez et al. | Hybrid speech enhancement with wiener filters and deep lstm denoising autoencoders | |
Xu et al. | Vector taylor series based joint uncertainty decoding. | |
EP1178465B1 (en) | Method for noise adaptation in automatic speech recognition using transformed matrices | |
Upadhyay et al. | Robust recognition of English speech in noisy environments using frequency warped signal processing | |
Yao et al. | Residual noise compensation for robust speech recognition in nonstationary noise | |
Chan et al. | Equalization of speech and audio signals using a nonlinear dynamical approach | |
Nguyen et al. | Bone-conducted speech enhancement using vector-quantized variational autoencoder and gammachirp filterbank cepstral coefficients | |
Ondusko et al. | Blind signal-to-noise ratio estimation of speech based on vector quantizer classifiers and decision level fusion | |
JP2001067094A (ja) | 音声認識装置及び方法 | |
JP4242320B2 (ja) | 音声認識方法、その装置およびプログラム、その記録媒体 | |
Upadhyay et al. | Bark scaled oversampled WPT based speech recognition enhancement in noisy environments | |
KR100198713B1 (ko) | 음식 인식기에서 스펙트럼 크기의 정규화와 켑스트럼 변환을 통한 잡음 처리방법 | |
CN117935826B (zh) | 音频升采样方法、装置、设备及存储介质 | |
Astudillo et al. | Uncertainty propagation for speech recognition using RASTA features in highly nonstationary noisy environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20041130 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050124 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050726 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050916 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060801 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060828 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |