JP2002049388A - 変換マトリックスを使用する自動音声認識の際の付加および重畳ノイズ適応方法 - Google Patents

変換マトリックスを使用する自動音声認識の際の付加および重畳ノイズ適応方法

Info

Publication number
JP2002049388A
JP2002049388A JP2001230183A JP2001230183A JP2002049388A JP 2002049388 A JP2002049388 A JP 2002049388A JP 2001230183 A JP2001230183 A JP 2001230183A JP 2001230183 A JP2001230183 A JP 2001230183A JP 2002049388 A JP2002049388 A JP 2002049388A
Authority
JP
Japan
Prior art keywords
noise
bias
adaptation
reference model
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2001230183A
Other languages
English (en)
Inventor
Christophe Cerisara
クリストフ・スリサラ
Luca Rigazio
ルカ・リガジオ
Robert Bomen
ロバート・ボーメン
Jean-Claude Junqua
ジャン−クロード・ジャンクア
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US09/628,376 external-priority patent/US6691091B1/en
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of JP2002049388A publication Critical patent/JP2002049388A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Noise Elimination (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

(57)【要約】 【課題】 音声認識システムにおいて、ノイズ適応を行
うノイズ適応システムおよび方法を提供すること。 【解決手段】 上記方法は、訓練音声信号に基づいて参
照モデル(70)を発生し、ケプストラム領域内におい
て、付加ノイズに対する参照モデル(70)を補償する
ステップを含む。参照モデル(70)も、ケプストラム
領域内において、重畳ノイズに対して補償される。1つ
の実施形態の場合には、重畳ノイズは、参照モデル(7
0)と目標音声信号(79)との間の重畳バイアスを推
定することによって補償される。推定重畳バイアスは、
チャネル適応マトリックス(88)により変換され、変
換重畳バイアスは、ケプストラム領域内において参照モ
デル(70)に加算される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、概して、自動音声
認識システムに関し、特に、ノイズが存在する場合に、
より優れた性能を発揮する認識装置を適応するための技
術に関するものである。
【0002】
【従来の技術】本出願は、2000年4月18日付の米
国特許出願第09/551,001号の一部継続出願で
ある。
【0003】現在の自動音声認識システムは、実験室段
階ではかなり良好に動作するが、実際に使用した場合、
その性能は急速に劣化する。実際に使用した場合に、認
識装置の性能に影響を与える重要な要因の1つは、音声
信号を劣化させる環境ノイズの存在である。このノイズ
の問題を解決するために、スペクトル減算法または並列
モデルの組合せのような多数の方法が開発されてきた。
【0004】
【発明が解決しようとする課題】しかし、これらの方法
は、余りにも用途が制限されているものか、計算が面倒
で高価なものである。
【0005】最近、ノイズがノイズAからノイズBへ変
化する場合に、付加ノイズを処理するために、ヤコビ適
応法が提案された。例えば、山口の米国特許第6,02
6,359号は、モデルのパラメータを表わすテーラー
の展開のヤコビ行列を記憶することにより、パターン認
識の際に、モデルを適応させるための上記スキームを開
示している。しかし、この方法をうまく動作させるため
には、ノイズAおよびノイズBが、特性およびレベルの
点で相互に類似していなければならない。例えば、ヤコ
ビ適応技術は、時速30マイルで平坦な道路を走行して
いる所与の車両の車内でノイズAが測定され、時速45
マイルで同じ道路を走行している同じ車両内で測定した
ノイズのような類似の特性のノイズBが測定されたよう
な場合に、うまく動作する可能性が高い。
【0006】周知のヤコビ適応技術は、ノイズAが、時
速30マイルで上記道路を走行中の上記車両内で測定さ
れ、ノイズBが、窓を開けているか、または時速60マ
イルで走行中の車両内で測定された場合のようなノイズ
AおよびノイズBが相互にもっと異なっている場合に
は、うまく動作しなくなる。
【0007】提案されたヤコビ・ノイズ適応法は、この
ような欠点を持っているために、多くの実際の用途の場
合にその有用性が制限される。何故なら、(システムを
使用している際の)試験時に存在するかも知れないノイ
ズを、訓練時中に予測するのが多くの場合難しいからで
ある。また、ヤコビ・ノイズ適応技術を改善したもの
も、多くの場合、その用途が制限される。何故なら、必
要な計算のためのコスト(処理時間および/またはメモ
リ要件)が高すぎるので、実際には使用することができ
ないからである。
【0008】本発明は、上記欠点を解決する。ヤコビ行
列を使用する代わりに、本発明は、形はヤコビ行列に似
ているが、異なる値からなる変換マトリックスを使用す
る。変換マトリックスは、訓練時および認識時の際、各
ノイズが、大きく異なっている場合があるという事実を
補償する。本発明の方法の好適な実施形態は、変換マト
リックスを形成するために、α適応パラメータを使用し
て、ヤコビ行列の線形または非線形変換を行う。別の方
法としては、神経ネットワークまたは他の人工頭脳機構
を使用する場合のような他の線形または非線形変換によ
り変換プロセスを実行することもできる。計算速度を速
くするために、主要成分解析のような寸法縮小技術によ
り、結果として得られる変換マトリックスを小さくする
ことができる。
【0009】もう1つの問題は、重畳ノイズの補償に関
する問題である。より詳細に説明すると、重畳ノイズは
音声チャネルに由来するものであるので、重畳ノイズを
上記付加ノイズと区別することができる。例えば、発声
者とマイクロフォンとの間の距離の変化、マイクロフォ
ンの欠陥、および信号が送られる電話線すらも、すべて
重畳ノイズに影響を与える。一方、付加ノイズは、通
常、発声者が話をしている環境に由来するものである。
【0010】重畳ノイズの重要な特性は、重畳ノイズの
場合には、重畳ノイズに、スペクトル領域内の音声信号
が乗算されるという性質である。一方、付加ノイズは、
スペクトル領域内で加算される。そのため、ノイズの補
償が特に難しくなる。実際、従来の大部分の方法は、重
畳ノイズまたは付加ノイズのいずれかを処理するが、両
方は処理しない。
【0011】αヤコビ(およびヤコビ)適応の上記利点
は、付加ノイズおよび重畳ノイズの両方を補償するため
に適用することができる。本発明は、主としてケプスト
ラム領域内のノイズを適応させるための方法およびシス
テムを提供する。これは有意に有効な方法である。何故
なら、重畳ノイズは、この領域内では付加ノイズになる
からである。この方法は、訓練音声信号に基づいて参照
モデルを発生するステップを含む。その後で、参照モデ
ルは、ケプストラム領域内で、付加ノイズおよび重畳ノ
イズの両方を補償する。
【0012】
【課題を解決するための手段】重畳ノイズに対する参照
モデルを補償するための1つの方法は、訓練音声信号と
目標音声信号との間の重畳バイアスを推定するステップ
を含む。その後で、この推定重畳バイアスは、チャネル
適応マトリックスにより変換される。この方法は、さら
に、ケプストラム領域内において、参照モデルに変換重
畳バイアスを加算する。それ故、本発明は、信号自身と
は反対の方法で参照モデルを変換し、適応する。通常、
付加ノイズおよび重畳ノイズの補償は、ガウス分布の平
均に対して行われる。
【0013】他の観点から見た場合、本発明は、参照モ
デル・ゼネレータ、付加ノイズ・モジュールおよび重畳
ノイズ・モジュールを有する音声認識システム用のノイ
ズ適応システムである。参照モデル・ゼネレータは、訓
練音声信号に基づいて参照モデルを発生する。付加ノイ
ズ・モジュールは、参照モデル・ゼネレータに接続して
いて、ケプストラム領域内の付加ノイズに対する参照モ
デルを補償する。重畳ノイズ・モジュールも、参照モデ
ル・ゼネレータに接続していて、ケプストラム領域内の
重畳ノイズに対する参照モデルを補償する。
【0014】本発明、その目的および利点をより完全に
理解してもらうために、以下の説明および添付の図面を
参照されたい。
【0015】
【発明の実施の形態】図1は、本発明を理解する際に役
に立つ、異なるノイズ条件を示す略図;図2は、改良形
変換マトリックス適応の好適な実施形態を示す訓練段階
および認識段階の両方のデータのフローチャート;図3
は、従来のヤコビ適応と並列モデル組合せ(PMC)適
応とを比較するログ・スペクトル図;図4および図5
は、認識精度に対する異なるα値の影響を示すα適応パ
ラメータ曲線;図6は、本発明のノイズ適応システムの
ブロック図;図7は、本発明のある実施形態の重畳ノイ
ズ・モジュールのブロック図;図8は、本発明の重畳ノ
イズの影響をシミュレートするために使用するフィルタ
のグラフである。
【0016】図1は、それを解決するために、本発明の
設計が行われる問題を示す。参照番号10で示すよう
に、例えば、自動音声認識システムは、走行中の車両の
室内のような騒音環境で動作しなければならないものと
仮定する。車両の室内で測定したノイズ・レベルは、通
常、車両の速度が増大すると、ノイズAからノイズA’
に増大する。ノイズ・レベルが、AからA’に増大して
も、ノイズの特性すなわち性質は、多くの場合同じまま
である。走行中の車両内においては、ノイズ・スペクト
ルは、通常、車両速度が増大するにつれて、予測できる
方法で変化する。風のノイズの振幅は増大するが、多く
の場合、そのランダム・ホワイト・ノイズ特性、または
ピンク・ノイズ特性は、そのままで変化しない。路面ノ
イズ(路面上で回転するタイヤの音)の周波数は、速度
の増大に比例して増大する。
【0017】都合の悪いことに、多くの実際の用途の場
合、周囲ノイズの特性および性質は、図1の条件10が
示すように、容易に予測することができない。例えば、
携帯用セルラーホンについて考えてみよう。セルラーホ
ンは、走行中の車両内で使用することができ、その場
合、セルラーホンは、参照番号10で示す範囲のノイズ
の影響を受ける。セルラーホンは、また、街路の曲がり
角で使用することもできるが、この場所は、全く異なる
交通騒音に満ちている。セルラーホンは、また、ショッ
ピング・モール内でも使用することができるが、その場
合には、ノイズの性質は全く異なる。図1の参照番号1
2は、この種々様々な異なるノイズの性質を示す。この
場合、3つの異なるノイズ・パターンを、ノイズA、ノ
イズBおよびノイズCとして概略示す。それ故、これら
の変化する騒音環境で動作しなければならない自動音声
認識システムにとっては、ノイズの性質が予測できない
ということは、かなり厄介な問題となる。
【0018】図2は、音声認識アプリケーションの、本
発明の例示としての実施形態である。音声認識アプリケ
ーションは、モデルをベースとする認識装置を使用す
る。モデルは、訓練中に形成され、その後で、認識の際
に使用される。図2においては、システムの訓練段階全
体を参照番号20で示し、識別段階を参照番号40で示
す。入力音声は、参照番号22で示すように、ノイズ条
件Aの下で、訓練段階中に供給される。入力音声は、参
照番号26で概略示す例示としての音声モデルにより、
ステップ24に示すように、音声モデルを訓練するため
に使用される。通常の入力音声信号においては、音声が
始まる前、または音声が終った後のような、音声が存在
しない時間がある。これらの音声が存在しない部分は、
ノイズ条件Aに関連する参照ノイズNaを示すデータを
記録するために使用することができる。図2において
は、参照ノイズNaはブロック28に記憶される。そう
したい場合には、音声モデル26を構成するために使用
する同じ訓練動作により上記ノイズをモデル化すること
ができる(背景モデル)。
【0019】音声モデルを訓練した後で、ステップ30
において、一組の変換マトリックスが計算され、32の
ところに記憶される。これらのマトリックスは、音声モ
デルが、識別の際に存在するノイズ条件の下でよりよく
動作するように、音声モデルを適応させるために識別中
に使用される。基本的なヤコビ適応プロセスの場合に
は、識別時のノイズの性質は、訓練時のノイズの性質と
ほぼ同じであると仮定する。そうでない場合には、古典
的なヤコビ適応は、最適な結果以下の結果にしかならな
い場合がある。
【0020】改良形適応技術は、最初のノイズ条件Na
に対して発生した一組の変換マトリックスの使用に基づ
いている。変換マトリックスは、最初のノイズ条件Na
に対して開発した一組のヤコビ行列に、線形または非線
形変換を適用することにより計算される。この好適な実
施形態は、次の節で説明するα適応係数を適用すること
により(線形および非線形両方の)変換を行う。α適応
係数は、現在好適なものであるが、上記変換を行うため
に、神経ネットワークまたは他の人工頭脳構成部材を使
用することもできる。
【0021】マトリックスの操作は、計算上非常に高価
なプロセスになる場合がある。かなりのコスト要因は、
すべてのマトリックスを記憶するために必要なメモリ空
間である。通常の実施形態の場合には、辞書内の各入力
に対する音声モデルは、複数の隠れマルコフ・モデル状
態、および各状態に関連する複数のガウス密度を使用す
ることができる。それ故、上記各状態の各ガウスに対す
るマトリックスは一つになる。その結果、記憶しなけれ
ばならないマトリックスの数が、数百になる場合がでて
くる。
【0022】好適な実施形態は、ヤコビ行列38を一組
のもっと簡単なマトリックスにするために、マトリック
ス分解ステップ36を実行する。以下にさらに詳細に説
明するように、この好適な分解技術は、簡単な変換マト
リックスを組み立てるために、主成分解析(PCA)を
使用する。
【0023】識別時には、ユーザからの入力音声は、ス
テップ42において供給される。入力音声は、44で示
すように、(目標ノイズNbとも呼ばれる)ノイズ条件
Bに関連する。すでに説明したように、ノイズ条件Bが
訓練時に使用したノイズ条件Aの性質と異なる場合に
は、従来のヤコビ適応技術による結果は、最適な結果以
下になる場合がある。しかし、(訓練中に、ヤコビ行列
が定義される場合に行われた)α適応プロセスは、不利
なノイズ条件の下で、認識性能を大きく改善することが
分かった。下記の例の中に、本発明者の結果を示す。
【0024】図2の参照番号44が示す目標ノイズNb
は、入力音声42から抽出され、その後で、参照番号4
6で示すように、参照ノイズNaからの違いを計算する
ために使用される。その後で、参照番号48で示すよう
に、新しい適応音声モデルが、このノイズ差、および訓
練時に発生した縮小変換マトリックスにより計算され
る。その後で、認識出力54を供給する目的で、入力音
声42上で音声認識を行うために、参照番号52のとこ
ろで、結果として得られる適応音声モデル50が使用さ
れる。
【0025】<α適応>従来のヤコビ適応を理解すれ
ば、本発明の変換マトリックスの動作をよりよく理解す
ることができる。従来のヤコビ適応は、並列モデル組合
せ(PMC)と呼ばれる他の形の適応と関連している。
従来、ヤコビ適応は、PMCが必要とする計算を少なく
する目的で、PMCを近似するために使用された。PM
Cの計算は非常に高価なものである。何故なら、音声モ
デルの各密度に対して、平均ベクトルをスペクトル領域
内に変換しなければならないからである。その後で、目
標ノイズに平均ベクトルを加算してから、結果として得
られるベクトルを、もとのケプストラム領域に変換して
戻さなければならない。マトリックスの乗算および2つ
の非線形関数を使用するこの二重変換は、埋設システム
にとっては、通常、時間が掛かり過ぎる変換である。
【0026】従来、ヤコビ適応は、ケプストラム領域に
おいて、PMCを近似するために使用された。比較する
と、下記式1は、PMC計算を示すが、大文字Fは個々
のコサイン変換(DCT)のマトリックスを表わす。式
2は、もっとコストが掛かるPMC計算を近似するため
に使用される従来のヤコビ適応計算を示す。
【0027】(式1) C(S+N)=F・log(exp(F-1・C(S)))+exp(F-1・C(N))
【数3】
【0028】ヤコビ適応近似の問題は、目標ノイズ(シ
ステムの使用中に経験する)の性質が、参照ノイズ(シ
ステム訓練中に存在する)に似ている場合だけにしか、
この近似を適用できないことである。この問題の性質を
図3に示す。この図は、ノイズが増大する場合の、騒音
を含む音声パラメータの、ログ・スペクトル領域内の評
価のグラフを示す。より詳細に説明すると、上記グラフ
は、ログ・スペクトル領域内における、PMC適応と従
来のヤコビ適応との比較を示す。図3においては、左側
の陰をつけた部分は、音声信号がノイズより遥かに強力
な状態に対応し、一方、右側の領域は、ノイズが音声信
号より強力な状態に対応する。訓練環境および試験環境
の両方が、これら2つの領域と同じである場合には、ヤ
コビ適応およびPMC適応は同じ様な動作をする。しか
し、これら2つの環境の中の一方が、中央領域である場
合、または上記一方の領域が、もう一方の領域以外の他
の領域内にある場合には、ヤコビ適応はPMCとは異な
るものとなり、実際に、何時でも、モデルの適応を過小
に評価することになる。
【0029】本発明者達は、ヤコビ行列を線形または非
線形変換することにより、従来のヤコビ適応を大きく改
善することができることを発見した。線形または非線形
変換を行うために、好適な実施形態は、本発明者達がα
適応パラメータと呼ぶパラメータを使用する。下記の式
3は、非線形変換を行うための、α適応パラメータの好
適な使用方法を示す。式4は、線形変換を行うための、
上記パラメータの別の使用方法を示す。すでに説明した
ように、上記変換を行うためには、α適応パラメータを
使用することが好ましいが、他の変換技術も同様に使用
することができる。例えば、最初のノイズ状態に対して
ヤコビ行列を変換するために、神経ネットワークまたは
他の人工頭脳構成部材も使用することができる。もう1
つの変換技術は、入力音声に対する第1のα適応パラメ
ータまたは係数の適用、およびノイズに対する第2のα
適応パラメータまたは係数の適用を含む。他の方法も同
様に使用することができる。
【0030】
【数4】
【数5】
【0031】図3について説明すると、α適応パラメー
タは下記のように機能する。参照ノイズがゼロに近い場
合、またαがあまり大きくない場合には、(X座標のN
およびαNのところで、それぞれ計算した)両方の接線
は水平になる。参照ノイズが非常に重要な場合には、両
方の接線は、ラインy=xに対応する。参照ノイズが図
3の中央領域に属する場合には、上記接線の新しい勾配
は、従来のヤコビ適応曲線の勾配よりも急になる。
【0032】式3のα適応パラメータを使用すると、結
果としてマトリックスの非線形変換となる。分子および
分母の両方にパラメータが掛けられ、そのため、非線形
変換が行われる。式4の場合には、α適応パラメータ
が、結果として得られる分子/分母の商に掛けられるの
で、線形変換が行われる。
【0033】両方の場合とも、α適応パラメータの主な
効果は、音声モデルに加算される適応バイアスを増大す
ることである。この適応バイアスの増大は役に立つ。何
故なら、このバイアスの増大は、従来のヤコビ適応の欠
点を、ノイズの効果を少な目に推定するように修正する
からである。本明細書の後の節においては、α適応パラ
メータにより行うことができる改善を示す本発明者達の
実験結果を説明する。
【0034】<α適応パラメータの選択>理論的には、
α適応パラメータの最適値は、環境により異なる。αの
値は、目標ノイズと参照ノイズの間のズレがより大きい
場合には、より大きくなければならない。しかし、本発
明者達は、α適応パラメータは、理論的に予測したもの
より遥かに安定していることを発見した。従来のヤコビ
適応の代わりとしての、変換マトリックスを発生するた
めに使用した場合には、音声認識精度の変動は、αの小
さい値に対しては少なく、αの中間値に対しては増大
し、αがある値より増大した場合には、再び小さくな
る。この現象は、図3の曲線の形によるものである。よ
り詳細に説明すると、αの値が存在する場合には、接線
の勾配は0と1間で変動するだけである。
【0035】この点をもっとよく説明するために、不利
な環境で数字認識について一組の実験を行った。数字の
文脈から独立している12のモデルを作成した。1から
9までの数字音声「o」および「ゼロ」に対するモデ
ル、および無言状態に対するモデルを作成した。無言状
態は、5つの状態を持つ隠れマルコフ・モデル(HM
M)によりモデル化される。残りのモデルは15の状態
を使用した。すべてのHMMの各状態は、4つのガウス
密度を使用する。モデルを訓練するために使用した訓練
セットは、80人の人が発音した数字の3803シーケ
ンスを含んでいた。訓練セットは、ノイズのない実験室
の条件下で記録された。図4および図5は、αが1〜4
の範囲で変動した場合の、精度の変動を示す。データ
は、6つの異なる音響環境に基づいて発生した。
【0036】・ノイズのない条件で記録する確認コーパ
ス ・10dBのSNRで、車両のノイズを含む同じコーパ
ス ・0dBのSNRで、車両のノイズを含む同じコーパス ・15dBのSNRで、ホワイト・ノイズを含む同じコ
ーパス ・時速30マイルの車両内で記録した試験コーパス ・時速60マイルの車両内で記録した他の試験コーパス
【0037】図4および図5を見れば、音響環境がどの
ような環境であろうとも、αの異なる値に対する精度の
変動は、α=2.4からα=3.6の範囲においては、
非常に小さいことが分かる。このことは、αが、本発明
の実際の実施形態で、適当に利用することができる安定
している範囲を持つことを示す。好適には、α適応パラ
メータは、約2.4から3.6の範囲内にあることが好
ましいが、この値は、単に1つの可能な安定な範囲を表
わすものに過ぎないことを理解することができるだろ
う。通常、αの他の値を使用しても、良好な結果を得る
ことができる。別な言い方をすれば、αの「最適の」値
と、上記の範囲(例えば、2.4〜3.6)内で選択す
ることができるαおよび任意の他の値との間の、精度の
低下は非常に低い。本発明者達のデータは、「最適」な
点からの精度の低下は、3%以下である。そのため、本
発明者達の改良形ヤコビ適応は、非常に丈夫な方法にな
る。
【0038】<計算コストを少なくするための寸法の縮
小>すでに説明したように、ヤコビ適応の計算コストは
PMCより低いが、それでも、認識システム、特に、埋
設タイプのシステムにとってかなりの負担になる。実
際、本発明者達は、各変換マトリックスを下記式5で表
わすことができることが分かった。
【0039】
【数6】 は、NFilt×NFiltの大きさの対角線マトリッ
クスである。この場合、NFiltは、スペクトル・フ
ィルタ・バンク内で使用するフィルタの数である。
【0040】それ故、各変換マトリックスは、実際、ヤ
コビ行列が属する空間のベースであるNfiltの正準
マトリックスの加重合計として表わすことができる。こ
れらの正準マトリックスは、下記式により表わすことが
できる。
【0041】Ji=F・diag(i)・F-1 ここで、diag(i)は、位置iのところは1である
が、その他の位置は0であるNfilt×Nfiltマ
トリックスを表わす。
【0042】各変換マトリックスは、下記式により表わ
すことができる。
【数7】
【0043】それ故、Ndマトリックス(Ndは、すべ
ての音声モデルの密度の全数)を記憶する代わりに、N
filtの正準マトリックスに、NdにNfilt係数
γiを掛けたものを加えたものを記憶するだけで十分で
ある。そうすることにより、記憶要件がかなり軽減す
る。
【0044】しかし、この解決方法は、さらに改善する
ことができる。何故なら、この解決方法は、アルゴリズ
ムの時間的複雑性を増大するからである。実際、すべて
の変換マトリックスを記憶する場合には、式2を、Nd
マトリックス乗算を必要とするすべての密度に直接適用
することができる。
【0045】第2の解決方法を選択した場合には、式2
の右辺は下記式のようになる。
【数8】
【0046】この式においては、コストは、Nfilt
マトリックス加算、スカラによるNfiltマトリック
スの乗算である。この加算および乗算は、各密度に対し
て反復して行わなければならない。それ故、全コスト
は、2・Nd・Nfiltマトリックスである。
【0047】余分の計算時間を使用したくない場合に
は、正準マトリックスの数を減らさなければならない。
【0048】空間の大きさを小さくするための好適な技
術は、この空間に属する上記一組の素子について、主成
分解析を実行する方法である。それ故、最初に、すべて
のベクトル、
【数9】 を計算し、この一組のベクトルについて単一値分解を行
った。結果として得られる正準ベクトルをその固有値の
降順に分類したNfiltの正準ヤコビ行列、
【数10】 を計算するために使用した。
【0049】主成分解析を使用することにより計算の負
担をかなり軽減することができる。実験の結果、有用な
正準マトリックスの数を5つのマトリックスに減らすこ
とができることが分かった。さらに、少なくすることも
できる。マトリックスの数を減らすと、適応するために
必要な空間要件が緩和され、計算時間が短縮される。寸
法を縮小すること(主成分解析)により達成した改善を
よりよく理解してもらうために、表Iに、主成分解析を
使用する変換マトリックス適応と、主成分解析を使用し
ない変換マトリックス適応の比較を示す。
【0050】
【表1】
【0051】上記表I中、第1の欄は、次元数、すなわ
ち、正準マトリックスの数を示し、次の欄は、使用した
α適応値を示す。残りの欄は、認識精度の百分率、およ
び下記の3つの環境条件、すなわち、無雑音(ノイズな
し)、時速30マイルの車両、および時速60マイルの
車両に対する必要とした関連計算時間(全データベース
上の適応の、マイクロ秒単位の累積時間)を示す。
【0052】<実験結果>上記ノイズ適応技術を種々の
ノイズ条件の下で試験した。この節においては、本発明
者達が行った試験結果を再現する。適応システムを試験
するために、カー・ナビゲーション・システム用の音声
認識装置を使用した。もちろん、上記適応技術は、カー
・ナビゲーションまたは任意の他の識別タスクに限定さ
れない。この試験にカー・ナビゲーションを選択したの
は、走行中の車両内のノイズ条件が、種々の車両速度に
わたって、非常に広い範囲で変化する場合があるからで
ある。それ故、車両環境での適応システムの試験を適応
システムの能力の望ましい測定として選択した。
【0053】これらの実験の設定は上記設定と同じであ
る。3つの試験セット、すなわち、 (1)訓練セットの際に使用したのと同じ条件で記録し
た、(訓練セットとは異なる)20人の人が発音した数
字の462のシーケンスからなる確認セットと; (2)異なる人が発音し、時速30マイルで走行中の車
両内で記録した数字の947のシーケンスからなる確認
セットと;(3)同じ人が発音したものであるが、時速
60マイルで走行中の車両内で記録した5つの数字の4
75のシーケンスからなる確認セットを組み立てた。
【0054】すべての数字(同じ数、「o」および「ゼ
ロ」モデル)および無音状態に対して、同じ遷移確率で
1つのループ文法を使用して認識を行った。認識した文
内の無音状態を除去した後で、10の数字について精度
を計算した。
【0055】これらの第1の実験の場合、信号は、9つ
のPLP係数(残留エラーを含む)のベクトル、および
9つのデルタ係数のシーケンスにコード化された。実行
した場合には、適応は、第1の9つの静的係数の平均に
対してだけ適用された。適応のために、各文の30の第
1のフレームを使用して目標ノイズを計算した。
【0056】下記の表IIに再現した結果は、並列モデル
組合せ(PMC)および従来のヤコビ適応(JA)を使
用して入手した結果を含む、適応を行わなかった隠れマ
ルコフ・モデル(HMM)の性能を比較を示す。それ
故、表IIは、並列モデル組合せおよびヤコビ適応の両方
が、ノイズの存在下で、どの程度認識性能を改善したか
を示す。しかし、表IIは、α適応による改良形変換マト
リックス適応の性能は示していない。この表は、それに
対して、改良形変換マトリックス適応技術をよりよく理
解することができるベースラインとしての働きをする。
【0057】
【表2】
【0058】
【表3】
【0059】表IIIは、α係数を使用した場合の、およ
び使用しなかった場合の並列モデル組合せおよびヤコビ
適応の性能の比較を示す。表III中、「α−TM」は、
α適応を使用した変換マトリックス適応を示す。比較す
るために、「α−PMC」で示す行に示すように、並列
モデル組合せ技術においても、α係数を適用した。
【0060】表III内の結果を比較する場合、改良形変
換マトリックス適応(α−TM)の性能が、ノイズの存
在下において、標準ヤコビ適応(JA)の性能より有意
に優れていたことに留意されたい。α係数は、PMC適
応の性能をほとんど劣化させなかったが、上記α係数
は、有意な改善も示さなかった。
【0061】本発明者達の実験結果は、α適応係数を使
用する改良形変換マトリックス適応技術は、標準ヤコビ
適応より、かなりよい結果をもたらすことを示してい
る。さらに、変換マトリックス適応は、元来、計算コス
トの点で、PMCと比較すると安いので、多数の処理電
力またはメモリを持たない埋設認識システムの理想的な
候補となる。このような用途としては、例えば、セルラ
ーホンの認識システムおよび車両ナビゲーション・シス
テムおよび他の消費者用製品等がある。
【0062】さらに、上記寸法縮小技術を使用すると、
システムの性能をさらに改善することができる。変換マ
トリックス適応と一緒に使用した場合、多くの認識のた
めの用途に役に立つ、小型で、効率のよい、丈夫な適応
システムを得ることができる。
【0063】<他の実施形態>上記の説明は、付加ノイ
ズに対するα−ヤコビ適応の利点を証明しているが、α
ヤコビ適応は、重畳ノイズに対しても類似の利点を達成
することができることを理解することができるだろう。
最初に、実際の場合、すべての音声信号は、付加ノイズ
によってだけではなく、重畳ノイズによっても劣化する
ことに注目することが重要である。スペクトル領域内に
おける、結果として得られる信号を表わす古典的な式は
下記の通りである。
【0064】S’=HS+N ここで、Sは発音した音声であり、S’は結果として得
られる信号であり、Hはチャネル・ノイズであり、Nは
付加ノイズである。ケプストラム領域内においては、上
記式は下記式のようになる。
【0065】C(S’)=C(HS+N)
【0066】HtarおよびNtarを、目標重畳ノイズおよ
び目標付加ノイズ(すなわち、試験時点で推定した)と
定義し、HrefおよびNrefを、参照重畳ノイズおよび参
照付加ノイズ(すなわち、訓練時点で推定した)と定義
しよう。その後で、下記の計算を行った。
【0067】
【数11】
【0068】その後で、ヤコビ近似(または、α−ヤコ
ビ近似)を合計の第2の項に適用することができる。
【0069】
【数12】 ここで、
【数13】 は、音声ベクトルSのノイズ適応マトリックスを示す。
それ故、下記式のようになる。
【0070】
【数14】
【0071】第1の項(1−Jc)(C(Htar)−C
(Href))は、チャネル適応マトリックス(1−Jc
により変換された重畳バイアス(C(Htar)−C(H
ref))を表わす。上記変換は、ケプストラム領域内で
表示された重畳バイアスであることに注目することが重
要である。第3の項Jc(C(Ntar)−C(Nref))
は、ノイズ適応マトリックスJcにより変換された付加
バイアスを表わす。第2の項C(Hrefs+Nref)は、
ケプストラム領域内の参照信号の1つのモデルを表わ
す。
【0072】図6について説明すると、この図は、音声
認識システム(図示せず)でノイズ適応を行うことがで
きるノイズ適応システム60を示す。通常、ノイズ適応
システム60は、訓練環境64内の発声者62の訓練音
声信号75、および認識環境66内の発声者62の目標
音声信号79を使用する。図に示すように、訓練音声信
号75は、訓練チャネル72からの重畳ノイズ成分H
refと、総和装置74のところに内蔵した付加ノイズ成
分Nrefを含む。同様に、目標ノイズ信号79は、認識
チャネル76からの重畳ノイズ成分Htarと、総和装置
78のところに内蔵した付加ノイズ成分Ntarを含む。
【0073】チャネル72、76は、通常、マイクロフ
ォン、電話線等のような種々の信号処理デバイスを内蔵
するが、認識チャネル76が、訓練チャネル72とは異
なる特性を持っている場合に、ノイズ適応に関する問題
が発生する。そのような場合、目標重畳ノイズ成分H
tarは、参照重畳ノイズ成分Hrefとは異なる。本発明の
主要な目的は、上記重畳バイアスを説明するために、参
照モデルを適応させることである。
【0074】適応システム60は、参照モデル・ゼネレ
ータ68、付加ノイズ・モジュール80、および重畳ノ
イズ・モジュール82を備える。参照モデル・ゼネレー
タ68は、訓練音声信号75に基づいて参照モデル70
を発生する。参照モデル70は、HMMであっても、ガ
ウス混合モデル(GMM)であっても、または本発明の
目的のために訓練することができる任意の他の音声モデ
ルであってもよい。付加ノイズ・モジュール80は、参
照モデル・ゼネレータ68に接続され、ケプストラム領
域内の付加ノイズに対する参照モデル70を補償する。
重畳ノイズ・モジュール82は、参照モデル・ゼネレー
タ68に接続され、ケプストラム領域内で、重畳ノイズ
に対する参照モデル70を補償する。
【0075】式7は、付加ノイズおよびチャネル・ノイ
ズの両方に対してどのようにモデルを適応したらよいの
かを示しているが、C(Htar)−C(Href)を推定し
なければならない。そのような推定は、通常、目標音声
信号および参照音声信号79、75のケプストラム・ベ
クトルの間の差を平均することによって計算される。こ
の推定は、また、M.ウエストファルの、1997年、
ギリシア、ロード、EUROSPEECH ’97掲載
の「会話型音声認識の際のケプストラム平均の使用」に
記載されている周知のケプストラム平均減算(CMS)
アルゴリズムで使用される。以下の説明においては、式
7が定義している補償アルゴリズムを、「ケプストラム
平均適応」またはCMAと呼ぶことにする。実際には、
CMAも、参照信号および試験信号の整合を平均しよう
とする点で、CMAはCMSに非常に類似している。し
かし、これらの方法の間には、いくつかの違いがある。
【0076】・CMSは、信号自身に適用されるが、C
MAはモデルに適用される。 ・CMSは、参照信号および目標信号の両方に適用され
るが、CMAは、参照モデルだけに適用される。 ・CMSは、重畳ノイズだけを補償するが、CMAは、
付加ノイズとチャネル・ノイズの両方を考慮に入れる。
【0077】図7について説明すると、この図は、(総
合補償の一部としての)ケプストラム領域内の重畳ノイ
ズに対する参照モデルを補償するための1つの方法を示
す。それ故、重畳モジュール82は、重畳バイアスの推
定値を供給し、参照モデルをこの推定で適応させる。そ
の結果、重畳により適応されたモデル96が得られる。
その後で、重畳により適応されたモデル96を、付加ノ
イズおよび重畳ノイズの両方に対する参照モデル70を
完全に補償するために、付加ノイズ・モジュール80に
より動作させることができる。より詳細に説明すると、
重畳ノイズ・モジュール82の1つの実施形態は、参照
モデル70と目標音声信号79との間の重畳バイアスを
推定するための重畳バイアス・モジュール84を含む。
適応マトリックス・モジュール86は、訓練音声信号に
基づいて、チャネル適応マトリックス88を発生する。
チャネル適応マトリックス88は、本質的には、修正ノ
イズ適応マトリックス1−Jcである。Jcは、すでに説
明したように、標準ヤコビ行列であってもよいし、α−
ヤコビ行列であってもよいことに注目することは重要な
ことである。重畳バイアス・モジュール84は、チャネ
ル適応マトリックス88により推定重畳バイアスを変換
する。重畳ノイズ・モジュール82は、さらに、ケプス
トラム領域内で参照モデル70に変換重畳バイアスを加
算するために、重畳バイアス・モジュール84に接続し
ている総和モジュール90を含む。
【0078】<重畳バイアスの計算>重畳バイアスを推
定するための、参照モデルと信号との間のガウス整合
は、すでに分かっているものと仮定しよう。この仮定に
基づいて重畳バイアスを計算するための2つの可能な方
法について説明する。
【0079】I.第1の方法 HtarS≫Ntarであると仮定した場合、下記式を入手す
るために、音声ユニットに対応する信号のセグメントの
平均を求めることができる。
【0080】
【数15】
【0081】同様に、同じ参照、すなわち、雑音を含ま
ない信号の平均を求めることにより、項、
【数16】 を計算できなければならない。しかし、この信号は、通
常、使用することができない。すなわち、ノイズを含む
(目標)信号だけしか分かっていないからである。その
後で、この参照信号を推定しなければならない。このよ
うな推定値は、モデルと信号との間のガウス整合を使用
して入手することができる。それ故、各フレームに対し
て、目標フレームと整合しているガウス密度C(Htar
t)は、対応する参照フレームC(Hreft)を表わ
す。その後で、下記式を計算することができる。
【0082】
【数17】
【0083】2つの上記式の間で減算を行うことにより
下記式が得られる。
【0084】
【数18】
【0085】実際には、上記式が示すチャネル・バイア
スを計算するために、認識装置により示すように、現在
の文のガウス整合を必要とする。2つの経路の認識シス
テムを避けるために、前のものにより計算した適応バイ
アスにより、現在の文に適応することに決定した。そう
することにより、例えば、他の人が前の文および現在の
文を発音した場合のような、環境の変化に対するシステ
ムの感度が鋭くなる。しかし、この近似の利点は、依然
として適応が非常に速く、必要な認識経路しか必要とし
ないことである。
【0086】それ故、重畳ノイズ・モジュール82は、
さらに、目標音声信号を目標音声セグメントおよび目標
無音状態セグメントに分割するためのガウス整合モジュ
ール92を含むことができる。セグメント分割機能は、
通常、音声識別装置に内蔵されているが、説明のため
に、重畳ノイズ・モジュール82の一部として、ここで
説明することにする。実際には、上記の多くの成分の特
定の位置は、本発明の範囲から逸脱することなしに変更
することができる。それ故、重畳バイアス・モジュール
84は、音声信号および参照モデル70に対応するガウ
ス・データの平均値を求める。重畳バイアス・モジュー
ル84は、さらに、ガウス・データに対する平均と目標
音声セグメントに対する平均との間の差を計算する。そ
の結果が、チャネル適応マトリックスによる変換の後
で、ケプストラム領域内で、参照モデル70に加算する
ことができる重畳バイアスC(Htar−C(Href)であ
る。
【0087】II.第2の方法 重畳バイアスを推定するために好適な増分解決方法を使
用すれば、目標ノイズ、Ntarを考慮の対象にすること
ができる。この方法は、(例えば、前の文に基づいて計
算した)重畳バイアスの前の推定値を使用し、現在の文
の信号を使用することにより、この推定値を改善する。
それ故、重畳バイアスは、ある文から次の文に増分推定
され、発音する人または環境が変化しない限り、改善の
可能性がある。
【0088】現在の文の音声セグメントの信号を平均す
ると、下記式のようになる。
【0089】
【数19】
【0090】前の文に基づいて、適応モデル、
【数20】 はすでに推定済みである。そのため、この一組のモデル
を使用して参照フレームの平均を計算することができ
る。
【0091】
【数21】
【0092】上記2つの式の間で減算を行うことによ
り、式8で表わすチャネル・バイアスを入手することが
できる。この方法を使用した場合には、第1の文の目標
チャネルおよび参照チャネルは、同じものであると仮定
する必要がある。
【0093】<実験結果>図8について説明すると、こ
の図は、グラフ94も示すような実験を行う目的で、重
畳ノイズの影響をシミュレートするために使用するフィ
ルタの形状を示す。下記のシミュレーションを行うため
に、上記の第2の方法を選択した。
【0094】表IVは、付加ノイズ適応およびチャネル・
ノイズ適応の両方を使用した場合の、本発明の結果を示
す。
【0095】
【表4】
【0096】表IVの最後の行に示す結果は、(重畳ノイ
ズ補償を行わない)初期データベースに対するチャネル
補償方法を使用しない本発明の精度を示す。それ故、こ
の精度は、「理想的な」チャネル補償方法を使用した場
合の、達成可能な上限である。結果は、本発明のシステ
ムが、この方法の開発中に達成した近似を確認する、こ
の達成可能な最善の精度からほど遠くないことを示す。
【0097】上記の総合補償方法が、付加ノイズ補償だ
けの場合に説明した、α−ヤコビ適応に関連する多くの
利点を持つことに注目することは重要なことである。す
でに説明したように、α−ヤコビ適応は、ヤコビ適応ア
ルゴリズムに基づいている。α−ヤコビ適応は、近似を
行うという点で、ヤコビ適応とは異なる。ヤコビ適応
は、訓練条件でPMCを最もよく近似する線形関数を使
用するが、α−ヤコビ適応は、一組の選択した可能な試
験条件に対してPMCをもっとよく近似する線形関数を
実験的に計算する。その結果、α−ヤコビ適応は、古典
的なヤコビ適応より、実際の試験条件に対してより優れ
た性能を示す。
【0098】その後で、主成分解析を使用することによ
り、認識結果を劣化させないで、必要な変換マトリック
スの数を少なくすることにより、このアルゴリズムの所
要時間を半分以上短縮し、メモリの複雑さを半分以上軽
減した。
【0099】好適な実施形態により本発明を説明してき
たが、添付の特許請求の範囲に記載されている、本発明
の精神から逸脱することなしに、本発明を修正すること
ができることを理解することができるだろう。
【図面の簡単な説明】
【図1】 本発明を理解する際に役に立つ、異なるノイ
ズ条件を示す略図である。
【図2】 改良形変換マトリックス適応の好適な実施形
態を示す、訓練段階および認識段階の両方のデータのフ
ローチャートである。
【図3】 従来のヤコビ適応と、並列モデル組合せ(P
MC)適応とを比較するログ・スペクトル図である。
【図4】 認識精度に対する異なるα値の影響を示すα
適応パラメータ曲線である。
【図5】 認識精度に対する異なるα値の影響を示すα
適応パラメータ曲線である。
【図6】 本発明のノイズ適応システムのブロック図で
ある。
【図7】 本発明のある実施形態の重畳ノイズ・モジュ
ールのブロック図である。
【図8】 本発明の重畳ノイズの影響をシミュレートす
るために使用するフィルタのグラフである。
【符号の説明】
26 音声モデル 28 ブロック 42 入力音声 54 認識出力 60 ノイズ適応システム 62 発声者 64 訓練環境 68 参照モデル・ゼネレータ 70 参照モデル 72 訓練チャネル 74 総和装置 75 訓練音声信号 76 認識チャネル 78 総和装置 79 目標音声信号 80 付加ノイズ・モジュール 82 重畳ノイズ・モジュール 84 重畳バイアス・モジュール 86 適応マトリックス・モジュール 88 チャネル適応マトリックス 90 総和モジュール 96 モデル
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ロバート・ボーメン アメリカ合衆国・91360・カリフォルニ ア・サウザンド・オークス・ストーム・ク ラウド・ストリート・3331 (72)発明者 ジャン−クロード・ジャンクア アメリカ合衆国・93105・カリフォルニ ア・サンタバーバラ・ニューシーズ・ドラ イヴ・4543 Fターム(参考) 5D015 CC11 GG01 HH00

Claims (17)

    【特許請求の範囲】
  1. 【請求項1】 音声識別システムでノイズ適応を行うた
    めの方法であって、訓練音声信号に基づいて参照モデル
    を発生するステップと、 ケプストラム領域内で付加ノイズに対する前記参照モデ
    ルを補償するステップと、 前記ケプストラム領域内で重畳ノイズに対する前記参照
    モデルを補償するステップとを含むことを特徴とする方
    法。
  2. 【請求項2】 請求項1記載の方法において、さらに、 前記参照メモリと目標音声信号との間の重畳バイアスを
    推定するステップと、 チャネル適応マトリックスにより前記推定重畳バイアス
    を変換するステップと、 前記ケプストラム領域内において、前記変換重畳バイア
    スを前記参照モデルに加算するステップとを含むことを
    特徴とする方法。
  3. 【請求項3】 請求項2記載の方法において、さらに、 前記参照モデルに対応するガウス・データの平均値を求
    めるステップと、 前記目標音声信号に対応する目標音声セグメントの平均
    値を求めるステップと、 前記ガウス・データに対する平均値と前記目標音声セグ
    メントに対する平均値との間の差を計算するステップと
    を含むことを特徴とする方法。
  4. 【請求項4】 請求項3記載の方法において、さらに、
    前の文からのデータにより前記訓練音声信号の各文を適
    応するステップを含むことを特徴とする方法。
  5. 【請求項5】 請求項2記載の方法において、さらに、
    前記推定重畳バイアスに修正チャネル適応マトリックス
    を掛けるステップを含むことを特徴とする方法。
  6. 【請求項6】 請求項5記載の方法において、Jcがノ
    イズ適応マトリックスである場合に、前記チャネル適応
    マトリックスが、1−Jcにより表わされる適応式によ
    り表わされることを特徴とする方法。
  7. 【請求項7】 請求項5記載の方法において、Cが前記
    ケプストラム領域を表わし、Hrefが前記訓練音声信号
    内の重畳ノイズを表わし、Sが音声ベクトルを表わし、
    refが前記訓練音声信号内の付加ノイズを表わす場合
    に、前記適応マトリックスが、 【数1】 で表わされる適応式で表わされることを特徴とする方
    法。
  8. 【請求項8】 請求項1記載の方法において、さらに、 前記訓練音声信号と目標音声信号との間の付加バイアス
    を推定するステップと、 ノイズ適応マトリックスにより前記推定付加バイアスを
    変換するステップと、前記ケプストラム領域内におい
    て、前記参照モデルに前記変換付加バイアスを加算する
    ステップとを含むことを特徴とする方法。
  9. 【請求項9】 ケプストラム領域内において、重畳ノイ
    ズに対する訓練音声信号ベースの参照モデルを補償する
    ための方法であって、 前記訓練音声信号と目標音声信号との間の重畳バイアス
    を推定するステップと、 チャネル適応マトリックスにより前記推定重畳バイアス
    を変換するステップと、 前記ケプストラム領域内において、前記参照モデルに前
    記変換重畳バイアスを加算するステップとを含むことを
    特徴とする方法。
  10. 【請求項10】 請求項9記載の方法において、さら
    に、 前記訓練音声信号に対応する訓練音声セグメントの平均
    値を求めるステップと、 前記目標音声信号に対応する目標音声セグメントの平均
    値を求めるステップと、 前記訓練音声セグメントに対する前記平均値と前記目標
    音声セグメントに対する平均値との間の差を計算するス
    テップとを含むことを特徴とする方法。
  11. 【請求項11】 請求項10記載の方法において、さら
    に、前の文からのデータにより前記訓練音声信号の各文
    を適応するステップを含むことを特徴とする方法。
  12. 【請求項12】 請求項9記載の方法において、さら
    に、前記推定重畳バイアスにチャネル適応マトリックス
    を掛けるステップを含むことを特徴とする方法。
  13. 【請求項13】 請求項12記載の方法において、Jc
    がノイズ適応マトリックスである場合に、前記チャネル
    適応マトリックスが、1−Jcにより表わされる適応式
    により表わされることを特徴とする方法。
  14. 【請求項14】 請求項12記載の方法において、Cが
    前記ケプストラム領域を表わし、Hrefが前記訓練音声
    信号内の重畳ノイズを表わし、Sが音声ベクトルを表わ
    し、Nrefが前記訓練音声信号内の付加ノイズを表わす
    場合に、前記ノイズ適応マトリックスが、 【数2】 で表わされる適応式で表わされることを特徴とする方
    法。
  15. 【請求項15】 音声識別システム用のノイズ適応シス
    テムであって、 訓練音声信号に基づいて、参照モデルを発生するための
    参照モデル・ゼネレータと、 前記参照モデル・ゼネレータに接続していて、ケプスト
    ラム領域内において、付加ノイズに対する前記参照モデ
    ルを補償する付加ノイズ・モジュールと、 前記参照モデル・ゼネレータに接続していて、前記ケプ
    ストラム領域内で、重畳ノイズに対する前記参照モデル
    を補償する重畳ノイズ・モジュールとを備えることを特
    徴とするノイズ適応システム。
  16. 【請求項16】 請求項15記載のノイズ適応システム
    において、前記重畳ノイズ・モジュールが、 前記参照モデルと目標音声信号との間の重畳バイアスを
    推定するための重畳バイアス・モジュールと、 前記訓練音声信号に基づいてチャネル適応マトリックス
    を発生するための適応マトリックス・モジュールと、 前記ケプストラム領域内において、前記参照モデルに前
    記変換重畳バイアスを加算するために、重畳バイアス・
    モジュールに接続している総和モジュールとを含み、 前記重畳バイアス・モジュールが、前記チャネル適応マ
    トリックスにより前記推定重畳バイアスを変換すること
    を特徴とするノイズ適応システム。
  17. 【請求項17】 請求項16記載のノイズ適応システム
    において、前記重畳ノイズモジュールが、さらに、 前記目標音声信号を目標音声セグメントおよび目標無音
    状態セグメントに分割するためのガウス整合モジュール
    を含み、 前記重畳バイアス・モジュールが、前記目標音声セグメ
    ントおよび前記参照モデルに対応するガウス・データの
    平均値を求め、前記重畳バイアス・モジュールが、さら
    に、前記ガウス・データの平均値と前記目標音声セグメ
    ントの平均値との間の差を計算することを特徴とするノ
    イズ適応システム。
JP2001230183A 2000-07-31 2001-07-30 変換マトリックスを使用する自動音声認識の際の付加および重畳ノイズ適応方法 Withdrawn JP2002049388A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/628,376 US6691091B1 (en) 2000-04-18 2000-07-31 Method for additive and convolutional noise adaptation in automatic speech recognition using transformed matrices
US628,376 2000-07-31

Publications (1)

Publication Number Publication Date
JP2002049388A true JP2002049388A (ja) 2002-02-15

Family

ID=24518611

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001230183A Withdrawn JP2002049388A (ja) 2000-07-31 2001-07-30 変換マトリックスを使用する自動音声認識の際の付加および重畳ノイズ適応方法

Country Status (3)

Country Link
EP (1) EP1178465B1 (ja)
JP (1) JP2002049388A (ja)
DE (1) DE60109533T2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102426837A (zh) * 2011-12-30 2012-04-25 中国农业科学院农业信息研究所 农业现场数据采集的移动设备语音识别的鲁棒性方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7089182B2 (en) * 2000-04-18 2006-08-08 Matsushita Electric Industrial Co., Ltd. Method and apparatus for feature domain joint channel and additive noise compensation
US9009039B2 (en) 2009-06-12 2015-04-14 Microsoft Technology Licensing, Llc Noise adaptive training for speech recognition
CN111951805A (zh) * 2020-07-10 2020-11-17 华为技术有限公司 一种文本数据处理方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102426837A (zh) * 2011-12-30 2012-04-25 中国农业科学院农业信息研究所 农业现场数据采集的移动设备语音识别的鲁棒性方法
CN102426837B (zh) * 2011-12-30 2013-10-16 中国农业科学院农业信息研究所 农业现场数据采集的移动设备语音识别的鲁棒性方法

Also Published As

Publication number Publication date
EP1178465B1 (en) 2005-03-23
EP1178465A3 (en) 2002-04-10
DE60109533T2 (de) 2006-04-13
DE60109533D1 (de) 2005-04-28
EP1178465A2 (en) 2002-02-06

Similar Documents

Publication Publication Date Title
US6691091B1 (en) Method for additive and convolutional noise adaptation in automatic speech recognition using transformed matrices
US7089182B2 (en) Method and apparatus for feature domain joint channel and additive noise compensation
Deng et al. Recursive estimation of nonstationary noise using iterative stochastic approximation for robust speech recognition
Sreenivas et al. Codebook constrained Wiener filtering for speech enhancement
EP0831461B1 (en) Scheme for model adaptation in pattern recognition based on taylor expansion
EP0886263B1 (en) Environmentally compensated speech processing
JP3154487B2 (ja) 音声認識の際の雑音のロバストネスを改善するためにスペクトル的推定を行う方法
US6173258B1 (en) Method for reducing noise distortions in a speech recognition system
US7792672B2 (en) Method and system for the quick conversion of a voice signal
Hilger et al. Quantile based histogram equalization for noise robust speech recognition
JPH0850499A (ja) 信号識別方法
Stern et al. Compensation for environmental degradation in automatic speech recognition
Cui et al. Noise robust speech recognition using feature compensation based on polynomial regression of utterance SNR
JPH07271394A (ja) 確実な電話音声認識のための信号バイアスの除去
Kim et al. Cepstrum-domain acoustic feature compensation based on decomposition of speech and noise for ASR in noisy environments
van Dalen et al. Extended VTS for noise-robust speech recognition
Deng et al. Adaptive Kalman filtering and smoothing for tracking vocal tract resonances using a continuous-valued hidden dynamic model
JP4382808B2 (ja) 基本周波数情報を分析する方法、ならびに、この分析方法を実装した音声変換方法及びシステム
Cui et al. A study of variable-parameter Gaussian mixture hidden Markov modeling for noisy speech recognition
JP3587966B2 (ja) 音声認識方法、装置そよびその記憶媒体
Motlıcek Feature extraction in speech coding and recognition
JP2002049388A (ja) 変換マトリックスを使用する自動音声認識の際の付加および重畳ノイズ適応方法
JP2000075888A (ja) ヒドン・マルコフ・モデルの学習方法及び音声認識システム
JP4242320B2 (ja) 音声認識方法、その装置およびプログラム、その記録媒体
Astudillo et al. Uncertainty propagation for speech recognition using RASTA features in highly nonstationary noisy environments

Legal Events

Date Code Title Description
A977 Report on retrieval

Effective date: 20040326

Free format text: JAPANESE INTERMEDIATE CODE: A971007

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041130

A521 Written amendment

Effective date: 20050125

Free format text: JAPANESE INTERMEDIATE CODE: A523

A02 Decision of refusal

Effective date: 20050726

Free format text: JAPANESE INTERMEDIATE CODE: A02

A521 Written amendment

Effective date: 20050825

Free format text: JAPANESE INTERMEDIATE CODE: A821

A521 Written amendment

Effective date: 20051207

Free format text: JAPANESE INTERMEDIATE CODE: A821

A761 Written withdrawal of application

Effective date: 20090123

Free format text: JAPANESE INTERMEDIATE CODE: A761

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20090129