JP2001517325A - 認識システム - Google Patents

認識システム

Info

Publication number
JP2001517325A
JP2001517325A JP54444798A JP54444798A JP2001517325A JP 2001517325 A JP2001517325 A JP 2001517325A JP 54444798 A JP54444798 A JP 54444798A JP 54444798 A JP54444798 A JP 54444798A JP 2001517325 A JP2001517325 A JP 2001517325A
Authority
JP
Japan
Prior art keywords
data vector
correction
model
vector
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP54444798A
Other languages
English (en)
Inventor
キース マイケル ポンティング
ロバート ウィリアム セリーズ
マイケル ジョン トムリンソン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
UK Secretary of State for Defence
Original Assignee
UK Secretary of State for Defence
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by UK Secretary of State for Defence filed Critical UK Secretary of State for Defence
Publication of JP2001517325A publication Critical patent/JP2001517325A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Complex Calculations (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

(57)【要約】 認識システム(10)は、スピーチ信号中で26の周波数間隔に対するエネルギー値の連続するデータベクトルを生成するフィルタバンク分析器(16)を含む。ユニット(18)は、それぞれのベクトルのスペクトルの歪みを補正する。補正されたベクトルは、12次元の特徴ベクトルへの変換を受け、またコンピュータ(24)中で、ヒドゥンマルコフモデル状態とマッチングされる。それぞれのマッチングされたモデル状態は、スピーチの特徴ベクトルの推定値である平均値を有する。マッチングインバータ(28)は、擬似逆変換により、周波数空間でのスピーチデータベクトルの推定値を生成する。推定されたデータベクトルは、関連するスピーチ信号データベクトルと比較され、また無限インパルス応答フィルタ(44)がそれらの他との違いを平均する。そのように生成された、平均された違いのベクトルは、スピーチ信号データベクトルの補正で、ユニット(18)により使用される。

Description

【発明の詳細な説明】 認識システム 本発明は、データのベクトルをあらかじめ決められたモデルと関連づけること により、データの認識を実行する種類の認識システム、及びそのようなベクトル 及びモデルを関連づけることを含む認識方法に関し、特に、認識プロセスの前に 歪みが発生するところでのスピーチ及びパターンの認識に関連する。 スピーチ認識システムは、関心のデータ又は信号が、認識のため利用できる前 に、ある形態の歪みを受ける、認識システムのよい例である。特に電話の用途で は、スピーチ認識システムの性能は、電話の受話器(handset)の位置によるスピ ーチ信号の変化により、又は受話器、電話回線及び交換局(exchange)の特性によ り、しばしばひどく低下させられる。1つの特定の問題は、受話器の位置により 引き起こされるスピーチレベルの変化に関係する。より程度の高いその問題の研 究によると、周波数バランスの変化も重要であることが示される。平均信号レベ ルの変化の補正は、ある形態の自動利得制御(AGC)を使用することにより、 しばしばなされる。不都合なことに、効果的なAGCを提供することは難しいで あろう、例えば、2線式の電話システム形態(two wire telephone system confi gurations)においては、電話の会話に従事している人のスピーチの強度レベルの 間には、しばしば相当な違いがある。4線式の形態(four wire configurations) では、対処することが難しい、かなり大きい逆通信路エコー(reverse channel e cho)があるであろう。それは、1つの話し手グループのスピーチの、他の話し手 グループの会話への混合から生じる。 歪みに対処することの問題への1つのアプローチは、様々な種類の受話器及び 話し手の位置を使用して収集した学習データを使用して、スピーチ認識システム を学習させることである。このアプローチには問題がある。第1に、全世界的な 電話ネットワークでは、非常に多くのマイクの種類及び話し手の位置がある可能 性があり;その結果、必要な学習データの量は、あまりにも大きすぎて実際的で なく、またシステムは、未知のマイクについて、それの性能を最適化することが できない。第2に、認識中に、学習させるデータのほんの小さい断片しか有効に 使用されない。 認識性能を向上させる1つのアプローチは、歪みに対処するためのある形態の 補正を使用することである。現行のスピーチ認識システムは、入力信号を、”フ ィルタバンク(filterbank)分析”として時には知られる処理の間、時間領域の波 形から、周波数領域の連続するベクトルに変換する。これらのベクトルに、ある 形態の補正を使用することが可能である。適切な補正を決定するために使用でき る、多くの方法がある。1つのそのような方法が、Sadaoki Furui,"Cepstral A nalysis Technique for Automatic Speaker Verification",IEEE Trans Acoust ics,Speech and Signal processing,29(2):254-272,April 1981により開示さ れる。それは、信号の長期の(long term)スペクトル特性を得るため、全体の会 話に対するフィルタバンク分析器の出力を平均化すること、及びデータにわたる 第2の通過の間、歪みの補正を使用することを含む。補正されたデータは、次に 、スピーチ認識デバイスに渡される。このアプローチには、2つの主な問題があ る。第1に、単一の修正を全体の会話に対して利用するため、歪みが素早く変化 する会話にはあまり適さないことである。これはセルラー、コードレス又は無線 電話からの会話中で起きることがある。第2に、認識が始まる前に、適切な修正 を得るため、全体の会話を処理する必要があるため、それはリアルタイムの用途 には不適当である。 好適なアプローチは、スペクトル形状適合(Spectral Shape Adaptation,S SA)として時には知られる技術を使用することである。この技術を使用する認 識システムは、認識しようとする信号の予想されるスペクトル特性の情報を、そ れぞれの時間の瞬間に提供し、またこれは、差異の項(difference term)を提供 するためその信号中に実際に存在する同等物と比較される。差異の項は、次に、 多くの連続する信号(時間で平均化する)にわたり平均化され、修正項を提供す る。この種類のシステムが、Yunxin Zhao,"Iterative Self-Learning Speaker and Channel Adaptation under Various Initial Conditions",Proc IEEE ICAS SP[11]712〜715ページにより記述された。ここで、データは、文単位ベースで 処理される。多くの周波数バンドにわたる、信号エネルギーの変化をそれぞれが 表示する、連続するベクトルを生成するため、入力信号はフィルタバンク 分析を受ける。ベクトルは、スピーチモデル状態とマッチングされることにより 、処理される。ベクトルがマッチングされたモデル状態のパラメータが、モデル に従って予想されるそのベクトルの値を予報するために使用される。ベクトルと 予想された値との違いは、それぞれの文で被った平均の歪みを決定するため、文 からより早いベクトルに対して得られた差異の値で計算され、かつ時間平均され る。そして、1つの文に対して決定されたSSAパラメータは、次の文を処理す るために使用される。 Zhaoのアプローチは、不都合にも、より精巧なスピーチ認識では、以下の理由 により、働かない。これらのシステムでは、(周波数空間に表現された)フィル タバンク分析から得られたデータベクトルは、周波数領域からある抽象的な特徴 空間(feature space)に変換される。正しく利用したなら、この変換が認識の正 確さを向上させるが、それは、話された単語の特性である特徴を保存する一方、 話し手の特性である情報の形態の、スピーチ信号への不要な寄与を減少させるか らである。モデル状態は、ベクトルが変換された、同じ特徴空間中に表現される 。上述のように認識の正確さを改善するために、周波数空間から特徴空間への変 換中の高次の項を捨てることが通常の習慣であり、それは、次元(dimensionalit y)の減少があること、すなわち特徴空間のベクトルは、周波数空間のベクトルよ り少ない次元すなわちベクトルの要素を有することを意味する。これは、周波数 空間から特徴空間への変換では情報の欠落があり、そのため、周波数空間での予 想値の唯一の結果を出す推定値を提供するために、モデルのパラメータを使用す ることは、それはこの目的のためには不十分な情報を含むため、もはやできない ことを意味する。これは、周波数領域での補正が、上述のZhaoの参照文献に記述 されたように、実施できないことを意味する。 歪み補正を有する認識システムを提供することが、本発明の目的である。 本発明は、複数次元データベクトルを、比較的低い次元のあらかじめ決められ たモデルに関連させるための認識システムを提供し、それは以下を含む: a)データベクトル中の歪みを補正するための補正手段、 b)データベクトルの次元をモデルの次元に減少させる歪み補正の後、データベ クトルへの変換を行うための変換手段、 c)それぞれの変換されたデータベクトルを適当なモデルに関連させるためのマ ッチング手段、 d)前記変換の逆変換により、関連させたモデルからデータベクトルの推定値を 得るための逆変換手段(inverting means)、及び e)前記データベクトルの推定値、及び前記補正手段による歪み補正で使用する ためそれが対応する前記データベクトルから補正を誘導するための、誘導手段(d eriving means)。 本発明は、次元の減少にもかかわらず、モデルマッチングに基づく歪み補正を 提供するという利点を提供する。本発明に従うと、マッチング前の情報の欠落に もかかわらず、補正での使用のため、データベクトルの推定値を提供することが 可能であることが、発見された。 好適な実施形態では、逆変換手段は、それの次元を減少させる、変換手段のデ ータベクトルの推定値への操作が、そのような情報の欠落に帰するような方法で 情報を含ませることにより、前記変換の擬似逆変換(pseudo-inverse)を実行し、 また、モデルの次元の、データベクトルの次元までの増加を与えるように整えら れている。この実施形態は、比較的簡単に推定値を得るという利点を提供し、す なわち擬似逆変換モデルの変換が、それが変換手段の後続の操作から除かれるよ うな方法で、情報が、この目的のために含まれるとき、受け入れられる推定値を 提供する。 変換手段は、データベクトルに、関数A( )により表わされる変換を与える ように整えることができ、また逆変換手段(inverting means)は、関数A-( ) により表わされる擬似逆変換(pseudo-inverse transformation)を実行するよう に整えることができ、関数A( )及びA-( )は、関係:qをある任意のベク トルとしたとき、A(A−(A(q)))=A(q)、を満足する。 誘導手段は、データベクトルの推定値及びデータベクトル、及び先の推定値及 び同様の種類のベクトルから補正を得るために整えることができる。それは、ロ ーパスフィルタリングを実行する指数的時間期間(exponential time window)を 有する無限インパルス応答フィルタを組込むことができる。 好適な実施形態では、本発明のシステムは、スピーチ認識のために整えること ができ、また、それぞれのデータベクトルは、それぞれの周波数間隔中のスピー チ信号のエネルギーを表わす要素を有する。歪み補正で使用するための補正ベク トルを生成するように、誘導手段を整えることができ、また、データベクトルの 要素の対数をそれぞれの補正ベクトルの要素の対数に加えるように、補正手段を 整えることができる。変換手段は、好適には、行列変換及びヒドゥンマルコフモ デルマッチングを実行するマッチング手段を使うように整えられ;逆変換手段を 、変換されたデータベクトルと関連し、かつガウス分布を有するモデル状態から データベクトル推測値を生成するように、整えることができる。マッチング手段 は、ガウス分布の混合であるモデル状態を使用することができ、また、逆変換手 段は、そこからデータベクトル推測値を生成するように整えることができる。 補正手段は、他には、周波数空間でのシフトの補正するための行列の掛け算を 提供できる。誘導手段は、カルマンフィルタとすることができる。 区切られたヒドゥンマルコフモデルマッチング(segmental hidden Harkov mod el matching)を実行するために、マッチング手段を整えることができる。 データベクトルは、話し手の唇から得られた画像情報を、少なくとも、部分的 に含むことができ、また補正手段は、絵の、照明(illumination)のレベル、方向 及び幾何学的歪みの内の、少なくとも1つの補正を提供できる。 変換手段は、好適には、データベクトルの次元を減少させるために、いくつか の係数が廃棄される、コサイン変換を利用するように整えられる。 歪みの存在下でのスピーチ認識のための本発明のシステムは、好適には、以下 の内で少なくとも1つの補正を提供するように整えられた、逆変換手段及び誘導 手段を含む。 a)変化するスピーチ信号レベル、 b)マイクの位置の変化、 c)マイクのタイプの変化、 d)スピーチ信号回線の特性の変化 e)背景雑音レベル、 f)周波数シフト、 g)話し手の照明のレベル、 h)照明の方向、及び i)話し手の特徴(feature)の幾何学的歪み。 本発明は、他には、スピーチ以外の信号の歪みの補正を提供することができる 。それは、例えば、情報が、部分的又は全体的に、個人の顔に向けたビデオカメ ラからの画像情報からなる認識システムで、照明レベル又は視点の角度の補正を 提供できる。 誘導手段は、データベクトルの歪みの補正を得るために、複数のデータベクト ルの推定値からの寄与を結合するための、無限インパルス応答フィルタ又はカル マンフィルタを含むことができる。 本発明の好適な実施形態では、マッチング手段は、複数のモデル状態及びモデ ルクラスのどれがそれぞれの変換されたデータベクトルに関連するかを示すよう に整えられ、誘導手段は、それぞれのデータベクトルに対する個別の補正を得る ように整えられ、また補正手段は、マッチング手段により指示されたモデルクラ スに従って選択的に補正を実施するように整えられる。マッチング手段は、部分 的なトレースバックを実行するように、またいつか後で改訂されることがあるマ ッチングしたモデル状態を指示するために整えることができ;逆変換手段及び誘 導手段と組み合わせて、それはそのようなマッチングに基づいて生成された補正 のための修正を提供することができる。 更なる態様では、本発明は、あらかじめ決められた複数次元のモデルを、その モデルより高い次元のデータベクトルと関連させる方法を提供し、以下のステッ プを含む: a)データベクトル中の歪みを補正するステップ、 b)歪み補正の後、データベクトルに変換を実施し、それらの次元をモデルの次 元まで減少させるステップ、 c)それぞれの変換されたデータベクトルを、それぞれのモデルに関連させるス テップ、 d)関連するモデルからデータベクトルの推定値を得るため、前記変換の逆変換 を行うステップ、及び e)データベクトルの推定値、及びそれが対応するデータベクトルから補正を得 るステップと、歪みに対してデータベクトルを補正するためその補正を使用する ステップ。 ステップ(d)の逆変換するステップは、好適には、それの次元を減少させる ためのデータベクトルの推定値への変換の実施がそのような情報の欠落に帰する ような方法で情報を含むことにより、データベクトルの次元までモデルの次元を 増加させるための、前記変換の擬似逆変換の手段により実行される。 変換手段及び逆変換手段が必須でない他の態様では、本発明は、データベクト ルをあらかじめ定めたモデルと関連づけるための認識システムを提供し、それは 以下を含む: a)複数の補正されたデータベクトルを生成するため、それぞれのデータベクト ルへの個別のデータタイプに関する補正を使うように整えられた、複数の異なる タイプのデータに対応するデータベクトル中の歪みの補正のための補正手段、 b)補正されたベータベクトル及びモデルを関連させるため、またそれぞれのデ ータベクトルに対して、それぞれのデータタイプに対応する、適切なモデル及び クラスを指示するために整えられたマッチング手段、及び c)マッチング手段、及びモデルクラスに関連するそれぞれのデータタイプに対 する歪み補正の補正手段による使用のためにマッチング手段が関連するデータベ クトルにより示されるモデルから補正を得るための誘導手段。 本発明がより完全に理解されるために、それの実施形態を、単なる例を使用し て、以下のような添付の図面に関して、今から説明する: 図1は、スピーチ認識システムの形態での、本発明の認識システムのブロック図 である; 図2は、図1のシステムでスピーチ認識に使用されるスピーチモデル状態を図解 する; 図3及び4は、2つの異なるマイクに対するスペクトル形状適合の処理を図解す る; 図5は、2つの話し手が関係するときの、スピーチ認識でのスピーチモデル状態 の使用を図解する。 図6は、モデルと話し手との間の周波数の違いを補正するための装備がされた、 本発明の別のスピーチ認識システムのブロック図である。 図1を参照すると、スピーチ認識システムの形態での本発明の実施形態が、符 号10により、大まかに示される。システム10は、それ自身がフィルタバンク 分析器16に接続されたA−D変換器14に接続された、電話12を含む。分析 器16は、有限な信号標本の普通の問題を扱うため、20mSのハミングウィン ドゥ(Hamming window)を使用して、400ポイントの離散フーリエ変換(discret e Fourier transform,DFT)を実行する。それは、概ねメル(mel)(すなわち知覚 的に直線性のある)スケール上の26の周波数間隔すなわちビン(bin)のそれぞ れに対して平均値が得られる、26のサブセット中に得られたフーリエ成分を結 合し、対数の強度値を生成する。そのため、それは、26チャネルの対数の出力 を伴うバンドパスフィルタのバンク(bank)をシミュレーションする。分析器16 からの出力は、スペクトル形状適合(SSA)を提供する補正ユニット18と、 バッファメモリ20との両方に渡される。SSA補正ユニット18は、デジタル 加算器である。それは、変換デバイス22に接続され、またそこからの出力は、 システムの出力を符号26で供給する、モデルマッチングコンピュータ24に渡 される。 コンピュータ24は、マッチングインバータすなわち”アンドゥデバイス”2 8にも接続され、それは差計算機30への入力を供給する;この計算機は、それ 自身がマッチングデバイス24から回線32を通してタイミング情報を受け取る 、バッファメモリ20から第2の入力を受け取る。差計算機30からの出力は、 回線34を通して、第1の入力としてデマルチプレクサ36に渡され、それは、 モデルのクラスの情報の第2の入力を、マッチングデバイス24から回線38を 通して受け取る。デマルチプレクサ36は、無限インパルス応答(infinite impu lse response,IIR)フィルタ44のバンクの非スピーチ及びスピーチのセクショ ン44a及び44bに接続された、2つの出力40及び42を有する。これらの セクションのそれぞれは、26のIIRフィルタのアレイである。回線46は、 フィルタのスピーチセクション44bをSSAパラメータ記憶装置48に接続し 、またそれは次にSSA補正ユニット18に接続される。 認識システム10は、以下のように動作する。電話12からのアナログのスピ ーチ信号が、A−D変換器14によりデジタル信号に変換され、またそれは信号 をサンプリングし、また20KHzの速度で、デジタル出力信号を供給する。フ ィルタバンク分析器16は、連続した400ポイントの離散フーリエ変換(DF T)を計算するために、そのデジタル信号を使用する。DFTによるそれぞれの 変換に対する200ポイントの出力は、次に’ビンに入れられ’すなわちサブグ ループに分離され、26の周波数間隔に対して対数のスケールで平均エネルギー を供給するために誘導されたそれらの対数が追加される。分析器16は、26個 のアナログのバンドパスフィルタのバンクのデジタルの同等物である。分析器1 6からのそれぞれの出力変換は、26の成分を有するベクトルであり、またそれ ぞれの成分は、関連するフーリエ変換係数にわたって平均することにより得られ たそれぞれの周波数間隔の中のエネルギーの対数を表わす。 個々のベクトルは、連続するそれぞれ10mSの分析器16からの出力であり 、またそれぞれは、その前の20mSのスピーチ信号の中のエネルギーにわたる 平均を表わす。分析器からの時刻tiでのithベクトル出力は、Oiと定義される 。それは、バッファメモリ20中に記憶され、またそれは、それぞれがそれの生 成された時刻tiに対応するそれぞれのアドレスで、500個の最も最近得られ たベクトルを記憶する。 それぞれのベクトルOiは、SSAパラメータ記憶装置48中に記憶された2 6個のパラメータpj(j=0〜25)を使用する変換を利用する補正ユニット 18に渡される。これらのパラメータの生成は、後で説明される。ユニット18 は、記憶装置48の内容を、ベクトルOiに加える。変換は、歪みを補正するベ クトルのスペクトル形状の適合に対応する。この変換は、信号通信路(channel) 又はマイクの特性により引き起こされる、平均信号レベルの変化及び線形歪みの 補正を提供する。 ユニット18内での補正後、それぞれのベクトル(ここでOi corrと呼ぶ)は 、より少ない次元を有する特徴空間中のベクトルYiを生成するために、ベクト ルを周波数領域又は空間から変換する変換デバイス22に渡される。デバイス2 2は、それぞれの補正されたベクトルのコサイン変換を生成し、また変換の最初 の12項だけが保持されるように、それを切り捨てる。コサイン変換の使用は、 デ ータ中の不要な相関を減少させることにより、認識の正確さを改善する手段とし て、先行技術で周知である。コサイン変換の切り捨ても、それは不要な話し手に 依存する不正確さを除去するため、話し手に依存しないしないシステムの設計の ために、先行技術で既知である。変換行列の係数が、必要なコサイン変換の特性 により決定されるところでは、変換は行列の掛け算として実行される。それは、 ベクトルの次元を26から12に減少させる。 ここの例では、ユニット22によるコサイン変換の実行は、特徴ベクトルの成 分の計算を含む。以下の方程式(1.a,b)は、行列操作の評価を示す: ここで、ykはベクトルYiのkth成分であり、Om corrは補正されたベクトルOi corr のmth成分である;mは、フィルタバンク出力の26チャネルに対して、0 から25の値を有し、kは、コサイン変換の最初の12項に対して0から11の 値を有する。 変換され、補正されたベクトルYiは、モデルマッチングコンピュータ24に 渡される。このコンピュータは、(ここの例における12に対して)より単純な 2次元特徴空間を図解する図2に関して、説明される手順を実行する。モデルマ ッチングコンピュータ24は、先行技術で周知の種類の通常のヒドゥンマルコフ モデルのマッチングアルゴリズム(conventional hidden Markov model matching algorithm)を実行する。例えば、スピーチ認識の標準的なテキスト、"Speech S ynthesis and Recognition",J N Holmes,Van Nostrand Reinhold(UK)1988の特 に7及び8章を参照する。コンピュータ24は、電話のスピーチの、通常のヒド ゥンマルコフのモデルである、モデルを使用する。それぞれのモデルは、単語又 は単語の部分(サブワード)に対応する;それぞれのモデルは、多くの状態を有 し、また音のシーケンスに対応する。例えば、0から9の数字に対する数字 認識器(digit recognizer)では、モデルについて10個の状態が使用できる。1 つの状態は、特徴空間の次元を有する単一の成分のガウス確率分布により表現さ れ、すなわち分布は以下の形態を有する: ここでCsは、モデル状態の定数であり、μs,k及びσs,k(k=0,...11 )は、12次元の特徴空間中のモデル状態Sに対する確率分布の平均及び標準偏 差の12個の成分であり、またxkは12次元の特徴ベクトル空間を画定する変 数である。 先行技術のマッチングプロセスは、以前のベクトル/モデルマッチングの結果 を考慮して、ベクトルをモデルとマッチングするステップを含み、そのため認識 の正確さの見込みは、入力のシーケンスにわたって、最大にされる。これは、動 的プログラム(dynamic programming)により実行される。 図2は、3個のモデル状態、S1、S2及びS3を有するモデルを図示するも のであり、楕円は確率分布の輪郭を表わす。変換され、修正された特徴ベクトル Yiの2次元の同等物も示される。コンピュータ24は、モデルのマッチングア ルゴリズムを使用し、どのモデル状態が、ベクトルYiにマッチングするために もっとも適切かを決定する。ベクトルとモデル状態との間でマッチングする確率 は、以前のマッチング履歴によって課された任意の制約の影響を受けるベクトル の位置での、モデル状態の確率分布の大きさにより、示される。図2に示される 簡略化された2次元の状況では、確率の考慮は、ベクトルYiは、モデル状態S 1にマッチングすべきであると示すであろう。偶然、同一のマッチングがないな らば、それがマッチングしそうなモデル状態S1から予想されるそのようなベク トルの値は、Yiと等しくはならないであろう。この予想された又は評価された 値は、S1に対する確率分散の平均値により与えられ、またある特徴ベクトルμS1 により表わされる。モデル状態の平均値は、26で出力され、またここで”ア ンドゥ”操作と言われるものを実行するマッチングインバータ28に渡される。 アンドゥ操作の目的は、後述するSSA補正ユニット18の中のアプリケーシ ョンに対するスペクトル形状適合のパラメータを生成する際にそのベクトルを使 用するため、Yiとの不正確な関連と反対に、μs1が正確に対応する周波数空間 中のベクトルを決定することを可能にすることである。 アンドゥ操作は、デバイス22中で実行される周波数空間(Oi)から特徴空 間(Yi)への変換の擬似逆変換と数学的に等しい計算を含む。もし、周波数空 間から特徴空間への変換が、ある行列Aにより表わされるなら、擬似逆変換は、 以下の関係を満たす任意の行列A-である。 AA-A=A (3) もしAが、正方(square)かつ正則(non-singular)ならば、Aの通常の逆行列で ある、行列A−がただ1つ存在する。本発明が注がれた種類の認識システムでは 、特徴空間は、前述のように不要な寄与を処理する必要のため、周波数空間より 少ない次元を有する。その結果、ある情報が廃棄され、及び行列Aは長方形とな る。長方形行列は単一の逆行列を持たないし、またそのため行列Aのユニークな 逆行列を得ることはできない。 しかし、本発明に従うと、容認できない認識手順の逆効果なしに、行列Aの擬 似逆変換である、任意の行列A-を使用することは、可能かつ有益であることが 、意外にも見出された。 本実施形態では、行列Aは、12×26の成分の行列であり、またA-は、2 6の成分の行列である。行列Aの係数は、切り捨てられたコサイン変換を与える よう、計算される。適当な擬似逆行列A-は、26の成分のコサイン変換の真の 逆変換を、26×26の成分の行列とし、かつ26×12の成分の行列与えるよ うに列を捨てることにより、計算することができる。もし簡単なコサイン変換以 外の変換が使用されるなら、擬似逆変換は、標準的な計算技術(numerical techn ique)により得ることができる。 により掛け算されたとき、Yに変換する周波数空間中の対応する点であるなら、 周波数から特徴空間への変換で、情報の欠落があるため、無数の行列A-と対 方程式(5)は、行列Aにより掛け算されたとき、認識のためマッチングコン 与えないことを表わす。すなわち、擬似逆変換プロセスに追加された任意の情報 は、周波数空間から特徴空間への補正されたベクトルの変換で、後で消去される 。その結果、周波数から特徴空間へのマッピングをアンドゥすること及び続いて ”再実行(redo)”することが可能である。マッチングインバータ28は、デジタ ルの行列/ベクトルの掛け算により’アンドゥ’操作を実行する。それは他には 、コンピュータ24中のソフトウェアにより実行することもできる。 マッチングインバータ28はμS1、マッチングしたモデル状態S1の平均の成 分を、周波数空間中の対応する点を与えるため、特徴空間から周波数空間に戻る よう、変換する。コンピュータ24により出力されたベクトルμS1は、行列A- により掛け算される。行列の操作は、以下の方程式(6)に示される足し算を利 用することにより実行される。 ングされたモデル及び選択された行列A-に基づいて、データベクトルOiに対 する予想された値である。ュータ24から、タイミング情報を、Oiの値のメモリアドレスの形態で受け取 出力する。差計算機30は、これらの予測されたベクトルと観測されたベクトル との間の差を計算し、差ベクトル(difference vector)を生成する。差ベクトル は、スピーチ信号が受けた歪みプロセスの即座の推定値を周波数空間中に表わす 。その推定値はデマルチプレクサ36に送られ、それは同時にモデルのクラス情 報をデジタルの1又は0の形で受け取る;これらの数字で、1は、モデルマッチ ングコンピュータ24が認識したスピーチを有することを、及び0は、それが認 識した雑音を有することを示す。デマルチプレクサ36は、差計算機の出力を、 それがコンピュータ24から1又は0のどちらを受け取るかに従って、スピーチ 又は非スピーチIIRフィルタセクション44a及び44bに送る。 デマルチプレクサ36によりスピーチと雑音とを区別することの目的は、スピ ーチのない長い期間を有する会話では、補正項は、雑音及び干渉の効果により歪 まされることがあるという問題に対処することである。英国特許第GB2 13 7 791 A号は、雑音に対応する信号がどの部分か、及びスピーチに対応す る信号がどの部分かを決定するために、スピーチ認識システムを使用する方法を 記述する。この先行技術の方法は、背景雑音のスペクトル特性を決定することを 目的とするが、スピーチ信号及び雑音信号から別個に、補正の推定値を引き出す ために、システム10で、スピーチ及び雑音の領域に印を付けるための同様の方 法を使用できることが見つかった。これにより、システム10は、スピーチのな い長い期間を有する通話を処理することに、より適するようになる。それにより 、より早い出力及びより早い適合化時間も得られる。 雑音又は干渉とは反対に、スピーチとして識別されたベクトルは、デマルチプ レクサ36から、40で出力された差ベクトルを生じさせる。この差は、スピー チフィルタセクション44bに渡され、それは前述のように、26個のこの無間 インパルス応答フィルタのアレイである。フィルタセクション44bは、差ベク トルの26個の成分のそれぞれに対する、個々のフィルタを組込んでいる。ユニ ット30により計算された差ベクトルは、単一のデータベクトルに基づいており 、またそれは、スピーチのような音のばらばらな性質による差が結びついた、マ イク及び回線の特性に起因する、修正できる歪みの、即座の推定値を表わしてい る。 スピーチフィルタセクション44bは、0.5秒の時定数を有する。それは、 修正可能な歪みによる、より長い期間の変化を追跡している間、単語認識のばら ばらな変化及びエラーの影響を打ち消す、いくつかの単語(例えば、3個の単語 又は1.5秒)にわたる短い期間の平均化を提供する。それぞれの入力された差 ベクトルの受け取りに応答して、それは、その入力されたベクトル、及び時間と 共に指数的に減少する以前に入力されたベクトルからの寄与にわたる平均である 出力ベクトルを生成する;出力ベクトルへの寄与は、最も直前の50個の差ベク トルから主に生じる。 スピーチフィルタセクション44bからの出力ベクトルは、SSAパラメータ 記憶装置48中にロードされ、それの既存の内容を置き換える、パラメータの更 新されたセットを供給する。前述のように、パラメータの更新されたセットは、 フィルタバンク分析器16からの現在の出力のスペクトル形状を適合させるため に使用され、またそのパラメータセットは、それぞれのデータベクトルのスピー チモデル状態へのマッチングに応答して、更新される。マッチングを生成する際 に短い遅れがある。18から48の要素がコンピュータにより集合的に実行され る、本発明の1つの実施形態では、スピーチ信号から更新されたパラメータを得 るために必要な時間間隔は、0.5秒すなわち平均的な単語の時間間隔である。 その結果、それは、単語から単語で効果が変化する歪みを補正する。典型的な先 行技術のシステムは、これよりかなり遅く補正を提供し、また比較的短い期間の 歪みには対処できない。前述のZhaoの参考文献は、分析のために全部の文を必要 とする。この例では、使用される変換は、平均信号レベルへの変化、及び信号通 信路又はマイク特性により引き起こされる線形歪みの補正を提供する。 本発明の前述の実施形態では、非スピーチIIRフィルタセクション44aは 、それの出力は使用されないため、冗長である。それの使用が、これから、SS A補正ユニット18及び記憶装置48の他の実施を含む、本発明の更なる例にお いて説明される。この例では、記憶装置48は52個のパラメータpj(j=0 〜 51)を含み、またそれの添え字0から25が、上述の乗法的な(multiplicativ e)歪み(平均信号レベル及び線形歪み)の補正に対応し、一方添え字26から5 2が、線形スケールに付加的(例えば通信路雑音)な歪みの補正に対応する。S SA補正ユニット18は、対数の形態でのOiのベクトルの要素に、最初の26 個のパラメータpj(j=0〜25)を加えることにより、乗法的な修正を行う 。それは、データベクトルの要素を対数から線形スケールへの変換及びこれの逆 のための設備も含む。それは、修正されたベクトルの要素Oiを対数から線形ス ケールへ変換し、また、26個のパラメータpj(j=26〜51)の第2のセ ットを加えることにより、線形修正を行う。それは次に、その結果を逆に対数ス ケールに変換する。ユニット18は、他には、雑音修正を加えること及び歪み修 正を掛け算することにより、線形領域で両方の修正を利用することができる。そ の変換は、信号通信路又はマイクの特性により引き起こされる平均信号レベルの 変化及び線形歪みだけでなく、背景雑音の補正を提供する。乗法的な歪みに対す るパラメータの推定値を得るために、スピーチフィルタセクション44bが、前 述のように使用される。加法の雑音(additive noise)に対するパラメータの推定 値を得るために、非スピーチフィルタセクション44aが同様な方法で使用され る。 認識システム10の性能を実証するために、電話12の代わりに、2つの異な るマイクA及びBを使用して、実験がなされた。テストが、航空調査飛行(airbo rne reconnaissance mission)の間に作られた口頭のレポートを使用して実施さ れた。モデルマッチングコンピュータ24は、3状態の単一の混合成分モノフォ ン(three state single mixture component monophone)に基づいた標準のヒドゥ ンマルコフモデル(standard hidden Markov model)を使用するようにプログラム された。そのモデルは、マイクAを使用して同じ話し手により録音された、36 回の航空調査飛行のレポートで学習させられた。それぞれのレポートは、約30 秒継続した。コンピュータ24は、それぞれの単語が同様に確からしいとした、 518個の単語文法を使用した;すなわち語粟は約518単語であった。実験で は、話し手は、マイクA及びBの両方に同時に話した。録音物が、ステレオ型レ コーダを使用して、色々なマイクの位置に対して作られた。録音物は、次に、A −D変換器によりデジタル化され、コンピュータのハードディスクに転送され た。データは、次に、フィルタバンク分析器16を実行するコンピュータプログ ラムにより分析された。データは、次に、ユニット18、20、22、24、2 8、30、36、44及び48を実行する第2のプログラムにより処理された。 出力26は、分析のためにディスクに記録された。第2の分析では、SSA補正 ユニット18、バッファ20、マッチングインバータ28、差計算機30、デマ ルチプレクサ36、無限インパルス応答フィルタ44及びSSAパラメータ記憶 装置48の動作は不作動にされた。以下のマイクの位置が使用された: 標準:口の端と同じ高さ 中央:口の前の中央 低い:口の端の下1インチ あご:あごと同じ高さ 以下に示す表は、スペクトル形状適合(SSA)を備えたシステム10及びS SAは備えていないが他の点では同等な比較のシステムの両方に対して順次処理 された3つの航空調査飛行のレポートのためのマイクA及びBを使用して得られ た単語認識に対するエラー率を示す。それは、本発明によるSSAを使用するこ との、単語エラー率への効果を表わす。すべての4つのマイク位置で、本発明に よる’アンドゥ’動作を有するSSAの使用は、エラー率に改善をもたらした。 マイクBでは、この改善は、2の係数より大きかったし、また1つの事例では3 の係数より大きかった。 本発明の動作をモニタするために、(補正ベクトルとして表現された)SSA パラメータ記憶装置48の内容が、処理中に約半秒間隔で記録された。図3及び 4は、それぞれマイクA及びBに対して、時間の関数としてSSAパラメータを 示す。パラメータ(平均の差ベクトルの要素)は、それぞれのフィルタバンクチ ャネルの番号に対応し、またそれに対して表わしている。ボックスでラベルされ た”キー”の中のラベルは、フレーム番号すなわち10mSの単位で表わした生 成時間tiを示す。最初の60秒の間(ti<6,000)、値は迅速に変化し、 固定した輪郭(profile)に向かって収束する。マイクBは、高い周波数でより大 きい出力を有し、図3においてチャネル24での最小値が、これに対するシステ ムの補正である。システム10は、自動利得制御と匹敵する、すべてのスピーチ パワーレベルへのかなり大きい修正も行う。滑らかというよりは、図3及び4の 両方は、修正項(correction term)中に著しい’リップル’を表わす。これは、 本当の逆変換操作(true inverse operation)ではなく、擬似逆変換に基づく’ア ンドゥ’操作の結果である;すなわちリップルは、操作により創出された情報に 対応する。しかし、方程式3に示されるように、周波数領域データがデバイス2 2中で周波数空間(Oi)から特徴空間(Yi)に変換されたときにリップルはな くなり、後者はモデル領域である。そのため、リップル及びそれが対応する情報 は、モデルマッチングコンピュータ24により実行される認識操作へ、ほぼ影響 を与えない。 フィルタバンク分析器16により出力されているデータベクトルと、記憶装置 48中でSSAパラメータを更新するために利用されているそれの推定値との間 の遅れを減少させるために、システム10への改良を行うことができる。システ ム10では、マッチングコンピュータ24が、特徴ベクトルとモデル状態との間 のマッチングを出力する度に、補正パラメータは更新される。’部分トレースバ ック(partial traceback)’として知られるプロセスが、マッチングコンピュー タ24中で起きるときに、この出力が起きる。部分トレースバックのプロセスは 、前述のHolmesの参照文献のセクション7.11に、詳細に記述されている。ヒ ドゥンマルコフモデルマッチングアルゴリズムの動作のため、部分トレースバッ クが起きるとき、マッチングコンピュータ24中に、通常、モデル状態と明白に 関連づけることができない、多くの最近の特徴ベクトルがある。すなわち、マッ チングコンピュータ24は、どのモデル状態に、もっとも最近の特徴ベクトルが 関連するのかを”推測”することができようが、後続の特徴ベクトルの処理によ り、推測されたモデル状態を改訂することができる。例えば、句"recognise spe ech"を処理するとき、モデルマッチングコンピュータ24は、それが、"r"の音 が"wreck a nicebeach"中の"wr"ではなく、"recognise"中の"r"から来ることを 確認できる前に、'recognise'中の"g"の音に対する特徴ベクトルを処理すること を必要とするであろう。この遅れは、約50個のベクトルすなわち0.5秒であ ろう。それぞれの部分トレースバック期間でこの遅れの影響を最小にするために 、マッチングコンピュータ24は、マッチングがまだ完全には確認されていない 特徴ベクトルに対する”最適推測(best guess)”のマッチングを出力するために 改修できる。デマルチプレクサ36及びフィルタバンク44は、次に、もし後の ある時に、マッチングコンピュータ24が、”最適推測”に間違いないと確認す るとき、マッチングしたモデル状態に変化があるなら(例えば、もし、後のある 時に確認されたマッチング出力が"wr"であったときの、”最適推測”の出力が"r "であるなら)、小さい修正を行えるように改修できる。 他には、もし認識出力が直ちに必要ではないなら、全体の単語又は句が、上述 のように、システムを1回目通過中に捕獲及び処理され、また次に、その単語又 は句が、その第1の通過の間に計算された修正項を使用する2回目通過中に、再 び処理されるように、システム10は構成できる。もし非常に小さい量のスピー チしか(例えば単一の単語)、処理のために利用可能でないなら、これは利益が あるであろう。 システム10は、2方向の会話、又は逆通信路エコーを有する1方向の電話接 続での使用のために適合させることができる。これは、図2のようにマッチング コンピュータの動作の2次元の同等物を示す、図5に示される。前のように、3 つのモデル状態S1、S2及びS3が示され、また楕円は、確率分布の輪郭を表 わす。2つの変換かつ修正された特徴ベクトルYi 1及びYi 2も示される。2方向 の会話では、ベクトルOiは、2人の話し手のいずれかにより生成でき、又は 背景雑音に対応できる。更に、マイク及び通信路特性が、2人の話し手の間で異 なるであろうから、2セットのSSAパラメータは、それぞれの話し手に対して 1つ、維持される。フィルタバンク出力が補正されるとき、それぞれが個別のパ ラメータのセットを使用する、2つの修正されたベクトルが生成される。両方の 修正されたベクトルは、Yi 1及びYi 2を得るために変換され、またモデルの1つ に最も適するものである、ベクトルの内の1つのみにマッチングするようにされ ている、マッチングコンピュータ24に渡される。マッチングば、2人の話し手 又は背景雑音の、どちらが関連するベクトルに関連しているかを識別する。SS Aパラメータの2つのセットのそれぞれは、それの関連する話し手又は雑音が、 マッチングさせられかつ修正を生成するために使用されたベクトルの原因である と識別されたときのみに、更新される。これを実行する改修されたシステムは、 1つがそれぞれのスピーカ/マイクの組合わせに対する、SSAパラメータの2 つのセットを記憶装置48と同様の2つの記憶装置に維持する。これらの記憶装 置へのIIRフィルタバンク44からの、及びこれらの記憶装置からSSAユニ ット18への切り替え接続は、デマルチプレクサ36に関して記述したように、 コンピュータ24の制御下で、デマルチプレクサにより実施される。このアプロ ーチは、どのような数のSSAパラメータのセット、及びコンピュータ24がモ デルを提供するよう整えられることができる、関連するスピーチのソース及び雑 音に広げることができる。それは、複数のソース又はデータタイプの認識で、周 波数空間から特徴空間への変換、又は逆すなわち上述のような”アンドゥ”動作 のいずれも含まないシステムにおいて使用できる;すなわちモデルは、データベ クトルと同じ空間及び次元数とできる。それは一般的に、モデルクラス、又は認 識データのソース又はタイプ(例えば、話し手A,話し手B又は雑音)のどれが 、マッチングコンピュータにより識別されるかに従って区別される、複数の異な る補正を生成する認識システムに関連する。データベクトルが、マッチングコン ピュータにより、そのクラスのモデルにマッチングさせることによって、特定の モデルクラスに所属していると識別されたとき、そのように得られたそのモデル は、そのクラスに関連する補正のための更新された値を得るために使用される。 現在の補正値は、それぞれのモデルクラスのために維持される。それぞれのデー タベ クトルは、現在の補正値のそれぞれにより補正を受け、またマッチングをしよう とするマッチングコンピュータのための、複数の補正されたベクトルを生じさせ る。補正されたデータベクトルは、もし第1に、それがマッチングする関連する モデルが、ベクトルが対応するデータのソース又はタイプに対する正しいクラス なら、及びもし第2に、ベクトルに与えられた補正が、それが受けた歪みを打ち 消すために適切であるなら、良好なマッチングを通常提供するだけであろう。不 適切に補正されたデータベクトルは、正しいタイプのモデルにマッチングしない であろうし、適切に補正されたデータベクトルは、正しくないタイプのモデルに マッチングしないであろう。(補正していない)データベクトル及びそれの関連 モデルは、次に、対応するソース又は上述のようにモデルクラスにより示された データのタイプに対する、更新された補正を得るために使用される。 システム10は、周波数のシフトの形態をとる、スピーチ信号の変化の補正を 供給するように、改修できる。これらは、例えば大人と比較した子供又は男性と 比較した女性のような、異なる声道の長さを有する話し手の間の違いの結果とし て生じるであろう。人間のスピーチでは、約4kHzまでの周波数範囲のフィル タバンク出力の色々なチャネルのエネルギーは、声道中の共鳴から発生すること が周知である。(フォルマントとして知られる)これらの共鳴の位置は、口、唇 、舌及び声道の他の部分の筋肉の調音(articulation)中の変化の結果として、ス ピーチの発生中、変化する。 声道の寸法は、話し手の間で異なるであろうし、また従って共鳴の位置は、話 し手の間で規則正しく変化するであろう。例えば、Peterson及びBarneyにより"C ontrol methods used in a study of vowels",Journal of the Acoustic Socie ty of America,24(1952)で実施された測定では、母音[a]のF1フォルマント の通常の周波数は、普通の大人の男性に対する730Hzから、子供に対する1 030Hzまで変化する。同様に、Denes及びPinsonによる"The Speech Chain:T he physics and biology of spoken language",Anchor Books (1973)153ペー ジは、10個の英語の純粋な母音の音は、男性と比較して女性の話し手に対する 、4,000Hzまでの範囲の平均のフォルマント周波数は、非常に高いことが 示される。約4,000Hzを超える周波数では、音は他の機 構により主に生成され、及び声道の長さの違いが発音されることは、より少ない 。 認識システムのスピーチモデルセットが、専ら大人の男性のスピーチを用いて 学習させられたが、システムが女性又は子供のスピーチを認識しようとしている なら、1つのフィルタバンク出力チャネルから、より低いチャネルにエネルギー を曲げることが、性能の改善をもたらすであろう。歪みのこの形態に対する補正 を、フィルタバンクから出力されたデータベクトルを、要素が適切な周波数シフ トを与えるように選択された、バンド行列(banded matrix)Bで掛け算すること により、提供することができる。必要なら、これらの要素は、同時に歪みの乗法 的な形態に対する補正を与えることができる。 システム10は、単一のガウス分布の形態での、モデル状態を使用するが、こ れはマッチング性能の向上を導くことができることが示されるため、そのような 分布の混合を使用することもできる。マッチングインバータ28は、次に、これ らの混合から得られるデータベクトルの推測値を生成するように整えられる。2 つのガウス分布の混合である分布は、以下の形態を有する: ここで、CS,0及びCS,1は、モデル状態Sに対する定数であり;μs,0,k、μs,1, k 、σs,0,k及びσs,1,k(k=0…11)は、モデル状態に対する2つのガウス 確率分布の平均及び標準偏差の12個の成分であり、及びxkは12次元の特徴 ベクトル空間を画定する変数である。 マッチングコンピュータ24の手段は、例えばWendy Holmesにより"Speech re cognition using a linear dynamic segmental HMM",proceedings of Eurospee ch'95,1611〜1614ページ(1995)に記述されたように、区切られたヒドゥンマル コフモデルマッチングを実行するためにプログラムできよう。この場合、マッチ ングインバータ28が、データベクトルの推定値を、区切られた曲線(segmental trajectories)に従って予報された値から生成する。 ここで、前述の要素と等しい要素は、同様に接頭辞100を有する参照数字が 付された図6を参照すると、上述の周波数シフトを実行する、全体を100によ り示されたシステムがある。システム100の動作の構造及びモードは、システ ム10のそれと同様であり、また前者の説明は、両者が異なるところの態様に、 主に向けられる。入力スピーチ信号は、ユニット114及び116により、デジ タル化され、またフィルタバンク分析される。フィルタバンク出力は、次に、フ ィルタバンクデータベクトルを、行列の要素が記憶装置148中に記憶されたバ ンド行列Bにより掛け算する、補正ユニット118により処理される。バンド行 列は、対角線のバンド中にゼロでない行列の要素を有し、他のすべての行列の要 素がゼロである行列である。変換デバイス122は、補正されたベクトルを、周 波数領域から、より少ない次元を有する特徴すなわちモデル領域に変換する。変 換後、ベクトルは、モデルクラス情報と共にマッチングモデルに従って予想され るであろうベクトルの値を出力する、マッチングコンピュータ124により、マ ッチングされる。予想値は、推定されたベクトルとなるように、周波数空間への 変換のため、マッチングインバータ128に渡される。推定されたベクトルは、 デマルチプレクサ136経由で、役割を後でより詳しく説明する、カルマンフィ ルタ137に渡される。 バンド行列Bの行列の要素は、1つのフィルタバンクチャネルからエネルギー をシフトさせ、それが他の周波数から発生したように見える修正を実施するため に整えられる。例えば、大人に適したモデルを使用して、子供が話したスピーチ を処理するときに、フィルタバンク分析器116の、チャネル8及び9のエネル ギーをチャネル6及び7にシフトさせることは、母音[a]のF1フォルマント 中の違いを補正することに大体対応する。他には、以下の表中に与えられたBの ゼロではない係数では、補正ユニット118は、男性の話し手に適したスピーチ モデルを使用しているときに、女性からのスピーチを認識しているシステムに適 した補正を行うであろう: カルマンフィルタ137の役割を今から説明していく。カルマンフィルタリン グは、電子工学の多くの領域、特にレーダーシステムの設計で周知である;それ は、観察結果が時間順序(time sequence)を形成し、あるランダムな擾乱の影響 を受けていた、(行列のような)線形システムの係数を決定するために使用する ことができる。システム100により使用される補正パラメータすなわち行列の 要素は、パラメータがカルマンフィルタにより推定される、26×26の正方行 列Bとして表わされる。デマルチプレクサ136のスピーチ出力は、バッファ1 20が実際に観察された記憶値を含んでいる間、マッチングしたモデル状態に従 って予想したフィルタバンクの推定値を提供するために使用される。これらの2 つの値は、カルマンフィルタにより比較され、行列Bの要素を更新するために使 用される。 カルマンフィルタの設計及び実行は、デジタル信号処理の多くの領域で周知で あり、また例えば、Athanasios Papoulisによる"Probability,Random Variable s and Stochastic Processes",McGraw-Hill series in Electrical Engineerin g,1984,458ページ以降に記載されている。カルマンフィルタ137は、記憶装 置148に記憶された行列Bの要素を更新する。これは、前に特記したマイク及 び通信路の影響の補正だけでなく、異なる声道の長さを有する話し手の間で起き るような、異なるフィルタバンクチャネルの間の規則正しいエネルギーのシフト の補正も提供する。補正ユニット118は、周波数シフトを提供することに加え 、加算的な雑音(additive noise)の補正をするための行列の掛け算だけでなく、 ベクトルの加算も実行できる。 周波数シフトの補正は、他には、フーリエ変換の後フィルタバンク分析で実行 されるビンに入れる操作(周波数平均化)を変化させることにより、利用できる 。 システム10又は100のどちらでも、コンピュータ24又は124により実 行されるモデルのパラメータは、例えば、話し手により話されるアクセント又は 方言のモデル化を改善するために、適合させることができる。 本発明は、他の認識技術にも利用できる。あらかじめ決められた出来事を検出 するために、マイクからの非スピーチ音を識別するために使用できる。他には、 それは、Brooke,Tomlinson及びMooreによりProc.Inst.Acoustics 1994 Autum n Conference,Windemere,15〜22ページの"Automatic Speech Recognition tha t Includes Visual Speech Cues"に開示されたような読唇の際の照明のレベル(i llumination level)のような、ビデオカメラからのデータの照明のレベルを補正 することができる。それは、雑音又は他の不要な寄与の影響を最小にするため、 データを特徴空間中に次元を減少させてマッピングする技術と 一緒に使用することもできる。そのような技術は、特にレーダーのデータを処理 するために使用される。規則正しい歪みプロセスの補正は、モデル領域では簡単 に利用できないデータ領域で、しばしば可能である。 本発明は、特に、ミリメータの範囲の波長を有する、レーダー画像センサで使 用できる。データベクトルは、風景の2次元の画像を表わす。データベクトルの 変換は、オブジェクトのモデルへのマッチングを与える、2次元の、切り捨ての 、高速フーリエ変換であろう。レーダー画像平面の歪みの補正を、次に実行でき るであろう。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 3/02 301A (72)発明者 セリーズ ロバート ウィリアム イギリス国 ウースターシャー ダブリュ ーアール14 3ピーエス モルヴァーン セント アンドリュース ロード(番地な し)ディーアールエイ モルヴァーン (72)発明者 トムリンソン マイケル ジョン イギリス国 ウースターシャー ダブリュ ーアール14 3ピーエス モルヴァーン セント アンドリュース ロード(番地な し)ディーアールエイ モルヴァーン

Claims (1)

  1. 【特許請求の範囲】 1. 複数次元データベクトルをあらかじめ決められたモデルと関連づける認識シ ステムにおいて、 a)データベクトル中の歪みを補正する補正手段(18)と、 b)それぞれの補正されたデータベクトルを適切なモデルと関連づけるマッチ ング手段(24)とを含み、 c)前記モデルは前記データベクトルより低い次元であり、 d)前記マッチング手段(24)は、歪み補正の後に、データベクトルに変換を使 用し、該データベクトルの次元を前記モデルの次元に減少させる変換手段(22) を含み、 e)前記システム(10)は、前記変換の逆変換により、前記関連モデルからデー タベクトル推定値を得る逆変換手段(28)を含み、 f)前記システム(10)は、前記データベクトル推定値、及び前記データベクト ル推定値が対応する前記データベクトルから、前記補正手段による歪み補正で の使用のため、補正を得る誘導手段(30)も含むことを特徴とするシステム。 2. 前記逆変換手段(28)が、前記変換の擬似逆変換を実行し、及び前記変換手段 (22)の、前記データベクトル推定値への、それの次元を減少させるための操作 が、そのような情報の欠落に帰するような情報を含むことにより、モデルの次 元の、データベクトルの次元までの増加を提供するように整えられていること を特徴とする請求項1に記載のシステム。 3. 前記変換手段(22)が、データベクトルに、行列Aにより表わされる変換を使 用するように整えられており、前記逆変換手段(28)が、行列A-により表わさ れる擬似逆変換モデル変換を実行するように整えられており、及び前記行列A 及びA-が関係:AA-A=A、を満足することを特徴とする請求項2に記載の システム。 4. 前記誘導手段(30)が、前記データベクトル推定値及び前記データベクトルか らの寄与、及び同様の種類の1又はそれより多い先の寄与にわたって平均化す ることにより補正を得るように整えられていることを特徴とする請求項2に記 載のシステム。 5. スピーチ認識システムのために整えられた請求項2に記載のシステムにおい て、前記データベクトルが、周波数の関数としてのスピーチ信号の表現である ことを特徴とするシステム。 6. 前記データベクトルが、少なくとも部分的にビデオ画像データからなること を特徴とする請求項2に記載のシステム。 7. スピーチ認識システムのために整えられた請求項6に記載のシステムにおい て、前記データベクトルが、部分的にスピーチ信号の及び部分的に話し手の特 徴の表現であることを特徴とするシステム。 8. スピーチ認識システムのために整えられた請求項2に記載のシステムにおい て、前記データベクトルが、スピーチ信号の表現であり、前記マッチング手段 (24)が、ヒドゥンマルコフモデルマッチングを実行するように整えられており 、かつ前記逆変換手段(28)が、変換されたデータベクトルに関連するモデルの 確率分布から計算されるデータベクトル推測値を生成するように整えられてい ることを特徴とするシステム。 9. 前記マッチング手段(24)が、区切られたヒドゥンマルコフモデルマッチング を実行するように整えられており、また前記逆変換手段(28)が、前記マッチン グ手段(24)により計算されたような前記区切られた曲線の推定値からデータベ クトル推定値を生成するように整えられていることを特徴とする請求項8に記 載のシステム。 10.前記マッチング手段(24)が、複数のモデルクラスのどれがそれぞれの変換さ れたデータベクトルに関連しているかを示すように整えられていることを特徴 とする請求項2に記載のシステム。 11.前記マッチング手段(24)が、それぞれのモデルクラスに対するモデルの個別 のセットを実行するように整えられており、前記誘導手段(30)が、それぞれの モデルクラスに対する個別の補正を得るように整えられており、及び前記補正 手段(18)が、モデルクラスに従って選択的に補正を使用するように整えられて いることを特徴とする請求項10に記載のシステム。 12.前記マッチング手段(24)が、2人の話し手のそれぞれに対するモデルの個別 のセットを実行するように整えられていることを特徴とする請求項11に記載 のシステム。 13.前記変換手段(22)が、観察されるデータベクトルと、前記マッチング手段(2 4)により使用される前記モデルが対応するデータベクトルとの間の違いを打ち 消すために、周波数シフトを実行するように整えられていることを特徴とする 請求項2に記載のシステム。 14.前記変換手段(22)が、バンド行列によって補正を実行するように整えられて いることを特徴とする請求項2に記載のシステム。 15.前記誘導手段(30)が、カルマンフィルタリングに従って補正を更新するよう に整えられていることを特徴とする請求項2に記載のシステム。 16.前記変換手段(22)が、データベクトルの次元を減少させるために、いくつか の係数を捨てる、コサイン変換を使用するように整えられていることを特徴と する請求項2に記載のシステム。 17.歪みの存在下でのスピーチ認識のために整えられた請求項2に記載のシステ ムにおいて、前記逆変換手段(28)及び前記誘導手段(30)が、 a)変化するスピーチ信号レベル、 b)マイクの位置の変化、 c)マイクのタイプの変化、 d)スピーチ信号回線の特性の変化、 e)背景雑音レベル、 f)周波数シフト、 g)話し手の照明のレベル、 h)照明の方向、及び i)話し手の特徴の幾何学的歪み の内少なくとも1つの補正を提供するように整えられていることを特徴とする システム。 18.前記誘導手段(30)が、違うように補正に影響を与えるであろうデータベクト ルにより示されたランダムな変化を打ち消すように整えられていることを特徴 とする請求項2に記載のシステム。 19.それぞれのデータベクトルが、システムを2回通過する用意があるように整 えられた請求項2に記載のシステムにおいて、前記補正手段が、第2のそのよ うな通過で動作し、及びデータベクトルから補正が得られる該データベクトル に使用される補正の用意があるように整えられていることを特徴とするシステ ム。 20.前記マッチング手段(24)が、認識エラーの修正のための部分的なトレースバ ックを実行し、及び、前記逆変換手段(28)及び前記誘導手段(30)と組み合わせ て、そのようなエラーに基づいて生成された補正のための修正を提供するよう に整えられていることを特徴とする請求項2に記載のシステム。 21.請求項1に記載のシステムにおいて、 a)前記補正手段が、それぞれのデータソースに関連する歪みの個々の形態に対 して補正された、変更されたデータベクトルのそれぞれのセットを提供するた め、それぞれのデータベクトルを複数の補正で変更することにより、複数の形 態の歪みを補正するように整えられており、 b)前記変換手段が、変換されたデータベクトルのそれぞれを提供するため、変 更されたデータベクトルのそれぞれのセットを変換するように整えられており 、c)前記マッチング手段が、それぞれのセット中のどの変換されたデータベク トルが、前記モデルの1つに最も適するかを確認し、及び前記変換されたデー タベクトルのために対応するデータソースを示すように整えられており、及び d)前記誘導手段が、前記マッチング手段により示された前記データソースに関 連する歪みの前記形態に対する補正で使用するために、前記確認された最も適 するものに基づいた補正を得るように整えられていることを特徴とするシステ ム。 22.あらかじめ決められた複数次元のモデルをデータベクトルに関連づける方法 において、 a)データベクトルの歪みを補正するステップと、 b)歪み補正後に、データベクトルの次元を前記モデルの次元に減少させるため に、該データベクトルに変換を使用するステップと、 c)それぞれの変換されたデータベクトルをそれぞれのモデルに関連づけるステ ップとを有し、前記データベクトルは、前記モデルより高い次元であり、及び 前記方法は更に、 d)前記関連モデルからデータベクトル椎定値を得るために、前記変換を逆変換 するステップと、 e)前記データベクトル推定値、及び前記データベクトル推定値が対応する前記 データベクトルから補正を得るステップと、歪みに対してデータベクトルを補 正するため、前記補正を使用するステップとを有することを特徴とする方法。 23.ステップ(d)における逆変換が、前記変換の擬似逆変換によって実行され、 及び、前記変換の前記データベクトル推定値への、それの次元を減少させるた めの使用が、そのような情報の欠落に帰するような情報を含むことにより、モ デルの次元の、データベクトルの次元までの増加を提供することを特徴とする 請求項22に記載の方法。
JP54444798A 1997-03-25 1998-02-24 認識システム Pending JP2001517325A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB9706174.1 1997-03-25
GBGB9706174.1A GB9706174D0 (en) 1997-03-25 1997-03-25 Recognition system
PCT/GB1998/000593 WO1998043237A1 (en) 1997-03-25 1998-02-24 Recognition system

Publications (1)

Publication Number Publication Date
JP2001517325A true JP2001517325A (ja) 2001-10-02

Family

ID=10809832

Family Applications (1)

Application Number Title Priority Date Filing Date
JP54444798A Pending JP2001517325A (ja) 1997-03-25 1998-02-24 認識システム

Country Status (9)

Country Link
US (1) US6671666B1 (ja)
EP (1) EP0970462B1 (ja)
JP (1) JP2001517325A (ja)
KR (2) KR20010005674A (ja)
CN (1) CN1168069C (ja)
CA (1) CA2284484A1 (ja)
DE (1) DE69836580D1 (ja)
GB (2) GB9706174D0 (ja)
WO (1) WO1998043237A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7533015B2 (en) 2004-03-01 2009-05-12 International Business Machines Corporation Signal enhancement via noise reduction for speech recognition

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6505160B1 (en) 1995-07-27 2003-01-07 Digimarc Corporation Connected audio and other media objects
US6182036B1 (en) * 1999-02-23 2001-01-30 Motorola, Inc. Method of extracting features in a voice recognition system
GB9913773D0 (en) * 1999-06-14 1999-08-11 Simpson Mark C Speech signal processing
GB2355834A (en) 1999-10-29 2001-05-02 Nokia Mobile Phones Ltd Speech recognition
US7006787B1 (en) 2000-02-14 2006-02-28 Lucent Technologies Inc. Mobile to mobile digital wireless connection having enhanced voice quality
US6990446B1 (en) * 2000-10-10 2006-01-24 Microsoft Corporation Method and apparatus using spectral addition for speaker recognition
US7457750B2 (en) * 2000-10-13 2008-11-25 At&T Corp. Systems and methods for dynamic re-configurable speech recognition
EP1229516A1 (en) * 2001-01-26 2002-08-07 Telefonaktiebolaget L M Ericsson (Publ) Method, device, terminal and system for the automatic recognition of distorted speech data
US6985858B2 (en) * 2001-03-20 2006-01-10 Microsoft Corporation Method and apparatus for removing noise from feature vectors
US7512536B2 (en) * 2004-05-14 2009-03-31 Texas Instruments Incorporated Efficient filter bank computation for audio coding
US7643686B2 (en) * 2004-11-17 2010-01-05 Eastman Kodak Company Multi-tiered image clustering by event
US7567903B1 (en) 2005-01-12 2009-07-28 At&T Intellectual Property Ii, L.P. Low latency real-time vocal tract length normalization
US8219391B2 (en) * 2005-02-15 2012-07-10 Raytheon Bbn Technologies Corp. Speech analyzing system with speech codebook
US7970613B2 (en) 2005-11-12 2011-06-28 Sony Computer Entertainment Inc. Method and system for Gaussian probability data bit reduction and computation
US8010358B2 (en) 2006-02-21 2011-08-30 Sony Computer Entertainment Inc. Voice recognition with parallel gender and age normalization
US7778831B2 (en) 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
US7831431B2 (en) 2006-10-31 2010-11-09 Honda Motor Co., Ltd. Voice recognition updates via remote broadcast signal
JP4591793B2 (ja) * 2008-04-22 2010-12-01 ソニー株式会社 推定装置および方法、並びにプログラム
JP5423670B2 (ja) * 2008-04-30 2014-02-19 日本電気株式会社 音響モデル学習装置および音声認識装置
US8543393B2 (en) 2008-05-20 2013-09-24 Calabrio, Inc. Systems and methods of improving automated speech recognition accuracy using statistical analysis of search terms
US8645135B2 (en) * 2008-09-12 2014-02-04 Rosetta Stone, Ltd. Method for creating a speech model
US8788256B2 (en) 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
US8442833B2 (en) 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US8442829B2 (en) 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
CN101566999B (zh) * 2009-06-02 2010-11-17 哈尔滨工业大学 一种快速音频检索的方法
US9153235B2 (en) 2012-04-09 2015-10-06 Sony Computer Entertainment Inc. Text dependent speaker recognition with long-term feature based on functional data analysis
WO2014080622A1 (ja) * 2012-11-21 2014-05-30 パナソニック株式会社 複合材料中の繊維状フィラーの3次元画像処理方法および3次元画像処理装置
US10685131B1 (en) * 2017-02-03 2020-06-16 Rockloans Marketplace Llc User authentication
KR20200140571A (ko) * 2019-06-07 2020-12-16 삼성전자주식회사 데이터 인식 방법 및 장치
CN112104340B (zh) * 2020-09-08 2024-04-16 华北电力大学 一种基于HMM模型和Kalman滤波技术的开关量输入模块BIT降虚警方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2737624B2 (ja) * 1993-12-27 1998-04-08 日本電気株式会社 音声認識装置
JP2780676B2 (ja) * 1995-06-23 1998-07-30 日本電気株式会社 音声認識装置及び音声認識方法
US5796924A (en) * 1996-03-19 1998-08-18 Motorola, Inc. Method and system for selecting pattern recognition training vectors
US6377918B1 (en) * 1997-03-25 2002-04-23 Qinetiq Limited Speech analysis using multiple noise compensation

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7533015B2 (en) 2004-03-01 2009-05-12 International Business Machines Corporation Signal enhancement via noise reduction for speech recognition
US7895038B2 (en) 2004-03-01 2011-02-22 International Business Machines Corporation Signal enhancement via noise reduction for speech recognition

Also Published As

Publication number Publication date
EP0970462A1 (en) 2000-01-12
GB9714345D0 (en) 1997-11-19
CN1251194A (zh) 2000-04-19
KR20010005685A (ko) 2001-01-15
CA2284484A1 (en) 1998-10-01
EP0970462B1 (en) 2006-12-06
GB9706174D0 (en) 1997-11-19
CN1168069C (zh) 2004-09-22
KR20010005674A (ko) 2001-01-15
WO1998043237A1 (en) 1998-10-01
US6671666B1 (en) 2003-12-30
DE69836580D1 (de) 2007-01-18

Similar Documents

Publication Publication Date Title
JP2001517325A (ja) 認識システム
US20020042712A1 (en) Voice recognition system
US5890113A (en) Speech adaptation system and speech recognizer
JP5242782B2 (ja) 音声認識方法
JPH075892A (ja) 音声認識方法
US7181395B1 (en) Methods and apparatus for automatic generation of multiple pronunciations from acoustic data
US10460722B1 (en) Acoustic trigger detection
US7212965B2 (en) Robust parameters for noisy speech recognition
Morris Enhancement and recognition of whispered speech
Wolfel et al. Minimum variance distortionless response spectral estimation
Dumitru et al. A comparative study of feature extraction methods applied to continuous speech recognition in romanian language
KR20190032868A (ko) 음성인식 방법 및 그 장치
US20050192806A1 (en) Probability density function compensation method for hidden markov model and speech recognition method and apparatus using the same
JPH10149191A (ja) モデル適応方法、装置およびその記憶媒体
Liu Environmental adaptation for robust speech recognition
Beaufays et al. Learning linguistically valid pronunciations from acoustic data.
Hirsch et al. A new HMM adaptation approach for the case of a hands-free speech input in reverberant rooms
Koc Acoustic feature analysis for robust speech recognition
JP2734828B2 (ja) 確率演算装置及び確率演算方法
Krueger et al. Bayesian Feature Enhancement for ASR of Noisy Reverberant Real-World Data.
JP3100180B2 (ja) 音声認識方法
WO2024038560A1 (ja) 学習装置、推定装置、学習方法、及びプログラム
Al-Diri et al. A speech recognition model based on tri-phones for the Arabic language
JPH0822296A (ja) パターン認識方法
JP3256979B2 (ja) 音響モデルの入力音声に対する尤度を求める方法