JP2001517325A

JP2001517325A - 認識システム

Info

Publication number: JP2001517325A
Application number: JP54444798A
Authority: JP
Inventors: キースマイケルポンティング; ロバートウィリアムセリーズ; マイケルジョントムリンソン
Original assignee: UK Secretary of State for Defence
Current assignee: UK Secretary of State for Defence
Priority date: 1997-03-25
Filing date: 1998-02-24
Publication date: 2001-10-02
Also published as: EP0970462A1; GB9714345D0; CN1251194A; KR20010005685A; CA2284484A1; EP0970462B1; GB9706174D0; CN1168069C; KR20010005674A; WO1998043237A1; US6671666B1; DE69836580D1

Abstract

(57)【要約】認識システム（１０）は、スピーチ信号中で２６の周波数間隔に対するエネルギー値の連続するデータベクトルを生成するフィルタバンク分析器（１６）を含む。ユニット（１８）は、それぞれのベクトルのスペクトルの歪みを補正する。補正されたベクトルは、１２次元の特徴ベクトルへの変換を受け、またコンピュータ（２４）中で、ヒドゥンマルコフモデル状態とマッチングされる。それぞれのマッチングされたモデル状態は、スピーチの特徴ベクトルの推定値である平均値を有する。マッチングインバータ（２８）は、擬似逆変換により、周波数空間でのスピーチデータベクトルの推定値を生成する。推定されたデータベクトルは、関連するスピーチ信号データベクトルと比較され、また無限インパルス応答フィルタ（４４）がそれらの他との違いを平均する。そのように生成された、平均された違いのベクトルは、スピーチ信号データベクトルの補正で、ユニット（１８）により使用される。

Description

【発明の詳細な説明】認識システム本発明は、データのベクトルをあらかじめ決められたモデルと関連づけることにより、データの認識を実行する種類の認識システム、及びそのようなベクトル及びモデルを関連づけることを含む認識方法に関し、特に、認識プロセスの前に歪みが発生するところでのスピーチ及びパターンの認識に関連する。スピーチ認識システムは、関心のデータ又は信号が、認識のため利用できる前に、ある形態の歪みを受ける、認識システムのよい例である。特に電話の用途では、スピーチ認識システムの性能は、電話の受話器(handset)の位置によるスピーチ信号の変化により、又は受話器、電話回線及び交換局(exchange)の特性により、しばしばひどく低下させられる。１つの特定の問題は、受話器の位置により引き起こされるスピーチレベルの変化に関係する。より程度の高いその問題の研究によると、周波数バランスの変化も重要であることが示される。平均信号レベルの変化の補正は、ある形態の自動利得制御（ＡＧＣ）を使用することにより、しばしばなされる。不都合なことに、効果的なＡＧＣを提供することは難しいであろう、例えば、２線式の電話システム形態(two wire telephone system confi gurations)においては、電話の会話に従事している人のスピーチの強度レベルの間には、しばしば相当な違いがある。４線式の形態(four wire configurations) では、対処することが難しい、かなり大きい逆通信路エコー(reverse channel e cho)があるであろう。それは、１つの話し手グループのスピーチの、他の話し手グループの会話への混合から生じる。歪みに対処することの問題への１つのアプローチは、様々な種類の受話器及び話し手の位置を使用して収集した学習データを使用して、スピーチ認識システムを学習させることである。このアプローチには問題がある。第１に、全世界的な電話ネットワークでは、非常に多くのマイクの種類及び話し手の位置がある可能性があり；その結果、必要な学習データの量は、あまりにも大きすぎて実際的でなく、またシステムは、未知のマイクについて、それの性能を最適化することができない。第２に、認識中に、学習させるデータのほんの小さい断片しか有効に使用されない。認識性能を向上させる１つのアプローチは、歪みに対処するためのある形態の補正を使用することである。現行のスピーチ認識システムは、入力信号を、”フィルタバンク(filterbank)分析”として時には知られる処理の間、時間領域の波形から、周波数領域の連続するベクトルに変換する。これらのベクトルに、ある形態の補正を使用することが可能である。適切な補正を決定するために使用できる、多くの方法がある。１つのそのような方法が、Sadaoki Furui，"Cepstral A nalysis Technique for Automatic Speaker Verification"，IEEE Trans Acoust ics，Speech and Signal processing，29(2):254-272，April 1981により開示される。それは、信号の長期の(long term)スペクトル特性を得るため、全体の会話に対するフィルタバンク分析器の出力を平均化すること、及びデータにわたる第２の通過の間、歪みの補正を使用することを含む。補正されたデータは、次に、スピーチ認識デバイスに渡される。このアプローチには、２つの主な問題がある。第１に、単一の修正を全体の会話に対して利用するため、歪みが素早く変化する会話にはあまり適さないことである。これはセルラー、コードレス又は無線電話からの会話中で起きることがある。第２に、認識が始まる前に、適切な修正を得るため、全体の会話を処理する必要があるため、それはリアルタイムの用途には不適当である。好適なアプローチは、スペクトル形状適合（Spectral Shape Adaptation，ＳＳＡ）として時には知られる技術を使用することである。この技術を使用する認識システムは、認識しようとする信号の予想されるスペクトル特性の情報を、それぞれの時間の瞬間に提供し、またこれは、差異の項(difference term)を提供するためその信号中に実際に存在する同等物と比較される。差異の項は、次に、多くの連続する信号（時間で平均化する）にわたり平均化され、修正項を提供する。この種類のシステムが、Yunxin Zhao，"Iterative Self-Learning Speaker and Channel Adaptation under Various Initial Conditions"，Proc IEEE ICAS SP［11］712〜715ページにより記述された。ここで、データは、文単位ベースで処理される。多くの周波数バンドにわたる、信号エネルギーの変化をそれぞれが表示する、連続するベクトルを生成するため、入力信号はフィルタバンク分析を受ける。ベクトルは、スピーチモデル状態とマッチングされることにより、処理される。ベクトルがマッチングされたモデル状態のパラメータが、モデルに従って予想されるそのベクトルの値を予報するために使用される。ベクトルと予想された値との違いは、それぞれの文で被った平均の歪みを決定するため、文からより早いベクトルに対して得られた差異の値で計算され、かつ時間平均される。そして、１つの文に対して決定されたＳＳＡパラメータは、次の文を処理するために使用される。 Zhaoのアプローチは、不都合にも、より精巧なスピーチ認識では、以下の理由により、働かない。これらのシステムでは、（周波数空間に表現された）フィルタバンク分析から得られたデータベクトルは、周波数領域からある抽象的な特徴空間(feature space)に変換される。正しく利用したなら、この変換が認識の正確さを向上させるが、それは、話された単語の特性である特徴を保存する一方、話し手の特性である情報の形態の、スピーチ信号への不要な寄与を減少させるからである。モデル状態は、ベクトルが変換された、同じ特徴空間中に表現される。上述のように認識の正確さを改善するために、周波数空間から特徴空間への変換中の高次の項を捨てることが通常の習慣であり、それは、次元(dimensionalit y)の減少があること、すなわち特徴空間のベクトルは、周波数空間のベクトルより少ない次元すなわちベクトルの要素を有することを意味する。これは、周波数空間から特徴空間への変換では情報の欠落があり、そのため、周波数空間での予想値の唯一の結果を出す推定値を提供するために、モデルのパラメータを使用することは、それはこの目的のためには不十分な情報を含むため、もはやできないことを意味する。これは、周波数領域での補正が、上述のZhaoの参照文献に記述されたように、実施できないことを意味する。歪み補正を有する認識システムを提供することが、本発明の目的である。本発明は、複数次元データベクトルを、比較的低い次元のあらかじめ決められたモデルに関連させるための認識システムを提供し、それは以下を含む：ａ）データベクトル中の歪みを補正するための補正手段、ｂ）データベクトルの次元をモデルの次元に減少させる歪み補正の後、データベクトルへの変換を行うための変換手段、ｃ）それぞれの変換されたデータベクトルを適当なモデルに関連させるためのマッチング手段、ｄ）前記変換の逆変換により、関連させたモデルからデータベクトルの推定値を得るための逆変換手段(inverting means)、及びｅ）前記データベクトルの推定値、及び前記補正手段による歪み補正で使用するためそれが対応する前記データベクトルから補正を誘導するための、誘導手段(d eriving means)。本発明は、次元の減少にもかかわらず、モデルマッチングに基づく歪み補正を提供するという利点を提供する。本発明に従うと、マッチング前の情報の欠落にもかかわらず、補正での使用のため、データベクトルの推定値を提供することが可能であることが、発見された。好適な実施形態では、逆変換手段は、それの次元を減少させる、変換手段のデータベクトルの推定値への操作が、そのような情報の欠落に帰するような方法で情報を含ませることにより、前記変換の擬似逆変換(pseudo-inverse)を実行し、また、モデルの次元の、データベクトルの次元までの増加を与えるように整えられている。この実施形態は、比較的簡単に推定値を得るという利点を提供し、すなわち擬似逆変換モデルの変換が、それが変換手段の後続の操作から除かれるような方法で、情報が、この目的のために含まれるとき、受け入れられる推定値を提供する。変換手段は、データベクトルに、関数Ａ（）により表わされる変換を与えるように整えることができ、また逆変換手段(inverting means)は、関数Ａ^-（）により表わされる擬似逆変換(pseudo-inverse transformation)を実行するように整えることができ、関数Ａ（）及びＡ^-（）は、関係：qをある任意のベクトルとしたとき、Ａ(Ａ−(Ａ(q)))=Ａ(q)、を満足する。誘導手段は、データベクトルの推定値及びデータベクトル、及び先の推定値及び同様の種類のベクトルから補正を得るために整えることができる。それは、ローパスフィルタリングを実行する指数的時間期間(exponential time window)を有する無限インパルス応答フィルタを組込むことができる。好適な実施形態では、本発明のシステムは、スピーチ認識のために整えることができ、また、それぞれのデータベクトルは、それぞれの周波数間隔中のスピーチ信号のエネルギーを表わす要素を有する。歪み補正で使用するための補正ベクトルを生成するように、誘導手段を整えることができ、また、データベクトルの要素の対数をそれぞれの補正ベクトルの要素の対数に加えるように、補正手段を整えることができる。変換手段は、好適には、行列変換及びヒドゥンマルコフモデルマッチングを実行するマッチング手段を使うように整えられ；逆変換手段を、変換されたデータベクトルと関連し、かつガウス分布を有するモデル状態からデータベクトル推測値を生成するように、整えることができる。マッチング手段は、ガウス分布の混合であるモデル状態を使用することができ、また、逆変換手段は、そこからデータベクトル推測値を生成するように整えることができる。補正手段は、他には、周波数空間でのシフトの補正するための行列の掛け算を提供できる。誘導手段は、カルマンフィルタとすることができる。区切られたヒドゥンマルコフモデルマッチング(segmental hidden Harkov mod el matching)を実行するために、マッチング手段を整えることができる。データベクトルは、話し手の唇から得られた画像情報を、少なくとも、部分的に含むことができ、また補正手段は、絵の、照明(illumination)のレベル、方向及び幾何学的歪みの内の、少なくとも１つの補正を提供できる。変換手段は、好適には、データベクトルの次元を減少させるために、いくつかの係数が廃棄される、コサイン変換を利用するように整えられる。歪みの存在下でのスピーチ認識のための本発明のシステムは、好適には、以下の内で少なくとも１つの補正を提供するように整えられた、逆変換手段及び誘導手段を含む。ａ）変化するスピーチ信号レベル、ｂ）マイクの位置の変化、ｃ）マイクのタイプの変化、ｄ）スピーチ信号回線の特性の変化ｅ）背景雑音レベル、ｆ）周波数シフト、ｇ）話し手の照明のレベル、ｈ）照明の方向、及びｉ）話し手の特徴(feature)の幾何学的歪み。本発明は、他には、スピーチ以外の信号の歪みの補正を提供することができる。それは、例えば、情報が、部分的又は全体的に、個人の顔に向けたビデオカメラからの画像情報からなる認識システムで、照明レベル又は視点の角度の補正を提供できる。誘導手段は、データベクトルの歪みの補正を得るために、複数のデータベクトルの推定値からの寄与を結合するための、無限インパルス応答フィルタ又はカルマンフィルタを含むことができる。本発明の好適な実施形態では、マッチング手段は、複数のモデル状態及びモデルクラスのどれがそれぞれの変換されたデータベクトルに関連するかを示すように整えられ、誘導手段は、それぞれのデータベクトルに対する個別の補正を得るように整えられ、また補正手段は、マッチング手段により指示されたモデルクラスに従って選択的に補正を実施するように整えられる。マッチング手段は、部分的なトレースバックを実行するように、またいつか後で改訂されることがあるマッチングしたモデル状態を指示するために整えることができ；逆変換手段及び誘導手段と組み合わせて、それはそのようなマッチングに基づいて生成された補正のための修正を提供することができる。更なる態様では、本発明は、あらかじめ決められた複数次元のモデルを、そのモデルより高い次元のデータベクトルと関連させる方法を提供し、以下のステップを含む：ａ）データベクトル中の歪みを補正するステップ、ｂ）歪み補正の後、データベクトルに変換を実施し、それらの次元をモデルの次元まで減少させるステップ、ｃ）それぞれの変換されたデータベクトルを、それぞれのモデルに関連させるステップ、ｄ）関連するモデルからデータベクトルの推定値を得るため、前記変換の逆変換を行うステップ、及びｅ）データベクトルの推定値、及びそれが対応するデータベクトルから補正を得るステップと、歪みに対してデータベクトルを補正するためその補正を使用するステップ。ステップ（ｄ）の逆変換するステップは、好適には、それの次元を減少させるためのデータベクトルの推定値への変換の実施がそのような情報の欠落に帰するような方法で情報を含むことにより、データベクトルの次元までモデルの次元を増加させるための、前記変換の擬似逆変換の手段により実行される。変換手段及び逆変換手段が必須でない他の態様では、本発明は、データベクトルをあらかじめ定めたモデルと関連づけるための認識システムを提供し、それは以下を含む：ａ）複数の補正されたデータベクトルを生成するため、それぞれのデータベクトルへの個別のデータタイプに関する補正を使うように整えられた、複数の異なるタイプのデータに対応するデータベクトル中の歪みの補正のための補正手段、ｂ）補正されたベータベクトル及びモデルを関連させるため、またそれぞれのデータベクトルに対して、それぞれのデータタイプに対応する、適切なモデル及びクラスを指示するために整えられたマッチング手段、及びｃ）マッチング手段、及びモデルクラスに関連するそれぞれのデータタイプに対する歪み補正の補正手段による使用のためにマッチング手段が関連するデータベクトルにより示されるモデルから補正を得るための誘導手段。本発明がより完全に理解されるために、それの実施形態を、単なる例を使用して、以下のような添付の図面に関して、今から説明する：図１は、スピーチ認識システムの形態での、本発明の認識システムのブロック図である；図２は、図１のシステムでスピーチ認識に使用されるスピーチモデル状態を図解する；図３及び４は、２つの異なるマイクに対するスペクトル形状適合の処理を図解する；図５は、２つの話し手が関係するときの、スピーチ認識でのスピーチモデル状態の使用を図解する。図６は、モデルと話し手との間の周波数の違いを補正するための装備がされた、本発明の別のスピーチ認識システムのブロック図である。図１を参照すると、スピーチ認識システムの形態での本発明の実施形態が、符号１０により、大まかに示される。システム１０は、それ自身がフィルタバンク分析器１６に接続されたＡ−Ｄ変換器１４に接続された、電話１２を含む。分析器１６は、有限な信号標本の普通の問題を扱うため、２０ｍＳのハミングウィンドゥ(Hamming window)を使用して、４００ポイントの離散フーリエ変換(discret e Fourier transform，DFT)を実行する。それは、概ねメル(mel)（すなわち知覚的に直線性のある）スケール上の２６の周波数間隔すなわちビン(bin)のそれぞれに対して平均値が得られる、２６のサブセット中に得られたフーリエ成分を結合し、対数の強度値を生成する。そのため、それは、２６チャネルの対数の出力を伴うバンドパスフィルタのバンク(bank)をシミュレーションする。分析器１６からの出力は、スペクトル形状適合（ＳＳＡ）を提供する補正ユニット１８と、バッファメモリ２０との両方に渡される。ＳＳＡ補正ユニット１８は、デジタル加算器である。それは、変換デバイス２２に接続され、またそこからの出力は、システムの出力を符号２６で供給する、モデルマッチングコンピュータ２４に渡される。コンピュータ２４は、マッチングインバータすなわち”アンドゥデバイス”２８にも接続され、それは差計算機３０への入力を供給する；この計算機は、それ自身がマッチングデバイス２４から回線３２を通してタイミング情報を受け取る、バッファメモリ２０から第２の入力を受け取る。差計算機３０からの出力は、回線３４を通して、第１の入力としてデマルチプレクサ３６に渡され、それは、モデルのクラスの情報の第２の入力を、マッチングデバイス２４から回線３８を通して受け取る。デマルチプレクサ３６は、無限インパルス応答(infinite impu lse response，IIR)フィルタ４４のバンクの非スピーチ及びスピーチのセクション４４ａ及び４４ｂに接続された、２つの出力４０及び４２を有する。これらのセクションのそれぞれは、２６のＩＩＲフィルタのアレイである。回線４６は、フィルタのスピーチセクション４４ｂをＳＳＡパラメータ記憶装置４８に接続し、またそれは次にＳＳＡ補正ユニット１８に接続される。認識システム１０は、以下のように動作する。電話１２からのアナログのスピーチ信号が、Ａ−Ｄ変換器１４によりデジタル信号に変換され、またそれは信号をサンプリングし、また２０ＫＨｚの速度で、デジタル出力信号を供給する。フィルタバンク分析器１６は、連続した４００ポイントの離散フーリエ変換（ＤＦＴ）を計算するために、そのデジタル信号を使用する。ＤＦＴによるそれぞれの変換に対する２００ポイントの出力は、次に’ビンに入れられ’すなわちサブグループに分離され、２６の周波数間隔に対して対数のスケールで平均エネルギーを供給するために誘導されたそれらの対数が追加される。分析器１６は、２６個のアナログのバンドパスフィルタのバンクのデジタルの同等物である。分析器１６からのそれぞれの出力変換は、２６の成分を有するベクトルであり、またそれぞれの成分は、関連するフーリエ変換係数にわたって平均することにより得られたそれぞれの周波数間隔の中のエネルギーの対数を表わす。個々のベクトルは、連続するそれぞれ１０ｍＳの分析器１６からの出力であり、またそれぞれは、その前の２０ｍＳのスピーチ信号の中のエネルギーにわたる平均を表わす。分析器からの時刻ｔ_iでのｉ^thベクトル出力は、Ｏ_iと定義される。それは、バッファメモリ２０中に記憶され、またそれは、それぞれがそれの生成された時刻ｔ_iに対応するそれぞれのアドレスで、５００個の最も最近得られたベクトルを記憶する。それぞれのベクトルＯ_iは、ＳＳＡパラメータ記憶装置４８中に記憶された２６個のパラメータｐ_j（ｊ＝０〜２５）を使用する変換を利用する補正ユニット１８に渡される。これらのパラメータの生成は、後で説明される。ユニット１８は、記憶装置４８の内容を、ベクトルＯ_iに加える。変換は、歪みを補正するベクトルのスペクトル形状の適合に対応する。この変換は、信号通信路(channel) 又はマイクの特性により引き起こされる、平均信号レベルの変化及び線形歪みの補正を提供する。ユニット１８内での補正後、それぞれのベクトル（ここでＯ_i ^corrと呼ぶ）は、より少ない次元を有する特徴空間中のベクトルＹ_iを生成するために、ベクトルを周波数領域又は空間から変換する変換デバイス２２に渡される。デバイス２２は、それぞれの補正されたベクトルのコサイン変換を生成し、また変換の最初の１２項だけが保持されるように、それを切り捨てる。コサイン変換の使用は、データ中の不要な相関を減少させることにより、認識の正確さを改善する手段として、先行技術で周知である。コサイン変換の切り捨ても、それは不要な話し手に依存する不正確さを除去するため、話し手に依存しないしないシステムの設計のために、先行技術で既知である。変換行列の係数が、必要なコサイン変換の特性により決定されるところでは、変換は行列の掛け算として実行される。それは、ベクトルの次元を２６から１２に減少させる。ここの例では、ユニット２２によるコサイン変換の実行は、特徴ベクトルの成分の計算を含む。以下の方程式（1．ａ，ｂ）は、行列操作の評価を示す：ここで、ｙ_kはベクトルＹ_iのｋ^th成分であり、Ｏ_m ^corrは補正されたベクトルＯ_i ^corr のｍ^th成分である；ｍは、フィルタバンク出力の２６チャネルに対して、０から２５の値を有し、ｋは、コサイン変換の最初の１２項に対して０から１１の値を有する。変換され、補正されたベクトルＹ_iは、モデルマッチングコンピュータ２４に渡される。このコンピュータは、（ここの例における１２に対して）より単純な２次元特徴空間を図解する図２に関して、説明される手順を実行する。モデルマッチングコンピュータ２４は、先行技術で周知の種類の通常のヒドゥンマルコフモデルのマッチングアルゴリズム(conventional hidden Markov model matching algorithm)を実行する。例えば、スピーチ認識の標準的なテキスト、"Speech S ynthesis and Recognition",J N Holmes，Van Nostrand Reinhold(UK)1988の特に７及び８章を参照する。コンピュータ２４は、電話のスピーチの、通常のヒドゥンマルコフのモデルである、モデルを使用する。それぞれのモデルは、単語又は単語の部分（サブワード）に対応する；それぞれのモデルは、多くの状態を有し、また音のシーケンスに対応する。例えば、０から９の数字に対する数字認識器(digit recognizer)では、モデルについて１０個の状態が使用できる。１つの状態は、特徴空間の次元を有する単一の成分のガウス確率分布により表現され、すなわち分布は以下の形態を有する：ここでＣ_sは、モデル状態の定数であり、μ_s,k及びσ_s,k（ｋ＝０，．．．１１）は、１２次元の特徴空間中のモデル状態Ｓに対する確率分布の平均及び標準偏差の１２個の成分であり、またｘ_kは１２次元の特徴ベクトル空間を画定する変数である。先行技術のマッチングプロセスは、以前のベクトル／モデルマッチングの結果を考慮して、ベクトルをモデルとマッチングするステップを含み、そのため認識の正確さの見込みは、入力のシーケンスにわたって、最大にされる。これは、動的プログラム(dynamic programming)により実行される。図２は、３個のモデル状態、Ｓ１、Ｓ２及びＳ３を有するモデルを図示するものであり、楕円は確率分布の輪郭を表わす。変換され、修正された特徴ベクトルＹ_iの２次元の同等物も示される。コンピュータ２４は、モデルのマッチングアルゴリズムを使用し、どのモデル状態が、ベクトルＹ_iにマッチングするためにもっとも適切かを決定する。ベクトルとモデル状態との間でマッチングする確率は、以前のマッチング履歴によって課された任意の制約の影響を受けるベクトルの位置での、モデル状態の確率分布の大きさにより、示される。図２に示される簡略化された２次元の状況では、確率の考慮は、ベクトルＹ_iは、モデル状態Ｓ１にマッチングすべきであると示すであろう。偶然、同一のマッチングがないならば、それがマッチングしそうなモデル状態Ｓ１から予想されるそのようなベクトルの値は、Ｙ_iと等しくはならないであろう。この予想された又は評価された値は、Ｓ１に対する確率分散の平均値により与えられ、またある特徴ベクトルμ_S1 により表わされる。モデル状態の平均値は、２６で出力され、またここで”アンドゥ”操作と言われるものを実行するマッチングインバータ２８に渡される。アンドゥ操作の目的は、後述するＳＳＡ補正ユニット１８の中のアプリケーションに対するスペクトル形状適合のパラメータを生成する際にそのベクトルを使用するため、Ｙ_iとの不正確な関連と反対に、μ_s1が正確に対応する周波数空間中のベクトルを決定することを可能にすることである。アンドゥ操作は、デバイス２２中で実行される周波数空間（Ｏ_i）から特徴空間（Ｙ_i）への変換の擬似逆変換と数学的に等しい計算を含む。もし、周波数空間から特徴空間への変換が、ある行列Ａにより表わされるなら、擬似逆変換は、以下の関係を満たす任意の行列Ａ^-である。ＡＡ^-Ａ＝Ａ（３）もしＡが、正方(square)かつ正則(non-singular)ならば、Ａの通常の逆行列である、行列Ａ−がただ１つ存在する。本発明が注がれた種類の認識システムでは、特徴空間は、前述のように不要な寄与を処理する必要のため、周波数空間より少ない次元を有する。その結果、ある情報が廃棄され、及び行列Ａは長方形となる。長方形行列は単一の逆行列を持たないし、またそのため行列Ａのユニークな逆行列を得ることはできない。しかし、本発明に従うと、容認できない認識手順の逆効果なしに、行列Ａの擬似逆変換である、任意の行列Ａ^-を使用することは、可能かつ有益であることが、意外にも見出された。本実施形態では、行列Ａは、１２×２６の成分の行列であり、またＡ^-は、２６の成分の行列である。行列Ａの係数は、切り捨てられたコサイン変換を与えるよう、計算される。適当な擬似逆行列Ａ^-は、２６の成分のコサイン変換の真の逆変換を、２６×２６の成分の行列とし、かつ２６×１２の成分の行列与えるように列を捨てることにより、計算することができる。もし簡単なコサイン変換以外の変換が使用されるなら、擬似逆変換は、標準的な計算技術(numerical techn ique)により得ることができる。により掛け算されたとき、Ｙに変換する周波数空間中の対応する点であるなら、周波数から特徴空間への変換で、情報の欠落があるため、無数の行列Ａ^-と対方程式（５）は、行列Ａにより掛け算されたとき、認識のためマッチングコン与えないことを表わす。すなわち、擬似逆変換プロセスに追加された任意の情報は、周波数空間から特徴空間への補正されたベクトルの変換で、後で消去される。その結果、周波数から特徴空間へのマッピングをアンドゥすること及び続いて ”再実行(redo)”することが可能である。マッチングインバータ２８は、デジタルの行列／ベクトルの掛け算により’アンドゥ’操作を実行する。それは他には、コンピュータ２４中のソフトウェアにより実行することもできる。マッチングインバータ２８はμ_S1、マッチングしたモデル状態Ｓ１の平均の成分を、周波数空間中の対応する点を与えるため、特徴空間から周波数空間に戻るよう、変換する。コンピュータ２４により出力されたベクトルμ_S1は、行列Ａ^- により掛け算される。行列の操作は、以下の方程式（６）に示される足し算を利用することにより実行される。ングされたモデル及び選択された行列Ａ^-に基づいて、データベクトルＯ_iに対する予想された値である。ュータ２４から、タイミング情報を、Ｏ_iの値のメモリアドレスの形態で受け取出力する。差計算機３０は、これらの予測されたベクトルと観測されたベクトルとの間の差を計算し、差ベクトル(difference vector)を生成する。差ベクトルは、スピーチ信号が受けた歪みプロセスの即座の推定値を周波数空間中に表わす。その推定値はデマルチプレクサ３６に送られ、それは同時にモデルのクラス情報をデジタルの１又は０の形で受け取る；これらの数字で、１は、モデルマッチングコンピュータ２４が認識したスピーチを有することを、及び０は、それが認識した雑音を有することを示す。デマルチプレクサ３６は、差計算機の出力を、それがコンピュータ２４から１又は０のどちらを受け取るかに従って、スピーチ又は非スピーチＩＩＲフィルタセクション４４ａ及び４４ｂに送る。デマルチプレクサ３６によりスピーチと雑音とを区別することの目的は、スピーチのない長い期間を有する会話では、補正項は、雑音及び干渉の効果により歪まされることがあるという問題に対処することである。英国特許第ＧＢ２１３７７９１Ａ号は、雑音に対応する信号がどの部分か、及びスピーチに対応する信号がどの部分かを決定するために、スピーチ認識システムを使用する方法を記述する。この先行技術の方法は、背景雑音のスペクトル特性を決定することを目的とするが、スピーチ信号及び雑音信号から別個に、補正の推定値を引き出すために、システム１０で、スピーチ及び雑音の領域に印を付けるための同様の方法を使用できることが見つかった。これにより、システム１０は、スピーチのない長い期間を有する通話を処理することに、より適するようになる。それにより、より早い出力及びより早い適合化時間も得られる。雑音又は干渉とは反対に、スピーチとして識別されたベクトルは、デマルチプレクサ３６から、４０で出力された差ベクトルを生じさせる。この差は、スピーチフィルタセクション４４ｂに渡され、それは前述のように、２６個のこの無間インパルス応答フィルタのアレイである。フィルタセクション４４ｂは、差ベクトルの２６個の成分のそれぞれに対する、個々のフィルタを組込んでいる。ユニット３０により計算された差ベクトルは、単一のデータベクトルに基づいており、またそれは、スピーチのような音のばらばらな性質による差が結びついた、マイク及び回線の特性に起因する、修正できる歪みの、即座の推定値を表わしている。スピーチフィルタセクション４４ｂは、０．５秒の時定数を有する。それは、修正可能な歪みによる、より長い期間の変化を追跡している間、単語認識のばらばらな変化及びエラーの影響を打ち消す、いくつかの単語（例えば、３個の単語又は１．５秒）にわたる短い期間の平均化を提供する。それぞれの入力された差ベクトルの受け取りに応答して、それは、その入力されたベクトル、及び時間と共に指数的に減少する以前に入力されたベクトルからの寄与にわたる平均である出力ベクトルを生成する；出力ベクトルへの寄与は、最も直前の５０個の差ベクトルから主に生じる。スピーチフィルタセクション４４ｂからの出力ベクトルは、ＳＳＡパラメータ記憶装置４８中にロードされ、それの既存の内容を置き換える、パラメータの更新されたセットを供給する。前述のように、パラメータの更新されたセットは、フィルタバンク分析器１６からの現在の出力のスペクトル形状を適合させるために使用され、またそのパラメータセットは、それぞれのデータベクトルのスピーチモデル状態へのマッチングに応答して、更新される。マッチングを生成する際に短い遅れがある。１８から４８の要素がコンピュータにより集合的に実行される、本発明の１つの実施形態では、スピーチ信号から更新されたパラメータを得るために必要な時間間隔は、０．５秒すなわち平均的な単語の時間間隔である。その結果、それは、単語から単語で効果が変化する歪みを補正する。典型的な先行技術のシステムは、これよりかなり遅く補正を提供し、また比較的短い期間の歪みには対処できない。前述のZhaoの参考文献は、分析のために全部の文を必要とする。この例では、使用される変換は、平均信号レベルへの変化、及び信号通信路又はマイク特性により引き起こされる線形歪みの補正を提供する。本発明の前述の実施形態では、非スピーチＩＩＲフィルタセクション４４ａは、それの出力は使用されないため、冗長である。それの使用が、これから、ＳＳＡ補正ユニット１８及び記憶装置４８の他の実施を含む、本発明の更なる例において説明される。この例では、記憶装置４８は５２個のパラメータｐ_j（ｊ＝０〜５１）を含み、またそれの添え字０から２５が、上述の乗法的な(multiplicativ e)歪み（平均信号レベル及び線形歪み）の補正に対応し、一方添え字２６から５２が、線形スケールに付加的（例えば通信路雑音）な歪みの補正に対応する。ＳＳＡ補正ユニット１８は、対数の形態でのＯ_iのベクトルの要素に、最初の２６個のパラメータｐ_j（ｊ＝０〜２５）を加えることにより、乗法的な修正を行う。それは、データベクトルの要素を対数から線形スケールへの変換及びこれの逆のための設備も含む。それは、修正されたベクトルの要素Ｏ_iを対数から線形スケールへ変換し、また、２６個のパラメータｐ_j（ｊ＝２６〜５１）の第２のセットを加えることにより、線形修正を行う。それは次に、その結果を逆に対数スケールに変換する。ユニット１８は、他には、雑音修正を加えること及び歪み修正を掛け算することにより、線形領域で両方の修正を利用することができる。その変換は、信号通信路又はマイクの特性により引き起こされる平均信号レベルの変化及び線形歪みだけでなく、背景雑音の補正を提供する。乗法的な歪みに対するパラメータの推定値を得るために、スピーチフィルタセクション４４ｂが、前述のように使用される。加法の雑音(additive noise)に対するパラメータの推定値を得るために、非スピーチフィルタセクション４４ａが同様な方法で使用される。認識システム１０の性能を実証するために、電話１２の代わりに、２つの異なるマイクＡ及びＢを使用して、実験がなされた。テストが、航空調査飛行(airbo rne reconnaissance mission)の間に作られた口頭のレポートを使用して実施された。モデルマッチングコンピュータ２４は、３状態の単一の混合成分モノフォン(three state single mixture component monophone)に基づいた標準のヒドゥンマルコフモデル(standard hidden Markov model)を使用するようにプログラムされた。そのモデルは、マイクＡを使用して同じ話し手により録音された、３６回の航空調査飛行のレポートで学習させられた。それぞれのレポートは、約３０秒継続した。コンピュータ２４は、それぞれの単語が同様に確からしいとした、５１８個の単語文法を使用した；すなわち語粟は約５１８単語であった。実験では、話し手は、マイクＡ及びＢの両方に同時に話した。録音物が、ステレオ型レコーダを使用して、色々なマイクの位置に対して作られた。録音物は、次に、Ａ −Ｄ変換器によりデジタル化され、コンピュータのハードディスクに転送された。データは、次に、フィルタバンク分析器１６を実行するコンピュータプログラムにより分析された。データは、次に、ユニット１８、２０、２２、２４、２８、３０、３６、４４及び４８を実行する第２のプログラムにより処理された。出力２６は、分析のためにディスクに記録された。第２の分析では、ＳＳＡ補正ユニット１８、バッファ２０、マッチングインバータ２８、差計算機３０、デマルチプレクサ３６、無限インパルス応答フィルタ４４及びＳＳＡパラメータ記憶装置４８の動作は不作動にされた。以下のマイクの位置が使用された：標準：口の端と同じ高さ中央：口の前の中央低い：口の端の下１インチあご：あごと同じ高さ以下に示す表は、スペクトル形状適合（ＳＳＡ）を備えたシステム１０及びＳＳＡは備えていないが他の点では同等な比較のシステムの両方に対して順次処理された３つの航空調査飛行のレポートのためのマイクＡ及びＢを使用して得られた単語認識に対するエラー率を示す。それは、本発明によるＳＳＡを使用することの、単語エラー率への効果を表わす。すべての４つのマイク位置で、本発明による’アンドゥ’動作を有するＳＳＡの使用は、エラー率に改善をもたらした。マイクＢでは、この改善は、２の係数より大きかったし、また１つの事例では３の係数より大きかった。本発明の動作をモニタするために、（補正ベクトルとして表現された）ＳＳＡパラメータ記憶装置４８の内容が、処理中に約半秒間隔で記録された。図３及び４は、それぞれマイクＡ及びＢに対して、時間の関数としてＳＳＡパラメータを示す。パラメータ（平均の差ベクトルの要素）は、それぞれのフィルタバンクチャネルの番号に対応し、またそれに対して表わしている。ボックスでラベルされた”キー”の中のラベルは、フレーム番号すなわち１０ｍＳの単位で表わした生成時間ｔ_iを示す。最初の６０秒の間（ｔ_i＜６，０００）、値は迅速に変化し、固定した輪郭(profile)に向かって収束する。マイクＢは、高い周波数でより大きい出力を有し、図３においてチャネル２４での最小値が、これに対するシステムの補正である。システム１０は、自動利得制御と匹敵する、すべてのスピーチパワーレベルへのかなり大きい修正も行う。滑らかというよりは、図３及び４の両方は、修正項(correction term)中に著しい’リップル’を表わす。これは、本当の逆変換操作(true inverse operation)ではなく、擬似逆変換に基づく’アンドゥ’操作の結果である；すなわちリップルは、操作により創出された情報に対応する。しかし、方程式３に示されるように、周波数領域データがデバイス２２中で周波数空間（Ｏ_i）から特徴空間（Ｙ_i）に変換されたときにリップルはなくなり、後者はモデル領域である。そのため、リップル及びそれが対応する情報は、モデルマッチングコンピュータ２４により実行される認識操作へ、ほぼ影響を与えない。フィルタバンク分析器１６により出力されているデータベクトルと、記憶装置４８中でＳＳＡパラメータを更新するために利用されているそれの推定値との間の遅れを減少させるために、システム１０への改良を行うことができる。システム１０では、マッチングコンピュータ２４が、特徴ベクトルとモデル状態との間のマッチングを出力する度に、補正パラメータは更新される。’部分トレースバック(partial traceback)’として知られるプロセスが、マッチングコンピュータ２４中で起きるときに、この出力が起きる。部分トレースバックのプロセスは、前述のHolmesの参照文献のセクション７．１１に、詳細に記述されている。ヒドゥンマルコフモデルマッチングアルゴリズムの動作のため、部分トレースバックが起きるとき、マッチングコンピュータ２４中に、通常、モデル状態と明白に関連づけることができない、多くの最近の特徴ベクトルがある。すなわち、マッチングコンピュータ２４は、どのモデル状態に、もっとも最近の特徴ベクトルが関連するのかを”推測”することができようが、後続の特徴ベクトルの処理により、推測されたモデル状態を改訂することができる。例えば、句"recognise spe ech"を処理するとき、モデルマッチングコンピュータ２４は、それが、"r"の音が"wreck a nicebeach"中の"wr"ではなく、"recognise"中の"r"から来ることを確認できる前に、'recognise'中の"g"の音に対する特徴ベクトルを処理することを必要とするであろう。この遅れは、約５０個のベクトルすなわち０．５秒であろう。それぞれの部分トレースバック期間でこの遅れの影響を最小にするために、マッチングコンピュータ２４は、マッチングがまだ完全には確認されていない特徴ベクトルに対する”最適推測(best guess)”のマッチングを出力するために改修できる。デマルチプレクサ３６及びフィルタバンク４４は、次に、もし後のある時に、マッチングコンピュータ２４が、”最適推測”に間違いないと確認するとき、マッチングしたモデル状態に変化があるなら（例えば、もし、後のある時に確認されたマッチング出力が"wr"であったときの、”最適推測”の出力が"r "であるなら）、小さい修正を行えるように改修できる。他には、もし認識出力が直ちに必要ではないなら、全体の単語又は句が、上述のように、システムを１回目通過中に捕獲及び処理され、また次に、その単語又は句が、その第１の通過の間に計算された修正項を使用する２回目通過中に、再び処理されるように、システム１０は構成できる。もし非常に小さい量のスピーチしか（例えば単一の単語）、処理のために利用可能でないなら、これは利益があるであろう。システム１０は、２方向の会話、又は逆通信路エコーを有する１方向の電話接続での使用のために適合させることができる。これは、図２のようにマッチングコンピュータの動作の２次元の同等物を示す、図５に示される。前のように、３つのモデル状態Ｓ１、Ｓ２及びＳ３が示され、また楕円は、確率分布の輪郭を表わす。２つの変換かつ修正された特徴ベクトルＹ_i ¹及びＹ_i ²も示される。２方向の会話では、ベクトルＯ_iは、２人の話し手のいずれかにより生成でき、又は背景雑音に対応できる。更に、マイク及び通信路特性が、２人の話し手の間で異なるであろうから、２セットのＳＳＡパラメータは、それぞれの話し手に対して１つ、維持される。フィルタバンク出力が補正されるとき、それぞれが個別のパラメータのセットを使用する、２つの修正されたベクトルが生成される。両方の修正されたベクトルは、Ｙ_i ¹及びＹ_i ²を得るために変換され、またモデルの１つに最も適するものである、ベクトルの内の１つのみにマッチングするようにされている、マッチングコンピュータ２４に渡される。マッチングば、２人の話し手又は背景雑音の、どちらが関連するベクトルに関連しているかを識別する。ＳＳＡパラメータの２つのセットのそれぞれは、それの関連する話し手又は雑音が、マッチングさせられかつ修正を生成するために使用されたベクトルの原因であると識別されたときのみに、更新される。これを実行する改修されたシステムは、１つがそれぞれのスピーカ／マイクの組合わせに対する、ＳＳＡパラメータの２つのセットを記憶装置４８と同様の２つの記憶装置に維持する。これらの記憶装置へのＩＩＲフィルタバンク４４からの、及びこれらの記憶装置からＳＳＡユニット１８への切り替え接続は、デマルチプレクサ３６に関して記述したように、コンピュータ２４の制御下で、デマルチプレクサにより実施される。このアプローチは、どのような数のＳＳＡパラメータのセット、及びコンピュータ２４がモデルを提供するよう整えられることができる、関連するスピーチのソース及び雑音に広げることができる。それは、複数のソース又はデータタイプの認識で、周波数空間から特徴空間への変換、又は逆すなわち上述のような”アンドゥ”動作のいずれも含まないシステムにおいて使用できる；すなわちモデルは、データベクトルと同じ空間及び次元数とできる。それは一般的に、モデルクラス、又は認識データのソース又はタイプ（例えば、話し手Ａ，話し手Ｂ又は雑音）のどれが、マッチングコンピュータにより識別されるかに従って区別される、複数の異なる補正を生成する認識システムに関連する。データベクトルが、マッチングコンピュータにより、そのクラスのモデルにマッチングさせることによって、特定のモデルクラスに所属していると識別されたとき、そのように得られたそのモデルは、そのクラスに関連する補正のための更新された値を得るために使用される。現在の補正値は、それぞれのモデルクラスのために維持される。それぞれのデータベクトルは、現在の補正値のそれぞれにより補正を受け、またマッチングをしようとするマッチングコンピュータのための、複数の補正されたベクトルを生じさせる。補正されたデータベクトルは、もし第１に、それがマッチングする関連するモデルが、ベクトルが対応するデータのソース又はタイプに対する正しいクラスなら、及びもし第２に、ベクトルに与えられた補正が、それが受けた歪みを打ち消すために適切であるなら、良好なマッチングを通常提供するだけであろう。不適切に補正されたデータベクトルは、正しいタイプのモデルにマッチングしないであろうし、適切に補正されたデータベクトルは、正しくないタイプのモデルにマッチングしないであろう。（補正していない）データベクトル及びそれの関連モデルは、次に、対応するソース又は上述のようにモデルクラスにより示されたデータのタイプに対する、更新された補正を得るために使用される。システム１０は、周波数のシフトの形態をとる、スピーチ信号の変化の補正を供給するように、改修できる。これらは、例えば大人と比較した子供又は男性と比較した女性のような、異なる声道の長さを有する話し手の間の違いの結果として生じるであろう。人間のスピーチでは、約４ｋＨｚまでの周波数範囲のフィルタバンク出力の色々なチャネルのエネルギーは、声道中の共鳴から発生することが周知である。（フォルマントとして知られる）これらの共鳴の位置は、口、唇、舌及び声道の他の部分の筋肉の調音(articulation)中の変化の結果として、スピーチの発生中、変化する。声道の寸法は、話し手の間で異なるであろうし、また従って共鳴の位置は、話し手の間で規則正しく変化するであろう。例えば、Peterson及びBarneyにより"C ontrol methods used in a study of vowels"，Journal of the Acoustic Socie ty of America，24(1952)で実施された測定では、母音［ａ］のＦ₁フォルマントの通常の周波数は、普通の大人の男性に対する７３０Ｈｚから、子供に対する１０３０Ｈｚまで変化する。同様に、Denes及びPinsonによる"The Speech Chain:T he physics and biology of spoken language"，Anchor Books （1973）153ページは、１０個の英語の純粋な母音の音は、男性と比較して女性の話し手に対する、４，０００Ｈｚまでの範囲の平均のフォルマント周波数は、非常に高いことが示される。約４，０００Ｈｚを超える周波数では、音は他の機構により主に生成され、及び声道の長さの違いが発音されることは、より少ない。認識システムのスピーチモデルセットが、専ら大人の男性のスピーチを用いて学習させられたが、システムが女性又は子供のスピーチを認識しようとしているなら、１つのフィルタバンク出力チャネルから、より低いチャネルにエネルギーを曲げることが、性能の改善をもたらすであろう。歪みのこの形態に対する補正を、フィルタバンクから出力されたデータベクトルを、要素が適切な周波数シフトを与えるように選択された、バンド行列(banded matrix)Ｂで掛け算することにより、提供することができる。必要なら、これらの要素は、同時に歪みの乗法的な形態に対する補正を与えることができる。システム１０は、単一のガウス分布の形態での、モデル状態を使用するが、これはマッチング性能の向上を導くことができることが示されるため、そのような分布の混合を使用することもできる。マッチングインバータ２８は、次に、これらの混合から得られるデータベクトルの推測値を生成するように整えられる。２つのガウス分布の混合である分布は、以下の形態を有する：ここで、Ｃ_S,0及びC_S,1は、モデル状態Ｓに対する定数であり；μ_s,0,k、μ_s,1, _k 、σ_s,0,k及びσ_s,1,k（ｋ＝０…１１）は、モデル状態に対する２つのガウス確率分布の平均及び標準偏差の１２個の成分であり、及びｘ_kは１２次元の特徴ベクトル空間を画定する変数である。マッチングコンピュータ２４の手段は、例えばWendy Holmesにより"Speech re cognition using a linear dynamic segmental HMM"，proceedings of Eurospee ch'95，1611〜1614ページ(1995)に記述されたように、区切られたヒドゥンマルコフモデルマッチングを実行するためにプログラムできよう。この場合、マッチングインバータ２８が、データベクトルの推定値を、区切られた曲線(segmental trajectories)に従って予報された値から生成する。ここで、前述の要素と等しい要素は、同様に接頭辞１００を有する参照数字が付された図６を参照すると、上述の周波数シフトを実行する、全体を１００により示されたシステムがある。システム１００の動作の構造及びモードは、システム１０のそれと同様であり、また前者の説明は、両者が異なるところの態様に、主に向けられる。入力スピーチ信号は、ユニット１１４及び１１６により、デジタル化され、またフィルタバンク分析される。フィルタバンク出力は、次に、フィルタバンクデータベクトルを、行列の要素が記憶装置１４８中に記憶されたバンド行列Ｂにより掛け算する、補正ユニット１１８により処理される。バンド行列は、対角線のバンド中にゼロでない行列の要素を有し、他のすべての行列の要素がゼロである行列である。変換デバイス１２２は、補正されたベクトルを、周波数領域から、より少ない次元を有する特徴すなわちモデル領域に変換する。変換後、ベクトルは、モデルクラス情報と共にマッチングモデルに従って予想されるであろうベクトルの値を出力する、マッチングコンピュータ１２４により、マッチングされる。予想値は、推定されたベクトルとなるように、周波数空間への変換のため、マッチングインバータ１２８に渡される。推定されたベクトルは、デマルチプレクサ１３６経由で、役割を後でより詳しく説明する、カルマンフィルタ１３７に渡される。バンド行列Ｂの行列の要素は、１つのフィルタバンクチャネルからエネルギーをシフトさせ、それが他の周波数から発生したように見える修正を実施するために整えられる。例えば、大人に適したモデルを使用して、子供が話したスピーチを処理するときに、フィルタバンク分析器１１６の、チャネル８及び９のエネルギーをチャネル６及び７にシフトさせることは、母音［ａ］のＦ₁フォルマント中の違いを補正することに大体対応する。他には、以下の表中に与えられたＢのゼロではない係数では、補正ユニット１１８は、男性の話し手に適したスピーチモデルを使用しているときに、女性からのスピーチを認識しているシステムに適した補正を行うであろう：カルマンフィルタ１３７の役割を今から説明していく。カルマンフィルタリングは、電子工学の多くの領域、特にレーダーシステムの設計で周知である；それは、観察結果が時間順序(time sequence)を形成し、あるランダムな擾乱の影響を受けていた、（行列のような）線形システムの係数を決定するために使用することができる。システム１００により使用される補正パラメータすなわち行列の要素は、パラメータがカルマンフィルタにより推定される、２６×２６の正方行列Ｂとして表わされる。デマルチプレクサ１３６のスピーチ出力は、バッファ１２０が実際に観察された記憶値を含んでいる間、マッチングしたモデル状態に従って予想したフィルタバンクの推定値を提供するために使用される。これらの２つの値は、カルマンフィルタにより比較され、行列Ｂの要素を更新するために使用される。カルマンフィルタの設計及び実行は、デジタル信号処理の多くの領域で周知であり、また例えば、Athanasios Papoulisによる"Probability，Random Variable s and Stochastic Processes"，McGraw-Hill series in Electrical Engineerin g，1984，458ページ以降に記載されている。カルマンフィルタ１３７は、記憶装置１４８に記憶された行列Ｂの要素を更新する。これは、前に特記したマイク及び通信路の影響の補正だけでなく、異なる声道の長さを有する話し手の間で起きるような、異なるフィルタバンクチャネルの間の規則正しいエネルギーのシフトの補正も提供する。補正ユニット１１８は、周波数シフトを提供することに加え、加算的な雑音(additive noise)の補正をするための行列の掛け算だけでなく、ベクトルの加算も実行できる。周波数シフトの補正は、他には、フーリエ変換の後フィルタバンク分析で実行されるビンに入れる操作（周波数平均化）を変化させることにより、利用できる。システム１０又は１００のどちらでも、コンピュータ２４又は１２４により実行されるモデルのパラメータは、例えば、話し手により話されるアクセント又は方言のモデル化を改善するために、適合させることができる。本発明は、他の認識技術にも利用できる。あらかじめ決められた出来事を検出するために、マイクからの非スピーチ音を識別するために使用できる。他には、それは、Brooke，Tomlinson及びMooreによりProc．Inst．Acoustics 1994 Autum n Conference，Windemere，15〜22ページの"Automatic Speech Recognition tha t Includes Visual Speech Cues"に開示されたような読唇の際の照明のレベル(i llumination level)のような、ビデオカメラからのデータの照明のレベルを補正することができる。それは、雑音又は他の不要な寄与の影響を最小にするため、データを特徴空間中に次元を減少させてマッピングする技術と一緒に使用することもできる。そのような技術は、特にレーダーのデータを処理するために使用される。規則正しい歪みプロセスの補正は、モデル領域では簡単に利用できないデータ領域で、しばしば可能である。本発明は、特に、ミリメータの範囲の波長を有する、レーダー画像センサで使用できる。データベクトルは、風景の２次元の画像を表わす。データベクトルの変換は、オブジェクトのモデルへのマッチングを与える、２次元の、切り捨ての、高速フーリエ変換であろう。レーダー画像平面の歪みの補正を、次に実行できるであろう。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 3/02 ３０１Ａ (72)発明者セリーズロバートウィリアムイギリス国ウースターシャーダブリューアール14 ３ピーエスモルヴァーンセントアンドリュースロード（番地なし）ディーアールエイモルヴァーン (72)発明者トムリンソンマイケルジョンイギリス国ウースターシャーダブリューアール14 ３ピーエスモルヴァーンセントアンドリュースロード（番地なし）ディーアールエイモルヴァーン

Claims

【特許請求の範囲】 1. 複数次元データベクトルをあらかじめ決められたモデルと関連づける認識システムにおいて、 a）データベクトル中の歪みを補正する補正手段(18)と、 b）それぞれの補正されたデータベクトルを適切なモデルと関連づけるマッチング手段(24)とを含み、 c）前記モデルは前記データベクトルより低い次元であり、 d）前記マッチング手段(24)は、歪み補正の後に、データベクトルに変換を使用し、該データベクトルの次元を前記モデルの次元に減少させる変換手段(22) を含み、 e）前記システム(10)は、前記変換の逆変換により、前記関連モデルからデータベクトル推定値を得る逆変換手段(28)を含み、 f）前記システム(10)は、前記データベクトル推定値、及び前記データベクトル推定値が対応する前記データベクトルから、前記補正手段による歪み補正での使用のため、補正を得る誘導手段(30)も含むことを特徴とするシステム。 2. 前記逆変換手段(28)が、前記変換の擬似逆変換を実行し、及び前記変換手段 (22)の、前記データベクトル推定値への、それの次元を減少させるための操作が、そのような情報の欠落に帰するような情報を含むことにより、モデルの次元の、データベクトルの次元までの増加を提供するように整えられていることを特徴とする請求項１に記載のシステム。 3. 前記変換手段(22)が、データベクトルに、行列Ａにより表わされる変換を使用するように整えられており、前記逆変換手段(28)が、行列Ａ^-により表わされる擬似逆変換モデル変換を実行するように整えられており、及び前記行列Ａ及びＡ^-が関係：ＡＡ^-Ａ＝Ａ、を満足することを特徴とする請求項２に記載のシステム。 4. 前記誘導手段(30)が、前記データベクトル推定値及び前記データベクトルからの寄与、及び同様の種類の１又はそれより多い先の寄与にわたって平均化することにより補正を得るように整えられていることを特徴とする請求項２に記載のシステム。 5. スピーチ認識システムのために整えられた請求項２に記載のシステムにおいて、前記データベクトルが、周波数の関数としてのスピーチ信号の表現であることを特徴とするシステム。 6. 前記データベクトルが、少なくとも部分的にビデオ画像データからなることを特徴とする請求項２に記載のシステム。 7. スピーチ認識システムのために整えられた請求項６に記載のシステムにおいて、前記データベクトルが、部分的にスピーチ信号の及び部分的に話し手の特徴の表現であることを特徴とするシステム。 8. スピーチ認識システムのために整えられた請求項２に記載のシステムにおいて、前記データベクトルが、スピーチ信号の表現であり、前記マッチング手段 (24)が、ヒドゥンマルコフモデルマッチングを実行するように整えられており、かつ前記逆変換手段(28)が、変換されたデータベクトルに関連するモデルの確率分布から計算されるデータベクトル推測値を生成するように整えられていることを特徴とするシステム。 9. 前記マッチング手段(24)が、区切られたヒドゥンマルコフモデルマッチングを実行するように整えられており、また前記逆変換手段(28)が、前記マッチング手段(24)により計算されたような前記区切られた曲線の推定値からデータベクトル推定値を生成するように整えられていることを特徴とする請求項８に記載のシステム。 10．前記マッチング手段(24)が、複数のモデルクラスのどれがそれぞれの変換されたデータベクトルに関連しているかを示すように整えられていることを特徴とする請求項２に記載のシステム。 11．前記マッチング手段(24)が、それぞれのモデルクラスに対するモデルの個別のセットを実行するように整えられており、前記誘導手段(30)が、それぞれのモデルクラスに対する個別の補正を得るように整えられており、及び前記補正手段(18)が、モデルクラスに従って選択的に補正を使用するように整えられていることを特徴とする請求項１０に記載のシステム。 12．前記マッチング手段(24)が、２人の話し手のそれぞれに対するモデルの個別のセットを実行するように整えられていることを特徴とする請求項１１に記載のシステム。 13．前記変換手段(22)が、観察されるデータベクトルと、前記マッチング手段(2 4)により使用される前記モデルが対応するデータベクトルとの間の違いを打ち消すために、周波数シフトを実行するように整えられていることを特徴とする請求項２に記載のシステム。 14．前記変換手段(22)が、バンド行列によって補正を実行するように整えられていることを特徴とする請求項２に記載のシステム。 15．前記誘導手段(30)が、カルマンフィルタリングに従って補正を更新するように整えられていることを特徴とする請求項２に記載のシステム。 16．前記変換手段(22)が、データベクトルの次元を減少させるために、いくつかの係数を捨てる、コサイン変換を使用するように整えられていることを特徴とする請求項２に記載のシステム。 17．歪みの存在下でのスピーチ認識のために整えられた請求項２に記載のシステムにおいて、前記逆変換手段(28)及び前記誘導手段(30)が、 a)変化するスピーチ信号レベル、 b)マイクの位置の変化、 c)マイクのタイプの変化、 d)スピーチ信号回線の特性の変化、 e)背景雑音レベル、 f)周波数シフト、 g)話し手の照明のレベル、 h)照明の方向、及び i)話し手の特徴の幾何学的歪みの内少なくとも１つの補正を提供するように整えられていることを特徴とするシステム。 18．前記誘導手段(30)が、違うように補正に影響を与えるであろうデータベクトルにより示されたランダムな変化を打ち消すように整えられていることを特徴とする請求項２に記載のシステム。 19．それぞれのデータベクトルが、システムを２回通過する用意があるように整えられた請求項２に記載のシステムにおいて、前記補正手段が、第２のそのような通過で動作し、及びデータベクトルから補正が得られる該データベクトルに使用される補正の用意があるように整えられていることを特徴とするシステム。 20．前記マッチング手段(24)が、認識エラーの修正のための部分的なトレースバックを実行し、及び、前記逆変換手段(28)及び前記誘導手段(30)と組み合わせて、そのようなエラーに基づいて生成された補正のための修正を提供するように整えられていることを特徴とする請求項２に記載のシステム。 21．請求項１に記載のシステムにおいて、 a)前記補正手段が、それぞれのデータソースに関連する歪みの個々の形態に対して補正された、変更されたデータベクトルのそれぞれのセットを提供するため、それぞれのデータベクトルを複数の補正で変更することにより、複数の形態の歪みを補正するように整えられており、 b)前記変換手段が、変換されたデータベクトルのそれぞれを提供するため、変更されたデータベクトルのそれぞれのセットを変換するように整えられており、c)前記マッチング手段が、それぞれのセット中のどの変換されたデータベクトルが、前記モデルの１つに最も適するかを確認し、及び前記変換されたデータベクトルのために対応するデータソースを示すように整えられており、及び d)前記誘導手段が、前記マッチング手段により示された前記データソースに関連する歪みの前記形態に対する補正で使用するために、前記確認された最も適するものに基づいた補正を得るように整えられていることを特徴とするシステム。 22．あらかじめ決められた複数次元のモデルをデータベクトルに関連づける方法において、 a)データベクトルの歪みを補正するステップと、 b)歪み補正後に、データベクトルの次元を前記モデルの次元に減少させるために、該データベクトルに変換を使用するステップと、 c)それぞれの変換されたデータベクトルをそれぞれのモデルに関連づけるステップとを有し、前記データベクトルは、前記モデルより高い次元であり、及び前記方法は更に、 d)前記関連モデルからデータベクトル椎定値を得るために、前記変換を逆変換するステップと、 e)前記データベクトル推定値、及び前記データベクトル推定値が対応する前記データベクトルから補正を得るステップと、歪みに対してデータベクトルを補正するため、前記補正を使用するステップとを有することを特徴とする方法。 23．ステップ(d)における逆変換が、前記変換の擬似逆変換によって実行され、及び、前記変換の前記データベクトル推定値への、それの次元を減少させるための使用が、そのような情報の欠落に帰するような情報を含むことにより、モデルの次元の、データベクトルの次元までの増加を提供することを特徴とする請求項２２に記載の方法。