JPS60501180A - スピ−チ認識方法および装置 - Google Patents

スピ−チ認識方法および装置

Info

Publication number
JPS60501180A
JPS60501180A JP50164183A JP50164183A JPS60501180A JP S60501180 A JPS60501180 A JP S60501180A JP 50164183 A JP50164183 A JP 50164183A JP 50164183 A JP50164183 A JP 50164183A JP S60501180 A JPS60501180 A JP S60501180A
Authority
JP
Japan
Prior art keywords
speech
template
cost
processing
input signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP50164183A
Other languages
English (en)
Inventor
ベイカー,ジエイムズ ケイ
マカリスター,ジエフリー ジー
クロブスタド,ジヨン ダブリュー
サイデル,マーク エフ
ブラウン,ピーター エフ
ガネサン,カリアン
ハツトン,テレンス ジエイ
リー,チン フイ
ロス,ステイーブン
ロース,ロバート エス
Original Assignee
エクソン リサ−チ アンド エンジニアリング カンパニ−
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by エクソン リサ−チ アンド エンジニアリング カンパニ− filed Critical エクソン リサ−チ アンド エンジニアリング カンパニ−
Publication of JPS60501180A publication Critical patent/JPS60501180A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Complex Calculations (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】 本発明は、スピーチ認識の分野に関し、特定すると連続スピーチにおけるスピー チ要素の認識に関する。
忠実で妥当な価格のスピーチ認識装置の必要性は、技術文献に十分に論じられて いる。、スピーチ認識装置は一般に2つの主たる範躊に属する。1つの範躊は、 話者不依存性の装置で、この装置では、あらゆる人間からのスピーチの要素を認 識するようにスピーチ認識装置が設計された。しかしながら、話者不依存性装置 は、1話者不依存性」以外の特徴、例えば認識頑粱アフードの数に関して相当限 定されることがある。また、普通、人口の5〜10Xは、この種の装置によって は識別できないであろう。他の範瞼は、話者依存性のスピーチ認識で、限定され たクラス、特に1人の人間より成るクラスのスピーチ要素を認識するようにはy 訓練されたスピーチ認識装置に関する。各範啼内において、スピーチ認識装置は 、連続スピーチすなわちスピーチ要素の境界が限定されないスピーチか、隔離さ れたスピーチすなかちスピーチ要素の境界が演締的に既知のスピーチの認識に向 けることができる。連続スピーチ認識と隔絶スピーチ認識との1要な差は、連続 スピーチにおいては、受信されつあるスピーチ要素の始点と終点に藺して装置が 複雑な「判断」をしなければならないことである。隔絶スピーチの場合は、上述 のように、到来音声信号は、境界の判断を比較的簡単にする所定のプロトコルま たはその他の外部手段により離隔されあるいは境界を定められる。
今日スピーチを認識するための多くのh業的装置が存在する。これらの装置は、 話者不依存式か(例えば米国特許第4.038.503号、第4.22 ’7. 176号、第4.228,498号および第4.241.529号(本発明の譲 受人に譲渡された)、話者依存式で動作する。加えて、商業的に入手し得る装置 は、隔絶されたスピーチ認識方式か連続スピーチ認識方式で様々に動作する。
しかしながら、市販の装置は、高い認識性能が必要とされると高価につく。これ は、最良の装置は、もつとも困難な′問題、すなわち話者不依存性の連続スピー チ認識の問題を解決するように組み立てられる結果であることが多い。したがっ て、スピーチ認識装置を適合し得て商業的でなければ利用されるような応用物の 多くのものも、装置の価格と性能との関係で従来考慮されなかった。さらに、商 業的に入手可能な装置は、後刻追加の容量を提供するように容易に拡張できず、 また語業範囲以外で動作するときに必要とされる精度や速度を有さなかった。
本発明の主たる目的は、正確で、忠実で、妥当な価格の連続的スピーチ確認方法 および装置であって、始業の速かつ容易に設定することを可能にする方法および 装置を提供することである。
本発明の他の目的は、一般的に話者依存性の連続的音声認識に向けられ、かつ誤 警報率が低く、構造的一様性が高く、話者に対するトレーニングが容易であり、 しかも実時間動作が可能な方法および装置を提供することで本発明は、スピーチ 単位、例えばワードが一連のテンプレートパターンによって特徴づけられるスピ ーチ認識装置および方法に関する。スピーチ認識装置は、スピーチ入力信号を処 理して、この信号から複数のスピーチ認′険音響パラメータをフレーム繰返し割 合で反復的に誘導する回路を含む。かくして、音響パラ7メータは、1フレ一ム 時間ごとのスピーチ入力信号を表わす。装置は、さらに、音響パラメータに応答 1.て、音響パラメータとスピーチテンプレートパターン間の尤度コストを発生 する回路を備える。この回路は、スピーチ入力信号のスピーチ単位を決定ないし 認識するため尤度コストを処理するよう適合されている。
本発明は、その−面において、音響パラメータを別々に処理してスピーチ入力の スピーチ単位を決定するための少なくとも第1および第2のテンプレート整合お よびコスト処理回路を有する音響パラメータ処理回路、およびスピーチ入力処理 回路と第1および第2処理回路を接続するシステムバスとを備えることを特徴と する。本発明はまた、システムバスに接続されて、バスに沿うデータの流れを制 御する制御回路を備え、装置のスピーチ認識容量を増すため、追加の整合および コスト処理回路をバスに沿って接続できるようになされる。例示の具体例におい て、コスト処理はダイナミックプログラミング技術を使って遂行される。
本発明は、さらに、音響パラメータを記憶するメモリと、テンブレー ト整合お よびコスト処理回路により発生される部分的トレースバックデータを記憶するト レースバックバッファとを備えることを特徴とする。そのとき、制御手段は、分 配的処理状態を使ってコスト処理回路を可変処理速度で作動し、受信されたスピ ーチ入力の内容を決定するため各時間フレームに部分的トレースバックデータを 発生する。
本発明にしたがえば、各テンプレート整合およびコスト処理回路は、第1のバス と、第2のバスと、第1のバスからデータを受信し第2のバスにデータを供給す るように接続された演算論理ユニットと、演算論理ユニットの出力を受信し、第 2バスに2の補数出力を供給するように接続された反転レジスタと、第2バスか らデータを受信し第1バスに出力データを供給する乗算および累積回路と、第2 バスからデータ入力を受信し第1バスに出力データを供給するメモリ要素と、命 令バスと、第1バスと命令バスに接続されて、コスト処理回路の動作な制5 御するプログラム制御回路とを備える。
詳述すると、コスト処理回路のメモリは、単一のアクセスサイクルしか必要とし ない迅速トランスファメモリと、2以上のアクセスサイクルを必要とする緩速ラ ンダムアクセスメモリを備える。緩速メモリは、迅速メモリより相当大きな記憶 容量を有する。
本発明に依れば、スピーチ入力信号をアンチエイリアシングフィルタで濾波し、 濾波されたスピーチ入力信号を周期的にサンプリングおよびディジタル化し、入 力信号を有効に微分するためにサンプルされた信号の差を取り、時間窓内におけ る差信号の成分をKaiser−sinc平滑関数を表わす定数のベクトルと乗 算することにより窓処理継続時間の差信号を平滑化する諸段階よりなる音響ノく ラメータを発生する方法が提供されるdこのようにして平滑された信号は、好ま しくは計算の必要性を減するために折重ね方法を使って離散的フーリエ変換を受 けて、選択された複数の周波数にて窓処理信号の離散的スペクトルを発生する。
スペクトル値は、窓処理継続時間におけるデータを表わすベクトルパラメータに 対応し、そしてこれらのパラメータの数は、そのベクトルの際、一定のクラス内 分散を維持しながらアクロスクラス分散を最適化するマトリックスを使用して主 成分変換を遂行することにより減ぜられる。
本発明の他の一側面に依れば、スピーチ入力信号とテンプレートパターンの対応 を認識するためテンプレート整合およびコスト処理の方法が提供される。本方法 は、許容し得る可能な複数連のスピーチ単位を文法線図として特徴づける段階を 含む。しかして、文法線図は、複数の接続円弧により接続された複数の文法節点 を有し、各円弧はそれと関連して少なくとも1つのテンプレートパターンを有し ている。本方法はさらに、関連する累積的スコアが不活動化スレッショルドを越 えると線図のテンプレートパターンを不活動化しく不活動されなかったテンプレ ートパターンは活動テンプレートと呼ぶ)、音響パラメータと活動テンプレート パターンのあるものとの類似性を表わす尤度コストを発生し、各フレーム時間に 節点と関連する累積的スコアを決定し、このスコアに応答してスピーチ認識の決 定を行ない、そして累積的スコアから、スピーチ入力信号におけるスピーチ単位 の識別情報を決定することを含む。好ましくは、尤度コストは、決定段階中必要 に応じてのみ発生されるのがよい。これは、「要求時」コスト発生方法である。
本発明の一側面に依れば、スピーチ入力信号とテンプレートパターンの対応性を 離職するためのテンプレート整合およびコスト処理方法であって、文法線図の各 節点を高い累積的尤度コストでイニシャライズし、音響パラメータとテンプレー トパターンの選択されたものとの類似性を表わす尤度コストを発生し、各フレー ム時に、各節点と、節点に達する際累積されたテンプレート尤度スコアに対応す る累積的スコアを関連せしめ、システムにおけるトレースバックメモリの必要性 をできるだけ少なくするため部分的トレースバック手続きを行ない、そして終了 節点と関連する累積的スコアが判断基準を満足させるとき認識決定を行なう諸段 階を含むテンプレート整合およびコスト処理方法が提供される。その後、スピー チ入力のスピーチ要素を決定をなすため、強性的なトレースパック手続が採用さ れる。
本発明の1側面に依ると、上述の線図構造は、許容し得る可能な複数連のスピー チ単位に、始節点、終節点および複数の中間節点をもたせ、各節点を円弧により 少なくとも1つの他の節点に接続することによってこれを特徴づけている。節点 は、高い累積的尤度コストでイニシャライズされ、そして音響パラメータとテン プレートパターンの選択されたものとの類似性を未わす尤度コストが発生される 。接続円弧は、0円弧とワード円弧の両方より成る。0円弧は関連する零横断時 間を有し、ワード円弧は関連する0でない横断時間を有する。
スピーチ認識中採用されるテンプレートパターンを発生するための方法は、サイ レントにより囲まれた入カスビーチの始点および終点を見出し、周知の手法にし たがってスピーチ単位を表わすテンプレートパターンを発生する段階を有する。
見出段階は、サイレントをテンプレートパターンとしてモデル化し、各フレーム に対してサイレントテンプレートパターンコストを固定基準スレッショルド値と 比較することを含む。スピーチ単位の始点は、サイレントテンプレートに対する スコアが交叉しスレッショルド値より悪いときに宣言される。本方法はさらに、 スピーチ単位の終点を宣言するため第2のスレッショルド値を有する。サイレン トテンプレートに対するスコアが向上して第2スレツシヨルドよりよくなると、 スピーチ単位の終了が宣言される。好ましくは、第2のスレッショルド値は、第 1のスレッショルド値より小すいのがよい。
本発明の他、の側面に依ると、スピーチ入力の始業でない発声に装置が応答する のを抑止する方法が提供される。
本方法は、音響パラメータおよびサイレントを表わすパターンを含むテンプレー トパターンに対して各フレーム時に尤度コストを発生することを含む。活動テン プレートパターンまたは音響カーネルに対するコストが予定されたスレッショル ド値より良ければ、装置は通常のスピーチ認識プロセスを開始する。もしも、サ イレントテンプレートパターンを含む活動テンプレートパターンのコストが、す べて予定されたスレッショルド値より悪ければ、装置は非スピーチ認識プロセス に戻る。もしも、サイレントテンプレートが、スレッショルド値よりも良好な唯 一の尤度コストに対応すれば、システムは静止段階に留まる。
さらに、本方法にしたがうと、第2のスレッショルド値を設定することができ、 装置は、サイレントテンプレートの尤度コストが第2のスレッショルドより浪く なるまで非スピーチ認識プロセスに留まることになる。特定の具体例においては 、2つのスレッショルドを等しくすることができ、そして長、短のサイレントを 表わすように種々サイレントパターンを選択することができる。
本発明のさらに他の側面に依れば、装置のメモリの可変メモリに文法線図のソー ス表示が記憶される。メモリデータは、容易に第2の文法線図の表示と交換した り、ダウンロードしたりでき、そして装置は、第2文法線図に基づいてスピーチ 識別決定を行なうように進行し得る。
それにより、文法特性表示は、ソフトウェアで交換可能であり、編集可能である 。
第1図はスピーチ認識装置の外観を示す概略ブロック図である。
第2図は本発明の例示の具体例の信号処理部分の概略流れ図である。
第3図は本発明によるダイナミックプログラミングおよびテンプレート整合部分 の詳細流れ図である。
第4図は本発明に依る一様な処理回路部分の詳細概略ブロック図である。
第5図は不発q<依るダイナミックプログラミング文法線図である。
第6図は本発明に依るダイナミックプログラミングワード線図である。
第7図は本発明に依る単−安素ジヨーカーワードを使用した文法線図である。
第8図は本発明に依るダブルジョーカーワードを使用する文法線図である。
第8A図はスピーチ認識に対する「プレリュード」としてダブルジョーカーワー ドを使用する文法線図である。
第9図は従来装置のブロック図である。
第10図はダイナミックプログラミング手法の格子表示図である。
第1図を参照すると、本発明に依るスピーチ認識装置10は、線12を介して音 声入力を受信するものとして示されている。音声入力は、前置増幅器14により 緩衝作用を受け、濾波される。前置増幅器は、アンティエイリアシングフィルタ を有し、アナログ−ディジタルコンバータ18に対して適正な電圧値(すなわち 標準化された)出力電圧を線16に供給する。例示の具体例において、アナログ /ディジタルコンバータは1(S、000すなわち12ビット変換/秒のレート で動作し、線20上に12ビツトの出力を供給する。アナログ/デジタルコンバ ータの12ビツト出力は、バッファメモリ22に供給される。バッファ22は、 320サンプルまですなわち20ミリ秒のスピーチまでを記憶する容量を有する 。最低の必要条件は、バッファ22が160サンプルより若干多く記憶できると いうことである。
バッファ22は、内部バッファバス24VC接続される。
バス24は、装置に対して主データ通信バスとして作用スル。かくして、バス2 4は、バッファ22を信号処理回路26、第1のテンプレート整合・ダイナミッ クプログラミング回路28、第2のテンプレート整合・ダイナミックプログラミ ング回路60、プロセス制御回路32、音響パラメータバッファメモリ34およ びトレースバックバッファ36と接続する。
認識プロセスは、制御要素として例えば市販のマイクロプロセッサを合体したプ ロセス制御回路32により制御される。プロセス制御回路は、装置を可変処理速 度で動作せしめるためメモリ64を使用する。これは、全装置が実時間のピーク 負荷要求を処理することを署せず、平均処理負荷に関して実時間で動作すればよ いことを意味する。この処理形態を採用することによって得られるハードウェア の節約は相当であり、これについては追って詳しく論述する。
例示の具体例において、各回路26.2Bおよびろ0は実質的に同一である。こ れら回路は、回路26の音声信号処理または回路28および30のテンプレート 整合・ダイナミックプログラミングのいずれかを遂行するように回路内に用意さ れたソフトウェアプログラムにより変更される。これについては以下に詳しく論 述する。各回路26.28および30は、小形の2000ワードメモリ26a、 28aおよび50a(16ビツトロード)をそれぞれ有する。これらのメモリは 、回路26.28および30における連続処理に十分のメモリを提供する小形の 「迅速」バッファとして働く。装置10は、大きな認識始業を処理するため追加 のテンプレート整合・ダイナミック処理回路(回路2Bまたは30のような)を 付加することによりバス24に沿って容易に拡張できる。
この拡張能力は、テンプレート整合・ダイナミック処理を同じ装置板上で、この 特定の具体例においては回路28および30に対して同じ回路を使用することに より実行するように選択されたアーキテクチャの直接の結果である。
例示の具体例において、各回路26.28および60は、組立体の1つの全回路 板を占める。データ処理回路板の2つを結合することも望ましいことであろうが 、結合された回路板の物理的寸法は「ラック」に適合しないであろうから、今日 の半導体技術においては、回路板を結合することは可能でなかった。しかしなが ら、開発された構造体は、上述のようにバス24に沼って新しい回路板を追加す ることを可能にするだけでなく、別個のテンプレート整合・ダイナミックプログ ラミング回路を使用する従来の装置(例えば第9図−信号処理回路46がテンプ レート整合回路48に信号を送り、該回路48がダイナミックプログラミング回 路50に信号を送る一参照)において通常起こるデータ通信の10グジヤム」を 減する。別個のテンプレート整合・ダイナミックグログ13 ラミング回路を使用する結果として、本質的に高いバンド幅の接続52に必ずバ ンド幅の問題が起こり、これが解決されねばならない。本発明の例示の具体例に おいては、上述の装置の構造のため後述のように要求に応じて並列処理が可能と なり、バスに沿うバンド幅の必要条件は減ぜられ、装置の費用は相応に減ぜられ る。
例示の具体例により実施されるスピーチ認識装置および方法は、信号処理回路2 6において線12を介して送られる音声入力を処理して、入力スピーチを特徴づ ける1組の音響パラメータを提供する。例示の具体例において、1組の音響パラ メータは、16の8ビツト数または成分のベクトルと考えることができる。各時 間フレームごとに音響パラメータの新しいベクトルが発生される。
しかして、例示の具体例におけるフレーム時間は10ミリ秒である。
音響パラメータは、第1および第2テンプレート整合・ダイナミックプログラミ ング回路により要求に応じて呼び出される。これらの回路は、一般的動作として 、必要とされるときのみ各ベクトルを予め記憶された基準テンプレートと比較し 、類似の程度を表わす尤度総計値すなわちコストを発生する。先に記憶された基 準テンプレートハターンは、音響パラメータを発生するに際して採用されるのと 同じ処理方法を使って認識されるべきスピーチ要素を特徴づける。各スピーチ要 素は、例えば1ワードは、追って詳述するように一連のテンプレートパタ−ンに より特徴づけられる。尤度統計値すなわちコストに基いてかつ装置を実時間で動 作せしめるような態様で認識の決定を行なうため、ダイナミックプログラミング 法が採用される。
以下に、音響バラメークの発生方法をまず説明する。
ついで、認識の決定を得るため回路28および60により行なわれる音響パラメ ータの処理について詳述する。
回路28および60は構造同一に留まらないことに留意することが重要乎ある。
これら回路は、処理するロードを分配して実時間動作を可能にするため並列に動 作しているのである。
第2図を参照して説明すると、音響入力(第1図の線12からの)は、必要な標 準化および緩衝作用を受けた後、101にてA/Dコンバータ(第1図の18) に通される。A/Dコンバータの出力は、メモリ22(第1図)により記憶され た後、下記のように信号処理回路26により処理される。
以下の信号処理の説明において、データの処理された値は、1・8ピツトバイト に適合するようにクリップすなわち標準化されることが多い。これは、後続の乗 算および/または累算で16ピツトを越えるオーバーフローを生じないように、 また標準化に関して利用可能なダイナミックレンジを最大限利用するようになさ れる。
A/Dコンバータの12ビツト出力は、102で微分され、クリップされる。入 力は、逐次の入力値間の負の最初の差をとることにより微分される。これは、1 6KHzサンプリング速度で行なわれる。微分手法は、入力波形のダイナミック レンジを減じ、高周波数をプレエンファシスする。周波数領域において、微分の 効果は周波数による乗算であり、そしてこれは高周波数に対して6dB/オクタ ーブの「ブースト」をもたらす。この高周波数プレエンファシスは、スピーチ信 号の振幅が周波数の関数として減するから望ましいことである。微分された音響 信号は次いでクリップされ、1バイトに適合するようになされる。
ついで、微分されクリップされた出力の平均振幅、平均および平均平方振幅のl ogが、例示の具体例においては、320のサンプルすなわち20ミリ秒のスピ ーチを有する「窓」に対して104.105で決定される。ここで使用されるl ogは下式に依る。すなわち、8 log2(振幅)−128(式1 )結果は 、ついで単一バイトに適合するようにクリップされる。
とへに使用される「窓」は継続時間20ミリ秒であるが、本発明に依ると、信号 処理回路は、各10ミリ秒ごとに新しい1組の音響パラメータを発生するように 予定されていることに注目することが重要である。それゆえ、逐次の窓は、例示 の具体例において10ミリ秒重畳する。
ついで、20ミリ秒の窓の微分・クリップされたデータは、「窓」Kついてそれ から平均振幅を減することにより106で標準化される。これは、実際には、信 号00周波数成分、すなわちDCレベルを減することに等価である。標準化され たデータは単10バイトに適合するように再度クリップされる。
ブロック106からの標準化された出力は、ついで108で窓処理される。窓処 理は、109にて入力配列に窓定数のベクトルを乗算して行なわれる。これは、 窓の両端部にてデータを減衰させる効果を有する。それにより、周波数領域にお いて、サイドローブの高さは、中心ローブの幅を増しそれにより得られるスペク トル評価値を平滑化することを犠牲として減ぜられる。サイドローブの高さと中 心ロープの幅の間に若干異なるかね合いを生ずる種々の形式の窓処理関数が存在 するが、例示の具体例で選択され統計的に良好な結果を生ずることが分った窓は 、s inc関数(5inax ) / axとKaiser 関数を乗算する ことより成る5ine−kaiser窓である。
kaiser 窓は、サイドローブの高さと中心ロープの幅間のかね合いをパラ メータ化するから有用である。5inc関数を乗算することにより、フーリエ変 換における各周波数の帯域幅が与えられる。例示の具体例において355Hz  の帯域幅が使用される。kaiser 1gI@窓において、ベータパラメータ Bは5.2に設定される。
kaiser関数は、kuoおよびkaiser蓄「System byDig ital Computer J 、 John Wiley & 5ons  、、 =ニー −r−り所在、1966年発行、の第7章[Digital F ilterJに記載されているが、下記で与えられる。
こメで、IOは、第1種00次変形ベッセル関数である。
例示の具体例のパラメータに対する5inc fjA数t数次1次とくなる。
sin (a (n−(N−1)/2 ) (式5)N=窓内の620の点 波形は、標準化後(標準化の前でなく)窓処理される3何故ならば、そうしない と、平均により余分の方形信号が誘導されることになり、サイドロープが増大す ることになろう。窓処理された波形は、そのサンプルカ!−13ビットに適合す るように標準化される。これ&ま、追って記載されるように折重ね中遂行される 累算カー16ピツトをオーバーフローしないようになされる。
窓処理されたデータの離散的なフーリエ変換力t、こNで112で遂行される。
フーリエ変、換を効率的に遂行する多くの方法があるが、乗算の数、したがって ツー1ノエ18 特表昭GO−501180(9)変換の計算を行なう時間を減 するために、データベクトルを4つの小ベクトルに変換することにより正弦およ び余弦の対称性を利用する折重ね技術が113で遂行される。周波数領域におけ る値のサンプリングは基準周波数の倍数でなされるから、得られる各ベクトルは 、基準または基本周波数の周期(これは基本周期とも呼ばれる)の1/4の長さ を有するものとなる。
例示される具体例において、16KHzのサンプリング速度およグ20ミリ秒の 場合の基準周波数は、12sHzであるように選ばれる。(対応する基量周期は 128サンプルである。)これは、スペクトル周波数サンプル間の最小選択間隔 を表わす。上述のように、20ミリ秒の窓は、到来音響(ディジタル化)信号の 2つの10ミリ秒クレームを包含、する。かくして逐次の窓は重畳的性質を有し 、各サンプルは2つの窓に寄与する。
折重ね技術に従うと、周波数は基準周波数の奇数倍および偶数倍に分割される。
変換の実数成分(余弦を乗したもの)および虚数成分(正弦を乗したもの)は、 各々両クラスの周波数に対して得られた折重ねられたベクトルの一方を使用する 。
折重ね動作は3つの段階で遂行される。第1に、基準周期だけオフセットされた 要素が一緒にまとめられる。
例示の具体例において、16 KHzのサンプリング速度で125Hzの基準周 波数を使用すると、128の点を生直接の結果である。すなわち、 と〜でfは基準周波数(125Hz)であり、和はに=0から窓におけるサンプ ルの数(−1)までとなる。
(ja) j(a千2π) (式、) e −e であるから、変換は下記のごとく書き直せる。すなわち、F(nf)−Σx、( K)e(−2rjnfk) (式6)こ〜で、和はに=0からに=4Q−1まで とられ、Qは基準周期の1/4に等しく、そしてX、 (K)はX(K) +X (K+4q)+X(K+8q)+・・・・・の和である。
第2の折重ね操作は、最後の式(第6図)を下記のように書き換えることにより 遂行される。
F(nf)=BX1(K)(cos(2πnft)+jsin(2rnfk))  (式7)%式% 正弦および余弦関数の対称性を利用すると、式7の変換は下記のように書き直す ことができる。すなわち、F(nf)=%X2ocos(2cnfk)+jX2 ssin(2yrfk) (式8)%式%) ) 和はに=0からに=2Q−1までとなる。かくして、サンプリンタ速度が16K Hz、基準周波数が125 Hzの場合64項ある。
この手法の第3段階は、基本周波数の奇数倍の例を解くことである。対称性すな わち5in(a)=sin(π−a)およびcos(a) =−cos(π−a )のため、式8の変換は下記のように書き換えることができる。すなわち、 F(nf) = 5 X、oocos(2πnfk)+ jX3oosin(2 πnfk) (式9)%式%) ) 基準周波数の奇数倍に対して式は下記のようになる。すなわち、 F(nf)=’i X、□Bcos(2yrfnfk)+jX、Bs1n(2π nfk) (式10)%式%) ) この手法は、5in(a) −−sin(2+r−a)およびcos(a) = cos(2π−a)の等化を利用する。この第6の手続きすなわち第6の折重ね 後、和は0からに=Q−1までとなる。
すなわち、16 KHzのサンプリング速度および125Hzの基本周波数に対 して32項である。5回の折重ね後、ベクトルは6ビツトにブロック標準化され る。
この点で、離散的7−リエ変換は、折重ね手法から得られるデータを正弦および 余弦のマトリックスと乗算することにより完成される(113a)。基準周波数 の倍数を計算することにより、モジ−口2、すなわち利用されるに必要とされる 1組の折重ねが決定され得る。得ら21 れたベクトルは、単一のバイト内に適合するようにブロック標準化される。フー リエ分析の結果は、−128〜127(すなわち、1バイト)の範囲の符号付き 整数の2つのベクトルである。ベクトルの一方は、フーリエ分析の実数項であり 他方は分析の虚数項を含む。ベクトルの長さは、認識プロセス中採用される周波 数の数に等しい。例示の具体例において、周波数の数は31で、下記のごとくで ある。
250 1250 2250 3250625 1625 2625 4000 750 1750 2750 4500875 1875 2875 5000 1000 2000 3000 55001125 2125 3125 次の段階114は、基本周波数の各倍数にてス未りトルの実数および虚数部分の 平方の和を決定することである。結果は2により分割され、すなわち1ビツトだ けシフトダウンされ、その結果、116で計算される平方根は1バイトに適合す る。
116で平方根を取った後、得られたスペクトルは118で下式にしたがって変 換される。すなわち、f (X)= 128(X−平均)/(X十平均) (式 11 )この関数は、[quasi−1og Jと称されることが多く米国特許 第4.058.505号に詳細に記載されているが(この開示を参照されたい) 、信号のダイナミックレンジを再分配するととKよりデータのスピーチ認識特性 を向上させる。平均は、スペクトル値列の平均値である〇「quasi−1og  Jの結果は、例示の具体例においては31の音響パラメータを有するベクトル である。120にてこのベクトルに104および105で計算された入力信号の 平均振幅値が加えられる。118でquasi−1ogから得られるこの振幅値 および31の要素ベクトルは、122で主成分変換に加えられる。主成分変換は 、装置に予め記憶された基準テンプレートパターンを表わすスピーチに比較のた めの小数の音響パラメータを提供するため、ベクトル列の要素を減する。これは 、計算の費用およびメモリの費用を減する。
主成分変換122は3つの部分で遂行される。第1段階においては、ベクトルの 各要素に対する話者不依存性の平均値がベクトルの各要素から減ぜられる。第2 に、第1段階の結果は、下記のように形成される話者不依存性マトリックスによ り乗算される。最後に、第2段階から得られるベクトルの各要素は、要素に依存 するある量だけ個々にシフトされ、ついで8ビツトバイト内に適合するようにク リップされる(123)。これは、ベクトルの各成分の分布が標準化されてしま い、バイトに成分の平均に関する5つの標準偏差が含まれていることを本質的に 意味している。主成分分析の出力は、選択された数の成分に等しいベクトル長を 有するバイト配列で、第1図の装置の信号処理セクション26の音響パラメータ 出力であり、以下でより詳細に説明されるようにさらに処理のためバス24に加 えられる。
主成分分析は、後続のパターン認識において使用される音響パラメータの数を減 するために採用される。主成分分析は、多くのパターン認識システムにおける共 通の要素であり、例えば本発明の譲受人に譲渡された米国特許第4.227.1 77号)Ic eigenvector (固有ベクトル)分析なる用語で説明 されている。分析の概念は、原パラメータの標準化された一次結合であり、この 再結合が相互に独立性を維持しながら最大の情報をもつ成分を提供するように行 なわれた1組の主成分を発生することである。かくして、普通、第1の主成分は 、最高の分散をもつ、パラメータの標準化された一次結合である。この概念は、 最大の変化を含む方向は、ベクトルが属すべきスピーチのクラスについての最大 の情報をも含7むということである。
通常、考察下にある一次結合を含むベクトルは、単位長より成るように制限され る。これは、すべての再結合されたパラメータが限定されたスピーチクラス内に おいて同じ変化を有する場合に最良の手法であろうが、残念ながら、実際には再 結合されたパラメータは同じ変化を有さない。それゆえ、従来技術の分析方法は 、同一のクラス内平均変化を有するようにパラメータの全−次結合を標準化する ように変更され、そして第1の主成分は、その標準化された一次結合が最高のア クpスクラス分散をもつように選択される。
主成分分析は下記のように導かれる。Ml がマトリックスMの転置マトリック スを表わすものとする。Tはある1組のPの原パラメータの共分散マトリックス とする。
Wは、クラス内平均共分散マトリックスとする。■は係数のPのデイメンショナ ルベクトルであり、Xは音響パラメータのPのデイメンショナルベクトルである とする。
誘導を簡単にするため、原パラメータベクトルXは0平均を有するものと仮定す る。実際には、例示の具体例において、この仮定は、原パラメータからそれぞれ の各平均値を減することにより実施される。パラメータの一次結合の分散v′X は、TがXX′の期待値として定義されるから、次のごとくなる。すなわち、 [(V’X)(V’X)’ )の期待値=v’(xxすV−V’TV (式12 )同様に、W(i ) がi番目のクラスのパラメータの共分散であれば、V’ W(i)V は、i番目のクラス内におけるパラメータVlXの共分散である。
クラス内平均分散は次のようになる。すなわち、 とLICNはクラスの数である。マトリックス乗算の分布的性質により、これは 丁度v’wvに等しい。この定義は、各クラスに含まれるサンプルの数と無関係 に全クラスを同等に重み付けする。実際に、例示の具体例においては、頻繁に起 こるクラスを判別することがより重要であるという仮定に基づいて、全サンプル は等しく重みづけされる。
次に、(vlTV)は下記の制限下で最大とされる。すなわち、VIMV:=1 (式14) この問題はLagrange 乗数を使用することにより解くことができる。1 つのLagrange 乗数をyにより表わすとする。このとき式14および式 17を解こう、とすると、f = (V’TV) −y(V’WV−1) (式 15 )o = df/dV = 2TV−2YWV (式16)1゛■■冨y  (式17) この式17は、丁度一般の個有ベクトルの問題であり、TおよびWの対称に起因 して実数の個有値をもっPの個有ベクトルにより解くことができる。
原基率を最大にする解は、最大の個有値yをも個有ベクトル■により与えられる 。これは、■X、の分散が下式により与えられることを観察することにより理解 することができる。すなわち V’TV=V’yWV=yV’WV=y−1=y (式18)最大の個有値を有 する(式17)に対する解が■、であり、対応する個有値がy、であると仮定す る。次のパラメータに対して、(V’TV ) を最大にし、単位のクラス内分 散を有しくV’WV=1)、そしてv、’x と非相関のパラメータの一次結合 VIXを解く。■lXがv、 ’xと非相関である条件のため、クラス内分散に 匹敵する最大のアクロスクラス分散を有するが第1の成分からすで忙得られた情 報を含まないパラメータの一次結合を分析により見つけることができる。非相関 の定義により次の式を得ることができる。すなわち、 [(V’X)(V、 ’X) ’ )ノ期待値=v’(xxつV、=V’TV、 = o (式19)yおよび2をLagrange 倍数とし、式14.19お よびg =(V ’ TV) −Y (V ′wv−1) −z (2V ’  TV + ) 、(式20)0 = dg/dV= 2 TV−2yWV −2 z’l”Vl (式21)式21に■、を掛けて2で割ると 0 = V、 ’TV−yVこWV −zV、’ TV、(式22)これらの関 係に制限としてV、’TV=oおよび式18からTV、zy1を置換し、−1を 掛けると、0=(y/y、)(■、′T■)+zy1■、′M■、(式23)o  = (zy、)(1) = zy、または (式24)2=口 それゆえ、■、が与えられると、次の3つの式を解くことができる。
’rv=ywv (式26) ■冑−1(式27) V’TV、 = o、 (式2 B )式26を満足させるベクトルQはいずれ も、QをスカーラーQ’WQにより割ることにより両式26および27を満足さ せるベクトルに変えることができる。
式20を満足し対応する個有値qおよびrを有する2つのベクトルQおよびRに ついて考察する。このとき、rQ’Wl(=Q’TR=R’TQ=qQ’WQ= qQ’WR(式29)(r−q)Q’WR= 0 (式30)もしもrがqに等 しくなければ 0 = Q ’WR= Q ’ TFL/r (式31)Q’TR=o (式6 2) 式26が異なる非0の等価値をもつ2つのベクトルにより満足されるならば、こ れらの2つのベクトルも式28を満足し、それゆえ非相関となる。
かくして、第2の成分は、式26および27を満足しかつ2つの最大値が異なる と仮定して第2の最大の個有値を有するベクトル■2 であるように選択される 。これに対応して、n番目の成分■n もV1〜■n−+と非相関とすることが でき、また、nの別個の0でない個有値があるかぎり、Vnが式26および27 を満足すればよいことを示すために同じ手法を採用できる。
このように、式26に対応する個有多項式がNの別個の非0値を有すると仮定す ると、各々比(V ’ TV)/(V ’WV)を最大にするが一連のものの先 行の一次結合と非相関であるように拘束された一連のNのパラメータの一次結合 を決定できる。このNの一次結合は、Nの一般化された主成分を含む。
上述の方法で、v’wvを一定に保持しながらvlTVを最大にするパラメータ の一次結合が見出される。容易に分るように’I’、−W十B(Bは平均クラス 間分散)であるから、同じ結果はv’wvを一定に保持しなからV’BYを最大 にすることにより得ることができる。Bは、パターン手段間の差を含む項の和と して表わすことができるから、直観的にVIBYを最大にすることにより、パタ ーン手段は相互に離間されていく。スピーチ認識においては、恐らく、特定のパ ターン手段間差を他のパターン手段間差よりも積立たせることが重要である。B の式におけるパターン手段間の差が異なる量により重みづけされたならば、得ら れた主成分は、特定のパターン間を他のパターン間をより区別するように偏倚さ れるであろう。異なるパターン対に異なる重みを割り当てる1例は、異なる話者 から得られるデータおよびパターンが主成分分析において使用されるときである 。このような場合、異なる話者から得られるパターンを分離しようとすることは 価値がなく、この種のすべてのパターン対には0の重みを与えるべきである。
主成分マトリックスを造るのは、実時間スピーチ認識プルセスの前に行なわれる 。普通、マトリックスの良い評価値を得るためには、大きなデータ基準を必要と する。
主成分変換の出力は、音響パラメータベクトルである。
例示の具体例において、新しい「ベクトル」すなわち1組の音響パラメータは、 各フレーム時に、すなわち各10ミリ秒ごとに得られる。音響パラメータは、信 号処理回路26からバス24上に得られる。各フレーム時は入力音声の20ミリ 秒を表わす窓を有するから、上述のように、音響バラメークデータにより表わさ れる情報にはオーバーラツプがある。音響パラメータデータはメモ29 リバツファ34に記憶される。これは、上述のごとく、プロセスコントローラ3 2の制御下で、回路28および30に依る可変速度データ処理を可能ならしめる 。これは、全装置を、到来スピーチ分析の平均実時間要求に対応せしめるために 重要であるが、フレーム・パイ・フレーム式に各スピーチ要素中実時間処理を維 持するためにはこれを必要としない。
フレーム・パイ・フレーム式では、最大のテンプレート整合およびダイナミック プログラミングデータ処理要求は、一般に1つのスピーチ単位例えば1ワードの 中央に向って起こる。これに対応して、スピーチ単位の始点または終点における 処理要求は、一般に相当小さく、実際上記述の装置の能力よりも小さい。かくし て、回路28および30と組み合わせて音響データ′を記憶するためにバッファ 54を使用することにより、装置の平均処理速度は実時間動作に必要とされるも のより大きくできる。このようにして、実時間動作は、瞬間的処理速度に合った ハードウェアを必要とすることな〈実施できる。
類似計算の目的は、主成分変換から得られる入力音響パラメータと認識されるべ きスピーチの要素を記述するために採用されるテンプレートパターン間の類似性 の測定値を得ることである。例示の具体例において、各スピーチ要素は、一連の テンプレートパターンによって記述される。各テンプレートパターンと関連して 最小および最大の継続時間がある。最小および最大継続時・間の組合せが音響核 である。普通、スピーチ要素は話されたワードである。しかし、スピーチ要素は また、ワード、単一の音素、またはなんらかの他のスピーチ単位の組合せとし得 る。
本発明にしたがえば、選ばれた比較値は、所与のフレーム時に音響パラメータの 観測値に与えられる特定のスピーチテンプレートの確率の単調関数である。音響 パラメータは、ランダム変数の観測値と考えることができる。
音響パラメータをモデル化する、ランダム変数は、話者が意図する音の純粋単位 により与えられる確立分布を有する。受信される音は純粋でないから、また計算 を容易にするため、選ばれた確率分布はラプラス分布、すなわち2重指数分布で ある。ラプラス分布は、単一のランダム変数に対して次のように書ける。すなわ ちf (X) −ce−1x−”b(式33 )こ〜で、Uは分布の平均であり 、bは標準偏差に逆比例し、Cは密度が1に統合されるように選ばれる。計算を 容易にするため、尤度それ自体ではなく尤度の対数が採用されるべき測定値とし て選ばれる。(これは、確立を計算するのに際し、乗算でなく加算の採用を可能 にする)。
対数はその引数の単調関数であるからこのようになされろ。それゆえ、測定値は 下記のごとく書き直すことができる。すなわち、 1nf(x) = In(c)−1X−ulb (式64)この計算においては 、Uおよびbのみが既知であればよい。何故ならば、Cの自然対数は、密度が1 に統合されねばならないという条件に依って決定されるからである。
はとんどの数を正に維持するため、この測定値の反対すなわち負が採用される。
所与のフレームに対する音響パラメータは独立であると仮定されるから、尤度確 立の測定値に対する最終的式は次のようになる。すなわち、コスト=に+= I X(i)−u(i)Ib(i) (式65 )こ工で、和は全音響パラメータに 亘ってとられ、そしてKは1(i)の関数である。
例示の具体例において、尤度の計算は、装置のダイナミンクプログラミング部分 の使用により、「要求に応じて」テンプレートパターンに対して発生される。こ の具体例におけるように、2つの回路28および30が並列に動作する場合、回 路28および30のダイナミックプログラミング部分が他の回路30または28 から尤度スコアを要求することが可能である。これは、バス24を介してデータ の伝送を必要とするであろう。下記の文法レベルおよびワードレベル1線図」に したがって行なわれるダイナミックプログラミングに依る「仕事の分割」は、バ ス24上のデータ伝送の必要を最小にするように選ばれる。
上述のように、尤度計算のための入力は、フレーム時における音響パラメータと テンプレートパターンについて記述する統計(上述のUおよびb)より成る。テ ンプレートパターン統計値は、各音響バラメ、−夕に対する平均(ul)および 「重みJ (bi) および対数項(Kに対応する)。テンプレートパターン統 計の作成の際、普通、対数項は、コストの大きさを16ピツト整数内にあるよう に選択された量だけ右方に(2のべきにより分割されて)シフトされた。各音響 パラメータに対して、音響パラメータと平均値間の差の絶対値が決定され、その 量にパラメータと関連する重量が乗算される。音響パラメータのすべてに対して これらの量が加えられ、そして和が最大の16ビツト量より小さければ、和は対 数に加えられるのと同じ量だけ右方にシフトされ、対数項なそれに加えることが できるようにする。結果は、モのフレーム時におけるテンプレートパターンに対 する「尤度」または「コスト」である。
ダイナミックプログラミング手法 スピーチ認識に対してダイナミックプログラミング手法が採用されたが、これに ついては、例えば本発明の譲受人に譲渡された米国特許第508.891号、3 09.208号および509.209号に記載されている。
使用されるプログラミング手法は、これらの3つの出願に記載されるダイナミッ クプログラミング手法についての改良である。
第10図を参照すると、ダイナミックプログラミング手法は、マトリックス15 2を介して最良のパス150(すなわち、最小のスコアをもつパス)を見出すも のと考えることができる。−のマトリックスにおいて、行は個々の時間間隔(測 定が行なわれる個々の時間間隔)により割出しされ、列はこの要素単位(例示の 具体例における音響核)を表わす。理論的に、マトリック中のすべての可能なバ スを試行し最良のバスを選択することができる。しかしながら、各時間について 考慮するには余りに多くのバスがあり過ぎるから、マトリックス中の最良のバス を見つけるための計算上効率的な方法および装置を見つけるために、スピーチに 対するmarkov モデルについて考える。時点を十1において任意の所与の 状態を選択する確立が時点tにおけるシステムの状態にのみ依存し、時点tにお いてその状態に達した方法に依存しないならば、推計プロセスはmarkov  式であるといわれる@スピーチにおいては、同時調音、すなわちスピーチの所与 の基本単位がその単位の前および単位の後に話された単位に影響を与える状態が ある。(話者は彼が言おうとしていることを予測しているため、スピーチの単位 は過去に影響を及ぼす)1ワード内における同時調音の問題を処理するため、テ ンプレートパターンは同時調音されたスピーチ単位について形成される。この方 法は、理論的に同じスピーチ単位を有するワード間でテンプレートを共有するこ とを難しくし、そしてこれが、本発明の例示の具体例において装置にかへるテン プレートを共有させようとしない理由である。例示の具体例の諸口的に対して、 ワード間の同時調音は無視される。
かくして、スピーチに対するmarkov モデルは、各状態内に将来の決定に 関するすべての情報を包含することにより組み立てられる。それゆえ、スピーチ の単位はワードに分けられる。これは、究極的に、認識されるのはワードであり 、シンタックスの制限を適用できそして例示の具体例においてこれを適用しなけ ればならないのはワードレベルであるからである。シンタックの制限は、文法線 図58(第5図)により表示されており、そしてモデルをMarkov 式にす るのはこの文法線図である。それゆえ、発声を認識するとき、バスが見出される はずの状態空間は、論理的に2つのレベル、すなわち文法ないしシンタックスレ ベルおよび基本スピーチ単位が存在するワードレベルに存在するものと考察され る。
文法レベルにて、状態空間は多数の接続された節点より成る。節点は、発声内の 個々のワード間、前または後のいずれかにある論理的時点である。各節点には固 定の正当な始業があり、その各ワード(または複数のワード)が節点を新しい節 点に接続する。かくして、文法線図は、始点および終点を有する一連のアークと 、始点および終点間において移動を惹起させる一連のワードより成る(第5図参 照)。なお、「セルフ」アークについては始節点および終節点は同じである。
上述の第2レベルは、ワードモデルを採用する。1つのワードモデルは、特定の 話者によって話される特定のワードの有限の状態表示である。例示の具体例にし だがうと、採用されるワードモデルは、直線的な一連の音響「核」である。上述 のように、音響核は、最小および最大の継続時間を有する単一の音響テンプレー トパターンである。かくして、例示の具体例において、1ワードは一連の音響よ り成り(各々テンプレートパターンにより表示される)、最小および最大継続時 間が各音と関連している。代りの発声に対する用意はなく、したがって本発明の 好ましい具体例に依れば、本方法は話者依存性のスピーチ認識に対して実施され る。かくして、本方法は、同じ話者が常時はy同じ方法で同じワードを話すとい う最良の評価値に依存して行なわれる。
第6図に表わされる線図形式において、各ワードモデル音響核は、最小継続長の 「n」のサンプルを有し、nの同一の節点160により表わされている。これら は、上述の文法節点とは異なるものである。nの節点は一列に配列され、各々入 って来る単一のアークと、出て行く単一のアークを有している。最大の継続長、 すなわち最小継続長より大きい継続長は、入って来るアーク、出て行くアークお よびセルフループを有する最後の節点により表わされる。しかして、セルフルー プは任意的ドエル時間すなわち最小継続長と最大継続長の差である。すべてのア ークは、それと関連して同じ音響テンプレートパターンを有し、そしてセルフル ーズに対し、ループ中の度数の計数値は、全情報(トレースバック中に後で必要 とされる)を正確に維持するように保たれねばならない。
ワードモデル線図および文法モデル線図は、文法線図において各アークを対応す るワードモデルで置き代えることにより統合される。文法節点およびワード節点 間の接続は、「ヌルアーク」と呼ばれるものKよりなされる。
ヌルアークは、装置が文法の任意のワードをスキップすることを可能にする、例 えばアーク162(第5図)。
必要とされる尤度計算が得られたら、プロセスは、到来スピーチの尤度統計値お よび許容し得るシンタックス線図を使ってスピーチを認識することに進行する。
図で示すと、発声の線図は、まず、下記のようにマトリック内の格子に変換され る(例えば第10図参照)。線図の各状態または節点は格子の列に対応し、格子 の各行は特定のフレーム時間に対応する。かくして、行Iの格子状態は時間■に 対応し、行Jの格子状態は時間Jに対応する。かくして、行Iおよび行J間の格 子を辿ることは、「線図」において原節点が原動に対応しかつ終節点が目的列に 対応するアークを辿りながら、時点I+1と1間の時間(両時点を含む)に対す る音響パラメータを得ることに対応する。テンプレートパターンに最小および最 大の継続長を課することは、格子アークが跨ぎ得る垂直距離(2列間)を抑制す ることに対応する。
本発明において採用されるダイナミックプログラミングの主題は、格子の各行( すなわち時間)において、目的性および開始行間の行における状態の先に計算さ れたコストを使って目的格子状態に到る最適のバスを見出すことである。「最適 または最良」のバスは、テンプレートに対応するスピーチ単位がそのフレーム時 における音響パラメータに与えられる正しいものであるという条件付き確率を最 大にするテンプレートパターンを選択することによって累積的尤度スコアを最小 にすることに等価である。この条件付き確立は、全「活動」テンプレート(「活 動」テンプレートは以下で定義される)について最大化される。
詳述すると、動的プログラミングは、各フレーミング時において下記のステップ を遂行する。
(1)全節点が最初初最大(16ピツト)尤度スコアにセットされる。
(2) ヌルアークの目的節点は、そのスコアを0時におけるアークのソース節 膚から受け取ることができる。
(3)各文法アーク上のワードにおける各「活動」核が、尤度計算および継続情 報を使って処理され、そのフレーム時におけるワードに対する最小スコアが決定 される。
(4)゛ワードに対する最小スコアがある予定されたスレッショルドより大きい と、ワードは不活動化され逐次のフレームに関する計算を減する。これは、実質 的に、このパスが最適のものでないという予測に基づいて計算を減する方法であ る。
(5)文法節点、すなわち1つの文法節点に至るワードの終点におけるバスの累 積的尤度スコアが計算される。
(6)1ワードの核のすべては活動核でなく、最後の活動核のスコアがある予め 選択された活動スレッショルドより小さければ、ワードの次の核は活動とされる 。
(7)線図の最終文法節点、すなわち第5図の節点200におけるスコアが、中 間文法節点におけるスコアより良ければ(すなわち小さければ)、発声の終点が 検出された。
さらに詳述すると、音響核レベルにて、ダイナミックプログラミングは、現在の フレーム時における特定の核の尤度スコアに到達するため、核のソース節点に対 する1シードスコア」、現在フレームから計算される音響核のコストおよび最終 フレームの全体的最小スコアを使用する。上述のように、と〜に記載される特定 のハードウェアの具体例は、「要求」に応じて尤度コストを決定する。かくして 、特定のフレーム時に対して核レベルのダイナミックプログラミングにより尤度 コストが要求されると、尤度の計算が行なわれる。6核に対応する各節点(第6 図を参照して、核が各々フレーム継続時間を必要とする複数の節点によりモデル 化されることを思い起こされたい)は、1シードスコア」として先行の節点から 尤度スコアを受け継ぐことができる。(核の第1節点に対して、第1核節点が文 法核に沿う第1節点でなければ、「シードスコア」は先行の核の最後の節点から 受け継がれる。反対の場合には、「シードスコア」は文法節点に至る最終スコア の最終節点から受け継がれる。)さらに、核を有する最後の節点は、それ自身か らスコアを受け継9 ぐことかできる(ワードモデルにおけるセルフループの使用のため)。この場合 、セルフループがたどった度数が記録されねばならない。累積コストをできるだ け小さく維持するためには、すべての尤度コストは、最終フレームの全体最小ス コア(すなわち最良スコア)を減することにより標準化される。そのとき、新し いスコアは、受は継いだスコアと、そのフレーム時におけるそのテンプレートに 対する尤度スコアまたはコストの和である。
すべての「活動」核が処理されたら、ワードに対する最小スコアが決定され、対 応する文法節点に出力される。
ワードに対する最小スコアが予め選択された不活動スレッショルドより太きいと 、ワードの食核は、最初のものを除き不活動となされる。これは、最適のパスと なり得るものを捨てるかも知れない危蘭を伴って必要とされる尤度およびダイナ ミックプログラミング計算を減じた効果を有する。他方、ワードの最後の活動核 の最後の節点についてのスコア(すべての核が活動でない場合)が活動スレッシ ョルドより小さい場合、ワードの次の核が活動となされる。ワードのすべての核 が活動の場合、現在の文法アークの目的節点は、文法目的ノードに至るすべての アーク上の全ワードの最小スコアであるスコアを受け取る。
本発明において採用されるダイナミックプログラミングは、上述の米国特許出願 第308.891号に記載されるものと同様である。本発明において採用される ダイナミンクプログラミングと先に出願されたものとの主たる差は、とへではヌ ルアークおよび活動/不活動スレッショルドを使用することである。この「文法 」におけるヌルアークの使用は、有利なことにワードを結びつけるととを可能と し、そしてこれは本発明の装置の実施を一層容易にするものである。また上述の ように、活動/不活動スレッショルドは、装置の計算要求を減する。
本発明の好ましい具体例においては、部分的トレースバックがメモリ節約装置と して採用される。各フレーム時に、現在の時点−ワードの最大継続長に等しい過 去の一時点における全ての節点が、後の時点においてその節点から任意の節点に 至るアークが存在するか否かを見るためにチェックされる。もしも存在しなけれ ば、これらのノードは、トレースバックにおいて使用できる1組の節点から除去 される。反復的に、除去された節点に至るアークを有するさらに過去におけるす べての節点は順次省略される。それゆえ、1組のトレースバック節点が取り除か れることとなり、トレースバックに少ないメモリの採用を可能にする。
発声の終了が検出されたら、例えば最終文法節が装置の他の文法節点より良い( 低い)スコアを有するとき、発声長に亘るダイナミックプログラミングの結果に 基づいて、最良のワード順序が実際に何であったかを決定するために1強制トレ ースバック」が採用される。トレースハックは、文法線図の最終節点でスタート し、最良の41 パスを通って発声の開始点に向って後方に進行する。トレースバックの出力は、 開始時および終了時そしてもし望むならば各ワードに対するスコアを加えた認識 された発声である。このようにして、最小のコストパスな探究された出力は、特 定された文法、特定されたワードモデルおよびテンプレート、および入力音響パ ラメータと矛盾がないもつとも確率の高い発声である。さらに、発声について訓 練するために必要な情報も、下記のように装置から得られる。
トレーニング/インp−ルメント これまで提示した記述は、複数の先に形成されたテンプレートパターンを使って スピーチなg識する方法を記述したものである。これらの、テンプレートパター ンを形成することは、有効で忠実なスピーチ認識システムを提供する上での鍵で ある。したがって、テンプレートの生成には注意が払われねばならない。特に、 本発明の例示の具体例の場合、装置は話者依存性であるように設計されるから、 テンプレートパターンは、スピーチが認識される話者に細かく偏る。
以下では、装置を特定の話者に適合させる2つの異なる方法について記述する。
第1のインロールメント方法においては、0偏倚インロールメント、すなわち新 しいワードに対応する最初の1組のテンプレートパターンが1組の入力音響パラ メータからのみ生成される。1組のテンプレートパターンは、到来音餐パラメー タを直線的にセグメント化し、それからテンプレートパターンを誘導することに より生成される。第2のトレーニング法は、話者から誘導された1組の音響パラ メータ、および既知または仮定された発声の認識結果を利用して良いテンプレー トを生成する。既知または仮定された発声は、テンプレートパターンに対して最 初の「ラフカット」をもたらす。これは、既知の発生内においてかつ既知のワー ドモデルを使って各ワードについて離職を遂行することに−より行なわれる。
0基準インp−ルメント技術に戻り、各々最小および最大継続長を有する多数の 音響核が、ワードの継続長に基づいてワードに対して設定される。追って説明す るように、ワードの゛始点および終点が決定され、ついで音響パラメータのフレ ームが6核に比例的に割り当てられる(ML位核当t)sフレーム)。ついで、 テンプレートパターン統計値、平均および分散を音響パラメータから計算するこ とができる。例示の具体例において、0基準インロールメントは、例えば1ワー ド(平均50フレームの継続長)に対して10の音響核を採用する。しかして、 各音響核は、最小2フレームの継続長および最大12フレームの継続長を有する 。かくして、1組の統計値が得られるが、これは発声を記述するのに採用でき、 あるいは例えば以下に記載されるように改良され得るものである。
トレーニングプロセスの場合、入力データは、話された入力ワードに対する音響 パラメータのみならず、先の最小コストパス探索から得られたトレーニングデー タを含む。このデータは、1つのワードに対する仮の開始時および終了時を含む 。スレッショルド操作が遂行されず、゛ドエル時間の制限がなければ、ダイナミ ックプログラミングは、文法レベルのダイナミックプログラミングと同じ結果を 与えるはずである。ワードレベルにおけるダイナミックプログラミングが予測さ れたところで終了し、トレースバックが音響核レベルにてワード内で遂行された としたら、トレースバック情報はそのワードに対する良好なテンプレートを生成 するのに役立つ。その結果、良好な1組のテンプレートを得ることができる。例 示の具体例においては、ワードのみより成る特別の文法が組み立てられる。ワー ドにおけ、る食核が活動化され、ワードレベルのダイナミックプログラミングが 遂行される。
トレーニングプロセスに使用される各ワードにとって、有効なトレーニングを行 なうためのもつとも重要な側面の1つは、ワードに対する開始時および終了時を 正しく設定することである。種々の手法が採用されるが、1つの手法は、到来自 動信号の振幅に基づくスレッショルド値を採用する。かくして、例えば、あるシ ステムは、スピーチの1つのパスを「sき」、そしてそのパス中の5つの最小サ ンプル値の平均(平均最小)および5つの最大サンプル値(平均最大)を取るよ うに設計できる。そのとき、スレッショルドは、平均最小値の4倍十平均最大値 の和を5で除したものに等し、く設定される。システムはついで再びスピーチ発 生に移行し、数フレーム時(例えば7フレ一ム時)スレッショルド値を越える振 幅を有した後、ワードは、スレッショルド値を越えるフレーム時の最初で開始を 宣言される。同様に1ワードの終了時には、ワードは、スレッショルドを越える 数フレーム(例えば7フレーム)の終了時に終了を宣言される。
他方、インロールメント中発声の開始および終了を決定する好ましい手法は、ス レッショルドまたは「ジョーカー」ワードを使用することである。これは、雑音 不感知性を提供するのみならず、スピーチ発声の開始および終了を決定する優れ た方法を提供する。第7図を参照すると、「ジョーカーワード」を採用する文法 線図158は、節点180にセルフループ160を有している。しかして、セル フループは短いサイレントを表わしている。
節点180および184間においてアーク182により−ム当り固定ないし一定 の尤度コストを有している。長いサイレントを表わすアーク186が節点184 から節点188に延びている。サイレントが入力信号であると、すなわち発声が なされる前、セルフループ(短いサイレント)はフレーム当り良好な尤度コスト を有し、文法線は節点180に「留まる」。スピーチが始まると、サイレントに 対するフレーム当りのコストは貧弱となり、そしてアーク182に沿う「ジョー カー」の固定コストはそれに比して良好となり、節点180から節点184への バスを提供する。その後、節点184から188への移動がスピーチの終了を表 わす。
第7図の文法線図が適当に作用している間に、2つの1ジヨーカー」ワードを使 ってトレーニング中の改善された開始および終了時を得ることができる。こ〜で 第8図を参照すると、文法線図198は節点200で始まり、サイレントが受信 されている限り文法線は短いサイレント(低コストを有する)を表わすセルフル ープ202に留まり、第1のジョーカーワードを表わすアーク204に沿って進 行しない。第1ジヨーカーワードには、比較的高い尤度コストが割り当てられう る。スピーチに遭遇したら、短いサイレントに対するスコアは貧弱となり、ジョ ーカーワード(アーク204)に対する2スコアを越し、文法線は節点206へ のアーク204をたどる。節点206にて、第1のジョーカーより若干低い第2 のジョーカーワード208が節点から出て行く。長いサイレントが認識されると 、文法線はアーク210をたどる。
これはワードの終了を指示する。この方法は、比較的良好な雑音不感知性をもた らしく2つのジョーカーワードのヒステリシス効果が加えられたため)、トレー ニング中に採用される到来する隔絶された発生の開始および終了点を正確に決定 する。異なる「ジョーカー」ワードに割り当てられたフレーム当りの2つの異な る尤度コストは、ワードが本当に検出されたことを確かめる(最初にサイレント を優先させることにより)効果を有し、そしてワードが検出されたら、ワードを 終了させるためにサイレントが本当に検出されたことを確かめるようにワードが 優先せしめられる(第2のジョーカーに対して)。
第8図の文法線図と関連して例示の具体例において採用されるパラメータは次の ごとくである。
第1ジヨーカー 第2ジヨーカー 短サイレント 長すイレント最小ドエル時間  12 1 1 35 最犬ド工ル時間 1121o15155第8a図を参照して説明すると、ジョー カーワードは、「通常」のスピーチ認識中せきのような音に不感知性を与えるた めにも採用できる。この点で、ジョーカーワードは通常の認識に対する「プレリ ュード」である。ジョーカーワードな使用するというこの特徴にしたがい、文法 IIj!220は始節点222を有し、そしてサイレントが受信されるかぎり、 短いサイレント(低コストを有する)を表わすセルフループ224に留まり、第 1ジヨーカーワードを空わすアーク226または話された文法線のスタートに至 るアーク228に清って進行しない。スピーチに遭遇すると、第1のジョーカー ワードに対する尤度コストは比較的高まり、話された文法線図に至るアーク22 8に沿って移動が起こる。
しかしながら、せきのような「非スピーチ」が生ずると、第1ジヨーカーワード の値は、文法線を節点230に至るアーク226をたどらしめるような尤度コス トを与える。文法線は、長いサイレントが認識されるまでセルフアーク232上 の第2のジョーカーワードにより保持されて節点230に留まる。長いサイレン トは、文法線を始節点222に戻るアーク234をたどらせる。このようにして 、マシンはスピーチ入力を待つ休止状態に戻り、上述のような雑音入力を有効に 無視する。
システム構造 第4図を参照して説明する。本発明の好ましい具体例に依ると、第1図のハード ウェアは6つの同一の回路板を採用する。すなわち、回路26に対応する信号処 理回路、回路28に対応するテンプレート整合およびダイナミックプログラミン グ回路板、および回路30に対応する第2のテンプレート整合およびダイナミッ クプログラミング回路板である。回路218は、6本のノくス、すなわち命令バ ス220、第1の内部データノくス222および第2の内部データバス224を 有する。データノくス222および224間には、演算論理回路(ALU)22 6、関連するアキュムレータ260およびラッチ回路232および234を有す る迅速8ビット×8ビット乗算回路228、ラッチ回路238.240および2 42を備える例えば16ビツトの128,000ワードのメモリを有するダイナ ミックランダムアクセスメモリ(RAM )236、および例えば16ビツトの 2000ワードのメモリおよび関連するラッチ246.248を有する迅速トラ ンスファメモリ244が接続されている。書込み可能な制御ストア252が設け られており、記憶および演算要素の動作を制御する。制御ストア252はランダ ムアクセスメモリであり、バス222に出力を、バス220上に命令データを提 供する。書込み可能な制御ストアは、例えば4KX(S4RAMとし得るが、こ れはプログラム命令を記憶し、マイクロシクエンサ254例えばAMD指定され る。PICOマシン256は、技術的に周知のように、クロックタイミング、ダ イナミックRAMリフレッシュおよびその他のタイミング機能を司る。
この構造体は、2重パイプライン処理方法を採用するが、これは制御ストア25 2に対して比較的廉価なスタティックRAMの使用を可能にする。
反転レジスタ260は、尤度コスト生成のためにラプラス変換を実施するための 迅速な動作に重要であり、演算論理装置226の出力を必要に応じて2の補数成 分出力に変換するために設けられる。反転レジスタの出力はバス224に供給さ れる。
板26.28および30の動作およびプログラミングは特定のプログラムコード により制御されるが、このコードにより、板は、信号プロセッサ26として採用 されるとき、テンプレート整合およびダイナミックプログラミングを遂行するに 必要な音響パラメータを提供するこ49 とが可能となる。同f長に、回路28および30のプログラミングにより、該回 路は、尤度コストを生成しダイナミックプログラミングを実施するように音響パ ラメータを処理することが可能となる。
動作について説明すると、上述のように、テンプレート整合およびダイナミック プログラミング回路28および30は、動的プログラミングプロセスにより要求 されるところにしたがって、要求に応じて尤度コスト計算を行なう。これは2つ の理由で遂行され得る。第11C,板のダイナミックプログラミング部分により 必要とされるすべての尤度計算を遂行するために必要なテンプレートパターンデ ータがその板上に見出されることである。
(これは、高度に組織立てられた文法線図およびテンプる)。第2に、例えば板 28が、その板に対するダイナミックプログラミングを完成するに必要な尤度ス コアを受け取ることである。プロセッサ制御装置32は、この情報の転送を編成 する。
第5図と関連して上述した文法はメモリ266および244に記憶される。これ は高度に組織立てられた態様で記憶されるため、1つの文法を表わすデータは第 2の文法線図を表わすデータと交換でき、ワードの異ったシンタックス結合また は完全に新しいスピーチ語案(この場合、新しい語集についてのトレーニングが なされよう)を認識するように装置を変幻性のあるものとする。例示の具体例に おいて、データの交換は、好ましくは、メモリ236および244に多重の文法 を記憶しプログラム制御下で文法の一方を選択することにより遂行するのがよい 。例示の具体例において、プロセス制御装置32は、追加の文法を記憶するため のディスクメモリを備えることができる。
上述するところに加えて、マイクロプロセッサバッファ34は、可変速度処理を 遂行する能力を備える。かくして、ダイナミックプログラミングおよび尤度スコ ア発生は、最大の計算要求が起こるスピーチ発生の中央部では若干実時間後に生 じ、なされる計算が少なくなる発声の終了のころ追いつくようにできる。このよ うに、全システムは、例示の話者依存性の条件において実時間認識を行なうため には、上述のように実時間スピーチ認識のためのピーク計算要求に応答すること は必要でなく、平均計算要求に応ずればよい。
技術に精通したものであれば、好ましい具体例についての追加、削減およびその 他の変更を含む他の具体例を本発明の技術思想内で想起し得ることは明らかであ ろう。
浄書(内容に変更なし) × 弦 FIG、9 FIG、10 手続補正書C方式) %式% 補正をする者 事件との関係 特許出願人 〒103 住 所 東京都中央区日本橋3丁目13番11号油脂工業会館同 補正の対象 特許法第184条の5第1項の規定による書面の特許出願人の欄図面の翻訳文  1 通 委任状および翻訳文 各1 通 補正の内容 別紙の通り c′面の翻訳文の浄書(内容に変更なし)国際調査報告 第1頁の続き 0発 明 者 クロブスタド、ジョン グブ アメリドニー ソバ− 0発 明 者 サイデル、マーク エフ アメリドニー 0発 明 者 ブラウン、ピータ−エフ アメリン ヌ 0発 明 者 ガネサン、カリアン アメリコン QM@ 間者 ハットン、テレンス ジエイ アメリレン [株]発明者 リー、チン フイ アメリンく−ジ み発 明 者 ロス、ステイーブン アメリスト 0発 明 者 ロース、ロバート ニス アメリー5゜ 力合衆国 02122 マサチューセッツ、ドーチェスクー、す・3.ギプソン  ストリート 33 力合衆国 06511 コネテイカット、ニューヘイブン、ホイ・ アベニュー  388 力合衆国15217 ペンシルベニア、ピッパーグ、ワイトマ訃リート 223 5 力合衆国01803 マサチューセッツ、バーリントン、ビービレジ 48 力合衆国 01801 マサチューセッツ、ウオーバーン、ウォアベニュ−48 力合衆国 02139 マサチューセッツ、ケンブリッジ、チンエイ3.バーバ ード ストリート 334力合衆国 02116 マサチューセッツ、ボストン 、ビーコンリート 167 カ合衆国 02135 マサチューセッツ、ブライトン、ナンバコルバーン ロ ウド 14

Claims (1)

  1. 【特許請求の範囲】 (1)一連のスピーチ単位が一連のテンプレートにより特徴づけられる2ピーチ 認識装置であって、スピーチ入力信号を処理して、フレーム反復速度にて複数の スピーチ認識音響パラメータを反復的に誘導する手段、および該音響パラメータ に応答して、前記音響パラメータおよび前記スピーチテンプレートパターン間の 類似を表わす値すなわち尤度コストを生成しかつ該尤度コストを処理して前記ス ピーチ入力信号のスピーチ単位を決定するための手段を含むものにおいて、前記 音響パラメータを分配的に処理して前記スピーチ入力のスピーチ要素を決定する 少なくとも第1および第2のテンプレート整合およびコスト処理手段と、前記ス ピーチ入力処理手段と前記第1処理手段および第2処理手段とを接続するシステ ムバスと、該バスに接続されて前記バスに沿うデータの流れを制御するための手 段とを備え、装置のスピーチ認識容量を増すため追加のテンプレート整合および コスト処理手段を前記バスに滴って接続し得るようになされたことを特徴とする スピーチ認識装置。 (2)前記バスに接続されて前記音響パラメータを記憶するためのメモリ手段と 、前記バスに接続されて、前記第1および第2コスト処理手段により発生される トレースバックデータを記憶するためのトレースバックバッファを備え、前記制 御手段が、前記コスト処理手段を可変処理速度で動作させかつ部分的トレースバ ックを遂行して前記受信スピーチ入力の内容を決定するための4回路を含み、ト レースバックバッファのメモリの必要性を減するごとくした請求の範囲第1項記 載のスピーチ認識装置。 (3)前記コスト処理手段が、第1のノ(スと、第2の)(スと、前記第1バス からデータを受信し、前記第2)くスに出力データを供給するための演算論理装 置と、該演算論理装置の出力を受信し、論理装置出力の2の補数出力を第2バス に供給するように接続された反転レジスタと、第2バスから入力データを受信し 、第1ノ(スに出力データを供給するように接続された乗算および累積回路と、 第2バスから入力データを受信し、第1)くスに出力データを供給するためのメ モリ手段と、命令ノくスと、第1ノくスおよび命令バスに接続されて、コスト処 理手段の動作を制御するためのプログラム制御手段を備える請求の範囲第1項記 載のスピーチ認識装置。 (4)前記メモリ手段が、単一のアクセスサイクルを必要とする第1の迅速トラ ンスファメモリと、2以上のアクセスサイクルを必要とする第2の緩速ランダム アクセスメモリを備え、該緩速メモリが迅速メモリよりも相当大きいデータ記憶 容量を有する請求の範囲第3項記載のスピーチ認識装置。 (5)前記プログラム制御手段が、プログラム命令を記憶する手段と、該プログ ラム記憶手段を制御するためのマイクロシクエンサと、少なくとも前記緩速メモ リをリフレッシュするPICOマシンを備える請求の範囲第4項記載のスピーチ 認識装置。 (6) スピーチ単位が各々一連のテンプレートパターンによって特徴づけられ るスピーチ認識装置であって、スピーチ入力信号を処理して、フレーム繰返し速 度で複数のスピーチ認識音響パラメータを反復的に誘導する手段、および前記音 響パラメータに応答して、前記音響パラメータおよび前記スピーチテンプレート パターン間の類似性を表わす値すなわち尤度コストを発生しかつ該尤度コストを 処理して前記スピーチ入力信号のスピーチ単位を決定する手段を備えるものにお ける前記音響パラメータを発生する方法において、前記スピーチ入力信号を周期 的にサンプリングし、予め選択された継続時間の被サンプル信号を処理して、前 記継続時間内にあるすべてのサンプル値を使用して前記音響パラメータを発生し 、前記継続時間は、前記フレーム繰返し速度において発生される2つの逐次のフ レーム間の継続時間よりも大きく選び、前記入力スピーチの各サンプルを少なく とも2組の音響パラメータに寄与させるごとくしたことを特徴とする音響パラメ ータ発生方法。 (7)前記継続時間がフレーム反復時間の2倍であり、各サンプルが2組の音響 パラメータに寄与する請求の範囲第6項記載の音響パラメータ発生方法。 ゛(8)スピーチ単位が各々一連のテンプレートパターンにより特徴づけられる スピーチ認識装置であって、スピーチ入力信号を処理して、フレーム繰返し速度 で一連のスピーチ認識音響パラメータを反復的に誘導する手段、および該音響パ ラメータに応答して、前記音響パラメータおよび前記スピーチテンプレートパタ ーン間の類似性を表わす値すなわち尤度コストを発生しかつ該尤度コストを処理 して前記スピーチ入力信号のスピーチ単位を決定するための手段を備えるものに おける前記音響パラメータを発生する方法において、窓処理されたディジタル入 力信号の離散フーリエ変換を行ない、該フーリエ変換が、該変換の所望の基本周 波数の周期の1/4の周期を各々有する4つの折重ねベクトルを形成し、該折重 ねベクトルを使って離散フーリエ変換を遂行し、それにより前記変換の計算の必 要性を減じ、そして前記離散フーリエ変換の結果から音響パラメータを発生する ことを含み、そしてさらに前記音響パラメータを処理して、前記スピーチ入力信 号のスピーチ単位を識別するスピーチ認識の決定を行なうことを特徴とする音響 パラメータ発生方法。 (9) スピーチ単位が各々一連のテンプレートパター7により特徴づけられる スピーチ認識装置であって、スピーチ入力信号を処理して、フレーム繰返し速度 で複数のスピーチ認識音響パラメータを反復的に誘導する手段、および該音響パ ラメータに応答して、該音響パラメータおよび前記スピーチテンプレートパター ン間の類似を表わす値すなわち尤度コストを発生しかつ該尤度コストを処理して 前記スピーチ入力信号のスピーチ単位を決定するための手段を備えるものにおけ る前記音響パラメータを5 発生する方法において、前記スピーチ入力信号をディジタル的にサンプルし、該 被サンプル信号差を取り出し、窓処理継続時間長の前記差信号にKaiser− sinc関数を表わす定数のベクトルを乗算することにより前記窓処理継続時間 長の前記差信号を平滑し、この平滑化された窓処理継続時間長の信号を処理して 、前記スピーチ入力信号のスピーチ装置を識別するスピーチ認識の決定を行なう ことを含むことを特徴とする音響パラメータ発生方法。 Ql スピーチ単位が各々一連のテンプレートパターンにより特徴づけられるス ピーチ認識装置であって、スピーチ入力信号を処理して、フレーム繰返し速度に て複数のスピーチ認識音響パラメータを反復的に誘導する手段、および該音響パ ラメータに応答して、該音響パラメータおよび前記スピーチテンプレートパター ン間°の類似性を表わす値すなわち尤度コストを発生しかつ該尤度コストを処理 して前記スピーチ入力信号のスピーチ単位を決定する手段を備えるものにおける 前記音響パラメータを発生する方法において、前記スピーチ入力信号をディジタ ル的にサンプルし、該被サンプル信号を処理して、選択された複数の周波数にて 、窓処理継続時間長の前記信号の、パラメータのベクトルに対応する離散的スペ クトルを反復的に決定し、前記ベクトルについて主成分変換を遂行して、前記成 分の一定のクラス内分散を維持しながちアクロスクラス分散を最適化することに より前記ベークトル内におけるパラメータの数を減じ、前記パラメータの数より 小さい数の前記成分の数を前記音響パラメータとして選択し、この選択された成 分を処理して、前記スピーチ入力信号のスピーチユニットを識別するスピーチ認 識の決定を行なうことを特徴とする音響パラメータ発生方法。 01)スピーチ単位がそれぞれ一連のテンプレートパターンにより特徴づけられ るスピーチ認識装置であって、スピーチ入力信号を処理して、フレーム反復速度 にて複数のスピーチ認識音響パラメータを反復的に誘導する手段、および前記音 響パラメータに応答して、前記音響パラメータおよび前記スピーチテンプレート パターン間の類似性を表わす値すなわち尤度コストを発生しかつ該尤度コストを 処理して前記スピーチ入力信号のスピーチ単位を決定する手段を備えるものにお いて前記スピーチ入力信号および前記テンプレートパターンの対応性を認識する ためのテンプレート整合およびコスト処理方法において、許容し得る複数連のス ピーチ単位を、複数の接続アークにより接続される複数の文法節点を有し該各ア ークがそれと関連して少なくとも1つのテンプレートパターンを有する文法線図 として特徴づけ、関連する累積的スコアが不活動化スレッショルドを越すとき前 記線図のテンプレートパターンを不活動化しく不活動化されなかったテンプレー トパターンを活動テンプレートと称する)、前記音響ハラメータと前記活動テン プレートパターンのいずれかとの類似性を表わす尤度コストを発生し、各フレー ム時に前記節点と関連する累積的スコアを決定し、スピーチ認識の決定を行ない 、前記累積的スコアから前記スピーチ入力信号のスピーチ単位を決定することを 特徴とするテンプレート整合およびコスト処理方法。 0り 前記決定の段階により必要とされるものとして前記尤度コストのみを発生 することを含む請求の験囲第11項記載のテンプレート整合およびコスト処理方 法。 峙 スピーチ単位が各々一連のテンプレートパターンにより特徴づけられるスピ ーチ認識装置であって、スピーチ入力信号を処理して、フレーム繰返し速度にて 複数のスピーチ認識音響パラメータを反復的に誘導する手段、および前記音響パ ラメータに応答して、該音響パラメータおよび前記スピーチテンプレートパター ン間の類似性を表わす値すなわち尤度コストを発生しかつ該コストを処理して前 記スピーチ信号のスピーチ単位を決定する手段を含むものにおいて前記スピーチ 入力信号および前記テンプレートパターンの対応性を認識するためのテンプレー ト整合およびコスト処理方法において、許容し得る複数連のスピーチ単位を、始 節点、終節点および複数の中間節点を有し全節点が文法アークにより少なくとも 1つの他の節点に接続された文法線図として特徴づけ、前記各節点を高い累積的 尤度コストでイニシャライズし、前記音響パラメータおよび前記テンプレートパ ターンの選択されたものの類似性を表わす尤度コストを発生し、各フレーム時に 、前記各節点と、該節点に達する際の累58 特表昭GO−50118(1(3 )積されたテンプレート尤度スコアに対応する累積的スコアとを関連づけ、終節 点と関連する前記累積的スコアが他の節点と関連する累積的スコアより良いとき 認識の決定を行なうことな%斂とするテンプレート整合およびコスト処理方法。 (4スピーチ単位が各々一連のテンプレートパターンにより特徴づけられるスピ ーチ認識装置であって、スピーチ入力信号を、フレーム繰返し速度にて複数のス ピーチ確識音響パラメータを反復的に誘導する手段、および該音響パラメータに 応答して、該音響パラ゛メータと前記スピーチテンプレートパターン間の類似性 を表わす値すなわち尤度コストを発生しかつ該尤度コストを処理して前記スピー チ入力信号のスピーチ単位を決定するための手段を備えるものにおいて前記スピ ーチ入力信号および前記テンプレートパターンの対応性を認識するためのテンプ レート整合およびコスト処理方法において、許容し得る複数連のスピーチ単位を 、始節点、終節点および複数の中間節点を有し各節点がアークにより少なくとも 1つの他の節点に接続された文法線図として%徴づけ、前記各節点を高い累積的 尤度コストでイニシャライズし、前記音響パラメータおよび前記テンプレートパ ターンの選択されたものの類似性を表わす尤度コストを発生し、各フレーム時に 、前記各節点と、該節点に到達する際の累積されたテンプレート尤度スコアに対 応する累積的スコアとを関連づけ、トレースパックメモリの必要性tt鍛小9 にするため部分的トレースバックを行ない、終節点と関連する前記累積的スコア が決定基準を満足するとき認識の決定を行なうことを特徴とするテンプレート整 合およびコスト処理方法。 a9 スピーチ単位が各々一連のテンプレートパターンにより特徴づけられるス ピーチ認識装置であって、スピーチ入力信号を処理して、フレーム繰返し速度に て複数のスピーチ認識音響パラメータを反復的に誘導するための手段、および該 音響パラメータに応答して、前記音響パラメータおよび前記スピーチテンプレー トパターン間の類似性を表わす値すなわち尤度コストを発生しかつ該尤度コスト を処理して前記スピーチ入力信号のスピーチ単位を決定する手段を有するものに おいて前記スピーチ入力信号および前記テングレートパターンの対応性を認識す るためのテンプレート整合およびコスト処理方法において、許容可能な複数連の スピーチ単位を、始節点、終節点および複数の中間節点を有し各節点がアークに より少なくとも1つの他の節点に接続される文法線図として特徴づけ、前記各節 点を高い累積的尤度コスト、でイニシャライズし、前記音響パラメータおよび前 記テンプレートの選択されたものの類似性を表わす尤度コストを発生し、各フレ ーム時に、前記各節点と、該節点に達するl際の累積されたテンプレート尤度ス コアに対応する累積的スコアとを関連づけ、終節点と関連する前記累積的コスト が決定基準を満足するとき認識の決定を行なうことを含み、前記アークがヌルア ークとワードアークを含み、該ヌルアークが関連する0の移動時間を有し、前記 ワードアークが関連する0でない移動時間を有するこトラ′特徴とするテンプレ ート整合およびコスト処理方法。 (1G スピーチ単位が各々一連のテンプレートパターンにより特徴づけられる スピーチ認識装置であって、スピーチ入力信号を処理して、フレーム繰返し速度 にて置数のスピーチ認識音響パラメータを反復的に誘導する手段、および前記音 響パラメータに応答して、前記音!#メラメータおよび前記スピーチテンプレー トパターン間〕類似性を表わす値すなわち尤度コストを発生しかつ該コス)を処 理して前記スピーチ入力信号のスピーチ単位を決定する手段を有するものKおけ る前記テンプレートを発生する方法において、テングレートが発生されるべきサ イレントによって囲まれた入力スピーチ単位の始点および終点を見出し、前記ス ピーチ単位を表わすテングレートパターンを既知の手順にしたがって発生するこ とを含み、前記検出の段階が、サイレントをテンプレートパターンとしてモデル 化し、各フレームに対して、前記サイレントテンプレートパターン尤度を固定基 準スレッショシド値と比較し、前記テンプレートパターンに対するスコアがスレ ツショk)ド値と交叉するとき前記スピーチ単位の始点を宣言することを@倣と するテンプレートパターン発生方法。 a?)サイレントテンプレートに対するスコアが第2スレツショルド値と交叉す るに十分向上したとき前記スピーチ単位の終点を宣言することを含む請求の範囲 第16項記載のテンプレートパターン発生方法。 (Is 前記第2スレツシヨルド値カ前記第1スレツシヨルド値より小さい請求 の範囲第17項記載のテンプレートパターン発生方法。 Q9 スピーチ単位が各々一連のテンプレートパターンにより特徴づけられるス ピーチ認識装置であって、スピーチ入力信号を処理して、フレーム繰返し速度に て複数のスピーチ認識音響パラメータを反復的に誘導する手段、および、該音響 パラメータに応答して、該音響パラメータおよび前記スピーチテンプレートパタ ーン間の類似性を表わす数値すなわち尤度コストを発生しかつ該尤度コ決定する ものにおいて前記スピーチ入力信号および前記テンプレートパターンの対応性を 認識するためのテンプレート整合およびコスト処理方法において、許容し得る複 数連のスピーチ単位を、複数の接続アークにより接続された複数の文法節点を有 し該各アークが関連する少なくとも1つのテンプレートパターンを有する文法線 図として特徴づけ、前記アーク上の先行のテンプレートパターンと関連する累積 的スコアが活動スレッショルドを越すとき前記線図のテンプレートパターンを活 動化しく活動化されなかったテンプレートパターンを不活動テンプレートと称す る)、前記音響パラメータおよび前記活動テンプレートパターンのいずれかの類 似性を表わす尤度コストを発生し、各フレーム時に前記節点と関連する累積的ス コアを決定し、スピーチ認識の決定を行ない、前記累積的スコアから前記スピー チ入力信号のスピーチ単位を決定することを特徴とするテンプレート整合および コスト処理方法。 (2)スピーチ単位が各々一連のテンプレートパターンにより特徴づけられるス ピーチ認識装置であって、スピーチ入力信号を処理して、フレーム繰返し速度で 複数のスピーチ認識音響パラメータを処理する手段、および該音響パラメータに 応答して、該音響パラメータおよび前記スピーチテンプレートパターン間の類似 性を表わす値すなわち尤度コストを発生しかつ該尤度コストを処理して前記スピ ーチ入力信号のスピーチ単位を決定する手段を有するものにおけるスピーチ入力 における非語粟の発生に対する応答を抑止する方法において、フレーム繰返し速 度にて前記スピーチ入力を表わす音響パラメータを反復的に発生し、各フレーム 時に、前記音響パラメータおよびサイレントを表わすパターンを含む前記テンプ レートパターンに対して尤度コストを発生し、活動テンプレートパターンに対す る前記コストが予定されたスレッショルド値より良いとき通常のスピーチ認識プ ロセスを開始し、サイレントを含む前記テンプレートパターンの前記コストが予 定されたスレッショルド値より悪いとき非スピーチ認識プロセスに復帰すること を特徴とする応答抑止方法。 2n 第2のスレッショルド値を設定し、前記サイレントテンプレートの尤度コ ストが該第2スレツシヨルドより良くなるまで前記非スピーチ認識プロセスに残 留する請求の範囲第20項記載の応答抑止方法。 @ 2つのサイレントテンプレートパターンが採用され、前記復帰段階中は第1 の短いサイレントパターンを採用し、前記残留段階中は第2の長いサイレントパ ターンを採用する請求の範囲第21項記載の応答抑止方法。 (ハ)前記節点間において前記ヌルアークを接続し、前記ヌルアークに沿って進 行することによりワードアークを側路し得る変幻性のある文法構造を提供するこ とを含む請求の範囲第15項記載のテンプレート整合およびコスト処理方法。 (財)スピーチ単位が各々一連のテンプレートパターンにより特徴づけられるス ピーチ認識装置であって、スピーチ入力信号を処理して、フレーム繰返し速度で 複数のスピーチ認識音響パラメータを反復的に誘導する手段および該音響パラメ ータに応答して、該音響パラメータおよび前記スピーチテンプレートパターン間 の類似性を表わす値すなわち尤度コストを発生しかつ該尤度コストを処理して前 記スピーチ入力信号のスピーチ単位を決定するための手段を有するものにおいて 前記スピーチ入力信号および前記テンプレートパターンの対応性を認識するため のテンプレート整合およびコスト処理方法において、許容し得る複数連のスピー チ単位を、始節点、終節点および複数の中間節点を有し各節点がアークにより少 なくとも1つの他の節点に接続された文法線図として特徴づけ、前記文法線図の ソース表示を前記応答手段の可変メモリに記憶し、該メモリデータな第2文法線 図の表示と交換し、該第2文法線図に基づいてスピーチ認識の決定を行ない、そ れにより前記文法特性表示が交換可能なソフトウェアとなり編集できることを% 徴とするテンプレート整合およびコスト処理方法。 (ハ)スピーチ単位が各々一連のテンプレートパターンにより特徴づけられるス ピーチ認識装置であって、スピーチ入力信号を処理して、フレーム繰返し速度に て複数のスピーチ認識音響パラメータを処理するための手段、および該音響パラ メータに応答して、該音響パラメータおよび前記スピーチテンプレートパターン 間の類似性を表わす値すなわち尤度コストを発生しかつ該尤度コストを処理して 前記スピーチ入力信号のスピーチ単位を決定するだめの手段を有するものにおけ る前記テンプレートパラメータを発生する方法において、始節点、終節点および 複数の中間節点を有し各節点がアークにより少なくとも1つの他の節点に接続さ れる文法線図として発声を特徴づけ、ダイナミックプログラミングおよび前記文 法線図を使って前記テンプレートパターンを発生することを特徴とするテンプレ ートパターン発生方法。 、1
JP50164183A 1983-03-28 1983-03-28 スピ−チ認識方法および装置 Pending JPS60501180A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US1983/000464 WO1984003983A1 (en) 1983-03-28 1983-03-28 Speech recognition methods and apparatus

Publications (1)

Publication Number Publication Date
JPS60501180A true JPS60501180A (ja) 1985-07-25

Family

ID=22174950

Family Applications (1)

Application Number Title Priority Date Filing Date
JP50164183A Pending JPS60501180A (ja) 1983-03-28 1983-03-28 スピ−チ認識方法および装置

Country Status (4)

Country Link
EP (1) EP0139642B1 (ja)
JP (1) JPS60501180A (ja)
DE (1) DE3380576D1 (ja)
WO (1) WO1984003983A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8517918D0 (en) * 1985-07-16 1985-08-21 British Telecomm Recognition system
US4817176A (en) * 1986-02-14 1989-03-28 William F. McWhortor Method and apparatus for pattern recognition
EP0242743B1 (en) * 1986-04-25 1993-08-04 Texas Instruments Incorporated Speech recognition system
WO1990008439A2 (en) * 1989-01-05 1990-07-26 Origin Technology, Inc. A speech processing apparatus and method therefor

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4156868A (en) * 1977-05-05 1979-05-29 Bell Telephone Laboratories, Incorporated Syntactic word recognizer
US4277644A (en) * 1979-07-16 1981-07-07 Bell Telephone Laboratories, Incorporated Syntactic continuous speech recognizer
JPS5629292A (en) * 1979-08-17 1981-03-24 Nippon Electric Co Continuous voice identifier
JPS5672499A (en) * 1979-11-19 1981-06-16 Hitachi Ltd Pretreatment for voice identifier
US4349700A (en) * 1980-04-08 1982-09-14 Bell Telephone Laboratories, Incorporated Continuous speech recognition system
US4384273A (en) * 1981-03-20 1983-05-17 Bell Telephone Laboratories, Incorporated Time warp signal recognition processor for matching signal patterns
US4481593A (en) * 1981-10-05 1984-11-06 Exxon Corporation Continuous speech recognition
US4567606A (en) * 1982-11-03 1986-01-28 International Telephone And Telegraph Corporation Data processing apparatus and method for use in speech recognition

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
IEEE TRANSACTIONS ON ACOUSTICS,SPEECH AND SIGNAL PROSESSING=1976 *

Also Published As

Publication number Publication date
DE3380576D1 (en) 1989-10-19
WO1984003983A1 (en) 1984-10-11
EP0139642A4 (en) 1985-11-07
EP0139642B1 (en) 1989-09-13
EP0139642A1 (en) 1985-05-08

Similar Documents

Publication Publication Date Title
US4718093A (en) Speech recognition method including biased principal components
US4713777A (en) Speech recognition method having noise immunity
US4713778A (en) Speech recognition method
US4718092A (en) Speech recognition activation and deactivation method
JP2692581B2 (ja) 音響カテゴリ平均値計算装置及び適応化装置
US4718088A (en) Speech recognition training method
WO2019214047A1 (zh) 建立声纹模型的方法、装置、计算机设备和存储介质
JPH0816187A (ja) 音声分析における音声認識方法
JPS58102299A (ja) 部分単位音声パタン発生装置
JP2001517325A (ja) 認識システム
JP2002156993A (ja) 複数の学習話者を表現する固有空間の特定方法
Dalmiya et al. An efficient method for Tamil speech recognition using MFCC and DTW for mobile applications
JPH0540497A (ja) 話者適応音声認識装置
US20040006469A1 (en) Apparatus and method for updating lexicon
JP3311460B2 (ja) 音声認識装置
JPS5852696A (ja) 音声認識装置
JPS60501180A (ja) スピ−チ認識方法および装置
JPH08248994A (ja) 声質変換音声合成装置
WO2021033629A1 (ja) 音響モデル学習装置、音声合成装置、方法およびプログラム
JP3628245B2 (ja) 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体
JP2020013008A (ja) 音声処理装置、音声処理プログラムおよび音声処理方法
JPH04296799A (ja) 音声認識装置
JP2980382B2 (ja) 話者適応音声認識方法および装置
JP2734828B2 (ja) 確率演算装置及び確率演算方法
JP3841342B2 (ja) 音声認識装置および音声認識プログラム