JPS58134698A - 音声認識方法および装置 - Google Patents

音声認識方法および装置

Info

Publication number
JPS58134698A
JPS58134698A JP57174093A JP17409382A JPS58134698A JP S58134698 A JPS58134698 A JP S58134698A JP 57174093 A JP57174093 A JP 57174093A JP 17409382 A JP17409382 A JP 17409382A JP S58134698 A JPS58134698 A JP S58134698A
Authority
JP
Japan
Prior art keywords
target pattern
keyword
pattern
frame
dwell time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP57174093A
Other languages
English (en)
Inventor
ステイ−ブン・ロイド・モシエル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Exxon Mobil Corp
Original Assignee
Exxon Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Exxon Corp filed Critical Exxon Corp
Publication of JPS58134698A publication Critical patent/JPS58134698A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 本発明は音声認識方法および装置に関し、特定すると、
連続音声信号中の1つまたはそれ以上のキーワードを実
時間で認識する方法および装置に関する。
適当に処理された未知の隔絶された可聴(オーディオ)
信号を1つまたは複数の子め用意された既知のキーワー
ド信号と比較することにより隔絶された発声を認識する
種々の音声認識システムが従来より提案されてきた。本
明細書において[キーワード、1なる用語は、結合され
た一部の音素および音響(サウンド)を意味するのに使
用され、例えば、音節、ワード(語)、句等の一部であ
る。
多くのシステムはその成功度が限定されたものであった
が、特に1つのシステムは、隔絶されたキーワードを認
識するのに商業上利用されて成功を納めた。このシステ
ムは、1977年7月26日付で特許された米国特許第
4.0”38,503号に記載された方法に従ってほぼ
動作し、未知の可聴信号データの境界が認識システムに
より測定されるバックグラウンドノイズまたは無音状態
のいずれかであることを条件として、限定された範囲の
キーワードの1つを認識する方法を提供するもので、こ
の方法は好結果をもたらした。このシステムは未知の可
聴信号が生じる期間が十分に限定されており、かつ単一
のキーワードの発声しか含まないという推定に依存する
キーワード境界が前に知られていない、またはマークさ
れていない連続する会話音声のような連続する可聴信号
においては、到来可聴データを区分するために、すなわ
ち、音素、音節、ワード、文章等の言語単位の境界をキ
ーワード認識工程の開始に先立って決定するために、種
々の方法が考案された。しかしながら、これらの従来の
連続音声システムは、満足できる区分方法が見出されな
いこともあって、その成功は限定された。さらに、他の
かなりの問題ゆt存在する。例えば、−貫的には、限定
されたボ謔)、ヤブラリイ(語粟)シか低誤報率で認識
できない゛こと、認識の精度が異なる話者の音声(ボイ
ス)特性の差に非常に敏感であること、システムが例え
ば普通の電話通信装置で伝送される可聴信号に普通生じ
るような分析されつつある可聴信号の歪に非常に敏感で
あることなどである。
米国特許第4.227.176号、第4,241,32
9号および第4,227,177号に記載された連続音
声認識方法は、連続音声中のキーワードを実時間におい
て首尾よく認識する商業的に容認できる有効な手法につ
いてそれぞれ記述している。これらの特許に記載される
一般的方法は、現在商用に供せられており、実験的にも
また実用試験においても、話者不依存の状況で高忠実性
と低膜率を事実上提供することが分る。しかしながら、
現今の□技術の最先端にあるこれらの技術およびこれら
技術が開発された概念でさえも、誤報率および話者不依
存性能の両面において欠点を有する。
それ故、本発明の主な目的は連続するマークされてない
可聴信号のキーワードを認識するのに改良された有効性
を有する音声認識方法および装置を提供することである
。本発明の他の目的は未知の可聴入力信号データの位相
および振巾歪みに比較的不感知な、未知の可聴入力信号
の有節発音(分節)率の変動に比較的不感知な、異なる
話者、従って異なる音声特性に等しく良好に応答する、
信頼性がありかつ改善されたより低い誤報率を有する、
そして実時間で動作する方法および装置を提供すること
である。
本発明は可聴信号中の少?j <と□も、つの予め定め
られたキーヴードを認識する音声分析システムに関する
。各キーワードは少なくとも1つのターゲット・パター
ンを有するパターン・テンプレートによって特徴付けら
れており、各ターゲット・パターンは少なくとも1つの
短期間パワースペクトルを表わす。各ターゲット・パタ
ーンはそれと関連した最大ドエル時間期間および最ホト
エル時間期間を有する。
本発明の方法は繰返しフレーム速度で可聴入力信号から
この可聴信号を表わす一連のフレームパターンを形成す
る段階を特徴としている。各フレームパターンはフレー
ム時間と関連している。その後、各フレームパターンに
対してターゲット・パターンの選択されたものについて
のフレームの類似性の数値測定値が発生される。好まし
くは、各ターゲット・パターンについての各フレームパ
ターンの類似性を表わす数値測定値が発生される各フレ
ーム時間において、各キーワードに対してキーワードが
そのときに存在するフレーム時間で終了する見込みを表
わす数値ワードスコアが上記数値測定値を利用して蓄積
される。この蓄積段階は、現フレームパターンとキーワ
ードの最後で生じるターゲット・パターンの類似性の数
値測定値で始まる、連続する一連の繰返し形成されるフ
レームパターンのそれぞれに対する蓄積数値測定値を含
む。その後、このように決定されたキーワードに対する
数値が予め定められた認識レベルを越えるときにはいつ
でも、少矢くとも予備のキーワード認識決定が発生され
る。、;。
他の面においては、本発明、は第1の繰返しフレーム速
度で可聴信号からこの可聴信号を表わす、それぞれがフ
レーム時間と関連している一連のフレームパターンを形
成する手段を有する音声認識装置に関する。さらに、各
フレームパターンに対して、ターゲット・パターンの選
択されたものについてのフレームパターンのそれぞれの
類似性の数値測定値を発生する手段が設けられている。
好ましくは、上記方法と同様に、数値測定値は各ターゲ
ット・パターンに関する各フレームパターンに対して発
生される。
蓄積素子は、各フレーム時間および各キーワードに対し
て、キーワードがそのときに存在するフレーム時間で終
了する見込みを表わす数値ワードスコアを合計する。こ
の合計は各フレーム時間および各キーワードに対して決
定される。この蓄積素子は、現フレームパターンとキー
ワードの最後のターゲット・、パターンの類似性の数値
測定値で始まる、連続す1,5る一連の繰返し形成され
るフレームパターンのそれぞれに対する数値測定値を、
各キーワードに対・:::貝て、蓄積するための装置を
含む。
この装置はキーワードに対して蓄積された数値が予め定
められた基準を越えたときにはいつでも少なくとも予備
のキーワード認識信号を発生する手段をさらに特徴とし
ている。
本発明の他の目的、特徴、ならびに利点は添付図面を参
照しての本発明の好ましい実施例についての以下の説明
から明らかとなろう。
なお、図面中、対応する素子には対応する参照符号が付
されている。
本明細書に記載される特定の好ましい実施例の1つにお
いては、音声認識は、到来可聴データ信号、一般的には
音声(スピーチ)、の特定のアナログおよびディジタル
処理を行なう特別に構成された電子装置と、特定の他の
データ変換段階および数値評価を行なうために、本発明
に従ってプログラムされた汎用ディジタル・コンピュー
タを含むシステムにより遂行される。本システムのハー
ドウェア部分とソフトウェア部分の間のタスクの分割は
、音声認識を安価な価格で実時間で遂行し得るシステム
を得るためになされたものである。
しかしながら、この特のシステムのハードウェアで遂行
されつつあるタスクのある部分はソフトウェアで十分遂
行され得るであろうし、また本具体例のソフトウェアプ
ログラミングで遂行されつつあるタスクのある部分は、
他の具体例においては特定目的の回路で遂行し得るであ
ろう。この後者に関連しては、利用できる場合に、装置
のハードウェアおよびソフトウェアの実施形態について
説明する。
前記したように、本発明の一側面に依れば、信号が例え
ば電話線により歪を生じた場合でも連続音声信号中のキ
ーワードを認識する装置が提供される。従って、特に第
1図において、1oで指示される音声人力信号は、任意
の距離および任意数の交換機を包含する電話線を介して
炭素送話機および受話機により発生される音声信号と考
えることができる。それゆえ、本発明の代表例は、未知
のソース(話者に依存しない系)から供給され、電話シ
ステムを介して受信される可聴データのキーワードを認
識することである。他方、入力信号は、無線通信リンク
例えば商業放送局、私設通信リンクから取り出される任
意の可聴データ信号、例えば音声入力信号である。
以上の説明から明らかなように、本発明の方法および装
置は、一連の音響、音素、またはその他の認識可能な符
号を含む音声信号の認識と関係する。本明細書において
は、「キーワード」、「一連のターゲットパターン」、
[テンプレートパターン」または[キーワード・テンプ
レート」のいずれかについて言及されるが、この4つの
用語は、一般的なものであり、等価なものであると考え
られる。これは、本方法および装置が検出できる認識可
能な一連の可聴音響またはその代替物を表現する便利な
方法である。これらの用語は、単一の音素、音節、また
は音響から一連のワード(文法的意味における)ならび
に単一のワードに至るいずれをも包含するように広くか
つ一般的に解釈されるべきである。
アナログ−ディジタル(4/D→コンバータ13は、線
10上の到来アナログ可聴信号データを受信して、その
データの信号振幅をディジタル形式に変換する。例示の
〜勺コンバータは、人力信号データを12ビツトの2進
表示に変換するが、その変換は、8000回/秒の割合
で起こる。他の具体例においては、他のサンプリング速
度が採用できる。例えば、高品質信号が利用できる場合
は、16 Kl’(、の速度を使用できる。ルΦ変換機
13は、その出力15を介して自己相関器17に供給す
る。
自己相関器17はディジタル入力信号を処理して、1秒
間に100回短期間自己相関関数を発生し、図示のよう
に、線19を介してその出力を供給する。各自己相関関
数は、32の値またはチャンネルを有し、各位は30ビ
ツトの解に計算される。
自己相関器は、第2図と関連して追ってより詳細に説明
する。
線19上の自己相関関数は、フーリエ変換装置21によ
りフーリエ変換され、線23を介して対応する短期間の
窓処理されたパワースペクトルを得る。スペクトルは、
自己相関関数と同じ繰返し数で、すなわち1’16’0
回/秒の割合で発生さ糺、1( そして各短期間パワースペクトルは、各16ビツトの解
を有する31の数値期間を有する。理解されるように、
スペクトル31の期間の各々は、ある周波数バンド内の
単一パークを表わす。フーリエ変換装置はまた、不要な
隣接バンド・レスポンスを減するためハミングまたは類
似の窓(ウィンド)関数を含むのがよい。  − 例示の第1の実施例において、フーリエ変換ならびに後
続の処理段階は、本方法にしたがって反復的に必要とさ
れる演算をスピード化するための周辺アレイプロセッサ
を利用して、適当にプログラムされた汎用ディジタルコ
ンピュータの制御下で遂行される。採用される特定のコ
ンピュータは、マサチューセッツ所在のディジタル・エ
クイツプメント・コーポレーションにより製造されたF
DP−11型である。採用される特定のプレイプロセッ
サは、本出願の譲受人に譲渡された米国特許第4゜22
8、498号に記載されている。第3図と関連して後述
されるプログラムは、これらの利用可能なデジタル処理
ユニットの能力および特性にほぼ基づいて設定される。
短期間室処理パワースペクトルは、25で指示されるよ
うに周波数レスポンスについて等化される。しかして、
この等化は、追って詳細に示されるように各周波数バン
ドまたはチャンネル内に起こるピーク振幅の関数として
遂行される。線26上の周波数レスポンスを等化された
スペクトルは5100/秒の割合で発生され、そして各
スペクトルは、16ピツトの精度で評価される31の数
値期間を有する。到来音声データの最終的評価を容易に
するため、線26上の周波数レス”ポンスを等価された
窓処理されたスペクトルは、35で指示されるように振
幅変換を受ける。これは到来スペクトルに非直線的振幅
変□換を課する。この変換については追って詳細に記述
するが、この点においては、未知の到来可聴信号が基準
語集のキーワードと整合し得る精度を改善するというこ
とを言及しておこう。例示の具体例において、この変換
は、スペクトルを基準詰業のキーワードを表あすターゲ
ット・パターンと比較する前のある時点において周波数
レスポンスを等化されたが窓処理されたスペクトルのす
べてについて遂行される。
線38上の振幅変換され等化された短期間スベクトルは
、ついで、40においてキーワード・ターゲット・パタ
ーンと比較される。42で指示されるキーワード・ター
ゲット・パターンは、変換、等化スペクトルが比較され
得る統計態様の基準語案のキーワードを表わす。このよ
うにして、比較の厳密さにしたがって候補ワードが選択
され、例示の具体例においては、この選択工程は、全体
として不適当なパターンシーケンスを排除し、キーワー
ドの取逃しの可能性を最小にするように設計される。認
識決定が線44を介して与えられる。
第1A図を参照すると、本発明の音声認識システムはコ
ントローラ45を採用しているが、これは、例えば、F
DP−11のような汎用ディジタルコンピュータあるい
はこのシステムに対して特別に組込まれたハードウェア
・コントローラとし得る。
例示の具体例において、コントローラ45は、プリプロ
セッサ46から予処理された可聴データを両1tへ 受は取る。プリプロセッサについては、第2図と関連し
て詳細に説明する。ブリプロセッサ46は、線47を介
して可聴人力アナログ信号を受信し、インターフェース
線48を介して制御プリプロセッサに処理されたデータ
を供給する。
一般に、制御プロセッサの動作速度は、汎用プロセッサ
であると、到来データを実時間で処理するに十分速くな
い。この結果、要素45の処理速度を有効に増すために
、種々の特別目的のハードウェアを採用するのが有利で
ある。特に、本発明の譲受人に譲渡された米国特許第4
,228,498号に記載されるようなベクトル処理装
置48aは、パイプライン効果を利用することにより相
当増大されたプレイ処理能力を提供する。加えて、第5
.6.7および8図と関連して詳述するように、尤度関
数プロセッサ48bは、装置の動作速度をさらに10倍
増すためベクトルプロセッサと関連して使用できる。
本発明の好ま、しい具体例においては制御プロセッサ4
5はテ叩ジタルコンピ一一夕であるが、第9および10
図と関連して説明される他の特定の具体例においては、
処理能力の相当の部分が逐次プロセッサ49において制
御プロセッサの外部で実施される。このプロセッサの構
造については、第9および10図と関連して追って詳細
に説明する。このように、ここに例示される音声認識を
実施するための装置は、その速度、およびハードウェア
、ソフトウェアまたはハードウェアおよびソフトウェア
の有利な組合せで実施できる点において大なる変幻性を
有するものである。
次にプリプロセッサについて説明する。
第2図に例示される装置において、固有の平均化の作用
をもつ自己相関機関は線10を介して供給される到来ア
ナログ可聴データ、一般的には音声信号に作用するアナ
ログ−ディジタルコンバータ13により発生されるディ
ジタルデータ列に対して遂行される。コンバータ13は
、線15上にディジタル人力信号を発生する。ディジタ
ル処理機能ならびにアナログ−ディジタル変換は、クロ
ック発振器51の制御下で調時される。クロック発振器
は、256,000パルス/秒の基本タイミング信号を
発生し、そしてこの信号は、周波数分割器52に供給さ
れて、8,000パルス/秒ノ第2のタイミング信号を
得る。低速タイミング信号は、アナログ−ディジタル変
換器13ならびにラッチレジスタ53を制御する。しか
して、このラッチレジスタは、次の変換が完了するまで
最後の変換の12ビツトの結果を保持するものである。
自己相関積は、レジスタ53に含まれる数に32ワード
シフトレジスタ58の出力を乗算するディジタルマルチ
プライヤ56により発生される。
レジスタ58は循環モード動作し、高速クロック周波数
により、駆動されるから、シフトレジスタデータの1循
環は、各アナログ−ディジタル変換ごとに遂行される。
シフトレジスタ58に対する入力は、−回の循環サイク
ル中に一度しジ又り53から供給される。ディジタルマ
ルチプレクサ56に対する一方の人力は、ラッチレジス
タ53から直接供給され、他方の入力は、シフトレジス
タの現在出力からマルチプレクサ59を介して供給され
る(後述する1つの例外があるが)。乗算は、高速クロ
ック周波数で遂行される。
このようにして、A/1)変換から得られる各位は、先
行の31の変換値の各々と乗算される。技術に精通した
ものには明らかであるように、それにより発生される信
号は、人力信号を、それを32の異なる時間増分だけ遅
延した信号と乗算することと等価である(1つは遅延O
である)。0遅延相関を得るため、すなわち信号のべき
を生ずるため、マルチプレクサ59は、シフトレジスタ
に各折しい値が導入されつつある時点に、ラッチレジス
タ53の現在値をそれ自体と乗算する。このタイミング
機能は、60で指示される。
これも技術に精通したものには明らかなように、1回の
変換とその31の先行データから得られる積は、適当な
サンプリング間隔についてのエネルギ分布すなわちスペ
クトルを公正に表わさない。
したがって、第2図の装置は、これらの複数組の積の平
均化を行な5゜ 平均化を行なう累積工程は、゛1加算器65と接続され
て1組の32の累積器を形成する32ワードシフトレジ
スタ63により提供される。すなわち各ワードは、ディ
ジタルマルチプレクサからの対応する増分に加算された
後、再循環され得る。この循環ループは、低周波りpツ
ク信号により駆動されるN分割器69により制御される
ゲート67を通る。分割器69は、シフトレジスタ63
が読み出されるまでに累積されしたがって平均化される
騎間的自己相関関数の数を決定するファクタにより、低
周波クロックを分割する。
例示の具体例においては、読み出されるまでに80のサ
ンプルが累積される。換言すると、N分割器69に対す
るNは80に等しい。80の変換サンプルが相関づけら
れ、累積された後、分割器69は、線72を介してコン
ピュータ割込み回路71をトリガする。この時点に、シ
フトレジスタ63の内容は、適当なインターフェース回
路73を介してコンピュータメモリに逐次読み込まれる
レジスタ内の32の逐次のワードは、インター7エース
73を介し・′:てコンピータに項番に提示される。技
術に精通したものには明らかなように、周辺ユニット、
すなわち自己相関器プリプロセッサからコンピュータへ
のこのデータ転送は、普通、直接メモリアクセス法によ
り遂行されよう。
8000の初サンプリング速度で80のサンプルが平均
化されることに基づき、毎秒100の平均化自己相関関
数が毎秒コンピュータに供給されることが分ろう。
シフトレジスタの内容がコンピュータから読み出されて
いる間、ゲート67が閉成されるから、シフトレジスタ
ーの各ワードは、0にリセットされ、累積工程の再開を
可能にする。
数式で表わすと、第2図に示される装置の動作は下記の
ごとく記述できる。
アナログ−ディジタル変換器が時間列II (t)を発
生すると仮定すると(ここにt−0*  T6 + 2
 To *−−−−l1loはサンプリング間隔(例示
の具体例において1/8000秒))、第2図の例示の
ディジタル相関回路は、始動時のあいまいさを無視する
と、次の自己相関関数を計算するものど考えることがで
きる。
ことにj=0.1,2.−−−31、t = 80 T
o 。
160 To −−、80nTo 、−m−である。こ
れらの自己相関関数は、第1図の線19上の相関出力に
対応する。
第3図を参照して説明すると、ディジタル相関図は、各
10ミリ秒句に1相関関数の割合で一連のデータブロッ
クをコンピュータに連続的に伝送するように動作する。
これは第3図に77で指示される。各データブロックは
、対応する細分時間間隔に誘導される自己相関関数を表
わす。上述のように、例示の自己相関関数は、単位秒当
り100の32ワード関数の割合でコンピュータに提供
される。この分析間隔は、以下において「フレーム」と
称される。
第1の例示の具体例において、自己相関関数データの処
理は、適当にプログラムされた専用ディジタルコンピュ
ータで遂行される。コンピュータプログラムにより提供
される機能を含むフローチャートが第3図に示されてい
る。しかしながら、段階の種々のものは、ソフトウェア
でなくてハ−ドウエア(以下に説明する)によって遂行
でき、また第2図の装置により遂行される機能のあるも
のは、第3図のフローチャートの対応する修正によりソ
フトウェアでも遂行できることを指摘してお(。
第2図のディジタル相関器は、瞬間的に発生される自己
相関関数の時間平均動作を遂行するが、コンピュータに
読み出される平均自己相関関数は、サンプルの順次の処
理および評価と干渉し合うようなある種の変則的不連続
性または不均一性を含む。したがって、データの各ブロ
ック、すなわち各自己相関関数a(j、t)は、まず時
間に関して平滑化される。これは、第3図の70−チャ
ートにおいて78で指示される。好ましい平滑法は、平
滑化自己相関出力as(J+t)が下式により与えられ
るものである。
a6 (j 、t)−0oa(j 、t)+OBa(j
 at−T)+Oga(j 、t−2T) (21□ ここにa(j 、t、)は式(1)において定義された
不平滑入力自己相関関数であり、a5(j、t)は平滑
自己相関出力であり、Jは遅延時間を表わし、tは実時
間を表わし、〒は連続的に発生される自己相関関数間の
時間間隔(フレーム)を表わし、好ましい具体例におい
ては0.01秒に等しい。重み付は関数C8+ OB 
* (Jgは、例示の具体例においては好ましくは1/
4 、 1/2 、1/4に選ばれるのがよいが、他の
値も選択されよう。例えば20Hzのカットオフ周波数
をもつガウスのインバルフレスポンスを近似する平滑化
関数をコンピュータソフトウェアで実施できよう。しか
しながら、実験によれば、式(2)に例示される実施容
易は平滑化関数で満足な結果が得られることが示された
。上述のように、平滑化関数は、遅延の各位Jについて
別々に適用される。
以下の分析は、音声信号の短期間フーリエパワースペク
トルに関する種々の操作を含むが、ハードウェアを簡単
、にしかつ処理スピードを上げるため、自己相関量′継
の周波数領域への変換は、例示の具体例においでは8ビ
ツトの算術で実施される。
3 KHz近傍のバンドパスの高域の端では、スペクト
ルパワ密度が8ビツト量における解像に不十分ナレヘル
に減する。それゆえ、システムの周波数レスポンスは、
6db/オクターブの上昇率で傾斜される。これは79
で指示される。この高周波数の強調は、その変数すなわ
ち時間遅延に関する自己相関関数の二次微分を取ること
により遂行される。
微分操作は、5次式のごとくである。
b(j、t、)=−a(J+1.t)+2a(j、t)
−a(j−1,t、)   (3)j=0に対する微分
値を求めるために、自己相関関数はOに関して対称であ
るから、 a (−j 、 t)=a (+j 、 t )である
と仮定する。
また、(32)に対するデータはないから、j=31に
おける微分値は、j=30のときの微分値と同じである
と仮定する。
第3図のフローチャートで示されるように、分析手続き
の高周波強調後の次の段階は、自己相関のピーク絶対値
を見出すことにより現在のフレーム間隔における信号パ
ワを算出することである。
パワの概算値P (t)は次のごとくとなる。
P(t)=max 1b(i 、t) l      
  (4)8ビツトスペクトル分析のための自己相関関
数を用意するため、平滑化自己相関関数はp (t)に
関してブロック標準化され(80にて)、各標準価値の
上位8ビツトがスペクトル分析ハードウェアに人力され
る。それゆえ、標準化されかつ平滑化された自己相関関
数は次のごとくなる。
c(j 、t、)=t27b(,1、t)/p(t) 
     (51ついで80で指示されるように、時間
に関して平滑化され、周波数強調され、標準化された各
自己相関関数c(j、t)に余弦フーリエ変換が適用さ
れ、31点のパワスペクトルを生成する。余弦値のマト
リックスは次式で与えられる。すなわち8(i、j)=
126g(i)(cos(2πi/8000)f(j 
)) 。
j =0.1.2.−−−−、31    (61ここ
に、8(i、j)は、時刻tにおける、f(1)七に中
心を置くバンドのスペクトルパワ密度、g (i ) 
=1/2 (1+cos 2πi/63 )は、サイド
ローブな減するための(ハミング)窓関数エンベロープ
である、および f(j)=30+1000(0,0552j+0.43
8)”10,63H2。
j  =0.  1.  2.−−−−.31    
              ())これは、主楽音ピ
ッチいわゆる「メル」曲線上に等しく離間された分析周
波数である。T3Aらかなように、これは、約3000
〜5ooO)L!の代表的通信チャンネルのバンド幅の
周波数に対する主ピッチ(メルスケール)周波数軸線間
隔に対応する。
スペクトル分析は、−31から+31までの遅れを加算
を必要とするから、自己相関が0に関して対称であると
いうことを仮定すれば、Jの正値しか必要としない。し
かしながら、遅れ00項を2度計算することを避けるた
めに、余弦マトリックスは次のように調節される。
S(0、j )=126/2=63.余jに対して  
 (8)かくして、計算されたパワスペクトルは次式に
□・’l        (91 ここで第2番目の結果は周波数f’(t)に対応する。
これも明らかなように、各スペクトル内の各点すなわち
値は、対応する周波数バンドを表わす。
このフーリエ変換は従来のコンピューターハードウェア
内で完全に遂行できるが、外部のハードウェアマルチプ
レックサまたは高速フーリエ変換(FFT )周辺装置
を利用すれば、工程はかなりスピード化し得よう。しか
しながら、この種のモジュール構造および動作は技術上
周知であるから、ここでは詳細に説明しない。ハードウ
ェア高速フーリエ変換周辺装置には、周波数平滑機能が
組み込まれるのが組み込まれるのが有利であり、この場
合、各スペクトルは、上述の好ましい(ハミング)窓重
み付は関数g (i)に従って周波数が平滑される。
これは、ハードウェアによるフーリエ変換の実施に対応
するブロック85の83で実施される。
バックグラウンドノイズが相当ある場合、バックグラウ
ンドのパワスペクトルの概算値が、この段階においてS
’(”’jj 、 t )から減算されねばならない。
ノイズを表゛鎮すために選択したフレーム(1または複
数)には、音声信号を含ませてはならない。雑音フレー
ム間隔を選択する最滓のルールは、応用にしたがって変
わるであろう。話者が例えば音声認識装置により制御さ
れる機械で相互通信に掛わり合う場合、例えば、機械が
その音声応答ユニツHCよる話しを終了した直後の間隔
に任意にフレームを選択するのが有利である。拘束がよ
り少ない場合には、過ぎ去った1ないし2秒の間の可聴
人力の最少の振幅のフレームを選択することによりノイ
ズフレームを見出すことができる。
逐次の平滑パワスペクトルが高速フーリエ変換周辺装置
85から受信されると、以下で説明されるよ5に、周辺
装置85からのスペクトル値対するピークパワスペクト
ルエンベロープ(一般に異なる)を決定し、それに応じ
て高速7−リエ変換装置の出力を変更することにより□
通信チャンネルの等化が行われる。到来する窓処理され
たパワスペクトルS’(j、t)(ここにjはスペクト
ルの複数の周波数に割り当てられる)に対応しかつ該ス
ペクトルにより変更された新たに発生された各ピーク振
幅は、各スペクトルチャンネルまたはバンドに対する高
速アタック、低速ディケイ、ピーク検出機能の結果であ
る。窓処理されたパワスペクトルは、対応するピーク振
幅スペクトルのそれぞれの期間に関して標準化される。
これは、87.89.91で指示される。
例示の具体例においては、新しい窓処理されたスペクト
ルを受は取る前に決定された「古い」ピーク振幅スペク
トルp(j、t−T)が、新たに到来したスペクトルS
’(j、t)と周波数バンドと周波数バンドとを比較す
るやり方で比較される。
ついで、新しいピークスペクトルp(j 、t、)が。
下記の規則にしたがって発生される。「古い」ピーク振
幅スペクトルの各バンドのパワ振幅は、この具体例にお
いては固定分数、例えば1023/1024と乗算され
る。これは、ピーク検出関数の低速ディケイ部分に対応
する。到来スペクトルs’(j、t)の周波数バンドJ
のパワ振幅が、崩壊ピーク振幅スペクトルの対応する周
波数バンドのパワ振幅より大きければ、その(またはそ
°れらの)周波数バンドに対する崩壊ピーク振幅積ベク
トル値は、到来する窓処理スペクトルの対応するハント
のスペクトル値と置き代えられる。これは、ピーク検出
関数の高速アタック部分に対応する。
数学的には、ピーク検出関数は次のように表現できる。
すなわち p(j 、t、)=marp(J、t−’I’)−(1
−1t) ・pct) ・S(j 、t) 。
j=0.1.、−−−−.31    (1(1ここに
Jは周波数バンドの各々に割り尚てられ、p(j 、t
)は生じたピークスペクトルであり、p(,1,1−T
)は「古い」すなわち先行のピークスペクトルであり、
8’(j、t)は新たに到来した部分的に処理されたパ
ワスペクトルであり、P(1)は時刻tにおけるパワ概
算値であり、Eはディケイパラメータである。
弐a・にしたがうと、ピークスペクトルは、より高値の
スペクトル人力の不存在の場合、1−Hの率で通常崩壊
する。普通、Eは1/1024に等しい。しかしながら
、サイレントの期間中、特に通信チャンネルまたは音声
特畔ヤ迅速な変化が予測されない場合、ピークスペクト
ルのディケイを許すことは望ましくなかろう。サイレン
トフレームを限定するためには、バックグラウンドノイ
ズフレームを選択するのに採用されたのと同じ方法が採
用される。過ぎ去った128のフレームの振幅(p(t
)の平方根)が検査され、最小値が見つけられる。現在
フレームの振幅がこの最小値の4倍より小さければ、現
在フレームはサイレントであると決定され、刀に対して
、値”/1024の代わりに値「0」が置き代えられる
ピークスペクトルが発生された後、生じたピーク振幅ス
ペクトルp(j、t)は、各周波数バンドピーク値を新
たに発生されたピークスペクトルの隣接する周波数に対
応するピーク値と平均することにより、周波数平滑化さ
れる(89)。しかして、平均値に寄与する全周波数バ
ンド幅は、フォルマント周波数間の代表的周波数間隔に
概ね等しい。音声認識の技術に精通したものKは、明ら
かなように、この間隔は、約1000[(2程度である
。この特定の方法による平均化により、スペクトル内の
有用情報□、すなわちフォルマント共鳴を表わす局部的
変動が維持され、他方、周波数スペクトルの全体的な強
調は抑制される。好ましい具体例においては、ピークス
ペクトルは、7つの隣接する周波数バンドをカバーする
移動平均関数により周波数に関して平滑化される。平均
関数は次のごとくである。
パスバンドの終端において、p(k、t、)は、0より
小さいkおよび31より大きいkに対して〇となる。標
準エンベ四−プh(j)は、実際に加算された有効デー
タ要素の数を考慮に入れる。かくして、h(0) =7
/4. h(1) =715. h(2) =7/6゜
h(3) = 1 、−−−一−h(2s) = 1 
、 h(29) = 7/6 。
h(30) = 715 、そしてh(31) =鎗と
なる。得られた平滑化ピーク振幅スペクトルe(j、t
))!ついで、いま受信されたパワスペクトルを標準化
し、周波数等化するのに使用されるが、これは到来平滑
化スペクトルS’(j、t)の各周波数バンドの振幅値
を、平滑化ピークスペクトルe (jat)の対応する
周波数バンド値で分割することにより行われる。数学的
にこれは、次のよ5に表ゎされる。
5n(j 、t)=(S’(j 、 t)/e(j 、
t))32767   Cl2)ここに、8n(f、t
)は、ピーク標準化され平滑化されたパワスペクトルで
あり、jは各周波数バンドに対して割り当てられる。こ
のステップは、91で指示されている。ここで、周波数
等化されかつ標準化された一連の短期間パワスペクトル
が得られるが、このスペクトルは、到来音声信号の周波
数含分の変化が強調され、一般的な長期間周波数強調ま
たは歪は抑制されたものである。この周波数補償方法は
、補償の基準が全信号または各周波数バンドのいずれに
おいても平均パワレベルである通常の周波数補償システ
ムに比して、電話線のような周波数歪を生ずる通信リン
クを介して伝送される音声信号の認識において非常に有
利であることが分った。
逐次のスペクトルは種々処理され、等化されたが、到来
可聴信号を表わすデータはなお100/秒の割合で生ず
るスペクトルを含んでいることを指摘しておく。
91で指示されるように標準化され、周波数等化された
スペクトルは、93で指示されるように振幅変換を受け
る。これは、スペクトル振幅値に非直線的なスケール操
作をなすことにより行なわれる。
sn(j 、 t ) (式12から)のごとき個々の
等化され標準化されたスペクトルを選択すると(ここに
jはスペクトルの異なる周波数バンドを指示し、tは実
時間を表わす)、非直線スケール化スペクトルx(j、
i)は、次の直線分数関数により定義される。
ここにAはJ=0〜31までのスペクトルsnに1゜t
)の平均値であり、下記のように定義される。
ここでjはパワスペクトルの周波数バンドを指示する。
スペクトルの31の期間は、次式のようにAの対数によ
り置き代えられる。すなわち、X (31、t)=16
 log、A        (L9このスケール関数
(式13)は、短期間平均値Aから大きく偏ったスペク
トル強度に対して柔軟なスレッショルドおよび漸進的な
飽和の作用を及ぼす。数学的に述べると、平均近傍の強
度に対して概ね直線的であり、平均から離れた強度に対
して概ね対数的であり、極端な強度値に対して実質的に
一定である。対数スケールの場合、関数X(j、t)は
0に関して対称であり、聴覚神経を刺激するような割合
の関数を示唆するようなスレッショルドおよび飽和の振
舞を示す。実際に、全認識システムは、この特定の非直
線スケール関数の場合、スペクトル振幅の直線または対
数スケールのいずれかの場合よりも相当良好に機能する
このようにして・、″(振幅変換され、周波数レスポン
スを等化され、標準化された一連の短期間パワ1 スペクトルX(j、t)(ここに、t=0.01゜0.
02.0.03.0.04.−−−一秒、j=O,−−
−。
30(発生されたパワスペクトル)の周波数バンドに対
応))が発生する。各スペクトルに対して32ワードが
用意され、A(式15)、すなわちスペクトル値の平均
値の値は、32ワードとして記憶される。以下において
「フレーム」として言及されるこの振幅変換された短期
間パワスペクトルは、例示の具体例においては、95で
指示されるように、256の32ワードスペクトルに対
する記憶容量をもつファーストイン・ファーストアウト
循環メモリに記憶される。かくして、例示の具体例にお
いては、2.56秒の音声入力信号が分析のために利用
可能になる。この記憶容量は、もし必要ならば、分析お
よび評価のため異なる実時間でスペクトルを選択し、し
たがって分析上必要に応じて時間的に前進、後退できる
ような変幻性をもつ認識システムを提供する。
このように、最後の2.56秒に対するフレームは循環
メモリに記憶され、必要なときに利用できる。例示の具
体例においては、動作中、各フレームは2.56秒記憶
される。かくして、時刻t1において循環メモリに入っ
たフレームは、2.56秒後、時刻t + 2.56秒
に対応する新しいフレームが記憶されるとき、メモリか
ら失なわれる。すなわちシフトされる。
循環メモリ中を通るフレームは、好ましくは実時間にお
いて既知の語業のワードと比較され、人力データ中のキ
ーワードを決定し、識別する。各語案ワードは、複数の
非重複のマルチフレーム(好ましくは3フレーム)デザ
インセットまたはダーゲット・パターンに形成された複
数の処理パワスペクトルを統計的に表わすテンプレート
・パターンにより表わされる。これらのパターンは、語
案ワードの意味のある音響事象をもっともよく表わすよ
うに選択されるのがよく、そして99において記憶され
る。
デザインセットパターンを形成するスペクトルは、線1
0上の連続する未知の音声入力を処理するため、上述の
システム(第3図)を使って種々の状況で話されるワー
ドに対して発生される。
このように、各語索ワードは、それと関連する一般に複
数の一連のデザインセットパターンp(x)1゜p(t
)s+、−−一−を有しており、各パターンは、短期間
パワースペクトルの領域においてそのi番目のキーワー
ドについての1つの指示を与える。各キーワードに対す
るデザインセットパターンの集まりは、ターゲットパタ
ーンを発生するについての統計的基準を形成する。
本発明の例示の具体例において、デザインセットパター
ンp(i)jは各々、直列に配列された3つの選択され
たフレームを構成する96要素配列と考えることができ
る。パターンを形成するフレームは、時間に関する平滑
に起因する不要相関を避けるため少な(とも30ミリ秒
離間されるべきである。本発明の他の具体例においては
、フレームを選択するため他のサンプリング法を実施で
きる。
しかしながら、好ましい方法は、フレームを一定継続時
間、好ましくは30ミ、、ちり秒離間してフレームを選
択し、非重複デザイイ、セットパターンをキーワードを
限定する時間間隔中離間させる方法である。すなわち、
第1のデザインセットパターンp1は、キーワードの開
始点近傍の部分に対応し、第2のパターンp、は時間の
後の部分に対応し、以下同様であり、そして、パターン
pt + pq * −−一は、一連のターゲットパタ
ーンに対する統計的基準、すなわちワードテンプレート
を形成し、到来音声データはこれに整合されるのである
。ターゲットパターンt□+ ’bg−−−は各々、p
(1)Jが独立のガウス変数より成ることを仮定するこ
とにより対応するp(i)jから発生される統計データ
よりなる。この仮定は、以下で説明される到来データと
ターゲットパターン間に尤度統計データが生成されるこ
とを可能にする。かくして、ターゲットパターンは、エ
ントリとして、対応するデザインセットパターンアレイ
エントリコレクションに対する平均標準偏差およびエリ
ヤ標準化ファクタを含む配列より成る!□。より精確な
尤度統計については後で説明する。
技術に精通したものには明らかなように、はとんどすべ
てのキーワードは、2以上の文脈上および/または地域
的な発音を有し、したがってデザインセットパターンの
2以上の「スペリング」を有している。かくして、上述
のパターン化スペリングpt l 1)Q l−m−を
有する語集ワードは、実際上、一般にp(i)t 、p
(i)* −−−−1i=1.2゜−−−、Mとして表
現できる。ここにp(i)jの各々は、第3番目のクラ
スのデザインセットパターンについての可能な代替的記
述方法であり、各ワードに対して全部でMの異なるスペ
リングがある。
それゆえ、ターゲットパターンt1+ ’fig−+t
1  は、もつとも一般的意味において、各々第1番目
のグループまたはクラスのデザインセットパターンに対
する複数の代替的統計的スペリングを表わす。このよう
に、例示の具体例において、「ターゲットパターン」な
る用語は、もつとも一般的意味において使用されており
、したがって、各ターゲットパターンは、2以上の許容
し得る代替的「統計的スペリング」を有し得る。
到来する未知の音声信号および基準パターンを形成する
音声信号の予備処理は、これで完了する。
次に、記憶されたスペクトルの処理について説明する。
第3図を参照して説明すると、まず、到来連続可聴デー
タを表わす95で記憶されたスペクトルまたはフレーム
は、下記の方法にしたがって語粱のキーワードを表わす
99で示す記憶されたターゲット・パターンのテンプレ
ートと比較される。
各10ミリ秒のフレームに対して、記憶された基準パタ
ーンと比較のためのパターンは、現在のスペクトルベク
トルS(j、t)、3フレーム前のスペクトルS (j
 、 t−0,03)、および6フレーム前のスペクト
ルS(j、t−0,06)を隣接させて下記の96要素
パターンを形成することにより97で形成される。
このようにして形成された各マルチフレーム・パターン
は例えば米国特許第4.241.329号、第4,22
7,176号、および第4,227,177号に記載さ
れた方法によって変換できる。しかしながら、これら、
変換は、本発明との関連において有用であるけれど、本
発明の一部を形成するものではなく、上記米国特許の教
示をこの中で教示される方法および装置にどのようにし
て適合させるかはこの分野の技術者には明らかであろう
。かくして、例示の実施例では、変換は相互相関関係を
減じ、デイメンショナリテイを減少し、そしてターゲッ
ト・パターン間の分離を増大できる。等化されたスペク
トルを構成するマルチフレーム・パターンは、変換され
たパターン(または一連の変換されたパターン)がター
ゲット・パターン(または一連のターゲット・パターン
)と整合する確率を測定する、100で指示された統計
的尤度計算ブロックへ人力として供給される。
次に、統計的尤度の計算について説明する。
上述のようにして形成されたマルチフレーム・パターン
x(、r、t、)は統計的尤度計算ブロックへ入力とし
て供給される。上記・□じたように、このプロセッサは
、連続的に与えられるマルチフレーム・パターン(未知
の人力音声を順次表わす)のそれぞれが機械の語粟にお
けるキーワードテンプレートのターゲット・パターンの
それぞれと整合する確率の測定値を提供する。代表的に
は、ターゲット・パターンを表わす各データは僅かに非
対称の確率密度を有するが、しかしそれにも拘わらず、
平均値Wi、におよび平均偏差(分散)var(1、k
)を持つ通常のガウスの分布によって統計的に十分に近
似される。ここで、1は第に番目のターゲット・パター
ンの要素の逐次の指示である。
このプロセスの最も簡単な実現は異なる値の1およびk
と関連したデータが相関関係になく、従ってターゲット
・パターンkに属するデータXに対する同時確率密度が
次式である(対数的に)と仮定することである。すなわ
ち、 L (xlx) :=p (X、K)=Σ1/21n2
 (var (i、K) )対数は単調関数であるから
、この統計はキーワードテンプ、レートの任意の1つの
ターゲット・パターンとの整合の確率がある他の語粟の
ターゲット・パターンとの整合の確率より大きいか、ま
たは小さいか、あるいは別法として、特定のパターンと
の整合の確率が予め定められた最小レベルを越えたか否
かを決定するのに十分である。各人力マルチフレームパ
ターンは語紮のキーワードテンプレートのターゲット・
パターンの全部に対して計算されたその統計的尤度L(
xlx)を有する。
結果としての統計的尤度L(XIK)は、パターンXが
生じる時間tにおけるKと名付けられたターゲットパタ
ーンの発生の相対的尤度と解釈される。
この分野の技術者には十分に理解できるように、これら
尤度の統計のランキングはそれが単一のターゲット・パ
ターンによってのみ実行できる限り音声認識を構成する
。これら尤度の統計は実行されるべき最終の関数に依存
して、全体のシステムにおいて種々の方法で利用できる
確率モデルについてはガウスの分布を利用できるが(例
えば上述の米国特許第4,241,329号、第4.2
27.176号および第4.227.177号参照)、
ラプラス分布、すなわち P (x)=(1/五S’)exp−(−rE lX−
m1/S’)(ここにmは統計平均、S′は変数Xの標
準偏差である)は、計算が少なくてすみ、例えば米国特
許第4.038.503号に記載される話者に不依存性
の隔絶ワード認識法におけるガウスの分布とほとんど同
様に機能することが分った。未知の入カバターンXと第
に番目の記憶基準パターン間の類似の程度L(Xlk)
は、確率の対数に比例し、次の式で100において算出
される。
一連のパターンの確度スコアLを結合して話されたワー
ドまたはフレーズの確度スコアを形成するため、各フレ
ームに対するスコアL(Xl k)は、そのフレームに
対する全基準パターンの最良の(最小の)スコアを減す
ることにより調節される。すなわち、 L’(Xlk)−minL(xli)      Q8
)したがって、各フレームに対する最良の適合パターン
は、0のスコアを有するであろう。仮定された一連の基
準パターンに対する調節されたスコアは、フレームごと
に累積され、指示された一連のもの(シーケンス)につ
いての有利な決定が正しい決定となるような、確率に直
接に関係づけられたシーケンススコアを得ることができ
る。
記憶された既知のパターンに対する未知の入カスベクト
ルパターンの比較は、k番目の基準パターンに対する下
記の関数を計算することにより遂行される。すなわち。
ここに、sikは1/s’ikに等しい。
通常のソフトウェアで実施される計算においては、代数
関数5lx−ul(式19)を計算するために下記の命
令が実行されよう。
1、x−uを計算せよ 、、。
す 2、  x  uの符号を試駿せよ 3、x−uが負ならば、絶対値を形成するように否定せ
よ 4.7と乗算せよ 5、結果をアキュウレータに加えよ 20−ワード語案を有する代表的音声認識システムにお
いては、約222の異なる基準パターンが設けられよう
。これを求めるに必要とされるステップの数は、間接動
作を含まないと、 5X96X222=106560ステツプであり、これ
が、実時間スペクトルフレーム速度に遅れナイよ5にす
るため、10ミリ秒以内で実行されなければならない。
それゆえ、プロセッサは、尤度関数を丁度求めるために
は、はぼ1100万/秒の命令を実行できなければなら
ない。必須の速度を考慮に入れて、米国特許第4,22
8,498号に開示されるシステムベクトルプロセッサ
と適合する専用の尤度関数ハードウェアモジュール20
o(第5図)が採用される。・ この専用バー、′jドウエアにおいては、上述の5つ′
1゜ のステップが、2組の独立変数7、X%Uとともに同時
に遂行されるから、実際には、1つの命令を実行するの
に要する時間で10の命令が遂行される。基本的ベクト
ルプロセッサは800万命令/秒の速度で動作するから
、尤度関数に対する有効計算速度は、専用ハードウェア
200が採用されると約8000万命令/秒となる。
第5図を参照すると、ハードウェアーモジュール200
は、10のステップの同時の実行を可能にするため、ハ
ードウェアによるパイプライン処理および並列処理の組
合せを採用している。2つの同一の部分202.204
は、各々、独立の入力データ独立変数について5つの算
術演算ステップを遂行しており、2つの結果はそれらの
出力に接続された加算器206により結合される。加算
器206からの加算値の累積は、式(19)の1〜96
の加算であり、そしてこの値は、米国特許第4,288
,498号に記載される標準的ベクトルプロセッサの演
算ユニットで処理される。
動作において、パイプライン処理用レジスタは、以下の
処理段階における中間データを保持する。
1、 入力独立変数(クロック作動レジスタ208゜2
10、212.214.216.218 )2、x−u
の絶対値(クロック作動レジスタ220、222) 五 乗算器の出力(クロック作動レジスタ224゜22
6) 入力データがクロック作動レジスタ208〜218に保
持されると、Xuの大きさが、減算絶対値回路228,
230により決定される。第6図を参照すると、減算・
絶対値回路228,230は、各々第1および第2の減
算器232,234(一方はx −uを算出、他方はu
 −Xを算出)および正の結果を選択するためのマルチ
プレクサ236を備えている。レジスタ208,210
から出る111238.240上の入力独立変数Xおよ
びUは、それぞれ−128〜+127の8ビツト数であ
る。
8ピツト減算器の差出力は9ビツトにオーバーフローす
ることがあるから(例えば127−(−128)=25
5)、算術のオーバーフロー状態を取り扱うため余分の
回路が必要であり、採用される。この状態はオーバーフ
ロー検出器235により、決定される。しかして、その
入力は、「X」の符号(線235a上)、ruJの符号
(線235b上および「x −u Jの符号(線235
c上)である。
次に第7図を参照すると、オーバーフロー検出器は、こ
の例示の具体例においては、3人力ANDゲート268
.270およびORゲート272を有する組合せ回路で
ある。第8図の真理値表は、オーバーフロー状態を入力
の関数として表わしている。
オーバーフロー状態はマルチプレクサ236、(これは
正の減算器出力を選択する回路である)で4つの選択を
行なうことにより処理される。これ等選択は1線242
および244上の2進レベルで定められる。!242上
のレベルは、I−uの符号を表わす。244上の符号は
、1ならばオーバーフローを表わす。かくして、選択は
次のごとくなる。
llI224 111224 0   0  減算器2.32の出力を選択1   0
  減算器234の出力を選択た減算器234を選択 マルチプレクサはこのように制御されて一8極4位置ス
イッチのように作月する。シフト動作は、組合せにより
減算出力を適当なマルチプレクサ入力に接続することに
より組合せ的に遂行される。
シフトは算術的に2で分割する効果をもつ。
減算中にオーバーフローが起こると、マルチプレクサの
出力は、減算器の出力を2で分割した出力となる。それ
ゆえ、最終結果を2で乗算して正しいスケールファクタ
を取り戻すことができるように、計算の後段でこの状態
を思い出させることが必要である。この復旧は、最後の
パイプライン処理レジスタの後のマルチプレクサで行わ
れる。
それゆえ、パイプライン処理レジスタ220゜222.
224.226には余分のビットが設けられており、第
2′のマルチプレクサ248.250を開俵する。これ
□)らマルチプレクサは、オーバー、、、、、、、li
・・ フローピットかセヅ、ト(1に等しい)の場合、そ′:
1 れぞれ8×8ビツトの乗算器252.254の乗算積を
1ビツトだけシフトアップし、2を乗算する。乗算演算
は、8ビツト数を受は入れその積を出力する〒RW部品
番号MPY−8−HJのごとき標準的集積回路装置で実
施できる。
かくして、乗算器252.254は、各クロックパルス
でiおよび1ニーulの積を生ずる百の値は余分のデー
タレジスタ256.258により正しく調時される)。
乗算器252.254の出力は、レジスタ224.22
6にバッファ記憶され、$260.262を介し、加算
1’fF206ヲfMて残りの回路に出力される。
同じ専用ハードウェアモジュール200は、マトリック
ス乗算において必要とされるような2ベクトルの内部槽
を計算するのにも採用できる。これは、減算、絶対値回
路228.230において側路を可態とするゲート回路
264.266で遂行される。この動作モードにおいて
は、データrXJおよび「丁」入力バスは、乗算器久方
とじて、パイプライン処理レジスタ220,222に直
接加えられる。
次に、ワードレベル検出処理について説明する。
本発明の好ましい実施例によるキーワードの[スペリン
グ」は与えられた順序の一連の基準パターンネーム、ま
たは「単音(言語音)」(ターゲット・パターン)なら
びにスペリングにおける各単音に関連した最小および最
大ドエル時間(W続時間)である。キーワードスペリン
グに対する未知の入カバターン列の整合は各入カバター
ンをスペリングのある単音に属させることにより遂行さ
れる。「属性」の度合は単音に関するパターンの尤度ス
コアによって測定される。各所しい入カスベクトルフレ
ームにおいて全体の「ワードスコア」が次のようにして
各キーワードスペリングに関して計算される。
第4図を参照して、現フレーム(円402に対応する)
はキーワードの終りであると仮定する。
語粟の各キーワードに対するワードスコアは次のように
して決定される。ワードスコアに対する第1の貢献は、
どちらが良いにしても(より小さくても)、キーワード
スペリングの最終音素に関する現入カバターンの、ある
いはすぐ前の音素の、尤度スコアである。
時間的に後方の次のフレーム(円404に対応する)が
次に検査される。現単音の最小ドエル時間かまで経過し
ていない場合には、現(すなわち、すぐ前の)パターン
の貢献は、(a)現音素に関する尤度スコアまたは(b
)すぐ前の音素に関する尤度スコアのうちの良い方であ
る0この貢献は部分ワードスコアに加えられる。最小ド
エル時間が経過した場合には、現およびすぐ前の音素に
関する尤度スコアが検査される。すぐ前の音素のスコア
が良い場合には、すぐ前の音素が現音素となり(パス4
06の1つを通じて)、そのスコアはワードスコアに累
積されたものである。そして最小および最大ドエル時間
はリセットされる。その他の場合には、現単音が現とし
てとどまり、その尤度スコアがワードスコアに加算され
る。現音素に対する最大ドエル時間が経過した場合には
、ペナルティがワードスコアに加えられ’)、、、’l
すぐ前の音素が現単音となる。すぐ前の音素がi在しな
いときに分析は完了し、最終ワードスコアはワードスコ
ア累算器の内容を始めから終りまでのフレームの数で割
つたもの(すなわち、スペリングKMするフレーム当り
の平均尤度スコア)である。
ワードスコアについての検出スレシホールドは検出確率
と誤報確率との間にトレード・オフ(交換条件)を確立
するように設定される。任意のスペリングに関するワー
ドスコアがスレシホールド値より良い場合には、420
(第3図)での検出が宣言される。2つまたはそれ以上
の検出が短かすぎる時間期間内で生じる場合には1調停
論理が重複する検出の最良のものを選択する。
仮定された「現」音素はワードスペリング中単調に変化
し、決して前の状態に後退しないから1ワード検出方法
についての上記説明はダイナミックなプログラミングの
問題として書き直すことができる。
次に1ダイナミックプログラミング手法について説明す
る。゛[。
第4A図を参照して、このダイナミックプログラミング
手法によれば、キーワードの認識は抽象的な状態空間を
通る適当なパスを見つける問題として表わすことができ
る。この図において1各円は、ドエル時間位置またはレ
ジスタとも称される可能な状態を表わし、決定を行うプ
ロセスはこれを通ることができる。
垂直波[520,522間の空間は、パターンが現在音
素に整合するかしないかを決定する際に決定を行なうプ
ロセスが通過し得る仮定の状態をそれぞれ表わす。この
空間は、必須のドエル時間部分524と、任意のドエル
時間部分526に分けられている。必須ドエル時間部分
は特定の1」音素またはパターンの最小継続時間である
。任意ドエル時間部分はパターンの追加の最大継続時間
を表わす。任意または必須ドエル時間部内の各日は、形
成されるフレームの連続体の1つのフレーム時間を表わ
し、フレームからフレームへの0.01秒の間隔に対応
する。かくして、各日は、1つのキーワードスペリング
における仮定の現音声位置を識別し、かつまた、現音素
が始まってから経過したと仮定される、その音素または
ダーゲットパターンにおける以前の「円」または位置に
対応するその音声またはターゲットパターンにおけるそ
れより(o、oi秒の)フレームの数とともにパターン
の現在の継続時間を表わす。1つのパターン(音素)が
始まり、最小のドエル時間期間が経過した後、次のター
ゲットパターン(音素)の第1の節点すなわち位置(円
)528に進むには数本の可能なパスがある。これは、
スペリングの次のパターン(音素)へ移動することの決
定がいつなされるかに依存する。これらの決定の可能性
は、この図においては円528に向う数本の矢により表
わされている。次のパターン(音素)の始点は円528
により表わされているが、次のパターン(音素)へのこ
の転移は現パターン(音素)の任意ドエル時間中の任意
の節点すなわち位置から1または、必須ドエル時間期間
の最後の節点からなされよう。
米国時許第4,241,329号、第4,227,17
6号および第4,227,177号に記載のキーワード
認識方法は、次のパターン(音素)に関する尤度スコア
が現パターン(音素)に関する尤度スコアより良好であ
るような第1の節点で転移を行なう。
すなわち、フレームが、現音素またはパターンより次の
音素またはパターンとよく整合する。しかしながら、全
ワードスコアは、フレーム当りの(すなわちパスに含ま
れる節点当りの)平均パターン(音素)スコアである。
現節点までのワードスコアに適用される「全スコア」の
定義と同じ定義が、転移をいつなすべきかを決定するの
に使用できる。
すなわち、次のパターンへの転移を、例えば転移指示[
530に対応する最初の機会でなすべきか、あるいは例
えば転移指示線532に対応するもつと後の時点でなす
べきかの決定に使用できる。最適には、節点当りの平均
スコアが最良であるようなパスを次のパターン(音素)
中に選ぶことになる。米国特許第4,241,329号
、第4,227,176号および第4.227.177
号に記載される標準的キーワード法は、次のパターン(
単音)に移動すべきことの決定をなした後潜在的なパス
について試験をしないから、平均スコア/節点により測
定されるところにしたがってほぼ最適の決定ななすこと
になろう。
従って1本発明はキーワード認識に平均スコア/節点法
を採用し、そしてキーワードの最後ツバターンの「最良
の終了節点」に対する平均スコア/節点が予め定められ
たスレシホールドを越えるときにはいつでも、検出が記
録される。
ダイナミックブpグラξング手法は、各分析時間フレー
ムにおいて、ある語業ワードが丁度始まる(すなわち、
ある前のワードまたは他の音響が丁度終了した)尤度ス
コアを必要とする。クローズド・ボキャプラリイ・タス
クにおいては、このスコアを提供することは真直ぐな事
柄である。しかしながら、キーワード・タスクにおいて
は、すべての予期される音響に対する基準パターンも、
すべての可能なワードに対する定義も利用できない。 
      、。
入力スコアを4見るためのいくつかの方法があり得る。
これを例示゛するためには、ダイナミックプログラミン
グ方法のある特徴をさらに説明する必要がある。この方
法は、それぞれが特定シーケンスのパターンおよびパタ
ーン継続時間に対応するスコアを記憶する定められた順
序配列の累算器A(1)、A(2)、−m−により実現
される。時刻tの分析フレームにおける1番目の累算器
の内容はA(1゜t)と表示される。1番目の累算器に
関連した基準パターンに対する時刻tの尤度スコアはL
(i、t、)で表示される。
ターゲット・パターンの第1フレーム(すなわち始まり
)に対応しない累算器に対する循環式は次の通りである
A(1,t):L(i、i)十A(i−1,t−1)次
のターゲット・パターンの第1の累算器A(n、 t)
は先行するパターンに対して利用できる累算器(すなわ
ち、転移が次のパターンに対して行なわれ得る累算器)
の最良(最小)のスコアが供給される。
すなわち、A(n、 t)=L(n、 t)十m1nA
(i、 t−1)i=m、n−1 このようにしてターゲット・パターンに対する最適の継
続時間が見出される。
上記したように、検出されるキーワードに対するワード
スコアは分析フレーム当りの平均尤度スコアである。こ
れは現分析フレームにおける最後のターゲット・ハ夛−
ンの出力スコア(1つであった場合には、次のパターン
に対する累算器に送られるであろうスコア)とワードが
始まったときのこのワードめ継続時間で割られた入力ス
コアとの差である。累積されたワードスコアに関連した
ワードの継続時間ならびにターゲット・パターン長は繰
越すことができ、レジスタからレジスタへ更新できる。
キーワードの第1のパター〉の第1のレジスタに対応す
る入力スコアに対する累算器はA(o、 i)と表示さ
れる。最も簡単な入力方法はキーワード認識プロセスに
対する入力尤度スコアとして一定傾斜Cの直線ランプ関
数を使用することである。この方法に対する引続く累算
器の内容は次表に示されている。
時間    累算器内容 t  A(0,t) A(1,t)  A(2,t) 
−−−0000 10L(1,1)  L(2,1) 2  2OL(1,2)+OL(2,2)+L(1,1
)3  30   ・  L(1,3)+2OL(2,
3)+L(1,2)十〇任意の時間において〜6粟算器
中で行なわれた加算の数はすべての累算器に対して同じ
であり、従って初期設定に起因するバイアスはない。0
の効果は、Cが小さい場合にはA(1,t)がA(2,
t)よりも良好なスコアを含む傾向にあり、他方Cが大
きい場合にはA(2,t)が良好なスコアを含むという
ことを注記することにより、理解できる。その結果はこ
の方法によって見出、された最適のパターン継続時間が
長すぎるまたは短かすぎるようにバイアスされることで
ある。ランプN&はすべての累算器に伝搬するから1ワ
ードにおけるすべての1111−。
パターンの継続時間は同様にバイアスされるであろう。
一定のランプ(傾斜)を累積する代りに、第1の累算器
の内容を1定数ではなくて所望のキーワードの第1の基
準パターンに関する現信号の尤度スコアを加算するよう
に、再循環してもよい。すべての残りの累算器の内容は
、フレーム当りのワードスコアを決定するときに減算さ
れる定数内までは曳正確である。この方法は次表に例示
されている。
時間     累算器内容 t A(0,t)       AQ、t、)O00 1L(0,1)       L(1,1)2L(0静
懺0,1)     L(1,2))−L(OJ)3 
uoβ))I、(02汗L(0,1)   L(1,3
汗L(02汗L(OJ)tA(25)− 〇〇   ・ I L(2,1)    □: □、。
2 L(22)+L(1,1) 3L(2β)l−L(1,2)1−L(0,1)4 L
(24)+L(1,3)+−L(02汗L(0,1)こ
の方法によれば、キーワードの第2のおよびそれに続く
パターンに対する最適パターン継続時間の選択は第1の
パターンの継続時間には無関係である。一方、累算器の
内容から第1のパターンがどのくらい長くあるべきかを
知ることは不可能である。この事実は上表において置換
L(2,t)=L(1,t)=L(0,t)によって明
らかにされている。
3つの累算器が設けられ、パターンが3つの分析フレー
ムの継続時間を有し得るけれど、3つ全部の累算器は常
に同じスコアを含み、選択すべき独特の最小値のものは
ない。この問題は合計のワードスコアの判断(評価)の
みに影響を与え、例えば貰基準パターンの統計的データ
になる後続のパターンの分類には影響を与えない。現在
好ましい実施例はこの方法を、各キーワードの第1のパ
ターンに割当てられた任意の一定継続時間とともに、使
用する。
次に、基準パターンのトレーニングについテ説明する。
基準パターンの構成のためサンプル平luおよび分散(
パリアンス)S′を得るためKは、各語粟ワードの多数
の発生が音声認識システムに挿入され一対応する予処理
されたスペクトルフレームの全統計データが求められる
0装置の上首尾の動作に極めて重要なのは、どの入カス
ベクトルフレームがどのターゲットまたは基準パターン
に対応すべきかの選択である。
入力ワードに対して人間により選ばれた重要な音響的音
素のような良好な情報が不存在の場合、話されたワード
の始点と終点間の時間間隔は為多数の一様に離間された
サブインターバルに分割される。これらのサブインター
バルの各々は、唯一の基準パターンと対応せしめられる
。各間隔において始まる1または複数の3フレームパタ
ーンが形成され、その間隔と関連する基準パターンにし
たがって分類される。同じ語業ワードの後続の例は、同
様に、同数の一様に離間された間隔に分割される。対応
する順番の間隔から抽出された3フレームパターンの要
素の平均値およびパリアンスは、語業ワードの利用可能
な金側について異積され1そのワードに対する1組の基
準パターンを形成する。間隔の数(基準パターンの数)
は、語業ワードに含まれ単位の言語学的音素当り約2ま
たは3とすべきである。
最良の結果を得るためには、記録された可聴波形および
スペクトルフレームの人間による試験を含む手続きによ
り、キーワードの始点がマークされる。この手続を自動
的に実施するためKは一装置がワードの境界を正確に見
つけるように、ワードを1時に1つずつ話し、サイレン
トにより境界を定めることが必要である。基準パターン
は、隔絶して話された各ワードの1つのこのようなサン
プルからイニシャライズされよう。しかして、全パリア
ンスは、基準パターンにおいて都合のよい定数に設定さ
れる。その後、トレーニング資料は認識されるべき発声
を表わし、かつ認識プロセスにより見出されるようなワ
ード境界をもつ発生を含むことができる。
適当数のトレーニング発声による統計的データが累積し
た後、そのようにして見出された基準パターンが初基準
パターンの代わりに利用される。
次いで、トレーニング資料による2回目のパスが行われ
る。このとき、ワードは、第3図におけるように認識プ
ロセッサによりなされた決定に基づいた時間間隔に分割
される。各3フレーム入カバターン(または、各基準パ
ターンに対する1つの代表釣人カバターン)が前述のパ
ターン整合法によりある基準パターンと関連づけられる
。平均値およびパリアンスは、それらが認識装置により
使用される方法と完全に適合した態様で誇導される最終
の1組の基準パターンを形成するように1秒間異積され
る。
最小(必須)および最大(必須+任意)ドエル時間は、
好ましくはトレーニングブ四セス中に決定されるのがよ
い。本発明の好ましい具体例においては1装置は、主述
のように数人の話者を使ってトレーニングさ孔・る。さ
らに、上述のように、認識プロセスは、トレーニング手
続き中、上述のプロセスにしたがってパターンの境界を
自動的に決定する。このようにして境界が記録され、装
置にょう識別された。各キーワードに対してドエル時間
が記憶される。
トレーニング工程の終了時に、各パターンに対するドエ
ル時間が試験され、パターンに対する最小および最大の
ドエル時間が選ばれる。本発明の好ましい具体例におい
ては、ドエル時間のヒストグラムが形成され、最小およ
び最大ドエル時間は、第25および第75.100分位
′IkK設定される〇これは低誤報率を維持しながら高
認識精度を与える。代わりに、最小および最大ドエル時
間の他の選択も可能であるが、認識精度と誤報率との間
には交換条件がある。すなわち、もしも最小ドエル時間
および最大ドエル時間が選択されると、一般に高誤報率
の犠牲でより高い認識精度が得られる。
次に1本音声認識方法を使用して実現された装置につい
て説明する。
前記したように、本発明の現在好ましい実施例において
は、第2図のブリブ四セッサにより遂行された信号およ
びデータ操作以上の信号およびデータ操作が米国特許第
4,228,498号に記載されたような専眉ベクトル
コンピュータ・プロセッサとの組合せで動作するディジ
タル・エクイブメント・コーポレーションのFDP −
11Mコンピュータによって実行され、制御されるよう
に構成された。
本発明方法はコンピュータプログラミングの利用に加え
て\ハードウェアを利用して実現できる。
第9図を参照すると、本発明の一′#定例のハードウェ
アにおいては、尤度データ発生用プロセッサからの尤度
データはライン300を通じてメモリ302に与えられ
る。メモリ302は検出されている語索キーワードのタ
ーゲット・パターンのそれぞれに関する入力フレームパ
ターンの尤度スコアを記録するのに十分な記憶容量を有
する。この尤度スコア入力データはプロセッサからライ
ン300を通じて利用でき、そして高データ速度で、予
め定められたシーケンスでメモリ302に転送される。
このデータはアドレスカウンタ306からのライン30
4を介してのアドレス出力信号に従ってメモリ302内
に記憶される。アドレスヵウンタ306はライン300
を介してのデータと同期するカウントライン308を介
してのノくルス信号によって増分され、そしてライン3
10を介してのリセット信号によって初期の予め定めら
れたアドレスにリセットされる。
第9図の例示の実施例はターゲット・パターンシフトレ
ジスタ・メモリ312 (a)、312(b)、−−一
312 (n)を有し、各シフトレジスタ・メモリは特
定のターゲット・パターンに関する、処理された可聴信
号の前の2.56秒の、各フレームに対する尤度スコア
データを記憶することができる。これらメモリ312は
入力ライン314()(ツ?ワード・シフトモードにお
いて)を介してまた人力315(フォーワード・シフト
モードにおいて)を介してデータをロードできるフォー
ワード・ノくツクワード・シフトモード!lLである。
この中で使用される各シフトレジスター5、メモリ31
2の出力は為メモリデータが「フォーワード」方向(順
方向)にシフトされたときに、出力ライン316を介し
て利用できる。
動作において1上記メモリ312はライン318を介し
ての各(フォーワード)クロックパルスでレジスタの内
容を1デ一タ位置「順方向」にシフトする、すなわちラ
イン316の出力により接近する方向にシフトされる0
対比的VC%各メモリ312は、ライン319を介して
の各(バックワード)り四ツクパルスで、その内容を1
位置逆方向に、すなわち入力ライン315により接近す
る方向に、シフトする。例示の実施例では、各メモリは
2.56秒の尤度スコアデータを記憶するための位置を
有する。
ライン316を介しての各メモリ312の出力はそれぞ
れゲート素子321を介して制御比較回路320に接続
されている。第10図と関連して詳細に説明するこれら
比較回路320は、それぞれ出力として、“ライン32
2を介しての累積され1゜ た、標準化されたワードスコアと、ライン324を介し
てのワードスコア累積完了信号とを有する。
ワードスコア累積完了信号が上記した方法に従ってキー
ワード認識処理を完了したことに対応して各比較回路3
20からライン324の全部を通じて利用できるときK
は、キーワードは、(a)その現フレームに対して標準
化されたワードスコアが予め定められたスレシホールド
レベルを越したか否かを、また(b)スレシホールドレ
ベルを越したワードがさらに後での決定処理のためのも
のとみなすべきか否かを、それぞれ決定するために検査
される。
語業の各キーワードに対して1つの比較回路320があ
る。各比較回路320は、かくして、その入力としてラ
イン326を介しての、そのキーワードのターゲット・
パターンに対応するメそす312のそれぞれの出力を有
する。後で詳しく記載するように、マルチプル比較マル
チプレクシング素子330と継続時間カウントプロセス
制御素子332より構成される比較回路はキーワードが
そのときの「現」フレーム時間で終了するという仮定に
対して標−単化され、累積されたワードスコアを決定す
る。
例示のシフトレジスタ・メモリ312は再循環「順方向
」シフトモードあるいは非再循環「逆方向」シフトモー
ドとして構成されている。再循環順方向モードにおいて
、シフトレジスタ・メモリ312はライン315を通じ
てそれらの入力を受信する。これら入力はゲート素子3
33および321を介してメモリ312にゲート入力さ
れる。
非循環動作モードにおいて、メモリはメモリ302から
ゲート素子338を介してライン314によりその入力
を受信する。
動作において、最初に、ゲート素子338を介して全容
量まで逆方向にロードされる、すなわち各メモリに25
6の尤度スコアを逆方向に四−ドする。この入力データ
はアドレスカウンタ306からの逐次カウントに従って
メモリ302から得られる。アドレスカウントに従って
1ゲート338はライン342を介して選択的に供給さ
れる可能化信号によって選択的に可能化される。ライン
342を介しての可能化信号はゲート338を介して1
〜nデコ一ド回路344によって逐次制御され、それに
よってメモリ302の出力はメモリ312の対応するも
のに記憶される。
各パターンに対する第1の256人力尤度スコアがそれ
ぞれのメモリ312(例示の実施例ではメモリ302の
内容の256の読出しに対応する)にロードされると、
メモリ312は順方向再循環モードで作動され、それに
よりシフトレジスタの最後の入力(第256番目のフレ
ームに対応する尤度スコア)がメモリから読出され、今
可能化されたゲート321および333を通って同じシ
フトレジスタ・メモリの他端の人力(ライン315を介
して)となる。従って、メモリ312が繰返しシフトさ
れると、最後の256フレームのそれぞれに対する各タ
ーゲット・パターンの尤度スコアが逆の年代順で読出さ
れ、そして同じ順序でシフトレジスタに再び挿入される
。かくして、順方向シフトライン318を通じての25
6のカウントの後、シフトレジスタはその6最初のデー
タ状態に戻る。しかしながら、今、し゛、)ンスフ31
2がシフトされていた時間期間中ロードされたメモリ3
02から次の尤度スコアが順次にレジスタに挿入される
。この新しい尤度スコアはライン319の逆方向ロード
パルスに応答してゲート338を介してロードされる。
メモリ312中の最も古い尤度スコアが失なわれる。
シフトレジスタ312は各ターゲット・ぶターンに対す
る第2番目から第257番目までの尤度スコアを含むこ
とになる。これらスコアは上記したのと同じ態様でシフ
トされる。シフトおよびロードするプロセスは各折しい
フレーム時間において続けられ、その結果後記する処理
のために尤度スコアが適当な時間に読出される。
第10図を参照すると、キーワードを表わす各群のレジ
スタ312の出力はそれぞれの制御2極マルチプレクサ
スイツチ360に対するライン326を通じて利用でき
るようにされている。マルチプレクサ360の動作は次
の通りである。°各フレーム時間の開始時に、各マルチ
プレクサ360はライン362を4.、t、てのリセッ
ト信号によって)( リセットされる。ライン362を通じてのリセット信号
に応答して、マルチプレクサ360の出力ライン364
.366はそれぞれ第1の人力ライン、ここではライン
326 (1k)および326 (b)に供給される。
フレーム時間の開始時に、ライン326(a)上のデー
タはキーワードの最後のターゲット・パターンに対する
「現」フレーム時間中の入力尤度スコアを表わし、また
ライン326 (b)上のデータはすぐ前のターゲット
・パターンに対する「現」フレームターゲット・パター
ン中のスコアを表わす。ライン364および366を介
してのマルチプレクサ360の出力は数値比較素子\例
えば演算素子368に供給される。この素子368はラ
イン370に「良好」入力スコアを提供し、かつライン
364.366のどちらがライン372に良好入力スコ
アを有せしめるかについて識別する。
良好スコアは加算器374の内容に加算される。
(加算器374の内容は各フレーム時間の始めにライン
362を介してのリセット信号によって0にリセットさ
れる。)累積尤度スコアは次に、ライン375を通じて
利用できるか、つ合計の累積スコアを表わす加算器37
4の内容を、累積された尤度スコアの数Nで割ることに
より「標準化」される0この割算は割算回路376で実
行される。
割算回路376のライン378上の出力は平均スコア/
節点を表わし、かつそれぞれのキーワードが可能な検出
されたキーワード候補であるか否かを決定する際に使用
される。
ライン372上の比較回路368の出力は、最小および
最大ドエル時間とともに、マルチプレクサ360が次の
2つの入力□尤度スコアに、すなわちライン326(S
)および326 (c)を通じて利用できる尤度スコア
(キーワードの最後のターゲットパターンのすぐ前とそ
の次(最後から2番目と3番目)にそれぞれ対応する)
に増分されるべきか否かを決定するために使用される。
ライン372上の信号レベルはまた、ライン380上の
最大ドエル時間信号とともに、加算器374の累積ワー
ドスコアにペナルティを加えるべきか否かを決定するた
めに使用される。従って、そのときに存在するターゲッ
トパターンに対する最大ドエル時間を経過したときに、
「良好」であるのがライン364上の尤度スコアである
ならば、ゲート382は作動され、ペナルティ・カウン
トが加算器374の累積スコアに加えられる。
実質的にはカウンタであるプログラム・ドエル時間監視
素子386はライン388および390を介して種々の
ターゲットパターンに対する最小および最大ドエル時間
を受信する。最小ドエル時間がカウンタ386中のカウ
ントだけ越えると、最小ドエル時間経過ライン392に
ある信号レベルが置かれる。現ターゲットパターンに対
する最大ドエル時間が経過すると、対応する信号レベル
が上記したようにライン380に置かれる。カウンタ3
86はマルチプレクサ360がライン394上の信号に
よって次の対のラインに増分されると(後述する)〜リ
セットされる。このカウンタは再循環メモリ312がラ
イン318のカウントパルスによってシフトされると増
分される。ワード長カウンタ396はライン:l!、9
7を介して割算器376へワード長を与える。カウンタ
396は各フレーム時間の始めに、ライン362のリセ
ット信号(ライン319のシフトレジスタ逆方向信号に
対応する)によってリセットされ、そして再循環メモリ
312がライン318上のパルスによってシフトされる
ときごとに増分される。
本発明によれば、最小および最大ドエル時間はライン3
72上の信号レベルとともにマルチプレクサ360の増
分を制御する。例えば、現ターゲットパターンがライン
364および366上のスコアによって指示されるよう
に「良好なスコア」を有するならば、最大ドエル時間が
経過した場合にのみ「次の信号」が得られる。(これは
ゲート398を通ってライン394に至るライン318
上のパルスによって行なわれる。)これに対し、最小ド
エル時間だけが経過したが、「良好な信号」がライン3
66にある、すなわちすぐ前のターゲットパターンが、
「良好」である場合には、ライン318上のパルjスが
ゲート400を通り、ライン394に次の信パ・号を生
じさせ、そしてマルチプレクサは再び次の雨のターゲッ
トパターン尤度スコツ入力ラインに増分される。他のす
べての状況において、例示の実施例ではマルチプレクサ
は増分されない。
マルチプレクサ360が最終対の入力ライン326、例
示の実施例ではライン326(x−1)および326(
x)Kあると、ライン394を介しての次の信号の受信
によりライン324に「終了」信号が発生される。この
終了信号は割算器376の出力を凍結し、かつキーワー
ドに対するスコアが得られたことを通信する効果を持つ
上記したように九終了信号がすべての比較回路320か
ら得られると、最良のスコアが検討され一上記した基準
に従って決定がなされる。この決定は次のフレーム時間
の開始前に、好ましくは実時間で、行なわれ、そして全
手続きが再び始まる。
上記したことから、本発明のいくつかの目的が達成され
、他の有益な結果が得られたことが分るであろう。
この中で記載したキーワード認識方法および装置は特別
の応用として隔絶された音声認識を含み得るということ
は理解されよう。記載した好ましい実施例についての追
加、削除、および他の変形、変更はこの分野の技術者に
は明らかであり、特許請求の範囲内にあるものである。
【図面の簡単な説明】
第1図は本発明にしたがって遂行される一連の動作を一
般的用語で例示するフ四−チヤード、第1A図は本発明
の好ましい具体例の概略ブロック回路図、第2図は第1
図に例示される全プロセスにおける特定の処理動作を遂
行するための電子装置の概略ブロック図、第3図は第1
図のプロセスにおける特定の手続きを遂行するディジタ
ルコンピュータプログラムの流れ線図、第4図は本発明
の好ましい具体例の整列プロセスの′ts図、第4A図
は本発明の動的プログラミング法にしたがう整列プロセ
スの線図、第5図は本発明の好ましい具体例の尤度関数
プロセッサの電気的ブロック図、第6図は本発明の好ま
しい具体例の減算・絶対値回路の!気的概略ブロック図
、第7図は本発明の好ましい具体例のオーバーフロー検
出論理回路の電気回路図、第8図は第7図の回路図に対
する真値表1第9図は本発明の好ましい具体例の逐次腕
パターン整列回路を示すブロック図、第10図は本発明
の継続時間および比較制御プロセスを実施するための特
定のハードウェアの具体例の電気回路図である。 13 : A/Dコンバータ 45:制御プロセッサ 46:ブリプロセッサ 48a:ペクトルプロセッサ 48b:尤度関数プロセッサ 49:逐次解読プロセッサ 51:クロック発振器 52:周波数分割器 53:ラッチ 56:ディジタル乗算器 58:32ワード循環シフト1:1.レジスタ59:マ
ルチプレックサ  、。 60:B選択回路 63:32ワードシフトレジスタメモリ65:32ビツ
ト加算器 67:ゲート 71:コンピュータ割込み回路 73:インターフェース 同       倉 橋     暎     ゛)゛
・(−・ □。 b諷。 □■。 q8ti昭58−134698 (26)手続補正書(
方式) 昭和58年 31月24日 特許庁長官 若 杉 和 夫 殿 事件の表示 昭和57年 特願第174095号発明の
名称 音声認識方法および装置 補正をする者 事件との関係           特許出願人名称 
  エクソン・コーポレイション代理人 補正命令通知の日付 昭和58年2月22日補正の対象 願書の如非ト出願人の欄 一’ja  ”  、;g    ’     −−−
−’委任状及びその訳文            各1
通図面          1通 明細書 訂正理由書                   1
通出願指図書及びその訳文           各1
通宣誓供述書及びその訳文           各1
通公証人証明書及びその訳文          各2
適合併証明書及びその訳文           各2
通補正の内容  別紙の通り 明m書の浄書(内容に変更なしン 図面の浄書(内容に変更なし) 1 ::・、、。 ■。

Claims (1)

  1. 【特許請求の範囲】 (1)  各キーワードが少なくとも1つのターゲット
    ・パターンを有するテンブレー)Kよって特徴付ゆられ
    ており、各ターゲット・パターンが少なくとも1つの短
    期間パワースペクトルを表わしかつ各ターゲット・パタ
    ーンがそれと関連した最ホトエル時間期間および最大ド
    エル時間期間を有するものである、可聴信号における少
    なくとも1つの予め定められたキーワードを認識するた
    めの音声分析システムにおいて、 繰返しフレーム速度′で、前記可聴信号からこの可聴信
    号を表わす、それぞれがフレーム時間と関連している一
    連のフレームパターンを形成する段階と、 各フレームパターンに対して、前記ターゲット・パター
    ンの選択されたものについての前記各フレームパターン
    の類似性の数値測定値を発生する段階と、 前記キーワードが前記フレーム時間で終了した尤度を表
    わす数値ワードスコアを各フレーム時間および各キーワ
    ードに対して、前記数値測定値を使用して累積する段階
    であって、現フレームパターンと前記キーワードの最後
    のターゲット・パターンの類似性の数値測定値で始まっ
    て、連続する一連の前記繰返し形成されるフレームパタ
    ーンのそれぞれに対する数値測定値を、各キーワードに
    対して、累積する段階を含む累積段階と、キーワードに
    対する数値が予め定められた認識レベルを越えるときに
    はいつでも少なくとも予備のキーワード認識決定を発生
    する段階 とからなる認識方法。 (2)前記累積段階が、 そのときに存在するターゲット・パターンに対する最ホ
    トエル時間を越さない一連のフレームパターンのそれぞ
    れにおいて累積されたワードスコアに、前記フレームパ
    ターンとそのときに存在するターゲット・パターンの類
    似性を表わす数値測定値および前記フレームパターンと
    すぐ前のターゲット−パターンの類似性を表わす数値測
    定値の良い方を表わす数値量を加算する段階と、そのと
    きに存在するターゲット・パターンの最小ドエル時間を
    越えるフレーム時間で生じる各フレームパターンにおい
    て累積されたワードスコアに、前記フレームパターンと
    そのときに存在するターゲット・パターンの類似性を表
    わす数値測定値および前記フレームパターンとすぐ前の
    ターゲット・パターンの類似性を表わす数値測定値の良
    い方を加算する段階と、 最小ドエル時間を越しかつすぐ前のターゲット・パター
    ンに対する数値測定値がそのときに存在するターゲット
    ・パターン要素茹する数値測定値より良いときに、すぐ
    前のターゲット・パターンを新しいそのときに存在する
    ターゲット・パターンとして指示することによりそのと
    きに存在するターゲット・パターンを更新する段階と、
    そのときに存在するターゲット・パターンに対する前記
    最大ドエル時間を越すときにはいつでもすぐ前のターゲ
    ット・パターンを新しいそのときに存在するターゲット
    ・パターンとして指示する段階 とからなる特許請求の範囲第1項記載の方法。 (3)  キーワードに対する前記数値ワードスコアを
    決定する際に使用されるパターンフレームの数のフレー
    ムカウントを保持する段階と、キーワードに対する累積
    された数値ワードスコアを該スコアを発生する際に使用
    されたパターンフレームの数によって割ることにより標
    準化されたワードスコアを発生する段階とを含む特許請
    求の範囲第2項記載の方法。 (4)  前記2番目゛の加算段階が、キーワードのタ
    ーゲット・パターン要素の最大ドエル時間を超電、、る
    ときにはいつでも、キーワードに対する累積されたスコ
    アにペナルティ値を加算する段階を含む特許請求の範囲
    第3項記載の方法。 (5)  各キーワードが少なくとも1つのターゲット
    ・パターンを有するテンプレートによって特徴付けられ
    ており、各ターゲット・パターンが少なくとも1つの短
    期間パワースペクトルを表わしかつ各ターゲット・パタ
    ーンがそれと関連した最ホトエル時間期間および最大ド
    エル時間期間を有するものである、可聴信号における少
    なくとも1つの予め定められたキーワードを認識するた
    めの音声分析システムにおいて、 繰返しフレーム速度で、前記可聴信号からこの可聴信号
    を表わす、それぞれがフレーム時間と関連している一連
    のフレームパターンを形成する装置と、 各フレームパターンに対して、前記ターゲット・パター
    ンの選択されたものについての前記各フレームパターン
    の類似性の数値測定値を発生する装置と、 前記キーワードが前記フレーム時間で終了した尤度を表
    わす数値ワードスコアを各フレーム時間および各キーワ
    ードに対して、前記数値測定値を使用して累積する装置
    であって、現フレームパターンと前記キーワードの最後
    のターゲット・パターンの類似性の数値測定値で始まっ
    て、連続する一連の前記繰返し形成されるフレームパタ
    ーンのそれぞれに対する数値測定値を、各キーワードに
    対して、累積する装置を含む累積装置と、キーワードに
    対する数値が予め定められた認識レベルを越えるときに
    はいつでも少なくとも予備のキーワード認識決定を発生
    する装置 とからなる認識装置。 (6)前記累積装置が、 そのときに存在するターゲット・パターンに対する最小
    ドエル時間を越さない一連のフレームパターンのそれぞ
    れにおいて累積されたワードスコアに、前記フレームパ
    ターンとそのときに存在するターゲット・パターンの類
    似性を表わす数値測定値および前記フレームパターンと
    すぐ前のターゲット・パターンの類似性を表わす数値測
    定値の良い方を表わす数値量を加算する第1の装置と、
    そのときに存在するターゲット・パターンの最小ドエル
    時間を越えるフレーム時間で生じる各フレームパターン
    において累積されたワードスコアに、前記フレームパタ
    ーンとそのときに存在するターゲット・パターンの類似
    性を表わす数値測定値および前記フレームパターンとす
    ぐ前のターゲット・パターンの類似性を表わす数値測定
    値の良い方を加算する第2の装置と、 最小ドエル時間を越しかつすぐ前のターゲット・パター
    ンに対する数値測定値がそのときに存在するターゲット
    ・パターンに対する数値測定値より良いときに、すぐ前
    のターゲット・パターンを新しいそのときに存在するタ
    ーゲット・パターンとして指示することによりそのとき
    に存在するターゲット・パターンを更新する装置と、そ
    のときに存在するターゲット・パターンに対する前記最
    大ドエル時間を越す・ときにはいつでもすぐ前のターゲ
    ット・パターン、を新しいそのときに存在するターゲッ
    ト・パターンとして選択する装置 とからなる特許請求の範囲第5項記載の装置。 (7)  キーワードに対する前記数値ワードスコアを
    決定する際に使用されるパターンフレームの数のフレー
    ムカウントを保持するカウンタと、キーワードに対する
    累積された数値ワードスコアを該スコアを発生する際に
    使用されたパターンフレームの数によって割ることによ
    り標準化されたワードスコアを発生する装置とを含む特
    許請求の範囲第6項記載の装置。 (8)前記第2の加算装置が、 キーワードのターゲット・パターン要素の最大ドエル時
    間を越えるときにはいつでも、キーワードに対する累積
    されたスコアにペナルティ値を加算する装置を含む特許
    請求の範囲第7項記載の装置。 (9)各キーワードが少なくとも1つのターゲット・パ
    ターンを有するテンプレートによって特徴付けられてお
    り、各!、−ゲット・パターンが少なく1゜ とも1つの短期間パワースペクトルを表わしかつ各ター
    ゲット・パターンがそれと関連した少なくとも1つの必
    須ドエル時間位置および少なくとも1つの任意ドエル時
    間位置を有するものである、可聴信号における少なくと
    も1つのキーワードを認識するための音声分析システム
    において、繰返しフレーム時間で、前記可聴信号からこ
    の可聴信号を表わす一連のフレームパターンを形成する
    段階と。 前記ターゲット・パターンのそれぞれについての前記各
    フレームパターンの類似性の数値測定値を発生する段階
    と、 各ターゲット・パターンの第2のおよび後続の必須ドエ
    ル時間位置に対して、および各ターゲット・パターンの
    任意ドエル時間位置に対して、前のフレーム時間中の前
    のターゲット・パターンドエル時間位置に対する累積さ
    れたスコアとターゲット・パターンに関連した現数値測
    定値との和を累積する段階と、 各キーワードの第1のターゲット・パターンの第1の必
    須ドエル時間位置に対して、前のフレーム時間中の第1
    のドエル時間位置のスコアとキーワードの第1のターゲ
    ット・パターンに関連する現数値測定値との和を累積す
    る段階と、各他のターゲット・パターンの第1の必須ド
    エル時間位置に対して、同じキーワードの前のターゲッ
    ト・パターンに対する最良の終了累積スコアとターゲッ
    ト・パターンに関連する現数値測定値との和を累積する
    段階と、 各キーワードの最後のターゲット・パターンの可能性の
    あるワード終了の累積値に基づいて、認識決定を発生す
    る段階 とからなる認識方法。 01  各ドエル時間位置累積スコアに関連して、ドエ
    ル時間位置における累積スコアに関連したキーワードの
    時間位置長に対応するワード継続時間カウントを記憶す
    る段階を含む特許請求の範囲第9項記載の方法。 (11)  各ドエル時間位置累積スコアに関連して、
    ターゲット・パターンにおけるドエル時間位置の位置シ
    ーケンスに対応するターゲット・パターン継続時間カウ
    ントを記憶する段階を含む特許請求の範囲第10項記載
    の方法。 (ロ)各キーワードが少なくとも1つのターゲット・パ
    ターンを有するテンプレートによって特徴付けられてお
    り、各ターゲット・パターンが少なくとも1つの短期間
    パワースペクトルを表わしかつ各ターゲット・パターン
    がそれと関連した少なくとも1つの必須ドエル時間位置
    および少なくとも1つの任意ドエル時間位置を有するも
    のである、可聴信号における少なくとも参与4各41つ
    のキーワードを認識するための音声分析システムにおい
    て、 繰返しフレーム時間で、前記可聴信号からこの可聴信号
    を表わす一連のフレームパターンを形成する装置と、 前記ターゲット・パターンのそれぞれについての前記各
    フレームパターンの類似性の数値測定値を発生する装置
    と、 各ターゲット・パターンの耐2のおよび後続の必須ドエ
    ル時間位置に対して、・および各ターゲット・パターン
    の任意ドエル時間位置に対して、前のフレーム時間中の
    前のターゲット・パターンドエル時間位電に対する累積
    されたスコアとターゲット・パターンに関連した現数値
    測定値との和を累積する第1の装置と、 各キーワードの第1のターゲット・パターンの第1の必
    須ドエル時間位置に対して、前のフレーム時間中の第1
    のドエル時間位置のスコアとキーワードの第1のターゲ
    ット・パターンに関連する現数値測定値との和を累積す
    る第2の装置と、各他のターゲット・パターンの第1の
    必須ドエル時間位置に対して、同じキーワードの前のタ
    ーゲット・パターンに対する最良の終了累積スコアとタ
    ーゲット・パターンに関連する現数値測定値との和を累
    積する第3の装置と、 各キーワードの最後のターゲット・パターンの可能性の
    あるワード終了の累積値に基づいて、認識決定を発生す
    る装置 とからなる認ミ識装置。 (ロ)各ドエル時間□位置累積スコアに関連して、ドエ
    ル時間位置における累積スコアに関連したキーワードの
    時間位霊長に対応するワード継続時間カウントを記憶す
    る装置を含む特許請求の範囲第12項記載の装置。 (4)各ドエル時間位置累積スコアに関連して、ターゲ
    ット・パターンにおけるドエル時間位置の位置シーケン
    スに対応するターゲット・パターン継続時間カウントを
    記憶する第2の装置を含む特許請求の範囲第13項記載
    の装置。 に) 各キーワードが少なくとも1つのターゲット・パ
    ターンを有するテンプレートによって特徴付けられてお
    り、各ターゲット・パターンが少なくとも1つの短期間
    パワースペクトルを表わしかつ各ターゲット・パターン
    がそれと関連した少なくとも1つの必須ドエル時間位置
    および少なくとも1つの任意ドエル時間位置を有するも
    のである、可聴信号における少なくとも1つのキーワー
    ドを認識するための音声分析システムにおいて、キーワ
    ードに対応する到来可聴信号を複数のサブインターバル
    に分割する段階と、 各サブインターバルを独特の基準パターンに対応させる
    段階と、 前記キーワードを表わす前記可聴入力信号を通す第2の
    パスをつくり、機械により発生されたサブインターバル
    を前記キーワードに与える段階と、各サブインターバル
    に対してインターバルの継続時間を決定する段階と、 同じキーワードを表わす複数の可聴入力信号に対して前
    記段階を繰返す段階と、 各サブインターバルに関連した基準パターンの継続時間
    を記述する統計的データを発生する段階と、 前記集められた統計的データから各基準パターンに対す
    る最小および最大ドエル時間を決定する段階 とかもなるキーワードを表わす基準パターンを形成する
    方法。 に)前記サブインターバルが可聴人力キーワードの始め
    から終りまで最初に均等に離間されている特許請求の範
    囲第15項記載の方法。
JP57174093A 1981-10-05 1982-10-05 音声認識方法および装置 Pending JPS58134698A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US06/308,891 US4489434A (en) 1981-10-05 1981-10-05 Speech recognition method and apparatus
US308891 1994-09-19

Publications (1)

Publication Number Publication Date
JPS58134698A true JPS58134698A (ja) 1983-08-10

Family

ID=23195816

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57174093A Pending JPS58134698A (ja) 1981-10-05 1982-10-05 音声認識方法および装置

Country Status (6)

Country Link
US (1) US4489434A (ja)
JP (1) JPS58134698A (ja)
CA (1) CA1182224A (ja)
DE (1) DE3236885A1 (ja)
FR (1) FR2520911B1 (ja)
GB (2) GB2159996B (ja)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5945583A (ja) * 1982-09-06 1984-03-14 Nec Corp パタンマッチング装置
US4589067A (en) * 1983-05-27 1986-05-13 Analogic Corporation Full floating point vector processor with dynamically configurable multifunction pipelined ALU
US5131043A (en) * 1983-09-05 1992-07-14 Matsushita Electric Industrial Co., Ltd. Method of and apparatus for speech recognition wherein decisions are made based on phonemes
JPS60179797A (ja) * 1983-10-27 1985-09-13 日本電気株式会社 パタンマツチング装置
DE3522364A1 (de) * 1984-06-22 1986-01-09 Ricoh Co., Ltd., Tokio/Tokyo System zum erkennen von sprache
US5218668A (en) * 1984-09-28 1993-06-08 Itt Corporation Keyword recognition system and method using template concantenation model
US4718094A (en) * 1984-11-19 1988-01-05 International Business Machines Corp. Speech recognition system
JPH0632012B2 (ja) * 1985-03-25 1994-04-27 株式会社東芝 音声認識装置
US5774851A (en) * 1985-08-15 1998-06-30 Canon Kabushiki Kaisha Speech recognition apparatus utilizing utterance length information
US4820059A (en) * 1985-10-30 1989-04-11 Central Institute For The Deaf Speech processing apparatus and methods
EP0243479A4 (en) * 1985-10-30 1989-12-13 Central Inst Deaf LANGUAGE PROCESSING ARRANGEMENT AND METHOD.
US4783803A (en) * 1985-11-12 1988-11-08 Dragon Systems, Inc. Speech recognition apparatus and method
US4797929A (en) * 1986-01-03 1989-01-10 Motorola, Inc. Word recognition in a speech recognition system using data reduced word templates
JPS62220998A (ja) * 1986-03-22 1987-09-29 工業技術院長 音声認識装置
GB8613327D0 (en) * 1986-06-02 1986-07-09 British Telecomm Speech processor
US4805218A (en) * 1987-04-03 1989-02-14 Dragon Systems, Inc. Method for speech analysis and speech recognition
DE3711342A1 (de) * 1987-04-03 1988-10-20 Philips Patentverwaltung Verfahren zum erkennen zusammenhaengend gesprochener woerter
US5168524A (en) * 1989-08-17 1992-12-01 Eliza Corporation Speech-recognition circuitry employing nonlinear processing, speech element modeling and phoneme estimation
DE4031421C2 (de) * 1989-10-05 1995-08-24 Ricoh Kk Musteranpassungssystem für eine Spracherkennungseinrichtung
US5202952A (en) * 1990-06-22 1993-04-13 Dragon Systems, Inc. Large-vocabulary continuous speech prefiltering and processing system
TW323364B (ja) * 1993-11-24 1997-12-21 At & T Corp
US5642444A (en) * 1994-07-28 1997-06-24 Univ North Carolina Specialized image processing system architecture and method for image data arrays
CA2202656C (en) 1994-11-01 2002-01-01 Simon Patrick Alexander Ringland Speech recognition
US5832430A (en) * 1994-12-29 1998-11-03 Lucent Technologies, Inc. Devices and methods for speech recognition of vocabulary words with simultaneous detection and verification
AU5738296A (en) * 1995-05-26 1996-12-11 Applied Language Technologies Method and apparatus for dynamic adaptation of a large vocab ulary speech recognition system and for use of constraints f rom a database in a large vocabulary speech recognition syst em
US5825977A (en) * 1995-09-08 1998-10-20 Morin; Philippe R. Word hypothesizer based on reliably detected phoneme similarity regions
US5684925A (en) * 1995-09-08 1997-11-04 Matsushita Electric Industrial Co., Ltd. Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity
US5822728A (en) * 1995-09-08 1998-10-13 Matsushita Electric Industrial Co., Ltd. Multistage word recognizer based on reliably detected phoneme similarity regions
US6314392B1 (en) * 1996-09-20 2001-11-06 Digital Equipment Corporation Method and apparatus for clustering-based signal segmentation
WO1998014934A1 (en) 1996-10-02 1998-04-09 Sri International Method and system for automatic text-independent grading of pronunciation for language instruction
US6023676A (en) * 1996-12-12 2000-02-08 Dspc Israel, Ltd. Keyword recognition system and method
DE19804047C2 (de) * 1998-02-03 2000-03-16 Deutsche Telekom Mobil Verfahren und Einrichtung zur Erhöhung der Erkennungswahrscheinlichkeit von Spracherkennungssystemen
US6243678B1 (en) * 1998-04-07 2001-06-05 Lucent Technologies Inc. Method and system for dynamic speech recognition using free-phone scoring
US6711536B2 (en) * 1998-10-20 2004-03-23 Canon Kabushiki Kaisha Speech processing apparatus and method
US6466906B2 (en) * 1999-01-06 2002-10-15 Dspc Technologies Ltd. Noise padding and normalization in dynamic time warping
US6233557B1 (en) * 1999-02-23 2001-05-15 Motorola, Inc. Method of selectively assigning a penalty to a probability associated with a voice recognition system
US7058573B1 (en) * 1999-04-20 2006-06-06 Nuance Communications Inc. Speech recognition system to selectively utilize different speech recognition techniques over multiple speech recognition passes
US6766295B1 (en) 1999-05-10 2004-07-20 Nuance Communications Adaptation of a speech recognition system across multiple remote sessions with a speaker
US6418409B1 (en) * 1999-10-26 2002-07-09 Persay Inc. Error derived scores for detection systems
EP1096470B1 (en) * 1999-10-29 2005-04-06 Matsushita Electric Industrial Co., Ltd. Normalizing voice pitch for voice recognition
AU2001255338A1 (en) * 2000-05-04 2001-11-12 Motorola, Inc. Method of traceback matrix storage in a speech recognition system
EP1576580B1 (en) * 2002-12-23 2012-02-08 LOQUENDO SpA Method of optimising the execution of a neural network in a speech recognition system through conditionally skipping a variable number of frames
US7672845B2 (en) * 2004-06-22 2010-03-02 International Business Machines Corporation Method and system for keyword detection using voice-recognition
US8543393B2 (en) * 2008-05-20 2013-09-24 Calabrio, Inc. Systems and methods of improving automated speech recognition accuracy using statistical analysis of search terms
US9711133B2 (en) * 2014-07-29 2017-07-18 Yamaha Corporation Estimation of target character train

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56823A (en) * 1979-04-26 1981-01-07 Gen Electric Manufacture of copolyester carbonate
JPS56116148A (en) * 1980-02-15 1981-09-11 Nec Corp Audio typewriter
JPS57174094A (en) * 1980-08-18 1982-10-26 Ici Ltd Separation of poly (beta-hydroxybutyric acid) from cell

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3816722A (en) * 1970-09-29 1974-06-11 Nippon Electric Co Computer for calculating the similarity between patterns and pattern recognition system comprising the similarity computer
US4059725A (en) * 1975-03-12 1977-11-22 Nippon Electric Company, Ltd. Automatic continuous speech recognition system employing dynamic programming
GB1557286A (en) * 1975-10-31 1979-12-05 Nippon Electric Co Speech recognition
US4038503A (en) * 1975-12-29 1977-07-26 Dialog Systems, Inc. Speech recognition apparatus
US4107460A (en) * 1976-12-06 1978-08-15 Threshold Technology, Inc. Apparatus for recognizing words from among continuous speech
US4156868A (en) * 1977-05-05 1979-05-29 Bell Telephone Laboratories, Incorporated Syntactic word recognizer
US4228498A (en) * 1977-10-12 1980-10-14 Dialog Systems, Inc. Multibus processor for increasing execution speed using a pipeline effect
US4301329A (en) * 1978-01-09 1981-11-17 Nippon Electric Co., Ltd. Speech analysis and synthesis apparatus
US4227176A (en) * 1978-04-27 1980-10-07 Dialog Systems, Inc. Continuous speech recognition method
US4227177A (en) * 1978-04-27 1980-10-07 Dialog Systems, Inc. Continuous speech recognition method
US4241329A (en) * 1978-04-27 1980-12-23 Dialog Systems, Inc. Continuous speech recognition method for improving false alarm rates
JPS5525150A (en) * 1978-08-10 1980-02-22 Nec Corp Pattern recognition unit
JPS597120B2 (ja) * 1978-11-24 1984-02-16 日本電気株式会社 音声分析装置
US4336421A (en) * 1980-04-08 1982-06-22 Threshold Technology, Inc. Apparatus and method for recognizing spoken words

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56823A (en) * 1979-04-26 1981-01-07 Gen Electric Manufacture of copolyester carbonate
JPS56116148A (en) * 1980-02-15 1981-09-11 Nec Corp Audio typewriter
JPS57174094A (en) * 1980-08-18 1982-10-26 Ici Ltd Separation of poly (beta-hydroxybutyric acid) from cell

Also Published As

Publication number Publication date
CA1182224A (en) 1985-02-05
GB8501043D0 (en) 1985-02-20
FR2520911A1 (fr) 1983-08-05
US4489434A (en) 1984-12-18
GB2159996A (en) 1985-12-11
GB2159996B (en) 1986-05-21
DE3236885A1 (de) 1983-09-22
FR2520911B1 (fr) 1986-12-26
GB2107102B (en) 1986-02-05
GB2107102A (en) 1983-04-20

Similar Documents

Publication Publication Date Title
JPS58134698A (ja) 音声認識方法および装置
US4489435A (en) Method and apparatus for continuous word string recognition
US4481593A (en) Continuous speech recognition
US4038503A (en) Speech recognition apparatus
KR910002198B1 (ko) 음성인식방법과 그 장치
CA1172363A (en) Continuous speech recognition method
KR100312919B1 (ko) 화자인식을위한방법및장치
JP3114975B2 (ja) 音素推定を用いた音声認識回路
US20060253285A1 (en) Method and apparatus using spectral addition for speaker recognition
EP0118484B1 (en) Lpc word recognizer utilizing energy features
US7299173B2 (en) Method and apparatus for speech detection using time-frequency variance
US5806031A (en) Method and recognizer for recognizing tonal acoustic sound signals
US5159637A (en) Speech word recognizing apparatus using information indicative of the relative significance of speech features
JP2001520764A (ja) スピーチ分析システム
JPS59126598A (ja) 音声認識方法および装置
JPH04369698A (ja) 音声認識方式
JPH01255000A (ja) 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法
JPS59127099A (ja) 連続音声認識の改良
JPS59126599A (ja) 連続ワ−ドストリング認識方法および装置
JPH0426479B2 (ja)
JP3288052B2 (ja) 基本周波数抽出方法
CA1199730A (en) Method and apparatus for continuous word string recognition
JP2577891B2 (ja) 単語音声予備選択装置
JPS6228479B2 (ja)
JPH0117599B2 (ja)