JPS59126599A - 連続ワ−ドストリング認識方法および装置 - Google Patents

連続ワ−ドストリング認識方法および装置

Info

Publication number
JPS59126599A
JPS59126599A JP58000551A JP55183A JPS59126599A JP S59126599 A JPS59126599 A JP S59126599A JP 58000551 A JP58000551 A JP 58000551A JP 55183 A JP55183 A JP 55183A JP S59126599 A JPS59126599 A JP S59126599A
Authority
JP
Japan
Prior art keywords
keyword
pattern
dwell time
target pattern
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP58000551A
Other languages
English (en)
Inventor
ステイ−ブン・ロイド・モシエル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Exxon Mobil Corp
Original Assignee
Exxon Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Exxon Corp filed Critical Exxon Corp
Priority to JP58000551A priority Critical patent/JPS59126599A/ja
Publication of JPS59126599A publication Critical patent/JPS59126599A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 本発明は、音声認識方法および装置に関し、特定すると
、連続音声信号中のワードストリングを実時間で認識す
る方法および装置に関する。
適当に処理された未知の隔絶された音声信号を1または
複数の子め用意された既知のキーワード表示と比較する
ことにより隔絶された発声を認識するため、従来より種
々の音声認識システムが提案されて来た。本明a謂にお
いて、「キーワード」なる用語は、結合された1群の音
素および音響を意味するのに使用され、例えば、音節の
一部、ワード、ワードストリング、句等である。多くの
システムはその成功度が限定されたものであったが、特
に1つの装置は、隔絶されたキーワードを認識するのに
商業上利用されて成功を納めた。このシステムは、19
77年7月26日付で特許され、本出願の傅受入に譲渡
された米国特許第4.038.503号に記載される方
法にしたがってはy動作し、未知の音声信号データの境
界が認識システムにより測定されるバックグラウンドノ
イズまたは無音状態のいずれかであることを条件として
、限定された範囲のキーワードの1つを認識する方法を
提供するもので、この方法は好結果をもたらした。この
システムは、未知の音声信号を生じる期間は、十分に限
定されており、単一のキーワードの発声しか含まないと
いう推定に依存する。
会話音声のよ)な連続音声信号においては、キーワード
の境界を波線的に認めることができないが、到来音声デ
ータを区分するために、すなわち音素、音節、ワード、
文章等の言語単位の境界をキーワード認識プロセスの開
始に先立って決定する種々の方法が考案された。しかし
ながら、これらの従来の連続音声システムは、満足でき
る分割方法が見出されないこともあって、その成功は限
定された。さらに1.他の実質的な問題が存在する。
例えば、−質的には、限定された語食しか低誤報率で認
識できないこと、認識の精度が、異なる話者の音声特性
の差に非常に敏感であること、システムが、例えば普通
の電話通信@置で伝送される可聴信号に普通生じるよう
な分析されつ〜ある可聴信号の歪に非常に敏感であるこ
となどである。
米国特許第4.227176号、第4.241.329
号および第4,22ス177号に記載される連続音声認
識方法は、連続音声中のキルワードを実時間において認
識する商業的に容認できる有効な手法についてそれぞれ
記述している。これらの特許に記載される一般的方法は
、現在商用に供せられており、実験的にもまた実用試験
においても、話者不依存の状況で高忠実性と低誤率を提
供すること 、が分った。しかしながら、現今の技術の
最先端にあるこれらの技術でさえも、誤報率および話者
不依存特性の両面において欠点を有する。
上述の米国特許に記載される連;読音声認識法は、主と
して、連続音声中の複数のキーワードを認識ないし確認
する方法に向けられる。他の応用においては、連続ワー
ドストリングが認識され得るが、この場合、認識プロセ
スのとして連続ワードストリングの個々のワード要素の
各々が認識される。
本明細書において連続ワードストリングとは、無音状態
により境界を定められた複数の認識可能な要素をいう。
これは、例えば、境界が波線的に分る隔絶ワードの応用
例に関して上述した商業的装置VC関係づけられ木。し
かしながら、こ〜では、境界すなわち無音状態は未知で
あり、認識システムそれ自体により決定されねばならな
い。加えて、試験されっ又ある要素は、もはやキーワー
ド要素でないが、複数の要素が、ワードス) IJング
を形成するように成端r・て−列に並べられる。連続ワ
ードストリングを認識するための技術1でついては、従
来、より種々の方法および装置が示唆されている。
しかしながら、これらの装置および方法は、例えば、誤
報率、話者に対する不一依存性および実時間動作におい
てやはり種々の欠点を有する。
それゆえ、本発明の主たる目的は、連続的なマークのな
い音声信号における連続ワードストリングや認R)/C
有効性を発揮する音声認識方法および装置を提供するこ
とである。
本発明の特定の目的は、未知の音声大刀信号データの位
相および振幅歪に比較的不感知であり、未知音声入力信
号の分節速度の変化に比較的不感知であり、異なる話者
したがって異なる音声特性に等し7く十分に応答し、信
頼性があり、誤報率が低く、しかも実時間で動作するこ
の種の方法および装置を提供することである。
本発明について景観すると、本発明は、可聴信号を分析
する方法および装置に関する。特定すると、可聴信号は
音声信号であり、方法および装置は、音声中のキーワー
ドを認識する。各キーワードは、少なくとも1つのター
ゲットテンプレートを有するキーワードテンプレートに
より特徴づけられる。各ターゲットパターンは、少なく
とも1つの短期間パワスペクトルを表わし、各パターン
は、少なくとも1つの必須ドウエル時間位置と、それに
続く少なくとも1つの任意ドウエル時間位置を有してい
る。一般k、各ターゲットパターンは、複数の必須のド
ウエル時間位置を有している。
認識方法は、反復的フレーム時間において、音声信号か
ら該音声信号を表わす一連のフレームパターンを形成す
ることを特徴とする。ついで、各フレームパターンと各
ターゲットパターンの類似性に関する測定数値が発生さ
れる。本方法は、さらK、ターゲットパターンの必須お
よび任意ドウエル時間位置の各々に対して、この測定数
値を使用して、いま形成された音声表示フレームパター
ンと各ターゲットパターンのドウエル時間位置との整列
を表わす数値を累積し、この判断に基づいて予定された
事象が音声信号中に生じたか否かの認識判断を行なうこ
とを特徴とする。好ましくは、この予定された事象は、
「無音状態(サイレント)」の認識である。
他の側面として、前記累積段階は、(1)各ターゲット
パターンの第2および後続のドウエル位置に対して、先
行のフレーム時間中の先行のターゲットパターンドウエ
ル時間位置に対する累積スコアとターゲットパターンと
関連する現在の測定数値との和を累積し、(2)各キー
ワードの第1ターゲツトパターンの第1の必須のドウエ
ル時間位置に対して、キーワードの終了と関連される先
行のフレーム時間中の最良の蓄積スコアとキーワードの
第1ターゲツトパターンと関連する現在測定値との和を
累積し、そして(3)各個のターゲットパターンの第1
のドウニル位装置に対して、同じキーワードの先行のタ
ーゲットパターンに対する最良の終了累積値とターゲッ
トパターンと関連する現在測定値との和を累積すること
を特徴とする。
本発明の方法は、さらに、各フレーム時間位置との関連
において、そのフレーム時間位置において終了する最良
のスコアおよび有効性を有するキーワードのフレーム時
間位置における識別および継続時間を記憶し、そして各
ドウエル時間位置の累積スコアとの関連において、その
ドウエル時間位置における累積スコアと関連するキーワ
ードの時間位首長に対応するワード時間計数値を記憶す
ることを特徴とする。その際には、発生段階は、記憶さ
れたキーワード識別および継続時間情報を、ワードスト
リング中の各キーワードを決定するためにトレースパッ
クすることを含む。
さらに他の側面として、本発明の方法は、ドウエル時間
位置と対応する各累積スコアと関連してキーワード継続
時間計数値を記憶することを特徴とする。この継続時間
計数値は、現在キーワードパターンに対する位置スコア
を形成するために累−積された測数値の数、すなわち時
間位置計数値に対応する。さらに他の側面とt2て、本
方法は、累積されたスコアの転送をシンタックスft1
l制御要素に応答して方向づけることを特徴とする。
本発明の装置は、ハードウェア、ソフトウェアまたは両
者の組合せのいずれにおいても遂行できる。本発明の方
法を実施するためのハードウェアについては追って詳細
に説明する。
以下、図面を参照して本発明を好ましい具体例について
説明する。
本明細書に記載される特定の好ましい具体例においては
、音声認識は、到来可聴データ信号、一般に音声の特定
のアナログおよびディジタル処那を行なう特別構成の電
子装置と、特定の他のデータ変換段階および数値評価を
行なうため本発明にしたがってプログラムされた汎用デ
ィジタルコンピュータを含むシステムにより遂行される
。本システムの−・−ドウエア部分とソフトウェア部分
の間のタスクの分割は、音声認識を安価な価格で実時間
で遂行し得るシステムを得るためになされたものである
。しかしながら、この特定のシステムのハードウェアで
遂行されつへあるタスクのある部分はソフトウェアで十
分遂行され得るであろうし、また本具体例のソフトウェ
アプログラミングで遂行されつNあるタスクのある部分
は、他の具体例においては特定目的の回路で遂行し得る
であろう。この後者に関連しては、利用できる場合に、
装置のハードウェアおよびソフトウェアの実施形態につ
いて説明する。
本発明の1側面に依れば、信号が例えば電話線により歪
を生じた場合でも連続音声信号中のワードストリングを
認識する装置が提供される。すなわち、特に第1図にお
いて、10で指示される音声入力信号は、任意の距離お
よび任意数の交換機を包含する電話線を介して炭素送話
機および受話機により発生される音声信号と考えること
かでNる。それゆえ、本発明の代表例は、電話システム
を介して受信される音声データの連続ワードストリング
を認識することである。他方、入力信号は、例えば、無
線通信リンク例えば商業放送局、私設辿信リンクから取
り出される音声信号、または装置近傍に立つオペレータ
の音声入力信号のようなどのような音声信号でもよい。
以上の説明から明らかなように、本発明の方法および装
置は、一連の音響、音素、またはその他の認識可能な符
号を含む音声信号の認識と関係する。本明細書において
は、「ワード」、「要素」、「一連のターゲットハター
ン」、「テングレートパターン」マたは「エレメントテ
ンプレート」のいずれかについて言及されるが、この5
つの用語は、一般的なものであり、等価なものであると
考えられる。これは、本方法および装置により検出され
認識され得るワードストリングを構成するように結合す
る鞘識可能な一連の音響またはその代替物を表両する便
利な方法である。これらの用語は、単一の音素、音節、
または音響から一連のワード(又法的意味における)な
らびに単一のワードに至るいずれをも包含するように広
くかつ一般的にブW釈されるべきである。
アナログ−ディジタル(A/l))コンバータ13は、
線10上の到来アナログ音声信号データを受信して、そ
のデータの信号振幅をディジタル形式に変換する。例示
のA/Dコンバータは、入力信号データを12ビツトの
2進表示に変換するが、その変換は、8000回/秒の
割合で起こる。
他の具体例においては、他のサンプリング速度が採用で
きる。例えば、高品質信号が利用できる場合は、16K
Hzの速度を使用できるA/D変換器13は、その出力
を線15を介して自己相関器17に供給する。自己相関
器17はディジタル入力信号を処理して、1秒間に10
0回短期間自己相関関数を発生し、図示のように、線1
9を介してその出力を供給する。各自己相関関数は、3
2の値またはチャンネルを有し、各値は30ビツトの解
に計算される。自己相関器は、第2図と関連して追って
より詳細に説明する。
線19上の自己相関関数は、フーリエ変換装置211(
よりフーリエ変換され、神26を介して対応する短期間
窓処理パワスペクトルを発生ずや。
スペクトルは、自己相関関数と同じ繰返し数で、すなわ
ち100回/秒の割合で発生され、そして各短期間パワ
スペクトルは、各16ピツトの解を有する31の数値期
間を有する。理解されるように、スペクトルの51の期
間の各々は、ある周波数バンド°内の単一のパーフを表
わす。フーリエ変換装置はまた、不要な@接バンドレス
ポンスを減するためハニングまたは類似の窓関数を含む
のがよい。
例示の具体例において、フーリエ変換ならびに後続の処
理段階は、好ま[−りは、本方法にしたがって反復的に
必要とされる演算をスピード化するだめの周辺装置を利
用して、適当にプログラムされた汎用ディジタルコンピ
ュータの制御下で遂行されるのがよい。採用されるコン
ピュータは、マサチューセッツ所在のディジタル・エク
イツブバンド・コーポレーションにより製造されたFD
P−11型である。採用される特定のアレイプロセッサ
は、本出願の譲受人に譲渡された米国竹許第4、228
.4.98号に記載されている。第3図と関連して後述
されるプログラムは、これらの利用可能なディジタル処
理ユニットの能力および特性には父基づいて設定される
短期間窓処理パワスペクトルは、25で指示されるよう
に周波数レスポンスについて等化される。
しかして、この等化は、追、って詳細に示されるように
各周波数バンドまたはチャンネル内に起こるピーク振幅
の関数として遂行される。線26上の周波数レスポンス
を等化されたスペクトルは、100/秒の割合で発生さ
れ、そして各スペクトルは、16ビツトの精度で評価さ
れる!+1の数値期間を有する。到来音声データの最終
的評価を容易にするため、線26上の周波数レスポンス
を等価された窓処理スペクトルは、35で指示されるよ
うに振幅変換を受ける。これは、到来スペクトルに非直
線的振幅変換を課する。この変換については追って詳細
に記述するが、この点においては、未知の到来音声信号
が基準開傘のターゲットパターンテンプレートと整合し
得る偕度を改善するものであることを言及しておこう。
例示の具体例において、この変換は、スペクトルを基準
記章の要素を表わすパターンと比較する前のある時点に
おいて周波数を等化された窓処胛スペクトルのすべてに
ついて遂行される。
線38上の振幅変換され等化された短期間スペクトルは
、ついで、以下で説明されるように40でエレメントテ
ンプレートと比較される。42で指示される基準パター
ンは、変換・等価スペクトルを比較し得る統計態様の基
準開傘の要素を表わす。「サイレント」が検出される度
に、いま受信されたワードス) IJングの同一性に関
して決定がなされる。これは44で指示される。このよ
うだして、比較の厳密さにしたがって候補ワードが選択
され、例示の具体例においては、選択工程は、キーワー
ドの取逃しの可能性を巾小にするように設計される。
第1A図を参照すると、本発明の音声認識システムはコ
ントローラ45を採用[7ているが、これは、例え−゛
、P 1.) P −11のような汎用ディジタルコン
ピュータとし得る。例示の具体例において、コントロー
ラ45は、プリプロセッサ46から予処理された音声デ
ータを受は取る。プリプロセッサについては、第2図と
関連して詳細に説明する。
プリプロセッサ46は、線47を介して音声入力アナロ
グ信号を受信し、インク7フエース線48を介して制御
プロセッサすなわちコントローラに処理されたデータを
供給する。
一般に、制御プロセッサの動作速度は、汎用プロセッサ
であると、到来データを実時間で処理するに十分速くな
い。この結果、要素45の処理速度を有効に増すために
、種々の特別目的のハードウェアを採用するのが有利で
ある。本発明の瞼受入に譲渡゛された米IN特許第4.
228.498号に記載されるようなベクトル処理装置
48aは、パイプライン効果を利用することにより相当
増大されたアレイ処理能力を棹供する。加えて、第4.
5および6図と関連して詳述するように、尤度関数プロ
セッサ48bは、装置の動作速度をさらに1o倍t??
fためベクトルプロセッサと関連して使用できる。
本発明の好ましい具体例においては制御プロセッサ45
はディジタルコンピュータであるが、第10図と関連し
て説明される他の特定の具体例においては、処理能力の
和尚の部分が、淫次解読プロセッサ49において制御プ
ロセッサの外部で実施される。このプロセッサの構造に
ついては、第10図と関連して追って詳細に説、明する
。このように、こ匁に例示される音声認識を¥確するた
めの装置は、その速度、およびハードウェア、ソフトウ
ェアまたはハードウェアおよびソフトウェアの有利な組
合せで実施できる点において犬なる変幻性を有するもの
である。
次にプロセッサについて説明する。
第2図に例示される装@ I/Cおいて、固有の平均化
の作用をもつ自己相関機能は、41oを介して供給され
る到来アナログ可聴データ、一般的には音声信号に作用
するアナログ−ディジタルコンバータ15により発生さ
れるディジタルデータ列に対して遂行される。コンバー
タ16は、線15上にディジタル入力信号を発生する。
ディジタル処理機能ならびにアナログ−ディジタル変換
は、クロック発振器510制御下で調時される。クロ7
ツク発振器は、256.000パルス−7秒の基本タイ
ミング信号を発生し、そしてこの信号は、周波数分割器
52 VC供給されて、800Gパルス/秒の第2のタ
イミング信号を得る。低速タイミング信号は、アナログ
−ディジタル変換器13ならびにラッチレジスタ53を
制御する。しかして、このラッチレジスタは、次の変換
が完了するまで最後の変換の12ビツトの結果を保持す
るものである。
自己相関積は、レジスタ53に含まれる数に32ワード
シフトレジスタ58の出力を乗算するディジタルマルチ
プライヤ56により発生される。
レジスタ58は、循環モードで動作し、高速クロツク周
波数により駆動されるから、シフトレジスタデータの1
循環は、各アナログ−ディジタル変換ごとに遂行される
。シフトレジスタ58に対する入力は、1回の循環サイ
クル中に成度しジスク53から供給される。ディジタル
マルチプレクサ56に対する一方の入力は、ラッチレジ
スタ56から直接供給され、他方の入力は、シフトレジ
スタの現在出力からマルチプレクサ59を介して供給さ
れる。乗算は高速クロック胃波数で遂行される。
このようにし7て、A/D変換から得られる各個は、先
行の31の変換値の各々と乗算される。技術に精通した
ものには明らかであるように、それにより発生される信
号は、入力信号を、それを32の異なる時間増分だけ遅
延した信号と乗算することと等価である(1つは遅延O
である)。O遅延相関を得るため、すなわち信号の積を
生ずるため、マルチプレクサ59は、シフトレジスタ6
0に各所しい値が導入されつNある時点に、ラッチレジ
スタ53の現在値をそれ自体と乗算する。
このタイミング機能は、60で指示される。
これも技術にffJaしたものには明らかなように、1
回の変換とその31の先行データから得られる積は、連
光なサンプリング間隔についてのエネルギ分布すなわち
スペクトルを公正に表わさない。
したがって、第2図の装置は、これらの複数組の積の平
均化を行なう。
平均化を行なう累積工程は、加算器65と接続されて1
組の32の累積器を形成する32ワードシフトレジスタ
63により提供される。すなわち、各ワードは、ディジ
タルマルチプレクサからの対応する増分に加、算ぎれた
後、再循環され得る。この循環ループは、低周波クロッ
ク信号により駆動されるN分割器69により制御される
ゲート67を通る。分割器69は、シフトレジスタ63
が読み出されるまでに累積されしたがって平均化される
瞬間的自己相関関数の数を決定するファクタにより、低
周波クロックを分割する。
例示の具体例においでは、読み出されるまでに80のサ
ンプルが累積される。換言すると、N分割器69に対す
るNは80VC等しい。80の変換サンプルが相関づけ
られ、累積された後、分割器69は、線72を介してコ
ンピュータ割込み回路71をトリガする。この時点に、
シフトレジスタ63の内容は、適当なインターフェース
回路73を介[7てコンピュータメモリに4次読み込ま
れる。
レジスタ内の32の逐次のワードは、インターフェース
73を介してコンピュータに順番に提示される。技術に
精通したものには明らかなように、周辺ユニット、すな
わち自己相1.E器プリプロセッサからコンピュータへ
のこのデータ転送は、普通、直接メモリアクセス法によ
り遂行されよう。80oOの初サンプリング速度で80
のサンプルが平均化されることに基づき、毎秒100の
平均化相関関数が供給されることが分ろう。
シフトレジスタの内容がコンピュータから読み出されて
いる間、ゲート67が閉成されるから、シフトレジスタ
の各ワードは、0にリセットされ、累積プロセスの再開
を可能にする。
数式で表わすと、第2図に示される装置の動作は下記の
ごとく記述できる。
アナログ−ディジタル変換器が時間列S (t+を発生
すると仮定すると(コ瓦′Kt=o、′I′o、2To
・・・、 To  はサンプリング間隔(例示の具体例
においてj/8000秒))、第2図の例示のディジタ
ル相関回路は、始動時のあいまいさを無視すると、次の
相関関数を計算するものと考えることができる。
こx+cj=o 、 1,2 、・ 、31、L ’=
 80 To 。
160TO7・・、8on′ro、・曲・  である。
これらの相関関数は一第1図の線19上の相関出方に対
応する。
第3図を参照して説明すると、ディジタル相関器は、各
10ミリ秒毎に1相関関数の割合で一連のデータブロッ
クをコンピュータに連続的に伝送するように動作する。
これは第6図に77で指示される。各データブロックは
、対応する細分時間間隔に誘導される自己相関関数を表
わす。上述のように、例示の自己相関関数は、単位秒当
り100の32ワード関数の割合でコンピュータに揚供
される。この分析間隔は、以下において「フレーム」と
称される。
第1の例示の具体例において、自己相関関数の処理は、
適当にプログラムされた専用ディジタルコンピュータで
遂行される。ボンピユータプログラムにより提供される
機能を含むフローチャートが第3図に示されている。し
かしながら、段階の種々のものは、ソフトウェアでなく
てハードウェア(以下に説明する)VCよっても遂行で
き、また第2図の装置により遂行される撓能のあるもの
は、第3図のフローチャートの対応する(各正によりソ
フトウェアでも遂行できることを指摘しておく。
第2図のディジタル相関器は、1間的に発生される自己
相関関数の時間平均動作を遂行するが、コンピュータに
読み出される平均相関関数は、サンプルの111次の処
理および評価と干渉し合うようなある種の変則的不連続
性または不均一性を含む。
したがって、データの各ブロック、すなわち各自己相関
関数a(jtt)は、まず時間に関して平滑化される。
これは、第3図のフローチャートにおいて7Bで指示さ
れる。好ましい平滑法は、平滑化自己相関出力a5(j
tt)が下式により与えられるものである。
a5(j It)−〇、 a(jtt)+C,a(j 
、t−T)+C2a(j 1t−2T)(2) こ〜にa(jtt)  は式(1)−において定義され
た不平滑入力自己相関関数であり、a、(j It)は
平滑自己相関出力であり、jは遅延時間を表わし、tは
実時間を表わし、Tは連続的に発生される自己相関関数
間の時間間隔(フレーム)を表わし、好ましい具体例に
おいては0.01秒に等しい。重み付は関数C8,C4
+ C2は、例示の具体例においては好ましくは’/4
.1/2 、1/4  IC選ばれるのがよいが、他の
値も選択されよう。例えば、20H2のカットオフ周波
数をもつガウスのインパルスレスポンスを近似する平滑
化関数をコンピュータソフトウェアで実施できよう。し
かしながら、実験によれば、式(2)に例示される実施
容易な平滑化関数で満足な結果が得られることが示され
た。上述のように、平滑化関数は、遅延の各個Jにつ℃
・て別々に適用される。
以下の分析は、音声信号の短期間フーリエノくワスペク
トルに関する種々の操作を含むが、/・−ドウエアを簡
単にしかつ処理スピードを上げるため、自己相関関数の
周波数領域への変換は、例示の具体例においては8ビツ
トの算術で実施される。5KHz近傍のバンドパスの高
゛域の端では、スペクトルパワ密度が8ビツト債におけ
る解像に不十分なレベルに減する。それゆえ、システム
の周波数レスポンスは、6db/オクターブの上昇率で
傾斜される。これは79で指示される。この高量波数の
強調は、その変数すなわち時間遅延に関する自己相関関
数の二次微分を取ることにより遂行される。
微分操作は、次式のごとくである。
b(j、t)=−a(j+1.t)+22(jtt)−
a(j−1,t)    (3+j=oに対する微分値
を求めるために、自己相関関数は0に関して対称である
から、 a(−J、t)−a(+J、t)であると仮定する。ま
た、(32)に対するデータはないから、J=31にお
ける微分値は、j=30のときの微分値と同じであると
仮定する。
第3図のフローチャートで示されるように、分析手続き
の高周波強調後の次の段階は、自己相関のピーク絶対値
を見出すことにより現在のフレーム間隔における信号パ
ワを算出することである。
パワの概算値P(t)は次のごとくなる。
P(t) = m、qx  1b(i、t)1    
    (418ビットスペクトル分析のための自己相
関関数を用意するため、平滑化自己相関関数はP (1
1に関してブロック標準化され(80にて)、各標準価
値の−E位8ビットがスペクトル分析・・−ドウエアに
入力される。それゆえ、標準化されかつ平滑化された自
己相関関数は次のごとくなる。
C(jet)−127b(j It)/P、(t)  
     f51ついで、81で指示されるように、時
間に関して平滑化され、周波数強調され、標準化された
各相関関数に余弦フーリエ変換が適用され、31点のパ
ワスペクトルを生成する。余弦値のマトリックスは次式
で与えられる。すなわち、 S(i、j)=126g(i)(cos(2πi/8o
oO)f(j))+J−Ot1*2t・・・・・・、 
31          f61こ〜に、S(i、j)
は、時刻tにおける、f(j)Hzに中心を置くバンド
のスペクトルエネルギ、g m=1/2 (1+cos
 2πi/63)は、サイドロープな減するための(ハ
ミング)窓関数エンベロープである、および f(J)=30+1000(0,05523+0.43
8)1/”63):Iz+  f71j=o、1,2.
・・・・・・、31 これは、主楽音ピッチいわゆる「メル」曲線上に等しく
離間された分析周波数である。明らかなように、これは
、約3000〜5000Hzの代表的通信チャンネルの
バンド幅の周波数に対する主ピッチ(メルスクール)周
波数軸線間隔に対応する。
スペクトル分析は、−31から+31までの遅れを加算
を必要とするから、自己相関が0に関して対称であると
いうことを仮定すれば、Jの正値しか必要としない。し
かしながら、遅れ0の項を2度計算することを避けるた
めに、余弦マトリックスは次のように調節される。
S(0,j)=12672=63.  余jに対12て
    (8)かくして、計算されたパワスペクトルは
次式により与えられる。
(9) こ〜で第j番目の結果は周波数f fjlに対応する。
これも明らかなように、各スペクトル内の各点すなわち
値は、対応する周波数バンドを表わす。
このフーリエ変換は従来のコンピュータハードウェア内
で完全に遂行でき、るが、外部のハードウェアマルチプ
レックサまたは高速フーリエ変換(FFT)周辺&置を
利用すれば、工程はかなりスピード化し得よう。しかし
ながら、この種のモジュールの構造および動作は技術上
周知であるから、こ〜では詳細に説明しない。ハードウ
ェア高速フーリエ変換周辺装置には、周波数平滑機能が
組み込まれるのが有利であり、この場合、各スペクトル
は、上述の好ましい(ハミング)窓重み付は関数g(1
)に従って周波数が平滑される。これは、ノ・−ドウエ
アによるフーリエ変換の実施に対応するブロック85の
83で実施される。
バックグラウンドノイズが相当ある場合、バックグラウ
ンドのパワスペクトルの概算値が、この段階においてS
’(j、t)から減算されねばならない。
ノイズを表わすために選択しまたフレーム(1または複
a)Kは、音声信号を含ませてはならない。
雑音フレーム間隔を選択する最適のルールは、応用にし
たがって変わるであろう。話者が例えば言声認識装装置
により制御される侵械で相互通係に掛わり合う場合、例
えば、機械がその音声応答ユニットによる話しを終了し
た直後の間隔に任意にフレームを選択するのが便利であ
る。拘束がより少ない場合には、過ぎ去った1ないし2
秒の間の音声入力の最小の振幅のフレームを選択するこ
とによりノイズフレームを見出すことができる。追って
詳細に酸1明されるように、最小振幅「サイレント」パ
ターン、実際には2つの交互の7サイレント」パターン
の使用は、有利な装置動作をもたらすことは明らかであ
る。
逐次の平滑パワスペクトル゛が高速フーリエ変換周辺装
着85から受信されると、以下で脱刷されるように、周
辺装置85からのスペクトルに対するピークパワスペク
トルエンペロープ(−AIum異なる)を決定し、それ
に応じて高速フーリエ変換装置の出力を変更することに
より通信チャンネルの等化が行なわれる。到来する窓処
理パワスペクトルS’1lt) (こ又にjはスペクト
ルの複数の周波数に割り当てられる)に対応しかつ該ス
ペクトルにより変更された新たに発生された各ピーク振
幅は、各スペクトルチャンネルまたはバンドに対する高
速アタック、低速デケイ、ピーク検出機能の結果である
。ウィントートパワスペクトルは、対応するピーク振幅
スペクトルのそれぞれの期間に関して積率化される。こ
れは、87で指示される。
例示の具体例においては、新しいウィンドートスベクト
ルを受は取る前に決定された「古い」ピーク振幅スペク
トルp(jlt−T)が、新たに到来したスペクトルS
’(j tt)  と周波数バンドと周波数バンドとを
比較するやり方で比較される。ついで、新しいピークス
ペクトルp(、i、t)が、下2の規則にしたがって発
生される。「古い」ピーク振幅スペクトルの各バンドの
パワ[1119は、この具体例においては固定分数、例
えば1023/1024と乗算される。、これは、ピー
ク検出関数の低速デケイ部分に対応する。到来スペクト
ルs’(Lt)の周波数バンドJのパワ振幅が、崩壊ピ
ーク振幅スペクトルの対応する周波数バンドのパワ振幅
より太きければ、その(またはそれらの)同波数バンド
に対する崩壊ピーク振幅スペクトル値は、到来するウィ
ンドートスベクトルの対応スるバンドのスペクトル値と
置き代えられる。これは、ピーク検出関数の高速アタッ
ク部分に対応する。数学的には、ピーク検出関数は次の
ように表切、できる。すなわち p(j 、t)==max p(Jlt−T)−(1−
E)・P(t)・S(j lt)  +J=o、1 、
・・・・・・、 31             LI
OIこへに、jは周波数バンドの各々に割り尚てられ、
p(j t t)は生じたピークスペクトルであり、1
’(Jlt−T)は「古い」すなわち先行のピークスペ
クトルであり、ジ(Jlt) は新たに到来した部外的
に処理されたパワスペクトルであり1、P(t)は時刻
tにおゆろパワ概算値であり、Eはデケイパラメータで
ある。
式f101にしたがうと、ピークスペクトルは、より高
値のスペクトル入力の不存在の場合、i−Eの率で通常
崩壊する。普通、Eは1/1024 に等しい。しかし
ながら、サイレントの期間中、特に通信チャンネルまた
は音声特性の迅速な変化が予測されない場合、ピークス
ペクトルリゾケイを許すことは望ましくなかろう。サイ
レント7レームを限定するためには、バックグラウンド
ノイズフレームを選択するのに採用されたのと同じ方法
が採用される。過ぎ去った128のフレームの振幅(P
it)の平方根)が検査され、最小値が見つけられる。
現在フレームの振幅がこの最小値の4倍より小さげれば
、現在フレームはサイレントであると決定され、Eに対
して、値1/1024の代わりに値10」が置き代えら
れる。
ピークスペクトルが発生された後、生じたピーク振幅ス
ペクトルp(j、t)は、各周波数バンドピーク値を新
たに発生されたピークスペクトルの隣接する周波数に対
応するピーク値と平均することKより、周波数が平滑化
される(89)。しかし。
て、平均値に寄与する全周波数バンド幅は、フォーマン
ト周波数間の代表的周波数間隔に棚、ね等しい。音声認
識の技術に−jしたものには明らかなように、この間隔
は、約1000H2である。この特定の方法による平均
化により、スペクトル内の有用情報、すなわちフォーマ
ント共鳴を表わす局部的変動が維持され、他方、周波数
スペクトルの全体的な強調は抑制される。好ましい札体
的においては、ピークスペクトルは、7つの隣接する周
波数バンドをカバーする移動平均関数により周波数に関
して平滑化される。平均関数は次のごとくである。
k=1−3 パスバンドの終端において、P(k、t)は、0より小
さいkおよび61より大きいkに対して0となる。標準
化エンベロープh (jlは、実際に加算すれた有効デ
ータ要素の数を考慮に入れる。かくして、+1(0)=
7/4、h (1)=715、h(2)=776、h(
3)=1.−・・、 +1(28)=1 、 h(29
)=7/6、h(+o)=7/s。
そしてh (31)−7/4となる。得られた平滑化ピ
ーク振幅スペクトルe(J、t)は、ついで、いま受信
されたパワスペクトルを標準化し、周波数等化するのに
使用されるが、これは到来平滑化スペクトル51(J、
t)の各周波数バンドの振幅値を、平滑化ピークスペク
トルe(J、t)の対応する周波数バンド値で分割する
ことにより行なわれる。数学的にこれは、次のように表
わされる。
5n(j It) = (S’(j It)/ e(j
 lt) 52767    Q3こ〜に、Sn□、t
)は、ビーク標牟化され平滑化されたパワスペクトルで
あり、Jは各周波数バンドに対して割り当てられる。こ
のステップは、91で指示されている。こ又で、周波数
等化されかつ標準化された一連の短期間パワスペクトル
が得られるが、このスペクトルは、到来音声信号の周波
数含分の変化が強調され、一般的な長期間周波数強調ま
たは歪は抑制されたものである。この周波数補償方法は
、補償の基準が全信号または各周波数バンドのいずれに
おいても平均パワレベルである通常の周波数補償システ
ムに比して、電話線のような周波数歪を生ずる通信リン
クを介して伝送される音声信号の認識において非常に有
利であることが分った。
逐次のスペクトルは種々処理され、等化されたが、到来
音声信号を表わすデータはなお100/秒の割合で生ず
るスペクトルを含んでいることを指摘しておく。
91で指示されるように標準化され、間波数等化された
スペクトルは、91で指示されるように振幅変換を受け
る。これは、スペクトル振幅値に非直線的なスケール操
作をなすことにより行なわれる。
5n(J、t)(式12から)のごとき個々の等化され
標準化されたスペクトルを選択すると(こ瓦にjはスペ
クトルの異なる周波数バンドを指示し、tは実時間を表
わす)、非直線スケール化スペクトルx(J、t)は、
次の直線分数関数により定義される。
こNにAt1j=O〜31までのスペクトル5nO9t
)の平均値であり、下記のように定義される。
こ〜で、Jはパワスペクトルの周波数バンドを指示する
スペクトルの61の期間は、次式のようにAの対数1(
より置き代えられる。すなわち、x(31、t)= 1
61og2 A         (+51このスケー
ル関数(式16)は、短期間平均値Aから大きく偏った
スペクトル強度に対して柔軟なスレッショルドおよび漸
進的な飽和の作用を及ぼす。数学的に述べると、平均近
傍の強度九対して概ね直線的であり、平均から離れた強
度に対して概ね対数的であり、極端な強度値に対して実
質的に一定である。対数スケールの場合、関数x(Jl
’)はOに関して対称であり、N3宛神薯を刺激するよ
うな割合の関数を示唆するようなスレッショルドおよび
飽和の振渉を示す。実際に、全認識システムは、この呑
定の非直線スケール関数の場合、スペクトル振幅の直線
または対数スケールのいずれかの場合よりも相当良好に
祷能する。
このようにして、振幅変換され、周波数レスポンスを等
化され、標準化された一連の短のI間パワスペクトルx
(j、t)(こ〜に、t−0,01、0,02+0、0
3 、0.04秒、j−0,・・・、60(発生された
パフスペクトルの周波数バンドに対応)が発生する。各
スペクトルに対し、て32ワードが用−はされ、A(式
15)、すなわちスペクトル値の平均値の値は、32ワ
ードとして記憶される。以下において「フレーム」とし
て言及されるこの振幅変換された短期101パワスペク
トルは、例示の具体例においては、95で指示されるよ
うに、256の32ワードスペクトルに対する記憶容量
をもつファーストイン・ファーストアウト循環メモリに
記憶される。かくして、例示の具体例においては、2.
56秒の音声入力信号が分析のために利用可能となる。
この記憶容量は、もし必要ならば、分析および評価のた
め異なる実時間でスペクトルを選択し、し7たがって分
析上必要に応じて時間的に前進、後進できるような変幻
性をもつ認識システムを提供する。
このように、最後の2.56妙に対するフレームは循環
メモリに記憶され、必要なときに利用できる。例示の具
体例においては、動作中、各フレームは256秒記憶さ
れる。かくして、時刻t1  において循環メモリに入
ったフレームは、2.56秒後゛、時刻t + 2.5
6秒に対応する新しいフレームが記憶されるとき、メモ
リから失なわれる、すなわちシフトされる。
循環メモリ中を通るフレームは、好ましくは実時間にお
いて荘知の範囲のワードと比較され、ワードストリング
と呼ばれるワード群において入力データを決定し識別さ
せる。各語槃ワードは、複数の非重複のマルチフレーム
(好ましくは3フレーム)デザインセットパターンに形
成され複数の処理パワスペクトルを統計的に表わすテン
プレートパターンにより表わされる。これらのパターン
は、曙牽ワードの意味のある音響事象をもっともよく表
わすように選択されるのがよく、そして94で記憶され
る。
デザインセットパターンを形成するスペクトルは、第1
図FClネ1示されるIIfA1o上の速続する未知の
音声入力を処理するため、上述のシステムを使って種々
の状況で話されるワードに対して発生される。    
゛ このように、各語倉ワードは、それと関連する一般に複
数の一連のデザインセットパターンP(i)1 + P
(’)2 +・・・を有しており、各パターンは、短期
間スペクトルの領域においてそのi番目のキーワードに
ついての1つの指示を与える。
各キーワードに対するデザインセットパターンの集まり
は、゛ターゲットパターンを発生するについての統計的
基準を形成する。
本発明の例示の具体例において、デザインセットパター
ンP (i) jは各々、直列に配列された6つの選択
されたフレームを構成する96要素配列と考えることが
できる。パターンを形成するフレームは、時間に関する
平滑に起因する不要相関を避けるため少なくとも30ミ
リ秒離間されるべきである。本発明の他の具体例におい
ては、フレームを選択するため他のサンプリング法を実
施できる。
しかしながら、好ましい方法は、フレームを一定継続時
間、好ましくは30ミリ秒離間してフレームを選択し、
非重復デザインセットパターンをキーワードを限定する
時間間隔中離間さiる方法である。すなわち、第1のデ
ザインセットパターンP1ハ、キーワードの開始点近傍
の部分に対応し、第2のパターンP2は時間の後の部分
に対応し、以下同様であり、そしてパターンP、、 l
’2.・・・・・・は、一連のターゲットパターンに対
する統計的基準、すなわちワードテンプレートを形成し
、到来音声データはこれに整合されるのである。ターゲ
ットパターンはtl、t2・・・・・・は、各々、P(
i)jが独立ラプラシアン変数より成ることを仮定する
ことkより対応するP (t ) J  から発生され
る統計データよりなる。この仮定は、以下で説明される
到来データとターゲットパターン間に尤度統計データが
生成されることを可能にする。かくして、ターゲットパ
ターンは、″エントリとして、集められた対応するデザ
インセットパターン配列エントリに対する平均値、積率
偏差およびエリヤ標準化率を含む配列より成る。より精
確な尤度統計データについては後で説明する。
技術に梢逆したものには明らかなように、はとんどすべ
てのワードは、2以上の文脈上および/または地域的な
発音を有し、したがってデザインセットパターンの2以
上の「スペリング」を有している。。かくして、上述の
パターン化スペリングP1.P2・・・を有する語粱ワ
ードは、実際上〜一般にP(i)、  t  P(i)
2+ ・・・、i=1.2.・・・1Mとして表両でき
る。こ〜にP (i) jの各々は、第j番目のクラス
のデザインセットパターンについての可能な代替的記述
方法であり、各ワードに対して全部でMの異なるスペリ
ングがある。
それゆえ、ターゲットパターンtjvt2.”−tti
  は、もつとも一般的意味において、各々、第1番目
のグループまたはクラスのデザインセットパターン九対
する複数の代替的統計的スペリングを表わす。このよう
に、例示の具体例において、「ターゲットパターン」な
る用語は、もっとも一般的意味において使用されており
、したがって、各ターゲットパターンは、2以上の許容
し得る代替的「統計的スペリング」を有し得る。
到来する未知の音声信号および基準パターンを形成する
音声信号の予備処理は、これで完了する。
次に記憶されたスペクトルの処理について説明する。
米国特許第4.241.329号、第4.227.17
6号および第4.227.177号に記載される、音声
パターンを検出ワードに結び付けるキーワード認識法の
より深い研究によれば、それがより一般的でおそらく優
れた方法の特別の場合であることが分った。第4図を参
照して1悦明すると、ワード認識の探索は、抽署的な状
態空間中に遼当な路を見つける問題と1−、て表わすこ
とができる。この図において、各日は、ドウエル(引延
し7)時間位置またはレジスタとも指称される可能な状
態を表わし、決定プロセスはこれを通ることができる。
垂直鎖線120.122間の空間は、パターンが現在の
音素に整合するかしないかを決定する際に決定プロセス
が通過し得る仮定の状態を各々表わす。この空間は、必
須のドウエル時間部分124と、任意のドウエル時間部
分126に分けられる。必要なドウエル時間部分は、「
現在の」音素またはパターンの最小継続時間を表わす。
任意または必須ドウエル時間部分内の各日は、形成され
るフレームの連続体のフレーム時間を表わし、フレーム
からフレームまでの0.01秒の間隔に対応する。かく
して、各日は、1つのワードスペリングにおける仮定の
現在音素位置を表わし、そして(0,01秒の)フレー
ムの数は、現在の音素が始まってから経過した時間を仮
定し、その音声またはターゲットパターンにおけるそれ
より前の円の数に対応(2ており、パターンの現在の継
続を表わす。1つのパターン(音素)が始まり、最小の
ドウエル時間間隔が経過した後、次のターゲラトノくタ
ーン(音素)の第1の@点すなわち位置(円)128に
進むには数本の可能な路がある。これは、スペリングの
次のパターン(音素)へ移動することの決定がいつなさ
れるかに依存する。これらの決定の可能性は、この図に
おいては、円128に向う数本の矢により表わ・さへる
次のパターン(音素)の始点は円12BVCより表わさ
れているが、次のパターンへのこの変換は、現在のパタ
ーン(音素)の任意のドウエル時間中の任意の節点すな
わち位置から、または必須ドウエル時間間隔の最後の節
点からなされよう。
米国特許第4.24 t 329号、第4,227.1
7<S号および4.227.177号に記載のキーワー
ド認識方法は、次のバターy(音素)に関する確度スコ
アが現在のパターン(音素)に関する確度スコアより良
好であるような第1の節点で変換を行なう。すなわち、
フレームが、現在の音素またはノくターンより次の音素
またはパターンとよく整合する点でなされている。他方
、全ワードスコアは、フレーム当りの(すなわち路忙含
まれる節点当りの)平均パターン(音素)スコアである
。現在の節点までのワードスコアに適用される「全スコ
ア」の定義と同じ定義が、変換をいつなすべきかを決定
するのに使用できる。すなわち、次のパターンへの変換
を、例えば変換指示線130に対応する最初の機会でな
すべきか、あるいは例走ば変換指示線132に対応する
もつと後の時点になすべきかの決定に使用できる。最適
には、節点当りの平均スコアが最良であるような路を次
のパターン(音素)中に選ぶことになる。米国!1゛ン
許第4、241.329号、第4.227.176号お
よび第4、22.7.177号に記載される標準的キー
ワード法は、次のパターン(音素)に移動すべきことの
決定をなした後潜在的な路について試験をしないから、
平均スコア/節により測定されるところにしたがっては
y最適の決定をなすことになろう。
したがって本発明は、キーワード認識に平均スコア/節
法を採用する。問題は、追って詳細に謂明されるワード
ストリング99と関連して起こり、含まれる節点の数に
よりすべての部分的ワードスコアを標準化するか(これ
は計算上不効率的である)、あるいは累積値をバイアス
して明白な標準化を不必要としなければなら一/、Cい
。クローズドボキャ゛ブラリータスクにおいて使用すべ
き自然バイアス値は、現在の分析時間で終了する最良の
ワードに対する不標漁化スコアである。したがって、全
′WIAにおける累積スコアは、つねに、同じ数の基本
的パターンスコアの総和となろう。さらに、スコアは、
このバイアス値により覗、在の分析節点で終わる最良の
ワードストリングのスコアに変換される。
平均スコア/節点たよる決定法は、米国特許第4、22
8.498号に記載されるベクトルプロセッサで!むυ
的プログラミング技術を使用することにより効率的に実
施できる。この態様でプログラム設定されるとき、処理
速度は、より多くの仮定試験が必要とされる1、として
も、米国特許g4,241,329号、第4.227.
176月および第4.227.177号に記載される標
単的キーワード昭識法よりもずつと速い。
一般的にいって、ワードストリングを認識するためには
、プログラムに、各分析節点で終わる仮定するのに最良
の語會ワードの名前を記憶させる。
また、この最良のワードが始′まった節点(時間)も記
憶する。ついで、発声の終りからバックトレーシングし
、記憶されたワードの名前に留意し、現在のワードの指
示された開始点に次の前述のワードを見つけることによ
り、>t aのワードストリングが発見される。
語夛ワードとしてサイレントを含ませると、ワードスト
リングに含まれるワードの数を特定することは不必要と
なる。ストリングを見つけるためのバックトラッキング
の動作は、サイレントワードが最良のスコアを有すると
きに実行され、そして先のサイレントが次に検出される
ときに終了する。かくシ′て、話者が息を止める度にス
) IJングが見出される。
こ〜に記述されるワードストリング識別法は、個々のキ
ーワードの検出よりも抽出レベルが高い方法である。ワ
ードストリングスコアにより、発声中のすべての音声を
あるワードストリングに強性的に含ませるから、単純な
ワードスポツティング法よりも有利である。後者の方法
は、長いワード中に誤種のワードを検出することが多い
有利なことは、ワードストリングケースにタイミングパ
ターンが必要でないことである。これは、ワード連結器
が各ワード終了の仮定ぐとにワード開始時間を出力する
からである。もつとも簡単なストリング連結器は、これ
らのワード開始時間が正しいことを仮定する。サイレン
トの検出で、ワードストリングがいま終ったこと、およ
び最後の・、ワードの開始点が先のワードの終了点で(
これ本サイレントの場合もある)あることを仮定する。
通常、ストリングの各ワード対間には文脈に依存する変
換はないから、装置で、先行のワードの最良の終了点を
見つけるように各ワードの開始点の近傍を探索すること
ができるようにするのが好ましかろう。
次に、ハードウェアおよびソフトウェアの具体例を含む
方法および装置について詳細に説明する。
第3図を参照して説明すると、まず、到来連続音声デー
タを表わす95で記憶されたスペクトルまたはフレーム
は、下記の方法にしたがって語*のキーワードを表わす
記憶されたターゲットパターンテンプレー)(96)と
比較される。
各10ミリ秒のフレームに対して、記憶された基準パタ
ーンと比較のためのパターンは、現在のスペクトルベク
トルS(j、t)、3フレーム前のスペクト/’S(j
、t−o、ox)、および6フレーム前のスペクトルS
(j、t−o、o6)を隣接させて下記の96要素パタ
ーンを形成することにより97で形成される。
x(Lt) −’5(j−32,t−o、o3)、j−
32,−,6s−) 1S(j−64,t)、J=64.・・・、95上述の
ように、記憶された基準パターンは、認識されるべき種
々の音声パターンクラスに媚する先に集められた96要
素パターンの平均値、標準偏差およびエリヤ標準化ファ
クタより成る。比較は、入力音声が特定のクラスに属す
ることを予測する値X(j、t)の確率モデルにより遂
行される。
確率モデルについてはガウスの分布を利用できるが(例
えば上述の米国特許第4,241.329号、第4.2
27.176号および第4,22ス177号参照)、ラ
グラス分布、すなわち P (X)=(1/v’−2’S’ ) eXp−(v
/2’ (x−m)/S’ )(こ又にmは統計平均、
S′は変数Xの標準側差である)は、計算が少なくてす
み、例えば米国特許第4.038.503号に記載され
る話者に不、依存性の隔絶ワード認識法におけるガウス
の分布とほとんど同様に機能することが分った。未知の
入カバターン又と第1(番目の記憶基準パターン間の類
似の程度L(xlk)は、確率の対数に比例し、次の式
で100で算出される。
一連のパターンの尤度スコアLを結合して話されたワー
ドまたはフレーズの尤度スコアを形成するため、各フレ
ームに対するスコアL(xlk)は、そのフレーム九対
する全基準パターンの最良の(最小の)スコアを減する
ことにより調節される。すなわち、 L’(xlk)=L(xlk)−min L(XI i
)      o81゜したがって、各フレームに対す
る最良の適合パターンは、0のスコアを有するであろう
。仮定された一連のパターンに対する調節されたスコア
は、フレームごとに累積され、指示された一連のシーケ
ンスを支持する決定が正しい決定となるような、確率に
直接に関係づけられたシーケンスコアを得ることができ
る。
記憶された既知のパターンに対する未知の入カスベクト
ルパターンの比較は、K番目のパターンに対する下記の
関数を計算することにより遂行される。すなわち、 こ〜に、Jikは1/ジikに等しい。
通常のソフトウェアで実施される計算においては、代数
関数glx−ul(式19)を計算するために下記の命
令が実行されよう。
1、X−uを計算せよ 2、x−uの符号を試験せよ 3、X−uが負ならば、絶対値を形成するように否定せ
よ 4 Sと乗算せよ 5、 結果をアキュムレータに加えよ 20ワ一ド語業を有する代表的音声認識システムにおい
ては、約222の異なる基準パターンが設けられよう。
これを求める忙必要とされるステップの数は、間接動作
を含まないと、5×96×222=105.40ステツ
プであり、これが、実時間スペクトルフレーム速度に遅
れないようKするため、10ミリ秒以内で実行されなけ
ればならない。それゆえ、プセセッサは、尤度関数を丁
度求めるためには、はr1j00万/秒の命令を実行で
きなければならない。必須の速度を考慮に入れて、米国
特許第4.228.498号に開示されるベクトルプロ
セッサシステムと適合する専用の尤度関数ハードウェア
モジュール200 (第4図)が採用される。
この専用ハードウェアにおいては、上述の5つのステッ
プが、2組の変as、x、uとともに同時に遂行される
から、実際には、1つの命令を実行するのに要する時間
で10の命令が遂行される。
基本的ベクトルプロセッサは800万(命令)7秒の速
度で動作するから、確度間aに対する有効計a:速度は
、専用ハードウェア200が採用されると約8000万
(命令)7秒となる。
第51z1を参照すると、ハードウェアモジュール20
0は、10のステップの同時の実行を可能にするため、
ハードウェアによるパイプ処理および並列処理の組合せ
を採用している。2つの同一の部分202,204は、
各々、独立の入力データ変数について5つの算術演算ス
テップを遂行しており、結果はその出力に接続された加
算器206により結合される。加算器206からの加算
値の累積は、式!19の1〜96の加算であり、そして
この値は、米国特許第4.288.498号に記載され
る標準的ベクトルプロセッサの演算ユニットテ処理され
る。
動作において、パイプライン結合レジスタは、以下の処
理段階に訃ける中間データを保持する。
1、 入力変数(クロック作動レジスタ208.210
.212.214.216.218)2、x−uの絶対
値(クロック作動レジスタ220.222) 3 乗算器の出力(クロック作動レジスタ224.22
6) 入力データがクロック作動レジスタ208〜218に保
持されると、x−uの大きさが、減算・絶対値回路によ
り決定される。第6図を参照すると、減算・絶対値回路
228.230は、各々第1および第2の減算器(一方
はx−uを算出、他方はu−xを算出)および正の結果
を選択するための  。
マ/l/ −f−7” v フサ256を備えている。
レジスタ208.210から出る線238.240上の
入力変数XおよびUは、それぞれ−128〜+127の
8ピツト数である。8ビツト健算器の差出力は9ビツト
にオーバーフローすることがあるから(例えば127−
(−128)=255)、オーバーフロー状態を取り扱
うため余分の回路が採用される。状態はオーバーフロー
検出器235により決定される。しかして、その人力1
ば、r X Jの符号(線235a上)、ruJの符号
(線235b上)および「x −u Jの符号(線23
5C−ヒ)である。
次に第7図を参照すると、オーバーフロー検出器は、こ
の例示の具体例においては、3人力A、NDゲート26
8.270およびORゲート272を有する組合せ回路
である。第8図の真値表は、オーバーフロー条件を入力
の関数として表わしている。
オーバーフロー条件は、マルチプレックサ236、(こ
れは正の減算器出力を選択する回路である)で4つの選
択を行なうことにより処理される。選択は、+vi!2
42および244上の2進レベルで定められる。線24
2上のレベルは、X−Uの符号を表わす。244上の符
号は、1ならばオーバーフローを表わす。かくして、選
択は次のごとくなる。
@224  梓224 0   0   減算器232の出力を選択1   0
   減算器234の出力を選択0   1  1ビツ
トシフトダウンされた減算器232を選択 マルチプレックサはこのように制御されて、8極4位置
スイッチのように作用する。シフト動作は、組合せによ
り減算出力を適当なマルチプレックサに接続することに
より遂行される。シフトは、算術的に2で分割する効果
をもつ。
減算中にオーバーフローが起こると、マルチプレックサ
の出力は、減算器の出力を2で分割した出力となる。そ
れゆえ、最終結果を2で乗算して正しいスケールファク
タを取り戻すことがでキルように′、計算の後段でこの
条件を思い出させることが必要である。この復旧は、着
後のパイプ処理レジスタの後のマルチプレックサで行な
われる。
それゆえ、パイプライン処理レジスタ22o。
222.224.226には余分のピットが設けられて
おり、第2のマルチプレックサ248.250を制御す
る。後者のマルチプレックサは、オーバーフロービット
がセット(1に等しい)の場合、それぞれ8×8ビツト
の乗算器252.254の乗算積を1ビツトだけシフト
アップし、2を乗算する。乗算演算は、8ビツト数を受
は入れその積を出力する’I”RW MPY−s−Hj
のごとき標準的集積回路装置〃で実施できる。
かくして、乗算−6252,254は、各クロックパル
スでSおよび1x−ulの積を生ずる(Sの値は余分の
データレジスタ256.258により正しく調時される
)。乗算器252.254の出力は、レジスタ224,
226にバッファ記憶され、線260.262を介し、
加算器206を経て残りの回路に出力される。
同じ専用ハードウェアモジュールは、マトリックス乗算
において必要とされるような2ベクトルの内部積を計算
するのにも採用できる。これは、減算・絶対値回路22
8.230において側路を可能とするゲート回路264
.266で遂行される。この動作モードにおいては、デ
ータマおよびS人力バスは、乗x儲入力として、パイプ
ライン処理レジスタ220.222に@接加えられる。
次に、ワードレベルパターン整列について説明する。
未知の入力音声と各語黄ワードテンプレート間の対応を
最適化するためには、動的なプログラミング(101)
が採用されるのが好ましい。各ワードテンプレートは、
上述の一連の基準パターン統計データだけでなく、各基
準パターンと関連する最小および最大のドウエル時間を
含むのがよい。
動的プログラミング法にしたがえば、各語嚢ワードに対
して1つの記憶レジスタが提供される。レジスタの数は
、そのワードを構成する基準パタージの最大のドウエル
時間の和に等しい。すなわち、もつとも長い許容ワード
継続時間に比例する。これらのレジスタは、第4図の円
に対応し、各日に対して1つのレジスタがある。入力音
声の各フレームに対して、全レジスタが読み取られ、書
き込まれる。各レジスタは、追って詳述されるように、
指示された語々ワードが話されつNあるということ、お
よびそのワードにおける現在位置が、そのレジスタの特
定の基準パターンおよびドウエル時間に対応するという
仮定に対応する累積された尤度スコアを含む。全レジス
タは、低い尤度スコアを含むようにイニシャライズされ
、上記の仮定が最初いずれも容認できるほどに起こりそ
うでtcいことを指示する。
レジスタ更新の規則は下記のごとくである。各ワードテ
ンプレートの帰初のレジスタ(すなもちそのワードがい
ま発声され始めたという仮定に対応するレジスタ)は、
(a)そのワードの第1の基準パターンに関スる現在の
フレームの尤度スコアと、lbl全語全語−ワードレジ
スタの最良のスコア(スなわち、あるワードが先行のフ
レーム上で完了されたという仮定に対する累積尤度スコ
ア)の和を誉む。
ワードテンプレートの第2のレジスタは、(a)そのワ
ードの第1の基準パターンに関する現在のフレームの尤
度スコアと、(bl先行のフレームからの第1のにジス
タの内容を含む。かくして、第2のレジスタは、指示さ
れたワードが発声されつ又あり、それが先行のフレーム
で始まったという仮定のスコアを含む。
最小および最大の継続時間の間のドウエル時間(任意ド
ウエル期間)に対応するこれらレジスタの更新処理中、
各逐次の1現在フレーム」に対する任意的ドウエル期間
に対応するレジスタに、最良の累積された尤度スコア(
レジスタの内容)を記憶するため、別個のメモリレジス
タが採用される。先行のフレーム時間に見出されたこの
最良のスコアは、そのワードに対する次のターゲットパ
ターンまたはテンプレートの必須ドウエル時間に対応す
る第1のレジスタの次の内容を計算するのに使用される
。このように、次の基準パターンの最初のレジスタの現
在の内容は、その最良のスコア(先行するターゲットパ
ターンの)を、前記の次の基準またはターゲットパター
ンに関する現在の入力フレームの尤度スコアに加えるこ
とにより発生される。
第4図において、基準パターンの必須ドウエル間隔の第
1のレジスタ128に至る多重の矢印は、任意ドウエル
時間レジスタまたは状態から必須ドウエル時間レジスタ
または状態への変換が、任意ドウエル時間間隔中の任意
の時点に、または必須ドウエル時間間隔の最後のレジス
タから生ずることを指示することを意味している。かく
して、現在の情報に基づ(と、ワードテンプレートと入
カバターン間の最良の適応は、次のパターンが丁度始ま
りつ〜、あるとき、先行のパターンが、先行の任意ドウ
エル期間の最良のスコアを含むレジスタ士先行の必須時
間間隔の最後のレジスタ(例示の具体例においてレジス
タ300)に対応する#続時間をもったということを仮
定するものである。
動的プログラミングの理論によれば、全部の可能なドウ
エル時間に対応する先忙累積されたスコアを保存してお
く必要はない。それは、この理論゛によると、低スコア
を生じたドウエル時間変換点は、将来の全処理段階にお
いて低スコアを発生し続けるからである。
分析は、全ワードテンプレートの全基準パターンの全レ
ジスタを使って上述の態様で進行する。
各ワードテンプレートの命後のパターンの最後のレジス
タ(単数または複数)は、ワードがいま丁度終了したと
いう仮定のスコアを含む。
尤度スコアの累積中、一連の継続時間計数値は、各フレ
ーム時間で終了する最良のワードの継続時間を決定する
ため維持される。計数は、ワードの第1テンプレートパ
ターンの第ルジスタで「1」で開始される。テンプレー
トパターンの各第2および後続のレジスタに対して、種
々のレジスタと関連される計数値は「1」だり゛インク
リメントされる。しかしながら、基準パターン(1つの
ワードの第1基進パターン以外の)の開始点に対地する
各レジスタ、すなわ外えは必須ドウエル時間間隔の第ル
ジスタ128については、先行のフレーム時間において
最良の尤度スコアを有する先行の基準パターンの任意ド
ウエル時間レジスタ(または最後の必須ドウエル時間レ
ジスタ)の計数値が、レジスタに対する継続時間計数値
を形成するようにインクリメントされる。
追って詳細に記載されるバックトラッキング機構を提供
するため、各フレーム時間ごとに、その時間で終わる最
良スコアのワードおよびその継続時間についての情報は
、循環バッファメモリに転送される。一連のワードが終
了すると、配憶されたワード#jf続時間は、最後の「
最良」ワードの終端から、その継続時間を逆上って、[
最後のワードJ直前で終了する最良の先行ワードに至る
までなど、ワードストリングの全ワードが識別されてし
まうまでバックトレーシングすることを可能にする。
連続的に発声される語蘭ワードの一ストリングは、サイ
レントにより境界を定められる。それゆえ、ワードテン
プレートの1つが、サイレントまたはバックグラウンド
ノイズに対応している。サインントワードが最良の尤度
スコアを有すれば、一連のワードが丁度終了したことが
推定される。認識のプロセスの最後のイニシャライズ以
後サイレント以外のワードが最良のスコアを有したか否
かを知るため、フラグレジスタが試験される。「サイレ
ント」以外の少なくとも1ワードが最良のスコアを有す
れば(103)、循環バッファ内のワードストリングが
バックトレースされ(105)、生じた認覚されたメツ
セージが、表示装置または他の制御装置に伝達される。
次いで、循環バッファはクリヤされてメツセージの反復
伝達を阻止し、フラグレジスタはクリヤされる。このよ
うにして、装置、は次のワードストリングを認識するよ
うにイニシャライズされる(107)。
次に、基準パターンのトレーニングについて説明する。
基準パターンの構成のためサンプル平均Uおよびパリア
ンスS′を得るためには、各暗雲ワードの多数の発声が
音声識別システムに装入され、対応する予処理されたス
ペクトルフレームの全統計データが求められる。装置の
重要で好結果をもたらす動作は、どの人カスベクトルフ
レームがどのターゲットまたは基準パターンに対応すべ
きかの選択である。
入力ワードに対して人間により選ばれた重要な音響的音
素のような十分な情報が不存在の場合、話されたワード
の始廃と終点間の時間間隔は、多数の一様に離間された
サブインターバルに分割される。これらのサブインター
バルの各々は、唯一の基準パターンと対応せしめられる
。各間隔において始まる1または複数の6フレームパタ
ーンが形成され、その間隔と関連する基準パターンにし
たがって分類される。同じ語粱ワードの後続の例は、同
様に、同数の一様に離間された間隔に分割される。対応
する順番の間隔から抽出された3フレームパターンの要
素の平均値およびパリアンスは、語重ワードの利用可能
な全列について累積され、そのワードに対する1組の基
準パターンを形成する。間隔の数(基準パターンのa)
は、断雲ワードに含まれる単位の言語学的音素当り約2
または3とすべきである。
最良の結果を得るためには、記録された音声波形および
スペクトルフレームの人間忙よる試験を含む手続きによ
り、各@傘ワードの始点と終点がマークされる。この手
続を自動的に実施するため忙は、装置がワードの境界を
正確に見つけるように、ワードを1時に1つずつ話し、
サイレントにより境界を定めることが必要である。基準
パターンは、隔絶して話された各ワードの1つのこのよ
うなサンプルからイニシャライズされよう。しかして、
全パリアンスは、基準パターンにおいて都合のよい定数
に設定される。その後、トレーニング資料は、認識され
るべき発声を表わしかつ認識プαセスにより見出される
ようなワードおよび分節境界をもつ発声を含むことがで
きる。
適当数のトレーニング発声を含む統計的データが累積し
た後、そのようにして見出された基準パターンが、初基
準パターンの代わりに利用される。
次いで、トレーニング資料による2回目のバスが行なわ
れる。このとき、ワードは、第3図におけるように認識
プロセッサによりなされた決定に基づいてインターバル
に分割される。各3フレーム入カバターン(または、各
基準パターンに対する1つの代表釣人カバターン)が、
前述のノくターン整列法によりある基準パターンと関連
づけられる。
平均値およびパリアンスは、それらが認識装置により使
用される方法と児全に適合した態様で誘導される景終の
1組の基準パターンを形成するように1秒間累積される
各トレーニングパス中、認識プロセッサにより正しく認
識されないトレーニングフレーズを無視するのが好まし
い。これは、誤認識された発声は、インターバル境界を
不完全に設定したかも知れないからである。そのトレー
ニングパスの完了の際、先に誤認識されたフレーズは、
新しい基準ノくターンで再度試みることができ、そのと
き認識が成功すれば、基準パターンはさらに更新できる
誤認識されたフレーズを無視することに対する代わりの
方法は、各トレーニング発声に対してマルチプルワード
テンプレートを形成することテする。このテンプレート
は、発声中の各ワードに対するテンプレートを正しい順
番で結び付けたものである。話者は、指示されたワード
列を話すことを台本により促進され、認識プロセッサは
、マルチプルテンプレートおよびサイレントテンプレー
トのみを参照する。そのとき、ワード境界および基準パ
ターンの分類は、所与の台本および利用可能な基準パタ
ーンに対して最適となろう。この手続の不利な点は、ト
レーニング台本による多数回の試験が必璧とされること
があることである。
最高に可能な確訳精度を得るためには、認識されるべき
語會に対して先に決定された1組の話者不依存性の基準
パターン宅トレーニング手続きを始めるのが好ましい。
話者不依存性のノくターンは、少なくとも数人の異なる
話者により話される認識されるべきフレーズを表わすフ
レーズから得られる。ワードの境界は、記録された音声
波形の人間による試験により決定されよう。ついで、紙
上の2段階手続きが、話者不依存性ノ(ターンを発生す
るために採用される。すなわち1回目の)くス忙おいて
は、各ワード内にサブインターバルが均一に離間される
。2回目のパスにおいては、第1バスによる基準パター
ンを使って認識プロセスによりサブインターバルが決定
される。全話者についての全体的統計が、各パスにおい
て誘導される。特定の話者に対してシステムをトレーニ
ングするためには、話者不依存性のパターンが、1回目
のトレーニングバスのパスの結果であったかのごとく採
用され、そして2回目のパスの手続のみが遂行される(
おそらく2度)。
最小(必須)および最大(必須+任意)ドウエル時間は
、好ましくはトレーニングプロセス中に決定されるのが
よい。本発明の好ましい具体例においては、装置は、上
述のように数人の話者を使ってトレーニングされる。さ
らに、上述のように、本認識法では、トレーニング手続
き中、上述の方法にしたがってパターンの境界が自動的
に決定される。このようにして境界が記録され、#C置
により識別された各キーワードに対してドウエル時間が
記憶される。
トレーニング工程の終了時に、各パターンに対するドウ
エル時間が試験され、パターンに対する最小および第・
大のドウエル時間が選ばれる。本発明の好ましい具体例
においては、ドウエル時間のヒストグラムが形成され、
最小および最大ドウエル時間は、第25および第75.
100分位数に設定される。これは、低誤報率を維持し
ながら高認識精度を与える。代わりに、最小および最大
ドウエル時間の他の選択も可能であるが、認識精度と誤
報率との間には交換条件がある。すなわち、もしも最小
ドウエル時間および最大ドウエル時間が選択されると、
一般に、高誤報率の犠牲でより高い認識精度が得られろ
次にシンタックスプロセッサについて説明する。
2または乙の特定のワードテンプレートの結合は、決定
プロセスに計けるシンタックス制御の平凡な例である。
第9図を参照すると、奇数(1,3,5,7、・・・)
のワードを含むワード列を検出するためのシンタックス
回路308は、各面素ワードに対して維持される独立の
2組のパターン整列レジスタ310.3j2を有してい
る。第1テンプレートに入るスコアは、サイレン、トに
対するスコアまたは1組の第2テンプレートの最良スコ
アのいずれか良い方のものである。第2のテンプレート
に入るスコアは、第1 gのテンプレートの最良のスコ
アである。このスコアはまた、ノード313FCある第
2のサイレント検出テンプレートに送られる。ノード3
13にある検出テンプレートにより測定されて発声の終
端のサイレントが検出されると、発声されたワードのラ
ベルおよび継続時間が、第1および第2組のテンプレー
トのトレースバックバッファかう交互K トv −スハ
ツクされ得る。重壁すことは、サイレント検出テンプレ
ートの位置で、奇数のワードを有するワード列の後のサ
イレントのみが検出され得ることが保証されろことであ
る。
若干複雑なシンタックス閘は、第9図のノード516a
のような各シンタックスノードと、容認できるワードス
トリング長のリストを関連づけることにより実施できる
。例えば、命数のワードを含む任意のストリングを容認
する第9図のシンタラ久ス網において、ストリング長は
、第2のサイレントレジスタ313aの入力におけるス
トリング長を試験することにより、特定の奇数、例えば
5に固定できる。その点におけるストリングの長さが5
でなければ、レジスタは不活性となり(その分析インタ
ーバルに対して)、そのレジスタからストリングスコア
は報告されないが、ストリング長が5であると、ストリ
ングの検出が報告され得る。同様に、第1語傘しジスタ
′510は、到来ストリング長が0.2または4のとき
可能化され、第2レジスタは、到来ストリング長が1ま
たは3のときのみ可能化され得る。5ワードストリング
に対する最適の結果を得るために(・土、全部で5組の
動的プログラミングアキュムレータを必要としようが、
本方法によれば、これよりも少ない数のアキュムレータ
に、普通の認識精度に若干の低減をもたらすだけで多重
の役割を遂行させることができる。
次に不音声認識方法を使用して実施された装置について
四囲する。
本発明の好ましい具体例においては、第2図のプリプロ
セッサにより遂行された信号およびデータ操作以上の操
作が、ディジタルデータ・エクイツフバント・コーポレ
ーションPl)P−Li型コンピュータと米国特許第4
.228.498号に記載されるごとき専用ベクトルコ
ンピュータプロセッサとの組合せで実施される。
本発明の方法は、コンピュータのプログラミングの利用
に加えて、ハードウェアを利用して実施できる。
動作について説明すると、本発明の装置10しま、動的
プログラミング技術にしたがって動作す、る。
各折しい尤度スコア列、すなわち既知の予定された順の
各基準パターン列に関する尤度スコア列は、コンピュー
タから線320を経て、メモリ622および324の1
つの既存のスコアに供給される。
メモリは、(al各可能なワードの終了に対応するスコ
アを受信するシンタックスプロセッサ308、(blメ
モリ選択および次の音素信号に依存してメモリ322お
よび324の出力に取って代わる最小スコアレジスタ3
26、および(C)他の制御およびクロック信号の制御
下で、以下のように交互に89能する。
動作において、回路は、@4図の谷内に対応するレジス
タを更新し、各休止ないしサイレントの認識で最良の整
合を達成し得る決定機構を提供するための規則にしたが
って動作する。
メモリ522および324は、同じ形態を有しており、
10ミリ秒ごとに、すなわち新しいフレームが分析され
るごとに交換される。メモリは各々複数の32ビットワ
ー、ドを有しており、そして32ピツトワードの数は、
機械悟粟のワードと関連されるレジスン(すなわち第4
図の円)に対応している。最初、一方のメモリ、例えば
322が、「悪い」尤度スコア、すなわち本例において
は大きい値を有するスコアを記憶している。その後、メ
モリ322は、@320を介してベクトルプロセッサか
ら供給される新しい尤度スコアの順序に対応する予定さ
れた順序で逐次読み出され、そしてスコアは以下に記載
されるように更新され、他方のメモリ324に再書込み
される。次の10ミリ秒フレームにおいては、メモリ3
24からいまは古くなったスコアが読み出され、他のメ
モリ322に書き込まれる。この交番機能は、シンタッ
クスプロセッサ、中小スコアレジスタ326および他の
制御およびクロック信号の制御下で続く。
前述のように、メモリ322および524の各ワードは
、32ビツト数である。下位16ビツト、すなわちビッ
ト0〜15は、累積尤度スコアを記憶するのに採用され
る。また、ビット16〜23は、音素継続時間を記録す
るのに採用され、ビット24〜31(・ま、そのレジス
タにおけるワード継続時間を記憶するのに採用される。
コンピュータから到来する尤度スコアは、パターンスコ
アメモリ328に各フレーム時間ごとに記憶される。こ
の情報は、非常に、高速のデータ転送速度で、コンピュ
ータからバーストとして供給され、そして第10図の回
路において採用されろ低速度でパターンスコアメモリか
ら読み出される。
シンタックスプロセッサまたは最小スコアレジスタから
の中介制御がない場合、選択されたメモリ322または
324の出力は、対応する選択されたゲート630また
は332を介して線334に供給される。線334は、
尤度スコア、音素またはターゲットパターン継続時間計
数値、およびワード継続時間計数戸をそれぞれ更新する
加算器336.338.540に接続されティる。かく
して、メモリ522.324の一方から来る先行フレー
ノ・のスコアに対応する尤度スコアは、線342を介し
てパターンスコアメモリから出力され、古い尤度スコア
に加えられ、そして書込みに使用されていないメモリに
記憶される。メモリの選択機能は、線344上の信号レ
ベルにより提供される。同時に、ワードおよび音素継続
時間計数値は1だけインクリメントされる。
同様に、ワード継続時間カウンタ、音素継続時間計数値
および尤度スコアが通常更新される。
上述の普通の更新ルールに対する2つの例外は、新しい
音素の開始および新しいワードの開始に対応して畔こる
。新しい音声の開始時に(これは新しいワードの開始時
ではない)、音素の第ルジスタは、普通の規則にしたが
って更新されないが、代って、線342上の尤度スコア
が、先行基準フレームまたは音素任意ドウエル時間のレ
ジスタまたは先行音素必須ドウエル時間の最終レジスタ
からの最小スコアに加えられる。これは、最小スコアレ
ジスタ326を採用することKより実施される。最小ス
コアレジスタの出力は、前の音素に対する先行のフレー
ム時間における最小スコアを表すす。このスコアは、新
しいスコアが提供される! とき最小スコアレジスタの内容を連続的に更新すること
により得られる。新しい最小スコアは、減算演算要素3
46の符号ビット出力を採用することにより、フタ小ス
コアレジスタ中vc−It荷される。要素346は、現
在の最小スコアをいま更新されたレジスタからの新しい
最小スコアと比較する。最小スコアレジスタは、さらに
、椴小スコアを有するレージスタに対応するワード継続
時間計数値および音素継続時間計数値を記憶する。この
情報はすべて、新しい音素の開始時に線334に出力さ
れる。この出力プロセスは、新音素の開始時に可能化さ
れるゲートと、新しい音素の開始中ゲート332および
630を不能化する制御信号の組合せを使って制御され
る。
シンタックスプロセッサ308は、新しいワードに附子
る第1音素の第ルジスタを、先行のフレームで終わるワ
ードのシンタックスを考慮に入れたワードの最良のスコ
アで更新するのに採用される。かくして、新しいワード
の第1、音素の第ルジスタに対応するレジスタのスコア
が、到来尤度スコアにより更新されるとき、採用される
のはメモリ322.324の一方の出力でない。代わっ
て先行のフレームで終わるワードの、好ましくはシンタ
ックスを考慮に入れた最良の尤度スコア亦利用される。
この機能は、ゲート330および332を不能化し、同
時にゲート350を可能化して、レジスタ352に記憶
された最良の利用可能なスコアを線534上に供給し、
響642上の到来パターン尤度スコアと加えることによ
り可能となる。
このようにして、基準フレームのドウエル時間に対応す
る各レジスタは、このハードウェアの具体例において連
続的に更新されるのである。を度スコアでサイレントワ
ードを表わすと、シンタックスプロセッサは、ハードウ
ェアまたはコンピュータ装置が認識されたワードを決定
するためにバックトレースを行なうことを可能にするに
必要な制御システムを提供するように設利される。
以上の説明を考察すれば、本廃明の種々の目的が達成さ
れ、利益ある効果が得らハたことが分ろう。
こ〜に開示されるワードストリング連続音声認識方法お
よび装置(ま、特定の応用として隔絶された音声の認識
を含むことが理解されよう。技術に精通したものであれ
ば、こへに開示される具体例の追加、削除、変更が特許
請求の範囲内において明らかであろう。
【図面の簡単な説明】
第1図は本発明の方法にしたがって遂行される一連の動
作を一般的用語で例示するフローチャート、第1A図は
本発明の好ましい具体例の装置の電気的ブロック図、第
2図は第1図において例示される全プロセス1で33−
ける特定の処理動作を遂行するだめの電子装看の概略ブ
ロック図、第3図は第1図めプロセスにおける特定のプ
ロセスを遂行するディジタルコンピュータプログラムの
フローチャート、第4図は本発明のパターン整列プロセ
スの線図、第5図は本発明の好ましい具体例の尤度関数
プロセッサの電気的ブロック図、第6図は本発明の好ま
しい具体例の減算・絶対値回路の電気的概略ブロックは
第7図は本発明の好ましい具体例のオーバーフロー検出
論理回路の電気回路、第8図は@7図の回路図の真値表
、第9図は本発明のプリプロセッサの1つの好ましい具
体例のシンタックスプロセッサの概略流れ線図、第10
図は本発明、の好ましい特定の具体例の逐次解読パター
ン整列回路の電気回路図である。 13:A/Dコンバータ 45: 制御プロセッサ 46: プリプロセッサ 48a:ベクトルプロセッサ 48b:尤度関数プロセッサ 49: 逐次解読プロセッサ 51: クロック発振器 5.2:  周波数分割器 53: ラッチ 56: ディジタル乗算器 58:  52ワード循環シフトレジスタ59: マル
チプレックサ 60: B選択回路 63:3217−ドシントレジスタメモリ65: 32
ビツト加算器 67: ゲート 71: コンピュータ割込み回路 図面のi4(内容に変更なし) 手続袖正書(方式) 昭和58年5月24日 特許庁長官 若 杉 和 夫 殿 事件の表示 昭和58年 特願第 551、発明の名称
 連続ワードス) +1ング詔識方法および装置 補正をする者 事件との関係           特許出1頭人名称
  エクソン・コーポレイション 代理人 住 所  東京都中央区日不橋3丁目13番11号油脂
二[業会館(111正命令通知のEl(=1′ft和5
8年4月26日−補f豐士す1 補正の対象 願書の発明者べU願人の欄 一’−1−1−”−−:;−ニエ・− 委任状及びその訳文            各1通図
面          1通 明細書の発明の詳細な説明・図面の簡単な説明の欄補正
の内容  別紙の通り 図面の浄書(内容に変更なし) 明細寄生発明の詳細な説明および図面の簡単な説明を下
記の通り補正します。 t 明細書第25頁8〜9行において「第10図」とあ
るのを「第9図」と訂正します。 2、 同第25頁12〜13行において「第10図」と
あるのを「第9図」と訂正します。 五 同第63頁14行において「第8図」とあるのを「
下記」と訂正します。 4、 同第63頁16行において「い\表わしている。 」とある次に下表を挿入します。 1     1     1     01     
1     0     01   0   1   
1(オーバーフロー)1    0    0    
 0 0    1    1    0 0   1   0   1(オーバーフロー)0  
  0    1    0 0    0    0    0 5、 同第78頁17行において「第9図」とあるのを
「第8図」と訂正します。 & 同第79頁17行において「第9図」とあるのを「
第8図」と訂正します。 Z 同第86頁19行において「第10図」とあるのを
1第9図」と訂正します。 8、 同第88頁15行において「第7図の・・・第9
図は」とあるのを削除します。 9 同第88頁17行において「第10図」とあるのを
「第9図」と訂正します。

Claims (1)

  1. 【特許請求の範囲】 (1)各キーワードが少なくとも1つのターゲットパタ
    ーンを有するテンプレートにより特徴づけられ、各ター
    ゲットパターンが少なくとも1つの短期間パワスペクト
    ルを表わし、かつ各ターゲットパターンが該パターンと
    関連して少なくとも1つの必須のドウエル時間位置およ
    び少なくとも1つの任意ドウエル時間位置を有する音声
    信号中の少なくとも1つのキーワードを認識する音声分
    析装置における認識方法において、反復的フレーム時間
    において、前記音声信号から該信号を表わす一連のフレ
    ームパターンを形成し、前記各フレームパターンと前記
    各ターゲットパター/との類似性を表わす測定数値を発
    生し、前記各ターゲットパターンの必須および任意のド
    ウエル時間位置に対t7てかつ該測定数値を使用して、
    上で形成されたフレームパターンと各ターゲラトノくタ
    ーンのドウエル時間位置との整列を表わす数値を累積し
    、前記数値に基づいて、前記音声信号に予定されたシー
    ケンスが発生する時点の認識判断を行なうことを特徴と
    する認識方法。 (2)特許請求の範囲第1項に記載の方法において、前
    記累積段階が、各ターゲラトノ<ターンの第2および後
    続の必須のドウエル時間位置および各ターゲットパター
    ンの任意ドウエル時間位置に対して、先行のフレーム時
    間中の先行のターゲラトノくターンドウヱル時間位置に
    対する累積スコアとターゲットパターンと関連するり、
    往側定数値との総和を累積し、各キーワードの筆1ター
    ゲットノくターンの第1必須ドウエル時間位置に対して
    、先行のフレーム時間中のキーワードの終了と関連され
    る最良の累積スコアとキーワードの第1ターゲツトノく
    ターンと関連される現在測定数値との総和を累積し、各
    他のターゲラトノ(ターンの第1の必須ドウエル時間位
    置に対して、同じキーワードの先行のターゲットパター
    ンに対する最良の終了累積スコアとターゲットパターン
    と関連する現在測定数値との総和を累積することを含む
    認識方法。 (3)%許請求の範囲第2項において、各フレーム時間
    位置との関連において、前記各フレーム時間位置におい
    て終る最良のスコアおよび有効性を有するキーワードの
    フレーム時間位置における識別および継続時間を記憶す
    ることを含み、そして前記判断を行なう段階が、ワード
    ストリング中の各キーワードを決定するため、この記憶
    されたキーワードの識別情報および継続時間情報につい
    てトレーシングバックすることを含む認識方法。 (4)特許請求の範囲@6項に記載の方法において、各
    ドウエル時間位置の関連スコアと関連して、ドウエル時
    間位置における累積スコアと関連するキーワードの時間
    位首長と対応するワード継続時間計数値を記憶すること
    を含む認識方法。 (5)特許請求の範囲第4項に記載の方法において、各
    ドウエル時間位置の累積スコアと関連して、ターゲット
    パターンにおけるドウエル時間位置の位置シーケンスに
    対応するターゲットパターン継続時間計数値を記憶する
    ことを含む認識方法。 (6)特許請求の範囲第1項に記載の方法において、前
    記判断の遂行および累積段階が、シンタックス発生要素
    に応答して成績スコアの転送を指定することを含む認識
    方法。 (7)  各キーワードが少な(とも1つ党ターケット
    テンプレートを有するテンプレートにより特徴づけられ
    、各パターンが少なくとも1つの短期間パワスペクトル
    を表わし、かつ各ターゲットパターンが、該パターンと
    関連して少なくとも1つの必須ドウエル時間位置および
    少なくとも1つの任意ドウエル時間位置を有する、音声
    信号中の少なくとも1つのキーワードを認識する装置に
    おいて、前記音声信号から該音声信号を表わす一連のフ
    レームパターンを反復的フレーム時間で形成する手段と
    、前記各フレームパターンと前記ターゲットパターンと
    の類似性を表わす測定数値を発生する手段と、前記各タ
    ーゲットパターンの必須および任意のドウエル時間位置
    に対して、かつ前記測定数値を利用して、上で形成され
    た音声代表するフレームパターンと各ターゲットパター
    ンドウエル時間位置との整列を表わす数値を累積する手
    段と、蓄積された数値に基づいて、前記音声信号中に予
    定されたシーケンスが生ずる認識判断を行なう手段とを
    含むことを特徴とする認識装置。 (81%許請求の範囲第7項に記載の装置において、前
    記音声信号中の前記の予定されたシーケンスを認識する
    手段を含む認識装置。 (9)特許請求の範囲第8項に記載の装置において、前
    記の予定されたシーケンスがサイレントパターンである
    認識装置。 00)%許請求の範囲第7項記載の装置において、前記
    累積手段が、各ターゲットパターンの第2および後続の
    必須のドウエル時間位置および各ターゲットパターンの
    任意ドウエル時間位置に対して、先行のフレーム時間中
    の先行のターゲットパターンドウエル時間位置に対する
    累積スコアおよびターゲットパターンと関連する現在測
    定数値との総和を累積する手段と、各キーワードの第1
    ターゲツトハターンの第1の必須ドウエル時間に対して
    、キーワードの終了と関連する先行のフ・レーム時間中
    の最良の累積スコアとキーワードの第1ターゲツトパタ
    ーンと関連する現在測定数値との総和を累積する第2の
    手段と、各地の第1ターゲツトパターンの第1の必須ド
    ウエル時間位置に対して、同じキーワードの先行のター
    ゲットパターンの最良の終了累積スコアとターゲットパ
    ターンと関連する現在の測定数値との和を累積する第3
    の手段を含む認識装置。 (11)  特許請求の範囲第10項記載の装置におい
    て、各フレーム時間位置との関連において、前記各フレ
    ーム時間位置において終る最良のスコアおよび有効性を
    有するキーワードのフレーム時間位置における識別およ
    び継続時間を記憶する手段を含み、そして、前記の判断
    遂行手段が、ワードストリング中の各キーワードを識別
    するため、記憶されたキーワード識別および継続時間情
    報をトレースパックする手段を含む認識装置。 az  特許請求の範囲第11項記載の装置において、
    各ドウエル時間位置の累積スコアとの関連にお℃、・て
    、ドウエル時間位置における累積スコアと関連するキー
    ワードの時間位首長と対応するワード継続時間計数値を
    記憶する手段を含む認識装置。 (131特許請求の範囲第12項記載の装置において、
    各ドウエル時間位置の累積スコアとの関連において、タ
    ーゲットパターンにおけるドウエル時間位置の時間と対
    応するターゲットパターン継続時間計数値を記憶する第
    2の手段を含む認識装置。 (14+  特許請求の範囲第7項記載の装置において
    、前記の判断遂行および累積手段が、シンタックス発生
    要素に応答して累積スコアの転送を指定する手段を含む
    認識装置。 09  音声信号における少なくとも1つのキーワード
    を認識する音声分析装置における到来音声信号のサイレ
    ンスをモデル化する方法如おいて、約1秒より長い選択
    された継続時間にわたり到来音声信号の予定された短期
    間継続時間部分の振幅を監視し、該時間部分中の最小振
    幅のフレームを選ぶことkよりノイズフレームを選択す
    ることを特徴とするサイレントモデル化方法。 OF2  特許請求の範囲第15項記載の方法において
    、各キーワードが少なくとも1つのターゲットパターン
    を有するテンプレートにより特徴づけられ、各ターゲッ
    トパターンが少なくとも1つの短期間パワスペクトルを
    表わし、そして、反復的フレーム時間にて、前記音声信
    号から該音声信号に対応する一連のフレームパターンを
    形成し、前記の予め選択された期間にわたって前記フレ
    ームを試験し、該フレームの1つを、到来音声信号中に
    おけるバックグラウンドノイズを選択するものとして選
    択することを含むサイレントモデル化方法。 (17)  音声信号における少なくとも1つのキーワ
    ードを認識する音声分析装置において未知の音声入力に
    ついて制御を行なう方法において、前記音声入力を受信
    して、特定の既知の制御ワードが見い出される度ごとに
    出力信号を発生し、該制御ワードに対する出力信号を使
    用して、前記音声入力の追加の認識処理を行なうことを
    特徴とする制御方法。 0& 各キーワードが少なく・とも1つのターゲットパ
    ターンを有するテンプレートにより特徴づけられ、各タ
    ーゲットパターンが少なくとも1つの短期間パワスペク
    トルを表わし、かつ各ターゲットパターンが、該パター
    ンと関連して少なくとも1つの必須のドウエル時間位置
    と少なくとも1つの任意ドウエル時間位置を有する音声
    信号における少な(とも1つのキーワード船認識する音
    声分析装置において前記キーワードを表わす基準パター
    ンを形成する方法に卦いて、キーワードに対応する到来
    音声信号を複数のサブインターバルに分割し、各ザブイ
    ンターバルを単一の基準パターンに強制的に対応させ、
    同じキーワードを表わす複数の音声入力信号について上
    記の段階を繰り返えし、各サブインターバルと関連する
    基準パターンについて記述する統計データを発生し、こ
    の発生された統計データを使って、前記キーワードを表
    わす前記音声入力信号により2回目のバスをなし、前記
    キーワ一ドに対するサブインターバルを装置で生成する
    ことを特徴とする基準パターン形成方法。 a9  特許請求の範囲第18項記載の方法において、
    前記サブインターバルが、最初に、音声入力キーワード
    の開始から終了まで均一に離間される基準パターン形成
    方法。
JP58000551A 1983-01-07 1983-01-07 連続ワ−ドストリング認識方法および装置 Pending JPS59126599A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP58000551A JPS59126599A (ja) 1983-01-07 1983-01-07 連続ワ−ドストリング認識方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58000551A JPS59126599A (ja) 1983-01-07 1983-01-07 連続ワ−ドストリング認識方法および装置

Publications (1)

Publication Number Publication Date
JPS59126599A true JPS59126599A (ja) 1984-07-21

Family

ID=11476854

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58000551A Pending JPS59126599A (ja) 1983-01-07 1983-01-07 連続ワ−ドストリング認識方法および装置

Country Status (1)

Country Link
JP (1) JPS59126599A (ja)

Similar Documents

Publication Publication Date Title
US4481593A (en) Continuous speech recognition
US4489435A (en) Method and apparatus for continuous word string recognition
US4489434A (en) Speech recognition method and apparatus
US6195634B1 (en) Selection of decoys for non-vocabulary utterances rejection
KR100312919B1 (ko) 화자인식을위한방법및장치
KR910002198B1 (ko) 음성인식방법과 그 장치
JP3434838B2 (ja) ワードスポッティング法
EP1159737B9 (en) Speaker recognition
GB1569990A (en) Frequency compensation method for use in speech analysis apparatus
Wilpon et al. An investigation on the use of acoustic sub-word units for automatic speech recognition
CN113744722A (zh) 一种用于有限句库的离线语音识别匹配装置与方法
KR101122590B1 (ko) 음성 데이터 분할에 의한 음성 인식 장치 및 방법
JP2001520764A (ja) スピーチ分析システム
CN111640423A (zh) 一种词边界估计方法、装置及电子设备
Barnard et al. Real-world speech recognition with neural networks
Koh et al. Speaker diarization using direction of arrival estimate and acoustic feature information: The i 2 r-ntu submission for the nist rt 2007 evaluation
Li et al. Real-Time End-to-End Monaural Multi-Speaker Speech Recognition}}
JPS59126599A (ja) 連続ワ−ドストリング認識方法および装置
CN112447169B (zh) 一种词边界估计方法、装置及电子设备
US20240144934A1 (en) Voice Data Generation Method, Voice Data Generation Apparatus And Computer-Readable Recording Medium
Hauenstein Using syllables in a hybrid HMM-ANN recognition system.
JPS59127099A (ja) 連続音声認識の改良
Ibrahim et al. AUTOMATIC SPEECH RECOGNITION USING MFCC IN FEATURE EXTRACTION BASED HMM FOR HUMAN COMPUTER INTERACTION IN HAUSA
Kaur et al. Correlative consideration concerning feature extraction techniques for speech recognition—a review
Pattanayak et al. Significance of single frequency filter for the development of children's KWS system.