JPH01113798A

JPH01113798A - 低コストの音声認識システムとその方法

Info

Publication number: JPH01113798A
Application number: JP63190497A
Authority: JP
Inventors: George R Doddington; ジョージ　アール．ドディントン; P K Rajasekaran; ピー．ケイ．ラジャセカラン; Michael L Mcmahan; マイクル　エル．マックマハン; Wallace Anderson; ウォリス　アンダーソン
Original assignee: Texas Instruments Inc
Current assignee: Texas Instruments Inc
Priority date: 1987-07-30
Filing date: 1988-07-29
Publication date: 1989-05-02
Also published as: KR890002816A; KR0123934B1; EP0302663A2; US4910784A; DE3884880T2; JP2000000013U; EP0302663A3; EP0302663B1; DE3884880D1

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】従来の技術及び問題点本発明は人間音声の認識に関連し、より詳細には低コス
トの言葉の認識に関連する。

話し言葉を認識するために沢山の技術が開発されている
。これらの複雑さと機能は様々である。

ある精巧なシステムでは、特定話者の孤立単語認識率が
、１００％に達する。通常これらは、メインフレーム、
ラージ、ミニ、もしくは、マイクロ・コンピュータに備
えられ、リアルタイムに認識するには、特別なハードウ
ェアと複雑なソフトウェアを必要とする。

多くの分野では、認識率が非常にｎい必要はない。特に
ゲームや玩具のような民生品においてはそうである。こ
れらのシステムではしばしば、コスト低下のほうが認識
率をわずかで段階的に改良するよりも重大である。コス
ト低下のためには、最低限の数の電気部品ですむシステ
ムが必要であり、これにより一般的に利用できるメモリ
とプロセシング・パワーが限定される。

又、多くの安価な装置では、不定話者認識は必要とされ
ない。単一語の認識で十分である。長い発声の中の単語
を認＠する能力のような、騒音のある環境下で作ｆｌ！
Ｉできる能力はしばしば要求される。

典型的な民生品への応用に適する、現在の低コスト認識
技術では、通常零交さ率技術と圧縮／伸長時間登録を利
用する。−殻内にこれらの技術は、たとえ好条件下の小
さな詔葉に対してさえも適切に機能しない。現在の低コ
スト技術では、通例参照語は適切に登録されず、更に語
粟を定へする参照テンプレートと入力した音声を比較す
る能力を妨げる。

問題点を解決するための手　及び− 低コスト音声認識法が、メモリとプロセシング機能が非
常に限定さたシステムで、十分に作動することは望まし
い。低コストのシステムのおいて、語常登録の融通がき
き、正確であることもまた望ましい。

従って、これら及び他の目的、また後に明らかにされる
利点を達成するため、本発明によるシステムは音声を受
信し、それを所定の長さを持つ一連のフレームの中で、
重みづけされた特徴の集合へ変換する。様々な特徴には
二進法の値が与えられ、所定のしぎい値に関連する値を
示す。各音声フレームはビットのストリングで表され、
ストリングの長さは、音声から抽出された特徴の数に等
しい。このように、コード化されたフレームは参照テン
プレートと比較され、最良の整合を決定する。

本発明の新奇な特徴は特許請求の範囲の項により限定さ
れる。発明の説明のため、好ましい実施態様が図面を参
照にして説明される。

実施例第１図は本発明による音声認識の好ましいシステム１０
を示す。このシステムには、利用可能な記憶容■に関し
て厳重な制限がある。これから説明されるＩａ能のほと
んどが、テキサス　インスツルメンツ　インコーホレイ
テッド社製造の、ＴＭＳ３２０の単一信号処理チップで
実施可能である。

音声は、対数増幅器１４に接続されるマイクロホン１２
から入力される。対数増幅器１４は全てのシステムで必
要とはされないが、ダイナミックレンジの限られたＡ／
１〕変ｊ［を使用するシステムでは必要である。、１４
ビット以上のレンジを持つ変換器では、通常、ハ、縮を
行うために対数増幅器の使用を必要としない。しかし、
好ましい実施態様で用いられるＡ／Ｄ変換器では、コス
ト低手のため通例これよりビット数が少ない。もしくは
、一般に入手可能な８ビツトＣ０ＤＥＣを用いても適わ
ない。

増幅器１４の出力はＡ／Ｄ変換器１６に接続される。変
換器１６は所定の間隔を置いて、圧縮された音声波形を
サンプリングする。好ましい実施態様では、音声は８Ｋ
Ｈｚの周波数でサンプリングされる。Ａ／Ｄ変換器１６
の出力は、特徴抽出回路１８へ接続される。特徴抽出は
、前述のＴＭＳ３２０直列信号プロセッサで行われるの
が好ましい。

特徴抽出では、サンプリングされた音声をフレームに分
類し、各フレームに対して線形予測符号化（ＬＰＧ）パ
ラメータを計ｎする。ＬＰＧパラメータの計口では、デ
ィジタル化された音声が線形であることが要求され、そ
れでディジタル化されたサンプルは実際の特徴抽出に先
立ち減圧（デコンプレス）される。これは使用される特
定の対数増幅器１４に対する、適切に対数的に拡張され
た値を含むルックアップ・テーブルに索引をつけること
でなされる。これはこの分野では、良く知られる方法に
て行われる。

好ましい実施態様において、フレームの長さは２０ｍ５
であり、長方形もしくは他の平滑化の窓の付いた第１０
次自己相１１１ＬＰＣ分析が使用される。

これにより１０個の特徴係数と、１個のエネルギー係数
が得られる。ＬＰＧパラメータは更に、フレームのケプ
ヌトラム変換に変えられる。各フレームに対して、８ケ
ブストル・パラメータが計算されることが好ましい。

各ケプストル・パラメータはしきい値と比較され、単一
のビットにより、ケプストル係数がしきい値より大きい
か小さいかが示される。好ましい実施態様では、各構成
要素に対して相違するしきい値が用いられる。この比較
の終了後、音声のフレームはデータの単一バイトに変換
される。

このバイトは、時間レジストレーション装置２０に転送
され、定義された詔粟のＩＰ　飴の参照テンプレート２
２と比較される。これはフンポル−ジョン／コリレーシ
ョンと類似する力試で行われ、これは第２図に関連して
詳細に説明される。

第２図では、８個の二進法のケブストル係数として表さ
れるデータの各フレームは、待ち行列４０に配置され、
夫々が１バイトの幅を持つ、５０の仕切がある円形のバ
ッファとして機能するのが好ましい。新しいフレームが
持ち行列４０に挿入される度に、既に待ち行列にある全
てのフレームが一つ右の位置に移動する。各フレームが
２０ｍ５の音声を表すので、直前１秒間の音声はコード
化された形で、持ち行列４０に含まれる。

参照テンプレート４２．４４、及び４６は、語柔中の識
別対象言葉を示す二進法のケブストル係数を含む。３個
のテンプレートだけしか示されていないが、多数使われ
ることが好ましい。好ましい実施態様において、語棄に
は１６個までの参照語を入れることができる。各フレー
ムはまだ８ビツトで示されるが、参照単語は４０ｍ５の
フレームの長さで記憶される。これにより参照テンプレ
ートが、より効果的に蓄積される。参照テンプレートと
関連して使用される「単語」という用語は、−殻内に話
し言葉の単語をいう。しかしながら、実際の言葉の部分
的な語もしくは句を意味しても良い。ここで用いられる
ように、単語とは、識別の対象となるある音声の中位で
ある。

入力された音声データとテンプレートの比較は、入力さ
れたばかりのフレームが、識別対象語の最侵のフレーム
だと仮定することで行われる。データ・フレームは参照
テンプレートの半分の長さしかないので、待ち行列４ｏ
の一つ置きのフレームのみが、参照テンプレート４２．
４４、及び４６と比較される。これは一つ置きデータ・
フレームから、それらに対応する参照フレームを指す矢
印で示される。参照テンプレートの長さは様々であって
良く、また各参照テンプレートの長さに対応するデータ
・フレームの最新の数だけが、そのテンプレートをデー
タに比較するのに用いられる。

全ての参照テンプレート４２の各フレームは対応するデ
ータ・フレームと排他的論理和され、フレーム間のハミ
ング距離である差異寸法を出す。

各フレームに対する差異は平均化され、テンプレート４
２に対する誤差値を与える。フレームと単語への誤差値
は、８個までの相違するビットの数で表される。同じ過
程が、参照テンプレート４４及び４６に関しても繰り返
される。

長い単語は、短い単語よりも高い平均誤差値を出す傾向
にある。また短い参照テンプレートへの多少良い整合よ
りも、長い参照テンプレートへの最適の整合を優先させ
るほうが望ましい。この例トシテハ、ＦＯＲＴＵＮＥ　
ｌｆｉ挙ケラれる。ＦＯＲＴＵＮＥもＦＯＵＲも共に詔
棄の中の単語であるとする。話し言葉において、ＦＯＵ
ＴＩＩＮＥは、ＦＯｌｌＲへの参照テンプレートに多少
良く整合するかもしれないが、もしほとんど同じ様に整
合するならば、長い単語の方が好ましい。

長い整合を優先するため、各参照単品に対する平均的フ
レーム・エラーが、その長さに反比例する要因により増
やされる。従って長い単語は短い単語に比べて、その平
均的フレーム・エラーはかなり減少される。増幅要因は
以下の式で表される。

。−Ｑ　、　Ｑ　５　＄　ｎｕｍｂｅｒ−ｏｆ−ｆｒａ
ｍｅｓここでは、ｎｕｍｂｅｒ−ｏｆ−ｆｒａｍｅｓは
参照テンプレートのフレームの数である。この式は、線
形の式により近似でき、もしくはメモリが十分あるなら
ば、許容される全ての参照フレームの良さへの値を収め
るルツ、クアツブ・テーブルが保持される。

上記の式は、全ての参照テンプレートに計算される、平
均的なフレーム・エラーへ適応される。

最適の二つの整合のみが残される。最適の二つは発声の
持続期間中ずつと保持され、各参照テンプレートに対す
る修正されたフレーム・エラーは、最新の最適の二つの
整合と比較される。もし修正された参照テンプレートに
対する平均的フレーム・エラーが、前の二番目に適切な
整合よりも少ないならば、それと前の最適の整合は、最
新の最適の二つの整合のような適切な順に保たれる。最
適の二つの整合の保持には、ただ単語とそれらに関する
誤差値の識別を保ちさえすれば良い。

いったん全てのテンプレートが最新の持ち行列と比較さ
れれば、時間レジストレーション装置２０は、次のデー
タ・フレームの入力を持ち、その時に今述べた比較の過
程が繰り返される。

第１図に戻って、各音声フレームに対する計算が終了し
た後、時間レジストレーション装ｆｆ２０は最新の二つ
の最適の整合を決定論理２４へ転送する。決定−理２４
は、単語の認識がいつなされたのか最新の発声により決
定されるように、この情報とエネルギー情報を結合する
。

発声の始端と終端を決定するのに、いかなる相対的エネ
ルギー検査法を使っても良い。米国特許番号用４．６９
６．０４０号、にあるような、適応的二重しきい値検査
法を用いるのが好ましい方法である。決定論理２４は、
特徴抽出１８により計算されたエネルキー・レベルが、
しきい値より上がる時に発声が始まると決定し、またエ
ネルギー・レベルが第二のしきい値より下がると発声が
完了したと決定する。時間レジストレーション装置２０
から受は取られた二つの最適の整合は、発声が持続する
限り保持され、最新のものとされる。

ただ発声エネルギー・レベルが下がり、発声の終了が示
される時、決定論理２４は最適の整合を決定する。

最低のエラーを持つ整合は、許容されＹＩる認識率を提
供するため、前もって決定されるしきい値より小さい場
合のみ認められるであろう。このしきい値は、適応の性
質により著しく変化する。もしどのテンプレートにも十
分に近似しない整合が作られたなら、発声は認識されな
いであろう。また、二番目に低い誤差値も調べられる。

もし二番目に最適な整合が一番目にとても近いなら、決
定ＷＡ理は、混同しやすい類似単語をどちらも選ばず、
発声は認識されない。もちろんこれは、もし最適の二つ
の整合が語棄とは違う単語である時にのみ起こり、同じ
参照単語の二つの整合であれば、受入れられる。

名声認識は、相対的に低い聴覚エネルギーの二つの期間
の間の、相対的に高い聴覚エネルギーの期間と一般的に
定義される発声の間に一回なされるので、連続して話さ
れる文章または旬の中から一個の単語のみが認識される
。もし発声の中に一つ以上の諸策の単語が含まれている
ならば、最適の整合を持つものが受は入れられ認識され
るか、もしくは前述のように発声全体が認識されない。

−回の発声に付き一個の単語しか認識されないが、他の
単語も一緒に発声されても構わなく、認識装置の単語を
語棄に受は入れる能力が低下することはない。データ・
フレームが待ち行列４ｏに配置される度に比較がなされ
るので、単語は長い発声の中に含まれる時でも認識可能
で、孤立して発声される必要はない。

決定論理による￥詔の認識、または発声の不認識により
、音声認識過程は完ｒされる。決定論理２４はそれが組
み込まれている応用に適切な出力を発生させ、システム
の残りの部分は、この分野でよく知られる方法で、認識
された単語に作用できる。例えば、今説明したシステム
はおしゃべり人形に用いられ、これは話しかけられた単
語に応答する。この応用においては、決定論理２４から
の出力は応答１ＩＩ１１ｔＩＩ２６に接続され、語岱の
中の様様な単語の受信に対して適切な応答を決定する。

これらの適切な応答には、音声の総合、もしくは人形の
手足の動きが含まれる。同業者には、他の応用も明白で
あろう。

上記のシステム１０は、特定話者認識システムとして用
いられるのが好ましい。特定話者Ｗ１識では、認識対象
者の単語が語常に登録されなければならない。音声認識
システム１０と関連する話者の登録の好ましい方法は、
以下第３図と関連して説明される。

第３図の流れ図は、−個のＩ１１語を詔乗に登録するた
めに必要な段階を示す。複数個の単語の登録では、この
過程が必要回数繰り返される。登録される単語は、その
応用によって夫々異なる。登録できる単語の数は、利用
し得るメモリ及びプロセシング・パワー、及び使用され
る二進法の特徴の数による。好ましいシステムではフレ
ームを決定するのに８個の特徴を使い、数十の単語の詔
堂に実質上の上限を与え、それらが独自に区別されるよ
うにする。好ましいシステムでは、１６個の単語のｒｒ
ｉ寅を登録する。これにより、二個のバイト（１６ビツ
ト）のｌ１語が、−単語に対して１ビツトの割合で語誼
の全ての単語を現すことができる。

第一の段階（６０）では、登録される単語が選ばれる。

これは応用に適切な、従来のどの様な方法によってもな
され得る。０録される各単語には、音声のフレームの予
想される長さがあり、各フレームの長さは２０＋１３で
ある。次の段階（６２）では、利用者は所定の単語を話
すよう促される。これも適切ないかなる方法で行われて
も良い。利用者は、視覚的に、もしくは登録する単語の
記憶されているものの発生もしくは再生で、発声を促さ
れる。

単独で話された串間の登録がなされる。単語の初端と終
端は、特徴抽出システム１８により抽出される、エネル
ギー特徴の値により識別される。

サイレンスしきい値を越えるエネルギーの上昇は、発声
の開始を示し、動的しきい値以下のエネルギー・レベル
の降下は、発声の終了を示す。

入力音声はディジタル化され、眞述のようにケプストル
構成要素に変換される（段１１Ｎ６４）。入力データ・
フレームは参照テンプレートと比較されず、単に持ち行
列に配置される。決定論１！２４は、発声の開始を終了
を決定する。音声のフレームの発声の持続は、予想され
る長さと比較される（段階６６）。６し発声の実際の良
さが予想される長さと等しければ（段ｐｌ！１６８）、
単品に対する受信されたデータ・フレームは新しい参照
テンプレートとして入る（段階７０）。

登録を完成するためには、登録される単語の長さが全く
予想される通りである必要はない。大抵の応用では、い
くらかの違いは認められる。好ましい実ｍｓ様では最高
で４フレ一ム分、予想の長さより短い単語の登録は、認
められ得ると見なされる。短い単語が登録される時、端
の無音は参照テンプレートに含まれず、テンプレート自
身が元来予想されたものよりも短い。もし登録された単
語が予想より長いならば、予想された数に等しい最適の
フレームのみが保持される。これは単語の始端か終端の
、一つ又はそれ以上のフレームが落とさ、れたことを意
味する。最も少ない聴覚エネルギーを持つ端のフレーム
は落とされ得る。もしくは、最大の聴覚エネルギーを持
つフレームは識別可能であり、その点よりも前と後のフ
レームは保持される。この結果、わずかに違う組のフレ
ームが保持される。登録された単語がある小さな数、−
殻内に約１０％以上のフレーム分だけ予想より長いなら
ば、登録は認識されないことが好ましい。

好ましい実７Ｉｌ！ｉ！７１様では、参照テンプレート
の登録が一回行われる。もしくは、登録されるべき単語
を幾度か、好ましくは奇数回、発声すると良く、すると
特徴は平均化され、混成テンプレートを提供する。この
平均化過程は、各特徴に対する単なる１と０の多数のカ
ウントである。もし変化する利用者の音声パターンを改
善したいならば、テンプレートは規則的に新しいものに
できる。複数の話者を登録する混成物であるテンプレー
トを形成することで、ある程度話者の任意性を得ること
ができる。しかしながらこれは、多くの情報が二進法の
係数への圧縮で失われるので、前述のシステムでは難し
い。多くの話者によりテンプレートを発生することがで
き、各単語に対する参照テンプレートは、その甲ｆｆｌ
に対する全ての勺ンプルの中′で、各特徴を示す大部分
のものにより形成される。

テンプレートの正確さを改善するには、単一または複数
の登録の場合であれ、各テンプレートにウェイティング
（ｗｅｉｇｈｔｉｎｇ　）・ペルトル・マスクを使うこ
とができる。これにより、所定の係数が比較の過程にお
いてでも使われるべきか示す。

幾らかの係数は単に無視される。このマスクにより、あ
る係数はテンプレート全部において無視されるべきであ
るとか、またはテンプレートの各フレームは別々に考慮
されるべきであるとかが分かる。テンプレートの係数を
無視する効果は、データ・フレームの値にかかわらず、
そのビットの比較の時にエラーが生じないことである。

幾らかの特徴は過半数に満たず、それゆえそれ稈重要で
はないので、これは不特定話者テンプレートが用いられ
る時利用できる。

前述のシステムへは多数の修正が可能なことは、−当業
者にとっては明白であろう。例えば、ＬＰＧ変換を最初
に行わずに、各フレームのケブストル係数を直接得るこ
とは可能である。ケブヌトラム以外の他の変換も用いら
れる。実験結果では、多くの場合ケブストル・パラメー
タへの第二の変換は、より良い認識結果を出すが、例え
ば、ＬＰＧパラメータは、直接に二進法の値にできる。

また、主要なスペクトル構成要素は、この分野で良く知
られる主要な特徴ベクトルを形成するのに用いられるこ
とができ、このベクトルには前述の方法で二進法の値が
与えられる。また、８ビツトの使用により針環は著しく
簡潔にされ、バイト構成のコンピューターのメモリを最
小にすることを必要とするが、変換のオーダは８から変
えられる。

発明の技術的な利点これまで説明されたシステムを利用すれば、とても低コ
ストの音声認識装置の製造が可能である。

参照テンプレートと変換された品用データの記憶は、全
ての音声フレームを二進法の係数で表すことにより最低
限に押さえられる。排他的論理輪を用いるテンプレート
ｒ″音声を比較すれば、今日のマイクロプロッサの作動
が早くなる。この様な比較を用いれば、引き伸ばされ連
続的な発声から、個々の単語が識別され得る。

認識に使用されるのと同じハードウェアを用いることに
より、正確な登録が用意になされる。

正確な登録により、システムの認識率は著しく改善され
る。テキサス・インスツルメンツ社の７ＭＳ３２０Ｃ１
７を用いた実験的システムは、騒富やストレスにより変
化する音）ｔｉパターンなどの非常に悪条件のもとで、
８０％を越す認識率を達成している。これは、データの
記憶にたった２５６の１６ビツト語しか持たないシステ
ムで達成され、これは入力されるデータの待ち行列と同
様、全てのテンプレートの記憶を含むものである。

その様のシステムでは、音声データの記憶のために５０
フレームの持ち行列を利用し、最高１秒の長さの単語を
認識する。語常には１６の単語があり、２００語の参照
テンプレートを記憶する。

各テンプレートは１バイト（２分の１語）からなり、４
０１Ｓの音声を表すので、２０秒までの参照音声はテン
プレートに記憶され得る。入力される単語の識別には、
４フレーム以下という低い制限がある。

これまで述べたシステムによって本発明を例示した。こ
のシステムには様々な変更が可能なことは、当業者には
明白であろう。これらの変更は本発明の範囲からそれる
べきではなく、その範囲は特許請求の範囲の項で定めら
れる。

以上の説明に関連して以下の項を開示する。

（１）　　名声認識のシステムは、所定の間隔で音声信号をサンプリングし、そのディジタ
ル表示を行うディジタイザを含み、特徴抽出器が前記デ
ィジタイザに接続され、フレームにディジタル信号を分
類し、各フレームの信号の変換を形成し、その変換は複
数の特徴係数を持ち、各特徴係数は対応する二進法の係
数を持ち、変換の値がその係数への所定のしきい値より
大であるか、より小であるかを示し、待ち行列は前記特徴抽出器に接続され、二進法の特徴係
数のフレームを受取り、（れらを連続するオーダに配列
し、比較器は前記持ち行列に接続され、複数の音声フレーム
を、二進法の特徴係数フレームを持つ複数の参照テンプ
レートと比較し、それらの整合の近似性を示す複数の誤
差値を発生し、また決定制御器は前記比較器へ接続され
、比較の結果を受取り、音声発声の部分と参照テンプレ
ートの間で、最適の整合を選ぶ。

（２）　　第１項に記載したシステムにおいて、前記決
定制御器は更に、その聴覚エネルギーのレベルで決定さ
れる発声の始端と終端を検査する手段を含み、前記決定
制御器は、発声が終了した後に始めて、最適の整合を選
ぶ。

（３）　　第２項に記載したシステムにおいて、前記決
定制６Ｉｌｌ器は、前記持ち行列の少なくとも一つの比
較において、所定のしきい値よりエラーが少ない場合の
み最適の整合が選ばれ、さもな番プれば発声は認識され
ない。

（４）　　第３項に記載したシステムにおいて、もし最
低のエラーを持つ二つの比較が、お互いの所定の範囲内
の誤差値を持つ場合、発声は認識されない。

（５）　　第１項に記載したシステムにおいて、前記比
較器は、各参照テンプレートの各フレームと前記持ち行
列の対応する音声フレームの間で、排他的論理和を計算
し、誤差信号は、対応するアンプレートと音声フレーム
の間で整合しないビットの数を示す。

（６）　　第１項に記載したシステムにおいて、前記持
ち行列の一つ置きのフレームのみが、テンプレートとの
各比較段階のために、前記比較により用いられる。

（７）　　話し言葉を認識する方法において、ａ）所定
の間隔で、発声の音声をディジタル化し、ｂ）　ディジタル化した音声をフレームに分類し、各フ
レームをその聴覚的特徴を示す複数の二進法の係数に変
形し、Ｃ）　各々が？Ｕ数の二進法の係数のフレームを持つ複
数の参照テンプレートを供給し、ｄ）　段階（ｂ）で形
成される連続するフレームを参照テンプレートと比較し
、その間の違いの振幅を示す誤差値を発生し、ｅ）認識され／、＝　１！１語として、最低の誤差値を
発生するテンプレートを選択する。

（８）　　第７項に記載した方法において、その誤差値
が所定の値より低い場合に限り、テンプレートは段階（
ｅ）において選ばれる。

（９）　　第７項に記載した方法において、参照テンプ
レート・フレームは、ディジタル化された音声フレーム
の２倍の長さである音声フレームを表し、連続する音声
フレームの一つ置きのフレームだけが、段１１Ｉ件のテ
ンプレートと比較される。

（１０）第７項に記載した方法において、段階（へ）の
比較においては、対応する音声と参照フレーム間の排他
的論理和が行われ、ここでは発生される誤差（１７Ｉは
対応するフレーム間のハミング距離である。

（１１）　　認識システムを利用する音声登録の方法は
、ａ）登録する単ｈｎを選び、その予想される長さを決定
し、ｂ）発声を受け、Ｃ）発声をディジタル化し、そのサンプルを所定の長さ
を持つフレームに集め、ｄ）各フレームに二進法の特徴を抽出し、ｅ）発声の長
さを予想される長さと比較し、ｒ）発声の長さが、予想
される長さの所定量以内ならば、発声のフレームを参照
テンプレートをしてσ録する。

（１２）　　第１１項に記載した方法において、段階０
及び（（）　１．１複数回実施され、段ＷＩＪ＠で油出
された二進誌の特徴は、二進法の特徴フレームの混成さ
れた組を作るのに使用される。

（１３）　　第１２項に記載した方法において、複数の
発声は、−人の話者により成される。

（１４）第１２項に記載した方法において、複数の発心
は、個別の話者により成される。

（１５）低コスト音声認識システムには、二進法の特徴
構成要素を持つ入力音声のフレームを形成する。入力音
声は参照テンプレート２２と比較され１８、入力音声と
参照テンプレート２２の間の差異を表す誤差値が発生さ
れる。発声が終わり、一つのテンプレートの誤差値が十
分に小さければ、そのテンプレートにより表される単語
は、認識された単語をして選ばれる２６゜

【図面の簡単な説明】

第１図は本発明による、音声認識システムのブロック図
である。第２図は入力音声を、参照テンプレートの比較と示す。第３図は好ましい登録過程を示す流れ図である。主な符号の説明１０：音声認識システム１２：マイクロホン１４：対数増幅器１６　：　Ａ／Ｄ変換器１８：特徴抽出回路２０：時間レジストレーション装置２２．４２．４４．４６：審照テンプレート２４：決定
論理２６：応答制御４０：持ち行列４０

Claims

【特許請求の範囲】

（１）所定の間隔で音声信号をサンプリングし、そのデ
ィジタル表示を行うディジタイザを含み、特徴抽出器が
前記ディジタイザに接続され、フレームにディジタル信
号を分類し、各フレームの信号の変換を形成し、その変
換は複数の特徴係数を持ち、各特徴係数は対応する二進
法の係数を持ち、変換の値がその係数への所定のしきい
値より大であるか、より小であるかを示し、待ち行列は前記特徴抽出器に接続され、二進法の特徴係
数のフレームを受取り、それらを連続するオーダに配列
し、比較器は前記待ち行列に接続され、複数の音声フレーム
を、二進法の特徴係数フレームを持つ複数の参照テンプ
レートと比較し、それらの整合の近似性を示す複数の誤
差値を発生し、また決定制御器は前記比較器へ接続され、比較の結果を受取
り、音声発声の部分と参照テンプレートの間で最適の整
合を選ぶ、音声認識のシステム。
（２）ａ）所定の間隔で、発声の音声をディジタル化し
、ｂ）ディジタル化した音声をフレームに分類し、各フレ
ームをその聴覚的特徴を示す複数の二進法の係数に変形
し、ｃ）各々が複数の二進法の係数のフレームを持つ複数の
参照テンプレートを供給し、ｄ）段階（ｂ）で形成される連続するフレームを参照テ
ンプレートと比較し、その間の違いの振幅を示す誤差値
を発生し、ｅ）認識された単語として、最低の誤差値を発生するテ
ンプレートを選択する、話し言葉を認識する方法。