JPH01113798A - 低コストの音声認識システムとその方法 - Google Patents

低コストの音声認識システムとその方法

Info

Publication number
JPH01113798A
JPH01113798A JP63190497A JP19049788A JPH01113798A JP H01113798 A JPH01113798 A JP H01113798A JP 63190497 A JP63190497 A JP 63190497A JP 19049788 A JP19049788 A JP 19049788A JP H01113798 A JPH01113798 A JP H01113798A
Authority
JP
Japan
Prior art keywords
frames
frame
template
feature
binary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63190497A
Other languages
English (en)
Inventor
George R Doddington
ジョージ アール.ドディントン
P K Rajasekaran
ピー.ケイ.ラジャセカラン
Michael L Mcmahan
マイクル エル.マックマハン
Wallace Anderson
ウォリス アンダーソン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Texas Instruments Inc
Original Assignee
Texas Instruments Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Texas Instruments Inc filed Critical Texas Instruments Inc
Publication of JPH01113798A publication Critical patent/JPH01113798A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Radio Transmission System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 従来の技術及び問題点 本発明は人間音声の認識に関連し、より詳細には低コス
トの言葉の認識に関連する。
話し言葉を認識するために沢山の技術が開発されている
。これらの複雑さと機能は様々である。
ある精巧なシステムでは、特定話者の孤立単語認識率が
、100%に達する。通常これらは、メインフレーム、
ラージ、ミニ、もしくは、マイクロ・コンピュータに備
えられ、リアルタイムに認識するには、特別なハードウ
ェアと複雑なソフトウェアを必要とする。
多くの分野では、認識率が非常にnい必要はない。特に
ゲームや玩具のような民生品においてはそうである。こ
れらのシステムではしばしば、コスト低下のほうが認識
率をわずかで段階的に改良するよりも重大である。コス
ト低下のためには、最低限の数の電気部品ですむシステ
ムが必要であり、これにより一般的に利用できるメモリ
とプロセシング・パワーが限定される。
又、多くの安価な装置では、不定話者認識は必要とされ
ない。単一語の認識で十分である。長い発声の中の単語
を認@する能力のような、騒音のある環境下で作fl!
Iできる能力はしばしば要求される。
典型的な民生品への応用に適する、現在の低コスト認識
技術では、通常零交さ率技術と圧縮/伸長時間登録を利
用する。−殻内にこれらの技術は、たとえ好条件下の小
さな詔葉に対してさえも適切に機能しない。現在の低コ
スト技術では、通例参照語は適切に登録されず、更に語
粟を定へする参照テンプレートと入力した音声を比較す
る能力を妨げる。
問題点を解決するための手 及び− 低コスト音声認識法が、メモリとプロセシング機能が非
常に限定さたシステムで、十分に作動することは望まし
い。低コストのシステムのおいて、語常登録の融通がき
き、正確であることもまた望ましい。
従って、これら及び他の目的、また後に明らかにされる
利点を達成するため、本発明によるシステムは音声を受
信し、それを所定の長さを持つ一連のフレームの中で、
重みづけされた特徴の集合へ変換する。様々な特徴には
二進法の値が与えられ、所定のしぎい値に関連する値を
示す。各音声フレームはビットのストリングで表され、
ストリングの長さは、音声から抽出された特徴の数に等
しい。このように、コード化されたフレームは参照テン
プレートと比較され、最良の整合を決定する。
本発明の新奇な特徴は特許請求の範囲の項により限定さ
れる。発明の説明のため、好ましい実施態様が図面を参
照にして説明される。
実施例 第1図は本発明による音声認識の好ましいシステム10
を示す。このシステムには、利用可能な記憶容■に関し
て厳重な制限がある。これから説明されるIa能のほと
んどが、テキサス インスツルメンツ インコーホレイ
テッド社製造の、TMS320の単一信号処理チップで
実施可能である。
音声は、対数増幅器14に接続されるマイクロホン12
から入力される。対数増幅器14は全てのシステムで必
要とはされないが、ダイナミックレンジの限られたA/
1〕変j[を使用するシステムでは必要である。、14
ビット以上のレンジを持つ変換器では、通常、ハ、縮を
行うために対数増幅器の使用を必要としない。しかし、
好ましい実施態様で用いられるA/D変換器では、コス
ト低手のため通例これよりビット数が少ない。もしくは
、一般に入手可能な8ビツトC0DECを用いても適わ
ない。
増幅器14の出力はA/D変換器16に接続される。変
換器16は所定の間隔を置いて、圧縮された音声波形を
サンプリングする。好ましい実施態様では、音声は8K
Hzの周波数でサンプリングされる。A/D変換器16
の出力は、特徴抽出回路18へ接続される。特徴抽出は
、前述のTMS320直列信号プロセッサで行われるの
が好ましい。
特徴抽出では、サンプリングされた音声をフレームに分
類し、各フレームに対して線形予測符号化(LPG)パ
ラメータを計nする。LPGパラメータの計口では、デ
ィジタル化された音声が線形であることが要求され、そ
れでディジタル化されたサンプルは実際の特徴抽出に先
立ち減圧(デコンプレス)される。これは使用される特
定の対数増幅器14に対する、適切に対数的に拡張され
た値を含むルックアップ・テーブルに索引をつけること
でなされる。これはこの分野では、良く知られる方法に
て行われる。
好ましい実施態様において、フレームの長さは20m5
であり、長方形もしくは他の平滑化の窓の付いた第10
次自己相111LPC分析が使用される。
これにより10個の特徴係数と、1個のエネルギー係数
が得られる。LPGパラメータは更に、フレームのケプ
ヌトラム変換に変えられる。各フレームに対して、8ケ
ブストル・パラメータが計算されることが好ましい。
各ケプストル・パラメータはしきい値と比較され、単一
のビットにより、ケプストル係数がしきい値より大きい
か小さいかが示される。好ましい実施態様では、各構成
要素に対して相違するしきい値が用いられる。この比較
の終了後、音声のフレームはデータの単一バイトに変換
される。
このバイトは、時間レジストレーション装置20に転送
され、定義された詔粟のIP 飴の参照テンプレート2
2と比較される。これはフンポル−ジョン/コリレーシ
ョンと類似する力試で行われ、これは第2図に関連して
詳細に説明される。
第2図では、8個の二進法のケブストル係数として表さ
れるデータの各フレームは、待ち行列40に配置され、
夫々が1バイトの幅を持つ、50の仕切がある円形のバ
ッファとして機能するのが好ましい。新しいフレームが
持ち行列40に挿入される度に、既に待ち行列にある全
てのフレームが一つ右の位置に移動する。各フレームが
20m5の音声を表すので、直前1秒間の音声はコード
化された形で、持ち行列40に含まれる。
参照テンプレート42.44、及び46は、語柔中の識
別対象言葉を示す二進法のケブストル係数を含む。3個
のテンプレートだけしか示されていないが、多数使われ
ることが好ましい。好ましい実施態様において、語棄に
は16個までの参照語を入れることができる。各フレー
ムはまだ8ビツトで示されるが、参照単語は40m5の
フレームの長さで記憶される。これにより参照テンプレ
ートが、より効果的に蓄積される。参照テンプレートと
関連して使用される「単語」という用語は、−殻内に話
し言葉の単語をいう。しかしながら、実際の言葉の部分
的な語もしくは句を意味しても良い。ここで用いられる
ように、単語とは、識別の対象となるある音声の中位で
ある。
入力された音声データとテンプレートの比較は、入力さ
れたばかりのフレームが、識別対象語の最侵のフレーム
だと仮定することで行われる。データ・フレームは参照
テンプレートの半分の長さしかないので、待ち行列4o
の一つ置きのフレームのみが、参照テンプレート42.
44、及び46と比較される。これは一つ置きデータ・
フレームから、それらに対応する参照フレームを指す矢
印で示される。参照テンプレートの長さは様々であって
良く、また各参照テンプレートの長さに対応するデータ
・フレームの最新の数だけが、そのテンプレートをデー
タに比較するのに用いられる。
全ての参照テンプレート42の各フレームは対応するデ
ータ・フレームと排他的論理和され、フレーム間のハミ
ング距離である差異寸法を出す。
各フレームに対する差異は平均化され、テンプレート4
2に対する誤差値を与える。フレームと単語への誤差値
は、8個までの相違するビットの数で表される。同じ過
程が、参照テンプレート44及び46に関しても繰り返
される。
長い単語は、短い単語よりも高い平均誤差値を出す傾向
にある。また短い参照テンプレートへの多少良い整合よ
りも、長い参照テンプレートへの最適の整合を優先させ
るほうが望ましい。この例トシテハ、FORTUNE 
lfi挙ケラれる。FORTUNEもFOURも共に詔
棄の中の単語であるとする。話し言葉において、FOU
TIINEは、FOllRへの参照テンプレートに多少
良く整合するかもしれないが、もしほとんど同じ様に整
合するならば、長い単語の方が好ましい。
長い整合を優先するため、各参照単品に対する平均的フ
レーム・エラーが、その長さに反比例する要因により増
やされる。従って長い単語は短い単語に比べて、その平
均的フレーム・エラーはかなり減少される。増幅要因は
以下の式で表される。
。−Q 、 Q 5 $ number−of−fra
mesここでは、number−of−framesは
参照テンプレートのフレームの数である。この式は、線
形の式により近似でき、もしくはメモリが十分あるなら
ば、許容される全ての参照フレームの良さへの値を収め
るルツ、クアツブ・テーブルが保持される。
上記の式は、全ての参照テンプレートに計算される、平
均的なフレーム・エラーへ適応される。
最適の二つの整合のみが残される。最適の二つは発声の
持続期間中ずつと保持され、各参照テンプレートに対す
る修正されたフレーム・エラーは、最新の最適の二つの
整合と比較される。もし修正された参照テンプレートに
対する平均的フレーム・エラーが、前の二番目に適切な
整合よりも少ないならば、それと前の最適の整合は、最
新の最適の二つの整合のような適切な順に保たれる。最
適の二つの整合の保持には、ただ単語とそれらに関する
誤差値の識別を保ちさえすれば良い。
いったん全てのテンプレートが最新の持ち行列と比較さ
れれば、時間レジストレーション装置20は、次のデー
タ・フレームの入力を持ち、その時に今述べた比較の過
程が繰り返される。
第1図に戻って、各音声フレームに対する計算が終了し
た後、時間レジストレーション装ff20は最新の二つ
の最適の整合を決定論理24へ転送する。決定−理24
は、単語の認識がいつなされたのか最新の発声により決
定されるように、この情報とエネルギー情報を結合する
発声の始端と終端を決定するのに、いかなる相対的エネ
ルギー検査法を使っても良い。米国特許番号用4.69
6.040号、にあるような、適応的二重しきい値検査
法を用いるのが好ましい方法である。決定論理24は、
特徴抽出18により計算されたエネルキー・レベルが、
しきい値より上がる時に発声が始まると決定し、またエ
ネルギー・レベルが第二のしきい値より下がると発声が
完了したと決定する。時間レジストレーション装置20
から受は取られた二つの最適の整合は、発声が持続する
限り保持され、最新のものとされる。
ただ発声エネルギー・レベルが下がり、発声の終了が示
される時、決定論理24は最適の整合を決定する。
最低のエラーを持つ整合は、許容されYIる認識率を提
供するため、前もって決定されるしきい値より小さい場
合のみ認められるであろう。このしきい値は、適応の性
質により著しく変化する。もしどのテンプレートにも十
分に近似しない整合が作られたなら、発声は認識されな
いであろう。また、二番目に低い誤差値も調べられる。
もし二番目に最適な整合が一番目にとても近いなら、決
定WA理は、混同しやすい類似単語をどちらも選ばず、
発声は認識されない。もちろんこれは、もし最適の二つ
の整合が語棄とは違う単語である時にのみ起こり、同じ
参照単語の二つの整合であれば、受入れられる。
名声認識は、相対的に低い聴覚エネルギーの二つの期間
の間の、相対的に高い聴覚エネルギーの期間と一般的に
定義される発声の間に一回なされるので、連続して話さ
れる文章または旬の中から一個の単語のみが認識される
。もし発声の中に一つ以上の諸策の単語が含まれている
ならば、最適の整合を持つものが受は入れられ認識され
るか、もしくは前述のように発声全体が認識されない。
−回の発声に付き一個の単語しか認識されないが、他の
単語も一緒に発声されても構わなく、認識装置の単語を
語棄に受は入れる能力が低下することはない。データ・
フレームが待ち行列4oに配置される度に比較がなされ
るので、単語は長い発声の中に含まれる時でも認識可能
で、孤立して発声される必要はない。
決定論理による¥詔の認識、または発声の不認識により
、音声認識過程は完rされる。決定論理24はそれが組
み込まれている応用に適切な出力を発生させ、システム
の残りの部分は、この分野でよく知られる方法で、認識
された単語に作用できる。例えば、今説明したシステム
はおしゃべり人形に用いられ、これは話しかけられた単
語に応答する。この応用においては、決定論理24から
の出力は応答1II11tII26に接続され、語岱の
中の様様な単語の受信に対して適切な応答を決定する。
これらの適切な応答には、音声の総合、もしくは人形の
手足の動きが含まれる。同業者には、他の応用も明白で
あろう。
上記のシステム10は、特定話者認識システムとして用
いられるのが好ましい。特定話者W1識では、認識対象
者の単語が語常に登録されなければならない。音声認識
システム10と関連する話者の登録の好ましい方法は、
以下第3図と関連して説明される。
第3図の流れ図は、−個のI11語を詔乗に登録するた
めに必要な段階を示す。複数個の単語の登録では、この
過程が必要回数繰り返される。登録される単語は、その
応用によって夫々異なる。登録できる単語の数は、利用
し得るメモリ及びプロセシング・パワー、及び使用され
る二進法の特徴の数による。好ましいシステムではフレ
ームを決定するのに8個の特徴を使い、数十の単語の詔
堂に実質上の上限を与え、それらが独自に区別されるよ
うにする。好ましいシステムでは、16個の単語のrr
i寅を登録する。これにより、二個のバイト(16ビツ
ト)のl1語が、−単語に対して1ビツトの割合で語誼
の全ての単語を現すことができる。
第一の段階(60)では、登録される単語が選ばれる。
これは応用に適切な、従来のどの様な方法によってもな
され得る。0録される各単語には、音声のフレームの予
想される長さがあり、各フレームの長さは20+13で
ある。次の段階(62)では、利用者は所定の単語を話
すよう促される。これも適切ないかなる方法で行われて
も良い。利用者は、視覚的に、もしくは登録する単語の
記憶されているものの発生もしくは再生で、発声を促さ
れる。
単独で話された串間の登録がなされる。単語の初端と終
端は、特徴抽出システム18により抽出される、エネル
ギー特徴の値により識別される。
サイレンスしきい値を越えるエネルギーの上昇は、発声
の開始を示し、動的しきい値以下のエネルギー・レベル
の降下は、発声の終了を示す。
入力音声はディジタル化され、眞述のようにケプストル
構成要素に変換される(段11N64)。入力データ・
フレームは参照テンプレートと比較されず、単に持ち行
列に配置される。決定論1!24は、発声の開始を終了
を決定する。音声のフレームの発声の持続は、予想され
る長さと比較される(段階66)。6し発声の実際の良
さが予想される長さと等しければ(段pl!168)、
単品に対する受信されたデータ・フレームは新しい参照
テンプレートとして入る(段階70)。
登録を完成するためには、登録される単語の長さが全く
予想される通りである必要はない。大抵の応用では、い
くらかの違いは認められる。好ましい実ms様では最高
で4フレ一ム分、予想の長さより短い単語の登録は、認
められ得ると見なされる。短い単語が登録される時、端
の無音は参照テンプレートに含まれず、テンプレート自
身が元来予想されたものよりも短い。もし登録された単
語が予想より長いならば、予想された数に等しい最適の
フレームのみが保持される。これは単語の始端か終端の
、一つ又はそれ以上のフレームが落とさ、れたことを意
味する。最も少ない聴覚エネルギーを持つ端のフレーム
は落とされ得る。もしくは、最大の聴覚エネルギーを持
つフレームは識別可能であり、その点よりも前と後のフ
レームは保持される。この結果、わずかに違う組のフレ
ームが保持される。登録された単語がある小さな数、−
殻内に約10%以上のフレーム分だけ予想より長いなら
ば、登録は認識されないことが好ましい。
好ましい実7Il!i!71様では、参照テンプレート
の登録が一回行われる。もしくは、登録されるべき単語
を幾度か、好ましくは奇数回、発声すると良く、すると
特徴は平均化され、混成テンプレートを提供する。この
平均化過程は、各特徴に対する単なる1と0の多数のカ
ウントである。もし変化する利用者の音声パターンを改
善したいならば、テンプレートは規則的に新しいものに
できる。複数の話者を登録する混成物であるテンプレー
トを形成することで、ある程度話者の任意性を得ること
ができる。しかしながらこれは、多くの情報が二進法の
係数への圧縮で失われるので、前述のシステムでは難し
い。多くの話者によりテンプレートを発生することがで
き、各単語に対する参照テンプレートは、その甲ffl
に対する全ての勺ンプルの中′で、各特徴を示す大部分
のものにより形成される。
テンプレートの正確さを改善するには、単一または複数
の登録の場合であれ、各テンプレートにウェイティング
(weighting )・ペルトル・マスクを使うこ
とができる。これにより、所定の係数が比較の過程にお
いてでも使われるべきか示す。
幾らかの係数は単に無視される。このマスクにより、あ
る係数はテンプレート全部において無視されるべきであ
るとか、またはテンプレートの各フレームは別々に考慮
されるべきであるとかが分かる。テンプレートの係数を
無視する効果は、データ・フレームの値にかかわらず、
そのビットの比較の時にエラーが生じないことである。
幾らかの特徴は過半数に満たず、それゆえそれ稈重要で
はないので、これは不特定話者テンプレートが用いられ
る時利用できる。
前述のシステムへは多数の修正が可能なことは、−当業
者にとっては明白であろう。例えば、LPG変換を最初
に行わずに、各フレームのケブストル係数を直接得るこ
とは可能である。ケブヌトラム以外の他の変換も用いら
れる。実験結果では、多くの場合ケブストル・パラメー
タへの第二の変換は、より良い認識結果を出すが、例え
ば、LPGパラメータは、直接に二進法の値にできる。
また、主要なスペクトル構成要素は、この分野で良く知
られる主要な特徴ベクトルを形成するのに用いられるこ
とができ、このベクトルには前述の方法で二進法の値が
与えられる。また、8ビツトの使用により針環は著しく
簡潔にされ、バイト構成のコンピューターのメモリを最
小にすることを必要とするが、変換のオーダは8から変
えられる。
発明の技術的な利点 これまで説明されたシステムを利用すれば、とても低コ
ストの音声認識装置の製造が可能である。
参照テンプレートと変換された品用データの記憶は、全
ての音声フレームを二進法の係数で表すことにより最低
限に押さえられる。排他的論理輪を用いるテンプレート
r″音声を比較すれば、今日のマイクロプロッサの作動
が早くなる。この様な比較を用いれば、引き伸ばされ連
続的な発声から、個々の単語が識別され得る。
認識に使用されるのと同じハードウェアを用いることに
より、正確な登録が用意になされる。
正確な登録により、システムの認識率は著しく改善され
る。テキサス・インスツルメンツ社の7MS320C1
7を用いた実験的システムは、騒富やストレスにより変
化する音)tiパターンなどの非常に悪条件のもとで、
80%を越す認識率を達成している。これは、データの
記憶にたった256の16ビツト語しか持たないシステ
ムで達成され、これは入力されるデータの待ち行列と同
様、全てのテンプレートの記憶を含むものである。
その様のシステムでは、音声データの記憶のために50
フレームの持ち行列を利用し、最高1秒の長さの単語を
認識する。語常には16の単語があり、200語の参照
テンプレートを記憶する。
各テンプレートは1バイト(2分の1語)からなり、4
01Sの音声を表すので、20秒までの参照音声はテン
プレートに記憶され得る。入力される単語の識別には、
4フレーム以下という低い制限がある。
これまで述べたシステムによって本発明を例示した。こ
のシステムには様々な変更が可能なことは、当業者には
明白であろう。これらの変更は本発明の範囲からそれる
べきではなく、その範囲は特許請求の範囲の項で定めら
れる。
以上の説明に関連して以下の項を開示する。
(1)  名声認識のシステムは、 所定の間隔で音声信号をサンプリングし、そのディジタ
ル表示を行うディジタイザを含み、特徴抽出器が前記デ
ィジタイザに接続され、フレームにディジタル信号を分
類し、各フレームの信号の変換を形成し、その変換は複
数の特徴係数を持ち、各特徴係数は対応する二進法の係
数を持ち、変換の値がその係数への所定のしきい値より
大であるか、より小であるかを示し、 待ち行列は前記特徴抽出器に接続され、二進法の特徴係
数のフレームを受取り、(れらを連続するオーダに配列
し、 比較器は前記持ち行列に接続され、複数の音声フレーム
を、二進法の特徴係数フレームを持つ複数の参照テンプ
レートと比較し、それらの整合の近似性を示す複数の誤
差値を発生し、また決定制御器は前記比較器へ接続され
、比較の結果を受取り、音声発声の部分と参照テンプレ
ートの間で、最適の整合を選ぶ。
(2)  第1項に記載したシステムにおいて、前記決
定制御器は更に、その聴覚エネルギーのレベルで決定さ
れる発声の始端と終端を検査する手段を含み、前記決定
制御器は、発声が終了した後に始めて、最適の整合を選
ぶ。
(3)  第2項に記載したシステムにおいて、前記決
定制6Ill器は、前記持ち行列の少なくとも一つの比
較において、所定のしきい値よりエラーが少ない場合の
み最適の整合が選ばれ、さもな番プれば発声は認識され
ない。
(4)  第3項に記載したシステムにおいて、もし最
低のエラーを持つ二つの比較が、お互いの所定の範囲内
の誤差値を持つ場合、発声は認識されない。
(5)  第1項に記載したシステムにおいて、前記比
較器は、各参照テンプレートの各フレームと前記持ち行
列の対応する音声フレームの間で、排他的論理和を計算
し、誤差信号は、対応するアンプレートと音声フレーム
の間で整合しないビットの数を示す。
(6)  第1項に記載したシステムにおいて、前記持
ち行列の一つ置きのフレームのみが、テンプレートとの
各比較段階のために、前記比較により用いられる。
(7)  話し言葉を認識する方法において、a)所定
の間隔で、発声の音声をディジタル化し、 b) ディジタル化した音声をフレームに分類し、各フ
レームをその聴覚的特徴を示す複数の二進法の係数に変
形し、 C) 各々が?U数の二進法の係数のフレームを持つ複
数の参照テンプレートを供給し、d) 段階(b)で形
成される連続するフレームを参照テンプレートと比較し
、その間の違いの振幅を示す誤差値を発生し、 e)認識され/、= 1!1語として、最低の誤差値を
発生するテンプレートを選択する。
(8)  第7項に記載した方法において、その誤差値
が所定の値より低い場合に限り、テンプレートは段階(
e)において選ばれる。
(9)  第7項に記載した方法において、参照テンプ
レート・フレームは、ディジタル化された音声フレーム
の2倍の長さである音声フレームを表し、連続する音声
フレームの一つ置きのフレームだけが、段11I件のテ
ンプレートと比較される。
(10)第7項に記載した方法において、段階(へ)の
比較においては、対応する音声と参照フレーム間の排他
的論理和が行われ、ここでは発生される誤差(17Iは
対応するフレーム間のハミング距離である。
(11)  認識システムを利用する音声登録の方法は
、 a)登録する単hnを選び、その予想される長さを決定
し、 b)発声を受け、 C)発声をディジタル化し、そのサンプルを所定の長さ
を持つフレームに集め、 d)各フレームに二進法の特徴を抽出し、e)発声の長
さを予想される長さと比較し、r)発声の長さが、予想
される長さの所定量以内ならば、発声のフレームを参照
テンプレートをしてσ録する。
(12)  第11項に記載した方法において、段階0
及び(() 1.1複数回実施され、段WIJ@で油出
された二進誌の特徴は、二進法の特徴フレームの混成さ
れた組を作るのに使用される。
(13)  第12項に記載した方法において、複数の
発声は、−人の話者により成される。
(14)第12項に記載した方法において、複数の発心
は、個別の話者により成される。
(15)低コスト音声認識システムには、二進法の特徴
構成要素を持つ入力音声のフレームを形成する。入力音
声は参照テンプレート22と比較され18、入力音声と
参照テンプレート22の間の差異を表す誤差値が発生さ
れる。発声が終わり、一つのテンプレートの誤差値が十
分に小さければ、そのテンプレートにより表される単語
は、認識された単語をして選ばれる26゜
【図面の簡単な説明】
第1図は本発明による、音声認識システムのブロック図
である。 第2図は入力音声を、参照テンプレートの比較と示す。 第3図は好ましい登録過程を示す流れ図である。 主な符号の説明 10:音声認識システム 12:マイクロホン 14:対数増幅器 16 : A/D変換器 18:特徴抽出回路 20:時間レジストレーション装置 22.42.44.46:審照テンプレート24:決定
論理 26:応答制御 40:持ち行列40

Claims (2)

    【特許請求の範囲】
  1. (1)所定の間隔で音声信号をサンプリングし、そのデ
    ィジタル表示を行うディジタイザを含み、特徴抽出器が
    前記ディジタイザに接続され、フレームにディジタル信
    号を分類し、各フレームの信号の変換を形成し、その変
    換は複数の特徴係数を持ち、各特徴係数は対応する二進
    法の係数を持ち、変換の値がその係数への所定のしきい
    値より大であるか、より小であるかを示し、 待ち行列は前記特徴抽出器に接続され、二進法の特徴係
    数のフレームを受取り、それらを連続するオーダに配列
    し、 比較器は前記待ち行列に接続され、複数の音声フレーム
    を、二進法の特徴係数フレームを持つ複数の参照テンプ
    レートと比較し、それらの整合の近似性を示す複数の誤
    差値を発生し、また 決定制御器は前記比較器へ接続され、比較の結果を受取
    り、音声発声の部分と参照テンプレートの間で最適の整
    合を選ぶ、音声認識のシステム。
  2. (2)a)所定の間隔で、発声の音声をディジタル化し
    、 b)ディジタル化した音声をフレームに分類し、各フレ
    ームをその聴覚的特徴を示す複数の二進法の係数に変形
    し、 c)各々が複数の二進法の係数のフレームを持つ複数の
    参照テンプレートを供給し、 d)段階(b)で形成される連続するフレームを参照テ
    ンプレートと比較し、その間の違いの振幅を示す誤差値
    を発生し、 e)認識された単語として、最低の誤差値を発生するテ
    ンプレートを選択する、話し言葉を認識する方法。
JP63190497A 1987-07-30 1988-07-29 低コストの音声認識システムとその方法 Pending JPH01113798A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US079563 1987-07-30
US07/079,563 US4910784A (en) 1987-07-30 1987-07-30 Low cost speech recognition system and method

Publications (1)

Publication Number Publication Date
JPH01113798A true JPH01113798A (ja) 1989-05-02

Family

ID=22151331

Family Applications (2)

Application Number Title Priority Date Filing Date
JP63190497A Pending JPH01113798A (ja) 1987-07-30 1988-07-29 低コストの音声認識システムとその方法
JP007339U Pending JP2000000013U (ja) 1987-07-30 1999-09-27 低コストの音声認識装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP007339U Pending JP2000000013U (ja) 1987-07-30 1999-09-27 低コストの音声認識装置

Country Status (5)

Country Link
US (1) US4910784A (ja)
EP (1) EP0302663B1 (ja)
JP (2) JPH01113798A (ja)
KR (1) KR0123934B1 (ja)
DE (1) DE3884880T2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020509703A (ja) * 2017-03-01 2020-03-26 ソルターレ インコーポレイテッド 対象音を検出するためのシステムおよび方法

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06332492A (ja) * 1993-05-19 1994-12-02 Matsushita Electric Ind Co Ltd 音声検出方法および検出装置
AU682380B2 (en) * 1993-07-13 1997-10-02 Theodore Austin Bordeaux Multi-language speech recognition system
US5680506A (en) * 1994-12-29 1997-10-21 Lucent Technologies Inc. Apparatus and method for speech signal analysis
US5832440A (en) * 1996-06-10 1998-11-03 Dace Technology Trolling motor with remote-control system having both voice--command and manual modes
US6654955B1 (en) 1996-12-19 2003-11-25 International Business Machines Corporation Adding speech recognition libraries to an existing program at runtime
US7630895B2 (en) * 2000-01-21 2009-12-08 At&T Intellectual Property I, L.P. Speaker verification method
US6012027A (en) * 1997-05-27 2000-01-04 Ameritech Corporation Criteria for usable repetitions of an utterance during speech reference enrollment
US5956675A (en) * 1997-07-31 1999-09-21 Lucent Technologies Inc. Method and apparatus for word counting in continuous speech recognition useful for reliable barge-in and early end of speech detection
US20050234712A1 (en) * 2001-05-28 2005-10-20 Yongqiang Dong Providing shorter uniform frame lengths in dynamic time warping for voice conversion
US7171444B2 (en) * 2001-11-14 2007-01-30 Sharp Laboratories Of America, Inc. Remote desktop protocol compression system
US7398209B2 (en) * 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7693720B2 (en) * 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US7949529B2 (en) 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
EP2026030A1 (en) * 2007-08-16 2009-02-18 Saab Ab Method and device for detecting a fire shot event in a weapon
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8589161B2 (en) * 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US9171541B2 (en) * 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
WO2016044321A1 (en) 2014-09-16 2016-03-24 Min Tang Integration of domain information into state transitions of a finite state transducer for natural language processing
EP3195145A4 (en) 2014-09-16 2018-01-24 VoiceBox Technologies Corporation Voice commerce
WO2016061309A1 (en) 2014-10-15 2016-04-21 Voicebox Technologies Corporation System and method for providing follow-up responses to prior natural language inputs of a user
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
WO2018023106A1 (en) 2016-07-29 2018-02-01 Erik SWART System and method of disambiguating natural language processing requests

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5722296A (en) * 1980-07-15 1982-02-05 Matsushita Electric Works Ltd Voice message identifying system
JPS6069698A (ja) * 1983-09-27 1985-04-20 株式会社リコー 音声パタ−ン比較装置
JPS62121500A (ja) * 1985-11-20 1987-06-02 シャープ株式会社 音声認識方式

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2575909A (en) * 1949-07-01 1951-11-20 Bell Telephone Labor Inc Voice-operated system
US3225141A (en) * 1962-07-02 1965-12-21 Ibm Sound analyzing system
US3322898A (en) * 1963-05-16 1967-05-30 Meguer V Kalfaian Means for interpreting complex information such as phonetic sounds
US3647978A (en) * 1969-04-30 1972-03-07 Int Standard Electric Corp Speech recognition apparatus
US3742143A (en) * 1971-03-01 1973-06-26 Bell Telephone Labor Inc Limited vocabulary speech recognition circuit for machine and telephone control
US3812291A (en) * 1972-06-19 1974-05-21 Scope Inc Signal pattern encoder and classifier
US3943295A (en) * 1974-07-17 1976-03-09 Threshold Technology, Inc. Apparatus and method for recognizing words from among continuous speech
DE2536640C3 (de) * 1975-08-16 1979-10-11 Philips Patentverwaltung Gmbh, 2000 Hamburg Anordnung zur Erkennung von Geräuschen
US4181813A (en) * 1978-05-08 1980-01-01 John Marley System and method for speech recognition
JPS58130393A (ja) * 1982-01-29 1983-08-03 株式会社東芝 音声認識装置
US4780906A (en) * 1984-02-17 1988-10-25 Texas Instruments Incorporated Speaker-independent word recognition method and system based upon zero-crossing rate and energy measurement of analog speech signal

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5722296A (en) * 1980-07-15 1982-02-05 Matsushita Electric Works Ltd Voice message identifying system
JPS6069698A (ja) * 1983-09-27 1985-04-20 株式会社リコー 音声パタ−ン比較装置
JPS62121500A (ja) * 1985-11-20 1987-06-02 シャープ株式会社 音声認識方式

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020509703A (ja) * 2017-03-01 2020-03-26 ソルターレ インコーポレイテッド 対象音を検出するためのシステムおよび方法

Also Published As

Publication number Publication date
KR890002816A (ko) 1989-04-11
KR0123934B1 (ko) 1997-11-26
EP0302663A2 (en) 1989-02-08
US4910784A (en) 1990-03-20
DE3884880T2 (de) 1994-02-10
JP2000000013U (ja) 2000-02-02
EP0302663A3 (en) 1989-10-11
EP0302663B1 (en) 1993-10-13
DE3884880D1 (de) 1993-11-18

Similar Documents

Publication Publication Date Title
JPH01113798A (ja) 低コストの音声認識システムとその方法
JP3337233B2 (ja) 音声符号化方法及び装置
US5165007A (en) Feneme-based Markov models for words
JP3114975B2 (ja) 音素推定を用いた音声認識回路
JPH06274200A (ja) 音声コード化装置及び方法
JPH05216490A (ja) 音声コード化装置及び方法並びに音声認識装置及び方法
JPH07146699A (ja) 音声認識方法
KR20010102549A (ko) 화자 인식 방법 및 장치
EP1022725A1 (en) Selection of acoustic models using speaker verification
KR102508640B1 (ko) 다화자 훈련 데이터셋에 기초한 음성합성 방법 및 장치
JP4696418B2 (ja) 情報検出装置及び方法
JP4461557B2 (ja) 音声認識方法および音声認識装置
US4790017A (en) Speech processing feature generation arrangement
JP2003044078A (ja) 発声速度正規化分析を用いた音声認識装置
JPH08123469A (ja) 句境界確率計算装置および句境界確率利用連続音声認識装置
JPH01202798A (ja) 音声認識方法
JPH07248791A (ja) 話者照合方法及び装置
KR100476337B1 (ko) 음성인식기의유사단어인식방법
KR100488121B1 (ko) 화자간 변별력 향상을 위하여 개인별 켑스트럼 가중치를 적용한 화자 인증 장치 및 그 방법
JPS6312000A (ja) 音声認識装置
JPH04271397A (ja) 音声認識装置
JPS6336678B2 (ja)
JPH11338492A (ja) 話者認識装置
JPH1165589A (ja) 音声認識装置
JP4734771B2 (ja) 情報抽出装置及び方法