JPS59101700A

JPS59101700A - 言葉の音声認識のための装置

Info

Publication number: JPS59101700A
Application number: JP58209782A
Authority: JP
Inventors: ヴイツトレ・ヴイツトレルリ
Original assignee: Olivetti SpA; Ing C Olivetti and C SpA
Current assignee: Telecom Italia SpA; Olivetti SpA
Priority date: 1982-11-08
Filing date: 1983-11-08
Publication date: 1984-06-12
Also published as: IT1156544B; DE3371134D1; EP0108609A1; EP0108609B1; JPH0252279B2; IT8268302A0; US4703504A

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】この発明は、話し手によって話されたことばないし単語
の音声認識を行うための方法及び装置であって、言葉を
周期的に分析して少なくとも一つのベクトルを得てこれ
を複数の基準音素のベクトルと比較して分析された音声
部分に最も類似した音素を選択するようにしたものに関
する。

既知の形式の単語認識用装置は話し手の協力を前提条件
としている。すなわち、［話し手特定（ｓｐｅａｋｅｒ
　ｄｅｐｅｎｄｅｎｔ）　Ｊ形式のものにおいては、認
識は同じ話し手によりサンプル又はモデルとして事前記
録された単語又は音素と音声との比較に基づいて行われ
る。音声はモデル単語又は音素の一つと十分に接近して
いると判断されたときに認識さ永る。従って、話し手は
比較に使用さ歳るサンプルにできるだけ類似した音声を
発生することが必要である。

「話し手工特定（ｓｐｅ’ａｋｅｒ　１ｎｄｅｐｅｎｄ
ｅｎｔ）Ｊ−形式のものにおいては、話し手はそれほど
正確に定義されていないある種の発音方法に従えばよい
。

この要件は結局「十分明りよう」に話すということであ
る。

いずれの場合でも、認識が欠如した場合には話し手はそ
の原因がわからず、従って、よい結果を期待してむやみ
に動作を繰り返すことができるだけである。経験により
、使用者は時として偶然に機械の応答の仕方を学んで、
次第に誤り率が減少する。

この発明の目的は、非常に短い時間で音声に応答するこ
とができ、話し手の音声が最良の性能を得るように話し
手による音声調整を可能にするような応答を話し手に対
して与えることができる認識方法及び認識装置を得るこ
とである。機械の応答に関する自然の習得過程はそれゆ
え容易になる。

単語の音声認識（ｐｈｏｎｅｔｉｃ　ｒｅｃｏｇｎｉｔ
ｉｏｎ　ｏｆｗｏｒｄｓ）のためのこの発明による方法
は選択された音素に対応する可視表示をリアル・タイム
（実時間）で行うことを特徴としており、これによって
１舌し手は自己の発音を基準音素に対応する発音と一致
するように適応させることができる。この方法を実施す
るための装置は、音声信号をゲイジタル形式に変換する
ための装置、変換された音声信号を分析して少なくとも
一つの対応するベクトルを発生するようにするための分
析装置、このようにして発生されたベクトルを複数の基
準音素のベクトルのそれぞれと比較するための比較装置
、及びこの比較装置の出力に応答して、分析された音素
に最も類似して基準音素を認識する認識装置を備え、且
つ認識された音素の可視表示をリアル・タイムで発生す
るための制御装置によって特徴づけられている。

次にこの発明の採択した一実施例を添付の図面について
説明する。

この発明の装置は、話し手の音声信号を連続的に捕えて
これを増幅器６に送信するように構成されたマイクロホ
ン５を備えている。増幅された信号は次に一連の帯域通
過又は偽信号除去フィルタ波数は、例えば、米国ニュー
ジャージ州エングルウッド・クリツフスのプレンティス
・ホール社出版の、「音声信号のゲイジ、タル処理」と
題するローレンス・アール・ラビナ及びドナルド・ダブ
リュー・シェイファの著書の２・　４．１項（ｐａｒａ
ｇｒａｐｈ２．４．１　ｏｆ　ｔｈｅ　ｂｏｏｋ　ｂｙ
　Ｌａｗｒｅｎｃｅ　ＲＲａｂｉｎｅｒａｎｄ　Ｒｏｎ
ａｌｄ　Ｗ　５ｃｈａｆｅｒ　ｅｎｔｉｔｌｅｄ　”Ｄ
ｉｇｉｔａｌＰｒ＠ｃｅｓｓｉｎｇ　ｏｆ　５ｐｅｅｃ
ｈ　Ｓｉｇｎａｌｓ″、　ｐｕｂｌｉｓｈｅｄｂｙ　Ｐ
ｒｅｎｔｉｃｅ−Ｈａｌｌ、　ＩＨｃ、　Ｅｎｇｌｅｗ
ｏｏｄ　Ｃ１１ｆｆｓ。

Ｎｅｗ　Ｊｅｒｓｅｙ）に記載されたアルゴリズムに基
づいて決定することができる。

この発明の装置は更に、所定の周波数、例えば１２ない
し２０ＫＨｚ　　の周波数を持ったフィルタから来る信
号を前述のアルゴリズムに基づいて標本化するためにタ
イマ９によって制御される標本化装置８を備えている。

このようにして標本化された信号はアナログ・ディジタ
ル変換器１ｏによって変換される。

分析装置１１は変換器１ｏから出る音声信号を分析して
この信号に対応する少なくとも一つのベクトルＶを発生
するように構成されている。分析装置は、所定の時間Ｔ
Ｗ（第２図）に変換器１゜によって供給される信号を分
析するようにそれぞれ構成された一連の分析器Ａ１．　
Ａ２・・・・Ａｎからなって℃する。

分析器Ａ１・・・・Ａｎは各動作ごとに信号の窓又は部
分Ｗを分析して、反射係数に１を含有した対応するベク
トルＶ（第１図）、すなわち分析された音声部分Ｗの分
析的表示を発生する。音声部分のこのような分析的定義
のアルゴリズムは、例えば米国ニューヨークのシュプリ
ンガ・フエアラーク社によって出版された「音声の線形
予測」と題するジェイ・ディー・マーケル及びエイ・エ
イチ・グレイ・ジュニアの著書の４．２．１項（ｐａｒ
ａｇｒａｐｈ４．２．ｌ　　ｏｆ　ｔｈｅ　ｂｏｏｋ　
ｂｙ　Ｊ　Ｄ　Ｍａｒｋｅｌ　ａｎｄ　ＡＨＧｒａｙ、
　Ｊｒ、　ｅｎｔｉｔｌｅｄ　”Ｌｉｎｅａｒ　Ｐｒｅ
ｄｉｃｔｉｏｎｏｆ　５ｐｅｅｃｈ”、　ｐｕｂｌｉｓ
ｈｅｄ　ｂｙ　Ｓｐｒｉｎｇｅｒ　Ｖｅｒｌｏｇ。

Ｎｅｗ　Ｙｏｒｋ）　　に記載されている。係数に１　
の数としては１２ないし１８に選べばよいが、これは周
知のように標本化周波数に相関している。分析器Ａ・・
・・・Ａ　は更に、分析される音声部分Ｗの時１　　　
　　　ｎ間ＴＷ中の信号の平均電力を表す値ＥＮを発生する。

各分析器Ａ１・・・・・Ａｎは、適当にプログラムされ
且つ各記憶装置が音声部分Ｗの持続時間ＴＷに対応する
信号の多数の標本を記憶するのに十分な容量を持ってい
る二つの緩衝記憶装置を備えたマイクロプロセッサによ
って都合よく構成することができる。この二つの緩衝記
憶装置は交互に使用され、一方は新しい入力データを記
憶するために且つ他方は分析の結果をベクトル■として
出力に供給するのに使用される。

個個の分析器Ａ１・・・・・Ａｎ　に送られるべき音声
部分Ｗ１・・・・・Ｗｎ　はタイマ９によって制御され
た論理回路１２によって規定されるが、この論理回路は
音声部分Ｗ１・・・・・Ｗｎ　を時間的にずらし且つ部
分的に重ね合わせて、すなわち持続時間ＴＷと分析器Ａ
１・・・・・Ａｎ（第１図）との比に等しい時間ＴＩ（
第２図）だけ隔てて、分析器Ａ１・・・・・Ａｎに順に
送るように構成されている。それゆえ、各分析器Ａ１・
・・・・Ａｎはそれぞれの音声部分を連続的に分析し、
従って種種の分析器Ａ□・・・・・Ａｎは時間的に一部
分重なり合う音声部分Ｗ１・・・・・Ｗｎを分析する。

換言すれば、持続時間ＴＷの一部分である持続時間ＴＩ
における各音声部分は、装置１１が三つの分析器Ａ１．
　Ａ２．　Ａ３からなっているものと仮定して音声部分
Ｗの順序を示しである第２図の線図から明らかなように
、すべての分析器Ａ１・・・・・Ａｎによって同時に分
析される。

この発明の装置は更に、複数の比較器Ｃ１，Ｃ２・・・
・・Ｃｍ　からなる比較装置１３を備えており、この各
比較器は分析器Ａ１・・・・・Ａｎ　の一つによって発
生されたベクトル■を、比較器に記憶された、対応する
音素を表すそれぞれの基準ベクトル■１゜■２・・・・
■。と比較するように構成されている。ベクトル■１．
■２・・・・■。は「話し手特定」方式では話し手の声
から得ることができ、又「話し手工特定」方式では平均
的な状態を表すようにすればよい。当然、認識の信頼度
は前者の方が後者よりも良いであろう。各比較の結果は
、分析された音声部分に関するベクトルとこれに対応す
る基準ベクトルとの間の距離りであり、この距離は二つ
のベクトルの反射係数の対の間の差の絶対値の和として
計算される。分析器Ａ１・・・・・Ａｎ　　と比較器Ｃ
１・・・・・Ｃｍ　　との間には走査器１４が配置され
ていて、この走査器はベクトル■及び値ＥＮを入力とし
て順次受は取り、且つ出力として各ベクトル■をすべて
の比較器Ｃ１・・・・Ｃｍに並列に送ると共に、順次値
ＥＮを緩衝記憶装置に記憶させる。比較器Ｃ，，Ｃ２・
・・・Ｃｍ　　の出力の全体はｍ個のベクトルＤを表し
ており、これのそれぞれはｍ個の基準音素に関して分析
された最後の音声部分Ｗの距離を表してい、る。

比較器Ｃ，，Ｃ２・・・・ＣＤ］　　及び緩衝記憶装置
１６の出力は、分析されるものに最も類似した基準音素
を選択するよ５に構成された音素認識装置１７に接続さ
れている。更に詳しくは、認識装置１７は緩衝記憶装置
１８を備えた適当にプログラムされたマイクロコンピュ
ータによって構成されており、この記憶装置には装置１
７経由で比較装置１３及び緩衝記憶装置１６の出力がタ
イマ９によって決定される周期ＴＩで記録されるように
なっている。緩衝記憶装置はそれゆえ分析された最後の
音声部分Ｗの所定数Ｘのものに関するベクトルＤ及び値
ＥＮを記憶するように構成されて℃・る。

認識装置１７は、緩衝記憶装置１８に記憶されている分
析された最後の音声部分Ｗに関するベクトルＤを同じ周
期ＴＩで分析して、ベクトルＤを発生したものに最も類
似している基準音素を選択するようにプログラムされて
いる。実際には、装置１７は、音声部分Ｗの音素からの
最小距離ｄを示し且つ選択された基準音素の符号Ｙ、及
び前記の距離ｄの所淀値に対する補数によって構成され
た認識のメリット値を表す符号Ｐを有する音素ＦＹをｍ
個の基準音素の中から選択する。

更に、認識装置１７は分析された音声部分Ｗのエネルギ
ーレベルを表す符号ＥＮを発生する。最後に、認識装置
１７は緩衝記憶装置１８における最後のＸ個のベクトル
Ｄを比較して認識が安定であるか否かを、すなわち最後
のＸ個の音声部分において基準音素との比較が常に同じ
選択になっているか否かを確定するようにプロゲラ′ム
されている。肯定の場合には、装置１７は安定度を示す
二進値ＳＴの符号を発生する。

この発明の装置は更に、陰極線管によって構成されたモ
ニタ２０に対する制御装置１９を備えている。更に詳し
くは、制御装置工９は認識装置１７から符号Ｙ、　　Ｐ
、　　ＥＮ及びＳＴを受けて、音声部分自体の分析と共
に実時間で前記の諸符号を表すヒストグラムの可視表示
をモニタ２０に与えるように構成されている。このヒス
トグラムはモニタ２０の実質上上半部２３に可視表示さ
れ、且つ第３図に示したように一連の柱状部からなって
（・る。このヒストグラムにおいて、第１柱状部はエネ
ルギーＥＮのアナログ値を表し、第２のものは安定度Ｓ
Ｔを表すものであって二つの値のみ（安定であれば高レ
ベル、安定でなければゼロ）をとることができ、それに
続く柱状部はそれぞれ比較音素の一つに対応しており、
認識音１ｇ　Ｆ　Ｙに対応するもの以外はすべてゼロレ
ベルであり、認識音素の高さはメリット値Ｐをアナログ
形式で表している。

モータ２０の表示面上の種々の柱状部の下には柱状部の
意味が固定表示されている。種々の基準音素ＦＹはアル
ファベットの文字（例えば、母音）及び語の音節の形で
表示されている。又、認識可能な音素の数は変更するこ
と可能であろうし、且つ又柱状部の意味の可視表示はモ
ニタ２０に固定表示する代わりに同じ制御装置１９（第
１図）によって制御することができよう。

モニタ２０上に所望のヒストグラム像を発生するために
、制御装置１９はビームの水平偏向を指令するが、この
偏向は線形であり、且つ装置１９が認識装置１７から情
報のブロックを受けた瞬間と同期している。制御装置１
９は次にディジタル・アナログ変換器２１を介して適当
なタイミングで、垂直偏向を制御する信号を送る。

最後に、この発明の装置は、適当にプログラムされたマ
イクロコンピュータと、辞書又は単語集の、適当に符号
化された音声表示、すなわち、同じ語のアルファベット
表示に対するそれぞれの符号と関連した、この発明の装
置が認識することのできる語、が記録されている記憶装
置とから実質上なっている辞書的認識論理装置２２を備
えている。辞書的認識装置２２は音素認識ユニット１７
から出力された情報の各項目を制御装置１９と並列に受
けて一連の音素ＦＹのデータをこれが認識されるときに
一時的に記憶するように構成されている。更に、装置２
２は走査器１４がら出力された情報の各項目を受けて、
分析された実際の音素信号に対応する一連のベクトル■
をも記憶する。

辞書的認識装置２２は記憶された単語の内容を音声認識
装置１７によって受は取られた一連の音素ＦＹと比較し
て、これをつなぎ合わせ、それぞれの音素が一連のもの
の電解の音素ＦＹと一致するときには単語又は単語の一
部分を認識するように構成されて（・る。認識された一
連の音素ＦＭと単語又は単語の一部分との一致が完全で
ない場合、例えば認識のあいまいさがある場合には、装
置２２は認識装置１７により認識されたものに類似した
他の基準音素を考慮することによって、走査器１４から
直接受は取ったベクトル■を利用する。

装置２２の動作の結果は、モニタ２０を制御して、例え
ば表示面の下方部分２４に、アルファベット形式で認識
された単語又は単語の一部分を可視的に表示し、且つ又
ある単語が認識されていない部分に対しては一連の点を
可視的に表示することにある。

認識装置は次の方法で動作する。

認識装置は音素及び語粱の二つの認識論理のレベルを与
える。

音素認識は実時間で行われて、操作員に見える反応を発
生するが、これも又実時間である。

話し手から発してマイクロホン５（第１図）によって捕
えられた音声信号は増幅器６によって増幅させてフィル
タフによりフィルタされる。このようにしてフィルタさ
れた信号は次に標本化装置８によって高い周波数で標本
化され、そして変換器１０によってディジタル信号に変
換される。この値は論理回路１２によって受は取られ、
この回路は多数の標本化信号からなる、持続時間ＴＷ（
第２図）中のこの信号の一連の音声部分Ｗを発生する。

例えば、音素の平均持続時間は１００　ｍｓの程度で゛
あるので、この発明の装置がひだ三つの分析器Ａ１．Ａ
２．Ａ３を備えていると考えると、持続時間ＴＷは３０
　ｍｓに選べばよ（、又標本化は１８０００　Ｈｚで行
えばよい。

連続した音声部分ｗｗｗｗ・・・・は持１１　　２１　
　３９　　４続時間ＴＷと分析器の数との比に等しい時間ＴＩだけ隔
置されており、従ってＴ　Ｉ−１０ｍｓ　となる。論理
回路１２（第１図）は継続する音声部分Ｗを分析器Ａ１
．Ａ２・・・ｔに分配し、従ってこれらの分析器は第２
図に示したようにずれて重なり合った音声部分について
動作する。各分析器Ａ１．Ａ２・・・・は対応する音声
部分を分析するのに時間ＴＡを必要とし、この目的のた
めに、第２図のグラフ２５で示した時点において、分析
の結果、すなわち、それぞれのベクトル■を構成する反
射係数及び音声信号の平均電力の相対値ＥＮ、を出力と
して供給する。

従って、各分析器Ａ１．Ａ２・・・・は、次々と発生す
るが重なり合っていない音声部分の分析結果を各音声部
分の終りに対する遅延ＴＡを伴って供給する。

第２図の線図から明らかなように、（クトル■及び値Ｅ
ＮはＴＩに等しい時間間隔で得られる。

連続したベクトル■は走査器１４によって順次選択され
てｍ個の比較器Ｃ・・′・・・Ｃに並列に送ら１　　　
　　　　　ｍれ、又ＥＮの値は適当な緩衝記憶装置１６に記憶される
。ｍ個の比較器Ｃ１・・・・・Ｃｍは次に、第２図のグ
ラフ２６で示した期間において、分析された最後の、音
声部分を表すベクトル■と比較器に記憶された基準音素
を表すｍ個のベクトル■１・・・・・■　との間の距離
を同時に測定して、第２図のグラフ２７によって示した
時点における比較装置１３からの出力として、分析され
た最後の音声部分のｍ個の差率音素からの距離を表すｍ
個のベクトルＤを定義する。周期ＴＩで、ベクトルＤ及
び緩衝記憶装置１６（第１図）の内容が認識装置１７に
よって得られ、そして分析されたＸ個の最後の音声部分
に関するはクトルＤ及び値ＥＮが記憶装置１８に記憶さ
れる。次に、認識装置１７における最後のベクトルＤの
検査に基づいて、分析された最後の音声部分に壺も炉側
した基、準音素ＦＹが認識される。

（１１＋方、装置Ｉ７の記憶装置１８における最後のＸ
個のベクトルＤを比較することによって、認識の安定性
があるか否かが確立さり、る。ＴＩに等しい時間間隔で
、Ｗ識装置１７は次に信号ＥＮ、Ｙ、Ｐ、ＳＴを制御３
」１装置１９及び辞書的認識装置２２に送る。変換ｚ３
２１を介して、制御装置１９はモニタ２０を制御して、
第３図の上方部分に表示された形式の対応するヒストグ
ラムを発生させる。

第３図ては汐識された音素は文字「０」である。

このヒストグラムはそれゆえ、この発明の装置によって
行われる音声認識の可視表示を実時間で受けて（・る話
し手によって、単語の音節発音における話し手の自然の
速ＭＥ一致した時間で常時Ｗ察することができる。更に
詳しくは、話し手は、認識された音素が彼の発音しよう
としたものでないことに気づいたときには、彼の発音を
基準音素に一層近くなるようにすることができる。更に
、話し手はヒストグラムの柱状部ＥＮによって表示され
たレベルか低いことを認めた場合には彼の音調を上げる
ことができる。最後に、ヒストグラムの柱状部ＳＴは認
識があいまいさなしに行われたこと及びそれが辞書的認
識装置２２によって受は入れられたことの表示を話し手
に与える。逆に、柱状部ＳＴの欠如は話し手の速度がこ
の発明の装置の分析速度に適合していないことを表示ず
ろことができ、従ってこの場合には話し手は、話す速度
を適当に適合させることができる。

明らかなことであるが、既述のこの発明の装置は話し手
に自己の話がどのように認識されたかという直接の知覚
を与える認識方法の単なる一例である。明らかに、既述
の音声認識論理はすべての音素に等しく適するものでは
ない。更に詳しくは、それは母音、鼻子音、及び時間的
に接続させることのできる摩擦音（例えば、ｆ、　ｓ、
　ｓｃ）に対してはよ（適しているが、破裂子音（例え
ば、ｐ、ｋ、ｔ、ｄ）を相互に認識するのにはあまり適
していないようである。これらの子音の認識を確実にす
るため圧は、比較器Ｇ、、Ｃ２・・・・の数を増大させ
て、品し千を対抗できろ音素の数にした後、この発明の
Ｊ装置によって認識を行うように１−ればよ（・。

音素認識とは対照的に、辞書的（語苛）認識は実時間で
は行われず、話し手が認識されるべき単語の発音を完了
した後に開始されろ。

辞書的認識のために、辞Ｆｊ：的認識裂（４２２は音素
認識装置１７から出力された情報と走査器１４から出）
ｊされたすべての情報との両方を受ける。

装置、５：　２２はそれゆえ、装置１７によってこまか
く。１′コ、識さ」する一連の音素ＦＹに対応する一連
の符号と、走査器１４から出て来るより豊富な一連の情
−服とを自由に使える。認１薇装置２２は次に一連の音
素を相互に連結して、まずその単語集の内容と装置１７
から受けた一連の情報とを比較する。

この一連のものの一部分と辞書の要素との対応によって
装置２２は単語を認識して、対応するアルファベットの
可視表示を与えるようにモニタ２０を制御する。話し手
がこの発明の装置の反応に順応するのに成功した程度ま
で、ユニット１７によって発生される一連の情報は確実
な情報基礎を構成するであろう。しかしながら、実時間
での音素認識は不完全であるので、それは完全ではあり
得ない。例えば、それは破裂音を相互に区別することが
できない。解釈のあいまいさがある場合には、装置２２
における認識論理回路は相互につながって、走査器１４
から直接受けたベクトル■をそれの単語集と比較し、こ
のようにして類似の音素を相互に区別する。

それゆえ、装置２２は又モニタ２０を介して話し手に受
は取った一連の音素を表示する反応及び認識された単語
の図式表示を送る。明確な概念を与えろために、イタリ
ア語「ｓｅｕ、ｅＪ　（すなわち、「７」）の場合には
、認識される一連の音素はＳＥ・・Ｅであろう（ここで
、点は、第３図に示したように、一般に破裂音に先行す
る無音を表している。）他方、辞書及び走査器１４から
受けたデータの援助により、完全に書かれた単語、すな
わち［５ＥＴＴＥＪを得ることができる。第３図は表示
面の下半部にＳＥ・・Ｅの表示を示している。

これは上半部に示された音素「０」の認識とは別の例で
ある。

それゆえ明らかなことであるが、既述のこの発明の装置
は所望の反応を実時間で、すなわち平均的な母音音素の
持続時間（約１００ｍ５）よりも短い時間で発生するよ
５に特ＶＣ設計さＪｌ、ており、又音声信号は断絶な（
連続して処理さねる。情報は一連のご１１埋装置値を；
１０過し、この論理装置のそれぞれは、第２１２１の１
腺図に示した時間要件に従って、既述の技法により実施
することのできる機能を行う。

注が１−るべとことであるが、話し手に対する実時［ビ
１ての反応という基本的な考えと一致′１−る他の３１
ｊｉｉ　、ｎ旧（′４造に関係した別の認識子１１ｎを
利用づ−ろこともできる。

最後に、明白なことであるが、この発明の範囲から外れ
ることなく既述の特定のこの発明の装置ａにおいてｆｆ
ｆｉ　ｆｆｆｌの変更及び改善を行うことができる。

例えば、モニタ２０によって与えられる表示のいくつか
は他の可視装置又は光学的表示装置によって与えること
ができるであろう。更に、装置１σ２２によって制御さ
れる単語のアルファベット表示はプリンタによって与え
てもよく、又装置２２は走査器１４からの代わりに装置
１１の分析器から直接ベクトル■を取り寄せることもで
きるであろう。

【図面の簡単な説明】

第１図は単語の音声認識のためのこの発明による装置の
構成図である。第２興は第１図の装置の動作に関づ−ろ時間図である。第３図は第１図の装＋Ｗのモニタに発生したヒストグラ
ムの線図である。これらの図面において、１０はＡ−Ｄ変換器、１１は分
析装置、Ａ１．Ａ２・・・・・Ａは分析器、１３は比較
装置、ＧＯ・・・・・Ｃは比較器、１’　　　　２　　
　　　　　　ｍ１７は音素認識装置、工９は制御装置、２０はモニタ、
２２は辞書的認識装置を示す。ＦＩＧ、３

Claims

【特許請求の範囲】（１）話し手によって話されたことばの音声認識のため
の方法であって、音声を周期的に分析して少なくとも一
つのベクトル（Ｖ）を得てこれを複数の基準音素のベク
トルと比較して分析された音声部分（Ｗ）に最も類似し
た音素（ＦＹ）を選択す条ようにしたものにおいて、選
択された音素（ＦＹ）に対応する可視表示を実時間で発
生させ、これにより話し手が自己の発音を基準音素に対
応する発音に一致させることができるようにしたことを
特徴とする前記の方法。（２）可視表示が分析された音声部分（Ｗ）に対応する
ものとして認識された単語構成部分の表示を含有してい
ることを特徴とする特許請求の範囲第１項に記載の方法
。（３）可視表示が一連の認識段階にわたり、認識された
音声（ＦＹ）の認識の安定度（ＳＴ）の表示な含有して
いることを特徴とする特許請求の範囲第１項又は第２項
に記載の方法。（４）所定持続時間（ＴＷ）の音声部分（Ｗ）の周期的
分析がこの持続時間の一部分（ＴＩ）だけ隔てられた時
点において開始され、このために基準音素のベクトルと
比較されるべきベクトル（Ｖ）が時間的に重なり合った
音声部分（Ｗ）の分析によって得られることを特徴とす
る特許請求の範囲第１項、第２項又は第３項に記載の方
法。（５）モニタ２０の表示面（２３，２４）　　に可視表
示が行われることを特徴とする特許請求の範囲第１項、
第２項、第３項又は第４項に記載の方法。（６）　　先行する特許請求の範囲のいずれが一項に記
載の方法による、話し手によって話されたことばの音声
認識のための装置であって、音声信号をディジタル形式
に変換するための装置（１０）、変換された音声信号を
分析して少なくとも一つの対応スるベクトル（Ｖ）を発
生するための分析装置αυ、このようにして発生された
ベクトルを基準音素の複数のはクトルのそれぞれと比較
づ−るだめの比較装置（１３）、及びこの比較装置（１
３）の出力に応答して、分析された音素に最も類似した
基準音素（ＦＹ）を認識する認識装置（１７）を備えて
いるものにおいて、認識された音素の可視表示を実時間
で発生するための制御装置（１９）を備えていることを
特徴とす′る前記の音声認識のための装置。（力　認識された音素（ＦＹ）を文字又は音節で表示す
る表示装置（２０）を備え、且つ前記の制御装置０９）
が認識された音素（ＦＹ）に関する情報を表示するヒス
トグラムを発生するように構成されており、これにより
、発音された単語が音声認識装置によって正しく認識さ
れているか否かを話し手が実時間で検査することができ
ることを特徴とする特許請求の範囲第６項に記載の装置
。（８）前記の認識装置（１１が、一連の認識段階にわた
り認識装置ａ力により行われた認識の安定度を表す安定
度信号（ＳＴ）を発生し且つこの安定度信号（ＳＴ）の
表示を実時間で行うように構成されていることを特徴と
する特許請求の範囲第６項又は第７項に記載の装置。（９）前記の分析装置旧）がディジタル符号化形式で音
声部分（Ｗ）を受は取るように構成された複数の分析器
（Ａ１．　Ａ２・・・・Ａｎ）がらなっていて、種種の
分析器が前記の持続時間（ＴＷ）と分析器の数との比（
ＴＩ）だけ分離された時点で順次分析を開始し、時間的
に重なり合う音声部分（Ｗ）を分析して対応する一連の
（クトル（Ｖ）を発生するように構成されており、且つ
前記の比較装置が複数の比較器（Ｃ１，Ｃ２・・・・Ｃ
ｍ）がらなってし・て、この各比較器がそれぞれの基準
ベクトルと前記の分析器によって供給された一連のベク
トル（Ｖ）とを比較するように構成されていることを特
徴とする特許請求の範囲第６項、第７項又は第８項に記
載の、特許請求の範囲第４項による方法を実施するため
の装置。（１０）　　比較器がそれぞれ各基準ベクトルからの前
記の一連のものの一つのベクトル（Ｖ）の距離を計算す
るように構成されており、且つ認識装置ＯＤが前記の一
連のもＱの一つのベクトル（Ｖ）からの最小距離を持っ
た基準ベクトルに対応する基準音素（ＦＹ）を選択する
とともにこの最小距離を所定数の連続した選択について
記憶するように構成されていることを特徴とする特許請
求の範囲第９項に記載の装置。 αυ　前記の認識装置（１７）が少なくとも最後の二つ
の記憶された最小距離値に応答して認識の安定度を示す
値（ＳＴ）を発生するように、且っ又対応する計算距離
の所定値の補数である認識メリット値ＣＰ）を発生する
ように構成されていることを特徴とする特許請求の範囲
第ｉｏ項に記載の装置。０２　　前記の認識装置（１７）が分析された音声部分
（Ｗ）の平均エネルギーに対応するエネルギー信号（Ｅ
Ｎ）を発生することを特徴とする特許請求の範囲第１１
項に記載の装置。（１３１制御装置ｑ９が安定度値（ＳＴ）及び前記のメ
リット値（Ｐ）を含むヒストグラム表示を発生すること
を特徴とする特許請求の範囲第１１項に記載の装置。０４）制御装置０９）がエネルギー信号（ＥＮ）を含む
ヒストグラム表示を発生することを特徴とする特許請求
の範囲第１２項又は第１３項に記載の装置。（夏５）一連の連続した認識された音素（ＦＹ）を記憶
装置に記録された語堂の単語と比較して単語の認識を行
うように構成された辞書的認識装置（２２）を備えてお
り、且つこの辞書的認識装置（２２）により制御されて
、認識された単語の表示が行われることを特徴とする特
許請求の範囲第６項から第１４項までのいずれが一つに
記載の装置。（＋６１　　各表示がモニタの表示面に発生させること
を特徴とする特許請求の範囲第６項から第１５項までの
い丁れが一つに記載の装置。ａカ　分析器（Ａ１１　Ａ２・・・・Ａｎ）、制御装置
（１ｇｌ及び辞書的認識装置ｅｌ’２＋の少なくとも二
つがプログラム式マイクロプロセッサを備えていること
を特徴とする特許請求の範囲第６項から第１６項までの
いずれか一つに記載の装置。