JPH0252279B2 - - Google Patents

Info

Publication number
JPH0252279B2
JPH0252279B2 JP58209782A JP20978283A JPH0252279B2 JP H0252279 B2 JPH0252279 B2 JP H0252279B2 JP 58209782 A JP58209782 A JP 58209782A JP 20978283 A JP20978283 A JP 20978283A JP H0252279 B2 JPH0252279 B2 JP H0252279B2
Authority
JP
Japan
Prior art keywords
recognition
speaker
words
speech recognition
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP58209782A
Other languages
English (en)
Other versions
JPS59101700A (ja
Inventor
Uitsutoreruri Uitsutore
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
INGU CHII ORIBETSUTEI E CO SpA
Original Assignee
INGU CHII ORIBETSUTEI E CO SpA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by INGU CHII ORIBETSUTEI E CO SpA filed Critical INGU CHII ORIBETSUTEI E CO SpA
Publication of JPS59101700A publication Critical patent/JPS59101700A/ja
Publication of JPH0252279B2 publication Critical patent/JPH0252279B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

【発明の詳細な説明】 この発明は、話し手によつて話されたことばな
いし単語の音声認識を行うための方法及び装置で
あつて、言葉を周期的に分析して少なくとも一つ
のベクトルを得てこれを複数の基準音素のベクト
ルと比較して分析された音声部分に最も類似した
音素を選択するようにしたものに関する。
既知の形式の単語認識用装置は話し手の協力を
前提条件としている。すなわち、「話し手特定
(speaker dependent)」形式のものにおいては、
認識は同じ話し手によりサンプル又はモデルとし
て事前記録された単語又は音素と音声との比較に
基づいて行われる。音声はモデル単語又は音素の
一つと十分に接近していると判断されたときに認
識される。従つて、話し手は比較に使用されるサ
ンプルにできるだけ類似した音声を発生すること
が必要である。
「話し手不特定(speaker independent)」形
式のものにおいては、話し手はそれほど正確に定
義されていないある種の発音方法に従えばよい。
この要件は結局「十分明りよう」に話すというこ
とである。
いずれの場合でも、認識が欠如した場合には話
し手はその原因がわからず、従つて、よい結果を
期待してむやみに動作を繰り返すことができるだ
けである。経験により、使用者は時として偶然に
機械の応答の仕方を学んで、次第に誤り率が減少
する。
この発明の目的は、非常に短い時間で音声に応
答することができ、話し手の音声が最良の性能を
得るように話し手による音声調整を可能にするよ
うな応答を話し手に対して与えることができる認
識装置を得ることである。機械の応答に関する自
然の習得過程はそれゆえ容易になる。
単語の音声認識(phonetic recognition of
words)のためのこの発明による装置は選択され
た音素に対応する可視表示をリアル・タイム(実
時間)で行うことを特徴としており、これによつ
て話し手は自己の発音を基準音素に対応する発音
と一致するように適応させることができる。この
発明による話された言葉の音声認識のための装置
は、音声信号をデイジタル形式に変換するための
装置と、変換された音声信号を分析して少なくと
も一つの対応するベクトルを発生するための分析
装置と、このようにして発生されたベクトルを基
準音素の複数のベクトルのそれぞれと比較するた
めの比較装置と、該比較装置の出力に応答して、
分析された音素に最も類似した基準音素を認識す
る認識装置とを備え、更に認識された音素の可視
表示を実時間で発生するための制御装置を設ける
とともに、前記認識装置が、一連の認識段階にわ
たり該認識装置により行われた認識の安定度を表
す安定度信号を発生し且つこの安定度信号の表示
を実時間で行うように構成されていることにより
特徴づけられている。
次にこの発明の採択した一実施例を添付の図面
について説明する。
この発明の装置は、話し手の音声信号を連続的
に捕えてこれを増幅器6に送信するように構成さ
れたマイクロホン5を備えている。増幅された信
号は次に一連の帯域通過又は偽信号除去フイルタ
7に送られ後続の標本化をひずませるおそれのあ
る望ましくない周波数が除去される。このような
周波数は、例えば、米国ニユージヤージ州エング
ルウツド・クリツフスのプレンテイス・ホール社
出版の、「音声信号のデイジタル処理」と題する
ローレンス・アール・ラビナ及びドナルド・ダブ
リユー・シエイフアの著書の2.4.1頁
(paragraph2.4.1of the book by Lawrence R
Rabiner and Ronald W Schafer entitled
“Digital Processing of Speech Signals”,
published by Prentice−Hall,Inc,
Englewood Cliffs,New Jersey)に記載された
アルゴリズムに基づいて決定することができる。
この発明の装置は更に、所定の周波数、例えば
12ないし20KHzの周波数を持つたフイルタから来
る信号を前述のアルゴリズムに基づいて標本化す
るためにタイマ9によつて制御される標本化装置
8を備えている。
このようにして標本化された信号はアナログ・
デイジタル変換器10によつて変換される。
分析装置11は変換器10から出る音声信号を
分析してこの信号に対応する少なくとも一つのベ
クトルVを発生するように構成されている。分析
装置は、所定の時間TW(第2図)に変換器10
によつて供給される信号を分析するようにそれぞ
れ構成された一連の分析器A1,A2……Aoからな
つている。
分析器A1…Aoは各動作ごとに信号の窓又は部
分Wを分析して、反射係数Kiを含有した対応す
るベクトルV(第1図)、すなわち分析された音声
部分Wの分析的表示を発生する。ここで、反射係
数は、下記の著書「音声の線形予測」に正確に規
定されているような、話者の声門や口唇の位置を
示し且つ声道モデルによるパラメータを意味す
る。音声部分のこのような分析的定義のアルゴリ
ズムは、例えば米国ニユーヨークのシユプリン
ガ・フエアラーク社によつて出版された「音声の
線形予測」と題するジエイ・デイー・マーケル及
びエイ・エイチ・グレイ・ジユニアの著書の
4.2.1項(paragraph4.2.1 of the book by J
D Markel and A H Gray,Jr,entitled
“Linear Prediction of Speech”,published by
Springer Verlog,New York)の記載されてい
る。係数Kiの数としては12ないし18に選べばよ
いが、これは周知のように標本化周波数に相関し
ている。分析器A1……Aoは更に、分析される音
声部分Wの時間TW中の信号の平均電力を表す値
ENを発生する。
各分析器A1……Aoは、適当にプログラムされ
且つ各記憶装置が音声部分Wの持続時間TWに対
応する信号の多数の標本を記憶するのに十分な容
量を持つている二つの緩衝記憶装置を備えたマイ
クロプロセツサによつて都合よく構成することが
できる。この二つの緩衝記憶装置は交互に使用さ
れ、一方は新しい入力データを記憶するために且
つ他方は分析の結果をベクトルVとして出力に供
給するのに使用される。
個個の分析器A1……Aoに送られるべき音声部
分W1……Woはタイマ9によつて制御された論理
回路12によつて規定されるが、この論理回路は
音声部分W1……Woを時間的にずらし且つ部分的
に重ね合わせて、すなわち持続時間TWと分析器
A1……Ao(第1図)の数との比に等しい時間TI
(第2図)だけ隔てて、分析器A1……Aoに順に送
るように構成されている。それゆえ、各分析器
A1……Aoはそれぞれの音声部分を連続的に分析
し、従つて種種の分析器A1……Aoは時間的に一
部分重なり合う音声部分W1……Woを分析する。
換言すれば、持続時間TWの一部分である持続時
間TIにおける各音声部分は、装置11が三つの
分析器A1,A2,A3からなつているものと仮定し
て音声部分Wの順序を示してある第2図の線図か
ら明らかなように、すべての分析器A1……Ao
よつて同時に分析される。
この発明の装置は更に、複数の比較器C1,C2
……Cnからなる比較装置13を備えており、こ
の各比較器は分析器A1……Aoの一つによつて発
生されたベクトルVを、比較器に記憶された、対
応する音素を表すそれぞれの基準ベクトルV1
V2……Vnと比較するように構成されている。ベ
クトルV1,V2……Vnは「話し手特定」方式では
話し手の声から得ることができ、又「話し手不特
定」方式では平均的な状態を表すようにすればよ
い。当然、認識の信頼度は前者の方が後者よりも
良いであろう。各比較の結果は、分析された音声
部分に関するベクトルとこれに対応する基準ベク
トルとの間の距離Dであり、この距離は二つのベ
クトルの反射係数の対の間の差の絶対値の和とし
て計算される。分析器A1……Aoと比較器C1……
Cnとの間には走査器14が配置されていて、こ
の走査器はベクトルV及び値ENを入力として順
次受け取り、且つ出力として各ベクトルVをすべ
ての比較器C1……Cnに並列に送ると共に、順次
値ENを緩衝記憶装置に記憶させる。比較器C1
C2……Cnの出力の全体はm個のベクトルDを表
しており、これのそれぞれはm個の基準音素に関
して分析された最後の音声部分Wの距離を表して
いる。
比較器C1,C2……Cn及び緩衝記憶装置16の
出力は、分析されるものに最も類似した基準音素
を選択するように構成された音素認識装置17に
接続されている。更に詳しくは、認識装置17は
緩衝記憶装置18を備えた適当にプログラムされ
たマイクロコンピユータによつて構成されてお
り、この記憶装置18には装置17により比較装
置13及び緩衝記憶装置16の出力がタイマ9に
よつて決定される周期TIで記録されるようにな
つている。緩衝記憶装置18はそれゆえ分析され
た最後の音声部分Wの所定数Xのものに関するベ
クトルD及び値ENを記憶するように構成されて
いる。認識装置17は、緩衝記憶装置18に記憶
されている分析された最後の音声部分Wに関する
ベクトルDを同じ周期TIで分析して、ベクトル
Dを発生したものに最も類似している基準音素を
選択するようにプログラムされている。実際に
は、装置17は、音声部分Wの音素からの最小距
離dを示し且つ選択された基準音素の符号Y、及
び前記の距離dの所定値に対する補数によつて構
成された認識のメリツト値を表す符号Pを有する
音素FYをm個の基準音素の中から選択する。
更に、認識装置17は分析された音声部分Wの
エネルギーレベルを表す符号ENを発生する。最
後に、認識装置17は緩衝記憶装置18における
最後のX個のベクトルDを比較して認識が安定で
あるか否かを、すなわち最後のX個の音声部分に
おいて基準音素との比較が常に同じ選択になつて
いるか否かを確定するようにプログラムされてい
る。肯定の場合には、装置17は安定度を示す二
進値STの符号を発生する。
この発明の装置は更に、陰極線管によつて構成
されたモニタ20に対する制御装置19を備えて
いる。更に詳しくは、制御装置19は認識装置1
7から符号Y,P,EN及びSTを受けて、音声部
分自体の分析と共に実時間で前記の諸符号を表す
ヒストグラムの可視表示をモニタ20に与えるよ
うに構成されている。このヒストグラムはモニタ
20の実質上上半部23に可視表示され、且つ第
3図に示したように一連の柱状部からなつてい
る。このヒストグラムにおいて、第1柱状部はエ
ネルギーENのアナログ値を表し、第2のものは
安定度STを表すものであつて二つの値のみ(安
定であれば高レベル、安定でなければゼロ)をと
ることができ、それに続く柱状部はそれぞれ比較
音素の一つに対応しており、認識音素FYに対応
するもの以外はすべてゼロレベルであり、認識音
素の高さはメリツト値Pをアナログ形式で表して
いる。
モニタ20の表示面上の種々の柱状部の下には
柱状部の意味が固定表示されている。種々の基準
音素FYはアルフアベツトの文字(例えば、母音)
及び語の音節の形で表示されている。又、認識可
能な音素の数は変更することが可能であろうし、
且つ又柱状部の意味の可視表示はモニタ20に固
定表示する代わりに同じ制御装置19(第1図)
によつて制御することができよう。
モニタ20上に所望のヒストグラム像を発生す
るために、制御装置19はビームの水平偏向を指
令するが、この偏向は線形であり、且つ装置19
が認識装置17から情報のブロツクを受けた瞬間
と同期している。制御装置19は次にデイジタ
ル・アナログ変換器21を介して適当なタイミン
グで、垂直偏向を制御する信号を送る。
最後に、この発明の装置は、適当にプログラム
されたマイクロコンピユータと、辞書又は単語集
の、適当に符号化された音声表示、すなわち、同
じ語のアルフアベツト表示に対するそれぞれの符
号と関連した、この発明の装置が認識することの
できる語、が記録されている記憶装置とから実質
上なつている辞書的認識論理装置22を備えてい
る。辞書的認識装置22は音素認識ユニツト17
から出力された情報の各項目を制御装置19と並
列に受けて一連の音素FYのデータをこれが認識
されるときに一時的に記憶するように構成されて
いる。更に、装置22は走査器14から出力され
た情報の各項目を受けて、分析された実際の音素
信号に対応する一連のベクトルVをも記憶する。
辞書的認識装置22は記憶された単語の内容を
音声認識装置17によつて受け取られた一連の音
素FYと比較して、これをつなぎ合わせ、それぞ
れの音素が一連のものの一群の音素FYと一致す
るときには単語又は単語の一部分を認識するよう
に構成されている。認識された一連の音素FYと
単語又は単語の一部分との一致が完全でない場
合、例えば認識のあいまいさがある場合には、装
置22は認識装置17により認識されたものに類
似した他の基準音素を考慮することによつて、走
査器14から直接受け取つたベクトルVを利用す
る。
装置22の動作の結果は、モニタ20を制御し
て、例えば表示面の下方部分24に、アルフアベ
ツト形式で認識された単語又は単語の一部分を可
視的に表示し、且つ又ある単語が認識されていな
い部分に対しては一連の点を可視的に表示するこ
とにある。
認識装置は次の方法で動作する。
認識装置は音素及び語彙の二つの認識論理のレ
ベルを与える。
音素認識は実時間で行われて、操作員に見える
反応を発生するが、これも又実時間である。
話し手から発したマイクロホン5(第1図)に
よつて捕えられた音声信号は増幅器6によつて増
幅させてフイルタ7によりフイルタされる。この
ようにしてフイルタされた信号は次に標本化装置
8によつて高い周波数で標本化され、そして変換
器10によつてデイジタル信号に変換される。こ
の値は論理回路12によつて受け取られ、この回
路は多数の標本化信号からなる、持続時間TW
(第2図)中のこの信号の一連の音声部分Wを発
生する。例えば、音素の平均持続時間は100msの
程度であるので、この発明の装置がただ三つの分
析器A1,A2,A3を備えていると考えると、持続
時間TWは30msに選べばよく、又標本化は18000
Hzで行えばよい。
連続した音声部分W1,W2,W3,W4……は持
続時間TWと分析器の数との比に等しい時間TI
だけ隔置されており、従つてTI=10msとなる。
論理回路12(第1図)は継続する音声部分Wを
分析器A1,A2……に分配し、従つてこれらの分
析器は第2図に示したようにずれて重なり合つた
音声部分について動作する。各分析器A1,A2
…は対応する音声部分を分析するのに時間TAを
必要とし、この目的のために、第2図のグラフ2
5で示した時点において、分析の結果、すなわ
ち、それぞれのベクトルVを構成する反射係数及
び音声信号の平均電力の相対値EN、を出力とし
て供給する。
従つて、各分析器A1,A2……は、次々と発生
するが重なり合つていない音声部分の分析結果を
各音声部分の終りに対する遅延TAを伴つて供給
する。
第2図の線図から明らかなように、ベクトルV
及び値ENはTIに等しい時間間隔で得られる。連
続したベクトルVは走査器14によつて順次選択
されてm個の比較器C1……Cnに並列に送られ、
又ENの値は適当な緩衝記憶装置16に記憶され
る。m個の比較器C1……Cnは次に、第2図のグ
ラフ26で示した期間において、分析された最後
の音声部分を表すベクトルVと比較器に記憶され
た多くの基準音素を表すm個のベクトルV1……
Vnとの間の距離を同時に測定して、第2図のグ
ラフ27によつて示した時点における比較装置1
3からの出力として、分析された最後の音声部分
のm個の基準音素からの距離を表すm個のベクト
ルDを定義する。周期TIで、ベクトルD及び緩
衝記憶装置16(第1図)の内容が認識装置17
によつて得られ、そして分析されたx個の最後の
音声部分に関するベクトルD及び値ENが記憶装
置18に記憶される。次に、認識装置17におけ
る最後のベクトルDの検査に基づいて、分析され
た最後の音声部分に最も類似した基準音素FYが
認識される。
他方、装置17の記憶装置18における最後の
x個のベクトルDを比較することによつて、認識
の安定性があるか否かが確立される。TIに等し
い時間間隔で、認識装置17は次に信号EN,
Y,P,STを制御装置19及び辞書的認識装置
22に送る。変換器21を介して、制御装置19
はモニタ20を制御して、第3図の上方部分に表
示された形式の対応するヒストグラムを発生させ
る。第3図では認識された音素は文字「0」であ
る。このヒストグラムはそれゆえ、この発明の装
置によつて行われる音声認識の可視表示を実時間
で受けている話し手によつて、単語の音節発音に
おける話し手の自然の速度に一致した時間で常時
観察することができる。更に詳しくは、話し手
は、認識された音素が彼の発音しようとしたもの
でないことに気づいたときには、彼の発音を基準
音素に一層近くなるようにすることができる。更
に、話し手はヒストグラムの柱状部ENによつて
表示されたレベルが低いことを認めた場合には彼
の音調を上げることができる。最後に、ヒストグ
ラムの柱状部STは認識があいまいさなしに行わ
れたこと及びそれが辞書的認識装置22によつて
受け入れられたことの表示を話し手に与える。逆
に、柱状部STの欠如は話し手の速度がこの発明
の装置の分析速度に適合していないことを表示す
ることができ、従つてこの場合には話し手は、話
す速度を適当に適合させることができる。
明らかなことであるが、既述のこの発明の装置
は話し手に自己の話がどのように認識されたかと
いう直接の知覚を与える認識方法の単なる一例で
ある。明らかに、既述の音声認識論理はすべての
音素に等しく適するものではない。更に詳しく
は、それは母音、鼻子音、及び時間的に接続させ
ることのできる摩擦音(例えば、f、s、sc))
に対してはよく適しているが、破裂子音(例え
ば、p、k、t、d)を相互に認識するのにはあ
まり適していないようである。これらの子音の認
識を確実にするためには、比較器C1,C2……の
数を増大させて、話し手が対処できる音素の数に
した後、この発明の装置によつて認識を行うよう
にすればよい。
音素認識とは対照的に、辞書的(語彙)認識は
実時間では行われず、話し手が認識されるべき単
語の発音を完了した後に開始される。
辞書的認識のために、辞書的認識装置22は音
素認識装置17から出力された情報と走査器14
から出力されたすべての情報との両方を受ける。
装置22はそれゆえ、装置17によつてこまかく
認識される一連の音素FYに対応する一連の符号
と、走査器14から出て来るより豊富な一連の情
報とを自由に使える。認識装置22は次に一連の
音素を相互に連結して、まずその単語集の内容と
装置17から受けた一連の情報とを比較する。
この一連のものの一部分と辞書の要素との対応
によつて装置22は単語を認識して、対応するア
ルフアベツトの可視表示を与えるようにモニタ2
0を制御する。話し手がこの発明の装置の反応に
順応するのに成功した程度まで、ユニツト17に
よつて発生される一連の情報は確実な情報基礎を
構成するであろう。しかしながら、実時間での音
声認識は不完全であるので、それは完全ではあり
得ない。例えば、それは破裂音を相互に区別する
ことができない。解釈のあいまいさがある場合に
は、装置22における認識論理回路は相互につな
がつて、走査器14から直接受けたベクトルVを
それの単語集と比較し、このようにして類似の音
素を相互に区別する。
それゆえ、装置22は又モニタ20を介して話
し手に受け取つた一連の音素を表示する反応及び
認識された単語の図式表示を送る。明確な概念を
与えるために、イタリア語「sette」(すなわち、
「7」)の場合には、認識される一連の音素は
SE・・Eであろう(ここで、点は、第3図に示
したように、一般に破裂音に先行する無音を表し
ている。)他方、辞書及び走査器14から受けた
データの援助により、完全に書かれた単語、すな
わち「SETTE」を得ることができる。第3図は
表示面の下半部にSE・・Eの表示を示している。
これは上半部に示された音素「0」の認識とは別
の例である。
それゆえ明らかなことであるが、既述のこの発
明の装置は所望の反応を実時間で、すなわち平均
的な母音音素の持続時間(約100ms)よりも短い
時間で発生するように特に設計されており、又音
声信号は断絶なく連続して処理される。情報は一
連の論理装置を通過し、この論理装置のそれぞれ
は、第2図の線図に示した時間要件に従つて、既
述の技法により実施することのできる機能を行
う。
注意するべきことであるが、話し手に対する実
時間での反応という基本的な考えと一致する他の
論理構造に関係した別の認識手順を利用すること
もできる。
最後に、明白なことであるが、この発明の範囲
から外れることなく既述の特定のこの発明の装置
において種種の変更及び改善を行うことができ
る。例えば、モニタ20によつて与えられる表示
のいくつかは他の可視装置又は光学的表示装置に
よつて与えることができるであろう。更に、装置
22によつて制御される単語のアルフアベツト表
示はプリンタによつて与えてもよく、又装置22
は走査器14からの代わりに装置11の分析器か
ら直接ベクトルVを取り寄せることもできるであ
ろう。
【図面の簡単な説明】
第1図は単語の音声認識のためのこの発明によ
る装置の構成図である。第2図は第1図の装置の
動作に関する時間図である。第3図は第1図の装
置のモニタに発生したヒストグラムの線図であ
る。 これらの図面において、10はA−D変換器、
11は分析装置、A1,A2……Aoは分析器、13
は比較装置、C1,C2……Cnは比較器、17は音
素認識装置、19は制御装置、20はモニタ、2
2は辞書的認識装置を示す。

Claims (1)

  1. 【特許請求の範囲】 1 音声信号をデイジタル形式に変換するための
    装置10と、 変換された音声信号を分析して少なくとも一つ
    の対応するベクトルVを発生するための分析装置
    11と、 このようにして発生されたベクトルを基準音素
    の複数のベクトルのそれぞれと比較するための比
    較装置13と、 該比較装置13の出力に応答して、分析された
    音素に最も類似した基準音素FYを認識する認識
    装置17とを備える話し手によつて話された言葉
    の音声認識のための装置において、 認識された音素の可視表示を実時間で発生する
    ための制御装置19を設けるとともに、 前記認識装置17が、一連の認識段階にわたり
    該認識装置17により行われた認識の安定度を表
    す安定度信号STを発生し且つこの安定度信号ST
    の表示を実時間で行うように構成されていること
    を特徴とする話し手によつて話された言葉の音声
    認識のための装置。 2 特許請求の範囲第1項に記載の装置におい
    て、認識された音素FYを文字又は音節で表示す
    る表示装置20を備え、且つ前記制御装置19が
    認識された音素FYに関する情報を表示するヒス
    トグラムを発生するように構成されており、これ
    により発音された単語が前記音声認識のための装
    置により正しく認識されているか否かを話し手が
    実時間で検査することができることを特徴とする
    話し手によつて話された言葉の音声認識のための
    装置。 3 特許請求の範囲第1項又は第2項に記載の装
    置において、 前記分析装置11はデイジタル符号形式で音声
    部分Wを受け取るように構成された複数の分析器
    A1,A2……Aoを有し、 該種々の分析器は音声部分の持続時間TWと分
    析器の数との比TIだけ分離された時点で順次分
    析を開始し、時間的に重なり合う音声部分Wを分
    析して対応する一連のベクトルVを発生するよう
    に構成されており、 前記比較装置は複数の比較器C1,C2……Cn
    有し、 該複数の比較器の各々は、それぞれの基準ベク
    トルと前記分析器によつて供給された一連のベク
    トルVとを比較するように構成されていることを
    特徴とする話し手によつて話された言葉の音声認
    識のための装置。 4 特許請求の範囲第3項に記載の装置におい
    て、前記比較器C1,C2……Cnがそれぞれ各基準
    ベクトルからの前記の一連のものの一つのベクト
    ルVの距離を計算するように構成されており、且
    つ前記認識装置17が前記の一連のものの一つの
    ベクトルVからの最小距離を持つた基準ベクトル
    に対応する基準音素FYを選択するとともにこの
    最小距離値を所定数の連続した選択について記憶
    するように構成されていることを特徴とする話し
    手によつて話された言葉の音声認識のための装
    置。 5 特許請求の範囲第4項に記載の装置におい
    て、前記認識装置17が少なくとも最後の二つの
    記憶された最小距離値に応答して認識の安定度を
    示す値STを発生するように、且つ対応する計算
    距離の所定値の補数である認識メリツト値Pを発
    生するように構成されていることを特徴とする話
    し手によつて話された言葉の音声認識のための装
    置。 6 特許請求の範囲第5項に記載の装置におい
    て、前記認識装置17が分析された音声部分Wの
    平均エネルギーに対応するエネルギー信号ENを
    発生することを特徴とする話し手によつて話され
    た言葉の音声認識のための装置。 7 特許請求の範囲第5項に記載の装置におい
    て、前記制御装置19が前記の安定度値ST及び
    前記認識メリツト値Pを含むヒストグラム表示を
    発生することを特徴とする話し手によつて話され
    た言葉の音声認識のための装置。 8 特許請求の範囲第6項又は第7項に記載の装
    置において、前記制御装置19がエネルギー信号
    ENを含むヒストグラム表示を発生することを特
    徴とする話し手によつて話された言葉の音声認識
    のための装置。 9 特許請求の範囲第1〜8項のいずれか一項に
    記載の装置において、一連の連続して認識された
    音素FYを、記憶装置に記録された語彙の単語と
    比較して単語の認識を行うように構成された辞書
    的認識装置22を備えており、且つこの辞書的認
    識装置22により制御されて、認識された単語の
    表示が行われることを特徴とする話し手によつて
    話された言葉の音声認識のための装置。 10 特許請求の範囲第1〜9項のいずれか一項
    に記載の装置において、各表示がモニタの表示面
    に発生させることを特徴とする話し手によつて話
    された言葉の音声認識のための装置。 11 特許請求の範囲第1〜10項のいずれか一
    項に記載の装置において、前記の少なくとも一つ
    の分析器A1,A2……Ao、前記制御装置19及び
    前記辞書的認識装置22がプログラムされたマイ
    クロプロセツサを備えていることを特徴とする話
    し手によつて話された言葉の音声認識のための装
    置。
JP58209782A 1982-11-08 1983-11-08 言葉の音声認識のための装置 Granted JPS59101700A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
IT68302/82A IT1156544B (it) 1982-11-08 1982-11-08 Metodo ed apparecchiatura di riconoscimento fonetico di parole
IT68302-A/82 1982-11-08

Publications (2)

Publication Number Publication Date
JPS59101700A JPS59101700A (ja) 1984-06-12
JPH0252279B2 true JPH0252279B2 (ja) 1990-11-13

Family

ID=11308906

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58209782A Granted JPS59101700A (ja) 1982-11-08 1983-11-08 言葉の音声認識のための装置

Country Status (5)

Country Link
US (1) US4703504A (ja)
EP (1) EP0108609B1 (ja)
JP (1) JPS59101700A (ja)
DE (1) DE3371134D1 (ja)
IT (1) IT1156544B (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0336032A1 (en) * 1988-04-07 1989-10-11 Research Triangle Institute Audio visual speech recognition
US4783808A (en) * 1986-04-25 1988-11-08 Texas Instruments Incorporated Connected word recognition enrollment method
US4980917A (en) * 1987-11-18 1990-12-25 Emerson & Stern Associates, Inc. Method and apparatus for determining articulatory parameters from speech data
BE1002379A4 (fr) * 1988-08-31 1991-01-22 Halleux Benoit De Procede de reconnaissance et en particulier d'ecriture de la parole.
JP2836159B2 (ja) * 1990-01-30 1998-12-14 株式会社日立製作所 同時通訳向き音声認識システムおよびその音声認識方法
EP0706172A1 (en) * 1994-10-04 1996-04-10 Hughes Aircraft Company Low bit rate speech encoder and decoder
JPH08300221A (ja) * 1995-04-28 1996-11-19 Fukutaro Yamazaki タップ
US5857173A (en) * 1997-01-30 1999-01-05 Motorola, Inc. Pronunciation measurement device and method
ES2143953B1 (es) * 1998-05-26 2000-12-01 Univ Malaga Circuito integrado analizador de secuencias silabicas.
JP2000221990A (ja) * 1999-01-28 2000-08-11 Ricoh Co Ltd 音声認識装置
US6389394B1 (en) * 2000-02-09 2002-05-14 Speechworks International, Inc. Method and apparatus for improved speech recognition by modifying a pronunciation dictionary based on pattern definitions of alternate word pronunciations
CA2536260A1 (en) * 2003-08-26 2005-03-03 Clearplay, Inc. Method and apparatus for controlling play of an audio signal
KR100744288B1 (ko) * 2005-12-28 2007-07-30 삼성전자주식회사 음성 신호에서 음소를 분절하는 방법 및 그 시스템
KR102112742B1 (ko) * 2013-01-22 2020-05-19 삼성전자주식회사 전자장치 및 그 음성 처리 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS54148304A (en) * 1978-05-15 1979-11-20 Toshiba Corp Monosyllable identication device

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB981153A (en) * 1961-03-20 1965-01-20 Nippon Telegraph & Telephone Improved phonetic typewriter system
US3553372A (en) * 1965-11-05 1971-01-05 Int Standard Electric Corp Speech recognition apparatus
US3483941A (en) * 1968-01-26 1969-12-16 Bell Telephone Labor Inc Speech level measuring device
DE2536585C3 (de) * 1975-08-16 1981-04-02 Philips Patentverwaltung Gmbh, 2000 Hamburg Anordnung zur statistischen Signalanalyse
US4015087A (en) * 1975-11-18 1977-03-29 Center For Communications Research, Inc. Spectrograph apparatus for analyzing and displaying speech signals
US4181813A (en) * 1978-05-08 1980-01-01 John Marley System and method for speech recognition
JPS5629292A (en) * 1979-08-17 1981-03-24 Nippon Electric Co Continuous voice identifier
US4349700A (en) * 1980-04-08 1982-09-14 Bell Telephone Laboratories, Incorporated Continuous speech recognition system
US4348553A (en) * 1980-07-02 1982-09-07 International Business Machines Corporation Parallel pattern verifier with dynamic time warping
JPS58129684A (ja) * 1982-01-29 1983-08-02 Toshiba Corp パタ−ン認識装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS54148304A (en) * 1978-05-15 1979-11-20 Toshiba Corp Monosyllable identication device

Also Published As

Publication number Publication date
EP0108609A1 (en) 1984-05-16
DE3371134D1 (en) 1987-05-27
JPS59101700A (ja) 1984-06-12
EP0108609B1 (en) 1987-04-22
US4703504A (en) 1987-10-27
IT8268302A0 (it) 1982-11-08
IT1156544B (it) 1987-02-04

Similar Documents

Publication Publication Date Title
EP3371808B1 (en) Speech processing system and method
EP0619911B1 (en) Children's speech training aid
JP4867804B2 (ja) 音声認識装置及び会議システム
EP0302663B1 (en) Low cost speech recognition system and method
US5708759A (en) Speech recognition using phoneme waveform parameters
EP0380297A2 (en) Method and apparatus for speech recognition
JPH0968994A (ja) パターンマッチングによる単語音声認識方法及びその方法を実施する装置
JPH0252279B2 (ja)
JPS62231997A (ja) 音声認識システム及びその方法
KR20160122542A (ko) 발음 유사도 측정 방법 및 장치
US6006185A (en) System and device for advanced voice recognition word spotting
JPH06110494A (ja) 発音学習装置
US4477925A (en) Clipped speech-linear predictive coding speech processor
EP0421744B1 (en) Speech recognition method and apparatus for use therein
JP2844817B2 (ja) 発声練習用音声合成方式
JP2003177779A (ja) 音声認識のための話者学習法
JPS5939760B2 (ja) 音声認識装置
Lea What causes speech recognizers to make mistakes?
RU2119196C1 (ru) Способ лексической интерпретации слитной речи и система для его реализации
JPS645320B2 (ja)
DE173986T1 (de) Verfahren und vorrichtung zur erkennung von wortfolgen, die zu kleinen vokabularien gehoeren, ohne vorausgehendes training.
JP2578771B2 (ja) 音声認識装置
JP2679039B2 (ja) 母音切出し装置
JP2001228890A (ja) 音声認識装置
JPS63161498A (ja) 音声情報入力装置