JPS59101700A - 言葉の音声認識のための装置 - Google Patents

言葉の音声認識のための装置

Info

Publication number
JPS59101700A
JPS59101700A JP58209782A JP20978283A JPS59101700A JP S59101700 A JPS59101700 A JP S59101700A JP 58209782 A JP58209782 A JP 58209782A JP 20978283 A JP20978283 A JP 20978283A JP S59101700 A JPS59101700 A JP S59101700A
Authority
JP
Japan
Prior art keywords
recognition
vector
phoneme
recognized
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP58209782A
Other languages
English (en)
Other versions
JPH0252279B2 (ja
Inventor
ヴイツトレ・ヴイツトレルリ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telecom Italia SpA
Olivetti SpA
Original Assignee
Olivetti SpA
Ing C Olivetti and C SpA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Olivetti SpA, Ing C Olivetti and C SpA filed Critical Olivetti SpA
Publication of JPS59101700A publication Critical patent/JPS59101700A/ja
Publication of JPH0252279B2 publication Critical patent/JPH0252279B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 この発明は、話し手によって話されたことばないし単語
の音声認識を行うための方法及び装置であって、言葉を
周期的に分析して少なくとも一つのベクトルを得てこれ
を複数の基準音素のベクトルと比較して分析された音声
部分に最も類似した音素を選択するようにしたものに関
する。
既知の形式の単語認識用装置は話し手の協力を前提条件
としている。すなわち、[話し手特定(speaker
 dependent) J形式のものにおいては、認
識は同じ話し手によりサンプル又はモデルとして事前記
録された単語又は音素と音声との比較に基づいて行われ
る。音声はモデル単語又は音素の一つと十分に接近して
いると判断されたときに認識さ永る。従って、話し手は
比較に使用さ歳るサンプルにできるだけ類似した音声を
発生することが必要である。
「話し手工特定(spe’aker 1ndepend
ent)J−形式のものにおいては、話し手はそれほど
正確に定義されていないある種の発音方法に従えばよい
この要件は結局「十分明りよう」に話すということであ
る。
いずれの場合でも、認識が欠如した場合には話し手はそ
の原因がわからず、従って、よい結果を期待してむやみ
に動作を繰り返すことができるだけである。経験により
、使用者は時として偶然に機械の応答の仕方を学んで、
次第に誤り率が減少する。
この発明の目的は、非常に短い時間で音声に応答するこ
とができ、話し手の音声が最良の性能を得るように話し
手による音声調整を可能にするような応答を話し手に対
して与えることができる認識方法及び認識装置を得るこ
とである。機械の応答に関する自然の習得過程はそれゆ
え容易になる。
単語の音声認識(phonetic recognit
ion ofwords)のためのこの発明による方法
は選択された音素に対応する可視表示をリアル・タイム
(実時間)で行うことを特徴としており、これによって
1舌し手は自己の発音を基準音素に対応する発音と一致
するように適応させることができる。この方法を実施す
るための装置は、音声信号をゲイジタル形式に変換する
ための装置、変換された音声信号を分析して少なくとも
一つの対応するベクトルを発生するようにするための分
析装置、このようにして発生されたベクトルを複数の基
準音素のベクトルのそれぞれと比較するための比較装置
、及びこの比較装置の出力に応答して、分析された音素
に最も類似して基準音素を認識する認識装置を備え、且
つ認識された音素の可視表示をリアル・タイムで発生す
るための制御装置によって特徴づけられている。
次にこの発明の採択した一実施例を添付の図面について
説明する。
この発明の装置は、話し手の音声信号を連続的に捕えて
これを増幅器6に送信するように構成されたマイクロホ
ン5を備えている。増幅された信号は次に一連の帯域通
過又は偽信号除去フィルタ波数は、例えば、米国ニュー
ジャージ州エングルウッド・クリツフスのプレンティス
・ホール社出版の、「音声信号のゲイジ、タル処理」と
題するローレンス・アール・ラビナ及びドナルド・ダブ
リュー・シェイファの著書の2・ 4.1項(para
graph2.4.1 of the book by
 Lawrence RRabinerand Ron
ald W 5chafer entitled ”D
igitalPr@cessing of 5peec
h Signals″、 publishedby P
rentice−Hall、 IHc、 Englew
ood C11ffs。
New Jersey)に記載されたアルゴリズムに基
づいて決定することができる。
この発明の装置は更に、所定の周波数、例えば12ない
し20KHz  の周波数を持ったフィルタから来る信
号を前述のアルゴリズムに基づいて標本化するためにタ
イマ9によって制御される標本化装置8を備えている。
このようにして標本化された信号はアナログ・ディジタ
ル変換器1oによって変換される。
分析装置11は変換器1oから出る音声信号を分析して
この信号に対応する少なくとも一つのベクトルVを発生
するように構成されている。分析装置は、所定の時間T
W(第2図)に変換器1゜によって供給される信号を分
析するようにそれぞれ構成された一連の分析器A1. 
A2・・・・Anからなって℃する。
分析器A1・・・・Anは各動作ごとに信号の窓又は部
分Wを分析して、反射係数に1を含有した対応するベク
トルV(第1図)、すなわち分析された音声部分Wの分
析的表示を発生する。音声部分のこのような分析的定義
のアルゴリズムは、例えば米国ニューヨークのシュプリ
ンガ・フエアラーク社によって出版された「音声の線形
予測」と題するジェイ・ディー・マーケル及びエイ・エ
イチ・グレイ・ジュニアの著書の4.2.1項(par
agraph4.2.l  of the book 
by J D Markel and AHGray、
 Jr、 entitled ”Linear Pre
dictionof 5peech”、 publis
hed by Springer Verlog。
New York)  に記載されている。係数に1 
の数としては12ないし18に選べばよいが、これは周
知のように標本化周波数に相関している。分析器A・・
・・・A は更に、分析される音声部分Wの時1   
   n 間TW中の信号の平均電力を表す値ENを発生する。
各分析器A1・・・・・Anは、適当にプログラムされ
且つ各記憶装置が音声部分Wの持続時間TWに対応する
信号の多数の標本を記憶するのに十分な容量を持ってい
る二つの緩衝記憶装置を備えたマイクロプロセッサによ
って都合よく構成することができる。この二つの緩衝記
憶装置は交互に使用され、一方は新しい入力データを記
憶するために且つ他方は分析の結果をベクトル■として
出力に供給するのに使用される。
個個の分析器A1・・・・・An に送られるべき音声
部分W1・・・・・Wn はタイマ9によって制御され
た論理回路12によって規定されるが、この論理回路は
音声部分W1・・・・・Wn を時間的にずらし且つ部
分的に重ね合わせて、すなわち持続時間TWと分析器A
1・・・・・An(第1図)との比に等しい時間TI(
第2図)だけ隔てて、分析器A1・・・・・Anに順に
送るように構成されている。それゆえ、各分析器A1・
・・・・Anはそれぞれの音声部分を連続的に分析し、
従って種種の分析器A□・・・・・Anは時間的に一部
分重なり合う音声部分W1・・・・・Wnを分析する。
換言すれば、持続時間TWの一部分である持続時間TI
における各音声部分は、装置11が三つの分析器A1.
 A2. A3からなっているものと仮定して音声部分
Wの順序を示しである第2図の線図から明らかなように
、すべての分析器A1・・・・・Anによって同時に分
析される。
この発明の装置は更に、複数の比較器C1,C2・・・
・・Cm からなる比較装置13を備えており、この各
比較器は分析器A1・・・・・An の一つによって発
生されたベクトル■を、比較器に記憶された、対応する
音素を表すそれぞれの基準ベクトル■1゜■2・・・・
■。と比較するように構成されている。ベクトル■1.
■2・・・・■。は「話し手特定」方式では話し手の声
から得ることができ、又「話し手工特定」方式では平均
的な状態を表すようにすればよい。当然、認識の信頼度
は前者の方が後者よりも良いであろう。各比較の結果は
、分析された音声部分に関するベクトルとこれに対応す
る基準ベクトルとの間の距離りであり、この距離は二つ
のベクトルの反射係数の対の間の差の絶対値の和として
計算される。分析器A1・・・・・An  と比較器C
1・・・・・Cm  との間には走査器14が配置され
ていて、この走査器はベクトル■及び値ENを入力とし
て順次受は取り、且つ出力として各ベクトル■をすべて
の比較器C1・・・・Cmに並列に送ると共に、順次値
ENを緩衝記憶装置に記憶させる。比較器C,,C2・
・・・Cm  の出力の全体はm個のベクトルDを表し
ており、これのそれぞれはm個の基準音素に関して分析
された最後の音声部分Wの距離を表してい、る。
比較器C,,C2・・・・CD]  及び緩衝記憶装置
16の出力は、分析されるものに最も類似した基準音素
を選択するよ5に構成された音素認識装置17に接続さ
れている。更に詳しくは、認識装置17は緩衝記憶装置
18を備えた適当にプログラムされたマイクロコンピュ
ータによって構成されており、この記憶装置には装置1
7経由で比較装置13及び緩衝記憶装置16の出力がタ
イマ9によって決定される周期TIで記録されるように
なっている。緩衝記憶装置はそれゆえ分析された最後の
音声部分Wの所定数Xのものに関するベクトルD及び値
ENを記憶するように構成されて℃・る。
認識装置17は、緩衝記憶装置18に記憶されている分
析された最後の音声部分Wに関するベクトルDを同じ周
期TIで分析して、ベクトルDを発生したものに最も類
似している基準音素を選択するようにプログラムされて
いる。実際には、装置17は、音声部分Wの音素からの
最小距離dを示し且つ選択された基準音素の符号Y、及
び前記の距離dの所淀値に対する補数によって構成され
た認識のメリット値を表す符号Pを有する音素FYをm
個の基準音素の中から選択する。
更に、認識装置17は分析された音声部分Wのエネルギ
ーレベルを表す符号ENを発生する。最後に、認識装置
17は緩衝記憶装置18における最後のX個のベクトル
Dを比較して認識が安定であるか否かを、すなわち最後
のX個の音声部分において基準音素との比較が常に同じ
選択になっているか否かを確定するようにプロゲラ′ム
されている。肯定の場合には、装置17は安定度を示す
二進値STの符号を発生する。
この発明の装置は更に、陰極線管によって構成されたモ
ニタ20に対する制御装置19を備えている。更に詳し
くは、制御装置工9は認識装置17から符号Y、  P
、  EN及びSTを受けて、音声部分自体の分析と共
に実時間で前記の諸符号を表すヒストグラムの可視表示
をモニタ20に与えるように構成されている。このヒス
トグラムはモニタ20の実質上上半部23に可視表示さ
れ、且つ第3図に示したように一連の柱状部からなって
(・る。このヒストグラムにおいて、第1柱状部はエネ
ルギーENのアナログ値を表し、第2のものは安定度S
Tを表すものであって二つの値のみ(安定であれば高レ
ベル、安定でなければゼロ)をとることができ、それに
続く柱状部はそれぞれ比較音素の一つに対応しており、
認識音1g F Yに対応するもの以外はすべてゼロレ
ベルであり、認識音素の高さはメリット値Pをアナログ
形式で表している。
モータ20の表示面上の種々の柱状部の下には柱状部の
意味が固定表示されている。種々の基準音素FYはアル
ファベットの文字(例えば、母音)及び語の音節の形で
表示されている。又、認識可能な音素の数は変更するこ
と可能であろうし、且つ又柱状部の意味の可視表示はモ
ニタ20に固定表示する代わりに同じ制御装置19(第
1図)によって制御することができよう。
モニタ20上に所望のヒストグラム像を発生するために
、制御装置19はビームの水平偏向を指令するが、この
偏向は線形であり、且つ装置19が認識装置17から情
報のブロックを受けた瞬間と同期している。制御装置1
9は次にディジタル・アナログ変換器21を介して適当
なタイミングで、垂直偏向を制御する信号を送る。
最後に、この発明の装置は、適当にプログラムされたマ
イクロコンピュータと、辞書又は単語集の、適当に符号
化された音声表示、すなわち、同じ語のアルファベット
表示に対するそれぞれの符号と関連した、この発明の装
置が認識することのできる語、が記録されている記憶装
置とから実質上なっている辞書的認識論理装置22を備
えている。辞書的認識装置22は音素認識ユニット17
から出力された情報の各項目を制御装置19と並列に受
けて一連の音素FYのデータをこれが認識されるときに
一時的に記憶するように構成されている。更に、装置2
2は走査器14がら出力された情報の各項目を受けて、
分析された実際の音素信号に対応する一連のベクトル■
をも記憶する。
辞書的認識装置22は記憶された単語の内容を音声認識
装置17によって受は取られた一連の音素FYと比較し
て、これをつなぎ合わせ、それぞれの音素が一連のもの
の電解の音素FYと一致するときには単語又は単語の一
部分を認識するように構成されて(・る。認識された一
連の音素FMと単語又は単語の一部分との一致が完全で
ない場合、例えば認識のあいまいさがある場合には、装
置22は認識装置17により認識されたものに類似した
他の基準音素を考慮することによって、走査器14から
直接受は取ったベクトル■を利用する。
装置22の動作の結果は、モニタ20を制御して、例え
ば表示面の下方部分24に、アルファベット形式で認識
された単語又は単語の一部分を可視的に表示し、且つ又
ある単語が認識されていない部分に対しては一連の点を
可視的に表示することにある。
認識装置は次の方法で動作する。
認識装置は音素及び語粱の二つの認識論理のレベルを与
える。
音素認識は実時間で行われて、操作員に見える反応を発
生するが、これも又実時間である。
話し手から発してマイクロホン5(第1図)によって捕
えられた音声信号は増幅器6によって増幅させてフィル
タフによりフィルタされる。このようにしてフィルタさ
れた信号は次に標本化装置8によって高い周波数で標本
化され、そして変換器10によってディジタル信号に変
換される。この値は論理回路12によって受は取られ、
この回路は多数の標本化信号からなる、持続時間TW(
第2図)中のこの信号の一連の音声部分Wを発生する。
例えば、音素の平均持続時間は100 msの程度で゛
あるので、この発明の装置がひだ三つの分析器A1.A
2.A3を備えていると考えると、持続時間TWは30
 msに選べばよ(、又標本化は18000 Hzで行
えばよい。
連続した音声部分wwww・・・・は持11  21 
 39  4 続時間TWと分析器の数との比に等しい時間TIだけ隔
置されており、従ってT I−10ms となる。論理
回路12(第1図)は継続する音声部分Wを分析器A1
.A2・・・tに分配し、従ってこれらの分析器は第2
図に示したようにずれて重なり合った音声部分について
動作する。各分析器A1.A2・・・・は対応する音声
部分を分析するのに時間TAを必要とし、この目的のた
めに、第2図のグラフ25で示した時点において、分析
の結果、すなわち、それぞれのベクトル■を構成する反
射係数及び音声信号の平均電力の相対値EN、を出力と
して供給する。
従って、各分析器A1.A2・・・・は、次々と発生す
るが重なり合っていない音声部分の分析結果を各音声部
分の終りに対する遅延TAを伴って供給する。
第2図の線図から明らかなように、(クトル■及び値E
NはTIに等しい時間間隔で得られる。
連続したベクトル■は走査器14によって順次選択され
てm個の比較器C・・′・・・Cに並列に送ら1   
     m れ、又ENの値は適当な緩衝記憶装置16に記憶される
。m個の比較器C1・・・・・Cmは次に、第2図のグ
ラフ26で示した期間において、分析された最後の、音
声部分を表すベクトル■と比較器に記憶された基準音素
を表すm個のベクトル■1・・・・・■ との間の距離
を同時に測定して、第2図のグラフ27によって示した
時点における比較装置13からの出力として、分析され
た最後の音声部分のm個の差率音素からの距離を表すm
個のベクトルDを定義する。周期TIで、ベクトルD及
び緩衝記憶装置16(第1図)の内容が認識装置17に
よって得られ、そして分析されたX個の最後の音声部分
に関するはクトルD及び値ENが記憶装置18に記憶さ
れる。次に、認識装置17における最後のベクトルDの
検査に基づいて、分析された最後の音声部分に壺も炉側
した基、準音素FYが認識される。
(11+方、装置I7の記憶装置18における最後のX
個のベクトルDを比較することによって、認識の安定性
があるか否かが確立さり、る。TIに等しい時間間隔で
、W識装置17は次に信号EN、Y、P、STを制御3
」1装置19及び辞書的認識装置22に送る。変換z3
21を介して、制御装置19はモニタ20を制御して、
第3図の上方部分に表示された形式の対応するヒストグ
ラムを発生させる。
第3図ては汐識された音素は文字「0」である。
このヒストグラムはそれゆえ、この発明の装置によって
行われる音声認識の可視表示を実時間で受けて(・る話
し手によって、単語の音節発音における話し手の自然の
速ME一致した時間で常時W察することができる。更に
詳しくは、話し手は、認識された音素が彼の発音しよう
としたものでないことに気づいたときには、彼の発音を
基準音素に一層近くなるようにすることができる。更に
、話し手はヒストグラムの柱状部ENによって表示され
たレベルか低いことを認めた場合には彼の音調を上げる
ことができる。最後に、ヒストグラムの柱状部STは認
識があいまいさなしに行われたこと及びそれが辞書的認
識装置22によって受は入れられたことの表示を話し手
に与える。逆に、柱状部STの欠如は話し手の速度がこ
の発明の装置の分析速度に適合していないことを表示ず
ろことができ、従ってこの場合には話し手は、話す速度
を適当に適合させることができる。
明らかなことであるが、既述のこの発明の装置は話し手
に自己の話がどのように認識されたかという直接の知覚
を与える認識方法の単なる一例である。明らかに、既述
の音声認識論理はすべての音素に等しく適するものでは
ない。更に詳しくは、それは母音、鼻子音、及び時間的
に接続させることのできる摩擦音(例えば、f、 s、
 sc)に対してはよ(適しているが、破裂子音(例え
ば、p、k、t、d)を相互に認識するのにはあまり適
していないようである。これらの子音の認識を確実にす
るため圧は、比較器G、、C2・・・・の数を増大させ
て、品し千を対抗できろ音素の数にした後、この発明の
J装置によって認識を行うように1−ればよ(・。
音素認識とは対照的に、辞書的(語苛)認識は実時間で
は行われず、話し手が認識されるべき単語の発音を完了
した後に開始されろ。
辞書的認識のために、辞Fj:的認識裂(422は音素
認識装置17から出力された情報と走査器14から出)
jされたすべての情報との両方を受ける。
装置、5: 22はそれゆえ、装置17によってこまか
く。1′コ、識さ」する一連の音素FYに対応する一連
の符号と、走査器14から出て来るより豊富な一連の情
−服とを自由に使える。認1薇装置22は次に一連の音
素を相互に連結して、まずその単語集の内容と装置17
から受けた一連の情報とを比較する。
この一連のものの一部分と辞書の要素との対応によって
装置22は単語を認識して、対応するアルファベットの
可視表示を与えるようにモニタ20を制御する。話し手
がこの発明の装置の反応に順応するのに成功した程度ま
で、ユニット17によって発生される一連の情報は確実
な情報基礎を構成するであろう。しかしながら、実時間
での音素認識は不完全であるので、それは完全ではあり
得ない。例えば、それは破裂音を相互に区別することが
できない。解釈のあいまいさがある場合には、装置22
における認識論理回路は相互につながって、走査器14
から直接受けたベクトル■をそれの単語集と比較し、こ
のようにして類似の音素を相互に区別する。
それゆえ、装置22は又モニタ20を介して話し手に受
は取った一連の音素を表示する反応及び認識された単語
の図式表示を送る。明確な概念を与えろために、イタリ
ア語「seu、eJ (すなわち、「7」)の場合には
、認識される一連の音素はSE・・Eであろう(ここで
、点は、第3図に示したように、一般に破裂音に先行す
る無音を表している。)他方、辞書及び走査器14から
受けたデータの援助により、完全に書かれた単語、すな
わち[5ETTEJを得ることができる。第3図は表示
面の下半部にSE・・Eの表示を示している。
これは上半部に示された音素「0」の認識とは別の例で
ある。
それゆえ明らかなことであるが、既述のこの発明の装置
は所望の反応を実時間で、すなわち平均的な母音音素の
持続時間(約100m5)よりも短い時間で発生するよ
5に特VC設計さJl、ており、又音声信号は断絶な(
連続して処理さねる。情報は一連のご11埋装置値を;
10過し、この論理装置のそれぞれは、第2121の1
腺図に示した時間要件に従って、既述の技法により実施
することのできる機能を行う。
注が1−るべとことであるが、話し手に対する実時[ビ
1ての反応という基本的な考えと一致′1−る他の31
jii 、n旧(′4造に関係した別の認識子11nを
利用づ−ろこともできる。
最後に、明白なことであるが、この発明の範囲から外れ
ることなく既述の特定のこの発明の装置aにおいてff
fi ffflの変更及び改善を行うことができる。
例えば、モニタ20によって与えられる表示のいくつか
は他の可視装置又は光学的表示装置によって与えること
ができるであろう。更に、装置1σ22によって制御さ
れる単語のアルファベット表示はプリンタによって与え
てもよく、又装置22は走査器14からの代わりに装置
11の分析器から直接ベクトル■を取り寄せることもで
きるであろう。
【図面の簡単な説明】
第1図は単語の音声認識のためのこの発明による装置の
構成図である。 第2興は第1図の装置の動作に関づ−ろ時間図である。 第3図は第1図の装+Wのモニタに発生したヒストグラ
ムの線図である。 これらの図面において、10はA−D変換器、11は分
析装置、A1.A2・・・・・Aは分析器、13は比較
装置、GO・・・・・Cは比較器、1’    2  
      m 17は音素認識装置、工9は制御装置、20はモニタ、
22は辞書的認識装置を示す。 FIG、3

Claims (1)

  1. 【特許請求の範囲】 (1)話し手によって話されたことばの音声認識のため
    の方法であって、音声を周期的に分析して少なくとも一
    つのベクトル(V)を得てこれを複数の基準音素のベク
    トルと比較して分析された音声部分(W)に最も類似し
    た音素(FY)を選択す条ようにしたものにおいて、選
    択された音素(FY)に対応する可視表示を実時間で発
    生させ、これにより話し手が自己の発音を基準音素に対
    応する発音に一致させることができるようにしたことを
    特徴とする前記の方法。 (2)可視表示が分析された音声部分(W)に対応する
    ものとして認識された単語構成部分の表示を含有してい
    ることを特徴とする特許請求の範囲第1項に記載の方法
    。 (3)可視表示が一連の認識段階にわたり、認識された
    音声(FY)の認識の安定度(ST)の表示な含有して
    いることを特徴とする特許請求の範囲第1項又は第2項
    に記載の方法。 (4)所定持続時間(TW)の音声部分(W)の周期的
    分析がこの持続時間の一部分(TI)だけ隔てられた時
    点において開始され、このために基準音素のベクトルと
    比較されるべきベクトル(V)が時間的に重なり合った
    音声部分(W)の分析によって得られることを特徴とす
    る特許請求の範囲第1項、第2項又は第3項に記載の方
    法。 (5)モニタ20の表示面(23,24)  に可視表
    示が行われることを特徴とする特許請求の範囲第1項、
    第2項、第3項又は第4項に記載の方法。 (6)  先行する特許請求の範囲のいずれが一項に記
    載の方法による、話し手によって話されたことばの音声
    認識のための装置であって、音声信号をディジタル形式
    に変換するための装置(10)、変換された音声信号を
    分析して少なくとも一つの対応スるベクトル(V)を発
    生するための分析装置αυ、このようにして発生された
    ベクトルを基準音素の複数のはクトルのそれぞれと比較
    づ−るだめの比較装置(13)、及びこの比較装置(1
    3)の出力に応答して、分析された音素に最も類似した
    基準音素(FY)を認識する認識装置(17)を備えて
    いるものにおいて、認識された音素の可視表示を実時間
    で発生するための制御装置(19)を備えていることを
    特徴とす′る前記の音声認識のための装置。 (力 認識された音素(FY)を文字又は音節で表示す
    る表示装置(20)を備え、且つ前記の制御装置09)
    が認識された音素(FY)に関する情報を表示するヒス
    トグラムを発生するように構成されており、これにより
    、発音された単語が音声認識装置によって正しく認識さ
    れているか否かを話し手が実時間で検査することができ
    ることを特徴とする特許請求の範囲第6項に記載の装置
    。 (8)前記の認識装置(11が、一連の認識段階にわた
    り認識装置a力により行われた認識の安定度を表す安定
    度信号(ST)を発生し且つこの安定度信号(ST)の
    表示を実時間で行うように構成されていることを特徴と
    する特許請求の範囲第6項又は第7項に記載の装置。 (9)前記の分析装置旧)がディジタル符号化形式で音
    声部分(W)を受は取るように構成された複数の分析器
    (A1. A2・・・・An)がらなっていて、種種の
    分析器が前記の持続時間(TW)と分析器の数との比(
    TI)だけ分離された時点で順次分析を開始し、時間的
    に重なり合う音声部分(W)を分析して対応する一連の
    (クトル(V)を発生するように構成されており、且つ
    前記の比較装置が複数の比較器(C1,C2・・・・C
    m)がらなってし・て、この各比較器がそれぞれの基準
    ベクトルと前記の分析器によって供給された一連のベク
    トル(V)とを比較するように構成されていることを特
    徴とする特許請求の範囲第6項、第7項又は第8項に記
    載の、特許請求の範囲第4項による方法を実施するため
    の装置。 (10)  比較器がそれぞれ各基準ベクトルからの前
    記の一連のものの一つのベクトル(V)の距離を計算す
    るように構成されており、且つ認識装置ODが前記の一
    連のもQの一つのベクトル(V)からの最小距離を持っ
    た基準ベクトルに対応する基準音素(FY)を選択する
    とともにこの最小距離を所定数の連続した選択について
    記憶するように構成されていることを特徴とする特許請
    求の範囲第9項に記載の装置。 αυ 前記の認識装置(17)が少なくとも最後の二つ
    の記憶された最小距離値に応答して認識の安定度を示す
    値(ST)を発生するように、且っ又対応する計算距離
    の所定値の補数である認識メリット値CP)を発生する
    ように構成されていることを特徴とする特許請求の範囲
    第io項に記載の装置。 02  前記の認識装置(17)が分析された音声部分
    (W)の平均エネルギーに対応するエネルギー信号(E
    N)を発生することを特徴とする特許請求の範囲第11
    項に記載の装置。 (131制御装置q9が安定度値(ST)及び前記のメ
    リット値(P)を含むヒストグラム表示を発生すること
    を特徴とする特許請求の範囲第11項に記載の装置。 04)制御装置09)がエネルギー信号(EN)を含む
    ヒストグラム表示を発生することを特徴とする特許請求
    の範囲第12項又は第13項に記載の装置。 (夏5)一連の連続した認識された音素(FY)を記憶
    装置に記録された語堂の単語と比較して単語の認識を行
    うように構成された辞書的認識装置(22)を備えてお
    り、且つこの辞書的認識装置(22)により制御されて
    、認識された単語の表示が行われることを特徴とする特
    許請求の範囲第6項から第14項までのいずれが一つに
    記載の装置。 (+61  各表示がモニタの表示面に発生させること
    を特徴とする特許請求の範囲第6項から第15項までの
    い丁れが一つに記載の装置。 aカ 分析器(A11 A2・・・・An)、制御装置
    (1gl及び辞書的認識装置el’2+の少なくとも二
    つがプログラム式マイクロプロセッサを備えていること
    を特徴とする特許請求の範囲第6項から第16項までの
    いずれか一つに記載の装置。
JP58209782A 1982-11-08 1983-11-08 言葉の音声認識のための装置 Granted JPS59101700A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
IT68302-A/82 1982-11-08
IT68302/82A IT1156544B (it) 1982-11-08 1982-11-08 Metodo ed apparecchiatura di riconoscimento fonetico di parole

Publications (2)

Publication Number Publication Date
JPS59101700A true JPS59101700A (ja) 1984-06-12
JPH0252279B2 JPH0252279B2 (ja) 1990-11-13

Family

ID=11308906

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58209782A Granted JPS59101700A (ja) 1982-11-08 1983-11-08 言葉の音声認識のための装置

Country Status (5)

Country Link
US (1) US4703504A (ja)
EP (1) EP0108609B1 (ja)
JP (1) JPS59101700A (ja)
DE (1) DE3371134D1 (ja)
IT (1) IT1156544B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08300221A (ja) * 1995-04-28 1996-11-19 Fukutaro Yamazaki タップ

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0336032A1 (en) * 1988-04-07 1989-10-11 Research Triangle Institute Audio visual speech recognition
US4783808A (en) * 1986-04-25 1988-11-08 Texas Instruments Incorporated Connected word recognition enrollment method
US4980917A (en) * 1987-11-18 1990-12-25 Emerson & Stern Associates, Inc. Method and apparatus for determining articulatory parameters from speech data
BE1002379A4 (fr) * 1988-08-31 1991-01-22 Halleux Benoit De Procede de reconnaissance et en particulier d'ecriture de la parole.
JP2836159B2 (ja) * 1990-01-30 1998-12-14 株式会社日立製作所 同時通訳向き音声認識システムおよびその音声認識方法
EP0706172A1 (en) * 1994-10-04 1996-04-10 Hughes Aircraft Company Low bit rate speech encoder and decoder
US5857173A (en) * 1997-01-30 1999-01-05 Motorola, Inc. Pronunciation measurement device and method
ES2143953B1 (es) * 1998-05-26 2000-12-01 Univ Malaga Circuito integrado analizador de secuencias silabicas.
JP2000221990A (ja) * 1999-01-28 2000-08-11 Ricoh Co Ltd 音声認識装置
US6389394B1 (en) * 2000-02-09 2002-05-14 Speechworks International, Inc. Method and apparatus for improved speech recognition by modifying a pronunciation dictionary based on pattern definitions of alternate word pronunciations
JP2007504495A (ja) * 2003-08-26 2007-03-01 クリアプレイ,インク. 音響信号の演奏を制御する方法と装置
KR100744288B1 (ko) * 2005-12-28 2007-07-30 삼성전자주식회사 음성 신호에서 음소를 분절하는 방법 및 그 시스템
KR102112742B1 (ko) * 2013-01-22 2020-05-19 삼성전자주식회사 전자장치 및 그 음성 처리 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS54148304A (en) * 1978-05-15 1979-11-20 Toshiba Corp Monosyllable identication device

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB981154A (en) * 1961-03-20 1965-01-20 Nippon Telegraph & Telephone Improved phonetic typewriter system
US3553372A (en) * 1965-11-05 1971-01-05 Int Standard Electric Corp Speech recognition apparatus
US3483941A (en) * 1968-01-26 1969-12-16 Bell Telephone Labor Inc Speech level measuring device
DE2536585C3 (de) * 1975-08-16 1981-04-02 Philips Patentverwaltung Gmbh, 2000 Hamburg Anordnung zur statistischen Signalanalyse
US4015087A (en) * 1975-11-18 1977-03-29 Center For Communications Research, Inc. Spectrograph apparatus for analyzing and displaying speech signals
US4181813A (en) * 1978-05-08 1980-01-01 John Marley System and method for speech recognition
JPS5629292A (en) * 1979-08-17 1981-03-24 Nippon Electric Co Continuous voice identifier
US4349700A (en) * 1980-04-08 1982-09-14 Bell Telephone Laboratories, Incorporated Continuous speech recognition system
US4348553A (en) * 1980-07-02 1982-09-07 International Business Machines Corporation Parallel pattern verifier with dynamic time warping
JPS58129684A (ja) * 1982-01-29 1983-08-02 Toshiba Corp パタ−ン認識装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS54148304A (en) * 1978-05-15 1979-11-20 Toshiba Corp Monosyllable identication device

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08300221A (ja) * 1995-04-28 1996-11-19 Fukutaro Yamazaki タップ

Also Published As

Publication number Publication date
IT1156544B (it) 1987-02-04
DE3371134D1 (en) 1987-05-27
EP0108609A1 (en) 1984-05-16
EP0108609B1 (en) 1987-04-22
JPH0252279B2 (ja) 1990-11-13
IT8268302A0 (it) 1982-11-08
US4703504A (en) 1987-10-27

Similar Documents

Publication Publication Date Title
KR0135975B1 (ko) 텍스트 처리 시스템
US5748840A (en) Methods and apparatus for improving the reliability of recognizing words in a large database when the words are spelled or spoken
US4181813A (en) System and method for speech recognition
JP4867804B2 (ja) 音声認識装置及び会議システム
EP0302663B1 (en) Low cost speech recognition system and method
US4284846A (en) System and method for sound recognition
JPS59101700A (ja) 言葉の音声認識のための装置
US6035272A (en) Method and apparatus for synthesizing speech
EP0285222A3 (en) Method for detecting associatively pronounced words
JPH06110494A (ja) 発音学習装置
JP2820093B2 (ja) 単音節認識装置
JPH0743599B2 (ja) 音声認識用コンピュータ・システム
JP3340163B2 (ja) 音声認識装置
JPS645320B2 (ja)
JP2001005483A (ja) 単語音声認識方法及び単語音声認識装置
JP3438293B2 (ja) 音声認識における単語テンプレートの自動作成方法
JP2737122B2 (ja) 音声辞書作成装置
JPH03223799A (ja) 分離しているワード、特に非常に大きい語いの認識方法と装置
JPH0361954B2 (ja)
JPS63161498A (ja) 音声情報入力装置
JPS59212900A (ja) 音声認識装置
CA1215925A (en) Speech controlled phonetic typewriter or display device using two tier approach
JPH0638198B2 (ja) 連続音声認識装置
JPS59211098A (ja) 音声認識装置
JPH01289997A (ja) 音声登録方式