JPH0252279B2 - - Google Patents
Info
- Publication number
- JPH0252279B2 JPH0252279B2 JP58209782A JP20978283A JPH0252279B2 JP H0252279 B2 JPH0252279 B2 JP H0252279B2 JP 58209782 A JP58209782 A JP 58209782A JP 20978283 A JP20978283 A JP 20978283A JP H0252279 B2 JPH0252279 B2 JP H0252279B2
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- speaker
- words
- speech recognition
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 239000013598 vector Substances 0.000 claims description 42
- 230000004044 response Effects 0.000 claims description 10
- 230000000007 visual effect Effects 0.000 claims description 8
- 230000005236 sound signal Effects 0.000 claims description 7
- 230000009471 action Effects 0.000 claims description 2
- 230000000295 complement effect Effects 0.000 claims description 2
- 230000000875 corresponding effect Effects 0.000 description 12
- 238000000034 method Methods 0.000 description 9
- 239000000872 buffer Substances 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- 108010033040 Histones Proteins 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 210000004704 glottis Anatomy 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Description
【発明の詳細な説明】
この発明は、話し手によつて話されたことばな
いし単語の音声認識を行うための方法及び装置で
あつて、言葉を周期的に分析して少なくとも一つ
のベクトルを得てこれを複数の基準音素のベクト
ルと比較して分析された音声部分に最も類似した
音素を選択するようにしたものに関する。
いし単語の音声認識を行うための方法及び装置で
あつて、言葉を周期的に分析して少なくとも一つ
のベクトルを得てこれを複数の基準音素のベクト
ルと比較して分析された音声部分に最も類似した
音素を選択するようにしたものに関する。
既知の形式の単語認識用装置は話し手の協力を
前提条件としている。すなわち、「話し手特定
(speaker dependent)」形式のものにおいては、
認識は同じ話し手によりサンプル又はモデルとし
て事前記録された単語又は音素と音声との比較に
基づいて行われる。音声はモデル単語又は音素の
一つと十分に接近していると判断されたときに認
識される。従つて、話し手は比較に使用されるサ
ンプルにできるだけ類似した音声を発生すること
が必要である。
前提条件としている。すなわち、「話し手特定
(speaker dependent)」形式のものにおいては、
認識は同じ話し手によりサンプル又はモデルとし
て事前記録された単語又は音素と音声との比較に
基づいて行われる。音声はモデル単語又は音素の
一つと十分に接近していると判断されたときに認
識される。従つて、話し手は比較に使用されるサ
ンプルにできるだけ類似した音声を発生すること
が必要である。
「話し手不特定(speaker independent)」形
式のものにおいては、話し手はそれほど正確に定
義されていないある種の発音方法に従えばよい。
この要件は結局「十分明りよう」に話すというこ
とである。
式のものにおいては、話し手はそれほど正確に定
義されていないある種の発音方法に従えばよい。
この要件は結局「十分明りよう」に話すというこ
とである。
いずれの場合でも、認識が欠如した場合には話
し手はその原因がわからず、従つて、よい結果を
期待してむやみに動作を繰り返すことができるだ
けである。経験により、使用者は時として偶然に
機械の応答の仕方を学んで、次第に誤り率が減少
する。
し手はその原因がわからず、従つて、よい結果を
期待してむやみに動作を繰り返すことができるだ
けである。経験により、使用者は時として偶然に
機械の応答の仕方を学んで、次第に誤り率が減少
する。
この発明の目的は、非常に短い時間で音声に応
答することができ、話し手の音声が最良の性能を
得るように話し手による音声調整を可能にするよ
うな応答を話し手に対して与えることができる認
識装置を得ることである。機械の応答に関する自
然の習得過程はそれゆえ容易になる。
答することができ、話し手の音声が最良の性能を
得るように話し手による音声調整を可能にするよ
うな応答を話し手に対して与えることができる認
識装置を得ることである。機械の応答に関する自
然の習得過程はそれゆえ容易になる。
単語の音声認識(phonetic recognition of
words)のためのこの発明による装置は選択され
た音素に対応する可視表示をリアル・タイム(実
時間)で行うことを特徴としており、これによつ
て話し手は自己の発音を基準音素に対応する発音
と一致するように適応させることができる。この
発明による話された言葉の音声認識のための装置
は、音声信号をデイジタル形式に変換するための
装置と、変換された音声信号を分析して少なくと
も一つの対応するベクトルを発生するための分析
装置と、このようにして発生されたベクトルを基
準音素の複数のベクトルのそれぞれと比較するた
めの比較装置と、該比較装置の出力に応答して、
分析された音素に最も類似した基準音素を認識す
る認識装置とを備え、更に認識された音素の可視
表示を実時間で発生するための制御装置を設ける
とともに、前記認識装置が、一連の認識段階にわ
たり該認識装置により行われた認識の安定度を表
す安定度信号を発生し且つこの安定度信号の表示
を実時間で行うように構成されていることにより
特徴づけられている。
words)のためのこの発明による装置は選択され
た音素に対応する可視表示をリアル・タイム(実
時間)で行うことを特徴としており、これによつ
て話し手は自己の発音を基準音素に対応する発音
と一致するように適応させることができる。この
発明による話された言葉の音声認識のための装置
は、音声信号をデイジタル形式に変換するための
装置と、変換された音声信号を分析して少なくと
も一つの対応するベクトルを発生するための分析
装置と、このようにして発生されたベクトルを基
準音素の複数のベクトルのそれぞれと比較するた
めの比較装置と、該比較装置の出力に応答して、
分析された音素に最も類似した基準音素を認識す
る認識装置とを備え、更に認識された音素の可視
表示を実時間で発生するための制御装置を設ける
とともに、前記認識装置が、一連の認識段階にわ
たり該認識装置により行われた認識の安定度を表
す安定度信号を発生し且つこの安定度信号の表示
を実時間で行うように構成されていることにより
特徴づけられている。
次にこの発明の採択した一実施例を添付の図面
について説明する。
について説明する。
この発明の装置は、話し手の音声信号を連続的
に捕えてこれを増幅器6に送信するように構成さ
れたマイクロホン5を備えている。増幅された信
号は次に一連の帯域通過又は偽信号除去フイルタ
7に送られ後続の標本化をひずませるおそれのあ
る望ましくない周波数が除去される。このような
周波数は、例えば、米国ニユージヤージ州エング
ルウツド・クリツフスのプレンテイス・ホール社
出版の、「音声信号のデイジタル処理」と題する
ローレンス・アール・ラビナ及びドナルド・ダブ
リユー・シエイフアの著書の2.4.1頁
(paragraph2.4.1of the book by Lawrence R
Rabiner and Ronald W Schafer entitled
“Digital Processing of Speech Signals”,
published by Prentice−Hall,Inc,
Englewood Cliffs,New Jersey)に記載された
アルゴリズムに基づいて決定することができる。
に捕えてこれを増幅器6に送信するように構成さ
れたマイクロホン5を備えている。増幅された信
号は次に一連の帯域通過又は偽信号除去フイルタ
7に送られ後続の標本化をひずませるおそれのあ
る望ましくない周波数が除去される。このような
周波数は、例えば、米国ニユージヤージ州エング
ルウツド・クリツフスのプレンテイス・ホール社
出版の、「音声信号のデイジタル処理」と題する
ローレンス・アール・ラビナ及びドナルド・ダブ
リユー・シエイフアの著書の2.4.1頁
(paragraph2.4.1of the book by Lawrence R
Rabiner and Ronald W Schafer entitled
“Digital Processing of Speech Signals”,
published by Prentice−Hall,Inc,
Englewood Cliffs,New Jersey)に記載された
アルゴリズムに基づいて決定することができる。
この発明の装置は更に、所定の周波数、例えば
12ないし20KHzの周波数を持つたフイルタから来
る信号を前述のアルゴリズムに基づいて標本化す
るためにタイマ9によつて制御される標本化装置
8を備えている。
12ないし20KHzの周波数を持つたフイルタから来
る信号を前述のアルゴリズムに基づいて標本化す
るためにタイマ9によつて制御される標本化装置
8を備えている。
このようにして標本化された信号はアナログ・
デイジタル変換器10によつて変換される。
デイジタル変換器10によつて変換される。
分析装置11は変換器10から出る音声信号を
分析してこの信号に対応する少なくとも一つのベ
クトルVを発生するように構成されている。分析
装置は、所定の時間TW(第2図)に変換器10
によつて供給される信号を分析するようにそれぞ
れ構成された一連の分析器A1,A2……Aoからな
つている。
分析してこの信号に対応する少なくとも一つのベ
クトルVを発生するように構成されている。分析
装置は、所定の時間TW(第2図)に変換器10
によつて供給される信号を分析するようにそれぞ
れ構成された一連の分析器A1,A2……Aoからな
つている。
分析器A1…Aoは各動作ごとに信号の窓又は部
分Wを分析して、反射係数Kiを含有した対応す
るベクトルV(第1図)、すなわち分析された音声
部分Wの分析的表示を発生する。ここで、反射係
数は、下記の著書「音声の線形予測」に正確に規
定されているような、話者の声門や口唇の位置を
示し且つ声道モデルによるパラメータを意味す
る。音声部分のこのような分析的定義のアルゴリ
ズムは、例えば米国ニユーヨークのシユプリン
ガ・フエアラーク社によつて出版された「音声の
線形予測」と題するジエイ・デイー・マーケル及
びエイ・エイチ・グレイ・ジユニアの著書の
4.2.1項(paragraph4.2.1 of the book by J
D Markel and A H Gray,Jr,entitled
“Linear Prediction of Speech”,published by
Springer Verlog,New York)の記載されてい
る。係数Kiの数としては12ないし18に選べばよ
いが、これは周知のように標本化周波数に相関し
ている。分析器A1……Aoは更に、分析される音
声部分Wの時間TW中の信号の平均電力を表す値
ENを発生する。
分Wを分析して、反射係数Kiを含有した対応す
るベクトルV(第1図)、すなわち分析された音声
部分Wの分析的表示を発生する。ここで、反射係
数は、下記の著書「音声の線形予測」に正確に規
定されているような、話者の声門や口唇の位置を
示し且つ声道モデルによるパラメータを意味す
る。音声部分のこのような分析的定義のアルゴリ
ズムは、例えば米国ニユーヨークのシユプリン
ガ・フエアラーク社によつて出版された「音声の
線形予測」と題するジエイ・デイー・マーケル及
びエイ・エイチ・グレイ・ジユニアの著書の
4.2.1項(paragraph4.2.1 of the book by J
D Markel and A H Gray,Jr,entitled
“Linear Prediction of Speech”,published by
Springer Verlog,New York)の記載されてい
る。係数Kiの数としては12ないし18に選べばよ
いが、これは周知のように標本化周波数に相関し
ている。分析器A1……Aoは更に、分析される音
声部分Wの時間TW中の信号の平均電力を表す値
ENを発生する。
各分析器A1……Aoは、適当にプログラムされ
且つ各記憶装置が音声部分Wの持続時間TWに対
応する信号の多数の標本を記憶するのに十分な容
量を持つている二つの緩衝記憶装置を備えたマイ
クロプロセツサによつて都合よく構成することが
できる。この二つの緩衝記憶装置は交互に使用さ
れ、一方は新しい入力データを記憶するために且
つ他方は分析の結果をベクトルVとして出力に供
給するのに使用される。
且つ各記憶装置が音声部分Wの持続時間TWに対
応する信号の多数の標本を記憶するのに十分な容
量を持つている二つの緩衝記憶装置を備えたマイ
クロプロセツサによつて都合よく構成することが
できる。この二つの緩衝記憶装置は交互に使用さ
れ、一方は新しい入力データを記憶するために且
つ他方は分析の結果をベクトルVとして出力に供
給するのに使用される。
個個の分析器A1……Aoに送られるべき音声部
分W1……Woはタイマ9によつて制御された論理
回路12によつて規定されるが、この論理回路は
音声部分W1……Woを時間的にずらし且つ部分的
に重ね合わせて、すなわち持続時間TWと分析器
A1……Ao(第1図)の数との比に等しい時間TI
(第2図)だけ隔てて、分析器A1……Aoに順に送
るように構成されている。それゆえ、各分析器
A1……Aoはそれぞれの音声部分を連続的に分析
し、従つて種種の分析器A1……Aoは時間的に一
部分重なり合う音声部分W1……Woを分析する。
換言すれば、持続時間TWの一部分である持続時
間TIにおける各音声部分は、装置11が三つの
分析器A1,A2,A3からなつているものと仮定し
て音声部分Wの順序を示してある第2図の線図か
ら明らかなように、すべての分析器A1……Aoに
よつて同時に分析される。
分W1……Woはタイマ9によつて制御された論理
回路12によつて規定されるが、この論理回路は
音声部分W1……Woを時間的にずらし且つ部分的
に重ね合わせて、すなわち持続時間TWと分析器
A1……Ao(第1図)の数との比に等しい時間TI
(第2図)だけ隔てて、分析器A1……Aoに順に送
るように構成されている。それゆえ、各分析器
A1……Aoはそれぞれの音声部分を連続的に分析
し、従つて種種の分析器A1……Aoは時間的に一
部分重なり合う音声部分W1……Woを分析する。
換言すれば、持続時間TWの一部分である持続時
間TIにおける各音声部分は、装置11が三つの
分析器A1,A2,A3からなつているものと仮定し
て音声部分Wの順序を示してある第2図の線図か
ら明らかなように、すべての分析器A1……Aoに
よつて同時に分析される。
この発明の装置は更に、複数の比較器C1,C2
……Cnからなる比較装置13を備えており、こ
の各比較器は分析器A1……Aoの一つによつて発
生されたベクトルVを、比較器に記憶された、対
応する音素を表すそれぞれの基準ベクトルV1,
V2……Vnと比較するように構成されている。ベ
クトルV1,V2……Vnは「話し手特定」方式では
話し手の声から得ることができ、又「話し手不特
定」方式では平均的な状態を表すようにすればよ
い。当然、認識の信頼度は前者の方が後者よりも
良いであろう。各比較の結果は、分析された音声
部分に関するベクトルとこれに対応する基準ベク
トルとの間の距離Dであり、この距離は二つのベ
クトルの反射係数の対の間の差の絶対値の和とし
て計算される。分析器A1……Aoと比較器C1……
Cnとの間には走査器14が配置されていて、こ
の走査器はベクトルV及び値ENを入力として順
次受け取り、且つ出力として各ベクトルVをすべ
ての比較器C1……Cnに並列に送ると共に、順次
値ENを緩衝記憶装置に記憶させる。比較器C1,
C2……Cnの出力の全体はm個のベクトルDを表
しており、これのそれぞれはm個の基準音素に関
して分析された最後の音声部分Wの距離を表して
いる。
……Cnからなる比較装置13を備えており、こ
の各比較器は分析器A1……Aoの一つによつて発
生されたベクトルVを、比較器に記憶された、対
応する音素を表すそれぞれの基準ベクトルV1,
V2……Vnと比較するように構成されている。ベ
クトルV1,V2……Vnは「話し手特定」方式では
話し手の声から得ることができ、又「話し手不特
定」方式では平均的な状態を表すようにすればよ
い。当然、認識の信頼度は前者の方が後者よりも
良いであろう。各比較の結果は、分析された音声
部分に関するベクトルとこれに対応する基準ベク
トルとの間の距離Dであり、この距離は二つのベ
クトルの反射係数の対の間の差の絶対値の和とし
て計算される。分析器A1……Aoと比較器C1……
Cnとの間には走査器14が配置されていて、こ
の走査器はベクトルV及び値ENを入力として順
次受け取り、且つ出力として各ベクトルVをすべ
ての比較器C1……Cnに並列に送ると共に、順次
値ENを緩衝記憶装置に記憶させる。比較器C1,
C2……Cnの出力の全体はm個のベクトルDを表
しており、これのそれぞれはm個の基準音素に関
して分析された最後の音声部分Wの距離を表して
いる。
比較器C1,C2……Cn及び緩衝記憶装置16の
出力は、分析されるものに最も類似した基準音素
を選択するように構成された音素認識装置17に
接続されている。更に詳しくは、認識装置17は
緩衝記憶装置18を備えた適当にプログラムされ
たマイクロコンピユータによつて構成されてお
り、この記憶装置18には装置17により比較装
置13及び緩衝記憶装置16の出力がタイマ9に
よつて決定される周期TIで記録されるようにな
つている。緩衝記憶装置18はそれゆえ分析され
た最後の音声部分Wの所定数Xのものに関するベ
クトルD及び値ENを記憶するように構成されて
いる。認識装置17は、緩衝記憶装置18に記憶
されている分析された最後の音声部分Wに関する
ベクトルDを同じ周期TIで分析して、ベクトル
Dを発生したものに最も類似している基準音素を
選択するようにプログラムされている。実際に
は、装置17は、音声部分Wの音素からの最小距
離dを示し且つ選択された基準音素の符号Y、及
び前記の距離dの所定値に対する補数によつて構
成された認識のメリツト値を表す符号Pを有する
音素FYをm個の基準音素の中から選択する。
出力は、分析されるものに最も類似した基準音素
を選択するように構成された音素認識装置17に
接続されている。更に詳しくは、認識装置17は
緩衝記憶装置18を備えた適当にプログラムされ
たマイクロコンピユータによつて構成されてお
り、この記憶装置18には装置17により比較装
置13及び緩衝記憶装置16の出力がタイマ9に
よつて決定される周期TIで記録されるようにな
つている。緩衝記憶装置18はそれゆえ分析され
た最後の音声部分Wの所定数Xのものに関するベ
クトルD及び値ENを記憶するように構成されて
いる。認識装置17は、緩衝記憶装置18に記憶
されている分析された最後の音声部分Wに関する
ベクトルDを同じ周期TIで分析して、ベクトル
Dを発生したものに最も類似している基準音素を
選択するようにプログラムされている。実際に
は、装置17は、音声部分Wの音素からの最小距
離dを示し且つ選択された基準音素の符号Y、及
び前記の距離dの所定値に対する補数によつて構
成された認識のメリツト値を表す符号Pを有する
音素FYをm個の基準音素の中から選択する。
更に、認識装置17は分析された音声部分Wの
エネルギーレベルを表す符号ENを発生する。最
後に、認識装置17は緩衝記憶装置18における
最後のX個のベクトルDを比較して認識が安定で
あるか否かを、すなわち最後のX個の音声部分に
おいて基準音素との比較が常に同じ選択になつて
いるか否かを確定するようにプログラムされてい
る。肯定の場合には、装置17は安定度を示す二
進値STの符号を発生する。
エネルギーレベルを表す符号ENを発生する。最
後に、認識装置17は緩衝記憶装置18における
最後のX個のベクトルDを比較して認識が安定で
あるか否かを、すなわち最後のX個の音声部分に
おいて基準音素との比較が常に同じ選択になつて
いるか否かを確定するようにプログラムされてい
る。肯定の場合には、装置17は安定度を示す二
進値STの符号を発生する。
この発明の装置は更に、陰極線管によつて構成
されたモニタ20に対する制御装置19を備えて
いる。更に詳しくは、制御装置19は認識装置1
7から符号Y,P,EN及びSTを受けて、音声部
分自体の分析と共に実時間で前記の諸符号を表す
ヒストグラムの可視表示をモニタ20に与えるよ
うに構成されている。このヒストグラムはモニタ
20の実質上上半部23に可視表示され、且つ第
3図に示したように一連の柱状部からなつてい
る。このヒストグラムにおいて、第1柱状部はエ
ネルギーENのアナログ値を表し、第2のものは
安定度STを表すものであつて二つの値のみ(安
定であれば高レベル、安定でなければゼロ)をと
ることができ、それに続く柱状部はそれぞれ比較
音素の一つに対応しており、認識音素FYに対応
するもの以外はすべてゼロレベルであり、認識音
素の高さはメリツト値Pをアナログ形式で表して
いる。
されたモニタ20に対する制御装置19を備えて
いる。更に詳しくは、制御装置19は認識装置1
7から符号Y,P,EN及びSTを受けて、音声部
分自体の分析と共に実時間で前記の諸符号を表す
ヒストグラムの可視表示をモニタ20に与えるよ
うに構成されている。このヒストグラムはモニタ
20の実質上上半部23に可視表示され、且つ第
3図に示したように一連の柱状部からなつてい
る。このヒストグラムにおいて、第1柱状部はエ
ネルギーENのアナログ値を表し、第2のものは
安定度STを表すものであつて二つの値のみ(安
定であれば高レベル、安定でなければゼロ)をと
ることができ、それに続く柱状部はそれぞれ比較
音素の一つに対応しており、認識音素FYに対応
するもの以外はすべてゼロレベルであり、認識音
素の高さはメリツト値Pをアナログ形式で表して
いる。
モニタ20の表示面上の種々の柱状部の下には
柱状部の意味が固定表示されている。種々の基準
音素FYはアルフアベツトの文字(例えば、母音)
及び語の音節の形で表示されている。又、認識可
能な音素の数は変更することが可能であろうし、
且つ又柱状部の意味の可視表示はモニタ20に固
定表示する代わりに同じ制御装置19(第1図)
によつて制御することができよう。
柱状部の意味が固定表示されている。種々の基準
音素FYはアルフアベツトの文字(例えば、母音)
及び語の音節の形で表示されている。又、認識可
能な音素の数は変更することが可能であろうし、
且つ又柱状部の意味の可視表示はモニタ20に固
定表示する代わりに同じ制御装置19(第1図)
によつて制御することができよう。
モニタ20上に所望のヒストグラム像を発生す
るために、制御装置19はビームの水平偏向を指
令するが、この偏向は線形であり、且つ装置19
が認識装置17から情報のブロツクを受けた瞬間
と同期している。制御装置19は次にデイジタ
ル・アナログ変換器21を介して適当なタイミン
グで、垂直偏向を制御する信号を送る。
るために、制御装置19はビームの水平偏向を指
令するが、この偏向は線形であり、且つ装置19
が認識装置17から情報のブロツクを受けた瞬間
と同期している。制御装置19は次にデイジタ
ル・アナログ変換器21を介して適当なタイミン
グで、垂直偏向を制御する信号を送る。
最後に、この発明の装置は、適当にプログラム
されたマイクロコンピユータと、辞書又は単語集
の、適当に符号化された音声表示、すなわち、同
じ語のアルフアベツト表示に対するそれぞれの符
号と関連した、この発明の装置が認識することの
できる語、が記録されている記憶装置とから実質
上なつている辞書的認識論理装置22を備えてい
る。辞書的認識装置22は音素認識ユニツト17
から出力された情報の各項目を制御装置19と並
列に受けて一連の音素FYのデータをこれが認識
されるときに一時的に記憶するように構成されて
いる。更に、装置22は走査器14から出力され
た情報の各項目を受けて、分析された実際の音素
信号に対応する一連のベクトルVをも記憶する。
されたマイクロコンピユータと、辞書又は単語集
の、適当に符号化された音声表示、すなわち、同
じ語のアルフアベツト表示に対するそれぞれの符
号と関連した、この発明の装置が認識することの
できる語、が記録されている記憶装置とから実質
上なつている辞書的認識論理装置22を備えてい
る。辞書的認識装置22は音素認識ユニツト17
から出力された情報の各項目を制御装置19と並
列に受けて一連の音素FYのデータをこれが認識
されるときに一時的に記憶するように構成されて
いる。更に、装置22は走査器14から出力され
た情報の各項目を受けて、分析された実際の音素
信号に対応する一連のベクトルVをも記憶する。
辞書的認識装置22は記憶された単語の内容を
音声認識装置17によつて受け取られた一連の音
素FYと比較して、これをつなぎ合わせ、それぞ
れの音素が一連のものの一群の音素FYと一致す
るときには単語又は単語の一部分を認識するよう
に構成されている。認識された一連の音素FYと
単語又は単語の一部分との一致が完全でない場
合、例えば認識のあいまいさがある場合には、装
置22は認識装置17により認識されたものに類
似した他の基準音素を考慮することによつて、走
査器14から直接受け取つたベクトルVを利用す
る。
音声認識装置17によつて受け取られた一連の音
素FYと比較して、これをつなぎ合わせ、それぞ
れの音素が一連のものの一群の音素FYと一致す
るときには単語又は単語の一部分を認識するよう
に構成されている。認識された一連の音素FYと
単語又は単語の一部分との一致が完全でない場
合、例えば認識のあいまいさがある場合には、装
置22は認識装置17により認識されたものに類
似した他の基準音素を考慮することによつて、走
査器14から直接受け取つたベクトルVを利用す
る。
装置22の動作の結果は、モニタ20を制御し
て、例えば表示面の下方部分24に、アルフアベ
ツト形式で認識された単語又は単語の一部分を可
視的に表示し、且つ又ある単語が認識されていな
い部分に対しては一連の点を可視的に表示するこ
とにある。
て、例えば表示面の下方部分24に、アルフアベ
ツト形式で認識された単語又は単語の一部分を可
視的に表示し、且つ又ある単語が認識されていな
い部分に対しては一連の点を可視的に表示するこ
とにある。
認識装置は次の方法で動作する。
認識装置は音素及び語彙の二つの認識論理のレ
ベルを与える。
ベルを与える。
音素認識は実時間で行われて、操作員に見える
反応を発生するが、これも又実時間である。
反応を発生するが、これも又実時間である。
話し手から発したマイクロホン5(第1図)に
よつて捕えられた音声信号は増幅器6によつて増
幅させてフイルタ7によりフイルタされる。この
ようにしてフイルタされた信号は次に標本化装置
8によつて高い周波数で標本化され、そして変換
器10によつてデイジタル信号に変換される。こ
の値は論理回路12によつて受け取られ、この回
路は多数の標本化信号からなる、持続時間TW
(第2図)中のこの信号の一連の音声部分Wを発
生する。例えば、音素の平均持続時間は100msの
程度であるので、この発明の装置がただ三つの分
析器A1,A2,A3を備えていると考えると、持続
時間TWは30msに選べばよく、又標本化は18000
Hzで行えばよい。
よつて捕えられた音声信号は増幅器6によつて増
幅させてフイルタ7によりフイルタされる。この
ようにしてフイルタされた信号は次に標本化装置
8によつて高い周波数で標本化され、そして変換
器10によつてデイジタル信号に変換される。こ
の値は論理回路12によつて受け取られ、この回
路は多数の標本化信号からなる、持続時間TW
(第2図)中のこの信号の一連の音声部分Wを発
生する。例えば、音素の平均持続時間は100msの
程度であるので、この発明の装置がただ三つの分
析器A1,A2,A3を備えていると考えると、持続
時間TWは30msに選べばよく、又標本化は18000
Hzで行えばよい。
連続した音声部分W1,W2,W3,W4……は持
続時間TWと分析器の数との比に等しい時間TI
だけ隔置されており、従つてTI=10msとなる。
論理回路12(第1図)は継続する音声部分Wを
分析器A1,A2……に分配し、従つてこれらの分
析器は第2図に示したようにずれて重なり合つた
音声部分について動作する。各分析器A1,A2…
…は対応する音声部分を分析するのに時間TAを
必要とし、この目的のために、第2図のグラフ2
5で示した時点において、分析の結果、すなわ
ち、それぞれのベクトルVを構成する反射係数及
び音声信号の平均電力の相対値EN、を出力とし
て供給する。
続時間TWと分析器の数との比に等しい時間TI
だけ隔置されており、従つてTI=10msとなる。
論理回路12(第1図)は継続する音声部分Wを
分析器A1,A2……に分配し、従つてこれらの分
析器は第2図に示したようにずれて重なり合つた
音声部分について動作する。各分析器A1,A2…
…は対応する音声部分を分析するのに時間TAを
必要とし、この目的のために、第2図のグラフ2
5で示した時点において、分析の結果、すなわ
ち、それぞれのベクトルVを構成する反射係数及
び音声信号の平均電力の相対値EN、を出力とし
て供給する。
従つて、各分析器A1,A2……は、次々と発生
するが重なり合つていない音声部分の分析結果を
各音声部分の終りに対する遅延TAを伴つて供給
する。
するが重なり合つていない音声部分の分析結果を
各音声部分の終りに対する遅延TAを伴つて供給
する。
第2図の線図から明らかなように、ベクトルV
及び値ENはTIに等しい時間間隔で得られる。連
続したベクトルVは走査器14によつて順次選択
されてm個の比較器C1……Cnに並列に送られ、
又ENの値は適当な緩衝記憶装置16に記憶され
る。m個の比較器C1……Cnは次に、第2図のグ
ラフ26で示した期間において、分析された最後
の音声部分を表すベクトルVと比較器に記憶され
た多くの基準音素を表すm個のベクトルV1……
Vnとの間の距離を同時に測定して、第2図のグ
ラフ27によつて示した時点における比較装置1
3からの出力として、分析された最後の音声部分
のm個の基準音素からの距離を表すm個のベクト
ルDを定義する。周期TIで、ベクトルD及び緩
衝記憶装置16(第1図)の内容が認識装置17
によつて得られ、そして分析されたx個の最後の
音声部分に関するベクトルD及び値ENが記憶装
置18に記憶される。次に、認識装置17におけ
る最後のベクトルDの検査に基づいて、分析され
た最後の音声部分に最も類似した基準音素FYが
認識される。
及び値ENはTIに等しい時間間隔で得られる。連
続したベクトルVは走査器14によつて順次選択
されてm個の比較器C1……Cnに並列に送られ、
又ENの値は適当な緩衝記憶装置16に記憶され
る。m個の比較器C1……Cnは次に、第2図のグ
ラフ26で示した期間において、分析された最後
の音声部分を表すベクトルVと比較器に記憶され
た多くの基準音素を表すm個のベクトルV1……
Vnとの間の距離を同時に測定して、第2図のグ
ラフ27によつて示した時点における比較装置1
3からの出力として、分析された最後の音声部分
のm個の基準音素からの距離を表すm個のベクト
ルDを定義する。周期TIで、ベクトルD及び緩
衝記憶装置16(第1図)の内容が認識装置17
によつて得られ、そして分析されたx個の最後の
音声部分に関するベクトルD及び値ENが記憶装
置18に記憶される。次に、認識装置17におけ
る最後のベクトルDの検査に基づいて、分析され
た最後の音声部分に最も類似した基準音素FYが
認識される。
他方、装置17の記憶装置18における最後の
x個のベクトルDを比較することによつて、認識
の安定性があるか否かが確立される。TIに等し
い時間間隔で、認識装置17は次に信号EN,
Y,P,STを制御装置19及び辞書的認識装置
22に送る。変換器21を介して、制御装置19
はモニタ20を制御して、第3図の上方部分に表
示された形式の対応するヒストグラムを発生させ
る。第3図では認識された音素は文字「0」であ
る。このヒストグラムはそれゆえ、この発明の装
置によつて行われる音声認識の可視表示を実時間
で受けている話し手によつて、単語の音節発音に
おける話し手の自然の速度に一致した時間で常時
観察することができる。更に詳しくは、話し手
は、認識された音素が彼の発音しようとしたもの
でないことに気づいたときには、彼の発音を基準
音素に一層近くなるようにすることができる。更
に、話し手はヒストグラムの柱状部ENによつて
表示されたレベルが低いことを認めた場合には彼
の音調を上げることができる。最後に、ヒストグ
ラムの柱状部STは認識があいまいさなしに行わ
れたこと及びそれが辞書的認識装置22によつて
受け入れられたことの表示を話し手に与える。逆
に、柱状部STの欠如は話し手の速度がこの発明
の装置の分析速度に適合していないことを表示す
ることができ、従つてこの場合には話し手は、話
す速度を適当に適合させることができる。
x個のベクトルDを比較することによつて、認識
の安定性があるか否かが確立される。TIに等し
い時間間隔で、認識装置17は次に信号EN,
Y,P,STを制御装置19及び辞書的認識装置
22に送る。変換器21を介して、制御装置19
はモニタ20を制御して、第3図の上方部分に表
示された形式の対応するヒストグラムを発生させ
る。第3図では認識された音素は文字「0」であ
る。このヒストグラムはそれゆえ、この発明の装
置によつて行われる音声認識の可視表示を実時間
で受けている話し手によつて、単語の音節発音に
おける話し手の自然の速度に一致した時間で常時
観察することができる。更に詳しくは、話し手
は、認識された音素が彼の発音しようとしたもの
でないことに気づいたときには、彼の発音を基準
音素に一層近くなるようにすることができる。更
に、話し手はヒストグラムの柱状部ENによつて
表示されたレベルが低いことを認めた場合には彼
の音調を上げることができる。最後に、ヒストグ
ラムの柱状部STは認識があいまいさなしに行わ
れたこと及びそれが辞書的認識装置22によつて
受け入れられたことの表示を話し手に与える。逆
に、柱状部STの欠如は話し手の速度がこの発明
の装置の分析速度に適合していないことを表示す
ることができ、従つてこの場合には話し手は、話
す速度を適当に適合させることができる。
明らかなことであるが、既述のこの発明の装置
は話し手に自己の話がどのように認識されたかと
いう直接の知覚を与える認識方法の単なる一例で
ある。明らかに、既述の音声認識論理はすべての
音素に等しく適するものではない。更に詳しく
は、それは母音、鼻子音、及び時間的に接続させ
ることのできる摩擦音(例えば、f、s、sc))
に対してはよく適しているが、破裂子音(例え
ば、p、k、t、d)を相互に認識するのにはあ
まり適していないようである。これらの子音の認
識を確実にするためには、比較器C1,C2……の
数を増大させて、話し手が対処できる音素の数に
した後、この発明の装置によつて認識を行うよう
にすればよい。
は話し手に自己の話がどのように認識されたかと
いう直接の知覚を与える認識方法の単なる一例で
ある。明らかに、既述の音声認識論理はすべての
音素に等しく適するものではない。更に詳しく
は、それは母音、鼻子音、及び時間的に接続させ
ることのできる摩擦音(例えば、f、s、sc))
に対してはよく適しているが、破裂子音(例え
ば、p、k、t、d)を相互に認識するのにはあ
まり適していないようである。これらの子音の認
識を確実にするためには、比較器C1,C2……の
数を増大させて、話し手が対処できる音素の数に
した後、この発明の装置によつて認識を行うよう
にすればよい。
音素認識とは対照的に、辞書的(語彙)認識は
実時間では行われず、話し手が認識されるべき単
語の発音を完了した後に開始される。
実時間では行われず、話し手が認識されるべき単
語の発音を完了した後に開始される。
辞書的認識のために、辞書的認識装置22は音
素認識装置17から出力された情報と走査器14
から出力されたすべての情報との両方を受ける。
装置22はそれゆえ、装置17によつてこまかく
認識される一連の音素FYに対応する一連の符号
と、走査器14から出て来るより豊富な一連の情
報とを自由に使える。認識装置22は次に一連の
音素を相互に連結して、まずその単語集の内容と
装置17から受けた一連の情報とを比較する。
素認識装置17から出力された情報と走査器14
から出力されたすべての情報との両方を受ける。
装置22はそれゆえ、装置17によつてこまかく
認識される一連の音素FYに対応する一連の符号
と、走査器14から出て来るより豊富な一連の情
報とを自由に使える。認識装置22は次に一連の
音素を相互に連結して、まずその単語集の内容と
装置17から受けた一連の情報とを比較する。
この一連のものの一部分と辞書の要素との対応
によつて装置22は単語を認識して、対応するア
ルフアベツトの可視表示を与えるようにモニタ2
0を制御する。話し手がこの発明の装置の反応に
順応するのに成功した程度まで、ユニツト17に
よつて発生される一連の情報は確実な情報基礎を
構成するであろう。しかしながら、実時間での音
声認識は不完全であるので、それは完全ではあり
得ない。例えば、それは破裂音を相互に区別する
ことができない。解釈のあいまいさがある場合に
は、装置22における認識論理回路は相互につな
がつて、走査器14から直接受けたベクトルVを
それの単語集と比較し、このようにして類似の音
素を相互に区別する。
によつて装置22は単語を認識して、対応するア
ルフアベツトの可視表示を与えるようにモニタ2
0を制御する。話し手がこの発明の装置の反応に
順応するのに成功した程度まで、ユニツト17に
よつて発生される一連の情報は確実な情報基礎を
構成するであろう。しかしながら、実時間での音
声認識は不完全であるので、それは完全ではあり
得ない。例えば、それは破裂音を相互に区別する
ことができない。解釈のあいまいさがある場合に
は、装置22における認識論理回路は相互につな
がつて、走査器14から直接受けたベクトルVを
それの単語集と比較し、このようにして類似の音
素を相互に区別する。
それゆえ、装置22は又モニタ20を介して話
し手に受け取つた一連の音素を表示する反応及び
認識された単語の図式表示を送る。明確な概念を
与えるために、イタリア語「sette」(すなわち、
「7」)の場合には、認識される一連の音素は
SE・・Eであろう(ここで、点は、第3図に示
したように、一般に破裂音に先行する無音を表し
ている。)他方、辞書及び走査器14から受けた
データの援助により、完全に書かれた単語、すな
わち「SETTE」を得ることができる。第3図は
表示面の下半部にSE・・Eの表示を示している。
これは上半部に示された音素「0」の認識とは別
の例である。
し手に受け取つた一連の音素を表示する反応及び
認識された単語の図式表示を送る。明確な概念を
与えるために、イタリア語「sette」(すなわち、
「7」)の場合には、認識される一連の音素は
SE・・Eであろう(ここで、点は、第3図に示
したように、一般に破裂音に先行する無音を表し
ている。)他方、辞書及び走査器14から受けた
データの援助により、完全に書かれた単語、すな
わち「SETTE」を得ることができる。第3図は
表示面の下半部にSE・・Eの表示を示している。
これは上半部に示された音素「0」の認識とは別
の例である。
それゆえ明らかなことであるが、既述のこの発
明の装置は所望の反応を実時間で、すなわち平均
的な母音音素の持続時間(約100ms)よりも短い
時間で発生するように特に設計されており、又音
声信号は断絶なく連続して処理される。情報は一
連の論理装置を通過し、この論理装置のそれぞれ
は、第2図の線図に示した時間要件に従つて、既
述の技法により実施することのできる機能を行
う。
明の装置は所望の反応を実時間で、すなわち平均
的な母音音素の持続時間(約100ms)よりも短い
時間で発生するように特に設計されており、又音
声信号は断絶なく連続して処理される。情報は一
連の論理装置を通過し、この論理装置のそれぞれ
は、第2図の線図に示した時間要件に従つて、既
述の技法により実施することのできる機能を行
う。
注意するべきことであるが、話し手に対する実
時間での反応という基本的な考えと一致する他の
論理構造に関係した別の認識手順を利用すること
もできる。
時間での反応という基本的な考えと一致する他の
論理構造に関係した別の認識手順を利用すること
もできる。
最後に、明白なことであるが、この発明の範囲
から外れることなく既述の特定のこの発明の装置
において種種の変更及び改善を行うことができ
る。例えば、モニタ20によつて与えられる表示
のいくつかは他の可視装置又は光学的表示装置に
よつて与えることができるであろう。更に、装置
22によつて制御される単語のアルフアベツト表
示はプリンタによつて与えてもよく、又装置22
は走査器14からの代わりに装置11の分析器か
ら直接ベクトルVを取り寄せることもできるであ
ろう。
から外れることなく既述の特定のこの発明の装置
において種種の変更及び改善を行うことができ
る。例えば、モニタ20によつて与えられる表示
のいくつかは他の可視装置又は光学的表示装置に
よつて与えることができるであろう。更に、装置
22によつて制御される単語のアルフアベツト表
示はプリンタによつて与えてもよく、又装置22
は走査器14からの代わりに装置11の分析器か
ら直接ベクトルVを取り寄せることもできるであ
ろう。
第1図は単語の音声認識のためのこの発明によ
る装置の構成図である。第2図は第1図の装置の
動作に関する時間図である。第3図は第1図の装
置のモニタに発生したヒストグラムの線図であ
る。 これらの図面において、10はA−D変換器、
11は分析装置、A1,A2……Aoは分析器、13
は比較装置、C1,C2……Cnは比較器、17は音
素認識装置、19は制御装置、20はモニタ、2
2は辞書的認識装置を示す。
る装置の構成図である。第2図は第1図の装置の
動作に関する時間図である。第3図は第1図の装
置のモニタに発生したヒストグラムの線図であ
る。 これらの図面において、10はA−D変換器、
11は分析装置、A1,A2……Aoは分析器、13
は比較装置、C1,C2……Cnは比較器、17は音
素認識装置、19は制御装置、20はモニタ、2
2は辞書的認識装置を示す。
Claims (1)
- 【特許請求の範囲】 1 音声信号をデイジタル形式に変換するための
装置10と、 変換された音声信号を分析して少なくとも一つ
の対応するベクトルVを発生するための分析装置
11と、 このようにして発生されたベクトルを基準音素
の複数のベクトルのそれぞれと比較するための比
較装置13と、 該比較装置13の出力に応答して、分析された
音素に最も類似した基準音素FYを認識する認識
装置17とを備える話し手によつて話された言葉
の音声認識のための装置において、 認識された音素の可視表示を実時間で発生する
ための制御装置19を設けるとともに、 前記認識装置17が、一連の認識段階にわたり
該認識装置17により行われた認識の安定度を表
す安定度信号STを発生し且つこの安定度信号ST
の表示を実時間で行うように構成されていること
を特徴とする話し手によつて話された言葉の音声
認識のための装置。 2 特許請求の範囲第1項に記載の装置におい
て、認識された音素FYを文字又は音節で表示す
る表示装置20を備え、且つ前記制御装置19が
認識された音素FYに関する情報を表示するヒス
トグラムを発生するように構成されており、これ
により発音された単語が前記音声認識のための装
置により正しく認識されているか否かを話し手が
実時間で検査することができることを特徴とする
話し手によつて話された言葉の音声認識のための
装置。 3 特許請求の範囲第1項又は第2項に記載の装
置において、 前記分析装置11はデイジタル符号形式で音声
部分Wを受け取るように構成された複数の分析器
A1,A2……Aoを有し、 該種々の分析器は音声部分の持続時間TWと分
析器の数との比TIだけ分離された時点で順次分
析を開始し、時間的に重なり合う音声部分Wを分
析して対応する一連のベクトルVを発生するよう
に構成されており、 前記比較装置は複数の比較器C1,C2……Cnを
有し、 該複数の比較器の各々は、それぞれの基準ベク
トルと前記分析器によつて供給された一連のベク
トルVとを比較するように構成されていることを
特徴とする話し手によつて話された言葉の音声認
識のための装置。 4 特許請求の範囲第3項に記載の装置におい
て、前記比較器C1,C2……Cnがそれぞれ各基準
ベクトルからの前記の一連のものの一つのベクト
ルVの距離を計算するように構成されており、且
つ前記認識装置17が前記の一連のものの一つの
ベクトルVからの最小距離を持つた基準ベクトル
に対応する基準音素FYを選択するとともにこの
最小距離値を所定数の連続した選択について記憶
するように構成されていることを特徴とする話し
手によつて話された言葉の音声認識のための装
置。 5 特許請求の範囲第4項に記載の装置におい
て、前記認識装置17が少なくとも最後の二つの
記憶された最小距離値に応答して認識の安定度を
示す値STを発生するように、且つ対応する計算
距離の所定値の補数である認識メリツト値Pを発
生するように構成されていることを特徴とする話
し手によつて話された言葉の音声認識のための装
置。 6 特許請求の範囲第5項に記載の装置におい
て、前記認識装置17が分析された音声部分Wの
平均エネルギーに対応するエネルギー信号ENを
発生することを特徴とする話し手によつて話され
た言葉の音声認識のための装置。 7 特許請求の範囲第5項に記載の装置におい
て、前記制御装置19が前記の安定度値ST及び
前記認識メリツト値Pを含むヒストグラム表示を
発生することを特徴とする話し手によつて話され
た言葉の音声認識のための装置。 8 特許請求の範囲第6項又は第7項に記載の装
置において、前記制御装置19がエネルギー信号
ENを含むヒストグラム表示を発生することを特
徴とする話し手によつて話された言葉の音声認識
のための装置。 9 特許請求の範囲第1〜8項のいずれか一項に
記載の装置において、一連の連続して認識された
音素FYを、記憶装置に記録された語彙の単語と
比較して単語の認識を行うように構成された辞書
的認識装置22を備えており、且つこの辞書的認
識装置22により制御されて、認識された単語の
表示が行われることを特徴とする話し手によつて
話された言葉の音声認識のための装置。 10 特許請求の範囲第1〜9項のいずれか一項
に記載の装置において、各表示がモニタの表示面
に発生させることを特徴とする話し手によつて話
された言葉の音声認識のための装置。 11 特許請求の範囲第1〜10項のいずれか一
項に記載の装置において、前記の少なくとも一つ
の分析器A1,A2……Ao、前記制御装置19及び
前記辞書的認識装置22がプログラムされたマイ
クロプロセツサを備えていることを特徴とする話
し手によつて話された言葉の音声認識のための装
置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IT68302/82A IT1156544B (it) | 1982-11-08 | 1982-11-08 | Metodo ed apparecchiatura di riconoscimento fonetico di parole |
IT68302-A/82 | 1982-11-08 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS59101700A JPS59101700A (ja) | 1984-06-12 |
JPH0252279B2 true JPH0252279B2 (ja) | 1990-11-13 |
Family
ID=11308906
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP58209782A Granted JPS59101700A (ja) | 1982-11-08 | 1983-11-08 | 言葉の音声認識のための装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US4703504A (ja) |
EP (1) | EP0108609B1 (ja) |
JP (1) | JPS59101700A (ja) |
DE (1) | DE3371134D1 (ja) |
IT (1) | IT1156544B (ja) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0336032A1 (en) * | 1988-04-07 | 1989-10-11 | Research Triangle Institute | Audio visual speech recognition |
US4783808A (en) * | 1986-04-25 | 1988-11-08 | Texas Instruments Incorporated | Connected word recognition enrollment method |
US4980917A (en) * | 1987-11-18 | 1990-12-25 | Emerson & Stern Associates, Inc. | Method and apparatus for determining articulatory parameters from speech data |
BE1002379A4 (fr) * | 1988-08-31 | 1991-01-22 | Halleux Benoit De | Procede de reconnaissance et en particulier d'ecriture de la parole. |
JP2836159B2 (ja) * | 1990-01-30 | 1998-12-14 | 株式会社日立製作所 | 同時通訳向き音声認識システムおよびその音声認識方法 |
EP0706172A1 (en) * | 1994-10-04 | 1996-04-10 | Hughes Aircraft Company | Low bit rate speech encoder and decoder |
JPH08300221A (ja) * | 1995-04-28 | 1996-11-19 | Fukutaro Yamazaki | タップ |
US5857173A (en) * | 1997-01-30 | 1999-01-05 | Motorola, Inc. | Pronunciation measurement device and method |
ES2143953B1 (es) * | 1998-05-26 | 2000-12-01 | Univ Malaga | Circuito integrado analizador de secuencias silabicas. |
JP2000221990A (ja) * | 1999-01-28 | 2000-08-11 | Ricoh Co Ltd | 音声認識装置 |
US6389394B1 (en) * | 2000-02-09 | 2002-05-14 | Speechworks International, Inc. | Method and apparatus for improved speech recognition by modifying a pronunciation dictionary based on pattern definitions of alternate word pronunciations |
KR20060123072A (ko) * | 2003-08-26 | 2006-12-01 | 클리어플레이, 아이엔씨. | 오디오 신호의 재생을 제어하는 방법 및 장치 |
KR100744288B1 (ko) * | 2005-12-28 | 2007-07-30 | 삼성전자주식회사 | 음성 신호에서 음소를 분절하는 방법 및 그 시스템 |
KR102112742B1 (ko) * | 2013-01-22 | 2020-05-19 | 삼성전자주식회사 | 전자장치 및 그 음성 처리 방법 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS54148304A (en) * | 1978-05-15 | 1979-11-20 | Toshiba Corp | Monosyllable identication device |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB981154A (en) * | 1961-03-20 | 1965-01-20 | Nippon Telegraph & Telephone | Improved phonetic typewriter system |
US3553372A (en) * | 1965-11-05 | 1971-01-05 | Int Standard Electric Corp | Speech recognition apparatus |
US3483941A (en) * | 1968-01-26 | 1969-12-16 | Bell Telephone Labor Inc | Speech level measuring device |
DE2536585C3 (de) * | 1975-08-16 | 1981-04-02 | Philips Patentverwaltung Gmbh, 2000 Hamburg | Anordnung zur statistischen Signalanalyse |
US4015087A (en) * | 1975-11-18 | 1977-03-29 | Center For Communications Research, Inc. | Spectrograph apparatus for analyzing and displaying speech signals |
US4181813A (en) * | 1978-05-08 | 1980-01-01 | John Marley | System and method for speech recognition |
JPS5629292A (en) * | 1979-08-17 | 1981-03-24 | Nippon Electric Co | Continuous voice identifier |
US4349700A (en) * | 1980-04-08 | 1982-09-14 | Bell Telephone Laboratories, Incorporated | Continuous speech recognition system |
US4348553A (en) * | 1980-07-02 | 1982-09-07 | International Business Machines Corporation | Parallel pattern verifier with dynamic time warping |
JPS58129684A (ja) * | 1982-01-29 | 1983-08-02 | Toshiba Corp | パタ−ン認識装置 |
-
1982
- 1982-11-08 IT IT68302/82A patent/IT1156544B/it active
-
1983
- 1983-11-02 DE DE8383306677T patent/DE3371134D1/de not_active Expired
- 1983-11-02 EP EP83306677A patent/EP0108609B1/en not_active Expired
- 1983-11-08 JP JP58209782A patent/JPS59101700A/ja active Granted
- 1983-11-08 US US06/549,656 patent/US4703504A/en not_active Expired - Lifetime
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS54148304A (en) * | 1978-05-15 | 1979-11-20 | Toshiba Corp | Monosyllable identication device |
Also Published As
Publication number | Publication date |
---|---|
DE3371134D1 (en) | 1987-05-27 |
EP0108609A1 (en) | 1984-05-16 |
IT1156544B (it) | 1987-02-04 |
US4703504A (en) | 1987-10-27 |
JPS59101700A (ja) | 1984-06-12 |
IT8268302A0 (it) | 1982-11-08 |
EP0108609B1 (en) | 1987-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3371808B1 (en) | Speech processing system and method | |
EP0619911B1 (en) | Children's speech training aid | |
JP4867804B2 (ja) | 音声認識装置及び会議システム | |
EP0302663B1 (en) | Low cost speech recognition system and method | |
US5708759A (en) | Speech recognition using phoneme waveform parameters | |
EP3042377B1 (en) | Method and system for generating advanced feature discrimination vectors for use in speech recognition | |
EP0380297A2 (en) | Method and apparatus for speech recognition | |
US6553342B1 (en) | Tone based speech recognition | |
JPH0968994A (ja) | パターンマッチングによる単語音声認識方法及びその方法を実施する装置 | |
JPH0252279B2 (ja) | ||
JPS62231997A (ja) | 音声認識システム及びその方法 | |
KR20160122542A (ko) | 발음 유사도 측정 방법 및 장치 | |
US6006185A (en) | System and device for advanced voice recognition word spotting | |
JPH06110494A (ja) | 発音学習装置 | |
US4477925A (en) | Clipped speech-linear predictive coding speech processor | |
EP0421744B1 (en) | Speech recognition method and apparatus for use therein | |
JP2844817B2 (ja) | 発声練習用音声合成方式 | |
Tungthangthum | Tone recognition for Thai | |
JPS5939760B2 (ja) | 音声認識装置 | |
Lea | What causes speech recognizers to make mistakes? | |
RU2119196C1 (ru) | Способ лексической интерпретации слитной речи и система для его реализации | |
JPS645320B2 (ja) | ||
JP2578771B2 (ja) | 音声認識装置 | |
JP2679039B2 (ja) | 母音切出し装置 | |
JPS63161498A (ja) | 音声情報入力装置 |