JP3055691B2 - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JP3055691B2 JP3055691B2 JP2216934A JP21693490A JP3055691B2 JP 3055691 B2 JP3055691 B2 JP 3055691B2 JP 2216934 A JP2216934 A JP 2216934A JP 21693490 A JP21693490 A JP 21693490A JP 3055691 B2 JP3055691 B2 JP 3055691B2
- Authority
- JP
- Japan
- Prior art keywords
- vector
- speech
- data
- signal
- elements
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000012545 processing Methods 0.000 claims abstract description 61
- 238000000034 method Methods 0.000 claims abstract description 42
- 239000013598 vector Substances 0.000 claims description 233
- 238000011156 evaluation Methods 0.000 claims description 70
- 230000005236 sound signal Effects 0.000 claims description 35
- 230000001419 dependent effect Effects 0.000 claims description 2
- 230000004044 response Effects 0.000 claims description 2
- 238000012544 monitoring process Methods 0.000 claims 5
- 241000269627 Amphiuma means Species 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 33
- 230000002829 reductive effect Effects 0.000 abstract description 15
- 239000011159 matrix material Substances 0.000 description 60
- 238000010586 diagram Methods 0.000 description 42
- 238000011161 development Methods 0.000 description 37
- 230000018109 developmental process Effects 0.000 description 37
- 230000000875 corresponding effect Effects 0.000 description 35
- 238000001514 detection method Methods 0.000 description 33
- 238000004364 calculation method Methods 0.000 description 31
- 230000003044 adaptive effect Effects 0.000 description 23
- 239000013074 reference sample Substances 0.000 description 18
- 238000010606 normalization Methods 0.000 description 12
- 238000012935 Averaging Methods 0.000 description 11
- 238000001228 spectrum Methods 0.000 description 11
- 230000015654 memory Effects 0.000 description 10
- 239000000470 constituent Substances 0.000 description 9
- 239000003550 marker Substances 0.000 description 8
- 238000004904 shortening Methods 0.000 description 8
- 230000000717 retained effect Effects 0.000 description 6
- 230000009467 reduction Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000005056 compaction Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 230000036961 partial effect Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- SVTBMSDMJJWYQN-UHFFFAOYSA-N 2-methylpentane-2,4-diol Chemical compound CC(O)CC(C)(C)O SVTBMSDMJJWYQN-UHFFFAOYSA-N 0.000 description 3
- 239000001856 Ethyl cellulose Substances 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 239000000872 buffer Substances 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000012886 linear function Methods 0.000 description 3
- 238000007792 addition Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 230000029058 respiratory gaseous exchange Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000001256 tonic effect Effects 0.000 description 2
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007596 consolidation process Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- HEMHJVSKTPXQMS-UHFFFAOYSA-M sodium hydroxide Substances [OH-].[Na+] HEMHJVSKTPXQMS-UHFFFAOYSA-M 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Complex Calculations (AREA)
- Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
- Image Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Machine Translation (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Description
音声のパターンを認識する際に使用される音声認識シス
テムの一部に関する。
る若干の手段を使用している。そのため音声は音声信号
を直接デジタル化したものの中に含まれる全データ量よ
りも少ない表現に還元される。然しながら、かかる表現
は発声者が意図した意味を識別するために必要とされる
データの全てとはいわないまでも大部分を含んでいなけ
ればならない。
における任務は、単語や節の如き音声要素を特徴づける
短縮データ表現中のパターンを識別することである。異
なる話者が同一の単語や文句を発声することによって発
する音声はそれぞれ異なっており、従って音声認識シス
テムはこれらの異なる音から由来するパターンに対して
同一の単語又は文句を付与しなければならない。上記パ
ターンには雑音やモデリングプロセスの不正確さの如き
他の曖昧さの源泉も存在し、それらも音声信号表現を変
更させる可能性がある。従って、種々の手段を使用して
音声の短縮データ表現の種々な数学的組合せに対する可
能性を附与されており、種々の仮説をテストして一連の
可能な音声要素のうちの何れが今発声されているもの、
従って特定データパターンにより表わされるものに一番
近いかが判断されている。
には計算数が多くなる傾向がある。即ち、種々のデータ
計算と多数の音素についての可能性を判断する必要があ
る。そのため、例えばリアルタイムのシステム処理の必
要条件によって課される計算に対する制約は使用可能な
パターン認識アルゴリズムの感度を制約することにな
る。
てられる計算時間を大きくすること、しかも音声認識プ
ロセス全体に必要とされる時間を増加させずにそうする
ことができるようにすることである。
処理すること、即ち、より大きな信号の「窓」を使用す
ること、しかも計算上の負担を著しく大きくせずに、信
号データの分解能を低下させずにそうすることである。
ータ操作処理を介在させて音韻特有の音声モデル化デー
タ短縮処理を行い音韻評価を実行する音韻評価器を備え
る音声認識システムによって実現される。上記音韻評価
は、更に処理された後、発声される単語や文句を識別す
るために使用される。
版のエネルギーをモニタして選択して一定のスレッショ
ールドを上廻るエネルギーを有する音声区画全体を更に
処理する。かかる信号区画は音声内の有声音又は無声音
の呼気を、従って音韻を表わすのが普通である。その
後、音韻評価器は、一連の非線形処理と音声モデル化を
経て音声区画を更にデータ短縮表現処理し、何れの音韻
パターンにデータが最も近似しているかが計算される。
ら相対的に重要でないとか余分であることが判っている
データを無視することにより非線形処理どうしの間で音
声信号データを短縮するために行われる。その後、より
重要なデータは計算集約的な非線形処理を使用して処理
された所期の音韻により近似したデータパターンが得ら
れる。かかる計算に必要とされる時間は以上のようにデ
ータを短縮することによって最小限にする。
に、信号エネルギー、又は音韻の検出どうしの間の時間
も観察する。音韻検出間の時間を考慮に入れて、評価器
は、別の場合には一連の相異なる音韻と考えられるもの
を多数音韻パターン群例えば2重音群に鎖状結合する。
これらの多数音韻パターンは個々の音韻よりも明確に音
声の意図する意味を伝えることが多い。
説する。処理システム中のプロセッサにより実行される
計算とその展開中に使用するパラメータは第19−35図と
第36−44図中に示す種々のテーブルについて説明する。
処理システムのハードウエア構成は第45−48図について
説明する。
評価器12、語/句判断器14、および語/句辞書16を備え
る。音韻評価器12は、例えばマイクロフォン又は電話回
線から音声入力信号を受取る。音韻評価器12は音声入力
信号のエネルギーを検出し、そのエネルギーが所定のス
レッショルド値を上廻っているかどうかを判断する。も
し上廻っていれば、評価器は音声信号中に音声、従って
音韻の存在を表示する。その後、評価器12は、それに相
当する音韻評価値、即ち、一群の出力信号を計算する。
それら出力信号は、それぞれ、音声信号がその出力と関
連する音韻を構成している公算がどれ位かを示す評価値
である。また評価器は音韻検出どうしの間の時間、即
ち、Δ時間を計算する。
る。語/句判断器14は、その時間と評価値を用いて、構
成音韻に関して列挙した語句を格納する語/句辞書16に
問い合わせる。その後、語/句判断器14は一語又は一句
をその音声信号に割当て、音声を翻訳する。語/句判断
器14の出力は,例えば一群の可能な予期応答のうちのど
れが発声されたかについての表示の如き、他の形をとる
ことができる。
る特殊な方法は本発明の一部ではないから、ここでは提
示しない。然しながら、語/句判断器14がより原始的な
データ形式が、例えば肉声又はその周波数スペクトルで
はなく、音韻評価器12により作成された音韻評価値とデ
ルタ時間値とに厳密に基づいて音声入力信号の意味を判
断するということが重要な点である。
この点図面は適当なハードウエアシステム内に存在する
際には別々のプロセッサ又はブロックによって種々の処
理が実行される様子を示していることに注意されたい。
このように別々のプロセッサに分離することによって説
明が容易になるが、当業者は、これらの機能の大部分は
普通の場合、比較的少数の一般的なハードウエア要素に
よって実行されることを理解されよう。殊に、大部分の
ステップは一個又は非常に少数のマイクロプロセッサに
より実行されるのが一般的であろう。
声信号を受取り、それを処理し、第3−4図について以
下に詳説するようにブロック18のパワースペクトル評価
とブロック20のパワースペクトル短縮によってデータを
短縮する。データ短縮された信号はエネルギー検出プロ
セッサ22と受容野プロセッサ24の双方に印加される。
ールド値を上廻っていて、音声の存在を表示していれ
ば、エネルギー検出プロセッサ22は検出信号をライン22
A上に発生する。発生された検出信号は受容野プロセッ
サ24を付勢する。同プロセッサ24はその後更にデータを
処理し、受容野を作り出す。もし信号エネルギーがスレ
ショールド値を下廻っていれば、検出信号は発生され
ず、受容野プロセッサ24は付勢されず、音声信号のそれ
以上の処理は禁止される。エネルギー検出プロセッサ22
と受容野プロセッサ24と第5−6図に関して以下に詳説
する。
韻の存在を検出する点が「音素推定を用いた音声認識回
路」と題する特開昭64−013595号公報に述べられた音声
認識システムより実行される2パス処理と異なる点であ
り、この点が改良点である。以前のシステム(以下、音
声認識システムIと称する)は音声信号を検査して、一
つの処理パス中の初めの子音又は母音の何れかの存在
と、他の処理パスにおける最終子音の存在とを検出する
ようになっている。何れのパスが検出信号を生成するか
に応じて、同音声信号は母音、初期子音又は最終子音プ
ロセッサによって更に処理される。かくして、音声認識
システム−Iは本発明で使用されるものの代わりに、そ
れぞれが音声信号を処理してそれを音韻の部分集合とマ
ッチングさせるようになった3個の受容野プロセッサを
必要とする。一方、本発明によるシステムは、モデル化
とデータ短縮を向上させることによって信号表現を可能
な音韻の集合全体と比較することができるものである。
号が発生されると、同時にエネルギー検出プロセッサ22
が、第5図について以下に詳説するように、ライン22B
上の音声信号の積分エネルギーに比例する信号を発生す
る。
同正規化器26は受容野プロセッサ24の出力も受取る。積
分エネルギー信号は上記適応正規化器26により使用さ
れ、第2のより高エネルギーのスレショールドを附与す
る。
出力から推定平均値を除去する。推定平均値はデータの
積分エネルギー準位がより高度の上記所定エネルギース
レショールド値を上廻る場合にのみ増分的に更新され、
相対的に大きなSN比を有する音声信号を表示する。その
ため、もしデータの積分エネルギー順位がスレッショー
ルド値を下廻る場合には、適応正規化器26は推定平均値
を更新することはない。何故ならば、かかる場合には、
その評価値は正確ではないかもしれないからである。適
応正規化器26の動作が積分高エネルギー信号を有するデ
ータに対する効果は、そのデータを長い「時定数」に渡
って指数関数的に減衰する適合手段に加えることにあ
る。
時間それ自体ではなく、入力ベクトルが適応正規化器へ
加えられる事例の数で測定される。数が大きいことは特
定話者が話しつづけていること、従って、音声とそれに
関係する音響チャンネルの特性はこの音声についてはド
ラスチックに変化しないことを意味する。従って、長い
時定数が使用でき、この音声と関連するデータの平均は
ゼロ近くに低下させることができる。
の事例は、新たな話者が会話を開始しようとすることを
示す。従って、話者及び/又は音響チャンネルの特徴は
まだ未知である。よって、比較的短い時定数が使用さ
れ、適応平均は急速に調整されて、データの平均値を可
能な限り零に減少する。この適応平均は新たな話者の種
々の音の発音に適合する様に、例えば、音響チャンネル
の質による差に適合するように調整される。適応正規化
の動作は第7図を参照して以下に詳細に説明される。
に加えられた後、別の非線形プロセッサ2 30に加えら
れる。それぞれ第8−9図と第10図について以下に詳論
する非線形プロセッサ28と30は、データを操作して、そ
れぞれ線形一次データ項と非線形2次、3次及び(又
は)4次データ項をパスさせる。これらの項はその後正
規化プロセッサ32にパスされる。正規化プロセッサ32は
データ正規化して、それらを2個の音声要素モデルのう
ちの最初のものに附与する。正規化プロセッサ32は第10
図に関して以下に詳説する。
メータ、即ち、展開データから作成される選択された音
声標識を使用して自らに加えられるデータを短縮する。
音声要素モデル1−1プロセッサ34は、かくして最も重
要なデータを更に処理するために選ばれる。音声が、そ
の成分に関連される各音声要素を含む可能性に関連する
利点を表わす短縮データは、その後ブロック36中で3個
のベクトルに鎖状結合される。プロセッサ36に対する加
えられる各入力ベクトルは一個の出力を生成し、同入力
は普通、先のベクトル入力と後続のベクトル入力とによ
って包囲される入力ベクトルから形成される。この出力
は零フィルタベクトルでも形成でき、この選択はエネル
ギー検出プロセッサ22からのデルタ時間信号22Cに依存
する。後続のベクトル入力を使用するとプロセッサ36内
に遅れがひきおこされる。それについては第12図につい
て以下に詳説する。
サ38へ加えられる。非線形プロセッサ3 38は計算集約
的な非線形処理によってデータを操作した後、同データ
を第2の音声要素モデル1−2 40へ附与し、同モデル
1−2 40は表8(第43図)にリストされた(後に音韻
同基準標本(isotype)と呼ぶ)音声要素を音声が含む
ことの評価値を発生する。音声要素モデルプロセッサ34
及び40はそれぞれ第11図及び第14図を参照して以下に詳
細に記述される。非線形プロセッサ338は第13図を参照
して以下に詳細に記述される。その後評価値は対数プロ
セッサ42に加えられ、それぞれに対する見込み比を計算
する。この評価値は更に単純化され、即ち、プロセッサ
44及び46内で再構成、積分され、語/句判断器に対する
データが準備される。音声要素モデル−1 34と−2
40とは、それぞれ第11図と第14図について以下に詳説す
る。非線形プロセッサ338は第13図について以下に詳説
する。
対数が計算され、音韻評価値は、プロセッサ44、46内で
更に簡単化される、即ち、再構成され積分され、データ
を語/句判断器14に対して準備させる。(第1図)簡単
化された評価値とエネルギー検出プロセッサ22からのデ
ルタ時間信号22C(第2図)とはその後、語/句判断器1
4に加えられ、同判断器14は音声に対して語又は句を附
与する。第14−18図について種々のプロセッサ42、44、
46を以下に詳説する。
プロセッサ18がまづアナログ音声信号をA/D変換器100で
デジタル表示に変換することによって音声信号のパワー
スペクトル評価値を計算する。A/D変換器100は従来設計
のものであるが、8kHzの割合で音声信号をサンプリング
して信号の振幅を表わす16ビットデジタルデータ信号an
を生成する。8kHzのサンプリング率は今日の電話産業規
格と一致する。
示すように128のデータサンプルの系列に区分される。
これら系列の各々は音声信号の12ミリ秒計画に相当す
る。系列は各々が要素bk,mを有するベクトルbm104と考
えることができる。bmベクトルは32のデータサンプルと
オーバラップするため、各bmベクトルは96の新たな要素
と先のベクトルからの32の要素を含む。次に、bmベクト
ルにより表わされる信号区画の平均値、即ち、D.C.値は
ブロック106で除去され、ベクトルcm108がつくりだされ
る。平均値は音韻評価においてほとんどあるいは全く価
値のない情報を伝える。
ポイント離散フーリエ変換(DFT)回路110へ附与され
る。この点までパワースペクトル評価プロセスは音声認
識システム−Iの音声要素プリプロセッサと同様であ
る。然しながら、DFTの結果の分解能を向上させるため
に本システム、64のデータ要素と64のゼロを使用すると
システム−Iとは対照的に128個のデータ要素を使用し
てDFTを実行する。
あって、従ってDFTの128のうちの65のみ(大部分が複素
数)の出力値dk,mが非冗長データを表わす。パワース
ペクトルは、かくしてDFT値dk,mにそれらの複素共役d
* k,mを乗じて計算し、それに対応する実数値ek,mをつ
くりだす。上記65の非冗長値はベクトルem114内に保持
される。データはかくして2分の1だけ短縮される一
方、音韻評価にとって最も重要であると考えられる情報
が保持される。
とバンド制限エネルギー回路118(第4図)に加えられ
る。フォンハン窓回路は従来通りスペクトルを「平滑
化」して時間領域の切捨てによるサイドロープを減少さ
せる。
クトルfmの種々の要素fk,mが結合され、戦略的に短縮
されたベクトルgm122がつくりだされる。短縮ベクトル2
1.5Hz〜359.75Hzの周波数レンジからの項を備える。こ
のレンジは電話回路通信を使用して受取られた信号に相
当する。
22について使用されるものと同じ周波数レンジ内のエネ
ルギーを含んでいる。先の音声認識システム−Iはこの
ようにバンド制限されていないエネルギー項ではなくそ
の代わりにスクトル全体の平均パワーであるエネルギー
を使用していた。平均パワーを使用して音声自体に由来
しないノイズが若干、エネルギー内へ導入される。
22と鎖状結合され、ベクトルpm126を形成する。かくし
て、ベクトルpmはデータ短縮周波数バージョンとエネル
ギー情報とを含み、大部分の場合、音声信号の中心バン
ド周波数を表わす。データをこのように短縮することに
よって、それ以降の計算のために特定値の情報を保持す
る一方、データを管理可能な大きさに短縮する。
pk,mの変化の絶対的大きさでなく相対的大きさの中に
存在する。従って、先の音声認識システム−Iにおける
ように、要素pk,mは全く正がゼロであり、1だけ増分
されて、その結果の対数はブロック128に示すように計
算される。ベクトルpm要素を1だけ増分することによっ
て、その結果得られる対数値はゼロ又は正となるように
なっている。(log21=0)その後、結果値qk,mは、エ
ネルギー検出プロセッサ22と受容スィールドプロセッサ
24へ加えられる。(第6図) 第5図はエネルギー検出プロセッサ22をブロックダイ
ヤグラム形式で示したものである。ベクトルgm130のエ
ネルギー成分、要素qo,mは積分回路132内で3倍単位時
間区画について積分される。各時間単位は上記に如く、
12ミリ秒の長さであるため、エネルギーは36ミリ秒にわ
たって積分される。もし積分されたエネルギーrmが所定
のスレッショルドを上廻ると、検出器134は音声の存在
を示す検出信号22A、smを発生する。検出信号smは、エ
ネルギーパラメータrmは添字mがモジューロ3演算でゼ
ロでなければならないから、3つの時間単位毎に多くと
も一回は発生することができる。
検出信号と先の信号との間の時間に相当するデルタ時間
信号(Δm)を生成する。デルタ時間信号は間隔抽出回
路138へ印加され、後者は時間信号Δn22Cを生成する。
関連するエネルギー抽出回路140は積分エネルギー信号t
n22Bを生成する。Δnとtnの信号は共に、第6図につい
て以下に論ずるように、5時間単位早い音声信号に対応
する。パラメータインデクスは“m"から“n"へ変化し、
抽出されたデルタ時間と積分エネルギー信号が音声信号
の一定区画のみ、即ちそれに対して検出信号が発生され
る区画に対して生成されることを強調する。
容野プロセッサ24へ印加される。積分エネルギー信号22
Bは第7図に示す適応正規化器26へ印加される。デルタ
時間信号22Cは、第12図は示すようなプロセッサ36の3
重ベクトルの構造と共に、第16図と第17図について以下
に論ずるような評価積分器46へ印加される。
容野202、即ち、信号区画12時間単位長をカバーする周
波数情報を含むqmベクトル群を組立てる受容野抽出回路
200を付勢する。検出信号は受容野の中心の信号区画、
即ち、5時間単位早い信号区画に対応するか、受容野マ
トリックス202中のm−5列に対応する。遅れはデルタ
時間とエネルギー検出プロセッサ22(第5図)によりつ
くりだされる積分エネルギー信号を、それに対して検出
信号が発生される信号区画をできるだけ近くに心取りす
る受容野と同期させるために必要である。受容野は比較
的大きく、12時間単位であるため、検出信号をせいぜい
3時間単位毎に1に制限する際に情報は失われない。
クトルの数対を平均化する。即ち、要素qo,m−11とq
o,m−10は平均化され、要素qo,m−9とqo,m−8は平
均化される等である。この処理によってデータは2分の
1だけ短縮し、マトリックスUn206を生成する。パラメ
ータインデクスはふたたび“m"と“n"へ変化し、受容野
と積分エネルギーは信号が音声信号の一定の区画に対し
てのみつくりだされることが強調される。
わたって平均化することによって3分の2だけ短縮す
る。短縮されたデータはその後非線形処理に附される。
然しながら、本システムを使用すれば、マトリクス要素
を2つの時間単位について平均化しそれ以上のデータを
保持することによってすぐれた分解能が得られる。受容
野非線形プロセッサ28内でのデータ短縮の改善(第8図
と第9図に関して以下に論ずる)のために「余分の」デ
ータがプロセス中のこの時点で保持される。
器26に附与される。適応正規化器26は、固定パラメータ
平均uijを減算しその後固定パラメータ標準偏差σijに
より除することによってマトリクスVnをつくりだす。固
定パラメータ平均値と標準偏差値とは第19図について以
下に論ずるような開発データベースから計算される。
データのそれと十分近似していれば、「正規化」された
マトリックスVn210はゼロに近い平均値を、1に近い標
準偏差値を有する。然しながら、進入する音声信号の統
計は開発データベース内のデータのそれよりも幾分異な
っている可能性がある。事実、開発データベースからの
個々のボイスサンプルは総体としてのそれらの異なる統
計を備えている可能性がある。それ故、個々の音声信号
については、我々は、マトリックスVnがゼロと異なる平
均値を、1と異なる標準偏差値を備えていることを予期
できる。従って、第7図の回路内に一層の適応正規化が
行われ、少なくともその平均値がゼロ方向に減衰できる
ようにしている。
ルギーtn22B(第5図)が所定値を上廻りSN比が高く従
って有音声を示す音声信号区画に相当するならば、デー
タはブロック212−218内でそれらの適応平均値を計算し
た後、その平均値をブロック220内で減算することによ
り更に処理される。まづ、データは、ベクトルwn214を
生成する回路を平均化するさいに時間について、即ちマ
トリクス行について平均化される。かくして、ベクトル
wnは信号周波数情報のみを含む。この情報は話者の声と
音響チャンネルを適切に特徴づける。これらの特性は時
間については、殊にマトリックスデータに対応する時間
については著しく変化してはならない。このようにデー
タを時間について平均化すると、それらは105パラメー
タ、即ち、マトリクスVnの105の要素から21のパラメー
タ、即ち21のベクトルwn要素へ短縮される。
加えられる。かくして指数関数形平均化回路216は、エ
ネルギー検出プロセッサ22(第5図)で計算された積分
エネルギーtn22Bをエネルギー検出プロセッサ22内で使
用される検出スレショルド値よりも高い所定のスレッシ
ョルド値と比較する。かくして、平均化回路216は何れ
の信号区画が高いSN比を有するか、即ち、何れかの区画
が大きな音声成分を有するかを検出する。
上廻らなければ、適応平均ベクトルx′n218は、それが
先の事例x′n-1であった状態にとどまる。この場合、
指数関数平均値は、以前通りブロック220内で減算され
るが、平均値それ自体は適応しない。しかしながら、平
均値それ自体は変化しない。ボイススレッショルド値を
下廻るエネルギー値を有する信号区画は、一方では、無
音声の摩擦音韻又は鼻音韻に相当するが、同時に他方で
は、話者による呼吸や、特に呼吸群の終りのその地の静
騒音に相当する。かかる低エネルギー信号区画は音韻を
認識する目的でベクトルwn214の平均値を特徴づける上
では信頼がおけないかもしれない。
比較した時には短い期間を用いて指数関数形平均化を実
行する。そのため平均化は単一の音韻に関連するデータ
に対しては大きな影響を及ぼさないが、複数の語又は句
に関係するデータの平均値は実際にゼロに近くに短縮す
る。
に長さに依存する。殊に、指数関数平均化は、十分なエ
ネルギーを有する例えば100の受容野に対応する短い期
間、(ほぼ3.6秒)又は十分なエネルギーを有する例え
ば300の受容野に対応する長期の期間(ほぼ10秒)の何
れかについて実行される。時間の長さは積分エネルギー
信号22Bがボイススレッショルドを上廻った時間数、即
ちtn≧25に依存する。システムが新たに話者に出会う際
には、より短かな期間が使用される。それ故、システム
は話者の特徴と音響チャネルの特性にすばやく適応す
る。その後、システムは長い方の期間を使用して話者の
音声を処理する、何故ならば、話者の声の特徴と音響チ
ャネルの特性とは比較的一定と想定されるからである。
了すると、適応平均ベクトルはマトリクスVn210要素
(ブロック220)から減算され、マトリクスXn222をつく
りだす。長時間に対応する有音声を含む音声信号を表わ
すマトリクスXn中のデータの平均値は今度はゼロに近く
なる。次に、マトリクスXnは第8図と第9図のブロック
ダイアグラム中に示す受容野非線形プロセサ28に加えら
れる。
対応する非線形処理と比較すると、第8図と第9図の非
線形処理はそれより少ない非線形要素を計算する。第8
図と第9図の以下の所論より明らかになるように、計算
される要素数の減少は時間依存性の局面を表わす多くの
非線形積は処理するが異なる周波数成分どうしの間の相
互作用を表わす大部分は保持することによって行われ
る。即ち、我々は音韻識別にとっては後者の積の方が前
者よりもずっと重要であると考える。その結果、我々は
初期の処理においてより多くのデータを保持することに
よってより高度の分解能データを我々が実際に計算する
より重要な非線形積の計算に供給することができた。
の要素はブロック224−234において一次項として組合わ
されると共に特有の部分外積としても組合わされる。本
質上、一次項と部分外積は重要野の時間次元について加
算される。これら特殊積は音声信号に関する一定の情報
を伝える一方、データをもし連続した外積、即ち、異な
るマトリクス要素対の積が全て計算された場合のデータ
より相当少なくともするように設計される。初期の音声
認識システム−Iは処理のこの点で連続した外積を計算
するため、データは先の処理中に相当短縮されることが
必要である。他方、本システムは、この非線形処理ステ
ップのためにこの時点までより多くのデータを保持する
ことができるため、入力データの優れた分解能を維持す
ることになる。
する。各ベクトル群はベクトルy,n、ze ,nおよびz,nを
含み、異なる時間遅れと関連するy,nベクトルは2つの
関連する“z"ベクトルを形成する際使用された項の一次
組合せであるデータを含む。ze ,nベクトルはエネルギー
を用いて形成された一定の部分外積を組合わせる結果、
又は種々のマトリクスXn222例内の第1項群を含み、Z
ベクトルは非エネルギー又は周波数を用いて形成された
特殊な部分外積の結果、マトリクスXn例の項を含む。こ
れらのベクトルの各々の形成は以下に論ずる。
行われる。一音韻は一つの受容野内では「静止」してい
るためその受容野内の所与の周波数列の位置は有益な信
号情報をあまり伝えないものと仮定する。然しながら、
受容野の時間窓について平均された周波数列の非線形組
合せは音声認識に有益な情報を現に表わす。
ベクトル群が形成される。それ以上の時間差についての
ベクトル群は、より大きな時間差に対する分散に関する
情報は殆んど重要ではないと思われるから、計算されな
い。
ック224−228(第8図)で形成される。ブロック224
は、マトリクスXn222の列の全てにおける最初の要素を
共に加算することによってベクトルy0,nの第1の要素
を生成し、全列内の第2の要素を共に加算することによ
って第2のベクトル要素を生成する等である。従って、
ベクトルy0,nはその要素として時間について合計され
たマトリックスデータを有する。
の第1の要素であるマトリクスエネルギー項を用いて形
成される。ブロック226は各列について同一例中のエネ
ルギー項とその他の全ての要素の積を形成する。積はそ
の後合計されてベクトルze 0,nの要素を形成する。ベク
トル要素はかくして一定時間について合計されたエネル
ギー積となる。
0,nはブロック228で形成される。このブロックは、マト
リクスXn222周波数要素中の、即ち1列中の全要素中の
積を第1のものは除き全て形成する。この場合、これら
の積を全て別々にとって外積を使用することができよ
う。その代わり、これらの積から自己相関におけるもの
と類似の和が形成される。この和はそれが単一列の周波
数要素内から形成されるためにブロック228内で「自己
積」と称される。この自己積はその後時間を経て、ある
いは全列にわたって合計される。全外積の代わりに周波
数例内に自己積を取り入れると、出力ベクトルはもし全
外積が計算された場合にとる値よりも戦略的に小さくな
る。このため、非線形プロセッサはより多くの信号周波
数データ、即ち高い周波数分解能を有するデータを含
む、より大きな入力ベクトルを処理することができる。
すブロック230−234内で計算される。ベクトルy,nは2
つの関連する“z"ベクトルを形成する際に使用される全
要素の線形組合せを含んでいる。かくして、1の時間差
(Δ=1)については、ベクトルy1,nは1列離れた要
素全体、即ち隣接する列の要素全体の組合せを含む。同
様に、時間差2と3のy,nベクトルは、少なくともそれ
ぞれ2、および3列離れた要素全体を組合せることによ
って形成される。
ス要素と結合することによってブロック232内で形成さ
れる。同様にして、ベクトルz1,nはブロック234内で1
列離れた周波数要素を結合することによって形成され
る。かくして、“z"ベクトルは適当な時間差に関連する
列からエネルギーと周波数項の一定の組合せを表わす要
素を含む。同様に、時間差2と3(Δ=2、3)につい
てのベクトル群は、それぞれ2列と3列離れた要素を組
合せることによって形成される。
から周波数項の積全体を結合することによって形成され
る。上記積は、周波数ベクトルどうしの間の相互関連の
それと同様に合計される。ブロック234内の和は、周波
数要素と2個の異なる列間で形成されるため、「クロス
乗算」と称される。このクロス乗算は、その後一定時間
にわたって、即ち時間差Δに追従する数対の列全体にわ
たって合計される。更に、戦略上ブロック234のクロス
乗算をとると全外積が計算された場合に得られるものよ
りも出力ベクトルが小さくなる。この場合、入力ベクト
ルは大きくすることができる。
れ、データの非線形表示である431要素ベクトルan238が
形成される。ブロック236中の上付き文字“T"は、ベク
トルを書き換え転置したことを示す。
相互作用を作り出すが、別の非線形関数を乗算に使用す
ることが出来ることに留意すべきである。重要な特徴は
数種の非直線相互作用が発生するということにある。我
々は単に実行が容易であるという理由で乗算を採用して
いる。
ッサ2 30(第2図)に加えられる。ベクトルanの要素
はまづ相関関係を解かれ、それらを固有マトリクスE26
により乗ずることによりデータ短縮される。固有マトリ
ックスE26は第22図に示すように開発データベースから
形成される。固有マトリクスE26はベクトル群に対応す
る開発データから計算された26の最大固有値に相当する
固有ベクトルを含む。かくして、anを固有マトリックス
によって乗ずると、データは最大分散を表わすものとし
て選択された26の固有ベクトルの方向に位置するan成分
に還元される。
内の26の要素へ短縮される。そのようにデータを短縮す
ることによって、我々は信号分散に関係する情報の約4
%のみを失う。従って、(i)完全な信号情報を保持す
ることと(ii)が非線形処理、従って、幾何学的展開に
付されるパラメータ数を制限することとの間の妥協は重
要な信号情報の多くを犠牲にすることなく実現するとこ
ができる。我々は、最大固有ベクトルに相当する情報を
選択することによって一層の処理後に音韻認識にとって
最も重要な情報を選択することになるものと確信してい
る。
固有パラメータ正規化−2ブロック244内で正規化され
る。ブロック244内に示す平均値μkは開発データベー
ス中の26の要素ベクトルbn群内の相当する要素から形成
される。平均値の形成は、第23図に関して以下に詳論す
る。かくして、進入する音声信号について発生したベク
トルbnの26の要素は開発データベース中の対応する要素
の平均値と比較される。実際の値ではなく総体的なデー
タ値が音韻評価にとって重要である。平均値は、ほとん
ど情報を追加しないからベクトル要素から除去される。
この正規化処理のステップは以後の実施例からは省略す
ることができる。
その後ブロック248内で形成される。その結果は、適応
受容野アトリクスXn222(第7図)に対して第3次と第
4次項を含む351要素ベクトルdn250である。このベクト
ルdnはベクトルan238の要素と鎖状結合され、782要素ベ
クトルen254を形成する。鎖状結合されたデータは、そ
の後正規化プロセッサ32(第11図)に加えられる。
り、これは非線形結果を生じるのに最も簡単な方法であ
るからである。他の非直線関数をこの目的のために同様
に使用することができる。
56内で別の固定パラメータ正規化処理に付される。その
後、データはベクトルfn258内でベクトル毎の正規化に
附される。即ち、それぞれの個別ベクトルfnは正規化さ
れることによって、その782要素を横切る平均値がゼ
ロ、標準偏差が1となるようになっている。結果として
得られる正規化されたベクトルgn262は音声要素モデル
−Iプロセッサ264へ加えられる。かくして、データは
一組の音声要素評価値に還元される。各評価値は表(第
43図)内の標識の一つに対応する。それ以降の非線形処
理はその還元データに対して行われ、どの特定音声要素
をデータが表現しているかをより良く評価することがで
きる。
ベクトルgn262にカーネルK1を乗ずる。カーネルK1は開
発データベース内のデータを使用して計算される特殊音
声要素標識に関するパラメータを含んでいる。これらの
標識は表7(第42図)にリストされている。カーネルK1
の形成は第28図に関して以下に論ずる。カーネルK1によ
る乗算はベクトルgnに94のベクトルの各々を効率的に乗
算する。94のベクトルの各々は表7にリストされた異な
る音声要素と関連している。この乗算はベクトルhnを発
生し、このベクトルの成分は特徴として94桁であり、各
々は音声がそれに関連する音声要素を含む確率に関係し
ている。かくして、音声要素モデル−1プロセッサ264
は進入する音声信号に関するデータを、即ちベクトルgn
を、戦略的に782要素から94要素へと短縮する。
に示すプロセッサ36中で先に2つの期間からのベクトル
と鎖状結合される。同様に、プロセッサ36には第5図か
らのデルタ時間信号22Cが入力される。殊に、ベクトルh
nとデルタ時間信号22Cとは共にそれぞれバッファ300aと
300bに附与され、そこで先の2つの期間に対する値がそ
れぞれストアされる。かくして、2個のバッファは同じ
3つの時間単位長の期間に関する情報を格納する。
ルタ時間信号に相当するならば、我々は上記ベクトルが
オーバーラップしない受容野より導出されるものと想定
する。長いデルタ時間信号に対するベクトル、即ち、バ
ッファ内の第1又は第3のベクトルのいずれかについて
の情報を殆ど又は全く追加することはないであろう。そ
の情報は音韻評価を中心ベクトルhnに割当てる上で役立
つものである。従って、対応するベクトルは、全てのゼ
ロと置換される。このため、ベクトルpn306を構成する
ブロック304内で鎖状結合された3重ベクトルは非連続
データを含まないようになる。3重ベクトルpn306は、
かくして、3つのオーバーラップ受容野から導出される
連続信号音声中の拡大「窓」をカバーする。続くモデル
化において、大きな窓と関連する特殊音韻標識は中心受
容野のそれであり、認識される音韻はその大きな窓ので
きるだけ中心に位置するようになっている。例えば、
“thousand"(サウザンド:千)という単語の“ou"(ア
ウ)のように、多くの音韻は比較的長期間にわたって、
より明確に聞き取れるため、この大きな窓を用いてより
容易に認識されるはづである。然しながら、もしシステ
ムが早口の音声に相当する音声信号を受取る場合には、
時間間隔が長いと一つの窓につき一個以上の音韻が生ず
る可能性がある。一層の非線形処理と音声モデル化によ
ってシステムはかかる音韻を認識分離することが可能に
なる。
時間窓を大きくすると受容野の大きさ、即ち、関係する
期間を大きくする場合よりも音韻認識にとってより効果
的である。即ち、受容野によりカバーされる期間を大き
くすると、データの分解度が同一である限りパラメータ
数が増加する。その後、システムが処理しなければなら
ないパラメータ数を不当に大きくせずにより大きな受容
野を用いて非線形処理を実行するには、データの分解度
は、時間単位であれ、周波数分布についてであれ、小さ
くしなければならない。受容野期間を長くせずに、処理
のこの時点で、即ち、第1の音声要素モデル化ステップ
が特定の音声要素に関するデータを短縮した後に長くす
ると、システムはデータパラメータ数を不当に増加した
りデータの分解能を低下させたりせずに進入する音声信
号の長い区画を表わすデータを観測することが可能にな
る。
大することによって初期の音声認識システム−Iの前後
関係依存標識の幾つかを除去することができる。音声認
識システム−Iは前後関係によって音韻標識を変更す
る。例えば、もし一つの母音の直前に無音声子音又は有
音子音が先行する場合には、その母音の標識はそれに従
って変更されることになろう。その結果、音韻標識、殊
に母音のそれは増加する。本発明のシステムでは、然し
ながら、大多数の音韻は一つの標識しかもたず、データ
の非線形形が大きくなると音韻標識の前後関係は語/句
判断器14に伝えられる。(第1図)判断器内にストアさ
れる標識数、従ってスペリング数は、相当少なくなり、
適当な語句をサーチする速度はスピードアップする。
ベクトルpm306は、第3の非線形プロセッサ3 38へ附
与される。この非線形プロセッサは、2つの相異を除い
て、第10図に示す非線形プロセッサ2 30と同様であ
る。まづ、この場合には何ら固定パラメータ正規化は行
われない。第2に、しかもより重要な点であるが、この
場合スレッショルド値が存在する。
ロック308内でのスレショルド値と比較される。上記ス
レッショルド値はゼロにセットされる。ベクトルpn306
は各音韻の可能性の評価値を含んでいる。そのためゼロ
を下廻るベクトルpmの一要素は、音声要素モデル1−1
264(第11図)により処理されたばかりの音韻が鎖状
結合窓中に相当する位置には生起したことはありそうに
ないことを示す。
る。即ち、ベクトルpn306がブロック312内で固有ベクト
ル成分に分解された後、ブロック316内の外積を通過す
るために、ベクトルの大きさは著しく拡大するためであ
る。ベクトルサイズの拡大は、続く処理において相対的
に大きな数のパラメータがベクトルの処理に捧げられる
ことになるとういことを意味する。そのため、ベクトル
サイズの拡大前に出来るだけ大きな情報をもったベクト
ルを形成するように注意を払うべきである。パラメータ
を最も効率的に活用するためには所与の時間に生じなか
ったと思われる大多数の音声要素のモデル値を無視する
がよい。これらの音声要素は、ゼロを下廻るモデル値を
有する。従って、スレッショルド値308を使用して、更
なる非線形処理に付されるものは、生起した可能性のあ
る音声要素と関連するモデル値によって特徴づけられる
ようになっている。
上廻るベクトルpn306成分は、データをブロック312内の
固有マトリクスE33により乗ずることによって戦略的に
相関関係を解除され短縮される。固有マトリクスE
33は、以下に第29図に関して詳論するように、ベクトク
qn310に対応する、開発データベース内のデータから計
算された33の最大固有値と関連する固有ベクトルから形
成される。かくして、データは33の最大固有ベクトルの
方向に位置するデタの成分のみを更に非線形処理すべく
選択することによって短縮される。信号情報の保持と非
線形処理に付されるパラメータ数の縮減との間の妥協に
よって、この処理時点で信号分散を説明する情報のほぼ
50%が保持される一方、非線形処理に付されるパラメー
タ数は282から33へ減少する。
ク316へ附与され、そこで完全な外積が形成される。外
積の結果はその後、ベクトルpn306と鎖状結合され、843
要素ベクトルtn320が形成される。このベクトルは、ベ
クトルpn306の全成分だけでなく、高次の非線形性を備
えた項を含むため、スレショルド値を下廻るデータだけ
でなく、それに対して非線形プロセッサ3が処理を施し
たデータを格納している。
いうことでステップ316で乗算を採用する場合、他の非
線形関数をこの目的に採用することが同様に可能であ
る。
の音声要素モデル−2プロセッサ232へ附与される。音
声要素モデル−2プロセッサは、データを音韻固有のカ
ーネルK2により乗じてベクトルun324をつくりだす。カ
ーネルK2は第43図の表8にリストされた音声要素(以下
「音韻同基準標本」と称する)に対応する要素を有す
る。ベクトルunは音声要素(音韻同基準標本)評価値を
含む。カーネルK2は、以下に第32図について述べるよう
に開発データから作成される。音韻同基準標本が以下に
詳述される。
る。第11図を参照して上述されたカーネルK1は、カーネ
ルK2を使用するモデルに対するよりも単純な音声要素の
集合を表わす要素を含んでいる。これらの音声要素は第
42図の表7にリストされている。例えば、カーネルK1は
音声要素“b"に対応する要素を含み、各要素は“b"の発
音でそれが先頭であるか否かにかかわらず発生する。br
idgeの“_b_"等はカーネルK1を使用してエントリ“b"に
マップされる。カーネルK2は先頭の“b"と、bridgeの
“_b_"等とを識別するエントリを含む。カーネルK2に関
連する音声要素は第43図の表8にリストされている。
サ42に附与され、同プロセッサ42は、それぞれの評価値
をその音声要素が存在する確率の対数に変換する。各音
声要素の確率は、その音声要素が存在しない時とする時
との評価値の分布状況が正常であると仮定して計算され
る。対数によって、データに対するそれ以降の数学的演
算がその後、時間のかかる確率比の乗算でなくて簡単な
加算として実行できることになる。
第15図の音韻評価再構成プロセッサ44へ附与される。上
記再構成プロセッサ44はデータを語/句判断器14により
取扱い容易な形式に処理する。(第2図)上記再構成ス
テップの若干は、望ましい例で使用される特殊な語/句
判断用にデータを処理するように設計されている一方、
音声要素評価値を再構成することによって行われるデー
タの簡単化と整理は、システム内にどのような語/句判
断器が使用されるかに関わりなく、適当な語句の判断を
簡単化することができる。
って各音声要素が一つの標識によってのみ表現されるよ
うになっている。従って、語/句判断器14は、各々の語
句につき特定の音韻と一つのスペリングを表示すること
によってストアしソートすればよい。
連する評価値を含むべきである。然しながら、ベクトル
のうちの若干は表8(第43図)に提示するように2重評
価値を含んでよい。かかる音声要素評価ベクトルは第15
図のブロック330では構成音韻に分割されている。2重
音の第1の部分の評価は時間と共に逆移動し初期の信号
区画から信号に加えられ、2重音の第2の部分の評価は
時間と共に前進移動し、後の時間区画内に存在する任意
の信号データへ加えられる。音韻の順序が重要である一
方、音韻の時間配置はそうではない。多くの語及び音声
は36ミリ秒の単位時間長の数時間から最小になる。それ
故、2重音を構成音韻へ分離し同音韻を時間と共に移動
させてもその評価の語句に対するマッチングには影響を
与えることはないであろう。
要素はブロック334で語/句を発音するために必要な最
小の組の音声要素(以下、「音韻正基準標本(holotyp
e)」と呼ぶ)に短縮される。これら音声要素は第44図
の表9にリストされている。例えば、音韻の全ての最終
及びブリッジ形態はそれらの初期の形態にマップされ
る。かくして、個々の音韻スコアは結合されて、マイナ
ススコアは無視される。
韻評価積分器46へ附与される。(第16−18図にブロック
線図で示す。)第16図について述べると、所与の音韻に
対するスコアは、ブロック338内でエネルギー検出プロ
セッサ22(第5図)からの関連するデルタ時間信号22C
と共に一定時間にわたってグループ化される。ブロック
346はグループ化における絶対時間のトラックを保持す
る。一つの所定音韻に対するスコアはその後ブロック34
4、348(第17図)において一つの時間位置へ整理統合さ
れる。
コアがブロック348内の最も近い「セントロイド(重
心)」時間、即ち、特定の音韻が発さられる加重期間の
中心を示す時間と等しくされている。この期間内の時間
は音韻評価値により重みをつけられている。その後、そ
れと関連する音韻標識コード、音韻評価値、および生起
のセントロンド時間が、ブロック352中に示すようにメ
モリーの1ロケーション内にストアされる。メモリは第
18図のブロック352によりアクセスされ、正確な時間順
序を与えるように生起のセントロイド時間により入力が
順序づけられる。出力音韻評価Cm358と、それに関連す
るデルタ時間値dmは、その後、語/句判断14(第1図)
によりアクセスされる。添字は“n"から“m"へ再度変化
して、第18図の出力が入力のタイムベースと異なるタイ
ムベースを有することを示す。
よりつくりだされる音韻評価の再構成と整理統合は“ye
sterday"という単語の処理を考案することによって図解
されている。音声が標本化される音声要素の集合は部分
集合を含み、各部分集合は全てが信号音韻「正基準標
本」の同基準標本と呼ぶ音声要素から成る。例えば、表
8の音声要素“_v","_v_"及び“v"は全てこの“v"の場
合における同じ正基準標本の同基準標本である。音韻同
基準標本評価標識はノイズや悪評価は無視して音声要素
モデル1−2プロセッサにより音声に付与される。即
ち、J;j;jE;E;_s;isol.t;tR;R_d;_d_;deI;eI;である。
している。これは音韻が明瞭に分節された音声中に現わ
れるやや概略化した例である。リストした要素の各々
は、それぞれが検出された受容野に対応する音声内の隣
接窓中に出現するであう音韻を表わす。セミコロン内の
標式が同じ窓内で発生する。
音されたかのように“j"に先行する。上記“j"は更に2
重音“jE"内にわたり出現する。次の窓は母音“E"を反
復する。“s"の最終形は“_s"の如く次に出現して、摩
擦音の前に何か有音声が聞きとれるが特定の母音として
識別するには十分でないものが存在することを示す。無
音声stopの“t"は、この場合、その分離形“isol.t"で
まづ表現され窓中には何れの有音声も聞こえないことを
示し、その後その初期の形“t."で表現される。次の窓
は2つの音韻を含むが、もう一つの音韻頭の“t"と音節
主音の“R"であって、後者は次の窓で反復される。次に
まづ“d"が音節末尾音の“d"として現われ、その後その
“橋渡し”形の“_d_"として現れた後、音節初頭の
“d."として現われる。上記橋渡し形は窓中に“R"と音
節最後の母音“el"からの有音声を含んでいるが、それ
らの各々はそれらを同一の窓の中に橋渡して標準化する
ことを正当化するには十分ではない。音節最終母音は繰
返される。
係する音韻同基準標本評価値を含むことができる。これ
ら評価値は、典型的にはより小さい確率数を有してお
り、発生語又は句に対応する音韻評価値と共に処理され
る。これらの「雑音」音韻同基準標本の影響は音韻評価
値を処理するのに語/句判断器10(第1図)が費やす時
間の増加である。
てブロック330(第15図)は2重音“jE"をその構成音韻
に分割している。即ち、 J;j;j;E;E;_S;isol.t;R;R_d;_d_;deI;eI;である。
に置き換える。
韻正基準標本のデータが処理される。その結果、多数の
事例が除去されるようになっている。
れの音韻はこの場合、あたかもそれが一つの生起セント
ロイドタイムで生じたかのように処理されている。これ
らのセントロイドタイムは最早、モジュロー3の検出制
約には委ねられない(ブロック134、第5図)。然しな
がら、種々の標識の順序はその単語の正確な音声通りの
スペリングを確保するために保持される。同じ語又は句
で考慮されるに十分近い音韻のみが統合される。
一の窓に割り当てられる点に注意されたい。このことは
2個の音韻の生起のセントロイドタイムが十分に近接し
ている場合に生ずることなになろう。
成は第19−35図について論ずる。第19図は適応正規化器
26(第7図)内に進入する音声に相当するデータを正規
化する際に使用される固定パラメータμi,jとσi,jの計
算を示すものである。処理全体を通して使用される固定
パラメータと平均値と標準偏差値を含めて、開発データ
ベース中のデータを使用して計算される。
上記の公知の音声信号は音声プロセッサへ印加され、第
3−18図に示すような固有ベクトルを計算する。その
後、処理の種々の時点でそれと関連する音韻を特徴づけ
る上で有益な種々のパラメータが開発データベース全体
について計算される。これらの計算された、又は固定さ
れたパラメータそその後未知の音声を表わす進入信号に
対して音韻評価値を計算する上で使用される。
μi,jが計算され、“N"マトリックスUn206のμi,j,nは
開発データから作成される。まづ、開発データ内のUnマ
トリクスの各々から対応する要素が平均化され、種々の
平均計算値を要素して有するマトリクスμ402が得られ
る。次に、マトリクスUnの対応要素の標準偏差値σi,j
が関連する平均値μi,jを用いて計算され、種々の計算
された標準偏差値を要素として有するマトリクスσ404
が得られる。固定平均パラメータと標準パラメータとは
その後、適応正規化器内で使用され、進入する未知の音
声のために作成されたマトリクスUnの各要素を正規化す
る。
れる共分散マトリクスR410を定義したものである。開発
データ用に作成したN入力ベクトルan406に対応する共
分散マトリクスRはブロック408に示すように計算され
る。その後、共分散マトリクスRを使用して第21図に示
すような固有ベクトルとそれに関連する固有値を計算す
る。
算され、順序づけられる。その際、ベクトルb0(414か
ら)は最大の固有値を有する固有ベクトルであり、bA-1
は最小固有値を有する固有ベクトルである。その後固有
ベクトルはそれぞれ対応する固有値の平方根によって除
することによって正規化し、ベクトルb′n420をつくり
だす。第1のB正規化固有ベクトルは、即ち、最大のB
固有値に相当するB正規化固有ベクトルは固有マトリク
スEB424に組み立てられる。固有マトリクスEBは定義
上、正方形マトリクスである必要はない。ブロック422
内の肩文字“T"はベクトルの転置を示す。
る固有マトリクスE26432の計算を示す。固有マトリクス
E26は第21図に関して説明される計算方法を使用して計
算される。固有マトリクスの計算に必要な共分散マトリ
クスR410は、第20図に示すように、開発データベースか
ら作成される。その後、最大の固有値と関連する26の固
有ベクトルを格納する固有マトリクスE26を使用して、
非線形プロセッサ2(第10図)のブロック240中の進入
音声に関するデータの相関関係を解除する。
(第10図)に使用される平均値の計算を示す。プロセッ
サ244は選択した26の固有ベクトルと関連する26のデー
タ要素を正規化する。かくして、N開発データベースベ
クトル(ベクトルbn242に相当する)の要素の平均値が
計算される。
正規化−3プロセッサ256に使用されるパラメータの計
算を示す。開発データベース内の対応するNベクトルen
254の平均値と標準偏差値とが計算値され、計算された
平均値を含むベクトルμ440と、計算された標準偏差値
を含むベクトルσ442が得られる。
声信号S(t)の区画は抽出されて“窓”をベクトル
S′n446により表わされる音声に形成する。窓は時々、
同様にベクトルhn266(第12図)により表わされる受容
野マトリクスUn206(第6図)の時間幅と対応すること
もあれば、以下に議論される様にベクトルpn306(第12
図)により表わされるオーバーラップ3重ベクトルの時
間幅に対応することもある。前者の時間幅と入力音声信
号S(t)の1184のデータサンプルに相当し、後者の時
間幅は1760の同様なサンプルに相当する。第25図のブロ
ック444は長い窓の抽出を示す。もし短い窓を選択する
と、窓は要素S′880,nの廻りに集中する1184のサンプ
ルにより構成されることになろう。窓の形にされた音声
は、その後、ブロック448に示すようにその音声を聞く
人によって音韻と関連づけられる。音声を聞いている人
は、そのためかかる窓をそれぞれ自分が聞く特定の音韻
を含むものとして注意することになる。
える音韻数と、音の明瞭性とに依存する。窓が長い場合
の音韻は聞きとりやすいことが多いが、そうすると一つ
の窓に多くの音韻が導入され、従って、マークするさい
の曖昧さが多くなる。このように、その選択は聞こえる
音声の明瞭さと合成標識の時間分解度との間には相背反
しあう関係が生ずる。もし短い窓について全てのマーキ
ングが行われれば、標識は音声要素モデル−1 264
(第11図)により使用される音声の時間幅に対応するこ
となろう。標識はこのモデルに「マッチ」するであろう
が、音声要素モデル−2 322(第14図)には「ミスマ
ッチ」することになろう。同様にして、もし全てのマー
キングが長い窓について行われれば、標識は第2のモデ
ルにマッチするであろうが、第1のモデルにはマッチし
ないであろう。理想的にいえば、標識は、それらが使用
されるモデルに常にマッチし、聴者は2つの完全な標識
集合を生成することになろう。然しながら、窓の幅が異
なる場合に聞こえるもののうちには大きな共通性があ
る。音声をマークする負担を軽減するために聴者はそれ
ぞれの標識事例について窓時間幅を最大限有利に選択す
ることができる。
す。もし2個の音韻が一つの窓の中に聞こえると、それ
らはブロック450中に示すように2重音標識にマッピン
グされる一対を構成することができる。もし一つの音韻
のみしか一つの窓中に聞こえなければ、その音韻はブロ
ック452中に示すように別個の音声要素にマッピングさ
れた無音子音のうちの一つであり得る。もし2つ以上の
音韻が聞こえると、数対の音韻が2重音標識にマッピン
グされて、他のものは単一の音韻にマッピングされるこ
とができる。この最後の場合、もし窓が長いものあれ
ば、音声をマーク中の人物は短い窓を選択し、更に一つ
の窓で聞こえる音韻数を減らして聞くことができる。マ
ッピングはマーキングが完了して後に自動的に行われる
結果、聴者により入力される実際の標識は保存される。
標識が示されている。これら音韻標識は一部は経験に基
づいて選択される。例えば、経験によれば、特定の音韻
が別の音韻に続いて現れることがあることが知られてい
る。これら標識の幾つかはその後洗練して例えば順序立
った音韻と(又は)幾つかの音韻の組合せを2重音へ包
含する。処理全体を通して使用される標識の数は先の音
声認識システム−I内に使用される標識数よりも大き
い。かかる多数の標識が使用されるのは、一つの音韻の
開始、従って処理の開始を指示するためにトリガ機構が
活用されるような以前のシステムと異なって、本システ
ムは信号区画窓内の何処にも一つの音韻を検出でき、処
理を例えば一つの音韻の中間で開始できるためである。
かくして、システムより多くの標識を使用して、その後
の処理のために検出音韻の前後関係をい耐えることにな
る。
された標識がブロック454中にコーティングされた標識
ベクトルLn456を形成している。標識ベクトルLn456は、
ブロック450と452内に発生する新たな音韻標識と共に表
1(第36図)に示す94の可能な音韻標識のそれぞれを表
わす要素を含んでいる。その結果生ずるベクトルは区画
内で聞こえる音韻標識用の1の要素と、聞こえない音韻
標識について0の要素を備えている。その後標識ベクト
ルは第27図に示すパラメータ開発回路に付与される。
に使用される固有マトリクスE462とカーネルK470の計算
を示す。共分散マトリクスRが開発データベースベクト
ルgn262について計算される。ベクトルgnは信号データ
表現であって、その後音声モデル−1 34(第11図)に
付与される。計算された共分散マトリクスRはその後、
第21図に関して上述した計算に続いて関連する固有マト
リクスEを作成するために使用される。
れ、相関関係を解かれたデータ短縮ベクトルhn466が形
成される。相関関係を解かれたベクトルhnは、ベクトル
gn中の音声データの782の要素に対して、650の最大固有
値と関連する650の要素を有する。かくして、パラメー
タの数は戦略的に縮減され、音声認識にとって最も重要
なデータが保持される。保持された情報は信号分散のほ
ぼ99.97%に関する情報を含む。この時点でデータを縮
減すると音韻評価で重要な情報の多くを犠牲にせずに関
連するカーネルK470と共に結合カーネルKの大きさをよ
り管理可能な大きさに縮減できる。
K470を計算する。カーネルKの要素の各行Kijは標識ベ
クトルLn456の対応する要素にベクトルhnの要素で乗ず
ることによって形成される。標識ベクトルLn456の要素
は、開発データベース内のN標識ベクトルの要素から作
成された平均値を減ずることにより正規化され、その後
乗算処理が施される。
る。上記カーネルはその後第28図に示すように“結合”
カーネルK1476を計算するために使用される。カーネル
Kは、まづその要素の各々を関連する標準偏差値によっ
て除することよって正規化され、K′かつくりだされ
る。正規化されたK′はその後、固有マトリクスE462と
なる。結合カーネルK1はその後音声要素モデル−1 34
内で予備ラベルを進入音声に付与しデータを可能な標識
の部分集合に縮減するために使用される。
トリクスE33は33の最大固有値と関連する33の固有ベク
トルを含む。固有マトリクスE33は第21図について上記
した固有マトリクスと同一の方法で計算される。この固
有マトリクスE33はその後、33の最大固有ベクトルと関
連する進入音声を表わすデータ値を選択するために使用
される。
する際に使用される音声標識ベクトルである。音韻同基
準標本標識である標識の集合は次の通りK1476(第28
図)を計算する際に使用されるものとは異なっている。
即ち、表7(第42図)に示される音声要素モデル−1
34内のデータに付与される予備標識は、まづ、表2又は
4(第37図と第39図)中の2重音標識か、表3(第38
図)内の分離音韻標識の何れかに、適宜マッピングされ
る。第30図はそのマッピングを示し、そのためには処理
をブロック514内で1時間単位だけ遅らせることが必要
である。上記遅れは標識をプロセッサ36(第12図)内に
形成された3重データの中心ベクトルと整合させる。そ
の後、同標識はコーディングされて119−要素標識ベク
トルLn518が形成される。
す。これら音声標識ベクトルを使用するカーネルK2は初
めに述べた結合カーネルK1476(第27図と第28図)と同
一方法で計算される。即ち、正方形固有マトリクスE524
が計算されて音声データベクトルtn320内のデータの関
連は解かれる。その後、カーネルK′が標識ベクトルLn
518を使用して計算される。その後、カーネルK′と固
有マトリクスEとは乗算処理されて結合カーネルK2が形
成される。カーネルK2は音声要素モデル−2 40内で使
用されて、データを119の可能な音韻標識と関連づける
ことによってデータが縮減され音韻評価が形成される。
数で形成する際に使用されるパラメータの計算を示す。
確率比は開発データベースから形成されたパラメータを
組込み、確率比を進入する音声と関連する音韻評価値に
付与する。かくして、音韻評価値は加算によって乗算処
理され、それらが対数に変換された後減算によって除算
処理される。
標識ベクトルLn518(第30図)はそれぞれ回路536と540
に付与される。ブロック536と540は入力ベクトルunの要
素について平均値と標準偏差値を計算し、標識ベクトル
Ln518内の対応する要素が開発データベース内に現われ
る場合及び現れない場合に別々にそれらを蓄積する。ブ
ロック536は入力音声内に対応する音韻が聞こえない場
合の統計を蓄積する。それぞれの個々の音韻について、
これらの事例は、一つの所与の音韻は通常の場合聞こえ
ないから、大量のデータを占有する。ブロック540は対
応する音韻が入力音声内に聞こえない場合の統計を蓄積
する。かかる事例は少数である。
−Bと542A−A)とはディレイティング回路544(第34
図)に付与され、データ値が調節されて、開発データベ
ース内への既知データに音韻評価値の割当てとそれらの
未知データへの割当てとの間に生じる精度の差が補償さ
れる。平均値と標準偏差値とはそれらは、係数aiとbiを
乗ずることによって調節される。上記係数は、一方では
テストデースベース内の全事例に対して平均化された値
の、他方では開発データベース内の全事例について平均
された値に対する比である。テストデータベースは開発
データベースよりも小さく、テストデータベース内のデ
ータは他の固定パラメータの何れを計算する際にも使用
されていない。
を含み、同評価値は開発データベースと関連するものよ
りもロバスト度合は小さいと想定される。係数aiとbiと
はかくして開発データベースから作成された確率比パラ
メータがどれ程進入する新たな音声に対して拡大縮小さ
れるべきかを示す頻度である。
て平均値を目盛られる。ディレーティングされた値はそ
の後確率比回路326(第14図)に対する多項係数を形成
する回路546へ付与される。
後、音韻同基準標本評価値は音韻再構成プロセッサ44
(第15図)と評価積分器46(第16−18図)内で再構成さ
れ整理統合される。第35図は評価値を再構成し整理統合
する際に使用されるマップの生成を示す。第35図につい
て述べると、マッピングマトリクスS554が2重音につい
て形成され、2重音は構成音声要素にマッピングされ
る。表2、4、5(第37、39、40図)は2重音と構成音
声要素を含む。第2のマッピングマトリクスT560が作成
されて同一の音声要素を表わす種々の標識を単一の標識
形式にマッピングする。例えば、“r"と“R"の標識は共
に“r"の標識にマッピングされる。表6(第41図)はそ
の音声要素の集合を含み、それに対して種々の標識形が
マッピングされる。
使用される表全部を示す。第36図の表1は聴者が開発デ
ータベースと関連する音声をマークすくことのできる標
識を含む。標識に対して付与される記述法は従来のもの
ではないが、標識キーボードを使用して同記述法を複製
することができる。それ故、記述法の説明は表の一部と
して含まれる。
集合が注意付加く選ばれて、聞取り窓内の音韻の生じ得
る音響表示が包含される。従って、母音及び子音のこの
選択は、表1内に表示される種々の全ての形態の、聞取
り窓内で聞くことのできる音声要素の集合となる。この
音声要素のリストは通常“音韻”と呼ばれる以外のも
の、例えば、種々の音声要素の初期形態、ブリッジ形態
及び最終形態を含む。
の表には2重音評価を含む音声要素評価ベクトルを2つ
の適当な音声要素評価値に分離するために使用される。
同表は、結合されたカーネルK1及びK2を発生するのに使
用される。表2は、また、マップを生成して音韻評価積
分器46(第35図)の音韻評価を再構成・整理統合する際
にも、表3−6(第38−41図)と共に使用される。
デル−2プロセッサ40及び音韻再構成プロセッサ44でそ
れぞれ使用される音声要素標識の表である。表7はカー
ネルK1の要素に対応する標識を含む。表8はカーネルK2
の要素に対応する音韻同基準標本標識を含む。表9は語
/句判断器14及び語/句辞典16(第1図)の要求に合致
するように処理・再構成されるデータに加えられる音韻
評価値標識を含む。表9に示される標識は一般音声にお
いて最もよく発生された語又は句を特徴付けると我々が
信じる音韻である。
音韻精度を最適化するように注意深く選択される。従っ
て、母音、子音、2重音及び孤立形態のこの選択は、可
能性のある全ての完全な集合ではないが、第1図のブロ
ック14の語/句判断器内で語を順に見いだすのに最も有
用な集合である。この表は改良することができ、主題関
連音声、例えば、数字を示す音を含むことができ、また
英語以外の言語に現われる音を必要に応じて含むことが
できる。
す。第1の構成(第45図)はデジタル信号プロセッサ
(DSP)マイクロプロセッサ600とメモリ602を含み、本
システムに対するソフトウェア集約的なアプローチ用に
設計される。第2の構成(第46図)はまたややソフトウ
ェア集約実施例用に設計される。この第2の構成は、4
つのDSP604、606、610、612と2つの共用メモリ608、61
4より構成され、それぞれ第45図のメモリの2分の1の
大きさのメモリ2個と、DSP600(第45図)の10−15MIPS
(秒あたり100万台命令単位)より2〜3倍低速のDSPを
使用してシステム機能を実行する。
成を示す。この第3の構成は2−5MIPSマイクロプロセ
ッサ616と、メモリ620と乗算/累算回路618より成る。
乗算/累算回路は幾分大きなマトリクス乗算処理を実行
する。例えば、この回路119×843−要素結合カーネルK2
マトリクスと843−要素ベクトルtn320(第14図)を乗ず
ることなろう。その他の計算を実行するマイクロプロセ
ッサ616はDSPである必要はない。
10−15MFLOPS(秒あたり数百万単位の浮動小数点処理)
DSPプロセッサ622と、他のシステムに使用されるメモリ
の2倍の大きさのメモリ642を備える。メモリ624はかく
して他の3つの構成で使用される16ビット整数の代わり
に32ビット浮動小数点をストアすることができる。
第3−18図のブロックダイヤグラムの形態でしめされる
処理システムに関連する。
−1 34(第11図)で非線形処理間で音声専用の処理を
実行してデータを認識可能な音韻パターンを含む形に処
理する。システム内の種々の点で音声−要素特有の処理
を実行するとこによって比較的多量の高分解能信号周波
数データを音韻評価にとって重要な情報を犠牲にするこ
となく短縮することができる。
適当な箇所で実行されなければ、非線形プロセッサに付
与される信号データの分解度はパラメータ数を制限する
ために低下させなければならなくなろう。
を保持して非線形処理を行うものであって、システム内
の種々の地点で、音声−要素特有処理後にデータ短縮時
点で冗長又は比較的重要でないと判ったデータを除去す
るものである。もしデータ短縮と非線形処理とをそのよ
うにインターリーブさせない場合には、システムは低い
分解度データを処理することによって精度は損なわれる
ことはなろう。
ブロック線図、 第2図は第1図の音韻評価器を示すブロック線図、 第3図は第2図のブロックとして示すように、信号パワ
ースペクトルの評価をの計算を示すブロック線図、 第4図は第2図のブロック20として示した、パワースペ
クトル評価の縮減の計算を示すブロック線図、 第5図は第2図のブロック22として示した、エネルギー
検出プロセッサのブロック線図、 第6図は第2図のブロック24として示した、受容野プロ
セッサを示すブロック線図、 第7図は第2図のブロック26として示した、適応正規化
器を示すブロック線図、 第8図と第9図は共に第2図のブロック28として示し
た、受容野非線形図プロセッサ図、 第10図は第2図のブロック30として示した非線形プロセ
ッサ2を示すブロック線図、 第11図は第2図のブロック32と34として示す正規化プロ
セッサと音声要素モデル−1プロセッサを示すブロック
線図、 第12図は第2図のブロック36として示した、ベクトルを
3重ベクトルへ鎖状結合したものを示すブロック線図、 第13図は第2図のブロック38として示した、非線形プロ
セッサ3を示すブロック線図、 第14図は第2図のブロック40と42として示した、確率比
の対数の計算と音声−要素モデル−2を示すブロック線
図、 第15図は第2図のブロック44として示した、音韻同基準
標本再構成を示す図、 第16、17、18図は共に第2図のブロック46として示し
た、評価積分器を示すブロック線図、 第19図は適応正規化器(第7図)に使用されるパラメー
タの計算を示す図、 第20図は、例えば第10図の非線形プロセッサ2内に使用
されるパラメータを計算するため共分散マトリックスR
の計算を示す図、 第21図は第20図の共分散マトリクスRを使用して固有マ
トリクスEBを計算する図、 第22図は第10図の非線形プロセッサ2に使用される固有
マトリクスE26の計算図、 第23図は第10図の非線形プロセッサ2に使用されるそれ
以上のパラメータの計算図、 第24図は第11図の正規化プロセッサに使用されるパラメ
ータの計算図、 第25図は音声信号のマーキング図、 第26図はカーネルを作成する際に使用される音声標識ベ
クトルの判断図、 第27図は第11図の音声−要素モデル−1プロセッサに使
用されるパラメータを更に計算するための固有マトリク
スとカーネルパラメータの計算図、 第28図は第27図のパラメータを使用して第11図の音声−
要素モデル−1プロセッサに使用される結合カーネルK1
を作成する図、 第29図は第13図に示す非線形プロセッサ3に使用される
固有マトリクスE33の計算図、 第30図は別のカーネルを形成する際に使用される音声標
識ベクトルの判断図、 第31図は第14図の音声−要素モデル−2プロセッサに使
用されるパラメータを更に計算するための固有マトリク
スとカーネルの計算図、 第32図は第31図のパラメータを用いて第14図の音声−要
素モデル−2プロセッサに使用される結合カーネルK2の
作成図、 第33図と第34図は第14図に示すような確率比の対数を計
算する際に使用される平均値パラメータと標準偏差パラ
メータの計算図、 第35図は第15図に示す音韻評価再構成に使用される2重
音と音韻パップの表生成図、 第36図は第25図に示すような音声をマーキングする際に
使用される標識のテーブル図、 第37図は第26、30、35図のパラメータ計算に使用される
2重音と音韻標識のテーブル図、 第38図は第26図と第30図に示されるパラメータ計算に使
用される分離形の音韻のテーブル図、 第39図は第30図と第35図に示すパラメータ計算に使用さ
れる2重音と構成音韻のテーブル図、 第40図と第41図は第35図に示すパラメータを決定する際
に使用される2重音と構成音韻のテーブル図、 第42図は音声要素モデル−1で使用される音声要素標識
の表図、 第43図は音声要素モデル−2で使用される音声要素標識
の表図、 第44図は第2図の音韻再構成プロセッサ44に使用される
音韻標識の表図、 第45図は第1−2図の音声標識システムのハードウェア
構成のブロック線図、 第46図は第1−2図の音声標識システムの第2ハードウ
ェア構成のブロック線図、 第47図は第1−2図の音声標識システムの第3のハード
ウェア構成のブロック線図、 第48図は第1−2図の音声標識システムの第4のハード
ウェア構成のブロック線図、 第49図は第3−18図の処理システム図と、第19−35図の
パラメータ開発図間の関連を説明するテーブル図。 10……音声認識システム、12……評価器、 14……語句判断器、16……語句辞書、 24……受容野プロセッサ、 22……エネルギー検出プロセッサ、 26……適応正規化器、 230……非線形プロセッサ。
Claims (16)
- 【請求項1】音声信号内の問題の音声要素を識別する音
声認識装置において、 A.各成分が上記音声要素の一成分を表わしている第1の
ベクトルを生成する手段(18、20、24、26、28、30、3
2)と、 B.上記第1のベクトルを、既知の異なる音声要素をそれ
ぞれ表わす第1の組の複数のモデルベクトルの各々と対
比し、各対比について上記第1のベクトルと対比された
上記モデルベクトルとの相関性の程度を表わす値を導出
し、そして各対比について得られた上記相関性の程度を
表わす複数の上記値を成分とする第2のベクトルを生成
する第1のモデリング手段(34)と、 C.上記第2のベクトルのある成分の累乗と異なる成分間
の積を計算し、これら累乗及び積と上記第2のベクトル
の成分とを成分に有する第3のベクトルを生成する第3
のベクトル生成手段(36、38)と、 D.上記第3のベクトルを、既知の異なる音声要素をそれ
ぞれ表わす第2の組の複数のモデルベクトルと各々対比
し、音声が各音声要素を含む確率を表わす音韻評価値を
生成する第2のモデリング手段(40)と、 より成る前記装置。 - 【請求項2】上記第1のベクトルを発生する手段が、 A.上記音声信号を処理して、より少ないデータ要素を含
む短縮データを信号区間に対して発生する処理手段(1
8、20、24、26)、および B.上記短縮データの要素のある要素の累乗および異なる
要素間の積を計算し、これら累乗および積と上記短縮デ
ータの要素とを成分として上記第1のベクトルを発生す
る手段(28、30)を含む請求項1記載の音声認識装置。 - 【請求項3】上記第1のモデリング手段(34)が、上記
第1のベクトルを、既知音声の異なる音声要素毎に、関
係するデータ要素の累乗および異なるデータ要素間の積
と上記データ要素自体とを成分として各々含む上記第1
の組の複数のモデルベクトルの各々と対比して、上記第
1のベクトルより成分数が少ない上記第2のベクトルを
発生する請求項2記載の音声認識装置。 - 【請求項4】上記第3のベクトル生成手段(36、38)
が、上記第2のベクトルのある成分の累乗および異なる
成分間の積を計算し、上記累乗および積と上記第2ベク
トルの成分とを成分とする上記第3のベクトルを発生す
る請求項3記載の音声認識装置。 - 【請求項5】上記第2モデリング手段(40)が、上記第
3のベクトルを、上記既知音声の異なる音声要素毎に、
関係するデータ要素の累乗および異なるデータ要素間の
積と上記データ要素自体とを成分として各々含む上記第
2の組の複数のモデルベクトルの各々と対比する請求項
4記載の音声認識装置。 - 【請求項6】上記第3のベクトル生成手段(36、38)
が、上記累乗および積を計算する以前に、所定の数の信
号区画に対応する第2のベクトルを鎖状に結合する手段
(304)を含む請求項4記載の音声認識装置。 - 【請求項7】E.何時音声信号が所定値を上回るエネルギ
ーを含むかを判断するために音声信号をモニタする手段
(22)であって、(i)音声信号周波数および振幅に対
応するデータを扱って、所定の周波数範囲内の音声信号
のエネルギーに対応するデータ要素を生成し、(ii)上
記データ要素を操作して所定数の信号要素に対応する期
間に渡っての信号エネルギーの積分を表すエネルギーの
値を生成し、(iii)上記エネルギー値が所定のエネル
ギー閾値を上回った時に出力信号を発生する、上記モニ
タする手段(22)、 F.上記モニタする手段が上記出力信号を発生する時を決
めるタイミング手段(136、138)と、 G.上記モニタする手段とタイミンク手段に応答して音声
信号を処理し、その音声信号区間に関係する音声要素を
識別し、且つ上記モニタ手段が出力信号を発生する信号
区画のみを処理する処理手段(44、46)と、を更に含む
請求項1記載の音声認識装置。 - 【請求項8】上記処理手段(44、46)が、各音声要素を
一つの標識のみによって表現するために、各音声要素を
含む確率を表わす上記音韻評価値を整理統合再構成する
手段(334、338、344、346、348)を含む請求項7記載
の音声認識装置。 - 【請求項9】上記整理統合再構成する手段(334、338、
344、346、348)が、上記タイミング手段(136、138)
に応答して、上記モニタする手段(22)が音声要素を検
出する時に部分的に依存して、音声が各音声要素を含む
確率を表わす上記音韻評価値を整理統合再構成する請求
項8記載の音声認識装置。 - 【請求項10】上記第2の組のモデルベクトルが、一つ
の標識のみによって表現された音声要素の組に対応する
請求項1記載の音声認識装置。 - 【請求項11】上記第1の組のモデルベクトルが、所定
の組の音韻に対応する請求項1記載の音声認識装置。 - 【請求項12】音声信号に対応する音声要素を識別する
方法において、 A.各成分が上記音声要素の一成分を表現する第1のベク
トルを生成し、 B.上記第1のベクトルを、既知の異なる音声要素をそれ
ぞれ表わす第1の組の複数のモデルベクトルの各々と対
比し、各対比について上記第1のベクトルと対比された
上記モデルベクトルとの相関性の程度を表わす値を導出
し、そして上記相関性の程度を表わす上記値を成分とす
る第2のベクトルを生成し、 C.上記第2のベクトルのある成分の累乗と異なる成分間
の積を計算し、上記累乗および積と上記第2のベクトル
の成分とを成分に有する第3のベクトルを生成し、 D.上記第3のベクトルを、既知の異なる音声要素をそれ
ぞれ表わす第2の組の複数のモデルベクトルと各々対比
し、音声が各音声要素を含む確率を表わす音韻評価値を
生成する、 段階より成る前記方法。 - 【請求項13】E.所定の周波数範囲内の音声信号のエネ
ルギーに各々対応するデータ要素を発生し、 F.上記データ要素を扱って、所定数の信号区画に対応す
る期間に渡っての信号エネルギーの積分を表わすエネル
ギー値を発生し、 G.所定の値を上回るエネルギー値に関係する音声信号区
画を上記工程A−Dに従って処理する工程を更に含む請
求項12記載の音声要素を識別する方法。 - 【請求項14】上記第1のベクトルを発生する上記工程
が、 上記音声信号を処理して、より少ないデータ要素を含む
短縮データから第1のベクトルをつくりだし、 上記第1のベクトルを上記第1の組のモデルベクトルと
対比する上記工程が、 上記第1のベクトルを、既知音声の異なる音声要素毎
に、関係するデータ要素の累乗と異なるデータ要素間の
積と上記データ要素自体を成分とする上記第1の組の複
数のモデルベクトルの各々と対比し、第1のベクトルよ
りも成分数の少ない前記2のベクトルを発生する請求項
12記載の音声要素を識別する方法。 - 【請求項15】上記第3のベクトルを上記第2の組のモ
デルベクトルと対比する上記工程が、上記第3のベクト
ルを、既知音声の異なる音声要素毎に、関係するデータ
要素の累乗および異なるデータ要素間の積と上記データ
要素自体を成分として含む上記第2の組の複数のモデル
ベクトルの各々と対比することから成る請求項14記載の
音声要素を識別する方法。 - 【請求項16】E.発声された一つの語又は句と関係する
音声信号の連続する区間に対して上記工程A乃至Dを繰
り返し、 F.上記工程Dで発生された音声要素推定信号を結合し
て、結合信号を形成し、 G.この結合信号に応答して、音声信号に対応する語又は
句を識別する工程を更に含む請求項12記載の音声要素を
識別する方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US07/395,449 US5168524A (en) | 1989-08-17 | 1989-08-17 | Speech-recognition circuitry employing nonlinear processing, speech element modeling and phoneme estimation |
US395449 | 1989-08-17 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH03137699A JPH03137699A (ja) | 1991-06-12 |
JP3055691B2 true JP3055691B2 (ja) | 2000-06-26 |
Family
ID=23563092
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2216934A Expired - Lifetime JP3055691B2 (ja) | 1989-08-17 | 1990-08-17 | 音声認識装置 |
Country Status (6)
Country | Link |
---|---|
US (2) | US5168524A (ja) |
EP (1) | EP0413361B1 (ja) |
JP (1) | JP3055691B2 (ja) |
AT (1) | ATE179828T1 (ja) |
CA (1) | CA2023424C (ja) |
DE (1) | DE69033084T2 (ja) |
Families Citing this family (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5168524A (en) * | 1989-08-17 | 1992-12-01 | Eliza Corporation | Speech-recognition circuitry employing nonlinear processing, speech element modeling and phoneme estimation |
GB9106082D0 (en) * | 1991-03-22 | 1991-05-08 | Secr Defence | Dynamical system analyser |
JPH05134694A (ja) * | 1991-11-15 | 1993-05-28 | Sony Corp | 音声認識装置 |
JPH05188994A (ja) * | 1992-01-07 | 1993-07-30 | Sony Corp | 騒音抑圧装置 |
FR2696036B1 (fr) * | 1992-09-24 | 1994-10-14 | France Telecom | Procédé de mesure de ressemblance entre échantillons sonores et dispositif de mise en Óoeuvre de ce procédé. |
US5455889A (en) * | 1993-02-08 | 1995-10-03 | International Business Machines Corporation | Labelling speech using context-dependent acoustic prototypes |
US5652897A (en) * | 1993-05-24 | 1997-07-29 | Unisys Corporation | Robust language processor for segmenting and parsing-language containing multiple instructions |
BR9508898A (pt) * | 1994-09-07 | 1997-11-25 | Motorola Inc | Sistema para reconhecer sons falados |
US5594834A (en) * | 1994-09-30 | 1997-01-14 | Motorola, Inc. | Method and system for recognizing a boundary between sounds in continuous speech |
US5596679A (en) * | 1994-10-26 | 1997-01-21 | Motorola, Inc. | Method and system for identifying spoken sounds in continuous speech by comparing classifier outputs |
US5638486A (en) * | 1994-10-26 | 1997-06-10 | Motorola, Inc. | Method and system for continuous speech recognition using voting techniques |
US5796924A (en) * | 1996-03-19 | 1998-08-18 | Motorola, Inc. | Method and system for selecting pattern recognition training vectors |
FI114247B (fi) * | 1997-04-11 | 2004-09-15 | Nokia Corp | Menetelmä ja laite puheen tunnistamiseksi |
US6006181A (en) * | 1997-09-12 | 1999-12-21 | Lucent Technologies Inc. | Method and apparatus for continuous speech recognition using a layered, self-adjusting decoder network |
FR2769117B1 (fr) * | 1997-09-29 | 2000-11-10 | Matra Comm | Procede d'apprentissage dans un systeme de reconnaissance de parole |
US8855998B2 (en) | 1998-03-25 | 2014-10-07 | International Business Machines Corporation | Parsing culturally diverse names |
US8812300B2 (en) | 1998-03-25 | 2014-08-19 | International Business Machines Corporation | Identifying related names |
US6963871B1 (en) * | 1998-03-25 | 2005-11-08 | Language Analysis Systems, Inc. | System and method for adaptive multi-cultural searching and matching of personal names |
JP3789246B2 (ja) * | 1999-02-25 | 2006-06-21 | 株式会社リコー | 音声区間検出装置、音声区間検出方法、音声認識装置、音声認識方法および記録媒体 |
US6442520B1 (en) | 1999-11-08 | 2002-08-27 | Agere Systems Guardian Corp. | Method and apparatus for continuous speech recognition using a layered, self-adjusting decoded network |
US7366766B2 (en) * | 2000-03-24 | 2008-04-29 | Eliza Corporation | Web-based speech recognition with scripting and semantic objects |
US6868380B2 (en) * | 2000-03-24 | 2005-03-15 | Eliza Corporation | Speech recognition system and method for generating phonotic estimates |
US7370086B2 (en) * | 2000-03-24 | 2008-05-06 | Eliza Corporation | Web-based speech recognition with scripting and semantic objects |
US7120585B2 (en) | 2000-03-24 | 2006-10-10 | Eliza Corporation | Remote server object architecture for speech recognition |
US6662158B1 (en) | 2000-04-27 | 2003-12-09 | Microsoft Corporation | Temporal pattern recognition method and apparatus utilizing segment and frame-based models |
US6629073B1 (en) * | 2000-04-27 | 2003-09-30 | Microsoft Corporation | Speech recognition method and apparatus utilizing multi-unit models |
US20020059072A1 (en) * | 2000-10-16 | 2002-05-16 | Nasreen Quibria | Method of and system for providing adaptive respondent training in a speech recognition application |
JP4759827B2 (ja) * | 2001-03-28 | 2011-08-31 | 日本電気株式会社 | 音声セグメンテーション装置及びその方法並びにその制御プログラム |
US7181398B2 (en) * | 2002-03-27 | 2007-02-20 | Hewlett-Packard Development Company, L.P. | Vocabulary independent speech recognition system and method using subword units |
JP3873793B2 (ja) * | 2002-03-29 | 2007-01-24 | 日本電気株式会社 | 顔メタデータ生成方法および顔メタデータ生成装置 |
US20070005586A1 (en) * | 2004-03-30 | 2007-01-04 | Shaefer Leonard A Jr | Parsing culturally diverse names |
US7554464B1 (en) * | 2004-09-30 | 2009-06-30 | Gear Six, Inc. | Method and system for processing data having a pattern of repeating bits |
CA2610269C (en) * | 2005-06-01 | 2016-02-02 | Loquendo S.P.A. | Method of adapting a neural network of an automatic speech recognition device |
US20110014981A1 (en) * | 2006-05-08 | 2011-01-20 | Sony Computer Entertainment Inc. | Tracking device with sound emitter for use in obtaining information for controlling game program execution |
FR2913171A1 (fr) | 2007-02-28 | 2008-08-29 | France Telecom | Procede de determination de la presence d'un signal de telecommunications sur une bande de frequences. |
US8140331B2 (en) * | 2007-07-06 | 2012-03-20 | Xia Lou | Feature extraction for identification and classification of audio signals |
US20120324007A1 (en) * | 2011-06-20 | 2012-12-20 | Myspace Llc | System and method for determining the relative ranking of a network resource |
WO2015145219A1 (en) * | 2014-03-28 | 2015-10-01 | Navaratnam Ratnakumar | Systems for remote service of customers using virtual and physical mannequins |
US10008201B2 (en) * | 2015-09-28 | 2018-06-26 | GM Global Technology Operations LLC | Streamlined navigational speech recognition |
EP3641286B1 (en) * | 2018-10-15 | 2021-01-13 | i2x GmbH | Call recording system for automatically storing a call candidate and call recording method |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3727193A (en) * | 1971-05-18 | 1973-04-10 | School Of Electrical Eng | Signal vector recognition system |
GB1569450A (en) * | 1976-05-27 | 1980-06-18 | Nippon Electric Co | Speech recognition system |
US4156868A (en) * | 1977-05-05 | 1979-05-29 | Bell Telephone Laboratories, Incorporated | Syntactic word recognizer |
US4227177A (en) * | 1978-04-27 | 1980-10-07 | Dialog Systems, Inc. | Continuous speech recognition method |
US4241329A (en) * | 1978-04-27 | 1980-12-23 | Dialog Systems, Inc. | Continuous speech recognition method for improving false alarm rates |
US4277644A (en) * | 1979-07-16 | 1981-07-07 | Bell Telephone Laboratories, Incorporated | Syntactic continuous speech recognizer |
US4412098A (en) * | 1979-09-10 | 1983-10-25 | Interstate Electronics Corporation | Audio signal recognition computer |
US4400788A (en) * | 1981-03-27 | 1983-08-23 | Bell Telephone Laboratories, Incorporated | Continuous speech pattern recognizer |
US4400828A (en) * | 1981-03-27 | 1983-08-23 | Bell Telephone Laboratories, Incorporated | Word recognizer |
JPS5852695A (ja) * | 1981-09-25 | 1983-03-28 | 日産自動車株式会社 | 車両用音声検出装置 |
US4489434A (en) * | 1981-10-05 | 1984-12-18 | Exxon Corporation | Speech recognition method and apparatus |
JPS5879300A (ja) * | 1981-11-06 | 1983-05-13 | 日本電気株式会社 | パタ−ン距離計算方式 |
JPS58130396A (ja) * | 1982-01-29 | 1983-08-03 | 株式会社東芝 | 音声認識装置 |
JPS58145998A (ja) * | 1982-02-25 | 1983-08-31 | ソニー株式会社 | 音声過渡点検出方法 |
JPS59139099A (ja) * | 1983-01-31 | 1984-08-09 | 株式会社東芝 | 音声区間検出装置 |
US4712243A (en) * | 1983-05-09 | 1987-12-08 | Casio Computer Co., Ltd. | Speech recognition apparatus |
US4723290A (en) * | 1983-05-16 | 1988-02-02 | Kabushiki Kaisha Toshiba | Speech recognition apparatus |
JPS59216284A (ja) * | 1983-05-23 | 1984-12-06 | Matsushita Electric Ind Co Ltd | パタ−ン認識装置 |
US4606069A (en) * | 1983-06-10 | 1986-08-12 | At&T Bell Laboratories | Apparatus and method for compression of facsimile information by pattern matching |
US4718093A (en) * | 1984-03-27 | 1988-01-05 | Exxon Research And Engineering Company | Speech recognition method including biased principal components |
US4718092A (en) * | 1984-03-27 | 1988-01-05 | Exxon Research And Engineering Company | Speech recognition activation and deactivation method |
US4908865A (en) * | 1984-12-27 | 1990-03-13 | Texas Instruments Incorporated | Speaker independent speech recognition method and system |
EP0190489B1 (en) * | 1984-12-27 | 1991-10-30 | Texas Instruments Incorporated | Speaker-independent speech recognition method and system |
NL8503304A (nl) * | 1985-11-29 | 1987-06-16 | Philips Nv | Werkwijze en inrichting voor het segmenteren van een uit een akoestisch signaal, bij voorbeeld een spraaksignaal, afgeleid elektrisch signaal. |
US4941178A (en) * | 1986-04-01 | 1990-07-10 | Gte Laboratories Incorporated | Speech recognition using preclassification and spectral normalization |
JP2815579B2 (ja) * | 1987-03-10 | 1998-10-27 | 富士通株式会社 | 音声認識における単語候補削減装置 |
US5027408A (en) * | 1987-04-09 | 1991-06-25 | Kroeker John P | Speech-recognition circuitry employing phoneme estimation |
US5168524A (en) * | 1989-08-17 | 1992-12-01 | Eliza Corporation | Speech-recognition circuitry employing nonlinear processing, speech element modeling and phoneme estimation |
-
1989
- 1989-08-17 US US07/395,449 patent/US5168524A/en not_active Expired - Lifetime
-
1990
- 1990-08-16 CA CA002023424A patent/CA2023424C/en not_active Expired - Lifetime
- 1990-08-17 JP JP2216934A patent/JP3055691B2/ja not_active Expired - Lifetime
- 1990-08-17 DE DE69033084T patent/DE69033084T2/de not_active Expired - Lifetime
- 1990-08-17 EP EP90115830A patent/EP0413361B1/en not_active Expired - Lifetime
- 1990-08-17 AT AT90115830T patent/ATE179828T1/de not_active IP Right Cessation
-
1993
- 1993-02-09 US US08/015,299 patent/US5369726A/en not_active Expired - Lifetime
Non-Patent Citations (3)
Title |
---|
古井「ディジタル音声処理」(1985−9−25)東海大学出版会p.160−170,177−185 |
斎藤・中田「音声情報処理の基礎」(昭56−11−30)オーム社p.181−203 |
日本音響学会音声研究会資料 S81−59「パワー情報で重みづけた距離による単語音声認識」p.468−476(1981/12/22) |
Also Published As
Publication number | Publication date |
---|---|
ATE179828T1 (de) | 1999-05-15 |
US5369726A (en) | 1994-11-29 |
CA2023424C (en) | 2001-11-27 |
EP0413361B1 (en) | 1999-05-06 |
EP0413361A3 (en) | 1993-06-30 |
DE69033084D1 (de) | 1999-06-10 |
EP0413361A2 (en) | 1991-02-20 |
DE69033084T2 (de) | 1999-09-02 |
JPH03137699A (ja) | 1991-06-12 |
CA2023424A1 (en) | 1991-02-18 |
US5168524A (en) | 1992-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3055691B2 (ja) | 音声認識装置 | |
JP3114975B2 (ja) | 音素推定を用いた音声認識回路 | |
Ghitza | Auditory nerve representation as a front-end for speech recognition in a noisy environment | |
EP3042377B1 (en) | Method and system for generating advanced feature discrimination vectors for use in speech recognition | |
JPH075892A (ja) | 音声認識方法 | |
JPH0612089A (ja) | 音声認識方法 | |
JP2001166789A (ja) | 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置 | |
JPH0638199B2 (ja) | 音声認識装置 | |
CN114093386A (zh) | 一种面向教育的多维度歌唱评价方法 | |
Shariah et al. | Human computer interaction using isolated-words speech recognition technology | |
Zolnay et al. | Robust speech recognition using a voiced-unvoiced feature. | |
Matsumoto et al. | Evaluation of Mel-LPC cepstrum in a large vocabulary continuous speech recognition | |
Potard et al. | Preliminary work on speaker adaptation for DNN-based speech synthesis | |
Narayanan et al. | Speech rate estimation via temporal correlation and selected sub-band correlation | |
Zolnay et al. | Extraction methods of voicing feature for robust speech recognition. | |
Walliczek et al. | Sub-word unit based non-audible speech recognition using surface electromyography | |
Hasija et al. | Recognition of children Punjabi speech using tonal non-tonal classifier | |
JP2797861B2 (ja) | 音声検出方法および音声検出装置 | |
JP3354252B2 (ja) | 音声認識装置 | |
Adam et al. | Analysis of Momentous Fragmentary Formants in Talaqi-like Neoteric Assessment of Quran Recitation using MFCC Miniature Features of Quranic Syllables | |
Tolba et al. | Comparative experiments to evaluate the use of auditory-based acoustic distinctive features and formant cues for automatic speech recognition using a multi-stream paradigm | |
Lea | Evidence that stressed syllables are the most readily decoded portions of continuous speech | |
Sargent et al. | Syllable detection in continuous speech | |
KR19990087730A (ko) | 불특정 화자에 대한 실시간 음성인식 시스템 및 이것의 방법 | |
JP3029654B2 (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090414 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090414 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100414 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110414 Year of fee payment: 11 |
|
EXPY | Cancellation because of completion of term | ||
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110414 Year of fee payment: 11 |