JPH03137699A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH03137699A
JPH03137699A JP2216934A JP21693490A JPH03137699A JP H03137699 A JPH03137699 A JP H03137699A JP 2216934 A JP2216934 A JP 2216934A JP 21693490 A JP21693490 A JP 21693490A JP H03137699 A JPH03137699 A JP H03137699A
Authority
JP
Japan
Prior art keywords
elements
speech
data
vector
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2216934A
Other languages
English (en)
Other versions
JP3055691B2 (ja
Inventor
John P Kroeker
ジョン ピー クローカー
Robert L Powers
ロバート エル パワーズ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Eliza Corp
Original Assignee
Eliza Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Eliza Corp filed Critical Eliza Corp
Publication of JPH03137699A publication Critical patent/JPH03137699A/ja
Application granted granted Critical
Publication of JP3055691B2 publication Critical patent/JP3055691B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Complex Calculations (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Image Processing (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は音声認識、殊に音声をデータ還元したもののパ
ターンを認識する際に使用される音声認識システムの一
部に関する。同発明は1987年4月7日付第036.
380号の「音韻評価法を使用する音声認識回路」と題
する同時係属出願中に開示された回路の改良に関する。
〔従来の技術〕
音声認識システムの大部分は肉声中のデータを整理する
若干の手段を使用している。そのため音声は音声信号を
直接デジダル化したものの中に含まれる全データ量より
も少ない表現に還元される。
然しながら、かかる表現は発声者が意図した意味を識別
するために必要とされるデータの全てとはいわないまで
も大部分を含んでいなければならない。
音声認識システムの開発、もしくは「トレイニング」に
おける任務は、単語や節の如き音声要素を特徴づける短
縮データ表現中のパターンを識別することである。異な
る話者が同一の単語や文句を発声することによって発す
る音声はそれぞれ異なっており、従って音声認識システ
ムはこれらの異なる音から由来するパターンに対して同
一の単語又は文句を付与しなければならない、上記パタ
ーンには雑音やモデリングプロセスの不正確さの如き他
の曖昧さの源泉も存在し、それらも音声信号表現を変更
させる可能性がある。従って、種々の手段を使用して音
声の短縮データ表現の種々な数学的組合せに対する可能
性を附勢されており、種々の仮説をテストして一連の可
能な音声要素のうちの何れが今発声されているもの、従
って特定データパターンにより表わされるものに一番近
いかが判断されている。
然しなから、これらの処理を実行するためのプロセスは
計算数が多くなる傾きがある。即ち、種々のデータ計算
と多数の音素についての可能性を判断する必要がある。
そのため、例えばリアルタイムのシステム処理の必要条
件によって課される計算に対する制約は使用可能なパタ
ーン認識アルゴリズムの感度を制約することになる。
〔発明が解決しようとする課題〕
従って、本発明の目的は、所与のパターンの認識にあて
られる計算時間を大きくすること、しがも音声認識プロ
セス全体に必要とされる時間を増加させずにそうするこ
とができるようにすることである。
本発明の目的は更に長期間に相当する信号区画を共に処
理すること、即ち、より大きな信号の「窓」を使用する
こと、しかも計算上の負担を著しく大きくせずに、信号
データの分解能を低下させずにそうすることである。
〔課題を解決するための手段〕
上記の目的ならびにそれと関連する目的は、非線形デー
タ操作処理を介在させて音韻特有の音声モデル化データ
短縮処理を行い音韻評価を実行する音韻評価器を備える
音声認識システムによって実現される。上記音韻評価は
、更に処理された後、発声される単語や文句を識別する
ために使用される。
要するに、音韻評価器は、入力音声信号のデータ短縮版
のエネルギーをモニタして選択して一定のスレショルド
値 声区画全体を更に処理する。かかる信号区画は音声内の
有声音又は無声音の呼気を、従って音韻を表わすのが普
通である。その後、音韻評価器は、一連の非線形処理と
音声モデル化を経て音声区画を更にデータ短縮表現処理
し、何れの音韻パターンにデータが最も近似しているか
が計算される。
音声のモデル化は、経験上、音韻パターン評価の点から
相対的に重要でないとか余分であることが判っているデ
ータを無視することにより非線形処理どうしの間で音声
信号データを短縮するために行われる。その後、より重
要なデータは計算集約的な非線形処理を使用して処理さ
れ所期の音韻により近似したデータパターンが得られる
。かかる計算に必要とされる時間は以上のようにデータ
を短縮することによって最小限にする。
また音韻評価器は最も可能性の高い音韻を選択する際に
、信号エネルギー、又は音韻の検出どうしの間の時間も
観察する。音韻検出間の時間を考慮に入れて、評価器は
、別の場合には一連の相異なる音韻と考えられるものを
多数音韻パターン群例えば2重音群に鎖状結合する。こ
れらの多重音韻パターンは個々の音韻よりも明確に音声
の意図する意味を伝えることが多い。
〔実施例〕 第1〜18図を参照して、音声認識用処理システムを解
説する。処理システム中のプロセッサにより実行される
計算とその展開中に使用するパラメータは第19−35
図と第36−41図中に示す種々のテーブルについて説
明する。処理システムのハードウェア構成は第42−4
5図について説明する。
第1図について述べると、音声認識システム10は音韻
評価器12、語/句判断器14、および語/句辞書16
を備える。音韻評価器12は、例えばマイクロフォン又
は電話回線から音声入力信号を受取る。音韻評価器12
は音声入力信号のエネルギーを検出し、そのエネルギー
が所定のスレショルド値を上廻っているかどうかを判断
する。
もし上廻っていれば、評価器は音声信号中に音声、従っ
て音韻の存在を表示する。その後、評価器は、それに相
当する音韻評価値、即ち、一群の出力信号を計算する。
それら出力信号は、それぞれ、音声信号がその出力と関
連する音韻を構成している公算がどれ位かを示す評価値
である。また評価器は音韻検出どうしの間の時間、即ち
、Δ時間を計算する。
デルタ時間値と評価値とは語/句判断器14へ附勢され
る。語/句判断器14は、その時間と評価値を用いて、
構成音韻に関して列挙した語句を格納する語/句辞書1
6に間合わせる。その後、語/句判断器14は一部又は
−句をその音声信号に割当てて、音声を翻訳する。語/
句判断器14の出力は、例えば一群の可能な予期応答の
うちのどれが発声されたかについての表示の如き、他の
形をとることができる。
語/句判断器14の詳細は、音韻評価値が更に処理され
る特殊な方法は本発明の一部ではないから、ここでは提
示しない、然しながら、語/句判断器14がより原始的
なデータ形式、例えば肉声又はその周波数スペクトルで
はなく、音韻評価器12により作成された音韻評価値と
デルタ時間値とに厳密に基づいて音声入力信号の意味を
判断するということが重要な点である。
第2図は第1図に示す音韻評価器12の概観図である。
この点で図面は適当な八−ドウエアシステム内に存在す
る際には別々のプロセッサ又はブロックによって種々の
処理が実行される様子を示していることに注意されたい
。このように別々のプロセッサに分離することによって
説明が容易になるが、当業者は、これらの機能の大部分
は普通の場合、比較的少数の一般的なハードウェア要素
によって実行されることを理解されよう。殊に、大部分
のステップは一個又は非常に少数のマイクロプロセッサ
により実行されるのが一般的であろう。
再び第2図について述べると、音韻評価器12は生の音
声信号を受取り、それを処理し、第3−4図について以
下に詳説するようにブロック18のパワースペクトル評
価とブロック20のパワースペクトル短縮によってデー
タを短縮する。データ短縮された信号はエネルギー検出
プロセッサ22と受容野プロセッサ24の双方に印加さ
れる。
もしデータ短縮信号中のエネルギーが所定スレショール
ド値を上廻っていて、音声の存在を表示していれば、エ
ネルギー検出プロセッサ22は検出信号をライン22A
上にアサートする。アサートされた検出信号は受容野プ
ロセッサ24を付勢する。同プロセッサ24はその後更
にデータを処理し、受容フィールドを組立てる。もし信
号エネルギーがスレショールド値を下廻っていれば、検
出信号はアサートされず、受容フィールドプロセッサ2
4は付勢されず、音声信号のそれ以上の処理は禁止され
る。エネルギー検出プロセッサ22と受容フィールドプ
ロセッサ24とは第5−6図に関して以下に詳説する。
エネルギープロセッサを使用して受取った音声中の音韻
の存在を検出する点が[音韻評価法を使用する音声認識
回路」と題する上記同時係属出願中に述べられた音声認
識システムにより実行される2パス処理と異なる点であ
り、この点が改良点である。以前のシステム(以下、音
声認識システムIと称する)は音声信号を検査して、一
つの処理パス中の初めの子音又は母音の何れかの存在と
、他の処理パスにおける最終子音の存在とを検出するよ
うになっている。何れのパスが検出信号を生成するかに
応じて、同音声信号は母音、初期子音又は最終子音プロ
セッサによって更に処理される。
かくして、音声認識システム−■は本発明で使用される
ものの代わりに、それぞれが音声信号を処理してそれを
音韻の部分集合とマツチングさせるようになった3個の
受容フィールドプロセッサを必要とする。一方、本発明
によるシステムは、モデル化とデータ短縮を向上させる
ことによって信号表現を可能な音韻の集合全体と比較す
ることができるものである。
再び第2図について述べると、ライン22A上に検出信
号がアサートされると、同時にエネルギー検出プロセッ
サ22が、第5図について以下に詳説するように、ライ
ン22B上の音声信号の積分エネルギーに比例する信号
を発生する。
積分エネルギー信号は適応正規化器26へ印加される。
同正規化器26は受容フィールドプロセッサ24の出力
も受取る。積分エネルギー信号は上記適応正規化器26
により使用され、第2のより高エネルギーのスレシッー
ルドを附与する。
適応正規化器26はデータ、即ち受容フィールドプロセ
ッサ24の出力から推定平均値を除去する。推定平均値
はデータの積分エネルギー準位がより高度の上記所定エ
ネルギースレシッールド値を上廻る場合にのみ増分的に
更新され、相対的に大きなSN比を有する音声信号を表
示する。そのため、もしデータの積分エネルギー準位が
スレシッールド値を下廻る場合には、適応正規化器26
は推定平均値を更新することはない。何故ならば、かか
る場合には、その評価値は正確ではないかもしれないか
らである。適応正規化器26の動作が積分高エネルギー
信号を有するデータに対する効果は、長い「時定数」を
有する指数関数的減衰をデータに附与することである。
このため、平均値はゼロに近く低下する。
この場合の時定数は時間それ自体ではなく、入力ベクト
ルが適応正規化器へ加えられる事例の数で測定される。
数が大きいことは特定話者が話しつづけていること、従
って、音声とそれに関連する音響チャネルの特性はこの
音声についてはトラスチックに変化しないことを意味す
る。従って、この音声と関連するデータの平均はゼロ近
くに低下させることができる。適応正規化器の動作は第
7図について以下に詳説する。
正規化されたデータは次に受容フィールド非線形プロセ
ッサ28に加えられた後、別の非線形プロセッサー23
0に加えられる。それぞれ第8−9図と第10図につい
て以下に詳論する非線形プロセッサ28と30は、デー
タを操作して、それぞれ線形−次データ項と非線形2次
、3次及び(又は)4次データ項をパスさせる。これら
の項はその後正規化プロセッサ32にパスされる。正脱
化プロセッサ32はデータを正規化して、それらを2個
の音声要素モデルのうちの最初のものに附与する。正規
化プロセッサ32は第10図に関して以下に詳説する。
音声要素モデル!−134は、幾つかのパラメータ、即
ち、展開データから作成される音声標識を使用して自ら
に加えられるデータを短縮する。
音声要素モデル1−1 34は、かくして最も重要なデ
ータを更に処理するために選ばれる。短縮データは、そ
の後ブロック36中で3個のベクトルに鎖状結合される
。プロセッサ36に対する各人力ベクトルは一個の出力
を生成し、同人力は普通、先のベクトル入力と後続のベ
クトル入力とによって包囲される人力ベクトルから形成
される。
これらのベクトル又はゼロ充填ベクトルが譲状結合する
かどうかはエネルギー検出プロセッサ22からのデルタ
時間信号22Cに依存する。後続のベクトル入力を使用
するとプロセッサ36内に遅れがひきおこされる。それ
については第12図について以下に詳説する。
以上の三重ベクトルは、その後第3の非線形プロセッサ
38へ加えられる。非線形プロセッサー338は計算集
約的な非線形処理によってデータを操作した後、同デー
タを第2の音声要素モデル1−2 40へ附与し、同モ
デル1−2 40は音韻評価値を生成する。音声要素モ
デル−134と−240とは、それぞれ第11図と第1
4図について以下に詳説する。非線形プロセンサー33
8は第13図について以下に詳説する。
その後、対数プロセッサ42内で音韻評価値の確率比の
対数が計算され、音韻評価値は、プロセッサ44.46
内で更に簡単化される、即ち、再構成され積分され、デ
ータを語/句判断器14に対して準備させる。(第1図
)簡単化された評価値とエネルギー検出プロセッサ22
からのデルタ時間信号22C(第2図)とはその後、語
/句判断器14に加えられ、同判断器14は音声に対し
て語又は句を附与する。第14−18図について種々の
プロセッサ42.44.46を以下に詳説する。
音韻処理 さて、第3図について述べると、パワースペクトル評価
プロセッサ18がまづアナログ音声信号をA/D変換器
100でデジタル表示に変換することによって音声信号
のパワースペクトル評価値を計算する。A/D変換器1
00は従来設計のものであるが、8 kHzの割合で音
声信号をサンプリングして信号の振幅を表わす16ビツ
トデジタルデ一タ記号a1を生成する。8 kHzのサ
ンプリング率は今日の電話産業規格と一致する。
その後、デジタルデータサンプルa、はブロック102
に示すように128のデータサンプルの系列に区分され
る。これら系列の各々は音声信号の12ミリ秒計画に相
当する。系列は各々が要素k)ll++sを有するベク
トルb、104と考えることができる。b、ベクトルは
32のデータサンプルとオーバラップするため、各す、
ベクトルは96の新たな要素と先のベクトルからの32
の要素を含む0次に、b、ベクトルにより表わされる信
号区画の平均値、即ちり、C,値は回路106で除去さ
れ、ベクトルC@108がつくりだされる。
平均値は音韻評価においてほとんどあるいは全く価値の
ない情報を伝える。
更に、第3図について述べると、ベクトル0゜108は
128ポイント離散フーリエ変換(DFT)回路110
へ附与される。この点までパワースペクトル評価プロセ
スは音声認識システム−■の音声要素プリプロセッサと
同様である。然しなから、DFTの結果の分解能を向上
させるために本システムは、64のデータ要素と64の
ゼロを使用するシステム−■とは対照的に128個のデ
ータ要素を使用してDFTを実行する。
DFT回路に加えられる128個の異なる要素は実数で
あって、従ってDFTの128のうちの65のみ(大部
分が複素数)の出力値d IJ+mfが非冗長データを
表わす、パワースペクトルは、かくしてDFT値d k
Jeaにそれらの複素共役d ”*、 sを乗じて計算
し、それに対応する実数値ek*lIkをつくりだす、
上記65の非冗長値はベクトル0゜114内に保持され
る・データはかくして2分の1だけ短縮される一方、音
韻評価にとって最も重要であると考えられる情報が保持
される。
パワースペクトル値ek1.は同時に「フォンハン窓」
とバンド制限エネルギー回路118(第4図)に加えら
れる。フォンハン窓回路は従来通りスペクトルを「平滑
化」して時間領域の切捨てによるサイドローブを減少さ
せる。
平滑ベクトルflIは回路120へ加えられ、そこでベ
クトルf、の種々の要素’lI+#lが結合され、戦略
的に短縮されたベクトルg+−122がつくりだされる
。短縮ベクトルは218.75Hz〜3593.75H
zの周波数レンジからの項を備える。このレンジは電話
回路通信を使用して受取られた信号に相当する。
回路118からのバンド制限エネルギーh、はベクトル
g、122について使用されるものと同じ周波数レンジ
内のエネルギーを含んでいる。先の音声認識システム−
口よこのようにバンド制限されていないエネルギー環で
はなくその代わりにスベタ←ル全体の平均パマーである
エネルギ纏を使用していた。このため音声自体に由来し
ないノイズが若干、エネルギー内へ導入される。
バンド制限エネルギー値り、は回路124内でベクトル
g、122と鎖状結合され、ベクトルp、126を形成
する。かくして、ベクトルp。
はデータ短縮周波数バージョンとエネルギー情報とを含
み、大部分の場合、音声信号の中心バンド周波数を表わ
す。データをこのように短縮することによって、それ以
降の計算のために特定値の情報を保持する一方、データ
を管理可能な大きさに短縮する。
音韻識別情報は、多分、ベクトルp、126の個々の要
素p51.の変化の絶体的大きさでなく相対的大きさの
中に存在する。従って、先の音声認識システム−■にお
けるように、要素ph++aは全て正かゼロであり、1
だけ増分されて、その結果の対数は回路128に示すよ
うに計算される。ベクトルp、要素を1だけ増分するこ
とによって、その結果得られる対数値はゼロ又は正とな
るようになっている。 (logtl =O)その後、
結果値gh+sは、エネルギー検出プロセッサ22と受
容フィールドプロセッサ24へ加えられる。(第6図) 第5図はエネルギー検出プロセッサ22をブロックダイ
ヤグラム形式で示したものである。ベクトルgm130
のエネルギー成分、要素g01.は積分回路132内で
3倍単位時間区画について積分される。各時間単位は上
記の如く、12ミリ秒の長さであるため、エネルギーは
36ミリ秒にわたって積分される。もし積分されたエネ
ルギーT、が所定のスレショルドを土建ると、検出器1
34は音声の存在を示す検出信号22A、S。
をアサートする。検出信号S、は、エネルギーパラメー
タT、添字mがモジューロ3演算でゼロでなければなら
ないから、3つの時間単位毎に多くとも一回はアサート
することができる。
検出信号22Aがアサートされる毎に、回路136は、
この検出信号と先の信号との間の時間に相当するデルタ
時間信号(Δ、)を生成する。
デルタ時間信号は間隔抽出回路138へ印加され、後者
は時間信号Δ722Cを生成する。関連するエネルギー
抽出回路140は積分エネルギー信号c++22Bを生
成する。Δ7とt、、の信号は共に、第6図について以
下に論するように、5時間単位早い音声信号に対応する
。パラメータインデクスは“mlから“n”へ変化し、
抽出されたデルタ時間と積分エネルギー信号が音声信号
の一定区画のみ、即ちそれに対して検出信号がアサート
される区画に対して生成されることを強調する。
検出信号22Aはベクトルqs130と共に、第6図に
示す受容フィールドプロセッサ24へ印加される。積分
エネルギー信号22Bは第7図に示す適応正規化器26
へ印加される。デルタ時間信号22Gは、第12図に示
すようなプロセッサ36の3重ベクトルの構造と共に、
第16図と第17図について以下に論するような評価積
分器46へ印加される。
さて、第6図について述べると、検出信号22Aは、受
容フィールド202、即ち、信号区画122時間単長を
カバーする周波数情報を含むq、ベクトル群を組立てる
受容フィールド抽出回路200を付勢する。検出信号は
受容フィールドの中心の信号区画、即ち、5時間単位早
い信号区画に対応するか、受容フィールドマトリックス
202中のm−5列に対応する。遅れはデルタ時間とエ
ネルギー検出プロセッサ22(第5図)によりつ(りだ
される積分エネルギー信号を、それに対して検出信号が
アサートされる信号区画をできるだけ近くに心取りする
受容フィールドと同期させるために必要である。受容フ
ィールドは比較的大きく、122時間単であるため、検
出信号をせいぜい3時間単位毎に1に制限する際に情報
は失われない。
平均回路204は受容フィールドマトリックス202の
隣接しあうベクトルの数対を平均化する。
即ち、要素qOIII−1(lとq 6+ lI−1゜
は平均化され、要素qo+s−qとq (1+ a−1
は平均化される等である。
この処理によってデータは2分の1だけ短縮し、マトリ
ックスU、1206を生成する。パラメータインデクス
は再び“m”から“nlへ変化し、受容フィールドと積
分エネルギー信号が音声信号の一定の区画に対してのみ
つくりだされることが強調される。
上記音声認識システム−Iは、データを3時間単位にわ
たって平均化することによって3分の2だけ短縮する。
短縮されたデータはその後非線形処理に附される。然し
なから、本システムを使用すれば、マトリクス要素を2
つの時間単位について平均化しそれ以上のデータを保持
することによってすぐれた分解能が得られる。受容フィ
ールド非線形プロセッサ28内でのデータ短縮の改善(
第8図と第9図に関して以下に論する)のために「余分
の」データがプロセス中のこの時点で保持される。
マトリックスU、206は、次に第7図に示す適応正規
化器26に附勢される。適応正規化器26は、固定パラ
メータ平均uijを減算しその後固定パラメータ標準偏
差δfJにより除することによってマトリクスv1をつ
くりだす。固定パラメータ平均値と標準偏差値とは第1
9図について以下に論するような開発データベースから
計算される。
もし進入する音声信号の統計が開発データベース内のデ
ータのそれと十分近似していれば、「正規化」されたマ
トリックスV、210はゼロに近い平均値を、lに近い
標準偏差値を有する。然しなから、進入する音声信号の
統計は開発データベース内のデータのそれよりも幾分異
なっている可能性がある。事実、開発データベースから
の個々のボイスサンプルは総体としてのそれらと異なる
統計を備えている可能性がある。それ故、個々の音声信
号については、我々は、マトリクスv7がゼロと異なる
平均値を、1と異なる標準偏差値を備えていることを予
期できる。従って、第7図の回路内に一層の適応正規化
が行われ、少なくともその平均値がゼロ方向に減衰でき
るようにしている。
もしマトリクスV、1210データがそれに対して積分
エネルギーt、22B (第5図)が所定値を上廻りS
N比が高く従って有声音を示す音声信号区画に相当する
ならば、データはブロック212−218内でそれらの
適応平均値を計算した後、その平均値をブロック220
内で減算することにより更に処理される。まづ、データ
は、ベクトルWイ214を生成する回路を平均化するさ
いに時間について、即ちマトリクス行について平均化さ
れる。かくして、ベクトルW、は信号周波数情報のみを
含む、この情報は話者の声と音響チャネルを適切に特徴
づける。これらの特性は時間については、殊にマトリッ
クスデータに対応する時間については著しく変化しては
ならない。このようにデータを時間について平均化する
と、それらは105パラメータ、即ち、マトリクスy7
の105の要素から21のパラメータ、即ち21のベク
トルWゎ要素へ短縮される。
ベクトルW、214の要素は、指数関数形平均化回路2
16へ加えられる。かくして指数関数形平均化回路21
6は、エネルギー検出プロセッサ22(第5図)で計算
された積分エネルギーt、。
22Bをエネルギー検出プロセッサ22内で使用される
検出スレショルド値よりも高い所定のスレショルド値と
比較する。かくして、平均化回路216は何れの信号区
画が高いSN比を有するか、即ち、何れの区画が大きな
音声成分を有するかを検出する。
もし積分エネルギーが「ボイス」スレショルド値を上廻
らなければ、適応平均ベクトルX′218は、それが先
の事例X′、、であった状態にとどまる。この場合、指
数関数平均値は、以前遺りブロック220内で減算され
るが、平均値それ自体は適応しない。ボイススレシぢル
ド値を上廻るエネルギー値を有する信号区画は、一方で
は、無声音の摩擦音曲又は鼻音韻に相当するが、同時に
他方では、話者による呼吸や、特に呼吸群の終りのその
他の静騒音に相当する。かかる低エネルギー信号区画は
音韻を認識する目的でベクトルW1の平均値を特徴づけ
る上では信軽がおけないかもしれない。
個々の音韻に対しては比較的長いが一連の語又は句を比
較した時には短い期間を用いて指数関数平均化を実行す
る。そのため平均化は単一の音韻に関連するデータに対
しては大きな影響を及ぼさないが、複数の語又は句に関
係するデータの平均値は実際にゼロ近くに短縮する。
使用される時間はシステムが音声を処理している時間の
長さに依存する。殊に、指数関数平均化は、十分なエネ
ルギーを有する例えば100の受容フィールドに対応す
る短い期間、(はぼ3.6秒)又は十分なエネルギーを
有する例えば300の受容フィールドに対応するより長
期の期間(はぼ10秒)の何れかについて実行される。
時間の長さは積分エネルギー信号22Bがボイススレシ
ョルドを上廻った時間数、即ちt1≧25に依存する。
システムが新たな話者に出会う際には、より短かな期間
が使用される。それ故、システムは話者の特徴と音響チ
ャネルの特性にすばやく適応する。その後、システムは
長い方の期間を使用して話者の音声を処理する、何故な
らば、話者の声の特徴と音響チャネルの特性とは比較的
一定と想定されるからである。
いったん適応平均ベクトルX’、21Bに対する計算が
完了すると、適応平均ベクトルはマトリクスVa210
要素(ブロック220)から減算され、マトリクスX、
222をつくりだす、有声音を含む音声信号を表わすマ
トリクスX7中のデータの長期間にわたる平均値は今度
はゼロに近くなる0次に、マトリクスx1は第8図と第
9図のブロックダイアグラム中に示す受容フィールド非
線形プロセッサ28に加えられる。
哉々の先の出願中に説明した対応する非線形処理と比較
すると、第8図と第9図の非線形処理はそれより少ない
非線形要素を計算する。第8図と第9図の以下の所論よ
り明らかになるように、計算される要素数の減少は時間
依存性の局面を表わす多くの非線形積を処理するが異な
る周波数成分どうしの間の相互作用を表わす大部分は保
持することによって行われる。即ち、我々は音韻識別に
とっては後者の積の方が前者よりもずっと重要であると
考える。その結果、我々は初期の処理においてより多く
のデータを保持することによってより高度の分解能デー
タを我々が実際に計算するより重要な非線形積の計算に
供給することができた。
第8図と第9図において述べると、マトリックスX、2
22の要素はブロック224−234において一次項と
して組合されると共に特有の部分外積としても組合わさ
れる0本質上、−次項と部分外積は受容フィールドの時
間次元について加算される。これら特殊積は音声信号に
関する一定の情報を伝える一方、データをもし連続した
外積、即ち、異なるマトリクス要素対の積が全て計算さ
れた場合のデータより相当少なくするように設計される
。初期の音声認識システム−Iは処理のこの点で連続し
た外積を計算するため、データは先の処理中に相当短縮
されることが必要である。他方、本システムは、この非
線形処理ステップのためにこの時点までより多くのデー
タを保持することができるため、入力データの優れた分
解能を維持することになる。
受容フィールド非線形プロセッサ28は4個のベクトル
群を生成する。各ベクトル群はベクトルYFlsZ”+
n′および2.1′を含み、異なる時間遅れと関連する
。Y、7ベクトルは2つの関連する“Z”ベクトルを形
成する際使用された項の一次組合せであるデータを含む
*Z”*nベクトルはエネルギーを用いて形成された一
定の部分外積を組合せる結果、又は種々のマトリクスX
、222列内の第1項群を含み、Zベクトルは非エネル
ギー又は周波数を用いて形成された特殊な部分外積の結
果、マトリクスX。1列の項を含む、これらベクトルの
各々の形成は以下に論する。
受容フィールド非線形プロセッサ28内では相当の時間
平均化が行われる。−音韻は一つの受容フィールド内で
は「静止」しているためその受容フィールド内の所与の
周波数列の位置は有益な信号情報をあまり伝えないもの
と仮定する。然しなから、受容フィールドの時間窓につ
いて平均された周波数列の非線形組合せは音声認識に有
益な情報を現に表わす。
上記の如く、4つの時間差区画の各々について一つのベ
クトル群が形成される。それ以上の時間差についてのベ
クトル群は、より大きな時間差に対する分散に関する情
報は殆んど重要ではないと思われるから、計算されない
殊に、ゼロの時間差(Δ=0)のベクトル群は、ブロッ
ク224−228 (第8図)で形成される。
ブロック224は、マトリクスX、222の列の全てに
おける最初の要素を共に加算することによってベクトル
Y0.7の第1の要素を生成し、全列内の第2の要素を
共に加算することによって第2のベクトル要素を生成す
る等である。従って、ベクトルY、、1はその要素とし
て時間について合計されたマトリックスデータを有する
ベクトル群中の第2のベクトル、ベクトルZ”6+lI
は列の第1の要素であるマトリクスエネルギー環を用い
て形成される。ブロック226は各列について同一列中
のエネルギー環とその他の全ての要素の積を形成する。
積はその後合計されてベクトル2・。、1の要素を形成
する。ベクトル要素はかくして一定時間について合計さ
れたエネルギー積となる。
時間差ゼロの場合のベクトル群の第3のベクトル;ZO
+1%はブロック228で形成される。このブロックは
、マトリクスX、222周波数要素中の、即ち1列中の
全要素中の積を第1のものは除き全て形成する。この場
合、これらの積を全て別々にとって外積を使用すること
ができよう。その代わり、これらの積から自動相関にお
けるものと類似の和が形成される。この和はそれが単一
列の周波数要素内から形成されるためにブロック228
内で「自己槽」と称される。この自己槽はその後時間を
経て、あるいは全列にわたって合計される。
全外積の代わりに周波数列内に自己槽を取り入れると、
出力ベクトルはもし全外積が計算された場合にとる値よ
りも戦略的に小さくなる。このため、非線形プロセッサ
はより多くの信号周波数データ、即ち高い周波数分解能
を有するデータを含む、より大きな入力ベクトルを処理
することができる。
時間差11,3についてのベクトル群は第9図に示すブ
ロック230−234内で計算される。
ベクトルY、7は2つの関連する“2゛ベクトルを形成
する際に使用される全要素の線形組合せを含んでいる。
かくして、lの時間差(Δ−1)については、ベクトル
y1,7は1列離れた、即ち隣接する要素全体の組合せ
を含む0時間差2と3のy、ベクトルは、少なくともそ
れぞれ2、および3列離れた要素全体を組合せることに
よって形成される。
ベクトルZ”l1Mはエネルギー環を1列離れたマトリ
クス要素と結合することによってブロック232内で形
成される。同様にして、ベクトルz3.7はブロック2
34内で1列離れた周波数要素を結合することによって
形成される。かくして、“Z”ベクトルは適当な時間差
に関連する列からエネルギーと周波数項の一定の組合せ
を表わす要素を含む0時間差2と3(Δ=2.3)につ
いてのベクトル群は、それぞれ2列と3列離れた要素を
組合せることによって形成される。
ベクトル2.7はブロック234内で数対の列から周波
数項の積全体を結合することによって形成される。上記
積は、周波数ベクトルどうしの間の相互関連のそれと同
様に合計される。ブロック234内の和は、周波数要素
と2個の異なる列間で形成されるため、「クロス乗積」
と称される。
このクロス乗積は、その後一定時間にわたって、即ち時
間差Δに追従する数対の列全体にわたって合計される。
更に、戦略上ブロック234のクロス乗積をとると全外
積が計算された場合に得られるものよりも出力ベクトル
が小さくなる。この場合、入力ベクトルは大きくするこ
とができる。
その後、ベクトル群がブロック236内で鎖状結合され
、データの非線形表示である431要素ベクトルa、、
238が形成される。ブロック236中の上付き文字“
T”は、ベクトルを書き替え転置したことを示す。
ベクトルa、238は、第1O図に示す第2の非線形プ
ロセッサー230 (第2図)に加えられる。ベクトル
a7の要素はまづ相関関係を解かれ、それらを固有マト
リクスEzhにより乗することによりデータ短縮される
。固有マトリックスEm&は第22図に示すように開発
データベースから形成される。固有マトリクスEi16
はベクトル群に対応する開発データから計算された26
の最大固有値に相当する固有ベクトルを含む。かくして
、afiを固有マトリックスによって乗すると、データ
は最大分散を表わすものとして選択された26の固有ベ
クトルの方向に位置するaい成分に還元される。
データはベクトルミツ内の431の要素からベクトルb
イ242内の26の要素へ短縮される。
そのようにデータを短縮することによって、信号分散に
関する情報のほぼ96%が保持される。完全な信号情報
を保持することと非線形処理に付されるパラメータ数を
制限すること、従って、パラメータ数の幾何学的展開の
間の妥協は重要な信号情報の多くを犠牲にすることなく
実現することができる。我々は、最大固有ベクトルに相
当する情報を選択することによって一層の処理後に音韻
認識にとって最も重要な情報を選択することになるもの
と確信している。
その結果として得られる26の要素ベクトルb、124
2は固定パラメータ正規化−2ブロツク244内で正規
化される。ブロック244内に示す平均値μ、1は開発
データベース中の26の要素ベクトルb、1群内の相当
する要素から形成される。平均値の形成は、第23図に
関して以下に詳論する。かくして、進入する音声信号に
ついて発生したベクトルb、1の26の要素は開発デー
タベース中の対応する要素の平均値と比較される。実際
の値ではなく相対的なデータ値が音韻評価にとって重要
である。平均値は、はとんど情報を追加しないからベク
トル要素から除去される。この正規化処理のステップは
以後の実施例からは省略することができる。
26の「正規化」ベクトルca246要素の全外積はそ
の後ブロック248内で形成される。その結果は、適応
受容野マトリクスX、222(第7図)に対して第3次
と第4次項を含む351要素ベクトルdll 250で
ある。このベクトルd、%はベクトルa、、23Bの要
素と鎖状結合され、782要素ベクトルe、254を形
成する。鎖状結合されたデータは、その後正規化プロセ
ッサ32 (第11図)に加えられる。
第11図について見ると、ベクトル8.254は、ブロ
ック256内で別の固定パラメータ正規化処理に付され
る。その後、データはベクトルf、258内でベクトル
毎の正規化に附される。
即ち、それぞれの個別ベクトルfnは正規化されること
によって、その782要素を横切る平均値がゼロ、標準
偏差が1となるようになっている。
結果として得られる正規化されたベクトルg1262は
音声要素モデル−1プロセツサ264へ加えられる。か
くして、データは一組の音韻モデル評価に還元される。
それ以降の非線形処理はその還元データに対して行われ
、どの特定音韻をデータが表現しているかをより良く評
価することができる。
音声要素モデル−1プロセツサ264は、正規化された
ベクトルg、262にカーネルに1を乗する。カーネル
に1は開発データベース内のデータを使用して計算され
る特殊音韻標識に関するバラメータを含んでいる。カー
ネルに、の形成は第28図に関して以下に論する。かく
して、音声要素モデル−1プロセツサ264は進入する
音声信号に関するデータを、即ちベクトルg7を、戦略
的に782要素から94要素へと短縮する。
短縮データを含むベクトルh、1266は、その後、第
12図に示すプロセッサ36中で先の2つの期間からの
ベクトルと鎖状結合される。同様に、プロセッサ36に
は第5図からのデルタ時間信号22Cが人力される。殊
に、ベクトルh、とデルタ時間信号22Cとは共にそれ
ぞれれバッファ300aと300bに付与され、そこで
先の2つの期間に対する値がそれぞれストアされる。か
くして、2個のバッファは同じ3つの時間単位長の期間
に関する情報を格納する。もし2つの連続するベクトル
が12ミリ秒よりも長いデルタ時間信号に相当するなら
ば、我々は上記ベクトルがオーバーラツプしない受容野
より導出されるものと想定する。そのため、ベクトルは
、デルタ時間、即ち、バッファ内の第1又は第3のベク
トルの何れかについての情報を殆んど又は全く追加する
ことはないであろう、その情報は音韻評価を中心ベクト
ルhnに割当てる上で役立つものである。従って、第1
又は第3のベクトルの何れかは、何れのデルタT値が1
2ミリ秒より大きいかによって全てのゼロと置換される
。このため、ベクトルp7306を構成するブロック3
04内で鎖状結合された3重ベクトルは非連続データを
含まないようになる。
3重ベクトルp、306は、かくして、3つのオーバラ
ップ受容野から導出される連続音声中の拡大「窓」をカ
バーする。続くモデル化において、大きな窓と関連する
特殊音韻標識は中心受容野のそれであり、認識される音
韻はその大きな窓のできるだけ中心に位置するようにな
っている。例えば、  thousand ”  (サ
ウザンド:千)という単語の″ ou   (アラ)の
ように、多くの音韻は比較的長期間にわたって、より明
確に聞き取れるため、この大きな窓を用いてより容易に
認識されるはづである。然しながら、もしシステムが早
口の音声に相当する音声信号を受取る場合には、時間間
隔が長いと一つの窓につき一個以上の音韻が生ずる可能
性がある。−層の非線形処理と音声モデル化によってシ
ステムはかかる音韻を認識分離することが可能になる。
第12図について述べると、処理のこの時点で音韻評価
時間窓を大きくすると受容野の大きさ、即ち、関係する
期間を大きくする場合よりも音韻認識にとってより効果
的である。即ち、受容野によりカバーされる期間を大き
くすると、データの分解度が同一である限りパラメータ
数が増加する。
その後、システムが処理しなければならないパラメータ
数を不当に大きくせずにより大きな受容野を用いて非線
形処理を実行するには、データの分解度は、時間単位で
あれ、周波数分布についてであれ、小・さくしなければ
ならない。受容好期間を長くせずに、処理のこの時点で
、即ち、第一の音声要素モデル化ステップが特定の音声
要素に関するデータを選択することによってデータを短
縮した後°に長くすると、システムはデータパラメータ
数を不当に増加したりデータの分解能を低下させたすせ
ずに進入する音声信号の長い区画を表わすデータを観測
することが可能になる。
更に、第12図について述べると、音韻評価時間窓を拡
大することによって初期の音声認識システム−Iの前後
関係依存標識の幾つかを除去することができる。音声認
識システム−■は前後関係によって音韻標識を変更する
0例えば、もし一つの母音の直前に無声音子音又は有声
子音が先行する場合には、その母音の標識はそれに従っ
て変更されることになろう。その結果、音韻標識、殊に
母音のそれは増加する。本発明のシステムでは、然しな
から、大多数の音韻は一つの標識しかもたず、データの
非線形性が大きくなると音韻標識の前後関係は語/句判
断器14に伝えられる。(第1図)判断器内にストアさ
れる標識数、従ってスペリング数は、相当少なくなり、
適当な語句をサーチする速度はスピードアップする。
さて第13図について述べると、第12図からの出力3
重ベクトルp、306は、第3の非線形プロセッサー3
38へ付与される。この非線形プロセッサは、2つの相
異を除いて、第10図に示す非線形プロセッサー230
と同様である。
まづ、この場合には何ら固定パラメータ正規化は行われ
ない。第2に、しかもより重要な点であるが、この場合
スレショルド値が存在する。
プロセッサー338で外積を形成する前に、データはブ
ロック308内でのスレショルド値と比較される。上記
スレショルド値はゼロにセットされる。ベクトルp、3
06は各音韻の可能性の評価値を含んでいる。そのため
ゼロを下廻るベクトルpmの一要素は、音声要素モデル
1−1264(第11図)により処理されたばかりの音
韻が鎖状結合窓中の相当する位置には生起したことはあ
りそうにないことを示す。
スレショルド値308を付与する根拠は次の通りである
。即ち、ベクトルp、306がブロック312内で固有
ベクトル成分に分解された後、ブロック316内の外積
を通過するため、ベクトルの大きさは著しく拡大するた
めである。ベクトルサイズの拡大は、続く処理において
相対的に大きな数のパラメータがベクトルの処理に捧げ
られることになるということを意味する。そのため、ベ
クトルサイズの拡大前に出来るだけ大きな情報をもった
ベクトルを形成するように注意を払うべきである。パラ
メータを最も効率的に活用するためには所与の時間に生
じなかったと思われる大多数の音韻のモデル値を無視す
るがよい。これらの音韻は、ゼロを下廻るモデル値を有
することになろうが、どの程度下潮るかはどうでもよい
。その代わり、スレショルド値308が与えられて、更
なる非線形処理に付されるものは、生起した可能性のあ
る音韻と関連する音声モデル値によって特徴づけられる
ようになっている。
更に第13図について述べると、所定スレショルド値を
下廻るベクトルp、306成分は、データラフロック3
12内の固有マトリクスE33により乗することによっ
て戦略的に相関関係を解除され短縮される。固有マトリ
クスE33は、以下に第29図に関して詳論するように
、ベクトルq7310に対応する、開発データベース内
のデータから計算された33の最大固有値と関連する固
有ベクトルから形成される。かくして、データは33の
最大固有ベクトルの方向に位置するデータの成分のみを
更に非線形処理すべ(選択することによって短縮される
。信号情報の保持と非線形処理に付されるパラメータ数
の縮減との間の妥協によって、この処理時点で信号分散
を説明する情報のほぼ50%が保持される一方、非線形
処理に付されるパラメータ数は282から33へ減少す
る。
その結果得られるデータ値、ベクトルr、314がブロ
ック316へ附勢され、そこで完全な外積が形成される
。外積の結果はその後、ベクトルp、306と鎖状結合
され、843要素ベクトルt、320が形成される。こ
のベクトルは、ベクトルpn306の全成分だけでなく
、高次の非線形性を備えた項を含むため、スレショルド
値を下廻るデータだけでなく、それに対して非線形プロ
セッサー3が処理を施したデータを格納している。
その後、843要素ベクトルtR320は、第14図に
示す第2の音声要素モデル−2232へ付与される。音
声要素モデル−2プロセツサは、データを音韻固有のカ
ーネルに、により乗じてベクトルμ、324をつくりだ
す、ベクトルμ7は音韻評価値を含む。カーネルに2は
、以下に第32図について述べるように開発データから
作成される。
次に、音韻評価値は確率比プロセッサ42に付与され、
同プロセッサ42は、それぞれの評価値をその音韻が存
在する確率の対数に変換する。各音韻の確率は、その音
韻が存在しない時とする時との評価値の分布状況が正常
であると仮定して計算される。対数によって、データに
対するそれ以降の数学的演算がその後、時間のかかる確
率比の乗算でなくて簡単な加算として実行できることに
なる。
その結果ベクトルV、328内に得られる確率比の対数
は第15図の音韻評価再構成プロセッサ44へ付与され
る。上記再構成プロセッサ44はデータを語/句判断器
14により取扱い容易な形式に処理する。(第2図)上
記再構成ステ、7プの若干は、望ましい例で使用される
特殊な語/句判断器用にデータを処理するように設計さ
れている一方、音韻評価値を再構成することによって行
われるデータの簡単化と整理は、システム内にどのよう
な語/句判断器が使用されるかに関わりなく、適当な語
句の判断を簡単化することができる。
音韻の再構成プロセッサはデータを処理することによっ
て各音韻が一つの標識によってのみ表現されるようにな
っている。従って、語/句判断器14は、各々の語句に
つき特定の音韻と一つのスペリングを表示することによ
ってストアしソートすればよい。
それぞれの音韻評価ベクトルは、一つの音韻と関連する
評価値を含むべきである。然しなから、ベクトルのうち
の若干は表S(第35図)に提示するように2重音評価
値を含んでよい。かかる音韻評価ベクトルは第15図の
ブロック330では構成音韻に分割されている。2重音
の第1の部分の評価は時間と共に逆移動し初期の信号区
画から信号に加えられ、2重音の第2の部分の評価は時
間と共に前進移動し、後の時間区画内に存在する任意の
信号データへ加えられる。音韻の順序が重要である一方
、音韻の時間配置はそうではない。
それ故、2重音を構成音韻へ分離し同音韻を時間と共に
移動させてもその評価の語句に対するマツチングには影
響を与えることはないであろう。
いったん2重音が構成音韻に分離されると、音韻はブロ
ック334で語/句を発音するために必要な最小の組の
音韻に短縮される。かくして、個々の音韻スコアは結合
されて、マイナススコアは無視される。
簡単化された音韻評価値が音韻評価積分器46へ付与さ
れる。(第16−18図にブロック線図で示す、)第1
6図について述べると、所与の音韻に対するスコアは、
ブロック338内でエネルギー検出プロセッサ22(第
5図)からの関連するデルタ時間信号22Cと共に一定
時間にわたってグループ化される。一つの所定音韻に対
するスコアはその後ブロック344.34B (第17
図)において一つの時間位置へ整理統合される。
さて第17図について述べると、合計された音韻評価ス
コアが最も近い「セントロイド」時間、即ち、特定の音
韻が発される加重期間の中心を示す時間と等しくされて
いる。この期間内の時間は音韻評価値により重みをつけ
られている。その後、それと関連する音韻標識コード、
音韻評価値、および生起のセントロイド時間が、ブロッ
ク352中に示すようにメモリーの10ケーシヨン内に
ストアされる。メモリは第18図のブロック352によ
りアクセスされ、正確な時間順序を与えるように生起の
セントロイド時間により入力が順序づけられる。出力音
韻評価C,358と、それに関連するデルタ時間値d、
は、その後、語/句判断器14(第2図)によりアクセ
スされる。添字はn゛から“m゛へ再度変化して、第1
8図の出力が入力のタイムベースと異なるタイムベース
を有することを示す。
音声要素モデル1−2プロセツサ40の動作と、システ
ムによりつくりだされる音韻評価の再構成と整理統合は
“yes terday ”という単語の処理を考察す
ることによって図解されている。音韻評価標識はノイズ
や悪評価は無視して音声要素モデル1−2プロセツサに
より音声に付与される。即ち、J:3;3F、:E: 
 S;1so1.t;tR;Rd;d  i daT 
;eT iである。
この場合、我々は若干の異なる音韻の可能性の例を有し
ている。これは音韻が明瞭に分節された音声中に現われ
るやや概略化した例である。リストした要素の各々は、
それぞれが検出された受容野に対応する音声内の隣接窓
中に出現するであろう音韻を表わす。音節主音形の“J
”は、あたかも“ee−ソesterday ”と発音
されたかのように“j”に先行する。上記“j′″は更
に2重音“jE”内にわたり出現する。次の窓は母音“
E゛を反復する。“S”の最終形は“−5”の如(次に
出現して、摩擦音の前に何か有声音が聞きとれるが母音
として識別するには十分でないものが存在することを示
す、無声音s topのt″は、この場合、その分離形
“1so1.t”でまづ表現され窓中には何の有声音も
聞えないことを示し、その後その初期の形“t”で表現
される。次の窓は2つの音韻を含むが、もう一つの音韻
類の“t”と音節主音の@R″であって、後者は次の窓
で反復される。次にまづ“d″が音節末尾前の“d”と
して現われ、その後その“橋渡し”形の“−d−”とし
て現われた後、音節初頭の“d”として現われる。上記
橋渡し形は窓中に“R”と音節最後の母音“eビからの
有声音を含んでいるが、それらの各々はそれらを同一の
窓の中に橋渡して標識化することを正当化するには十分
ではない。音節最終母音は繰返される。
ブロック330(第15図)は2重音“JE”をその構
成音韻に分割している。即ち、J iJ ; j :E
;E;  3 ;ids、t ; tR;Rd;  d
Hdel;el;である。
ブロック334はその後音韻標識を次の通り簡単化する
J i J * J * E ; E : 3 i L
 i L Ri Rd i d ;d e I ; e
 I ; 最後に、評価積分器46 (第16−18図)はそれぞ
れの音韻のデータが処理される。その後、処理の種々の
時点でそれと関連する音韻を特徴づける上で有益な種々
のパラメータが開発データベース全体について計算され
る。これらの計算された、又は固定されたパラメータは
その後未知の音声を表わす進入信号に対して音韻評価値
を計算する上で使用される。
第19図について述べると、要素の各々について平均値
μi+jが計算され、“N”マトリクスU、206のμ
i+ J+ hは開発データから作成される。まづ、開
発データ内のURマトリクスの各々から対応する要素が
平均化され、種々の平均計算値を要素として有するマト
リクスμ402が得られる。次に、μイマトリクスの対
応要素の標準偏差値σi、Jが関連する平均値μi、J
を用いて計算され、種々の計算された標準偏差値を要素
として有するマトリクスσ404が得られる。固定平均
パラメータと標準偏差パラメータとはその後、適応正規
化器内で使用され、進入する未知の音声のために作成さ
れたマトリクスUnの各要素を正規化する。
第20図は種々の固有マトリクスを計算する際に使用さ
れる共分散マトリクスR410を定義したものである。
開発データ用に作成したN入カベクトルa、4o6に対
応する共分散マトリクスRはブロック408に示すよう
に計算される。その後、共分散マトリクスRを使用して
第21図に示すような固有ベクトルとそれに関連する事
例を整理統合することによって多数の事例が除去される
ようになっている。
即ち、J i E; S; tR; d ; e I 
:それぞれの音韻はこの場合、あたかもそれが一つの生
起セントロイドタイムで生じたかのように処理されてい
る。これらセントロイドタイムは最早、モジュロ−3の
検出制約には委ねられない。
(ブロック134、第5図)然しなから、種々の標識の
順序はその単語の正確な音声通りのスペリングを確保す
るために保持される。
この例の場合、統合された“t”は音声主音の“R゛と
同一の窓に割当てられる点に注意されたい。このことは
2個の音韻の生起のセントロイドタイムが十分近接して
いる場合に生ずることになろう。
バjノ:!本1戊 音韻評価値を計算する際に使用されるパラメータの作成
は第19−35図について論する。第19図は適応正規
化器26(第7図)内に進入する音声に相当するデータ
を正規化する際に使用される固定パラメータμi+jと
σ41、の計算を示すものである。処理全体を通して使
用される固定パラメータは平均値と標準偏差値を含めて
、開発データベース中のデータを使用して計算される。
開発データベースは公知の音声信号から作成される。上
記の公知の音声信号は音声プロセッサへ印加され、第3
−18図に示すような固有ベクトルを計算する。
第21図について見ると、ブロック12内で固有値が計
算され、順序づけられる。その際、ベクトルb、(41
4から)は最大の固有値を有する固有ベクトルであり、
bA−1は最小固有値を有する固有ベクトルである。そ
の後固有ベクトルはそれぞれを対応する固有値の平方根
によって除することによって正規化し、ベクトルb’ 
 420をつくりだす。第10B正規化固有ベクトルは
、即ち、最大のB固有値に相当するB正規化固有ベクト
ルは[固有マトリクスE、424Jに組立てられる。固
有マトリクスE9は定義上、正方形マトリクスである必
要はない。ブロック422内の肩文字“T゛はベクトル
の転置を示す。
第22図は非線形プロセンサー230(第10図)に使
用される固有マトリクスEZ6432の計算を示す。固
有マトリクスE0は第21図に関して説明される計算方
法を使用して計算される。固有マトリクスの計算に必要
な共分散マトリクスR410は、第20図に示すように
、開発データベースから作成される。その後、最大の固
有値と関連する26の固有ベクトルを格納する固有マト
リクスEz6を使用して、非線形ブロモ・ツサ−2(第
10図)のブロック240中の進入音声に関するデータ
の相関関係を解除する。
第23図は、固定パラメータ正規化−2プロセツサ24
4(第10図)に使用される平均値の計算を示す。プロ
セッサ244は選択した26の固有ベクトルと関連する
26のデータ要素を正規化する。かくして、N開発デー
タベースベクトル(ベクトルb、242に相当する)の
要素の平均値が計算される。
第24図は、同様にして、第11図に示す固定パラメー
タ正規化−3プロセツサ256に使用されるパラメータ
の計算を示す、開発データベース内の対応するNベクト
ル8.254の平均値と標準偏差値とが計算され、計算
された平均値を含むベクトルμ440と、計算された標
準偏差値を含むベクトルσ442が得られる。
第25図は音声のマーキングを示す。開発データ人力音
声信号5(t)の区画は抽出されて“窓”をベクトルS
、446により表わされる音声に形成する。窓は時々、
同様にベクトルh、1266(第12図)により表わさ
れる受容野マトリクスU、1206(第6図)の時間幅
と対応することもあれば、ベクトルp、306により表
わされるオーバーランプ3重ベクトルの時間幅に対応す
ることもある。(第12図)前者の時間幅は入力音声信
号5(t)の1184のデータサンプルに相当し、後者
の時間幅は1760の同様なサンプルに相当する。第2
5図のブロック444は長い窓の抽出を示す。もし短い
窓を選択すると、窓は要素S’lll+6.ゎの廻りに
集中する1184のサンプルにより構成されることにな
ろう、窓の形にされた音声は、その後、ブロック448
に示すようにその音声を聞く人によって音韻と関連づけ
られる。音声を聞いている人は、そのためかかる窓をそ
れぞれ自分が聞く特定の音韻を含むものとして注意する
ことになる。
その聴者により選択される聞き取りの時間幅は、聞こえ
る音韻数と、音の明瞭性とに依存する。窓が長い場合の
音韻は聞きとりやすいことが多いが、そうすると一つの
窓に多くの音韻が導入され、従って、マークするさいの
曖昧さが多くなる。このように、その選択は間こえる音
声の明瞭さと合成標識の時間分鮮度との間には相背反し
あう関係が生ずる。もし短い窓について全てのマーキン
グが行われれば、標識は音声要素モデル−1264(第
11図)により使用される音声の時間幅に対応すること
になろう。標識はこのモデルに「マツチ」するであろう
が、音声要素モデル−2322(第14図)には「ミス
マツチ」することになろう。同様にして、もし全てのマ
ーキングが長い窓について行われれば、標識は第2のモ
デルにマツチするであろうが、第1のモデルにはマツチ
しないであろう、理想的にいえば、標識は、それらが使
用されるモデルに常にマツチし、聴者は2つの完全な標
識集合を生成することになろう、然しなから、窓の幅が
異なる場合に間こえるもののうちには大きな共通性があ
る。音声をマークする負担を軽減するために聴者はそれ
ぞれの標識事例について窓時間幅を最大限有利に選択す
ることができる。
第26図は聴者によりマークされた後の標識の処理を示
す、もし2個の音韻が一つの窓の中に聞こえると、それ
らはブロック450中に示すような2重音標識にマツピ
ングされる一対を構成することができる。もし一つの音
韻のみしか一つの窓中に聞こえなければ、その音韻はプ
ロ・ツク452中に示すように別個の音韻標識にマツピ
ングされた無声子音のうちの一つであり得る。もし2つ
以上の音韻が聞こえると、数対の音韻が2重音標識にマ
ツピングされて、他のものは単一の音韻にマツピングさ
れることができる。この最後の場合、もし窓が長いもの
であれれば、音声をマーク中の人物は短い窓を選択し、
更に一つの窓で聞こえる音韻数を減らして聞くことがで
きる。マツピングはマーキングが完了した後に自動的に
行われる結果、聴者により入力される実際の標識は保存
される。
表1 (第36図)には音声をマークするために選ばれ
る標識が示されている。これら音韻標識は一部は経験に
基づいて選択される。例えば、経験によれば、特定の音
韻が別の音韻に続いて現われることがあることが知られ
ている。これら標識の幾つかはその後洗練して例えば順
序立った音韻とく又は)幾つかの音韻の組合せを2重音
へ包含する。処理全体を通して使用される標識の数は先
の音声認識システム−I内に使用される標識数よりも大
きい。かかる多数の標識が使用されるのは、一つの音韻
の開始、従って処理の開始を指示するためにトリガ機構
が活用されるような以前のシステムと異なって、本シス
テムは信号区画窓内の何処にも一つの音韻を検出でき、
処理を例えば一つの音韻の中間で開始できるためである
。かくして、システムはより多くの標識を使用して、そ
の後の処理のために検出音韻の前後関係を伝えることに
なる。
更に第26図について述べると、1個の信号区画に付与
された標識がブロック454中にコーディングされて標
識ベクトルL、456を形成している。標識ベクトルL
、456は、ブロック450と452内に発生する新た
な音韻標識と共に表1(第36図)に示す94の可能な
音韻標識のそれぞれを表わす要素を含んでいる。その結
果生ずるベクトルは区画内で聞こえる音韻標識用の1の
要素と、聞こえない音韻標識について0の要素を備えて
いる。その後標識ベクトルは第27図に示すパラメータ
開発回路に付与される。
第27図は結合カーネルに、476(第28図)を作成
する際に使用される固有マトリクスE462とカーネル
に470の計算を示す。共分散マトリクスRが開発デー
タベースベクトルg、262について計算される。ベク
トルg、、は信号データ表現であって、その後音声モデ
ル−134(第11図)に付与される。計算された共分
散マトリクスRはその後、第21図に関して上述した計
算に続いて関連する固有マトリクスEを作成するために
使用される。
ベクトルg、262はその後固有マトリクスE462を
乗ぜられ、相関関係を解かれたデータ短縮ベクトルhア
466が形成される。相関関係を解かれたベクトルh、
は、ベクトルg、l中の音声データの782の要素に対
して、650の最大固有値と関連する650の要素を有
する。かくして、パラメータの数は戦略的に縮減され、
音声認識にとって最も重要なデータが保持される。保持
された情報は信号分散のほぼ99.97%に関する情報
を含む。この時点でデータを縮減すると音韻評価で重要
な情報の多くを犠牲にせずに関連するカーネルに470
と共に結合カーネルに′の大きさをより管理可能な大き
さに縮減できる。
その後、650の要素ベクトルh、466を使用してカ
ーネルに470を計算する。カーネルにの要素の各行に
目は標識ベクトルL、456の対応する要素にベクトル
h7の要素で乗することによって形成される。標識ベク
トルL、456の要素は、開発データベース内のN標識
ベクトルの要素から作成された平均値を減することによ
り正規化され、その後乗算処理が施こされる。
カーネルに470はカーネルに′を計算する際に使用さ
れる。上記カーネルはその後第28図に示すように“結
合”カーネルに、476を計算するために使用される。
カーネルには、まづその要素の各々を関連する標準偏差
値によって除すことによって正規化され、K1がつくり
だされる。正規化されたに′はその後、固有マトリクス
E462となる。結合カーネルKIはその後音声要素モ
デル−134内で予備ラベルを進入音声に付与しデータ
を可能な標識の部分集合に縮減するために使用される。
第29図は固有マトリクスE33506の計算を示す、
固有マトリクスE33は33の最大固有値と関連する3
3の固有ベクトルを含む。固有マトリクスE33は第2
1図について上記した固有マトリクスと同一の方法で計
算される。この固有マトリクスE33はその後、33の
最大固有ベクトルと関連する進入音声を表わすデータ値
を選択するために使用される。
第30図は第2の結合カーネルKz322(第32図)
を作成する際に使用される音声標識ベクトルである。音
韻標識の集合は次の通りに+476(第28図)を計算
する際に使用されるものとは異なっている。即ち、音声
要素モデル−134内のデータに付与される予備標識は
、まづ、表2又は4(第37図と第39図)中の2重音
標識か、表3(第38図)内の分離音韻標識の何れかに
、適宜マツピングされる。第30図はそのマツピングを
示し、そのためには処理をブロック514内で1時間単
位だけ遅らせることが必要である。上記遅れは標識をプ
ロセッサ36(第12図)内に形成された3重データの
中心ベクトルと整合させる。その後、同標識はコーディ
ングされて119−要素標識ベクトルL、%518が形
成される。
第31図と第32図とは結合カーネルKz534の計算
を示す。これら音声標識ベクトルを使用するカーネルに
2は初めに述べた結合カーネルK。
476 (第27図と第28図)と同一方法で計算され
る。即ち、正方形固有マトリクスE524が計算されて
音声データベクトルtfi320内のデータの関連は解
かれる。その後、カーネルに′が標識ベクトルL、51
8を使用して計算される。
その後、カーネルに′と固有マトリクスEとは乗算処理
されて結合カーネルに2が形成される。カーネルに2は
音声要素モデル−240内で使用されて、データを11
9の可能な音韻標識と関連づけることによってデータが
縮減され音韻評価値が形成される。
第33図と第34図は第14図のブロック326で確率
比の対数で形成する際に使用されるパラメータの計算を
示す。確率比は開発データベースから形成されたパラメ
ータを組込み、確率比を進入する音声と関連する音韻評
価値に付与する。かくして、音韻評価値は加算によって
乗算処理され、それらが対数に変換された後減算によっ
て除算処理される。
殊に、第33図に関して、開発データベクトルμ、32
4と標識ベクトルL、518(第30図)はそれぞれ回
路536と540に付与される。ブロック536と54
0は入力ベクトルμ7の要素について平均値と標準偏差
値を計算し、標識ベクトルLa518内の対応する要素
が開発データベース内に現われない場合にそれらを蓄積
する。ブロック536は入力音声内に対応する音韻が聞
えない場合の統計を蓄積する。それぞれの個々の音韻に
ついて、これらの事例は、一つの所与の音fiは通常の
場合聞こえないから、大量のデータを占有する。ブロッ
ク540は対応する音韻が入力音声内に聞えない場合の
統計を蓄積する。かかる事例は少数である。
その結果得られる平均値と標準偏差値(ペクトトル53
8A−Bと542A−A)とはデイレイティング回路5
44 (第34図)に付与され、データ値が調節されて
、開発データベース内への既知データに音韻評価値の割
当てとそれらの未知データへの割当てとの間に生ずる精
度の差が補償される。平均値と標準偏差値とはそれらを
、係数a、とす、で乗することによって調節される。上
記係数は、一方ではテストデータベース内の全事例に対
して平均化された値の、他方では開発データベース内の
全事例について平均された値に対する比である。テスト
データベースは開発データベースよりも小さく、テスト
データベース内のデータは他の固定パラメータの何れを
計算する際にも使用されていない。
テストデータはかくして少数の計算された音韻評価イ直
を含み、同評価値は開発データベースと関連するものよ
りもロバスト度合は小さいと想定される。係数a1とb
、とはかくして開発データベースから作成された確率比
パラメータがどれ程進入する新たな音声に対して拡大縮
小されるべきかを示す頻度である。
第34図について述べると、上記の係数a1とす、を使
用して平均値を目盛られる。デイレ−ティングされた値
はその後確率比回路326(第14図)に対する多項係
数を形成する回路546へ付与される。
音韻評価値が確率比の対数に変換された後、音韻評価値
は音曲再構成プロセッサ44(第15図)と評価積分器
46(第16−18図)内で再構成され整理統合される
。第35図は評価値を再構成し整理統合する際に使用さ
れるマツプの生成を示す。第35図について述べると、
マツピングマトリクス5554が2重音について形成さ
れ、2重音は構成音韻にマツピングされる。表2.4.
5(第37.39.40図)は2重音と構成音韻を含む
。第2のマツピングマトリクスT560が作成されて同
一の音韻を表わす種々の標識を単一の標識形式にマツピ
ングする。例えば、 γ゛と“R”の標識は共に1γ”
の標識にマツピングされる。表6 (第41図)はその
標識の集合を含み、それに対して種々の標識形がマツピ
ングされる。
第36−41図は、上記したように音韻を標識化する際
に使用される表金部を示す。第36図の表1は聴者が開
発データベースと関連する音声をマークすることのでき
る標識を含む。標識に対して付与される記述法は従来の
ものではないが、標準キーボードを使用して同記述法を
複製することができる。それ故、記述法の説明は表の一
部として含まれる。
第37図の表2は2重音標識と構成音韻を含む。
この表は2重音評価を含む音韻評価ベクトルを2つの適
当な音韻評価値に分離するために使用される。同表は、
また、マツプを生成して音韻評価積分器46(第35図
)の音韻評価を再構成・整理統合する際にも、表3−6
(第38−41図)と共に使用される。
ハ:」竺しピ乙l戊 第42−45図はシステムハードウェア構成1−4を示
す。第1の構成はデジタル信号プロセッサ(DSP)マ
イクロプロセッサ600とメモリ602を含み、本シス
テムに対するソフトウェア集約的なアプローチ用に設計
される。第2の構成はまたややソフトウェア集約的実施
例用に設計される。この第2の構成は、4つのDSP6
04.606.610.612と2つの共用メモリ60
8.614より構成され、それぞれ第42図のメモリの
2分の1の大きさのメモリ2個と、DSP600(第4
2図)(7)10−15MIPS (秒アタリ100万
台命令単位)より2〜3倍低速のDSPを使用してシス
テム機能を実行する。
第44図は、相対的にハードウェア集約的なシステム構
成を示す。この第3の構成は2−5 MIPSマイクロ
プロセッサ616と、メモリ620と乗算/累算回路6
18より成る。乗算/累算回路は幾分大きなマトリクス
乗算処理を実行する。例えば、この回路は119x84
3−要素結合カーネルに、マトリクスと843−要素ベ
クトルt7320 (第14図)を乗することになろう
。その他の計算を実行するマイクロプロセッサ616は
DSPである必要はない。
第45図は浮動小数点形式の構成を示す。同システムは
10−15M10−l5 (秒あたり数百万単位の浮動
小数点処理)DSPプロセッサ622と、他のシステム
に使用されるメモリの2倍の大きさのメモリ624を備
える。メモリ624はがくして他の3つの構成で使用さ
れる16ビツト整数の代わりに32ビット浮動小数点数
をストアすることができる。
猪−■ 本発明の音声認識システムは、例えば音声要素モデル−
134(第11図)で非線形処理間で音声専用の処理を
実行してデータを認識可能な音韻パターンを含む形に処
理する。システム内の種々の点で音声−要素特有の処理
を実行することによって比較的多量の高分解信号周波数
データを音韻評価にとって重要な情報を犠牲にすること
なく短縮することができる。
もし音声−要素−特有のデータ短縮処理がシステム内の
適当な箇所で実行されなければ、非線形プロセッサに付
与される信号データの分解度はパラメータ数を制限する
ために低下させなければならなくなろう。
本システムはそれ故、重要で比較的高分解度のデータを
保持して非線形処理を行うものであって、システム内の
種々の地点で、音声−要素特有処理後にデータ短縮時点
で冗長又は比較的重要でないと判ったデータを除去する
ものである。もしデータ短縮と非線形処理とをそのよう
にインターリーブさせない場合には、システムは低い分
解度データを処理することによって精度は損われること
になろう。
【図面の簡単な説明】
第1図は本発明の思想を具体化した音声認識システムの
ブロック線図、 第2図は第1図の音韻評価器を示すブロック線図、 第3図は第2図のブロック18として示すように、信号
パワースペクトルの評価の計算を示すブロック線図、 第4図は第2図のブロック20として示した、パワース
ペクトル評価の縮減の計算を示すブロック線図、 第5図は第2図のブロック22として示した、エネルギ
ー検出プロセッサのブロック線図、第6図は第2図のブ
ロック24として示した、受容野プロセッサを示すブロ
ック線図、第7図は第2図のブロック26として示した
、適応正規化器を示すブロック線図、 第8図と第9図は共に第2図のブロック28として示し
た、受容野非線形プロセッサ図、第10図は第2図のブ
ロック30として示した非線形プロセッサ2を示すブロ
ック線図、第11図は第2図のブロック32と34とじ
て示す正規化プロセッサと音声要素モデル−1を示すブ
ロック線図、 第12図は、第2図のブロック36として示した、ベク
トルを3重ベクトルへ鎖状結合したものを示すブロック
線図、 第13図は第2図のブロック38として示した、非線形
プロセッサ3を示すブロック線図、第14図は第2図の
ブロック40と42として示した、確率比の対数の計算
と音声−要素モデル−2を示すブロック線図、 第15図は第2図のブロック44として示した、音韻評
価再構成を示す図、 第16.17.18図は共に第2図のブロック46とし
て示した、評価積分器を示すブロック線図、 第19図は適応正規化器(第7図)に使用されるパラメ
ータの計算を示す図、 第20図は、例えば第10図の非線形プロセッサー2内
に使用されるパラメータを計算するための共分散マトリ
ックスRの計算を示す図、第21図は第20図の共分散
マトリクスRを使用して固有マトリクスE、を計算する
図、第22図は第10図の非線形プロセッサー2に使用
される固有マトリクスE0の計算図、第23図は第10
図の非線形プロセンサー2に使用されるそれ以上のパラ
メータの計算図、第24図は第11図の正規化プロセッ
サに使用されるパラメータの計算図、 第25図は音声信号のマーキング図、 第26図はカーネルを作成する際に使用される音声標識
ベクトルの判断図、 第27図は第11図の音声−要素モデル−1に使用され
るパラメータを更に計算するための固有マトリクスとカ
ーネルパラメータの計算図、第28図は、第27図のパ
ラメータを使用して第11図の音声−要素モデル−1に
使用される結合カーネルに1を作成する図、 第29図は第13図に示す非線形プロセッサ3に使用さ
れる固有マトリクスE33の計算図、第30図はカーネ
ルを形成する際に使用される音声標識ベクトルの判断図
、 第31図は第14図の音声−要素モデル−2に使用され
るパラメータを更に計算するための固有マトリクスとカ
ーネルの計算図、 第32図は第31図のパラメータを用いて第14図の音
声−要素モデル−2に使用される結合カーネルに2の作
成図、 第33図と第34図は第14図に示すような確率比の対
数を計算する際に使用される平均値パラメータと標準偏
差パラメータの計算図、第35図は、第15図に示す音
韻評価再構成に使用される2重音と音韻パップの表生成
図、第36図は第25図に示すような音声をマーキング
する際に使用される標識のテーブル図、第37図は第2
6.30,35図のパラメータ計算に使用される2重音
と音韻標識のテーブル図、第38図は第26図と第30
図に示されるパラメータ計算に使用される分離形の音韻
のテーブル図、 第39図は第30図と第35図に示すパラメータ計算に
使用される2重音と構成音韻のテーブル図、 第40図と第41図は第35図に示すパラメータを決定
する際に使用される2重音と構成音韻のテーブル図、 第42図は第1−2図の音声標識システムのハードウェ
ア構成のブロック線図、 第43図は第1−2図の音声認識システムの第2のハー
ドウェア構成のブロック線図、第44図は第1−2図の
音声認識システムの第3のハードウェア構成のブロック
線図、第45図は第1−2図の音声認識システムの第4
のハードウェア構成のブロック線図、第46.47.4
8.49図は第3−18図の処理システム図と、第19
−35図のパラメータ開発図間の関連を説明するテーブ
ル図。 10・・・・・・音声認識システム、12・・・・・・
評価器、14・・・・・・語句判断器、    16・
・・・・・語句辞書、24・・・・・・受容野プロセッ
サ、 22・・・・・・エネルギー検出プロセッサ、26・・
・・・・適応正規化器、 230・・・・・・非線形プロセッサ。 FIG、 25 音声マーキング 第27図からの固有マトリクス巨 1 FIG、 28 パラメータ開発:結合カーネルへ。 ブロック322(第14図)用 FIG、 32 パラメータ開発:結合カーネルベ2 824− Q嬶 請b 脅 μ 蜀ソ ℃ ロ 827− 味 づ・−μコ LLlo−OJ  LLI’−″ 1°−−−コ’w4
−1n−1”;−−E  (C:  CL  S−5−
L/IL/14 ℃I+−■:・ワメー1ife eLLφ工噌←ξ口〉) φ  ◆ノ Nl:、J: ℃’+−■  メ    C71(l  φψ−一〉 
 ×N−αのIll ”’)−Σ2:C: 1ctl 
l l l Cm l l 11・−−ロ+e   N
t+Q−ソα r4Jf > NQb(J℃−口   
      L/1ψ  →−垣”D ’)−OメーE
 (cLL L/l−> 3 N ”lk曖 葛 ヘソQ 5′= 」=  N +ou ℃℃y ou=−一寥ゾr−E CcL! −

Claims (1)

  1. 【特許請求の範囲】 1、音声信号中の問題の音声要素を識別する音声認識装
    置において、 A、上記音声信号を処理して複数の短縮データ要素を含
    む音声の短縮データ表現をつくりだす処理手段と、 B、上記短縮データ要素の積および(又は)累乗に比例
    する値を計算してその要素として上記積および(又は)
    累乗に比例する値を含む音声の非線形表現をつくりだす
    第1の手段と、 C、既知の音声の等価的な非線形表現を観察することに
    よって問題の音声要素の一つ又はそれ以上を特徴づける
    と判断される一群のモデル化要素によって上記非線形表
    現をモデリングして上記非線形表示データ要素を短縮す
    る第1のモデリング手段と、 D、上記短縮された非線形データ要素の積および(又は
    )累乗に比例する値を計算して、その要素として上記積
    および(又は)累乗に比例する値を含むもう一つの非線
    形音声表現をつくりだす第2の手段と、 E、既知の等価的な非線形表現を観察することによって
    当該音声要素を特徴づけると判断される一群のモデル化
    要素によって上記もう一つの非線形表現をモデリングす
    る第2のモデリング手段と、 より成る前記装置。 2、上記第2の計算手段(D)が比例値を計算する前に
    所定数の信号区画に対応するデータを鎖状結合する手段
    を含む請求項1の音声認識装置。 3、音声信号中の問題の複数音声要素を識別する音声認
    識装置において、 A、音声信号をモニタして何時同音声信号が所定値を上
    廻るエネルギーを含むかを判断して、当該音声信号の一
    区画が上記所定値を上廻った時に出力信号をアサートす
    る手段と、B、上記モニタ手段が出力信号をアサートす
    る時を判断するタイミング手段と、 C、上記モニタ手段とタイミング手段に呼応して音声信
    号を処理し、その音声信号区画中に当該音声要素を識別
    し、上記モニタ手段が出力信号をアサートする信号区画
    のみを処理する処理手段と、 から成る前記装置。 4、上記処理手段が、 A、上記音声信号を処理して複数の短縮データ要素を含
    む音声の短縮データ表現を生成する処理手段と、 B、短縮データ要素の積および(又は)累乗に比例する
    値を計算してその要素として上記積および(又は)累乗
    に比例する値を含む音声の非線形表現をつくりだす第1
    の手段と、C、既知音声の等価的な非線形表現を観察す
    ることによって問題の音声要素の一つ又はそれ以上を特
    徴づけると判断される一群のモデリング要素によって非
    線形表現をモデリングして上記非線形表現データ要素を
    短縮する第1のモデリング手段と、 D、上記短縮された非線形表現データ要素の積および(
    又は)累乗に比例する値を計算して、その要素として上
    記積および(又は)累乗に比例する値を含むもう一つの
    音声の非線形表現をつくりだす第2の手段と、 E、既知音声の等価的な非線形表現の観察によって問題
    の音声要素を特徴づけると判断される一群のモデリング
    要素によって上記もう一つの非線形表現をモデリングす
    る第2のモデリング手段と、 F、上記第2のモデリング手段によって音声信号と関連
    する音声要素を整理統合再検成して上記音声信号に対応
    する語又は句の最小限音声要素表現をつくりだす手段と
    、 から成る請求項3の音声認識装置。 5、上記整理統合再構成手段がタイミング手段に呼応し
    てモニタ手段が一つの音韻を検出した時間に一部基づい
    て音声要素を再構成整合統合する請求項4の音声認識装
    置。 6、音声信号内で問題の音声要素を識別する音声認識装
    置において、 A、上記音声信号を処理して複数の短縮データ要素を含
    む音声の短縮データ表現をつくりだす処理手段と、 B、上記短縮データ要素の積および(又は)累乗に比例
    する値を計算してその要素として上記積および(又は)
    累乗に比例する値を含む音声の非線形表現をつくりだす
    第1の手段と、 C、既知音声の等価的な非線形表現を観察することによ
    って問題の音声要素の一つ又はそれ以上を特徴づけると
    判断される一群のモデリング要素によって上記非線形表
    現をモデリングして非線形表現データ要素を短縮する第
    1のモデリング手段と、 D、上記短縮された非線形表現データ要素の積および(
    又は)累乗に比例する値を計算して、その要素として上
    記積および(又は)累乗に比例する値を含む音声の非線
    形表現をもう一つつくりだす第2の手段と、 E、既知音声の等価的な非線形表現を観察することによ
    って問題の音声要素を特徴づけると判断される一群のモ
    デリング要素によって上記もう一つの非線形表現をモデ
    ル化する第2のモデリング手段と、 F、上記第2のモデリング手段によって音声信号と関連
    する音声要素を整理統合再構成することによって上記音
    声信号区画に対応する一つの語又は句の最小限音声要素
    表現をつくりだす手段と、 を備える前記装置。 7、音声信号内の問題の音声要素を識別する音声認識装
    置において、 A、その各成分が上記音声要素の一成分を表現する第1
    のベクトルを生成する手段と、 B、上記第1のベクトルを既知の音声要素を表わす第1
    の組のモデルベクトルと比較し、各比較について上記モ
    デルベクトルの一つとの相関性の程度を表わす値を導出
    することによってその成分の各々が上記値の一つである
    ような第2のベクトルを生成する手段と、 C、上記第2のベクトルの成分の非線形結合が第3のベ
    クトルの成分であるようなものを選択的に計算する手段
    と、 D、上記第3のベクトルを既知の音声要素を表わす第2
    の組のモデルベクトルと比較することによって上記既知
    音声要素の何れが最もよく上記第3のベクトルによって
    表現されるかを判断する手段と、 より成る前記装置。 8、上記第2の組のモデルベクトルが所定の組の音韻同
    位体に対応する請求項7の音声認識装置。 9、上記第1の組のモデルベクトルが所定の組の音韻に
    対応する請求項7の音声認識装置。 10、音声信号中で問題の音声要素を識別する方法にお
    いて、 A、その成分が各々上記音声要素の一成分を表わす第1
    のベクトルを生成し、 B、上記第1のベクトルを既知の音声要素を表わす第1
    の組のモデルベクトルと比較し、各比較について上記モ
    デルベクトルの一つとの相関性の程度を表わす一つの値
    を導出することによってその各成分が上記値の一つであ
    るような第2のベクトルを生成し、 C、第3のベクトルの成分であるような上記第2のベク
    トルの成分の非線形結合を選択的に計算し、 D、上記第3のベクトルを既知の音声要素を表わす第2
    の組のモデルベクトルと比較することによって上記既知
    の音声要素の何れが最もよく上記第3のベクトルによっ
    て表現されるかを判断する、 段階より成る前記方法。 11、音声信号内で問題の複数の音声要素を識別する方
    法において、 A、音声信号をモニタして何時音声信号が所定値を上廻
    るエネルギーを含むかを判断し、B、音声信号区画を所
    定値を上廻るエネルギーで処理して問題の音声要素を上
    記音声信号区画内で識別する、 段階より成る前記方法。 12、上記処理段階が、 A、複数の短縮データ要素を含む音声信号の第1の短縮
    データ表現をつくりだし、 B、既知音声の等価的な表現を観察することによって問
    題の音声要素の一つ又はそれ以上を特徴づけると判断さ
    れる一群のモデリング要素と短縮データ表現を比較して
    、第1の短縮データ表現の要素と種々のモデリング要素
    の間の相関性の程度に対応する要素を有する第2の短縮
    データ表現をつくりだし、 C、第2の短縮データ表現データ要素の積および(又は
    )累乗に比例する値を計算することによって、その要素
    として上記積および(又は)累乗に比例する音声の非線
    形表示をつくりだし、 D、既知音声の等価的な非線形表現を観察することによ
    って問題の音声要素を特徴づけると判断される一群のモ
    デリング要素と上記非線形表現とを比較して、音声信号
    区画に対応する音声要素を識別する一組の値をつくりだ
    す、段階よりなる請求項11の音声要素識別方法。 13、1個の音声信号中に問題の複数音声要素を識別す
    る方法において、 A、複数の短縮データ要素を含む音声信号区画の第1の
    短縮データ表現をつくりだし、 B、上記短縮データ表現を、既知音声の等価的な表現を
    観察することによって問題となっている音声要素の一つ
    もしくはそれ以上を特徴づけると思われる一群のモデリ
    ング要素と比較することによって第1の短縮データ表現
    の要素と種々のモデリング要素間の相関性の程度に相当
    する要素を有する第2の短縮データ表現をつくりだし、 C、第2の短縮データ表現データ要素の積および(又は
    )累乗に比例する値を計算して、その要素として、上記
    積および(又は)累乗に比例する値を含む音声の非線形
    表現をつくりだし、 D、既知音声の等価的な非線形表現によって問題の音声
    要素を特徴づけると判断される一群のモデリング要素に
    よって非線形表現を比較し、音声信号区画に対応する音
    声要素を識別する一組の値をつくりだす、 段階よりなる前記方法。
JP2216934A 1989-08-17 1990-08-17 音声認識装置 Expired - Lifetime JP3055691B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US395449 1982-07-06
US07/395,449 US5168524A (en) 1989-08-17 1989-08-17 Speech-recognition circuitry employing nonlinear processing, speech element modeling and phoneme estimation

Publications (2)

Publication Number Publication Date
JPH03137699A true JPH03137699A (ja) 1991-06-12
JP3055691B2 JP3055691B2 (ja) 2000-06-26

Family

ID=23563092

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2216934A Expired - Lifetime JP3055691B2 (ja) 1989-08-17 1990-08-17 音声認識装置

Country Status (6)

Country Link
US (2) US5168524A (ja)
EP (1) EP0413361B1 (ja)
JP (1) JP3055691B2 (ja)
AT (1) ATE179828T1 (ja)
CA (1) CA2023424C (ja)
DE (1) DE69033084T2 (ja)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5168524A (en) * 1989-08-17 1992-12-01 Eliza Corporation Speech-recognition circuitry employing nonlinear processing, speech element modeling and phoneme estimation
GB9106082D0 (en) * 1991-03-22 1991-05-08 Secr Defence Dynamical system analyser
JPH05134694A (ja) * 1991-11-15 1993-05-28 Sony Corp 音声認識装置
JPH05188994A (ja) * 1992-01-07 1993-07-30 Sony Corp 騒音抑圧装置
FR2696036B1 (fr) * 1992-09-24 1994-10-14 France Telecom Procédé de mesure de ressemblance entre échantillons sonores et dispositif de mise en Óoeuvre de ce procédé.
US5455889A (en) * 1993-02-08 1995-10-03 International Business Machines Corporation Labelling speech using context-dependent acoustic prototypes
US5652897A (en) * 1993-05-24 1997-07-29 Unisys Corporation Robust language processor for segmenting and parsing-language containing multiple instructions
WO1996008005A1 (en) * 1994-09-07 1996-03-14 Motorola Inc. System for recognizing spoken sounds from continuous speech and method of using same
US5594834A (en) * 1994-09-30 1997-01-14 Motorola, Inc. Method and system for recognizing a boundary between sounds in continuous speech
US5638486A (en) * 1994-10-26 1997-06-10 Motorola, Inc. Method and system for continuous speech recognition using voting techniques
US5596679A (en) * 1994-10-26 1997-01-21 Motorola, Inc. Method and system for identifying spoken sounds in continuous speech by comparing classifier outputs
US5796924A (en) * 1996-03-19 1998-08-18 Motorola, Inc. Method and system for selecting pattern recognition training vectors
FI114247B (fi) * 1997-04-11 2004-09-15 Nokia Corp Menetelmä ja laite puheen tunnistamiseksi
US6006181A (en) * 1997-09-12 1999-12-21 Lucent Technologies Inc. Method and apparatus for continuous speech recognition using a layered, self-adjusting decoder network
FR2769117B1 (fr) * 1997-09-29 2000-11-10 Matra Comm Procede d'apprentissage dans un systeme de reconnaissance de parole
US8812300B2 (en) 1998-03-25 2014-08-19 International Business Machines Corporation Identifying related names
US6963871B1 (en) 1998-03-25 2005-11-08 Language Analysis Systems, Inc. System and method for adaptive multi-cultural searching and matching of personal names
US8855998B2 (en) 1998-03-25 2014-10-07 International Business Machines Corporation Parsing culturally diverse names
JP3789246B2 (ja) * 1999-02-25 2006-06-21 株式会社リコー 音声区間検出装置、音声区間検出方法、音声認識装置、音声認識方法および記録媒体
US6442520B1 (en) 1999-11-08 2002-08-27 Agere Systems Guardian Corp. Method and apparatus for continuous speech recognition using a layered, self-adjusting decoded network
US6868380B2 (en) * 2000-03-24 2005-03-15 Eliza Corporation Speech recognition system and method for generating phonotic estimates
US7120585B2 (en) 2000-03-24 2006-10-10 Eliza Corporation Remote server object architecture for speech recognition
US7370086B2 (en) * 2000-03-24 2008-05-06 Eliza Corporation Web-based speech recognition with scripting and semantic objects
US7366766B2 (en) * 2000-03-24 2008-04-29 Eliza Corporation Web-based speech recognition with scripting and semantic objects
US6629073B1 (en) * 2000-04-27 2003-09-30 Microsoft Corporation Speech recognition method and apparatus utilizing multi-unit models
US6662158B1 (en) 2000-04-27 2003-12-09 Microsoft Corporation Temporal pattern recognition method and apparatus utilizing segment and frame-based models
EP1332605A4 (en) * 2000-10-16 2004-10-06 Eliza Corp METHOD AND SYSTEM FOR PROVIDING ADAPTIVE RESPONDENT TRAINING IN A VOICE RECOGNITION APPLICATION
JP4759827B2 (ja) * 2001-03-28 2011-08-31 日本電気株式会社 音声セグメンテーション装置及びその方法並びにその制御プログラム
US7181398B2 (en) * 2002-03-27 2007-02-20 Hewlett-Packard Development Company, L.P. Vocabulary independent speech recognition system and method using subword units
JP3873793B2 (ja) * 2002-03-29 2007-01-24 日本電気株式会社 顔メタデータ生成方法および顔メタデータ生成装置
US20070005586A1 (en) * 2004-03-30 2007-01-04 Shaefer Leonard A Jr Parsing culturally diverse names
US7554464B1 (en) * 2004-09-30 2009-06-30 Gear Six, Inc. Method and system for processing data having a pattern of repeating bits
ATE453183T1 (de) * 2005-06-01 2010-01-15 Loquendo Spa Verfahren zum anpassen eines neuronalen netzwerks einer automatischen spracherkennungseinrichtung
US20110014981A1 (en) * 2006-05-08 2011-01-20 Sony Computer Entertainment Inc. Tracking device with sound emitter for use in obtaining information for controlling game program execution
FR2913171A1 (fr) 2007-02-28 2008-08-29 France Telecom Procede de determination de la presence d'un signal de telecommunications sur une bande de frequences.
US8140331B2 (en) * 2007-07-06 2012-03-20 Xia Lou Feature extraction for identification and classification of audio signals
US20120324007A1 (en) * 2011-06-20 2012-12-20 Myspace Llc System and method for determining the relative ranking of a network resource
WO2015145219A1 (en) * 2014-03-28 2015-10-01 Navaratnam Ratnakumar Systems for remote service of customers using virtual and physical mannequins
US10008201B2 (en) * 2015-09-28 2018-06-26 GM Global Technology Operations LLC Streamlined navigational speech recognition
EP3641286B1 (en) * 2018-10-15 2021-01-13 i2x GmbH Call recording system for automatically storing a call candidate and call recording method

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3727193A (en) * 1971-05-18 1973-04-10 School Of Electrical Eng Signal vector recognition system
GB1569450A (en) * 1976-05-27 1980-06-18 Nippon Electric Co Speech recognition system
US4156868A (en) * 1977-05-05 1979-05-29 Bell Telephone Laboratories, Incorporated Syntactic word recognizer
US4227177A (en) * 1978-04-27 1980-10-07 Dialog Systems, Inc. Continuous speech recognition method
US4241329A (en) * 1978-04-27 1980-12-23 Dialog Systems, Inc. Continuous speech recognition method for improving false alarm rates
US4277644A (en) * 1979-07-16 1981-07-07 Bell Telephone Laboratories, Incorporated Syntactic continuous speech recognizer
US4412098A (en) * 1979-09-10 1983-10-25 Interstate Electronics Corporation Audio signal recognition computer
US4400828A (en) * 1981-03-27 1983-08-23 Bell Telephone Laboratories, Incorporated Word recognizer
US4400788A (en) * 1981-03-27 1983-08-23 Bell Telephone Laboratories, Incorporated Continuous speech pattern recognizer
JPS5852695A (ja) * 1981-09-25 1983-03-28 日産自動車株式会社 車両用音声検出装置
US4489434A (en) * 1981-10-05 1984-12-18 Exxon Corporation Speech recognition method and apparatus
JPS5879300A (ja) * 1981-11-06 1983-05-13 日本電気株式会社 パタ−ン距離計算方式
JPS58130396A (ja) * 1982-01-29 1983-08-03 株式会社東芝 音声認識装置
JPS58145998A (ja) * 1982-02-25 1983-08-31 ソニー株式会社 音声過渡点検出方法
JPS59139099A (ja) * 1983-01-31 1984-08-09 株式会社東芝 音声区間検出装置
US4712243A (en) * 1983-05-09 1987-12-08 Casio Computer Co., Ltd. Speech recognition apparatus
US4723290A (en) * 1983-05-16 1988-02-02 Kabushiki Kaisha Toshiba Speech recognition apparatus
JPS59216284A (ja) * 1983-05-23 1984-12-06 Matsushita Electric Ind Co Ltd パタ−ン認識装置
US4606069A (en) * 1983-06-10 1986-08-12 At&T Bell Laboratories Apparatus and method for compression of facsimile information by pattern matching
US4718092A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition activation and deactivation method
US4718093A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition method including biased principal components
DE3584567D1 (de) * 1984-12-27 1991-12-05 Texas Instruments Inc Verfahren und einrichtung zur sprecherunabhaengigen spracherkennung.
US4908865A (en) * 1984-12-27 1990-03-13 Texas Instruments Incorporated Speaker independent speech recognition method and system
NL8503304A (nl) * 1985-11-29 1987-06-16 Philips Nv Werkwijze en inrichting voor het segmenteren van een uit een akoestisch signaal, bij voorbeeld een spraaksignaal, afgeleid elektrisch signaal.
US4941178A (en) * 1986-04-01 1990-07-10 Gte Laboratories Incorporated Speech recognition using preclassification and spectral normalization
JP2815579B2 (ja) * 1987-03-10 1998-10-27 富士通株式会社 音声認識における単語候補削減装置
US5027408A (en) * 1987-04-09 1991-06-25 Kroeker John P Speech-recognition circuitry employing phoneme estimation
US5168524A (en) * 1989-08-17 1992-12-01 Eliza Corporation Speech-recognition circuitry employing nonlinear processing, speech element modeling and phoneme estimation

Also Published As

Publication number Publication date
CA2023424A1 (en) 1991-02-18
ATE179828T1 (de) 1999-05-15
CA2023424C (en) 2001-11-27
DE69033084T2 (de) 1999-09-02
DE69033084D1 (de) 1999-06-10
EP0413361B1 (en) 1999-05-06
US5168524A (en) 1992-12-01
JP3055691B2 (ja) 2000-06-26
EP0413361A2 (en) 1991-02-20
US5369726A (en) 1994-11-29
EP0413361A3 (en) 1993-06-30

Similar Documents

Publication Publication Date Title
JPH03137699A (ja) 音声認識装置
Ghitza Auditory nerve representation as a front-end for speech recognition in a noisy environment
JP3114975B2 (ja) 音素推定を用いた音声認識回路
Bezoui et al. Feature extraction of some Quranic recitation using mel-frequency cepstral coeficients (MFCC)
US20080167862A1 (en) Pitch Dependent Speech Recognition Engine
Lee et al. Variable time-scale modification of speech using transient information
JP2001166789A (ja) 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置
Priyadarshani et al. Dynamic time warping based speech recognition for isolated Sinhala words
CA2483607C (en) Syllabic nuclei extracting apparatus and program product thereof
Prasad et al. Speech features extraction techniques for robust emotional speech analysis/recognition
Hidayat et al. Speech recognition of KV-patterned Indonesian syllable using MFCC, wavelet and HMM
Unnibhavi et al. LPC based speech recognition for Kannada vowels
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
Deiv et al. Automatic gender identification for hindi speech recognition
Nagaraja et al. Mono and cross lingual speaker identification with the constraint of limited data
Saksamudre et al. Isolated word recognition system for Hindi Language
Korvel et al. Comparison of Lithuanian and Polish consonant phonemes based on acoustic analysis–preliminary results
Lalitha et al. An encapsulation of vital non-linear frequency features for various speech applications
Lachachi Unsupervised phoneme segmentation based on main energy change for arabic speech
Adam et al. Analysis of Momentous Fragmentary Formants in Talaqi-like Neoteric Assessment of Quran Recitation using MFCC Miniature Features of Quranic Syllables
Gillmann A fast frequency domain pitch algorithm
Laleye et al. An algorithm based on fuzzy logic for text-independent fongbe speech segmentation
Umeda Another consistency in phoneme duration
Wolf Speech signal processing and feature extraction
Amin et al. Bangladeshi Dialect Recognition using MFCC, Delta, Delta-delta and GMM

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090414

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090414

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100414

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110414

Year of fee payment: 11

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110414

Year of fee payment: 11