JPH03137699A

JPH03137699A - 音声認識装置

Info

Publication number: JPH03137699A
Application number: JP2216934A
Authority: JP
Inventors: John P Kroeker; ジョン　ピー　クローカー; Robert L Powers; ロバート　エル　パワーズ
Original assignee: Eliza Corp
Current assignee: Eliza Corp
Priority date: 1989-08-17
Filing date: 1990-08-17
Publication date: 1991-06-12
Anticipated expiration: 2015-06-26
Also published as: CA2023424A1; ATE179828T1; CA2023424C; DE69033084T2; DE69033084D1; EP0413361B1; US5168524A; JP3055691B2; EP0413361A2; US5369726A; EP0413361A3

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は音声認識、殊に音声をデータ還元したもののパ
ターンを認識する際に使用される音声認識システムの一
部に関する。同発明は１９８７年４月７日付第０３６．
３８０号の「音韻評価法を使用する音声認識回路」と題
する同時係属出願中に開示された回路の改良に関する。

〔従来の技術〕

音声認識システムの大部分は肉声中のデータを整理する
若干の手段を使用している。そのため音声は音声信号を
直接デジダル化したものの中に含まれる全データ量より
も少ない表現に還元される。

然しながら、かかる表現は発声者が意図した意味を識別
するために必要とされるデータの全てとはいわないまで
も大部分を含んでいなければならない。

音声認識システムの開発、もしくは「トレイニング」に
おける任務は、単語や節の如き音声要素を特徴づける短
縮データ表現中のパターンを識別することである。異な
る話者が同一の単語や文句を発声することによって発す
る音声はそれぞれ異なっており、従って音声認識システ
ムはこれらの異なる音から由来するパターンに対して同
一の単語又は文句を付与しなければならない、上記パタ
ーンには雑音やモデリングプロセスの不正確さの如き他
の曖昧さの源泉も存在し、それらも音声信号表現を変更
させる可能性がある。従って、種々の手段を使用して音
声の短縮データ表現の種々な数学的組合せに対する可能
性を附勢されており、種々の仮説をテストして一連の可
能な音声要素のうちの何れが今発声されているもの、従
って特定データパターンにより表わされるものに一番近
いかが判断されている。

然しなから、これらの処理を実行するためのプロセスは
計算数が多くなる傾きがある。即ち、種々のデータ計算
と多数の音素についての可能性を判断する必要がある。

そのため、例えばリアルタイムのシステム処理の必要条
件によって課される計算に対する制約は使用可能なパタ
ーン認識アルゴリズムの感度を制約することになる。

〔発明が解決しようとする課題〕

従って、本発明の目的は、所与のパターンの認識にあて
られる計算時間を大きくすること、しがも音声認識プロ
セス全体に必要とされる時間を増加させずにそうするこ
とができるようにすることである。

本発明の目的は更に長期間に相当する信号区画を共に処
理すること、即ち、より大きな信号の「窓」を使用する
こと、しかも計算上の負担を著しく大きくせずに、信号
データの分解能を低下させずにそうすることである。

〔課題を解決するための手段〕

上記の目的ならびにそれと関連する目的は、非線形デー
タ操作処理を介在させて音韻特有の音声モデル化データ
短縮処理を行い音韻評価を実行する音韻評価器を備える
音声認識システムによって実現される。上記音韻評価は
、更に処理された後、発声される単語や文句を識別する
ために使用される。

要するに、音韻評価器は、入力音声信号のデータ短縮版
のエネルギーをモニタして選択して一定のスレショルド
値声区画全体を更に処理する。かかる信号区画は音声内の
有声音又は無声音の呼気を、従って音韻を表わすのが普
通である。その後、音韻評価器は、一連の非線形処理と
音声モデル化を経て音声区画を更にデータ短縮表現処理
し、何れの音韻パターンにデータが最も近似しているか
が計算される。

音声のモデル化は、経験上、音韻パターン評価の点から
相対的に重要でないとか余分であることが判っているデ
ータを無視することにより非線形処理どうしの間で音声
信号データを短縮するために行われる。その後、より重
要なデータは計算集約的な非線形処理を使用して処理さ
れ所期の音韻により近似したデータパターンが得られる
。かかる計算に必要とされる時間は以上のようにデータ
を短縮することによって最小限にする。

また音韻評価器は最も可能性の高い音韻を選択する際に
、信号エネルギー、又は音韻の検出どうしの間の時間も
観察する。音韻検出間の時間を考慮に入れて、評価器は
、別の場合には一連の相異なる音韻と考えられるものを
多数音韻パターン群例えば２重音群に鎖状結合する。こ
れらの多重音韻パターンは個々の音韻よりも明確に音声
の意図する意味を伝えることが多い。

〔実施例〕第１〜１８図を参照して、音声認識用処理システムを解
説する。処理システム中のプロセッサにより実行される
計算とその展開中に使用するパラメータは第１９−３５
図と第３６−４１図中に示す種々のテーブルについて説
明する。処理システムのハードウェア構成は第４２−４
５図について説明する。

第１図について述べると、音声認識システム１０は音韻
評価器１２、語／句判断器１４、および語／句辞書１６
を備える。音韻評価器１２は、例えばマイクロフォン又
は電話回線から音声入力信号を受取る。音韻評価器１２
は音声入力信号のエネルギーを検出し、そのエネルギー
が所定のスレショルド値を上廻っているかどうかを判断
する。

もし上廻っていれば、評価器は音声信号中に音声、従っ
て音韻の存在を表示する。その後、評価器は、それに相
当する音韻評価値、即ち、一群の出力信号を計算する。

それら出力信号は、それぞれ、音声信号がその出力と関
連する音韻を構成している公算がどれ位かを示す評価値
である。また評価器は音韻検出どうしの間の時間、即ち
、Δ時間を計算する。

デルタ時間値と評価値とは語／句判断器１４へ附勢され
る。語／句判断器１４は、その時間と評価値を用いて、
構成音韻に関して列挙した語句を格納する語／句辞書１
６に間合わせる。その後、語／句判断器１４は一部又は
−句をその音声信号に割当てて、音声を翻訳する。語／
句判断器１４の出力は、例えば一群の可能な予期応答の
うちのどれが発声されたかについての表示の如き、他の
形をとることができる。

語／句判断器１４の詳細は、音韻評価値が更に処理され
る特殊な方法は本発明の一部ではないから、ここでは提
示しない、然しながら、語／句判断器１４がより原始的
なデータ形式、例えば肉声又はその周波数スペクトルで
はなく、音韻評価器１２により作成された音韻評価値と
デルタ時間値とに厳密に基づいて音声入力信号の意味を
判断するということが重要な点である。

第２図は第１図に示す音韻評価器１２の概観図である。

この点で図面は適当な八−ドウエアシステム内に存在す
る際には別々のプロセッサ又はブロックによって種々の
処理が実行される様子を示していることに注意されたい
。このように別々のプロセッサに分離することによって
説明が容易になるが、当業者は、これらの機能の大部分
は普通の場合、比較的少数の一般的なハードウェア要素
によって実行されることを理解されよう。殊に、大部分
のステップは一個又は非常に少数のマイクロプロセッサ
により実行されるのが一般的であろう。

再び第２図について述べると、音韻評価器１２は生の音
声信号を受取り、それを処理し、第３−４図について以
下に詳説するようにブロック１８のパワースペクトル評
価とブロック２０のパワースペクトル短縮によってデー
タを短縮する。データ短縮された信号はエネルギー検出
プロセッサ２２と受容野プロセッサ２４の双方に印加さ
れる。

もしデータ短縮信号中のエネルギーが所定スレショール
ド値を上廻っていて、音声の存在を表示していれば、エ
ネルギー検出プロセッサ２２は検出信号をライン２２Ａ
上にアサートする。アサートされた検出信号は受容野プ
ロセッサ２４を付勢する。同プロセッサ２４はその後更
にデータを処理し、受容フィールドを組立てる。もし信
号エネルギーがスレショールド値を下廻っていれば、検
出信号はアサートされず、受容フィールドプロセッサ２
４は付勢されず、音声信号のそれ以上の処理は禁止され
る。エネルギー検出プロセッサ２２と受容フィールドプ
ロセッサ２４とは第５−６図に関して以下に詳説する。

エネルギープロセッサを使用して受取った音声中の音韻
の存在を検出する点が［音韻評価法を使用する音声認識
回路」と題する上記同時係属出願中に述べられた音声認
識システムにより実行される２パス処理と異なる点であ
り、この点が改良点である。以前のシステム（以下、音
声認識システムＩと称する）は音声信号を検査して、一
つの処理パス中の初めの子音又は母音の何れかの存在と
、他の処理パスにおける最終子音の存在とを検出するよ
うになっている。何れのパスが検出信号を生成するかに
応じて、同音声信号は母音、初期子音又は最終子音プロ
セッサによって更に処理される。

かくして、音声認識システム−■は本発明で使用される
ものの代わりに、それぞれが音声信号を処理してそれを
音韻の部分集合とマツチングさせるようになった３個の
受容フィールドプロセッサを必要とする。一方、本発明
によるシステムは、モデル化とデータ短縮を向上させる
ことによって信号表現を可能な音韻の集合全体と比較す
ることができるものである。

再び第２図について述べると、ライン２２Ａ上に検出信
号がアサートされると、同時にエネルギー検出プロセッ
サ２２が、第５図について以下に詳説するように、ライ
ン２２Ｂ上の音声信号の積分エネルギーに比例する信号
を発生する。

積分エネルギー信号は適応正規化器２６へ印加される。

同正規化器２６は受容フィールドプロセッサ２４の出力
も受取る。積分エネルギー信号は上記適応正規化器２６
により使用され、第２のより高エネルギーのスレシッー
ルドを附与する。

適応正規化器２６はデータ、即ち受容フィールドプロセ
ッサ２４の出力から推定平均値を除去する。推定平均値
はデータの積分エネルギー準位がより高度の上記所定エ
ネルギースレシッールド値を上廻る場合にのみ増分的に
更新され、相対的に大きなＳＮ比を有する音声信号を表
示する。そのため、もしデータの積分エネルギー準位が
スレシッールド値を下廻る場合には、適応正規化器２６
は推定平均値を更新することはない。何故ならば、かか
る場合には、その評価値は正確ではないかもしれないか
らである。適応正規化器２６の動作が積分高エネルギー
信号を有するデータに対する効果は、長い「時定数」を
有する指数関数的減衰をデータに附与することである。

このため、平均値はゼロに近く低下する。

この場合の時定数は時間それ自体ではなく、入力ベクト
ルが適応正規化器へ加えられる事例の数で測定される。

数が大きいことは特定話者が話しつづけていること、従
って、音声とそれに関連する音響チャネルの特性はこの
音声についてはトラスチックに変化しないことを意味す
る。従って、この音声と関連するデータの平均はゼロ近
くに低下させることができる。適応正規化器の動作は第
７図について以下に詳説する。

正規化されたデータは次に受容フィールド非線形プロセ
ッサ２８に加えられた後、別の非線形プロセッサー２３
０に加えられる。それぞれ第８−９図と第１０図につい
て以下に詳論する非線形プロセッサ２８と３０は、デー
タを操作して、それぞれ線形−次データ項と非線形２次
、３次及び（又は）４次データ項をパスさせる。これら
の項はその後正規化プロセッサ３２にパスされる。正脱
化プロセッサ３２はデータを正規化して、それらを２個
の音声要素モデルのうちの最初のものに附与する。正規
化プロセッサ３２は第１０図に関して以下に詳説する。

音声要素モデル！−１３４は、幾つかのパラメータ、即
ち、展開データから作成される音声標識を使用して自ら
に加えられるデータを短縮する。

音声要素モデル１−１　３４は、かくして最も重要なデ
ータを更に処理するために選ばれる。短縮データは、そ
の後ブロック３６中で３個のベクトルに鎖状結合される
。プロセッサ３６に対する各人力ベクトルは一個の出力
を生成し、同人力は普通、先のベクトル入力と後続のベ
クトル入力とによって包囲される人力ベクトルから形成
される。

これらのベクトル又はゼロ充填ベクトルが譲状結合する
かどうかはエネルギー検出プロセッサ２２からのデルタ
時間信号２２Ｃに依存する。後続のベクトル入力を使用
するとプロセッサ３６内に遅れがひきおこされる。それ
については第１２図について以下に詳説する。

以上の三重ベクトルは、その後第３の非線形プロセッサ
３８へ加えられる。非線形プロセッサー３３８は計算集
約的な非線形処理によってデータを操作した後、同デー
タを第２の音声要素モデル１−２　４０へ附与し、同モ
デル１−２　４０は音韻評価値を生成する。音声要素モ
デル−１３４と−２４０とは、それぞれ第１１図と第１
４図について以下に詳説する。非線形プロセンサー３３
８は第１３図について以下に詳説する。

その後、対数プロセッサ４２内で音韻評価値の確率比の
対数が計算され、音韻評価値は、プロセッサ４４．４６
内で更に簡単化される、即ち、再構成され積分され、デ
ータを語／句判断器１４に対して準備させる。（第１図
）簡単化された評価値とエネルギー検出プロセッサ２２
からのデルタ時間信号２２Ｃ（第２図）とはその後、語
／句判断器１４に加えられ、同判断器１４は音声に対し
て語又は句を附与する。第１４−１８図について種々の
プロセッサ４２．４４．４６を以下に詳説する。

音韻処理さて、第３図について述べると、パワースペクトル評価
プロセッサ１８がまづアナログ音声信号をＡ／Ｄ変換器
１００でデジタル表示に変換することによって音声信号
のパワースペクトル評価値を計算する。Ａ／Ｄ変換器１
００は従来設計のものであるが、８　ｋＨｚの割合で音
声信号をサンプリングして信号の振幅を表わす１６ビツ
トデジタルデ一タ記号ａ１を生成する。８　ｋＨｚのサ
ンプリング率は今日の電話産業規格と一致する。

その後、デジタルデータサンプルａ、はブロック１０２
に示すように１２８のデータサンプルの系列に区分され
る。これら系列の各々は音声信号の１２ミリ秒計画に相
当する。系列は各々が要素ｋ）ｌｌ＋＋ｓを有するベク
トルｂ、１０４と考えることができる。ｂ、ベクトルは
３２のデータサンプルとオーバラップするため、各す、
ベクトルは９６の新たな要素と先のベクトルからの３２
の要素を含む０次に、ｂ、ベクトルにより表わされる信
号区画の平均値、即ちり、Ｃ，値は回路１０６で除去さ
れ、ベクトルＣ＠１０８がつくりだされる。

平均値は音韻評価においてほとんどあるいは全く価値の
ない情報を伝える。

更に、第３図について述べると、ベクトル０゜１０８は
１２８ポイント離散フーリエ変換（ＤＦＴ）回路１１０
へ附与される。この点までパワースペクトル評価プロセ
スは音声認識システム−■の音声要素プリプロセッサと
同様である。然しなから、ＤＦＴの結果の分解能を向上
させるために本システムは、６４のデータ要素と６４の
ゼロを使用するシステム−■とは対照的に１２８個のデ
ータ要素を使用してＤＦＴを実行する。

ＤＦＴ回路に加えられる１２８個の異なる要素は実数で
あって、従ってＤＦＴの１２８のうちの６５のみ（大部
分が複素数）の出力値ｄ　ＩＪ＋ｍｆが非冗長データを
表わす、パワースペクトルは、かくしてＤＦＴ値ｄ　ｋ
Ｊｅａにそれらの複素共役ｄ　”＊、　ｓを乗じて計算
し、それに対応する実数値ｅｋ＊ｌＩｋをつくりだす、
上記６５の非冗長値はベクトル０゜１１４内に保持され
る・データはかくして２分の１だけ短縮される一方、音
韻評価にとって最も重要であると考えられる情報が保持
される。

パワースペクトル値ｅｋ１．は同時に「フォンハン窓」
とバンド制限エネルギー回路１１８（第４図）に加えら
れる。フォンハン窓回路は従来通りスペクトルを「平滑
化」して時間領域の切捨てによるサイドローブを減少さ
せる。

平滑ベクトルｆｌＩは回路１２０へ加えられ、そこでベ
クトルｆ、の種々の要素’ｌＩ＋＃ｌが結合され、戦略
的に短縮されたベクトルｇ＋−１２２がつくりだされる
。短縮ベクトルは２１８．７５Ｈｚ〜３５９３．７５Ｈ
ｚの周波数レンジからの項を備える。このレンジは電話
回路通信を使用して受取られた信号に相当する。

回路１１８からのバンド制限エネルギーｈ、はベクトル
ｇ、１２２について使用されるものと同じ周波数レンジ
内のエネルギーを含んでいる。先の音声認識システム−
口よこのようにバンド制限されていないエネルギー環で
はなくその代わりにスベタ←ル全体の平均パマーである
エネルギ纏を使用していた。このため音声自体に由来し
ないノイズが若干、エネルギー内へ導入される。

バンド制限エネルギー値り、は回路１２４内でベクトル
ｇ、１２２と鎖状結合され、ベクトルｐ、１２６を形成
する。かくして、ベクトルｐ。

はデータ短縮周波数バージョンとエネルギー情報とを含
み、大部分の場合、音声信号の中心バンド周波数を表わ
す。データをこのように短縮することによって、それ以
降の計算のために特定値の情報を保持する一方、データ
を管理可能な大きさに短縮する。

音韻識別情報は、多分、ベクトルｐ、１２６の個々の要
素ｐ５１．の変化の絶体的大きさでなく相対的大きさの
中に存在する。従って、先の音声認識システム−■にお
けるように、要素ｐｈ＋＋ａは全て正かゼロであり、１
だけ増分されて、その結果の対数は回路１２８に示すよ
うに計算される。ベクトルｐ、要素を１だけ増分するこ
とによって、その結果得られる対数値はゼロ又は正とな
るようになっている。　（ｌｏｇｔｌ　＝Ｏ）その後、
結果値ｇｈ＋ｓは、エネルギー検出プロセッサ２２と受
容フィールドプロセッサ２４へ加えられる。（第６図）第５図はエネルギー検出プロセッサ２２をブロックダイ
ヤグラム形式で示したものである。ベクトルｇｍ１３０
のエネルギー成分、要素ｇ０１．は積分回路１３２内で
３倍単位時間区画について積分される。各時間単位は上
記の如く、１２ミリ秒の長さであるため、エネルギーは
３６ミリ秒にわたって積分される。もし積分されたエネ
ルギーＴ、が所定のスレショルドを土建ると、検出器１
３４は音声の存在を示す検出信号２２Ａ、Ｓ。

をアサートする。検出信号Ｓ、は、エネルギーパラメー
タＴ、添字ｍがモジューロ３演算でゼロでなければなら
ないから、３つの時間単位毎に多くとも一回はアサート
することができる。

検出信号２２Ａがアサートされる毎に、回路１３６は、
この検出信号と先の信号との間の時間に相当するデルタ
時間信号（Δ、）を生成する。

デルタ時間信号は間隔抽出回路１３８へ印加され、後者
は時間信号Δ７２２Ｃを生成する。関連するエネルギー
抽出回路１４０は積分エネルギー信号ｃ＋＋２２Ｂを生
成する。Δ７とｔ、、の信号は共に、第６図について以
下に論するように、５時間単位早い音声信号に対応する
。パラメータインデクスは“ｍｌから“ｎ”へ変化し、
抽出されたデルタ時間と積分エネルギー信号が音声信号
の一定区画のみ、即ちそれに対して検出信号がアサート
される区画に対して生成されることを強調する。

検出信号２２Ａはベクトルｑｓ１３０と共に、第６図に
示す受容フィールドプロセッサ２４へ印加される。積分
エネルギー信号２２Ｂは第７図に示す適応正規化器２６
へ印加される。デルタ時間信号２２Ｇは、第１２図に示
すようなプロセッサ３６の３重ベクトルの構造と共に、
第１６図と第１７図について以下に論するような評価積
分器４６へ印加される。

さて、第６図について述べると、検出信号２２Ａは、受
容フィールド２０２、即ち、信号区画１２２時間単長を
カバーする周波数情報を含むｑ、ベクトル群を組立てる
受容フィールド抽出回路２００を付勢する。検出信号は
受容フィールドの中心の信号区画、即ち、５時間単位早
い信号区画に対応するか、受容フィールドマトリックス
２０２中のｍ−５列に対応する。遅れはデルタ時間とエ
ネルギー検出プロセッサ２２（第５図）によりつ（りだ
される積分エネルギー信号を、それに対して検出信号が
アサートされる信号区画をできるだけ近くに心取りする
受容フィールドと同期させるために必要である。受容フ
ィールドは比較的大きく、１２２時間単であるため、検
出信号をせいぜい３時間単位毎に１に制限する際に情報
は失われない。

平均回路２０４は受容フィールドマトリックス２０２の
隣接しあうベクトルの数対を平均化する。

即ち、要素ｑＯＩＩＩ−１（ｌとｑ　６＋　ｌＩ−１゜
は平均化され、要素ｑｏ＋ｓ−ｑとｑ　（１＋　ａ−１
は平均化される等である。

この処理によってデータは２分の１だけ短縮し、マトリ
ックスＵ、１２０６を生成する。パラメータインデクス
は再び“ｍ”から“ｎｌへ変化し、受容フィールドと積
分エネルギー信号が音声信号の一定の区画に対してのみ
つくりだされることが強調される。

上記音声認識システム−Ｉは、データを３時間単位にわ
たって平均化することによって３分の２だけ短縮する。

短縮されたデータはその後非線形処理に附される。然し
なから、本システムを使用すれば、マトリクス要素を２
つの時間単位について平均化しそれ以上のデータを保持
することによってすぐれた分解能が得られる。受容フィ
ールド非線形プロセッサ２８内でのデータ短縮の改善（
第８図と第９図に関して以下に論する）のために「余分
の」データがプロセス中のこの時点で保持される。

マトリックスＵ、２０６は、次に第７図に示す適応正規
化器２６に附勢される。適応正規化器２６は、固定パラ
メータ平均ｕｉｊを減算しその後固定パラメータ標準偏
差δｆＪにより除することによってマトリクスｖ１をつ
くりだす。固定パラメータ平均値と標準偏差値とは第１
９図について以下に論するような開発データベースから
計算される。

もし進入する音声信号の統計が開発データベース内のデ
ータのそれと十分近似していれば、「正規化」されたマ
トリックスＶ、２１０はゼロに近い平均値を、ｌに近い
標準偏差値を有する。然しなから、進入する音声信号の
統計は開発データベース内のデータのそれよりも幾分異
なっている可能性がある。事実、開発データベースから
の個々のボイスサンプルは総体としてのそれらと異なる
統計を備えている可能性がある。それ故、個々の音声信
号については、我々は、マトリクスｖ７がゼロと異なる
平均値を、１と異なる標準偏差値を備えていることを予
期できる。従って、第７図の回路内に一層の適応正規化
が行われ、少なくともその平均値がゼロ方向に減衰でき
るようにしている。

もしマトリクスＶ、１２１０データがそれに対して積分
エネルギーｔ、２２Ｂ　（第５図）が所定値を上廻りＳ
Ｎ比が高く従って有声音を示す音声信号区画に相当する
ならば、データはブロック２１２−２１８内でそれらの
適応平均値を計算した後、その平均値をブロック２２０
内で減算することにより更に処理される。まづ、データ
は、ベクトルＷイ２１４を生成する回路を平均化するさ
いに時間について、即ちマトリクス行について平均化さ
れる。かくして、ベクトルＷ、は信号周波数情報のみを
含む、この情報は話者の声と音響チャネルを適切に特徴
づける。これらの特性は時間については、殊にマトリッ
クスデータに対応する時間については著しく変化しては
ならない。このようにデータを時間について平均化する
と、それらは１０５パラメータ、即ち、マトリクスｙ７
の１０５の要素から２１のパラメータ、即ち２１のベク
トルＷゎ要素へ短縮される。

ベクトルＷ、２１４の要素は、指数関数形平均化回路２
１６へ加えられる。かくして指数関数形平均化回路２１
６は、エネルギー検出プロセッサ２２（第５図）で計算
された積分エネルギーｔ、。

２２Ｂをエネルギー検出プロセッサ２２内で使用される
検出スレショルド値よりも高い所定のスレショルド値と
比較する。かくして、平均化回路２１６は何れの信号区
画が高いＳＮ比を有するか、即ち、何れの区画が大きな
音声成分を有するかを検出する。

もし積分エネルギーが「ボイス」スレショルド値を上廻
らなければ、適応平均ベクトルＸ′２１８は、それが先
の事例Ｘ′、、であった状態にとどまる。この場合、指
数関数平均値は、以前遺りブロック２２０内で減算され
るが、平均値それ自体は適応しない。ボイススレシぢル
ド値を上廻るエネルギー値を有する信号区画は、一方で
は、無声音の摩擦音曲又は鼻音韻に相当するが、同時に
他方では、話者による呼吸や、特に呼吸群の終りのその
他の静騒音に相当する。かかる低エネルギー信号区画は
音韻を認識する目的でベクトルＷ１の平均値を特徴づけ
る上では信軽がおけないかもしれない。

個々の音韻に対しては比較的長いが一連の語又は句を比
較した時には短い期間を用いて指数関数平均化を実行す
る。そのため平均化は単一の音韻に関連するデータに対
しては大きな影響を及ぼさないが、複数の語又は句に関
係するデータの平均値は実際にゼロ近くに短縮する。

使用される時間はシステムが音声を処理している時間の
長さに依存する。殊に、指数関数平均化は、十分なエネ
ルギーを有する例えば１００の受容フィールドに対応す
る短い期間、（はぼ３．６秒）又は十分なエネルギーを
有する例えば３００の受容フィールドに対応するより長
期の期間（はぼ１０秒）の何れかについて実行される。

時間の長さは積分エネルギー信号２２Ｂがボイススレシ
ョルドを上廻った時間数、即ちｔ１≧２５に依存する。

システムが新たな話者に出会う際には、より短かな期間
が使用される。それ故、システムは話者の特徴と音響チ
ャネルの特性にすばやく適応する。その後、システムは
長い方の期間を使用して話者の音声を処理する、何故な
らば、話者の声の特徴と音響チャネルの特性とは比較的
一定と想定されるからである。

いったん適応平均ベクトルＸ’、２１Ｂに対する計算が
完了すると、適応平均ベクトルはマトリクスＶａ２１０
要素（ブロック２２０）から減算され、マトリクスＸ、
２２２をつくりだす、有声音を含む音声信号を表わすマ
トリクスＸ７中のデータの長期間にわたる平均値は今度
はゼロに近くなる０次に、マトリクスｘ１は第８図と第
９図のブロックダイアグラム中に示す受容フィールド非
線形プロセッサ２８に加えられる。

哉々の先の出願中に説明した対応する非線形処理と比較
すると、第８図と第９図の非線形処理はそれより少ない
非線形要素を計算する。第８図と第９図の以下の所論よ
り明らかになるように、計算される要素数の減少は時間
依存性の局面を表わす多くの非線形積を処理するが異な
る周波数成分どうしの間の相互作用を表わす大部分は保
持することによって行われる。即ち、我々は音韻識別に
とっては後者の積の方が前者よりもずっと重要であると
考える。その結果、我々は初期の処理においてより多く
のデータを保持することによってより高度の分解能デー
タを我々が実際に計算するより重要な非線形積の計算に
供給することができた。

第８図と第９図において述べると、マトリックスＸ、２
２２の要素はブロック２２４−２３４において一次項と
して組合されると共に特有の部分外積としても組合わさ
れる０本質上、−次項と部分外積は受容フィールドの時
間次元について加算される。これら特殊積は音声信号に
関する一定の情報を伝える一方、データをもし連続した
外積、即ち、異なるマトリクス要素対の積が全て計算さ
れた場合のデータより相当少なくするように設計される
。初期の音声認識システム−Ｉは処理のこの点で連続し
た外積を計算するため、データは先の処理中に相当短縮
されることが必要である。他方、本システムは、この非
線形処理ステップのためにこの時点までより多くのデー
タを保持することができるため、入力データの優れた分
解能を維持することになる。

受容フィールド非線形プロセッサ２８は４個のベクトル
群を生成する。各ベクトル群はベクトルＹＦｌｓＺ”＋
ｎ′および２．１′を含み、異なる時間遅れと関連する
。Ｙ、７ベクトルは２つの関連する“Ｚ”ベクトルを形
成する際使用された項の一次組合せであるデータを含む
＊Ｚ”＊ｎベクトルはエネルギーを用いて形成された一
定の部分外積を組合せる結果、又は種々のマトリクスＸ
、２２２列内の第１項群を含み、Ｚベクトルは非エネル
ギー又は周波数を用いて形成された特殊な部分外積の結
果、マトリクスＸ。１列の項を含む、これらベクトルの
各々の形成は以下に論する。

受容フィールド非線形プロセッサ２８内では相当の時間
平均化が行われる。−音韻は一つの受容フィールド内で
は「静止」しているためその受容フィールド内の所与の
周波数列の位置は有益な信号情報をあまり伝えないもの
と仮定する。然しなから、受容フィールドの時間窓につ
いて平均された周波数列の非線形組合せは音声認識に有
益な情報を現に表わす。

上記の如く、４つの時間差区画の各々について一つのベ
クトル群が形成される。それ以上の時間差についてのベ
クトル群は、より大きな時間差に対する分散に関する情
報は殆んど重要ではないと思われるから、計算されない
。

殊に、ゼロの時間差（Δ＝０）のベクトル群は、ブロッ
ク２２４−２２８　（第８図）で形成される。

ブロック２２４は、マトリクスＸ、２２２の列の全てに
おける最初の要素を共に加算することによってベクトル
Ｙ０．７の第１の要素を生成し、全列内の第２の要素を
共に加算することによって第２のベクトル要素を生成す
る等である。従って、ベクトルＹ、、１はその要素とし
て時間について合計されたマトリックスデータを有する
。

ベクトル群中の第２のベクトル、ベクトルＺ”６＋ｌＩ
は列の第１の要素であるマトリクスエネルギー環を用い
て形成される。ブロック２２６は各列について同一列中
のエネルギー環とその他の全ての要素の積を形成する。

積はその後合計されてベクトル２・。、１の要素を形成
する。ベクトル要素はかくして一定時間について合計さ
れたエネルギー積となる。

時間差ゼロの場合のベクトル群の第３のベクトル；ＺＯ
＋１％はブロック２２８で形成される。このブロックは
、マトリクスＸ、２２２周波数要素中の、即ち１列中の
全要素中の積を第１のものは除き全て形成する。この場
合、これらの積を全て別々にとって外積を使用すること
ができよう。その代わり、これらの積から自動相関にお
けるものと類似の和が形成される。この和はそれが単一
列の周波数要素内から形成されるためにブロック２２８
内で「自己槽」と称される。この自己槽はその後時間を
経て、あるいは全列にわたって合計される。

全外積の代わりに周波数列内に自己槽を取り入れると、
出力ベクトルはもし全外積が計算された場合にとる値よ
りも戦略的に小さくなる。このため、非線形プロセッサ
はより多くの信号周波数データ、即ち高い周波数分解能
を有するデータを含む、より大きな入力ベクトルを処理
することができる。

時間差１１，３についてのベクトル群は第９図に示すブ
ロック２３０−２３４内で計算される。

ベクトルＹ、７は２つの関連する“２゛ベクトルを形成
する際に使用される全要素の線形組合せを含んでいる。

かくして、ｌの時間差（Δ−１）については、ベクトル
ｙ１，７は１列離れた、即ち隣接する要素全体の組合せ
を含む０時間差２と３のｙ、ベクトルは、少なくともそ
れぞれ２、および３列離れた要素全体を組合せることに
よって形成される。

ベクトルＺ”ｌ１Ｍはエネルギー環を１列離れたマトリ
クス要素と結合することによってブロック２３２内で形
成される。同様にして、ベクトルｚ３．７はブロック２
３４内で１列離れた周波数要素を結合することによって
形成される。かくして、“Ｚ”ベクトルは適当な時間差
に関連する列からエネルギーと周波数項の一定の組合せ
を表わす要素を含む０時間差２と３（Δ＝２．３）につ
いてのベクトル群は、それぞれ２列と３列離れた要素を
組合せることによって形成される。

ベクトル２．７はブロック２３４内で数対の列から周波
数項の積全体を結合することによって形成される。上記
積は、周波数ベクトルどうしの間の相互関連のそれと同
様に合計される。ブロック２３４内の和は、周波数要素
と２個の異なる列間で形成されるため、「クロス乗積」
と称される。

このクロス乗積は、その後一定時間にわたって、即ち時
間差Δに追従する数対の列全体にわたって合計される。

更に、戦略上ブロック２３４のクロス乗積をとると全外
積が計算された場合に得られるものよりも出力ベクトル
が小さくなる。この場合、入力ベクトルは大きくするこ
とができる。

その後、ベクトル群がブロック２３６内で鎖状結合され
、データの非線形表示である４３１要素ベクトルａ、、
２３８が形成される。ブロック２３６中の上付き文字“
Ｔ”は、ベクトルを書き替え転置したことを示す。

ベクトルａ、２３８は、第１Ｏ図に示す第２の非線形プ
ロセッサー２３０　（第２図）に加えられる。ベクトル
ａ７の要素はまづ相関関係を解かれ、それらを固有マト
リクスＥｚｈにより乗することによりデータ短縮される
。固有マトリックスＥｍ＆は第２２図に示すように開発
データベースから形成される。固有マトリクスＥｉ１６
はベクトル群に対応する開発データから計算された２６
の最大固有値に相当する固有ベクトルを含む。かくして
、ａｆｉを固有マトリックスによって乗すると、データ
は最大分散を表わすものとして選択された２６の固有ベ
クトルの方向に位置するａい成分に還元される。

データはベクトルミツ内の４３１の要素からベクトルｂ
イ２４２内の２６の要素へ短縮される。

そのようにデータを短縮することによって、信号分散に
関する情報のほぼ９６％が保持される。完全な信号情報
を保持することと非線形処理に付されるパラメータ数を
制限すること、従って、パラメータ数の幾何学的展開の
間の妥協は重要な信号情報の多くを犠牲にすることなく
実現することができる。我々は、最大固有ベクトルに相
当する情報を選択することによって一層の処理後に音韻
認識にとって最も重要な情報を選択することになるもの
と確信している。

その結果として得られる２６の要素ベクトルｂ、１２４
２は固定パラメータ正規化−２ブロツク２４４内で正規
化される。ブロック２４４内に示す平均値μ、１は開発
データベース中の２６の要素ベクトルｂ、１群内の相当
する要素から形成される。平均値の形成は、第２３図に
関して以下に詳論する。かくして、進入する音声信号に
ついて発生したベクトルｂ、１の２６の要素は開発デー
タベース中の対応する要素の平均値と比較される。実際
の値ではなく相対的なデータ値が音韻評価にとって重要
である。平均値は、はとんど情報を追加しないからベク
トル要素から除去される。この正規化処理のステップは
以後の実施例からは省略することができる。

２６の「正規化」ベクトルｃａ２４６要素の全外積はそ
の後ブロック２４８内で形成される。その結果は、適応
受容野マトリクスＸ、２２２（第７図）に対して第３次
と第４次項を含む３５１要素ベクトルｄｌｌ　２５０で
ある。このベクトルｄ、％はベクトルａ、、２３Ｂの要
素と鎖状結合され、７８２要素ベクトルｅ、２５４を形
成する。鎖状結合されたデータは、その後正規化プロセ
ッサ３２　（第１１図）に加えられる。

第１１図について見ると、ベクトル８．２５４は、ブロ
ック２５６内で別の固定パラメータ正規化処理に付され
る。その後、データはベクトルｆ、２５８内でベクトル
毎の正規化に附される。

即ち、それぞれの個別ベクトルｆｎは正規化されること
によって、その７８２要素を横切る平均値がゼロ、標準
偏差が１となるようになっている。

結果として得られる正規化されたベクトルｇ１２６２は
音声要素モデル−１プロセツサ２６４へ加えられる。か
くして、データは一組の音韻モデル評価に還元される。

それ以降の非線形処理はその還元データに対して行われ
、どの特定音韻をデータが表現しているかをより良く評
価することができる。

音声要素モデル−１プロセツサ２６４は、正規化された
ベクトルｇ、２６２にカーネルに１を乗する。カーネル
に１は開発データベース内のデータを使用して計算され
る特殊音韻標識に関するバラメータを含んでいる。カー
ネルに、の形成は第２８図に関して以下に論する。かく
して、音声要素モデル−１プロセツサ２６４は進入する
音声信号に関するデータを、即ちベクトルｇ７を、戦略
的に７８２要素から９４要素へと短縮する。

短縮データを含むベクトルｈ、１２６６は、その後、第
１２図に示すプロセッサ３６中で先の２つの期間からの
ベクトルと鎖状結合される。同様に、プロセッサ３６に
は第５図からのデルタ時間信号２２Ｃが人力される。殊
に、ベクトルｈ、とデルタ時間信号２２Ｃとは共にそれ
ぞれれバッファ３００ａと３００ｂに付与され、そこで
先の２つの期間に対する値がそれぞれストアされる。か
くして、２個のバッファは同じ３つの時間単位長の期間
に関する情報を格納する。もし２つの連続するベクトル
が１２ミリ秒よりも長いデルタ時間信号に相当するなら
ば、我々は上記ベクトルがオーバーラツプしない受容野
より導出されるものと想定する。そのため、ベクトルは
、デルタ時間、即ち、バッファ内の第１又は第３のベク
トルの何れかについての情報を殆んど又は全く追加する
ことはないであろう、その情報は音韻評価を中心ベクト
ルｈｎに割当てる上で役立つものである。従って、第１
又は第３のベクトルの何れかは、何れのデルタＴ値が１
２ミリ秒より大きいかによって全てのゼロと置換される
。このため、ベクトルｐ７３０６を構成するブロック３
０４内で鎖状結合された３重ベクトルは非連続データを
含まないようになる。

３重ベクトルｐ、３０６は、かくして、３つのオーバラ
ップ受容野から導出される連続音声中の拡大「窓」をカ
バーする。続くモデル化において、大きな窓と関連する
特殊音韻標識は中心受容野のそれであり、認識される音
韻はその大きな窓のできるだけ中心に位置するようにな
っている。例えば、　　ｔｈｏｕｓａｎｄ　”　　（サ
ウザンド：千）という単語の″　ｏｕ　　　（アラ）の
ように、多くの音韻は比較的長期間にわたって、より明
確に聞き取れるため、この大きな窓を用いてより容易に
認識されるはづである。然しながら、もしシステムが早
口の音声に相当する音声信号を受取る場合には、時間間
隔が長いと一つの窓につき一個以上の音韻が生ずる可能
性がある。−層の非線形処理と音声モデル化によってシ
ステムはかかる音韻を認識分離することが可能になる。

第１２図について述べると、処理のこの時点で音韻評価
時間窓を大きくすると受容野の大きさ、即ち、関係する
期間を大きくする場合よりも音韻認識にとってより効果
的である。即ち、受容野によりカバーされる期間を大き
くすると、データの分解度が同一である限りパラメータ
数が増加する。

その後、システムが処理しなければならないパラメータ
数を不当に大きくせずにより大きな受容野を用いて非線
形処理を実行するには、データの分解度は、時間単位で
あれ、周波数分布についてであれ、小・さくしなければ
ならない。受容好期間を長くせずに、処理のこの時点で
、即ち、第一の音声要素モデル化ステップが特定の音声
要素に関するデータを選択することによってデータを短
縮した後°に長くすると、システムはデータパラメータ
数を不当に増加したりデータの分解能を低下させたすせ
ずに進入する音声信号の長い区画を表わすデータを観測
することが可能になる。

更に、第１２図について述べると、音韻評価時間窓を拡
大することによって初期の音声認識システム−Ｉの前後
関係依存標識の幾つかを除去することができる。音声認
識システム−■は前後関係によって音韻標識を変更する
０例えば、もし一つの母音の直前に無声音子音又は有声
子音が先行する場合には、その母音の標識はそれに従っ
て変更されることになろう。その結果、音韻標識、殊に
母音のそれは増加する。本発明のシステムでは、然しな
から、大多数の音韻は一つの標識しかもたず、データの
非線形性が大きくなると音韻標識の前後関係は語／句判
断器１４に伝えられる。（第１図）判断器内にストアさ
れる標識数、従ってスペリング数は、相当少なくなり、
適当な語句をサーチする速度はスピードアップする。

さて第１３図について述べると、第１２図からの出力３
重ベクトルｐ、３０６は、第３の非線形プロセッサー３
３８へ付与される。この非線形プロセッサは、２つの相
異を除いて、第１０図に示す非線形プロセッサー２３０
と同様である。

まづ、この場合には何ら固定パラメータ正規化は行われ
ない。第２に、しかもより重要な点であるが、この場合
スレショルド値が存在する。

プロセッサー３３８で外積を形成する前に、データはブ
ロック３０８内でのスレショルド値と比較される。上記
スレショルド値はゼロにセットされる。ベクトルｐ、３
０６は各音韻の可能性の評価値を含んでいる。そのため
ゼロを下廻るベクトルｐｍの一要素は、音声要素モデル
１−１２６４（第１１図）により処理されたばかりの音
韻が鎖状結合窓中の相当する位置には生起したことはあ
りそうにないことを示す。

スレショルド値３０８を付与する根拠は次の通りである
。即ち、ベクトルｐ、３０６がブロック３１２内で固有
ベクトル成分に分解された後、ブロック３１６内の外積
を通過するため、ベクトルの大きさは著しく拡大するた
めである。ベクトルサイズの拡大は、続く処理において
相対的に大きな数のパラメータがベクトルの処理に捧げ
られることになるということを意味する。そのため、ベ
クトルサイズの拡大前に出来るだけ大きな情報をもった
ベクトルを形成するように注意を払うべきである。パラ
メータを最も効率的に活用するためには所与の時間に生
じなかったと思われる大多数の音韻のモデル値を無視す
るがよい。これらの音韻は、ゼロを下廻るモデル値を有
することになろうが、どの程度下潮るかはどうでもよい
。その代わり、スレショルド値３０８が与えられて、更
なる非線形処理に付されるものは、生起した可能性のあ
る音韻と関連する音声モデル値によって特徴づけられる
ようになっている。

更に第１３図について述べると、所定スレショルド値を
下廻るベクトルｐ、３０６成分は、データラフロック３
１２内の固有マトリクスＥ３３により乗することによっ
て戦略的に相関関係を解除され短縮される。固有マトリ
クスＥ３３は、以下に第２９図に関して詳論するように
、ベクトルｑ７３１０に対応する、開発データベース内
のデータから計算された３３の最大固有値と関連する固
有ベクトルから形成される。かくして、データは３３の
最大固有ベクトルの方向に位置するデータの成分のみを
更に非線形処理すべ（選択することによって短縮される
。信号情報の保持と非線形処理に付されるパラメータ数
の縮減との間の妥協によって、この処理時点で信号分散
を説明する情報のほぼ５０％が保持される一方、非線形
処理に付されるパラメータ数は２８２から３３へ減少す
る。

その結果得られるデータ値、ベクトルｒ、３１４がブロ
ック３１６へ附勢され、そこで完全な外積が形成される
。外積の結果はその後、ベクトルｐ、３０６と鎖状結合
され、８４３要素ベクトルｔ、３２０が形成される。こ
のベクトルは、ベクトルｐｎ３０６の全成分だけでなく
、高次の非線形性を備えた項を含むため、スレショルド
値を下廻るデータだけでなく、それに対して非線形プロ
セッサー３が処理を施したデータを格納している。

その後、８４３要素ベクトルｔＲ３２０は、第１４図に
示す第２の音声要素モデル−２２３２へ付与される。音
声要素モデル−２プロセツサは、データを音韻固有のカ
ーネルに、により乗じてベクトルμ、３２４をつくりだ
す、ベクトルμ７は音韻評価値を含む。カーネルに２は
、以下に第３２図について述べるように開発データから
作成される。

次に、音韻評価値は確率比プロセッサ４２に付与され、
同プロセッサ４２は、それぞれの評価値をその音韻が存
在する確率の対数に変換する。各音韻の確率は、その音
韻が存在しない時とする時との評価値の分布状況が正常
であると仮定して計算される。対数によって、データに
対するそれ以降の数学的演算がその後、時間のかかる確
率比の乗算でなくて簡単な加算として実行できることに
なる。

その結果ベクトルＶ、３２８内に得られる確率比の対数
は第１５図の音韻評価再構成プロセッサ４４へ付与され
る。上記再構成プロセッサ４４はデータを語／句判断器
１４により取扱い容易な形式に処理する。（第２図）上
記再構成ステ、７プの若干は、望ましい例で使用される
特殊な語／句判断器用にデータを処理するように設計さ
れている一方、音韻評価値を再構成することによって行
われるデータの簡単化と整理は、システム内にどのよう
な語／句判断器が使用されるかに関わりなく、適当な語
句の判断を簡単化することができる。

音韻の再構成プロセッサはデータを処理することによっ
て各音韻が一つの標識によってのみ表現されるようにな
っている。従って、語／句判断器１４は、各々の語句に
つき特定の音韻と一つのスペリングを表示することによ
ってストアしソートすればよい。

それぞれの音韻評価ベクトルは、一つの音韻と関連する
評価値を含むべきである。然しなから、ベクトルのうち
の若干は表Ｓ（第３５図）に提示するように２重音評価
値を含んでよい。かかる音韻評価ベクトルは第１５図の
ブロック３３０では構成音韻に分割されている。２重音
の第１の部分の評価は時間と共に逆移動し初期の信号区
画から信号に加えられ、２重音の第２の部分の評価は時
間と共に前進移動し、後の時間区画内に存在する任意の
信号データへ加えられる。音韻の順序が重要である一方
、音韻の時間配置はそうではない。

それ故、２重音を構成音韻へ分離し同音韻を時間と共に
移動させてもその評価の語句に対するマツチングには影
響を与えることはないであろう。

いったん２重音が構成音韻に分離されると、音韻はブロ
ック３３４で語／句を発音するために必要な最小の組の
音韻に短縮される。かくして、個々の音韻スコアは結合
されて、マイナススコアは無視される。

簡単化された音韻評価値が音韻評価積分器４６へ付与さ
れる。（第１６−１８図にブロック線図で示す、）第１
６図について述べると、所与の音韻に対するスコアは、
ブロック３３８内でエネルギー検出プロセッサ２２（第
５図）からの関連するデルタ時間信号２２Ｃと共に一定
時間にわたってグループ化される。一つの所定音韻に対
するスコアはその後ブロック３４４．３４Ｂ　（第１７
図）において一つの時間位置へ整理統合される。

さて第１７図について述べると、合計された音韻評価ス
コアが最も近い「セントロイド」時間、即ち、特定の音
韻が発される加重期間の中心を示す時間と等しくされて
いる。この期間内の時間は音韻評価値により重みをつけ
られている。その後、それと関連する音韻標識コード、
音韻評価値、および生起のセントロイド時間が、ブロッ
ク３５２中に示すようにメモリーの１０ケーシヨン内に
ストアされる。メモリは第１８図のブロック３５２によ
りアクセスされ、正確な時間順序を与えるように生起の
セントロイド時間により入力が順序づけられる。出力音
韻評価Ｃ，３５８と、それに関連するデルタ時間値ｄ、
は、その後、語／句判断器１４（第２図）によりアクセ
スされる。添字はｎ゛から“ｍ゛へ再度変化して、第１
８図の出力が入力のタイムベースと異なるタイムベース
を有することを示す。

音声要素モデル１−２プロセツサ４０の動作と、システ
ムによりつくりだされる音韻評価の再構成と整理統合は
“ｙｅｓ　ｔｅｒｄａｙ　”という単語の処理を考察す
ることによって図解されている。音韻評価標識はノイズ
や悪評価は無視して音声要素モデル１−２プロセツサに
より音声に付与される。即ち、Ｊ：３；３Ｆ、：Ｅ：　
　Ｓ；１ｓｏ１．ｔ；ｔＲ；Ｒｄ；ｄ　　ｉ　ｄａＴ　
；ｅＴ　ｉである。

この場合、我々は若干の異なる音韻の可能性の例を有し
ている。これは音韻が明瞭に分節された音声中に現われ
るやや概略化した例である。リストした要素の各々は、
それぞれが検出された受容野に対応する音声内の隣接窓
中に出現するであろう音韻を表わす。音節主音形の“Ｊ
”は、あたかも“ｅｅ−ソｅｓｔｅｒｄａｙ　”と発音
されたかのように“ｊ”に先行する。上記“ｊ′″は更
に２重音“ｊＥ”内にわたり出現する。次の窓は母音“
Ｅ゛を反復する。“Ｓ”の最終形は“−５”の如（次に
出現して、摩擦音の前に何か有声音が聞きとれるが母音
として識別するには十分でないものが存在することを示
す、無声音ｓ　ｔｏｐのｔ″は、この場合、その分離形
“１ｓｏ１．ｔ”でまづ表現され窓中には何の有声音も
聞えないことを示し、その後その初期の形“ｔ”で表現
される。次の窓は２つの音韻を含むが、もう一つの音韻
類の“ｔ”と音節主音の＠Ｒ″であって、後者は次の窓
で反復される。次にまづ“ｄ″が音節末尾前の“ｄ”と
して現われ、その後その“橋渡し”形の“−ｄ−”とし
て現われた後、音節初頭の“ｄ”として現われる。上記
橋渡し形は窓中に“Ｒ”と音節最後の母音“ｅビからの
有声音を含んでいるが、それらの各々はそれらを同一の
窓の中に橋渡して標識化することを正当化するには十分
ではない。音節最終母音は繰返される。

ブロック３３０（第１５図）は２重音“ＪＥ”をその構
成音韻に分割している。即ち、Ｊ　ｉＪ　；　ｊ　：Ｅ
；Ｅ；　　３　；ｉｄｓ、ｔ　；　ｔＲ；Ｒｄ；　　ｄ
Ｈｄｅｌ；ｅｌ；である。

ブロック３３４はその後音韻標識を次の通り簡単化する
。

Ｊ　ｉ　Ｊ　＊　Ｊ　＊　Ｅ　；　Ｅ　：　３　ｉ　Ｌ
　ｉ　Ｌ　Ｒｉ　Ｒｄ　ｉ　ｄ　；ｄ　ｅ　Ｉ　；　ｅ
　Ｉ　；最後に、評価積分器４６　（第１６−１８図）はそれぞ
れの音韻のデータが処理される。その後、処理の種々の
時点でそれと関連する音韻を特徴づける上で有益な種々
のパラメータが開発データベース全体について計算され
る。これらの計算された、又は固定されたパラメータは
その後未知の音声を表わす進入信号に対して音韻評価値
を計算する上で使用される。

第１９図について述べると、要素の各々について平均値
μｉ＋ｊが計算され、“Ｎ”マトリクスＵ、２０６のμ
ｉ＋　Ｊ＋　ｈは開発データから作成される。まづ、開
発データ内のＵＲマトリクスの各々から対応する要素が
平均化され、種々の平均計算値を要素として有するマト
リクスμ４０２が得られる。次に、μイマトリクスの対
応要素の標準偏差値σｉ、Ｊが関連する平均値μｉ、Ｊ
を用いて計算され、種々の計算された標準偏差値を要素
として有するマトリクスσ４０４が得られる。固定平均
パラメータと標準偏差パラメータとはその後、適応正規
化器内で使用され、進入する未知の音声のために作成さ
れたマトリクスＵｎの各要素を正規化する。

第２０図は種々の固有マトリクスを計算する際に使用さ
れる共分散マトリクスＲ４１０を定義したものである。

開発データ用に作成したＮ入カベクトルａ、４ｏ６に対
応する共分散マトリクスＲはブロック４０８に示すよう
に計算される。その後、共分散マトリクスＲを使用して
第２１図に示すような固有ベクトルとそれに関連する事
例を整理統合することによって多数の事例が除去される
ようになっている。

即ち、Ｊ　ｉ　Ｅ；　Ｓ；　ｔＲ；　ｄ　；　ｅ　Ｉ　
：それぞれの音韻はこの場合、あたかもそれが一つの生
起セントロイドタイムで生じたかのように処理されてい
る。これらセントロイドタイムは最早、モジュロ−３の
検出制約には委ねられない。

（ブロック１３４、第５図）然しなから、種々の標識の
順序はその単語の正確な音声通りのスペリングを確保す
るために保持される。

この例の場合、統合された“ｔ”は音声主音の“Ｒ゛と
同一の窓に割当てられる点に注意されたい。このことは
２個の音韻の生起のセントロイドタイムが十分近接して
いる場合に生ずることになろう。

バｊノ：！本１戊音韻評価値を計算する際に使用されるパラメータの作成
は第１９−３５図について論する。第１９図は適応正規
化器２６（第７図）内に進入する音声に相当するデータ
を正規化する際に使用される固定パラメータμｉ＋ｊと
σ４１、の計算を示すものである。処理全体を通して使
用される固定パラメータは平均値と標準偏差値を含めて
、開発データベース中のデータを使用して計算される。

開発データベースは公知の音声信号から作成される。上
記の公知の音声信号は音声プロセッサへ印加され、第３
−１８図に示すような固有ベクトルを計算する。

第２１図について見ると、ブロック１２内で固有値が計
算され、順序づけられる。その際、ベクトルｂ、（４１
４から）は最大の固有値を有する固有ベクトルであり、
ｂＡ−１は最小固有値を有する固有ベクトルである。そ
の後固有ベクトルはそれぞれを対応する固有値の平方根
によって除することによって正規化し、ベクトルｂ’　
　４２０をつくりだす。第１０Ｂ正規化固有ベクトルは
、即ち、最大のＢ固有値に相当するＢ正規化固有ベクト
ルは［固有マトリクスＥ、４２４Ｊに組立てられる。固
有マトリクスＥ９は定義上、正方形マトリクスである必
要はない。ブロック４２２内の肩文字“Ｔ゛はベクトル
の転置を示す。

第２２図は非線形プロセンサー２３０（第１０図）に使
用される固有マトリクスＥＺ６４３２の計算を示す。固
有マトリクスＥ０は第２１図に関して説明される計算方
法を使用して計算される。固有マトリクスの計算に必要
な共分散マトリクスＲ４１０は、第２０図に示すように
、開発データベースから作成される。その後、最大の固
有値と関連する２６の固有ベクトルを格納する固有マト
リクスＥｚ６を使用して、非線形ブロモ・ツサ−２（第
１０図）のブロック２４０中の進入音声に関するデータ
の相関関係を解除する。

第２３図は、固定パラメータ正規化−２プロセツサ２４
４（第１０図）に使用される平均値の計算を示す。プロ
セッサ２４４は選択した２６の固有ベクトルと関連する
２６のデータ要素を正規化する。かくして、Ｎ開発デー
タベースベクトル（ベクトルｂ、２４２に相当する）の
要素の平均値が計算される。

第２４図は、同様にして、第１１図に示す固定パラメー
タ正規化−３プロセツサ２５６に使用されるパラメータ
の計算を示す、開発データベース内の対応するＮベクト
ル８．２５４の平均値と標準偏差値とが計算され、計算
された平均値を含むベクトルμ４４０と、計算された標
準偏差値を含むベクトルσ４４２が得られる。

第２５図は音声のマーキングを示す。開発データ人力音
声信号５（ｔ）の区画は抽出されて“窓”をベクトルＳ
、４４６により表わされる音声に形成する。窓は時々、
同様にベクトルｈ、１２６６（第１２図）により表わさ
れる受容野マトリクスＵ、１２０６（第６図）の時間幅
と対応することもあれば、ベクトルｐ、３０６により表
わされるオーバーランプ３重ベクトルの時間幅に対応す
ることもある。（第１２図）前者の時間幅は入力音声信
号５（ｔ）の１１８４のデータサンプルに相当し、後者
の時間幅は１７６０の同様なサンプルに相当する。第２
５図のブロック４４４は長い窓の抽出を示す。もし短い
窓を選択すると、窓は要素Ｓ’ｌｌｌ＋６．ゎの廻りに
集中する１１８４のサンプルにより構成されることにな
ろう、窓の形にされた音声は、その後、ブロック４４８
に示すようにその音声を聞く人によって音韻と関連づけ
られる。音声を聞いている人は、そのためかかる窓をそ
れぞれ自分が聞く特定の音韻を含むものとして注意する
ことになる。

その聴者により選択される聞き取りの時間幅は、聞こえ
る音韻数と、音の明瞭性とに依存する。窓が長い場合の
音韻は聞きとりやすいことが多いが、そうすると一つの
窓に多くの音韻が導入され、従って、マークするさいの
曖昧さが多くなる。このように、その選択は間こえる音
声の明瞭さと合成標識の時間分鮮度との間には相背反し
あう関係が生ずる。もし短い窓について全てのマーキン
グが行われれば、標識は音声要素モデル−１２６４（第
１１図）により使用される音声の時間幅に対応すること
になろう。標識はこのモデルに「マツチ」するであろう
が、音声要素モデル−２３２２（第１４図）には「ミス
マツチ」することになろう。同様にして、もし全てのマ
ーキングが長い窓について行われれば、標識は第２のモ
デルにマツチするであろうが、第１のモデルにはマツチ
しないであろう、理想的にいえば、標識は、それらが使
用されるモデルに常にマツチし、聴者は２つの完全な標
識集合を生成することになろう、然しなから、窓の幅が
異なる場合に間こえるもののうちには大きな共通性があ
る。音声をマークする負担を軽減するために聴者はそれ
ぞれの標識事例について窓時間幅を最大限有利に選択す
ることができる。

第２６図は聴者によりマークされた後の標識の処理を示
す、もし２個の音韻が一つの窓の中に聞こえると、それ
らはブロック４５０中に示すような２重音標識にマツピ
ングされる一対を構成することができる。もし一つの音
韻のみしか一つの窓中に聞こえなければ、その音韻はプ
ロ・ツク４５２中に示すように別個の音韻標識にマツピ
ングされた無声子音のうちの一つであり得る。もし２つ
以上の音韻が聞こえると、数対の音韻が２重音標識にマ
ツピングされて、他のものは単一の音韻にマツピングさ
れることができる。この最後の場合、もし窓が長いもの
であれれば、音声をマーク中の人物は短い窓を選択し、
更に一つの窓で聞こえる音韻数を減らして聞くことがで
きる。マツピングはマーキングが完了した後に自動的に
行われる結果、聴者により入力される実際の標識は保存
される。

表１　（第３６図）には音声をマークするために選ばれ
る標識が示されている。これら音韻標識は一部は経験に
基づいて選択される。例えば、経験によれば、特定の音
韻が別の音韻に続いて現われることがあることが知られ
ている。これら標識の幾つかはその後洗練して例えば順
序立った音韻とく又は）幾つかの音韻の組合せを２重音
へ包含する。処理全体を通して使用される標識の数は先
の音声認識システム−Ｉ内に使用される標識数よりも大
きい。かかる多数の標識が使用されるのは、一つの音韻
の開始、従って処理の開始を指示するためにトリガ機構
が活用されるような以前のシステムと異なって、本シス
テムは信号区画窓内の何処にも一つの音韻を検出でき、
処理を例えば一つの音韻の中間で開始できるためである
。かくして、システムはより多くの標識を使用して、そ
の後の処理のために検出音韻の前後関係を伝えることに
なる。

更に第２６図について述べると、１個の信号区画に付与
された標識がブロック４５４中にコーディングされて標
識ベクトルＬ、４５６を形成している。標識ベクトルＬ
、４５６は、ブロック４５０と４５２内に発生する新た
な音韻標識と共に表１（第３６図）に示す９４の可能な
音韻標識のそれぞれを表わす要素を含んでいる。その結
果生ずるベクトルは区画内で聞こえる音韻標識用の１の
要素と、聞こえない音韻標識について０の要素を備えて
いる。その後標識ベクトルは第２７図に示すパラメータ
開発回路に付与される。

第２７図は結合カーネルに、４７６（第２８図）を作成
する際に使用される固有マトリクスＥ４６２とカーネル
に４７０の計算を示す。共分散マトリクスＲが開発デー
タベースベクトルｇ、２６２について計算される。ベク
トルｇ、、は信号データ表現であって、その後音声モデ
ル−１３４（第１１図）に付与される。計算された共分
散マトリクスＲはその後、第２１図に関して上述した計
算に続いて関連する固有マトリクスＥを作成するために
使用される。

ベクトルｇ、２６２はその後固有マトリクスＥ４６２を
乗ぜられ、相関関係を解かれたデータ短縮ベクトルｈア
４６６が形成される。相関関係を解かれたベクトルｈ、
は、ベクトルｇ、ｌ中の音声データの７８２の要素に対
して、６５０の最大固有値と関連する６５０の要素を有
する。かくして、パラメータの数は戦略的に縮減され、
音声認識にとって最も重要なデータが保持される。保持
された情報は信号分散のほぼ９９．９７％に関する情報
を含む。この時点でデータを縮減すると音韻評価で重要
な情報の多くを犠牲にせずに関連するカーネルに４７０
と共に結合カーネルに′の大きさをより管理可能な大き
さに縮減できる。

その後、６５０の要素ベクトルｈ、４６６を使用してカ
ーネルに４７０を計算する。カーネルにの要素の各行に
目は標識ベクトルＬ、４５６の対応する要素にベクトル
ｈ７の要素で乗することによって形成される。標識ベク
トルＬ、４５６の要素は、開発データベース内のＮ標識
ベクトルの要素から作成された平均値を減することによ
り正規化され、その後乗算処理が施こされる。

カーネルに４７０はカーネルに′を計算する際に使用さ
れる。上記カーネルはその後第２８図に示すように“結
合”カーネルに、４７６を計算するために使用される。

カーネルには、まづその要素の各々を関連する標準偏差
値によって除すことによって正規化され、Ｋ１がつくり
だされる。正規化されたに′はその後、固有マトリクス
Ｅ４６２となる。結合カーネルＫＩはその後音声要素モ
デル−１３４内で予備ラベルを進入音声に付与しデータ
を可能な標識の部分集合に縮減するために使用される。

第２９図は固有マトリクスＥ３３５０６の計算を示す、
固有マトリクスＥ３３は３３の最大固有値と関連する３
３の固有ベクトルを含む。固有マトリクスＥ３３は第２
１図について上記した固有マトリクスと同一の方法で計
算される。この固有マトリクスＥ３３はその後、３３の
最大固有ベクトルと関連する進入音声を表わすデータ値
を選択するために使用される。

第３０図は第２の結合カーネルＫｚ３２２（第３２図）
を作成する際に使用される音声標識ベクトルである。音
韻標識の集合は次の通りに＋４７６（第２８図）を計算
する際に使用されるものとは異なっている。即ち、音声
要素モデル−１３４内のデータに付与される予備標識は
、まづ、表２又は４（第３７図と第３９図）中の２重音
標識か、表３（第３８図）内の分離音韻標識の何れかに
、適宜マツピングされる。第３０図はそのマツピングを
示し、そのためには処理をブロック５１４内で１時間単
位だけ遅らせることが必要である。上記遅れは標識をプ
ロセッサ３６（第１２図）内に形成された３重データの
中心ベクトルと整合させる。その後、同標識はコーディ
ングされて１１９−要素標識ベクトルＬ、％５１８が形
成される。

第３１図と第３２図とは結合カーネルＫｚ５３４の計算
を示す。これら音声標識ベクトルを使用するカーネルに
２は初めに述べた結合カーネルＫ。

４７６　（第２７図と第２８図）と同一方法で計算され
る。即ち、正方形固有マトリクスＥ５２４が計算されて
音声データベクトルｔｆｉ３２０内のデータの関連は解
かれる。その後、カーネルに′が標識ベクトルＬ、５１
８を使用して計算される。

その後、カーネルに′と固有マトリクスＥとは乗算処理
されて結合カーネルに２が形成される。カーネルに２は
音声要素モデル−２４０内で使用されて、データを１１
９の可能な音韻標識と関連づけることによってデータが
縮減され音韻評価値が形成される。

第３３図と第３４図は第１４図のブロック３２６で確率
比の対数で形成する際に使用されるパラメータの計算を
示す。確率比は開発データベースから形成されたパラメ
ータを組込み、確率比を進入する音声と関連する音韻評
価値に付与する。かくして、音韻評価値は加算によって
乗算処理され、それらが対数に変換された後減算によっ
て除算処理される。

殊に、第３３図に関して、開発データベクトルμ、３２
４と標識ベクトルＬ、５１８（第３０図）はそれぞれ回
路５３６と５４０に付与される。ブロック５３６と５４
０は入力ベクトルμ７の要素について平均値と標準偏差
値を計算し、標識ベクトルＬａ５１８内の対応する要素
が開発データベース内に現われない場合にそれらを蓄積
する。ブロック５３６は入力音声内に対応する音韻が聞
えない場合の統計を蓄積する。それぞれの個々の音韻に
ついて、これらの事例は、一つの所与の音ｆｉは通常の
場合聞こえないから、大量のデータを占有する。ブロッ
ク５４０は対応する音韻が入力音声内に聞えない場合の
統計を蓄積する。かかる事例は少数である。

その結果得られる平均値と標準偏差値（ペクトトル５３
８Ａ−Ｂと５４２Ａ−Ａ）とはデイレイティング回路５
４４　（第３４図）に付与され、データ値が調節されて
、開発データベース内への既知データに音韻評価値の割
当てとそれらの未知データへの割当てとの間に生ずる精
度の差が補償される。平均値と標準偏差値とはそれらを
、係数ａ、とす、で乗することによって調節される。上
記係数は、一方ではテストデータベース内の全事例に対
して平均化された値の、他方では開発データベース内の
全事例について平均された値に対する比である。テスト
データベースは開発データベースよりも小さく、テスト
データベース内のデータは他の固定パラメータの何れを
計算する際にも使用されていない。

テストデータはかくして少数の計算された音韻評価イ直
を含み、同評価値は開発データベースと関連するものよ
りもロバスト度合は小さいと想定される。係数ａ１とｂ
、とはかくして開発データベースから作成された確率比
パラメータがどれ程進入する新たな音声に対して拡大縮
小されるべきかを示す頻度である。

第３４図について述べると、上記の係数ａ１とす、を使
用して平均値を目盛られる。デイレ−ティングされた値
はその後確率比回路３２６（第１４図）に対する多項係
数を形成する回路５４６へ付与される。

音韻評価値が確率比の対数に変換された後、音韻評価値
は音曲再構成プロセッサ４４（第１５図）と評価積分器
４６（第１６−１８図）内で再構成され整理統合される
。第３５図は評価値を再構成し整理統合する際に使用さ
れるマツプの生成を示す。第３５図について述べると、
マツピングマトリクス５５５４が２重音について形成さ
れ、２重音は構成音韻にマツピングされる。表２．４．
５（第３７．３９．４０図）は２重音と構成音韻を含む
。第２のマツピングマトリクスＴ５６０が作成されて同
一の音韻を表わす種々の標識を単一の標識形式にマツピ
ングする。例えば、　γ゛と“Ｒ”の標識は共に１γ”
の標識にマツピングされる。表６　（第４１図）はその
標識の集合を含み、それに対して種々の標識形がマツピ
ングされる。

第３６−４１図は、上記したように音韻を標識化する際
に使用される表金部を示す。第３６図の表１は聴者が開
発データベースと関連する音声をマークすることのでき
る標識を含む。標識に対して付与される記述法は従来の
ものではないが、標準キーボードを使用して同記述法を
複製することができる。それ故、記述法の説明は表の一
部として含まれる。

第３７図の表２は２重音標識と構成音韻を含む。

この表は２重音評価を含む音韻評価ベクトルを２つの適
当な音韻評価値に分離するために使用される。同表は、
また、マツプを生成して音韻評価積分器４６（第３５図
）の音韻評価を再構成・整理統合する際にも、表３−６
（第３８−４１図）と共に使用される。

ハ：」竺しピ乙ｌ戊第４２−４５図はシステムハードウェア構成１−４を示
す。第１の構成はデジタル信号プロセッサ（ＤＳＰ）マ
イクロプロセッサ６００とメモリ６０２を含み、本シス
テムに対するソフトウェア集約的なアプローチ用に設計
される。第２の構成はまたややソフトウェア集約的実施
例用に設計される。この第２の構成は、４つのＤＳＰ６
０４．６０６．６１０．６１２と２つの共用メモリ６０
８．６１４より構成され、それぞれ第４２図のメモリの
２分の１の大きさのメモリ２個と、ＤＳＰ６００（第４
２図）（７）１０−１５ＭＩＰＳ　（秒アタリ１００万
台命令単位）より２〜３倍低速のＤＳＰを使用してシス
テム機能を実行する。

第４４図は、相対的にハードウェア集約的なシステム構
成を示す。この第３の構成は２−５　ＭＩＰＳマイクロ
プロセッサ６１６と、メモリ６２０と乗算／累算回路６
１８より成る。乗算／累算回路は幾分大きなマトリクス
乗算処理を実行する。例えば、この回路は１１９ｘ８４
３−要素結合カーネルに、マトリクスと８４３−要素ベ
クトルｔ７３２０　（第１４図）を乗することになろう
。その他の計算を実行するマイクロプロセッサ６１６は
ＤＳＰである必要はない。

第４５図は浮動小数点形式の構成を示す。同システムは
１０−１５Ｍ１０−ｌ５　（秒あたり数百万単位の浮動
小数点処理）ＤＳＰプロセッサ６２２と、他のシステム
に使用されるメモリの２倍の大きさのメモリ６２４を備
える。メモリ６２４はがくして他の３つの構成で使用さ
れる１６ビツト整数の代わりに３２ビット浮動小数点数
をストアすることができる。

猪−■ 本発明の音声認識システムは、例えば音声要素モデル−
１３４（第１１図）で非線形処理間で音声専用の処理を
実行してデータを認識可能な音韻パターンを含む形に処
理する。システム内の種々の点で音声−要素特有の処理
を実行することによって比較的多量の高分解信号周波数
データを音韻評価にとって重要な情報を犠牲にすること
なく短縮することができる。

もし音声−要素−特有のデータ短縮処理がシステム内の
適当な箇所で実行されなければ、非線形プロセッサに付
与される信号データの分解度はパラメータ数を制限する
ために低下させなければならなくなろう。

本システムはそれ故、重要で比較的高分解度のデータを
保持して非線形処理を行うものであって、システム内の
種々の地点で、音声−要素特有処理後にデータ短縮時点
で冗長又は比較的重要でないと判ったデータを除去する
ものである。もしデータ短縮と非線形処理とをそのよう
にインターリーブさせない場合には、システムは低い分
解度データを処理することによって精度は損われること
になろう。

【図面の簡単な説明】

第１図は本発明の思想を具体化した音声認識システムの
ブロック線図、第２図は第１図の音韻評価器を示すブロック線図、第３図は第２図のブロック１８として示すように、信号
パワースペクトルの評価の計算を示すブロック線図、第４図は第２図のブロック２０として示した、パワース
ペクトル評価の縮減の計算を示すブロック線図、第５図は第２図のブロック２２として示した、エネルギ
ー検出プロセッサのブロック線図、第６図は第２図のブ
ロック２４として示した、受容野プロセッサを示すブロ
ック線図、第７図は第２図のブロック２６として示した
、適応正規化器を示すブロック線図、第８図と第９図は共に第２図のブロック２８として示し
た、受容野非線形プロセッサ図、第１０図は第２図のブ
ロック３０として示した非線形プロセッサ２を示すブロ
ック線図、第１１図は第２図のブロック３２と３４とじ
て示す正規化プロセッサと音声要素モデル−１を示すブ
ロック線図、第１２図は、第２図のブロック３６として示した、ベク
トルを３重ベクトルへ鎖状結合したものを示すブロック
線図、第１３図は第２図のブロック３８として示した、非線形
プロセッサ３を示すブロック線図、第１４図は第２図の
ブロック４０と４２として示した、確率比の対数の計算
と音声−要素モデル−２を示すブロック線図、第１５図は第２図のブロック４４として示した、音韻評
価再構成を示す図、第１６．１７．１８図は共に第２図のブロック４６とし
て示した、評価積分器を示すブロック線図、第１９図は適応正規化器（第７図）に使用されるパラメ
ータの計算を示す図、第２０図は、例えば第１０図の非線形プロセッサー２内
に使用されるパラメータを計算するための共分散マトリ
ックスＲの計算を示す図、第２１図は第２０図の共分散
マトリクスＲを使用して固有マトリクスＥ、を計算する
図、第２２図は第１０図の非線形プロセッサー２に使用
される固有マトリクスＥ０の計算図、第２３図は第１０
図の非線形プロセンサー２に使用されるそれ以上のパラ
メータの計算図、第２４図は第１１図の正規化プロセッ
サに使用されるパラメータの計算図、第２５図は音声信号のマーキング図、第２６図はカーネルを作成する際に使用される音声標識
ベクトルの判断図、第２７図は第１１図の音声−要素モデル−１に使用され
るパラメータを更に計算するための固有マトリクスとカ
ーネルパラメータの計算図、第２８図は、第２７図のパ
ラメータを使用して第１１図の音声−要素モデル−１に
使用される結合カーネルに１を作成する図、第２９図は第１３図に示す非線形プロセッサ３に使用さ
れる固有マトリクスＥ３３の計算図、第３０図はカーネ
ルを形成する際に使用される音声標識ベクトルの判断図
、第３１図は第１４図の音声−要素モデル−２に使用され
るパラメータを更に計算するための固有マトリクスとカ
ーネルの計算図、第３２図は第３１図のパラメータを用いて第１４図の音
声−要素モデル−２に使用される結合カーネルに２の作
成図、第３３図と第３４図は第１４図に示すような確率比の対
数を計算する際に使用される平均値パラメータと標準偏
差パラメータの計算図、第３５図は、第１５図に示す音
韻評価再構成に使用される２重音と音韻パップの表生成
図、第３６図は第２５図に示すような音声をマーキング
する際に使用される標識のテーブル図、第３７図は第２
６．３０，３５図のパラメータ計算に使用される２重音
と音韻標識のテーブル図、第３８図は第２６図と第３０
図に示されるパラメータ計算に使用される分離形の音韻
のテーブル図、第３９図は第３０図と第３５図に示すパラメータ計算に
使用される２重音と構成音韻のテーブル図、第４０図と第４１図は第３５図に示すパラメータを決定
する際に使用される２重音と構成音韻のテーブル図、第４２図は第１−２図の音声標識システムのハードウェ
ア構成のブロック線図、第４３図は第１−２図の音声認識システムの第２のハー
ドウェア構成のブロック線図、第４４図は第１−２図の
音声認識システムの第３のハードウェア構成のブロック
線図、第４５図は第１−２図の音声認識システムの第４
のハードウェア構成のブロック線図、第４６．４７．４
８．４９図は第３−１８図の処理システム図と、第１９
−３５図のパラメータ開発図間の関連を説明するテーブ
ル図。１０・・・・・・音声認識システム、１２・・・・・・
評価器、１４・・・・・・語句判断器、　　　　１６・
・・・・・語句辞書、２４・・・・・・受容野プロセッ
サ、２２・・・・・・エネルギー検出プロセッサ、２６・・
・・・・適応正規化器、２３０・・・・・・非線形プロセッサ。ＦＩＧ、　２５音声マーキング第２７図からの固有マトリクス巨１ＦＩＧ、　２８パラメータ開発：結合カーネルへ。ブロック３２２（第１４図）用ＦＩＧ、　３２パラメータ開発：結合カーネルベ２８２４− Ｑ嬶請ｂ　脅 μ 蜀ソ ℃　ロ８２７− 味づ・−μコＬＬｌｏ−ＯＪ　　ＬＬＩ’−″　１°−−−コ’ｗ４
−１ｎ−１”；−−Ｅ　　（Ｃ：　　ＣＬ　　Ｓ−５−
Ｌ／ＩＬ／１４ ℃Ｉ＋−■：・ワメー１ｉｆｅｅＬＬφ工噌←ξ口〉） φ　　◆ノＮｌ：、Ｊ： ℃’＋−■　　メ　　　　Ｃ７１（ｌ　　φψ−一〉　
　×Ｎ−αのＩｌｌ　”’）−Σ２：Ｃ：　１ｃｔｌ　
ｌ　ｌ　ｌ　Ｃｍ　ｌ　ｌ　１１・−−ロ＋ｅ　　　Ｎ
ｔ＋Ｑ−ソα　ｒ４Ｊｆ　＞　ＮＱｂ（Ｊ℃−口　　　
　　　　　　Ｌ／１ψ　　→−垣”Ｄ　’）−ＯメーＥ
　（ｃＬＬ　Ｌ／ｌ−＞　３　Ｎ　”ｌｋ曖葛ヘソＱ５′＝」＝　　Ｎ＋ｏｕ　℃℃ｙ　ｏｕ＝−一寥ゾｒ−Ｅ　ＣｃＬ！ −

Claims

【特許請求の範囲】１、音声信号中の問題の音声要素を識別する音声認識装
置において、Ａ、上記音声信号を処理して複数の短縮データ要素を含
む音声の短縮データ表現をつくりだす処理手段と、Ｂ、上記短縮データ要素の積および（又は）累乗に比例
する値を計算してその要素として上記積および（又は）
累乗に比例する値を含む音声の非線形表現をつくりだす
第１の手段と、Ｃ、既知の音声の等価的な非線形表現を観察することに
よって問題の音声要素の一つ又はそれ以上を特徴づける
と判断される一群のモデル化要素によって上記非線形表
現をモデリングして上記非線形表示データ要素を短縮す
る第１のモデリング手段と、Ｄ、上記短縮された非線形データ要素の積および（又は
）累乗に比例する値を計算して、その要素として上記積
および（又は）累乗に比例する値を含むもう一つの非線
形音声表現をつくりだす第２の手段と、Ｅ、既知の等価的な非線形表現を観察することによって
当該音声要素を特徴づけると判断される一群のモデル化
要素によって上記もう一つの非線形表現をモデリングす
る第２のモデリング手段と、より成る前記装置。２、上記第２の計算手段（Ｄ）が比例値を計算する前に
所定数の信号区画に対応するデータを鎖状結合する手段
を含む請求項１の音声認識装置。３、音声信号中の問題の複数音声要素を識別する音声認
識装置において、Ａ、音声信号をモニタして何時同音声信号が所定値を上
廻るエネルギーを含むかを判断して、当該音声信号の一
区画が上記所定値を上廻った時に出力信号をアサートす
る手段と、Ｂ、上記モニタ手段が出力信号をアサートす
る時を判断するタイミング手段と、Ｃ、上記モニタ手段とタイミング手段に呼応して音声信
号を処理し、その音声信号区画中に当該音声要素を識別
し、上記モニタ手段が出力信号をアサートする信号区画
のみを処理する処理手段と、から成る前記装置。４、上記処理手段が、Ａ、上記音声信号を処理して複数の短縮データ要素を含
む音声の短縮データ表現を生成する処理手段と、Ｂ、短縮データ要素の積および（又は）累乗に比例する
値を計算してその要素として上記積および（又は）累乗
に比例する値を含む音声の非線形表現をつくりだす第１
の手段と、Ｃ、既知音声の等価的な非線形表現を観察す
ることによって問題の音声要素の一つ又はそれ以上を特
徴づけると判断される一群のモデリング要素によって非
線形表現をモデリングして上記非線形表現データ要素を
短縮する第１のモデリング手段と、Ｄ、上記短縮された非線形表現データ要素の積および（
又は）累乗に比例する値を計算して、その要素として上
記積および（又は）累乗に比例する値を含むもう一つの
音声の非線形表現をつくりだす第２の手段と、Ｅ、既知音声の等価的な非線形表現の観察によって問題
の音声要素を特徴づけると判断される一群のモデリング
要素によって上記もう一つの非線形表現をモデリングす
る第２のモデリング手段と、Ｆ、上記第２のモデリング手段によって音声信号と関連
する音声要素を整理統合再検成して上記音声信号に対応
する語又は句の最小限音声要素表現をつくりだす手段と
、から成る請求項３の音声認識装置。５、上記整理統合再構成手段がタイミング手段に呼応し
てモニタ手段が一つの音韻を検出した時間に一部基づい
て音声要素を再構成整合統合する請求項４の音声認識装
置。６、音声信号内で問題の音声要素を識別する音声認識装
置において、Ａ、上記音声信号を処理して複数の短縮データ要素を含
む音声の短縮データ表現をつくりだす処理手段と、Ｂ、上記短縮データ要素の積および（又は）累乗に比例
する値を計算してその要素として上記積および（又は）
累乗に比例する値を含む音声の非線形表現をつくりだす
第１の手段と、Ｃ、既知音声の等価的な非線形表現を観察することによ
って問題の音声要素の一つ又はそれ以上を特徴づけると
判断される一群のモデリング要素によって上記非線形表
現をモデリングして非線形表現データ要素を短縮する第
１のモデリング手段と、Ｄ、上記短縮された非線形表現データ要素の積および（
又は）累乗に比例する値を計算して、その要素として上
記積および（又は）累乗に比例する値を含む音声の非線
形表現をもう一つつくりだす第２の手段と、Ｅ、既知音声の等価的な非線形表現を観察することによ
って問題の音声要素を特徴づけると判断される一群のモ
デリング要素によって上記もう一つの非線形表現をモデ
ル化する第２のモデリング手段と、Ｆ、上記第２のモデリング手段によって音声信号と関連
する音声要素を整理統合再構成することによって上記音
声信号区画に対応する一つの語又は句の最小限音声要素
表現をつくりだす手段と、を備える前記装置。７、音声信号内の問題の音声要素を識別する音声認識装
置において、Ａ、その各成分が上記音声要素の一成分を表現する第１
のベクトルを生成する手段と、Ｂ、上記第１のベクトルを既知の音声要素を表わす第１
の組のモデルベクトルと比較し、各比較について上記モ
デルベクトルの一つとの相関性の程度を表わす値を導出
することによってその成分の各々が上記値の一つである
ような第２のベクトルを生成する手段と、Ｃ、上記第２のベクトルの成分の非線形結合が第３のベ
クトルの成分であるようなものを選択的に計算する手段
と、Ｄ、上記第３のベクトルを既知の音声要素を表わす第２
の組のモデルベクトルと比較することによって上記既知
音声要素の何れが最もよく上記第３のベクトルによって
表現されるかを判断する手段と、より成る前記装置。８、上記第２の組のモデルベクトルが所定の組の音韻同
位体に対応する請求項７の音声認識装置。９、上記第１の組のモデルベクトルが所定の組の音韻に
対応する請求項７の音声認識装置。１０、音声信号中で問題の音声要素を識別する方法にお
いて、Ａ、その成分が各々上記音声要素の一成分を表わす第１
のベクトルを生成し、Ｂ、上記第１のベクトルを既知の音声要素を表わす第１
の組のモデルベクトルと比較し、各比較について上記モ
デルベクトルの一つとの相関性の程度を表わす一つの値
を導出することによってその各成分が上記値の一つであ
るような第２のベクトルを生成し、Ｃ、第３のベクトルの成分であるような上記第２のベク
トルの成分の非線形結合を選択的に計算し、Ｄ、上記第３のベクトルを既知の音声要素を表わす第２
の組のモデルベクトルと比較することによって上記既知
の音声要素の何れが最もよく上記第３のベクトルによっ
て表現されるかを判断する、段階より成る前記方法。１１、音声信号内で問題の複数の音声要素を識別する方
法において、Ａ、音声信号をモニタして何時音声信号が所定値を上廻
るエネルギーを含むかを判断し、Ｂ、音声信号区画を所
定値を上廻るエネルギーで処理して問題の音声要素を上
記音声信号区画内で識別する、段階より成る前記方法。１２、上記処理段階が、Ａ、複数の短縮データ要素を含む音声信号の第１の短縮
データ表現をつくりだし、Ｂ、既知音声の等価的な表現を観察することによって問
題の音声要素の一つ又はそれ以上を特徴づけると判断さ
れる一群のモデリング要素と短縮データ表現を比較して
、第１の短縮データ表現の要素と種々のモデリング要素
の間の相関性の程度に対応する要素を有する第２の短縮
データ表現をつくりだし、Ｃ、第２の短縮データ表現データ要素の積および（又は
）累乗に比例する値を計算することによって、その要素
として上記積および（又は）累乗に比例する音声の非線
形表示をつくりだし、Ｄ、既知音声の等価的な非線形表現を観察することによ
って問題の音声要素を特徴づけると判断される一群のモ
デリング要素と上記非線形表現とを比較して、音声信号
区画に対応する音声要素を識別する一組の値をつくりだ
す、段階よりなる請求項１１の音声要素識別方法。１３、１個の音声信号中に問題の複数音声要素を識別す
る方法において、Ａ、複数の短縮データ要素を含む音声信号区画の第１の
短縮データ表現をつくりだし、Ｂ、上記短縮データ表現を、既知音声の等価的な表現を
観察することによって問題となっている音声要素の一つ
もしくはそれ以上を特徴づけると思われる一群のモデリ
ング要素と比較することによって第１の短縮データ表現
の要素と種々のモデリング要素間の相関性の程度に相当
する要素を有する第２の短縮データ表現をつくりだし、Ｃ、第２の短縮データ表現データ要素の積および（又は
）累乗に比例する値を計算して、その要素として、上記
積および（又は）累乗に比例する値を含む音声の非線形
表現をつくりだし、Ｄ、既知音声の等価的な非線形表現によって問題の音声
要素を特徴づけると判断される一群のモデリング要素に
よって非線形表現を比較し、音声信号区画に対応する音
声要素を識別する一組の値をつくりだす、段階よりなる前記方法。