JP3055691B2

JP3055691B2 - 音声認識装置

Info

Publication number: JP3055691B2
Application number: JP2216934A
Authority: JP
Inventors: ピークローカージョン; エルパワーズロバート
Original assignee: エリザコーポレーション
Priority date: 1989-08-17
Filing date: 1990-08-17
Publication date: 2000-06-26
Anticipated expiration: 2015-06-26
Also published as: ATE179828T1; US5369726A; CA2023424C; EP0413361B1; EP0413361A3; DE69033084D1; EP0413361A2; DE69033084T2; JPH03137699A; CA2023424A1; US5168524A

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は音声認識、殊に音声をデータ還元したものの
音声のパターンを認識する際に使用される音声認識シス
テムの一部に関する。

〔従来の技術〕

音声認識システムの大部分は肉声中のデータを整理す
る若干の手段を使用している。そのため音声は音声信号
を直接デジタル化したものの中に含まれる全データ量よ
りも少ない表現に還元される。然しながら、かかる表現
は発声者が意図した意味を識別するために必要とされる
データの全てとはいわないまでも大部分を含んでいなけ
ればならない。

音声認識システムの開発、もしくは「トレイニング」
における任務は、単語や節の如き音声要素を特徴づける
短縮データ表現中のパターンを識別することである。異
なる話者が同一の単語や文句を発声することによって発
する音声はそれぞれ異なっており、従って音声認識シス
テムはこれらの異なる音から由来するパターンに対して
同一の単語又は文句を付与しなければならない。上記パ
ターンには雑音やモデリングプロセスの不正確さの如き
他の曖昧さの源泉も存在し、それらも音声信号表現を変
更させる可能性がある。従って、種々の手段を使用して
音声の短縮データ表現の種々な数学的組合せに対する可
能性を附与されており、種々の仮説をテストして一連の
可能な音声要素のうちの何れが今発声されているもの、
従って特定データパターンにより表わされるものに一番
近いかが判断されている。

然しながら、これらの処理を実行するためのプロセス
には計算数が多くなる傾向がある。即ち、種々のデータ
計算と多数の音素についての可能性を判断する必要があ
る。そのため、例えばリアルタイムのシステム処理の必
要条件によって課される計算に対する制約は使用可能な
パターン認識アルゴリズムの感度を制約することにな
る。

〔発明が解決しようとする課題〕

従って、本発明の目的は、所与のパターンの認識にあ
てられる計算時間を大きくすること、しかも音声認識プ
ロセス全体に必要とされる時間を増加させずにそうする
ことができるようにすることである。

本発明の目的は更に長期間に相当する信号区画を共に
処理すること、即ち、より大きな信号の「窓」を使用す
ること、しかも計算上の負担を著しく大きくせずに、信
号データの分解能を低下させずにそうすることである。

〔課題を解決するための手段〕

上記の目的ならびにそれと関連する目的は、非線形デ
ータ操作処理を介在させて音韻特有の音声モデル化デー
タ短縮処理を行い音韻評価を実行する音韻評価器を備え
る音声認識システムによって実現される。上記音韻評価
は、更に処理された後、発声される単語や文句を識別す
るために使用される。

要するに、音韻評価器は、入力音声信号のデータ短縮
版のエネルギーをモニタして選択して一定のスレッショ
ールドを上廻るエネルギーを有する音声区画全体を更に
処理する。かかる信号区画は音声内の有声音又は無声音
の呼気を、従って音韻を表わすのが普通である。その
後、音韻評価器は、一連の非線形処理と音声モデル化を
経て音声区画を更にデータ短縮表現処理し、何れの音韻
パターンにデータが最も近似しているかが計算される。

音声のモデル化は、経験上、音韻パターン評価の点か
ら相対的に重要でないとか余分であることが判っている
データを無視することにより非線形処理どうしの間で音
声信号データを短縮するために行われる。その後、より
重要なデータは計算集約的な非線形処理を使用して処理
された所期の音韻により近似したデータパターンが得ら
れる。かかる計算に必要とされる時間は以上のようにデ
ータを短縮することによって最小限にする。

また音韻評価器は最も可能性の高い音韻を選択する際
に、信号エネルギー、又は音韻の検出どうしの間の時間
も観察する。音韻検出間の時間を考慮に入れて、評価器
は、別の場合には一連の相異なる音韻と考えられるもの
を多数音韻パターン群例えば２重音群に鎖状結合する。
これらの多数音韻パターンは個々の音韻よりも明確に音
声の意図する意味を伝えることが多い。

〔実施例〕

第１〜18図を参照して、音声認識用処理システムを解
説する。処理システム中のプロセッサにより実行される
計算とその展開中に使用するパラメータは第19−35図と
第36−44図中に示す種々のテーブルについて説明する。
処理システムのハードウエア構成は第45−48図について
説明する。

第１図について述べると、音声認識システム10の音韻
評価器12、語／句判断器14、および語／句辞書16を備え
る。音韻評価器12は、例えばマイクロフォン又は電話回
線から音声入力信号を受取る。音韻評価器12は音声入力
信号のエネルギーを検出し、そのエネルギーが所定のス
レッショルド値を上廻っているかどうかを判断する。も
し上廻っていれば、評価器は音声信号中に音声、従って
音韻の存在を表示する。その後、評価器12は、それに相
当する音韻評価値、即ち、一群の出力信号を計算する。
それら出力信号は、それぞれ、音声信号がその出力と関
連する音韻を構成している公算がどれ位かを示す評価値
である。また評価器は音韻検出どうしの間の時間、即
ち、Δ時間を計算する。

デルタ時間値と評価値とは語／句判断器14へ附与され
る。語／句判断器14は、その時間と評価値を用いて、構
成音韻に関して列挙した語句を格納する語／句辞書16に
問い合わせる。その後、語／句判断器14は一語又は一句
をその音声信号に割当て、音声を翻訳する。語／句判断
器14の出力は，例えば一群の可能な予期応答のうちのど
れが発声されたかについての表示の如き、他の形をとる
ことができる。

語／句判断器14の詳細は、音韻評価器が更に処理され
る特殊な方法は本発明の一部ではないから、ここでは提
示しない。然しながら、語／句判断器14がより原始的な
データ形式が、例えば肉声又はその周波数スペクトルで
はなく、音韻評価器12により作成された音韻評価値とデ
ルタ時間値とに厳密に基づいて音声入力信号の意味を判
断するということが重要な点である。

第２図は第１図に示す音韻評価器12の概念図である。
この点図面は適当なハードウエアシステム内に存在する
際には別々のプロセッサ又はブロックによって種々の処
理が実行される様子を示していることに注意されたい。
このように別々のプロセッサに分離することによって説
明が容易になるが、当業者は、これらの機能の大部分は
普通の場合、比較的少数の一般的なハードウエア要素に
よって実行されることを理解されよう。殊に、大部分の
ステップは一個又は非常に少数のマイクロプロセッサに
より実行されるのが一般的であろう。

再び第２図について述べると、音韻評価器12は生の音
声信号を受取り、それを処理し、第３−４図について以
下に詳説するようにブロック18のパワースペクトル評価
とブロック20のパワースペクトル短縮によってデータを
短縮する。データ短縮された信号はエネルギー検出プロ
セッサ22と受容野プロセッサ24の双方に印加される。

もしデータ短縮信号中のエネルギーが所定スレッショ
ールド値を上廻っていて、音声の存在を表示していれ
ば、エネルギー検出プロセッサ22は検出信号をライン22
A上に発生する。発生された検出信号は受容野プロセッ
サ24を付勢する。同プロセッサ24はその後更にデータを
処理し、受容野を作り出す。もし信号エネルギーがスレ
ショールド値を下廻っていれば、検出信号は発生され
ず、受容野プロセッサ24は付勢されず、音声信号のそれ
以上の処理は禁止される。エネルギー検出プロセッサ22
と受容野プロセッサ24と第５−６図に関して以下に詳説
する。

エネルギープロセッサを使用して受取った音声中の音
韻の存在を検出する点が「音素推定を用いた音声認識回
路」と題する特開昭64−013595号公報に述べられた音声
認識システムより実行される２パス処理と異なる点であ
り、この点が改良点である。以前のシステム（以下、音
声認識システムＩと称する）は音声信号を検査して、一
つの処理パス中の初めの子音又は母音の何れかの存在
と、他の処理パスにおける最終子音の存在とを検出する
ようになっている。何れのパスが検出信号を生成するか
に応じて、同音声信号は母音、初期子音又は最終子音プ
ロセッサによって更に処理される。かくして、音声認識
システム−Ｉは本発明で使用されるものの代わりに、そ
れぞれが音声信号を処理してそれを音韻の部分集合とマ
ッチングさせるようになった３個の受容野プロセッサを
必要とする。一方、本発明によるシステムは、モデル化
とデータ短縮を向上させることによって信号表現を可能
な音韻の集合全体と比較することができるものである。

再び第２図について述べると、ライン22A上に検出信
号が発生されると、同時にエネルギー検出プロセッサ22
が、第５図について以下に詳説するように、ライン22B
上の音声信号の積分エネルギーに比例する信号を発生す
る。

積分エネルギー信号は適応正規化器26へ印加される。
同正規化器26は受容野プロセッサ24の出力も受取る。積
分エネルギー信号は上記適応正規化器26により使用さ
れ、第２のより高エネルギーのスレショールドを附与す
る。

適応正規化器26とデータ、即ち受容野プロセッサ24の
出力から推定平均値を除去する。推定平均値はデータの
積分エネルギー準位がより高度の上記所定エネルギース
レショールド値を上廻る場合にのみ増分的に更新され、
相対的に大きなSN比を有する音声信号を表示する。その
ため、もしデータの積分エネルギー順位がスレッショー
ルド値を下廻る場合には、適応正規化器26は推定平均値
を更新することはない。何故ならば、かかる場合には、
その評価値は正確ではないかもしれないからである。適
応正規化器26の動作が積分高エネルギー信号を有するデ
ータに対する効果は、そのデータを長い「時定数」に渡
って指数関数的に減衰する適合手段に加えることにあ
る。

時定数は状況毎に異なる。特に、この場合の時定数は
時間それ自体ではなく、入力ベクトルが適応正規化器へ
加えられる事例の数で測定される。数が大きいことは特
定話者が話しつづけていること、従って、音声とそれに
関係する音響チャンネルの特性はこの音声についてはド
ラスチックに変化しないことを意味する。従って、長い
時定数が使用でき、この音声と関連するデータの平均は
ゼロ近くに低下させることができる。

反対に適応正規化器に入力ベクトルが加えられる小数
の事例は、新たな話者が会話を開始しようとすることを
示す。従って、話者及び／又は音響チャンネルの特徴は
まだ未知である。よって、比較的短い時定数が使用さ
れ、適応平均は急速に調整されて、データの平均値を可
能な限り零に減少する。この適応平均は新たな話者の種
々の音の発音に適合する様に、例えば、音響チャンネル
の質による差に適合するように調整される。適応正規化
の動作は第７図を参照して以下に詳細に説明される。

正規化されたデータは次に受容野非線形プロセッサ28
に加えられた後、別の非線形プロセッサ２ 30に加えら
れる。それぞれ第８−９図と第10図について以下に詳論
する非線形プロセッサ28と30は、データを操作して、そ
れぞれ線形一次データ項と非線形２次、３次及び（又
は）４次データ項をパスさせる。これらの項はその後正
規化プロセッサ32にパスされる。正規化プロセッサ32は
データ正規化して、それらを２個の音声要素モデルのう
ちの最初のものに附与する。正規化プロセッサ32は第10
図に関して以下に詳説する。

音声要素モデルＩ−１プロセッサ34は、幾つかのパラ
メータ、即ち、展開データから作成される選択された音
声標識を使用して自らに加えられるデータを短縮する。
音声要素モデル１−１プロセッサ34は、かくして最も重
要なデータを更に処理するために選ばれる。音声が、そ
の成分に関連される各音声要素を含む可能性に関連する
利点を表わす短縮データは、その後ブロック36中で３個
のベクトルに鎖状結合される。プロセッサ36に対する加
えられる各入力ベクトルは一個の出力を生成し、同入力
は普通、先のベクトル入力と後続のベクトル入力とによ
って包囲される入力ベクトルから形成される。この出力
は零フィルタベクトルでも形成でき、この選択はエネル
ギー検出プロセッサ22からのデルタ時間信号22Cに依存
する。後続のベクトル入力を使用するとプロセッサ36内
に遅れがひきおこされる。それについては第12図につい
て以下に詳説する。

以上の三重ベクトルは、その後第３の非線形プロセッ
サ38へ加えられる。非線形プロセッサ３ 38は計算集約
的な非線形処理によってデータを操作した後、同データ
を第２の音声要素モデル１−２ 40へ附与し、同モデル
１−２ 40は表８（第43図）にリストされた（後に音韻
同基準標本（isotype）と呼ぶ）音声要素を音声が含む
ことの評価値を発生する。音声要素モデルプロセッサ34
及び40はそれぞれ第11図及び第14図を参照して以下に詳
細に記述される。非線形プロセッサ338は第13図を参照
して以下に詳細に記述される。その後評価値は対数プロ
セッサ42に加えられ、それぞれに対する見込み比を計算
する。この評価値は更に単純化され、即ち、プロセッサ
44及び46内で再構成、積分され、語／句判断器に対する
データが準備される。音声要素モデル−１ 34と−２
40とは、それぞれ第11図と第14図について以下に詳説す
る。非線形プロセッサ338は第13図について以下に詳説
する。

その後、対数プロセッサ42内で音韻評価値の確率比の
対数が計算され、音韻評価値は、プロセッサ44、46内で
更に簡単化される、即ち、再構成され積分され、データ
を語／句判断器14に対して準備させる。（第１図）簡単
化された評価値とエネルギー検出プロセッサ22からのデ
ルタ時間信号22C（第２図）とはその後、語／句判断器1
4に加えられ、同判断器14は音声に対して語又は句を附
与する。第14−18図について種々のプロセッサ42、44、
46を以下に詳説する。

音韻処理さて、第３図について述べると、パワースペトル評価
プロセッサ18がまづアナログ音声信号をA/D変換器100で
デジタル表示に変換することによって音声信号のパワー
スペクトル評価値を計算する。A/D変換器100は従来設計
のものであるが、8kHzの割合で音声信号をサンプリング
して信号の振幅を表わす16ビットデジタルデータ信号a_n
を生成する。8kHzのサンプリング率は今日の電話産業規
格と一致する。

その後、デジタルデータサンプルa_nはブロック102に
示すように128のデータサンプルの系列に区分される。
これら系列の各々は音声信号の12ミリ秒計画に相当す
る。系列は各々が要素ｂ_k,mを有するベクトルb_m104と考
えることができる。b_mベクトルは32のデータサンプルと
オーバラップするため、各b_mベクトルは96の新たな要素
と先のベクトルからの32の要素を含む。次に、b_mベクト
ルにより表わされる信号区画の平均値、即ち、D.C.値は
ブロック106で除去され、ベクトルc_m108がつくりだされ
る。平均値は音韻評価においてほとんどあるいは全く価
値のない情報を伝える。

更に、第３図について述べると、ベクトルc_m108は128
ポイント離散フーリエ変換（DFT）回路110へ附与され
る。この点までパワースペクトル評価プロセスは音声認
識システム−Ｉの音声要素プリプロセッサと同様であ
る。然しながら、DFTの結果の分解能を向上させるため
に本システム、64のデータ要素と64のゼロを使用すると
システム−Ｉとは対照的に128個のデータ要素を使用し
てDFTを実行する。

DFT回路に加えられている128個の異なる要素は実数で
あって、従ってDFTの128のうちの65のみ（大部分が複素
数）の出力値ｄ_k,mが非冗長データを表わす。パワース
ペクトルは、かくしてDFT値ｄ_k,mにそれらの複素共役ｄ
^＊ _k,mを乗じて計算し、それに対応する実数値ｅ_k,mをつ
くりだす。上記65の非冗長値はベクトルe_m114内に保持
される。データはかくして２分の１だけ短縮される一
方、音韻評価にとって最も重要であると考えられる情報
が保持される。

パワースペクトル値ｅ_k,mは同時に「フォンハン窓」
とバンド制限エネルギー回路118（第４図）に加えられ
る。フォンハン窓回路は従来通りスペクトルを「平滑
化」して時間領域の切捨てによるサイドロープを減少さ
せる。

平滑ベクトルf_mはブロック120へ加えられ、そこでベ
クトルf_mの種々の要素ｆ_k,mが結合され、戦略的に短縮
されたベクトルg_m122がつくりだされる。短縮ベクトル2
1.5Hz〜359.75Hzの周波数レンジからの項を備える。こ
のレンジは電話回路通信を使用して受取られた信号に相
当する。

回路118からのバンド制限エネルギーh_mはベクトルg_m1
22について使用されるものと同じ周波数レンジ内のエネ
ルギーを含んでいる。先の音声認識システム−Ｉはこの
ようにバンド制限されていないエネルギー項ではなくそ
の代わりにスクトル全体の平均パワーであるエネルギー
を使用していた。平均パワーを使用して音声自体に由来
しないノイズが若干、エネルギー内へ導入される。

バンド制限エネルギー値h_mは回路124内でベクトルg_m1
22と鎖状結合され、ベクトルp_m126を形成する。かくし
て、ベクトルp_mはデータ短縮周波数バージョンとエネル
ギー情報とを含み、大部分の場合、音声信号の中心バン
ド周波数を表わす。データをこのように短縮することに
よって、それ以降の計算のために特定値の情報を保持す
る一方、データを管理可能な大きさに短縮する。

音韻識別情報は、多分、ベクトルp_m126の個々の要素
ｐ_k,mの変化の絶対的大きさでなく相対的大きさの中に
存在する。従って、先の音声認識システム−Ｉにおける
ように、要素ｐ_k,mは全く正がゼロであり、１だけ増分
されて、その結果の対数はブロック128に示すように計
算される。ベクトルp_m要素を１だけ増分することによっ
て、その結果得られる対数値はゼロ又は正となるように
なっている。（log₂1＝０）その後、結果値ｑ_k,mは、エ
ネルギー検出プロセッサ22と受容スィールドプロセッサ
24へ加えられる。（第６図）第５図はエネルギー検出プロセッサ22をブロックダイ
ヤグラム形式で示したものである。ベクトルg_m130のエ
ネルギー成分、要素ｑ_o,mは積分回路132内で３倍単位時
間区画について積分される。各時間単位は上記に如く、
12ミリ秒の長さであるため、エネルギーは36ミリ秒にわ
たって積分される。もし積分されたエネルギーr_mが所定
のスレッショルドを上廻ると、検出器134は音声の存在
を示す検出信号22A、s_mを発生する。検出信号s_mは、エ
ネルギーパラメータr_mは添字ｍがモジューロ３演算でゼ
ロでなければならないから、３つの時間単位毎に多くと
も一回は発生することができる。

検出信号22Aが発生される毎に、ブロック136は、この
検出信号と先の信号との間の時間に相当するデルタ時間
信号（Δ_ｍ）を生成する。デルタ時間信号は間隔抽出回
路138へ印加され、後者は時間信号Δ_n22Cを生成する。
関連するエネルギー抽出回路140は積分エネルギー信号t
_n22Bを生成する。Δ_ｎとt_nの信号は共に、第６図につい
て以下に論ずるように、５時間単位早い音声信号に対応
する。パラメータインデクスは“m"から“n"へ変化し、
抽出されたデルタ時間と積分エネルギー信号が音声信号
の一定区画のみ、即ちそれに対して検出信号が発生され
る区画に対して生成されることを強調する。

検出信号22Aはベクトルq_m130と共に、第６図は示す受
容野プロセッサ24へ印加される。積分エネルギー信号22
Bは第７図に示す適応正規化器26へ印加される。デルタ
時間信号22Cは、第12図は示すようなプロセッサ36の３
重ベクトルの構造と共に、第16図と第17図について以下
に論ずるような評価積分器46へ印加される。

さて、第６図について述べると、検出信号22Aは、受
容野202、即ち、信号区画12時間単位長をカバーする周
波数情報を含むq_mベクトル群を組立てる受容野抽出回路
200を付勢する。検出信号は受容野の中心の信号区画、
即ち、５時間単位早い信号区画に対応するか、受容野マ
トリックス202中のｍ−５列に対応する。遅れはデルタ
時間とエネルギー検出プロセッサ22（第５図）によりつ
くりだされる積分エネルギー信号を、それに対して検出
信号が発生される信号区画をできるだけ近くに心取りす
る受容野と同期させるために必要である。受容野は比較
的大きく、12時間単位であるため、検出信号をせいぜい
３時間単位毎に１に制限する際に情報は失われない。

平均回路204は受容野マトリックス202の隣接しあうベ
クトルの数対を平均化する。即ち、要素ｑ_o,m−11とｑ
_o,m−10は平均化され、要素ｑ_o,m−９とｑ_o,m−８は平
均化される等である。この処理によってデータは２分の
１だけ短縮し、マトリックスU_n206を生成する。パラメ
ータインデクスはふたたび“m"と“n"へ変化し、受容野
と積分エネルギーは信号が音声信号の一定の区画に対し
てのみつくりだされることが強調される。

上記音声認識システム−Ｉは、データを３時間単位に
わたって平均化することによって３分の２だけ短縮す
る。短縮されたデータはその後非線形処理に附される。
然しながら、本システムを使用すれば、マトリクス要素
を２つの時間単位について平均化しそれ以上のデータを
保持することによってすぐれた分解能が得られる。受容
野非線形プロセッサ28内でのデータ短縮の改善（第８図
と第９図に関して以下に論ずる）のために「余分の」デ
ータがプロセス中のこの時点で保持される。

マトリックスU_n206は、次に第７図に示す適応正規化
器26に附与される。適応正規化器26は、固定パラメータ
平均u_ijを減算しその後固定パラメータ標準偏差σ_ijに
より除することによってマトリクスV_nをつくりだす。固
定パラメータ平均値と標準偏差値とは第19図について以
下に論ずるような開発データベースから計算される。

もし進入する音声信号の統計が開発データベース内の
データのそれと十分近似していれば、「正規化」された
マトリックスV_n210はゼロに近い平均値を、１に近い標
準偏差値を有する。然しながら、進入する音声信号の統
計は開発データベース内のデータのそれよりも幾分異な
っている可能性がある。事実、開発データベースからの
個々のボイスサンプルは総体としてのそれらの異なる統
計を備えている可能性がある。それ故、個々の音声信号
については、我々は、マトリックスV_nがゼロと異なる平
均値を、１と異なる標準偏差値を備えていることを予期
できる。従って、第７図の回路内に一層の適応正規化が
行われ、少なくともその平均値がゼロ方向に減衰できる
ようにしている。

もしマトリクスV_n210データがそれに対して積分エネ
ルギーt_n22B（第５図）が所定値を上廻りSN比が高く従
って有音声を示す音声信号区画に相当するならば、デー
タはブロック212−218内でそれらの適応平均値を計算し
た後、その平均値をブロック220内で減算することによ
り更に処理される。まづ、データは、ベクトルw_n214を
生成する回路を平均化するさいに時間について、即ちマ
トリクス行について平均化される。かくして、ベクトル
w_nは信号周波数情報のみを含む。この情報は話者の声と
音響チャンネルを適切に特徴づける。これらの特性は時
間については、殊にマトリックスデータに対応する時間
については著しく変化してはならない。このようにデー
タを時間について平均化すると、それらは105パラメー
タ、即ち、マトリクスV_nの105の要素から21のパラメー
タ、即ち21のベクトルw_n要素へ短縮される。

ベクトルw_n214の要素は、指数関数形平均化回路216へ
加えられる。かくして指数関数形平均化回路216は、エ
ネルギー検出プロセッサ22（第５図）で計算された積分
エネルギーt_n22Bをエネルギー検出プロセッサ22内で使
用される検出スレショルド値よりも高い所定のスレッシ
ョルド値と比較する。かくして、平均化回路216は何れ
の信号区画が高いSN比を有するか、即ち、何れかの区画
が大きな音声成分を有するかを検出する。

もし積分エネルギーが「ボイス」スレッショルド値を
上廻らなければ、適応平均ベクトルｘ′_n218は、それが
先の事例ｘ′_n-1であった状態にとどまる。この場合、
指数関数平均値は、以前通りブロック220内で減算され
るが、平均値それ自体は適応しない。しかしながら、平
均値それ自体は変化しない。ボイススレッショルド値を
下廻るエネルギー値を有する信号区画は、一方では、無
音声の摩擦音韻又は鼻音韻に相当するが、同時に他方で
は、話者による呼吸や、特に呼吸群の終りのその地の静
騒音に相当する。かかる低エネルギー信号区画は音韻を
認識する目的でベクトルw_n214の平均値を特徴づける上
では信頼がおけないかもしれない。

個々の音韻に対しては比較的長いが一連の話又は句を
比較した時には短い期間を用いて指数関数形平均化を実
行する。そのため平均化は単一の音韻に関連するデータ
に対しては大きな影響を及ぼさないが、複数の語又は句
に関係するデータの平均値は実際にゼロに近くに短縮す
る。

使用される時間はシステムが音声を処理している時間
に長さに依存する。殊に、指数関数平均化は、十分なエ
ネルギーを有する例えば100の受容野に対応する短い期
間、（ほぼ3.6秒）又は十分なエネルギーを有する例え
ば300の受容野に対応する長期の期間（ほぼ10秒）の何
れかについて実行される。時間の長さは積分エネルギー
信号22Bがボイススレッショルドを上廻った時間数、即
ちt_n≧25に依存する。システムが新たに話者に出会う際
には、より短かな期間が使用される。それ故、システム
は話者の特徴と音響チャネルの特性にすばやく適応す
る。その後、システムは長い方の期間を使用して話者の
音声を処理する、何故ならば、話者の声の特徴と音響チ
ャネルの特性とは比較的一定と想定されるからである。

いったん適応平均ベクトルｘ′_n218に対する計算が完
了すると、適応平均ベクトルはマトリクスV_n210要素
（ブロック220）から減算され、マトリクスX_n222をつく
りだす。長時間に対応する有音声を含む音声信号を表わ
すマトリクスX_n中のデータの平均値は今度はゼロに近く
なる。次に、マトリクスX_nは第８図と第９図のブロック
ダイアグラム中に示す受容野非線形プロセサ28に加えら
れる。

我々の先の出願である上述の特開昭公報中に説明した
対応する非線形処理と比較すると、第８図と第９図の非
線形処理はそれより少ない非線形要素を計算する。第８
図と第９図の以下の所論より明らかになるように、計算
される要素数の減少は時間依存性の局面を表わす多くの
非線形積は処理するが異なる周波数成分どうしの間の相
互作用を表わす大部分は保持することによって行われ
る。即ち、我々は音韻識別にとっては後者の積の方が前
者よりもずっと重要であると考える。その結果、我々は
初期の処理においてより多くのデータを保持することに
よってより高度の分解能データを我々が実際に計算する
より重要な非線形積の計算に供給することができた。

第８図と第９図において述べると、マトリックX_n222
の要素はブロック224−234において一次項として組合わ
されると共に特有の部分外積としても組合わされる。本
質上、一次項と部分外積は重要野の時間次元について加
算される。これら特殊積は音声信号に関する一定の情報
を伝える一方、データをもし連続した外積、即ち、異な
るマトリクス要素対の積が全て計算された場合のデータ
より相当少なくともするように設計される。初期の音声
認識システム−Ｉは処理のこの点で連続した外積を計算
するため、データは先の処理中に相当短縮されることが
必要である。他方、本システムは、この非線形処理ステ
ップのためにこの時点までより多くのデータを保持する
ことができるため、入力データの優れた分解能を維持す
ることになる。

受容野非線形プロセッサ28は４個のベクトル群を生成
する。各ベクトル群はベクトルｙ_,n、z^e _,nおよびｚ_,nを
含み、異なる時間遅れと関連するｙ_,nベクトルは２つの
関連する“z"ベクトルを形成する際使用された項の一次
組合せであるデータを含む。z^e _,nベクトルはエネルギー
を用いて形成された一定の部分外積を組合わせる結果、
又は種々のマトリクスX_n222例内の第１項群を含み、Ｚ
ベクトルは非エネルギー又は周波数を用いて形成された
特殊な部分外積の結果、マトリクスX_n例の項を含む。こ
れらのベクトルの各々の形成は以下に論ずる。

受容野非線形プロセッサ28内では相当の時間平均化が
行われる。一音韻は一つの受容野内では「静止」してい
るためその受容野内の所与の周波数列の位置は有益な信
号情報をあまり伝えないものと仮定する。然しながら、
受容野の時間窓について平均された周波数列の非線形組
合せは音声認識に有益な情報を現に表わす。

上記の如く、４つの時間差区画の各々について一つの
ベクトル群が形成される。それ以上の時間差についての
ベクトル群は、より大きな時間差に対する分散に関する
情報は殆んど重要ではないと思われるから、計算されな
い。

殊に、ゼロの時間差（Δ＝０）のベクトル群は、ブロ
ック224−228（第８図）で形成される。ブロック224
は、マトリクスX_n222の列の全てにおける最初の要素を
共に加算することによってベクトルｙ_0,nの第１の要素
を生成し、全列内の第２の要素を共に加算することによ
って第２のベクトル要素を生成する等である。従って、
ベクトルｙ_0,nはその要素として時間について合計され
たマトリックスデータを有する。

ベクトル群中の第２のベクトル、ベクトルz^e _0,nは列
の第１の要素であるマトリクスエネルギー項を用いて形
成される。ブロック226は各列について同一例中のエネ
ルギー項とその他の全ての要素の積を形成する。積はそ
の後合計されてベクトルz^e _0,nの要素を形成する。ベク
トル要素はかくして一定時間について合計されたエネル
ギー積となる。

時間差ゼロの場合のベクトル群の第３のベクトル;z
_0,nはブロック228で形成される。このブロックは、マト
リクスX_n222周波数要素中の、即ち１列中の全要素中の
積を第１のものは除き全て形成する。この場合、これら
の積を全て別々にとって外積を使用することができよ
う。その代わり、これらの積から自己相関におけるもの
と類似の和が形成される。この和はそれが単一列の周波
数要素内から形成されるためにブロック228内で「自己
積」と称される。この自己積はその後時間を経て、ある
いは全列にわたって合計される。全外積の代わりに周波
数例内に自己積を取り入れると、出力ベクトルはもし全
外積が計算された場合にとる値よりも戦略的に小さくな
る。このため、非線形プロセッサはより多くの信号周波
数データ、即ち高い周波数分解能を有するデータを含
む、より大きな入力ベクトルを処理することができる。

時間差１、２、３についてのベクトル群は第９図に示
すブロック230−234内で計算される。ベクトルｙ_,nは２
つの関連する“z"ベクトルを形成する際に使用される全
要素の線形組合せを含んでいる。かくして、１の時間差
（Δ＝１）については、ベクトルｙ_1,nは１列離れた要
素全体、即ち隣接する列の要素全体の組合せを含む。同
様に、時間差２と３のｙ_,nベクトルは、少なくともそれ
ぞれ２、および３列離れた要素全体を組合せることによ
って形成される。

ベクトルz^e _1,nはエネルギー項を１列離れたマトリク
ス要素と結合することによってブロック232内で形成さ
れる。同様にして、ベクトルｚ_1,nはブロック234内で１
列離れた周波数要素を結合することによって形成され
る。かくして、“z"ベクトルは適当な時間差に関連する
列からエネルギーと周波数項の一定の組合せを表わす要
素を含む。同様に、時間差２と３（Δ＝２、３）につい
てのベクトル群は、それぞれ２列と３列離れた要素を組
合せることによって形成される。

ベクトルｚ_,nはブロックはブロック234内で数対の列
から周波数項の積全体を結合することによって形成され
る。上記積は、周波数ベクトルどうしの間の相互関連の
それと同様に合計される。ブロック234内の和は、周波
数要素と２個の異なる列間で形成されるため、「クロス
乗算」と称される。このクロス乗算は、その後一定時間
にわたって、即ち時間差Δに追従する数対の列全体にわ
たって合計される。更に、戦略上ブロック234のクロス
乗算をとると全外積が計算された場合に得られるものよ
りも出力ベクトルが小さくなる。この場合、入力ベクト
ルは大きくすることができる。

その後、ベクトル群がブロック236内で鎖状結合さ
れ、データの非線形表示である431要素ベクトルa_n238が
形成される。ブロック236中の上付き文字“T"は、ベク
トルを書き換え転置したことを示す。

非線形プロセッサ28は乗算を行って、要素間に非線形
相互作用を作り出すが、別の非線形関数を乗算に使用す
ることが出来ることに留意すべきである。重要な特徴は
数種の非直線相互作用が発生するということにある。我
々は単に実行が容易であるという理由で乗算を採用して
いる。

ベクトルa_n238は、第10図に示す第２の非線形プロセ
ッサ２ 30（第２図）に加えられる。ベクトルa_nの要素
はまづ相関関係を解かれ、それらを固有マトリクスE₂₆
により乗ずることによりデータ短縮される。固有マトリ
ックスE₂₆は第22図に示すように開発データベースから
形成される。固有マトリクスE₂₆はベクトル群に対応す
る開発データから計算された26の最大固有値に相当する
固有ベクトルを含む。かくして、a_nを固有マトリックス
によって乗ずると、データは最大分散を表わすものとし
て選択された26の固有ベクトルの方向に位置するa_n成分
に還元される。

データはベクトルa_n内の431の要素からベクトルb_n242
内の26の要素へ短縮される。そのようにデータを短縮す
ることによって、我々は信号分散に関係する情報の約４
％のみを失う。従って、（ｉ）完全な信号情報を保持す
ることと（ii）が非線形処理、従って、幾何学的展開に
付されるパラメータ数を制限することとの間の妥協は重
要な信号情報の多くを犠牲にすることなく実現するとこ
ができる。我々は、最大固有ベクトルに相当する情報を
選択することによって一層の処理後に音韻認識にとって
最も重要な情報を選択することになるものと確信してい
る。

その結果として得られる26の要素のベクトルb_n242は
固有パラメータ正規化−２ブロック244内で正規化され
る。ブロック244内に示す平均値μ_ｋは開発データベー
ス中の26の要素ベクトルb_n群内の相当する要素から形成
される。平均値の形成は、第23図に関して以下に詳論す
る。かくして、進入する音声信号について発生したベク
トルb_nの26の要素は開発データベース中の対応する要素
の平均値と比較される。実際の値ではなく総体的なデー
タ値が音韻評価にとって重要である。平均値は、ほとん
ど情報を追加しないからベクトル要素から除去される。
この正規化処理のステップは以後の実施例からは省略す
ることができる。

26の要素の「正規化」ベクトルc_n246要素の全外積は
その後ブロック248内で形成される。その結果は、適応
受容野アトリクスX_n222（第７図）に対して第３次と第
４次項を含む351要素ベクトルd_n250である。このベクト
ルd_nはベクトルa_n238の要素と鎖状結合され、782要素ベ
クトルe_n254を形成する。鎖状結合されたデータは、そ
の後正規化プロセッサ32（第11図）に加えられる。

再び、我々はステップ248で乗算を採用する。まま
り、これは非線形結果を生じるのに最も簡単な方法であ
るからである。他の非直線関数をこの目的のために同様
に使用することができる。

第11図について見ると、ベクトルe_n254は、ブロック2
56内で別の固定パラメータ正規化処理に付される。その
後、データはベクトルf_n258内でベクトル毎の正規化に
附される。即ち、それぞれの個別ベクトルf_nは正規化さ
れることによって、その782要素を横切る平均値がゼ
ロ、標準偏差が１となるようになっている。結果として
得られる正規化されたベクトルg_n262は音声要素モデル
−Ｉプロセッサ264へ加えられる。かくして、データは
一組の音声要素評価値に還元される。各評価値は表（第
43図）内の標識の一つに対応する。それ以降の非線形処
理はその還元データに対して行われ、どの特定音声要素
をデータが表現しているかをより良く評価することがで
きる。

音声要素モデル−１プロセッサ264は、正規化された
ベクトルg_n262にカーネルK₁を乗ずる。カーネルK₁は開
発データベース内のデータを使用して計算される特殊音
声要素標識に関するパラメータを含んでいる。これらの
標識は表７（第42図）にリストされている。カーネルK₁
の形成は第28図に関して以下に論ずる。カーネルK₁によ
る乗算はベクトルg_nに94のベクトルの各々を効率的に乗
算する。94のベクトルの各々は表７にリストされた異な
る音声要素と関連している。この乗算はベクトルh_nを発
生し、このベクトルの成分は特徴として94桁であり、各
々は音声がそれに関連する音声要素を含む確率に関係し
ている。かくして、音声要素モデル−１プロセッサ264
は進入する音声信号に関するデータを、即ちベクトルg_n
を、戦略的に782要素から94要素へと短縮する。

短縮データを含むベクトルh_n266は、その後、第12図
に示すプロセッサ36中で先に２つの期間からのベクトル
と鎖状結合される。同様に、プロセッサ36には第５図か
らのデルタ時間信号22Cが入力される。殊に、ベクトルh
_nとデルタ時間信号22Cとは共にそれぞれバッファ300aと
300bに附与され、そこで先の２つの期間に対する値がそ
れぞれストアされる。かくして、２個のバッファは同じ
３つの時間単位長の期間に関する情報を格納する。

もし２つの連続するベクトルが12ミリ秒よりも長いデ
ルタ時間信号に相当するならば、我々は上記ベクトルが
オーバーラップしない受容野より導出されるものと想定
する。長いデルタ時間信号に対するベクトル、即ち、バ
ッファ内の第１又は第３のベクトルのいずれかについて
の情報を殆ど又は全く追加することはないであろう。そ
の情報は音韻評価を中心ベクトルh_nに割当てる上で役立
つものである。従って、対応するベクトルは、全てのゼ
ロと置換される。このため、ベクトルp_n306を構成する
ブロック304内で鎖状結合された３重ベクトルは非連続
データを含まないようになる。３重ベクトルp_n306は、
かくして、３つのオーバーラップ受容野から導出される
連続信号音声中の拡大「窓」をカバーする。続くモデル
化において、大きな窓と関連する特殊音韻標識は中心受
容野のそれであり、認識される音韻はその大きな窓ので
きるだけ中心に位置するようになっている。例えば、
“thousand"（サウザンド：千）という単語の“ou"（ア
ウ）のように、多くの音韻は比較的長期間にわたって、
より明確に聞き取れるため、この大きな窓を用いてより
容易に認識されるはづである。然しながら、もしシステ
ムが早口の音声に相当する音声信号を受取る場合には、
時間間隔が長いと一つの窓につき一個以上の音韻が生ず
る可能性がある。一層の非線形処理と音声モデル化によ
ってシステムはかかる音韻を認識分離することが可能に
なる。

第12図について述べると、処理のこの時点で音韻評価
時間窓を大きくすると受容野の大きさ、即ち、関係する
期間を大きくする場合よりも音韻認識にとってより効果
的である。即ち、受容野によりカバーされる期間を大き
くすると、データの分解度が同一である限りパラメータ
数が増加する。その後、システムが処理しなければなら
ないパラメータ数を不当に大きくせずにより大きな受容
野を用いて非線形処理を実行するには、データの分解度
は、時間単位であれ、周波数分布についてであれ、小さ
くしなければならない。受容野期間を長くせずに、処理
のこの時点で、即ち、第１の音声要素モデル化ステップ
が特定の音声要素に関するデータを短縮した後に長くす
ると、システムはデータパラメータ数を不当に増加した
りデータの分解能を低下させたりせずに進入する音声信
号の長い区画を表わすデータを観測することが可能にな
る。

更に、第12図について述べると、音韻評価時間窓を拡
大することによって初期の音声認識システム−Ｉの前後
関係依存標識の幾つかを除去することができる。音声認
識システム−Ｉは前後関係によって音韻標識を変更す
る。例えば、もし一つの母音の直前に無音声子音又は有
音子音が先行する場合には、その母音の標識はそれに従
って変更されることになろう。その結果、音韻標識、殊
に母音のそれは増加する。本発明のシステムでは、然し
ながら、大多数の音韻は一つの標識しかもたず、データ
の非線形形が大きくなると音韻標識の前後関係は語／句
判断器14に伝えられる。（第１図）判断器内にストアさ
れる標識数、従ってスペリング数は、相当少なくなり、
適当な語句をサーチする速度はスピードアップする。

さて第13図について述べると、第12図からの出力３重
ベクトルp_m306は、第３の非線形プロセッサ３ 38へ附
与される。この非線形プロセッサは、２つの相異を除い
て、第10図に示す非線形プロセッサ２ 30と同様であ
る。まづ、この場合には何ら固定パラメータ正規化は行
われない。第２に、しかもより重要な点であるが、この
場合スレッショルド値が存在する。

プロセッサ３ 38で外積を形成する前に、データはブ
ロック308内でのスレショルド値と比較される。上記ス
レッショルド値はゼロにセットされる。ベクトルp_n306
は各音韻の可能性の評価値を含んでいる。そのためゼロ
を下廻るベクトルp_mの一要素は、音声要素モデル１−１
264（第11図）により処理されたばかりの音韻が鎖状
結合窓中に相当する位置には生起したことはありそうに
ないことを示す。

スレッショルド値308を附与する根拠は次の通りであ
る。即ち、ベクトルp_n306がブロック312内で固有ベクト
ル成分に分解された後、ブロック316内の外積を通過す
るために、ベクトルの大きさは著しく拡大するためであ
る。ベクトルサイズの拡大は、続く処理において相対的
に大きな数のパラメータがベクトルの処理に捧げられる
ことになるとういことを意味する。そのため、ベクトル
サイズの拡大前に出来るだけ大きな情報をもったベクト
ルを形成するように注意を払うべきである。パラメータ
を最も効率的に活用するためには所与の時間に生じなか
ったと思われる大多数の音声要素のモデル値を無視する
がよい。これらの音声要素は、ゼロを下廻るモデル値を
有する。従って、スレッショルド値308を使用して、更
なる非線形処理に付されるものは、生起した可能性のあ
る音声要素と関連するモデル値によって特徴づけられる
ようになっている。

更に第13図について述べると、所定スレショルド値を
上廻るベクトルp_n306成分は、データをブロック312内の
固有マトリクスE₃₃により乗ずることによって戦略的に
相関関係を解除され短縮される。固有マトリクスE
₃₃は、以下に第29図に関して詳論するように、ベクトク
q_n310に対応する、開発データベース内のデータから計
算された33の最大固有値と関連する固有ベクトルから形
成される。かくして、データは33の最大固有ベクトルの
方向に位置するデタの成分のみを更に非線形処理すべく
選択することによって短縮される。信号情報の保持と非
線形処理に付されるパラメータ数の縮減との間の妥協に
よって、この処理時点で信号分散を説明する情報のほぼ
50％が保持される一方、非線形処理に付されるパラメー
タ数は282から33へ減少する。

その結果得られるデータ値、ベクトルr_n314がブロッ
ク316へ附与され、そこで完全な外積が形成される。外
積の結果はその後、ベクトルp_n306と鎖状結合され、843
要素ベクトルt_n320が形成される。このベクトルは、ベ
クトルp_n306の全成分だけでなく、高次の非線形性を備
えた項を含むため、スレショルド値を下廻るデータだけ
でなく、それに対して非線形プロセッサ３が処理を施し
たデータを格納している。

又、非線形相互作用の結果を生じるのに簡単な方法と
いうことでステップ316で乗算を採用する場合、他の非
線形関数をこの目的に採用することが同様に可能であ
る。

その後、843要素ベクトルt_n320は、第14図に示す第２
の音声要素モデル−２プロセッサ232へ附与される。音
声要素モデル−２プロセッサは、データを音韻固有のカ
ーネルK₂により乗じてベクトルu_n324をつくりだす。カ
ーネルK₂は第43図の表８にリストされた音声要素（以下
「音韻同基準標本」と称する）に対応する要素を有す
る。ベクトルu_nは音声要素（音韻同基準標本）評価値を
含む。カーネルK₂は、以下に第32図について述べるよう
に開発データから作成される。音韻同基準標本が以下に
詳述される。

カーネルK₁及びカーネルK₂はサイズ及び効果が異な
る。第11図を参照して上述されたカーネルK₁は、カーネ
ルK₂を使用するモデルに対するよりも単純な音声要素の
集合を表わす要素を含んでいる。これらの音声要素は第
42図の表７にリストされている。例えば、カーネルK₁は
音声要素“b"に対応する要素を含み、各要素は“b"の発
音でそれが先頭であるか否かにかかわらず発生する。br
idgeの“_b_"等はカーネルK₁を使用してエントリ“b"に
マップされる。カーネルK₂は先頭の“b"と、bridgeの
“_b_"等とを識別するエントリを含む。カーネルK₂に関
連する音声要素は第43図の表８にリストされている。

次に、音声要素（音韻同基準標本）は確率比プロセッ
サ42に附与され、同プロセッサ42は、それぞれの評価値
をその音声要素が存在する確率の対数に変換する。各音
声要素の確率は、その音声要素が存在しない時とする時
との評価値の分布状況が正常であると仮定して計算され
る。対数によって、データに対するそれ以降の数学的演
算がその後、時間のかかる確率比の乗算でなくて簡単な
加算として実行できることになる。

その結果ベクトルV_n328内に得られる確率比の対数は
第15図の音韻評価再構成プロセッサ44へ附与される。上
記再構成プロセッサ44はデータを語／句判断器14により
取扱い容易な形式に処理する。（第２図）上記再構成ス
テップの若干は、望ましい例で使用される特殊な語／句
判断用にデータを処理するように設計されている一方、
音声要素評価値を再構成することによって行われるデー
タの簡単化と整理は、システム内にどのような語／句判
断器が使用されるかに関わりなく、適当な語句の判断を
簡単化することができる。

音韻の再構成プロセッサはデータを処理することによ
って各音声要素が一つの標識によってのみ表現されるよ
うになっている。従って、語／句判断器14は、各々の語
句につき特定の音韻と一つのスペリングを表示すること
によってストアしソートすればよい。

それぞれの音声要素評価ベクトルは、一つの音韻と関
連する評価値を含むべきである。然しながら、ベクトル
のうちの若干は表８（第43図）に提示するように２重評
価値を含んでよい。かかる音声要素評価ベクトルは第15
図のブロック330では構成音韻に分割されている。２重
音の第１の部分の評価は時間と共に逆移動し初期の信号
区画から信号に加えられ、２重音の第２の部分の評価は
時間と共に前進移動し、後の時間区画内に存在する任意
の信号データへ加えられる。音韻の順序が重要である一
方、音韻の時間配置はそうではない。多くの語及び音声
は36ミリ秒の単位時間長の数時間から最小になる。それ
故、２重音を構成音韻へ分離し同音韻を時間と共に移動
させてもその評価の語句に対するマッチングには影響を
与えることはないであろう。

いったん２重音が構成音声要素に分離されると、音声
要素はブロック334で語／句を発音するために必要な最
小の組の音声要素（以下、「音韻正基準標本（holotyp
e）」と呼ぶ）に短縮される。これら音声要素は第44図
の表９にリストされている。例えば、音韻の全ての最終
及びブリッジ形態はそれらの初期の形態にマップされ
る。かくして、個々の音韻スコアは結合されて、マイナ
ススコアは無視される。

簡単化された音声要素（音韻正基準標本）評価値が音
韻評価積分器46へ附与される。（第16−18図にブロック
線図で示す。）第16図について述べると、所与の音韻に
対するスコアは、ブロック338内でエネルギー検出プロ
セッサ22（第５図）からの関連するデルタ時間信号22C
と共に一定時間にわたってグループ化される。ブロック
346はグループ化における絶対時間のトラックを保持す
る。一つの所定音韻に対するスコアはその後ブロック34
4、348（第17図）において一つの時間位置へ整理統合さ
れる。

さて第17図について述べると、合計された音韻評価ス
コアがブロック348内の最も近い「セントロイド（重
心）」時間、即ち、特定の音韻が発さられる加重期間の
中心を示す時間と等しくされている。この期間内の時間
は音韻評価値により重みをつけられている。その後、そ
れと関連する音韻標識コード、音韻評価値、および生起
のセントロンド時間が、ブロック352中に示すようにメ
モリーの１ロケーション内にストアされる。メモリは第
18図のブロック352によりアクセスされ、正確な時間順
序を与えるように生起のセントロイド時間により入力が
順序づけられる。出力音韻評価C_m358と、それに関連す
るデルタ時間値d_mは、その後、語／句判断14（第１図）
によりアクセスされる。添字は“n"から“m"へ再度変化
して、第18図の出力が入力のタイムベースと異なるタイ
ムベースを有することを示す。

音声要素モデル−２プロセッサ40の動作とシステムに
よりつくりだされる音韻評価の再構成と整理統合は“ye
sterday"という単語の処理を考案することによって図解
されている。音声が標本化される音声要素の集合は部分
集合を含み、各部分集合は全てが信号音韻「正基準標
本」の同基準標本と呼ぶ音声要素から成る。例えば、表
８の音声要素“_v","_v_"及び“v"は全てこの“v"の場
合における同じ正基準標本の同基準標本である。音韻同
基準標本評価標識はノイズや悪評価は無視して音声要素
モデル１−２プロセッサにより音声に付与される。即
ち、J;j;jE;E;_s;isol.t;tR;R_d;_d_;deI;eI;である。

この場合、我々は若干の異なる音韻の可能性の例を有
している。これは音韻が明瞭に分節された音声中に現わ
れるやや概略化した例である。リストした要素の各々
は、それぞれが検出された受容野に対応する音声内の隣
接窓中に出現するであう音韻を表わす。セミコロン内の
標式が同じ窓内で発生する。

音節主音形の“J"は、あたかも“ee−yesterday"と発
音されたかのように“j"に先行する。上記“j"は更に２
重音“jE"内にわたり出現する。次の窓は母音“E"を反
復する。“s"の最終形は“_s"の如く次に出現して、摩
擦音の前に何か有音声が聞きとれるが特定の母音として
識別するには十分でないものが存在することを示す。無
音声stopの“t"は、この場合、その分離形“isol.t"で
まづ表現され窓中には何れの有音声も聞こえないことを
示し、その後その初期の形“t."で表現される。次の窓
は２つの音韻を含むが、もう一つの音韻頭の“t"と音節
主音の“R"であって、後者は次の窓で反復される。次に
まづ“d"が音節末尾音の“d"として現われ、その後その
“橋渡し”形の“_d_"として現れた後、音節初頭の
“d."として現われる。上記橋渡し形は窓中に“R"と音
節最後の母音“el"からの有音声を含んでいるが、それ
らの各々はそれらを同一の窓の中に橋渡して標準化する
ことを正当化するには十分ではない。音節最終母音は繰
返される。

音声信号が雑音を含む場合、種々の窓がその雑音に関
係する音韻同基準標本評価値を含むことができる。これ
ら評価値は、典型的にはより小さい確率数を有してお
り、発生語又は句に対応する音韻評価値と共に処理され
る。これらの「雑音」音韻同基準標本の影響は音韻評価
値を処理するのに語／句判断器10（第１図）が費やす時
間の増加である。

上にリストされた音韻同基準標本の操作を再び参照し
てブロック330（第15図）は２重音“jE"をその構成音韻
に分割している。即ち、 J;j;j;E;E;_S;isol.t;R;R_d;_d_;deI;eI;である。

ブロック334は同基準標本の各発生を音韻正基準標本
に置き換える。

j;j;j;E;E;s;t;tR;Rd;d;deI;eI; 最後に、評価積分器46（第16−18図）はそれぞれの音
韻正基準標本のデータが処理される。その結果、多数の
事例が除去されるようになっている。

即ち、j;E;s;tR;d;eI; この結果は音声についての音韻評価値である。それぞ
れの音韻はこの場合、あたかもそれが一つの生起セント
ロイドタイムで生じたかのように処理されている。これ
らのセントロイドタイムは最早、モジュロー３の検出制
約には委ねられない（ブロック134、第５図）。然しな
がら、種々の標識の順序はその単語の正確な音声通りの
スペリングを確保するために保持される。同じ語又は句
で考慮されるに十分近い音韻のみが統合される。

この例の場合、統合された“t"は音声主音の“R"と同
一の窓に割り当てられる点に注意されたい。このことは
２個の音韻の生起のセントロイドタイムが十分に近接し
ている場合に生ずることなになろう。

パラメータ作成音韻評価値を計算する際に使用されるパラメータの作
成は第19−35図について論ずる。第19図は適応正規化器
26（第７図）内に進入する音声に相当するデータを正規
化する際に使用される固定パラメータμ_i,jとσ_i,jの計
算を示すものである。処理全体を通して使用される固定
パラメータと平均値と標準偏差値を含めて、開発データ
ベース中のデータを使用して計算される。

開発データベースの公知の音声信号から作成される。
上記の公知の音声信号は音声プロセッサへ印加され、第
３−18図に示すような固有ベクトルを計算する。その
後、処理の種々の時点でそれと関連する音韻を特徴づけ
る上で有益な種々のパラメータが開発データベース全体
について計算される。これらの計算された、又は固定さ
れたパラメータそその後未知の音声を表わす進入信号に
対して音韻評価値を計算する上で使用される。

第19図について述べると、要素の各々について平均値
μ_i,jが計算され、“N"マトリックスU_n206のμ_i,j,nは
開発データから作成される。まづ、開発データ内のU_nマ
トリクスの各々から対応する要素が平均化され、種々の
平均計算値を要素して有するマトリクスμ402が得られ
る。次に、マトリクスU_nの対応要素の標準偏差値σ_i,j
が関連する平均値μ_i,jを用いて計算され、種々の計算
された標準偏差値を要素として有するマトリクスσ404
が得られる。固定平均パラメータと標準パラメータとは
その後、適応正規化器内で使用され、進入する未知の音
声のために作成されたマトリクスU_nの各要素を正規化す
る。

第20図は種々の固有マトリクスを計算する際に使用さ
れる共分散マトリクスR410を定義したものである。開発
データ用に作成したＮ入力ベクトルa_n406に対応する共
分散マトリクスＲはブロック408に示すように計算され
る。その後、共分散マトリクスＲを使用して第21図に示
すような固有ベクトルとそれに関連する固有値を計算す
る。

第21図について見ると、ブロック412内で固有値が計
算され、順序づけられる。その際、ベクトルb₀（414か
ら）は最大の固有値を有する固有ベクトルであり、b_A-1
は最小固有値を有する固有ベクトルである。その後固有
ベクトルはそれぞれ対応する固有値の平方根によって除
することによって正規化し、ベクトルｂ′_n420をつくり
だす。第１のＢ正規化固有ベクトルは、即ち、最大のＢ
固有値に相当するＢ正規化固有ベクトルは固有マトリク
スE_B424に組み立てられる。固有マトリクスE_Bは定義
上、正方形マトリクスである必要はない。ブロック422
内の肩文字“T"はベクトルの転置を示す。

第22図は非線形プロセッサ230（第10図）に使用され
る固有マトリクスE₂₆432の計算を示す。固有マトリクス
E₂₆は第21図に関して説明される計算方法を使用して計
算される。固有マトリクスの計算に必要な共分散マトリ
クスR410は、第20図に示すように、開発データベースか
ら作成される。その後、最大の固有値と関連する26の固
有ベクトルを格納する固有マトリクスE₂₆を使用して、
非線形プロセッサ２（第10図）のブロック240中の進入
音声に関するデータの相関関係を解除する。

第23図は、固定パラメータ正規化−２プロセッサ244
（第10図）に使用される平均値の計算を示す。プロセッ
サ244は選択した26の固有ベクトルと関連する26のデー
タ要素を正規化する。かくして、Ｎ開発データベースベ
クトル（ベクトルb_n242に相当する）の要素の平均値が
計算される。

第24図は、同様にして、第11図に示す固定パラメータ
正規化−３プロセッサ256に使用されるパラメータの計
算を示す。開発データベース内の対応するＮベクトルe_n
254の平均値と標準偏差値とが計算値され、計算された
平均値を含むベクトルμ440と、計算された標準偏差値
を含むベクトルσ442が得られる。

第25図は音声のマーキングを示す。開発データ入力音
声信号Ｓ（ｔ）の区画は抽出されて“窓”をベクトル
Ｓ′_n446により表わされる音声に形成する。窓は時々、
同様にベクトルh_n266（第12図）により表わされる受容
野マトリクスU_n206（第６図）の時間幅と対応すること
もあれば、以下に議論される様にベクトルp_n306（第12
図）により表わされるオーバーラップ３重ベクトルの時
間幅に対応することもある。前者の時間幅と入力音声信
号Ｓ（ｔ）の1184のデータサンプルに相当し、後者の時
間幅は1760の同様なサンプルに相当する。第25図のブロ
ック444は長い窓の抽出を示す。もし短い窓を選択する
と、窓は要素Ｓ′_880,nの廻りに集中する1184のサンプ
ルにより構成されることになろう。窓の形にされた音声
は、その後、ブロック448に示すようにその音声を聞く
人によって音韻と関連づけられる。音声を聞いている人
は、そのためかかる窓をそれぞれ自分が聞く特定の音韻
を含むものとして注意することになる。

その聴者により選択される聞き取りの窓時間は、聞こ
える音韻数と、音の明瞭性とに依存する。窓が長い場合
の音韻は聞きとりやすいことが多いが、そうすると一つ
の窓に多くの音韻が導入され、従って、マークするさい
の曖昧さが多くなる。このように、その選択は聞こえる
音声の明瞭さと合成標識の時間分解度との間には相背反
しあう関係が生ずる。もし短い窓について全てのマーキ
ングが行われれば、標識は音声要素モデル−１ 264
（第11図）により使用される音声の時間幅に対応するこ
となろう。標識はこのモデルに「マッチ」するであろう
が、音声要素モデル−２ 322（第14図）には「ミスマ
ッチ」することになろう。同様にして、もし全てのマー
キングが長い窓について行われれば、標識は第２のモデ
ルにマッチするであろうが、第１のモデルにはマッチし
ないであろう。理想的にいえば、標識は、それらが使用
されるモデルに常にマッチし、聴者は２つの完全な標識
集合を生成することになろう。然しながら、窓の幅が異
なる場合に聞こえるもののうちには大きな共通性があ
る。音声をマークする負担を軽減するために聴者はそれ
ぞれの標識事例について窓時間幅を最大限有利に選択す
ることができる。

第26図は聴者によりマークされた後の標識の処理を示
す。もし２個の音韻が一つの窓の中に聞こえると、それ
らはブロック450中に示すように２重音標識にマッピン
グされる一対を構成することができる。もし一つの音韻
のみしか一つの窓中に聞こえなければ、その音韻はブロ
ック452中に示すように別個の音声要素にマッピングさ
れた無音子音のうちの一つであり得る。もし２つ以上の
音韻が聞こえると、数対の音韻が２重音標識にマッピン
グされて、他のものは単一の音韻にマッピングされるこ
とができる。この最後の場合、もし窓が長いものあれ
ば、音声をマーク中の人物は短い窓を選択し、更に一つ
の窓で聞こえる音韻数を減らして聞くことができる。マ
ッピングはマーキングが完了して後に自動的に行われる
結果、聴者により入力される実際の標識は保存される。

表１（第36図）には音声をマークするために選ばれる
標識が示されている。これら音韻標識は一部は経験に基
づいて選択される。例えば、経験によれば、特定の音韻
が別の音韻に続いて現れることがあることが知られてい
る。これら標識の幾つかはその後洗練して例えば順序立
った音韻と（又は）幾つかの音韻の組合せを２重音へ包
含する。処理全体を通して使用される標識の数は先の音
声認識システム−Ｉ内に使用される標識数よりも大き
い。かかる多数の標識が使用されるのは、一つの音韻の
開始、従って処理の開始を指示するためにトリガ機構が
活用されるような以前のシステムと異なって、本システ
ムは信号区画窓内の何処にも一つの音韻を検出でき、処
理を例えば一つの音韻の中間で開始できるためである。
かくして、システムより多くの標識を使用して、その後
の処理のために検出音韻の前後関係をい耐えることにな
る。

更に第26図について述べると、１個の信号区画に付与
された標識がブロック454中にコーティングされた標識
ベクトルL_n456を形成している。標識ベクトルL_n456は、
ブロック450と452内に発生する新たな音韻標識と共に表
１（第36図）に示す94の可能な音韻標識のそれぞれを表
わす要素を含んでいる。その結果生ずるベクトルは区画
内で聞こえる音韻標識用の１の要素と、聞こえない音韻
標識について０の要素を備えている。その後標識ベクト
ルは第27図に示すパラメータ開発回路に付与される。

第27図は結合カーネルK₁476（第28図）を作成する際
に使用される固有マトリクスE462とカーネルK470の計算
を示す。共分散マトリクスＲが開発データベースベクト
ルg_n262について計算される。ベクトルg_nは信号データ
表現であって、その後音声モデル−１ 34（第11図）に
付与される。計算された共分散マトリクスＲはその後、
第21図に関して上述した計算に続いて関連する固有マト
リクスＥを作成するために使用される。

ベクトルg_n262はその後固有マトリクスE462を乗ぜら
れ、相関関係を解かれたデータ短縮ベクトルh_n466が形
成される。相関関係を解かれたベクトルh_nは、ベクトル
g_n中の音声データの782の要素に対して、650の最大固有
値と関連する650の要素を有する。かくして、パラメー
タの数は戦略的に縮減され、音声認識にとって最も重要
なデータが保持される。保持された情報は信号分散のほ
ぼ99.97％に関する情報を含む。この時点でデータを縮
減すると音韻評価で重要な情報の多くを犠牲にせずに関
連するカーネルK470と共に結合カーネルＫの大きさをよ
り管理可能な大きさに縮減できる。

その後、650の要素ベクトルh_n466を使用してカーネル
K470を計算する。カーネルＫの要素の各行K_ijは標識ベ
クトルL_n456の対応する要素にベクトルh_nの要素で乗ず
ることによって形成される。標識ベクトルL_n456の要素
は、開発データベース内のＮ標識ベクトルの要素から作
成された平均値を減ずることにより正規化され、その後
乗算処理が施される。

カーネルK470はカーネルＫ′を計算する際に使用され
る。上記カーネルはその後第28図に示すように“結合”
カーネルK₁476を計算するために使用される。カーネル
Ｋは、まづその要素の各々を関連する標準偏差値によっ
て除することよって正規化され、Ｋ′かつくりだされ
る。正規化されたＫ′はその後、固有マトリクスE462と
なる。結合カーネルK₁はその後音声要素モデル−１ 34
内で予備ラベルを進入音声に付与しデータを可能な標識
の部分集合に縮減するために使用される。

第29図は固有マトリクスE₃₃506の計算を示す。固有マ
トリクスE₃₃は33の最大固有値と関連する33の固有ベク
トルを含む。固有マトリクスE₃₃は第21図について上記
した固有マトリクスと同一の方法で計算される。この固
有マトリクスE₃₃はその後、33の最大固有ベクトルと関
連する進入音声を表わすデータ値を選択するために使用
される。

第30図は第２の結合カーネルK₂322（第32図）を作成
する際に使用される音声標識ベクトルである。音韻同基
準標本標識である標識の集合は次の通りK₁476（第28
図）を計算する際に使用されるものとは異なっている。
即ち、表７（第42図）に示される音声要素モデル−１
34内のデータに付与される予備標識は、まづ、表２又は
４（第37図と第39図）中の２重音標識か、表３（第38
図）内の分離音韻標識の何れかに、適宜マッピングされ
る。第30図はそのマッピングを示し、そのためには処理
をブロック514内で１時間単位だけ遅らせることが必要
である。上記遅れは標識をプロセッサ36（第12図）内に
形成された３重データの中心ベクトルと整合させる。そ
の後、同標識はコーディングされて119−要素標識ベク
トルL_n518が形成される。

第31図と第32図とは結合カーネルK₂534の計算を示
す。これら音声標識ベクトルを使用するカーネルK₂は初
めに述べた結合カーネルK₁476（第27図と第28図）と同
一方法で計算される。即ち、正方形固有マトリクスE524
が計算されて音声データベクトルt_n320内のデータの関
連は解かれる。その後、カーネルＫ′が標識ベクトルL_n
518を使用して計算される。その後、カーネルＫ′と固
有マトリクスＥとは乗算処理されて結合カーネルK₂が形
成される。カーネルK₂は音声要素モデル−２ 40内で使
用されて、データを119の可能な音韻標識と関連づける
ことによってデータが縮減され音韻評価が形成される。

第33図と第34図は第14図のブロック326で確率比の対
数で形成する際に使用されるパラメータの計算を示す。
確率比は開発データベースから形成されたパラメータを
組込み、確率比を進入する音声と関連する音韻評価値に
付与する。かくして、音韻評価値は加算によって乗算処
理され、それらが対数に変換された後減算によって除算
処理される。

殊に、第33図に関して、開発データベクトルu_n324と
標識ベクトルL_n518（第30図）はそれぞれ回路536と540
に付与される。ブロック536と540は入力ベクトルu_nの要
素について平均値と標準偏差値を計算し、標識ベクトル
L_n518内の対応する要素が開発データベース内に現われ
る場合及び現れない場合に別々にそれらを蓄積する。ブ
ロック536は入力音声内に対応する音韻が聞こえない場
合の統計を蓄積する。それぞれの個々の音韻について、
これらの事例は、一つの所与の音韻は通常の場合聞こえ
ないから、大量のデータを占有する。ブロック540は対
応する音韻が入力音声内に聞こえない場合の統計を蓄積
する。かかる事例は少数である。

その結果得られる平均値と標準偏差値（ベクトル538A
−Ｂと542A−Ａ）とはディレイティング回路544（第34
図）に付与され、データ値が調節されて、開発データベ
ース内への既知データに音韻評価値の割当てとそれらの
未知データへの割当てとの間に生じる精度の差が補償さ
れる。平均値と標準偏差値とはそれらは、係数a_iとb_iを
乗ずることによって調節される。上記係数は、一方では
テストデースベース内の全事例に対して平均化された値
の、他方では開発データベース内の全事例について平均
された値に対する比である。テストデータベースは開発
データベースよりも小さく、テストデータベース内のデ
ータは他の固定パラメータの何れを計算する際にも使用
されていない。

テストデータはかくして少数の計算された音韻評価値
を含み、同評価値は開発データベースと関連するものよ
りもロバスト度合は小さいと想定される。係数a_iとb_iと
はかくして開発データベースから作成された確率比パラ
メータがどれ程進入する新たな音声に対して拡大縮小さ
れるべきかを示す頻度である。

第34図について述べると、上記の係数a_iとb_iを使用し
て平均値を目盛られる。ディレーティングされた値はそ
の後確率比回路326（第14図）に対する多項係数を形成
する回路546へ付与される。

音韻同基準標本評価値が確率比の対数に変換された
後、音韻同基準標本評価値は音韻再構成プロセッサ44
（第15図）と評価積分器46（第16−18図）内で再構成さ
れ整理統合される。第35図は評価値を再構成し整理統合
する際に使用されるマップの生成を示す。第35図につい
て述べると、マッピングマトリクスS554が２重音につい
て形成され、２重音は構成音声要素にマッピングされ
る。表２、４、５（第37、39、40図）は２重音と構成音
声要素を含む。第２のマッピングマトリクスT560が作成
されて同一の音声要素を表わす種々の標識を単一の標識
形式にマッピングする。例えば、“r"と“R"の標識は共
に“r"の標識にマッピングされる。表６（第41図）はそ
の音声要素の集合を含み、それに対して種々の標識形が
マッピングされる。

第36−44図は、上記したように音韻を標識化する際に
使用される表全部を示す。第36図の表１は聴者が開発デ
ータベースと関連する音声をマークすくことのできる標
識を含む。標識に対して付与される記述法は従来のもの
ではないが、標識キーボードを使用して同記述法を複製
することができる。それ故、記述法の説明は表の一部と
して含まれる。

音声（表１）を発する人物によって使用できる標識の
集合が注意付加く選ばれて、聞取り窓内の音韻の生じ得
る音響表示が包含される。従って、母音及び子音のこの
選択は、表１内に表示される種々の全ての形態の、聞取
り窓内で聞くことのできる音声要素の集合となる。この
音声要素のリストは通常“音韻”と呼ばれる以外のも
の、例えば、種々の音声要素の初期形態、ブリッジ形態
及び最終形態を含む。

第37図の表２は２重音標識は構成音声要素を含む。こ
の表には２重音評価を含む音声要素評価ベクトルを２つ
の適当な音声要素評価値に分離するために使用される。
同表は、結合されたカーネルK₁及びK₂を発生するのに使
用される。表２は、また、マップを生成して音韻評価積
分器46（第35図）の音韻評価を再構成・整理統合する際
にも、表３−６（第38−41図）と共に使用される。

表７−９（図42−44）はモデル−１プロセッサ34、モ
デル−２プロセッサ40及び音韻再構成プロセッサ44でそ
れぞれ使用される音声要素標識の表である。表７はカー
ネルK₁の要素に対応する標識を含む。表８はカーネルK₂
の要素に対応する音韻同基準標本標識を含む。表９は語
／句判断器14及び語／句辞典16（第１図）の要求に合致
するように処理・再構成されるデータに加えられる音韻
評価値標識を含む。表９に示される標識は一般音声にお
いて最もよく発生された語又は句を特徴付けると我々が
信じる音韻である。

表１−９で示される標識の集合は音声認識器の最終の
音韻精度を最適化するように注意深く選択される。従っ
て、母音、子音、２重音及び孤立形態のこの選択は、可
能性のある全ての完全な集合ではないが、第１図のブロ
ック14の語／句判断器内で語を順に見いだすのに最も有
用な集合である。この表は改良することができ、主題関
連音声、例えば、数字を示す音を含むことができ、また
英語以外の言語に現われる音を必要に応じて含むことが
できる。

ハードウェア構成第42−48図はシステムハードウァア構成１−４を示
す。第１の構成（第45図）はデジタル信号プロセッサ
（DSP）マイクロプロセッサ600とメモリ602を含み、本
システムに対するソフトウェア集約的なアプローチ用に
設計される。第２の構成（第46図）はまたややソフトウ
ェア集約実施例用に設計される。この第２の構成は、４
つのDSP604、606、610、612と２つの共用メモリ608、61
4より構成され、それぞれ第45図のメモリの２分の１の
大きさのメモリ２個と、DSP600（第45図）の10−15MIPS
（秒あたり100万台命令単位）より２〜３倍低速のDSPを
使用してシステム機能を実行する。

第47図は、相対的にハードウェア集約的なシステム構
成を示す。この第３の構成は２−5MIPSマイクロプロセ
ッサ616と、メモリ620と乗算／累算回路618より成る。
乗算／累算回路は幾分大きなマトリクス乗算処理を実行
する。例えば、この回路119×843−要素結合カーネルK₂
マトリクスと843−要素ベクトルt_n320（第14図）を乗ず
ることなろう。その他の計算を実行するマイクロプロセ
ッサ616はDSPである必要はない。

第48図は浮動小数点形式の構成を示す。同システムは
10−15MFLOPS（秒あたり数百万単位の浮動小数点処理）
DSPプロセッサ622と、他のシステムに使用されるメモリ
の２倍の大きさのメモリ642を備える。メモリ624はかく
して他の３つの構成で使用される16ビット整数の代わり
に32ビット浮動小数点をストアすることができる。

第49図は、パラメータ、第19−35図に示される発展が
第３−18図のブロックダイヤグラムの形態でしめされる
処理システムに関連する。

結語本発明の音声認識システムは、例えば音声要素モデル
−１ 34（第11図）で非線形処理間で音声専用の処理を
実行してデータを認識可能な音韻パターンを含む形に処
理する。システム内の種々の点で音声−要素特有の処理
を実行するとこによって比較的多量の高分解能信号周波
数データを音韻評価にとって重要な情報を犠牲にするこ
となく短縮することができる。

もし音声−要素−特有のデータ短縮処理システム内の
適当な箇所で実行されなければ、非線形プロセッサに付
与される信号データの分解度はパラメータ数を制限する
ために低下させなければならなくなろう。

本システムはそれ故、重要で比較的高分解能のデータ
を保持して非線形処理を行うものであって、システム内
の種々の地点で、音声−要素特有処理後にデータ短縮時
点で冗長又は比較的重要でないと判ったデータを除去す
るものである。もしデータ短縮と非線形処理とをそのよ
うにインターリーブさせない場合には、システムは低い
分解度データを処理することによって精度は損なわれる
ことはなろう。

【図面の簡単な説明】

第１図は本発明の思想を具体化した音声認識システムの
ブロック線図、第２図は第１図の音韻評価器を示すブロック線図、第３図は第２図のブロックとして示すように、信号パワ
ースペクトルの評価をの計算を示すブロック線図、第４図は第２図のブロック20として示した、パワースペ
クトル評価の縮減の計算を示すブロック線図、第５図は第２図のブロック22として示した、エネルギー
検出プロセッサのブロック線図、第６図は第２図のブロック24として示した、受容野プロ
セッサを示すブロック線図、第７図は第２図のブロック26として示した、適応正規化
器を示すブロック線図、第８図と第９図は共に第２図のブロック28として示し
た、受容野非線形図プロセッサ図、第10図は第２図のブロック30として示した非線形プロセ
ッサ２を示すブロック線図、第11図は第２図のブロック32と34として示す正規化プロ
セッサと音声要素モデル−１プロセッサを示すブロック
線図、第12図は第２図のブロック36として示した、ベクトルを
３重ベクトルへ鎖状結合したものを示すブロック線図、第13図は第２図のブロック38として示した、非線形プロ
セッサ３を示すブロック線図、第14図は第２図のブロック40と42として示した、確率比
の対数の計算と音声−要素モデル−２を示すブロック線
図、第15図は第２図のブロック44として示した、音韻同基準
標本再構成を示す図、第16、17、18図は共に第２図のブロック46として示し
た、評価積分器を示すブロック線図、第19図は適応正規化器（第７図）に使用されるパラメー
タの計算を示す図、第20図は、例えば第10図の非線形プロセッサ２内に使用
されるパラメータを計算するため共分散マトリックスＲ
の計算を示す図、第21図は第20図の共分散マトリクスＲを使用して固有マ
トリクスE_Bを計算する図、第22図は第10図の非線形プロセッサ２に使用される固有
マトリクスE₂₆の計算図、第23図は第10図の非線形プロセッサ２に使用されるそれ
以上のパラメータの計算図、第24図は第11図の正規化プロセッサに使用されるパラメ
ータの計算図、第25図は音声信号のマーキング図、第26図はカーネルを作成する際に使用される音声標識ベ
クトルの判断図、第27図は第11図の音声−要素モデル−１プロセッサに使
用されるパラメータを更に計算するための固有マトリク
スとカーネルパラメータの計算図、第28図は第27図のパラメータを使用して第11図の音声−
要素モデル−１プロセッサに使用される結合カーネルK₁
を作成する図、第29図は第13図に示す非線形プロセッサ３に使用される
固有マトリクスE₃₃の計算図、第30図は別のカーネルを形成する際に使用される音声標
識ベクトルの判断図、第31図は第14図の音声−要素モデル−２プロセッサに使
用されるパラメータを更に計算するための固有マトリク
スとカーネルの計算図、第32図は第31図のパラメータを用いて第14図の音声−要
素モデル−２プロセッサに使用される結合カーネルK₂の
作成図、第33図と第34図は第14図に示すような確率比の対数を計
算する際に使用される平均値パラメータと標準偏差パラ
メータの計算図、第35図は第15図に示す音韻評価再構成に使用される２重
音と音韻パップの表生成図、第36図は第25図に示すような音声をマーキングする際に
使用される標識のテーブル図、第37図は第26、30、35図のパラメータ計算に使用される
２重音と音韻標識のテーブル図、第38図は第26図と第30図に示されるパラメータ計算に使
用される分離形の音韻のテーブル図、第39図は第30図と第35図に示すパラメータ計算に使用さ
れる２重音と構成音韻のテーブル図、第40図と第41図は第35図に示すパラメータを決定する際
に使用される２重音と構成音韻のテーブル図、第42図は音声要素モデル−１で使用される音声要素標識
の表図、第43図は音声要素モデル−２で使用される音声要素標識
の表図、第44図は第２図の音韻再構成プロセッサ44に使用される
音韻標識の表図、第45図は第１−２図の音声標識システムのハードウェア
構成のブロック線図、第46図は第１−２図の音声標識システムの第２ハードウ
ェア構成のブロック線図、第47図は第１−２図の音声標識システムの第３のハード
ウェア構成のブロック線図、第48図は第１−２図の音声標識システムの第４のハード
ウェア構成のブロック線図、第49図は第３−18図の処理システム図と、第19−35図の
パラメータ開発図間の関連を説明するテーブル図。 10……音声認識システム、12……評価器、 14……語句判断器、16……語句辞書、 24……受容野プロセッサ、 22……エネルギー検出プロセッサ、 26……適応正規化器、 230……非線形プロセッサ。

フロントページの続き (56)参考文献特開昭61−52700（ＪＰ，Ａ) 特開昭61−7896（ＪＰ，Ａ) 特開昭61−7897（ＪＰ，Ａ) 特開昭61−141500（ＪＰ，Ａ) 特開昭64−13595（ＪＰ，Ａ) 米国特許5168524（ＵＳ，Ａ) 米国特許5369726（ＵＳ，Ａ) 米国特許4158750（ＵＳ，Ａ) 米国特許5027408（ＵＳ，Ａ) 欧州特許413361（ＥＰ，Ｂ１) 欧州特許286035（ＥＰ，Ｂ１) 古井「ディジタル音声処理」（1985− ９−25）東海大学出版会ｐ．160−170, 177−185 斎藤・中田「音声情報処理の基礎」（昭56−11−30）オーム社ｐ．181−203 日本音響学会音声研究会資料Ｓ81− 59「パワー情報で重みづけた距離による単語音声認識」ｐ．468−476（1981／12 ／22) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G01L 15/10 G01L 11/00 G01L 15/02 ＩＮＳＰＥＣ（ＤＩＡＬＯＧ) ＪＩＣＳＴファイル（ＪＯＩＳ) ＷＰＩ（ＤＩＡＬＯＧ)

Claims

(57)【特許請求の範囲】

【請求項１】音声信号内の問題の音声要素を識別する音
声認識装置において、 A.各成分が上記音声要素の一成分を表わしている第１の
ベクトルを生成する手段（18、20、24、26、28、30、3
2）と、 B.上記第１のベクトルを、既知の異なる音声要素をそれ
ぞれ表わす第１の組の複数のモデルベクトルの各々と対
比し、各対比について上記第１のベクトルと対比された
上記モデルベクトルとの相関性の程度を表わす値を導出
し、そして各対比について得られた上記相関性の程度を
表わす複数の上記値を成分とする第２のベクトルを生成
する第１のモデリング手段（34）と、 C.上記第２のベクトルのある成分の累乗と異なる成分間
の積を計算し、これら累乗及び積と上記第２のベクトル
の成分とを成分に有する第３のベクトルを生成する第３
のベクトル生成手段（36、38）と、 D.上記第３のベクトルを、既知の異なる音声要素をそれ
ぞれ表わす第２の組の複数のモデルベクトルと各々対比
し、音声が各音声要素を含む確率を表わす音韻評価値を
生成する第２のモデリング手段（40）と、より成る前記装置。
【請求項２】上記第１のベクトルを発生する手段が、 A.上記音声信号を処理して、より少ないデータ要素を含
む短縮データを信号区間に対して発生する処理手段（1
8、20、24、26）、および B.上記短縮データの要素のある要素の累乗および異なる
要素間の積を計算し、これら累乗および積と上記短縮デ
ータの要素とを成分として上記第１のベクトルを発生す
る手段（28、30）を含む請求項１記載の音声認識装置。
【請求項３】上記第１のモデリング手段（34）が、上記
第１のベクトルを、既知音声の異なる音声要素毎に、関
係するデータ要素の累乗および異なるデータ要素間の積
と上記データ要素自体とを成分として各々含む上記第１
の組の複数のモデルベクトルの各々と対比して、上記第
１のベクトルより成分数が少ない上記第２のベクトルを
発生する請求項２記載の音声認識装置。
【請求項４】上記第３のベクトル生成手段（36、38）
が、上記第２のベクトルのある成分の累乗および異なる
成分間の積を計算し、上記累乗および積と上記第２ベク
トルの成分とを成分とする上記第３のベクトルを発生す
る請求項３記載の音声認識装置。
【請求項５】上記第２モデリング手段（40）が、上記第
３のベクトルを、上記既知音声の異なる音声要素毎に、
関係するデータ要素の累乗および異なるデータ要素間の
積と上記データ要素自体とを成分として各々含む上記第
２の組の複数のモデルベクトルの各々と対比する請求項
４記載の音声認識装置。
【請求項６】上記第３のベクトル生成手段（36、38）
が、上記累乗および積を計算する以前に、所定の数の信
号区画に対応する第２のベクトルを鎖状に結合する手段
（304）を含む請求項４記載の音声認識装置。
【請求項７】E.何時音声信号が所定値を上回るエネルギ
ーを含むかを判断するために音声信号をモニタする手段
（22）であって、（ｉ）音声信号周波数および振幅に対
応するデータを扱って、所定の周波数範囲内の音声信号
のエネルギーに対応するデータ要素を生成し、（ii）上
記データ要素を操作して所定数の信号要素に対応する期
間に渡っての信号エネルギーの積分を表すエネルギーの
値を生成し、（iii）上記エネルギー値が所定のエネル
ギー閾値を上回った時に出力信号を発生する、上記モニ
タする手段（22）、 F.上記モニタする手段が上記出力信号を発生する時を決
めるタイミング手段（136、138）と、 G.上記モニタする手段とタイミンク手段に応答して音声
信号を処理し、その音声信号区間に関係する音声要素を
識別し、且つ上記モニタ手段が出力信号を発生する信号
区画のみを処理する処理手段（44、46）と、を更に含む
請求項１記載の音声認識装置。
【請求項８】上記処理手段（44、46）が、各音声要素を
一つの標識のみによって表現するために、各音声要素を
含む確率を表わす上記音韻評価値を整理統合再構成する
手段（334、338、344、346、348）を含む請求項７記載
の音声認識装置。
【請求項９】上記整理統合再構成する手段（334、338、
344、346、348）が、上記タイミング手段（136、138）
に応答して、上記モニタする手段（22）が音声要素を検
出する時に部分的に依存して、音声が各音声要素を含む
確率を表わす上記音韻評価値を整理統合再構成する請求
項８記載の音声認識装置。
【請求項１０】上記第２の組のモデルベクトルが、一つ
の標識のみによって表現された音声要素の組に対応する
請求項１記載の音声認識装置。
【請求項１１】上記第１の組のモデルベクトルが、所定
の組の音韻に対応する請求項１記載の音声認識装置。
【請求項１２】音声信号に対応する音声要素を識別する
方法において、 A.各成分が上記音声要素の一成分を表現する第１のベク
トルを生成し、 B.上記第１のベクトルを、既知の異なる音声要素をそれ
ぞれ表わす第１の組の複数のモデルベクトルの各々と対
比し、各対比について上記第１のベクトルと対比された
上記モデルベクトルとの相関性の程度を表わす値を導出
し、そして上記相関性の程度を表わす上記値を成分とす
る第２のベクトルを生成し、 C.上記第２のベクトルのある成分の累乗と異なる成分間
の積を計算し、上記累乗および積と上記第２のベクトル
の成分とを成分に有する第３のベクトルを生成し、 D.上記第３のベクトルを、既知の異なる音声要素をそれ
ぞれ表わす第２の組の複数のモデルベクトルと各々対比
し、音声が各音声要素を含む確率を表わす音韻評価値を
生成する、段階より成る前記方法。
【請求項１３】E.所定の周波数範囲内の音声信号のエネ
ルギーに各々対応するデータ要素を発生し、 F.上記データ要素を扱って、所定数の信号区画に対応す
る期間に渡っての信号エネルギーの積分を表わすエネル
ギー値を発生し、 G.所定の値を上回るエネルギー値に関係する音声信号区
画を上記工程Ａ−Ｄに従って処理する工程を更に含む請
求項12記載の音声要素を識別する方法。
【請求項１４】上記第１のベクトルを発生する上記工程
が、上記音声信号を処理して、より少ないデータ要素を含む
短縮データから第１のベクトルをつくりだし、上記第１のベクトルを上記第１の組のモデルベクトルと
対比する上記工程が、上記第１のベクトルを、既知音声の異なる音声要素毎
に、関係するデータ要素の累乗と異なるデータ要素間の
積と上記データ要素自体を成分とする上記第１の組の複
数のモデルベクトルの各々と対比し、第１のベクトルよ
りも成分数の少ない前記２のベクトルを発生する請求項
12記載の音声要素を識別する方法。
【請求項１５】上記第３のベクトルを上記第２の組のモ
デルベクトルと対比する上記工程が、上記第３のベクト
ルを、既知音声の異なる音声要素毎に、関係するデータ
要素の累乗および異なるデータ要素間の積と上記データ
要素自体を成分として含む上記第２の組の複数のモデル
ベクトルの各々と対比することから成る請求項14記載の
音声要素を識別する方法。
【請求項１６】E.発声された一つの語又は句と関係する
音声信号の連続する区間に対して上記工程Ａ乃至Ｄを繰
り返し、 F.上記工程Ｄで発生された音声要素推定信号を結合し
て、結合信号を形成し、 G.この結合信号に応答して、音声信号に対応する語又は
句を識別する工程を更に含む請求項12記載の音声要素を
識別する方法。