JP3114975B2

JP3114975B2 - 音素推定を用いた音声認識回路

Info

Publication number: JP3114975B2
Application number: JP63087075A
Authority: JP
Inventors: ピークレーカージョン; エルパワーズロバート
Original assignee: エリザコーポレーション
Priority date: 1987-04-09
Filing date: 1988-04-08
Publication date: 2000-12-04
Anticipated expiration: 2015-12-04
Also published as: US5027408A; EP0286035B1; JPS6413595A; DE3878001T2; ATE85451T1; CA1329272C; DE3878001D1; EP0286035A1

Description

【発明の詳細な説明】（産業上の利用分野）本発明は音声認識に関する。特に本発明は、音声認識
システムのうち、受信音声のデータ縮小表示におけるパ
ターン認識で使われる部分に関する。

（従来の技術）音声認識用のほとんどのシステムは、音声信号入力そ
のままのデジタル化表示内に含まれるデータの全てより
少ないが、話し手によって意図された意味を識別するの
に必要な全データではないにしてもほとんどを含んだ音
声の表示に、生音声のデータを縮小する何等かの手段を
用いている。音声認識システムの発展または「トレーニ
ング」における課題は、単語やフレーズ等音声要素の特
徴を表す縮小データ表示内のパターンを識別することで
ある。勿論、同じフレーズを発音した音も話し手が違え
ば異なり、またノイズやモデル化プロセスの不正確など
その他のあいまいさ源も存在する。従って、音声の縮小
データ表示の各要素における各種の数学的組合せに尤度
を与えるルーチンが使われ、また各種の仮説がテストさ
れて、多くの可能な音声要素のうちどれが現在話されて
いるものとして最も有望かを判定する。

（発明が解決しようとする課題）これらの動作を実行するプロセスは、計算集約的とな
り易い。尤度は多数の音声要素について判定されねばな
らず、例えば実時間動作という要求によって課せられる
計算上の制約が、使用可能なパターン認識アルゴリズム
の感度を制限する。

従って本発明の目的は、音声認識の全体プロセスに必
要な時間を増さずに、あるパターンの認識に使える計算
時間を増すことにある。別の目的は、音声認識プロセス
を改善することにある。

（課題を解決するための手段）上記及び関連の目的は、話された単語やフレーズを識
別する更なる処理を実施可能とする推定を生じる音素推
定器（エスティメータ）を用いた音声認識システムによ
って達成される。音素推定器は、音声認識システムが受
け取る新たな音声の全セグメントの縮小データ表示を検
査するトリガー発生器を含む。トリガー発生器は、広い
クラスの音素特徴を表すパターンを縮小データ表示内に
検出すると、音声要素プロセッサをトリガーし、音声要
素プロセッサがそのクラス内の多数音素の各々につい
て、その時点で各音素が発生された尤度を計算する。音
声要素プロセッサはそれがトリガーされたときだけ動作
するので、入力音声のセグメントのわずかなサブセット
でしか動作しない。このため、音声要素プロセッサがあ
る任意の音声要素の識別に使える計算量は、入力音声の
各セグメント毎に計算が実行されねばならない場合に使
える量より大きくなる。

本発明の別の特徴によれば、音声の縮小データ表示に
おけるパターンの認識用の計算で非線形モデリングを用
いる、つまり音声要素自体だけでなく、それらの乗算の
結果の中においてもパターンをサーチする。これは、モ
デル化プロセスの精度を向上させる。

本発明の上記及びその他の特徴と利点を、以下添付の
図面を参照して説明する。

（実施例）この明細書では、音声を認識する製品システムと、製
品システムを「トレーニング」する、すなわち製品シス
テムで使われるパラメータを決める発展システムを説明
する。第１〜６図が製品システムの一実施例を示し、第
７〜11図が対応した発展システムの各部を示す。

製品システム：概括第１図の音声認識システムは、本発明の音素識別回路
を用いている。例えばマイクロホンの出力の形をした音
声信号が、本発明の教示を具備した音素推定器12によっ
て受信される。任意のある時点における音素推定器の出
力は一群の出力で、各出力はその時点で受信されている
音声がその出力に対応した音素を構成する尤度から得ら
れ、ここで「推定」と呼ぶ値である。

理想的には、単一の音素が識別されるように、一つの
出力が非常に高い尤度を示す一方、外の全ての出力がは
るかに低い尤度を示す。しかし実際には、ノイズ、音声
の変化、及び音素推定器12自体の理想からのずれが、も
っとあいまいな一群の出力をもたらすことが多い。単語
／フレーズ判定器14が推定を受け取り、構成音素の形で
列挙された単語及びフレーズのライブラリ16に問い合わ
せて、尤度の少ない音素を対象から外し、どの単語及び
フレーズが受け取られたかを判定する。単語／フレーズ
判定器14の出力は例示実施例において音素転記音声だ
が、その出力は一群の尤度が見込まれる答えのうちどれ
が話されたかを示すものなど、もっと単純な形も取り得
る。

音素推定を更に処理する特定の方法は本発明に含まれ
ないので、単語／フレーズ判定器14の詳細はここに示さ
ないが、単語／フレーズ判定器14は音素推定器12から生
じる推定に対して厳密に動作すること；つまり単語／フ
レーズ判定器14は生の音声自体またはその周波数スペク
トルなどもっと原始的な形のデータに動作するのではな
いことが重要である。

第２図は、音素推定器12をより詳しく示す。２つの別
々のプリプロセッサ18と20が生音声を受信し、初期のデ
ータ縮小を行う。後で詳述するデータ縮小は、パワース
ペクトルなどを考慮した、正規化等多数のデータ縮小ス
テップからなる。これらほとんどのステップは、同じ組
合せではないが、外の音声認識システムの初期段階でも
使われている。プリプロセッサ18と20は多くの点で似て
いるが、タイミングプリプロセッサ18のためにここで選
択した特定の前処理ステップは、新たな音声要素が生じ
る時点を認識するのに最適な情報を送るステップである
一方、音声要素プリプロセッサ20は、例示の実施例では
音素である特定音声要素の識別に一層適した情報を送る
データ縮小要素からなる。

第１プリプロセッサ18の出力はトリガー発生器22に送
られ、これが新たな音声要素が生じた見込みの時点を指
示する。つまりトリガー発生器22は、見込み発生が母音
または最初の子音であると「Ｖトリガー」を発生し、そ
の出力を最初の子音プロセッサ24と母音プロセッサ26に
加える。またトリガー発生器22は、生じた見込みのもの
が最後の子音であると「Ｆトリガー」を発生し、その出
力を最後の子音プロセッサ28に加える。

トリガー発生器22がＶトリガーを発生すると、プロセ
ッサ24と26が、各々特定の最初の子音または母音音素が
生じた尤度から得た「推定」である多数の出力を発生す
る。Ｖトリガーが生じないとき、これらの回路は、それ
らの推定によるとかかる音素が生じた尤度が存在しない
ということを指示する。

同様に、Ｆトリガーは最後の子音プロセッサ28によっ
て、各々現在受け取っている音声がある最後の子音から
なる尤度から得た「推定」である多数の出力を発生す
る。

いま、生の音声が単語catであるとすれば、最初の子
音及び母音両プロセッサ24、26がＶトリガーによって動
作するようにトリガーされ、子音と母音の組合せの発生
を指示する。従ってこれらのプロセッサは、特定の最初
の子音または母音が話された尤度を各々表す多数の出力
を並列に生じる。最初の子音プロセッサ24からのこれら
出力の中では、「ｋ」音を表す出力が最大となろう。同
じく、母音プロセッサ26からの出力の中では、短いａ音
を表す出力が最大となろう。単語／フレーズ判定器14
が、これらの出力並びに前及び後の出力を考慮して、最
初に話された音素が「ｋ」音で、次に話された音素が短
いａ音であったと結論する。

次に、最後の「ｔ」音が最後の子音プロセッサ28だけ
をＦトリガーによってトリガーさせ、これに応じてプロ
セッサ28が「ｔ」音を発生する出力は一般に、それが外
の最後の子音音素について発生する出力より大きい。従
って単語／フレーズ判定器14は、話し手が単語catを話
したと判定する。

音声の変動のため、単語catは、最初の子音と母音両
方がそれで処理される一つより多いＶトリガーと、最後
の子音がそれで処理される一つのＦトリガーとをもたら
すことがある。例えば、最初の子音と母音が生じ異なる
Ｖトリガーに応じて処理され、最初の子音を表すトリガ
ーが母音を表すトリガーより前にくる場合がある。更
に、単語内の子音または母音の何れかを処理するのに使
われるトリガーが、一つより多いこともある。特に単語
の発音が引き延ばされると、例えば短いａ音の発音はし
ばしば、最初の子音及び母音両プロセッサを複数回トリ
ガーする。従って、これらのプロセッサの出力はその音
の繰り返された発音を指示するが、単語／フレーズ判定
器14はこのような複数の発生を一つの単語内の単一の短
いａ音として認識するようにプログラムされている。更
に、短いａ母音を処理するのに使われたＶトリガーの後
に、別のＶトリガーで大きい最初の子音「ｔ」の出力が
生じることもある。単語／フレーズ判定器14は前及び後
の出力を考慮に入れて、「ｔ」を表す最初の子音出力
を、catのスペルを終らせるものとして受け入れる。す
なわち単語／フレーズ判定器14は、一連の音素推定から
話された特定の単語を推論するための広い範囲の各種ル
ーチンを備えることができる。しかし、単語／フレーズ
判定器の特定動作は本発明の一部に含まれないため、こ
こではこれ以上説明しない。

このように機能をトリガーの発生と音素の識別に分け
ることは、比較的多い数の可能性ある音素毎の個別化処
理が各プロセッサ出力の都度でなく、トリガーに応じて
のみ生じるようになるため、計算を減少させる。

タイミングプリプロセッサ第２図のタイミングプリプロセッサ18を第３図に更に
詳しく示す。6.6kHzのサンプル／ホールド回路と12ビッ
トのアナログ／デジタル変換器からなるデジタイザ29が
音声信号ｓ（ｔ）を処理し、各サンプルの振幅を表すデ
ジタル信号a_nのシーケンスを生じる。次のブロック30
は、a_nのシーケンスを31のサンプルだけ重複し従って各
々80の新しいサンプルを含む111サンプルのサブシーケ
ンスに分離するステップを表す。各サブシーケンスは、
要素ｂ_k,mを持つベクトルb_mと見なすことができる。こ
のベクトルは、ある音声時間区間に対応したある音声セ
グメントを表す「音声区間セグメント」と称することが
出来る。入力ストリームの平均、つまりD.C.値は音声認
識にとって価値ある情報を持っていないため、各ベクト
ル内の要素の平均値が回路32によって除去される。

この時点で、各プロセスは適切なハードウェアシステ
ムで行えるので、図面はそれらプロセスを別々の回路に
よって実施されるものとして示していることに留意され
たい。この別々の回路への分離は説明を簡単にするが、
当業者であれば、かかる機能のほとんどは一般に比較的
少数の共通なハードウェア要素によって行われることが
理解されよう。つまり、ほとんどのステップは通例１つ
または非常に少数のマイクロプロセッサによって実施さ
れる。

ブロック30におけるセグメント化で重複させる理由
は、ブロック34で表したステップを考慮すれば明かとな
ろう。このステップは、各サブシーケンス内のサンプル
の自己相関である。自己相関は（ゼロの「ずれ」を含
む）32のずれについて計算されるので、31のサンプルの
重複が必要になる。デジタイザ29から発生される80の各
サンプル毎に、一つのベクトルd_mが生じる。各ベクトル
d_mは32の要素ｄ_k,m、０≦ｋ≦31からなる。

自己相関ステップは、外のほとんどの前処理ステップ
と同様、音声要素の識別にとって価値のないデータを除
去し、価値のあるデータを保存するステップである。し
かし、自己相関を特に選ぶことは重要でない；事実本発
明者等はこの発明の一部の変形において、自己相関ステ
ップの代わりに離散的なフーリエ変換を用いている。

データ縮小ステップの選択は、情報の保持と計算時間
の減少との間の妥協の問題である。後者の因子がブロッ
ク36で表した次のステップを左右し、そこでは個々のベ
クトル要素の一部がそのまま保持される一方、残りの要
素は相互に平均を取ることによって結合され、32要素の
ベクトルd_mを12要素のベクトルe_mに縮小する。

タイミングプリプロセッサ内の次のブロック38は、第
１差分の計算を表す。ここでも、差分ステップの選択
は、タイミングに関する情報のほとんど全てが第１差分
内に保持される一方、タイミング決定に寄与しない多く
の情報はそれらの差分を生じる減算によって除去される
という仮定に基づいている。これはタイミングの前処理
で価値あるステップと考えるが、第１差分の計算を含ま
ないステップの組合せを用いたプリプロセッサでも本発
明の教示を首尾良く実行できる。

また本発明者らは、その後の処理で正の差分と負の差
分を別々に処理するのが有利であると考える。このため
に、ブロック40で表したステップが含めてあり、そこで
正の差分と負の差分をそれぞれ異なるベクトル位置に入
れることによって分離する。

ブロック40で示した動作は、正−負の分離だけでな
く、ノイズの減少も表している。これらの動作の目的を
理解するためには、約プラスまたはマイナス３×10
⁸（つまり約80×2048×2048）である自己相関ステップ
での可能な最高出力を含むのに充分な表示範囲となるよ
うに、例示の実施例ではブロック32の最初の計算ステッ
プ後で浮動小数点表示を用いていることを知ることが役
に立つであろう。この大きさの範囲では、比較的小さい
値の要素が多分ノイズを表している。この実施例では、
3200以下の値を「小さい値」として処理する。つまり、
これらの小さい値をブロック40の分離プロセスの一部と
して取り除く。入力要素ｆ_k,mは、ｆ_k,mが3200より大き
いと、対応した出力要素ｇ_k,mとなる。それ以外の場
合、対応した出力要素ｇ_k,mはゼロである。ｆ_k,mが−32
00より大きい負だと、別の要素ｇ_ｋ＋12,mは−ｆ_k,mに
等しい。それ以外の場合、ｇ_ｋ＋12,mはゼロである。従
って、ブロック40のステップは24要素のベクトルg_mを発
生し、これらの要素のうち少なくとも半分はゼロに等し
い。

ブロック40の出力中における最も小さい振幅の要素が
多分ノイズを表しているが、外の低い振幅要素の小さい
変化が高い振幅要素における同じ絶対的サイズの変化よ
りも多くの情報を含んでいることもある。すなわち、意
味はおそらく変化の絶対的サイズでなく、相対的サイズ
の中に存在する。この仮定を認識して、ブロック42で表
したステップでベクトル要素の対数を取る。もっと正確
に言えば、要素値がゼロで、その要素についてのブロッ
ク42の出力がゼロになる場合を除き、3200で割った要素
値の対数が取られる。尚、ブロック40の分離ステップは
正かゼロの要素だけをもたらすので、ブロック42におい
て負の数の（定義されていない）対数を処理する必要は
ないことに留意されたい。

次のブロック44は、各要素からそれを取り囲む13のベ
クトル内の対応する要素の移動平均を減算するステップ
を表す。このステップを設けたのは前記同様、この種の
ステップが最も有意な情報を保持しながら、重要性の低
い情報を取り除くと考えるからである。すなわち、ブロ
ック44の出力を受け取るトリガー発生器の目的は、発声
の開始または分岐など音声パターンの有意な変化が存在
する音声中の箇所を識別することにある。移動平均の減
算は、このような変化をより一層際立たせるものと考え
る。ブロック44の出力p_mが、第２図のタイミングプリプ
ロセッサ18の出力となる。

尚、ブロック44で表したステップは６の遅延を導入す
る;p_mは移動平均を取り除いたh_m-6に等しい。トリガー
発生におけるこれと外の遅延の補償については、第6A図
に関連した議論で説明する。

トリガー発生器第２図のトリガー発生器を第４図に詳しく示す。音声
要素の発生を識別するため、すなわちトリガー信号を発
生するために、タイミングプリプロセッサ18の出力がブ
ロック46で、既知音声の観測により各種クラスの音素の
特徴を表すものとして先に識別されたパターンにつき、
トリガーマトリックスＶ″とＦ″によって「モデル化」
される。つまり各ｍ毎に、８つのベクトルp_m-7,...,p_m
からなるマトリックスが２つのトリガーマトリックス
Ｖ″とＦ″によって別々にスカラー乗算される。これら
の各トリガーマトリックスはマトリックス［p_m-7,...,p
_m］内の各要素に対応した別々の要素を有し、各トリガ
ーマトリックスの要素は［p_m-7,...,p_m］内のそれに対
応した要素がある一定種類の音素の発生を示す度合を表
している。トリガーマトリックス内の正要素は、データ
マトリックス内の正の対応要素と乗算されると、スカラ
ー積に対して正の寄与率を生じる。同じく、トリガーマ
トリックス内の負要素は、データマトリックス内の負の
対応要素と乗算されると、スカラー積に対して正の寄与
率を生じる。Ｖ″マトリックスによる乗算の結果は、マ
トリックス［p_m-7,...,p_m］が母音あるいは最初の子音
どちらから結果したかを示すスカラーq_mである一方、
Ｆ″マトリックスによる乗算の結果は、前記マトリック
スが最後の子音から結果したものかを示すスカラーr_mで
ある。トリガーマトリックスの発生に関する議論で説明
する理由から、ブロック46では３の遅延を導入する。

ブロック48で表したステップでは、得られた出力q_mと
r_mの各々が4172のしきい値と比較される。しきい値より
高い値がそのクラスの音素の発生を表すと見なされる一
方、しきい値以下の値はそうと見なされない。ある音素
の単一発音が連続する幾つかのサンプル群を生じるもの
と見込まれしきい値より高いq_mまたはr_m値をもたらすこ
とがあるため、所定のしきい値を越えたq_mまたはr_m値は
最も近い前の値及び最も近い後の値と比較され、q_mまた
はr_m値が局所最大であるかどうかを判定する。次いでＶ
またはＦトリガーが発生され、各局所最大が生じた時点
を指示する。Ｖ及びＦトリガーは、第２図のトリガー発
生器22の２つの出力である。

ブロック48には、それが１の時間単位の遅延を与える
ことが示してある。これはタイミングプリプロセッサと
トリガー発生器両方に対し、最終的に累計10の遅延をも
たらす；つまりブロック44の移動平均減算での６、ブロ
ック46のマトリックスによるスカラー乗算での３、及び
ブロック48の局所最大ステップでの１である。従って、
Ｖ及びＦトリガーは、以下検討する音声要素プリプロセ
ッサの出力に対して10時間単位だけ遅延される。

音声要素プリプロセッサ第５図に、第２図の音声要素プリプロセッサ20を詳し
く示す。プリプロセッサ18と同様、プリプロセッサ20
も、第５図のブロック28、30及び32が示すように、デジ
タル化、セグメント化、及び平均値の除去から始まる。
これらは、第４図の最初の３ブロックと同じである。ブ
ロック56の議論に関連して以下明かとなるように、ブロ
ック32のステップで取り除かれた情報、すなわち平均値
は、ブロック32のステップが行われないとしてもその後
の処理によって取り除かれる。このため理論的には、ブ
ロック32のステップは余分なものである。しかしここで
は、比較的大きいD.C.（平均）成分が存在すると、その
後のステップで用いる数値技法の精度が減じられること
から、このステップを実行する。

第５図の次のブロック50は、128点の離散フーリエ変
換（DFT）を表す。最後の17入力点（128−111＝17）は
ゼロである。本発明者等がDFTを使い始めた以前の前の
型の装置で用いていたセグメント化ルーチンの保持に基
づくゼロの使用は、本装置の改善につれ取り除かれるこ
ととなろう。

DFTへの入力は純粋に実数なので、DFTの128の複素数
出力のうち65だけが非冗長データを表す。従って、ブロ
ック50の出力は65要素の複素数ベクトルd_mである。

ブロック52はパワースペクトルの発生を表す。すなわ
ち、一般に複素数のDFT値ｄ_k,mがそれらの複素数共役ｄ
^＊ _k,mと乗算され、対応した実数値ｅ_k,mを発生する。こ
の乗算は、音素識別に必要と考えられる情報のほとんど
を保持しながら、データの量をこの時点で1/2に減少さ
せる。次の「ハンの窓（von Hann window）」ブロック5
4は、通常の方法によるスペクトルの平滑化を表し、時
間領域での切り捨てから結果するサイドローブを減少す
る。次に、こうして得られたベクトルがブロック56に示
すように処理され、65要素のベクトルf_mを７要素のベク
トルg_mに減じる。この処理では、その後の計算負担を減
少させるように、最も低い周波数を表す複数の要素が取
り除かれ、その他のグループは平均化によって結合され
る。幾つかの最も低い周波数成分は音素の識別プロセス
に必要でなく、また周波数成分の平均化は情報保持と計
算減少の間の妥協である。

また、一部の価値ある追加の情報は信号の平均パワー
に存在すると考えられる。ブロック58は、ブロック50の
対応したDFTを生じるのに使われるサンプル群における
平均パワーh_mの計算を表す。次にこの平均パワーh_mがブ
ロック60で７要素のベクトルg_mと連結され、８要素のベ
クトルp_mを生じる。ブロック58のステップで求められる
パワーh_mは、ブロック56の要素結合で除去した低周波数
成分を含んでいる。これらの最も低い周波数成分は音素
の識別プロセスにとって価値ある情報を含んでないと考
えられるので、この発明の別の変形では、要素結合を形
成するのに使われたスペクトル成分だけから平均パワー
を計算する。このような変形においては、パワースペク
トルまたは窓を通過したパワースペクトルの切り捨て
（高域通過）部分から平均パワーを計算する。音素識別
用の情報は多分、ベクトルp_mの個々の要素ｐ_k,mの変化
の絶対的サイズではなく相対的サイズの中に存在する。
従って、ブロック62に示すように、全て正かまたはゼロ
であるこれらの要素が１だけインクレメントされ、その
結果の対数が計算される。この１のインクレメントは、
得られる全ての対数がゼロか正になることを保証する。
こうして得られた８要素のベクトルq_mが、第２図の音声
要素プリプロセッサ20の出力となる。

音声要素プロセッサ第５図の音声要素プリプロセッサの回路の目的は、入
力データを処理可能な量に減じることにある。その結果
が入力のデータ縮小表示であり、これについて第２図の
音声要素プロセッサ24、26及び28が個々の音素を表すパ
ターンを調べる。第6A、6B及び6Cに、これら音声要素プ
ロセッサの詳細を示す。

第6A図のブロック64、66及び68が、それぞれ第２図の
音声要素プロセッサ24、26及び28によって行われる機能
を表している。すなわち、ブロック64と66の各々は、第
２図のトリガー発生器22がＶトリガーを発生した各ｍ毎
の受領フィールド、つまり連続する９つのベクトルq_m群
のアセンブリを表す。ブロック68は、第２図のトリガー
発生器22がＦトリガーを発生した各ｍ毎の受領フィール
ドのアセンブリを表す。

前に指摘したように、離散フーリエ変換の発生、正規
化など上述したステップの多くは、必ずしも同じ組合せ
ではないが、外の音声認識システムによっても通常実施
されているステップである。また、これから説明するス
テップの一部は、多くの既存システムでのパターン認識
ステップと類似しているところがある。しかし本発明に
よれば、これらのステップは受領フィールドに対しての
み実施される。ブロック64、66及び68で表した受領フィ
ールドのアセンブリは、外の全てのベクトルq_mを更なる
処理から取り除いている。これは処理の全体量を減少
し、音素識別の精度向上に一層寄与するものと考える。

抽出ステップ64、66及び68は相互に類似している。ト
リガー発生器22が時間要素ｍについてＶトリガーを発生
すると、ブロック64の抽出ステップが９つのベクトルq
_m-16,...,q_m-8からなる受領フィールドをアセンブルす
る一方、ブロック66の抽出ステップは９つのベクトルq
_m-13,...,q_m-5からなる受領フィールドをアセンブルす
る。トリガー発生器22が時間要素ｍについてＦトリガー
を発生すると、ブロック68の抽出ステップは９つのベク
トルq_m-12,...,q_m-4からなる受領フィールドをアセンブ
ルする。トリガー発生器22が特定の時間要素ｍについて
ＶトリガーもＦトリガーも発生しないと、その時間要素
について受領フィールドはアセンブルされない。

ＶまたはＦトリガーの発生とそれに応答してアセンブ
ルされるベクトルq_mとの間に与えられる遅延のほとんど
は、音声要素プリプロセッサ20の出力に対してＶ及びＦ
トリガーが遅延される10の時間単位を補償するものであ
る。異なる回路64、66及び68で与えられる遅延間の差
は、本発明者等の経験に基づく、音素の識別を最も特徴
付ける音声の各部分間でのタイミングの差によるもので
ある。

後述する２つの例外を除き、音素識別回路24、26及び
28の各々の残りの構成部分は外の２つと同等なので、第
6A、6B及び6Cは回路24の残りの構成部品だけを示す。
（また別々の「回路」としてシステムを説明するが、こ
れらの機能は一般に同様のルーチンを実行する共通のマ
イクロプロセッサによって実行される。）受領フィールドが選ばれると、データとそれに伴う計
算の負担を減少させる別のステップが行われる。つま
り、受領フィールドの９つのベクトルが３つのグループ
に分けられ、各グループの３つのベクトル内の対応要素
が、３つの８要素ベクトルが生じるように平均化され
る。これら３つのベクトルが連結されて、各受領フィー
ルドから単一の24要素ベクトルr_mを生じる。ブロック70
がこの平均化と連結を表す。

ベクトル指標が、ブロック64の受領フィールド抽出ス
テップによって行われるデータの除去を反映し、ステッ
プ70でｍからｎに変化する。このステップはＶトリガー
が発生されたｍの値についてだけの受領フィールドをア
センブルするので、ブロック70のステップはｍの各値毎
の受領フィールドに対して動作するわけではないので、
ｍのシーケンス中には「穴」が存在する。つまり指標ｎ
は、これらの「穴」を取り除いて付け直した番号を表
す。

発展システムの説明に関連して後で詳述するように、
第１〜６図の製品システムで使われる幾つかの定数ベク
トル及びマトリックスが、一人以上の話し手から発せら
れた多量の記憶サンプル音声を処理する発展システムに
よって得られる。これらの定数を発生するため、発展シ
ステムが記憶装置内の全音声を上述した全ての処理に付
し、ブロック70のステップで生じるものに対応した多数
のベクトルr_nを発生する。発展システムがこれらのベク
トルr_n全てについて各要素の平均（ミューμ）と標準偏
差（シグマσ）を計算し、これらの定数が第１〜６図の
製品システムで使われ、ブロック72に示すように対象の
ベクトルr_nの各要素を、それから平均を差し引いた後、
その結果を標準偏差で割ることによって正規化する。こ
の結果が正規化ベクトルs_nである。かかる正規化を行う
のは、ベクトル要素によって表される量の中で重量なの
は、絶対的な意味でのその値ではなく、むしろ平均から
のその偏差が全てのベクトル内の対応要素の標準偏差と
如何に比較されるかであることが見込まれるためであ
る。すなわち、わずかにだけ変化する量の小さい変化の
方が、もっと広い範囲で変化する量の同様なサイズの変
化より重要であると見られる。また、正規化はその後の
処理で必要な計算のダイナミックレンジを減少させる。

説明がさらに進むにつれ明かとなるように、音素識別
プロセスは音素を認識するヒューマンプロセスのモデル
として設計されている。事実音素識別プロセスは、記録
された（または生の）音声を聞き、認識した音素によっ
て音声の各部分をラベル付けするという人の観測を用い
ている。ある意味において、「システム」への入力が人
によって聞かれる音を構成する圧力波である一方、出力
は音の短い各部分をそれによってラベル付けする音素記
号である。第７〜11図に関連して説明するような発展装
置での「トレーニング」時に、ヒューマン「システム」
が出力を入力と連関することによってモデル化される。

しかし、相関プロセスを制御可能なように、本モデル
化プロセス、及び実際には本発明者等が知っている全て
の音声認識システムのモデル化システムは、相関プロセ
スの開始前に顕著な量のデータ縮小を行っている。すな
わち、相関プロセスでは音素記号（外のシステムの場合
には単語またはフレーズ用の記号）を、音を構成する圧
力振幅の値と直接相関させることを含んでない。その代
わりに出力信号は、第6A図のブロック72に至るまでの間
で説明したような一連のデータ縮小ステップの結果と相
関させられる。従来のほとんどのシステムでは、音素、
単語またはフレーズを、一連のデータ縮小ステップによ
って発生されたベクトルs_n等のベクトルの要素と相関す
ることによって、トレーニングが実施されている。

これに対し、第７〜11図の発展システムは、モデル化
システムを非線形システムとしてより直接処理するよう
に、相関前に更に別のステップを実施している。本発明
者等は、音素をs_nの要素とだけ相関する代わりに、各要
素とそれらの積及び累乗とから成る非線形の表示と音素
を相関させ、第１〜６図の製品システムで使用すべきパ
ラメータを判定すれば、より高い精度が得られることを
見いだした。これらのステップの第１は製品システム中
において、s_nの外積、すなわちs_nの要素の全ての個別積
の形成を表すブロック74によって反映されている。ブロ
ック75は、ベクトルs_nがその外積と連結され、非線形の
表示を生じることを示している。この非線形の表示が32
4要素のベクトルu_nとなる。

処理のこの時点における外積の使用は、２つの効果を
有する。第１は、その後のモデル化プロセスで２次の項
を利用可能とし、その後のモデル化プロセスがs_nの要素
に対して非線形に応答可能とすることで、明らかに非線
形のヒューマン「システム」をより厳密に模倣可能とす
る点にある。これは、入力データのストリームが非線形
性を持たないモデル化プロセスと比べ、精度を向上させ
る。第２は、外積の使用がその後のモデル化プロセスに
導かれるベクトルのサイズを大幅に増大させることであ
る。例えば、外積ブロック74に入力するベクトルのサイ
ズは24であるが、ブロック75のベクトル出力のサイズは
324である。

本発明者等は、ある一定時点後において、外積ステッ
プに入力されるベクトルの長さの増大は発展システムの
精度を向上する一方、製品システムの精度を低下させる
ことを見いだした。この理由は、外積のサイズを大きく
すれば、発展システムが「トレーニング」のために用い
るデータベース内に含まれた音声の特徴を、発展システ
ムがより厳密にモデル化可能にすることにある。しか
し、話し手間での変化、及び一人の話し手による音声内
での変化のため、製品システムに加えられる音声の各音
素の特徴はほとんど発展システムのデータベースに含ま
れていない。音声のパターンを認識するモデル化プロセ
スで使われる極めて多数のパラメータが発展システムの
データベースに属しているが、これらは新たな音声を一
般化するものではない。このために製品システムの精度
は、パラメータの数がある一定のサイズを越えた後は低
下する。外積ブロック74に入力されるベクトルのサイズ
は、上記の点を考慮し最良の妥協を与えるように選ばれ
ている。

ブロック76はこうして得られたベクトルu_nの正規化を
表す。この正規化は、各ベクトルu_nの要素からの平均の
減算と、その差のそれらの絶対値の平均による除算とを
含んでいる。このステップの効果は、簡単に言えば大き
い音声と低い音声が同じになるようにすることにある；
つまり音素認識の目的上、音声の大きさは何等の情報も
有していない。ベクトル毎の正規化に絶対値の平均を選
んだことは、重要でない。事実、本発明者等は一部の実
施例において、その平均の代わりにベクトル要素の標準
偏差を用いるつもりである。

プロセスのこの時点で、データは直接モデル化プロセ
スに入ることができる；実際に、各実施例をその通りに
作動させてきた。しかし本発明者等は、再び外積を取っ
て更に非線形性を付け加えると、より高い精度が達成さ
れることを見いだした。２度目の外積計算は、線形項と
一次項の各対の積からなるため、三次及び四次の項を生
じる。但し、２度目の外積計算ステップは注意して適用
しなければならない。何故なら、そのまま適用すると、
出力ベクトルサイズの幾何的成長が製品システムの精度
をひどく低下させるからである。

第6B図は、更なる外積の形成に関連したステップを示
す。通例、ベクトルv_nの要素間には何等かの相関性が存
在する；すなわち統計をベースとして、外の要素の値が
分かれば、ベクトルv_nのある要素の値のランダムよりま
しな予測を行える。しかし、相関性のないデータに対し
て成されるなら、数学的モデル化の方が有効的である。
発展システムの議論で以下説明するように、発展システ
ムは発展用データベースを処理して、ベクトルv_nを各要
素が相互に相関していない新たなベクトルw_nへと変換す
る無相関マトリックスＤを発生する。

ブロック78で用いる特定の無相関マトリックスＤは、
ベクトルv_nを、発展用データベース内のデータから発生
された共分散マトリックスの固有値へと解くものであ
る；つまり、w_nの各要素は異なる固有ベクトルの方向に
位置したv_nの成分を表している。最も高い固有値に対応
したw_nの要素が音素の認識にとって最も重要である一
方、最も低い固有値に対応した要素が最も少ない重要性
を持つと考えられる。

ブロック80で表されたステップでは、発展システムに
よって計算された20の最も高い固有値に対応したw_nの20
要素だけを選択する、すなわちw_nの中で「最も重要な」
20の要素だけを選択した後、ブロック82に示すように、
これら20要素の外積z_nを形成する。一方、ブロック84で
表したステップでは、154の最も低い固有値に対応した
要素を捨てることによって170要素のベクトルがw_nから
形成され、その後ブロック86に示すように、x_nがz_nと連
結されて、新たな380要素のベクトルa_nを形成する。つ
まり、追加の非線形性を導入するが、ベクトル要素の分
別ある選択によって、得られるベクトルを不当に長くす
ることなく導入を行う。

第6C図において、ブロック88は特定の音素、すなわち
「ｈ］音に関連した無相関とモデル化を表す。数学的に
言うとこのステップは、ベクトルa_nと単一ベクトルＫ
^ｈ″とのスカラー乗算からなる。Ｋ^ｈ″は、それぞれベ
クトルa_nの各要素と対応した複数の要素で構成されてい
る。Ｋ^ｈ″の各要素は、a_nの対応要素が「ｈ］音素を特
徴付ける度合を表している。Ｋ^ｈ″はトレーニングプロ
セス中に無相関マトリックスから発生される「核」ベク
トルで、a_nとＫ^ｈ″の乗算は数学的に、a_nと無相関マト
リックスを最初に乗算した後、得られた無相関ベクトル
と核とをスカラー乗算することに等しい。

前述したように、非線形モデル化の利点の大半は、第
6B図のブロック80〜86で表された第２の一連の外積ステ
ップを行わなくとも得ることができる。このような単純
化したシステムでは、Ｋ^ｈ″を形成するのに使われた無
相関マトリックスがブロック78に示したマトリックスＤ
と同じで、別個の無相関ステップ78は必要なく、ブロッ
ク76の出力が直接ブロック88に入る。

ブロック88から得られるスカラーX^h _nは、ベクトルa_n
を生じた音が「ｈ］音であった尤度と関連している。ブ
ロック90は、X^h _nから「尤度比」への変換を表し、これ
はその尤度をより直接的に表す量である。要するに、候
補の単語やフレーズのサーチに際して、単語／フレーズ
判定器14（第１図）が候補の単語やフレーズの成分音素
の尤度比を乗算し、その単語やフレーズに関する確率に
達する。計算を簡単にするため、ブロック90で表したス
テップでは尤度比の対数Y^h _nを計算し、Y^h _nを単語／フレ
ーズ判定器14に与え、これが加算によって「乗算」す
る。本明細書において「推定」と呼ぶことにしたのが、
この対数である。

Y^h _nはX^h _nの多項式の値として計算され、その各定数は
発展プロセス中に得られ、「ｈ］音を特徴付けるもので
ある。すなわち、多項式の定数は次の２つを含むブロッ
ク90に記した各値を有する；（１）「ｈ」音素を含まな
い抽出受領フィールドから得られた発展（「トレーニン
グ」）音声データ中におけるX^h _nの下付き数字０でラベ
ル付けされている平均（ミューμ）と標準偏差（シグマ
σ）、及び（２）「ｈ」音素を含む抽出受領フィールド
から得られた発展音声データ中におけるX^h _nの下付き数
字１でラベル付けされている平均と標準偏差。

母音と最後の子音についての処理は、最初の子音につ
いて第6A〜6C図に示した処理と実質上同じである。受領
フィールドの抽出における差は別として、母音と最後の
子音の処理は最初の子音の処理と比べ２つの点で異な
る。第１は、固定パラメータの正規化と無相関用の各ブ
ロック72、78で使われるパラメータが異なる。何故な
ら、これらのパラメータはデータベース内の最初の子音
用サブセットからでなく、母音と最後の子音用サブセッ
トから発生されるからである。第２は、発展システムの
議論から明かとなる理由から、ブロック80と84で表され
たようその選択が異なる。

ブロック90及びその他の音素用の対応したブロックの
出力に基づいて、単語／フレーズ判定器14がサーチルー
チンを実行し、話されたと見込まれる単語及びフレーズ
を見つける。前にも述べたように、本発明は音素の識別
に関するものなので、単語／フレーズ判定器14の動作は
詳しく説明しない。従って、製品システムについての説
明はこれで終る。

発展システム：概括次に、第１〜６図に示した製品システムで使われる各
種のパラメータを得る方法について見る。第１〜６図の
製品システムは、前もって求められた正規化ベクトル、
無相関及びモデル化マトリックスを用い未知の音声に対
して動作し、それが含んでいる音素を判定する。第７〜
11図に示した発展システムは既知の音声及び関連の音素
に対して動作し、無相関及びモデル化マトリックスを計
算する。

トリガー発生マトリックスの計算第7A、7B、7C及び7D図は、第４図のブロック46で表し
たステップで使われ、Ｖ及びＦトリガーを発生するＶ″
及びＦ″トリガーマトリックスを計算するための発展シ
ステム装置の一部を示す。発展システムは既知音声に関
する多量のデータベースを持ち、それを第３図に示した
のと同等な処理に付す。この処理の出力が、一連のＭ個
の24要素ベクトルp_mである。第7A及び7B図に示したプロ
セスの目的は、音素認識のヒューマン「システム」の数
学的モデルを得て、一連のp_mとのスカラー乗算によって
あるクラスの音素が生じた尤度を示すスカラー（第４図
のq_mまたはr_m）を生じるマトリックスを発生することに
ある。

一般に、ベクトルp_mの要素間には相関性が存在する。
しかし前述したように、入力の各要素が無相関とされた
とき最良のモデルがもたらされる。そのため、生のp_mを
使う代わりに、第7A図の装置ではブロック92に示すよう
に、各要素が相互にあるいはシーケンス中の前のベクト
ルq_m-1の要素と相関性を持たない新たなベクトルq_mへと
p_mを変換させるトリガー無相関発生マトリックスD^tを計
算する。ブロック94は、無相関発生マトリックスD^tをp_m
及びp_m-1からなる48要素ベクトルと乗算することによる
無相関動作を表す。（尚ブロック92のステップは、ブロ
ック94のステップが任意の発展データに対して実施可能
となる前に、全ての発展データに対して実施されねばな
らない。）この結果が、24要素のベクトルq_mである。

次の３つのブロックが、システム入力をシステム出力
と相関させ、最良の線形モデルに達するための中心部分
を表している。ブロック96はq_mの７ベクトルシーケンス
からマトリックスr_mを形成し、システムへの入力つまり
少なくとも無相関の入力を構成する。この入力が、第7B
図のブロック98と100で表した２つの並列な核形成ステ
ップにそれぞれ加えらえる。これらの核形成ステップ
で、ブロック102で表したステップで発生されるラベルL
^U _mとL^F _mからなる出力に対して入力r_mが相関させられ
る。このステップでは訓練された聴き手が、そこから各
ベクトルp_mが発生された音声を聴き、その音声が母音ま
たは最初の子音を含むかどうかの指示によってラベル付
けする。また聴き手は、音声が最後の子音を含んでいる
かどうかを指示するラベルも与える。この結果が、L^U _m
とL^F _m値のシーケンスとなる。ブロック102に示すよう
に、これらの値は各々、特定種類の音素が関連の音声内
に含まれていたかどうかに応じて１または０である。こ
れらの値がモデル化すべきシステムの出力となり、ブロ
ック98と100で表した核形成ステップがそれら出力を入
力r_mと相関させる。

すなわち、ブロック98は、24x7マトリックスr_m内の各
要素毎に一つの要素を有するマトリックスＶの形成を表
す。マトリックスＶのある要素を発生するため、各入力
マトリックスr_m内の対応要素が、該当ベクトルのラベル
L^U _mとそのL^U _mの平均との差からなる量と乗算される。こ
うして得られた値が全ての発展データについて加算さ
れ、入力ベクトルの総数で割った結果が核Ｖ用の値Ｖ
_k,1となる。核Ｆも同様に発生されるが、核Ｆを生じる
のに使われる出力はL^U _mでなくL^F _mである。

平均の減算は核の線形部分を表現可能な数値範囲を最
大とし、また第４図のブロック48で使われるしきい値が
平均の除去を許容するように設定されているため、モデ
ル化プロセスの出力ＶとＦに生じる変化は何等の問題も
もたらさない。

最初の子音と母音の両音素用に共通のトリガーを発生
する同じマトリックスを使うことは、当初別々のマトリ
ックスの使用を考えていた初期の研究の成果に基づいて
いる。つまり、２つのトリガーに使われるマトリックス
を調べたところ、それらは本質上同じだが、時間的にず
れていることが判明した。そこで本発明者等は、適切な
時間のずれを含めれば、両トリガーについて一つのトリ
ガーマトリックスを使え、従って計算負担をある程度取
り除けると結論した。

第7C図のブロック104は、各々の核要素からその要素
が属する核の全要素の平均を差し引き、各々の核毎の減
算結果をその核の要素の標準偏差によって割ることによ
る、Ｖ及びＦ核の正規化を表している。この核の正規化
は必ずしも必要でないが、数値上の考慮からここでは含
めた。各々の核の平均は、核形成ステップで使われる入
力と出力両方の平均自体がゼロかゼロに近いため、既に
小さいはずである。つまり、入力の平均は第３図のブロ
ック44で移動平均を除去しているのでほぼゼロであり、
移動平均の窓の巾は核の時間巾のほぼ２倍である。ま
た、出力は前述したように、核の形成時にラベルの平均
の取り除くことでゼロとされている。

次いで第7D図のブロック106に示すように、ブロック1
04の正規化から得られたマトリックスＶ′とＦ′が無相
関マトリックスD_tと結合されて、２つの新たなモデル化
マトリックスＶ″とＦ″を生じる。

こうして得られたマトリックスＶ″とＦ″が第４図の
ブロック46で表したステップで使われ、２つの機能を同
時に実行する。第１の機能は、第7A図におけるp_mから無
相関ベクトルq_mへの変換で、これに基づいて発展モデル
化が行われた。第２の機能は、こうして得られた無相関
ベクトルを正規化後の核Ｖ′とＦ′でモデル化し、指示
された種類の音素が生じたかどうかの指示を発生するこ
とである。この結果、第7B図の核形成ステップ98と100
は７つの無相関ベクトルだけのシーケンスに対して行わ
れるが、第４図のモデル化ステップ46では、７つの無相
関ベクトルの各々が対応した相関ベクトルだけでなく先
行する相関ベクトルからも計算されているため、８つの
p_mのシーケンスに対して行われる。この理由から、ステ
ップ106への入力であるＶ′とＦ′が24x7のマトリック
スである一方、ステップ106の対応した出力は24x8のマ
トリックスとなる。

ここにおいて、第４図のブロック46での遅延を何故３
と定義したかが理解されよう。つまり、このブロック46
は、トリガーマトリックスに入力ベクトルp_m-7...p_mを
スカラー乗算することによって出力q_mとr_mを発生するス
テップである。このステップは暗黙的に、p_m-6...p_mの
無相関シーケンスを発生し、この無相関シーケンスをモ
デル化している。この無相関シーケンスはp_m-3に中心合
わせされているので、ステップ46の遅延は３と見なされ
る。

第7A図のブロック92に表した無相関マトリックスの計
算を、第８図に詳しく示す。第８図において、ブロック
108が一組の共分散の計算を表している。発展データ中
の各ベクトルp_m毎に、p_mの24要素の各々とp_mの外の各要
素との間の共分散が、p_mの各要素と先行ベクトルp_m-1の
各要素との間の共分散と共に計算される。これらの共分
散が第8B図のブロック110に示したベクトル方程式で用
いられ、先行ベクトルp_m-1の全ての要素及び同一ベクト
ルp_mの全ての下方指標要素に基づいて、p_mの第１要素の
値の最良予測を判定する。ベクトルa_lは、p_m-1の全ての
要素及びp_mの全ての下方指標要素に基づく、p_mの第１要
素の最良予測用の係数からなる。すなわち、ｐ_ｌ−1,m
及びp_mの全ての下方指標要素がp_m-1と連結されて新たな
ベクトルを形成すれば、a_lとその新たなベクトルとのス
カラー積がｐ_l,mの最良予測となる。

無相関ベクトルとは、ｐ_l,mとp_m-1の連結からなるベ
クトルとp_mの全ての下方指標要素とのスカラー乗算で、
ｐ_l,mとｐ_l,mの最良予測との差に比例した値を生じるベ
クトルのことである。第8C図のブロック112で表したス
テップは、１＋24要素の長さである各予測ベクトルa
_lを、利得項g_lによる割り算を含む同ブロック内に示し
た式に従って、１＋25要素の長さである無相関ベクトル
ａ′_ｌに変化する。各々の無相関ベクトルａ′_ｌが、相
関ベクトルp_mとp_m-1の連結における要素のサブセットと
乗算されたとき、無相関ベクトルの一要素を生じる。第
8D図のブロック114は、各無相関ベクトルａ′_ｌをゼロ
要素で長くし、p_mとp_m-1の全ての連結との乗算のときに
同一の要素を与える新たなベクトルを生じるステップを
表している。次いで、長くなったベクトルが互換され、
トリガー無相関マトリックスD_tを形成する。ブロック11
2に示した利得g_lで割り算してあるため、第7A図のブロ
ック94における無相関マトリックスD_tの使用は、全ての
要素が時間を通じて単位分散を有する出力q_mを生じる。
第7B図の核形成ステップ、ブロック98と100は単位分散
である分散に依存する。

無相関及びモデル化マトリックスの計算次に、発展システムのうち、「ｈ」音など個々の音素
の認識用マトリックスを発生する部分を示した第９、10
及び11図を参照する。発展システムにおける処理の初期
段階は、製品システムで使われるものと同じである；す
なわち既知の音声が、初期の音声処理のために製品シス
テムで使われる第５及び6A図に示したステップに付され
る。従って、この処理はＶ及びＦトリガーを発生するマ
トリックスの事前計算を必要とし、v_nはＶまたはＦトリ
ガーにより「受領フィールド」として識別されたサンプ
ルグループだけから得られることに留意されたい。

尚以下の議論では、発生されるマトリックスが音素
「ｈ」の存否を指示するのに使われるものであると仮定
する。従って、v_nはＶ（最初の子音または母音）トリガ
ーによって識別された受領フィールドから得られたもの
である。これらのv_nから、ブロック116に示すように、
無相関マトリックスが発生される。ステップ116で生じ
る無相関マトリックスは最初の子音の受領フィールドか
ら発生されるため、一般に第7A図のブロック92で使われ
るトリガー無相関マトリックスと異なる。ブロック116
のステップと並列なステップが、それぞれ母音及び最後
の子音音素のために使われる別の母音用無相関マトリッ
クスと別の最後の子音用無相関マトリックスを発生す
る。

ブロック116に表した特定の処理を、第10図に詳しく
示す。第10図で計算されるマトリックスでは、あるベク
トルv_nにおける個々の要素間の相関性だけが取り除かれ
ており；従ってこの点が、v_nの要素とv_n-1の要素との間
の相関性を何れも取り除いてない第８図のトリガー無相
関マトリックスと比べ特に異なる。こうする理由は、第
８図で無相関化されるp_mの連続マトリックスと異なり、
第10図で無相関化されるv_nの連続マトリックスはそれら
の間に固定の時間関係を持たないからである。

ブロック118は、その要素が最初の子音用の受領フィ
ールドとして識別された発展データのセグメントから得
られたベクトルv_nの各要素間の分散及び共分散である共
分散マトリックスＲの計算を表わしている。ブロック12
0は、共分散マトリックスＲを処理し、第８図で発生さ
れたベクトルａ′_ｌによって実施される機能と同様な機
能を有するベクトルa_lを見いだす手順を示す。実際上、
第10図ではベクトル間の相関性を取り除く試みがなされ
ていない事実を考慮して適切な調整を施せば、一部の実
施例において、第８図に表した一般的な手法を第10図の
方法に代えて使用可能である。しかし、第10図に示した
方法を採用したのは、その結果得られる無相関マトリッ
クスが入力ベクトルを固有ベクトル成分に分解し、従っ
て第6B図のブロック80と84に関連して説明したベクトル
長さの縮小を簡単にするからである。

第10B図のブロック120は、共分散マトリックスＲの固
有値と固有ベクトルを見いだすステップを表している。
この結果が、324個の固有値及び324個の対応した324要
素の固有ベクトルa_lとなる。各固有ベクトルはブロック
122に示すように、それを対応した固有値の平方根で割
ることによって正規化され、新たな固有ベクトルａ′_ｌ
を生じる。各固有ベクトルａ′_ｌは、第９図のブロック
126でv_nとスカラー乗算されると、各要素が相互に何等
の相関性も持たない変換ベクトルw_nの異なる要素をもた
らす。また、正規化ステップ122、及びブロック120用の
特定アルゴリズムが単位ノルムの固有ベクトルを生じる
という事実の結果として、w_nの各要素の分散は単位値と
なる。このためブロック124が示すように、各a_lを転置
し、それをマトリックスの各異なる行として用いること
によって、無相関マトリックスＤを得る。このマトリッ
クスが、ブロック126に示すようにv_nを無相関化するの
に使われ、無相関ベクトルw_nを生じる。

ブロック126の出力w_nは324要素のベクトルである。第
10B図のブロック122で行われる正規化ステップのため、
これら組合せの全ての分散は同じである。しかし、この
ような正規化が存在しないと分散は著しく異なるものと
なり、本発明者等は、音声要素の識別上分散が最小とな
る要素の重要性が最も低いと仮定した。

従って計算の負担を減じるため、ブロック128に示す
ように、ここでは固有値が最も小さい固有ベクトルによ
って発生された154の要素を除去する；すなわち、正規
化前の分散が最も小さかった要素を除去して、170要素
のベクトルx_nをもたらす。同時にブロック130に示すよ
うに、20の「最も重要な」要素を選択し、これらの外積
を計算する。ブロック132に示したこのステップは、20
の「最も重要な」要素の外積は210の追加要素からなる
ことを表す。これらの要素がベクトルz_nを形成し、これ
がブロック134に示すように、x_nと連結されて380要素の
ベクトルa_nを形成する。

ベクトルw_nの要素は無相関化されているが、a_nの要素
は一般的に無相関化されていず、ブロック136は、発展
データから得られたベクトルa_nの全てから第２の最初の
子音用無相関マトリックスＤ′を計算するステップを表
す。この無相関マトリックスは、前述した方法の何れ
か、あるいは入力ベクトルを無相関化する作用素をもた
らす任意の方法で計算できる。こうして計算された第２
の無相関マトリックスＤ′により、ブロック138に示す
ように、各a_nが無相関化されて新たな無相関ベクトルb_n
を発生する。

得られたベクトルb_nは、「ｈ」音素マトリックスを計
算するための第11図に示したプロセスで使われる。これ
は、入力がベクトルb_nで出力が対応したラベルL^h _nであ
るシステムをモデル化するプロセスである。人の観測者
がブロック140で表したステップでラベルL^h _nを発生し、
ｎ番目の受領フィールド内の音声が「ｈ」音素を含むか
どうかを指示する。尚本発明によれば、音声が「ｈ」音
を含むかどうかを指示するラベルを発生するために、観
測者は発展データベース内の全ての音をラベル付けしな
くてもよいことに留意すべきである。つまり観測者は、
最初の子音が生じたセグメントとしてＶトリガーが識別
したセグメントだけを聴くだけでよい。これは、発展す
なわち「トレーニング」作業で必要な時間を大幅に減少
させる。

音素という用語はここで、比較的標準的な方法で使わ
れている。ある言語においては、その言語での任意の発
声で一つを他に置換しても、どちらかの音が使われた単
語またはフレーズの意味が異ならなければ、２つの音が
同じ音素となる。同様に、しばしばそうであるようにこ
うした置換が異なる意味をもたらせば、２つの音が異な
る音素となる。音声の正しい音素によるラベル付けは、
異なる各音素を知っており、しかもそれらを識別するの
に使われる記号体系を教授された訓練を受けている聴き
手によって主に行われねばならない。

しかし、ブロック140でのラベル付けプロセスは前面
的に人によって行われるわけでなく、この点で、本発明
における音素の使用はもっと標準的なその使用とわずか
に異なっている。「音素」のためにここで用いるラベル
は、実際の言語学的音素の識別だけでなく、その環境に
も依存している。例えば、発音された子音がすぐ前に先
行する場合のある言語学的音素に用いる記号は、同じ音
素のすぐ前にそのような子音が先行しない場合に用いる
記号と異なる。ラベル付けプロセスでは一般に、ラベル
付けを行う聴き手が音素の名前だけを入力し、次いでそ
のマークが音素的環境に基づき、発展システムのソフト
ウェアによって自動的に変更される。

核の実際の計算はブロック142に表してある。この計
算は、第7B図のブロック98と100に表した計算と原理上
同じである。ブロック142とブロック98、100の両核形成
ステップ間の明らかな違いは、後者が24x7のマトリック
ス（複数列のマトリックス）をもたらす一方、前者は38
0要素のベクトル（単列のマトリックス）をもたらす点
である。実際上、24x7のマトリックスは、それらが使わ
れるスカラー乗算の目的からすると168要素のベクトル
と見なされ、マトリックス表示は構成要素の出所を便宜
上指示するものに過ぎない。

第11A図とブロック144は、第7C図のブロック104で行
われる正規化と同等の正規化を表し、第11B図のブロッ
ク146に表した結合ステップは、結果的に第7D図のブロ
ック106に表したステップと同等である。つまりこのス
テップは、無相関とモデル化という２つの機能を同時に
実施するマトリックスを生じる。この結果、第6C図のブ
ロック88で表したステップで使われる380要素のベクト
ルK^h″が求められ、モデル化しているベクトルが「ｈ」
音素を含む音声から得られた尤度の指示を発生する。

ラベル付けでの自動的調整以上、音素識別システムの発展つまり「トレーニン
グ」及びそのトレーニング後の動作で使われる重要な手
順を説明してきた。しかし、人の聴き手が音声のセグメ
ントにラベル付けして特定音素の発生を指示するラベル
付けプロセスは、ある程度聴き手の側の判断に委ねられ
ることに留意すべきである。ここで特に重要なのは、い
つ音素が発生したかの判断である。すなわち場合によっ
て、音声認識プロセスのモデル化を行っている聴き手は
ある一つの音声セグメントを、すぐ後に続くセグメント
についての音素含むものとして指示してしまうこともあ
る。勿論、どの音声セグメントにラベル付けするかに関
する聴き手の選択は、トレーニングプロセス中に計算さ
れる各種のマトリックスに影響を及ぼし、一般にシステ
ムの精度にかなりの影響をもたらす。

システムの動作を最適化するために、人によって行わ
れる初期のラベル付けを調整し、製品システムの結果を
向上させることができる。つまりラベル付けは、パラメ
ータの初期計算後に、得られた製品システムを発展デー
タベースに基づいて動作し、その性能を見ることによっ
て改善される。製品システムを発展データベースに基づ
いて動作した後、その結果を調べ、少数の時間セグメン
トしかなくトリガーがＶまたはＦラベルと外れている時
点を見つける。それが見つかったら、ＶまたはＦラベル
をＶまたはＦトリガーで指示されている時点に移動す
る。これは自動的に、すなわちタイミングの不一致が所
定のしきい値より小さいとその都度コンピュータがラベ
ルを移動するように実施可能でもあるし、もしくはＶま
たはＦトリガーで指示された時点が人によって最初にラ
ベル付けされた時点と比べ許容可能であることにラベル
付けする人が同意できる場合にのみＶまたはＦトリガー
を移動できるように、人の介在によっても実施可能であ
る。

かかる操作の結果、データベースが変更される。つま
り、入力として使われる生の音声はトレーニング用に最
初に使われたものと同じだが、ヒューマン式「音素認識
システム」の出力が変更される。この新たなデータベー
スによって、トレーニングプロセスが繰り返され、得ら
れた製品システムを再び動作してその性能を調べる。一
般に、「新たな」製品システムにおけるＶ及びＦトリガ
ーの発生時点は、製品システムのその前の動作における
ものと幾らか異なり、ラベルとトリガータイミングとの
間にはなお幾分かの不一致が存在する。従って、Ｖ及び
Ｆラベルの位置が再度調整される。システムの性能は、
製品システムから生じるタイミング信号がラベル付けす
る人によるＶまたはＦラベルと一致する回数、Ｖまたは
Ｆラベルがタイミング信号を伴わずに発生する回数、及
びタイミング信号がＶまたはＦラベルを伴わずに発生す
る回数から簡単に得られる適切なメリット図式に従って
判断できる。上記の調整プロセスは、システムの性能測
定用のメリット図式がそれ以上改善の余地がなくなるま
で続けられる。

製品システムの一般的ハードウェア前述したように、例示の実施例は別々の機能に分けて
説明したが、これら別々の機能の多くは一般に共通の回
路によって実施される。第12図は、第１〜６図の製品シ
ステムに関連して説明した各機能を実施するための構成
例を示す。第12図では、マイクロフォン148が音声信号
を電気信号に変換する。マイクロフォン回路は、信号の
ダイナミックレンジを制限する自動利得制御（AGC）用
の回路150を任意に含み得る。アナログ／デジタル（A/
D）変換器152が生じたアナログ信号をサンプルし、その
サンプルをデジタル表示に変換する。A/D変換器152はこ
れらのデジタル表示を、信号処理用に特に適した型であ
るのが好ましい第１のマイクロプロセッサ154に加え
る。例えば、通常のサポート回路を備えたTMS32020マイ
クロプロセッサが使える。マイクロプロセッサ154は、
プログラミングを記憶するための読取専用メモリ（RO
M）156と中間結果を記憶するための読み／書きメモリ
（RAM）を備えている。マイクロプロセッサ154は、トリ
ガー発生の全てと、音素認識用の処理全てを実行する。
従って、マイクロプロセッサ154の出力がトリガー信号
と、そこから受領フィールドが形成される縮小データ表
示q_mとなる。

これらの出力が別のマイクロプロセッサ160によって
受け取られ、マイクロプロセッサ160はマイクロプロセ
ッサ154と同じ型で、同様に読取専用メモリ162と読み／
書きメモリ164を備える。但し、読取専用メモリ162内の
プログラムは読取専用メモリ156内のものと比べ、マイ
クロプロセッサ160の方が残りの音素識別を実行し、そ
の出力が各音素に関する尤度比の対数となる点で異なっ
ている。

同じく読取専用メモリ168と読み／書きメモリ170を備
えた更に別のマイクロプロセッサ166は一般に、モトロ
ーラ社の68000シリーズマイクロプロセッサの一つなど
汎用目的のマイクロプロセッサである。マイクロプロセ
ッサ166は単語／フレーズ判定を実行し、マイクロプロ
セッサ166から発生される結果に従って機能するホスト
プロセッサ172と一般に交信する。

このようなシステムのメモリ要求は、その特定のパラ
メータに依存する。メモリ156と158は合計約14キロバイ
トを必要とする一方、メモリ162と164は合計200キロバ
イトを必要とする。マイクロプロセッサ166は単語とフ
レーズのライブラリを必要とするので、メモリ168と170
の容量は約１または２メガバイト程度である。勿論、第
12図の構成はハードウェア構成の一提案に過ぎず、本発
明の教示は第12図と大きく異なるハードウェアによって
も実施できる。

代替実施例前述したように、本発明の教示は例示の実施例とかな
り異なる装置においても実施可能である。事実本発明者
等は、何れかのトリガーの発生の度に、（第２図のプロ
セッサ24、26及び28に対応した）音声要素プロセッサの
全てを動作する装置によって、改善された結果を得た。
すなわちこの装置では、第２図の最後の子音用プロセッ
サ28に対応した回路が、Ｆトリガーの発生だけでなく、
Ｖトリガーの発生によっても動作する。同じく、最初の
子音及び母音用プロセッサ24と26に対応した回路も、Ｖ
トリガーの発生だけでなく、Ｆトリガーの発生によって
も動作する。従って、第２図のブロック図に対応したブ
ロック図は、第13図のブロック図の形へと単純化され
る。

第13図において、タイミングプリプロセッサ18、音声
要素プリプロセッサ20、及びトリガー発生器22は全て前
と同様に動作する。但し、トリガー発生器22の出力、つ
まりＶ及びＦトリガーは図中のORゲート176で表された
動作で論理和が取られ、その結果得られたトリガーが音
声要素プロセッサ178に与えられる。

下記の３つの例外を除き、音声要素プロセッサ178は
第２図の３つのプロセッサ24、26及び28の組合せと同等
である。第１の例外は、プロセッサ178内の処理回路が
全ての音素について同じトリガー信号を受け取ること、
すなわちそれらの処理回路全てがORゲート176から生じ
るトリガーを受け取ることである。第２の違いは、第14
図のブロック180で表した抽出ステップが、第6A図のブ
ロック64、66及び68で表した受領フィールドの抽出を置
き換えられることである。第14図に示すように、３クラ
スの音素（すなわち最初の子音、母音及び最後の子音）
用の別々の受領フィールドを使う代わりに、第13及び14
図の実施例では、全てのクラスの音素についてベクトル
q_m-14〜q_m-6から成る単一種類の受領フィールドを用い
る。

第３の違いは、最初の非線形化ステップから得られる
ベクトルv_nが無相関マトリックスＤで無相関化される第
6B図のブロック78に関連している。前述の実施例では、
異なるクラスの音素について別々の無相関マトリックス
を用いた。従って、同じベクトルv_nを３つ別々の104,97
6要素のマトリックスと実時間で乗算可能でなければな
らなかった。代替実施例では、全種類の音素について一
つの無相関マトリックスが使われるので、任意のあるベ
クトルv_nに対し単一マトリックス乗算が必要なだけであ
る。

無相関マトリックスＤは第１実施例の対応するマトリ
ックスＤと同じく、発展システムの無相関マトリックス
計算を表したブロック116（第9A図）で発生される。し
かし、得られる無相関マトリックスは、第１実施例の対
応マトリックスと比べ次の２つの理由から異なる。第１
の理由は、ブロック116が第6A図の回路から受け取るベ
クトルv_nが、第6A図に示した受領フィールドからでな
く、第14図に示した受領フィールドから得られることで
ある。第２の理由は、第２実施例のブロック116が、ラ
ベル付けプロセス中に３クラスのうち１つに属するもの
として識別されたv_nだけの代わりに、ラベル付けプロセ
ス中に３クラスのうち任意のものに属するとして識別さ
れた全てのv_nを受け取ることである。

この変更実施例は、極めて計算集約的な無相関計算の
一部を取り除くため、計算時間を減少する。本発明者等
は、更に製品システムの精度が高められることを見いだ
した。

第15図は、製品システムの構成の更なる単純化を示
す。第15図の構成ではタイミングプリプロセッサが省か
れ、そのトリガー発生器182がその代わりに音声要素プ
リプロセッサ20の出力を受け取る。第15図の構成での音
声要素プロセッサ184は、第13図の構成での音声要素プ
ロセッサ178と同じく、一つのトリガー信号だけを受け
取り、第14図の受領フィールド抽出ステップが行うのと
同じ方法で受領フィールドをアセンブルする。

しかし、第15図のトリガー発生器182は前例のトリガ
ー発生器より簡単である。つまり、広いクラスの音素を
モデル化する代わりに、あるセグメント内にそのセグメ
ントが理解可能な音声を含むのに充分なエネルギーが存
在したかどうかを判定するだけである。

第16図に示すように、トリガー発生器182は、第５図
の音声要素プリプロセッサからベクトルq_mの第１要素ｑ
_0,mを受け取って、そのベクトルの第１要素が所定のし
きい値を越えたかどうかを判定する。第１要素ｑ_0,mは
音声要素のパワーを示し、しきい値は弱い音声から生じ
るパワーより低いが、ほとんどの非音声間隔中のパワー
より高いレベルに設定される。ブロック186はこのしき
い値設定を表す。ブロック188は、そのパワーがしきい
値を越える第３のセグメント毎のトリガー発生を表す。
３セグメントの間隔を選んだのは、意味のない音の持続
時間は３セグメントより短く生じるからである。次い
で、こうして得られたトリガーが前述のごとく音声プロ
セッサをトリガーするのに使われる。

残りの動作は、前の構成の場合と同様である。第13及
び14図の構成と同じく、第15図の構成は第6B図のブロッ
ク78のステップで一つの無相関マトリックスを用い、そ
こで最初の非線形化ステップから得られたベクトルv_nが
無相関マトリックスＤによって無相関化される。但し、
第15及び16図の構成で使われる無相関マトリックスは、
それが他の例で用いられるより選択的なトリガーの使用
の代わり、第16図に示したエネルギーレベルトリガーの
使用によって選ばれるベクトルから発生されるために、
幾らか異なっている。

想像できるように、第15及び16図の構成は、前述した
構成よりも多い音声要素を、音声要素プロセッサ184に
よって処理可能とするものである；つまり一つのエネル
ギーレベルトリガーは、既知の音声要素についてモデル
化されたトリガーマトリックスよりも少ない音声要素を
取り除く。従って、音声要素プロセッサ184は、全ての
音声要素が非常に低い多くの出力を生じる。第１図の単
語／フレーズ判定器14は各出力について、全ての推定が
低いかどうかを判定する。低ければ、単語／フレーズラ
イブラリ16に問い合わせず、出力を中断する。換言すれ
ば、単語／フレーズ判定器14が出力を予備選択し、意味
のある音声を含んでいると思われない出力を除去する。
本発明者等のシミュレーションは、この単純な型のシス
テムでも満足し得る結果を与えることを示している。

上記の説明から明らかなように、本発明の教示は前記
実施例と比べさまざまな点で異なる各種の実施例で使用
できる。例えば前にも指摘したように、トリガープリプ
ロセッサ及び音声要素プリプロセッサに関連して述べた
データ縮小シーケンスは例示に過ぎず、識別すべき音声
を特徴付ける情報を保持しながら、不必要なデータの多
くを取り除くように設計された他のシーケンスで置き換
えることもできる。

更に、両実施例ではＶ及びＦトリガーを生じるのに別
々のモデル化マトリックスを用いたが、第２の実施例で
は明らかに一つのマトリックスを使用してもよい。ま
た、１または２種類のトリガー及び１または３種類の受
領フィールドを用いたが、一部の実施例では上記と異な
る数のトリガー及び受領フィールドを用いる方が望まし
いことも実証されている。

非線形モデル化の使用を、音声要素の処理に関連して
だけ例示し、トリガー処理に関連しては例示しなかった
が、そのような非線形モデル化をトリガー処理にも使え
ることは明かである。勿論、ここで説明した非線形モデ
ル化は、モデル化非線形要素の可能な多くの選択のうち
の一例に過ぎない。

従って、本発明の教示が広い範囲の装置に適用でき、
当該分野における顕著な進歩を表していることは明らか
であろう。

【図面の簡単な説明】

第１図は本発明の教示を用いた音声認識システムのブロ
ック図；第２図は第１図の音素推定器をより詳しく示す
ブロック図；第３図は第２図のタイミングプリプロセッ
サをより詳しく示すブロック図；第４図は第２図のトリ
ガー発生器をより詳しく示すブロック図；第５図は第２
図の音声要素プリプロセッサをより詳しく示すブロック
図；第6A、6B及び6C図は併せて第２図の音声要素プリプ
ロセッサをより詳しく示すブロック図を構成する；第7
A、7B、7C及び7D図は併せて発展システムのうち、第３
図のトリガー発生器で使われるトリガーマトリックスを
発生する部分を示すブロック図を構成する；第8A、8B、
8C及び8D図は併せて第7A図の無相関マトリックス計算を
より詳しく示すブロック図を構成する；第９図は第9A及
び9B図間の空間的関係を示す図；第9A及び9B図は併せて
発展システムのうち、第6A、6B及び6C図の音声要素プリ
プロセッサで使われる無相関マトリックスを発生し、且
つ該プリプロセッサにおける更なる処理のためのベクト
ル要素を選択する部分を示すブロック図を構成する；第
10A及び10B図は併せて、第9A図における第１の最初の子
音用無相関マトリックス及び固有値の計算をより詳しく
示すブロック図を構成する；第11図は第11A及び11B図間
の空間的関係を示す図；第11A及び11B図は併せて発展シ
ステムのうち、第6A、6B及び6C図の音声要素プリプロセ
ッサで使われるモデル化マトリックスを計算する部分の
ブロック図を構成する；第12図は第１〜９図に示した音
声認識システムのハードウェアの例示具体例；第13図は
本発明の別の実施例の音素推定器のブロック図；第14図
は別の実施例の受領フィールドを示すブロック図；第15
図は本発明の更なる実施例のブロック図；及び第16図は
第15図の実施例のトリガー発生器のブロック図である。 10……音声認識装置、18……モニター手段、20、24、2
6、28……信号処理手段、22……トリガー発生器。

フロントページの続き (56)参考文献米国特許5027408（ＵＳ，Ａ) 欧州特許286035（ＥＰ，Ｂ１) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 11/00 G10L 15/02 G10L 21/02

Claims

(57)【特許請求の範囲】

【請求項１】音声を処理する方法が、 A.音声信号を受信するステップ、 B.音声信号を一連のデジタル量に変換するステップ、 C.前記デジタル量に一連のデジタル処理を施すステップ
であり、前記ステップが、出力が複数個の要素から成る
ベクトルであり且つ入力が前の処理ステップのベクトル
出力を含む、一連のベクトル処理ステップを含み、この
一連のベクトル処理ステップが、入力ベクトルの要素の
累乗及び異なる要素間の積を計算し、この様にして計算
して得られた結果と前記入力ベクトルの要素とを要素し
て含むベクトルを作り出す第１の非線形演算ステップ
と、この第１の非線形演算ステップにより作り出された
ベクトルの要素の累乗及び異なる要素間の積を計算し、
この計算して得られた結果と前記第１の非線形演算ステ
ップにより作り出されたベクトルの要素とを要素とする
ベクトルを作り出す第２の非線形演算ステップとを含
む、一連のデジタル処理を施すステップ、そして D.前記一連のベクトル処理ステップのベクトル出力をモ
デル化して、音声が複数の音声要素の各々を含む尤度に
関係している音声要素推定信号を発生するステップから
成る方法。
【請求項２】前記モデル化するステップが、前記音声要
素推定信号として、音声が複数の音素の各々を含む尤度
に関係する音素推定信号を発生することを特徴とする請
求項１記載の方法。
【請求項３】前記モデル化するステップでモデル化され
る一連のベクトル処理ステップのベクトル出力が、前記
第２の非線形演算ステップにより作り出されたベクトル
を含む請求項１記載の方法。
【請求項４】前記モデル化するステップが、前記音声要
素推定信号として、音声が複数の音素の各々を含む尤度
に関係する音素推定信号を発生することから成る請求項
３記載の方法。
【請求項５】前記第１の非線形演算ステップが、前記入
力ベクトルとして、複数の異なる音声区間ベクトルの要
素を含むベクトルを用いる請求項１記載の方法。
【請求項６】前記モデル化するステップが、前記音声要
素推定信号として、音声が複数の音素の各々を含む尤度
に関係する音素推定信号を発生することから成る請求項
５記載の方法。
【請求項７】前記モデル化するステップでモデル化され
る一連のベクトル処理ステップのベクトル出力が、前記
第２の非線形演算ステップにより作り出されたベクトル
を含む請求項５記載の方法。
【請求項８】前記モデル化するステップが、前記音声要
素推定信号として、音声が複数の音素の各々を含む尤度
に関係する音素推定信号を発生することを含む請求項７
記載の方法。
【請求項９】前記第１の非線形演算ステップが、前記入力ベクトルの要素の累乗及び異なる要素間の積を
要素とするベクトルを各要素が相互に相関していないベ
クトルへと変換するステップを含み、前記第２の非線形演算ステップが、前記変換によって得られたベクトルの要素の累乗及び異
なる要素間の積を計算し、この様に計算して得られた結
果と前記変換によって得られたベクトルの要素とを要素
とするベクトルを作り出すことから成る請求項５記載の
方法。
【請求項１０】A.前記第１の非線形演算ステップによっ
て得られたベクトルを各要素が相互に相関していないベ
クトルへと変換するステップが、前記第１の非線形演算ステップによって得られたベクト
ルの各要素間での共分散マトリックスを計算し、この共
分散マトリックスから各固有値及び各固有ベクトルを求
め、各固有ベクトルを、前記第１の非線形演算ステップ
によって得られたベクトルとスカラー乗算することによ
り行われ、 B.前記変換によって得られたベクトルの要素の累乗及び
異なる要素間の積を計算するステップが、前記共分散マ
トリックスから得られた固有ベクトルの内最も高い固有
値に係る固有ベクトルとのスカラー乗算により得られた
要素のみを使用して、前記要素の累乗及び異なる要素間
の積の計算が行われることを特徴とする請求項９記載の
方法。
【請求項１１】A.音声信号を受信するステップ、 B.この音声信号を一連のデジタル量に変換するステッ
プ、 C.前記デジタル量に一連のデジタル処理を施すステップ
であり、このステップが、出力が複数個の要素から成る
ベクトルであり且つ入力が前の処理ステップのベクトル
出力を含む一連のベクトル処理ステップを含み、この一
連のベクトル処理ステップが、入力ベクトルとして複数
の異なる音声区間ベクトルを含む非線形演算ステップを
含み、前記非線形演算ステップが、異なる音声区間ベク
トルの要素の３次以上の積を要素として含むベクトルを
算出する、一連のデジタル処理を施すステップ、 D.一連のベクトル処理ステップで算出された前記ベクト
ルをモデル化して、音声が複数の音声要素の各々を含む
尤度に関係する音声要素推定信号を発生する、音声処理
方法。
【請求項１２】前記モデル化するステップが、前記音声
要素推定信号として、音声が複数の音素の各々を含む尤
度に関係する音素推定信号を発生することを特徴とする
請求項11記載の方法。
【請求項１３】前記モデル化するステップでモデル化さ
れた一連のベクトル処理ステップのベクトル出力が、前
記非線形演算ステップによって算出されたベクトルを含
む請求項11記載の方法。
【請求項１４】前記モデル化するステップが、前記音声
要素推定信号として、音声が複数の音素の各々を含む尤
度に関係する音素推定信号を発生することを特徴とする
請求項13記載の方法。
【請求項１５】音声信号を受信するのに適合された音声
プロセッサであり、 A.音声信号を一連のデジタル量に変換する手段、 B.前記デジタル量に一連のデジタル処理を施すための手
段であり、前記デジタル処理が、出力が複数個の要素か
ら成るベクトルであり且つ入力が以前の処理ステップの
ベクトル出力を含む一連のベクトル処理ステップを含
み、この一連のベクトル処理ステップが、入力ベクトル
の要素の累乗及び異なる要素間の積を計算し、この様に
して計算して得られた結果と前記入力ベクトルの要素と
を要素とするベクトルを作り出す第１の非線形演算ステ
ップと、この第１の非線形演算ステップにより作り出さ
れたベクトルの要素の累乗及び異なる要素間の積を計算
し、計算して得られた結果と前記第１の非線形演算ステ
ップにより作り出されたベクトルの要素とを要素とする
ベクトルを作り出す第２の非線形演算ステップとを含
む、一連のデジタル処理を施すための手段、及び C.前記一連のベクトル処理ステップのベクトル出力をモ
デル化して、音声が複数の音声要素の各々を含む尤度に
関係している音声要素推定信号を発生する手段から成る
音声プロセッサ。
【請求項１６】前記モデル化する手段が、音声要素推定
信号として、音声が複数の音素の各々を含む尤度に関係
している音素推定信号を発生する手段から成る請求項15
記載の音声プロセッサ。
【請求項１７】前記モデル化する手段においてモデル化
された一連のベクトル処理ステップのベクトル出力が、
前記第２の非線形演算ステップにより作り出されたベク
トルを含む請求項15記載の音声プロセッサ。
【請求項１８】前記モデル化する手段が、前記音声要素
推定信号として、音声が複数の音素の各々を含む尤度に
関係する音素推定信号を発生することから成る請求項17
記載の音声プロセッサ。
【請求項１９】前記第１及び第２の非線形演算ステップ
の内の少なくとも一つのステップが、入力ベクトルとし
て、複数の異なる音声区間ベクトルを含むことから成る
請求項15記載の方法。
【請求項２０】前記モデル化する手段が、音声が複数の
音素の各々を含む尤度に関係する音素推定信号を発生す
ることから成る請求項19記載の音声プロセッサ。
【請求項２１】前記モデル化する手段においてモデル化
される一連のベクトル処理ステップのベクトル出力が、
前記第２の非線形演算ステップにより作り出されたベク
トルを含む請求項19記載の音声プロセッサ。
【請求項２２】前記モデル化する手段が、前記音声要素
指定信号として、音声が複数の音素の各々を含む尤度に
関係する音素推定信号を発生することを含む請求項15記
載の音声プロセッサ。
【請求項２３】前記第１の非線形演算ステップが、入力ベクトルの要素の累乗及び異なる要素間の積を要素
とするベクトルを、各要素が相互に相関していないベク
トルへと変換するステップを含み、前記第２の非線形演算ステップが、前記変換によって得られたベクトルの要素の累乗及び異
なる要素間の積を計算し、この様して計算して得られた
結果と前記変換によって得られたベクトルの要素とを要
素とするベクトルを作り出すことから成る請求項15記載
の音声プロセッサ。
【請求項２４】A.前記第１の非線形演算ステップによっ
て得られたベクトルを、各要素が相互に相関していない
ベクトルへと変換するステップが、前記第１の非線形演算ステップによって得られたベクト
ルの各要素間での共分散マトリックスを計算し、この共
分散マトリックスから各固有値及び各固有ベクトルを求
め、各固有ベクトルを、前記第１の非線形演算ステップ
によって得られたベクトルとスカラー乗算することによ
り行われ、 B.前記変換によって得られたベクトルの要素の累乗及び
異なる要素間の積を計算するステップが、前記共分散マ
トリックスから得られた固有ベクトルの内最も高い固有
値に係る固有ベクトルとのスカラー乗算により得られた
要素のみを使用して、前記要素の累乗及び異なる要素間
の積の計算が行われることを特徴とする請求項23記載の
プロセッサ。
【請求項２５】音声を受信する様に適合された音声プロ
セッサが、 A.音声信号を一連のデジタル量に変換するための手段、 B.このデジタル量に一連のデジタル処理を施す手段であ
り、このデジタル処理が、出力が複数個の要素から成る
ベクトルであり且つ入力が前の処理ステップのベクトル
出力を含む一連のベクトル処理ステップを含み、この一
連のベクトル処理ステップが、入力ベクトルとして複数
の異なる音声区間ベクトルを含む非線形演算ステップを
含み、これらの音声区間ベクトルの内の一つのベクトル
の各要素は、同じ音声区間ベクトルの別の要素によって
表されるものと同じ音声時間区間を表しているが、前記
複数の音声区間ベクトルの内の異なるベクトルの要素に
よって表される音声時間区間とは異なっている音声時間
区間を表しており、前記非線形演算ステップが、異なる
音声区間ベクトルの要素の３次以上の積を要素として含
むベクトルを算出する、一連のデジタル処理を施す手
段、及び C.一連のベクトル処理ステップで算出された前記ベクト
ルをモデル化して、音声が複数の音声要素の各々を含む
尤度に関係する音声要素推定信号を発生する手段から成
る音声プロセッサ。
【請求項２６】前記モデル化する手段が、前記音声要素
推定信号として、音声が複数の音素の各々を含む尤度に
関係している音素推定信号を発生するための手段を含む
請求項25記載の音声プロセッサ。
【請求項２７】前記モデル化する手段でモデル化された
一連のベクトル処理ステップのベクトル出力が、前記非
線形演算ステップによって算出されたベクトルを含む請
求項25記載の音声プロセッサ。
【請求項２８】前記モデル化する手段が、前記音声要素
推定信号として、音声が複数の音素の各々を含む尤度に
関係している音素推定信号を発生する手段を含む請求項
27記載の音声プロセッサ。