JP3299408B2

JP3299408B2 - 動的特徴を使用した音声認識方法及び装置

Info

Publication number: JP3299408B2
Application number: JP07122695A
Authority: JP
Inventors: ラヒト・ライ・バール; ピーター・ヴィンセント・デソウザ; ポナン・ゴパラクリッシュナン; ミカエル・アラン・ピッチェニー
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1994-06-20
Filing date: 1995-03-29
Publication date: 2002-07-08
Anticipated expiration: 2017-07-08
Also published as: EP0689193A1; SG43736A1; US5615299A; JPH086587A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声認識に関するもの
であり、更に詳しく云えば、隣接した音素（ｐｈｏｎ
ｅ）又はフェノン（ｆｅｎｏｎｅ）が如何に近接した間
隔で１つの発音内に位置づけられているかに基づいて動
的に変化する特徴抽出技法を使用した音声認識システム
及び方法に関するものである。その特徴抽出プロセス
は、その発音における音素の変化率に応答して修正さ
れ、従って、従来の技法よりも更に効果的な音声モデル
化を可能にする。

【０００２】

【従来の技術】言語処理では、ワードを一連の音声素子
にセグメント化することは、音声学者にとって一般的な
ことである。それら音声素子は国際音声字母（Internat
ionalPhonetic Alphabet ）から選択される。音素は、
トレーニングした言語学者が１つにワードのうちの異な
る音響セグメントとして認識することができる比較的小
さいワード・セグメントである（例えば、ｉ、ｅ、ａ
ｅ、ｓはすべて音素を表す）。典型的には、言語学者は
１つのワードに耳を傾け、自らの経験に基づいて連続部
分とそれぞれの音声素子とを照合し、１つの発音された
ワードの適当な表音式綴りを決定する。

【０００３】そのような音声シーケンスは標準的な辞書
に用いられている。又、音声シーケンスは、一般的に
は、音声認識に適用されており、特に、ヒドン・マルコ
フ・モデル（以下、「ＨＭＭ」と呼ぶ）を利用した音声
認識に適用されている。ＨＭＭ音声認識の場合、種々の
音声素子がそれぞれのＨＭＭによって表される。その場
合、各ワードが一連の音素ＨＭＭに対応する。

【０００４】１つの音素のサブエレメントがフェノンで
ある。フェノンは、トレーニングされた聞き手でもそれ
らの発生を必ずしも認識し得ないほど急速に変化するこ
とが多い。例えば、ワード「ｂｅａｔ」が発音される
時、音素は「ｂ」、「ｅ」、及び「ｔ」として認識され
る。各音素におけるフェノンは急速に変化し、単一の音
素は、一連のいくつかのフェノンであるとみなすことが
できる。ワード「ｂｅａｔ」における音素「ｔ」はいく
つかのフェノン、例えば５つのフェノンを含むことが可
能である。

【０００５】音素及びフェノンのようなサブワード構成
ブロックを使用したことによる重要な成果は、比較的少
量のデータを使用して自動音声認識システムがトレーニ
ング可能であるということである。トレーニング・デー
タは、各ワードのいくつかのサンプルの代わりに、各音
素又はフェノンのサンプルを含む必要があるだけであ
る。しかし、各音素が文脈依存性又は調音結合（co-art
iculation)の効果に関係なく独立してモデル化される場
合、その結果生じる音響モデルは、１つの音素の発音が
隣接の音素に依存するという事実のために不正確となる
ことがある。

【発明が解決しようとする課題】

【０００６】従って、本発明の目的は、射影を動的に変
化させる音声認識方法及びシステムを提供することにあ
る。

【０００７】本発明のもう１つの目的は、隣接の音素又
はフェノンに関する当該音素又はフェノンの位置に基づ
いて特徴抽出を行うことによって、より正確な音声認識
を行う非常に有用な方法及び装置を提供することにあ
る。

【０００８】

【課題を解決するための手段】本発明の１つの音声エン
コーディング技法の実施例は、Ｎ個の異なる主判別マト
リクスのセットを利用する。各主判別マトリクスはそれ
ぞれ独特のクラスと関連しており、そのクラスは隣接の
音声部分に対する当該音声部分の近似度を表すものであ
る。その音声エンコーディングの技法は、音声信号を一
連のフレームの形に配列することを含む。各フレームに
対する音声信号を表すパラメータ・ベクトルが取り出さ
れる。いくつかの隣接したパラメータ・ベクトルを結合
することによって、各フレームに対して１つの結合した
パラメータ・ベクトルが発生される。Ｎ個の異なる主判
別マトリクスの各々にそれら結合したベクトルを掛け算
することによって、各フレームに対してＮ個の異なる射
影されたベクトルのセットが発生される。この音声エン
コーディング技法は、音声認識システムにおける使用に
十分適する。

【０００９】

【実施例】下記の特殊な構成、数値、及び他のパラメー
タは、本来、説明上のものであって、技術範囲を限定す
ることを意図するものではない。本発明は、フェノン及
び音素を同じように利用することが可能である。

【００１０】以下では、詳細に後述する本発明の一実施
例の技法を使用し得る音声信号処理システムの詳細な説
明を行う。

【００１１】図１は音声認識システム３９のブロック図
である。その自動音声認識システム３９は２つの主要な
サブシステム、即ち、音響プロセッサ４２及び言語デコ
ーダ４３を含む。音響プロセッサ４２のタスクは、発話
（話し手によって発声された音声信号４０により表され
る）に応答して、各時間フレームに対して、特徴ベクト
ルと呼ばれる５０次元ベクトル４４を発生することであ
る。５０次元ベクトルのパラメータ値の各々は多次元座
標システムで配列される。このプロセスは特徴抽出とも
呼ばれる。音響プロセッサ４２の機能及びオペレーショ
ンは、図２を参照して、以下で更に詳細に示すことにす
る。言語デコーダ４３は５０次元ベクトル４４を受け取
り、ワードを作成する。図１には、２つのタイプの言語
デコーダが示される。第１のタイプの言語デコーダ４１
ａは認識装置４６ａを介して５０次元ベクトル４４を直
接に処理し、ワード・シーケンスを出力する。このタイ
プのデコーダは連続的パラメータＨＭＭを使用する。第
２のタイプの言語デコーダ４１ｂはベクトル量子化器４
８を利用して、先ず、５０次元ベクトルをラベル５０に
変換し、しかる後、それらラベルが認識装置４６ｂに入
力されて、そこからワード・シーケンスを出力させる。
その第２のタイプの言語デコーダ４６ｂは別々のＨＭＭ
を使用する。

【００１２】言語デコーダ４３は、各フレームに対して
その音響プロセッサ４２からの出力を利用し、ベクトル
量子化器４８からのラベルのシーケンス又は５０次元特
徴ベクトル４４のシーケンスを与えられた最大の事後確
率(posteriori probability)を持つワード・シーケンス
〈Ｗ〉を見つけようとする。言語デコーダは別々のワー
ドの蓋然性あるモデルとしてＨＭＭを利用し、最大の確
率を生じるワード・シーケンスを選択する。

【００１３】言語デコーダのオペレーションは次のよう
な音声認識の基本方程式によって指定される。

【数１】

【００１４】但し、Ｗはその語彙からの任意のワード・
シーケンスであり、Ａは観察されたラベル又は特徴ベク
トルのシーケンスである。この方程式における最終的な
相等は確率に関するベイズの法則及びＰｒ(Ａ)がＷに無
関係であるという事実に従っている。そのようにして得
られた最適なデコーダは、シーケンス・エラー率を最小
にする。

【００１５】この方法は、音響チャネル確率Ｐｒ(Ａ／
Ｗ)及び言語事前確率Ｐｒ(Ｗ)を推定するための蓋然性
あるモデルを必要とする。本発明の１つの観点は、音響
チャネル確率Ｐｒ(Ａ／Ｗ)の決定である。

【００１６】図２に動作的に示される音響プロセッサ４
４は、アナログ音声信号をサンプルし、Ａ／Ｄ変換及び
他の信号処理ステップを遂行して、その音声信号のディ
ジタル表示を発生する（典型的には、アナログ信号は同
期的態様で、毎秒２万回サンプルされる）。フレームと
呼ばれる規則的な間隔で（典型的には、１／１００
秒）、１ブロックのディジタル化した音声が高速フーリ
エ変換６６ステップ（以下、「ＦＦＴ」と呼ぶ）を使用
してその周波数ドメインに変換され、種々の周波数帯域
におけるスペクトル・エネルギのベクトルを発生する
（ステップ６８）。周波数帯域の数は、典型的には２０
である。ステップ６６及び６８は、各時間フレーム当た
り１回遂行される。

【００１７】選択的なものとして、人の耳のモデル７０
を使用して異なる周波数帯域６８が更に変換される。そ
の耳のモデルの概念は、周波数帯域の強度が変化する
時、人の耳は実際に生じた音の強度とは異なる音の強度
を知覚するであろうと云う実感に基づいている。例え
ば、特殊な周波数における信号の突然のステップ増加
（更に大きい強度）がある場合、人の耳は、そのステッ
プの始めでは、わずかな時間の後よりも高い強度を知覚
するであろう（たとえ、両方の時間フレームがすべての
検出可能な周波数帯域にわたって等しい強度を持つとし
ても）。その耳のモデル７０は、或周波数の信号の動的
特性がその耳によって知覚される方法に関連し、そして
人の耳が各時間フレーム及び各周波数帯域に対する信号
の強度を検出する方法を表すモデルを作る。それ以上の
処理はすべて種々のスペクトル・エネルギ６８又は耳の
モデル７０に基づくものであり、ベクトル６８又は７０
が利用される時にはいつも２０コンポーネントのベクト
ル７２とみなされる。２０コンポーネント・ベクトル７
２の周波数範囲は、典型的な人の耳が検出できる周波数
範囲のそれにほぼ対応する。

【００１８】いくつかの、しかし、すべてではない音響
プロセッサ４２は、多くの２０コンポーネント・ベクト
ル（通常は、考察した２０コンポーネント・ベクトルの
前の４つの２０コンポーネント・ベクトル及びそれの後
の４つの２０コンポーネント・ベクトル）を結合して、
１つの結合した（又は、１８０コンポーネント）ベクト
ル７４を生じさせる。そこで、その結合したベクトルは
射影され（即ち、同じプロセスに対して別の用語を使用
すれば、回転させられ）、図１及び図２に示された５０
次元の特徴ベクトル４４を発生する。５０次元の（射影
された）特徴ベクトル４４を得るプロセスは、５０＊１
８０マトリクスであって且つ後述のようにして取り出さ
れた主判別マトリックス７６に１８０コンポーネントの
（結合した）ベクトル７４を掛け算して５０次元の（結
合した）ベクトル４４を生じさせることに関連する。そ
の５０次元の特徴ベクトルは、直ちに図１の言語デコー
ダ４３によって利用される。結合を使用しない音響プロ
セッサでは、２０コンポーネントのベクトルが他の下位
次元のスペースに直接に射影可能であり、その場合、射
影されたベクトル４４は２０又はもっと少ない次元を持
つであろう。

【００１９】音響プロセッサ４２によって発生された特
徴ベクトル、又は図１のベクトル量子化器４８によって
発生されたラベルは、ＨＭＭのアークに沿って出力とし
て発生可能な同じベクトル又はラベルである。アーク確
率及び出力確率がトレーニングプロシージャ時に割り当
てられた後、発音が１つのＨＭＭ又は一連のＨＭＭ（そ
のシーケンスは音素又はワード・ベースフォームに対応
する）に対応する可能性を決定するための認識プロシー
ジャがそれに続くであろう。即ち、特徴ベクトルＶ₁Ｖ₂
Ｖ₃・・・・又はラベルｆ₁ｆ₂ｆ₃・・・・等が、複数の
連続した音声期間の間、音響プロセッサ又はベクトル量
子化器によって発生されたとすれば、１つのＨＭＭ又は
一連のＨＭＭの各パスを通して進行しそして特徴ベクト
ルＶ₁Ｖ_2Ｖ ₃・・・・又はラベルｆ₁ｆ₂ｆ₃・・・・の特
殊ストリングを発生する可能性を決定することが可能で
ある。１つの語彙における１つのワードに対してこの計
算を行うことはそのワードの可能性を測定するものであ
る。

【００２０】一般的には、音響プロセッサが効率的にな
ればなるほど、音声認識システムは信頼性が高くなる。
ワードの構成部分を定義するために音声学者（及び音素
の代表的な適用例）を信頼することは、その結果とし
て、モデル化を任意なものにし、ワードのベースフォー
ム（即ち、ワード形成する構成部分のシーケンス）の一
様性に不足を生じることがあることがわかった。

【００２１】Ａ．ベクトル量子化図１の２０又は５０コンポーネントの特徴ベクトル４４
が量子化器４８を通して送られてラベルを発生させる音
声認識システムをこの項で説明する。ベクトル量子化器
４８に続くＨＭＭベースの認識装置４６ｂは、そのラベ
ル・ストリームを与えられる可能性が最も高いワード・
シーケンスを計算する。典型的には、その音声認識シス
テムの新しい各ユーザに対する登録プロセスの一部分と
して遂行される認識装置のトレーニングは、通常は、Ｋ
平均クラスタリングのような反復手順及び順方向・逆方
向アルゴリズムを使用してＨＭＭ遷移及び出力確率を見
積ることによるＶＱプロトタイプの計算を伴う。

【００２２】座標空間として音声を見ると、各ラベルは
Ｎ次元空間における別々のクラスタを識別する。但し、
Ｎは、ベクトル・コンポーネントの数に対応する整数で
ある。音声入力に対して、音響プロセッサは、各ラベル
が別々の音声期間に対応する一連のラベルを発生する。
基本的には、音響プロセッサは音声入力を、連続したフ
レームで発生される連続した特徴ベクトルに変換し、連
続した特徴ベクトルの各々にラベルを割り当てる。決定
されたクラスタを識別するラベルが、そのフレームに対
する出力として与えられる。

【００２３】Ｂ．結合され射影された特徴ベクトルを利
用するベクトル量子化一般に、結合され射影された特徴ベクトルを利用するベ
クトル量子化器は、ベクトル量子化プロセスにおいて、
単一ベクトルを利用するベクトル量子化器よりも更に正
確なラベルを発生する。結合され射影されたベクトルを
生成しそしてそれらとラベルを関連づけるステップを以
下で説明する。それらステップを遂行する場合、多数の
話し手に対するトレーニング・データが、結合されたベ
クトルを使用した既存のワード・ベースフォームに抗し
て収集されそして配列される（音声認識システムにおい
てはよく知られ、本願ではこれ以上詳述しない「ビター
ビ（Ｖｉｔｅｒｂｉ）配列」による）ものと仮定する。
好ましくは、既存の各ベースフォームは一連の音素ＨＭ
Ｍ又はフェノニック（ｆｅｎｏｎｉｃ）ＨＭＭである。
本願では、用語「ベクトル」及び「パラメータ・ベクト
ル」は同義語である。下記のステップ１乃至５は学習プ
ロセス記述し、射影された特徴ベクトルを構成する方法
を記述する。残りのステップは、入力される逐語的発話
を認識するために、図１の音声認識装置がそのトレーニ
ングされ、結合され、射影された特徴ベクトルを使用す
る方法に関するものでる。

【００２４】ステップ１：トレーニング・データにおけ
る各２０コンポーネントのベクトル（「標準」ベクトル
としても知られている）に対して、考慮中の２０コンポ
ーネントのベクトルの各々をＫ個の先行ベクトル及びＫ
個の後続ベクトルと連結して１８０コンポーネントのベ
クトルを形成することによって、新しい１８０コンポー
ネントのベクトル作成する。Ｋ＝４を使うことが最もよ
く動作することがわかっている。ステップ２：ビタービ配列を使用して、各時間フレーム
に対し、元の２０コンポーネントのベクトルの時間フレ
ームと整列した音素又はフェノンの名前でもってその対
応する１８０コンポーネントのベクトルをタグ付けす
る。従って、結合されたベクトルは、音声字母又はフェ
ノン字母における音素又はフェノンの１つに割り振られ
る。ステップ３：ステップ２において決定された音素のタイ
プ又はフェノンのタイプを区別するためのＰ個の（典型
的には、５０個の）最も相互に相関しない主判別マトリ
クスを、その結合されたパラメータ・ベクトルを使用し
て計算する。即ち、Ｍ個の音素又はフェノンのタイプか
ら取り出されたＮ個の結合されたベクトルを考察する。
ｋ番目のベクトルのうちのｉ番目の素子をｘ_ikと表すこ
とにする。そこで、データＳのサンプル共分散マトリク
スが次のように定義される。

【００２５】

【数２】但し、ｘ_i はｉ番目の素子のサンプル平均を示す。音素
又はフェノンのタイプｉにおけるベクトルの数をｎ_i と
表すことにする。そこで、サンプルのクラス内の共分散
マトリクスＷは次のように定義される。

【数３】但し、Ｗ_i は音素又はフェノンのタイプｉにおけるデー
タのサンプル共分散マトリクスである。クラス相互間の
相違を最大にするために、比（ｖ'Ｓｖ／ｖ'Ｗｖ）を最
大にし且つ相互に相関しない線形判別関数ｖが求められ
る。必要なベクトルは、マトリクスＷ^-IＳのうちの最初
のＰ個の固有ベクトルとして得られる。これらは、マト
リクスの行として配置され、それにより主判別マトリク
スが得られる。ステップ４：計算された主判別マトリクスを使用して、
１８０コンポーネントのベクトルをＰ次元ベクトルに射
影し、その射影されたベクトルを、対応する１８０コン
ポーネントのベクトルの音素又はフェノンでもってタグ
する。ステップ５：個々の各音素又はフェノンに対して、Ｐ次
元の射影されたベクトルの各々の平均及び平方偏差を計
算する。これら平均及び平方偏差は対角ガウスのプロト
タイプ・マトリクスで形成され、結合された射影された
特徴ベクトルをラベル付けする場合に使用される。従っ
て、各プロトタイプは,それと関連した音素ラベル又は
フェノン・ラベルを有する。

【００２６】従って、ラベルに対するプロトタイプを計
算してしまうと、新しいデータは次のようにラベル付け
される。ステップ６：通常の方法で２０コンポーネントのベクト
ルを得る。ステップ７：ステップ１において前述したように、２０
コンポーネントのベクトルを連結することによって１８
０コンポーネント・ベクトルを作成する。ステップ８：ステップ３において得られた主判別マトリ
クスを使用して１８０コンポーネントのベクトルをＰ次
元ベクトルに射影する。ステップ９：ステップ５の対角ガウスのプロトタイプを
使用して回転ベクトルをラベル付けする。即ち、所与の
回転ベクトルに対して、その可能性を最大にするプロト
タイプを見つけ、そのプロトタイプと関連したラベルを
出力する。

【００２７】Ｃ．射影の使用に関するコメントエネルギ６８のスペクトル又は耳のモデル７０（それら
の両方ともコンポーネント・ベクトル７２であると考え
られる）は、特殊なスペクトル周波数によってカバーさ
れる周波数範囲内のフレームにおける時間波形のエネル
ギに対応した複数個の値を含む。例えば、母音は低い周
波数範囲におけるそれらのエネルギの殆どを発生する傾
向があり、それによって、それらの２０コンポーネント
のベクトルにおける低い周波数範囲にそれらのエネルギ
の殆どを集中させる。それに比べて、摩擦音は、それら
のエネルギの殆どを高い周波数において発生する。各２
０次元ベクトルは、そのフレームにおける音声信号の瞬
間的な特徴に関する情報を含んでいる。動的な特徴は、
いくつかの連続したフレームに対するベクトルを利用す
ることによって得ることが可能である。

【００２８】９個の連続した２０コンポーネントのベク
トル７２が一緒に結合されて１８０コンポーネントのベ
クトル７４を形成する。連続した１８０コンポーネント
のベクトルにはスペクトルの特徴のオーバラップがあ
る。そのオーバラップのうちのいくつかを除去するため
に、従って、結合されたベクトルにおける冗長性を減少
させるために、各ベクトルは、５０＊１８０マトリクス
をそのベクトルに乗ずることによって低い次元（例え
ば、５０次元）空間に射影される。この射影マトリクス
の行は主判別マトリクスである。本願を通して使用され
る用語「主判別マトリクス」は用語「固有ベクトル」と
同義であり、それと相互交換可能であると考えられる。
１８０コンポーネントのベクトルは、各１８０コンポー
ネントのベクトルに主判別マトリクスを掛け算すること
によって処理される。

【００２９】上記の説明では、すべての結合されたベク
トルに対して一定のウインドウ・サイズ及び一定の射影
が仮定された。適当な音声認識システムが５０個の主判
別マトリクスのコンパイルによって機能することができ
る。同じ発音の射影された値も、理論的には、同じでな
ければならない。しかし、発音及び雑音における相違の
ために、同じ発音が異なる人によって、又は異なる時間
に同じ人によって行われた時、その射影された値にわず
かな相違があるであろう。結合ベクトル・ステップ１８
の１８０コンポーネントのベクトルは、図１に示された
ようなベクトル量子化器を通して動作する場合、５０次
元ベクトル４４又はラベル５０を発生するために射影さ
れる。

【００３０】発音の変化率に従ってウインドウ・サイズ
を修正することが望ましい。音素又はフェノンがいくつ
かのフレームに対して同じままであるその信号の部分の
間、その音素又はフェノンの静的特性のより良い評価を
与えるために、一緒に結合されたフレームのウインドウ
Ｗのサイズを拡大することが望ましい。しかし、音素又
はフェノンが急速に変化する簡単な音響的事象の間、急
速に変化しようとしている先行の又は後続の音素又はフ
ェノンにより簡単な事象の効果を消滅させることを回避
するために、ウインドウＷのサイズを小さくすることが
望ましい。一般的には、ウインドウＷのサイズは、先行
の又は後続の音素又はフェノンの境界の近似度に依存す
ることが望ましい。

【００３１】この動的に変化するウインドウを達成する
ために都合のよい方法は、ウインドウＷを大きく且つ一
定に保つことであるが、その代わりに、動的に変化する
射影を持つことである。ウインドウのサイズを減少させ
ることは、主判別マトリクスの射影マトリクスにおける
値のうちのいくつかをゼロにセットすることに等価であ
る。隣接の音素又はフェノンの近似度に従って、動的に
変化する射影を構成するための方法については後述す
る。ウインドウ・サイズを変化させることは、この技法
の特別なケースである。

【００３２】次に、前述の音声信号処理システムに適用
可能な本発明の音声信号処理システムの一実施例を説明
する。

【００３３】フェノン字母をτ＝（１，２，・・・・，
Ｆ）と表し、ラベル字母をφ＝（１，２，・・・・，
Ｌ）と表す。各フェノンｆ∈τに対して、図３に示され
たタイプの簡単なＨＭＭがある。そのモデルは、２つの
状態、即ち、σ＝［ｆ,１］及びσ＝［ｆ,２］を有す
る。但し、第１インデックスはフェノンｆを表し、第２
インデックスはそのフェノンの最初及び最後の状態を表
す。σ＝［ｆ,１］からσ＝［ｆ,２］への１つのヌル遷
移があり、ｐ(ｆ,ｎ)によって表される。但し、記号ｎ
はヌルを表す。２つの出力発生の遷移（実線）があり、
ψ＝［ｆ,ｓ］及びψ＝［ｆ,ｄ］によって表される。記
号ｓは自己ループを表し、σ＝［ｆ,１］からσ＝［ｆ,
１］への遷移を表す（それは、フェノンが同じままであ
るワード発音における期間にそのモデルを適応させ
る）。記号ｄは直接パスを表し、σ＝［ｆ,１］からσ
＝［ｆ,２］への遷移を表す。ＨＭＭのパラメータは次
のような３つの遷移確率、

【数４】ｐ(ｆ,ｎ)；ｐ(ｆ,ｓ)；ａｎｄｐ(ｆ,ｄ) 及び次のような２つの出力分布

【数５】ｑ(ｆ,ｓ,ζ) ａｎｄｑ(ｆ,ｄ,ζ), ζ∈ξ である。数式（４）及び（５）におけるパラメータはフ
ェノニック・パラメータである。

【００３４】Ｆ個の基本的フェノニックＨＭＭが数式
（４）及び（５）において定義される場合、ワード、音
素、音節等のようなそれぞれの音響単位がモデル化され
るために、フェノニックＨＭＭを構成することが可能で
ある。そのような音響単位の各々に対して、多数のラベ
ル・シーケンス、即ち、Ｙ₁，Ｙ₂，・・・、Ｙ_N がトレ
ーニング・データのサンプルから抽出され、これら観察
されたラベル・シーケンスを最もよくモデル化するフェ
ノンＢのシーケンスが探索される。観察されたラベル・
シーケンスのセットを生成する最高の確率を持ったフェ
ノン・シーケンスＢは、次のように記述可能である。

【数６】

【００３５】すべての可能なフェノン・シーケンスＢ_j
における上記最大化はスタック・サーチ手順を使用して
実行される。そのシーケンス法は、考察された音響単位
に対するフェノン・ベースフォームと呼ばれる。

【００３６】例えば、ワードは音響単位であると仮定す
る。その場合、各ワードｗに対するフェノニック・ベー
スフォームは、次のような長さＮ(ｗ)の線形シーケンス
によって表される。

【数７】Ｂ(ｗ) ＝［ｆ(ｗ,１)，ｆ(ｗ,２)，・・・
・，ｆ(ｗ,Ｎ(ｗ))］但し、各フェノンｆ(ｗ,ｉ)はＦ内にある。この表記で
は、第１インデックスはワードｗを表し、第２インデッ
クスはベースフォームにおける位置を表す。ｗに対する
ワードＨＭＭは、Ｂ(ｗ)において存在する基本的フェノ
ンＨＭＭを連結することによって構成される。ワードＨ
ＭＭの例が図４に示される。このモデルの状態は、ｉ＝
１，２，・・・、Ｎ(ｗ)＋１に対してσ＝［ｗ,ｉ］に
よって示される。その場合、インデックスはワード及び
ワード内の位置をそれぞれ表す。最後の状態位置インデ
ックスが値Ｎ(ｗ)＋１を有することに留意してほしい。
このモデルを通した直接路はそのワードの平均的発音を
表すように構成されなければならず、一方、ループ又は
ヌル遷移は、話し手により発音をそれぞれ長くしたり或
いは短くすることを可能にする。

【００３７】音声処理と関連した２つの関連プロセスが
ある。第１のプロセスは、既知の入力が音響プロセッサ
に読み込まれる時にパラメータが学習される「学習プロ
セス」である。第２のプロセスは、学習プロセス後に遂
行される「認識プロセス」であり、そのプロセスでは、
未知のワードが音声入力プログラムに読み込まれ、発音
されたものと同等な英数字が表示される。

【００３８】１つの関連特許は、１９９１年１２月１０
日発行の米国特許第５,０７２,４５２号である。認識プ
ロセス及び学習プロセスの両方に関連する本願の図５を
参照すると、音響プロセッサ２０２に入る音声入力が示
される。音声入力は音響波形の形のものである。例え
ば、２００個のラベルＬ１，Ｌ２，Ｌ３，・・・・，Ｌ
２００（別々の言語デコーダが使用されるものと仮定す
る）の字母のパラメータ又はベクトル（連続した言語デ
コーダに対する）は音響プロセッサ２０２に記憶され
る。

【００３９】ラベルを連続フレームに割り当てるプロセ
スのための音響波形を作成する場合、音声アナログ波形
がディジタル化され、タイム・インターバルが生成さ
れ、そしてその分野では周知のように、ディジタル信号
が高速フーリエ変換を通して送られる。音響プロセッサ
２０２の出力はラベルｆ₁ｆ₂ｆ₃ｆ₄・・・等及び特徴ベ
クトルｙ₁ｙ₂ｙ₃ｙ₄・・・等を含む。換言すれば、各フ
レームに対応した特徴ベクトル及びラベルが音響プロセ
ッサから出力される。

【００４０】音響プロセッサ２０２からのラベルｆ₁ｆ₂
ｆ₃ｆ₄・・・等はベースフォーム・トレーナ２０４に入
る。ベースフォーム・トレーナ２０４は、各ワード・ベ
ースフォームにおけるＨＭＭに適用されるべき確率を決
定するために使用される。この場合、各「ワード・ベー
スフォーム」は、規定されたシーケンスのＨＭＭを表
す。各ＨＭＭは、アーク確率及びラベル確率としてメモ
リに記憶される。

【００４１】それら確率は、既知のテキストが発声され
るトレーニング期間中に計算される。その既知のテキス
トに対して、１つの対応した既知のＨＭＭシーケンスが
ある。その既知のテキストが話し手によって音響プロセ
ッサ（例えば、プロセッサ２０２）へ発声される時、ラ
ベルのストリングが生成される。よく知られたフォワー
ド・バックワード・アルゴリズムを使用することによっ
て、アークに対する確率及びＨＭＭの非ヌル・アークに
おいて発生されたラベルに対する確率がベースフォーム
・トレーナ２０４によって計算される。ベースフォーム
・トレーナ２０４によって計算された確率統計はベース
フォーム構成装置２０６に入る。そのベースフォーム構
成装置２０６は、各ワードに対するＨＭＭのシーケンス
を決定する。各ワードに対するＨＭＭのシーケンス及び
ＨＭＭの各非ヌル・アークに対するアーク確率及びラベ
ル出力確率は、ベースフォーム辞書２０８に記憶され
る。

【００４２】更に詳しく云えば、ベースフォーム・ディ
クショナリ２０８は次のようなタイプのデータ項目を記
憶する。ＮＮＯＤＥＳ_x ＝ｘワード・ベースフォームにおけるノ
ードの数。ＮＩＤ_ij ＝ｉ番目のワード・ベースフォームにおける
ｊ番目のノードのノード識別子。ＮＴ_ij ＝ノードＮＩＤ_ij からのアーク（遷移）の数。Ｔ_ijk ＝ノードＮＩＤ_ij からのアーク（遷移的）の
数。Ｓ_ijk ＝アーク（遷移）Ｔ_ijk に対する統計ポインタ

【００４３】トレーニング中、ベースフォーム・データ
（即ち、ＨＭＭシーケンス及び確率統計）及び連続的な
音声期間に対応した特徴ベクトルがラベル再指定装置２
１０に入る。ラベル再指定装置２１０は、ワード・ベー
スフォーム構成時に生成されたデータに基づいてそれら
ラベルと関連したプロトタイプ・ベクトル及びクラスタ
を再定義する。

【００４４】図５の装置の動作は、ベースフォームを
「成長」させる４つの主要なステップを示した図６に表
される。トレーニング期間中、ワードは既知の順序で発
声され、ラベルのストリングは、「ワード・ベースフォ
ームを成長させるステップ」３０２における発音に応答
して生成される。照合プロシージャ・ステップ３０４
（「ビタービ配列を得る」として参照される）では、ト
レーニング・テキストの発音に応答して生成されるラベ
ルの連続的なサブストリングがワード・ベースフォーム
における各ＨＭＭと関連づけられる。従って、トレーニ
ング・テキストにおいて発音された第１ワードにおける
第１ＨＭＭに対して、整列したラベル・サブストリング
がある。第２ＨＭＭに対しては、第２サブストリングが
あり、そのプロセスは、すべてのＨＭＭが第２サブスト
リングを持つまで継続する。

【００４５】各ラベルはプロトタイプ・ベクトルに対応
する。各ラベルは、音声の期間中に入力された特徴ベク
トルと各プロトタイプ・ベクトルとを比較することによ
って選択される。最も近接したプロトタイプ・ベクトル
のラベルがそのフレームに割り当てられる。ＨＭＭのセ
ットにおける各ＨＭＭはラベル字母におけるラベルに対
応し、好ましくは、発音ベースのＨＭＭよりも簡単な構
造を有する。フェネミック（ｆｅｎｅｍｉｃ）ＨＭＭが
図３に示されている。「フェニーム（ｆｅｎｅｍｅ）」
は、「ラベル」に対する別の表記である。更に詳しく云
えば、図３のフェノンτのフェネミックＨＭＭは２つの
状態、［ｆ,１］及び［ｆ,２］を有する。１つの非ヌル
・ループは、状態［ｆ,１］から延びてそれ自身に戻
る。１つの非ヌル・ループは状態［ｆ,１］から状態
［ｆ,２］に延び、ヌル・アークは状態［ｆ,１］から状
態［ｆ,２］に延びる。３つのアークの各々は、ｐ(ｆ,
ｓ)、ｐ(ｆ,ｄ)、及びｐ(ｆ,ｎ)が後続するそれぞれの
確率を有する。

【００４６】図６において、ステップ３０２のベースフ
ォームは、好ましくは、フェネミックＨＭＭのシーケン
スであり、ビタービ配列ステップ３０４は各フェネミッ
ク・モデルとラベルとの関連づけに関するものである。
ステップ３０４では、所与のＨＭＭと整列させられ且つ
関連づけられたラベルが識別される。ラベル（フェネミ
ックＨＭＭに対応する）が取り出される特徴ベクトルも
識別される。各フェネミックＨＭＭに対して、それと関
連した０個、１個、２個、又はそれ以上の特徴ベクトル
がある。ステップ３０６では、各フェネミックＨＭＭに
対して識別された特徴ベクトルが平均値及び共分散値を
推定するために結合される。

【００４７】各フェネミックＨＭＭに対する計算された
平均値及び共分散値は、ステップ３０８に従って入力音
声データを再ラベル付けする場合に使用される。更に詳
しく云えば、所与の音声間隔に対応したラベルを選択す
る場合、それのために生成された特徴ベクトルがその平
均値に比較され、その共分散値が各ラベルに対して指定
される。即ち、ラベルｊに対応したフェネミックＨＭＭ
に対する平均値及び共分散値は、入力された特徴ベクト
ル及びラベルｊの間の距離を決定するために使用され
る。簡単に云えば、各ｊ番目のラベルは、そのｊ番目の
ラベルに対応したフェネミックＨＭＭの平均値及び共分
散値に基づいて再指定されるラベルの新しい仕様が図３
の音響プロセッサ２０２に入れられる。音響プロセッサ
２０２はその再指定されたラベルに基づいて音声をラベ
ル付けする。

【００４８】Ｄ．ラベル／フェノン字母音素は長さが規則的に変化することがある。例えば、ワ
ード「ｂｅａｔ」は音素ｂ，ｅ、及びｔを含む。「ｂ」
及び「ｔ」は比較的速く発音される音素であり、一方、
音素「ｅ」は他の２つのものよりもずっと長く引き伸ば
される。音素「ｂ」及び「ｔ」の短い期間にわたる特徴
ベクトルは、音素「ｅ」の比較的長い期間にまたがる特
徴ベクトルよりも変化のないことも真である。

【００４９】トレーニング・データがトレーニング・ス
クリプトの発音表示に揃えられているものと仮定する。
話された言葉における音素が如何に速く変化しようとし
ているかを決定するために、ラベル／フェノン字母が使
用される。そのラベル／フェノン字母は、各ラベル又は
フェノンと関連したクラス及び基本的フェノンのセット
より成る。クラスは、音素が如何に速く変化しようとし
ているかに関する表示を与える。次のようなクラス（１
乃至６）は各音素にタグ付けされる。このセグメントを
音素のタグ付けに関連して説明するけれども、フェノン
のタグ付けに同様のステップを適用することも可能であ
る。

【００５０】１．フレームＦがＭフレーム以下の期間を
有する音素に属する場合、その音素における各フレーム
に対してタグを１にセットする。そうでない場合、ステ
ップ２に進む。Ｍに対する妥当な値は５である。Ｍは、
比較的短い音素の上側の期間を定義する値である。２．フレームＦのウインドウが先行の音素にｎフレーム
以上だけ重畳する（そのウインドウには両方の音素の特
性がある）場合、タグの値を２にセットする。換言すれ
ば、音素ウインドウにおける最初の１つ又は２つのフレ
ームのタグ値は２にセットされるであろう。そうでない
場合、ステップ３に進む。ｎに対する妥当な値は３であ
る。３．ウインドウが後続の音素にｎフレーム以上だけ重畳
する（そのウインドウには現在の音素及び後続の音素の
両方の特性がある）場合、フレーム・タグを６にセット
する。そうでない場合、ステップ４に進む。４．ウインドウが先行の音素に一部でも重畳する場合、
タグを３にセットする。そうでない場合、ステップ５に
進む。５．ウインドウが後続の音素に一部でも重畳する場合、
タグを５にセットする。そうでない場合、ステップ６に
進む。６．タグを４にセットする。

【００５１】図形的には、Ｍ＝５及びｎ＝３の場合の９
フレームのウインドウに対して、単一の音素の発音と関
連したタグが下記の表１に示されるように構成可能であ
る。表１及び上記記述は、ラベル／フェノン字母を構成
する方法に関して説明することを意図しており、技術範
囲を限定することを意図するものではない。単一の音素
が４フレームより少なく続く時、それら特徴ベクトル
は、更に長い期間の音素よりもこれらのフレームの期間
にわたってもっと変化のないものと仮定する。従って、
比較的長い期間の間続く音素は、それらの期間にわたっ
てかなり変動する傾向がある。

【表１】

【００５２】上記の技法に続いて、比較的遅い話し手に
より行われ発音に対して出力されたタグは、比較的速い
話し手によって行われた同じ言葉の発音に比べると異な
るであろう。例えば、遅い話し手が「Ｍａｒｙ」の
「Ｍ」を発音する時、音素／タグの組合せの連続は次の
ものと同じになるであろう。即ち、Ｍ２Ｍ２Ｍ３
Ｍ３Ｍ５Ｍ５Ｍ６Ｍ６一方、速い話し手が同じ
ワードを発音する時には、その「Ｍ」は、次のように見
える。即ち、Ｍ１Ｍ１Ｍ１Ｍ１

【００５３】音素／タグの組合せは６Ｐ個のカテゴリの
可能な集合体を定義する。但し、Ｐは音素の数である。
その６Ｐ個のカテゴリの各々を別々の音響事象として扱
うことは、サイズ６Ｐ（ラベルの数に対応する）の音響
的字母に通じる。各カテゴリと関連したフレームは、ラ
ベル・プロトタイプを構成し得る所与のラベルのサンプ
ルとして関連する。これらラベルとの１対１の対応でフ
ェノン又は音素を通常の方法で定義することは、６Ｐ個
のフェノンの字母に通じる。

【００５４】Ｅ．主判別を利用したウインドウ・サイズ
の変更音声の特性に基づくウインドウの動的変更を行う本発明
の技法の一実施例は、動的に変化してウインドウの幅を
効果的に変更する主判別マトリクスを使うけれども、ウ
インドウ・サイズを大きいまま保持する。これは、マト
リクスにおけるエントリのいくつかをゼロにセットする
ことによって、主判別マトリクスにおいて達成可能であ
る。

【００５５】次の説明は、前述の６つのタグ・クラスの
各々に対する種々の射影を構成するための技法を与え
る。主判別マトリクスは、次のようにして計算される。１．各フェノンを特定の音素及びタグ（同じ音素が伸び
ているその音素の数に依存する）と関連づけるラベル／
フェノン字母を構成する。これは、本願のラベル／フェ
ノン字母の項において前述したようにして達成される。２．ビタービ配列を使用して、いくつかのトレーニング
・データをトレーニング・スクリプトの音響ＨＭＭと整
列させ、それによって、トレーニング・データの各フレ
ームを、その配列により決定された真のラベルの識別で
もってタグ付けする。ビタービ配列は音声認識システム
においてはよく知られており、ここではこれ以上詳述し
ない。３．ラベル／フェノン字母において表された各個々のフ
レーム・タグに対して、ステップ４及び５を遂行する。４．フレーム・タグＦと関連したステップ２からの真の
ラベルを有するトレーニング・データのすべてのフレー
ムを収集する。５．ステップ４において収集されたフレームのサブセッ
トを使用して、そのデータに存在するラベル・セット
（即ち、フレーム・タグＦと関連したすべてのラベル）
の間を最大限度に区別する主判別マトリクスを計算す
る。

【００５６】ステップ５の終了時には、ステップ１のラ
ベル／フェノン字母で表された各フレーム・タグに対し
て、独特の主判別マトリクス（６個あるであろう）が構
成されているであろう。フレーム・タグＦと関連した主
判別マトリクスは、値Ｆを持ったタグ相互間を区別する
ように最適化される。ラベル／フェノン字母を構成する
方法のために、主判別マトリクスの各セットは、（すべ
ての音素がラベル／フェノン字母の各サブセットＦにお
いて表されるので）すべての生じうる音素相互間を識別
する。

【００５７】各クラスは、詳しく前述したように、音素
境界に関して異なるフレーム位置を表す。その結果、異
なるクラスから異なる主判別マトリクスの射影が生じ
る。従って、主判別マトリクスの射影は音素境界に関し
て種々のフレーム位置で変わる。

【００５８】主判別マトリクスは、次のようなフェノン
・ベースの格子計算中に使用される。Ｘは、時間Ｔにお
ける射影されていない音響ベクトルを示すものとする。
Ａは、Ｘを出力するための候補であるアークを示すもの
とし、そしてＢは、Ａが属するフェノンを示すものとす
る。Ｆは、ステップ１において決定されたフェノンＢと
関連したフレーム位置であるとする。Ｅは、前述の主判
別マトリクス計算のステップ５において構成されたフレ
ーム部分Ｆと関連した主判別マトリクスであるとする。
主判別マトリクスＥを使用してＸを射影し、そしてＹ
(Ａ)はその射影されたベクトルを示すものとする。時間
ＴにおけるアークＡと関連した可能性、即ち、出力確率
は、アーク依存の射影されたベクトルＹ(Ａ)を使用して
通常の方法で決定される。

【００５９】図７は、本発明の音声認識システムの一実
施例のブロック図である。図１の音響プロセッサ４２に
よって発生される単一の５０次元ベクトル４４の代わり
に、図７の実施例は、添字でもってクラスを示された６
個の異なる５０次元ベクトル４４₁、４４₂、・・・、４
４₆ を発生する６個の異なる主判別マトリクスを利用す
る。

【００６０】６個の異なる５０次元ベクトル４４₁乃至
４４₆は図７の音響プロセッサ４２によって発生される
ので、それら５０次元ベクトルの各々を、６個の別々の
ラベルＬ₁乃至Ｌ₆を発生するためのベクトル量子化器４
８に入力することが可能である。６個の相異なる５０次
元ベクトル４４₁乃至４４₆は出力ワード・シーケンス４
７ａを発生するように認識装置４６ａを通して処理可能
であり、６個の相異なるラベルＬ１乃至Ｌ６は出力ワー
ド・シーケンス４７ｂを発生するように認識装置４６ｂ
を通して処理可能である。本発明の音素の更に正確な分
類技法を使用して、その認識装置は、従来技術のシステ
ムにおけるよりも更に正確に機能することができる。

【００６１】５０００ワードの語彙によってカバーされ
る５０個の文を読む話し手に関して、連続的な音声認識
実験が行われた。主判別マトリクスの単一の包括的なセ
ットを、上記のように構成された６セットによって置換
したら認識エラーの数は大きく低下した。

【００６２】ラベル／フェノン字母は、予期し得るエッ
ジ誘導歪みの程度を数量化する技法を与える（例えば、
４の値をタグ付けされるフレームは重畳することがな
い）。本発明の１つの観点によれば、各フレームに対し
て厳しい、或いは軽い、或いはエッジ誘導のない歪みで
もってラベルを分離することによって、優れた音響的モ
デル化が達成される。

【００６３】以上は、１つの音声認識システムの一実施
例を提供するものである。この実施例は、本発明の技術
範囲内に留まったまま修正可能である。本願明細書の記
載は主として音素に関して記述されているけれども、フ
ェノンに基づいて同様の音声認識システムを構成するこ
とも可能である。このため、特許請求の範囲における用
語「音声セグメント」は音素と同様にフェノンもカバー
することを意図するものでる。

【００６４】

【００６５】

【００６６】

【発明の効果】本発明により、プロジェクションを動的
に変化しうる音声認識方法及びシステムが得られる。

【図面の簡単な説明】

【図１】音声認識システムのブロック図である。

【図２】図１に示された音声認識システムによって利用
されるロジックのフローチャートである。

【図３】フェノンのためのヒドン・マルコフ・モデル
（ＨＭＭ）の一実施例を示す。

【図４】ワードに対するＨＭＭの一実施例であって、フ
ェノンのための複数個のＨＭＭが連結されたものを示
す。

【図５】本発明に従って、相互依存してラベルを指定で
き且つＨＭＭワード・ベースフォームを構成できるブロ
ック図である。

【図６】本発明に従って、相互依存してラベルを再指定
し且つＨＭＭワード・ベースフォームを構成する場合に
遂行される一般的なステップを示すフローチャートであ
る。

【図７】本発明の音声認識システムの一実施例のブロッ
ク図である。

───────────────────────────────────────────────────── フロントページの続き (72)発明者ピーター・ヴィンセント・デソウザアメリカ合衆国カリフォルニア州、サン・ノゼ、ビスタ・ループ 6001 (72)発明者ポナン・ゴパラクリッシュナンアメリカ合衆国ニューヨーク州、ヨークタウン・ハイツ、ラドクリッフ・ドライブ 3073 (72)発明者ミカエル・アラン・ピッチェニーアメリカ合衆国ニューヨーク州、ホワイト・プレインズ、ラルフ・アベニュー 118 (56)参考文献米国特許5072452（ＵＳ，Ａ) 米国特許5615299（ＵＳ，Ａ) 欧州特許出願公開689193（ＥＰ，Ａ１) Ｌ．Ｒ．Ｂａｈｌ外４名，ＲｏｂｕｓｔＭｅｔｈｏｄｓｆｏｒＵｓｉｎｇＣｏｎｔｅｘｔ−ＤｅｐｅｎｄｅｎｔＦｅａｔｕｒｅｓａｎｄＭｏｄｅｌｓｉｎａＣｏｎｔｉｎｕｏｕｓＳｐｅｅｃｈＲｅｃｏｇｎｉｚｅｒ，Ｐｒｏｃｅｅｄｉｎｇｏｆ 1994 ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，米国，ＩＥＥＥ，1994年４月19 日，Ｖｏｌ．１，ｐ．Ｉ−533〜Ｉ−536 Ｌ．Ｒ．Ｂａｈｌ外３名，ＣｏｎｔｅｘｔＤｅｐｅｎｄｅｎｔＶｅｃｔｏｒＱｕａｎｔｉｚａｔｉｏｎｆｏｒＣｏｎｔｉｎｕｏｕｓＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ，Ｐｒｏｃｅｅｄｉｎｇｓｏｆ 1993 ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，米国，ＩＥＥＥ，1993年４月27日，Ｖｏｌ．２, ｐ．ＩＩ−632〜ＩＩ−635 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/00 - 15/28 G10L 19/00 G10L 21/02 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】トレーニング・データにおける音声セグメ
ントの変化率に応じて決定されるＮ個の相異なるクラス
とそれぞれ関連づけられ、各該クラスにおける音声セグ
メント相互間を最大限度に区別するＮ個の異なる主判別
マトリクスを作成するステップと、音声信号を一連のフレームに配列するステップと、各フレームに対して前記音声信号を表す特徴ベクトルを
得るステップと、各フレームの特徴ベクトルを、該各フレームに隣接する
フレームの特徴ベクトルと結合して結合ベクトルを得る
ステップと、前記Ｎ個の異なる主判別マトリクスの各々に前記結合ベ
クトルを掛け算することによって各フレームに対するＮ
個の相異なる射影されたベクトルのセットを生成するス
テップと、を含む音声をエンコードするための方法。
【請求項２】トレーニング・データにおける音声セグメ
ントの変化率に応じて決定されるＮ個の相異なるクラス
とそれぞれ関連づけられ、各該クラスにおける音声セグ
メント相互間を最大限度に区別するＮ個の異なる主判別
マトリクスを作成する手段と、音声信号を一連のフレームに配列する手段と、各フレームに対して前記音声信号を表す特徴ベクトルを
得る手段と、各フレームの特徴ベクトルを、該各フレームに隣接する
フレームの特徴ベクトルと結合して結合ベクトルを得る
手段と、前記Ｎ個の異なる主判別マトリクスの各々に前記結合ベ
クトルを掛け算することによって各フレームに対するＮ
個の相異なる射影されたベクトルのセットを生成する手
段と、を含む音声をエンコードするための装置。