JP2543148B2

JP2543148B2 - 音声認識装置を学習させる装置

Info

Publication number: JP2543148B2
Application number: JP63194665A
Authority: JP
Inventors: ラリツト・ライ・バール; ロバート・レロイ・マーサー; デヴイド・ネハモー
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1987-08-10
Filing date: 1988-08-05
Publication date: 1996-10-16
Anticipated expiration: 2011-10-16
Also published as: JPS6466698A; DE3874049D1; EP0303022A3; DE3874049T2; EP0303022A2; CA1332195C; EP0303022B1; US4817156A

Description

【発明の詳細な説明】以下のとおりこの発明を説明する。

A.産業上の利用分野 B.従来の技術 C.発明が解決しようとする問題点 D.問題点を解決するための手段 E.実施例 E1.音声フォーン・マシーンの音声認識システム環境 E2.フィーニーム・フォーン・マシーンの音声認識 E3.フォーン・マシーンの学習 F.発明の効果表１表２ A.産業上の利用分野この発明は、一旦標準話者について学習の行われたマ
ルコフ・モデル音声認識装置の統計量を、後の話者に対
して学習させる装置に関する。

B.従来の技術音声認識の一手法にヒドン・マルコフ・モデル（HM
M）を採用するものがある。HMMは種々の論文で検討され
てきた。たとえば“Continuous Speech Recognition by
Statistcal Methods",F.Jelinek,Proceedings of IEE
E,Vol.64,No4,1976や“A Maximum Likelihood Approach
to Continuous Speech Recognition",L.R.Bahl,F.Jeli
nekおよびR.L.Mercer,IEEE Transactions on Pattern A
nalysis and Machine Intelligence,Vol.PAMI-5,No2,19
83年３月で検討されている。

HMMに基づいて音声認識を行う際には、音響プロセッ
サを用いて音声の一連の間隔を音声の種々の特徴に応じ
て検査する。たとえば、種々のエネルギ周波数帯の各々
の強度が各間隔ごとに決定される。各強度は要素すなわ
ち特徴を表わす。そして要素を結合して特徴ベクトルが
形成される。

音響プロセッサはプロトタイプすなわち標準のベクト
ルの有限集合を規定する。各プロトタイプ・ベクトルは
自己を特定する固有のラベルを有している。各時間間隔
の特徴ベクトルは各プロトタイプ・ベクトルに比較され
る。所定の距離測度に基づいて、最も近いプロトタイプ
が選択される。したがって、各時間間隔に１つのプロト
タイプ・ベクトルが選定され、このプロトタイプ・ベク
トルはその時間間隔の特徴ベクトルを最もよく表わす。
音声が発生されるとき、音響プロセッサはその出力とし
てラベルのストリングを供給する。

マルコフ・モデル音声認識では、マルコフ・モデルの
集合が定義される。典型的にはそのようなマルコフ・モ
デルは音声要素と一対一に対応する。80個の音声要素が
あれば、対応する80個のマルコフ・モデルがある。１つ
の単語の一連の音声要素に対応するマルコフ・モデルを
結合するとその単語についてのマルコフ・モデル・ベー
スフォームを形成する。

各マルコフ・モデルは複数の状態および複数の遷移を
有するものとして特徴付けられる。各遷移はある状態か
ら他の状態へと延びている。少なくともいくつかの遷移
が時間間隔を表わし、この時間間隔に音響プロセッサが
１つのプロトタイプ・ベクトルを選択する。各遷移には
遷移確率があり、所定の場合には出力確率がある。遷移
確率はマルコフ・モデルにおいて所定の遷移が採られる
ゆう度を示す。出力確率は所定の遷移において所定の出
力ラベル（たとえばプロトタイプ・ベクトル・ラベル）
が生成されるゆう度を示す。

状態ｉから状態ｊに延びる所定の遷移A_ijについて、
関連する遷移確率Ｐ（A_ij）が存在する。また200のプロ
トタイプ・ベクトルが存在すれば、関連する200個の出
力確率が存在する。

通常（しかし必須ではない）、連結遷移を伴う骨格状
の状態（確率値が付与されていない）は各マルコフ・モ
デルにつき共通である。

１人の所定の話者について、種々の音声要素に対応す
る種々のマルコフ・モデルは関連する確率値において典
型的には異なっている。動作に際しては、種々の遷移確
率および出力確率が各マルコフ・モデルについて決定さ
れなければならない。

マルコフ・モデルの物理的な構成は「フォーン・マシ
ーン」と呼ばれる。またはマルコフ・モデル・フォーン
・マシーンと呼ばれる。１の音声要素に対応するフォー
ン・マシーンは、遷移確率、出力確率、フォーン・マシ
ーンの形状、どの音声要素を表現するかの識別子および
そのマルコフ・モデルを特徴付ける他の情報をストアす
るメモリ位置を含んでいる。

遷移確率および出力確率をフォーン・マシーンにスト
アできるように決定する過程を学習（training）と呼
ぶ。

典型的には、各話者に応じて別個の組の遷移確率およ
び出力確率が決定されなければならない。すなわち各話
者に応じて音声認識装置は対応するフォーン・マシーン
の組のデータ（遷移確率値や出力確率値）をストアす
る。

学習の慣用的な手法では話者が既知のサンプル・テキ
ストを音響プロセッサに発声入力する。サンプル・テキ
ストは音声要素の既知の系列を表わす。すなわち既知の
対応するフォーン・マシーンの系列である。音響プロセ
ッサは発声入力に応じてプロトタイプ・ラベルのストリ
ングを生成する。既知のサンプル・テキストのプロトタ
イプ・ラベル・ストリングと遷移確率および出力確率の
初期の値の組（この初期の値は実際の音声特性を反映し
ていない）とから改善された確率値を生成する。この生
成を行うには、まずフォワード・バックワード・アルゴ
リズムないしBaum-Welchアルゴリズムを適用して遷移カ
ウントおよび出力カウントを生成し、つぎにそれらカウ
ントから遷移確率および出力確率を新たに導出し、この
導出確率値にさらにフォワード・バックワード・アルゴ
リズムを適用し、さらに多数回の繰り返しを行う。最後
の繰り返し後の確率値をここでは基本遷移確率および基
本出力確率と呼ぶ。

適度に正確な基本確率を生成するには、話者が比較的
長いサンプル・テキスト、たとえば20分に及ぶものを発
声しなければならない。

従来の手法では、話者は各自の音声について学習を実
行するためにそれぞれが20分のサンプル・テキストを発
声しなければならない。

話者ごとに20分の学習時間を要するのは、好ましくな
いしまた不便である。

また、音声認識装置が基本確率を決定するのに20分の
学習テキストにつきフォワード・バックワード・アルゴ
リズムを実行するのに要するコンピューティング量は極
めて多大である。

したがって、話者依存型マルコフ・モデル音声認識に
おける深刻な問題は、話者が長時間テキストを読みあげ
なければならず、また話者ごとフル・テキストをフォワ
ード・バックワード・アルゴリズムで処理することによ
り計算コストが膨大になるということである。

米国特許出願06/845155号には、いくつかの遷移をグ
ループ化して共通の出力確率を用いることが示されてい
る。この場合学習用データの量は少なくなるけれど、依
然話者ごとに学習を行う必要があった。

C.発明が解決しようとする問題点この発明の目的は、標準話者向けに学習の施された音
声認識装置を後の話者向けに迅速に学習させることがで
きる装置を提供することにある。

すなわち、標準話者向けの遷移確率および出力確率が
決定されたのち、後の話者向けの学習統計値が決定され
る。この発明によれば、後の話者が学習用に発声する時
間が減少する。

また後の話者向けの遷移確率や出力確率を決定するの
に要する計算量も減少する。

D.問題点を解決するための手段この発明では、以上の目的を達成するために、（ａ）
標準話者に対して音声認識装置を学習させる際に決定さ
れたデータと、（ｂ）標準話者向けに生成されたデータ
および短かいサンプル・テキストを後の話者が発声する
際に生成されたデータの間の類似関係とを用いている。
標準話者データおよび類似関係データを採用する際の計
算量は、フル学習テキストの発声に応じて生成されるプ
ロトタイプ出力にフォワード・バックワード・アルゴリ
ズムを適用する場合に較べ極めて小さいものとなる。

この発明では、後の話者の各々について状態ｉから状
態ｊへの遷移ごとに対応する遷移確率Ｐ（A_ij）がある
ものと仮定する。この確率Ｐ（A_ij）が計算目標であ
る。またラベルが生成される遷移ごとに多数のラベル出
力確率が割り当てられ、これが計算される。200個の個
有のラベルがあると、非空遷移ごとに通常200個のラベ
ル出力確率がある。したがって状態ｉから状態ｊへの遷
移の各々について（１）遷移確率Ｐ（A_ij）があり、し
たがって（２）各非遷移にｌ番目のラベルを出力する確
率Ｐ（F₂（ｌ）｜A_ij）が存在する。ただしF₂（ｌ）は
後の話者のｌ番目のラベルを表わす。この発明では、状
態ｉから状態ｊへの遷移を複数の並行遷移として再構築
することによって膨大な確力Ｐ（F₂（ｌ）｜A_ij）を見
出すのに要するデータを減少させる。並行遷移の各々の
確率はつぎのようである。

Ｐ（F₁（ｋ）｜A_ij）Ｐ（F₂（ｌ）|F（ｋ））ただしｋは標準話者のＮ個のラベルの１つを表わす。
ｋについて和を採ると、遷移A_ijにおけるｌ番目のラベ
ルのラベル出力確率はである。

上の式を調べると、Ｐ（F₁（ｋ）｜A_ij）の要素が先
行して決定された標準話者用データに対応することがわ
かる。またＰ（F₂（ｌ）｜F₁（ｋ））の要素がコンフュ
ージョン・マトリックスに対応することがわかる。コン
フュージョン・マトリックスは標準話者のラベルと後の
話者ラベルとの間の関係を規定する。コンフュージョン
・マトリックスはＮ×Ｎのマトリックスである（たとえ
ば200個のラベルがある例では200×200）。各エントリ
は後の話者による発声されるラベルｌがどのくらいの確
率で標準話者により発声されるラベルｋに対応するかを
表わす。並行遷移によって拡張されたモデルでは、各遷
移の確率がＰ（F₁（ｋ）｜A_ij）に対応し、出力確率が
コンフュージョン・マトリックスの値Ｐ（F₂（ｌ）｜F₁
（ｋ））に対応する。

コンフュージョン・マトリックスおよび他の情報か
ら、更新され再パラメータ化されたラベル出力確率が計
算される。更新再パラメータ化ずみラベル出力確率は削
除評価プロセッサにおいて初期化ラベル出力確率との間
で線形に平均化されスムーズな関係確率を生成する。基
本パラメータ・ラベル出力確率は通常のフォワード・バ
ックワード手法で決定され、スムーズな関係ラベル出力
確率との間で線形に平均化され最終的なラベル出力確率
が後の話者用に生成される。後の話者向けの最終版ラベ
ル出力確率はフル学習テキストのたったの1/3の発声で
生成することができる。しかもこの最終版ラベル出力確
率を用いたマルコフ・モデルで達成された精度はフル・
テキストの場合と同等であった。さらに最終ラベル出力
確率を計算する全コストはフル・テキストとくらべ極め
て少ないものであった。

E.実施例 E1.音声フォーン・マシーンの音声認識システム環境第１図において、基本音声認識システム100は音響プ
ロセッサ102、スタック、デコーダ104、音響マッチ・プ
ロセッサ106および言語モデル・プロセッサ108を有して
いる。

簡単にいえば、音響プロセッサ102はいくつかの予め
定められた特徴に基づいて音声タイプのアルファベット
（集合）を定義する。各特徴は好ましくはエネルギ周波
数帯に応じた値に関連する。

すべての音声をスペクトラル空間として定義すると、
音声タイプはその空間中の領域を表わす。各音声タイプ
はその空間において固有の音のクラスタ（かたまり）を
覆う。その空間の各要素は上述予め定められた特徴の各
々に対応する。したがって各特徴につき値が付与される
と、空間におけるポイントすなわちベクトルが特定され
る。そして各ポインタすなわちベクトルがクラスタの１
つに含まれる。所定のポイントすなわちベクトルに適切
なクラスタを決定する便利な手法はプロトタイプを利用
することである。各クラスタあて代表プロトタイプ・ベ
クトルが定義される。どのクラスタ（音声タイプ）にポ
イントすなわちベクトルが属するかを決定するのに、そ
のポイントと各プロトタイプ・ベクトルとの間の距離が
既知の手法によって測定される。当該ポイントは最も近
いプロトタイプ・ベクトルを有する音声タイプに属する
ことになる。

順次続く音声の時間間隔の各々について所定の複数の
特徴の値が組み合わされて「特徴ベクトル」を表わす。
各時間間隔ごとに、その時間間隔で発声された特徴ベク
トルをどの音声タイプが一番よく表現するかを決定す
る。好ましい例では、音響プロセッサ102は200個の異な
った音声タイプを定義し、音声タイプはそれぞれプロト
タイプ・ベクトルを有する。各音声タイプは対応する番
号の識別子すなわちラベルによる識別される。表１はラ
ベルAA11からZX3−を有する200個の音声タイプの好まし
いリストを含む。ラベルをそれによって表わされる音に
適合させることによって（AA1を“A"の音に、ZX3−を
“Z"の音に）、人間の理解が容易になるようにしてい
る。ラベルのもっとも一般的な体系は、200個のラベル
を単にL1からL200として識別する。

音声波形の継続した間隔を処理する際に、音響プロセ
ッサ102はラベル・ストリングy₁y₂y₃…y_Tを生成する。
このストリング中のラベルは200個のラベルからなるア
ルファベットから選ばれる。この選択は所定の間隔ｔに
ついてどの音声タイプが最も近いかによって決まる。

先行技術は、音声を音声タイプにクラスタリングし、
これら音声タイプをプロトタイプで表わし、さらに継続
する時間間隔の各々につき最も近いプロトタイプを選択
する手法を種々開示している。

音響プロセッサ102によって生成されたラベル・スト
リングはスタック・デコーダ104および音響マッチ・プ
ロセッサ106に入力される。スタック・デコーダ104の役
割はどの単語のパスが入力ラベル・ストリングにふさわ
しいかを、音響マッチおよび言語モデル入力に基づいて
決定することである。具体的には、収集した多くの単語
が予め検査され、３単語列（トリグラム）、２単語列
（バイグラム）のそれぞれの頻度が単一単語（ユニグラ
ム）の頻度と同様に求められている。トリグラム、バイ
グラムおよびユニグラムのデータに基づいて、言語モデ
ル・プロセッサ104が、先行の２つの単語に続く具体的
な単語のゆう度に関するデータをスタック・デコーダ10
4に入力する。

スタック・デコーダ104への他の入力は、音響マッチ
・プロセッサ106からのものである。音響マッチ・プロ
セッサ106は語彙中の各単語に対する音響マッチ・スコ
アを生成する。音響マッチ・スコアはフォーン・マシー
ンとして実現されているマルコフ・モデルに基づいて決
定される。マルコフ・モデル120の構造は第２図に示す
ようなものである。第２図のマルコフ・モデル120は、
音声要素に対応するので、音声モデルである。音声要素
（たとえば国際音声アルファベット中の要素）は周知で
あり、広く使用されている。

第２図の音声マルコフ・モデル120は複数の状態およ
び遷移として表わされ、各遷移はある状態からある状態
へ伸びている。各遷移は、音響プロセッサ102（第１
図）が１個のラベルを生成する１時間間隔に対応すると
考えることができる。継続した時間間隔において、遷移
に沿って音声が状態から状態へと通過していく際にその
音声が生成されると考えることができる。

音声マルコフ・モデル120は７個の状態S1〜S7および1
3個の遷移を有する。初期状態S1からは３個の実現可能
のパスが出ている。第１のパスは遷移tr₁を介して状態S
4に伸びている。第２のパスは遷移tr₈を介して状態S2に
伸びている。第３のパスは遷移tr₁₁を介して最終状態S7
に伸びている。状態S2は遷移tr₉またはtr₁₁を介して状
態S3またはS7に続いている。状態S3は遷移tr₁₀又はtr₁₃
を介して状態S7に続いている。遷移tr₁₁、tr₁₂およびtr
₁₃は破線で示されており、これは「空遷移」を示す。空
遷移はラベルを出力することなしに状態を変えることに
対応する。

状態S4、S5およびS6は次の状態へと伸びる第１の遷移
と、元の状態に戻る自己回帰の第２の遷移とを有してい
る。自己回帰では、新しい状態に移行することなしに、
継続する時間間隔だけ順次にラベルを出力できる。

空遷移と自己回帰遷移は打２図のマルコフ・モデルに
自由度を与え、種々の変化に対応することができるよう
にする。この変化は異なった時間や環境で発声する場合
によく起こる。

好ましい例では、発声環境において各音声要素がそれ
ぞれマルコフ・モデルで表わされる。単語は継続する音
声要素のマルコフ・モデルを結合することによって単語
ベースフォームとして表わされる。第３図において、単
語“THE"の１つの形は音声学上“DH-UH1"と記述され
る。DHの発声マルコフ・モデルにUH1の音声マルコフ・
モデルが続く。したがって単語“THE"は２つのマルコフ
・モデルの系列として表わされる。

音声マルコフ・モデルは類似の一般的構造（たとえば
７個の状態と13個の状態の遷移からなる）を有するもの
として表わされている。しかし、マルコフ・モデル120
について再言するならば、遷移tr₁〜tr₁₃は各モデルに
固有の確率を有し、かつ各空遷移はラベルごとに出力確
率を付与されることがわかる。各遷移tr₁〜tr₁₃につい
て、200個の確率がある。すなわちラベルL1（アルファ
ベット中の第１のラベル）が所定の遷移で生成されるゆ
う度を示す１個の確率、ラベルL2（アルファベット中の
第２のラベル）がその遷移で生成されるゆう度を示す１
個の確率、………、およびラベルL200（アルファベット
中の第200番目ラベル）がその遷移で生成されるゆう度
を示す１個の確率である。これは第２図においてつぎの
ように示される。

80個の音声要素があれば、80個の異なるマルコフ・モ
デルからなる対応する集合が存在する（所定の１人の話
者ごとに）。その集合中の各マルコフ・モデルは固有の
遷移確率およびラベル出力確率を有する。この確率は学
習期間（のちに詳述する）に決定され、音響マッチ・プ
ロセッサ106中のメモリにストアされる（第１図）。確
率および他の関連データをストアしているマルコフ・モ
デルの構成を「フォーン・マシーン」と呼ぶ。

フォーン・マシーンの確率をストアする簡易な手法が
第４図に示されている。音声要素DHのフォーン・マシー
ンが集合中の第３番目のフォーン・マシーンとすると、
DHフォーン・マシーンの13個の遷移の各々の確率はp
₃〔tr_i〕（ただし１≦ｉ≦13）で特定されるメモリ・ロ
ケーションにストアされる。各空遷移のラベル出力確率
はp₃〔１〕〜p₃〔200〕で特定されるロケーションにス
トアされる。

UH1に対応するフォーン・マシーンについても同様な
記憶がなされる。UH1が集合中の75番目のフォーン・マ
シーンに対応するならば、UH1の確率にはすべてサフィ
ックス75が付される。

第２図のようなマルコフ・モデルに80個の音声フォー
ン・マシーンがあると、通常つぎのような確率が決定さ
れてストアされる。

したがって全体で160000＋1040＝161040個の確率があ
り、これらが求められる。

全確率を生成するのに要する時間や、それらをストア
する領域を減少させるために、いくつかの手法が実現さ
れている。１つの手法によれば、各フォーン・マシーン
の非空遷移が３つの部分にグルーピングできると仮定す
る。第１の部分は遷移１、２および８を含む。第２の部
分は遷移３、４、５および９を含む。そして第３の部分
は遷移６、７および10を含む。また各遷移はそれぞれの
確率を保持するけれど、１の部分中の種々の遷移のラベ
ル出力確率は同一と仮定する。すなわち、遷移１、２お
よび８に関しては、単一の共通ラベル出力確率分布が存
在する。同様に、第２の部分および第３の部分について
もそれぞれ共通のラベル出力確率分布が存在する。

表２は上述の手法によるDHフォーンのストア状態を示
す。表２において、ノードが状態番号に符号する。アー
クは２つのノード間の遷移に対応する。カウントは学習
によって決定された値である。プロブ（PROB）は対応す
る遷移の確率値である。AA11からZX3−までの各ラベル
出力の各々について３個のカウントが与えられている。
表２は所定のスレッションド（たとえば0.01）を超える
カウント値を有するAE13からXX23間でのラベル出力を示
している。この表は理解を容易にするために凝縮されて
いるけれども、実際のシステムにストアされている表は
200個のラベルの各々に３つのカウント・エントリを有
することに留意されたい。第１列のカウントは、フォー
ン・マシーンの第１の部分に対応する遷移で生成された
カウントに符号する。第２列のカウントは第２の部分の
カウントに、第３列のカウントは第３の部分のカウント
にそれぞれ符号する。各非空遷移は対応する列番号４、
５または６に割り当てられていることにも留意された
い。たとえば遷移１→２は列４に、遷移６→６は列６に
割り当てられている。

フォーン・マシーンのもう１つのメモリ構成が第４図
および第５図に示されている。第４図において、１個の
フォーン・マシーンがその番号ラベル３（たとえばDHの
音声要素のフォーン・マシーン）によって特定される。
メモリ中にフォーン・マシーンの状態の数がストアされ
る。また各状態ごとにアーク（すなわち遷移）の数がス
トアされる。また各アークごとに宛先状態が示され、ア
ーク型が特定される。表２と同様に、各フォーン・マシ
ーンがそれに関連する３つのラベル出力確率分布を有す
る。すなわちフォーン・マシーンの第１の部分、第２の
部分および第３の部分のそれぞれのラベル出力確率分布
である。80個のフォーン・マシーンに対して、240個の
ラベル出力分布がある。第５図において、マトリックス
状に240個のラベル出力確率分布がストアされている。
マトリックスの各列はラベル出力確率分布（200個のラ
ベルにわたる）を表わし、各々が別異のアーク型に対応
する。第４図においてアーク型項目は第５図のマトリッ
クスの列の１つを指示する。

各フォーン・マシーンについて確率がストアされ、フ
ォーン・マシーンの所定の系列で語彙中の単語を表わ
し、この結果音響マッチ・プロセッサ106は単語がラベ
ル（音声タイプ）の１のストリングであるゆう度を決定
できる。すなわちラベル・ストリングが与えられると音
響マッチ・プロセッサ106は第１の単語に含まれるフォ
ーン・マシーンを調べ、これらフォーン・マシーンがそ
のストリング中の継続したラベルを生成するゆう度を決
定する。簡単にいえば、単語を構成するフォーン・マシ
ーンを介してラベル・ストリングが沿うことができる種
々のパスを追い、かつ適切に確率を適用することによっ
て音響マッチ・スコアを計算する。

短かい例を挙げよう。第１図の音響プロセッサ102が
ラベルL200-L199-L15-L14−…を生成するとする。音響
マッチ・プロセッサ106（第１図）による“THE"に対す
る音響マッチ・スコアの計算はつぎのように進む。最初
の時間間隔では、ラベルL200が音響プロセッサ102によ
って生成される。２つの初期ブランチが考えられる。第
１のブランチでは、遷移tr₁に沿ってラベルL200が生成
される。また第２のブランチでは遷移tr₈に沿ってラベ
ルL200が生成される。音響マッチ・プロセッサ106は音
声要素DHのフォーン・マシーンを調べて（１）遷移tr₁
を採る確率、および（２）遷移tr₁で（フォーン・マシ
ーンの第１の部分において）ラベルL200を生成する確率
を求める。tr₁の確率が0.5で、L200のラベル出力確率が
0.001であれば、第１のパスを通りL200を出力するゆう
度は0.0005（＝0.5×0.001）である。

状態４に致着したのち、ラベルL199を生成するパスは
２つある。１つのパスは自己回帰の遷移tr₂に沿ってラ
ベルL199を生成するものである。他のパスは状態S5への
遷移tr₃を介してラベルL199を生成するものである。DH
のフォーン・マシーンで遷移tr₂を通る確率を0.3とし、
遷移tr₃を通る確率を0.7としよう。またDHのフォーン・
マシーンで遷移tr₂でラベルL199を生成する確率を0.025
とし、同様の遷移tr₃での確率を0.004としよう。すると
遷移tr₂に沿ってラベルL199を生成する確率は0.0075
（＝0.3×0.025）である。遷移tr₃に沿ってラベルL199
を生成する確率は0.0028（＝0.7×0.004）である。遷移
tr₁およびtr₂を順次通りラベルL200、L199を生成するゆ
う度は0.005×0.0075であり、遷移tr₁およびtr₃を順次
通りラベルL200、L199を生成するゆう度は0.005×0.002
8である。したがって遷移tr₁でラベルL200を生成し、そ
のうち遷移tr₂またはtr₃でラベルL199を生成する結合確
率は PROB_I＝（0.0005）（0.0075）＋（0.0005）（0.0028）＝ 0.00000515 となる。

状態S1から遷移tr₈を介して伸びる第２のブランチに
関して、音響マッチ・プロセッサ106（第１図）は遷移t
r₈を沿う確率および遷移tr₈ラベルL200を生成する確率
を受け取る。ｐ（tr₈）×p⁸〔200〕の積を求めると遷移
tr₈を通ってラベルL200を生成する確率が得られる。DH
フォーン・マシーンが状態S2でラベルL199を生成するな
ら、遷移tr₉に沿らなくてはならない。このときの関連
確率はｐ（tr₉）×p⁹〔199〕である。したがって、遷移
tr₈およびtr₉に順に沿ってラベルL200、L199を生成する
確率はPROB_II＝｛ｐ（tr₈）×p⁸〔200〕｝｛ｐ（tr₉）
×p⁹〔199〕｝である。

したがってDHのフォーン・マシーンがラベルL200-L19
9を生成する確率はPROB＝PROB_I＋PROB_IIである。

ラベルL200およびL199に続くラベルについてさらに計
算が実行され、種々のブランチに計算が及んでいくこと
になる。

この点で、第３図のDHフォーン・マシーンが通過され
て、多くのラベルが生成されることがわかる。空遷移tr
₁₁に沿ってDHフォーン・マシーンは実際何らラベルを出
力することがない。この場合、空遷移tr₁₁を沿う確率が
計算に導入され、UH1フォーン・マシーンについてラベ
ル・ストリングを生成する確率が続けられる。

ラベル・ストリングを分割する手法として単語に基づ
くものと、フォーン・マシーンに基づくものとが種々知
られている。単語に基づく手法では、単語が識別用ポー
ズをいれて発声され、システムが検出サイレンスの時間
間隔に基づいて各単語に対応するサブ・ラベル・ストリ
ングを検出できるようになっている。音声フォーン・マ
シーンを用い、100分の１秒の時間間隔で音響プロセッ
サ102がラベルを発声する場合では、典型的には単語あ
たり80から100個のラベルがある。このような離散単語
音声では順次発声される単語の各々に対応するラベルが
特定される。

上述の米国特許出願第06/845155号では、音声フォー
ン・マシーンの終了時の確率分布が決定される。したが
って順次続くフォーン・マシーンの１つに対するラベル
は確率に基づいて決定される。

語彙中の単語は順次選択されて音響マッチ・スコアが
計算される。各単語についてフォーン・マシーンの系列
および確率が検索される。特定されたラベルがフォーン
・マシーンの系列を通って続くことができる実現可能な
パスが上述のように決定され、確率が計算される。

この手法は詳細音響マッチと呼ばれ先の米国特許出願
第06/845155号に説明されている。

E2.フィーニーム・フォーン・マシーンの音声認識音声フォーン・マシーンに代わるものとして「フィー
ニーム」フォーン・マシーンを採用して単語ベース・フ
ォームを構築してもよい。フィーニームはフロント・エ
ンド（Front End）から取り出される微小音素というこ
とから（FEneme）名付けられている。

フィーニームは簡単にいえばラベルのことである。フ
ィーニーム・フォーン・マシーンはフィーニームすなわ
ちラベルに対応するフォーン・マシーンである。ラベル
・アルファベット中には200個の別異のラベルがあるか
ら、200個のフィーニーム・フォーン・マシーンがある
ことになる。

各フィーニーム・フォーン・マシーンは第６図に示す
ような構成160を有している。フィーニーム・フォーム
・マシーンは２個の状態S1およびS2を有する。状態S1と
S2との間には空遷移と非空遷移とがある。状態S1におい
て自己帰還の非空遷移がある。各遷移は学習時に決定さ
れる確率をそれぞれ有する。各非空遷移は各ラベル出力
に対する確率を有する。たとえば、フィーニーム・フォ
ーン・マシーンAA11の自己帰還遷移はｐ（tr_s）の遷移
確率を有し、また各ラベルを生成する確率を有する。こ
の各ラベルを生成する確率はつぎのように表わされる。

AA11のフィーニーム・マシーンに関しては音声タイプ
AA11を生成する確率が大きいであろう。しかし発声時間
の違いによって、AA11のフォーン・マシーンの遷移時に
他のラベルを生成する確率もあることはある。

音声フォーンの場合と同じく、単語ベース・フォーム
は、フィーニーム・フォーン・マシーンの対応する系列
によって構築される。ラベルが100分の１秒ごとに生成
される場合には、通常１個の単語あたり80〜100個のオ
ーダーのフィーニーム・フォーン・マシーンが存在す
る。

継続するフィーニームまたは音声のフォーン・マシー
ンからなるすべてのパスを記述する便利な手法はトレリ
スを利用するものである。フィーニーム・フォーン・マ
シーンのトレリスが第７図に示されている。音響プロセ
ッサ102（第１図）で生成された所定のラベル・ストリ
ングについて、トレリスの種々のパスを通ることができ
る。左上すなわち時刻t₁、状態S1から出発すると、最初
フィニーム・フォーンは空遷移（破線）を真下に状態S2
への沿うことによって飛び超されるかもしれない。状態
S2は第２のフィーニーム・フォーン・マシーンの初期状
態を示す。また時刻t₁、状態S1から自己帰還ループを沿
ってラベル出力を行うかもしれない。これは状態S1から
状態S1へと戻る水平方向の移動である。最後に、状態S1
から時刻t₂に状態S2へと移行してラベルを出力する場合
がある。フィーニーム・フォーンでは、トレリスの各点
は類似の代替パスを与える。

さらに第７図を参照しよう。第７図において、トレリ
スが１のラベル・ストリングに対して膨大な数の実現可
能なルートを与えることがわかる。たとえば時刻t₁、状
態S1と時刻t₃、状態S3との間に２つのラベルが出力され
たとすると、13個のルートが可能である。たとえば第１
のルートは状態S1で２回の自己帰還があったのち時刻t₃
で２回の空遷移が有るものである。第２のルートは状態
S1で１回の自己帰還があったのち時刻t₃で状態S2に遷移
し、さらに時刻t₃で１回の空遷移があるものである。第
３のルートは状態S1で１回自己帰還があったのち、状態
S2への空遷移があり、こののち状態S2で１回自己帰還が
あり、つぎに状態S3への空遷移があるものである。以下
同様である。

好ましい例では計算はトレリスの各ノード（状態時刻
で決まるポイント）の確率を繰り返し計算することによ
って行われる。この点は先のF.Jelinekの論文“Continu
ous Speech Recognition Statistical Methods"に評述
されている。

フィーニーム単語ベース・フォームを構築する手法に
ついては米国特許出願第06/697174号に記載されてい
る。

音声フォーン・マシーンを使うにしろ、フィーニーム
・フォーン・マシーンを使うにしろ、単語ベースフォー
ムに対する音響マッチ・スコアは少なくともいくつかの
語彙単語に関して計算される。そして最も高いスコアを
持つ単語が認識対象発声単語のよりそれらしい候補とし
て選ばれる。

E3.フォーン・マシーンの学習今までフォーン・マシーンに基づく（たとえば音声フ
ォーン・マシーンやフィーニーム・フォーン・マシー
ン）認識装置の動作について説明してきたが、それはす
でに学習の実行されたものであった。この発明は学習に
関するものであり、以下説明する。具体的には標準話者
についての学習に続けて後の話者に対するラベル出力確
率を決定する装置および方法について説明する。

第８図はこの発明にしたがってフォーン・マシーンを
学習する装置200を全体として示す。この図において、
学習テキストの入力音声はラベル発生器202に入力され
る。ラベル発生器202は、１個時間間隔の発声を順次調
べ、その音声に関する種々の特徴の値を決定する。特徴
の各々は特徴ベクトルの各要素に対応する。各時間間隔
ごとに、特徴ベクトルが生成される。

個有のプロトタイプ・ベクトル・アルファベットが各
話者ごとに特定される。各話者のプロトタイプ・ベクト
ル・アルファベットはプロトタイプ・ストレージ204に
ストアされる。継続する時間間隔の継続する特徴ベクト
ルに対して、最も近いプロトタイプ・ベクトルが決定さ
れる。そしてこの最も近いプロトタイプ・ベクトルのラ
ベルがその時間間隔に割り当てられる。こうして継続し
た時間間隔についてラベル・ストリングが生成される。

第１図を参照するとラベル発生器202およびプロトタ
イプ・ストレージ204が音響プロセッサ102に対応するこ
とがわかる。

第８図に戻る。第８図において確率初期化部206が示
されている。この確率初期化部206の目的は初期確率値
を与えることであり、この初期確率値から正確で有益な
確率値を決定することができる。初期値は通常実際の音
声を忠実に反映するものではなく、音声認識に用いるに
は不適切である。好ましい初期化部300が第９図に示さ
れている。

この発明によれば、標準話者に先に学習フル・テキス
トを発声しており、この標準話者の発声に応じて一連の
入力ベクトルが生成され、遷移確率Ｐ（A_ij）およびラ
ベル出力確率Ｐ（F₁（ｋ）｜A_ij）がすでに決定されて
いるものとする。標準話者の入力ベクトルはラベリング
部302に入力される。ラベリング部302は各入力ベクトル
にラベルを割り当てる。重要なことは、ラベリング部30
2が後の話者のプロトタイプ・ベクトルに基づいてラベ
ルが割り当てられるということである。後の話者のプロ
トタイプ・ベクトルは後の話者が学習テキストの一部に
ついて行った発声に応じて生成されたデータのみによっ
て決定される。プロトタイプ・ベクトルの定義および特
徴ベクトルの音声タイプへのクラスタリングは周知であ
る。

ラベリング部302から出て来るラベル・ストリングをA
₂＝x₁x₂x₃…で表わす。ラベル・ストリングA₂は初期確
率計算部306に供給される。またこの初期確率計算部306
には時間整合ストレージ308から整合情報が供給され
る。ストレージ308はフォーン・マシーン遷移をラベル
関係付けるデータが含まれている。この点、標準話者の
学習時にはフォーン・マシーンの所定のシーケンスに応
じたテキストが発声されることがわかる。ビタービ整合
によれば、各フォーン・マシーン（標準話者用の）とス
トリングA₁中のラベル・セグメント（すなわち標準話者
プロトタイプに基づくラベル・ストリング）との相関は
既知である。ストリングA₂はストリングA₁と同じように
ラベルごとに整合される。もしストリングA₁のb₁個のラ
ベルが第１のフォーン・マシーンと整合されるならば、
ストリングA₂のb₁個のラベルも第１のフォーン・マシー
ンに整合される。以下同様である。A₂のラベル・とフォ
ーン・マシーンとの間の相関はストレージ308に供給さ
れる。

一例としてフォーン・マシーンPM1を考えよう。標準
話者の学習期間にビタービ整合は、ストリングA₁中の最
初のｐ個のラベルがフォーン・マシーンPM1に相関する
と特定する。各フォーン・マシーン遷移に割り当てられ
るラベルの個数が時間整合ストレージ308にストアされ
る。初期確率計算部306はラベル・ストリングA₁と同様
の態様でラベル・ストリングA₂を分割しストリングA₂の
最初のｐ個のラベルを遷移PM1に相関させる。

フォーン・マシーンとラベル・ストリングA₂との間の
整合に基づいて、後の話者の初期カウント（これは所定
のフォーン・マシーンに対して所定のラベルが起こる頻
度に対応する）が計算される。たとえば、学習テキスト
において、フォーン・マシーンPM1が15回起こる。PM1の
各々に対応するラベルは整合プロセスでわかる。各ラベ
ルについて、そのラベルがフォーン・マシーンPM1の各
々の発生時に発生するように整合される回数がカウント
される、すなわち、ラベルL1がフォーン・マシーンPM1
に整合されると、対応するカウントが行われる。またラ
ベルL2がフォーン・マシーンPM1に整合されると、対応
するカウントが行われる。その他も同様である。類似の
処理が各フォーン・マシーンについて実行されていく。
この結果各フォーン・マシーンは各ラベルについて対応
するカウントを持つことになる。初期確率計算部306は
これらのカウントを正規化してP₀（F₂（ｌ）｜PM₁）の
確率の値を生成する。ただし、ｌはラベルを表わし、PM
₁はｉ番目のフォーン・マシーンを表わす。種々のフォ
ーン・マシーン遷移に関してラベルの分布が一様と仮定
すれば、初期確率計算部306はP₀（F₂（ｌ）｜A_ij）のラ
ベル出力確率を出力する。ただし、P₀は初期確率を表わ
す。

初期遷移確率P₀（A_ij）は単純に話者に独立な固定値
を割り当てることによって得られる。

再び第８図を参照しよう。第８図において、初期確率
は再びパラメータ化フォワード・バックワード・プロセ
ッサ208および基本パラメータ・フォワード・バックワ
ード・プロセッサ210に供給される。

再パラメータ化フォワード・バックワード・プロセッ
サ208は入力として（ｉ）初期確率、（ii）後の話者が
学テキストの一部を発声したときに、後の話用のプロト
タイプに基づいて生成されるラベル・ストリングy₁y₂y₃
…および（iii）先の標準話者学習時に決定されている
標準話者用のラベル出力確率Ｐ（F₁（ｋ）｜A_ij）を受
け取る。

簡単にいえば、再パラメータ化フォード・バックワー
ド・プロセッサ208は標準話者と後の話者との間の類似
度データを含む拡張グラス形態へと元のマルコフ・モデ
ルを特定しなおす。言葉をかえていえば、元のマルコフ
・モデルの非空遷移は遷移確率とを有し、拡張グラムに
対してマルコフ・モデルの出力確率が再定義されるので
ある。マルコフ・モデルの各出力確率Ｐ（F₂（ｌ）｜A
_ij）は、すべてのｋににわたって類似度測度Ｐ（F
₂（ｌ）｜F₁（ｋ）を足し、これをＰ（F₁（ｋ）｜A_ij）
で正規化したものとして特定し直される。ここでｋはＮ
個のラベルからなるアルファベット中の個々のラベルを
特定する。再パラメータ化フォワード・バックワード・
プロセッサ208はつぎの式によって拡張されたマルコフ
・モデルに基づいてパラメータ化し直されたラベル出力
確率を生成する。

第10図はラベル出力用の元のマルコフ・グラフを表わ
す。

第11図は先に説明した式に基づく拡張グラフを示す。

再パラメータ化フォワード・バックワード・プロセッ
サ400の具体的な例を第12図に示す。この図において、
初期確率P₀（A_ij）およびP₀（F₂（ｌ）｜A_ij）ならびに
後の話者ラベル・ストリングy₁y₂y₃…がフォワード・バ
ックワード・アルゴリスゴ・プロセッサ402に入力され
る。これら入力に応じて、プロセッサ402は遷移カウン
トcount_n+1（A_ij）およびラベル出力カウントcount_n+1
（F₂（ｌ）、A_ij）を発生する。ｎは繰り返し指数であ
り、初期確率についてはゼロに設定される。遷移カウン
トは遷移確率計算部404において正規化され、更新遷移
確率P_nr1（A_ij）が出出力され、カウンタ・マルチプレ
クサ406に供給されるｎ＜nmax（nmaxは好ましくは３）
を満たすｎについては、更新遷移確率はプロセッサ402
にその入力として供給される。ｎがnmaxに達すると更新
遷移確率は再パラメータ化フォワード・バックワード・
プロセッサ400（第12図）から再パラメータ化遷移確率
Ｐ（A_ij）として出力される。

第12図において、ラベル出力確率カウントcount
_n+1（F₂（ｌ）、A_ij）は拡張グラフ・カウント計算部40
8に入力される。さらにこの計算部408には、標準話者用
に先に決定されたラベル出力確率Ｐ（F₁（ｋ）｜
A_ij）、ｎ回目のときにラベル出力確率用に決定された
値P_n（F₂（ｌ）｜A_ij）および先に決定されている類似
測度P_n（F_n（ｌ）｜F₁（ｋ））も入力される。ラベル出
力確率Ｐ（F₁（ｋ）｜A_ij）は、標準話者についてのデ
ータをストアする外部要素からの入力として受け取られ
る。

第１回目の繰り返し、すなわちｎ＝０では、各P₀確率
は初期値である。

その結果、計算部408はつぎの計算を実行して関係あ
るカウントを決定する。

この式の右辺は計算部408へ入力される要素を含む。

加算器410において、すべての遷移A_ijにわたってカウ
ントcount_n+1（F₂（ｌ）、F₁（ｋ）、A_ij）を加算する
ことによってつぎの計算が実行される。

更新コンフュージョン・マトリックス・エントリ計算
部412において加算カウントを正規化することによっ
て、（ｎ＋１）回目の更新類似測度をP_n+1（F₂（ｌ）｜
F₁（ｋ））が計算される。各類似測度の最新の更新値は
コンフュージョン・マトリックス・ストレージ414に入
力される。ストレージ414はラベル対（ｌ、ｋ）の各々
について１個のエントリを有する。したがって、Ｎ＝20
0個のラベルからなるアルファベットについては、マト
リックスは200×200個のエントリを有することになる。

サンプル・マトリックスが第13図に示される。このサ
ンプルでは標準話者の所定のラベルK1に対する後の話者
のラベルL1の確率は0.002である。k1列に沿う確率の合
計は１であり、他の列でも同様である。

第12図において、コンフュージョン・マトリックスの
エントリは繰り返し更新されることがわかる。繰り返し
の各々において最新のエントリ値がつぎの繰り返し（も
しあれば）のために計算部408に入力される。

さらに、最新に更新されたエントリ値は更新ラベル出
力確率計算部416に入力される。計算部416の他の入力は
標準話者に関連したラベル出力確率である。すなわち各
ｋについてのＰ（F₁（ｋ）A_ij）である。計算部416はつ
ぎのような更新ラベル出力確率を生成する。

ｎ＝nmaxの繰り返しのち、更新カウンタ・マルチプレ
クサ418は更新ラベル出力確率P_r（F₂（ｌ）｜A_ij）を再
パラメータ化フォワード・バックワード・プロセッサ40
0からの出力として送出する。それ以前の繰り返し（ｎ
＜nmax）においては、計算部416からのラベル出力確率
はP_n（F₂（ｌ）｜A_ij）としてプロセッサ402および計算
部408に送出され、つぎの繰り返しに用いられる。

さらに言及を続けよう。フォワード・バックワード・
アルゴリズム・プロセッサ402は先に説明したIEEEの論
文に示される手法にしたがって動作する。簡単にいえ
ば、フォワード・バックワード・アルゴリズムはマルコ
フ・モデルの状態ｉからそのマルコフ・モデルの状態ｊ
までの移動に関する計算である。初期状態から出発して
時刻ｔで状態ｉに到着した際には、α_t（state（ｉ））
という予め定められた確率がある。同様に時刻（tt1）
にマルコフ・モデルの状態ｊから出発して最終状態に到
る確率_tt1(state(j))がある。α確率は状態ｉから前方
に進むものであり、β確率は最終状態から逆向きに戻る
ものである。初期状態から最終状態へのパスがｉ→ｊと
いう遷移を介して行われる階数がどのくらいかを示すカ
ウントは、（ラベルｌが出力される）つぎの式で表わさ
れる。

ただしｔはｔ＝１からｔ＝Ｔへの時間間隔を表わし、
y_t＝F₂（ｌ）ならばδ＝１でそれ以外はδ＝０である。

つぎのことは極めて重要である。すなわち、拡張マル
コフ・モデル・グラフについてすべてのカウントcount
_n+1（F₂（ｌ）、A_ij）が、元のグラフについて得られて
いるカウント、すなわちラベル出力確率に関するカウン
トを用いて容易に計算するということである。

プロセッサ402は継続する繰り返しにおける上の計算
を実行する（ｎを増分させなから）。

第14図は基本パラメータ・フォワード・バックワード
・プロセッサ500を示す。この図において、基本パラメ
ータ・フォワード・バックワード・アルゴリズム・プロ
セッサ502はプロセッサ402と同様に初期確率およびラベ
ル・ストリングy₁y₂y₃…を入力として受け取る。確率値
Ｐ′_n（A_ij）およびＰ′（F_n（ｌ）｜A_ij）は下記のと
おり計算されるものであり、その発生の都度、繰り返し
入力としてプロセッサ502に入力される。最初の繰り返
しではｎ＝０である。プロセッサ502遷移およびラベル
出力のそれぞれについて基本カウントcount′
_n+1（A_ij）およびcount′_n+1（F₂、A_ij）を決定する。
計算部504および506は、カウントを正規化することによ
ってそれぞれ基本遷移確率および基本ラベル出力確率を
生成する。この基本確率Ｐ′_n+1（A_ij）およびＰ′_n+1
（F₂（ｌ）｜A_ij）は更新カウンタ・マルチプレクサ508
に入力される。カウントｎが値nmax′より小さければ、
基本確率はプロセッサ502に入力Ｐ′_n（A_ij）および
Ｐ′_n+1（F₂（ｌ）｜A_ij）として入力され、フォワード
・バックワード計算のづきの繰り返しに用いられる。ｎ
がnmax′になったときは、最終の更新基本確率Ｐ′（A
_ij）およびＰ′（F₂（ｌ）｜A_ij）が出力される。

第８図において、再パラメータ化フォワード・バック
ワード・プロセッサ208によって再パラメータ化されて
もたらされた確率P_r（A_ij）およびP_r（F₂（ｌ）｜A_ij）
は省略推定プロセッサ212に供給される。同様にプロセ
ッサ210から出力された基本パラメータ確率Ｐ′（A_ij）
およびＰ′（F₂（ｌ）｜A_ij）は他の省略推定プロセッ
サ212に入力される。各省略推定プロセッサ212および21
4は同様の態様で動作し線形に確率を平均化し、確率の
分布を平滑化する。平滑化はラベル出力確率分布のピー
クをまるめ、谷をうめることを意味する。平滑化は学習
データが少ないこと、ラベル出力確率のコントラストが
強いことがあるから必要となる。より学習データが多く
なればコントラストは弱くなるであろう。省略推定処理
についてはF.JelinekおよびR.L.Mercerの“Interpolate
d Estimation of Markov Source Parameters from Spar
se Data"に記述されている。またGelsema他による“Pat
tern Recognition in Practice"のpp381-402も省略推定
処理について検討を加えている。

第15図は好ましい省略推定プロセッサ600を示す。こ
の図において省略推定プロセッサ600は３個の入力を有
する。第１の入力はラベル・ストリングy₁y₂y₃…であ
る。

第２の入力はフォワード・バックワード処理された確
率に対応する。省略推定プロセッサ212に対しては、第
２の入力は再パラメータ化フォワード・バックワード・
プロセッサ208からの出力である。省略推定プロセッサ2
14に対しては基本フォワード・バックワード・プロセッ
サ210からの出力が第２の入力に対応する。

第３の入力はコントラスト確率に対応する。省略推定
プロセッサ212に対しては、第３の入力は初期設定部206
によって生成された初期確率である。省略推定プロセッ
サ214に対しては、省略推定プロセッサ212によって計算
された平滑化確率が第３の入力となる。

省略推定プロセッサの出力は（ｉ）線形平均化された
遷移確率および（ii）線形平均化されたラベル出力確率
を含む。この場合確率分布は平滑化されている。

好ましい省略推定プロセッサ600（第15図）は学習デ
ータ分割部602を有し、この分割部602は後の話者の学習
テキスト・ラベルを２つの部分に分割する。第１の部分
とフォワード・バックワード処理された確率（プロセッ
サ208または210からの）とは第１フォワード・バックワ
ード・プロセッサ604に入力される。プロセッサ604はそ
れからカウントおよび確率を計算する。ラベルの第２の
部分とフォワード・バックワード処理された確率（プロ
セッサ208または210からの）とは第２フォワード・バッ
クワード・プロセッサ606に入力される。プロセッサ606
はそれらからカウントおよび確率を計算する。プロセッ
サ604および606からのカウントおよび確率は最大ゆう度
平滑化プロセッサ608入力される。プロセッサ608への他
の入力コントラスト確率である。プロセッサ608は入力
の線形平均化を実行する。

省略推定プロセッサ212の場合は、フォワード・バッ
クワード・プロセッサ604からのラベル出力カウントお
よび遷移カウントはC₁（F₂（ｌ）、A_ij）およびC
₁（A_ij）として特定され、ラベル出力確率はP₁（F
₂（ｌ）｜A_ij）として特定される。フォワード・バック
ワード・プロセッサ606からのラベル出力カウントはC₂
として特定され、ラベル出力確率はP₂として特定され
る。好ましい例ではC₁およびP₁は奇数センテンスのラベ
ル・ストリングに対応し、C₂およびP₂は偶数センテンス
のラベル・ストリングに対応する。学習データ分割部60
2によってそのように分割される。

省略推定プロセッサ212の最大ゆう度平滑化プロセッ
サ608によって実行される計算はつぎのようなものであ
る。

ただしλ_mは選択可能な重み付け要素であり、A_ijはフ
ォーン・マシーンにおける状態ｉからｊへの遷移を表わ
す。

好ましい例では、λ_mに関しつぎの式の値を最大にす
るようにλ_mを選ぶ。ただしπはすべてのｍの値または
すべてのA_ijεS_m値にわたる積を表わす。

ただしP_oは初期確率を表わし、S_mはＭ個のクラスの遷
移のうちｍ番目のクラスを表わす。すべての（A_ij）の
イベントはつぎのようにクラス分けされるのが好まし
い。

S_m＝｛（A_ij）｜T_m-1＜C₁（A_ij）＋C₂（A_ij）＜T_m｝ただしT_mは予定義されたカウント範囲境界であり、１
つのアーク・クラスを他のアーク・クラスから分離する
ものである。

値Ｍについて説明すると、240個のアークの各々は後
の話者の学習時に得られるカウントの１つである。平滑
化に先だって、アーク（すなわち遷移）はカウント値に
応じてＭ個の異なるクラスに分類される。たとえば、０
から10のカウント範囲境界を有するアークは第１のクラ
ス（ｍ＝１）を形成し、10から100までの境界を有する
アークは第２のクラスを形成する。そして100を超える
境界を有するアークは第３のクラスを形成する（この例
ではＭ＝３である。）平滑化の量はアークがどのクラス
に属するかによって異なる。Ｍは典型的には10未満であ
る。

省略推定プロセッサ214の場合は、フォワード・バッ
クワード・プロセッサ604からのラベル出力カウントお
よび遷移カウントは▲C^* ₁▼として特定され、ラベル出
力確率は▲P^* ₁▼として特定される。またフォワード・
バックワード・プロセッサ606からのラベル出力カウン
トおよび遷移カウントは▲C^* ₂▼として特定され、ラベ
ル出力確率は▲P^* ₂▼として特定される。好ましくは▲C
^* ₁▼および▲P^* ₁▼が奇数センテンス・ラベル・ストリ
ングに対応し、▲C^* ₂▼および▲P^* ₂▼が偶数センテンス
・ラベル・ストリング・に対応する。学習データ分割部
602がこの割り振りを行う。

省略推定プロセッサ214の最大ゆう度平滑化プロセッ
サ608で実行される計算はつぎのようなものである。

好ましい例では要素▲λ^* _m▼は▲λ^* _m▼に関するつぎ
式の値を最大にするように選ばれる。

ただし、P_sは平滑化確率を表わし、S_mは遷移カウント
値に基づくＭ個の遷移クラスのｍ番目のクラスを表わ
し、つぎのように定義される。

S^* _m＝｛A_ij｜T_m-1＜C^* ₁（A_ij）＋C^* ₂（A_ij）＜T_m｝省略推定プロセッサ214によって計算されるラベル出
力確率P^*（F₂（ｌ）｜A_ij）は基本ラベル出力確率に較
べて大幅に改善されている。また再パラメータ化ラベル
出力確率P_r（F₂（ｌ）｜A_ij）、第１の省略推定プロセ
ッサ212からの平滑化ラベル出力確率P_s（F₂（ｌ）｜
A_ij）に対しても改善されている。上述のものと同様の
省略推定プロセッサは遷移確率にも適用されP^*（A_ij）
を得る。ただし、P^*（A_ij）のＰ′（A_ij）、P_r（A_ij）
またはP_s（A_ij）に対する改善はさほど顕著ではない。

この点に、再パラメータ化された値からラベル出力確
率を決定する再パラメータ・メソドロジがIBM MVSシス
テム上に実装された。サンプル・学習原稿を用いて多く
の話者に対して一連の実験が行われた。後の話者の学習
に100個のセンテンスのサンプル・テキストを用いた。
ときには、平均認識率は95％に達した。より短い30個の
センテンスのときは89％の精度であった。30個のセンテ
ンスについて再パラメータ化が採用されたときには、平
均で92.5％に達した。再パラメータ化によって単純な30
個のセンテンスに較べて30％の改善があった。プロセッ
サに２つの省略推定ステップが加わると、精度はほぼ95
％まで上がった。後の話者の1/3の学習テキストであっ
ても、本発明によればフル・テキストと同様の精度を達
成することができる。

後の話者は学習テキストを20分間発声するのにかえ
て、たった７分間発声するだけでよくなる。

さらに、この発明によれば通常のフォワード・バック
ワード・アルゴリズムでフル・テキストを処理するのに
較べて計算量の削減にもなる。

第16図はこの発明を実現するアルゴリズム700のフロ
ーチャートを示す。ステップ701および702においてイン
デックスｎはゼロに設定され、また遷移、ラベル出力お
よびコンフュージョン・マトリックス・エントリ確率が
初期値に設定される。ステップ704では、フォワード・
バックワード・アルゴリズムが適用されて、元のマルコ
フ・モデル・グラムに対する遷移確率およびラベル出力
確率に関するカウントが生成される。ステップ706で
は、ラベル出力確率に対するカウントcount_n+1（F
₂（ｌ），A_ij）が再特定化されて拡張マルコフ・モデル
・グラフに対するカウントcount_n+1（F₂（ｌ），F
₁（ｋ），A_ij）が生成される。拡張マルコフ・モデル・
グラフでは出力確率がコンフュージョン・マトリックス
・エントリに対応する。

カウントはすべてのｉ→ｊ遷移にわたって加算され、
後の話者のｌ番目のラベルと標準話者のｋ番目のラベル
との間の類似測度を反映したカウントが生成される（ス
テップ708）。エントリ・カウントをもちいてコンフュ
ージョン・マトリックス・エントリの確率値が更新され
る（ステップ710）。更新再パラメータ化ラベル出力確
率はステップ712で計算される。

更新再パラメータ化ラベル出力確率が決定されるとき
に、通常の手法を用いて遷移確率が更新される（ステッ
プ714）。

ステップ712および714ののち、ｎの値が増分去れる
（ステップ716）。ステップ718においてｎの新しい値が
nmax値以上であれば（nmaxは好ましくは３）、ステップ
712および714で得た最新の出力が省略推定ステップ720
に入る。ｎがnmax未満であれば、ステップ704〜718が繰
り返される。省略推定ステップ720は出力として平滑化
確率P_s（A_ij）およびP_s（F₂（ｌ）｜A_ij）を送出する。
ここではラベル出力確率が部分的に標準話者と後の話者
との間の類似度情報に基づいている。

確率P_s（A_ij）およびP_s（F₂（ｌ）｜A_ij）が計算され
る間に、基本フォワード・バックワード・アルゴリズム
が繰り返し適用される（ステップ730）。この場合ｎ＝
０の第１の繰り返しでは初期確率から始まる。継続した
繰り返しにわたって、更新遷移およびラベル確率が通常
の手法で計算される（ステップ732）。ステップ734およ
び736はｎ≧nmaxになるまで適用される。他方最後の更
新基本遷移確率Ｐ′（A_ij）および最後の更新基本ラベ
ル出力確率Ｐ′（F₂（ｌ）｜A_ij）が第２の省略推定ス
テップ740に供給される。

ステップ740においては、第１の省略推定ステップ720
から平滑化確率およびステップ736からの最後の更新基
本ラベル出力および遷移確率が省略推定プロセッサ（た
とえば上述のプロセッサ600）にラベル・ストリングy₁y
₂y₃…とともに入力される。ステップ740においては、最
終的なラベル出力確率P^*（F₂（ｌ）｜A_ij）および遷移
確率P^*（A_ij）が決定される。

なお、この発明はフィーニーム・フォーン・マシーン
のマルコフ・モデルのみでなく、音声フォーン・マシー
ン等他のマルコフ・モデルにも適用できることは明らか
である。

F.発明の効果以上説明したように、この発明によれば後の話者の少
ないサンプル・データに基づいて生成された基本確率
と、コンフュージョン・マトリックスによる平滑化確率
とを補間して最終的なパラメータを得るようにしている
ので、後の話者の負担も少なく計算コストも少ない。し
かも認識精度はフル・テキストの場合に匹敵するもので
ある。

この表では２個のアルファベット文字および２個の数
字でおよその音声タイプを特徴付けている。２個の文字
はサウンドを表わす、数字２文字は母音を表わし、その
前者がストレスを、後者が特定番号を表わす。数字１文
字は子音に関連し、特定番号を表わす。

【図面の簡単な説明】

第１図は音声認識措置を示すブロック図、第２図は音声マルコフ・モデルを説明する図、第３図は単語THEのベース・フォームを構成するように
結合されたマルコフ・モデルを示す図、第４図はフォーン・マシーンがストアする情報を示す
図、第５図はコンフュージョン・マトリックスがストアする
情報を示す図、第６図はフィーニーム・マルコフ・モデルを示す図、第７図は連結されたフィーニーム・マルコフ・モデルを
表わすトレリス、第８図は学習装置を示すブロック図、第９図、第12A図、第12B図、第14図および第15図は第８
図の細部を詳細に示すブロック図、第10図、第11図、第13図、第16A図および第16B図は第８
図装置の動作を説明する図である。 208……再パラメータ化フォワード・バックワード・プ
ロセッサ、210……基本パラメータ・フォワード・バッ
クワード・プロセッサ、212、214……省略推定プロセッ
サ。

フロントページの続き (72)発明者デヴイド・ネハモーアメリカ合衆国ニユーヨーク州ホワイト・プレーンズ、エルムウツド・ロード 12番地

Claims

(57)【特許請求の範囲】

【請求項１】相継ぐ音声間隔の各々がラベル出力アルフ
ァベット中の１つのレベル出力に関連づけられ、単語が
マルコフ・モデル・フォーン・マシンのシーケンスに対
応し、各フォーン・マシンが１つの状態から他の状態ま
で延びている遷移を複数個有し、各遷移の確率と遷移に
おいて生成されるラベル出力の確率が話者毎に異なって
いるごとき音声認識装置を、標準話者によるサンプル・
テキストの発声に応答して標準話者の確率で学習させた
後にその後の話者の確率に対して学習させるための装置
であって、音声入力に応答して相継ぐ時間間隔で順次ラベルを出力
する音響プロセッサ手段と、後の話者によるサンプル・テキストの１部分の発声に応
答して前記音響プロセッサ手段により生成されたラベル
から基本ラベル出力確率値を計算する手段と、後の話者と標準話者との間で決まる類似度に基づいて後
の話者に対する平滑化ラベル出力確率を生成する手段
と、後の話者による前記サンプル・テキストの１部分の発声
に応答してラベル出力が生成された場合に平滑化ラベル
出力確率に対して基本ラベル出力確率の線形平均を求め
最終ラベル出力確率を生成する手段と、よりなる音声認識装置を学習させる装置。