JPH01265297A

JPH01265297A - マルコフ・モデル単語ベースフオーム構築方法

Info

Publication number: JPH01265297A
Application number: JP63316619A
Authority: JP
Inventors: Lalit R Bahl; ラリツト・ライ・バール; Peter V Desouza; ピーター・ヴインセント・デソウザ; Robert L Mercer; ロバート・レロイ・マーカー; Michael A Picheny; マイケル・アラン・ピチエニイ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1987-12-16
Filing date: 1988-12-16
Publication date: 1989-10-23
Also published as: DE3878541T2; EP0321410A3; US4819271A; DE3878541D1; EP0321410B1; EP0321410A2; CA1320274C

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】Ａ、産業上の利用分野この発明はマルコフ・モデルのシーケンスから構成され
る単語ベースフォームとして、諸量単語の各々がコンピ
ュータ・メモリ中で表わされ記憶されている音声認識に
関する。

Ｂ、従来技術音声認識用にマルコフ・モデルを用いることが提案され
ている。マルコフ・モデル音声認識における基本処理は
、諸量単語の各々をマルコフ・モデルの対応するシーケ
ンスとして表わすことである。

従来各マルコフ・モデルは通常、フォニームすなわち産
学的要素を表わしていた。音声学者（人間）が、経験や
感覚に基づいて各諸量単語を音声学的要素の対応するシ
ーケンスとして定義する。

音声学的要素のシーケンスに関連するマルコフ・モデル
を連結して音声学的単語ペース・フオームを形成する。

第１図において、音声学的単語ベースフォーム１００は
単語“ＴＨＥ”用のもので、３つの音声学的マルコフ・
モデルからなるシーケンスを含む。第１のものは音声学
的要素ＤＨを示すもので、第２のものは音声学的要素Ｕ
ＨＩを表わすもので、第３のものは音声学的要素ＸＸを
表わすものである。国際音声学アルファベットは標準的
な音声学的要素をリストしている。

図においては３個の音声学的マルコフ・モデルの各々は
初期状態、最終状態およびその間の複数の状態を有し、
また状態から状態へのびるアークを有している。学習段
階で、各アークについて確率が決定され、また非空アー
ク（実線で表わされている）につきラベル出力確率が決
定される。ラベル出力確率は所与のアークが採用された
ときに１のラベルを生成するゆう度に対応する。初期の
マルコフ・モデル音声認識システムでは、たとえば米国
特許出匿第８４５１５５号のシステムでは、諸量単語の
各々は第１図に示すような音声学的マルコフ・モデルの
シーケンスとして表わされていた。認識時には、音声発
声に応じて音響プロセッサがラベルのストリングを生成
する。ラベル・ストリングが各単語の音声学的マルコフ
・モデルのシーケンスに沿って採用する種々のパスとア
ークを採用する確率およびそのアークでラベルを生成す
る確率とに基づいて、各単語のマルコフ・モデル・シー
ケンスがそのラベル・ストリングを生成するゆう度が決
定される。

音声学的マルコフ・モデルには種々の問題がある。第１
に、各単語の音声学的マルコフ・モデル・シーケンスは
音声学者の経験や感覚に大きく左右されてしまう。異な
る音声学者の間では、所与の単語に関連するマルコフ・
モデル・シーケンスが異なってしまう。第２に、音声学
的要素に関連するマルコフ・モデルは比較的複雑である
。音声学的マルコフ・モデルに基づく音声認識には膨大
な計算量が必要となる。第３に、音声学的マルコフ・モ
デルのみに基づいて１発声単語を認識する際の精度は最
適でないことである。

上述の問題を部分的に解消するには、すべての単語につ
いて近似音響マツチングを行って候補単語の小さなリス
トを生成することである。候補単語の各々についてはそ
ののち詳細な音響マツチングを行う。詳細に検討すべき
単語の数を減少させることにより、計算量を少なくする
ことができる。

これについては上述の米国特許出願８４５１５５号で検
討した。

精度を向上させ、音声学的手法による問題点を解消する
ため、異なる型のマルコフ・モデルに基づく音声認識が
提案されている。この異なる型のマルコフ・モデルを説
明するために、マルコフ・モデル音声認識システムが典
型的に音響波形（音声入力）をラベル・ストリングに変
換する音響プロセッサを有するとする。ストリング中の
ラベルはラベル・アルファベットから選択される。この
場合、各ラベルは全音声を定義するｒ次元空間中で定義
されるベクトルのクラスタに対応する。各時間間隔にお
いて、音響プロセッサはｒ個（２０のオーダ）の音声の
特徴を検査する（たとえば２０個の周波数バンドにエネ
ルギの大きさ）。ｒ個の特徴の値に基づいて、ｒ個の要
素からなる「特徴ベクトル」が定義される。そして複数
のクラスタ（たとえば２００個のクラスタ）のどれに特
徴ベクトルが属するかが決定される。各時間間隔ごとに
音響プロセッサが特徴ベクトルを生成し、この特徴ベク
トルがどのクラスタに属するかの決定がなされ、そのク
ラスタのラベルが当該時間間隔に関連付けられる。音響
プロセッサは出力としてラベル・ストリングを生成する
。

上述の異なる型のマルコフ・モデルは音声学的要素より
もラベルに関係している。すなわち、各ラベルごとにマ
ルコフ・モデルが存在する。用語ｒフィーニームＪ　　
（ｆｅｎｅｍｅ）が「ラベルに関係しているＪ　　（ｌ
ａｂｅｌ−ｒｅｌａｔｅｄ）ことを示唆するとすれば、
各ラベルに対応するフィーニーム・マルコフ・モデルが
存在する。

フィーニーム・マルコフ・モデルに基づく音声認識にお
いては、各単語はフィーニーム・マルコフ・モデルのシ
ーケンスにより表わされた単語ベースフォームの形をし
ている。音声の発声に応じて音響プロセッサによって生
成されたラベル・ストリングに対して、各単語のフィー
ニーム・マルコフ”モデル°シーケンスがマツチングさ
せられ単語のゆう度が決定される。

ラベルは音声学的要素のように容易に識別できるもので
はないから、フィーニーム・マルコフ・モデルからなる
単語ベースフォームを人間が行うのは至雅の業である。

フィーニーム単語ベースフォームは人間でなくコンピュ
ータが構築できる。

単純なアプローチは、話者が各単語につき一度ずつ発声
を行って音響プロセッサかラベル・ストリングを生成す
るようにするものである。所定の単語のストリング中の
継続したラベルについて、対応するフィーニーム・マル
コフ・モデルが一列に連結させてその単語のフィーニー
ム・マルコフ・モデル・ベースフォームが生成される。

したがってラベルＬＬ−Ｌ５−ＬＩＯ・・・Ｌ５０が発
声されたのであれば、フィーニーム・マルコフ・モデル
Ｆ工ＦｓＦ□。・・・Ｆ、がフィーニーム・マルコフ・
モデル単語ベースフォームを形成する。この型のベース
フォームを単一型（シングルトン）ベースフォームと呼
ぶ、単一型ベースフォームはさほど正確なものではない
、なぜなら単一型ベースフォームは対象単語の単一の発
声にしか基づいていないからである。単語の発声がうま
くいかなかったり、種々の発音が可能な単語の場合には
、単一型ベースフォームは満足のゆくものではない。

単一型ベースフォームを改良するのに、対象単語ごとの
複数の発声に基づいて単語ベースフオームを構築するこ
とが提案された。そのような装置および方法は上述の米
国特許出願に記載されている。そこでは、多重な発声に
基づくことから単語ベースフォームはより正確であり、
また人間の介在なしに自動的に構築できる。

Ｃ０発明が解決しようとする問題点この発明は複数の発声から単語ベースフオームを構築す
る方法をより改善し、高精度を実現する単語ベースフォ
ームを実現できるようにすることを目的としている。

Ｄ１問題点を解決するための手段　　　　　□この発明
では、対象単語の複数の発声を音響プロセッサで処理し
、複数のラベル・ストリングを生成する。このストリン
グの１つがプロトタイプ・ストリングとして選択される
（好ましくはストリング長に基づいて）。好ましくはフ
ィーニーム・マルコフ・モデルの単一型（シングルトン
）ベースフォームがプロトタイプ・ストリングから生成
される。この単一型ベースフォームは対象単語に対する
プロトタイプ・ストリング以外の複数のストリングに整
列させられ、各ストリングは継続したサブ・ストリング
に分割される（各サブ・　ストリングはゼロまたは１以
外のラベルからなる）。

継続したサブ・ストリングの各々は単一型ベースフォー
ム中の継続したモデルの１つに対応する。

複数のストリングの各々について、単一型ベースフォー
ム中の１つのフィーニーム・マルコフ・モデルに整列す
るサブ・ストリングが存在する。所定の１つのフィーニ
ーム・マルコフ・モデルに整列されられたサブ・ストリ
ングはグルーピングされる。１つのグループ内のサブ・
ストリングは一緒に検査され、１つのフィーニーム・マ
ルコフ・モデルまたは一連のフィーニーム・マルコフ・
モデルのいずれが最も高い結合確率でそのグループ内の
サブ・ストリングを生成するかが決定される。

その１つまたは一連のフィーニーム・マルコフ・モデル
はそのグループに割り当てられ、それにより単語セグメ
ントが表わされる。

継続する単語セグメント用の１個または一連のフィーニ
ーム・マルコフ・モデルは連結されて単語ベースフォー
ムを生成する。この処理は語彙中の単語に順次繰り返さ
れる。処理は自動的に行われる。

Ｅ、実施例第２図は単語を対応するマルコフ・モデルのシーケンス
として表わすシステム２００を示す。

第２図において、音響プロセッサ２０２は発声音声入力
に応じてラベルのストリングを生成する。

具体的には、音響プロセッサ２０２は複数の特定された
音声特徴について大きさを測定、すなわち計算する。各
特徴はベクトル要素を表わす、ベクトル（特徴ベクトル
とされる）は２０個の要素を持つ。継続する時間間隔に
ついて、音響プロセッサ２０２は継続する特徴ベクトル
を生成する。音響プロセッサ２０２にはプロトタイプ・
ベクトルのアルファベット（集合）が記憶されている。

アルファベットは通常２００個のプロトタイプ・ベクト
ルを含んでいる。各プロトタイプ・ベクトルは特徴ベク
トルの個別のクラスタを表わす。生成された各特徴ベク
トルには単一のクラスタが割り当てられ、単一のプロト
タイプ・ベクトルによって表わされる。プロトタイプ・
ベクトルはＬｌ、Ｌ２、Ｌ３・・・Ｌ２００のようなラ
ベルまたは何らか他の識別子で特定される。用語「フィ
ーニーム」は用語「ラベル」と同一意味で用いられる。

用語「フィーニーム」は「ラベルに関連する」ことを意
味する。

この発明によれば、１つの単語について複数の発声が音
響プロセッサ２０２に入力される。各発声について、対
応するラベル・ストリングが存在し、コンピュータ・メ
モリ中に記憶される。この点を第３図に示す。第１の単
語ＷＯＲＤＩに関して、第１の発声から対応するラベル
・ストリグし１０−　Ｌ　２０−　Ｌ　２０−　Ｌ　３
０−　Ｌ　３２−Ｌ　１８５が生成される。各ラベルは
時間間隔に対応し、時間間隔は好ましくは１００分の１
秒である。したがって各ストリングは通常６０から１０
０個のラベルを含む。単語ＷＯＲＤＩの第２の発声から
はラベル・ストリングＬ　１０−Ｌ　１０−Ｌ　１０−
Ｌ　２０−　Ｌ　３５−　Ｌ　２００　・Ｌ　Ｌが生成
される。

単語ＷＯＲＤＩの第ｎ番目の発声からはラベル・ストリ
ングＬ２０−Ｌ３０−Ｌ３２−Ｌ３１−Ｌ３２・・・Ｌ
ｌｏが生成される。繰り返し単語ＷＯＲＤ１を発声し、
異なるｎ□個のラベル・ストリングが生成される。これ
らラベル・ストリングは相互に異なる。同一の時間間隔
において測定された特徴は発声速度、発声、単語の文脈
、雑音、その他の要素の相違に応じて各発声ごとに異な
る。音響プロセッサ２０２は語紮中の膨大な数の単語の
各々について複数のストリングを生成するプロセスを繰
り返す、第３図はこの点を示している。第３図では最終
単語ＷＯＲＤＷのｎ−目の発声で終わることを示してい
る。

各単語の複数のストリングはラベル・ストリング・スト
レージ２０４　（第２図）に入力される。

ストレージ２０４中の各単語に対して、モデル学習部２
０６は当該単語のフィーニーム・マルコフ・モデルのシ
ーケンスを特定し、各フィーニーム・マルコフ・モデル
についてアーク確率値およびラベル出力確率値を決定す
る。各フィーニーム・マルコフ・モデルは有限集合をな
すフィーニーム・マルコフ・モデルの１つである。

その集合中の各マルコフ・モデルはラベル・アルファベ
ット中のラベルに対応することが望ましい。そのような
マルコフ・モデルをここでは「フィーニーム・マルコフ
轡モデル」と呼ぶ。各フル５フ・モデルは第４図に示す
ような構造を有することが望ましい。すなわち各マルコ
フ・モデルは２つの状態Ｓ１およびＳ２を有する。ＳＬ
から８１に戻るのが第１の遷移すなわち第１のアークで
あり、ｔｒｉと呼ぶ。Ｓｌから８２へ伸びるものが第２
の遷移すなわち第２のアークであり、ｔｒ、と呼ぶ。最
後の遷移すなわち最後のアークはｔｒ、であり、これも
Ｓｌから８２へと伸びる。

しかしこれは空遷移を表わす、遷移ｔｒ１およびｔｒ、
ではフィーニーム・マルコフ・モデルに対してラベルが
出力として生成されるのに対し、遷移ｔｒ、ではラベル
が生成されない。各遷移には遷移確率が割り当てられて
いる。これは、マルコフ・モデルが状態Ｓ１であるとし
て、その遷移が採られる確率である。各遷移ｔｒ工およ
びｔｒ２についてはまたラベル出力確察が割り当てられ
る。

各ラベル出力確率は各確率は各遷移において各ラベルが
出力されるゆう度を表わす。第１の遷移ｔｒ１について
は２００個の確率からなるグループがある。

これら確率の各々はアルファベット中のラベルに対応す
る。同様に、遷移ｔｒ、に対しても２００個のラベル確
率がある。空遷移ではラベルが出力されないから、遷移
ｔｒ３についてはラベル出力確率は存在しない。

フィーニーム・マルコフ・モデルの確率はモデル学習部
２０６において周知のフォワード・バンクワード・アル
ゴリズムを適用することによって決定される。これは「
学習」と呼ばれるプロセスの間に決定される統計値に基
づくものである。簡単に説明すると、既知の学習テキス
トが学習セツションで話音により発声される。学習テキ
ストは既知のシーケンスのマルコフ・モデルに対応する
ものである（確率値は初期化されている）０話音が学習
テキスト発声すると音響プロセッサ（要素２０２のよう
な）が発声テキストに応じたラベル・ストリングを生成
する。各フィーニーム・フォーンはその学習テキスト中
で極めて多くの回数発声される。そしてカウントがなさ
れる。各カウントは所定のフィーニーム・マルコフ・モ
デルが所定のラベルを生成した回数を示す。各カウント
はそれに対応するマルコフ・モデルの全頻度を考慮にい
れる。たとえばフィーニーム・マルコフ・モデルＦ１ｏ
が学習テキスト中で３回発生し、第１回目にラベルＬＩ
Ｏ−ＬＬ−ＬＩＯ−Ｌ９が生成され、第２回目にラベル
ＬＩＯが生成され、第３回目にラベルＬ９−Ｌｌ　１が
生成されるとすると、ラベルＬ１０に対するフィーニー
ム・フォーワード。のカウントは２＋１＋Ｏ＝３になる
。ラベルＬＩＯに対するカウントをフィーニーム・マル
コフ・モデルＦ工。により生成されるラベルのカウント
で割ることにより、正規化が行われる。この場合３７７
である。カウントを用いてフィーニーム・マルコフ・モ
デルの確率がフォーワード・バックワード・アルゴリズ
ムにより計算される。フォーワード・バックワード・ア
ルゴリズムの詳細については多くの論文に記載されてい
る。たとえばＦ、Ｊｅｌｉｎｅｋの“Ｃｏｎｔｉｎｕｏ
ｕｓ　５ｐｅｅｃｈ　Ｒｅｃｏｇｎｉｔｉｏｎｂｙ　５
ｔａｔｉｓｔｉｃａｌ　Ｍｅｔｈｏｄｓ”、　Ｐｒｏｃ
ｅｅｄｉｎｇ、ｓ　ｏｆ　ＩＥＥＥ、　ｖｏｌ　６４．
　ｐｐ　５３２−５５６．１９７６年およびり、Ｒ，Ｂ
ａｈｌ。

Ｆ、ＪｅｌｉｎｅｋおよびＲ，Ｌ、Ｍｅｒｃｅｒの”Ａ
　ＭａｘｉｍｕｍＬｉｋｅｌｉｈｏｏｄ　Ａｐｐｒｏａ
ｃｈ　ｔｏ　Ｃｏｎｔｉｎｕｏｕｓ　ＳｐｅｅｃｈＲｅ
ｃｏｇｎｉｔｉｏｎ”　、ＩＥＥＥ　Ｔｒａｎｓａｃｔ
ｉｏｎｓ　ｏｎ　ＰａｔｔｅｒｎＡｎａｌｙｓｉｓ　ａ
ｎｄ　Ｍａｃｈｉｎｅ　Ｉｎｔｅｌｌｉｇｅｎｃｅ、　
ｖｏｌ、　ＰＡＭＩ−５，Ｎｏ、２．１９８２年３月に
記載されている。これらについては米国出願第８４５２
０１号に概略が説明されている。

プロトタイプ・ストリング選択部２０８はプロトタイプ
・ストリングとしてラベル・ストリングの１つを選択す
る。好ましくは、プロトタイプ・ストリング選択部２０
８は対象の”　Ｗ　ＯＲＤ　ｗ　”に対して生成された
すべてのストリングの平均長に最も近い長さのラベル・
ストリングをその”ＷＯＲＤｗ”に対して選択する。こ
のプロトタイプ・ストリングはマルコフ・モデル選択部
２１０に入力される。各フィーニーム・マルコフ・モデ
ルの確率に基づいて、プロトタイプ・ストリング中の各
ラベルに応じたフィーニーム・マルコフ・モデルを選択
する。たとえば、プロトタイプ・ストリングがラベ／Ｌ
／Ｌ１０−Ｌ２０−Ｌ２０−Ｌ３０−Ｆ３２・・・Ｆ１
８５　（第３図の単語ＷＯＲＤＩの第１の発声を参照さ
れたい）を含むとすると、継続して選択されるマルコフ
・モデルはＦ工。−Ｆ　２Ｏ−Ｆ２．−　　Ｆ、。−Ｆ
３２−・・・・・・Ｆ工□になる。継続したフィーニー
ム・マルコフ・モデルを連続したものは「単一型単価ベ
ースフォーム」と呼ばれる。

たった１個のストリング中の各ラベルが１対１対に対応
するマルコフ・モデルと関連付けられているからである
。

この発明では、単一型ベースフオーム用のマルコフ・モ
デル・シーケンスは対象単語ＷＯＲＤＷ　用に記憶され
ている各ストリング（プロトタイブ・ストリングではな
い）中のラベルに対して関連付けられる。この関連付け
はビタービ・アルゴリズム整合部２１２によって行われ
る。このビタービ・アルゴリズム整合部２１２は、記憶
されている各ストリング中の継続したサブ・ストリング
を単一型ベースフォーム中に継続したマルコフ・モデル
に整列するように動作する。この点は、第３図のＷＯＲ
ＤＩについて第５図において説明しである。この場合プ
ロトタイプ・ストリングは第１発声に対応している。

第５図において、ＷＯＲＤＩの第１の発声に基づく、単
一型単語ベースフォームを構成するフィーニーム・マル
コフ・モデルはＦ工。−Ｆ２゜−Ｆ２゜−Ｆ、。−Ｆｊ
２・・・を含む。周知のビタービ整合アルゴリズムによ
れば、単語ＷＯＲＤＩの第２の発声に対応するラベル・
ストリングは単一型ベースフォーム中のフィーニーム・
マルコフ・モデルに整列させてれる。フィーニーム・マ
ルコフ・モデル用に記憶されている確率に基づいて、最
初の３つのラベルはフィーニーム・マルコフ・モデルＦ
工。

に整列する。第２の発声に対するストリングにおいては
つぎのマルコフ・モデルはラベルを出力しない。第３の
フィーニーム・マルコフ・モデルＦ２ｏはラベルＬ２゜
に整列させられる。第４番目のフィーニーム・マルコフ
・モデルＦ３゜は第２の発声に対応するストリングのラ
ベルＬ３ｓおよびＦ２００に整列させられる。整列は第
２の発声のラベルを通じて行われる。第２の発声につい
ては、ストリングが一連のサブ・ストリングに分割され
、ｉ番目のサブ・ストリング（これはゼロ、１またはそ
れ以上のラベルからなる）が継続して単一型単語ベース
フォーム中のｉ番目のフィーニーム・マルコフ・モデル
に対応することがわかる。

さらに第５図を参照すると、第３の発声もまたフィーニ
ーム・マルコフ・モデルＦ□。−Ｆ２゜−Ｆ２０　　Ｆ
３゜−Ｆ３ｚ・・・に整列させられる。第２の発声と同
様に、第３の発声に応じたストリングが一連のサブ°ス
トリングに分割され、各サブ・ストリングがフィーニー
ム・マルコフ・モデルの１つに対応する。第１番目のサ
ブ・ストリング（ｉ＝１）はラベルＬ２０およびＦ３０
を含む。第２番目のサブ・ストリングはラベルＬ３２を
含む。第３番目のサブ・ストリングはラベルＬ３１を含
む。第４番目のサブ・ストリングはラベルＬ３２を含む
。

以下同様である。

ＷＯＲＤＩの最終発声からはっぎのようなサブ・ストリ
ングが生成される。第１サブ・ストリングにはラベルは
ない。第２サブ・ストリングにはラベルＬ１およびＬｌ
が対応する。第３サブ・ストリングにはラベルＬ２０が
対応する。第４サブ・ストリングにはラベルＬ２１およ
びＦ２２が対応する。第５サブ・ストリングにはラベル
Ｌ７が対応する。以下同様である。

サブ・ストリングはストリング（そして、それに対応す
る発声）を共通のセグメントに分割するのに用いられる
。すなわち、各ストリング中のｉ番目のサブ・ストリン
グは単語ＷＯＲＤＩの同一のセグメントを表わす。サブ
・ストリング関連付部２１４はｎ□個のストリングにつ
いて第１のサブ・ストリング（ｉ＝１）をグルーピング
する。

第２のサブ・ストリング、以下も同様である。−船釣に
いえばｎ４個のストリングについて第１番目のサブ・ス
トリングがサブ・ストリング関連付部２１４によってグ
ルーピングされる。

各グループ中のサブ・ストリングに基づいて。

マルコフ・モデル構築部２１６はグループのサブ・スト
リングを最も高い結合の確率で生成する１個のマルコフ
・モデルまたは一連のマルコフ・モデルを決定する。た
とえば、再び第５図を参照しよう。第１のグループとし
て関連付けられたサブ・ストリングはＬｌｏ−ＬＩＯ−
ＬＩＯ１Ｌ２〇−Ｌ３０、・・・ラベルなしを含む。フ
ィーニーム・マルコフ・モデルまたは一連のフィーニー
ム・マルコフ・モデルがサブ・ストリングをそれぞれ最
も高い結合確率を生成するものとして決定される。

決定された１個のマルコフ・モデルまたは一連のマルコ
フ・モデルは対象単語の第１の共通セグメントに関連付
けられる。第２のグループの関連サブ・ストリングにつ
いても同様の処理が行われ、１個または一連のマルコフ
・モデルが対象単語の第２の共通セグメントに関連付け
られる。この処理は以降も継続するグループについて繰
り返され、この結果対象単語のすべての共通セグメント
の各々に１個または一連のマルコフ・モデルが関連付け
られる。

継続するグループの各々について構築されたフィーニー
ム・マルコフ・モデルはマルコフ・モデル・シーケンス
連結部２１８によって連結され、対象単語の単語ベース
フォームが生成される。対象単語用に連結部２１８によ
り構築された単語ベースフォームは複数の発声に基づく
ものであり、単一型ベースフオームに較べて著しく改善
されている。第６図のフローチャートを参照して以下説
明するように、語景中の単語についてシステム２００が
順次処理を行っていく。

第６図において、システム２００の動作が説明される。

ステップ３０２では、単語インデックス値Ｗが１にセッ
トされ語食中の第１単語を表わすことになる。第１単語
に対し、音響プロセッサ２０２（第３図）が第１単語の
ｎ。個の発声からｎ　個のストリングを生成する（ステ
ップ３０４）。ステップ３０６では、マルコフ・モデル
確率および関連統計値が計算され記憶される。これはス
テップ３０４で生成されたラベルに基づいて実行される
。ステップ３０８では、ＷＯＲＤに対しｎ個のストリン
グからプロトタイプ・ストリングが選択される。上述し
たように、プロトタイプ・ストリングは平均ストリング
長に最も近いストリングが好ましい。しかし他のストリ
ングたとえば最も短いストリング等をプロトタイプ・ス
トリングとして定義してもよい。

第７図は、プロトタイプ・ストリングを平均長ストリン
グとしたとき、その平均長ストリングを多数のストリン
グから決定する手法を示している。

第７図において、１ｕはＵ番目の発声の長さであり、ｎ
は発声の個数であり、ｊは平均長ストリングの識別子で
ある。ステップ４０２および４０４は値の初期化に関す
る。値１ａｖｅは初めゼロであり、以降、継続する発声
の長さを加算して更新されていく。この更新はすべての
発声のストリング長が加算されるまで続ける（ステップ
４０４．４０６および４０８）、平均長は合計値をｎで
割ることにより求められる（ステップ４１０）、ストリ
ング長は順次平均長に比較され、平均長に一番近いもの
が選択される（ステップ４１２から４２０）。

再度第６図を参照する。ラベル・インデックスｉはステ
ップ３１０で１に初期化される（ｉおよびｊのようなイ
ンデックス値はここでの説明の種々の場面で種々のイベ
ントを計算するものであることに留意されたい）。ステ
ップ３１２からステップ３１６において、プロトタイプ
・ストリングのｉ番目のラベルごとに対応するマルコフ
・モデルが選択される。プロトタイプ・ストリング中に
Ｎ個のラベルがあるとすると、このＮ個のラベルに対応
するＮ個のフィーニーム・マルコフ・モデルが結合され
て（ステップ３１８）単一型単語ベースフォームが生成
される。プロトタイプ・ストリング以外のストリングが
１つステップ３２０で選択される。ステップ３２０で選
択されたストリングは単一型単語ベースフォーム中のマ
ルコフ・モデルにビタービ整列させられ（ステップ３２
２）、単一型単語ベースフォーム中の継続するマルコフ
・モデルの各々に、ステップ３２０で今選ばれたストリ
ングのラベル・サブ・ストリングが対応するようになる
。ステップ３２０および３２２はラベル・ストリングご
とに繰り返し実行されていく　（ステップ３２４）。

ステップ３２０からステップ３２４の処理の詳細は第８
図に示されている。第８図において、γ のラベルとして定義されている。′１αｎ”はテキスト
発声単語中のα番目の単語のｎ番目の発声に関連するラ
ベルの個数として定義される。′ｄα″はテキスト発声
単語中のα番目の単語に関連するフィーニーム・マルコ
フ・モデルの個数とし■　　　はα番目の単語のｎ番目
の発声のに番に目のラベルの１つのマルコフ・モデルへのマツピングと
して定義される。ただし、テキスト発声単語中である。

ここでｌ　　≧に≧１、ｄα≧α　ｎｖにｎ≧１である。第８図において、ｋおよびｎは１に
初期化され、すべてのストリングＵは空ストリングに初
期化される（ステップ５０２）。各とによって更新され
る。この更新は発声中のすべてのラベルが連結されつく
すまで行われる（ステップ５０４から５０８）。たとえ
ばｎ番目の発声に１４個のラベルがあり、最初の３つの
ラベルが第１のモデルにマツピングされ、つぎの１０個
のラベルが第２のモデルにマツピングされ、最初のラベ
ルが第３のモデルにマツピングされるとしよう。ステッ
プ５０４ではＵ　　を第１のモデルをマツピングするも
のとして更新する。この更新は第１のラベルを付加して
行われる。第１のラベルを付加したのち、第２のラベル
が付加され、さらに第３のラベルが付加される。ステッ
プ５０８からステップ５０４への新しいサイクルでは第
２のモデルに関連する新しい（空の）ストリングが適用
される。このストリング中の第４番目のラベルは空のス
トリングに付加されて更新ずみストリングを生成する。

つづいて、第５、第６、第７．・・・第１６のラベルが
付加される。第３のモデルに対するつぎの（空の）スト
リングがこののち更新される。これは空ストリングに第
１６のラベルを付加して行われる。ｎ番目の発声の１４
番目（最後）のラベルののちに、ｎがステップ５１０で
増分され、つぎの発声が処理される、各発声について第
１のラベルから処理が始まり、最後のラベルで処理が終
了する（ステップ５１２および５１４）。

以上のようにして（ｎ−１）個のストリングのすべて、
すなわちプロトタイプ・ストリング以外のストリングが
継続したサブ・ストリングに分割される。この場合ｉ番
目のサブ・ストリングの各々はゼロまたは１以上のラベ
ルの長さを有し、単語ＷＯＲＤの共通のセグメントに対
応する。ｉ番目のすべてのサブ・ストリングを生成する
結合確率が最高となる。１個または一連のフィーニーム
・マルコフ・モデルが構築される（ステップ３２６から
３３２）。すなわち、共通セグメントについて順次にサ
ブ・ストリングが処理されて対応する１個または一連の
マルコフ・モデルが決定される。

第９図において、分割・勝ち残り手法（ｄｉｖｉｄｅ−
ａｎｄ−ｃｏｎｑｕｅｒ）が採用され、対象単語の所定
のｉ番目の共通セグメントに対して改善されたセグメン
ト・ベースフォームが導出される。第９図のステップを
説明しよう。第９図のフローチャートでは「フォーン」
または「フォーン・マシーン」の用語でマルコフ・モデ
ルを相称することに留意されたい。

フォーン（すなわちマルコフ・モデル）のセットが定義
されており、どのフォーンがｉ番目の共通セグメントに
対応するｉ番目のサブ・ストリングのすべてに適用され
たときにフォーン長１の最良のベースフォームを実現す
るかを決定する（ステップ６０２および６０４）。フォ
ーン長１の最良ベースフォーム（Ｐ□と呼ぶ）は、セッ
ト中の各フォーンを吟味し、各フォーンについてｉ番目
のサブ・ストリングの各々を生成する確率を求めること
によって見出される。個別のフォーンの各々につき導出
されたｎ個の確率は掛は合わされ（第２図のシーケンス
構築部２１６のプロセッサによって行う）、個別のマル
コフ・モデルすなわちフォーンに割り当てられる結合確
率が生成される。最も大きな結合確率を有するフォーン
が長さ１の最良ベースフオームＰ工として選択される。

フォーンＰｉを維持したままで、Ｐ１Ｐ２またはＰ２Ｐ
Ｌの形を有する長さ２の最良ベースフォームをステップ
６０６で求める。すなわちセット中の各フォーンをＰｌ
の前および後に付加し、各フォーン対についての結合確
率を導出する。フィーニーム・ストリングを最大の結合
確率で生成するフォーン対が最良と判断される。

ステップ６０８では、長さ２の最良ベースフォーム、す
なわち最大の結合確率を有するフォーン対について周知
のビタービ整合のような整合を行う。簡単にいえば、整
列はｉ番目の各サブ・ストリング中のどのラベルがフォ
ーン対の各フォーンに対応するかを示す。

整列に続いて、ｉ番目の各サブ・ストリングにおける一
致点が判別される。ｉ番目の各サブ・ストリングについ
て一致点はフォーンＰ□およびＰ２（長さ２の最良ベー
スフォームの）が合致する点として定義される。以上の
かわりに、−散点は、ｉ番目の各サブ・ストリングを右
がわのフォーンに整列する右がね部分と左がねフォーン
に整列する左がね部分とに分割する点と考えることがで
きる。ここでｉ番目のす入てのサブ・ストリングの左が
ね部分は単語の共通セグメントを表わし、ｉｔｊ目のす
べてのサブ・ストリングの右がね部分も単語の共通セグ
メントを表わす（ステップ６１０参照）。

ステップ６１２においては、左がわ部分および右がわ部
分は別々に処理される。ただしそれぞれ「左がわサブ・
ストリング」および右がわサブ・ストリングとして同様
に処理される。これらには上述の分割・勝ち残り手法が
適用される。

左がねサブ・ストリングに対しては最良の単一フォーン
・ベースフォームＰＬが見出される（ステップ６１４）
。フォーンＰ　Ｌをそのままにして、セット中の各フォ
ーンがその前および後に付加されて配列フォーン対が生
成される。配列対Ｐ　Ｐ　またはＰ　Ａ　Ｐ　Ｌが、左
がねサブ・ストリＡフグ中のラベルを生成する結合確率が最大のものとして
見出される（ステップ６１６）、先で示唆されるようう
に、これが左がねサブ・ストリングに対する長さ２の最
良ベースフォームを表わす。

左がわサブ・ストリングに対する長さ２の最良ベースフ
ォームの結合確率はＰＬ固有の結合確率と比較される（
ステップ６１８）。ＰＬの結合確率のほうが大きいなら
、フォーンＰＬが連結ベースフォーム中に配置される（
ステップ６２０）。

ステップ６１８でＰ　の結合確率の方が小さいなら、Ｐ
Ｐ　　またはＰＰ　　が左がねサブ・ストＬＡ　　　　
　ＡＬリングに整列させられる（ステップ６２２）。左がわサ
ブ・ストリングにおける一致点が見出され。

各人がねサブ・ストリングは新しい左がわ部分と新しい
右がわ部分に分割される部分と新しい右がわ部分に分割
される（ステップ６２４）。

同様の手順は、最初に分割したｉ番目のサブ・ストリン
グの右がわ部分の各々にも実行される。

単一の最良ベースフォームＰ　（ステップ６２６）はフ
ォーン長２の最良ベースフォームＰＰ　　またはＰＢＰ
Ｒと比較される（ステップＢ６２８および６３０）、ＰＲの結合確率のほうが大きい
なら、フォーンＰＲが結合ベースフォーム中に配置され
る（ステップ６２０）。そうでなければ整列が実行され
、右がねサブ・ストリングの各々が一致点で分割される
（ステップ６３２および６３４）。

分割サイクルは、長さ２の最良ベースフォームが最良単
一フォーン・ベースフォームより大きな結合確率を有す
る右がねサブ・ストリングおよび左がわサブ・ストリン
グの各々について繰り返される。最良の単一フォーンの
みが残った点でサイクルは終了する。最良の単一フォー
ンがステップ６２０で連結される。

単一フォーン・ベースフォームはそれらが表わすサブ・
ストリングと同じ順番で連結される。連結されたベース
フォームは基本単語セグメント・ベースフォームを表わ
す。

基本連結ベースフォームを改善することができる。この
改善では、基本連結ベースフォームが初めのｉ番目のサ
ブ・ストリングに整列させられる（ステップ６４０）、
ｉ番目のサブ・ストリングはフォーンすなわちマルコフ
・モデルが合致する点で分割される（ステップ６４２）
、分割の各々において、新しい最良フォーンが決定され
る（ステップ６４４）、すなわち各フォーンに確率が付
与されると、分割部分のラベルを最大の確率で生成する
フォーンが既知の方法で決定される。整列のゆえに、分
割部分中のラベルに対する最良の単一フォーンは、先に
整列され連結されたベースフォーム中の単一フォーンと
異なるかもしれない。

新しい最良フォーンが連結ベースフォーム中のフォーン
と同一であれば（ステップ６４６）、新しい最良フォー
ンが第２図のシーケンス構築部２１６のプロセッサによ
って改善された単語セグメント・ベースフォーム中に配
置される（ステップ６４８）、新しい最良フォーンが先
に連結されたベースフォーム中のフォーンと異なるなら
ば、新しい最良フォーンで基本連結ベースフォーム中の
先のフォーンを置き換え（ステップ６４８）、ステップ
６４０から６４６までの処理を繰り返す。ステップ６４
６ですべての分割部分について「イエス」の出力が生じ
たときに、フォーン結果を改善単語セグメント・ペース
フォーン中に連結する（ステップ６５２）。第６図のス
テップ３３４において、ｉ番目の各共通セグメント用に
構築された１個または一連のフィーニーム・マルコフ・
モデルが連結され、単語ベースフォームが生成される。

ステップ３３６からステップ３３８では、ステップ３０
４からステップ３３４の処理に準じて語彙中の継続した
単語についての単語ベースフォームが構築される。

動作においては、単語ベースフォームはコンピュータ・
メモリ中にフィーニーム・マルコフ・モデルのシーケン
スとして記憶される。たとえば、１の単語はＦ、−Ｆ工
。−Ｆｌ。・・・のシーケンスとして記憶される。各フ
ィーニーム・マルコフ・モデルの確率もメモリ中に記憶
される。

マルコフ・モデル確率ストレージモデルＦ。

状態　Ｓｌアーク　　ｔｒｉＡｒｃｐｒｏｂ１ｐｒｏｂ２ｐｒｏｂ３ｐｒｏｂＬ２０（ｌｐｒｏｂアーク　ｔｒ２Ａｒｃｐｒｏｂ１ｐｒｏｂ２ｐｒｏｂ３ｐｒｏｂＬ２００ｐｒｏｂアーク　ｔｒ３ＡｒｃｐｒｏｂモデルＦＧモデルＦ□。

状態　Ｓｌアーク　　ｔｒｉＡｒｃｐｒｏｂ１ｐｒｏｂ２ｐｒｏｂ３ｐｒｏｂＬ２００ｐｒｏｂアーク　ｔｒ２ＡｒｅｐｒｏｂｌｐｒｏｂＬ２ｐｒｏｂＬ３ｐｒｏｂＬ２００ｐｒｏｂアーク　ｔｒ３ＡｒｃｐｒｏｂモデルＦ　２００状態　Ｓｌアーク　　ｔｒｉＡｒｃｐｒｏｂ１ｐｒｏｂＬ２ρｒｏｂ３ｐｒｏｂＬ２００ｐｒｏｂアーク　ｔｒ２Ａｒｃｐｒｏｂ１ｐｒｏｂ２ｐｒｏｂ３ｐｒｏｂＬ２００ｐｒｏｂアーク　ｔｒ３Ａｒｃｐｒｏｂこの発明にしたがって単語ベースフォームが決定され、
またフィーニーム・マルコフ・モデルの確率が記憶され
ると、音響マツチングを単語ベースフォームと発声ラベ
ルとの間で行って音声認識を行う、ハードウウアの構成
はつぎのようなものである。

ヘースフォーム成長手順はＩＢＭ３０９０メイン・フレ
ーム上ＰＬＩ言語を用い以下のメモリ要請のもと実現し
た。

ヒドン・マルコフ・モデル統計用ストレージ２００キロ
・バイトラベル・ストレージ１０／バイト／ラベル→１キロ・バイト／単ｎ２０００
単語語量で発声を１０回したがって２００メガ・バイト単一型フィーニーム・ベースフォーム１キロ・バイト／ベースフォーム２００００単語語食したがって２０メガ・バイト

【図面の簡単な説明】

第１図音声学的マルコフ・モデル単語ベースフォームを
説明する図、第２図はこの発明の一実施例を全体として
示すブロック図、第３図は複数発声により生成されるラ
ベルの説明する図、第４図はこの発明で用いるフィーニ
ーム・マルコフ・モ′　デルを説明する図、第５図はラ
ベル・ストリングを単一型ベースフォームに整列させる
ようすを示す図、第６図は第６Ａ図および第６Ｂ図の組
み合わせ図、第６Ａ図および第６Ｂ図はこの発明の手法
を示すフローチャート、第７図は第６Ａ図および第６Ｂ
図のプロトタイプ・ストリングの選択方法を示すフロー
チャート、第８図はラベル・スト１　　リングのグルー
ピングを説明するフローチャート、第９図は第９Ａ図お
よび第９Ｂ図の組み合わせ図、第９Ａ図および第９Ｂ図
は各単語セグメント用の最良マルコフ・モデルまたはマ
ルコフ・モデル・シーケンスを決定するフローチャート
である。出願人　　インターナショナル・ビジネス・マシーンズ
・コーポレーション復代理人　　弁理士　　澤　　１）　俊　　夫音声入力第２図第９Ａ図

Claims

【特許請求の範囲】音声入力に基づいてラベル・ストリングを生成する音響
プロセッサを有するマルコフ・モデル音声認識システム
において、つぎのステップを有することを特徴とするマ
ルコフ・モデル単語ベースフォーム構築方法。（ａ）一組のマルコフ・モデルの各々について、アーク
確率およびラベル出力確率を計算しコンピュータ・メモ
リに記憶するステップ。上記マルコフ・モデルの各々はそれぞれ１つのラベルに
対応し、複数の状態およびこれら状態から状態へ延びる
複数のアークを有する。（ｂ）語彙中の対象単語のｎ個の発声に応じてｎ個のラ
ベル・ストリングを上記音響プロセッサを用いて生成す
るステップ。（ｃ）上記複数のラベル・ストリングのうち１つを選択
するステップ。（ｄ）選択されたラベル・ストリング中の継続するラベ
ルに対応するマルコフ・モデルを順に連結し連結シーケ
ンスを生成し記憶するステップ。（ｅ）上記確率に基づいて選択されたラベル・ストリン
グ以外の上記ラベル・ストリングの各々の、ゼロ個また
は１個以上のラベルからなる継続したサブ・ストリング
を上記連結シーケンス中の継続したマルコフ・モデルに
整列させるステップ。（ｆ）上記ラベル・ストリングを、上記ラベル・ストリ
ングの各々のｉ番目の共通セグメントがｉ番目の共通サ
ブ・ストリングに対応するように、継続した共通セグメ
ントに分割するステップ。（ｇ）上記選択されたラベル・ストリングのｉ番目のラ
ベルおよび他のラベル・ストリングのｉ番目のサブ・ス
トリングに基づいてｉ番目の共通セグメント用の１個ま
たは一連のマルコフ・モデルを構築するステップ。