JPH0782348B2

JPH0782348B2 - 音声認識用サブワードモデル生成方法

Info

Publication number: JPH0782348B2
Application number: JP4064296A
Authority: JP
Inventors: 淳一鷹見; 茂樹嵯峨山
Original assignee: 株式会社エイ・ティ・アール自動翻訳電話研究所
Priority date: 1992-03-21
Filing date: 1992-03-21
Publication date: 1995-09-06
Anticipated expiration: 2010-09-06
Also published as: US5677988A; DE4241688A1; JPH06202687A; DE4241688C2

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は音声認識用サブワード
モデル生成方法に関する。より特定的には、この発明は
隠れマルコフモデル（Hidden Markov Model : HMM ）を
用いた音声認識において、最小限のモデルパラメータで
最大限の音声現象をモデル化する効率のよいモデルを生
成するための、各モデルの単位，構造および各出力確率
密度分布パラメータを最適に決定するような音声認識用
サブワードモデル生成方法に関する。

【０００２】

【従来の技術】ＨＭＭを用いての高精度かつ頑健な音声
認識を行なうためには、いかにして詳細なモデルの生成
と頑健なモデルの推定を同時に実現するかということが
重要な課題となる。モデルの詳細化のためには、音声空
間全体を覆うような異音クラスを適切に決める必要があ
り、また、限られた学習サンプルから頑健性の高いモデ
ルを推定するためには、学習サンプルの持つ情報を効率
よく取込めるメカニズムを導入する必要がある。

【０００３】

【発明が解決しようとする課題】ＨＭＭを用いた音声認
識においては、従来ではモデルの単位およびモデルの構
造およびモデルのパラメータ推定が、それぞれ独立に、
別々の評価基準の下で決定されていた。たとえば、モデ
ルの単位については、知識に基づく決定（音素，半音
節，音素コンテキスト）、あるいは歪み最小化に基づく
決定（音素環境クラスタリングにおける音素環境）など
の評価基準で決められていた。また、モデルの構造は、
知識に基づく決定（全モデルが同一，あるいは数通りの
構造で表現）、あるいは類似度を基準とした状態共有化
などによって決定されていた。さらに、モデルのパラメ
ータは、forward-backwardアルゴリズムによる最尤推定
によって決定されていた。このため、それぞれの評価基
準の間に共通性がなく、全体としての最適性の保証がな
いという問題点があった。

【０００４】それゆえに、この発明の主たる目的は、モ
デルのパラメータ推定と同じ尤度最大化の基準の下で、
同時かつ自動的に決定することにより、モデルの表現方
法を最適化し、最小限のモデルパラメータで最大限の音
声現象をモデル化する効率のよい音声認識用サブワード
モデルの生成方法を提供することである。

【０００５】

【課題を解決するための手段】この発明は音声の特徴パ
ターンの微小単位時間内での形状である音声の静的特徴
およびその時間的な変化である音声の動的特徴を複数の
出力確率密度分布の連鎖としてモデル化した隠れマルコ
フモデルを用いる音声情報処理のための、音素コンテキ
ストに依存したサブワードモデルを生成する方法であっ
て、少数の状態を持つ初期モデルは、すべての学習デー
タを用いた学習により生成し、この時点で存在している
すべての状態に対して、その状態に割当てられている分
布の大きさを算出し、この最も大きい状態を被分割状態
として決定する。決定した被分割状態を２つの状態に分
割し、状態分割の方向は、実際の音素サンプルに対し
て、コンテキスト方向へ分割した場合に得られる最大の
評価値および時間方向へ分割した場合に得られる最大の
評価値をそれぞれ求め、より大きい評価値が得られた方
の分割方向を採用する。このようにして状態分割により
決定された隠れマルコフ網全体の構造の制約の下で、各
出力確率密度分布パラメータおよび遷移確率を最適化す
るための再学習を行ない、すべての状態数が所定の数に
達するまで、上述の分布の大きさを算出して最も大きい
状態を被分割状態とする以下の処理を繰返す。隠れマル
コフ網の構造決定が終了した後、最後に各状態に割当て
ている出力確率密度分布を、実際に使用したい形状に変
更するための学習を行なう。

【０００６】

【作用】この発明にかかる音声認識用サブワードモデル
の生成方法は、状態の分割を繰返すことにより、逐次的
にモデルの精密化を進めていくことができ、モデルの単
位と構造およびモデルのパラメータが共通の評価基準の
下で自動的に最適化され、その結果表現効率の高いサブ
ワードモデルを生成することができる。

【０００７】

【発明の実施例】図１はこの発明の原理を説明するため
のフロー図である。この発明は、音声の特徴パターンの
微小単位時間内での形状（音声の静的特徴）およびその
時間的な変化（音声の動的特徴）を複数の出力確率密度
分布（状態）の連鎖として表現した確率モデルに対し
て、一定の評価基準（尤度最大化）に基づいて個々の状
態を分割するといった操作を繰返すことによって、モデ
ルの精密化を逐次的に行なおうというものである。これ
により、モデルの単位決定とそのモデルの構造決定およ
び各状態のパラメータ推定を共通の評価基準の下で同時
に実現することができる。

【０００８】図１を参照して、より具体的に説明する。
まず、初期モデル１として、ただ１つの状態と、その状
態を始端から終端まで結ぶ１本のパスからなるモデル２
をすべての音声サンプルから形成し、この状態を分割す
ることから始める。

【０００９】この時点における状態の分割は、パスの分
割を伴うコンテキスト方向への分割３あるいはパスの分
割を伴わない時間方向の分割４の内のいずれか一方に関
して行なわれる。特に、コンテキスト方向への分割３時
には、パスの分割に伴ったそれぞれのパスに割当てられ
るコンテキストクラスも同時に分割される。実際の分割
方法としては、コンテキストクラスの分割方法も含めて
この時点で可能なすべての分割方法の中から音声サンプ
ルに適用した場合の尤度の総和が最も大きくなる分割方
法の決定５が採用される。このような状態分割を繰返す
ことによって、少ない状態数で高い尤度を達成すること
のできる効率のよいモデル６が生成される。

【００１０】上述の逐次状態分割法により移動生成され
る隠れマルコフ網は、複数の状態のネットワークとして
表わすことができる。個々の状態は、音声空間上の１つ
の確率的定常信号源と見なすことができ、それぞれ以下
の情報を保有している。

【００１１】状態番号受理可能なコンテキストクラス先行する状態および後続する状態のリスト音声の特徴空間上に割当てられた確率分布のパラメ
ータ自己遷移確率および後続状態への遷移確率隠れマルコフ網では、入力データとそのコンテキスト情
報が与えられた場合、そのコンテキストを受理すること
ができる状態を先行および後続状態リストの制約内で連
結することによって、入力データに対するモデルを一意
に決定することができる。このモデルは図２に示すよう
な隠れマルコフモデルと等価であるため、通常の隠れマ
ルコフモデルと同様に尤度計算のための前向きパスアル
ゴリズムやパラメータ推定のためのforward-backwardア
ルゴリズムをそのまま使用することができる。

【００１２】以下に、逐次状態分割法の実現アルゴリズ
ムについて詳細に説明する。図３は初期モデルの学習方
法を説明するための図である。初期モデルとして、混合
数２の混合ガウス分布（対角共分散行列）を持つ１つの
状態（この状態の番号を０とし、状態番号０の状態をＳ
（０）と表わす）の隠れマルコフモデルが、すべての学
習データを用いてforward-backwardアルゴリズムにより
学習される。同時に、学習データに含まれるすべてのコ
ンテキストクラスの情報が各状態に保存され、先行状態
リストおよび後続状態リストに、それぞれ始端および終
端を表わす記号が加えられる。さらに、全状態数を表わ
す変数Ｍに１が代入される。

【００１３】図４は被分割状態の決定を説明するための
図である。上述の初期モデルの学習の時点で存在してい
るすべての状態ｉに対して、その状態に割当てられてい
る分布の大きさｄ_iが次の第（１）式により算出され、
分布の大きさｄ_iの値の最も大きい状態（これをＳ
（ｍ）とする）が被分割状態として決定される。

【００１４】

【数１】

【００１５】なお、このときの尺度ｄ_iは、状態ｉにお
ける分布に単一ガウス分布をあてはめて計算した場合の
分散に相当する値σ_ik ²の他に、その分布の推定に用い
られた音素サンプル数ｎ_iをも考慮したものとなってい
る。この結果、分布の推定時に少数のサンプルしか使用
することができなかった状態に対しては、それ以上の分
割が行なわれにくくなり、統計的な頑健性の向上を図る
ことができる。

【００１６】図５はコンテキスト方向への状態分割を説
明するための図であり、図６は時間方向への状態分割を
説明するための図である。状態Ｓ（ｍ）は状態Ｓ′
（ｍ）と状態Ｓ（Ｍ）の２つの状態に分割される。この
際に、これら２つの状態に対して状態Ｓ（ｍ）に割当て
られている２つの分布のうちのそれぞれ一方が確率分布
パラメータとして割当てられ、状態Ｓ（ｍ）が保有して
いる自己遷移確率および後続状態への遷移確率の値がそ
のまま複写される。状態分割の方向は、実際の音素サン
プルに対して、コンテキスト方向へ分割した場合に得ら
れる最大尤度Ｐｃおよび時間方向へ分割した場合に得ら
れる最大尤度Ｐｔがそれぞれ求められ、より大きい尤度
が得られた方の分割方向が採用される。最大尤度Ｐｃお
よびＰｔの算出は以下の方法によって行なわれる。

【００１７】コンテキスト方向への状態分割（Ｐｃの算
出）は、図５に示すように、状態Ｓ′（ｍ）と状態Ｓ
（Ｍ）を並列に結合することによって行なわれる。この
場合、それと同時にパスの分割も行なわれるため、状態
Ｓ（ｍ）を通るパスで表現されていた音声サンプルＹを
新たに生成された状態Ｓ′（ｍ）を通るパスと、状態Ｓ
（Ｍ）を通るパスとに振分ける必要がある。この振分け
は、次の第（２）式によって計算される最大値Ｐｃを実
現する要因ｊ（先行音素，当該音素，後続音素など）を
求め、要因ｊに属する要素を分割することによって行な
われる。

【００１８】

【数２】

【００１９】分割すべき要因ｊが決定した時点で、要因
ｊの要素ｅ_jlをどちらのパスに振分けるかは、第（２）
式を計算する過程ですでに計算されているＰｍ（ｙ_jl）
および尤度の総和ｐ_m（ｙ_jl）の値を用い、第（３）式
にしたがって決定される。

【００２０】

【数３】

【００２１】要素の集合Ｅ_mjおよびＥ_Mjが定まった後、
状態Ｓ′（ｍ）および状態Ｓ（Ｍ）のコンテキスト情報
として、要因ｊに関する部分には、それぞれ要素の集合
Ｅ_mjおよび要素の集合Ｅ_Mjが割当てられ、ｊ以外の部分
にはＳ（ｍ）で保有されていた情報がそのまま複写され
る。

【００２２】時間方向への分割（Ｐｔの算出）は、図６
に示すように、状態Ｓ′（ｍ）と状態Ｓ（Ｍ）を直列に
結合することによって行なわれる。この場合状態Ｓ′
（ｍ）と状態Ｓ（Ｍ）のいずれを前に位置付けるかによ
って２通りの可能性が考えられる。そこで、状態Ｓ
（ｍ）を通るパス上で表現されていた音素サンプルＹに
対して、第（４）式により計算される最大値Ｐｔを実現
する方法が採用される。

【００２３】

【数４】

【００２４】なお、時間方向への分割では、パスの分割
を伴わないため、状態Ｓ′（ｍ）および状態Ｓ（Ｍ）の
コンテキスト情報には状態Ｓ（ｍ）で保有されていたも
のがそのまま複写される。

【００２５】図７は分布の再推定を説明するための図で
ある。この時点での状態Ｓ′（ｍ）と状態Ｓ（Ｍ）の分
布には、分割処理により単一ガウス分布が割当てられた
ままになっている。そこで、これらの混合数２の混合ガ
ウス分布に再形成され、その条件下で隠れマルコフ網を
最適化するために、図７に示すように、状態Ｓ（ｍ）の
分割の影響が及ぶ範囲内で、状態の確率分布パラメータ
および遷移確率が再学習される。その後、状態Ｓ′
（ｍ）が改めて状態Ｓ（ｍ）と表わされ、変数Ｍに１が
加えられる。変数Ｍが所定の分割数に達するまで、上述
の被分割状態の決定ないし分布の再推定の処理が繰返さ
れる。

【００２６】図８は分布の変更を説明するための図であ
る。ここまでの処理で隠れマルコフ網の構造決定が終了
する。そこで、最後に、各状態に割当てられている確率
分布は、実際の隠れマルコフ網で使用したい最終的な形
状（必ずしも単一ガウス分布である必要はない）に変更
するための学習が、隠れマルコフ網全体に対して行なわ
れる。このようにして、隠れマルコフ網の生成が完了す
る。

【００２７】

【発明の効果】以上のように、この発明によれば、状態
の分割を繰返すことにより、逐次的にモデルの精密化を
進めていくことができ、モデルの単位と構造およびモデ
ルのパラメータが共通の評価基準の下で自動的に最適化
され、その結果表現効率の高いサブワードモデルを生成
することができる。

【図面の簡単な説明】

【図１】この発明の原理を説明するための図である。

【図２】隠れマルコフモデルの構造を示す図である。

【図３】初期モデルの学習方法を説明するための図であ
る。

【図４】被分割状態の決定を説明するための図である。

【図５】コンテキスト方向への状態分割を説明するため
の図である。

【図６】時間方向への状態分割を説明するための図であ
る。

【図７】分布の再推定を説明するための図である。

【図８】分布の変更を説明するための図である。

【符号の説明】

１初期モデル２被分割状態の決定３コテキスト方向への分割４時間方向への分割５尤度を最大化する分割方法の決定６隠れマルコフ網

Claims

【特許請求の範囲】

【請求項１】音声の特徴パターンの微小単位時間内で
の形状である音声の静的特徴およびその時間的な変化で
ある音声の動的特徴を複数の出力確率密度分布の連鎖と
してモデル化した隠れマルコフモデルを用いる音声情報
処理のための、音素コンテキストに依存したサブワード
モデル生成方法であって、初期隠れマルコフモデルを持つ少数の状態に対する分割
を繰返すことによって、各モデルに割当てるモデルの単
位である音素コンテキストクラス、各モデルを表現する
ために用いる状態の数と複数のモデル間での状態の共有
関係、および各モデルの持つ出力確率密度分布の形状
を、すべて共通の評価基準の下で決定することを特徴と
する、音声認識用サブワードモデル生成方法。
【請求項２】前記分割は、前記音素コンテキストの違
いによる音声の静的特徴の変動を吸収することを目的と
して１つの状態を異なる音素コンテキストクラスに対応
する２つの状態として並列方向に分割する方法と、ある
音素コンテキストクラス内で生じている音声の動的特徴
の変動を吸収することを目的として１つの状態を異なる
音声区間に対応する２つの状態として直列方向に分割す
る方法を含み、実際の音声サンプルに対して高い評価値を達成する方向
への状態分割を繰返すことによって、モデルの構造を逐
次的に精密化していくことを特徴とする、請求項１の音
声認識用サブワードモデル生成方法。
【請求項３】前記音素コンテキスト方向への状態分割
時には、それに伴って実際の音素コンテキストクラスに
関する分割も行ない、実際の音声サンプルに対して最も
高い評価値を達成するように分割された２つの音素コン
テキストクラスを、それぞれ状態分割により生成された
２つの状態の一方に割当てることにより、モデルの単位
を逐次的に細分化していくことを特徴とする、請求項１
の音声認識用サブワードモデル生成方法。
【請求項４】各出力確率密度分布として混合数２の混
合ガウス分布を割当て、前記状態分割により新たに生成
される２つの状態に、その混合ガウス分布を構成する２
つの分布のうちのそれぞれ一方の単一ガウス分布を割当
てることにより、状態分割後の出力確率密度分布パラメ
ータの再推定に要する計算量の大幅な削減を実現するこ
とを特徴とする、請求項１の音声認識用サブワードモデ
ル生成方法。
【請求項５】実際の状態分割に先立って、その時点で
存在するすべての状態の音声パラメータ空間上での大き
さを計算し、これが最も大きい状態を被分割状態として
決定することにより、最適な被分割状態を決定するため
に必要な総当り的な計算を回避し、計算量の大幅な削減
を実現することを特徴とする、請求項１の音声認識用サ
ブワードモデル生成方法。
【請求項６】前記状態分割を行なう度に、状態分割に
より生じた単一ガウス分布を元の混合数２の混合ガウス
分布に戻し、その条件下でモデルのパラメータ全体を最
適化するための再学習部を持つことを特徴とする、請求
項４の音声認識用サブワードモデル生成方法。
【請求項７】前記状態分割が終了し、最終的なモデル
の単位および構造が決定した後、各状態に割当てられて
いる混合数２の混合ガウス分布を最終的に使用する出力
確率密度分布の形状に置換えるための再学習部を持つこ
とを特徴とする、請求項１の音声認識用サブワードモデ
ル生成方法。