JP2980228B2

JP2980228B2 - 音声認識用音響モデル生成方法

Info

Publication number: JP2980228B2
Application number: JP6284135A
Authority: JP
Inventors: 淳一鷹見
Original assignee: Victor Company of Japan Ltd
Current assignee: Victor Company of Japan Ltd
Priority date: 1994-10-25
Filing date: 1994-10-25
Publication date: 1999-11-22
Anticipated expiration: 2014-11-22
Also published as: US5799277A; JPH08123464A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声認識用音響モデル
生成方法に係わり、より特定的には、隠れマルコフモデ
ル（Hidden Markov Model ：ＨＭＭ）を用いた音声認識
において、必要最小限のモデルパラメータで最大限の音
声現象をモデル化するための各モデルの単位、状態ネッ
トワークの構造、信号源の複数状態間での共有構造およ
び信号源のパラメータを最適に決定するような音声認識
用音響モデル生成方法に関する。

【０００２】

【従来の技術】現在の音声認識技術において隠れマルコ
フモデル（以下、ＨＭＭと記載する）は、その優れた認
識性能や扱い易さの点から広く使用されている手法の一
つである。このＨＭＭを用いての高精度かつ頑健な音声
認識を行なうためには、モデルの詳細さと頑健性を如何
にして両立させるかが重要な課題となる。モデルの詳細
化のためには、音声空間全体を覆い尽くすような音素コ
ンテキストカテゴリを適切に決める必要があり、また限
られた学習用音声サンプルから頑健性の高いモデルを推
定するためには、モデルパラメータの冗長性を削減し、
必要最小限のモデルパラメータで音声の本質的な情報の
みを効率良く表現するようなメカニズムを導入する必要
がある。最近では、音素の音響パターンを変動させる要
因となる先行音素や後続音素等の音素環境まで考慮し
た、いわゆる異音を認識の基本単位とするＨＭＭも提案
されている。しかし、異音を認識の単位とする場合に
は、音素を単位とする場合に比べてモデルの数が大幅に
増加するため、学習用サンプル数に制約がある場合のモ
デル学習が一つの大きな問題となる。

【０００３】このような問題から、状態分割のみにより
適切なモデルを生成する逐次状態分割法（Successive S
tate Splitting：ＳＳＳ）が、特開平６−２０２６８７
号公報により提案されている。この逐次状態分割法（以
下、ＳＳＳと記載する）は、小規模な初期モデルから始
め、音素環境要因の直積空間に対する逐次二分割という
ガイドラインに沿って状態の分割を繰り返しながら、モ
デルの詳細化を進めていく手法である。このＳＳＳのよ
うな分割型手法の大きな利点は、音素環境カテゴリを各
環境要因の直積として定義できる点、及び分割の過程で
その階層構造を得ることができる点にある。

【０００４】

【発明が解決しようとする課題】ところで、ＨＭＭを用
いた音声認識においては、従来ではモデルの単位、モデ
ルの構造およびモデルパラメータの推定が、それぞれ独
立に、別々の評価基準の下で決定される場合がほとんど
であり、また、多くの場合、モデルの単位やモデルの構
造は、先見的な知識や経験を頼りに行なわれていた。こ
の場合、最適性の保証がなく、また再現性についても問
題があった。上記ＳＳＳを用いた場合には、このような
問題は回避できるものの、ＳＳＳは状態に対する逐次２
分割のみの処理に基づくものであったため、達成される
状態ネットワークの構造に限界があり、モデルパラメー
タから冗長性を完全に排除することができないのであ
る。例えば、図４（Ａ）に示すような、特徴Ａと特徴
Ｂ、及び特徴Ｂに良く似たＢ' と特徴Ａに良く似た特徴
Ａ' が、それぞれこの順で並んだ２通りの信号系列をモ
デル化する場合を考えると、同図（Ｂ）に示すように４
つの分布となってしまう。特徴ＡとＡ' 及びＢとＢ'
は、共有できる可能性もあるが、上記ＳＳＳでは、状態
分割のみによりモデルを生成する手法であるので、特徴
が良く似た信号源の共有化を行うことができず、モデル
パラメータから冗長性を完全には排除できなかったので
ある。

【０００５】そこで、本発明は上記の点に着目してなさ
れたものであり、状態に対する逐次２分割のみでモデル
の生成を行なうＳＳＳの欠点を克服するために、信号源
に対する分割処理と融合処理を同時に実現し、それらの
うちの一方を逐次選択しながら処理を進めることで、Ｓ
ＳＳの利点を失うことなく、より柔軟な状態ネットワー
クの構造の実現を可能にし、必要最小限のモデルパラメ
ータで最大限の音声現象を高精度かつ頑健に表現するこ
とのできる表現効率の高い音声認識用音響モデルの生成
方法を提供することを目的とするものである。

【０００６】

【課題を解決するための手段】この発明は、音声の特徴
パターンの微小単位時間内での形状である音声の静的特
徴およびその時間的な変化である音声の動的特徴を複数
の信号源の連鎖としてモデル化した隠れマルコフモデル
を用いる音声認識処理のための、音素コンテキストに依
存した音響モデルを生成する方法であって、全学習用サ
ンプルを用いて生成した小規模な初期モデルから始め、
繰り返し処理の各時点で存在している全ての信号源の中
の最も適切な２つを融合した場合に達成される全学習用
サンプルに対する評価値が、それ以前に計算されている
同数の信号源を持つモデルから得られた評価値を上回る
場合には融合処理の結果を採用する。また、もし融合処
理結果が採用されなかったならば、改めて分割処理を行
なう。この分割処理は、信号源自体の分割だけでなく、
状態に対して複数状態間での信号源の共有構造の組み替
え、音素コンテキスト方向への状態分割、時間方向への
状態分割のうち全学習用サンプルに対する評価値を最大
化するものを採用して処理を進める。以上の信号源に対
する融合と分割を繰り返しながら、モデル全体での信号
源数が、所定の値に達するまで処理を続ける。その後、
各出力確率分布の形状を実際に使用したい形状に変更す
るための処理を行なう。なお、この各出力確率分布形状
の変更処理は省略してもよい。

【０００７】そこで、上記目的を達成するための第一の
発明は、「音声の特徴パターンの微小時間内での形状で
ある音声の静的特徴およびその時間的な変化である音声
の動的特徴を１つの出力確率分布と１組の状態遷移確率
から成る信号源の連鎖としてモデル化した隠れマルコフ
モデルを用いる音声情報処理のための、音素コンテキス
トに依存した音声認識用音響モデル生成方法であって、
少ない信号源を持つ初期モデルに対する信号源の分割処
理または融合処理を逐次選択しながら繰り返すことによ
って、モデルの単位である音素コンテキストカテゴリ、
各モデルを表現するために用いる状態の数と複数モデル
間での共有関係、複数状態間での各信号源の共有関係、
および各出力確率分布の形状を、すべて共通の評価基準
の下で決定することを特徴とする音声認識用音響モデル
生成方法」を提供しようとするものである。

【０００８】また、上記目的を達成する第二の発明は、
「請求項１、請求項２または請求項３に記載の音声認識
用音響モデル生成方法において、前記融合処理を分割処
理に先だって試行し、融合処理の結果達成された学習サ
ンプルに対する評価値が、それ以前に既に得られている
融合処理の結果得られたモデルと同数の信号源を持つモ
デルから計算された評価値よりも高い場合にのみ融合処
理結果を採用し、それ以外の場合には前記融合処理の結
果を破棄してこの融合処理を行う前のモデルを用いて改
めて分割処理を行なうことを特徴とする音声認識用音響
モデル生成方法」を提供しようとするものである。

【０００９】また、上記目的を達成する第三の発明は、
「請求項１に記載の音声認識用音響モデル生成方法にお
いて、前記分割処理は、信号源を２つに分割すると共に
分割の対象となる信号源を共有している複数の状態間で
の共有構造を再構成する第一の分割方法と、音素コンテ
キストの違いによる音声の静的特徴の変動を吸収するた
めに１つの状態を異なる音素コンテキストカテゴリに対
応する２つの状態として並列方向に分割する第二の分割
方法と、ある音素コンテキストカテゴリ内で生じている
音声の動的特徴の変動を吸収するために１つの状態を異
なる音声区間に対応する２つの状態として直列に分割す
る第三の分割方法とを同時に含み、実際の音声サンプル
に対して高い評価値を達成する分割方法を逐次選択する
ことを特徴とする音声認識用音響モデル生成方法」を提
供しようとするものである。

【００１０】

【作用】この発明は、信号源の融合と分割を全学習用サ
ンプルに対する評価値の最大化という基準の下で行なう
ことによって、信号源数は局所的には増減しながら、大
局的には徐々に増加していく。その結果、モデルの精密
化が逐次的に行なわれ、最終的には、各モデルの単位や
状態ネットワークの構造、信号源の複数状態間での共有
構造および出力確率分布のパラメータが、すべて共通の
評価基準の下で最適に決定された音響モデルを自動的に
生成することができる。

【００１１】

【実施例】本発明の音声認識用音響モデル生成方法は、
音声の特徴パターンの微小単位時間内での形状（音声の
静的特徴）およびその時間的な変化（音声の動的特徴）
を複数の信号源の連鎖として表現した確率モデルに対し
て、共通の評価基準（尤度最大化）に基づいて個々の出
力確率分布を融合あるいは分割するといった処理を繰り
返すことによって、モデルの単位と状態ネットワークの
構造、信号源の複数状態間での共有構造および出力確率
分布のパラメータを同時かつ自動的に決定するものであ
る。

【００１２】最初に、本発明の音声認識用音響モデル生
成方法（以下、本方法と記載することもある）の上記Ｓ
ＳＳと異なる処理について説明する。第１に、本方法で
は、分割処理と融合処理の逐次選択を行っている。本方
法では、繰り返し計算の度に、分割処理と融合処理のう
ち、どちらが学習用サンプル全体に対する尤度の向上に
効果的であるかを判定しながら適切な処理を逐次選択し
ている。即ち、適切な二つの信号源を融合させ、学習用
サンプル全体に対する総尤度を計算する。得られた総尤
度が、融合後のモデルと同数の信号源を持つモデルによ
って既に計算されている総尤度よりも大きい場合にの
み、融合処理の結果を採用する。一方、融合処理の結果
が採用されなかった場合には、融合処理前のモデルに遡
って、改めて分割処理を行う。融合処理により信号源を
融合すれば状態数が減り、モデル適合度が下がることも
あるので融合処理の結果を採用しないこともあるが、信
号源を分割すれば状態数が増えてモデルの適合度が増加
することになるので、分割処理の結果は無条件に採用す
ることになる。なお、上記分割処理と融合処理の逐次選
択を行うため、本実施例では、繰り返し計算の度に、そ
の時点での信号源の総数と、学習用サンプル全体に対す
る総尤度との関係をメモリ上に保存しながら処理を進め
ている。

【００１３】第２に、信号源の融合処理を行っている。
この信号源の融合処理は、上記ＳＳＳにはなく、本方法
では信号源を融合することでモデルパラメータから冗長
性を排除しているのである。具体的には、以下の処理を
行っている（図２参照）。融合の対象となる二つの信号
源を選択し（図２（Ａ））、選択された二つの信号源を
融合し、新たな一つの信号源を合成する（図２
（Ｂ））。そして、融合対象となった信号源へのポイン
タを有したすべてのポインタに対し、基のポインタを新
たに合成された信号源へのものに置き換える（図２
（Ｃ））。

【００１４】更に、第３に、上記ＳＳＳとは異なる信号
源の分割処理を行っている。この信号源の分割について
は、上記ＳＳＳと基本的にはほぼ同様の処理であるが、
ＳＳＳでは、状態と信号源とが一対一に対応していたHM
net を扱っているため、複数の状態を共有した信号源に
対する分割については考慮されていない。そこで、本方
法では、このような場合の分割処理を以下の処理により
行っている（図３参照）。即ち、分割対象となる信号源
を選択する（図３（Ａ））。そして、分割対象の信号源
（２混合分布）を二つの単一分布に分けて、その信号源
を共有していた各状態に、それぞれ単一分布のうちいず
れか一方を割り当てる（図３（Ｂ））。更に、必要に応
じて共有元の状態のうちの一つを、音素コンテキスト方
向、または時間方向に分割する（図３（Ｃ））。なお、
図３（Ｂ）に示す各状態への単一分布の振り方や、同図
（Ｃ）に示す分割対象とその分割方向、及び同図（Ｂ）
の状態で打ち切るか同図（Ｃ）の状態まで行うかについ
ては、すべて尤度最大化の基準の下で決定する。また、
分割対象信号源が一つの状態で占有されている場合に
は、従来通り、同図（Ｃ）に示す処理（音素コンテキス
ト方向または時間方向の分割処理）のみを行う。

【００１５】次に、添付図面を参照して本発明の一実施
例を説明する。図１は、本発明の音声認識用音響モデル
生成方法の処理フローを示す図である。まず、ステップ
１では、初期モデルとして小規模なモデル（モデル全体
で使用されている信号源の総数Ｍ＝１）を用意する。こ
れは例えば、１個の状態（固有の音素コンテキストカテ
ゴリに対応付けられたモデル構成上の概念）と１個の信
号源（出力確率分布および状態遷移確率からなるモデル
の最小構成要素）を持つものである。そして、上記Ｍ＝
１の初期モデルをすべての学習用音素サンプルを用いて
学習する。更に、モデル全体で使用されている信号源の
総数を表す変数Ｍに１を代入し、信号源数が１の時点で
の総尤度を現すＰ₍₁₎に、学習時に計算された総尤度を
代入する（ステップ２）。以降、この信号源に対して、
分割と融合を繰り返し行なう。

【００１６】ステップ３に示す本方法の実行中に形成さ
れるモデルは、隠れマルコフ網（Hidden Markov Networ
k ：HMnet ）と呼ばれ、複数の状態のネットワークとし
て表すことができる。なお、このステップ３に示すHMne
t は、実行中に形成されるモデルの一例を示してあり、
説明を簡単にするため、モデル全体で使用されている信
号源の数Ｍ＝４で、その状態が信号源を共有していない
モデルである。このHMnet は、以下の情報により構成さ
れている。（１）HMnet の構成要素：・信号源の集合。・状態の集合。（２）信号源の構成要素：・信号源の番号（インデックス）。・出力確率分布（対角共分散行列表現の２混合ガウス分
布）。・自己ループ確率および次状態への遷移確率。（３）状態の構成要素：・状態の番号（インデックス）。・信号源へのポインタ（信号源番号）。・受理可能な音素コンテキストカテゴリ。・先行状態および後続状態のリスト。

【００１７】次に、上記ステップ３のモデルに対し融合
すべき信号源の選定を行う（ステップ４）。融合すべき
信号源の選択では、信号源間の類似性を判定するため
に、融合処理によって生成される信号源の出力確率分布
の大きさを評価尺度として利用する。２つの信号源Ｑ
_(i)とＱ_(j)の全組合せに対し、それらの出力確率分布
（共に２混合分布）を融合した場合の分布の大きさＤ_ij
を、式（１）によって近似的に求める。

【００１８】

【数１】

【００１９】Ｄ_ijの値が最小となる二つの信号源Ｑ_(i')
およびＱ_(j')を、融合処理の対象として選択する。

【００２０】ステップ４にて融合する二つの信号源が選
択されたら、それら二つの信号源を融合する（ステップ
５）。信号源の融合は、２つの信号源Ｑ_(i')とＱ_(j')を
融合し、新たな信号源Ｑ_(I)を作成することで行なう。
Ｑ_(I)の出力確率分布の第ｍ混合成分（ｍ＝１，２）の
分岐確率λ_Im、平均値μ_Imk、分散σ_Imkには、それぞ
れ式（３）〜式（５）で求められるλ' _i' 、μ'
_i'k、σ'2_i'k、およびλ' _j' 、μ' _j'k、σ'2
_j'kを使用する。また、Ｑ_(I)の自己遷移確率aI^selfと
後続状態への遷移確率aI^nextには、式（６）および式
（７）で求められる値をそれぞれ使用する。

【００２１】

【数２】

【００２２】この処理で得られたＱ_(I)は、融合前にＱ
_(i')、あるいはＱ_(j')が割り当てられていたすべての状
態で共有化する。そのための処理として、信号源へのポ
インタの値がi'、またはj'となっているすべての状態に
対し、その値をＩに置き換える。この処理によって、モ
デル全体での信号源の数は一時的にＭ−１となる。

【００２３】この時点で、信号源に対する融合処理の結
果得られたモデルを採用するか否かの判定を行なう（ス
テップ７）。融合処理結果は、融合処理後のモデルから
得られる総尤度（これをP'_(M-1)と表す）が、これ以前
の処理過程で既に計算されている（ステップ６）、総分
布数がＭ−１の時点での尤度Ｐ_(M-1)を越える場合にの
み採用される。この場合は、Ｍの値をＭ−１に変更し
（ステップ８）、モデルの再学習の処理（ステップ12）
へ進む。

【００２４】融合処理の結果が採用されなかった場合に
は、ステップ５で融合したモデルを破棄し、ステップ５
で融合処理を行なう前のモデル（ステップ３で示すモデ
ル）を対象として分割処理のフェーズに入る。実際の分
割に先だって、分割の対象となる信号源の選定を行なう
（ステップ９）。すべての信号源Ｑ_(i)に対して、その
信号源の大きさｄ_iを式（８）により算出し、ｄ_iの値
の最も大きい信号源（これをＱ_(i')とする）を分割対象
として選定する。

【００２５】

【数３】なお、上記式（８）は、融合対象の信号源を選定する際
に使用する式（１）と同じ形式になっていることが分か
るが、これは、融合対象の選定と分割対象の選定が一貫
した基準の下で行われていることを意味している。

【００２６】次に、Ｍ＝Ｍ＋１として（ステップ10）、
上記ステップ９にて選定された二つの信号源の分割及び
状態の再構成を行う（ステップ11）。Ｑ(i')をＱ(I) と
Ｑ(J) の二つの信号源に分割する。この際に、これら二
つの状態に対して、Ｑ(i')の２混合分布のそれぞれ一方
（単一分布）を出力確率分布として割り当て、Ｑ(i')の
自己遷移確率および後続状態への遷移確率の値をそのま
ま複写する。この処理で、信号源の分割が完了する。な
お、信号源を分割した場合には、状態の再構成を同時に
行なう必要がある。状態の再構成は、信号源の共有構造
のみの組替えにより達成される最大尤度Ｐ_D、一つの状
態を音素コンテキスト方向に分割した場合に達成される
最大尤度Ｐ_C、一つの状態を時間方向に分割した場合に
達成される最大尤度Ｐ_Tのうち、より大きい値を示すも
のを採用する（ステップ11-4）といった方法で行なわれ
る。これら３通りの処理を行い、最適な分割方法を選択
しているのがステップ11である。以下、その詳細を説明
する。

【００２７】ステップ11-1に示す信号源の共有構造のみ
の組替え（第一の分割方法）は、分割対象となった信号
源Ｑ_(i')が、複数の状態で共有されているものであった
場合にのみ行う必要がある処理である。この場合、これ
以降の状態分割処理（ステップ11-2、ステップ11-3）
は、すべてここでの処理の結果得られたモデルに対して
継続して行なう。また、Ｑ_(i')がただ一つの状態でのみ
使用されているものである場合には、ここでの処理を省
略し、Ｐ_Dの値を−∞として次の処理（ステップ11-4）
に進む。信号源Ｑ_(i')へのポインタを有する状態の集合
をＳと表す。ここでは、Ｓの要素に対して、Ｑ_(I)とＱ
_(J)のいずれか一方を割り当てることで、信号源共有構
造の組替えを行なう。この割り当ては、式(10)で計算さ
れる最大値Ｐ_Dを求めることによって行なわれる。

【００２８】

【数４】Ｐ_Dの値が求められた時点で、ｐ_sI（Ｙ_s）＞ｐ_sJ（Ｙ
_s）ならば状態ｓにＱ_(I)を、そうでなければ状態ｓに
Ｑ_(J)を割り当てる。

【００２９】また、ステップ11-2に示す音素コンテキス
ト方向への状態分割（第二の分割方法）は、Ｓの要素の
中の一つの状態ｓを二つの状態に分割し、それらを並列
に結合することにより行う。この場合、分割対象となっ
た状態を通る経路で表現されている学習用サンプルを、
新たに生成される状態を通る２通りの経路に振り分ける
必要がある。この振り分けは、状態ｓと、状態ｓにおい
て分割可能な音素環境要因（二つ以上の要素を持つ要
因）ｆに関して、式(11)によって計算されるＰｃを最大
化するような状態ｓ' と要因ｆ' を求め、ｆ' に属する
要素を分割することにより行う。

【００３０】

【数５】

【００３１】分割すべき状態ｓ' と、要因ｆ' が求めら
れた時点で、ｆ' の要素ａ_s'f'eをどちらの経路に振り
分けるかは、式(11)を計算する過程で既に得られている
ｑ_I（ｙ_s'f'e）およびｑ_J（ｙ_s'f'e）の値を用い、
式(12)に従って決定する。

【００３２】

【数６】

【００３３】Ａ_If′およびＡ_Jf′を定めた後、状態ｓ'
を分割して新たに生成された二つの状態Ｓ(I')、および
Ｓ(J')に対して、以下の処理を行なう。まず、これらの
状態の信号源へのポインタに、それぞれＩおよびＪを代
入する。次に、それらの音素環境情報として、要因ｆ'
に関する部分にはそれぞれＡ_If′およびＡ_Jf′を割当
て、ｆ' 以外の要因ｆには、分割前の状態ｓで保有され
ていた要因ｆの内容をそのまま複写する。以上で、音素
コンテキスト方向への状態分割が完了する。

【００３４】また、ステップ11-3に示す時間方向への状
態分割（第三の分割方法）は、Ｓの要素の中の一つの状
態ｓを二つの状態に分割し、それらを直列に結合するこ
とで行う。この場合、Ｑ_(I)とＱ_(J)のどちらを前方の
状態に割り当てるかによって２通りの可能性が考えられ
る。そこで、式(13)によって計算されるＰ_Tを最大化す
るような状態ｓ' と信号源の適用順序を決定する。

【００３５】

【数７】

【００３６】この後、状態ｓ' を分割して新たに生成さ
れた二つの状態Ｓ_(I')及びＳ_(J')に対して、以下の処理
を行なう。まず、これらの状態の信号源へのポインタ
に、それぞれＩおよびＪを代入する。次に、ｒ
_I（Ｙ_s'）＞ｒ_J（Ｙ_s'）ならば状態Ｓ_(I')を前方に、
そうでなければ状態Ｓ_(J')を前方に位置付けて、ネット
ワーク構造を再構成する。最後に、それらの音素環境情
報として、分割前の状態ｓ' で保有されていた内容をそ
のまま複写する。以上で、時間方向への状態分割が完了
する。

【００３７】以上３通りの分割処理の内、最適なものを
ステップ11-4にて選択する。なお、上述のように、ステ
ップ11-2に示す音素コンテキスト方向への分割と、ステ
ップ11-3に示す時間方向への分割は、ステップ11-1で示
す信号源の共有構造のみの組替え処理の結果得られたモ
デルに対して行われる。

【００３８】ステップ11-4にて選択されて形成されてい
たHMnet の信号源の一部には、融合処理によって近似的
に求められた２混合分布や、分割処理の過程で与えられ
た単一分布が割り当てられたままのものが含まれてい
る。そこで、信号源全体のパラメータを最適化し、次の
繰り返し処理に備えるために、融合処理あるいは分割処
理の影響が及ぶ範囲内にあるすべての信号源に対して、
その出力確率分布および状態遷移確率を再学習する（ス
テップ12）。その後、Ｐ_(M)に学習の結果達成された総
尤度を代入し（ステップ13）、モデル全体での信号源数
Ｍが所定の値に達するまで信号源に対する融合処理と分
割処理を続ける（ステップ14）。

【００３９】ここまでの処理で、HMnet の構造が決定さ
れる。この時点での各信号源の出力確率分布は、すべて
２混合ガウス分布が割り当てられている。そこで最後
に、それらの出力確率分布を、最終的に使用したい形状
（本実験ではこれを単一ガウス分布としているが、これ
を混合ガウス分布として使用しても何ら問題はない）に
変更するための学習をHMnet 全体に対して行なう（ステ
ップ15）。以上でHMnet の生成が完了する。

【００４０】

【発明の効果】以上説明したように本発明の音声認識用
音響モデル生成方法によれば、信号源の融合と分割を逐
次選択しながら繰り返すことで、必要最小限の信号源で
多様な音声現象をうまく表現することができる音響モデ
ルを、自動的に生成することができる。

【００４１】また、融合処理を分割処理に先だって試行
し、融合処理の結果達成された学習サンプルに対する評
価値が、それ以前に既に得られている融合処理の結果得
られたモデルと同数の信号源を持つモデルから計算され
た評価値よりも高い場合にのみ融合処理結果を採用し、
それ以外の場合には前記融合処理の結果を破棄してこの
融合処理を行う前のモデルを用いて改めて分割処理を行
なうことで、融合処理及び分割処理のそれぞれの利点を
失うことなく効率良くモデルを最適化できる。

【００４２】また、分割処理は、信号源を２つに分割す
ると共に分割の対象となる信号源を共有している複数の
状態間での共有構造を再構成する第一の分割方法と、音
素コンテキストの違いによる音声の静的特徴の変動を吸
収するために１つの状態を異なる音素コンテキストカテ
ゴリに対応する２つの状態として並列方向に分割する第
二の分割方法と、ある音素コンテキストカテゴリ内で生
じている音声の動的特徴の変動を吸収するために１つの
状態を異なる音声区間に対応する２つの状態として直列
に分割する第三の分割方法とを同時に含み、実際の音声
サンプルに対して高い評価値を達成する分割方法を逐次
選択することで、複数の状態で共有された信号源に対す
る分割にも対応することができる。

【図面の簡単な説明】

【図１】本発明の音声認識用音響モデル生成方法の処理
フローを示す図である。

【図２】本発明の音声認識用音響モデル生成方法の融合
処理を説明するための図である。

【図３】本発明の音声認識用音響モデル生成方法の分割
処理を説明するための図である。

【図４】従来の逐次状態分割法（ＳＳＳ）の分割処理を
説明するための図である。

【符号の説明】

１初期モデル作成ステップ４融合すべき信号源の選定ステップ５信号源の融合ステップ９分割すべき信号源の選定ステップ１１信号源の分割及び状態の再構成ステップ１１−１信号源共有構造の組み替えステップ１１−２音素コンテキスト方向への状態分割ステップ１１−３時間方向への状態分割ステップ１１−４最適分割方法の選択ステップ１２モデルの再学習ステップ１５分布形状の変更ステップ

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開平６−202687（ＪＰ，Ａ) 特開平４−326400（ＪＰ，Ａ) 特開平６−259087（ＪＰ，Ａ) 日本音響学会平成６年度秋季研究発表会講演論文集▲Ｉ▼ １−８−４「状態分割融合法による隠れマルコフ網の表現効率向上」ｐ．７−８（平成６年11 月１日国会図書館受入) 電子情報通信学会論文誌Ｖｏｌ．Ｊ −78−Ｄ−▲ＩＩ▼ Ｎｏ．５，Ｍａｙ 1995，「状態分割融合法による高効率な隠れマルコフ網の自動生成」ｐ. 717−726（平成７年５月25日発行) 電子情報通信学会論文誌Ｖｏｌ．Ｊ −76−Ｄ−▲ＩＩ▼ Ｎｏ．10，Ｏｃｔｏｂｅｒ 1993，「逐次状態分割法による隠れマルコフ網の自動生成」ｐ. 2155−2164（平成５年10月25日発行) (58)調査した分野(Int.Cl.⁶，ＤＢ名) G10L 3/00 521 G10L 3/00 535 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】音声の特徴パターンの微小時間内での形状
である音声の静的特徴およびその時間的な変化である音
声の動的特徴を１つの出力確率分布と１組の状態遷移確
率から成る信号源の連鎖としてモデル化した隠れマルコ
フモデルを用いる音声情報処理のための、音素コンテキ
ストに依存した音声認識用音響モデル生成方法であっ
て、少ない信号源を持つ初期モデルに対する信号源の分割処
理または融合処理を逐次選択しながら繰り返すことによ
って、モデルの単位である音素コンテキストカテゴリ、
各モデルを表現するために用いる状態の数と複数モデル
間での共有関係、複数状態間での各信号源の共有関係、
および各出力確率分布の形状を、すべて共通の評価基準
の下で決定することを特徴とする音声認識用音響モデル
生成方法。
【請求項２】請求項１に記載の音声認識用音響モデル生
成方法において、前記融合処理は、音響モデルの精度を劣化させることな
く信号源を減らすために類似した特性を持つ異なる２つ
の信号源を１つに融合する方法を含むことを特徴とする
音声認識用音響モデル生成方法。
【請求項３】請求項２に記載の音声認識用音響モデル生
成方法において、存在する信号源の２つ組すべてに対してそれらを合成し
て得られる音響パラメータ空間上での分布の大きさを計
算し、これが最も小さい２つの信号源を融合対象の状態
とすることを特徴とする音声認識用音響モデル生成方
法。
【請求項４】請求項１、請求項２または請求項３に記載
の音声認識用音響モデル生成方法において、前記融合処理を分割処理に先だって試行し、融合処理の
結果達成された学習サンプルに対する評価値が、それ以
前に既に得られている融合処理の結果得られたモデルと
同数の信号源を持つモデルから計算された評価値よりも
高い場合にのみ融合処理結果を採用し、それ以外の場合
には前記融合処理の結果を破棄してこの融合処理を行う
前のモデルを用いて改めて分割処理を行なうことを特徴
とする音声認識用音響モデル生成方法。
【請求項５】請求項１に記載の音声認識用音響モデル生
成方法において、前記分割処理は、信号源を２つに分割すると共に分割の
対象となる信号源を共有している複数の状態間での共有
構造を再構成する第一の分割方法と、音素コンテキスト
の違いによる音声の静的特徴の変動を吸収するために１
つの状態を異なる音素コンテキストカテゴリに対応する
２つの状態として並列方向に分割する第二の分割方法
と、ある音素コンテキストカテゴリ内で生じている音声
の動的特徴の変動を吸収するために１つの状態を異なる
音声区間に対応する２つの状態として直列に分割する第
三の分割方法とを同時に含み、実際の音声サンプルに対
して高い評価値を達成する分割方法を逐次選択すること
を特徴とする音声認識用音響モデル生成方法。