JP4442211B2

JP4442211B2 - 音響モデル作成方法

Info

Publication number: JP4442211B2
Application number: JP2003415440A
Authority: JP
Inventors: 正信西谷; 康永宮澤; 弘松本; 一公山本
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2003-12-12
Filing date: 2003-12-12
Publication date: 2010-03-31
Anticipated expiration: 2023-12-12
Also published as: JP2005173392A; US20050131694A1

Description

本発明は、音響モデルとして混合連続分布型ＨＭＭ（隠れマルコフモデル）を作成する
音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムおよびその音響モ
デルを用いた音声認識装置に関する。

音声認識においては、音響モデルとして音素ＨＭＭや音節ＨＭＭを用い、この音素ＨＭ
Ｍや音節ＨＭＭを連結して、単語や文節、文といった単位の音声言語を認識する方法が一
般的に行われている。特に最近、より高い認識性能を持つ音響モデルとして、混合連続分
布型ＨＭＭが広く使われている。

一般的に、ＨＭＭは１個から１０個の状態とその間の状態遷移から構成されている。そ
れぞれの状態でのシンボル（ある時刻の音声特徴ベクトル）の出現確率の計算において、
混合連続分布型ＨＭＭでは、ガウス分布数が多いほど認識精度が高くなるが、ガウス分布
数が多ければその分、パラメータ数も多くなり計算量やメモリ使用量が増大するという問
題がある。これは処理能力の低いプロセッサや小容量のメモリを用いざるを得ない安価な
機器に音声認識機能を搭載する場合、特に大きな問題となる。

また、一般的な混合連続分布型ＨＭＭでは、すべての音素（または音節）ＨＭＭの全状
態でガウス分布数が同じであるため、学習用音声データが少ない音素（または音節）ＨＭ
Ｍでは過学習が起こり、該当する音素（音節）で認識性能が低くなるという問題もある。

このように、混合連続分布型ＨＭＭではそれぞれの音素（または音節）の全状態におい
てガウス分布数が一定であるのが一般的である。

一方、認識精度を高めるため、それぞれの状態におけるガウス分布数はある程度の数が
必要である。しかしながら、上述したように、ガウス分布数が多ければその分、パラメー
タ数も多くなり計算量やメモリ使用量が増大するという問題もあるので、ガウス分布数を
むやみに増やせないのが現状である。

そこで、音素（または音節）ＨＭＭにおいて、それぞれの状態ごとにガウス分布数を最
適化することが考えられる。たとえば、音節ＨＭＭを例にとれば、ある音節ＨＭＭを構成
するそれぞれの状態において、認識に大きく影響を与える部分の状態とそれほど大きな影
響を与えない状態が存在することを考慮して、認識に大きく影響を与える部分の状態はガ
ウス分布数を多くし、認識にそれほど大きな影響を与えない状態はガウス分布数を少なく
することが考えられる。
このように、音素（または音節）ＨＭＭにおいてそれぞれの状態ごとにガウス分布数を
最適化しようとする技術の一例として、下記の非特許文献１に記載の技術がある。
篠田浩一、磯健一、"ＭＤＬ基準を用いたＨＭＭサイズの削減"、２００２年春季研究発表会、日本音響学会講演論文集、２００２年３月、７９〜８０頁

上述の非特許文献１に記載の技術は、それぞれの状態において、認識に対する寄与の少
ない部分におけるガウス分布数を削減することについて記載されており、簡単に言えば、
十分な学習用音声データ量で学習された大きなガウス布数を持つＨＭＭを用意し、その状
態ごとのガウス分布数の木構造を作成し、それぞれの状態ごとに記述長最小（ＭＤＬ：Ｍ
ｉｎｉｍｕｍＤｅｓｃｒｉｐｔｉｏｎＬｅｎｇｔｈ）基準を用いて記述長を求め、こ
の記述長が最小となるガウス分布数の集合を選ぶものである。

この従来技術によれば、確かに、音素（または音節）ＨＭＭにおいてそれぞれの状態ご
とにガウス分布数を効果的に削減することができ、しかも、それぞれの状態におけるガウ
ス分布数の最適化が可能となり、ガウス分布数の削減によるパラメータ数の削減を可能と
しながらも高い認識率を維持できると考えられる。

しかしながら、この従来技術は、状態ごとのガウス分布数数の木構造を作成し、その木
構造の分布の中からＭＤＬ基準による記述長を最小とするガウス分布集合（ノードの組み
合わせ）を選択するというものであるため、ある状態において最適なガウス分布数を得る
ためのノードの組み合わせ数は極めて多く、それぞれの組み合わせごとに記述長を求める
ために多くの演算を行う必要がある。

なお、このＭＤＬ基準は、モデル集合｛１，・・・，ｉ，・・・，Ｉ｝とデータχ^Ｎ＝
｛χ_１，・・・，χ_Ｎ｝が与えられたときのモデルｉを用いた記述長ｌｉ（χ^Ｎ）が、特
許請求の範囲に記載した（１）式のように定義される。

ＭＤＬ基準は、この記述長ｌｉ（χ^Ｎ）が最小であるモデルが最適なモデルであるとし
ているが、この従来技術では、ノードの組み合わせが極めて多くなる可能性があることか
ら、最適なガウス分布集合を選択する際に、その（１）式を近似した記述長計算式を用い
て、ノードの組み合わせで構成されるガウス分布集合の記述長を求めている。このように
、近似式によってノードの組み合わせで構成されるガウス分布集合の記述長が求められる
と、求められた結果の精度に多少の問題が生じる場合もあると考えられる。

本発明は、それぞれの音素（または音節）ＨＭＭのそれぞれの状態ごとのガウス分布数
をＭＤＬ基準を用いて最適分布数に設定可能とすることで、少ない演算量で高い認識性能
が得られるＨＭＭの作成が可能な音響モデル作成方法、音響モデル作成装置、音響モデル
作成プログラムを提供するとともに、それによって作成された音響モデルを用いることに
より、演算能力やメモリ容量などハードウエア資源に大きな制約のある安価なシステムに
適用できる音声認識装置を提供することを目的としている。

（１）本発明の音響モデル作成方法は、ＨＭＭ（隠れマルコフモデル）を構成するそれ
ぞれの状態のガウス分布数をそれぞれの状態ごとに最適化して、その最適化されたガウス
分布数を有するＨＭＭを生成する音響モデル作成方法であって、複数のＨＭＭのそれぞれ
の状態ごとにガウス分布数をある増加規則に基づいて逐次的に増加させて、あるガウス分
布数に設定する分布数設定ステップと、該分布数設定ステップによって、あるガウス分布
数に設定されたそれぞれのＨＭＭのそれぞれの状態ごとに学習用音声データとの対応付け
を行って対応付けデータを作成する対応付けデータ作成ステップと、該対応付けデータ作
成ステップによって作成された対応付けデータと、現時点のガウス分布数を有するそれぞ
れのＨＭＭのそれぞれの状態について記述長最小基準を用いて記述長を求め、それを現時
点記述長として出力するとともに、前記現時点の直前のガウス分布数を有するそれぞれの
ＨＭＭのそれぞれの状態について記述長最小基準を用いて記述長を求め、それを直前記述
長として出力する記述長算出ステップと、該記述長算出ステップによって算出された前記
現時点記述長および前記直前記述長の大きさの比較を行い、その比較の結果に基づいて、
それぞれのＨＭＭのそれぞれの状態ごとに最適なガウス分布数を設定する最適分布数決定
ステップとを含むことを特徴としている。

これによって、それぞれのＨＭＭのそれぞれの状態において最適な分布数の設定が可能
となり、認識性能を改善することができる。特に、本発明のＨＭＭは、Ｌｅｆｔ−ｔｏ−
Ｒｉｇｈｔ型の単純な構造のＨＭＭであるのが大きな特長であり、それによって、認識ア
ルゴリズムも単純化することができる。また、単純な構造のＨＭＭであるので、低価格や
低消費電力化にも寄与でき、かつ、汎用の認識ソフトウエアを利用することも容易である
ことから、幅広い認識装置への適用が可能となり、互換性に優れたものとすることができ
る。

また、本発明は、それぞれのＨＭＭにおいて、それぞれの状態ごとに分布数をある増加
規則に基づいて逐次的に増加させて行き、現時点記述長と直前記述長を求めて、その比較
結果に基づいて最適分布数を決定するようにしているので、分布数の最適化処理の効率化
を図ることができる。

（２）前記（１）に記載の音響モデル作成方法において、前記記述長最小基準は、モデ
ル集合｛１，・・・，ｉ，・・・，Ｉ｝とデータχ^Ｎ＝｛χ_１，・・・，χ_Ｎ｝（ただし
、Ｎはデータ長）が与えられたときのモデルｉを用いた記述長ｌｉ（χ^Ｎ）が、一般的な
式として、前記（１）式で表され、この記述長を求める一般的な式において、前記モデル
集合｛１，・・・，ｉ，・・・，Ｉ｝は、前記ＨＭＭのそれぞれの状態の分布数がある値
から最大分布数までの複数種類に設定されたＨＭＭの集合であるとして考え、ここで、前
記分布数の種類の数がＩ種類（ＩはＩ≧２の整数）であるとき、前記１，・・・，ｉ，・
・・，Ｉは、１番目の種類からＩ番目の種類までのそれぞれの種類を特定するための符号
であって、前記（１）式を、前記１，・・・，ｉ，・・・，Ｉのうちのｉ番目の分布数の
種類を有するＨＭＭの記述長を求める式として用いるようにしている。

これによって、あるＨＭＭのそれぞれの状態の分布数をある値から分布数をある増加規
則に基づいて逐次的に増加させるようにしたとき、それぞれの分布数に設定されたＨＭＭ
に対する記述長を容易に計算することができる。

（３）前記（２）の音響モデル作成方法において、前記記述長を求める式として、前記
（１）式を変形した前記（２）式を用いることが好ましい。
この（２）式は、記述長を求める一般的な式としての（１）式において、右辺の第２項
に重み係数αを乗じ、かつ、定数を表す右辺の第３項を省略したものである。このように
、定数を表す右辺の第３項を省略することによって、記述長を求める計算をより簡略化す
ることができる。

（４）前記（３）の音響モデル作成方法において、前記（２）式のαは、最適な分布数
を得るための重み係数としている。
この最適な分布数を得るための重み係数αを可変することによって、第２項の単調増加
の傾きを可変（αを大きくするほど傾きが大きくなる）することができ、記述長ｌｉ（χ
^Ｎ）を可変させることができる。これによって、たとえば、αをより大きくなるように設
定すれば、分布数がより小さい場合に記述長ｌｉ（χ^Ｎ）が最小になるように調整するこ
とができる。

（５）前記（２）から（４）のいずれかに記載の音響モデル作成方法において、前記デ
ータχ^Ｎは、前記ある値から最大分布数までのうちのある任意の分布数を有するＨＭＭと
多数の学習用音声データとをそれぞれの状態ごとに時系列的な対応付けを行って得られる
それぞれの学習用音声データの集合としている。

このように、ある任意の分布数を有するそれぞれのＨＭＭを用い、そのＨＭＭとそのＨ
ＭＭに対応する多数の学習用音声データとを時系列的な対応付けを行って得られた学習用
音声データを（１）式のデータχ^Ｎとして用いて記述長を計算することで精度よく記述長
を求めることができる。

（６）前記（２）から（５）のいずれかに記載の音響モデル作成方法において、前記記
述長算出ステップは、前記現時点のガウス分布数を有するそれぞれのＨＭＭに対し、前記
対応付けデータを用いて前記それぞれのＨＭＭのそれぞれの状態の総フレーム数と総尤度
を求め、この総フレーム数と総尤度を前記（２）式に代入して前記現時点記述長を求める
とともに、前記直前に設定されたガウス分布数を有するそれぞれのＨＭＭに対し、前記対
応付けデータを用いて前記ＨＭＭのそれぞれの状態の総フレーム数と総尤度を求め、この
総フレーム数と総尤度を前記（２）式に代入して前記直前記述長として求めるようにして
いる。

これによって、現時点の分布数を有するＨＭＭの記述長と直前の分布数を有するＨＭＭ
の記述長を適正に求めることができ、それによって、その分布数が最適か否かの判定を適
正に行うことができる。

（７）前記（１）から（６）のいずれかに記載の音響モデル作成方法において、前記最
適分布数決定ステップは、前記現時点記述長と前記直前記述長との大きさを比較した結果
、前記直前記述長が前記現時点記述長よりも小さい場合は、前記直前のガウス分布数をそ
の状態における最適分布数とし、前記現時点記述長が前記直前記述長よりも小さい場合は
、前記現時点のガウス分布数をその状態におけるその時点の仮の最適分布数としている。

このように、直前記述長が現時点記述長よりも小さい場合は、該直前に設定されたガウ
ス分布数を前記状態における最適分布数とし、現時点記述長が直前記述長よりも小さい場
合は、該現時点のガウス分布数をその状態におけるその時点の仮の最適分布数とすること
によって、それぞれの状態における最適分布数を効率よく設定することができ、分布数の
最適化に必要な演算量を削減することができる。

（８）前記（７）に記載の音響モデル作成方法において、前記分布数設定ステップは、
最適分布数であると判定された状態についはそのガウス分布数を該最適分布数で保持し、
仮の最適分布数であると判定された状態について、そのガウス分布数を前記ある増加規則
に従って増加させるようにしている。

これにより、最適分布数であると判定された状態についてはそれ以降の分布数増加処理
を行わないので、分布数の最適化に必要な処理の効率化を図ることができ、演算量を削減
することができる。

（９）前記（６）から（８）のいずれかに記載の音響モデル作成方法において、前記記
述長算出ステップが行う記述長算出の前段階の処理として、前記現時点のガウス分布数を
有するそれぞれのＨＭＭのそれぞれの状態の総フレーム数と前記直前のガウス分布数を有
するそれぞれのＨＭＭのそれぞれの状態の総フレーム数との平均のフレーム数を求める平
均フレーム数算出ステップと、現時点のガウス分布数を有するそれぞれのＨＭＭのそれぞ
れの状態ごとの総尤度の正規化を行って正規化された尤度を求めるとともに、前記直前の
ガウス分布数を有するそれぞれのＨＭＭのそれぞれの状態ごとの総尤度の正規化を行って
正規化された尤度を求める正規化尤度算出ステップとを有することが望ましい。

このように、前記（２）式に代入する総フレーム数として、現時点のガウス分布数を有
するそれぞれのＨＭＭのすべての状態の総フレーム数と前記直前のガウス分布数を有する
それぞれのＨＭＭのすべての状態の総フレーム数の平均フレーム数を用い、また、前記（
２）式に代入する総尤度として、現時点のガウス分布数を有するそれぞれのＨＭＭのそれ
ぞれの状態ごとに正規化された総尤度（正規化尤度）と、直前のガウス分布数を有するそ
れぞれのＨＭＭのそれぞれの状態ごとに正規化された総尤度（正規化尤度）を用いること
によって、それぞれのＨＭＭのそれぞれの状態の記述長をより高精度に求めることができ
る。

（１０）前記（１）から（９）のいずれかに記載の音響モデル作成方法において、前記
複数のＨＭＭは、それぞれの音節に対応した音節ＨＭＭであることが望ましい。
本発明の場合、音節ＨＭＭとすることによって演算量の削減などの効果が得られる。た
とえば、音節の数を１２４音節とした場合、音素の数（２６から４０個程度）に比べると
、数の面では音節の方が多いが、音素ＨＭＭの場合、トライフォンモデルを音響モデル単
位として用いることが多く、このトライフォンモデルは、ある音素の前後の音素環境を考
慮して１つの音素として構成されるので、あらゆる組み合わせを考慮すると、そのモデル
数は数千個となり、音響モデル数としては音節モデルの方がはるかに少なくなる。

ちなみに、音節ＨＭＭの場合、それぞれの音節ＨＭＭを構成する状態数は子音を含む音
節の場合が平均的には５個程度、母音だけで構成される音節の場合が平均的は３個程度で
あるのが一般的であるので、合計の状態数は約６００程度であるが、トライフォンモデル
の場合は、状態数の合計は、モデル間で状態共有を行い、状態数を削減した場合であって
も数千個にものぼる。

このことから、ＨＭＭを音節ＨＭＭとすることによって、記述長を求める計算は勿論の
こと、全般的な演算量の削減を図ることができ、また、トライフォンモデルに遜色ない認
識精度が得られるといった効果が得られる。なお、本発明は音素ＨＭＭにも適用できるこ
とは勿論である。

（１１）前記（１０）記載の音響モデル作成方法において、前記音節ＨＭＭにおいて、同
一子音や同一母音を有する複数の音節ＨＭＭに対し、これらの音節ＨＭＭを構成する状態
のうち、同一子音を有する音節ＨＭＭ同士においては、それら音節ＨＭＭにおける初期状
態またはこの初期状態を含む複数の状態を共有し、同一母音を有する音節ＨＭＭ同士にお
いては、それら音節ＨＭＭにおける自己ループを有する状態の最終状態またはこの最終状
態を含む複数の状態を共有することも可能である。

これによって、パラメータ数のより一層の削減が可能となり、それによって、演算量の
削減、使用メモリ量の削減、処理速度の高速化がより一層図れ、さらに、低価格、低消費
電力化の効果もより大きなものとなる。

（１２）本発明の音響モデル作成装置は、ＨＭＭ（隠れマルコフモデル）を構成するそ
れぞれの状態のガウス分布数をそれぞれの状態ごとに最適化して、その最適化されたガウ
ス分布数を有するＨＭＭを生成する音響モデル作成装置であって、複数のＨＭＭのそれぞ
れの状態ごとにガウス分布数をある増加規則に基づいて逐次的に増加させて、あるガウス
分布数に設定する分布数設定手段と、該分布数設定手段によって、あるガウス分布数に設
定されたそれぞれのＨＭＭのそれぞれの状態ごとに学習用音声データとの対応付けを行っ
て対応付けデータを作成する対応付けデータ作成手段と、該対応付けデータ作成手段によ
って作成された対応付けデータと、現時点のガウス分布数を有するそれぞれのＨＭＭのそ
れぞれの状態について記述長最小基準を用いて記述長を求め、それを現時点記述長として
出力するとともに、前記現時点の直前のガウス分布数を有するそれぞれのＨＭＭのそれぞ
れの状態について記述長最小基準を用いて記述長を求め、それを直前記述長として出力す
る記述長算出手段と、該記述長算出手段によって算出された前記現時点記述長および前記
直前記述長の大きさの比較を行い、その比較の結果に基づいて、それぞれのＨＭＭのそれ
ぞれの状態ごとに最適なガウス分布数を設定する最適分布数決定手段とを含むことを特徴
としている。
この音響モデル作成装置においても、前記（１）に記載の音響モデル作成方法と同様の
効果が得られる。

（１３）本発明の音響モデル作成プログラムは、ＨＭＭ（隠れマルコフモデル）を構成
するそれぞれの状態のガウス分布数をそれぞれの状態ごとに最適化して、その最適化され
たガウス分布数を有するＨＭＭを生成する音響モデル作成プログラムであって、その音響
モデル作成プログラムは、複数のＨＭＭのそれぞれの状態ごとにガウス分布数をある増加
規則に基づいて逐次的に増加させて、あるガウス分布数に設定する分布数設定手順と、該
分布数設定手順によって、あるガウス分布数に設定されたそれぞれのＨＭＭのそれぞれの
状態ごとに学習用音声データとの対応付けを行って対応付けデータを作成する対応付けデ
ータ作成手順と、該対応付けデータ作成手順によって作成された対応付けデータと、現時
点のガウス分布数を有するそれぞれのＨＭＭのそれぞれの状態について記述長最小基準を
用いて記述長を求め、それを現時点記述長として出力するとともに、前記現時点の直前の
ガウス分布数を有するそれぞれのＨＭＭのそれぞれの状態について記述長最小基準を用い
て記述長を求め、それを直前記述長として出力する記述長算出手順と、該記述長算出手順
によって算出された前記現時点記述長および前記直前記述長の大きさの比較を行い、その
比較の結果に基づいて、それぞれのＨＭＭのそれぞれの状態ごとに最適なガウス分布数を
設定する最適分布数決定手順とを含むことを特徴としている。
この音響モデル作成プログラムにおいても、前記（１）に記載の音響モデル作成方法と
同様の効果が得られる。

また、前記（１２）に記載の音響モデル作成方法または前記（１３）に記載の音響モデ
ル作成プログラムにおいても、前記（１）式を、前記１，・・・，ｉ，・・・，Ｉのうち
のｉ番目の分布数の種類を有するＨＭＭの記述長を求める式として用いることができ、か
つ、この（１）式を変形した前記（２）式を用いることが可能である。なお、該（２）式
のαは、最適な分布数を得るための重み係数である。また、前記（１）式または（２）式
におけるデータχ^Ｎは、前記ある値から最大分布数までのうちのある任意の分布数を有す
るＨＭＭと多数の学習用音声データとをそれぞれの状態ごとに時系列的な対応付けを行っ
て得られるそれぞれの学習用音声データの集合である。

また、（１２）に記載の音響モデル作成装置における記述長算出手段または（１３）に
記載の本発明の音響モデル作成プログラムにおける記述長算出手順は、前記現時点のガウ
ス分布数を有するそれぞれのＨＭＭに対して、前記対応付けデータを用いて前記それぞれ
のＨＭＭのすべての状態の総フレーム数と総尤度を求め、これを前記（２）式に代入して
前記現時点記述長を求めるとともに、前記直前のガウス分布数を有するそれぞれのＨＭＭ
に対して、前記対応付けデータを用いて前記それぞれのＨＭＭのすべての状態の総フレー
ム数と総尤度を求め、これを前記（２）式に代入して前記直前記述長として求める処理を
行う。

また、（１２）に記載の音響モデル作成装置における最適分布数決定手段または（１３
）に記載の本発明の音響モデル作成プログラムにおける最適分布数決定手順は、前記現時
点記述長と前記直前記述長との大きさを比較した結果、直前記述長が現時点記述長よりも
小さい場合は、前記直前のガウス分布数を前記状態における最適分布数とし、現時点記述
長が直前記述長よりも小さい場合は、前記現時点のガウス分布数を前記状態におけるその
時点の仮の最適分布数とする処理を行う。

また、（１２）に記載の音響モデル作成装置における分布数設定手段または（１３）に
記載の本発明の音響モデル作成プログラムにおける分布数設定手順は、前記最適分布数で
あると判定された状態についはそのガウス分布数を該最適分布数で保持し、仮の最適分布
数であると判定された状態について、そのガウス分布数を前記増加規則に従って増加させ
る処理を行う。

また、（１２）に記載の音響モデル作成装置における記述長算出手段が行う記述長算出
処理の前段階の処理または（１３）に記載の本発明の音響モデル作成プログラムにおける
記述長算出手順にて行われる記述長算出処理の前段階の処理として、前記現時点のガウス
分布数を有するそれぞれのＨＭＭのそれぞれの状態の総フレーム数と前記直前のガウス分
布数を有するそれぞれのＨＭＭのそれぞれの状態の総フレーム数との平均のフレーム数を
求める処理と、現時点のガウス分布数を有するそれぞれのＨＭＭのそれぞれの状態ごとの
総尤度の正規化を行って正規化された尤度を求めるとともに、前記直前のガウス分布数を
有するそれぞれのＨＭＭのそれぞれの状態ごとの総尤度の正規化を行って正規化された尤
度を求める処理を行うようにすることも可能である。

また、（１２）に記載の音響モデル作成装置または（１３）に記載の本発明の音響モデ
ル作成プログラムにおいて用いられるＨＭＭは音節ＨＭＭであることが望ましい。また、
その音節ＨＭＭにおいて、同一子音や同一母音を有する複数の音節ＨＭＭに対し、これら
の音節ＨＭＭを構成する状態のうち、同一子音を有する音節ＨＭＭ同士においては、それ
ら音節ＨＭＭにおける初期状態またはこの初期状態を含む複数の状態を共有し、同一母音
を有する音節ＨＭＭ同士においては、それら音節ＨＭＭにおける自己ループを有する状態
の最終状態またはこの最終状態を含む複数の状態を共有することも可能である。

（１４）本発明の音声認識装置は、入力音声を特徴分析して得られた特徴データに対し
音響モデルとしてＨＭＭ（隠れマルコフモデル）を用いて前記入力音声を認識する音声認
識装置であって、前記音響モデルとしてのＨＭＭとして、前記請求項１から請求項１１の
いずれかに記載の音響モデル作成方法によって作成されたＨＭＭを用いることを特徴とし
ている。

このように、本発明の音声認識装置は、上述の本発明の音響モデル作成方法によって作
成された音響モデル（ＨＭＭ）用いる。このＨＭＭがたとえば音節ＨＭＭであるとすれば
、それぞれの音節ＨＭＭのそれぞれの状態ごとに最適な分布数を有しているので、すべて
の分布数が一定となっているＨＭＭに比べ、それぞれの音節ＨＭＭにおけるパラメータ数
を大きく削減することができ、認識性能も向上する。

また、この音節ＨＭＭは、Ｌｅｆｔ−ｔｏ−Ｒｉｇｈｔ型の単純な構造の音節ＨＭＭで
あるので、認識アルゴリズムも単純化することができ、演算量の削減、使用メモリ量の削
減が可能となり、処理速度の高速化、低価格化、低消費電力化も可能となる。これによっ
て、ハードウエア資源に大きな制約のある小型・安価なシステムに特に有用な音声認識装
置とすることができる。

以下、本発明の実施の形態について説明する。なお、この実施形態で説明する内容は、
本発明の音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムおよび音
声認識装置の説明をすべて含むものである。また、本発明は音素ＨＭＭと音節ＨＭＭの両
方に適用可能であるが、以下に示す実施形態では音節ＨＭＭについて説明する。

また、本発明では、それぞれの音節（ここでは１２４音節とする）に対応する音節ＨＭ
Ｍを構成するそれぞれの状態のガウス分布数（以下では、単に分布数という）を最適化す
るものであり、この分布数の最適化を行う際に、分布数をある値から任意の値まで、ある
増加規則に従って増加させて行くことを行う。その増加規則は、分布数がたとえば１から
順に２，３，４，・・・というように１つずつ増加するような規則とするなど種々設定す
ることができるが、以下に示す実施形態では、１，２，４，８，・・・というような２の
べき乗で増加するものとして説明する。また、最大分布数はこの実施形態では６４である
とする。

図１は以下の実施形態の説明で用いられる分布数の増加規則を説明する図であり、分布
数の増加の順番を表すインデクス番号ｎとそのインデクス番号ｎのときの分布数Ｍ（ｎ）
とを対応付けて示すものである。

この図１からもわかるように、インデクス番号ｎ＝１のときの分布数はＭ（ｎ）＝Ｍ（
１）でこれは分布数１であることを示し、インデクス番号ｎ＝２のときの分布数はＭ（ｎ
）＝Ｍ（２）でこれは分布数２であることを示し、インデクス番号ｎ＝３のときの分布数
はＭ（ｎ）＝Ｍ（３）でこれは分布数４であることを示し、インデクス番号ｎ＝４ときの
分布数はＭ（ｎ）＝Ｍ（４）でこれは分布数８であることを示し、インデクス番号ｎ＝５
のときの分布数はＭ（ｎ）＝Ｍ（５）でこれは分布数１６であることを示し、インデクス
番号ｎ＝６のときの分布数はＭ（ｎ）＝Ｍ（６）でこれは分布数３２であることを示し、
インデクス番号ｎ＝７ときの分布数はＭ（ｎ）＝Ｍ（７）でこれは分布数６４であること
を示している。

このインデクス番号ｎは前述の（１）式または（２）式において、モデル集合{１，・
・・，ｉ，・・・Ｉ}のｉに相当するものである。この実施形態では、最大分布数は６４
であり、これは、Ｍ（７）＝分布数６４であるので、モデル集合{１，・・・，ｉ，・・
・Ｉ}のＩはＩ＝７である。
なお、以下の実施形態では、インデクス番号と分布数の関係は、たとえば、インデクス
番号ｎ＝１のときの分布数は、図１に示すように、Ｍ（１）＝分布数１、インデクス番号
ｎ＝２のときの分布数はＭ（２）＝分布数２というように表す。

〔実施形態１〕
実施形態１について図１から図１５を参照しながら説明する。まず、この実施形態１の
全体的な処理手順について、主に図２のフローチャートおよび図３の構成図を参照しなが
ら説明する。

初期の音節ＨＭＭモデルとして、それぞれの音節に対応する音節ＨＭＭのそれぞれの状
態の分布数を分布数Ｍ（１）＝分布数１とした音節ＨＭＭセットを構築し、その音節ＨＭ
Ｍセットに対しＨＭＭ学習部２が多数の学習用音声データでなる学習用音声データ１と音
節ラベルデータ３（この音節ラベルデータ３はそれぞれの学習用音節データを構成する音
節列が記述されている）を用いて最尤推定法により学習を行い学習済みの分布数Ｍ（１）
＝分布数１の音節ＨＭＭセット（これを音節ＨＭＭセット４（１）とする）を作成する（
ステップＳ１）。
なお、図３の構成図において、破線で示す矢印（信号の流れを示す矢印）は初期の音節
ＨＭＭ（分布数１の音節ＨＭＭ４（１））のデータの流れを示している。

図４はこの学習済みの分布数Ｍ（１）＝分布数１の音節ＨＭＭセット４（１）に属する
それぞれの音節ＨＭＭ（音節/ａ/の音節ＨＭＭ、音節/ｋａ/の音節ＨＭＭ、・・・）を模
式的に示したものである。この図４では、分布数Ｍ（１）＝分布数１のそれぞれの音節に
対応する音節ＨＭＭは、自己ループを有する状態がＳ０，Ｓ１，Ｓ２の３つの状態で構成
されており、これら３つの状態Ｓ０，Ｓ１，Ｓ２は、図示の楕円枠Ａで示すように、この
時点ではそれぞれが分布数Ｍ（１）＝分布数１となっている。

図２に説明が戻って、現時点におけるインデクス番号ｎが最大インデクス番号（これを
ここではｋで表す）に達したか否か（ｎ＜ｋ）を判定し（ステップＳ２）、現時点におけ
るインデクス番号ｎが最大インデクス番号に達していれば処理を終了するが、ｎ＜ｋであ
れば、当該音節ＨＭＭセット４（１）に属するそれぞれの音節ＨＭＭのそれぞれの状態の
分布数を分布数設定部５により、ｎ＝ｎ＋１する。すなわち、分布数Ｍ（ｎ）＝Ｍ（ｎ＋
１）とし、これを現時点の音節ＨＭＭセット（この現時点の音節ＨＭＭセットを音節ＨＭ
Ｍセット４（ｎ）と表す）とし、その音節ＨＭＭセット４（ｎ）に属するそれぞれの音節
ＨＭＭをＨＭＭ再学習部６によって再学習する（ステップＳ３）。これによって、この時
点では、再学習された分布数Ｍ（２）＝分布数２の音節ＨＭＭセットが作成される。

このステップＳ３により作成された再学習済みの分布数Ｍ（ｎ）（この時点では、分布
数Ｍ（２）＝分布数２）の音節ＨＭＭセットとそれぞれの学習用音声データ１との対応付
け（音節ラベルデータ３も用いる）を行い、その対応付けデータとしてのアライメントデ
ータＡ（ｎ）を作成する（ステップＳ４）。このアライメントデータＡ（ｎ）は対応付け
データ作成手段としてのアライメントデータ作成部７によって作成されるもので、このア
ライメントデータ作成処理については後述する。

そして、記述長計算部８ではステップＳ４で作成されたアライメントデータＡ（ｎ）と
、現時点の分布数Ｍ（ｎ）を有する音節ＨＭＭセット４（ｎ）のパラメータと、現時点の
直前の分布数Ｍ（ｎ−１）を有する音節ＨＭＭセット（これを音節ＨＭＭセット４（ｎ−
１）とする）のパラメータとを用いて、分布数Ｍ（ｎ−１）の音節ＨＭＭセット４（ｎ−
１）に属するそれぞれの音節ＨＭＭについて、個々の音節ＨＭＭを構成するそれぞれの状
態ごとに、総フレーム数と総尤度を計算し、その計算結果を用いて記述長ＭＤＬ（Ｍ（ｎ
−１））を求め、さらに、ステップＳ４で作成されたアライメントデータＡ（ｎ）を用い
て、分布数Ｍ（ｎ）の音節ＨＭＭセット４（ｎ）に属するそれぞれの音節ＨＭＭについて
、個々の音節ＨＭＭを構成するそれぞれの状態ごとに、総フレーム数と総尤度を計算し、
その計算結果を用いて記述長ＭＤＬ（Ｍ（ｎ））を求める（ステップＳ５）。この記述長
の計算処理については後述する。

そして、ステップＳ５によって、それぞれの状態における現時点の分布数Ｍ（ｎ）、す
なわち、分布数Ｍ（２）＝分布数２における記述長ＭＤＬ（Ｍ（ｎ））と、その直前（イ
ンデクス番号が１つ前）の分布数Ｍ（ｎ−１）、すなわち、分布数Ｍ（１）＝分布数１に
おける記述長ＭＤＬ（Ｍ（ｎ））とが求められたら、最適分布数決定部９が個々の状態ご
とに記術長ＭＤＬ（Ｍ（ｎ））と記述長ＭＤＬ（Ｍ（ｎ−１））とを比較して、最適分布
数を決定する処理を行う（ステップＳ６〜Ｓ１０）。なお、説明の都合上、記述長ＭＤＬ
（Ｍ（ｎ−１））を直前記述長、記述長ＭＤＬ（Ｍ（ｎ））を現時点記述長と呼ぶことに
する。

最適分布数決定部９は、それぞれ状態ごとに、直前記述長ＭＤＬ（Ｍ（ｎ−１））と現
時点記述長ＭＤＬ（Ｍ（ｎ））について、記述長比較処理として、ＭＤＬ（Ｍ（ｎ−１）
）＜ＭＤＬ（Ｍ（ｎ））を判定する処理を行う（ステップＳ７）、その判定の結果、ＭＤ
Ｌ（Ｍ（ｎ−１））＜ＭＤＬ（Ｍ（ｎ））、つまり、直前記述長ＭＤＬ（Ｍ（ｎ−１））
の方が現時点記述長（ＭＤＬＭ（ｎ））よりも小さければ、分布数Ｍ（ｎ−１）をその状
態の最適分布数とする（ステップＳ８）。

また、逆に、ある状態において、ＭＤＬ（Ｍ（ｎ−１））＜ＭＤＬ（Ｍ（ｎ））でなけ
れば、つまり、現時点記述長ＭＤＬ（Ｍ（ｎ））の方が直前記述長ＭＤＬ（Ｍ（ｎ−１）
）よりも小さければ、分布数Ｍ（ｎ）はその状態におけるその時点の仮の最適分布数とす
る（ステップＳ９）。

そして、すべての状態についてのステップＳ７の記述長比較処理が終了したか否かを判
定し（ステップＳ６）、すべての状態についてのステップＳ７の記述長比較処理が終了し
たら、すべての状態の分布数が最適分布数と判定されたか否かを判定する（ステップＳ１
０）。

すなわち、すべての状態において、ＭＤＬ（Ｍ（ｎ−１））＜ＭＤＬ（Ｍ（ｎ））とな
ったか否かを判定する。この判定の結果、すべての状態の分布数が最適分布数であると判
定されれば、処理を終了する。これによって、その音節ＨＭＭはすべての状態が最適分布
数を有する（分布数の最適化された）音節ＨＭＭとなる。

一方、ステップＳ１０において、すべての状態の分布数が最適分布数となっていないと
判定されれば、ステップＳ１１の処理を行う。このステップＳ１１では、分布数を再設定
して最大分布数をＭ（ｎ）とした音節ＨＭＭセットを再学習して、その再学習された音節
ＨＭＭセットで現時点の分布数Ｍ（ｎ）の音節ＨＭＭセットを置き換える。

このステップＳ１１の処理は、具体的には、たとえば、ある音節に対する音節ＨＭＭを
構成する状態（ここでは、状態Ｓ０，Ｓ１，Ｓ２の３状態とする）のうち、状態Ｓ０につ
いては分布数Ｍ（１）＝分布数１が最適分布数と決定され、状態Ｓ１については分布数Ｍ
（２）＝分布数２が仮の最適分布数と決定され、状態Ｓ２についても分布数Ｍ（２）＝分
布数２が仮の最適分布数とされたとすると、この音節ＨＭＭのそれぞれの状態Ｓ０，Ｓ１
，Ｓ２の分布数を、状態Ｓ０の分布数はＭ（１）＝分布数１、状態Ｓ１の分布数はＭ（２
）＝分布数２、状態Ｓ２の分布数はＭ（２）＝分布数２というように再設定し、そのとき
の最大分布数を分布数Ｍ（２）＝分布数２として、その音節ＨＭＭを学習用音声データ１
と音節ラベルデータ３を用いて再学習し、その再学習された音節ＨＭＭでそれまでの音節
ＨＭＭ（すべての状態が分布数Ｍ（２）＝分布数２を有する音節ＨＭＭ）を置き換えると
いう処理である。これをすべての音節に対応する音節ＨＭＭについて行う。

このステップＳ１１の処理が終了すると、ステップＳ２に戻って、上述したと同様の処
理を行う。具体的には、まず、インデクス番号ｎが設定値ｋ（この実施形態ではｋ＝７で
ある）に達しているか否かを判定することになるが、この時点におけるｎは、ｎ＝２であ
ってｎ＜ｋであるので、分布数設定部５により、ｎ＝ｎ＋１とし（分布数Ｍ（３）＝分布
数４とし）、その分布数４の音節ＨＭＭセットを再学習する。

なお、このとき、前述のステップＳ７の記述長比較処理において、既に最適分布数であ
るとされた状態は、そのときの分布数をそのまま保持する。このそれぞれの状態において
、その状態の分布数が既に最適分布数となった状態であるか否かの判定は、個々の状態ご
とに分布数が最適化されたことを示す情報の記述されたテーブルを作成しておき、そのテ
ーブルを参照する方法や、それぞれの音節ＨＭＭの構造から判定する方法などが考えられ
る。

そして、分布数Ｍ（３）＝分布数４の音節ＨＭＭセットと学習用音声データ１とを音節
ラベルデータ３を用いて対応付けを行い、アライメントデータＡ（３）を作成する。そし
て、このアライメントデータＡ（３）と直前の分布数Ｍ（２）＝分布数２と現時点の分布
数Ｍ（３）＝分布数４の音節ＨＭＭセットを用いて、それぞれの音節ＨＭＭのそれぞれの
状態について、直前記述長ＭＤＬ（Ｍ（ｎ−１））すなわちＭＤＬ（Ｍ（２））と、現時
点記述長ＭＤＬ（Ｍ（ｎ））すなわちＭＤＬ（Ｍ（３））を求める。

このようにして、現時点記述長ＭＤＬ（Ｍ（ｎ））とそれより１つ前の直前記述長ＭＤ
Ｌ（Ｍ（ｎ−１））が求められたら、前述同様、ＭＤＬ（Ｍ（ｎ−１））＜ＭＤＬ（Ｍ（
ｎ））の判定を行い（ステップＳ７）、その判定の結果、直前記述長の方が現時点記述長
よりも小さいと判定されれば、分布数Ｍ（ｎ−１）をその状態の最適分布数であるとする
（ステップＳ８）。

また、逆に、ある状態において、ＭＤＬ（Ｍ（ｎ−１））＜ＭＤＬ（Ｍ（ｎ））の判定
を行った結果（ステップＳ７）、ＭＤＬ（Ｍ（ｎ−１））＜ＭＤＬ（Ｍ（ｎ））でなけれ
ば、つまり、現時点記述長の方が直前記述長よりも小さければ、分布数Ｍ（ｎ）はその状
態におけるその時点の仮の最適分布数であるとする（ステップＳ９）。

そして、すべての状態についてのステップＳ７の記述長比較処理が終了したか否かを判
定し（ステップＳ６）、すべての状態についてのステップＳ７の記述長比較処理が終了し
たら、すべての状態の分布数が最適分布数であるか否かを判定する（ステップＳ１０）。
すなわち、すべての状態において、ＭＤＬ（Ｍ（ｎ−１））＜ＭＤＬ（Ｍ（ｎ））となっ
たか否かを判定する。この判定の結果、すべての状態の分布数が最適分布数であると判定
されれば、その音節ＨＭＭはすべての状態が最適分布数を有する（分布数の最適化された
）音節ＨＭＭとなる。

一方、ステップＳ１０において、すべての状態の分布数が最適分布数となっていないと
判定されれば、ステップＳ１１の処理を行う。このステップＳ１１では、前述したように
、分布数を再設定して最大分布数をＭ（ｎ）とした音節ＨＭＭセットを再学習して、その
再学習された音節ＨＭＭセットで現在の分布数Ｍ（ｎ）の音節ＨＭＭセットを置き換える
。そして、ステップＳ２に戻り、同様の処理を行う。
以上のような処理を再帰的に行うことにより、それぞれの音節ＨＭＭにおいて、それぞ
れの状態ごとに最適分布数を有する音節ＨＭＭが得られる。

図５は図２のステップＳ３の処理（分布数設定部５が行う分布数増加処理）手順を示す
図である。この図５において、まず、現時点の分布数Ｍ（ｎ）に設定されたある音節ＨＭ
Ｍを読み込んで（ステップＳ３ａ）、インデクス番号ｎをｎ＋１として（ステップＳ３ｂ
）、あらかじめ設定されている分布数の増加規則（この実施形態では図１に示されている
ような増加規則）を読み込む（ステップＳ３ｃ）。

そして、分布数がすでに最適分布数となっている状態についてはその最適分布数をその
分布数のまま保持し、それ以外の状態については分布数を増加規則に従った分布数Ｍ（ｎ
）に設定する（ステップＳ３ｄ）。次に、このステップＳ３ｄでそれぞれの状態ごとの分
布数に設定された音節ＨＭＭセットを作成し（ステップＳ３ｅ）、作成された音節ＨＭＭ
セットをＨＭＭ再学習部６に渡す（ステップＳ３ｆ）。

図６は図２のステップＳ４の処理（アライメントデータ作成部７によるアライメントデ
ータ作成処理）の処理手順を説明するフローチャートである。この図６において、まず、
分布数Ｍ（ｎ）の音節ＨＭＭセットの読み込みを行い（ステップＳ４ａ）、すべての学習
用音声データ１に対するアライメントデータ作成処理が終了か否かを判定し（ステップＳ
４ｂ）、すべての学習用音声データについて処理が終了していなければ、処理の終了して
いない学習用音声データを１つ読み込んで（ステップＳ４ｃ）、読み込んだ学習用音声デ
ータに対応する音節ラベルデータを音節ラベルデータ３から検索して読み込む（ステップ
Ｓ４ｄ）。そして、分布数Ｍ（ｎ）の音節ＨＭＭセットに属するすべての音節ＨＭＭと学
習用音声データと対応する音節ラベルデータとを用いてビタビアルゴリズムによりアライ
メントデータＡ（ｎ）を作成し（ステップＳ４ｅ）、そのアライメントデータＡ（ｎ）を
保存する（ステップＳ４ｆ）。このアライメントデータ作成処理について図７を参照しな
がら説明する。

図７はアライメントデータ作成を行うために、それぞれの状態がある分布数（状態ごと
に分布数が異なっていてもよい）に設定された音節ＨＭＭセットに属するそれぞれの音節
ＨＭＭと学習用音声データ１との対応付けを行う処理の具体例を説明するものである。

アライメントデータ作成部７では、すべての学習用音声データ１とある分布数（この実
施形態１では現時点で設定されている分布数Ｍ（ｎ））を有する音節ＨＭＭセットを用い
て、図７の（ａ），（ｂ），（ｃ）に示すように、音節ＨＭＭセットのそれぞれの音節Ｈ
ＭＭにおけるそれぞれの状態Ｓ０，Ｓ１，Ｓ２と学習用音声データ１とのアライメントを
とる。

たとえば、図７（ｂ）に示すように、学習用音声データ１の中のある１つの学習用音声
データ例として「秋（あき）の・・・」という学習用音声データ例に対して対応付けを行
うと、その学習用音声データ例「あ」、「き」、「の」、・・・において、音節/a/の音
節ＨＭＭの状態Ｓ０は、学習用音声データの区間ｔ１に対応し、音節/a/の音節ＨＭＭの
状態Ｓ１は、同じく学習用音声データ例の区間ｔ２に対応し、音節/a/の音節ＨＭＭの状
態Ｓ２は、同じく学習用音声データ例の区間ｔ３に対応するというような対応付けを行っ
て、その対応付けデータをアライメントデータとする。

同様に、音節/ｋｉ/の音節ＨＭＭの状態Ｓ０は、図７（ｂ）に示す学習用音声データ例
における区間ｔ４に対応し、音節/ｋｉ/の音節ＨＭＭの状態Ｓ１は、同じく学習用音声デ
ータ例における区間ｔ５に対応し、音節/ｋｉ/の音節ＨＭＭの状態Ｓ２は、同じく学習用
音声データ例における区間ｔ６に対応するというような対応付けを行って、その対応付け
データをアライメントデータとする。
このとき、アライメントデータの１つとして、それぞれの対応するデータ区間ごとにそ
のデータ区間の開始フレームのフレーム番号と終了フレームのフレーム番号が取得される
。

また、図７（ｃ）に示すように、学習用音声データ例の他の例として、「・・・試合（
しあい）・・・」という学習用音声データ例において、状態数３の音節/a/の音節ＨＭＭ
の状態Ｓ０は、その学習用音声データ例における区間ｔ１１に対応し、音節/ａ/の音節Ｈ
ＭＭの状態Ｓ１は、同じく学習用音声データ例における区間ｔ１２に対応し、音節/ａ/の
音節ＨＭＭの状態Ｓ２は、同じく学習用音声データ例における区間ｔ１３対応するという
ような対応付けを行って、その対応付けデータをアライメントデータとする。この場合も
同様に、アライメントデータの１つとして、それぞれの対応するデータ区間ごとにそのデ
ータ区間の開始フレームのフレーム番号と終了フレームのフレーム番号が取得される。

そして、このアライメントデータ作成部７によって作成されたアライメントデータＡ（
ｎ）を用いて、それぞれの状態ごとの記述長を記述長計算部８によって求める。
この実施形態１では、現時点の分布数Ｍ（ｎ）に設定された音節ＨＭＭセットに属する
それぞれの音節ＨＭＭのパラメータと、直前の分布数Ｍ（ｎ−１）に設定された音節ＨＭ
Ｍセットに属するそれぞれの音節ＨＭＭのパラメータと、学習用音声データ１と、アライ
メントデータＡ（ｎ）とが記述長計算部８に与えられて、それぞれの音節ＨＭＭにおける
それぞれの状態ごとに記述長が計算される。なお、すでに最適分布数に保持された状態に
ついては記述長計算対象から除外する。

これによって、記述長計算部８では、現時点の分布数Ｍ（ｎ）に設定された音節ＨＭＭ
セットに属するそれぞれの音節ＨＭＭのそれぞれの状態（すでに最適分布数に設定された
状態は除く）の記述長（現時点記述長）と、直前の分布数Ｍ（ｎ−１）に設定された音節
ＨＭＭセットに属するそれぞれの音節ＨＭＭのそれぞれの状態（すでに最適分布数に設定
された状態は除く）ごとの記述長（直前記述長）とが求められる。

図８は記述長計算部８が行う記述長計算処理手順を説明するフローチャートであり、こ
れは、図２におけるステップＳ５の処理を詳細に説明するものである。
図８において、まず、処理対象となる音節ＨＭＭセット（分布数Ｍ（ｎ−１）または分
布数Ｍ（ｎ）の音節ＨＭＭセット）の読み込みを行い（ステップＳ５ａ）、すべてのアラ
イメントデータＡ（ｎ）に対する処理が終了か否かを判定する（ステップＳ５ｂ）。この
判定の結果、すべてのアライメントデータＡ（ｎ）に対する処理が終了していなければ、
まだ、処理の終了していない分布数Ｍ（ｎ−１）または分布数Ｍ（ｎ）のアライメントデ
ータの読み込みを行う（ステップＳ５ｃ）。

そして、ステップＳ５ａで読み込まれた音節ＨＭＭセットとステップＳ５ｂで読み込ま
れたアライメントデータを用いて、それぞれの音節ＨＭＭにおけるそれぞれの状態の尤度
を計算して、その計算結果を記憶する（ステップＳ５ｄ）。これをすべてのアライメント
データＡ（ｎ）について行い、すべてのアライメントデータＡ（ｎ）に対する処理が終了
したら、それぞれの音節ＨＭＭのそれぞれの状態の総フレーム数を集計するとともに、そ
れぞれの音節ＨＭＭのそれぞれの状態の総尤度を集計する（ステップＳ５ｅ，Ｓ５ｆ）。
そして、それぞれの音節ＨＭＭのそれぞれの状態について、その総フレーム数および総
尤度を用いて記述長の計算を行い、その記述長を記憶する（ステップＳ５ｇ）。

次に、本発明で用いるＭＤＬ（記述長最小）基準について説明する。このＭＤＬ基準に
ついては、たとえば、「韓太舜著“岩波講座応用数学１１、情報と符号化の数理”岩波書
店（１９９４），ｐｐ２４９−２７５」などに述べられている公知の技術であり、前述し
たように、モデルの集合｛１，・・・，ｉ，・・・，Ｉ｝とデータχ^Ｎ＝｛χ_１，・・・
，χ_Ｎ｝（ただし、Ｎはデータ長）が与えられたときのモデルｉを用いた記述長ｌｉ（χ
^Ｎ）は、前述した（１）式のように定義され、このＭＤＬ基準は、この記述長ｌｉ（χ^Ｎ
）が最小であるモデルが最適なモデルであるとしている。

本発明では、ここでいうモデル集合｛１，・・・，ｉ，・・・，Ｉ｝は、あるＨＭＭに
おいて分布数がある値から最大分布数までの複数種類に設定されたある状態の集合である
として考える。なお、分布数がある値から最大分布数までの複数種類に設定されていると
きの分布数の種類がＩ種類（ＩはＩ≧２の整数）であるとしたとき、上述の１，・・・，
ｉ，・・・，Ｉは、1番目の種類からＩ番目の種類までそれぞれの種類を特定するための
符号であって、前述の（１）式を、１，・・・，ｉ，・・・，Ｉのうちのｉ番目の分布数
の種類を持つ状態の記述長を求める式として用いるものである。

なお、この１，・・・，ｉ，・・・，ＩのＩは、異なる分布数を持つＨＭＭセットの総
数、すなわち、分布数が何種類あるかを表すもので、この実施の形態では、最終的に分布
数が、１，２，４，８，１６，３２，６４の７種類のモデルが作成されるが、記述長の計
算の対象となるＨＭＭセットは、図３の記述長計算部８において、常に、分布数Ｍ（ｎ−
１）のＨＭＭセットと分布数Ｍ（ｎ）のＨＭＭセットの２種類であるので、Ｉ＝２となる
。

このように、１，・・・，ｉ，・・・，Ｉが、1番目の種類からＩ番目の種類までそれ
ぞれの種類を特定するための符号であるので、この実施の形態での例では、分布数Ｍ（ｎ
−１）に対しては分布数の種類を表す符号として、１，・・・，ｉ，・・・，Ｉのうち１
が与えられ、分布数の種類が１番目であることを示す。

また、分布数Ｍ（ｎ）に対しては分布数の種類を表す符号として、１，・・・，ｉ，・
・・，Ｉのうち２が与えられ、分布数の種類が２番目であることを示す。

ここで、音節/a/のＨＭＭについて考えると、この実施形態の場合、分布数Ｍ（ｎ−１
）から分布数Ｍ（ｎ）までの２種類の分布数をもつ状態Ｓ０の集合が１つのモデル集合、
同じく、分布数Ｍ（ｎ−１）から分布数Ｍ（ｎ）までの２種類の分布数をもつ状態Ｓ１の
集合が１つのモデル集合、同じく、分布数Ｍ（ｎ−１）から分布数Ｍ（ｎ）までの２種類
の分布数をもつ状態Ｓ２の集合が１つのモデル集合となる。

したがって、前述の（１）式のように定義された記述長ｌｉ（χ^Ｎ）は、本発明におい
ては、ある状態の分布数の種類が１，・・・，ｉ，・・・，Ｉのうちのｉ番目の種類に設
定したときのその状態（これを状態ｉで表す）の記述長ｌｉ（χ^Ｎ）であるとし、前述の
（１）式を変形した（２）式を用いる。

この（２）式は、（１）式における右辺の最終項である第３項のlogＩは定数であるの
で省略し、かつ、（１）式における右辺の第２項である（βｉ／２）logＮに重み係数α
を乗じたものとなっている。なお、上述の（２）式においては、（１）式における右辺の
最終項である第３項のlogＩを省略したが、これを省略せずにそのまま残した式としても
よい。

また、βｉは分布数の種類がｉ番目の分布数を持つ状態ｉの次元（自由度）として、分
布数×特徴ベクトルの次元数で表されるが、この特徴ベクトルの次元数は、ここでは、ケ
プストラム（ＣＥＰ）次元数＋Δケプストラム（ＣＥＰ）次元数＋Δパワー（ＰＯＷ）次
元数である。

また、αは最適な分布数を調整するための重み係数であり、このαを変えることによっ
て、記述長ｌｉ（χ^Ｎ）を変化させることができる。すなわち、図９（ａ），（ｂ）に示
すように、単純に考えれば、（２）式の右辺の第1項は、分布数の増加に伴ってその値が
減少し（細い実線で示す）、（２）式における右辺の第２項は、分布数の増加に伴って単
調増加（太い実線で示す）し、これら第１項と第２項の和で求められる記述長ｌｉ（χ^Ｎ
）は、破線で示すような値をとる。

したがって、αを可変することによって、第２項の単調増加の傾きを可変（αを大きく
するほど傾きが大きくなる）することができるので、（２）式における右辺の第１項と第
２項の和で求められる記述長ｌｉ（χ^Ｎ）は、αの値を変化させることによって変化させ
ることができる。これによって、たとえば、αを大きくすると、図９（ａ）は同図（ｂ）
のようになり、分布数がより小さい場合に記述長ｌｉ（χ^Ｎ）が最小になるように調整す
ることができる。

なお、（２）式における分布数の種類がｉ番目の分布数を持つ状態ｉはＭ個のデータ（
あるフレーム数からなるＭ個のデータ）に対応している。すなわち、データ１の長さ（フ
レーム数）をｎ１、データ２の長さ（フレーム数）をｎ２、データＭの長さ（フレーム数
）をｎＭで表せば、χ^ＮのＮはＮ＝ｎ１＋ｎ２＋・・・＋ｎＫで表されるので、（２）式
における右辺の第１項は、下記の（３）式のように表される。

なお、ここでのデータ１，データ２，・・・，データＫは、状態ｉに対応付けられた多
数の学習用音声データ１のある区間に対応するデータ（たとえば、図７で説明したように
、仮に状態ｉがある分布数の音節/a/のＨＭＭにおける状態Ｓ０であるとすれば、区間ｔ
１や区間ｔ１１に対応する学習用音声データ）である。

この（３）式において、右辺のそれぞれの項は、分布数の種類がｉ番目の分布数を有す
る状態ｉとそれぞれの学習用音声データとを対応付けたとき、その対応付けられた学習用
音声データ区間に対する尤度であるが、この（３）式からもわかるように、当該ｉ番目の
分布数を有する状態ｉの尤度は、その状態ｉに対応付けられたそれぞれの学習用音声デー
タに対する尤度の和で表される。

したがって、この実施形態においては、図２で説明したフローチャートのステップＳ５
、すなわち、図３における記述長計算部８の行う記述長計算処理は、上述の（２）式を計
算する処理である。

ところで、上述の（２）式において、右辺の第１項はある状態における総尤度を表し、
右辺の第２項のＮは総フレーム数を表しているので、それぞれの状態ごとに求められた総
尤度と総フレーム数を（２）式に代入することによって、ある分布数に設定された状態の
記述長を求めることができる。

以下、本発明の発明者が行った実験例を用いて具体的に説明する。

図１０は「私はそれを望む（ｗａｔａｓｈｉｗａｓｏｒｅｏｎｏｚｏ
ｍｕ）」というある１つの学習用音声データ例（これを学習用音声データ例１ａとする
）と分布数Ｍ（２）＝分布数２の音節ＨＭＭセットに属するそれぞれの音節ＨＭＭとの対
応付けを行って得られたアライメントデータＡ（２）の一例を示すものである。

このアライメントデータ作成時には、学習用音声データ１ａに対応した音節ラベルデー
タ（これを音節ラベルデータ例３ａとする）を用いるが、この音節ラベルデータ例３ａは
、図１１のような内容となっている。この図１１において、SilＢは発話の先頭部分に存
在する無音部分に相当する音声区間を表す音節、SilＥは発話の終端部分に存在する無音
部分に相当する音声区間を表す音節である。
このような音節ラベルデータ例はすべての学習用音声データ１に対応して用意されてい
る。なお、ここでは、学習用音声データ１の数としては約２００００個を用意している。

ところで、図１０に示すアライメントデータＡ（２）は、ある学習用音声データ１ａ（
「ｗａｔａｓｈｉｗａｓｏｒｅｏｎｏｚｏｍｕ」）を構成するそれぞ
れの音節（Syllable）に対する音節ＨＭＭのそれぞれの状態（State）ごとに、開始フレ
ームを表す開始フレーム番号（Start）と終了フレームを表す終了フレーム番号(End)が記
述されてなる。

なお、ここでの実験形態では、先頭に存在する無音部分を表す音節/SilＢ/と終端に存
在する無音部分を表す音節/SilＥ/、母音のみからなる音節（/ａ/、/ｉ/、/ｕ/、/ｅ/、/
ｏ/）、促音および撥音を表す音節（/ｑ/および/Ｎ/）、発話の途中に存在する無音部分
を表す音節（/ｓｐ/）に対応する音節ＨＭＭはそれぞれ３つの状態Ｓ０，Ｓ１，Ｓ２とし
、それ以外の子音を含む音節（/ｋａ/、/ｋｉ/・・・など）に対応する音節ＨＭＭはそれ
ぞれ５つの状態Ｓ０，Ｓ１，Ｓ２，Ｓ３，Ｓ４としている。

この図１０に示すアライメントデータＡ（２）の例は、「ｗａｔａｓｈｉｗａ
ｓｏｒｅｏｎｏｚｏｍｕ」といった学習用音声データ１ａに対するものである
が、この図１０に示すようなアライメントデータＡ（２）は、すべての学習用音声データ
１に対して作成される。このように、現時点の分布数Ｍ（ｎ）として、たとえば、分布数
Ｍ（２）＝分布数２の音節ＨＭＭセットに属するそれぞれの音節ＨＭＭとそれぞれの学習
用音声データ１との対応付けを行って作成されたアライメントデータをアライメントデー
タＡ（２）とする。なお、アライメントデータ作成時には尤度も求めることもできるが、
ここでは、開始フレーム番号と終了フレーム番号の情報が取得できればよい。

このアライメントデータＡ（２）を用いて、記述長計算部８では、まず、その音節ＨＭ
Ｍセットに属するそれぞれの音節ＨＭＭについて、それぞれの状態ごとに、対応付けによ
って得られたそれぞれのフレームごと（開始フレームから終了フレームまで）の尤度を計
算する。

たとえば、図１２は分布数Ｍ（２）＝分布数２の音節ＨＭＭセットに属するすべての音
節ＨＭＭにおいて、個々の音節ＨＭＭの学習用音声データ１ａ（「私はそれを望む」とい
う学習用音声データ）に対するそれぞれの状態（State）ごとの各フレーム（開始フレー
ムから終了フレームまで）の尤度を計算した結果を示すもので、この図１２における「Sc
ore」は、それぞれの音節ＨＭＭのそれぞれの状態に対する尤度を表している。

この図１２に示す尤度計算結果は、分布数Ｍ（２）＝２におけるアライメントデータＡ
（２）を用いて上述した学習用音声データ１ａに対して求められたものであるが、この尤
度計算はすべての学習用音声データ１に対して行われ、それによって、すべての学習用音
声データ１に対する尤度計算結果が得られる。

そして、すべての学習用音声データ１に対する尤度計算結果が得られると、それぞれの
音節/ａ/，/ｉ/，/ｕ/，/ｅ/，・・・ごとにそれぞれの状態Ｓ０，Ｓ１，Ｓ２，・・・に
対する総フレーム数と総尤度を集計する。

図１３は分布数Ｍ（２）＝分布数２を有する音節ＨＭＭセットに属するそれぞれの音節
ＨＭＭと、それぞれの学習用音声データ１との対応付けによって得られるアライメントデ
ータＡ（２）を用いた分布数Ｍ（２）＝２の音節ＨＭＭセットにおける総フレーム数と総
尤度の集計結果の一例を示すものである。なお、この図１３では、「Frame」は総フレー
ム数を表し、「Score」は総尤度を表している。

以上のようにして、すべての音節について、分布数Ｍ（２）＝２の音節ＨＭＭセットに
属するそれぞれの音節ＨＭＭのそれぞれの状態ごとの総フレーム数と総尤度が求められる
と、この図１３の結果と、前述の（２）式を用いて記述長を計算する。

すなわち、記述長ｌｉ（ｘ^Ｎ）を求めるための（２）式において、右辺の第１項は、総
尤度に相当し、右辺の第２項のＮは総フレーム数に相当するので、右辺の第１項には図１
３における総尤度、右辺の第２項のＮには図１３における総フレーム数を代入する。

たとえば、音節/ａ/で考えると、図１３からもわかるように、状態Ｓ０においては、総
フレーム数は「３９８２０」であり、総尤度は「−２４５８２８６．５６」であるので、
総フレーム数「３９８２０」を右辺の第２項のＮに代入し、総尤度「−２４５８２８６．
５６」を右辺の第１項に代入する。

なお、（２）式におけるβは、モデルの次元数であって、分布数×特徴ベクトルの次元
数で求めることができる。この実験例では、特徴ベクトル次元数を２５（ケプストラムが
１２次元、デルタケプストラムが１２次元、デルタパワーが１次元）であるとすると、分
布数Ｍ（１）＝分布数１の場合は、β＝２５となり、分布数Ｍ（２）＝分布数２の場合は
、β＝５０となり、分布数Ｍ（３）＝分布数４の場合は、β＝１００となる。また、重み
係数αはここでは１．０としている。

これによって、分布数Ｍ（２）＝分布数２の音節ＨＭＭを用いたときの音節/ａ/の状態
Ｓ０における記述長（これをＬ(ａ,0)で表す）は、
Ｌ(ａ,0)＝2458286.56＋1.0×（50／2）×log（39820）＝2602980.83 （４）
と求められる。なお、総尤度は負の値として求められており（図１３参照）、また、（２
）式の右辺の第１項には負の記号が付されているので総尤度は正の値で表される。

同様にして、分布数Ｍ（２）＝２の音節ＨＭＭを用いたときの音節/ａ/の状態Ｓ１にお
ける記述長（これをＬ(ａ,1)で表す）は、
Ｌ(ａ,1)＝2416004.66＋1.0×（50／2）×log（43515）＝2303949.97 （５）
と求められる。

このようにして、すべての音節(１２４音節)に対応する音節ＨＭＭのそれぞれの状態に
ついて記述長を計算する。その計算結果の一例を図１４に示す。
この図１４は、アライメントデータＡ（２）を用いた分布数Ｍ（２）＝２の音節ＨＭＭ
セットにおける記述長計算結果の一例を示すもので、それぞれの音節/ａ/，/ｉ/，/ｕ/，
・・・に対するそれぞれの状態Ｓ０，Ｓ１，Ｓ２，・・・ごとに計算された記述長が示さ
れている。なお、この図１４における「ＭＤＬ」は記述長を表している。

この記述長を計算する処理は、図２におけるステップＳ５の処理であり、このステップ
Ｓ５では、アライメントデータＡ（ｎ）を用いて現時点より１つ前の分布数Ｍ（ｎ−１）
の場合の記述長（直前記述長）を計算するとともに、同じアライメントデータＡ（ｎ）を
用いて現時点の分布数Ｍ（ｎ）の場合の記述長（現時点記述長）を計算する。

たとえば、現時点の分布数がＭ（２）であった場合、アライメントデータＡ（２）を用
いて現時点の直前の分布数Ｍ（１）におけるある１つの状態（状態Ｓ０とする）の記述長
が図１５（ａ）に示すように求められ、現時点の分布数Ｍ（２）における状態Ｓ０に対す
る記述長が図１５（ｂ）のように求められたとする。この図１５（ｂ）は、図１４におけ
る状態Ｓ０に対して求められた記述長と同じものである。

この図１５（ａ），（ｂ）に示す記述長を用いて、図２のステップＳ７における記述長
の比較判定処理、すなわち、ＭＤＬ（Ｍ（ｎ−１））＜ＭＤＬ（Ｍ（ｎ））を行う。この
場合、図１５（ａ）の記述長ＭＤＬは、ＭＤＬ（Ｍ（ｎ−１））に相当し、図１５（ｂ）
の記述長ＭＤＬは、ＭＤＬ（Ｍ（ｎ））に相当する。
この図１５（ａ），（ｂ）からもわかるように、状態Ｓ０においては、音節/ａ/，/ｉ/
，/ｕ/，/ｅ/はそれぞれが分布数Ｍ（ｎ）＝分布数Ｍ（２）＝分布数２の方が記述長の値
は小であり、音節/ｏ/のみが分布数Ｍ（ｎ−１）＝分布数Ｍ（１）＝分布数１の方が記述
長の値は小である。
すなわち、音節/ａ/，/ｉ/，/ｕ/，/ｅ/に対応するそれぞれの音節ＨＭＭにおける状態
Ｓ０は、分布数Ｍ（２）＝分布数２がその時点では仮の最適分布数であると判定される。
一方、音節/ｏ/に対応する音節ＨＭＭにおける状態Ｓ０は、分布数Ｍ（１）＝分布数１が
最適分布数であると判定される。

これによって、音節/ｏ/に対応する音節ＨＭＭにおける状態Ｓ０は、分布数Ｍ（１）＝
分布数１が最適分布数であるとして、分布数１で保持し、その状態Ｓ０については以降の
分布数増加処理は行わない。一方、音節/ａ/，/ｉ/，/ｕ/，/ｅ/に対応するそれぞれの音
節ＨＭＭにおける状態Ｓ０は、分布数をインデクス番号に対応させて増加させ、ＭＤＬ（
Ｍ（ｎ−１））＜ＭＤＬ（Ｍ（ｎ））となるまで繰り返す。

そして、すべての音節ＨＭＭにおけるそれぞれの状態に対して、その分布数が最適分布
数であるか否かを判定（図２におけるステップＳ１０）、すなわち、ある音節ＨＭＭにお
けるすべての状態において、ＭＤＬ（Ｍ（ｎ−１））＜ＭＤＬ（Ｍ（ｎ））となったか否
かを判定し、その音節ＨＭＭにおけるすべての状態の分布数が最適分布数であると判定さ
れれば、その音節ＨＭＭはすべての状態が最適分布数を有する（分布数の最適化された）
音節ＨＭＭとする。これをすべての音節ＨＭＭについて行う。

このような処理によって生成されたそれぞれの音節ＨＭＭは、個々の音節ＨＭＭにおい
てそれぞれの状態ごとに分布数が最適化されているため、高い認識性能を確保することが
でき、しかも、すべての状態で同じ分布数とした場合に比べ、パラメータ数を大幅に削減
することができ、演算量の削減、使用メモリ量の削減が図れ、処理速度の高速化が図れ、
さらに、低価格、低消費電力化も可能となる。

また、本発明は、それぞれの音節ＨＭＭにおいて、それぞれの状態ごとに分布数をある
増加規則に基づいて逐次的に増加させて行き、現時点記述長ＭＤＬ（Ｍ（ｎ））と直前記
述長ＭＤＬ（Ｍ（ｎ−１））を求めて、両者を比較し、ＭＤＬ（Ｍ（ｎ−１））＜ＭＤＬ
（Ｍ（ｎ））となったら、その時の分布数で保持して、その状態についてはそれ以降、分
布数を逐次的に増加させる処理を行わないので、それぞれの状態の分布数を効率的に最適
分布数に設定することができる。

〔実施形態２〕
上述の実施形態１では、アライメントデータ作成部７が行うそれぞれの音節ＨＭＭの状
態と学習用音声データとの対応付けは、現時点の分布数、すなわち、分布数Ｍ（ｎ）の音
節ＨＭＭセットに属するそれぞれの音節ＨＭＭと、それぞれの学習用音声データ１とを対
応付けることによってアライメントデータＡ（ｎ）を作成する例で説明したが、これに限
らず、分布数Ｍ（ｎ−１）として学習された音節ＨＭＭセットに属するそれぞれの音節Ｈ
ＭＭとそれぞれの学習用音声データ１とを対応付けることによってアライメントデータ（
これをアライメントデータＡ（ｎ−１）とする）を作成するようにしてもよく、これを実
施形態２として説明する。この実施形態２の全体的な処理の流れを図１６のフローチャー
トに示す。

図１６は実施形態２の全体的な処理の流れを説明するフローチャートであり、全体的な
処理の流れは図２と同じであるが、アライメントデータ作成処理と記述長計算処理（図１
６のステップＳ２４，Ｓ２５であって、これは、図２ではステップＳ４，Ｓ５に対応する
）が少し異なる。

すなわち、この実施形態２におけるアライメントデータ作成処理は、分布数Ｍ（ｎ−１
）として学習された音節ＨＭＭセットに属するそれぞれの音節ＨＭＭのそれぞれの状態と
それぞれの学習用音声データ１との対応付けを行って、アライメントデータＡ（ｎ−１）
を作成し（ステップＳ２４）、このアライメントデータＡ（ｎ−１）と、分布数Ｍ（ｎ−
１）の音節ＨＭＭセットと、分布数Ｍ（ｎ）の音節ＨＭＭセットとを用いて、それぞれの
音節ＨＭＭセットにおけるそれぞれの状態の記述長ＭＤＬ（Ｍ（ｎ−１））とＭＤＬ（Ｍ
（ｎ））を求めるようにしている。

なお、この記述長ＭＤＬ（Ｍ（ｎ−１））および記述長ＭＤＬ（Ｍ（ｎ））を求める際
に用いられるアライメントデータは、アライメントデータＡ（ｎ−１）を用いる点が実施
形態１と異なる（実施形態１ではアライメントデータＡ（ｎ）が用いられる）。

すなわち、実施形態２では、記述長ＭＤＬ（Ｍ（ｎ−１））を求める際は、アライメン
トデータＡ（ｎ−１）を用いて、分布数Ｍ（ｎ−１）の音節ＨＭＭセットについてそれぞ
れの状態の総フレーム数Ｆ（ｎ−１）と総尤度Ｐ（ｎ−１）を計算する。また、記述長Ｍ
ＤＬ（ｎ）を求める際は、同じくアライメントデータＡ（ｎ−１）を用いて、分布数Ｍ（
ｎ）の音節ＨＭＭセットについてそれぞれの状態の総フレーム数Ｆ（ｎ）と総尤度Ｐ（ｎ
）を計算する。
なお、この図１６におけるそれ以外の処理手順は図２と同じであるので、ここでは、そ
の説明は省略する。

また、図１７はこの実施形態２を実現するために必要な構成図であり、その構成要素と
しては実施形態１の説明で用いた図３と同じであるが、アライメントデータ作成部７によ
って得られるアライメントデータが分布数Ｍ（ｎ−１）の音節ＨＭＭを用いた場合のアラ
イメントデータＡ（ｎ−１）であることが図３と異なるだけである。

この実施形態２においても前述の実施形態１と同様の効果が得られる。

〔実施形態３〕
図１８はこの実施形態３の全体的な処理手順を説明するフローチャート、図１９は実施
形態３の構成図であり、図１８のフローチャートの全体的な処理の流れは図２とほぼ同じ
であるが、アライメントデータ作成処理と記述長計算処理が異なる。このアライメントデ
ータ作成処理と記述長計算処理は、図１８のステップＳ４４，Ｓ４５，Ｓ４６，Ｓ４７で
あって、これは、図２ではステップＳ４，Ｓ５に対応する。

この実施形態３では、分布数Ｍ（ｎ−１）の音節ＨＭＭセットとそれぞれの学習用音声
データ１とを対応付けることによってアライメントデータＡ（ｎ−１）を作成するととも
に、分布数Ｍ（ｎ）の音節ＨＭＭセットとそれぞれの学習用音声データ１とを対応付ける
ことによってアライメントデータＡ（ｎ）を作成する（ステップＳ４４）。

そして、分布数Ｍ（ｎ−１）の音節ＨＭＭセットと分布数Ｍ（ｎ）の音節ＨＭＭセット
のそれぞれの音節ＨＭＭにおけるぞれぞれの状態について、総フレーム数Ｆ（ｎ−１）と
Ｆ（ｎ）を求め、これら、総フレーム数Ｆ（ｎ−１）とＦ（ｎ）の平均を計算し、それを
平均フレーム数Ｆ（ａ）とする（ステップＳ４５）。

次に、分布数Ｍ（ｎ−１）の音節ＨＭＭセットのそれぞれの音節ＨＭＭにおけるそれぞ
れの状態に対し、平均フレーム数Ｆ（ａ）と、総フレーム数Ｆ（ｎ−１）と、総尤度Ｐ（
ｎ−１）とを用いて、総尤度の正規化を行って正規化尤度Ｐ’（ｎ−１）を求めるととも
に、分布数Ｍ（ｎ）の音節ＨＭＭセットのそれぞれの音節ＨＭＭにおけるそれぞれの状態
について、平均のフレーム数Ｆ（ａ）と、総フレーム数Ｆ（ｎ）と、総尤度Ｐ（ｎ）を用
いて総尤度の正規化を行って正規化尤度Ｐ’（ｎ）を求める（ステップＳ４６）。

そして、この正規化尤度Ｐ’（ｎ−１）と平均フレーム数Ｆ（ａ）を用いて（２）式に
より記述長ＭＤＬ（Ｍ（ｎ−１））を求めるとともに、正規化尤度Ｐ’（ｎ）と平均フレ
ーム数Ｆ（ａ）を用いて（２）式により記述長ＭＤＬ（Ｍ（ｎ））を求める（ステップＳ
４７）。

次に、求められた記述長ＭＤＬ（Ｍ（ｎ−１）と記述長ＭＤＬ（Ｍ（ｎ））を比較して
、ＭＤＬ（Ｍ（ｎ−１）＜ＭＤＬ（Ｍ（ｎ））であれば、Ｍ（ｎ−１）を最適分布数であ
るとし、ＭＤＬ（Ｍ（ｎ−１）＜ＭＤＬ（Ｍ（ｎ））でなければ、Ｍ（ｎ）をその時点に
おける仮の最適分布数であるとする処理（ステップＳ４８）を行う。なお、このステップ
Ｓ４８の処理は、図２におけるステップＳ６，Ｓ７，Ｓ８，Ｓ９に相当するものである。

このステップＳ４８の処理が終了すると、ステップＳ４９の処理に入るが、これ以降の
処理は図２と同様に、すべての状態について分布数の最適化がなされていなければ、ステ
ップＳ５０の処理を行う。このステップＳ５０は図２のステップＳ１１と同じであり、分
布数を再設定し、最大分布数をＭ（ｎ）として当該音節ＨＭＭを再学習して、その再学習
された音節ＨＭＭで現在の分布数Ｍ（ｎ）の音節ＨＭＭを置き換える処理である。そして
、ステップＳ４２に戻り、ステップＳ４２以降の処理を行う。

図１９はこの実施形態３を実現するに必要な構成図を示すもので、図３と異なるのは、
アライメントデータ作成部７からは、分布数Ｍ（ｎ）のＨＭＭを用いて作成されるアライ
メントデータＡ（ｎ）と、分布数Ｍ（ｎ−１）のＨＭＭを用いて作成されるアライメント
データＡ（ｎ−１）の２つのアライメントデータが得られることと、これらアライメント
データＡ（ｎ），Ａ（ｎ−１）により、平均のフレーム数Ｆ（ａ）を計算する平均フレー
ム数計算部１１を有する点、さらに、記述長計算部８では、平均フレーム数計算部１１で
得られた平均フレーム数Ｆ（ａ）と、分布数Ｍ（ｎ）を有するＨＭＭのすべての状態の総
フレーム数Ｆ（ｎ）と総尤度Ｐ（ｎ）とを用いて、分布数Ｍ（ｎ）を有するＨＭＭのすべ
ての状態ごとの総尤度の正規化を行って正規化尤度Ｐ’（ｎ）を求めるとともに、平均フ
レーム数Ｆ（ａ）と分布数Ｍ（ｎ−１）を有するＨＭＭのすべての状態ごと総フレーム数
Ｆ（ｎ−１）と総尤度Ｐ（ｎ−１）とを用いて該分布数Ｍ（ｎ−１）を有するＨＭＭのす
べての状態ごとの総尤度の正規化を行って正規化尤度Ｐ’（ｎ−１）を求めたのちに記述
長ＭＤＬ（Ｍ（ｎ−１）と記述長ＭＤＬ（Ｍ（ｎ））を計算する点である。

なお、この図１９では、正規化尤度Ｐ’（ｎ）と正規化尤度Ｐ’（ｎ−１）は記述長計
算部８で求めるようにしたが、これら正規化尤度Ｐ’（ｎ）と正規化尤度Ｐ’（ｎ−１）
を求めるための正規化尤度算出手段を記述長計算部８とは別に設けるようにしてもよい。

図２０は図１８におけるステップＳ４４の処理、すなわち、アライメントデータ作成処
理を説明するフローチャートである。
図２０において、まず、分布数Ｍ（ｎ−１）の音節ＨＭＭセットの読み込みを行い（ス
テップＳ４４ａ）、すべての学習用音声データの処理が終了か否かを判定する（ステップ
Ｓ４４ｂ）。そして、すべての学習用音声データについて処理が終了していなければ、処
理の終了していない学習用音声データを１つ読み込んで（ステップＳ４４ｃ）、読み込ん
だ学習用音声データに対応する音節ラベルデータを音節ラベルデータ３から検索して読み
込む（ステップＳ４４ｄ）。

続いて、分布数Ｍ（ｎ−１）の音節ＨＭＭセットに属するすべての音節ＨＭＭと学習用
音声データ１と音節ラベルデータ３とを用いてアライメントデータＡ（ｎ−１）を作成し
（ステップＳ４４ｅ）、そのアライメントデータＡ（ｎ−１）を保存する（ステップＳ４
４ｆ）。

このステップＳ４４ｃからステップＳ４４ｆの処理をすべての学習用音声データ１に対
して行い、すべての学習用音声データ１について処理が終了すると、今度は、分布数Ｍ（
ｎ）の音節ＨＭＭセットの読み込みを行い（ステップＳ４４ｇ）、すべての学習用音声デ
ータの処理が終了か否かを判定する（ステップＳ２４ｈ）。そして、すべての学習用音声
データ１について処理が終了していなければ、処理の終了していない学習用音声データを
１つ読み込んで（ステップＳ４４ｉ）、読み込んだ学習用音声データに対応する音節ラベ
ルデータを音節ラベルデータ３から検索して読み込む（ステップＳ４４ｊ）。

続いて、分布数Ｍ（ｎ）の音節ＨＭＭセットに属するすべての音節ＨＭＭと学習用音声
データ１と音節ラベルデータ３とを用いてアライメントデータＡ（ｎ）を作成し（ステッ
プＳ４４ｋ）、そのアライメントデータＡ（ｎ）を保存する（ステップＳ４４ｌ）。

図２１（ａ）は分布数Ｍ（ｎ−１）＝分布数Ｍ（３）＝分布数４の音節ＨＭＭと前述の
実施形態１で用いた「私はそれを望む」という学習用音声データ１ａとの対応付けを行っ
た場合のアライメントデータＡ（ｎ−１）＝Ａ（３）の一例であり、同図（ｂ）は分布数
Ｍ（ｎ）＝分布数Ｍ（４）＝分布数８の音節ＨＭＭと前述の実施形態１で用いた「私はそ
れを望む」という学習用音声データ１ａとの対応付けを行った場合のアライメントデータ
Ａ（ｎ）＝Ａ（４）の一例である。

この図２１（ａ），（ｂ）からもわかるように、同じ学習用音声データであっても分布
数の違いによって、得られるアライメントデータは、アライメントデータＡ（ｎ−１）と
アライメントデータＡ（ｎ）とで微妙に異なる。

図２２は図１８におけるステップＳ４５の処理、すなわち、平均フレーム数Ｆ（ａ）を
求める処理手順を詳細に説明するフローチャートである。

図２２において、まず、分布数Ｍ（ｎ−１）の音節ＨＭＭセットによるすべてのアライ
メントデータＡ（ｎ−１）に対する処理が終了か否かを判定する（ステップＳ４５ａ）。
そして、すべてのアライメントデータＡ（ｎ−１）に対する処理が終了していなければ、
まだ、処理の終了していないアライメントデータの読み込みを行い（ステップＳ４５ｂ）
、アライメントデータごとにそれぞれの音節ＨＭＭのそれぞれの状態の開始フレームと終
了フレームを取得し、総フレーム数を計算して、その計算結果を記憶する（ステップＳ４
５ｃ）。

これをすべてのアライメントデータＡ（ｎ−１）について行い、すべてのアライメント
データＡ（ｎ−１）に対する処理が終了したら、それぞれの音節ＨＭＭのそれぞれの状態
の総フレーム数を集計する（ステップＳ４５ｄ）。

次に、分布数Ｍ（ｎ）の音節ＨＭＭセットに対する処理に移り、まず、すべてのアライ
メントデータＡ（ｎ）に対する処理が終了か否かを判定する（ステップＳ４５ｅ）。そし
て、すべてのアライメントデータＡ（ｎ）に対する処理が終了していなければ、まだ、処
理の終了していないアライメントデータの読み込みを行い（ステップＳ４５ｆ）、アライ
メントデータごとにそれぞれの音節ＨＭＭのそれぞれの状態の開始フレームと終了フレー
ムを取得し、総フレーム数を計算して、その計算結果を記憶する（ステップＳ４５ｇ）。

これをすべてのアライメントデータＡ（ｎ）について行い、すべてのアライメントデー
タＡ（ｎ）に対する処理が終了したら、それぞれの音節ＨＭＭのそれぞれの状態の総フレ
ーム数を集計する（ステップＳ４５ｈ）。
そして、それぞれの音節ＨＭＭのそれぞれの状態について、分布数Ｍ（ｎ−１）の場合
の総フレーム数と分布数Ｍ（ｎ）の場合の総フレーム数を取得し、それぞれの平均を計算
して、平均フレーム数を得る（ステップＳ４５ｉ）。

図２３は図２２の平均フレーム数を求める処理の具体例を示す図であり、図２３（ａ）
は分布数Ｍ（ｎ−１）＝Ｍ（３）＝分布数４の音節ＨＭＭセットを用いた場合の総フレー
ム数（それぞれの音節に対するそれぞれの状態ごとの総フレーム数）の集計結果の一例で
あり、図２３（ｂ）は分布数Ｍ（ｎ）＝Ｍ（４）＝分布数８の音節ＨＭＭセットを用いた
場合の総フレーム数（それぞれの音節に対するそれぞれの状態ごとの総フレーム数）の集
計結果の一例である。

なお、前述したように分布数が異なるとアライメントデータに違いが生じるため、この
図２３（ａ），（ｂ）からもわかるように、分布数の違いによって総フレーム数も異なっ
てくる。

このように、図２３（ａ），（ｂ）に示すような分布数Ｍ（ｎ−１）＝Ｍ（３）＝分布
数４と分布数Ｍ（ｎ）＝Ｍ（４）＝分布数８のそれぞれの音節ＨＭＭを用いた場合のそれ
ぞれの音節に対するそれぞれの状態ごとの総フレーム数の集計結果を用いて、それぞれの
音節に対するそれぞれの状態ごとの総フレーム数の平均を求めることによって得られた平
均フレーム数が図２３（ｃ）である。なお、この図２３（ｃ）では、小数点以下を四捨五
入してあるが、四捨五入は必ずしも行う必要はない。

図２４は図１８におけるステップＳ４６，Ｓ４７の処理、すなわち、正規化尤度Ｐ’（
ｎ−１）とＰ’（ｎ）を求め、その正規化尤度Ｐ’（ｎ−１）とＰ’（ｎ）を用いて記述
長を計算する記述長計算処理手順を詳細に説明するフローチャートである。

図２４において、まず、分布数Ｍ（ｎ−１）の音節ＨＭＭセットの読み込みを行い（ス
テップＳ４６ａ）、すべてのアライメントデータＡ（ｎ−１）に対する処理が終了か否か
を判定し（ステップＳ４６ｂ）、すべてのアライメントデータＡ（ｎ−１）に対する処理
が終了していなければ、まだ、処理の終了していないアライメントデータの読み込みを行
う（ステップＳ４６ｃ）。

そして、ステップＳ４６ａで読み込まれた音節ＨＭＭセットとステップＳ４６ｃで読み
込まれたアライメントデータを用いてそれぞれの音節ＨＭＭのそれぞれの状態の尤度を計
算して、その計算結果を記憶する（ステップＳ４６ｄ）。これをすべてのアライメントデ
ータＡ（ｎ−１）について行い、すべてのアライメントデータＡ（ｎ−１）に対する処理
が終了したら、それぞれの音節ＨＭＭのそれぞれの状態の総尤度を集計する（ステップＳ
４６ｅ）。

そして、それぞれの音節ＨＭＭのそれぞれの状態についてその総フレーム数および平均
フレーム数データを読み込み、ステップＳ４６ｅで求められた総尤度を用いて尤度の正規
化を行い、正規化尤度Ｐ’（ｎ−１）を得る（ステップＳ４６ｆ）。

次に、分布数Ｍ（ｎ）の音節ＨＭＭセットに対する処理に移り、まず、分布数Ｍ（ｎ）
の音節ＨＭＭセットの読み込みを行い（ステップＳ４６ｇ）、すべてのアライメントデー
タＡ（ｎ）に対する処理が終了か否かを判定し（ステップＳ４６ｈ）、すべてのアライメ
ントデータＡ（ｎ）に対する処理が終了していなければ、まだ、処理の終了していないア
ライメントデータの読み込みを行い（ステップＳ４６ｉ）、ステップＳ４６ｇで読み込ま
れた音節ＨＭＭセットとステップＳ４６ｈで読み込まれたアライメントデータを用いてそ
れぞれの音節ＨＭＭのそれぞれの状態の尤度を計算して、その計算結果を記憶する（ステ
ップＳ４６ｊ）。

これをすべてのアライメントデータＡ（ｎ）について行い、すべてのアライメントデー
タＡ（ｎ）に対する処理が終了したら、それぞれの音節ＨＭＭのぞれぞれの状態の総尤度
を集計する（ステップＳ４６ｋ）。そして、それぞれの音節ＨＭＭのそれぞれの状態につ
いてその総フレーム数および平均フレーム数を読み込み、ステップＳ４６ｋで求められた
総尤度を用いて尤度の正規化を行い、正規化尤度Ｐ’（ｎ）を得る（ステップＳ４６ｌ）
。

このようにして、正規化尤度Ｐ’（ｎ−１）および正規化尤度Ｐ’（ｎ）が得られたら
、この正規化尤度Ｐ’（ｎ−１）と平均フレーム数Ｆ（ａ）を用いて、分布数Ｍ（ｎ−１
）のそれぞれの音節ＨＭＭのそれぞれの状態について記述長を計算し、その計算結果を記
憶するとともに、正規化尤度Ｐ’（ｎ）と平均フレーム数Ｆ（ａ）を用いて、分布数Ｍ（
ｎ）のそれぞれの音節ＨＭＭのそれぞれの状態について記述長を計算し、その計算結果を
記憶する（ステップＳ４７ａ）。このステップＳ４７ａの処理は図１８におけるステップ
Ｓ４７に相当するものである。

図２５は分布数Ｍ（ｎ−１）の音節ＨＭＭセットを用いた場合と分布数Ｍ（ｎ）の音節
ＨＭＭセットを用いた場合の総尤度の集計結果を示すもので、図２５（ａ）は、分布数Ｍ
（ｎ−１）＝Ｍ（３）＝分布数４の音節ＨＭＭセットにおけるそれぞれの状態ごとのそれ
ぞれの音節に対する総尤度の集計結果を示すもので、図２５（ｂ）は分布数Ｍ（ｎ）＝Ｍ
（４）＝分布数８の音節ＨＭＭセットにおけるそれぞれの状態ごとのそれぞれの音節に対
する総尤度の集計結果を示すものである。

この図２５（ａ），（ｂ）に示す総尤度の集計結果と、前述の図２３に示す総フレーム
数および平均フレーム数とを用いて正規化尤度Ｐ’（ｎ−１）および正規化尤度Ｐ’（ｎ
）を求めることができる。

図２６は分布数Ｍ（ｎ−１）の音節ＨＭＭセットを用いた場合と分布数Ｍ（ｎ）の音節
ＨＭＭセットを用いた場合のそれぞれの音節ＨＭＭのそれぞれの状態について、これまで
に求められた総フレーム数、平均フレーム数、総尤度をまとめたデータであり、図２６（
ａ）は分布数Ｍ（ｎ−１）＝Ｍ（３）＝分布数４の音節ＨＭＭセットを用いた場合、図２
６（ｂ）は分布数Ｍ（ｎ）＝Ｍ（４）＝分布数８の音節ＨＭＭセットを用いた場合である
。

この図２６（ａ），（ｂ）に示すデータを用いて正規化尤度を求める。ここで、正規化
尤度は、
正規化尤度＝平均フレーム数×（総尤度／総フレーム数）（６）
で求めることができる。

したがって、分布数Ｍ（ｎ）の場合は、現在の総尤度をＰ（ｎ）、平均フレーム数をＦ
（ａ）、総フレーム数をＦ（ｎ）とし、また、分布数Ｍ（ｎ−１）の場合は、現在の総尤
度をＰ（ｎ−１）、平均フレーム数をＦ（ａ）、総フレーム数をＦ（ｎ−１）とすると、
分布数Ｍ（ｎ−１）の場合のＰ’（ｎ−１）と、分布数Ｍ（ｎ）の場合のＰ’（ｎ）は、
上述の（６）式から次のように表すことができる。

Ｐ’（ｎ−１）＝Ｆ（ａ）×（Ｐ（ｎ−１）／Ｆ（ｎ−１））（７）
Ｐ’（ｎ）＝Ｆ（ａ）×（Ｐ（ｎ）／Ｆ（ｎ））（８）
この（７）式および（８）式を用いて求められた正規化尤度（Norm．Score）の一例を
図２７に示す。

図２７（ａ）は分布数Ｍ（ｎ−１）の音節ＨＭＭセットを用いた場合、図２７（ｂ）は
分布数Ｍ（ｎ）の音節ＨＭＭセットを用いた場合を示すもので、この図２７（ａ），（ｂ
）は図２６（ａ），（ｂ）のデータに、（７）式または（８）式によって得られた正規化
尤度Ｐ’（ｎ−１），Ｐ’（ｎ）を付加したものである。

この図２７に示すデータを用いて記述長を計算することができる。すなわち、この図２
７に示す平均フレーム数Ｆ（ａ）を前述の（２）式の右辺第２項のＮに代入し、正規化尤
度Ｐ’（ｎ−１）またはＰ’（ｎ）を(２)式の右辺第１項に代入することで、それぞれの
音節ＨＭＭにおけるそれぞれの状態ごとの記述長を求めることができる。

ここで、βの値はモデルの次元数であって、前述同様、分布数×特徴ベクトルの次元数
で計算することができ、この実験例では、特徴ベクトル次元数を２５（ケプストラムが１
２次元、デルタケプストラムが１２次元、デルタパワーが１次元）であるとすると、分布
数Ｍ（１）＝１の場合は、β＝２５となり、分布数Ｍ（２）＝２の場合は、β＝５０とな
り、また、分布数Ｍ（３）＝４の場合は、β＝１００となる。また、重み係数αはここで
は１．０としている。

これにより、たとえば、分布数Ｍ（ｎ−１）＝分布数Ｍ（３）＝分布数４の音節ＨＭＭ
を用いた場合の音節/ａ/における状態Ｓ０の記述長（これをＬ（ａ，０）で表す）は、図
２７（ａ）に示すデータを用いて、
Ｌ(a,0)＝2805933.42＋1.0×（100／２）×log（46732）＝2807030.15 （９）
と求められる。同様に、音節/ｉ/における状態Ｓ０の記述長（これをＬ（ｉ，０）で表す
）は、
Ｌ(i,0)＝7308518.17＋1.0×(100／２)×log(125274)＝7309715.47 （１０）
と求められる。

このようにして、分布数Ｍ（ｎ−１）＝分布数Ｍ（３）＝分布数４の音節ＨＭＭを用い
た場合のそれぞれの音節に対するそれぞれの状態ごとの記述長と、分布数Ｍ（ｎ）＝分布
数Ｍ（４）＝分布数８の音節ＨＭＭを用いた場合のそれぞれの音節に対するそれぞれの状
態ごとの記述長を計算した結果を図２８に示す。

この図２８において、同図（ａ）は分布数Ｍ（ｎ−１）＝分布数Ｍ（３）＝分布数４の
音節ＨＭＭセットを用いた場合の記述長計算結果の一例であり、同図（ｂ）は分布数Ｍ（
ｎ）＝分布数Ｍ（４）＝分布数８の音節ＨＭＭセットを用いた場合の記述長計算結果の一
例である。

なお、この図２８（ａ）におけるそれぞれの状態Ｓ０，Ｓ１，・・・ごとのＭＤＬ（Ｍ
（ｎ−１））は、（９）式や（１０）式などで求められるそれぞれの音節/ａ/，/ｉ/，・
・・に対して求められたそれぞれの状態ごとの記述長であり、図２８（ｂ）におけるＭＤ
Ｌ（Ｍ（ｎ））も同様にそれぞれの音節/ａ/，/ｉ/，・・・に対して求められたそれぞれ
の状態ごとの記述長である。

この図２８（ａ），（ｂ）に示す記述長ＭＤＬ（Ｍ（ｎ−１）），ＭＤＬ（Ｍ（ｎ））
に対して、図２のステップＳ２８における記述長の比較判定処理、すなわち、ＭＤＬ（Ｍ
（ｎ−１））＜ＭＤＬ（Ｍ（ｎ））を行うと、この場合、状態Ｓ０においては、音節/ａ/
，/ｉ/，/ｕ/，/ｅ/はそれぞれが、分布数Ｍ（ｎ）＝Ｍ（４）＝分布数８の方が記述長の
値は小であり、音節/ｏ/のみが分布数Ｍ（ｎ−１）＝Ｍ（３）、すなわち、分布数４の方
が記述長の値は小である。

すなわち、音節/ａ/，/ｉ/，/ｕ/，/ｅ/に対応するそれぞれの音節ＨＭＭにおける状態
Ｓ０は、分布数Ｍ（ｎ）＝Ｍ（４）＝分布数８がその時点では仮の最適分布数であると判
定される。一方、音節/ｏ/に対応する音節ＨＭＭにおける状態Ｓ０は、分布数Ｍ（ｎ−１
）＝分布数Ｍ（３）＝分布数４が最適分布数であると判定される。

これによって、音節/ｏ/に対応する音節ＨＭＭにおける状態Ｓ０は、分布数Ｍ（ｎ−１
）＝分布数Ｍ（３）＝分布数４が最適分布数であるとして、その分布数で保持され、その
状態Ｓ０については以降の分布数増加処理は行わない。一方、音節/ａ/，/ｉ/，/ｕ/，/
ｅ/に対応するそれぞれの音節ＨＭＭにおける状態Ｓ０は、分布数をインデクス番号に対
応させて増加させ、ＭＤＬ（Ｍ（ｎ−１））＜ＭＤＬ（Ｍ（ｎ））となるまで繰り返す。

このような処理をすべての状態に対しても行う。そして、すべての状態の分布数が最適
分布数であるか否かを判定（図２におけるステップＳ１０）、すなわち、すべての状態に
おいて、ＭＤＬ（Ｍ（ｎ−１））＜ＭＤＬ（Ｍ（ｎ））となったか否かを判定し、すべて
の状態の分布数が最適分布数であると判定されれば、その音節ＨＭＭはすべての状態が最
適分布数を有する（分布数の最適化された）音節ＨＭＭとなる。

また、本発明は、それぞれの音節ＨＭＭにおいて、それぞれの状態ごとに分布数を逐次
的に増加させて行き、現時点の分布数における記述長ＭＤＬ（Ｍ（ｎ））と１つ前の分布
数における記述長ＭＤＬ（Ｍ（ｎ−１））を求めて、両者を比較し、ＭＤＬ（Ｍ（ｎ−１
））＜ＭＤＬ（Ｍ（ｎ））となったら、その時の分布数で保持して、その状態については
それ以降、分布数を逐次的に増加させる処理を行わないので、効率よく、それぞれの状態
を最適な分布数に設定することができる。

また、この実施形態３では、分布数Ｍ（ｎ−１）の音節ＨＭＭセットの総フレーム数Ｆ
（ｎ−１）と分布数Ｍ（ｎ）の音節ＨＭＭセットの総フレーム数Ｆ（ｎ）の平均を計算し
それを平均フレーム数Ｆ（ａ）とし、この平均フレーム数Ｆ（ａ）と、総フレーム数Ｆ（
ｎ−１）と、総尤度Ｐ（ｎ−１）とを用いて、正規化尤度Ｐ’（ｎ−１）を求めるととも
に、平均フレーム数Ｆ（ａ）と、総フレーム数Ｆ（ｎ）と、総尤度Ｐ（ｎ）を用いて、正
規化尤度Ｐ’（ｎ）を求める。

そして、これら正規化尤度Ｐ’（ｎ−１）と平均フレーム数Ｆ（ａ）を用いて（２）式
により記述長ＭＤＬ（Ｍ（ｎ−１））を求めるとともに、正規化尤度Ｐ’（ｎ）と平均フ
レーム数Ｆ（ａ）を用いて（２）式により記述長ＭＤＬ（Ｍ（ｎ））を求めるようにして
いるので、分布数の違いをより適切に反映した記述長を求めることができる。これによっ
て、最適な分布数をより高精度に決定することができる。

図２９は以上のようにして作成された音響モデル（ＨＭＭ）を用いた音声認識装置の構
成を示す図であり、音声入力用のマイクロホン２１、このマイクロホン２１から入力され
た音声を増幅するとともにディジタル信号に変換する入力信号処理部２２、入力信号処理
部からのディジタル変換された音声信号から特徴データ（特徴ベクトル）を抽出する特徴
分析部２３、この特徴分析部２３から出力される特徴データに対し、ＨＭＭ２４や言語モ
デル２５を用いて音声認識する音声認識処理部２６から構成され、このＨＭＭ２４として
、これまで説明した音響モデル作成方法によって作成されたＨＭＭ（実施形態１、実施形
態２、実施形態３のいずれかによって最適化された分布数をそれぞれの状態ごとに有する
音節ＨＭＭセット）を用いる。

このように、この音声認識装置はそれぞれの音節ＨＭＭ（１２４音節ごとの音節ＨＭＭ
）において、その音節ＨＭＭのそれぞれの状態ごとに最適化された分布数を有した音節モ
デルとなっているので、高い認識性能を維持した上で、それぞれの音節ＨＭＭにおけるパ
ラメータ数を大きく削減することができる。これによって、演算量の削減、使用メモリ量
の削減が図れ、処理速度の高速化が図れ、さらに、低価格、低消費電力化も可能となるの
で、ハードウエア資源に大きな制約のある小型・安価なシステムにも搭載する音声認識装
置として極めて有用なものとなる。

ちなみに、実施形態３によって最適化された分布数を有する音節ＨＭＭセットを用いた
音声認識装置を用いた認識実験として、１２４音節ＨＭＭにおける文の認識実験を行った
ところ、分布数を同一とした場合（分布数の最適化を行わなかった場合）の認識率が９４
．５５％であったものを、本発明によって分布数の最適化を行った場合の認識率は９４．
８０％となり、認識率の向上を確認できた。

また、認識精度という面で比較すると、分布数を同一とした場合（分布数の最適化を行
わなかった場合）の認識精度が９３．４１％であったものを、本発明（実施形態３）によ
って分布数の最適化を行った場合の認識精度は９３．６６％となり、認識率、認識精度と
もに向上することが確認できた。

また、１２４音節のそれぞれの音節ＨＭＭにおける総分布数は、分布数の最適化を行わ
なかった場合は、３８３６６個であったが、本発明（実施形態３）によって分布数の最適
化を行った場合は１６０７０個であり、分布数の最適化を行わなかった場合に比べて半分
以下に削減することができた。

ここで、認識率と認識精度について簡単に説明する。認識率は正解率、認識精度は正解
精度とも言われ、ここでは、単語に対する正解率（単語正解率）と正解精度（単語正解精
度）について説明する。一般に、単語正解率は、「（全単語数Ｎ−脱落誤り数Ｄ−置き換
え誤り数Ｓ）／全単語数Ｎ」で表される。また、単語正解精度は、「（全単語数Ｎ−脱落
誤り数Ｄ−置き換え誤り数Ｓ−挿入誤り数Ｉ）／全単語数Ｎ」で表される。

ここで、脱落誤りというのは、たとえば、「りんご／２／個／ください」という発話例
に対する認識結果が、「りんご／を／ください」であったとすると、この認識結果は、「
２」が脱落しているので脱落誤りを有しており、「個」が「を」に置き換えられているこ
とから置き換え誤りも有していることがわかる。

また、同じ発話例に対する認識結果が、「みかん／５／個／にして／ください」であっ
た場合は、この認識結果は、「りんご」が「みかん」に置き換えられ、「２」が「５」に
置き換えられたことから、これら「みかん」と「２」がそれぞれ置き換え誤りであり、ま
た、「にして」が挿入されていることから、この「にして」が挿入誤りである。
このようにして、脱落誤りの数、置き換え誤りの数、挿入誤りの数をカウントして、そ
れを上述した式に代入することによって、単語正解率や単語正解精度を求めることができ
る。

〔実施形態４〕
この実施形態４では、同一子音や同一母音を持つ音節ＨＭＭにおいて、これらの音節ＨＭ
Ｍを構成する複数の状態（自己ループを有する状態）のうち、たとえば、初期状態または
最終状態を共有した音節ＨＭＭ（これをここでは便宜的に状態共有音節ＨＭＭと呼ぶこと
にする）を構築し、その状態共有音節ＨＭＭに対して、前述の実施形態１から実施形態３
で説明した技術、すなわち、それぞれの音節ＨＭＭのそれぞれの状態の分布数を最適化す
る技術を適用する。以下、図３０を参照しながら説明する。

ここでは、同一子音や同一母音を持つ音節ＨＭＭとして、たとえば、音節/ｋｉ/の音節
ＨＭＭ、音節/ｋａ/の音節ＨＭＭ、音節/ｓａ/の音節ＨＭＭ、音節/ａ/の音節ＨＭＭにつ
いて考える。すなわち、音節/ｋｉ/と音節/ｋａ/はともに子音/ｋ/を持ち、音節/ｋａ/、
音節/ｓａ/、音節/ａ/はともに母音/ａ/を持っている。

そこで、同一子音を持つ音節ＨＭＭにおいては、それぞれの音節ＨＭＭにおいて、前段
に存在する状態（ここでは、第１の状態とする）を共有し、同一母音を持つ音節ＨＭＭに
おいては、それぞれの音節ＨＭＭにおいて、後段に存在する状態（ここでは、自己ループ
を有する状態のうち最終状態とする）を共有する。

図３０は、音節/ｋｉ/の音節ＨＭＭの第１状態Ｓ０と音節/ｋａ/の音節ＨＭＭの第１状
態Ｓ０とを共有し、音節/ｋａ/の音節ＨＭＭの最終状態Ｓ４と音節/ｓａ/の音節ＨＭＭの
自己ループを有する最終状態Ｓ４と音節/a/の音節ＨＭＭの自己ループを有する最終状態
Ｓ２をそれぞれ共有することを表す図であり、それぞれ共有する状態を太い実線で示す楕
円枠Ｃで囲っている。

このように、同一子音や同一母音を持つ音節ＨＭＭにおいて、状態共有がなされ、その
状態共有された状態は、そのパラメータも同一となり、音節ＨＭＭ学習（最尤推定）を行
う際に同じパラメータとして扱われる。

たとえば、図３１に示すように、「かき」という音声データに対し、自己ループを有す
る状態がＳ０，Ｓ１，Ｓ２，Ｓ３，Ｓ４の５つの状態でなる音節/ｋａ/の音節ＨＭＭと、
同じく自己ループを有する状態がＳ０，Ｓ１，Ｓ２，Ｓ３，Ｓ４の５つの状態でなる音節
/ｋｉ/の音節ＨＭＭとが連結された音節ＨＭＭが構築されたとき、音節/ｋａ/の音節ＨＭ
Ｍの第１の状態Ｓ０と音節/ｋｉ/の音節ＨＭＭの第１の状態Ｓ０が共有されることによっ
て、これら音節/ｋａ/の音節ＨＭＭの状態Ｓ０と音節/ｋｉ/の音節ＨＭＭの状態Ｓ０はそ
れぞれのパラメータが同一として扱われて同時に学習される。

このような状態共有がなされることによって、パラメータ数が減少し、それによって、
使用メモリ量の削減、演算量の削減が図れ、処理能力の低いＣＰＵでの動作が可能となり
、低消費電力化も図れるので、低価格が要求されるシステムへの適用が可能となる。また
、学習用音声データの少ない音節では、パラメータ数の削減によって、過学習による認識
性能劣化を防ぐ効果も期待できる。

このようにして状態共有がなされることによって、ここでの例で取り上げた音節/ｋｉ/
の音節ＨＭＭと音節/ｋａ/の音節ＨＭＭにおいては、それぞれの第１状態Ｓ０を共有した
音節ＨＭＭが構築される。また、音節/ｋａ/の音節ＨＭＭと音節/ｓａ/の音節ＨＭＭと音
節/ａ/の音節ＨＭＭにおいては、最終状態（図３０の例では、音節/ｋａ/の音節ＨＭＭの
状態Ｓ４と音節/ｓａ/の音節ＨＭＭの状態Ｓ４、音節/ａ/の音節ＨＭＭの状態Ｓ２）を共
有した音節ＨＭＭが構築される。
そして、このように状態共有したそれぞれの音節ＨＭＭについて、前述の実施形態１か
ら実施形態３で説明した状態ごとに分布数の最適化を行う。

このように、この実施形態４では、同一子音や同一母音を持つ音節ＨＭＭにおいて、こ
れらの音節ＨＭＭを構成する複数の状態のうち、たとえば、第１状態または最終状態を共
有した状態共有音節ＨＭＭを構築し、その状態共有音節ＨＭＭに対して、前述の実施形態
１から実施形態３で説明した技術を適用することによって、パラメータのより一層の削減
が図れ、それによって、演算量の削減、使用メモリ量の削減、処理速度の高速化がより一
層図れ、さらに、低価格、低消費電力化の効果もより大きなものとなる。さらに、それぞ
れの状態ごとに最適化された分布数を持ち、かつ、それぞれの状態ごとに最適なパラメー
タが得られた音節ＨＭＭとすることができる。

したがって、このように状態共有され、かつ、その状態共有されたそれぞれの音節ＨＭ
Ｍに対して、前述の第１の実施の形態で説明したように、それぞれの状態ごとに最適な分
布数を持つ音節ＨＭＭを作成し、それを図２９に示すような音声認識装置に適用すること
で、高い認識性能を維持した上で、それぞれの音節ＨＭＭにおけるパラメータ数をより一
層削減することができる。

これによって、演算量や使用メモリ量のより一層の削減が図れ、処理速度の高速化が図
れ、さらに、低価格、低消費電力化も可能となるので、低コストが要求されハードウエア
資源に大きな制約のある小型・安価なシステムにも搭載する音声認識装置として極めて有
用なものとなる。

なお、上述の状態共有の例では、同一子音や同一母音を持つ音節ＨＭＭにおいて、これ
らの音節ＨＭＭを構成する複数の状態のうち、初期状態と最終状態をそれぞれ共有する例
について説明したが、それぞれ複数ずつの状態を共有するようにしてもよい。すなわち、
同一子音を有する音節ＨＭＭ同士においては、それら音節ＨＭＭにおける初期状態または
この初期状態を含む少なくとも２つの状態（たとえば、初期状態と第２状態）を共有し、
同一母音を有する音節ＨＭＭ同士においてはそれら音節ＨＭＭにおける自己ループを有す
る状態の最終状態またはこの最終状態を含む少なくとも２つの状態（たとえば、最終状態
とそれより１つ手前の状態）を共有するそれによって、パラメータ数をより一層削減する
ことができる。

図３２は前述した図３０において、音節/ｋｉ/の音節ＨＭＭの初期状態である第１状態
Ｓ０および第２状態Ｓ１と音節/ｋａ/の音節ＨＭＭの初期状態である第１状態Ｓ０および
第２の状態Ｓ１とをそれぞれ共有し、音節/ｋａ/の音節ＨＭＭの最終状態Ｓ４およびそれ
より１つ前の第４状態Ｓ３と音節/ｓａ/の音節ＨＭＭの最終状態Ｓ４およびそれよりも１
つ前の状態Ｓ３と音節/ａ/の音節ＨＭＭの最終状態Ｓ２およびそれよりも１つ前の状態Ｓ
１をそれぞれ共有することを示した図であり、この図３２においてもそれぞれ共有する状
態を太い実線で示す楕円枠Ｃで囲っている。

なお、この実施形態４では、音節ＨＭＭを連結する際、同一子音や同一母音については
状態を共有することについて説明したが、たとえば、音素ＨＭＭを連結して音節ＨＭＭを
構築するような場合、同じような考え方で、同一母音についてはその状態の分布を共有す
ることも可能である。

たとえば、図３３に示すように、音素/ｋ/の音素ＨＭＭと音素/ｓ/の音素ＨＭＭと音素
/ａ/の音素ＨＭＭがあって、音素/ｋ/の音素ＨＭＭと音素/ａ/の音素ＨＭＭを連結して音
節/ｋａ/の音節ＨＭＭを構築し、また、音素/ｓ/の音素ＨＭＭと音素/ａ/の音素ＨＭＭを
連結して音節/ｓａ/の音節ＨＭＭを構築する際、新たに構築された音節/ｋａ/の音節ＨＭ
Ｍと音節/ｓａ/の音節ＨＭＭの母音/ａ/は同じであるので、その音節/ｋａ/の音節ＨＭＭ
と音節/ｓａ/の音節ＨＭＭにおける音素/ａ/に対応する部分は、音素/ａ/の音素ＨＭＭの
それぞれの状態における分布を共有する。

そして、このように同一母音の分布を共有した音節/ｋａ/の音節ＨＭＭと音節/ｓａ/の
音節ＨＭＭについて実施形態１から実施形態３のいずれかで説明した状態ごとの分布数の
最適化を行うが、この最適化の結果、分布を共有した音節ＨＭＭ（図３３の例では、音節
/ｋａ/の音節ＨＭＭと音節/ｓａ/の音節ＨＭＭ）においては、その分布共有部分（この図
３３の例では、音素/ａ/の音素ＨＭＭにおける自己ループを有する状態）の分布数は音節
/ｋａ/の音節ＨＭＭと音節/ｓａ/の音節ＨＭＭで同じとする。

なお、本発明は上述の実施の形態に限られるものではなく、本発明の要旨を逸脱しない
範囲で種々変形実施可能となるものである。たとえば、前述の実施形態１から実施形態３
において、記述長の比較、すなわち、ＭＤＬ（Ｍ（ｎ−１））とＭＤＬ（Ｍ（ｎ））の比
較をＭＤＬ（Ｍ（ｎ−１））＜ＭＤＬ（Ｍ（ｎ））か否かを判定することによって行った
が、ある値（これをεとする）を設定し、ＭＤＬ（Ｍ（ｎ））−ＭＤＬ（Ｍ（ｎ−１））
＜εを判定するようにしてもよい。このεを任意の値に設定することによって判定のため
の基準値を制御することができる。

なお、本発明は以上説明した本発明を実現するための音響モデル作成手順が記述された
音響モデル作成プログラムを作成し、それをフロッピィディスク、光ディスク、ハードデ
ィスクなどの記録媒体に記録させておくこともできる。したがって、本発明は、その音響
モデル作成プログラムの記録された記録媒体をも含むものである。また、ネットワークか
らその音響モデル作成プログラムを得るようにしてもよい。

本発明の実施形態で用いられる分布数の増加規則を説明する図である。本発明の実施形態１における音響モデル作成手順を説明するフローチャートである。本発明の実施形態１における音響モデル作成装置の構成を示す図である。分布数Ｍ（１）＝分布数１の音節ＨＭＭセットに属するそれぞれの音節ＨＭＭを模式的に示したものである。図２のステップＳ３の処理（分布数増加処理）を説明するフローチャートである。図２のステップＳ４の処理（アライメントデータ作成処理）を説明するフローチャートである。アライメントデータを作成するために、それぞれの音節ＨＭＭとある学習用音声データとの対応付けを行う処理の具体例を説明する図である。図２のステップＳ５の処理（記述長計算処理）を説明するフローチャートである。本発明で用いる（２）式における重み係数αについて説明する図である。実施形態１および実施形態２において、分布数Ｍ（２）＝分布数２の音節ＨＭＭを用いてアライメントデータ作成処理を行った場合に得られるアライメントデータＡ（２）の一例を示す図である。音節ラベルデータの一例を示す図である。実施形態１および実施形態２において、アライメントデータＡ（２）を利用した分布数Ｍ（２）＝分布数２の音節ＨＭＭセットに属する音節ＨＭＭのある学習用音声データに対するそれぞれの状態ごとの尤度計算結果を示す図である。実施形態１および２において、アライメントデータＡ（２）を利用した分布数Ｍ（２）＝分布数２を有する音節ＨＭＭセットに属するそれぞれの音節ＨＭＭの総フレーム数と総尤度の集計結果を示す図である。実施形態１および実施形態２において、アライメントデータＡ（２）を利用した分布数Ｍ（２）＝分布数２の場合の分布数Ｍ（２）＝分布数２を有する音節ＨＭＭセットに属するそれぞれの音節ＨＭＭのそれぞれの音節/ａ/，/ｉ/，/ｕ/、・・・に対するそれぞれの状態Ｓ０，Ｓ１，Ｓ２，・・・ごとの記述長を示す図である。実施形態１および２において、アライメントデータＡ（２）を利用した場合の分布数Ｍ（１）＝１の音節ＨＭＭセットに対する記述長の計算結果と分布数Ｍ（２）＝分布数２の音節ＨＭＭセットに対する記述長の計算結果を示す図である。本発明の実施形態２における音響モデル作成手順を説明するフローチャートである。本発明の実施形態２における音響モデル作成装置の構成を示す図である。本発明の実施形態３における音響モデル作成手順を説明するフローチャートである。本発明の実施形態３における音響モデル作成装置の構成を示す図である。図１８のステップＳ４４の処理（アライメントデータ作成処理）を説明するフローチャートである。実施形態３において、分布数Ｍ（ｎ−１）＝分布数Ｍ（３）＝分布数４と分布数Ｍ（ｎ）＝分布数Ｍ（４）＝分布数８のそれぞれの音節ＨＭＭを用いて場合のアライメントデータＡ（３），Ａ（４）を示す図である。図１８のステップＳ４５の処理（平均フレーム数計算処理）を説明するフローチャートである。実施形態３において、総フレーム数から平均フレーム数を算出する具体例を示す図である。図１８のステップＳ４６，Ｓ４７の処理（正規化尤度算出処理と記述長計算処理）を説明するフローチャートである。実施形態３において、分布数Ｍ（ｎ−１）＝分布数Ｍ（３）＝分布数４と分布数Ｍ（ｎ）＝分布数Ｍ（４）＝分布数８のそれぞれの音節ＨＭＭによって得られた総尤度の集計結果の具体例を示す図である。実施形態３において、分布数Ｍ（ｎ−１）の音節ＨＭＭセットを用いた場合と分布数Ｍ（ｎ）の音節ＨＭＭセットを用いた場合のそれぞれの音節ＨＭＭのそれぞれの状態について求められた総フレーム数、平均フレーム数、総尤度をまとめたデータを示す図である。図２６のデータに正規化された総尤度（正規化尤度）を付加した図である。図２７のデータのうち平均フレーム数と正規化尤度を用いて記述長を求めた結果を示す図である。本発明の音声認識装置の概略的な構成を説明する図である。本発明の実施形態４の状態共有について説明する図であり、いくつかの音節ＨＭＭにおいて初期状態または最終状態（自己ループを有する状態の中での最終状態）を共有する場合を説明する図である。初期状態を状態共有した２つの音節ＨＭＭを連結したものをある音声データに対応つけて示す図である。図３０に示す状態共有において、初期状態を含む複数の状態または最終状態を含む複数の状態を共有する例を説明する図である。分布共有において子音の音素ＨＭＭと母音の音素ＨＭＭを連結して音節ＨＭＭを構築する際、母音の音素ＨＭＭの状態の分布数を共有する場合を説明する図である。

符号の説明

１学習用音声データ、２ＨＭＭ学習部、３音節ラベルデータ、５分布数設定部
、６ＨＭＭ再学習部、７アライメントデータ作成部、Ａ（ｎ−１），Ａ（ｎ）アラ
イメントデータ、８記述長計算部、９最適分布数決定部、１１平均フレーム数計算
部、２１マイクロホン、２２入力信号処理部、２３特徴分析部、２４ＨＭＭ、２
５言語モデル、２６音声認識処理部、Ｓ０，Ｓ１，Ｓ２，・・・状態

Claims

ＨＭＭ（隠れマルコフモデル）を構成するそれぞれの状態のガウス分布数をそれぞれの状態ごとに最適化して、その最適化されたガウス分布数を有するＨＭＭを生成する音響モデル作成方法であって、
複数のＨＭＭのそれぞれの状態ごとにガウス分布数をある増加規則に基づいて逐次的に増加させて、あるガウス分布数に設定する分布数設定ステップと、
該分布数設定ステップによって、あるガウス分布数に設定されたそれぞれのＨＭＭのそれぞれの状態ごとに学習用音声データとの対応付けを行って対応付けデータを作成する対応付けデータ作成ステップと、
該対応付けデータ作成ステップによって作成された対応付けデータと、現時点のガウス分布数を有するそれぞれのＨＭＭのそれぞれの状態について記述長最小基準を用いて記述長を求め、それを現時点記述長として出力するとともに、前記現時点の直前のガウス分布数を有するそれぞれのＨＭＭのそれぞれの状態について記述長最小基準を用いて記述長を求め、それを直前記述長として出力する記述長算出ステップと、
該記述長算出ステップによって算出された前記現時点記述長および前記直前記述長の大きさの比較を行い、その比較の結果に基づいて、それぞれのＨＭＭのそれぞれの状態ごとに最適なガウス分布数を設定する最適分布数決定ステップを有し、
前記記述長最小基準は、モデル集合｛１，・・・，ｉ，・・・，Ｉ｝とデータχ^Ｎ＝｛χ_１，・・・，χ_Ｎ｝（ただし、Ｎはデータ長）が与えられたときのモデルｉを用いた記述長ｌｉ（χ^Ｎ）が、一般的な式として、

で表され、この記述長を求める一般的な式において、前記モデル集合｛１，・・・，ｉ，・・・，Ｉ｝は、前記ＨＭＭのそれぞれの状態の分布数がある値から最大分布数までの複数種類に設定されたＨＭＭの集合であるとして考え、ここで、前記分布数の種類の数がＩ種類（ＩはＩ≧２の整数）であるとき、前記１，・・・，ｉ，・・・，Ｉは、１番目の種類からＩ番目の種類までのそれぞれの種類を特定するための符号であって、前記（１）式を、前記１，・・・，ｉ，・・・，Ｉのうちのｉ番目の分布数の種類を有するＨＭＭの記述長を求める式として、
前記（１）式を変形した下記の式、

を用いることを特徴とする音響モデル作成方法。
前記（２）式のαは、最適な分布数を得るための重み係数であることを特徴とする請求項１記載の音響モデル作成方法。
前記最適分布数決定ステップは、前記現時点記述長と前記直前記述長との大きさを比較した結果、前記直前記述長が前記現時点記述長よりも小さい場合は、前記直前のガウス分布数をその状態における最適分布数とし、前記現時点記述長が前記直前記述長よりも小さい場合は、前記現時点のガウス分布数をその状態におけるその時点の仮の最適分布数とし、
前記分布数設定ステップは、最適分布数であると判定された状態についてはそのガウス分布数を該最適分布数で保持し、仮の最適分布数であると判定された状態について、そのガウス分布数を前記ある増加規則に従って増加させることを特徴とする請求項１記載の音響モデル作成方法。
前記記述長算出ステップが行う記述長算出の前段階の処理として、
前記現時点のガウス分布数を有するそれぞれのＨＭＭのそれぞれの状態の総フレーム数と前記直前のガウス分布数を有するそれぞれのＨＭＭのそれぞれの状態の総フレーム数との平均のフレーム数を求める平均フレーム数算出ステップと、
現時点のガウス分布数を有するそれぞれのＨＭＭのそれぞれの状態ごとの総尤度の正規化を行って正規化された尤度を求めるとともに、前記直前のガウス分布数を有するそれぞれのＨＭＭのそれぞれの状態ごとの総尤度の正規化を行って正規化された尤度を求める正規化尤度算出ステップと、
を有することを特徴とする請求項３に記載の音響モデル作成方法。
前記複数のＨＭＭは、それぞれの音節に対応した音節ＨＭＭであり、
前記音節ＨＭＭにおいて、同一子音や同一母音を有する複数の音節ＨＭＭに対し、これらの音節ＨＭＭを構成する状態のうち、同一子音を有する音節ＨＭＭ同士においては、それら音節ＨＭＭにおける初期状態またはこの初期状態を含む複数の状態を共有し、同一母音を有する音節ＨＭＭ同士においては、それら音節ＨＭＭにおける自己ループを有する状態の最終状態またはこの最終状態を含む複数の状態を共有することを特徴とする請求項１から４のいずれかに記載の音響モデル作成方法。