JP2004109590A

JP2004109590A - 音響モデル作成方法および音声認識装置

Info

Publication number: JP2004109590A
Application number: JP2002273071A
Authority: JP
Inventors: Masanobu Nishitani; 西谷　正信; Yasunaga Miyazawa; 宮澤　康永; Hiroshi Matsumoto; 松本　弘; Kazutada Yamamoto; 山本　一公
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2002-09-19
Filing date: 2002-09-19
Publication date: 2004-04-08
Anticipated expiration: 2022-09-19
Also published as: US20040111263A1; JP4069715B2

Abstract

【課題】パラメータ数の削減を図り、しかも高い認識性能を得るＨＭＭとするためにＨＭＭを構成する状態ごとにガウス分布数を最適化する。
【解決手段】個々の音節ＨＭＭを構成するそれぞれの状態のガウス分布数を１から最大分布数（分布数６４）としたＨＭＭセットを学習用音声データ１を用いて学習し、学習された音節ＨＭＭセット３１〜３７のうち最大分布数に設定された音節ＨＭＭセット３７を用いて、個々のＨＭＭの各状態とそのＨＭＭに対応する学習用音声データとをそれぞれの状態ごとにビタビアライメントをとる。そして、記述長計算部６がアライメントデータ５を用いて個々のＨＭＭの各状態ごとに記述長を求め、記述長が最小となる分布数を持つ状態を状態選択部８によって選択する。そして、記述長が最小となる分布数を持つ状態によって個々のＨＭＭを構築し、ＨＭＭ再学習部９によって、それらのＨＭＭに対して学習用音声データを用いて再学習する。
【選択図】　　　　図１

Description

【０００１】
【発明の属する技術分野】
本発明は、音響モデルとして混合連続分布型ＨＭＭ（隠れマルコフモデル）を作成する音響モデル作成方法およびこの音響モデルを用いた音声認識装置に関する。
【０００２】
【従来の技術】
音声認識においては、音響モデルとして音素ＨＭＭや音節ＨＭＭを用い、この音素ＨＭＭや音節ＨＭＭを連結して、単語や文節、文といった単位の音声言語を認識する方法が一般的に行われている。特に最近、より高い認識性能を持つ音響モデルとして、混合連続分布型ＨＭＭが広く使われている。
【０００３】
一般的に、ＨＭＭは１個から１０個の状態とその間の状態遷移から構成されている。各状態でのシンボル（ある時刻の音声特徴ベクトル）の出現確率の計算において、混合連続分布型ＨＭＭでは、ガウス分布数が多いほど認識精度が高くなるが、ガウス分布数が多ければその分、パラメータ数も多くなり計算量やメモリ使用量が増大するという問題がある。これは処理能力の低いプロセッサや小容量のメモリを用いざるを得ない安価な機器に音声認識機能を搭載する場合、特に大きな問題となる。
【０００４】
また、一般的な混合連続分布型ＨＭＭでは、すべての音素（または音節）ＨＭＭの全状態でガウス分布数が同じであるため、学習用音声データが少ない音素（または音節）ＨＭＭでは過学習が起こり、該当する音素（音節）で認識性能が低くなるという問題もある。
【０００５】
このように、混合連続分布型ＨＭＭではそれぞれの音素（または音節）の全状態においてガウス分布数が一定であるのが一般的であり、認識精度を高めるため、それぞれの状態におけるガウス分布数はある程度の数が必要である。しかしながら、上述したように、ガウス分布数が多ければその分、パラメータ数も多くなり計算量やメモリ使用量が増大するという問題もあるので、むやみにガウス分布数を増やすことはできないのが現状である。
【０００６】
そこで、音素（または音節）ＨＭＭにおいて、それぞれの状態ごとにガウス分布数を異ならせる、つまり、それぞれの状態ごとにガウス分布数を最適化することが考えられる。たとえば、音節ＨＭＭを例にとれば、ある音節ＨＭＭを構成する各状態において、認識に大きく影響を与える部分の状態とそれほど大きな影響を与えない状態が存在することを考慮して、認識に大きく影響を与える部分の状態はガウス分布数を多くし、認識にそれほど大きな影響を与えない状態はガウス分布数を少なくすることが考えられる。
【０００７】
このように、音素（または音節）ＨＭＭにおいてそれぞれの状態ごとにガウス分布数を最適化しようとする技術の一例として、「“ＭＤＬ基準を用いたＨＭＭサイズの削減”篠田浩一、磯健一、２００２年春季研究発表会　日本音響学会講演論文集　２００２年３月、７９〜８０頁」がある。
【０００８】
【非特許文献１】
“ＭＤＬ基準を用いたＨＭＭサイズの削減”篠田浩一、磯健一、２００２年春季研究発表会　日本音響学会講演論文集　２００２年３月、
７９〜８０頁
【０００９】
【発明が解決しようとする課題】
この従来技術は、各状態において、認識に対する寄与の少ない部分におけるガウス分布数を削減することについて記載されており、簡単に言えば、十分な学習用音声データ量で学習された大きなガウス布数を持つＨＭＭを用意し、その状態ごとのガウス分布数の木構造を作成し、各状態ごとに記述長最小（ＭＤＬ：Ｍｉｎｉｍｕｍ　Ｄｅｓｃｒｉｐｔｉｏｎ　Ｌｅｎｇｔｈ）基準を最小にするガウス分布数の集合を選ぶものである。
【００１０】
この従来技術によれば、確かに、音素（または音節）ＨＭＭにおいてそれぞれの状態ごとにガウス分布数を効果的に削減することができ、しかも、それぞれの状態におけるガウス分布数の最適化が可能となり、ガウス分布数の削減によるパラメータ数の削減を可能としながらも高い認識率を維持できると考えられる。
【００１１】
しかしながら、この従来技術は、状態ごとのガウス分布数数の木構造を作成し、その木構造の分布の中からＭＤＬ基準を最小とするガウス分布集合（ノードの組み合わせ）を選択するというものであるため、ある状態において最適なガウス分布数を得るためのノードの組み合わせ数は極めて多く、それぞれの組み合わせごとに記述長を求めるために多くの演算を行う必要がある。
【００１２】
なお、このＭＤＬ基準は、モデル集合｛１，・・・，ｉ，・・・，Ｉ｝とデータχ^Ｎ＝｛χ_１，・・・，χ_Ｎ｝が与えられたときのモデルｉを用いた記述長ｌｉ（χ^Ｎ）が、特許請求の範囲に記載した（１）式のように定義される。
【００１３】
ＭＤＬ基準は、この記述長ｌｉ（χ^Ｎ）が最小であるモデルが最適なモデルであるとしているが、この従来技術では、ノードの組み合わせが極めて多くなる可能性があることから、最適なガウス分布集合を選択する際に、その（１）式を近似した記述長計算式を用いて、ノードの組み合わせで構成されるガウス分布集合の記述長を求めている。このように、近似式によってノードの組み合わせで構成されるガウス分布集合の記述長が求められると、求められた結果の精度に多少の問題が生じる場合もあると考えられる。
【００１４】
本発明は、それぞれの音素（または音節）ＨＭＭの各状態ごとのガウス分布数をＭＤＬ基準を用い、少ない演算量で精度よく最適な分布数の設定を可能とすることで、少ない演算量で高い認識性能が得られるＨＭＭの作成が可能な音響モデル作成方法を提供するとともに、その音響モデルを用いることにより、演算能力やメモリ容量などハードウエア資源に大きな制約のある安価なシステムに適用できる音声認識装置を提供することを目的としている。
【００１５】
【課題を解決するための手段】
上述した目的を達成するために、本発明の音響モデル作成方法は、ＨＭＭを構成するそれぞれの状態のガウス分布数をそれぞれの状態ごとに最適化して、その最適化されたＨＭＭを学習用音声データを用いて再学習してＨＭＭを作成する音響モデル作成方法であって、ＨＭＭを構成する複数の状態の各状態ごとに、ガウス分布数をある値から最大分布数までの複数種類のガウス分布数に設定し、この複数種類のガウス分布数に設定されたそれぞれの状態に対して、それぞれのガウス分布数ごとに記述長最小基準を用いて記述長を求め、この記述長が最小となるガウス分布数を持つ状態をそれぞれの状態ごとに選択し、このそれぞれの状態ごとに選択された記述長が最小となるガウス分布数を持つ状態によってそのＨＭＭを構築し、その構築されたＨＭＭを学習用音声データを用いて再学習するようにしている。
【００１６】
このような音響モデル作成方法において、前記記述長最小基準は、モデル集合｛１，・・・，ｉ，・・・，Ｉ｝とデータχ^Ｎ＝｛χ_１，・・・，χ_Ｎ｝（ただし、Ｎはデータ長）が与えられたときのモデルｉを用いた記述長ｌｉ（χ^Ｎ）が、一般的な式として前記（１）式で表され、この記述長を求める一般的な式において、前記モデル集合｛１，・・・，ｉ，・・・，Ｉ｝は、あるＨＭＭにおけるある状態のガウス分布数がある値から最大分布数までの複数種類に設定された状態の集合であるとして考え、ここで、前記ガウス分布数の種類の数がＩ種類（ＩはＩ≧２の整数）であるとき、前記１，・・・，ｉ，・・・，Ｉは、１番目の種類からＩ番目の種類までのそれぞれの種類を特定するための符号であって、前記（１）式を、前記１，・・・，ｉ，・・・，Ｉのうちのｉ番目の分布数の種類を持つ状態の記述長を求める式として用いるようにしている。
【００１７】
また、前記記述長を求める一般的な式において、右辺の第２項に重み係数αを乗じるようにしている。
【００１８】
また、前記記述長を求める一般的な式において、右辺の第２項に重み係数αを乗じ、かつ、右辺の第３項を省略するようにしてもよい。
【００１９】
また、前記データχ^Ｎは、前記ある値から最大分布数までのうちのある任意のガウス分布数をそれぞれの状態に持つＨＭＭを用い、そのＨＭＭのそれぞれの状態と多数の学習用音声データとをそれぞれの状態ごとに時系列的な対応付けを行って得られるそれぞれの学習用音声データの集合であるとしている。なお、このとき、前記任意のガウス分布数は、前記最大分布数とすることが好ましい。
【００２０】
また、前記ＨＭＭが音節ＨＭＭである場合、同一子音や同一母音を持つ複数の音節ＨＭＭに対し、これらの音節ＨＭＭを構成する状態のうち、同一子音を有する音節ＨＭＭ同士においては、それら音節ＨＭＭにおける初期状態またはこの初期状態を含む少なくとも２つの状態を共有し、同一母音を有する音節ＨＭＭ同士においては、それら音節ＨＭＭにおける自己ループを有する状態の最終状態またはこの最終状態を含む少なくとも２つの状態を共有することもできる。
【００２１】
また、本発明の音声認識装置は、入力音声を特徴分析して得られた特徴データに対し音響モデルとしてＨＭＭを用いて前記入力音声を認識する音声認識装置であって、前記音響モデルとしてのＨＭＭとして、上述の音響モデル作成方法によって作成されたＨＭＭを用いるようにしている。
【００２２】
このように本発明では、それぞれの状態ごとにガウス分布数（以下では、単に分布数という）の最適化を行うために、ＨＭＭを構成する複数の状態ごとに、ガウス分布数をある値から最大分布数まで複数種類の分布数に設定し、このガウス分布数がある値から最大分布数まで設定された状態に対して、分布数がある値から最大分布数のどの分布数が最適であるかを記述長最小基準を用いて選択し、記述長が最小となる分布数を持つ状態によってそれぞれのＨＭＭを構築し、その構築されたそれぞれのＨＭＭに対して学習用音声データを用いて再学習するようにしている。これによって、少ない演算量で最適な分布数の設定が可能となり、少ない演算量で高い認識性能が得られるＨＭＭを作成することができる。
【００２３】
特に、本発明の場合、分布数がある値から最大分布数までの中から最適な分布数を持つ状態を選択するというものであるため、たとえば、ある状態における分布数の種類を７種類とすれば、１つの状態において記述長を求める計算を７回行って、その中から記述長最小となる状態を選択すればよいので、少ない演算量で最適な分布数設定が可能となることが特徴の１つである。
【００２４】
また、本発明ではＭＤＬ基準におけるモデル集合｛１，・・・，ｉ，・・・，Ｉ｝は、あるＨＭＭにおけるある状態のガウス分布数がある値から最大分布数までの複数種類に設定された状態の集合であるとして考え、前述の（１）式を、１，・・・，ｉ，・・・，Ｉのうちのｉ番目の分布数の種類を持つ状態の記述長を求める式として用いるようにしているので、ある状態における分布数をある値から最大分布数までの様々な分布数の種類に設定したとき、それぞれの分布数に設定された状態の記述長を容易に計算することができる。そして、その結果から、記述長最小となる分布数を求めることで、その状態における最適な分布数を設定することができる。
【００２５】
また、記述長を求める一般的な式において、右辺の第２項に重み係数αを乗じるようにしている。これによって、重み係数αを可変することによって、第２項の単調増加の傾きを可変（αを大きくするほど傾きが大きくなる）することができ、記述長ｌｉ（χ^Ｎ）を可変させることができるので、たとえば、αを大きくすると、分布数がより小さい場合に記述長ｌｉ（χ^Ｎ）が最小になるように調整することができる。
【００２６】
また、記述長を求める一般的な式において、右辺の第２項に重み係数αを乗じ、かつ、定数を表す右辺の第３項を省略することによって、記述長を求める計算をより簡略化することができる。
【００２７】
また、ある任意の分布数をそれぞれの状態に持つＨＭＭを用い、そのＨＭＭのある状態とそのＨＭＭに対応する多数の学習用音声データとを時系列的な対応付け（たとえばビタビアライメント）を行い、その対応付けられた区間に対応するそれぞれの学習用音声データの集合を（１）式のデータχ^Ｎとして用いている。このように、ある任意の分布数をそれぞれの状態に持つＨＭＭを用い、そのＨＭＭのある状態とそのＨＭＭに対応する多数の学習用音声データとを時系列的な対応付けを行って得られた学習用音声データを（１）式のデータχ^Ｎとして用いて記述長を計算することで精度よく記述長を求めることができる。
【００２８】
このとき、任意の分布数として、最大分布数をそれぞれの状態に持つＨＭＭを用いることで、より一層、高精度な対応付けが行えるので、そのアライメントデータを記述長の計算に用いることで、より一層、精度よく記述長を求めることができる。
【００２９】
また、前記ＨＭＭは音節ＨＭＭとすることが望ましく、本発明の場合、音節ＨＭＭとすることによって演算量の削減などの効果が得られる。たとえば、音節の数を１２４音節とした場合、音素の数（２６から４０個程度）に比べると、数の面では音節の方が多いが、音素ＨＭＭの場合、トライフォンモデルを音響モデル単位として用いることが多く、このトライフォンモデルは、ある音素の前後の音素環境を考慮して１つの音素として構成されるので、あらゆる組み合わせを考慮すると、そのモデル数は数千個となり、音響モデル数としては音節モデルの方がはるかに少なくなる。
【００３０】
ちなみに、音節ＨＭＭの場合、それぞれの音節ＨＭＭを構成する状態数は子音を含む音節の場合が５個程度、母音だけで構成される音節の場合が３個程度であるので、合計の状態数は約６００程度であるが、トライフォンモデルの場合は、状態数の合計は、モデル間で状態共有を行い、状態数を削減した場合であっても数千個にものぼる。このことから、ＨＭＭを音節ＨＭＭとすることによって、記述長を求める計算は勿論のこと、全般的な演算量の削減を図ることができ、また、トライフォンモデルに遜色ない認識精度が得られるといった効果が得られる。
【００３１】
また、前記ＨＭＭが音節ＨＭＭである場合、同一子音や同一母音を持つ複数の音節ＨＭＭに対し、これらの音節ＨＭＭを構成する状態のうち、同一子音を有する音節ＨＭＭ同士においてはそれら音節ＨＭＭにおける初期状態またはこの初期状態を含む少なくとも２つの状態を共有し、同一母音を有する音節ＨＭＭ同士においてはそれら音節ＨＭＭにおける自己ループを有する状態の最終状態またはこの最終状態を含む少なくとも２つの状態を共有するようにしているので、パラメータ数のより一層の削減が可能となり、それによって、演算量の削減、使用メモリ量の削減、処理速度の高速化がより一層図れ、さらに、低価格、低消費電力化の効果もより大きなものとなる。
【００３２】
また、本発明の音声認識装置は、上述の本発明の音響モデル作成方法によって作成された音響モデル（ＨＭＭ）用いる。すなわち、このＨＭＭはそれを構成する複数の状態ごとに最適な分布数を有した各音節ごとの音節モデルとなっているので、すべての状態が多数の分布数で一定となっているＨＭＭに比べ、認識性能を劣化させることなく、それぞれの音節ＨＭＭにおけるパラメータ数を大きく削減することができる。これによって、演算量の削減、使用メモリ量の削減が可能となり、それによって、処理速度の高速化、低価格化、低消費電力化も可能となるので、ハードウエア資源に大きな制約のある小型・安価なシステムに搭載する音声認識装置として極めて有用なものとなる。
【００３３】
【発明の実施の形態】
以下、本発明の実施の形態について説明する。
【００３４】
〔第１の実施の形態〕
まず、第１の実施の形態として、それぞれの音節ＨＭＭにおいて、ＭＤＬ基準を用いてその音節ＨＭＭを構成するそれぞれの状態ごとに分布数の最適化を行う例について説明する。
【００３５】
なお、本発明は音素ＨＭＭと音節ＨＭＭの両方に適用可能であるが、この第１の実施の形態では音節ＨＭＭについて説明する。まず、この第１の実施の形態の全体的な処理の流れの概略について図１により説明する。
【００３６】
まず、個々の音節ＨＭＭを構成するそれぞれの状態のガウス分布の分布数をある値から最大分布数までに設定した音節ＨＭＭセットを作成する。この実施の形態では、分布数は分布数１、分布数２、分布数４、分布数８、分布数１６、分布数３２、分布数６４の７種類の分布数であるとする。
【００３７】
すなわち、分布数を１としたすべての音節ＨＭＭからなる音節ＨＭＭセット、分布数を２としたすべての音節ＨＭＭからなる音節ＨＭＭセット、分布数を４としたすべての音節ＨＭＭからなる音節ＨＭＭセットというように、この場合、それぞれの音節について上述の７種類の分布数を有する７種類の音節ＨＭＭセットを作成する。なお、この実施の形態では、分布数を７種類として説明するが、７種類に限られるものではなく、また、それぞれの分布数も１，２，４，８，１６，３２，６４というような値に限られるものではなく、また、最大分布数も６４に限られるものではない。
【００３８】
そして、この７種類の音節ＨＭＭセットに含まれるすべての音節ＨＭＭに対して、ＨＭＭ学習部２がそれぞれの音節ＨＭＭのパラメータについて最尤推定法を用いてそれぞれ学習し、分布数１から最大分布数までの学習済みの音節ＨＭＭが作成される。すなわち、この実施の形態では、分布数として、分布数１、分布数２、分布数４、・・・、分布数６４の７種類としているので、それらに対応した７種類の学習済みの音節ＨＭＭセット３１〜３７が作成される。これについて図２により説明する。
【００３９】
ＨＭＭ学習部２では、学習用音声データ１を用いて最尤推定法によってそれぞれの音節（ここでは、音節／ａ／、音節／ｋａ／、・・・など１２４音節とする）について分布数を１，２，・・・，６４の７種類とした個々の音節ＨＭＭセットの学習を行い、それぞれの分布数ごとの音節ＨＭＭセット３１，３２，・・・，３７を作成する。なお、この例では、それぞれの音節ＨＭＭは、自己ループを有する状態がＳ０，Ｓ１，Ｓ２の３つの状態で構成されるものとする。
【００４０】
これによって、分布数１の音節ＨＭＭセット３１には、音節／ａ／のＨＭＭ、音節／ｋａ／のＨＭＭなど、１２４音節それぞれの音節について学習済みの音節ＨＭＭが存在し、また、分布数２の音節ＨＭＭセット３２には、音節／ａ／のＨＭＭ、音節／ｋａ／のＨＭＭなど、１２４音節それぞれの音節について学習済みの音節ＨＭＭが存在するというように、分布数１、分布数２、分布数４、・・・、分布数６４のそれぞれの音節ＨＭＭセット３１，３２，・・・，３７には、１２４音節それぞれの音節について学習済みの音節ＨＭＭが存在する。
【００４１】
なお、図２において、分布数１の音節ＨＭＭセット３１、分布数２の音節ＨＭＭセット３２、・・・、分布数６４の音節ＨＭＭセット３７の各音節ＨＭＭの各状態Ｓ０，Ｓ１，Ｓ２の下に描かれている楕円形枠Ａ内のガウス分布がそれぞれの状態における分布例を示すもので、分布数１の音節ＨＭＭセット３１は、どの音節ＨＭＭについても１個の分布を有し、分布数２の音節ＨＭＭセット３２は、どの音節ＨＭＭについても２個の分布を有し、分布数６４の音節ＨＭＭセット３７は、どの音節ＨＭＭについても６４個の分布を有している。
【００４２】
このように、ＨＭＭ学習部２の学習によって、分布数１の音節ＨＭＭセット３１、分布数２の音節ＨＭＭセット３２、・・・、最大分布数の音節ＨＭＭセット（この場合、分布数６４の音節ＨＭＭセット３７）の７種類の分布数に対応するそれぞれの音節ＨＭＭセット３１〜３７が作成される。
【００４３】
次に、図１に説明が戻って、ＨＭＭ学習部２の学習によって学習された分布数１の音節ＨＭＭセット３１、分布数２の音節ＨＭＭセット３２、・・・、最大分布数の音節ＨＭＭセット（この場合、分布数６４の音節ＨＭＭセット３７）のうち、任意の音節ＨＭＭセット（ここでは、最大分布数、つまり、分布数６４の音節ＨＭＭセット３７）を用い、アライメントデータ作成部４によって、すべての学習用音声データ１とのビタビ（Ｖｉｔｅｒｂｉ）アライメントをとり、それぞれの音節ＨＭＭの各状態と学習用音声データ１との対応付けを行って、最大分布数（分布数６４）の音節ＨＭＭセット３７の各状態Ｓ０，Ｓ１，Ｓ２と学習用音声データ１とのアライメントデータ５を作成する。これについて図３および図４を参照しながら説明する。
【００４４】
なお、図３はこのアライメントデータ作成処理を説明するに必要な部分だけを図１から取り出して示すものであり、また、図４はアライメントデータ作成を作成するために、それぞれの音節ＨＭＭの各状態と学習用音声データ１との対応付けを行う処理の具体例を説明するものである。
【００４５】
アライメントデータ作成部４では、すべての学習用音声データ１と最大分布数の音節ＨＭＭセット（この場合、分布数６４の音節ＨＭＭセット３７）を用いて、図４の（ａ），（ｂ），（ｃ）に示すように、分布数６４の音節ＨＭＭセット３７の各音節ＨＭＭにおける各状態Ｓ０，Ｓ１，Ｓ２とその音節に対応する学習用音声データ１とのアライメントをとる。
【００４６】
たとえば、図４（ｂ）に示すように、「秋（あき）の・・・」という学習用音声データ例に対してアライメントをとると、その学習用音声データ「あ」、「き」、「の」、・・・に対応する各音声データ区間において、分布数６４の音節／ａ／のＨＭＭにおける状態Ｓ０は、「あ」の音声データにおける区間ｔ１に対応し、音節／ａ／のＨＭＭにおける状態Ｓ１は「あ」の音声データにおける区間ｔ２に対応し、音節／ａ／のＨＭＭにおける状態Ｓ２は「あ」の音声データにおける区間ｔ３に対応するというような対応付けを行って、その対応付けデータをアライメントデータ５とする。
【００４７】
同様に、分布数６４の音節／ｋｉ／のＨＭＭにおける状態Ｓ０は、「き」の音声データにおける区間ｔ４に対応し、音節／ｋｉ／のＨＭＭにおける状態Ｓ１は、「き」の音声データにおける区間ｔ５に対応し、音節／ｋｉ／のＨＭＭにおける状態Ｓ２は、「き」の音声データにおける区間ｔ６に対応するというような対応付けを行って、その対応付けデータをアライメントデータ５とする。
【００４８】
また、図４（ｃ）に示すように、学習用音声データの一例として、「試合（しあい）・・・」という学習用音声データにおける「し」に対応する部分、「あ」に対応する部分、「い」に対応する部分において、「あ」の部分に注目すると、分布数６４の音節／ａ／のＨＭＭにおける状態Ｓ０は「あ」の音声データにおける区間ｔ１１に対応し、音節／ａ／のＨＭＭにおける状態Ｓ１は「あ」の音声データにおける区間ｔ１２に対応し、音節／ａ／のＨＭＭにおける状態Ｓ２は「あ」の音声データにおける区間ｔ１３に対応するというような対応付けを行って、その対応付けデータをアライメントデータ５とする。
【００４９】
次に、このアライメントデータ作成部４によって求められた分布数６４の音節ＨＭＭセットにおけるそれぞれの音節ＨＭＭの各状態と学習用音声データとのアライメントデータ５を用いて、分布数１から最大分布数までの音節ＨＭＭセット（この場合、分布数１、分布数２、分布数４、・・・、分布数６４の７種類の分布数に対応する各音節ＨＭＭセット３１〜３７について、すべての状態の記述長を、図１に示す記述長計算部６によって求める。これについて図５および図６を参照しながら説明する。
【００５０】
図５は記述長計算部６の説明に必要な部分を図１から取り出して示すもので、分布数１から最大分布数の各音節ＨＭＭセット（この場合、分布数１、分布数２、分布数４、・・・、分布数６４の各音節ＨＭＭセット３１〜３７のパラメータと、学習用音声データ１と、各音節ＨＭＭの各状態と学習用音声データ１とのアライメントデータ５とが記述長計算部６に与えられる。
【００５１】
そして、この記述長計算部６によって、各音節ＨＭＭにおける各状態のそれぞれの分布数対応の記述長が計算される。これによって、分布数１から最大分布数（分布数６４）までの７種類の分布数に対応する各音節ＨＭＭセット３１〜３７の各音節ＨＭＭにおける各状態の記述長が計算される。
【００５２】
すなわち、分布数１の音節ＨＭＭセット３１の各音節ＨＭＭにおける各状態の記述長、分布数２の音節ＨＭＭセット３２の各音節ＨＭＭにおける各状態の記述長、分布数４の音節ＨＭＭセット３３の各音節ＨＭＭにおける各状態の記述長、分布数６４の音節ＨＭＭセット３７の各音節ＨＭＭにおける各状態の記述長というように、分布数１の音節ＨＭＭセット３１の各音節ＨＭＭにおける各状態の記述長から分布数６４の各音節ＨＭＭにおける各状態の記述長が得られ、これら、分布数１の音節ＨＭＭセット３１の各音節ＨＭＭにおける各状態の記述長７１から分布数６４の各音節ＨＭＭにおける各状態の記述長は、記述長格納部７１〜７７に保持される。なお、この記述長の計算の仕方については後に説明する。
【００５３】
図６は図５で求められた分布数１の音節ＨＭＭの各音節ＨＭＭにおける各状態の記述長（記述長格納部７１に保持されている各状態の記述長）から最大分布数（分布数６４）の音節ＨＭＭセットの各音節ＨＭＭにおける各状態の記述長（記述長格納部７７に保持されている各状態の記述長）において、たとえば、音節／ａ／のＨＭＭの各状態Ｓ０，Ｓ１，Ｓ２についてそれぞれ記述長が求められた様子を示すものである。
【００５４】
この図６からもわかるように、分布数１における音節／ａ／のＨＭＭの状態Ｓ０，Ｓ１，Ｓ２についてそれぞれ記述長が求められ、分布数２における音節／ａ／のＨＭＭの状態Ｓ０，Ｓ１，Ｓ２についてそれぞれ記述長が求められ、分布数６４における音節／ａ／のＨＭＭの状態Ｓ０，Ｓ１，Ｓ２についてそれぞれ記述長が求められるというように、分布数１から最大分布数（分布数６４）までの７種類の分布数に対応する音節／ａ／のＨＭＭについて、それぞれの状態Ｓ０，Ｓ１、Ｓ２の記述長が求められる。なお、この図６では、７種類の分布数のうち分布数１と最大分布数（分布数６４）の音節／ａ／のＨＭＭについてのみが図示されている。
【００５５】
そのほかの音節についても同様に、分布数１から最大分布数（分布数６４）までの７種類の分布数に対応するそれぞれの音節ＨＭＭについて、それぞれの状態Ｓ０，Ｓ１、Ｓ２ごとに記述長が求められる。
【００５６】
次に、状態選択部８が上述の記述長計算部６で計算された分布数１の音節ＨＭＭセット３１の各状態の記述長から最大分布数（分布数６４）の音節ＨＭＭセット３７の各状態の記述長を用い、各音節ＨＭＭごとに、各音節ＨＭＭの各状態の記述長が最小となる分布数を持つ状態を選択する。これを図７および図８を参照しながら説明する。
【００５７】
図７は状態選択部８の説明に必要な部分を図１から取り出して示すもので、
記述長計算部６で計算された分布数１の音節ＨＭＭセット３１の各状態の記述長（記述長格納部７１に保持されている各状態の記述長）から最大分布数（分布数６４）の音節ＨＭＭセット３７の各状態の記述長（記述長格納部７７に保持されている各状態の記述長）について、それぞれの音節ＨＭＭごとにそれぞれの状態Ｓ０，Ｓ１、Ｓ２において、どの分布数を持つ状態の記述長が最小となるかを判断し、記述長が最小となる分布数を持つ状態を選択する。
【００５８】
ここでは、音節／ａ／のＨＭＭと音節／ｋａ／のＨＭＭについて、分布数１から最大分布数（分布数６４）までの７種類の分布数に対応するそれぞれの音節ＨＭＭにおけるそれぞれの状態Ｓ０，Ｓ１、Ｓ２ごとに、どの分布数を持つ状態の記述長が最小（記述長最小）となるかを判断し、記述長が最小となる分布数を持つ状態の選択処理を図８によって説明する。
【００５９】
まず、音節／ａ／のＨＭＭにおける状態Ｓ０について、分布数１から分布数６４の中でどの分布数を持つ状態Ｓ０が記述長最小であるかを判断した結果、分布数２を持つ状態Ｓ０が記述長最小であると判断されたとする。これを点線の矩形枠Ｍ１で示す。
【００６０】
また、音節／ａ／のＨＭＭにおける状態Ｓ１について、分布数１から分布数６４の中でどの分布数を持つ状態Ｓ１が記述長最小であるかを判断した結果、分布数６４を持つ状態Ｓ１が記述長最小であると判断されたとする。これを点線の矩形枠Ｍ２で示す。
【００６１】
また、音節／ａ／のＨＭＭにおける状態Ｓ２について、分布数１から分布数６４の中でどの分布数を持つ状態Ｓ２が記述長最小であるかを判断した結果、分布数１を持つ状態Ｓ２が記述長最小であると判断されたとする。これを点線の矩形枠Ｍ３で示す。
【００６２】
このように、この音節／ａ／のＨＭＭについて、分布数１から最大分布数（分布数６４）までのそれぞれの状態Ｓ０，Ｓ１、Ｓ２ごとに、どの分布数を持つ状態の記述長が最小となるかを判断し、記述長最小を持つ状態を選択すると、この場合、状態Ｓ０にあっては分布数２を持つ状態Ｓ０が選択され、状態Ｓ１にあっては分布数６４を持つ状態Ｓ０が選択され、状態Ｓ２にあって分布数１を持つ状態Ｓ０が選択されるので、それらを結合した音節／ａ／のＨＭＭを構築する。
【００６３】
この記述長最小を持つ状態で構成された音節／ａ／のＨＭＭは、その状態Ｓ０は分布数が２、状態Ｓ１は分布数が６４、状態Ｓ２は分布数が１となり、分布数が最適化された状態の結合による音節／ａ／のＨＭＭとなる。
【００６４】
同様に、音節／ｋａ／のＨＭＭにおける状態Ｓ０について、分布数１から分布数６４の中でどの分布数を持つ状態Ｓ０が記述長最小かを判断した結果、分布数１を持つ状態Ｓ０が記述長最小であると判断されたとする。これを点線の矩形枠Ｍ４で示す。
【００６５】
また、音節／ｋａ／のＨＭＭにおける状態Ｓ１について、分布数１から分布数６４の中でどの分布数を持つ状態が記述長最小かを判断した結果、分布数２を持つ状態Ｓ１が記述長最小であると判断されたとする。これを点線の矩形枠Ｍ５で示す。また、音節／ｋａ／のＨＭＭにおける状態Ｓ２について、分布数１から分布数６４の中でどの分布数を持つ状態Ｓ２が記述長最小かを判断した結果、同じく、分布数２を持つ状態Ｓ２が記述長最小であると判断されたとする。これを点線の矩形枠Ｍ６で示す。
【００６６】
このように、この音節／ｋａ／のＨＭＭについて、分布数１から最大分布数（分布数６４）までのそれぞれの状態Ｓ０，Ｓ１、Ｓ２ごとに、どの分布数を持つ状態の記述長が最小となるかを判断し、記述長最小を持つ状態を選択すると、この場合、状態Ｓ０にあっては分布数１を持つ状態Ｓ０が選択され、状態Ｓ１にあっては分布数２を持つ状態が選択され、状態Ｓ２は分布数２を持つ状態Ｓ３が選択されるので、それらを結合した音節／ｋａ／のＨＭＭを構築する。
【００６７】
この記述長最小を持つ状態で構成された音節／ｋａ／のＨＭＭは、状態Ｓ０は分布数が１、状態Ｓ１は分布数が２、状態Ｓ２も分布数が２となり、分布数が最適化された状態の結合による音節／ｋａ／のＨＭＭとなる。
【００６８】
このような処理をすべての音節（ここでは１２４音節）のＨＭＭについて行うことによって、それぞれの音節ＨＭＭは、記述長最小を持つ状態で構成され、それによって、最適化された分布数を持つＨＭＭが構築される。
【００６９】
このようにして、それぞれの音節ＨＭＭについて、各状態ごとに最適化された分布数を持つＨＭＭが構築されると、ＨＭＭ再学習部９（図１参照）によって、これら最適化された分布数を持つＨＭＭの全パラメータに対し、学習用音声データ１を用いて最尤推定法によって再学習する。これによって、それぞれの音節ＨＭＭについて、各状態ごとに最適化された分布数を持ち、かつ、それぞれの状態ごとに最適なパラメータが得られた音節ＨＭＭセット１０が得られる。
【００７０】
次に、本発明で用いるＭＤＬ（記述長最小）基準について説明する。このＭＤＬ基準については、たとえば、「韓太舜著“岩波講座応用数学１１、情報と符号化の数理”岩波書店（１９９４），ｐｐ２４９−２７５」などに述べられている公知の技術であり、従来技術の項でも述べたように、モデルの集合｛１，・・・，ｉ，・・・，Ｉ｝とデータχ^Ｎ＝｛χ_１，・・・，χ_Ｎ｝（ただし、Ｎはデータ長）が与えられたときのモデルｉを用いた記述長ｌｉ（χ^Ｎ）は、前述した（１）式のように定義され、このＭＤＬ基準は、この記述長ｌｉ（χ^Ｎ）が最小であるモデルが最適なモデルであるとしている。
【００７１】
本発明では、ここでいうモデル集合｛１，・・・，ｉ，・・・，Ｉ｝は、あるＨＭＭにおいて分布数がある値から最大分布数までの複数種類に設定されたある状態の集合であるとして考える。なお、分布数がある値から最大分布数までの複数種類に設定されているときの分布数の種類がＩ種類（ＩはＩ≧２の整数）であるとしたとき、上述の１，・・・，ｉ，・・・，Ｉは、１番目の種類からＩ番目の種類までそれぞれの種類を特定するための符号であって、上述の（１）式を、１，・・・，ｉ，・・・，Ｉのうちのｉ番目の分布数の種類を持つ状態の記述長を求める式として用いるものである。
【００７２】
なお、この１，・・・，ｉ，・・・，ＩのＩは、異なる分布数を持つＨＭＭセットの総数、すなわち、分布数が何種類あるかを表すもので、この実施の形態では、分布数は、１，２，４，８，１６，３２，６４の７種類としているので、Ｉ＝７となる。
【００７３】
このように、１，・・・，ｉ，・・・，Ｉが、１番目の種類からＩ番目の種類までそれぞれの種類を特定するための符号であるので、この実施の形態での例では、分布数１に対しては分布数の種類を表す符号として、１，・・・，ｉ，・・・，Ｉのうち１が与えられ、分布数の種類が１番目であることを示す。また、分布数２に対しては分布数の種類を表す符号として、１，・・・，ｉ，・・・，Ｉのうち２が与えられ、分布数の種類が２番目であることを示す。また、分布数４に対しては分布数の種類を表す符号として、１，・・・，ｉ，・・・，Ｉのうち３が与えられ、分布数の種類が３番目であることを示す。また、分布数８に対しては分布数の種類を表す符号として、１，・・・，ｉ，・・・，Ｉのうち４が与えられ、分布数の種類が４番目であることを示す。また、分布数１６に対しては分布数の種類を表す符号として、１，・・・，ｉ，・・・，Ｉのうち５が与えられ、分布数の種類が５番目であることを示す。また、分布数３２に対しては分布数の種類を表す符号として、１，・・・，ｉ，・・・，Ｉのうち６が与えられ、分布数の種類が６番目であることを示す。また、分布数６４に対しては分布数の種類を表す符号として、１，・・・，ｉ，・・・，Ｉのうち７が与えられ、分布数の種類が７番目であることを示す。
【００７４】
ここで、音節／ａ／のＨＭＭについて考えると、図８に示すように、分布数１から分布数６４までの７種類の分布数をもつ状態Ｓ０の集合が１つのモデル集合、同じく、分布数１から分布数６４までの７種類の分布数をもつ状態Ｓ１の集合が１つのモデル集合、同じく、分布数１から分布数６４までの７種類の分布数をもつ状態Ｓ２の集合が１つのモデル集合となる。
【００７５】
したがって、上述の（１）式のように定義された記述長ｌｉ（χ^Ｎ）は、本発明においては、ある状態の分布数の種類が１，・・・，ｉ，・・・，Ｉのうちのｉ番目の種類に設定したときのその状態（これを状態ｉで表す）の記述長ｌｉ（χ^Ｎ）であるとして、次式のように定義する。
【００７６】
【数２】

【００７７】
この（２）式は、前述の（１）式における右辺の最終項である第３項のｌｏｇＩは定数であるので省略し、かつ、（１）式における右辺の第２項である（βｉ／２）ｌｏｇＮに重み係数αを乗じている点が（１）式と異なっている。なお、上述の（２）式においては、（１）式における右辺の最終項である第３項のｌｏｇＩを省略したが、これを省略せずにそのまま残した式としてもよい。
【００７８】
また、βｉは分布数の種類がｉ番目の分布数を持つ状態ｉの次元（自由度）として、分布数×特徴ベクトルの次元数で表されるが、この特徴ベクトルの次元数は、ここでは、ケプストラム（ＣＥＰ）次元数＋Δケプストラム（ＣＥＰ）次元数＋Δパワー（ＰＯＷ）次元数である。
【００７９】
また、αは最適な分布数を調整するための重み係数であり、このαを変えることによって、記述長ｌｉ（χ^Ｎ）を変化させることができる。すなわち、図９（ａ），（ｂ）に示すように、単純に考えれば、（２）式の右辺の第１項は、分布数の増加に伴ってその値が減少し（細い実線で示す）、（２）式における右辺の第２項は、分布数の増加に伴って単調増加（太い実線で示す）し、これら第１項と第２項の和で求められる記述長ｌｉ（χ^Ｎ）は、破線で示すような値をとる。
【００８０】
したがって、αを可変することによって、第２項の単調増加の傾きを可変（αを大きくするほど傾きが大きくなる）することができるので、（２）式における右辺の第１項と第２項の和で求められる記述長ｌｉ（χ^Ｎ）は、αの値を変化させることによって変化させることができる。これによって、たとえば、αを大きくすると、図９（ａ）は同図（ｂ）のようになり、分布数がより小さい場合に記述長ｌｉ（χ^Ｎ）が最小になるように調整することができる。
【００８１】
なお、（２）式における分布数の種類がｉ番目の分布数を持つ状態ｉはＭ個のデータ（あるフレーム数からなるＭ個のデータ）に対応している。すなわち、データ１の長さ（フレーム数）をｎ１、データ２の長さ（フレーム数）をｎ２、データＭの長さ（フレーム数）をｎＭで表せば、χ^ＮのＮはＮ＝ｎ１＋ｎ２＋・・・＋ｎＭで表されるので、（２）式における右辺の第１項は、下記の（３）式のように表される。
【００８２】
なお、ここでのデータ１，データ２，・・・，データＭは、状態ｉに対応つけられた多数の学習用音声データ１のある区間に対応するデータ（たとえば、図４で説明したように、仮に状態ｉが分布数６４の音節／ａ／のＨＭＭにおける状態Ｓ０であるとすれば、区間ｔ１や区間ｔ１１に対応する学習用音声データ）である。
【００８３】
【数３】

【００８４】
この（３）式において、右辺のそれぞれの項は、分布数の種類がｉ番目の分布数を持つ状態ｉに対応する区間のデータに対する尤度であるが、この実施の形態では、当該状態ｉに対応する区間のデータに対する出力確率としている。なお、その出力確率は、実際には、その状態ｉに対応するデータを構成する複数のフレーム対応の出力確率の和で表される。
【００８５】
ところで、上述の（２）式によって求められる記述長ｌｉ（χ^Ｎ）において、記述長ｌｉ（χ^Ｎ）が最小であるモデルが最適なモデル、すなわち、ある音節ＨＭＭのある状態において、記述長ｌｉ（χ^Ｎ）が最小となる分布数を持つ状態が最適な状態であるとする。
【００８６】
すなわち、この実施の形態では、分布数を１，２，４，８，１６，３２，６４の７種類としているので、記述長ｌｉ（χ^Ｎ）は、ある状態において、分布数１（分布数の種類としては１番目）としたときの当該状態の記述長ｌ１（χ^Ｎ）、分布数２（分布数の種類としては２番目）としたときの当該状態の記述長ｌ２（χ^Ｎ）、分布数４（分布数の種類としては３番目）としたときの当該状態の記述長ｌ３（χ^Ｎ）、分布数８（分布数の種類としては４番目）としたときの記述長ｌ４（χ^Ｎ）、分布数１６（分布数の種類としては５番目）のときの記述長ｌ５（χ^Ｎ）、分布数３２（分布数の種類としては６番目）のときの当該状態の記述長ｌ６（χ^Ｎ）、分布数６４（分布数の種類としては７番目）としたときの当該状態の記述長ｌ７（χ^Ｎ）の７種類の記述長が得られ、その中から記述長が最小となる分布数を持つ状態ｉを選択する。
【００８７】
たとえば、図８の例においては、音節／ａ／のＨＭＭについて考えると、分布数１から最大分布数（分布数６４）までのそれぞれの状態Ｓ０，Ｓ１、Ｓ２ごとに、それぞれの分布数を持つ状態の記述長を（２）式によって計算して求め、記述長最小の状態を選択すると、この図８は、前述したように、状態Ｓ０にあっては分布数２の状態Ｓ０が記述長最小であるとしてこの分布数２の状態Ｓ０が選択され、状態Ｓ１にあっては分布数６４の状態Ｓ１が記述長最小であるとしてこの分布数６４の状態Ｓ１が選択され、状態Ｓ２にあっては分布数１の状態Ｓ２が記述長最小であるとしてこの分布数１の状態Ｓ２が選択された例である。
【００８８】
以上説明したように、（２）式を用いて、それぞれの音節ＨＭＭについて、分布数１から最大分布数（この実施の形態では分布数６４）までのそれぞれの状態（この実施の形態では状態Ｓ０，Ｓ１、Ｓ２）ごとに、記述長ｌｉ（χ^Ｎ）を計算し、それぞれの状態において、どの分布数を持つ状態の記述長が最小となるかを判断し、記述長最小となった状態を選択する。そして、それぞれの音節ごとに、記述長最小となる分布数を持つ状態によってその音節ＨＭＭを構築する。
【００８９】
このようにして、それぞれの音節ＨＭＭについて、各状態ごとに最適化された分布数を持つＨＭＭが構築されると、これらのＨＭＭの全パラメータに対し、学習用音声データ１を用いて最尤推定法によって再学習する。これによって、それぞれの音節ＨＭＭについて、各状態ごとに最適化された分布数を持ち、かつ、それぞれの状態ごとに最適なパラメータが得られる。
【００９０】
この各状態ごとに最適化された分布数を持ち、かつ、それぞれの状態ごとに最適なパラメータが得られた各音節ＨＭＭは、各音節ＨＭＭにおいて各状態ごとに分布数が最適化されているため、十分な認識性能を確保することができ、しかも、すべての状態で同じ分布数とした場合に比べ、パラメータ数を大幅に削減することができ、演算量の削減、使用メモリ量の削減が図れ、処理速度の高速化が図れ、さらに、低価格、低消費電力化も可能となる。
【００９１】
図１０はこのようにして作成された音響モデル（ＨＭＭモデル）を用いた音声認識装置の構成を示す図であり、音声入力用のマイクロホン２１、このマイクロホン２１から入力された音声を増幅するとともにディジタル信号に変換する入力信号処理部２２、入力信号処理部からのディジタル変換された音声信号から特徴データ（特徴ベクトル）を抽出する特徴分析部２３、この特徴分析部２３から出力される特徴データに対し、ＨＭＭモデル２４や言語モデル２５を用いて音声認識する音声認識処理部２６から構成され、このＨＭＭモデル２４として、これまで説明した音響モデル作成方法によって作成されたＨＭＭモデル（図１で示した状態ごとに最適な分布数を持つ音節ＨＭＭセット１０）を用いる。
【００９２】
このように、この音声認識装置はそれぞれの音節ＨＭＭ（たとえば、１２４音節ごとの音節ＨＭＭ）において、その音節ＨＭＭを構成するそれぞれの状態ごとに最適な分布数を有した音節モデルとなっているので、高い認識性能を維持した上で、それぞれの音節ＨＭＭにおけるパラメータ数を大きく削減することができ、それによって、演算量の削減、使用メモリ量の削減が図れ、処理速度の高速化が図れ、さらに、低価格、低消費電力化も可能となるので、ハードウエア資源に大きな制約のある小型・安価なシステムにも搭載する音声認識装置として極めて有用なものとなる。
【００９３】
ちなみに、本発明の状態ごとに最適な分布数を持つ音節ＨＭＭセット１０を用いた音声認識装置を用いた認識実験として、１２４音節ＨＭＭにおける文の認識実験を行ったところ、総分布数が約１９０００での認識率が９４．６％であったものを、本発明によって分布数の最適化を行い、総分布数を約７０００としたときの認識率が９４．４％となり、総分布数数を約１／３としても認識性能を維持できることが確認できた。
【００９４】
〔第２の実施の形態〕
この第２の実施の形態では、同一子音や同一母音を持つ音節ＨＭＭにおいて、これらの音節ＨＭＭを構成する複数の状態（自己ループを有する状態）のうち、たとえば、初期状態または最終状態を共有した音節ＨＭＭ（これをここでは便宜的に状態共有音節ＨＭＭと呼ぶことにする）を構築し、その状態共有音節ＨＭＭに対して、前述の第１の実施の形態で説明した技術、すなわち、それぞれの音節ＨＭＭの各状態の分布数を最適化する技術を適用する。以下、図１１を参照しながら説明する。
【００９５】
ここでは、同一子音や同一母音を持つ音節ＨＭＭとして、たとえば、音節／ｋｉ／のＨＭＭ、音節／ｋａ／のＨＭＭ、音節／ｓａ／のＨＭＭ、音節／ａ／のＨＭＭについて考える。すなわち、音節／ｋｉ／と音節／ｋａ／はともに子音／ｋ／を持ち、音節／ｋａ／、音節／ｓａ／、音節／ａ／はともに母音／ａ／を持っている。
【００９６】
そこで、同一子音を持つ音節ＨＭＭにおいては、それぞれの音節ＨＭＭにおいて、前段に存在する状態（ここでは、第１の状態とする）を共有し、同一母音を持つ音節ＨＭＭにおいては、それぞれの音節ＨＭＭにおいて、後段に存在する状態（ここでは、自己ループを有する状態のうち最終状態とする）を共有する。
【００９７】
図１１は、音節／ｋｉ／のＨＭＭの第１状態Ｓ０と音節／ｋａ／のＨＭＭの第１状態Ｓ０とを共有し、音節／ｋａ／のＨＭＭの最終状態Ｓ４と音節／ｓａ／のＨＭＭの自己ループを有する最終状態Ｓ４と音節／ａ／のＨＭＭの自己ループを有する最終状態Ｓ２をそれぞれ共有することを表す図であり、それぞれ共有する状態を太い実線で示す楕円枠Ｃで囲っている。
【００９８】
このように、同一子音や同一母音を持つ音節ＨＭＭにおいて、状態共有がなされ、その状態共有された状態は、そのパラメータも同一となり、ＨＭＭ学習（最尤推定）を行う際に同じパラメータとして扱われる。
【００９９】
たとえば、図１２に示すように、「かき」という音声データに対し、自己ループを有する状態がＳ０，Ｓ１，Ｓ２，Ｓ３，Ｓ４の５つの状態でなる音節／ｋａ／のＨＭＭと、同じく自己ループを有する状態がＳ０，Ｓ１，Ｓ２，Ｓ３，Ｓ４の５つの状態でなる音節／ｋｉ／のＨＭＭとが連結されたＨＭＭが構築されたとき、音節／ｋａ／のＨＭＭの第１の状態Ｓ０と音節／ｋｉ／のＨＭＭの第１の状態Ｓ０が共有されることによって、これら音節／ｋａ／のＨＭＭの状態Ｓ０と音節／ｋｉ／のＨＭＭの状態Ｓ０はそれぞれのパラメータが同一として扱われて同時に学習される。
【０１００】
このような状態共有がなされることによって、パラメータ数が減少し、それによって、使用メモリ量の削減、演算量の削減が図れ、処理能力の低いＣＰＵでの動作が可能となり、低消費電力化も図れるので、低価格が要求されるシステムへの適用が可能となる。また、学習用音声データの少ない音節では、パラメータ数の削減によって、過学習による認識性能劣化を防ぐ効果も期待できる。
【０１０１】
このようにして状態共有がなされることによって、ここでの例で取り上げた音節／ｋｉ／のＨＭＭと音節／ｋａ／のＨＭＭにおいては、それぞれの第１状態Ｓ０を共有したＨＭＭが構築される。また、音節／ｋａ／のＨＭＭと音節／ｓａ／のＨＭＭと音節／ａ／のＨＭＭにおいては、最終状態（図１１の例では、音節／ｋａ／のＨＭＭの状態Ｓ４４と音節／ｓａ／のＨＭＭの状態Ｓ４、音節／ａ／のＨＭＭの状態Ｓ２）を共有したＨＭＭが構築される。
【０１０２】
そして、このように状態共有したそれぞれの音節ＨＭＭについて、前述の第１の実施の形態で説明したＭＤＬ基準を用いてそれぞれの状態ごとに分布数の最適化を行う。
【０１０３】
このように、この第２の実施の形態では、同一子音や同一母音を持つ音節ＨＭＭにおいて、これらの音節ＨＭＭを構成する複数の状態のうち、たとえば、第１状態または最終状態を共有した状態共有音節ＨＭＭを構築し、その状態共有音節ＨＭＭに対して、前述の第１の実施の形態で説明した技術を適用することによって、パラメータのより一層の削減が図れ、それによって、演算量の削減、使用メモリ量の削減、処理速度の高速化がより一層図れ、さらに、低価格、低消費電力化の効果もより大きなものとなる。さらに、各状態ごとに最適化された分布数を持ち、かつ、それぞれの状態ごとに最適なパラメータが得られた音節ＨＭＭとすることができる。
【０１０４】
したがって、このように状態共有され、かつ、その状態共有されたそれぞれの音節ＨＭＭに対して、前述の第１の実施の形態で説明したように、各状態ごとに最適な分布数を持つ音節ＨＭＭを作成し、それを図１０に示すような音声認識装置に適用することで、高い認識性能を維持した上で、それぞれの音節ＨＭＭにおけるパラメータ数をより一層削減することができる。これによって、演算量や使用メモリ量のより一層の削減が図れ、処理速度の高速化が図れ、さらに、低価格、低消費電力化も可能となるので、低コストが要求されハードウエア資源に大きな制約のある小型・安価なシステムにも搭載する音声認識装置として極めて有用なものとなる。
【０１０５】
なお、上述の状態共有の例では、同一子音や同一母音を持つ音節ＨＭＭにおいて、これらの音節ＨＭＭを構成する複数の状態のうち、初期状態と最終状態をそれぞれ共有する例について説明したが、それぞれ複数ずつの状態を共有するようにしてもよい。すなわち、同一子音を有する音節ＨＭＭ同士においては、それら音節ＨＭＭにおける初期状態またはこの初期状態を含む少なくとも２つの状態（たとえば、初期状態と第２状態）を共有し、同一母音を有する音節ＨＭＭ同士においてはそれら音節ＨＭＭにおける自己ループを有する状態の最終状態またはこの最終状態を含む少なくとも２つの状態（たとえば、最終状態とそれより１つ手前の状態）を共有するそれによって、パラメータ数をより一層削減することができる。
【０１０６】
図１３は前述した図１１において、音節／ｋｉ／のＨＭＭの初期状態である第１状態Ｓ０および第２状態Ｓ１と音節／ｋａ／のＨＭＭの初期状態である第１状態Ｓ０および第２の状態Ｓ１とをそれぞれ共有し、音節／ｋａ／のＨＭＭの最終状態Ｓ４およびそれより１つ前の第４状態Ｓ３と音節／ｓａ／のＨＭＭの最終状態Ｓ４およびそれよりも１つ前の状態Ｓ３と音節／ａ／のＨＭＭの最終状態Ｓ２およびそれよりも１つ前の状態Ｓ１をそれぞれ共有することを示した図であり、この図１３においてもそれぞれ共有する状態を太い実線で示す楕円枠Ｃで囲っている。
【０１０７】
なお、本発明は上述の実施の形態に限られるものではなく、本発明の要旨を逸脱しない範囲で種々変形実施可能となるものである。たとえば、前述の第２の実施の形態では、音節ＨＭＭを連結する際、同一子音や同一母音については状態を共有することについて説明したが、たとえば、音素ＨＭＭを連結して音節ＨＭＭを構築するような場合、同じような考え方で、同一母音についてはその状態の分布を共有することも可能である。
【０１０８】
たとえば、図１４に示すように、音素／ｋ／のＨＭＭと音素／ｓ／のＨＭＭと音素／ａ／のＨＭＭがあって、音素／ｋ／のＨＭＭと音素／ａ／のＨＭＭを連結して音節／ｋａ／のＨＭＭを構築し、また、音素／ｓ／のＨＭＭと音素／ａ／のＨＭＭを連結して音節／ｓａ／のＨＭＭを構築する際、新たに構築された音節／ｋａ／のＨＭＭと音節／ｓａ／のＨＭＭの母音／ａ／は同じであるので、その音節／ｋａ／のＨＭＭと音節／ｓａ／のＨＭＭにおける音素／ａ／に対応する部分は、音素／ａ／のＨＭＭの各状態における分布を共有する。
【０１０９】
そして、このように同一母音の分布を共有した音節／ｋａ／のＨＭＭと音節／ｓａ／のＨＭＭについて第１の実施の形態で説明した状態ごとの分布数の最適化を行うが、この最適化の結果、分布を共有した音節ＨＭＭ（図１４の例では、音節／ｋａ／のＨＭＭと音節／ｓａ／のＨＭＭ）においては、その分布共有部分（この図１４の例では、音素／ａ／の自己ループを有する状態）の分布数は音節／ｋａ／のＨＭＭと音節／ｓａ／のＨＭＭで同じとする。
【０１１０】
このように、分布を共有することで、それぞれの音節ＨＭＭにおけるパラメータ数をより一層削減することができ、それによって、演算量や使用メモリ量のより一層の削減が図れるなど、前述の状態共有の場合と同様の効果が得られる。
【０１１１】
また、本発明は以上説明した本発明を実現するための処理手順が記述された処理プログラムを作成し、その処理プログラムをフロッピィディスク、光ディスク、ハードディスクなどの記録媒体に記録させておくこともでき、本発明は、その処理プログラムの記録された記録媒体をも含むものである。また、ネットワークから当該処理プログラムを得るようにしてもよい。
【０１１２】
【発明の効果】
以上説明したように本発明の音響モデル作成方法によれば、それぞれの状態ごとにガウス分布数の最適化を行うために、ＨＭＭを構成する複数の状態ごとに、分布数をある値から最大分布数まで設定し、この分布数がある値から最大分布数まで設定された状態に対して、分布数がある値から最大分布数のどの分布数が最適であるかを記述長最小基準を用いて選択し、記述長が最小となる分布数を持つ状態によってそれぞれのＨＭＭを構築し、その構築されたそれぞれのＨＭＭに対して学習用音声データを用いて再学習するようにしている。これによって、少ない演算量で最適な分布数の設定が可能となり、少ない演算量で高い認識性能が得られるＨＭＭを作成することができる。
【０１１３】
特に、本発明の場合、分布数がある値から最大分布数までの中から最適な分布数を持つ状態を選択するというものであるため、たとえば、ある状態ごとの分布数の種類を７種類とすれば、１つの状態において記述長を求める計算を７回行って、その中から記述長最小となる状態を選択すればよいので、少ない演算量で最適な分布数の設定が可能となる。
【０１１４】
また、本発明の音声認識装置は、本発明の音声認識装置は、上述の本発明の音響モデル作成方法によって作成された音響モデル（ＨＭＭ）用いている。すなわち、このＨＭＭはそれを構成する複数の状態ごとに最適な分布数を有した各音節ごとの音節モデルとなっているので、すべての状態が多数の分布数で一定となっているＨＭＭに比べ、認識性能を劣化させることなく、それぞれの音節ＨＭＭにおけるパラメータ数を大きく削減することができる。これによって、演算量の削減、使用メモリ量の削減が可能となり、それによって、処理速度の高速化、低価格化、低消費電力化も可能となるので、ハードウエア資源に大きな制約のある小型・安価なシステムに搭載する音声認識装置として極めて有用なものとなる。
【図面の簡単な説明】
【図１】本発明の第１の実施の形態における音響モデル作成手順を説明する図である。
【図２】分布数を１から最大分布数（分布数６４）までの７種類としたときの音節ＨＭＭセット作成について説明する図である。
【図３】図１で示した音響モデル作成処理においてアライメントデータ作成処理を説明するに必要な部分だけを図１から取り出して示す図である。
【図４】アライメントデータ作成を作成するために、それぞれの音節ＨＭＭの各状態と学習用音声データ１との対応付けを行う処理の具体例を説明する図である。
【図５】図１で示した音響モデル作成処理において分布数１から最大分布数の各音節ＨＭＭにおける各状態の記述長を求める処理を説明するに必要な部分だけを図１から取り出して示す図である。
【図６】音節／ａ／のＨＭＭにおいて分布数１から最大分布数における各状態の記述長が求められた様子を示す図である。
【図７】図１で示した音響モデル作成処理においてＭＤＬ基準による状態選択を説明するに必要な部分だけを図１から取り出して示す図である。
【図８】ＭＤＬ基準によって分布数１から最大分布数までのそれぞれの音節ＨＭＭにおけるそれぞれの状態Ｓ０，Ｓ１、Ｓ２ごとに記述長が最小となる状態を選択する処理を説明する図である。
【図９】この第１の実施の形態で用いる重み係数αについて説明する図である。
【図１０】本発明の音声認識装置の概略的な構成を説明する図である。
【図１１】本発明の第２の実施の形態である状態共有について説明する図であり、いくつかの音節ＨＭＭにおいて初期状態または最終状態（自己ループを有する状態の中での最終状態）を共有する場合を説明する図である。
【図１２】初期状態を状態共有した２つの音節ＨＭＭを連結したものをある音声データに対応つけて示す図である。
【図１３】本発明の第２の実施の形態である状態共有について説明する図であり、いくつかの音節ＨＭＭにおいて初期状態および第２状態または最終状態（自己ループを有する状態の中での最終状態）およびそれより１つ前の状態を共有する場合を説明する図である。
【図１４】本発明のその他の実施の形態として、分布共有について説明する図であり、子音の音素ＨＭＭと母音の音素ＨＭＭを連結して音節ＨＭＭを構築する際、母音のＨＭＭの状態の分布数を共有する場合を説明する図である。
【符号の説明図】
１　学習用音声データ
２　ＨＭＭ学習部
３１〜３７　分布数１から最大分布数の音節ＨＭＭセット
４　アライメントデータ作成部
５　音節ＨＭＭの状態と学習用音声データとのアライメントデータ
６　記述長計算部
７１〜７７　記述長格納部
８　状態選択部
９　ＨＭＭ再学習部
１０　状態ごとに最適な分布数を持つ音節ＨＭＭセット
２１　マイクロホン
２２　入力信号処理部
２３　特徴分析部
２４　ＨＭＭモデル
２５　言語モデル
２６　音声認識処理部
Ｓ０，Ｓ１，Ｓ２，・・・　状態

Claims

ＨＭＭ（隠れマルコフモデル）を構成するそれぞれの状態のガウス分布数をそれぞれの状態ごとに最適化して、その最適化されたＨＭＭを学習用音声データを用いて再学習してＨＭＭを作成する音響モデル作成方法であって、
ＨＭＭを構成する複数の状態の各状態ごとに、ガウス分布数をある値から最大分布数までの複数種類の分布数に設定し、
この複数種類のガウス分布数に設定されたそれぞれの状態に対して、それぞれのガウス分布数ごとに記述長最小基準を用いて記述長を求め、
この記述長が最小となるガウス分布数を持つ状態をそれぞれの状態ごとに選択し、
このそれぞれの状態ごとに選択された記述長が最小となるガウス分布数を持つ状態によってそのＨＭＭを構築し、その構築されたＨＭＭを学習用音声データを用いて再学習する、
ことを特徴とする音響モデル作成方法。
前記記述長最小基準は、モデル集合｛１，・・・，ｉ，・・・，Ｉ｝とデータχ^Ｎ＝｛χ_１，・・・，χ_Ｎ｝（ただし、Ｎはデータ長）が与えられたときのモデルｉを用いた記述長ｌｉ（χ^Ｎ）が、一般的な式として、

で表され、この記述長を求める一般的な式において、前記モデル集合｛１，・・・，ｉ，・・・，Ｉ｝は、あるＨＭＭにおけるある状態のガウス分布数がある値から最大分布数までの複数種類に設定された状態の集合であるとして考え、ここで、前記ガウス分布数の種類の数がＩ種類（ＩはＩ≧２の整数）であるとき、前記１，・・・，ｉ，・・・，Ｉは、１番目の種類からＩ番目の種類までのそれぞれの種類を特定するための符号であって、前記（１）式を、前記１，・・・，ｉ，・・・，Ｉのうちのｉ番目の分布数の種類を持つ状態の記述長を求める式として用いることを特徴とする請求１記載の音響モデル作成方法。
前記記述長を求める一般的な式において、右辺の第２項に重み係数αを乗じることを特徴とする請求項２記載の音響モデル作成方法。
前記記述長を求める一般的な式において、右辺の第２項に重み係数αを乗じ、かつ、右辺の第３項を省略したことを特徴とする請求項２記載の音響モデル作成方法。
前記データχ^Ｎは、前記ある値から最大分布数までのうちのある任意のガウス分布数をそれぞれの状態に持つＨＭＭを用い、そのＨＭＭのそれぞれの状態と多数の学習用音声データとをそれぞれの状態ごとに時系列的な対応付けを行って得られるそれぞれの学習用音声データの集合であることを特徴とする請求項２から４のいずれかに記載の音響モデル作成方法。
前記任意のガウス分布数は、前記最大分布数であることを特徴とする請求項５記載の音響モデル作成方法。
前記ＨＭＭは、音節ＨＭＭであることを特徴とする請求項１から６のいずれかに記載の音響モデル作成方法。
前記音節ＨＭＭにおいて、同一子音や同一母音を持つ複数の音節ＨＭＭに対し、これらの音節ＨＭＭを構成する状態のうち、同一子音を有する音節ＨＭＭ同士においては、それら音節ＨＭＭにおける初期状態またはこの初期状態を含む少なくとも２つの状態を共有し、同一母音を有する音節ＨＭＭ同士においては、それら音節ＨＭＭにおける自己ループを有する状態の最終状態またはこの最終状態を含む少なくとも２つの状態を共有することを特徴とする請求項７記載の音響モデル作成方法。
入力音声を特徴分析して得られた特徴データに対し音響モデルとしてＨＭＭ（隠れマルコフモデル）を用いて前記入力音声を認識する音声認識装置であって、
前記音響モデルとしてのＨＭＭとして、前記請求項１から請求項８のいずれかに記載の音響モデル作成方法によって作成されたＨＭＭを用いることを特徴とする音声認識装置。