JP4442211B2 - 音響モデル作成方法 - Google Patents

音響モデル作成方法 Download PDF

Info

Publication number
JP4442211B2
JP4442211B2 JP2003415440A JP2003415440A JP4442211B2 JP 4442211 B2 JP4442211 B2 JP 4442211B2 JP 2003415440 A JP2003415440 A JP 2003415440A JP 2003415440 A JP2003415440 A JP 2003415440A JP 4442211 B2 JP4442211 B2 JP 4442211B2
Authority
JP
Japan
Prior art keywords
syllable
state
hmm
description length
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003415440A
Other languages
English (en)
Other versions
JP2005173392A (ja
Inventor
正信 西谷
康永 宮澤
弘 松本
一公 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP2003415440A priority Critical patent/JP4442211B2/ja
Priority to US10/998,065 priority patent/US20050131694A1/en
Publication of JP2005173392A publication Critical patent/JP2005173392A/ja
Application granted granted Critical
Publication of JP4442211B2 publication Critical patent/JP4442211B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs

Description

本発明は、音響モデルとして混合連続分布型HMM(隠れマルコフモデル)を作成する
音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムおよびその音響モ
デルを用いた音声認識装置に関する。
音声認識においては、音響モデルとして音素HMMや音節HMMを用い、この音素HM
Mや音節HMMを連結して、単語や文節、文といった単位の音声言語を認識する方法が一
般的に行われている。特に最近、より高い認識性能を持つ音響モデルとして、混合連続分
布型HMMが広く使われている。
一般的に、HMMは1個から10個の状態とその間の状態遷移から構成されている。そ
れぞれの状態でのシンボル(ある時刻の音声特徴ベクトル)の出現確率の計算において、
混合連続分布型HMMでは、ガウス分布数が多いほど認識精度が高くなるが、ガウス分布
数が多ければその分、パラメータ数も多くなり計算量やメモリ使用量が増大するという問
題がある。これは処理能力の低いプロセッサや小容量のメモリを用いざるを得ない安価な
機器に音声認識機能を搭載する場合、特に大きな問題となる。
また、一般的な混合連続分布型HMMでは、すべての音素(または音節)HMMの全状
態でガウス分布数が同じであるため、学習用音声データが少ない音素(または音節)HM
Mでは過学習が起こり、該当する音素(音節)で認識性能が低くなるという問題もある。
このように、混合連続分布型HMMではそれぞれの音素(または音節)の全状態におい
てガウス分布数が一定であるのが一般的である。
一方、認識精度を高めるため、それぞれの状態におけるガウス分布数はある程度の数が
必要である。しかしながら、上述したように、ガウス分布数が多ければその分、パラメー
タ数も多くなり計算量やメモリ使用量が増大するという問題もあるので、ガウス分布数を
むやみに増やせないのが現状である。
そこで、音素(または音節)HMMにおいて、それぞれの状態ごとにガウス分布数を最
適化することが考えられる。たとえば、音節HMMを例にとれば、ある音節HMMを構成
するそれぞれの状態において、認識に大きく影響を与える部分の状態とそれほど大きな影
響を与えない状態が存在することを考慮して、認識に大きく影響を与える部分の状態はガ
ウス分布数を多くし、認識にそれほど大きな影響を与えない状態はガウス分布数を少なく
することが考えられる。
このように、音素(または音節)HMMにおいてそれぞれの状態ごとにガウス分布数を
最適化しようとする技術の一例として、下記の非特許文献1に記載の技術がある。
篠田浩一、磯健一、"MDL基準を用いたHMMサイズの削減"、2002年春季研究発表会、日本音響学会講演論文集、2002年3月、79〜80頁
上述の非特許文献1に記載の技術は、それぞれの状態において、認識に対する寄与の少
ない部分におけるガウス分布数を削減することについて記載されており、簡単に言えば、
十分な学習用音声データ量で学習された大きなガウス布数を持つHMMを用意し、その状
態ごとのガウス分布数の木構造を作成し、それぞれの状態ごとに記述長最小(MDL:M
inimum Description Length)基準を用いて記述長を求め、こ
の記述長が最小となるガウス分布数の集合を選ぶものである。
この従来技術によれば、確かに、音素(または音節)HMMにおいてそれぞれの状態ご
とにガウス分布数を効果的に削減することができ、しかも、それぞれの状態におけるガウ
ス分布数の最適化が可能となり、ガウス分布数の削減によるパラメータ数の削減を可能と
しながらも高い認識率を維持できると考えられる。
しかしながら、この従来技術は、状態ごとのガウス分布数数の木構造を作成し、その木
構造の分布の中からMDL基準による記述長を最小とするガウス分布集合(ノードの組み
合わせ)を選択するというものであるため、ある状態において最適なガウス分布数を得る
ためのノードの組み合わせ数は極めて多く、それぞれの組み合わせごとに記述長を求める
ために多くの演算を行う必要がある。
なお、このMDL基準は、モデル集合{1,・・・,i,・・・,I}とデータχ
{χ,・・・,χ}が与えられたときのモデルiを用いた記述長li(χ)が、特
許請求の範囲に記載した(1)式のように定義される。
MDL基準は、この記述長li(χ)が最小であるモデルが最適なモデルであるとし
ているが、この従来技術では、ノードの組み合わせが極めて多くなる可能性があることか
ら、最適なガウス分布集合を選択する際に、その(1)式を近似した記述長計算式を用い
て、ノードの組み合わせで構成されるガウス分布集合の記述長を求めている。このように
、近似式によってノードの組み合わせで構成されるガウス分布集合の記述長が求められる
と、求められた結果の精度に多少の問題が生じる場合もあると考えられる。
本発明は、それぞれの音素(または音節)HMMのそれぞれの状態ごとのガウス分布数
をMDL基準を用いて最適分布数に設定可能とすることで、少ない演算量で高い認識性能
が得られるHMMの作成が可能な音響モデル作成方法、音響モデル作成装置、音響モデル
作成プログラムを提供するとともに、それによって作成された音響モデルを用いることに
より、演算能力やメモリ容量などハードウエア資源に大きな制約のある安価なシステムに
適用できる音声認識装置を提供することを目的としている。
(1)本発明の音響モデル作成方法は、HMM(隠れマルコフモデル)を構成するそれ
ぞれの状態のガウス分布数をそれぞれの状態ごとに最適化して、その最適化されたガウス
分布数を有するHMMを生成する音響モデル作成方法であって、複数のHMMのそれぞれ
の状態ごとにガウス分布数をある増加規則に基づいて逐次的に増加させて、あるガウス分
布数に設定する分布数設定ステップと、該分布数設定ステップによって、あるガウス分布
数に設定されたそれぞれのHMMのそれぞれの状態ごとに学習用音声データとの対応付け
を行って対応付けデータを作成する対応付けデータ作成ステップと、該対応付けデータ作
成ステップによって作成された対応付けデータと、現時点のガウス分布数を有するそれぞ
れのHMMのそれぞれの状態について記述長最小基準を用いて記述長を求め、それを現時
点記述長として出力するとともに、前記現時点の直前のガウス分布数を有するそれぞれの
HMMのそれぞれの状態について記述長最小基準を用いて記述長を求め、それを直前記述
長として出力する記述長算出ステップと、該記述長算出ステップによって算出された前記
現時点記述長および前記直前記述長の大きさの比較を行い、その比較の結果に基づいて、
それぞれのHMMのそれぞれの状態ごとに最適なガウス分布数を設定する最適分布数決定
ステップとを含むことを特徴としている。
これによって、それぞれのHMMのそれぞれの状態において最適な分布数の設定が可能
となり、認識性能を改善することができる。特に、本発明のHMMは、Left−to−
Right型の単純な構造のHMMであるのが大きな特長であり、それによって、認識ア
ルゴリズムも単純化することができる。また、単純な構造のHMMであるので、低価格や
低消費電力化にも寄与でき、かつ、汎用の認識ソフトウエアを利用することも容易である
ことから、幅広い認識装置への適用が可能となり、互換性に優れたものとすることができ
る。
また、本発明は、それぞれのHMMにおいて、それぞれの状態ごとに分布数をある増加
規則に基づいて逐次的に増加させて行き、現時点記述長と直前記述長を求めて、その比較
結果に基づいて最適分布数を決定するようにしているので、分布数の最適化処理の効率化
を図ることができる。
(2)前記(1)に記載の音響モデル作成方法において、前記記述長最小基準は、モデ
ル集合{1,・・・,i,・・・,I}とデータχ={χ,・・・,χ}(ただし
、Nはデータ長)が与えられたときのモデルiを用いた記述長li(χ)が、一般的な
式として、前記(1)式で表され、この記述長を求める一般的な式において、前記モデル
集合{1,・・・,i,・・・,I}は、前記HMMのそれぞれの状態の分布数がある値
から最大分布数までの複数種類に設定されたHMMの集合であるとして考え、ここで、前
記分布数の種類の数がI種類(IはI≧2の整数)であるとき、前記1,・・・,i,・
・・,Iは、1番目の種類からI番目の種類までのそれぞれの種類を特定するための符号
であって、前記(1)式を、前記1,・・・,i,・・・,Iのうちのi番目の分布数の
種類を有するHMMの記述長を求める式として用いるようにしている。
これによって、あるHMMのそれぞれの状態の分布数をある値から分布数をある増加規
則に基づいて逐次的に増加させるようにしたとき、それぞれの分布数に設定されたHMM
に対する記述長を容易に計算することができる。
(3)前記(2)の音響モデル作成方法において、前記記述長を求める式として、前記
(1)式を変形した前記(2)式を用いることが好ましい。
この(2)式は、記述長を求める一般的な式としての(1)式において、右辺の第2項
に重み係数αを乗じ、かつ、定数を表す右辺の第3項を省略したものである。このように
、定数を表す右辺の第3項を省略することによって、記述長を求める計算をより簡略化す
ることができる。
(4)前記(3)の音響モデル作成方法において、前記(2)式のαは、最適な分布数
を得るための重み係数としている。
この最適な分布数を得るための重み係数αを可変することによって、第2項の単調増加
の傾きを可変(αを大きくするほど傾きが大きくなる)することができ、記述長li(χ
)を可変させることができる。これによって、たとえば、αをより大きくなるように設
定すれば、分布数がより小さい場合に記述長li(χ)が最小になるように調整するこ
とができる。
(5)前記(2)から(4)のいずれかに記載の音響モデル作成方法において、前記デ
ータχは、前記ある値から最大分布数までのうちのある任意の分布数を有するHMMと
多数の学習用音声データとをそれぞれの状態ごとに時系列的な対応付けを行って得られる
それぞれの学習用音声データの集合としている。
このように、ある任意の分布数を有するそれぞれのHMMを用い、そのHMMとそのH
MMに対応する多数の学習用音声データとを時系列的な対応付けを行って得られた学習用
音声データを(1)式のデータχとして用いて記述長を計算することで精度よく記述長
を求めることができる。
(6)前記(2)から(5)のいずれかに記載の音響モデル作成方法において、前記記
述長算出ステップは、前記現時点のガウス分布数を有するそれぞれのHMMに対し、前記
対応付けデータを用いて前記それぞれのHMMのそれぞれの状態の総フレーム数と総尤度
を求め、この総フレーム数と総尤度を前記(2)式に代入して前記現時点記述長を求める
とともに、前記直前に設定されたガウス分布数を有するそれぞれのHMMに対し、前記対
応付けデータを用いて前記HMMのそれぞれの状態の総フレーム数と総尤度を求め、この
総フレーム数と総尤度を前記(2)式に代入して前記直前記述長として求めるようにして
いる。
これによって、現時点の分布数を有するHMMの記述長と直前の分布数を有するHMM
の記述長を適正に求めることができ、それによって、その分布数が最適か否かの判定を適
正に行うことができる。
(7)前記(1)から(6)のいずれかに記載の音響モデル作成方法において、前記最
適分布数決定ステップは、前記現時点記述長と前記直前記述長との大きさを比較した結果
、前記直前記述長が前記現時点記述長よりも小さい場合は、前記直前のガウス分布数をそ
の状態における最適分布数とし、前記現時点記述長が前記直前記述長よりも小さい場合は
、前記現時点のガウス分布数をその状態におけるその時点の仮の最適分布数としている。
このように、直前記述長が現時点記述長よりも小さい場合は、該直前に設定されたガウ
ス分布数を前記状態における最適分布数とし、現時点記述長が直前記述長よりも小さい場
合は、該現時点のガウス分布数をその状態におけるその時点の仮の最適分布数とすること
によって、それぞれの状態における最適分布数を効率よく設定することができ、分布数の
最適化に必要な演算量を削減することができる。
(8)前記(7)に記載の音響モデル作成方法において、前記分布数設定ステップは、
最適分布数であると判定された状態についはそのガウス分布数を該最適分布数で保持し、
仮の最適分布数であると判定された状態について、そのガウス分布数を前記ある増加規則
に従って増加させるようにしている。
これにより、最適分布数であると判定された状態についてはそれ以降の分布数増加処理
を行わないので、分布数の最適化に必要な処理の効率化を図ることができ、演算量を削減
することができる。
(9)前記(6)から(8)のいずれかに記載の音響モデル作成方法において、前記記
述長算出ステップが行う記述長算出の前段階の処理として、前記現時点のガウス分布数を
有するそれぞれのHMMのそれぞれの状態の総フレーム数と前記直前のガウス分布数を有
するそれぞれのHMMのそれぞれの状態の総フレーム数との平均のフレーム数を求める平
均フレーム数算出ステップと、現時点のガウス分布数を有するそれぞれのHMMのそれぞ
れの状態ごとの総尤度の正規化を行って正規化された尤度を求めるとともに、前記直前の
ガウス分布数を有するそれぞれのHMMのそれぞれの状態ごとの総尤度の正規化を行って
正規化された尤度を求める正規化尤度算出ステップとを有することが望ましい。
このように、前記(2)式に代入する総フレーム数として、現時点のガウス分布数を有
するそれぞれのHMMのすべての状態の総フレーム数と前記直前のガウス分布数を有する
それぞれのHMMのすべての状態の総フレーム数の平均フレーム数を用い、また、前記(
2)式に代入する総尤度として、現時点のガウス分布数を有するそれぞれのHMMのそれ
ぞれの状態ごとに正規化された総尤度(正規化尤度)と、直前のガウス分布数を有するそ
れぞれのHMMのそれぞれの状態ごとに正規化された総尤度(正規化尤度)を用いること
によって、それぞれのHMMのそれぞれの状態の記述長をより高精度に求めることができ
る。
(10)前記(1)から(9)のいずれかに記載の音響モデル作成方法において、前記
複数のHMMは、それぞれの音節に対応した音節HMMであることが望ましい。
本発明の場合、音節HMMとすることによって演算量の削減などの効果が得られる。た
とえば、音節の数を124音節とした場合、音素の数(26から40個程度)に比べると
、数の面では音節の方が多いが、音素HMMの場合、トライフォンモデルを音響モデル単
位として用いることが多く、このトライフォンモデルは、ある音素の前後の音素環境を考
慮して1つの音素として構成されるので、あらゆる組み合わせを考慮すると、そのモデル
数は数千個となり、音響モデル数としては音節モデルの方がはるかに少なくなる。
ちなみに、音節HMMの場合、それぞれの音節HMMを構成する状態数は子音を含む音
節の場合が平均的には5個程度、母音だけで構成される音節の場合が平均的は3個程度で
あるのが一般的であるので、合計の状態数は約600程度であるが、トライフォンモデル
の場合は、状態数の合計は、モデル間で状態共有を行い、状態数を削減した場合であって
も数千個にものぼる。
このことから、HMMを音節HMMとすることによって、記述長を求める計算は勿論の
こと、全般的な演算量の削減を図ることができ、また、トライフォンモデルに遜色ない認
識精度が得られるといった効果が得られる。なお、本発明は音素HMMにも適用できるこ
とは勿論である。
(11)前記(10)記載の音響モデル作成方法において、前記音節HMMにおいて、同
一子音や同一母音を有する複数の音節HMMに対し、これらの音節HMMを構成する状態
のうち、同一子音を有する音節HMM同士においては、それら音節HMMにおける初期状
態またはこの初期状態を含む複数の状態を共有し、同一母音を有する音節HMM同士にお
いては、それら音節HMMにおける自己ループを有する状態の最終状態またはこの最終状
態を含む複数の状態を共有することも可能である。
これによって、パラメータ数のより一層の削減が可能となり、それによって、演算量の
削減、使用メモリ量の削減、処理速度の高速化がより一層図れ、さらに、低価格、低消費
電力化の効果もより大きなものとなる。
(12)本発明の音響モデル作成装置は、HMM(隠れマルコフモデル)を構成するそ
れぞれの状態のガウス分布数をそれぞれの状態ごとに最適化して、その最適化されたガウ
ス分布数を有するHMMを生成する音響モデル作成装置であって、複数のHMMのそれぞ
れの状態ごとにガウス分布数をある増加規則に基づいて逐次的に増加させて、あるガウス
分布数に設定する分布数設定手段と、該分布数設定手段によって、あるガウス分布数に設
定されたそれぞれのHMMのそれぞれの状態ごとに学習用音声データとの対応付けを行っ
て対応付けデータを作成する対応付けデータ作成手段と、該対応付けデータ作成手段によ
って作成された対応付けデータと、現時点のガウス分布数を有するそれぞれのHMMのそ
れぞれの状態について記述長最小基準を用いて記述長を求め、それを現時点記述長として
出力するとともに、前記現時点の直前のガウス分布数を有するそれぞれのHMMのそれぞ
れの状態について記述長最小基準を用いて記述長を求め、それを直前記述長として出力す
る記述長算出手段と、該記述長算出手段によって算出された前記現時点記述長および前記
直前記述長の大きさの比較を行い、その比較の結果に基づいて、それぞれのHMMのそれ
ぞれの状態ごとに最適なガウス分布数を設定する最適分布数決定手段とを含むことを特徴
としている。
この音響モデル作成装置においても、前記(1)に記載の音響モデル作成方法と同様の
効果が得られる。
(13)本発明の音響モデル作成プログラムは、HMM(隠れマルコフモデル)を構成
するそれぞれの状態のガウス分布数をそれぞれの状態ごとに最適化して、その最適化され
たガウス分布数を有するHMMを生成する音響モデル作成プログラムであって、その音響
モデル作成プログラムは、複数のHMMのそれぞれの状態ごとにガウス分布数をある増加
規則に基づいて逐次的に増加させて、あるガウス分布数に設定する分布数設定手順と、該
分布数設定手順によって、あるガウス分布数に設定されたそれぞれのHMMのそれぞれの
状態ごとに学習用音声データとの対応付けを行って対応付けデータを作成する対応付けデ
ータ作成手順と、該対応付けデータ作成手順によって作成された対応付けデータと、現時
点のガウス分布数を有するそれぞれのHMMのそれぞれの状態について記述長最小基準を
用いて記述長を求め、それを現時点記述長として出力するとともに、前記現時点の直前の
ガウス分布数を有するそれぞれのHMMのそれぞれの状態について記述長最小基準を用い
て記述長を求め、それを直前記述長として出力する記述長算出手順と、該記述長算出手順
によって算出された前記現時点記述長および前記直前記述長の大きさの比較を行い、その
比較の結果に基づいて、それぞれのHMMのそれぞれの状態ごとに最適なガウス分布数を
設定する最適分布数決定手順とを含むことを特徴としている。
この音響モデル作成プログラムにおいても、前記(1)に記載の音響モデル作成方法と
同様の効果が得られる。
また、前記(12)に記載の音響モデル作成方法または前記(13)に記載の音響モデ
ル作成プログラムにおいても、前記(1)式を、前記1,・・・,i,・・・,Iのうち
のi番目の分布数の種類を有するHMMの記述長を求める式として用いることができ、か
つ、この(1)式を変形した前記(2)式を用いることが可能である。なお、該(2)式
のαは、最適な分布数を得るための重み係数である。また、前記(1)式または(2)式
におけるデータχは、前記ある値から最大分布数までのうちのある任意の分布数を有す
るHMMと多数の学習用音声データとをそれぞれの状態ごとに時系列的な対応付けを行っ
て得られるそれぞれの学習用音声データの集合である。
また、(12)に記載の音響モデル作成装置における記述長算出手段または(13)に
記載の本発明の音響モデル作成プログラムにおける記述長算出手順は、前記現時点のガウ
ス分布数を有するそれぞれのHMMに対して、前記対応付けデータを用いて前記それぞれ
のHMMのすべての状態の総フレーム数と総尤度を求め、これを前記(2)式に代入して
前記現時点記述長を求めるとともに、前記直前のガウス分布数を有するそれぞれのHMM
に対して、前記対応付けデータを用いて前記それぞれのHMMのすべての状態の総フレー
ム数と総尤度を求め、これを前記(2)式に代入して前記直前記述長として求める処理を
行う。
また、(12)に記載の音響モデル作成装置における最適分布数決定手段または(13
)に記載の本発明の音響モデル作成プログラムにおける最適分布数決定手順は、前記現時
点記述長と前記直前記述長との大きさを比較した結果、直前記述長が現時点記述長よりも
小さい場合は、前記直前のガウス分布数を前記状態における最適分布数とし、現時点記述
長が直前記述長よりも小さい場合は、前記現時点のガウス分布数を前記状態におけるその
時点の仮の最適分布数とする処理を行う。
また、(12)に記載の音響モデル作成装置における分布数設定手段または(13)に
記載の本発明の音響モデル作成プログラムにおける分布数設定手順は、前記最適分布数で
あると判定された状態についはそのガウス分布数を該最適分布数で保持し、仮の最適分布
数であると判定された状態について、そのガウス分布数を前記増加規則に従って増加させ
る処理を行う。
また、(12)に記載の音響モデル作成装置における記述長算出手段が行う記述長算出
処理の前段階の処理または(13)に記載の本発明の音響モデル作成プログラムにおける
記述長算出手順にて行われる記述長算出処理の前段階の処理として、前記現時点のガウス
分布数を有するそれぞれのHMMのそれぞれの状態の総フレーム数と前記直前のガウス分
布数を有するそれぞれのHMMのそれぞれの状態の総フレーム数との平均のフレーム数を
求める処理と、現時点のガウス分布数を有するそれぞれのHMMのそれぞれの状態ごとの
総尤度の正規化を行って正規化された尤度を求めるとともに、前記直前のガウス分布数を
有するそれぞれのHMMのそれぞれの状態ごとの総尤度の正規化を行って正規化された尤
度を求める処理を行うようにすることも可能である。
また、(12)に記載の音響モデル作成装置または(13)に記載の本発明の音響モデ
ル作成プログラムにおいて用いられるHMMは音節HMMであることが望ましい。また、
その音節HMMにおいて、同一子音や同一母音を有する複数の音節HMMに対し、これら
の音節HMMを構成する状態のうち、同一子音を有する音節HMM同士においては、それ
ら音節HMMにおける初期状態またはこの初期状態を含む複数の状態を共有し、同一母音
を有する音節HMM同士においては、それら音節HMMにおける自己ループを有する状態
の最終状態またはこの最終状態を含む複数の状態を共有することも可能である。
(14)本発明の音声認識装置は、入力音声を特徴分析して得られた特徴データに対し
音響モデルとしてHMM(隠れマルコフモデル)を用いて前記入力音声を認識する音声認
識装置であって、前記音響モデルとしてのHMMとして、前記請求項1から請求項11の
いずれかに記載の音響モデル作成方法によって作成されたHMMを用いることを特徴とし
ている。
このように、本発明の音声認識装置は、上述の本発明の音響モデル作成方法によって作
成された音響モデル(HMM)用いる。このHMMがたとえば音節HMMであるとすれば
、それぞれの音節HMMのそれぞれの状態ごとに最適な分布数を有しているので、すべて
の分布数が一定となっているHMMに比べ、それぞれの音節HMMにおけるパラメータ数
を大きく削減することができ、認識性能も向上する。
また、この音節HMMは、Left−to−Right型の単純な構造の音節HMMで
あるので、認識アルゴリズムも単純化することができ、演算量の削減、使用メモリ量の削
減が可能となり、処理速度の高速化、低価格化、低消費電力化も可能となる。これによっ
て、ハードウエア資源に大きな制約のある小型・安価なシステムに特に有用な音声認識装
置とすることができる。
以下、本発明の実施の形態について説明する。なお、この実施形態で説明する内容は、
本発明の音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムおよび音
声認識装置の説明をすべて含むものである。また、本発明は音素HMMと音節HMMの両
方に適用可能であるが、以下に示す実施形態では音節HMMについて説明する。
また、本発明では、それぞれの音節(ここでは124音節とする)に対応する音節HM
Mを構成するそれぞれの状態のガウス分布数(以下では、単に分布数という)を最適化す
るものであり、この分布数の最適化を行う際に、分布数をある値から任意の値まで、ある
増加規則に従って増加させて行くことを行う。その増加規則は、分布数がたとえば1から
順に2,3,4,・・・というように1つずつ増加するような規則とするなど種々設定す
ることができるが、以下に示す実施形態では、1,2,4,8,・・・というような2の
べき乗で増加するものとして説明する。また、最大分布数はこの実施形態では64である
とする。
図1は以下の実施形態の説明で用いられる分布数の増加規則を説明する図であり、分布
数の増加の順番を表すインデクス番号nとそのインデクス番号nのときの分布数M(n)
とを対応付けて示すものである。
この図1からもわかるように、インデクス番号n=1のときの分布数はM(n)=M(
1)でこれは分布数1であることを示し、インデクス番号n=2のときの分布数はM(n
)=M(2)でこれは分布数2であることを示し、インデクス番号n=3のときの分布数
はM(n)=M(3)でこれは分布数4であることを示し、インデクス番号n=4ときの
分布数はM(n)=M(4)でこれは分布数8であることを示し、インデクス番号n=5
のときの分布数はM(n)=M(5)でこれは分布数16であることを示し、インデクス
番号n=6のときの分布数はM(n)=M(6)でこれは分布数32であることを示し、
インデクス番号n=7ときの分布数はM(n)=M(7)でこれは分布数64であること
を示している。
このインデクス番号nは前述の(1)式または(2)式において、モデル集合{1,・
・・,i,・・・I}のiに相当するものである。この実施形態では、最大分布数は64
であり、これは、M(7)=分布数64であるので、モデル集合{1,・・・,i,・・
・I}のIはI=7である。
なお、以下の実施形態では、インデクス番号と分布数の関係は、たとえば、インデクス
番号n=1のときの分布数は、図1に示すように、M(1)=分布数1、インデクス番号
n=2のときの分布数はM(2)=分布数2というように表す。
〔実施形態1〕
実施形態1について図1から図15を参照しながら説明する。まず、この実施形態1の
全体的な処理手順について、主に図2のフローチャートおよび図3の構成図を参照しなが
ら説明する。
初期の音節HMMモデルとして、それぞれの音節に対応する音節HMMのそれぞれの状
態の分布数を分布数M(1)=分布数1とした音節HMMセットを構築し、その音節HM
Mセットに対しHMM学習部2が多数の学習用音声データでなる学習用音声データ1と音
節ラベルデータ3(この音節ラベルデータ3はそれぞれの学習用音節データを構成する音
節列が記述されている)を用いて最尤推定法により学習を行い学習済みの分布数M(1)
=分布数1の音節HMMセット(これを音節HMMセット4(1)とする)を作成する(
ステップS1)。
なお、図3の構成図において、破線で示す矢印(信号の流れを示す矢印)は初期の音節
HMM(分布数1の音節HMM4(1))のデータの流れを示している。
図4はこの学習済みの分布数M(1)=分布数1の音節HMMセット4(1)に属する
それぞれの音節HMM(音節/a/の音節HMM、音節/ka/の音節HMM、・・・)を模
式的に示したものである。この図4では、分布数M(1)=分布数1のそれぞれの音節に
対応する音節HMMは、自己ループを有する状態がS0,S1,S2の3つの状態で構成
されており、これら3つの状態S0,S1,S2は、図示の楕円枠Aで示すように、この
時点ではそれぞれが分布数M(1)=分布数1となっている。
図2に説明が戻って、現時点におけるインデクス番号nが最大インデクス番号(これを
ここではkで表す)に達したか否か(n<k)を判定し(ステップS2)、現時点におけ
るインデクス番号nが最大インデクス番号に達していれば処理を終了するが、n<kであ
れば、当該音節HMMセット4(1)に属するそれぞれの音節HMMのそれぞれの状態の
分布数を分布数設定部5により、n=n+1する。すなわち、分布数M(n)=M(n+
1)とし、これを現時点の音節HMMセット(この現時点の音節HMMセットを音節HM
Mセット4(n)と表す)とし、その音節HMMセット4(n)に属するそれぞれの音節
HMMをHMM再学習部6によって再学習する(ステップS3)。これによって、この時
点では、再学習された分布数M(2)=分布数2の音節HMMセットが作成される。
このステップS3により作成された再学習済みの分布数M(n)(この時点では、分布
数M(2)=分布数2)の音節HMMセットとそれぞれの学習用音声データ1との対応付
け(音節ラベルデータ3も用いる)を行い、その対応付けデータとしてのアライメントデ
ータA(n)を作成する(ステップS4)。このアライメントデータA(n)は対応付け
データ作成手段としてのアライメントデータ作成部7によって作成されるもので、このア
ライメントデータ作成処理については後述する。
そして、記述長計算部8ではステップS4で作成されたアライメントデータA(n)と
、現時点の分布数M(n)を有する音節HMMセット4(n)のパラメータと、現時点の
直前の分布数M(n−1)を有する音節HMMセット(これを音節HMMセット4(n−
1)とする)のパラメータとを用いて、分布数M(n−1)の音節HMMセット4(n−
1)に属するそれぞれの音節HMMについて、個々の音節HMMを構成するそれぞれの状
態ごとに、総フレーム数と総尤度を計算し、その計算結果を用いて記述長MDL(M(n
−1))を求め、さらに、ステップS4で作成されたアライメントデータA(n)を用い
て、分布数M(n)の音節HMMセット4(n)に属するそれぞれの音節HMMについて
、個々の音節HMMを構成するそれぞれの状態ごとに、総フレーム数と総尤度を計算し、
その計算結果を用いて記述長MDL(M(n))を求める(ステップS5)。この記述長
の計算処理については後述する。
そして、ステップS5によって、それぞれの状態における現時点の分布数M(n)、す
なわち、分布数M(2)=分布数2における記述長MDL(M(n))と、その直前(イ
ンデクス番号が1つ前)の分布数M(n−1)、すなわち、分布数M(1)=分布数1に
おける記述長MDL(M(n))とが求められたら、最適分布数決定部9が個々の状態ご
とに記術長MDL(M(n))と記述長MDL(M(n−1))とを比較して、最適分布
数を決定する処理を行う(ステップS6〜S10)。なお、説明の都合上、記述長MDL
(M(n−1))を直前記述長、記述長MDL(M(n))を現時点記述長と呼ぶことに
する。
最適分布数決定部9は、それぞれ状態ごとに、直前記述長MDL(M(n−1))と現
時点記述長MDL(M(n))について、記述長比較処理として、MDL(M(n−1)
)<MDL(M(n))を判定する処理を行う(ステップS7)、その判定の結果、MD
L(M(n−1))<MDL(M(n))、つまり、直前記述長MDL(M(n−1))
の方が現時点記述長(MDLM(n))よりも小さければ、分布数M(n−1)をその状
態の最適分布数とする(ステップS8)。
また、逆に、ある状態において、MDL(M(n−1))<MDL(M(n))でなけ
れば、つまり、現時点記述長MDL(M(n))の方が直前記述長MDL(M(n−1)
)よりも小さければ、分布数M(n)はその状態におけるその時点の仮の最適分布数とす
る(ステップS9)。
そして、すべての状態についてのステップS7の記述長比較処理が終了したか否かを判
定し(ステップS6)、すべての状態についてのステップS7の記述長比較処理が終了し
たら、すべての状態の分布数が最適分布数と判定されたか否かを判定する(ステップS1
0)。
すなわち、すべての状態において、MDL(M(n−1))<MDL(M(n))とな
ったか否かを判定する。この判定の結果、すべての状態の分布数が最適分布数であると判
定されれば、処理を終了する。これによって、その音節HMMはすべての状態が最適分布
数を有する(分布数の最適化された)音節HMMとなる。
一方、ステップS10において、すべての状態の分布数が最適分布数となっていないと
判定されれば、ステップS11の処理を行う。このステップS11では、分布数を再設定
して最大分布数をM(n)とした音節HMMセットを再学習して、その再学習された音節
HMMセットで現時点の分布数M(n)の音節HMMセットを置き換える。
このステップS11の処理は、具体的には、たとえば、ある音節に対する音節HMMを
構成する状態(ここでは、状態S0,S1,S2の3状態とする)のうち、状態S0につ
いては分布数M(1)=分布数1が最適分布数と決定され、状態S1については分布数M
(2)=分布数2が仮の最適分布数と決定され、状態S2についても分布数M(2)=分
布数2が仮の最適分布数とされたとすると、この音節HMMのそれぞれの状態S0,S1
,S2の分布数を、状態S0の分布数はM(1)=分布数1、状態S1の分布数はM(2
)=分布数2、状態S2の分布数はM(2)=分布数2というように再設定し、そのとき
の最大分布数を分布数M(2)=分布数2として、その音節HMMを学習用音声データ1
と音節ラベルデータ3を用いて再学習し、その再学習された音節HMMでそれまでの音節
HMM(すべての状態が分布数M(2)=分布数2を有する音節HMM)を置き換えると
いう処理である。これをすべての音節に対応する音節HMMについて行う。
このステップS11の処理が終了すると、ステップS2に戻って、上述したと同様の処
理を行う。具体的には、まず、インデクス番号nが設定値k(この実施形態ではk=7で
ある)に達しているか否かを判定することになるが、この時点におけるnは、n=2であ
ってn<kであるので、分布数設定部5により、n=n+1とし(分布数M(3)=分布
数4とし)、その分布数4の音節HMMセットを再学習する。
なお、このとき、前述のステップS7の記述長比較処理において、既に最適分布数であ
るとされた状態は、そのときの分布数をそのまま保持する。このそれぞれの状態において
、その状態の分布数が既に最適分布数となった状態であるか否かの判定は、個々の状態ご
とに分布数が最適化されたことを示す情報の記述されたテーブルを作成しておき、そのテ
ーブルを参照する方法や、それぞれの音節HMMの構造から判定する方法などが考えられ
る。
そして、分布数M(3)=分布数4の音節HMMセットと学習用音声データ1とを音節
ラベルデータ3を用いて対応付けを行い、アライメントデータA(3)を作成する。そし
て、このアライメントデータA(3)と直前の分布数M(2)=分布数2と現時点の分布
数M(3)=分布数4の音節HMMセットを用いて、それぞれの音節HMMのそれぞれの
状態について、直前記述長MDL(M(n−1))すなわちMDL(M(2))と、現時
点記述長MDL(M(n))すなわちMDL(M(3))を求める。
このようにして、現時点記述長MDL(M(n))とそれより1つ前の直前記述長MD
L(M(n−1))が求められたら、前述同様、MDL(M(n−1))<MDL(M(
n))の判定を行い(ステップS7)、その判定の結果、直前記述長の方が現時点記述長
よりも小さいと判定されれば、分布数M(n−1)をその状態の最適分布数であるとする
(ステップS8)。
また、逆に、ある状態において、MDL(M(n−1))<MDL(M(n))の判定
を行った結果(ステップS7)、MDL(M(n−1))<MDL(M(n))でなけれ
ば、つまり、現時点記述長の方が直前記述長よりも小さければ、分布数M(n)はその状
態におけるその時点の仮の最適分布数であるとする(ステップS9)。
そして、すべての状態についてのステップS7の記述長比較処理が終了したか否かを判
定し(ステップS6)、すべての状態についてのステップS7の記述長比較処理が終了し
たら、すべての状態の分布数が最適分布数であるか否かを判定する(ステップS10)。
すなわち、すべての状態において、MDL(M(n−1))<MDL(M(n))となっ
たか否かを判定する。この判定の結果、すべての状態の分布数が最適分布数であると判定
されれば、その音節HMMはすべての状態が最適分布数を有する(分布数の最適化された
)音節HMMとなる。
一方、ステップS10において、すべての状態の分布数が最適分布数となっていないと
判定されれば、ステップS11の処理を行う。このステップS11では、前述したように
、分布数を再設定して最大分布数をM(n)とした音節HMMセットを再学習して、その
再学習された音節HMMセットで現在の分布数M(n)の音節HMMセットを置き換える
。そして、ステップS2に戻り、同様の処理を行う。
以上のような処理を再帰的に行うことにより、それぞれの音節HMMにおいて、それぞ
れの状態ごとに最適分布数を有する音節HMMが得られる。
図5は図2のステップS3の処理(分布数設定部5が行う分布数増加処理)手順を示す
図である。この図5において、まず、現時点の分布数M(n)に設定されたある音節HM
Mを読み込んで(ステップS3a)、インデクス番号nをn+1として(ステップS3b
)、あらかじめ設定されている分布数の増加規則(この実施形態では図1に示されている
ような増加規則)を読み込む(ステップS3c)。
そして、分布数がすでに最適分布数となっている状態についてはその最適分布数をその
分布数のまま保持し、それ以外の状態については分布数を増加規則に従った分布数M(n
)に設定する(ステップS3d)。次に、このステップS3dでそれぞれの状態ごとの分
布数に設定された音節HMMセットを作成し(ステップS3e)、作成された音節HMM
セットをHMM再学習部6に渡す(ステップS3f)。
図6は図2のステップS4の処理(アライメントデータ作成部7によるアライメントデ
ータ作成処理)の処理手順を説明するフローチャートである。この図6において、まず、
分布数M(n)の音節HMMセットの読み込みを行い(ステップS4a)、すべての学習
用音声データ1に対するアライメントデータ作成処理が終了か否かを判定し(ステップS
4b)、すべての学習用音声データについて処理が終了していなければ、処理の終了して
いない学習用音声データを1つ読み込んで(ステップS4c)、読み込んだ学習用音声デ
ータに対応する音節ラベルデータを音節ラベルデータ3から検索して読み込む(ステップ
S4d)。そして、分布数M(n)の音節HMMセットに属するすべての音節HMMと学
習用音声データと対応する音節ラベルデータとを用いてビタビアルゴリズムによりアライ
メントデータA(n)を作成し(ステップS4e)、そのアライメントデータA(n)を
保存する(ステップS4f)。このアライメントデータ作成処理について図7を参照しな
がら説明する。
図7はアライメントデータ作成を行うために、それぞれの状態がある分布数(状態ごと
に分布数が異なっていてもよい)に設定された音節HMMセットに属するそれぞれの音節
HMMと学習用音声データ1との対応付けを行う処理の具体例を説明するものである。
アライメントデータ作成部7では、すべての学習用音声データ1とある分布数(この実
施形態1では現時点で設定されている分布数M(n))を有する音節HMMセットを用い
て、図7の(a),(b),(c)に示すように、音節HMMセットのそれぞれの音節H
MMにおけるそれぞれの状態S0,S1,S2と学習用音声データ1とのアライメントを
とる。
たとえば、図7(b)に示すように、学習用音声データ1の中のある1つの学習用音声
データ例として「秋(あき)の・・・」という学習用音声データ例に対して対応付けを行
うと、その学習用音声データ例「あ」、「き」、「の」、・・・において、音節/a/の音
節HMMの状態S0は、学習用音声データの区間t1に対応し、音節/a/の音節HMMの
状態S1は、同じく学習用音声データ例の区間t2に対応し、音節/a/の音節HMMの状
態S2は、同じく学習用音声データ例の区間t3に対応するというような対応付けを行っ
て、その対応付けデータをアライメントデータとする。
同様に、音節/ki/の音節HMMの状態S0は、図7(b)に示す学習用音声データ例
における区間t4に対応し、音節/ki/の音節HMMの状態S1は、同じく学習用音声デ
ータ例における区間t5に対応し、音節/ki/の音節HMMの状態S2は、同じく学習用
音声データ例における区間t6に対応するというような対応付けを行って、その対応付け
データをアライメントデータとする。
このとき、アライメントデータの1つとして、それぞれの対応するデータ区間ごとにそ
のデータ区間の開始フレームのフレーム番号と終了フレームのフレーム番号が取得される
また、図7(c)に示すように、学習用音声データ例の他の例として、「・・・試合(
しあい)・・・」という学習用音声データ例において、状態数3の音節/a/の音節HMM
の状態S0は、その学習用音声データ例における区間t11に対応し、音節/a/の音節H
MMの状態S1は、同じく学習用音声データ例における区間t12に対応し、音節/a/の
音節HMMの状態S2は、同じく学習用音声データ例における区間t13対応するという
ような対応付けを行って、その対応付けデータをアライメントデータとする。この場合も
同様に、アライメントデータの1つとして、それぞれの対応するデータ区間ごとにそのデ
ータ区間の開始フレームのフレーム番号と終了フレームのフレーム番号が取得される。
そして、このアライメントデータ作成部7によって作成されたアライメントデータA(
n)を用いて、それぞれの状態ごとの記述長を記述長計算部8によって求める。
この実施形態1では、現時点の分布数M(n)に設定された音節HMMセットに属する
それぞれの音節HMMのパラメータと、直前の分布数M(n−1)に設定された音節HM
Mセットに属するそれぞれの音節HMMのパラメータと、学習用音声データ1と、アライ
メントデータA(n)とが記述長計算部8に与えられて、それぞれの音節HMMにおける
それぞれの状態ごとに記述長が計算される。なお、すでに最適分布数に保持された状態に
ついては記述長計算対象から除外する。
これによって、記述長計算部8では、現時点の分布数M(n)に設定された音節HMM
セットに属するそれぞれの音節HMMのそれぞれの状態(すでに最適分布数に設定された
状態は除く)の記述長(現時点記述長)と、直前の分布数M(n−1)に設定された音節
HMMセットに属するそれぞれの音節HMMのそれぞれの状態(すでに最適分布数に設定
された状態は除く)ごとの記述長(直前記述長)とが求められる。
図8は記述長計算部8が行う記述長計算処理手順を説明するフローチャートであり、こ
れは、図2におけるステップS5の処理を詳細に説明するものである。
図8において、まず、処理対象となる音節HMMセット(分布数M(n−1)または分
布数M(n)の音節HMMセット)の読み込みを行い(ステップS5a)、すべてのアラ
イメントデータA(n)に対する処理が終了か否かを判定する(ステップS5b)。この
判定の結果、すべてのアライメントデータA(n)に対する処理が終了していなければ、
まだ、処理の終了していない分布数M(n−1)または分布数M(n)のアライメントデ
ータの読み込みを行う(ステップS5c)。
そして、ステップS5aで読み込まれた音節HMMセットとステップS5bで読み込ま
れたアライメントデータを用いて、それぞれの音節HMMにおけるそれぞれの状態の尤度
を計算して、その計算結果を記憶する(ステップS5d)。これをすべてのアライメント
データA(n)について行い、すべてのアライメントデータA(n)に対する処理が終了
したら、それぞれの音節HMMのそれぞれの状態の総フレーム数を集計するとともに、そ
れぞれの音節HMMのそれぞれの状態の総尤度を集計する(ステップS5e,S5f)。
そして、それぞれの音節HMMのそれぞれの状態について、その総フレーム数および総
尤度を用いて記述長の計算を行い、その記述長を記憶する(ステップS5g)。
次に、本発明で用いるMDL(記述長最小)基準について説明する。このMDL基準に
ついては、たとえば、「韓太舜著“岩波講座応用数学11、情報と符号化の数理”岩波書
店(1994),pp249−275」などに述べられている公知の技術であり、前述し
たように、モデルの集合{1,・・・,i,・・・,I}とデータχ={χ,・・・
,χ}(ただし、Nはデータ長)が与えられたときのモデルiを用いた記述長li(χ
)は、前述した(1)式のように定義され、このMDL基準は、この記述長li(χ
)が最小であるモデルが最適なモデルであるとしている。
本発明では、ここでいうモデル集合{1,・・・,i,・・・,I}は、あるHMMに
おいて分布数がある値から最大分布数までの複数種類に設定されたある状態の集合である
として考える。なお、分布数がある値から最大分布数までの複数種類に設定されていると
きの分布数の種類がI種類(IはI≧2の整数)であるとしたとき、上述の1,・・・,
i,・・・,Iは、1番目の種類からI番目の種類までそれぞれの種類を特定するための
符号であって、前述の(1)式を、1,・・・,i,・・・,Iのうちのi番目の分布数
の種類を持つ状態の記述長を求める式として用いるものである。
なお、この1,・・・,i,・・・,IのIは、異なる分布数を持つHMMセットの総
数、すなわち、分布数が何種類あるかを表すもので、この実施の形態では、最終的に分布
数が、1,2,4,8,16,32,64の7種類のモデルが作成されるが、記述長の計
算の対象となるHMMセットは、図3の記述長計算部8において、常に、分布数M(n−
1)のHMMセットと分布数M(n)のHMMセットの2種類であるので、I=2となる
このように、1,・・・,i,・・・,Iが、1番目の種類からI番目の種類までそれ
ぞれの種類を特定するための符号であるので、この実施の形態での例では、分布数M(n
−1)に対しては分布数の種類を表す符号として、1,・・・,i,・・・,Iのうち1
が与えられ、分布数の種類が1番目であることを示す。
また、分布数M(n)に対しては分布数の種類を表す符号として、1,・・・,i,・
・・,Iのうち2が与えられ、分布数の種類が2番目であることを示す。
ここで、音節/a/のHMMについて考えると、この実施形態の場合、分布数M(n−1
)から分布数M(n)までの2種類の分布数をもつ状態S0の集合が1つのモデル集合、
同じく、分布数M(n−1)から分布数M(n)までの2種類の分布数をもつ状態S1の
集合が1つのモデル集合、同じく、分布数M(n−1)から分布数M(n)までの2種類
の分布数をもつ状態S2の集合が1つのモデル集合となる。
したがって、前述の(1)式のように定義された記述長li(χ)は、本発明におい
ては、ある状態の分布数の種類が1,・・・,i,・・・,Iのうちのi番目の種類に設
定したときのその状態(これを状態iで表す)の記述長li(χ)であるとし、前述の
(1)式を変形した(2)式を用いる。
この(2)式は、(1)式における右辺の最終項である第3項のlogIは定数であるの
で省略し、かつ、(1)式における右辺の第2項である(βi/2)logNに重み係数α
を乗じたものとなっている。なお、上述の(2)式においては、(1)式における右辺の
最終項である第3項のlogIを省略したが、これを省略せずにそのまま残した式としても
よい。
また、βiは分布数の種類がi番目の分布数を持つ状態iの次元(自由度)として、分
布数×特徴ベクトルの次元数で表されるが、この特徴ベクトルの次元数は、ここでは、ケ
プストラム(CEP)次元数+Δケプストラム(CEP)次元数+Δパワー(POW)次
元数である。
また、αは最適な分布数を調整するための重み係数であり、このαを変えることによっ
て、記述長li(χ)を変化させることができる。すなわち、図9(a),(b)に示
すように、単純に考えれば、(2)式の右辺の第1項は、分布数の増加に伴ってその値が
減少し(細い実線で示す)、(2)式における右辺の第2項は、分布数の増加に伴って単
調増加(太い実線で示す)し、これら第1項と第2項の和で求められる記述長li(χ
)は、破線で示すような値をとる。
したがって、αを可変することによって、第2項の単調増加の傾きを可変(αを大きく
するほど傾きが大きくなる)することができるので、(2)式における右辺の第1項と第
2項の和で求められる記述長li(χ)は、αの値を変化させることによって変化させ
ることができる。これによって、たとえば、αを大きくすると、図9(a)は同図(b)
のようになり、分布数がより小さい場合に記述長li(χ)が最小になるように調整す
ることができる。
なお、(2)式における分布数の種類がi番目の分布数を持つ状態iはM個のデータ(
あるフレーム数からなるM個のデータ)に対応している。すなわち、データ1の長さ(フ
レーム数)をn1、データ2の長さ(フレーム数)をn2、データMの長さ(フレーム数
)をnMで表せば、χのNはN=n1+n2+・・・+nKで表されるので、(2)式
における右辺の第1項は、下記の(3)式のように表される。
なお、ここでのデータ1,データ2,・・・,データKは、状態iに対応付けられた多
数の学習用音声データ1のある区間に対応するデータ(たとえば、図7で説明したように
、仮に状態iがある分布数の音節/a/のHMMにおける状態S0であるとすれば、区間t
1や区間t11に対応する学習用音声データ)である。
Figure 0004442211
この(3)式において、右辺のそれぞれの項は、分布数の種類がi番目の分布数を有す
る状態iとそれぞれの学習用音声データとを対応付けたとき、その対応付けられた学習用
音声データ区間に対する尤度であるが、この(3)式からもわかるように、当該i番目の
分布数を有する状態iの尤度は、その状態iに対応付けられたそれぞれの学習用音声デー
タに対する尤度の和で表される。
したがって、この実施形態においては、図2で説明したフローチャートのステップS5
、すなわち、図3における記述長計算部8の行う記述長計算処理は、上述の(2)式を計
算する処理である。
ところで、上述の(2)式において、右辺の第1項はある状態における総尤度を表し、
右辺の第2項のNは総フレーム数を表しているので、それぞれの状態ごとに求められた総
尤度と総フレーム数を(2)式に代入することによって、ある分布数に設定された状態の
記述長を求めることができる。
以下、本発明の発明者が行った実験例を用いて具体的に説明する。
図10は「私はそれを望む(wa ta shi wa so re o no zo
mu)」というある1つの学習用音声データ例(これを学習用音声データ例1aとする
)と分布数M(2)=分布数2の音節HMMセットに属するそれぞれの音節HMMとの対
応付けを行って得られたアライメントデータA(2)の一例を示すものである。
このアライメントデータ作成時には、学習用音声データ1aに対応した音節ラベルデー
タ(これを音節ラベルデータ例3aとする)を用いるが、この音節ラベルデータ例3aは
、図11のような内容となっている。この図11において、SilBは発話の先頭部分に存
在する無音部分に相当する音声区間を表す音節、SilEは発話の終端部分に存在する無音
部分に相当する音声区間を表す音節である。
このような音節ラベルデータ例はすべての学習用音声データ1に対応して用意されてい
る。なお、ここでは、学習用音声データ1の数としては約20000個を用意している。
ところで、図10に示すアライメントデータA(2)は、ある学習用音声データ1a(
「wa ta shi wa so re o no zo mu」)を構成するそれぞ
れの音節(Syllable)に対する音節HMMのそれぞれの状態(State)ごとに、開始フレ
ームを表す開始フレーム番号(Start)と終了フレームを表す終了フレーム番号(End)が記
述されてなる。
なお、ここでの実験形態では、先頭に存在する無音部分を表す音節/SilB/と終端に存
在する無音部分を表す音節/SilE/、母音のみからなる音節(/a/、/i/、/u/、/e/、/
o/)、促音および撥音を表す音節(/q/および/N/)、発話の途中に存在する無音部分
を表す音節(/sp/)に対応する音節HMMはそれぞれ3つの状態S0,S1,S2とし
、それ以外の子音を含む音節(/ka/、/ki/・・・など)に対応する音節HMMはそれ
ぞれ5つの状態S0,S1,S2,S3,S4としている。
この図10に示すアライメントデータA(2)の例は、「wa ta shi wa
so re o no zo mu」といった学習用音声データ1aに対するものである
が、この図10に示すようなアライメントデータA(2)は、すべての学習用音声データ
1に対して作成される。このように、現時点の分布数M(n)として、たとえば、分布数
M(2)=分布数2の音節HMMセットに属するそれぞれの音節HMMとそれぞれの学習
用音声データ1との対応付けを行って作成されたアライメントデータをアライメントデー
タA(2)とする。なお、アライメントデータ作成時には尤度も求めることもできるが、
ここでは、開始フレーム番号と終了フレーム番号の情報が取得できればよい。
このアライメントデータA(2)を用いて、記述長計算部8では、まず、その音節HM
Mセットに属するそれぞれの音節HMMについて、それぞれの状態ごとに、対応付けによ
って得られたそれぞれのフレームごと(開始フレームから終了フレームまで)の尤度を計
算する。
たとえば、図12は分布数M(2)=分布数2の音節HMMセットに属するすべての音
節HMMにおいて、個々の音節HMMの学習用音声データ1a(「私はそれを望む」とい
う学習用音声データ)に対するそれぞれの状態(State)ごとの各フレーム(開始フレー
ムから終了フレームまで)の尤度を計算した結果を示すもので、この図12における「Sc
ore」は、それぞれの音節HMMのそれぞれの状態に対する尤度を表している。
この図12に示す尤度計算結果は、分布数M(2)=2におけるアライメントデータA
(2)を用いて上述した学習用音声データ1aに対して求められたものであるが、この尤
度計算はすべての学習用音声データ1に対して行われ、それによって、すべての学習用音
声データ1に対する尤度計算結果が得られる。
そして、すべての学習用音声データ1に対する尤度計算結果が得られると、それぞれの
音節/a/,/i/,/u/,/e/,・・・ごとにそれぞれの状態S0,S1,S2,・・・に
対する総フレーム数と総尤度を集計する。
図13は分布数M(2)=分布数2を有する音節HMMセットに属するそれぞれの音節
HMMと、それぞれの学習用音声データ1との対応付けによって得られるアライメントデ
ータA(2)を用いた分布数M(2)=2の音節HMMセットにおける総フレーム数と総
尤度の集計結果の一例を示すものである。なお、この図13では、「Frame」は総フレー
ム数を表し、「Score」は総尤度を表している。
以上のようにして、すべての音節について、分布数M(2)=2の音節HMMセットに
属するそれぞれの音節HMMのそれぞれの状態ごとの総フレーム数と総尤度が求められる
と、この図13の結果と、前述の(2)式を用いて記述長を計算する。
すなわち、記述長li(x)を求めるための(2)式において、右辺の第1項は、総
尤度に相当し、右辺の第2項のNは総フレーム数に相当するので、右辺の第1項には図1
3における総尤度、右辺の第2項のNには図13における総フレーム数を代入する。
たとえば、音節/a/で考えると、図13からもわかるように、状態S0においては、総
フレーム数は「39820」であり、総尤度は「−2458286.56」であるので、
総フレーム数「39820」を右辺の第2項のNに代入し、総尤度「−2458286.
56」を右辺の第1項に代入する。
なお、(2)式におけるβは、モデルの次元数であって、分布数×特徴ベクトルの次元
数で求めることができる。この実験例では、特徴ベクトル次元数を25(ケプストラムが
12次元、デルタケプストラムが12次元、デルタパワーが1次元)であるとすると、分
布数M(1)=分布数1の場合は、β=25となり、分布数M(2)=分布数2の場合は
、β=50となり、分布数M(3)=分布数4の場合は、β=100となる。また、重み
係数αはここでは1.0としている。
これによって、分布数M(2)=分布数2の音節HMMを用いたときの音節/a/の状態
S0における記述長(これをL(a,0)で表す)は、
L(a,0)=2458286.56+1.0×(50/2)×log(39820)=2602980.83 (4)
と求められる。なお、総尤度は負の値として求められており(図13参照)、また、(2
)式の右辺の第1項には負の記号が付されているので総尤度は正の値で表される。
同様にして、分布数M(2)=2の音節HMMを用いたときの音節/a/の状態S1にお
ける記述長(これをL(a,1)で表す)は、
L(a,1)=2416004.66+1.0×(50/2)×log(43515)=2303949.97 (5)
と求められる。
このようにして、すべての音節(124音節)に対応する音節HMMのそれぞれの状態に
ついて記述長を計算する。その計算結果の一例を図14に示す。
この図14は、アライメントデータA(2)を用いた分布数M(2)=2の音節HMM
セットにおける記述長計算結果の一例を示すもので、それぞれの音節/a/,/i/,/u/,
・・・に対するそれぞれの状態S0,S1,S2,・・・ごとに計算された記述長が示さ
れている。なお、この図14における「MDL」は記述長を表している。
この記述長を計算する処理は、図2におけるステップS5の処理であり、このステップ
S5では、アライメントデータA(n)を用いて現時点より1つ前の分布数M(n−1)
の場合の記述長(直前記述長)を計算するとともに、同じアライメントデータA(n)を
用いて現時点の分布数M(n)の場合の記述長(現時点記述長)を計算する。
たとえば、現時点の分布数がM(2)であった場合、アライメントデータA(2)を用
いて現時点の直前の分布数M(1)におけるある1つの状態(状態S0とする)の記述長
が図15(a)に示すように求められ、現時点の分布数M(2)における状態S0に対す
る記述長が図15(b)のように求められたとする。この図15(b)は、図14におけ
る状態S0に対して求められた記述長と同じものである。
この図15(a),(b)に示す記述長を用いて、図2のステップS7における記述長
の比較判定処理、すなわち、MDL(M(n−1))<MDL(M(n))を行う。この
場合、図15(a)の記述長MDLは、MDL(M(n−1))に相当し、図15(b)
の記述長MDLは、MDL(M(n))に相当する。
この図15(a),(b)からもわかるように、状態S0においては、音節/a/,/i/
,/u/,/e/はそれぞれが分布数M(n)=分布数M(2)=分布数2の方が記述長の値
は小であり、音節/o/のみが分布数M(n−1)=分布数M(1)=分布数1の方が記述
長の値は小である。
すなわち、音節/a/,/i/,/u/,/e/に対応するそれぞれの音節HMMにおける状態
S0は、分布数M(2)=分布数2がその時点では仮の最適分布数であると判定される。
一方、音節/o/に対応する音節HMMにおける状態S0は、分布数M(1)=分布数1が
最適分布数であると判定される。
これによって、音節/o/に対応する音節HMMにおける状態S0は、分布数M(1)=
分布数1が最適分布数であるとして、分布数1で保持し、その状態S0については以降の
分布数増加処理は行わない。一方、音節/a/,/i/,/u/,/e/に対応するそれぞれの音
節HMMにおける状態S0は、分布数をインデクス番号に対応させて増加させ、MDL(
M(n−1))<MDL(M(n))となるまで繰り返す。
そして、すべての音節HMMにおけるそれぞれの状態に対して、その分布数が最適分布
数であるか否かを判定(図2におけるステップS10)、すなわち、ある音節HMMにお
けるすべての状態において、MDL(M(n−1))<MDL(M(n))となったか否
かを判定し、その音節HMMにおけるすべての状態の分布数が最適分布数であると判定さ
れれば、その音節HMMはすべての状態が最適分布数を有する(分布数の最適化された)
音節HMMとする。これをすべての音節HMMについて行う。
このような処理によって生成されたそれぞれの音節HMMは、個々の音節HMMにおい
てそれぞれの状態ごとに分布数が最適化されているため、高い認識性能を確保することが
でき、しかも、すべての状態で同じ分布数とした場合に比べ、パラメータ数を大幅に削減
することができ、演算量の削減、使用メモリ量の削減が図れ、処理速度の高速化が図れ、
さらに、低価格、低消費電力化も可能となる。
また、本発明は、それぞれの音節HMMにおいて、それぞれの状態ごとに分布数をある
増加規則に基づいて逐次的に増加させて行き、現時点記述長MDL(M(n))と直前記
述長MDL(M(n−1))を求めて、両者を比較し、MDL(M(n−1))<MDL
(M(n))となったら、その時の分布数で保持して、その状態についてはそれ以降、分
布数を逐次的に増加させる処理を行わないので、それぞれの状態の分布数を効率的に最適
分布数に設定することができる。
〔実施形態2〕
上述の実施形態1では、アライメントデータ作成部7が行うそれぞれの音節HMMの状
態と学習用音声データとの対応付けは、現時点の分布数、すなわち、分布数M(n)の音
節HMMセットに属するそれぞれの音節HMMと、それぞれの学習用音声データ1とを対
応付けることによってアライメントデータA(n)を作成する例で説明したが、これに限
らず、分布数M(n−1)として学習された音節HMMセットに属するそれぞれの音節H
MMとそれぞれの学習用音声データ1とを対応付けることによってアライメントデータ(
これをアライメントデータA(n−1)とする)を作成するようにしてもよく、これを実
施形態2として説明する。この実施形態2の全体的な処理の流れを図16のフローチャー
トに示す。
図16は実施形態2の全体的な処理の流れを説明するフローチャートであり、全体的な
処理の流れは図2と同じであるが、アライメントデータ作成処理と記述長計算処理(図1
6のステップS24,S25であって、これは、図2ではステップS4,S5に対応する
)が少し異なる。
すなわち、この実施形態2におけるアライメントデータ作成処理は、分布数M(n−1
)として学習された音節HMMセットに属するそれぞれの音節HMMのそれぞれの状態と
それぞれの学習用音声データ1との対応付けを行って、アライメントデータA(n−1)
を作成し(ステップS24)、このアライメントデータA(n−1)と、分布数M(n−
1)の音節HMMセットと、分布数M(n)の音節HMMセットとを用いて、それぞれの
音節HMMセットにおけるそれぞれの状態の記述長MDL(M(n−1))とMDL(M
(n))を求めるようにしている。
なお、この記述長MDL(M(n−1))および記述長MDL(M(n))を求める際
に用いられるアライメントデータは、アライメントデータA(n−1)を用いる点が実施
形態1と異なる(実施形態1ではアライメントデータA(n)が用いられる)。
すなわち、実施形態2では、記述長MDL(M(n−1))を求める際は、アライメン
トデータA(n−1)を用いて、分布数M(n−1)の音節HMMセットについてそれぞ
れの状態の総フレーム数F(n−1)と総尤度P(n−1)を計算する。また、記述長M
DL(n)を求める際は、同じくアライメントデータA(n−1)を用いて、分布数M(
n)の音節HMMセットについてそれぞれの状態の総フレーム数F(n)と総尤度P(n
)を計算する。
なお、この図16におけるそれ以外の処理手順は図2と同じであるので、ここでは、そ
の説明は省略する。
また、図17はこの実施形態2を実現するために必要な構成図であり、その構成要素と
しては実施形態1の説明で用いた図3と同じであるが、アライメントデータ作成部7によ
って得られるアライメントデータが分布数M(n−1)の音節HMMを用いた場合のアラ
イメントデータA(n−1)であることが図3と異なるだけである。
この実施形態2においても前述の実施形態1と同様の効果が得られる。
〔実施形態3〕
図18はこの実施形態3の全体的な処理手順を説明するフローチャート、図19は実施
形態3の構成図であり、図18のフローチャートの全体的な処理の流れは図2とほぼ同じ
であるが、アライメントデータ作成処理と記述長計算処理が異なる。このアライメントデ
ータ作成処理と記述長計算処理は、図18のステップS44,S45,S46,S47で
あって、これは、図2ではステップS4,S5に対応する。
この実施形態3では、分布数M(n−1)の音節HMMセットとそれぞれの学習用音声
データ1とを対応付けることによってアライメントデータA(n−1)を作成するととも
に、分布数M(n)の音節HMMセットとそれぞれの学習用音声データ1とを対応付ける
ことによってアライメントデータA(n)を作成する(ステップS44)。
そして、分布数M(n−1)の音節HMMセットと分布数M(n)の音節HMMセット
のそれぞれの音節HMMにおけるぞれぞれの状態について、総フレーム数F(n−1)と
F(n)を求め、これら、総フレーム数F(n−1)とF(n)の平均を計算し、それを
平均フレーム数F(a)とする(ステップS45)。
次に、分布数M(n−1)の音節HMMセットのそれぞれの音節HMMにおけるそれぞ
れの状態に対し、平均フレーム数F(a)と、総フレーム数F(n−1)と、総尤度P(
n−1)とを用いて、総尤度の正規化を行って正規化尤度P’(n−1)を求めるととも
に、分布数M(n)の音節HMMセットのそれぞれの音節HMMにおけるそれぞれの状態
について、平均のフレーム数F(a)と、総フレーム数F(n)と、総尤度P(n)を用
いて総尤度の正規化を行って正規化尤度P’(n)を求める(ステップS46)。
そして、この正規化尤度P’(n−1)と平均フレーム数F(a)を用いて(2)式に
より記述長MDL(M(n−1))を求めるとともに、正規化尤度P’(n)と平均フレ
ーム数F(a)を用いて(2)式により記述長MDL(M(n))を求める(ステップS
47)。
次に、求められた記述長MDL(M(n−1)と記述長MDL(M(n))を比較して
、MDL(M(n−1)<MDL(M(n))であれば、M(n−1)を最適分布数であ
るとし、MDL(M(n−1)<MDL(M(n))でなければ、M(n)をその時点に
おける仮の最適分布数であるとする処理(ステップS48)を行う。なお、このステップ
S48の処理は、図2におけるステップS6,S7,S8,S9に相当するものである。
このステップS48の処理が終了すると、ステップS49の処理に入るが、これ以降の
処理は図2と同様に、すべての状態について分布数の最適化がなされていなければ、ステ
ップS50の処理を行う。このステップS50は図2のステップS11と同じであり、分
布数を再設定し、最大分布数をM(n)として当該音節HMMを再学習して、その再学習
された音節HMMで現在の分布数M(n)の音節HMMを置き換える処理である。そして
、ステップS42に戻り、ステップS42以降の処理を行う。
図19はこの実施形態3を実現するに必要な構成図を示すもので、図3と異なるのは、
アライメントデータ作成部7からは、分布数M(n)のHMMを用いて作成されるアライ
メントデータA(n)と、分布数M(n−1)のHMMを用いて作成されるアライメント
データA(n−1)の2つのアライメントデータが得られることと、これらアライメント
データA(n),A(n−1)により、平均のフレーム数F(a)を計算する平均フレー
ム数計算部11を有する点、さらに、記述長計算部8では、平均フレーム数計算部11で
得られた平均フレーム数F(a)と、分布数M(n)を有するHMMのすべての状態の総
フレーム数F(n)と総尤度P(n)とを用いて、分布数M(n)を有するHMMのすべ
ての状態ごとの総尤度の正規化を行って正規化尤度P’(n)を求めるとともに、平均フ
レーム数F(a)と分布数M(n−1)を有するHMMのすべての状態ごと総フレーム数
F(n−1)と総尤度P(n−1)とを用いて該分布数M(n−1)を有するHMMのす
べての状態ごとの総尤度の正規化を行って正規化尤度P’(n−1)を求めたのちに記述
長MDL(M(n−1)と記述長MDL(M(n))を計算する点である。
なお、この図19では、正規化尤度P’(n)と正規化尤度P’(n−1)は記述長計
算部8で求めるようにしたが、これら正規化尤度P’(n)と正規化尤度P’(n−1)
を求めるための正規化尤度算出手段を記述長計算部8とは別に設けるようにしてもよい。
図20は図18におけるステップS44の処理、すなわち、アライメントデータ作成処
理を説明するフローチャートである。
図20において、まず、分布数M(n−1)の音節HMMセットの読み込みを行い(ス
テップS44a)、すべての学習用音声データの処理が終了か否かを判定する(ステップ
S44b)。そして、すべての学習用音声データについて処理が終了していなければ、処
理の終了していない学習用音声データを1つ読み込んで(ステップS44c)、読み込ん
だ学習用音声データに対応する音節ラベルデータを音節ラベルデータ3から検索して読み
込む(ステップS44d)。
続いて、分布数M(n−1)の音節HMMセットに属するすべての音節HMMと学習用
音声データ1と音節ラベルデータ3とを用いてアライメントデータA(n−1)を作成し
(ステップS44e)、そのアライメントデータA(n−1)を保存する(ステップS4
4f)。
このステップS44cからステップS44fの処理をすべての学習用音声データ1に対
して行い、すべての学習用音声データ1について処理が終了すると、今度は、分布数M(
n)の音節HMMセットの読み込みを行い(ステップS44g)、すべての学習用音声デ
ータの処理が終了か否かを判定する(ステップS24h)。そして、すべての学習用音声
データ1について処理が終了していなければ、処理の終了していない学習用音声データを
1つ読み込んで(ステップS44i)、読み込んだ学習用音声データに対応する音節ラベ
ルデータを音節ラベルデータ3から検索して読み込む(ステップS44j)。
続いて、分布数M(n)の音節HMMセットに属するすべての音節HMMと学習用音声
データ1と音節ラベルデータ3とを用いてアライメントデータA(n)を作成し(ステッ
プS44k)、そのアライメントデータA(n)を保存する(ステップS44l)。
図21(a)は分布数M(n−1)=分布数M(3)=分布数4の音節HMMと前述の
実施形態1で用いた「私はそれを望む」という学習用音声データ1aとの対応付けを行っ
た場合のアライメントデータA(n−1)=A(3)の一例であり、同図(b)は分布数
M(n)=分布数M(4)=分布数8の音節HMMと前述の実施形態1で用いた「私はそ
れを望む」という学習用音声データ1aとの対応付けを行った場合のアライメントデータ
A(n)=A(4)の一例である。
この図21(a),(b)からもわかるように、同じ学習用音声データであっても分布
数の違いによって、得られるアライメントデータは、アライメントデータA(n−1)と
アライメントデータA(n)とで微妙に異なる。
図22は図18におけるステップS45の処理、すなわち、平均フレーム数F(a)を
求める処理手順を詳細に説明するフローチャートである。
図22において、まず、分布数M(n−1)の音節HMMセットによるすべてのアライ
メントデータA(n−1)に対する処理が終了か否かを判定する(ステップS45a)。
そして、すべてのアライメントデータA(n−1)に対する処理が終了していなければ、
まだ、処理の終了していないアライメントデータの読み込みを行い(ステップS45b)
、アライメントデータごとにそれぞれの音節HMMのそれぞれの状態の開始フレームと終
了フレームを取得し、総フレーム数を計算して、その計算結果を記憶する(ステップS4
5c)。
これをすべてのアライメントデータA(n−1)について行い、すべてのアライメント
データA(n−1)に対する処理が終了したら、それぞれの音節HMMのそれぞれの状態
の総フレーム数を集計する(ステップS45d)。
次に、分布数M(n)の音節HMMセットに対する処理に移り、まず、すべてのアライ
メントデータA(n)に対する処理が終了か否かを判定する(ステップS45e)。そし
て、すべてのアライメントデータA(n)に対する処理が終了していなければ、まだ、処
理の終了していないアライメントデータの読み込みを行い(ステップS45f)、アライ
メントデータごとにそれぞれの音節HMMのそれぞれの状態の開始フレームと終了フレー
ムを取得し、総フレーム数を計算して、その計算結果を記憶する(ステップS45g)。
これをすべてのアライメントデータA(n)について行い、すべてのアライメントデー
タA(n)に対する処理が終了したら、それぞれの音節HMMのそれぞれの状態の総フレ
ーム数を集計する(ステップS45h)。
そして、それぞれの音節HMMのそれぞれの状態について、分布数M(n−1)の場合
の総フレーム数と分布数M(n)の場合の総フレーム数を取得し、それぞれの平均を計算
して、平均フレーム数を得る(ステップS45i)。
図23は図22の平均フレーム数を求める処理の具体例を示す図であり、図23(a)
は分布数M(n−1)=M(3)=分布数4の音節HMMセットを用いた場合の総フレー
ム数(それぞれの音節に対するそれぞれの状態ごとの総フレーム数)の集計結果の一例で
あり、図23(b)は分布数M(n)=M(4)=分布数8の音節HMMセットを用いた
場合の総フレーム数(それぞれの音節に対するそれぞれの状態ごとの総フレーム数)の集
計結果の一例である。
なお、前述したように分布数が異なるとアライメントデータに違いが生じるため、この
図23(a),(b)からもわかるように、分布数の違いによって総フレーム数も異なっ
てくる。
このように、図23(a),(b)に示すような分布数M(n−1)=M(3)=分布
数4と分布数M(n)=M(4)=分布数8のそれぞれの音節HMMを用いた場合のそれ
ぞれの音節に対するそれぞれの状態ごとの総フレーム数の集計結果を用いて、それぞれの
音節に対するそれぞれの状態ごとの総フレーム数の平均を求めることによって得られた平
均フレーム数が図23(c)である。なお、この図23(c)では、小数点以下を四捨五
入してあるが、四捨五入は必ずしも行う必要はない。
図24は図18におけるステップS46,S47の処理、すなわち、正規化尤度P’(
n−1)とP’(n)を求め、その正規化尤度P’(n−1)とP’(n)を用いて記述
長を計算する記述長計算処理手順を詳細に説明するフローチャートである。
図24において、まず、分布数M(n−1)の音節HMMセットの読み込みを行い(ス
テップS46a)、すべてのアライメントデータA(n−1)に対する処理が終了か否か
を判定し(ステップS46b)、すべてのアライメントデータA(n−1)に対する処理
が終了していなければ、まだ、処理の終了していないアライメントデータの読み込みを行
う(ステップS46c)。
そして、ステップS46aで読み込まれた音節HMMセットとステップS46cで読み
込まれたアライメントデータを用いてそれぞれの音節HMMのそれぞれの状態の尤度を計
算して、その計算結果を記憶する(ステップS46d)。これをすべてのアライメントデ
ータA(n−1)について行い、すべてのアライメントデータA(n−1)に対する処理
が終了したら、それぞれの音節HMMのそれぞれの状態の総尤度を集計する(ステップS
46e)。
そして、それぞれの音節HMMのそれぞれの状態についてその総フレーム数および平均
フレーム数データを読み込み、ステップS46eで求められた総尤度を用いて尤度の正規
化を行い、正規化尤度P’(n−1)を得る(ステップS46f)。
次に、分布数M(n)の音節HMMセットに対する処理に移り、まず、分布数M(n)
の音節HMMセットの読み込みを行い(ステップS46g)、すべてのアライメントデー
タA(n)に対する処理が終了か否かを判定し(ステップS46h)、すべてのアライメ
ントデータA(n)に対する処理が終了していなければ、まだ、処理の終了していないア
ライメントデータの読み込みを行い(ステップS46i)、ステップS46gで読み込ま
れた音節HMMセットとステップS46hで読み込まれたアライメントデータを用いてそ
れぞれの音節HMMのそれぞれの状態の尤度を計算して、その計算結果を記憶する(ステ
ップS46j)。
これをすべてのアライメントデータA(n)について行い、すべてのアライメントデー
タA(n)に対する処理が終了したら、それぞれの音節HMMのぞれぞれの状態の総尤度
を集計する(ステップS46k)。そして、それぞれの音節HMMのそれぞれの状態につ
いてその総フレーム数および平均フレーム数を読み込み、ステップS46kで求められた
総尤度を用いて尤度の正規化を行い、正規化尤度P’(n)を得る(ステップS46l)
このようにして、正規化尤度P’(n−1)および正規化尤度P’(n)が得られたら
、この正規化尤度P’(n−1)と平均フレーム数F(a)を用いて、分布数M(n−1
)のそれぞれの音節HMMのそれぞれの状態について記述長を計算し、その計算結果を記
憶するとともに、正規化尤度P’(n)と平均フレーム数F(a)を用いて、分布数M(
n)のそれぞれの音節HMMのそれぞれの状態について記述長を計算し、その計算結果を
記憶する(ステップS47a)。このステップS47aの処理は図18におけるステップ
S47に相当するものである。
図25は分布数M(n−1)の音節HMMセットを用いた場合と分布数M(n)の音節
HMMセットを用いた場合の総尤度の集計結果を示すもので、図25(a)は、分布数M
(n−1)=M(3)=分布数4の音節HMMセットにおけるそれぞれの状態ごとのそれ
ぞれの音節に対する総尤度の集計結果を示すもので、図25(b)は分布数M(n)=M
(4)=分布数8の音節HMMセットにおけるそれぞれの状態ごとのそれぞれの音節に対
する総尤度の集計結果を示すものである。
この図25(a),(b)に示す総尤度の集計結果と、前述の図23に示す総フレーム
数および平均フレーム数とを用いて正規化尤度P’(n−1)および正規化尤度P’(n
)を求めることができる。
図26は分布数M(n−1)の音節HMMセットを用いた場合と分布数M(n)の音節
HMMセットを用いた場合のそれぞれの音節HMMのそれぞれの状態について、これまで
に求められた総フレーム数、平均フレーム数、総尤度をまとめたデータであり、図26(
a)は分布数M(n−1)=M(3)=分布数4の音節HMMセットを用いた場合、図2
6(b)は分布数M(n)=M(4)=分布数8の音節HMMセットを用いた場合である
この図26(a),(b)に示すデータを用いて正規化尤度を求める。ここで、正規化
尤度は、
正規化尤度=平均フレーム数×(総尤度/総フレーム数) (6)
で求めることができる。
したがって、分布数M(n)の場合は、現在の総尤度をP(n)、平均フレーム数をF
(a)、総フレーム数をF(n)とし、また、分布数M(n−1)の場合は、現在の総尤
度をP(n−1)、平均フレーム数をF(a)、総フレーム数をF(n−1)とすると、
分布数M(n−1)の場合のP’(n−1)と、分布数M(n)の場合のP’(n)は、
上述の(6)式から次のように表すことができる。
P’(n−1)=F(a)×(P(n−1)/F(n−1)) (7)
P’(n)=F(a)×(P(n)/F(n)) (8)
この(7)式および(8)式を用いて求められた正規化尤度(Norm.Score)の一例を
図27に示す。
図27(a)は分布数M(n−1)の音節HMMセットを用いた場合、図27(b)は
分布数M(n)の音節HMMセットを用いた場合を示すもので、この図27(a),(b
)は図26(a),(b)のデータに、(7)式または(8)式によって得られた正規化
尤度P’(n−1),P’(n)を付加したものである。
この図27に示すデータを用いて記述長を計算することができる。すなわち、この図2
7に示す平均フレーム数F(a)を前述の(2)式の右辺第2項のNに代入し、正規化尤
度P’(n−1)またはP’(n)を(2)式の右辺第1項に代入することで、それぞれの
音節HMMにおけるそれぞれの状態ごとの記述長を求めることができる。
ここで、βの値はモデルの次元数であって、前述同様、分布数×特徴ベクトルの次元数
で計算することができ、この実験例では、特徴ベクトル次元数を25(ケプストラムが1
2次元、デルタケプストラムが12次元、デルタパワーが1次元)であるとすると、分布
数M(1)=1の場合は、β=25となり、分布数M(2)=2の場合は、β=50とな
り、また、分布数M(3)=4の場合は、β=100となる。また、重み係数αはここで
は1.0としている。
これにより、たとえば、分布数M(n−1)=分布数M(3)=分布数4の音節HMM
を用いた場合の音節/a/における状態S0の記述長(これをL(a,0)で表す)は、図
27(a)に示すデータを用いて、
L(a,0)=2805933.42+1.0×(100/2)×log(46732)=2807030.15 (9)
と求められる。同様に、音節/i/における状態S0の記述長(これをL(i,0)で表す
)は、
L(i,0)=7308518.17+1.0×(100/2)×log(125274)=7309715.47 (10)
と求められる。
このようにして、分布数M(n−1)=分布数M(3)=分布数4の音節HMMを用い
た場合のそれぞれの音節に対するそれぞれの状態ごとの記述長と、分布数M(n)=分布
数M(4)=分布数8の音節HMMを用いた場合のそれぞれの音節に対するそれぞれの状
態ごとの記述長を計算した結果を図28に示す。
この図28において、同図(a)は分布数M(n−1)=分布数M(3)=分布数4の
音節HMMセットを用いた場合の記述長計算結果の一例であり、同図(b)は分布数M(
n)=分布数M(4)=分布数8の音節HMMセットを用いた場合の記述長計算結果の一
例である。
なお、この図28(a)におけるそれぞれの状態S0,S1,・・・ごとのMDL(M
(n−1))は、(9)式や(10)式などで求められるそれぞれの音節/a/,/i/,・
・・に対して求められたそれぞれの状態ごとの記述長であり、図28(b)におけるMD
L(M(n))も同様にそれぞれの音節/a/,/i/,・・・に対して求められたそれぞれ
の状態ごとの記述長である。
この図28(a),(b)に示す記述長MDL(M(n−1)),MDL(M(n))
に対して、図2のステップS28における記述長の比較判定処理、すなわち、MDL(M
(n−1))<MDL(M(n))を行うと、この場合、状態S0においては、音節/a/
,/i/,/u/,/e/はそれぞれが、分布数M(n)=M(4)=分布数8の方が記述長の
値は小であり、音節/o/のみが分布数M(n−1)=M(3)、すなわち、分布数4の方
が記述長の値は小である。
すなわち、音節/a/,/i/,/u/,/e/に対応するそれぞれの音節HMMにおける状態
S0は、分布数M(n)=M(4)=分布数8がその時点では仮の最適分布数であると判
定される。一方、音節/o/に対応する音節HMMにおける状態S0は、分布数M(n−1
)=分布数M(3)=分布数4が最適分布数であると判定される。
これによって、音節/o/に対応する音節HMMにおける状態S0は、分布数M(n−1
)=分布数M(3)=分布数4が最適分布数であるとして、その分布数で保持され、その
状態S0については以降の分布数増加処理は行わない。一方、音節/a/,/i/,/u/,/
e/に対応するそれぞれの音節HMMにおける状態S0は、分布数をインデクス番号に対
応させて増加させ、MDL(M(n−1))<MDL(M(n))となるまで繰り返す。
このような処理をすべての状態に対しても行う。そして、すべての状態の分布数が最適
分布数であるか否かを判定(図2におけるステップS10)、すなわち、すべての状態に
おいて、MDL(M(n−1))<MDL(M(n))となったか否かを判定し、すべて
の状態の分布数が最適分布数であると判定されれば、その音節HMMはすべての状態が最
適分布数を有する(分布数の最適化された)音節HMMとなる。
このような処理によって生成されたそれぞれの音節HMMは、個々の音節HMMにおい
てそれぞれの状態ごとに分布数が最適化されているため、高い認識性能を確保することが
でき、しかも、すべての状態で同じ分布数とした場合に比べ、パラメータ数を大幅に削減
することができ、演算量の削減、使用メモリ量の削減が図れ、処理速度の高速化が図れ、
さらに、低価格、低消費電力化も可能となる。
また、本発明は、それぞれの音節HMMにおいて、それぞれの状態ごとに分布数を逐次
的に増加させて行き、現時点の分布数における記述長MDL(M(n))と1つ前の分布
数における記述長MDL(M(n−1))を求めて、両者を比較し、MDL(M(n−1
))<MDL(M(n))となったら、その時の分布数で保持して、その状態については
それ以降、分布数を逐次的に増加させる処理を行わないので、効率よく、それぞれの状態
を最適な分布数に設定することができる。
また、この実施形態3では、分布数M(n−1)の音節HMMセットの総フレーム数F
(n−1)と分布数M(n)の音節HMMセットの総フレーム数F(n)の平均を計算し
それを平均フレーム数F(a)とし、この平均フレーム数F(a)と、総フレーム数F(
n−1)と、総尤度P(n−1)とを用いて、正規化尤度P’(n−1)を求めるととも
に、平均フレーム数F(a)と、総フレーム数F(n)と、総尤度P(n)を用いて、正
規化尤度P’(n)を求める。
そして、これら正規化尤度P’(n−1)と平均フレーム数F(a)を用いて(2)式
により記述長MDL(M(n−1))を求めるとともに、正規化尤度P’(n)と平均フ
レーム数F(a)を用いて(2)式により記述長MDL(M(n))を求めるようにして
いるので、分布数の違いをより適切に反映した記述長を求めることができる。これによっ
て、最適な分布数をより高精度に決定することができる。
図29は以上のようにして作成された音響モデル(HMM)を用いた音声認識装置の構
成を示す図であり、音声入力用のマイクロホン21、このマイクロホン21から入力され
た音声を増幅するとともにディジタル信号に変換する入力信号処理部22、入力信号処理
部からのディジタル変換された音声信号から特徴データ(特徴ベクトル)を抽出する特徴
分析部23、この特徴分析部23から出力される特徴データに対し、HMM24や言語モ
デル25を用いて音声認識する音声認識処理部26から構成され、このHMM24として
、これまで説明した音響モデル作成方法によって作成されたHMM(実施形態1、実施形
態2、実施形態3のいずれかによって最適化された分布数をそれぞれの状態ごとに有する
音節HMMセット)を用いる。
このように、この音声認識装置はそれぞれの音節HMM(124音節ごとの音節HMM
)において、その音節HMMのそれぞれの状態ごとに最適化された分布数を有した音節モ
デルとなっているので、高い認識性能を維持した上で、それぞれの音節HMMにおけるパ
ラメータ数を大きく削減することができる。これによって、演算量の削減、使用メモリ量
の削減が図れ、処理速度の高速化が図れ、さらに、低価格、低消費電力化も可能となるの
で、ハードウエア資源に大きな制約のある小型・安価なシステムにも搭載する音声認識装
置として極めて有用なものとなる。
ちなみに、実施形態3によって最適化された分布数を有する音節HMMセットを用いた
音声認識装置を用いた認識実験として、124音節HMMにおける文の認識実験を行った
ところ、分布数を同一とした場合(分布数の最適化を行わなかった場合)の認識率が94
.55%であったものを、本発明によって分布数の最適化を行った場合の認識率は94.
80%となり、認識率の向上を確認できた。
また、認識精度という面で比較すると、分布数を同一とした場合(分布数の最適化を行
わなかった場合)の認識精度が93.41%であったものを、本発明(実施形態3)によ
って分布数の最適化を行った場合の認識精度は93.66%となり、認識率、認識精度と
もに向上することが確認できた。
また、124音節のそれぞれの音節HMMにおける総分布数は、分布数の最適化を行わ
なかった場合は、38366個であったが、本発明(実施形態3)によって分布数の最適
化を行った場合は16070個であり、分布数の最適化を行わなかった場合に比べて半分
以下に削減することができた。
ここで、認識率と認識精度について簡単に説明する。認識率は正解率、認識精度は正解
精度とも言われ、ここでは、単語に対する正解率(単語正解率)と正解精度(単語正解精
度)について説明する。一般に、単語正解率は、「(全単語数N−脱落誤り数D−置き換
え誤り数S)/全単語数N」で表される。また、単語正解精度は、「(全単語数N−脱落
誤り数D−置き換え誤り数S−挿入誤り数I)/全単語数N」で表される。
ここで、脱落誤りというのは、たとえば、「りんご/2/個/ください」という発話例
に対する認識結果が、「りんご/を/ください」であったとすると、この認識結果は、「
2」が脱落しているので脱落誤りを有しており、「個」が「を」に置き換えられているこ
とから置き換え誤りも有していることがわかる。
また、同じ発話例に対する認識結果が、「みかん/5/個/にして/ください」であっ
た場合は、この認識結果は、「りんご」が「みかん」に置き換えられ、「2」が「5」に
置き換えられたことから、これら「みかん」と「2」がそれぞれ置き換え誤りであり、ま
た、「にして」が挿入されていることから、この「にして」が挿入誤りである。
このようにして、脱落誤りの数、置き換え誤りの数、挿入誤りの数をカウントして、そ
れを上述した式に代入することによって、単語正解率や単語正解精度を求めることができ
る。
〔実施形態4〕
この実施形態4では、同一子音や同一母音を持つ音節HMMにおいて、これらの音節HM
Mを構成する複数の状態(自己ループを有する状態)のうち、たとえば、初期状態または
最終状態を共有した音節HMM(これをここでは便宜的に状態共有音節HMMと呼ぶこと
にする)を構築し、その状態共有音節HMMに対して、前述の実施形態1から実施形態3
で説明した技術、すなわち、それぞれの音節HMMのそれぞれの状態の分布数を最適化す
る技術を適用する。以下、図30を参照しながら説明する。
ここでは、同一子音や同一母音を持つ音節HMMとして、たとえば、音節/ki/の音節
HMM、音節/ka/の音節HMM、音節/sa/の音節HMM、音節/a/の音節HMMにつ
いて考える。すなわち、音節/ki/と音節/ka/はともに子音/k/を持ち、音節/ka/、
音節/sa/、音節/a/はともに母音/a/を持っている。
そこで、同一子音を持つ音節HMMにおいては、それぞれの音節HMMにおいて、前段
に存在する状態(ここでは、第1の状態とする)を共有し、同一母音を持つ音節HMMに
おいては、それぞれの音節HMMにおいて、後段に存在する状態(ここでは、自己ループ
を有する状態のうち最終状態とする)を共有する。
図30は、音節/ki/の音節HMMの第1状態S0と音節/ka/の音節HMMの第1状
態S0とを共有し、音節/ka/の音節HMMの最終状態S4と音節/sa/の音節HMMの
自己ループを有する最終状態S4と音節/a/の音節HMMの自己ループを有する最終状態
S2をそれぞれ共有することを表す図であり、それぞれ共有する状態を太い実線で示す楕
円枠Cで囲っている。
このように、同一子音や同一母音を持つ音節HMMにおいて、状態共有がなされ、その
状態共有された状態は、そのパラメータも同一となり、音節HMM学習(最尤推定)を行
う際に同じパラメータとして扱われる。
たとえば、図31に示すように、「かき」という音声データに対し、自己ループを有す
る状態がS0,S1,S2,S3,S4の5つの状態でなる音節/ka/の音節HMMと、
同じく自己ループを有する状態がS0,S1,S2,S3,S4の5つの状態でなる音節
/ki/の音節HMMとが連結された音節HMMが構築されたとき、音節/ka/の音節HM
Mの第1の状態S0と音節/ki/の音節HMMの第1の状態S0が共有されることによっ
て、これら音節/ka/の音節HMMの状態S0と音節/ki/の音節HMMの状態S0はそ
れぞれのパラメータが同一として扱われて同時に学習される。
このような状態共有がなされることによって、パラメータ数が減少し、それによって、
使用メモリ量の削減、演算量の削減が図れ、処理能力の低いCPUでの動作が可能となり
、低消費電力化も図れるので、低価格が要求されるシステムへの適用が可能となる。また
、学習用音声データの少ない音節では、パラメータ数の削減によって、過学習による認識
性能劣化を防ぐ効果も期待できる。
このようにして状態共有がなされることによって、ここでの例で取り上げた音節/ki/
の音節HMMと音節/ka/の音節HMMにおいては、それぞれの第1状態S0を共有した
音節HMMが構築される。また、音節/ka/の音節HMMと音節/sa/の音節HMMと音
節/a/の音節HMMにおいては、最終状態(図30の例では、音節/ka/の音節HMMの
状態S4と音節/sa/の音節HMMの状態S4、音節/a/の音節HMMの状態S2)を共
有した音節HMMが構築される。
そして、このように状態共有したそれぞれの音節HMMについて、前述の実施形態1か
ら実施形態3で説明した状態ごとに分布数の最適化を行う。
このように、この実施形態4では、同一子音や同一母音を持つ音節HMMにおいて、こ
れらの音節HMMを構成する複数の状態のうち、たとえば、第1状態または最終状態を共
有した状態共有音節HMMを構築し、その状態共有音節HMMに対して、前述の実施形態
1から実施形態3で説明した技術を適用することによって、パラメータのより一層の削減
が図れ、それによって、演算量の削減、使用メモリ量の削減、処理速度の高速化がより一
層図れ、さらに、低価格、低消費電力化の効果もより大きなものとなる。さらに、それぞ
れの状態ごとに最適化された分布数を持ち、かつ、それぞれの状態ごとに最適なパラメー
タが得られた音節HMMとすることができる。
したがって、このように状態共有され、かつ、その状態共有されたそれぞれの音節HM
Mに対して、前述の第1の実施の形態で説明したように、それぞれの状態ごとに最適な分
布数を持つ音節HMMを作成し、それを図29に示すような音声認識装置に適用すること
で、高い認識性能を維持した上で、それぞれの音節HMMにおけるパラメータ数をより一
層削減することができる。
これによって、演算量や使用メモリ量のより一層の削減が図れ、処理速度の高速化が図
れ、さらに、低価格、低消費電力化も可能となるので、低コストが要求されハードウエア
資源に大きな制約のある小型・安価なシステムにも搭載する音声認識装置として極めて有
用なものとなる。
なお、上述の状態共有の例では、同一子音や同一母音を持つ音節HMMにおいて、これ
らの音節HMMを構成する複数の状態のうち、初期状態と最終状態をそれぞれ共有する例
について説明したが、それぞれ複数ずつの状態を共有するようにしてもよい。すなわち、
同一子音を有する音節HMM同士においては、それら音節HMMにおける初期状態または
この初期状態を含む少なくとも2つの状態(たとえば、初期状態と第2状態)を共有し、
同一母音を有する音節HMM同士においてはそれら音節HMMにおける自己ループを有す
る状態の最終状態またはこの最終状態を含む少なくとも2つの状態(たとえば、最終状態
とそれより1つ手前の状態)を共有するそれによって、パラメータ数をより一層削減する
ことができる。
図32は前述した図30において、音節/ki/の音節HMMの初期状態である第1状態
S0および第2状態S1と音節/ka/の音節HMMの初期状態である第1状態S0および
第2の状態S1とをそれぞれ共有し、音節/ka/の音節HMMの最終状態S4およびそれ
より1つ前の第4状態S3と音節/sa/の音節HMMの最終状態S4およびそれよりも1
つ前の状態S3と音節/a/の音節HMMの最終状態S2およびそれよりも1つ前の状態S
1をそれぞれ共有することを示した図であり、この図32においてもそれぞれ共有する状
態を太い実線で示す楕円枠Cで囲っている。
なお、この実施形態4では、音節HMMを連結する際、同一子音や同一母音については
状態を共有することについて説明したが、たとえば、音素HMMを連結して音節HMMを
構築するような場合、同じような考え方で、同一母音についてはその状態の分布を共有す
ることも可能である。
たとえば、図33に示すように、音素/k/の音素HMMと音素/s/の音素HMMと音素
/a/の音素HMMがあって、音素/k/の音素HMMと音素/a/の音素HMMを連結して音
節/ka/の音節HMMを構築し、また、音素/s/の音素HMMと音素/a/の音素HMMを
連結して音節/sa/の音節HMMを構築する際、新たに構築された音節/ka/の音節HM
Mと音節/sa/の音節HMMの母音/a/は同じであるので、その音節/ka/の音節HMM
と音節/sa/の音節HMMにおける音素/a/に対応する部分は、音素/a/の音素HMMの
それぞれの状態における分布を共有する。
そして、このように同一母音の分布を共有した音節/ka/の音節HMMと音節/sa/の
音節HMMについて実施形態1から実施形態3のいずれかで説明した状態ごとの分布数の
最適化を行うが、この最適化の結果、分布を共有した音節HMM(図33の例では、音節
/ka/の音節HMMと音節/sa/の音節HMM)においては、その分布共有部分(この図
33の例では、音素/a/の音素HMMにおける自己ループを有する状態)の分布数は音節
/ka/の音節HMMと音節/sa/の音節HMMで同じとする。
なお、本発明は上述の実施の形態に限られるものではなく、本発明の要旨を逸脱しない
範囲で種々変形実施可能となるものである。たとえば、前述の実施形態1から実施形態3
において、記述長の比較、すなわち、MDL(M(n−1))とMDL(M(n))の比
較をMDL(M(n−1))<MDL(M(n))か否かを判定することによって行った
が、ある値(これをεとする)を設定し、MDL(M(n))−MDL(M(n−1))
<εを判定するようにしてもよい。このεを任意の値に設定することによって判定のため
の基準値を制御することができる。
なお、本発明は以上説明した本発明を実現するための音響モデル作成手順が記述された
音響モデル作成プログラムを作成し、それをフロッピィディスク、光ディスク、ハードデ
ィスクなどの記録媒体に記録させておくこともできる。したがって、本発明は、その音響
モデル作成プログラムの記録された記録媒体をも含むものである。また、ネットワークか
らその音響モデル作成プログラムを得るようにしてもよい。
本発明の実施形態で用いられる分布数の増加規則を説明する図である。 本発明の実施形態1における音響モデル作成手順を説明するフローチャートである。 本発明の実施形態1における音響モデル作成装置の構成を示す図である。 分布数M(1)=分布数1の音節HMMセットに属するそれぞれの音節HMMを模式的に示したものである。 図2のステップS3の処理(分布数増加処理)を説明するフローチャートである。 図2のステップS4の処理(アライメントデータ作成処理)を説明するフローチャートである。 アライメントデータを作成するために、それぞれの音節HMMとある学習用音声データとの対応付けを行う処理の具体例を説明する図である。 図2のステップS5の処理(記述長計算処理)を説明するフローチャートである。 本発明で用いる(2)式における重み係数αについて説明する図である。 実施形態1および実施形態2において、分布数M(2)=分布数2の音節HMMを用いてアライメントデータ作成処理を行った場合に得られるアライメントデータA(2)の一例を示す図である。 音節ラベルデータの一例を示す図である。 実施形態1および実施形態2において、アライメントデータA(2)を利用した分布数M(2)=分布数2の音節HMMセットに属する音節HMMのある学習用音声データに対するそれぞれの状態ごとの尤度計算結果を示す図である。 実施形態1および2において、アライメントデータA(2)を利用した分布数M(2)=分布数2を有する音節HMMセットに属するそれぞれの音節HMMの総フレーム数と総尤度の集計結果を示す図である。 実施形態1および実施形態2において、アライメントデータA(2)を利用した分布数M(2)=分布数2の場合の分布数M(2)=分布数2を有する音節HMMセットに属するそれぞれの音節HMMのそれぞれの音節/a/,/i/,/u/、・・・に対するそれぞれの状態S0,S1,S2,・・・ごとの記述長を示す図である。 実施形態1および2において、アライメントデータA(2)を利用した場合の分布数M(1)=1の音節HMMセットに対する記述長の計算結果と分布数M(2)=分布数2の音節HMMセットに対する記述長の計算結果を示す図である。 本発明の実施形態2における音響モデル作成手順を説明するフローチャートである。 本発明の実施形態2における音響モデル作成装置の構成を示す図である。 本発明の実施形態3における音響モデル作成手順を説明するフローチャートである。 本発明の実施形態3における音響モデル作成装置の構成を示す図である。 図18のステップS44の処理(アライメントデータ作成処理)を説明するフローチャートである。 実施形態3において、分布数M(n−1)=分布数M(3)=分布数4と分布数M(n)=分布数M(4)=分布数8のそれぞれの音節HMMを用いて場合のアライメントデータA(3),A(4)を示す図である。 図18のステップS45の処理(平均フレーム数計算処理)を説明するフローチャートである。 実施形態3において、総フレーム数から平均フレーム数を算出する具体例を示す図である。 図18のステップS46,S47の処理(正規化尤度算出処理と記述長計算処理)を説明するフローチャートである。 実施形態3において、分布数M(n−1)=分布数M(3)=分布数4と分布数M(n)=分布数M(4)=分布数8のそれぞれの音節HMMによって得られた総尤度の集計結果の具体例を示す図である。 実施形態3において、分布数M(n−1)の音節HMMセットを用いた場合と分布数M(n)の音節HMMセットを用いた場合のそれぞれの音節HMMのそれぞれの状態について求められた総フレーム数、平均フレーム数、総尤度をまとめたデータを示す図である。 図26のデータに正規化された総尤度(正規化尤度)を付加した図である。 図27のデータのうち平均フレーム数と正規化尤度を用いて記述長を求めた結果を示す図である。 本発明の音声認識装置の概略的な構成を説明する図である。 本発明の実施形態4の状態共有について説明する図であり、いくつかの音節HMMにおいて初期状態または最終状態(自己ループを有する状態の中での最終状態)を共有する場合を説明する図である。 初期状態を状態共有した2つの音節HMMを連結したものをある音声データに対応つけて示す図である。 図30に示す状態共有において、初期状態を含む複数の状態または最終状態を含む複数の状態を共有する例を説明する図である。 分布共有において子音の音素HMMと母音の音素HMMを連結して音節HMMを構築する際、母音の音素HMMの状態の分布数を共有する場合を説明する図である。
符号の説明
1 学習用音声データ、2 HMM学習部、3 音節ラベルデータ、5 分布数設定部
、6 HMM再学習部、7 アライメントデータ作成部、A(n−1),A(n) アラ
イメントデータ、8 記述長計算部、9 最適分布数決定部、11 平均フレーム数計算
部、21 マイクロホン、22 入力信号処理部、23 特徴分析部、24 HMM、2
5 言語モデル、26 音声認識処理部、S0,S1,S2,・・・ 状態

Claims (5)

  1. HMM(隠れマルコフモデル)を構成するそれぞれの状態のガウス分布数をそれぞれの状態ごとに最適化して、その最適化されたガウス分布数を有するHMMを生成する音響モデル作成方法であって、
    複数のHMMのそれぞれの状態ごとにガウス分布数をある増加規則に基づいて逐次的に増加させて、あるガウス分布数に設定する分布数設定ステップと、
    該分布数設定ステップによって、あるガウス分布数に設定されたそれぞれのHMMのそれぞれの状態ごとに学習用音声データとの対応付けを行って対応付けデータを作成する対応付けデータ作成ステップと、
    該対応付けデータ作成ステップによって作成された対応付けデータと、現時点のガウス分布数を有するそれぞれのHMMのそれぞれの状態について記述長最小基準を用いて記述長を求め、それを現時点記述長として出力するとともに、前記現時点の直前のガウス分布数を有するそれぞれのHMMのそれぞれの状態について記述長最小基準を用いて記述長を求め、それを直前記述長として出力する記述長算出ステップと、
    該記述長算出ステップによって算出された前記現時点記述長および前記直前記述長の大きさの比較を行い、その比較の結果に基づいて、それぞれのHMMのそれぞれの状態ごとに最適なガウス分布数を設定する最適分布数決定ステップを有し、
    前記記述長最小基準は、モデル集合{1,・・・,i,・・・,I}とデータχ={χ,・・・,χ}(ただし、Nはデータ長)が与えられたときのモデルiを用いた記述長li(χ)が、一般的な式として、
    Figure 0004442211

    で表され、この記述長を求める一般的な式において、前記モデル集合{1,・・・,i,・・・,I}は、前記HMMのそれぞれの状態の分布数がある値から最大分布数までの複数種類に設定されたHMMの集合であるとして考え、ここで、前記分布数の種類の数がI種類(IはI≧2の整数)であるとき、前記1,・・・,i,・・・,Iは、1番目の種類からI番目の種類までのそれぞれの種類を特定するための符号であって、前記(1)式を、前記1,・・・,i,・・・,Iのうちのi番目の分布数の種類を有するHMMの記述長を求める式として、
    前記(1)式を変形した下記の式、

    Figure 0004442211

    を用いることを特徴とする音響モデル作成方法。
  2. 前記(2)式のαは、最適な分布数を得るための重み係数であることを特徴とする請求項記載の音響モデル作成方法。
  3. 前記最適分布数決定ステップは、前記現時点記述長と前記直前記述長との大きさを比較した結果、前記直前記述長が前記現時点記述長よりも小さい場合は、前記直前のガウス分布数をその状態における最適分布数とし、前記現時点記述長が前記直前記述長よりも小さい場合は、前記現時点のガウス分布数をその状態におけるその時点の仮の最適分布数とし、
    前記分布数設定ステップは、最適分布数であると判定された状態についはそのガウス分布数を該最適分布数で保持し、仮の最適分布数であると判定された状態について、そのガウス分布数を前記ある増加規則に従って増加させることを特徴とする請求項記載の音響モデル作成方法。
  4. 前記記述長算出ステップが行う記述長算出の前段階の処理として、
    前記現時点のガウス分布数を有するそれぞれのHMMのそれぞれの状態の総フレーム数と前記直前のガウス分布数を有するそれぞれのHMMのそれぞれの状態の総フレーム数との平均のフレーム数を求める平均フレーム数算出ステップと、
    現時点のガウス分布数を有するそれぞれのHMMのそれぞれの状態ごとの総尤度の正規化を行って正規化された尤度を求めるとともに、前記直前のガウス分布数を有するそれぞれのHMMのそれぞれの状態ごとの総尤度の正規化を行って正規化された尤度を求める正規化尤度算出ステップと、
    を有することを特徴とする請求項に記載の音響モデル作成方法。
  5. 前記複数のHMMは、それぞれの音節に対応した音節HMMであり、
    前記音節HMMにおいて、同一子音や同一母音を有する複数の音節HMMに対し、これらの音節HMMを構成する状態のうち、同一子音を有する音節HMM同士においては、それら音節HMMにおける初期状態またはこの初期状態を含む複数の状態を共有し、同一母音を有する音節HMM同士においては、それら音節HMMにおける自己ループを有する状態の最終状態またはこの最終状態を含む複数の状態を共有することを特徴とする請求項1からのいずれかに記載の音響モデル作成方法。
JP2003415440A 2003-12-12 2003-12-12 音響モデル作成方法 Expired - Fee Related JP4442211B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2003415440A JP4442211B2 (ja) 2003-12-12 2003-12-12 音響モデル作成方法
US10/998,065 US20050131694A1 (en) 2003-12-12 2004-11-29 Acoustic model creating method, acoustic model creating apparatus, acoustic model creating program, and speech recognition apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003415440A JP4442211B2 (ja) 2003-12-12 2003-12-12 音響モデル作成方法

Publications (2)

Publication Number Publication Date
JP2005173392A JP2005173392A (ja) 2005-06-30
JP4442211B2 true JP4442211B2 (ja) 2010-03-31

Family

ID=34650583

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003415440A Expired - Fee Related JP4442211B2 (ja) 2003-12-12 2003-12-12 音響モデル作成方法

Country Status (2)

Country Link
US (1) US20050131694A1 (ja)
JP (1) JP4442211B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7480617B2 (en) * 2004-09-21 2009-01-20 International Business Machines Corporation Method for likelihood computation in multi-stream HMM based speech recognition
US8924212B1 (en) * 2005-08-26 2014-12-30 At&T Intellectual Property Ii, L.P. System and method for robust access and entry to large structured data using voice form-filling
US7680664B2 (en) * 2006-08-16 2010-03-16 Microsoft Corporation Parsimonious modeling by non-uniform kernel allocation
US9495955B1 (en) * 2013-01-02 2016-11-15 Amazon Technologies, Inc. Acoustic model training
US9183830B2 (en) * 2013-11-01 2015-11-10 Google Inc. Method and system for non-parametric voice conversion
US9177549B2 (en) * 2013-11-01 2015-11-03 Google Inc. Method and system for cross-lingual voice conversion
DE102013224698A1 (de) * 2013-12-03 2015-06-03 Robert Bosch Gmbh Verfahren und Vorrichtung zum Ermitteln eines datenbasierten Funktionsmodells
US9542927B2 (en) 2014-11-13 2017-01-10 Google Inc. Method and system for building text-to-speech voice from diverse recordings

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4336865B2 (ja) * 2001-03-13 2009-09-30 日本電気株式会社 音声認識装置

Also Published As

Publication number Publication date
JP2005173392A (ja) 2005-06-30
US20050131694A1 (en) 2005-06-16

Similar Documents

Publication Publication Date Title
Odell The use of context in large vocabulary speech recognition
Zweig et al. Speech recognition with dynamic Bayesian networks
US9466292B1 (en) Online incremental adaptation of deep neural networks using auxiliary Gaussian mixture models in speech recognition
JP2020505650A (ja) 音声認識システム及び音声認識の方法
JPH0772840B2 (ja) 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法
JPS62231995A (ja) 音声認識方法
JP2007047818A (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
WO1992014237A1 (en) Method for recognizing speech using linguistically-motivated hidden markov models
JPWO2009078256A1 (ja) 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
WO2018066436A1 (ja) 音響モデルの学習装置及びそのためのコンピュータプログラム
WO1999021168A1 (en) Parameter sharing speech recognition system
US11244668B2 (en) Device and method for generating speech animation
Konig et al. GDNN: a gender-dependent neural network for continuous speech recognition
JP4069715B2 (ja) 音響モデル作成方法および音声認識装置
Pakoci et al. Improvements in Serbian speech recognition using sequence-trained deep neural networks
Zweig Bayesian network structures and inference techniques for automatic speech recognition
JP4442211B2 (ja) 音響モデル作成方法
CN117043857A (zh) 用于英语发音评估的方法、设备和计算机程序产品
JP4048741B2 (ja) Hmmの出力確率演算方法および音声認識装置
Rabiner et al. Hidden Markov models for speech recognition—strengths and limitations
Huo et al. Online adaptive learning of continuous-density hidden Markov models based on multiple-stream prior evolution and posterior pooling
JP2005156593A (ja) 音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムおよび音声認識装置
US20220319501A1 (en) Stochastic future context for speech processing
JP3589044B2 (ja) 話者適応化装置
Sarma Speech recognition using deep neural network-recent trends

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060427

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20070403

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090601

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090616

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090713

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091222

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100104

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130122

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130122

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140122

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees