JP2005156593A - 音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムおよび音声認識装置 - Google Patents

音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムおよび音声認識装置 Download PDF

Info

Publication number
JP2005156593A
JP2005156593A JP2003390681A JP2003390681A JP2005156593A JP 2005156593 A JP2005156593 A JP 2005156593A JP 2003390681 A JP2003390681 A JP 2003390681A JP 2003390681 A JP2003390681 A JP 2003390681A JP 2005156593 A JP2005156593 A JP 2005156593A
Authority
JP
Japan
Prior art keywords
hmm
states
syllable
description length
acoustic model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2003390681A
Other languages
English (en)
Inventor
Masanobu Nishitani
正信 西谷
Yasunaga Miyazawa
康永 宮澤
Hiroshi Matsumoto
弘 松本
Kazutada Yamamoto
一公 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP2003390681A priority Critical patent/JP2005156593A/ja
Priority to US10/990,626 priority patent/US20050154589A1/en
Publication of JP2005156593A publication Critical patent/JP2005156593A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/148Duration modelling in HMMs, e.g. semi HMM, segmental models or transition probabilities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/027Syllables being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 各HMMの状態数の最適化を行うことで、認識性能の向上を図る。
【解決手段】 音節HMMを構成する状態数がある値から最大状態数までの複数種類の状
態数に設定されたそれぞれの音節HMMに対して、それぞれの状態数に設定されたそれぞ
れの音節HMMごとに記述長最小基準を用いて記述長を求める記述長計算部6と、この記
述長計算手段6により求められた記述長が最小となる状態数を有するHMMを選択するH
MM選択部8と、この音節HMM選択部8で選択された音節HMMを学習用音声データを
用いて再学習するHMM再学習部9とを有する。
【選択図】 図1

Description

本発明は、音響モデルとして混合連続分布型HMM(隠れマルコフモデル)を作成する
音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムおよび音声認識装
置に関する。
音声認識においては、音響モデルとして音素HMMや音節HMMを用い、この音素HM
Mや音節HMMを連結して、単語、文節、文といった単位の音声言語を認識する方法が一
般的に行われている。特に最近、より高い認識性能を有する音響モデルとして、混合連続
分布型HMMが広く使われている。
これら音素や音節単位のHMMを作成する際は、HMMすべてについて、その状態数を
経験的にある一定数(たとえば、音素に関しては3つ、音節に関しては5つなど)に設定
してHMMを作成することが一般的となっている。
このように、状態数をある一定数に設定してHMMを作成すれば、音素や音節HMMの
構造は単純なものとなり、比較的容易にHMMを作成することができるが、その反面、
HMMによっては、その性能の最適化が的確になされておらず、認識率の低下を招く場合
がある。
このような問題を解決するために、HMMの構造を最適化することが従来よりなされて
いる。たとえば、特開平6−202687号公報に記載の技術(以下、特許文献1の技術
という)がその一例である。
この特許文献1の技術は、HMMの各状態について、時間方向あるいはコンテキスト方
向のどちらかにおいて尤度が最大となる方向に対し、その状態の分割を行うことを繰り返
し、それによって、HMMの構造の詳細化して最適化を図るようにしている。
また、HMMの構造を最適化する他の例として、記述長最小基準(MDL基準、MDL
:Minimum Description Length)を利用したものがある。そ
の一例として、たとえば、「“MDL基準を用いた逐次状態分割法による音響モデル自動
構造決定”實廣貴敏、松井知子、中村哲(ATR音声言語コミュニケーション研究所)、
信学技報、SP2002−127、2002年12月、37頁〜42頁」(以下、非特許
文献1の技術という)が知られている。
この非特許文献1の技術は、上述した特許文献1の技術における状態の分割において、
その分割方向を時間軸方向とするかコンテキスト方向とするかを、MDL基準を用いて決
めるものであり、HMMの各状態ごとにMDL基準を計算している。
なお、このMDL基準は、モデル集合{1,・・・,i,・・・,I}とデータχ
{χ,・・・,χ}が与えられたときのモデルiを用いた記述長li(χ)が、特
許請求の範囲の請求項2に記載した(1)式のように定義される。MDL基準は、この記
述長li(χ)が最小であるモデルが最適なモデルであるとしている。
特開平6−202687号公報 "MDL基準を用いた逐次状態分割法による音響モデル自動構造決定"實廣貴敏、松井知子、中村哲(ATR音声言語コミュニケーション研究所)、信学技報、SP2002−127、2002年12月、37〜42頁
上述した特許文献1の技術によれば、確かに、ある程度の最適化がなされたHMMを得
ることができ、それによって、認識率の向上も期待できる。しかしながら、HMMの構造
が従来のLeft−to−Right型HMMと比べて複雑なものとなる。
これによって、認識アルゴリズムも複雑となり、認識に要する時間も増大する。このこ
とは、計算量やメモリ量の増大につながり、特に低価格の要求される機器のようにハード
ウエアリソースに大きな制限のある機器への適用は難しいという問題がある。
このような問題は、特許文献1の技術でも同様のことが言える。また、この非特許文献
1の技術は、HMMの各状態ごとにMDL基準を求めるものであるので、HMMの最適化
を行うための計算量が多くなるという問題もある。
そこで、本発明は、HMMの構造を複雑化することなくHMMの最適化を可能とし、そ
れによって、少ない計算量やメモリ量で認識率の向上が図れる音響モデル作成方法、音響
モデル作成装置、音響モデル作成プログラムを提供するとともに、その音響モデルを用い
ることにより、演算能力やメモリ容量などハードウエア資源に大きな制約のある安価なシ
ステムに適用できる音声認識装置を提供することを目的としている。
(1)本発明の音響モデル作成方法は、HMMの状態数を最適化して、その最適化され
た状態数を有するHMMを学習用音声データを用いて再学習する音響モデル作成方法であ
って、HMMの状態数をある値から最大状態数までの複数種類の状態数に設定し、この複
数種類の状態数に設定されたそれぞれのHMMごとに記述長最小基準を用いて記述長を求
めるステップと、該記述長が最小となる状態数を有するHMMを選択するステップと、該
選択されたHMMを学習用音声データを用いて再学習するステップとを含むことを特徴と
している。
これによって、それぞれのHMMにおいて最適な状態数の設定が可能となり、認識性能
を改善することができる。特に、本発明のHMMは、Left−to−Right型の単
純な構造のHMMであるのが大きな特長であり、それによって、認識アルゴリズムも単純
化することができる。また、単純な構造のHMMであるので、低価格や低消費電力化にも
寄与でき、かつ、汎用の認識ソフトウエアを利用することも容易であることから、幅広い
認識装置への適用が可能となり、互換性に優れたものとすることができる。
(2)前記(1)に記載の音響モデル作成方法において、前記記述長最小基準は、モデ
ル集合{1,・・・,i,・・・,I}とデータχ={χ,・・・,χ}(ただし
、Nはデータ長)が与えられたときのモデルiを用いた記述長li(χ)が、一般的な
式として、前記(1)式で表され、この記述長を求める一般的な式において、前記モデル
集合{1,・・・,i,・・・,I}は、HMMにおける状態数がある値から最大状態数
までの複数種類に設定されたHMMの集合であるとして考え、ここで、前記状態の種類の
数がI種類(IはI≧2の整数)であるとき、前記1,・・・,i,・・・,Iは、1番
目の種類からI番目の種類までのそれぞれの種類を特定するための符号であって、前記(
1)式を、前記1,・・・,i,・・・,Iのうちのi番目の状態数の種類を有するHM
Mの記述長を求める式として用いるようにしている。
これによって、あるHMMの状態数をある値から最大状態数までの様々な状態数に設定
したとき、それぞれの状態数に設定されたHMMに対する記述長を容易に計算することが
できる。そして、その計算結果から、記述長最小となる状態数を有するHMMを選択する
ことで、そのHMMの最適な状態数を設定することができる。
(3)前記(2)の音響モデル作成方法において、前記記述長を求める式として、前記
(1)式を変形した前記(2)式を用いることが好ましい。
この(2)式は、記述長を求める一般的な式としての(1)式において、右辺の第2項
に重み係数αを乗じ、かつ、定数を表す右辺の第3項を省略したものである。このように
、定数を表す右辺の第3項を省略することによって、記述長を求める計算をより簡略化す
ることができる。
(4)前記(3)の音響モデル作成方法において、前記(2)式のαは、最適な状態数
を得るための重み係数としている。
この最適な状態数をえるための重み係数αを可変することによって、第2項の単調増加
の傾きを可変(αを大きくするほど傾きが大きくなる)することができ、記述長li(χ
)を可変させることができる。これによって、たとえば、αをより大きくなるように設
定すれば、状態数がより小さい場合に記述長li(χ)が最小になるように調整するこ
とができる。
(5)前記(3)または(4)の音響モデル作成方法において、前記(2)式における
βは、分布数×特徴ベクトルの次元数×状態数で表されるものである。
このように、前記(2)式におけるβを、分布数×特徴ベクトルの次元数×状態数とす
ることによって、それぞれのHMMの特性を的確に反映させた記述長を得ることができる
(6)前記(2)から(5)に記載の音響モデル作成方法において、前記データχ
、前記ある値から最大状態数までのうちのある任意の状態数を有するHMMと多数の学習
用音声データとをそれぞれの状態ごとに時系列的な対応付けを行って得られるそれぞれの
学習用音声データの集合としている。
このように、ある任意の状態数を有するそれぞれのHMMを用い、そのHMMとそのH
MMに対応する多数の学習用音声データとを時系列的な対応付けを行って得られた学習用
音声データを(1)式のデータχとして用いて記述長を計算することで精度よく記述長
を求めることができる。
(7)前記(1)から(6)のいずれかの音響モデル作成方法において、前記HMMは
、音節HMMであることが好ましい。
本発明の場合、音節HMMとすることによって演算量の削減などの効果が得られる。た
とえば、音節の数を124音節とした場合、音素の数(26から40個程度)に比べると
、数の面では音節の方が多いが、音素HMMの場合、トライフォンモデルを音響モデル単
位として用いることが多く、このトライフォンモデルは、ある音素の前後の音素環境を考
慮して1つの音素として構成されるので、あらゆる組み合わせを考慮すると、そのモデル
数は数千個となり、音響モデル数としては音節モデルの方がはるかに少なくなる。
ちなみに、音節HMMの場合、それぞれの音節HMMを構成する状態数は子音を含む音
節の場合が平均的には5個程度、母音だけで構成される音節の場合が平均的は3個程度で
あるのが一般的であるので、合計の状態数は約600程度であるが、トライフォンモデル
の場合は、状態数の合計は、モデル間で状態共有を行い、状態数を削減した場合であって
も数千個にものぼる。
このことから、HMMを音節HMMとすることによって、記述長を求める計算は勿論の
こと、全般的な演算量の削減を図ることができ、また、トライフォンモデルに遜色ない認
識精度が得られるといった効果が得られる。なお、本発明は音素HMMにも適用できるこ
とは勿論である。
(8)前記(7)記載の音響モデル作成方法において、前記音節HMMにおいて、同一子
音や同一母音を有する複数の音節HMMに対し、これらの音節HMMを構成する状態のう
ち、同一子音を有する音節HMM同士においては、それら音節HMMにおける初期状態ま
たはこの初期状態を含む複数の状態を共有し、同一母音を有する音節HMM同士において
は、それら音節HMMにおける自己ループを有する状態の最終状態またはこの最終状態を
含む複数の状態を共有することも可能である。
これによって、パラメータ数のより一層の削減が可能となり、それによって、演算量の
削減、使用メモリ量の削減、処理速度の高速化がより一層図れ、さらに、低価格、低消費
電力化の効果もより大きなものとなる。
(9)本発明の音響モデル作成装置は、HMMの状態数を最適化して、その最適化され
た状態数を有するHMMを学習用音声データを用いて再学習する音響モデル作成装置であ
って、HMMの状態数がある値から最大状態数までの複数種類の状態数に設定されたそれ
ぞれのHMMごとに記述長最小基準を用いて記述長を求める記述長計算手段と、該記述長
計算手段により求められた記述長が最小となる状態数を有するHMMを選択するHMM選
択手段と、このHMM選択手段で選択されたHMMを学習用音声データを用いて再学習す
るHMM再学習手段とを有することを特徴としている。
この音響モデル作成装置においても、前記(1)に記載の音響モデル作成方法と同様の
効果が得られる。
(10)本発明の音響モデル作成プログラムは、HMMの状態数を最適化して、その最
適化された状態数を有するHMMを学習用音声データを用いて再学習する音響モデル作成
プログラムであって、この音響モデル作成プログラムは、HMMの状態数がある値から最
大状態数までの複数種類の状態数に設定されたそれぞれのHMMごとに記述長最小基準を
用いて記述長を求める手順と、該記述長が最小となる状態数を有するHMMを選択する手
順と、該選択されたHMMを学習用音声データを用いて再学習する手順とを含むことを特
徴としている。
この音響モデル作成プログラムにおいても、前記(1)に記載の音響モデル作成方法と
同様の効果が得られる。
また、前記(9)に記載の音響モデル作成方法および前記(10)に記載の音響モデル
作成プログラムにおいても、前記記述長最小基準は、モデル集合{1,・・・,i,・・
・,I}とデータχ={χ,・・・,χ}(ただし、Nはデータ長)が与えられた
ときのモデルiを用いた記述長li(χ)が、一般的な式として、前記(1)式で表さ
れ、この記述長を求める一般的な式において、前記モデル集合{1,・・・,i,・・・
,I}は、HMMにおける状態数がある値から最大状態数までの複数種類に設定されたH
MMの集合であるとして考え、ここで、前記状態の種類の数がI種類(IはI≧2の整数
)であるとき、前記1,・・・,i,・・・,Iは、1番目の種類からI番目の種類まで
のそれぞれの種類を特定するための符号であって、前記(1)式を、前記1,・・・,i
,・・・,Iのうちのi番目の状態数の種類を有するHMMの記述長を求める式として用
いるようにしている。
また、前記記述長を求める式として、前記(1)式を変形した前記(2)式を用いるこ
とが好ましい。
なお、前記(2)式のαは、最適な状態数を得るための重み係数としている。また、前
記(2)式におけるβは、分布数×特徴ベクトルの次元数×状態数で表されるものである
また、前記データχは、前記ある値から最大状態数までのうちのある任意の状態数を
有するHMMと多数の学習用音声データとをそれぞれの状態ごとに時系列的な対応付けを
行って得られるそれぞれの学習用音声データの集合としている。
また、前記HMMは音節HMMであることが好ましい。また、前記音節HMMにおいて
、同一子音や同一母音を有する複数の音節HMMに対し、これらの音節HMMを構成する
状態のうち、同一子音を有する音節HMM同士においては、それら音節HMMにおける初
期状態またはこの初期状態を含む複数の状態を共有し、同一母音を有する音節HMM同士
においては、それら音節HMMにおける自己ループを有する状態の最終状態またはこの最
終状態を含む複数の状態を共有することも可能である。
(11)本発明の音声認識装置は、入力音声を特徴分析して得られた特徴データに対し
音響モデルとしてHMMを用いて前記入力音声を認識する音声認識装置であって、前記音
響モデルとしてのHMMとして、前記(1)から(8)のいずれかに記載の音響モデル作
成方法によって作成されたHMMを用いることを特徴としている。
このように、本発明の音声認識装置は、上述の本発明の音響モデル作成方法によって作
成された音響モデル(HMM)用いる。このHMMがたとえば音節HMMであるとすれば
、それぞれの音節HMMごとに最適な状態数を有しているので、すべての状態数が一定と
なっているHMMに比べ、それぞれの音節HMMにおけるパラメータ数を大きく削減する
ことができ、認識性能も向上する。また、この音節HMMは、Left−to−Righ
t型の単純な構造の音節HMMであるので、認識アルゴリズムも単純化することができ、
演算量の削減、使用メモリ量の削減が可能となり、処理速度の高速化、低価格化、低消費
電力化も可能となる。これによって、ハードウエア資源に大きな制約のある小型・安価な
システムに特に有用な音声認識装置とすることができる。
以下、本発明の実施の形態について説明する。なお、この実施形態で説明する内容は、
本発明の音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムおよび音
声認識装置の説明をすべて含むものである。また、本発明は音素HMMと音節HMMの両
方に適用可能であるが、以下に示す実施形態では音節HMMについて説明する。
〔実施形態1〕
まず、実施形態1として、それぞれの音節(ここでは124音節とする)に対応する音
節HMMの状態数を最適化する例について説明する。
この実施形態1の全体的な処理の流れの概略について図1から図8を参照しながら説明
する。
まず、124音節に対応する個々の音節HMMを構成するそれぞれの状態(自己ループ
を有する状態)の数(状態数)を、ある値から最大状態数まで設定した音節HMMセット
を作成する。なお、このとき、それぞれの状態における分布数は、任意の値とすることが
できるが、この実施形態1では、分布数を64とする。また、状態数の下限値(最小状態
数)は1で上限値(最大状態数)は任意の値であるが、この実施形態1では、状態数3、
状態数4、・・・、状態数9の7種類の状態数を設定する。
すなわち、分布数64で状態数を3としたすべての音節HMMからなる音節HMMセッ
ト、分布数64で状態数4としたすべての音節HMMからなる音節HMMセット31、分
布数64で状態数4としたすべての音節HMMからなる音節HMMセット32(図1では
図示せず)というように、この場合、それぞれの音節HMMについて、上述の7種類の状
態数3,4,・・・,9を有する7種類の音節HMMセット31,32,・・・,37を
作成する。なお、この実施形態では、状態数を7種類として説明するが、7種類に限られ
るものではなく、また、最小状態数も3に限られるものではなく、最大状態数も9に限ら
れるものではない。
そして、この7種類の音節HMMセットに属するすべての音節HMMに対して、HMM
学習部2がそれぞれの音節HMMのパラメータについて最尤推定法を用いてそれぞれ学習
し、状態数3から最大状態数(この場合は状態数9)までの学習済みの音節HMMを作成
する。すなわち、この実施の形態では、状態数は状態数3、状態数4、・・・、状態数9
の7種類としているので、それらに対応した7種類の学習済みの音節HMMセット31〜
37が作成される。これについて図2により説明する。
HMM学習部2では、学習用音声データ1と音節ラベルデータ11(この音節ラベルデ
ータはそれぞれの学習用音声データを構成する音節列が記述されている)を用いて最尤推
定法によってそれぞれの音節(音節/a/、音節/ka/、・・・など124音節)について状
態数を3,4,・・・,9の7種類とした個々の音節HMMセットの学習を行い、それぞ
れの状態数ごとの音節HMMセット31,32,・・・,37を作成する。
これによって、状態数3の音節HMMセット31には、音節/a/の音節HMM、音節/ka
/の音節HMMなど、124音節それぞれの音節について学習済みの音節HMMが存在し
、また、状態数4の音節HMMセット32には、同様に、音節/a/の音節HMM、音節/ka
/の音節HMMなど、124音節それぞれの音節について学習済みの音節HMMが存在す
るというように、状態数3、状態数4、・・・、状態数9のそれぞれの音節HMMセット
31,32,・・・,37には、124音節それぞれの音節について学習済みの音節HM
Mが存在する。
この図2において、自己ループを有する状態の数が3個(状態数3)の音節HMMセッ
ト31における音節/a/の音節HMMの各状態S0,S1,S2の下に描かれている楕円
枠A内のガウス分布はそれぞれの状態における分布数の例を示すもので、前述したように
、この実施形態では、すべての音節HMMにおけるそれぞれの状態の分布数はすべて64
としているので、各状態S0,S1,S2はともに同じ分布数を有している。
なお、この図2では、状態数3の音節HMMセット31における音節/a/の音節HMM
の各状態S0,S1,S2についてのみ分布数が図示され、他の音節HMMについては図
示を省略してあるが、どの音節HMMもそれぞれ64の分布数を有している。
このように、HMM学習部2の学習によって、状態数3の音節HMMセット31、状態
数4の音節HMMセット32、・・・、最大状態数の音節HMMセット(この場合、状態
数9の音節HMMセット37)の7種類の状態数に対応するそれぞれの音節HMMセット
31〜37が作成される。
図1に説明が戻って、HMM学習部2の学習によって学習された状態数3の音節HMM
セット31、状態数4の音節HMMセット32(図1では図示せず)、・・・、状態数9
の音節HMMセット37のうち、任意の音節HMMセット(できるだけ高精度のものが望
ましい)をアライメントデータ作成用音節HMMセットとして選択する。
そして、アライメントデータ作成部4によって、アライメントデータ作成用音節HMM
セットに属するすべての音節HMM(124音節に対応するそれぞれの音節HMM)と学
習用音声データ1と音節ラベルデータ11を用いてビタビ(Viterbi)アライメントをと
り、アライメントデータ作成用音節HMMセットのそれぞれの音節HMMと学習用音声デ
ータ1とのアライメントデータ5を作成する。これについて図3および図4を参照しなが
ら説明する。
なお、図3はこのアライメントデータ作成処理を説明するに必要な部分だけを図1から
取り出して示すものであり、また、図4はアライメントデータ5を作成するために、アラ
イメントデータ作成用音節HMMセットに属するそれぞれの音節HMMと学習用音声デー
タ1との対応付けを行う処理の具体例を説明するものである。
なお、アライメントデータ作成用音節HMMセットは、上述したように、できるだけ高
精度な音節HMMセットが望ましいが、この図3および図4では、説明の都合上、状態数
3の音節HMMセット31から状態数9の音節HMMセット37のうち、状態数3の音節
HMMセット31が選択された例が示されている。
アライメントデータ作成部4では、すべての学習用音声データ1と音節ラベルデータ1
1と状態数3の音節HMMセット31を用いて、図4の(a),(b),(c)に示すよ
うに、状態数3の音節HMMセット31のそれぞれの音節HMMとその音節に対応する学
習用音声データ1とのアライメントをとる。
たとえば、図4(b)に示すように、「秋(あき)の・・・」という学習用音声データ
例に対してアライメントをとると、その学習用音声データ「あ」、「き」、「の」、・・
・において、状態数3の音節/a/の音節HMMは、学習用音声データの区間t1に対応し
、音節/ki/の音節HMMは、学習用音声データにおける区間t2に対応するというよう
な対応付けを行って、その対応付けデータをアライメントデータ5とする。このとき、ア
ライメントデータ5の1つとして、それぞれの対応するデータ区間ごとにそのデータ区間
の開始フレーム番号と終了フレーム番号が取得される。
また、図4(c)に示すように、学習用音声データの一例として、「・・・試合(しあ
い)・・・」という学習用音声データにおいて、状態数3の音節/a/の音節HMMは、学
習用音声データにおける区間t11に対応するというような対応付けを行って、その対応
付けデータをアライメントデータ5とする。同様に、アライメントデータ5の1つとして
、それぞれの対応するデータ区間ごとにそのデータ区間の開始フレーム番号と終了フレー
ム番号が取得される。
次に、このアライメントデータ作成部4によって求められた状態数3の音節HMMセッ
トにおけるそれぞれの音節HMMの学習用音声データとのアライメントデータ5を用いて
、ある状態数から最大状態数までの音節HMMセット(この場合、状態数3、状態数4、
・・・、状態数9の7種類の状態数に対応するそれぞれの音節HMMセット31〜37)
について、すべての音節HMMの記述長を、図1に示す記述長計算部6によって求める。
これについて図5および図6を参照しながら説明する。
図5は記述長計算部6の説明に必要な部分を図1から取り出して示すもので、状態数3
から状態数9のそれぞれの音節HMMセット31〜37のパラメータと、学習用音声デー
タ1と、それぞれの音節HMMと学習用音声データ1とのアライメントデータ5とが記述
長計算部6に与えられる。
そして、この記述長計算部6によって、状態数3の音節HMMセットに属するそれぞれ
の音節HMMの記述長、状態数4の音節HMMセットに属するそれぞれの音節HMMの記
述長、・・・、状態数9の音節HMMセットに属するそれぞれの音節HMMの記述長がそ
れぞれ計算される。
すなわち、状態数3の音節HMMセット31のそれぞれの音節HMMにおける記述長、
状態数4の音節HMMセット32のそれぞれの音節HMMにおける記述長というように、
状態数3の音節HMMセット31のそれぞれの音節HMMにおける記述長から状態数9の
それぞれの音節HMMにおける記述長が得られる。そして、これら、状態数3の音節HM
Mセット31のそれぞれの音節HMMにおける記述長から状態数9のそれぞれの音節HM
Mにおける記述長は、状態数3の音節HMMセット31から状態数9の音節HMMセット
37のそれぞれの音節HMMセットごとに、記述長格納部71〜77に保持される。なお
、この記述長の計算の仕方については後に説明する。
図6は図5で求められた状態数3の音節HMMセット31に属するそれぞれの音節HM
Mにおける記述長(記述長格納部71に保持されているそれぞれの音節HMMの記述長)
から状態数9の音節HMMセット37のそれぞれの音節HMMにおける記述長(記述長格
納部77に保持されているそれぞれの音節HMMの記述長)において、たとえば、音節/a
/の音節HMMについてそれぞれ記述長が求められた様子を示すものである。
この図6からもわかるように、状態数3の音節/a/の音節HMMの記述長が求められ、
状態数4の音節/a/の音節HMMについて記述長(図示せず)が求められるというように
、状態数3から状態数9までの7種類の状態数に対応する音節/a/の音節HMMについて
、それぞれ記述長が求められる。なお、この図6では、7種類の分布数のうち状態数3と
状態数9の音節/a/の音節HMMについてのみが図示されている。
その他の音節についても同様に、状態数3から状態数9までの7種類の状態数に対応す
るそれぞれの音節HMMについて、それぞれ記述長が求められる。
次に、HMM選択部8が上述の記述長計算部6で計算された状態数3の音節HMMセッ
ト31に対して求められた記述長から状態数9の音節HMMセット37に対して求められ
た記述長を用い、すべての音節HMMのそれぞれの音節HMMごとに、それぞれの音節H
MMに対して求められた記述長が最小となる状態数を有する音節HMMを選択する。これ
を図7および図8を参照しながら説明する。
図7はHMM選択部8の説明に必要な部分を図1から取り出して示すもので、記述長計
算部6で計算された状態数3の音節HMMセット31の記述長(記述長格納部71に保持
されている各状態の記述長)から状態数9の音節HMMセット37の記述長(記述長格納
部77に保持されている各状態の記述長)について、それぞれの音節HMMごとに、どの
状態数を有する音節HMMの記述長が最小となるかを判断し、記述長が最小となる状態数
を有する音節HMMをHMM選択部8が選択する。
ここでは、音節/a/の音節HMMと音節/ka/の音節HMMについて、状態数3から状態
数9までの7種類の状態数に対応するこれら音節/a/の音節HMMと音節/ka/の音節HM
Mごとに、どの状態数を有する音節HMMの記述長が最小(記述長最小)となるかを判断
し、記述長最小となる状態数を有する音節HMMを選択する。この選択処理を図8によっ
て説明する。
まず、音節/a/の音節HMMについて、状態数3から状態数9の中で、どの状態数を有
する音節/a/の音節HMMが記述長最小であるかを判断した結果、状態数3の音節/a/の音
節HMMが記述長最小であると判断されたとする。これを破線のB1で示す。
このように、この音節/a/の音節HMMについて、状態数3から状態数9までのそれぞ
れの音節HMMごとに、どの状態数を有するHMMの記述長が最小となるかを判断すると
、この場合、状態数3の音節/a/の音節HMMが記述長最小であると判断されたことにな
る。
同様に、音節/ka/の音節HMMについて、状態数3から状態数9の中でどの状態数を有
するHMMが記述長最小かを判断した結果、状態数9を有するHMMが記述長最小である
と判断されたとする。これを破線のB2で示す。
このような処理をすべての音節HMMについて行い、それぞれの音節HMMについて、
状態数3から状態数9の中でどの状態数を有するHMMが記述長最小かを判断し、それぞ
れの音節HMMについて、記述長最小となる状態数を有する音節HMMを選択する。
以上のようにして選択された記述長最小となる状態数を有するすべての音節HMMは、
それぞれの音節HMMにおいて、最適な状態数を有する音節HMMであるといえる。
そして、HMM再学習部9は、状態数3の音節HMMセット31,・・・,状態数9の
音節HMMセット37の中から、HMM選択部8によって選択された最適な状態数を有す
る音節HMMをそれぞれ取得して、これら最適な状態数を有する音節HMMの全パラメー
タに対し、学習用音声データ1と音節ラベルデータ11を用いて最尤推定法によって再学
習する。これによって、最適化された状態数を持ち、かつ、最適なパラメータとなった音
節HMMセット(124音節に対応するそれぞれの音節HMMからなる音節HMMセット
)10が得られる。
次に、本発明で用いるMDL(記述長最小)基準について説明する。このMDL基準に
ついては、たとえば、「韓太舜著“岩波講座応用数学11、情報と符号化の数理”岩波書
店(1994),pp249−275」などに述べられている公知の技術であり、従来技
術の項でも述べたように、モデルの集合{1,・・・,i,・・・,I}とデータχ
{χ,・・・,χ}(ただし、Nはデータ長)が与えられたときのモデルiを用いた
記述長li(χ)は、前述した(1)式のように定義され、このMDL基準は、この記
述長li(χ)が最小であるモデルが最適なモデルであるとしている。
本発明においては、ここでいうモデル集合{1,・・・,i,・・・,I}は、あるH
MMにおいて状態数がある値から最大状態数までの複数種類に設定されたあるHMMの集
合であるとして考える。なお、状態数がある値から最大状態数までの複数種類に設定され
ているときの状態数の種類がI種類(IはI≧2の整数)であるとしたとき、上述の1,
・・・,i,・・・,Iは、1種類からI種類までそれぞれの種類を特定するための符号
であって、上述の(1)式を、1,・・・,i,・・・,Iのうちのi番目の種類の状態
数を有するHMMの記述長を求める式として用いるものである。
なお、この1,・・・,i,・・・,IのIは、異なる状態数を有するHMMセットの
総数、すなわち、状態数が何種類あるかを表すもので、この実施の形態では、状態数は、
3,4,・・・,9の7種類としているので、I=7となる。
このように、1,・・・,i,・・・,Iは、1種類からI種類までのいずれかの種類
を特定するための符号であるので、この実施の形態での例では、状態数3に対しては状態
数の種類を表す符号として、1,・・・,i,・・・,Iのうち1が与えられ、状態数の
種類が1番目であることを示す。また、状態数4に対しては状態数の種類を表す符号とし
て、1,・・・,i,・・・,Iのうち2が与えられ、状態数の種類が2番目であること
を示す。また、状態数5に対しては状態数の種類を表す符号として、1,・・・,i,・
・・,Iのうち3が与えられ、状態数の種類が3番目であることを示す。また、状態数9
に対しては状態数の種類を表す符号として、1,・・・,i,・・・,Iのうち7が与え
られ、状態数の種類が7番目であることを示す。このように、状態数3,4,・・・,9
に対して、1,2,3,・・・,7というような状態数の種類を特定するための符号が与
えられる。
ここで、音節/a/の音節HMMについて考えると、図8に示すように、状態数3から状
態数9までの7種類の状態数を有する音節HMMの集合が1つのモデル集合となる。
したがって、上述の(1)式のように定義された記述長li(χ)は、本発明におい
ては、ある状態数の種類が1,・・・,i,・・・,Iのうちのi番目の種類に設定した
ときの音節HMMの記述長li(χ)であるとして、前述の(2)式のように定義する
この(2)式は、前述の(1)式における右辺の最終項である第3項のlogIは定数で
あるのでそれを省略し、かつ、(1)式における右辺の第2項である(βi/2)logN
に重み係数αを乗じている点が(1)式と異なっている。なお、上述の(2)式において
は、(1)式における右辺の最終項である第3項のlogIを省略したが、これを省略せず
にそのまま残した式としてもよいことは勿論である。
また、βiは状態数の種類がi番目の状態数を有するHMMの次元(自由度)であって
、分布数×特徴ベクトルの次元数×状態数で表される。なお、この特徴ベクトルの次元数
は、ここでは、ケプストラム(CEP)次元数+デルタケプストラム(CEP)次元数+
デルタパワー(POW)次元数である。
また、αは最適な状態数を調整するための重み係数であり、このαを変えることによっ
て、記述長li(χ)を変化させることができる。すなわち、図9(a),(b)に示
すように、単純に考えれば、(2)式の右辺の第1項は、状態数の増加に伴ってその値が
減少し(細い実線で示す)、(2)式における右辺の第2項は、状態数の増加に伴って単
調増加(太い実線で示す)し、これら第1項と第2項の和で求められる記述長li(χ
)は、破線で示すような値をとる。
したがって、αを可変することによって、第2項の単調増加の傾きを可変(αを大きく
するほど傾きが大きくなる)することができるので、(2)式における右辺の第1項と第
2項の和で求められる記述長li(χ)は、αの値を変化させることによって変化させ
ることができる。これによって、たとえば、αを大きくすると、図9(a)は同図(b)
のようになり、状態数がより小さい場合に記述長li(χ)が最小になるように調整す
ることができる。
なお、(2)式におけるi番目の状態数を有するHMMは、M個のデータ(あるフレー
ム数からなるM個のデータ)に対応している。すなわち、データ1の長さ(フレーム数)
をn1、データ2の長さ(フレーム数)をn2、データMの長さ(フレーム数)をnMで
表せば、χのNは、N=n1+n2+・・・+nMで表されるので、(2)式における
右辺の第1項は、下記の(3)式のように表される。
なお、ここでのデータ1,データ2,・・・,データMは、状態iを有するHMMに対
応付けられた多数の学習用音声データ1のある区間に対応するデータ(たとえば、図4で
説明したように、区間t1や区間t11に対応する学習用音声データ)である。
Figure 2005156593
この(3)式において、右辺のそれぞれの項は、i番目の状態数を有するある音節HM
Mとそれぞれの学習用音声データとを対応付けたとき、その対応付けられた学習用音声デ
ータ区間に対する尤度であり、この(3)式からもわかるように、当該i番目の状態数を
有するある音節HMMの尤度は、その音節HMMに対応付けられたそれぞれの学習用音声
データに対する尤度の和で表される。
ところで、上述の(2)式によって求められる記述長li(χ)において、記述長l
i(χ)が最小であるモデルが最適なモデル、すなわち、ある音節HMMにおいて、記
述長li(χ)が最小となる状態数を有する音節HMMが最適な状態であるとする。
すなわち、この実施の形態では、状態数を3,4,・・・,9の7種類としているので
、記述長li(χ)は、ある音節HMMにおいて、状態数3(状態数の種類としては1
番目)としたときの当該状態の記述長l1(χ)、状態数4(状態数の種類としては2
番目)としたときの当該状態の記述長l2(χ)、状態数5(状態数の種類としては3
番目)としたときの当該状態の記述長l3(χ)、状態数6(状態数の種類としては4
番目)としたときの当該状態の記述長l4(χ)、状態数7(状態数の種類としては5
番目)としたときの当該状態の記述長l5(χ)、状態数8(状態数の種類としては6
番目)としたときの当該状態の記述長l6(χ)、状態数9(状態数の種類としては7
番目)としたときの当該状態の記述長l7(χ)の7種類の記述長がそれぞれ得られ、
その中から記述長が最小となる状態数を有する音節HMMを選択する。
たとえば、図8の例においては、音節/a/の音節HMMについて考えると、状態数3か
ら状態数9を有する音節HMMの記述長を(2)式によって求め、記述長最小の音節HM
Mを選択すると、この図8は、前述したように、状態数3を有する音節HMMが記述長最
小であるとしてこの状態数3を有する音節HMMが選択される。
また、音節/ka/の音節HMMについて考えると、同様に、状態数3から状態数9を有
する状態の記述長を(2)式によって求め、記述長最小の音節HMMを選択すると、この
図8は、前述したように、状態数9を有する音節HMMが記述長最小であるとしてこの状
態数9を有する音節HMMが選択される。
以上説明したように、(2)式を用いて、それぞれの音節HMMについて、状態数3か
ら状態数9までのそれぞれの音節HMMごとに、記述長li(χ)を計算して、それぞ
れの音節HMMにおいて、どの状態数を有する音節HMMの記述長が最小となるかを判断
し、記述長最小となった音節HMMを選択する。そして、それぞれの音節HMMごとに、
記述長最小となる状態数を有する音節HMMの全パラメータに対し、学習用音声データ1
と音節ラベルデータ11を用いて最尤推定法によって再学習する。
これによって、124音節に対応するそれぞれの音節HMMについて、最適化された状
態数を持ち、かつ、それぞれの状態ごとに最適なパラメータが得られる。この124音節
に対応するそれぞれの音節HMMは、音節HMMセット10(図1参照)として生成され
る。そして、この音節HMMセット10に属するそれぞれの音節HMMは、状態数が最適
化されているため、十分な認識性能を確保することができ、しかも、すべての音節HMM
で同じ状態数とした場合に比べ、パラメータ数の削減が期待でき、演算量の削減、使用メ
モリ量の削減とともに、処理速度の高速化、さらに、低価格、低消費電力化も可能となる
次に、本発明の発明者が行った実験例について説明する。
図10は図4で説明したアライメントデータ作成用音節HMMとして選択されたある状
態数を有する音節HMMセットと学習用音声データ(ここでは学習用音声データの数は約
20000としている)の対応付け(音節ラベルデータ11も用いる)によって得られる
各音節に対応するデータ区間の開始フレームのフレーム番号と終了フレームのフレーム番
号を示すものである。
この図10の(a)は、「あらゆる・・・(a ra yu ru・・・)」というよ
うな音声学習用データ(これを学習用音声データ#1とする)に対するある状態数を有す
る音節HMMセットのうちの/a/の音節HMM、/ra/の音節HMM、/yu/の音節HM
M、/ru/の音節HMMをそれぞれ対応つけた場合、対応つけられたそれぞれの音節/a/
、/ra/、/yu/、/ru/、・・・に対応するデータ区間の開始フレーム(start)と終
了フレーム(end)のフレーム番号を示すものである。
これによれば、/a/の音節に対応するデータ区間の開始フレーム番号は17であって、
その終了フレーム番号は33であり、また、/ra/の音節に対応するデータ区間の開始フ
レーム番号は33であって、その終了フレーム番号は42である。また、/yu/の音節に
対応するデータ区間の開始フレーム番号は42であって、その終了フレーム番号は59で
あり、/ru/の音節に対応するデータ区間の開始フレーム番号は59であって、その終了
フレーム番号は72となっている。なお、この図10において、「silB」は発話始端の
無音区間を表し、「silE」は発話終端の無音区間を表すものである。
同様に、図10(b)は、「夜空を・・・(yo zo ra o・・・)」というよ
うな音声学習用データ(これを学習用音声データ#2とする)に対する/yo/の音節HM
M、/zo/の音節HMM、/ra/の音節HMM、/o/の音節HMMをそれぞれ対応つけた
場合、音節/yo/、/zo/、/ra/、/o/のそれぞれに対応するデータ区間の開始フレー
ム(start)と終了フレーム(end)のフレーム番号を示すものである。
これによれば、/yo/の音節に対応するデータ区間の開始フレーム番号は54であって
、その終了フレーム番号は64であり、また、/zo/の音節に対応するデータ区間の開始
フレーム番号は64であって、その終了フレーム番号は77である。また、/ra/の音節
に対応するデータ区間の開始フレーム番号は77であって、その終了フレーム番号は89
であり、また、/o/の音節に対応するデータ区間の開始フレーム番号は89であって、そ
の終了フレーム番号は104となっている。
このような対応付けをすべての学習用音声データについて行う。なお、アライメントデ
ータ計算時には尤度も求めることもできるが、ここでは、開始フレーム番号と終了フレー
ム番号の情報が得られればよい。
この図10に示すようなそれぞれの音節HMM(アライメントデータ作成用音節HMM
セットに属するすべての音節HMM)と学習用データ用音声データとの対応付けによって
得られるそれぞれの音節に対応するデータ区間の開始フレーム番号と終了フレーム番号を
用いて、記述長計算部6では、まず、各状態数(ここでは状態数3から状態数9まで)の
音節HMMセット31〜37に属するそれぞれの音節HMMについて、それぞれの音節H
MMごとに各フレームごと(開始フレームから終了フレームまで)の尤度を計算する。す
なわち、状態数3から状態数9のそれぞれの音節HMMについて、すべての学習用音声デ
ータの対応するフレームごと(開始フレームから終了フレームまで)の尤度を計算する。
たとえば、図11(a)は状態数3の音節HMMセット31に属するすべての音節HM
Mにおいて、個々の音節HMMの「あらゆる・・・(a ra yu ru・・・)」と
いうような音声学習用データ#1に対する各フレームごと(開始フレームから終了フレー
ムまで)の尤度を計算した結果を示すもので、この図11における「score」は各音節に
対する尤度を表している。
同様に、図11(b)は状態数3の音節HMMセット31に属するすべての音節HMM
において、個々の音節HMMの「夜空を・・・(yo zo ra o・・・)」という
ような音声学習用データ#2に対する各フレームごと(開始フレームから終了フレームま
で)の尤度を計算した結果を示すものである。
このような尤度計算をすべての状態数(ここでは、状態数3から状態数9)の音節HM
Mセットについて、用意された音声学習用データ#1,#2,・・・を用いて行う。
図12は状態数3から状態数9の音節HMMセット31〜37について、それぞれの音
節HMMと用意された音声学習用データ#1,#2,・・・を用いて尤度計算を行って得
られた尤度計算結果である。
そして、この図12に示すような尤度計算結果と図10に示すような開始フレーム番号
と終了フレーム番号を示すデータを用いて、124音節/a/,/i/,・・・について、図
13に示すように、状態数3から状態数9のそれぞれの状態数ごとに総フレーム数と、総
尤度を求める。
なお、ある音節に対応するデータ区間の総フレーム数は、この場合、音節HMMの状態
数に関係なくそれぞれの音節に対する開始フレームと終了フレームをそれぞれの学習用音
声データごとに固定としてあるので、各状態(状態数3から状態数9)で同じとなる。た
とえば、図13において、音節/a/の総フレーム数は、状態数3から状態数9それぞれに
おいてこの例では、「115467」であり、音節/i/の総フレーム数は、状態数3から
状態数9それぞれにおいてこの例では、「378461」である。
また、音節/a/の総尤度はこの図13では、状態数8の場合が最大であり、音節/i/の
総尤度はこの図13では、状態数5の場合が最大となっている。この図13では、音節/
a/と音節/i/しか図示されていないが、すべての音節について、それぞれの状態ごとの
総フレーム数と総尤度が求められる。
以上のようにして、すべての音節について、それぞれの状態ごとの総フレーム数と総尤
度が求められると、この図13の結果と、前述の(2)式を用いて記述長を計算する。す
なわち、記述長li(x)を求めるための(2)式において、右辺の第1項は、総尤度
に相当し、右辺の第2項のNは総フレーム数に相当するので、右辺の第1項には図13に
おける総尤度、右辺の第2項のNには図13における総フレーム数を代入する。たとえば
、音節/a/で考えると、図13からもわかるように、状態数3においては、総フレーム数
は「115467」であり、総尤度は「−713356.23」であるので、これらを(
2)式の右辺に代入する。
ここで、βの値はモデルの次元数であって、この実験例では、分布数を16、特徴ベク
トル次元数を25(ケプストラムが12次元、デルタケプストラムが12次元、デルタパ
ワーが1次元)であるとしている。したがって、状態数3のときは、β=1200、状態
数4のときは、β=1600、状態数5のときは、β=2000となる。また、重み係数
αはここでは1.0としている。
これによって、状態数3の音節HMMを用いたときの音節/a/の記述長(これをL(3,a
)で表す)は、
L(3,a)=713356.23+1.0×(1200/2)×log(115467)=716393.7047 (4)
と求められる。なお、総尤度は負の値として求められており(図13参照)、また、(2
)式の右辺の第1項には負の記号が付されているので総尤度は正の値で表される。
同様にして、図13に記述されている状態数4,状態数5,・・・,状態数8,状態数
9について、状態数4の音節HMMを用いたときの音節/a/の記述長(これをL(4,a)で
表す)、状態数5の音節HMMを用いたときの音節/a/の記述長(これをL(5,a)で表す
)、状態数8の音節HMMを用いたときの音節/a/の記述長(これをL(8,a)で表す)、
状態数9の音節HMMを用いたときの音節/a/の記述長(これをL(9,a)で表す)は、
L(4,a)=703387.64+1.0×(1600/2)×log(115467)=707437.6063 (5)
L(5,a)=698211.55+1.0×(2000/2)×log(115467)=703274.0078 (6)
L(8,a)=691022.37+1.0×(3200/2)×log(115467)=699122.3026 (7)
L(9,a)=702233.41+1.0×(3600/2)×log(115467)=711345.8341 (8)
と求めることができる。
なお、上述の例では、状態数6と状態数7については省略したが、これら状態数6、状
態数7についても同様にして求めることは勿論である。そして、これをすべての音節につ
いて行う。このようにして、すべての音節(たとえば124音節)について、それぞれの
状態数(ここでは、状態数3から状態数9)ごとに求められた記述長から、最小の記述長
を探す。
たとえば、上述した状態数3の例においては、(4)式から(8)式で求められた記述
長の中から最小の記述長を探すと、この実験においては、状態数8の音節HMMを用いた
ときの記述長が最小であることがわかる。なお、状態数6、状態数7の記述長はここでは
示されていないが、状態数8の音節HMMを用いたときの記述長よりも大きな値であると
する。
したがって、音節/a/については、状態数8の音節HMMを用いたときに最小記述長が
得られることがわかる。
以上の処理を他のすべての音節について行うことで、それぞれの音節において最適な状
態数を探すことができる。これによって、それぞれ音節に対する音節HMMの状態数を最
適化することができ、その状態数の最適化された音節HMMを再学習することによって、
状態数の最適化された音節HMMセットを得ることができる。
図14は以上のようにして作成された音響モデル(HMM)を用いた音声認識装置の構
成を示す図であり、音声入力用のマイクロホン21、このマイクロホン21から入力され
た音声を増幅するとともにディジタル信号に変換する入力信号処理部22、入力信号処理
部からのディジタル変換された音声信号から特徴データ(特徴ベクトル)を抽出する特徴
分析部23、この特徴分析部23から出力される特徴データに対し、HMM24や言語モ
デル25を用いて音声認識する音声認識処理部26から構成され、このHMM24として
、これまで説明した音響モデル作成方法によって作成されたHMM(図1で示した最適化
された状態数を有する音節HMMセット10)を用いる。
このように、この音声認識装置はそれぞれの音節HMM(124音節ごとの音節HMM
)において、その音節HMMごとに最適化された状態数を有した音節モデルとなっている
ので、高い認識性能を維持した上で、それぞれの音節HMMにおけるパラメータ数を大き
く削減することができる。これによって、演算量の削減、使用メモリ量の削減が図れ、処
理速度の高速化が図れ、さらに、低価格、低消費電力化も可能となるので、ハードウエア
資源に大きな制約のある小型・安価なシステムにも搭載する音声認識装置として極めて有
用なものとなる。
ちなみに、本発明の状態ごとに最適化された状態数を有する音節HMMセット10を用
いた音声認識装置を用いた認識実験として、124音節HMMにおける文の認識実験を行
ったところ、状態数を同一とした場合(状態数の最適化を行わなかった場合)の認識率が
79.84%であったものを、本発明によって状態数の最適化を行った場合の認識率は8
1.23%となり、認識率の向上を確認できた。また、認識精度という面で比較すると、
状態数を同一とした場合(状態数の最適化を行わなかった場合)の認識精度が69.41
%であったものを、本発明によって状態数の最適化を行った場合の認識精度は77.7%
となり、認識精度が大きく向上することが確認できた。
ここで、認識率と認識精度について簡単に説明する。認識率は正解率、認識精度は正解
精度とも言われ、ここでは、単語に対する正解率(単語正解率)と正解精度(単語正解精
度)について説明する。一般に、単語正解率は、「(全単語数N−脱落誤り数D−置き換
え誤り数S)/全単語数N」で表される。また、単語正解精度は、「(全単語数N−脱落
誤り数D−置き換え誤り数S−挿入誤り数I)/全単語数N」で表される。
ここで、脱落誤りというのは、たとえば、「りんご/2/個/ください」という発話例
に対する認識結果が、「りんご/を/ください」であったとすると、この認識結果は、「
2」が脱落しているので、1つの脱落誤りを有しており、また、「個」が「を」に置き換
えられたことから「を」が置き換え誤りとなっている。
また、同じ発話例に対する認識結果が、「みかん/5/個/にして/ください」であっ
た場合は、この認識結果は、「りんご」が「みかん」に置き換えられ、「2」が「5」に
置き換えられたことから、これら「みかん」と「2」がそれぞれ置き換え誤りであり、ま
た、「にして」が挿入されていることから、この「にして」が挿入誤りである。
このようにして、脱落誤りの数、置き換え誤りの数、挿入誤りの数をカウントして、そ
れを上述した式に代入することによって、単語正解率や単語正解精度を求めることができ
る。
〔実施形態2〕
この実施形態2では、同一子音や同一母音を有する音節HMMにおいて、これらの音節
HMMを構成する複数の状態(自己ループを有する状態)のうち、たとえば、初期状態ま
たは最終状態を共有した音節HMMを構築するもので、前述の実施形態1で説明した処理
、すなわち、それぞれの音節HMMの各状態数を最適化する処理を行ったのちに状態共有
を行う。以下、図15を参照しながら説明する。
ここでは、同一子音や同一母音を有する音節HMMとして、たとえば、音節/ki/の音節
HMM、音節/ka/の音節HMM、音節/sa/の音節HMM、音節/a/の音節HMMについて
考える。すなわち、音節/ki/と音節/ka/はともに子音/k/を持ち、音節/ka/、音節/sa/、
音節/a/はともに母音/a/を有している。なお、この例では、状態数の最適化を行った結果
、音節/ki/の音節HMMは状態数4、音節/ka/の音節HMMは状態数6、音節/sa/の音節
HMMは状態数5、音節/a/の音節HMMは状態数4であるとする(これらはすべて自己
ループを有する状態数)。
そこで、同一子音を有する音節HMMにおいては、それぞれの音節HMMにおいて、前
段に存在する状態(ここでは、第1の状態とする)を共有し、同一母音を有する音節HM
Mにおいては、それぞれの音節HMMにおいて、後段に存在する状態(ここでは、自己ル
ープを有する状態のうち最終状態とする)を共有する。
図15は、音節/ki/の音節HMMの第1状態S0と音節/ka/の音節HMMの第1状態S
0とを共有し、音節/ka/の音節HMMの最終状態S5と音節/sa/の音節HMMの自己ルー
プを有する最終状態S4と音節/a/の音節HMMの自己ループを有する最終状態S3をそ
れぞれ共有することを示す図であり、それぞれ共有する状態を太い実線で示す楕円枠Cで
囲っている。
このように、同一子音や同一母音を有する音節HMMにおいて、状態共有がなされ、そ
の状態共有された状態は、そのパラメータも同一となり、HMM学習(最尤推定)を行う
際に同じパラメータとして扱われる。
たとえば、図16に示すように、「かき」という音声データに対し、自己ループを有す
る状態がS0,S1,S2,S3,S4,S5の6つの状態でなる音節/ka/の音節HMM
と、同じく自己ループを有する状態がS0,S1,S2,S3の4つの状態でなる音節/k
i/の音節HMMとが連結されたHMMが構築されたとき、音節/ka/の音節HMMの第1の
状態S0と音節/ki/の音節HMMの第1の状態S0が共有されることによって、これら音
節/ka/の音節HMMの状態S0と音節/ki/の音節HMMの状態S0は、それぞれのパラメ
ータが同一として扱われて同時に学習される。
このような状態共有がなされることによって、パラメータ数が減少し、それによって、
使用メモリ量の削減、演算量の削減が図れ、処理能力の低いCPUでの動作が可能となり
、低消費電力化も図れるので、低価格が要求されるシステムへの適用が可能となる。また
、学習用音声データの少ない音節では、パラメータ数の削減によって、過学習による認識
性能劣化を防ぐ効果も期待できる。
このようにして状態共有がなされることによって、ここでの例で取り上げた音節/ki/の
音節HMMと音節/ka/の音節HMMにおいては、それぞれの第1状態S0を共有したHM
Mが構築される。また、音節/ka/の音節HMMと音節/sa/の音節HMMと音節/a/の音節
HMMにおいては、最終状態(図15の例では、音節/ka/の音節HMMの状態S5と音節
/sa/の音節HMMの状態S4、音節/a/の音節HMMの状態S3)を共有したHMMが構
築される。
したがって、このように状態数の最適化がなされ、かつ、その状態共有がなされたそれ
ぞれの音節HMMを作成し、それを図14に示すような音声認識装置に適用することで、
高い認識性能を維持した上で、それぞれの音節HMMにおけるパラメータ数をより一層削
減することができる。これによって、演算量や使用メモリ量のより一層の削減が図れ、処
理速度の高速化が図れ、さらに、低価格、低消費電力化も可能となるので、低コストが要
求されハードウエア資源に大きな制約のある小型・安価なシステムにも搭載する音声認識
装置として極めて有用なものとなる。
なお、上述の状態共有の例では、同一子音や同一母音を有する音節HMMにおいて、こ
れらの音節HMMを構成する複数の状態のうち、初期状態と最終状態をそれぞれ共有する
例について説明したが、図17に示すように、それぞれ初期状態と最終状態を含む複数(
この図17では2つ)ずつの状態を共有するようにしてもよい。これによって、パラメー
タ数をより一層削減することができる。
なお、本発明は上述の実施の形態に限られるものではなく、本発明の要旨を逸脱しない
範囲で種々変形実施可能となるものである。たとえば、前述の実施形態1では、音節HM
Mについて説明したが本発明は音素HMMに対しても適用できる。
また、前述の実施形態1では、分布数はある値(前述の例では、分布数64)で固定と
していたが、この分布数をそれぞれの音節HMMを構成する状態において最適化すること
も可能である。たとえば、最初にある分布数(分布数1)に設定して、前述した実施形態
で説明したような処理を行って状態数の最適化を行い、そのあとで、分布数を2,4,8
,16,・・・というように変化させて、最適な分布数を設定するような処理を行っても
よい。このように、状態数の最適化とともに各状態における分布数の最適化を行うことに
よって、より一層、認識性能を向上させることができる。
なお、本発明は以上説明した本発明を実現するための音響モデル作成手順が記述された
音響モデル作成プログラムを作成し、それをフロッピィディスク、光ディスク、ハードデ
ィスクなどの記録媒体に記録させておくこともできる。したがって、本発明は、その音響
モデル作成プログラムの記録された記録媒体をも含むものである。また、ネットワークか
らその音響モデル作成プログラムを得るようにしてもよい。
本発明の実施形態1における音響モデル作成手順を説明する図である。 状態数を3から最大状態数(状態数9)までの7種類としたときの音節HMMセット作成について説明する図である。 図1で示した音響モデル作成処理においてアライメントデータ作成処理を説明するに必要な部分だけを図1から取り出して示す図である。 アライメントデータ5を作成するために、それぞれの音節HMMと学習用音声データ1との対応付けを行う処理の具体例を説明する図である。 図1で示した音響モデル作成処理において状態数3から最大状態数(状態数9)のそれぞれの音節HMMの記述長を求める処理を説明するに必要な部分だけを図1から取り出して示す図である。 音節/a/の音節HMMにおいて状態数3から最大状態数(状態数9)におけるそれぞれの音節HMMの記述長が求められた様子を示す図である。 図1で示した音響モデル作成処理においてMDL基準による音節HMMの選択を説明するに必要な部分だけを図1から取り出して示す図である。 MDL基準によって状態数3から最大状態数(状態数9)までのそれぞれの音節HMMごとに記述長が最小となる音節HMMを選択する処理を説明する図である。 実施形態1で用いる重み係数αについて説明する図である。 実施形態1で説明したアライメントデータ作成処理によって得られる各音節の開始フレームと終了フレームの具体例について説明する図である。 図10で得られた開始フレームと終了フレームを用いて、ある状態数を有するそれぞれの音節HMMを用いたときのそれぞれの音節に対応する尤度を計算する処理を説明する図である。 状態数3から状態数9の状態数を有するそれぞれの音節HMMを用いて各音節に対応する尤度計算結果を示す図である。 各音節について状態数3から状態数9のそれぞれの状態数ごとに総フレーム数と総尤度を集計した結果を示す図である。 本発明の音声認識装置の概略的な構成を説明する図である。 本発明の実施形態2の状態共有について説明する図であり、いくつかの音節HMMにおいて初期状態または最終状態(自己ループを有する状態の中での最終状態)を共有する場合を説明する図である。 初期状態を状態共有した2つの音節HMMを連結したものをある音声データに対応つけて示す図である。 図15に示す状態共有において、初期状態を含む複数の状態または最終状態を含む複数の状態を共有する例を説明する図である。
符号の説明
1 学習用音声データ、2 HMM学習部、31〜37 状態数3から状態数9の音節
HMMセット、4 アライメントデータ作成部、5 音節HMMと学習用音声データとの
アライメントデータ、6 記述長計算部、71〜77 記述長格納部、8 HMM選択部
、9 HMM再学習部、10 音節HMMごとに最適な状態数を有する音節HMMセット
、21 マイクロホン、22 入力信号処理部、23 特徴分析部、24 HMMモデル
、25 言語モデル、26 音声認識処理部、S0,S1,S2,・・・ 状態

Claims (11)

  1. HMM(隠れマルコフモデル)の状態数を最適化して、その最適化された状態数を有す
    るHMMを学習用音声データを用いて再学習する音響モデル作成方法であって、
    HMMの状態数をある値から最大状態数までの複数種類の状態数に設定し、この複数種
    類の状態数に設定されたそれぞれのHMMごとに記述長最小基準を用いて記述長を求める
    ステップと、
    該記述長が最小となる状態数を有するHMMを選択するステップと、
    該選択されたHMMを学習用音声データを用いて再学習するステップと、
    を含むことを特徴とする音響モデル作成方法。
  2. 前記記述長最小基準は、モデル集合{1,・・・,i,・・・,I}とデータχ={
    χ,・・・,χ}(ただし、Nはデータ長)が与えられたときのモデルiを用いた記
    述長li(χ)が、一般的な式として、
    Figure 2005156593
    で表され、この記述長を求める一般的な式において、前記モデル集合{1,・・・,i,
    ・・・,I}は、HMMにおける状態数がある値から最大状態数までの複数種類に設定さ
    れたHMMの集合であるとして考え、ここで、前記状態の種類の数がI種類(IはI≧2
    の整数)であるとき、前記1,・・・,i,・・・,Iは、1番目の種類からI番目の種
    類までのそれぞれの種類を特定するための符号であって、前記(1)式を、前記1,・・
    ・,i,・・・,Iのうちのi番目の状態数の種類を有するHMMの記述長を求める式と
    して用いることを特徴とする請求項1記載の音響モデル作成方法。
  3. 前記記述長を求める式として、前記(1)式を変形した下記の式、
    Figure 2005156593
    を用いることを特徴とする請求項1記載の音響モデル作成方法。
  4. 前記(2)式のαは、最適な状態数を得るための重み係数であることを特徴とする請求項
    3記載の音響モデル作成方法。
  5. 前記(2)式におけるβは、分布数×特徴ベクトルの次元数×状態数で表されることを特
    徴とする請求項3または4記載の音響モデル作成方法。
  6. 前記データχは、前記ある値から最大状態数までのうちのある任意の状態数を有するH
    MMと多数の学習用音声データとをそれぞれの状態ごとに時系列的な対応付けを行って得
    られるそれぞれの学習用音声データの集合であることを特徴とする請求項2から5のいず
    れかに記載の音響モデル作成方法。
  7. 前記HMMは、音節HMMであることを特徴とする請求項1から6のいずれかに記載の
    音響モデル作成方法。
  8. 前記音節HMMにおいて、同一子音や同一母音を有する複数の音節HMMに対し、これ
    らの音節HMMを構成する状態のうち、同一子音を有する音節HMM同士においては、そ
    れら音節HMMにおける初期状態またはこの初期状態を含む複数の状態を共有し、同一母
    音を有する音節HMM同士においては、それら音節HMMにおける自己ループを有する状
    態の最終状態またはこの最終状態を含む複数の状態を共有することを特徴とする請求項7
    記載の音響モデル作成方法。
  9. HMM(隠れマルコフモデル)の状態数を最適化して、その最適化された状態数を有す
    るHMMを学習用音声データを用いて再学習する音響モデル作成装置であって、
    HMMの状態数がある値から最大状態数までの複数種類の状態数に設定されたそれぞれ
    のHMMごとに記述長最小基準を用いて記述長を求める記述長計算手段と、
    該記述長計算手段により求められた記述長が最小となる状態数を有するHMMを選択す
    るHMM選択手段と、
    該HMM選択手段で選択されたHMMを学習用音声データを用いて再学習するHMM再
    学習手段と、
    を有することを特徴とする音響モデル作成装置。
  10. HMM(隠れマルコフモデル)の状態数を最適化して、その最適化された状態数を有する
    HMMを学習用音声データを用いて再学習する音響モデル作成プログラムであって、この
    音響モデル作成プログラムは、
    HMMの状態数がある値から最大状態数までの複数種類の状態数に設定されたそれぞれ
    のHMMごとに記述長最小基準を用いて記述長を求める手順と、
    該記述長が最小となる状態数を有するHMMを選択する手順と、
    該選択されたHMMを学習用音声データを用いて再学習する手順と、
    を含むことを特徴とする音響モデル作成プログラム。
  11. 入力音声を特徴分析して得られた特徴データに対し音響モデルとしてHMM(隠れマルコ
    フモデル)を用いて前記入力音声を認識する音声認識装置であって、
    前記音響モデルとしてのHMMとして、前記請求項1から請求項8のいずれかに記載の
    音響モデル作成方法によって作成されたHMMを用いることを特徴とする音声認識装置。
JP2003390681A 2003-11-20 2003-11-20 音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムおよび音声認識装置 Withdrawn JP2005156593A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2003390681A JP2005156593A (ja) 2003-11-20 2003-11-20 音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムおよび音声認識装置
US10/990,626 US20050154589A1 (en) 2003-11-20 2004-11-18 Acoustic model creating method, acoustic model creating apparatus, acoustic model creating program, and speech recognition apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003390681A JP2005156593A (ja) 2003-11-20 2003-11-20 音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムおよび音声認識装置

Publications (1)

Publication Number Publication Date
JP2005156593A true JP2005156593A (ja) 2005-06-16

Family

ID=34717979

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003390681A Withdrawn JP2005156593A (ja) 2003-11-20 2003-11-20 音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムおよび音声認識装置

Country Status (2)

Country Link
US (1) US20050154589A1 (ja)
JP (1) JP2005156593A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011158421A1 (ja) * 2010-06-16 2011-12-22 日本電気株式会社 モデル特定装置
JP2015225296A (ja) * 2014-05-29 2015-12-14 富士通株式会社 音響モデル調整装置及びプログラム

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8515728B2 (en) * 2007-03-29 2013-08-20 Microsoft Corporation Language translation of visual and audio input
US8463610B1 (en) * 2008-01-18 2013-06-11 Patrick J. Bourke Hardware-implemented scalable modular engine for low-power speech recognition
JP2011243088A (ja) * 2010-05-20 2011-12-01 Sony Corp データ処理装置、データ処理方法、及び、プログラム
US9514739B2 (en) * 2012-06-06 2016-12-06 Cypress Semiconductor Corporation Phoneme score accelerator
US9817881B2 (en) * 2013-10-16 2017-11-14 Cypress Semiconductor Corporation Hidden markov model processing engine

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3092491B2 (ja) * 1995-08-30 2000-09-25 日本電気株式会社 記述長最小基準を用いたパターン適応化方式
JP2982689B2 (ja) * 1996-04-19 1999-11-29 日本電気株式会社 情報量基準を用いた標準パターン作成方式
JP4336865B2 (ja) * 2001-03-13 2009-09-30 日本電気株式会社 音声認識装置
JP4069715B2 (ja) * 2002-09-19 2008-04-02 セイコーエプソン株式会社 音響モデル作成方法および音声認識装置
US20070162272A1 (en) * 2004-01-16 2007-07-12 Nec Corporation Text-processing method, program, program recording medium, and device thereof

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011158421A1 (ja) * 2010-06-16 2011-12-22 日本電気株式会社 モデル特定装置
JP2015225296A (ja) * 2014-05-29 2015-12-14 富士通株式会社 音響モデル調整装置及びプログラム

Also Published As

Publication number Publication date
US20050154589A1 (en) 2005-07-14

Similar Documents

Publication Publication Date Title
JP5327054B2 (ja) 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
Lee et al. Acoustic modeling for large vocabulary speech recognition
US11410684B1 (en) Text-to-speech (TTS) processing with transfer of vocal characteristics
Huang et al. A historical perspective of speech recognition
US8301445B2 (en) Speech recognition based on a multilingual acoustic model
KR101153078B1 (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
JP2020505650A (ja) 音声認識システム及び音声認識の方法
US6006186A (en) Method and apparatus for a parameter sharing speech recognition system
CN107615376B (zh) 声音识别装置及计算机程序记录介质
JPH0772840B2 (ja) 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法
US9484019B2 (en) System and method for discriminative pronunciation modeling for voice search
JP2006038895A (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
JP2007047818A (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
WO2018066436A1 (ja) 音響モデルの学習装置及びそのためのコンピュータプログラム
CN117043857A (zh) 用于英语发音评估的方法、设备和计算机程序产品
JP5180800B2 (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
JP4069715B2 (ja) 音響モデル作成方法および音声認識装置
US5764851A (en) Fast speech recognition method for mandarin words
JP4442211B2 (ja) 音響モデル作成方法
JP2005156593A (ja) 音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムおよび音声認識装置
JP3589044B2 (ja) 話者適応化装置
JP2008026721A (ja) 音声認識装置、音声認識方法、および音声認識用プログラム
US11915688B2 (en) Prediction device, prediction method, and program
JP4729078B2 (ja) 音声認識装置とその方法と、プログラムとその記録媒体
JP4741452B2 (ja) 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061114

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20070403

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091102

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091117

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20091216