JP2001100779A

JP2001100779A - 音響モデル学習方法

Info

Publication number: JP2001100779A
Application number: JP27422299A
Authority: JP
Inventors: Tsuneo Kato; 恒夫加藤; Shingo Kuroiwa; 眞吾黒岩; Norio Higuchi; 宜男樋口
Original assignee: DDI Corp
Current assignee: KDDI Corp
Priority date: 1999-09-28
Filing date: 1999-09-28
Publication date: 2001-04-13
Anticipated expiration: 2019-09-28
Also published as: JP3547349B2

Abstract

(57)【要約】【課題】認識性能向上と、共有する全音素環境の音響
特性の表現性向上。【解決手段】先行音素と後続音素の音素決定木による
音声認識単位の決定方法において、混合連続分布ＨＭＭ
を対象として学習する。また、共有するＨＭＭの集合を
代表する出力連続分布として、要素となる全分布の平均
値と分散値を結合した連続分布を求める。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は音響モデル学習方法
に関し、特に、前後音素環境を考慮したトライフォンの
音素決定木により音声認識単位を決定する方法に関す
る。

【０００２】

【従来の技術】現在、音声認識に用いられる音響モデル
の主流はトライフォンである。トライフォンは、先行音
素と中心音素と後続音素との３音素連鎖により定義さ
れ、学習データから学習によって作成される。先行音素
と後続音素が中心の音素に対するる前後音素環境をな
す。

【０００３】しかし、音素は４０種類程度あるため、ト
ライフォン（３音素連鎖）の総異音数は数万個のオーダ
ーに達する。また、トライフォンが学習データに出現し
なかったり、出現してもその数が極めて少ないことがあ
る。

【０００４】上述した膨大な総異音数と、学習データに
未出現や数が少ない３音素連鎖の存在のため、従来、図
３に示すように、音素決定木による音声認識単位の決定
手法によって、ＨＭＭ（隠れマルコフモデル）の共有化
を行い、パラメータを削減することが行われている。

【０００５】図３において、従来は、学習データから共
有されていないトライフォン各状態（ＨＭＭ）の単一連
続分布を学習により作成する。ステップＳ１１参照。

【０００６】次に、共有化を許容するトライフォン各状
態（ＨＭＭ）の集合（以下、ノードと呼ぶ）、つまり、
中心音素が共通のＨＭＭのノードを作成する。ステップ
Ｓ１２参照。

【０００７】次に、各ノードについて、予め設定した前
後音素環境に関する複数の決定木のうち、基準となる情
報量が分割前に比べて分割後に最も向上する決定木によ
って、ノードの分割を行う（ステップＳ１３〜Ｓ１６参
照）。以下に、ノードの分割と、基準となる情報量の計
算方法を説明する。

【０００８】ノードの分割について説明する。前述のよ
うに、トライフォンは先行音素と中心音素と後続音素と
の３音素連鎖により定義され、ノード（トライフォンの
集合）に対して音素決定木は例えば下記(1) 〜(3) に例
示するように定義される。各音素決定木により１つのノ
ードを２つのノードに分割する。 (1) 先行音素が母音（ａ、ｉ、ｕ、ｅ、ｏ）で、後続音
素は問わない。 (2) 先行音素が鼻音（ｎ、ｍ、ＮＮ）で、後続音素は問
わない。 (3) 後続音素が破裂音（ｐ、ｔ、ｋ）で、先行音素は問
わない。

【０００９】基準となる情報量の計算方法について説明
する。或るノードに含まれる複数のトライフォンをそれ
ぞれ表現するパラメータから、当該ノードを代表するパ
ラメータを求め、この代表パラメータにより、基準とな
る情報量を計算する。一般的には、ノードに含まれる各
トライフォンを表現する連続分布から、ノード全体を表
現する連続分布を求め、基準となる情報量として、学習
データに対するノード全体を表現する連続分布の尤度を
利用する。

【００１０】分割後の全末端ノードに対しても、同様の
分割手法で基準となる情報量が最も向上する音素決定木
を選び、選んだ音素決定木によりノード分割を行う。こ
の操作を、分割後の基準となる情報量が予め設定した閾
値を超えるまで順次繰り返す（ステップＳ１７からステ
ップＳ１３へのループ参照）。

【００１１】全ての分割後の末端ノードにおいて基準と
なる情報量が閾値を超えたら、ノードの分割を停止する
（ステップＳ１８参照）。

【００１２】以上により、同じ末端ノードに属する複数
のトライフォンは、１つのＨＭＭを共有することにな
る。このとき、共有するＨＭＭとして、一般的には、末
端ノードに含まれる各トライフォンをそれぞれ構成する
複数の単一連続分布のうち、１つの単一連続分布を選択
して出力する。つまり、１つの単一連続分布で共有する
ＨＭＭを代表する。ステップＳ１９参照。

【００１３】図４を参照すれば、従来は、共有するＨＭ
Ｍとしては、ノード１１に含まれる各トライフォン１２
ａ〜１２ｎをそれぞれ構成する複数の単一連続分布１３
ａ〜１３ｎのうち、いずれか１つの単一連続分布１３ｉ
を選択して出力する。

【００１４】

【発明が解決しようとする課題】しかし、上述した手法
は、従来、単一連続分布ＨＭＭに対して行われており、
認識性能が高い混合連続分布ＨＭＭに対して音素決定木
による音声認識単位の決定手法は適用されていないとい
う第１の課題がある。

【００１５】また、上述した従来手法では、共有するＨ
ＭＭはノードを構成する分布の１つを選択しているた
め、共有する全音素環境の音響特性を表現できていない
という第２の課題がある。

【００１６】そこで、本発明の目的は、上記２つの課題
を解決することにある。

【００１７】

【課題を解決するための手段】請求項１に係る発明は、
上記第１の課題を解決する音響モデル学習方法であり、
先行音素と後続音素の音素決定木による音声認識単位の
決定方法において、混合連続分布ＨＭＭを対象とするこ
とを特徴とする。請求項２に係る発明も、上記第１の課
題を解決する音響モデル学習方法であり、先行音素と後
続音素の音素決定木による音声認識単位の決定方法にお
いて、混合連続分布ＨＭＭを対象とし、この分布をクラ
スタリングした後、混合連続分布ＨＭＭとして出力する
ことを特徴とする。請求項３に係る発明も、上記第１の
課題を解決する音響モデル学習方法であり、先行音素と
後続音素の音素決定木による音声認識単位の決定方法に
おいて、混合連続分布ＨＭＭを対象とし、この分布を離
散値と見なし、Ｋ−ｍｅａｎｓ法（ケイ−ミーンズ法）
によりクラスタリングを行った後、混合連続分布ＨＭＭ
として出力することを特徴とする。請求項４に係る発明
は、上記第１及び第２の課題を解決する音響モデル学習
方法であり、先行音素と後続音素の音素決定木による音
声認識単位の決定方法において、混合連続分布ＨＭＭを
対象とし、クラスタリング後の共有するＨＭＭの集合を
代表する出力連続分布として、要素となる全分布の平均
値と分散値を結合した連続分布を求めることを特徴とす
る。

【００１８】請求項５に係る発明は、上記第２の課題を
解決する音響モデル学習方法であり、先行音素と後続音
素の音素決定木による音声認識単位の決定方法におい
て、共有するＨＭＭ（ＨＭＭは隠れマルコフモデル）の
集合を代表する出力連続分布として、要素となる全分布
の平均値と分散値を結合した連続分布を求めることを特
徴とする。

【００１９】

【発明の実施の形態】図１に本発明の一実施形態例に係
る音響モデル学習方法の手順を示す。

【００２０】図１において、まず、学習データから共有
されていないトライフォン各状態（ＨＭＭ）の混合連続
分布を学習により作成し、用意する。ステップＳ１参
照。

【００２１】次に、混合連続分布ＨＭＭにより構成され
る各トライフォンに対して、共有化を許容するＨＭＭの
ノードを作成する。ステップＳ２参照。

【００２２】次に、各ノードを、先行音素と後続音素の
決定木により、混合連続分布ＨＭＭを対象として、分割
する。ステップＳ３〜Ｓ６参照。

【００２３】ノード分割の際、情報量の計算に用いる混
合連続分布ＨＭＭは、情報量が最大になるように構成す
る。その構成方法の例を以下に述べる。

【００２４】(1) 図２に示すように、分割後のノードに
含まれるトライフォンを構成する全分布を予め定めたク
ラスタ数にクラスタする。図２において、１はノード、
２ａ〜２ｎはノード１に含まれる状態、３ａ〜３ｎは連
続分布であり、各状態は複数の連続分布ＨＭＭに対応し
ている。つまり、混合連続分布ＨＭＭとなっている。図
示の例では、クラスタ数はクラスタ４ａ〜４ｃの３個で
ある。

【００２５】(1a)クラスタリングには、トップダウン式
のK-means法（ケイ・ミーンズ法：離散データのクラス
タリング法）、ボトムアップ式のFurthest Neighbor 法
（ファーゼスト・ネイバー法：離散／連続データのクラ
スタリング法））等を用いる。但し、各クラスタに含ま
れる連続分布ＨＭＭの数は複数とし、予め下限を設けて
おく。

【００２６】(1b)クラスタリング時の入力データとして
はＨＭＭ各状態の学習データ中の出現回数、状態を構成
する混合連続分布の分布重み、平均値及び分散が与えら
れ、また、近似的に各分布の出現回数が計算可能である
ため、この分布出現回数を重み付けしてセントロイド計
算を行う。

【００２７】(2) クラスタリング後、各クラスタ毎に、
クラスタに含まれる全分布から新しい混合連続分布を１
つ合成して代表分布とする。図２では、連続混合分布５
ａ〜５ｃが各クラスタ４ａ〜４ｃ毎に新しく合成した代
表分布である。

【００２８】(2a)この合成される分布の平均値は、下記
数１に示すように、全分布の平均値を出現回数で重み付
け平均して求める。

【００２９】

【数１】

【００３０】(2b)また、合成される分布の分散は、下記
数２に示すように、全分布の分散（組内分散）と、分布
間の分散（組間分散）と、出現回数から求める。

【００３１】

【数２】

【００３２】(2c)合成される分布の分布重みは、下記数
３に示すように、学習データ中の出現回数の割合から求
める。

【００３３】

【数３】

【００３４】以上の手順によって求めた連続混合分布を
利用して、従来と同様、基準となる情報量を計算して、
分割後の基準となる情報量が分割前に比べて最も向上す
る決定木によって、ノードの分割を行う

【００３５】分割後の全末端ノードに対しても、同様の
分割で基準となる情報量が最も向上する音素決定木を選
び、選んだ音素決定木によりノード分割を行う。この操
作を、分割後の基準となる情報量が予め設定した閾値を
超えるまで順次繰り返す（ステップＳ７からステップＳ
３へのループ参照）。

【００３６】全ての分割後の末端ノードにおいて基準と
なる情報量が閾値を超えたら、ノードの分割を停止する
（ステップＳ８参照）。

【００３７】以上により、同じ末端ノードに属するトラ
イフォンは、１つのＨＭＭを共有することになる。この
とき、共有するＨＭＭとして、共有化を行うノードに対
して、前述した手順を利用してこの手順により新しい連
続混合分布を合成して求め、この合成した連続混合分布
を出力する。ステップＳ９参照。つまり、数１〜数３に
基づき当該ノードに含まれる全分布から新しい混合連続
分布を１つ合成して出力する。

【００３８】このように、クラスタリング後の共有する
ＨＭＭの集合を代表する出力連続分布として、要素とな
る全分布の平均値と分散値を結合した新しい連続分布を
求めることにより、従来は１つの分布を選択するだけの
ために共有する全音素環境の音響特性を表現できていな
いという課題を解決できる。つまり、共有する全音素環
境の音響特性を表現できる。

【００３９】また、共有するＨＭＭの集合を代表する出
力連続分布として、要素となる全分布の平均値と分散値
を結合した連続分布を求めるという手法を、単一連続分
布ＨＭＭを対象とした従来方法に適用することにより、
単一連続分布ＨＭＭを対象とした場合でも、共有する全
音素環境の音響特性を表現できる。

【００４０】

【発明の効果】以上より、本発明によれば、認識性能が
高い混合連続分布ＨＭＭに対して音素決定木による音声
認識単位の決定を行うことができる。

【００４１】また、単一連続分布ＨＭＭを対象としたば
あいでも、共有する全音素環境の音響特性を表現するこ
とができる。

【図面の簡単な説明】

【図１】本発明の実施形態例に係る音響モデル学習方法
の手順を示す図。

【図２】本発明のの実施形態例に係るノードを表現する
連続分布構成法を示す図。

【図３】従来の音響モデル学習方法の手順をを示す図。

【図４】従来のノードを表現する連続分布構成法を示す
図。

【符号の説明】

１ノード２ａ〜２ｎ状態３ａ〜３ｎ連続分布４ａ〜４ｃクラスタ５ａ〜５ｃクラスタ毎に新しく合成した連続混合分布

───────────────────────────────────────────────────── フロントページの続き (72)発明者樋口宜男埼玉県上福岡市大原二丁目１番15号株式会社ケイディディ研究所内Ｆターム(参考） 5D015 GG04 HH23

Claims

【特許請求の範囲】

【請求項１】先行音素と後続音素の音素決定木による
音声認識単位の決定方法において、混合連続分布ＨＭＭ
（ＨＭＭは隠れマルコフモデル）を対象とすることを特
徴とする音響モデル学習方法。
【請求項２】先行音素と後続音素の音素決定木による
音声認識単位の決定方法において、混合連続分布ＨＭＭ
（ＨＭＭは隠れマルコフモデル）を対象とし、この分布
をクラスタリングした後、混合連続分布ＨＭＭとして出
力することを特徴とする請求項１記載の音響モデル学習
方法。
【請求項３】先行音素と後続音素の音素決定木による
音声認識単位の決定方法において、混合連続分布ＨＭＭ
（隠れマルコフモデル）を対象とし、この分布を離散値
と見なし、Ｋ−ｍｅａｎｓ法（ケイ−ミーンズ法）によ
りクラスタリングを行った後、混合連続分布ＨＭＭとし
て出力することを特徴とする音響モデル学習方法。
【請求項４】先行音素と後続音素の音素決定木による
音声認識単位の決定方法において、混合連続分布ＨＭＭ
（ＨＭＭは隠れマルコフモデル）を対象とし、クラスタ
リング後の共有するＨＭＭの集合を代表する出力連続分
布として、要素となる全分布の平均値と分散値を結合し
た連続分布を求めることを特徴とする音響モデル学習方
法。
【請求項５】先行音素と後続音素の音素決定木による
音声認識単位の決定方法において、共有するＨＭＭ（Ｈ
ＭＭは隠れマルコフモデル）の集合を代表する出力連続
分布として、要素となる全分布の平均値と分散値を結合
した連続分布を求めることを特徴とする音響モデル学習
方法。