JP5006768B2

JP5006768B2 - 音響モデル生成装置、方法、プログラム及びその記録媒体

Info

Publication number: JP5006768B2
Application number: JP2007301689A
Authority: JP
Inventors: 哲小橋川; 厚徳小川
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2007-11-21
Filing date: 2007-11-21
Publication date: 2012-08-22
Anticipated expiration: 2027-11-21
Also published as: JP2009128496A

Description

この発明は、音声認識等のために用いる音響モデルを生成する音響モデル生成装置、方法、プログラム及びその記録媒体に関する。特に、既存の音響モデルのサイズを縮小することにより新たな音響モデルを生成する音響モデル生成装置、方法、プログラム及びその記録媒体に関する。

図５に例示するように、音響モデルは複数の音素モデルからなり、各音素モデルは複数の状態から構成される。そして、各状態は、混合正規分布（一般には多次元正規分布を混合した多次元混合正規分布である。以下、混合正規分布といった場合には多次元混合正規分布を意味する。もちろん、混合正規分布が１次元の正規分布を混合したものであってもよい。）で表されている。このように、音響モデルは、複数の混合正規分布から構成されている。

図５に示した例は混合数＝３の例であり、音素モデル「＊−ｕ＋＊（ｕを中心音素とする環境独立音素モデル）」の第２状態は、３つの基底正規分布ｊ（ｊ＝１，２，３）から構成されており、基底正規分布にはそれぞれ対応する重みｗ（ｊ）（ｊ＝１，２，３）が掛けられている。

音響モデルのサイズを縮小するために、従来、分布間距離が小さい基底正規分布を統合することにより、混合正規分布の混合数を少なくしていた。その後、文字認識精度を向上させるために、追加学習を行い統合された基底正規分布のパラメータをより適切な値に変更していた（例えば、非特許文献１、特許文献１参照）。

図６Ａに示した例では、分布間距離が小さい基底正規分布１と基底正規分布２を統合して、すなわち基底正規分布１と基底正規分布２を削除して、基底正規分布４としている。これにより、基底正規分布の数を１下げている。その後、追加学習を行い基底正規分布４のパラメータを変更して、基底正規分布５としている。図６の破線で示した基底正規分布は、削除された基底正規分布を意味する。
小川厚徳、外２名，「混合重み係数を考慮した分布間距離尺度による音響モデルの分布数削除」，日本音響学会講演論文集，２００４年９月２９日，２−１−２３特開２００６−８４７８９号公報

背景技術に記載された方法では、基底正規分布を統合した後に、文字認識精度を向上するために追加学習を行う必要があり、その追加学習の分だけ時間と労力が必要であるという問題があった。文字認識精度とは、文字単位の音声認識精度のことである。
この発明は、追加学習なく音響モデルのサイズを縮小することにより新たな音響モデルを生成する音響モデル生成装置、方法、プログラム及びその記録媒体を提供することを目的とする。

この発明によれば、複数の基底正規分布が重み付き加算されることによりそれぞれ構成される複数の混合正規分布から構成される音響モデルが記憶される音響モデル記憶手段を有する。音響モデルを構成する全部又は一部の混合正規分布のそれぞれについて、混合正規分布を構成する複数の基底正規分布から、予め定められた削除重み閾値よりも小さい重みが掛けられた基底正規分布を削除する。混合正規分布を構成する、削除されずに残った複数の基底正規分布にそれぞれ掛けられる重みの合計が１となるように、音響モデルを構成する混合正規分布のうち基底正規分布が削除された各混合正規分布の重み系列を正規化する。予め定められた削除重み閾値は、混合正規分布の重み系列の最大値が大きいほど大きい。

予め定められた削除重み閾値よりも小さい重みが掛けられた基底正規分布を削除するに留まり、既にある基底正規分布のパラメータを変形させてはいない。このため、この発明により生成された音響モデルは、追加学習をしなくても、高い文字認識精度を有する。

この発明のポイントは、図６Ｂに例示するように、混合正規分布を構成する基底正規分布のうち、掛けられる重みが予め定められた閾値よりも小さい基底正規分布２を削除する点にある。以下、この発明の実施例について説明をする。

［第一実施例］
図１，図３を参照して、第一実施例の音響モデル生成装置１０について説明をする。図１は、音響モデル生成装置１０の機能構成を例示する図であり、図３は、音響モデル生成装置１０の処理の流れを例示するフローチャートである。

＜ステップＳ１＞
ベース音響モデル記憶部１２には、既存のベース音響モデルが格納されている。制御部１１は、ベース音響モデル記憶部１２からベース音響モデルを読み出し、音響モデル記憶部１３に格納する（ステップＳ１）。制御部１１は、音響モデル生成装置１０の各部の動作を制御することができるように、音響モデル生成装置１０の各部と接続されている。この音響モデル記憶部１３に格納された音響モデルに対して、以下に述べる処理を行うことにより、新たな音響モデルを生成する。

閾値パラメータ記憶部１４には、それぞれ予め定められた削除混合数閾値ｍ＿ｔｈと、重み閾値ｗ＿ｔｈとが格納されている。削除混合数閾値ｍ＿ｔｈは、１以上の整数であり、音響モデル記憶部１３に格納された音響モデルを構成する混合正規分布の混合数の範囲に含まれる何れかの整数が削除混合数閾値ｍ＿ｔｈとして選択される。例えば、削除混合数閾値ｍ＿ｔｈ＝１２とする。ここで、混合数とは、換言すれば分布数であり、混合正規分布を構成する基底正規分布の数のことである。重み閾値ｗ＿ｔｈは、０から１の間の任意の実数である。例えば、重み閾値ｗ＿ｔｈ＝０．２とする。

削除混合数閾値ｍ＿ｔｈ，重み閾値ｗ＿ｔｈは、所望の音響モデルが得られるように、実験的に適宜決定される定数である。後述する削除重み閾値ｄｅｌ＿ｗ＿ｔｈについても同様である。

＜ステップＳ２＞
制御部１１は、制御部１１内のバッファ１１１に格納されたｉの値をｉ＝１とする（ステップＳ２）。

＜ステップＳ３＞
削除重み閾値計算部１５は、音響モデル記憶部１３から、音響モデルを構成する混合正規分布の１つである混合正規分布ｉの重み系列Ｗ_ｉ＝｛ｗ_ｉ（１），ｗ_ｉ（２），…，ｗ_ｉ（ｍ_ｉ）｝を読み込む。重み系列Ｗ_ｉは、混合正規分布ｉを構成する複数の基底正規分布にそれぞれ掛けられる重みｗ_ｉ（ｊ）の集合である。そして、重み系列Ｗ_ｉの最大値と、閾値パラメータ記憶部１４から読み込んだ重み閾値ｗ＿ｔｈとを乗算して、削除重み閾値ｄｅｌ＿ｗ＿ｔｈを求める（ステップＳ３）。すなわち、混合正規分布ｉを構成する複数の基底正規分布のそれぞれに掛けられる重みｗ_ｉ（ｊ）（ｊ＝１，２，…，ｍ_ｉ）の最大値と、重み閾値ｗ＿ｔｈとを乗算する。求まった削除重み閾値ｄｅｌ＿ｗ＿ｔｈは、基底正規分布削除部１６２に送られる。

ここで、削除重み閾値ｄｅｌ＿ｗ＿ｔｈは、混合正規分布ｉごとに異なる値を取る。また、ここで、混合正規分布ｉを構成する基底正規分布が、重みの大きい順番でソートしてある場合には、ｗ_ｉ（ｊ）＜ｄｅｌ＿ｗ＿ｔｈとなった時点で、その混合正規分布ｉを構成する基底正規分布のうち残りの基底正規分布を削除してもよい。

＜ステップＳ４＞
この例では、分布削除部１６は、混合数大小判定部１６１と、基底正規分布削除部１６２とからなる。
混合数大小判定部１６１は、音響モデル記憶部１３から読み込んだ、音響モデルを構成する混合正規分布の１つである混合正規分布ｉの混合数ｍ_ｉと、閾値パラメータ記憶部１４から読み込んだ削除混合数閾値ｍ＿ｔｈとの比較を行う（ステップＳ４）。混合正規分布ｉの混合数ｍ_ｉの方が大きければ、その旨を表す信号を基底正規分布削除部１６２に送る。
混合数大小判定部１６１を設けて、混合数が所定の数以上である混合正規分布について下記の処理を行うことにより、音響モデルの精度の劣化を防止することができる。

＜ステップＳ５＞
制御部１１は、制御部１１内のバッファ１１１に格納されたｊの値をｊ＝１とする（ステップＳ５）。

＜ステップＳ６＞
基底正規分布削除部１６２は、音響モデル記憶部１３から、混合数大小判定部１６１が削除混合数閾値ｍ＿ｔｈよりも大きい混合数ｍ_ｉを有すると判断した混合正規分布ｉを構成するｊ番目の基底正規分布ｊに掛けられる重みｗ_ｉ（ｊ）を読み込む。混合数大小判定部１６１が削除混合数閾値ｍ＿ｔｈよりも大きい混合数ｍ_ｉを有すると判断した混合正規分布ｉについての情報は、混合数大小判定部１６１が基底正規分布削除部１６２に送った信号から得る。そして、その読み込んだ重みｗ_ｉ（ｊ）と、削除重み閾値計算部１５が計算した削除重み閾値ｄｅｌ＿ｗ＿ｔｈとを比較する（ステップＳ６）。

重みｗ_ｉ（ｊ）の方が小さければ、基底正規分布削除部１６２は、音響モデル記憶部１３に記憶された音響モデルの混合正規分布ｉを構成する複数の基底正規分布から、ｊ番目の基底正規分布ｊを削除する（ステップＳ６１）
削除重み閾値ｄｅｌ＿ｗ＿ｔｈの方が小さければ、基底正規分布削除部１６２は、音響モデル記憶部１３に記憶された音響モデルの混合正規分布ｉのｊ番目の基底正規分布ｊを削除しない。

＜ステップＳ７＞
制御部１１は、バッファ１１１に格納されたｊが、ｊ＝ｍ_ｉであるか判断する（ステップＳ７）。

＜ステップＳ８＞
ｊ＝ｍ_ｉでなければ、制御部１１は、バッファ１１１に格納されたｊをインクリメントする（ステップＳ８）。具体的には、ｊ＝ｊ＋１とする。その後は、ステップＳ６の処理を行う。
このように、ｊ＝ｍ_ｉとなるまで、ステップＳ６からステップＳ８の処理を繰り返すことにより、混合正規分布ｉを構成する各基底正規分布について、掛けられる重みが削除重み閾値ｄｅｌ＿ｗ＿ｔｈよりも小さいかどうかを判断して、掛けられる重みの方が小さい場合には、その基底正規分布を削除する処理を行う。

＜ステップＳ９＞
ｊ＝ｍ_ｉであれば、基底正規分布削除部１６２は、混合正規分布ｉが基底正規分布の削除を行ったものであるかどうかを判定する（ステップＳ９）。混合正規分布ｉが基底正規分布の削除を行ったものである場合には、基底正規分布削除部１６２は、混合正規分布ｉの重み系列Ｗ_ｉについて正規化を求める信号（以下、正規化信号とする。）を、正規化部１７に送る。

＜ステップＳ１０＞
正規化信号を受けた正規化部１７は、混合正規分布ｉの重み系列Ｗ_ｉについて正規化を行う。具体的には、削除されずに残った基底正規分布に掛けられる重みの合計が１となるように正規化を行う。正規化部１７は、重み加算部１７１と、除算部１７２とからなる。

重み加算部１７１は、音響モデル記憶部１３から、混合正規分布ｉを構成する基底正規分布のうち削除されずに残った基底正規分布に掛けられた重みの総和ｓｕｍ＿ｗ＿ｓａｖｅｄを計算する（ステップＳ１０１）。計算されたｓｕｍ＿ｗ＿ｓａｖｅｄは、除算部１７２に送られる。図１，２では、総和ｓｕｍ＿ｗ＿ｓａｖｅｄをΣ_ｊｗ_ｉ（ｊ）と表現する。

除算部１７２は、混合正規分布ｉを構成する基底正規分布のうち削除されずに残った基底正規分布に掛けられた重みのそれぞれを、総和ｓｕｍ＿ｗ＿ｓａｖｅｄで除算することにより、正規化された重みｗ_ｉ ^＊（ｊ）を求めて、これを正規化される前の重みｗ_ｉ（ｊ）に代えて音響モデル記憶部１３に格納する（ステップＳ１０２）。総和ｓｕｍ＿ｗ＿ｓａｖｅｄで除算することにより、正規化された重みｗ_ｉ ^＊（ｊ）の合計が１となる。

＜ステップＳ１１＞
制御部１１は、バッファ１１１に格納されたｉが、ｉ＝Ｉであるかどうかを判定する。Ｉは、音響モデル記憶部１３に記憶された音響モデルを構成する混合正規分布のうち、重みが小さい基底正規分布を削除するために上記の処理の対象となる混合正規分布の数である。音響モデルを構成する混合正規分布のすべてについて上記の処理を行う場合には、音響モデルを構成する混合正規分布の数がＩとなる。

＜ステップＳ１２＞
ｉ＝Ｉでない場合には、制御部１１はバッファ１１１に格納されたｉをインクリメントする。具体的には、ｉ＝ｉ＋１とする。その後、ステップＳ３の処理を行う。
このように、ｉ＝Ｉとなるまで、上記ステップＳ３からステップＳ１０の処理を繰り返すことにより、対象となるすべての混合正規分布についてそれぞれ、重みが小さい基底正規分布を削除するという上記の処理を行うことができる。
ｉ＝Ｉである場合には、第一実施例の音響モデル生成装置１０’の処理は終わる。

この発明では、既存のベース音響モデル記憶部１２から、予め定められた削除重み閾値よりも小さい重みが掛けられた基底正規分布を削除することにより、新たな音響モデルを生成している。つまり、この発明では、背景技術に記載された方法とは異なり、学習によって既に得られているベース音響モデルの正規分布を変形させていない。このため、この発明により生成された音響モデルは、追加学習をしなくても、高い文字認識精度を有するのである。

また、この例では、混合数ｍ_ｉが大きな混合正規分布のみを対象として、基底正規分布削除部１６２が、掛けられる重みが小さい基底正規分布を削除している。これにより、この発明により生成された音響モデルを用いて行う文字認識の精度の劣化をさらに防いでいる。
図４にこの発明の実験結果を例示する。この表によれば、文字認識精度の劣化なしに、計算量を約４．２％削減していることがわかる。

［第二実施例］
図２を参照して、第二実施例の音響モデル生成装置１０’について説明をする。基底正規分布削除部１６２が、混合数ｍ_ｉの大小の如何を問わずすべての混合正規分布について、掛けられる重みが小さい基底正規分布を削除している点で、第二実施例は第一実施例と異なる。換言すれば、図３の点線で示したステップＳ４の処理を行わない点で、第二実施例は第一実施例と異なる。以下、第一実施例と異なる部分についてのみ説明をし、第一実施例と同じ部分については同じ符号をつけて重複説明を省略する。

閾値パラメータ記憶部１４には、重み閾値ｗ＿ｔｈのみが格納されており、削除混合数閾値ｍ＿ｔｈは格納されていない。
分布削除部１６は、基底正規分布削除部１６２のみからなり、第一実施例とは異なり、混合数大小判定部１６１を有しない。

削除重み閾値計算部１５が削除重み閾値ｄｅｌ＿ｗ＿ｔｈを計算した（ステップＳ３）後、基底正規分布削除部１６２は、音響モデル記憶部１３から、混合正規分布ｉを構成するｊ番目の基底正規分布ｊに掛けられる重みｗ_ｉ（ｊ）を読み込む。そして、その読み込んだ重みｗ_ｉ（ｊ）と、削除重み閾値計算部１５が計算した削除重み閾値ｄｅｌ＿ｗ＿ｔｈとを比較する（ステップＳ６）。

以降の処理は、第一実施例と同様である。すなわち、重みｗ_ｉ（ｊ）の方が小さければ、基底正規分布削除部１６２は、音響モデル記憶部１３に記憶された音響モデルの混合正規分布ｉを構成する複数の基底正規分布から、ｊ番目の基底正規分布ｊを削除する（ステップＳ６１）
削除重み閾値ｄｅｌ＿ｗ＿ｔｈの方が小さければ、基底正規分布削除部１６２は、音響モデル記憶部１３に記憶された音響モデルの混合正規分布ｉのｊ番目の基底正規分布ｊを削除しない。

第二実施例は、混合数ｍ_ｉの大小の如何を問わずすべての混合正規分布について、掛けられる重みが小さい基底正規分布を削除している。この第二実施例も、第一実施例と同様に、学習によって既に得られているベース音響モデルの正規分布を変形させていない。このため、第二実施例により生成された音響モデルも、追加学習をしなくても、高い文字認識精度を有する。

［変形例等］
上記の例では、基底正規分布削除部１６２は、削除重み閾値ｄｅｌ＿ｗ＿ｔｈとして、削除重み閾値計算部１５が計算した削除重み閾値ｄｅｌ＿ｗ＿ｔｈを用いているが、その代わりに図示していない記憶部に予め計算して格納しておいた削除重み閾値ｄｅｌ＿ｗ＿ｔｈを用いてもよい。

上記の例では、削除重み閾値計算部１５は、混合正規分布ｉごとに、重み系列Ｗ_ｉ＝｛ｗ_ｉ（１），ｗ_ｉ（２），…，ｗ_ｉ（ｍ_ｉ）｝の最大値を求めている。そして、その最大値を用いて削除重み閾値ｄｅｌ＿ｗ＿ｔｈを混合正規分布ｉごとに求めている。混合正規分布ｉについて、基底正規分布を削除するときには、削除重み閾値ｄｅｌ＿ｗ＿ｔｈとして、その混合正規分布ｉに対応する削除重み閾値ｄｅｌ＿ｗ＿ｔｈを用いている。

これに対して、全部又は一部の混合正規分布ｉから、削除重み閾値ｄｅｌ＿ｗ＿ｔｈを求め、全部又は一部（この一部は、削除重み閾値ｄｅｌ＿ｗ＿ｔｈを求めるときに基礎となった上記の一部の混合正規分布ｉとは異なる。）の混合正規分布ｉについて、基底正規分布を削除するときに、この削除重み閾値ｄｅｌ＿ｗ＿ｔｈを用いてもよい。すなわち、下記の式のように削除重み閾値ｄｅｌ＿ｗ＿ｔｈを求めてもよい。下式は、全部の混合正規分布ｉから、削除重み閾値ｄｅｌ＿ｗ＿ｔｈを求める場合の式である。

求まった削除重み閾値ｄｅｌ＿ｗ＿ｔｈは、図示していない記憶部に格納される。基底正規分布削除部１６２は、混合正規分布ｉについて、基底正規分布を削除するときに、その削除重み閾値ｄｅｌ＿ｗ＿ｔｈを読み込む。

全部又は一部の混合正規分布ｉについて共通する削除重み閾値ｄｅｌ＿ｗ＿ｔｈを用いることで、削除重み閾値ｄｅｌ＿ｗ＿ｔｈを混合正規分布ｉごとに計算する必要がなくなり、計算効率が向上する。
また、全部又は一部の混合正規分布ｉについて共通する削除重み閾値ｄｅｌ＿ｗ＿ｔｈを用いることで、混合数の大きな混合正規分布ほど多くの基底正規分布を削除することができる。この場合、削除混合数閾値ｍ＿ｔｈを明示的に用いなくても、同様の効果を得ることができ、最適なパラメータを調整するための処理負担を低減することができる。

図１，２に例示した音響モデル生成装置１０，１０’においては、各部から各部へデータが直接送られている箇所がある。これに対して、図示していない記憶部を介して、間接的にデータが送られてもよい。例えば、削除重み閾値計算部１５は、削除重み閾値ｄｅｌ＿ｗ＿ｔｈを基底正規分布削除部１６２に直接送っている。これに対して、削除重み閾値計算部１５が計算した削除重み閾値ｄｅｌ＿ｗ＿ｔｈが図示していない記憶部に格納され、基底正規分布削除部１６２がその記憶部から削除重み閾値ｄｅｌ＿ｗ＿ｔｈを読み込んでもよい。

図１，図２に点線で示すように、追加学習部１８が、音響モデル記憶部１３から基底正規分布が削除された分布削除音響モデルを読み込んで、この分布削除音響モデルに対して追加学習を行ってもよい。追加学習後音響モデルは追加学習後音響モデル記憶部１９に格納される。追加学習により、文字認識精度がさらに向上する。

上述の構成をコンピュータによって実現する場合、音響モデル生成装置１０，１０’の各部が有すべき機能の処理内容はそれぞれプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各部の機能がコンピュータ上で実現される。

すなわち、ＣＰＵが各プログラムを逐次読み込んで実行することにより、制御部１１、削除重み閾値計算部１５、分布削除部１６（混合数大小判定部１６１、基底正規分布削除部１６２）、正規化部１７（重み加算部１７１、除算部１７２）、追加学習部１８等の機能が実現される。

また、コンピュータを音響モデル生成装置１０，１０’として機能させる場合には、ベース音響モデル記憶部１２、音響モデル記憶部１３、閾値パラメータ記憶部１４、追加学習後音響モデル記憶部１９、制御部１１のバッファ１１１及び図示していない記憶部等の記憶部は、メモリ、ハードディスク等記憶手段により実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ
−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、上述した実施形態とは別の実行形態として、コンピュータが可搬型記録媒体から直接このプログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を基底する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

第一実施例の音響モデル生成装置の機能構成を例示する図。第二実施例の音響モデル生成装置の機能構成を例示する図。音響モデル生成装置の処理の流れを例示するフローチャート。実験結果を表す図。音響モデルの概念図。Ａは従来技術の音響モデル生成方法を表す概念図。Ｂはこの発明の音響モデル生成方法を表す概念図。

符号の説明

１１制御部
１３音響モデル記憶部
１４閾値パラメータ記憶部
１５削除重み閾値計算部
１６分布削除部
１７正規化部
１６１混合数大小判定部
１６２基底正規分布削除部
１７１重み加算部
１７２除算部

Claims

複数の基底正規分布が重み付き加算されることによりそれぞれ構成される複数の混合正規分布から構成される音響モデルが記憶される音響モデル記憶手段と、
上記音響モデルを構成する全部又は一部の混合正規分布のそれぞれについて、混合正規分布を構成する複数の基底正規分布から、予め定められた削除重み閾値よりも小さい重みが掛けられた基底正規分布を削除する基底正規分布削除手段と、
混合正規分布を構成する、削除されずに残った複数の基底正規分布にそれぞれ掛けられる重みの合計が１となるように、上記音響モデルを構成する混合正規分布のうち基底正規分布が削除された各混合正規分布の重み系列を正規化する正規化手段と、
を備え、
上記予め定められた削除重み閾値は、混合正規分布の重み系列の最大値が大きいほど大きい、
ことを特徴とする音響モデル生成装置。
請求項１に記載された音響モデル生成装置において、
混合正規分布を構成する基底正規分布の数を混合数として、上記音響モデル記憶手段に記憶された音響モデルを構成する一部の混合正規分布の混合数は、他の混合正規分布の混合数と異なり、
混合正規分布の混合数と、予め定められた削除混合数閾値とを比較する混合数大小判定手段を更に有し、
上記基底正規分布削除手段は、上記混合数大小判定手段において混合数が上記削除混合数閾値よりも大きいと判定された混合正規分布について、上記の削除処理を行う手段である、
ことを特徴とする音響モデル生成装置。
請求項１又は２に記載された音響モデル生成装置において、
各混合正規分布の重み系列の最大値に予め定められた正数を乗算した値を、その混合正規分布について上記基底正規分布削除手段が基底正規分布を削除するときの上記予め定められた削除重み閾値として計算する削除重み閾値計算手段、
を更に備えることを特徴とする音響モデル生成装置。
請求項１又は２に記載された音響モデル生成装置において、
全部又は一部の混合正規分布の重み系列の最大値に予め定められた正数を乗算した値を、上記予め定められた削除重み閾値として計算する削除重み閾値計算手段、
を更に備えることを特徴とする音響モデル生成装置。
音響モデル記憶手段には、複数の基底正規分布が重み付き加算されることによりそれぞれ構成される複数の混合正規分布から構成される音響モデルが記憶され、
基底正規分布削除手段が、上記音響モデルを構成する全部又は一部の混合正規分布のそれぞれについて、混合正規分布を構成する複数の基底正規分布から、予め定められた削除重み閾値よりも小さい重みが掛けられた基底正規分布を削除する基底正規分布削除ステップと、
正規化手段が、混合正規分布を構成する、削除されずに残った複数の基底正規分布にそれぞれ掛けられる重みの合計が１となるように、上記音響モデルを構成する混合正規分布のうち基底正規分布が削除された各混合正規分布の重み系列を正規化する正規化ステップと、
を有し、
上記予め定められた削除重み閾値は、混合正規分布の重み系列の最大値が大きいほど大きい、
ことを特徴とする音響モデル生成方法。
請求項５に記載された音響モデル生成方法において、
混合正規分布を構成する基底正規分布の数を混合数として、上記音響モデル記憶手段に記憶された音響モデルを構成する一部の混合正規分布の混合数は、他の混合正規分布の混合数と異なり、
混合数大小判定手段が、混合正規分布の混合数と、予め定められた削除混合数閾値とを比較する混合数大小判定ステップを更に有し、
上記基底正規分布削除ステップは、上記混合数大小判定ステップにおいて混合数が上記削除混合数閾値よりも大きいと判定された混合正規分布について、上記の削除処理を行うステップである、
ことを特徴とする音響モデル生成方法。
請求項５又は６に記載された音響モデル生成方法において、
削除重み閾値計算手段が、各混合正規分布の重み系列の最大値に予め定められた正数を乗算した値を、その混合正規分布について上記基底正規分布削除手段が基底正規分布を削除するときの上記予め定められた削除重み閾値として計算する削除重み閾値計算ステップ、
を更に有することを特徴とする音響モデル生成方法。
請求項５又は６に記載された音響モデル生成方法において、
削除重み閾値計算手段が、全部又は一部の混合正規分布の重み系列の最大値に予め定められた正数を乗算した値を、上記予め定められた削除重み閾値として計算する削除重み閾値計算ステップ、
を更に備えることを特徴とする音響モデル生成方法。
請求項１から４の何れかに記載の音響モデル生成装置の各手段としてコンピュータを機能させるための音響モデル生成プログラム。
請求項９に記載された音響モデル生成プログラムを記録したコンピュータ読み取り可能な記録媒体。