JP2006258977A

JP2006258977A - 確率モデルを圧縮する方法及びそのためのコンピュータプログラム

Info

Publication number: JP2006258977A
Application number: JP2005073813A
Authority: JP
Inventors: Soong Frank; フランク・スーン; Shiyouhei Ri; 小兵李; Satoru Nakamura; 哲中村
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2005-03-15
Filing date: 2005-03-15
Publication date: 2006-09-28

Abstract

【課題】特徴量次元においてガウスカーネルを最適にクラスタリングし効率的に割当てて確率モデルを圧縮し、元のモデルの性能を維持する。
【解決手段】第１のＨＭＭを圧縮する方法であって、各組（次元）ごとに１個のカーネルを備えたカーネルの組を準備するステップ（１７０）と、カーネルの組を用いて第１のＨＭＭを近似する第２のＨＭＭを準備するステップと、第１のＨＭＭと第２のＨＭＭとの間のＫＬＤを計算するステップ（１７２）と、カーネルを１個追加してできた新たなカーネルの組を用いて準備された第２のＨＭＭと第１のＨＭＭとの間のＫＬＤの減少が最大となるように、カーネルの組の一つに１個のカーネルを追加するステップ（１７４−１９０）と、ＫＬＤがしきい値Ｑ_THより小さくなるまで、追加するステップを繰返すステップとを含む。
【選択図】図５

Description

この発明は効率的な確率モデリングに関し、特に、ＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ：隠れマルコフモデル）等の確率モデルを圧縮し、少ない記憶容量と少ない計算量とを実現することに関する。

効率的な自動音声認識のためには、より少ない記憶容量と少ない計算量ですむ、より小型のモデルであって、かつ一定水準の認識性能を維持することが可能なものが得られることが常に望ましい。現在の最先端のコンテキスト依存、連続密度ＨＭＭに基づく大語彙音声認識システムは、かなり良好な認識性能を示すことができるが、これには通常、記憶のための大きなメモリと、局部的な対数尤度及びダイナミックプログラミングに伴う探索のための非常に複雑な計算とが対価として必要となる。はるかに大きなモデルと同等の高性能を維持しながら、より小さなＨＭＭを得ることが研究課題である。

この問題には、二つの側面からのアプローチが可能である。（１）高い識別能を持つ節減型モデルのトレーニング、例えば最小分類誤差（ｍｉｎｉｍｕｍｃｌａｓｓｉｆｉｃａｔｉｏｎｅｒｒｏｒ：ＭＣＥ）（非特許文献１を参照）または変分ベイズ（ｖａｒｉａｔｉｏｎａｌＢａｙｓｅａｎ：ＶＢ）（非特許文献２を参照）トレーニング、及び（２）望ましくは認識性能で妥協することなく、所与の高解像度（従って高性能）のモデルをより小型のものに圧縮すること、である。
Ｂ．Ｈ．ジュアン、Ｗ．チャウ及びＣ．Ｈ．リー、「音声認識のための最小分類誤差率法」、ＩＥＥＥ音響音声処理トランザクション、Ｖｏｌ．５、Ｎｏ．３、ｐｐ．２５７−２６５、１９９７年５月。（B.H. Juang, W. Chou, and C.H. Lee, "Minimum Classification Error Rate Methods for Speech Recognition", IEEE Transactions on Speech and Audio Processing, Vol. 5, No. 3, pp. 257-265, May 1997.）Ｈ．アティアス、「グラフィカルモデルのための変分ベイズフレームワーク」Ｓ．Ａ．ソラ、Ｔ．Ｋ．リーン及びＫ．ミュラー編、『神経情報処理システムの進歩１２』、ｐｐ．４９−５２、ケンブリッジ、ＭＡ、２０００、ＭＩＴプレス。（H. Attias, "A Variational Bayesian Framework for Graphical Models", In S.A. Solla, T.K. Leen, and K. Muller, editors, Advances in Neural Information Processing Systems 12, pp. 49-52, Cambridge, MA, 2000, MIT Press.）Ｓ．タカハシ及びＳ．サガヤマ、「音響モデリングの効率的表現のための４−レベル共有構造」、ＩＣＡＳＳＰ−１９９５、ｐｐ．５２０−３、１９９５年。（S. Takahashi and S. Sagayama, "Four-Level Tied-Structure for Efficient Representation of Acoustic Modeling", ICASSP-1995, pp. 520-3, 1995.）Ｅ．Ｌ．ボッチエリ及びＫ．Ｗ．マック、「サブ空間分布クラスタリングによる隠れマルコフモデル」、ＩＥＥＥ音響音声処理トランザクション、Ｖｏｌ．９、Ｎｏ．３、ｐｐ．２６４−７５、２００１年３月。（E.L. Bocchieri and K.W. Mak, "Subspace Distribution Clustering Hidden Markov Model", IEEE Trans. Speech Audio Proc. Vol. 9, No. 3, pp. 264-75, Mar. 2001.）Ｊ．キム、Ｒ．ハイミ−コーエン及びＦ．Ｋ．スーン、「ダイバージェンスベースのベクトル量子化変数を備えた隠れマルコフモデル」、ＩＣＡＳＳＰ−１９９９予稿集、ｐｐ．１２５−１２８、１９９９年。（J. Kim, R. Haimi-Cohen, and F.K. Soong, "Hidden Markov Models with Divergence based Vector Quantization Variances", ICASSP-1999, pp. 125-8, 1999.）Ｔ．Ａ．ミルフォール及びＦ．Ｋ．スーン、「ダイバージェンスを用いた多変数正規分布の最適クラスタリング及びＨＭＭへの適用とその応用」、ＩＣＡＳＳＰ−２００３予稿集、ｐｐ．５５２−５、２００３年。（T.A. Myrvoll and F.K. Soong, "Optimal Clustering of Multivariate Normal Distributions Using Divergence and Its Application to HMM Adaptation", ICASSP-2003, pp. 552-5, 2003.）Ｆ．Ｋ．スーン及びＢ．Ｈ．ジュアン、「ＬＳＰパラメータの最適量子化」ＩＥＥＥ音響音声処理トランザクション、Ｖｏｌ．１、Ｎｏ．１、ｐｐ．１５−２４、１９９３年１月。（F.K. Soong, and B.H. Juang, "Optimal Quantization of LSP Parameters", IEEE Transactions on Speech and Audio Processing, Vol. 1, No. 1, pp. 15-24, January 1993.）

連続ガウス混合分布を用いたＨＭＭモデル圧縮への第２のアプローチに従った試みがなされて来た。例えば、特徴量レベルでのパラメータ共有（非特許文献３を参照）、サブ空間分布クラスタリング（非特許文献４を参照）、又はダイバージェンスによるベクトル量子化変数（非特許文献５を参照）等である。

しかし、採用した情報−理論誤差尺度に対し、クラスタ化されたカーネルの最適セントロイドをいかにして見出すか、さらにカーネルを種々の特徴量サブ空間又は次元に対しどのように効率的に割当てるかに関して、これまでの試みでは欠けている部分、または不完全な部分があった。

従って、この発明の目的は、特徴量次元においてガウスカーネルを最適にクラスタリングしかつ効率的に割当てて、確率モデルを圧縮するとともに、元のモデルの性能を維持する方法を提供することである。

この発明の一局面は、第１の確率モデルを圧縮する方法に関する。第１の確率モデルは出力ｐｄｆを有する。出力ｐｄｆは、各々が予め定められた数の次元を有する複数個の第１の多変量ガウス分布の混合である。この方法は、それぞれの次元についてスカラーガウスカーネルの予め定められた数の組を準備するステップを含み、各組は予め定められた数のスカラーガウスカーネルを含み、さらに、出力ｐｄｆを有する第２の確率モデルを準備するステップを含み、出力ｐｄｆは各々が予め定められた数の複数次元を有する複数個の第２の多変量ガウス分布の混合であって、第２の多変量ガウス分布の各々は各次元につき１個のカーネルを有し、カーネルは予め定められたスカラーガウスカーネルの組のうち一つから選択され、当該選択は、選択されたカーネルが、第１の確率モデルの、対応する第１の多変量ガウス分布の、対応する次元におけるカーネルを最良に近似するように行なわれ、さらに、第１の確率モデルと第２の確率モデルとの間の予め定められた誤差尺度を計算するステップと、スカラーガウスカーネルの組のうち一つに１個のカーネルを追加して得られるスカラーガウスカーネルの組を用いて準備した第２の確率モデルと第１の確率モデルとの間の予め定められた誤差尺度の減少が最大となるように、スカラーガウスカーネルの組の一つに１個のカーネルを追加するステップと、この１個のカーネルを追加したスカラーガウスカーネルの組を用いて準備した第２の確率モデルと第１の確率モデルとの間の予め定められた誤差尺度が予め定められた条件を満足するまで、追加するステップを繰返すステップとを含む。

予め定められた誤差尺度はモデル精度を測定するのに用いられ、カーネルは誤差尺度の減少が最大となる特徴量次元に順々に割当てられる。この不均一カーネル割当アルゴリズムにより、元の確率モデルを(用いられるカーネルの総数という意味で）どのようなサイズに圧縮することもでき、その一方で、元の確率モデルと圧縮された確率モデルとの間の総誤差尺度は最小となる。

好ましくは、繰返すステップは、１個のカーネルを追加したスカラーガウスカーネルの組を用いて準備した第２の確率モデルと第１の確率モデルとの間の予め定められた誤差尺度が予め定められたしきい値より小さくなるまで、追加するステップを繰返すステップを含む。

さらに好ましくは、予め定められた誤差尺度は、多変量ガウス分布のそれぞれの次元における、第１の確率モデルのカーネルと第２の確率モデルのカーネルとの対称カルバック−ライブラーダイバージェンスの合計である。

追加するステップは、第２の確率モデルのその次元に１個のカーネルを追加すると、第１の確率モデルと第２の確率モデルとの間の誤差尺度の減少が最大になるような次元を決定するステップと、第２の確率モデルのその次元にカーネルを追加するステップとを含んでもよい。

この発明の第２の局面は、コンピュータ上で実行されると、上述のいずれかの方法のすべてのステップをコンピュータに行なわせるコンピュータプログラムに関する。

[はじめに]
モデル解像度とリソース割当との良好なトレードオフを見出すために、この実施の形態では、最適クラスタセントロイド計算（非特許文献５を参照）に従って、対称カルバック−ライブラーダイバージェンス(以下「ＫＬＤ」）を誤差尺度として用いた、各スカラー次元におけるカーネルのクラスタリングを提案する。最適セントロイドの近似は、非特許文献６で提案されている。

特徴量レベルのパラメータ共有又はサブ空間ＨＭＭクラスタリングでは、各次元又はサブ空間を通じて同数のカーネルが用いられている。しかし、異なる次元又はサブ空間の特徴量が、不均一な識別能を有していてもよい筈である。所与のレートで歪を最小化するために異なるＬＰＣ（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇ：線形予測符号化）にビットを不均一に割当てる際にレート歪理論が活用されている（非特許文献７を参照）が、このレート歪理論に啓発されて、この実施の形態では、不均一なカーネル割当アルゴリズムを用いる。

同じ対称ＫＬＤを用いてモデル精度を測定し、ＫＬＤの減少が最大となる特徴量次元にカーネルが順に割当てられる。この不均一カーネル割当アルゴリズムによって、元のＨＭＭを(用いられるカーネルの総数という意味で）どのようなサイズに圧縮することもでき、その一方で、元のＨＭＭと圧縮されたＨＭＭとの間の総ＫＬＤは最小となる。

ＨＭＭは複数の状態を有する。図１を参照して、状態の各々（例えば、図１の状態５０）はガウス混合モデル(Ｇａｕｓｓｉａｎｍｉｘｔｕｒｅｍｏｄｅｌ：ＧＭＭ）を含む。音響特徴量等のデータの特徴量は、ベクトルで準備される。従って、ＧＭＭは複数の多変量ガウス分布６０、６２、６４、６６を有する。分布６０、６２、６４、６６の各々は、多変量ガウス分布である。

例えば、分布６０はそのすべてのスカラー成分、例えば、それぞれ第１、第２、第３次元のスカラーガウスカーネル７０Ａ、７０Ｂ、７０Ｃ等で表すことができる。同様に、第２次元の分布６２はそれぞれスカラーガウスカーネル７２Ａ、７２Ｂ、７２Ｃ…の混合として表すことができ、第３次元の分布６４はそれぞれスカラーガウスカーネル７４Ａ、７４Ｂ、７４Ｃ…の混合として表すことができる。

この実施の形態では、元のモデルの各スカラー次元内のガウス分布カーネルの数を圧縮処理８０によって減じて一組のガウス分布カーネルを形成し、これを用いて、対応する元のｐｄｆを近似する新たなｐｄｆを形成する。

すなわち、各次元のカーネルを、圧縮されたカーネルの組９０、９２、９４等のカーネルによって、以下のように近似する。

図１及び図２を参照して、元の確率モデルの多変量ガウス分布６０、６２、６４、６６等の特定の次元に対するスカラーガウスカーネルが、カーネル２０、２２、２４、２６、２８及び３０を含むと仮定し、さらに、この次元のセントロイドカーネルの数が２まで減じられる（カーネル４０及び４２）、すなわち、セントロイドカーネルの組が２個のカーネル４０及び４２のみを含む、と仮定すると、カーネル２０、２２及び２４は最も近いセントロイドカーネル４０によって近似され、カーネル２６、２８及び３０は最も近いセントロイドカーネル４２によって近似される。その後カーネル４０及び４２を用いて、図１に示すとおり、各次元内のその特定の次元において、元のカーネル２０、２２、２４、２６、２８及び３０に代えて分布１１０、１１２、１１４、１１６等を形成する。

こうして、多変量ガウス分布６０、６２、６４、６６の第１次元のスカラーガウスカーネルは一組のスカラーカーネル９０に削減される。第２次元のカーネルは別の組のスカラーカーネル９２に削減され、第３次元のカーネルはさらに別の組のスカラーカーネル９４に削減され、以下同様である。圧縮モデル状態１００は、これらのスカラーカーネルの組から、以下のようにして得られる。

多変量ガウス分布１１０は、第１次元の組９０からの一分布、第２次元の組９２からの一分布、第３次元の組９４からの一分布、等を含む。同様に、多変量ガウス分布１１２は第１次元の組９０からの一分布、第２次元の組９２からの一分布、組９４からの一分布、等を含む。同様に、多変量ガウス分布１１４及び１１６は、組９０、９２、９４等を用いて形成される。このようにして得られた圧縮モデル状態１００は、元の状態５０の近似である。

この実施の形態では、それぞれの次元のセントロイドカーネルの数は最適化されている、すなわち、圧縮処理８０において独立して決定される。最適化プロセスは、ＫＬＤに基づく。それぞれのスカラー次元のカーネル数を独立して最適化することにより、ＨＭＭの記憶サイズと計算の必要量とを削減しながら、比較的高いモデル解像度を得ることができる。

［ＫＬＤに基づく最適セントロイド］
ここで所与の二つのｐｄｆ、ｆおよびｇ間の誤差（距離）を測定するために用いられる対称カルバック−ライブラー・ダイバージェンスは、以下の式で定義される。

以下の式に従ってクラスタセントロイドとクラスタ内の全てのカーネルとの合計ＫＬＤを最小化することにより、最適クラスタセントロイドｆ_cが得られる。

多変数ガウス分布では、式（１）の対称ＫＬＤの閉じた式があり、これは以下で表される。

ここでμ及びＲは対応する分布の平均と分散とである。最適セントロイドは一組のリカッティ行列式（非特許文献６を参照）を解くことで得られる。対角共分散の特殊な事例では、最適セントロイドのｉ次元の平均と分散、すなわちμ_ci及びσ_ci ²は以下の通りである。

ＫＬＤ全体は、セントロイドのガウスｐｄｆの平均及び共分散の両者の凸関数であることが示されている。経験から、発明者らはさらに、ごくわずかな反復のみで、セントロイドがその最適値に収束することを見出した（非特許文献６を参照）。

図３は、特徴量次元Ｃ₁内のコンテキスト依存ＨＭＭ（後述）の７，０７０個のガウスカーネルを示し、これらがそれぞれ４個、８個及び１６個のセントロイドカーネルに最適クラスタ化されている。元の７，０７０個のカーネルをその最も近いセントロイドによって表すときの忠実度は、セントロイドの数が４から１６に増すにつれて単調に改善する。

この実施の形態で仮定する対角共分散の場合、多変量ガウスｐｄｆはそのすべてのスカラーの、統計的に独立な成分の積として表すことができる。この結果、対応の多変量ＫＬＤはそのスカラー成分について線形加算的となる。この特性は、この実施の形態で用いられる不均一なカーネル割当アルゴリズムがなぜ特徴量次元でのスカラー検索へと分解できるかの基礎を成している。

[ＨＭＭ圧縮のための不均一カーネル割当]
不均一なカーネル割当アルゴリズムは特徴量次元を探索し、(最適クラスタリング手続きで生成された組から）追加のセントロイドカーネルを一つずつ順にセントロイドカーネルサブセットに割当てる。余分のカーネルを割当てるための次元は、ＫＬＤ誤差の総計の最大減少に基づいて選ばれる。ＫＬＤは、量子化されていない、もとのＨＭＭで用いられるカーネルと、圧縮されたＨＭＭを形成することとなる（セントロイドサブセット中の）その最も近い隣接カーネルとの誤差を測定することで計算される。これはスカラー特徴量次元で成分ごとに検索される。なぜなら、対角共分散を伴う２個の多変量ガウスカーネル間のＫＬＤ誤差は、そのスカラー成分において線形加算的だからである。これは依然として、やはりどう考えても貪欲探索アルゴリズムである。しかし、後述するように、性質として貪欲的ではあるものの、この実施の形態で用いられるアルゴリズムは、（Ｍ，Ｌ）検索において各検索サイクルではるかに多くのＭ（保持候補）を維持する場合と事実上同じ結果を与える。

[構造]
図４はこの発明の一実施の形態に従った自動音声認識装置（ＡｕｔｏｍａｔｉｃＳｐ
ｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ：ＡＳＲ）システム１３０の構造を示す。図４を参照して、ＡＳＲシステム１３０は、セグメント化され音声表記が付された音声データを含むトレーニングコーパス１４０と、トレーニングコーパス１４０内の音声データをトレーニングデータとして利用して、ＨＭＭ音響モデルをトレーニングするトレーニングモジュール１４２と、上述のように、ＨＭＭ音響モデル１４４内の状態の各々のカーネルをクラスタリングすることによって、ＨＭＭ音響モデル１４４を圧縮するための圧縮モジュール１４６とを含む。結果として得られる圧縮されたＨＭＭ音響モデル１４８がＡＳＲに用いられる。

ＡＳＲシステム１３０はさらに、言語モデル１５０と、入力発話１５２の音声データを受け、ＨＭＭ音響モデル１４８及び言語モデル１５０を利用して入力音声を認識し、結果として得られるテキスト１５６を出力するＡＳＲモジュール１５４とを含む。

圧縮モジュール１４６はコンピュータハードウェア及びその上で実行されるコンピュータソフトウェアで実現できる。ソフトウェアの全体制御構造を図５に示す。

図５を参照して、起動されると、このプログラムはステップ１７０から始まり、ここでＨＭＭが各次元につき１カーネルという形で初期化される。ステップ１７２で、現在のＫＬＤが計算され、作業変数Ｑ_NEWに記憶される。

ステップ１７４で、Ｑ_NEWの値が別の作業変数Ｑ_OLDに記憶され、別の変数ΔＱがゼロにクリアされる。

ステップ１７６で、繰返し制御変数ｉがゼロに初期化される。ステップ１７８で、変数ｉが１だけ増分される。ステップ１８０で、変数ｉがＨＭＭパラメータの次元の数、Ｎ_DIMより大きいか否かが判定される。もし変数ｉがＮ_DIMより大きい場合、制御はステップ１９２に進み、そうでなければ制御はステップ１８２に進む。

ステップ１８２で、ｉ番目の次元のカーネルに１個のカーネルが追加され、新たなカーネルの組を用いて、新たな圧縮ＨＭＭが準備される。ステップ１８４で、現在のＫＬＤが計算され、変数Ｑ_NEWに記憶される。

ステップ１８６で、Ｑ_OLD−Ｑ_NEWがΔＱより大きいか否かが判断される。そうであれば、制御はステップ１８８に進み、そうでなければ、ステップ１９０に進む。

ステップ１８８で、ΔＱは以下のように計算される：
ΔＱ＝Ｑ_OLD−Ｑ_NEW
そしてｉの値が変数ＤＩＭに記憶される。

ステップ１９０で、ステップ１８２で割当てられたカーネルがｉ番目の次元から除去される。

ステップ１９０の後、制御はステップ１７８に戻る。

ステップ１８０で変数ｉがＮ_ＤＩＭより大きいと判定されると、ＤＩＭ番目の次元に追加のカーネルが一つ追加される。ステップ１９２で、変数ＤＩＭは、ＫＬＤの減少ΔＱが最大となるスカラー次元の数を記憶していることになる。従って、新たなカーネルの組は、その数のカーネルに対し、最適の（最小の）ＫＬＤをあたえる。

ステップ１９４で、現在のＫＬＤ値Ｑ_NEWが以下のように更新される。

Ｑ_NEW＝Ｑ_OLD−ΔＱ
その後ステップ１９６で、更新されたＱ_NEWが予め定められたしきい値Ｑ_THより小さいか否かが判断される。もしそうであれば、処理は終了する。そうでなければ、制御はステップ１７４に戻り、ステップ１９６でＱ_NEWがしきい値Ｑ_THより小さいと判断されるまで、上述の処理が繰返される。

[コンピュータによる実現]
明らかなとおり、上述の実施の形態はコンピュータハードウェアとその上で実行されるコンピュータソフトウェアによって実現可能である。ソフトウェアの制御構造は図５を参照して説明した。図６はこの実施の形態のコンピュータシステム３３０の外観図であり、図７はシステム３３０をブロック図で示す。

図６を参照して、コンピュータシステム３３０は、ＦＤ（ＦｌｅｘｉｂｌｅＤｉｓｋ）ドライブ３５２及びＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）ドライブ３５０を有するコンピュータ３４０と、キーボード３４６と、マウス３４８と、モニタ３４２とを含む。

図７を参照して、コンピュータ３４０はさらに、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）３５６と、ＣＰＵ３５６、ＣＤ−ＲＯＭドライブ３５０及びＦＤドライブ３５２に接続されたバス３６６と、ブートアッププログラム等のプログラムを記憶するＲＯＭ（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）３５８と、ＣＰＵ３５６に接続されアプリケーションプログラム命令、システムプログラム及びデータを記憶するためのＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）３６０と、ハードディスク３５４と、プリンタ３４４とを含む。

ここでは図示しないが、コンピュータ３４０はさらに、ローカルエリアネットワーク（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ：ＬＡＮ）への接続を提供するネットワークアダプタボードを含んでもよい。

ＨＭＭモデルを圧縮する方法をコンピュータシステム３３０に実行させるプログラムは、ＣＤ−ＲＯＭ３６２又はＦＤ３６４等に記憶され、これらがＣＤ−ＲＯＭドライブ３５０又はＦＤドライブ３５２に挿入されると、さらにハードディスク３５４に転送される。又は、これに代えて、図示しないネットワークを介してコンピュータ３４０にプログラムを送信し、ハードディスク３５４に記憶してもよい。プログラムは実行の際にＲＡＭ３６０にロードされる。プログラムはＣＤ−ＲＯＭ３６２、ＦＤ３６４又はネットワークから直接ＲＡＭ３６０にロードされてもよい。

図５を参照して説明したプログラムは、コンピュータ３４０にこの実施の形態に係る方法を実行させるための複数の命令を含む。この方法を実行するために必要とされる基本的な機能の幾つかはコンピュータ３４０上で動作しているオペレーティングシステム（ＯＳ）又はサードパーティプログラム、又はコンピュータ３４０にインストールされたＨＭＭツールキット等のモジュールによって提供されるので、プログラムは必ずしもこの発明の実施の形態を実現するのに必要なすべての基本的機能を含まなくてもよい。プログラムは、所望の結果が得られるように制御された様態で適切な機能または「ツール」を呼び出すことにより圧縮処理を行なう命令の部分のみを含んでいればよい。コンピュータ３３０がどのように動作するかは周知であるので、説明は省略する。

[動作]
この実施の形態に係るＡＳＲシステム１３０は以下のように動作する。図４を参照して、トレーニングコーパス１４０が準備される。トレーニングコーパス１４０はセグメント化されたスピーチデータと、関連の音声表記とを含む。

トレーニングモジュール１４２は、トレーニングコーパス１４０をトレーニングデータとして用いて、ＨＭＭ音響モデル１４４をトレーニングする。ＨＭＭモデルをトレーニングするツールは容易に入手可能であり、従って、トレーニングの詳細はここでは説明しない。

次に、圧縮モジュール１４６がＨＭＭ音響モデル１４４を以下のように圧縮する。まず、圧縮モジュール１４６がスカラー次元ごとに１個のカーネルでＨＭＭを初期化し（図５、ステップ１７０）、ＫＬＤを計算する（ステップ１７２）。圧縮モジュール１４６は計算されたＫＬＤを変数Ｑ_NEWおよびＱ_OLDに記憶する（ステップ１７４）。

圧縮モジュール１４６はＨＭＭの第１次元に１個のカーネルを追加し（ステップ１８２）、再びＫＬＤを計算する。圧縮モジュール１４６は計算されたＫＬＤをＱ_NEWに記憶する（ステップ１８４)。Ｑ_OLD−Ｑ_NEWがΔＱより大きいか否かが判断される(ステップ１８６）。Ｑ_OLD−Ｑ_NEWがΔＱより大きい場合、その次元の数（すなわち、この繰返しでは１）が変数ＤＩＭに記憶され、ΔＱが次により計算される（ステップ１８８）。

ΔＱ＝Ｑ_OLD−Ｑ_NEW
その後、第１x次元に割当てられたカーネルが除かれる（ステップ１９０）。

次に、残りのスカラー次元について、一度に１次元ずつ、同じ処理が繰返される（ステップ１７８から１９０）。この処理が完了すると（ステップ１８０でＹＥＳ）、ＫＬＤの減少が最大となる次元の数が変数ＤＩＭに記憶されている。その後、変数ＤＩＭで示される次元に追加のカーネルが割当てられる（ステップ１９２）。

その後、Ｑ_NEWが以下のように更新される(ステップ１９４）。

Ｑ_NEW＝Ｑ_OLD−ΔＱ
このようにして更新されたＱ_NEWがしきい値Ｑ_THより小さいか否かが判断される（ステップ１９６）。もしそうなら（ステップ１９６でＹＥＳ）、結果として得られるカーネルの組は最適化されたと判断され、圧縮モジュールは動作を停止する。もしそうでなければ（ステップ１９６でＮＯ）、同じ動作が行なわれてどの次元に第２のカーネルを追加するべきかを判定する（ステップ１７４から１９６）。決定された次元に第２のカーネルが追加され（ステップ１９２）、Ｑ_NEWが更新される（ステップ９４）。Ｑ_NEWがしきい値Ｑ_THより小さいか否かによって（ステップ１９６の判定）、処理が終了するか、又は第３のカーネルを追加すべく処理が行なわれる（ステップ１７４から１９６）。

上述の処理は更新されたＱ_NEWがしきい値Ｑ_THより小さくなるまで繰返される。Ｑ_NEWがしきい値Ｑ_THより小さいと判定されると（ステップ１９６）、圧縮モデルが圧縮モジュール１４６からＨＭＭ音響モデル１４８として出力される。

ＨＭＭ音響モデル１４８と言語モデル１５０とが利用可能となると、ＡＳＲモジュール１５４は入力発話１５２を受ける準備が整い、ＨＭＭ音響モデル１４８と言語モデル１５０とを利用して音声データを認識し、認識されたテキスト１５６を出力する。

[実験結果]
この実施の形態の最適クラスタリング方法を、ＤＡＲＰＡ（ＴｈｅＤｅｆｅｎｓｅＡｄｖａｎｃｅｄＲｅｓｅａｒｃｈＰｒｏｊｅｃｔｓＡｇｅｎｃｙ）９９１単語リソースマネジメントデータベースで試験した。この実現に際しては、標準的なＳＩ−１０９トレーニングデータセット（３，９９０発話）を用いてＨＭＭをトレーニングした。ＣＭＵ（ＣａｒｎｅｇｉｅＭｅｌｌｏｎＵｎｉｖｅｒｓｉｔｙ：カーネギーメロン大学）４８フォンセットを用いて、１，４１４個の結合状態と、１状態ごとに５個のガウス混合分布を持つコンテキスト依存の（ｃｏｎｔｅｘｔｄｅｐｅｎｄｅｎｔ：ＣＤ）モデルを生成した。このＣＤＨＭＭでは合わせて７，０７０個のカーネルが用いられる。特徴量は従来の３９次元メル周波数ケプストラム計数（ｍｅｌ−ｆｒｅｑｕｅｎｃｙｃｅｐｓｔｒｕｍｃｏｅｆｆｉｃｉｅｎｔｓ：ＭＦＣＣ）（１２個の静的ＭＦＣＣ及び対数エネルギ、並びにそれらの第１次、第２次の時間導関数）であった。

図８はカーネルクラスタリング性能を示し、ここでは対応のＫＬＤが特徴量Ｃ₁、Ｃ₂、Ｃ₁₂、Ｅ、ΔＥおよびΔΔＣ₁₂のカーネル数に対してプロットされている。カーネル数が少ない場合（すなわち低レート）を除き、対数-対数プロットでは比較的まっすぐな、レート歪曲線の平行な線が得られるが、異なる特徴量では切片が異なる。他の特徴量のレート歪曲線も同様の傾向を示す。

種々の特徴量の成分レート歪曲線に基づき、不均一なカーネル割当アルゴリズムにより複合レート歪曲線が生成される。これは図９に示され、ここではＫＬＤが次元ごとの平均カーネルに対して示されている。不均一な割当は、図９に破線でプロットされた固定された均一なカーネル割当に比べ、良好なレート歪曲線を生じさせる。

図１０は固定的、及び適応的不均一カーネル割当の両者における次元ごとの平均カーネル数に対する認識性能曲線を示す。予想されたように、カーネルの数が対等であれば、不均一な割当の方がＫＬＤがより低いため、固定割当に比べ認識性能が良好である。さらに、この実施の形態で用いられた貪欲探索アルゴリズムは、Ｍ＝２００、Ｌ＝３９の（Ｍ，Ｌ）検索と事実上同じ結果を与えることがわかった。

図１１及び図１２において、認識性能（ＷＥＲ：ＷｏｒｄＥｒｒｏｒＲａｔｅ：単語誤り率）を、メモリ記憶容量と、種々の圧縮率での計算(乗算／除算のみ）量とに対してそれぞれプロットしている。記憶容量に関し、固定及び適応的不均一カーネル割当の両者において用いられる各カーネルのインデックスを符号化するのに、１バイト（２５６の可能性）が用いられた。この計算のために、ｊ番目の状態の対数尤度が以下のように計算された。

ここで、ＤはＧＭＭのスカラー次元の数を示す。

ガウスカーネルがスカラー次元でクラスタ化され共有されるので、以下に示す第３項

は予め計算されすべての出力ｐｄｆで共有される小型のテーブルに記憶される。固定的及び適応的不均一カーネル割当に関し、加算／減算量の要件はほぼ同じで、元のＨＭＭの複雑さの約５０％である。従って、乗算／除算のみの計算レートをプロットしている。

図１１及び図１２から、固定的及び適応的不均一割当が記憶容量と計算量とをかなり節約することが明確に分かる。計算及びメモリ資源が対等であれば、不均一な割当のほうが一般に良好な性能を示し、特に圧縮率が高い（カーネルがより少ない）場合に良好である。

[結論]
ＨＭＭ特徴量（スカラー）次元でのガウスカーネルの最適クラスタリングと不均一な割当のための、ＨＭＭモデルの圧縮方法とそのための装置が、上述の実施の形態で提案された。カーネルのクラスタリングと割当との両者について、普遍的な誤差尺度として対称ＫＬＤを用いた。不均一なカーネル割当を、すべての特徴量次元を検索することにより、一度に一カーネルずつ順に行なった。

計算上効率が良くまとまっている小型のＨＭＭは、レート歪曲線に沿ったどの動作点でも要求にあわせて作成できる。ＲＭデータベースでテストしたところ、元の、コンテキスト依存の音素ＨＭＭをその元のサイズの１５−２０％、元の乗算／除算演算の１−５％に圧縮することができ、認識性能の劣化はほとんど無視できるものであった。

[可能な変形例]
上述の実施の形態では、圧縮モジュール１４６は各スカラー次元につき１個のカーネルでＨＭＭを初期化する（図５、ステップ１７０）。しかし、この発明はそのような実施の形態に限定されない。例えば、ＨＭＭは、各スカラー次元につき２個または３個のカーネルで初期化しても良い。さらに、ＨＭＭ次元のカーネルの初期数は互いに異なっていても良い。

図５で、ステップ１７４から１９６はステップ１９６で更新されたＱ_NEWがＱ_THより小さいと判断されるまで繰返される。しかし、この発明はそのような実施の形態に限定されず、別の条件が満たされたときに繰返しを終了しても良い。例えば、予め定められた繰返しの後、処理を終了しても良い。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。

この発明の一実施の形態に従ったＨＭＭの圧縮を概略的に示す図である。カーネルがどのようにカーネルにクラスタリングされるかを示す図である。７，０７０個のカーネルと対応する４、８、１６個の最適セントロイドカーネルとを示す図である。この発明の一実施の形態に従ったＡＳＲシステム１３０の構造を示す図である。実施の形態のクラスタリングのフローチャートである。クラスタリングプログラムを実行するコンピュータシステム３３０の外観を示す図である。コンピュータシステム３３０の構造を示すブロック図である。カーネルのクラスタリング性能を示す図であって、対応のＫＬＤが異なる特徴量に関しカーネル数に対してプロットされた図である。この発明の一実施の形態のレート歪曲線を示す図であって、次元ごとの平均カーネルに対するＫＬＤを示す図である。固定及び適応不均一カーネル割当について、次元ごとの平均カーネル数に対する、一実施の形態の認識性能曲線を示す図である。この発明の実施の形態に従った記憶性能を示す図である。この発明の実施の形態に従った計算性能を示す図である。

符号の説明

２０、２２、２４、２６、２８、３０ガウスカーネル
４０、４２カーネル
５０、１００状態
８０圧縮処理
１３０ＡＳＲシステム
１４０トレーニングコーパス
１４２トレーニングモジュール
１４４ＨＭＭ音響モデル
１４６圧縮モジュール
１４８ＨＭＭ音響モデル（圧縮）
１５０言語モデル
１５２入力発話
１５４ＡＳＲモジュール

Claims

第１の確率モデルを圧縮する方法であって、前記第１の確率モデルは出力確率密度関数（ｐｒｏｂａｂｉｌｉｔｙｄｅｎｓｉｔｙｆｕｎｃｔｉｏｎ：ｐｄｆ）を有し、当該出力ｐｄｆは、各々が予め定められた数の次元を有する複数個の第１の多変量ガウス分布の混合であり、
それぞれの次元についてスカラーガウスカーネルの予め定められた数の組を準備するステップを含み、各組は予め定められた数のスカラーガウスカーネルを含み、さらに、
出力ｐｄｆを有する第２の確率モデルを準備するステップを含み、当該出力ｐｄｆは各々が予め定められた数の複数次元を有する複数個の第２の多変量ガウス分布の混合であって、当該第２の多変量ガウス分布の各々は各次元につき１個のカーネルを有し、当該カーネルは、予め定められたスカラーガウスカーネルの組のうち一つから選択され、当該選択は、選択されたカーネルが、前記第１の確率モデルの、対応する第１の多変量ガウス分布の、対応する次元におけるカーネルを最良に近似するように行なわれ、さらに、
前記第１の確率モデルと前記第２の確率モデルとの間の予め定められた誤差尺度を計算するステップと、
前記スカラーガウスカーネルの組のうち一つに１個のカーネルを追加して得られるスカラーガウスカーネルの組を用いて準備した前記第２の確率モデルと、前記第１の確率モデルとの間の前記予め定められた誤差尺度の減少が最大となるように、前記スカラーガウスカーネルの組のうち一つに１個のカーネルを追加するステップと、
前記１個のカーネルを追加したスカラーガウスカーネルの組を用いて準備した前記第２の確率モデルと、前記第１の確率モデルとの間の前記予め定められた誤差尺度が予め定められた条件を満足するまで、前記追加するステップを繰返すステップとを含む、確率モデルを圧縮する方法。
前記繰返すステップが、前記１個のカーネルを追加したスカラーガウスカーネルの組を用いて準備した前記第２の確率モデルと、前記第１の確率モデルとの間の予め定められた誤差尺度が予め定められたしきい値より小さくなるまで、前記追加するステップを繰返すステップを含む、請求項１に記載の方法。
前記予め定められた誤差尺度が、前記多変量ガウス分布のそれぞれの次元における、前記第１の確率モデルのカーネルと前記第２の確率モデルのカーネルとの対称カルバック−ライブラーダイバージェンスの合計である、請求項１又は請求項２に記載の方法。
前記追加するステップが、
前記ガウスカーネルの組のうち一つに１個のカーネルを追加して得られるガウスカーネルの組を用いて前記第２の確率モデルを準備したときに、前記第１の確率モデルと前記第２の確率モデルとの間の誤差尺度の減少が最大になるような次元を決定するステップと、
前記第２の確率モデルのその次元にカーネルを追加するステップとを含む、請求項１〜請求項３のいずれかに記載の方法。
コンピュータ上で実行されると、請求項１から請求項４のいずれかに記載のすべてのステップをコンピュータに行わせる、コンピュータプログラム。