JP2006258977A - 確率モデルを圧縮する方法及びそのためのコンピュータプログラム - Google Patents

確率モデルを圧縮する方法及びそのためのコンピュータプログラム Download PDF

Info

Publication number
JP2006258977A
JP2006258977A JP2005073813A JP2005073813A JP2006258977A JP 2006258977 A JP2006258977 A JP 2006258977A JP 2005073813 A JP2005073813 A JP 2005073813A JP 2005073813 A JP2005073813 A JP 2005073813A JP 2006258977 A JP2006258977 A JP 2006258977A
Authority
JP
Japan
Prior art keywords
kernel
kernels
probability model
dimension
gaussian
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2005073813A
Other languages
English (en)
Other versions
JP2006258977A5 (ja
Inventor
Soong Frank
フランク・スーン
Shiyouhei Ri
小兵 李
Satoru Nakamura
哲 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2005073813A priority Critical patent/JP2006258977A/ja
Publication of JP2006258977A publication Critical patent/JP2006258977A/ja
Publication of JP2006258977A5 publication Critical patent/JP2006258977A5/ja
Withdrawn legal-status Critical Current

Links

Images

Abstract

【課題】特徴量次元においてガウスカーネルを最適にクラスタリングし効率的に割当てて確率モデルを圧縮し、元のモデルの性能を維持する。
【解決手段】第1のHMMを圧縮する方法であって、各組(次元)ごとに1個のカーネルを備えたカーネルの組を準備するステップ(170)と、カーネルの組を用いて第1のHMMを近似する第2のHMMを準備するステップと、第1のHMMと第2のHMMとの間のKLDを計算するステップ(172)と、カーネルを1個追加してできた新たなカーネルの組を用いて準備された第2のHMMと第1のHMMとの間のKLDの減少が最大となるように、カーネルの組の一つに1個のカーネルを追加するステップ(174−190)と、KLDがしきい値QTHより小さくなるまで、追加するステップを繰返すステップとを含む。
【選択図】 図5

Description

この発明は効率的な確率モデリングに関し、特に、HMM(Hidden Markov Model:隠れマルコフモデル)等の確率モデルを圧縮し、少ない記憶容量と少ない計算量とを実現することに関する。
効率的な自動音声認識のためには、より少ない記憶容量と少ない計算量ですむ、より小型のモデルであって、かつ一定水準の認識性能を維持することが可能なものが得られることが常に望ましい。現在の最先端のコンテキスト依存、連続密度HMMに基づく大語彙音声認識システムは、かなり良好な認識性能を示すことができるが、これには通常、記憶のための大きなメモリと、局部的な対数尤度及びダイナミックプログラミングに伴う探索のための非常に複雑な計算とが対価として必要となる。はるかに大きなモデルと同等の高性能を維持しながら、より小さなHMMを得ることが研究課題である。
この問題には、二つの側面からのアプローチが可能である。(1)高い識別能を持つ節減型モデルのトレーニング、例えば最小分類誤差(minimum classification error:MCE)(非特許文献1を参照)または変分ベイズ(variational Baysean:VB)(非特許文献2を参照)トレーニング、及び(2)望ましくは認識性能で妥協することなく、所与の高解像度(従って高性能)のモデルをより小型のものに圧縮すること、である。
B.H.ジュアン、W.チャウ及びC.H.リー、「音声認識のための最小分類誤差率法」、IEEE 音響音声処理トランザクション、Vol.5、No.3、pp.257−265、1997年5月。(B.H. Juang, W. Chou, and C.H. Lee, "Minimum Classification Error Rate Methods for Speech Recognition", IEEE Transactions on Speech and Audio Processing, Vol. 5, No. 3, pp. 257-265, May 1997.) H.アティアス、「グラフィカルモデルのための変分ベイズフレームワーク」S.A.ソラ、T.K.リーン及びK.ミュラー編、『神経情報処理システムの進歩 12』、pp.49−52、ケンブリッジ、MA、2000、MITプレス。(H. Attias, "A Variational Bayesian Framework for Graphical Models", In S.A. Solla, T.K. Leen, and K. Muller, editors, Advances in Neural Information Processing Systems 12, pp. 49-52, Cambridge, MA, 2000, MIT Press.) S.タカハシ及びS.サガヤマ、「音響モデリングの効率的表現のための4−レベル共有構造」、ICASSP−1995、pp.520−3、1995年。(S. Takahashi and S. Sagayama, "Four-Level Tied-Structure for Efficient Representation of Acoustic Modeling", ICASSP-1995, pp. 520-3, 1995.) E.L.ボッチエリ及びK.W.マック、「サブ空間分布クラスタリングによる隠れマルコフモデル」、IEEE 音響音声処理トランザクション、Vol.9、No.3、pp.264−75、2001年3月。(E.L. Bocchieri and K.W. Mak, "Subspace Distribution Clustering Hidden Markov Model", IEEE Trans. Speech Audio Proc. Vol. 9, No. 3, pp. 264-75, Mar. 2001.) J.キム、R.ハイミ−コーエン及びF.K.スーン、「ダイバージェンスベースのベクトル量子化変数を備えた隠れマルコフモデル」、ICASSP−1999予稿集、pp.125−128、1999年。(J. Kim, R. Haimi-Cohen, and F.K. Soong, "Hidden Markov Models with Divergence based Vector Quantization Variances", ICASSP-1999, pp. 125-8, 1999.) T.A.ミルフォール及びF.K.スーン、「ダイバージェンスを用いた多変数正規分布の最適クラスタリング及びHMMへの適用とその応用」、ICASSP−2003予稿集、pp.552−5、2003年。(T.A. Myrvoll and F.K. Soong, "Optimal Clustering of Multivariate Normal Distributions Using Divergence and Its Application to HMM Adaptation", ICASSP-2003, pp. 552-5, 2003.) F.K.スーン及びB.H.ジュアン、「LSPパラメータの最適量子化」IEEE 音響音声処理トランザクション、Vol.1、No.1、pp.15−24、1993年1月。(F.K. Soong, and B.H. Juang, "Optimal Quantization of LSP Parameters", IEEE Transactions on Speech and Audio Processing, Vol. 1, No. 1, pp. 15-24, January 1993.)
連続ガウス混合分布を用いたHMMモデル圧縮への第2のアプローチに従った試みがなされて来た。例えば、特徴量レベルでのパラメータ共有(非特許文献3を参照)、サブ空間分布クラスタリング(非特許文献4を参照)、又はダイバージェンスによるベクトル量子化変数(非特許文献5を参照)等である。
しかし、採用した情報−理論誤差尺度に対し、クラスタ化されたカーネルの最適セントロイドをいかにして見出すか、さらにカーネルを種々の特徴量サブ空間又は次元に対しどのように効率的に割当てるかに関して、これまでの試みでは欠けている部分、または不完全な部分があった。
従って、この発明の目的は、特徴量次元においてガウスカーネルを最適にクラスタリングしかつ効率的に割当てて、確率モデルを圧縮するとともに、元のモデルの性能を維持する方法を提供することである。
この発明の一局面は、第1の確率モデルを圧縮する方法に関する。第1の確率モデルは出力pdfを有する。出力pdfは、各々が予め定められた数の次元を有する複数個の第1の多変量ガウス分布の混合である。この方法は、それぞれの次元についてスカラーガウスカーネルの予め定められた数の組を準備するステップを含み、各組は予め定められた数のスカラーガウスカーネルを含み、さらに、出力pdfを有する第2の確率モデルを準備するステップを含み、出力pdfは各々が予め定められた数の複数次元を有する複数個の第2の多変量ガウス分布の混合であって、第2の多変量ガウス分布の各々は各次元につき1個のカーネルを有し、カーネルは予め定められたスカラーガウスカーネルの組のうち一つから選択され、当該選択は、選択されたカーネルが、第1の確率モデルの、対応する第1の多変量ガウス分布の、対応する次元におけるカーネルを最良に近似するように行なわれ、さらに、第1の確率モデルと第2の確率モデルとの間の予め定められた誤差尺度を計算するステップと、スカラーガウスカーネルの組のうち一つに1個のカーネルを追加して得られるスカラーガウスカーネルの組を用いて準備した第2の確率モデルと第1の確率モデルとの間の予め定められた誤差尺度の減少が最大となるように、スカラーガウスカーネルの組の一つに1個のカーネルを追加するステップと、この1個のカーネルを追加したスカラーガウスカーネルの組を用いて準備した第2の確率モデルと第1の確率モデルとの間の予め定められた誤差尺度が予め定められた条件を満足するまで、追加するステップを繰返すステップとを含む。
予め定められた誤差尺度はモデル精度を測定するのに用いられ、カーネルは誤差尺度の減少が最大となる特徴量次元に順々に割当てられる。この不均一カーネル割当アルゴリズムにより、元の確率モデルを(用いられるカーネルの総数という意味で)どのようなサイズに圧縮することもでき、その一方で、元の確率モデルと圧縮された確率モデルとの間の総誤差尺度は最小となる。
好ましくは、繰返すステップは、1個のカーネルを追加したスカラーガウスカーネルの組を用いて準備した第2の確率モデルと第1の確率モデルとの間の予め定められた誤差尺度が予め定められたしきい値より小さくなるまで、追加するステップを繰返すステップを含む。
さらに好ましくは、予め定められた誤差尺度は、多変量ガウス分布のそれぞれの次元における、第1の確率モデルのカーネルと第2の確率モデルのカーネルとの対称カルバック−ライブラーダイバージェンスの合計である。
追加するステップは、第2の確率モデルのその次元に1個のカーネルを追加すると、第1の確率モデルと第2の確率モデルとの間の誤差尺度の減少が最大になるような次元を決定するステップと、第2の確率モデルのその次元にカーネルを追加するステップとを含んでもよい。
この発明の第2の局面は、コンピュータ上で実行されると、上述のいずれかの方法のすべてのステップをコンピュータに行なわせるコンピュータプログラムに関する。
[はじめに]
モデル解像度とリソース割当との良好なトレードオフを見出すために、この実施の形態では、最適クラスタセントロイド計算(非特許文献5を参照)に従って、対称カルバック−ライブラーダイバージェンス(以下「KLD」)を誤差尺度として用いた、各スカラー次元におけるカーネルのクラスタリングを提案する。最適セントロイドの近似は、非特許文献6で提案されている。
特徴量レベルのパラメータ共有又はサブ空間HMMクラスタリングでは、各次元又はサブ空間を通じて同数のカーネルが用いられている。しかし、異なる次元又はサブ空間の特徴量が、不均一な識別能を有していてもよい筈である。所与のレートで歪を最小化するために異なるLPC(Linear Predictive Coding:線形予測符号化)にビットを不均一に割当てる際にレート歪理論が活用されている(非特許文献7を参照)が、このレート歪理論に啓発されて、この実施の形態では、不均一なカーネル割当アルゴリズムを用いる。
同じ対称KLDを用いてモデル精度を測定し、KLDの減少が最大となる特徴量次元にカーネルが順に割当てられる。この不均一カーネル割当アルゴリズムによって、元のHMMを(用いられるカーネルの総数という意味で)どのようなサイズに圧縮することもでき、その一方で、元のHMMと圧縮されたHMMとの間の総KLDは最小となる。
HMMは複数の状態を有する。図1を参照して、状態の各々(例えば、図1の状態50)はガウス混合モデル(Gaussian mixture model:GMM)を含む。音響特徴量等のデータの特徴量は、ベクトルで準備される。従って、GMMは複数の多変量ガウス分布60、62、64、66を有する。分布60、62、64、66の各々は、多変量ガウス分布である。
例えば、分布60はそのすべてのスカラー成分、例えば、それぞれ第1、第2、第3次元のスカラーガウスカーネル70A、70B、70C等で表すことができる。同様に、第2次元の分布62はそれぞれスカラーガウスカーネル72A、72B、72C…の混合として表すことができ、第3次元の分布64はそれぞれスカラーガウスカーネル74A、74B、74C…の混合として表すことができる。
この実施の形態では、元のモデルの各スカラー次元内のガウス分布カーネルの数を圧縮処理80によって減じて一組のガウス分布カーネルを形成し、これを用いて、対応する元のpdfを近似する新たなpdfを形成する。
すなわち、各次元のカーネルを、圧縮されたカーネルの組90、92、94等のカーネルによって、以下のように近似する。
図1及び図2を参照して、元の確率モデルの多変量ガウス分布60、62、64、66等の特定の次元に対するスカラーガウスカーネルが、カーネル20、22、24、26、28及び30を含むと仮定し、さらに、この次元のセントロイドカーネルの数が2まで減じられる(カーネル40及び42)、すなわち、セントロイドカーネルの組が2個のカーネル40及び42のみを含む、と仮定すると、カーネル20、22及び24は最も近いセントロイドカーネル40によって近似され、カーネル26、28及び30は最も近いセントロイドカーネル42によって近似される。その後カーネル40及び42を用いて、図1に示すとおり、各次元内のその特定の次元において、元のカーネル20、22、24、26、28及び30に代えて分布110、112、114、116等を形成する。
こうして、多変量ガウス分布60、62、64、66の第1次元のスカラーガウスカーネルは一組のスカラーカーネル90に削減される。第2次元のカーネルは別の組のスカラーカーネル92に削減され、第3次元のカーネルはさらに別の組のスカラーカーネル94に削減され、以下同様である。圧縮モデル状態100は、これらのスカラーカーネルの組から、以下のようにして得られる。
多変量ガウス分布110は、第1次元の組90からの一分布、第2次元の組92からの一分布、第3次元の組94からの一分布、等を含む。同様に、多変量ガウス分布112は第1次元の組90からの一分布、第2次元の組92からの一分布、組94からの一分布、等を含む。同様に、多変量ガウス分布114及び116は、組90、92、94等を用いて形成される。このようにして得られた圧縮モデル状態100は、元の状態50の近似である。
この実施の形態では、それぞれの次元のセントロイドカーネルの数は最適化されている、すなわち、圧縮処理80において独立して決定される。最適化プロセスは、KLDに基づく。それぞれのスカラー次元のカーネル数を独立して最適化することにより、HMMの記憶サイズと計算の必要量とを削減しながら、比較的高いモデル解像度を得ることができる。
[KLDに基づく最適セントロイド]
ここで所与の二つのpdf、fおよびg間の誤差(距離)を測定するために用いられる対称カルバック−ライブラー・ダイバージェンスは、以下の式で定義される。
Figure 2006258977
以下の式に従ってクラスタセントロイドとクラスタ内の全てのカーネルとの合計KLDを最小化することにより、最適クラスタセントロイドfcが得られる。
Figure 2006258977
多変数ガウス分布では、式(1)の対称KLDの閉じた式があり、これは以下で表される。
Figure 2006258977
ここでμ及びRは対応する分布の平均と分散とである。最適セントロイドは一組のリカッティ行列式(非特許文献6を参照)を解くことで得られる。対角共分散の特殊な事例では、最適セントロイドのi次元の平均と分散、すなわちμci及びσci 2は以下の通りである。
Figure 2006258977
KLD全体は、セントロイドのガウスpdfの平均及び共分散の両者の凸関数であることが示されている。経験から、発明者らはさらに、ごくわずかな反復のみで、セントロイドがその最適値に収束することを見出した(非特許文献6を参照)。
図3は、特徴量次元C1内のコンテキスト依存HMM(後述)の7,070個のガウスカーネルを示し、これらがそれぞれ4個、8個及び16個のセントロイドカーネルに最適クラスタ化されている。元の7,070個のカーネルをその最も近いセントロイドによって表すときの忠実度は、セントロイドの数が4から16に増すにつれて単調に改善する。
この実施の形態で仮定する対角共分散の場合、多変量ガウスpdfはそのすべてのスカラーの、統計的に独立な成分の積として表すことができる。この結果、対応の多変量KLDはそのスカラー成分について線形加算的となる。この特性は、この実施の形態で用いられる不均一なカーネル割当アルゴリズムがなぜ特徴量次元でのスカラー検索へと分解できるかの基礎を成している。
[HMM圧縮のための不均一カーネル割当]
不均一なカーネル割当アルゴリズムは特徴量次元を探索し、(最適クラスタリング手続きで生成された組から)追加のセントロイドカーネルを一つずつ順にセントロイドカーネルサブセットに割当てる。余分のカーネルを割当てるための次元は、KLD誤差の総計の最大減少に基づいて選ばれる。KLDは、量子化されていない、もとのHMMで用いられるカーネルと、圧縮されたHMMを形成することとなる(セントロイドサブセット中の)その最も近い隣接カーネルとの誤差を測定することで計算される。これはスカラー特徴量次元で成分ごとに検索される。なぜなら、対角共分散を伴う2個の多変量ガウスカーネル間のKLD誤差は、そのスカラー成分において線形加算的だからである。これは依然として、やはりどう考えても貪欲探索アルゴリズムである。しかし、後述するように、性質として貪欲的ではあるものの、この実施の形態で用いられるアルゴリズムは、(M,L)検索において各検索サイクルではるかに多くのM(保持候補)を維持する場合と事実上同じ結果を与える。
[構造]
図4はこの発明の一実施の形態に従った自動音声認識装置(Automatic Sp
eech Recognition:ASR)システム130の構造を示す。図4を参照して、ASRシステム130は、セグメント化され音声表記が付された音声データを含むトレーニングコーパス140と、トレーニングコーパス140内の音声データをトレーニングデータとして利用して、HMM音響モデルをトレーニングするトレーニングモジュール142と、上述のように、HMM音響モデル144内の状態の各々のカーネルをクラスタリングすることによって、HMM音響モデル144を圧縮するための圧縮モジュール146とを含む。結果として得られる圧縮されたHMM音響モデル148がASRに用いられる。
ASRシステム130はさらに、言語モデル150と、入力発話152の音声データを受け、HMM音響モデル148及び言語モデル150を利用して入力音声を認識し、結果として得られるテキスト156を出力するASRモジュール154とを含む。
圧縮モジュール146はコンピュータハードウェア及びその上で実行されるコンピュータソフトウェアで実現できる。ソフトウェアの全体制御構造を図5に示す。
図5を参照して、起動されると、このプログラムはステップ170から始まり、ここでHMMが各次元につき1カーネルという形で初期化される。ステップ172で、現在のKLDが計算され、作業変数QNEWに記憶される。
ステップ174で、QNEWの値が別の作業変数QOLDに記憶され、別の変数ΔQがゼロにクリアされる。
ステップ176で、繰返し制御変数iがゼロに初期化される。ステップ178で、変数iが1だけ増分される。ステップ180で、変数iがHMMパラメータの次元の数、NDIMより大きいか否かが判定される。もし変数iがNDIMより大きい場合、制御はステップ192に進み、そうでなければ制御はステップ182に進む。
ステップ182で、i番目の次元のカーネルに1個のカーネルが追加され、新たなカーネルの組を用いて、新たな圧縮HMMが準備される。ステップ184で、現在のKLDが計算され、変数QNEWに記憶される。
ステップ186で、QOLD−QNEWがΔQより大きいか否かが判断される。そうであれば、制御はステップ188に進み、そうでなければ、ステップ190に進む。
ステップ188で、ΔQは以下のように計算される:
ΔQ=QOLD−QNEW
そしてiの値が変数DIMに記憶される。
ステップ190で、ステップ182で割当てられたカーネルがi番目の次元から除去される。
ステップ190の後、制御はステップ178に戻る。
ステップ180で変数iがNDIMより大きいと判定されると、DIM番目の次元に追加のカーネルが一つ追加される。ステップ192で、変数DIMは、KLDの減少ΔQが最大となるスカラー次元の数を記憶していることになる。従って、新たなカーネルの組は、その数のカーネルに対し、最適の(最小の)KLDをあたえる。
ステップ194で、現在のKLD値QNEWが以下のように更新される。
NEW=QOLD−ΔQ
その後ステップ196で、更新されたQNEWが予め定められたしきい値QTHより小さいか否かが判断される。もしそうであれば、処理は終了する。そうでなければ、制御はステップ174に戻り、ステップ196でQNEWがしきい値QTHより小さいと判断されるまで、上述の処理が繰返される。
[コンピュータによる実現]
明らかなとおり、上述の実施の形態はコンピュータハードウェアとその上で実行されるコンピュータソフトウェアによって実現可能である。ソフトウェアの制御構造は図5を参照して説明した。図6はこの実施の形態のコンピュータシステム330の外観図であり、図7はシステム330をブロック図で示す。
図6を参照して、コンピュータシステム330は、FD(Flexible Disk)ドライブ352及びCD−ROM(Compact Disc Read−Only Memory)ドライブ350を有するコンピュータ340と、キーボード346と、マウス348と、モニタ342とを含む。
図7を参照して、コンピュータ340はさらに、CPU(Central Processing Unit)356と、CPU356、CD−ROMドライブ350及びFDドライブ352に接続されたバス366と、ブートアッププログラム等のプログラムを記憶するROM(Read−Only Memory)358と、CPU356に接続されアプリケーションプログラム命令、システムプログラム及びデータを記憶するためのRAM(Random Access Memory)360と、ハードディスク354と、プリンタ344とを含む。
ここでは図示しないが、コンピュータ340はさらに、ローカルエリアネットワーク(Local Area Network:LAN)への接続を提供するネットワークアダプタボードを含んでもよい。
HMMモデルを圧縮する方法をコンピュータシステム330に実行させるプログラムは、CD−ROM362又はFD364等に記憶され、これらがCD−ROMドライブ350又はFDドライブ352に挿入されると、さらにハードディスク354に転送される。又は、これに代えて、図示しないネットワークを介してコンピュータ340にプログラムを送信し、ハードディスク354に記憶してもよい。プログラムは実行の際にRAM360にロードされる。プログラムはCD−ROM362、FD364又はネットワークから直接RAM360にロードされてもよい。
図5を参照して説明したプログラムは、コンピュータ340にこの実施の形態に係る方法を実行させるための複数の命令を含む。この方法を実行するために必要とされる基本的な機能の幾つかはコンピュータ340上で動作しているオペレーティングシステム(OS)又はサードパーティプログラム、又はコンピュータ340にインストールされたHMMツールキット等のモジュールによって提供されるので、プログラムは必ずしもこの発明の実施の形態を実現するのに必要なすべての基本的機能を含まなくてもよい。プログラムは、所望の結果が得られるように制御された様態で適切な機能または「ツール」を呼び出すことにより圧縮処理を行なう命令の部分のみを含んでいればよい。コンピュータ330がどのように動作するかは周知であるので、説明は省略する。
[動作]
この実施の形態に係るASRシステム130は以下のように動作する。図4を参照して、トレーニングコーパス140が準備される。トレーニングコーパス140はセグメント化されたスピーチデータと、関連の音声表記とを含む。
トレーニングモジュール142は、トレーニングコーパス140をトレーニングデータとして用いて、HMM音響モデル144をトレーニングする。HMMモデルをトレーニングするツールは容易に入手可能であり、従って、トレーニングの詳細はここでは説明しない。
次に、圧縮モジュール146がHMM音響モデル144を以下のように圧縮する。まず、圧縮モジュール146がスカラー次元ごとに1個のカーネルでHMMを初期化し(図5、ステップ170)、KLDを計算する(ステップ172)。圧縮モジュール146は計算されたKLDを変数QNEWおよびQOLDに記憶する(ステップ174)。
圧縮モジュール146はHMMの第1次元に1個のカーネルを追加し(ステップ182)、再びKLDを計算する。圧縮モジュール146は計算されたKLDをQNEWに記憶する(ステップ184)。QOLD−QNEWがΔQより大きいか否かが判断される(ステップ186)。QOLD−QNEWがΔQより大きい場合、その次元の数(すなわち、この繰返しでは1)が変数DIMに記憶され、ΔQが次により計算される(ステップ188)。
ΔQ=QOLD−QNEW
その後、第1x次元に割当てられたカーネルが除かれる(ステップ190)。
次に、残りのスカラー次元について、一度に1次元ずつ、同じ処理が繰返される(ステップ178から190)。この処理が完了すると(ステップ180でYES)、KLDの減少が最大となる次元の数が変数DIMに記憶されている。その後、変数DIMで示される次元に追加のカーネルが割当てられる(ステップ192)。
その後、QNEWが以下のように更新される(ステップ194)。
NEW=QOLD−ΔQ
このようにして更新されたQNEWがしきい値QTHより小さいか否かが判断される(ステップ196)。もしそうなら(ステップ196でYES)、結果として得られるカーネルの組は最適化されたと判断され、圧縮モジュールは動作を停止する。もしそうでなければ(ステップ196でNO)、同じ動作が行なわれてどの次元に第2のカーネルを追加するべきかを判定する(ステップ174から196)。決定された次元に第2のカーネルが追加され(ステップ192)、QNEWが更新される(ステップ94)。QNEWがしきい値QTHより小さいか否かによって(ステップ196の判定)、処理が終了するか、又は第3のカーネルを追加すべく処理が行なわれる(ステップ174から196)。
上述の処理は更新されたQNEWがしきい値QTHより小さくなるまで繰返される。QNEWがしきい値QTHより小さいと判定されると(ステップ196)、圧縮モデルが圧縮モジュール146からHMM音響モデル148として出力される。
HMM音響モデル148と言語モデル150とが利用可能となると、ASRモジュール154は入力発話152を受ける準備が整い、HMM音響モデル148と言語モデル150とを利用して音声データを認識し、認識されたテキスト156を出力する。
[実験結果]
この実施の形態の最適クラスタリング方法を、DARPA(The Defense Advanced Research Projects Agency)991単語リソースマネジメントデータベースで試験した。この実現に際しては、標準的なSI−109トレーニングデータセット(3,990発話)を用いてHMMをトレーニングした。CMU(Carnegie Mellon University:カーネギーメロン大学)48フォンセットを用いて、1,414個の結合状態と、1状態ごとに5個のガウス混合分布を持つコンテキスト依存の(context dependent:CD)モデルを生成した。このCD HMMでは合わせて7,070個のカーネルが用いられる。特徴量は従来の39次元メル周波数ケプストラム計数(mel−frequency cepstrum coefficients:MFCC)(12個の静的MFCC及び対数エネルギ、並びにそれらの第1次、第2次の時間導関数)であった。
図8はカーネルクラスタリング性能を示し、ここでは対応のKLDが特徴量C1、C2、C12、E、ΔEおよびΔΔC12のカーネル数に対してプロットされている。カーネル数が少ない場合(すなわち低レート)を除き、対数-対数プロットでは比較的まっすぐな、レート歪曲線の平行な線が得られるが、異なる特徴量では切片が異なる。他の特徴量のレート歪曲線も同様の傾向を示す。
種々の特徴量の成分レート歪曲線に基づき、不均一なカーネル割当アルゴリズムにより複合レート歪曲線が生成される。これは図9に示され、ここではKLDが次元ごとの平均カーネルに対して示されている。不均一な割当は、図9に破線でプロットされた固定された均一なカーネル割当に比べ、良好なレート歪曲線を生じさせる。
図10は固定的、及び適応的不均一カーネル割当の両者における次元ごとの平均カーネル数に対する認識性能曲線を示す。予想されたように、カーネルの数が対等であれば、不均一な割当の方がKLDがより低いため、固定割当に比べ認識性能が良好である。さらに、この実施の形態で用いられた貪欲探索アルゴリズムは、M=200、L=39の(M,L)検索と事実上同じ結果を与えることがわかった。
図11及び図12において、認識性能(WER:Word Error Rate:単語誤り率)を、メモリ記憶容量と、種々の圧縮率での計算(乗算/除算のみ)量とに対してそれぞれプロットしている。記憶容量に関し、固定及び適応的不均一カーネル割当の両者において用いられる各カーネルのインデックスを符号化するのに、1バイト(256の可能性)が用いられた。この計算のために、j番目の状態の対数尤度が以下のように計算された。
Figure 2006258977
ここで、DはGMMのスカラー次元の数を示す。
ガウスカーネルがスカラー次元でクラスタ化され共有されるので、以下に示す第3項
Figure 2006258977
は予め計算されすべての出力pdfで共有される小型のテーブルに記憶される。固定的及び適応的不均一カーネル割当に関し、加算/減算量の要件はほぼ同じで、元のHMMの複雑さの約50%である。従って、乗算/除算のみの計算レートをプロットしている。
図11及び図12から、固定的及び適応的不均一割当が記憶容量と計算量とをかなり節約することが明確に分かる。計算及びメモリ資源が対等であれば、不均一な割当のほうが一般に良好な性能を示し、特に圧縮率が高い(カーネルがより少ない)場合に良好である。
[結論]
HMM特徴量(スカラー)次元でのガウスカーネルの最適クラスタリングと不均一な割当のための、HMMモデルの圧縮方法とそのための装置が、上述の実施の形態で提案された。カーネルのクラスタリングと割当との両者について、普遍的な誤差尺度として対称KLDを用いた。不均一なカーネル割当を、すべての特徴量次元を検索することにより、一度に一カーネルずつ順に行なった。
計算上効率が良くまとまっている小型のHMMは、レート歪曲線に沿ったどの動作点でも要求にあわせて作成できる。RMデータベースでテストしたところ、元の、コンテキスト依存の音素HMMをその元のサイズの15−20%、元の乗算/除算演算の1−5%に圧縮することができ、認識性能の劣化はほとんど無視できるものであった。
[可能な変形例]
上述の実施の形態では、圧縮モジュール146は各スカラー次元につき1個のカーネルでHMMを初期化する(図5、ステップ170)。しかし、この発明はそのような実施の形態に限定されない。例えば、HMMは、各スカラー次元につき2個または3個のカーネルで初期化しても良い。さらに、HMM次元のカーネルの初期数は互いに異なっていても良い。
図5で、ステップ174から196はステップ196で更新されたQNEWがQTHより小さいと判断されるまで繰返される。しかし、この発明はそのような実施の形態に限定されず、別の条件が満たされたときに繰返しを終了しても良い。例えば、予め定められた繰返しの後、処理を終了しても良い。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。
この発明の一実施の形態に従ったHMMの圧縮を概略的に示す図である。 カーネルがどのようにカーネルにクラスタリングされるかを示す図である。 7,070個のカーネルと対応する4、8、16個の最適セントロイドカーネルとを示す図である。 この発明の一実施の形態に従ったASRシステム130の構造を示す図である。 実施の形態のクラスタリングのフローチャートである。 クラスタリングプログラムを実行するコンピュータシステム330の外観を示す図である。 コンピュータシステム330の構造を示すブロック図である。 カーネルのクラスタリング性能を示す図であって、対応のKLDが異なる特徴量に関しカーネル数に対してプロットされた図である。 この発明の一実施の形態のレート歪曲線を示す図であって、次元ごとの平均カーネルに対するKLDを示す図である。 固定及び適応不均一カーネル割当について、次元ごとの平均カーネル数に対する、一実施の形態の認識性能曲線を示す図である。 この発明の実施の形態に従った記憶性能を示す図である。 この発明の実施の形態に従った計算性能を示す図である。
符号の説明
20、22、24、26、28、30 ガウスカーネル
40、42 カーネル
50、100 状態
80 圧縮処理
130 ASRシステム
140 トレーニングコーパス
142 トレーニングモジュール
144 HMM音響モデル
146 圧縮モジュール
148 HMM音響モデル(圧縮)
150 言語モデル
152 入力発話
154 ASRモジュール

Claims (5)

  1. 第1の確率モデルを圧縮する方法であって、前記第1の確率モデルは出力確率密度関数(probability density function:pdf)を有し、当該出力pdfは、各々が予め定められた数の次元を有する複数個の第1の多変量ガウス分布の混合であり、
    それぞれの次元についてスカラーガウスカーネルの予め定められた数の組を準備するステップを含み、各組は予め定められた数のスカラーガウスカーネルを含み、さらに、
    出力pdfを有する第2の確率モデルを準備するステップを含み、当該出力pdfは各々が予め定められた数の複数次元を有する複数個の第2の多変量ガウス分布の混合であって、当該第2の多変量ガウス分布の各々は各次元につき1個のカーネルを有し、当該カーネルは、予め定められたスカラーガウスカーネルの組のうち一つから選択され、当該選択は、選択されたカーネルが、前記第1の確率モデルの、対応する第1の多変量ガウス分布の、対応する次元におけるカーネルを最良に近似するように行なわれ、さらに、
    前記第1の確率モデルと前記第2の確率モデルとの間の予め定められた誤差尺度を計算するステップと、
    前記スカラーガウスカーネルの組のうち一つに1個のカーネルを追加して得られるスカラーガウスカーネルの組を用いて準備した前記第2の確率モデルと、前記第1の確率モデルとの間の前記予め定められた誤差尺度の減少が最大となるように、前記スカラーガウスカーネルの組のうち一つに1個のカーネルを追加するステップと、
    前記1個のカーネルを追加したスカラーガウスカーネルの組を用いて準備した前記第2の確率モデルと、前記第1の確率モデルとの間の前記予め定められた誤差尺度が予め定められた条件を満足するまで、前記追加するステップを繰返すステップとを含む、確率モデルを圧縮する方法。
  2. 前記繰返すステップが、前記1個のカーネルを追加したスカラーガウスカーネルの組を用いて準備した前記第2の確率モデルと、前記第1の確率モデルとの間の予め定められた誤差尺度が予め定められたしきい値より小さくなるまで、前記追加するステップを繰返すステップを含む、請求項1に記載の方法。
  3. 前記予め定められた誤差尺度が、前記多変量ガウス分布のそれぞれの次元における、前記第1の確率モデルのカーネルと前記第2の確率モデルのカーネルとの対称カルバック−ライブラーダイバージェンスの合計である、請求項1又は請求項2に記載の方法。
  4. 前記追加するステップが、
    前記ガウスカーネルの組のうち一つに1個のカーネルを追加して得られるガウスカーネルの組を用いて前記第2の確率モデルを準備したときに、前記第1の確率モデルと前記第2の確率モデルとの間の誤差尺度の減少が最大になるような次元を決定するステップと、
    前記第2の確率モデルのその次元にカーネルを追加するステップとを含む、請求項1〜請求項3のいずれかに記載の方法。
  5. コンピュータ上で実行されると、請求項1から請求項4のいずれかに記載のすべてのステップをコンピュータに行わせる、コンピュータプログラム。
JP2005073813A 2005-03-15 2005-03-15 確率モデルを圧縮する方法及びそのためのコンピュータプログラム Withdrawn JP2006258977A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005073813A JP2006258977A (ja) 2005-03-15 2005-03-15 確率モデルを圧縮する方法及びそのためのコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005073813A JP2006258977A (ja) 2005-03-15 2005-03-15 確率モデルを圧縮する方法及びそのためのコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2006258977A true JP2006258977A (ja) 2006-09-28
JP2006258977A5 JP2006258977A5 (ja) 2008-04-10

Family

ID=37098346

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005073813A Withdrawn JP2006258977A (ja) 2005-03-15 2005-03-15 確率モデルを圧縮する方法及びそのためのコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP2006258977A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014109040A1 (ja) * 2013-01-10 2014-07-17 富士通株式会社 制御方法、制御プログラム、および制御装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014109040A1 (ja) * 2013-01-10 2014-07-17 富士通株式会社 制御方法、制御プログラム、および制御装置
JPWO2014109040A1 (ja) * 2013-01-10 2017-01-19 富士通株式会社 制御方法、制御プログラム、および制御装置

Similar Documents

Publication Publication Date Title
US10990902B2 (en) Implementing a classification model for recognition processing
JP6596924B2 (ja) 音声データ処理装置、音声データ処理方法、及び、音声データ処理プログラム
US6256607B1 (en) Method and apparatus for automatic recognition using features encoded with product-space vector quantization
US7689419B2 (en) Updating hidden conditional random field model parameters after processing individual training samples
EP0771461B1 (en) Method and apparatus for speech recognition using optimised partial probability mixture tying
US5812975A (en) State transition model design method and voice recognition method and apparatus using same
Arısoy et al. Converting neural network language models into back-off language models for efficient decoding in automatic speech recognition
EP1477966B1 (en) Adaptation of compressed acoustic models
US7418386B2 (en) Method, apparatus and system for building a compact language model for large vocabulary continuous speech recognition (LVCSR) system
GB2387008A (en) Signal Processing System
JP2010049291A (ja) 音声認識システムのための動的にコンフィギュレーション可能な音響モデル
Dekel et al. An online algorithm for hierarchical phoneme classification
Padmanabhan et al. Large-vocabulary speech recognition algorithms
US8635067B2 (en) Model restructuring for client and server based automatic speech recognition
US7454341B1 (en) Method, apparatus, and system for building a compact model for large vocabulary continuous speech recognition (LVCSR) system
JP4891806B2 (ja) 適応モデル学習方法とその装置、それを用いた音声認識用音響モデル作成方法とその装置、及び音響モデルを用いた音声認識方法とその装置、及びそれら装置のプログラムと、それらプログラムの記憶媒体
JP2938866B1 (ja) 統計的言語モデル生成装置及び音声認識装置
Takahashi et al. Discrete mixture HMM
Li et al. Optimal clustering and non-uniform allocation of Gaussian kernels in scalar dimension for HMM compression [speech recognition applications]
JP2006258977A (ja) 確率モデルを圧縮する方法及びそのためのコンピュータプログラム
Zhu et al. Gaussian free cluster tree construction using deep neural network.
JP2008292858A (ja) 雑音抑圧装置、コンピュータプログラム、及び音声認識システム
Kanda et al. Training data pseudo-shuffling and direct decoding framework for recurrent neural network based acoustic modeling
JP5104732B2 (ja) 拡張認識辞書学習装置、これを用いた音声認識システム、その方法及びそのプログラム
Nankaku et al. Acoustic modeling with contextual additive structure for HMM-based speech recognition

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080218

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080218

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20091221