JP2006126398A - Method of compressing plurality of probability density function kernels of probability model, and computer program therefor - Google Patents
Method of compressing plurality of probability density function kernels of probability model, and computer program therefor Download PDFInfo
- Publication number
- JP2006126398A JP2006126398A JP2004313470A JP2004313470A JP2006126398A JP 2006126398 A JP2006126398 A JP 2006126398A JP 2004313470 A JP2004313470 A JP 2004313470A JP 2004313470 A JP2004313470 A JP 2004313470A JP 2006126398 A JP2006126398 A JP 2006126398A
- Authority
- JP
- Japan
- Prior art keywords
- kernels
- kernel
- probability density
- density function
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
Description
この発明は確率の効率的なモデル化に関し、特に、記憶容量を少なくし計算量も少なくするための、HMM(隠れマルコフモデル)等の確率モデルの圧縮に関する。 The present invention relates to efficient modeling of probability, and more particularly to compression of a probability model such as HMM (Hidden Markov Model) for reducing storage capacity and computational complexity.
効率的な自動音声認識のためには、容量が少なく計算量も少なく、なおかつ好ましい認識性能を維持できる、より小型のモデルが常に望まれる。トレーニングの間に、いわゆる半連続HMMについてステート共有[非特許文献1を参照]または分布共有[非特許文献2を参照]を適用することによって、小型のモデルを構築できる。構築されたHMMの基本pdf(probability density functionまたはprobability distribution function:確率密度関数)カーネルもまた、トレーニング手順の後に素性空間でクラスタリングできる。pdfカーネル平均を各素性次元[非特許文献3を参照]またはサブ空間[非特許文献4を参照]でクラスタリングすることが可能であるという提案がされている。
非特許文献3では、各素性次元で平均のみをクラスタリングすることにより、高いモデル解像度が維持される。しかし、大きなメモリ空間と大きな計算量が依然として必要である。 In Non-Patent Document 3, high model resolution is maintained by clustering only the average in each feature dimension. However, a large memory space and a large amount of calculation are still necessary.
非特許文献4では、平均と分散とを合わせてクラスタリングする。しかし、結果として生じる量子化誤差のため、合わせてクラスタリングされたセントロイドによって良好なモデル表現を保証することはできない。この点を説明するため、図9に一例を示す。ここでは、6個のガウス分布カーネルが2個のクラスタにクラスタリングされている。カーネル20、22、24がセントロイドカーネル400で示される1個のクラスタにクラスタリングされ、カーネル26、28、30がセントロイドカーネル402で示される別のクラスタにクラスタリングされる。
In Non-Patent Document 4, clustering is performed by combining the average and the variance. However, due to the resulting quantization error, a good model representation cannot be guaranteed by a centroid clustered together. In order to explain this point, an example is shown in FIG. Here, six Gaussian distribution kernels are clustered into two clusters.
その結果得られるセントロイドは、特に分散に関して、クラスタ内の個々の要素を良好に表してはいない。 The resulting centroid does not represent well the individual elements in the cluster, especially with respect to dispersion.
従って、この発明の目的の一つは、元のモデルの性能を維持しつつ、確率モデルを効果的に圧縮する方法を提供することである。 Accordingly, one object of the present invention is to provide a method for effectively compressing a probabilistic model while maintaining the performance of the original model.
この発明の一局面は、確率モデルの複数個のpdfカーネルを圧縮する方法に関するものである。pdfカーネルは各々第1のパラメータと第2のパラメータとで定義されている。この方法は、複数個のpdfカーネルの第1のパラメータを1以上の第1のセントロイドカーネルにクラスタリングするステップと、複数個のpdfカーネルの第2のパラメータを1以上の第2のセントロイドカーネルにクラスタリングするステップと第1のセントロイドカーネルのうち、前記複数個のpdfカーネルの各々の第1のパラメータに最も近い第1のパラメータを有するものの第1のパラメータと、第2のセントロイドカーネルのうち、前記複数個のpdfカーネルの各々に最も近い第2のパラメータを有するものの第2のパラメータとによって、複数個のpdfカーネルの各々を再定義するステップとを含む。 One aspect of the present invention relates to a method for compressing a plurality of pdf kernels of a probability model. Each pdf kernel is defined by a first parameter and a second parameter. The method includes clustering a first parameter of a plurality of pdf kernels into one or more first centroid kernels, and a second parameter of the plurality of pdf kernels into one or more second centroid kernels. The first parameter of the first centroid kernel and the first centroid kernel having the first parameter closest to the first parameter of each of the plurality of pdf kernels; And redefining each of the plurality of pdf kernels with a second parameter having a second parameter closest to each of the plurality of pdf kernels.
複数個のpdfカーネルは第1のセントロイドカーネルと第2のセントロイドカーネルとにクラスタリングされる。pdfの各々はその後、第1のセントロイドカーネルのうち最も近いものの第1のパラメータと、第2のセントロイドカーネルのうち最も近いものの第2のパラメータとによって再定義される。pdfカーネルがより少ないセントロイドカーネルのパラメータによって再定義されるため、モデルが必要とする記憶容量の総計が削減される。 The plurality of pdf kernels are clustered into a first centroid kernel and a second centroid kernel. Each of the pdfs is then redefined by the first parameter of the closest one of the first centroid kernels and the second parameter of the closest one of the second centroid kernels. Since the pdf kernel is redefined with fewer centroid kernel parameters, the total amount of storage required by the model is reduced.
好ましくは、複数個のpdfカーネルの各々はガウスpdfカーネルを含む。第1及び第2のパラメータはガウスpdfカーネルの平均と分散とを含む。 Preferably, each of the plurality of pdf kernels includes a Gaussian pdf kernel. The first and second parameters include the mean and variance of the Gaussian pdf kernel.
ガウスpdfカーネルの平均と分散とが別個にクラスタリングされる。このため、記憶容量は少なくなり、計算量も少なくなる。 The mean and variance of the Gaussian pdf kernel are clustered separately. For this reason, the storage capacity is reduced and the calculation amount is also reduced.
より好ましくは、第1のパラメータをクラスタリングするステップは、再定義されたガウスpdfカーネルとそれぞれの対応する元のpdfカーネルとの合計の誤差(カルバック−ライブラー・ダイバージェンス(Kullback‐Leibler Divergence:KLD))が最小になるようにガウスpdfカーネルの平均をクラスタリングするステップを含む。 More preferably, the step of clustering the first parameter is the sum error between the redefined Gaussian pdf kernel and each corresponding original pdf kernel (Kullback-Leibler Divergence (KLD)). Clustering the average of the Gaussian pdf kernel so that) is minimized.
さらに好ましくは、第2のパラメータをクラスタリングするステップは、再定義されたガウスpdfカーネルと、ゼロ平均を持つそれぞれの対応する元のpdfカーネルとの誤差の合計が最小になるようにガウスpdfカーネルの分散をクラスタリングするステップを含む。 More preferably, the step of clustering the second parameter is such that the sum of errors between the redefined Gaussian pdf kernel and each corresponding original pdf kernel with zero mean is minimized. Clustering the variances.
所与の二つの確率密度関数の誤差は、所与の二つの確率密度関数間の対称カルバック−ライブラー・ダイバージェンスとして計算されてもよい。 The error of a given two probability density functions may be calculated as a symmetric Kalbach-librarian divergence between the two given probability density functions.
ガウスpdfをクラスタリングし、クラスタリングされたセントロイドカーネルを用いてガウスpdfを再定義することによって、モデルはより小型となり、計算量が少なくなる。 By clustering the Gaussian pdf and redefining the Gaussian pdf using the clustered centroid kernel, the model becomes smaller and less computationally intensive.
この発明の別の局面は、コンピュータ上で実行されると、上述の方法のいずれかの全てのステップを当該コンピュータに実行させるコンピュータプログラムに関する。 Another aspect of the present invention relates to a computer program that, when executed on a computer, causes the computer to execute all the steps of any of the methods described above.
[はじめに]
モデル解像度とリソース割当との間の良好なトレードオフを見出すために、この実施の形態では、最適なクラスタセントロイド計算[非特許文献5を参照]に従って、対称カルバック−ライブラー・ダイバージェンスを誤差尺度として用い、各スカラー次元で平均と分散とを別個にクラスタリングすることを提案する。最適セントロイドの近似はすでに非特許文献6で提案されている。
[Introduction]
In order to find a good trade-off between model resolution and resource allocation, in this embodiment, according to the optimal cluster centroid calculation [see Non-Patent Document 5], the symmetric Kalbach-Librer divergence is an error measure. We propose to cluster the mean and variance separately in each scalar dimension. The approximation of the optimal centroid has already been proposed in Non-Patent Document 6.
具体的には、図1に示すように、カーネル20、22、24、26、28及び30の平均を2個の平均セントロイドカーネル(以下「平均クラスタカーネル」と称する)40及び42にクラスタリングする。すなわちカーネル20、22及び24は平均クラスタカーネル40に、カーネル26、28及び30は平均クラスタカーネル42に、クラスタリングされる。さらに、カーネル20、22、24、26、28及び30の分散を分散カーネル(以下「分散クラスタカーネル」と称する)50及び52にクラスタリングする。すなわち、カーネル20及び28は分散クラスタカーネル50に、カーネル22、24、26及び30は分散クラスタカーネル52に、クラスタリングされる。平均と分散とを別個にクラスタリングすることによって、より高いモデル解像度が得られる。
Specifically, as shown in FIG. 1, the average of
[KLDに基づく最適セントロイド]
ここで所与の二つのpdf、fおよびg間の誤差(距離)を測定するために用いられる対称カルバック−ライブラー・ダイバージェンスは、以下の式で定義される。
[Optimal centroid based on KLD]
The symmetric Kalbach-Librer divergence used here to measure the error (distance) between two given pdfs, f and g is defined by the following equation:
[なぜ平均と分散のクラスタリングを別個に行なうか]
図9に示すように、ガウス分布カーネルの平均と分散とは、合わせてクラスタリングすることができる。しかし、結果として得られるセントロイドは、特に分散に関して、クラスタ内の個々の要素を良好に表してはいない。
[Why do clustering of mean and variance separately?]
As shown in FIG. 9, the mean and variance of the Gaussian distribution kernel can be clustered together. However, the resulting centroid does not represent well the individual elements in the cluster, especially with respect to dispersion.
平均と分散とを別個にクラスタリングすることによって、このモデル解像度の問題を克服することができる。分散は、対応する平均をゼロに設定することによってクラスタリング可能である。図1の下部に示されるように、カーネル20及び28の分散は分散クラスタカーネル50によって示される左の分散にクラスタリングされ、カーネル22、24、26、30の分散は分散クラスタカーネル52によって示される右の分散にクラスタリングされる。
This model resolution problem can be overcome by clustering the mean and variance separately. The variance can be clustered by setting the corresponding average to zero. As shown at the bottom of FIG. 1, the variances of
元のカーネル20、22、24、26、28及び30の平均の各々は、平均クラスタカーネル40又は42のうち最も近く隣接するものの平均で近似される。同様に、カーネル20、22、24、26、28及び30の分散の各々は分散カーネル50又は52のうち最も近く隣接するものの分散で近似される。分散を平均のクラスタリングとは別個にクラスタリングすることにより、明らかに、高いモデル解像度を維持できる。
Each of the averages of the
[構造]
図2はこの発明の一実施の形態に従った自動音声認識装置(Automatic Speech Recognition:ASR)システム60の構造を示す。図2を参照して、ASRシステム60は、セグメント化され音声表記が付された音声データを含むトレーニングコーパス70と、トレーニングコーパス70内の音声データをトレーニングデータとして利用して、HMM音響モデルをトレーニングするトレーニングモジュール72と、上述のように、HMM音響モデル74内の状態の各々のカーネルの平均と分散とを別個にクラスタリングすることによって、HMM音響モデル74を圧縮するための圧縮モジュール76とを含む。結果として得られる圧縮されたHMM音響モデル78がASRに用いられる。
[Construction]
FIG. 2 shows the structure of an automatic speech recognition (ASR)
ASRシステム60はさらに、言語モデル80と、入力発話82の音声データを受け、HMM音響モデル78及び言語モデル80を利用して入力音声を認識し、結果として得られるテキスト86を出力するASRモジュール84とを含む。
The
圧縮モジュール76はソフトウェアで実現することができる。ソフトウェアの全体制御構造を図3に示す。
The
図3を参照して、このプログラムは、起動されると、ステップ100において繰返し制御変数iをゼロに初期化する。ステップ102で、変数iを1だけ増分する。ステップ104で、変数iがHMMパラメータの次元数Ndimより大きいか否かが判断される。もし変数iがNdimより大きければ、このプログラムの実行は終了する。そうでなければ、制御はステップ106に進む。
Referring to FIG. 3, when this program is started, it repeatedly initializes control variable i to zero in
ステップ106で、i番目の次元のカーネルの平均がクラスタリングされる。このステップの詳細は後に図4を参照して説明する。平均のクラスタリングが終了すると、ステップ108でi番目の次元内のカーネルの分散がクラスタリングされる。ここでカーネルの分散は、カーネルの平均をゼロに固定した状態でクラスタリングされる。ステップ108の詳細は図5を参照して後述する。
At
ステップ108の後、制御はステップ116に進み、ここでステップ106及び108で得られたカーネルがHMMモデルのi次元目のカーネルのためのコードブックページに書込まれる。ステップ118で、HMMのi次元目のカーネルに平均と分散とが割当られる。
After
i番目の次元のガウスカーネルの各々には、クラスタリングされた平均のうちで最も近い隣接したものの平均と、クラスタリングされた分散のうちで最も近い隣接したものの分散とが割当てられる。言換えれば、もとのガウスカーネルはそれぞれ、最も近い隣接する平均クラスタカーネルの平均と、最も近い隣接する分散クラスタカーネルの分散とによって再定義される。 Each i th dimension Gaussian kernel is assigned the average of the nearest neighbor of the clustered averages and the variance of the nearest neighbor of the clustered variances. In other words, each original Gaussian kernel is redefined by the average of the nearest neighboring average cluster kernel and the variance of the nearest neighboring distributed cluster kernel.
ステップ118の後、制御はステップ102に戻り、(i+1)次元目のカーネルの圧縮が行なわれる。
After
図4はステップ106の詳細を示す。図4を参照して、i次元目のカーネルの平均は以下のステップによってクラスタリングされる。ステップ130で、繰返し制御変数jがゼロに初期化され、別の変数Q_oldがコンピュータが取扱うことのできる最大値に初期化される。
FIG. 4 shows details of
ステップ132で、クラスタリング用のカーネルに1個のカーネルが追加される。すなわち、クラスタリングは、i次元目のガウスカーネルの平均を1個のクラスタリングカーネルにクラスタリングすることによって始まる。ステップ134で、変数jが1だけ増分される。
In
ステップ136で、上述のKLD−ベースの最適化を利用して、最適の1個の(又は複数の)平均クラスタカーネルが計算される。結果として得られるKLDの値を、Q_newとして保存する。
At
ステップ138で、Q_oldとQ_newとの差としてΔQが計算される。すなわち、ΔQ=Q_old−Q_newである。
At
ステップ140で、ΔQが予め定められたしきい値であるδより小さいか否かが判断される。もしΔQがδより小さければ、制御はステップ144に進む。そうでなければ、制御はステップ142に進む。
In
ステップ142で、変数Q_newがQ_oldとして保存され、制御はステップ132に戻る。
In
ステップ144で、j番目の繰返しで得られたカーネルを、最適平均クラスタカーネルとして選択する。ステップ144の後、制御はこのルーチンを抜けて図3のステップ108に戻る。 In step 144, the kernel obtained in the jth iteration is selected as the optimal average cluster kernel. After step 144, control exits this routine and returns to step 108 of FIG.
図5は図3のステップ108の詳細を示す。なお、この処理の間は、カーネルの平均がゼロに固定されている。図5を参照して、i次元目のカーネルの分散は以下のステップでクラスタリングされる。ステップ160で、繰返し制御変数jがゼロに初期化され、別の変数Q_oldがコンピュータが取扱うことのできる最大値に初期化される。
FIG. 5 shows details of
ステップ162で、クラスタリング用のカーネルに1個のカーネルが追加される。すなわち、クラスタリングは、i次元目のガウスカーネルの分散を1個のクラスタリングカーネルにクラスタリングすることによって始まる。ステップ164で、変数jが1だけ増分される。
In
ステップ166で、上述のKLD−ベースの最適化を利用して、最適の1個の(又は複数の)分散クラスタカーネルが計算される。結果として得られるKLDの値を、Q_newとして保存する。
At
ステップ168で、Q_oldとQ_newとの差としてΔQが計算される。
At
ステップ170で、ΔQがδより小さいか否かが判断される。もしΔQがδより小さければ、制御はステップ174に進む。そうでなければ、制御はステップ172に進む。
In
ステップ172で、変数Q_newがQ_oldとして保存され、制御はステップ162に戻る。
In
ステップ174で、j番目の繰返しで得られたカーネルを、最適分散クラスタカーネルとして選択する。ステップ174の後、制御はこのルーチンを抜けて図3のステップ116に戻る。
In
[コンピュータによる実現]
上述の実施の形態は、コンピュータシステムとそのシステムで実行されるコンピュータプログラムとで実現できる。ソフトウェアの制御構造は図3から図5を参照して説明した。図6はこの実施の形態のコンピュータシステム330の外観図であり、図7はシステム330をブロック図で示す。
[Realization by computer]
The above-described embodiment can be realized by a computer system and a computer program executed by the system. The software control structure has been described with reference to FIGS. FIG. 6 is an external view of the
図6を参照して、コンピュータシステム330は、FD(Flexible Disk)ドライブ352及びCD−ROM(Compact Disc Read−Only Memory)ドライブ350を有するコンピュータ340と、キーボード346と、マウス348と、モニタ342とを含む。
Referring to FIG. 6, a
図7を参照して、コンピュータ340はさらに、CPU(Central Processing Unit)356と、CPU356、CD−ROMドライブ350及びFDドライブ352に接続されたバス366と、ブートアッププログラム等を記憶するROM(Read−Only Memory)358と、CPU356に接続されアプリケーションプログラム命令、システムプログラム及びデータを記憶するためのRAM(Random Access Memory)360と、プリンタ344とを含む。
Referring to FIG. 7, the
ここでは図示しないが、コンピュータ340はさらに、ローカルエリアネットワーク(Local Area Network:LAN)への接続を提供するネットワークアダプタボードを含んでもよい。
Although not shown here, the
HMMモデルを圧縮する方法をコンピュータシステム330に実行させるプログラムは、CD−ROM362又はFD364等に記憶され、これらがCD−ROMドライブ350又はFDドライブ352に挿入されると、さらにハードディスク354に転送される。これに代えて、プログラムは図示しないネットワークを介してコンピュータ340に送信され、ハードディスク354に記憶されてもよい。プログラムは実行の際にRAM360にロードされる。プログラムはCD−ROM362、FD364又はネットワークから直接RAM360にロードされてもよい。
A program for causing the
図3から図5を参照して説明したプログラムは、コンピュータ340にこの実施の形態の方法を行なわせるための複数の命令を含む。この方法を行なうために必要とされる基本的な機能の幾つかはコンピュータ340上で動作しているオペレーティングシステム(OS)またはサードパーティプログラム、またはコンピュータ340にインストールされたHMMツールキット等のモジュールによって提供されるので、プログラムは必ずしもこの発明の実施の形態を実現するのに必要なすべての基本的機能を含まなくてもよい。プログラムは、所望の結果が得られるように制御された様態で適切な機能または「ツール」を呼び出すことにより圧縮処理を行なう命令の部分のみを含んでいればよい。コンピュータ330がどのように動作するかは周知であるので、説明は省略する。
The program described with reference to FIGS. 3 to 5 includes a plurality of instructions for causing the
[動作]
この実施の形態のASRシステム60は以下のように動作する。図2を参照して、トレーニングコーパス70が準備される。トレーニングコーパス70はセグメント化されたスピーチデータと、関連の音声表記とを含む。
[Operation]
The
トレーニングモジュール72は、HMM音響モデル74を、HMM音響モデル74をトレーニングデータとして用いてトレーニングする。HMMモデルをトレーニングするツールは容易に入手可能であり、従って、トレーニングの詳細はここでは説明しない。
The
次に、圧縮モジュール76がHMM音響モデル74を以下のように圧縮する。まず、圧縮モジュール76がHMM音響モデル74の各状態の第1のパラメータ次元のガウスカーネルの平均を、KLDが最小となるようにクラスタリングして、最適数の平均クラスタカーネルとする(図3、ステップ106)。次に、圧縮モジュール76はHMM音響モデル74の各状態の第1のパラメータ次元のガウスカーネルの分散を、KLDが最小になるようにクラスタリングして最適数の分散クラスタカーネルとする(図3、ステップ108)。このとき、カーネルの平均はゼロに固定される。
Next, the
ステップ116で、このようにして得られたクラスタカーネルが1次元目のコードブックページに書込まれる。次に、1次元目のガウスカーネルが、それぞれ元のガウスカーネルの平均に最も近い平均を有する平均クラスタカーネルと、それぞれ元のガウスカーネルの分散に最も近い分散を有する分散クラスタカーネルとによって再定義される。
In
その後、上述のステップがHMM音響モデル74の各状態の他のパラメータ次元について繰返され、HMM音響モデルが圧縮される。HMM音響モデルの全てのパラメータ次元が圧縮されると、圧縮されたモデルが圧縮モジュール76からHMM音響モデル78として出力される。
The above steps are then repeated for the other parameter dimensions of each state of the HMM
HMM音響モデル78と言語モデル80が利用可能となると、ASRモジュール84は入力発話82を受けるための準備ができたことになり、HMM音響モデル78と言語モデル80とを利用して音声データを認識し、認識されたテキスト86を出力する。
When the HMM
[実験結果]
この実施の形態のクラスタリング方法を、DARPA(The Defense Advanced Research Projects Agency)991単語リソースマネジメントデータベースで試験した。この実現に際しては、標準的なSI−109トレーニングデータセット(3,990発話)が用いられた。CMU(Carnegie Mellon University:カーネギーメロン大学)48フォンセットを用いて、各々が3状態で状態ごとに12ガウス混合要素を有する、文脈独立な(Context Independent:CI)音素モデルが生成された。素性は従来の39次元メル周波数ケプストラム計数(mel−frequency cepstrum coefficients:MFCC)(12個の静的MFCC及び対数エネルギ、並びにそれらの第1次、第2次の導関数)であった。
[Experimental result]
The clustering method of this embodiment was tested on a DARPA (The Defense Advanced Research Projects Agency) 991 word resource management database. For this implementation, a standard SI-109 training data set (3,990 utterances) was used. Using CMU (Carnegie Mellon University) 48 phone sets, context-independent (CI) phoneme models were generated, each with 3 states and 12 Gaussian mixing elements per state. The features were conventional 39-dimensional mel-frequency cepstrum counts (MFCC) (12 static MFCCs and logarithmic energy, and their first and second derivatives).
Feb89のテストセットを用いて、パープレキシティ60の標準単語対文法を評価した。元の、量子化していないHMMのベースライン認識性能は、単語精度で92.82%であった。
The
(1)平均と分散とが別個にクラスタリングされる別個のクラスタリング(本実施の形態)を、(2)平均と分散とを合わせたクラスタリング(非特許文献4)、及び(3)元の分散を用いた平均クラスタリングのみ(非特許文献3)、と比較した。結果を図8に示す。 (1) Separate clustering in which the mean and variance are clustered separately (this embodiment), (2) Clustering that combines the mean and variance (Non-Patent Document 4), and (3) The original variance Comparison was made with only the average clustering used (Non-Patent Document 3). The results are shown in FIG.
図8に見られるように、平均と分散とを別個にクラスタリングすると、平均と分散とを合わせたクラスタリングの性能を上回った。また、分散を別個にクラスタリングした場合、認識性能は、次元ごとに16またはそれ以上のクラスタで、クラスタリングなしの分散の場合と同等(またはわずかに良好)であった。 As can be seen in FIG. 8, when the average and variance were clustered separately, the performance of clustering combining the average and variance exceeded the performance. Also, when the variances were clustered separately, the recognition performance was equal (or slightly better) with 16 or more clusters per dimension than the variance without clustering.
[記憶容量と計算量の要件]
[結論]
多変量、対角共分数ベースのHMMガウス分布カーネルを、各スカラー次元において、対応する対称カルバック−ライブラー・ダイバージェンスを最小化することによって最適にクラスタリングした。平均と分散とを別個にクラスタリングすることにより、元のHMMの高いモデル解像度を維持した。リソースマネジメントデータベースでの評価では、さほど性能を劣化させることなく、記憶量と計算量とをかなり減じることができた。
[Conclusion]
A multivariate, diagonal co-fraction based HMM Gaussian distribution kernel was optimally clustered by minimizing the corresponding symmetric Kalbach-Librer divergence in each scalar dimension. By clustering the mean and variance separately, we maintained the high model resolution of the original HMM. In the evaluation using the resource management database, the amount of storage and the amount of calculation could be reduced considerably without degrading performance.
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。 The embodiment disclosed herein is merely an example, and the present invention is not limited to the embodiment described above. The scope of the present invention is indicated by each claim in the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are intended. Including.
20、22、24、26、28、30 ガウスカーネル
40、42 平均クラスタカーネル
50、52 分散クラスタカーネル
60 ASRシステム
70 トレーニングコーパス
72 トレーニングモジュール
74 HMM音響モデル
76 圧縮モジュール
78 圧縮HMM音響モデル
80 言語モデル
84 ASRモジュール
20, 22, 24, 26, 28, 30
Claims (6)
前記複数個の確率密度関数カーネルの第1のパラメータを1以上の第1のセントロイドカーネルにクラスタリングするステップと、
前記複数個の確率密度関数カーネルの第2のパラメータを1以上の第2のセントロイドカーネルにクラスタリングするステップと
前記第1のセントロイドカーネルのうち、前記複数個の確率密度関数カーネルの各々の第1のパラメータに最も近い第1のパラメータを有するものの第1のパラメータと、前記第2のセントロイドカーネルのうち、前記複数個の確率密度関数カーネルの各々に最も近い第2のパラメータを有するものの第2のパラメータとによって、前記複数個の確率密度関数カーネルの各々を再定義するステップとを含む、方法。 A method of compressing a plurality of probability density function kernels of a probability model, wherein the plurality of probability density function kernels are each defined by a first parameter and a second parameter,
Clustering first parameters of the plurality of probability density function kernels into one or more first centroid kernels;
Clustering a second parameter of the plurality of probability density function kernels into one or more second centroid kernels; and a first parameter of each of the plurality of probability density function kernels of the first centroid kernels. A first parameter having a first parameter closest to one parameter and a second parameter having a second parameter closest to each of the plurality of probability density function kernels among the second centroid kernels. Redefining each of the plurality of probability density function kernels with two parameters.
A computer program that, when executed on a computer, causes the computer to execute all the steps according to any one of claims 1 to 5.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004313470A JP2006126398A (en) | 2004-10-28 | 2004-10-28 | Method of compressing plurality of probability density function kernels of probability model, and computer program therefor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004313470A JP2006126398A (en) | 2004-10-28 | 2004-10-28 | Method of compressing plurality of probability density function kernels of probability model, and computer program therefor |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006126398A true JP2006126398A (en) | 2006-05-18 |
JP2006126398A5 JP2006126398A5 (en) | 2007-11-15 |
Family
ID=36721231
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004313470A Withdrawn JP2006126398A (en) | 2004-10-28 | 2004-10-28 | Method of compressing plurality of probability density function kernels of probability model, and computer program therefor |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006126398A (en) |
-
2004
- 2004-10-28 JP JP2004313470A patent/JP2006126398A/en not_active Withdrawn
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7310599B2 (en) | Removing noise from feature vectors | |
US5983178A (en) | Speaker clustering apparatus based on feature quantities of vocal-tract configuration and speech recognition apparatus therewith | |
US7689419B2 (en) | Updating hidden conditional random field model parameters after processing individual training samples | |
JP4913204B2 (en) | Dynamically configurable acoustic model for speech recognition systems | |
EP3076389A1 (en) | Statistical-acoustic-model adaptation method, acoustic-model learning method suitable for statistical-acoustic-model adaptation, storage medium in which parameters for building deep neural network are stored, and computer program for adapting statistical acoustic model | |
US8515758B2 (en) | Speech recognition including removal of irrelevant information | |
JP2007133411A (en) | Memory use reduction method and apparatus, for reducing and calculating gaussian probability data bit | |
Perero-Codosero et al. | X-vector anonymization using autoencoders and adversarial training for preserving speech privacy | |
JP2009086581A (en) | Apparatus and program for creating speaker model of speech recognition | |
US11699445B2 (en) | Method for reduced computation of T-matrix training for speaker recognition | |
JPH11338491A (en) | Speaker including maximum method based on native voice and environment adaptation | |
US7680664B2 (en) | Parsimonious modeling by non-uniform kernel allocation | |
Liao et al. | Joint uncertainty decoding for robust large vocabulary speech recognition | |
US20140180690A1 (en) | Hybrid Hashing Scheme for Active HMMS | |
Oura et al. | A covariance-tying technique for HMM-based speech synthesis | |
Shahnawazuddin et al. | Sparse coding over redundant dictionaries for fast adaptation of speech recognition system | |
Zhu et al. | Gaussian free cluster tree construction using deep neural network. | |
JP2009237336A (en) | Speech recognition device and program | |
JP2006126398A (en) | Method of compressing plurality of probability density function kernels of probability model, and computer program therefor | |
Richter et al. | A framework for evaluating speech representations | |
Furui et al. | Cluster-based modeling for ubiquitous speech recognition. | |
JP5104732B2 (en) | Extended recognition dictionary learning device, speech recognition system using the same, method and program thereof | |
JP2973805B2 (en) | Standard pattern creation device | |
Sarfjoo et al. | Cross-Lingual Speaker Adaptation for Statistical Speech Synthesis Using Limited Data. | |
Mandal et al. | Improving robustness of MLLR adaptation with speaker-clustered regression class trees |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070928 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070928 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20091221 |