JP5006768B2 - 音響モデル生成装置、方法、プログラム及びその記録媒体 - Google Patents

音響モデル生成装置、方法、プログラム及びその記録媒体 Download PDF

Info

Publication number
JP5006768B2
JP5006768B2 JP2007301689A JP2007301689A JP5006768B2 JP 5006768 B2 JP5006768 B2 JP 5006768B2 JP 2007301689 A JP2007301689 A JP 2007301689A JP 2007301689 A JP2007301689 A JP 2007301689A JP 5006768 B2 JP5006768 B2 JP 5006768B2
Authority
JP
Japan
Prior art keywords
acoustic model
normal distribution
deletion
mixed
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007301689A
Other languages
English (en)
Other versions
JP2009128496A (ja
Inventor
哲 小橋川
厚徳 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007301689A priority Critical patent/JP5006768B2/ja
Publication of JP2009128496A publication Critical patent/JP2009128496A/ja
Application granted granted Critical
Publication of JP5006768B2 publication Critical patent/JP5006768B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は、音声認識等のために用いる音響モデルを生成する音響モデル生成装置、方法、プログラム及びその記録媒体に関する。特に、既存の音響モデルのサイズを縮小することにより新たな音響モデルを生成する音響モデル生成装置、方法、プログラム及びその記録媒体に関する。
図5に例示するように、音響モデルは複数の音素モデルからなり、各音素モデルは複数の状態から構成される。そして、各状態は、混合正規分布(一般には多次元正規分布を混合した多次元混合正規分布である。以下、混合正規分布といった場合には多次元混合正規分布を意味する。もちろん、混合正規分布が1次元の正規分布を混合したものであってもよい。)で表されている。このように、音響モデルは、複数の混合正規分布から構成されている。
図5に示した例は混合数=3の例であり、音素モデル「*−u+*(uを中心音素とする環境独立音素モデル)」の第2状態は、3つの基底正規分布j(j=1,2,3)から構成されており、基底正規分布にはそれぞれ対応する重みw(j)(j=1,2,3)が掛けられている。
音響モデルのサイズを縮小するために、従来、分布間距離が小さい基底正規分布を統合することにより、混合正規分布の混合数を少なくしていた。その後、文字認識精度を向上させるために、追加学習を行い統合された基底正規分布のパラメータをより適切な値に変更していた(例えば、非特許文献1、特許文献1参照)。
図6Aに示した例では、分布間距離が小さい基底正規分布1と基底正規分布2を統合して、すなわち基底正規分布1と基底正規分布2を削除して、基底正規分布4としている。これにより、基底正規分布の数を1下げている。その後、追加学習を行い基底正規分布4のパラメータを変更して、基底正規分布5としている。図6の破線で示した基底正規分布は、削除された基底正規分布を意味する。
小川厚徳、外2名,「混合重み係数を考慮した分布間距離尺度による音響モデルの分布数削除」,日本音響学会講演論文集,2004年9月29日,2−1−23 特開2006−84789号公報
背景技術に記載された方法では、基底正規分布を統合した後に、文字認識精度を向上するために追加学習を行う必要があり、その追加学習の分だけ時間と労力が必要であるという問題があった。文字認識精度とは、文字単位の音声認識精度のことである。
この発明は、追加学習なく音響モデルのサイズを縮小することにより新たな音響モデルを生成する音響モデル生成装置、方法、プログラム及びその記録媒体を提供することを目的とする。
この発明によれば、複数の基底正規分布が重み付き加算されることによりそれぞれ構成される複数の混合正規分布から構成される音響モデルが記憶される音響モデル記憶手段を有する。音響モデルを構成する全部又は一部の混合正規分布のそれぞれについて、混合正規分布を構成する複数の基底正規分布から、予め定められた削除重み閾値よりも小さい重みが掛けられた基底正規分布を削除する。混合正規分布を構成する、削除されずに残った複数の基底正規分布にそれぞれ掛けられる重みの合計が1となるように、音響モデルを構成する混合正規分布のうち基底正規分布が削除された各混合正規分布の重み系列を正規化する。予め定められた削除重み閾値は、混合正規分布の重み系列の最大値が大きいほど大きい。
予め定められた削除重み閾値よりも小さい重みが掛けられた基底正規分布を削除するに留まり、既にある基底正規分布のパラメータを変形させてはいない。このため、この発明により生成された音響モデルは、追加学習をしなくても、高い文字認識精度を有する。
この発明のポイントは、図6Bに例示するように、混合正規分布を構成する基底正規分布のうち、掛けられる重みが予め定められた閾値よりも小さい基底正規分布2を削除する点にある。以下、この発明の実施例について説明をする。
[第一実施例]
図1,図3を参照して、第一実施例の音響モデル生成装置10について説明をする。図1は、音響モデル生成装置10の機能構成を例示する図であり、図3は、音響モデル生成装置10の処理の流れを例示するフローチャートである。
<ステップS1>
ベース音響モデル記憶部12には、既存のベース音響モデルが格納されている。制御部11は、ベース音響モデル記憶部12からベース音響モデルを読み出し、音響モデル記憶部13に格納する(ステップS1)。制御部11は、音響モデル生成装置10の各部の動作を制御することができるように、音響モデル生成装置10の各部と接続されている。この音響モデル記憶部13に格納された音響モデルに対して、以下に述べる処理を行うことにより、新たな音響モデルを生成する。
閾値パラメータ記憶部14には、それぞれ予め定められた削除混合数閾値m_thと、重み閾値w_thとが格納されている。削除混合数閾値m_thは、1以上の整数であり、音響モデル記憶部13に格納された音響モデルを構成する混合正規分布の混合数の範囲に含まれる何れかの整数が削除混合数閾値m_thとして選択される。例えば、削除混合数閾値m_th=12とする。ここで、混合数とは、換言すれば分布数であり、混合正規分布を構成する基底正規分布の数のことである。重み閾値w_thは、0から1の間の任意の実数である。例えば、重み閾値w_th=0.2とする。
削除混合数閾値m_th,重み閾値w_thは、所望の音響モデルが得られるように、実験的に適宜決定される定数である。後述する削除重み閾値del_w_thについても同様である。
<ステップS2>
制御部11は、制御部11内のバッファ111に格納されたiの値をi=1とする(ステップS2)。
<ステップS3>
削除重み閾値計算部15は、音響モデル記憶部13から、音響モデルを構成する混合正規分布の1つである混合正規分布iの重み系列W={w(1),w(2),…,w(m)}を読み込む。重み系列Wは、混合正規分布iを構成する複数の基底正規分布にそれぞれ掛けられる重みw(j)の集合である。そして、重み系列Wの最大値と、閾値パラメータ記憶部14から読み込んだ重み閾値w_thとを乗算して、削除重み閾値del_w_thを求める(ステップS3)。すなわち、混合正規分布iを構成する複数の基底正規分布のそれぞれに掛けられる重みw(j)(j=1,2,…,m)の最大値と、重み閾値w_thとを乗算する。求まった削除重み閾値del_w_thは、基底正規分布削除部162に送られる。
Figure 0005006768
ここで、削除重み閾値del_w_thは、混合正規分布iごとに異なる値を取る。また、ここで、混合正規分布iを構成する基底正規分布が、重みの大きい順番でソートしてある場合には、w(j)<del_w_thとなった時点で、その混合正規分布iを構成する基底正規分布のうち残りの基底正規分布を削除してもよい。
<ステップS4>
この例では、分布削除部16は、混合数大小判定部161と、基底正規分布削除部162とからなる。
混合数大小判定部161は、音響モデル記憶部13から読み込んだ、音響モデルを構成する混合正規分布の1つである混合正規分布iの混合数mと、閾値パラメータ記憶部14から読み込んだ削除混合数閾値m_thとの比較を行う(ステップS4)。混合正規分布iの混合数mの方が大きければ、その旨を表す信号を基底正規分布削除部162に送る。
混合数大小判定部161を設けて、混合数が所定の数以上である混合正規分布について下記の処理を行うことにより、音響モデルの精度の劣化を防止することができる。
<ステップS5>
制御部11は、制御部11内のバッファ111に格納されたjの値をj=1とする(ステップS5)。
<ステップS6>
基底正規分布削除部162は、音響モデル記憶部13から、混合数大小判定部161が削除混合数閾値m_thよりも大きい混合数mを有すると判断した混合正規分布iを構成するj番目の基底正規分布jに掛けられる重みw(j)を読み込む。混合数大小判定部161が削除混合数閾値m_thよりも大きい混合数mを有すると判断した混合正規分布iについての情報は、混合数大小判定部161が基底正規分布削除部162に送った信号から得る。そして、その読み込んだ重みw(j)と、削除重み閾値計算部15が計算した削除重み閾値del_w_thとを比較する(ステップS6)。
重みw(j)の方が小さければ、基底正規分布削除部162は、音響モデル記憶部13に記憶された音響モデルの混合正規分布iを構成する複数の基底正規分布から、j番目の基底正規分布jを削除する(ステップS61)
削除重み閾値del_w_thの方が小さければ、基底正規分布削除部162は、音響モデル記憶部13に記憶された音響モデルの混合正規分布iのj番目の基底正規分布jを削除しない。
<ステップS7>
制御部11は、バッファ111に格納されたjが、j=mであるか判断する(ステップS7)。
<ステップS8>
j=mでなければ、制御部11は、バッファ111に格納されたjをインクリメントする(ステップS8)。具体的には、j=j+1とする。その後は、ステップS6の処理を行う。
このように、j=mとなるまで、ステップS6からステップS8の処理を繰り返すことにより、混合正規分布iを構成する各基底正規分布について、掛けられる重みが削除重み閾値del_w_thよりも小さいかどうかを判断して、掛けられる重みの方が小さい場合には、その基底正規分布を削除する処理を行う。
<ステップS9>
j=mであれば、基底正規分布削除部162は、混合正規分布iが基底正規分布の削除を行ったものであるかどうかを判定する(ステップS9)。混合正規分布iが基底正規分布の削除を行ったものである場合には、基底正規分布削除部162は、混合正規分布iの重み系列Wについて正規化を求める信号(以下、正規化信号とする。)を、正規化部17に送る。
<ステップS10>
正規化信号を受けた正規化部17は、混合正規分布iの重み系列Wについて正規化を行う。具体的には、削除されずに残った基底正規分布に掛けられる重みの合計が1となるように正規化を行う。正規化部17は、重み加算部171と、除算部172とからなる。
重み加算部171は、音響モデル記憶部13から、混合正規分布iを構成する基底正規分布のうち削除されずに残った基底正規分布に掛けられた重みの総和sum_w_savedを計算する(ステップS101)。計算されたsum_w_savedは、除算部172に送られる。図1,2では、総和sum_w_savedをΣ(j)と表現する。
除算部172は、混合正規分布iを構成する基底正規分布のうち削除されずに残った基底正規分布に掛けられた重みのそれぞれを、総和sum_w_savedで除算することにより、正規化された重みw (j)を求めて、これを正規化される前の重みw(j)に代えて音響モデル記憶部13に格納する(ステップS102)。総和sum_w_savedで除算することにより、正規化された重みw (j)の合計が1となる。
<ステップS11>
制御部11は、バッファ111に格納されたiが、i=Iであるかどうかを判定する。Iは、音響モデル記憶部13に記憶された音響モデルを構成する混合正規分布のうち、重みが小さい基底正規分布を削除するために上記の処理の対象となる混合正規分布の数である。音響モデルを構成する混合正規分布のすべてについて上記の処理を行う場合には、音響モデルを構成する混合正規分布の数がIとなる。
<ステップS12>
i=Iでない場合には、制御部11はバッファ111に格納されたiをインクリメントする。具体的には、i=i+1とする。その後、ステップS3の処理を行う。
このように、i=Iとなるまで、上記ステップS3からステップS10の処理を繰り返すことにより、対象となるすべての混合正規分布についてそれぞれ、重みが小さい基底正規分布を削除するという上記の処理を行うことができる。
i=Iである場合には、第一実施例の音響モデル生成装置10’の処理は終わる。
この発明では、既存のベース音響モデル記憶部12から、予め定められた削除重み閾値よりも小さい重みが掛けられた基底正規分布を削除することにより、新たな音響モデルを生成している。つまり、この発明では、背景技術に記載された方法とは異なり、学習によって既に得られているベース音響モデルの正規分布を変形させていない。このため、この発明により生成された音響モデルは、追加学習をしなくても、高い文字認識精度を有するのである。
また、この例では、混合数mが大きな混合正規分布のみを対象として、基底正規分布削除部162が、掛けられる重みが小さい基底正規分布を削除している。これにより、この発明により生成された音響モデルを用いて行う文字認識の精度の劣化をさらに防いでいる。
図4にこの発明の実験結果を例示する。この表によれば、文字認識精度の劣化なしに、計算量を約4.2%削減していることがわかる。
[第二実施例]
図2を参照して、第二実施例の音響モデル生成装置10’について説明をする。基底正規分布削除部162が、混合数mの大小の如何を問わずすべての混合正規分布について、掛けられる重みが小さい基底正規分布を削除している点で、第二実施例は第一実施例と異なる。換言すれば、図3の点線で示したステップS4の処理を行わない点で、第二実施例は第一実施例と異なる。以下、第一実施例と異なる部分についてのみ説明をし、第一実施例と同じ部分については同じ符号をつけて重複説明を省略する。
閾値パラメータ記憶部14には、重み閾値w_thのみが格納されており、削除混合数閾値m_thは格納されていない。
分布削除部16は、基底正規分布削除部162のみからなり、第一実施例とは異なり、混合数大小判定部161を有しない。
削除重み閾値計算部15が削除重み閾値del_w_thを計算した(ステップS3)後、基底正規分布削除部162は、音響モデル記憶部13から、混合正規分布iを構成するj番目の基底正規分布jに掛けられる重みw(j)を読み込む。そして、その読み込んだ重みw(j)と、削除重み閾値計算部15が計算した削除重み閾値del_w_thとを比較する(ステップS6)。
以降の処理は、第一実施例と同様である。すなわち、重みw(j)の方が小さければ、基底正規分布削除部162は、音響モデル記憶部13に記憶された音響モデルの混合正規分布iを構成する複数の基底正規分布から、j番目の基底正規分布jを削除する(ステップS61)
削除重み閾値del_w_thの方が小さければ、基底正規分布削除部162は、音響モデル記憶部13に記憶された音響モデルの混合正規分布iのj番目の基底正規分布jを削除しない。
第二実施例は、混合数mの大小の如何を問わずすべての混合正規分布について、掛けられる重みが小さい基底正規分布を削除している。この第二実施例も、第一実施例と同様に、学習によって既に得られているベース音響モデルの正規分布を変形させていない。このため、第二実施例により生成された音響モデルも、追加学習をしなくても、高い文字認識精度を有する。
[変形例等]
上記の例では、基底正規分布削除部162は、削除重み閾値del_w_thとして、削除重み閾値計算部15が計算した削除重み閾値del_w_thを用いているが、その代わりに図示していない記憶部に予め計算して格納しておいた削除重み閾値del_w_thを用いてもよい。
上記の例では、削除重み閾値計算部15は、混合正規分布iごとに、重み系列W={w(1),w(2),…,w(m)}の最大値を求めている。そして、その最大値を用いて削除重み閾値del_w_thを混合正規分布iごとに求めている。混合正規分布iについて、基底正規分布を削除するときには、削除重み閾値del_w_thとして、その混合正規分布iに対応する削除重み閾値del_w_thを用いている。
これに対して、全部又は一部の混合正規分布iから、削除重み閾値del_w_thを求め、全部又は一部(この一部は、削除重み閾値del_w_thを求めるときに基礎となった上記の一部の混合正規分布iとは異なる。)の混合正規分布iについて、基底正規分布を削除するときに、この削除重み閾値del_w_thを用いてもよい。すなわち、下記の式のように削除重み閾値del_w_thを求めてもよい。下式は、全部の混合正規分布iから、削除重み閾値del_w_thを求める場合の式である。
Figure 0005006768
求まった削除重み閾値del_w_thは、図示していない記憶部に格納される。基底正規分布削除部162は、混合正規分布iについて、基底正規分布を削除するときに、その削除重み閾値del_w_thを読み込む。
全部又は一部の混合正規分布iについて共通する削除重み閾値del_w_thを用いることで、削除重み閾値del_w_thを混合正規分布iごとに計算する必要がなくなり、計算効率が向上する。
また、全部又は一部の混合正規分布iについて共通する削除重み閾値del_w_thを用いることで、混合数の大きな混合正規分布ほど多くの基底正規分布を削除することができる。この場合、削除混合数閾値m_thを明示的に用いなくても、同様の効果を得ることができ、最適なパラメータを調整するための処理負担を低減することができる。
図1,2に例示した音響モデル生成装置10,10’においては、各部から各部へデータが直接送られている箇所がある。これに対して、図示していない記憶部を介して、間接的にデータが送られてもよい。例えば、削除重み閾値計算部15は、削除重み閾値del_w_thを基底正規分布削除部162に直接送っている。これに対して、削除重み閾値計算部15が計算した削除重み閾値del_w_thが図示していない記憶部に格納され、基底正規分布削除部162がその記憶部から削除重み閾値del_w_thを読み込んでもよい。
図1,図2に点線で示すように、追加学習部18が、音響モデル記憶部13から基底正規分布が削除された分布削除音響モデルを読み込んで、この分布削除音響モデルに対して追加学習を行ってもよい。追加学習後音響モデルは追加学習後音響モデル記憶部19に格納される。追加学習により、文字認識精度がさらに向上する。
上述の構成をコンピュータによって実現する場合、音響モデル生成装置10,10’の各部が有すべき機能の処理内容はそれぞれプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各部の機能がコンピュータ上で実現される。
すなわち、CPUが各プログラムを逐次読み込んで実行することにより、制御部11、削除重み閾値計算部15、分布削除部16(混合数大小判定部161、基底正規分布削除部162)、正規化部17(重み加算部171、除算部172)、追加学習部18等の機能が実現される。
また、コンピュータを音響モデル生成装置10,10’として機能させる場合には、ベース音響モデル記憶部12、音響モデル記憶部13、閾値パラメータ記憶部14、追加学習後音響モデル記憶部19、制御部11のバッファ111及び図示していない記憶部等の記憶部は、メモリ、ハードディスク等記憶手段により実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD
−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、上述した実施形態とは別の実行形態として、コンピュータが可搬型記録媒体から直接このプログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を基底する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
第一実施例の音響モデル生成装置の機能構成を例示する図。 第二実施例の音響モデル生成装置の機能構成を例示する図。 音響モデル生成装置の処理の流れを例示するフローチャート。 実験結果を表す図。 音響モデルの概念図。 Aは従来技術の音響モデル生成方法を表す概念図。Bはこの発明の音響モデル生成方法を表す概念図。
符号の説明
11 制御部
13 音響モデル記憶部
14 閾値パラメータ記憶部
15 削除重み閾値計算部
16 分布削除部
17 正規化部
161 混合数大小判定部
162 基底正規分布削除部
171 重み加算部
172 除算部

Claims (10)

  1. 複数の基底正規分布が重み付き加算されることによりそれぞれ構成される複数の混合正規分布から構成される音響モデルが記憶される音響モデル記憶手段と、
    上記音響モデルを構成する全部又は一部の混合正規分布のそれぞれについて、混合正規分布を構成する複数の基底正規分布から、予め定められた削除重み閾値よりも小さい重みが掛けられた基底正規分布を削除する基底正規分布削除手段と、
    混合正規分布を構成する、削除されずに残った複数の基底正規分布にそれぞれ掛けられる重みの合計が1となるように、上記音響モデルを構成する混合正規分布のうち基底正規分布が削除された各混合正規分布の重み系列を正規化する正規化手段と、
    を備え
    上記予め定められた削除重み閾値は、混合正規分布の重み系列の最大値が大きいほど大きい、
    ことを特徴とする音響モデル生成装置。
  2. 請求項1に記載された音響モデル生成装置において、
    混合正規分布を構成する基底正規分布の数を混合数として、上記音響モデル記憶手段に記憶された音響モデルを構成する一部の混合正規分布の混合数は、他の混合正規分布の混合数と異なり、
    混合正規分布の混合数と、予め定められた削除混合数閾値とを比較する混合数大小判定手段を更に有し、
    上記基底正規分布削除手段は、上記混合数大小判定手段において混合数が上記削除混合数閾値よりも大きいと判定された混合正規分布について、上記の削除処理を行う手段である、
    ことを特徴とする音響モデル生成装置。
  3. 請求項1又は2に記載された音響モデル生成装置において、
    各混合正規分布の重み系列の最大値に予め定められた正数を乗算した値を、その混合正規分布について上記基底正規分布削除手段が基底正規分布を削除するときの上記予め定められた削除重み閾値として計算する削除重み閾値計算手段、
    を更に備えることを特徴とする音響モデル生成装置。
  4. 請求項1又は2に記載された音響モデル生成装置において、
    全部又は一部の混合正規分布の重み系列の最大値に予め定められた正数を乗算した値を、上記予め定められた削除重み閾値として計算する削除重み閾値計算手段、
    を更に備えることを特徴とする音響モデル生成装置。
  5. 音響モデル記憶手段には、複数の基底正規分布が重み付き加算されることによりそれぞれ構成される複数の混合正規分布から構成される音響モデルが記憶され、
    基底正規分布削除手段が、上記音響モデルを構成する全部又は一部の混合正規分布のそれぞれについて、混合正規分布を構成する複数の基底正規分布から、予め定められた削除重み閾値よりも小さい重みが掛けられた基底正規分布を削除する基底正規分布削除ステップと、
    正規化手段が、混合正規分布を構成する、削除されずに残った複数の基底正規分布にそれぞれ掛けられる重みの合計が1となるように、上記音響モデルを構成する混合正規分布のうち基底正規分布が削除された各混合正規分布の重み系列を正規化する正規化ステップと、
    を有し、
    上記予め定められた削除重み閾値は、混合正規分布の重み系列の最大値が大きいほど大きい、
    ことを特徴とする音響モデル生成方法。
  6. 請求項に記載された音響モデル生成方法において、
    混合正規分布を構成する基底正規分布の数を混合数として、上記音響モデル記憶手段に記憶された音響モデルを構成する一部の混合正規分布の混合数は、他の混合正規分布の混合数と異なり、
    混合数大小判定手段が、混合正規分布の混合数と、予め定められた削除混合数閾値とを比較する混合数大小判定ステップを更に有し、
    上記基底正規分布削除ステップは、上記混合数大小判定ステップにおいて混合数が上記削除混合数閾値よりも大きいと判定された混合正規分布について、上記の削除処理を行うステップである、
    ことを特徴とする音響モデル生成方法。
  7. 請求項5又は6に記載された音響モデル生成方法において、
    削除重み閾値計算手段が、各混合正規分布の重み系列の最大値に予め定められた正数を乗算した値を、その混合正規分布について上記基底正規分布削除手段が基底正規分布を削除するときの上記予め定められた削除重み閾値として計算する削除重み閾値計算ステップ、
    を更に有することを特徴とする音響モデル生成方法。
  8. 請求項5又は6に記載された音響モデル生成方法において、
    削除重み閾値計算手段が、全部又は一部の混合正規分布の重み系列の最大値に予め定められた正数を乗算した値を、上記予め定められた削除重み閾値として計算する削除重み閾値計算ステップ、
    を更に備えることを特徴とする音響モデル生成方法。
  9. 請求項1からの何れかに記載の音響モデル生成装置の各手段としてコンピュータを機能させるための音響モデル生成プログラム。
  10. 請求項9に記載された音響モデル生成プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2007301689A 2007-11-21 2007-11-21 音響モデル生成装置、方法、プログラム及びその記録媒体 Expired - Fee Related JP5006768B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007301689A JP5006768B2 (ja) 2007-11-21 2007-11-21 音響モデル生成装置、方法、プログラム及びその記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007301689A JP5006768B2 (ja) 2007-11-21 2007-11-21 音響モデル生成装置、方法、プログラム及びその記録媒体

Publications (2)

Publication Number Publication Date
JP2009128496A JP2009128496A (ja) 2009-06-11
JP5006768B2 true JP5006768B2 (ja) 2012-08-22

Family

ID=40819509

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007301689A Expired - Fee Related JP5006768B2 (ja) 2007-11-21 2007-11-21 音響モデル生成装置、方法、プログラム及びその記録媒体

Country Status (1)

Country Link
JP (1) JP5006768B2 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0769711B2 (ja) * 1993-03-09 1995-07-31 株式会社エイ・ティ・アール自動翻訳電話研究所 音声認識方法
JP3394506B2 (ja) * 1993-08-17 2003-04-07 三菱電機株式会社 音声判別装置及び音声判別方法
JP3963850B2 (ja) * 2003-03-11 2007-08-22 富士通株式会社 音声区間検出装置
JP2005321660A (ja) * 2004-05-10 2005-11-17 Nippon Telegr & Teleph Corp <Ntt> 統計モデル作成方法、その装置、パターン認識方法、その装置、これらのプログラム、その記録媒体
JP4765971B2 (ja) * 2007-03-23 2011-09-07 ヤマハ株式会社 混合モデル生成装置、音処理装置およびプログラム

Also Published As

Publication number Publication date
JP2009128496A (ja) 2009-06-11

Similar Documents

Publication Publication Date Title
TWI689871B (zh) 梯度提升決策樹(gbdt)模型的特徵解釋方法和裝置
JP6958723B2 (ja) 信号処理システム、信号処理装置、信号処理方法、およびプログラム
JP6579198B2 (ja) リスク評価方法、リスク評価プログラム及び情報処理装置
JP6812381B2 (ja) 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム
JP7171471B2 (ja) 学習モデル生成支援装置、及び学習モデル生成支援方法
JP4594885B2 (ja) 音響モデル適応装置、音響モデル適応方法、音響モデル適応プログラム及び記録媒体
JP7036054B2 (ja) 音響モデル学習装置、音響モデル学習方法、プログラム
JP5006768B2 (ja) 音響モデル生成装置、方法、プログラム及びその記録媒体
JP5516925B2 (ja) 信頼度計算装置、信頼度計算方法、及びプログラム
US11443837B2 (en) Generation of test data for a data platform
JP6353408B2 (ja) 言語モデル適応装置、言語モデル適応方法、プログラム
JP2022185799A (ja) 情報処理プログラム、情報処理方法および情報処理装置
JP6831307B2 (ja) 解算出装置、解算出方法及び解算出プログラム
JP6992534B2 (ja) データ作成装置、誘導モデル学習装置、誘導推定装置、データ作成方法、誘導モデル学習方法、誘導推定方法及びプログラム
JP6588874B2 (ja) 単語予測装置、プログラム
WO2023203769A1 (ja) 重み係数算出装置および重み係数算出方法
WO2018225747A1 (ja) 分散システム、データ管理装置、データ管理方法、及びコンピュータ読み取り可能な記録媒体
JP5755603B2 (ja) 言語モデル作成装置、言語モデル作成方法、プログラム
WO2024042714A1 (ja) プログラム,情報処理装置,情報処理方法および学習済みdnnモデル
WO2022270163A1 (ja) 計算機システム及び介入効果予測方法
JP5379749B2 (ja) 文書分類装置、文書分類方法、そのプログラムおよび記録媒体
WO2023084609A1 (ja) 行動モデルのコスト推定装置、方法およびプログラム
KR102321064B1 (ko) 부호화된 네트워크 생성 장치 및 방법
JP6802145B2 (ja) Snr推定装置、snr推定方法、プログラム
US7703053B2 (en) Regional pattern density determination method and system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100114

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110802

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110812

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110905

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120515

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120525

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150601

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5006768

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees