JP4571921B2 - 音響モデル適応化装置、音響モデル適応化方法、音響モデル適応化プログラム及びその記録媒体 - Google Patents
音響モデル適応化装置、音響モデル適応化方法、音響モデル適応化プログラム及びその記録媒体 Download PDFInfo
- Publication number
- JP4571921B2 JP4571921B2 JP2006071111A JP2006071111A JP4571921B2 JP 4571921 B2 JP4571921 B2 JP 4571921B2 JP 2006071111 A JP2006071111 A JP 2006071111A JP 2006071111 A JP2006071111 A JP 2006071111A JP 4571921 B2 JP4571921 B2 JP 4571921B2
- Authority
- JP
- Japan
- Prior art keywords
- model
- phoneme
- independent
- phoneme environment
- distance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
図1に記載の音声認識装置において、入力音声は、音声分析部110において特徴ベクトルの時系列に変換されて、探索処理部130に入力される。探索処理部130においては、音響モデル120を用いて、文法140で表現される単語(列)と特徴ベクトル603の時系列との照合が行われ(探索処理)、最も尤度の高い単語(列)が認識結果として出力される。
音声分析部110における音声分析方法としてよく用いられるのは、ケプストラム分析であり、特徴量としては、MFCC(Mel Frequency Cepstral Coefficient)、ΔMFCC、ΔΔMFCC、対数パワー、Δ対数パワーなどがあり、それらが、10〜100次元程度の特徴量ベクトルを構成する。分析フレーム幅30ms程度、分析フレームシフト幅10ms程度で分析が実行される。
現在、音響モデル604として、確率・統計理論に基づいてモデル化された隠れマルコフモデル(Hidden Markov Model,略してHMM)が汎用される。通常、HMMは音素カテゴリ単位で作成され、この音素モデルの集合として1つの音響モデルが構築される。
例えば、*を任意の音素を表わすとした場合、(1)*−a−*は、音素aのmonophone−HMM、(2)p−a−*は、先行音素がpである音素aの先行音素環境依存biphone−HMM、(3)*−a−tは、後続音素がtである音素aの後続音素環境依存biphone−HMM、(4)p−a−tは、先行音素がp、後続音素がtである音素aのtriphone−HMMである。
また、音素モデルが表現する音素カテゴリの種類については、音響モデル学習データに依存するが、例えば、t−t−tなど、日本語の音素連鎖としてあり得ないものは含まれないため、一般的には数千〜数万程度になる。
まず、図2に示すように、状態Sが混合確率分布Mとして表現される。混合確率分布の各要素分布としては、離散確率分布と連続確率分布があるが、現在、最もよく用いられているのは、連続確率分布の1つである多次元正規(ガウス)分布であり、そのうちでも次元間の相関がない(共分散行列の対角成分が0である)多次元無相関正規分布が最もよく用いられている。多次元正規分布の各次元は、前記特徴量ベクトルの各次元に対応する。図2では、状態Sが4つの多次元正規分布を要素分布とする多次元混合正規分布Mとして表現されている。また、図2では、特徴量ベクトルのある次元iについて示しているが、前記特徴量ベクトルの各次元について同様に表現される。
図3に示した音素モデルに、ある特徴ベクトルの時系列が入力されたときの尤度計算について解説する。例えば、6フレーム分の特徴量ベクトルの時系列X=X1,X2,X3,X4,X5,X6が、音素モデルのある1つの状態遷移系列S=S1−>S1−>S2−>S2−>S3−>S3から出力される確率(尤度)P(X|S,HMM)は、以下のように計算される。
前記の尤度計算は、ある1つの状態遷移系列Sに対するものであるが、このような状態遷移系列は他にもあげることができる。このような状態遷移系列全てに対して、特徴ベクトルの時系列Xを出力する確率を計算し、それらを加算したものを音素モデルに特徴ベクトルの時系列Xが入力されたときの尤度とする方法はトレリス(trellis)アルゴリズムと呼ばれる。
また、前記の尤度計算は、ある1つの音素モデルに対するものであるが、実際には、探索処理部130において、探索処理を行う前に、音素モデルを連結して文法140で表現される単語(列)のHMMのネットワーク(探索ネットワーク)を作成し、そして、入力音声の特徴ベクトルの時系列と探索ネットワークで表現される単語(列)との照合が行われ(探索処理)、最も尤度が高い単語(列)が認識結果として出力される。
また、音響モデル120に含まれる音素モデルの各種パラメータ(状態遷移確率ajk、分布重みWjm、正規分布の各次元の平均μjmi、および、分散σjmi 2)の推定アルゴリズムとしては、バウム−ウェルチ(Baum−Welch)アルゴリズムが最もよく用いられる。また、1つの音響モデルの学習(パラメータ推定)には、数十〜数百時間という大量の音声データとその発声内容ラベルデータが用いられる。
ところで、前記のように、音響モデルの学習には、数十〜数百時間という大量の音声データとその発声内容ラベルデータ(以下ではこれらを合わせて学習データと呼ぶ)が用いられるが、これだけの量の学習データを一人の話者から収集することは不可能であり、通常は、数十人〜数千人の話者から収集する。また、学習データは、雑音のない(または比較的静かな)クリーン環境(例えば、防音室など)で収録されることが多い。このため、ここで得られる音響モデルは、比較的静かな環境という条件の下では、どのような話者にもある程度の認識精度を示す音響モデルとなる。
例えば、図4に示すように、音響モデル適応化装置400に、大量の学習データで学習された適応化前音響モデル405Aとターゲットの話者や環境から収集された少量の適応化用データ460が入力される。適応化前音響モデル405Aは、適応化用データ460を用いて適応されて、適応化後音響モデル405Bとして出力される。
MAP適応では、適応化前音響モデルのパラメータと、適応化用データから前記のバウムウェルチアルゴリズムを用いて推定されるパラメータとの内分点を取る形で、適応化後音響モデルのパラメータを推定する。また、MAP適応では、適応化用データ中に出現する音素環境に対応する音素モデルに対してのみパラメータ更新が行われる。
このことから推察されるように、一般に、MAP適応は、次のMLLR適応との比較において、適応化用データの量に対して認識精度の改善速度(ターゲットへの特化の度合い)は遅いが、適応化用データが得られるほど認識精度の改善の度合いは大きい、という特徴を持つ適応化手法である。
MLLR適応では、事前に適応化前音響モデルに含まれる音素モデルをクラスタリングし、音素モデルクラスタを生成しておく。そして、各音素モデルクラスタに含まれる音素モデル同士で、適応化用データを共用する。例えば、音素モデルp−a+tと音素モデルp−a+kが同じ音素モデルクラスタに含まれていれば、適応化用データに音素環境p−a+kしか出現しない場合でも、これを利用して、音素モデルp−a+kだけでなく、音素モデルp−a+tのパラメータも更新する。
また、以上は、音素モデルクラスタを基に適応化を行う場合について述べたが、さらに詳細には、音素モデルを構成する正規分布のレベル(図2参照)でクラスタリングを行い、同じクラスタに入った正規分布同士で適応化用データを共用する場合もある。
ここで、MLLR適応における音素モデルクラスタまたは正規分布クラスタの代表的な生成手法について述べる。
鹿野清弘宏,伊藤克亘,河原達也,武田一哉,山本幹雄,「IT Text 音声認識システム」,pp.1−51,2001,オーム社 J.L.Gauvain and C.H.Lee,"Maximum a Posteriori Estimation for Multivariate Gaussian Mixture Observations of Markov Chains,"IEEE Trans.on Speech and Audio Processing,vol.2,no.2,pp.291−298,Apr.1944. C.J.Leggetter and P.C. Woodland,"Maximum Likelihoood Linear Regression for Speaker Adaptation of Continuous Density Hidden Markov Models,"Computer Speech and Language,Sep.1995,pp.171−185. S.Young et.al."The HTK Book(for HTK Version 3.0),"http://htk.eng.cam.ac.jk/, pp.129−130. 小川厚徳,山口義和,高橋敏,"混合重み係数を考慮した分布間距離尺度による音響モデルの分布数削減"日本音響学会講演論文集,2−1−23,pp.81−82,Sep.2004.
前記の音素モデルクラスタの生成は、人手で行われる。指定可能なクラスタ数(前記したように、日本語の場合、1から最大50程度)の分だけ、音素モデルクラスタを、あらかじめ人手で生成しておく必要がある。この作業には音韻論や音声学の高度な知識が必要であり、かつ、非常にコストの高い作業となる。また、もし、定義する音素体系が変われば、この作業を繰り返す必要がある。
音響モデル適応化装置500は、音素モデル環境依存性分類部510、音素環境非依存モデル集合記憶部515、音素環境依存モデル集合記憶部520、音素環境非依存モデルクラスタリング部525、クラスタ数入力部530、クラスタ数記憶部535、音素環境非依存モデルクラスタ記憶部540、音素環境依存モデルクラスタリング部545、音素モデルクラスタ記憶部550、及び、音素モデルパラメータ更新部555から構成される。
[ステップ1]
まず、音素モデル環境依存性分類部510は、適応化の対象となる適応化前音響モデルを適応化前音響モデル記憶部505Aから読み出し、適応化前音響モデルに含まれる音素モデルを、音素環境非依存モデル集合(monophone−HMM:*−a−*,*−k−*など)と音素環境依存モデル集合(biphone−HMM:p−a−*,*−a−t,i−k−*,*−k−aなどやtriphone−HMM:p−a−t,i−k−aなど)とに分類してそれぞれ出力する。音素環境非依存モデル集合は音素環境非依存モデル集合記憶部515に格納され、音素環境依存モデル集合は音素環境依存モデル集合記憶部520に格納される([ステップ1]終わり。)。
[ステップ2]
次に、音素環境非依存モデルクラスタリング部525は、音素環境非依存モデル集合記憶部515に格納された音素環境非依存モデル集合と、クラスタ数記憶部535に格納された所望のクラスタ数とを読み出し、当該音素環境非依存モデルを当該所望のクラスタ数になるようにクラスタリングを行い、音素環境非依存モデルクラスタを出力する。音声環境非依存モデルクラスタは音素環境非依存モデルクラスタ記憶部540に格納される。
ここで、所望のクラスタ数は、クラスタ数入力部530から予め入力され、クラスタ数記憶部535に格納されているものとする。
指定可能なクラスタ数は、1〜定義される最大音素数(先に述べたように、日本語なら25〜50程度、英語をはじめとする外国語なら40〜100程度)である。
[ステップ3]
次に、音素環境依存モデルクラスタリング部545は、音素環境依存モデル集合記憶部520に格納された音素環境依存モデル集合と、音素環境非依存モデルクラスタ記憶部540に格納された音素環境非依存モデルクラスタとを読み出し、音素モデルクラスタを生成し、出力する。音素モデルクラスタは、音素モデルクラスタ記憶部550に格納される。
例えば、音素環境依存モデルbiphone−HMM:p−a−*,*−a−tやtriphone−HMM:p−a−tなどは、音素環境非依存モデルmonophone−HMM:*−a−*に包含される関係にあるため、この音素環境非依存モデルmonophone−HMM:*−a−*が所属するクラスタへとクラスタリングされる。同様に、例えば、音素環境依存モデルbiphone−HMM:i−k−*,*−k−aやtriphone−HMM:i−k−aなどは、音素環境非依存モデルmonophone−HMM:*−k−*に包含される関係にあるため、この音素環境非依存モデルmonophone−HMM:*−k−*が所属するクラスタへとクラスタリングされる。
[ステップ4]
最後に、音素モデルパラメータ更新部555は、音素モデルクラスタ記憶部550に格納された音素モデルクラスタと、音響モデル適応化用データ記憶部560に格納された音響モデル適応化用データとを読み出し、各音素モデルのパラメータを更新し、適応化後音響モデルを出力する。出力された適応化後音響モデルは、適応化後音響モデル記憶部505Bに格納される。なお、音素モデルのパラメータの更新の手順は、例えば、非特許文献3等に記載された従来の技術の通りである([ステップ4]終わり。)。
[音素環境非依存モデルクラスタリング部525の詳細]
まず、クラスタリングをする際に必要になる距離の概念について説明する。具体的には、クラスタ間距離d(Ci,Cj)、モデル間距離d(Pi,Pj)、状態間距離d(Si,Sj)、及び、分布間距離d(Ni,Nj)の各概念について説明する。
〈クラスタ間距離d(Ci,Cj)〉
音素環境非依存モデルクラスタをCi(i=1,…,I)とし、Ciに含まれる音素環境非依存モデルをPim(m=1,…,M)とする。このとき、音素環境非依存モデルクラスタCiと他の音素環境非依存モデルクラスタCjの距離d(Ci,Cj)には、例えば、最近隣距離minm,nd(Pim,Pjn)、最遠隣距離maxm,nd(Pim,Pjn)、群平均距離(1/(M×N))Σm=1 MΣn=1 Nd(Pim,Pin)の3種類がある。これらを、M=4,N=5の場合である図9の例を参照して説明する。
最遠隣距離d(Ci,Cj)=maxm,nd(Pim,Pjn)は、Ciに含まれるPimとCjに含まれるPinの組み合わせで得られる距離のうちで最も大きいものを、CiとCjの距離とするものである。図9の例では、Pi1とPj2の距離が、最遠隣距離となる。
〈モデル間距離d(Pi,Pj)〉
音素環境非依存モデルをPi(i=1,…,I)とし、Piを構成する音素環境非依存モデル状態をSim(m=1,…,M)とする。このとき、音素環境非依存モデルPiと他の音素環境非依存モデルPjの距離d(Pi,Pj)には、例えば、状態位置ごとの状態間距離の加算平均(1/M)Σm=1 Md(Sim,Sjm)、状態間群平均距離(1/(M×N))Σm=1 MΣn=1 Nd(Sim,Sjn)の2種類がある。これらを、Piが3状態Si1,Si2,Si3、Pjが3状態Sj1,Sj2,Sj3から構成される図10の例を参照して説明する。
状態間群平均距離は、各状態間の距離d(Si1,Sj1)、d(Si1,Sj2)、…、d(Si3,Sj2)、d(Si3,Sj3)をそれぞれ求め、それらの加算平均値(1/(3×3))Σm=1 3Σn=1 3d(Sim,Sjn)を、PiとPjの距離d(Pi,Pj)とするものである(〈モデル間距離d(Pi,Pj)〉の説明終わり。)。
〈状態間距離d(Si,Sj)〉
音素環境非依存モデル状態をSi(i=1,…,I)とし、Siを構成する音素環境非依存モデル分布をNim(m=1,…,M)、その重みをWim(m=1,…,M)、Nimを重みWimの大きい順にソートしたものをNirm(m=1,…,M)とする。このとき、音素環境非依存モデル状態Siと他の音素環境非依存モデル状態Sjの距離d(Si,Sj)には、例えば、重みでソートしたランクごとの分布間距離の加算平均(1/M)Σm=1 Md(Nirm,Njrm)、分布間群平均距離(1/(M×M))Σm=1 MΣN=1 Nd(Nim,Njn)の2種類がある。これらを、Siが4分布Ni1,Ni2,Ni3,Ni4、Sjが3状態Nj1,Nj2,Nj3,Nj4から構成される図11の例を参照して説明する。
分布間群平均距離は、各分布間距離d(Ni1,Nj1),d(Ni1,Nj2),…,d(Ni4,Nj3),d(Ni4,Nj4)をそれぞれ求め、その加算平均値(1/(4×4))Σm=1 4ΣN=1 4d(Nim,Njn)を、SiとSjの距離d(Si,Sj)とするものである(〈状態間距離d(Si,Sj)〉の説明終わり。)。
〈分布間距離d(Ni,Nj)〉
音素環境非依存モデル分布をNiとし、Niを構成するK次元無相関ガウス分布(各次元をk=1,…,Kと表記)の平均をμik、分散をσik 2、Niの重みをWiとする。このとき、音素環境非依存モデル分布Niと他の音素環境非依存モデル分布Njの距離d(Ni,Nj)には、例えば、以下の式(5)で定義されるKullback−Leiblerダイバージェンス、
このように、クラスタ間距離d(Ci,Cj)はモデル間距離d(Pi,Pj)から定義され、モデル間距離d(Pi,Pj)は状態間距離d(Si,Sj)から定義され、状態間距離d(Si,Sj)は分布間距離d(Ni,Nj)から定義される関係にある。
次に、音素環境非依存モデルクラスタリング部525の詳細について説明する。音素環境非依存モデルクラスタリング部525は、例えば、音素環境非依存モデルクラスタ間距離に基づく階層的ボトムアップクラスタリングや、音素環境非依存モデル間距離に基づくk−meansクラスタリングを行うことができる。
〈階層的ボトムアップクラスタリング〉
音素環境非依存モデルクラスタ間距離に基づく階層的ボトムアップクラスタリングは、図5において破線で示した、音素環境非依存モデルクラスタリング部525内にある階層的ボトムアップクラスタリング部5251が行う。
クラスタ間距離計算部1000は、例えば、上記説明した最近隣距離、最遠隣距離、群平均距離の何れかの距離概念を用いて、階層的ボトムアップクラスタリングをする際に必要になる音素環境非依存モデルクラスタ間距離d(Ci,Cj)を計算する。
モデル状態間距離計算部1020は、例えば、上記説明した重みでソートしたランクごとの分布間距離の加算平均、分布間群平均距離の何れかの距離概念を用いて、音素環境非依存モデル間距離d(Pi,Pj)を計算する際に必要になる音素環境非依存モデル状態間距離d(Si,Sj)を計算する。
〈k−meansクラスタリング〉
音素環境非依存モデル間距離に基づくk−meansクラスタリングは、図5において破線で示した、音素環境非依存モデルクラスタリング部525内にあるk−meansクラスタリング部5252が行う。
図8に示すように、k−meansクラスタリング部はモデル間距離計算部1010を備え、モデル間距離計算部1010はモデル状態間距離計算部1020を備え、モデル状態間距離計算部1020はモデル分布間距離計算部1030を備える。
モデル状態間距離計算部1020は、例えば、上記説明した重みでソートしたランクごとの分布間距離の加算平均、分布間群平均距離の何れかの距離概念を用いて、音素環境非依存モデル間距離d(Pi,Pj)を計算する際に必要になる音素環境非依存モデル状態間距離d(Si,Sj)を計算する。
例えば、図12に示すように、各部がバス6に接続され、RAM2に音響モデル適応化プログラムが、CD−ROM、ハードディスクなどから、あるいは通信回線を介してインストールされてある。CPU1がこの音響モデル適応化プログラムを実行することにより、音響モデル適応化プログラムを実行することができる。補助記憶装置3は、一時的にデータを記憶するためなどに用いられる。
Claims (16)
- 音響モデルを入力とし、その音響モデルに含まれる音素モデル集合を音素環境非依存モデル集合と音素環境依存モデル集合とに分類してそれぞれ出力する音素モデル環境依存性分類部と、
前記音素環境非依存モデル集合を入力とし、この音素環境非依存モデル集合に対して定義される最大音素数以下の予め指定されたクラスタ数になるようにクラスタリングを実行して音素環境非依存モデルクラスタを出力する音素環境非依存モデルクラスタリング部と、
前記音素環境依存モデル集合を入力とし、この音素環境依存モデル集合に含まれる個々の音素環境依存モデルを、それを包含する音素環境非依存モデルが所属する音素環境非依存モデルクラスタへとクラスタリングし、音素モデルクラスタを出力する音素環境依存モデルクラスタリング部と、
前記音素モデルクラスタと音響モデル適応化用データとを入力とし、これらを基に前記音素モデル集合に含まれる各音素モデルのパラメータを更新し、適応化後音響モデルを出力する音素モデルパラメータ更新部と、
を備えることを特徴とする音響モデル適応化装置。 - 請求項1に記載の音響モデル適応化装置において、
前記音素環境非依存モデルクラスタリング部は、音素環境非依存モデルクラスタ間距離に基づき、階層的ボトムアップクラスタリングを行うことを特徴とする音響モデル適応化装置。 - 請求項2に記載の音響モデル適応化装置において、
前記音素環境非依存モデルクラスタリング部は、音素環境非依存モデルのクラスタリングを実行する際に、音素環境非依存モデルクラスタ間距離として、最近隣距離、最遠隣距離、又は、群平均距離を用いることを特徴とする音響モデル適応化装置。 - 請求項1に記載の音響モデル適応化装置において、
前記音素環境非依存モデルクラスタリング部は、音素環境非依存モデル間距離に基づき、k−meansクラスタリングを行うことを特徴とする音響モデル適応化装置。 - 請求項3又は請求項4に記載の音響モデル適応化装置において、
前記音素環境非依存モデルクラスタリング部は、音素環境非依存モデルのクラスタリングを実行する際に、音素環境非依存モデル間距離として、対応する位置にある状態間距離の加算平均、又は、状態間群平均距離を用いることを特徴とする音響モデル適応化装置。 - 請求項5に記載の音響モデル適応化装置において、
前記音素環境非依存モデルクラスタリング部は、音素環境非依存モデルのクラスタリングを実行する際に、音素環境非依存モデル状態間距離として、分布重みでソートした順位ごとの分布間距離の加算平均、又は、分布間群平均距離を用いることを特徴とする音響モデル適応化装置。 - 請求項6に記載の音響モデル適応化装置において、
前記音素環境非依存モデルクラスタリング部は、音素環境非依存モデルのクラスタリングを実行する際に、音素環境非依存モデル分布間距離として、Kullback−Leiblerダイバージェンス、Bhattacharyya距離、重み付きKullback−Leiblerダイバージェンス、又は、重み付きBhattacharyya距離を用いることを特徴とする音響モデル適応化装置。 - 音素モデル環境依存性分類手段が、入力された音響モデルに含まれる音素モデル集合を音素環境非依存モデル集合と音素環境依存モデル集合とに分類する音素モデル環境依存性分類ステップと、
音素環境非依存モデルクラスタリング手段が、前記音素環境非依存モデル集合に対して定義される最大音素数以下の予め指定されたクラスタ数になるようにクラスタリングを実行して音素環境非依存モデルクラスタを求める音素環境非依存モデルクラスタリングステップと、
音素環境依存モデルクラスタリング手段が、前記音素環境依存モデル集合に含まれる個々の音素環境依存モデルを、それを包含する音素環境非依存モデルが所属する音素環境非依存モデルクラスタへとクラスタリングをし、音素モデルクラスタを求める音素環境依存モデルクラスタリングステップと、
音素モデルパラメータ更新手段が、前記音素モデルクラスタと入力された音響モデル適応化用データとを基に前記音素モデル集合に含まれる各音素モデルのパラメータを更新し、適応化後音響モデルを求める音素モデルパラメータ更新ステップと、
を有することを特徴とする音響モデル適応化方法。 - 請求項8に記載の音響モデル適応化方法において、
前記音素環境非依存モデルクラスタリングステップは、音素環境非依存モデルクラスタ間距離に基づき、階層的ボトムアップクラスタリングを行うことを特徴とする音響モデル適応化方法。 - 請求項9に記載の音響モデル適応化方法において、
前記音素環境非依存モデルクラスタリングステップは、音素環境非依存モデルのクラスタリングを実行する際に、音素環境非依存モデルクラスタ間距離として、最近隣距離、最遠隣距離、又は、群平均距離を用いることを特徴とする音響モデル適応化方法。 - 請求項8に記載の音響モデル適応化方法において、
前記音素環境非依存モデルクラスタリングステップは、音素環境非依存モデル間距離に基づき、k−meansクラスタリングを行うことを特徴とする音響モデル適応化方法。 - 請求項10又は請求項11に記載の音響モデル適応化方法において、
前記音素環境非依存モデルクラスタリングステップは、音素環境非依存モデルのクラスタリングを実行する際に、音素環境非依存モデル間距離として、対応する位置にある状態間距離の加算平均、又は、状態間群平均距離を用いることを特徴とする音響モデル適応化方法。 - 請求項12に記載の音響モデル適応化方法において、
前記音素環境非依存モデルクラスタリングステップは、音素環境非依存モデルのクラスタリングを実行する際に、音素環境非依存モデル状態間距離として、分布重みでソートした順位ごとの分布間距離の加算平均、又は、分布間群平均距離を用いることを特徴とする音響モデル適応化方法。 - 請求項13に記載の音響モデル適応化方法において、
前記音素環境非依存モデルクラスタリングステップは、音素環境非依存モデルのクラスタリングを実行する際に、音素環境非依存モデル分布間距離として、Kullback−Leiblerダイバージェンス、Bhattacharyya距離、重み付きKullback−Leiblerダイバージェンス、又は、重み付きBhattacharyya距離を用いることを特徴とする音響モデル適応化方法。 - 請求項1から請求項7の何れかに記載の音響モデル適応化装置としてコンピュータを機能させるための音響モデル適応化プログラム。
- 請求項15に記載の音響モデル適応化プログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006071111A JP4571921B2 (ja) | 2006-03-15 | 2006-03-15 | 音響モデル適応化装置、音響モデル適応化方法、音響モデル適応化プログラム及びその記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006071111A JP4571921B2 (ja) | 2006-03-15 | 2006-03-15 | 音響モデル適応化装置、音響モデル適応化方法、音響モデル適応化プログラム及びその記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007248742A JP2007248742A (ja) | 2007-09-27 |
JP4571921B2 true JP4571921B2 (ja) | 2010-10-27 |
Family
ID=38593122
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006071111A Active JP4571921B2 (ja) | 2006-03-15 | 2006-03-15 | 音響モデル適応化装置、音響モデル適応化方法、音響モデル適応化プログラム及びその記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4571921B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101587866B1 (ko) | 2009-06-03 | 2016-01-25 | 삼성전자주식회사 | 음성 인식용 발음사전 확장 장치 및 방법 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005338358A (ja) * | 2004-05-26 | 2005-12-08 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデル雑音適応化方法およびこの方法を実施する装置 |
-
2006
- 2006-03-15 JP JP2006071111A patent/JP4571921B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005338358A (ja) * | 2004-05-26 | 2005-12-08 | Nippon Telegr & Teleph Corp <Ntt> | 音響モデル雑音適応化方法およびこの方法を実施する装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2007248742A (ja) | 2007-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
McAuliffe et al. | Montreal forced aligner: Trainable text-speech alignment using kaldi. | |
US10297247B2 (en) | Phonotactic-based speech recognition and re-synthesis | |
JP6637078B2 (ja) | 音響モデル学習装置、音響モデル学習方法及びプログラム | |
US9858919B2 (en) | Speaker adaptation of neural network acoustic models using I-vectors | |
US8290773B2 (en) | Information processing apparatus, method and recording medium for generating acoustic model | |
US20170372694A1 (en) | Dialogue act estimation method, dialogue act estimation apparatus, and storage medium | |
JP4590692B2 (ja) | 音響モデル作成装置及びその方法 | |
CN108538285B (zh) | 一种基于多任务神经网络的多样例关键词检测方法 | |
US8494847B2 (en) | Weighting factor learning system and audio recognition system | |
Oh et al. | Acoustic model adaptation based on pronunciation variability analysis for non-native speech recognition | |
Aggarwal et al. | Integration of multiple acoustic and language models for improved Hindi speech recognition system | |
Stuttle | A Gaussian mixture model spectral representation for speech recognition | |
Kannadaguli et al. | A comparison of Bayesian and HMM based approaches in machine learning for emotion detection in native Kannada speaker | |
JP2007225931A (ja) | 音声認識システム及びコンピュータプログラム | |
JP4861912B2 (ja) | 知識源を組込むための確率計算装置及びコンピュータプログラム | |
Dey et al. | Mizo phone recognition system | |
JP3919475B2 (ja) | 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体 | |
JP2015036769A (ja) | 雑音抑圧装置、雑音抑圧方法、およびプログラム | |
Abraham et al. | An automated technique to generate phone-to-articulatory label mapping | |
Kannadaguli et al. | Comparison of hidden markov model and artificial neural network based machine learning techniques using DDMFCC vectors for emotion recognition in Kannada | |
JP4571921B2 (ja) | 音響モデル適応化装置、音響モデル適応化方法、音響モデル適応化プログラム及びその記録媒体 | |
JP2008064849A (ja) | 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体 | |
Mandal et al. | Improving robustness of MLLR adaptation with speaker-clustered regression class trees | |
Chakraborty et al. | Role of synthetically generated samples on speech recognition in a resource-scarce language | |
Gorin et al. | Investigating stranded GMM for improving automatic speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100212 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100302 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100430 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100803 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100813 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130820 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4571921 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |