JP2005234214A - 音声認識用音響モデル生成方法及び装置、音声認識用音響モデル生成プログラムを記録した記録媒体 - Google Patents

音声認識用音響モデル生成方法及び装置、音声認識用音響モデル生成プログラムを記録した記録媒体 Download PDF

Info

Publication number
JP2005234214A
JP2005234214A JP2004043048A JP2004043048A JP2005234214A JP 2005234214 A JP2005234214 A JP 2005234214A JP 2004043048 A JP2004043048 A JP 2004043048A JP 2004043048 A JP2004043048 A JP 2004043048A JP 2005234214 A JP2005234214 A JP 2005234214A
Authority
JP
Japan
Prior art keywords
acoustic model
evaluation function
speech recognition
clustering
model generation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004043048A
Other languages
English (en)
Other versions
JP4394972B2 (ja
Inventor
Shinji Watabe
晋治 渡部
Atsushi Nakamura
篤 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004043048A priority Critical patent/JP4394972B2/ja
Publication of JP2005234214A publication Critical patent/JP2005234214A/ja
Application granted granted Critical
Publication of JP4394972B2 publication Critical patent/JP4394972B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

【課題】モデル構造の探索空間と各モデル構造評価関数計算時間との両方を削減することにより、短時間で高性能な音響モデルを構築する。
【解決手段】学習音声信号を変換した時系列特徴ベクトルをもとに、(s1)音素決定木を用いてクラスタリングを行い、(s2)クラスタリングにより得られた音響モデルであって、(s3)1状態あたり異なる混合数を有する複数の音響モデルからベイズ基準評価関数が最大であるモデル構造を選択し、(s1)のクラスタリングの際に音素環境状態クラスタリングを混合ガウス分布を用いる。
【選択図】図8

Description

本発明は、音声認識用音響モデルの生成方法及び装置、音声認識用音響モデル生成プログラムを記録した記録媒体に関する。
音響モデルが用いられる音声認識装置の概略を説明する(図1 参照)。
音声認識装置は、フレームごとに学習音声信号データと時系列特徴ベクトルに変換する特徴量変換部と、モデルパラメータ学習及び適切なモデル構造決定を行う音響モデル生成部と、得られた音響モデルを用いて未知入力音声の時系列特徴量ベクトルに対しスコアを算出し、これに発音辞書や言語モデル等に対するスコアを考慮して認識結果を与える認識部とから構成される。
音響モデル生成部について説明を行う。
現在音響モデルで主流となっているのは図2(状態数3、混合数3)にあるように、1音素の特徴量時系列を隠れマルコフモデル(HMM)で表現し、HMM状態の出力分布として混合ガウス分布を用いる手法である。
HMMは音声の区分定常的な性質を、定常的確率過程と状態遷移の組み合わせで表現することができる。また、混合ガウス分布を用いることにより、様々な要因により作られる音声の揺らぎを統計的に表現することができる。
状態系列集合をS={s0,s1,・・・,sT}とし、混合ガウス成分系列をV={v0,v1,・・・,vT}とし、D次元時系列特徴量ベクトルO={OT∈RD|t=1,・・・,T}とすると、O,S,Vからなる完全データを出力とするHMM出力分布は各音素カテゴリー毎に次のように表現される。
Figure 2005234214
また、文中において上付き添字とべき乗を区別するために、べき乗の場合は必ずその変数に括弧()を付ける。
次に音素カテゴリーについて述べる。発話機構の物理的制約や抑揚などにより、前後の音素に応じて発声は変化するため、近年では直前直後の音素環境を考慮したトライフォンを音素カテゴリーとするのが一般的である。トライフォンは音素環境を考慮しない音素カテゴリー(モノフォン)に比べて、複雑なモデルである。
トライフォンの総数は膨大であり、全てのトライフォンを十分に学習できるほどのデータを容易するのは困難である。そのため、音響的に性質の似ているトライフォンをHMM状態単位でクラスタリングし、1つの音素カテゴリーとみなすことにより、データ不足により生じる過学習を回避する手法がとられる(図3 参照)。このような状態クラスタリングの仕方や総状態数の決定を音響モデルにおけるモデル構造の選択と呼ぶ(音素環境状態クラスタリング)。モデル構造選択には状態あたりの混合数の設定も含まれる(混合数決定)。
最適モデル構造は学習データに依存するため、学習データに応じたモデル構造選択が必要となる。従来法である最尤法はデータが十分大きい時の推定を保証しているだけでモデル構造選択についての妥当性を議論することができない。そのため、モデル構造選択には経験則の介在が不可欠となっている。さらに、音声認識用音響モデルは、総計数が100万個にも及ぶ複雑なパラメータがHMMや音素環境状態クラスタリング、混合ガウス分布で階層的に表現されており、またHMM状態系列や混合ガウス成分系列といった隠れ変数を含んでいるため、そのモデル構造は極めて複合的である。従って、現在の音響モデル構築は、この複合的構造を把握した限定された人(専門家)の経験則を利用せざるを得ないという問題を抱える。一方で、実際の音声認識の応用においては、事前に学習に用いられたデータとは異なる環境での用途が必ずでてくるため、日々得られる異環境音声データをもとに音響モデルを再構築することが頻繁に起こる。このような場合、その都度経験則が必要となり、そのコストは大変膨大となる。
(経験則法)
経験則による従来型の音響モデル構築について説明する(図4:s11〜s18 参照)。
(s11)学習データに対して、学習データ量や学習データの性質(時系列特徴量ベクトル
)をもとに、経験からクラスタリング状態の総数(状態数)と混合数を設定する。その後、(s12)音素決定木法や逐次状態分割法などの状態クラスタリングを、あらかじめ定めた総状態数に達するまで行い、状態クラスタリング構造を設定する(図4 参照)。ここで、従来法においてはクラスタリングの基準として尤度や平均ベクトルの距離といった分布の近さをあらわす評価関数が用いられる(図5 参照)。しかし、これらの評価関数は総状態数などのモデル構造の良し悪しとは無関係なため、学習データから得られる経験則による総状態数の設定が必要となる。また状態クラスタリングにおいて、1)状態を表現する出力分布は混合数1の単一ガウス分布である、2)状態に割り当てられた学習データは固定、と仮定することにより隠れ変数を取り払っている。1)に関して、本来は様々な要因により作られる音声の揺らぎを表現する混合ガウス分布を用いたクラスタリングが妥当であるが、混合ガウス分布とした場合、評価関数計算において、学習データの各フレームごとに隠れ変数の事後確率値を評価関数が収束するまで繰り返し計算を行う期待値最大化法が必要となり、それを状態の組み合わせ各々に対して計算する必要があるため計算量が膨大である。一方、混合数1の単一ガウス分布とした場合、状態j=1と状態j=2を共有化させた状態J={1+2}の統計量(フレーム数ζ1+2、平均ベクトルμ1+2、対角共分散行列σ1+2)は、状態1と状態2の統計量(フレーム数ζ1,ζ2、平均ベクトルμ1,μ2、対角共分散行列σ1,σ2)を用いて次のように求められる(s12-1)。
Figure 2005234214
ここで(μ)2={(μd=12,・・・,(μd=D2}’(「’」は転置を表す)である。ここでは計算時間短縮の理由から対角共分散行列を用いる。よって共分散行列は対角成分から構成されるD次元ベクトルで表現される(つまり、σ=(σ11,・・・σDD)’,σyzは共分散行列のy行z列成分)。計算結果は極めてシンプルであり、期待値最大化法を必要とせず、それぞれの統計量によって所望のクラスター状態の統計量を解析的に得られ、それらの関数である評価関数も解析的に算出される(s12-2)。そのため最小クラスター(トライフォン音素カテゴリーの場合はトライフォン状態)の統計量を事前に計算し、記憶してしておけば、式(2)を用いて高速に評価関数を計算することができる(s12-1)。その後、1)及び2)の仮定を取り払い、混合ガウス分布モデルのHMM最尤学習を行う(s13)。このとき、混合数を変化させて複数の音響モデルを作る(s16)。また、総状態数を変化させて先ほどの作業を繰り返すことにより(s17)、状態数・混合数が異なる複数の音響モデル構造を作ることができる(s14)。最後に、その音響モデルの良し悪しを決めるために、評価データをもとに認識を行い(s15)、認識率が最も良いものが音響モデルとして採用される(s18)。しかし、認識率を評価基準とした場合、音響モデルは実際の認識データではなく評価データに特化されることになるため、未知データに対する認識が前提の音声認識システムにとって、必ずしも良い評価とはなっていない。また、音声認識は言語モデル等が複雑に絡まった大規模システムであるため、認識結果を出すにも経験則の介在が不可欠であり、かつ時間もかかる(これを経験則法と呼ぶ)。
(2段階法)
MDL(最小記述長)、BIC(ベイズ的情報基準)、AIC(赤池情報基準)の漸近情報量基準(漸近:学習データが十分多い領域でのみ機能する)や変分ベイズ基準評価関数を用いた音響モデル構造決定は、評価関数によりモデルの良し悪しを決めることができるため、経験則による総状態数の設定や認識率算出(モデル構造の良し悪しを評価に用いる)をする必要がない[特許文献1,非特許文献1,2 参照]。これらは、混合数決定においても評価関数を用いることにより同様の利点を持つ[非特許文献3 参照]。しかし、[非特許文献1,2]は評価関数にMDL,BIC,AICを用いており、学習データが少ない領域ではその構造決定が十分に機能しない。また音響モデルは隠れ変数を含んでおり、そのような場合においてもMDL,BIC,AICはモデル構造を正確に決定することができない。変分ベイズ評価関数は学習データの量に依存せず、また隠れ変数が存在しかつ複雑に構造化された音響モデルにおいても、その構造を評価関数に正確に反映できる。しかし、実際の音響モデルは音素環境クラスタリング、混合数決定の組み合わせで表現され、それらの最適な音響モデルをしらみつぶしに探していくのは変分ベイズ評価関数を用いた場合でも大変時間がかかる。
それを回避するために、(s21)まず初めに状態クラスタリングに際し、先ほど同様1)及び2)の仮定を用いて隠れ変数を除き、あらかじめ計算された各状態の統計量をもとに状態クラスタリングを行う(図7 参照)。この場合経験則法とは違い、評価関数の最も高くなる状態クラスタリングを選択することにより、状態クラスタリングに関しては経験則の介在なく構築することができる。その後(s22)1)及び2)の仮定を取り払い、混合ガウス分布モデルのHMM最尤学習を行う。このとき、混合数を変化させて複数の音響モデルを構築し、(s23)最も評価関数の高い音響モデルをもって最適音響モデルとする手法が提案されている(このような2段階操作によるモデル構造の自動決定法を2段階法とよぶ)[非特許文献3 参照]。2段階法は経験則を必要とせず、計算機で音響モデルを構築できる上に、状態共有構造は1種類を作ればいいのでモデル構造探索空間は削減され、従来法よりも短い時間で音響モデルを構築できる。しかし、状態クラスタリング・混合数決定それぞれの工程で独立に最適モデル構造探索を行うため、局所最適モデル構造を選択することになり、認識性能が経験則を用いる従来法に比べて下回る(図6及び表1 参照)。
このように、従来の2段階法は局所最適モデル探索であるため、最適音響モデルの自動構築が機能的に不可能である。
本発明は、音素環境状態クラスタリング、混合数決定を同時に最適化することにより、最適音響モデルを構築する。
篠田浩一.特開2002−268675 「音声認識装置」 篠田浩一,渡辺隆夫"情報量基準を用いた状態クラスタリングによる音響モデルの作成"信学技報,SP1996-79,pp.9-15,1996. 渡部晋治,南泰浩,中村篤,上田修功"ベイズ的アプローチに基づく状態共有型HMM構造の選択"電子情報通信学会論文誌 D-II,Vol.86-D-II,pp.776-786,2003. S.Watanabe,Y.Minami,A.Nakamura,and N.Ueda."Bayesian acoustic modeling for spontaneous speech recognition." In Proc. SSPR2003, pp.47-50, 2003.
音響モデル構築は2つの異なる方法によって行われる。第1の方法は音響モデル構造を熟知する専門家が経験に基づき構築する方法であり、第2の方法は自動的に構築する方法である。
第1の方法は多大なコストを要するという問題を有する。その原因は人手の介在、、又は経験則に頼ることにある。すなわち、実際の音声認識の応用においては、事前に学習に用いられたデータとは異なる環境での用途が必ず出てくるため、日々得られる異環境音声データをもとに音響モデルを再構築することが頻繁に起こる。このような場合、その都度経験則が必要となり、そのコストが膨大となる。
第2の方法は、多大な計算量を要するという問題を有する、この問題は音響モデル構造決定の計算量が膨大であるという事実に起因する、これは次の2つに起因する。すなわち、最適モデル構造を探索する際の膨大な探索空間と個々の構造を評価する際の多大な評価関数計算量とである。
探索空間は、モデル構造決定が、音素環境状態クラスタリングと混合ガウス分布の混合選択との2つを同時に最適化することによって成されるために、膨大になる。評価関数計算は、学習データの各フレームごとに混合ガウス分布における隠れ変数の事後確率を収束するまで計算することを必要とするため、多大な計算時間を必要とする。また評価関数計算時間を低減するために提案された2段階法は局所最適モデル構造を選択するため、計算時間低減の反面、性能が劣化するという問題を有する。
本発明は、前記第2の方法に属し、ベイズ基準による音響モデル構造の自動決定に際し、音素環境状態クラスタリングを混合ガウス分布で行うことにより、モデル構造探索空間を削減する。そのとき、ベイズ基準で用いるモデル構造評価関数の計算において、混合ガウス分布の統計量を事前知識を用いて近似し、あらかじめ計算された統計量のみから評価関数を近似的に算出することにより、計算量を削減する。
経験則を用いる音響モデルと同等の性能を保ちながら、2段階法とほぼ同程度の計算時間で最適音響モデルの自動構築を実現する。
表1は、実際に、経験則を用いた手法(経験則法)と2段階法、及び本発明で紹介した音響モデル作成法(混合ガウス分布を用いた音素環境状態クラスタリング法および実施例の最後に示した評価関数近似法の併用)に対して計算時間及び認識性能を比較したものである。発明法は経験則法に対して認識性能がほぼ同程度であると共に計算時間の短縮された最適音響モデルを経験則を用いず自動で構築できる。また、従来型の自動構築法である2段階法と比べて、計算時間がほぼ同程度で、かつ最適音響モデルを構築できたため認識性能は自動構築法を上回った。このように本発明は最適音響モデル構造を実用的計算時間で自動構築することを可能とした。
Figure 2005234214
本発明を図8〜図10を参照して説明する。
音素環境状態クラスタリング、混合数決定を同時に最適化する音響モデルを構築するための手段として、混合ガウス分布を用いた決定木の構築を提案する。決定木の構築法としては音素質問を利用して節の併合・分割により効率よくクラスタリングを行う音素決定木法を用いる。時系列状態方向の構造決定を考慮した逐次状態分割法でも同様の議論が可能である。これらのクラスタリングによって得られる、状態あたりの混合数が異なる複数の音響モデルの中から最もベイズ基準評価関数の高いモデルをもって最適モデル構造とする(図8(s1) 参照)。
本方法は、評価関数の最も高くなる状態クラスタリングを選択することにより、状態クラスタリングに関しては経験則の介在なく構築することができるため、2段階法同様、モデル構造探索空間を削減する(図9(s1-1) 参照)。この探索方法は音声認識用音響モデル構造の単峰性を利用しており、最適性を保証する。また、状態クラスタリング時に混合ガウス分布を用いるため、単一ガウス分布で状態クラスタリングを行う2段階法と比べて、より正確な音響モデルパラメータ(ベイズ基準のため、Θに対する事後分布パラメータがそれにあたる)および音響モデル構造を作成することができる。この場合、各クラスタリングにおける評価関数計算において混合ガウス分布モデルの隠れ変数が存在するため、最尤法同様、学習データの各フレームごとに隠れ変数の事後確率値を評価関数が収束するまで繰り返し計算する(変分ベイズ期待値最大化法)必要があるため、最終的に混合ガウス分布の状態クラスタリング構造を得るためには、莫大な計算時間がかかる。
そこで、計算時間短縮のために、混合ガウス分布の統計量を各状態の十分統計量を用いて近似的に導出し、変分ベイズ期待値最大化法なしでベイズ基準評価関数を近似的に導出する手法を提案する(図10(s1-2) 参照)。
初めに、学習データが状態だけでなく各混合成分においても割り当てが固定であると仮定する。このとき、隠れ変数によるベイズ基準評価関数への寄与は−Σkjklogwjk と近似できるため、状態jの評価関数は次のように近似的に表現することができる。
Figure 2005234214
各混合成分あたりの統計量ζjk,wjk,μjk,σjkはビタービ・アライメントやk-meansクラスタリング等で与えることができる。また事前分布パラメータのうちφjk 0,ξjk 0,ηjk 0,σjk 0,Rjk 0 はモノフォンHMM状態や音素を混合分布で表現したときの各混合成分あたりの統計量(フレーム数ζ・平均μ・分散σ)などから与えることができる。事前分布パラメータをベイズ基準評価関数Fmが最も高くなるように学習により求める方法もある。しかし、音声認識用音響モデルの学習時間は膨大なため、特にφjk 0,ξjk 0,ηjk 0に関しては固定されたパラメータを割り振り、νjk 0,Rjk 0のみをモノフォンHMM状態の混合分布統計量で与える方が現実的である。従って以降では任意の状態および任意の混合成分に関して一様な事前分布パラメータφ0,ξ0,η0を用いて議論を進める。
次に、各混合成分あたりの統計量μjkjkは状態辺り一様であると仮定し、かわりにνjk 0,σjk 0を事前に学習したモノフォンHMM状態の混合分布統計量とし、フレーム数はモノフォンHMM状態の混合重み係数に比例させる手法も考えられる(つまりμjk=μj,σjk=σj,ζjk=ζjζk/Σkζk,νjk 0=μk,Rjk 0=η〜jkσk)。このような事後分布パラメータは次のように表現される。
Figure 2005234214
フレーム数及び分散事後分布が同一であると仮定する(つまりζjk=ζj/L,Lは混合数であり、学習データ量に応じて10〜30に設定する)ことにより、上記方法と比較して混合分布を用いた事前統計量を必要としないで事後分布パラメータを求めることができる。
Figure 2005234214
以上の近似を用いることにより、混合ガウス分布における評価関数計算が事前に計算された統計量のみから構成されるため、フレーム数に隠れ変数の事後確率値を計算することなく容易に評価関数を計算することができる。
このように、本発明は図8と図6の違いからわかるように、混合ガウス分布を用いた状態クラスタリングを行うことにより、従来法(2段階法)では機能的に不可能であった最適音響モデルの自動構築を実現可能とする。そのとき、式(5)と式(7)を利用して混合ガウス分布統計量を近似的に求めてベイズ評価関数を計算することにより、混合ガウス分布を用いた状態クラスタリングを実用的計算時間で行うことを可能とする。
次に、混合数を変えて繰り返し評価関数を計算して(s2)、最も評価関数の高い音響モデルを選ぶ(s3)。
なお、図8において、音響モデル構築部を構成するモデル作成部は(s1),(s2)の処理、音響モデル選択部は(s3)の処理を行う。
本発明の音響モデル生成装置をコンピュータにより構成することができる。その場合は図に示された方法の各手順をコンピュータに実行させるための音響モデル生成プログラムを、CD−ROM、磁気ディスク装置などの記録媒体又は通信回線を介してコンピュータ内にダウンロードして、そのプログラムをコンピュータに実行させる。
音声認識装置の概略構成を示す図。 1音素を表現する音響モデルを説明する図。 中心音素/a/のTriphoneHMM状態のクラスタリングを説明する図。 経験則による音響モデル構築の手順を示す図。 経験則による混合数1として音素環境状態クラスタリングの手順を示す図。 計算機による音響モデル自動構築(2段階法)の手順を示す図。 計算機による混合数1として音素環境状態クラスタリング(s21)の手順を示す図。 計算機による音響モデル自動構築(混合ガウス分布を用いた音素環境状態のクラスタリング)の手順を示す図。 混合ガウス分布を用いた音素環境状態クラスタリング(変分ベイズ期待値最大化法)(s1-1)の手順を示す図。 混合ガウス分布を用いた音素環境状態クラスタリング(混合統計量を用いた近似)(s1-2)の手順を示す図。

Claims (12)

  1. 学習音声信号を時系列特徴量に変換するステップと、
    時系列特徴量をもとに音素決定木法を用いてクラスタリングを行い、このクラスタリングの際に音素環境状態クラスタリングを混合ガウス分布を用いて行うステップと、
    クラスタリングにより得られた音響モデルであって、1状態当たり異なる混合数を有する音響モデルを生成し、ベイズ基準評価関数を計算するステップと、
    ベイズ基準評価関数値が最大である音響モデル構造を選択するステップと、
    を有することを特徴とする音声認識用音響モデル生成方法。
  2. 請求項1に記載の音声認識用音響モデル生成方法において、
    音素環境状態クラスタリングに逐次状態分割法を用いることを特徴とする音声認識用音響モデル生成方法。
  3. 請求項1に記載の音声認識用音響モデル生成方法において、
    ベイズ基準におけるモデル構造評価関数の計算は、変分ベイズ法による評価関数計算法を用いて、学習データの各フレームごとに隠れ変数の事後確率値を評価関数が収束するまで繰り返し計算するすることにより、評価関数を求めることを特徴とする音声認識用音響モデル生成方法。
  4. 請求項1に記載の音声認識用音響モデル生成方法において、
    ベイズ基準におけるモデル構造評価関数の計算は、混合ガウス分布の統計量を事前知識を用いて近似し、学習データの各フレームごとに隠れ変数の事後確率値を評価関数が収束するまで繰り返し計算することなく評価関数を求めることを特徴とする音声認識用音響モデル生成方法。
  5. 学習音声信号を時系列特徴量に変換する手段と、
    時系列特徴量をもとに音素決定木法を用いてクラスタリングを行い、このクラスタリングの際に音素環境状態クラスタリングを混合ガウス分布を用いて行う手段と、
    クラスタリングにより得られた音響モデルであって、1状態当たり異なる混合数を有する音響モデルを生成し、ベイズ基準評価関数を計算する手段と、
    ベイズ基準評価関数値が最大である音響モデル構造を選択する手段と、
    を備えたことを特徴とする音声認識用音響モデル生成装置。
  6. 請求項5に記載の音声認識用音響モデル生成装置において、
    音素環境状態クラスタリングに逐次状態分割法を用いることを特徴とする音声認識用音響モデル生成装置。
  7. 請求項5に記載の音声認識用音響モデル生成装置において、
    ベイズ基準におけるモデル構造評価関数の計算は、変分ベイズ法による評価関数計算法を用いて、学習データの各フレームごとに隠れ変数の事後確率値を評価関数が収束するまで繰り返し計算するすることにより、評価関数を求めることを特徴とする音声認識用音響モデル生成装置。
  8. 請求項5に記載の音声認識用音響モデル生成装置において、
    ベイズ基準におけるモデル構造評価関数の計算は、混合ガウス分布の統計量を事前知識を用いて近似し、学習データの各フレームごとに隠れ変数の事後確率値を評価関数が収束するまで繰り返し計算することなく評価関数を求めることを特徴とする音声認識用音響モデル生成装置。
  9. 学習音声信号を時系列特徴量に変換する処理と、
    時系列特徴量をもとに音素決定木法を用いてクラスタリングを行い、このクラスタリングの際に音素環境状態クラスタリングを混合ガウス分布を用いて行う処理と、
    クラスタリングにより得られた音響モデルであって、1状態当たり異なる混合数を有する音響モデルを生成し、ベイズ基準評価関数を計算する処理と、
    ベイズ基準評価関数値が最大である音響モデル構造を選択する処理と、
    をコンピュータに実行させる音声認識用音響モデル生成プログラムを記録した記録媒体。
  10. 請求項9に記載の音声認識用音響モデル生成プログラムを記録した記録媒体において、
    音素環境状態クラスタリングに逐次状態分割法を用いる音声認識用音響モデル生成プログラムを記録した記録媒体。
  11. 請求項9に記載の音声認識用音響モデル生成プログラムを記録した記録媒体において、
    ベイズ基準におけるモデル構造評価関数の計算は、変分ベイズ法による評価関数計算法を用いて、学習データの各フレームごとに隠れ変数の事後確率値を評価関数が収束するまで繰り返し計算するすることにより、評価関数を求める音声認識用音響モデル生成プログラムを記録した記録媒体。
  12. 請求項9に記載の音声認識用音響モデル生成プログラムを記録した記録媒体において、
    ベイズ基準におけるモデル構造評価関数の計算は、混合ガウス分布の統計量を事前知識を用いて近似し、学習データの各フレームごとに隠れ変数の事後確率値を評価関数が収束するまで繰り返し計算することなく評価関数を求めることを特徴とする音声認識用音響モデル生成プログラムを記録した記録媒体。
JP2004043048A 2004-02-19 2004-02-19 音声認識用音響モデル生成方法及び装置、音声認識用音響モデル生成プログラムを記録した記録媒体 Expired - Fee Related JP4394972B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004043048A JP4394972B2 (ja) 2004-02-19 2004-02-19 音声認識用音響モデル生成方法及び装置、音声認識用音響モデル生成プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004043048A JP4394972B2 (ja) 2004-02-19 2004-02-19 音声認識用音響モデル生成方法及び装置、音声認識用音響モデル生成プログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JP2005234214A true JP2005234214A (ja) 2005-09-02
JP4394972B2 JP4394972B2 (ja) 2010-01-06

Family

ID=35017237

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004043048A Expired - Fee Related JP4394972B2 (ja) 2004-02-19 2004-02-19 音声認識用音響モデル生成方法及び装置、音声認識用音響モデル生成プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP4394972B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006098425A (ja) * 2004-09-28 2006-04-13 Advanced Telecommunication Research Institute International 混合分布モデル作成装置、音声認識装置、及び混合分布モデル作成プログラム
KR100755678B1 (ko) 2005-10-28 2007-09-05 삼성전자주식회사 개체명 검출 장치 및 방법
JP2007249051A (ja) * 2006-03-17 2007-09-27 Nippon Telegr & Teleph Corp <Ntt> 音響モデル作成装置、音響モデル作成方法、そのプログラムおよびその記録媒体
WO2008108232A1 (ja) * 2007-02-28 2008-09-12 Nec Corporation 音声認識装置、音声認識方法及び音声認識プログラム
WO2011108632A1 (ja) * 2010-03-03 2011-09-09 日本電気株式会社 モデル選択装置、モデル選択方法及びモデル選択プログラム
US8107735B2 (en) 2007-04-10 2012-01-31 Denso Corporation Three dimensional shape reconstitution device and estimation device

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006098425A (ja) * 2004-09-28 2006-04-13 Advanced Telecommunication Research Institute International 混合分布モデル作成装置、音声認識装置、及び混合分布モデル作成プログラム
KR100755678B1 (ko) 2005-10-28 2007-09-05 삼성전자주식회사 개체명 검출 장치 및 방법
US8655646B2 (en) 2005-10-28 2014-02-18 Samsung Electronics Co., Ltd. Apparatus and method for detecting named entity
JP2007249051A (ja) * 2006-03-17 2007-09-27 Nippon Telegr & Teleph Corp <Ntt> 音響モデル作成装置、音響モデル作成方法、そのプログラムおよびその記録媒体
JP4571922B2 (ja) * 2006-03-17 2010-10-27 日本電信電話株式会社 音響モデル作成装置、音響モデル作成方法、そのプログラムおよびその記録媒体
WO2008108232A1 (ja) * 2007-02-28 2008-09-12 Nec Corporation 音声認識装置、音声認識方法及び音声認識プログラム
JP5229216B2 (ja) * 2007-02-28 2013-07-03 日本電気株式会社 音声認識装置、音声認識方法及び音声認識プログラム
US8612225B2 (en) 2007-02-28 2013-12-17 Nec Corporation Voice recognition device, voice recognition method, and voice recognition program
US8107735B2 (en) 2007-04-10 2012-01-31 Denso Corporation Three dimensional shape reconstitution device and estimation device
WO2011108632A1 (ja) * 2010-03-03 2011-09-09 日本電気株式会社 モデル選択装置、モデル選択方法及びモデル選択プログラム
US9208436B2 (en) 2010-03-03 2015-12-08 Nec Corporation Model selection device, model selection method and model selection program

Also Published As

Publication number Publication date
JP4394972B2 (ja) 2010-01-06

Similar Documents

Publication Publication Date Title
Bourlard et al. Connectionist speech recognition: a hybrid approach
US10643602B2 (en) Adversarial teacher-student learning for unsupervised domain adaptation
Jiang et al. Large margin hidden Markov models for speech recognition
CN112069310B (zh) 基于主动学习策略的文本分类方法及系统
KR100612840B1 (ko) 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치
US5812975A (en) State transition model design method and voice recognition method and apparatus using same
US8010357B2 (en) Combining active and semi-supervised learning for spoken language understanding
US7437288B2 (en) Speech recognition apparatus
JPH0782348B2 (ja) 音声認識用サブワードモデル生成方法
Ault et al. On speech recognition algorithms
JP2013148697A (ja) 情報処理装置、大語彙連続音声認識方法及びプログラム
Soliman et al. Isolated word speech recognition using convolutional neural network
Rao et al. Deterministically annealed design of hidden Markov model speech recognizers
JP4394972B2 (ja) 音声認識用音響モデル生成方法及び装置、音声認識用音響モデル生成プログラムを記録した記録媒体
Walker et al. Semi-supervised model training for unbounded conversational speech recognition
JP3920749B2 (ja) 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置
KR101727306B1 (ko) 언어모델 군집화 기반 음성인식 장치 및 방법
Huda et al. Hybrid metaheuristic approaches to the expectation maximization for estimation of the hidden Markov model for signal modeling
Huo et al. Online adaptive learning of continuous-density hidden Markov models based on multiple-stream prior evolution and posterior pooling
Bhuriyakorn et al. A genetic algorithm-aided hidden markov model topology estimation for phoneme recognition of thai continuous speech
Banjara et al. Nepali speech recognition using cnn and sequence models
Huda et al. A constraint-based evolutionary learning approach to the expectation maximization for optimal estimation of the hidden Markov model for speech signal modeling
JP2009237336A (ja) 音声認識装置及び音声認識プログラム
JP2982689B2 (ja) 情報量基準を用いた標準パターン作成方式
Nankaku et al. Acoustic modeling with contextual additive structure for HMM-based speech recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060406

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20060406

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090526

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090616

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090814

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091006

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091016

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121023

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121023

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131023

Year of fee payment: 4

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees