JP2007052166A - 音響モデルの準備方法及び自動音声認識装置 - Google Patents

音響モデルの準備方法及び自動音声認識装置 Download PDF

Info

Publication number
JP2007052166A
JP2007052166A JP2005236382A JP2005236382A JP2007052166A JP 2007052166 A JP2007052166 A JP 2007052166A JP 2005236382 A JP2005236382 A JP 2005236382A JP 2005236382 A JP2005236382 A JP 2005236382A JP 2007052166 A JP2007052166 A JP 2007052166A
Authority
JP
Japan
Prior art keywords
phoneme
state
node
model
hmm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2005236382A
Other languages
English (en)
Other versions
JP2007052166A5 (ja
Inventor
Sakti Sakriani
サクリアニ・サクティ
Markov Konstantin
コンスタンティン・マルコフ
Satoru Nakamura
哲 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2005236382A priority Critical patent/JP2007052166A/ja
Publication of JP2007052166A publication Critical patent/JP2007052166A/ja
Publication of JP2007052166A5 publication Critical patent/JP2007052166A5/ja
Withdrawn legal-status Critical Current

Links

Images

Abstract

【課題】音響モデルのトレーニング用データ量を低く保ち、広域音声コンテキストを効率的に反映して、ASRシステムの仮説を再スコアリングする。
【解決手段】広域コンテキスト音響モデルを準備する方法であって、3状態を有するHMMをトレーニングするステップと、第1及び第3の状態に対応するベイズネットワークをトレーニングするステップと、HMMとベイズネットワークとを組合せるステップとを含む。ベイズネットワークは、第1及び第3の状態に対応する第1のノードq1及びq3と、第1の音素の直前の音素及び最後の音素の直後の音素を表す隠れ変数の第2のノードCL及びCRと、第1及び第3の状態の観測空間の第3のノードX1及びX3とを含むトポロジーを有する。
【選択図】 図4

Description

この発明は音声認識に関し、特に、より広域なコンテキストの音響モデルを用いる音声認識に関する。
今日の最先端の自動音声認識(Automatic Speech Recognition:ASR)システムは、制御された条件下では非常に高い性能を発揮する。しかし、ASRシステムが、日常生活での広範な使用を通じてその潜在的能力を十分に発揮するまでには依然として多くの難問がある。最良のシステムに関して、1999年のDARPA放送ニュースベンチマークテストで報告された結果によれば、テストセットの自発音声での誤り率は、計画されスタジオで録音された条件のそれのほぼ倍であった(非特許文献1を参照されたい。)。
性能の低下につながる要因としては、チャンネル効果、話し方、不注意な発音等多くのものがある。非特許文献2に記載の実験結果では、認識誤り率の主な要因は音声のスタイル(音響変動)であった。既存の音響モデル(Acoustic Model:AM)は、日常の会話音声に存在する同時調音の影響に対処するものとしては限られた能力しか依然として備えていない。
同時調音とは、隣接する音声セグメントの調音パターンが重なる場合に生ずる、音響的・調音的変動性である。これは言語の音体系の根本的部分であって、(単語内と単語間との両方で)隣接した音素セグメント間のダイナミックな遷移を可能にし、発声を容易にすると思われる(非特許文献3)。この結果、音素は、他の音素のコンテキスト内で生成されると非常に異なる波形を持ち得ることになる(非特許文献4)。
大語彙音声認識(Large Vocabulary Speech Recognition:LVCSR)システムでは、明らかに、これらの同時調音の効果を的確に捕えることができる音響モデルが必要である。単位モデルが広域になればなるほど、同時調音の影響を良好に捕えることができる(非特許文献5)。LVCSRシステムでは、必要とされるトレーニングデータの量が多く、デコード用検索空間が大きく、語彙システムの拡張が効率的でないため、単語単位でのモデルは現実的でない。音節単位(非特許文献6、7)、及び複数音素単位(非特許文献8)は、数も持続期間も単語に比べて小さい。しかし、これらの数は依然として多すぎ、単語の場合と同様、一般性を欠く(非特許文献9)。
例えば、大規模SWITCH−BOARD(SWB)コーパスでは、トレーニングデータベースに約9000の音節が現れるが、これらのうち8000超については、トレーニングトークンは100に満たない(非特許文献7)。従って、音素ユニットは当然の選択肢となる。というのも、これらは数が少ないうえに、トレーニングデータに出現する頻度もかなり高いからである。同時調音の問題に対する標準的解決法は、音素ユニットを、コンテキストを含むように拡張することである(非特許文献10)。
現在のLVCSRシステムのほとんどは、コンテキスト依存のトライフォンを基本的な音響単位として用いる。コンテキスト依存のトライフォンユニットは、コンテキストに依存しない音素(単音素)ユニットと同じ構造を有するが、先行する音素コンテキスト情報及び後続する音素コンテキスト情報によってトレーニングされる(非特許文献9)。
このようなトライフォンは有効な選択であることが分かっているが、全ての同時調音の影響を捕えるには不十分であると考えられている。これらの影響は直前/直後のコンテキストからのみでなく、さらに離れて隣接するコンテキストからも及ぼされる。非特許文献11では、母音は直前の子音に影響を及ぼすだけでなく、その子音の前の母音にも影響を及ぼすことが分かっている。/eli/と/ela/の録音及び/ebi/と/eba/の録音から、/e/の調音的設定はシーケンス中の2番目の母音により異なることが示された。
/eli/と/ebi/とでは、最後の音が/a/で成るトークンよりも、舌がより高く上がり、/i/のそれに近くなる(非特許文献12)。他の研究でもまた、英語の/l/及び/r/が音節をまたぐ長距離の同時調音効果、すなわち「共鳴」を及ぼすことがわかっている(非特許文献13及び14)。従って、トライフォンコンテキストよりも何かより広域なものを組入れることによって、単に先行する一個及び後続する一個のコンテキスト以上のものを考慮に入れることができる。このような音響モデルの性能は向上すると予測される。
過去10年にわたって、ベイズのアプローチが多くの応用分野で広く用いられるようになった。このアプローチでは、確率論的フレームワークを用いて、独立性の有無に関する不確実性を符号化する。ベイズのフレームワークではまた、いくつかのモデルからの情報を組合せてよりよい推論を行ない、モデリングの不確実性をよりよく説明できる。
ベイズの統計的方法は、統計的推論と不確実性のもとでの判断との両者に完全なパラダイムを提供する(非特許文献1を参照されたい。)。その最も簡潔な形では、Hが仮説、Dがデータを表すものとして、ベイズの理論は以下を述べている。
Figure 2007052166
ただしp(H|D)はDを得た後のHについての確からしさの確率論的記述、すなわちいわゆる事後条件分布であり、p(H)はデータDを得る前のHについての確からしさの確率論的記述、すなわちいわゆる事前分布と考えることができる。p(D|H)とp(D)とを特定すれば、この理論のメカニズムにより、データからどのように学習すべきかという問題への解が得られる(非特許文献2を参照されたい。)。
事後分布の推定に基づき、過学習したモデルを排除する適切なモデル構造の選択が可能となる。これは予測事後分布に基づく頑健な分類を提供し、これにより、過学習の影響が緩和される(非特許文献3)。いくつかのモデルからの情報をベイズのフレームワークに基づいて組合せ、よりよい推論を行なうとともにモデリングの不確実性についてよりよい説明を与えることもできる(非特許文献4)。これらの利点を利用することにより、ベイズのフレームワークは、特に問題が不確実であって利用可能なデータが限られている場合に、多くの応用領域で有用であろう。
ASRシステムで用いられる従来のトライフォンユニットであって、完全なトライフォンモデルを何もないところからトレーニングするものを図16に示す。図16を参照して、従来のトライフォン音響モデル380は、直前のコンテキスト390及び394と、中央単音素音響ユニット392とを含む。このモデルはトライフォン/a,a,a/が与えられたときの観測値Xの確率として示される。
図17は従来のASRシステム400の構造を示す。図17を参照して、ASRシステム400は、上述の、それぞれの音素に対するトライフォンモデルを含む音響モデル410と、トライフォン音響モデル410を用いて波形データ412をデコードし、Nベストリスト416を出力するデコーダ414とを含む。Nベストリストは最も高い確率スコアを有するN個の仮説を含む。スコアは、トライフォン音響モデル410を用いてデコーダ414で計算される。
D.パレット、J.フィスカス、J.ガロフォロ、A.マーティン及びM.プロジボッキ、「1998放送ニュースベンチマークテスト結果:英語及び非英語単語誤り率の性能尺度」DARPA放送ニュースワークショップ予稿集、バージニア、USA、5−12ページ、1999年(D. Pallett, J. Fiscuss, J. Garofolo, A. Martin, and M. Przybocki, "1998 broadcast news benchmark test results: English and non-English word error rate performance measures," Proc. DARPA Broadcast News Workshop, Virginia, USA, pp. 5-12, 1999.) M.ワイントラウブ、K.タウシッヒ、K.ヒュニック−スミス及びA.ソンドグラス、「LVCSR性能に対する話し方スタイルの影響」ICSLP予稿集、フィラデルフィア、USA、16−19ページ、1996年(M. Weintraub, K. Taussig, K. Hunicke-Smith, and A. Snodgrass, "Effect of speaking style on LVCSR performance," Proc. ICSLP, Philadelphia, USA, pp. 16-19, 1996.) R.スカーボロー、同時調音とレキシコンの構造、カリフォルニア大学ロサンジェルス校(UCLA)、言語学博士論文、USA、2004年(R. Scarborough, Coarticulation and the Structure of the Lexicon, PhD dissertation in Linguistics, University of California at Los Angeles (UCLA), USA, 2004.) L.ラビナー及びB.H.ユアン、音声認識の基礎、プレンティスホール、ニュージャージー、USA、2004年(L. Rabiner and B.H. Juang, Fundamentals of Speech Recognition, Prentice Hall, New Jersey, USA, 2004.) T.ファウ、M.ベーハム、W.ライクル、及びG.ラスク、「音声認識のための大型サブワードユニットの生成」EUROSPEECH予稿集、ロードス、ギリシャ、1191−1194ページ、1997年(T. Pfau, M. Beham, W. Reichl, and G. Ruske, "Creating large subword units for speech recognition," Proc. EUROSPEECH, Rhodos, Greece, pp. 1191-1194, 1997.) I.シャフラン及びM.オステンドルフ、「音節構造に基づく音響モデルのクラスタリング」コンピュータ音声及び言語、第17巻第4号、311−328ページ、2003年(I. Shafran and M. Ostendorf, "Acoustic model clustering based on syllable structure," Computer Speech and Language, vol. 17, no. 4, pp. 311-328, 2003.) A.ガナパティラジュ、J.ハマカー、J.ピコーネ、M.オルドフスキ及びG.ドッジントン、「音節ベースの大語彙連続音声認識」IEEE音声及び音響処理トランザクション、第9巻、第4号、358−366ページ、2001年(A. Ganapathiraju, J. Hamaker, J. Picone, M. Ordowski, and G. Doddington, "Syllable-based large vocabulary continuous speech recognition," IEEE Trans. on Speech and Audio Processing, vol. 9, no. 4, pp. 358-366, 2001.) R.メッシーナ及びD.ジョーベ、「音声認識のためのコンテキスト依存の長いユニット」ICSLP予稿集、チェジュ島、韓国、645−648ページ、2004年(R. Messina and D. Jouvet, "Context dependent long unit for speech recognition," Proc. ICSLP, Jeju Island, Korea, pp. 645-648, 2004.) P.オニール、S.ヴェセジ、B.ドハティ、W.タン及びP.マッコート、「音声認識のためのサブワードユニットとしての多音ストリング」ICSLP予稿集、シドニー、オーストラリア、2523−2526ページ、1998年(P. O'Neil, S. Vaseghi, B. Doherty, W. Tan, and P. McCourt, "Multi-phone strings as subword units for speech recognition," Proc. ICSLP, Sydney, Australia, pp. 2523-2526, 1998.) E.スミス、S.マリアン及びM.ジャビエ、「顔の動きのコンピュータによる認識:同時調音効果の研究」ニューラルコンピュテーションに関する第8回シンポジウム予稿集、カリフォルニア、USA、2001年(E. Smith, S. Marian, and M. Javier, "Computer recognition of facial actions: A study of co-articulation effects," Proc. of the 8th Symposium of Neural Computation, California, USA, 2001.) E.スクリプチャ、経験的音声学の要素、チャールズ スクリブナー サンズ、ニューヨーク、USA、1902年(E. Scripture, The Elements of Experimental Phonetics, Charles Scribners Sons, New York, USA, 1902.) B.クーヘナー及びF.ノーラン、「同時調音の起源」、同時調音:理論、データ、技術、W.ハードキャスル及びN.ホーレット編、ケンブリッジ、UK、7−30ページ、ケンブリッジ大学出版部、1999年(B. Kuehner and F. Nolan, "The origin of coarticulation," in Coarticulation: Theory, Data, Techniquues, ed. W. Hardcastle and N. Hawlett, Cambridge, UK, pp. 7-30, Cambridge University Press 1999.) S.ハイド及びX.ホーキンス、「長いドメインの/r/及び/l/同時調音の音響的研究」、音声生成に関する第5回セミナー:モデル及びデータ、クロスターゼオン、ドイツ、77−80ページ、2000年(S. Heid and S. Hawkins, "An acoustical study of long domain /r/ and /l/ coarticulation," 5th Seminar on Speech Production: Model and Data, Kloster Seeon, Germany, pp. 77-80, 2000.) P.ウェスト、「イギリス英語での/l/及び/r/への長距離同時調音の影響:ならびにEMA,EPGと音響研究」音声生成に関する第5回セミナー:モデル及びデータ、クロスターゼオン、ドイツ、105−108ページ、2000年(P. West, "Long distance coarticulatory effects of British English /l/ and /r/: and EMA, EPG and acoustic study," 5th Seminar on Speech Production: Model and Data, Kloster Seeon, Germany, pp. 105-108, 2000.) M.フィンケ及びI.ロジーナ、「読みあげ音声対自然音声での広域コンテキストの音響モデリング」、ICASSP予稿集、ミュンヘン、ドイツ、1743−1746ページ、1997年(M. Finke and I. Rogina, "Wide context acoustic modeling in read vs. spontaneous speech," Proc. ICASSP, Munich, Germany, pp. 1743-1746, 1997.) L.バール、P.デズーザ、P.ゴパルクリシュナン、D.ナハムー及びM.ピチェニ、「連続音声における音韻論的規則のための判断ツリー」、ICASSP予稿集、トロント、カナダ、185−188ページ、1991年(L. Bahl, P. de Souza, P. Gopalakrishnan, D. Nahamoo, and M. Picheny, "Decision tree for phonological rules in continuous speech," Proc. ICASSP, Toronto, Canada, pp. 185-188, 1991.) C.ネッティ、G.ポタミアノス、J.ルッティン、I.マシューズ、H.グロティン、D.ヴェルギリ、J.シソン、A.マシャリ及びJ.シュー、「聴覚−視覚的音声認識」、技術報告、CSLPジョンホプキンス大学、ボルチモア、USA、2000年(C. Neti, G. Potamianos, J. Luettin, I. Matthews, H. Glotin, D. Vergyri, J. Sison, A. Mashari, and J. Zhou, "Audio-visual speech recognition," tech. rep., CSLP John Hopkins University, Baltimore, USA, 2000.) P.ベヤライン、X.オーバート、R.ヘイアンバック、M.ハリス、D.クラコー、A.ワンデムス、S.モロー、M.ピッツ、及びA.シクスツス、「ニュース放送のトランスクリプションのためのフィリップス/RWTHシステム」、DARPA放送ニュースワークショップ、予稿集、バージニア、USA,151−155ページ、1999年(P. Beyerlein, X. Aubert, R. Haeb-Umbach, M. Harris, D. Klakow, A. Wandemuth, S. Molau, M. Pitz, and A. Sixtus, "The Philips/RWTH system for transcription of broadcast news," Proc. DARPA Broadcast News Workshop, Virginia, USA, pp. 151-155, 1999.) A.ローリエ、D.ヒンドル、M.ライリー及びR.スプロート、「AT&TLVCSR-2000システム」、音声トランスクリプションワークショップ、メリーランド大学、USA、2000年(A. Ljolje, D. Hindle, M. Riley, and R. Sproat, "The AT&T LVCSR-2000 system," Speech Transcription Workshop, University of Maryland, USA, 2000.) M.シュスター及びT.ホリ、「音声認識のための高次コンテキスト依存重み付け有限状態変換器の効率的生成」、ICASSP予稿集、フィラデルフィア、USA、201−204ページ、2005年(M. Schuster and T. Hori, "Efficient generation of high-order context-dependent weighted finite state transducers for speech recognition," Proc. ICASSP, Philadelphia, USA, pp. 201-204, 2005.) T.ホリ、Y.ノダ及びS.マツナガ、「大語彙連続音声認識のための改良された音声経過依存の検索方法」IEICE情報&システムトランザクション、E86−D巻、第6号、1059−1067ページ、2003年(T. Hori, Y. Noda, and S. Matsunaga, "Improved phoneme-history-dependent search method for large-vocabulary continuous-speech recognition," IEICE Trans. Inf. & Syst., vol. E86-D, no. 6, pp. 1059-1067, 2003.) M.ライリー、F.ピレイラ及びM.モーリ、「コンテキスト依存ネットワーク拡張のための変換器構造」EUROSPEECH予稿集、ロードス、ギリシャ、1427−1430ページ、1997年(M. Riley, F. Pereira, and M. Mohri, "Transducer composition for context-dependent network expansion," Proc. EUROSPEECH, Rhodos, Greece, pp. 1427-1430, 1997.) N.フリードマン及びM.ゴールドシュミット、「データからのベイズネットワークの学習」SRIインターナショナル技術報告、http://www/dsv.su.se/ijcai-99/tutorials/d3.html、1998年(N. Friedman and M. Goldszmidt, "Learning Bayesian network from data," tech. rep., SRI International, http://www/dsv.su.se/ijcai-99/tutorials/d3.html, 1998.) D.ハッカーマン、「ベイズネットワークでの学習チュートリアル」技術報告、MSR−TR−95−06、マイクロソフト研究部門、1995年(D. Heckerman, "A tutorial on learning with Bayesian networks," Tech. Rep. MSR-TR-95-06, Microsoft Research, March 1995.) K.マルコフ及びS.ナカムラ、「自動音声認識のためのハイブリッドHMM/BN音響モデリング」IEICE情報&システムトランザクション、E86−D巻、第3号、438−445ページ、2003年(K. Markov and S. Nakamura, "A hybrid HMM/BN acoustic modeling for automatic speech recognition," IEICE Trans. Inf. & Syst. vol. E86-D, no. 3, pp. 438-445, 2003.) K.マルコフ、J.ダン、Y.リズカ及びS.ナカムラ、「スペクトルと調音的特徴とを統合したハイブリッドHMM/BN ASR システム」EUROSPEECH予稿集、ジュネーブ、スイス、965−968ページ、2003年(K. Markov, J. Dang, Y. Lizuka, and S. Nakamura, "Hybrid HMM/BN ASR system integrating spectrum and articulatory features," Proc. EUROSPEECH, Geneva, Switzerland, pp. 965-968, 2003.) K.マルコフ及びS.ナカムラ、「ハイブリッドHMM/BN音響モデルでの連続フレーム依存のモデリング」ICASSP予稿集、フィラデルフィア、USA、701−704ページ、2005年(K. Markov and S. Nakamura, "Modeling successive frame dependencies with hybrid HMM/BN acoustic model," Proc. ICASSP, Philadelphia, USA, pp. 701-704, 2005.) K.ダウディ、D.フォア及びC.アントアーヌ、「確率論的グラフィックモデルに基づく多バンド音声認識の新たな試み」ICSLP予稿集、北京、中国、329−332ページ、2000年(K. Daoudi, D. Fohr, and C. Antoine, "A new approach formulti-band speech recognition based on probabilistic graphical models,"Proc. ICSLP, Beijing, China, pp. 329-332, 2000.) T.スティーブンソン、M.マシュー及びH.ボーランド、「ベイズネットワークベースのASRにおける補助的情報のモデリング」EUROSPEECH予稿集、アールボーグ、デンマーク、2765−2768ページ、2001年(T. Stephenson, M. Mathew, and H. Bourland, "Modeling auxiliary information in Bayesian network based ASR," Proc. EUROSPEECH, Aalborg, Denmark, pp. 2765-2768, 2001.) X.ハン、A.アケロ、及びH.W.ホン、会話言語処理、プレンティスホール、ニュージャージー、USA、2001年(X. Huang, A. Acero, and H.W. Hon, Spoken Language Processing, Prentice Hall, New Jersey, USA, 2001.) D.ポール及びJ.ベーカー、「ウォールストリートジャーナルベースのCSRコーパスの設計」DARPA SLSワークショップ予稿集、パシフィックグローブ、カリフォルニア、USA,357−361ページ、1992年(D. Paul and J. Baker, "The design for the Wall Street Journal based CSR corpus," Proc. DARPA SLS Workshop, Pacific Grove, California, USA, pp. 357-361, 1992.) T.ジツヒロ、T.マツイ、及びS.ナカムラ、「MDL基準に基づく非均一HMMトポロジーの自動生成」、IEICE情報&システムトランザクション、E87−D巻、第8号、2121−2129ページ、2004年(T. Jitsuhiro, T. Matsui, and S. Nakamura, "Automatic generation of non-uniform HMM topologies based on the MDL criterion," IEICE Trans. Inf. & Syst., vol. E87-D, no. 8, pp. 2121-2129, 2004) T.タケザワ、E.スミタ、F.スガヤ、H.ヤマモト、及びS.ヤマモト、「実世界における旅行会話の音声翻訳のための広域囲バイリンガルコーパスへ向けて」LREC予稿集、ラパルマ、カナリー諸島、スペイン、147−152ページ、2002年(T. Takezawa, E. Sumita, F. Sugaya, H. Yamamoto, and S. Yamamoto, "Toward a broad-coverage bilingual corpus for speech translation of travel conversations in the real world," Proc. LREC, Las Palmas, Canary Islands, Spain, pp. 147-152, 2002.)
多くの研究者が、テトラフォン、クインタフォン/ペンタフォンまたはそれ以上の、トライフォンより広域なコンテキストを組入れることによって音響モデルを改良しようと試みてきた(非特許文献15及び非特許文献16を参照されたい。)。先行技術のシステムのうちいくつかは、ペンタフォンモデルを用いて十分に成功している(非特許文献17〜非特許文献19を参照)。ペンタフォン音響モデルの一例を図18に示す。このモデルは、所与のペンタフォン/a−−,a,a,a,a++/の観測値Xの確率として表される。
図18を参照して、ペンタフォンモデル430は中央単音素ユニット(/a/)、直前のコンテキスト及び直後のコンテキスト(/a/及び/a/)、並びに二つ前の/二つ後のコンテキスト(/a−−/及び/a++/)を含む。このモデルは、何もないところからトレーニングすることもできる。しかし、モデルのパラメータを適切にトレーニングし、かつこれらを語をまたいだデコードに用いるためには、大量のトレーニング用データとメモリ空間とが必要とされる。しかし、このような資源は通常利用できない。利用できるトレーニングデータが限られている場合、パラメータの推定が頑健でなく、さらに出現しないテキストの数が増加するため、コンテキストの分解能が失われるであろう。
さらにメモリにも制約がある場合、語をまたぐコンテキストモデルの使用はわずらわしく、時として全く不可能にさえなる(非特許文献20を参照されたい。)。大規模システムでは、デコードの複雑さを避けるための簡単な方策は、再スコアリングのパスに広域コンテキストモデルを適用することである。この場合、デコードの際には、漸進的に複雑さを増す知識源を用いて、検索空間のサイズを減少させることになる(非特許文献21)。
別の可能性は、単語内の幅のコンテキストユニットのみを用いることである(非特許文献22)。非特許文献22では、広域コンテキスト依存モデルを重み付け有限状態変換器(Weighted Finite State Transducers:WFT)のネットワークにコンパイルし、それによって、デコード処理が広域なコンテキストの扱いから完全に分離することが提案されている。しかし、次元の高いモデルを使用すると、コンパイルそのものが困難になる。このため、非特許文献20の研究ではコンパイル方法の簡潔化を目指している。
要するに、トライフォンより広域なコンテキストを組入れることはさらなる改良につながるが、これには大量のトレーニング用データを必要とし、トレーニングとデコーディングとを困難にする。他方で、より簡潔なモデルはより信頼性が高いものの、同時調音の影響を捕えるには精密さに欠ける。従って、コンテキストの分解能とトレーニングデータのサイズとの間のバランスを保つことのできる、広域なコンテキスト単位の効率的モデリングを行なうことは、ASRシステムの現実的応用のために対処すべき重要な問題の一つである。例えば、もしこのような広域コンテキスト単位のモデリングをASRシステムの仮説の再スコアリングに適用すれば、結果はより信頼性の高いものとなる。なぜなら、この結果はより広域な音声的コンテキストを効率的に反映しており、一方でモデルのトレーニング過程は簡単なままであり、トレーニングのために大量のトレーニング用データを必要としないからである。
従って、この発明の目的の一つは、音声モデルのトレーニングに必要とされるデータの量を低いレベルに保ったままで、より広域な音声コンテキストを効率的に反映する、ASRシステムの仮説を再スコアリングする装置を提供することである。
この発明の第1の局面に従えば、広域コンテキスト音響モデルを準備する方法は、トレーニング用音響データの組を用いて予め定められた数の状態を有する音響隠れマルコフモデル(HMM)をトレーニングするステップを含む。この状態は他の状態に対応する他の音素に先行する第1の音素に対応する第1の状態と、他の状態に対応する他の音素に後続する最後の音素に対応する最後の状態と、第1の音素と最後の音素との間の音素に対応する中央状態とを含む。この方法はさらに、音響データの組を用いて第1の状態に対応する第1のベイズネットワークをトレーニングするステップをさらに含む。この第1のベイズネットワークは第1の状態に対応する第1のノードと、第1の音素にすぐ先行する音素を表す隠れ変数の第2のノードと、第1の状態の観察空間の第3のノードとを含むトポロジーを有し、第2及び第3のノードは第1のノードの子であり、第3のノードは第2のノードの子である。この方法はさらに、隠れマルコフモデルと第1のベイズネットワークとを結合するステップを含む。
好ましくは、この方法は、音響データの組を用いて最後の状態に対応する第2のベイズネットワークをトレーニングするステップをさらに含む。この第2のベイズネットワークは最後の状態に対応する第1のノードと、最後の音素の直後の音素を表す隠れ変数の第2のノードと、最後の状態の観測空間の第3のノードとを含むトポロジーを有する。第2のベイズネットワークの第2及び第3のノードは第2のベイズネットワークの第1のノードの子である。第2のベイズネットワークの前記第3のノードは第2のベイズネットワークの第2のノードの子である。この方法はさらに、隠れマルコフモデルと第2のベイズネットワークとを結合するステップを含む。
より好ましくは、この方法は、音響データの組を用いて中央状態に対応する第3のベイズネットワークをトレーニングするステップをさらに含む。この第3のベイズネットワークは中央状態に対応する第1のノードと、第1の音素の直前の音素を表す隠れ変数の第2のノードと、最後の音素の直後の音素を表す隠れ変数の第3のノードと、中央の状態の観測空間の第4のノードとを含むトポロジーを有する。この方法はさらに、隠れマルコフモデルと第3のベイズネットワークとを結合するステップを含む。
最も好ましくは、第3のベイズネットワークの第2及び第3のノードによって表される隠れ変数によって表される音素は、所定のクラスタリング方式に従って、トレーニング中にクラスタリングされる。
好ましくは、第1のベイズネットワークの第2のノードによって表される隠れ変数によって表される音素は、所定のクラスタリング方式に従って、トレーニング中にクラスタリングされる。
より好ましくは、第2のベイズネットワークの第2のノードによって表される隠れ変数によって表される音素は、所定のクラスタリング方式に従って、トレーニング中にクラスタリングされる。
さらに好ましくは、所定のクラスタリング方式は、分類手順のガイドとなる音素コンテキストの特定の知識に従って音素がクラスタリングされる知識ベースのスキームである。
これに代えて、所定のクラスタリング方式は、音素間の音響特徴量における予め定められた類似性の尺度に基づいて音素がクラスタリングされる、データ駆動のクラスタリングでもよい。
この発明の第2の局面にかかる自動音声認識装置は、上述の方法のいずれかに従って準備された広域コンテキスト音響モデルを記憶するための手段と、この記憶手段に記憶された広域コンテキスト音響モデルを用いて、統計的デコード方法で入力波形をデコードするデコーダとを含む。
[第1の実施の形態]
−概観−
過去10年にわたって、ベイズネットワーク(BN)は人口知能における不確実性を符号化するためによく用いられる方法となった。さらにこれは、エキスパートシステム、判断支援システム及びパターン認識等の分野において、さまざまなデータ分析問題を解決するのに非常に有力であることも分かってきた(非特許文献23)。BNは不完全なデータセットを容易に扱うことができ、因果関係の学習を可能にし、うまく構築できるうえに表現も簡単であり、知識のドメインとデータとの組合せを容易にし、さらに、過適応のデータを回避するのに効率的で理にかなった方策を提供する。
BNにより、任意の変数の組を音声フレームの各々又はHMM状態と関連付けることができる。従って、音声状態情報が他の変数で補強されたモデルを容易に構築できる(非特許文献25)。最近、音声認識分野の多くの研究者が調音的特徴量、サブバンド相関、又は話し方のスタイル等の付加的知識を組入れるのにBNを利用するのはこのためである(非特許文献26〜非特許文献29)。BNの別の利点は、認識の間に信頼性をもって推定するのが困難な付加的特徴量を、隠されたまま、すなわち観測不能なままでおくことができるという点である。
この実施の形態のアプローチは、ハイブリッドHMM/BNモデルに基づいたものであって(非特許文献25)、BNの利点を利用して、トライフォンよりも広域なコンテキストを組入れることを可能にする。トライフォンコンテキスト単位と、二つ前の/二つ後のコンテキストとの確率論的依存度がBNによって学習され、広域コンテキストによる状態出力確率分布がモデル化される。このアプローチの利点は、モデル化された音素コンテキストをトライフォンのフレームワーク内で拡張できることと、二つ前の/二つ後のコンテキストの変数が認識の間は隠されていると仮定することによって、標準的なデコードシステムを使用できることとである。この実施の形態では、まず、二つ前のコンテキスト及び二つ後のコンテキストが、主に外側のHMM状態に影響を及ぼすと仮定し、これらの状態のpdfのみを修正する。その後、このアプローチを拡張して、トライフォンHMMモデルの内部状態を含むようにし、完全なハイブリッドペンタフォンコンテキスト依存のHMM/BNモデリングを行なう。パラメータ推定の頑健性を向上させるため、標準的なアプローチではいくつかの状態出力確率分布を共有する。この実施の形態では、知識ベースのクラスタリング技術を用いたガウス分布の共有を適用する。第2の実施の形態では、データ駆動技術を用いる。
−ハイブリッドHMM/BNの背景−
HMM/BNモデルは、HMMとBNとの組合せである。音声の時間的特性がHMM状態遷移によってモデリングされ、HMM状態確率分布がBNで表される。HMM/BN30のブロック図を図1に示す。ここでHMM32は上のレベルにあり、BN34は下のレベルにある。
図1を参照して、HMM32は3つの状態40、42及び44を含む。このモデルは二つの確率の組によって記述される。HMM遷移確率P(q|q)と、BNの複合確率分布P(X,…,X)とである。ここでXi, I=1,…,KはBN変数である。BNの複合確率密度関数(PDF)は以下のように因数分解できる。
Figure 2007052166
ただしPa(X)は変数Xの親を示す。
HMM状態の種々の組に対し、種々の種類のBN構造を用いることもできる。図2は3個の変数52、54及び56を備えたBN構造50の簡単な例を示す。ただし変数Q52はHMM状態を示し、X56はスペクトル観測ベクトルを示し、Y54はピッチ、調音位置、話者の性別、コンテキスト情報等の何らかの付加的情報を示す。ここで、Q及びYは正方形のノードで示されるディスクリートな変数であり、Xは丸いノードで示される連続変数である。二つの変数間の依存性(親子のノード)は、条件付確率関数によって記述されるアークとidとにより示される。BN構造を自動的に学習するのは通常困難であるので、BN構造はデータに関する知識に基づいて手動で設計される。
従来のHMMでは、状態出力の観測確率は以下のガウス混合密度から得られる。
Figure 2007052166
ただしbは状態のm番目の混合分布の混合重みであり、N(・)は平均ベクトルμと共分散行列Σとを持つガウス関数である。
図2のようなHMM/BNモデルの場合、複合確率モデルは式(1)による連鎖法則で表すことができる。
Figure 2007052166
従って、全てのBN変数が観測可能な場合、状態出力の観測確率は以下のように計算される。
Figure 2007052166
しかし、付加的変数Yが隠されている場合、状態出力の観測確率はYに対するマージナライゼーションによって計算される。
Figure 2007052166
ここで、P(Y=y|Q)の項をガウス成分P(X|Y=y,Q)の混合重み係数として扱えば、式(5)は式(2)の従来のHMMの観測確率と等価であることが分かる。従って、既存のHMMデコーダを何の修正もなくHMM/BNモデルで動作させることができる。
図7を参照して、ハイブリッドHMM/BNモデルのトレーニング手順は、ビタビアルゴリズムに基づき、以下のステップからなる。
1.初期化(ステップ210):従来のブートストラップHMMモデルを用いたHMM/BNパラメータの初期化。
2.ビタビアライメント(ステップ212):トレーニングデータを時間で整列させた状態セグメンテーションを得る。
3.BNトレーニング(ステップ214):状態ラベル付トレーニングデータを用いてBNをトレーニング。
4.遷移確率の更新(ステップ216)。
5.埋込みBN/HMMトレーニング(ステップ218)。
6.収束のチェック(ステップ220):収束基準を満たせば停止、さもなければステップ212に戻る。
上述のステップ214でのBN状態のトレーニングは、標準的な統計方法を用いてなされる。トレーニングの間に全ての変数が観測可能であれば、単純なMLパラメータ推定のみを適用できる。何らかの変数が隠されていれば、パラメータは標準的なEM(Maximum Likelihood:最大尤度)アルゴリズムによって推定される。
HMM/BNアプローチのさらなる詳細は非特許文献25〜非特許文献27に記載されている。
−ハイブリッドペンタフォンコンテキスト依存HMM/BNモデル−
この実施の形態に従ったペンタフォンHMM/BNモデルでは、上部レベルのHMMがトライフォンコンテキストユニットに対応し、3個の状態を有する。これを図3に示す。
図3を参照して、ペンタフォンHMM/BNモデル60は3個の状態70、72、74を備えたHMMモデルを含む。下部レベルのBNは、トライフォンコンテキストユニットと、異なるBN変数で表される二つ前の/二つ後のコンテキストとの間の確率依存性をモデル化するために用いられる。BNは左の状態のBN(以下「BN」とする)80と、中央状態のBN(以下「BN」)82と、右の状態のBN(以下「BN」)84とを含む。
ペンタフォンHMM/BNモデル60は従来のトライフォンHMMを、さらに二つ前及び二つ後のコンテキストで拡張し、/a−−,a,a,a,a++/のようなペンタフォンのコンテキストを提供する。左、中央及び右の状態出力確率分布は、図4(A)、(B)及び(C)にそれぞれ示すような3種のBNトポロジーで表すことができる。ここではまず、二つ前のコンテキスト及び二つ後のコンテキストは主にトライフォンHMMモデルの外側の状態に影響を与えるものと仮定する。従ってBN及びBNのみが付加的なディスクリートな変数C及びCを(図2の変数Yとして)有する。これらはそれぞれ、二つ前及び二つ後のコンテキスト/a−−/及び/a++/と関連する。BNは何ら付加的なコンテキストの変数を持たない。左と右の状態のみが付加的変数を有するので、このモデルをLR−HMM/BNと呼ぶ。
認識時、C(C又はC)が隠されており、N個の値をとると仮定すれば、BNから得られる左と右との状態の出力確率は以下で与えられる。
Figure 2007052166
ただし、P(C=c|Q)は状態Qが二つ前/二つ後のコンテキストcを有する確率であり、P(X|C=c,Q)はQが二つ前/二つ後にコンテキストcを有する状態にある場合の観測値Xの確率である。この場合、P(C=c|Q)及びP(X|C=c,Q)はそれぞれ式(2)の混合重み及びガウス関数に対応する。
式(6)を用いることで、既存のトライフォンHMMを用いたデコーダを何ら修正することなく用いて認識を行なうことができる。
−パラメータの削減−
式(6)によれば、先行/後続する音素コンテキストの各値について、対応するガウス成分がある。BNによる空間モデリングの観測例を図9に示す。図9を参照して、トライフォンコンテキストHMM(/a−,a,a+/)の右の状態qは、二つ後の音素コンテキスト変数Cを有する。変数Cは二つ後の音素コンテキストの種々の値250、252、…256を有する。変数Cの種々の値は、種々のガウス分布260、262、…264にそれぞれ対応する。
図9に示す例では、(無音を含む)44音素の組を英語ASRに用いるとすれば、左/右の各状態の最大ガウス分布数が44になりうるということになる。このように増加したモデルパラメータを信頼性高く推定するにはトレーニングデータの量が不十分な場合、全体の性能はかなり劣化する。従って、ガウス分布の数を減らす必要がある。ガウス分布の数を減らすために利用できる方式が二つある。一つは知識ベースの音素クラスを用いることである。他の一つはデータ駆動のクラスタリングである。これらの方式は、どのようなベイズネットワークにも適用可能である。
−知識ベースの音素クラス−
これは、分類手順の手引きとして、ユニットコンテキストの特定の知識を明示的に用いて方法である(非特許文献30)。ここでは、音素コンテキストを、調音の仕方の主な区別に基づいたツリーとして構成する。同じ調音位置を有する多くの音素は隣接する音素に対し同様の影響を及ぼす傾向がある。例えば、/b/及び/p/は後続する母音に同じ影響を与え、/n/及び/m/もまた、後続する母音に対し同じ影響を与える。
図5は音素ツリーの一例を示す。図5を参照して、このツリーはルートノード90を有し、ここから、主な終端ノード92、94、96、98、100及び102が分岐する。主な終端ノードは以下の通りである。破裂音92(例/b/,/p/,/k/,/ch/)、鼻音94(例/n/,/m/)、摩擦音96(例/f/,/s/)、側音98(例/l/)、顫動音100(例/r/)及び母音102(例/a/,/i/)である。
トレーニングデータの量も考慮して、これら終端ノードの各々をさらに、破裂音92から破裂両唇音104及び破裂軟口蓋音106へ、さらに摩擦音96から摩擦声門音108へ、とさらに細かいノードに分割することもできる。
図5に示すようなツリーに基づき、N(N又はN)個の二つ前の/二つ後のコンテキストをL個のクラスにクラスタリングすることができる。ただしL<Nである。
−データ駆動のクラスタリング−
データ駆動のクラスタリングもまた、パラメータの連結には慣用のアプローチである。特定の知識に基づくデータのクラスタリングに代えて、音素がどのような音声学的コンテキストを表すかに関わらず、何らかの類似性の尺度に基づいて音素がクラスタリングされる(非特許文献23)。初期状態では、各ガウス分布は別々のクラスタに入れられる。組合せた場合得られるクラスタが最も小さいようなクラスタ対がマージされる。距離尺度は、ガウス分布の平均間のユークリッド距離で決定される。クラスタの総数があるしきい値より小さくなるまで、この処理が繰返される。このクラスタリング技術により、ガウス分布の総数Xを、状態ごとの混合成分の数の平均が所定の固定値となるように設定できる。
<構造>
図6はこの発明の一実施の形態に従ったASRシステム110の全体構造を示す。図6を参照して、ASRシステム110は、トレーニング用音響データを記憶するための記憶装置120(以下「音響データ120」)と、左と右のベイズネットワーク170及び174をトレーニングするためのデータを準備するベイズネットワーク(B.N.)トレーニングデータ準備モジュール122と、左と右のベイズネットワーク170及び174をそれぞれトレーニングするトレーニングモジュール144及び164とを含む。
ASRシステム110はさらに、音響データ120を用いてHMMモデルをトレーニングするためのデータを準備するHMMトレーニングデータ準備ユニット126と、HMMトレーニングデータ準備ユニット126によって準備されたHMMトレーニングデータを記憶する記憶装置128と、記憶装置128に記憶されたトレーニングデータを用いてHMM音響モデル132をトレーニングするトレーニングモジュール130と、HMM音響モデル132の左と右の状態の各々のガウス分布を、対応するベイズネットワーク170及び174のガウス分布で置換することによって、ベイズネットワーク170及び174とHMM音響モデル132とを結合するモデル結合モジュール134と、モデル結合モジュール134によって生成されたHMM/BN音響モデルを記憶する記憶装置180と、入力波形データ182をデコードし、仮説のNベストリスト186を出力するためのデコーダ184とを含む。
BNトレーニングデータ準備モジュール122は、ベイズネットワーク170及び174のためのトレーニングデータをそれぞれ準備するトレーニングデータ準備ユニット140及び160と、第1のトレーニングデータ準備ユニット140及び160によってそれぞれ準備されたトレーニングデータを記憶する記憶装置142及び162とを含む。
<動作>
この実施の形態のASRシステム110は以下のように動作する。ASRシステム110は二つの動作段階を有する。モデリングとデコーディングである。
モデルのトレーニングでは、モデルトレーニング用の音響データ120が予め準備されているものと仮定する。第1のトレーニングデータ準備ユニット140及び160は音響データ120からそれぞれ、左と右のベイズネットワーク用のトレーニングデータを準備する。記憶装置142及び162が、それぞれ第1のトレーニングデータ準備ユニット140及び160から出力されるベイズネットワーク170及び174のためのトレーニングデータをそれぞれ記憶する。トレーニングユニット144及び164は、それぞれ記憶装置142及び162に記憶されたトレーニングデータを用いて、ベイズネットワーク170及び174をトレーニングする。
HMMトレーニングデータ準備ユニット126は、音響データ120から、HMM音響モデル132をトレーニングするためのトレーニングデータを準備する。記憶装置128がHMMトレーニングデータ準備ユニット126によって準備されたデータを記憶する。トレーニングユニット130が、記憶装置128に記憶されたトレーニングデータを用いて、HMM音響モデル132をトレーニングする。
モデル結合モジュール134はHMM音響モデル132をベイズネットワーク170及び174と結合する。すなわち、モデル結合モジュール134はHMM音響モデル132の左状態のガウス分布をベイズネットワーク170のガウス分布と置換する。モデル結合モジュール134はさらに、HMM音響モデル132の右状態をベイズネットワーク174のガウス分布と置換する。モデル結合ユニット134はHMM/BNモデルを記憶装置180に出力し、記憶装置180はHMM/BNモデルを記憶する。
デコーダ184は、記憶装置180に記憶されたHMM/BNモデルを用いて波形データ182をデコードし、Nベストリスト186を出力する。上述の通り、既存のデコーダを何ら修正することなく使用できる。結果として得られるNベストリスト186は、しかし、先行技術で得られるものとは異なる。なぜなら、認識に用いられる音響モデルが異なるからである。
ASRシステム110はコンピュータハードウェア及びソフトウェアで実現可能である。デコーダ184を実現するコンピュータプログラムの制御構造は図7に示すとおりである。
[第2の実施の形態]
−完全ペンタフォンコンテキスト依存HMM/BNモデル−
上述の第1の実施の形態のASRシステム110は図4に示すようなトポロジーのHMM/BNモデルを使用する。しかし、この発明のASRシステムはこのようなシステムには限定されない。例えば、HMMモデルの中央状態に広域コンテキストに対する依存性を組込み、完全なハイブリッドのペンタフォンコンテキスト依存HMM/BNモデルを達成するようにしてもよい。第2の実施の形態は、そのようなHMM/BNモデルを用いるシステムに関する。
この実施の形態に係るBNトポロジーの状態は図8に示すとおりである。BN及びBNは第1の実施の形態と同じである。しかし、BNは、新たに2個のコンテキスト変数を有する。二つ前のコンテキスト(C)と二つ後のコンテキスト(C)とである。従って、3個の状態全てが広域のコンテキスト変数を有する。このモデルをLRC−HMM/BNと呼ぶ。
左/右状態の出力確率はLR−HMM/BNと同様に得られる。ここで、中央状態の出力確率は、追加された変数C及びCがともに認識の間は隠されており、N個及びN個の値をとると仮定して、BNから得られる。すなわち
Figure 2007052166
ただしP(C=CnL|Q)P(C=CnR|Q)は中央状態Qが二つ前及び二つ後のコンテキスト(CnL及びCnR)を有する確率であり、P(X|C=CnL,C=CnR,Q)は、それぞれ二つ前及び二つ後のコンテキストCnL及びCnLを有する中央状態Qにあるときの観測値Xの確率である。この場合、P(C=CnL|Q)P(C=CnR|Q)及びP(X|C=CnL,C=CnR,Q)はそれぞれ式(2)の混合重みとガウス関数とに対応する。
第2の実施の形態では、英語ASRで44個の音素を用いるとすれば、HMM/BNモデルの中央状態の各々のガウス分布の総数は44=1,936個となり得る。この場合、データのスパースネスの問題は、第1の実施の形態よりも深刻になる。従って、ガウス分布数の削減がより重要となる。
<構造>
この実施の形態では、図10に示すASRシステム280を用いることができる。ASRシステム280は図6に示すASRシステム110と同様のものである。ASRシステム280がASRシステム110と異なる点は、図6に示すBNトレーニングデータ準備モジュール122に代えてBNトレーニングデータ準備モジュール124を含むこと、及び図6のモデル結合モジュール134に代えてモデル結合モジュール290を含むことである。
BNトレーニングデータ準備モジュール124は、BNトレーニングデータ準備モジュール122内の各ユニットに加えて、中央のベイズネットワーク172のためのトレーニングデータを準備するトレーニングデータ準備ユニット150と、トレーニングデータ準備ユニット150によって準備されたトレーニングデータを記憶する記憶装置152と、記憶装置152に記憶されたトレーニングデータを用いて中央のベイズネットワーク172をトレーニングするトレーニングユニット154とを含む。
<動作>
モデル結合モジュール290はHMM音響モデル132の状態の各々のガウス分布をベイズネットワークのガウス分布に置換する。すなわち、モデル結合モジュール290は、HMM音響モデル132の中央状態の全てのガウス分布を中央ベイズネットワーク172のガウス分布と置換する。他の点では、モデル結合モジュール290は図6に示すモデル結合モジュール134と同様に動作する。
こうしてHMM/BNモデル292はモデル結合モジュール290によって生成される。デコーダ184は波形データ182をデコードし、HMM/BNモデル292を用いてNベストリスト186を出力する。デコーダには何ら修正は必要ない。
[コンピュータによる実現]
上述の実施の形態はコンピュータシステムと、当該システム上で実行されるコンピュータプログラムとによって実現可能である。図11はこれら実施の形態で用いられるコンピュータシステム330の外観を示し、図12はコンピュータシステム330のブロック図である。ここで示すコンピュータシステム330は単なる例示であって、さまざまな他の構成が利用可能である。
図11を参照して、コンピュータシステム330は、コンピュータ340と、全てコンピュータ340に接続された、モニタ342、キーボード346、及びマウス348とを含む。さらに、コンピュータ340は内蔵のCD−ROM(Compact Disc Read Only Memory)ドライブ350及びFD(Flexible Disk)ドライブ352を有する。
図12を参照して、コンピュータ340はさらに、CD−ROMドライブ350及びFDドライブ352に接続されたバス366と、CPU(Central Processing Unit)356と、コンピュータのブートアッププログラム等のプログラムを記憶するためのROM(Read−Only Memory)358と、CPU356によって使用される作業領域及びCPU356によって実行されるプログラムの記憶領域を提供するRAM(Random Access Memory)360と、音響データ、波形データ、及び仮説を記憶するためのハードディスク354とを含み、これらは全てバス366に接続されている。
上述の実施の形態に係るシステムを実現するソフトウェアはCD−ROM362又はFD364等の記録媒体に記録されて配布され、CD−ROMドライブ350又はFDドライブ352等の読出装置を介してコンピュータ340に提供され、ハードディスク354に記憶される。CPU356がプログラムを実行する際には、プログラムはハードディスク354から読出されてRAM360に記憶される。図示しないプログラムカウンタによって指定されたアドレスから命令が読みだされ、命令が実行される。CPU356は処理対象のデータをハードディスク354から読出し、処理の結果をまたハードディスク354に記憶する。
コンピュータシステム330の一般的な動作は周知であり、従ってその詳細はここでは説明しない。
ソフトウェア配布の方法に関して、ソフトウェアは必ずしも記録媒体上に固定されなくてもよい。例えば、ソフトウェアはネットワークで接続された別のコンピュータから配布されてもよい。ソフトウェアの一部をハードディスク354に記憶し、ソフトウェアの残りの部分はネットワークを介して入手してハードディスク354に格納し、実行時に統合してもよい。
典型的には、現在のコンピュータはコンピュータのオペレーティングシステム(OS)によって提供される一般的な機能を利用し、所望の目的に従って、制御された様態で機能を達成する。従って、OS又はサードパーティプログラムによって提供され得る一般的な機能を含まず、一般的機能を実行する順序の組合せのみを指定するプログラムであっても、そのプログラムが全体として所望の目的を達成する限り、それがこの発明の範囲内にあることは明らかである。
[実験結果]
ウォールストリートジャーナル(WSJ0及びWSJ1)スピーチコーパス(非特許文献18)からの60時間超の母国語話者による英語の音声データを用いて、ベースライントライフォンHMM音響モデルをトレーニングした(非特許文献31)。サンプリング周波数は16kHzであり、フレーム長は20ミリ秒のハミングウィンドウであり、フレームシフトは10ミリ秒であり、12次のMFCC(Mel−Frequency Cepstrum Coefficients:メル周波数ケプストラム)、ΔMFCC及びΔ対数パワーからなる25次特徴パラメータを、特徴パラメータとして用いた。各音素について、初期HMMとして3状態を用いた。こうして、トライフォンコンテキストが状態レベルで共有され連結される最適状態トポロジーを得るために、最小記述長さ(minimum description length:MDL)に基づく連続状態分割(successive state splitting:SSS)を用いて、状態レベルHMnetを得た。MDL−SSSの詳細は非特許文献32に記載されている。
ここで、各トライフォンコンテキストのためのHMnetパスの長さは3状態に保たれる。状態の総数は1144であり、状態ごとのガウス混合成分の数には4つの異なるバージョンがある。すなわち、5、10、15及び20である。
各モデルの性能を、トレーニングコーパスとは全く異なる、出願人が準備した基本旅行表現コーパス(Basic Travel Expression Corpus:BTEC)(非特許文献33)でテストした。実験では、4,080の発話から、40人の異なる話者(男性20名、女性20名)による200個の発話をランダムに選択した。最良のベースラインHMM性能は87.98%の単語精度であり、1状態あたり15ガウス分布のトライフォンHMMで得られた。
同じデータコーパスを用いて、時間でアライメントした状態セグメンテーションを得た。始めに、ハイブリッドペンタフォンLR−HMM/BNを評価し、二つ前/二つ後のコンテキストを、新たなディスクリートな変数としてBN/BNをトレーニングした。中央状態BNはガウス混合分布としてモデル化された標準的HMM状態のpdfと等価であった。このため、HMM/BNモデルの中央状態として、ベースライン音響モデルからの、対応する5個の成分混合状態を用いた。HMM/BN状態トポロジー、状態の総数及び遷移確率は、ベースラインのそれらと全て同じであった。
初期のHMM/BNモデルはCについて44音素のコンテキストの組を使用し、これによりトレーニング後、左/右状態ごとに平均で30個のガウス分布を結果としてもたらした。中央状態のパラメータはベースラインのトライフォン5−混合成分HMMと同じままであったので、最終的なハイブリッドLR−HMM/BNモデルは状態ごとに(平均で)約24の混合分布を有する。その後、上述のとおり、知識ベースの音素クラスタリングを用いて、44音素の組を30、20及び10のクラスに削減した。中央状態を1状態当たり5個のガウス分布に維持した結果、それぞれ平均で18、13及び8成分混合分布のハイブリッドLR−HMM/BNモデルが得られた。
種々の種類の音素クラスの組のペンタフォンLR−HMM/BNの結果を図13に示す。比較のため、最良の性能を示した15成分混合分布のHMMトライフォンベースライン15も含めた。
次に、ハイブリッドペンタフォンLRC−HMM/BNモデルを評価し、新たなディスクリートな変数として二つ前及び二つ後のコンテキストにより、BNをトレーニングした。左と右の状態(それぞれBN及びBN)はハイブリッドペンタフォンLR−HMM/BNと同じであった。HMM/BN状態トポロジー、状態の総数、及び遷移確率は全て、ベースラインのものと同じであった。トレーニング後、Cについての44音素コンテキストの組の初期HMM/BNモデルから、中央状態について約412のガウス分布、左/右の1状態当たり30のガウス分布が得られた。最終的なハイブリッドペンタフォンLRC−HMM/BNモデルは平均で1状態当たり約142の混合分布を有した。
ガウス分布の数を削減するために、知識ベースの音素クラスタリングを用いて44音素コンテキストの組を30、20及び10のクラスにクラスタリングした。この結果、ハイブリッドペンタフォンLRC−HMM/BNモデルはそれぞれ、108、70及び39の成分混合分布を有することとなった。種々の種類の音素の組でのペンタフォンLRC−HMM/BNモデルの結果を図14に示す。
BNを介してより広域な音素コンテキストを組込むために確率分布のみを変更し、他のパラメータを同じままに保つことによって、ベースラインより良好な、改良された認識性能を得た。44音素の組のハイブリッドペンタフォンLRC−HMM/BN(1状態当たり142混合分布)は、パラメータの数が膨大であるため、HMMベースラインにくらべ性能がわずかに向上しただけであった。ガウス分布の数を削減することによって、結果として性能は88.05%から88.82%に改良された。ペンタフォンLRC−HMM/BNのこの最良の性能は、クラス数=10(1状態当たり29ガウス分布)で得られた。知識ベースの音素クラスタリングを用いた最適サイズのC及びCでは、LRC−HMM/BNモデルもLR−HMM/BNモデルもともに同様の性能を達成した。
ガウス分布の総数が全く同じ数のペンタフォンHMM/BNモデルとベースラインとの比較を可能にするために、データ駆動クラスタリングを用いて、初期HMM/BNのサイズを5、10、20混合成分ベースラインに対応するように削減した。ペンタフォンLR−HMM/BNの中央状態混合成分サイズもまた、対応するサイズであった。トライフォンHMMベースライン、ペンタフォンLR−HMM/BN及びペンタフォンLRC−HMM/BNの結果を図15に示す。
示されるとおり、パラメータ数が同じ場合、いずれのタイプのペンタフォンHMM/BNもベースラインを上回る性能であった。ペンタフォンLR−HMM/BNの最良の性能は、ガウス混合分布数が15の時に得られ、これによって単語誤り率(Word Error Rate:WER)が相対的に約9%減少した。ペンタフォンLRC−HMM/BNの最良の性能は、ガウス混合分布数が20の時に得られ、WERが相対的に約10%減少した。平均して、LRC−HMM/BNモデル及びLR−HMM/BNモデルはともに、以前と同様の性能を達成した。これは、知識ベースのクラスタリング技術も、データ駆動のクラスタリング技術も、ガウス成分の数を減少させるには等しく有効であることを示す。
上述の通り、HMM/BNモデルはモデルコンテキストの拡張に有利である。実施の形態のHMM/BNモデルを用いることにより、従来のトライフォンモデルを容易に拡張してより広域なコンテキストをカバーしつつ、何ら修正なしに既存の標準的デコードシステムを使用できる。認識結果は、ベースライントライフォンHMMとガウス分布の数が同じであっても、ハイブリッドペンタフォンHMM/BNモデルによって、ASRシステムの性能が向上することを示した。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。
この発明の一実施の形態に従ったHMM/BNモデルを概略的に示す図である。 BNネットワークの一例を概略的に示す図である。 この発明の第1の実施の形態で用いられるHMM/BNネットワークの構造を概略的に示す図である。 この発明の第1の実施の形態で用いられるベイズネットワークのトポロジーを示す図である。 音素の知識ベースのクラスタリングで用いられる音素のクラスのツリーを概略的に示す図である。 この発明の第1の実施の形態に従ったASRシステム110の全体構造を示す図である。 この発明の第1の実施の形態のHMM/BNネットワークのトレーニングの制御構造を示す図である。 この発明の第2の実施の形態で用いられるベイズネットワークのトポロジーを示す図である。 BNによる観測空間モデリングの例を示す図である。 この発明の第2の実施の形態に従ったASRシステム280の全体構造を示す図である。 コンピュータシステム330の外観を示す図である。 コンピュータシステム330を示すブロック図である。 実験結果を示す図である。 別の実験結果を示す図である。 さらに別の実験結果を示す図である。 狭いコンテキストモデルで構築された従来のトライフォンモデルを示す図である。 従来のASRシステム400の構造を示す図である。 何もないところから構築されたペンタフォンモデルを示す図である。
符号の説明
30,60 HMM/BNモデル
32 HMMモデル
34 ベイズネットワーク
110,280 ASRシステム
170,172,174 ベイズネットワーク
132 HMM音響モデル
134,290 モデル結合モジュール
184 デコーダ

Claims (9)

  1. 広域コンテキスト音響モデルを準備する音響モデルの準備方法であって、
    トレーニング用音響データの組を用いて予め定められた数の状態を有する音響隠れマルコフモデルをトレーニングするステップを含み、前記状態は、他の状態に対応する他の音素に先行する第1の音素に対応する第1の状態と、他の状態に対応する他の音素に後続する最後の音素に対応する最後の状態と、第1の音素と最後の音素との間の音素に対応する中央状態とを含み、
    前記方法は、前記音響データの組を用いて前記第1の状態に対応する第1のベイズネットワークをトレーニングするステップをさらに含み、前記第1のベイズネットワークは前記第1の状態に対応する第1のノードと、前記第1の音素の直前の音素を表す隠れ変数の第2のノードと、第1の状態の観測空間の第3のノードとを含むトポロジーを有し、前記第2及び第3のノードは前記第1のノードの子であり、前記第3のノードは前記第2のノードの子であり、
    前記方法はさらに、前記隠れマルコフモデルと前記第1のベイズネットワークとを結合するステップを含む、音響モデルの準備方法。
  2. 前記方法は、前記音響データの組を用いて前記最後の状態に対応する第2のベイズネットワークをトレーニングするステップをさらに含み、前記第2のベイズネットワークは前記最後の状態に対応する第1のノードと、前記最後の音素の直後の音素を表す隠れ変数の第2のノードと、前記最後の状態の観測空間の第3のノードとを含むトポロジーを有し、前記第2のベイズネットワークの前記第2及び第3のノードは前記第2のベイズネットワークの前記第1のノードの子であり、前記第2のベイズネットワークの前記第3のノードは前記第2のベイズネットワークの前記第2のノードの子であり、
    前記方法はさらに、前記隠れマルコフモデルと前記第2のベイズネットワークとを結合するステップを含む、請求項1に記載の音響モデルの準備方法。
  3. 前記方法は、前記音響データの組を用いて前記中央状態に対応する第3のベイズネットワークをトレーニングするステップをさらに含み、前記第3のベイズネットワークは前記中央状態に対応する第1のノードと、前記第1の音素の直前の音素を表す隠れ変数の第2のノードと、前記最後の音素の直後の音素を表す隠れ変数の第3のノードと、前記中央状態の観測空間の第4のノードとを含むトポロジーを有し、
    前記方法はさらに、前記隠れマルコフモデルと前記第3のベイズネットワークとを結合するステップを含む、請求項2に記載の音響モデルの準備方法。
  4. 前記第3のベイズネットワークの前記第2及び第3のノードによって表される隠れ変数によって表される音素は、所定のクラスタリング方式に従って、トレーニング中にクラスタリングされる、請求項3に記載の音響モデルの準備方法。
  5. 前記第1のベイズネットワークの前記第2のノードによって表される隠れ変数によって表される音素は、所定のクラスタリング方式に従って、トレーニング中にクラスタリングされる、請求項3または請求項4に記載の音響モデルの準備方法。
  6. 前記第2のベイズネットワークの前記第2のノードによって表される隠れ変数によって表される音素は、所定のクラスタリング方式に従って、トレーニング中にクラスタリングされる、請求項3〜請求項5のいずれかに記載の音響モデルの準備方法。
  7. 前記所定のクラスタリング方式は、分類手順のガイドとなる音素コンテキストの特定の知識に従って音素がクラスタリングされる知識ベースの方式である、請求項4に記載の音響モデルの準備方法。
  8. 所定のクラスタリング方式は、音素間の音響特徴量における予め定められた類似性の尺度に基づいて音素がクラスタリングされるデータ駆動のクラスタリングである、請求項4に記載の音響モデルの準備方法。
  9. 請求項1〜請求項8のいずれかに従った方法で準備された広域コンテキスト音響モデルを記憶するための手段と、
    前記記憶手段に記憶された広域コンテキスト音響モデルを用いて、統計的デコード方法で入力波形をデコードするデコーダとを含む自動音声認識装置。
JP2005236382A 2005-08-17 2005-08-17 音響モデルの準備方法及び自動音声認識装置 Withdrawn JP2007052166A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005236382A JP2007052166A (ja) 2005-08-17 2005-08-17 音響モデルの準備方法及び自動音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005236382A JP2007052166A (ja) 2005-08-17 2005-08-17 音響モデルの準備方法及び自動音声認識装置

Publications (2)

Publication Number Publication Date
JP2007052166A true JP2007052166A (ja) 2007-03-01
JP2007052166A5 JP2007052166A5 (ja) 2008-02-21

Family

ID=37916664

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005236382A Withdrawn JP2007052166A (ja) 2005-08-17 2005-08-17 音響モデルの準備方法及び自動音声認識装置

Country Status (1)

Country Link
JP (1) JP2007052166A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009003110A (ja) * 2007-06-20 2009-01-08 National Institute Of Information & Communication Technology 知識源を組込むための確率計算装置及びコンピュータプログラム
JP2010139745A (ja) * 2008-12-11 2010-06-24 National Institute Of Information & Communication Technology 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
CN106773692A (zh) * 2016-12-21 2017-05-31 北京金控数据技术股份有限公司 基于高斯分布的设备运行控制系统和方法
CN117405573A (zh) * 2023-12-15 2024-01-16 长沙矿冶研究院有限责任公司 一种考虑脉冲数不稳定的射线矿浆浓度计校准方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009003110A (ja) * 2007-06-20 2009-01-08 National Institute Of Information & Communication Technology 知識源を組込むための確率計算装置及びコンピュータプログラム
JP2010139745A (ja) * 2008-12-11 2010-06-24 National Institute Of Information & Communication Technology 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
CN106773692A (zh) * 2016-12-21 2017-05-31 北京金控数据技术股份有限公司 基于高斯分布的设备运行控制系统和方法
CN117405573A (zh) * 2023-12-15 2024-01-16 长沙矿冶研究院有限责任公司 一种考虑脉冲数不稳定的射线矿浆浓度计校准方法及系统
CN117405573B (zh) * 2023-12-15 2024-03-22 长沙矿冶研究院有限责任公司 一种考虑脉冲数不稳定的射线矿浆浓度计校准方法及系统

Similar Documents

Publication Publication Date Title
Donovan Trainable speech synthesis
Rabiner et al. An overview of automatic speech recognition
Hazen et al. Pronunciation modeling using a finite-state transducer representation
Hadian et al. Flat-start single-stage discriminatively trained HMM-based models for ASR
KR100932538B1 (ko) 음성 합성 방법 및 장치
Hasegawa-Johnson et al. Simultaneous recognition of words and prosody in the Boston University Radio Speech Corpus
Balyan et al. Speech synthesis: a review
Woodland The development of the HTK Broadcast News transcription system: An overview
Williams Knowing what you don't know: roles for confidence measures in automatic speech recognition
Razavi et al. Acoustic data-driven grapheme-to-phoneme conversion in the probabilistic lexical modeling framework
Lee On automatic speech recognition at the dawn of the 21st century
JP2007052166A (ja) 音響モデルの準備方法及び自動音声認識装置
Davis et al. Speech perception by humans and machines
JP4861912B2 (ja) 知識源を組込むための確率計算装置及びコンピュータプログラム
Liu et al. Modeling partial pronunciation variations for spontaneous Mandarin speech recognition
Chen et al. How prosody improves word recognition
AbuZeina et al. Cross-word modeling for Arabic speech recognition
Sakai et al. A probabilistic approach to unit selection for corpus-based speech synthesis.
Phan et al. Improvement of naturalness for an HMM-based Vietnamese speech synthesis using the prosodic information
Mullah A comparative study of different text-to-speech synthesis techniques
Kumar et al. Development of speaker-independent automatic speech recognition system for Kannada language
Lee et al. A survey on automatic speech recognition with an illustrative example on continuous speech recognition of Mandarin
El Ouahabi et al. Amazigh speech recognition using triphone modeling and clustering tree decision
Hain Hidden model sequence models for automatic speech recognition
Yusnita et al. Phoneme-based or isolated-word modeling speech recognition system? An overview

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071227

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071227

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20091221