JP2007155833A - 音響モデル開発装置及びコンピュータプログラム - Google Patents

音響モデル開発装置及びコンピュータプログラム Download PDF

Info

Publication number
JP2007155833A
JP2007155833A JP2005347117A JP2005347117A JP2007155833A JP 2007155833 A JP2007155833 A JP 2007155833A JP 2005347117 A JP2005347117 A JP 2005347117A JP 2005347117 A JP2005347117 A JP 2005347117A JP 2007155833 A JP2007155833 A JP 2007155833A
Authority
JP
Japan
Prior art keywords
language
acoustic model
phoneme
indonesian
mapping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005347117A
Other languages
English (en)
Inventor
Sakti Sakriani
サクリアニ・サクティ
Markov Konstantin
コンスタンティン・マルコフ
Satoru Nakamura
哲 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2005347117A priority Critical patent/JP2007155833A/ja
Publication of JP2007155833A publication Critical patent/JP2007155833A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】ターゲット言語とは異なるソース言語の言語資源を用いて、ターゲット言語の音響モデルを迅速に開発することが可能な装置を提供する。
【解決手段】第1の言語の音響モデル(AM)を開発するためのモデル50は、第2の言語の音声データと、第2の言語の音素ラベルを第1の言語の音素ラベルにマッピングするためのマッピングテーブル66と、テーブル66に従って、第2の言語の音素ラベルを第1の言語の音素ラベルに置換するための置換モジュール62と、第2の言語の音素ラベルが第1の言語の音素ラベルと置換された音声データを用いて、シード音響モデル72をトレーニングするトレーニングモジュール70とを含む。
【選択図】 図3

Description

この発明は音響モデリングに関し、特に、利用可能な音声データの量がわずかしかない言語の音響モデルを構築する技術に関する。
新たな言語について自動音声認識(Automatic Speech Recognition:ASR)システムを開発するためには、膨大な量の音声データが必要とされ、さらに、人手による注釈付け及び書起こしも必要である。しかし、この様な手順はしばしば、特に時間と予算が限られているために、困難である。
特に、世界で4番目に人口の多い(2億人以上が住んでいる)国であるインドネシアは、依然として音声に関する技術と研究とを欠いており、また、インドネシア語のデータが不足している。インドネシア語の大規模語彙音声認識(Large Vocabulary Speech Recognition:LVCSR)システムの開発に当たっては、インドネシア語が、実際には、ほとんどの人々にとって、母語である民族語に次ぐ第2言語であるために困難が生じる。インドネシア語の中に認められる全ての民族の言語と方言とをカバーする音声コーパスを収集することは、従って、依然として最大の問題である。
最近、インドネシアで話されているいくつかの主な民族方言をカバーしたインドネシア語の音声コーパスが収集され、よい結果が得られた。しかし、このコーパスが含む語彙は小規模であって、インドネシア語の全音素セットの約70%しかカバーしていない。これは、音素の残り30%がまだカバーされていないということである。ある適用領域でのアプリケーションのタスクにインドネシア語のASRシステムを適用するためには、全音素セットを備えた適切な音響モデルが必要である。さらに、この音響モデルを迅速に開発できることが好ましい。
この種の問題はインドネシア語に特有のものではない。音声データを収集し、注釈を付け、書起こすための膨大な労力、時間及び予算を考えれば、ほとんどの言語で、全音素セットをカバーする音声データを欠くために不利な状況にあることは容易に理解できる。
B.ホィートリィ、K.コンドー、W.アンダーソン及びY.ムスサミー、「新規言語における迅速なHMM開発のための言語間適応の評価」、ICASSP予稿集、アデレード、オーストラリア、1994年、237−240ページ。(B. Wheatly, K. Kondo, W. Anderson, and Y. Muthusamy, "An evaluation of cross-language adaptation for rapid HMM development in a new language," in Proc. ICASSP, Adelaide, Australia, 1994, pp. 237-240.) V.バク ル、及びL.ベサシエール、「新規言語のための迅速な音響モデリングの第一歩:ベトナム語への応用」、ICASSP予稿集、フィラデルフィア、USA、2005年、821−824ページ。(V. Bac Le and L. Besacier, "First steps in fast acoustic modeling for a new language: Application to vietnamese," in Proc. ICASSP, Philadelphia,USA, 2005, pp. 821-824.) T.マーティン及びS.スリダラン、「インドネシア語のための言語間音響モデルの洗練」、ICASSP予稿集、フィラデルフィア、USA、2005年、865−868ページ。(T. Martin and S. Sridharan, "Cross-language acoustic model refinement for the Indonesian language," in Proc. ICASSP, Philadelphia, USA, 2005, pp. 865-868.) T.シュルツ及びA.ワイベル、「言語間音響モデリングの実験」EUROSPEECH予稿集、エールボルグ、デンマーク、2001年、2721−2724ページ。(T. Schultz and A. Waibel, "Experiments on cross-language acoustic modeling," in Proc. EUROSPEECH, Aalborg, Denmark, 2001, pp. 2721-2724.) H.アルウィ、D.ダルドヨウィヨロ、H.ラポリワ、及びA.M.メリオノ、「タタバハサバクバハサインドネシア(インドネシア語文法)」、バライプスタカ、ジャカルタ、インドネシア、2003年。(H. Alwi, S. Dardjowidjojo, H. Lapoliwa, and A.M. Moeliono, Tata Bahasa Baku Bahasa Indonesia (Indonesian Grammar), Balai Pustaka, Jakarta, Indonesia, 2003.) P.ファン及びM.チーエン、「言語学的知識により補強されたMAPによる言語間適応:英語から中国語へ」EUROSPEECH予稿集、ブタペスト、ハンガリー、1999年、871−874ページ。(P. Fung and M. Chi Yuen, "MAP-based cross-language adaptation augmented by linguistic knowledge: From English to Chinese," in Proc. EUROSPEECH, Budapest, Hungary, 1999, pp. 871-874.)
近年、多言語での認識システムに対する需要が高まるにつれて、音声技術を言語間で移植する可能性について関心が高まっている。言語間技術は、大量のデータのあるソース言語から、データがごくわずかであるか又は全くないターゲット言語について行なわれる。多くの研究者が、新規言語のASRシステムを開発するには言語間アプローチが有用であることを示している(非特許文献[1]、[2]、[3]、[4])。しかし、インドネシア語等の、言語資源が乏しい第1の言語の音響モデルを、英語、日本語等の十分に開発された言語資源から開発する試みはこれまでなされていない。
従って、この発明の目的の一つは、ターゲット言語とは異なるソース言語の言語資源を用いて、ターゲット言語の音響モデルを迅速に開発することが可能な方法と装置とを提供することである。
この発明の別の目的は、ソース言語の言語資源を用いて、ターゲット言語の高品質の音響モデルを迅速に開発することが可能な方法及び装置を提供することである。
この発明のさらに別の目的は、インドネシア語と異なるソース言語の言語資源を用いて、インドネシア語の高品質の音響モデルを迅速に開発することが可能な方法及び装置を提供することである。
この発明のさらに別の目的は、英語の言語資源を用いて、インドネシア語の高品質の音響モデルを迅速に開発することが可能な方法及び装置を提供することである。
この発明の第1の局面に係る、第1の言語の音響モデルを開発するための音響モデル開発装置は、第1の言語と異なる第2の言語の機械可読な音声データを記憶する記憶部を含む。この音声データは、各々が第2の言語の音素ラベルでラベル付けされた音素にセグメント化された発話を含む。この装置はさらに、音声データ中の第2の言語の音素ラベルを第1の言語の音素ラベルにマッピングするためのモジュールと、このマッピングモジュールによるマッピングに従って、この音声データ中の第2の言語の音素ラベルを第1の言語のそれぞれの音素ラベルに置換するための置換モジュールと、置換モジュールによって第2の言語の音素ラベルが第1の言語の音素ラベルに置換された音声データを用いて、シード音響モデルをトレーニングするための第1のトレーニングモジュールとを含む。
第2の言語の音声データが記憶部に準備される。音声データの発話が音素にセグメント化される。各音素は第2の言語の音素ラベルでラベル付けされる。マッピングモジュールは第2の言語の音素ラベルを第1の言語の音素ラベルにマッピングする。第2の言語の音素ラベルが、マッピングモジュールのマッピングに従って、もしあれば、第1の言語の音素ラベルにマッピングされる。結果として得られる音声データは第1の言語の音素ラベルが割当てられた音素と、第2の言語の音素ラベルが割当てられた音素とを含む。この様にして得られた音声データを用いて音響モデルをトレーニングすることにより、第1の言語のシード音響モデルが得られる。ただし、音素のいくつかは第2の言語の音素のみでトレーニングされることになる。
第1の言語のデータが利用できない場合でも、第2の言語の音声データを用い、第1の言語と第2の言語との音素ラベル間のマッピングを行なうことで、第1の言語のシード音響モデルを得ることができる。
好ましくは、マッピングモジュールは、各々が第2の言語の音素ラベルを第1の言語の対応する音素ラベルにマッピングするマッピング規則を記憶するためのマッピングテーブルを含む。
マッピングがマッピングテーブルの形で準備されるので、マッピングを容易に生成し保守することができる。
さらに好ましくは、これらのマッピング規則のうちあるものは、第2の言語の音素ラベルを第1の言語の2又はそれ以上の音素ラベルにマッピングする。
もし第2の言語の複雑な音素に対応する音素が第1の言語にない場合、この音素は2個又はそれ以上の音素ラベルにマッピングされ得る。この様にして得られた音素ラベルは、第1の言語の音素セットのうち、より広い範囲をカバーする。
さらに好ましくは、これらのマッピング規則のうちいくつかは、第2の言語の異なる音素ラベルを第1の言語の同じ音素ラベルにマッピングする。
第2の言語の異なる音素ラベルが第1の言語の同じ音素ラベルにマッピングされる。この様にして得られたシード音響モデルの特定の音素は、同じ音素のより多彩な変化を反映する。従って、シード音響モデルの信頼性が高まる。
さらに好ましくは、この音響モデル開発装置は、第1の言語の機械可読な音声データを記憶するための記憶部をさらに含む。この第1の言語の音声データは第1の言語の発話を含む。この音響モデル開発装置はさらに、シード音響モデルを用いて第1の言語の発話の各々をアライメントし、シード音響モデルに従って第1の言語のアライメントされた発話における音素の各々に第1の言語の音素ラベルを割当てるためのアライメントモジュールと、アライメントモジュールによってアライメントされた音声データを用いて音響モデルをトレーニングするための第2のトレーニングモジュールと、第2のトレーニングモジュールによってトレーニングされた音響モデルにおいて欠落している音素モデルを、シード音響モデルから挿入するためのモジュールとを含む。
この様にして得られた音響モデルは、シードモデルに比べて自動音声認識においてより正確で効果的であることが分かった。
この音響モデル開発装置はさらに、第1の言語の機械可読な音声データを記憶するための記憶部をさらに含んでもよい。第1の言語の音声データは第1の言語の発話を含んでいる。音響モデル開発装置はさらに、シード音響モデルを用いて第1の言語の発話の各々をアライメントし、第1の言語のアライメントされた発話における音素の各々に、シード音響モデルに従って第1の言語の音素ラベルを割当てるためのモジュールと、アライメントモジュールによってアライメントされた音声データを用いて、シード音響モデルを適合させるための適合モジュールとを含んでもよい。
この様にして得られた音響モデルはシードモデルに比べて自動音声認識においてより正確で効果的であることが分かった。
この発明の第2の局面に係るコンピュータプログラムは、コンピュータ上で実行されると、コンピュータに、上述の装置のいずれかの機能の全てを実行させる様に構成されている。
<仕様の概略>
この発明の目的を達成する方法の一つは、ソース言語のトレーニングデータの音素ラベルのアライメントをターゲット言語の音素ラベルと置換し、モデルをターゲット言語のシード音響モデルとしてトレーニングし、これを用いてターゲット言語の音声を認識する、というものであり、これは言語間置換(cross−language substitution:CLS)と呼ばれる。別の方法は、シード音響モデルを用いて、ターゲット言語のトレーニングデータの発話をビタビアライメントアルゴリズムに基づいてセグメント化し、ターゲット言語の新たなモデルをトレーニングするものである。このモデルは完全な音素セットを含んでいないので、欠落している音素モデルはシードモデルから挿入される。この方法を言語間挿入(cross−language insertion:CLI)と呼ぶ。第3の方法は、ターゲット言語のトレーニングデータを用いてシード音響モデルのパラメータを適合させるものであり、この方法を言語間適合(cross−language adaptation:CLA)と呼ぶ。
第1、第2及び第3の実施の形態を以下で説明するが、これらはそれぞれ、CLS、CLI及びCLAの適用に関するものである。実施の形態全体を通して、ターゲット言語はインドネシア語であり、ソース言語は英語である。
<音声コーパス>
英語については、よく使われるウォールストリートジャーナル(WSJ0及びWSJ1)大規模語彙音声コーパスを用いた。これは英語を母国語とする284名の話者(男性及び女性)によって話された60時間分の英語音声データからなる。CMU(カーネギーメロン大学)発音辞書によって定義された音素セットと基本的に同様の、44個の音素セットを用いてこのWSJデータを表した。
ここで用いた小規模語彙インドネシア語音声コーパスは、アジア太平洋テレコミュニティ(Asia Pacific Telecommunity:APT)の資金提供により、ATR(日本)、TELKOMRisTI(R&Dセンター、PTテレコミュニカシインドネシア)、及びバンドン技術研究所(Bandung Institute of Technology:ITB)の共同プロジェクトによって収集されたものである。これは数字タスクのためのコーパスセットC1と、簡単な対話タスクのためのコーパスセットC2とからなり、これらは明瞭発話の条件下と電話発話の条件下とで並列に得られた。以下の実施の形態では、コーパスセットC2(明瞭な音声)のみを用いる。これは、元々は、救急119、電話案内108、及びチケット予約のやり取り等の、聴き話すことに障害のあるユーザ用の通信システムで必要とされる電話での会話のいくつかから導出したものである。対話のシナリオの例を表1に示す。救急119からの音声メッセージはASRによってカバーされ、一方、障害のあるユーザからのテキストメッセージはTTS(テキスト−トゥ−スピーチシステム)によってカバーされる。従って、音声コーパスに収集されるのは、救急部門の担当者によって発話された文のみである。
Figure 2007155833
このコーパスは、インドネシアで話されている約15以上の主な民族方言をカバーすることができている。これは各々200人の話者(女性100名、男性100名)によって発話された、70語の対話語彙による(単一の単語からなる文を含む)100個の文の20,000発話(約18時間の音声)から成る。これらの発話は、各セットが10,000発話、100話者(女性50名、男性50名)となる様に、トレーニングセットとテストセットとに等分される。その後、連続音声認識システムの性能を分析するため、単一の単語の発話をテストセットから除き、約4000の発話を得た。
インドネシア語の音素セットは、非特許文献[5]に記載のインドネシア語文法によって定義される。完全な音素セットは合計で33個の音素シンボルを含むが、C2インドネシア語コーパスは完全なセットの70%しかカバーしていない。インドネシア語は英語ほど一般的でないので、インドネシア語の音素を次のセクションでより詳細に説明する。
<インドネシア語の音素セット>
図1を参照して、インドネシア語音素セットは10個の母音(二重母音を含む)、22個の子音、及び1個の無音シンボルを含む。声道の最初の2個の共鳴F1(高さ)及びF2(後部音声)を示すインドネシア語の母音調音パターンを、図1に示す。
これは、母音/a/(“father”の“a”等)、/i/(“screen”の“ee”等)、/u/(“soon”の“oo”等)、/e/(“bed”の“e”等)、/e2/(“learn”の“e”等のシュワー音)、/o/(“boss”の“o”等)、及び4個の二重母音/ay/、/aw/、/oy/及び/ey/から成る。インドネシア語の子音については、調音パターンは表2に示す通りである。
Figure 2007155833
<ASRシステム>
ATR音声認識エンジンを用いて実験を行なった。サンプリング周波数16kHz、フレーム長20msハミングウィンドウ、フレームシフト10ms、12次MFCC(Mel−Frequency Cepstrum Coefficient:メル周波数ケプストラム係数)、ΔMFCC及びΔ対数パワーからなる25次元特徴パラメータを、特徴パラメータとして用いた。各音素について、3状態コンテキスト非依存HMM(Hidden Markov Model:隠れマルコフモデル)音響モデルを用い、状態ごとに、異なる2つのバージョンのガウス混合成分として、5個及び15個を適用した。ここでは70語の対話語彙を用いているだけなので、ユニグラム言語モデリング(Language Modeling:LM)を適用した。
[実施の形態1](言語間置換)
言語間置換の最初のステップは、英語というソース言語からインドネシア語というターゲット言語への音素マッピングである。言語間で音素シンボルをマッピングするには、知識ベース又はデータ駆動型のアプローチなど、多くの方法がある(非特許文献[4]、[6])。音素マッピングテーブルを生成するのに最も直観的かつ直截的なアプローチは、知識(言語学的)ベースの音素マッピングを用いることである。なぜなら、これらはデータベース間に存在する可能性がある録音特性の影響から独立だからである。ここでは、国際音素アルファベット(International Phonetic Alphabet:IPA)の定義を用いて、英語とインドネシア語との音響−音素的類似性の根拠を見出した。手順は以下の通りである。
−全ての英語及びインドネシア語の音素をIPAシンボルに変換する。
−インドネシア語の各音素について、同じIPAシンボルを有するか、最も近いものを持つ、代表となる英語の音素を見出す。
−必要に応じて、いくつかの英語の音素を組合わせることにより、インドネシア語の音素を近似する。
表3はソース言語としての英語の44個の音素セットから、ターゲット言語としてのインドネシア語の33個の音素セットへの音素マッピングテーブルの例を示す。
Figure 2007155833
しかし、このマッピングによる解決策は以下の理由から、最適とは言いがたい。まず第1に、同じラベルを共有する両言語の音の音響特性には、依然として差がある。例えば、インドネシア語の/r/はスペイン語風の顫音(せんおん)であり、一方英語の/r/は流音である。第2に、インドネシア語の音素音には、英語の音素セットの目録には生じない音がいくつかある。例えば、インドネシア語には子音の鼻口蓋音/ny/があり、これは英語の単語“canyon”における“ny”と類似している。しかし、英語の音素セットには/ny/にあたる単一の音素シンボルがないため、これを英語の音素/n/と/y/とから構築した。別の例として、インドネシア語では母音/i/を表す音素は一つしかないが、英語では/i/の音の変形がより多い。この場合、英語の全ての/i/の変形を1つのインドネシア語の音素/i/にマッピングする。“t”の音の場合、インドネシア語には子音破裂音/t/は一つしかないが、英語では子音破裂音/t/と摩擦音/th/とがある。
そこで、図2に示す様な、2種類の異なるマッピングを行なった。図2を参照して、英語の音素をインドネシア語の音素にマッピングするにあたって2タイプ、すなわちタイプAとタイプBとを試みた。タイプAでは、英語の音素“t”の全ての音を、“t”が破裂音の/t/であるか摩擦音の/th/であるかに関わらず、インドネシア語の音素/t/にマッピングした。タイプBでは、英語の子音破裂音/t/のみをインドネシア語の子音破裂音/t/にマッピングした。英語の子音摩擦音/th/はインドネシア語の2個の音素/t/及び/h/の組合せとして表した。“d”及び“z”の音についても“t”の音と同様に取扱った。
英語からインドネシア語への音素マッピングテーブルを構築した後の次のステップは、前もって書き起こしを行い、セグメント化されたWSJトレーニングデータ上の全ての英語音素ラベルを、このテーブルに基づいてインドネシア語の音素ラベルに変換することである。その後、このモデルをインドネシア語ターゲット言語のシードモデルとしてトレーニングし、これを用いてインドネシア語ターゲット言語の音声認識を行なう。モデルは言語間置換を用いて構築されているので、これをCLSモデルと呼ぶ。
図3に英語の音声データ60からインドネシア語の音響モデル72を開発するシステム50の全体構造を示す。英語の音声データ60はセグメント化され書き起こしがされ、さらに英語の音素ラベルが付される。図3を参照して、システム50は、英語−インドネシア語音素マッピングテーブル66を手動で生成し更新するためのコンソール64と、テーブル66を記憶する記憶部と、英語音声データ60内の英語音素ラベルを、テーブル66に記憶されたマッピングに従ってインドネシア語の音素ラベルに置換し、結果としてインドネシア語の音素ラベルによる書き起こしデータ付の英語音声データ68を得るための置換モジュール62と、インドネシア語の音素ラベルによる書き起こしデータ付の英語音声データ68を記憶するための記憶部と、インドネシア語の音素ラベルによる書き起こしデータ付の英語音声データ68をトレーニングデータとして用いて、基になる(ブートストラップ)インドネシア語音響モデル72をトレーニングするためのトレーニングモジュール70とを含む。
システム50は以下の様に動作する。テーブル66は、コンソール64を用いて記憶部内に手動で準備される。英語の音素ラベルによる書き起こしデータ付の英語音声データ60が与えられると、置換モジュール62は英語の音素ラベルの各々をテーブル66に従って対応するインドネシア語の音素ラベルに置換し、この結果、インドネシア語の音素ラベルによる書き起こしデータ付の英語音声データ68が得られる。インドネシア語の音素ラベルによる書き起こしデータ付の英語音声データ68は好適な記憶部に記憶される。
その後トレーニングモジュール70はインドネシア語の音素ラベルによる書き起こしデータ付の英語音声データ68をトレーニングデータとして用いて、インドネシア語の音響モデル72をトレーニングする。この様にしてトレーニングされたインドネシア語の音響モデル72が、インドネシア語のシードCLSモデルである。
インドネシア語の音響モデル72の品質は、インドネシア語の音響モデル72を音響モデルとして用いたASRの認識性能で測定することが可能であろう。図4はシードCLSモデルの認識精度率を測定するのに用いられるASRシステム80の全体構造を示す。
図4を参照して、システム80は、この実施の形態では図3に示したインドネシア語の音響モデル(シードCLSモデル)である、音響モデル92を記憶するための記憶部と、インドネシア語の言語モデル94を記憶するための記憶部と、インドネシア語のレキシコン96を記憶するための記憶部と、入力されたインドネシア語の音声90を、音響モデル92、言語モデル94及びレキシコン96を利用してインドネシア語のテキスト100にデコードするための、統計学ベースのデコーダ98とを含む。
図5はインドネシア語のテストセットに対するシードCLSモデルの認識精度率を示す。ここでは、上述のマッピングの両方のタイプ(タイプA及びタイプB)を適用し、それぞれを「CLS1」及び「CSL2」と称する。最適な精度を見出すために、いくつかのLM(言語モデル)スケールパラメータもまた使用した。
図5を参照して、認識結果は、英語の摩擦音のいくつかをインドネシア語の2つの音素の組合せとして表した(濃い線112と薄い線116とで示される)CLS2の性能が、英語の音素の音の全ての変形、すなわち“t”、“d”、又は“z”等をインドネシア語の単一の音素にマッピングした(濃い線110と薄い線114とで示した)CLS1の性能より劣っていることを示している。5混合成分のCLS1の最良の性能は45.50%の単語精度であり、15混合成分のそれは49.26%の単語精度であり、一方5混合成分のCLS2の最良の性能は44.47%の単語精度であり、15混合成分のそれは48.60%の単語精度であった。各タイプの最良の性能は、第1LMスケールが6で、かつ第2LMスケールが12のときに達成された。
[実施の形態2](言語間挿入)
CLIアプローチにおける最初のステップは、第1の実施の形態から結果として得られた最適なシードCLSモデル、すなわちCLS1モデル、を用いて、ビタビアライメントアルゴリズムに基づきインドネシア語のC2トレーニングデータの発話をセグメント化することである。次のステップは、以前と同じ手順とパラメータとを用いて、インドネシア語の音響モデルの各音素HMMをトレーニングすることである。C2コーパスは完全な音素セットを含んでいないので、インドネシア語の音素HMMモデルのうち欠落しているものについては、シードCLSモデルの音素HMMを挿入する。最後に、全ての音素HMMが一つの大きなHMネットに組合わされ、ここで埋込みトレーニングが行なわれる。最終モデルをCLIモデルと称する。
図6は第2の実施の形態のシステム120の全体構造を示す。シード音響モデル130は、第1の実施の形態のCLS1モデルである。従って、システム120は図3に示す要素を含むのであるが、図6では簡潔のためこれらは図示していない。C2コーパスであるインドネシア語の音声データ132もまた準備される。
図6を参照して、システム120はさらに、インドネシア語の音声データ132の各発話を音素のシーケンスにアライメントし、セグメント化して、セグメント化されたインドネシア語の音声データ136を得るためのアライメントモジュール134と、アライメントモジュール134から出力されるセグメント化されたインドネシア語の音声データ136を記憶するための記憶部と、セグメント化されたインドネシア語の音声データ136をトレーニングデータとして用いて、基になる音響モデル140をトレーニングするためのトレーニングモジュール138と、を含む。インドネシア語の音声データ132はインドネシア語の音素セットの全てをカバーしてはいないので、音響モデル140は完全ではない。音響モデル140では、音素HMMモデルのいくつかが欠落している。
音響モデル140を補充するために、システム120はさらに、音響モデル140で欠落している音素の音素HMMモデルをシード音響モデル130から音響モデル140に挿入し、これによって完全な音響モデル144を出力するための挿入モジュール142を含む。
インドネシア語のテストセットにおけるCLIモデルの認識精度率(%)を図7に示す。音声認識は、図4に示すASRシステム80で行なわれる。ここで音響モデル92はこの実施の形態のCLIモデルに置換されている。ここでは、最適な精度を見出すために、いくつかのLMスケールパラメータもまた適用される。
5混合成分のCLIモデルでは、薄い線152で示される様に、最良の性能は87.91%の単語精度であり、一方、15混合成分のCLIモデルは、濃い線150で示される様に、88.97%であった。これらの結果は、第1の実施の形態に比べ、はるかに良好である。
[実施の形態3](言語間適合)
このアプローチの方法は、シードCLSモデルのパラメータをインドネシア語のC2トレーニングデータに適合させるものである。ここでは、最大事後推定(maximum a posteriori:MAP)ベースの適合スキームを用いる。これは、モノリンガルASRシステム及び言語間適合において、雑音等の環境による、又は話者による変化を補償するために慣用されるものである。
このスキームは原理的には、既存のモデルに関する事前情報を利用する。その後ベイズの学習メカニズムによってシード音響モデルのパラメータを調整し、限られたインドネシア語のC2トレーニングデータが、事前知識を案内としてシード音響モデルを修正し、不一致(ミスマッチ)の悪影響を補償する様にする。さらに、パラメータの再評価は、事前知識とターゲット言語の新たな推定との加重和である。C2は全音素の70%しかカバーしていないので、これらの音素モデルパラメータのみを適合させることができる。残りは同じままである。
図8はこの実施の形態に従ったシステム160の全体構成を示す。シード音響モデル130は第2の実施の形態のそれと同じである。システム160はシード音響モデル130を生成するために図3に示す要素を含み得るが、図8では簡潔のためこれらは図示していない。同様に、インドネシア語の音声データ132、アライメントモジュール134、及びセグメント化されたインドネシア語の音声データ136もまた、図6に示したものと同じである。
図8を参照して、シード音響モデル130はさらに、セグメント化されたインドネシア語の音声データ136をトレーニングデータとして用いて、シード音響モデル130のパラメータを適合させるための適合モジュール170を含む。この適合の結果、適合された音響モデル172が得られる。
ここで、パラメータの適合(再評価)は以下の様に行なわれる。まずはじめに、HMM音素モデルの各状態のガウス分布の平均と分散とを、セグメント化されたインドネシア語の音声データ136を用いて推定する。次に、シード音響モデル130内のガウス分布のパラメータと新たに推定されたパラメータとの加重和のための重みを、セグメント化されたインドネシア語の音声データ136との不一致を最小化する様に計算する。この処理は、話者独立の音響モデルを、ある特定の話者用に、その話者の音声データを用いて適合させる処理と同様である。言換えれば、シード音響モデル130は、セグメント化されたインドネシア語の音声データ136を較正用データとして用いて較正される。この結果が、適合された音響モデル172におけるガウス分布のパラメータとなる。
図9はインドネシア語のテストセットに対するCLAモデルの認識精度率を示す。いくつかのLMスケールパラメータも、最適な精度を見出すために適用されている。5混合成分のCLAモデルでは、薄い線182で示す様に、最良の性能は62.82%の単語精度であり、15成分のCLAモデルでは、濃い線180で示す様に、70.69%であった。
[実施の形態の結果比較]
ここでは、言語間置換、言語間挿入及び言語間適合を含む全ての言語間アプローチから得られた単語精度を比較して評価を行なった。CLS、CLI及びCLAモデルからの最良の性能を、図10にまとめて示す。
図10を参照して、CLSモデルの性能が最も悪く、単語精度は45.50%(5ガウス混合成分を用いた場合)と49.26%(15ガウス混合成分を用いた場合)とであった。CLAモデルと同様に、CLSモデルをインドネシア語のC2トレーニングコーパスに適合させることにより、結果として、MAPベースの適合による支援で精度を絶対値で21.4%も改良することができた。しかし、CLAモデルによるこの性能も、依然としてCLIモデルよりは劣っている。その理由は以下の通りであると思われる。
まず第1に、CLIモデルは基本的にインドネシア語のC2コーパスからトレーニングされた純粋なモノリンガルのHMMであり、一方で、CLAモデルは適合されたCLSモデルである。第2に、MAPベースの適合アプローチの主な限界は、既存のCLSモデルの事前知識に関する正確な推定が最初に必要とされることであって、これはこの例では得るのが難しい。なぜなら、CLSモデルは英語の音声データからトレーニングされるからである。さらに、異なる言語間の音響的変化の幅は、同じ言語内での変化の幅より大きく、より複雑である。この結果、より効率の良い適合のためには、より多くのインドネシア語のトレーニングデータが必要である。これが、CLAモデルの性能がCLIモデルのそれより良好でない理由である。
[コンピュータによる実現]
上述の実施の形態は、コンピュータシステム及びコンピュータシステム上で実行されるプログラムによって実現され得る。図11はこの実施の形態で用いられるコンピュータシステム330の外観を示し、図12はコンピュータシステム330のブロック図である。ここで示すコンピュータシステム330は単なる例であって、他の構成も利用可能である。
図11を参照して、コンピュータシステム330はコンピュータ340と、全てコンピュータ340に接続された、モニタ342と、キーボード346と、マウス348と、スピーカ372と、マイクロフォン370と、を含む。さらに、コンピュータ340はDVD−ROM(Digital Versatile Disk Read−Only−Memory:ディジタル多用途ディスク読出専用メモリ)ドライブ350と、半導体メモリ装置ドライブ352とを含む。
図12を参照して、コンピュータ340はさらに、DVD−ROMドライブ350と半導体メモリドライブ352とに接続されたバス366と、全てバス366に接続された、CPU356と、コンピュータ340のブートアッププログラムを記憶するROM358と、CPU356によって使用される作業領域を提供するとともにCPU356によって実行されるプログラムのための記憶領域となるRAM360と、音声データ、音響モデル、言語モデル、レキシコン、及びマッピングテーブルを記憶するためのハードディスク354と、を含む。
上述の実施の形態のシステムを実現するソフトウェアは、DVD−ROM362又は半導体メモリ364等の媒体に記録されたオブジェクトコードの形で流通し、DVD−ROMドライブ350又は半導体メモリドライブ352等の読出装置を介してコンピュータ340に提供され、ハードディスクドライブ354に記憶される。CPU356がプログラムを実行する際には、プログラムはハードディスクドライブ354から読出されてRAM360に記憶される。図示しないプログラムカウンタによって指定されたアドレスから命令がフェッチされ、その命令が実行される。CPU356はハードディスクドライブ354から処理すべきデータを読出し、処理の結果をこれもまたハードディスクドライブ354に記憶する。スピーカ372とマイクロフォン370とは、音声認識と音声合成とに用いられる。
コンピュータシステム330の一般的動作は周知であるので、詳細な説明は省略する。
ソフトウェアの流通の方法に関して、ソフトウェアは必ずしも記憶媒体上に固定されたものでなくてもよい。例えば、ソフトウェアはネットワークに接続された別のコンピュータから分配されてもよい。ソフトウェアの一部がハードディスク354に記憶され、ソフトウェアの残りの部分をネットワークを介してハードディスク354に取込み、実行の際に統合する様にしてもよい。
典型的には、現代のコンピュータはコンピュータのオペレーティングシステム(OS)によって提供される一般的な機能を利用し、所望の目的に従って制御された態様で機能を達成する。従って、OS又はサードパーティから提供されうる一般的な機能を含まず、一般的な機能の実行順序の組合せのみを指定したプログラムであっても、そのプログラムが全体として所望の目的を達成する制御構造を有する限り、そのプログラムがこの発明の範囲に包含されることは明らかである。
[結論]
英語をソース言語とし、インドネシア語をターゲット言語として、言語間のアプローチを用いて、インドネシア語の音素ベースの初期的な音声認識システムを迅速に開発する可能性を提示した。3種類の言語間アプローチを試みた。すなわち(1)言語間置換、(2)言語間挿入、及び(3)言語間適合、である。また、英語からインドネシア語への音素マッピングが、知識ベースの方法に基づいてどの様に生成されるかを示した。評価結果から、CLIモデルがCLSモデル及びCLAモデルの両者より優れた性能を発揮することが明らかとなり、これは、ここではインドネシア語のASRを迅速に開発するためには言語間挿入が最も効果的であることを意味する。
ソース言語はインドネシア語に限られない。利用可能な資源が乏しい言語であれば、この発明はその初期音響モデルを迅速に開発するのに有用であろう。
今回開示された実施の形態は単に例示であって、本発明は上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。
インドネシア語の母音の調音パターンを示す図である。 英語の音素ラベルとインドネシア語の音素ラベルとの2種類の異なるマッピングパターンを示す図である。 第1の実施の形態に従ったシステム50の全体構成を示す図である。 自動音声認識システム80の全体構成を示す図である。 インドネシア語のテストセットに対する、第1の実施の形態に従ったシードCLSモデルの認識精度率を示す図である。 第2の実施の形態に従ったシステム120の全体構成を示す図である。 インドネシア語のテストセットに対する、第2の実施の形態に従ったシードCLIモデルの認識精度率を示す図である。 第3の実施の形態に従ったシステム160の全体構造を示す図である。 インドネシア語のテストセットに対する、第3の実施の形態に従ったシードCLAモデルの認識精度率を示す図である。 CLS、CLI、及びCLAモデルからの最良の性能を示す図である。 コンピュータシステム330の正面図である。 コンピュータシステム330のブロック図である。
符号の説明
50、120、160 インドネシア語の音響モデルを開発するためのシステム
60 英語音声データ
62 置換モジュール
64 コンソール
66 マッピングテーブル
68 インドネシア語の音素ラベルによる書き起こしデータ付の英語音声データ
70 トレーニングモジュール
72 インドネシア語音響モデル
80 ASRシステム
92、140 音響モデル
94 言語モデル
96 レキシコン
98 デコーダ
130 シード音響モデル
132 インドネシア語音声データ
134 アライメントモジュール
136 セグメント化されたインドネシア語音声データ
138 トレーニングモジュール
142 挿入モジュール
144 完全な音響モデル
170 適合モデル
172 適合された音響モデル

Claims (7)

  1. 第1の言語の音響モデルを開発するための音響モデル開発装置であって、
    前記第1の言語と異なる第2の言語の機械可読な音声データを記憶する記憶部を含み、前記音声データは、各々が前記第2の言語の音素ラベルでラベル付けされた音素にセグメント化された発話を含み、前記装置はさらに、
    前記音声データ中の前記第2の言語の音素ラベルを前記第1の言語の音素ラベルにマッピングするための手段と、
    前記マッピングするための手段によるマッピングに従って、前記音声データ中の前記第2の言語の音素ラベルを前記第1の言語のそれぞれの音素ラベルに置換するための手段と、
    前記置換するための手段によって前記第2の言語の音素ラベルが前記第1の言語の音素ラベルに置換された前記音声データを用いて、シード音響モデルをトレーニングするための第1のトレーニング手段とを含む、音響モデル開発装置。
  2. 前記マッピングするための手段が、各々が前記第2の言語の音素ラベルを前記第1の言語の対応する音素ラベルにマッピングするマッピング規則を記憶するためのマッピングテーブルを含む、請求項1に記載の音響モデル開発装置。
  3. 前記マッピング規則のうちのあるものは、前記第2の言語の音素ラベルを第1の言語の2又はそれ以上の音素ラベルにマッピングする、請求項2に記載の音響モデル開発装置。
  4. 前記マッピング規則のうちいくつかは、前記第2の言語の異なる音素ラベルを前記第1の言語の同じ音素ラベルにマッピングする、請求項2又は請求項3に記載の音響モデル開発装置。
  5. 前記第1の言語の機械可読な音声データを記憶するための記憶部をさらに含み、前記第1の言語の音声データは前記第1の言語の発話を含んでおり、さらに、
    前記シード音響モデルを用いて前記第1の言語の発話の各々をアライメントし、前記第1の言語のアライメントされた発話における音素の各々に、前記シード音響モデルに従って前記第1の言語の音素ラベルを割当てるための手段と、
    前記アライメントするための手段によってアライメントされた前記音声データを用いて音響モデルをトレーニングするための第2のトレーニング手段と、
    前記第2のトレーニング手段によってトレーニングされた音響モデルにおいて欠落している音素モデルを、前記シード音響モデルから挿入するための手段とを含む、請求項1から請求項4のいずれかに記載の音響モデル開発装置。
  6. 前記第1の言語の機械可読な音声データを記憶するための記憶部をさらに含み、前記第1の言語の音声データは前記第1の言語の発話を含んでおり、
    前記音響モデル開発装置はさらに、
    前記シード音響モデルを用いて前記第1の言語の前記発話の各々をアライメントし、第1の言語のアライメントされた発話における音素の各々に、前記シード音響モデルに従って前記第1の言語の音素ラベルを割当てるための手段と、
    前記アライメントするための手段によってアライメントされた前記音声データを用いて、前記シード音響モデルを適合させるための手段とをさらに含む、請求項1から請求項4のいずれかに記載の音響モデル開発装置。
  7. コンピュータ上で実行されると、当該コンピュータに、請求項1から請求項6のいずれかに記載の音響モデル開発装置の機能の全てを実行させる、コンピュータプログラム。
JP2005347117A 2005-11-30 2005-11-30 音響モデル開発装置及びコンピュータプログラム Pending JP2007155833A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005347117A JP2007155833A (ja) 2005-11-30 2005-11-30 音響モデル開発装置及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005347117A JP2007155833A (ja) 2005-11-30 2005-11-30 音響モデル開発装置及びコンピュータプログラム

Publications (1)

Publication Number Publication Date
JP2007155833A true JP2007155833A (ja) 2007-06-21

Family

ID=38240324

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005347117A Pending JP2007155833A (ja) 2005-11-30 2005-11-30 音響モデル開発装置及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP2007155833A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009145856A (ja) * 2007-12-12 2009-07-02 Inst For Information Industry 英語変異発音を識別するモジュールの構築方法、および、当該モジュールの構築を実現するプログラムを記憶したコンピュータが読み取り可能な記録媒体
JP2011033874A (ja) * 2009-08-03 2011-02-17 Alpine Electronics Inc 多言語音声認識装置及び多言語音声認識辞書作成方法
DE112010005168T5 (de) 2010-01-22 2012-11-08 Mitsubishi Electric Corporation Erkennungswörterbuch-Erzeugungsvorrichtung, Spracherkennungsvorrichtung und Stimmensynthesizer
JP2013250509A (ja) * 2012-06-04 2013-12-12 Nippon Hoso Kyokai <Nhk> 音声合成装置およびそのプログラム
JP2015040946A (ja) * 2013-08-21 2015-03-02 独立行政法人情報通信研究機構 音響モデル生成装置、音響モデル生成方法、およびプログラム
WO2016103358A1 (ja) * 2014-12-24 2016-06-30 三菱電機株式会社 音声認識装置及び音声認識方法
CN113077786A (zh) * 2021-03-23 2021-07-06 北京儒博科技有限公司 一种语音识别方法、装置、设备及存储介质
CN113838462A (zh) * 2021-09-09 2021-12-24 北京捷通华声科技股份有限公司 语音唤醒方法、装置、电子设备及计算机可读存储介质
JP2022092568A (ja) * 2020-12-10 2022-06-22 國立成功大學 ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009145856A (ja) * 2007-12-12 2009-07-02 Inst For Information Industry 英語変異発音を識別するモジュールの構築方法、および、当該モジュールの構築を実現するプログラムを記憶したコンピュータが読み取り可能な記録媒体
JP2011033874A (ja) * 2009-08-03 2011-02-17 Alpine Electronics Inc 多言語音声認識装置及び多言語音声認識辞書作成方法
DE112010005168T5 (de) 2010-01-22 2012-11-08 Mitsubishi Electric Corporation Erkennungswörterbuch-Erzeugungsvorrichtung, Spracherkennungsvorrichtung und Stimmensynthesizer
US9177545B2 (en) 2010-01-22 2015-11-03 Mitsubishi Electric Corporation Recognition dictionary creating device, voice recognition device, and voice synthesizer
JP2013250509A (ja) * 2012-06-04 2013-12-12 Nippon Hoso Kyokai <Nhk> 音声合成装置およびそのプログラム
JP2015040946A (ja) * 2013-08-21 2015-03-02 独立行政法人情報通信研究機構 音響モデル生成装置、音響モデル生成方法、およびプログラム
WO2016103358A1 (ja) * 2014-12-24 2016-06-30 三菱電機株式会社 音声認識装置及び音声認識方法
US10403265B2 (en) 2014-12-24 2019-09-03 Mitsubishi Electric Corporation Voice recognition apparatus and voice recognition method
JP2022092568A (ja) * 2020-12-10 2022-06-22 國立成功大學 ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法
JP7165439B2 (ja) 2020-12-10 2022-11-04 國立成功大學 ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法
CN113077786A (zh) * 2021-03-23 2021-07-06 北京儒博科技有限公司 一种语音识别方法、装置、设备及存储介质
CN113077786B (zh) * 2021-03-23 2022-12-02 北京如布科技有限公司 一种语音识别方法、装置、设备及存储介质
CN113838462A (zh) * 2021-09-09 2021-12-24 北京捷通华声科技股份有限公司 语音唤醒方法、装置、电子设备及计算机可读存储介质
CN113838462B (zh) * 2021-09-09 2024-05-10 北京捷通华声科技股份有限公司 语音唤醒方法、装置、电子设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
US8275621B2 (en) Determining text to speech pronunciation based on an utterance from a user
DiCanio et al. Using automatic alignment to analyze endangered language data: Testing the viability of untrained alignment
EP1571651A1 (en) Method and Apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers
US20070213987A1 (en) Codebook-less speech conversion method and system
Wutiwiwatchai et al. Thai speech processing technology: A review
JP2007155833A (ja) 音響モデル開発装置及びコンピュータプログラム
Zhang et al. Tone nucleus modeling for Chinese lexical tone recognition
US20080027725A1 (en) Automatic Accent Detection With Limited Manually Labeled Data
Ghai et al. Phone based acoustic modeling for automatic speech recognition for punjabi language
Kayte et al. Implementation of Marathi Language Speech Databases for Large Dictionary
Stöber et al. Speech synthesis using multilevel selection and concatenation of units from large speech corpora
Mullah et al. Development of an HMM-based speech synthesis system for Indian English language
Furui Selected topics from 40 years of research on speech and speaker recognition.
Zevallos et al. Automatic speech recognition of quechua language using hmm toolkit
JP2006084966A (ja) 発話音声の自動評定装置およびコンピュータプログラム
Anand et al. Malayalam Speech Recognition system and its application for visually impaired people
Pellegrini et al. Automatic word decompounding for asr in a morphologically rich language: Application to amharic
Manjunath et al. Articulatory and excitation source features for speech recognition in read, extempore and conversation modes
Yekache et al. Towards Quranic reader controlled by speech
JP2005234504A (ja) 音声認識装置及びhmm発音モデルをトレーニングする方法
Janyoi et al. An Isarn dialect HMM-based text-to-speech system
Caballero-Morales On the development of speech resources for the mixtec language
Sakti et al. Rapid development of initial Indonesian phoneme-based speech recognition using the cross-language approach
Iyanda et al. Development of a Yorúbà Textto-Speech System Using Festival
Huckvale 14 An Introduction to Phonetic Technology