JP2006098994A

JP2006098994A - 辞書を準備する方法、音響モデルのためのトレーニングデータを準備する方法、およびコンピュータプログラム

Info

Publication number: JP2006098994A
Application number: JP2004287944A
Authority: JP
Inventors: Sakti Sakriani; サクティ・サクリアニ; Satoru Nakamura; 哲中村
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2004-09-30
Filing date: 2004-09-30
Publication date: 2006-04-13

Abstract

【課題】発話をその構成要素である単語に効率的かつ正確にセグメント化する方法を提供する。
【解決手段】インドネシア語の音響モデルのためのトレーニングデータセットを準備するのに用いられる辞書３２を準備する方法は、インドネシア語の音韻と英語の音韻とのマッピングデータ５４を準備するステップと、インドネシア語の単語とその単語に関連するインドネシア語の音韻とを各々が含む複数のエントリを含む辞書５６を準備するステップと、辞書の各エントリについてインドネシア語の音韻をそれぞれの音韻がマッピングされている英語の音韻と置きかえるステップ５８とを含む。
【選択図】図２

Description

この発明は音声認識処理に関し、特に、音響モデルをトレーニングするツールが十分に開発されていない言語の音響モデルのトレーニングに関する。

インドネシアは世界で４番目に人口の多い国であり、約二億一千万人が住んでいる。感音難聴が大きな問題となっており、人口のほぼ４．８５％、約１０００万の症例がある。大都市での近代的な生活様式のために、強固な共同体による暮らしが、個人主義的な暮らしに変化しつつある。電話でのコミュニケーションも重要になっている。しかし、今日インドネシアでは、障害を持つ人を支援する設備は稀である。従って、このような技術を提供することができればそれはすばらしい出発点となる。

長期的な目的は、インドネシアにおける、聞くことおよび話すことに障害のある人々のために通信システムのインフラストラクチャを確立することであり、これによって、こういった人々が電話で他者と通信する機会を与えようとする。

この目的のために、現在インドネシアではいくつかの音声関連プロジェクトが進められている。これらのプロジェクトで主な構成要素となるのは、音声認識とテキスト・ツー・スピーチ（Ｔｅｘｔ−Ｔｏ−Ｓｐｅｅｃｈ：ＴＴＳ）合成である。インドネシア語の音声コーパスも必須である。これらの技術は、障害のある人々が電話で他者と通信することを支援するであろう。
ラビナー、ローレンス他、『音声認識の基礎』プレンティスホール、ニュージャージー、ＵＳＡ、１９９３．（Rabiner, Lawrence, et al., "Fundamentals of Speech Recognition," Prentice Hall, New Jersey, USA, 1993.）

音声認識システムでは、ラベルに従ってセグメント化された発話が、音声モデルをトレーニングする出発点として通常用いられる。ほとんどの場合、自動セグメント化が用いられるが、これは効率的で時間がかからないからである。これは基本的には所与の音声表記に対する強制的なアライメントで生成される。

この場合、インドネシア語の音声認識装置があれば非常に役に立つ。しかし、現在そのような認識装置はまだ利用できない。非特許文献１は発話を均一にセグメント化すること、いわゆるフラット初期モデルを提案している。

図６は、フラット初期モデルが発話をどのようにセグメント化するかを概略的に示す。ここで、各文の始めと終わりに無音（例えば、無音４１０および４１２）があるが、文中ではどの単語の前にも後にも無音はないものと仮定する。この仮定に基づき、トレーニングセットは発話にセグメント化され、各発話は均等にＮ個の単語（単語ｗ_１，ｗ_２，ｗ_３，…，ｗ_Ｎ）に分割される。各文中の単語の数Ｎは音声表記に基づいて決定される。

しかし、フラット初期モデルでトレーニングされた音響モデルは、不正確であることがわかっている。結果として得られる音声認識の精度も高くはない。

従って、この発明の目的の一つは、発話をその構成要素である単語に効率的かつ正確にセグメント化する方法と、セグメント化の過程で利用される辞書を提供することのできる方法とを提供することである。

この発明の一局面に従えば、第１の言語の音響モデルのためのトレーニングデータセットを準備するのに用いられる辞書を準備する方法は、第１の言語の音韻と、第１の言語と異なる第２の言語の音韻とのマッピングを準備するステップと、第１の言語の単語と、その単語に関連する第１の言語の音韻とを各々が含む、複数のエントリを含む辞書を準備するステップと、辞書内のエントリの各々の第１の言語の音韻を、それぞれの音韻がマッピングされる第２の言語の音韻と置換するステップとを含む。

このようにして準備された辞書は、第１の言語の単語と、関連する第２の言語の音韻とを各々が含む、複数のエントリを含む。第１の言語の音声認識装置が利用できない場合、この辞書を利用して第２の言語の音声認識装置を用いることができる。

この発明の別の局面に従えば、第１の言語の音響モデルをトレーニングする方法は、第１の言語の単語と、第１の言語と異なる第２の言語の関連する音韻とを各々が含む、複数のエントリを含む辞書を準備するステップと、第１の言語の、関連の音声表記を備えた音声データの発話コーパスを準備するステップと、辞書を用いて、発話コーパスの発話をセグメント化するステップと、セグメント化するステップでセグメント化された発話をトレーニングデータとして用いて、第１の言語の音響モデルをトレーニングするステップとを含む。

辞書は、第１の言語の単語と、関連する第２の言語の音韻とを各々が含む、複数のエントリを含む。第１の言語の発話は、辞書を利用して、第２の言語のためのセグメント化ツールでセグメント化することができる。こうして、正確なセグメント化を必要とする音響モデルのためのトレーニングデータを、第１の言語の適当なセグメント化ツールがない場合でも、準備することができる。

好ましくは、辞書を準備するステップは、第１の言語の音韻と、第２の言語の音韻とのマッピングを準備するステップと、第１の言語の単語と、その単語に関連する第１の言語の音韻とを各々が含む、複数のエントリを含む辞書を準備するステップと、辞書内のエントリの各々の第１の言語の音韻を、それぞれの音韻がマッピングされる第２の言語の音韻と置換するステップとを含む。

この発明のさらに別の局面は、コンピュータ上で実行されると、上述の局面のいずれかに記載のステップの全てをコンピュータに実行させる、コンピュータプログラムに関する。

−構造−
この発明の実施例の一つは、インドネシア語の音韻を英語の音韻と対応付けるマッピングを利用する。このようなマッピングが利用できれば、別の言語の既存の音声認識装置、例えば英語の音声認識装置を用いて、強制的なアライメント法を実行することが可能である。利用可能な英語の音声認識装置がフォン（単音）ベースであるため、この実施例では、インドネシア語の単語と英語の音韻とのマッピング技術を採用する必要がある。このため、インドネシア語の単語の発音を関連の英語の音韻で記述する発音辞書が必要である。

インドネシア語の文字と音韻記号とのマッピングは基本的には一対一である。従って、インドネシア語と英語との類似の発音を見出すことにより、インドネシア語の単語と英語の音韻記号との間に一対一の簡潔なマッピングを得ることができる。

図１はこの発明の一実施例に従ったインドネシア語音声認識システム２０の構成を示す図である。この実施例のインドネシア語音声認識システム２０は、音響モデル３８のトレーニングで用いられるインドネシア語コーパス３４において、発話をセグメント化するのに英語の音韻を備えたインドネシア語辞書３２を用いることを特徴とする。

図１を参照して、実施例のインドネシア語音声認識システム２０は、英語の音韻を備えたインドネシア語の辞書３２を生成するための辞書生成モジュール３０と、インドネシア語コーパス３４および英語の音韻を備えたインドネシア語の辞書３２を用いて音響モデル３８をトレーニングするための音響モデルトレーニングモジュール３６と、文脈情報なしのインドネシア語言語モデル３９と、音響モデル３８および言語モデル３９を用いてインドネシア語の入力発話４０を認識し、認識された発話４４をインドネシア語のテキストフォーマットで出力するためのインドネシア語認識装置４２とを含む。

図２を参照して、辞書生成モジュール３０は、ユーザがインドネシア語の音韻と英語の音韻とのマッピングデータを手動で入力するキーボード５０と、キーボード５０から入力されたデータを予め定められたフォーマットに従ってフォーマット化することによって、コンピュータで読取可能なマッピングデータを生成するためのマッピングデータ生成モジュール５２と、マッピングデータ生成モジュール５２によって生成された、インドネシア語の音韻と英語の音韻との音韻マッピング５４を記憶するための記憶装置とを含む。

辞書生成モジュール３０はさらに、インドネシア語の音韻を備えたインドネシア語の辞書５６を記憶するための記憶装置と、インドネシア語の音韻を備えたインドネシア語の辞書５６内のインドネシア語の音韻を、音韻マッピング５４を利用して関連の英語の音韻に置換え、英語の音韻を備えたインドネシア語辞書３２を出力するための音韻マッピングモジュール５８とを含む。

図３は音響モデルトレーニングモジュール３６を示すブロック図である。図３を参照して、音響モデルトレーニングモジュール３６は、インドネシア語コーパス３４内の発話を一つずつ読み、インドネシア語コーパス３４中の全てのデータが読出されたときに英語セグメント化モジュール７２に完了信号８２を出力するデータ読出モジュール７０と、データ読出モジュール７０によって読出された文の各々を、英語の音韻を備えたインドネシア語辞書３２を用いてセグメント化し、次のデータを読出すべきことを示す次信号８０をデータ読出モジュール７０に出力する、英語セグメント化モジュール７２とを含む。

英語セグメント化モジュール７２は、英語の音声認識装置で用いられるものと同じである。英語セグメント化モジュール７２が発話のセグメント化を終了するたびに、英語セグメント化モジュール７２は次信号８０をハイレベルとし、これによって、データ読出モジュール７０が次のデータを読出す。英語セグメント化モジュール７２が完了信号８２を受取って発話のセグメント化を終了すると、英語セグメント化モジュール７２はセグメント化完了信号８４を出力する。

音響モデルトレーニングモジュール３６はさらに、英語セグメント化モジュール７２によって単語にセグメント化されたインドネシア語の発話を記憶するための記憶装置７６と、セグメント化完了信号８４に応答して、記憶装置７６に記憶された、単語にセグメント化されたインドネシア語の発話（音声データ）をトレーニングデータセットとして用いて、音響モデル３８をトレーニングするためのトレーニングモジュール７８とを含む。

音響モデル３８のトレーニングが終了すると、インドネシア語認識装置４２によるインドネシア語の入力発話に対する認識を行なうことができる。

−動作−
この実施例のインドネシア語音声認識システム２０は以下のように動作する。図１および図３に示されたインドネシア語コーパス３４、図１に示されたインドネシア語音声認識装置４２、図２に示されたインドネシア語の音韻を備えたインドネシア語辞書５６、図３に示された英語セグメント化モジュール７２、およびトレーニングモジュール７８は全て利用可能であると仮定する。

図２を参照して、ユーザはキーボード５０を介してインドネシア語の音韻と英語の音韻とのマッピングデータを入力する。マッピングデータ生成モジュール５２は入力データを受け、マッピングデータを予め定められたフォーマットにフォーマット化し、インドネシア語の音韻と英語の音韻との音韻マッピングを生成して、このマッピングデータを音韻マッピング５４として記憶装置に記憶する。

次に、音韻マッピングモジュール５８はインドネシア語の音韻を備えたインドネシア語の辞書５６内のインドネシア語の各エントリの音韻を、インドネシア語の音韻がマッピングされている英語の音韻に音韻マッピング５４に従って置換える。インドネシア語の辞書５６のエントリに英語の音韻が付されたものは、英語の音韻を備えたインドネシア語の辞書３２として、記憶装置に記憶される。

図３を参照して、音響モデル３８のトレーニング開始時には、データ読出モジュール７０は音声データとその音声表記とを含む初期発話を読出し、データを英語セグメント化モジュール７２に与える。英語セグメント化モジュール７２は英語の音韻を備えたインドネシア語の辞書３２を用いて、この入力発話をセグメント化する。英語セグメント化モジュール７２の出力は、時間情報が添付された、セグメント化されたインドネシア語発話の音声データと、英語の音韻を備えたインドネシア語の辞書３２から検索されたインドネシア語の単語とを含む。セグメント化されたインドネシア語音声データは、単語にセグメント化されたインドネシア語発話７６に記憶される。

発話のセグメント化が完了すると、英語セグメント化モジュール７２はデータ読出モジュール７０に次信号８０を与える。これに応じて、データ読出モジュール７０はインドネシア語コーパス３４から次の発話データを読出し、このデータを英語セグメント化モジュール７２に与える。

こうして、インドネシア語コーパス３４中の各発話がデータ読出モジュール７０によって読出され、英語セグメント化モジュール７２によってインドネシア語の単語にセグメント化され、単語にセグメント化されたインドネシア語発話７６に記憶される。全ての発話が読出されると、データ読出モジュール７０は英語セグメント化モジュール７２に完了信号８２を与える。

英語セグメント化モジュール７２がセグメント化を終了して結果を出力し、データ読出モジュール７０から完了信号が与えられると、英語セグメント化モジュール７２はセグメント化完了信号８４をトレーニングモジュール７８に与える。この信号は、トレーニングモジュール７８に、インドネシア語コーパス３４内の全ての発話が単語にセグメント化され、単語にセグメント化されたインドネシア語発話７６に記憶されたことを示す。

これに応じて、トレーニングモジュール７８は単語にセグメント化されたインドネシア語発話７６をトレーニングデータとして用いて、音響モデル３８のトレーニングを開始する。音響モデル３８の出発点として、ブートストラップＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ：隠れマルコフモデル）が準備される。

音響モデル３８のトレーニングが完了すると、インドネシア語音声認識装置４２は入力発話４０の認識を行なうことができる。図１に示した実施例では、インドネシア語音声認識装置４２は音響モデル３８と言語モデル３９とを用いる。言語モデル３９は文脈無しの言語モデルである。なぜなら、言語モデルをトレーニングするためのテキストコーパスがまだ利用できないからである。もし信頼できるインドネシア語の言語モデルが利用可能であれば、このシステムは音声認識においてそのモデルを採用すべきであろう。

−実験結果−
この出願の出願人が開発した音声認識エンジンを用いて実験を行なった。実験用に設計されたインドネシア語音声コーパスは以下の２組を含む。

１．ディジットタスク（Ｃ１）
これは公式のＡＵＲＯＲＡ２ディジットタスクを適応させたもので、以下の数字からなる単語間での接続したディジットタスクからなる（カッコ内はインドネシア語の音声表記である）。１（ｓａｔｕ），２（ｄｕａ），３（ｔｉｇａ），４（ｅｍｐａｔ），５（ｌｉｍａ），６（ｅｎａｍ），７（ｔｕｊｕｈ），８（ｄｅｌａｐａｎ），９（ｓｅｍｂｉｌａｎ），０（ｎｏｌおよびｋｏｓｏｎｇ）。

２．簡単な対話のタスク（Ｃ２）
これは、救急１１９、電話案内１０８、およびチケット予約等の、障害のあるユーザが必要とする電話での対話の幾つかから抽出した語彙に基づくものである。対話のシナリオの一例を表１に示す。救急１１９からの音声メッセージは自動音声認識装置（ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ：ＡＳＲ）に処理され、障害のあるユーザからのテキストメッセージはＴＴＳによって処理される。従って、音声コーパスに収集されるのは、救急部門の担当者によって発話された文のみである。

Ｃ１とＣ２の設定はともに、全単語隠れマルコフモデルに基づく公式のＡＵＲＯＲＡ２タスク評価に忠実に従っている。フロントエンドのパラメータは一定に保たれた。すなわち、サンプリング周波数は８ｋＨｚ、フレーム長は２５ｍｓ、フレームシフトは１０ｍｓ、特徴量は１２次のメル周波数ケプストラム計数（ＭＦＣＣ）とΔとΔΔと対数指数とを含む３９次元である。

音響モデルには、単語ごとに１６状態、１状態ごとに１０混合ガウス分布が用いられた。人工のノイズは付加されなかった。上述の通り、文脈なしの言語モデルが用いられた。従って、結果は音響モデルの性能に大いに依存するはずである。

Ｃ１では、フラットなセグメント化の実験が行なわれた。クリーンな音声と電話の音声が別個にトレーニングされテストされた。テストセットの発話は４個のサブセットに均等に分割された。各サブセットは、公式のＡＵＲＯＲＡ２テストセットＡ（クリーン条件）のテストサブセットに対応する。ここでは人工のノイズを用いていないので、４個のテストサブセットを単純にテスト１、テスト２、テスト３およびテスト４と称する。結果を表２にまとめる。この簡単なタスクでは、平均で約９８％の性能を得たのみであった。“Ｎｏｌ”および“Ｅｎａｍ”という単語間では、しばしば“Ｎｏｌ”を“ｅＮｏｌ”と発音するジャワ語話者の強い方言のアクセントのため、誤った置換がいくつか生じた。

表２において、「クリーン」はノイズのない音声データを示し、「電話」は音声データが電話を介して受け取られたことを示す。「マルチ」はセグメント化されたクリーンな音声データとセグメント化された電話の音声データとが組合されて、単一の大規模なマルチ条件の音響モデルがトレーニングされたことを示す。

Ｃ２では、Ｃ１と同じことを行なった。フラットな初期セグメント化の性能は非常に悪かった。特にクリーンな条件下では、単語精度はわずか５２．０６％しか得られなかった（表３を参照）。これはおそらく、対話タスク（Ｃ２）では語長がさまざまに変化するからであろう。例えば、ある文には“ｋｅ”（〜へ）という単語があるが、これは単音節のみからなり、一方“ｒｅｎｃａｎａｎｙａ”（彼の／彼女の考え）という単語もあり、こちらは４音節からなる。

処理を繰返しても、性能は繰返す度に０．３％から０．５％程度上昇するのみであった。

これに対して、発話のセグメント化に英語の音声認識装置を用いると、結果はめざましく向上した。

セグメント化に用いた英語の音声認識装置は電話ベースで、ウォールストリートジャーナル（登録商標）のコーパスを用い、１６ｋＨｚのサンプリング周波数、２０ｍｓのフレーム長、１０ｍｓのフレームシフトでトレーニングしたものである。２５次元（１２次のＭＦＣＣ、ΔＭＦＣＣおよび対数指数）を特徴パラメータとして用いた。各音韻について初期モデルとして３状態を用いた。その後、最小記述長（ｍｉｎｉｍｕｍｄｅｓｃｒｉｐｔｉｏｎｌｅｎｇｔｈ：ＭＤＬ）基準に基づく連続状態分割（ｓｕｃｃｅｓｓｉｖｅｓｔａｔｅｓｐｌｉｔｔｉｎｇ：ＳＳＳ）アルゴリズムによってトレーニングを行ない、最適数の状態を得た。

ミスマッチを最小にするため、これを用いて元の１６ｋＨｚのクリーンな音声発話をセグメント化した。この時間的なアライメントをした結果を用いて、前回と同様のトレーニングを行なった。

全てのインドネシア語の発話を英語の認識装置によって音声表記に変換することはできなかったが、ここに含まれるアライメント情報はフラット開始方法にくらべ依然として良好であった。これは絶対的な性能が単語精度５２．０６％から９４．７４％まで、４０％も改善したことで証明される。置換のほとんどは類似の単語間で起こった。類似単語の現象は、膠着規則によって生じた。例えば、“ｂａｎｔｕ”（助ける）という単語と、“ｄｉｂａｎｔｕ”（助けられた）という単語、または“ｔｉｋｅｔ”（チケット）という単語と“ｔｉｋｅｔｎｙａ”（彼の／彼女のチケット）という単語である。また、語順の柔軟性のために起こる挿入もある。例えば、“Ｄｉｍａｎａａｌａｍａｔａｎｄａ？”（あなたの住所はどこですか）という文は“Ａｌａｍａｔａｎｄａｄｉｍａｎａ？”と書くこともできる。この結果、認識装置はしばしば、これを“Ｄｉｍａｎａａｌａｍａｔａｎｄａｄｉｍａｎａ？”と認識する。

ここではマルチ条件も試してみた。この場合、クリーンな条件および電話の条件でともに、Ｃ２では９１％超、Ｃ１では９７％超の良好な結果を得ることができた。

上述の通り、インドネシア語の音韻からマッピングされた英語の音韻を備えたインドネシア語の発話をトレーニングデータとして用いて、インドネシア語の音響モデルをトレーニングしたところ、単語認識精度がめざましく改善された。信頼できるインドネシア語の発話セグメント化装置またはプログラムが利用できない場合でも、英語のセグメント化装置またはプログラムを用いることで好ましいトレーニングデータを得ることができるであろう。

この発明をインドネシア語と英語とに関連して説明してきたが、この発明はこのような言語の組合せに限定されるものではない。第１の言語の音韻を第２の言語のそれにうまくマッピングすることができれば、この発明はその第１の言語と第２の言語との組合せに適用可能である。

上述の実施例は、コンピュータシステムとそのシステムで実行されるコンピュータプログラムとで実現され得る。図４はこの実施例で用いられるコンピュータシステム３３０の外観を示す図であり、図５はコンピュータシステム３３０のブロック図である。ここに示すコンピュータシステム３３０は一例であって他の様々な構成が利用可能であることは言うまでもない。

図４を参照して、コンピュータシステム３３０はコンピュータ３４０、および全てコンピュータ３４０に接続されたモニタ３４２と、キーボード３４６と、マウス３４８とを含む。さらに、コンピュータ３４０には、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）ドライブ３５０とＦＤ（ＦｌｅｘｉｂｌｅＤｉｓｋ）ドライブ３５２とが設けられている。

図５を参照して、コンピュータシステム３３０はさらに、コンピュータ３４０に接続されたプリンタ３４４を含み、これは図４には示していない。コンピュータ３４０はさらに、ＣＤ−ＲＯＭドライブ３５０およびＦＤドライブ３５２に接続されたバス３６６と、全てこのバス３６６に接続された、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）３５６と、コンピュータのブートアッププログラム等を記憶するＲＯＭ（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）３５８と、ＣＰＵ３５６の使用するワークエリアを提供するとともにＣＰＵ３５６によって実行されるプログラムのための記憶領域を提供するＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）３６０と、後述する音声データベースを記憶するためのハードディスク３５４とを含む。

上述の実施例のシステムを実現するソフトウェアは、ＣＤ−ＲＯＭ３６２等の記録媒体上に記録されて分配され、ＣＤ−ＲＯＭドライブ３５０等の読出装置を介してコンピュータ３４０に提供され、ハードディスク３５４に記憶される。ＣＰＵ３５６がプログラムを実行するとき、プログラムはハードディスク３５４から読出され、ＲＡＭ３６０に記憶される。図示しないプログラムカウンタに指定されたアドレスから命令が読出され、その命令が実行される。ＣＰＵ３５６はハードディスク３５４から処理の対象となるデータを読出し、処理の結果をまたハードディスク３５４に記憶する。

コンピュータシステム３３０の一般的な動作は周知であるので、詳細な説明は省略する。

ソフトウェア配布の方法に関し、これは必ずしも記録媒体に固定されなくてもよい。例えば、ソフトウェアはネットワークに接続された別のコンピュータから配布されてもよい。ソフトウェアの一部がハードディスク３５４に記憶され、ソフトウェアの残りの部分はネットワークを介してハードディスク３５４に取りこみ実行の際に統合してもよい。

通常、現代のコンピュータはコンピュータのオペレーティングシステム（ＯＳ）が提供する一般的な機能を利用し、所望の目的に従って制御された方法でその機能を実行する。従って、ＯＳまたはサードパーティによって提供される一般的な機能を含まないが一般的な機能の実行順序の組合せのみを指定するプログラムもまた、全体として所望の目的を達成する制御構造を有する限り、この発明の範囲内であることは明らかである。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。

この発明の一実施例によるインドネシア語音声認識システム２０のブロック図である。辞書生成モジュール３０の詳細なブロック図である。音響モデルトレーニングモジュール３６の詳細なブロック図である。コンピュータシステム３３０の一般的な外観図である。コンピュータシステム３３０のブロック図である。フラットな初期セグメント化がどのように働くかを概略的に示す図である。

符号の説明

２０インドネシア語音声認識システム
３０辞書生成モジュール
３２英語の音韻を備えたインドネシア語辞書
３４インドネシア語コーパス
３６音響モデルトレーニングモジュール
３８音響モデル
３９インドネシア語言語モデル
４０入力発話
４２インドネシア語認識装置
５２マッピングデータ生成モジュール
５４音韻マッピング
５６インドネシア語の音韻を備えたインドネシア語辞書
５８音韻マッピングモジュール
７０データ読出モジュール
７２英語セグメント化モジュール
７６単語にセグメント化されたインドネシア語発話
７８トレーニングモジュール

Claims

第１の言語の音響モデルのためのトレーニングデータセットを準備するのに用いられる辞書を準備する方法であって、
前記第１の言語の音韻と、前記第１の言語と異なる第２の言語の音韻とのマッピングを準備するステップと、
前記第１の言語の単語と、その単語に関連する前記第１の言語の音韻とを各々が含む、複数のエントリを含む辞書を準備するステップと、
前記辞書内のエントリの各々の前記第１の言語の音韻を、それぞれの音韻がマッピングされる前記第２の言語の音韻と置換するステップとを含む、辞書を準備する方法。
第１の言語の音響モデルをトレーニングする方法であって、
前記第１の言語の単語と、前記第１の言語と異なる第２の言語の関連する音韻とを各々が含む、複数のエントリを含む辞書を準備するステップと、
前記第１の言語の、関連する音声表記を備えた音声データの発話コーパスを準備するステップと、
前記辞書を用いて、前記発話コーパスの発話をセグメント化するステップと、
前記セグメント化するステップでセグメント化された発話をトレーニングデータとして用いて、前記第１の言語の音響モデルをトレーニングするステップとを含む、音響モデルをトレーニングする方法。
前記辞書を準備するステップが、
前記第１の言語の音韻と、前記第２の言語の音韻とのマッピングを準備するステップと、
前記第１の言語の単語と、その単語に関連する前記第１の言語の音韻とを各々が含む、複数のエントリを含む辞書を準備するステップと、
前記辞書内のエントリの各々の前記第１の言語の音韻を、それぞれの音韻がマッピングされる前記第２の言語の音韻と置換するステップとを含む、請求項２に記載の音響モデルをトレーニングする方法。
コンピュータ上で実行されると、請求項１〜請求項３のいずれかに記載のステップの全てをコンピュータに実行させる、コンピュータプログラム。