JP2006098994A - 辞書を準備する方法、音響モデルのためのトレーニングデータを準備する方法、およびコンピュータプログラム - Google Patents

辞書を準備する方法、音響モデルのためのトレーニングデータを準備する方法、およびコンピュータプログラム Download PDF

Info

Publication number
JP2006098994A
JP2006098994A JP2004287944A JP2004287944A JP2006098994A JP 2006098994 A JP2006098994 A JP 2006098994A JP 2004287944 A JP2004287944 A JP 2004287944A JP 2004287944 A JP2004287944 A JP 2004287944A JP 2006098994 A JP2006098994 A JP 2006098994A
Authority
JP
Japan
Prior art keywords
language
indonesian
phoneme
dictionary
preparing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004287944A
Other languages
English (en)
Inventor
Sakti Sakriani
サクティ・サクリアニ
Satoru Nakamura
哲 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2004287944A priority Critical patent/JP2006098994A/ja
Publication of JP2006098994A publication Critical patent/JP2006098994A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】発話をその構成要素である単語に効率的かつ正確にセグメント化する方法を提供する。
【解決手段】 インドネシア語の音響モデルのためのトレーニングデータセットを準備するのに用いられる辞書32を準備する方法は、インドネシア語の音韻と英語の音韻とのマッピングデータ54を準備するステップと、インドネシア語の単語とその単語に関連するインドネシア語の音韻とを各々が含む複数のエントリを含む辞書56を準備するステップと、辞書の各エントリについてインドネシア語の音韻をそれぞれの音韻がマッピングされている英語の音韻と置きかえるステップ58とを含む。
【選択図】 図2

Description

この発明は音声認識処理に関し、特に、音響モデルをトレーニングするツールが十分に開発されていない言語の音響モデルのトレーニングに関する。
インドネシアは世界で4番目に人口の多い国であり、約二億一千万人が住んでいる。感音難聴が大きな問題となっており、人口のほぼ4.85%、約1000万の症例がある。大都市での近代的な生活様式のために、強固な共同体による暮らしが、個人主義的な暮らしに変化しつつある。電話でのコミュニケーションも重要になっている。しかし、今日インドネシアでは、障害を持つ人を支援する設備は稀である。従って、このような技術を提供することができればそれはすばらしい出発点となる。
長期的な目的は、インドネシアにおける、聞くことおよび話すことに障害のある人々のために通信システムのインフラストラクチャを確立することであり、これによって、こういった人々が電話で他者と通信する機会を与えようとする。
この目的のために、現在インドネシアではいくつかの音声関連プロジェクトが進められている。これらのプロジェクトで主な構成要素となるのは、音声認識とテキスト・ツー・スピーチ(Text−To−Speech:TTS)合成である。インドネシア語の音声コーパスも必須である。これらの技術は、障害のある人々が電話で他者と通信することを支援するであろう。
ラビナー、ローレンス他、『音声認識の基礎』プレンティスホール、ニュージャージー、USA、1993.(Rabiner, Lawrence, et al., "Fundamentals of Speech Recognition," Prentice Hall, New Jersey, USA, 1993.)
音声認識システムでは、ラベルに従ってセグメント化された発話が、音声モデルをトレーニングする出発点として通常用いられる。ほとんどの場合、自動セグメント化が用いられるが、これは効率的で時間がかからないからである。これは基本的には所与の音声表記に対する強制的なアライメントで生成される。
この場合、インドネシア語の音声認識装置があれば非常に役に立つ。しかし、現在そのような認識装置はまだ利用できない。非特許文献1は発話を均一にセグメント化すること、いわゆるフラット初期モデルを提案している。
図6は、フラット初期モデルが発話をどのようにセグメント化するかを概略的に示す。ここで、各文の始めと終わりに無音(例えば、無音410および412)があるが、文中ではどの単語の前にも後にも無音はないものと仮定する。この仮定に基づき、トレーニングセットは発話にセグメント化され、各発話は均等にN個の単語(単語w,w,w,…,w)に分割される。各文中の単語の数Nは音声表記に基づいて決定される。
しかし、フラット初期モデルでトレーニングされた音響モデルは、不正確であることがわかっている。結果として得られる音声認識の精度も高くはない。
従って、この発明の目的の一つは、発話をその構成要素である単語に効率的かつ正確にセグメント化する方法と、セグメント化の過程で利用される辞書を提供することのできる方法とを提供することである。
この発明の一局面に従えば、第1の言語の音響モデルのためのトレーニングデータセットを準備するのに用いられる辞書を準備する方法は、第1の言語の音韻と、第1の言語と異なる第2の言語の音韻とのマッピングを準備するステップと、第1の言語の単語と、その単語に関連する第1の言語の音韻とを各々が含む、複数のエントリを含む辞書を準備するステップと、辞書内のエントリの各々の第1の言語の音韻を、それぞれの音韻がマッピングされる第2の言語の音韻と置換するステップとを含む。
このようにして準備された辞書は、第1の言語の単語と、関連する第2の言語の音韻とを各々が含む、複数のエントリを含む。第1の言語の音声認識装置が利用できない場合、この辞書を利用して第2の言語の音声認識装置を用いることができる。
この発明の別の局面に従えば、第1の言語の音響モデルをトレーニングする方法は、第1の言語の単語と、第1の言語と異なる第2の言語の関連する音韻とを各々が含む、複数のエントリを含む辞書を準備するステップと、第1の言語の、関連の音声表記を備えた音声データの発話コーパスを準備するステップと、辞書を用いて、発話コーパスの発話をセグメント化するステップと、セグメント化するステップでセグメント化された発話をトレーニングデータとして用いて、第1の言語の音響モデルをトレーニングするステップとを含む。
辞書は、第1の言語の単語と、関連する第2の言語の音韻とを各々が含む、複数のエントリを含む。第1の言語の発話は、辞書を利用して、第2の言語のためのセグメント化ツールでセグメント化することができる。こうして、正確なセグメント化を必要とする音響モデルのためのトレーニングデータを、第1の言語の適当なセグメント化ツールがない場合でも、準備することができる。
好ましくは、辞書を準備するステップは、第1の言語の音韻と、第2の言語の音韻とのマッピングを準備するステップと、第1の言語の単語と、その単語に関連する第1の言語の音韻とを各々が含む、複数のエントリを含む辞書を準備するステップと、辞書内のエントリの各々の第1の言語の音韻を、それぞれの音韻がマッピングされる第2の言語の音韻と置換するステップとを含む。
この発明のさらに別の局面は、コンピュータ上で実行されると、上述の局面のいずれかに記載のステップの全てをコンピュータに実行させる、コンピュータプログラムに関する。
−構造−
この発明の実施例の一つは、インドネシア語の音韻を英語の音韻と対応付けるマッピングを利用する。このようなマッピングが利用できれば、別の言語の既存の音声認識装置、例えば英語の音声認識装置を用いて、強制的なアライメント法を実行することが可能である。利用可能な英語の音声認識装置がフォン(単音)ベースであるため、この実施例では、インドネシア語の単語と英語の音韻とのマッピング技術を採用する必要がある。このため、インドネシア語の単語の発音を関連の英語の音韻で記述する発音辞書が必要である。
インドネシア語の文字と音韻記号とのマッピングは基本的には一対一である。従って、インドネシア語と英語との類似の発音を見出すことにより、インドネシア語の単語と英語の音韻記号との間に一対一の簡潔なマッピングを得ることができる。
図1はこの発明の一実施例に従ったインドネシア語音声認識システム20の構成を示す図である。この実施例のインドネシア語音声認識システム20は、音響モデル38のトレーニングで用いられるインドネシア語コーパス34において、発話をセグメント化するのに英語の音韻を備えたインドネシア語辞書32を用いることを特徴とする。
図1を参照して、実施例のインドネシア語音声認識システム20は、英語の音韻を備えたインドネシア語の辞書32を生成するための辞書生成モジュール30と、インドネシア語コーパス34および英語の音韻を備えたインドネシア語の辞書32を用いて音響モデル38をトレーニングするための音響モデルトレーニングモジュール36と、文脈情報なしのインドネシア語言語モデル39と、音響モデル38および言語モデル39を用いてインドネシア語の入力発話40を認識し、認識された発話44をインドネシア語のテキストフォーマットで出力するためのインドネシア語認識装置42とを含む。
図2を参照して、辞書生成モジュール30は、ユーザがインドネシア語の音韻と英語の音韻とのマッピングデータを手動で入力するキーボード50と、キーボード50から入力されたデータを予め定められたフォーマットに従ってフォーマット化することによって、コンピュータで読取可能なマッピングデータを生成するためのマッピングデータ生成モジュール52と、マッピングデータ生成モジュール52によって生成された、インドネシア語の音韻と英語の音韻との音韻マッピング54を記憶するための記憶装置とを含む。
辞書生成モジュール30はさらに、インドネシア語の音韻を備えたインドネシア語の辞書56を記憶するための記憶装置と、インドネシア語の音韻を備えたインドネシア語の辞書56内のインドネシア語の音韻を、音韻マッピング54を利用して関連の英語の音韻に置換え、英語の音韻を備えたインドネシア語辞書32を出力するための音韻マッピングモジュール58とを含む。
図3は音響モデルトレーニングモジュール36を示すブロック図である。図3を参照して、音響モデルトレーニングモジュール36は、インドネシア語コーパス34内の発話を一つずつ読み、インドネシア語コーパス34中の全てのデータが読出されたときに英語セグメント化モジュール72に完了信号82を出力するデータ読出モジュール70と、データ読出モジュール70によって読出された文の各々を、英語の音韻を備えたインドネシア語辞書32を用いてセグメント化し、次のデータを読出すべきことを示す次信号80をデータ読出モジュール70に出力する、英語セグメント化モジュール72とを含む。
英語セグメント化モジュール72は、英語の音声認識装置で用いられるものと同じである。英語セグメント化モジュール72が発話のセグメント化を終了するたびに、英語セグメント化モジュール72は次信号80をハイレベルとし、これによって、データ読出モジュール70が次のデータを読出す。英語セグメント化モジュール72が完了信号82を受取って発話のセグメント化を終了すると、英語セグメント化モジュール72はセグメント化完了信号84を出力する。
音響モデルトレーニングモジュール36はさらに、英語セグメント化モジュール72によって単語にセグメント化されたインドネシア語の発話を記憶するための記憶装置76と、セグメント化完了信号84に応答して、記憶装置76に記憶された、単語にセグメント化されたインドネシア語の発話(音声データ)をトレーニングデータセットとして用いて、音響モデル38をトレーニングするためのトレーニングモジュール78とを含む。
音響モデル38のトレーニングが終了すると、インドネシア語認識装置42によるインドネシア語の入力発話に対する認識を行なうことができる。
−動作−
この実施例のインドネシア語音声認識システム20は以下のように動作する。図1および図3に示されたインドネシア語コーパス34、図1に示されたインドネシア語音声認識装置42、図2に示されたインドネシア語の音韻を備えたインドネシア語辞書56、図3に示された英語セグメント化モジュール72、およびトレーニングモジュール78は全て利用可能であると仮定する。
図2を参照して、ユーザはキーボード50を介してインドネシア語の音韻と英語の音韻とのマッピングデータを入力する。マッピングデータ生成モジュール52は入力データを受け、マッピングデータを予め定められたフォーマットにフォーマット化し、インドネシア語の音韻と英語の音韻との音韻マッピングを生成して、このマッピングデータを音韻マッピング54として記憶装置に記憶する。
次に、音韻マッピングモジュール58はインドネシア語の音韻を備えたインドネシア語の辞書56内のインドネシア語の各エントリの音韻を、インドネシア語の音韻がマッピングされている英語の音韻に音韻マッピング54に従って置換える。インドネシア語の辞書56のエントリに英語の音韻が付されたものは、英語の音韻を備えたインドネシア語の辞書32として、記憶装置に記憶される。
図3を参照して、音響モデル38のトレーニング開始時には、データ読出モジュール70は音声データとその音声表記とを含む初期発話を読出し、データを英語セグメント化モジュール72に与える。英語セグメント化モジュール72は英語の音韻を備えたインドネシア語の辞書32を用いて、この入力発話をセグメント化する。英語セグメント化モジュール72の出力は、時間情報が添付された、セグメント化されたインドネシア語発話の音声データと、英語の音韻を備えたインドネシア語の辞書32から検索されたインドネシア語の単語とを含む。セグメント化されたインドネシア語音声データは、単語にセグメント化されたインドネシア語発話76に記憶される。
発話のセグメント化が完了すると、英語セグメント化モジュール72はデータ読出モジュール70に次信号80を与える。これに応じて、データ読出モジュール70はインドネシア語コーパス34から次の発話データを読出し、このデータを英語セグメント化モジュール72に与える。
こうして、インドネシア語コーパス34中の各発話がデータ読出モジュール70によって読出され、英語セグメント化モジュール72によってインドネシア語の単語にセグメント化され、単語にセグメント化されたインドネシア語発話76に記憶される。全ての発話が読出されると、データ読出モジュール70は英語セグメント化モジュール72に完了信号82を与える。
英語セグメント化モジュール72がセグメント化を終了して結果を出力し、データ読出モジュール70から完了信号が与えられると、英語セグメント化モジュール72はセグメント化完了信号84をトレーニングモジュール78に与える。この信号は、トレーニングモジュール78に、インドネシア語コーパス34内の全ての発話が単語にセグメント化され、単語にセグメント化されたインドネシア語発話76に記憶されたことを示す。
これに応じて、トレーニングモジュール78は単語にセグメント化されたインドネシア語発話76をトレーニングデータとして用いて、音響モデル38のトレーニングを開始する。音響モデル38の出発点として、ブートストラップHMM(Hidden Markov Model:隠れマルコフモデル)が準備される。
音響モデル38のトレーニングが完了すると、インドネシア語音声認識装置42は入力発話40の認識を行なうことができる。図1に示した実施例では、インドネシア語音声認識装置42は音響モデル38と言語モデル39とを用いる。言語モデル39は文脈無しの言語モデルである。なぜなら、言語モデルをトレーニングするためのテキストコーパスがまだ利用できないからである。もし信頼できるインドネシア語の言語モデルが利用可能であれば、このシステムは音声認識においてそのモデルを採用すべきであろう。
−実験結果−
この出願の出願人が開発した音声認識エンジンを用いて実験を行なった。実験用に設計されたインドネシア語音声コーパスは以下の2組を含む。
1.ディジットタスク(C1)
これは公式のAURORA2ディジットタスクを適応させたもので、以下の数字からなる単語間での接続したディジットタスクからなる(カッコ内はインドネシア語の音声表記である)。1(satu),2(dua),3(tiga),4(empat),5(lima),6(enam),7(tujuh),8(delapan),9(sembilan),0(nol および kosong)。
2.簡単な対話のタスク(C2)
これは、救急119、電話案内108、およびチケット予約等の、障害のあるユーザが必要とする電話での対話の幾つかから抽出した語彙に基づくものである。対話のシナリオの一例を表1に示す。救急119からの音声メッセージは自動音声認識装置(Automatic Speech Recognition:ASR)に処理され、障害のあるユーザからのテキストメッセージはTTSによって処理される。従って、音声コーパスに収集されるのは、救急部門の担当者によって発話された文のみである。
Figure 2006098994
C1とC2の設定はともに、全単語隠れマルコフモデルに基づく公式のAURORA2タスク評価に忠実に従っている。フロントエンドのパラメータは一定に保たれた。すなわち、サンプリング周波数は8kHz、フレーム長は25ms、フレームシフトは10ms、特徴量は12次のメル周波数ケプストラム計数(MFCC)とΔとΔΔと対数指数とを含む39次元である。
音響モデルには、単語ごとに16状態、1状態ごとに10混合ガウス分布が用いられた。人工のノイズは付加されなかった。上述の通り、文脈なしの言語モデルが用いられた。従って、結果は音響モデルの性能に大いに依存するはずである。
C1では、フラットなセグメント化の実験が行なわれた。クリーンな音声と電話の音声が別個にトレーニングされテストされた。テストセットの発話は4個のサブセットに均等に分割された。各サブセットは、公式のAURORA2テストセットA(クリーン条件)のテストサブセットに対応する。ここでは人工のノイズを用いていないので、4個のテストサブセットを単純にテスト1、テスト2、テスト3およびテスト4と称する。結果を表2にまとめる。この簡単なタスクでは、平均で約98%の性能を得たのみであった。“Nol”および“Enam”という単語間では、しばしば“Nol”を“eNol”と発音するジャワ語話者の強い方言のアクセントのため、誤った置換がいくつか生じた。
Figure 2006098994
表2において、「クリーン」はノイズのない音声データを示し、「電話」は音声データが電話を介して受け取られたことを示す。「マルチ」はセグメント化されたクリーンな音声データとセグメント化された電話の音声データとが組合されて、単一の大規模なマルチ条件の音響モデルがトレーニングされたことを示す。
C2では、C1と同じことを行なった。フラットな初期セグメント化の性能は非常に悪かった。特にクリーンな条件下では、単語精度はわずか52.06%しか得られなかった(表3を参照)。これはおそらく、対話タスク(C2)では語長がさまざまに変化するからであろう。例えば、ある文には“ke”(〜へ)という単語があるが、これは単音節のみからなり、一方“rencananya”(彼の/彼女の考え)という単語もあり、こちらは4音節からなる。
Figure 2006098994
処理を繰返しても、性能は繰返す度に0.3%から0.5%程度上昇するのみであった。
これに対して、発話のセグメント化に英語の音声認識装置を用いると、結果はめざましく向上した。
セグメント化に用いた英語の音声認識装置は電話ベースで、ウォールストリートジャーナル(登録商標)のコーパスを用い、16kHzのサンプリング周波数、20msのフレーム長、10msのフレームシフトでトレーニングしたものである。25次元(12次のMFCC、ΔMFCCおよび対数指数)を特徴パラメータとして用いた。各音韻について初期モデルとして3状態を用いた。その後、最小記述長(minimum description length:MDL)基準に基づく連続状態分割(successive state splitting:SSS)アルゴリズムによってトレーニングを行ない、最適数の状態を得た。
ミスマッチを最小にするため、これを用いて元の16kHzのクリーンな音声発話をセグメント化した。この時間的なアライメントをした結果を用いて、前回と同様のトレーニングを行なった。
全てのインドネシア語の発話を英語の認識装置によって音声表記に変換することはできなかったが、ここに含まれるアライメント情報はフラット開始方法にくらべ依然として良好であった。これは絶対的な性能が単語精度52.06%から94.74%まで、40%も改善したことで証明される。置換のほとんどは類似の単語間で起こった。類似単語の現象は、膠着規則によって生じた。例えば、“bantu”(助ける)という単語と、“dibantu”(助けられた)という単語、または“tiket”(チケット)という単語と“tiketnya”(彼の/彼女のチケット)という単語である。また、語順の柔軟性のために起こる挿入もある。例えば、“Dimana alamatanda?”(あなたの住所はどこですか)という文は“Alamat anda dimana?”と書くこともできる。この結果、認識装置はしばしば、これを“Dimana alamat anda dimana?”と認識する。
ここではマルチ条件も試してみた。この場合、クリーンな条件および電話の条件でともに、C2では91%超、C1では97%超の良好な結果を得ることができた。
上述の通り、インドネシア語の音韻からマッピングされた英語の音韻を備えたインドネシア語の発話をトレーニングデータとして用いて、インドネシア語の音響モデルをトレーニングしたところ、単語認識精度がめざましく改善された。信頼できるインドネシア語の発話セグメント化装置またはプログラムが利用できない場合でも、英語のセグメント化装置またはプログラムを用いることで好ましいトレーニングデータを得ることができるであろう。
この発明をインドネシア語と英語とに関連して説明してきたが、この発明はこのような言語の組合せに限定されるものではない。第1の言語の音韻を第2の言語のそれにうまくマッピングすることができれば、この発明はその第1の言語と第2の言語との組合せに適用可能である。
上述の実施例は、コンピュータシステムとそのシステムで実行されるコンピュータプログラムとで実現され得る。図4はこの実施例で用いられるコンピュータシステム330の外観を示す図であり、図5はコンピュータシステム330のブロック図である。ここに示すコンピュータシステム330は一例であって他の様々な構成が利用可能であることは言うまでもない。
図4を参照して、コンピュータシステム330はコンピュータ340、および全てコンピュータ340に接続されたモニタ342と、キーボード346と、マウス348とを含む。さらに、コンピュータ340には、CD−ROM(Compact Disc Read−Only Memory)ドライブ350とFD(Flexible Disk)ドライブ352とが設けられている。
図5を参照して、コンピュータシステム330はさらに、コンピュータ340に接続されたプリンタ344を含み、これは図4には示していない。コンピュータ340はさらに、CD−ROMドライブ350およびFDドライブ352に接続されたバス366と、全てこのバス366に接続された、CPU(Central Processing Unit)356と、コンピュータのブートアッププログラム等を記憶するROM(Read−Only Memory)358と、CPU356の使用するワークエリアを提供するとともにCPU356によって実行されるプログラムのための記憶領域を提供するRAM(Random Access Memory)360と、後述する音声データベースを記憶するためのハードディスク354とを含む。
上述の実施例のシステムを実現するソフトウェアは、CD−ROM362等の記録媒体上に記録されて分配され、CD−ROMドライブ350等の読出装置を介してコンピュータ340に提供され、ハードディスク354に記憶される。CPU356がプログラムを実行するとき、プログラムはハードディスク354から読出され、RAM360に記憶される。図示しないプログラムカウンタに指定されたアドレスから命令が読出され、その命令が実行される。CPU356はハードディスク354から処理の対象となるデータを読出し、処理の結果をまたハードディスク354に記憶する。
コンピュータシステム330の一般的な動作は周知であるので、詳細な説明は省略する。
ソフトウェア配布の方法に関し、これは必ずしも記録媒体に固定されなくてもよい。例えば、ソフトウェアはネットワークに接続された別のコンピュータから配布されてもよい。ソフトウェアの一部がハードディスク354に記憶され、ソフトウェアの残りの部分はネットワークを介してハードディスク354に取りこみ実行の際に統合してもよい。
通常、現代のコンピュータはコンピュータのオペレーティングシステム(OS)が提供する一般的な機能を利用し、所望の目的に従って制御された方法でその機能を実行する。従って、OSまたはサードパーティによって提供される一般的な機能を含まないが一般的な機能の実行順序の組合せのみを指定するプログラムもまた、全体として所望の目的を達成する制御構造を有する限り、この発明の範囲内であることは明らかである。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。
この発明の一実施例によるインドネシア語音声認識システム20のブロック図である。 辞書生成モジュール30の詳細なブロック図である。 音響モデルトレーニングモジュール36の詳細なブロック図である。 コンピュータシステム330の一般的な外観図である。 コンピュータシステム330のブロック図である。 フラットな初期セグメント化がどのように働くかを概略的に示す図である。
符号の説明
20 インドネシア語音声認識システム
30 辞書生成モジュール
32 英語の音韻を備えたインドネシア語辞書
34 インドネシア語コーパス
36 音響モデルトレーニングモジュール
38 音響モデル
39 インドネシア語言語モデル
40 入力発話
42 インドネシア語認識装置
52 マッピングデータ生成モジュール
54 音韻マッピング
56 インドネシア語の音韻を備えたインドネシア語辞書
58 音韻マッピングモジュール
70 データ読出モジュール
72 英語セグメント化モジュール
76 単語にセグメント化されたインドネシア語発話
78 トレーニングモジュール

Claims (4)

  1. 第1の言語の音響モデルのためのトレーニングデータセットを準備するのに用いられる辞書を準備する方法であって、
    前記第1の言語の音韻と、前記第1の言語と異なる第2の言語の音韻とのマッピングを準備するステップと、
    前記第1の言語の単語と、その単語に関連する前記第1の言語の音韻とを各々が含む、複数のエントリを含む辞書を準備するステップと、
    前記辞書内のエントリの各々の前記第1の言語の音韻を、それぞれの音韻がマッピングされる前記第2の言語の音韻と置換するステップとを含む、辞書を準備する方法。
  2. 第1の言語の音響モデルをトレーニングする方法であって、
    前記第1の言語の単語と、前記第1の言語と異なる第2の言語の関連する音韻とを各々が含む、複数のエントリを含む辞書を準備するステップと、
    前記第1の言語の、関連する音声表記を備えた音声データの発話コーパスを準備するステップと、
    前記辞書を用いて、前記発話コーパスの発話をセグメント化するステップと、
    前記セグメント化するステップでセグメント化された発話をトレーニングデータとして用いて、前記第1の言語の音響モデルをトレーニングするステップとを含む、音響モデルをトレーニングする方法。
  3. 前記辞書を準備するステップが、
    前記第1の言語の音韻と、前記第2の言語の音韻とのマッピングを準備するステップと、
    前記第1の言語の単語と、その単語に関連する前記第1の言語の音韻とを各々が含む、複数のエントリを含む辞書を準備するステップと、
    前記辞書内のエントリの各々の前記第1の言語の音韻を、それぞれの音韻がマッピングされる前記第2の言語の音韻と置換するステップとを含む、請求項2に記載の音響モデルをトレーニングする方法。
  4. コンピュータ上で実行されると、請求項1〜請求項3のいずれかに記載のステップの全てをコンピュータに実行させる、コンピュータプログラム。
JP2004287944A 2004-09-30 2004-09-30 辞書を準備する方法、音響モデルのためのトレーニングデータを準備する方法、およびコンピュータプログラム Pending JP2006098994A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004287944A JP2006098994A (ja) 2004-09-30 2004-09-30 辞書を準備する方法、音響モデルのためのトレーニングデータを準備する方法、およびコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004287944A JP2006098994A (ja) 2004-09-30 2004-09-30 辞書を準備する方法、音響モデルのためのトレーニングデータを準備する方法、およびコンピュータプログラム

Publications (1)

Publication Number Publication Date
JP2006098994A true JP2006098994A (ja) 2006-04-13

Family

ID=36238845

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004287944A Pending JP2006098994A (ja) 2004-09-30 2004-09-30 辞書を準備する方法、音響モデルのためのトレーニングデータを準備する方法、およびコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP2006098994A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012177815A (ja) * 2011-02-28 2012-09-13 National Institute Of Information & Communication Technology 音響モデル学習装置、および音響モデル学習方法
JP2015161927A (ja) * 2014-02-28 2015-09-07 国立研究開発法人情報通信研究機構 音響モデル生成装置、音響モデルの生産方法、およびプログラム
CN112382275A (zh) * 2020-11-04 2021-02-19 北京百度网讯科技有限公司 语音识别方法、装置、电子设备和存储介质
JP2022092568A (ja) * 2020-12-10 2022-06-22 國立成功大學 ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012177815A (ja) * 2011-02-28 2012-09-13 National Institute Of Information & Communication Technology 音響モデル学習装置、および音響モデル学習方法
JP2015161927A (ja) * 2014-02-28 2015-09-07 国立研究開発法人情報通信研究機構 音響モデル生成装置、音響モデルの生産方法、およびプログラム
CN112382275A (zh) * 2020-11-04 2021-02-19 北京百度网讯科技有限公司 语音识别方法、装置、电子设备和存储介质
CN112382275B (zh) * 2020-11-04 2023-08-15 北京百度网讯科技有限公司 语音识别方法、装置、电子设备和存储介质
JP2022092568A (ja) * 2020-12-10 2022-06-22 國立成功大學 ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法
JP7165439B2 (ja) 2020-12-10 2022-11-04 國立成功大學 ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法

Similar Documents

Publication Publication Date Title
Lee et al. Spoken language resources for Cantonese speech processing
US8275621B2 (en) Determining text to speech pronunciation based on an utterance from a user
EP2595143B1 (en) Text to speech synthesis for texts with foreign language inclusions
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US8285537B2 (en) Recognition of proper nouns using native-language pronunciation
EP1571651A1 (en) Method and Apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers
JPH09500223A (ja) 多言語音声認識システム
JP2004258658A (ja) 単語間音素情報を利用した連続音声認識方法および装置
US20030154080A1 (en) Method and apparatus for modification of audio input to a data processing system
Sakti et al. Development of Indonesian large vocabulary continuous speech recognition system within A-STAR project
JP2007155833A (ja) 音響モデル開発装置及びコンピュータプログラム
Badino et al. Language independent phoneme mapping for foreign TTS
Sakti et al. Indonesian speech recognition for hearing and speaking impaired people.
Pols Flexible, robust, and efficient human speech processing versus present-day speech technology
Bijankhan et al. Tfarsdat-the telephone farsi speech database.
Hanifa et al. Malay speech recognition for different ethnic speakers: an exploratory study
Demenko et al. JURISDIC: Polish Speech Database for Taking Dictation of Legal Texts.
Digalakis et al. Large vocabulary continuous speech recognition in greek: corpus and an automatic dictation system.
Comerford et al. The voice of the computer is heard in the land (and it listens too!)[speech recognition]
JP2006098994A (ja) 辞書を準備する方法、音響モデルのためのトレーニングデータを準備する方法、およびコンピュータプログラム
Levow Adaptations in spoken corrections: Implications for models of conversational speech
JP3378547B2 (ja) 音声認識方法及び装置
Iyanda et al. Development of a Yorúbà Textto-Speech System Using Festival
Lyu et al. Large vocabulary taiwanese (min-nan) speech recognition using tone features and statistical pronunciation modeling.
Marasek et al. Multi-level annotation in SpeeCon Polish speech database