JP2006243728A

JP2006243728A - 音素をテキストに変換する方法、そのコンピュータシステム、及びコンピュータプログラム

Info

Publication number: JP2006243728A
Application number: JP2006052438A
Authority: JP
Inventors: Blancafort Josep Prous; プロウスブランカフォルトホセ; Capellades Marti Balcells; バルセレスカペラデスマーティ
Original assignee: Prous Institute for Biomedical Research SA
Current assignee: Prous Institute for Biomedical Research SA
Priority date: 2005-02-28
Filing date: 2006-02-28
Publication date: 2006-09-14
Also published as: EP1696422A2; ES2237345B1; ES2237345A1; US20060195319A1

Abstract

【課題】音声辞書の中で特徴付けられていない単語についての綴り字表記の生成を可能とすること。
【解決手段】変換される、単語を形成する音素の有限なシーケンスを読み込むステップ［ａ］と、複数の表記可能な単語を生成するステップ［ｂ］と、複数の前記表記可能な単語のうちの１つを正しい単語として選択するステップ［ｃ］とを含むことを特徴とする、音素をテキストに変換する方法、そのコンピュータシステム、及びコンピュータプログラムを提供する。
【選択図】図１

Description

本発明は自動音声認識の分野に関し、より詳細には、音素を書かれるテキスト（ｗｒｉｔｔｅｎｔｅｘｔ）（以下、単にテキストとも記す）に変換する方法、言いかえれば、音声表記（ｐｈｏｎｅｔｉｃｔｒａｎｓｃｒｉｐｔｉｏｎ）から綴り字表記（ｏｒｔｈｏｇｒａｐｉｃｔｒａｎｓｃｒｉｐｔｉｏｎ）（即ち、テキスト）を生成することができる方法に関する。

さらに、本発明は、本発明に係る方法を実行するのに適した、音素をテキストに変換するための手段を含むコンピュータプログラムを実行するのに適した実行環境を備えるコンピュータシステムに関する。

また、さらに、本発明は、コンピュータの内部メモリ内に直接にロードされ得る、本発明に係る方法を実行するための適切な実行命令を含む、コンピュータによる使用に適した記録媒体に記録されたコンピュータプログラムに関する。

音素をテキストに変換する問題は、科学界からあまり注目を集めていない。従来のほとんどの音声認識システムは、単語及びそれら単語の各々の音声表記を含む音声辞書（ｐｈｏｎｅｔｉｃｄｉｃｔｉｏｎａｒｙ）の使用により、その問題を解決してきた。通常、これら従来のシステムによって使用される辞書は、固有名詞、姓、地名なども含んでいるが、少なくとも一般的な適用については、音節（ａｕｄｉｏｐａｓｓａｇｅ）で特徴付けられるすべての単語を含むことを保証することができない。従って、辞書の中で特徴付けられていない単語が現れる場合のために、これら従来のシステムに代替のシステムを提供することが必要である。

音素のテキストへの変換に関する発行された文献のほとんどは、音声生成システムに取り組む研究グループによって書かれている。言いかえれば、テキストを音素に変換するという逆の問題について書かれている。これら文献に記載されたシステムのうちの多数は双方向システムである。従って、それらのシステムは、音素をテキストに変換するためにも使用され得る。

これらのシステムは２つのカテゴリーに大きく分類される。入力音声表記をテキストに変換するために基準を用いて働くシステム、及び音声辞書に含まれる単語との部分的な類似点を検索することにより、音声表記の綴りのオーソグラフィ（ｏｒｔｈｏｇｒａｐｈｙ）を推定しようとするシステムである。

第１のグループは、Ｆｉｓｈｅｒ［非特許文献１］の研究と、Ｙａｎｎａｋｏｕｄａｋｉｓ及びＨｕｔｔｏｎ［非特許文献２］の研究とを含む。第２のグループでは、隠れマルコフモデルに基づいたＰａｒｆｉｔｔ及びＳｈａｒｍａｎ［非特許文献３］の研究並びにＡｌｌｅｖａ及びＬｅｅ［非特許文献４］の研究、ニューラルネットワークに基づいたＬｕｃａｓ及びＤａｍｐｅｒ［非特許文献５］によるシステムに、又は発音の類似によるＭａｒｃｈａｎｄ及びＤａｍｐｅｒ［非特許文献６］の方法が強調するに値する。これら戦略的な意味でのグループの間に、階層構造を使用して形態論の情報を含んだＭｅｎｇ［非特許文献７］による研究がある。

一般に、各々のアルゴリズムは、それぞれ異なる辞書を使用して検証されるために、様々なアルゴリズムの性能を比較するのは容易ではない。従って、各々のシステムの誤り及び認識割合は、各々の辞書中の内容が異なることによりばらつきが生じ得るという問題がある。
W.M. Fisher. "A Statistical text-to-phone Function Using Ngrams and Rules", ICASSP 1999, pp. 649-652. E.J. Yannakoudakis, and P.J. Hutton. "Generation of spelling rules from phonemes and their implications for large dictionary speech recognition", in Speech Communication, vol. 10, pp.381-394, 1991. S.H. Parfitt and R.A. Sharman. "A bidirectionnal model of English pronunciation". In Proceedings of the European Conference on Speech Communication and Technology (Eu-rospeech) , volume 2, pages 801-804, September 1991. Alleva, F., Lee, K.F. "Automatic new word acquisition： spelling from acoustics". Pro-ceedings of the DARPA Speech and Natural Language Workshop, pp. 266-270, October 1989. S.M. Lucas and R. I. Damper. "Syntactic neural networks for bi-directional text-phonetic translation", in Talking Machines： Theories, Models and Designs. Elsevier Science Publish-ers. Y. Marchand and R. Damper. "A Multi-Strategy Approach to Improving Pronunciation by Analogy", in Computational Linguistics, vol. 26, un. 2, pp. 195-219, 2000. H. Meng. "A hierarchical representation for bi-directional spelling-to-pronunciation/pronunciation-to-spelling generation", Speech Communication 2000, no. 33, pp. 213-239. Viterbi, A.J. "Error bounds for convolutional codes and an asymptotically optimum de-coding algorithm", in IEEE Transactions on Information Theory IT-13(2), 260-269, 1967.

本発明は、上記課題を解決するためになされたものであり、その目的は、音声辞書の中で特徴付けられていない単語についての綴り字表記の生成を可能とすることにある。

上記目的の達成のために、本発明に係る音素をテキストに変換する方法は、
変換される、単語を形成する音素の有限なシーケンスを読み込むステップ［ａ］と、
複数の表記可能な単語を生成するステップ［ｂ］と、
複数の前記表記可能な単語のうちの１つを正しい単語として選択するステップ［ｃ］とを含むことを特徴とする。

実際、音素をテキストに変換する問題では、複雑度の大部分は、システムが扱う言語及び音域（ｒｅｇｉｓｔｅｒ）に依存することが認められてきた。例えばスペイン語のように、音と文字との間の対応のレベルが高い言語では、音素をテキストに変換することは比較的容易である。しかし、例えば英語又はフランス語のような、音と文字との間の対応のレベルが低い他の言語では、音素をテキストに変換することは容易ではない場合がある。

英語を例にとると、１つの同じ音素はいくつかの異なる方法で書き表され得ることが理解される。例えば、音／ｋ／は、単語「ｃａｔ」中では文字ｃで書き表されるが、単語「ｋｉｔｔｅｎ」中では文字ｋで書き表される。これに反して、１つの同じ文字セットは異なる音声表記を有することができる。例えば、文字の組み合わせｏｕｇｈは、単語「ｅｎｏｕｇｈ」中では／ａｈｆ／と発音されるが、単語「ｔｈｏｕｇｈ」中では／ｏｗ／、単語「ｔｈｏｕｇｈｔ」中では／ａｏ／、単語「ｐｌｏｕｇｈ」中では／ａｗ／と発音される。これに加えて、１つの言語において、他の言語から借用した新語又は単語が、特に技術的な分野において、絶えず取り入れられる。それら借用した新語又は単語の発音は、それらが取り込まれた言語の実際の発音に適合されるが、それら借用した新語又は単語はオリジナルの綴りを維持する。

この理由で、音声辞書にのみ基づいて表記する試みは、非常に広範囲でかつ永続的に更新される辞書が必要であるという困難に直面する。

この意味で、本発明に係る方法は、表記を２つのステージに分類する。第１ステージでは、単語を形成する有限な音素シーケンスが文字シーケンスで表記される（実際、複数の候補の文字のシーケンスが生成される）。第２ステージでは、どの文字シーケンスが正しいかを分析する。その結果、上記問題を２つのステップに分類し、各ステップに対して最も適切な対策を適用することができる。このように、本発明に係る方法は、音素シーケンスを文字シーケンスで表記する際に、言語の発音ルールを考慮に入れることができ、辞書の中で特徴付けられていない書き単語（ｗｒｉｔｔｅｎｗｏｒｄ）（以下、単語とも記す）でさえも生成することができる。また、本発明に係る方法は、複数の候補の単語を生成することができる。好ましくは、後述するが、各々の単語の「適合度」を示す或る基準によって順序付けることができる。また、後続の分析ステップは、例えば、綴り字のルール、辞書の照会結果、又は他の任意のタイプの言語モデルに対する照会結果等を適用することにより、前のステップで生成された書き単語の中から、正しい単語（又は正しさの確率がより高い単語）を選択することができる。いずれの場合においても、本発明に係る方法は、後続の分析ステップが書き単語の適合度を確認することができない場合であっても、少なくとも１つの書き単語を生成することができる。

本発明に係る方法は、音素シーケンスを文字シーケンスで表記するのに適している。しかしながら、入力シーケンス（音素シーケンス）が、出力シーケンスと同じ数の要素を持っていることが必要とされる。音素と文字との間の対応が１対１でなく、実際、（上記で既に示されたように）音素と文字との間の一定の割合をさえ維持しないため、音素をグループ化して、私たちが音声グループと呼ぶものにすることが必要であり、同時に、文字をグループ化して、私たちが書記素と呼ぶものにすることが必要である。その結果、音声表記又は入力シーケンスは、綴り字表記又は出力シーケンス（書記素で構成された）と同じ数の要素（音声グループ）を持っている。より詳細には、音声グループは、書記素に対応する１又は複数の音素のセットとして定義される。同様に、書記素は、音声グループに対応する１又は複数の文字として定義される。

また、本発明に係るコンピュータプログラムを実行するのに適した実行環境を備えるコンピュータシステムは、本発明に係る方法を実行するのに適した、音素をテキストに変換するための手段を含むことを特徴とする。

また、本発明に係るコンピュータの内部メモリ内に直接にロードされ得るコンピュータプログラムは、本発明に係る方法を実行するための適切な実行命令を含むことを特徴とする。

さらに、本発明に係るコンピュータによる使用に適した記録媒体に記録されたコンピュータプログラムは、本発明に係る方法を実行するための適切な実行命令を含むことを特徴とする。

本発明の他の利点及び特徴は、以下の記述から理解されることができる。本明細書において、本発明の例示的な好ましい実施の形態は、添付の図面を参照して記述されている。

尚、以下において説明する本発明に係る方法の手順は、少なくとも演算装置（ＣＰＵ）、内部メモリ、記録装置、及び入力手段を備えるコンピュータにより実行され得る。本発明に係る方法の手順に従って演算装置が情報処理を行い、該情報処理の結果を内部メモリ又は記録装置に記憶する。以下、演算装置が行う情報処理手順を説明する。

本発明に係る音素をテキストに変換するいくつかの方法を以下に述べる。音素をテキストに変換するために、単語を形成する各々の音声グループに、それを表記可能なすべての書記素が割り当てられる。言いかえれば、可能なすべての綴り字表記、及び変換が望まれる音素のセットを表現することができる書記素の各々の可能な組み合わせの合計確率が計算される。そして、計算された確率及び言語モデルを考慮に入れ、すべての可能な組み合わせの中から最良な書記素の組み合わせが選択される。特に、本発明に係る方法は、以下に示す３つのステップ［ａ］、［ｂ］、及び［ｃ］を含む。

変換される、単語を形成する音素の有限なシーケンスを読み込むステップ［ａ］、
複数の表記可能な単語を生成するステップ［ｂ］、
複数の前記表記可能な単語のうちの１つを正しい単語として選択するステップ［ｃ］。

好ましくは、本発明に係る方法は、複数の表記可能な単語を生成する前記ステップ［ｂ］が、以下に示すステップを順番に含む。

各々の音声グループに対して、該音声グループに関連するすべての可能な書記素を決定するステップ［ｂ１］、
前記決定するステップ［ｂ１］で決定された前記書記素からすべての前記表記可能な単語を形成するステップ［ｂ２］、
前記ステップ［ｂ２］の複数の前記表記可能な単語の発生確率を計算するステップ［ｂ３］。

すべての単語の形成は、厳密な意味で理解されてはならない。それによって、すべての可能な単語を含むリストは必ず生成されるけれども、最終的にすべての可能な書記素の組み合わせが生成されるとは限らないが、代わりに、すべての可能な書記素の組み合わせを考慮又は提案するには十分である。従って、以下に記述される例で理解することができるように、このステップを実行する一つの方法は、以下に述べるように、すべての可能な単語を実際に形成せずに、すべての可能な音素間の相互連結のネットワークを提案することによる。その方法では、すべての単語を系統的に形成する必要がない。というのも、代わりに、より高い発生確率の単語を順序正しく初めに形成して行き、発生確率が所定の値に到達した場合、又は形成した単語の総量が所定の値に到達した場合に、より低い発生確率の残りの単語を形成する必要なしに単語の形成を中断することができる。この方法は、例えば、可能な単語を形成するため及びそれらの発生確率を計算するためのＶｉｔｅｒｂｉのアルゴリズム［非特許文献８］を使用することにより可能である。従って、この場合、用語「形成」が実際には「提案」又は「定義」を意味するということが理解されなければならない。

さらに、同じ理由で、例えば上記Ｖｉｔｅｒｂｉのアルゴリズムが使用される場合に、すべての単語の発生確率がいつも計算されるとは限らないため、複数の可能な単語の発生確率が計算されるが、必ずしも全ての単語の発生確率が計算される訳ではないことが次のステップにおいて示される。

これに反して、可能な単語が１つだけ存在する場合、例外的に、用語「複数」は、本当に単一の発生確率が計算される場合をも含むということが理解されなければならない。

有利には、前記表記可能な単語のうちの１つを正しい単語として選択する前記ステップ［ｃ］が、以下に示すステップを順に含む。

計算された前記発生確率に従ってステップ［ｂ３］の前記表記可能な単語を選択し、より高い発生確率の単語を含むサブグループを形成するステップ［ｃ１］。

実際、既に述べたように、上記の代案はすべての表記可能な単語を得、正しい単語を選択する際に、それらすべてを考慮に入れることである。しかしながら、生成された可能な単語の量は非常に多いかもしれず、又は、正しい単語を選択するステップは、生成された可能な単語の量によっては、多かれ少なかれ煩わしいかもしれない。それゆえに、処理される可能な単語の量をなんらかの方法で制限することが賢明かもしれない。発生確率が計算されるという事実は、この発生確率がフィルタリングツールとして使用されることを可能にし、その結果、より高い発生確率の可能な単語のみが生成され、上記サブグループを形成する。このように、可能な単語を生成するステップは能率が向上され、さらに、正しい単語を選択するステップも確実に能率が向上される。これは特に効率的な方法であり、可能な単語が発生確率の降順で生成されることを可能にする前述のＶｉｔｅｒｂｉのアルゴリズムを使用することにより行うことができる。それによって、前記サブグループがより高い発生確率の可能な単語を含むように、前記サブグループを形成することが可能となる。

おおむね、本明細書の詳細な説明と特許請求の範囲とには、特定の順序に従ってステップが記述されている。しかしながら、この順序は単なる例示的な順序であり、必ずしも様々なステップの時間系列ではないことが理解されなければならない。言いかえれば、本発明に係る方法は、本発明の概念と適合する他の任意の時間系列のステップを実行することができる。さらに、２つ以上のステップが、全体的又は部分的に並列に実行されることもできる。特許請求の範囲がこれらの可能性の何れをも含むことが理解されなければならない。例えば、上記セクションの場合においては、Ｖｉｔｅｒｂｉのアルゴリズムを使用する際に、ステップ［ｂ２］、［ｂ３］、及び部分的に［ｃ１］（サブグループの形成が関係する限りにおいて）が、同時に実行される。

好ましくは、前記サブグループは、より高い発生確率を持つ最大５００個の表記可能な単語から構成される。より好ましくは、より高い発生確率を持つ最大１００個の表記可能な単語から構成される。実際、これらの値は、必要なシステムの複雑度（例えば処理速度といった技術的な要求に起因する）と得られる結果の質との間のよいバランスであると検証されてきた。他方では、サブグループが少なくとも１０個の可能な単語を持っていることが有利であり、論理上は、可能な単語のすべてのグループは、いつでも１０個以上の可能な単語を持っている。そうでなければ、最終的に正しいものとなる可能な単語を無視する危険性が非常に増大し、本発明に係る方法を使用して良い結果を得ることができない。

有利には、表記可能な単語のうちの１つを正しい単語として選択する前記ステップ［ｃ］が、以下に示すステップを更に含む。

言語モデルにおいて、前記サブグループ中の表記可能な単語を前記ステップ［ｃ１］から検索するステップ［ｃ２］。

実際、一旦、可能な単語が形成されると、正確な単語が選択されるに違いない。有利には、言語モデルが使用され、言語モデルは、例えば綴り字のルール又は通常の辞書であることができ、正しい単語は、最も高い発生確率のものとすることができ、その言語モデルによれば正しい。言いかえれば、正しい単語は、綴り字のルールを満たす又は通常の辞書の中で特徴付けら単語である。しかしながら、好ましくは、言語モデルは、１次の言語モデル、言いかえれば、例えば、各々の単語が使用される頻度（言語確率（ｌｉｎｇｕｉｓｔｉｃｐｒｏｂａｂｉｌｉｔｙ））を含む辞書である。２次の言語モデル、言いかえれば、前の単語に従って各々の単語が使用される頻度を考慮に入れる辞書を使用することにより、システムの完成度をより更に向上させることが可能である。

これら最後の２つの場合（１次及び２次の言語モデル）では、正しい単語を選択する方法は異なる。即ち、可能な単語の部分的なセット（又は完全なセット）中の、すべての可能な単語の言語確率が求められ、より高い言語確率を持つ可能な単語が、正しい単語として選択される。言いかえれば、発生確率が部分的なセットの形成にのみ使用される（上記部分的なセットの形成を予測する変形方法を使用する場合）のに対して、最終的に選ばれる単語は、言語確率により選択される。このように、正しい単語を選択するこの方法は、可能な単語の部分的なセット、又は可能な単語の完全なセットに適用され得る。２つの択一的な方法の何れかを選択することは、再び、使用されるコンピュータシステムの技術的な複雑度と得られる結果の質との間のバランスの問題である。

本発明に係る方法は、言語モデルの中で検索された可能な単語が見つからない状況を、特に有利な方法で解決することができ、計算された高い発生確率を持つ可能な単語が選択される。実際、可能な単語の「適合度」を決定するための２つのパラメータ（その発生確率及びその言語確率）が存在するため、１つの決定するパラメータ（言語確率）が失敗しても、選択を行うための別のパラメータ（発生確率）がまだ使用できる。それゆえに、システムは非常に自律的であり、新しい及び／又は未知の単語を伴うテキスト表記を、満足な結果で取り扱うことができる。

好ましくは、可能な単語の各々の発生確率の計算は、前記可能な単語を形成する音声グループと書記素との対応のペア間の遷移確率の値を考慮に入れる。

音声表記をテキストに変換するために、好ましくは最初に、前記音声表記を書き表すことができる書記素の可能なすべての組み合わせ（又は少なくとも複数の組み合わせ）が生成される。このプロセスについては、その全体が手動で入力された、又は好ましくは、トレーニングステップ中に見つけられた、音声グループと書記素との対応が考慮に入れられる。このステップは、ノードが互いにリンクされた大きなネットワーク（図１を参照）を提供する。各々のノードは、音声グループと書記素との対応を表わし、また、ノード間のリンクは、音声グループと書記素との対応の各々のペア間の遷移を表し、それらリンクに遷移確率が割り当てられる。一旦、ネットワークが形成されると、特定の音声表記のための、最も蓋然的な綴り字表記Ｎが順番に（降順で）計算され、最初の位置が最も蓋然的な表記によって始められる可能な単語のリストを生成する。一旦、リストが編集されると、リストは、１次の言語モデル（より高次のモデルを使用することもできる）を使用して再度整列される。言いかえれば、言語モデルの言語中で頻度の高い、リスト中の単語が、初めにどんな意味も持っていない、又は綴り字のエラーを含んでいない他の単語に先だって、最初の位置を占める。代わりに、上記で述べたように、選択された言語モデルに従って、辞書又は綴り字のルールによって検証され得る最も蓋然的な単語を選択することが十分かもしれない。

各々の単語が、その音声表記及びその綴り字表記を連帯して形成されることが考えられる。順に並ぶこれらの表記の各々は、記号のシーケンスで構成される。ｐ_ｉを音素、ｌ_ｉを文字として、単語ｓの音声表記がφ（ｓ）＝ｐ_１ｐ_２…ｐ_ｍで定義され、単語ｓの綴り字がω（ｓ）＝ｌ_１ｌ_２…ｌ_ｍで定義される場合、２つの表記は、音声グループｆ_ｉ中の音素及び書記素ｇ_ｉ中の文字をグループ化することにより整列され得る。それにより、新しい音声表記φ（ｓ）＝ｆ_１ｆ_２…ｆ_ｎ及び新しい綴り字表記ω（ｓ）＝ｇ_１ｇ_２…ｇ_ｎが同数の記号を持ち、それら音声表記ｆ_ｉと綴り字表記ｇ_ｉとの間に一対一の対応が存在する。その後、単語ｓは、音声グループと書記素との間の対応によって形成された新しい記号を使用して、音声表記及びその綴り字表記で連帯して表現され得る。ｃ_ｉ＝＜ｆ，ｇ＞_ｉが音声グループｆと書記素ｇとの間の対応を表すとして、新しい表記がγ（ｓ）＝ｃ_１ｃ_２…ｃ_ｎで定義される場合、結合された確率は次式のように単語ｓに関連付けられることができる。

表記ｃ_１ｃ_２…ｃ_ｎがマルコフ連鎖（Ｍａｒｋｏｖｃｈａｉｎ）であると仮定すると、この数式は次式のように単純化される。

その後、音声表記から綴り字表記へ変換することは、音声グループｆ_１ｎのシーケンスが与えられた場合、結合された確率Ｐ（γ（ｓ））を最大化する書記素のシーケンスｇ_１ｎ ^＊を見つけることと等価である。形式的には、それは次式のように表現され得る。

理論上、確率Ｐ（γ（ｓ）｜ｆ_１ｎ）は、同じ単語ｓに帰着する音声グループ及び書記素の、全ての可能な配列の合計でなければならない。しかし実際には、検索プロセスを単純化するために、最大の確率を持つ配列のみが考慮される。実際、一旦、ネットワークのノードが形成されると、同じ綴り字表記に至る２つの異なる経路（従って異なる記号を伴う）が存在するかもしれない。例えば、英単語「ｔａｌｋ」及びその音素ＴＡＯＫを考えると、可能なネットワークの経路は、Ｔ−ｔ、ＡＯ−ａ、Ｋ―ｌｋであることができ、別の経路では、Ｔ−ｔ、ＡＯ−ａｌ、Ｋ−ｋであり得る。それらは同じ解答「ｔａｌｋ」に至る２つの異なる経路である。第１の経路が確率０．３２を持ち、第２の経路が確率０．１５を持っている場合、単語「ｔａｌｋ」の表記の実際の確率は、これら２つの確率の合計になる。言いかえれば、０．４７になる。その後、綴り字表記の合計確率を計算するために、ノードネットワークの中で生成された綴り字表記のすべての可能な確率が計算されなければならないだろう。それゆえに、それらすべての確率がとにかく計算されなければならないため、順序正しい方法で確率が得られることを可能にするＶｉｔｅｒｂｉのアルゴリズムを使用する事に意味はないだろう。

このことが暗示する計算上のコストを回避するためには、近似を行い、ある綴り字表記（例えば、「ｔａｌｋ」）の確率が、最も蓋然的な綴り字表記の確率であると仮定することが好ましい。言いかえれば、上記の例において、単語「ｔａｌｋ」の確率が０．４７の代わりに０．３２であると仮定されるであろう。概ね、結果は、この近似によって著しく影響されない。

音声表記からテキストを生成するために、例のリスト（トレーニングセット）から、２つの表記（音声グループ及び書記素）間に存在する暗黙の関係を学習するための、トレーニング又は学習のステップをシステムが前もって実行することが有利である。一旦システムがトレーニングされると、表記がトレーニングセットに含まれていなくても、システムは任意の音声表記のテキストバージョンを生成することができる。

好ましくは、トレーニングステップは３つのステップを含む。第１のステップ（ステップ［ｄ１］）では、トレーニングセット中の、音素又は音素のグループ（音声グループ）と文字又は文字のグループ（書記素）との間に存在するすべての対応が決定される。その結果、各々の単語は同数の音声グループ及び書記素を持っており、各々の音声グループは書記素との少なくとも１つの対応を持っている。それゆえに、上記で述べたように、１個以上の文字と単一の音素との間、及びそれらを逆にした間に、対応が存在し得る。一旦これらの基礎的な対応が見つけられると、それら対応は優先度の順序で自動的に配列される（ステップ［ｄ２］）。また、それら対応は、トレーニングセット中の各々の単語を記号へ配列させるために使用される（ステップ［ｄ３］）。即ち音声グループに対応する各々の書記素へ配列させるために使用される。優先度の順序は、単語中で２つの配列が可能な場合、「二重（ｄｏｕｂｌｅ）」の書記素には、単一の書記素よりも高い優先度が与えられなければならないことを意味する。実際、トレーニングセット中の単語の配列が優先度なしに確立されると、特に、二重文字（ｄｏｕｂｌｅｌｅｔｔｅｒ）の場合に、いくつかの不正確な配列が生成され得る。

例えば、単語ＡＢＥＲＲＡＮＴは以下のように配列され得る。＊ＡＢＥＲＲＡＮＴ＊−＃ＡＥＢＥＨＲＡＨＮＴ＃では無く＊ＡＢＥＲＲＡＮＴ＊−＃ＡＥＢＥＨＲＡＨＮＴ＃（後者のケースでは、書記素ＥＲが音声グループＥＨに関連付けられ、書記素Ｒが音声グループＲに関連付けられる。それに対して、前者のケースでは、書記素Ｅが音声グループＥＨに関連付けられ、書記素ＲＲが音声グループＲに関連付けられる）。それゆえに、単語中で両方の配列が可能な場合、単一の書記素の代わりに「二重」の書記素を選択する優先度の順位を設定することが有利である。一旦すべての単語が配列されると、音声グループと書記素とのペア間の遷移確率が見積もられる（ステップ［ｄ４］）。また、これらの確率は、音声表記をテキストに変換するために後のステップで使用される。

音声辞書はシステムをトレーニングするために使用される。この辞書は、それぞれの音声表記を備える各々の単語を含む。しかしながら、概ね、音声辞書は、どの文字又は文字のグループが各音素又は音声グループに対応するか明示しないであろう。好ましくは、このプロセスは以下のように行われる。

初めに、システムは、各音素を表現する最も典型的な書記素のリストを提供される（ステップ［ｄ１１］）。

これらの対応を用いて、システムは、音声表記及び書記素表記が同数の記号を持つように、トレーニングセット中の各々の単語を分節（ｓｅｇｍｅｎｔ）しようとする。システムが、既存の対応を用いて分節することができない単語を検知すると、システムは、ユーザに新しい音声グループと書記素との対応を入力するように要求し、ユーザからの入力を受け付ける（ステップ［ｄ１２］及び［ｄ１３］）。トレーニングセット中で特徴付けられた可能な音声グループと書記素との対応のすべてがリストに編集されるまで、同様に繰り返される。

一旦このリストが完成されると、システムはすべての単語を再度配列する。しかしこの時、システムは、入力として提供される対応だけでなく、トレーニングセット中で見つかったすべての対応を考慮に入れる（上述のステップ［ｄ１３］）。好ましくは、配列プロセスは再帰的であり、Ｖｉｔｅｒｂｉのアルゴリズム［非特許文献８］を使用する。

一旦、辞書がきちんと配列された書記素及び音声グループで得られると、ある対応から別の対応への遷移確率が次式で見積もられなければならない。

その最も単純な方法は、遷移ｃ_ｉ−１ｃ_ｉが起こる回数を数えて、それをｃ_ｉ−１が起こる回数で除算することであろう。即ち、

である。

トレーニングセットが十分に大きく、可能なすべての観察の様々なオペレーションを含んでいる場合、この近似は有効である。しかしながら、ほとんどの場合、遷移確率の良い見積を可能にする大きなトレーニングセットを持つことは難しい。

例えば、シーケンスｃ_ｘｃ_ｙがトレーニングセット中で起こらないという事実は、実際の環境ではそのシーケンスを見つけることができないことを暗示しない。それゆえに、トレーニングセット中に含まれないシーケンスの確率をも見積もることを可能にする方法を見つけることが有利である。

また、好ましくは、これは、次式のように、より小さなオーダー（ｍｉｎｏｒｏｒｄｅｒ）の見積もりを用いて、Ｐ（ｃ_ｉ｜ｃ_ｉ−１）の見積もりを、内挿することにより達成される（本明細書及び特許請求の範囲では、用語「内挿」は、本技術分野において一般的であるように、存在しない値を見積もるための、下位オーダーのモデルを用いた上位オーダーのモデルの組み合わせを意味することが理解されなければならない）。

２つの記号のシーケンスのすべてがトレーニングセット中で１回、２回、又はそれ以上の回数現れるか、若しくはトレーニングセット中に現れていないかによらず、この数式は、それら２つの記号のシーケンスのすべてについて有効である。言いかえれば、再計算（通常スムーシングと呼ばれる）の後、「従来の」方法で見積もられたすべての確率は、それらの「スムージングされた」値に変化するであろう。また同時に、トレーニングセット中に現れないシーケンスにも値が割り当てられるであろう。両方の場合において、新しい値は、上記の数式の計算結果である。Ｄは、スムージングされるすべての確率について同じ値を持つ定数である。

第１項は、トレーニングセット中のｃ_ｉ−１からｃ_ｉへの、次式の割引係数（ｄｉｓｃｏｕｎｔｆａｃｔｏｒ）Ｄを伴う遷移の頻度であることが理解される。

ここで、Ｎ_１（ｃ_ｉ−１ｃ_ｉ）は、トレーニングセット中で正確に一度起こるシーケンスｃ_ｉ−１ｃ_ｉの回数として定義され、Ｎ_２（ｃ_ｉ−１ｃ_ｉ）は、正確に二度起こるシーケンスｃ_ｉ−１ｃ_ｉの回数として定義される。この割引係数の目的は、現れない遷移間で、それらの確率が類似するであろうと仮定して、重みを再配分するために、トレーニングセット中に希に起こる遷移の重みを減少させることにより、確率の見積もりのバランスを保とうと努めることである。好ましくは、値Ｄは上記に示されたものである。しかしながら、満足な結果を示すことができる他のＤの値を定義することができる。

順番に、Ｐ（ｃ_ｉ）は、ｃ_ｉに先行する異なるｃ_ｉ−１の数と、トレーニングセット中で見つかった異なるシーケンスｃ_ｉ−１ｃ_ｉの総数との間の係数として定義される。数式では、

である。

ここで、

であり、Ｎ_１＋（^●●）は同様に定義される。即ち、Ｎ_１＋（^●ｃ_ｉ）は、トレーニングセット中の対応ｃ_ｉに先行する異なる対応の総数であり、Ｎ_１＋（^●●）は、トレーニングセット中に現れる異なる組み合わせｃ_ｉ−１ｃ_ｉの総数である。

確率が１に増大し続けるために、λ（ｃ_ｉ−１）は以下のように定義されなければならない。

一旦遷移確率が見積もられると、システムは音素のシーケンスをテキストに変換する準備ができている。各々の音素又は音素のグループについて、システムは、書記素中のすべての可能な対応を検索し、すべての可能な対応の組み合わせを用いて、ノードのネットワーク、即ち、可能な単語を形成するためのネットワーク（グラフとも呼ばれる）を生成する。

このグラフでは、各々のノードはそれぞれ音声グループと書記素との対応を表現する。また、２つのノード間の各々のリンクは、関連する遷移確率を持っている。

一旦グラフが作成されると、Ｖｉｔｅｒｂｉのアルゴリズム［非特許文献８］及びトレーニングステップ中で計算された遷移確率を使用して、最も蓋然的なＮの組み合わせを遷移確率の降順で検索することが可能である。その結果得られるリスト中で、最も蓋然的なシーケンスが最初の位置を占め、最も蓋然的でないものが最後の位置を占める。しかしながら、リスト中の最初のシーケンスが、原則としてスタートするスペースを形成するのだが、実際の単語に対応しないかもしれない。

その後、私たちは、最良の結果をフィルターするために、言語モデルを適用することができる。言語モデルに含まれる情報は、モデルのオーダーに依存する。

１次の言語モデルは、各々の単語の英語での確率を含むであろう。各々の単語のその固有の言語での確率と同様に、２次の言語モデルもまた、ある単語から別の単語への遷移確率を含むであろう。１次の言語モデルを使用すれば、音素をテキストに変換する最終結果は、リスト中のすべての書記素シーケンスから、英語での最も蓋然的なシーケンスを選択することにより生成されるであろう。

上述の通り、システムは、辞書を用いずに完全に変換することができ、例えば確率的な基準を使用して、複数の可能な単語の中から、最も適切な単語を選択するための選択基準をさらに持つことができる。

辞書又は言語モデルが使用される唯一の理由は、前のステップにおいて、既に文字を用いて書かれた単語が実際に存在するかどうかを調査する（また、それらが存在する場合には、それらの言語確率を決定する）ためである。

このように、システムが、保証され得る質を同時に伴うテキストで表記を常に生成することができるので、両方のステップを組み合わせることにより、非常に堅固なシステムが得られる。質が保障される理由は、実際、たいていの書き単語が、辞書又は言語モデル中に存在すれば、正しいと確認されるからである。

例１：トレーニング
トレーニングセット又は辞書が、システムをトレーニングするために使用される。例えば、英語のトレーニングセットを想定すると、

トレーニングセットは、音素と文字との間の対応を示さない。それゆえに、綴り字表記と音声表記との間の配列ステップを実行することが必要である。システムがこの配列を実行することができるように、音素と文字との間の可能な対応の初期セット、例えば次のような初期セットが供給されなければならない。

各ペアの１番目の記号が音素又は音声グループを表現し、２番目の記号が書記素又は文字を表現する。ユーザによって援助される、音声グループと書記素との間の新しい対応が見つけられるプロセスの後、トレーニングセット中に含まれる単語又は辞書が配列される。

その後、音声グループと書記素とのペアの間の遷移確率が計算される。

例２：音声シーケンスの表記
一旦遷移確率が得られると、任意の音声表記の綴り字表記を生成することができる。例えば、以下の音声表記の綴り字表記の取得が望まれる場合、

＃ＡＥＫＴＡＨＶＥＹＴ＃

システムは、各々のノードが音声グループと書記素との対応を表現し、各々の遷移が関連付けられた確率を持つ、単語のすべての可能な綴り字表記を備えるネットワークを生成する。図１にネットワーク例を示す。

一旦ネットワークが生成されると、最も蓋然的である５００個の可能な表記が得られる。

その後、これらすべての可能な単語は、言語モデル、本実施例においては、１次の言語モデルで検索される。言いかえれば、各単語の出現する頻度のパーセンテージを含む辞書で検索される。最後に、言語モデルによる最も高い確率を持つ可能な単語が選択され、正しい単語として考えられる。本実施例において、これは次の単語である。

＊ＡＣＴＩＶＡＴＥ＊

生成された可能な単語のいずれもが言語モデル中に見つからない場合、正しい単語は、最も高い遷移確率のものが選択される。本実施例において、それは次の単語である。

＊ＡＣＴＯＶＡＴＥ＊

本発明に係る可能な単語を形成するためのネットワークの一例を示す図である。

Claims

音素をテキストに変換する方法であって、
変換される、単語を形成する音素の有限なシーケンスを読み込むステップ［ａ］と、
複数の表記可能な単語を生成するステップ［ｂ］と、
複数の前記表記可能な単語のうちの１つを正しい単語として選択するステップ［ｃ］とを含むことを特徴とする方法。
前記複数の表記可能な単語を生成する前記ステップ［ｂ］が、順に、
各々の音声グループに対して、該音声グループに関連するすべての可能な書記素を決定するステップ［ｂ１］と、
前記決定するステップ［ｂ１］で決定された前記書記素からすべての前記表記可能な単語を形成するステップ［ｂ２］と、
前記ステップ［ｂ２］の複数の前記表記可能な単語の発生確率を計算するステップ［ｂ３］とを含むことを特徴とする請求項１に記載の方法。
前記表記可能な単語のうちの１つを正しい単語として選択する前記ステップ［ｃ］が、順に、
計算された前記発生確率に従ってステップ［ｂ３］の前記表記可能な単語を選択し、より高い発生確率の単語を含むサブグループを形成するステップ［ｃ１］とを含むことを特徴とする請求項２に記載の方法。
前記サブグループが、より高い発生確率を持つ最大５００個の表記可能な単語から構成され、好ましくは、より高い発生確率を持つ最大１００個の表記可能な単語から構成されることを特徴とする請求項３に記載の方法。
前記表記可能な単語のうちの１つを正しい単語として選択する前記ステップ［ｃ］が、更に、
１つの言語モデルにおいて、前記ステップ［ｃ１］によって形成された前記サブグループ中で前記表記可能な単語を検索するステップ［ｃ２］を含むことを特徴とする請求項３又は４のいずれかに記載の方法。
前記表記可能な単語のうちの１つを正しい単語として選択する前記ステップ［ｃ］が、
１つの言語モデルにおいて、前記ステップ［ｂ］によって生成された前記表記可能な単語を検索するステップ［ｃ１’］を含むことを特徴とする請求項１又は２のいずれかに記載の方法。
前記言語モデルが１次の言語モデルであることを特徴とする請求項５又は６のいずれかに記載の方法。
前記言語モデルが２次の言語モデルであることを特徴とする請求項５又は６のいずれかに記載の方法。
前記言語モデルの中で検索された前記表記可能な単語が見つからない場合に、計算された最も高い発生確率を持つ前記表記可能な単語を選択することを特徴とする請求項２〜８のいずれかに記載の方法。
前記表記可能な単語の各々の発生確率の前記計算において、音声グループと書記素との対応のペア間の遷移確率の値が考慮されることを特徴とする請求項２〜９のいずれかに記載の方法。
トレーニングステップをさらに含み、
前記トレーニングステップが、順に、
所定のトレーニングセットの前記音素と前記文字との間の、音声グループと書記素との間のすべての対応を決定するステップ［ｄ１］と、
前記対応を優先度の順番に配置するステップ［ｄ２］と、
前記トレーニングセット中の各々の音声グループを対応する書記素と共に配列するステップ［ｄ３］と、
音声グループと書記素とのペア間の各々の遷移確率を計算するステップ［ｄ４］とを含むことを特徴とする請求項１〜１０のいずれかに記載の方法。
前記ステップ［ｄ１］が、
最も典型的な音声グループと書記素とのペアの第１グループの入力を受け付けるサブステップ［ｄ１１］と、
前記トレーニングセット中の各々の単語を分節し、前記第１グループに含まれていない音声グループと書記素とのペアを含むことにより分節されることができない単語を検知するサブステップ［ｄ１２］と、
前記サブステップ「ｄ１２」の分節を完成するために必要とされる前記音声グループと書記素とのペアの入力を受け付け、前記トレーニングセット中に含まれるすべての前記音声グループと書記素とのペアを用いて、前記第１グループを完成させるサブステップ［ｄ１３］とを含むことを特徴とする請求項１１に記載の方法。
配列する前記ステップ「ｄ３」が再帰的であり、Ｖｉｔｅｒｂｉのアルゴリズムを使用することを特徴とする請求項１１又は１２のいずれかに記載の方法。
前記ステップ［ｄ４］が、さらに、前記トレーニングセット中に含まれない音声グループと書記素とのペアの遷移確率を計算することを特徴とする請求項１１〜１３のいずれかに記載の方法。
前記トレーニングセット中に含まれない音声グループと書記素とのペアの遷移確率の前記計算が、前記トレーニングセット中に含まれない音声グループと書記素とのペアの前記遷移確率Ｐ（ｃ_ｉ｜ｃ_ｉ−１）を、前記トレーニングセット中に含まれる音声グループと書記素とのペアのより小さなオーダーの遷移確率を用いて、数式

を用いた内挿によって求めることにより実行され、
ここで、分子の第１項は、前記トレーニングセット中のｃ_ｉ−１からｃ_ｉへの遷移の総数であり、数式

を用いて計算された割引係数Ｄが減算され、
ここで、Ｎ_１（ｃ_ｉ−１ｃ_ｉ）は、トレーニングセット中で正確に一度起こるシーケンスｃ_ｉ−１ｃ_ｉの回数であり、Ｎ_２（ｃ_ｉ−１ｃ_ｉ）は、正確に二度起こるシーケンスｃ_ｉ−１ｃ_ｉの回数であり、
Ｐ（ｃ_ｉ）は、ｃ_ｉに先行する異なるｃ_ｉ−１の数と、前記トレーニングセット中で見つかった異なるシーケンスｃ_ｉ−１ｃ_ｉの総数との間の係数であり、数式

を用いて計算され、
ここで、Ｎ_１＋（^●ｃ_ｉ）は、前記トレーニングセット中の対応ｃ_ｉに先行する異なる対応の総数であり、

で定義され、
Ｎ_１＋（^●●）は、前記トレーニングセット中に現れる異なる組み合わせｃ_ｉ−１ｃ_ｉの総数であり、
λ（ｃ_ｉ−１）が、数式

を用いて計算されることを特徴とする請求項１４に記載の方法。
請求項１〜１５の少なくともいずれか１項に記載の方法を実行するのに適した、音素をテキストに変換するための手段を含むことを特徴とする、コンピュータプログラムを実行するのに適した実行環境を備えるコンピュータシステム。
請求項１〜１５の少なくともいずれか１項に記載の方法を実行するための適切な実行命令を含むことを特徴とする、コンピュータの内部メモリ内に直接にロードされ得るコンピュータプログラム。
請求項１〜１５の少なくともいずれか１項に記載の方法を実行するための適切な実行命令を含むことを特徴とする、コンピュータによる使用に適した記録媒体に記録されたコンピュータプログラム。