JP2006243728A - 音素をテキストに変換する方法、そのコンピュータシステム、及びコンピュータプログラム - Google Patents
音素をテキストに変換する方法、そのコンピュータシステム、及びコンピュータプログラム Download PDFInfo
- Publication number
- JP2006243728A JP2006243728A JP2006052438A JP2006052438A JP2006243728A JP 2006243728 A JP2006243728 A JP 2006243728A JP 2006052438 A JP2006052438 A JP 2006052438A JP 2006052438 A JP2006052438 A JP 2006052438A JP 2006243728 A JP2006243728 A JP 2006243728A
- Authority
- JP
- Japan
- Prior art keywords
- words
- word
- grapheme
- training set
- group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000004590 computer program Methods 0.000 title claims abstract description 9
- 238000012549 training Methods 0.000 claims description 45
- 230000007704 transition Effects 0.000 claims description 26
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000013518 transcription Methods 0.000 abstract description 7
- 230000035897 transcription Effects 0.000 abstract description 7
- 230000015572 biosynthetic process Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000010365 information processing Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 230000001594 aberrant effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
【課題】音声辞書の中で特徴付けられていない単語についての綴り字表記の生成を可能とすること。
【解決手段】変換される、単語を形成する音素の有限なシーケンスを読み込むステップ[a]と、複数の表記可能な単語を生成するステップ[b]と、複数の前記表記可能な単語のうちの1つを正しい単語として選択するステップ[c]とを含むことを特徴とする、音素をテキストに変換する方法、そのコンピュータシステム、及びコンピュータプログラムを提供する。
【選択図】図1
【解決手段】変換される、単語を形成する音素の有限なシーケンスを読み込むステップ[a]と、複数の表記可能な単語を生成するステップ[b]と、複数の前記表記可能な単語のうちの1つを正しい単語として選択するステップ[c]とを含むことを特徴とする、音素をテキストに変換する方法、そのコンピュータシステム、及びコンピュータプログラムを提供する。
【選択図】図1
Description
本発明は自動音声認識の分野に関し、より詳細には、音素を書かれるテキスト(written text)(以下、単にテキストとも記す)に変換する方法、言いかえれば、音声表記(phonetic transcription)から綴り字表記(orthograpic transcription)(即ち、テキスト)を生成することができる方法に関する。
さらに、本発明は、本発明に係る方法を実行するのに適した、音素をテキストに変換するための手段を含むコンピュータプログラムを実行するのに適した実行環境を備えるコンピュータシステムに関する。
また、さらに、本発明は、コンピュータの内部メモリ内に直接にロードされ得る、本発明に係る方法を実行するための適切な実行命令を含む、コンピュータによる使用に適した記録媒体に記録されたコンピュータプログラムに関する。
音素をテキストに変換する問題は、科学界からあまり注目を集めていない。従来のほとんどの音声認識システムは、単語及びそれら単語の各々の音声表記を含む音声辞書(phonetic dictionary)の使用により、その問題を解決してきた。通常、これら従来のシステムによって使用される辞書は、固有名詞、姓、地名なども含んでいるが、少なくとも一般的な適用については、音節(audio passage)で特徴付けられるすべての単語を含むことを保証することができない。従って、辞書の中で特徴付けられていない単語が現れる場合のために、これら従来のシステムに代替のシステムを提供することが必要である。
音素のテキストへの変換に関する発行された文献のほとんどは、音声生成システムに取り組む研究グループによって書かれている。言いかえれば、テキストを音素に変換するという逆の問題について書かれている。これら文献に記載されたシステムのうちの多数は双方向システムである。従って、それらのシステムは、音素をテキストに変換するためにも使用され得る。
これらのシステムは2つのカテゴリーに大きく分類される。入力音声表記をテキストに変換するために基準を用いて働くシステム、及び音声辞書に含まれる単語との部分的な類似点を検索することにより、音声表記の綴りのオーソグラフィ(orthography)を推定しようとするシステムである。
第1のグループは、Fisher[非特許文献1]の研究と、Yannakoudakis及びHutton[非特許文献2]の研究とを含む。第2のグループでは、隠れマルコフモデルに基づいたParfitt及びSharman[非特許文献3]の研究並びにAlleva及びLee[非特許文献4]の研究、ニューラルネットワークに基づいたLucas及びDamper[非特許文献5]によるシステムに、又は発音の類似によるMarchand及びDamper[非特許文献6]の方法が強調するに値する。これら戦略的な意味でのグループの間に、階層構造を使用して形態論の情報を含んだMeng[非特許文献7]による研究がある。
一般に、各々のアルゴリズムは、それぞれ異なる辞書を使用して検証されるために、様々なアルゴリズムの性能を比較するのは容易ではない。従って、各々のシステムの誤り及び認識割合は、各々の辞書中の内容が異なることによりばらつきが生じ得るという問題がある。
W.M. Fisher. "A Statistical text-to-phone Function Using Ngrams and Rules", ICASSP 1999, pp. 649-652. E.J. Yannakoudakis, and P.J. Hutton. "Generation of spelling rules from phonemes and their implications for large dictionary speech recognition", in Speech Communication, vol. 10, pp.381-394, 1991. S.H. Parfitt and R.A. Sharman. "A bidirectionnal model of English pronunciation". In Proceedings of the European Conference on Speech Communication and Technology (Eu-rospeech) , volume 2, pages 801-804, September 1991. Alleva, F., Lee, K.F. "Automatic new word acquisition: spelling from acoustics". Pro-ceedings of the DARPA Speech and Natural Language Workshop, pp. 266-270, October 1989. S.M. Lucas and R. I. Damper. "Syntactic neural networks for bi-directional text-phonetic translation", in Talking Machines: Theories, Models and Designs. Elsevier Science Publish-ers. Y. Marchand and R. Damper. "A Multi-Strategy Approach to Improving Pronunciation by Analogy", in Computational Linguistics, vol. 26, un. 2, pp. 195-219, 2000. H. Meng. "A hierarchical representation for bi-directional spelling-to-pronunciation/pronunciation-to-spelling generation", Speech Communication 2000, no. 33, pp. 213-239. Viterbi, A.J. "Error bounds for convolutional codes and an asymptotically optimum de-coding algorithm", in IEEE Transactions on Information Theory IT-13(2), 260-269, 1967.
W.M. Fisher. "A Statistical text-to-phone Function Using Ngrams and Rules", ICASSP 1999, pp. 649-652. E.J. Yannakoudakis, and P.J. Hutton. "Generation of spelling rules from phonemes and their implications for large dictionary speech recognition", in Speech Communication, vol. 10, pp.381-394, 1991. S.H. Parfitt and R.A. Sharman. "A bidirectionnal model of English pronunciation". In Proceedings of the European Conference on Speech Communication and Technology (Eu-rospeech) , volume 2, pages 801-804, September 1991. Alleva, F., Lee, K.F. "Automatic new word acquisition: spelling from acoustics". Pro-ceedings of the DARPA Speech and Natural Language Workshop, pp. 266-270, October 1989. S.M. Lucas and R. I. Damper. "Syntactic neural networks for bi-directional text-phonetic translation", in Talking Machines: Theories, Models and Designs. Elsevier Science Publish-ers. Y. Marchand and R. Damper. "A Multi-Strategy Approach to Improving Pronunciation by Analogy", in Computational Linguistics, vol. 26, un. 2, pp. 195-219, 2000. H. Meng. "A hierarchical representation for bi-directional spelling-to-pronunciation/pronunciation-to-spelling generation", Speech Communication 2000, no. 33, pp. 213-239. Viterbi, A.J. "Error bounds for convolutional codes and an asymptotically optimum de-coding algorithm", in IEEE Transactions on Information Theory IT-13(2), 260-269, 1967.
本発明は、上記課題を解決するためになされたものであり、その目的は、音声辞書の中で特徴付けられていない単語についての綴り字表記の生成を可能とすることにある。
上記目的の達成のために、本発明に係る音素をテキストに変換する方法は、
変換される、単語を形成する音素の有限なシーケンスを読み込むステップ[a]と、
複数の表記可能な単語を生成するステップ[b]と、
複数の前記表記可能な単語のうちの1つを正しい単語として選択するステップ[c]とを含むことを特徴とする。
変換される、単語を形成する音素の有限なシーケンスを読み込むステップ[a]と、
複数の表記可能な単語を生成するステップ[b]と、
複数の前記表記可能な単語のうちの1つを正しい単語として選択するステップ[c]とを含むことを特徴とする。
実際、音素をテキストに変換する問題では、複雑度の大部分は、システムが扱う言語及び音域(register)に依存することが認められてきた。例えばスペイン語のように、音と文字との間の対応のレベルが高い言語では、音素をテキストに変換することは比較的容易である。しかし、例えば英語又はフランス語のような、音と文字との間の対応のレベルが低い他の言語では、音素をテキストに変換することは容易ではない場合がある。
英語を例にとると、1つの同じ音素はいくつかの異なる方法で書き表され得ることが理解される。例えば、音/k/は、単語「cat」中では文字cで書き表されるが、単語「kitten」中では文字kで書き表される。これに反して、1つの同じ文字セットは異なる音声表記を有することができる。例えば、文字の組み合わせoughは、単語「enough」中では/ah f/と発音されるが、単語「though」中では/ow/、単語「thought」中では/ao/、単語「plough」中では/aw/と発音される。これに加えて、1つの言語において、他の言語から借用した新語又は単語が、特に技術的な分野において、絶えず取り入れられる。それら借用した新語又は単語の発音は、それらが取り込まれた言語の実際の発音に適合されるが、それら借用した新語又は単語はオリジナルの綴りを維持する。
この理由で、音声辞書にのみ基づいて表記する試みは、非常に広範囲でかつ永続的に更新される辞書が必要であるという困難に直面する。
この意味で、本発明に係る方法は、表記を2つのステージに分類する。第1ステージでは、単語を形成する有限な音素シーケンスが文字シーケンスで表記される(実際、複数の候補の文字のシーケンスが生成される)。第2ステージでは、どの文字シーケンスが正しいかを分析する。その結果、上記問題を2つのステップに分類し、各ステップに対して最も適切な対策を適用することができる。このように、本発明に係る方法は、音素シーケンスを文字シーケンスで表記する際に、言語の発音ルールを考慮に入れることができ、辞書の中で特徴付けられていない書き単語(written word)(以下、単語とも記す)でさえも生成することができる。また、本発明に係る方法は、複数の候補の単語を生成することができる。好ましくは、後述するが、各々の単語の「適合度」を示す或る基準によって順序付けることができる。また、後続の分析ステップは、例えば、綴り字のルール、辞書の照会結果、又は他の任意のタイプの言語モデルに対する照会結果等を適用することにより、前のステップで生成された書き単語の中から、正しい単語(又は正しさの確率がより高い単語)を選択することができる。いずれの場合においても、本発明に係る方法は、後続の分析ステップが書き単語の適合度を確認することができない場合であっても、少なくとも1つの書き単語を生成することができる。
本発明に係る方法は、音素シーケンスを文字シーケンスで表記するのに適している。しかしながら、入力シーケンス(音素シーケンス)が、出力シーケンスと同じ数の要素を持っていることが必要とされる。音素と文字との間の対応が1対1でなく、実際、(上記で既に示されたように)音素と文字との間の一定の割合をさえ維持しないため、音素をグループ化して、私たちが音声グループと呼ぶものにすることが必要であり、同時に、文字をグループ化して、私たちが書記素と呼ぶものにすることが必要である。その結果、音声表記又は入力シーケンスは、綴り字表記又は出力シーケンス(書記素で構成された)と同じ数の要素(音声グループ)を持っている。より詳細には、音声グループは、書記素に対応する1又は複数の音素のセットとして定義される。同様に、書記素は、音声グループに対応する1又は複数の文字として定義される。
また、本発明に係るコンピュータプログラムを実行するのに適した実行環境を備えるコンピュータシステムは、本発明に係る方法を実行するのに適した、音素をテキストに変換するための手段を含むことを特徴とする。
また、本発明に係るコンピュータの内部メモリ内に直接にロードされ得るコンピュータプログラムは、本発明に係る方法を実行するための適切な実行命令を含むことを特徴とする。
さらに、本発明に係るコンピュータによる使用に適した記録媒体に記録されたコンピュータプログラムは、本発明に係る方法を実行するための適切な実行命令を含むことを特徴とする。
本発明の他の利点及び特徴は、以下の記述から理解されることができる。本明細書において、本発明の例示的な好ましい実施の形態は、添付の図面を参照して記述されている。
尚、以下において説明する本発明に係る方法の手順は、少なくとも演算装置(CPU)、内部メモリ、記録装置、及び入力手段を備えるコンピュータにより実行され得る。本発明に係る方法の手順に従って演算装置が情報処理を行い、該情報処理の結果を内部メモリ又は記録装置に記憶する。以下、演算装置が行う情報処理手順を説明する。
本発明に係る音素をテキストに変換するいくつかの方法を以下に述べる。音素をテキストに変換するために、単語を形成する各々の音声グループに、それを表記可能なすべての書記素が割り当てられる。言いかえれば、可能なすべての綴り字表記、及び変換が望まれる音素のセットを表現することができる書記素の各々の可能な組み合わせの合計確率が計算される。そして、計算された確率及び言語モデルを考慮に入れ、すべての可能な組み合わせの中から最良な書記素の組み合わせが選択される。特に、本発明に係る方法は、以下に示す3つのステップ[a]、[b]、及び[c]を含む。
変換される、単語を形成する音素の有限なシーケンスを読み込むステップ[a]、
複数の表記可能な単語を生成するステップ[b]、
複数の前記表記可能な単語のうちの1つを正しい単語として選択するステップ[c]。
変換される、単語を形成する音素の有限なシーケンスを読み込むステップ[a]、
複数の表記可能な単語を生成するステップ[b]、
複数の前記表記可能な単語のうちの1つを正しい単語として選択するステップ[c]。
好ましくは、本発明に係る方法は、複数の表記可能な単語を生成する前記ステップ[b]が、以下に示すステップを順番に含む。
各々の音声グループに対して、該音声グループに関連するすべての可能な書記素を決定するステップ[b1]、
前記決定するステップ[b1]で決定された前記書記素からすべての前記表記可能な単語を形成するステップ[b2]、
前記ステップ[b2]の複数の前記表記可能な単語の発生確率を計算するステップ[b3]。
各々の音声グループに対して、該音声グループに関連するすべての可能な書記素を決定するステップ[b1]、
前記決定するステップ[b1]で決定された前記書記素からすべての前記表記可能な単語を形成するステップ[b2]、
前記ステップ[b2]の複数の前記表記可能な単語の発生確率を計算するステップ[b3]。
すべての単語の形成は、厳密な意味で理解されてはならない。それによって、すべての可能な単語を含むリストは必ず生成されるけれども、最終的にすべての可能な書記素の組み合わせが生成されるとは限らないが、代わりに、すべての可能な書記素の組み合わせを考慮又は提案するには十分である。従って、以下に記述される例で理解することができるように、このステップを実行する一つの方法は、以下に述べるように、すべての可能な単語を実際に形成せずに、すべての可能な音素間の相互連結のネットワークを提案することによる。その方法では、すべての単語を系統的に形成する必要がない。というのも、代わりに、より高い発生確率の単語を順序正しく初めに形成して行き、発生確率が所定の値に到達した場合、又は形成した単語の総量が所定の値に到達した場合に、より低い発生確率の残りの単語を形成する必要なしに単語の形成を中断することができる。この方法は、例えば、可能な単語を形成するため及びそれらの発生確率を計算するためのViterbiのアルゴリズム[非特許文献8]を使用することにより可能である。従って、この場合、用語「形成」が実際には「提案」又は「定義」を意味するということが理解されなければならない。
さらに、同じ理由で、例えば上記Viterbiのアルゴリズムが使用される場合に、すべての単語の発生確率がいつも計算されるとは限らないため、複数の可能な単語の発生確率が計算されるが、必ずしも全ての単語の発生確率が計算される訳ではないことが次のステップにおいて示される。
これに反して、可能な単語が1つだけ存在する場合、例外的に、用語「複数」は、本当に単一の発生確率が計算される場合をも含むということが理解されなければならない。
有利には、前記表記可能な単語のうちの1つを正しい単語として選択する前記ステップ[c]が、以下に示すステップを順に含む。
計算された前記発生確率に従ってステップ[b3]の前記表記可能な単語を選択し、より高い発生確率の単語を含むサブグループを形成するステップ[c1]。
計算された前記発生確率に従ってステップ[b3]の前記表記可能な単語を選択し、より高い発生確率の単語を含むサブグループを形成するステップ[c1]。
実際、既に述べたように、上記の代案はすべての表記可能な単語を得、正しい単語を選択する際に、それらすべてを考慮に入れることである。しかしながら、生成された可能な単語の量は非常に多いかもしれず、又は、正しい単語を選択するステップは、生成された可能な単語の量によっては、多かれ少なかれ煩わしいかもしれない。それゆえに、処理される可能な単語の量をなんらかの方法で制限することが賢明かもしれない。発生確率が計算されるという事実は、この発生確率がフィルタリングツールとして使用されることを可能にし、その結果、より高い発生確率の可能な単語のみが生成され、上記サブグループを形成する。このように、可能な単語を生成するステップは能率が向上され、さらに、正しい単語を選択するステップも確実に能率が向上される。これは特に効率的な方法であり、可能な単語が発生確率の降順で生成されることを可能にする前述のViterbiのアルゴリズムを使用することにより行うことができる。それによって、前記サブグループがより高い発生確率の可能な単語を含むように、前記サブグループを形成することが可能となる。
おおむね、本明細書の詳細な説明と特許請求の範囲とには、特定の順序に従ってステップが記述されている。しかしながら、この順序は単なる例示的な順序であり、必ずしも様々なステップの時間系列ではないことが理解されなければならない。言いかえれば、本発明に係る方法は、本発明の概念と適合する他の任意の時間系列のステップを実行することができる。さらに、2つ以上のステップが、全体的又は部分的に並列に実行されることもできる。特許請求の範囲がこれらの可能性の何れをも含むことが理解されなければならない。例えば、上記セクションの場合においては、Viterbiのアルゴリズムを使用する際に、ステップ[b2]、[b3]、及び部分的に[c1](サブグループの形成が関係する限りにおいて)が、同時に実行される。
好ましくは、前記サブグループは、より高い発生確率を持つ最大500個の表記可能な単語から構成される。より好ましくは、より高い発生確率を持つ最大100個の表記可能な単語から構成される。実際、これらの値は、必要なシステムの複雑度(例えば処理速度といった技術的な要求に起因する)と得られる結果の質との間のよいバランスであると検証されてきた。他方では、サブグループが少なくとも10個の可能な単語を持っていることが有利であり、論理上は、可能な単語のすべてのグループは、いつでも10個以上の可能な単語を持っている。そうでなければ、最終的に正しいものとなる可能な単語を無視する危険性が非常に増大し、本発明に係る方法を使用して良い結果を得ることができない。
有利には、表記可能な単語のうちの1つを正しい単語として選択する前記ステップ[c]が、以下に示すステップを更に含む。
言語モデルにおいて、前記サブグループ中の表記可能な単語を前記ステップ[c1]から検索するステップ[c2]。
言語モデルにおいて、前記サブグループ中の表記可能な単語を前記ステップ[c1]から検索するステップ[c2]。
実際、一旦、可能な単語が形成されると、正確な単語が選択されるに違いない。有利には、言語モデルが使用され、言語モデルは、例えば綴り字のルール又は通常の辞書であることができ、正しい単語は、最も高い発生確率のものとすることができ、その言語モデルによれば正しい。言いかえれば、正しい単語は、綴り字のルールを満たす又は通常の辞書の中で特徴付けら単語である。しかしながら、好ましくは、言語モデルは、1次の言語モデル、言いかえれば、例えば、各々の単語が使用される頻度(言語確率(linguistic probability))を含む辞書である。2次の言語モデル、言いかえれば、前の単語に従って各々の単語が使用される頻度を考慮に入れる辞書を使用することにより、システムの完成度をより更に向上させることが可能である。
これら最後の2つの場合(1次及び2次の言語モデル)では、正しい単語を選択する方法は異なる。即ち、可能な単語の部分的なセット(又は完全なセット)中の、すべての可能な単語の言語確率が求められ、より高い言語確率を持つ可能な単語が、正しい単語として選択される。言いかえれば、発生確率が部分的なセットの形成にのみ使用される(上記部分的なセットの形成を予測する変形方法を使用する場合)のに対して、最終的に選ばれる単語は、言語確率により選択される。このように、正しい単語を選択するこの方法は、可能な単語の部分的なセット、又は可能な単語の完全なセットに適用され得る。2つの択一的な方法の何れかを選択することは、再び、使用されるコンピュータシステムの技術的な複雑度と得られる結果の質との間のバランスの問題である。
本発明に係る方法は、言語モデルの中で検索された可能な単語が見つからない状況を、特に有利な方法で解決することができ、計算された高い発生確率を持つ可能な単語が選択される。実際、可能な単語の「適合度」を決定するための2つのパラメータ(その発生確率及びその言語確率)が存在するため、1つの決定するパラメータ(言語確率)が失敗しても、選択を行うための別のパラメータ(発生確率)がまだ使用できる。それゆえに、システムは非常に自律的であり、新しい及び/又は未知の単語を伴うテキスト表記を、満足な結果で取り扱うことができる。
好ましくは、可能な単語の各々の発生確率の計算は、前記可能な単語を形成する音声グループと書記素との対応のペア間の遷移確率の値を考慮に入れる。
音声表記をテキストに変換するために、好ましくは最初に、前記音声表記を書き表すことができる書記素の可能なすべての組み合わせ(又は少なくとも複数の組み合わせ)が生成される。このプロセスについては、その全体が手動で入力された、又は好ましくは、トレーニングステップ中に見つけられた、音声グループと書記素との対応が考慮に入れられる。このステップは、ノードが互いにリンクされた大きなネットワーク(図1を参照)を提供する。各々のノードは、音声グループと書記素との対応を表わし、また、ノード間のリンクは、音声グループと書記素との対応の各々のペア間の遷移を表し、それらリンクに遷移確率が割り当てられる。一旦、ネットワークが形成されると、特定の音声表記のための、最も蓋然的な綴り字表記Nが順番に(降順で)計算され、最初の位置が最も蓋然的な表記によって始められる可能な単語のリストを生成する。一旦、リストが編集されると、リストは、1次の言語モデル(より高次のモデルを使用することもできる)を使用して再度整列される。言いかえれば、言語モデルの言語中で頻度の高い、リスト中の単語が、初めにどんな意味も持っていない、又は綴り字のエラーを含んでいない他の単語に先だって、最初の位置を占める。代わりに、上記で述べたように、選択された言語モデルに従って、辞書又は綴り字のルールによって検証され得る最も蓋然的な単語を選択することが十分かもしれない。
各々の単語が、その音声表記及びその綴り字表記を連帯して形成されることが考えられる。順に並ぶこれらの表記の各々は、記号のシーケンスで構成される。piを音素、liを文字として、単語sの音声表記がφ(s)=p1p2…pmで定義され、単語sの綴り字がω(s)=l1l2…lmで定義される場合、2つの表記は、音声グループfi中の音素及び書記素gi中の文字をグループ化することにより整列され得る。それにより、新しい音声表記φ(s)=f1f2…fn及び新しい綴り字表記ω(s)=g1g2…gnが同数の記号を持ち、それら音声表記fiと綴り字表記giとの間に一対一の対応が存在する。その後、単語sは、音声グループと書記素との間の対応によって形成された新しい記号を使用して、音声表記及びその綴り字表記で連帯して表現され得る。ci=<f,g>iが音声グループfと書記素gとの間の対応を表すとして、新しい表記がγ(s)=c1c2…cnで定義される場合、結合された確率は次式のように単語sに関連付けられることができる。
その後、音声表記から綴り字表記へ変換することは、音声グループf1nのシーケンスが与えられた場合、結合された確率P(γ(s))を最大化する書記素のシーケンスg1n *を見つけることと等価である。形式的には、それは次式のように表現され得る。
理論上、確率P(γ(s)|f1n)は、同じ単語sに帰着する音声グループ及び書記素の、全ての可能な配列の合計でなければならない。しかし実際には、検索プロセスを単純化するために、最大の確率を持つ配列のみが考慮される。実際、一旦、ネットワークのノードが形成されると、同じ綴り字表記に至る2つの異なる経路(従って異なる記号を伴う)が存在するかもしれない。例えば、英単語「talk」及びその音素T AO Kを考えると、可能なネットワークの経路は、T−t、AO−a、K―lkであることができ、別の経路では、T−t、AO−al、K−kであり得る。それらは同じ解答「talk」に至る2つの異なる経路である。第1の経路が確率0.32を持ち、第2の経路が確率0.15を持っている場合、単語「talk」の表記の実際の確率は、これら2つの確率の合計になる。言いかえれば、0.47になる。その後、綴り字表記の合計確率を計算するために、ノードネットワークの中で生成された綴り字表記のすべての可能な確率が計算されなければならないだろう。それゆえに、それらすべての確率がとにかく計算されなければならないため、順序正しい方法で確率が得られることを可能にするViterbiのアルゴリズムを使用する事に意味はないだろう。
このことが暗示する計算上のコストを回避するためには、近似を行い、ある綴り字表記(例えば、「talk」)の確率が、最も蓋然的な綴り字表記の確率であると仮定することが好ましい。言いかえれば、上記の例において、単語「talk」の確率が0.47の代わりに0.32であると仮定されるであろう。概ね、結果は、この近似によって著しく影響されない。
音声表記からテキストを生成するために、例のリスト(トレーニングセット)から、2つの表記(音声グループ及び書記素)間に存在する暗黙の関係を学習するための、トレーニング又は学習のステップをシステムが前もって実行することが有利である。一旦システムがトレーニングされると、表記がトレーニングセットに含まれていなくても、システムは任意の音声表記のテキストバージョンを生成することができる。
好ましくは、トレーニングステップは3つのステップを含む。第1のステップ(ステップ[d1])では、トレーニングセット中の、音素又は音素のグループ(音声グループ)と文字又は文字のグループ(書記素)との間に存在するすべての対応が決定される。その結果、各々の単語は同数の音声グループ及び書記素を持っており、各々の音声グループは書記素との少なくとも1つの対応を持っている。それゆえに、上記で述べたように、1個以上の文字と単一の音素との間、及びそれらを逆にした間に、対応が存在し得る。一旦これらの基礎的な対応が見つけられると、それら対応は優先度の順序で自動的に配列される(ステップ[d2])。また、それら対応は、トレーニングセット中の各々の単語を記号へ配列させるために使用される(ステップ[d3])。即ち音声グループに対応する各々の書記素へ配列させるために使用される。優先度の順序は、単語中で2つの配列が可能な場合、「二重(double)」の書記素には、単一の書記素よりも高い優先度が与えられなければならないことを意味する。実際、トレーニングセット中の単語の配列が優先度なしに確立されると、特に、二重文字(double letter)の場合に、いくつかの不正確な配列が生成され得る。
例えば、単語ABERRANTは以下のように配列され得る。*A B E RR A N T*−#AE B EH R AH N T#では無く*A B ER R A N T*−#AE B EH R AH N T#(後者のケースでは、書記素ERが音声グループEHに関連付けられ、書記素Rが音声グループRに関連付けられる。それに対して、前者のケースでは、書記素Eが音声グループEHに関連付けられ、書記素RRが音声グループRに関連付けられる)。それゆえに、単語中で両方の配列が可能な場合、単一の書記素の代わりに「二重」の書記素を選択する優先度の順位を設定することが有利である。一旦すべての単語が配列されると、音声グループと書記素とのペア間の遷移確率が見積もられる(ステップ[d4])。また、これらの確率は、音声表記をテキストに変換するために後のステップで使用される。
音声辞書はシステムをトレーニングするために使用される。この辞書は、それぞれの音声表記を備える各々の単語を含む。しかしながら、概ね、音声辞書は、どの文字又は文字のグループが各音素又は音声グループに対応するか明示しないであろう。好ましくは、このプロセスは以下のように行われる。
初めに、システムは、各音素を表現する最も典型的な書記素のリストを提供される(ステップ[d11])。
これらの対応を用いて、システムは、音声表記及び書記素表記が同数の記号を持つように、トレーニングセット中の各々の単語を分節(segment)しようとする。システムが、既存の対応を用いて分節することができない単語を検知すると、システムは、ユーザに新しい音声グループと書記素との対応を入力するように要求し、ユーザからの入力を受け付ける(ステップ[d12]及び[d13])。トレーニングセット中で特徴付けられた可能な音声グループと書記素との対応のすべてがリストに編集されるまで、同様に繰り返される。
一旦このリストが完成されると、システムはすべての単語を再度配列する。しかしこの時、システムは、入力として提供される対応だけでなく、トレーニングセット中で見つかったすべての対応を考慮に入れる(上述のステップ[d13])。好ましくは、配列プロセスは再帰的であり、Viterbiのアルゴリズム[非特許文献8]を使用する。
トレーニングセットが十分に大きく、可能なすべての観察の様々なオペレーションを含んでいる場合、この近似は有効である。しかしながら、ほとんどの場合、遷移確率の良い見積を可能にする大きなトレーニングセットを持つことは難しい。
例えば、シーケンスcxcyがトレーニングセット中で起こらないという事実は、実際の環境ではそのシーケンスを見つけることができないことを暗示しない。それゆえに、トレーニングセット中に含まれないシーケンスの確率をも見積もることを可能にする方法を見つけることが有利である。
また、好ましくは、これは、次式のように、より小さなオーダー(minor order)の見積もりを用いて、P(ci|ci−1)の見積もりを、内挿することにより達成される(本明細書及び特許請求の範囲では、用語「内挿」は、本技術分野において一般的であるように、存在しない値を見積もるための、下位オーダーのモデルを用いた上位オーダーのモデルの組み合わせを意味することが理解されなければならない)。
2つの記号のシーケンスのすべてがトレーニングセット中で1回、2回、又はそれ以上の回数現れるか、若しくはトレーニングセット中に現れていないかによらず、この数式は、それら2つの記号のシーケンスのすべてについて有効である。言いかえれば、再計算(通常スムーシングと呼ばれる)の後、「従来の」方法で見積もられたすべての確率は、それらの「スムージングされた」値に変化するであろう。また同時に、トレーニングセット中に現れないシーケンスにも値が割り当てられるであろう。両方の場合において、新しい値は、上記の数式の計算結果である。Dは、スムージングされるすべての確率について同じ値を持つ定数である。
ここで、N1(ci−1ci)は、トレーニングセット中で正確に一度起こるシーケンスci−1ciの回数として定義され、N2(ci−1ci)は、正確に二度起こるシーケンスci−1ciの回数として定義される。この割引係数の目的は、現れない遷移間で、それらの確率が類似するであろうと仮定して、重みを再配分するために、トレーニングセット中に希に起こる遷移の重みを減少させることにより、確率の見積もりのバランスを保とうと努めることである。好ましくは、値Dは上記に示されたものである。しかしながら、満足な結果を示すことができる他のDの値を定義することができる。
ここで、
であり、N1+(●●)は同様に定義される。即ち、N1+(●ci)は、トレーニングセット中の対応ciに先行する異なる対応の総数であり、N1+(●●)は、トレーニングセット中に現れる異なる組み合わせci−1ciの総数である。
一旦遷移確率が見積もられると、システムは音素のシーケンスをテキストに変換する準備ができている。各々の音素又は音素のグループについて、システムは、書記素中のすべての可能な対応を検索し、すべての可能な対応の組み合わせを用いて、ノードのネットワーク、即ち、可能な単語を形成するためのネットワーク(グラフとも呼ばれる)を生成する。
このグラフでは、各々のノードはそれぞれ音声グループと書記素との対応を表現する。また、2つのノード間の各々のリンクは、関連する遷移確率を持っている。
一旦グラフが作成されると、Viterbiのアルゴリズム[非特許文献8]及びトレーニングステップ中で計算された遷移確率を使用して、最も蓋然的なNの組み合わせを遷移確率の降順で検索することが可能である。その結果得られるリスト中で、最も蓋然的なシーケンスが最初の位置を占め、最も蓋然的でないものが最後の位置を占める。しかしながら、リスト中の最初のシーケンスが、原則としてスタートするスペースを形成するのだが、実際の単語に対応しないかもしれない。
その後、私たちは、最良の結果をフィルターするために、言語モデルを適用することができる。言語モデルに含まれる情報は、モデルのオーダーに依存する。
1次の言語モデルは、各々の単語の英語での確率を含むであろう。各々の単語のその固有の言語での確率と同様に、2次の言語モデルもまた、ある単語から別の単語への遷移確率を含むであろう。1次の言語モデルを使用すれば、音素をテキストに変換する最終結果は、リスト中のすべての書記素シーケンスから、英語での最も蓋然的なシーケンスを選択することにより生成されるであろう。
上述の通り、システムは、辞書を用いずに完全に変換することができ、例えば確率的な基準を使用して、複数の可能な単語の中から、最も適切な単語を選択するための選択基準をさらに持つことができる。
辞書又は言語モデルが使用される唯一の理由は、前のステップにおいて、既に文字を用いて書かれた単語が実際に存在するかどうかを調査する(また、それらが存在する場合には、それらの言語確率を決定する)ためである。
このように、システムが、保証され得る質を同時に伴うテキストで表記を常に生成することができるので、両方のステップを組み合わせることにより、非常に堅固なシステムが得られる。質が保障される理由は、実際、たいていの書き単語が、辞書又は言語モデル中に存在すれば、正しいと確認されるからである。
例1:トレーニング
トレーニングセット又は辞書が、システムをトレーニングするために使用される。例えば、英語のトレーニングセットを想定すると、
トレーニングセット又は辞書が、システムをトレーニングするために使用される。例えば、英語のトレーニングセットを想定すると、
トレーニングセットは、音素と文字との間の対応を示さない。それゆえに、綴り字表記と音声表記との間の配列ステップを実行することが必要である。システムがこの配列を実行することができるように、音素と文字との間の可能な対応の初期セット、例えば次のような初期セットが供給されなければならない。
各ペアの1番目の記号が音素又は音声グループを表現し、2番目の記号が書記素又は文字を表現する。ユーザによって援助される、音声グループと書記素との間の新しい対応が見つけられるプロセスの後、トレーニングセット中に含まれる単語又は辞書が配列される。
その後、音声グループと書記素とのペアの間の遷移確率が計算される。
例2:音声シーケンスの表記
一旦遷移確率が得られると、任意の音声表記の綴り字表記を生成することができる。例えば、以下の音声表記の綴り字表記の取得が望まれる場合、
#AE K T AH V EY T#
一旦遷移確率が得られると、任意の音声表記の綴り字表記を生成することができる。例えば、以下の音声表記の綴り字表記の取得が望まれる場合、
#AE K T AH V EY T#
システムは、各々のノードが音声グループと書記素との対応を表現し、各々の遷移が関連付けられた確率を持つ、単語のすべての可能な綴り字表記を備えるネットワークを生成する。図1にネットワーク例を示す。
一旦ネットワークが生成されると、最も蓋然的である500個の可能な表記が得られる。
その後、これらすべての可能な単語は、言語モデル、本実施例においては、1次の言語モデルで検索される。言いかえれば、各単語の出現する頻度のパーセンテージを含む辞書で検索される。最後に、言語モデルによる最も高い確率を持つ可能な単語が選択され、正しい単語として考えられる。本実施例において、これは次の単語である。
*ACTIVATE*
*ACTIVATE*
生成された可能な単語のいずれもが言語モデル中に見つからない場合、正しい単語は、最も高い遷移確率のものが選択される。本実施例において、それは次の単語である。
*ACTOVATE*
*ACTOVATE*
Claims (18)
- 音素をテキストに変換する方法であって、
変換される、単語を形成する音素の有限なシーケンスを読み込むステップ[a]と、
複数の表記可能な単語を生成するステップ[b]と、
複数の前記表記可能な単語のうちの1つを正しい単語として選択するステップ[c]とを含むことを特徴とする方法。 - 前記複数の表記可能な単語を生成する前記ステップ[b]が、順に、
各々の音声グループに対して、該音声グループに関連するすべての可能な書記素を決定するステップ[b1]と、
前記決定するステップ[b1]で決定された前記書記素からすべての前記表記可能な単語を形成するステップ[b2]と、
前記ステップ[b2]の複数の前記表記可能な単語の発生確率を計算するステップ[b3]とを含むことを特徴とする請求項1に記載の方法。 - 前記表記可能な単語のうちの1つを正しい単語として選択する前記ステップ[c]が、順に、
計算された前記発生確率に従ってステップ[b3]の前記表記可能な単語を選択し、より高い発生確率の単語を含むサブグループを形成するステップ[c1]とを含むことを特徴とする請求項2に記載の方法。 - 前記サブグループが、より高い発生確率を持つ最大500個の表記可能な単語から構成され、好ましくは、より高い発生確率を持つ最大100個の表記可能な単語から構成されることを特徴とする請求項3に記載の方法。
- 前記表記可能な単語のうちの1つを正しい単語として選択する前記ステップ[c]が、更に、
1つの言語モデルにおいて、前記ステップ[c1]によって形成された前記サブグループ中で前記表記可能な単語を検索するステップ[c2]を含むことを特徴とする請求項3又は4のいずれかに記載の方法。 - 前記表記可能な単語のうちの1つを正しい単語として選択する前記ステップ[c]が、
1つの言語モデルにおいて、前記ステップ[b]によって生成された前記表記可能な単語を検索するステップ[c1’]を含むことを特徴とする請求項1又は2のいずれかに記載の方法。 - 前記言語モデルが1次の言語モデルであることを特徴とする請求項5又は6のいずれかに記載の方法。
- 前記言語モデルが2次の言語モデルであることを特徴とする請求項5又は6のいずれかに記載の方法。
- 前記言語モデルの中で検索された前記表記可能な単語が見つからない場合に、計算された最も高い発生確率を持つ前記表記可能な単語を選択することを特徴とする請求項2〜8のいずれかに記載の方法。
- 前記表記可能な単語の各々の発生確率の前記計算において、音声グループと書記素との対応のペア間の遷移確率の値が考慮されることを特徴とする請求項2〜9のいずれかに記載の方法。
- トレーニングステップをさらに含み、
前記トレーニングステップが、順に、
所定のトレーニングセットの前記音素と前記文字との間の、音声グループと書記素との間のすべての対応を決定するステップ[d1]と、
前記対応を優先度の順番に配置するステップ[d2]と、
前記トレーニングセット中の各々の音声グループを対応する書記素と共に配列するステップ[d3]と、
音声グループと書記素とのペア間の各々の遷移確率を計算するステップ[d4]とを含むことを特徴とする請求項1〜10のいずれかに記載の方法。 - 前記ステップ[d1]が、
最も典型的な音声グループと書記素とのペアの第1グループの入力を受け付けるサブステップ[d11]と、
前記トレーニングセット中の各々の単語を分節し、前記第1グループに含まれていない音声グループと書記素とのペアを含むことにより分節されることができない単語を検知するサブステップ[d12]と、
前記サブステップ「d12」の分節を完成するために必要とされる前記音声グループと書記素とのペアの入力を受け付け、前記トレーニングセット中に含まれるすべての前記音声グループと書記素とのペアを用いて、前記第1グループを完成させるサブステップ[d13]とを含むことを特徴とする請求項11に記載の方法。 - 配列する前記ステップ「d3」が再帰的であり、Viterbiのアルゴリズムを使用することを特徴とする請求項11又は12のいずれかに記載の方法。
- 前記ステップ[d4]が、さらに、前記トレーニングセット中に含まれない音声グループと書記素とのペアの遷移確率を計算することを特徴とする請求項11〜13のいずれかに記載の方法。
- 前記トレーニングセット中に含まれない音声グループと書記素とのペアの遷移確率の前記計算が、前記トレーニングセット中に含まれない音声グループと書記素とのペアの前記遷移確率P(ci|ci−1)を、前記トレーニングセット中に含まれる音声グループと書記素とのペアのより小さなオーダーの遷移確率を用いて、数式
ここで、分子の第1項は、前記トレーニングセット中のci−1からciへの遷移の総数であり、数式
ここで、N1(ci−1ci)は、トレーニングセット中で正確に一度起こるシーケンスci−1ciの回数であり、N2(ci−1ci)は、正確に二度起こるシーケンスci−1ciの回数であり、
P(ci)は、ciに先行する異なるci−1の数と、前記トレーニングセット中で見つかった異なるシーケンスci−1ciの総数との間の係数であり、数式
ここで、N1+(●ci)は、前記トレーニングセット中の対応ciに先行する異なる対応の総数であり、
N1+(●●)は、前記トレーニングセット中に現れる異なる組み合わせci−1ciの総数であり、
λ(ci−1)が、数式
- 請求項1〜15の少なくともいずれか1項に記載の方法を実行するのに適した、音素をテキストに変換するための手段を含むことを特徴とする、コンピュータプログラムを実行するのに適した実行環境を備えるコンピュータシステム。
- 請求項1〜15の少なくともいずれか1項に記載の方法を実行するための適切な実行命令を含むことを特徴とする、コンピュータの内部メモリ内に直接にロードされ得るコンピュータプログラム。
- 請求項1〜15の少なくともいずれか1項に記載の方法を実行するための適切な実行命令を含むことを特徴とする、コンピュータによる使用に適した記録媒体に記録されたコンピュータプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
ES200500441A ES2237345B1 (es) | 2005-02-28 | 2005-02-28 | Procedimiento de conversion de fonemas a texto escrito y sistema informatico y programa informatico correspondientes. |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006243728A true JP2006243728A (ja) | 2006-09-14 |
Family
ID=34802870
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006052438A Pending JP2006243728A (ja) | 2005-02-28 | 2006-02-28 | 音素をテキストに変換する方法、そのコンピュータシステム、及びコンピュータプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20060195319A1 (ja) |
EP (1) | EP1696422A2 (ja) |
JP (1) | JP2006243728A (ja) |
ES (1) | ES2237345B1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009511959A (ja) * | 2005-10-06 | 2009-03-19 | ソニー オンライン エンタテインメント エルエルシー | 音素のnグラムを使用した単語および名前の生成 |
US10535339B2 (en) | 2015-06-24 | 2020-01-14 | Kabushiki Kaisha Toshiba | Recognition result output device, recognition result output method, and computer program product |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8788256B2 (en) * | 2009-02-17 | 2014-07-22 | Sony Computer Entertainment Inc. | Multiple language voice recognition |
DE102012202407B4 (de) * | 2012-02-16 | 2018-10-11 | Continental Automotive Gmbh | Verfahren zum Phonetisieren einer Datenliste und sprachgesteuerte Benutzerschnittstelle |
KR101193362B1 (ko) * | 2012-04-13 | 2012-10-19 | 최병기 | 문자열을 발음 단위로 분할하는 방법, 이를 이용하는 문자열의 어조 표현 방법 및 문자열의 어조를 표현하는 동영상 데이터가 저장된 저장매체 |
US9728185B2 (en) * | 2014-05-22 | 2017-08-08 | Google Inc. | Recognizing speech using neural networks |
US20150370787A1 (en) * | 2014-06-18 | 2015-12-24 | Microsoft Corporation | Session Context Modeling For Conversational Understanding Systems |
GB2533370A (en) | 2014-12-18 | 2016-06-22 | Ibm | Orthographic error correction using phonetic transcription |
US10387543B2 (en) * | 2015-10-15 | 2019-08-20 | Vkidz, Inc. | Phoneme-to-grapheme mapping systems and methods |
US9910836B2 (en) | 2015-12-21 | 2018-03-06 | Verisign, Inc. | Construction of phonetic representation of a string of characters |
US9947311B2 (en) | 2015-12-21 | 2018-04-17 | Verisign, Inc. | Systems and methods for automatic phonetization of domain names |
US10102203B2 (en) * | 2015-12-21 | 2018-10-16 | Verisign, Inc. | Method for writing a foreign language in a pseudo language phonetically resembling native language of the speaker |
US10102189B2 (en) | 2015-12-21 | 2018-10-16 | Verisign, Inc. | Construction of a phonetic representation of a generated string of characters |
US10706840B2 (en) | 2017-08-18 | 2020-07-07 | Google Llc | Encoder-decoder models for sequence to sequence mapping |
WO2020013946A1 (en) * | 2018-07-13 | 2020-01-16 | Google Llc | End-to-end streaming keyword spotting |
US11410642B2 (en) * | 2019-08-16 | 2022-08-09 | Soundhound, Inc. | Method and system using phoneme embedding |
CN111429912B (zh) * | 2020-03-17 | 2023-02-10 | 厦门快商通科技股份有限公司 | 关键词检测方法、系统、移动终端及存储介质 |
US11908488B2 (en) * | 2021-05-28 | 2024-02-20 | Metametrics, Inc. | Assessing reading ability through grapheme-phoneme correspondence analysis |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1993018506A1 (en) * | 1992-03-06 | 1993-09-16 | Dragon Systems, Inc. | Speech recognition system for languages with compound words |
US5805772A (en) * | 1994-12-30 | 1998-09-08 | Lucent Technologies Inc. | Systems, methods and articles of manufacture for performing high resolution N-best string hypothesization |
GB9609321D0 (en) * | 1996-05-03 | 1996-07-10 | British Telecomm | Automatic speech recognition |
US5758024A (en) * | 1996-06-25 | 1998-05-26 | Microsoft Corporation | Method and system for encoding pronunciation prefix trees |
KR100453021B1 (ko) * | 1996-09-27 | 2005-04-08 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 구두텍스트인식방법및시스템 |
CA2321299A1 (en) * | 1998-03-09 | 1999-09-16 | Lernout & Hauspie Speech Products N.V. | Apparatus and method for simultaneous multimode dictation |
US6233553B1 (en) * | 1998-09-04 | 2001-05-15 | Matsushita Electric Industrial Co., Ltd. | Method and system for automatically determining phonetic transcriptions associated with spelled words |
US6684185B1 (en) * | 1998-09-04 | 2004-01-27 | Matsushita Electric Industrial Co., Ltd. | Small footprint language and vocabulary independent word recognizer using registration by word spelling |
US6963841B2 (en) * | 2000-04-21 | 2005-11-08 | Lessac Technology, Inc. | Speech training method with alternative proper pronunciation database |
JP3782943B2 (ja) * | 2001-02-20 | 2006-06-07 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体 |
US6999918B2 (en) * | 2002-09-20 | 2006-02-14 | Motorola, Inc. | Method and apparatus to facilitate correlating symbols to sounds |
US20040128132A1 (en) * | 2002-12-30 | 2004-07-01 | Meir Griniasty | Pronunciation network |
US7146319B2 (en) * | 2003-03-31 | 2006-12-05 | Novauris Technologies Ltd. | Phonetically based speech recognition system and method |
EP1618556A1 (en) * | 2003-04-30 | 2006-01-25 | Loquendo S.p.A. | Grapheme to phoneme alignment method and relative rule-set generating system |
US7725319B2 (en) * | 2003-07-07 | 2010-05-25 | Dialogic Corporation | Phoneme lattice construction and its application to speech recognition and keyword spotting |
US8131538B2 (en) * | 2003-09-30 | 2012-03-06 | American Youth Literacy Foundation | Phoneme decoding system and method |
-
2005
- 2005-02-28 ES ES200500441A patent/ES2237345B1/es not_active Expired - Fee Related
-
2006
- 2006-02-27 EP EP06380037A patent/EP1696422A2/en not_active Withdrawn
- 2006-02-28 JP JP2006052438A patent/JP2006243728A/ja active Pending
- 2006-02-28 US US11/362,796 patent/US20060195319A1/en not_active Abandoned
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009511959A (ja) * | 2005-10-06 | 2009-03-19 | ソニー オンライン エンタテインメント エルエルシー | 音素のnグラムを使用した単語および名前の生成 |
US10535339B2 (en) | 2015-06-24 | 2020-01-14 | Kabushiki Kaisha Toshiba | Recognition result output device, recognition result output method, and computer program product |
Also Published As
Publication number | Publication date |
---|---|
EP1696422A2 (en) | 2006-08-30 |
ES2237345B1 (es) | 2006-06-16 |
ES2237345A1 (es) | 2005-07-16 |
US20060195319A1 (en) | 2006-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2006243728A (ja) | 音素をテキストに変換する方法、そのコンピュータシステム、及びコンピュータプログラム | |
Hori et al. | Efficient WFST-based one-pass decoding with on-the-fly hypothesis rescoring in extremely large vocabulary continuous speech recognition | |
He et al. | Discriminative learning for speech recognition: theory and practice | |
CN107705787A (zh) | 一种语音识别方法及装置 | |
JP4215418B2 (ja) | 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム | |
JP3741156B2 (ja) | 音声認識装置および音声認識方法並びに音声翻訳装置 | |
JP3768205B2 (ja) | 形態素解析装置、形態素解析方法及び形態素解析プログラム | |
WO2019116606A1 (en) | Method and system for training a multi-language speech recognition network, and speech recognition system for performing multi-language speech recognition | |
JP2020505650A (ja) | 音声認識システム及び音声認識の方法 | |
JP4930379B2 (ja) | 類似文検索方法、類似文検索システム及び類似文検索用プログラム | |
JP2001242884A (ja) | 音声認識装置および音声認識方法、並びに記録媒体 | |
CN110457719B (zh) | 一种翻译模型结果重排序的方法及装置 | |
JP4724051B2 (ja) | キーワード生成方法、文書検索方法、話題範囲推定方法、話題境界推定方法、及びこれらの装置とそのプログラム、その記録媒体 | |
JP6941494B2 (ja) | エンドツーエンド日本語音声認識モデル学習装置およびプログラム | |
JP2011164336A (ja) | 音声認識装置、重みベクトル学習装置、音声認識方法、重みベクトル学習方法、プログラム | |
JP2010139745A (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
JP6193726B2 (ja) | 音声認識用wfst作成装置と音声認識装置とそれらの方法とプログラムと記録媒体 | |
JP3950957B2 (ja) | 言語処理装置および方法 | |
JP4733436B2 (ja) | 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体 | |
JP4741452B2 (ja) | 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム | |
Pilar | Knowledge-driven subword grammar modeling for automatic speech recognition in tamil and kannada | |
Sakti et al. | Unsupervised determination of efficient Korean LVCSR units using a Bayesian Dirichlet process model | |
Fukuda et al. | Global RNN Transducer Models For Multi-dialect Speech Recognition. | |
CN113012690B (zh) | 一种支持领域定制语言模型的解码方法及装置 | |
JP5120749B2 (ja) | 木構造辞書を記録した記憶媒体、木構造辞書作成装置、及び木構造辞書作成プログラム |