JP7129137B2 - 異なる言語にわたる書記素・音素間の変換のための方法、コンピュータ・システム及びコンピュータ・プログラム - Google Patents

異なる言語にわたる書記素・音素間の変換のための方法、コンピュータ・システム及びコンピュータ・プログラム Download PDF

Info

Publication number
JP7129137B2
JP7129137B2 JP2020513519A JP2020513519A JP7129137B2 JP 7129137 B2 JP7129137 B2 JP 7129137B2 JP 2020513519 A JP2020513519 A JP 2020513519A JP 2020513519 A JP2020513519 A JP 2020513519A JP 7129137 B2 JP7129137 B2 JP 7129137B2
Authority
JP
Japan
Prior art keywords
sequence
phonemes
language
graphemes
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020513519A
Other languages
English (en)
Other versions
JP2021501903A (ja
Inventor
徹 長野
岳人 倉田
祐太 坪井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2021501903A publication Critical patent/JP2021501903A/ja
Application granted granted Critical
Publication of JP7129137B2 publication Critical patent/JP7129137B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Description

本開示は、一般に、異なる言語にわたる書記素(grapheme)・音素(phoneme)間の変換に関し、より特定的には、異なる言語で書かれた単語についての音素を推定するための技術、及び異なる言語における音素から単語の書記素を推定するための技術に関する。
書記素は、単語における音(音素)を表す1つの文字又は多数の文字である。書記素・音素(Grapheme-to-phoneme、G2P)変換は、その書かれた形態から単語の読み(リーディング、reading)を見つけるタスクである。G2P変換は、テキスト・音声(Text-to-Speech、TTS)変換において用いられ、そこで、TTSシステムは、辞書と共にG2Pシステムを用いることにより、テキストを書かれた形態から音素に変換する。G2P変換は、音声・テキスト(Speech-to-Text、STT)変換においても用いられ、そこで、STTシステムは、G2Pシステムを用いることにより、音素を所与の訓練データにおける未知の語に割り当てる。
近年、シーケンス・シーケンス・ニューラル・ネットワーク・モデル(sequence-to-sequence neural network model)が、G2P変換に適用されている(非特許文献1)。この文献によると、副次的条件付き言語モデルを用いた生成に基づくシーケンス・シーケンス翻訳方法が、機械翻訳及び画像キャプションを含む幾つかのタスクにおいて有望な結果を示したことが述べられている。簡単な副次的条件付き生成手法は、G2P変換の最新技術に匹敵し、アラインメント情報を用いる双方向の長期・短期記憶(LSTM)ニューラル・ネットワークを用いる最新技術を著しく前進させ得ることが判明した。
通常、一般的な単語についての書記素と対応する音素との間の関係は、既にTTS/STT辞書内に列挙されている。しかしながら、外来語(loanword)の大部分は、TTS/STT辞書において未知の語である。外来語は全ての言語における全ての語を含む可能性があり、新しい語が次々と生まれ、別の言語に取り入れられるため、辞書が全ての外来語の音素をカバーするのは困難である。
K.Yao他著、「Sequence-to-Sequence Neural Net Models for Grapheme-to-Phoneme Conversion」、INTERSPEECH予稿集、2015年
少なくとも必要とされるのは、準備され得る辞書のサイズが比較的小さい場合でも、異なる言語で書かれた単語についての妥当な音素を高い精度で推定できる、コンピュータ実施方法、関連したコンピュータ・システム及びコンピュータ・プログラムである。
従って、当技術分野において、上述の問題に対処するための必要性が存在する。
第1の態様から見ると、本発明は、異なる言語で書かれた単語についての音素を推定するためのコンピュータ実施方法を提供し、この方法は、ソース言語における所与の単語の書記素のシーケンスを受け取ることと、ソース言語における書記素のシーケンスをソース言語における音素のシーケンスに変換することと、ニューラル・ネットワーク・モデルを用いることにより、ソース言語における音素のシーケンスからターゲット言語における音素の1以上のシーケンスを生成することと、所与の単語についてターゲット言語における音素の1つのシーケンスを決定することと、を含む。
更に別の態様から見ると、本発明は、異なる言語における音素から単語の書記素を推定するためのコンピュータ実施方法を提供し、この方法は、ソース言語における音素のシーケンスを受け取ることと、ニューラル・ネットワーク・モデルを用いることにより、ソース言語における音素のシーケンスからターゲット言語における音素の1以上のシーケンスを生成することと、ターゲット言語における音素の少なくとも1つのシーケンスをターゲット言語における書記素の少なくとも1つのシーケンスに変換することと、ソース言語における音素のシーケンスについてターゲット言語で書かれたターゲットの単語を識別することと、を含む。
更に別の態様から見ると、本発明は、プログラム命令を実行することにより、異なる言語で書かれた単語についての音素を推定するためのコンピュータ・システムを提供し、このコンピュータ・システムは、プログラム命令を有形に格納するメモリと、プログラム命令を実行するためにメモリと通信するプロセッサとを含み、プロセッサは、ソース言語における所与の単語の書記素のシーケンスを受け取り、ソース言語における書記素のシーケンスをソース言語における音素のシーケンスに変換し、ニューラル・ネットワーク・モデルを用いることにより、ソース言語における音素のシーケンスからターゲット言語における音素の1以上のシーケンスを生成し、所与の単語についてターゲット言語における音素の1つのシーケンスを決定するように構成される。
更に別の態様から見ると、本発明は、プログラム命令を実行することにより、異なる言語における音素から単語の書記素を推定するためのコンピュータ・システムを提供し、このコンピュータ・システムは、プログラム命令を有形に格納するメモリと、プログラム命令を実行するためにメモリと通信するプロセッサとを含み、プロセッサは、ソース言語における音素のシーケンスを受け取り、ニューラル・ネットワーク・モデルを用いることにより、ソース言語における音素のシーケンスからターゲット言語における音素の1以上のシーケンスを生成し、ターゲット言語における音素の少なくとも1つのシーケンスをターゲット言語における書記素の少なくとも1つのシーケンスに変換し、ソース言語における音素のシーケンスについてのターゲット言語で書かれたターゲットの単語を識別するように構成される。
更に別の態様から見ると、本発明は、異なる言語で書かれた単語についての音素を推定するためのコンピュータ・プログラム製品を提供し、このコンピュータ・プログラム製品は、処理回路により可読であり、本発明のステップを実行するための方法を実行する、処理回路により実行される命令を格納するコンピュータ可読ストレージ媒体を含む。
更に別の態様から見ると、本発明は、異なる言語における音素から単語の書記素を推定するためのコンピュータ・プログラム製品を提供し、このコンピュータ・プログラム製品は、処理回路により可読であり、本発明のステップを実行するための方法を実行する、処理回路により実行される命令を格納するコンピュータ可読ストレージ媒体を含む。
更に別の態様から見ると、本発明は、コンピュータ可読媒体上に格納され、デジタル・コンピュータの内部メモリにロード可能なコンピュータ・プログラムであって、プログラムがコンピュータ上で実行されるとき、本発明のステップを実行するためのソフトウェア・コード部分を含む、コンピュータ・プログラムを提供する。
本発明の実施形態によると、異なる言語で書かれた単語についての音素を推定するためのコンピュータ実施方法が提供される。方法は、ソース言語における所与の単語の書記素のシーケンスを受け取ることを含む。方法は、ソース言語における書記素のシーケンスをソース言語における音素のシーケンスに変換することも含む。方法は、ニューラル・ネットワーク・モデルを用いることにより、ソース言語における音素のシーケンスからターゲット言語における音素の1以上のシーケンスを生成することをさらに含む。方法は、所与の単語についてターゲット言語における音素の1つのシーケンスを決定することをさらに含む。
本発明の実施形態の方法によると、利用可能な辞書のサイズが比較的小さい場合でも、ソース言語で書かれた単語についてターゲット言語における音素のシーケンスが高い精度で推定され得る。
1つの実施形態において、音素の1以上のシーケンスは、音素の複数のシーケンスを含む。方法は、ターゲット言語の言語モデルを用いることにより、ターゲット言語における音素の各シーケンスについてのスコアを評価することをさらに含む。音素の各シーケンスについてのスコアは、音素の複数のシーケンスの中から音素の1つのシーケンスを決定するために用いられる。ソース言語における音素のシーケンスから生成される、ターゲット言語における音素の言語的に容認不能なシーケンスは結果から除外され得るので、推定の精度が改善され得る。
別の実施形態において、ソース言語における書記素のシーケンスが、第1のシーケンス・シーケンス変換器により、ソース言語における音素のシーケンスに変換される。ソース言語における書記素から音素への変換の精度を改善することができ、そのことは、推定の精度の改善をもたらす。
更に別の実施形態において、第1のシーケンス・シーケンス変換器は、ソース言語における書記素のセットと音素のセットとの間の関係を登録する第1の辞書を用いることにより訓練される。一般に十分なものである第1の辞書の知識を利用することにより、ターゲット言語における音素のシーケンスを推定することができる。
1つの実施形態において、ニューラル・ネットワーク・モデルは、ソース言語における音素のシーケンスをターゲット言語における音素の1以上のシーケンスに変換するための第2のシーケンス・シーケンス変換器である。ソース言語における音素からターゲット言語における音素への変換の精度を改善することができ、そのことは、推定の精度の改善をもたらす。
別の実施形態において、第2のシーケンス・シーケンス変換器は、ソース言語における書記素のセットとターゲット言語における音素のセットとの間の関係を登録する第2の辞書と、ソース言語における書記素のセットと音素のセットとの間の関係を登録する第1の辞書とを用いることにより訓練される。直接変換するための辞書がない場合でも、既存の辞書から、ソース言語における音素のセットとターゲット言語における音素のセットとの対を生成することができる。第2の辞書のサイズが大きくない場合でも、推定プロセスを複数の変換に分割すれば、推定の精度が改善されるであろう。
本発明の他の実施形態によると、異なる言語における音素から単語の書記素を推定するためのコンピュータ実施方法が提供される。方法は、ソース言語における音素のシーケンスを受け取ることを含む。方法は、ニューラル・ネットワーク・モデルを用いることにより、ソース言語における音素のシーケンスからターゲット言語における音素の1以上のシーケンスを生成することも含む。方法は、ターゲット言語における音素の少なくとも1つのシーケンスをターゲット言語における書記素の少なくとも1つのシーケンスに変換することをさらに含む。方法は、ソース言語における音素のシーケンスについてターゲット言語で書かれたターゲットの単語を識別することをさらに含む。
本発明の他の実施形態の方法によると、利用可能な辞書のサイズが比較的小さい場合でも、ソース言語における音素から、ターゲット言語で書かれた単語の書記素をより高い精度で推定することができる。
1つの実施形態において、書記素の少なくとも1つのシーケンスは、書記素の複数のシーケンスを含む。方法は、ターゲット言語の言語モデルを用いることにより、ターゲット言語における書記素の各シーケンスについてのスコアを評価することをさらに含む。書記素の各シーケンスについてのスコアは、書記素の複数のシーケンスの中から、ターゲットの単語として書記素の1つのシーケンスを決定するために用いられる。ターゲット言語における書記素の言語的に容認不能なシーケンスが結果から除外され得るので、推定の精度が改善され得る。
本発明の1以上の態様に関連するコンピュータ・システム及びコンピュータ・プログラム製品も、本明細書で説明され、特許請求される。
本発明の技術を通じて、付加的な特徴及び利点が実現される。他の実施形態及び態様は、本明細書で詳細に説明され、特許請求される発明の一部と見なされる。
これら及び他の特徴並びに利点は、添付図面と併せて読まれる、その例示的実施形態の以下の詳細な説明から明らかになるであろう。
ここで、本発明が、以下の図に示されるような好ましい実施形態を参照して、単なる例として説明される。
本発明の例示的な実施形態による、書記素・音素変換システムのブロック図を示す。 本発明の1つの実施形態による、音素・音素変換器(P2P)の例示的アーキテクチャを示す。 本発明の例示的実施形態による、書記素・音素変換システムにおいて変換器のための訓練データを作成する方法を記述する。 本発明の例示的実施形態による、異なる言語で書かれた所与の単語についての音素を推定するためのプロセスを示すフローチャートである。 本発明の他の例示的実施形態による、音素・書記素変換システムのブロック図を示す。 本発明の他の例示的実施形態による、音素・書記素変換システムにおいて変換器のための訓練データを作成する方法を説明する。 本発明の他の例示的実施形態による、異なる言語における音素に対する書記素を推定するためのプロセスを示すフローチャートである。 本発明の1以上の実施形態による、コンピュータ・システムを示す。
ここで、本発明が特定の実施形態を用いて説明され、以下に説明される実施形態は、単に例として言及されるものであり、本発明の範囲を限定することを意図するものではない。
本発明による1以上の実施形態は、異なる言語で書かれた単語についての音素を推定するためのコンピュータ実施方法、コンピュータ・システム及びコンピュータ・プログラム製品に向けられる。本発明による1以上の他の実施形態は、異なる言語における音素から単語の書記素を推定するためのコンピュータ実施方法、コンピュータ・システム、及びコンピュータ・プログラム製品に向けられる。
書記素・音素変換と呼ばれる、書面形式から単語の読みを見つけるタスクが、テキスト・音声(TTS)変換、音声・テキスト(STT)変換等を含む自然言語処理において用いられることが多い。書記素・音素変換においては、単語の読みの正確な推定が要求される。しかしながら、書記素・音素変換の精度は、ある種の単語に対して低下する。幾つかの言語において、翻訳することなく原言語から取り込まれた単語である外来語(loanword)は、その文脈中に原言語で書かれることが多い。例えば、日本語の文の文脈において、英単語(例えば、会社名、ブランド名、及び新しい技術用語)は、英語表記の形で出現することが多い。一般に、書記素・音素変換用の辞書は、同じ言語の音素システムで準備される。従って、英語などの、異なる言語で書かれた外来語の日本語方式の読みを与える大きなコーパスはない。そうした外来語は、全ての言語における全ての単語を含む可能性があり、新しい単語は次から次へと生まれ、他の言語から取り込まれるので、全ての外来語の音素を完全にカバーする包括的な辞書を準備するのは困難である。
最初に、一連の図1~図4を参照して、ターゲット言語における音素が、複数の変換により、ソース言語で書かれた所与の単語の書記素から推定される、本発明の例示的実施形態による、異なる言語で書かれた単語についての音素を推定するためのコンピュータ・システム及び方法を説明する。
また、ネイティブではない人とっては、外国語の単語のスペルは知らないが、その単語の大まかな意味は知っている場合、現地語(例えば、日本語)における読みから外国語(例えば、英語)で書かれた単語を識別するために、書記素・音素変換の逆変換も有用である。
次に、一連の図5~図7を参照して、ターゲット言語で書かれた単語の書記素が、複数の変換により、ソース言語における所与の音素から推定される、本発明の例示的実施形態による、異なる言語における音素から単語の書記素を推定するためのコンピュータ・システム及び方法を説明する。
図1を参照すると、本発明の例示的実施形態による書記素・音素変換システム100のブロック図が記載される。図1に示されるように、書記素・音素変換システム100は、ソース言語における書記素(以下、「ソース書記素」と呼ばれる)をソース言語における音素(以下、「ソース音素」と呼ばれる)に変換するための書記素・音素(G2P)変換器110と、ソース音素をターゲット言語における音素(以下、「ターゲット音素」と呼ばれる)に変換するための音素・音素(P2P)変換器130と、ターゲット音素の1つのシーケンスを結果として判断するために、P2P変換器130から取得されたターゲット音素のシーケンスをスコア付けするためのスコアラ(scorer)150とを含むことができる。
G2P変換器110は、ソース書記素のシーケンスをソース音素のシーケンスに変換するように構成されたシーケンス・シーケンス変換器とすることができる。シーケンス・シーケンス変換器は、そのニューラル・ネットワーク構造により、1つのシーケンスを別のシーケンスに変換するニューラル・ネットワーク・モデルであり、これは、再帰型ニューラル・ネットワーク(RNN)を含み得る。G2P変換器110は、所与の単語のソース書記素のシーケンスを受け取り、ソース書記素のシーケンスをソース音素のシーケンスに変換する。G2P変換器110により生成されたソース音素のシーケンスは、P2P変換器130に送られる。例示的実施形態において、ソース音素の1つの最良のシーケンスが、ソース書記素の1つのシーケンスから生成される。しかしながら、別の実施形態においては、ソース音素のN個の最良のシーケンスが、ソース書記素の1つのシーケンスから生成され得る。
P2P変換器130は、ソース音素のシーケンスをターゲット音素のシーケンスに変換するように構成されたシーケンス・シーケンス変換器とすることができる。P2P変換器130は、G2P変換器110からソース音素のシーケンスを受け取り、ソース音素のシーケンスから、ターゲット音素の1以上のシーケンスを生成する。P2P変換器130により生成されたターゲット音素の1以上のシーケンスは、スコアラ150に送られる。例示的実施形態において、ターゲット音素のN個の最良のシーケンスが、ソース音素の1つのシーケンスから生成される。しかしながら、別の実施形態においては、ターゲット音素の1つの最良のシーケンスが、ソース音素の1つのシーケンスから生成され得る。
P2P変換器130の例示的なアーキテクチャが、図2に示される。図2に示されるアーキテクチャは、英語音素のシーケンスから日本語音素のシーケンスへの変換のための2つの層を有するエンコーダ・デコーダLSTM(Long and Short Term Memory;長期・短期記憶)モデルを示す。
図2に示されるように、P2P変換器130は、ソース音素のシーケンスを読み取り、シーケンスをベクトルにマッピングするエンコーダ132と、ターゲット音素の過去のシーケンスを用いることにより、ベクトルが条件とされるターゲット音素の次のシーケンスを予測するデコーダ134とを含む。ソース音素のシーケンスは、時間反転させ得ることに留意されたい。また、図2において、<s>は、ソース側の文開始トークンを示し、<os>及び</os>は、ターゲット側の文開始及び終了記号を示す。デコード段階中、ターゲット音素の出力シーケンスを生成するために、ビーム探索デコーダを用いることができる。特定の実施形態において、Nの最高事後確率を有するターゲット音素のシーケンスが、デコード結果として選択される。別の実施形態において、最高事後確率を有するターゲット音素のシーケンスが、P2P変換器130のデコード結果として選択される。
図2に示されるエンコーダ・デコーダLSTMモデルは、G2P変換器110としても用いることができる。特定の実施形態において、最高事後確率を有する1つのシーケンスが、G2P変換器110のデコード結果として選択される。
図2に示されるシーケンス・シーケンス変換器のアーキテクチャは、1つの例であり、アーキテクチャは、図2に示されるエンコーダ・デコーダLSTMモデルに限定されないことに留意されたい。アライメント情報を利用する他のモデルを利用することもでき、それらは、一方向LSTMモデル及び双方向LSTMモデルを含むことができる。さらに、LSTMセルを用いる代わりに、単純な再帰型ニューラル・ネットワーク(RNN)セル又はゲート付き再帰型ユニット(GRU)セルも使用され得る。
再び図1を参照すると、スコアラ150は、ターゲット言語の(より正確に言うと「音素の」)言語モデルであり、P2P変換器130から取得されたターゲット音素の1以上のシーケンスをスコア付けし、ターゲット音素の1つの妥当なシーケンスを結果として判断するように構成される。1つの実施形態において、言語モデルは、ターゲット言語の辞書内に登録された読み(例えば、日本語辞書における、あ(a)、あい(aI)、あいあいがさ(aiaigasa)等)から作成され、ターゲット言語における読みの尤度を評価することが可能である。スコアラ150は、ターゲット音素の各シーケンスについてのスコアを評価する。スコアラ150は、ターゲット音素の所与のシーケンスの生起確率をスコアとして出力する。低い確率は、ターゲット音素のシーケンスが、言語的により容認不能であることを示す。各シーケンスについての評価スコアは、N個のベスト・シーケンスの中から所与の単語についての1つのベスト・シーケンスを判断するために用いられる。
1つの実施形態において、スコアラ150の言語モデルは、RNN言語モデルのようなニューラル・ネットワーク・ベースのモデルである。しかしながら、別の実施形態においては、指数言語モデル及びn-gram言語モデルを考えることもできる。スコアラ150の言語モデルは、そのアーキテクチャに応じて、既存のコーパスを用いた適切なアルゴリズムにより、訓練することができる。例えば、RNN言語モデルは、通時的誤差逆伝搬法(backpropagation through time、BPTT)アルゴリズムを用いて訓練することができる。
ソース音素のシーケンスからP2P変換器130により生成されるターゲット音素の言語的に容認不能なシーケンスは、結果から除外できるので、推定の精度は改善され得る。
さらに図1を参照すると、書記素・音素変換システム100は、各単語についてソース書記素のセットとソース音素のセットとの間の関係を登録するソース言語辞書102と、各外来語についてのソース書記素のセットとターゲット音素のセットとの間の関係を登録する外来語辞書104と、ソース言語辞書102を用いることにより、G2P変換器110を学習するためのG2P変換器学習モジュール120と、ソース言語辞書102と共に外来語辞書104を用いることにより、P2P変換器130を学習するためのP2P変換器学習モジュール140とをさらに含むことができる。
図3を参照すると、シーケンス・シーケンス変換器のために訓練データを作成する方法が説明される。図3に示されるように、ソース言語辞書102及び外来語辞書104を含む2つの辞書がある。
図3に示される例において、ソース言語辞書102は、英単語の英語読み辞書(English reading dictionary)である。ソース言語辞書102は、各単語(例えば、英単語「academic」)について、ソース書記素のセット(例えば、「A」、「C」、「A」、「D」、「E」、「M」、「I」及び「C」)と、ソース音素のセット(例えば、「AE2」、「K」、「AH0」、「D」、「EHI」、「M」、「IH0」、及び「K」)の対を与える。ソース書記素のセットとソース音素のセットの各対は、G2P変換器110を訓練するための訓練データとして、G2P変換器学習モジュール120により用いられる。
図3に示される例において、外来語辞書104は、英語外来語の日本語読み辞書(Japanese reading dictionary)である。外来語辞書104は、各外来語(例えば、英単語「academic」)について、ソース書記素のセット(例えば、「A」、「C」、「A」、「D」、「E」、「M」、「I」及び「C」)と、ターゲット音素のセット(例えば、「a」、「ka」、「de」、「mi」、「Qku」)の対を与える。各外来語について、ソース書記素のセットとターゲット音素のセットの対を、ソース言語辞書102内に登録されたソース書記素のセットとソース音素のセットの上述の対と組み合わせることにより、各外来語について、ソース音素のセット(例えば、「AE2」、「K」、「AH0」、「D」、「EHI」、「M」、「IH0」、及び「K」)とターゲット音素のセット(例えば、「a」、「ka」、「de」、「mi」、「Qku」)の対を準備することができる。ソース音素のセットとターゲット音素のセットの各対は、P2P変換器学習モジュール140により、P2P変換器130を訓練するための訓練データとして用いられる。
G2P変換器学習モジュール120は、ソース言語辞書102を用いることによってG2P変換器110を訓練するように構成される。G2P変換器110は、通時的誤差逆伝搬法(BPTT)アルゴリズムなどのいずれかの標準的アルゴリズムを用いることにより、訓練することができる。
P2P変換器学習モジュール140は、ソース言語辞書102と共に外来語辞書104を用いることにより、P2P変換器130を訓練するように構成される。ソース言語辞書102は、ソース書記素の所与のセットについてのソース音素を調べるために用いることができる。P2P変換器130は、BPTTアルゴリズムなどのいずれかの標準的アルゴリズムを用いることにより、訓練され得る。
図1に示される書記素・音素変換システム100において、所与の単語(例えば、英単語「abandoned」)のソース書記素のシーケンスをG2P変換器110に入力することにより、ソース音素の1つのベスト(one best)シーケンス(例えば、「AH」、「B」、「AE」、「N」、「D」、「AH」、「N」及び「D」)が取得される。次に、P2P変換器130により、ソース音素の1つのベスト・シーケンスから、ターゲット音素のN個のベスト(N best)シーケンス(例えば、シーケンス「a」、「ba」、「n」、「da」、「n」、「do」)が生成される。最終的に、ターゲット音素の言語的により容認不能なシーケンス(例えば、シーケンス「a」、「ba」、「n」、「a」、「n」、「do」)を結果から除外することにより、所与の単語(例えば、英単語「abandoned」)に対する結果として、スコアラ150から、ターゲット音素の1つのベスト・シーケンス(例えば、シーケンス「a」、「ba」、「n」、「da」、「n」、「do」)が出力される。
ターゲット音素の1つのベスト・シーケンスが、P2P変換器130により、ソース音素の1つのシーケンスから生成される別の実施形態において、P2P変換器130から、所与の単語について推定されるターゲット音素の1つのベスト・シーケンスを出力することができる。
1つの実施形態において、図1に説明される書記素・音素変換システム100におけるモジュール110、120、130、140及び150は、これらに限定されるものではないが、ハードウェア・コンポーネントと関連したプログラム命令及び/又はデータ構造を含むソフトウェア・モジュールとして、電子回路を含むハードウェア・モジュールとして、又はその組み合わせとして実装され得る。図1に説明されるモジュール110、130、及び150は、単一の又は分散型コンピュータ・システム内に実装され得る。図1に説明されるモジュール120、140は、モジュール110、130、及び150が実装される同じコンピュータ・システム、又は他の1以上のコンピュータ・システム上に実装され得る。辞書102及び104は、コンピュータ・システムがアクセスできるいずれかの内部又は外部ストレージ・デバイス若しくは媒体を用いることにより、提供することができる。
図4を参照すると、本発明の例示的実施形態による、異なる言語で書かれた単語についての音素を推定するためのプロセスが示される。図4に示されるプロセスは、図1に示されるG2P変換器110、P2P変換器130及びスコアラ150を実装する処理ユニットにより実行され得ることに留意されたい。
図4に示されるプロセスは、変換実行要求を受け取ることに応答してステップS100から始まり得る。テキスト・音声(TTS)変換において、音声に変換されるべきソース書記素(テキスト)のシーケンスが、要求内に与えられる。音声・テキスト(STT)変換において、訓練データ内の未知の単語のソース書記素(テキスト)のシーケンスが、要求内に与えられる。
ステップS101において、処理ユニットは、ソース言語で書かれた所与の単語のソース書記素(テキスト)のシーケンスを受け取ることができる。ステップS102において、処理ユニットは、ソース書記素のシーケンスをソース音素のシーケンスに変換することができる。ソース書記素のシーケンスは、G2P変換器110を用いることにより、変換される。
ステップS103において、処理ユニットは、ソース音素のシーケンスからターゲット音素のN個のシーケンスを生成することができる。ターゲット音素のN個のシーケンスは、P2P変換器130を用いることにより、生成される。
ステップS104において、処理ユニットは、スコアラ150を用いることにより、ターゲット音素の各シーケンスについてのスコアを評価することができる。ステップS105において、処理ユニットは、ターゲット音素のN個のシーケンスの中から、スコアに基づき、所与の単語についてのターゲット音素の1つのシーケンスを決定することができる。
ステップS106において、処理ユニットは、所与の単語についての1つのシーケンスを出力することができ、プロセスはステップS107で終了し得る。テキスト・音声(TTS)変換において、ターゲット音素の取得されたシーケンスは、音声に変換するために用いられ得る。音声・テキスト(STT)変換において、ターゲット音素の取得されたシーケンスは、訓練データ内の未知の単語に割り当てられ得る。
本発明の1つの実施形態によると、ソース言語で書かれた単語について、ターゲット音素のシーケンスをより高い精度で推定することができる。
一般に、同じ言語の音素システムにおける単語の読みを与えるソース言語辞書102は、十分に大きいものである。他方、異なる言語の音素システムにおける単語の読みを与える外来語辞書104のサイズは、大きいものではない。従って、単に外来語辞書104を用いて訓練されたシーケンス・シーケンス変換器を用いることによる、ソース書記素からターゲット音素への直接変換の精度は十分なものではない。
対照的に、本発明の1つの実施形態による新規な書記素・音素変換機能は、外来語辞書104のサイズが大きくない場合でも、異なる言語で書かれた単語についての妥当な音素を推定することができる。推定プロセスを複数の変換に分割することにより、一般的に豊富なソース言語辞書102の知識を利用することが可能になり、それにより、推定全体の精度の改善がもたらされる。推定の精度は、ソース音素とターゲット音素との間の類似性を利用することにより、改善され得る。
スコアラ150が用いられる1つの実施形態において、ソース音素のシーケンスから生成されるターゲット音素の言語的に容認不能なシーケンスは結果から除外できるので、推定の精度がさらに改善されることが予想される。
シーケンス・シーケンス変換器がP2P変換器130として使用される別の実施形態において、ソース音素からターゲット音素への変換の精度を改善することができ、そのことは、推定全体の精度を改善する。
シーケンス・シーケンス変換器がG2P変換器110として使用されるさらに別の実施形態において、ソース書記素からソース音素への変換の精度を改善することができ、そのことは、推定全体の精度を改善する。
新規な書記素・音素変換機能が適用可能であり得る言語の組み合わせは、上述の例(すなわち、英語(ソース)と日本語(ターゲット)に限定されないことに留意されたい。アラビア語、中国語、英語、フランス語、ドイツ語、日本語、韓国語、ポルトガル語、ロシア語、スペイン語から成る群から選択される言語の任意の組み合わせが用いられ得る。例えば、インド・ヨーロッパ語族(例えば、英語、フランス語、スペイン語等)の1つと東アジア言語(例えば、中国語、韓国語、日本語等)の1つの組み合わせを用いることができる。別の例において、インド・ヨーロッパ語族(例えば、英語、フランス語、スペイン語等)の2つの組み合わせを用いることもできる。新規な変換機能を、日本語のような原言語の表記との関連で出現し得るそうしたソース言語に適用することができる。
以下、一連の図5~図7を参照して、本発明の1つの実施形態による、異なる言語で書かれた単語の書記素を推定するためのコンピュータ・システム及び方法が説明される。
図5を参照すると、本発明の1つの実施形態による、音素・書記素変換システム200のブロック図が説明される。図5に示されるように、音素・書記素変換システム200は、ソース言語における音素(以下、「ソース音素」と呼ばれる)をターゲット言語における音素(以下、「ターゲット音素」と呼ばれる)に変換するための音素・音素(P2P)変換器230と、ターゲット音素をターゲット言語における書記素(以下、「ターゲット書記素」と呼ばれる)に変換するための音素・書記素(P2G)変換器260と、ターゲット書記素の1つの妥当なシーケンスを結果として決定するために、P2G変換器260から取得されたターゲット書記素の1以上のシーケンスをスコア付けするためのスコアラ250とを含むことができる。
P2P変換器230は、ソース音素のシーケンスをターゲット音素のシーケンスに変換するように構成されたシーケンス・シーケンス変換器とすることができる。P2P変換器230は、ソース音素の所与のシーケンスを受け取り、ソース音素のシーケンスからターゲット音素の1以上のシーケンスを生成する。1つの実施形態において、ソース音素の所与のシーケンスから、ターゲット音素の1つのベスト・シーケンスが生成される。しかしながら、別の実施形態においては、ターゲット音素のN個のベスト・シーケンスが生成され得る。P2P変換器230により生成されるターゲット音素のシーケンスは、P2G変換器260に送られる。
P2G変換器260は、ターゲット音素のシーケンスをターゲット書記素のシーケンスに変換するように構成されたシーケンス・シーケンス変換器とすることができる。P2G変換器260は、P2P変換器230からターゲット音素のシーケンスを受け取り、ターゲット音素のシーケンスをターゲット書記素の1以上のシーケンスに変換する。P2G変換器260により生成されるターゲット書記素の1以上のシーケンスは、スコアラ250に送られる。1つの実施形態において、ターゲット音素の1つのシーケンスからターゲット書記素のN個のベスト・シーケンスが生成される。しかしながら、別の実施形態においては、ターゲット音素の1つのシーケンスからターゲット書記素の1つのベスト・シーケンスが生成され得る。
スコアラ250は、ターゲット言語の言語モデルであり、P2G変換器260から取得されたターゲット書記素の1以上のシーケンスをスコア付けし、ソース言語における音素のシーケンスに対する結果として、ターゲット書記素の1つの妥当なシーケンスをターゲット言語で書かれたターゲット単語として識別するように構成される。1つの実施形態において、言語モデルは、ターゲット言語の辞書内に登録された書記(writing)から作成され、ターゲット言語における書記の尤度を評価することができる。スコアラ250は、ターゲット書記素の各シーケンスについてのスコアを評価する。スコアラ250は、ターゲット書記素の所与のシーケンスの生起確率をスコアとして出力する。低い確率は、ターゲット書記素のシーケンスが、言語的により容認不能であることを示す。各シーケンスについての評価スコアは、1以上のシーケンスの中からソース音素の所与のシーケンスについての1つのベスト・シーケンスを決定するために用いられる。1つの実施形態において、スコアラ250の言語モデルは、RNN言語モデルのようなニューラル・ネットワーク・ベースのモデルである。
さらに図5を参照すると、音素・書記素変換システム200は、各外来語についてのターゲット書記素のセットとソース音素のセットとの間の関係を登録する外来語辞書204と、各単語についてターゲット書記素のセットとターゲット音素のセットとの間の関係を登録するターゲット言語辞書206と、ターゲット言語辞書206と共に外来語辞書204を用いることにより、P2P変換器230を学習するためのP2P変換器学習モジュール240と、ターゲット言語辞書206を用いることにより、P2G変換器260を学習するためのP2G変換器学習モジュール270とをさらに含むことができる。
図6を参照すると、シーケンス・シーケンス変換器変換器のための訓練データを作成する方法が説明される。図6に示される例において、ターゲット言語辞書206は、英単語の英語読み辞書である。外来語辞書204は、英語外来語の日本語読み辞書である。各外来語について、ターゲット書記素のセットとソース音素のセットとの対を、ターゲット言語辞書206内に登録されたターゲット書記素のセットとターゲット音素のセットとの対と組み合わせることにより、各外来語に対して、ターゲット音素のセット(例えば、「AE2」、「K」、「AH0」、「D」、「EHI」、「M」、「IH0」及び「K])とソース音素のセット(例えば、「a」、「ka」、「de」、「mi」、「Qku」)との対を準備することができる。ターゲット音素のセットとソース音素のセットとの各対は、P2P変換器学習モジュール240により、P2P変換器230を訓練するための訓練データとして用いられる。P2G変換器学習モジュール270は、ターゲット言語辞書206を用いることにより、P2G変換器260を訓練するように構成される。ターゲット言語辞書206は、スコアラ250のためのターゲット言語の言語モデルを作成するために使用され得ることに留意されたい。
図5に示される音素・書記素変換システム200において、ソース音素の所与のシーケンス(例えば、日本語のカタカナ又はひらがなのような表音文字のテキストから容易に取得され得るシーケンス「a」、「ba」、「n」、「da」、「n」、「do」)を、P2P変換器230に入力することにより、ターゲットの単語(例えば、英単語「abandoned」)のターゲット書記素の推定シーケンスが、スコアラ250から、ソース音素の所与のシーケンスに対する結果として出力される。
1つの実施形態において、図5に示される音素・書記素変換システム200におけるモジュール230、240、250、260及び270は、これらに限定されるものではないが、ハードウェア・コンポーネントと関連したソフトウェア・モジュールとして、電子回路を含むハードウェア・モジュールとして、又はその組み合わせとして実装され得る。
図7を参照すると、本発明の他の例示的実施形態による、異なる言語における音素に対する書記素を推定するためのプロセスが示される。図7に示されるプロセスは、図5に示されるP2P変換器230、P2G変換器260、及びスコアラ250を実装する処理ユニットにより実行され得ることに留意されたい。
図7に示されるプロセスは、変換実行要求を受け取ることに応答して、ステップS200から開始し得る。特定の例において、ソース言語におけるターゲットの単語の大まかな読み(ソース音素のシーケンス)が、要求内に与えられる。
ステップS201において、処理ユニットは、ソース音素の所与のシーケンスを受け取ることができる。ステップS202において、処理ユニットは、ソース音素の所与のシーケンスから、ターゲット音素の少なくとも1つのシーケンスを生成することができる。ターゲット音素の1つのベスト・シーケンスは、P2P変換器230を用いることにより、生成され得る。ターゲット音素のシーケンスは、P2P変換器230を用いることにより、生成される。ステップS203において、処理ユニットは、ターゲット音素の少なくとも1つのシーケンスを、ターゲット書記素の少なくとも1つのシーケンスに変換することができる。ターゲット書記素のN個のシーケンスは、P2G変換器260を用いることにより、生成され得る。
ステップS204において、処理ユニットは、スコアラ250を用いることにより、各シーケンスについてのスコアを評価することができる。ステップS205において、処理ユニットは、ターゲット書記素のN個のシーケンスの中から、スコアに基づき、ターゲット書記素の1つのシーケンスを、ターゲット言語で書かれたターゲットの単語として識別することができる。各シーケンスについてのスコアは、複数のシーケンスの中から1つのシーケンスを決定するために使用される。
ステップS206において、処理ユニットは、上記1つのシーケンスを、ソース音素の所与のシーケンスに対する結果として出力することができ、プロセスはステップS207で終了し得る。ターゲット言語で書かれたターゲットの単語のスペルは、ソース言語におけるターゲットの単語の大まかな読みから識別され得る。
本発明の上述の実施形態によると、利用可能な辞書のサイズが比較的小さい場合でも、ターゲット書記素のシーケンスを、より高い精度でソース音素から推定することができる。
新規な音素・書記素変換機能を適用できる言語の組み合わせは、上述の例(すなわち、日本語(ソース)と英語(ターゲット)に限定されないことに留意されたい。アラビア語、中国語、英語、フランス語、ドイツ語、日本語、韓国語、ポルトガル語、ロシア語、スペイン語から成る群から選択される言語の任意の組み合わせが用いられ得る。
1つの実施形態において、例示的実施形態による、スコアラ150を除いた、図1に示される書記素・音素変換システム100を実装するプログラム、及びステップS104及びS105を除いた、図4に示されるプロセスが、コード化された。ステップS103においてP2P変換器130を用いることにより生成されるターゲット音素のシーケンスの数Nは1であった。図4に示されるステップS104及びS105を実行する代わりに、処理ユニットは、ターゲット音素の1つのベスト・シーケンスを、所与の単語に対する結果として直接決定した。2つの層を有するエンコーダ・デコーダLSTM(長・短期記憶)モデルが、シーケンス・シーケンス・ニューラル・ネットワーク・モデルのアーキテクチャとして用いられた。
英語読み辞書を用いることにより、英語書記素のシーケンスを英語音素のシーケンスに変換するG2P変換器110(GENG2PENG変換器)が訓練された。英語読み辞書内に登録された英単語の数は、114,414個であった。従って、GENG2PENG変換器のための訓練データの数は、114,414個であった。
英語音素のシーケンスを日本語音素のシーケンスに変換するP2P変換器130(PENG2PJP変換器)は、英語読み辞書、及び英語外来語の手作業で構築された日本語読み辞書を用いることにより、訓練された。日本語読み辞書を構築するために、英語外来語の日本語の読みが、手作業で作成された。日本語読み辞書内に登録された単語の数は、3156であった。日本語読み辞書内に登録された3156の単語は、英語読み辞書内にも登録された。英語読み辞書は、対応する日本語音素についての英語音素を調べるために使用された。従って、PENG2PJP変換器のための訓練データの数は、3156であった。
1つの例として、P2P変換器130がG2P変換器110に接続され、複数の変換により、英語音素を介して英語書記素のシーケンスを日本語音素のシーケンスに変換する新規な書記素・音素変換器(GENG2PENG2PJP変換器)を形成した。
比較例として、英語書記素のシーケンスを日本語音素のシーケンスに直接変換するG2P変換器(GENG2PJP変換器)が、英語読み辞書及び日本語読み辞書を用いて訓練された。GENG2PJP変換器のための訓練データの数は、3156であった。
各々の訓練された変換器の精度が、351語を有する試験データについて評価された。性能のメトリックとして、PER(Phoneme Error Rate、音素誤り率)が用いられた。例及び比較例の評価結果は、以下の通り中間結果で要約される。:
Figure 0007129137000001
表に示されるように、GENG2PENG変換器及びPENG2PJP変換器の性能の精度は、それぞれ9.0%PER及び29.3%PERであった。新規な英語書記素・日本語音素変換器GENG2PENG2PJPの性能は、直接的な英語書記素・日本語音素変換器GENG2PJPと比較して、精度が相対的に9.8%改善した34.8%PERであった。また、PENG2PJP変換器の性能をGENG2PJP変換器と比較することにより、異なる言語にわたる読みから読みへの変換の精度は、書記から読みに変換する精度よりも高いことも理解できる。例の新規な書記素・音素変換器(GENG2PENG2PJP)は、比較例(GENG2PJP)の直接変換と比べて、ソース言語で書かれた単語についてのターゲット書記素のシーケンスをより高い精度で推定できることが実証された。
ここで図8を参照すると、書記素・音素変換システム100又は音素・書記素変換システム200のために用い得るコンピュータ・システム10の1つの例の概略図が示される。図8に示されるコンピュータ・システム10は、コンピュータ・システムとして実装される。コンピュータ・システム10は、好適な処理デバイスの一例にすぎず、本明細書に記載される本発明の実施形態の使用範囲又は機能に関する何らかの制限を示唆することを意図するものではない。それにも関わらず、コンピュータ・システム10は、上述した機能のいずれかを実装及び/又は実行することができる。
コンピュータ・システム10は、多数の他の汎用又は専用コンピューティング・システム環境又は構成で動作する。コンピュータ・システム10と共に用いるのに好適であり得る周知のコンピューティング・システム、環境、及び/又は構成の例として、これらに限定されるものではないが、パーソナル・コンピュータ・システム、サーバ・コンピュータ・システム、シン・クライアント、シック・クライアント、手持ち式又はラップトップ型デバイス、車載デバイス、マルチプロセッサ・システム、マイクロプロセッサ・ベースのシステム、セット・トップ・ボックス、プログラム可能民生電子機器、ネットワークPC、ミニコンピュータ・システム、メインフレーム・コンピュータ・システム、及び、上述のシステム若しくはデバイスのいずれかを含む分散型クラウド・コンピューティング環境等が含まれる。
コンピュータ・システム10は、コンピュータ・システムによって実行される、プログラム・モジュールなどのコンピュータ・システム実行可能命令の一般的な文脈で説明することができる。一般に、プログラム・モジュールは、特定のタスクを実行する又は特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、論理、データ構造などを含み得る。
図8に示されるように、コンピュータ・システム10は、汎用コンピューティング・デバイスの形で示される。コンピュータ・システム10のコンポーネントは、これらに限定されるものではないが、プロセッサ(又は処理ユニット)12、メモリ・バスを含むバス又はメモリ・コントローラによりプロセッサ12に結合されたメモリ16、及び種々のバス・アーキテクチャのいずれかを用いるプロセッサ又はローカル・バスを含むことができる。
コンピュータ・システム10は、典型的には、種々のコンピュータ・システム可読媒体を含む。このような媒体は、コンピュータ・システム10によりアクセス可能ないずれかの利用可能媒体とすることができ、揮発性媒体及び不揮発性媒体の両方と、取り外し可能媒体及び取り外し不能媒体の両方とを含む。
メモリ16は、ランダム・アクセス・メモリ(RAM)など、揮発性メモリの形のコンピュータ・システム可読媒体を含むことができる。コンピュータ・システム10は、他の取り外し可能/取り外し不能、揮発性/不揮発性のコンピュータ・システム・ストレージ媒体をさらに含むことができる。単なる例として、ストレージ・システム18は、取り外し不能の不揮発性磁気媒体との間の読み出し及び書き込みのために提供され得る。以下でさらに示され説明されるように、ストレージ・システム18は、本発明の実施形態の機能を実行するように構成されたプログラム・モジュールのセット(例えば、少なくとも1つ)を有する少なくとも1つのプログラム製品を含むことができる。
例として、プログラム・モジュールのセット(少なくとも1つ)を有するプログラム/ユーティリティがストレージ・システム18内に格納され得るが、これに限定されず、オペレーティング・システム、1以上のアプリケーション・プログラム、他のプログラム・モジュール、及びプログラム・データも格納され得る。オペレーティング・システム、1以上のアプリケーション・プログラム、他のプログラム・モジュール、及びプログラム・データ、又はそれらの何らかの組み合わせは、それぞれネットワーキング環境の実装形態を含むことができる。プログラム・モジュールは、通常、本明細書で記載される本発明の実施形態の機能及び/又は方法を実行する。
コンピュータ・システム10は、キーボード、ポインティング・デバイス、音声システム等のような1以上の周辺機器24、ディスプレイ26、ユーザがコンピュータ・システム10と対話することを可能にする1以上のデバイス、及び/又は、コンピュータ・システム10が1以上の他のコンピューティング・デバイスと通信することを可能にするいずれかのデバイス(例えば、ネットワーク・カード、モデムなど)と通信することもできる。このような通信は、入力/出力(I/O)インターフェース22を経由して行うことができる。さらにまた、コンピュータ・システム10は、ネットワーク・アダプタ20を介して、ローカル・エリア・ネットワーク(LAN)、汎用広域ネットワーク(WAN)、及び/又はパブリック・ネットワーク(例えば、インターネット)などの1以上のネットワークと通信することもできる。示されるように、ネットワーク・アダプタ20は、バスを介して、コンピュータ・システム10の他のコンポーネントと通信する。図示されないが、コンピュータ・システム10と共に他のハードウェア及び/又はソフトウェア・コンポーネントが使用され得ることを理解されたい。例としては、これらに限定されるものではないが、マイクロコード、デバイス・ドライバ、冗長処理ユニット、外部のディスク・ドライブ・アレイ、RAIDシステム、テープ・ドライブ、及びデータ・アーカイブ・ストレージ・システムなどが含まれる。
本発明は、コンピュータ・システム、方法、及び/又はコンピュータ・プログラム製品とすることができる。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読ストレージ媒体(単数又は複数)を含むことができる。
コンピュータ可読ストレージ媒体は、命令実行デバイスにより使用される命令を保持及び格納できる有形デバイスとすることができる。コンピュータ可読ストレージ媒体は、例えば、これらに限定されるものではないが、電子ストレージ・デバイス、磁気ストレージ・デバイス、光ストレージ・デバイス、電磁気ストレージ・デバイス、半導体ストレージ・デバイス、又は上記のいずれかの適切な組み合わせとすることができる。コンピュータ可読ストレージ媒体のより具体的な例の非網羅的なリストとして、以下のもの:すなわち、ポータブル・コンピュータ・ディスケット、ハードディスク、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラム可能読み出し専用メモリ(EPROM又はフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク読み出し専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリ・スティック、フロッピー・ディスク、パンチカード若しくは命令がそこに記録された溝内の隆起構造のような機械的にエンコードされたデバイス、及び上記のいずれかの適切な組み合わせが挙げられる。本明細書で使用される場合、コンピュータ可読ストレージ媒体は、電波、又は他の自由に伝搬する電磁波、導波管若しくは他の伝送媒体を通じて伝搬する電磁波(例えば、光ファイバ・ケーブルを通る光パルス)、又はワイヤを通って送られる電気信号などの、一時的信号自体として解釈されない。
本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体からそれぞれのコンピューティング/処理デバイスにダウンロードすることができ、又は、例えばインターネット、ローカル・エリア・ネットワーク、広域ネットワーク、及び/又は無線ネットワークなどのネットワークを介して外部コンピュータ又は外部ストレージ・デバイスにダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、及び/又はエッジ・サーバを含むことができる。各コンピューティング/処理デバイスにおけるネットワーク・アダプタ・カード又はネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受け取り、それぞれのコンピューティング/処理デバイス内のコンピュータ可読ストレージ媒体内に格納するためにコンピュータ可読プログラム命令を転送する。
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、又は、Smalltalk、C++などのオブジェクト指向プログラミング言語、又は、「C」プログラミング言語若しくは類似のプログラミング言語などの通常の手続き型プログラミング言語を含む1以上のプログラミング言語の任意の組み合わせで記述することができるいずれかのソースコード若しくはオブジェクトコードとすることができる。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で実行される場合もあり、一部がユーザのコンピュータ上で、独立型ソフトウェア・パッケージとして実行される場合もあり、一部がユーザのコンピュータ上で実行され、一部が遠隔コンピュータ上で実行される場合もあり、又は完全に遠隔コンピュータ若しくはサーバ上で実行される場合もある。最後のシナリオにおいて、遠隔コンピュータは、ローカル・エリア・ネットワーク(LAN)若しくは広域ネットワーク(WAN)を含むいずれかのタイプのネットワークを通じてユーザのコンピュータに接続される場合もあり、又は外部コンピュータへの接続がなされる場合もある(例えば、インターネットサービスプロバイダを用いたインターネットを通じて)。幾つかの実施形態において、例えば、プログラム可能論理回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)、又はプログラム可能論理アレイ(PLA)を含む電子回路は、コンピュータ可読プログラム命令の状態情報を用いて電子回路を個別化することによりコンピュータ可読プログラム命令を実行し、本発明の態様を実施することができる。
本発明の態様は、本発明の実施形態による方法、装置(システム)及びコンピュータ・プログラム製品のフローチャート図及び/又はブロック図を参照して説明される。フローチャート図及び/又はブロック図の各ブロック、並びにフローチャート図及び/又はブロック図内のブロックの組み合わせは、コンピュータ可読プログラム命令によって実装できることが理解されるであろう。
これらのコンピュータ可読プログラム命令を、汎用コンピュータ、専用コンピュータ、又は他のプログラム可能データ処理装置のプロセッサに与えてマシンを製造し、それにより、コンピュータ又は他のプログラム可能データ処理装置のプロセッサによって実行される命令が、フローチャート及び/又はブロック図の1以上のブロック内で指定された機能/動作を実装するための手段を作り出すようにすることができる。これらのコンピュータ可読プログラム命令を、コンピュータ、プログラム可能データ処理装置、及び/又は他のデバイスを特定の方式で機能させるように指示することができるコンピュータ可読媒体内に格納し、それにより、命令が内部に格納されたコンピュータ可読ストレージ媒体が、フローチャート及び/又はブロック図の1以上のブロックにおいて指定された機能/動作の態様を実装する命令を含む製品を含むようにすることもできる。
コンピュータ可読プログラム命令を、コンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上にロードして、一連の動作ステップをコンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上で行わせてコンピュータ実装プロセスを生成し、それにより、コンピュータ又は他のプログラム可能装置上で実行される命令が、フローチャート及び/又はブロック図の1以上のブロックにおいて指定された機能/動作を実装するようにすることもできる。
図面内のフローチャート及びブロック図は、本発明の種々の実施形態による、システム、方法、及びコンピュータ・プログラム製品の可能な実装の、アーキテクチャ、機能及び動作を示す。この点に関して、フローチャート内の各ブロックは、指定された論理機能を実装するための1以上の実行可能命令を含む、モジュール、セグメント、又はコードの一部を表すことができる。幾つかの代替的な実装において、ブロック内に示される機能は、図に示される順序とは異なる順序で生じることがある。例えば、連続して示される2つのブロックは、関与する機能に応じて、実際には実質的に同時に実行されることもあり、又はこれらのブロックはときとして逆順で実行されることもある。ブロック図及び/又はフローチャート図の各ブロック、及びブロック図及び/又はフローチャート図内のブロックの組み合わせは、指定された機能又は動作を実行する、又は専用のハードウェアとコンピュータ命令との組み合わせを実行する、専用ハードウェア・ベースのシステムによって実装できることにも留意されたい。
本明細書で用いられる用語は、特定の実施形態を説明することのみを目的とし、本発明を限定することを意図したものではない。本明細書内で用いられる場合、単数形「1つの(a)」、「1つの(an)」及び「その(the)」は、文脈がそうでないことを明確に示していない限り、複数形も含むことを意図している。さらに、用語「含む(include)」、「含んでいる(including)」、「含む(comprise)」、及び/又は「含んでいる(comprising)」は、本開示で用いられる場合、記述された特徴、整数、ステップ、動作、要素、及び/又はコンポーネントの存在を指定するが、1以上の他の特徴、整数、ステップ、動作、要素、コンポーネント、及び/又はその群の存在又は付加を除外するものではないことが理解されるであろう。
以下の特許請求の範囲に存在する場合、「手段又はステップと機能との組合せ(ミーンズ又はステップ・プラス・ファンクション)」要素の対応する構造、材料、動作及び均等物は、明確に特許請求された他の請求要素と共に機能を実行するための任意の構造、材料、又は行為を含むことを意図したものである。本発明の1以上の態様の説明は、例証及び説明のためだけに提示されたものであり、網羅的であること又は本発明を開示した形態に限定することを意図したものではない。
当業者には、説明される実施形態の範囲及び趣旨から逸脱することなく、多くの修正及び変形が明らかであろう。本明細書で使用される用語は、実施形態の原理、実際の用途、若しくは市場で見出される技術に優る技術的改善を最も良く説明するために、又は当業者が本明細書に開示される実施形態を理解するのを可能にするために、選択された。
10:コンピュータ・システム
12:プロセッサ(処理ユニット)
18:ストレージ・システム
20:ネットワーク・アダプタ
100:書記素・音素変換システム
102:ソース言語辞書
104、204:外来語辞書
110:書記素・音素(G2P)変換器
120:G2P変換器学習モジュール
130、230:音素・音素(P2P)変換器
132:エンコーダ
134:デコーダ
140:P2P変換器学習モジュール
150、250:スコアラ
200:音素・書記素変換システム
206:ターゲット言語辞書
260:音素・書記素(P2G)変換器
270:P2G変換器学習モジュール

Claims (21)

  1. コンピュータの情報処理により、異なる言語で書かれた単語についての音素を推定する方法であって、前記方法は、
    ソース言語における所与の単語の書記素のシーケンスを受け取ることと、
    前記ソース言語における前記書記素の前記シーケンスを前記ソース言語における音素のシーケンスに変換することと、
    ニューラル・ネットワーク・モデルを用いることにより、前記ソース言語における前記音素の前記シーケンスからターゲット言語における音素の複数のシーケンスを生成することと、
    前記ターゲット言語の言語モデルを用いることにより、前記ターゲット言語における前記音素の各シーケンスについてのスコアを評価することと、
    前記スコアを用いて、前記所与の単語について前記ターゲット言語における音素の1つのシーケンスを決定することと、
    を含む方法。
  2. 前記言語モデルは、前記ターゲット言語における前記音素の各シーケンスについての前記スコアとして生起確率を出力する、請求項1に記載の方法。
  3. 前記ソース言語における前記書記素の前記シーケンスは、第1のシーケンス・シーケンス変換器により、前記ソース言語における前記音素の前記シーケンスに変換される、請求項1又は請求項2に記載の方法。
  4. 前記第1のシーケンス・シーケンス変換器は、各単語について前記ソース言語における書記素のセットと音素のセットとの間の関係を登録する第1の辞書を用いることにより訓練される、請求項3に記載の方法。
  5. 前記ニューラル・ネットワーク・モデルは、前記ソース言語における前記音素の前記シーケンスを前記ターゲット言語における前記音素の前記1以上のシーケンスに変換するための第2のシーケンス・シーケンス変換器である、請求項1から請求項4のいずれか一項に記載の方法。
  6. 前記第2のシーケンス・シーケンス変換器は、各単語について前記ソース言語における書記素のセットと前記ターゲット言語における音素のセットとの間の関係を登録する第2の辞書と、各単語について前記ソース言語における書記素のセットと音素のセットとの間の関係を登録する第1の辞書とを用いることにより訓練される、請求項5に記載の方法。
  7. コンピュータの情報処理により、異なる言語における音素から単語の書記素を推定する方法であって、前記方法は、
    ソース言語における音素のシーケンスを受け取ることと、
    ニューラル・ネットワーク・モデルを用いることにより、前記ソース言語における前記音素の前記シーケンスから、ターゲット言語における音素の1以上のシーケンスを生成することと、
    前記ターゲット言語における前記音素の1以上のシーケンスを、前記ターゲット言語における書記素の1以上のシーケンスに変換することと、
    前記ソース言語における前記音素の前記シーケンスについて前記ターゲット言語で書かれたターゲットの単語を識別することと、
    を含む、方法。
  8. 前記書記素の前記1以上のシーケンスは、書記素の複数のシーケンスを含み、前記方法は、
    前記ターゲット言語の言語モデルを用いることにより、前記ターゲット言語における前記書記素の各シーケンスについてのスコアを評価することをさらに含み、前記書記素の各シーケンスについての前記スコアは、前記書記素の前記複数のシーケンスの中から前記ターゲットの単語として前記書記素の1つのシーケンスを決定するために用いられる、請求項7に記載の方法。
  9. 前記ニューラル・ネットワーク・モデルは、前記ソース言語における前記音素の前記シーケンスを前記ターゲット言語における前記音素の前記1以上のシーケンスに変換するための第3のシーケンス・シーケンス変換器である、請求項7又は請求項8のいずれかに記載の方法。
  10. 前記第3のシーケンス・シーケンス変換器は、各単語について前記ターゲット言語における書記素のセットと前記ソース言語における音素のセットとの間の関係を登録する第3の辞書と、各単語について前記ターゲット言語における書記素のセットと音素のセットとの間の関係を登録する第4の辞書とを用いることにより訓練される、請求項9に記載の方法。
  11. 前記ターゲット言語における前記音素の前記少なくとも1つのシーケンスは、第4のシーケンス・シーケンス変換器により、前記ターゲット言語における前記書記素の前記少なくとも1つのシーケンスに変換される、請求項7から請求項10のいずれか一項に記載の方法。
  12. 前記第4のシーケンス・シーケンス変換器は、各単語について前記ターゲット言語における書記素のセットと音素のセットとの間の関係を登録する第4の辞書を用いることにより訓練される、請求項11に記載の方法。
  13. プログラム命令を実行することにより、異なる言語で書かれた単語についての音素を推定するためのコンピュータ・システムであって、前記コンピュータ・システムは、
    前記プログラム命令を有形に格納するメモリと、
    前記プログラム命令を実行するために前記メモリと通信するプロセッサと、
    を含み、前記プロセッサは、
    ソース言語における所与の単語の書記素のシーケンスを受け取り、
    前記ソース言語における前記書記素の前記シーケンスを前記ソース言語における音素のシーケンスに変換し、
    ニューラル・ネットワーク・モデルを用いることにより、前記ソース言語における前記音素の前記シーケンスからターゲット言語における前記音素の複数のシーケンスを生成し、
    前記ターゲット言語の言語モデルを用いることにより、前記ターゲット言語における前記音素の各シーケンスについてのスコアを評価し、
    前記スコアを用いて、前記所与の単語について前記ターゲット言語における音素の1つのシーケンスを決定する、
    ように構成される、コンピュータ・システム。
  14. 前記ソース言語における前記書記素の前記シーケンスは、第1のシーケンス・シーケンス変換器により、前記ソース言語における前記音素の前記シーケンスに変換され、前記ニューラル・ネットワーク・モデルは、前記ソース言語における前記音素の前記シーケンスを前記ターゲット言語における前記音素の前記1以上のシーケンスに変換するための第2のシーケンス・シーケンス変換器である、請求項13に記載のコンピュータ・システム。
  15. プログラム命令を実行することにより、異なる言語で書かれた単語の書記素を推定するためのコンピュータ・システムであって、前記コンピュータ・システムは、
    前記プログラム命令を有形に格納するメモリと、
    前記プログラム命令を実行するために前記メモリと通信するプロセッサと、
    を含み、前記プロセッサは、
    ソース言語における音素のシーケンスを受け取り、
    ニューラル・ネットワーク・モデルを用いることにより、前記ソース言語における前記音素の前記シーケンスから前記ターゲット言語における音素の1以上のシーケンスを生成し、
    前記ターゲット言語における前記音素の1以上のシーケンスを前記ターゲット言語における書記素の1以上のシーケンスに変換し、
    前記ソース言語における前記音素の前記シーケンスについて前記ターゲット言語で書かれたターゲットの単語を識別する、
    ように構成される、コンピュータ・システム。
  16. 前記書記素の前記1以上のシーケンスは、書記素の複数のシーケンスを含み、前記プロセッサは、
    前記ターゲット言語の言語モデルを用いることにより、前記ターゲット言語における前記書記素の各シーケンスについてのスコアを評価するようにさらに構成され、前記書記素の各シーケンスについての前記スコアは、前記書記素の前記複数のシーケンスの中から、前記ターゲットの単語として前記書記素の1つのシーケンスを決定するために用いられる、請求項15に記載のコンピュータ・システム。
  17. 前記ニューラル・ネットワーク・モデルは、前記ソース言語における前記音素の前記シーケンスを前記ターゲット言語における前記音素の前記1以上のシーケンスに変換するための第3のシーケンス・シーケンス変換器であり、前記ターゲット言語における前記音素の前記1以上のシーケンスは、第4のシーケンス・シーケンス変換器により、前記ターゲット言語における前記書記素の前記1以上のシーケンスに変換される、請求項15又は請求項16に記載のコンピュータ・システム。
  18. 請求項1から請求項6のいずれか一項に記載の方法を実行するための、処理回路により実行される命令を格納した、コンピュータ可読ストレージ媒体。
  19. デジタル・コンピュータの内部メモリにロード可能なコンピュータ・プログラムであって、前記プログラムがコンピュータ上で実行されるとき、請求項1から請求項6のいずれか一項に記載の方法を実行するためのコンピュータ・プログラム。
  20. 請求項7から請求項12のいずれか一項に記載の方法を実行するための、処理回路により実行される命令を格納した、コンピュータ可読ストレージ媒体。
  21. デジタル・コンピュータの内部メモリにロード可能なコンピュータ・プログラムであって、前記プログラムがコンピュータ上で実行されるとき、請求項7から請求項12のいずれか一項に記載の方法を実行するためのコンピュータ・プログラム。
JP2020513519A 2017-09-27 2018-09-24 異なる言語にわたる書記素・音素間の変換のための方法、コンピュータ・システム及びコンピュータ・プログラム Active JP7129137B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US15/717,194 US11195513B2 (en) 2017-09-27 2017-09-27 Generating phonemes of loan words using two converters
US15/717,194 2017-09-27
US15/801,820 US11138965B2 (en) 2017-09-27 2017-11-02 Generating phonemes of loan words using two converters
US15/801,820 2017-11-02
PCT/IB2018/057353 WO2019064158A1 (en) 2017-09-27 2018-09-24 CONVERSION BETWEEN GRAPHICS AND PHONEMES IN DIFFERENT LANGUAGES

Publications (2)

Publication Number Publication Date
JP2021501903A JP2021501903A (ja) 2021-01-21
JP7129137B2 true JP7129137B2 (ja) 2022-09-01

Family

ID=65807912

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020513519A Active JP7129137B2 (ja) 2017-09-27 2018-09-24 異なる言語にわたる書記素・音素間の変換のための方法、コンピュータ・システム及びコンピュータ・プログラム

Country Status (3)

Country Link
US (2) US11195513B2 (ja)
JP (1) JP7129137B2 (ja)
WO (1) WO2019064158A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11004443B2 (en) * 2018-08-30 2021-05-11 Tencent America LLC Multistage curriculum training framework for acoustic-to-word speech recognition
CN110223673B (zh) * 2019-06-21 2020-01-17 龙马智芯(珠海横琴)科技有限公司 语音的处理方法及装置、存储介质、电子设备
US11217245B2 (en) * 2019-08-29 2022-01-04 Sony Interactive Entertainment Inc. Customizable keyword spotting system with keyword adaptation
CN110459208B (zh) * 2019-09-09 2022-01-11 中科极限元(杭州)智能科技股份有限公司 一种基于知识迁移的序列到序列语音识别模型训练方法
US10917607B1 (en) 2019-10-14 2021-02-09 Facebook Technologies, Llc Editing text in video captions
CN114694636A (zh) * 2020-12-31 2022-07-01 华为技术有限公司 语音识别方法及装置
CN112927676A (zh) * 2021-02-07 2021-06-08 北京有竹居网络技术有限公司 一种语音信息的获取方法、装置、设备和存储介质
KR102583764B1 (ko) 2022-06-29 2023-09-27 (주)액션파워 외국어가 포함된 오디오의 음성 인식 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011034220A (ja) 2009-07-30 2011-02-17 National Institute Of Information & Communication Technology 字訳装置、コンピュータプログラム及び記録媒体
JP2013175067A (ja) 2012-02-27 2013-09-05 Hiroshima City Univ 自動読み付与装置及び自動読み付与方法
JP2015060095A (ja) 2013-09-19 2015-03-30 株式会社東芝 音声翻訳装置、音声翻訳方法およびプログラム
WO2017002199A1 (ja) 2015-06-30 2017-01-05 楽天株式会社 翻字処理装置、翻字処理方法、翻字処理プログラム、及び情報処理装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19942178C1 (de) * 1999-09-03 2001-01-25 Siemens Ag Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung
DE10042944C2 (de) * 2000-08-31 2003-03-13 Siemens Ag Graphem-Phonem-Konvertierung
EP1217610A1 (de) * 2000-11-28 2002-06-26 Siemens Aktiengesellschaft Verfahren und System zur multilingualen Spracherkennung
JP2002207728A (ja) 2001-01-12 2002-07-26 Fujitsu Ltd 表音文字生成装置及びそれを実現するためのプログラムを記録した記録媒体
KR20070004788A (ko) 2004-03-05 2007-01-09 레삭 테크놀로지스 인코포레이티드. 프로소딕 스피치 텍스트 코드 및 컴퓨터화 스피치 시스템내에서의 프로소딕 스피치 텍스트 코드의 사용법
TWI340330B (en) * 2005-11-14 2011-04-11 Ind Tech Res Inst Method for text-to-pronunciation conversion
CN101202041B (zh) * 2006-12-13 2011-01-05 富士通株式会社 一种汉语韵律词组词方法及装置
US8190420B2 (en) * 2009-08-04 2012-05-29 Autonomy Corporation Ltd. Automatic spoken language identification based on phoneme sequence patterns
US20110218796A1 (en) * 2010-03-05 2011-09-08 Microsoft Corporation Transliteration using indicator and hybrid generative features
US9135912B1 (en) * 2012-08-15 2015-09-15 Google Inc. Updating phonetic dictionaries
US9195656B2 (en) * 2013-12-30 2015-11-24 Google Inc. Multilingual prosody generation
WO2016048350A1 (en) * 2014-09-26 2016-03-31 Nuance Communications, Inc. Improving automatic speech recognition of multilingual named entities
US9852728B2 (en) * 2015-06-08 2017-12-26 Nuance Communications, Inc. Process for improving pronunciation of proper nouns foreign to a target language text-to-speech system
CN105590623B (zh) 2016-02-24 2019-07-30 百度在线网络技术(北京)有限公司 基于人工智能的字母音素转换模型生成方法及装置
KR102329127B1 (ko) * 2017-04-11 2021-11-22 삼성전자주식회사 방언을 표준어로 변환하는 방법 및 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011034220A (ja) 2009-07-30 2011-02-17 National Institute Of Information & Communication Technology 字訳装置、コンピュータプログラム及び記録媒体
JP2013175067A (ja) 2012-02-27 2013-09-05 Hiroshima City Univ 自動読み付与装置及び自動読み付与方法
JP2015060095A (ja) 2013-09-19 2015-03-30 株式会社東芝 音声翻訳装置、音声翻訳方法およびプログラム
WO2017002199A1 (ja) 2015-06-30 2017-01-05 楽天株式会社 翻字処理装置、翻字処理方法、翻字処理プログラム、及び情報処理装置

Also Published As

Publication number Publication date
WO2019064158A1 (en) 2019-04-04
US20190096390A1 (en) 2019-03-28
US11195513B2 (en) 2021-12-07
JP2021501903A (ja) 2021-01-21
US20190096388A1 (en) 2019-03-28
US11138965B2 (en) 2021-10-05

Similar Documents

Publication Publication Date Title
JP7129137B2 (ja) 異なる言語にわたる書記素・音素間の変換のための方法、コンピュータ・システム及びコンピュータ・プログラム
CN107195295B (zh) 基于中英文混合词典的语音识别方法及装置
CN107301860B (zh) 基于中英文混合词典的语音识别方法及装置
US9502036B2 (en) Correcting text with voice processing
KR102390940B1 (ko) 음성 인식을 위한 컨텍스트 바이어싱
US11227579B2 (en) Data augmentation by frame insertion for speech data
JP7092953B2 (ja) エンドツーエンドモデルによる多言語音声認識のための音素に基づく文脈解析
US20140350934A1 (en) Systems and Methods for Voice Identification
US10431201B1 (en) Analyzing messages with typographic errors due to phonemic spellings using text-to-speech and speech-to-text algorithms
US11276391B2 (en) Generation of matched corpus for language model training
US20100125459A1 (en) Stochastic phoneme and accent generation using accent class
Kurimo et al. Modeling under-resourced languages for speech recognition
JP6552999B2 (ja) テキスト補正装置、テキスト補正方法、およびプログラム
JP2024511198A (ja) シーケンスにわたって対照損失を用いる教師ありトレーニングおよび教師なしトレーニング
Chuang et al. Non-autoregressive mandarin-english code-switching speech recognition
JP2023517357A (ja) データ入力に対する音声認識及び訓練
US20230081306A1 (en) Training end-to-end spoken language understanding systems with unordered entities
Sajjan et al. Kannada speech recognition using decision tree based clustering
Wu et al. HeySQuAD: A Spoken Question Answering Dataset
CN115114933A (zh) 用于文本处理的方法、装置、设备和存储介质
JP2024001922A (ja) 情報処理システム、情報処理方法およびプログラム
Kong et al. Performance Improvements of Probabilistic Transcript-adapted ASR with Recurrent Neural Network and Language-specific Constraints
WO2019044583A1 (ja) コンフュージョンネットワーク分散表現生成装置、コンフュージョンネットワーク分類装置、コンフュージョンネットワーク分散表現生成方法、コンフュージョンネットワーク分類方法、プログラム
Beckley et al. Pair Language Models for Deriving Alternative Pronunciations and Spellings from Pronunciation Dictionaries
Geneva et al. Accentor: An Explicit Lexical Stress Model for TTS Systems

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200330

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20200305

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220413

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20220502

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220809

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20220809

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220818

R150 Certificate of patent or registration of utility model

Ref document number: 7129137

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150