JP7129137B2

JP7129137B2 - 異なる言語にわたる書記素・音素間の変換のための方法、コンピュータ・システム及びコンピュータ・プログラム

Info

Publication number: JP7129137B2
Application number: JP2020513519A
Authority: JP
Inventors: 徹長野; 岳人倉田; 祐太坪井
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2017-09-27
Filing date: 2018-09-24
Publication date: 2022-09-01
Anticipated expiration: 2038-09-24
Also published as: WO2019064158A1; US20190096390A1; US11195513B2; JP2021501903A; US20190096388A1; US11138965B2

Description

本開示は、一般に、異なる言語にわたる書記素（grapheme）・音素（phoneme）間の変換に関し、より特定的には、異なる言語で書かれた単語についての音素を推定するための技術、及び異なる言語における音素から単語の書記素を推定するための技術に関する。

書記素は、単語における音（音素）を表す１つの文字又は多数の文字である。書記素・音素（Grapheme-to-phoneme、Ｇ２Ｐ）変換は、その書かれた形態から単語の読み（リーディング、reading）を見つけるタスクである。Ｇ２Ｐ変換は、テキスト・音声（Text-to-Speech、ＴＴＳ）変換において用いられ、そこで、ＴＴＳシステムは、辞書と共にＧ２Ｐシステムを用いることにより、テキストを書かれた形態から音素に変換する。Ｇ２Ｐ変換は、音声・テキスト（Speech-to-Text、ＳＴＴ）変換においても用いられ、そこで、ＳＴＴシステムは、Ｇ２Ｐシステムを用いることにより、音素を所与の訓練データにおける未知の語に割り当てる。

近年、シーケンス・シーケンス・ニューラル・ネットワーク・モデル（sequence-to-sequence neural network model）が、Ｇ２Ｐ変換に適用されている（非特許文献１）。この文献によると、副次的条件付き言語モデルを用いた生成に基づくシーケンス・シーケンス翻訳方法が、機械翻訳及び画像キャプションを含む幾つかのタスクにおいて有望な結果を示したことが述べられている。簡単な副次的条件付き生成手法は、Ｇ２Ｐ変換の最新技術に匹敵し、アラインメント情報を用いる双方向の長期・短期記憶（ＬＳＴＭ）ニューラル・ネットワークを用いる最新技術を著しく前進させ得ることが判明した。

通常、一般的な単語についての書記素と対応する音素との間の関係は、既にＴＴＳ／ＳＴＴ辞書内に列挙されている。しかしながら、外来語（loanword）の大部分は、ＴＴＳ／ＳＴＴ辞書において未知の語である。外来語は全ての言語における全ての語を含む可能性があり、新しい語が次々と生まれ、別の言語に取り入れられるため、辞書が全ての外来語の音素をカバーするのは困難である。

Ｋ．Ｙａｏ他著、「Ｓｅｑｕｅｎｃｅ－ｔｏ－ＳｅｑｕｅｎｃｅＮｅｕｒａｌＮｅｔＭｏｄｅｌｓｆｏｒＧｒａｐｈｅｍｅ－ｔｏ－ＰｈｏｎｅｍｅＣｏｎｖｅｒｓｉｏｎ」、ＩＮＴＥＲＳＰＥＥＣＨ予稿集、２０１５年

少なくとも必要とされるのは、準備され得る辞書のサイズが比較的小さい場合でも、異なる言語で書かれた単語についての妥当な音素を高い精度で推定できる、コンピュータ実施方法、関連したコンピュータ・システム及びコンピュータ・プログラムである。

従って、当技術分野において、上述の問題に対処するための必要性が存在する。

第１の態様から見ると、本発明は、異なる言語で書かれた単語についての音素を推定するためのコンピュータ実施方法を提供し、この方法は、ソース言語における所与の単語の書記素のシーケンスを受け取ることと、ソース言語における書記素のシーケンスをソース言語における音素のシーケンスに変換することと、ニューラル・ネットワーク・モデルを用いることにより、ソース言語における音素のシーケンスからターゲット言語における音素の１以上のシーケンスを生成することと、所与の単語についてターゲット言語における音素の１つのシーケンスを決定することと、を含む。

更に別の態様から見ると、本発明は、異なる言語における音素から単語の書記素を推定するためのコンピュータ実施方法を提供し、この方法は、ソース言語における音素のシーケンスを受け取ることと、ニューラル・ネットワーク・モデルを用いることにより、ソース言語における音素のシーケンスからターゲット言語における音素の１以上のシーケンスを生成することと、ターゲット言語における音素の少なくとも１つのシーケンスをターゲット言語における書記素の少なくとも１つのシーケンスに変換することと、ソース言語における音素のシーケンスについてターゲット言語で書かれたターゲットの単語を識別することと、を含む。

更に別の態様から見ると、本発明は、プログラム命令を実行することにより、異なる言語で書かれた単語についての音素を推定するためのコンピュータ・システムを提供し、このコンピュータ・システムは、プログラム命令を有形に格納するメモリと、プログラム命令を実行するためにメモリと通信するプロセッサとを含み、プロセッサは、ソース言語における所与の単語の書記素のシーケンスを受け取り、ソース言語における書記素のシーケンスをソース言語における音素のシーケンスに変換し、ニューラル・ネットワーク・モデルを用いることにより、ソース言語における音素のシーケンスからターゲット言語における音素の１以上のシーケンスを生成し、所与の単語についてターゲット言語における音素の１つのシーケンスを決定するように構成される。

更に別の態様から見ると、本発明は、プログラム命令を実行することにより、異なる言語における音素から単語の書記素を推定するためのコンピュータ・システムを提供し、このコンピュータ・システムは、プログラム命令を有形に格納するメモリと、プログラム命令を実行するためにメモリと通信するプロセッサとを含み、プロセッサは、ソース言語における音素のシーケンスを受け取り、ニューラル・ネットワーク・モデルを用いることにより、ソース言語における音素のシーケンスからターゲット言語における音素の１以上のシーケンスを生成し、ターゲット言語における音素の少なくとも１つのシーケンスをターゲット言語における書記素の少なくとも１つのシーケンスに変換し、ソース言語における音素のシーケンスについてのターゲット言語で書かれたターゲットの単語を識別するように構成される。

更に別の態様から見ると、本発明は、異なる言語で書かれた単語についての音素を推定するためのコンピュータ・プログラム製品を提供し、このコンピュータ・プログラム製品は、処理回路により可読であり、本発明のステップを実行するための方法を実行する、処理回路により実行される命令を格納するコンピュータ可読ストレージ媒体を含む。

更に別の態様から見ると、本発明は、異なる言語における音素から単語の書記素を推定するためのコンピュータ・プログラム製品を提供し、このコンピュータ・プログラム製品は、処理回路により可読であり、本発明のステップを実行するための方法を実行する、処理回路により実行される命令を格納するコンピュータ可読ストレージ媒体を含む。

更に別の態様から見ると、本発明は、コンピュータ可読媒体上に格納され、デジタル・コンピュータの内部メモリにロード可能なコンピュータ・プログラムであって、プログラムがコンピュータ上で実行されるとき、本発明のステップを実行するためのソフトウェア・コード部分を含む、コンピュータ・プログラムを提供する。

本発明の実施形態によると、異なる言語で書かれた単語についての音素を推定するためのコンピュータ実施方法が提供される。方法は、ソース言語における所与の単語の書記素のシーケンスを受け取ることを含む。方法は、ソース言語における書記素のシーケンスをソース言語における音素のシーケンスに変換することも含む。方法は、ニューラル・ネットワーク・モデルを用いることにより、ソース言語における音素のシーケンスからターゲット言語における音素の１以上のシーケンスを生成することをさらに含む。方法は、所与の単語についてターゲット言語における音素の１つのシーケンスを決定することをさらに含む。

本発明の実施形態の方法によると、利用可能な辞書のサイズが比較的小さい場合でも、ソース言語で書かれた単語についてターゲット言語における音素のシーケンスが高い精度で推定され得る。

１つの実施形態において、音素の１以上のシーケンスは、音素の複数のシーケンスを含む。方法は、ターゲット言語の言語モデルを用いることにより、ターゲット言語における音素の各シーケンスについてのスコアを評価することをさらに含む。音素の各シーケンスについてのスコアは、音素の複数のシーケンスの中から音素の１つのシーケンスを決定するために用いられる。ソース言語における音素のシーケンスから生成される、ターゲット言語における音素の言語的に容認不能なシーケンスは結果から除外され得るので、推定の精度が改善され得る。

別の実施形態において、ソース言語における書記素のシーケンスが、第１のシーケンス・シーケンス変換器により、ソース言語における音素のシーケンスに変換される。ソース言語における書記素から音素への変換の精度を改善することができ、そのことは、推定の精度の改善をもたらす。

更に別の実施形態において、第１のシーケンス・シーケンス変換器は、ソース言語における書記素のセットと音素のセットとの間の関係を登録する第１の辞書を用いることにより訓練される。一般に十分なものである第１の辞書の知識を利用することにより、ターゲット言語における音素のシーケンスを推定することができる。

１つの実施形態において、ニューラル・ネットワーク・モデルは、ソース言語における音素のシーケンスをターゲット言語における音素の１以上のシーケンスに変換するための第２のシーケンス・シーケンス変換器である。ソース言語における音素からターゲット言語における音素への変換の精度を改善することができ、そのことは、推定の精度の改善をもたらす。

別の実施形態において、第２のシーケンス・シーケンス変換器は、ソース言語における書記素のセットとターゲット言語における音素のセットとの間の関係を登録する第２の辞書と、ソース言語における書記素のセットと音素のセットとの間の関係を登録する第１の辞書とを用いることにより訓練される。直接変換するための辞書がない場合でも、既存の辞書から、ソース言語における音素のセットとターゲット言語における音素のセットとの対を生成することができる。第２の辞書のサイズが大きくない場合でも、推定プロセスを複数の変換に分割すれば、推定の精度が改善されるであろう。

本発明の他の実施形態によると、異なる言語における音素から単語の書記素を推定するためのコンピュータ実施方法が提供される。方法は、ソース言語における音素のシーケンスを受け取ることを含む。方法は、ニューラル・ネットワーク・モデルを用いることにより、ソース言語における音素のシーケンスからターゲット言語における音素の１以上のシーケンスを生成することも含む。方法は、ターゲット言語における音素の少なくとも１つのシーケンスをターゲット言語における書記素の少なくとも１つのシーケンスに変換することをさらに含む。方法は、ソース言語における音素のシーケンスについてターゲット言語で書かれたターゲットの単語を識別することをさらに含む。

本発明の他の実施形態の方法によると、利用可能な辞書のサイズが比較的小さい場合でも、ソース言語における音素から、ターゲット言語で書かれた単語の書記素をより高い精度で推定することができる。

１つの実施形態において、書記素の少なくとも１つのシーケンスは、書記素の複数のシーケンスを含む。方法は、ターゲット言語の言語モデルを用いることにより、ターゲット言語における書記素の各シーケンスについてのスコアを評価することをさらに含む。書記素の各シーケンスについてのスコアは、書記素の複数のシーケンスの中から、ターゲットの単語として書記素の１つのシーケンスを決定するために用いられる。ターゲット言語における書記素の言語的に容認不能なシーケンスが結果から除外され得るので、推定の精度が改善され得る。

本発明の１以上の態様に関連するコンピュータ・システム及びコンピュータ・プログラム製品も、本明細書で説明され、特許請求される。

本発明の技術を通じて、付加的な特徴及び利点が実現される。他の実施形態及び態様は、本明細書で詳細に説明され、特許請求される発明の一部と見なされる。

これら及び他の特徴並びに利点は、添付図面と併せて読まれる、その例示的実施形態の以下の詳細な説明から明らかになるであろう。

ここで、本発明が、以下の図に示されるような好ましい実施形態を参照して、単なる例として説明される。

本発明の例示的な実施形態による、書記素・音素変換システムのブロック図を示す。本発明の１つの実施形態による、音素・音素変換器（Ｐ_ｓ２Ｐ_ｔ）の例示的アーキテクチャを示す。本発明の例示的実施形態による、書記素・音素変換システムにおいて変換器のための訓練データを作成する方法を記述する。本発明の例示的実施形態による、異なる言語で書かれた所与の単語についての音素を推定するためのプロセスを示すフローチャートである。本発明の他の例示的実施形態による、音素・書記素変換システムのブロック図を示す。本発明の他の例示的実施形態による、音素・書記素変換システムにおいて変換器のための訓練データを作成する方法を説明する。本発明の他の例示的実施形態による、異なる言語における音素に対する書記素を推定するためのプロセスを示すフローチャートである。本発明の１以上の実施形態による、コンピュータ・システムを示す。

ここで、本発明が特定の実施形態を用いて説明され、以下に説明される実施形態は、単に例として言及されるものであり、本発明の範囲を限定することを意図するものではない。

本発明による１以上の実施形態は、異なる言語で書かれた単語についての音素を推定するためのコンピュータ実施方法、コンピュータ・システム及びコンピュータ・プログラム製品に向けられる。本発明による１以上の他の実施形態は、異なる言語における音素から単語の書記素を推定するためのコンピュータ実施方法、コンピュータ・システム、及びコンピュータ・プログラム製品に向けられる。

書記素・音素変換と呼ばれる、書面形式から単語の読みを見つけるタスクが、テキスト・音声（ＴＴＳ）変換、音声・テキスト（ＳＴＴ）変換等を含む自然言語処理において用いられることが多い。書記素・音素変換においては、単語の読みの正確な推定が要求される。しかしながら、書記素・音素変換の精度は、ある種の単語に対して低下する。幾つかの言語において、翻訳することなく原言語から取り込まれた単語である外来語（loanword）は、その文脈中に原言語で書かれることが多い。例えば、日本語の文の文脈において、英単語（例えば、会社名、ブランド名、及び新しい技術用語）は、英語表記の形で出現することが多い。一般に、書記素・音素変換用の辞書は、同じ言語の音素システムで準備される。従って、英語などの、異なる言語で書かれた外来語の日本語方式の読みを与える大きなコーパスはない。そうした外来語は、全ての言語における全ての単語を含む可能性があり、新しい単語は次から次へと生まれ、他の言語から取り込まれるので、全ての外来語の音素を完全にカバーする包括的な辞書を準備するのは困難である。

最初に、一連の図１～図４を参照して、ターゲット言語における音素が、複数の変換により、ソース言語で書かれた所与の単語の書記素から推定される、本発明の例示的実施形態による、異なる言語で書かれた単語についての音素を推定するためのコンピュータ・システム及び方法を説明する。

また、ネイティブではない人とっては、外国語の単語のスペルは知らないが、その単語の大まかな意味は知っている場合、現地語（例えば、日本語）における読みから外国語（例えば、英語）で書かれた単語を識別するために、書記素・音素変換の逆変換も有用である。

次に、一連の図５～図７を参照して、ターゲット言語で書かれた単語の書記素が、複数の変換により、ソース言語における所与の音素から推定される、本発明の例示的実施形態による、異なる言語における音素から単語の書記素を推定するためのコンピュータ・システム及び方法を説明する。

図１を参照すると、本発明の例示的実施形態による書記素・音素変換システム１００のブロック図が記載される。図１に示されるように、書記素・音素変換システム１００は、ソース言語における書記素（以下、「ソース書記素」と呼ばれる）をソース言語における音素（以下、「ソース音素」と呼ばれる）に変換するための書記素・音素（Ｇ２Ｐ）変換器１１０と、ソース音素をターゲット言語における音素（以下、「ターゲット音素」と呼ばれる）に変換するための音素・音素（Ｐ２Ｐ）変換器１３０と、ターゲット音素の１つのシーケンスを結果として判断するために、Ｐ２Ｐ変換器１３０から取得されたターゲット音素のシーケンスをスコア付けするためのスコアラ（scorer）１５０とを含むことができる。

Ｇ２Ｐ変換器１１０は、ソース書記素のシーケンスをソース音素のシーケンスに変換するように構成されたシーケンス・シーケンス変換器とすることができる。シーケンス・シーケンス変換器は、そのニューラル・ネットワーク構造により、１つのシーケンスを別のシーケンスに変換するニューラル・ネットワーク・モデルであり、これは、再帰型ニューラル・ネットワーク（ＲＮＮ）を含み得る。Ｇ２Ｐ変換器１１０は、所与の単語のソース書記素のシーケンスを受け取り、ソース書記素のシーケンスをソース音素のシーケンスに変換する。Ｇ２Ｐ変換器１１０により生成されたソース音素のシーケンスは、Ｐ２Ｐ変換器１３０に送られる。例示的実施形態において、ソース音素の１つの最良のシーケンスが、ソース書記素の１つのシーケンスから生成される。しかしながら、別の実施形態においては、ソース音素のＮ個の最良のシーケンスが、ソース書記素の１つのシーケンスから生成され得る。

Ｐ２Ｐ変換器１３０は、ソース音素のシーケンスをターゲット音素のシーケンスに変換するように構成されたシーケンス・シーケンス変換器とすることができる。Ｐ２Ｐ変換器１３０は、Ｇ２Ｐ変換器１１０からソース音素のシーケンスを受け取り、ソース音素のシーケンスから、ターゲット音素の１以上のシーケンスを生成する。Ｐ２Ｐ変換器１３０により生成されたターゲット音素の１以上のシーケンスは、スコアラ１５０に送られる。例示的実施形態において、ターゲット音素のＮ個の最良のシーケンスが、ソース音素の１つのシーケンスから生成される。しかしながら、別の実施形態においては、ターゲット音素の１つの最良のシーケンスが、ソース音素の１つのシーケンスから生成され得る。

Ｐ２Ｐ変換器１３０の例示的なアーキテクチャが、図２に示される。図２に示されるアーキテクチャは、英語音素のシーケンスから日本語音素のシーケンスへの変換のための２つの層を有するエンコーダ・デコーダＬＳＴＭ（Long and Short Term Memory；長期・短期記憶）モデルを示す。

図２に示されるように、Ｐ２Ｐ変換器１３０は、ソース音素のシーケンスを読み取り、シーケンスをベクトルにマッピングするエンコーダ１３２と、ターゲット音素の過去のシーケンスを用いることにより、ベクトルが条件とされるターゲット音素の次のシーケンスを予測するデコーダ１３４とを含む。ソース音素のシーケンスは、時間反転させ得ることに留意されたい。また、図２において、＜ｓ＞は、ソース側の文開始トークンを示し、＜ｏｓ＞及び＜／ｏｓ＞は、ターゲット側の文開始及び終了記号を示す。デコード段階中、ターゲット音素の出力シーケンスを生成するために、ビーム探索デコーダを用いることができる。特定の実施形態において、Ｎの最高事後確率を有するターゲット音素のシーケンスが、デコード結果として選択される。別の実施形態において、最高事後確率を有するターゲット音素のシーケンスが、Ｐ２Ｐ変換器１３０のデコード結果として選択される。

図２に示されるエンコーダ・デコーダＬＳＴＭモデルは、Ｇ２Ｐ変換器１１０としても用いることができる。特定の実施形態において、最高事後確率を有する１つのシーケンスが、Ｇ２Ｐ変換器１１０のデコード結果として選択される。

図２に示されるシーケンス・シーケンス変換器のアーキテクチャは、１つの例であり、アーキテクチャは、図２に示されるエンコーダ・デコーダＬＳＴＭモデルに限定されないことに留意されたい。アライメント情報を利用する他のモデルを利用することもでき、それらは、一方向ＬＳＴＭモデル及び双方向ＬＳＴＭモデルを含むことができる。さらに、ＬＳＴＭセルを用いる代わりに、単純な再帰型ニューラル・ネットワーク（ＲＮＮ）セル又はゲート付き再帰型ユニット（ＧＲＵ）セルも使用され得る。

再び図１を参照すると、スコアラ１５０は、ターゲット言語の（より正確に言うと「音素の」）言語モデルであり、Ｐ２Ｐ変換器１３０から取得されたターゲット音素の１以上のシーケンスをスコア付けし、ターゲット音素の１つの妥当なシーケンスを結果として判断するように構成される。１つの実施形態において、言語モデルは、ターゲット言語の辞書内に登録された読み（例えば、日本語辞書における、あ（ａ）、あい（ａＩ）、あいあいがさ（ａｉａｉｇａｓａ）等）から作成され、ターゲット言語における読みの尤度を評価することが可能である。スコアラ１５０は、ターゲット音素の各シーケンスについてのスコアを評価する。スコアラ１５０は、ターゲット音素の所与のシーケンスの生起確率をスコアとして出力する。低い確率は、ターゲット音素のシーケンスが、言語的により容認不能であることを示す。各シーケンスについての評価スコアは、Ｎ個のベスト・シーケンスの中から所与の単語についての１つのベスト・シーケンスを判断するために用いられる。

１つの実施形態において、スコアラ１５０の言語モデルは、ＲＮＮ言語モデルのようなニューラル・ネットワーク・ベースのモデルである。しかしながら、別の実施形態においては、指数言語モデル及びｎ－ｇｒａｍ言語モデルを考えることもできる。スコアラ１５０の言語モデルは、そのアーキテクチャに応じて、既存のコーパスを用いた適切なアルゴリズムにより、訓練することができる。例えば、ＲＮＮ言語モデルは、通時的誤差逆伝搬法（backpropagation through time、ＢＰＴＴ）アルゴリズムを用いて訓練することができる。

ソース音素のシーケンスからＰ２Ｐ変換器１３０により生成されるターゲット音素の言語的に容認不能なシーケンスは、結果から除外できるので、推定の精度は改善され得る。

さらに図１を参照すると、書記素・音素変換システム１００は、各単語についてソース書記素のセットとソース音素のセットとの間の関係を登録するソース言語辞書１０２と、各外来語についてのソース書記素のセットとターゲット音素のセットとの間の関係を登録する外来語辞書１０４と、ソース言語辞書１０２を用いることにより、Ｇ２Ｐ変換器１１０を学習するためのＧ２Ｐ変換器学習モジュール１２０と、ソース言語辞書１０２と共に外来語辞書１０４を用いることにより、Ｐ２Ｐ変換器１３０を学習するためのＰ２Ｐ変換器学習モジュール１４０とをさらに含むことができる。

図３を参照すると、シーケンス・シーケンス変換器のために訓練データを作成する方法が説明される。図３に示されるように、ソース言語辞書１０２及び外来語辞書１０４を含む２つの辞書がある。

図３に示される例において、ソース言語辞書１０２は、英単語の英語読み辞書（English reading dictionary）である。ソース言語辞書１０２は、各単語（例えば、英単語「ａｃａｄｅｍｉｃ」）について、ソース書記素のセット（例えば、「Ａ」、「Ｃ」、「Ａ」、「Ｄ」、「Ｅ」、「Ｍ」、「Ｉ」及び「Ｃ」）と、ソース音素のセット（例えば、「ＡＥ２」、「Ｋ」、「ＡＨ０」、「Ｄ」、「ＥＨＩ」、「Ｍ」、「ＩＨ０」、及び「Ｋ」）の対を与える。ソース書記素のセットとソース音素のセットの各対は、Ｇ２Ｐ変換器１１０を訓練するための訓練データとして、Ｇ２Ｐ変換器学習モジュール１２０により用いられる。

図３に示される例において、外来語辞書１０４は、英語外来語の日本語読み辞書（Japanese reading dictionary）である。外来語辞書１０４は、各外来語（例えば、英単語「ａｃａｄｅｍｉｃ」）について、ソース書記素のセット（例えば、「Ａ」、「Ｃ」、「Ａ」、「Ｄ」、「Ｅ」、「Ｍ」、「Ｉ」及び「Ｃ」）と、ターゲット音素のセット（例えば、「ａ」、「ｋａ」、「ｄｅ」、「ｍｉ」、「Ｑｋｕ」）の対を与える。各外来語について、ソース書記素のセットとターゲット音素のセットの対を、ソース言語辞書１０２内に登録されたソース書記素のセットとソース音素のセットの上述の対と組み合わせることにより、各外来語について、ソース音素のセット（例えば、「ＡＥ２」、「Ｋ」、「ＡＨ０」、「Ｄ」、「ＥＨＩ」、「Ｍ」、「ＩＨ０」、及び「Ｋ」）とターゲット音素のセット（例えば、「ａ」、「ｋａ」、「ｄｅ」、「ｍｉ」、「Ｑｋｕ」）の対を準備することができる。ソース音素のセットとターゲット音素のセットの各対は、Ｐ２Ｐ変換器学習モジュール１４０により、Ｐ２Ｐ変換器１３０を訓練するための訓練データとして用いられる。

Ｇ２Ｐ変換器学習モジュール１２０は、ソース言語辞書１０２を用いることによってＧ２Ｐ変換器１１０を訓練するように構成される。Ｇ２Ｐ変換器１１０は、通時的誤差逆伝搬法（ＢＰＴＴ）アルゴリズムなどのいずれかの標準的アルゴリズムを用いることにより、訓練することができる。

Ｐ２Ｐ変換器学習モジュール１４０は、ソース言語辞書１０２と共に外来語辞書１０４を用いることにより、Ｐ２Ｐ変換器１３０を訓練するように構成される。ソース言語辞書１０２は、ソース書記素の所与のセットについてのソース音素を調べるために用いることができる。Ｐ２Ｐ変換器１３０は、ＢＰＴＴアルゴリズムなどのいずれかの標準的アルゴリズムを用いることにより、訓練され得る。

図１に示される書記素・音素変換システム１００において、所与の単語（例えば、英単語「ａｂａｎｄｏｎｅｄ」）のソース書記素のシーケンスをＧ２Ｐ変換器１１０に入力することにより、ソース音素の１つのベスト（one best）シーケンス（例えば、「ＡＨ」、「Ｂ」、「ＡＥ」、「Ｎ」、「Ｄ」、「ＡＨ」、「Ｎ」及び「Ｄ」）が取得される。次に、Ｐ２Ｐ変換器１３０により、ソース音素の１つのベスト・シーケンスから、ターゲット音素のＮ個のベスト（N best）シーケンス（例えば、シーケンス「ａ」、「ｂａ」、「ｎ」、「ｄａ」、「ｎ」、「ｄｏ」）が生成される。最終的に、ターゲット音素の言語的により容認不能なシーケンス（例えば、シーケンス「ａ」、「ｂａ」、「ｎ」、「ａ」、「ｎ」、「ｄｏ」）を結果から除外することにより、所与の単語（例えば、英単語「ａｂａｎｄｏｎｅｄ」）に対する結果として、スコアラ１５０から、ターゲット音素の１つのベスト・シーケンス（例えば、シーケンス「ａ」、「ｂａ」、「ｎ」、「ｄａ」、「ｎ」、「ｄｏ」）が出力される。

ターゲット音素の１つのベスト・シーケンスが、Ｐ２Ｐ変換器１３０により、ソース音素の１つのシーケンスから生成される別の実施形態において、Ｐ２Ｐ変換器１３０から、所与の単語について推定されるターゲット音素の１つのベスト・シーケンスを出力することができる。

１つの実施形態において、図１に説明される書記素・音素変換システム１００におけるモジュール１１０、１２０、１３０、１４０及び１５０は、これらに限定されるものではないが、ハードウェア・コンポーネントと関連したプログラム命令及び／又はデータ構造を含むソフトウェア・モジュールとして、電子回路を含むハードウェア・モジュールとして、又はその組み合わせとして実装され得る。図１に説明されるモジュール１１０、１３０、及び１５０は、単一の又は分散型コンピュータ・システム内に実装され得る。図１に説明されるモジュール１２０、１４０は、モジュール１１０、１３０、及び１５０が実装される同じコンピュータ・システム、又は他の１以上のコンピュータ・システム上に実装され得る。辞書１０２及び１０４は、コンピュータ・システムがアクセスできるいずれかの内部又は外部ストレージ・デバイス若しくは媒体を用いることにより、提供することができる。

図４を参照すると、本発明の例示的実施形態による、異なる言語で書かれた単語についての音素を推定するためのプロセスが示される。図４に示されるプロセスは、図１に示されるＧ２Ｐ変換器１１０、Ｐ２Ｐ変換器１３０及びスコアラ１５０を実装する処理ユニットにより実行され得ることに留意されたい。

図４に示されるプロセスは、変換実行要求を受け取ることに応答してステップＳ１００から始まり得る。テキスト・音声（ＴＴＳ）変換において、音声に変換されるべきソース書記素（テキスト）のシーケンスが、要求内に与えられる。音声・テキスト（ＳＴＴ）変換において、訓練データ内の未知の単語のソース書記素（テキスト）のシーケンスが、要求内に与えられる。

ステップＳ１０１において、処理ユニットは、ソース言語で書かれた所与の単語のソース書記素（テキスト）のシーケンスを受け取ることができる。ステップＳ１０２において、処理ユニットは、ソース書記素のシーケンスをソース音素のシーケンスに変換することができる。ソース書記素のシーケンスは、Ｇ２Ｐ変換器１１０を用いることにより、変換される。

ステップＳ１０３において、処理ユニットは、ソース音素のシーケンスからターゲット音素のＮ個のシーケンスを生成することができる。ターゲット音素のＮ個のシーケンスは、Ｐ２Ｐ変換器１３０を用いることにより、生成される。

ステップＳ１０４において、処理ユニットは、スコアラ１５０を用いることにより、ターゲット音素の各シーケンスについてのスコアを評価することができる。ステップＳ１０５において、処理ユニットは、ターゲット音素のＮ個のシーケンスの中から、スコアに基づき、所与の単語についてのターゲット音素の１つのシーケンスを決定することができる。

ステップＳ１０６において、処理ユニットは、所与の単語についての１つのシーケンスを出力することができ、プロセスはステップＳ１０７で終了し得る。テキスト・音声（ＴＴＳ）変換において、ターゲット音素の取得されたシーケンスは、音声に変換するために用いられ得る。音声・テキスト（ＳＴＴ）変換において、ターゲット音素の取得されたシーケンスは、訓練データ内の未知の単語に割り当てられ得る。

本発明の１つの実施形態によると、ソース言語で書かれた単語について、ターゲット音素のシーケンスをより高い精度で推定することができる。

一般に、同じ言語の音素システムにおける単語の読みを与えるソース言語辞書１０２は、十分に大きいものである。他方、異なる言語の音素システムにおける単語の読みを与える外来語辞書１０４のサイズは、大きいものではない。従って、単に外来語辞書１０４を用いて訓練されたシーケンス・シーケンス変換器を用いることによる、ソース書記素からターゲット音素への直接変換の精度は十分なものではない。

対照的に、本発明の１つの実施形態による新規な書記素・音素変換機能は、外来語辞書１０４のサイズが大きくない場合でも、異なる言語で書かれた単語についての妥当な音素を推定することができる。推定プロセスを複数の変換に分割することにより、一般的に豊富なソース言語辞書１０２の知識を利用することが可能になり、それにより、推定全体の精度の改善がもたらされる。推定の精度は、ソース音素とターゲット音素との間の類似性を利用することにより、改善され得る。

スコアラ１５０が用いられる１つの実施形態において、ソース音素のシーケンスから生成されるターゲット音素の言語的に容認不能なシーケンスは結果から除外できるので、推定の精度がさらに改善されることが予想される。

シーケンス・シーケンス変換器がＰ２Ｐ変換器１３０として使用される別の実施形態において、ソース音素からターゲット音素への変換の精度を改善することができ、そのことは、推定全体の精度を改善する。

シーケンス・シーケンス変換器がＧ２Ｐ変換器１１０として使用されるさらに別の実施形態において、ソース書記素からソース音素への変換の精度を改善することができ、そのことは、推定全体の精度を改善する。

新規な書記素・音素変換機能が適用可能であり得る言語の組み合わせは、上述の例（すなわち、英語（ソース）と日本語（ターゲット）に限定されないことに留意されたい。アラビア語、中国語、英語、フランス語、ドイツ語、日本語、韓国語、ポルトガル語、ロシア語、スペイン語から成る群から選択される言語の任意の組み合わせが用いられ得る。例えば、インド・ヨーロッパ語族（例えば、英語、フランス語、スペイン語等）の１つと東アジア言語（例えば、中国語、韓国語、日本語等）の１つの組み合わせを用いることができる。別の例において、インド・ヨーロッパ語族（例えば、英語、フランス語、スペイン語等）の２つの組み合わせを用いることもできる。新規な変換機能を、日本語のような原言語の表記との関連で出現し得るそうしたソース言語に適用することができる。

以下、一連の図５～図７を参照して、本発明の１つの実施形態による、異なる言語で書かれた単語の書記素を推定するためのコンピュータ・システム及び方法が説明される。

図５を参照すると、本発明の１つの実施形態による、音素・書記素変換システム２００のブロック図が説明される。図５に示されるように、音素・書記素変換システム２００は、ソース言語における音素（以下、「ソース音素」と呼ばれる）をターゲット言語における音素（以下、「ターゲット音素」と呼ばれる）に変換するための音素・音素（Ｐ２Ｐ）変換器２３０と、ターゲット音素をターゲット言語における書記素（以下、「ターゲット書記素」と呼ばれる）に変換するための音素・書記素（Ｐ２Ｇ）変換器２６０と、ターゲット書記素の１つの妥当なシーケンスを結果として決定するために、Ｐ２Ｇ変換器２６０から取得されたターゲット書記素の１以上のシーケンスをスコア付けするためのスコアラ２５０とを含むことができる。

Ｐ２Ｐ変換器２３０は、ソース音素のシーケンスをターゲット音素のシーケンスに変換するように構成されたシーケンス・シーケンス変換器とすることができる。Ｐ２Ｐ変換器２３０は、ソース音素の所与のシーケンスを受け取り、ソース音素のシーケンスからターゲット音素の１以上のシーケンスを生成する。１つの実施形態において、ソース音素の所与のシーケンスから、ターゲット音素の１つのベスト・シーケンスが生成される。しかしながら、別の実施形態においては、ターゲット音素のＮ個のベスト・シーケンスが生成され得る。Ｐ２Ｐ変換器２３０により生成されるターゲット音素のシーケンスは、Ｐ２Ｇ変換器２６０に送られる。

Ｐ２Ｇ変換器２６０は、ターゲット音素のシーケンスをターゲット書記素のシーケンスに変換するように構成されたシーケンス・シーケンス変換器とすることができる。Ｐ２Ｇ変換器２６０は、Ｐ２Ｐ変換器２３０からターゲット音素のシーケンスを受け取り、ターゲット音素のシーケンスをターゲット書記素の１以上のシーケンスに変換する。Ｐ２Ｇ変換器２６０により生成されるターゲット書記素の１以上のシーケンスは、スコアラ２５０に送られる。１つの実施形態において、ターゲット音素の１つのシーケンスからターゲット書記素のＮ個のベスト・シーケンスが生成される。しかしながら、別の実施形態においては、ターゲット音素の１つのシーケンスからターゲット書記素の１つのベスト・シーケンスが生成され得る。

スコアラ２５０は、ターゲット言語の言語モデルであり、Ｐ２Ｇ変換器２６０から取得されたターゲット書記素の１以上のシーケンスをスコア付けし、ソース言語における音素のシーケンスに対する結果として、ターゲット書記素の１つの妥当なシーケンスをターゲット言語で書かれたターゲット単語として識別するように構成される。１つの実施形態において、言語モデルは、ターゲット言語の辞書内に登録された書記（writing）から作成され、ターゲット言語における書記の尤度を評価することができる。スコアラ２５０は、ターゲット書記素の各シーケンスについてのスコアを評価する。スコアラ２５０は、ターゲット書記素の所与のシーケンスの生起確率をスコアとして出力する。低い確率は、ターゲット書記素のシーケンスが、言語的により容認不能であることを示す。各シーケンスについての評価スコアは、１以上のシーケンスの中からソース音素の所与のシーケンスについての１つのベスト・シーケンスを決定するために用いられる。１つの実施形態において、スコアラ２５０の言語モデルは、ＲＮＮ言語モデルのようなニューラル・ネットワーク・ベースのモデルである。

さらに図５を参照すると、音素・書記素変換システム２００は、各外来語についてのターゲット書記素のセットとソース音素のセットとの間の関係を登録する外来語辞書２０４と、各単語についてターゲット書記素のセットとターゲット音素のセットとの間の関係を登録するターゲット言語辞書２０６と、ターゲット言語辞書２０６と共に外来語辞書２０４を用いることにより、Ｐ２Ｐ変換器２３０を学習するためのＰ２Ｐ変換器学習モジュール２４０と、ターゲット言語辞書２０６を用いることにより、Ｐ２Ｇ変換器２６０を学習するためのＰ２Ｇ変換器学習モジュール２７０とをさらに含むことができる。

図６を参照すると、シーケンス・シーケンス変換器変換器のための訓練データを作成する方法が説明される。図６に示される例において、ターゲット言語辞書２０６は、英単語の英語読み辞書である。外来語辞書２０４は、英語外来語の日本語読み辞書である。各外来語について、ターゲット書記素のセットとソース音素のセットとの対を、ターゲット言語辞書２０６内に登録されたターゲット書記素のセットとターゲット音素のセットとの対と組み合わせることにより、各外来語に対して、ターゲット音素のセット（例えば、「ＡＥ２」、「Ｋ」、「ＡＨ０」、「Ｄ」、「ＥＨＩ」、「Ｍ」、「ＩＨ０」及び「Ｋ］）とソース音素のセット（例えば、「ａ」、「ｋａ」、「ｄｅ」、「ｍｉ」、「Ｑｋｕ」）との対を準備することができる。ターゲット音素のセットとソース音素のセットとの各対は、Ｐ２Ｐ変換器学習モジュール２４０により、Ｐ２Ｐ変換器２３０を訓練するための訓練データとして用いられる。Ｐ２Ｇ変換器学習モジュール２７０は、ターゲット言語辞書２０６を用いることにより、Ｐ２Ｇ変換器２６０を訓練するように構成される。ターゲット言語辞書２０６は、スコアラ２５０のためのターゲット言語の言語モデルを作成するために使用され得ることに留意されたい。

図５に示される音素・書記素変換システム２００において、ソース音素の所与のシーケンス（例えば、日本語のカタカナ又はひらがなのような表音文字のテキストから容易に取得され得るシーケンス「ａ」、「ｂａ」、「ｎ」、「ｄａ」、「ｎ」、「ｄｏ」）を、Ｐ２Ｐ変換器２３０に入力することにより、ターゲットの単語（例えば、英単語「ａｂａｎｄｏｎｅｄ」）のターゲット書記素の推定シーケンスが、スコアラ２５０から、ソース音素の所与のシーケンスに対する結果として出力される。

１つの実施形態において、図５に示される音素・書記素変換システム２００におけるモジュール２３０、２４０、２５０、２６０及び２７０は、これらに限定されるものではないが、ハードウェア・コンポーネントと関連したソフトウェア・モジュールとして、電子回路を含むハードウェア・モジュールとして、又はその組み合わせとして実装され得る。

図７を参照すると、本発明の他の例示的実施形態による、異なる言語における音素に対する書記素を推定するためのプロセスが示される。図７に示されるプロセスは、図５に示されるＰ２Ｐ変換器２３０、Ｐ２Ｇ変換器２６０、及びスコアラ２５０を実装する処理ユニットにより実行され得ることに留意されたい。

図７に示されるプロセスは、変換実行要求を受け取ることに応答して、ステップＳ２００から開始し得る。特定の例において、ソース言語におけるターゲットの単語の大まかな読み（ソース音素のシーケンス）が、要求内に与えられる。

ステップＳ２０１において、処理ユニットは、ソース音素の所与のシーケンスを受け取ることができる。ステップＳ２０２において、処理ユニットは、ソース音素の所与のシーケンスから、ターゲット音素の少なくとも１つのシーケンスを生成することができる。ターゲット音素の１つのベスト・シーケンスは、Ｐ２Ｐ変換器２３０を用いることにより、生成され得る。ターゲット音素のシーケンスは、Ｐ２Ｐ変換器２３０を用いることにより、生成される。ステップＳ２０３において、処理ユニットは、ターゲット音素の少なくとも１つのシーケンスを、ターゲット書記素の少なくとも１つのシーケンスに変換することができる。ターゲット書記素のＮ個のシーケンスは、Ｐ２Ｇ変換器２６０を用いることにより、生成され得る。

ステップＳ２０４において、処理ユニットは、スコアラ２５０を用いることにより、各シーケンスについてのスコアを評価することができる。ステップＳ２０５において、処理ユニットは、ターゲット書記素のＮ個のシーケンスの中から、スコアに基づき、ターゲット書記素の１つのシーケンスを、ターゲット言語で書かれたターゲットの単語として識別することができる。各シーケンスについてのスコアは、複数のシーケンスの中から１つのシーケンスを決定するために使用される。

ステップＳ２０６において、処理ユニットは、上記１つのシーケンスを、ソース音素の所与のシーケンスに対する結果として出力することができ、プロセスはステップＳ２０７で終了し得る。ターゲット言語で書かれたターゲットの単語のスペルは、ソース言語におけるターゲットの単語の大まかな読みから識別され得る。

本発明の上述の実施形態によると、利用可能な辞書のサイズが比較的小さい場合でも、ターゲット書記素のシーケンスを、より高い精度でソース音素から推定することができる。

新規な音素・書記素変換機能を適用できる言語の組み合わせは、上述の例（すなわち、日本語（ソース）と英語（ターゲット）に限定されないことに留意されたい。アラビア語、中国語、英語、フランス語、ドイツ語、日本語、韓国語、ポルトガル語、ロシア語、スペイン語から成る群から選択される言語の任意の組み合わせが用いられ得る。

１つの実施形態において、例示的実施形態による、スコアラ１５０を除いた、図１に示される書記素・音素変換システム１００を実装するプログラム、及びステップＳ１０４及びＳ１０５を除いた、図４に示されるプロセスが、コード化された。ステップＳ１０３においてＰ２Ｐ変換器１３０を用いることにより生成されるターゲット音素のシーケンスの数Ｎは１であった。図４に示されるステップＳ１０４及びＳ１０５を実行する代わりに、処理ユニットは、ターゲット音素の１つのベスト・シーケンスを、所与の単語に対する結果として直接決定した。２つの層を有するエンコーダ・デコーダＬＳＴＭ（長・短期記憶）モデルが、シーケンス・シーケンス・ニューラル・ネットワーク・モデルのアーキテクチャとして用いられた。

英語読み辞書を用いることにより、英語書記素のシーケンスを英語音素のシーケンスに変換するＧ２Ｐ変換器１１０（Ｇ_ＥＮＧ２Ｐ_ＥＮＧ変換器）が訓練された。英語読み辞書内に登録された英単語の数は、１１４，４１４個であった。従って、Ｇ_ＥＮＧ２Ｐ_ＥＮＧ変換器のための訓練データの数は、１１４，４１４個であった。

英語音素のシーケンスを日本語音素のシーケンスに変換するＰ２Ｐ変換器１３０（Ｐ_ＥＮＧ２Ｐ_ＪＰ変換器）は、英語読み辞書、及び英語外来語の手作業で構築された日本語読み辞書を用いることにより、訓練された。日本語読み辞書を構築するために、英語外来語の日本語の読みが、手作業で作成された。日本語読み辞書内に登録された単語の数は、３１５６であった。日本語読み辞書内に登録された３１５６の単語は、英語読み辞書内にも登録された。英語読み辞書は、対応する日本語音素についての英語音素を調べるために使用された。従って、Ｐ_ＥＮＧ２Ｐ_ＪＰ変換器のための訓練データの数は、３１５６であった。

１つの例として、Ｐ２Ｐ変換器１３０がＧ２Ｐ変換器１１０に接続され、複数の変換により、英語音素を介して英語書記素のシーケンスを日本語音素のシーケンスに変換する新規な書記素・音素変換器（Ｇ_ＥＮＧ２Ｐ_ＥＮＧ２Ｐ_ＪＰ変換器）を形成した。

比較例として、英語書記素のシーケンスを日本語音素のシーケンスに直接変換するＧ２Ｐ変換器（Ｇ_ＥＮＧ２Ｐ_ＪＰ変換器）が、英語読み辞書及び日本語読み辞書を用いて訓練された。Ｇ_ＥＮＧ２Ｐ_ＪＰ変換器のための訓練データの数は、３１５６であった。

各々の訓練された変換器の精度が、３５１語を有する試験データについて評価された。性能のメトリックとして、ＰＥＲ（Phoneme Error Rate、音素誤り率）が用いられた。例及び比較例の評価結果は、以下の通り中間結果で要約される。：

表に示されるように、Ｇ_ＥＮＧ２Ｐ_ＥＮＧ変換器及びＰ_ＥＮＧ２Ｐ_ＪＰ変換器の性能の精度は、それぞれ９．０％ＰＥＲ及び２９．３％ＰＥＲであった。新規な英語書記素・日本語音素変換器Ｇ_ＥＮＧ２Ｐ_ＥＮＧ２Ｐ_ＪＰの性能は、直接的な英語書記素・日本語音素変換器Ｇ_ＥＮＧ２Ｐ_ＪＰと比較して、精度が相対的に９．８％改善した３４．８％ＰＥＲであった。また、Ｐ_ＥＮＧ２Ｐ_ＪＰ変換器の性能をＧ_ＥＮＧ２Ｐ_ＪＰ変換器と比較することにより、異なる言語にわたる読みから読みへの変換の精度は、書記から読みに変換する精度よりも高いことも理解できる。例の新規な書記素・音素変換器（Ｇ_ＥＮＧ２Ｐ_ＥＮＧ２Ｐ_ＪＰ）は、比較例（Ｇ_ＥＮＧ２Ｐ_ＪＰ）の直接変換と比べて、ソース言語で書かれた単語についてのターゲット書記素のシーケンスをより高い精度で推定できることが実証された。

ここで図８を参照すると、書記素・音素変換システム１００又は音素・書記素変換システム２００のために用い得るコンピュータ・システム１０の１つの例の概略図が示される。図８に示されるコンピュータ・システム１０は、コンピュータ・システムとして実装される。コンピュータ・システム１０は、好適な処理デバイスの一例にすぎず、本明細書に記載される本発明の実施形態の使用範囲又は機能に関する何らかの制限を示唆することを意図するものではない。それにも関わらず、コンピュータ・システム１０は、上述した機能のいずれかを実装及び／又は実行することができる。

コンピュータ・システム１０は、多数の他の汎用又は専用コンピューティング・システム環境又は構成で動作する。コンピュータ・システム１０と共に用いるのに好適であり得る周知のコンピューティング・システム、環境、及び／又は構成の例として、これらに限定されるものではないが、パーソナル・コンピュータ・システム、サーバ・コンピュータ・システム、シン・クライアント、シック・クライアント、手持ち式又はラップトップ型デバイス、車載デバイス、マルチプロセッサ・システム、マイクロプロセッサ・ベースのシステム、セット・トップ・ボックス、プログラム可能民生電子機器、ネットワークＰＣ、ミニコンピュータ・システム、メインフレーム・コンピュータ・システム、及び、上述のシステム若しくはデバイスのいずれかを含む分散型クラウド・コンピューティング環境等が含まれる。

コンピュータ・システム１０は、コンピュータ・システムによって実行される、プログラム・モジュールなどのコンピュータ・システム実行可能命令の一般的な文脈で説明することができる。一般に、プログラム・モジュールは、特定のタスクを実行する又は特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、論理、データ構造などを含み得る。

図８に示されるように、コンピュータ・システム１０は、汎用コンピューティング・デバイスの形で示される。コンピュータ・システム１０のコンポーネントは、これらに限定されるものではないが、プロセッサ（又は処理ユニット）１２、メモリ・バスを含むバス又はメモリ・コントローラによりプロセッサ１２に結合されたメモリ１６、及び種々のバス・アーキテクチャのいずれかを用いるプロセッサ又はローカル・バスを含むことができる。

コンピュータ・システム１０は、典型的には、種々のコンピュータ・システム可読媒体を含む。このような媒体は、コンピュータ・システム１０によりアクセス可能ないずれかの利用可能媒体とすることができ、揮発性媒体及び不揮発性媒体の両方と、取り外し可能媒体及び取り外し不能媒体の両方とを含む。

メモリ１６は、ランダム・アクセス・メモリ（ＲＡＭ）など、揮発性メモリの形のコンピュータ・システム可読媒体を含むことができる。コンピュータ・システム１０は、他の取り外し可能／取り外し不能、揮発性／不揮発性のコンピュータ・システム・ストレージ媒体をさらに含むことができる。単なる例として、ストレージ・システム１８は、取り外し不能の不揮発性磁気媒体との間の読み出し及び書き込みのために提供され得る。以下でさらに示され説明されるように、ストレージ・システム１８は、本発明の実施形態の機能を実行するように構成されたプログラム・モジュールのセット（例えば、少なくとも１つ）を有する少なくとも１つのプログラム製品を含むことができる。

例として、プログラム・モジュールのセット（少なくとも１つ）を有するプログラム／ユーティリティがストレージ・システム１８内に格納され得るが、これに限定されず、オペレーティング・システム、１以上のアプリケーション・プログラム、他のプログラム・モジュール、及びプログラム・データも格納され得る。オペレーティング・システム、１以上のアプリケーション・プログラム、他のプログラム・モジュール、及びプログラム・データ、又はそれらの何らかの組み合わせは、それぞれネットワーキング環境の実装形態を含むことができる。プログラム・モジュールは、通常、本明細書で記載される本発明の実施形態の機能及び／又は方法を実行する。

コンピュータ・システム１０は、キーボード、ポインティング・デバイス、音声システム等のような１以上の周辺機器２４、ディスプレイ２６、ユーザがコンピュータ・システム１０と対話することを可能にする１以上のデバイス、及び／又は、コンピュータ・システム１０が１以上の他のコンピューティング・デバイスと通信することを可能にするいずれかのデバイス（例えば、ネットワーク・カード、モデムなど）と通信することもできる。このような通信は、入力／出力（Ｉ／Ｏ）インターフェース２２を経由して行うことができる。さらにまた、コンピュータ・システム１０は、ネットワーク・アダプタ２０を介して、ローカル・エリア・ネットワーク（ＬＡＮ）、汎用広域ネットワーク（ＷＡＮ）、及び／又はパブリック・ネットワーク（例えば、インターネット）などの１以上のネットワークと通信することもできる。示されるように、ネットワーク・アダプタ２０は、バスを介して、コンピュータ・システム１０の他のコンポーネントと通信する。図示されないが、コンピュータ・システム１０と共に他のハードウェア及び／又はソフトウェア・コンポーネントが使用され得ることを理解されたい。例としては、これらに限定されるものではないが、マイクロコード、デバイス・ドライバ、冗長処理ユニット、外部のディスク・ドライブ・アレイ、ＲＡＩＤシステム、テープ・ドライブ、及びデータ・アーカイブ・ストレージ・システムなどが含まれる。

本発明は、コンピュータ・システム、方法、及び／又はコンピュータ・プログラム製品とすることができる。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読ストレージ媒体（単数又は複数）を含むことができる。

コンピュータ可読ストレージ媒体は、命令実行デバイスにより使用される命令を保持及び格納できる有形デバイスとすることができる。コンピュータ可読ストレージ媒体は、例えば、これらに限定されるものではないが、電子ストレージ・デバイス、磁気ストレージ・デバイス、光ストレージ・デバイス、電磁気ストレージ・デバイス、半導体ストレージ・デバイス、又は上記のいずれかの適切な組み合わせとすることができる。コンピュータ可読ストレージ媒体のより具体的な例の非網羅的なリストとして、以下のもの：すなわち、ポータブル・コンピュータ・ディスケット、ハードディスク、ランダム・アクセス・メモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能プログラム可能読み出し専用メモリ（ＥＰＲＯＭ又はフラッシュ・メモリ）、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）、ポータブル・コンパクト・ディスク読み出し専用メモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリ・スティック、フロッピー・ディスク、パンチカード若しくは命令がそこに記録された溝内の隆起構造のような機械的にエンコードされたデバイス、及び上記のいずれかの適切な組み合わせが挙げられる。本明細書で使用される場合、コンピュータ可読ストレージ媒体は、電波、又は他の自由に伝搬する電磁波、導波管若しくは他の伝送媒体を通じて伝搬する電磁波（例えば、光ファイバ・ケーブルを通る光パルス）、又はワイヤを通って送られる電気信号などの、一時的信号自体として解釈されない。

本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体からそれぞれのコンピューティング／処理デバイスにダウンロードすることができ、又は、例えばインターネット、ローカル・エリア・ネットワーク、広域ネットワーク、及び／又は無線ネットワークなどのネットワークを介して外部コンピュータ又は外部ストレージ・デバイスにダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、及び／又はエッジ・サーバを含むことができる。各コンピューティング／処理デバイスにおけるネットワーク・アダプタ・カード又はネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受け取り、それぞれのコンピューティング／処理デバイス内のコンピュータ可読ストレージ媒体内に格納するためにコンピュータ可読プログラム命令を転送する。

本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、又は、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語、又は、「Ｃ」プログラミング言語若しくは類似のプログラミング言語などの通常の手続き型プログラミング言語を含む１以上のプログラミング言語の任意の組み合わせで記述することができるいずれかのソースコード若しくはオブジェクトコードとすることができる。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で実行される場合もあり、一部がユーザのコンピュータ上で、独立型ソフトウェア・パッケージとして実行される場合もあり、一部がユーザのコンピュータ上で実行され、一部が遠隔コンピュータ上で実行される場合もあり、又は完全に遠隔コンピュータ若しくはサーバ上で実行される場合もある。最後のシナリオにおいて、遠隔コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ）若しくは広域ネットワーク（ＷＡＮ）を含むいずれかのタイプのネットワークを通じてユーザのコンピュータに接続される場合もあり、又は外部コンピュータへの接続がなされる場合もある（例えば、インターネットサービスプロバイダを用いたインターネットを通じて）。幾つかの実施形態において、例えば、プログラム可能論理回路、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、又はプログラム可能論理アレイ（ＰＬＡ）を含む電子回路は、コンピュータ可読プログラム命令の状態情報を用いて電子回路を個別化することによりコンピュータ可読プログラム命令を実行し、本発明の態様を実施することができる。

本発明の態様は、本発明の実施形態による方法、装置（システム）及びコンピュータ・プログラム製品のフローチャート図及び／又はブロック図を参照して説明される。フローチャート図及び／又はブロック図の各ブロック、並びにフローチャート図及び／又はブロック図内のブロックの組み合わせは、コンピュータ可読プログラム命令によって実装できることが理解されるであろう。

これらのコンピュータ可読プログラム命令を、汎用コンピュータ、専用コンピュータ、又は他のプログラム可能データ処理装置のプロセッサに与えてマシンを製造し、それにより、コンピュータ又は他のプログラム可能データ処理装置のプロセッサによって実行される命令が、フローチャート及び／又はブロック図の１以上のブロック内で指定された機能／動作を実装するための手段を作り出すようにすることができる。これらのコンピュータ可読プログラム命令を、コンピュータ、プログラム可能データ処理装置、及び／又は他のデバイスを特定の方式で機能させるように指示することができるコンピュータ可読媒体内に格納し、それにより、命令が内部に格納されたコンピュータ可読ストレージ媒体が、フローチャート及び／又はブロック図の１以上のブロックにおいて指定された機能／動作の態様を実装する命令を含む製品を含むようにすることもできる。

コンピュータ可読プログラム命令を、コンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上にロードして、一連の動作ステップをコンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上で行わせてコンピュータ実装プロセスを生成し、それにより、コンピュータ又は他のプログラム可能装置上で実行される命令が、フローチャート及び／又はブロック図の１以上のブロックにおいて指定された機能／動作を実装するようにすることもできる。

図面内のフローチャート及びブロック図は、本発明の種々の実施形態による、システム、方法、及びコンピュータ・プログラム製品の可能な実装の、アーキテクチャ、機能及び動作を示す。この点に関して、フローチャート内の各ブロックは、指定された論理機能を実装するための１以上の実行可能命令を含む、モジュール、セグメント、又はコードの一部を表すことができる。幾つかの代替的な実装において、ブロック内に示される機能は、図に示される順序とは異なる順序で生じることがある。例えば、連続して示される２つのブロックは、関与する機能に応じて、実際には実質的に同時に実行されることもあり、又はこれらのブロックはときとして逆順で実行されることもある。ブロック図及び／又はフローチャート図の各ブロック、及びブロック図及び／又はフローチャート図内のブロックの組み合わせは、指定された機能又は動作を実行する、又は専用のハードウェアとコンピュータ命令との組み合わせを実行する、専用ハードウェア・ベースのシステムによって実装できることにも留意されたい。

本明細書で用いられる用語は、特定の実施形態を説明することのみを目的とし、本発明を限定することを意図したものではない。本明細書内で用いられる場合、単数形「１つの（a）」、「１つの（an）」及び「その（the）」は、文脈がそうでないことを明確に示していない限り、複数形も含むことを意図している。さらに、用語「含む（include）」、「含んでいる（including）」、「含む（comprise）」、及び／又は「含んでいる（comprising）」は、本開示で用いられる場合、記述された特徴、整数、ステップ、動作、要素、及び／又はコンポーネントの存在を指定するが、１以上の他の特徴、整数、ステップ、動作、要素、コンポーネント、及び／又はその群の存在又は付加を除外するものではないことが理解されるであろう。

以下の特許請求の範囲に存在する場合、「手段又はステップと機能との組合せ（ミーンズ又はステップ・プラス・ファンクション）」要素の対応する構造、材料、動作及び均等物は、明確に特許請求された他の請求要素と共に機能を実行するための任意の構造、材料、又は行為を含むことを意図したものである。本発明の１以上の態様の説明は、例証及び説明のためだけに提示されたものであり、網羅的であること又は本発明を開示した形態に限定することを意図したものではない。

当業者には、説明される実施形態の範囲及び趣旨から逸脱することなく、多くの修正及び変形が明らかであろう。本明細書で使用される用語は、実施形態の原理、実際の用途、若しくは市場で見出される技術に優る技術的改善を最も良く説明するために、又は当業者が本明細書に開示される実施形態を理解するのを可能にするために、選択された。

１０：コンピュータ・システム
１２：プロセッサ（処理ユニット）
１８：ストレージ・システム
２０：ネットワーク・アダプタ
１００：書記素・音素変換システム
１０２：ソース言語辞書
１０４、２０４：外来語辞書
１１０：書記素・音素（Ｇ２Ｐ）変換器
１２０：Ｇ２Ｐ変換器学習モジュール
１３０、２３０：音素・音素（Ｐ２Ｐ）変換器
１３２：エンコーダ
１３４：デコーダ
１４０：Ｐ２Ｐ変換器学習モジュール
１５０、２５０：スコアラ
２００：音素・書記素変換システム
２０６：ターゲット言語辞書
２６０：音素・書記素（Ｐ２Ｇ）変換器
２７０：Ｐ２Ｇ変換器学習モジュール

Claims

コンピュータの情報処理により、異なる言語で書かれた単語についての音素を推定する方法であって、前記方法は、
ソース言語における所与の単語の書記素のシーケンスを受け取ることと、
前記ソース言語における前記書記素の前記シーケンスを前記ソース言語における音素のシーケンスに変換することと、
ニューラル・ネットワーク・モデルを用いることにより、前記ソース言語における前記音素の前記シーケンスからターゲット言語における音素の複数のシーケンスを生成することと、
前記ターゲット言語の言語モデルを用いることにより、前記ターゲット言語における前記音素の各シーケンスについてのスコアを評価することと、
前記スコアを用いて、前記所与の単語について前記ターゲット言語における音素の１つのシーケンスを決定することと、
を含む方法。
前記言語モデルは、前記ターゲット言語における前記音素の各シーケンスについての前記スコアとして生起確率を出力する、請求項１に記載の方法。
前記ソース言語における前記書記素の前記シーケンスは、第１のシーケンス・シーケンス変換器により、前記ソース言語における前記音素の前記シーケンスに変換される、請求項１又は請求項２に記載の方法。
前記第１のシーケンス・シーケンス変換器は、各単語について前記ソース言語における書記素のセットと音素のセットとの間の関係を登録する第１の辞書を用いることにより訓練される、請求項３に記載の方法。
前記ニューラル・ネットワーク・モデルは、前記ソース言語における前記音素の前記シーケンスを前記ターゲット言語における前記音素の前記１以上のシーケンスに変換するための第２のシーケンス・シーケンス変換器である、請求項１から請求項４のいずれか一項に記載の方法。
前記第２のシーケンス・シーケンス変換器は、各単語について前記ソース言語における書記素のセットと前記ターゲット言語における音素のセットとの間の関係を登録する第２の辞書と、各単語について前記ソース言語における書記素のセットと音素のセットとの間の関係を登録する第１の辞書とを用いることにより訓練される、請求項５に記載の方法。
コンピュータの情報処理により、異なる言語における音素から単語の書記素を推定する方法であって、前記方法は、
ソース言語における音素のシーケンスを受け取ることと、
ニューラル・ネットワーク・モデルを用いることにより、前記ソース言語における前記音素の前記シーケンスから、ターゲット言語における音素の１以上のシーケンスを生成することと、
前記ターゲット言語における前記音素の１以上のシーケンスを、前記ターゲット言語における書記素の１以上のシーケンスに変換することと、
前記ソース言語における前記音素の前記シーケンスについて前記ターゲット言語で書かれたターゲットの単語を識別することと、
を含む、方法。
前記書記素の前記１以上のシーケンスは、書記素の複数のシーケンスを含み、前記方法は、
前記ターゲット言語の言語モデルを用いることにより、前記ターゲット言語における前記書記素の各シーケンスについてのスコアを評価することをさらに含み、前記書記素の各シーケンスについての前記スコアは、前記書記素の前記複数のシーケンスの中から前記ターゲットの単語として前記書記素の１つのシーケンスを決定するために用いられる、請求項７に記載の方法。
前記ニューラル・ネットワーク・モデルは、前記ソース言語における前記音素の前記シーケンスを前記ターゲット言語における前記音素の前記１以上のシーケンスに変換するための第３のシーケンス・シーケンス変換器である、請求項７又は請求項８のいずれかに記載の方法。
前記第３のシーケンス・シーケンス変換器は、各単語について前記ターゲット言語における書記素のセットと前記ソース言語における音素のセットとの間の関係を登録する第３の辞書と、各単語について前記ターゲット言語における書記素のセットと音素のセットとの間の関係を登録する第４の辞書とを用いることにより訓練される、請求項９に記載の方法。
前記ターゲット言語における前記音素の前記少なくとも１つのシーケンスは、第４のシーケンス・シーケンス変換器により、前記ターゲット言語における前記書記素の前記少なくとも１つのシーケンスに変換される、請求項７から請求項１０のいずれか一項に記載の方法。
前記第４のシーケンス・シーケンス変換器は、各単語について前記ターゲット言語における書記素のセットと音素のセットとの間の関係を登録する第４の辞書を用いることにより訓練される、請求項１１に記載の方法。
プログラム命令を実行することにより、異なる言語で書かれた単語についての音素を推定するためのコンピュータ・システムであって、前記コンピュータ・システムは、
前記プログラム命令を有形に格納するメモリと、
前記プログラム命令を実行するために前記メモリと通信するプロセッサと、
を含み、前記プロセッサは、
ソース言語における所与の単語の書記素のシーケンスを受け取り、
前記ソース言語における前記書記素の前記シーケンスを前記ソース言語における音素のシーケンスに変換し、
ニューラル・ネットワーク・モデルを用いることにより、前記ソース言語における前記音素の前記シーケンスからターゲット言語における前記音素の複数のシーケンスを生成し、
前記ターゲット言語の言語モデルを用いることにより、前記ターゲット言語における前記音素の各シーケンスについてのスコアを評価し、
前記スコアを用いて、前記所与の単語について前記ターゲット言語における音素の１つのシーケンスを決定する、
ように構成される、コンピュータ・システム。
前記ソース言語における前記書記素の前記シーケンスは、第１のシーケンス・シーケンス変換器により、前記ソース言語における前記音素の前記シーケンスに変換され、前記ニューラル・ネットワーク・モデルは、前記ソース言語における前記音素の前記シーケンスを前記ターゲット言語における前記音素の前記１以上のシーケンスに変換するための第２のシーケンス・シーケンス変換器である、請求項１３に記載のコンピュータ・システム。
プログラム命令を実行することにより、異なる言語で書かれた単語の書記素を推定するためのコンピュータ・システムであって、前記コンピュータ・システムは、
前記プログラム命令を有形に格納するメモリと、
前記プログラム命令を実行するために前記メモリと通信するプロセッサと、
を含み、前記プロセッサは、
ソース言語における音素のシーケンスを受け取り、
ニューラル・ネットワーク・モデルを用いることにより、前記ソース言語における前記音素の前記シーケンスから前記ターゲット言語における音素の１以上のシーケンスを生成し、
前記ターゲット言語における前記音素の１以上のシーケンスを前記ターゲット言語における書記素の１以上のシーケンスに変換し、
前記ソース言語における前記音素の前記シーケンスについて前記ターゲット言語で書かれたターゲットの単語を識別する、
ように構成される、コンピュータ・システム。
前記書記素の前記１以上のシーケンスは、書記素の複数のシーケンスを含み、前記プロセッサは、
前記ターゲット言語の言語モデルを用いることにより、前記ターゲット言語における前記書記素の各シーケンスについてのスコアを評価するようにさらに構成され、前記書記素の各シーケンスについての前記スコアは、前記書記素の前記複数のシーケンスの中から、前記ターゲットの単語として前記書記素の１つのシーケンスを決定するために用いられる、請求項１５に記載のコンピュータ・システム。
前記ニューラル・ネットワーク・モデルは、前記ソース言語における前記音素の前記シーケンスを前記ターゲット言語における前記音素の前記１以上のシーケンスに変換するための第３のシーケンス・シーケンス変換器であり、前記ターゲット言語における前記音素の前記１以上のシーケンスは、第４のシーケンス・シーケンス変換器により、前記ターゲット言語における前記書記素の前記１以上のシーケンスに変換される、請求項１５又は請求項１６に記載のコンピュータ・システム。
請求項１から請求項６のいずれか一項に記載の方法を実行するための、処理回路により実行される命令を格納した、コンピュータ可読ストレージ媒体。
デジタル・コンピュータの内部メモリにロード可能なコンピュータ・プログラムであって、前記プログラムがコンピュータ上で実行されるとき、請求項１から請求項６のいずれか一項に記載の方法を実行するためのコンピュータ・プログラム。
請求項７から請求項１２のいずれか一項に記載の方法を実行するための、処理回路により実行される命令を格納した、コンピュータ可読ストレージ媒体。
デジタル・コンピュータの内部メモリにロード可能なコンピュータ・プログラムであって、前記プログラムがコンピュータ上で実行されるとき、請求項７から請求項１２のいずれか一項に記載の方法を実行するためのコンピュータ・プログラム。