JP2011034220A - 字訳装置、コンピュータプログラム及び記録媒体 - Google Patents

字訳装置、コンピュータプログラム及び記録媒体 Download PDF

Info

Publication number
JP2011034220A
JP2011034220A JP2009178137A JP2009178137A JP2011034220A JP 2011034220 A JP2011034220 A JP 2011034220A JP 2009178137 A JP2009178137 A JP 2009178137A JP 2009178137 A JP2009178137 A JP 2009178137A JP 2011034220 A JP2011034220 A JP 2011034220A
Authority
JP
Japan
Prior art keywords
grapheme
sequence
phoneme
string
chinese
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009178137A
Other languages
English (en)
Other versions
JP5500624B2 (ja
Inventor
Jong Hoon Oh
鍾勲 呉
Seiki Uchimoto
清貴 内元
Kentaro Torisawa
健太郎 鳥澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2009178137A priority Critical patent/JP5500624B2/ja
Publication of JP2011034220A publication Critical patent/JP2011034220A/ja
Application granted granted Critical
Publication of JP5500624B2 publication Critical patent/JP5500624B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】ある言語の単語の書記素列を、別の第2の言語の書記素列に精度高く変換できる字訳装置を提供する。
【解決手段】ソース言語の書記素列から、ターゲット言語の音素列を推定するための音素列推定部136と、ソース言語の書記素列若しくは音素列、又はソース言語の書記素列及び音素列と、音素列推定処理部136」により推定されたターゲット言語の音素列とから、ターゲット言語の書記素列(文字列)を推定するための文字列推定部140とを含む。ターゲット言語の音素列から書記素列の推定に、ソース言語の書記素列又は音素列の情報を利用することで推定精度を高めることができる。
【選択図】図4

Description

この発明はある言語から他の言語への字訳技術に関し、特に、ある言語の書記素列から他の言語の対応書記素列を精度高く推定できる字訳技術に関する。
字訳、すなわち音訳は、固有名詞及び技術用語などの翻訳においてよく用いられる。たとえば中国語と英語との間での字訳技術についてはこの10年程度の間に複数個提案されている。それらの提案は複数個に分類することができる。この分類を、図1を参照して説明する。
図1を参照して、英語の書記素列30から中国語の書記素列36を得るのが英語から中国語への字訳の課題である。英語の書記素列30が与えられると、英語の書記素列30から中国語の書記素列36を推定するいくつかの方法が試みられている。
第1は、英語の書記素列30から英語の音素列32を推定し、英語の音素列32からさらに中国語の音素列34を推定し、この中国語の音素列34から中国語の書記素列36を推定する方法である。第2は、英語の書記素列30から中国語の音素列34を推定し、中国語の音素列34から中国語の書記素列36を推定する方法である。いずれの方法でも、最終的には中国語の音素列34から中国語の書記素列36が推定される。推定には、予め準備したデータを用いて学習した、MEM(Maximum Entropy Model),CRF(Conditional Random Fields)などが用いられる。
これら方法では、最終的に中国語の音素列34から中国語の書記素列36が推定される。しかしこの推定の精度は低く、満足できる程度に達していないことが知られている。これは、中国の音素列を単純に用いるだけでは、中国語の書記素列を得るために十分な情報が得られるとは限らないためである。
これを、図2を参照して説明する。図2は、英語の「Greeley」という後を中国語に字訳した例を示す。図2では、中国語の音素は中国語のピンイン列で表され、英語の音素はARPAbet符号で表されている。なおARPAbet符号についてはhttp://www.cs/edu/~laura/pages/arpabet.psを参照されたい。ピンインは、中国語をローマ字標記するシステムとして最も普及している標記方法である。ピンインは中国語の音素及び音節を忠実に表している。
図2において、英語の「ree」は英語の音素では「RIY」と表され、「ley」は「LIY」と表される。これら音素に対応するピンインはいずれも「LI」である。ピンイン「LI」は中国語の異なる2つの文字「里」及び「利」に対応する。これら2つの文字は異なる音声を表す。これらのうちいずれの文字を選択すべきかは、図2に示す中国語の音素列「GE LI LI」からだけでは判断できない。
Haizhou Li他、「機械字訳のための複合ソースチャネルモデル」、ACL‘04予稿集、2004、pp.160−167(Haizhou Li, Min Zhang, and Su Jian. 2004. A joint source−channel model for machine transliteration. In Proceedings of ACL ’04, pp. 160−167)
上記した問題を解決するために、非特許文献1は、英語の書記素列30から直接に中国語の書記素列36を推定する方法を提案している。非特許文献1の手法により、中国語の書記素列36の精度は従来よりも高くなったことが報告されている。
しかし、この手法でも精度は単語単位では70%程度しかなく、英語から中国語への字訳システムの精度として満足のいくものではない。
このような問題は、言語の組み合わせにかかわらず存在する。たとえば日本語と英語、日本語と中国語との間でも生じ得る。
情報検索の分野では、他言語の固有名詞又は技術用語を、操作者の言語に自動的に変換して検索することができれば便利である。このときの変換が適切でないと検索の精度が低下したり、検索漏れが生じたりする。自動翻訳システムでは、辞書に存在しない固有名詞又は技術用語を、その音を生かして字訳することができれば、少なくとも言語のままその単語を出力するよりも適切な翻訳結果が得られる可能性が高い。
したがって、ある言語の単語の書記素列を別言語の書記素列に適切に字訳する、精度の高いシステムが必要である。
それゆえに本発明の目的は、第1の言語の単語の書記素列を、第1の言語とは別の第2の言語の書記素列に精度高く変換できる字訳装置を提供することである。
本発明の第1の局面に係る字訳装置は、ソース言語の書記素列からターゲット言語の書記素列を推定する字訳装置であって、ソース言語の書記素列から、ターゲット言語の音素列を推定するためのターゲット言語音素列推定手段と、ソース言語の書記素列若しくは音素列、又はソース言語の書記素列及び音素列と、音素列推定手段により推定されたターゲット言語の音素列とから、ターゲット言語の書記素列を推定するためのターゲット言語書記素列推定手段とを含む。
ターゲット言語音素列推定手段は、ソース言語の書記素列が与えられると対応するターゲット言語の音素列を推定する。ターゲット言語書記素列推定手段は、ソース言語の書記素列とターゲット言語の音素列、ソース言語の音素列とターゲット言語の音素列、又はソース言語の書記素列と音素列及びターゲット言語の音素列が与えられると、これらから、ターゲット言語の書記素列を推定する。
従来は、ターゲット言語の音素列のみからターゲット言語の書記素列を推定するか、ソース言語の書記素のみから直接ターゲット言語の書記素を推定している。こうした従来技術と比較すると、上記したようにターゲット言語の音素列からターゲット言語の書記素列を推定するにあたり、ターゲット言語の音素列だけでなく、ソース言語の書記素列若しくは音素列、又はそれらの組み合わせを一緒に用いることで、ターゲット言語の書記素列がより高い精度で推定できることが実験により判明した。その結果、第1の言語の単語の書記素列を、第1の言語とは別の第2の言語の書記素列に精度高く変換できる字訳装置を提供できる。
好ましくは、ターゲット言語書記素列推定手段は、ソース言語の書記素列若しくは音素列、又はソース言語の書記素列及び音素列と、ターゲット言語の音素列とから、ソース言語の書記素列に関連する所定の素性ベクトル列を算出するための第1の素性算出手段と、第1の素性算出手段により出力された素性ベクトル列を受け、当該素性ベクトル列に対応する確率が最も高いターゲット言語の書記素列を、予め学習済の確率モデルによる確率計算によって決定するための手段とを含む。
確率モデルを用いることにより、既存の確率モデルによる確率計算の手法を利用してターゲット言語の書記素列を推定できる。
より好ましくは、確率モデルは、第1の素性算出手段により出力された素性ベクトルの要素のうち、ソース言語の書記素列及びターゲット言語の音素列から得られた素性が与えられると、ターゲット言語の各書記素に対する確率を与えるための第1の確率モデルと、第1の素性算出手段により出力された素性ベクトルの要素のうち、ソース言語の書記素列及び音素列、並びにターゲット言語の音素列から得られた素性が与えられると、ターゲット言語の各書記素に対する確率を与えるための第2の確率モデルとを、所定の割合α(0<α<1)で混合した確率モデルを含む。
このように、複数個の確率モデルを定数αで混合した確率モデルを用いると、各モデルを単独で使用したときと比較して、より推定の精度を高めることができる。
決定するための手段は、各々が、第1の素性算出手段により出力された素性ベクトル列を受け、当該素性ベクトル列に対応する確率が最も高いターゲット言語の書記素列を、予め学習済の確率モデルによる確率計算によって決定するための複数の確率算出手段と、複数の確率算出手段によりそれぞれ決定された複数の書記素列を再ランキングすることにより、ソース言語の書記素列に対応する可能性が最も高いターゲット言語の書記素列を決定するための再ランキング手段とを含んでもよい。
再ランキング手段は、複数の確率モデルにより別々に算出された書記素列の候補をさらにランキングして最も可能性の高い書記素列を決定する。このようにすると、確率モデルを単独で使用するときと比較して、書記素列の推定精度を高めることができる。
この場合、複数確率算出手段の確率モデルは、互いに異なる機械学習アルゴリズムにより学習済であることが好ましい。互いに異なる機械学習アルゴリズムで学習した確率モデルにより算出された書記素列は、互いに異なる特性によりターゲット言語の書記素列を推定したものとなる。これらを再ランキングするため、同一の機械学習アルゴリズムを用いた場合と比較して、推定上の弱点が少なくなり、書記素列の推定精度を高めることができる。
本発明の第2の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを、上記したいずれかの字訳装置として動作させる。
本発明の第3の局面に係る記録媒体は、上記したコンピュータプログラムを記録した、コンピュータ読取可能な記録媒体である。
英語の書記素から中国語の書記素を推定する過程を模式的に示す図である。 英語の書記素と音素、及び中国語のピンインと文字との対応関係を表形式で示す図である。 本発明の第1の実施の形態に係る字訳システムにおける素性の構成を説明するための図である。 本発明の第1の実施の形態に係る字訳システム70の概略構成を示すブロック図である。 本発明の第1の実施の形態に係る字訳システムにおいて、英語と中国との書記素列をアライメントするアライメント部108(図4)を実現するためのプログラムの制御構造を示すフローチャートである。 アライメント後の英語の書記素列及び音素列、並びに中国の書記素列と文字列との対応関係を示す図である。 字訳システム70において、入力された英語の書記素列から英語の音素列及び中国語の音素列を推定する音素列推定処理部136を実現するためのプログラムのフローチャートである。 アライメント部108におけるアライメントの方法を説明するための図である。 字訳システム70を実現するためのコンピュータシステム550の外観を示す図である。 図9に示すコンピュータシステム550のハードウェア構成を示すブロック図である。
以下、本発明を実施するための形態について説明する。なお以下の説明及び図面において、同一の部品には同一の参照番号を付してある。それらの名称及び機能も同一である。したがってそれらについての詳細な説明は繰返さない。
なお、以下に説明する第1の実施の形態は、本発明を英語と中国語との組み合わせに適用した例である。しかし本発明はそのような言語の組み合わせに限定されるわけではなく、任意の言語の組み合わせ、たとえば英語と日本語、日本語と中国語、及び英語とドイツ語などに適用可能であることはいうまでもない。
<第1の実施の形態>
図2に示す例では、中国語のピンイン「LI」だけから対応する文字を決定することはむずかしい。しかし、ピンインに対応する英語の音素(「R IY」及び「L IY」)を考慮すると、どの文字を採用すべきかは容易に分かる。すなわち、中国語の音素だけではなく、英語の音素まで考慮すると中国語の文字を判定するための材料がより豊富になり、文字を正確に予測することが可能になる。同様の事情が英語の書記素列に対しても成立する。すなわち、図3を参照して、中国語の音素34だけではなく、「英語の音素32及び中国語の音素34」からなるグループ52、「英語の書記素30、音素32及び中国語の音素34」からなるグループ50、又は「英語の書記素30及び中国語の音素34」からなるグループ54を文字判定のための判定材料とすることにより、中国語の音素のみから中国語の書記素を推定する場合よりも推定精度が高くなるはずである。本実施の形態は、そうした知見に基づいている。以下の説明では、このうちのグループ50を用いて中国語の書記素36を推定する場合を例にとる。
図4は、この実施の形態に係る字訳システム70の概略構成を示すブロックである。図4を参照して、字訳システム70は、予め準備された英語と中国語との対照データ100に基づいて、英語の書記素列84が与えられると、上記したグループ50に属する情報から得られた素性を入力として、中国語文字列86を推定するための確率モデル(MEM,CRFなど)の学習を行なうための学習部80と、学習部80により学習が行なわれた確率モデル130を含み、英語の書記素列84が与えられるとこの確率モデル130を用いて中国語文字列86を推定するための字訳部82とを含む。
対照データ100は、英単語の書記素列と、その音素列と、中国語の音素列(ピンイン)と、中国語の書記素列とを含む。これらは人手で予めアライメントしてもよいが、このように4つのデータをアライメントするのは大変である。人手でアライメントする場合にはアライメント自体に多くの労力が必要とされる。確率モデルの精度を高めるためには、多くの対照データを準備する必要があり、人手でこれら対照データのアライメントを全て行なうのはきわめて困難である。
そこで、学習部80は、自動的に対照データ100のアライメントを行なう。実は、このアライメントを自動的に行なう作業が極めてむずかしい。そのため、仮に図3に示すグループ50の情報を元に確率モデルの学習を行なおうとしても、実際上は不可能であった。本実施の形態では、上記したアライメントを3つの部分に分け、アライメントが完成した後に、それら3つのアライメント結果を統合する。この際には、音素がキーとなる。
学習部80は、対照データ100を記憶する記憶部と、対照データ100の各々に対し、英語書記素列と英語音素列、及び英語音素列と中国語音素列を、それぞれアライメントする処理を行なう際に使用されるアライメント用テーブル102及び104と、対照データ100内の各対照データの英語書記素列、英語音素列、中国語ピンイン列、及び中国語の文字列とのアライメントを行ない、アライメント済対照データ110を出力するためのアライメント部108と、アライメント済対照データ110内の各対照データ内の中国語の文字の各々について、所定の素性を算出・抽出し、学習データ114として蓄積するための素性抽出部112と、アライメント済対照データ110内の各対照データ内の英語の音素の各々、及び中国語ピンインの各々について、それぞれ所定の素性を算出・抽出し、学習データ120及び122として蓄積するための素性抽出部118とを含む。
学習データ120は英語の書記素列から英語の音素列を推定するための確率モデル132の学習を行なうための学習データである。学習データ122は、英語の音素列から中国語のピンイン列を推定する確率モデル134の学習を行なうための学習データである。
学習部80はさらに、学習データ120を用いて英語の書記素列から英語の音素列を推定するための確率モデル132の学習を行なうための学習部124と、学習データ122を用いて、英語の音素列から中国語のピンイン列を推定するための確率モデル134の学習を行なうための学習部126と、学習データ114を用い、中国語のピンイン列から中国語の文字列の推定を行なう確率モデル130の学習を行なうための学習部116とを含む。
字訳部82は、英語の書記素列84が与えられると、確率モデル132を用い、英語の書記素列84から英語の音素列を推定して出力する処理と、確率モデル134を用い、推定された英語の音素列から中国語のピンイン列を推定して出力する処理とを行なうための音素列推定部136と、英語の書記素列84と、音素列推定処理部136が出力する英語の音素列及び中国語のピンイン列から後述する所定の素性を算出・抽出するための素性抽出部138と、素性抽出部138が出力する素性を確率モデル130に適用することにより、確率計算に基づいて、英語の書記素列84に対応するものとして最も確率の高い中国語文字列86を推定するための文字列推定部140とを含む。この確率計算のアルゴリズムとしては、確率モデルを用いる推定システム一般に用いられるものをそのまま使用することができる。
図5は、図4に示すアライメント部108を実現するためのプログラムの制御構造を示すフローチャートである。図5を参照して、このプログラムは、対照データ100に含まれる対照データの各組に対して以下に説明する処理152を繰返すステップ150を含む。
処理152は、処理対象の対照データに含まれる英語の書記素列と、英語の音素列とのアライメントをアライメント用テーブル102(図4)を用いて行なうステップ160と、ステップ160に続き、処理対象の対照データに含まれる英語の音素列と、中国語のピンイン列とのアライメントをアライメント用テーブル104(図4)を用いて行なうステップ162と、ステップ162に続き、中国語のピンイン列と中国語の文字列とのアライメントをアライメント用テーブル106(図4)を用いて行なうステップ164と、ステップ164に続き、ステップ160,162及び164におけるアライメント結果を、音素を軸として互いに組み合わせ、英語書記素列、英語音素列、中国語ピンイン列、及び中国語の文字列の全てのアライメントが行なわれたアライメント後データを生成するステップ166と、ステップ166に続き、ステップ166で生成されたアライメント後データをアライメント済対照データ110(図4)に追加して格納するステップ168とを含む。
図6に、図2に示す例と同じ例を用いたアライメント済対照データ110の構成をテーブル形式で示す。図6に示すテーブルの最上段は英単語の先頭からの書記素の順番を示す。図6において、「E」は英語の書記素列を、「E」は英語の音素列を、「C」は中国語の音素(ピンイン)列を、「C」は中国語の書記素(文字)列を、それぞれ示す。Eはn個の英語の書記素を含むものとする。
,C及びCはいずれも、英語の書記素列EG内の書記素に対応するように部分文字に分割されている。
・E=eg,…,eg=eg
・E=ep,…,ep=ep
・C=cp,…,cp=cp
・C=cg,…,cg=cg
ただしeg,ep,cp,cgはそれぞれ、i番目の英語の書記素と、この書記素に対応するi番目の英語の音素、i番目の中国語の音素(ピンイン)、及びi番目の中国語の書記素(文字)を、それぞれ示す。
図6を参照して、たとえば英語の単語「greeley」の2−4番目の書記素列「ree」に対応する音素列は「R」「IY」及び「φ」(対応する音素がないことを示す。)である。同様に、5−7番目の書記素列「ley」に対応する音素列は「L」「IY」及び「φ」である。
中国語のピンインは、子音と母音とからなる音節を表すので、以下の説明ではピンイン列をさらに子音部と母音部とに分割して考える。すなわち、ピンイン「LI」は「L」+「I」に、「LIN」は「L」+「I」+「N」に、「SHA」は「SH」+「A」に、それぞれ分割される。以下の説明ではまた、中国語のピンイン列のうち、母音及び子音部分をいずれも中国語の「音素」と定義する。たとえば「L」、「SH」及び「I」などである。
中国語の1文字は多くの場合、複数個の英語の書記素、英語の音素、及び中国語の音素に対応する。たとえば図6に示す例では、「里」は英語の書記素「ree」、英語の音素「R IY」、及び中国語の音素「L I」に対応する。こうした多対1の対応関係を表すために、中国語の文字のラベリングにおいてよく用いられるBIO表記を使用する。すなわち、1文字が文字列内で複数部分に分割された場合を想定し、先頭に相当する部分にはその文字に「B」を、それ以外の部分にはその文字に「I」を、それぞれ付して表現する。ここでは「O」というラベルは使用しない。このような表記を使用すると、中国語の各音素にBIOラベルが付された中国語の文字1文字が対応する。
たとえば、図1の例では、中国語の文字「里」の先頭部分は「里:B」で表され、それ以外の部分は「里:I」で表される。これら「里:B」及び「里:I」はそれぞれ、「L」及び「I」という中国語の音素を表している。
また以下の説明では、中国語の書記素を、BIOラベルが付された中国語の文字と定義する。すなわち、「里:B」及び「里:I」はいずれも中国語の書記素である。
こうした定義を用いることにより、英語の書記素列を、対応する英語の音素列、中国語の音素(ピンイン)列、及び中国語の書記素列と関係付けることができ、英語から中国語への字訳のためのモデルを構築することができる。
以下、モデル化について説明する。ここでは、比較のために以下の3種類のモデル、M(E,JC)、M(E,JC)及びM(EGP,JC)について説明する。
M(E,JC
このモデルは、英語の書記素列から中国語の音素列を推定し、英語の書記素列及び中国語の音素列の双方から得られる素性によって構築されたモデルである。
M(E,JC
このモデルは、英語の音素列から中国語の音素列を推定し、英語の音素列及び中国語の音素列の双方から得られる素性によって構築されたモデルである。
M(EGP,JC
このモデルは、英語の書記素列及び音素列から中国語の音素列を推定し、英語の書記素列及び音素列、並びに中国語の音素列を全て組み合わせて得られた素性によって構築されたモデルである。ある英語の書記素列Eに対し、ある中国語の書記素列Cが生ずる確率は、これらのモデルでは以下のように表される。
Figure 2011034220
なお、これらのハイブリッドモデルを作成することもできる。2つのモデルのハイブリッドモデルは、これら2つのモデルの確率分布関数を定数α(0<α<1)により以下のように組み合せたものである。2つのモデルM(x,JC)とM(x,JC)とを定数αによって組み合わせたモデルをM(x+x、JC,α)とすると(ただしx≠x、かつx及びx∈{E,E,EGP})、このモデルは以下のように表すことができる。
Figure 2011034220

上記式(1)−(3)についての確率は同様の手法で推定できるので、以下では式(3)を例として確率の推定方法を説明する。式(3)中のP(E|E)、P(C|E,E)及びP(C|E,EP,C)がコンテキスト・ウィンドウの大きさk(ここではk=3とする。)に依存するものと仮定すると、これらは次の式(5)−(8)というより簡単な形式で近似できる。一般的に、MEMは式(8)の形の条件確率を与える指数モデルである。式(8)においてλは推定対象のパラメータであり、f(a、b)はλに対応する素性関数である。
Figure 2011034220
ただし、f(a、b)はコンテキストaと出力bとに基づき、TRUE又はFALSEを返すバイナリ関数である。もしもf(a、b)=1であれば、対応するパラメータλは条件確率P(b|a)に対して影響を与える。
ここで使用する素性関数は、コンテキスト述語を用いて定義されており、現在のコンテキストから得られる情報の有無によりTRUE又はFALSEのいずれかを返す関数である。コンテキスト述語とその説明を次のテーブル1に示す。
Figure 2011034220
テーブル1に示すように、本実施の形態では、N−グラムとしてユニグラムgram(u)、バイグラムgram(u)、及びトライグラムgram(u)を用いている。PAIRはユニグラムの対(pair11)、ユニグラムとバイグラムの対(pair12)、及びバイグラムの対(pair22)を含む。TRIPLEは、3つのユニグラムの組(triple)、及び2つのユニグラムと1つのバイグラムからなる組(triple)とを含む。なお、別々のコンテキスト述語が同一のコンテキストを表す場合には、そのうちの一つを採用し、他は無視する。たとえばpair12(u,uj+1)=gram(u)=u j+2のような場合である。
テーブル2は、式(7)の右辺のある因数P(cg|cgi−k i−1、〈eg,ep,cp〉i−k i+1)についての、i=2のときの、図6に示す例に適用した素性関数の例を示す。
Figure 2011034220
本実施の形態において、図4に示す文字列推定部140としては、n−ベストを出力するスタックデコーダを用いる。
なお、図4のアライメント部108によるアライメント、すなわち図5のステップ160,162及び164でのアライメントの各々には、以下のような方法を適用した。ここでは、たとえば英語の書記素列「board」とそれに対応する英語の音素列/B/、/AO/、/〜/、/R/、及び/D/とのアライメントを例として説明する。/〜/は無音を示す。
両者が与えられると、図8に示すようなマトリクスを作成する。このマトリクスは、
上記した書記素と縦方向に、音素列を横方向に、それぞれ配列したものである。行番号をI,列番号をJでそれぞれ表す。音素列及び書記素列の先頭には、それぞれ先頭を表すダミー文字「$」を付しておく。
I行J列のセルに割り当てられる値をd[i,j](この値をこのセルの「コスト」と呼ぶ。)で表す。このマトリクスの第1列目(i=0)のセルには、j×300を代入し(d[0,j]=j×300)、第1行目(j=0)のセルにはi×300を代入する(d[i,0]=i×300)。このマトリクスの他の各セルには、初期素と音素との間の類似関係に応じて予め作成されていたアライメント用テーブル102から、各セルの書記素と音素との組み合わせに応じた値を参照して挿入する。このテーブル、両者が音声上で類似していれば小さく、相違しているほど大きくなるように予め作成されている。
たとえば書記素dと音素/D/とは音声的に互いに類似しているため、アライメント用テーブル102では40という値が割り当てられている。一方、書記素rと音素/D/とは音声的に類似していないため、それより大きな80という値が割り当てられている。書記素bと音素/B/とはよく一致するため、値として0が割り当てられている。
こうして最初にマトリクスの全セルに値を挿入した後、以下のようなアルゴリズムで書記素列と音素列とのアライメントを行なう。
このマトリクスの各セルに対し、マトリクスの右下から初めて各セル(i,j)について以下の式(9)により定まるコストd[i,j].cost及び操作d[i,j].opを決定する。
Figure 2011034220
ただし式(9)において、sはソース(書記素)側の比較要素、tはターゲット(音素)側の比較要素を示す。操作Mは、比較されている要素s及びtをアラインさせることを表す。操作SSはソース側をスキップする(すなわちターゲット側の比較要素をこの次のソース側の比較要素とアラインさせる。)ことを表す。操作TSは逆で、ターゲット側をスキップさせる(つまりソース側の比較要素を次のターゲット側の要素とアラインさせる)ことを表す。
このようにして、マトリクスの右下セルから左上セルまでのコストが最小となるようなルートがアライメントとして求められ、両者をアラインさせるための一連の操作が同時に求められる。図8に示す例では、上記ルートに対応するセルは、それらのコストの表示に下線を引いて示してある。
ここでは、英語の書記素と英語の音素とを例に説明したが、英語の音素と中国語の音素、中国語の音素と中国語の書記素との間のアライメントも同様に行なわれる。
本実施の形態において、このアライメント手法を用いて英語の書記素と英語の音素、英語の音素と中国語の音素、及び中国語の音素と中国語の書記素のアライメントをした後、音素を中心としてアライメントの結合をすることにより、英語の書記素→英語の音素→中国語の音素→中国語の書記素のアライメントをすることが可能になった。その結果、図3に示すグループ50,52及び54のうち、任意のものから素性を得て確率モデル130の学習を行なうことが可能になった。
<動作>
字訳システム70の動作は、確率モデルを用いる一般的なシステムと同様である。最初に、対照データ100と、アライメント用テーブル102〜106を準備する。アライメント部108により、英語の書記素と英語の音素、英語の音素と中国語の音素、及び中国語の音素と中国語の書記素のアライメントのうち必要なものを行なう。その結果を組み合わせることで、アライメント済対照データ110を作成することができる。ここでは、英語の書記素列から英語の音素列を推定し、英語の書記素列及び英語の音素列から中国語の音素列を推定し、英語の書記素列、英語の音素列、及び中国語の音素列から中国語の書記素列を推定するものとする。したがって、確率モデル130とともに、確率モデル132及び確率モデル134の双方の学習を行なう。
一旦アライメント済対照データ110ができれば、これから素性抽出部112によって素性を算出し、学習データ114を準備し、さらに確率モデル130の学習を行なうのあは通常の手続きである。なおこのとき、アライメント済対照データ110を用いて、素性抽出部118によって学習データ120を作成し、確率モデル132及び確率モデル134のうち必要なものの学習をすることができる。
こうして、確率モデル132、確率モデル134、及び確率モデル130の学習が完了すると、字訳部82はいつでも動作可能である。
英語の書記素列84が字訳部82に与えられると、音素列推定処理部136が英語の書記素列84から英語の音素列を推定する。音素列推定処理部136はさらに、英語の書記素列84及び推定された英語の音素列から中国語の音素列を推定する。推定された英語の音素列及び中国語の音素列は、英語の書記素列84とともに素性抽出部138に与えられる。
素性抽出部138は、素性抽出部112と同様の素性算出を行ない、結果を文字列推定部140に与える。文字列推定部140は、確率モデル130を用いて、入力された素性列の出コードを行ない、中国語の文字列として最も尤度の高いN−ベストを定め、中国語文字列86として出力する。
<実験結果>
《設定》
実験では、「NEWS09 機械字訳協働タスク」(NEWS2009 machine transliteration shared task)において英語―中国語での字訳において用いられたデータと同じデータを用いた。このデータは「外国の個人名の中国語字訳」(新華社通信、1992)から抽出され、英語と、それに対応する公式な中国語の字訳との対を37,694個含んでいる。元データには、英語と、フランス語と、ドイツ語と、そのほか多くの言語の名前が含まれている。
実験では、上記データのうち、Liらによる2004年の報告(非特許文献1)で用いられたものと同じ学習データを用いたが、その中からランダムに90%を抽出して学習データとし、残りは開発データとした。データの分類をテーブル3に示す。
Figure 2011034220
学習データを、上記した確率モデル130の学習に用いた。各モデルに対して、MEMの学習のための繰返数及びMEMを平滑化するためのガウシアンによる事前確率を、開発データを用いて調整した。さらに、ハイブリッドモデルのための定数αを選択するためにも開発データを使用した。αの値を変化させて開発データを用いてモデルの性能を評価し、ハイブリッドモデルの各々について、もっともよい性能を示した定数αを選択した。なお、この実験では、英語の書記素から英語の音素を得る条件確率P(E|E)は、CMU発音辞書(120,000語所収)を用いた。
なお、字訳のための確率モデル130として、上記したように英語側の情報と中国語の音声とを組み合わせたものだけではなく、中国語の音素を使用しないもの、中国語の音素を使用するが、字訳の推定の際には英語から得られた情報とは組み合わせないものも作成し、これらの性能を比較した。これらモデルM(x、y)は以下のように表現する。
(x、y)∈X×Y
x∈X={E,E,EGP
y∈Y={φ,C,JC
xは英語側の情報を表す。これについては前述したとおりである。yは中国語側の情報を表す。φは字訳の推定にあたって、中国語側の情報を使用しないことを表す。Cは、字訳の推定にあたって、中国語の音素の情報を使用するが、英語側から得られた情報は使用しないことを示す。これらを組み合わせて、たとえば英語の書記素列を中国語の音素列の推定に使用するが、中国語の書記素列の推定にあたっては、中国語の音素列のみを使用するモデルをM(E,C)で表す。ハイブリッドモデルの表記方法は前述したとおりである。
これらは大きく以下の3つのクラスに分類できる。
(1)M:中国語の音素と独立なモデル、すなわち中国語の書記素列の推定に中国語の音素に関する情報を使用しないモデル。
(2)M:中国語の音素を単純に利用して中国語の書記素列を推定するためのモデル。英語の書記素列、音素列に関する情報を使用しない。
(3)M:中国語の書記素列の推定に、中国語の音素に加え、英語の書記素列及び音素列に関する情報を使用するモデル。
これら3つのモデルのうち、M及びMは従来技術に属し、Mは本願実施の形態の考え方によるものである。
各モデルの性能評価は、最高スコアの推定結果の単語精度(ACC)、中国語の発音の精度(CPA)、及び平均相互ランク(MRR)尺度によって行なった。ACCは、各システムの最高スコアの推定結果に、正しい字訳がどれだけ現れるかを測定する。CPAは中国語の発音のN−ベスト中で最高スコアのものの中国語発音の正確さを示す。MRRは、各システムのN−ベストの相互ランクを示し、N−ベストの字訳の精度を評価するものである。あるシステムにより生成された字訳がN−ベストのr番目に位置する基準字訳と一致した場合、その相互ランクは1/rとなる。それ以外の場合、すなわち参照字訳の中にN−ベストの字訳が存在しない場合、その相互ランクは0とする。ただし1≦r≦Nである。本実験では、各英単語について中国語の字訳10個を生成させた。
《結果》
実験結果をテーブル4に示す。
Figure 2011034220
テーブル4において、モデル名「LI04」は、Liらによる非特許文献1に係るモデルである。そのACC値は、非特許文献1からとった。他の18個のモデルは、上に述べたように、本願発明の実施の形態のバリエーションに相当するクラスMの3つのモデル及びそれらの3種のハイブリッドモデル、従来技術に属するクラスMの3つのモデル及びそれらの3種のハイブリッドモデル、並びに従来技術に属するクラスMの3つのモデル及びそれらの3種のハイブリッドモデルである。
ACC、MRR及びCPAは、上記した学習データを用いて学習した各モデルの評価結果を示す。字訳モデルの性能を正しく評価するため、中国語の発音について正しいもの(すなわち正しい音素列)を使用した実験も行なった。正しい中国語の発音を、N−ベストの先頭の発音に、100%の最高確率で挿入した。したがってCPAは100%となっていたはずである。この結果をACC′で示してある。
「学習データ」という見出しは、学習データによって学習した字訳モデルの性能を示す。
さらに、非特許文献1における実験結果との対比を行なうため、Liらが用いた学習データと同じデータを用いて学習した字訳モデルを作成し、これらの性能も測定した。Liらの用いた学習データは、上記した実施の形態における学習データと開発データとの和集合なので、上のテーブル4では「学習データ+開発データ」という見出しの下にこの条件での測定結果ACC,MRR,CPA及びACC′を示す。
テーブル6を参照して、ハイブリッドでないモデル(基本モデルと呼ぶ。)とハイブリッドモデルとの性能を比較すると、ハイブリッドモデルの方が高い性能を示すことがわかる。例外はM(E+E,y,α)である。しかしこのモデルでも、他の基本モデルとほぼ同等の性能が得られている。特に、M(E+EGP,y,α)が最も高い性能を示している。
クラスM,M及びMに属するモデルを比較すると、中国語の音素に関する情報は、英語の書記素及び音素とともに用いて中国語の字訳を推定するときには、モデルの性能向上に寄与していることが分かる。One−tailed Paired t−テストをMモデルとMモデルとの間で行なうことにより、英語側のパラメータとして同じものを用いた場合で比較すると、Mモデルによる結果の方が常にMモデルによるものをかなり上回っていることが分かる(有意度=0.001)。
ACCの値とCPAの値とを比較すると、クラスMJによる中国語字訳の生成では、クラスMSによる生成と比較して音素から書記素への変換誤りが少なくなっていることが分かる。ACC′の値を見ると、中国語の音素列が全て正しく推定されたとした場合でも、クラスMによる字訳はクラスMによる字訳より精度が高い。
これらの結果から、中国語の音素列に加え、英語の書記素列及び/又は音素列の情報も使用して中国語の音素列から中国語の書記素列を推定することにより、英語から中国語への字訳の精度が大幅に向上することが分かった。
<コンピュータによる実現>
上述の実施の形態は,コンピュータシステムと、当該システム上で実行されるコンピュータプログラムとによって実現可能である。図9はこれら実施の形態で用いられるコンピュータシステム550の外観を示し、図10はコンピュータシステム550のブロック図である。ここで示すコンピュータシステム550は単なる例示であって、さまざまな他の構成が利用可能である。
図9を参照して、コンピュータシステム550は、コンピュータ560と、モニター562と、キーボード566と、マウス568と、スピーカ558と、マイクロフォン590とを含む。さらに、コンピュータ560は、DVD(Digital Versatile Disc)ドライブ570及び半導体メモリポート572を含む。
図10を参照して、コンピュータ560はさらに、DVDドライブ570及び半導体メモリポート572に接続されたバス586と、上述した字訳システム70を実現するコンピュータプログラムを実行するためのCPU(Central Processing Unit)576と、コンピュータ560の起動プログラムなどを記憶するROM(Read−Only Memory)578と、CPU576によって使用される作業領域及びCPU576によって実行されるプログラムの記憶領域を提供するRAM(Random Access Memory)580と、対照データ100、アライメント用テーブル102−106、アライメント済対照データ110、学習データ114、120及び122、確率モデル130、132及び134、並びに処理途中で一時的に作成されるデータを記憶するためのハードディスク(HD)574と、コンピュータ560にネットワーク552との接続を提供するためのネットワークインターフェース(I/F)596とを含み、これらは全てバス586に接続されている。
上述の実施の形態に係る字訳システム70を実現するソフトウェアはDVD582又は半導体メモリ584等の記憶媒体に記憶されたオブジェクトコードの形で流通し、DVDドライブ570又は半導体メモリポート572等の読出装置を介してコンピュータ560に提供され、ハードディスク574に記憶される。CPU576がプログラムを実行する際には、プログラムはハードディスク574から読出されてRAM580に記憶される。図示しないプログラムカウンタによって指定されたアドレスから命令がフェッチされ、CPU576によりその命令が実行される。CPU576はハードディスク574から処理すべきデータを読出し、処理の結果をこれもまたハードディスク574に記憶する。
コンピュータシステム550の一般的動作は周知であるので、ここでは詳細な説明は行なわない。
ソフトウェアの流通の方法に関して、ソフトウェアは必ずしも記憶媒体上に固定されたものでなくてもよい。例えば、ソフトウェアはネットワーク552に接続された別のコンピュータから配布されてもよい。ソフトウェアの一部がハードディスク574に記憶され、ソフトウェアの残りの部分はネットワークを介してハードディスク574に取込み、実行の際に統合する様にしてもよい。
典型的には、現代のコンピュータはコンピュータのオペレーティングシステム(OS)によって提供される汎用の関数を利用し、所望の目的に従って制御された態様でこれら関数を実行する。従って、OS又は第3者から提供されうる汎用関数を含まず、一般的な関数の実行順序の組み合わせのみを指定したプログラムであっても、そのプログラムが全体として所望の目的を達成する制御構造を有する限り、そのプログラムがこの発明の範囲に包含されることは明らかである。
また、プログラムは必ずしもオブジェクトコード形式でなくともよい。コンピュータシステム550にコンパイラが存在する場合には、ソースコードで提供されたプログラムをコンパイルしてオブジェクトコードとすることで、上記した処理を実現するオブジェクトプログラムが得られる。
コンピュータシステム550に特定の言語のスクリプトの実行系が備えられている場合、プログラムはスクリプト形式でこのコンピュータに提供されてもよい。複数個のスクリプトにより上記した処理が実現される場合、それらスクリプトがどこに存在しているかにかかわらず、それらをまとめてコンピュータシステム550に格納可能とするようなサービスをたとえばネットワーク上で提供した場合、そうしたサービスは本発明の実施に相当する。
さらに、プログラムを分割可能な複数個のユニットに分割し、それらを別々のコンピュータで実行することで、上記した処理を実現する場合にも、本発明の実施に相当することはいうまでもない。
<第2の実施の形態>
上記した第1の実施の形態は、英語の書記素列から中国語の書記素列への変換に関するものであった。しかし、本願発明は英語から中国語への書記素の変換のみに適用可能なわけではない。任意の言語の組み合わせに対して上記第1の実施の形態と同様に字訳システムを構築することができる。さらに、上記した第1の実施の形態では、字訳のための確率モデルとしてMEMを使用した。しかし、すでに述べたように、確率モデルとしてはMEMに限らず、CRF及びMIRAを使用することもできる。
この第2の実施の形態は、ソース側言語の書記素列からターゲット側言語の音素列を推定し、さらにソース言語側の書記素列とターゲット言語側の音素列との双方に基づいてターゲット言語の書記素列を推定するシステムであって、さらに、使用する確率モデルの種類が異なるものを組み合わせることにより、字訳システムの精度を向上させたシステムに関するものである。
以下の説明では、対比のために、ソース言語側の書記素列から直接にターゲット言語側の書記素列を推定するための、従来技術に相当するモデルをTM−Gと呼び、ソース言語側の書記素列からターゲット言語側の音素列を推定し、その後にターゲット言語側の音素列とソース言語側の書記素列との双方の情報を用いてターゲット言語の書記素列を推定するための、第2の実施の形態のシステムで使用するモデルをTM−GPと呼ぶ。TM−G及びTM−GPの各々について、確率モデルとしてCRF,MIRA及びMEMを用いたものを組み合わせ、精度がどのように変化するかを説明する。
ソース言語の単語をS,単語Sに対するターゲット言語の字訳をTで表す。Tは2通りの方法で表すことができる。第1はターゲット言語の書記素列であり、これをTで表す。第2はターゲット言語の音素列であり、これをTで表す。ここでは、ターゲット言語の書記素をターゲット言語の文字と定義する。ターゲット言語の書記素のローマ字表記における子音部及び母音部を、それぞれターゲット言語の音素とみなす。すると、TM−G及びTM−GPはそれぞれ次の式(10)及び(11)により定式化される。
Figure 2011034220
素性として、上記3種類のモデルのいずれに対しても、処理対象となっている書記素又は音素の前後3つのコンテキスト・ウィンドウから得られる以下の情報を用いた。
(1)左3つ、及び右3つのソース言語の書記素(又は音節)
(2)左3つ、及び右3つのターゲット言語の音素
(3)ソース言語側の直前の3つの書記素に割り当てられたターゲット言語の書記素(又は音節)。
本実施の形態では、複数の字訳エンジンの結果を組み合わせることで、各字訳エンジンによる精度より高い精度で字訳の推定を行なう。以下の説明では、ソース言語の字訳ユニットと、字訳モデルと、機械学習アルゴリズムをテーブル5に示すように種々に組み合わせた。
Figure 2011034220
ここでは、これら組み合わせに係る字訳エンジンをそれぞれ、CRF−G,MEM−G,MEM−GP,及びMIRA−Gと名づける。ハイフンの前段は使用されている機械学習アルゴリズムの名前であり、後段は字訳モデルの型を示す。
以下の説明では、あるソース言語とターゲット言語との組み合わせについて説明する。複数の字訳エンジンの出力を、以下のように再ランキング関数g(x)を用いて組み合わせる。あるソース言語の単語sに対して4つの字訳エンジンが出力したターゲット言語への字訳結果の集合をXとし、単語sに対する基準字訳をrefとする。再ランキング関数g(x)は以下の式(12)により定義される。
Figure 2011034220
再ランキング関数g(x)として、各字訳エンジンによるランクと使用する機械学習アルゴリズムとを用いて定義された2種類を用いる。
(1)各字訳エンジンによるランクを用いた再ランキング
ここでは、各字訳エンジンによるランクを用いた2つの再ランキング関数grank及びgFscoreを用いて各エンジンの出力を組み合わせる。同じ入力に対するN個の字訳エンジンの出力の集合をXとする。grank(x)はx∈Xを次の式(13)により示される方法により再ランキングする。式(13)において、Ranki(x)はi番目の字訳エンジンにより生成されたN−ベストリスト中における字訳xの順位を示す。
Figure 2011034220
再ランキング関数grankは、各字訳エンジンの出力におけるxの平均順位を示すものと考えることができる。なお、式(13)の計算において、xがi番目の字訳エンジンのN−ベスト出力内に存在しない場合には、rank(x)=0とする。
Fscore(x)は、grank(x)及びFスコアを用いて計算される。ここでは、各字訳エンジンの上位3個の出力を基準字訳と見なし、「仮想基準字訳」と呼ぶ。この仮想基準字訳と、複数の字訳エンジンの出力の各々との間のFスコアを計算する。gFscore(x)は次の式(14)により定義される。
Figure 2011034220
Fスコアを書記素列の類似度によって計算するので、xが仮想基準字訳に似ているときにはGFscore(x)によるxのスコアは高くなる。
(2)機械学習アルゴリズムによる再ランキング
再ランキング関数GME(x)の学習をMEMによって行なう。refがソース言語の単語sの基準字訳、feature(x)をx∈Xの素性ベクトル、y∈{ref,wrong}をxのための学習ラベルとする。
ME(x)はx∈Xに対して次の式(15)にしたがって確率を割り当てる。
ME(x)=P(ref|feature(x)) (15)
xの素性ベクトルはgrank(x),gFscore(x),1/Rank(x),及びP(T|S)を含む。ただし、各字訳エンジンの1/Rank(x)及びP(T|S)を素性として用いる。
P(ref|feature(x))は、開発データを用いて推定する。
《実験結果》
Figure 2011034220
テーブル6は各字訳エンジンのACCの値を示す。「NEWS 2009 Machine Transliteration Shared Task」で使用される全言語の組み合わせ(参考:https://translit.i2r.a-star.edu.sg/news2009/whitepaper/)に対するテスト結果である。テーブル6で使用されている言語の組み合わせの略号は以下を表す。
EnCh:ソース言語=英語、ターゲット言語=中国語
EnJa:ソース言語=英語、ターゲット言語=日本語カタカナ
EnKo:ソース下後=英語、ターゲット言語=韓国語(ハングル)
JnJk:ソース言語=日本語固有名詞(英語表記)、ターゲット言語=日本語漢字
EnHi:ソース言語=英語、ターゲット言語=ヒンディー語
EnTa:ソース言語=英語、ターゲット言語=タミル語
EnKa:ソース言語=英語、ターゲット言語=カナラ語
EnRu:ソース言語=英語、ターゲット言語=ロシア語
テーブル6より、EnKa,EnKo及びEnRuにおいてはCRF−Gが最もよい性能を示した。学習コストが高いため、EnChについてはごく少ない繰返回数の学習しか行なわなかった。そのためか、EnChにおいてはCRF−Gの性能は他のモデルの性能より劣っている。EnCh,EnHi,EnJa及びEnTaではMEM−GPが最もよい性能を示した。
この結果から、ソース言語の書記素とターゲット言語の音素とを組み合わせてターゲット言語の書記素を推定すると、字訳システムの性能は改善されることが分かる。
MIRA−Gは学習データのサイズの影響を敏感に受ける。そのため、学習データが豊富だったEnCh及びEnJAにおいてMIRA−Gは比較的よい性能を示した。JnJkに対してはCRF−Gを適用することはできなかった。学習時間が長すぎたためである。同様にMEM−GPをJnJkに適用することもできない。なぜなら、JnJkにおける字訳は、ターゲット言語の音素をターゲット言語の書記素に変換することと同じと見なすことができるためである。JnJkについてはMEM−GとMIRA−Gとしか適用できず、その中ではMIRA−Gの性能が高かった。
Figure 2011034220

テーブル7は、各言語の組み合わせ別に、複数の字訳エンジンの結果を組み合わせた字訳システム(grank,gFscore,gME)と、個々の字訳エンジンのうちで最も性能の高かったもの(1−BEST)との結果を示す。
テーブル7から分かるように、gMEはEnCh,EnHi,EnJa,EnKoの組み合わせで最も高い性能を示した。gFscoreは、EnCh,EnKa,EnRu,EnTaの組み合わせで最も高い性能を示した。
1−BESTとgrank,gFscore,gMEとを比較すると、grank及びgMEは、EnRuを除き1−BESTより常に高い性能を示している。gFscoreはEnKoで1−BESTより劣った性能しか得られなかったが、他ではこれも1−BESTより優れた性能を示している。
以上の結果から、異なるアルゴリズムで学習した確率モデルを組み合わせて得られたモデルを使用した場合、各モデルを単独で使用した場合と比較するとほぼ全ての場合で性能の向上が得られることが分かる。
以上のように本発明によれば、ターゲット言語の音素列からターゲット言語の書記素列を推定するに当たり、ターゲット言語の音素列の情報だけではなく、ターゲット言語の書記素列及び/又はターゲット言語の音素列の情報を同時に用いる。このような情報を用いてターゲット言語の書記素列を推定することにより、音素列のみを使用した場合と比較すると高い精度でターゲット言語の書記素列が推定できる。さらに、複数種類のアルゴリズムで学習した確率モデルを組み合わせることにより、さらに高い精度で書記素列を推定することができる。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。
30,84 英語の書記素列
32 英語の音素列
34 中国語の音素列
36 中国語の書記素列
50,52,54 グループ
70 字訳システム
80 学習部
82 字訳部
86 中国語文字列
100 対照データ
102,104,106 アライメント用テーブル
108 アライメント部
112,118,138 素性抽出部
114,120,122 学習データ
116,124,126 学習部
130,132,134 確率モデル
136 音素列推定処理部
140 文字列推定部

Claims (7)

  1. ソース言語の書記素列からターゲット言語の書記素列を推定する字訳装置であって、
    前記ソース言語の書記素列から、前記ターゲット言語の音素列を推定するためのターゲット言語音素列推定手段と、
    前記ソース言語の書記素列若しくは音素列、又は前記ソース言語の書記素列及び音素列と、前記音素列推定手段により推定された前記ターゲット言語の音素列とから、前記ターゲット言語の書記素列を推定するためのターゲット言語書記素列推定手段とを含む、字訳装置。
  2. 前記ターゲット言語書記素列推定手段は、
    前記ソース言語の書記素列若しくは音素列、又は前記ソース言語の書記素列及び音素列と、前記ターゲット言語の音素列とから、前記ソース言語の書記素列に関連する所定の素性ベクトル列を算出するための第1の素性算出手段と、
    前記第1の素性算出手段により出力された前記素性ベクトル列を受け、当該素性ベクトル列に対応する確率が最も高い前記ターゲット言語の書記素列を、予め学習済の確率モデルによる確率計算によって決定するための手段とを含む、請求項1に記載の字訳装置。
  3. 前記確率モデルは、
    前記第1の素性算出手段により出力された前記素性ベクトルの要素のうち、前記ソース言語の書記素列及び前記ターゲット言語の音素列から得られた素性が与えられると、前記ターゲット言語の各書記素に対する確率を与えるための第1の確率モデルと、
    前記第1の素性算出手段により出力された前記素性ベクトルの要素のうち、前記ソース言語の書記素列及び音素列、並びに前記ターゲット言語の音素列から得られた素性が与えられると、前記ターゲット言語の各書記素に対する確率を与えるための第2の確率モデルとを、
    所定の割合α(0<α<1)で混合した確率モデルを含む、請求項2に記載の字訳装置。
  4. 前記決定するための手段は、
    各々が、前記第1の素性算出手段により出力された前記素性ベクトル列を受け、当該素性ベクトル列に対応する確率が最も高い前記ターゲット言語の書記素列を、予め学習済の確率モデルによる確率計算によって決定するための複数の確率算出手段と、
    前記複数の確率算出手段によりそれぞれ決定された複数の書記素列を再ランキングすることにより、前記ソース言語の書記素列に対応する可能性が最も高いターゲット言語の書記素列を決定するための手段とを含む、請求項2に記載の字訳装置。
  5. 前記複数確率算出手段の確率モデルは、互いに異なる機械学習アルゴリズムにより学習済である、請求項4に記載の字訳装置。
  6. コンピュータにより実行されると、当該コンピュータを、請求項1−請求項5のいずれかに記載の字訳装置として動作させる、コンピュータプログラム。
  7. 請求項6に記載のコンピュータプログラムを記録した、コンピュータ読取可能な記録媒体。
JP2009178137A 2009-07-30 2009-07-30 字訳装置、コンピュータプログラム及び記録媒体 Expired - Fee Related JP5500624B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009178137A JP5500624B2 (ja) 2009-07-30 2009-07-30 字訳装置、コンピュータプログラム及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009178137A JP5500624B2 (ja) 2009-07-30 2009-07-30 字訳装置、コンピュータプログラム及び記録媒体

Publications (2)

Publication Number Publication Date
JP2011034220A true JP2011034220A (ja) 2011-02-17
JP5500624B2 JP5500624B2 (ja) 2014-05-21

Family

ID=43763251

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009178137A Expired - Fee Related JP5500624B2 (ja) 2009-07-30 2009-07-30 字訳装置、コンピュータプログラム及び記録媒体

Country Status (1)

Country Link
JP (1) JP5500624B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021501903A (ja) * 2017-09-27 2021-01-21 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 異なる言語にわたる書記素・音素間の変換のための方法、コンピュータ・システム及びコンピュータ・プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005092682A (ja) * 2003-09-19 2005-04-07 Nippon Hoso Kyokai <Nhk> 翻字装置、及び翻字プログラム
JP2007109233A (ja) * 2005-10-09 2007-04-26 Toshiba Corp 音訳モデル及び構文解析統計モデルを訓練するための方法及び装置、及び音訳のための方法及び装置
JP2009157888A (ja) * 2007-12-28 2009-07-16 National Institute Of Information & Communication Technology 音訳モデル作成装置、音訳装置、及びそれらのためのコンピュータプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005092682A (ja) * 2003-09-19 2005-04-07 Nippon Hoso Kyokai <Nhk> 翻字装置、及び翻字プログラム
JP2007109233A (ja) * 2005-10-09 2007-04-26 Toshiba Corp 音訳モデル及び構文解析統計モデルを訓練するための方法及び装置、及び音訳のための方法及び装置
JP2009157888A (ja) * 2007-12-28 2009-07-16 National Institute Of Information & Communication Technology 音訳モデル作成装置、音訳装置、及びそれらのためのコンピュータプログラム

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNG200701241024; 黄 海湘 外2名: '中国語への翻字における確率的な漢字選択手法' 電子情報通信学会論文誌 第J90-D巻 第10号, 20071001, P.2914-2923, 社団法人電子情報通信学会 *
CSNG200900279021; 後藤 功雄 外4名: '部分文字列への最適な分割と文脈を考慮した変換による翻字処理' 電子情報通信学会論文誌 第J92-D巻 第6号, 20090601, P.909-920, 社団法人電子情報通信学会 *
JPN6013032411; 黄 海湘 外2名: '中国語への翻字における確率的な漢字選択手法' 電子情報通信学会論文誌 第J90-D巻 第10号, 20071001, P.2914-2923, 社団法人電子情報通信学会 *
JPN6013032413; 後藤 功雄 外4名: '部分文字列への最適な分割と文脈を考慮した変換による翻字処理' 電子情報通信学会論文誌 第J92-D巻 第6号, 20090601, P.909-920, 社団法人電子情報通信学会 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021501903A (ja) * 2017-09-27 2021-01-21 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 異なる言語にわたる書記素・音素間の変換のための方法、コンピュータ・システム及びコンピュータ・プログラム
JP7129137B2 (ja) 2017-09-27 2022-09-01 インターナショナル・ビジネス・マシーンズ・コーポレーション 異なる言語にわたる書記素・音素間の変換のための方法、コンピュータ・システム及びコンピュータ・プログラム

Also Published As

Publication number Publication date
JP5500624B2 (ja) 2014-05-21

Similar Documents

Publication Publication Date Title
JP6493866B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US9176936B2 (en) Transliteration pair matching
US7881928B2 (en) Enhanced linguistic transformation
US8719006B2 (en) Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US20110184723A1 (en) Phonetic suggestion engine
US20110071817A1 (en) System and Method for Language Identification
US20100076746A1 (en) Computerized statistical machine translation with phrasal decoder
US20080027725A1 (en) Automatic Accent Detection With Limited Manually Labeled Data
Sitaram et al. Speech synthesis of code-mixed text
JP2008216756A (ja) 語句として新たに認識するべき文字列等を取得する技術
Sitaram et al. Experiments with Cross-lingual Systems for Synthesis of Code-Mixed Text.
Scherrer et al. Modernising historical Slovene words
JP5524138B2 (ja) 同義語辞書生成装置、その方法、及びプログラム
JP4738847B2 (ja) データ検索装置および方法
US20090240501A1 (en) Automatically generating new words for letter-to-sound conversion
JP7102710B2 (ja) 情報生成プログラム、単語抽出プログラム、情報処理装置、情報生成方法及び単語抽出方法
JP5500624B2 (ja) 字訳装置、コンピュータプログラム及び記録媒体
JP2022121456A (ja) 処理プログラム、処理方法および情報処理装置
JP2009157888A (ja) 音訳モデル作成装置、音訳装置、及びそれらのためのコンピュータプログラム
Núñez et al. Phonetic normalization for machine translation of user generated content
JP3961858B2 (ja) 翻字装置及びそのプログラム
CN117094329B (zh) 一种用于解决语音歧义的语音翻译方法及装置
JP6763527B2 (ja) 認識結果補正装置、認識結果補正方法、およびプログラム
Hatori et al. Predicting word pronunciation in Japanese
US11080488B2 (en) Information processing apparatus, output control method, and computer-readable recording medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120619

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130606

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130702

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130829

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140306

R150 Certificate of patent or registration of utility model

Ref document number: 5500624

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees