JP2011034220A

JP2011034220A - 字訳装置、コンピュータプログラム及び記録媒体

Info

Publication number: JP2011034220A
Application number: JP2009178137A
Authority: JP
Inventors: Jong Hoon Oh; 鍾勲呉; Seiki Uchimoto; 清貴内元; Kentaro Torisawa; 健太郎鳥澤
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2009-07-30
Filing date: 2009-07-30
Publication date: 2011-02-17
Anticipated expiration: 2029-07-30
Also published as: JP5500624B2

Abstract

【課題】ある言語の単語の書記素列を、別の第２の言語の書記素列に精度高く変換できる字訳装置を提供する。
【解決手段】ソース言語の書記素列から、ターゲット言語の音素列を推定するための音素列推定部１３６と、ソース言語の書記素列若しくは音素列、又はソース言語の書記素列及び音素列と、音素列推定処理部１３６」により推定されたターゲット言語の音素列とから、ターゲット言語の書記素列（文字列）を推定するための文字列推定部１４０とを含む。ターゲット言語の音素列から書記素列の推定に、ソース言語の書記素列又は音素列の情報を利用することで推定精度を高めることができる。
【選択図】図４

Description

この発明はある言語から他の言語への字訳技術に関し、特に、ある言語の書記素列から他の言語の対応書記素列を精度高く推定できる字訳技術に関する。

字訳、すなわち音訳は、固有名詞及び技術用語などの翻訳においてよく用いられる。たとえば中国語と英語との間での字訳技術についてはこの１０年程度の間に複数個提案されている。それらの提案は複数個に分類することができる。この分類を、図１を参照して説明する。

図１を参照して、英語の書記素列３０から中国語の書記素列３６を得るのが英語から中国語への字訳の課題である。英語の書記素列３０が与えられると、英語の書記素列３０から中国語の書記素列３６を推定するいくつかの方法が試みられている。

第１は、英語の書記素列３０から英語の音素列３２を推定し、英語の音素列３２からさらに中国語の音素列３４を推定し、この中国語の音素列３４から中国語の書記素列３６を推定する方法である。第２は、英語の書記素列３０から中国語の音素列３４を推定し、中国語の音素列３４から中国語の書記素列３６を推定する方法である。いずれの方法でも、最終的には中国語の音素列３４から中国語の書記素列３６が推定される。推定には、予め準備したデータを用いて学習した、ＭＥＭ（ＭａｘｉｍｕｍＥｎｔｒｏｐｙＭｏｄｅｌ），ＣＲＦ（ＣｏｎｄｉｔｉｏｎａｌＲａｎｄｏｍＦｉｅｌｄｓ）などが用いられる。

これら方法では、最終的に中国語の音素列３４から中国語の書記素列３６が推定される。しかしこの推定の精度は低く、満足できる程度に達していないことが知られている。これは、中国の音素列を単純に用いるだけでは、中国語の書記素列を得るために十分な情報が得られるとは限らないためである。

これを、図２を参照して説明する。図２は、英語の「Ｇｒｅｅｌｅｙ」という後を中国語に字訳した例を示す。図２では、中国語の音素は中国語のピンイン列で表され、英語の音素はＡＲＰＡｂｅｔ符号で表されている。なおＡＲＰＡｂｅｔ符号についてはhttp://www.cs/edu/~laura/pages/arpabet.psを参照されたい。ピンインは、中国語をローマ字標記するシステムとして最も普及している標記方法である。ピンインは中国語の音素及び音節を忠実に表している。

図２において、英語の「ｒｅｅ」は英語の音素では「ＲＩＹ」と表され、「ｌｅｙ」は「ＬＩＹ」と表される。これら音素に対応するピンインはいずれも「ＬＩ」である。ピンイン「ＬＩ」は中国語の異なる２つの文字「里」及び「利」に対応する。これら２つの文字は異なる音声を表す。これらのうちいずれの文字を選択すべきかは、図２に示す中国語の音素列「ＧＥＬＩＬＩ」からだけでは判断できない。

ＨａｉｚｈｏｕＬｉ他、「機械字訳のための複合ソースチャネルモデル」、ＡＣＬ‘０４予稿集、２００４、ｐｐ．１６０−１６７（ＨａｉｚｈｏｕＬｉ，ＭｉｎＺｈａｎｇ，ａｎｄＳｕＪｉａｎ．２００４．Ａｊｏｉｎｔｓｏｕｒｃｅ−ｃｈａｎｎｅｌｍｏｄｅｌｆｏｒｍａｃｈｉｎｅｔｒａｎｓｌｉｔｅｒａｔｉｏｎ．ＩｎＰｒｏｃｅｅｄｉｎｇｓｏｆＡＣＬ ’０４，ｐｐ．１６０−１６７）

上記した問題を解決するために、非特許文献１は、英語の書記素列３０から直接に中国語の書記素列３６を推定する方法を提案している。非特許文献１の手法により、中国語の書記素列３６の精度は従来よりも高くなったことが報告されている。

しかし、この手法でも精度は単語単位では７０％程度しかなく、英語から中国語への字訳システムの精度として満足のいくものではない。

このような問題は、言語の組み合わせにかかわらず存在する。たとえば日本語と英語、日本語と中国語との間でも生じ得る。

情報検索の分野では、他言語の固有名詞又は技術用語を、操作者の言語に自動的に変換して検索することができれば便利である。このときの変換が適切でないと検索の精度が低下したり、検索漏れが生じたりする。自動翻訳システムでは、辞書に存在しない固有名詞又は技術用語を、その音を生かして字訳することができれば、少なくとも言語のままその単語を出力するよりも適切な翻訳結果が得られる可能性が高い。

したがって、ある言語の単語の書記素列を別言語の書記素列に適切に字訳する、精度の高いシステムが必要である。

それゆえに本発明の目的は、第１の言語の単語の書記素列を、第１の言語とは別の第２の言語の書記素列に精度高く変換できる字訳装置を提供することである。

本発明の第１の局面に係る字訳装置は、ソース言語の書記素列からターゲット言語の書記素列を推定する字訳装置であって、ソース言語の書記素列から、ターゲット言語の音素列を推定するためのターゲット言語音素列推定手段と、ソース言語の書記素列若しくは音素列、又はソース言語の書記素列及び音素列と、音素列推定手段により推定されたターゲット言語の音素列とから、ターゲット言語の書記素列を推定するためのターゲット言語書記素列推定手段とを含む。

ターゲット言語音素列推定手段は、ソース言語の書記素列が与えられると対応するターゲット言語の音素列を推定する。ターゲット言語書記素列推定手段は、ソース言語の書記素列とターゲット言語の音素列、ソース言語の音素列とターゲット言語の音素列、又はソース言語の書記素列と音素列及びターゲット言語の音素列が与えられると、これらから、ターゲット言語の書記素列を推定する。

従来は、ターゲット言語の音素列のみからターゲット言語の書記素列を推定するか、ソース言語の書記素のみから直接ターゲット言語の書記素を推定している。こうした従来技術と比較すると、上記したようにターゲット言語の音素列からターゲット言語の書記素列を推定するにあたり、ターゲット言語の音素列だけでなく、ソース言語の書記素列若しくは音素列、又はそれらの組み合わせを一緒に用いることで、ターゲット言語の書記素列がより高い精度で推定できることが実験により判明した。その結果、第１の言語の単語の書記素列を、第１の言語とは別の第２の言語の書記素列に精度高く変換できる字訳装置を提供できる。

好ましくは、ターゲット言語書記素列推定手段は、ソース言語の書記素列若しくは音素列、又はソース言語の書記素列及び音素列と、ターゲット言語の音素列とから、ソース言語の書記素列に関連する所定の素性ベクトル列を算出するための第１の素性算出手段と、第１の素性算出手段により出力された素性ベクトル列を受け、当該素性ベクトル列に対応する確率が最も高いターゲット言語の書記素列を、予め学習済の確率モデルによる確率計算によって決定するための手段とを含む。

確率モデルを用いることにより、既存の確率モデルによる確率計算の手法を利用してターゲット言語の書記素列を推定できる。

より好ましくは、確率モデルは、第１の素性算出手段により出力された素性ベクトルの要素のうち、ソース言語の書記素列及びターゲット言語の音素列から得られた素性が与えられると、ターゲット言語の各書記素に対する確率を与えるための第１の確率モデルと、第１の素性算出手段により出力された素性ベクトルの要素のうち、ソース言語の書記素列及び音素列、並びにターゲット言語の音素列から得られた素性が与えられると、ターゲット言語の各書記素に対する確率を与えるための第２の確率モデルとを、所定の割合α（０＜α＜１）で混合した確率モデルを含む。

このように、複数個の確率モデルを定数αで混合した確率モデルを用いると、各モデルを単独で使用したときと比較して、より推定の精度を高めることができる。

決定するための手段は、各々が、第１の素性算出手段により出力された素性ベクトル列を受け、当該素性ベクトル列に対応する確率が最も高いターゲット言語の書記素列を、予め学習済の確率モデルによる確率計算によって決定するための複数の確率算出手段と、複数の確率算出手段によりそれぞれ決定された複数の書記素列を再ランキングすることにより、ソース言語の書記素列に対応する可能性が最も高いターゲット言語の書記素列を決定するための再ランキング手段とを含んでもよい。

再ランキング手段は、複数の確率モデルにより別々に算出された書記素列の候補をさらにランキングして最も可能性の高い書記素列を決定する。このようにすると、確率モデルを単独で使用するときと比較して、書記素列の推定精度を高めることができる。

この場合、複数確率算出手段の確率モデルは、互いに異なる機械学習アルゴリズムにより学習済であることが好ましい。互いに異なる機械学習アルゴリズムで学習した確率モデルにより算出された書記素列は、互いに異なる特性によりターゲット言語の書記素列を推定したものとなる。これらを再ランキングするため、同一の機械学習アルゴリズムを用いた場合と比較して、推定上の弱点が少なくなり、書記素列の推定精度を高めることができる。

本発明の第２の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを、上記したいずれかの字訳装置として動作させる。

本発明の第３の局面に係る記録媒体は、上記したコンピュータプログラムを記録した、コンピュータ読取可能な記録媒体である。

英語の書記素から中国語の書記素を推定する過程を模式的に示す図である。英語の書記素と音素、及び中国語のピンインと文字との対応関係を表形式で示す図である。本発明の第１の実施の形態に係る字訳システムにおける素性の構成を説明するための図である。本発明の第１の実施の形態に係る字訳システム７０の概略構成を示すブロック図である。本発明の第１の実施の形態に係る字訳システムにおいて、英語と中国との書記素列をアライメントするアライメント部１０８（図４）を実現するためのプログラムの制御構造を示すフローチャートである。アライメント後の英語の書記素列及び音素列、並びに中国の書記素列と文字列との対応関係を示す図である。字訳システム７０において、入力された英語の書記素列から英語の音素列及び中国語の音素列を推定する音素列推定処理部１３６を実現するためのプログラムのフローチャートである。アライメント部１０８におけるアライメントの方法を説明するための図である。字訳システム７０を実現するためのコンピュータシステム５５０の外観を示す図である。図９に示すコンピュータシステム５５０のハードウェア構成を示すブロック図である。

以下、本発明を実施するための形態について説明する。なお以下の説明及び図面において、同一の部品には同一の参照番号を付してある。それらの名称及び機能も同一である。したがってそれらについての詳細な説明は繰返さない。

なお、以下に説明する第１の実施の形態は、本発明を英語と中国語との組み合わせに適用した例である。しかし本発明はそのような言語の組み合わせに限定されるわけではなく、任意の言語の組み合わせ、たとえば英語と日本語、日本語と中国語、及び英語とドイツ語などに適用可能であることはいうまでもない。

＜第１の実施の形態＞
図２に示す例では、中国語のピンイン「ＬＩ」だけから対応する文字を決定することはむずかしい。しかし、ピンインに対応する英語の音素（「ＲＩＹ」及び「ＬＩＹ」）を考慮すると、どの文字を採用すべきかは容易に分かる。すなわち、中国語の音素だけではなく、英語の音素まで考慮すると中国語の文字を判定するための材料がより豊富になり、文字を正確に予測することが可能になる。同様の事情が英語の書記素列に対しても成立する。すなわち、図３を参照して、中国語の音素３４だけではなく、「英語の音素３２及び中国語の音素３４」からなるグループ５２、「英語の書記素３０、音素３２及び中国語の音素３４」からなるグループ５０、又は「英語の書記素３０及び中国語の音素３４」からなるグループ５４を文字判定のための判定材料とすることにより、中国語の音素のみから中国語の書記素を推定する場合よりも推定精度が高くなるはずである。本実施の形態は、そうした知見に基づいている。以下の説明では、このうちのグループ５０を用いて中国語の書記素３６を推定する場合を例にとる。

図４は、この実施の形態に係る字訳システム７０の概略構成を示すブロックである。図４を参照して、字訳システム７０は、予め準備された英語と中国語との対照データ１００に基づいて、英語の書記素列８４が与えられると、上記したグループ５０に属する情報から得られた素性を入力として、中国語文字列８６を推定するための確率モデル（ＭＥＭ，ＣＲＦなど）の学習を行なうための学習部８０と、学習部８０により学習が行なわれた確率モデル１３０を含み、英語の書記素列８４が与えられるとこの確率モデル１３０を用いて中国語文字列８６を推定するための字訳部８２とを含む。

対照データ１００は、英単語の書記素列と、その音素列と、中国語の音素列（ピンイン）と、中国語の書記素列とを含む。これらは人手で予めアライメントしてもよいが、このように４つのデータをアライメントするのは大変である。人手でアライメントする場合にはアライメント自体に多くの労力が必要とされる。確率モデルの精度を高めるためには、多くの対照データを準備する必要があり、人手でこれら対照データのアライメントを全て行なうのはきわめて困難である。

そこで、学習部８０は、自動的に対照データ１００のアライメントを行なう。実は、このアライメントを自動的に行なう作業が極めてむずかしい。そのため、仮に図３に示すグループ５０の情報を元に確率モデルの学習を行なおうとしても、実際上は不可能であった。本実施の形態では、上記したアライメントを３つの部分に分け、アライメントが完成した後に、それら３つのアライメント結果を統合する。この際には、音素がキーとなる。

学習部８０は、対照データ１００を記憶する記憶部と、対照データ１００の各々に対し、英語書記素列と英語音素列、及び英語音素列と中国語音素列を、それぞれアライメントする処理を行なう際に使用されるアライメント用テーブル１０２及び１０４と、対照データ１００内の各対照データの英語書記素列、英語音素列、中国語ピンイン列、及び中国語の文字列とのアライメントを行ない、アライメント済対照データ１１０を出力するためのアライメント部１０８と、アライメント済対照データ１１０内の各対照データ内の中国語の文字の各々について、所定の素性を算出・抽出し、学習データ１１４として蓄積するための素性抽出部１１２と、アライメント済対照データ１１０内の各対照データ内の英語の音素の各々、及び中国語ピンインの各々について、それぞれ所定の素性を算出・抽出し、学習データ１２０及び１２２として蓄積するための素性抽出部１１８とを含む。

学習データ１２０は英語の書記素列から英語の音素列を推定するための確率モデル１３２の学習を行なうための学習データである。学習データ１２２は、英語の音素列から中国語のピンイン列を推定する確率モデル１３４の学習を行なうための学習データである。

学習部８０はさらに、学習データ１２０を用いて英語の書記素列から英語の音素列を推定するための確率モデル１３２の学習を行なうための学習部１２４と、学習データ１２２を用いて、英語の音素列から中国語のピンイン列を推定するための確率モデル１３４の学習を行なうための学習部１２６と、学習データ１１４を用い、中国語のピンイン列から中国語の文字列の推定を行なう確率モデル１３０の学習を行なうための学習部１１６とを含む。

字訳部８２は、英語の書記素列８４が与えられると、確率モデル１３２を用い、英語の書記素列８４から英語の音素列を推定して出力する処理と、確率モデル１３４を用い、推定された英語の音素列から中国語のピンイン列を推定して出力する処理とを行なうための音素列推定部１３６と、英語の書記素列８４と、音素列推定処理部１３６が出力する英語の音素列及び中国語のピンイン列から後述する所定の素性を算出・抽出するための素性抽出部１３８と、素性抽出部１３８が出力する素性を確率モデル１３０に適用することにより、確率計算に基づいて、英語の書記素列８４に対応するものとして最も確率の高い中国語文字列８６を推定するための文字列推定部１４０とを含む。この確率計算のアルゴリズムとしては、確率モデルを用いる推定システム一般に用いられるものをそのまま使用することができる。

図５は、図４に示すアライメント部１０８を実現するためのプログラムの制御構造を示すフローチャートである。図５を参照して、このプログラムは、対照データ１００に含まれる対照データの各組に対して以下に説明する処理１５２を繰返すステップ１５０を含む。

処理１５２は、処理対象の対照データに含まれる英語の書記素列と、英語の音素列とのアライメントをアライメント用テーブル１０２（図４）を用いて行なうステップ１６０と、ステップ１６０に続き、処理対象の対照データに含まれる英語の音素列と、中国語のピンイン列とのアライメントをアライメント用テーブル１０４（図４）を用いて行なうステップ１６２と、ステップ１６２に続き、中国語のピンイン列と中国語の文字列とのアライメントをアライメント用テーブル１０６（図４）を用いて行なうステップ１６４と、ステップ１６４に続き、ステップ１６０，１６２及び１６４におけるアライメント結果を、音素を軸として互いに組み合わせ、英語書記素列、英語音素列、中国語ピンイン列、及び中国語の文字列の全てのアライメントが行なわれたアライメント後データを生成するステップ１６６と、ステップ１６６に続き、ステップ１６６で生成されたアライメント後データをアライメント済対照データ１１０（図４）に追加して格納するステップ１６８とを含む。

図６に、図２に示す例と同じ例を用いたアライメント済対照データ１１０の構成をテーブル形式で示す。図６に示すテーブルの最上段は英単語の先頭からの書記素の順番を示す。図６において、「Ｅ_Ｇ」は英語の書記素列を、「Ｅ_Ｐ」は英語の音素列を、「Ｃ_Ｐ」は中国語の音素（ピンイン）列を、「Ｃ_Ｇ」は中国語の書記素（文字）列を、それぞれ示す。Ｅ_Ｇはｎ個の英語の書記素を含むものとする。

Ｅ_Ｐ，Ｃ_Ｐ及びＣ_Ｇはいずれも、英語の書記素列ＥＧ内の書記素に対応するように部分文字に分割されている。

・Ｅ_Ｇ＝ｅｇ_１，…，ｅｇ_ｎ＝ｅｇ^ｎ _１
・Ｅ_ｐ＝ｅｐ_１，…，ｅｐ_ｎ＝ｅｐ^ｎ _１
・Ｃ_Ｇ＝ｃｐ_１，…，ｃｐ_ｎ＝ｃｐ^ｎ _１
・Ｃ_Ｇ＝ｃｇ_１，…，ｃｇ_ｎ＝ｃｇ^ｎ _１
ただしｅｇ_ｉ，ｅｐ_ｉ，ｃｐ_ｉ，ｃｇ_ｉはそれぞれ、ｉ番目の英語の書記素と、この書記素に対応するｉ番目の英語の音素、ｉ番目の中国語の音素（ピンイン）、及びｉ番目の中国語の書記素（文字）を、それぞれ示す。

図６を参照して、たとえば英語の単語「ｇｒｅｅｌｅｙ」の２−４番目の書記素列「ｒｅｅ」に対応する音素列は「Ｒ」「ＩＹ」及び「φ」（対応する音素がないことを示す。）である。同様に、５−７番目の書記素列「ｌｅｙ」に対応する音素列は「Ｌ」「ＩＹ」及び「φ」である。

中国語のピンインは、子音と母音とからなる音節を表すので、以下の説明ではピンイン列をさらに子音部と母音部とに分割して考える。すなわち、ピンイン「ＬＩ」は「Ｌ」＋「Ｉ」に、「ＬＩＮ」は「Ｌ」＋「Ｉ」＋「Ｎ」に、「ＳＨＡ」は「ＳＨ」＋「Ａ」に、それぞれ分割される。以下の説明ではまた、中国語のピンイン列のうち、母音及び子音部分をいずれも中国語の「音素」と定義する。たとえば「Ｌ」、「ＳＨ」及び「Ｉ」などである。

中国語の１文字は多くの場合、複数個の英語の書記素、英語の音素、及び中国語の音素に対応する。たとえば図６に示す例では、「里」は英語の書記素「ｒｅｅ」、英語の音素「ＲＩＹ」、及び中国語の音素「ＬＩ」に対応する。こうした多対１の対応関係を表すために、中国語の文字のラベリングにおいてよく用いられるＢＩＯ表記を使用する。すなわち、１文字が文字列内で複数部分に分割された場合を想定し、先頭に相当する部分にはその文字に「Ｂ」を、それ以外の部分にはその文字に「Ｉ」を、それぞれ付して表現する。ここでは「Ｏ」というラベルは使用しない。このような表記を使用すると、中国語の各音素にＢＩＯラベルが付された中国語の文字１文字が対応する。

たとえば、図１の例では、中国語の文字「里」の先頭部分は「里：Ｂ」で表され、それ以外の部分は「里：Ｉ」で表される。これら「里：Ｂ」及び「里：Ｉ」はそれぞれ、「Ｌ」及び「Ｉ」という中国語の音素を表している。

また以下の説明では、中国語の書記素を、ＢＩＯラベルが付された中国語の文字と定義する。すなわち、「里：Ｂ」及び「里：Ｉ」はいずれも中国語の書記素である。

こうした定義を用いることにより、英語の書記素列を、対応する英語の音素列、中国語の音素（ピンイン）列、及び中国語の書記素列と関係付けることができ、英語から中国語への字訳のためのモデルを構築することができる。

以下、モデル化について説明する。ここでは、比較のために以下の３種類のモデル、Ｍ（Ｅ_Ｇ，ＪＣ_Ｐ）、Ｍ（Ｅ_Ｐ，ＪＣ_Ｐ）及びＭ（Ｅ_ＧＰ，ＪＣ_Ｐ）について説明する。

Ｍ（Ｅ_Ｇ，ＪＣ_Ｐ）
このモデルは、英語の書記素列から中国語の音素列を推定し、英語の書記素列及び中国語の音素列の双方から得られる素性によって構築されたモデルである。

Ｍ（Ｅ_Ｐ，ＪＣ_Ｐ）
このモデルは、英語の音素列から中国語の音素列を推定し、英語の音素列及び中国語の音素列の双方から得られる素性によって構築されたモデルである。

Ｍ（Ｅ_ＧＰ，ＪＣ_Ｐ）
このモデルは、英語の書記素列及び音素列から中国語の音素列を推定し、英語の書記素列及び音素列、並びに中国語の音素列を全て組み合わせて得られた素性によって構築されたモデルである。ある英語の書記素列Ｅ_Ｇに対し、ある中国語の書記素列Ｃ_Ｇが生ずる確率は、これらのモデルでは以下のように表される。

なお、これらのハイブリッドモデルを作成することもできる。２つのモデルのハイブリッドモデルは、これら２つのモデルの確率分布関数を定数α（０＜α＜１）により以下のように組み合せたものである。２つのモデルＭ（ｘ_１，ＪＣ_Ｐ）とＭ（ｘ_２，ＪＣ_Ｐ）とを定数αによって組み合わせたモデルをＭ（ｘ_１＋ｘ_２、ＪＣ_Ｐ，α）とすると（ただしｘ_１≠ｘ_２、かつｘ_１及びｘ_２∈｛Ｅ_Ｇ，Ｅ_Ｐ，Ｅ_ＧＰ｝）、このモデルは以下のように表すことができる。

上記式（１）−（３）についての確率は同様の手法で推定できるので、以下では式（３）を例として確率の推定方法を説明する。式（３）中のＰ（Ｅ_Ｐ｜Ｅ_Ｇ）、Ｐ（Ｃ_Ｐ｜Ｅ_Ｇ，Ｅ_Ｐ）及びＰ（Ｃ_Ｇ｜Ｅ_Ｇ，ＥＰ，Ｃ_Ｐ）がコンテキスト・ウィンドウの大きさｋ（ここではｋ＝３とする。）に依存するものと仮定すると、これらは次の式（５）−（８）というより簡単な形式で近似できる。一般的に、ＭＥＭは式（８）の形の条件確率を与える指数モデルである。式（８）においてλ_ｉは推定対象のパラメータであり、ｆ_ｉ（ａ、ｂ）はλ_ｉに対応する素性関数である。

ただし、ｆ_ｉ（ａ、ｂ）はコンテキストａと出力ｂとに基づき、ＴＲＵＥ又はＦＡＬＳＥを返すバイナリ関数である。もしもｆ_ｉ（ａ、ｂ）＝１であれば、対応するパラメータλ_ｉは条件確率Ｐ（ｂ｜ａ）に対して影響を与える。

ここで使用する素性関数は、コンテキスト述語を用いて定義されており、現在のコンテキストから得られる情報の有無によりＴＲＵＥ又はＦＡＬＳＥのいずれかを返す関数である。コンテキスト述語とその説明を次のテーブル１に示す。

テーブル１に示すように、本実施の形態では、Ｎ−グラムとしてユニグラムｇｒａｍ_１（ｕ_ｊ）、バイグラムｇｒａｍ_２（ｕ_ｊ）、及びトライグラムｇｒａｍ_３（ｕ_ｊ）を用いている。ＰＡＩＲはユニグラムの対（ｐａｉｒ_１１）、ユニグラムとバイグラムの対（ｐａｉｒ_１２）、及びバイグラムの対（ｐａｉｒ_２２）を含む。ＴＲＩＰＬＥは、３つのユニグラムの組（ｔｒｉｐｌｅ_１）、及び２つのユニグラムと１つのバイグラムからなる組（ｔｒｉｐｌｅ_２）とを含む。なお、別々のコンテキスト述語が同一のコンテキストを表す場合には、そのうちの一つを採用し、他は無視する。たとえばｐａｉｒ_１２（ｕ_ｊ，ｕ_ｊ＋１）＝ｇｒａｍ_３（ｕ_ｊ）＝ｕ_ｊ ^ｊ＋２のような場合である。

テーブル２は、式（７）の右辺のある因数Ｐ（ｃｇ_ｉ｜ｃｇ_ｉ−ｋ ^ｉ−１、〈ｅｇ，ｅｐ，ｃｐ〉_ｉ−ｋ ^ｉ＋１）についての、ｉ＝２のときの、図６に示す例に適用した素性関数の例を示す。

本実施の形態において、図４に示す文字列推定部１４０としては、ｎ−ベストを出力するスタックデコーダを用いる。

なお、図４のアライメント部１０８によるアライメント、すなわち図５のステップ１６０，１６２及び１６４でのアライメントの各々には、以下のような方法を適用した。ここでは、たとえば英語の書記素列「ｂｏａｒｄ」とそれに対応する英語の音素列／Ｂ／、／ＡＯ／、／〜／、／Ｒ／、及び／Ｄ／とのアライメントを例として説明する。／〜／は無音を示す。

両者が与えられると、図８に示すようなマトリクスを作成する。このマトリクスは、
上記した書記素と縦方向に、音素列を横方向に、それぞれ配列したものである。行番号をＩ，列番号をＪでそれぞれ表す。音素列及び書記素列の先頭には、それぞれ先頭を表すダミー文字「＄」を付しておく。

Ｉ行Ｊ列のセルに割り当てられる値をｄ［ｉ，ｊ］（この値をこのセルの「コスト」と呼ぶ。）で表す。このマトリクスの第１列目（ｉ＝０）のセルには、ｊ×３００を代入し（ｄ［０，ｊ］＝ｊ×３００）、第１行目（ｊ＝０）のセルにはｉ×３００を代入する（ｄ［ｉ，０］＝ｉ×３００）。このマトリクスの他の各セルには、初期素と音素との間の類似関係に応じて予め作成されていたアライメント用テーブル１０２から、各セルの書記素と音素との組み合わせに応じた値を参照して挿入する。このテーブル、両者が音声上で類似していれば小さく、相違しているほど大きくなるように予め作成されている。

たとえば書記素ｄと音素／Ｄ／とは音声的に互いに類似しているため、アライメント用テーブル１０２では４０という値が割り当てられている。一方、書記素ｒと音素／Ｄ／とは音声的に類似していないため、それより大きな８０という値が割り当てられている。書記素ｂと音素／Ｂ／とはよく一致するため、値として０が割り当てられている。
こうして最初にマトリクスの全セルに値を挿入した後、以下のようなアルゴリズムで書記素列と音素列とのアライメントを行なう。

このマトリクスの各セルに対し、マトリクスの右下から初めて各セル（ｉ，ｊ）について以下の式（９）により定まるコストｄ［ｉ，ｊ］．ｃｏｓｔ及び操作ｄ［ｉ，ｊ］．ｏｐを決定する。

ただし式（９）において、ｓ_ｉはソース（書記素）側の比較要素、ｔ_ｊはターゲット（音素）側の比較要素を示す。操作Ｍは、比較されている要素ｓ_ｉ及びｔ_ｊをアラインさせることを表す。操作ＳＳはソース側をスキップする（すなわちターゲット側の比較要素をこの次のソース側の比較要素とアラインさせる。）ことを表す。操作ＴＳは逆で、ターゲット側をスキップさせる（つまりソース側の比較要素を次のターゲット側の要素とアラインさせる）ことを表す。

このようにして、マトリクスの右下セルから左上セルまでのコストが最小となるようなルートがアライメントとして求められ、両者をアラインさせるための一連の操作が同時に求められる。図８に示す例では、上記ルートに対応するセルは、それらのコストの表示に下線を引いて示してある。

ここでは、英語の書記素と英語の音素とを例に説明したが、英語の音素と中国語の音素、中国語の音素と中国語の書記素との間のアライメントも同様に行なわれる。

本実施の形態において、このアライメント手法を用いて英語の書記素と英語の音素、英語の音素と中国語の音素、及び中国語の音素と中国語の書記素のアライメントをした後、音素を中心としてアライメントの結合をすることにより、英語の書記素→英語の音素→中国語の音素→中国語の書記素のアライメントをすることが可能になった。その結果、図３に示すグループ５０，５２及び５４のうち、任意のものから素性を得て確率モデル１３０の学習を行なうことが可能になった。

＜動作＞
字訳システム７０の動作は、確率モデルを用いる一般的なシステムと同様である。最初に、対照データ１００と、アライメント用テーブル１０２〜１０６を準備する。アライメント部１０８により、英語の書記素と英語の音素、英語の音素と中国語の音素、及び中国語の音素と中国語の書記素のアライメントのうち必要なものを行なう。その結果を組み合わせることで、アライメント済対照データ１１０を作成することができる。ここでは、英語の書記素列から英語の音素列を推定し、英語の書記素列及び英語の音素列から中国語の音素列を推定し、英語の書記素列、英語の音素列、及び中国語の音素列から中国語の書記素列を推定するものとする。したがって、確率モデル１３０とともに、確率モデル１３２及び確率モデル１３４の双方の学習を行なう。

一旦アライメント済対照データ１１０ができれば、これから素性抽出部１１２によって素性を算出し、学習データ１１４を準備し、さらに確率モデル１３０の学習を行なうのあは通常の手続きである。なおこのとき、アライメント済対照データ１１０を用いて、素性抽出部１１８によって学習データ１２０を作成し、確率モデル１３２及び確率モデル１３４のうち必要なものの学習をすることができる。

こうして、確率モデル１３２、確率モデル１３４、及び確率モデル１３０の学習が完了すると、字訳部８２はいつでも動作可能である。

英語の書記素列８４が字訳部８２に与えられると、音素列推定処理部１３６が英語の書記素列８４から英語の音素列を推定する。音素列推定処理部１３６はさらに、英語の書記素列８４及び推定された英語の音素列から中国語の音素列を推定する。推定された英語の音素列及び中国語の音素列は、英語の書記素列８４とともに素性抽出部１３８に与えられる。

素性抽出部１３８は、素性抽出部１１２と同様の素性算出を行ない、結果を文字列推定部１４０に与える。文字列推定部１４０は、確率モデル１３０を用いて、入力された素性列の出コードを行ない、中国語の文字列として最も尤度の高いＮ−ベストを定め、中国語文字列８６として出力する。

＜実験結果＞
《設定》
実験では、「ＮＥＷＳ０９機械字訳協働タスク」（ＮＥＷＳ２００９ｍａｃｈｉｎｅｔｒａｎｓｌｉｔｅｒａｔｉｏｎｓｈａｒｅｄｔａｓｋ）において英語―中国語での字訳において用いられたデータと同じデータを用いた。このデータは「外国の個人名の中国語字訳」（新華社通信、１９９２）から抽出され、英語と、それに対応する公式な中国語の字訳との対を３７，６９４個含んでいる。元データには、英語と、フランス語と、ドイツ語と、そのほか多くの言語の名前が含まれている。

実験では、上記データのうち、Ｌｉらによる２００４年の報告（非特許文献１）で用いられたものと同じ学習データを用いたが、その中からランダムに９０％を抽出して学習データとし、残りは開発データとした。データの分類をテーブル３に示す。

学習データを、上記した確率モデル１３０の学習に用いた。各モデルに対して、ＭＥＭの学習のための繰返数及びＭＥＭを平滑化するためのガウシアンによる事前確率を、開発データを用いて調整した。さらに、ハイブリッドモデルのための定数αを選択するためにも開発データを使用した。αの値を変化させて開発データを用いてモデルの性能を評価し、ハイブリッドモデルの各々について、もっともよい性能を示した定数αを選択した。なお、この実験では、英語の書記素から英語の音素を得る条件確率Ｐ（Ｅ_Ｐ｜Ｅ_Ｇ）は、ＣＭＵ発音辞書（１２０，０００語所収）を用いた。

なお、字訳のための確率モデル１３０として、上記したように英語側の情報と中国語の音声とを組み合わせたものだけではなく、中国語の音素を使用しないもの、中国語の音素を使用するが、字訳の推定の際には英語から得られた情報とは組み合わせないものも作成し、これらの性能を比較した。これらモデルＭ（ｘ、ｙ）は以下のように表現する。

（ｘ、ｙ）∈Ｘ×Ｙ
ｘ∈Ｘ＝｛Ｅ_Ｇ，Ｅ_Ｐ，Ｅ_ＧＰ｝
ｙ∈Ｙ＝｛φ，Ｃ_Ｐ，ＪＣ_Ｐ｝
ｘは英語側の情報を表す。これについては前述したとおりである。ｙは中国語側の情報を表す。φは字訳の推定にあたって、中国語側の情報を使用しないことを表す。Ｃ_Ｐは、字訳の推定にあたって、中国語の音素の情報を使用するが、英語側から得られた情報は使用しないことを示す。これらを組み合わせて、たとえば英語の書記素列を中国語の音素列の推定に使用するが、中国語の書記素列の推定にあたっては、中国語の音素列のみを使用するモデルをＭ（Ｅ_Ｇ，Ｃ_Ｐ）で表す。ハイブリッドモデルの表記方法は前述したとおりである。

これらは大きく以下の３つのクラスに分類できる。

（１）Ｍ_Ｉ：中国語の音素と独立なモデル、すなわち中国語の書記素列の推定に中国語の音素に関する情報を使用しないモデル。

（２）Ｍ_Ｓ：中国語の音素を単純に利用して中国語の書記素列を推定するためのモデル。英語の書記素列、音素列に関する情報を使用しない。

（３）Ｍ_Ｊ：中国語の書記素列の推定に、中国語の音素に加え、英語の書記素列及び音素列に関する情報を使用するモデル。

これら３つのモデルのうち、Ｍ_Ｉ及びＭ_Ｓは従来技術に属し、Ｍ_Ｊは本願実施の形態の考え方によるものである。

各モデルの性能評価は、最高スコアの推定結果の単語精度（ＡＣＣ）、中国語の発音の精度（ＣＰＡ）、及び平均相互ランク（ＭＲＲ）尺度によって行なった。ＡＣＣは、各システムの最高スコアの推定結果に、正しい字訳がどれだけ現れるかを測定する。ＣＰＡは中国語の発音のＮ−ベスト中で最高スコアのものの中国語発音の正確さを示す。ＭＲＲは、各システムのＮ−ベストの相互ランクを示し、Ｎ−ベストの字訳の精度を評価するものである。あるシステムにより生成された字訳がＮ−ベストのｒ番目に位置する基準字訳と一致した場合、その相互ランクは１／ｒとなる。それ以外の場合、すなわち参照字訳の中にＮ−ベストの字訳が存在しない場合、その相互ランクは０とする。ただし１≦ｒ≦Ｎである。本実験では、各英単語について中国語の字訳１０個を生成させた。

《結果》
実験結果をテーブル４に示す。

テーブル４において、モデル名「ＬＩ０４」は、Ｌｉらによる非特許文献１に係るモデルである。そのＡＣＣ値は、非特許文献１からとった。他の１８個のモデルは、上に述べたように、本願発明の実施の形態のバリエーションに相当するクラスＭ_Ｊの３つのモデル及びそれらの３種のハイブリッドモデル、従来技術に属するクラスＭ_Ｉの３つのモデル及びそれらの３種のハイブリッドモデル、並びに従来技術に属するクラスＭ_Ｓの３つのモデル及びそれらの３種のハイブリッドモデルである。

ＡＣＣ、ＭＲＲ及びＣＰＡは、上記した学習データを用いて学習した各モデルの評価結果を示す。字訳モデルの性能を正しく評価するため、中国語の発音について正しいもの（すなわち正しい音素列）を使用した実験も行なった。正しい中国語の発音を、Ｎ−ベストの先頭の発音に、１００％の最高確率で挿入した。したがってＣＰＡは１００％となっていたはずである。この結果をＡＣＣ′で示してある。

「学習データ」という見出しは、学習データによって学習した字訳モデルの性能を示す。

さらに、非特許文献１における実験結果との対比を行なうため、Ｌｉらが用いた学習データと同じデータを用いて学習した字訳モデルを作成し、これらの性能も測定した。Ｌｉらの用いた学習データは、上記した実施の形態における学習データと開発データとの和集合なので、上のテーブル４では「学習データ＋開発データ」という見出しの下にこの条件での測定結果ＡＣＣ，ＭＲＲ，ＣＰＡ及びＡＣＣ′を示す。

テーブル６を参照して、ハイブリッドでないモデル（基本モデルと呼ぶ。）とハイブリッドモデルとの性能を比較すると、ハイブリッドモデルの方が高い性能を示すことがわかる。例外はＭ（Ｅ_Ｐ＋Ｅ_Ｇ，ｙ，α）である。しかしこのモデルでも、他の基本モデルとほぼ同等の性能が得られている。特に、Ｍ（Ｅ_Ｇ＋Ｅ_ＧＰ，ｙ，α）が最も高い性能を示している。

クラスＭ_Ｉ，Ｍ_Ｓ及びＭ_Ｊに属するモデルを比較すると、中国語の音素に関する情報は、英語の書記素及び音素とともに用いて中国語の字訳を推定するときには、モデルの性能向上に寄与していることが分かる。Ｏｎｅ−ｔａｉｌｅｄＰａｉｒｅｄｔ−テストをＭ_ＩモデルとＭ_Ｊモデルとの間で行なうことにより、英語側のパラメータとして同じものを用いた場合で比較すると、Ｍ_Ｊモデルによる結果の方が常にＭ_Ｉモデルによるものをかなり上回っていることが分かる（有意度＝０．００１）。

ＡＣＣの値とＣＰＡの値とを比較すると、クラスＭＪによる中国語字訳の生成では、クラスＭＳによる生成と比較して音素から書記素への変換誤りが少なくなっていることが分かる。ＡＣＣ′の値を見ると、中国語の音素列が全て正しく推定されたとした場合でも、クラスＭ_Ｊによる字訳はクラスＭ_Ｓによる字訳より精度が高い。

これらの結果から、中国語の音素列に加え、英語の書記素列及び／又は音素列の情報も使用して中国語の音素列から中国語の書記素列を推定することにより、英語から中国語への字訳の精度が大幅に向上することが分かった。
＜コンピュータによる実現＞
上述の実施の形態は，コンピュータシステムと、当該システム上で実行されるコンピュータプログラムとによって実現可能である。図９はこれら実施の形態で用いられるコンピュータシステム５５０の外観を示し、図１０はコンピュータシステム５５０のブロック図である。ここで示すコンピュータシステム５５０は単なる例示であって、さまざまな他の構成が利用可能である。

図９を参照して、コンピュータシステム５５０は、コンピュータ５６０と、モニター５６２と、キーボード５６６と、マウス５６８と、スピーカ５５８と、マイクロフォン５９０とを含む。さらに、コンピュータ５６０は、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）ドライブ５７０及び半導体メモリポート５７２を含む。

図１０を参照して、コンピュータ５６０はさらに、ＤＶＤドライブ５７０及び半導体メモリポート５７２に接続されたバス５８６と、上述した字訳システム７０を実現するコンピュータプログラムを実行するためのＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）５７６と、コンピュータ５６０の起動プログラムなどを記憶するＲＯＭ（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）５７８と、ＣＰＵ５７６によって使用される作業領域及びＣＰＵ５７６によって実行されるプログラムの記憶領域を提供するＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）５８０と、対照データ１００、アライメント用テーブル１０２−１０６、アライメント済対照データ１１０、学習データ１１４、１２０及び１２２、確率モデル１３０、１３２及び１３４、並びに処理途中で一時的に作成されるデータを記憶するためのハードディスク（ＨＤ）５７４と、コンピュータ５６０にネットワーク５５２との接続を提供するためのネットワークインターフェース（Ｉ／Ｆ）５９６とを含み、これらは全てバス５８６に接続されている。

上述の実施の形態に係る字訳システム７０を実現するソフトウェアはＤＶＤ５８２又は半導体メモリ５８４等の記憶媒体に記憶されたオブジェクトコードの形で流通し、ＤＶＤドライブ５７０又は半導体メモリポート５７２等の読出装置を介してコンピュータ５６０に提供され、ハードディスク５７４に記憶される。ＣＰＵ５７６がプログラムを実行する際には、プログラムはハードディスク５７４から読出されてＲＡＭ５８０に記憶される。図示しないプログラムカウンタによって指定されたアドレスから命令がフェッチされ、ＣＰＵ５７６によりその命令が実行される。ＣＰＵ５７６はハードディスク５７４から処理すべきデータを読出し、処理の結果をこれもまたハードディスク５７４に記憶する。

コンピュータシステム５５０の一般的動作は周知であるので、ここでは詳細な説明は行なわない。

ソフトウェアの流通の方法に関して、ソフトウェアは必ずしも記憶媒体上に固定されたものでなくてもよい。例えば、ソフトウェアはネットワーク５５２に接続された別のコンピュータから配布されてもよい。ソフトウェアの一部がハードディスク５７４に記憶され、ソフトウェアの残りの部分はネットワークを介してハードディスク５７４に取込み、実行の際に統合する様にしてもよい。

典型的には、現代のコンピュータはコンピュータのオペレーティングシステム（ＯＳ）によって提供される汎用の関数を利用し、所望の目的に従って制御された態様でこれら関数を実行する。従って、ＯＳ又は第３者から提供されうる汎用関数を含まず、一般的な関数の実行順序の組み合わせのみを指定したプログラムであっても、そのプログラムが全体として所望の目的を達成する制御構造を有する限り、そのプログラムがこの発明の範囲に包含されることは明らかである。

また、プログラムは必ずしもオブジェクトコード形式でなくともよい。コンピュータシステム５５０にコンパイラが存在する場合には、ソースコードで提供されたプログラムをコンパイルしてオブジェクトコードとすることで、上記した処理を実現するオブジェクトプログラムが得られる。

コンピュータシステム５５０に特定の言語のスクリプトの実行系が備えられている場合、プログラムはスクリプト形式でこのコンピュータに提供されてもよい。複数個のスクリプトにより上記した処理が実現される場合、それらスクリプトがどこに存在しているかにかかわらず、それらをまとめてコンピュータシステム５５０に格納可能とするようなサービスをたとえばネットワーク上で提供した場合、そうしたサービスは本発明の実施に相当する。

さらに、プログラムを分割可能な複数個のユニットに分割し、それらを別々のコンピュータで実行することで、上記した処理を実現する場合にも、本発明の実施に相当することはいうまでもない。

＜第２の実施の形態＞
上記した第１の実施の形態は、英語の書記素列から中国語の書記素列への変換に関するものであった。しかし、本願発明は英語から中国語への書記素の変換のみに適用可能なわけではない。任意の言語の組み合わせに対して上記第１の実施の形態と同様に字訳システムを構築することができる。さらに、上記した第１の実施の形態では、字訳のための確率モデルとしてＭＥＭを使用した。しかし、すでに述べたように、確率モデルとしてはＭＥＭに限らず、ＣＲＦ及びＭＩＲＡを使用することもできる。

この第２の実施の形態は、ソース側言語の書記素列からターゲット側言語の音素列を推定し、さらにソース言語側の書記素列とターゲット言語側の音素列との双方に基づいてターゲット言語の書記素列を推定するシステムであって、さらに、使用する確率モデルの種類が異なるものを組み合わせることにより、字訳システムの精度を向上させたシステムに関するものである。

以下の説明では、対比のために、ソース言語側の書記素列から直接にターゲット言語側の書記素列を推定するための、従来技術に相当するモデルをＴＭ−Ｇと呼び、ソース言語側の書記素列からターゲット言語側の音素列を推定し、その後にターゲット言語側の音素列とソース言語側の書記素列との双方の情報を用いてターゲット言語の書記素列を推定するための、第２の実施の形態のシステムで使用するモデルをＴＭ−ＧＰと呼ぶ。ＴＭ−Ｇ及びＴＭ−ＧＰの各々について、確率モデルとしてＣＲＦ，ＭＩＲＡ及びＭＥＭを用いたものを組み合わせ、精度がどのように変化するかを説明する。

ソース言語の単語をＳ，単語Ｓに対するターゲット言語の字訳をＴで表す。Ｔは２通りの方法で表すことができる。第１はターゲット言語の書記素列であり、これをＴ_Ｇで表す。第２はターゲット言語の音素列であり、これをＴ_Ｐで表す。ここでは、ターゲット言語の書記素をターゲット言語の文字と定義する。ターゲット言語の書記素のローマ字表記における子音部及び母音部を、それぞれターゲット言語の音素とみなす。すると、ＴＭ−Ｇ及びＴＭ−ＧＰはそれぞれ次の式（１０）及び（１１）により定式化される。

素性として、上記３種類のモデルのいずれに対しても、処理対象となっている書記素又は音素の前後３つのコンテキスト・ウィンドウから得られる以下の情報を用いた。

（１）左３つ、及び右３つのソース言語の書記素（又は音節）
（２）左３つ、及び右３つのターゲット言語の音素
（３）ソース言語側の直前の３つの書記素に割り当てられたターゲット言語の書記素（又は音節）。

本実施の形態では、複数の字訳エンジンの結果を組み合わせることで、各字訳エンジンによる精度より高い精度で字訳の推定を行なう。以下の説明では、ソース言語の字訳ユニットと、字訳モデルと、機械学習アルゴリズムをテーブル５に示すように種々に組み合わせた。

ここでは、これら組み合わせに係る字訳エンジンをそれぞれ、ＣＲＦ−Ｇ，ＭＥＭ−Ｇ，ＭＥＭ−ＧＰ，及びＭＩＲＡ−Ｇと名づける。ハイフンの前段は使用されている機械学習アルゴリズムの名前であり、後段は字訳モデルの型を示す。

以下の説明では、あるソース言語とターゲット言語との組み合わせについて説明する。複数の字訳エンジンの出力を、以下のように再ランキング関数ｇ（ｘ）を用いて組み合わせる。あるソース言語の単語ｓに対して４つの字訳エンジンが出力したターゲット言語への字訳結果の集合をＸとし、単語ｓに対する基準字訳をｒｅｆとする。再ランキング関数ｇ（ｘ）は以下の式（１２）により定義される。

再ランキング関数ｇ（ｘ）として、各字訳エンジンによるランクと使用する機械学習アルゴリズムとを用いて定義された２種類を用いる。

（１）各字訳エンジンによるランクを用いた再ランキング
ここでは、各字訳エンジンによるランクを用いた２つの再ランキング関数ｇｒａｎｋ及びｇＦｓｃｏｒｅを用いて各エンジンの出力を組み合わせる。同じ入力に対するＮ個の字訳エンジンの出力の集合をＸとする。ｇｒａｎｋ（ｘ）はｘ∈Ｘを次の式（１３）により示される方法により再ランキングする。式（１３）において、Ｒａｎｋｉ（ｘ）はｉ番目の字訳エンジンにより生成されたＮ−ベストリスト中における字訳ｘの順位を示す。

再ランキング関数ｇ_ｒａｎｋは、各字訳エンジンの出力におけるｘの平均順位を示すものと考えることができる。なお、式（１３）の計算において、ｘがｉ番目の字訳エンジンのＮ−ベスト出力内に存在しない場合には、ｒａｎｋ_ｉ（ｘ）＝０とする。

ｇ_{Ｆｓｃｏｒｅ}（ｘ）は、ｇ_ｒａｎｋ（ｘ）及びＦスコアを用いて計算される。ここでは、各字訳エンジンの上位３個の出力を基準字訳と見なし、「仮想基準字訳」と呼ぶ。この仮想基準字訳と、複数の字訳エンジンの出力の各々との間のＦスコアを計算する。ｇ_{Ｆｓｃｏｒｅ}（ｘ）は次の式（１４）により定義される。

Ｆスコアを書記素列の類似度によって計算するので、ｘが仮想基準字訳に似ているときにはＧ_{Ｆｓｃｏｒｅ}（ｘ）によるｘのスコアは高くなる。

（２）機械学習アルゴリズムによる再ランキング
再ランキング関数Ｇ_ＭＥ（ｘ）の学習をＭＥＭによって行なう。ｒｅｆがソース言語の単語ｓの基準字訳、ｆｅａｔｕｒｅ（ｘ）をｘ∈Ｘの素性ベクトル、ｙ∈｛ｒｅｆ，ｗｒｏｎｇ｝をｘのための学習ラベルとする。

ｇ_ＭＥ（ｘ）はｘ∈Ｘに対して次の式（１５）にしたがって確率を割り当てる。

ｇ_ＭＥ（ｘ）＝Ｐ（ｒｅｆ｜ｆｅａｔｕｒｅ（ｘ）） (15)
ｘの素性ベクトルはｇ_ｒａｎｋ（ｘ），ｇ_{Ｆｓｃｏｒｅ}（ｘ），１／Ｒａｎｋ_ｉ（ｘ），及びＰ（Ｔ｜Ｓ）を含む。ただし、各字訳エンジンの１／Ｒａｎｋ_ｉ（ｘ）及びＰ（Ｔ｜Ｓ）を素性として用いる。

Ｐ（ｒｅｆ｜ｆｅａｔｕｒｅ（ｘ））は、開発データを用いて推定する。

《実験結果》

テーブル６は各字訳エンジンのＡＣＣの値を示す。「ＮＥＷＳ２００９ＭａｃｈｉｎｅＴｒａｎｓｌｉｔｅｒａｔｉｏｎＳｈａｒｅｄＴａｓｋ」で使用される全言語の組み合わせ（参考：https://translit.i2r.a-star.edu.sg/news2009/whitepaper/）に対するテスト結果である。テーブル６で使用されている言語の組み合わせの略号は以下を表す。

ＥｎＣｈ：ソース言語＝英語、ターゲット言語＝中国語
ＥｎＪａ：ソース言語＝英語、ターゲット言語＝日本語カタカナ
ＥｎＫｏ：ソース下後＝英語、ターゲット言語＝韓国語（ハングル）
ＪｎＪｋ：ソース言語＝日本語固有名詞（英語表記）、ターゲット言語＝日本語漢字
ＥｎＨｉ：ソース言語＝英語、ターゲット言語＝ヒンディー語
ＥｎＴａ：ソース言語＝英語、ターゲット言語＝タミル語
ＥｎＫａ：ソース言語＝英語、ターゲット言語＝カナラ語
ＥｎＲｕ：ソース言語＝英語、ターゲット言語＝ロシア語
テーブル６より、ＥｎＫａ，ＥｎＫｏ及びＥｎＲｕにおいてはＣＲＦ−Ｇが最もよい性能を示した。学習コストが高いため、ＥｎＣｈについてはごく少ない繰返回数の学習しか行なわなかった。そのためか、ＥｎＣｈにおいてはＣＲＦ−Ｇの性能は他のモデルの性能より劣っている。ＥｎＣｈ，ＥｎＨｉ，ＥｎＪａ及びＥｎＴａではＭＥＭ−ＧＰが最もよい性能を示した。

この結果から、ソース言語の書記素とターゲット言語の音素とを組み合わせてターゲット言語の書記素を推定すると、字訳システムの性能は改善されることが分かる。

ＭＩＲＡ−Ｇは学習データのサイズの影響を敏感に受ける。そのため、学習データが豊富だったＥｎＣｈ及びＥｎＪＡにおいてＭＩＲＡ−Ｇは比較的よい性能を示した。ＪｎＪｋに対してはＣＲＦ−Ｇを適用することはできなかった。学習時間が長すぎたためである。同様にＭＥＭ−ＧＰをＪｎＪｋに適用することもできない。なぜなら、ＪｎＪｋにおける字訳は、ターゲット言語の音素をターゲット言語の書記素に変換することと同じと見なすことができるためである。ＪｎＪｋについてはＭＥＭ−ＧとＭＩＲＡ−Ｇとしか適用できず、その中ではＭＩＲＡ−Ｇの性能が高かった。

テーブル７は、各言語の組み合わせ別に、複数の字訳エンジンの結果を組み合わせた字訳システム（ｇ_ｒａｎｋ，ｇ_{Ｆｓｃｏｒｅ}，ｇ_ＭＥ）と、個々の字訳エンジンのうちで最も性能の高かったもの（１−ＢＥＳＴ）との結果を示す。

テーブル７から分かるように、ｇ_ＭＥはＥｎＣｈ，ＥｎＨｉ，ＥｎＪａ，ＥｎＫｏの組み合わせで最も高い性能を示した。ｇ_{Ｆｓｃｏｒｅ}は、ＥｎＣｈ，ＥｎＫａ，ＥｎＲｕ，ＥｎＴａの組み合わせで最も高い性能を示した。

１−ＢＥＳＴとｇ_ｒａｎｋ，ｇ_{Ｆｓｃｏｒｅ}，ｇ_ＭＥとを比較すると、ｇ_ｒａｎｋ及びｇ_ＭＥは、ＥｎＲｕを除き１−ＢＥＳＴより常に高い性能を示している。ｇ_{Ｆｓｃｏｒｅ}はＥｎＫｏで１−ＢＥＳＴより劣った性能しか得られなかったが、他ではこれも１−ＢＥＳＴより優れた性能を示している。

以上の結果から、異なるアルゴリズムで学習した確率モデルを組み合わせて得られたモデルを使用した場合、各モデルを単独で使用した場合と比較するとほぼ全ての場合で性能の向上が得られることが分かる。

以上のように本発明によれば、ターゲット言語の音素列からターゲット言語の書記素列を推定するに当たり、ターゲット言語の音素列の情報だけではなく、ターゲット言語の書記素列及び／又はターゲット言語の音素列の情報を同時に用いる。このような情報を用いてターゲット言語の書記素列を推定することにより、音素列のみを使用した場合と比較すると高い精度でターゲット言語の書記素列が推定できる。さらに、複数種類のアルゴリズムで学習した確率モデルを組み合わせることにより、さらに高い精度で書記素列を推定することができる。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。

３０，８４英語の書記素列
３２英語の音素列
３４中国語の音素列
３６中国語の書記素列
５０，５２，５４グループ
７０字訳システム
８０学習部
８２字訳部
８６中国語文字列
１００対照データ
１０２，１０４，１０６アライメント用テーブル
１０８アライメント部
１１２，１１８，１３８素性抽出部
１１４，１２０，１２２学習データ
１１６，１２４，１２６学習部
１３０，１３２，１３４確率モデル
１３６音素列推定処理部
１４０文字列推定部

Claims

ソース言語の書記素列からターゲット言語の書記素列を推定する字訳装置であって、
前記ソース言語の書記素列から、前記ターゲット言語の音素列を推定するためのターゲット言語音素列推定手段と、
前記ソース言語の書記素列若しくは音素列、又は前記ソース言語の書記素列及び音素列と、前記音素列推定手段により推定された前記ターゲット言語の音素列とから、前記ターゲット言語の書記素列を推定するためのターゲット言語書記素列推定手段とを含む、字訳装置。
前記ターゲット言語書記素列推定手段は、
前記ソース言語の書記素列若しくは音素列、又は前記ソース言語の書記素列及び音素列と、前記ターゲット言語の音素列とから、前記ソース言語の書記素列に関連する所定の素性ベクトル列を算出するための第１の素性算出手段と、
前記第１の素性算出手段により出力された前記素性ベクトル列を受け、当該素性ベクトル列に対応する確率が最も高い前記ターゲット言語の書記素列を、予め学習済の確率モデルによる確率計算によって決定するための手段とを含む、請求項１に記載の字訳装置。
前記確率モデルは、
前記第１の素性算出手段により出力された前記素性ベクトルの要素のうち、前記ソース言語の書記素列及び前記ターゲット言語の音素列から得られた素性が与えられると、前記ターゲット言語の各書記素に対する確率を与えるための第１の確率モデルと、
前記第１の素性算出手段により出力された前記素性ベクトルの要素のうち、前記ソース言語の書記素列及び音素列、並びに前記ターゲット言語の音素列から得られた素性が与えられると、前記ターゲット言語の各書記素に対する確率を与えるための第２の確率モデルとを、
所定の割合α（０＜α＜１）で混合した確率モデルを含む、請求項２に記載の字訳装置。
前記決定するための手段は、
各々が、前記第１の素性算出手段により出力された前記素性ベクトル列を受け、当該素性ベクトル列に対応する確率が最も高い前記ターゲット言語の書記素列を、予め学習済の確率モデルによる確率計算によって決定するための複数の確率算出手段と、
前記複数の確率算出手段によりそれぞれ決定された複数の書記素列を再ランキングすることにより、前記ソース言語の書記素列に対応する可能性が最も高いターゲット言語の書記素列を決定するための手段とを含む、請求項２に記載の字訳装置。
前記複数確率算出手段の確率モデルは、互いに異なる機械学習アルゴリズムにより学習済である、請求項４に記載の字訳装置。
コンピュータにより実行されると、当該コンピュータを、請求項１−請求項５のいずれかに記載の字訳装置として動作させる、コンピュータプログラム。
請求項６に記載のコンピュータプログラムを記録した、コンピュータ読取可能な記録媒体。