JP2014232452A

JP2014232452A - 翻訳語順情報出力装置、翻訳語順情報出力方法、およびプログラム

Info

Publication number: JP2014232452A
Application number: JP2013113397A
Authority: JP
Inventors: 功雄後藤; Norio Goto
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2013-05-29
Filing date: 2013-05-29
Publication date: 2014-12-11
Anticipated expiration: 2033-05-29
Also published as: EP3007076A1; JP6296592B2; US20160085748A1; CN105144149A; CN105144149B; EP3007076A4; KR20160016768A; WO2014192598A1

Abstract

【課題】従来、統計翻訳において、翻訳の語順を正確に決定することが困難であった。
【解決手段】原言語文を格納し得る文格納部と、重みベクトルを格納し得る重みベクトル格納部と、現在の翻訳対象の用語である現用語の現用語位置を受け付ける受付部と、現用語位置と、現用語の次に翻訳される候補となる１以上の次用語位置候補を、原言語文から取得する候補取得部と、現用語、次用語候補、および原言語文を用いて、２以上の要素を有するベクトルを取得するベクトル取得部と、ベクトルと重みベクトルとを用いて、１以上の各次用語位置候補の用語が現用語の次に翻訳される次用語である確率に関する確率情報を、１以上の各次用語位置候補ごとに取得する確率情報取得部と、確率情報を出力する出力部とを具備する翻訳語順情報出力装置により、原言語文中において、今、翻訳した用語が分かっている状態で、次に翻訳するべき用語を正確に決定することができる。
【選択図】図１

Description

本発明は、翻訳の語順の決定を支援する翻訳語順情報出力装置等に関するものである。

機械翻訳における主な課題は、訳語選択と語順推定である。また、例えば、統計翻訳は、訳語選択の性能は高いため、統計翻訳の現状の大きな課題は語順推定である。機械翻訳手法の１つであるフレーズベース統計翻訳において、代表的な翻訳アルゴリズムとして、目的言語の文を左（文頭）から右（文末）へ連続的に生成するというものがある。この場合、今、翻訳した入力文の位置（ＣＰ）が分かっている状態で、次に翻訳するべき入力文の位置（ＮＰ）を推定する必要がある。下記にＣＰとＮＰの例を、図１１に示す。なお、ＣＰは、今、翻訳した入力文の位置であり、当該位置の用語であると考えても良い。かかる位置の用語を、以下、適宜、現用語という。また、ＮＰは、次に翻訳するべき入力文の位置であり、当該位置の用語であると考えても良い。かかる位置の用語を、以下、適宜、次用語という。

従来技術において、ＮＰの推定を主にlexical reorderingモデルにより行っている（例えば、非特許文献１参照）。lexical reorderingモデルとは、ＮＰがmonotone, swap, discontinuousのいずれかになる確率を計算する。なお、monotoneとはＣＰとＮＰが連続していること、swapとはＣＰとＮＰとの語順が入れ替わっていること、discontinuousとはＣＰとＮＰとが非連続であることである（図１２参照）。

また、Distortionクラスの確率を推定するモデルを用いて、ＮＰの推定を行う手法も提案されている（例えば、非特許文献２参照）。本従来技術において、ＣＰの語とその周囲の語を利用して、ＮＰはどのくらい離れているかを推定する。どのくらい離れているかは、Distortionクラスを用いて表す。ＣＰをｉ、ＮＰの候補をｊとすると、Distortionはｊ−ｉ−１と定義される。非特許文献２でのDistortionクラスは、Distortionを分類する次の９つのクラスである：（?∞，?８），［?７，?５］，［?４，?３］，?２，０，１，［２，３］，［４，６］，［７，∞］。なお、Distortion、Distortionクラス等は、後述する距離およびＣＰとＮＰ候補間の相対的な語順の情報の一例である。

なお、ＮＰの候補の語とその周囲の語を利用して、そのＮＰの候補の語がＮＰの場合に、ＣＰはどれだけ離れているべきかの確率を推定するモデルも利用することも提案されている。

Christoph Tillman. 2004. A unigram orientation model for statistical machine translation. HLT-NAACL 2004: Short Papers, pages 101- 104, Boston, Massachusetts, USA, May 2 - May 7. Association for Computational Linguistics. Spence Green, Michel Galley, and Christopher D. Manning. 2010. Improved models of distortion cost for statistical machine translation. In Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics, pages 867-875, LosAngeles, California, June. Association for Computational Linguistics.

しかしながら、従来の翻訳語順情報出力装置においては、統計翻訳において、原言語文中において、今、翻訳した用語の位置が分かっている状態で、次に翻訳するべき用語の位置を正確に決定することが困難であった。

さらに具体的には、lexical reorderingモデルでは、discontinuousの確率を用いているのみであるので、ＣＰから離れたＮＰを特定することが出来ないため，語順が大きく異なる言語間では高精度な語順推定は困難である。

Distortionクラスの確率を推定するモデルでは、ＣＰの語とＮＰ候補の語を同時に考慮していないため、ＮＰを正しく推定できない。

上記の語順推定の難しさの課題のまとめを図１３に示す。図１３（１）（２）の例は、ＣＰとその周囲の語だけではＮＰを正しく推定できない例である。つまり、今、（１）（２）において、原言語の用語「彼」（ＣＰ「彼」）に対応する目的言語の用語が「ｈｅ」である。そして、ＮＰが「買った」であるが、ＮＰ「買った」を取得する場合、ＣＰとＮＰ候補の語を同時に考慮する必要がある。つまり、（１）（２）の例では、ＣＰとＮＰ候補の語を同時に考慮する必要がある。

また、図１３（３）（４）の例は、ＣＰとＮＰ候補の語だけでは正しく推定できない例である。つまり、（３）において、ＣＰが「彼」である場合、ＮＰは「借りた」であって、「買った」ではない。また、（４）において、ＣＰが「彼」である場合、ＮＰは「買った」であって、「借りた」ではない。つまり、（３）（４）の例では、相対的な語順を考慮する必要がある。

また、図１３（４）（５）の例では、近いものを選べば良いわけではない例である。（４）において、ＣＰが「彼」である場合、ＮＰは「買った」であるが、（５）において、ＣＰが「彼」である場合、ＮＰは「借りた」である。つまり、（４）（５）の例は、ＣＰやＮＰ候補の周囲の語を考慮する必要がある。

本第一の発明の翻訳語順情報出力装置は、翻訳対象の原言語の文である原言語文を格納し得る文格納部と、ベクトルの各要素の重みを示す重みベクトルを格納し得る重みベクトル格納部と、原言語文の中の一の用語位置であり、現在の翻訳対象の用語位置である現用語位置を受け付ける受付部と、現用語位置と、現用語の次に翻訳される候補となる用語の位置である１以上の次用語位置候補を、原言語文から取得する候補取得部と、現用語位置で示される現用語、次用語位置候補で示される次用語候補、および現用語と次用語候補との間の用語である１以上の中間用語を、各々区別して用いて、２以上の要素を有するベクトルを取得するベクトル取得部と、ベクトル取得部が取得したベクトルと重みベクトルとを用いて、候補取得部が取得した１以上の各次用語位置候補の用語が現用語の次に翻訳される次用語である確率に関する確率情報を、１以上の次用語位置候補ごとに取得する確率情報取得部と、確率情報取得部が取得した確率情報を出力する出力部とを具備している。

かかる構成により、原言語文中において、今、翻訳した用語位置が分かっている状態で、次に翻訳するべき用語位置を正確に決定することができる。

また、本第二の発明の翻訳語順情報出力装置は、第一の発明に対して、ベクトル取得部は、現用語、当該現用語の直前の用語または直後の用語を含む１以上の現用語周辺用語、次用語候補、当該次用語候補の直前の用語または直後の用語を含む１以上の次用語周辺用語、原言語文における現用語と次用語候補の相対的な語順に関する情報である語順情報、現用語と次用語候補との原言語文での距離に関する情報である距離情報、および現用語と次用語候補との間の用語である１以上の中間用語を有する元情報を取得する元情報取得手段と、元情報取得手段が取得した元情報を用いて、２以上の要素を有するベクトルを取得するベクトル取得手段とを具備している。

かかる構成により、原言語文中において、今、翻訳した用語が分かっている状態で、次に翻訳するべき用語を正確に決定することができる。

また、本第三の発明の翻訳語順情報出力装置は、第一の発明に対して、ベクトル取得部は、現用語、当該現用語の直前の用語または直後の用語を含む１以上の現用語周辺用語、次用語候補、当該次用語候補の直前の用語または直後の用語を含む１以上の次用語周辺用語、原言語文における現用語と次用語候補の相対的な語順に関する情報である語順情報、および現用語と次用語候補との原言語文での距離に関する情報である距離情報を有する元情報を取得する元情報取得手段と、元情報取得手段が取得した元情報を用いて、２以上の要素を有するベクトルを取得するベクトル取得手段とを具備している。

かかる構成により、原言語文中において、今、翻訳した用語が分かっている状態で、次に翻訳するべき用語をより正確に決定することができる。

また、本第四の発明の機械翻訳装置は、原言語の用語と目的言語の用語との組である２以上の用語対を格納し得る用語対辞書と、上記の翻訳語順情報出力装置と、翻訳語順情報出力装置が出力した１以上の次用語候補の確率情報から次用語を決定し、当該次用語に対応する目的言語の用語を、用語対辞書から取得する目的言語用語取得部と、目的言語用語取得部が取得した１以上の目的言語の用語から目的言語文を構成する目的言語文構成部と、目的言語文構成部が構成した目的言語文を出力する目的言語文出力部とを具備している。

かかる構成により、精度の高い機械翻訳が可能となる。

また、本第五の発明の学習装置は、ベクトルの各要素の重みを示す重みベクトルを格納し得る重みベクトル格納部と、原言語文と目的言語文との組である２以上の対訳文であるパラレルコーパスを格納し得るパラレルコーパス格納部と、原言語文を構成する用語と目的言語文を構成する用語との対応を示す情報である用語アライメント情報を格納し得る用語アライメント情報格納部と、２以上の各対訳文が有する２以上の各目的言語文の左から右に、各目的言語文の現用語を移動させながら、各目的言語文の現用語の位置を示す現用語位置と次用語の位置を示す次用語位置とを取得し、用語アライメント情報を用いて、各目的言語文の現用語位置と次用語位置に対応する各原言語文の現用語の位置を示す現用語位置と次用語の位置を示す次用語位置と当該次用語位置以外のすべての次用語位置候補とを取得し、各原言語文の現用語位置と次用語位置とすべての次用語位置候補に関する１または２以上の特徴量を取得し、当該取得した特徴量を用いて、エントロピーを最大にするように重みベクトルを決定し、当該重みベクトルを取得する学習部と、学習部が取得した重みベクトルを、前記重みベクトル格納部に蓄積する重みベクトル蓄積部とを具備する。

かかる構成により、精度の高い機械翻訳を行うために利用される重みベクトルを学習できる。

本発明による翻訳語順情報出力装置によれば、機械翻訳において、翻訳の語順を正確に決定できる。

実施の形態１における翻訳語順情報出力装置１のブロック図実施の形態１における翻訳語順情報出力装置１の動作について説明するフローチャート実施の形態１におけるSequenceモデルにおけるラベル系列を示す図実施の形態２における機械翻訳装置２のブロック図実施の形態３における学習装置３のブロック図実施の形態３における学習装置３の動作について説明するフローチャート実施の形態３における実験結果を示す図実施の形態３における他の実験結果を示す図上記各実施の形態におけるコンピュータシステムの概観図上記各実施の形態におけるコンピュータシステムのブロック図従来技術におけるＣＰとＮＰの例を示す図従来技術におけるlexical reorderingモデルを説明する図従来技術の課題を説明する図

以下、翻訳語順情報出力装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。

（実施の形態１）
本実施の形態において、原言語文中において、今、翻訳した用語が分かっている状態で、次に翻訳するべき用語を正確に決定することができる翻訳語順情報出力装置について説明する。なお、本明細書において、用語とは、通常、単語であるが、複数の単語、句等でも良い。また、翻訳語順情報出力装置は、通常、統計翻訳において利用される。

また、本翻訳語順情報出力装置は、後述するPairモデル、またはSequenceモデル等を用いる。

図１は、本実施の形態における翻訳語順情報出力装置１のブロック図である。翻訳語順情報出力装置１は、文格納部１１、重みベクトル格納部１２、受付部１３、候補取得部１４、ベクトル取得部１５、確率情報取得部１６、出力部１７を備える。

ベクトル取得部１５は、元情報取得手段１５１、ベクトル取得手段１５２を備える。

文格納部１１は、１または２以上の原言語文を格納し得る。原言語文とは、翻訳対象の原言語の文である。

重みベクトル格納部１２は、ベクトルの各要素の重みを示す重みベクトルを格納し得る。ベクトルとは、後述する元情報を引数とする２以上の素性関数を用いて取得された２以上の要素を有する情報である。素性関数は、バイナリ素性関数であることは好適である。例えば、ある素性関数ｆは、ＣＰの用語をs_i、ＮＰ候補の用語をs_jで表した場合に、その素性関数で用いている素性をs_i＝「彼」，s_j＝「買った」とすると、以下の数式１のようになる。

また、重みベクトルは、例えば、実施の形態２で説明する学習装置により学習されたベクトルである。

受付部１３は、原言語文の中の一の用語であり、現在の翻訳対象の用語である、現用語の位置を受け付ける。現用語の位置を現用語位置という。現在の翻訳対象の用語とは、最後の翻訳対象の用語である、と言っても良い。ここで、用語とは、通常、単語であるが、句等でも良い。用語は文を構成するまとまりのある一部分である。また、受け付けとは、ソフトウェアからの受け付け、有線もしくは無線の通信回線を介して送信された情報の受信、光ディスクや磁気ディスク、半導体メモリなどの記録媒体から読み出された情報の受け付け、キーボードやマウス、タッチパネルなどの入力デバイスから入力された情報の受け付けなどを含む概念である。

候補取得部１４は、現用語位置と、１以上の次用語位置候補を、原言語文から取得する。次用語位置候補とは、現用語の次に翻訳される候補となる用語の位置である。候補取得部１４は、原言語文の中の現用語以外のすべての用語の位置を次用語位置候補として取得しても良い。また、候補取得部１４は、原言語文の中の現用語およびＢＯＳ（文の最後を示す情報）以外のすべての用語の位置を次用語位置候補として取得しても良い。また、候補取得部１４は、原言語文の中の現用語および既に翻訳された翻訳済用語を除いて、原言語文の中の１以上の用語を次用語候補として取得しても良い。

ベクトル取得部１５は、現用語、次用語候補、および原言語文を用いて、２以上の要素を有するベクトルを取得する。

また、ベクトル取得部１５は、原言語文の中の用語であって、現用語と次用語候補との間の用語である１以上の中間用語をも用いて、２以上の要素を有するベクトルを取得することは好適である。ここで、ベクトル取得部１５は、通常、現用語と次用語候補と中間用語とを、各々区別して用いて、ベクトルを取得する。ベクトル取得部１５は、例えば、現用語に「０」、中間用語に「１」、次用語候補に「２」のラベルを付す。そして、ベクトル取得部１５は、例えば、「０」「１」「２」からなるラベルシーケンスを構成し、当該ラベルシーケンスを用いて、ベクトルを取得する。

さらに、ベクトル取得部１５は、通常、２以上の素性関数を用いてベクトルを取得する。ここで、素性関数は、例えば、バイナリ素性関数であるが、他の素性関数でも良い。

そして、ベクトル取得部１５を構成する元情報取得手段１５１は、元情報を取得する。元情報とは、ベクトルを取得するために必要な情報である。この元情報は、例えば、現用語、１以上の現用語周辺用語、次用語候補、１以上の次用語周辺用語、語順情報、距離情報を有する。

なお、現用語周辺用語とは、現用語の直前の用語または直後の用語を含む１以上の用語である。現用語周辺用語は、通常、現用語の直前の用語または直後の用語を含む、原言語文中の連続する用語である。また、現用語周辺用語とは、現用語の直前の用語および直後の用語を含む２以上の用語であることは好適である。また、現用語周辺用語は、例えば、原言語文中の、現用語の直前の２用語、および直後の２用語を含む４用語である。

また、次用語周辺用語とは、次用語候補の直前の用語または直後の用語を含む１以上の用語を含む用語である。次用語周辺用語とは、通常、次用語の直前の用語または直後の用語を含む、原言語文中の連続する用語である。また、次用語周辺用語とは、次用語候補の直前の用語および直後の用語を含む２以上の用語であることは好適である。また、次用語周辺用語は、例えば、原言語文中の、次用語の直前の２用語、および直後の２用語を含む４用語である。

また、語順情報とは、原言語文における現用語と次用語候補の相対的な語順に関する情報である。語順情報は、例えば、現用語が次用語候補の左側に存在するか、右側に存在するかを示すフラグである。例えば、現用語が次用語候補の左側に存在する場合は、語順情報は「０」である。また、例えば、現用語が次用語候補の右側に存在する場合は、語順情報は「１」である。

さらに、距離情報とは、現用語と次用語候補との原言語文での距離に関する情報である。距離情報は、通常、現用語と次用語候補との原言語文での距離に応じて、分類されたクラスを示す情報である。ただし、距離情報は、現用語と次用語候補との原言語文での距離そのものでも良い。なお、距離情報が上記クラスを示す情報である場合とは、例えば、距離が「１」（つまり、現用語と次用語候補とが隣接している場合）の場合は、距離情報は「０」、距離が「２以上５以下」である場合は、距離情報は「１」、距離が「６以上」である場合は、距離情報は「２」である。ここで、クラスは３つであるが、４つ、５つ等でも良い。

また、元情報は、例えば、現用語と次用語候補との間の１以上の用語を、さらに有しても良い。なお、元情報は、上記以外の情報を有しても良いことは言うまでもない。

ベクトル取得手段１５２は、元情報取得手段１５１が取得した元情報を用いて、２以上の要素を有するベクトルを取得する。ベクトル取得手段１５２は、通常、２以上の素性関数を用いてベクトルを取得する。ここでの素性関数は、バイナリ素性関数であることは好適である。

また、ベクトル取得手段１５２は、例えば、元情報を構成する２以上の各情報をパラメータとする素性関数からのリターン値を要素とするベクトルを取得する。つまり、ベクトル取得手段１５２は、元情報取得手段１５１が取得した元情報を構成する各情報を、予め決められた素性関数に与え、当該素性関数を実行し、実行結果を取得する。そして、ベクトル取得手段１５２は、当該実行結果を要素とするベクトルを取得する。

確率情報取得部１６は、ベクトル取得部１５が取得したベクトルと、重みベクトル格納部１２の重みベクトル（ｗ）とを用いて、確率情報を１以上の各次用語位置候補ごとに取得する。なお、確率情報とは、候補取得部１４が取得した１以上の各次用語位置候補が現用語の次に翻訳される次用語の位置（次用語位置）である確率に関する情報である。

この確率情報取得部１６は、通常、ベクトル取得部１５が取得したベクトルと重みベクトル（重みベクトルの転置ベクトルでも良い）との内積を用いて、１以上の各次用語位置候補ごとに確率情報を取得する。なお、確率情報取得部１６は、当該積の指数関数を用いて確率情報を取得することは好適である。つまり、確率情報取得部１６は、ｅｘｐ（ベクトル取得部１５が取得したベクトルと重みベクトルとの積）を用いて確率情報を取得することは好適である。さらに、確率情報取得部１６は、積の指数関数の実行結果を正規化することは好適である。つまり、確率情報取得部１６は、（１／Ｚ_ｉ）ｅｘｐ（ベクトル取得部１５が取得したベクトルと重みベクトルとの積）を用いて確率情報を取得することは好適である。なお、ここで、Ｚ_ｉは、正規化項である。

なお、確率情報取得部１６は、次用語位置候補が次用語位置である確率を算出するための式である確率算出式を予め格納している。そして、確率情報取得部１６は、確率算出式を読み出し、当該確率算出式に元情報を代入して、当該確率算出式を実行する。そして、確率情報取得部１６は、次用語位置候補ごとに確率情報を取得する。また、確率算出式は、例えば、ベクトル取得部１５が取得したベクトルと重みベクトル（重みベクトルの転置ベクトルでも良い）との積を有する。さらに具体的には、確率算出式は、例えば、以下の数式２、または数式３である。なお、数式２で示されるモデルはPairモデル、数式３で示されるモデルはSequenceモデルという。

なお、Pairモデルを示す数式２において、現用語位置（ＣＰとも言う。）をｉ、次用語位置候補（ＮＰ候補とも言う。）をｊ、入力文（原言語文）をＳ＝ｓ_０・・・ｓ_ｎ＋１＝ｓ_０ ^ｎ＋１（ただし、ｓ_０＝ＢＯＳ（文頭マーカ）、ｓ_ｎ＋１＝ＥＯＳ（文頭マーカ）とする。また、数式２において、ｗは重みベクトル，ｆの要素はバイナリ素性関数、Ｚ_ｉは正規化項である。このモデルを対訳コーパスと単語アラインメントを用いて学習し、翻訳時には、ＮＰの確率計算に利用する。重みベクトルｗは、訓練データと最大エントロピー法を用いて学習する．また、ＣＰとその周囲の語（ｓ_ｉ−２ ^ｉ＋２）およびＮＰ候補とその周囲の語（ｓ_ｉ−２ ^ｉ＋２）を同時に考慮して確率を計算できる。なお、ＣＰの周囲の語（ｓ_ｉ−２ ^ｉ＋２）は、上述した現用語周辺用語、ＮＰ候補の周囲の語（ｓ_ｉ−２ ^ｉ＋２）は、上述した次用語周辺用語である。

また、ｅｘｐ（）内の最初の項は、ＣＰとラベル系列中の他の位置との組み合わせである。また、２番目の項は、ＮＰ候補とラベル系列中の他の位置との組み合わせを示している。また、数式２において、ｏは語順情報である。そして、現用語が次用語候補より前に存在する場合、語順情報は「０」、現用語が次用語候補より後に存在する場合、語順情報は「１」である。また、数式２において、ｄは距離情報である。数式２において、距離情報は３つの値を採り得る。つまり、数式２において、現用語と次用語候補との原言語文内での距離は、３つ値のいずれかにクラス分けされる。現用語と次用語候補との距離が１の場合、距離情報は「０」、距離が２以上５以下の場合、距離情報は「１」、距離が６以上の場合、距離情報は「２」である。なお、距離情報は、距離そのものより、２以上にクラス分けされていることは好適である。

なお、Sequenceモデルを示す数式３において、Ｚ_ｉは正規化項である。また、ｅｘｐ（）内の最初の項はＣＰとラベル系列中の他の位置との組み合わせである。また、２番目の項は、ＮＰ候補とラベル系列中の他の位置との組み合わせを示している。

また、数式３において、ｌ_ｉは用語ｉ（ＣＰの用語）のとり得るラベル、ｌ_ｊは用語ｊ（ＮＰ候補の用語）のとり得るラベル、ｌ_ｋは用語ｋのとり得るラベルである。

また、Sequenceモデルは、Pairモデルが可能にしている「ＣＰと現用語周辺用語（ＣＰの周囲の語（s_i-2 ⁱ⁺²））およびＮＰ候補と次用語周辺用語（ＮＰ候補の周囲の語（s_i-2 ⁱ⁺²））を同時に考慮する」ことに加えて、「ＮＰ候補間の相対的な語順」および「距離の違い」を訓練データから学習し（すなわち，重みベクトルを適切な値に設定し）、ＮＰ候補の確率を計算する際には、これらも考慮することができる。

相対的な語順を考慮できる理由は、次の通りである。ラベル系列は、相対的な語順を考慮することが出来る。例えば、図３において、ラベル系列ＩＤが１０の場合：「買った」の左に「借りた」が存在することを考慮できる。なぜなら、「買った」にはラベル２が付与され、「借りた」にはラベル１が付与されている。そして、ラベル１はラベル２よりＣＰに相対的に近いと定義されているからである。

距離の違いを考慮できる理由は次の通りである。異なる長さのラベル系列間で区別するようにモデルを設計することによって、当該モデルは、当然距離の影響を取り扱うことができる。長いラベル系列はＣＰとＮＰ候補の間に多くのラベルを含むので、多くの特徴量は、長いラベル系列から抽出される。一方、短いラベル系列はＣＰとＣＰ候補の間に少数のラベルを含むので、少数の特徴量が短いラベル系列から抽出される。これらの違いからのバイアスが、距離の効果を学習するための重要な手がかりを提供する。

出力部１７は、確率情報取得部１６が取得した確率情報を出力する。ここで、出力とは、通常、他の処理装置や他のプログラムなどへの処理結果の引渡しである。なお、他のプログラムとは、例えば、機械翻訳のソフトウェアが有するプログラムである。但し、出力とは、ディスプレイへの表示、プロジェクターを用いた投影、プリンタでの印字、音出力、外部の装置への送信、記録媒体への蓄積などを含む概念である。

文格納部１１、重みベクトル格納部１２は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。文格納部１１等に原言語文等が記憶される過程は問わない。例えば、記録媒体を介して原言語文等が文格納部１１等で記憶されるようになってもよく、通信回線等を介して送信された原言語文等が文格納部１１等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された原言語文等が文格納部１１等で記憶されるようになってもよい。

候補取得部１４、ベクトル取得部１５、元情報取得手段１５１、ベクトル取得手段１５２、および確率情報取得部１６は、通常、ＭＰＵやメモリ等から実現され得る。候補取得部１４等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

出力部１７は、通常、ＭＰＵやメモリ等から実現され得る。ただし、出力部１７は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。出力部１７は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。

次に、翻訳語順情報出力装置１の動作について、図２のフローチャートを用いて説明する。

（ステップＳ２０１）受付部１３は、現用語位置を受け付けたか否かを判断する。現用語位置を受け付ければステップＳ２０２に行き、現用語位置を受け付けなければステップＳ２０１に戻る。

（ステップＳ２０２）候補取得部１４は、文格納部１１から文を読み出す。なお、この文は、翻訳対象の原言語文である。また、ステップＳ２０１で受け付けられた現用語は、この原言語文に含まれる。

（ステップＳ２０３）候補取得部１４は、カウンタｃに１を代入する。

（ステップＳ２０４）候補取得部１４は、ｃ番目の次用語位置候補を取得する。

（ステップＳ２０５）ベクトル取得部１５は、ステップＳ２０４においてｃ番目の次用語位置候補が取得されたか否かを判断する。ｃ番目の次用語位置候補が取得されていればステップＳ２０６に行き、取得されていなければステップＳ２１２に行く。

（ステップＳ２０６）ベクトル取得部１５の元情報取得手段１５１は、元情報を取得する。つまり、元情報取得手段１５１は、例えば、１以上の現用語周辺用語を取得する。ここで、現用語周辺用語は、例えば、現用語の直前の用語、現用語の２つ前の用語、現用語の直後の用語、現用語の２つ後の用語の４つの用語である。かかる現用語周辺用語は、（s_i-2 ⁱ⁺²）と表すことができる、とする。また、元情報取得手段１５１は、例えば、１以上の次用語周辺用語を取得する。ここで、次用語周辺用語は、例えば、次用語候補の直前の用語、次用語候補の２つ前の用語、次用語候補の直後の用語、次用語候補の２つ後の用語の４つの用語である。かかる次用語周辺用語は、（s_j-2 ^j+2）と表すことができる、とする。また、元情報取得手段１５１は、原言語文における現用語と次用語候補の相対的な語順に関する情報である語順情報を取得する。ここで、語順情報は、例えば、０または１である。現用語が次用語候補より前に存在する場合、語順情報は「０」、現用語が次用語候補より後に存在する場合、語順情報は「１」である。また、元情報取得手段１５１は、現用語と次用語候補との原言語文での距離に関する情報である距離情報を取得する。さらに、元情報取得手段１５１は、例えば、現用語と次用語候補との間の１以上の用語を取得する。なお、元情報取得手段１５１が取得した情報と現用語と次用語候補とにより元情報が構成される。

（ステップＳ２０７）ベクトル取得手段１５２は、ステップＳ２０６で取得された元情報を用いて、ベクトルを取得する。ベクトル取得手段１５２は、例えば、２以上の各素性関数に、２以上の元情報を構成する情報を代入し、２以上の要素を有するベクトルを取得する。なお、ここで素性関数は、バイナリ素性関数であることは好適である。また、ベクトル取得手段１５２は、予め２以上の素性関数を格納している。

（ステップＳ２０８）確率情報取得部１６は、重みベクトル（ｗ）を重みベクトル格納部１２から読み出す。

（ステップＳ２０９）確率情報取得部１６は、ステップＳ２０７で取得されたベクトルとステップＳ２０８で読み出した重みベクトルとを用いて、ｃ番目の次用語位置候補が次用語位置となり得る確率情報を取得する。

（ステップＳ２１０）確率情報取得部１６は、ｃ番目の次用語位置候補に対応付けて、ステップＳ２０９で取得した確率情報を、図示しないバッファに一時蓄積する。

（ステップＳ２１１）候補取得部１４は、カウンタｃを１、インクリメントし、ステップＳ２０４に戻る。

（ステップＳ２１２）出力部１７は、図示しないバッファに格納されている各次用語位置候補の確率情報を出力し、ステップＳ２０１に戻る。

なお、図２のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。

以下、本実施の形態における翻訳語順情報出力装置１の具体的な動作について説明する。ここでは、Sequenceモデルを用いて、各次用語候補の確率情報を出力する場合について説明する。また、ここで、翻訳語順情報出力装置１は日英翻訳で利用される装置である、とする。

今、文格納部１１には、原言語文「昨日彼は本を借りたが彼女は買った」が格納されている。

また、ベクトル取得部１５は、ベクトルを算出するための以下の数式４、数式５を格納している。

そして、確率情報取得部１６は、数式３を格納している。

かかる状況において、Sequenceモデルについて説明する。Sequenceモデルにおいて、ＣＰを０、ＣＰとＮＰ候補の間の位置を１、ＮＰ候補を２で表したラベル系列（図３参照）を考える。翻訳語順情報出力装置１は、図３のラベル系列を識別するようにモデルを学習し、そのモデルを用いて確率を計算する。

ここで、受付部１３は、現用語位置（ＣＰ）である「彼」の位置「２」を受け付けた、とする。そして、ＮＰ候補が「買った」の位置「１０」の場合について、翻訳語順情報出力装置１の動作を説明する。つまり、候補取得部１４は、９番目の次用語位置候補（「買った」の位置）である「１０」を取得した、とする。

次に、ベクトル取得部１５の元情報取得手段１５１は、現用語周辺用語s_i-2＝「ＢＯＳ」，s_i-1＝「昨日」，s_i+1＝「は」，s_i+2＝「本」を取得する。なお、ここで、例えば、単に周囲のどんな語彙があるか分かれば良いのではなく、その相対位置（si-1などの情報）も必要である。また、元情報取得手段１５１は、次用語周辺用語s_j-2＝「彼女」，s_j-1＝「は」，s_j+1＝「ＥＯＳ」，s_j+2＝「ＮＵＬＬ」を取得する。また、元情報取得手段１５１は、語順情報「ｏ＝０」（現用語が次用語候補より前に存在する）を取得する。また、元情報取得手段１５１は、距離情報「ｄ＝２」（現用語と次用語候補との距離が６以上）を取得する。さらに、元情報取得手段１５１は、現用語「彼」と次用語候補「買った」を取得する。

次に、ベクトル取得手段１５２は、取得された元情報を構成する各情報を、数式４、数式５（対応する素性関数）に代入し、ベクトルｆを取得する。

次に、確率情報取得部１６は、重みベクトル（ｗ）を重みベクトル格納部１２から読み出す。

続いて、確率情報取得部１６は、取得されたベクトルと読み出した重みベクトルとを数式３に代入し、次用語位置候補（「買った」の位置である「１０」）が次用語位置となり得る確率情報を取得する。

以上の処理をすべての次用語位置候補に対して行う。そして、出力部１７は、各次用語位置候補の確率情報を出力する。

なお、図３において、ラベル系列のＩＤにはＮＰ候補の値を用いている。これによって、ＮＰ候補の確率を計算することと、ラベル系列を識別することとが同じ意味になる。

図３のラベル系列を用いれば、相対的な語順を考慮することが出来る。例えば、図３のラベル系列ＩＤが１０のラベル系列では、「買った」の左に「借りた」が存在することを考慮できる。なぜなら、「買った」にはラベル２が付与され、「借りた」にはラベル１が付与されている。ラベル１はラベル２よりＣＰに相対的に近いと定義されているからである。なお、「借りた」は、上述した中間用語の例である。

また、ＣＰから距離が遠いＮＰ候補のラベル系列は長くなるため、ラベル系列の長さの違いによる影響をモデルの学習に活用することができる。これは、距離の違いによる影響を学習する際に有用である。

以上、本実施の形態によれば、原言語文中において、今、翻訳した用語が分かっている状態で、次に翻訳するべき用語を正確に決定することができる。

なお、本実施の形態において、翻訳語順情報出力装置１は、特に、統計翻訳において有効である。

さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをＣＤ−ＲＯＭなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における翻訳語順情報出力装置１を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータがアクセス可能な記録媒体は、翻訳対象の原言語の文である原言語文を格納し得る文格納部と、ベクトルの各要素の重みを示す重みベクトルを格納し得る重みベクトル格納部とを有し、コンピュータを、前記原言語文の中の一の用語位置であり、現在の翻訳対象の用語位置である現用語位置を受け付ける受付部と、前記現用語位置と、当該現用語の次に翻訳される候補となる用語の位置である１以上の次用語位置候補を、前記原言語文から取得する候補取得部と、前記現用語位置で示される現用語、前記次用語位置候補で示される次用語候補、および前記原言語文を用いて、２以上の要素を有するベクトルを取得するベクトル取得部と、前記ベクトル取得部が取得したベクトルと前記重みベクトルとを用いて、前記候補取得部が取得した１以上の各次用語位置候補の用語が現用語の次に翻訳される次用語である確率に関する確率情報を、前記１以上の各次用語位置候補ごとに取得する確率情報取得部と、前記確率情報取得部が取得した確率情報を出力する出力部として機能させるためのプログラム、である。

また、上記プログラムにおいて、前記ベクトル取得部は、前記現用語、当該現用語の直前の用語または直後の用語を含む１以上の現用語周辺用語、前記次用語候補、当該次用語候補の直前の用語または直後の用語を含む１以上の次用語周辺用語、前記原言語文における前記現用語と前記次用語候補の相対的な語順に関する情報である語順情報、および前記現用語と前記次用語候補との前記原言語文での距離に関する情報である距離情報を有する元情報を取得する元情報取得手段と、前記元情報取得手段が取得した元情報を用いて、２以上の要素を有するベクトルを取得するベクトル取得手段とを具備するものとして、コンピュータを機能させるプログラムであることは好適である。

また、上記プログラムにおいて、前記ベクトル取得部は、前記原言語文の中の用語であって、前記現用語と前記次用語候補との間の用語である１以上の中間用語をも用いて、２以上の要素を有するベクトルを取得するものとして、コンピュータを機能させるプログラムであることは好適である。

また、上記プログラムにおいて、前記ベクトル取得部は、前記現用語、当該現用語の直前の用語または直後の用語を含む１以上の現用語周辺用語、前記次用語候補、当該次用語候補の直前の用語または直後の用語を含む１以上の次用語周辺用語、前記原言語文における前記現用語と前記次用語候補の相対的な語順に関する情報である語順情報、前記現用語と前記次用語候補との前記原言語文での距離に関する情報である距離情報、および前記現用語と前記次用語候補との間の１以上の用語を有する元情報を取得する元情報取得手段と、前記元情報取得手段が取得した元情報を用いて、２以上の要素を有するベクトルを取得するベクトル取得手段とを具備するものとして、コンピュータを機能させるプログラムであることは好適である。

（実施の形態２）
図４に、図１乃至図３を参照しつつ詳しく説明した本発明翻訳語順情報出力装置１の出力結果を利用した機械翻訳装置２のブロック図を示す。この機械翻訳装置２は、用語対辞書２１、翻訳語順情報出力装置１、目的言語用語取得部２２、目的言語文構成部２３、目的言語文出力部２４を備えており、通常は統計的機械翻訳装置である。

用語対辞書２１は、２以上の用語対を格納し得る。用語対とは、原言語の用語と目的言語の用語との組である。

目的言語用語取得部２２は、翻訳語順情報出力装置１が出力した１以上の次用語候補の確率情報から次用語を決定し、当該次用語に対応する目的言語の用語を、用語対辞書２１から取得する。

目的言語文構成部２３は、目的言語用語取得部２２が取得した１以上の目的言語の用語から目的言語文を構成する。

目的言語文出力部２４は、目的言語文構成部２３が構成した目的言語文を出力する。ここで、出力とは、ディスプレイへの表示、プロジェクターを用いた投影、プリンタでの印字、音出力、外部の装置への送信、記録媒体への蓄積、他の処理装置や他のプログラムなどへの処理結果の引渡しなどを含む概念である。

用語対辞書２１は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。用語対辞書２１に用語対が記憶される過程は問わない。例えば、記録媒体を介して用語対が用語対辞書２１で記憶されるようになってもよく、通信回線等を介して送信された用語対が用語対辞書２１で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された用語対が用語対辞書２１で記憶されるようになってもよい。

目的言語用語取得部２２、および目的言語文構成部２３は、通常、ＭＰＵやメモリ等から実現され得る。目的言語用語取得部２２等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

目的言語文出力部２４は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。＜構成要素＞は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。

翻訳する語の語順を決定しながら機械翻訳を行う機械翻訳装置２の動作については公知技術であるので、詳細な説明を省略する。

以上、本実施の形態によれば、原言語文中において、今、翻訳した用語が分かっている状態で、次に翻訳するべき用語を正確に決定することができる結果、精度の高い機械翻訳が可能となる。

なお、本実施の形態における機械翻訳装置２を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータがアクセス可能な記録媒体は、原言語の用語と目的言語の用語との組である２以上の用語対を格納し得る用語対辞書を有し、コンピュータを、翻訳語順情報出力装置１と、前記翻訳語順情報出力装置が出力した１以上の次用語候補の確率情報から次用語を決定し、当該次用語に対応する目的言語の用語を、前記用語対辞書から取得する目的言語用語取得部と、前記目的言語用語取得部が取得した１以上の目的言語の用語から目的言語文を構成する目的言語文構成部と、前記目的言語文構成部が構成した目的言語文を出力する目的言語文出力部として機能させるためのプログラム、である。

（実施の形態３）
図５に、上記翻訳語順情報出力装置１または機械翻訳装置２で利用される重みベクトルを学習する学習装置を示す。この学習装置３は、重みベクトル格納部１２、パラレルコーパス格納部３１、用語アライメント情報格納部３２、学習部３３、重みベクトル蓄積部３４を備えている。

パラレルコーパス格納部３１は、パラレルコーパスを格納している。パラレルコーパスは、原言語文と目的言語文との組である多数の対訳文である。また、原言語文は、翻訳対象の原言語の文である。目的言語文は、対となる原言語文の目的言語への正しい翻訳文である。

用語アライメント情報格納部３２は、用語アライメント情報を格納している。用語アライメント情報とは、原言語文を構成する用語と、目的言語文を構成する用語との対応を示す情報である。ここで、目的言語文を構成する用語とは、目的言語の用語であり、原言語文を構成する用語の目的言語への翻訳結果である。

学習部３３は、パラレルコーパス格納部３１に格納されている対訳文と、用語アライメント情報格納部３２に格納されている用語アライメント情報とを用いて、重みベクトルを取得する。

具体的には、学習部３３は、パラレルコーパス格納部３１に格納されている２以上の各対訳文が有する２以上の各目的言語文の左から右に、各目的言語文の現用語を移動させながら、各目的言語文の現用語の位置を示す現用語位置と次用語の位置を示す次用語位置とを取得する。次に、学習部３３は、用語アライメント情報を用いて、当該各目的言語文の現用語位置と次用語位置に対応する原言語文の現用語位置と、次用語位置と、すべての次用語位置候補とを取得する。なお、現用語位置は現用語の位置を示す情報であり、次用語位置は次用語の位置を示す情報であり、次用語位置候補は次用語位置以外のすべての次用語候補の位置を示す情報である。次に、学習部３３は、各原言語文の現用語位置と次用語位置とすべての次用語位置候補に関する特徴量を取得する。なお、上記の「現用語を移動させる」とは、現用語を示すポインタを移動させること等の意味である。

ここで、学習部３３が取得する特徴量は、例えば、<o><s_p><s_q>である。また、pはi-2〜i+2，qはj-2〜j+2の値を取り得る。また、ここで、p=i,q=jの場合を考える、とする。また、<o>は語順情報であり、例えば、「i<j」の場合は「０」である。また、「s_i」＝「彼」、「s_j」＝「買った」とする。<s_p>は、ＣＰを含むＣＰの前２用語、およびＣＰの後ろ２用語の、合計５用語である。また、<s_q>は、ＮＰ候補含むＮＰ候補の前２用語、およびＮＰ候補の後ろ２用語の、合計５用語である。なお、<s_p><s_q>ともに、用語の位置の情報も含む。また、取得する特徴量は、例えば、<s_i-2>、<s_i-1>、<s_i>、<s_i+1>、<s_i+2>、<t_i>、<t_i-1,t_i>、<t_i,t_i+1>、<s_i,t_i>等でも良い。ここで、<s_i>は現用語、<s_i-2>は現用語より２つ前の用語、<s_i-1>現用語の直前の用語、<s_i+1>は現用語の直後の用語、<s_i+2>は現用語より２つ先の用語、<t_i>は現用語の品詞、<t_i-1>は現用語の直前の用語の品詞、<t_i+1>は現用語の直後の用語の品詞、<t_i-1,t_i>は現用語の直前の用語の品詞および現用語の品詞、<t_i,t_i+1>は現用語の品詞および現用語の直後の用語の品詞である。さらに、取得する特徴量は、例えば、<ｏ>,<ｏ,ｓ_p>,<ｏ,ｔ_i>,<ｏ,ｔ_j>,<ｏ,ｄ>,<ｏ,ｓ_p,ｓ_q>,<ｏ,ｔ_i,ｔ_j>,<ｏ,ｔ_i-1,ｔ_i,ｔ_j>,<ｏ,ｔ_i,ｔ_i+1,ｔ_j>,<ｏ,ｔ_i,ｔ_j-1,ｔ_j>,<ｏ,ｔ_i,ｔ_j,ｔ_j+1>,<ｏ,ｓ_i,ｔ_i,ｔ_j>,<ｏ,ｓ_j,ｔ_i,ｔ_j>等でも良い。ここで、pは「p∈{p|i-2<=p<=i+2 ∨ j-2<=p<=j+2}」を満たす。また、(p,q)は、「(p,q)∈{(p,q)i-2<p<i+2 ∧ j-2<q<j+2 ∧ (|p-i|<=1∨|q-j|<=1)}」を満たす。

そして、学習部３３は、上記の処理をすべての対訳文に対して行う。次に、学習部３３は、エントロピーを最大にするように重みベクトルを決定する。なお、かかる方法は、LBFGS methodと呼ばれており、公知技術であるので、詳細な説明を省略する。また、LBFGS methodについて、論文"D.C. Liu and J. Nocedal. 1989. On the limited memory method for large scale ptimization. Mathematical Programming B, 45(3):503-528."を参照のこと。また、学習部３３は、重みベクトルのスムージングのために、Gaussian priorを使用することは好適である。なお、Gaussian priorについて、論文"Stanley F. Chen and Ronald Rosenfeld. 1999. A gaussian prior for smoothing maximum entropy models.Technical report."に記載されているので、詳細な説明は省略する。

重みベクトル蓄積部３４は、学習部３３における学習処理により取得した重みベクトルを、重みベクトル格納部１２に蓄積する。

パラレルコーパス格納部３１、および用語アライメント情報格納部３２は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。パラレルコーパス格納部３１等にパラレルコーパス等が記憶される過程は問わない。例えば、記録媒体を介してパラレルコーパス等がパラレルコーパス格納部３１等で記憶されるようになってもよく、通信回線等を介して送信されたパラレルコーパス等がパラレルコーパス格納部３１等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力されたパラレルコーパス等がパラレルコーパス格納部３１等で記憶されるようになってもよい。

学習部３３、および重みベクトル蓄積部３４は、通常、ＭＰＵやメモリ等から実現され得る。学習部３３等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

次に、学習装置３の動作について、図６のフローチャートを用いて説明する。

（ステップＳ６０１）学習部３３は、カウンタｃに１を代入する。

（ステップＳ６０２）学習部３３は、パラレルコーパス格納部３１にｃ番目の対訳文が存在するか否かを判断する。ｃ番目の対訳文が存在すればステップＳ６０３に行き、存在しなければステップＳ６１０に行く。

（ステップＳ６０３）学習部３３は、カウンタｄに１を代入する。

（ステップＳ６０４）学習部３３は、ｃ番目の対訳文の目的言語文中にｄ番目の現用語が存在するか否かを判断する。ｄ番目の現用語が存在すればステップＳ６０５に行き、ｄ番目の現用語が存在しなければステップＳ６０９に行く。

（ステップＳ６０５）学習部３３は、ｃ番目の対訳文の目的言語文から、ｄ番目の現用語の位置を示す現用語と次用語の位置を示す次用語位置とを取得する。

（ステップＳ６０６）学習部３３は、用語アライメント情報を用いて、ｄ番目の現用語位置と次用語位置に対応する、原言語文中の現用語の位置を示す現用語位置と次用語の位置を示す次用語位置と当該次用語位置以外のすべての次用語位置候補とを取得する。

（ステップＳ６０７）学習部３３は、ステップＳ６０６で取得した現用語位置と次用語位置とすべての次用語位置候補とを用いて、１または２以上の特徴量を取得する。そして、学習部３３は、取得した１または２以上の特徴量を、図示しないバッファに一時蓄積する。

（ステップＳ６０８）学習部３３は、カウンタｄを１、インクリメントし、ステップＳ６０４に戻る。

（ステップＳ６０９）学習部３３は、カウンタｃを１、インクリメントし、ステップＳ６０２に戻る。

（ステップＳ６１０）学習部３３は、図示しないバッファに格納されている多数の特徴量を用いて、エントロピーを最大にするように重みベクトルを決定する。なお、本ステップにおいて、重みベクトルのスムージング処理も行う。

（ステップＳ６１１）
重みベクトル蓄積部３４は、ステップＳ６１１で学習部３３が取得した重みベクトルを重みベクトル格納部１２に蓄積する。

以上、本実施の形態によれば、翻訳語順情報出力装置１で使用する重みベクトルを学習できる。

さらに、本実施の形態における学習装置３の処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをＣＤ−ＲＯＭなどの記録媒体に記録して流布しても良い。

なお、本実施の形態における学習装置３を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータがアクセス可能な記録媒体は、ベクトルの各要素の重みを示す重みベクトルを格納し得る重みベクトル格納部と、原言語文と目的言語文との組である２以上の対訳文であるパラレルコーパスを格納し得るパラレルコーパス格納部と、原言語文を構成する用語と目的言語文を構成する用語との対応を示す情報である用語アライメント情報を格納し得る用語アライメント情報格納部とを具備し、コンピュータを、前記２以上の各対訳文が有する２以上の各目的言語文の左から右に、各目的言語文の現用語を移動させながら、各目的言語文の現用語の位置である現用語位置と次用語の位置である次用語位置とを取得し、前記用語アライメント情報を用いて、各目的言語文の現用語位置と次用語位置に対応する各原言語文の現用語の位置を示す現用語位置と次用語の位置を示す次用語位置と当該次用語位置以外のすべての次用語位置候補とを取得し、各原言語文の現用語位置と次用語位置とすべての次用語位置候補とに関する１または２以上の特徴量を取得し、当該取得した特徴量を用いて、エントロピーを最大にするように重みベクトルを決定し、当該重みベクトルを取得する学習部と、前記学習部が取得した重みベクトルを、前記重みベクトル格納部に蓄積する重みベクトル蓄積部として機能させるためのプログラム、である。
（実験結果）

以下、翻訳語順情報出力装置１等に対する実験の結果について述べる。
（１）実験の前提

学習装置３のパラレルコーパス格納部３１に、日本語を原言語とし、英語を目的言語とした、特許文書を格納した。また、英語を原言語とし、中国語を目的言語とした、特許文書も、パラレルコーパス格納部３１に格納した。なお、用いた特許文書は、ＮＴＣＩＲ−９の特許機械翻訳タスク（Isao Goto, Bin Lu, Ka Po Chow, Eiichiro Sumita, and Benjamin K. Tsou. 2011. Overview of the patent machine translation task at the NTCIR-9 workshop.In Proceedings of NTCIR-9, pages 559-578.参照）の文書である。

そして、日本語の形態素解析ソフトとして、Ｍｅｃａｂ（インターネットＵＲＬ：http://mecab.sourceforge.net参照）を用いた。また、中国文の区切り、品詞タグ付けのために、Stanford segmenterとtagger（インターネットＵＲＬ：http://nlp.stanford.edu/software/segmenter.shtml、http://nlp.stanford.edu/software/tagger.shtml参照）を用いた。また、トレーニングデータとして、４０語以内の文を選択した。そして、日英の約２０５万の対訳文、中英の約４９万の対訳文を使用した。単語アライメントを取得するために、GIZA+ +とgrowdiag-final-and heuristicsを使用した。また、単語アライメントのエラーを低減するために、冠詞{a,an,the}を英文から削除した。また、助詞｛が、を、は｝を日本文から削除した。これらの単語は、他言語文のどの単語にも対応していないからである。そして、単語語アライメントの後、削除した単語を元の位置に戻した。また、５グラムの言語モデルを使用した。この５グラムの言語モデルは、バイリンガルのトレーニングデータの英語文のセットである。

本実験では、Ｍｏｓｅｓデコーダー（論文"Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris Callison-Burch, Marcello Federico, Nicola Bertoldi, Brooke Cowan, Wade Shen, Christine Moran, Richard Zens, Chris Dyer, Ondrej Bojar, Alexandra Constantin, and Evan Herbst. 2007. Moses: Open source toolkit for statistical machine translation. In Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics Companion Volume Proceedings of the Demo and Poster Sessions, pages 177-180, Prague, Czech Republic,June. Association for Computational Linguistics."参照）と互換性のある独自のフレーズベースのＳＭＴを用いた。

また、本実験において、ＳＭＴの重みベクトルの各パラメータは、ＭＥＲＴによってチューニングされた。また、本実験において、ＭＥＲＴの結果を安定させるために、開発データの最初の半分を使用して、ＭＥＲＴにより３回チューニングを行った。そして、３つのＳＭＴの重みベクトルのパラメータセットの中から、次の半分の開発データを用いた場合に、BLEUのスコアが最も良いＳＭＴの重みベクトルのパラメータセットを選択した。

また、本実験において、標準的なＳＭＴの特徴量セットと標準的なものとは異なる特徴量セットとからなる共通のＳＭＴ特徴量セットを用いて、システムを比較した。共通のＳＭＴ特徴量セットは、以下の５つである。
（１）the linear distortion cost model feature(LINEAR)
（２）the linear distortion cost model feature and the six MSD bidirectional lexical distortion model features (LINEAR +LEX)
（３）the outbound and inbound distortion model features discriminating nine distortion classes(9-CLASS)
（４）翻訳語順情報出力装置１の一例であるPairモデルの特徴量(PAIR)
（５）翻訳語順情報出力装置１の一例であるSequenceモデルの特徴量(SEQUENCE).

また、翻訳語順情報出力装置１の一例であるPairモデル、Sequenceモデルにおいて、以下のように学習させた。つまり、約２０万の対訳文と用語アライメント情報とを、それぞれパラレルコーパス格納部３１、用語アライメント情報格納部３２に格納した。ここで、Sequenceモデルで使用した特徴量は、現用語と次用語の位置のラベルのペアであり、＜０，１＞＜１，０＞＜１，２＞である。

また、LBFGS methodを用いて、エントロピーを最大にするように重みベクトルを決定した。さらに、重みベクトルのスムージングのために、Gaussian priorを使用した。

また、9-CLASSにおいて、Sequenceモデルの際と同様の学習データを用いた。また、9-CLASSにおいて、特徴量として<s_i-2>、<s_i-1>、<s_i>、<s_i+1>、<s_i+2>、<t_i-1>、<t_i>、<t_i+1>、<t_i-1,t_i>、<t_i,t_i+1>を用いた。なお、これらの特徴量テンプレートは、SequenceモデルやPairモデルの特徴量テンプレートに対応している、Sequenceモデル等において、上記の特徴量に加えて、相対的な原言語文における位置情報を特徴量として用いている。なお、この特徴量は、Greenら（論文"Spence Green, Michel Galley, and Christopher D. Manning. 2010. Improved models of distortion cost for statistical machine translation. In Human Language Technologies: The 2010 Annual onference of the North American Chapter of the Association for Computational Linguistics, pages 867-875, Los Angeles, California, June. Association for Computational Linguistics"参照）によって用いられた。また、位置情報は、５つの値にクラス化されている。また、インバウンドモデルにおいて、特徴量テンプレートのｉはｊに変化している。また、ここで、学習用の文章において、４回以上出現する特徴量が使用されている。さらに、モデルパラメータを推定するために、Gaussian priorスムージングを伴う最大エントロピー法が使用された。また、LINEAR +LEXのモデルは、翻訳モデルを構築するために用いられたデータをすべて用いて構築された。
（２）実験結果

以下、翻訳語順情報出力装置１を用いた機械翻訳装置２の実験結果について説明する。ここで、上記の（１）〜（５）の５つ（LINEAR、LINEAR +LEX、9-CLASS、PAIR、SEQUENCE）のぞれぞれを用いた場合について、機械翻訳の質を評価した。また、本実験において、BLEU−４の自動評価スコアを用いて、機械翻訳の質を評価した。

また、本実験において、Distortionの制限として、１０、２０、３０、および無限大（∞）について、評価を行った。その評価結果を図７に示す。図７において、翻訳語順情報出力装置１の一例であるSequenceモデルを使用した場合が、他と比較して、日英翻訳（Japanese-English）、および中英翻訳（Chinese-English）ともに、最良であった。

また、Sequenceモデルは、Pairモデルの結果より良かった。これは、ＣＰとＮＰ候補の間の相対的な語順や、ＣＰとＮＰ候補の間の用語を考慮することは有効であることを示している。

また、Pairモデルは、9-CLASSの結果を上回った。これは、ＣＰの用語、ＮＰ候補の用語の両方を考慮することが有効であることを示している。

また、語順が大きく異なる言語間（例えば、日本語と英語等）の翻訳では、小さいDistortionの制限では正確な翻訳は困難であることが示せた。

日英翻訳において、Sequenceモデルを使用した場合、Distortionの制限１０より、２０や３０の方が良好な結果が得られた（図７参照）。一方、LINEAR、LINEAR +LEX、9-CLASSでは、このようなことは実現されなかった（図７参照）。このことは、Sequenceモデルは、他と比較して、より長距離の並び替え候補を扱うことができることを示している。

また、本実験において、Mosesインプリメンテーションを用いた階層型のフレーズベースＳＭＴ（Ｈｉｅｒ）をテストした。本テストにおいて、システム設定のために、無制限のmax-chart-spanを使用した。その結果、Ｈｉｅｒにおいて日英翻訳では、BLEU−４の値は「３０．４７」、中英翻訳では、BLEU−４の値は「３２．６６」であった。これらの値は、Sequenceモデルを下回っている。また、日英翻訳における両者の差は大きく、中英翻訳における両者の差は小さかった。

さらに、本実験において、日英翻訳において、３〜２０のDistortionを３種類のモデル（SEQUENCE、PAIR、CORPUS）に適用した結果である確率（平均的なDistortionの確率）を算出した。かかる実験の結果を示すグラフを図８に示す。CORPUSは、翻訳モデルを構築するために使用される単語アラインメント情報から得た学習データの実際の歪みの確率である。また、ここでのCORPUSのDistortionの確率は、Distortionの数を学習データのDistortionの総数で割った値である。３種類のモデルにおいて、使用されている距離のクラスは同じである。

また、図８において、PAIRでは、ほぼ同じ平均のDistortion確率を生成していることを示している。一方、Distortionの長さが増加した場合に、SEQUENCEの平均のDistortion確率は減少傾向を示している。なお、ここで、Distortionの長さが異なっても、距離クラスは同じである。この傾向は、CORPUSでも同様であった（図８参照）。以上より、翻訳語順情報出力装置１におけるSEQUENCEでは、訓練データから、適宜、距離の影響を学習できることが分かる。

また、図９は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の翻訳語順情報出力装置等を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図９は、このコンピュータシステム３００の概観図であり、図１０は、システム３００のブロック図である。

図９において、コンピュータシステム３００は、ＣＤ−ＲＯＭドライブ３０１２を含むコンピュータ３０１と、キーボード３０２と、マウス３０３と、モニタ３０４とを含む。

図１０において、コンピュータ３０１は、ＣＤ−ＲＯＭドライブ３０１２に加えて、ＭＰＵ３０１３と、バス３０１４と、ＲＯＭ３０１５と、ＲＡＭ３０１６と、ハードディスク３０１７とを含む。なお、バス３０１４は、ＭＰＵ３０１３やＣＤ−ＲＯＭドライブ３０１２に接続されている。また、ＲＯＭ３０１５には、ブートアッププログラム等のプログラムが記憶されている。また、ＲＡＭ３０１６は、ＭＰＵ３０１３に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのものである。また、ハードディスク３０１７は、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのものである。ここでは、図示しないが、コンピュータ３０１は、さらに、ＬＡＮへの接続を提供するネットワークカードを含んでも良い。

コンピュータシステム３００に、上述した実施の形態の翻訳語順情報出力装置等の機能を実行させるプログラムは、ＣＤ−ＲＯＭ３１０１に記憶されて、ＣＤ−ＲＯＭドライブ３０１２に挿入され、さらにハードディスク３０１７に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ３０１に送信され、ハードディスク３０１７に記憶されても良い。プログラムは実行の際にＲＡＭ３０１６にロードされる。プログラムは、ＣＤ−ＲＯＭ３１０１または図示しないネットワークから直接、ロードされても良い。

プログラムは、コンピュータ３０１に、上述した実施の形態の翻訳語順情報出力装置等の機能を実行させるオペレーティングシステム、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能（モジュール）を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム３００がどのように動作するかは周知であり、詳細な説明は省略する。

また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。

また、上記各実施の形態において、各処理（各機能）は、単一の装置（システム）によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。

本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

以上のように、本発明にかかる翻訳語順情報出力装置は、統計翻訳において、原言語文中において、今、翻訳した用語が分かっている状態で、次に翻訳するべき用語を正確に決定することができる、という効果を有し、統計翻訳装置等として有用である。

１翻訳語順情報出力装置
２機械翻訳装置
３学習装置
１１文格納部
１２ベクトル格納部
１３受付部
１４候補取得部
１５ベクトル取得部
１６確率情報取得部
１７出力部
２１用語対辞書
２２目的言語用語取得部
２３目的言語文構成部
２４目的言語文出力部
３１パラレルコーパス格納部
３２用語アライメント情報格納部
３３学習部
３４ベクトル蓄積部
１５１元情報取得手段
１５２ベクトル取得手段

Claims

翻訳対象の原言語の文である原言語文を格納し得る文格納部と、
ベクトルの各要素の重みを示す重みベクトルを格納し得る重みベクトル格納部と、
前記原言語文の中の一の用語位置であり、現在の翻訳対象の用語位置である現用語位置を受け付ける受付部と、
前記現用語位置と、当該現用語の次に翻訳される候補となる用語の位置である１以上の次用語位置候補を、前記原言語文から取得する候補取得部と、
前記現用語位置で示される現用語、前記次用語位置候補で示される次用語候補、および前記現用語と前記次用語候補との間の用語である１以上の中間用語を、各々区別して用いて、２以上の要素を有するベクトルを取得するベクトル取得部と、
前記ベクトル取得部が取得したベクトルと前記重みベクトルとを用いて、前記候補取得部が取得した１以上の各次用語位置候補の用語が現用語の次に翻訳される次用語である確率に関する確率情報を、前記１以上の各次用語位置候補ごとに取得する確率情報取得部と、
前記確率情報取得部が取得した確率情報を出力する出力部とを具備する翻訳語順情報出力装置。
前記ベクトル取得部は、
前記現用語、当該現用語の直前の用語または直後の用語を含む１以上の現用語周辺用語、前記次用語候補、当該次用語候補の直前の用語または直後の用語を含む１以上の次用語周辺用語、前記原言語文における前記現用語と前記次用語候補の相対的な語順に関する情報である語順情報、前記現用語と前記次用語候補との前記原言語文での距離に関する情報である距離情報、および前記現用語と前記次用語候補との間の用語である１以上の中間用語を有する元情報を取得する元情報取得手段と、
前記元情報取得手段が取得した元情報を用いて、２以上の要素を有するベクトルを取得するベクトル取得手段とを具備する請求項１記載の翻訳語順情報出力装置。
前記ベクトル取得部は、
前記現用語、当該現用語の直前の用語または直後の用語を含む１以上の現用語周辺用語、前記次用語候補、当該次用語候補の直前の用語または直後の用語を含む１以上の次用語周辺用語、前記原言語文における前記現用語と前記次用語候補の相対的な語順に関する情報である語順情報、および前記現用語と前記次用語候補との前記原言語文での距離に関する情報である距離情報を有する元情報を取得する元情報取得手段と、
前記元情報取得手段が取得した元情報を用いて、２以上の要素を有するベクトルを取得するベクトル取得手段とを具備する請求項１記載の翻訳語順情報出力装置。
原言語の用語と目的言語の用語との組である２以上の用語対を格納し得る用語対辞書と、
請求項１から請求項３いずれか記載の翻訳語順情報出力装置と、
前記翻訳語順情報出力装置が出力した１以上の次用語候補の確率情報から次用語を決定し、当該次用語に対応する目的言語の用語を、前記用語対辞書から取得する目的言語用語取得部と、
前記目的言語用語取得部が取得した１以上の目的言語の用語から目的言語文を構成する目的言語文構成部と、
前記目的言語文構成部が構成した目的言語文を出力する目的言語文出力部とを具備する機械翻訳装置。
ベクトルの各要素の重みを示す重みベクトルを格納し得る重みベクトル格納部と、
原言語文と目的言語文との組である２以上の対訳文であるパラレルコーパスを格納し得るパラレルコーパス格納部と、
原言語文を構成する用語と目的言語文を構成する用語との対応を示す情報である用語アライメント情報を格納し得る用語アライメント情報格納部と、
前記２以上の各対訳文が有する２以上の各目的言語文の左から右に、各目的言語文の現用語を移動させながら、各目的言語文の現用語の位置である現用語位置と次用語の位置である次用語位置とを取得し、前記用語アライメント情報を用いて、各目的言語文の現用語位置と次用語位置に対応する各原言語文の現用語の位置を示す現用語位置と次用語の位置を示す次用語位置と当該次用語位置以外のすべての次用語位置候補とを取得し、各原言語文の現用語位置と次用語位置とすべての次用語位置候補に関する１または２以上の特徴量を取得し、当該取得した特徴量を用いて、エントロピーを最大にするように重みベクトルを決定し、当該重みベクトルを取得する学習部と、
前記学習部が取得した重みベクトルを、前記重みベクトル格納部に蓄積する重みベクトル蓄積部とを具備する学習装置。
記録媒体は、
翻訳対象の原言語の文である原言語文を格納し得る文格納部と、
ベクトルの各要素の重みを示す重みベクトルを格納し得る重みベクトル格納部とを具備し、
受付部、候補取得部、ベクトル取得部、確率情報取得部、および出力部により実現される翻訳語順情報出力方法であって、
前記受付部が、前記原言語文の中の一の用語位置であり、現在の翻訳対象の用語位置である現用語位置を受け付ける受付ステップと、
前記候補取得部が、前記現用語位置と、当該現用語の次に翻訳される候補となる用語の位置である１以上の次用語位置候補を、前記原言語文から取得する候補取得ステップと、
前記ベクトル取得部が、前記現用語位置で示される現用語、前記次用語位置候補で示される次用語候補、および前記原言語文を用いて、２以上の要素を有するベクトルを取得するベクトル取得ステップと、
前記確率情報取得部が、前記ベクトル取得ステップで取得されたベクトルと前記重みベクトルとを用いて、前記候補取得ステップで取得された１以上の各次用語位置候補の用語が現用語の次に翻訳される次用語である確率に関する確率情報を、前記１以上の各次用語位置候補ごとに取得する確率情報取得ステップと、
前記出力部が、前記確率情報取得ステップで取得された確率情報を出力する出力ステップとを具備する翻訳語順情報出力方法。
コンピュータがアクセス可能な記録媒体は、
翻訳対象の原言語の文である原言語文を格納し得る文格納部と、
ベクトルの各要素の重みを示す重みベクトルを格納し得る重みベクトル格納部とを有し、コンピュータを、
前記原言語文の中の一の用語位置であり、現在の翻訳対象の用語位置である現用語位置を受け付ける受付部と、
前記現用語位置と、当該現用語の次に翻訳される候補となる用語の位置である１以上の次用語位置候補を、前記原言語文から取得する候補取得部と、
前記現用語位置で示される現用語、前記次用語位置候補で示される次用語候補、および前記原言語文を用いて、２以上の要素を有するベクトルを取得するベクトル取得部と、
前記ベクトル取得部が取得したベクトルと前記重みベクトルとを用いて、前記候補取得部が取得した１以上の各次用語位置候補の用語が現用語の次に翻訳される次用語である確率に関する確率情報を、前記１以上の各次用語位置候補ごとに取得する確率情報取得部と、
前記確率情報取得部が取得した確率情報を出力する出力部として機能させるためのプログラム。