JP6265923B2

JP6265923B2 - 翻訳学習装置、方法、及びプログラム

Info

Publication number: JP6265923B2
Application number: JP2015007131A
Authority: JP
Inventors: 九月貞光; 松尾　義博; 義博松尾; 久子浅野; 仁西川; いつみ斉藤
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2015-01-16
Filing date: 2015-01-16
Publication date: 2018-01-24
Anticipated expiration: 2035-01-16
Also published as: JP2016133920A

Description

本発明は、翻訳学習装置、方法、及びプログラムに係り、特に、翻訳元言語文を翻訳先言語文に翻訳するための翻訳学習装置、方法、及びプログラムに関する。

従来より、構文解析の手法として、自然言語文に対して構造を付与したものや、文脈自由文法（CFG：Context free Grammar）や依存文法が用いられている。文脈自由文法では、{}が１つの部分木を表し、その部分木に対応するラベルを（）として記す。例えば、

{I(NP) { like(V) it(NP)}(VP) }(S)

という形式のものである。

また、文脈自由文法のルールの適用例は、

S->{NP, VP}, NP->{“I”}, VP->{V, NP}, V->{“like”}, N->{“it”}

という形式となる。ここで、NP（noun phrase）は名詞フレーズ、VP（verb phrase）は動詞フレーズ、N（noun）は名詞、V（verb）は動詞、S（string）は文字列を表す。

また、同期文脈自由文法（SCFG：Synchronous Context free Grammar）に基づいて翻訳元言語文（自然言語文）と翻訳先言語文（論理形式文）のフレーズアラインメントを獲得する手法が知られている（非特許文献１参照）。

Y.Wong, R.Mooney,"Learning for Semantic Parsing with Statistical Machine Translation",The Annual Meeting of the North American Chapter of the ACL (NAACL2006) Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris Callison-Burch, Marcello Federico, Nicola Bertoldi, Brooke Cowan, Wade Shen, Christine Moran, Richard Zens, Chris Dyer, Ondrej Bojar, Alexandra Constantin, Evan Herbst, "Moses: Open Source Toolkit for Statistical Machine Translation", Annual Meeting of the Association for Computational Linguistics (ACL), demonstration session, Prague, Czech Republic, June 2007.

しかし、第１の課題として、非特許文献１に記載の論理形式文には形式的な単語（上記例の場合、カッコや.,?等）が多く、翻訳の結果生成されたＳＰＡＲＱＬ文（論理形式文の一種）が、ＳＰＡＲＱＬ文の体裁をなさず、破たんする可能性が高いという問題があった。このような問題を非特許文献１では、別途獲得した論理形式文への変換ルールを併用することでこの問題を回避しているが、統計的機械翻訳（以下、ＳＭＴと記載する）の本来得意とする表現の揺れ、曖昧性の解消といった利点を十全に発揮できていない。例えば、元言語文「価格は？」→論理形式文「“?p=価格 ?o)”」という対応があった場合、出力時にカッコの数が合わなくなる可能性がある。

また、第２の課題として、最も広く使われているＳＭＴツールは非特許文献２に記載の同期文脈自由文法であるが、ｔｒｅｅｂａｓｅｄＳＭＴを用いる場合であっても、同期文脈自由文法を基本として設計されている場合、変数の数が自然言語文と論理形式文間で異なる場合、翻訳が困難となるという問題があった。

例えば、論理形式文側で単語の意味が一つある場合、「AAAの価格は？」という自然言語文は、「SELECT ?o; WHERE {?s = AAA, ?p = prop-ja:価格, ?o }」という論理形式文となる。一方、論理形式文で単語の意味が二つある場合、 AAAの価格は？」という自然言語文は、「SELECT ?o; WHERE {?s = AAA, ?p = prop-ja:価格, ?o ; ?p=prop-ja-nl:価格 ?o. }」という論理形式文となる。このように、自然言語文側で１度しか出現しない価格が、論理形式文側では２回出現する。一般のＳＭＴ手法では、これらの現象を明に扱わないため、翻訳が困難となる。

また、第３の課題として、自然言語文と論理形式文とのペアを多く入手することは困難なため、それらの学習データから得られる翻訳モデル中のフレーズペアは疎になってしまい、未知の文が入力された場合、処理できない可能性が高いという問題があった。例えば、「AAAの価格は？」についての学習データがあり、それを用いて学習した翻訳モデルを用いれば、「AAAの価格は？」という自然言語文から論理形式文の翻訳を行うことができる。一方、「AAAの値段は？」という自然言語文では、「値段」という単語が未知のため、翻訳できない。

また、第４の課題として、自然言語文と論理形式文とのペアの全ての部分文字列に対してアラインメントがあれば、翻訳モデル学習は極めて容易であるが、そのようなアノテーションには大きなコストがかかってしまうという問題がある。一方、共通して用いられる部分的なアラインメントを作ることは比較的コストを低く抑えて作成することが可能である。しかし、このように部分的なアラインメントだけが判明している場合、残る部分文字列のアラインメントを推定したり、翻訳モデルの学習を行う方法は自明ではない。

本発明は、上記問題点を解決するために成されたものであり、精度良く、翻訳元言語文を翻訳先言語文に翻訳するための翻訳モデルを学習することができる翻訳学習装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、第１の発明に係る翻訳学習装置は、入力された、翻訳元言語文と、前記翻訳元言語文に対応する翻訳先言語文とのペアの集合に基づいて、前記翻訳元言語文及び前記翻訳先言語文のペアの各々について、前記翻訳元言語文の単語と前記翻訳先言語文の単語との対応付けである単語アラインメントを推定する単語アラインメント推定部と、前記単語アラインメント推定部により推定された前記単語アラインメントに基づいて、前記翻訳元言語文及び前記翻訳先言語文のペアの各々について、前記ペアの前記単語アラインメントにおいて、前記翻訳元言語文の１つの単語が、前記翻訳先言語文の複数の部分文字列に対応し、かつ、前記複数の部分文字列が同一又は類似している場合、前記１つの単語を複製した前記翻訳元言語文の単語と前記翻訳先言語文の単語との対応付けである複製済単語アラインメントを生成すると共に、前記翻訳元言語文の単語の各々について複製された単語数に基づいて、前記翻訳元言語文の単語の複製数を推定するための単語複製モデルを学習する単語複製部と、前記翻訳元言語文及び前記翻訳先言語文のペアの各々について前記単語複製部により生成された前記複製済単語アラインメントに基づいて、前記翻訳元言語文を前記翻訳先言語文に翻訳するための翻訳モデルを学習する翻訳モデル学習部と、を含んで構成されている。

また、第１の発明に係る翻訳学習装置において、前記翻訳元言語文及び前記翻訳先言語文のペアの各々について、前記翻訳元言語文の部分文字列と前記翻訳先言語文の部分文字列との対応付けを表す予め定められた部分文字列アラインメントに基づいて、前記ペアについての前記複製済単語アラインメントを補正し、前記ペアの各々について補正した前記複製済単語アラインメントに基づいて、前記翻訳元言語文のフレーズと前記翻訳先言語文のフレーズとのペアを格納したフレーズテーブルを推定する半教師ありフレーズ推定部を更に含み、前記翻訳モデル学習部は、前記半教師ありフレーズ推定部により推定された前記フレーズテーブルに基づいて、前記翻訳モデルを学習してもよい。

また、第１の発明に係る翻訳学習装置において、フレーズフィルタリング部と、パラフレージング適用部とを更に含み、前記フレーズフィルタリング部は、前記半教師ありフレーズ推定部により生成されたフレーズテーブルから、前記翻訳先言語文について予め定められた制約を満たさないフレーズを含むペアを削除し、前記翻訳モデル学習部は、前記フレーズフィルタリング部によりフレーズが削除された前記フレーズテーブルに基づいて、前記翻訳モデルを学習し、前記パラフレージング適用部は、前記翻訳モデル学習部により学習された前記翻訳モデルに含まれる各フレーズについて、言い換え可能なフレーズを格納したパラフレーズ辞書を参照して、言い換え可能なフレーズに拡張した前記翻訳モデルを、パラフレーズ済翻訳モデルとして生成してもよい。

第２の発明に係る翻訳学習装置は、入力された、翻訳元言語文と、前記翻訳元言語文に対応する翻訳先言語文とのペアの集合に基づいて、前記翻訳元言語文及び前記翻訳先言語文のペアの各々について、前記翻訳元言語文の単語と前記翻訳先言語文の単語との対応付けである単語アラインメントを推定する単語アラインメント推定部と、前記翻訳元言語文の部分文字列と前記翻訳先言語文の部分文字列との対応付けを表す予め定められた部分文字列アラインメントに基づいて、前記翻訳元言語文及び前記翻訳先言語文のペアの各々について、前記ペアについての前記単語アラインメントを補正し、前記ペアの各々について補正した前記単語アラインメントに基づいて、前記翻訳元言語文のフレーズと前記翻訳先言語文のフレーズとのペアを格納したフレーズテーブルを推定する半教師ありフレーズ推定部と、前記翻訳元言語文及び前記翻訳先言語文のペアの集合と、前記半教師ありフレーズ推定部により推定された前記フレーズテーブルとに基づいて、前記翻訳元言語文を前記翻訳先言語文に翻訳するための翻訳モデルを学習する翻訳モデル学習部と、を含んで構成されている。

第３の発明に係る翻訳学習装置によれば、推定された単語アラインメントに基づいて、翻訳元言語文及び翻訳先言語文のペアの各々について、ペアの単語アラインメントにおいて、翻訳元言語文の１つの単語が、翻訳先言語文の複数の部分文字列に対応し、かつ、複数の部分文字列が同一又は類似している場合、１つの単語を複製した翻訳元言語文の単語と翻訳先言語文の単語との対応付けである単語アラインメントである複製済単語アラインメントを生成すると共に、翻訳元言語文の単語の各々について複製された単語数に基づいて、翻訳元言語文の単語の複製数を推定するための単語複製モデルを学習し、翻訳元言語文及び翻訳先言語文のペアの各々について生成された複製済単語アラインメントに基づいて、翻訳元言語文を翻訳先言語文に翻訳するための翻訳モデルを学習することにより、精度良く、翻訳元言語文を翻訳先言語文に翻訳するための翻訳モデルを学習することができる。

第１の発明に係る翻訳学習方法は、単語アラインメント推定部と、半教師ありフレーズ推定部と、翻訳モデル学習部とを含む翻訳学習装置における翻訳学習方法であって、単語アラインメント推定部が、入力された、翻訳元言語文と、前記翻訳元言語文に対応する翻訳先言語文とのペアの集合に基づいて、前記翻訳元言語文及び前記翻訳先言語文のペアの各々について、前記翻訳元言語文の単語と前記翻訳先言語文の単語との対応付けである単語アラインメントを推定するステップと、前記半教師ありフレーズ推定部が、前記翻訳元言語文の単語と前記翻訳先言語文の単語との一部分の対応付けである部分文字列アラインメントを示す予め定められたアノテートデータに基づいて、前記単語アラインメントの全体のアラインメントを補正したフレーズテーブルを推定するステップと、前記翻訳モデル学習部が、前記翻訳元言語文及び前記翻訳先言語文のペアの集合と、前記半教師ありフレーズ推定部により推定された前記フレーズテーブルとに基づいて、前記翻訳元言語文を前記翻訳先言語文に翻訳するための翻訳モデルを学習するステップと、を含んで実行することを特徴とする。

第２の発明に係る翻訳学習方法は、単語アラインメント推定部と、単語複製部と、翻訳モデル学習部とを含む翻訳学習装置における翻訳学習方法であって、前記単語アラインメント推定部が、入力された、翻訳元言語文と、前記翻訳元言語文に対応する翻訳先言語文とのペアの集合に基づいて、前記翻訳元言語文及び前記翻訳先言語文のペアの各々について、前記翻訳元言語文の単語と前記翻訳先言語文の単語との対応付けである単語アラインメントを推定するステップと、前記単語複製部が、前記単語アラインメント推定部により推定された前記単語アラインメントに基づいて、前記翻訳元言語文及び前記翻訳先言語文のペアの各々について、前記ペアの前記単語アラインメントにおいて、前記翻訳元言語文の１つの単語が、前記翻訳先言語文の複数の部分文字列に対応し、かつ、前記複数の部分文字列が同一又は類似している場合、前記１つの単語を複製した前記翻訳元言語文の単語と前記翻訳先言語文の単語との対応付けである複製済単語アラインメントを生成すると共に、前記翻訳元言語文の単語の各々について複製された単語数に基づいて、前記翻訳元言語文の単語の複製数を推定するための単語複製モデルを学習するステップと、前記翻訳モデル学習部が、前記翻訳元言語文及び前記翻訳先言語文のペアの各々について前記単語複製部により生成された前記複製済単語アラインメントに基づいて、前記翻訳元言語文を前記翻訳先言語文に翻訳するための翻訳モデルを学習するステップと、を含んで実行することを特徴とする。

第４の発明に係るプログラムは、コンピュータを、第１又は第２の発明に係る翻訳学習装置の各部として機能させるためのプログラムである。

本発明の翻訳学習装置、方法、及びプログラムによれば、精度良く、翻訳元言語文を翻訳先言語文に翻訳するための翻訳モデルを学習することができる、という効果が得られる。

第１の実施の形態に係る翻訳学習装置の機能的構成を示すブロック図である。自然言語文の単語と論理形式文の単語の対応付けである単語アラインメントを誤って推定する場合の例を示す概念図である。部分文字列アラインメントアノテートデータの一例を示す図である。半教師ありフレーズ推定による単語アラインメントの改善例を示す図である。第１の実施の形態に係る翻訳装置の機能的構成を示すブロック図である。第１の実施の形態に係る翻訳学習装置における翻訳学習処理ルーチンを示すフローチャートである。第１の実施の形態に係る翻訳装置における翻訳処理ルーチンを示すフローチャートである。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜本発明の実施の形態に係る概要＞

まず、本発明の実施の形態における概要を説明する。

本発明の実施の形態に係る翻訳学習装置及び翻訳装置は、翻訳元言語文（自然言語文）から自動的に翻訳先言語文（論理形式文）へと翻訳することを目的としている。例えば、「AAAの価格は」という自然言語文を、自動的に

?s prop-ja:定価 ?o. FILTER( regex( str(?s), “AAA” ) ).

という論理形式文へと翻訳することである。なお、本実施の形態では、翻訳元言語文を自然言語文とし、翻訳先言語として論理形式文とした場合を例に説明するが、これに限定されるものではなく、翻訳先言語文を他の自然言語文としてもよい。

ここで、「?s」は求めたい主語、「?o」は求めたい目的語、「prop-ja」は述語が定義されたＵＲＩを示し、上記例では条件文として用いられる。「FILTER」も条件文を表し、「regex」は正規表現であることを示す。「str(?s)」は主語を文字列として解釈し、「“AAA”」という文字列を含む場合、条件を満たすことを表す。なお、論理形式文とは、論理式で表される、計算機が理解可能な表現形式であり、λ計算や一般的なデータベースへの問い合わせ言語を含むものである。

＜本発明の第１の実施の形態に係る翻訳学習装置の構成＞

次に、本発明の第１の実施の形態に係る翻訳学習装置の構成について説明する。図１に示すように、本発明の第１の実施の形態に係る翻訳学習装置１００は、ＣＰＵと、ＲＡＭと、後述する翻訳学習処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この翻訳学習装置１００は、機能的には図１に示すように入力部１０と、演算部２０とを備えている。

入力部１０は、自然言語文と、自然言語文に対応する論理形式文とのペアの集合を受け付ける。

演算部２０は、自然言語文間翻訳モデル学習部２８と、単語アラインメント推定部３０と、単語アラインメント３２と、単語複製部３４と、複製済単語アラインメント３６と、半教師ありフレーズ推定部３８と、フレーズテーブル４０と、フレーズフィルタリング部４２と、フィルタリング済フレーズテーブル４４と、翻訳モデル学習部４６と、翻訳モデル４８と、パラフレージング適用部５０と、パラフレーズ済翻訳モデル５２と、自然言語文間翻訳モデル６０と、単語複製モデル６２とを含んで構成されている。

自然言語文間翻訳モデル学習部２８は、以下に説明するように、入力部１０で受け付けた自然言語文と、論理形式文とのペアの集合に基づいて、自然言語文間翻訳モデル６０を学習する。自然言語文間翻訳モデル６０の学習には既知の技術、例えば非特許文献２のmoses等を用いる。

自然言語文間翻訳モデル学習部２８は、まず、自然言語文及び論理形式文に対応付けられる部分文字列の組み合わせを表す部分文字列アラインメントに抽象化ラベル（例えば「“AAA”」に対して抽象化ラベル「entity」がラベル付けされる）が付与された部分文字列アラインメントアノテートデータ２６に基づいて、各ペアの自然言語文及び論理形式文を抽象化する。例えば、自然言語文側を抽象化すると「AAA(=annotated as entity) の価格(=annotated as property) 」は、「[entity] の [property] は」となる。論理形式文側を抽象化すると「?s prop-ja: 定価 ?o.(=annotated as property) FILTER( regex(str(?s), “AAA”(=annotated as entity) )).」は、「 ?s [property] ?o. FILTER( regex(str(?s), [entity])).」となる。

そして、自然言語文間翻訳モデル学習部２８は、同じ抽象化された論理形式文と対となる、抽象化された自然言語文の集合を求め、求められた抽象化された自然言語文の集合に含まれる自然言語文を互いに翻訳対であるとみなして翻訳モデルを学習する。例えば「?s [property] ?o. FILTER( regex(str(?s), [entity])).」という抽象化された論理形式文と対となる、抽象化された自然言語文の集合において、{[entity] の [property] は，[entity] の [property] って何？} 等がある場合、この２文を自然言語文のテンプレートとなる翻訳ペアと見なす。翻訳ペアの組み合わせとして、１０文ある場合には、全組み合わせである４５通りの翻訳ペアを用いて、自然言語文間翻訳モデル６０を学習しても良いし、同じ文を使わないように組み合わせた５通りの翻訳ペアを用いて学習するなどしても良い。また、以下のように、機能語である助詞（例えば「の」）等をあらかじめ削除してから翻訳モデルを作成することで学習データの疎性を抑えることができる。

「 [entity] の [property] は」→「[entity] [property] は」

単語アラインメント推定部３０は、入力部１０で受け付けた自然言語文と、論理形式文とのペアの集合に基づいて、自然言語文及び論理形式文の間の単語の対応付けである単語アラインメントを推定して単語アラインメント３２として記憶する。なお、単語アラインメントの推定には既知の技術として、例えば非特許文献２で用いられているＧＩＺＡ＋＋（ＩＢＭ（Ｒ）モデル)等を用いればよい。

単語複製部３４は、単語アラインメント推定部３０で推定された単語アラインメント３２に基づいて、自然言語文及び論理形式文のペアの各々について、当該ペアの単語アラインメントにおいて、自然言語文の１つの単語が、論理形式文の複数の部分文字列に対応し、かつ、複数の部分文字列が同一又は類似している場合、当該１つの単語を複製し、複製した自然言語文の単語と論理形式文の単語との対応付けである単語アラインメントである複製済単語アラインメント３６を生成すると共に、自然言語文の単語の各々について複製された単語数に基づいて、自然言語文の単語の複製数を推定するための単語複製モデル６２を学習する。

単語複製部３４は、具体的には以下の第１の処理及び第２の処理を行う。

まず、単語複製部３４は、第１の処理として、単語アラインメント推定部３０での推定により得られた単語アラインメント３２の結果から、「１：ｎ対応しており、ｎ側の出現形が同一か、又は類似している」という条件を満たす自然言語側単語を複製し、アラインメントを分割して、複製済単語アラインメント３６として記憶する。ここでｎ側の出現形が同一というのは、「論理形式文側で同じ表層として単語が２回以上現れる場合」であり、ｎ側の出現形が類似しているというのは、「論理形式文側で単語の意味がｎ個ある場合」である。

第１の処理における「論理形式文側で単語の意味がｎ個ある場合」に単語を複製する例を説明する。例えば自然言語文「AAA の価格は」についての単語アラインメントの場合であれば、

アラインメント１：「価格」<->「prop-ja:価格」

アラインメント２：「価格」<->「prop-ja-nl:価格」

という対応が、単語アラインメント推定部３０による単語アラインメント推定の結果により既知であるとする。この場合に、「prop-ja」や「prop-ja-nl」において、論理形式文のデータベースのエンティティ「AAA」の属性「prop-ja:価格」に入っている値が「1000000円」、エンティティ「AAA」の属性「prop-ja-nl:価格」に入っている値が「軽量化によるコストダウンを実施しました」というように、それぞれ「一問一答の答え」と「説明文」であると想定する。これは「AAAの価格は」と聞かれた場合、答えだけを返すよりも、説明も加えた方が、対話が自然に成り立つ場合があるため、このようなケースに対応する状況を仮定している。そして、単語アラインメントにおいて、ｎ個対象となる単語を複製する。上記例の「AAA の価格は」であれば、「AAA の価格価格は」というように４単語目に「価格」を挿入して、次のようにアラインメントする。

アラインメント１：「価格(３単語目)」<->「prop-ja：価格」

アラインメント２：「価格(４単語目)」<->「prop-ja-nl：価格」

この場合、論理形式文側の「prop-ja：価格」と「prop-ja-nl：価格」とが類似している、と判定する。この時の類似尺度には表記文字列に対する、既存の表記編集距離等と閾値を用いれば良い。

一方、複製しない例としては、例えば

アラインメント１：「最大」<->「max：」

アラインメント２：「最大」<->「xsd：」

という単語アラインメントであれば、論理形式文側において単語が非類似である。この場合は、後段のフレーズとして獲得可能であるため、そのまま扱えばよい。なお、２単語以上の単語列内の全単語が同じ１：ｎアラインメントをとる場合には、次のように、Ａ単語及びＢ単語からなる単語列内の順番を保持したまま、単語を複製すると共にアラインメントを含めて分割する。これを形態素として１単語として形態素解析器に記憶することで、デコード時にも同様に扱うことが可能である。

（“ＡＢ”->“ＡＢＡＢ”）

例えば、自然言語文側のＡから論理形式文側のａ及びａ’に、自然言語文側のＢから論理形式文側のｂ及びｂ’のそれぞれに２か所、計４本のアラインメントがあった場合、自然言語文をＡＢ及びＡＢの２つに複製した後、アラインメントをＡＢ<->ａｂ（２本）、ＡＢ<->ａ’ｂ’（２本）のそれぞれに分割する。

次に、第１の処理における「論理形式文側で同じ表層として単語が２回以上現れる場合」に単語を複製する例を説明する。この場合は単なる論理形式文側のＳＰＡＲＱＬ制約上の問題として扱われるものである。例えば「モーターの最大トルクが一番大きな車は」についての単語アラインメントの場合であれば、対応する論理形式文のＳＰＡＲＱＬは以下のようになる。

SELECT DISTINCT ?s ?o ?o1 WHERE {?s (prop-ja:最大トルク-モーター) ?o ; (prop-ja-nl:最大トルク-モーター) ?o1 . FILTER (?o = ?temp) { SELECT (?o AS ?temp) WHERE { ?s (prop-ja:最大トルク-モーター) ?o . } ORDER BY DESC(xsd:integer(?o)) LIMIT 1 } } }

上記の例では「prop-ja:最大トルク-モーター」が２回出現しているが、これは演算のための一時的な代入を「?temp」という変数に対して行うためであり、単なるＳＰＡＲＱＬの記述方法の問題にすぎず、本質的な問題ではない。このような場合には、機械的に単語を必要な数分だけ複製すればよい。上記例の場合は２個に複製すればよい。

単語複製部３４は、第２の処理として、第１の処理において自然言語文の単語の各々について複製された単語数に基づいて、デコード時に自然言語文の単語の複製数を推定するための識別モデルとして単語複製モデル６２を学習する。単語複製モデル６２の学習は論理形式文側の単語毎（類似単語の場合はどちらか一方）、あるいは論理形式文側の単語のクラス、つまりＲＤＦで定義されているフィールド名（s,p,o等）毎に行う。教師信号は複製された単語数とする。例えば、上記第１の処理の例では２単語に複製されたので、“2”とする。学習結果の例としては、

p(2個|“価格”, φ)=0.8 p(1個 |“価格”，φ)=0.2

となる。ここで、φは当該文における素性集合である。第２の処理での識別モデルとしては、既知のモデル、例えばＳＶＭ（サポートベクタマシン）やロジスティック回帰分類器を用いればよく、素性もＢＯＷ（ＢａｇｏｆＷｏｒｄｓ）や係り受け素性等、既知の素性を用いればよい。

半教師ありフレーズ推定部３８は、自然言語文及び論理形式文のペアの各々について、自然言語文の部分文字列と論理形式文の部分文字列との対応付けである予め定められた部分文字列アラインメントに基づいて、当該ペアについての複製済単語アラインメント３６を補正し、ペアの各々について補正した複製済単語アラインメント３６に基づいて、自然言語文のフレーズと論理形式文のフレーズとのペアを格納したフレーズテーブル４０を推定する。

具体的には、半教師ありフレーズ推定部３８は、まず、部分文字列アラインメントアノテートデータ２６を適用して、自然言語文及び論理形式文のペアの各々についての複製済単語アラインメント３６に当てはまる部分文字列アラインメントを定める。図２に、単語アラインメント推定部３０で自動推定された単語アラインメントの例を示す。図２では、黒で塗りつぶされたマスが単語アラインメントを、点線で囲まれたマスはフレーズアラインメントとなり得る箇所を表している。図３に、部分文字列アラインメントアノテートデータ２６における部分文字列アライメントの例を示す。

次に、半教師ありフレーズ推定部３８は、図２の単語アラインメントのうち、図３の部分文字列アラインメントアノテートデータと矛盾する単語アラインメントを削除する。矛盾する単語アラインメントを削除した結果を図４に示す。「×」は灰色の部分文字列アラインメントアノテートデータと矛盾するため、削除された単語アラインメントを示す。また、アラインメントが削除された単語については、単語アラインメント推定部３０で得られている単語アラインメントの確率値を参照し、矛盾せずに最適となるアラインメントの探索及び変更を行うことにより複製済単語アラインメント３６を補正する。例えば、図４において、「×」で示された、アラインメントが削除された箇所に対して、点線で囲まれたフレーズアラインメントとなり得る箇所が変更される。

そして、半教師ありフレーズ推定部３８は、補正された複製済単語アラインメント３６を用いて、対応付けられる自然言語文のフレーズ及び論理形式文のフレーズのペアの各々及びペアの各々の翻訳確率を格納したフレーズテーブル４０の作成を行う。ここでは既存のヒューリスティックとして、例えば非特許文献２のｇｒｏｗ−ｄｉａｇ等の処理を行い、フレーズテーブル４０を得る。

フレーズフィルタリング部４２は、半教師ありフレーズ推定部３８により推定されたフレーズテーブル４０から、論理形式文について予め定められた制約を満たさないフレーズを含むペアを削除し、フィルタリング済フレーズテーブル４４を得る。本実施の形態では、予め定められた制約として、開き括弧“(”や閉じかっこ“)”の数が合うことを用い、開き括弧“(”や閉じかっこ“)”の数が合わないフレーズを含むペアを削除する。

翻訳モデル学習部４６は、フレーズフィルタリング部４２で得られたフィルタリング済フレーズテーブル４４に基づいて、自然言語文を論理形式文に翻訳するための翻訳モデル４８を学習する。本実施の形態では、後述する翻訳装置における翻訳時（デコード時）に必要となる、フレーズ同士の翻訳確率や、フレーズが前後に移動する際の歪み確率等のスコアを記憶した翻訳モデルを学習する。学習方式は既存手法を用いればよく、例えば、非特許文献３（統計的機械翻訳ツールｍｏｓｅｓ、http://www.statmt.org/moses/）にフリーツールとして公開されているｍｏｓｅｓを用いることができる。

パラフレージング適用部５０は、翻訳モデル学習部４６により学習された翻訳モデル４８に含まれる各フレーズについて、言い換え可能なフレーズを格納したパラフレーズ辞書（図示省略）を参照して、言い換え可能なフレーズに拡張し、言い換え可能なフレーズに拡張した翻訳モデルを、パラフレーズ済翻訳モデル５２として生成する。ここで用いるパラフレーズ辞書は既存のものでよく、例えば非特許文献４（水上雅博, Graham Neubig, Sakriani Sakti, 戸田智基, 中村哲. 「日本語言い換えデータベースの構築と言語的個人性変換への応用」言語処理学会第20回年次大会 (NLP). 2014/3）等に記載されているものを用いればよい。本実施の形態では、翻訳モデル学習前にパラフレーズを拡張しても、学習データにパラフレーズの例が現れないため、翻訳確率が付与されないため、翻訳モデル学習後に適用するこことした。

＜本発明の第１の実施の形態に係る翻訳装置の構成＞

次に、本発明の第１の実施の形態に係る翻訳装置の構成について説明する。図６に示すように、本発明の第１の実施の形態に係る翻訳装置２００は、ＣＰＵと、ＲＡＭと、後述する翻訳学習処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この翻訳装置２００は、機能的には図６に示すように入力部２１０と、演算部２２０とを備えている。

入力部２１０は、翻訳対象の自然言語文を受け付ける。

演算部２２０は、自然言語文間翻訳部２２８と、単語複製部２３０と、デコーディング部２３２と、パラフレーズ済翻訳モデル２５２と、自然言語文間翻訳モデル２６０と、単語複製モデル２６２とを含んで構成されている。

自然言語文間翻訳モデル２６０は、自然言語文間翻訳モデル６０と同じものが記憶されている。

部分文字列アラインメントアノテートデータ２２６は、部分文字列アラインメントアノテートデータ２６と同じものが記憶されている。

単語複製モデル２６２は、単語複製モデル６２と同じものが記憶されている。

パラフレーズ済翻訳モデル２５２は、パラフレーズ済翻訳モデル５２と同じものが記憶されている。

自然言語文間翻訳部２２８は、まず、入力部１０で受け付けた自然言語文と、自然言語文及び論理形式文に対応付けられる部分文字列の組み合わせを表す予め定められた部分文字列アラインメントアノテートデータ２２６とに基づいて、自然言語文を抽象化する。例えば、自然言語文の部分文字列「AAA」に対し、部分文字列アラインメントアノテートデータ２２６において抽象化ラベル“entity”が付与されているため、これをそのまま抽象化するための辞書と見なして自然言語文を抽象化する。例えば、自然言語文が「AAA の価格ってどのくらい」であれば、「[entity] の [property] ってどのくらい」と抽象化する。

次に、自然言語文間翻訳部２２８は、自然言語文間翻訳モデル２６０に基づいて、抽象化された自然言語文を自然言語文に翻訳する。ここではｎｂｅｓｔ解を得る。つまり抽象化された自然言語文集合に拡張する。そして、抽象化された自然言語文の部分文字列を元の抽象化される前の部分文字列に変換し、拡張された自然言語文を得る。例えば、抽象化された自然言語文が「[entity] の [property]って何？」であれば「AAAの価格って何？」と変換する。ここで拡張したｎｂｅｓｔ文集合の全ての文に対して後段の単語複製部２３０及びデコーディング部２３２の処理を行い、パラフレーズ済翻訳モデル２５２の翻訳確率に基づいて、最終的な論理形式文を生成すればよい。

なお、自然言語文間翻訳部２２８において、自然言語文間翻訳モデル２６０の学習データの網羅性が高ければ、抽象化された自然言語文集合のうち、入力文からの翻訳確率の最も高いものを選択し、選択された、抽象化自然言語文に対応する抽象化論理形式文へ一意に変換し、さらに抽象化されていた部分文字列に対し、対応する論理形式文側の変換結果を用いて、論理形式文を得てもよい。この場合は、後段の単語複製部２３０及びデコーディング部２３２の処理を行う必要はない。

単語複製部２３０は、単語複製モデル２６２に基づいて、自然言語文間翻訳部２２８で拡張された自然言語文の各々に対し、当該自然言語文の単語の各々について、当該単語の複製数を推定して、当該単語を複製する。

具体的には、単語複製部２３０は、まず、単語複製モデル２６２を用いて、自然言語文に含まれる各単語の複製数を推定する。推定結果の例としては、p（2個|“価格”,φ）=0.85、p（1個|“価格”,φ）=0.15というものである。ここで「φ」は当該自然言語文における素性集合を表す。次に、推定結果に基づいて、単語を複製する。この例の場合は“価格”を２個に複製する。なお、複製の際、単語複製モデル２６２の上位Ｎ種類の複製数を全て出力し、単語複製済自然言語文として保持し、複数の単語複製済自然言語文に対してデコーディングを行ってもよい。

デコーディング部２３２は、パラフレーズ済翻訳モデル２５２に基づいて、単語複製部２３０で単語が複製された、拡張された自然言語文の各々を、論理形式文に翻訳し、翻訳確率に基づいて選択された論理形式文を出力する。翻訳処理には、既存手法を用いればよく、例えば、上記非特許文献３にフリーツールとして公開されているｍｏｓｅｓを用いることができる。

＜本発明の第１の実施の形態に係る翻訳学習装置の作用＞

次に、本発明の実施の形態に係る翻訳学習装置１００の作用について説明する。入力部１０において自然言語文と、自然言語文に対応する論理形式文とのペアの集合を受け付けると、翻訳学習装置１００は、図６に示す翻訳学習処理ルーチンを実行する。

まず、ステップＳ１００では、入力部１０において受け付けた、自然言語文と、自然言語文に対応する論理形式文とのペアの集合を取得する。

次に、ステップＳ１０２では、ステップＳ１００で取得した、自然言語文と論理形式文とのペアの集合、及び部分文字列アライメントアノテートデータ２６に基づいて、自然言語文間翻訳モデル６０を学習する。

ステップＳ１０４では、ステップＳ１００で取得した、自然言語文と論理形式文とのペアの集合に基づいて、自然言語文及び論理形式文の間の単語の対応付けである単語アラインメント３２を推定する。

ステップＳ１０６では、ステップＳ１０４で推定された単語アラインメント３２に基づいて、自然言語文及び論理形式文のペアの各々について、当該ペアの単語アラインメントにおいて、自然言語文の１つの単語が、論理形式文の複数の部分文字列に対応し、かつ、複数の部分文字列が同一又は類似している場合、当該１つの単語を複製し、複製した自然言語文の単語と論理形式文の単語との対応付けである単語アラインメントである複製済単語アラインメント３６を生成する。

ステップＳ１０８では、ステップＳ１０６で自然言語文の単語の各々について複製された単語数に基づいて、自然言語文の単語の複製数を推定するための単語複製モデル６２を学習する。

ステップＳ１１０では、ステップＳ１０６で生成された複製済単語アラインメント３６の自然言語文及び論理形式文のペアの各々について、自然言語文の部分文字列と論理形式文の部分文字列との対応付けである予め定められた部分文字列アラインメントに基づいて、当該ペアについての複製済単語アラインメント３６を補正する。

ステップＳ１１２では、ステップＳ１０でペアの各々について補正した複製済単語アラインメント３６に基づいて、自然言語文のフレーズと論理形式文のフレーズとのペアを格納したフレーズテーブル４０を推定する。

ステップＳ１１４では、ステップＳ１１２で推定されたフレーズテーブル４０から、論理形式文について予め定められた制約を満たさないフレーズを含むペアを削除し、フィルタリング済フレーズテーブル４４を得る。

ステップＳ１１６では、ステップＳ１１４で得られたフィルタリング済フレーズテーブル４４に基づいて、自然言語文を論理形式文に翻訳するための翻訳モデル４８を学習する。

そして、ステップＳ１１８では、ステップＳ１１６で学習された翻訳モデル４８に含まれる各フレーズについて、パラフレーズ辞書を参照して、言い換え可能なフレーズに拡張し、言い換え可能なフレーズに拡張した翻訳モデルを、パラフレーズ済翻訳モデル５２として生成して処理を終了する。

以上説明したように、第１の実施の形態に係る翻訳学習装置によれば、推定された単語アラインメントに基づいて、自然言語文及び論理形式文のペアの各々について、当該ペアの単語アラインメントにおいて、自然言語文の１つの単語が、論理形式文の複数の部分文字列に対応し、かつ、複数の部分文字列が同一又は類似している場合、１つの単語を複製した自然言語文の単語と論理形式文の単語との対応付けである単語アラインメントである複製済単語アラインメントを生成すると共に、自然言語文の単語の各々について複製された単語数に基づいて、自然言語文の単語の複製数を推定するための単語複製モデルを学習し、自然言語文及び論理形式文のペアの各々について生成された複製済単語アラインメントからフレーズテーブルを推定し、フィルタリング済フレーズテーブルに基づいて、翻訳モデルを学習し、言い換え可能なフレーズに拡張することにより、精度良く、自然言語文を論理形式文に翻訳するための翻訳モデルを学習することができる、という効果が得られる。

＜本発明の第１の実施の形態に係る翻訳装置の作用＞

次に、本発明の第１の実施の形態に係る翻訳装置２００の作用について説明する。入力部２１０において翻訳対象の自然言語文を受け付けると、翻訳装置２００は、図７に示す翻訳処理ルーチンを実行する。

まず、ステップＳ２００では、入力部２１０において受け付けた翻訳対象の自然言語文を取得する。

次に、ステップＳ２０２では、ステップＳ２００で取得した自然言語文と、部分文字列アラインメントアノテートデータ２２６とに基づいて、自然言語文を抽象化する。

ステップＳ２０４では、自然言語文間翻訳モデル２６０に基づいて、ステップＳ２０２で抽象化された自然言語文を、拡張された自然言語文に翻訳する。

ステップＳ２０６では、単語複製モデル２６２に基づいて、ステップＳ２０４で翻訳されて得られた拡張された自然言語文の各々に対し、当該自然言語文の単語の各々について、当該単語の複製数を推定して、当該単語を複製する。

ステップＳ２０８では、パラフレーズ済翻訳モデル２５２に基づいて、ステップＳ２０６で単語が複製された、拡張された自然言語文の各々を論理形式文に翻訳し、翻訳確率に基づいて選択された論理形式文を出力し、処理を終了する。

以上説明したように、第１の実施の形態に係る翻訳装置によれば、拡張された自然言語文の単語の各々について、当該単語の複製数を推定して、当該単語を複製し、単語が複製された、拡張された自然言語文を論理形式文に翻訳することで、精度良く、自然言語文を論理形式文に翻訳することができる。

＜本発明の第２の実施の形態に係る翻訳学習装置の構成＞

次に、本発明の第２の実施の形態に係る翻訳学習装置の構成について説明する。なお、第１の実施の形態の翻訳学習装置１００と同様の構成となる部分については、同一符号を付して説明を省略する。

上記図１に示すように、第２の実施の形態に係る翻訳学習装置１００は、ＣＰＵと、ＲＡＭと、後述する翻訳学習処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この翻訳学習装置１００は、機能的には図１に示すように入力部１０と、演算部２０とを備えている。

第２の実施の形態に係る演算部２０は、自然言語文間翻訳モデル学習部２８と、単語アラインメント推定部３０と、単語アラインメント３２と、単語複製部３４と、複製済単語アラインメント３６と、半教師ありフレーズ推定部３８と、フレーズテーブル４０と、フレーズフィルタリング部４２と、フィルタリング済フレーズテーブル４４と、翻訳モデル学習部４６と、翻訳モデル４８と、パラフレージング適用部５０と、パラフレーズ済翻訳モデル５２と、自然言語文間翻訳モデル６０と、単語複製モデル６２とを含んで構成されている。

第２の実施の形態に係る自然言語文間翻訳モデル学習部２８は、第１の実施の形態と同様に、入力部１０で受け付けた自然言語文と、論理形式文とのペアの集合に基づいて、自然言語文間翻訳モデル６０を学習する。そして、第１の実施の形態と同様の手法を用いて抽象化した自然言語文と、論理形式文とのペアの集合を単語アラインメント推定部３０に出力する。

第２の実施の形態に係る単語アラインメント推定部３０は、自然言語文間翻訳モデル学習部２８で得られる、抽象化された自然言語文と論理形式文とのペアの集合に基づいて、自然言語文及び論理形式文の間の単語の対応付けである単語アラインメントを推定して単語アラインメント３２として記憶する。

第２の実施の形態に係る単語複製部３４は、単語アラインメント推定部３０で推定された単語アラインメント３２に基づいて、抽象化された自然言語文及び論理形式文のペアの各々について、当該ペアの単語アラインメントにおいて、抽象化された自然言語文の１つの単語が、抽象化された論理形式文の複数の部分文字列に対応し、かつ、複数の部分文字列が同一又は類似している場合、当該１つの単語を複製し、複製した自然言語文の単語と論理形式文の単語との対応付けである単語アラインメントである複製済単語アラインメント３６を生成すると共に、抽象化された自然言語文の単語の各々について複製された単語数に基づいて、抽象化された自然言語文の単語の複製数を推定するための単語複製モデル６２を学習する。

第２の実施の形態に係る半教師ありフレーズ推定部３８は、抽象化された自然言語文及び論理形式文のペアの各々について、抽象化された自然言語文の部分文字列と抽象化された論理形式文の部分文字列との対応付けである予め定められた部分文字列アラインメントに基づいて、当該ペアについての複製済単語アラインメント３６を補正し、ペアの各々について補正した複製済単語アラインメント３６に基づいて、抽象化された自然言語文のフレーズと抽象化された論理形式文のフレーズとのペアを格納したフレーズテーブル４０を推定する。

第２の実施の形態に係るフレーズフィルタリング部４２は、半教師ありフレーズ推定部３８により推定されたフレーズテーブル４０から、論理形式文について予め定められた制約を満たさないフレーズを含むペアを削除し、フィルタリング済フレーズテーブル４４を得る。

第２の実施の形態に係る翻訳モデル学習部４６は、フレーズフィルタリング部４２で得られたフィルタリング済フレーズテーブル４４のフレーズに含まれる抽象化ラベルを抽象化前の単語に変換する。そして、抽象化ラベルが単語に変換されたフィルタリング済フレーズテーブル４４に基づいて、自然言語文を論理形式文に翻訳するための翻訳モデル４８を学習する。

なお、第２の実施の形態に係る翻訳学習装置の他の構成及び作用は、第１の実施の形態の翻訳学習装置１００と同様であるため詳細な説明を省略する。

＜本発明の第２の実施の形態に係る翻訳装置の構成＞

次に、本発明の第２の実施の形態に係る翻訳装置の構成について説明する。なお、第１の実施の形態の翻訳装置２００と同様の構成となる部分については、同一符号を付して説明を省略する。

上記図６に示すように、第２の実施の形態に係る翻訳装置２００は、ＣＰＵと、ＲＡＭと、後述する翻訳学習処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この翻訳装置２００は、機能的には図６に示すように入力部２１０と、演算部２２０とを備えている。

第２の実施の形態に係る演算部２２０は、自然言語文間翻訳部２２８と、単語複製部２３０と、デコーディング部２３２と、パラフレーズ済翻訳モデル２５２と、自然言語文間翻訳モデル２６０と、単語複製モデル２６２とを含んで構成されている。

第２の実施の形態に係る自然言語文間翻訳部２２８は、第１の実施の形態と同様に、入力部１０で受け付けた自然言語文と、部分文字列アラインメントアノテートデータ２２６とに基づいて、自然言語文を抽象化する。

第２の実施の形態に係る単語複製部２３０は、単語複製モデル２６２に基づいて、自然言語文間翻訳部２２８で抽象化された自然言語文の単語の各々について、当該単語の複製数を推定して、当該単語を複製する。

第２の実施の形態に係るデコーディング部２３２は、まず、単語複製部２３０で、単語が複製された、抽象化された自然言語文の部分文字列を、抽象化される前の自然言語文の部分文字列に変換し、拡張された自然言語文を得る。そして、パラフレーズ済翻訳モデル２５２に基づいて、第１の実施の形態と同様の手法を用いて、拡張された自然言語文の各々を、論理形式文に翻訳し、翻訳確率に基づいて選択された論理形式文を出力する。

なお、第２の実施の形態に係る翻訳装置の他の構成及び作用は、第１の実施の形態の翻訳装置２００と同様であるため詳細な説明を省略する。

以上説明したように、第２の実施の形態に係る翻訳学習装置によれば、抽象化された自然言語文と、論理形式文とのペアの集合に基づいて、単語アラインメントを推定し、推定された単語アラインメントに基づいて、抽象化された自然言語文及び論理形式文のペアの各々について、当該ペアの単語アラインメントにおいて、抽象化された自然言語文の１つの単語が、論理形式文の複数の部分文字列に対応し、かつ、複数の部分文字列が同一又は類似している場合、１つの単語を複製した自然言語文の単語と論理形式文の単語との対応付けである単語アラインメントである複製済単語アラインメントを生成すると共に、抽象化された自然言語文の単語の各々について複製された単語数に基づいて、抽象化された自然言語文の単語の複製数を推定するための単語複製モデルを学習し、抽象化された、自然言語文及び論理形式文のペアの各々について生成された複製済単語アラインメントからフレーズテーブルを推定し、フィルタリング済フレーズテーブルに基づいて、翻訳モデルを学習し、言い換え可能なフレーズに拡張することにより、精度良く、自然言語文を論理形式文に翻訳するための翻訳モデルを学習することができる、という効果が得られる。

また、本発明の第２の実施の形態に係る翻訳装置によれば、抽象化された自然言語文の単語の各々について、当該単語の複製数を推定して、当該単語を複製し、単語が複製された抽象化自然言語文の部分文字列を、抽象化前の自然言語文の部分文字列に変換し、変換された翻訳対象の自然言語文を論理形式文に翻訳することで、精度良く、自然言語文を論理形式文に翻訳することができる。

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、上述した実施の形態では、フィルタリング済フレーズテーブル４４に基づいて、自然言語文を論理形式文に翻訳するための翻訳モデル４８を学習していたが、これに限定されるものではなく、単語複製部３４により生成された複製済単語アラインメント３６、又は半教師ありフレーズ推定部３８により推定されたフレーズテーブル４０に基づいて、翻訳モデル４８を学習してもよい。

また、上述した実施の形態では、半教師ありフレーズ推定部３８は、複製済単語アラインメント３６を補正し、ペアの各々について補正した複製済単語アラインメント３６に基づいて、自然言語文のフレーズと論理形式文のフレーズとのペアを格納したフレーズテーブル４０を推定しているが、これに限定されるものではなく、単語アラインメント３２を補正し、ペアの各々について補正した単語アラインメント３２に基づいて、自然言語文のフレーズと論理形式文のフレーズとのペアを格納したフレーズテーブル４０を推定してもよい。

１０、２１０入力部
２０、２２０演算部
２６、２２６部分文字列アラインメントアノテートデータ
２８自然言語文間翻訳モデル学習部
３０単語アラインメント推定部
３２単語アラインメント
３４単語複製部
３６複製済単語アラインメント
３８半教師ありフレーズ推定部
４０フレーズテーブル
４２フレーズフィルタリング部
４４フィルタリング済フレーズテーブル
４６翻訳モデル学習部
４８翻訳モデル
５０パラフレージング適用部
５２、２５２パラフレーズ済翻訳モデル
６０、２６０自然言語文間翻訳モデル
６２、２６２単語複製モデル
１００翻訳学習装置
２００翻訳装置
２２８自然言語文間翻訳部
２３０単語複製部
２３２デコーディング部

Claims

入力された、翻訳元言語文と、前記翻訳元言語文に対応する論理形式文である翻訳先言語文とのペアの集合に基づいて、前記翻訳元言語文及び前記翻訳先言語文のペアの各々について、前記翻訳元言語文の単語と前記翻訳先言語文の単語との対応付けである単語アラインメントを推定する単語アラインメント推定部と、
前記単語アラインメント推定部により推定された前記単語アラインメントに基づいて、前記翻訳元言語文及び前記翻訳先言語文のペアの各々について、前記ペアの前記単語アラインメントにおいて、前記翻訳元言語文の１つの単語が、前記翻訳先言語文の複数の部分文字列に対応し、かつ、前記複数の部分文字列が同一又は類似している場合、前記１つの単語を複製した前記翻訳元言語文の単語と前記翻訳先言語文の単語との対応付けである複製済単語アラインメントを生成すると共に、前記翻訳元言語文の単語の各々について複製された単語数に基づいて、前記翻訳元言語文の単語の複製数を推定するための単語複製モデルを学習する単語複製部と、
前記翻訳元言語文及び前記翻訳先言語文のペアの各々について前記単語複製部により生成された前記複製済単語アラインメントに基づいて、前記翻訳元言語文を前記翻訳先言語文に翻訳するための翻訳モデルを学習する翻訳モデル学習部と、
を含む翻訳学習装置。
前記翻訳元言語文及び前記翻訳先言語文のペアの各々について、前記翻訳元言語文の部分文字列と前記翻訳先言語文の部分文字列との対応付けを表す予め定められた部分文字列アラインメントに基づいて、前記ペアについての前記複製済単語アラインメントを補正し、前記ペアの各々について補正した前記複製済単語アラインメントに基づいて、前記翻訳元言語文のフレーズと前記翻訳先言語文のフレーズとのペアを格納したフレーズテーブルを推定する半教師ありフレーズ推定部を更に含み、
前記翻訳モデル学習部は、前記半教師ありフレーズ推定部により生成された前記フレーズテーブルに基づいて、前記翻訳モデルを学習する請求項１に記載の翻訳学習装置。
フレーズフィルタリング部と、パラフレージング適用部とを更に含み、
前記フレーズフィルタリング部は、前記半教師ありフレーズ推定部により生成されたフレーズテーブルから、前記翻訳先言語文について予め定められた制約を満たさないフレーズを含むペアを削除し、
前記翻訳モデル学習部は、前記フレーズフィルタリング部によりフレーズが削除された前記フレーズテーブルに基づいて、前記翻訳モデルを学習し、
前記パラフレージング適用部は、前記翻訳モデル学習部により学習された前記翻訳モデルに含まれる各フレーズについて、言い換え可能なフレーズを格納したパラフレーズ辞書を参照して、言い換え可能なフレーズに拡張した前記翻訳モデルを、パラフレーズ済翻訳モデルとして生成する請求項２に記載の翻訳学習装置。
単語アラインメント推定部と、単語複製部と、翻訳モデル学習部とを含む翻訳学習装置における翻訳学習方法であって、
前記単語アラインメント推定部が、入力された、翻訳元言語文と、前記翻訳元言語文に対応する論理形式文である翻訳先言語文とのペアの集合に基づいて、前記翻訳元言語文及び前記翻訳先言語文のペアの各々について、前記翻訳元言語文の単語と前記翻訳先言語文の単語との対応付けである単語アラインメントを推定するステップと、
前記単語複製部が、前記単語アラインメント推定部により推定された前記単語アラインメントに基づいて、前記翻訳元言語文及び前記翻訳先言語文のペアの各々について、前記ペアの前記単語アラインメントにおいて、前記翻訳元言語文の１つの単語が、前記翻訳先言語文の複数の部分文字列に対応し、かつ、前記複数の部分文字列が同一又は類似している場合、前記１つの単語を複製した前記翻訳元言語文の単語と前記翻訳先言語文の単語との対応付けである複製済単語アラインメントを生成すると共に、前記翻訳元言語文の単語の各々について複製された単語数に基づいて、前記翻訳元言語文の単語の複製数を推定するための単語複製モデルを学習するステップと、
前記翻訳モデル学習部が、前記翻訳元言語文及び前記翻訳先言語文のペアの各々について前記単語複製部により生成された前記複製済単語アラインメントに基づいて、前記翻訳元言語文を前記翻訳先言語文に翻訳するための翻訳モデルを学習するステップと、
を含む翻訳学習方法。
コンピュータを、請求項１〜請求項３のいずれか１項に記載の翻訳学習装置の各部として機能させるためのプログラム。