JP6265923B2 - 翻訳学習装置、方法、及びプログラム - Google Patents

翻訳学習装置、方法、及びプログラム Download PDF

Info

Publication number
JP6265923B2
JP6265923B2 JP2015007131A JP2015007131A JP6265923B2 JP 6265923 B2 JP6265923 B2 JP 6265923B2 JP 2015007131 A JP2015007131 A JP 2015007131A JP 2015007131 A JP2015007131 A JP 2015007131A JP 6265923 B2 JP6265923 B2 JP 6265923B2
Authority
JP
Japan
Prior art keywords
word
language sentence
translation
sentence
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015007131A
Other languages
English (en)
Other versions
JP2016133920A (ja
Inventor
九月 貞光
九月 貞光
松尾 義博
義博 松尾
久子 浅野
久子 浅野
仁 西川
仁 西川
いつみ 斉藤
いつみ 斉藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015007131A priority Critical patent/JP6265923B2/ja
Publication of JP2016133920A publication Critical patent/JP2016133920A/ja
Application granted granted Critical
Publication of JP6265923B2 publication Critical patent/JP6265923B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明は、翻訳学習装置、方法、及びプログラムに係り、特に、翻訳元言語文を翻訳先言語文に翻訳するための翻訳学習装置、方法、及びプログラムに関する。
従来より、構文解析の手法として、自然言語文に対して構造を付与したものや、文脈自由文法(CFG:Context free Grammar)や依存文法が用いられている。文脈自由文法では、{}が1つの部分木を表し、その部分木に対応するラベルを()として記す。例えば、
{I(NP) { like(V) it(NP)}(VP) }(S)
という形式のものである。
また、文脈自由文法のルールの適用例は、
S->{NP, VP}, NP->{“I”}, VP->{V, NP}, V->{“like”}, N->{“it”}
という形式となる。ここで、NP(noun phrase)は名詞フレーズ、VP(verb phrase)は動詞フレーズ、N(noun)は名詞、V(verb)は動詞、S(string)は文字列を表す。
また、同期文脈自由文法(SCFG:Synchronous Context free Grammar)に基づいて翻訳元言語文(自然言語文)と翻訳先言語文(論理形式文)のフレーズアラインメントを獲得する手法が知られている(非特許文献1参照)。
Y.Wong, R.Mooney,"Learning for Semantic Parsing with Statistical Machine Translation",The Annual Meeting of the North American Chapter of the ACL (NAACL2006) Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris Callison-Burch, Marcello Federico, Nicola Bertoldi, Brooke Cowan, Wade Shen, Christine Moran, Richard Zens, Chris Dyer, Ondrej Bojar, Alexandra Constantin, Evan Herbst, "Moses: Open Source Toolkit for Statistical Machine Translation", Annual Meeting of the Association for Computational Linguistics (ACL), demonstration session, Prague, Czech Republic, June 2007.
しかし、第1の課題として、非特許文献1に記載の論理形式文には形式的な単語(上記例の場合、カッコや.,?等)が多く、翻訳の結果生成されたSPARQL文(論理形式文の一種)が、SPARQL文の体裁をなさず、破たんする可能性が高いという問題があった。このような問題を非特許文献1では、別途獲得した論理形式文への変換ルールを併用することでこの問題を回避しているが、統計的機械翻訳(以下、SMTと記載する)の本来得意とする表現の揺れ、曖昧性の解消といった利点を十全に発揮できていない。例えば、元言語文「価格は?」→論理形式文「“?p=価格 ?o)”」という対応があった場合、出力時にカッコの数が合わなくなる可能性がある。
また、第2の課題として、最も広く使われているSMTツールは非特許文献2に記載の同期文脈自由文法であるが、tree based SMTを用いる場合であっても、同期文脈自由文法を基本として設計されている場合、変数の数が自然言語文と論理形式文間で異なる場合、翻訳が困難となるという問題があった。
例えば、論理形式文側で単語の意味が一つある場合、「AAAの価格は?」という自然言語文は、「SELECT ?o; WHERE {?s = AAA, ?p = prop-ja:価格, ?o }」という論理形式文となる。一方、論理形式文で単語の意味が二つある場合、 AAAの価格は?」という自然言語文は、「SELECT ?o; WHERE {?s = AAA, ?p = prop-ja:価格, ?o ; ?p=prop-ja-nl:価格 ?o. }」という論理形式文となる。このように、自然言語文側で1度しか出現しない価格が、論理形式文側では2回出現する。一般のSMT手法では、これらの現象を明に扱わないため、翻訳が困難となる。
また、第3の課題として、自然言語文と論理形式文とのペアを多く入手することは困難なため、それらの学習データから得られる翻訳モデル中のフレーズペアは疎になってしまい、未知の文が入力された場合、処理できない可能性が高いという問題があった。例えば、「AAAの価格は?」についての学習データがあり、それを用いて学習した翻訳モデルを用いれば、「AAAの価格は?」という自然言語文から論理形式文の翻訳を行うことができる。一方、「AAAの値段は?」という自然言語文では、「値段」という単語が未知のため、翻訳できない。
また、第4の課題として、自然言語文と論理形式文とのペアの全ての部分文字列に対してアラインメントがあれば、翻訳モデル学習は極めて容易であるが、そのようなアノテーションには大きなコストがかかってしまうという問題がある。一方、共通して用いられる部分的なアラインメントを作ることは比較的コストを低く抑えて作成することが可能である。しかし、このように部分的なアラインメントだけが判明している場合、残る部分文字列のアラインメントを推定したり、翻訳モデルの学習を行う方法は自明ではない。
本発明は、上記問題点を解決するために成されたものであり、精度良く、翻訳元言語文を翻訳先言語文に翻訳するための翻訳モデルを学習することができる翻訳学習装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係る翻訳学習装置は、入力された、翻訳元言語文と、前記翻訳元言語文に対応する翻訳先言語文とのペアの集合に基づいて、前記翻訳元言語文及び前記翻訳先言語文のペアの各々について、前記翻訳元言語文の単語と前記翻訳先言語文の単語との対応付けである単語アラインメントを推定する単語アラインメント推定部と、前記単語アラインメント推定部により推定された前記単語アラインメントに基づいて、前記翻訳元言語文及び前記翻訳先言語文のペアの各々について、前記ペアの前記単語アラインメントにおいて、前記翻訳元言語文の1つの単語が、前記翻訳先言語文の複数の部分文字列に対応し、かつ、前記複数の部分文字列が同一又は類似している場合、前記1つの単語を複製した前記翻訳元言語文の単語と前記翻訳先言語文の単語との対応付けである複製済単語アラインメントを生成すると共に、前記翻訳元言語文の単語の各々について複製された単語数に基づいて、前記翻訳元言語文の単語の複製数を推定するための単語複製モデルを学習する単語複製部と、前記翻訳元言語文及び前記翻訳先言語文のペアの各々について前記単語複製部により生成された前記複製済単語アラインメントに基づいて、前記翻訳元言語文を前記翻訳先言語文に翻訳するための翻訳モデルを学習する翻訳モデル学習部と、を含んで構成されている。
また、第1の発明に係る翻訳学習装置において、前記翻訳元言語文及び前記翻訳先言語文のペアの各々について、前記翻訳元言語文の部分文字列と前記翻訳先言語文の部分文字列との対応付けを表す予め定められた部分文字列アラインメントに基づいて、前記ペアについての前記複製済単語アラインメントを補正し、前記ペアの各々について補正した前記複製済単語アラインメントに基づいて、前記翻訳元言語文のフレーズと前記翻訳先言語文のフレーズとのペアを格納したフレーズテーブルを推定する半教師ありフレーズ推定部を更に含み、前記翻訳モデル学習部は、前記半教師ありフレーズ推定部により推定された前記フレーズテーブルに基づいて、前記翻訳モデルを学習してもよい。
また、第1の発明に係る翻訳学習装置において、フレーズフィルタリング部と、パラフレージング適用部とを更に含み、前記フレーズフィルタリング部は、前記半教師ありフレーズ推定部により生成されたフレーズテーブルから、前記翻訳先言語文について予め定められた制約を満たさないフレーズを含むペアを削除し、前記翻訳モデル学習部は、前記フレーズフィルタリング部によりフレーズが削除された前記フレーズテーブルに基づいて、前記翻訳モデルを学習し、前記パラフレージング適用部は、前記翻訳モデル学習部により学習された前記翻訳モデルに含まれる各フレーズについて、言い換え可能なフレーズを格納したパラフレーズ辞書を参照して、言い換え可能なフレーズに拡張した前記翻訳モデルを、パラフレーズ済翻訳モデルとして生成してもよい。
第2の発明に係る翻訳学習装置は、入力された、翻訳元言語文と、前記翻訳元言語文に対応する翻訳先言語文とのペアの集合に基づいて、前記翻訳元言語文及び前記翻訳先言語文のペアの各々について、前記翻訳元言語文の単語と前記翻訳先言語文の単語との対応付けである単語アラインメントを推定する単語アラインメント推定部と、前記翻訳元言語文の部分文字列と前記翻訳先言語文の部分文字列との対応付けを表す予め定められた部分文字列アラインメントに基づいて、前記翻訳元言語文及び前記翻訳先言語文のペアの各々について、前記ペアについての前記単語アラインメントを補正し、前記ペアの各々について補正した前記単語アラインメントに基づいて、前記翻訳元言語文のフレーズと前記翻訳先言語文のフレーズとのペアを格納したフレーズテーブルを推定する半教師ありフレーズ推定部と、前記翻訳元言語文及び前記翻訳先言語文のペアの集合と、前記半教師ありフレーズ推定部により推定された前記フレーズテーブルとに基づいて、前記翻訳元言語文を前記翻訳先言語文に翻訳するための翻訳モデルを学習する翻訳モデル学習部と、を含んで構成されている。
第3の発明に係る翻訳学習装置によれば、推定された単語アラインメントに基づいて、翻訳元言語文及び翻訳先言語文のペアの各々について、ペアの単語アラインメントにおいて、翻訳元言語文の1つの単語が、翻訳先言語文の複数の部分文字列に対応し、かつ、複数の部分文字列が同一又は類似している場合、1つの単語を複製した翻訳元言語文の単語と翻訳先言語文の単語との対応付けである単語アラインメントである複製済単語アラインメントを生成すると共に、翻訳元言語文の単語の各々について複製された単語数に基づいて、翻訳元言語文の単語の複製数を推定するための単語複製モデルを学習し、翻訳元言語文及び翻訳先言語文のペアの各々について生成された複製済単語アラインメントに基づいて、翻訳元言語文を翻訳先言語文に翻訳するための翻訳モデルを学習することにより、精度良く、翻訳元言語文を翻訳先言語文に翻訳するための翻訳モデルを学習することができる。
第1の発明に係る翻訳学習方法は、単語アラインメント推定部と、半教師ありフレーズ推定部と、翻訳モデル学習部とを含む翻訳学習装置における翻訳学習方法であって、単語アラインメント推定部が、入力された、翻訳元言語文と、前記翻訳元言語文に対応する翻訳先言語文とのペアの集合に基づいて、前記翻訳元言語文及び前記翻訳先言語文のペアの各々について、前記翻訳元言語文の単語と前記翻訳先言語文の単語との対応付けである単語アラインメントを推定するステップと、前記半教師ありフレーズ推定部が、前記翻訳元言語文の単語と前記翻訳先言語文の単語との一部分の対応付けである部分文字列アラインメントを示す予め定められたアノテートデータに基づいて、前記単語アラインメントの全体のアラインメントを補正したフレーズテーブルを推定するステップと、前記翻訳モデル学習部が、前記翻訳元言語文及び前記翻訳先言語文のペアの集合と、前記半教師ありフレーズ推定部により推定された前記フレーズテーブルとに基づいて、前記翻訳元言語文を前記翻訳先言語文に翻訳するための翻訳モデルを学習するステップと、を含んで実行することを特徴とする。
第2の発明に係る翻訳学習方法は、単語アラインメント推定部と、単語複製部と、翻訳モデル学習部とを含む翻訳学習装置における翻訳学習方法であって、前記単語アラインメント推定部が、入力された、翻訳元言語文と、前記翻訳元言語文に対応する翻訳先言語文とのペアの集合に基づいて、前記翻訳元言語文及び前記翻訳先言語文のペアの各々について、前記翻訳元言語文の単語と前記翻訳先言語文の単語との対応付けである単語アラインメントを推定するステップと、前記単語複製部が、前記単語アラインメント推定部により推定された前記単語アラインメントに基づいて、前記翻訳元言語文及び前記翻訳先言語文のペアの各々について、前記ペアの前記単語アラインメントにおいて、前記翻訳元言語文の1つの単語が、前記翻訳先言語文の複数の部分文字列に対応し、かつ、前記複数の部分文字列が同一又は類似している場合、前記1つの単語を複製した前記翻訳元言語文の単語と前記翻訳先言語文の単語との対応付けである複製済単語アラインメントを生成すると共に、前記翻訳元言語文の単語の各々について複製された単語数に基づいて、前記翻訳元言語文の単語の複製数を推定するための単語複製モデルを学習するステップと、前記翻訳モデル学習部が、前記翻訳元言語文及び前記翻訳先言語文のペアの各々について前記単語複製部により生成された前記複製済単語アラインメントに基づいて、前記翻訳元言語文を前記翻訳先言語文に翻訳するための翻訳モデルを学習するステップと、を含んで実行することを特徴とする。
第4の発明に係るプログラムは、コンピュータを、第1又は第2の発明に係る翻訳学習装置の各部として機能させるためのプログラムである。
本発明の翻訳学習装置、方法、及びプログラムによれば、精度良く、翻訳元言語文を翻訳先言語文に翻訳するための翻訳モデルを学習することができる、という効果が得られる。
第1の実施の形態に係る翻訳学習装置の機能的構成を示すブロック図である。 自然言語文の単語と論理形式文の単語の対応付けである単語アラインメントを誤って推定する場合の例を示す概念図である。 部分文字列アラインメントアノテートデータの一例を示す図である。 半教師ありフレーズ推定による単語アラインメントの改善例を示す図である。 第1の実施の形態に係る翻訳装置の機能的構成を示すブロック図である。 第1の実施の形態に係る翻訳学習装置における翻訳学習処理ルーチンを示すフローチャートである。 第1の実施の形態に係る翻訳装置における翻訳処理ルーチンを示すフローチャートである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態に係る概要>
まず、本発明の実施の形態における概要を説明する。
本発明の実施の形態に係る翻訳学習装置及び翻訳装置は、翻訳元言語文(自然言語文)から自動的に翻訳先言語文(論理形式文)へと翻訳することを目的としている。例えば、「AAAの価格は」という自然言語文を、自動的に
?s prop-ja:定価 ?o. FILTER( regex( str(?s), “AAA” ) ).
という論理形式文へと翻訳することである。なお、本実施の形態では、翻訳元言語文を自然言語文とし、翻訳先言語として論理形式文とした場合を例に説明するが、これに限定されるものではなく、翻訳先言語文を他の自然言語文としてもよい。
ここで、「?s」は求めたい主語、「?o」は求めたい目的語、「prop-ja」は述語が定義されたURIを示し、上記例では条件文として用いられる。「FILTER」も条件文を表し、「regex」は正規表現であることを示す。「str(?s)」は主語を文字列として解釈し、「“AAA”」という文字列を含む場合、条件を満たすことを表す。なお、論理形式文とは、論理式で表される、計算機が理解可能な表現形式であり、λ計算や一般的なデータベースへの問い合わせ言語を含むものである。
<本発明の第1の実施の形態に係る翻訳学習装置の構成>
次に、本発明の第1の実施の形態に係る翻訳学習装置の構成について説明する。図1に示すように、本発明の第1の実施の形態に係る翻訳学習装置100は、CPUと、RAMと、後述する翻訳学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この翻訳学習装置100は、機能的には図1に示すように入力部10と、演算部20とを備えている。
入力部10は、自然言語文と、自然言語文に対応する論理形式文とのペアの集合を受け付ける。
演算部20は、自然言語文間翻訳モデル学習部28と、単語アラインメント推定部30と、単語アラインメント32と、単語複製部34と、複製済単語アラインメント36と、半教師ありフレーズ推定部38と、フレーズテーブル40と、フレーズフィルタリング部42と、フィルタリング済フレーズテーブル44と、翻訳モデル学習部46と、翻訳モデル48と、パラフレージング適用部50と、パラフレーズ済翻訳モデル52と、自然言語文間翻訳モデル60と、単語複製モデル62とを含んで構成されている。
自然言語文間翻訳モデル学習部28は、以下に説明するように、入力部10で受け付けた自然言語文と、論理形式文とのペアの集合に基づいて、自然言語文間翻訳モデル60を学習する。自然言語文間翻訳モデル60の学習には既知の技術、例えば非特許文献2のmoses等を用いる。
自然言語文間翻訳モデル学習部28は、まず、自然言語文及び論理形式文に対応付けられる部分文字列の組み合わせを表す部分文字列アラインメントに抽象化ラベル(例えば「“AAA”」に対して抽象化ラベル「entity」がラベル付けされる)が付与された部分文字列アラインメントアノテートデータ26に基づいて、各ペアの自然言語文及び論理形式文を抽象化する。例えば、自然言語文側を抽象化すると「AAA(=annotated as entity) の 価格(=annotated as property) 」は、「[entity] の [property] は」となる。論理形式文側を抽象化すると「?s prop-ja: 定価 ?o.(=annotated as property) FILTER( regex(str(?s), “AAA”(=annotated as entity) )).」は、「 ?s [property] ?o. FILTER( regex(str(?s), [entity])).」となる。
そして、自然言語文間翻訳モデル学習部28は、同じ抽象化された論理形式文と対となる、抽象化された自然言語文の集合を求め、求められた抽象化された自然言語文の集合に含まれる自然言語文を互いに翻訳対であるとみなして翻訳モデルを学習する。例えば「?s [property] ?o. FILTER( regex(str(?s), [entity])).」という抽象化された論理形式文と対となる、抽象化された自然言語文の集合において、{[entity] の [property] は,[entity] の [property] って何?} 等がある場合、この2文を自然言語文のテンプレートとなる翻訳ペアと見なす。翻訳ペアの組み合わせとして、10文ある場合には、全組み合わせである45通りの翻訳ペアを用いて、自然言語文間翻訳モデル60を学習しても良いし、同じ文を使わないように組み合わせた5通りの翻訳ペアを用いて学習するなどしても良い。また、以下のように、機能語である助詞(例えば「の」)等をあらかじめ削除してから翻訳モデルを作成することで学習データの疎性を抑えることができる。
「 [entity] の [property] は」→「[entity] [property] は」
単語アラインメント推定部30は、入力部10で受け付けた自然言語文と、論理形式文とのペアの集合に基づいて、自然言語文及び論理形式文の間の単語の対応付けである単語アラインメントを推定して単語アラインメント32として記憶する。なお、単語アラインメントの推定には既知の技術として、例えば非特許文献2で用いられているGIZA++(IBM(R)モデル)等を用いればよい。
単語複製部34は、単語アラインメント推定部30で推定された単語アラインメント32に基づいて、自然言語文及び論理形式文のペアの各々について、当該ペアの単語アラインメントにおいて、自然言語文の1つの単語が、論理形式文の複数の部分文字列に対応し、かつ、複数の部分文字列が同一又は類似している場合、当該1つの単語を複製し、複製した自然言語文の単語と論理形式文の単語との対応付けである単語アラインメントである複製済単語アラインメント36を生成すると共に、自然言語文の単語の各々について複製された単語数に基づいて、自然言語文の単語の複製数を推定するための単語複製モデル62を学習する。
単語複製部34は、具体的には以下の第1の処理及び第2の処理を行う。
まず、単語複製部34は、第1の処理として、単語アラインメント推定部30での推定により得られた単語アラインメント32の結果から、「1:n対応しており、n側の出現形が同一か、又は類似している」という条件を満たす自然言語側単語を複製し、アラインメントを分割して、複製済単語アラインメント36として記憶する。ここでn側の出現形が同一というのは、「論理形式文側で同じ表層として単語が2回以上現れる場合」であり、n側の出現形が類似しているというのは、「論理形式文側で単語の意味がn個ある場合」である。
第1の処理における「論理形式文側で単語の意味がn個ある場合」に単語を複製する例を説明する。例えば自然言語文「AAA の 価格 は」についての単語アラインメントの場合であれば、
アラインメント1:「価格」<->「prop-ja:価格」
アラインメント2:「価格」<->「prop-ja-nl:価格」
という対応が、単語アラインメント推定部30による単語アラインメント推定の結果により既知であるとする。この場合に、「prop-ja」や「prop-ja-nl」において、論理形式文のデータベースのエンティティ「AAA」の属性「prop-ja:価格」に入っている値が「1000000円」、エンティティ「AAA」の属性「prop-ja-nl:価格」に入っている値が「軽量化によるコストダウンを実施しました」というように、それぞれ「一問一答の答え」と「説明文」であると想定する。これは「AAAの価格は」と聞かれた場合、答えだけを返すよりも、説明も加えた方が、対話が自然に成り立つ場合があるため、このようなケースに対応する状況を仮定している。そして、単語アラインメントにおいて、n個対象となる単語を複製する。上記例の「AAA の 価格 は」であれば、「AAA の 価格 価格 は 」というように4単語目に「価格」を挿入して、次のようにアラインメントする。
アラインメント1:「価格(3単語目)」<->「prop-ja:価格」
アラインメント2:「価格(4単語目)」<->「prop-ja-nl:価格」
この場合、論理形式文側の「prop-ja:価格」と「prop-ja-nl:価格」とが類似している、と判定する。この時の類似尺度には表記文字列に対する、既存の表記編集距離等と閾値を用いれば良い。
一方、複製しない例としては、例えば
アラインメント1:「最大」<->「max:」
アラインメント2:「最大」<->「xsd:」
という単語アラインメントであれば、論理形式文側において単語が非類似である。この場合は、後段のフレーズとして獲得可能であるため、そのまま扱えばよい。なお、2単語以上の単語列内の全単語が同じ1:nアラインメントをとる場合には、次のように、A単語及びB単語からなる単語列内の順番を保持したまま、単語を複製すると共にアラインメントを含めて分割する。これを形態素として1単語として形態素解析器に記憶することで、デコード時にも同様に扱うことが可能である。
(“AB”->“ABAB”)
例えば、自然言語文側のAから論理形式文側のa及びa’に、自然言語文側のBから論理形式文側のb及びb’のそれぞれに2か所、計4本のアラインメントがあった場合、自然言語文をAB及びABの2つに複製した後、アラインメントをAB<->ab(2本)、AB<->a’b’(2本)のそれぞれに分割する。
次に、第1の処理における「論理形式文側で同じ表層として単語が2回以上現れる場合」に単語を複製する例を説明する。この場合は単なる論理形式文側のSPARQL制約上の問題として扱われるものである。例えば「モーターの最大トルクが一番大きな車は」についての単語アラインメントの場合であれば、対応する論理形式文のSPARQLは以下のようになる。
SELECT DISTINCT ?s ?o ?o1 WHERE {?s (prop-ja:最大トルク-モーター) ?o ; (prop-ja-nl:最大トルク-モーター) ?o1 . FILTER (?o = ?temp) { SELECT (?o AS ?temp) WHERE { ?s (prop-ja:最大トルク-モーター) ?o . } ORDER BY DESC(xsd:integer(?o)) LIMIT 1 } } }
上記の例では「prop-ja:最大トルク-モーター」が2回出現しているが、これは演算のための一時的な代入を「?temp」という変数に対して行うためであり、単なるSPARQLの記述方法の問題にすぎず、本質的な問題ではない。このような場合には、機械的に単語を必要な数分だけ複製すればよい。上記例の場合は2個に複製すればよい。
単語複製部34は、第2の処理として、第1の処理において自然言語文の単語の各々について複製された単語数に基づいて、デコード時に自然言語文の単語の複製数を推定するための識別モデルとして単語複製モデル62を学習する。単語複製モデル62の学習は論理形式文側の単語毎(類似単語の場合はどちらか一方)、あるいは論理形式文側の単語のクラス、つまりRDFで定義されているフィールド名(s,p,o等)毎に行う。教師信号は複製された単語数とする。例えば、上記第1の処理の例では2単語に複製されたので、“2”とする。 学習結果の例としては、
p(2個|“価格”, φ)=0.8 p(1個 |“価格”,φ)=0.2
となる。ここで、φは当該文における素性集合である。第2の処理での識別モデルとしては、既知のモデル、例えばSVM(サポートベクタマシン)やロジスティック回帰分類器を用いればよく、素性もBOW(Bag of Words)や係り受け素性等、既知の素性を用いればよい。
半教師ありフレーズ推定部38は、自然言語文及び論理形式文のペアの各々について、自然言語文の部分文字列と論理形式文の部分文字列との対応付けである予め定められた部分文字列アラインメントに基づいて、当該ペアについての複製済単語アラインメント36を補正し、ペアの各々について補正した複製済単語アラインメント36に基づいて、自然言語文のフレーズと論理形式文のフレーズとのペアを格納したフレーズテーブル40を推定する。
具体的には、半教師ありフレーズ推定部38は、まず、部分文字列アラインメントアノテートデータ26を適用して、自然言語文及び論理形式文のペアの各々についての複製済単語アラインメント36に当てはまる部分文字列アラインメントを定める。図2に、単語アラインメント推定部30で自動推定された単語アラインメントの例を示す。図2では、黒で塗りつぶされたマスが単語アラインメントを、点線で囲まれたマスはフレーズアラインメントとなり得る箇所を表している。図3に、部分文字列アラインメントアノテートデータ26における部分文字列アライメントの例を示す。
次に、半教師ありフレーズ推定部38は、図2の単語アラインメントのうち、図3の部分文字列アラインメントアノテートデータと矛盾する単語アラインメントを削除する。矛盾する単語アラインメントを削除した結果を図4に示す。「×」は灰色の部分文字列アラインメントアノテートデータと矛盾するため、削除された単語アラインメントを示す。また、アラインメントが削除された単語については、単語アラインメント推定部30で得られている単語アラインメントの確率値を参照し、矛盾せずに最適となるアラインメントの探索及び変更を行うことにより複製済単語アラインメント36を補正する。例えば、図4において、「×」で示された、アラインメントが削除された箇所に対して、点線で囲まれたフレーズアラインメントとなり得る箇所が変更される。
そして、半教師ありフレーズ推定部38は、補正された複製済単語アラインメント36を用いて、対応付けられる自然言語文のフレーズ及び論理形式文のフレーズのペアの各々及びペアの各々の翻訳確率を格納したフレーズテーブル40の作成を行う。ここでは既存のヒューリスティックとして、例えば非特許文献2のgrow−diag等の処理を行い、フレーズテーブル40を得る。
フレーズフィルタリング部42は、半教師ありフレーズ推定部38により推定されたフレーズテーブル40から、論理形式文について予め定められた制約を満たさないフレーズを含むペアを削除し、フィルタリング済フレーズテーブル44を得る。本実施の形態では、予め定められた制約として、開き括弧“(”や閉じかっこ“)”の数が合うことを用い、開き括弧“(”や閉じかっこ“)”の数が合わないフレーズを含むペアを削除する。
翻訳モデル学習部46は、フレーズフィルタリング部42で得られたフィルタリング済フレーズテーブル44に基づいて、自然言語文を論理形式文に翻訳するための翻訳モデル48を学習する。本実施の形態では、後述する翻訳装置における翻訳時(デコード時)に必要となる、フレーズ同士の翻訳確率や、フレーズが前後に移動する際の歪み確率等のスコアを記憶した翻訳モデルを学習する。学習方式は既存手法を用いればよく、例えば、非特許文献3(統計的機械翻訳ツールmoses、http://www.statmt.org/moses/)にフリーツールとして公開されているmosesを用いることができる。
パラフレージング適用部50は、翻訳モデル学習部46により学習された翻訳モデル48に含まれる各フレーズについて、言い換え可能なフレーズを格納したパラフレーズ辞書(図示省略)を参照して、言い換え可能なフレーズに拡張し、言い換え可能なフレーズに拡張した翻訳モデルを、パラフレーズ済翻訳モデル52として生成する。ここで用いるパラフレーズ辞書は既存のものでよく、例えば非特許文献4(水上 雅博, Graham Neubig, Sakriani Sakti, 戸田 智基, 中村 哲. 「日本語言い換えデータベースの構築と言語的個人性変換への応用」 言語処理学会第20回年次大会 (NLP). 2014/3)等に記載されているものを用いればよい。本実施の形態では、翻訳モデル学習前にパラフレーズを拡張しても、学習データにパラフレーズの例が現れないため、翻訳確率が付与されないため、翻訳モデル学習後に適用するこことした。
<本発明の第1の実施の形態に係る翻訳装置の構成>
次に、本発明の第1の実施の形態に係る翻訳装置の構成について説明する。図6に示すように、本発明の第1の実施の形態に係る翻訳装置200は、CPUと、RAMと、後述する翻訳学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この翻訳装置200は、機能的には図6に示すように入力部210と、演算部220とを備えている。
入力部210は、翻訳対象の自然言語文を受け付ける。
演算部220は、自然言語文間翻訳部228と、単語複製部230と、デコーディング部232と、パラフレーズ済翻訳モデル252と、自然言語文間翻訳モデル260と、単語複製モデル262とを含んで構成されている。
自然言語文間翻訳モデル260は、自然言語文間翻訳モデル60と同じものが記憶されている。
部分文字列アラインメントアノテートデータ226は、部分文字列アラインメントアノテートデータ26と同じものが記憶されている。
単語複製モデル262は、単語複製モデル62と同じものが記憶されている。
パラフレーズ済翻訳モデル252は、パラフレーズ済翻訳モデル52と同じものが記憶されている。
自然言語文間翻訳部228は、まず、入力部10で受け付けた自然言語文と、自然言語文及び論理形式文に対応付けられる部分文字列の組み合わせを表す予め定められた部分文字列アラインメントアノテートデータ226とに基づいて、自然言語文を抽象化する。例えば、自然言語文の部分文字列「AAA」に対し、部分文字列アラインメントアノテートデータ226において抽象化ラベル“entity”が付与されているため、これをそのまま抽象化するための辞書と見なして自然言語文を抽象化する。例えば、自然言語文が「AAA の 価格 って どのくらい」であれば、「[entity] の [property] って どのくらい」と抽象化する。
次に、自然言語文間翻訳部228は、自然言語文間翻訳モデル260に基づいて、抽象化された自然言語文を自然言語文に翻訳する。ここではnbest解を得る。つまり抽象化された自然言語文集合に拡張する。そして、抽象化された自然言語文の部分文字列を元の抽象化される前の部分文字列に変換し、拡張された自然言語文を得る。例えば、抽象化された自然言語文が「[entity] の [property]って何?」であれば「AAAの価格って何?」と変換する。ここで拡張したnbest文集合の全ての文に対して後段の単語複製部230及びデコーディング部232の処理を行い、パラフレーズ済翻訳モデル252の翻訳確率に基づいて、最終的な論理形式文を生成すればよい。
なお、自然言語文間翻訳部228において、自然言語文間翻訳モデル260の学習データの網羅性が高ければ、抽象化された自然言語文集合のうち、入力文からの翻訳確率の最も高いものを選択し、選択された、抽象化自然言語文に対応する抽象化論理形式文へ一意に変換し、さらに抽象化されていた部分文字列に対し、対応する論理形式文側の変換結果を用いて、論理形式文を得てもよい。この場合は、後段の単語複製部230及びデコーディング部232の処理を行う必要はない。
単語複製部230は、単語複製モデル262に基づいて、自然言語文間翻訳部228で拡張された自然言語文の各々に対し、当該自然言語文の単語の各々について、当該単語の複製数を推定して、当該単語を複製する。
具体的には、単語複製部230は、まず、単語複製モデル262を用いて、自然言語文に含まれる各単語の複製数を推定する。推定結果の例としては、p(2個|“価格”,φ)=0.85、p(1個|“価格”,φ)=0.15というものである。ここで「φ」は当該自然言語文における素性集合を表す。次に、推定結果に基づいて、単語を複製する。この例の場合は“価格”を2個に複製する。なお、複製の際、単語複製モデル262の上位N種類の複製数を全て出力し、単語複製済自然言語文として保持し、複数の単語複製済自然言語文に対してデコーディングを行ってもよい。
デコーディング部232は、パラフレーズ済翻訳モデル252に基づいて、単語複製部230で単語が複製された、拡張された自然言語文の各々を、論理形式文に翻訳し、翻訳確率に基づいて選択された論理形式文を出力する。翻訳処理には、既存手法を用いればよく、例えば、上記非特許文献3にフリーツールとして公開されているmosesを用いることができる。
<本発明の第1の実施の形態に係る翻訳学習装置の作用>
次に、本発明の実施の形態に係る翻訳学習装置100の作用について説明する。入力部10において自然言語文と、自然言語文に対応する論理形式文とのペアの集合を受け付けると、翻訳学習装置100は、図6に示す翻訳学習処理ルーチンを実行する。
まず、ステップS100では、入力部10において受け付けた、自然言語文と、自然言語文に対応する論理形式文とのペアの集合を取得する。
次に、ステップS102では、ステップS100で取得した、自然言語文と論理形式文とのペアの集合、及び部分文字列アライメントアノテートデータ26に基づいて、自然言語文間翻訳モデル60を学習する。
ステップS104では、ステップS100で取得した、自然言語文と論理形式文とのペアの集合に基づいて、自然言語文及び論理形式文の間の単語の対応付けである単語アラインメント32を推定する。
ステップS106では、ステップS104で推定された単語アラインメント32に基づいて、自然言語文及び論理形式文のペアの各々について、当該ペアの単語アラインメントにおいて、自然言語文の1つの単語が、論理形式文の複数の部分文字列に対応し、かつ、複数の部分文字列が同一又は類似している場合、当該1つの単語を複製し、複製した自然言語文の単語と論理形式文の単語との対応付けである単語アラインメントである複製済単語アラインメント36を生成する。
ステップS108では、ステップS106で自然言語文の単語の各々について複製された単語数に基づいて、自然言語文の単語の複製数を推定するための単語複製モデル62を学習する。
ステップS110では、ステップS106で生成された複製済単語アラインメント36の自然言語文及び論理形式文のペアの各々について、自然言語文の部分文字列と論理形式文の部分文字列との対応付けである予め定められた部分文字列アラインメントに基づいて、当該ペアについての複製済単語アラインメント36を補正する。
ステップS112では、ステップS10でペアの各々について補正した複製済単語アラインメント36に基づいて、自然言語文のフレーズと論理形式文のフレーズとのペアを格納したフレーズテーブル40を推定する。
ステップS114では、ステップS112で推定されたフレーズテーブル40から、論理形式文について予め定められた制約を満たさないフレーズを含むペアを削除し、フィルタリング済フレーズテーブル44を得る。
ステップS116では、ステップS114で得られたフィルタリング済フレーズテーブル44に基づいて、自然言語文を論理形式文に翻訳するための翻訳モデル48を学習する。
そして、ステップS118では、ステップS116で学習された翻訳モデル48に含まれる各フレーズについて、パラフレーズ辞書を参照して、言い換え可能なフレーズに拡張し、言い換え可能なフレーズに拡張した翻訳モデルを、パラフレーズ済翻訳モデル52として生成して処理を終了する。
以上説明したように、第1の実施の形態に係る翻訳学習装置によれば、推定された単語アラインメントに基づいて、自然言語文及び論理形式文のペアの各々について、当該ペアの単語アラインメントにおいて、自然言語文の1つの単語が、論理形式文の複数の部分文字列に対応し、かつ、複数の部分文字列が同一又は類似している場合、1つの単語を複製した自然言語文の単語と論理形式文の単語との対応付けである単語アラインメントである複製済単語アラインメントを生成すると共に、自然言語文の単語の各々について複製された単語数に基づいて、自然言語文の単語の複製数を推定するための単語複製モデルを学習し、自然言語文及び論理形式文のペアの各々について生成された複製済単語アラインメントからフレーズテーブルを推定し、フィルタリング済フレーズテーブルに基づいて、翻訳モデルを学習し、言い換え可能なフレーズに拡張することにより、精度良く、自然言語文を論理形式文に翻訳するための翻訳モデルを学習することができる、という効果が得られる。
<本発明の第1の実施の形態に係る翻訳装置の作用>
次に、本発明の第1の実施の形態に係る翻訳装置200の作用について説明する。入力部210において翻訳対象の自然言語文を受け付けると、翻訳装置200は、図7に示す翻訳処理ルーチンを実行する。
まず、ステップS200では、入力部210において受け付けた翻訳対象の自然言語文を取得する。
次に、ステップS202では、ステップS200で取得した自然言語文と、部分文字列アラインメントアノテートデータ226とに基づいて、自然言語文を抽象化する。
ステップS204では、自然言語文間翻訳モデル260に基づいて、ステップS202で抽象化された自然言語文を、拡張された自然言語文に翻訳する。
ステップS206では、単語複製モデル262に基づいて、ステップS204で翻訳されて得られた拡張された自然言語文の各々に対し、当該自然言語文の単語の各々について、当該単語の複製数を推定して、当該単語を複製する。
ステップS208では、パラフレーズ済翻訳モデル252に基づいて、ステップS206で単語が複製された、拡張された自然言語文の各々を論理形式文に翻訳し、翻訳確率に基づいて選択された論理形式文を出力し、処理を終了する。
以上説明したように、第1の実施の形態に係る翻訳装置によれば、拡張された自然言語文の単語の各々について、当該単語の複製数を推定して、当該単語を複製し、単語が複製された、拡張された自然言語文を論理形式文に翻訳することで、精度良く、自然言語文を論理形式文に翻訳することができる。
<本発明の第2の実施の形態に係る翻訳学習装置の構成>
次に、本発明の第2の実施の形態に係る翻訳学習装置の構成について説明する。なお、第1の実施の形態の翻訳学習装置100と同様の構成となる部分については、同一符号を付して説明を省略する。
上記図1に示すように、第2の実施の形態に係る翻訳学習装置100は、CPUと、RAMと、後述する翻訳学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この翻訳学習装置100は、機能的には図1に示すように入力部10と、演算部20とを備えている。
第2の実施の形態に係る演算部20は、自然言語文間翻訳モデル学習部28と、単語アラインメント推定部30と、単語アラインメント32と、単語複製部34と、複製済単語アラインメント36と、半教師ありフレーズ推定部38と、フレーズテーブル40と、フレーズフィルタリング部42と、フィルタリング済フレーズテーブル44と、翻訳モデル学習部46と、翻訳モデル48と、パラフレージング適用部50と、パラフレーズ済翻訳モデル52と、自然言語文間翻訳モデル60と、単語複製モデル62とを含んで構成されている。
第2の実施の形態に係る自然言語文間翻訳モデル学習部28は、第1の実施の形態と同様に、入力部10で受け付けた自然言語文と、論理形式文とのペアの集合に基づいて、自然言語文間翻訳モデル60を学習する。そして、第1の実施の形態と同様の手法を用いて抽象化した自然言語文と、論理形式文とのペアの集合を単語アラインメント推定部30に出力する。
第2の実施の形態に係る単語アラインメント推定部30は、自然言語文間翻訳モデル学習部28で得られる、抽象化された自然言語文と論理形式文とのペアの集合に基づいて、自然言語文及び論理形式文の間の単語の対応付けである単語アラインメントを推定して単語アラインメント32として記憶する。
第2の実施の形態に係る単語複製部34は、単語アラインメント推定部30で推定された単語アラインメント32に基づいて、抽象化された自然言語文及び論理形式文のペアの各々について、当該ペアの単語アラインメントにおいて、抽象化された自然言語文の1つの単語が、抽象化された論理形式文の複数の部分文字列に対応し、かつ、複数の部分文字列が同一又は類似している場合、当該1つの単語を複製し、複製した自然言語文の単語と論理形式文の単語との対応付けである単語アラインメントである複製済単語アラインメント36を生成すると共に、抽象化された自然言語文の単語の各々について複製された単語数に基づいて、抽象化された自然言語文の単語の複製数を推定するための単語複製モデル62を学習する。
第2の実施の形態に係る半教師ありフレーズ推定部38は、抽象化された自然言語文及び論理形式文のペアの各々について、抽象化された自然言語文の部分文字列と抽象化された論理形式文の部分文字列との対応付けである予め定められた部分文字列アラインメントに基づいて、当該ペアについての複製済単語アラインメント36を補正し、ペアの各々について補正した複製済単語アラインメント36に基づいて、抽象化された自然言語文のフレーズと抽象化された論理形式文のフレーズとのペアを格納したフレーズテーブル40を推定する。
第2の実施の形態に係るフレーズフィルタリング部42は、半教師ありフレーズ推定部38により推定されたフレーズテーブル40から、論理形式文について予め定められた制約を満たさないフレーズを含むペアを削除し、フィルタリング済フレーズテーブル44を得る。
第2の実施の形態に係る翻訳モデル学習部46は、フレーズフィルタリング部42で得られたフィルタリング済フレーズテーブル44のフレーズに含まれる抽象化ラベルを抽象化前の単語に変換する。そして、抽象化ラベルが単語に変換されたフィルタリング済フレーズテーブル44に基づいて、自然言語文を論理形式文に翻訳するための翻訳モデル48を学習する。
なお、第2の実施の形態に係る翻訳学習装置の他の構成及び作用は、第1の実施の形態の翻訳学習装置100と同様であるため詳細な説明を省略する。
<本発明の第2の実施の形態に係る翻訳装置の構成>
次に、本発明の第2の実施の形態に係る翻訳装置の構成について説明する。なお、第1の実施の形態の翻訳装置200と同様の構成となる部分については、同一符号を付して説明を省略する。
上記図6に示すように、第2の実施の形態に係る翻訳装置200は、CPUと、RAMと、後述する翻訳学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この翻訳装置200は、機能的には図6に示すように入力部210と、演算部220とを備えている。
第2の実施の形態に係る演算部220は、自然言語文間翻訳部228と、単語複製部230と、デコーディング部232と、パラフレーズ済翻訳モデル252と、自然言語文間翻訳モデル260と、単語複製モデル262とを含んで構成されている。
第2の実施の形態に係る自然言語文間翻訳部228は、第1の実施の形態と同様に、入力部10で受け付けた自然言語文と、部分文字列アラインメントアノテートデータ226とに基づいて、自然言語文を抽象化する。
第2の実施の形態に係る単語複製部230は、単語複製モデル262に基づいて、自然言語文間翻訳部228で抽象化された自然言語文の単語の各々について、当該単語の複製数を推定して、当該単語を複製する。
第2の実施の形態に係るデコーディング部232は、まず、単語複製部230で、単語が複製された、抽象化された自然言語文の部分文字列を、抽象化される前の自然言語文の部分文字列に変換し、拡張された自然言語文を得る。そして、パラフレーズ済翻訳モデル252に基づいて、第1の実施の形態と同様の手法を用いて、拡張された自然言語文の各々を、論理形式文に翻訳し、翻訳確率に基づいて選択された論理形式文を出力する。
なお、第2の実施の形態に係る翻訳装置の他の構成及び作用は、第1の実施の形態の翻訳装置200と同様であるため詳細な説明を省略する。
以上説明したように、第2の実施の形態に係る翻訳学習装置によれば、抽象化された自然言語文と、論理形式文とのペアの集合に基づいて、単語アラインメントを推定し、推定された単語アラインメントに基づいて、抽象化された自然言語文及び論理形式文のペアの各々について、当該ペアの単語アラインメントにおいて、抽象化された自然言語文の1つの単語が、論理形式文の複数の部分文字列に対応し、かつ、複数の部分文字列が同一又は類似している場合、1つの単語を複製した自然言語文の単語と論理形式文の単語との対応付けである単語アラインメントである複製済単語アラインメントを生成すると共に、抽象化された自然言語文の単語の各々について複製された単語数に基づいて、抽象化された自然言語文の単語の複製数を推定するための単語複製モデルを学習し、抽象化された、自然言語文及び論理形式文のペアの各々について生成された複製済単語アラインメントからフレーズテーブルを推定し、フィルタリング済フレーズテーブルに基づいて、翻訳モデルを学習し、言い換え可能なフレーズに拡張することにより、精度良く、自然言語文を論理形式文に翻訳するための翻訳モデルを学習することができる、という効果が得られる。
また、本発明の第2の実施の形態に係る翻訳装置によれば、抽象化された自然言語文の単語の各々について、当該単語の複製数を推定して、当該単語を複製し、単語が複製された抽象化自然言語文の部分文字列を、抽象化前の自然言語文の部分文字列に変換し、変換された翻訳対象の自然言語文を論理形式文に翻訳することで、精度良く、自然言語文を論理形式文に翻訳することができる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上述した実施の形態では、フィルタリング済フレーズテーブル44に基づいて、自然言語文を論理形式文に翻訳するための翻訳モデル48を学習していたが、これに限定されるものではなく、単語複製部34により生成された複製済単語アラインメント36、又は半教師ありフレーズ推定部38により推定されたフレーズテーブル40に基づいて、翻訳モデル48を学習してもよい。
また、上述した実施の形態では、半教師ありフレーズ推定部38は、複製済単語アラインメント36を補正し、ペアの各々について補正した複製済単語アラインメント36に基づいて、自然言語文のフレーズと論理形式文のフレーズとのペアを格納したフレーズテーブル40を推定しているが、これに限定されるものではなく、単語アラインメント32を補正し、ペアの各々について補正した単語アラインメント32に基づいて、自然言語文のフレーズと論理形式文のフレーズとのペアを格納したフレーズテーブル40を推定してもよい。
10、210 入力部
20、220 演算部
26、226 部分文字列アラインメントアノテートデータ
28 自然言語文間翻訳モデル学習部
30 単語アラインメント推定部
32 単語アラインメント
34 単語複製部
36 複製済単語アラインメント
38 半教師ありフレーズ推定部
40 フレーズテーブル
42 フレーズフィルタリング部
44 フィルタリング済フレーズテーブル
46 翻訳モデル学習部
48 翻訳モデル
50 パラフレージング適用部
52、252 パラフレーズ済翻訳モデル
60、260 自然言語文間翻訳モデル
62、262 単語複製モデル
100 翻訳学習装置
200 翻訳装置
228 自然言語文間翻訳部
230 単語複製部
232 デコーディング部

Claims (5)

  1. 入力された、翻訳元言語文と、前記翻訳元言語文に対応する論理形式文である翻訳先言語文とのペアの集合に基づいて、前記翻訳元言語文及び前記翻訳先言語文のペアの各々について、前記翻訳元言語文の単語と前記翻訳先言語文の単語との対応付けである単語アラインメントを推定する単語アラインメント推定部と、
    前記単語アラインメント推定部により推定された前記単語アラインメントに基づいて、前記翻訳元言語文及び前記翻訳先言語文のペアの各々について、前記ペアの前記単語アラインメントにおいて、前記翻訳元言語文の1つの単語が、前記翻訳先言語文の複数の部分文字列に対応し、かつ、前記複数の部分文字列が同一又は類似している場合、前記1つの単語を複製した前記翻訳元言語文の単語と前記翻訳先言語文の単語との対応付けである複製済単語アラインメントを生成すると共に、前記翻訳元言語文の単語の各々について複製された単語数に基づいて、前記翻訳元言語文の単語の複製数を推定するための単語複製モデルを学習する単語複製部と、
    前記翻訳元言語文及び前記翻訳先言語文のペアの各々について前記単語複製部により生成された前記複製済単語アラインメントに基づいて、前記翻訳元言語文を前記翻訳先言語文に翻訳するための翻訳モデルを学習する翻訳モデル学習部と、
    を含む翻訳学習装置。
  2. 前記翻訳元言語文及び前記翻訳先言語文のペアの各々について、前記翻訳元言語文の部分文字列と前記翻訳先言語文の部分文字列との対応付けを表す予め定められた部分文字列アラインメントに基づいて、前記ペアについての前記複製済単語アラインメントを補正し、前記ペアの各々について補正した前記複製済単語アラインメントに基づいて、前記翻訳元言語文のフレーズと前記翻訳先言語文のフレーズとのペアを格納したフレーズテーブルを推定する半教師ありフレーズ推定部を更に含み、
    前記翻訳モデル学習部は、前記半教師ありフレーズ推定部により生成された前記フレーズテーブルに基づいて、前記翻訳モデルを学習する請求項1に記載の翻訳学習装置。
  3. フレーズフィルタリング部と、パラフレージング適用部とを更に含み、
    前記フレーズフィルタリング部は、前記半教師ありフレーズ推定部により生成されたフレーズテーブルから、前記翻訳先言語文について予め定められた制約を満たさないフレーズを含むペアを削除し、
    前記翻訳モデル学習部は、前記フレーズフィルタリング部によりフレーズが削除された前記フレーズテーブルに基づいて、前記翻訳モデルを学習し、
    前記パラフレージング適用部は、前記翻訳モデル学習部により学習された前記翻訳モデルに含まれる各フレーズについて、言い換え可能なフレーズを格納したパラフレーズ辞書を参照して、言い換え可能なフレーズに拡張した前記翻訳モデルを、パラフレーズ済翻訳モデルとして生成する請求項2に記載の翻訳学習装置。
  4. 単語アラインメント推定部と、単語複製部と、翻訳モデル学習部とを含む翻訳学習装置における翻訳学習方法であって、
    前記単語アラインメント推定部が、入力された、翻訳元言語文と、前記翻訳元言語文に対応する論理形式文である翻訳先言語文とのペアの集合に基づいて、前記翻訳元言語文及び前記翻訳先言語文のペアの各々について、前記翻訳元言語文の単語と前記翻訳先言語文の単語との対応付けである単語アラインメントを推定するステップと、
    前記単語複製部が、前記単語アラインメント推定部により推定された前記単語アラインメントに基づいて、前記翻訳元言語文及び前記翻訳先言語文のペアの各々について、前記ペアの前記単語アラインメントにおいて、前記翻訳元言語文の1つの単語が、前記翻訳先言語文の複数の部分文字列に対応し、かつ、前記複数の部分文字列が同一又は類似している場合、前記1つの単語を複製した前記翻訳元言語文の単語と前記翻訳先言語文の単語との対応付けである複製済単語アラインメントを生成すると共に、前記翻訳元言語文の単語の各々について複製された単語数に基づいて、前記翻訳元言語文の単語の複製数を推定するための単語複製モデルを学習するステップと、
    前記翻訳モデル学習部が、前記翻訳元言語文及び前記翻訳先言語文のペアの各々について前記単語複製部により生成された前記複製済単語アラインメントに基づいて、前記翻訳元言語文を前記翻訳先言語文に翻訳するための翻訳モデルを学習するステップと、
    を含む翻訳学習方法。
  5. コンピュータを、請求項1〜請求項のいずれか1項に記載の翻訳学習装置の各部として機能させるためのプログラム。
JP2015007131A 2015-01-16 2015-01-16 翻訳学習装置、方法、及びプログラム Active JP6265923B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015007131A JP6265923B2 (ja) 2015-01-16 2015-01-16 翻訳学習装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015007131A JP6265923B2 (ja) 2015-01-16 2015-01-16 翻訳学習装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2016133920A JP2016133920A (ja) 2016-07-25
JP6265923B2 true JP6265923B2 (ja) 2018-01-24

Family

ID=56464356

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015007131A Active JP6265923B2 (ja) 2015-01-16 2015-01-16 翻訳学習装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6265923B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7444434B2 (ja) 2020-01-22 2024-03-06 プラスワン株式会社 包装用容器

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6884945B2 (ja) * 2016-09-06 2021-06-09 国立研究開発法人情報通信研究機構 訓練用データ生成装置、最適パラメータ取得装置、訓練用データ生成方法、および最適パラメータ取得方法
CN106502997A (zh) * 2016-10-08 2017-03-15 新译信息科技(深圳)有限公司 短语表过滤效率的评估方法及系统
WO2018179355A1 (ja) * 2017-03-31 2018-10-04 日本電気株式会社 情報処理システム、情報処理装置、情報処理方法および情報処理プログラム
WO2023157047A1 (ja) * 2022-02-15 2023-08-24 日本電信電話株式会社 妥当性判定装置、妥当性判定方法、および妥当性判定プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7725306B2 (en) * 2006-06-28 2010-05-25 Microsoft Corporation Efficient phrase pair extraction from bilingual word alignments
JP2011180823A (ja) * 2010-03-01 2011-09-15 National Institute Of Information & Communication Technology 機械翻訳装置、機械翻訳方法、およびプログラム
US8818790B2 (en) * 2010-04-06 2014-08-26 Samsung Electronics Co., Ltd. Syntactic analysis and hierarchical phrase model based machine translation system and method
JP5879989B2 (ja) * 2011-12-06 2016-03-08 日本電気株式会社 機械翻訳システム、機械翻訳方法および機械翻訳プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7444434B2 (ja) 2020-01-22 2024-03-06 プラスワン株式会社 包装用容器

Also Published As

Publication number Publication date
JP2016133920A (ja) 2016-07-25

Similar Documents

Publication Publication Date Title
Grave et al. Learning word vectors for 157 languages
Flanigan et al. Generation from abstract meaning representation using tree transducers
JP6265923B2 (ja) 翻訳学習装置、方法、及びプログラム
Pust et al. Parsing English into abstract meaning representation using syntax-based machine translation
Pourdamghani et al. Aligning english strings with abstract meaning representation graphs
Yang et al. Joint relational embeddings for knowledge-based question answering
US10585924B2 (en) Processing natural-language documents and queries
Mulang et al. Matching natural language relations to knowledge graph properties for question answering
WO2003056450A1 (fr) Procede et appareil d&#39;analyse syntaxique
TW476895B (en) Natural language inquiry system and method
Völker et al. HDT-UD: A very large Universal Dependencies treebank for German
Ell et al. SPARQL query verbalization for explaining semantic search engine queries
Pollicott et al. Open conformal systems and perturbations of transfer operators
JP2016224483A (ja) モデル学習装置、方法、及びプログラム
Lee et al. Splitting complex English sentences
Green et al. NP subject detection in verb-initial Arabic clauses
Borisov et al. Yandex school of data analysis russian-english machine translation system for wmt14
JP6586055B2 (ja) 深層格解析装置、深層格学習装置、深層格推定装置、方法、及びプログラム
JP5911931B2 (ja) 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体
Murthy et al. Kannada spell checker with sandhi splitter
Noferesti et al. A hybrid algorithm for recognizing the position of Ezafe constructions in Persian texts
Shaheer et al. Evaluating Question generation models using QA systems and Semantic Textual Similarity
Rodrigues et al. Bootstrapping a hybrid MT system to a new language pair
Pawar et al. Question systematization using templates
Nathani et al. Part of Speech Tagging for a Resource Poor Language: Sindhi in Devanagari Script using HMM and CRF

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161209

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170925

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171003

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171128

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171212

R150 Certificate of patent or registration of utility model

Ref document number: 6265923

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150