JP5749219B2 - 統計翻訳モデル学習装置、統計翻訳装置、方法、及びプログラム - Google Patents

統計翻訳モデル学習装置、統計翻訳装置、方法、及びプログラム Download PDF

Info

Publication number
JP5749219B2
JP5749219B2 JP2012128333A JP2012128333A JP5749219B2 JP 5749219 B2 JP5749219 B2 JP 5749219B2 JP 2012128333 A JP2012128333 A JP 2012128333A JP 2012128333 A JP2012128333 A JP 2012128333A JP 5749219 B2 JP5749219 B2 JP 5749219B2
Authority
JP
Japan
Prior art keywords
language
result
analysis
character string
statistical translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012128333A
Other languages
English (en)
Other versions
JP2013254271A (ja
Inventor
克仁 須藤
克仁 須藤
センチョウ ゴ
センチョウ ゴ
裕之 進藤
裕之 進藤
塚田 元
元 塚田
永田 昌明
昌明 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012128333A priority Critical patent/JP5749219B2/ja
Publication of JP2013254271A publication Critical patent/JP2013254271A/ja
Application granted granted Critical
Publication of JP5749219B2 publication Critical patent/JP5749219B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Description

本発明は、統計翻訳モデル学習装置、統計翻訳装置、方法、及びプログラムに係り、特に、構文解析情報を用いて統計翻訳モデルを学習する統計翻訳モデル学習装置、方法、及びプログラム、並びに、統計翻訳モデルを用いて翻訳を行う統計翻訳装置、方法、及びプログラムに関する。
対訳文データから言語の翻訳に利用する翻訳規則およびその確率を学習して翻訳を行う統計的機械翻訳と呼ばれる技術において、構文(あるいは統語)的な情報を考慮することによって高い翻訳精度を得ることができる「構文に基づく機械翻訳」の方法が種々考案されている。非特許文献1では出力側の言語の構文構造を、非特許文献2では入力側の言語の構文構造を、そして非特許文献3では入力・出力双方の構文構造を、それぞれ考慮することによって、構文的な制約を満足するような翻訳結果を得る方法について記載されている。構文的な情報は通常「構文解析」と呼ばれる、構文構造および各部分構造の文法的な役割を推定する技術(著名な技術として代表的なものにCYK(あるいはCKY)法がある)によって付与されるが、構文解析によって付与される情報は、構文解析器が対象とする文法(例えば文脈自由文法)が規定するものであり、文法は、人手で設計した文法規則、もしくはツリーバンクと呼ばれる構文木データベースから学習される文法規則によって定義される。したがって、構文に基づく機械翻訳で利用される構文的な情報も、通常それらの文法規則・構文木データベースに含まれる構文的な情報に制約される。
特開2011-175500号公報
Kenji Yamada and Kevin Knight, "A Syntax-based Statistical Translation Model", Proceedings of 39th Annual Meeting of the Association for Computational Linguistics, pp.523-530, 2001. Yang Liu他, "Tree-to-String Alignment Template for Statistical Machine Translation", Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the Association for Computational Linguistics, pp.609-616, 2006. Min Zhang他, "A Tree Sequence Alignment-based Tree-to-Tree Translation Model", Proceedings of ACL-08: HLT, pp.559-567, 2008. Yusuke Miyao and Jun’ichi Tsujii, "Feature Forest Models for Probabilistic HPSG Parsing", Computational Linguistics, Volume 34, Number 1, pp.35-80, 2008.
前記構文に基づく機械翻訳で利用する構文的な情報は、機械翻訳での応用を意図したものではなく、情報が少なすぎて機械翻訳における制約として十分な効果が得られないことや、逆に情報が多すぎることによって条件に合致する翻訳が行えなくなることがある。例えば、当該技術分野で広く知られている構文木データベースであるPenn Treebankでは、名詞句はすべて“NP”という識別子(ラベル)で記述されており、それが主格として働くのか目的格として働くのかを記述していないために、翻訳時の制約として十分な情報を含んでいない。一方で、適応的に識別子を細分化して構文解析の性能を向上させる技術(例えば非特許文献4)も存在するが、この技術の構文解析を行う場合には識別子を細分化しすぎることによって制約を満たす翻訳が得られないことが考えられる。
また、主辞の情報を機械翻訳に利用した例として特許文献1に記載された機械翻訳方法が挙げられるが、当該機械翻訳方法においては主辞の情報は入力文の語順を決定的に変換するために利用されており、翻訳時の制約の一つとして利用するものではない。
本発明は、上記の事情を鑑みてなされたもので、適度な構文的情報の利用によって構文に基づく機械翻訳の精度向上を実現することができる統計翻訳モデル学習装置、統計翻訳装置、方法、及びプログラムを提供することを目的とする。
上記の目的を達成するために本発明に係る統計翻訳モデル学習装置は、対訳となる第1言語の文字列及び第2言語の文字列の組み合わせからなる対訳データを記憶する記憶手段と、前記第1言語の文字列に対して形態素解析を含む言語解析処理を行う第1言語解析手段と、前記第2言語の文字列に対して形態素解析を含む言語解析処理を行う第2言語解析手段と、前記第1言語解析手段による言語解析処理の結果及び前記第2言語解析手段による言語解析処理の結果に基づいて、統計翻訳モデルを学習する学習手段と、を含み、前記第1言語解析手段による言語解析処理及び前記第2言語解析手段による言語解析処理の少なくとも一方は、前記文字列に対して構文解析処理を行って、部分構文構造に付与された、文法的な役割を示す識別子を含む構文解析処理の結果を取得し、前記構文解析処理の結果から得られる部分構文構造における主辞の位置及び前記部分構文構造における主辞と修飾語との関係の少なくとも一方を示す付加情報を、前記構文解析処理の結果に含まれる前記部分構文構造の識別子に付加することを含み、前記学習手段は、前記構文解析処理の結果を含む前記言語解析処理の結果に基づいて、前記統計翻訳モデルを学習する。
本発明に係る統計翻訳モデル学習方法は、対訳となる第1言語の文字列及び第2言語の文字列の組み合わせからなる対訳データを記憶する記憶手段と、第1言語解析手段と、第2言語解析手段と、学習手段とを含む統計翻訳モデル学習装置における統計翻訳モデル学習方法であって、前記第1言語解析手段によって、前記第1言語の文字列に対して形態素解析を含む言語解析処理を行い、前記第2言語解析手段によって、前記第2言語の文字列に対して形態素解析を含む言語解析処理を行い、前記学習手段によって、前記第1言語解析手段による言語解析処理の結果及び前記第2言語解析手段による言語解析処理の結果に基づいて、統計翻訳モデルを学習することを含み、前記第1言語解析手段による言語解析処理及び前記第2言語解析手段による言語解析処理の少なくとも一方は、前記文字列に対して構文解析処理を行って、部分構文構造に付与された、文法的な役割を示す識別子を含む構文解析処理の結果を取得し、前記構文解析処理の結果から得られる部分構文構造における主辞の位置及び前記部分構文構造における主辞と修飾語との関係の少なくとも一方を示す付加情報を、前記構文解析処理の結果に含まれる前記部分構文構造の識別子に付加することを含み、前記学習手段は、前記構文解析処理の結果を含む前記言語解析処理の結果に基づいて、前記統計翻訳モデルを学習する。
本発明によれば、第1言語の文字列に対する言語解析処理及び第2言語の文字列に対する言語解析処理の少なくとも一方において、構文解析処理を行って、部分構文構造に付与された、文法的な役割を示す識別子を含む構文解析処理の結果を取得し、部分構文構造における主辞の位置及び前記部分構文構造における主辞と修飾語との関係の少なくとも一方を示す付加情報を、構文解析処理の結果に含まれる前記部分構文構造の識別子に付加して、統計翻訳モデルを学習することにより、適度な構文的情報の利用によって構文に基づく機械翻訳の精度向上を実現することができる。
本発明に係る統計翻訳装置は、上記の統計翻訳モデル学習装置によって学習された前記統計翻訳モデルを記憶するモデル記憶手段と、入力された前記第1言語の文字列に対して形態素解析を含む言語解析処理を行う言語解析手段と、前記言語解析手段による言語解析処理の結果と、前記モデル記憶手段に記憶された前記統計翻訳モデルとに基づいて、前記入力された前記第1言語の文字列を前記第2言語に翻訳する統計翻訳手段とを含んで構成されている。
本発明に係る統計翻訳方法は、上記の統計翻訳モデル学習方法によって学習された前記統計翻訳モデルを記憶するモデル記憶手段と、言語解析手段と、統計翻訳手段とを含む統計翻訳装置における統計翻訳方法であって、前記言語解析手段によって、入力された前記第1言語の文字列に対して形態素解析を含む言語解析処理を行い、前記統計翻訳手段によって、前記言語解析手段による言語解析処理の結果と、前記モデル記憶手段に記憶された前記統計翻訳モデルとに基づいて、前記入力された前記第1言語の文字列を前記第2言語に翻訳する。
本発明に係る統計翻訳装置及び統計翻訳方法によれば、第1言語の文字列に対する言語解析処理及び第2言語の文字列に対する言語解析処理の少なくとも一方において、構文解析処理を行うと共に、部分構文構造における主辞の位置及び主辞と修飾語との関係の少なくとも一方を示す付加情報を、構文解析処理の結果に付加して学習した統計翻訳モデルに基づいて、入力された第1言語の文字列に翻訳することにより、適度な構文的情報の利用によって構文に基づく機械翻訳の精度向上を実現することができる。
本発明に係るプログラムは、コンピュータを、上記の統計翻訳モデル学習装置又は統計翻訳装置の各手段として機能させるためのプログラムである。
以上説明したように、本発明の統計翻訳モデル学習装置、方法、及びプログラムによれば、第1言語の文字列に対する言語解析処理及び第2言語の文字列に対する言語解析処理の少なくとも一方において、構文解析処理を行うと共に、部分構文構造における主辞の位置及び主辞と修飾語との関係の少なくとも一方を示す付加情報を、構文解析処理の結果に付加して、統計翻訳モデルを学習することにより、適度な構文的情報の利用によって構文に基づく機械翻訳の精度向上を実現することができる、という効果が得られる。
本発明の統計翻訳装置、方法、及びプログラムによれば、第1言語の文字列に対する言語解析処理及び第2言語の文字列に対する言語解析処理の少なくとも一方において、構文解析処理を行うと共に、部分構文構造における主辞の位置及び主辞と修飾語との関係の少なくとも一方を示す付加情報を、構文解析処理の結果に付加して学習した統計翻訳モデルに基づいて、入力された第1言語の文字列を第2言語の文字列へ翻訳することにより、適度な構文的情報の利用によって構文に基づく機械翻訳の精度向上を実現することができる、という効果が得られる。
本発明の第1の実施の形態に係る統計翻訳装置の構成を示す概略図である。 日本語の文字列群の例を示す図である。 英語の文字列群の例を示す図である。 日本語の分かち書きの結果の例を示す図である。 構文解析結果の例を示す図である。 部分構文構造に新しい識別子を付与した結果の例を示す図である。 本発明の第1の実施の形態に係る統計翻訳装置における統計翻訳モデル学習処理ルーチンの内容を示すフローチャートである。 本発明の第1の実施の形態に係る統計翻訳装置における統計翻訳処理ルーチンの内容を示すフローチャートである。 本発明の第2の実施の形態に係る統計翻訳装置の構成を示す概略図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
〔第1の実施の形態〕
<システム構成>
本発明の第1の実施の形態に係る統計翻訳装置100は、第1言語(翻訳元言語)の入力文字列と第2言語(翻訳先言語)の正しい出力文字列との対訳を含む対訳データが入力され、統計翻訳モデルを学習する。また、統計翻訳装置100は、学習した統計翻訳モデルを用いて、入力された第1言語の入力文字列を第2言語へ翻訳する。この統計翻訳装置100は、CPUと、RAMと、後述する統計翻訳モデル学習処理ルーチン及び統計翻訳処理ルーチンを実行するためのプログラムを記憶したROMとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図1に示すように、統計翻訳装置100は、入力部10と、演算部20と、出力部30とを備えている。
入力部10は、キーボードなどの入力装置から入力された対訳データとして、相互が対訳となっている文字列群を受け付ける。また、入力部10は、キーボードなどの入力装置から、翻訳したい第1言語の入力文を受け付ける。なお、入力部10は、ネットワーク等を介して外部から入力されたものを受け付けるようにしてもよい。
対訳データは対訳文字列対が自明な構造のファイルである。本実施の形態においては、日本語(第1言語)の入力文字列と英語(第2言語)の正解翻訳文字列とが、1行に1文ずつ記載され、かつ同じ行数に対応する日本語文・英文は対訳として対応がとれている。例えば、対訳データは、図2に示すような「第1言語文字列群ファイル」と図3に示すような「第2言語文字列群ファイル」との2つのファイルによって構成されている。
演算部20は、第1言語文字列群記憶部21、第2言語文字列群記憶部22、前処理部23、第1言語解析部24、第2言語解析部25、統計翻訳モデル学習部26、統計翻訳モデル記憶部27、前処理部28、入力言語解析部29、統計翻訳部31、及び後処理部32を備えている。なお、入力言語解析部29は、言語解析手段の一例である。
第1言語文字列群記憶部21は、入力部10により受け付けた対訳データに含まれる第1言語の文字列群を記憶する。第2言語文字列群記憶部22は、入力部10により受け付けた対訳データに含まれる第2言語の文字列群を記憶する。第1言語文字列群記憶部21に記憶された第1言語の文字列群と、第2言語文字列群記憶部22に記憶された第1言語の文字列群とは、対訳として対応がとれるように記憶されている。
前処理部23は、第1言語文字列群記憶部21に記憶されている第1言語の各文字列、または第2言語文字列群記憶部22に記憶されている第2言語の各文字列に対して、異体字の統一化や不要な文字の削除、特殊文字(例えば、「#」、「|」)の書き換え等を行う。
第1言語解析部24は、形態素解析部24Aから構成される。形態素解析部24Aは、第1言語文字列群記憶部21に記憶されている第1言語の各文字列(前処理が行われた場合には、処理結果として各文字列)に対して、形態素解析処理(単語分割と品詞種別推定)を行う。なお、品詞種別推定は省略してもよい。形態素解析については公知の種々の方法が利用可能である。例えば、公知の日本語形態素解析プログラムMeCabを利用する。本実施の形態では、日本語の品詞情報を利用しないため、日本語の分かち書き(単語分割)のみを行う。分かち書きの結果の抜粋を図4に示す。
第2言語解析部25は、形態素解析部25A、構文解析部25B、及び識別子付与部25Cから構成される。
形態素解析部25Aは、第2言語文字列群記憶部22に記憶されている第2言語の各文字列(前処理が行われた場合には、処理結果として各文字列)に対して、形態素解析処理(単語分割と品詞種別推定)を行う。
構文解析部25Bは、第2言語の各文字列の形態素解析の結果を利用して、構文解析処理を行い、構文構造の推定、および部分構文構造に対する識別子の推定を行う。構文解析の方法は種々の方法が知られているが、本実施の形態では、主辞の情報や、主辞と修飾語の関係についての情報を利用するため、その情報を推定することができる構文解析方法(例えば上記の非特許文献4に記載の「主辞駆動型句構造文法」による構文解析や、非特許文献5(Jun Suzuki他, “An Empirical Study of Semi-supervised Structure Conditional Models for Dependency Parsing”, Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing, pp.551-560, 2009)に記載の「依存構造解析」等)を利用する。
本実施の形態の例では、英語の形態素解析と構文解析を、上記の非特許文献4の主辞駆動句構造文法による構文解析を実現する、公知の英語構文解析プログラムEnjuを用いて行う。なお、Enjuは形態素解析処理を合わせて実行するため、別途形態素解析は用いない。対訳データの英文に対する構文解析結果の抜粋を図5に示す。図5において、schemaが適用された句構造文法規則であり、例えば、subj_head は木の左側の子ノードが主語として木の右側の子ノードの主辞を修飾する構造であることを示している。また、headは主辞である子ノードのidを示しており、例えばidがc0であるノードの主辞は右側の子ノードc6であることを示す。
識別子付与部25Cは、構文解析部25Bで得られた構文解析結果に対して、構文に基づく機械翻訳で利用する識別子の付与を行う。識別子は部分木のような部分構文構造の文法的な役割を示すものであり、英語ではPenn Treebankで利用されている分類体系が広く知られている。識別子付与部25Cは、構文解析部25Bで部分構文構造に対して通常付与される識別子(“NP(名詞句)”,“PP(前置詞句)”等)に、主辞の部分構文構造における位置、もしくは主辞と修飾語の関係を表す追加識別子、あるいはその両方を付加して、新しい識別子を、構文解析結果における当該部分構文構造に付与する。主辞駆動句構造文法や依存構造解析では部分構文構造において主辞がどの位置に現れるかが示されるため、例えば二分木で表現される構文解析結果においては、主辞の位置は“Left”(部分構文構造の左側が主辞)あるいは“Right”(右側が主辞)で表すことができる。また、主辞と修飾語の関係については、上記の非特許文献4で用いられている句構造文法規則(schema,例: 主辞である動詞が主語を修飾語として取る)や、上記の非特許文献5で用いられている依存構造タイプ(例: 修飾語は目的語として主辞を修飾する)などがそれに相当するものであって、そうした分類に基づく識別子を利用することができる。
本実施の形態の例では、schemaと主辞の情報を識別子として利用する。具体的には、元となる識別子をcatの値とし、そこにschemaの値と、主辞が左側にあるか右側にあるかをLHSまたはRHSで示したものとを連結する。その結果、例えばS+subj_head+RHSのような新しい識別子を得る。この識別子付与部25Cによる処理の結果を図6に示す。図6のデータ仕様は、公知の統計的機械翻訳ツールキットMosesにおいて構文に基づく翻訳を行う場合の構文木データの格納仕様に従ったものである。なお、新しい識別子が、付加情報の一例である。
統計翻訳モデル学習部26は、第1言語解析部24の結果である第1言語の文字列群の分かち書きの結果と、第2言語解析部24の結果である第2言語の文字列群の構文解析結果であって、新しい識別子が付与された構文解析結果、及び第2言語の文字列群の形態素解析結果とに基づいて、統計翻訳モデルの学習を行う。構文に基づく統計翻訳モデルの学習方法としては、上記の非特許文献1や非特許文献6(Michel Galley他, “What’s in a translation rule?”, HLT-NAACL 2004: Main Proceedings, pp.273-280, 2004)に記載の方法が利用可能である。
本実施の形態の例では、日本語の文字列群の分かち書き結果と、英語の文字列群の構文解析結果に対して識別子を付与した結果とを利用して、構文に基づく統計翻訳モデルの学習を行う。構文に基づく統計翻訳モデルの学習は、上記の非特許文献6の方法に相当する方法で、公知のツールキットMosesに同梱の学習プログラムを利用して行う。構文に基づく統計翻訳モデルは、日本語の句(単語列)と対応する英語の部分構文構造の組み合わせに対する、相互に翻訳される条件付き確率を含んでいる。また、統計翻訳モデルは、英語の統計的言語モデルを含み、統計的言語モデルの学習を、公知のプログラムSRILMを利用して行う。英語の統計的言語モデルは、英語の単語の連接確率を表現したものであり、本実施の形態の例では5グラム(直前の4個の単語の並びの後にある単語が現れる確率分布を表現)を利用する。また、統計翻訳モデルは、日本語の単語列と対応する英語の単語列の組み合わせに対する、相互に翻訳される条件付き確率を含んでいてもよい。
統計翻訳モデル記憶部27には、統計翻訳モデル学習部26によって学習された統計翻訳モデルを記憶する。
前処理部28は、入力部10により受け付けた第1言語の文字列に対して、前処理部23と同様に、異体字の統一化や不要な文字の削除、特殊文字の書き換え等を行う。
入力言語解析部29は、形態素解析部29Aから構成される。形態素解析部29Aは、入力部10により受け付けた第1言語の文字列(前処理が行われた場合には、処理結果として文字列)に対して、形態素解析部24Aと同様に、形態素解析処理(単語分割と品詞種別推定)を行う。なお、品詞種別推定は省略してもよい。本実施の形態の例では、MeCabによる日本語の分かち書き(単語分割)のみを行う。
統計翻訳部31は、統計翻訳モデル記憶部27に記憶された統計翻訳モデルを利用して、前処理部28および入力言語解析部29で処理された第1言語の文字列を第2言語へ翻訳する。翻訳の方法としては、上記の非特許文献1や非特許文献6に記載の方法が利用可能である。
本実施の形態の例では、日本語の文「図1を用いて情報圧縮符号化に関連する構成について説明する。」に対して、MeCabによる分かち書きを適用した結果に対して、機械翻訳プログラムmoses_chart (Mosesに同梱の構文に基づく翻訳を行うプログラム)を利用して、翻訳結果「With reference to FIG. 1, the configuration related to the compressive coding will be described.」を得る。
後処理部32は、翻訳結果に対して書き換えられた特殊文字の書き戻し等の後処理を行う。
後処理部32による処理結果である翻訳文が、出力部30により出力される。出力の形態については特に規定しないが、ディスプレイなどへの出力、ネットワークを介した外部計算機等への出力が例として考えられる。
<統計翻訳装置の作用>
次に、第1の実施の形態に係る統計翻訳装置100の作用について説明する。まず、対訳として対応がとれている日本語の文字列群と英語の正しい翻訳文である文字列群とからなる対訳データが、統計翻訳装置100に入力されると、統計翻訳装置100によって、入力された対訳データが、第1言語文字列群記憶部21及び第2言語文字列群記憶部22に分かれて格納される。そして、統計翻訳装置100によって、図7に示す統計翻訳モデル学習処理ルーチンが実行される。
まず、ステップS101において、第1言語文字列群記憶部21から第1言語の文字列群を取得すると共に、第2言語文字列群記憶部22から第2言語の文字列群を取得する。そして、ステップS102において、上記ステップS101で取得した第1言語の文字列群及び第2言語の文字列群の少なくとも一方に対して、前処理を行う。
次のステップS103では、上記ステップS101で取得した第1言語の文字列群又は上記ステップS102で前処理が行われた第1言語の文字列群に対して、形態素解析処理を行う。ステップS104では、上記ステップS101で取得した第2言語の文字列群又は上記ステップS102で前処理が行われた第2言語の文字列群に対して、形態素解析処理を行う。
そして、ステップS105において、上記ステップS104での形態素解析処理の結果を用いて、第2言語の単語列群に対して構文解析処理を行う。次のステップS106では、上記ステップS105での構文解析処理の結果を用いて、第2言語の文字列群の部分構文構造における主辞の位置、及び主辞と修飾語との関係を示す識別子を、第2言語の文字列群に対する構文解析処理の結果に付与する。
ステップS107では、上記ステップS103の形態素解析処理の結果として得られる第1言語の文字列群の分かち書きと、上記ステップS106で得られる第2言語の文字列群の構文解析結果から得られる各部分構文構造とを、対訳として対応付けて、学習データとしてファイルに記録する。また、第2言語の文字列群の形態素解析処理の結果から得られる単語の連接情報を、学習データとしてファイルに記録する。
次のステップS108では、上記ステップS107で得られた学習データに基づいて、統計的言語モデルを含む統計翻訳モデルを学習し、ステップS109において、学習結果を、統計翻訳モデル記憶部27に格納して、統計翻訳モデル学習処理ルーチンを終了する。
また、キーボードなどの入力装置から、翻訳したい第1言語(日本語)の文字列が、統計翻訳装置100に入力されると、統計翻訳装置100によって、図8に示す統計翻訳処理ルーチンが実行される。
まず、ステップS111において、第1言語(日本語)の入力文字列を受け付け、ステップS112で、上記ステップS111で受け付けた入力文字列に対して、前処理を行う。そして、ステップS113において、上記ステップS111で前処理が行われた入力文字列に対して形態素解析処理を行う。
次のステップS114では、上記ステップS113で得られた形態素解析処理の結果(分かち書きの結果)、及び統計翻訳モデル記憶部27に記憶されている統計翻訳モデルに基づいて、入力文字列を翻訳した第2言語(英語)の翻訳文を生成する。
そして、ステップS115において、上記ステップS114で生成された第2言語の翻訳文に対して後処理を行い、ステップS116で、後処理が行われた第2言語の翻訳文を出力部30により出力して、統計翻訳処理ルーチンを終了する。
<実験結果>
次に、本実施の形態で説明した統計翻訳の方法について実験を行った結果を説明する。英語側で構文の情報を利用した日本語から英語への翻訳実験を行った。本発明の主辞に関わる付加的情報を利用しなかった場合の統計翻訳を、比較対象とした。比較対象では、公知の翻訳自動評価方法BLEUにおいて0.311、RIBESにおいて0.733であったものが、本実施の形態で説明した統計翻訳の方法によればBLEUにおいて0.317、RIBESにおいて0.742と改善することを確認した。
以上説明したように、本発明の第1の実施の形態に係る統計翻訳装置によれば、第2言語の文字列に対する言語解析処理において、構文解析処理を行うと共に、部分構文構造における主辞の位置、及び部分構文構造における主辞と修飾語との関係を示す新しい識別子を、構文解析処理の結果に付与して、構文に基づく統計翻訳モデルを学習することにより、適度な構文的情報の利用によって構文に基づく機械翻訳の精度向上を実現することができる。
また、部分構文構造における主辞の位置、及び部分構文構造における主辞と修飾語との関係を示す新しい識別子を、構文解析処理の結果に付加して学習した統計翻訳モデルに基づいて、入力された第1言語の文字列を第2言語へ翻訳することにより、精度のよい機械翻訳を実現することができる。
また、構文に基づく翻訳において、主辞と修飾語の情報を制約として加えることで、より適切な翻訳規則を選択することができるようになり、翻訳精度が高まることが期待できる。
〔第2の実施の形態〕
次に、第2の実施の形態について説明する。なお、第1の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
第2の実施の形態では、第1言語、第2言語の双方に対して、構文解析処理を行うと共に、新しい識別子を付与している点が、第1の実施の形態と異なっている。
図9に示すように、第2の実施の形態に係る統計翻訳装置200の演算部220は、第1言語文字列群記憶部21、第2言語文字列群記憶部22、前処理部23、第1言語解析部224、第2言語解析部25、統計翻訳モデル学習部26、統計翻訳モデル記憶部27、前処理部28、入力言語解析部229、統計翻訳部31、及び後処理部32を備えている。
第1言語解析部224は、形態素解析部24A、構文解析部224B、及び識別子付与部224Cから構成される。形態素解析部24Aは、第1言語文字列群記憶部21に記憶されている第1言語の各文字列(前処理が行われた場合には、処理結果として各文字列)に対して、形態素解析処理(単語分割と品詞種別推定)を行う。
構文解析部224Bは、第1言語の各文字列の形態素解析の結果を利用して、構文解析処理を行い、構文構造の推定、および部分構文構造の識別子の推定を行う。構文解析の方法は種々の方法が知られているが、本実施の形態では、主辞の情報や、主辞と修飾語の関係についての情報を利用するため、その情報を推定することができる構文解析方法を利用する。
識別子付与部224Cは、構文解析部224Bで得られた構文解析結果に対して、構文に基づく機械翻訳で利用する識別子の付与を行う。識別子付与部224Cは、構文解析部224Bで部分構文構造に対して通常付与される識別子(“NP(名詞句)”,“PP(前置詞句)”等)に、主辞の部分構文構造における位置、もしくは部分構文構造における主辞と修飾語の関係を表す追加識別子、あるいはその両方を付加して、新しい識別子を、構文解析結果における当該部分構文構造に対して付与する。
統計翻訳モデル学習部26は、第1言語解析部224の結果である第1言語の文字列群の構文解析結果であって、新しい識別子が付与された構文解析結果と、第2言語解析部24の結果である第2言語の文字列群の構文解析結果であって、新しい識別子が付与された構文解析結果とに基づいて、統計翻訳モデルの学習を行う。
統計翻訳モデルは、日本語の部分構文構造(構文木)と対応する英語の部分構文構造(構文木)の組み合わせに対する、相互に翻訳される条件付き確率を含んでいる。このような構文に基づく統計翻訳モデルの学習方法としては、非特許文献7(Min Zhang et al., "A Tree Sequence Alignment-based Tree-to-Tree Translation Model", Proceedings of ACL-08: HLT (2008))に記載の方法が利用可能である。
また、統計翻訳モデルは、日本語の句(単語列)と対応する英語の部分構文構造の組み合わせに対する、相互に翻訳される条件付き確率、又は日本語の部分構文構造と対応する英語の句(単語列)の組み合わせに対する、相互に翻訳される条件付き確率を含んでいてもよい。また、統計翻訳モデルは、英語の統計的言語モデルを含んでいてもよい。また、統計翻訳モデルは、日本語の単語列と対応する英語の単語列の組み合わせに対する、相互に翻訳される条件付き確率を含んでいてもよい。
入力言語解析部229は、形態素解析部29A、構文解析部229B、及び識別子付与部229Cから構成される。形態素解析部29Aは、入力部10により受け付けた第1言語の文字列(前処理が行われた場合には、処理結果として文字列)に対して、形態素解析部24Aと同様に、形態素解析処理(単語分割と品詞種別推定)を行う。
構文解析部229Bは、第1言語の文字列の形態素解析の結果を利用して、構文解析部224Bと同様に、構文解析処理を行い、構文構造および識別子の推定を行う。
識別子付与部229Cは、構文解析部229Bで得られた構文解析結果に対して、識別子付与部224Cと同様に、構文に基づく機械翻訳で利用する識別子の付与を行う。
統計翻訳部31は、統計翻訳モデル記憶部27に記憶された統計翻訳モデルを利用して、入力言語解析部29で得られた第1言語の文字列の構文解析結果及び形態素解析結果に基づいて、第1言語の文字列を第2言語に翻訳する。翻訳の方法としては、上記の非特許文献1、非特許文献6、非特許文献7に記載の方法が利用可能である。
なお、第2の実施の形態に係る統計翻訳装置200の他の構成及び作用については、第1の実施の形態と同様であるため、説明を省略する。
以上説明したように、第2の実施の形態に係る統計翻訳装置によれば、第1言語の文字列に対する言語解析処理及び第2言語の文字列に対する言語解析処理の双方において、構文解析処理を行うと共に、部分構文構造における主辞の位置、及び部分構文構造における主辞と修飾語との関係を示す新しい識別子を、それぞれの構文解析処理の結果に付加して、構文に基づく統計翻訳モデルを学習することにより、適度な構文的情報の利用によって構文に基づく機械翻訳の精度向上を実現することができる。
また、部分構文構造における主辞の位置、及び部分構文構造における主辞と修飾語との関係を示す新しい識別子を、構文解析処理の結果に付加して学習した統計翻訳モデルに基づいて、入力された第1言語の文字列を第2言語へ翻訳することにより、精度のよい機械翻訳を実現することができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、第1言語解析部が、形態素解析部、構文解析部、及び識別子付与部を備え、第2言語解析部が、形態素解析部のみを備えるように構成してもよい。この場合には、入力言語解析部は、形態素解析部、構文解析部、及び識別子付与部を備え、統計翻訳部は、統計翻訳モデル記憶部に記憶された統計翻訳モデルを利用して、入力言語解析部で得られた第1言語の文字列の構文解析結果及び形態素解析結果に基づいて、第1言語の文字列を第2言語へ翻訳するようにすればよい。
また、統計翻訳モデルの学習を、統計翻訳装置とは別の装置において行うようにしてもよい。この場合には、統計翻訳モデルの学習を行う学習装置は、上記第1の実施の形態で説明した、第1言語文字列群記憶部21、第2言語文字列群記憶部22、前処理部23、第1言語解析部24、第2言語解析部25、統計翻訳モデル学習部26、及び統計翻訳モデル記憶部27を備えていればよい。あるいは、統計翻訳モデルの学習を行う学習装置は、上記第2の実施の形態で説明した、第1言語文字列群記憶部21、第2言語文字列群記憶部22、前処理部23、第1言語解析部224、第2言語解析部25、統計翻訳モデル学習部26、及び統計翻訳モデル記憶部27を備えていればよい。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
10 入力部
20、220 演算部
21 第1言語文字列群記憶部
22 第2言語文字列群記憶部
24A、25A、29A 形態素解析部
24、224 第1言語解析部
25 第2言語解析部
25B、224B、229B 構文解析部
25C、224C、229C 識別子付与部
26 統計翻訳モデル学習部
27 統計翻訳モデル記憶部
29、229 入力言語解析部
30 出力部
31 統計翻訳部
100、200統計翻訳装置

Claims (8)

  1. 対訳となる第1言語の文字列及び第2言語の文字列の組み合わせからなる対訳データを記憶する記憶手段と、
    前記第1言語の文字列に対して形態素解析を含む言語解析処理を行う第1言語解析手段と、
    前記第2言語の文字列に対して形態素解析を含む言語解析処理を行う第2言語解析手段と、
    前記第1言語解析手段による言語解析処理の結果及び前記第2言語解析手段による言語解析処理の結果に基づいて、統計翻訳モデルを学習する学習手段と、
    を含み、
    前記第1言語解析手段による言語解析処理及び前記第2言語解析手段による言語解析処理の少なくとも一方は、前記文字列に対して構文解析処理を行って、部分構文構造に付与された、文法的な役割を示す識別子を含む構文解析処理の結果を取得し、前記構文解析処理の結果から得られる部分構文構造における主辞の位置及び前記部分構文構造における主辞と修飾語との関係の少なくとも一方を示す付加情報を、前記構文解析処理の結果に含まれる前記部分構文構造の識別子に付加することを含み、
    前記学習手段は、前記構文解析処理の結果を含む前記言語解析処理の結果に基づいて、前記統計翻訳モデルを学習する
    統計翻訳モデル学習装置。
  2. 請求項1記載の統計翻訳モデル学習装置によって学習された前記統計翻訳モデルを記憶するモデル記憶手段と、
    入力された前記第1言語の文字列に対して形態素解析を含む言語解析処理を行う言語解析手段と、
    前記言語解析手段による言語解析処理の結果と、前記モデル記憶手段に記憶された前記統計翻訳モデルとに基づいて、前記入力された前記第1言語の文字列を前記第2言語に翻訳する統計翻訳手段と、
    を含む統計翻訳装置。
  3. 前記第1言語解析手段による言語解析処理は、前記構文解析処理を行うと共に前記付加情報を前記構文解析処理の結果に含まれる前記部分構文構造の識別子に付加することを含み、
    前記言語解析手段は、前記入力された前記第1言語の文字列に対して構文解析処理を行って、部分構文構造に付与された前記識別子を含む構文解析処理の結果を取得し、前記構文解析処理の結果から得られる部分構文構造における主辞の位置及び前記部分構文構造における主辞と修飾語との関係の少なくとも一方を示す付加情報を、前記構文解析処理の結果に含まれる前記部分構文構造の識別子に付加することを含み、
    前記統計翻訳手段は、前記言語解析手段による前記構文解析処理の結果を含む前記言語解析処理の結果に基づいて、前記入力された前記第1言語の文字列を前記第2言語に翻訳する請求項2記載の統計翻訳装置。
  4. 対訳となる第1言語の文字列及び第2言語の文字列の組み合わせからなる対訳データを記憶する記憶手段と、第1言語解析手段と、第2言語解析手段と、学習手段とを含む統計翻訳モデル学習装置における統計翻訳モデル学習方法であって、
    前記第1言語解析手段によって、前記第1言語の文字列に対して形態素解析を含む言語解析処理を行い、
    前記第2言語解析手段によって、前記第2言語の文字列に対して形態素解析を含む言語解析処理を行い、
    前記学習手段によって、前記第1言語解析手段による言語解析処理の結果及び前記第2言語解析手段による言語解析処理の結果に基づいて、統計翻訳モデルを学習する
    ことを含み、
    前記第1言語解析手段による言語解析処理及び前記第2言語解析手段による言語解析処理の少なくとも一方は、前記文字列に対して構文解析処理を行って、部分構文構造に付与された、文法的な役割を示す識別子を含む構文解析処理の結果を取得し、前記構文解析処理の結果から得られる部分構文構造における主辞の位置及び前記部分構文構造における主辞と修飾語との関係の少なくとも一方を示す付加情報を、前記構文解析処理の結果に含まれる前記部分構文構造の識別子に付加することを含み、
    前記学習手段は、前記構文解析処理の結果を含む前記言語解析処理の結果に基づいて、前記統計翻訳モデルを学習する
    統計翻訳モデル学習方法。
  5. 請求項4記載の統計翻訳モデル学習方法によって学習された前記統計翻訳モデルを記憶するモデル記憶手段と、言語解析手段と、統計翻訳手段とを含む統計翻訳装置における統計翻訳方法であって、
    前記言語解析手段によって、入力された前記第1言語の文字列に対して形態素解析を含む言語解析処理を行い、
    前記統計翻訳手段によって、前記言語解析手段による言語解析処理の結果と、前記モデル記憶手段に記憶された前記統計翻訳モデルとに基づいて、前記入力された前記第1言語の文字列を前記第2言語に翻訳する
    統計翻訳方法。
  6. 前記第1言語解析手段による言語解析処理は、前記構文解析処理を行うと共に前記付加情報を前記構文解析処理の結果に含まれる前記部分構文構造の識別子に付加することを含み、
    前記言語解析手段は、前記入力された前記第1言語の文字列に対して構文解析処理を行って、部分構文構造に付与された前記識別子を含む構文解析処理の結果を取得し、前記構文解析処理の結果から得られる部分構文構造における主辞の位置及び前記部分構文構造における主辞と修飾語との関係の少なくとも一方を示す付加情報を、前記構文解析処理の結果に含まれる前記部分構文構造の識別子に付加することを含み、
    前記統計翻訳手段は、前記言語解析手段による前記構文解析処理の結果を含む前記言語解析処理の結果に基づいて、前記入力された前記第1言語の文字列を前記第2言語に翻訳する請求項5記載の統計翻訳方法。
  7. コンピュータを、請求項1記載の統計翻訳モデル学習装置の各手段として機能させるためのプログラム。
  8. コンピュータを、請求項2又は3記載の統計翻訳装置の各手段として機能させるためのプログラム。
JP2012128333A 2012-06-05 2012-06-05 統計翻訳モデル学習装置、統計翻訳装置、方法、及びプログラム Active JP5749219B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012128333A JP5749219B2 (ja) 2012-06-05 2012-06-05 統計翻訳モデル学習装置、統計翻訳装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012128333A JP5749219B2 (ja) 2012-06-05 2012-06-05 統計翻訳モデル学習装置、統計翻訳装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2013254271A JP2013254271A (ja) 2013-12-19
JP5749219B2 true JP5749219B2 (ja) 2015-07-15

Family

ID=49951741

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012128333A Active JP5749219B2 (ja) 2012-06-05 2012-06-05 統計翻訳モデル学習装置、統計翻訳装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5749219B2 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003263433A (ja) * 2002-03-07 2003-09-19 Advanced Telecommunication Research Institute International 統計的機械翻訳機における翻訳モデルの生成方法
KR101130457B1 (ko) * 2004-11-04 2012-03-28 마이크로소프트 코포레이션 트리렛 번역쌍 추출

Also Published As

Publication number Publication date
JP2013254271A (ja) 2013-12-19

Similar Documents

Publication Publication Date Title
US20210004443A1 (en) Pinning artifacts for expansion of search keys and search spaces in a natural language understanding (nlu) framework
KR102268875B1 (ko) 전자 장치에 텍스트를 입력하는 시스템 및 방법
US20180314690A1 (en) Statistical machine translation method using dependency forest
US20140163951A1 (en) Hybrid adaptation of named entity recognition
JP2008276517A (ja) 訳文評価装置、訳文評価方法およびプログラム
JP2007241764A (ja) 構文解析プログラム、構文解析方法、構文解析装置、及び構文解析プログラムが記録されたコンピュータ読み取り可能な記録媒体
Ringger et al. Linguistically informed statistical models of constituent structure for ordering in sentence realization
JP5552101B2 (ja) 並べ替え規則学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラム
JP5410334B2 (ja) 語順変換装置、機械翻訳用統計モデル作成装置、機械翻訳装置、語順変換方法、機械翻訳用統計モデル作成方法、機械翻訳方法、プログラム
Hamdi et al. Automatically building a Tunisian lexicon for deverbal nouns
JP5911931B2 (ja) 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体
JP5749219B2 (ja) 統計翻訳モデル学習装置、統計翻訳装置、方法、及びプログラム
JP5780670B2 (ja) 翻訳装置、方法、及びプログラム、並びに翻訳モデル学習装置、方法、及びプログラム
JP5734917B2 (ja) 並べ替えモデル学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラム
Green et al. NP subject detection in verb-initial Arabic clauses
Sennrich et al. A tree does not make a well-formed sentence: Improving syntactic string-to-tree statistical machine translation with more linguistic knowledge
Cahill et al. Treebank-driven parsing, translation and grammar induction using LFG
KR20200101735A (ko) 임베딩 기반의 인과 관계 탐지 시스템과 방법 및 이를 실행하기 위한 프로그램이 기록된 기록매체
Ouersighni Robust rule-based approach in Arabic processing
JP6040946B2 (ja) 語順並べ替え装置、翻訳装置、方法、及びプログラム
JP4708682B2 (ja) 対訳単語対の学習方法、装置、及び、対訳単語対の学習プログラムを記録した記録媒体
Wu et al. Improve syntax-based translation using deep syntactic structures
JP2006252290A (ja) 機械翻訳装置及びコンピュータプログラム
JP2014153857A (ja) 同義述部抽出装置、方法、及びプログラム
JP5462894B2 (ja) 翻訳モデル学習装置、方法、翻訳装置、方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140723

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150123

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150203

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150325

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150414

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150513

R150 Certificate of patent or registration of utility model

Ref document number: 5749219

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150