JP2013054608A - Translation device, method and program, and translation model learning device, method and program - Google Patents

Translation device, method and program, and translation model learning device, method and program Download PDF

Info

Publication number
JP2013054608A
JP2013054608A JP2011193367A JP2011193367A JP2013054608A JP 2013054608 A JP2013054608 A JP 2013054608A JP 2011193367 A JP2011193367 A JP 2011193367A JP 2011193367 A JP2011193367 A JP 2011193367A JP 2013054608 A JP2013054608 A JP 2013054608A
Authority
JP
Japan
Prior art keywords
translation
language
sentence
word
post
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011193367A
Other languages
Japanese (ja)
Other versions
JP5780670B2 (en
Inventor
Katsuto Sudo
克仁 須藤
Xianchao Wu
センチョウ ゴ
Do Kevin
ドゥ ケヴィン
Hajime Tsukada
元 塚田
Masaaki Nagata
昌明 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011193367A priority Critical patent/JP5780670B2/en
Publication of JP2013054608A publication Critical patent/JP2013054608A/en
Application granted granted Critical
Publication of JP5780670B2 publication Critical patent/JP5780670B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

PROBLEM TO BE SOLVED: To perform high-speed and high-accuracy translation in which words are easily associated.SOLUTION: A learning preprocessing part 22 generates translation intermediate language in which translation source language is replaced with vocabularies of translation destination language using a word order close to the translation source language. A first-translation learning part 24 learns a first-translation model 34 for translating the translation source language into an intermediate translation sentence using a parallel corpus of the translation source language and the translation intermediate language. A latter-translation learning part 26 learns a latter-translation model 36 for translating the intermediate translation sentence into the translation destination language using a parallel corpus of the translation intermediate language and the translation destination language. A first-translation part 54 refers to the first-translation model 34 and translates an input sentence into the intermediate translation sentence. A latter-translation part 56 refers to the latter-translation model 36 and translates the intermediate translation sentence into a sentence of the translation destination language.

Description

本発明は、翻訳装置、方法、及びプログラム、並びに翻訳モデル学習装置、方法、及びプログラムに関する。   The present invention relates to a translation apparatus, method, and program, and a translation model learning apparatus, method, and program.

従来、入力側の言語(以下、「翻訳元言語」という)の文を出力側の言語(以下、「翻訳先言語」という)の文に機械翻訳することが行われている。異なる言語間での語順の違いに起因する単語並べ替えの難しさはあらゆる機械翻訳技術に共通の課題である。特に、翻訳の方法を対訳コーパスからの学習に拠る統計的な機械翻訳技術において、単語の並べ替えは計算量の増大を招くことから、単語の並べ替えを効率的に探索することは実用的に重要な課題である。従来の統計翻訳技術、特にその代表例といえる句(phrase)に基づく翻訳技術においては、句が並べ替えられる際の制約を統計的にモデル化し、かつ、ビームサーチや並べ替え探索範囲の制限のような近似的探索手段によって探索の効率化を図っている(例えば、非特許文献1及び非特許文献2参照)。   Conventionally, a sentence in an input language (hereinafter referred to as “translation source language”) is machine-translated into a sentence in an output side language (hereinafter referred to as “translation destination language”). Difficulties in word rearrangement due to differences in word order between different languages are a common issue for all machine translation technologies. In particular, in statistical machine translation technology based on learning from a translation corpus as a translation method, word rearrangement causes an increase in the amount of calculation, so it is practical to search for word rearrangement efficiently. This is an important issue. In conventional statistical translation technology, especially translation technology based on phrases that can be said to be representative examples, the constraints when phrases are rearranged are statistically modeled, and beam search and rearrangement search range restrictions are limited. Search efficiency is improved by such an approximate search means (see, for example, Non-Patent Document 1 and Non-Patent Document 2).

一方で、このような方法によっても本質的な並べ替え候補の数が莫大であることから、翻訳しようとする文(入力文)に対する構文(あるいは統語)解析と、得られた構文木に対する並べ替え処理によって翻訳処理の前に単語の並べ替えを行い、翻訳先言語の語順に近づける「事前並べ替え(pre-ordering)」と呼ばれる前処理方式が使われることがある。当該方式によれば原理的には入力文の単語数(以下n)の階乗n!個ある並べ替え候補数を、構文木が2分木である場合2n−1個まで削減することができる。さらに、構文に関する情報を利用することによって非常に高い翻訳精度が得られることがある(例えば、非特許文献3参照)。 On the other hand, since the number of essential sorting candidates is enormous even by such a method, syntax (or syntactic) analysis for the sentence to be translated (input sentence) and sorting for the obtained syntax tree are performed. A pre-processing method called “pre-ordering” in which words are rearranged before translation processing by the processing and brought closer to the word order of the translation destination language may be used. According to this method, in principle, the factorial n! The number of rearrangement candidates can be reduced to 2 n-1 when the syntax tree is a binary tree. Furthermore, very high translation accuracy may be obtained by using information related to the syntax (see, for example, Non-Patent Document 3).

構文に関する情報を統計的な機械翻訳に利用する技術としては、他に、構文木から文字列への翻訳、文字列から構文木への翻訳、構文木から構文木への翻訳、といった、入力文側、出力文側のどちらかあるいは双方が構文木であり、その部分構造を翻訳の単位とする技術も広く知られている(例えば、非特許文献4参照)。この場合は、翻訳元言語だけでなく、翻訳先言語の構文解析も用いられる。   Other techniques for using information about syntax for statistical machine translation include input sentences such as translation from a syntax tree to a string, translation from a string to a syntax tree, and translation from a syntax tree to a syntax tree. On the other hand, either or both of the output sentence side and the output sentence side are syntax trees, and a technique using the partial structure as a unit of translation is also widely known (see Non-Patent Document 4, for example). In this case, not only the source language but also the target language syntax analysis is used.

Phillip Koehn, Franz Josef Och, and Daniel Marcu, "Statistical Phrase-based Translation." In Proc. HLT- NAACL, 2003. pages 263-270.Phillip Koehn, Franz Josef Och, and Daniel Marcu, "Statistical Phrase-based Translation." In Proc. HLT- NAACL, 2003. pages 263-270. David Chiang, "Hierarchical Phrase-based Translation." Computational Linguistics, 2007. 33(2):201-228.David Chiang, "Hierarchical Phrase-based Translation." Computational Linguistics, 2007. 33 (2): 201-228. Hideki Isozaki, Katsuhito Sudoh, Hajime Tsukada, and Kevin Duh, "A Simple Reordering Rule for SOV Languages." In Proc. WMT-MetricsMATR. 2010.Hideki Isozaki, Katsuhito Sudoh, Hajime Tsukada, and Kevin Duh, "A Simple Reordering Rule for SOV Languages." In Proc. WMT-MetricsMATR. 2010. Michel Galley, Mark Hopkins, Kevin Knight, and Daniel Marcu, "What’s in a translation rule?" In Proc. NAACL, 2004, pages 273-280.Michel Galley, Mark Hopkins, Kevin Knight, and Daniel Marcu, "What ’s in a translation rule?” In Proc. NAACL, 2004, pages 273-280.

しかしながら、非特許文献3に記載のような方式では、翻訳元言語の構文解析を行うための技術及び言語資源が必須となる、という問題がある。   However, the method described in Non-Patent Document 3 has a problem that a technique and a language resource for performing a syntax analysis of the translation source language are essential.

また、非特許文献4に記載のような、構文木と文字列あるいは構文木同士の部分構造の対応付けは、文字列間の対応付けに比べて、木構造や語順の制約が交錯することによってより複雑となり、その結果として、一般性のない大きな翻訳語句対が抽出され、他の文の翻訳にほとんど寄与しない翻訳規則が多く得られてしまう可能性がある、という問題がある。   Further, as described in Non-Patent Document 4, the correspondence between the syntax tree and the character string or the partial structure between the syntax trees is compared with the correspondence between the character strings because the constraints on the tree structure and the word order are mixed. As a result, there is a problem that a large translation phrase pair having no generality is extracted, and as a result, many translation rules that hardly contribute to translation of other sentences may be obtained.

本発明は上記問題点に鑑みてなされたものであり、単語対応付けが容易で、高速かつ高精度な翻訳を行うことができる翻訳装置、方法、及びプログラム、並び翻訳モデル学習装置、方法、及びプログラムを提供することを目的とする。   The present invention has been made in view of the above-described problems, a translation device, a method, and a program, a parallel translation model learning device, a method, and a translation device that can easily perform word association and perform high-speed and high-accuracy translation. The purpose is to provide a program.

上記目的を達成するために、本発明の翻訳装置は、翻訳元言語で記述された入力文を、該入力文に含まれる各単語が翻訳元言語の語順に従った語順のまま翻訳先言語の単語に置き換えられた中間翻訳文に翻訳する前翻訳手段と、前記中間翻訳文の語順を前記翻訳先言語の語順に並べ替えることにより、前記前翻訳手段により翻訳された中間翻訳文を翻訳先言語で記述された文に翻訳する後翻訳手段と、を含んで構成されている。   In order to achieve the above object, the translation apparatus of the present invention converts an input sentence described in a translation source language into a translation destination language in a word order in which each word included in the input sentence conforms to the word order of the translation source language. Pre-translation means for translating into an intermediate translation sentence replaced with a word, and the intermediate translation sentence translated by the pre-translation means by translating the word order of the intermediate translation sentence into the word order of the translation destination language And a post-translation means for translating the sentence described in the above.

本発明の翻訳装置によれば、前翻訳手段が、翻訳元言語で記述された入力文を、入力文に含まれる各単語が翻訳元言語の語順に従った語順のまま翻訳先言語の単語に置き換えられた中間翻訳文に翻訳し、後翻訳手段が、入力文に含まれる各単語が翻訳元言語の語順に従った語順のまま翻訳先言語の単語に置き換えられたものである中間翻訳文の語順を翻訳先言語の語順に並べ替えることにより、前翻訳手段により翻訳された中間翻訳文を翻訳先言語で記述された文に翻訳する。   According to the translation apparatus of the present invention, the pre-translation means converts the input sentence described in the translation source language into words in the translation destination language with each word included in the input sentence remaining in the word order according to the word order of the translation source language. Translated into the replaced intermediate translated sentence, and the post-translation means replaces each word included in the input sentence with the word in the target language in the word order according to the word order in the source language. By rearranging the word order to the word order of the translation destination language, the intermediate translation sentence translated by the pre-translation means is translated into a sentence described in the translation destination language.

このように、前翻訳では、翻訳元言語から翻訳元言語の語順に従った語順のまま翻訳先言語の単語に置き換えられた中間翻訳文へ翻訳することにより、単語の並べ替えを略または全く考慮する必要がなく、後翻訳では、中間翻訳文から翻訳先言語へ翻訳することにより、単語の置き換えを略または全く考慮する必要がないため、単語対応付けが容易で、高速かつ高精度な翻訳を行うことができる。   In this way, in the pre-translation, the translation of the words from the source language to the intermediate translation sentence replaced with the words in the target language remains the same according to the word order of the source language, so that the rearrangement of the words is considered almost or not at all. In post-translation, translating from the intermediate translation sentence to the target language, it is not necessary to consider word replacement or not at all. It can be carried out.

また、前記前翻訳手段は、前記翻訳元言語で記述された文を前記中間翻訳文に翻訳するための前翻訳モデルに基づいて、前記入力文を前記中間翻訳文に翻訳し、前記後翻訳手段は、前記中間翻訳文を前記翻訳先言語で記述された文に翻訳するための後翻訳モデルに基づいて、前記中間翻訳文を前記翻訳先言語で記述された文に翻訳することができる。   The pre-translation means translates the input sentence into the intermediate translation sentence based on a pre-translation model for translating a sentence described in the translation source language into the intermediate translation sentence, and the post-translation means Can translate the intermediate translation sentence into a sentence described in the translation destination language based on a post-translation model for translating the intermediate translation sentence into a sentence described in the translation destination language.

また、前記前翻訳モデルとして、翻訳元言語と、翻訳先言語で記述された文に含まれる各単語を、翻訳元言語の語順に従って並べ替えた翻訳中間言語との並行コーパスを用いて学習されたモデルを用い、前記後翻訳モデルとして、前記翻訳中間言語と、翻訳先言語との並行コーパスを用いて学習されたモデルを用いることができる。   In addition, as the pre-translation model, learning was performed using a parallel corpus of the translation source language and a translation intermediate language in which each word included in the sentence described in the translation destination language is rearranged according to the word order of the translation source language. A model learned using a parallel corpus of the translation intermediate language and the translation target language can be used as the post-translation model.

また、第1言語で記述された文に含まれる各単語を事前に第2言語の語順に並べ替えてから、該第1言語で記述された文を該第2言語で記述された文に翻訳する場合の精度が、前記第2言語で記述された文に含まれる各単語を事前に前記第1言語の語順に並べ替えてから、該第2言語で記述された文を該第1言語で記述された文に翻訳する場合の精度よりも高い場合に、前記第1言語を前記翻訳先言語とし、前記第2言語を前記翻訳元言語とすることができる。「事前並べ替え(pre-ordering)」による従来技術において、第1言語を第2言語に翻訳する場合には、第1言語を第2言語の語順にうまく並べ替えることができることにより翻訳精度が得られるが、第2言語を第1言語に翻訳する場合では、第2言語を第1言語の語順にうまく並べ替えることが容易でないために翻訳精度が得られない場合があることが知られている。例えば、第1言語が英語、第2言語が日本語である場合である。このように翻訳元言語を翻訳先言語(例えば日本語を英語)の語順に従って並べ替える方法がなく、または並べ替えの精度が十分でなく、前処理によって先に語順の入れ替えを高精度に行うことが困難である場合に本発明は特に有効である。本発明において前翻訳モデル及び後翻訳モデルを学習するための翻訳中間言語は、翻訳先言語を翻訳元言語の語順に従って並べ替えをすることによって作成されるものであるが、この並べ替えの方法は、翻訳先言語から翻訳元言語への翻訳において語順の入れ替えを前処理として行い、語句の翻訳をその後に行うような翻訳方法における、語順の入れ替え方法を用いることができる。   In addition, after the words included in the sentence described in the first language are arranged in advance in the order of the words in the second language, the sentence described in the first language is translated into the sentence described in the second language. The accuracy of the first language is such that the words included in the sentence described in the second language are sorted in advance in the order of the words in the first language, and then the sentence described in the second language is converted into the first language. The first language can be the translation target language and the second language can be the translation source language when the accuracy is higher than the translation accuracy when the sentence is described. In the prior art based on “pre-ordering”, when the first language is translated into the second language, the first language can be successfully rearranged in the order of the words in the second language, thereby obtaining translation accuracy. However, when the second language is translated into the first language, it is known that the translation accuracy may not be obtained because it is not easy to rearrange the second language in the order of the words of the first language. . For example, the first language is English and the second language is Japanese. In this way, there is no way to rearrange the source language according to the word order of the destination language (for example, Japanese to English), or the rearrangement accuracy is not sufficient, and the word order is first changed with high accuracy by preprocessing. The present invention is particularly effective when it is difficult. In the present invention, the translation intermediate language for learning the pre-translation model and the post-translation model is created by rearranging the translation destination language according to the word order of the translation source language. In the translation from the translation destination language to the translation source language, the word order switching method can be used in the translation method in which the word order switching is performed as a preprocessing and the phrase is translated thereafter.

また、本発明の翻訳モデル学習装置は、翻訳先言語で記述された文に含まれる各単語を、翻訳元言語の語順に従って並べ替えた翻訳中間言語を作成する中間言語文作成手段と、前記中間言語文作成手段により作成された翻訳中間言語と、翻訳元言語との並行コーパスを用いて、前記翻訳元言語で記述された文を、該翻訳元言語で記述された文の各単語が翻訳元言語の語順に従った語順のまま翻訳先言語の単語に置き換えられた中間翻訳文に翻訳するための前翻訳モデルを学習する前学習手段と、前記中間言語文作成手段により作成された翻訳中間言語と、翻訳先言語との並行コーパスを用いて、前記中間翻訳文を前記翻訳先言語で記述された文に翻訳するための後翻訳モデルを学習する後学習手段と、を含んで構成することができる。   In addition, the translation model learning device of the present invention includes an intermediate language sentence creation unit that creates a translation intermediate language in which each word included in a sentence described in a translation destination language is rearranged according to the word order of the translation source language; Using a parallel corpus of the translation intermediate language created by the language sentence creation means and the translation source language, each word of the sentence described in the translation source language is converted into a sentence described in the translation source language. Pre-learning means for learning a pre-translation model for translating into an intermediate translation sentence replaced with a word in the translation destination language in the word order according to the word order of the language, and the translation intermediate language created by the intermediate language sentence creation means And a post-learning means for learning a post-translation model for translating the intermediate translation sentence into a sentence described in the translation-destination language using a parallel corpus with the translation-destination language. it can.

また、本発明の翻訳方法は、前翻訳手段と、後翻訳手段とを含む翻訳装置における翻訳方法であって、前記前翻訳手段は、翻訳元言語で記述された入力文を、該入力文に含まれる各単語が翻訳元言語の語順に従った語順のまま翻訳先言語の単語に置き換えられた中間翻訳文に翻訳し、前記後翻訳手段は、前記入力文に含まれる各単語が翻訳元言語の語順に従った語順のまま翻訳先言語の単語に置き換えられたものである中間翻訳文の語順を前記翻訳先言語の語順に並べ替えることにより、前記前翻訳手段により翻訳された中間翻訳文を翻訳先言語で記述された文に翻訳する方法である。   The translation method of the present invention is a translation method in a translation apparatus including a pre-translation unit and a post-translation unit, and the pre-translation unit converts an input sentence described in a source language into the input sentence. Each word included is translated into an intermediate translation sentence replaced with a word in the translation destination language in the word order according to the word order of the translation source language, and the post-translation means, each word contained in the input sentence is translated into the translation source language By rearranging the word order of the intermediate translation sentence that has been replaced with the words in the translation destination language in the word order according to the word order of This is a method of translating into sentences written in the target language.

また、本発明の翻訳方法において、前記前翻訳手段は、前記翻訳元言語で記述された文を前記中間翻訳文に翻訳するための前翻訳モデルに基づいて、前記入力文を前記中間翻訳文に翻訳し、前記後翻訳手段は、前記中間翻訳文を前記翻訳先言語で記述された文に翻訳するための後翻訳モデルに基づいて、前記中間翻訳文を前記翻訳先言語で記述された文に翻訳することができる。   In the translation method of the present invention, the pre-translation means converts the input sentence into the intermediate translation sentence based on a pre-translation model for translating a sentence described in the translation source language into the intermediate translation sentence. The post-translation means translates the intermediate translation sentence into a sentence described in the translation destination language based on a post-translation model for translating the intermediate translation sentence into a sentence described in the translation destination language. Can be translated.

また、前記翻訳方法において、前記前翻訳手段は、翻訳元言語と、翻訳先言語で記述された文に含まれる各単語を、翻訳元言語の語順に従って並べ替えた翻訳中間言語との並行コーパスを用いて学習された前翻訳モデルを用い、前記後翻訳手段は、前記翻訳中間言語と、翻訳先言語との並行コーパスを用いて学習された後翻訳モデルを用いることができる。   In the translation method, the pre-translation means includes a parallel corpus of a translation source language and a translation intermediate language in which each word included in a sentence described in the translation destination language is rearranged according to the word order of the translation source language. Using the pre-translation model learned using, the post-translation means can use the post-translation model learned using a parallel corpus of the translation intermediate language and the translation target language.

また、本発明の翻訳モデル学習方法は、中間言語文作成手段と、前学習手段と、後学習手段とを含む翻訳モデル学習装置における翻訳モデル学習方法であって、前記作成手段は、翻訳先言語で記述された文に含まれる各単語を、翻訳元言語の語順に従って並べ替えた翻訳中間言語を作成し、前記前学習手段は、前記中間言語文作成手段により作成された翻訳中間言語と、翻訳元言語との並行コーパスを用いて、前記翻訳元言語で記述された文を、該翻訳元言語で記述された文の各単語が翻訳元言語の語順に従った語順のまま翻訳先言語の単語に置き換えられた中間翻訳文に翻訳するための前翻訳モデルを学習し、前記後学習手段は、前記作成手段により作成された翻訳中間言語と、翻訳先言語との並行コーパスを用いて、前記中間翻訳文を前記翻訳先言語で記述された文に翻訳するための後翻訳モデルを学習する方法である。   The translation model learning method of the present invention is a translation model learning method in a translation model learning device including an intermediate language sentence creation means, a pre-learning means, and a post-learning means, wherein the creation means includes a translation destination language A translation intermediate language is created by rearranging the words included in the sentence described in accordance with the word order of the translation source language, and the pre-learning means includes a translation intermediate language created by the intermediate language sentence creation means, and a translation Using a parallel corpus with the source language, a sentence described in the source language is converted into a word in the target language in which each word of the sentence described in the source language remains in the word order according to the word order of the source language. A pre-translation model for translating into an intermediate translation sentence replaced with the intermediate translation sentence, and the post-learning means uses the parallel corpus of the translation intermediate language created by the creation means and the translation destination language, Before translation It is a way to learn the translation model after for translation to the statement written in the target language.

また、本発明の翻訳プログラムは、コンピュータを、上記の翻訳装置を構成する各手段として機能させるためのプログラムである。   The translation program of the present invention is a program for causing a computer to function as each means constituting the translation apparatus.

また、本発明の翻訳モデル学習プログラムは、コンピュータを、上記の翻訳モデル学習装置を構成する各手段として機能させるためのプログラムである。   The translation model learning program of the present invention is a program for causing a computer to function as each means constituting the above translation model learning apparatus.

以上説明したように、本発明の翻訳装置、方法、及びプログラム、並びに翻訳モデル学習装置、方法、及びプログラムによれば、前翻訳では、翻訳元言語から翻訳元言語の語順に従った語順のまま翻訳先言語の単語に置き換えられた中間翻訳文へ翻訳することにより、単語の並べ替えを考慮する必要がなく、後翻訳では、中間翻訳文から翻訳先言語へ翻訳することにより、単語の置き換えを考慮する必要がないため、単語対応付けが容易で、高速かつ高精度な翻訳を行うことができる、という効果が得られる。   As described above, according to the translation device, method, and program of the present invention, and the translation model learning device, method, and program, in the pre-translation, the word order according to the word order from the source language to the source language is maintained. It is not necessary to consider the rearrangement of words by translating to an intermediate translation sentence that has been replaced with a word in the target language. In post-translation, word replacement is performed by translating from the intermediate translation sentence to the target language. Since there is no need to consider, it is possible to obtain an effect that word association is easy and high-speed and highly accurate translation can be performed.

本実施の形態の翻訳装置の機能的構成を示すブロック図である。It is a block diagram which shows the functional structure of the translation apparatus of this Embodiment. 本実施の形態の翻訳装置における学習処理ルーチンの内容を示すフローチャートである。It is a flowchart which shows the content of the learning process routine in the translation apparatus of this Embodiment. 本実施の形態の翻訳装置における翻訳処理ルーチンの内容を示すフローチャートである。It is a flowchart which shows the content of the translation processing routine in the translation apparatus of this Embodiment. 並行コーパスの日本語部の一例を示す図である。It is a figure which shows an example of the Japanese part of a parallel corpus. 並行コーパスの英語部の一例を示す図である。It is a figure which shows an example of the English part of a parallel corpus. 日本語単語分割コーパスの一例を示す図である。It is a figure which shows an example of a Japanese word division corpus. 英語単語分割コーパスの一例を示す図である。It is a figure which shows an example of an English word division corpus. 主辞後置型英語コーパスの一例を示す図である。It is a figure which shows an example of a head postfix type English corpus. 翻訳テーブルファイルの一例を示す図である。It is a figure which shows an example of a translation table file. 設定ファイルの一例を示す図である。It is a figure which shows an example of a setting file. 言語モデルファイルの一例を示す図である。It is a figure which shows an example of a language model file. パラメータ調整後の設定ファイルの一例を示す図である。It is a figure which shows an example of the setting file after parameter adjustment. 入力ファイルの一例を示す図である。It is a figure which shows an example of an input file. 中間翻訳文の一例を示す図である。It is a figure which shows an example of an intermediate translation sentence. 翻訳結果ファイルの一例を示す図である。It is a figure which shows an example of a translation result file.

以下、図面を参照して本発明の実施の形態を詳細に説明する。本実施の形態では、翻訳元言語を日本語、翻訳先言語を英語とした場合の翻訳及び翻訳モデルの学習について説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. In the present embodiment, translation and learning of a translation model when the translation source language is Japanese and the translation destination language is English will be described.

まず、本実施の形態の概要及び用語の定義について説明する。本実施の形態では、翻訳元言語の構文解析器による入力文の事前並べ替えではなく、翻訳元言語の語順に従った語順、すなわち翻訳元言語に近い語順のまま入力文を翻訳先言語に翻訳した後に、翻訳先言語らしい語順に並べ替えるという「事後並べ替え(post-ordering)」翻訳を実現する。以下の説明では、この「翻訳元言語に近い語順のまま翻訳先言語に翻訳された文」を「中間翻訳文」とし、この翻訳過程を「前翻訳」と呼ぶ。また、中間翻訳文を仮想的な別の言語と考え、「翻訳中間言語」と呼ぶ。中間翻訳文は、語彙は翻訳先言語のものであるが、語順は対応する翻訳元言語のものに近く、正しい翻訳先言語の文とするためには、語順の並べ替え及び一部の単語の置換、挿入、及び削除が必要である。この語順の並べ替え、並びに単語の置換、挿入、及び削除の過程も翻訳と見ることができるため、この過程を「後翻訳」と呼ぶ。   First, an outline of the present embodiment and definitions of terms will be described. In this embodiment, the input sentence is translated into the target language in the word order according to the word order of the source language, that is, the word order close to the source language, instead of the pre-ordering of the input sentences by the syntax analyzer of the source language. After that, "post-ordering" translation is realized in which the words are rearranged in the order of the target language. In the following description, this “sentence translated into the translation destination language in the order of words close to the translation source language” is referred to as “intermediate translation sentence”, and this translation process is referred to as “pretranslation”. In addition, the intermediate translation sentence is considered as another virtual language, and is called “translation intermediate language”. In the intermediate translation, the vocabulary is that of the target language, but the word order is close to that of the corresponding source language. Replacement, insertion, and deletion are required. Since this word order rearrangement and word replacement, insertion, and deletion processes can also be regarded as translation, this process is called “post-translation”.

本実施の形態に係る翻訳装置10は、CPUと、RAMと、後述する学習処理及び翻訳処理ルーチンを実行するためのプログラムを記憶したROMと、を備えたコンピュータで構成されている。また、記憶手段としてのHDDを含んで構成するようにしてもよい。このコンピュータは、機能的には、図1に示すように、学習部20と、翻訳部50とを含んだ構成で表すことができる。   The translation apparatus 10 according to the present embodiment is configured by a computer including a CPU, a RAM, and a ROM that stores a program for executing a learning process and a translation process routine described later. Further, an HDD as a storage unit may be included. Functionally, this computer can be represented by a configuration including a learning unit 20 and a translation unit 50, as shown in FIG.

学習部20は、さらに、学習前処理部22と、前翻訳学習部24と、後翻訳学習部26とを含んだ構成で表すことができる。   The learning unit 20 can be represented by a configuration that further includes a pre-learning processing unit 22, a pre-translation learning unit 24, and a post-translation learning unit 26.

学習前処理部22は、後述する前翻訳学習部24及び後翻訳学習部26で使用する翻訳元言語と翻訳先言語との並行コーパスに前処理を施し、「翻訳元言語と翻訳中間言語との並行コーパス(並行コーパス(翻訳元言語+翻訳中間言語)30)」、及び「翻訳中間言語と翻訳先言語との並行コーパス(並行コーパス(翻訳中間言語+翻訳先言語)32)」を生成する。具体的には、翻訳先言語の文に対する単語並べ替え処理によって翻訳中間言語の文を生成する。単語並べ替え処理としては、英語構文解析結果に対する主辞後置型並べ替え規則に基づく方法(例えば、非特許文献3)、構文解析結果に対する単語並べ替え方法(非特許文献5「Michael Collins, Philipp Koehn, and Ivona Kucerova, "Clause Restructuring for Statistical Machine Translation." In Proc. ACL, 2005. pages 531-540.」は規則に基づく方法の一例、非特許文献6「Chi-Ho Li, Dongdong Zhang, Mu Li, Ming Zhou, Minghui Li, and Yi Guan, "A Probabilistic Approach to Syntax-based Reordering for Statistical Machine Translation." In Proc. ACL, 2007. pages 720-727.」は統計モデルに基づく方法の一例)、構文解析を用いない単語並べ替え方法(例えば、非特許文献7「Roy Tromble and Jason Eisner, "Learning Linear Ordering Problems for Better Translation." In Proc. EMNLP, 2009. pages 1007-1016.」)など既存技術を用いることができ、特定の単語並べ替え処理に限定されない。また、学習前処理部22は、翻訳元言語の文、翻訳中間言語の文、及び翻訳先言語の文各々の単語区切り処理も行う。   The pre-learning processing unit 22 pre-processes the parallel corpus of the translation source language and the translation destination language used in the pre-translation learning unit 24 and the post-translation learning unit 26, which will be described later. Parallel corpus (parallel corpus (translation source language + translation intermediate language) 30) ”and“ parallel corpus of translation intermediate language and translation destination language (parallel corpus (translation intermediate language + translation destination language) 32) ”are generated. Specifically, a sentence in the translation intermediate language is generated by word rearrangement processing for the sentence in the translation destination language. As the word rearrangement process, a method based on a postfix rearrangement rule for English parsing results (for example, Non-Patent Document 3), a word rearrangement method for parsing results (Non-Patent Document 5, “Michael Collins, Philipp Koehn, and Ivona Kucerova, “Clause Restructuring for Statistical Machine Translation.” In Proc. ACL, 2005. pages 531-540. is an example of a rule-based method, Non-Patent Document 6 “Chi-Ho Li, Dongdong Zhang, Mu Li, Ming Zhou, Minghui Li, and Yi Guan, "A Probabilistic Approach to Syntax-based Reordering for Statistical Machine Translation." In Proc. ACL, 2007. pages 720-727. Use existing techniques such as word rearrangement methods that do not use vocabulary (for example, Non-Patent Document 7 “Roy Tromble and Jason Eisner,“ Learning Linear Ordering Problems for Better Translation. ”In Proc. EMNLP, 2009. pages 1007-1016.”) You can sort specific words It is not limited to reason. In addition, the pre-learning processing unit 22 also performs word segmentation processing for each of the sentence in the translation source language, the sentence in the translation intermediate language, and the sentence in the translation destination language.

前翻訳学習部24は、学習前処理部22で生成された翻訳元言語と翻訳中間言語との並行コーパスを利用して、翻訳元言語の文を翻訳中間言語に翻訳するための前翻訳モデル34を学習する。本実施の形態では、前翻訳モデル34に特別の機能を要しないため、学習方法には、公知の統計的翻訳モデル学習方法(例えば、非特許文献1)を利用することができる。また、統計的な方法に限らず、翻訳規則を記述した翻訳辞書による翻訳モデルを学習するようにしてもよい。前翻訳学習部24では、単語の並べ替えを略または全く考慮しなくてよいことから、単語間の対応付けが容易になる。   The pre-translation learning unit 24 uses the parallel corpus of the translation source language and the translation intermediate language generated by the learning pre-processing unit 22 to translate the sentence of the translation source language into the translation intermediate language. To learn. In the present embodiment, since no special function is required for the pre-translation model 34, a known statistical translation model learning method (for example, Non-Patent Document 1) can be used as the learning method. In addition to the statistical method, a translation model using a translation dictionary describing translation rules may be learned. In the pre-translation learning unit 24, it is not necessary to consider word rearrangement almost or not at all.

後翻訳学習部26は、学習前処理部22で生成された翻訳中間言語と翻訳先言語との並行コーパスを利用して、翻訳中間言語の文を翻訳先言語に翻訳するための後翻訳モデル36を学習する。前翻訳学習部24と同様、学習の方法は特定の方法でなくともよい。後翻訳学習部26では、翻訳中間言語が翻訳先言語の並べ替え結果であることから、両者の単語間の対応は自明であり、統計的な手法によって改めて推定し直す必要がなく、高精度な後翻訳モデル36を学習することができる。なお、翻訳中間言語の文を生成する際に、翻訳先言語から単語の挿入、置換、及び削除が行われている場合には、再推定を行ってもよい。   The post-translation learning unit 26 uses the parallel corpus of the translation intermediate language and the translation target language generated by the pre-learning processing unit 22 to translate the sentence in the translation intermediate language into the translation target language 36. To learn. As with the pre-translation learning unit 24, the learning method need not be a specific method. In the post-translation learning unit 26, since the translation intermediate language is the rearrangement result of the translation destination language, the correspondence between the two words is self-explanatory, and there is no need to re-estimate by a statistical method. The post-translation model 36 can be learned. In addition, when a translation intermediate language sentence is generated, re-estimation may be performed if a word is inserted, replaced, or deleted from the translation destination language.

翻訳部50は、さらに、入力部52と、前翻訳部54と、後翻訳部56と、出力部58とを含んだ構成で表すことができる。   The translation unit 50 can be represented by a configuration including an input unit 52, a pre-translation unit 54, a post-translation unit 56, and an output unit 58.

入力部52は、入力文(翻訳元言語の文、ここでは日本語の文)を図示しないキーボード等の入力装置またはネットワーク等を介して外部から受け取り、必要な前処理を施した上で、翻訳部に渡す。前処理では、入力文を前翻訳部54の受理する形式へ整形する。ここでの整形とは、例えば、前翻訳モデル34に合わせた単語区切りや構文解析、不要なタグの除去、必要なタグの付加などを行うことである。   The input unit 52 receives an input sentence (a sentence in a translation source language, a Japanese sentence in this case) from the outside via an input device such as a keyboard (not shown) or a network, performs necessary preprocessing, and then translates it. Pass to the department. In the preprocessing, the input sentence is shaped into a format accepted by the pretranslation unit 54. The shaping here means, for example, performing word breaks and syntax analysis in accordance with the pre-translation model 34, removing unnecessary tags, adding necessary tags, and the like.

前翻訳部54は、前翻訳モデル34を参照し、入力部52から受け渡された翻訳元言語の入力文を、翻訳中間言語で記述された「中間翻訳文」へと翻訳する。ここでは、中間翻訳文は、日本語の各単語が日本語に近い語順のまま英語の単語に置き換えられた文となる。前翻訳部54は、単語の並べ替えを略または全く考慮せずに動作し、語句の翻訳及び近傍の並べ替えのみによって実現可能である。   The pretranslation unit 54 refers to the pretranslation model 34 and translates the input sentence of the translation source language passed from the input unit 52 into an “intermediate translation sentence” described in the translation intermediate language. Here, the intermediate translation sentence is a sentence in which each Japanese word is replaced with an English word in a word order close to Japanese. The pre-translation unit 54 operates with little or no consideration of word rearrangement, and can be realized only by translating words and rearranging the neighborhood.

後翻訳部56は、後翻訳モデル36を参照し、前翻訳部54から受け渡された翻訳中間言語の中間翻訳文を、翻訳先言語の出力文へと翻訳する。後翻訳部56は、語句の翻訳を略または全く考慮せずに動作し、語句の並べ替えと、少数の単語の置換、挿入、及び削除によって実現可能である。   The post-translation unit 56 refers to the post-translation model 36 and translates the intermediate translation sentence of the translation intermediate language delivered from the pre-translation part 54 into an output sentence of the translation destination language. The post-translation unit 56 operates with little or no consideration of translation of words and phrases, and can be realized by rearranging phrases and replacing, inserting, and deleting a small number of words.

出力部58は、出力文に必要な後処理を施した上で、図示しないディスプレイなどの表示装置またはネットワーク等を介して外部へ出力する。後処理では、後翻訳部56の出力を出力する形式へ整形する。ここでの整形とは、出力仕様に合わせた単語区切りの除去、不要なタグの除去、必要なタグの付加などを行うことである。   The output unit 58 performs post-processing necessary for the output sentence, and outputs it to the outside via a display device such as a display (not shown) or a network. In the post-processing, the output of the post-translation unit 56 is shaped into an output format. Here, shaping means removing word breaks, removing unnecessary tags, adding necessary tags, etc. according to the output specifications.

次に、本実施の形態の翻訳装置10の作用について説明する。まず、学習処理を実行することにより、前翻訳モデル34及び後翻訳モデル36を学習する。そして、この学習された前翻訳モデル34及び後翻訳モデル36を用いて翻訳処理を実行して、入力された翻訳元言語の入力文を翻訳先言語に翻訳する。   Next, the operation of translation apparatus 10 of the present embodiment will be described. First, the pre-translation model 34 and the post-translation model 36 are learned by executing a learning process. Then, translation processing is executed using the learned pre-translation model 34 and post-translation model 36, and the input sentence of the input source language is translated into the target language.

ここで、図2を参照して、本実施の形態の翻訳装置10において実行される学習処理ルーチンについて説明する。   Here, with reference to FIG. 2, the learning process routine executed in the translation apparatus 10 of the present embodiment will be described.

ステップ100で、翻訳元言語と翻訳先言語との並行コーパス28を読み込み、次に、ステップ102で、読み込んだ並行コーパスの翻訳元言語の文に対して形態解析を施して単語区切り処理を行う。   In step 100, the parallel corpus 28 of the translation source language and the translation destination language is read. Next, in step 102, the sentence in the translation source language of the read parallel corpus is subjected to morphological analysis to perform word segmentation processing.

次に、ステップ104で、読み込んだ並行コーパスの翻訳先言語の文に対して形態解析を施して単語区切り処理を行うと共に、構文解析を行う。   Next, in step 104, the sentence of the translation destination language of the read parallel corpus is subjected to form analysis to perform word segmentation processing and to syntax analysis.

次に、ステップ106で、主辞後置型並べ替え等の手法を用いた翻訳先言語の文に対する単語並べ替え処理によって翻訳中間言語の文を生成する。   Next, in step 106, a sentence in the translation intermediate language is generated by word rearrangement processing for the sentence in the translation target language using a technique such as a postfix rearrangement.

次に、ステップ108で、上記ステップ100で読み込んだ翻訳元言語と、上記ステップ106で生成された翻訳中間言語との並行コーパス30を利用して、翻訳元言語の文を翻訳中間言語に翻訳するための前翻訳モデル34を学習する。   Next, in step 108, using the parallel corpus 30 of the translation source language read in step 100 and the translation intermediate language generated in step 106, the sentence in the translation source language is translated into the translation intermediate language. The pre-translation model 34 for learning is learned.

次に、ステップ110で、上記ステップ100で読み込んだ翻訳先言語と、上記ステップ106で生成された翻訳中間言語との並行コーパス32を利用して、翻訳中間言語の文を翻訳先言語に翻訳するための後翻訳モデル36を学習して、処理を終了する。   Next, in step 110, using the parallel corpus 32 of the translation destination language read in step 100 and the translation intermediate language generated in step 106, the sentence in the translation intermediate language is translated into the translation destination language. Therefore, the post-translation model 36 is learned, and the process ends.

次に、図3を参照して、本実施の形態の翻訳装置10において実行される翻訳処理ルーチンについて説明する。   Next, a translation processing routine executed in translation apparatus 10 of the present embodiment will be described with reference to FIG.

ステップ200で、翻訳元言語で記述された入力文を読み込んで、入力文に対して形態素解析を施して単語区切り処理を行う。   In step 200, an input sentence described in the translation source language is read, morphological analysis is performed on the input sentence, and word separation processing is performed.

次に、ステップ202で、上記学習処理のステップ108で学習された前翻訳モデル34を参照し、翻訳元言語の入力文を中間翻訳文へ翻訳する。   Next, in step 202, the pre-translation model 34 learned in step 108 of the learning process is referred to, and the input sentence in the source language is translated into an intermediate translation sentence.

次に、ステップ204で、上記学習処理のステップ110で学習された後翻訳モデル36を参照し、上記ステップ202で前翻訳された中間翻訳文を翻訳先言語の文へ翻訳し、後処理を施して出力し、処理を終了する。   Next, in step 204, the post-translation model 36 learned in step 110 of the learning process is referred to, the intermediate translation sentence pre-translated in step 202 is translated into a translation target language sentence, and post-processing is performed. Output, and the process ends.

本実施の形態の翻訳装置の処理について、より具体的な実施例を用いて説明する。本実施例においても、翻訳元言語を日本語、翻訳先言語を英語とする場合について説明する。   Processing of the translation apparatus according to the present embodiment will be described using a more specific example. Also in this embodiment, the case where the translation source language is Japanese and the translation destination language is English will be described.

本実施例で利用する日本語と英語との並行コーパスを記録したファイルの日本語部の一例を図4に、英語部の一例を図5に示す。図中で記号“\\”は、行が継続していることを示す。以下の図においても同様である。   FIG. 4 shows an example of a Japanese part of a file in which a parallel corpus of Japanese and English used in this embodiment is recorded, and FIG. 5 shows an example of an English part. In the figure, the symbol “\\” indicates that the line is continued. The same applies to the following drawings.

上記の並行コーパスの日本語文については単語分割処理を、英語文については単語分割処理、構文解析処理、及び翻訳中間言語への並べ替え処理を施す(ステップ102〜106)。日本語の単語分割処理には、公知の形態素解析プログラムMeCabを用いた。また、英語の単語分割処理及び構文解析処理には、公知の英語構文解析プログラムEnjuを用いた。また、翻訳先言語の翻訳中間言語への並べ替えは、非特許文献3で述べられている主辞後置型並べ替え規則によって行った。   The Japanese sentence of the parallel corpus is subjected to word division processing, and the English sentence is subjected to word division processing, syntax analysis processing, and rearrangement processing into a translation intermediate language (steps 102 to 106). A known morphological analysis program MeCab was used for Japanese word division processing. A well-known English syntax analysis program Enju was used for English word division processing and syntax analysis processing. Further, the rearrangement of the translation destination language into the translation intermediate language was performed according to the postfix rearrangement rule described in Non-Patent Document 3.

これらの処理によって、図6に示す日本語単語分割コーパス、図7に示す英語単語分割コーパス、及び図8に示す主辞後置型英語(翻訳中間言語)コーパスの3つのファイルを作成する。この「日本語単語分割コーパス」と「主辞後置型英語(翻訳中間言語)コーパス」とを組にしたものが、翻訳元言語と翻訳中間言語との並行コーパスであり、「主辞後置型英語(翻訳中間言語)コーパス」と「英語単語分割コーパス」とを組にしたものが翻訳中間言語と翻訳先言語との並行コーパスであり、次段の前翻訳学習部24及び後翻訳学習部26で用いられる。   By these processes, three files are created: a Japanese word division corpus shown in FIG. 6, an English word division corpus shown in FIG. 7, and a main postfix English (translation intermediate language) corpus shown in FIG. The combination of this "Japanese word division corpus" and the "postfix postfix English (translation intermediate language) corpus" is a parallel corpus of the source language and the translation intermediate language. A combination of the “intermediate language) corpus” and “English word segmentation corpus” is a parallel corpus of the translation intermediate language and the translation target language, and is used by the pre-translation learning unit 24 and the post-translation learning unit 26 in the next stage. .

次に、前翻訳学習部24(翻訳元言語から翻訳中間言語への翻訳)での学習のために、公知の統計的翻訳ツールキットであるMoses、及び公知の統計的言語モデル作成ツールキットであるSRILMを利用した。Mosesに含まれている翻訳モデル学習ツールによって、図9に示すような翻訳テーブルファイル及び図10に示すような設定ファイルが生成される。また、SRILMによって、図11に示すようなNグラム言語モデルファイルが生成される(ステップ108)。   Next, for learning in the pre-translation learning unit 24 (translation from the translation source language to the translation intermediate language), Moses, which is a known statistical translation tool kit, and a known statistical language model creation tool kit. SRILM was used. A translation model learning tool included in Moses generates a translation table file as shown in FIG. 9 and a setting file as shown in FIG. Further, the N-gram language model file as shown in FIG. 11 is generated by SRILM (step 108).

翻訳テーブルファイルは、区切り記号“|||”で翻訳元言語側の句、そこから翻訳される翻訳中間言語の句、及び翻訳時のスコアが列挙されている。設定ファイルは、翻訳プログラムを実行する際に読み出す翻訳テーブルファイルやNグラム言語モデルファイルの格納場所、及びモデルのパラメータなどを指定するためのファイルである。また、Nグラム言語モデルファイルは、公知のNグラム言語モデル、すなわち(N−1)個の単語履歴の後に単語が生成される条件付き確率モデルを記録したものである。   In the translation table file, phrases on the translation source language side, translation intermediate language phrases translated therefrom, and scores at the time of translation are listed with a delimiter “|||”. The setting file is a file for designating the storage location of the translation table file and N-gram language model file to be read when executing the translation program, the model parameters, and the like. The N-gram language model file records a known N-gram language model, that is, a conditional probability model in which words are generated after (N-1) word histories.

設定ファイルに記載されたパラメータは初期値であり、実用のためには別途並行コーパスを利用してこの値を調整する必要がある。パラメータの調整には、公知の技術として誤り最小化学習(Minimum Error Rate Training:MERT)と呼ばれる手法(例えば、非特許文献8「Franz Josef Och, "Minimum Error Rate Training in Statistical Machine Translation." In Proc. ACL, 2003. pages 160-167.」)を用いることができる。MERTは、パラメータ調整用の並行コーパスの翻訳元言語側を一旦翻訳し、並行コーパスの翻訳先言語側との比較によって何らかの翻訳精度が最大になるようなパラメータ更新をする、という処理を繰り返し実行することにより最適なパラメータを得る方法である。本実施例においてもMosesに含まれているMERTプログラムを用いた。その結果得られた設定ファイルを図12に示す。   The parameters described in the setting file are initial values, and for practical use, it is necessary to adjust these values separately using a parallel corpus. For parameter adjustment, a known technique called “Minimum Error Rate Training (MERT)” (for example, Non-Patent Document 8 “Franz Josef Och,“ Minimum Error Rate Training in Statistical Machine Translation. ”In Proc ACL, 2003. pages 160-167 "). The MERT repeatedly executes a process of temporarily translating the translation source language side of the parallel corpus for parameter adjustment and updating the parameters so that some translation accuracy is maximized by comparison with the translation destination language side of the parallel corpus. This is a method for obtaining optimum parameters. In this example, the MERT program included in Moses was also used. The setting file obtained as a result is shown in FIG.

次に、後翻訳学習部26では、翻訳言語対が翻訳中間言語から翻訳先言語に変わる他は前翻訳学習部24と同様の処理によって実現する(ステップ110)。詳細な説明は省略する。学習前処理部22、前翻訳学習部24、及び後翻訳学習部26によって、前翻訳部54で利用する前翻訳モデル34及び後翻訳部56で利用する後翻訳モデル36が作成されれば、実際の日本語から英語への翻訳が以下のように実現可能である。   Next, the post-translation learning unit 26 implements the same processing as the pre-translation learning unit 24 except that the translation language pair is changed from the translation intermediate language to the translation destination language (step 110). Detailed description is omitted. If the pre-translation model 34 used by the pre-translation unit 54 and the post-translation model 36 used by the post-translation unit 56 are created by the learning pre-processing unit 22, the pre-translation learning unit 24, and the post-translation learning unit 26, Translation from Japanese to English is possible as follows.

まず、図13に示す入力文ファイルを入力部52で読み込み、日本語形態素解析プログラムMeCabによって事前に単語分割を行う。なお、入力部52で単語分割処理を行うことも可能である。   First, the input sentence file shown in FIG. 13 is read by the input unit 52, and word division is performed in advance by the Japanese morpheme analysis program MeCab. It is also possible to perform word division processing with the input unit 52.

そして、前翻訳部54では、入力ファイルから読み込まれた入力文を前翻訳モデル34(翻訳テーブルファイル、Nグラム言語モデルファイル、及びそのパラメータを設定ファイルで指定)を用いて翻訳中間言語に翻訳して中間翻訳文を得る(ステップ202)。中間翻訳文の一例を図14に示す。中間翻訳文は、語彙が英語のものであるが、語順は英語の語順としては適切でなく、日本語の逐語訳に近い。   Then, the pre-translation unit 54 translates the input sentence read from the input file into a translation intermediate language using the pre-translation model 34 (translation table file, N-gram language model file and its parameters are specified in the setting file). Thus, an intermediate translation is obtained (step 202). An example of the intermediate translation is shown in FIG. The intermediate translation has an vocabulary in English, but the word order is not appropriate for the English word order and is close to the Japanese word-by-word translation.

次に、後翻訳部56では、前翻訳部54で前翻訳された中間翻訳文をさらに英語に翻訳する(ステップ204)。後翻訳部56では、単語の翻訳はあまり必要でなく、単語の並べ替えを主とした翻訳が行われる。後翻訳の結果は出力部58に渡される。   Next, the post-translation unit 56 further translates the intermediate translation sentence pre-translated by the pre-translation unit 54 into English (step 204). The post-translation unit 56 does not need much translation of words, and performs translation mainly by rearranging words. The result of the post-translation is passed to the output unit 58.

出力部58では、後翻訳部56の出力を受け取り、不要な単語区切りを消去し、文頭の文字を大文字に変換する後処理を施した結果を翻訳結果ファイルに書き出す。翻訳結果ファイルは、例えば図15に示すような、英語が記載されたテキストファイルとなる。   The output unit 58 receives the output of the post-translation unit 56, erases unnecessary word breaks, and writes the result of post-processing for converting the first letter to upper case in a translation result file. The translation result file is a text file describing English as shown in FIG. 15, for example.

公知の翻訳自動評価尺度BLEUにおいて、従来の統計的翻訳技術による日英翻訳の精度が、0.2688であったのに対し、本実施例では 0.2960という高い精度を得ることができた。   In the publicly known automatic translation evaluation scale BLEU, the accuracy of Japanese-English translation by the conventional statistical translation technique was 0.2688, whereas in this example, a high accuracy of 0.2960 was obtained.

以上説明したように、本実施の形態の翻訳装置によれば、翻訳先言語を翻訳元言語に近い語順のまま翻訳先言語の語彙に置き換えた中間翻訳文に前翻訳した後に、中間翻訳文を翻訳先言語らしい語順に並べ替える後翻訳を行う。このため、前翻訳では、単語の並べ替えを略または全く考慮する必要がなく、また、後翻訳では、語句の翻訳を略または全く考慮する必要がない。統計的な機械翻訳方法においては解探索のための時間及び空間計算量が入力文の長さに対して指数関数的に増大することを考慮すれば、本実施の形態の翻訳装置では、翻訳処理の高速化を実現することができる。また、前翻訳に用いる前翻訳モデルの学習では、単語の並べ替えを略または全く考慮する必要がないため、単語間の対応付けが容易になる。また、後翻訳に用いる後翻訳モデルの学習では、翻訳中間言語は翻訳先言語の並べ替え結果であることから、両者の単語間の対応が自明であり、統計的な手法によって改めて推定し直す必要がなく、高精度な後翻訳モデルを学習することができる。   As described above, according to the translation apparatus of the present embodiment, after the pre-translation into the intermediate translation sentence in which the translation destination language is replaced with the vocabulary of the translation destination language in the word order close to the translation source language, the intermediate translation sentence is After rearranging the words in the order of the target language, perform the translation. For this reason, in the pre-translation, it is not necessary to consider the word rearrangement or not at all, and in the post-translation, it is not necessary to consider the translation of the words. In the statistical machine translation method, considering that the time and space complexity for solution search increase exponentially with respect to the length of the input sentence, the translation apparatus according to the present embodiment performs translation processing. Speeding up can be realized. Further, in learning the pre-translation model used for pre-translation, it is not necessary to consider word rearrangement substantially or at all, so that the correspondence between words becomes easy. Also, in learning the post-translation model used for post-translation, the translation intermediate language is the result of sorting the translation-destination languages, so the correspondence between the two words is self-explanatory, and it is necessary to reestimate it using statistical methods. It is possible to learn a post-translation model with high accuracy.

本実施の形態の翻訳装置では、翻訳元言語の解析によって入力文を並べ替えるのではなく、翻訳先言語側で並べ替えを行うことで、翻訳元言語と翻訳先言語との語順の差を解消し、部分構造対の対応付けやそこからの翻訳単位の抽出を容易にし、機械翻訳の精度を改善することができる。   In the translation apparatus according to the present embodiment, the input sentence is not rearranged by analyzing the source language, but is sorted on the target language, thereby eliminating the difference in the word order between the source language and the target language. In addition, it is possible to easily associate partial structure pairs and to extract translation units therefrom, thereby improving the accuracy of machine translation.

また、事前並べ替え(言語Aを言語Bの語順に並べ替えてから言語Aから言語Bへ翻訳)が精度良く行える場合、つまり、言語Aから言語Bへ精度良く翻訳するための事前並べ替え方法が存在する場合(かつ言語Bから言語Aへの翻訳では、精度の良い事前並べ替え方法が存在しない場合)には、翻訳中間言語A’(言語Aを言語Bの語順に並べ替えたもの)は、言語Aの文から作成が可能であることから、大量の言語Aの文を利用して言語Aと翻訳中間言語A’との並行コーパスを作成することも容易である。従って、本発明により、その大量の並行コーパスを利用することで精度を高めた翻訳中間言語A’から言語Aへの後翻訳を、語順の並べ替え探索を最小限とした効率的な言語Bから翻訳中間言語A’への前翻訳と組み合わせることで、機械翻訳の精度を高めることができる。   Further, when the pre-ordering (translation from language A to language B is performed after language A is rearranged in the order of language B), that is, a pre-ordering method for accurately translating from language A to language B (And when translation from language B to language A does not have an accurate pre-ordering method), translation intermediate language A ′ (language A is rearranged in the order of language B) Can be created from a sentence of language A, it is easy to create a parallel corpus of language A and translation intermediate language A ′ using a large number of sentences of language A. Therefore, according to the present invention, post-translation from the translation intermediate language A ′ to the language A, which has been improved in accuracy by using the large number of parallel corpora, is performed from the efficient language B that minimizes the rearrangement search of the word order. By combining with pre-translation to the translation intermediate language A ′, the accuracy of machine translation can be improved.

なお、上記実施の形態では、翻訳元言語を日本語、翻訳先言語を英語とする場合について説明したが、他の言語にも適用することができる。   In the above embodiment, the case where the translation source language is Japanese and the translation destination language is English has been described, but the present invention can also be applied to other languages.

また、上記実施の形態では、学習部と翻訳部とを1つのコンピュータで構成する場合について説明したが、別々のコンピュータで構成するようにしてもよい。   Moreover, although the case where the learning unit and the translation unit are configured by one computer has been described in the above embodiment, the learning unit and the translation unit may be configured by separate computers.

本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。   The present invention is not limited to the above-described embodiment, and various modifications and applications are possible without departing from the gist of the present invention.

また、上述の翻訳装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。   Moreover, although the above translation apparatus has a computer system, the “computer system” includes a homepage providing environment (or display environment) if the WWW system is used.

また、本願明細書中において、プログラムが予めインストールされている実施の形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。   Further, in the present specification, the embodiment has been described in which the program is installed in advance. However, the program can be provided by being stored in a computer-readable recording medium.

10 翻訳装置
20 学習部
22 学習前処理部
24 前翻訳学習部
26 後翻訳学習部
34 前翻訳モデル
36 後翻訳モデル
50 翻訳部
52 入力部
54 前翻訳部
56 後翻訳部
58 出力部
DESCRIPTION OF SYMBOLS 10 Translation apparatus 20 Learning part 22 Pre-learning processing part 24 Pre-translation learning part 26 Post-translation learning part 34 Pre-translation model 36 Post-translation model 50 Translation part 52 Input part 54 Pre-translation part 56 Post-translation part 58 Output part

Claims (11)

翻訳元言語で記述された入力文を、該入力文に含まれる各単語が翻訳元言語の語順に従った語順のまま翻訳先言語の単語に置き換えられた中間翻訳文に翻訳する前翻訳手段と、
前記入力文に含まれる各単語が翻訳元言語の語順に従った語順のまま翻訳先言語の単語に置き換えられたものである中間翻訳文の語順を前記翻訳先言語の語順に並べ替えることにより、前記前翻訳手段により翻訳された中間翻訳文を翻訳先言語で記述された文に翻訳する後翻訳手段と、
を含む翻訳装置。
Pre-translation means for translating the input sentence described in the translation source language into an intermediate translation sentence in which each word included in the input sentence is replaced with a word in the translation destination language in the word order according to the word order of the translation source language; ,
By rearranging the word order of the intermediate translation sentence in which the words included in the input sentence are replaced with the words of the translation destination language in the word order according to the word order of the translation source language, Post-translation means for translating the intermediate translation sentence translated by the pre-translation means into a sentence described in a translation-destination language;
Translation device including
前記前翻訳手段は、前記翻訳元言語で記述された文を前記中間翻訳文に翻訳するための前翻訳モデルに基づいて、前記入力文を前記中間翻訳文に翻訳し、
前記後翻訳手段は、前記中間翻訳文を前記翻訳先言語で記述された文に翻訳するための後翻訳モデルに基づいて、前記中間翻訳文を前記翻訳先言語で記述された文に翻訳する
請求項1記載の翻訳装置。
The pre-translation means translates the input sentence into the intermediate translation sentence based on a pre-translation model for translating a sentence described in the translation source language into the intermediate translation sentence,
The post-translation means translates the intermediate translation sentence into a sentence described in the translation-destination language based on a post-translation model for translating the intermediate translation sentence into a sentence described in the translation-destination language. Item 3. The translation device according to item 1.
前記前翻訳モデルは、翻訳元言語と、翻訳先言語で記述された文に含まれる各単語を、翻訳元言語の語順に従って並べ替えた翻訳中間言語との並行コーパスを用いて学習され、
前記後翻訳モデルは、前記翻訳中間言語と、翻訳先言語との並行コーパスを用いて学習された請求項2記載の翻訳装置。
The pre-translation model is learned using a parallel corpus of a translation source language and a translation intermediate language in which each word included in a sentence described in the translation destination language is rearranged according to the word order of the translation source language,
The translation apparatus according to claim 2, wherein the post-translation model is learned using a parallel corpus of the translation intermediate language and a translation destination language.
第1言語で記述された文に含まれる各単語を事前に第2言語の語順に並べ替えてから、該第1言語で記述された文を該第2言語で記述された文に翻訳する場合の精度が、前記第2言語で記述された文に含まれる各単語を事前に前記第1言語の語順に並べ替えてから、該第2言語で記述された文を該第1言語で記述された文に翻訳する場合の精度よりも高い場合に、前記第1言語を前記翻訳先言語とし、前記第2言語を前記翻訳元言語とする請求項1〜請求項3のいずれか1項記載の翻訳装置。   When the words included in the sentence described in the first language are rearranged in advance in the order of the words in the second language, and then the sentence described in the first language is translated into a sentence described in the second language The accuracy of the is described in the first language after the words included in the sentence described in the second language are sorted in advance in the order of the words in the first language. The said 1st language is made into the said translation destination language, and the said 2nd language is made into the said translation origin language, when it is higher than the precision at the time of translating into the sentence. Translation device. 翻訳先言語で記述された文に含まれる各単語を、翻訳元言語の語順に従って並べ替えた翻訳中間言語を作成する中間言語文作成手段と、
前記中間言語文作成手段により作成された翻訳中間言語と、翻訳元言語との並行コーパスを用いて、前記翻訳元言語で記述された文を、該翻訳元言語で記述された文の各単語が翻訳元言語の語順に従った語順のまま翻訳先言語の単語に置き換えられた中間翻訳文に翻訳するための前翻訳モデルを学習する前学習手段と、
前記中間言語文作成手段により作成された翻訳中間言語と、翻訳先言語との並行コーパスを用いて、前記中間翻訳文を前記翻訳先言語で記述された文に翻訳するための後翻訳モデルを学習する後学習手段と、
を含む翻訳モデル学習装置。
Intermediate language sentence creating means for creating a translation intermediate language in which each word included in the sentence described in the translation target language is rearranged according to the word order of the source language;
Using a parallel corpus of the translation intermediate language created by the intermediate language sentence creation means and the translation source language, each sentence of the sentence described in the translation source language is changed into a sentence described in the translation source language. A pre-learning means for learning a pre-translation model for translating into an intermediate translation sentence replaced with a word in the translation target language in the word order according to the word order of the translation source language;
Learning a post-translation model for translating the intermediate translation sentence into a sentence described in the translation destination language using a parallel corpus of the translation intermediate language created by the intermediate language sentence creation means and the translation destination language After-learning means,
Translation model learning device including
前翻訳手段と、後翻訳手段とを含む翻訳装置における翻訳方法であって、
前記前翻訳手段は、翻訳元言語で記述された入力文を、該入力文に含まれる各単語が翻訳元言語の語順に従った語順のまま翻訳先言語の単語に置き換えられた中間翻訳文に翻訳し、
前記後翻訳手段は、前記入力文に含まれる各単語が翻訳元言語の語順に従った語順のまま翻訳先言語の単語に置き換えられたものである中間翻訳文の語順を前記翻訳先言語の語順に並べ替えることにより、前記前翻訳手段により翻訳された中間翻訳文を翻訳先言語で記述された文に翻訳する
翻訳方法。
A translation method in a translation apparatus including a pre-translation means and a post-translation means,
The pretranslation means converts the input sentence described in the translation source language into an intermediate translation sentence in which each word included in the input sentence is replaced with a word in the translation destination language in the word order according to the word order of the translation source language. Translate
The post-translation means converts the word order of the intermediate translation sentence in which the words included in the input sentence are replaced with the words of the translation destination language in the word order according to the word order of the translation source language. A translation method for translating the intermediate translation sentence translated by the pre-translation means into a sentence described in the translation destination language by rearranging to
前記前翻訳手段は、前記翻訳元言語で記述された文を前記中間翻訳文に翻訳するための前翻訳モデルに基づいて、前記入力文を前記中間翻訳文に翻訳し、
前記後翻訳手段は、前記中間翻訳文を前記翻訳先言語で記述された文に翻訳するための後翻訳モデルに基づいて、前記中間翻訳文を前記翻訳先言語で記述された文に翻訳する
請求項6記載の翻訳方法。
The pre-translation means translates the input sentence into the intermediate translation sentence based on a pre-translation model for translating a sentence described in the translation source language into the intermediate translation sentence,
The post-translation means translates the intermediate translation sentence into a sentence described in the translation-destination language based on a post-translation model for translating the intermediate translation sentence into a sentence described in the translation-destination language. Item 7. The translation method according to Item 6.
前記前翻訳手段は、翻訳元言語と、翻訳先言語で記述された文に含まれる各単語を、翻訳元言語の語順に従って並べ替えた翻訳中間言語との並行コーパスを用いて学習された前翻訳モデルを用い、
前記後翻訳手段は、前記翻訳中間言語と、翻訳先言語との並行コーパスを用いて学習された後翻訳モデルを用いる請求項7記載の翻訳方法。
The pre-translation means is a pre-translation trained using a parallel corpus of a translation language and a translation intermediate language in which each word included in a sentence described in the translation-destination language is rearranged according to the word order of the translation-source language. Using the model,
8. The translation method according to claim 7, wherein the post-translation means uses a post-translation model learned using a parallel corpus of the translation intermediate language and the translation target language.
中間言語文作成手段と、前学習手段と、後学習手段とを含む翻訳モデル学習装置における翻訳モデル学習方法であって、
前記中間言語文作成手段は、翻訳先言語で記述された文に含まれる各単語を、翻訳元言語の語順に従って並べ替えた翻訳中間言語を作成し、
前記前学習手段は、前記作成手段により作成された翻訳中間言語と、翻訳元言語との並行コーパスを用いて、前記翻訳元言語で記述された文を、該翻訳元言語で記述された文の各単語が翻訳元言語の語順に従った語順のまま翻訳先言語の単語に置き換えられた中間翻訳文に翻訳するための前翻訳モデルを学習し、
前記後学習手段は、前記作成手段により作成された翻訳中間言語と、翻訳先言語との並行コーパスを用いて、前記中間翻訳文を前記翻訳先言語で記述された文に翻訳するための後翻訳モデルを学習する
翻訳モデル学習方法。
A translation model learning method in a translation model learning device including an intermediate language sentence creation means, a pre-learning means, and a post-learning means,
The intermediate language sentence creation means creates a translation intermediate language in which each word included in the sentence described in the translation destination language is rearranged according to the word order of the translation source language,
The pre-learning means uses a parallel corpus of the translation intermediate language created by the creating means and the translation source language to convert a sentence described in the translation source language into a sentence described in the translation source language. Learn a pre-translation model to translate each word into an intermediate translation sentence that has been replaced by a word in the target language in the order of the word in the source language,
The post-learning means uses the parallel corpus of the translation intermediate language created by the creation means and the translation destination language to post-translate to translate the intermediate translation sentence into a sentence described in the translation destination language Learning a model A translation model learning method.
コンピュータを、請求項1〜請求項4のいずれか1項記載の翻訳装置を構成する各手段として機能させるための翻訳プログラム。   The translation program for functioning a computer as each means which comprises the translation apparatus of any one of Claims 1-4. コンピュータを、請求項5記載の翻訳モデル学習装置を構成する各手段として機能させるための翻訳モデル学習プログラム。   A translation model learning program for causing a computer to function as each means constituting the translation model learning device according to claim 5.
JP2011193367A 2011-09-05 2011-09-05 Translation apparatus, method, and program, and translation model learning apparatus, method, and program Active JP5780670B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011193367A JP5780670B2 (en) 2011-09-05 2011-09-05 Translation apparatus, method, and program, and translation model learning apparatus, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011193367A JP5780670B2 (en) 2011-09-05 2011-09-05 Translation apparatus, method, and program, and translation model learning apparatus, method, and program

Publications (2)

Publication Number Publication Date
JP2013054608A true JP2013054608A (en) 2013-03-21
JP5780670B2 JP5780670B2 (en) 2015-09-16

Family

ID=48131522

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011193367A Active JP5780670B2 (en) 2011-09-05 2011-09-05 Translation apparatus, method, and program, and translation model learning apparatus, method, and program

Country Status (1)

Country Link
JP (1) JP5780670B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015072509A (en) * 2013-10-01 2015-04-16 日本電信電話株式会社 Word order rearrangement device, translation device, method, and program
JP2016519370A (en) * 2013-04-19 2016-06-30 富士通株式会社 DATA PROCESSING DEVICE, DATA PROCESSING METHOD, AND ELECTRONIC DEVICE
CN109710928A (en) * 2018-12-17 2019-05-03 新华三大数据技术有限公司 The entity relation extraction method and device of non-structured text

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005025474A (en) * 2003-07-01 2005-01-27 Advanced Telecommunication Research Institute International Machine translation device, computer program, and computer

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005025474A (en) * 2003-07-01 2005-01-27 Advanced Telecommunication Research Institute International Machine translation device, computer program, and computer

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016519370A (en) * 2013-04-19 2016-06-30 富士通株式会社 DATA PROCESSING DEVICE, DATA PROCESSING METHOD, AND ELECTRONIC DEVICE
JP2015072509A (en) * 2013-10-01 2015-04-16 日本電信電話株式会社 Word order rearrangement device, translation device, method, and program
CN109710928A (en) * 2018-12-17 2019-05-03 新华三大数据技术有限公司 The entity relation extraction method and device of non-structured text
CN109710928B (en) * 2018-12-17 2022-08-19 新华三大数据技术有限公司 Method and device for extracting entity relationship of unstructured text

Also Published As

Publication number Publication date
JP5780670B2 (en) 2015-09-16

Similar Documents

Publication Publication Date Title
US7707026B2 (en) Multilingual translation memory, translation method, and translation program
Schmaltz et al. Adapting sequence models for sentence correction
Pettersson et al. An SMT approach to automatic annotation of historical text
KR101266361B1 (en) Automatic translation system based on structured translation memory and automatic translating method using the same
JP5552101B2 (en) Rearrangement rule learning device, method, and program, and translation device, method, and program
Nithya et al. A hybrid approach to English to Malayalam machine translation
Lyons A review of Thai–English machine translation
JP5780670B2 (en) Translation apparatus, method, and program, and translation model learning apparatus, method, and program
Sang Improving part-of-speech tagging of historical text by first translating to modern text
JP5734917B2 (en) Rearrangement model learning apparatus, method, and program, and translation apparatus, method, and program
Matthews et al. Synthesizing compound words for machine translation
JP5800206B2 (en) Word order rearrangement device, translation device, translation model learning device, method, and program
JP4829702B2 (en) Machine translation device, machine translation method, generation rule creation device, generation rule creation method, and program and recording medium thereof
JP6590723B2 (en) Word rearrangement learning method, word rearrangement method, apparatus, and program
JP5544518B2 (en) Machine translation apparatus, machine translation method, and program thereof
JP2011180941A (en) Phrase table generator and computer program therefor
Alshawi et al. Learning phrase-based head transduction models for translation of spoken utterances.
Viet et al. Dependency-based pre-ordering for English-Vietnamese statistical machine translation
JP6040946B2 (en) Word order rearrangement device, translation device, method, and program
JP6083645B2 (en) Word order rearrangement device, translation device, translation model learning device, method, and program
JP3921543B2 (en) Machine translation device
Howlett et al. Dual-path phrase-based statistical machine translation
Hussain et al. N-gram based machine translation for English-Assamese: two languages with high syntactical dissimilarity
JP5462894B2 (en) Translation model learning apparatus, method, translation apparatus, method, and program
JP2017021596A (en) Word rearrangement learning device, word rearrangement device, method, and program

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130902

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130910

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131108

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140304

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140602

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20140610

A912 Removal of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20140815

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150612

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150713

R150 Certificate of patent or registration of utility model

Ref document number: 5780670

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150