JP2013054608A - Translation device, method and program, and translation model learning device, method and program - Google Patents
Translation device, method and program, and translation model learning device, method and program Download PDFInfo
- Publication number
- JP2013054608A JP2013054608A JP2011193367A JP2011193367A JP2013054608A JP 2013054608 A JP2013054608 A JP 2013054608A JP 2011193367 A JP2011193367 A JP 2011193367A JP 2011193367 A JP2011193367 A JP 2011193367A JP 2013054608 A JP2013054608 A JP 2013054608A
- Authority
- JP
- Japan
- Prior art keywords
- translation
- language
- sentence
- word
- post
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
本発明は、翻訳装置、方法、及びプログラム、並びに翻訳モデル学習装置、方法、及びプログラムに関する。 The present invention relates to a translation apparatus, method, and program, and a translation model learning apparatus, method, and program.
従来、入力側の言語(以下、「翻訳元言語」という)の文を出力側の言語(以下、「翻訳先言語」という)の文に機械翻訳することが行われている。異なる言語間での語順の違いに起因する単語並べ替えの難しさはあらゆる機械翻訳技術に共通の課題である。特に、翻訳の方法を対訳コーパスからの学習に拠る統計的な機械翻訳技術において、単語の並べ替えは計算量の増大を招くことから、単語の並べ替えを効率的に探索することは実用的に重要な課題である。従来の統計翻訳技術、特にその代表例といえる句(phrase)に基づく翻訳技術においては、句が並べ替えられる際の制約を統計的にモデル化し、かつ、ビームサーチや並べ替え探索範囲の制限のような近似的探索手段によって探索の効率化を図っている(例えば、非特許文献1及び非特許文献2参照)。
Conventionally, a sentence in an input language (hereinafter referred to as “translation source language”) is machine-translated into a sentence in an output side language (hereinafter referred to as “translation destination language”). Difficulties in word rearrangement due to differences in word order between different languages are a common issue for all machine translation technologies. In particular, in statistical machine translation technology based on learning from a translation corpus as a translation method, word rearrangement causes an increase in the amount of calculation, so it is practical to search for word rearrangement efficiently. This is an important issue. In conventional statistical translation technology, especially translation technology based on phrases that can be said to be representative examples, the constraints when phrases are rearranged are statistically modeled, and beam search and rearrangement search range restrictions are limited. Search efficiency is improved by such an approximate search means (see, for example, Non-Patent
一方で、このような方法によっても本質的な並べ替え候補の数が莫大であることから、翻訳しようとする文(入力文)に対する構文(あるいは統語)解析と、得られた構文木に対する並べ替え処理によって翻訳処理の前に単語の並べ替えを行い、翻訳先言語の語順に近づける「事前並べ替え(pre-ordering)」と呼ばれる前処理方式が使われることがある。当該方式によれば原理的には入力文の単語数(以下n)の階乗n!個ある並べ替え候補数を、構文木が2分木である場合2n−1個まで削減することができる。さらに、構文に関する情報を利用することによって非常に高い翻訳精度が得られることがある(例えば、非特許文献3参照)。 On the other hand, since the number of essential sorting candidates is enormous even by such a method, syntax (or syntactic) analysis for the sentence to be translated (input sentence) and sorting for the obtained syntax tree are performed. A pre-processing method called “pre-ordering” in which words are rearranged before translation processing by the processing and brought closer to the word order of the translation destination language may be used. According to this method, in principle, the factorial n! The number of rearrangement candidates can be reduced to 2 n-1 when the syntax tree is a binary tree. Furthermore, very high translation accuracy may be obtained by using information related to the syntax (see, for example, Non-Patent Document 3).
構文に関する情報を統計的な機械翻訳に利用する技術としては、他に、構文木から文字列への翻訳、文字列から構文木への翻訳、構文木から構文木への翻訳、といった、入力文側、出力文側のどちらかあるいは双方が構文木であり、その部分構造を翻訳の単位とする技術も広く知られている(例えば、非特許文献4参照)。この場合は、翻訳元言語だけでなく、翻訳先言語の構文解析も用いられる。 Other techniques for using information about syntax for statistical machine translation include input sentences such as translation from a syntax tree to a string, translation from a string to a syntax tree, and translation from a syntax tree to a syntax tree. On the other hand, either or both of the output sentence side and the output sentence side are syntax trees, and a technique using the partial structure as a unit of translation is also widely known (see Non-Patent Document 4, for example). In this case, not only the source language but also the target language syntax analysis is used.
しかしながら、非特許文献3に記載のような方式では、翻訳元言語の構文解析を行うための技術及び言語資源が必須となる、という問題がある。
However, the method described in Non-Patent
また、非特許文献4に記載のような、構文木と文字列あるいは構文木同士の部分構造の対応付けは、文字列間の対応付けに比べて、木構造や語順の制約が交錯することによってより複雑となり、その結果として、一般性のない大きな翻訳語句対が抽出され、他の文の翻訳にほとんど寄与しない翻訳規則が多く得られてしまう可能性がある、という問題がある。 Further, as described in Non-Patent Document 4, the correspondence between the syntax tree and the character string or the partial structure between the syntax trees is compared with the correspondence between the character strings because the constraints on the tree structure and the word order are mixed. As a result, there is a problem that a large translation phrase pair having no generality is extracted, and as a result, many translation rules that hardly contribute to translation of other sentences may be obtained.
本発明は上記問題点に鑑みてなされたものであり、単語対応付けが容易で、高速かつ高精度な翻訳を行うことができる翻訳装置、方法、及びプログラム、並び翻訳モデル学習装置、方法、及びプログラムを提供することを目的とする。 The present invention has been made in view of the above-described problems, a translation device, a method, and a program, a parallel translation model learning device, a method, and a translation device that can easily perform word association and perform high-speed and high-accuracy translation. The purpose is to provide a program.
上記目的を達成するために、本発明の翻訳装置は、翻訳元言語で記述された入力文を、該入力文に含まれる各単語が翻訳元言語の語順に従った語順のまま翻訳先言語の単語に置き換えられた中間翻訳文に翻訳する前翻訳手段と、前記中間翻訳文の語順を前記翻訳先言語の語順に並べ替えることにより、前記前翻訳手段により翻訳された中間翻訳文を翻訳先言語で記述された文に翻訳する後翻訳手段と、を含んで構成されている。 In order to achieve the above object, the translation apparatus of the present invention converts an input sentence described in a translation source language into a translation destination language in a word order in which each word included in the input sentence conforms to the word order of the translation source language. Pre-translation means for translating into an intermediate translation sentence replaced with a word, and the intermediate translation sentence translated by the pre-translation means by translating the word order of the intermediate translation sentence into the word order of the translation destination language And a post-translation means for translating the sentence described in the above.
本発明の翻訳装置によれば、前翻訳手段が、翻訳元言語で記述された入力文を、入力文に含まれる各単語が翻訳元言語の語順に従った語順のまま翻訳先言語の単語に置き換えられた中間翻訳文に翻訳し、後翻訳手段が、入力文に含まれる各単語が翻訳元言語の語順に従った語順のまま翻訳先言語の単語に置き換えられたものである中間翻訳文の語順を翻訳先言語の語順に並べ替えることにより、前翻訳手段により翻訳された中間翻訳文を翻訳先言語で記述された文に翻訳する。 According to the translation apparatus of the present invention, the pre-translation means converts the input sentence described in the translation source language into words in the translation destination language with each word included in the input sentence remaining in the word order according to the word order of the translation source language. Translated into the replaced intermediate translated sentence, and the post-translation means replaces each word included in the input sentence with the word in the target language in the word order according to the word order in the source language. By rearranging the word order to the word order of the translation destination language, the intermediate translation sentence translated by the pre-translation means is translated into a sentence described in the translation destination language.
このように、前翻訳では、翻訳元言語から翻訳元言語の語順に従った語順のまま翻訳先言語の単語に置き換えられた中間翻訳文へ翻訳することにより、単語の並べ替えを略または全く考慮する必要がなく、後翻訳では、中間翻訳文から翻訳先言語へ翻訳することにより、単語の置き換えを略または全く考慮する必要がないため、単語対応付けが容易で、高速かつ高精度な翻訳を行うことができる。 In this way, in the pre-translation, the translation of the words from the source language to the intermediate translation sentence replaced with the words in the target language remains the same according to the word order of the source language, so that the rearrangement of the words is considered almost or not at all. In post-translation, translating from the intermediate translation sentence to the target language, it is not necessary to consider word replacement or not at all. It can be carried out.
また、前記前翻訳手段は、前記翻訳元言語で記述された文を前記中間翻訳文に翻訳するための前翻訳モデルに基づいて、前記入力文を前記中間翻訳文に翻訳し、前記後翻訳手段は、前記中間翻訳文を前記翻訳先言語で記述された文に翻訳するための後翻訳モデルに基づいて、前記中間翻訳文を前記翻訳先言語で記述された文に翻訳することができる。 The pre-translation means translates the input sentence into the intermediate translation sentence based on a pre-translation model for translating a sentence described in the translation source language into the intermediate translation sentence, and the post-translation means Can translate the intermediate translation sentence into a sentence described in the translation destination language based on a post-translation model for translating the intermediate translation sentence into a sentence described in the translation destination language.
また、前記前翻訳モデルとして、翻訳元言語と、翻訳先言語で記述された文に含まれる各単語を、翻訳元言語の語順に従って並べ替えた翻訳中間言語との並行コーパスを用いて学習されたモデルを用い、前記後翻訳モデルとして、前記翻訳中間言語と、翻訳先言語との並行コーパスを用いて学習されたモデルを用いることができる。 In addition, as the pre-translation model, learning was performed using a parallel corpus of the translation source language and a translation intermediate language in which each word included in the sentence described in the translation destination language is rearranged according to the word order of the translation source language. A model learned using a parallel corpus of the translation intermediate language and the translation target language can be used as the post-translation model.
また、第1言語で記述された文に含まれる各単語を事前に第2言語の語順に並べ替えてから、該第1言語で記述された文を該第2言語で記述された文に翻訳する場合の精度が、前記第2言語で記述された文に含まれる各単語を事前に前記第1言語の語順に並べ替えてから、該第2言語で記述された文を該第1言語で記述された文に翻訳する場合の精度よりも高い場合に、前記第1言語を前記翻訳先言語とし、前記第2言語を前記翻訳元言語とすることができる。「事前並べ替え(pre-ordering)」による従来技術において、第1言語を第2言語に翻訳する場合には、第1言語を第2言語の語順にうまく並べ替えることができることにより翻訳精度が得られるが、第2言語を第1言語に翻訳する場合では、第2言語を第1言語の語順にうまく並べ替えることが容易でないために翻訳精度が得られない場合があることが知られている。例えば、第1言語が英語、第2言語が日本語である場合である。このように翻訳元言語を翻訳先言語(例えば日本語を英語)の語順に従って並べ替える方法がなく、または並べ替えの精度が十分でなく、前処理によって先に語順の入れ替えを高精度に行うことが困難である場合に本発明は特に有効である。本発明において前翻訳モデル及び後翻訳モデルを学習するための翻訳中間言語は、翻訳先言語を翻訳元言語の語順に従って並べ替えをすることによって作成されるものであるが、この並べ替えの方法は、翻訳先言語から翻訳元言語への翻訳において語順の入れ替えを前処理として行い、語句の翻訳をその後に行うような翻訳方法における、語順の入れ替え方法を用いることができる。 In addition, after the words included in the sentence described in the first language are arranged in advance in the order of the words in the second language, the sentence described in the first language is translated into the sentence described in the second language. The accuracy of the first language is such that the words included in the sentence described in the second language are sorted in advance in the order of the words in the first language, and then the sentence described in the second language is converted into the first language. The first language can be the translation target language and the second language can be the translation source language when the accuracy is higher than the translation accuracy when the sentence is described. In the prior art based on “pre-ordering”, when the first language is translated into the second language, the first language can be successfully rearranged in the order of the words in the second language, thereby obtaining translation accuracy. However, when the second language is translated into the first language, it is known that the translation accuracy may not be obtained because it is not easy to rearrange the second language in the order of the words of the first language. . For example, the first language is English and the second language is Japanese. In this way, there is no way to rearrange the source language according to the word order of the destination language (for example, Japanese to English), or the rearrangement accuracy is not sufficient, and the word order is first changed with high accuracy by preprocessing. The present invention is particularly effective when it is difficult. In the present invention, the translation intermediate language for learning the pre-translation model and the post-translation model is created by rearranging the translation destination language according to the word order of the translation source language. In the translation from the translation destination language to the translation source language, the word order switching method can be used in the translation method in which the word order switching is performed as a preprocessing and the phrase is translated thereafter.
また、本発明の翻訳モデル学習装置は、翻訳先言語で記述された文に含まれる各単語を、翻訳元言語の語順に従って並べ替えた翻訳中間言語を作成する中間言語文作成手段と、前記中間言語文作成手段により作成された翻訳中間言語と、翻訳元言語との並行コーパスを用いて、前記翻訳元言語で記述された文を、該翻訳元言語で記述された文の各単語が翻訳元言語の語順に従った語順のまま翻訳先言語の単語に置き換えられた中間翻訳文に翻訳するための前翻訳モデルを学習する前学習手段と、前記中間言語文作成手段により作成された翻訳中間言語と、翻訳先言語との並行コーパスを用いて、前記中間翻訳文を前記翻訳先言語で記述された文に翻訳するための後翻訳モデルを学習する後学習手段と、を含んで構成することができる。 In addition, the translation model learning device of the present invention includes an intermediate language sentence creation unit that creates a translation intermediate language in which each word included in a sentence described in a translation destination language is rearranged according to the word order of the translation source language; Using a parallel corpus of the translation intermediate language created by the language sentence creation means and the translation source language, each word of the sentence described in the translation source language is converted into a sentence described in the translation source language. Pre-learning means for learning a pre-translation model for translating into an intermediate translation sentence replaced with a word in the translation destination language in the word order according to the word order of the language, and the translation intermediate language created by the intermediate language sentence creation means And a post-learning means for learning a post-translation model for translating the intermediate translation sentence into a sentence described in the translation-destination language using a parallel corpus with the translation-destination language. it can.
また、本発明の翻訳方法は、前翻訳手段と、後翻訳手段とを含む翻訳装置における翻訳方法であって、前記前翻訳手段は、翻訳元言語で記述された入力文を、該入力文に含まれる各単語が翻訳元言語の語順に従った語順のまま翻訳先言語の単語に置き換えられた中間翻訳文に翻訳し、前記後翻訳手段は、前記入力文に含まれる各単語が翻訳元言語の語順に従った語順のまま翻訳先言語の単語に置き換えられたものである中間翻訳文の語順を前記翻訳先言語の語順に並べ替えることにより、前記前翻訳手段により翻訳された中間翻訳文を翻訳先言語で記述された文に翻訳する方法である。 The translation method of the present invention is a translation method in a translation apparatus including a pre-translation unit and a post-translation unit, and the pre-translation unit converts an input sentence described in a source language into the input sentence. Each word included is translated into an intermediate translation sentence replaced with a word in the translation destination language in the word order according to the word order of the translation source language, and the post-translation means, each word contained in the input sentence is translated into the translation source language By rearranging the word order of the intermediate translation sentence that has been replaced with the words in the translation destination language in the word order according to the word order of This is a method of translating into sentences written in the target language.
また、本発明の翻訳方法において、前記前翻訳手段は、前記翻訳元言語で記述された文を前記中間翻訳文に翻訳するための前翻訳モデルに基づいて、前記入力文を前記中間翻訳文に翻訳し、前記後翻訳手段は、前記中間翻訳文を前記翻訳先言語で記述された文に翻訳するための後翻訳モデルに基づいて、前記中間翻訳文を前記翻訳先言語で記述された文に翻訳することができる。 In the translation method of the present invention, the pre-translation means converts the input sentence into the intermediate translation sentence based on a pre-translation model for translating a sentence described in the translation source language into the intermediate translation sentence. The post-translation means translates the intermediate translation sentence into a sentence described in the translation destination language based on a post-translation model for translating the intermediate translation sentence into a sentence described in the translation destination language. Can be translated.
また、前記翻訳方法において、前記前翻訳手段は、翻訳元言語と、翻訳先言語で記述された文に含まれる各単語を、翻訳元言語の語順に従って並べ替えた翻訳中間言語との並行コーパスを用いて学習された前翻訳モデルを用い、前記後翻訳手段は、前記翻訳中間言語と、翻訳先言語との並行コーパスを用いて学習された後翻訳モデルを用いることができる。 In the translation method, the pre-translation means includes a parallel corpus of a translation source language and a translation intermediate language in which each word included in a sentence described in the translation destination language is rearranged according to the word order of the translation source language. Using the pre-translation model learned using, the post-translation means can use the post-translation model learned using a parallel corpus of the translation intermediate language and the translation target language.
また、本発明の翻訳モデル学習方法は、中間言語文作成手段と、前学習手段と、後学習手段とを含む翻訳モデル学習装置における翻訳モデル学習方法であって、前記作成手段は、翻訳先言語で記述された文に含まれる各単語を、翻訳元言語の語順に従って並べ替えた翻訳中間言語を作成し、前記前学習手段は、前記中間言語文作成手段により作成された翻訳中間言語と、翻訳元言語との並行コーパスを用いて、前記翻訳元言語で記述された文を、該翻訳元言語で記述された文の各単語が翻訳元言語の語順に従った語順のまま翻訳先言語の単語に置き換えられた中間翻訳文に翻訳するための前翻訳モデルを学習し、前記後学習手段は、前記作成手段により作成された翻訳中間言語と、翻訳先言語との並行コーパスを用いて、前記中間翻訳文を前記翻訳先言語で記述された文に翻訳するための後翻訳モデルを学習する方法である。 The translation model learning method of the present invention is a translation model learning method in a translation model learning device including an intermediate language sentence creation means, a pre-learning means, and a post-learning means, wherein the creation means includes a translation destination language A translation intermediate language is created by rearranging the words included in the sentence described in accordance with the word order of the translation source language, and the pre-learning means includes a translation intermediate language created by the intermediate language sentence creation means, and a translation Using a parallel corpus with the source language, a sentence described in the source language is converted into a word in the target language in which each word of the sentence described in the source language remains in the word order according to the word order of the source language. A pre-translation model for translating into an intermediate translation sentence replaced with the intermediate translation sentence, and the post-learning means uses the parallel corpus of the translation intermediate language created by the creation means and the translation destination language, Before translation It is a way to learn the translation model after for translation to the statement written in the target language.
また、本発明の翻訳プログラムは、コンピュータを、上記の翻訳装置を構成する各手段として機能させるためのプログラムである。 The translation program of the present invention is a program for causing a computer to function as each means constituting the translation apparatus.
また、本発明の翻訳モデル学習プログラムは、コンピュータを、上記の翻訳モデル学習装置を構成する各手段として機能させるためのプログラムである。 The translation model learning program of the present invention is a program for causing a computer to function as each means constituting the above translation model learning apparatus.
以上説明したように、本発明の翻訳装置、方法、及びプログラム、並びに翻訳モデル学習装置、方法、及びプログラムによれば、前翻訳では、翻訳元言語から翻訳元言語の語順に従った語順のまま翻訳先言語の単語に置き換えられた中間翻訳文へ翻訳することにより、単語の並べ替えを考慮する必要がなく、後翻訳では、中間翻訳文から翻訳先言語へ翻訳することにより、単語の置き換えを考慮する必要がないため、単語対応付けが容易で、高速かつ高精度な翻訳を行うことができる、という効果が得られる。 As described above, according to the translation device, method, and program of the present invention, and the translation model learning device, method, and program, in the pre-translation, the word order according to the word order from the source language to the source language is maintained. It is not necessary to consider the rearrangement of words by translating to an intermediate translation sentence that has been replaced with a word in the target language. In post-translation, word replacement is performed by translating from the intermediate translation sentence to the target language. Since there is no need to consider, it is possible to obtain an effect that word association is easy and high-speed and highly accurate translation can be performed.
以下、図面を参照して本発明の実施の形態を詳細に説明する。本実施の形態では、翻訳元言語を日本語、翻訳先言語を英語とした場合の翻訳及び翻訳モデルの学習について説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. In the present embodiment, translation and learning of a translation model when the translation source language is Japanese and the translation destination language is English will be described.
まず、本実施の形態の概要及び用語の定義について説明する。本実施の形態では、翻訳元言語の構文解析器による入力文の事前並べ替えではなく、翻訳元言語の語順に従った語順、すなわち翻訳元言語に近い語順のまま入力文を翻訳先言語に翻訳した後に、翻訳先言語らしい語順に並べ替えるという「事後並べ替え(post-ordering)」翻訳を実現する。以下の説明では、この「翻訳元言語に近い語順のまま翻訳先言語に翻訳された文」を「中間翻訳文」とし、この翻訳過程を「前翻訳」と呼ぶ。また、中間翻訳文を仮想的な別の言語と考え、「翻訳中間言語」と呼ぶ。中間翻訳文は、語彙は翻訳先言語のものであるが、語順は対応する翻訳元言語のものに近く、正しい翻訳先言語の文とするためには、語順の並べ替え及び一部の単語の置換、挿入、及び削除が必要である。この語順の並べ替え、並びに単語の置換、挿入、及び削除の過程も翻訳と見ることができるため、この過程を「後翻訳」と呼ぶ。 First, an outline of the present embodiment and definitions of terms will be described. In this embodiment, the input sentence is translated into the target language in the word order according to the word order of the source language, that is, the word order close to the source language, instead of the pre-ordering of the input sentences by the syntax analyzer of the source language. After that, "post-ordering" translation is realized in which the words are rearranged in the order of the target language. In the following description, this “sentence translated into the translation destination language in the order of words close to the translation source language” is referred to as “intermediate translation sentence”, and this translation process is referred to as “pretranslation”. In addition, the intermediate translation sentence is considered as another virtual language, and is called “translation intermediate language”. In the intermediate translation, the vocabulary is that of the target language, but the word order is close to that of the corresponding source language. Replacement, insertion, and deletion are required. Since this word order rearrangement and word replacement, insertion, and deletion processes can also be regarded as translation, this process is called “post-translation”.
本実施の形態に係る翻訳装置10は、CPUと、RAMと、後述する学習処理及び翻訳処理ルーチンを実行するためのプログラムを記憶したROMと、を備えたコンピュータで構成されている。また、記憶手段としてのHDDを含んで構成するようにしてもよい。このコンピュータは、機能的には、図1に示すように、学習部20と、翻訳部50とを含んだ構成で表すことができる。
The
学習部20は、さらに、学習前処理部22と、前翻訳学習部24と、後翻訳学習部26とを含んだ構成で表すことができる。
The
学習前処理部22は、後述する前翻訳学習部24及び後翻訳学習部26で使用する翻訳元言語と翻訳先言語との並行コーパスに前処理を施し、「翻訳元言語と翻訳中間言語との並行コーパス(並行コーパス(翻訳元言語+翻訳中間言語)30)」、及び「翻訳中間言語と翻訳先言語との並行コーパス(並行コーパス(翻訳中間言語+翻訳先言語)32)」を生成する。具体的には、翻訳先言語の文に対する単語並べ替え処理によって翻訳中間言語の文を生成する。単語並べ替え処理としては、英語構文解析結果に対する主辞後置型並べ替え規則に基づく方法(例えば、非特許文献3)、構文解析結果に対する単語並べ替え方法(非特許文献5「Michael Collins, Philipp Koehn, and Ivona Kucerova, "Clause Restructuring for Statistical Machine Translation." In Proc. ACL, 2005. pages 531-540.」は規則に基づく方法の一例、非特許文献6「Chi-Ho Li, Dongdong Zhang, Mu Li, Ming Zhou, Minghui Li, and Yi Guan, "A Probabilistic Approach to Syntax-based Reordering for Statistical Machine Translation." In Proc. ACL, 2007. pages 720-727.」は統計モデルに基づく方法の一例)、構文解析を用いない単語並べ替え方法(例えば、非特許文献7「Roy Tromble and Jason Eisner, "Learning Linear Ordering Problems for Better Translation." In Proc. EMNLP, 2009. pages 1007-1016.」)など既存技術を用いることができ、特定の単語並べ替え処理に限定されない。また、学習前処理部22は、翻訳元言語の文、翻訳中間言語の文、及び翻訳先言語の文各々の単語区切り処理も行う。
The
前翻訳学習部24は、学習前処理部22で生成された翻訳元言語と翻訳中間言語との並行コーパスを利用して、翻訳元言語の文を翻訳中間言語に翻訳するための前翻訳モデル34を学習する。本実施の形態では、前翻訳モデル34に特別の機能を要しないため、学習方法には、公知の統計的翻訳モデル学習方法(例えば、非特許文献1)を利用することができる。また、統計的な方法に限らず、翻訳規則を記述した翻訳辞書による翻訳モデルを学習するようにしてもよい。前翻訳学習部24では、単語の並べ替えを略または全く考慮しなくてよいことから、単語間の対応付けが容易になる。
The
後翻訳学習部26は、学習前処理部22で生成された翻訳中間言語と翻訳先言語との並行コーパスを利用して、翻訳中間言語の文を翻訳先言語に翻訳するための後翻訳モデル36を学習する。前翻訳学習部24と同様、学習の方法は特定の方法でなくともよい。後翻訳学習部26では、翻訳中間言語が翻訳先言語の並べ替え結果であることから、両者の単語間の対応は自明であり、統計的な手法によって改めて推定し直す必要がなく、高精度な後翻訳モデル36を学習することができる。なお、翻訳中間言語の文を生成する際に、翻訳先言語から単語の挿入、置換、及び削除が行われている場合には、再推定を行ってもよい。
The
翻訳部50は、さらに、入力部52と、前翻訳部54と、後翻訳部56と、出力部58とを含んだ構成で表すことができる。
The
入力部52は、入力文(翻訳元言語の文、ここでは日本語の文)を図示しないキーボード等の入力装置またはネットワーク等を介して外部から受け取り、必要な前処理を施した上で、翻訳部に渡す。前処理では、入力文を前翻訳部54の受理する形式へ整形する。ここでの整形とは、例えば、前翻訳モデル34に合わせた単語区切りや構文解析、不要なタグの除去、必要なタグの付加などを行うことである。
The
前翻訳部54は、前翻訳モデル34を参照し、入力部52から受け渡された翻訳元言語の入力文を、翻訳中間言語で記述された「中間翻訳文」へと翻訳する。ここでは、中間翻訳文は、日本語の各単語が日本語に近い語順のまま英語の単語に置き換えられた文となる。前翻訳部54は、単語の並べ替えを略または全く考慮せずに動作し、語句の翻訳及び近傍の並べ替えのみによって実現可能である。
The
後翻訳部56は、後翻訳モデル36を参照し、前翻訳部54から受け渡された翻訳中間言語の中間翻訳文を、翻訳先言語の出力文へと翻訳する。後翻訳部56は、語句の翻訳を略または全く考慮せずに動作し、語句の並べ替えと、少数の単語の置換、挿入、及び削除によって実現可能である。
The
出力部58は、出力文に必要な後処理を施した上で、図示しないディスプレイなどの表示装置またはネットワーク等を介して外部へ出力する。後処理では、後翻訳部56の出力を出力する形式へ整形する。ここでの整形とは、出力仕様に合わせた単語区切りの除去、不要なタグの除去、必要なタグの付加などを行うことである。
The
次に、本実施の形態の翻訳装置10の作用について説明する。まず、学習処理を実行することにより、前翻訳モデル34及び後翻訳モデル36を学習する。そして、この学習された前翻訳モデル34及び後翻訳モデル36を用いて翻訳処理を実行して、入力された翻訳元言語の入力文を翻訳先言語に翻訳する。
Next, the operation of
ここで、図2を参照して、本実施の形態の翻訳装置10において実行される学習処理ルーチンについて説明する。
Here, with reference to FIG. 2, the learning process routine executed in the
ステップ100で、翻訳元言語と翻訳先言語との並行コーパス28を読み込み、次に、ステップ102で、読み込んだ並行コーパスの翻訳元言語の文に対して形態解析を施して単語区切り処理を行う。
In
次に、ステップ104で、読み込んだ並行コーパスの翻訳先言語の文に対して形態解析を施して単語区切り処理を行うと共に、構文解析を行う。
Next, in
次に、ステップ106で、主辞後置型並べ替え等の手法を用いた翻訳先言語の文に対する単語並べ替え処理によって翻訳中間言語の文を生成する。
Next, in
次に、ステップ108で、上記ステップ100で読み込んだ翻訳元言語と、上記ステップ106で生成された翻訳中間言語との並行コーパス30を利用して、翻訳元言語の文を翻訳中間言語に翻訳するための前翻訳モデル34を学習する。
Next, in
次に、ステップ110で、上記ステップ100で読み込んだ翻訳先言語と、上記ステップ106で生成された翻訳中間言語との並行コーパス32を利用して、翻訳中間言語の文を翻訳先言語に翻訳するための後翻訳モデル36を学習して、処理を終了する。
Next, in
次に、図3を参照して、本実施の形態の翻訳装置10において実行される翻訳処理ルーチンについて説明する。
Next, a translation processing routine executed in
ステップ200で、翻訳元言語で記述された入力文を読み込んで、入力文に対して形態素解析を施して単語区切り処理を行う。
In
次に、ステップ202で、上記学習処理のステップ108で学習された前翻訳モデル34を参照し、翻訳元言語の入力文を中間翻訳文へ翻訳する。
Next, in
次に、ステップ204で、上記学習処理のステップ110で学習された後翻訳モデル36を参照し、上記ステップ202で前翻訳された中間翻訳文を翻訳先言語の文へ翻訳し、後処理を施して出力し、処理を終了する。
Next, in
本実施の形態の翻訳装置の処理について、より具体的な実施例を用いて説明する。本実施例においても、翻訳元言語を日本語、翻訳先言語を英語とする場合について説明する。 Processing of the translation apparatus according to the present embodiment will be described using a more specific example. Also in this embodiment, the case where the translation source language is Japanese and the translation destination language is English will be described.
本実施例で利用する日本語と英語との並行コーパスを記録したファイルの日本語部の一例を図4に、英語部の一例を図5に示す。図中で記号“\\”は、行が継続していることを示す。以下の図においても同様である。 FIG. 4 shows an example of a Japanese part of a file in which a parallel corpus of Japanese and English used in this embodiment is recorded, and FIG. 5 shows an example of an English part. In the figure, the symbol “\\” indicates that the line is continued. The same applies to the following drawings.
上記の並行コーパスの日本語文については単語分割処理を、英語文については単語分割処理、構文解析処理、及び翻訳中間言語への並べ替え処理を施す(ステップ102〜106)。日本語の単語分割処理には、公知の形態素解析プログラムMeCabを用いた。また、英語の単語分割処理及び構文解析処理には、公知の英語構文解析プログラムEnjuを用いた。また、翻訳先言語の翻訳中間言語への並べ替えは、非特許文献3で述べられている主辞後置型並べ替え規則によって行った。
The Japanese sentence of the parallel corpus is subjected to word division processing, and the English sentence is subjected to word division processing, syntax analysis processing, and rearrangement processing into a translation intermediate language (
これらの処理によって、図6に示す日本語単語分割コーパス、図7に示す英語単語分割コーパス、及び図8に示す主辞後置型英語(翻訳中間言語)コーパスの3つのファイルを作成する。この「日本語単語分割コーパス」と「主辞後置型英語(翻訳中間言語)コーパス」とを組にしたものが、翻訳元言語と翻訳中間言語との並行コーパスであり、「主辞後置型英語(翻訳中間言語)コーパス」と「英語単語分割コーパス」とを組にしたものが翻訳中間言語と翻訳先言語との並行コーパスであり、次段の前翻訳学習部24及び後翻訳学習部26で用いられる。
By these processes, three files are created: a Japanese word division corpus shown in FIG. 6, an English word division corpus shown in FIG. 7, and a main postfix English (translation intermediate language) corpus shown in FIG. The combination of this "Japanese word division corpus" and the "postfix postfix English (translation intermediate language) corpus" is a parallel corpus of the source language and the translation intermediate language. A combination of the “intermediate language) corpus” and “English word segmentation corpus” is a parallel corpus of the translation intermediate language and the translation target language, and is used by the
次に、前翻訳学習部24(翻訳元言語から翻訳中間言語への翻訳)での学習のために、公知の統計的翻訳ツールキットであるMoses、及び公知の統計的言語モデル作成ツールキットであるSRILMを利用した。Mosesに含まれている翻訳モデル学習ツールによって、図9に示すような翻訳テーブルファイル及び図10に示すような設定ファイルが生成される。また、SRILMによって、図11に示すようなNグラム言語モデルファイルが生成される(ステップ108)。 Next, for learning in the pre-translation learning unit 24 (translation from the translation source language to the translation intermediate language), Moses, which is a known statistical translation tool kit, and a known statistical language model creation tool kit. SRILM was used. A translation model learning tool included in Moses generates a translation table file as shown in FIG. 9 and a setting file as shown in FIG. Further, the N-gram language model file as shown in FIG. 11 is generated by SRILM (step 108).
翻訳テーブルファイルは、区切り記号“|||”で翻訳元言語側の句、そこから翻訳される翻訳中間言語の句、及び翻訳時のスコアが列挙されている。設定ファイルは、翻訳プログラムを実行する際に読み出す翻訳テーブルファイルやNグラム言語モデルファイルの格納場所、及びモデルのパラメータなどを指定するためのファイルである。また、Nグラム言語モデルファイルは、公知のNグラム言語モデル、すなわち(N−1)個の単語履歴の後に単語が生成される条件付き確率モデルを記録したものである。 In the translation table file, phrases on the translation source language side, translation intermediate language phrases translated therefrom, and scores at the time of translation are listed with a delimiter “|||”. The setting file is a file for designating the storage location of the translation table file and N-gram language model file to be read when executing the translation program, the model parameters, and the like. The N-gram language model file records a known N-gram language model, that is, a conditional probability model in which words are generated after (N-1) word histories.
設定ファイルに記載されたパラメータは初期値であり、実用のためには別途並行コーパスを利用してこの値を調整する必要がある。パラメータの調整には、公知の技術として誤り最小化学習(Minimum Error Rate Training:MERT)と呼ばれる手法(例えば、非特許文献8「Franz Josef Och, "Minimum Error Rate Training in Statistical Machine Translation." In Proc. ACL, 2003. pages 160-167.」)を用いることができる。MERTは、パラメータ調整用の並行コーパスの翻訳元言語側を一旦翻訳し、並行コーパスの翻訳先言語側との比較によって何らかの翻訳精度が最大になるようなパラメータ更新をする、という処理を繰り返し実行することにより最適なパラメータを得る方法である。本実施例においてもMosesに含まれているMERTプログラムを用いた。その結果得られた設定ファイルを図12に示す。 The parameters described in the setting file are initial values, and for practical use, it is necessary to adjust these values separately using a parallel corpus. For parameter adjustment, a known technique called “Minimum Error Rate Training (MERT)” (for example, Non-Patent Document 8 “Franz Josef Och,“ Minimum Error Rate Training in Statistical Machine Translation. ”In Proc ACL, 2003. pages 160-167 "). The MERT repeatedly executes a process of temporarily translating the translation source language side of the parallel corpus for parameter adjustment and updating the parameters so that some translation accuracy is maximized by comparison with the translation destination language side of the parallel corpus. This is a method for obtaining optimum parameters. In this example, the MERT program included in Moses was also used. The setting file obtained as a result is shown in FIG.
次に、後翻訳学習部26では、翻訳言語対が翻訳中間言語から翻訳先言語に変わる他は前翻訳学習部24と同様の処理によって実現する(ステップ110)。詳細な説明は省略する。学習前処理部22、前翻訳学習部24、及び後翻訳学習部26によって、前翻訳部54で利用する前翻訳モデル34及び後翻訳部56で利用する後翻訳モデル36が作成されれば、実際の日本語から英語への翻訳が以下のように実現可能である。
Next, the
まず、図13に示す入力文ファイルを入力部52で読み込み、日本語形態素解析プログラムMeCabによって事前に単語分割を行う。なお、入力部52で単語分割処理を行うことも可能である。
First, the input sentence file shown in FIG. 13 is read by the
そして、前翻訳部54では、入力ファイルから読み込まれた入力文を前翻訳モデル34(翻訳テーブルファイル、Nグラム言語モデルファイル、及びそのパラメータを設定ファイルで指定)を用いて翻訳中間言語に翻訳して中間翻訳文を得る(ステップ202)。中間翻訳文の一例を図14に示す。中間翻訳文は、語彙が英語のものであるが、語順は英語の語順としては適切でなく、日本語の逐語訳に近い。
Then, the
次に、後翻訳部56では、前翻訳部54で前翻訳された中間翻訳文をさらに英語に翻訳する(ステップ204)。後翻訳部56では、単語の翻訳はあまり必要でなく、単語の並べ替えを主とした翻訳が行われる。後翻訳の結果は出力部58に渡される。
Next, the
出力部58では、後翻訳部56の出力を受け取り、不要な単語区切りを消去し、文頭の文字を大文字に変換する後処理を施した結果を翻訳結果ファイルに書き出す。翻訳結果ファイルは、例えば図15に示すような、英語が記載されたテキストファイルとなる。
The
公知の翻訳自動評価尺度BLEUにおいて、従来の統計的翻訳技術による日英翻訳の精度が、0.2688であったのに対し、本実施例では 0.2960という高い精度を得ることができた。 In the publicly known automatic translation evaluation scale BLEU, the accuracy of Japanese-English translation by the conventional statistical translation technique was 0.2688, whereas in this example, a high accuracy of 0.2960 was obtained.
以上説明したように、本実施の形態の翻訳装置によれば、翻訳先言語を翻訳元言語に近い語順のまま翻訳先言語の語彙に置き換えた中間翻訳文に前翻訳した後に、中間翻訳文を翻訳先言語らしい語順に並べ替える後翻訳を行う。このため、前翻訳では、単語の並べ替えを略または全く考慮する必要がなく、また、後翻訳では、語句の翻訳を略または全く考慮する必要がない。統計的な機械翻訳方法においては解探索のための時間及び空間計算量が入力文の長さに対して指数関数的に増大することを考慮すれば、本実施の形態の翻訳装置では、翻訳処理の高速化を実現することができる。また、前翻訳に用いる前翻訳モデルの学習では、単語の並べ替えを略または全く考慮する必要がないため、単語間の対応付けが容易になる。また、後翻訳に用いる後翻訳モデルの学習では、翻訳中間言語は翻訳先言語の並べ替え結果であることから、両者の単語間の対応が自明であり、統計的な手法によって改めて推定し直す必要がなく、高精度な後翻訳モデルを学習することができる。 As described above, according to the translation apparatus of the present embodiment, after the pre-translation into the intermediate translation sentence in which the translation destination language is replaced with the vocabulary of the translation destination language in the word order close to the translation source language, the intermediate translation sentence is After rearranging the words in the order of the target language, perform the translation. For this reason, in the pre-translation, it is not necessary to consider the word rearrangement or not at all, and in the post-translation, it is not necessary to consider the translation of the words. In the statistical machine translation method, considering that the time and space complexity for solution search increase exponentially with respect to the length of the input sentence, the translation apparatus according to the present embodiment performs translation processing. Speeding up can be realized. Further, in learning the pre-translation model used for pre-translation, it is not necessary to consider word rearrangement substantially or at all, so that the correspondence between words becomes easy. Also, in learning the post-translation model used for post-translation, the translation intermediate language is the result of sorting the translation-destination languages, so the correspondence between the two words is self-explanatory, and it is necessary to reestimate it using statistical methods. It is possible to learn a post-translation model with high accuracy.
本実施の形態の翻訳装置では、翻訳元言語の解析によって入力文を並べ替えるのではなく、翻訳先言語側で並べ替えを行うことで、翻訳元言語と翻訳先言語との語順の差を解消し、部分構造対の対応付けやそこからの翻訳単位の抽出を容易にし、機械翻訳の精度を改善することができる。 In the translation apparatus according to the present embodiment, the input sentence is not rearranged by analyzing the source language, but is sorted on the target language, thereby eliminating the difference in the word order between the source language and the target language. In addition, it is possible to easily associate partial structure pairs and to extract translation units therefrom, thereby improving the accuracy of machine translation.
また、事前並べ替え(言語Aを言語Bの語順に並べ替えてから言語Aから言語Bへ翻訳)が精度良く行える場合、つまり、言語Aから言語Bへ精度良く翻訳するための事前並べ替え方法が存在する場合(かつ言語Bから言語Aへの翻訳では、精度の良い事前並べ替え方法が存在しない場合)には、翻訳中間言語A’(言語Aを言語Bの語順に並べ替えたもの)は、言語Aの文から作成が可能であることから、大量の言語Aの文を利用して言語Aと翻訳中間言語A’との並行コーパスを作成することも容易である。従って、本発明により、その大量の並行コーパスを利用することで精度を高めた翻訳中間言語A’から言語Aへの後翻訳を、語順の並べ替え探索を最小限とした効率的な言語Bから翻訳中間言語A’への前翻訳と組み合わせることで、機械翻訳の精度を高めることができる。 Further, when the pre-ordering (translation from language A to language B is performed after language A is rearranged in the order of language B), that is, a pre-ordering method for accurately translating from language A to language B (And when translation from language B to language A does not have an accurate pre-ordering method), translation intermediate language A ′ (language A is rearranged in the order of language B) Can be created from a sentence of language A, it is easy to create a parallel corpus of language A and translation intermediate language A ′ using a large number of sentences of language A. Therefore, according to the present invention, post-translation from the translation intermediate language A ′ to the language A, which has been improved in accuracy by using the large number of parallel corpora, is performed from the efficient language B that minimizes the rearrangement search of the word order. By combining with pre-translation to the translation intermediate language A ′, the accuracy of machine translation can be improved.
なお、上記実施の形態では、翻訳元言語を日本語、翻訳先言語を英語とする場合について説明したが、他の言語にも適用することができる。 In the above embodiment, the case where the translation source language is Japanese and the translation destination language is English has been described, but the present invention can also be applied to other languages.
また、上記実施の形態では、学習部と翻訳部とを1つのコンピュータで構成する場合について説明したが、別々のコンピュータで構成するようにしてもよい。 Moreover, although the case where the learning unit and the translation unit are configured by one computer has been described in the above embodiment, the learning unit and the translation unit may be configured by separate computers.
本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。 The present invention is not limited to the above-described embodiment, and various modifications and applications are possible without departing from the gist of the present invention.
また、上述の翻訳装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。 Moreover, although the above translation apparatus has a computer system, the “computer system” includes a homepage providing environment (or display environment) if the WWW system is used.
また、本願明細書中において、プログラムが予めインストールされている実施の形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。 Further, in the present specification, the embodiment has been described in which the program is installed in advance. However, the program can be provided by being stored in a computer-readable recording medium.
10 翻訳装置
20 学習部
22 学習前処理部
24 前翻訳学習部
26 後翻訳学習部
34 前翻訳モデル
36 後翻訳モデル
50 翻訳部
52 入力部
54 前翻訳部
56 後翻訳部
58 出力部
DESCRIPTION OF
Claims (11)
前記入力文に含まれる各単語が翻訳元言語の語順に従った語順のまま翻訳先言語の単語に置き換えられたものである中間翻訳文の語順を前記翻訳先言語の語順に並べ替えることにより、前記前翻訳手段により翻訳された中間翻訳文を翻訳先言語で記述された文に翻訳する後翻訳手段と、
を含む翻訳装置。 Pre-translation means for translating the input sentence described in the translation source language into an intermediate translation sentence in which each word included in the input sentence is replaced with a word in the translation destination language in the word order according to the word order of the translation source language; ,
By rearranging the word order of the intermediate translation sentence in which the words included in the input sentence are replaced with the words of the translation destination language in the word order according to the word order of the translation source language, Post-translation means for translating the intermediate translation sentence translated by the pre-translation means into a sentence described in a translation-destination language;
Translation device including
前記後翻訳手段は、前記中間翻訳文を前記翻訳先言語で記述された文に翻訳するための後翻訳モデルに基づいて、前記中間翻訳文を前記翻訳先言語で記述された文に翻訳する
請求項1記載の翻訳装置。 The pre-translation means translates the input sentence into the intermediate translation sentence based on a pre-translation model for translating a sentence described in the translation source language into the intermediate translation sentence,
The post-translation means translates the intermediate translation sentence into a sentence described in the translation-destination language based on a post-translation model for translating the intermediate translation sentence into a sentence described in the translation-destination language. Item 3. The translation device according to item 1.
前記後翻訳モデルは、前記翻訳中間言語と、翻訳先言語との並行コーパスを用いて学習された請求項2記載の翻訳装置。 The pre-translation model is learned using a parallel corpus of a translation source language and a translation intermediate language in which each word included in a sentence described in the translation destination language is rearranged according to the word order of the translation source language,
The translation apparatus according to claim 2, wherein the post-translation model is learned using a parallel corpus of the translation intermediate language and a translation destination language.
前記中間言語文作成手段により作成された翻訳中間言語と、翻訳元言語との並行コーパスを用いて、前記翻訳元言語で記述された文を、該翻訳元言語で記述された文の各単語が翻訳元言語の語順に従った語順のまま翻訳先言語の単語に置き換えられた中間翻訳文に翻訳するための前翻訳モデルを学習する前学習手段と、
前記中間言語文作成手段により作成された翻訳中間言語と、翻訳先言語との並行コーパスを用いて、前記中間翻訳文を前記翻訳先言語で記述された文に翻訳するための後翻訳モデルを学習する後学習手段と、
を含む翻訳モデル学習装置。 Intermediate language sentence creating means for creating a translation intermediate language in which each word included in the sentence described in the translation target language is rearranged according to the word order of the source language;
Using a parallel corpus of the translation intermediate language created by the intermediate language sentence creation means and the translation source language, each sentence of the sentence described in the translation source language is changed into a sentence described in the translation source language. A pre-learning means for learning a pre-translation model for translating into an intermediate translation sentence replaced with a word in the translation target language in the word order according to the word order of the translation source language;
Learning a post-translation model for translating the intermediate translation sentence into a sentence described in the translation destination language using a parallel corpus of the translation intermediate language created by the intermediate language sentence creation means and the translation destination language After-learning means,
Translation model learning device including
前記前翻訳手段は、翻訳元言語で記述された入力文を、該入力文に含まれる各単語が翻訳元言語の語順に従った語順のまま翻訳先言語の単語に置き換えられた中間翻訳文に翻訳し、
前記後翻訳手段は、前記入力文に含まれる各単語が翻訳元言語の語順に従った語順のまま翻訳先言語の単語に置き換えられたものである中間翻訳文の語順を前記翻訳先言語の語順に並べ替えることにより、前記前翻訳手段により翻訳された中間翻訳文を翻訳先言語で記述された文に翻訳する
翻訳方法。 A translation method in a translation apparatus including a pre-translation means and a post-translation means,
The pretranslation means converts the input sentence described in the translation source language into an intermediate translation sentence in which each word included in the input sentence is replaced with a word in the translation destination language in the word order according to the word order of the translation source language. Translate
The post-translation means converts the word order of the intermediate translation sentence in which the words included in the input sentence are replaced with the words of the translation destination language in the word order according to the word order of the translation source language. A translation method for translating the intermediate translation sentence translated by the pre-translation means into a sentence described in the translation destination language by rearranging to
前記後翻訳手段は、前記中間翻訳文を前記翻訳先言語で記述された文に翻訳するための後翻訳モデルに基づいて、前記中間翻訳文を前記翻訳先言語で記述された文に翻訳する
請求項6記載の翻訳方法。 The pre-translation means translates the input sentence into the intermediate translation sentence based on a pre-translation model for translating a sentence described in the translation source language into the intermediate translation sentence,
The post-translation means translates the intermediate translation sentence into a sentence described in the translation-destination language based on a post-translation model for translating the intermediate translation sentence into a sentence described in the translation-destination language. Item 7. The translation method according to Item 6.
前記後翻訳手段は、前記翻訳中間言語と、翻訳先言語との並行コーパスを用いて学習された後翻訳モデルを用いる請求項7記載の翻訳方法。 The pre-translation means is a pre-translation trained using a parallel corpus of a translation language and a translation intermediate language in which each word included in a sentence described in the translation-destination language is rearranged according to the word order of the translation-source language. Using the model,
8. The translation method according to claim 7, wherein the post-translation means uses a post-translation model learned using a parallel corpus of the translation intermediate language and the translation target language.
前記中間言語文作成手段は、翻訳先言語で記述された文に含まれる各単語を、翻訳元言語の語順に従って並べ替えた翻訳中間言語を作成し、
前記前学習手段は、前記作成手段により作成された翻訳中間言語と、翻訳元言語との並行コーパスを用いて、前記翻訳元言語で記述された文を、該翻訳元言語で記述された文の各単語が翻訳元言語の語順に従った語順のまま翻訳先言語の単語に置き換えられた中間翻訳文に翻訳するための前翻訳モデルを学習し、
前記後学習手段は、前記作成手段により作成された翻訳中間言語と、翻訳先言語との並行コーパスを用いて、前記中間翻訳文を前記翻訳先言語で記述された文に翻訳するための後翻訳モデルを学習する
翻訳モデル学習方法。 A translation model learning method in a translation model learning device including an intermediate language sentence creation means, a pre-learning means, and a post-learning means,
The intermediate language sentence creation means creates a translation intermediate language in which each word included in the sentence described in the translation destination language is rearranged according to the word order of the translation source language,
The pre-learning means uses a parallel corpus of the translation intermediate language created by the creating means and the translation source language to convert a sentence described in the translation source language into a sentence described in the translation source language. Learn a pre-translation model to translate each word into an intermediate translation sentence that has been replaced by a word in the target language in the order of the word in the source language,
The post-learning means uses the parallel corpus of the translation intermediate language created by the creation means and the translation destination language to post-translate to translate the intermediate translation sentence into a sentence described in the translation destination language Learning a model A translation model learning method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011193367A JP5780670B2 (en) | 2011-09-05 | 2011-09-05 | Translation apparatus, method, and program, and translation model learning apparatus, method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011193367A JP5780670B2 (en) | 2011-09-05 | 2011-09-05 | Translation apparatus, method, and program, and translation model learning apparatus, method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013054608A true JP2013054608A (en) | 2013-03-21 |
JP5780670B2 JP5780670B2 (en) | 2015-09-16 |
Family
ID=48131522
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011193367A Active JP5780670B2 (en) | 2011-09-05 | 2011-09-05 | Translation apparatus, method, and program, and translation model learning apparatus, method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5780670B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015072509A (en) * | 2013-10-01 | 2015-04-16 | 日本電信電話株式会社 | Word order rearrangement device, translation device, method, and program |
JP2016519370A (en) * | 2013-04-19 | 2016-06-30 | 富士通株式会社 | DATA PROCESSING DEVICE, DATA PROCESSING METHOD, AND ELECTRONIC DEVICE |
CN109710928A (en) * | 2018-12-17 | 2019-05-03 | 新华三大数据技术有限公司 | The entity relation extraction method and device of non-structured text |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005025474A (en) * | 2003-07-01 | 2005-01-27 | Advanced Telecommunication Research Institute International | Machine translation device, computer program, and computer |
-
2011
- 2011-09-05 JP JP2011193367A patent/JP5780670B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005025474A (en) * | 2003-07-01 | 2005-01-27 | Advanced Telecommunication Research Institute International | Machine translation device, computer program, and computer |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016519370A (en) * | 2013-04-19 | 2016-06-30 | 富士通株式会社 | DATA PROCESSING DEVICE, DATA PROCESSING METHOD, AND ELECTRONIC DEVICE |
JP2015072509A (en) * | 2013-10-01 | 2015-04-16 | 日本電信電話株式会社 | Word order rearrangement device, translation device, method, and program |
CN109710928A (en) * | 2018-12-17 | 2019-05-03 | 新华三大数据技术有限公司 | The entity relation extraction method and device of non-structured text |
CN109710928B (en) * | 2018-12-17 | 2022-08-19 | 新华三大数据技术有限公司 | Method and device for extracting entity relationship of unstructured text |
Also Published As
Publication number | Publication date |
---|---|
JP5780670B2 (en) | 2015-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7707026B2 (en) | Multilingual translation memory, translation method, and translation program | |
Schmaltz et al. | Adapting sequence models for sentence correction | |
Pettersson et al. | An SMT approach to automatic annotation of historical text | |
KR101266361B1 (en) | Automatic translation system based on structured translation memory and automatic translating method using the same | |
JP5552101B2 (en) | Rearrangement rule learning device, method, and program, and translation device, method, and program | |
Nithya et al. | A hybrid approach to English to Malayalam machine translation | |
Lyons | A review of Thai–English machine translation | |
JP5780670B2 (en) | Translation apparatus, method, and program, and translation model learning apparatus, method, and program | |
Sang | Improving part-of-speech tagging of historical text by first translating to modern text | |
JP5734917B2 (en) | Rearrangement model learning apparatus, method, and program, and translation apparatus, method, and program | |
Matthews et al. | Synthesizing compound words for machine translation | |
JP5800206B2 (en) | Word order rearrangement device, translation device, translation model learning device, method, and program | |
JP4829702B2 (en) | Machine translation device, machine translation method, generation rule creation device, generation rule creation method, and program and recording medium thereof | |
JP6590723B2 (en) | Word rearrangement learning method, word rearrangement method, apparatus, and program | |
JP5544518B2 (en) | Machine translation apparatus, machine translation method, and program thereof | |
JP2011180941A (en) | Phrase table generator and computer program therefor | |
Alshawi et al. | Learning phrase-based head transduction models for translation of spoken utterances. | |
Viet et al. | Dependency-based pre-ordering for English-Vietnamese statistical machine translation | |
JP6040946B2 (en) | Word order rearrangement device, translation device, method, and program | |
JP6083645B2 (en) | Word order rearrangement device, translation device, translation model learning device, method, and program | |
JP3921543B2 (en) | Machine translation device | |
Howlett et al. | Dual-path phrase-based statistical machine translation | |
Hussain et al. | N-gram based machine translation for English-Assamese: two languages with high syntactical dissimilarity | |
JP5462894B2 (en) | Translation model learning apparatus, method, translation apparatus, method, and program | |
JP2017021596A (en) | Word rearrangement learning device, word rearrangement device, method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130902 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130910 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131108 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20140304 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140602 |
|
A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20140610 |
|
A912 | Removal of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20140815 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150612 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150713 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5780670 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |