JP6040946B2 - Word order rearrangement device, translation device, method, and program - Google Patents

Word order rearrangement device, translation device, method, and program Download PDF

Info

Publication number
JP6040946B2
JP6040946B2 JP2014026801A JP2014026801A JP6040946B2 JP 6040946 B2 JP6040946 B2 JP 6040946B2 JP 2014026801 A JP2014026801 A JP 2014026801A JP 2014026801 A JP2014026801 A JP 2014026801A JP 6040946 B2 JP6040946 B2 JP 6040946B2
Authority
JP
Japan
Prior art keywords
phrase
translation
main part
unit
clause
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014026801A
Other languages
Japanese (ja)
Other versions
JP2015153182A (en
Inventor
克仁 須藤
克仁 須藤
永田 昌明
昌明 永田
翔 星野
翔 星野
祐介 宮尾
祐介 宮尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Inter University Research Institute Corp Research Organization of Information and Systems
Original Assignee
Nippon Telegraph and Telephone Corp
Inter University Research Institute Corp Research Organization of Information and Systems
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, Inter University Research Institute Corp Research Organization of Information and Systems filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014026801A priority Critical patent/JP6040946B2/en
Publication of JP2015153182A publication Critical patent/JP2015153182A/en
Application granted granted Critical
Publication of JP6040946B2 publication Critical patent/JP6040946B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Description

本発明は、語順並べ替え装置、翻訳装置、方法、及びプログラムに係り、特に、入力文の語順を並べ替える語順並べ替え装置、翻訳装置、方法、及びプログラムに関する。   The present invention relates to a word order rearrangement device, a translation device, a method, and a program, and more particularly, to a word order rearrangement device, a translation device, a method, and a program for rearranging the word order of an input sentence.

言語Aから言語Bへの機械翻訳の処理は、言語Aの語句から言語Bの語句への翻訳と、翻訳された言語Bの語句の言語Bにおける適切な並べ替えとの2つに大別される。当該分野で広く利用されている統計的翻訳技術においては、大量の対訳文から推定された言語Aの語句と言語Bの語句との対応関係から語句の翻訳と語句の並べ替えを統計的にモデル化し、言語Aの入力文に対し、それらの統計モデルに基づいて尤もらしい語句の翻訳と語句の並べ替えによって構成される言語Bの翻訳文を探索するという方法が採られる。   The process of machine translation from language A to language B is roughly divided into two: translation from language A phrases to language B phrases, and appropriate reordering of translated language B phrases in language B. The In the statistical translation technology widely used in the field, the translation of words and the rearrangement of words are statistically modeled from the correspondence between the words of language A and the words of language B estimated from a large number of parallel translations. The language B input sentence is searched for a translation sentence of the language B constituted by translation of a probable phrase and rearrangement of the phrase based on the statistical model.

一般にすべての翻訳文候補を網羅的に探索することは計算量的に非常に困難であるため、各語句の翻訳の候補数を制限し、かつ語句の並べ替えの距離を一定の範囲内に制約することによって実用的な計算量での機械翻訳処理が実現される。   In general, it is extremely difficult to comprehensively search for all translation candidates, so the number of translation candidates for each word is limited, and the distance of word sorting is limited within a certain range. By doing so, machine translation processing with a practical calculation amount is realized.

しかし、翻訳の対象となる言語Aと言語Bの組み合わせによっては、対応する語句が大きく異なる順序で現れる可能性があり、そのような言語間の翻訳を正確に行うためには十分に大きな並べ替え距離を考慮した翻訳処理が要求されるため、計算量の増加が避けられないという問題が存在する。   However, depending on the combination of language A and language B to be translated, the corresponding words may appear in a significantly different order, and the reordering is large enough to accurately translate between such languages. Since translation processing in consideration of distance is required, there is a problem that an increase in calculation amount is unavoidable.

上記問題に対処する技術として、翻訳処理を行う前に言語Aの語句を対応する言語Bの語句の順序に近づけるように並べ替える「事前並べ替え(pre-ordering)」と呼ばれる技術が知られている(特許文献1、非特許文献1)。非特許文献1の方法は、独語から英語、特許文献1の方法は、英語から日本語への翻訳を対象としており、入力文の言語(言語A)の語句を翻訳後の言語(言語B)の対応する語句の順序に近づけるように並べ替える規則を利用している。   As a technique for coping with the above problem, a technique called “pre-ordering” is known in which the words of language A are rearranged so as to approach the order of the corresponding words of language B before translation processing is performed. (Patent Document 1, Non-Patent Document 1). The method of Non-Patent Document 1 is intended for translation from German to English, and the method of Patent Document 1 is intended for translation from English to Japanese. The language of the input sentence (language A) is the language after translation (language B). It uses a rule that rearranges the words so that they match the order of the corresponding phrases.

また、日本語から英語への翻訳において、構文解析を利用して日本語の文節の係り受け構造を推定し、文節の順序を入れ替えることによって英語の語順に近づける技術が知られている(非特許文献2、非特許文献3、非特許文献4)。   Also, in Japanese-to-English translation, there is a known technology that uses syntactic analysis to estimate the dependency structure of Japanese clauses, and changes the order of English clauses to bring them closer to the English word order (non-patented). Document 2, Non-Patent Document 3, Non-Patent Document 4).

非特許文献2の方法は、係り受け構造に加え、述語項構造解析と呼ばれるある述語に対する主語や目的語等を推定する技術を利用して主語や目的語を同定し、英語の主語‐動詞‐目的語の順になるように主語や目的語を移動するための規則を利用している。   In the method of Non-Patent Document 2, in addition to the dependency structure, the subject and object are identified using a technique for estimating the subject and object for a predicate called predicate term structure analysis, and the English subject-verb- The rules for moving the subject and object in order of the object are used.

非特許文献3の方法は、係り受け構造と、助詞を利用して主語や目的語を推定し、非特許文献2の方法と同様の並べ替え規則を利用している。これらの方法は文節の順序を英語に近い順に並べることが期待できるが、文節内の語順は変えないため、「東京 に 着い た」という句は、「着い た 東京 に」という語順になるに留まり、対応する英語の「arrived at Tokyo」とは助詞「に」と前置詞「at」の位置に違いが残る。   The method of Non-Patent Document 3 estimates the subject and object using a dependency structure and particles, and uses the same rearrangement rule as the method of Non-Patent Document 2. These methods can be expected to arrange the order of clauses in the order close to English, but the word order in the clauses does not change, so the phrase `` I arrived in Tokyo '' will only be in the order of `` I arrived in Tokyo ''. , The position of the particle “ni” and the preposition “at” remains different from the corresponding English “arrived at Tokyo”.

非特許文献4の方法は、非特許文献2の方法を改良し、日本語の助詞や助動詞等の機能語を文節の先頭に移動することによって、英語の前置詞の位置とほぼ一致するような並べ替えを実現している。また、構文解析を利用せず、日本語の述部を反転させて英語の語順に近づける技術も知られている(非特許文献5)。   The method of Non-Patent Document 4 improves the method of Non-Patent Document 2 and moves the function words such as Japanese particles and auxiliary verbs to the beginning of the phrase, so that the positions of the English prepositions are substantially matched. Realization of replacement. A technique is also known in which Japanese predicates are reversed to bring them closer to the English word order without using parsing (Non-Patent Document 5).

特開2011−175500号公報JP 2011-175500 A

Michael Collins, Philipp Koehn, Ivona Kucerova, "Clause Restructuring for Statistical Machine Translation", In Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics, pp. 531-540, 2005Michael Collins, Philipp Koehn, Ivona Kucerova, "Clause Restructuring for Statistical Machine Translation", In Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics, pp. 531-540, 2005 Mamoru Komachi, Yuji Matsumoto, Masaaki Nagata, "Phrase Reordering for Statistical Machine Translation Based on Predicate-Argument Structure", In Proceedings of International Work-shop on Spoken Language Translation (IWSLT 2006), 2006Mamoru Komachi, Yuji Matsumoto, Masaaki Nagata, "Phrase Reordering for Statistical Machine Translation Based on Predicate-Argument Structure", In Proceedings of International Work-shop on Spoken Language Translation (IWSLT 2006), 2006 Katsuhito Sudoh, Kevin Duh, Hajime Tsukada, Masaaki Nagata, Xianchao Wu, Takuya Matsuzaki and Jun'ichi Tsujii, "NTT-UT Statistical Machine Translation in NTCIR-9 PatentMT", In Proceedings of NTCIR-9, 2011.Katsuhito Sudoh, Kevin Duh, Hajime Tsukada, Masaaki Nagata, Xianchao Wu, Takuya Matsuzaki and Jun'ichi Tsujii, "NTT-UT Statistical Machine Translation in NTCIR-9 PatentMT", In Proceedings of NTCIR-9, 2011. Sho Hoshino, Yusuke Miyao, Katsuhito Sudoh, Masaaki Nagata, "Two-Stage Pre-ordering for Japanese-to-English Statistical Machine Translation", In Proceedings of IJCNLP, 2013Sho Hoshino, Yusuke Miyao, Katsuhito Sudoh, Masaaki Nagata, "Two-Stage Pre-ordering for Japanese-to-English Statistical Machine Translation", In Proceedings of IJCNLP, 2013 Jason Katz-Brown and Michael Collins, "Syntactic reordering in preprocessing for Japanese→English translation: MIT system description for NTCIR-7 patent translation task", In Proceedings of the NTCIR-7 Workshop Meeting, 2008.Jason Katz-Brown and Michael Collins, "Syntactic reordering in preprocessing for Japanese → English translation: MIT system description for NTCIR-7 patent translation task", In Proceedings of the NTCIR-7 Workshop Meeting, 2008.

しかし、非特許文献1及び特許文献1の方法は、言語A側の構文解析と適切な規則を利用することによって並べ替えをかなり正確に行うことができる反面、言語Aや言語Bが異なれば必要な規則も異なるため、新たに規則を定義する必要があるという問題がある。   However, the methods of Non-Patent Document 1 and Patent Document 1 can be performed fairly accurately by using syntax analysis and appropriate rules on the language A side, but are necessary if the languages A and B are different. There is a problem that it is necessary to define a new rule because different rules are different.

また、非特許文献2、非特許文献3、及び非特許文献4に記載の方法は文法的に妥当な並べ替えを可能にする一方で、日本語の係り受け解析や述語項構造解析といった処理の正確性の影響を強く受けるという問題がある。また、このような解析を行うためには相応の規則の設計や学習用コーパスの整備などが必要な上、処理対象分野が設計時のものと異なる場合は語彙や文体の違いなどの影響を受けて解析精度が低下することもあるという問題もある。   In addition, the methods described in Non-Patent Document 2, Non-Patent Document 3, and Non-Patent Document 4 enable grammatically valid rearrangement, while processing such as Japanese dependency analysis and predicate term structure analysis. There is a problem of being strongly affected by accuracy. In addition, in order to perform such an analysis, it is necessary to design appropriate rules and to develop a learning corpus, and if the processing target field is different from that at the time of design, it is affected by differences in vocabulary and style. Therefore, there is a problem that the analysis accuracy may be lowered.

また、非特許文献5に記載の方法は、解析精度の問題はないが、述部の語順を単純に反転させてしまうために、並列句や複合語のように順序を持つ語句まで逆順に並べ替えてしまい、動詞や目的語という単位の順序はおおむね英語に近づくものの、その内部の語順は望ましい英語の語順と逆になってしまうという問題がある。   The method described in Non-Patent Document 5 has no problem of analysis accuracy, but in order to simply reverse the word order of the predicate, it arranges in reverse order up to words with order such as parallel phrases and compound words. In other words, the unit order of verbs and objects is almost similar to English, but the internal word order is reversed from the desired English word order.

本発明は、上記問題点を解決するために成されたものであり、入力文の語順を適切に並べ替えることできる語順並べ替え装置、翻訳装置、方法、及びプログラムを提供することを目的とする。   The present invention has been made to solve the above problems, and an object thereof is to provide a word order rearrangement device, a translation device, a method, and a program that can appropriately rearrange the word order of an input sentence. .

上記目的を達成するために、第1の発明に係る語順並べ替え装置は、入力文又は句について、機能語を含む各文節を同定する文節同定部と、前記入力文又は句の主部を同定する主部同定部と、前記主部同定部により同定された前記入力文又は句の主部について、前記主部に含まれる各文節の順序を反転するように並べ替え、前記入力文又は句のうち、前記主部とは異なる部分について、各文節の順序を反転するように並べ替え、前記主部について並べ替えられた各文節及び前記主部とは異なる部分について並べ替えられた各文節について、前記文節に含まれる機能語を前記文節の先頭に並べ替えるように、前記文節内の語順を並べ替える並べ替え部と、を含んで構成されている。   In order to achieve the above object, a word order rearranging device according to a first aspect of the present invention identifies, for an input sentence or phrase, a phrase identification unit that identifies each phrase including a functional word, and identifies a main part of the input sentence or phrase Reordering the main sentence identifying part and the main part of the input sentence or phrase identified by the main part identifying part so as to reverse the order of each clause included in the main part, Among them, the part different from the main part is rearranged so as to reverse the order of each phrase, each phrase rearranged for the main part and each phrase rearranged for a part different from the main part, A rearrangement unit that rearranges the word order in the clause so that the function words included in the clause are rearranged at the head of the clause.

第2の発明に係る語順並べ替え方法は、文節同定部と、主部同定部と、並べ替え部と、を含む語順並べ替え装置における語順並べ替え方法であって、前記文節同定部が、入力文又は句について、機能語を含む各文節を同定し、前記主部同定部が、前記入力文又は句の主部を同定し、前記並べ替え部が、前記主部同定部により同定された前記入力文又は句の主部について、前記主部に含まれる各文節の順序を反転するように並べ替え、前記入力文又は句のうち、前記主部とは異なる部分について、各文節の順序を反転するように並べ替え、前記主部について並べ替えられた各文節及び前記主部とは異なる部分について並べ替えられた各文節について、前記文節に含まれる機能語を前記文節の先頭に並べ替えるように、前記文節内の語順を並べ替える。   A word order rearrangement method according to a second invention is a word order rearrangement method in a word order rearrangement device including a phrase identification unit, a main part identification unit, and a rearrangement unit, wherein the phrase identification unit is an input For each sentence or phrase, each clause including a function word is identified, the main part identification unit identifies the main part of the input sentence or phrase, and the rearrangement unit is identified by the main part identification unit The main part of the input sentence or phrase is rearranged so that the order of each clause included in the main part is reversed, and the order of each phrase is reversed in a part different from the main part in the input sentence or phrase. The function words included in the clauses are rearranged at the head of the clauses for each clause rearranged for the main part and for each clause rearranged for a part different from the main part. , Rearrange the word order in the clause That.

第1及び第2の発明によれば、文節同定部により、入力文又は句について、機能語を含む各文節を同定し、主部同定部により、入力文又は句の主部の各々を同定し、並べ替え部により、同定された入力文又は句の主部について、各文節の順序を反転するように並べ替え、主部とは異なる部分について、各文節の順序を反転するように並べ替え、並べ替えられた各文節について、文節に含まれる機能語を文節の先頭に並べ替える。   According to the first and second inventions, the phrase identifying unit identifies each phrase including a function word for the input sentence or phrase, and the main part identifying part identifies each main part of the input sentence or phrase. , By the reordering unit, the main part of the identified input sentence or phrase is rearranged so as to reverse the order of each clause, the part different from the main part is rearranged so as to reverse the order of each clause, For each sorted clause, the function words contained in the clause are sorted at the beginning of the clause.

このように、主部の各文節の順序を反転するように並べ替え、主部とは異なる部分についての各文節の順序を反転するように並べ替え、各文節の機能語を文節の先頭に並べ替えることにより、入力文又は句の語順を適切に並べ替えることできる。   In this way, the order of each clause in the main part is rearranged to be reversed, the order of each phrase in the part different from the main part is rearranged, and the function words of each clause are arranged at the beginning of the phrase. By changing the order, the word order of the input sentence or phrase can be rearranged appropriately.

また、第1の発明に係る語順並べ替え装置において、前記入力文又は句の各文節から、並列の関係となる文節の組み合わせを同定する並列同定部を更に含み、前記並べ替え部は、前記並列同定部により同定された並列の関係となる文節の組み合わせについての文節の順序を維持するように、前記主部に含まれる各文節の順序を反転するように並べ替え、前記主部とは異なる部分について各文節の順序を反転するように並べ替え、前記並列の関係となる文節の組み合わせについて、最も後方に位置する文節に含まれる機能語を、最も前方に位置する文節の先頭に並べ替え、前記並列の関係となる文節の組み合わせとは異なる各文節について、前記文節に含まれる機能語を前記文節の先頭に並べ替えるように、前記文節内の語順を並べ替えてもよい。   In the word order rearrangement device according to the first aspect of the present invention, the word order rearrangement device further includes a parallel identification unit that identifies a combination of clauses in parallel relation from each clause of the input sentence or phrase, and the rearrangement unit includes the parallel A part different from the main part is rearranged so as to reverse the order of the clauses included in the main part so as to maintain the order of the clauses for the combination of clauses in parallel relation identified by the identification part. Rearrange the order of each clause with respect to each other, and for the combination of clauses in the parallel relationship, rearrange the function word included in the most backward clause at the beginning of the most forward clause, For each clause that is different from the combination of clauses in parallel relation, the word order in the clause may be rearranged so that the functional words included in the clause are rearranged at the beginning of the clause. .

第3の発明に係る翻訳装置は、第1特定言語で記述された入力文又は句を、第1特定言語とは異なる第2特定言語で記述された文又は句に翻訳する翻訳装置において、上記第1の発明の語順並べ替え装置によって前記入力文又は句を並べ替えた結果について、複数種類の翻訳モデル及び前記複数種類の翻訳モデルの各々に対する重みに基づいて、前記第2特定言語で記述された文又は句に翻訳する翻訳部と、を含んで構成されている。   A translation device according to a third invention is a translation device for translating an input sentence or phrase described in a first specific language into a sentence or phrase described in a second specific language different from the first specific language. The result of rearranging the input sentence or phrase by the word order rearranging device of the first invention is described in the second specific language based on a plurality of types of translation models and a weight for each of the plurality of types of translation models. And a translation unit that translates the text into phrases or phrases.

第4の発明に係る翻訳方法は、翻訳部を含む、第1特定言語で記述された入力文又は句を、第1特定言語とは異なる第2特定言語で記述された文又は句に翻訳する翻訳装置における翻訳方法であって、前記翻訳部によって、上記第2の発明の語順並べ替え方法によって前記入力文又は句を並べ替えた結果について、複数種類の翻訳モデル及び前記複数種類の翻訳モデルの各々に対する重みに基づいて、前記第2特定言語で記述された文又は句に翻訳する。   A translation method according to a fourth aspect of the invention translates an input sentence or phrase described in a first specific language, including a translation unit, into a sentence or phrase described in a second specific language different from the first specific language. A translation method in a translation device, wherein the translation unit rearranges the input sentence or phrase by the word order rearrangement method of the second invention, and includes a plurality of types of translation models and a plurality of types of translation models. Based on the weight for each, the sentence is translated into a sentence or phrase described in the second specific language.

第3及び第4の発明によれば、翻訳部により、語順並べ替え装置によって第1特定言語で記述された入力文又は句を並べ替えた結果について、複数種類の翻訳モデル及び複数種類の翻訳モデルの各々に対する重みに基づいて、第2特定言語で記述された文又は句に翻訳する。   According to the third and fourth inventions, the translation unit rearranges the input sentences or phrases described in the first specific language by the word order rearrangement device, and the plural types of translation models and the plural types of translation models. Are translated into sentences or phrases written in the second specific language.

このように、主部の各文節の順序を反転するように並べ替え、主部とは異なる部分についての各文節の順序を反転するように並べ替え、各文節の機能語を文節の先頭に並べ替え、翻訳をすることにより、精度よく翻訳を行うことができる。   In this way, the order of each clause in the main part is rearranged to be reversed, the order of each phrase in the part different from the main part is rearranged, and the function words of each clause are arranged at the beginning of the phrase. By translating and translating, translation can be performed with high accuracy.

また、本発明のプログラムは、コンピュータを、上記の語順並べ替え装置を構成する各部として機能させるためのプログラムである。   Moreover, the program of this invention is a program for functioning a computer as each part which comprises said word order rearrangement apparatus.

また、本発明のプログラムは、コンピュータを、上記の翻訳装置を構成する各部として機能させるためのプログラムである。   The program of the present invention is a program for causing a computer to function as each part constituting the above translation apparatus.

以上説明したように、本発明の語順並べ替え装置、方法、及びプログラムによれば、主部の各文節の順序を反転するように並べ替え、主部とは異なる部分についての各文節の順序を反転するように並べ替え、各文節の機能語を文節の先頭に並べ替えることにより、入力文又は句の語順を適切に並べ替えることできる。   As described above, according to the word order rearrangement apparatus, method, and program of the present invention, rearrangement is performed so as to reverse the order of each clause in the main part, and the order of each phrase in a part different from the main part is changed. By rearranging so as to be reversed and rearranging the functional words of each clause at the beginning of the clause, the word order of the input sentence or phrase can be appropriately rearranged.

また、本発明の翻訳装置、方法、及びプログラムによれば、主部の各文節の順序を反転するように並べ替え、主部とは異なる部分についての各文節の順序を反転するように並べ替え、各文節の機能語を文節の先頭に並べ替え、並べ替えられた文又は句について翻訳を行うことにより、精度よく翻訳を行うことができる。   Further, according to the translation apparatus, method, and program of the present invention, rearrangement is performed so that the order of each clause in the main part is reversed, and rearrangement is performed so as to reverse the order of each phrase in a part different from the main part. By rearranging the function words of each clause at the head of the clause and translating the rearranged sentence or phrase, the translation can be performed with high accuracy.

本発明の実施の形態に係る翻訳装置の機能的構成を示すブロック図である。It is a block diagram which shows the functional structure of the translation apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係る翻訳モデル学習装置の機能的構成を示すブロック図である。It is a block diagram which shows the functional structure of the translation model learning apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係る翻訳モデル学習装置における翻訳モデル学習処理ルーチンを示すフローチャート図である。It is a flowchart figure which shows the translation model learning process routine in the translation model learning apparatus which concerns on embodiment of this invention. 本発明の実施の形態に係る翻訳装置における翻訳処理ルーチンを示すフローチャート図である。It is a flowchart figure which shows the translation processing routine in the translation apparatus concerning embodiment of this invention. KNPの解析結果の例を示す図である。It is a figure which shows the example of the analysis result of KNP. KNPの解析結果の解釈の例を示す図である。It is a figure which shows the example of interpretation of the analysis result of KNP. 文分割の例を示す図である。It is a figure which shows the example of a sentence division | segmentation. 主部の同定の例を示す図である。It is a figure which shows the example of identification of a principal part. 文節の並べ替え規則を用いて文節を並べ替えた例を示す図である。It is a figure which shows the example which rearranged the clause using the rearrangement rule of a clause. 機能語を文節の先頭に並べ替えた例を示す図である。It is a figure which shows the example which rearranged the function word at the head of the clause.

以下、図面を参照して本発明の実施の形態を詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

<本発明の原理>
本発明の実施の形態において、日本語から英語への翻訳を対象とした事前並べ替えを行うために、上記非特許文献5と同様に日本語で記述された文を主部と述部に分け、その後に上記非特許文献4と同様に文節間・文節内の二段階の並べ替えを行う。特に、本実施の形態においては、文節間の並べ替えにおいて、並列句の順序を誤って反転させることがないように、並列句の情報を利用することで過剰な順序反転を抑制する。なお、日本語を第1特定言語の一例とし、英語を第2特定言語の一例とする。
<Principle of the present invention>
In the embodiment of the present invention, a sentence written in Japanese is divided into a main part and a predicate in the same manner as in Non-Patent Document 5 in order to perform pre-ordering for translation from Japanese to English. Thereafter, rearrangement in two steps between clauses and within clauses is performed in the same manner as in Non-Patent Document 4 above. In particular, in the present embodiment, excessive order reversal is suppressed by using parallel phrase information so that the order of parallel phrases is not mistakenly reversed in rearrangement between phrases. Japanese is an example of the first specific language, and English is an example of the second specific language.

上記非特許文献4の方法においては、係り受け構造の範囲内に文節の並べ替えが制限されているが、本実施の形態においては、文節の情報までしか利用せず、係り受け構造は並べ替えに利用しない。   In the method of Non-Patent Document 4, the rearrangement of clauses is limited within the range of the dependency structure. However, in this embodiment, only the information on the clause is used, and the dependency structure is rearranged. Do not use for.

また、上記非特許文献5の方法においては、単純に単語順序を反転させるだけであったものを、文節間・文節内の二段階の並べ替えを行うことによって、複合語などの語順反転(例えば、「国立 情報 学 研究所」→「研究所 学 情報 国立」)を抑制する。   Further, in the method of Non-Patent Document 5 described above, word order reversal (for example, compound words) is performed by performing two-step rearrangement between clauses and within clauses, in which the word order is simply reversed. , “National Institute of Informatics” → “National Institute of Informatics Information”).

また、本実施形態においては、並列構造がある場合に、並列順序を誤って反転させないことにより、並列句の順序反転(例えば、「装置 1 と 装置 2 が」→「が 装置 2 と 装置 1」)を抑制する。   Further, in this embodiment, when there is a parallel structure, the parallel order is not reversed by mistake, thereby reversing the order of the parallel phrases (for example, “device 1 and device 2” → “is device 2 and device 1”). ).

<本発明の実施の形態に係る翻訳装置の構成>
次に、本発明の実施の形態に係る翻訳装置の構成について説明する。図1に示すように、本発明の実施の形態に係る翻訳装置100は、CPUと、RAMと、後述する翻訳処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この翻訳装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部90とを備えている。
<Configuration of Translation Apparatus According to Embodiment of the Present Invention>
Next, the configuration of the translation apparatus according to the embodiment of the present invention will be described. As shown in FIG. 1, a translation apparatus 100 according to an embodiment of the present invention is a computer that includes a CPU, a RAM, and a ROM that stores a program for executing a translation processing routine described later and various data. Can be configured. The translation apparatus 100 functionally includes an input unit 10, a calculation unit 20, and an output unit 90 as shown in FIG.

入力部10は、キーボードなどの入力装置から日本語の入力文を受け付ける。入力される文は前処理としてHTMLやXMLなどのタグの除去、表記の正規化等がされ、入力時においては適切な入力形式に変換された状態で入力される。なお、入力部10は、ネットワーク等を介して外部から入力されたものを受け付けるようにしてもよい。   The input unit 10 receives a Japanese input sentence from an input device such as a keyboard. The input sentence is pre-processed by removing tags such as HTML and XML, normalizing the notation, and the like, and is input in a state of being converted into an appropriate input format at the time of input. Note that the input unit 10 may accept input from the outside via a network or the like.

演算部20は、言語解析部30と、並べ替え部50と、翻訳部52と、モデル記憶部54と、を備えている。   The calculation unit 20 includes a language analysis unit 30, a rearrangement unit 50, a translation unit 52, and a model storage unit 54.

言語解析部30は、形態素解析部32と、文節同定部34と、並列同定部36と、文分割部38と、主部同定部40と、を備えている。言語解析部30は、入力部10において受け付けた日本語で記述された入力文に対して形態素解析、文節の同定、並列関係となる文節の組み合わせの同定、文の分割、及び主部の同定を行う。   The language analysis unit 30 includes a morpheme analysis unit 32, a phrase identification unit 34, a parallel identification unit 36, a sentence division unit 38, and a main part identification unit 40. The language analysis unit 30 performs morphological analysis, phrase identification, phrase combination identification, sentence division, and main part identification for an input sentence described in Japanese received by the input unit 10. Do.

形態素解析部32は、入力部10において受け付けた日本語で記述された入力文に対して、公知の形態素解析器(JUMAN、MeCab等)を利用し、形態素解析(単語区切りと品詞の同定)を行う。本実施の形態においては、JUMANを利用する。 The morpheme analysis unit 32 uses a known morpheme analyzer (such as JUMAN, MeCab) for the input sentence written in Japanese accepted by the input unit 10 and performs morpheme analysis (word break and part of speech identification). Do. In this embodiment, JUMAN is used.

文節同定部34は、形態素解析部32において形態素解析された日本語で記述された文に対して、文節の同定を行う。具体的には、本実施の形態においては、公知の日本語解析器(KNP)を利用して、形態素解析された日本語で記述された文に対して構文解析を行い、当該構文解析の結果のうち文節のみの情報を用いて、各文節について、文節内の各要素としての各単語に、その語単独で意味を持つ「内容語」と、内容語に付属する形でのみ使用され、付属する内容語の構文的あるいは意味的役割を表す「機能語」との分類を与える。なお、内容語のみが同定される文節や、機能語のみが同定される文節が存在する可能性がある。また、「内容語」と「機能語」との分類は、機能語を「助詞及び助動詞」などの特定の品詞に固定した規則を用いて機能語の同定を行ってもよいし、コーパスから学習した分類器を利用してもよい。   The phrase identifying unit 34 identifies a phrase for a sentence described in Japanese that has been morphologically analyzed by the morphological analyzer 32. Specifically, in the present embodiment, a known Japanese analyzer (KNP) is used to parse a sentence written in Japanese that has been morphologically analyzed, and the result of the parse analysis. Using only the clause information, for each clause, each word as an element in the clause is used only as a "content word" that has meaning in the word alone and in the form attached to the content word. A classification of “function words” representing the syntactic or semantic role of the content words to be given. There may be a phrase in which only the content word is identified or a phrase in which only the function word is identified. The classification of “content words” and “function words” may be performed by identifying function words using rules in which the function words are fixed to specific parts of speech such as “particles and auxiliary verbs”, or learning from a corpus. You may use the classifier.

なお、公知の日本語解析器(CaboCha等)を利用して、文節の同定を行ってもよいし、文「助詞などの機能語で分割する」というような簡単な規則を用いて、文節の同定を行ってもよい。   The phrase may be identified using a known Japanese analyzer (CaboCha, etc.), or the phrase may be identified using a simple rule such as the sentence “divide by a functional word such as a particle”. Identification may be performed.

並列同定部36は、文節同定部34において同定された日本語で記述された入力文の各文節から、並列の関係となる文節の組み合わせを同定する。本実施の形態においては、文節同定部34において取得した公知の日本語解析器(KNP等)による構文解析の結果を利用する。なお、並列の関係となる文節の組み合わせの同定は、接続詞や接続助詞に基づく規則を用いてもよいし、並列構造解析プログラムを用いてもよい。   The parallel identification unit 36 identifies a combination of clauses that have a parallel relationship from each clause of the input sentence described in Japanese identified by the clause identification unit 34. In the present embodiment, the result of syntax analysis by a known Japanese analyzer (KNP or the like) acquired by the phrase identification unit 34 is used. Note that the combination of clauses that are in parallel relation may be identified using rules based on conjunctions and conjunctions, or using a parallel structure analysis program.

文分割部38は、日本語で記述された入力文について、句読点で、当該文を仮想的に分割し、複数の部分文を得る。具体的には、文節同定部34において取得した公知の日本語解析器(KNP等)による構文解析の結果を利用する。これは、日本語では句読点によって、大きく文の構造が分割されることがあり、英語への翻訳においても句読点を跨ぐような長距離の並べ替えを行う必要がないことが多いため、並べ替えは文頭・文末・句読点で挟まれた範囲内に制限すれば十分である場合があるということに基づくものである。そのため、本実施の形態においては、文を仮想的に分割し、複数の部分文に分割することにより、分割点(部分文の範囲)を超えるような並べ替えを行わないように制限させることができる。   The sentence division unit 38 virtually divides the input sentence described in Japanese at punctuation marks to obtain a plurality of partial sentences. Specifically, the result of syntax analysis by a known Japanese analyzer (KNP or the like) acquired by the phrase identification unit 34 is used. This is because, in Japanese, the structure of a sentence may be largely divided by punctuation marks, and there is often no need to perform long-range sorting across punctuation marks in English translation. It is based on the fact that it may be sufficient to limit the range between the beginning, the end of a sentence, and punctuation marks. For this reason, in the present embodiment, the sentence is virtually divided and divided into a plurality of partial sentences, so that rearrangement beyond the division point (partial sentence range) may be restricted. it can.

主部同定部40は、日本語で記述された入力文に含まれる主部を同定する。具体的には、文節同定部34において取得した公知の日本語解析器(KNP等)による構文解析の結果を利用し、格助詞「は」、「が」を含む文節という規則に適合する文節を主部として同定する。なお、主部の同定には「格助詞を用いる」等の規則を用いてもよいし、コーパスから学習した分類器を利用してもよい。また、主部とは、「は」、「が」を含む(主部)文節と、それより前の分割点までの間にある文節すべてを含むものとする。また、「は」と「が」とが両方含まれるような場合は、「は」に相当する主部と、「が」に相当する主部とをそれぞれ別の主部として扱ってもよいし、全体で一つの主部として扱ってもよい。   The main part identifying unit 40 identifies a main part included in an input sentence written in Japanese. Specifically, by using the result of syntactic analysis by a known Japanese analyzer (KNP or the like) acquired by the phrase identifying unit 34, a phrase that conforms to the rule of a phrase including the case particles “ha” and “ga” is selected. Identify as the main part. For identification of the main part, a rule such as “use case particles” may be used, or a classifier learned from a corpus may be used. In addition, the main part includes the (main part) phrase including “ha” and “ga” and all the phrases between the preceding division points. When both “ha” and “ga” are included, the main part corresponding to “ha” and the main part corresponding to “ga” may be treated as different main parts. , It may be treated as one main part as a whole.

並べ替え部50は、言語解析部30で得られた日本語で記述された入力文に含まれる文節の各々と、並列の関係となる文節の組み合わせの同定結果と、主部の同定結果と、部分文への分割結果とを利用して、日本語で記述された文について、部分文の単位において、英語で記述された文の語順に相似するように文節及び文節内の単語を並べ替え、並べ替えられた部分文を結合する。具体的には、以下に示すような処理が行われる。   The reordering unit 50 identifies each of the clauses included in the input sentence described in Japanese obtained by the language analyzing unit 30, the identification result of the combination of clauses in parallel relation, the identification result of the main part, Using the result of segmentation into partial sentences, for sentences written in Japanese, in the partial sentence unit, rearrange the phrases and the words in the phrase so that they are similar to the word order of the sentences written in English, Combine sorted sub-sentences. Specifically, the following processing is performed.

まず、部分文の単位において、主部同定部40において主部と同定された部分について、当該部分に含まれる各文節の順序が反転するように並べ替える。なお、並列同定部36において並列の関係となる文節の組み合わせと同定された文節の組み合わせについては、当該組み合わせに含まれる文節の順序を維持するように並べ替えを行う。なお、主部が複数ある場合には、主部の各々に対して、上記のように並べ替えを行う。   First, in the partial sentence unit, the parts identified as the main part by the main part identifying unit 40 are rearranged so that the order of the phrases included in the part is reversed. Note that the combination of clauses that are in parallel relation with the parallel identification unit 36 and the combination of clauses that are identified are rearranged so as to maintain the order of the clauses included in the combination. When there are a plurality of main parts, the main parts are rearranged as described above.

次に、部分文の単位において、主部同定部40において主部と同定されなかった部分について、当該部分に含まれる各文節の順序が反転するように並べ替える。なお、並列同定部36において並列の関係となる文節の組み合わせと同定された文節の組み合わせについては、当該組み合わせに含まれる文節の順序を維持するように並べ替えを行う。   Next, in the partial sentence unit, the parts that are not identified as the main part by the main part identifying unit 40 are rearranged so that the order of the clauses included in the part is reversed. Note that the combination of clauses that are in parallel relation with the parallel identification unit 36 and the combination of clauses that are identified are rearranged so as to maintain the order of the clauses included in the combination.

次に、部分文の単位において、上記のように並べ替えられた文節の各々について、文節同定部34において同定された、当該文節に含まれる機能語を、当該文節の先頭に移動させるように語順を並べ替える。なお、並列同定部36において文節間の並列の関係となる文節の組み合わせと同定された文節の組み合わせについては、当該組み合わせの最も後方にある文節に含まれる機能語を当該組み合わせの最も前方に位置する文節の先頭に並べ替える。なお、特定の機能語については、並べ替えを行わないとしてもよい。例えば、格助詞の「は」、「が」については、並べ替えを行わないようにしてもよい。   Next, in the partial sentence unit, for each of the phrases rearranged as described above, the word order identified by the phrase identification unit 34 is moved so that the function word included in the phrase is moved to the beginning of the phrase. Sort by. For the combination of phrases identified by the parallel identification unit 36 as a parallel relationship between phrases and the combination of the identified phrases, the function word included in the phrase at the rearmost of the combination is positioned at the forefront of the combination. Rearrange at the beginning of the phrase. Note that the specific function words may not be rearranged. For example, the case particles “ha” and “ga” may not be rearranged.

そして、全ての部分文について、上記のように並べ替えが行われると、並べ替えられた部分文の各々を連結し、入力部10において受け付けた日本語で記述された文の語順の並べ替え結果とする。   When all the partial sentences are rearranged as described above, each of the rearranged partial sentences is connected, and the rearranged result in the word order of the sentences described in Japanese received in the input unit 10 And

翻訳部52は、公知の機械翻訳器を用いて、並べ替え部50において並べ替えられた日本語で記述された入力文を翻訳し、複数の翻訳候補文の中から、モデル記憶部54に記憶されている複数の翻訳モデルと翻訳モデルの各々に対する重みに基づいて、翻訳スコアが最適な翻訳候補文を選択し、出力部90に出力する。なお、翻訳の方法は、非特許文献6(Phillip Koehn, Franz Josef Och, and Daniel Marcu. 2003. Statistical Phrase-based Translation. In Proc. HLT- NAACL, pages 263-270.)の公知の統計的機械翻訳の技術によって実現すればよく、詳細な説明を省略する。   The translation unit 52 translates the input sentence described in Japanese rearranged by the rearrangement unit 50 using a known machine translator, and stores it in the model storage unit 54 from a plurality of translation candidate sentences. Based on the plurality of translation models and the weights for each of the translation models, a translation candidate sentence with the optimum translation score is selected and output to the output unit 90. The translation method is a known statistical machine of Non-Patent Document 6 (Phillip Koehn, Franz Josef Och, and Daniel Marcu. 2003. Statistical Phrase-based Translation. In Proc. HLT-NAACL, pages 263-270.). It may be realized by a translation technique, and detailed description is omitted.

出力部90は、翻訳部52において翻訳された英語で記述された文に、入力前の処理で削除したXMLやHTMLタグなどの復元や追加を行い、出力装置もしくはネットワーク等によって外部に出力する。   The output unit 90 restores or adds the XML or HTML tag deleted in the pre-input process to the sentence described in English translated by the translation unit 52, and outputs it to the outside through an output device or a network.

<翻訳モデル学習装置の構成>
次に、本発明の実施の形態に係る翻訳モデル学習装置の構成について説明する。図2に示すように、本発明の実施の形態に係る翻訳モデル学習装置200は、CPUと、RAMと、後述する翻訳モデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することができる。この翻訳モデル学習装置200は、機能的には図2に示すように入力部210と、演算部220と、出力部290とを備えている。
<Configuration of translation model learning device>
Next, the configuration of the translation model learning device according to the embodiment of the present invention will be described. As shown in FIG. 2, the translation model learning device 200 according to the embodiment of the present invention includes a CPU, a RAM, a ROM for storing a program and various data for executing a translation model learning process routine to be described later, It can comprise with the computer which includes. Functionally, the translation model learning apparatus 200 includes an input unit 210, a calculation unit 220, and an output unit 290 as shown in FIG.

入力部210は、キーボードなどの入力装置から複数の日本語と英語の対訳となっている文対、語句対(対訳データ)の集合である学習用並行コーパスを受け付ける。なお、入力部210は、ネットワーク等を介して外部から入力されたものを受け付けるようにしてもよい。   The input unit 210 accepts a parallel learning corpus that is a set of a plurality of sentence pairs and phrase pairs (parallel translation data) that are translated into Japanese and English from an input device such as a keyboard. Note that the input unit 210 may accept input from the outside via a network or the like.

演算部220は、学習用並行コーパス222と、モデル学習部250と、モデル記憶部270とを備えている。   The arithmetic unit 220 includes a learning parallel corpus 222, a model learning unit 250, and a model storage unit 270.

学習用並行コーパス222は、入力部210において受け付けた学習用並行コーパスが記憶されている。なお、学習用並行コーパスは、日本語と英語の対訳文が同じ行数の位置に記載されたテキストファイルである。   The learning parallel corpus 222 stores the learning parallel corpus received by the input unit 210. The learning parallel corpus is a text file in which Japanese and English translations are written at the same number of lines.

モデル学習部250は、学習データ言語解析部252と、学習データ並べ替え部254と、モデル用並行コーパス256と、翻訳モデル学習部258と、翻訳部260と、モデル重み学習部262と、を備えている。モデル学習部250は、学習用並行コーパス222に記憶されている、学習用並行コーパスを利用して統計的な翻訳モデル及びモデル重みを学習し、モデル記憶部270に記憶する。   The model learning unit 250 includes a learning data language analysis unit 252, a learning data rearrangement unit 254, a model parallel corpus 256, a translation model learning unit 258, a translation unit 260, and a model weight learning unit 262. ing. The model learning unit 250 learns statistical translation models and model weights using the learning parallel corpus stored in the learning parallel corpus 222 and stores them in the model storage unit 270.

学習データ言語解析部252は、言語解析部30と同様の形態素解析部、文節同定部、並列同定部、文分割部、及び主部同定部(図示省略)を含み、学習用並行コーパスに含まれる日本語及び英語の対訳データ毎に、日本語及び英語の言語解析を行う。日本語の言語解析は、翻訳装置100の言語解析部30で行われる言語解析と同一の言語解析(形態素解析、文節の同定、並列関係となる文節の組み合わせの同定、文の分割、及び主部の同定)を行う。一方、英語の言語解析は単語区切りの同定を行う。英語は通常単語毎に分割されているため、文末記号等を切り出すのみでもよいし、その他当該分野において一般的に用いられる単語分割方法を利用しても良い。   The learning data language analysis unit 252 includes a morpheme analysis unit, a phrase identification unit, a parallel identification unit, a sentence division unit, and a main part identification unit (not shown) similar to the language analysis unit 30, and is included in the learning parallel corpus. Perform Japanese and English language analysis for each bilingual data in Japanese and English. Japanese language analysis is the same language analysis as the language analysis performed by the language analysis unit 30 of the translation apparatus 100 (morpheme analysis, phrase identification, phrase combination identification in parallel relation, sentence division, and main part Identification). On the other hand, English language analysis identifies word breaks. Since English is usually divided for each word, it is possible to cut out only the end-of-sentence symbol or the like, or any other word division method generally used in this field may be used.

学習データ並べ替え部254は、学習データ言語解析部252において言語解析された複数の対訳データ毎に、対訳データに含まれる日本語の文又は語句に対して、翻訳装置100の並べ替え部50と同様に、部分文の単位において文節及び文節内の単語を並べ替え、連結することによって、語順を並べ替える。学習データ並べ替え部254は、並べ替えられた日本語で記述された文又は語句と、対応する対訳データに含まれる英語で記述された文又は語句(単語に区切られたもの)とを併せてモデル用並行コーパスとしてモデル用並行コーパス256に各々記憶する。   The learning data rearranging unit 254 is configured to perform the sorting with the rearranging unit 50 of the translation device 100 on the Japanese sentence or the phrase included in the bilingual data for each of a plurality of bilingual data analyzed by the learning data language analyzing unit 252. Similarly, the order of words is rearranged by rearranging and connecting phrases and words in the phrases in the unit of partial sentences. The learning data rearrangement unit 254 combines the rearranged sentence or phrase described in Japanese and the sentence or phrase described in English (separated into words) included in the corresponding parallel translation data. Each of them is stored in the model parallel corpus 256 as a model parallel corpus.

モデル用並行コーパス256は、学習データ並べ替え部254において並べ替えられた日本語で記述された文又は語句と、対応する対訳データに含まれる英語で記述された文又は語句(単語に区切られたもの)とを併せた対訳データの集合をモデル用並行コーパスとして記憶している。   The model parallel corpus 256 includes a sentence or phrase written in Japanese sorted by the learning data sorting unit 254 and a sentence or phrase written in English included in the corresponding parallel translation data (delimited by words). A parallel translation data set is stored as a parallel corpus for models.

翻訳モデル学習部258は、モデル用並行コーパス256に記憶されている対訳データの集合に基づいて、複数の統計的な翻訳モデルを学習し、モデル記憶部270に記憶する。統計的な翻訳モデルには、非特許文献6に代表される統計的機械翻訳技術で利用される「語句翻訳モデル」、「語句並べ替えモデル」、「言語モデル」等があり、機械翻訳の制約として適宜その構成を選択可能である。学習の方法は非特許文献6などが広く知られているが、本実施の形態においては、特定の方法に限定されず適用可能である。   The translation model learning unit 258 learns a plurality of statistical translation models based on the set of parallel translation data stored in the model parallel corpus 256 and stores it in the model storage unit 270. Statistical translation models include “phrase translation model”, “phrase rearrangement model”, “language model” and the like used in statistical machine translation techniques represented by Non-Patent Document 6, and restrictions on machine translation. As appropriate, the configuration can be selected. As a learning method, Non-Patent Document 6 or the like is widely known, but the present embodiment is not limited to a specific method and can be applied.

例えば、翻訳モデル学習部258は、モデル用並行コーパス256に記憶されている日本語で記述された文又は語句と、英語で記述された文又は語句からなる対訳データに基づいて、統計的な語句翻訳モデルと語句並べ替えモデルの各々を学習する。また、モデル用並行コーパス256に記憶されている英語で記述された文又は語句に基づいて、言語モデルを学習する。   For example, the translation model learning unit 258 uses a statistical phrase based on bilingual data including a sentence or phrase written in Japanese and a sentence or phrase written in English stored in the model parallel corpus 256. Learn each of translation model and phrase rearrangement model. Further, a language model is learned based on sentences or phrases described in English stored in the model parallel corpus 256.

翻訳部260は、重み学習用データであるモデル用並行コーパス256に記憶されている日本語の文又は語句の各々について、公知の機械翻訳器と、モデル記憶部270に記憶されている複数の翻訳モデル及び複数の翻訳モデルの各々に対する重みと、を用いて複数の翻訳候補を作成する。例えば、モデル記憶部270に記憶されている翻訳モデルの各々に対する重みを用いて翻訳スコア(例えば、各翻訳モデルのスコアの重み付き加算値)を算出し、算出された翻訳スコアが一定の値よりも大きい翻訳候補のみを翻訳候補として抽出する。   The translation unit 260 uses a known machine translator and a plurality of translations stored in the model storage unit 270 for each Japanese sentence or phrase stored in the model parallel corpus 256 that is weight learning data. A plurality of translation candidates are created using the model and weights for each of the plurality of translation models. For example, a translation score (for example, a weighted addition value of each translation model score) is calculated using a weight for each translation model stored in the model storage unit 270, and the calculated translation score is determined from a certain value. Only translation candidates having a larger value are extracted as translation candidates.

モデル重み学習部262は、重み学習用データの複数の翻訳候補と、モデル用並行コーパス256に記憶されている当該重み学習用データに対応する英語で記述された文又は語句(正解翻訳)とに基づいて、翻訳部260において抽出された各翻訳候補に対する翻訳評価尺度(例えば、BLEU値)を算出する。   The model weight learning unit 262 includes a plurality of translation candidates for weight learning data, and sentences or phrases (correct translation) written in English corresponding to the weight learning data stored in the model parallel corpus 256. Based on this, a translation evaluation scale (for example, BLEU value) for each translation candidate extracted by the translation unit 260 is calculated.

そして、モデル重み学習部262は、翻訳部260において抽出された翻訳候補の各々の翻訳評価尺度に基づいて、良い翻訳である翻訳候補ほど、モデル記憶部270に記憶されている翻訳モデルの各々に対する重みを用いて算出される翻訳スコア(例えば、各翻訳モデルのスコアの重み付き加算値)が高くなるように、翻訳モデルの各々に対する重みを最適化し、翻訳モデルの各々に対する重みをモデル記憶部270に記憶する。   Then, based on the translation evaluation scales of the translation candidates extracted by the translation unit 260, the model weight learning unit 262 increases the translation candidate that is a better translation with respect to each of the translation models stored in the model storage unit 270. The weight for each translation model is optimized so that the translation score calculated using the weight (for example, the weighted addition value of the scores of each translation model) becomes high, and the weight for each translation model is assigned to the model storage unit 270. To remember.

上記の翻訳部260において行われる翻訳候補の抽出と、モデル重み学習部262において行われる重みの学習とは、翻訳モデルの各々に対する重みが収束するまで繰り返して行われる。   The translation candidate extraction performed in the translation unit 260 and the weight learning performed in the model weight learning unit 262 are repeatedly performed until the weights for each of the translation models converge.

出力部290は、モデル記憶部270に記憶されている翻訳モデル及びモデル重みを出力する。   The output unit 290 outputs the translation model and model weight stored in the model storage unit 270.

<翻訳モデル学習装置の作用>
次に、本発明の実施の形態に係る翻訳モデル学習装置200の作用について説明する。まず、入力部210により、日本語と英語の対訳となっている文対、語句対(対訳データ)の集合である学習用並行コーパスを受け付け、学習用並行コーパス222に記憶される。そして、翻訳モデル学習装置200のROMに記憶されたプログラムを、CPUが実行することにより、図3に示す翻訳モデル学習処理ルーチンが実行される。
<Operation of translation model learning device>
Next, the operation of the translation model learning device 200 according to the embodiment of the present invention will be described. First, the input unit 210 receives a learning parallel corpus that is a set of sentence pairs and phrase pairs (translation data) that are parallel translations of Japanese and English, and stores them in the learning parallel corpus 222. Then, when the CPU executes the program stored in the ROM of the translation model learning device 200, the translation model learning processing routine shown in FIG. 3 is executed.

まず、ステップS100では、学習用並行コーパス222に記憶されている学習用並行コーパスを読み込む。   First, in step S100, the learning parallel corpus stored in the learning parallel corpus 222 is read.

次に、ステップS102では、ステップS100において読み込んだ学習用並行コーパスに含まれる日本語の文又は語句の各々について、公知の形態素解析器(JUMAN、MeCab等)を利用し、形態素解析(単語区切りと品詞の同定)を行う。   Next, in step S102, for each Japanese sentence or phrase included in the learning parallel corpus read in step S100, a known morphological analyzer (such as JUMAN or MeCab) is used to perform morphological analysis (word breaks and word breaks). Identification of part of speech).

次に、ステップS104では、ステップS102において取得した形態素解析済みの日本語で記述された文又は語句の各々について、公知の日本語解析器(KNP)を利用して構文解析を行い、当該構文解析の結果のうち文節のみの情報を用いて、各文節について、文節内の各要素としての各単語に、「内容語」と「機能語」との分類を与える。   Next, in step S104, each sentence or phrase described in Japanese that has been subjected to morphological analysis obtained in step S102 is parsed using a known Japanese analyzer (KNP), and the parse analysis is performed. Using the information of only the clause among the results, for each clause, a classification of “content word” and “function word” is given to each word as each element in the clause.

次に、ステップS106では、ステップS102において取得した形態素解析済みの日本語で記述された文又は語句の各々について、公知の日本語解析器を利用した構文解析の結果に基づいて、並列の関係となる文節の組み合わせを同定する。   Next, in step S106, for each sentence or phrase described in Japanese that has been subjected to morphological analysis acquired in step S102, based on the result of syntax analysis using a known Japanese analyzer, Identify a combination of phrases.

次に、ステップS108では、ステップS102において取得した形態素解析済みの日本語で記述された文又は語句の各々について、公知の日本語解析器を利用した構文解析の結果に基づいて、句読点で、当該文を仮想的に分割し、複数の部分文を得る。   Next, in step S108, for each sentence or phrase described in Japanese that has been subjected to morphological analysis acquired in step S102, based on the result of syntax analysis using a known Japanese analyzer, The sentence is virtually divided to obtain a plurality of partial sentences.

次に、ステップS110では、ステップS102において取得した形態素解析済みの日本語で記述された文又は語句の各々について、公知の日本語解析器を利用した構文解析の結果を用いて、格助詞「は」、「が」を含む文節という規則に適合する文節を主部として同定する。   Next, in step S110, the case particle "ha" is used for each sentence or phrase described in Japanese obtained in step S102 in morpheme analysis using the result of syntax analysis using a known Japanese analyzer. ”And a phrase that conforms to the rule that includes“ ga ”are identified as the main part.

次に、ステップS112では、ステップS100において読み込んだ学習用並行コーパスに含まれる英語で記述されている文又は語句の各々について、単語区切りの同定を行う。   Next, in step S112, word breaks are identified for each sentence or phrase described in English included in the parallel learning corpus read in step S100.

次に、ステップS114では、ステップS102〜ステップS110までの処理を行った、ステップS100において読み込んだ学習用並行コーパスに含まれる処理対象となる日本語の文又は語句について、ステップS108において取得した処理対象となる部分文に対して、ステップS104において取得した文節の情報、ステップS106において取得した並列の関係となる文節の組み合わせ、及びステップS110において取得した主部の情報に基づいて、並列の関係となる文節の組み合わせについての文節の順序を維持するように、主部に含まれる各文節の順序を反転するように並べ替えると共に、主部とは異なる部分について各文節の順序を反転するように並べ替える。   Next, in step S114, the processing target acquired in step S108 for the Japanese sentence or phrase that is the processing target included in the learning parallel corpus read in step S100, in which the processing from step S102 to step S110 has been performed. For the partial sentence, the parallel relation is obtained based on the phrase information acquired in step S104, the combination of the phrases obtained in parallel in step S106, and the main part information acquired in step S110. To maintain the order of clauses for the combination of clauses, rearrange the order of each clause included in the main part, and rearrange the order of the clauses for parts different from the main part. .

次に、ステップS116では、ステップS114において取得した並べ替えられた各文節について、ステップS104において取得した各文節の各単語の「内容語」と「機能語」との分類に基づいて、当該文節に含まれる機能語を先頭に並べ替えるように文節内の単語を並べ替える。   Next, in step S116, for each of the rearranged phrases acquired in step S114, the phrase is determined based on the classification of “content word” and “function word” of each word acquired in step S104. Rearrange words in the phrase so that the functional words included are sorted first.

次に、ステップS118では、処理対象となる日本語の文又は語句に含まれる全ての部分文についてステップS114〜ステップS116の処理を終了したか否かの判定を行う。処理対象となる日本語の文又は語句に含まれている全ての部分文についてステップS114〜ステップS116の処理を終了した場合には、ステップS120へ移行し、全ての部分文についてステップS114〜ステップS116の処理を終了していない場合には、処理対象となる部分文を変更し、ステップS114へ移行する。   Next, in step S118, it is determined whether or not the processing in steps S114 to S116 has been completed for all partial sentences included in the Japanese sentence or phrase to be processed. When the processing of step S114 to step S116 is completed for all partial sentences included in the Japanese sentence or phrase to be processed, the process proceeds to step S120, and for all partial sentences, step S114 to step S116. If the process is not completed, the partial sentence to be processed is changed, and the process proceeds to step S114.

次に、ステップS120では、ステップS116において取得した並べ替えられた部分文の各々を連結した日本語で記述された文又は語句と、対応する対訳データに含まれる英語で記述された文又は語句(ステップS116で取得したもの)と併せてモデル用並行コーパスとしてモデル用並行コーパス256に記憶する。   Next, in step S120, a sentence or phrase described in Japanese that is obtained by concatenating each of the rearranged partial sentences obtained in step S116, and a sentence or phrase written in English included in the corresponding parallel translation data ( Together with the one acquired in step S116), the model parallel corpus 256 is stored in the model parallel corpus 256.

次に、ステップS122では、ステップS100において読み込んだ学習用並行コーパスに含まれる日本語の文又は語句の全てについて、ステップS114〜ステップS120の処理を終了したか否かを判定する。全ての日本語の文又は語句について、ステップS114〜ステップS120の処理を終了した場合には、ステップS124へ移行し、全ての日本語の文又は語句について、ステップS114〜ステップS120の処理を終了していない場合には、処理対象となる日本語の文又は語句を変更し、ステップS114へ移行する。   Next, in step S122, it is determined whether or not the processing in steps S114 to S120 has been completed for all Japanese sentences or phrases included in the learning parallel corpus read in step S100. When the process of step S114 to step S120 is completed for all Japanese sentences or phrases, the process proceeds to step S124, and the process of step S114 to step S120 is terminated for all Japanese sentences or phrases. If not, the Japanese sentence or phrase to be processed is changed, and the process proceeds to step S114.

次に、ステップS124では、モデル用並行コーパス256に記憶されている日本語で記述された文又は語句と、英語で記述された文又は語句からなる対訳データの集合に基づいて、統計的な語句翻訳モデルと語句並べ替えモデルの各々を学習し、モデル用並行コーパス256に記憶されている英語で記述された文又は語句の各々に基づいて、言語モデルを学習する。そして、学習した各翻訳モデルをモデル記憶部270に記憶する。また、各翻訳モデルの各々に対する重みの初期値をモデル記憶部270に記憶する。   Next, in step S124, based on a set of bilingual data composed of sentences or phrases written in Japanese and sentences or phrases written in English, stored in the model parallel corpus 256, statistical phrases Each of the translation model and the phrase rearrangement model is learned, and the language model is learned based on each sentence or phrase described in English stored in the model parallel corpus 256. Then, each learned translation model is stored in the model storage unit 270. In addition, the initial value of the weight for each translation model is stored in the model storage unit 270.

次に、ステップS126では、ステップS114〜ステップS120において語順を並べ替えた日本語で記述された文又は語句の各々について、公知の機械翻訳器と、上記ステップS124で学習した各翻訳モデルと、モデル記憶部270に記憶されている翻訳モデルの各々に対する重みとを用いて、翻訳スコアに基づいて、複数の翻訳候補を作成する。   Next, in step S126, for each sentence or phrase described in Japanese whose word order is rearranged in steps S114 to S120, a known machine translator, each translation model learned in step S124, and a model A plurality of translation candidates are created based on the translation score using the weights for each translation model stored in the storage unit 270.

次に、ステップS128では、上記ステップS126で作成された複数の翻訳候補の各々について、モデル用並行コーパス256に記憶されている当該翻訳候補に対応する英語で記述された文又は語句(正解翻訳)に基づいて、各翻訳候補に対する翻訳評価尺度を算出する。そして、各翻訳候補の翻訳評価尺度と、各翻訳候補の翻訳スコアとに基づいて、翻訳モデルの各々に対する重みを最適化し、翻訳モデルの各々に対する重みを学習し、モデル記憶部270に記憶する。   Next, in step S128, for each of the plurality of translation candidates created in step S126, a sentence or phrase written in English corresponding to the translation candidate stored in the model parallel corpus 256 (correct translation). Based on the above, a translation evaluation scale is calculated for each translation candidate. Then, based on the translation evaluation scale of each translation candidate and the translation score of each translation candidate, the weight for each translation model is optimized, the weight for each translation model is learned, and stored in the model storage unit 270.

次に、ステップS130では、ステップS128で学習した翻訳モデルの各々に対する重みが収束したか否かを判定する。収束している場合には、処理を終了する。収束していない場合には、ステップS126に移行する。   Next, in step S130, it is determined whether the weights for each of the translation models learned in step S128 have converged. If it has converged, the process ends. If not converged, the process proceeds to step S126.

<翻訳装置の作用>
次に、本発明の実施の形態に係る翻訳装置100の作用について説明する。まず、入力部10により、翻訳モデル学習装置200によって学習された複数の翻訳モデル及び翻訳モデルの各々に対する重みを受け付けモデル記憶部54に記憶される。そして、入力部10により、日本語で記述された文を受け付けると、翻訳装置100のROMに記憶されたプログラムを、CPUが実行することにより、図4に示す翻訳処理ルーチンが実行される。
<Operation of translation device>
Next, the operation of translation apparatus 100 according to the embodiment of the present invention will be described. First, the input unit 10 receives a plurality of translation models learned by the translation model learning device 200 and weights for each of the translation models, and stores them in the model storage unit 54. When a sentence written in Japanese is received by the input unit 10, the translation process routine shown in FIG. 4 is executed by the CPU executing the program stored in the ROM of the translation apparatus 100.

まず、ステップS200では、モデル記憶部54に記憶されている複数の翻訳モデル及び翻訳モデルの各々に対する重みを読み込む。   First, in step S200, a plurality of translation models stored in the model storage unit 54 and weights for each of the translation models are read.

次に、ステップS202では、ステップS102と同様に、入力部10おいて受け付けた日本語で記述された入力文に対して、公知の形態素解析器(JUMAN、MeCab等)を利用し、形態素解析(単語区切りと品詞の同定)を行う。   Next, in step S202, similarly to step S102, a known morphological analyzer (JUMAN, MeCab, etc.) is used for the input sentence described in Japanese accepted by the input unit 10, and morphological analysis ( Word separation and part-of-speech identification).

次に、ステップS204では、ステップS104と同様に、ステップS202において形態素解析された入力文に対して、公知の日本語解析器(KNP)を利用して構文解析を行い、当該構文解析の結果のうち文節のみの情報を用いて、各文節について、文節内の各要素としての各単語に、「内容語」と「機能語」との分類を与える。   Next, in step S204, as in step S104, the input sentence analyzed in step S202 is parsed using a known Japanese analyzer (KNP), and the result of the parse analysis is analyzed. Among them, using only the clause information, for each clause, a classification of “content word” and “function word” is given to each word as each element in the clause.

次に、ステップS206では、ステップS106と同様に、ステップS204において取得した構文解析の結果に基づいて、並列の関係となる文節の組み合わせを同定する。   Next, in step S206, as in step S106, the combination of clauses that are in a parallel relationship is identified based on the result of the syntax analysis acquired in step S204.

次に、ステップS208では、ステップS108と同様に、ステップS204において取得した構文解析の結果に基づいて、公知の日本語解析器を利用した構文解析の結果に基づいて、句読点で、当該文を仮想的に分割し、複数の部分文を得る。   Next, in step S208, as in step S108, based on the result of the syntax analysis acquired in step S204, the sentence is virtualized with punctuation based on the result of syntax analysis using a known Japanese analyzer. To obtain a plurality of partial sentences.

次に、ステップS210では、ステップS110と同様に、ステップS208において取得した文分割された部分文の単位において、ステップS204において取得した構文解析の結果に基づいて、格助詞「は」、「が」を含む文節という規則に適合する文節を主部として同定する。   Next, in step S210, as in step S110, the case particles “ha” and “ga” are based on the result of the syntax analysis acquired in step S204 in the unit of the sentence-segmented partial sentence acquired in step S208. The phrase that conforms to the rule of the phrase including is identified as the main part.

次に、ステップS212では、ステップS208において取得した入力文の処理対象となる部分文に対して、ステップS204において取得した文節の情報、ステップS206において取得した並列の関係となる文節の組み合わせ、及びステップS210において取得した主部の情報に基づいて、並列の関係となる文節の組み合わせについての文節の順序を維持するように、主部に含まれる各文節の順序を反転するように並べ替えると共に、主部とは異なる部分について各文節の順序を反転するように並べ替える。   Next, in step S212, for the partial sentence to be processed in the input sentence acquired in step S208, the phrase information acquired in step S204, the combination of phrases acquired in parallel in step S206, and the step Based on the information of the main part acquired in S210, the order of the clauses included in the main part is rearranged so as to be reversed so as to maintain the order of the clauses for the combination of clauses in parallel relation. Rearrange parts so that the order of each phrase is reversed.

次に、ステップS214では、ステップS212において取得した並べ替えられた各文節について、ステップS204において取得した各文節の各単語の「内容語」と「機能語」との分類に基づいて、当該文節に含まれる機能語を先頭に並べ替えるように文節内の単語を並べ替える。   Next, in step S214, for each of the rearranged phrases acquired in step S212, the phrase is determined based on the classification of “content word” and “function word” of each word of each phrase acquired in step S204. Rearrange words in the phrase so that the functional words included are sorted first.

次に、ステップS216では、入力文に含まれる全ての部分文についてステップS212〜ステップS214の処理を終了したか否かの判定を行う。入力文に含まれている全ての部分文についてステップS212〜ステップS214の処理を終了した場合には、ステップS218へ移行し、全ての部分文についてステップS212〜ステップS214の処理を終了していない場合には、処理対象となる部分文を変更し、ステップS212へ移行する。   Next, in step S216, it is determined whether or not the processing in steps S212 to S214 has been completed for all partial sentences included in the input sentence. When the process from step S212 to step S214 is completed for all partial sentences included in the input sentence, the process proceeds to step S218, and the process from step S212 to step S214 is not completed for all partial sentences. In this case, the partial sentence to be processed is changed, and the process proceeds to step S212.

次に、ステップS218では、ステップS214において取得した並べ替えられた部分文の各々を連結する。   Next, in step S218, each of the rearranged partial sentences acquired in step S214 is connected.

次に、ステップS220において、ステップS218において取得した語順を並べ替えた入力文について、公知の機械翻訳器を用いて翻訳し、複数の翻訳候補文の中から、ステップS200において取得した複数の翻訳モデルと翻訳モデルの各々に対する重みに基づいて、翻訳スコアが最適な翻訳候補文を選択する。   Next, in step S220, the input sentence obtained by rearranging the word order acquired in step S218 is translated using a known machine translator, and a plurality of translation models acquired in step S200 from a plurality of translation candidate sentences. And a translation candidate sentence with an optimal translation score is selected based on the weight for each of the translation models.

次に、ステップS222において、ステップS220において選択した翻訳結果を出力して処理を終了する。   Next, in step S222, the translation result selected in step S220 is output and the process ends.

<翻訳モデル学習装置200の実施例>
次に、約300万文の日本語・英語並行コーパスから統計翻訳モデルの学習を行った実施例について以下説明する。
<Example of Translation Model Learning Device 200>
Next, an embodiment in which a statistical translation model is learned from a Japanese-English parallel corpus of about 3 million sentences will be described below.

翻訳モデル学習装置200の学習データ言語解析部252において、日本語及び英語の言語解析を行う。日本語の言語解析では翻訳装置100の言語解析部30と同一の処理を行い、同様の結果が得られる。英語の言語解析ではMosesに同梱されている単語分割プログラムを利用し、単語分割のみ行う。   The learning data language analysis unit 252 of the translation model learning device 200 performs language analysis of Japanese and English. In the Japanese language analysis, the same processing as the language analysis unit 30 of the translation apparatus 100 is performed, and the same result is obtained. In English language analysis, the word segmentation program bundled with Moses is used, and only word segmentation is performed.

翻訳モデル学習装置200の学習データ並べ替え部254において、並行コーパスの日本語については、翻訳装置100の並べ替え部50と同様の並べ替え処理を行う。   In the learning data rearrangement unit 254 of the translation model learning device 200, the same sort processing as that of the rearrangement unit 50 of the translation device 100 is performed for the Japanese of the parallel corpus.

日本語と英語の並行コーパスは、並べ替えられた日本語の単語列の集合と、英語の単語列の集合に書き換えられる。各単語列の集合は単語ごとに半角空白で区切られた、1行に1文が格納されたテキストファイルである。翻訳モデル学習においては、Mosesで提供されている学習プログラムにより、日本語と英語の単語列の集合を表すテキストファイルから、「語句翻訳モデルDB:phrase-table.gz」「語句並べ替えモデルDB:reordering-table.wbe-msd-bidirectional-fe.gz」を作成する。   The parallel corpus of Japanese and English is rewritten into a sorted set of Japanese word strings and a set of English word strings. Each set of word strings is a text file in which one sentence is stored in one line separated by single-byte spaces for each word. In the translation model learning, a phrase program model DB: phrase-table.gz, phrase rearrangement model DB: from a text file representing a set of Japanese and English word strings by a learning program provided by Moses. reordering-table.wbe-msd-bidirectional-fe.gz ".

また、公知の言語モデル学習プログラムSRILMにより、英語の単語列の集合のテキストファイルから「言語モデルDB:ja.5gram.arpa.gz」を作成する。本実施例では、単語5グラム言語モデルを作成する。   Further, “language model DB: ja.5gram.arpa.gz” is created from a text file of a set of English word strings by a known language model learning program SRILM. In this embodiment, a word 5-gram language model is created.

さらに、モデル間の重みの最適値を決定する「誤り最小化学習」(Minimum Error Rate Training: MERT)と呼ばれる公知の方法(非特許文献7:Franz J. Och. 2003. Minimum error rate training for statistical machine translation.In Proceedings of the 41st annual conference of the Association for Computational Linguistics, pp.160--167, 2003.)によって、各モデルに対する重みを学習し、前記モデルDBの情報と併せて、翻訳プログラム設定ファイルに書き出す。   Furthermore, a known method called “Minimum Error Rate Training: MERT” for determining the optimum value of the weight between models (Non-patent Document 7: Franz J. Och. 2003. Minimum error rate training for statistical machine translation.In Proceedings of the 41st annual conference of the Association for Computational Linguistics, pp.160--167, 2003.) Export to

<翻訳装置100の実施例>
「また、データ保存装置とデータ収集装置がネットワークに接続される。」という日本語文を、翻訳装置100が実装された計算機端末に入力した場合の実施例を以下に示す。
<Example of Translation Device 100>
An example in which a Japanese sentence “a data storage device and a data collection device is connected to a network” is input to a computer terminal on which the translation device 100 is mounted will be described below.

本実施例では日本語の言語解析に公知の日本語形態素解析ソフトウェアJUMAN、及び公知の構文解析ソフトウェアKNPを利用する。本実施例においては、形態素解析、文節同定、及び並列の関係となる文節の組み合わせの同定を一括で行うために、入力部10から入力された日本語文を計算機端末の標準入力からJUMANに入力し、その出力を直接KNPの入力とするように構成している。また、KNP解析結果は図5のように出力される。なお、上記図5では、本実施例で利用しない情報の一部を取り除いて表記している。   In this embodiment, known Japanese morphological analysis software JUMAN and known syntax analysis software KNP are used for Japanese language analysis. In the present embodiment, in order to collectively identify morphological analysis, phrase identification, and combination of phrases in parallel relation, Japanese sentences input from the input unit 10 are input from the standard input of the computer terminal to JUMAN. The output is directly input to the KNP. The KNP analysis result is output as shown in FIG. In FIG. 5, the information that is not used in the present embodiment is partly omitted.

行頭の記号「*」は文節の始まりを示し、その後の数字が係り先の文節(0始まりの文節番号)、係タイプ(Dは通常の修飾、Pは並列)を表す。行頭の記号「+」は続く行に示された単語が内容語であることを示し、前の行に「+」で始まる行のない単語は機能語であることを示している。この解析結果の解釈は図6に示す通りである。なお、上記図6では、本実施の形態では係り受けの情報は利用しないため、文節・並列の関係となる文節の組み合わせ・内容語/機能語の情報のみを示す。   The symbol “*” at the beginning of a line indicates the beginning of a phrase, and the subsequent numbers indicate a related phrase (0-started phrase number) and an engagement type (D is normal modification, P is parallel). The symbol “+” at the beginning of a line indicates that the word indicated in the following line is a content word, and the word without a line starting with “+” in the previous line indicates a function word. The interpretation of the analysis result is as shown in FIG. In FIG. 6, since dependency information is not used in the present embodiment, only the combination of clauses / content words / function words in a phrase / parallel relationship is shown.

また、文分割部38による文分割において、日本語の句読点を分割点として扱うこととすると、当該入力文は、図7のように分割され、2つの部分文を取得する。   Further, in sentence division by the sentence division unit 38, if Japanese punctuation marks are handled as division points, the input sentence is divided as shown in FIG. 7, and two partial sentences are acquired.

そして、主部同定部40による主部同定において、「機能語に格助詞「が」を含む文節」という規則を適用し、図8に示すように「部分文1−文節1」と、これと並列の関係となる「部分文1−文節0」とを併せて主部であると同定される。その他の部分は述部と同定する。   Then, in the main part identification by the main part identification unit 40, a rule of “a phrase including a case particle“ ga ”in a function word” is applied, and as shown in FIG. Together with “partial sentence 1-sentence 0”, which is a parallel relationship, the main part is identified. The other parts are identified as predicates.

翻訳装置100の並べ替え部50は、上記のように、日本語文の文節を並べ替える。本実施例では、上記の日本語文の各部分文の主部と述部の各々について、並列の関係となる文節の組み合わせを除き、各文節の順序を反転するように並べ替える。図9に文節を並べ替えた結果を示す。   As described above, the rearrangement unit 50 of the translation apparatus 100 rearranges the Japanese sentence clauses. In the present embodiment, the main part and the predicate of each partial sentence of the Japanese sentence are rearranged so that the order of the respective clauses is reversed except for the combination of the clauses having a parallel relation. FIG. 9 shows the result of rearranging the phrases.

次に、上記の文節を並べ替えられた日本語文の各部分文についての各文節について、機能語を当該文節の先頭に移動する。ここで、並列の関係となる文節の組み合わせについては、並列の関係となる文節の組み合わせのうち、最後に位置する文節の機能語を並列の関係となる文節の組み合わせの先頭に位置する文節の先頭に移動するという規則を用いる。図10に、並べ替えの結果を示す。   Next, for each clause for each partial sentence of the Japanese sentence in which the above clauses are rearranged, the function word is moved to the head of the relevant sentence. Here, for the combination of clauses that have a parallel relationship, among the combinations of clauses that have a parallel relationship, the function word of the clause that is positioned last is the head of the clause that is positioned at the beginning of the combination of clauses that have a parallel relationship The rule of moving to is used. FIG. 10 shows the result of rearrangement.

最後に、並べ替えられた部分文を結合すると「また、 が データ 保存 装置 と データ 収集 装置 さ れる 接続 に ネットワーク。」という並べ替えられた単語列が得られる。   Finally, by combining the sorted sub-sentences, a sorted word string “also connected to the data storage device and the data collection device connected to the network” is obtained.

翻訳装置100の翻訳部52は、並べ替え部50で並べ替えられた日本語の文を英語に翻訳する。本実施例では、翻訳モデル学習装置200の翻訳モデル学習部258で学習された統計翻訳モデル(句翻訳モデル、句並べ替えモデル、言語モデル)及び各モデルに対する重みを利用し、公知の統計翻訳ソフトウェアMosesを用いた。本実施例においてはMosesの「then , the data storage device and a data collecting device are connected to the network.」との出力結果を出力部90に出力する。   The translation unit 52 of the translation apparatus 100 translates the Japanese sentences rearranged by the rearrangement unit 50 into English. In this embodiment, the statistical translation model (phrase translation model, phrase rearrangement model, language model) learned by the translation model learning unit 258 of the translation model learning device 200 and the weights for each model are used, and known statistical translation software is used. Moses was used. In the present embodiment, the output result of Moses “then, the data storage device and a data collecting device are connected to the network” is output to the output unit 90.

上記の実施例の方法で実現された機械翻訳プログラムは、従来技術で構成された機械翻訳プログラムおよび従来の日本語並べ替え方法に基づく機械翻訳プログラムより高い翻訳性能を示すことが分かった。約300万文の日英並行コーパスで学習された統計モデルを用いた実験において、当該分野で最も一般的に用いられる評価指標BLEU及びRIBESの値が、上記非特許文献4に記載の従来技術で構成された機械翻訳プログラムではそれぞれ、31.44、及び72.88であったのに対し、本実施例の機械翻訳プログラムでは31.84及び74.28を達成している。   It has been found that the machine translation program realized by the method of the above embodiment shows higher translation performance than the machine translation program configured by the prior art and the machine translation program based on the conventional Japanese rearrangement method. In an experiment using a statistical model learned with a Japanese-English parallel corpus of about 3 million sentences, the values of the evaluation indexes BLEU and RIBES that are most commonly used in the field are the conventional techniques described in Non-Patent Document 4 above. The configured machine translation programs were 31.44 and 72.88, respectively, whereas the machine translation program of this embodiment achieved 31.84 and 74.28.

以上説明したように、本発明の実施の形態に係る翻訳装置によれば、主部の各文節の順序を反転するように並べ替え、主部とは異なる部分についての各文節の順序を反転するように並べ替え、各文節の機能語を文節の先頭に並べ替え、並べ替えられた文について翻訳を行うことにより、精度よく翻訳を行うことができる。   As described above, according to the translation apparatus according to the embodiment of the present invention, the order of each phrase in the main part is rearranged so that the order of each phrase in the part different from the main part is inverted. Thus, the function words of each clause are rearranged at the head of the clause, and the rearranged sentences are translated, so that the translation can be performed with high accuracy.

また、日本語から英語への翻訳において、日本語の語順を英語に近い語順に並べ替えることが可能になり、その結果、日本語から英語への翻訳において語順の差が非常に小さくなることから、翻訳がより容易になる。   Also, in the translation from Japanese to English, it is possible to rearrange the Japanese word order to the word order close to English, and as a result, the difference in word order is very small in the translation from Japanese to English. , Making translation easier.

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。   Note that the present invention is not limited to the above-described embodiment, and various modifications and applications are possible without departing from the gist of the present invention.

例えば、日本語で記述された入力文に対して、英語の語順に相似するように語順を並べ替える場合について説明したが、これに限定されるものではなく、他の言語の入力文を用いてもよい。この場合には、第1言語の入力文に対して、第1言語とは異なる第2言語の語順に相似するように語順を並べ替えるようにすればよい。   For example, an input sentence written in Japanese has been described for rearranging the word order so that it resembles the English word order, but the present invention is not limited to this, and input sentences in other languages are used. Also good. In this case, the word order may be rearranged so that the input sentence of the first language is similar to the word order of the second language different from the first language.

また、本実施の形態においては、翻訳装置は、入力文に対して翻訳を行う場合について説明したがこの限りでない。例えば、翻訳装置は、入力句に対して翻訳を行うようにしてもよい。   Moreover, in this Embodiment, although the translation apparatus demonstrated the case where it translated with respect to an input sentence, it is not this limitation. For example, the translation device may translate the input phrase.

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。   Further, in the present specification, the embodiment has been described in which the program is installed in advance. However, the program can be provided by being stored in a computer-readable recording medium or provided via a network. It is also possible to do.

10 入力部
20 演算部
30 言語解析部
32 形態素解析部
34 文節同定部
36 並列同定部
38 文分割部
40 主部同定部
50 並べ替え部
52 翻訳部
54 モデル記憶部
90 出力部
100 翻訳装置
200 翻訳モデル学習装置
210 入力部
220 演算部
222 学習用並行コーパス
250 モデル学習部
252 学習データ言語解析部
254 学習データ並べ替え部
256 モデル用並行コーパス
258 翻訳モデル学習部
260 翻訳部
262 学習部
270 モデル記憶部
290 出力部
DESCRIPTION OF SYMBOLS 10 Input part 20 Arithmetic part 30 Language analysis part 32 Morphological analysis part 34 Phrase identification part 36 Parallel identification part 38 Sentence division part 40 Main part identification part 50 Rearrangement part 52 Translation part 52 Model storage part 90 Output part 100 Translation apparatus 200 Translation Model learning device 210 Input unit 220 Operation unit 222 Learning parallel corpus 250 Model learning unit 252 Learning data language analysis unit 254 Learning data rearrangement unit 256 Model parallel corpus 258 Translation model learning unit 260 Translation unit 262 Learning unit 270 Model storage unit 290 output section

Claims (7)

入力文又は句について、機能語を含む各文節を同定する文節同定部と、
前記入力文又は句の主部を同定する主部同定部と、
前記主部同定部により同定された前記入力文又は句の主部について、前記主部に含まれる各文節の順序を反転するように並べ替え、前記入力文又は句のうち、前記主部とは異なる部分について、各文節の順序を反転するように並べ替え、前記主部について並べ替えられた各文節及び前記主部とは異なる部分について並べ替えられた各文節について、前記文節に含まれる機能語を前記文節の先頭に並べ替えるように、前記文節内の語順を並べ替える並べ替え部と、
を含む、語順並べ替え装置。
For an input sentence or phrase, a phrase identification unit for identifying each phrase including a function word;
A main part identifying unit for identifying the main part of the input sentence or phrase;
The main part of the input sentence or phrase identified by the main part identification part is rearranged so as to reverse the order of each phrase included in the main part, and the main part of the input sentence or phrase is For different parts, the order of each phrase is reversed, and the function words included in the phrase for each phrase sorted for the main part and for each phrase sorted for a part different from the main part A rearrangement unit that rearranges the word order in the clause so that
Including a word order rearrangement device.
前記入力文又は句の各文節から、並列の関係となる文節の組み合わせを同定する並列同定部を更に含み、
前記並べ替え部は、前記並列同定部により同定された並列の関係となる文節の組み合わせについての文節の順序を維持するように、前記主部に含まれる各文節の順序を反転するように並べ替え、前記主部とは異なる部分について各文節の順序を反転するように並べ替え、前記並列の関係となる文節の組み合わせについて、最も後方に位置する文節に含まれる機能語を、最も前方に位置する文節の先頭に並べ替え、前記並列の関係となる文節の組み合わせとは異なる各文節について、前記文節に含まれる機能語を前記文節の先頭に並べ替えるように、前記文節内の語順を並べ替える請求項1記載の語順並べ替え装置。
A parallel identification unit for identifying a combination of clauses in parallel relation from each clause of the input sentence or phrase;
The rearrangement unit rearranges the order of the clauses included in the main part so as to reverse the order of the clauses with respect to the combination of clauses identified in parallel by the parallel identification unit. , Rearrange the order of the clauses in the part different from the main part so that the order of the clauses is reversed, and for the combination of the clauses in the parallel relationship, the function word included in the clause located at the rearmost position Reordering at the beginning of a clause, and reordering the word order within the clause so that the function words included in the clause are reordered at the beginning of the clause for each clause that is different from the combination of clauses in the parallel relationship The word order rearrangement device according to Item 1.
第1特定言語で記述された入力文又は句を、第1特定言語とは異なる第2特定言語で記述された文又は句に翻訳する翻訳装置において、
請求項1又は2記載の語順並べ替え装置によって前記入力文又は句を並べ替えた結果について、複数種類の翻訳モデル及び前記複数種類の翻訳モデルの各々に対する重みに基づいて、前記第2特定言語で記述された文又は句に翻訳する翻訳部
を含む翻訳装置。
In a translation apparatus for translating an input sentence or phrase described in a first specific language into a sentence or phrase described in a second specific language different from the first specific language,
About the result of rearranging the input sentence or phrase by the word order rearrangement device according to claim 1 or 2, in the second specific language based on weights for each of a plurality of types of translation models and the plurality of types of translation models. A translation device including a translation unit that translates a written sentence or phrase.
文節同定部と、主部同定部と、並べ替え部と、を含む語順並べ替え装置における語順並べ替え方法であって、
前記文節同定部が、入力文又は句について、機能語を含む各文節を同定し、
前記主部同定部が、前記入力文又は句の主部を同定し、
前記並べ替え部が、前記主部同定部により同定された前記入力文又は句の主部について、前記主部に含まれる各文節の順序を反転するように並べ替え、前記入力文又は句のうち、前記主部とは異なる部分について、各文節の順序を反転するように並べ替え、前記主部について並べ替えられた各文節及び前記主部とは異なる部分について並べ替えられた各文節について、前記文節に含まれる機能語を前記文節の先頭に並べ替えるように、前記文節内の語順を並べ替える
語順並べ替え方法。
A word order rearrangement method in a word order rearrangement device including a phrase identification unit, a main part identification unit, and a rearrangement unit,
The phrase identifying unit identifies each phrase including a function word for an input sentence or phrase,
The main part identifying unit identifies the main part of the input sentence or phrase;
The reordering unit reorders the main part of the input sentence or phrase identified by the main part identifying part so as to reverse the order of each clause included in the main part, The parts different from the main part are rearranged so as to reverse the order of the clauses, the clauses rearranged for the main part and the clauses rearranged for the parts different from the main part, The word order rearrangement method of rearranging the word order in the clause so that the functional words included in the clause are rearranged at the head of the clause.
翻訳部を含む、第1特定言語で記述された入力文又は句を、第1特定言語とは異なる第2特定言語で記述された文又は句に翻訳する翻訳装置における翻訳方法であって、
前記翻訳部によって、請求項4記載の語順並べ替え方法によって前記入力文又は句を並べ替えた結果について、複数種類の翻訳モデル及び前記複数種類の翻訳モデルの各々に対する重みに基づいて、前記第2特定言語で記述された文又は句に翻訳する
翻訳方法。
A translation method in a translation device for translating an input sentence or phrase described in a first specific language including a translation unit into a sentence or phrase described in a second specific language different from the first specific language,
The result of rearranging the input sentence or phrase by the word order rearranging method according to claim 4 based on a plurality of types of translation models and a weight for each of the plurality of types of translation models. A translation method that translates sentences or phrases written in a specific language.
コンピュータを、請求項1又は請求項2記載の語順並べ替え装置を構成する各部として機能させるためのプログラム。   The program for functioning a computer as each part which comprises the word order rearrangement apparatus of Claim 1 or Claim 2. コンピュータを、請求項3記載の翻訳装置を構成する各部として機能させるためのプログラム。   The program for functioning a computer as each part which comprises the translation apparatus of Claim 3.
JP2014026801A 2014-02-14 2014-02-14 Word order rearrangement device, translation device, method, and program Active JP6040946B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014026801A JP6040946B2 (en) 2014-02-14 2014-02-14 Word order rearrangement device, translation device, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014026801A JP6040946B2 (en) 2014-02-14 2014-02-14 Word order rearrangement device, translation device, method, and program

Publications (2)

Publication Number Publication Date
JP2015153182A JP2015153182A (en) 2015-08-24
JP6040946B2 true JP6040946B2 (en) 2016-12-07

Family

ID=53895341

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014026801A Active JP6040946B2 (en) 2014-02-14 2014-02-14 Word order rearrangement device, translation device, method, and program

Country Status (1)

Country Link
JP (1) JP6040946B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018084952A (en) * 2016-11-24 2018-05-31 国立研究開発法人情報通信研究機構 Automatic translation pattern learning device, automatic translation preprocessor and computer program

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5552101B2 (en) * 2011-09-05 2014-07-16 日本電信電話株式会社 Rearrangement rule learning device, method, and program, and translation device, method, and program

Also Published As

Publication number Publication date
JP2015153182A (en) 2015-08-24

Similar Documents

Publication Publication Date Title
KR102268875B1 (en) System and method for inputting text into electronic devices
US7478033B2 (en) Systems and methods for translating Chinese pinyin to Chinese characters
JP4694111B2 (en) Example-based machine translation system
US6816830B1 (en) Finite state data structures with paths representing paired strings of tags and tag combinations
US8670975B2 (en) Adaptive pattern learning for bilingual data mining
Mori et al. A machine learning approach to recipe text processing
WO2005059771A1 (en) Translation judgment device, method, and program
JP2007241764A (en) Syntax analysis program, syntax analysis method, syntax analysis device, and computer readable recording medium recorded with syntax analysis program
CN112417823B (en) Chinese text word order adjustment and word completion method and system
JP5552101B2 (en) Rearrangement rule learning device, method, and program, and translation device, method, and program
JP6040946B2 (en) Word order rearrangement device, translation device, method, and program
JP5800206B2 (en) Word order rearrangement device, translation device, translation model learning device, method, and program
KR20100062834A (en) Apparatus and method for translation-error post-editing
JP5734917B2 (en) Rearrangement model learning apparatus, method, and program, and translation apparatus, method, and program
KR101092363B1 (en) Method for generating korean connectives in chinese-korean machine translation and its apparatus
JP5780670B2 (en) Translation apparatus, method, and program, and translation model learning apparatus, method, and program
Noya et al. Discriminative learning of two-dimensional probabilistic context-free grammars for mathematical expression recognition and retrieval
JP6083645B2 (en) Word order rearrangement device, translation device, translation model learning device, method, and program
Murawaki et al. Online Japanese Unknown Morpheme Detection using Orthographic Variation.
JP3939264B2 (en) Morphological analyzer
KR101638442B1 (en) Method and apparatus for segmenting chinese sentence
Howlett et al. Dual-path phrase-based statistical machine translation
JP5462894B2 (en) Translation model learning apparatus, method, translation apparatus, method, and program
Ekbal et al. Named entity transliteration
CN114661917A (en) Text amplification method, system, computer device and readable storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151209

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20151209

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160920

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161004

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161024

R150 Certificate of patent or registration of utility model

Ref document number: 6040946

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250