JP5800206B2

JP5800206B2 - 語順並べ替え装置、翻訳装置、翻訳モデル学習装置、方法、及びプログラム

Info

Publication number: JP5800206B2
Application number: JP2013040796A
Authority: JP
Inventors: 克仁須藤; 永田　昌明; 昌明永田; 翔星野; 祐介宮尾
Original assignee: Nippon Telegraph and Telephone Corp; Inter University Research Institute Corp Research Organization of Information and Systems
Current assignee: Nippon Telegraph and Telephone Corp; Inter University Research Institute Corp Research Organization of Information and Systems
Priority date: 2013-03-01
Filing date: 2013-03-01
Publication date: 2015-10-28
Anticipated expiration: 2033-03-01
Also published as: JP2014170296A

Description

本発明は、語順並べ替え装置、翻訳装置、翻訳モデル学習装置、方法、及びプログラムに係り、特に、入力文の語順を並べ替える語順並べ替え装置、翻訳装置、翻訳モデル学習装置、方法、及びプログラムに関する。

言語Ａから言語Ｂへの機械翻訳の処理は、言語Ａの語句から言語Ｂの語句への翻訳と、翻訳された言語Ｂの語句の言語Ｂにおける適切な並べ替えとの２つに大別される。当該分野で広く利用されている統計的翻訳技術においては、大量の対訳文から推定された言語Ａの語句と言語Ｂの語句との対応関係から語句の翻訳と語句の並べ替えを統計的にモデル化し、言語Ａの入力文に対し、それらの統計モデルに基づいて尤もらしい語句の翻訳と語句の並べ替えによって構成される言語Ｂの翻訳文を探索するという方法が採られる。

一般にすべての翻訳文候補を網羅的に探索することは計算量的に非常に困難であるため、各語句の翻訳の候補数を制限し、かつ語句の並べ替えの距離を一定の範囲内に制約することによって実用的な計算量での機械翻訳処理が実現される。

しかし、翻訳の対象となる言語Ａと言語Ｂの組み合わせによっては、対応する語句が大きく異なる順序で現れる可能性があり、そのような言語間の翻訳を正確に行うためには十分に大きな並べ替え距離を考慮した翻訳処理が要求されるため、計算量の増加が避けられないという問題が存在する。

上記問題に対処する技術として、翻訳処理を行う前に言語Ａの語句を対応する言語Ｂの語句の順序に近づけるように並べ替える「事前並べ替え(pre-ordering)」と呼ばれる技術が存在する(特許文献１、非特許文献１)。
また、非特許文献２及び非特許文献３の技術において、日本語から英語への翻訳においても、構文解析を利用して日本語の文節の係り受け構造を推定し、文節の順序を入れ替えることによって英語の語順に近づけることができる。

特開２０１１−１７５５００号公報

Michael Collins, Philipp Koehn, Ivona Kucerova, "Clause Restructuring for Statistical Machine Translation", In Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics, pp. 531-540, 2005 Mamoru Komachi, Yuji Matsumoto, Masaaki Nagata, "Phrase Reordering for Statistical Machine Translation Based on Predicate-Argument Structure", In Proceedings of International Workshop on Spoken Language Translation (IWSLT 2006), 2006 Katsuhito Sudoh, Kevin Duh, Hajime Tsukada, Masaaki Nagata, Xianchao Wu, Takuya Matsuzaki and Jun'ichi Tsujii, "NTT-UT Statistical Machine Translation in NTCIR-9 PatentMT", In Proceedings of NTCIR-9, 2011.

非特許文献１は独語から英語、特許文献１は英語から日本語への翻訳を対象としており入力文の言語(言語Ａ)の語句を翻訳後の言語(言語Ｂ)の対応する語句の順序に近づけるように並べ替える規則を利用している。これらの技術は言語Ａ側の構文解析と適切な規則を利用することによって並べ替えをかなり正確に行うことができる反面、言語Ａや言語Ｂが異なれば必要な規則も異なるため、新たに規則を定義する必要があるという問題がある。

非特許文献２は係り受け構造に加え、述語項構造解析と呼ばれる述語と主語や目的語の関係を推定する技術を利用して主語や目的語を同定し、英語の主語、動詞、目的語の順になるように主語や目的語を移動するための規則を利用している。非特許文献３は係り受け構造と、助詞を利用して主語や目的語を推定し、非特許文献２と同様の並べ替え規則を利用している。これらの方法は文節の順序を英語に近い順に並べることが期待できるが、文節内の語順は変えないため、「東京に着いた」という句は「着いた東京に」という語順になるに留まり、対応する英語の"arrived at Tokyo"とは助詞「に」、前置詞"at"の位置に違いが残るという問題がある。

本発明では、上記問題点を解決するために成されたものであり、入力文の語順を精度よく並べ替えることできる語順並べ替え装置、翻訳装置、翻訳モデル学習装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、第１の発明に係る語順並べ替え装置は、第１言語で記述された入力文の語順を、第１言語とは異なる第２言語で記述された文に近い語順に並べ替える語順並べ替え装置において、入力文の各文節について、前記文節内の各要素を２種類以上の要素に分類する構文解析部と、前記文節毎に、前記入力文に対する係り受け解析の結果に基づいて、予め定められた前記第１言語の並べ替え規則に従って、前記構文解析部により分類された前記２種類以上の要素の順序を並べ替えるか否かを判断し、前記２種類以上の要素の順序を並べ替えることにより、前記入力文の語順を並べ替える並べ替え部と、を含んで構成されている。

第２の発明に係る語順並べ替え方法は、構文解析部と、並べ替え部とを含む、第１言語で記述された入力文の語順を、第１言語とは異なる第２言語で記述された文に近い語順に並べ替える語順並べ替え装置の語順並べ替え方法であって、前記構文解析部は、入力文の各文節について、前記文節内の各要素を２種類以上の要素に分類し、前記並べ替え部は、前記文節毎に、前記入力文に対する係り受け解析の結果に基づいて、予め定められた前記第１言語の並べ替え規則に従って、前記構文解析部により分類された前記２種類以上の要素の順序を並べ替えるか否かを判断し、前記２種類以上の要素の順序を並べ替えることにより、前記入力文の語順を並べ替える。

第１の発明及び第２の発明によれば、構文解析部によって、入力文の各文節内の要素を２種類以上の要素に分類し、並べ替え部によって、分類された２種類以上の要素の順序を並べ替える。

このように、第１の発明及び第２の発明によれば、入力文の文節内の各要素を２種類以上の要素に分類し、分類された２種類以上の要素の順序を並べ替えることにより、入力文の語順を精度良く並べ替えを行うことができる。

第３の発明に係る語順並べ替え装置は、日本語で記述された入力文の語順を、日本語とは異なる特定言語で記述された文に近い語順に並べ替える語順並べ替え装置において、前記入力文の各文節について、前記文節内の各要素を２種類以上の要素に分類する構文解析部と、日本語で記述された文の文節の順序を前記特定言語で記述された文の文節の順序に並べ替えるための予め定められた文節並べ替え規則に従って、前記入力文の文節の順序を並べ替え、前記並べ替えた前記入力文について、前記文節毎に、前記入力文に対する係り受け解析の結果に基づいて、日本語で記述された文の文節の前記２種類以上の要素の順序を前記特定言語で記述された文の文節の前記２種類以上の要素の順序に並べ替えるための予め定められた要素並べ替え規則に従って、前記構文解析部により分類された前記２種類以上の要素の順序を並べ替えるか否かを判断し、前記２種類以上の要素の順序を並べ替えることにより、前記入力文の語順を並べ替える並べ替え部と、を含んで構成されている。

第４の発明に係る語順並べ替え方法は、構文解析部と、並べ替え部と、を含み、日本語で記述された入力文の語順を、日本語とは異なる特定言語で記述された文に近い語順に並べ替える語順並べ替え装置の語順並べ替え方法であって、前記構文解析部は、前記入力文の各文節について、前記文節内の各要素を２種類以上の要素に分類し、前記並べ替え部は、日本語で記述された文の文節の順序を前記特定言語で記述された文の文節の順序に並べ替えるための予め定められた文節並べ替え規則に従って、前記入力文の文節の順序を並べ替え、前記並べ替えた前記入力文について、前記文節毎に、前記入力文に対する係り受け解析の結果に基づいて、日本語で記述された文の文節の前記２種類以上の要素の順序を前記特定言語で記述された文の文節の前記２種類以上の要素の順序に並べ替えるための予め定められた要素並べ替え規則に従って、前記構文解析部により分類された前記２種類以上の要素の順序を並べ替えるか否かを判断し、前記２種類以上の要素の順序を並べ替えることにより、前記入力文の語順を並べ替える。

第３の発明及び第４の発明によれば、構文解析部によって、日本語で記述された入力文の各文節内の各要素を２種類以上の要素に分類し、並べ替え部によって、予め定められた文節並べ替え規則に従って、入力文の文節の順序を並べ替え、予め定められた要素並べ替え規則に従って、分類された２種類以上の要素の順序を並べ替える。

このように、第３の発明及び第４の発明によれば、日本語で記述された入力文の各文節内の各要素を２種類以上の要素に分類し、予め定められた文節並べ替え規則に従って、入力文の文節の順序を並べ替え、予め定められた要素並べ替え規則に従って、分類された２種類以上の要素の順序を並べ替えることにより、入力文の語順を精度良く並べ替えを行うことが出来る。

第５の発明に係る翻訳装置は、日本語で記述された入力文を、日本語とは異なる特定言語で記述された文に翻訳する翻訳装置において、前記入力文の各文節について、前記文節内の各要素を２種類以上の要素に分類する構文解析部と、日本語で記述された文の文節の順序を前記特定言語で記述された文の文節の順序に並べ替えるための予め定められた文節並べ替え規則に従って、前記入力文の文節の順序を並べ替え、前記並べ替えた前記入力文について、前記文節毎に、日本語で記述された文の文節の前記２種類以上の要素の順序を前記特定言語で記述された文の文節の前記２種類以上の要素の順序に並べ替えるための予め定められた要素並べ替え規則に従って、前記構文解析部により分類された前記２種類以上の要素の順序を並べ替えることにより、前記入力文の語順を並べ替える並べ替え部と、複数種類の翻訳モデル及び前記複数種類の翻訳モデルの各々に対する重みに基づいて、前記並べ替え部により要素の順序を並べ替えられた前記入力文を、前記特定言語で記述された文に翻訳する翻訳部と、を含んで構成されている。

第６の発明に係る翻訳方法は、構文解析部と、並べ替え部と、翻訳部と、を含み、日本語で記述された入力文を、日本語とは異なる特定言語で記述された文に翻訳する翻訳装置の翻訳方法であって、前記構文解析部は、前記入力文の各文節について、前記文節内の各要素を２種類以上の要素に分類し、前記並べ替え部は、日本語で記述された文の文節の順序を前記特定言語で記述された文の文節の順序に並べ替えるための予め定められた文節並べ替え規則に従って、前記入力文の文節の順序を並べ替え、前記並べ替えた前記入力文について、前記文節毎に、日本語で記述された文の文節の前記２種類以上の要素の順序を前記特定言語で記述された文の文節の前記２種類以上の要素の順序に並べ替えるための予め定められた要素並べ替え規則に従って、前記構文解析部により分類された前記２種類以上の要素の順序を並べ替えることにより、前記入力文の語順を並べ替え、前記翻訳部は、複数種類の翻訳モデル及び前記複数種類の翻訳モデルの各々に対する重みに基づいて、前記並べ替え部により要素の順序を並べ替えられた前記入力文を、前記特定言語で記述された文に翻訳する。

第５の発明及び第６の発明によれば、構文解析部によって、入力文の各文節内の各要素を２種類以上の要素に分類し、並べ替え部によって、予め定められた文節並べ替え規則に従って、入力文の文節の順序を並べ替え、予め定められた要素並べ替え規則に従って、分類された２種類以上の要素の順序を並べ替え、翻訳部によって、入力文を日本語とは異なる特定言語で記述された文に翻訳する。

このように、第５の発明及び第６の発明によれば、入力文の各文節内の各要素を２種類以上の要素に分類し、予め定められた文節並べ替え規則に従って、入力文の文節の順序を並べ替え、予め定められた要素並べ替え規則に従って、分類された２種類以上の要素の順序を並べ替え、入力文を特定言語で記述された文に翻訳することにより、入力文を精度良く翻訳を行うことが出来る。

第７の発明に係る翻訳モデル学習装置は、予め用意された、日本語で記述された文又は語句と、日本語とは異なる特定言語で記述された文又は語句との対である対訳データの集合に基づいて、日本語で記述された文を、前記特定言語で記述された文に翻訳するための複数種類の翻訳モデル及び前記複数種類の翻訳モデルの各々に対する重みを学習する翻訳モデル学習装置において、前記対訳データの集合の各対訳データの日本語で記述された文又は語句の各文節について、前記文節内の各要素を２種類以上の要素に分類する学習データ言語解析部と、日本語で記述された文の文節の順序を前記特定言語で記述された文の文節の順序に並べ替えるための予め定められた文節並べ替え規則に従って、各対訳データの日本語で記述された文又は語句の文節の順序を並べ替え、前記並べ替えた前記文又は語句について、前記文節毎に、前記文又は語句の文節の前記２種類以上の要素の順序を前記特定言語で記述された文又は語句の文節の前記２種類以上の要素の順序に並べ替えるための予め定められた要素並べ替え規則に従って、前記学習データ言語解析部により分類された前記２種類以上の要素の順序を並べ替えることにより、前記文又は語句の語順を並べ替える学習データ並べ替え部と、前記学習データ並べ替え部により要素の順序を並べ替えられた各対訳データの日本語で記述された文又は語句と、各対訳データの前記特定言語で記述された文又は語句とに基づいて、前記複数種類の翻訳モデルを学習する翻訳モデル学習部と、前記学習データ並べ替え部により要素の順序を並べ替えられた各対訳データの日本語で記述された文又は語句と、各対訳データの前記特定言語で記述された文又は語句と、前記翻訳モデル学習部により学習された複数種類の翻訳モデルとに基づいて、前記複数種類の翻訳モデルの各々に対する重みを学習するモデル重み学習部と、を含んで構成されている。

第８の発明に係る翻訳モデル学習方法は、学習データ言語解析部と、学習データ並べ替え部と、翻訳モデル学習部と、モデル重み学習部を含み、予め用意された、日本語で記述された文又は語句と、日本語とは異なる特定言語で記述された文又は語句との対である対訳データの集合に基づいて、日本語で記述された文を、前記特定言語で記述された文に翻訳するための複数種類の翻訳モデル及び前記複数種類の翻訳モデルの各々に対する重みを学習する翻訳モデル学習装置の翻訳モデル学習方法であって、前記学習データ言語解析部は、前記対訳データの集合の各対訳データの日本語で記述された文又は語句の各文節について、前記文節内の各要素を２種類以上の要素に分類し、前記学習データ並べ替え部は、日本語で記述された文の文節の順序を前記特定言語で記述された文の文節の順序に並べ替えるための予め定められた文節並べ替え規則に従って、各対訳データの日本語で記述された文又は語句の文節の順序を並べ替え、前記並べ替えた前記文又は語句について、前記文節毎に、前記文又は語句の文節の前記２種類以上の要素の順序を前記特定言語で記述された文又は語句の文節の前記２種類以上の要素の順序に並べ替えるための予め定められた要素並べ替え規則に従って、前記学習データ言語解析部により分類された前記２種類以上の要素の順序を並べ替えることにより、前記文又は語句の語順を並べ替え、前記翻訳モデル学習部は、前記学習データ並べ替え部により要素の順序を並べ替えられた各対訳データの日本語で記述された文又は語句と、各対訳データの前記特定言語で記述された文又は語句とに基づいて、前記複数種類の翻訳モデルを学習し、前記モデル重み学習部は、前記学習データ並べ替え部により要素の順序を並べ替えられた各対訳データの日本語で記述された文又は語句と、各対訳データの前記特定言語で記述された文又は語句と、前記翻訳モデル学習部により学習された複数種類の翻訳モデルとに基づいて、前記複数種類の翻訳モデルの各々に対する重みを学習する。

第７の発明に及び第８の発明によれば、学習データ言語解析部によって、各対訳データの日本語で記述された文又は語句の各文節内の各要素を２種類以上の要素に分類し、学習データ並べ替え部によって、予め定められた文節並べ替え規則に従って、各対訳データの日本語で記述された文又は語句の文節の順序を並べ替え、予め定められた要素並べ替え規則に従って、分類された２種類以上の要素の順序を並べ替え、翻訳モデル学習部によって、要素の順序を並べ替えられた各対訳データの日本語で記述された文又は語句と、各対訳データの特定言語で記述された文又は語句とに基づいて、複数種類の翻訳モデルを学習し、モデル重み学習部によって、複数種類の翻訳モデルの各々に対する重みを学習する。

このように、第７の発明及び第８の発明によれば、日本語で記述された文又は語句の各文節内の各要素を２種類以上の要素に分類し、予め定められた文節並べ替え規則に従って、日本語で記述された文又は語句の文節の順序を並べ替え、予め定められた要素並べ替え規則に従って、分類された２種類以上の要素の順序を並べ替えることによって語順を並べ替え、語順を並べ替えた日本語で記述された文又は語句と、対応する対訳データに含まれる特定言語で記述された文又は語句とに基づいて、複数種類の翻訳モデル及び複数種類の翻訳モデルの各々に対する重みを学習することにより、精度良く翻訳を行うことが出来る翻訳モデルを学習することが出来る。

また、第１の発明において、文節内の各要素を、内容語と機能語とに分類してもよい。

また、第１の発明において、入力文に対する係り受け解析の結果から得られる文節間の係り受け関係に基づいて、文節毎に、文節の前記２種類以上の要素の順序を並べ替えるか否かを判断し、２以上の要素の順序を並べ替えてもよい。

また、第１の発明において、文節毎に、入力文に対する係り受け解析の結果から得られる文節の係り元及び係り先の少なくとも一方の文節の要素の構成に基づいて、２種類以上の文節の要素の順序を並べ替えるか否かを判断し、２種類以上の要素の順序を並べ替えてもよい。

また、第１の発明は、文節毎に、入力文に対する係り受け解析の結果から得られる文節間の係り受け関係と、文節の係り元及び係り先の少なくとも一方の文節の要素の構成とに基づいて、文節の２種類以上の要素の順序を並べ替えるか否かを判断し、２種類以上の要素の順序を並べ替えてもよい。

また、第１の発明は、文節毎に、文節の機能語が文節の先頭に配置されるように、文節の２種類以上の要素の順序を並べ替えてもよい。

また、本発明のプログラムは、コンピュータを、上記の語順並べ替え装置、翻訳装置、翻訳モデル学習装置を構成する各部として機能させるためのプログラムである。

以上説明したように、本発明の語順並べ替え装置、方法、及びプログラムによれば、入力文の文節内の各要素を２種類以上の要素に分類し、分類された２種類以上の要素の順序を並べ替えることにより、入力文の語順を精度良く並べ替えを行うことができる。

また、本発明の翻訳装置、方法、及びプログラムによれば、入力文の各文節内の各要素を２種類以上の要素に分類し、予め定められた文節並べ替え規則に従って、入力文の文節の順序を並べ替え、予め定められた要素並べ替え規則に従って、分類された２種類以上の要素の順序を並べ替え、入力文を特定言語で記述された文に翻訳することにより、入力文を精度良く翻訳を行うことが出来る。

また、本発明の翻訳モデル学習装置、方法、及びプログラムによれば、日本語で記述された文又は語句の各文節内の各要素を２種類以上の要素に分類し、予め定められた文節並べ替え規則に従って、日本語で記述された文又は語句の文節の順序を並べ替え、予め定められた要素並べ替え規則に従って、分類された２種類以上の要素の順序を並べ替えることによって語順を並べ替え、語順を並べ替えた日本語で記述された文又は語句と、対応する対訳データに含まれる特定言語で記述された文又は語句とに基づいて、複数種類の翻訳モデルを学習し、語順を並べ替えた日本語で記述された文又は語句と、対応する対訳データに含まれる特定言語で記述された文又は語句と、複数種類の翻訳モデルとに基づいて、複数種類の翻訳モデルの各々に対する重みを学習することにより、精度良く翻訳を行うことが出来る翻訳モデルを学習することが出来る。

本発明の実施の形態に係る翻訳装置の構成を示す概略図である。本発明の実施の形態に係る翻訳モデル学習装置の構成を示す概略図である。本発明の実施の形態に係る翻訳モデル学習装置における翻訳モデル学習処理ルーチンの内容を示すフローチャートである。本発明の実施の形態に係る翻訳装置における翻訳処理ルーチンの内容を示すフローチャートである。ＫＮＰの解析結果を示す図である。ＫＮＰの解析結果の解釈を示す図である。文節の並べ替え規則に従い文節を並べ替えた例を示す図である。文節内要素を並べ替えた例を示す図である。英語学習データの単語分割結果を示す図である。日本語学習データの並べ替え結果を示す図である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜発明の概要＞
本発明の実施の形態では、日本語から英語への翻訳を対象とした事前並べ替えのための、日本語の構文解析結果に対して適用する並べ替え規則を提供し、それに基づく日本語から英語への機械翻訳を実現する。本発明の実施の形態では、並べ替え規則に基づいて、文節の順序を入れ替えるだけでなく、例えば、英語の前置詞の位置に合うよう助詞等の機能語を当該文節の先頭に移動させるように、並べ替え規則に基づいて文節内の単語についても並べ替え、従来の技術よりさらに英語に近い語順に日本語を並べ替えられるようにする。なお、本発明の実施の形態において、その語単独で意味を持つ語を「内容語」、内容語に付属する形でのみ使用され、付属する内容語の構文的あるいは意味的役割を表す語を「機能語」とする。

＜翻訳装置の構成＞
本発明の実施の形態に係る翻訳装置について説明する。図１に示すように、本発明の実施の形態に係る翻訳装置１００は、ＣＰＵと、ＲＡＭと、後述する翻訳処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この翻訳装置１００は、機能的には図１に示すように入力部１０と、演算部２０と、出力部７０とを備えている。

入力部１０は、キーボードなどの入力装置から日本語の入力文を受け付ける。入力される文は前処理としてＨＴＭＬやＸＭＬなどのタグの除去、表記の正規化等がされ、入力時においては適切な入力形式に変換された状態で入力される。なお、入力部１０は、ネットワーク等を介して外部から入力されたものを受け付けるようにしてもよい。

演算部２０は、言語解析部３０と、並べ替え部４０と、翻訳部４２と、モデル記憶部４４と、を備えている。

言語解析部３０は、形態素解析部３２と、構文解析部３４と、述語項構造解析部３６と、を備えている。言語解析部３０は、入力部１０において受け付けた日本語で記述された入力文に対して形態素解析、構文解析、及び述語項構造解析を行う。

形態素解析部３２は、入力部１０において受け付けた日本語で記述された入力文に対して、公知の形態素解析器（ＪＵＭＡＮ、ＭｅＣａｂ等）を利用し、形態素解析（単語区切りと品詞の同定）を行う。

構文解析部３４は、形態素解析部３２において形態素解析された日本語で記述された文に対して構文解析を行う。本実施の形態においては、日本語の文節単位での係り受け構造を利用するため、公知の係り受け解析器（ＫＮＰ、ＣａｂｏＣｈａ等）を用いて、構文解析を行う。これらの係り受け解析器では、文節間の係り受けを解析すると共に、文節内の各要素としての各単語に「内容語」と「機能語」の分類を与える。なお、「内容語」と「機能語」が２種類以上の要素の一例であり、内容語の分類のみが与えられる文節や、機能語の分類のみが与えられる文節が存在する可能性がある。

述語項構造解析部３６は、構文解析部３４において構文解析された日本語の文に対して、公知の述語項構造解析器（ＫＮＰ、ＳｙｎＣｈａ等）を利用し、述語項構造解析を行う。ここで、述語項構文解析とは、述語（動詞、形容詞、動作を表す名詞）に対し、日本語であれば「ガ格」と呼ばれる主語、「ヲ格」と呼ばれる目的語、「ニ格」と呼ばれる対象を表す語句を同定することである。述語項構造解析により、文節間の係り受けは、係り元と係り先という情報だけでなく、その係り受けがどのような構文的役割を表すかを求めることができる。

並べ替え部４０は、言語解析部３０で得られた日本語で記述された文についての、日本語の係り受け構造及び述語項構造を利用して、日本語で記述された文について、英語で記述された文の語順に相似するように文節及び文節内の単語を並べ替える。具体的には、以下に示す、日本語で記述された文の文節の順序を英語で記述された文の文節の順序に並べ替えるための予め定められた文節の並べ替え規則により文節を並べ替え、その後に、日本語で記述された文の文節の「内容語」と「機能語」の順序を英語で記述された文の文節の「内容語」と「機能語」の順序に並べ替えるための予め定められた単語の並べ替え規則により各文節の単語を並べ替える。なお、単語の並べ替え規則が要素並べ替え規則の一例である。

英語では述語は主語の直後に置かれるため、上記非特許文献２と同様の以下の（１）〜（３）の文節の並べ替え規則に従って述語文節を並べ替える。
（１）述語文節を主語文節（ガ格）の直後に移動する。
（２）主語文節がない場合は目的語文節（ヲ格）及び対象文節（ニ格）のうちの何れか前方にあるものの直前に述語文節を移動する。
（３）述語文節が動詞連用形の文節である場合、当該述語文節を係り先の単語（被修飾語）の直後に移動する。

また、主語文節、目的語文節、対象文節のいずれも得られない場合には、例外として、以下の（４）の文節の並べ替え規則を利用する。
（４）主語文節、目的語文節、対象文節のいずれも存在しない場合は、述語文節を文末から数えて２番目になる位置に移動する。
なお、係り受け構造は階層的な構造であるため、係り受けの各階層において、係り先となる述語文節を上記文節の並べ替え規則に従って移動させる操作を行う。

最後に、各文節の単語（内容語、機能語）を当該文節内で以下の（５）の単語の並べ替え規則に従って並べ替える。
（５）機能語を文節の先頭に移動させる。
上記（５）の単語の並べ替え規則に従った並べ替えを行うか否かを、文節間の係り受け関係、当該文節の文節内要素の構成、又は当該文節を係り先とする文節の文節内要素の構成に基づいて判断する。

具体的には、文節間の係り受け関係において、文全体の述語文節における機能語が助動詞や終助詞である場合、当該機能語を文節の先頭（動詞の前）に移動する必要はないため、文全体の述語文節になっている（係り先がない）場合は、上記（５）の単語の並べ替え規則に基づく並べ替えを行わないように判断する。

また、当該文節の文節内要素の構成において、主語文節の機能語が「格助詞」の「が」「は」である場合、上記（５）の単語の並べ替え規則に基づく並べ替えを行わないように判断する。

また、当該文節を係り先とする文節の文節内要素の構成において、係り元の文節（当該文節を係り先とする文節）が格助詞「が」「は」を含んでいる場合、係り元の文節が格助詞「を」を含んでいる場合は、当該文節は述語文節であるため、上記（５）の単語の並べ替え規則に基づく並べ替えを行わないように判断する。また、当該文節を係り元とする文節の文節内要素の構成に基づいて、単語の並べ替え規則に基づく並べ替えを行うか否かを判断してもよい。

また、上記の文節間の係り受け関係、当該文節の文節内要素の構成、当該文節を係り先とする文節の文節内要素の構成、及び当該文節を係り元とする文節の文節内要素の構成の各々に基づく並べ替えの判断条件を組み合わせることによって、文節内要素を並べ替えるか否かを判断するようにしてもよい。

翻訳部４２は、公知の機械翻訳器を用いて、並べ替え部４０において並べ替えられた日本語の入力文を翻訳し、複数の翻訳候補文の中から、モデル記憶部４４に記憶されている複数の翻訳モデルと翻訳モデルの各々に対する重みに基づいて、翻訳スコアが最適な翻訳候補文を選択し、出力部７０に出力する。なお、翻訳の方法は、非特許文献４（Phillip Koehn, Franz Josef Och, and Daniel Marcu. 2003. Statistical Phrase-based Translation. In Proc. HLT- NAACL, pages 263-270.）の公知の統計的機械翻訳の技術によって実現すればよく、詳細な説明を省略する。

モデル記憶部４４は、後述する翻訳モデル学習装置２００のモデル記憶部２６２に記憶されている翻訳モデルと翻訳モデルの各々に対する重みと同一の翻訳モデルと翻訳モデルの各々に対する重みが記憶されている。

出力部７０は、翻訳部４２において翻訳された英語で記述された文に、入力前の処理で削除したＸＭＬやＨＴＭＬタグなどの復元や追加を行い、出力装置もしくはネットワーク等によって外部に出力する。

＜翻訳モデル学習装置の構成＞
次に、本発明の実施の形態に係る翻訳モデル学習装置の構成について説明する。図２に示すように、本発明の実施の形態に係る翻訳モデル学習装置２００は、ＣＰＵと、ＲＡＭと、後述する翻訳モデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することができる。この翻訳モデル学習装置２００は、機能的には図２に示すように入力部２１０と、演算部２２０と、出力部２７０とを備えている。

入力部２１０は、キーボードなどの入力装置から複数の日本語と英語の対訳となっている文対、語句対（対訳データ）の集合である学習用並行コーパスを受け付ける。なお、入力部２１０は、ネットワーク等を介して外部から入力されたものを受け付けるようにしてもよい。

演算部２２０は、学習用並行コーパス２５０と、モデル学習部２５２と、モデル記憶部２６２とを備えている。

学習用並行コーパス２５０は、入力部２１０において受け付けた学習用並行コーパスが記憶されている。なお、学習用並行コーパスは、日本語と英語の対訳文が同じ行数の位置に記載されたテキストファイルである。

モデル学習部２５２は、学習データ言語解析部２５４と、学習データ並べ替え部２５６と、モデル用並行コーパス２５７と、翻訳モデル学習部２５８と、翻訳部２５９と、モデル重み学習部２６０と、を備えている。モデル学習部２５２は、学習用並行コーパス２５０に記憶されている、学習用並行コーパスを利用して統計的な翻訳モデル及びモデル重みを学習し、モデル記憶部２６２に記憶する。

学習データ言語解析部２５４は、学習用並行コーパスに含まれる日本語及び英語の対訳データ毎に、日本語及び英語の言語解析を行う。日本語の言語解析は、翻訳装置１００の言語解析部３０で行われる言語解析と同一の言語解析（形態素解析、構文解析、述語項構造解析）を行う。一方、英語の言語解析は単語区切りの同定を行う。英語は通常単語毎に分割されているため、文末記号等を切り出すのみでもよいし、その他当該分野において一般的に用いられる単語分割方法を利用しても良い。

学習データ並べ替え部２５６は、学習データ言語解析部２５４において言語解析された複数の対訳データ毎に、対訳データに含まれる日本語の文又は語句に対して、翻訳装置１００の並べ替え部４０で用いられている並べ替え規則と同様の並べ替え規則を用いて、文節及び文節内の単語を並べ替えることによって語順を並べ替える。学習データ並べ替え部２５６は、並べ替えられた日本語で記述された文又は語句と、対応する対訳データに含まれる英語で記述された文又は語句（単語に区切られたもの）とを併せてモデル用並行コーパスとしてモデル用並行コーパス２５７に各々記憶する。

モデル用並行コーパス２５７は、学習データ並べ替え部２５６において並べ替えられた日本語で記述された文又は語句と、対応する対訳データに含まれる英語で記述された文又は語句（単語に区切られたもの）とを併せた対訳データの集合をモデル用並行コーパスとして記憶している。

翻訳モデル学習部２５８は、モデル用並行コーパス２５７に記憶されている対訳データの集合に基づいて、複数の統計的な翻訳モデルを学習し、モデル記憶部２６２に記憶する。統計的な翻訳モデルには、非特許文献４に代表される統計的機械翻訳技術で利用される「語句翻訳モデル」、「語句並べ替えモデル」、「言語モデル」等があり、機械翻訳の制約として適宜その構成を選択可能である。学習の方法は非特許文献４などが広く知られているが、本実施の形態においては、特定の方法に限定されず適用可能である。

例えば、翻訳モデル学習部２５８は、モデル用並行コーパス２５７に記憶されている日本語で記述された文又は語句と、英語で記述された文又は語句からなる対訳データに基づいて、統計的な語句翻訳モデルと語句並べ替えモデルの各々を学習する。また、モデル用並行コーパス２５７に記憶されている英語で記述された文又は語句に基づいて、言語モデルを学習する。

翻訳部２５９は、重み学習用データであるモデル用並行コーパスに記憶されている日本語の文又は語句の各々について、公知の機械翻訳器と、モデル記憶部２６２に記憶されている複数の翻訳モデル及び複数の翻訳モデルの各々に対する重みと、を用いて複数の翻訳候補を作成する。例えば、モデル記憶部２６２に記憶されている翻訳モデルの各々に対する重みを用いて翻訳スコア（例えば、各翻訳モデルのスコアの重み付き加算値）を算出し、算出された翻訳スコアが一定の値よりも大きい翻訳候補のみを翻訳候補として抽出する。

モデル重み学習部２６０は、重み学習用データの複数の翻訳候補と、モデル用並行コーパス２５７に記憶されている当該重み学習用データに対応する英語で記述された文又は語句（正解翻訳）とに基づいて、翻訳部２５９において抽出された各翻訳候補に対する翻訳評価尺度（例えば、ＢＬＥＵ値）を算出する。

そして、モデル重み学習部２６０は、翻訳部２５９において抽出された翻訳候補の各々の翻訳評価尺度に基づいて、良い翻訳である翻訳候補ほど、モデル記憶部２６２に記憶されている翻訳モデルの各々に対する重みを用いて算出される翻訳スコア（例えば、各翻訳モデルのスコアの重み付き加算値）が高くなるように、翻訳モデルの各々に対する重みを最適化し、翻訳モデルの各々に対する重みをモデル記憶部２６２に記憶する。

上記の翻訳部２５９において行われる翻訳候補の抽出と、モデル重み学習部２６０において行われる重みの学習とは、翻訳モデルの各々に対する重みが収束するまで繰り返して行われる。

出力部２７０は、モデル記憶部２６２に記憶されている翻訳モデル及びモデル重みを出力する。

＜翻訳モデル学習装置の作用＞
次に、本発明の実施の形態に係る翻訳モデル学習装置２００の作用について説明する。まず、入力部２１０により、日本語と英語の対訳となっている文対、語句対（対訳データ）の集合である学習用並行コーパスが入力され、学習用並行コーパス２５０に記憶される。そして、翻訳モデル学習装置２００のＲＯＭに記憶されたプログラムを、ＣＰＵが実行することにより、図３に示す翻訳モデル学習処理ルーチンが実行される。

まず、ステップＳ２００では、学習用並行コーパス２５０に記憶されている学習用並行コーパスを読み出す。

次に、ステップＳ２０２では、ステップＳ２００において読み込んだ学習用並行コーパスに含まれる日本語の文又は語句の各々について、公知の形態素解析器（ＪＵＭＡＮ、ＭｅＣａｂ等）を利用し、形態素解析（単語区切りと品詞の同定）を行う。

次に、ステップＳ２０４では、ステップＳ２０２において形態素解析された日本語で記述された文又は語句の各々について、公知の係り受け解析器（ＫＮＰ、ＳｙｎＣｈａ等）を用いて、文節間の係り受けを解析すると共に、文節内の各単語に「内容語」及び「機能語」の分類を与える。

次に、ステップＳ２０６では、ステップＳ２０４において構文解析された日本語で記述された文又は語句の各々について、公知の述語項構造解析器（ＫＮＰ、ＳｙｎＣｈａ等）を利用し、述語項構造解析を行い、述語文節（動詞、形容詞、動作を表す名詞）に対し、「ガ格」と呼ばれる主語文節、「ヲ格」と呼ばれる目的語文節、「ニ格」と呼ばれる対象文節を同定する。

次に、ステップＳ２０７では、ステップＳ２００において読み込んだ学習用並行コーパスに含まれる英語で記述されている文又は語句の各々について、単語区切りの同定を行う。

次に、ステップＳ２０８では、ステップＳ２０６において述語項構造解析を行った日本語で記述された文又は語句の各々について、文節の並べ替え規則を用いて、文節を並べ替えた後に、単語の並べ替え規則を用いて、文節内の単語を並べ替えることによって語順を並べ替え、並べ替えられた日本語で記述された文又は語句と、対応する対訳データに含まれる英語で記述された文又は語句（ステップＳ２０７で取得したもの）とを併せてモデル用並行コーパスとしてモデル用並行コーパス２５７に記憶する。

次に、ステップＳ２１２では、モデル用並行コーパス２５７に記憶されている日本語で記述された文又は語句と、英語で記述された文又は語句からなる対訳データの集合に基づいて、統計的な語句翻訳モデルと語句並べ替えモデルの各々を学習し、モデル用並行コーパス２５７に記憶されている英語で記述された文又は語句の各々に基づいて、言語モデルを学習する。そして、学習した各翻訳モデルをモデル記憶部２６２に記憶する。また、各翻訳モデルの各々に対する重みの初期値をモデル記憶部２６２に記憶する。

次に、ステップＳ２１４では、ステップＳ２０８において語順を並べ替えた日本語で記述された文又は語句の各々について、公知の機械翻訳器と、上記ステップＳ２１２で学習した各翻訳モデルと、モデル記憶部２６２に記憶されている翻訳モデルの各々に対する重みとを用いて、翻訳スコアに基づいて、複数の翻訳候補を作成する。

ステップＳ２１６では、上記ステップＳ２１４で作成された複数の翻訳候補の各々について、モデル用並行コーパス２５７に記憶されている当該翻訳候補に対応する英語で記述された文又は語句（正解翻訳）に基づいて、各翻訳候補に対する翻訳評価尺度を算出する。

そして、各翻訳候補の翻訳評価尺度と、各翻訳候補の翻訳スコアとに基づいて、翻訳モデルの各々に対する重みを最適化し、翻訳モデルの各々に対する重みを学習し、モデル記憶部２６２に記憶する。

次に、ステップＳ２１８では、ステップＳ２１６で学習した翻訳モデルの各々に対する重みが収束したか否かを判定する。収束している場合には、処理を終了する。収束していない場合には、ステップＳ２１４に移行する。

＜翻訳装置の作用＞
次に、本発明の実施の形態に係る翻訳装置１００の作用について説明する。まず、入力部１０により、翻訳モデル学習装置２００によって学習された複数の翻訳モデル及び翻訳モデルの各々に対する重みが入力されモデル記憶部４４に記憶される。そして、入力部１０により、日本語で記述された文が入力されると、翻訳装置１００のＲＯＭに記憶されたプログラムを、ＣＰＵが実行することにより、図４に示す翻訳処理ルーチンが実行される。

まず、ステップＳ１００において、日本語で記述された入力文を受け付ける。

次に、ステップＳ１０２において、ステップＳ１００において受け付けた日本語で記述された入力文に対して、公知の形態素解析器（ＪＵＭＡＮ、ＭｅＣａｂ等）を利用し、形態素解析（単語区切りと品詞の同定）を行う。

次に、ステップＳ１０４において、ステップＳ１０２において形態素解析された入力文に対して、公知の係り受け解析器（ＫＮＰ、ＣａｂｏＣｈａ等）を使用して構文解析を行い、文節間の係り受けを解析すると共に、文節内の各単語に「内容語」及び「機能語」の分類を与える。

次に、ステップＳ１０６において、ステップＳ１０４において構文解析された入力文に対して、公知の述語項構造解析器（ＫＮＰ、ＳｙｎＣｈａ等）を利用し、述語項構造解析を行い、述語文節に対し、主語文節、目的語文節、対象文節を同定する。

次に、ステップＳ１０８において、ステップＳ１０６において述語項構造解析を行った入力文について、文節の並べ替え規則を用いて、文節を並べ替えた後に、単語の並べ替え規則を用いて、文節内の単語を並べ替えることによって語順を並べ替える。

次に、ステップＳ１１２において、ステップＳ１０８において取得した語順を並べ替えた入力文について、公知の機械翻訳器を用いて翻訳し、複数の翻訳候補文の中から、モデル記憶部４４に記憶されている複数の翻訳モデルと翻訳モデルの各々に対する重みに基づいて、翻訳スコアが最適な翻訳候補文を選択する。

次に、ステップＳ１１４において、ステップＳ１１２において選択した翻訳結果を出力して処理を終了する。

＜翻訳モデル学習装置２００の実施例＞
次に、約３００万文の日本語・英語並行コーパスから統計翻訳モデルの学習を行った実施例について以下説明する。

翻訳モデル学習装置２００の学習データ言語解析部２５４において、日本語及び英語の言語解析を行う。日本語の言語解析は翻訳装置１００の言語解析部３０と同一の処理を行う。英語の言語解析はＭｏｓｅｓに同梱されている単語分割プログラムを利用し、単語分割のみ行う。日本語の言語解析結果は言語解析部３０と同様の結果である。英語の単語分割結果の例を図９に示す。

翻訳モデル学習装置２００の学習データ並べ替え部２５６において、並行コーパスの日本語については、翻訳装置１００の並べ替え部４０と同様の並べ替え処理を行う。当該処理の結果を図１０に示す。

上述の通り、日本語と英語の並行コーパスは、並べ替えられた日本語の単語列の集合と、英語の単語列の集合に書き換えられる。各単語列の集合は前記単語区切りの結果の例のように単語ごとに半角空白で区切られた、１行に１文が格納されたテキストファイルである。翻訳モデル学習においては、Ｍｏｓｅｓで提供されている学習プログラムにより、日本語と英語の単語列の集合を表すテキストファイルから、「語句翻訳モデルＤＢ：phrase-table.gz」「語句並べ替えモデルＤＢ：reordering-table.wbe-msd-bidirectional-fe.gz」を作成する。

また、公知の言語モデル学習プログラムＳＲＩＬＭにより、英語の単語列の集合のテキストファイルから「言語モデルＤＢ：ja.5gram.arpa.gz」を作成する。本実施例では、単語５グラム言語モデルを作成する。

さらに、モデル間の重みの最適値を決定する「誤り最小化学習」（Minimum Error Rate Training:MERT）と呼ばれる公知の方法（非特許文献５）によって、各モデルに対する重みを学習し、前記モデルＤＢの情報と併せて、翻訳プログラム設定ファイルに書き出す。

＜翻訳装置１００の実施例＞
「データ保存装置１０がデータ収集装置２０に接続される。」という日本語文を、翻訳装置１００が実装された計算機端末に入力した場合の実施例を以下に示す。

本実施例では日本語の言語解析に公知の日本語形態素解析ソフトウェアＪＵＭＡＮ、及び公知の述語項構造解析を含む構文解析ソフトウェアＫＮＰを利用する。本実施例においては、形態素解析ステップ、構文解析ステップ、述語項構造解析ステップを一括で行うために、入力部１０から入力された日本語文を計算機端末の標準入力からＪＵＭＡＮに入力し、その出力を直接ＫＮＰの入力とするように構成している。また、ＫＮＰ解析結果は図５のように出力される。なお、上記図５では、本実施例で利用しない情報の一部を取り除いて表記している。

行頭の記号「＊」は文節の始まりを示し、行頭の記号「＋」は続く行に示された単語が内容語であることを示している。この解析結果の解釈は図６に示す通りである。

翻訳装置１００の並べ替え部４０は、文節の並べ替え規則に従い、日本語文の文節を並べ替える。本実施例では、上記の日本語文の述語文節を主語（ガ格）文節の直後に移動する。ただし、句点は文末を表す記号であることを考慮し、文末に残したままにする。並べ替えの結果は、図７に示すようになる。そして、各文節の文節内の機能語を、主語文節の助詞「は」「が」を除いて文節の先頭へ並べ替えると、図８に示すようになる。

なお、入力文が、「図１に示すデータ保存装置１０がデータ収集装置２０に接続される」のように、文節「データ保存装置１０が」がさらに別の文節によって修飾されているような場合には、階層的な処理が必要となる。まず、「図１に示す」→「データ保存装置１０が」という文節間の関係に基づき、述語文節が動詞連用形の文節である場合、当該述語文節を係り先の単語の直後に移動する、という文節の並べ替え規則、主語文節がない場合は目的語文節（ヲ格）及び対象文節（ニ格）のうちの何れか前方にあるものの直前に述語文節を移動する、という文節の並べ替え規則、及び単語の並べ替え規則に従って、「データ保存装置１０「示すに図１」が」のように並べ替えて、その後、上述の文節の並べ替え規則に従って、文節の並べ替えを行う。

翻訳装置１００の翻訳部４２は、並べ替え部４０で並べ替えられた日本語の文を英語に翻訳する。本実施例では、翻訳モデル学習装置２００の翻訳モデル学習部２５８で学習された統計翻訳モデル（句翻訳モデル、句並べ替えモデル、言語モデル）及び各モデルに対する重みを利用し、公知の統計翻訳ソフトウェアＭｏｓｅｓを用いた。本実施例においてはＭｏｓｅｓの「the data storage device 10 is connected to a data collecting device 20.」との出力結果を出力部７０に出力する。

上記の実施例の方法で実現された機械翻訳プログラムは、従来技術で構成された機械翻訳プログラムおよび従来の主辞後置型並べ替え方法に基づく機械翻訳プログラムより高い翻訳性能を示すことが分かった。約３００万文の日英並行コーパスで学習された統計モデルを用いた実験において、当該分野で最も一般的に用いられる評価指標ＢＬＥＵの値が、事前並べ替え処理を行わない従来技術で構成された機械翻訳プログラムでは０．２９５６であったのに対し、本実施例の機械翻訳プログラムでは０．３１７０を達成している。

以上説明したように、本発明の実施の形態に係る翻訳装置によれば、入力文の各文節内の各単語を「内容語」、「機能語」に分類し、予め定められた文節の並べ替え規則に従って、入力文の文節の順序を並べ替え、予め定められた単語の並べ替え規則に従って、「内容語」、「機能語」の順序を並べ替えることによって語順を並べ替え、語順を並べ替えた入力文を翻訳先言語で記述された文に翻訳することにより、入力文を精度良く翻訳することが出来る。

また、本発明の実施の形態に係る翻訳モデル学習装置によれば、日本語の文又は語句の各文節内の各単語を「内容語」、「機能語」に分類し、予め定められた文節の並べ替え規則に従って、日本語の文又は語句の文節の順序を並べ替え、予め定められた単語の並べ替え規則に従って、「内容語」、「機能語」の順序を並べ替えることによって語順を並べ替え、語順を並べ替えた日本語の文又は語句と、対応する対訳データに含まれる翻訳先言語で記述された文又は語句とに基づいて、複数種類の翻訳モデルを学習し、語順を並べ替えた日本語で記述された文又は語句と、対応する対訳データに含まれる特定言語で記述された文又は語句と、複数種類の翻訳モデルとに基づいて、複数種類の翻訳モデルの各々に対する重みを学習することにより、精度良く翻訳を行うことが出来る翻訳モデルを学習することが出来る。

また、日本語から英語への翻訳において、日本語の語順を英語に近い語順に並べ替えることが可能になるため、日本語から英語への翻訳において語順の差が非常に小さくなることから、翻訳がより容易になる。

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、形態素解析と、構文解析と、述語項構造解析とを別々に行う場合を説明したが、これに限定されるものではなく、形態素解析と構文解析を同時に行ってもよい。また、構文解析と述語項構造解析を同時に行ってもよい。

また、日本語を英語の語順に相似するように語順を並べ替える場合について説明したが、これに限定されるものではなく、言語が異なる２言語の第１言語を第２言語の語順に相似するように語順を並べ替えてもよい。

１０入力部
２０演算部
３０言語解析部
３２形態素解析部
３４構文解析部
３６述語項構造解析部
４０並べ替え部
４２翻訳部
４４モデル記憶部
７０出力部
１００翻訳装置
２００翻訳モデル学習装置
２１０入力部
２２０演算部
２５０学習用並行コーパス
２５２モデル学習部
２５４学習データ言語解析部
２５６学習データ並べ替え部
２５７モデル用並行コーパス
２５８翻訳モデル学習部
２５９翻訳部
２６０モデル重み学習部
２６２モデル記憶部
２７０出力部

Claims

第１言語で記述された入力文の語順を、第１言語とは異なる第２言語で記述された文に近い語順に並べ替える語順並べ替え装置において、
入力文の各文節について、前記文節内の各要素を２種類以上の要素に分類する構文解析部と、
前記文節毎に、前記入力文に対する係り受け解析の結果に基づいて、予め定められた前記第１言語の並べ替え規則に従って、前記構文解析部により分類された前記２種類以上の要素の順序を並べ替えるか否かを判断し、前記２種類以上の要素の順序を並べ替えることにより、前記入力文の語順を並べ替える並べ替え部と、
を含む語順並べ替え装置。
前記構文解析部は、前記文節内の各要素を、内容語と機能語とに分類する請求項１記載の語順並べ替え装置。
前記並べ替え部は、前記入力文に対する係り受け解析の結果から得られる前記文節間の係り受け関係に基づいて、前記文節毎に、前記文節の前記２種類以上の要素の順序を並べ替えるか否かを判断し、前記２種類以上の要素の順序を並べ替える請求項１又は２記載の語順並べ替え装置。
前記並べ替え部は、前記文節毎に、前記入力文に対する係り受け解析の結果から得られる前記文節の係り元及び係り先の少なくとも一方の文節の要素の構成に基づいて、前記文節の前記２種類以上の要素の順序を並べ替えるか否かを判断し、前記２種類以上の要素の順序を並べ替える請求項１又は２記載の語順並べ替え装置。
前記並べ替え部は、前記文節毎に、前記入力文に対する係り受け解析の結果から得られる前記文節間の係り受け関係と、前記文節の係り元及び係り先の少なくとも一方の文節の要素の構成とに基づいて、前記文節の前記２種類以上の要素の順序を並べ替えるか否かを判断し、前記２種類以上の要素の順序を並べ替える請求項１又は２記載の語順並べ替え装置。
前記並べ替え部は、前記文節毎に、前記文節の機能語が前記文節の先頭に配置されるように、前記文節の前記２種類以上の要素の順序を並べ替える請求項２記載の語順並べ替え装置。
日本語で記述された入力文の語順を、日本語とは異なる特定言語で記述された文に近い語順に並べ替える語順並べ替え装置において、
前記入力文の各文節について、前記文節内の各要素を２種類以上の要素に分類する構文解析部と、
日本語で記述された文の文節の順序を前記特定言語で記述された文の文節の順序に並べ替えるための予め定められた文節並べ替え規則に従って、前記入力文の文節の順序を並べ替え、前記並べ替えた前記入力文について、前記文節毎に、前記入力文に対する係り受け解析の結果に基づいて、日本語で記述された文の文節の前記２種類以上の要素の順序を前記特定言語で記述された文の文節の前記２種類以上の要素の順序に並べ替えるための予め定められた要素並べ替え規則に従って、前記構文解析部により分類された前記２種類以上の要素の順序を並べ替えるか否かを判断し、前記２種類以上の要素の順序を並べ替えることにより、前記入力文の語順を並べ替える並べ替え部と、
を含む語順並べ替え装置。
日本語で記述された入力文を、日本語とは異なる特定言語で記述された文に翻訳する翻訳装置において、
前記入力文の各文節について、前記文節内の各要素を２種類以上の要素に分類する構文解析部と、
日本語で記述された文の文節の順序を前記特定言語で記述された文の文節の順序に並べ替えるための予め定められた文節並べ替え規則に従って、前記入力文の文節の順序を並べ替え、前記並べ替えた前記入力文について、前記文節毎に、日本語で記述された文の文節の前記２種類以上の要素の順序を前記特定言語で記述された文の文節の前記２種類以上の要素の順序に並べ替えるための予め定められた要素並べ替え規則に従って、前記構文解析部により分類された前記２種類以上の要素の順序を並べ替えることにより、前記入力文の語順を並べ替える並べ替え部と、
複数種類の翻訳モデル及び前記複数種類の翻訳モデルの各々に対する重みに基づいて、前記並べ替え部により要素の順序を並べ替えられた前記入力文を、前記特定言語で記述された文に翻訳する翻訳部と、
を含む翻訳装置。
予め用意された、日本語で記述された文又は語句と、日本語とは異なる特定言語で記述された文又は語句との対である対訳データの集合に基づいて、日本語で記述された文を、前記特定言語で記述された文に翻訳するための複数種類の翻訳モデル及び前記複数種類の翻訳モデルの各々に対する重みを学習する翻訳モデル学習装置において、
前記対訳データの集合の各対訳データの日本語で記述された文又は語句の各文節について、前記文節内の各要素を２種類以上の要素に分類する学習データ言語解析部と、
日本語で記述された文の文節の順序を前記特定言語で記述された文の文節の順序に並べ替えるための予め定められた文節並べ替え規則に従って、各対訳データの日本語で記述された文又は語句の文節の順序を並べ替え、前記並べ替えた前記文又は語句について、前記文節毎に、前記文又は語句の文節の前記２種類以上の要素の順序を前記特定言語で記述された文又は語句の文節の前記２種類以上の要素の順序に並べ替えるための予め定められた要素並べ替え規則に従って、前記学習データ言語解析部により分類された前記２種類以上の要素の順序を並べ替えることにより、前記文又は語句の語順を並べ替える学習データ並べ替え部と、
前記学習データ並べ替え部により要素の順序を並べ替えられた各対訳データの日本語で記述された文又は語句と、各対訳データの前記特定言語で記述された文又は語句とに基づいて、前記複数種類の翻訳モデルを学習する翻訳モデル学習部と、
前記学習データ並べ替え部により要素の順序を並べ替えられた各対訳データの日本語で記述された文又は語句と、各対訳データの前記特定言語で記述された文又は語句と、前記翻訳モデル学習部により学習された複数種類の翻訳モデルとに基づいて、前記複数種類の翻訳モデルの各々に対する重みを学習するモデル重み学習部と、
を含む翻訳モデル学習装置。
構文解析部と、並べ替え部とを含む、第１言語で記述された入力文の語順を、第１言語とは異なる第２言語で記述された文に近い語順に並べ替える語順並べ替え装置の語順並べ替え方法であって、
前記構文解析部は、入力文の各文節について、前記文節内の各要素を２種類以上の要素に分類し、
前記並べ替え部は、前記文節毎に、前記入力文に対する係り受け解析の結果に基づいて、予め定められた前記第１言語の並べ替え規則に従って、前記構文解析部により分類された前記２種類以上の要素の順序を並べ替えるか否かを判断し、前記２種類以上の要素の順序を並べ替えることにより、前記入力文の語順を並べ替える
語順並べ替え方法。
構文解析部と、並べ替え部と、を含み、日本語で記述された入力文の語順を、日本語とは異なる特定言語で記述された文に近い語順に並べ替える語順並べ替え装置の語順並べ替え方法であって、
前記構文解析部は、前記入力文の各文節について、前記文節内の各要素を２種類以上の要素に分類し、
前記並べ替え部は、日本語で記述された文の文節の順序を前記特定言語で記述された文の文節の順序に並べ替えるための予め定められた文節並べ替え規則に従って、前記入力文の文節の順序を並べ替え、前記並べ替えた前記入力文について、前記文節毎に、前記入力文に対する係り受け解析の結果に基づいて、日本語で記述された文の文節の前記２種類以上の要素の順序を前記特定言語で記述された文の文節の前記２種類以上の要素の順序に並べ替えるための予め定められた要素並べ替え規則に従って、前記構文解析部により分類された前記２種類以上の要素の順序を並べ替えるか否かを判断し、前記２種類以上の要素の順序を並べ替えることにより、前記入力文の語順を並べ替える
語順並べ替え方法。
構文解析部と、並べ替え部と、翻訳部と、を含み、日本語で記述された入力文を、日本語とは異なる特定言語で記述された文に翻訳する翻訳装置の翻訳方法であって、
前記構文解析部は、前記入力文の各文節について、前記文節内の各要素を２種類以上の要素に分類し、
前記並べ替え部は、日本語で記述された文の文節の順序を前記特定言語で記述された文の文節の順序に並べ替えるための予め定められた文節並べ替え規則に従って、前記入力文の文節の順序を並べ替え、前記並べ替えた前記入力文について、前記文節毎に、日本語で記述された文の文節の前記２種類以上の要素の順序を前記特定言語で記述された文の文節の前記２種類以上の要素の順序に並べ替えるための予め定められた要素並べ替え規則に従って、前記構文解析部により分類された前記２種類以上の要素の順序を並べ替えることにより、前記入力文の語順を並べ替え、
前記翻訳部は、複数種類の翻訳モデル及び前記複数種類の翻訳モデルの各々に対する重みに基づいて、前記並べ替え部により要素の順序を並べ替えられた前記入力文を、前記特定言語で記述された文に翻訳する
翻訳方法。
学習データ言語解析部と、学習データ並べ替え部と、翻訳モデル学習部と、モデル重み学習部と、を含み、予め用意された、日本語で記述された文又は語句と、日本語とは異なる特定言語で記述された文又は語句との対である対訳データの集合に基づいて、日本語で記述された文を、前記特定言語で記述された文に翻訳するための複数種類の翻訳モデル及び前記複数種類の翻訳モデルの各々に対する重みを学習する翻訳モデル学習装置の翻訳モデル学習方法であって、
前記学習データ言語解析部は、前記対訳データの集合の各対訳データの日本語で記述された文又は語句の各文節について、前記文節内の各要素を２種類以上の要素に分類し、
前記学習データ並べ替え部は、日本語で記述された文の文節の順序を前記特定言語で記述された文の文節の順序に並べ替えるための予め定められた文節並べ替え規則に従って、各対訳データの日本語で記述された文又は語句の文節の順序を並べ替え、前記並べ替えた前記文又は語句について、前記文節毎に、前記文又は語句の文節の前記２種類以上の要素の順序を前記特定言語で記述された文又は語句の文節の前記２種類以上の要素の順序に並べ替えるための予め定められた要素並べ替え規則に従って、前記学習データ言語解析部により分類された前記２種類以上の要素の順序を並べ替えることにより、前記文又は語句の語順を並べ替え、
前記翻訳モデル学習部は、前記学習データ並べ替え部により要素の順序を並べ替えられた各対訳データの日本語で記述された文又は語句と、各対訳データの前記特定言語で記述された文又は語句とに基づいて、前記複数種類の翻訳モデルを学習し、
前記モデル重み学習部は、前記学習データ並べ替え部により要素の順序を並べ替えられた各対訳データの日本語で記述された文又は語句と、各対訳データの前記特定言語で記述された文又は語句と、前記翻訳モデル学習部により学習された複数種類の翻訳モデルとに基づいて、前記複数種類の翻訳モデルの各々に対する重みを学習する
翻訳モデル学習方法。
コンピュータを、請求項１〜７の何れか１項記載の語順並べ替え装置、請求項８に記載の翻訳装置、又は請求項９に記載の翻訳モデル学習装置を構成する各部として機能させるためのプログラム。