JP5800206B2 - 語順並べ替え装置、翻訳装置、翻訳モデル学習装置、方法、及びプログラム - Google Patents

語順並べ替え装置、翻訳装置、翻訳モデル学習装置、方法、及びプログラム Download PDF

Info

Publication number
JP5800206B2
JP5800206B2 JP2013040796A JP2013040796A JP5800206B2 JP 5800206 B2 JP5800206 B2 JP 5800206B2 JP 2013040796 A JP2013040796 A JP 2013040796A JP 2013040796 A JP2013040796 A JP 2013040796A JP 5800206 B2 JP5800206 B2 JP 5800206B2
Authority
JP
Japan
Prior art keywords
order
sentence
translation
elements
types
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013040796A
Other languages
English (en)
Other versions
JP2014170296A (ja
Inventor
克仁 須藤
克仁 須藤
永田 昌明
昌明 永田
翔 星野
翔 星野
祐介 宮尾
祐介 宮尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Inter University Research Institute Corp Research Organization of Information and Systems
Original Assignee
Nippon Telegraph and Telephone Corp
Inter University Research Institute Corp Research Organization of Information and Systems
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, Inter University Research Institute Corp Research Organization of Information and Systems filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013040796A priority Critical patent/JP5800206B2/ja
Publication of JP2014170296A publication Critical patent/JP2014170296A/ja
Application granted granted Critical
Publication of JP5800206B2 publication Critical patent/JP5800206B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Description

本発明は、語順並べ替え装置、翻訳装置、翻訳モデル学習装置、方法、及びプログラムに係り、特に、入力文の語順を並べ替える語順並べ替え装置、翻訳装置、翻訳モデル学習装置、方法、及びプログラムに関する。
言語Aから言語Bへの機械翻訳の処理は、言語Aの語句から言語Bの語句への翻訳と、翻訳された言語Bの語句の言語Bにおける適切な並べ替えとの2つに大別される。当該分野で広く利用されている統計的翻訳技術においては、大量の対訳文から推定された言語Aの語句と言語Bの語句との対応関係から語句の翻訳と語句の並べ替えを統計的にモデル化し、言語Aの入力文に対し、それらの統計モデルに基づいて尤もらしい語句の翻訳と語句の並べ替えによって構成される言語Bの翻訳文を探索するという方法が採られる。
一般にすべての翻訳文候補を網羅的に探索することは計算量的に非常に困難であるため、各語句の翻訳の候補数を制限し、かつ語句の並べ替えの距離を一定の範囲内に制約することによって実用的な計算量での機械翻訳処理が実現される。
しかし、翻訳の対象となる言語Aと言語Bの組み合わせによっては、対応する語句が大きく異なる順序で現れる可能性があり、そのような言語間の翻訳を正確に行うためには十分に大きな並べ替え距離を考慮した翻訳処理が要求されるため、計算量の増加が避けられないという問題が存在する。
上記問題に対処する技術として、翻訳処理を行う前に言語Aの語句を対応する言語Bの語句の順序に近づけるように並べ替える「事前並べ替え(pre-ordering)」と呼ばれる技術が存在する(特許文献1、非特許文献1)。
また、非特許文献2及び非特許文献3の技術において、日本語から英語への翻訳においても、構文解析を利用して日本語の文節の係り受け構造を推定し、文節の順序を入れ替えることによって英語の語順に近づけることができる。
特開2011−175500号公報
Michael Collins, Philipp Koehn, Ivona Kucerova, "Clause Restructuring for Statistical Machine Translation", In Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics, pp. 531-540, 2005 Mamoru Komachi, Yuji Matsumoto, Masaaki Nagata, "Phrase Reordering for Statistical Machine Translation Based on Predicate-Argument Structure", In Proceedings of International Workshop on Spoken Language Translation (IWSLT 2006), 2006 Katsuhito Sudoh, Kevin Duh, Hajime Tsukada, Masaaki Nagata, Xianchao Wu, Takuya Matsuzaki and Jun'ichi Tsujii, "NTT-UT Statistical Machine Translation in NTCIR-9 PatentMT", In Proceedings of NTCIR-9, 2011.
非特許文献1は独語から英語、特許文献1は英語から日本語への翻訳を対象としており入力文の言語(言語A)の語句を翻訳後の言語(言語B)の対応する語句の順序に近づけるように並べ替える規則を利用している。これらの技術は言語A側の構文解析と適切な規則を利用することによって並べ替えをかなり正確に行うことができる反面、言語Aや言語Bが異なれば必要な規則も異なるため、新たに規則を定義する必要があるという問題がある。
非特許文献2は係り受け構造に加え、述語項構造解析と呼ばれる述語と主語や目的語の関係を推定する技術を利用して主語や目的語を同定し、英語の主語、動詞、目的語の順になるように主語や目的語を移動するための規則を利用している。非特許文献3は係り受け構造と、助詞を利用して主語や目的語を推定し、非特許文献2と同様の並べ替え規則を利用している。これらの方法は文節の順序を英語に近い順に並べることが期待できるが、文節内の語順は変えないため、「東京に着いた」という句は「着いた東京に」という語順になるに留まり、対応する英語の"arrived at Tokyo"とは助詞「に」、前置詞"at"の位置に違いが残るという問題がある。
本発明では、上記問題点を解決するために成されたものであり、入力文の語順を精度よく並べ替えることできる語順並べ替え装置、翻訳装置、翻訳モデル学習装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係る語順並べ替え装置は、第1言語で記述された入力文の語順を、第1言語とは異なる第2言語で記述された文に近い語順に並べ替える語順並べ替え装置において、入力文の各文節について、前記文節内の各要素を2種類以上の要素に分類する構文解析部と、前記文節毎に、前記入力文に対する係り受け解析の結果に基づいて、予め定められた前記第1言語の並べ替え規則に従って、前記構文解析部により分類された前記2種類以上の要素の順序を並べ替えるか否かを判断し、前記2種類以上の要素の順序を並べ替えることにより、前記入力文の語順を並べ替える並べ替え部と、を含んで構成されている。
第2の発明に係る語順並べ替え方法は、構文解析部と、並べ替え部とを含む、第1言語で記述された入力文の語順を、第1言語とは異なる第2言語で記述された文に近い語順に並べ替える語順並べ替え装置の語順並べ替え方法であって、前記構文解析部は、入力文の各文節について、前記文節内の各要素を2種類以上の要素に分類し、前記並べ替え部は、前記文節毎に、前記入力文に対する係り受け解析の結果に基づいて、予め定められた前記第1言語の並べ替え規則に従って、前記構文解析部により分類された前記2種類以上の要素の順序を並べ替えるか否かを判断し、前記2種類以上の要素の順序を並べ替えることにより、前記入力文の語順を並べ替える。
第1の発明及び第2の発明によれば、構文解析部によって、入力文の各文節内の要素を2種類以上の要素に分類し、並べ替え部によって、分類された2種類以上の要素の順序を並べ替える。
このように、第1の発明及び第2の発明によれば、入力文の文節内の各要素を2種類以上の要素に分類し、分類された2種類以上の要素の順序を並べ替えることにより、入力文の語順を精度良く並べ替えを行うことができる。
第3の発明に係る語順並べ替え装置は、日本語で記述された入力文の語順を、日本語とは異なる特定言語で記述された文に近い語順に並べ替える語順並べ替え装置において、前記入力文の各文節について、前記文節内の各要素を2種類以上の要素に分類する構文解析部と、日本語で記述された文の文節の順序を前記特定言語で記述された文の文節の順序に並べ替えるための予め定められた文節並べ替え規則に従って、前記入力文の文節の順序を並べ替え、前記並べ替えた前記入力文について、前記文節毎に、前記入力文に対する係り受け解析の結果に基づいて、日本語で記述された文の文節の前記2種類以上の要素の順序を前記特定言語で記述された文の文節の前記2種類以上の要素の順序に並べ替えるための予め定められた要素並べ替え規則に従って、前記構文解析部により分類された前記2種類以上の要素の順序を並べ替えるか否かを判断し、前記2種類以上の要素の順序を並べ替えることにより、前記入力文の語順を並べ替える並べ替え部と、を含んで構成されている。
第4の発明に係る語順並べ替え方法は、構文解析部と、並べ替え部と、を含み、日本語で記述された入力文の語順を、日本語とは異なる特定言語で記述された文に近い語順に並べ替える語順並べ替え装置の語順並べ替え方法であって、前記構文解析部は、前記入力文の各文節について、前記文節内の各要素を2種類以上の要素に分類し、前記並べ替え部は、日本語で記述された文の文節の順序を前記特定言語で記述された文の文節の順序に並べ替えるための予め定められた文節並べ替え規則に従って、前記入力文の文節の順序を並べ替え、前記並べ替えた前記入力文について、前記文節毎に、前記入力文に対する係り受け解析の結果に基づいて、日本語で記述された文の文節の前記2種類以上の要素の順序を前記特定言語で記述された文の文節の前記2種類以上の要素の順序に並べ替えるための予め定められた要素並べ替え規則に従って、前記構文解析部により分類された前記2種類以上の要素の順序を並べ替えるか否かを判断し、前記2種類以上の要素の順序を並べ替えることにより、前記入力文の語順を並べ替える。
第3の発明及び第4の発明によれば、構文解析部によって、日本語で記述された入力文の各文節内の各要素を2種類以上の要素に分類し、並べ替え部によって、予め定められた文節並べ替え規則に従って、入力文の文節の順序を並べ替え、予め定められた要素並べ替え規則に従って、分類された2種類以上の要素の順序を並べ替える。
このように、第3の発明及び第4の発明によれば、日本語で記述された入力文の各文節内の各要素を2種類以上の要素に分類し、予め定められた文節並べ替え規則に従って、入力文の文節の順序を並べ替え、予め定められた要素並べ替え規則に従って、分類された2種類以上の要素の順序を並べ替えることにより、入力文の語順を精度良く並べ替えを行うことが出来る。
第5の発明に係る翻訳装置は、日本語で記述された入力文を、日本語とは異なる特定言語で記述された文に翻訳する翻訳装置において、前記入力文の各文節について、前記文節内の各要素を2種類以上の要素に分類する構文解析部と、日本語で記述された文の文節の順序を前記特定言語で記述された文の文節の順序に並べ替えるための予め定められた文節並べ替え規則に従って、前記入力文の文節の順序を並べ替え、前記並べ替えた前記入力文について、前記文節毎に、日本語で記述された文の文節の前記2種類以上の要素の順序を前記特定言語で記述された文の文節の前記2種類以上の要素の順序に並べ替えるための予め定められた要素並べ替え規則に従って、前記構文解析部により分類された前記2種類以上の要素の順序を並べ替えることにより、前記入力文の語順を並べ替える並べ替え部と、複数種類の翻訳モデル及び前記複数種類の翻訳モデルの各々に対する重みに基づいて、前記並べ替え部により要素の順序を並べ替えられた前記入力文を、前記特定言語で記述された文に翻訳する翻訳部と、を含んで構成されている。
第6の発明に係る翻訳方法は、構文解析部と、並べ替え部と、翻訳部と、を含み、日本語で記述された入力文を、日本語とは異なる特定言語で記述された文に翻訳する翻訳装置の翻訳方法であって、前記構文解析部は、前記入力文の各文節について、前記文節内の各要素を2種類以上の要素に分類し、前記並べ替え部は、日本語で記述された文の文節の順序を前記特定言語で記述された文の文節の順序に並べ替えるための予め定められた文節並べ替え規則に従って、前記入力文の文節の順序を並べ替え、前記並べ替えた前記入力文について、前記文節毎に、日本語で記述された文の文節の前記2種類以上の要素の順序を前記特定言語で記述された文の文節の前記2種類以上の要素の順序に並べ替えるための予め定められた要素並べ替え規則に従って、前記構文解析部により分類された前記2種類以上の要素の順序を並べ替えることにより、前記入力文の語順を並べ替え、前記翻訳部は、複数種類の翻訳モデル及び前記複数種類の翻訳モデルの各々に対する重みに基づいて、前記並べ替え部により要素の順序を並べ替えられた前記入力文を、前記特定言語で記述された文に翻訳する。
第5の発明及び第6の発明によれば、構文解析部によって、入力文の各文節内の各要素を2種類以上の要素に分類し、並べ替え部によって、予め定められた文節並べ替え規則に従って、入力文の文節の順序を並べ替え、予め定められた要素並べ替え規則に従って、分類された2種類以上の要素の順序を並べ替え、翻訳部によって、入力文を日本語とは異なる特定言語で記述された文に翻訳する。
このように、第5の発明及び第6の発明によれば、入力文の各文節内の各要素を2種類以上の要素に分類し、予め定められた文節並べ替え規則に従って、入力文の文節の順序を並べ替え、予め定められた要素並べ替え規則に従って、分類された2種類以上の要素の順序を並べ替え、入力文を特定言語で記述された文に翻訳することにより、入力文を精度良く翻訳を行うことが出来る。
第7の発明に係る翻訳モデル学習装置は、予め用意された、日本語で記述された文又は語句と、日本語とは異なる特定言語で記述された文又は語句との対である対訳データの集合に基づいて、日本語で記述された文を、前記特定言語で記述された文に翻訳するための複数種類の翻訳モデル及び前記複数種類の翻訳モデルの各々に対する重みを学習する翻訳モデル学習装置において、前記対訳データの集合の各対訳データの日本語で記述された文又は語句の各文節について、前記文節内の各要素を2種類以上の要素に分類する学習データ言語解析部と、日本語で記述された文の文節の順序を前記特定言語で記述された文の文節の順序に並べ替えるための予め定められた文節並べ替え規則に従って、各対訳データの日本語で記述された文又は語句の文節の順序を並べ替え、前記並べ替えた前記文又は語句について、前記文節毎に、前記文又は語句の文節の前記2種類以上の要素の順序を前記特定言語で記述された文又は語句の文節の前記2種類以上の要素の順序に並べ替えるための予め定められた要素並べ替え規則に従って、前記学習データ言語解析部により分類された前記2種類以上の要素の順序を並べ替えることにより、前記文又は語句の語順を並べ替える学習データ並べ替え部と、前記学習データ並べ替え部により要素の順序を並べ替えられた各対訳データの日本語で記述された文又は語句と、各対訳データの前記特定言語で記述された文又は語句とに基づいて、前記複数種類の翻訳モデルを学習する翻訳モデル学習部と、前記学習データ並べ替え部により要素の順序を並べ替えられた各対訳データの日本語で記述された文又は語句と、各対訳データの前記特定言語で記述された文又は語句と、前記翻訳モデル学習部により学習された複数種類の翻訳モデルとに基づいて、前記複数種類の翻訳モデルの各々に対する重みを学習するモデル重み学習部と、を含んで構成されている。
第8の発明に係る翻訳モデル学習方法は、学習データ言語解析部と、学習データ並べ替え部と、翻訳モデル学習部と、モデル重み学習部を含み、予め用意された、日本語で記述された文又は語句と、日本語とは異なる特定言語で記述された文又は語句との対である対訳データの集合に基づいて、日本語で記述された文を、前記特定言語で記述された文に翻訳するための複数種類の翻訳モデル及び前記複数種類の翻訳モデルの各々に対する重みを学習する翻訳モデル学習装置の翻訳モデル学習方法であって、前記学習データ言語解析部は、前記対訳データの集合の各対訳データの日本語で記述された文又は語句の各文節について、前記文節内の各要素を2種類以上の要素に分類し、前記学習データ並べ替え部は、日本語で記述された文の文節の順序を前記特定言語で記述された文の文節の順序に並べ替えるための予め定められた文節並べ替え規則に従って、各対訳データの日本語で記述された文又は語句の文節の順序を並べ替え、前記並べ替えた前記文又は語句について、前記文節毎に、前記文又は語句の文節の前記2種類以上の要素の順序を前記特定言語で記述された文又は語句の文節の前記2種類以上の要素の順序に並べ替えるための予め定められた要素並べ替え規則に従って、前記学習データ言語解析部により分類された前記2種類以上の要素の順序を並べ替えることにより、前記文又は語句の語順を並べ替え、前記翻訳モデル学習部は、前記学習データ並べ替え部により要素の順序を並べ替えられた各対訳データの日本語で記述された文又は語句と、各対訳データの前記特定言語で記述された文又は語句とに基づいて、前記複数種類の翻訳モデルを学習し、前記モデル重み学習部は、前記学習データ並べ替え部により要素の順序を並べ替えられた各対訳データの日本語で記述された文又は語句と、各対訳データの前記特定言語で記述された文又は語句と、前記翻訳モデル学習部により学習された複数種類の翻訳モデルとに基づいて、前記複数種類の翻訳モデルの各々に対する重みを学習する。
第7の発明に及び第8の発明によれば、学習データ言語解析部によって、各対訳データの日本語で記述された文又は語句の各文節内の各要素を2種類以上の要素に分類し、学習データ並べ替え部によって、予め定められた文節並べ替え規則に従って、各対訳データの日本語で記述された文又は語句の文節の順序を並べ替え、予め定められた要素並べ替え規則に従って、分類された2種類以上の要素の順序を並べ替え、翻訳モデル学習部によって、要素の順序を並べ替えられた各対訳データの日本語で記述された文又は語句と、各対訳データの特定言語で記述された文又は語句とに基づいて、複数種類の翻訳モデルを学習し、モデル重み学習部によって、複数種類の翻訳モデルの各々に対する重みを学習する。
このように、第7の発明及び第8の発明によれば、日本語で記述された文又は語句の各文節内の各要素を2種類以上の要素に分類し、予め定められた文節並べ替え規則に従って、日本語で記述された文又は語句の文節の順序を並べ替え、予め定められた要素並べ替え規則に従って、分類された2種類以上の要素の順序を並べ替えることによって語順を並べ替え、語順を並べ替えた日本語で記述された文又は語句と、対応する対訳データに含まれる特定言語で記述された文又は語句とに基づいて、複数種類の翻訳モデル及び複数種類の翻訳モデルの各々に対する重みを学習することにより、精度良く翻訳を行うことが出来る翻訳モデルを学習することが出来る。
また、第1の発明において、文節内の各要素を、内容語と機能語とに分類してもよい。
また、第1の発明において、入力文に対する係り受け解析の結果から得られる文節間の係り受け関係に基づいて、文節毎に、文節の前記2種類以上の要素の順序を並べ替えるか否かを判断し、2以上の要素の順序を並べ替えてもよい。
また、第1の発明において、文節毎に、入力文に対する係り受け解析の結果から得られる文節の係り元及び係り先の少なくとも一方の文節の要素の構成に基づいて、2種類以上の文節の要素の順序を並べ替えるか否かを判断し、2種類以上の要素の順序を並べ替えてもよい。
また、第1の発明は、文節毎に、入力文に対する係り受け解析の結果から得られる文節間の係り受け関係と、文節の係り元及び係り先の少なくとも一方の文節の要素の構成とに基づいて、文節の2種類以上の要素の順序を並べ替えるか否かを判断し、2種類以上の要素の順序を並べ替えてもよい。
また、第1の発明は、文節毎に、文節の機能語が文節の先頭に配置されるように、文節の2種類以上の要素の順序を並べ替えてもよい。
また、本発明のプログラムは、コンピュータを、上記の語順並べ替え装置、翻訳装置、翻訳モデル学習装置を構成する各部として機能させるためのプログラムである。
以上説明したように、本発明の語順並べ替え装置、方法、及びプログラムによれば、入力文の文節内の各要素を2種類以上の要素に分類し、分類された2種類以上の要素の順序を並べ替えることにより、入力文の語順を精度良く並べ替えを行うことができる。
また、本発明の翻訳装置、方法、及びプログラムによれば、入力文の各文節内の各要素を2種類以上の要素に分類し、予め定められた文節並べ替え規則に従って、入力文の文節の順序を並べ替え、予め定められた要素並べ替え規則に従って、分類された2種類以上の要素の順序を並べ替え、入力文を特定言語で記述された文に翻訳することにより、入力文を精度良く翻訳を行うことが出来る。
また、本発明の翻訳モデル学習装置、方法、及びプログラムによれば、日本語で記述された文又は語句の各文節内の各要素を2種類以上の要素に分類し、予め定められた文節並べ替え規則に従って、日本語で記述された文又は語句の文節の順序を並べ替え、予め定められた要素並べ替え規則に従って、分類された2種類以上の要素の順序を並べ替えることによって語順を並べ替え、語順を並べ替えた日本語で記述された文又は語句と、対応する対訳データに含まれる特定言語で記述された文又は語句とに基づいて、複数種類の翻訳モデルを学習し、語順を並べ替えた日本語で記述された文又は語句と、対応する対訳データに含まれる特定言語で記述された文又は語句と、複数種類の翻訳モデルとに基づいて、複数種類の翻訳モデルの各々に対する重みを学習することにより、精度良く翻訳を行うことが出来る翻訳モデルを学習することが出来る。
本発明の実施の形態に係る翻訳装置の構成を示す概略図である。 本発明の実施の形態に係る翻訳モデル学習装置の構成を示す概略図である。 本発明の実施の形態に係る翻訳モデル学習装置における翻訳モデル学習処理ルーチンの内容を示すフローチャートである。 本発明の実施の形態に係る翻訳装置における翻訳処理ルーチンの内容を示すフローチャートである。 KNPの解析結果を示す図である。 KNPの解析結果の解釈を示す図である。 文節の並べ替え規則に従い文節を並べ替えた例を示す図である。 文節内要素を並べ替えた例を示す図である。 英語学習データの単語分割結果を示す図である。 日本語学習データの並べ替え結果を示す図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<発明の概要>
本発明の実施の形態では、日本語から英語への翻訳を対象とした事前並べ替えのための、日本語の構文解析結果に対して適用する並べ替え規則を提供し、それに基づく日本語から英語への機械翻訳を実現する。本発明の実施の形態では、並べ替え規則に基づいて、文節の順序を入れ替えるだけでなく、例えば、英語の前置詞の位置に合うよう助詞等の機能語を当該文節の先頭に移動させるように、並べ替え規則に基づいて文節内の単語についても並べ替え、従来の技術よりさらに英語に近い語順に日本語を並べ替えられるようにする。なお、本発明の実施の形態において、その語単独で意味を持つ語を「内容語」、内容語に付属する形でのみ使用され、付属する内容語の構文的あるいは意味的役割を表す語を「機能語」とする。
<翻訳装置の構成>
本発明の実施の形態に係る翻訳装置について説明する。図1に示すように、本発明の実施の形態に係る翻訳装置100は、CPUと、RAMと、後述する翻訳処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この翻訳装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部70とを備えている。
入力部10は、キーボードなどの入力装置から日本語の入力文を受け付ける。入力される文は前処理としてHTMLやXMLなどのタグの除去、表記の正規化等がされ、入力時においては適切な入力形式に変換された状態で入力される。なお、入力部10は、ネットワーク等を介して外部から入力されたものを受け付けるようにしてもよい。
演算部20は、言語解析部30と、並べ替え部40と、翻訳部42と、モデル記憶部44と、を備えている。
言語解析部30は、形態素解析部32と、構文解析部34と、述語項構造解析部36と、を備えている。言語解析部30は、入力部10において受け付けた日本語で記述された入力文に対して形態素解析、構文解析、及び述語項構造解析を行う。
形態素解析部32は、入力部10において受け付けた日本語で記述された入力文に対して、公知の形態素解析器(JUMAN、MeCab等)を利用し、形態素解析(単語区切りと品詞の同定)を行う。
構文解析部34は、形態素解析部32において形態素解析された日本語で記述された文に対して構文解析を行う。本実施の形態においては、日本語の文節単位での係り受け構造を利用するため、公知の係り受け解析器(KNP、CaboCha等)を用いて、構文解析を行う。これらの係り受け解析器では、文節間の係り受けを解析すると共に、文節内の各要素としての各単語に「内容語」と「機能語」の分類を与える。なお、「内容語」と「機能語」が2種類以上の要素の一例であり、内容語の分類のみが与えられる文節や、機能語の分類のみが与えられる文節が存在する可能性がある。
述語項構造解析部36は、構文解析部34において構文解析された日本語の文に対して、公知の述語項構造解析器(KNP、SynCha等)を利用し、述語項構造解析を行う。ここで、述語項構文解析とは、述語(動詞、形容詞、動作を表す名詞)に対し、日本語であれば「ガ格」と呼ばれる主語、「ヲ格」と呼ばれる目的語、「ニ格」と呼ばれる対象を表す語句を同定することである。述語項構造解析により、文節間の係り受けは、係り元と係り先という情報だけでなく、その係り受けがどのような構文的役割を表すかを求めることができる。
並べ替え部40は、言語解析部30で得られた日本語で記述された文についての、日本語の係り受け構造及び述語項構造を利用して、日本語で記述された文について、英語で記述された文の語順に相似するように文節及び文節内の単語を並べ替える。具体的には、以下に示す、日本語で記述された文の文節の順序を英語で記述された文の文節の順序に並べ替えるための予め定められた文節の並べ替え規則により文節を並べ替え、その後に、日本語で記述された文の文節の「内容語」と「機能語」の順序を英語で記述された文の文節の「内容語」と「機能語」の順序に並べ替えるための予め定められた単語の並べ替え規則により各文節の単語を並べ替える。なお、単語の並べ替え規則が要素並べ替え規則の一例である。
英語では述語は主語の直後に置かれるため、上記非特許文献2と同様の以下の(1)〜(3)の文節の並べ替え規則に従って述語文節を並べ替える。
(1)述語文節を主語文節(ガ格)の直後に移動する。
(2)主語文節がない場合は目的語文節(ヲ格)及び対象文節(ニ格)のうちの何れか前方にあるものの直前に述語文節を移動する。
(3)述語文節が動詞連用形の文節である場合、当該述語文節を係り先の単語(被修飾語)の直後に移動する。
また、主語文節、目的語文節、対象文節のいずれも得られない場合には、例外として、以下の(4)の文節の並べ替え規則を利用する。
(4)主語文節、目的語文節、対象文節のいずれも存在しない場合は、述語文節を文末から数えて2番目になる位置に移動する。
なお、係り受け構造は階層的な構造であるため、係り受けの各階層において、係り先となる述語文節を上記文節の並べ替え規則に従って移動させる操作を行う。
最後に、各文節の単語(内容語、機能語)を当該文節内で以下の(5)の単語の並べ替え規則に従って並べ替える。
(5)機能語を文節の先頭に移動させる。
上記(5)の単語の並べ替え規則に従った並べ替えを行うか否かを、文節間の係り受け関係、当該文節の文節内要素の構成、又は当該文節を係り先とする文節の文節内要素の構成に基づいて判断する。
具体的には、文節間の係り受け関係において、文全体の述語文節における機能語が助動詞や終助詞である場合、当該機能語を文節の先頭(動詞の前)に移動する必要はないため、文全体の述語文節になっている(係り先がない)場合は、上記(5)の単語の並べ替え規則に基づく並べ替えを行わないように判断する。
また、当該文節の文節内要素の構成において、主語文節の機能語が「格助詞」の「が」「は」である場合、上記(5)の単語の並べ替え規則に基づく並べ替えを行わないように判断する。
また、当該文節を係り先とする文節の文節内要素の構成において、係り元の文節(当該文節を係り先とする文節)が格助詞「が」「は」を含んでいる場合、係り元の文節が格助詞「を」を含んでいる場合は、当該文節は述語文節であるため、上記(5)の単語の並べ替え規則に基づく並べ替えを行わないように判断する。また、当該文節を係り元とする文節の文節内要素の構成に基づいて、単語の並べ替え規則に基づく並べ替えを行うか否かを判断してもよい。
また、上記の文節間の係り受け関係、当該文節の文節内要素の構成、当該文節を係り先とする文節の文節内要素の構成、及び当該文節を係り元とする文節の文節内要素の構成の各々に基づく並べ替えの判断条件を組み合わせることによって、文節内要素を並べ替えるか否かを判断するようにしてもよい。
翻訳部42は、公知の機械翻訳器を用いて、並べ替え部40において並べ替えられた日本語の入力文を翻訳し、複数の翻訳候補文の中から、モデル記憶部44に記憶されている複数の翻訳モデルと翻訳モデルの各々に対する重みに基づいて、翻訳スコアが最適な翻訳候補文を選択し、出力部70に出力する。なお、翻訳の方法は、非特許文献4(Phillip Koehn, Franz Josef Och, and Daniel Marcu. 2003. Statistical Phrase-based Translation. In Proc. HLT- NAACL, pages 263-270.)の公知の統計的機械翻訳の技術によって実現すればよく、詳細な説明を省略する。
モデル記憶部44は、後述する翻訳モデル学習装置200のモデル記憶部262に記憶されている翻訳モデルと翻訳モデルの各々に対する重みと同一の翻訳モデルと翻訳モデルの各々に対する重みが記憶されている。
出力部70は、翻訳部42において翻訳された英語で記述された文に、入力前の処理で削除したXMLやHTMLタグなどの復元や追加を行い、出力装置もしくはネットワーク等によって外部に出力する。
<翻訳モデル学習装置の構成>
次に、本発明の実施の形態に係る翻訳モデル学習装置の構成について説明する。図2に示すように、本発明の実施の形態に係る翻訳モデル学習装置200は、CPUと、RAMと、後述する翻訳モデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することができる。この翻訳モデル学習装置200は、機能的には図2に示すように入力部210と、演算部220と、出力部270とを備えている。
入力部210は、キーボードなどの入力装置から複数の日本語と英語の対訳となっている文対、語句対(対訳データ)の集合である学習用並行コーパスを受け付ける。なお、入力部210は、ネットワーク等を介して外部から入力されたものを受け付けるようにしてもよい。
演算部220は、学習用並行コーパス250と、モデル学習部252と、モデル記憶部262とを備えている。
学習用並行コーパス250は、入力部210において受け付けた学習用並行コーパスが記憶されている。なお、学習用並行コーパスは、日本語と英語の対訳文が同じ行数の位置に記載されたテキストファイルである。
モデル学習部252は、学習データ言語解析部254と、学習データ並べ替え部256と、モデル用並行コーパス257と、翻訳モデル学習部258と、翻訳部259と、モデル重み学習部260と、を備えている。モデル学習部252は、学習用並行コーパス250に記憶されている、学習用並行コーパスを利用して統計的な翻訳モデル及びモデル重みを学習し、モデル記憶部262に記憶する。
学習データ言語解析部254は、学習用並行コーパスに含まれる日本語及び英語の対訳データ毎に、日本語及び英語の言語解析を行う。日本語の言語解析は、翻訳装置100の言語解析部30で行われる言語解析と同一の言語解析(形態素解析、構文解析、述語項構造解析)を行う。一方、英語の言語解析は単語区切りの同定を行う。英語は通常単語毎に分割されているため、文末記号等を切り出すのみでもよいし、その他当該分野において一般的に用いられる単語分割方法を利用しても良い。
学習データ並べ替え部256は、学習データ言語解析部254において言語解析された複数の対訳データ毎に、対訳データに含まれる日本語の文又は語句に対して、翻訳装置100の並べ替え部40で用いられている並べ替え規則と同様の並べ替え規則を用いて、文節及び文節内の単語を並べ替えることによって語順を並べ替える。学習データ並べ替え部256は、並べ替えられた日本語で記述された文又は語句と、対応する対訳データに含まれる英語で記述された文又は語句(単語に区切られたもの)とを併せてモデル用並行コーパスとしてモデル用並行コーパス257に各々記憶する。
モデル用並行コーパス257は、学習データ並べ替え部256において並べ替えられた日本語で記述された文又は語句と、対応する対訳データに含まれる英語で記述された文又は語句(単語に区切られたもの)とを併せた対訳データの集合をモデル用並行コーパスとして記憶している。
翻訳モデル学習部258は、モデル用並行コーパス257に記憶されている対訳データの集合に基づいて、複数の統計的な翻訳モデルを学習し、モデル記憶部262に記憶する。統計的な翻訳モデルには、非特許文献4に代表される統計的機械翻訳技術で利用される「語句翻訳モデル」、「語句並べ替えモデル」、「言語モデル」等があり、機械翻訳の制約として適宜その構成を選択可能である。学習の方法は非特許文献4などが広く知られているが、本実施の形態においては、特定の方法に限定されず適用可能である。
例えば、翻訳モデル学習部258は、モデル用並行コーパス257に記憶されている日本語で記述された文又は語句と、英語で記述された文又は語句からなる対訳データに基づいて、統計的な語句翻訳モデルと語句並べ替えモデルの各々を学習する。また、モデル用並行コーパス257に記憶されている英語で記述された文又は語句に基づいて、言語モデルを学習する。
翻訳部259は、重み学習用データであるモデル用並行コーパスに記憶されている日本語の文又は語句の各々について、公知の機械翻訳器と、モデル記憶部262に記憶されている複数の翻訳モデル及び複数の翻訳モデルの各々に対する重みと、を用いて複数の翻訳候補を作成する。例えば、モデル記憶部262に記憶されている翻訳モデルの各々に対する重みを用いて翻訳スコア(例えば、各翻訳モデルのスコアの重み付き加算値)を算出し、算出された翻訳スコアが一定の値よりも大きい翻訳候補のみを翻訳候補として抽出する。
モデル重み学習部260は、重み学習用データの複数の翻訳候補と、モデル用並行コーパス257に記憶されている当該重み学習用データに対応する英語で記述された文又は語句(正解翻訳)とに基づいて、翻訳部259において抽出された各翻訳候補に対する翻訳評価尺度(例えば、BLEU値)を算出する。
そして、モデル重み学習部260は、翻訳部259において抽出された翻訳候補の各々の翻訳評価尺度に基づいて、良い翻訳である翻訳候補ほど、モデル記憶部262に記憶されている翻訳モデルの各々に対する重みを用いて算出される翻訳スコア(例えば、各翻訳モデルのスコアの重み付き加算値)が高くなるように、翻訳モデルの各々に対する重みを最適化し、翻訳モデルの各々に対する重みをモデル記憶部262に記憶する。
上記の翻訳部259において行われる翻訳候補の抽出と、モデル重み学習部260において行われる重みの学習とは、翻訳モデルの各々に対する重みが収束するまで繰り返して行われる。
出力部270は、モデル記憶部262に記憶されている翻訳モデル及びモデル重みを出力する。
<翻訳モデル学習装置の作用>
次に、本発明の実施の形態に係る翻訳モデル学習装置200の作用について説明する。まず、入力部210により、日本語と英語の対訳となっている文対、語句対(対訳データ)の集合である学習用並行コーパスが入力され、学習用並行コーパス250に記憶される。そして、翻訳モデル学習装置200のROMに記憶されたプログラムを、CPUが実行することにより、図3に示す翻訳モデル学習処理ルーチンが実行される。
まず、ステップS200では、学習用並行コーパス250に記憶されている学習用並行コーパスを読み出す。
次に、ステップS202では、ステップS200において読み込んだ学習用並行コーパスに含まれる日本語の文又は語句の各々について、公知の形態素解析器(JUMAN、MeCab等)を利用し、形態素解析(単語区切りと品詞の同定)を行う。
次に、ステップS204では、ステップS202において形態素解析された日本語で記述された文又は語句の各々について、公知の係り受け解析器(KNP、SynCha等)を用いて、文節間の係り受けを解析すると共に、文節内の各単語に「内容語」及び「機能語」の分類を与える。
次に、ステップS206では、ステップS204において構文解析された日本語で記述された文又は語句の各々について、公知の述語項構造解析器(KNP、SynCha等)を利用し、述語項構造解析を行い、述語文節(動詞、形容詞、動作を表す名詞)に対し、「ガ格」と呼ばれる主語文節、「ヲ格」と呼ばれる目的語文節、「ニ格」と呼ばれる対象文節を同定する。
次に、ステップS207では、ステップS200において読み込んだ学習用並行コーパスに含まれる英語で記述されている文又は語句の各々について、単語区切りの同定を行う。
次に、ステップS208では、ステップS206において述語項構造解析を行った日本語で記述された文又は語句の各々について、文節の並べ替え規則を用いて、文節を並べ替えた後に、単語の並べ替え規則を用いて、文節内の単語を並べ替えることによって語順を並べ替え、並べ替えられた日本語で記述された文又は語句と、対応する対訳データに含まれる英語で記述された文又は語句(ステップS207で取得したもの)とを併せてモデル用並行コーパスとしてモデル用並行コーパス257に記憶する。
次に、ステップS212では、モデル用並行コーパス257に記憶されている日本語で記述された文又は語句と、英語で記述された文又は語句からなる対訳データの集合に基づいて、統計的な語句翻訳モデルと語句並べ替えモデルの各々を学習し、モデル用並行コーパス257に記憶されている英語で記述された文又は語句の各々に基づいて、言語モデルを学習する。そして、学習した各翻訳モデルをモデル記憶部262に記憶する。また、各翻訳モデルの各々に対する重みの初期値をモデル記憶部262に記憶する。
次に、ステップS214では、ステップS208において語順を並べ替えた日本語で記述された文又は語句の各々について、公知の機械翻訳器と、上記ステップS212で学習した各翻訳モデルと、モデル記憶部262に記憶されている翻訳モデルの各々に対する重みとを用いて、翻訳スコアに基づいて、複数の翻訳候補を作成する。
ステップS216では、上記ステップS214で作成された複数の翻訳候補の各々について、モデル用並行コーパス257に記憶されている当該翻訳候補に対応する英語で記述された文又は語句(正解翻訳)に基づいて、各翻訳候補に対する翻訳評価尺度を算出する。
そして、各翻訳候補の翻訳評価尺度と、各翻訳候補の翻訳スコアとに基づいて、翻訳モデルの各々に対する重みを最適化し、翻訳モデルの各々に対する重みを学習し、モデル記憶部262に記憶する。
次に、ステップS218では、ステップS216で学習した翻訳モデルの各々に対する重みが収束したか否かを判定する。収束している場合には、処理を終了する。収束していない場合には、ステップS214に移行する。
<翻訳装置の作用>
次に、本発明の実施の形態に係る翻訳装置100の作用について説明する。まず、入力部10により、翻訳モデル学習装置200によって学習された複数の翻訳モデル及び翻訳モデルの各々に対する重みが入力されモデル記憶部44に記憶される。そして、入力部10により、日本語で記述された文が入力されると、翻訳装置100のROMに記憶されたプログラムを、CPUが実行することにより、図4に示す翻訳処理ルーチンが実行される。
まず、ステップS100において、日本語で記述された入力文を受け付ける。
次に、ステップS102において、ステップS100において受け付けた日本語で記述された入力文に対して、公知の形態素解析器(JUMAN、MeCab等)を利用し、形態素解析(単語区切りと品詞の同定)を行う。
次に、ステップS104において、ステップS102において形態素解析された入力文に対して、公知の係り受け解析器(KNP、CaboCha等)を使用して構文解析を行い、文節間の係り受けを解析すると共に、文節内の各単語に「内容語」及び「機能語」の分類を与える。
次に、ステップS106において、ステップS104において構文解析された入力文に対して、公知の述語項構造解析器(KNP、SynCha等)を利用し、述語項構造解析を行い、述語文節に対し、主語文節、目的語文節、対象文節を同定する。
次に、ステップS108において、ステップS106において述語項構造解析を行った入力文について、文節の並べ替え規則を用いて、文節を並べ替えた後に、単語の並べ替え規則を用いて、文節内の単語を並べ替えることによって語順を並べ替える。
次に、ステップS112において、ステップS108において取得した語順を並べ替えた入力文について、公知の機械翻訳器を用いて翻訳し、複数の翻訳候補文の中から、モデル記憶部44に記憶されている複数の翻訳モデルと翻訳モデルの各々に対する重みに基づいて、翻訳スコアが最適な翻訳候補文を選択する。
次に、ステップS114において、ステップS112において選択した翻訳結果を出力して処理を終了する。
<翻訳モデル学習装置200の実施例>
次に、約300万文の日本語・英語並行コーパスから統計翻訳モデルの学習を行った実施例について以下説明する。
翻訳モデル学習装置200の学習データ言語解析部254において、日本語及び英語の言語解析を行う。日本語の言語解析は翻訳装置100の言語解析部30と同一の処理を行う。英語の言語解析はMosesに同梱されている単語分割プログラムを利用し、単語分割のみ行う。日本語の言語解析結果は言語解析部30と同様の結果である。英語の単語分割結果の例を図9に示す。
翻訳モデル学習装置200の学習データ並べ替え部256において、並行コーパスの日本語については、翻訳装置100の並べ替え部40と同様の並べ替え処理を行う。当該処理の結果を図10に示す。
上述の通り、日本語と英語の並行コーパスは、並べ替えられた日本語の単語列の集合と、英語の単語列の集合に書き換えられる。各単語列の集合は前記単語区切りの結果の例のように単語ごとに半角空白で区切られた、1行に1文が格納されたテキストファイルである。翻訳モデル学習においては、Mosesで提供されている学習プログラムにより、日本語と英語の単語列の集合を表すテキストファイルから、「語句翻訳モデルDB:phrase-table.gz」「語句並べ替えモデルDB:reordering-table.wbe-msd-bidirectional-fe.gz」を作成する。
また、公知の言語モデル学習プログラムSRILMにより、英語の単語列の集合のテキストファイルから「言語モデルDB:ja.5gram.arpa.gz」を作成する。本実施例では、単語5グラム言語モデルを作成する。
さらに、モデル間の重みの最適値を決定する「誤り最小化学習」(Minimum Error Rate Training:MERT)と呼ばれる公知の方法(非特許文献5)によって、各モデルに対する重みを学習し、前記モデルDBの情報と併せて、翻訳プログラム設定ファイルに書き出す。
<翻訳装置100の実施例>
「データ保存装置10がデータ収集装置20に接続される。」という日本語文を、翻訳装置100が実装された計算機端末に入力した場合の実施例を以下に示す。
本実施例では日本語の言語解析に公知の日本語形態素解析ソフトウェアJUMAN、及び公知の述語項構造解析を含む構文解析ソフトウェアKNPを利用する。本実施例においては、形態素解析ステップ、構文解析ステップ、述語項構造解析ステップを一括で行うために、入力部10から入力された日本語文を計算機端末の標準入力からJUMANに入力し、その出力を直接KNPの入力とするように構成している。また、KNP解析結果は図5のように出力される。なお、上記図5では、本実施例で利用しない情報の一部を取り除いて表記している。
行頭の記号「*」は文節の始まりを示し、行頭の記号「+」は続く行に示された単語が内容語であることを示している。この解析結果の解釈は図6に示す通りである。
翻訳装置100の並べ替え部40は、文節の並べ替え規則に従い、日本語文の文節を並べ替える。本実施例では、上記の日本語文の述語文節を主語(ガ格)文節の直後に移動する。ただし、句点は文末を表す記号であることを考慮し、文末に残したままにする。並べ替えの結果は、図7に示すようになる。そして、各文節の文節内の機能語を、主語文節の助詞「は」「が」を除いて文節の先頭へ並べ替えると、図8に示すようになる。
なお、入力文が、「図1に示すデータ保存装置10がデータ収集装置20に接続される」のように、文節「データ保存装置10が」がさらに別の文節によって修飾されているような場合には、階層的な処理が必要となる。まず、「図1に示す」→「データ保存装置10が」という文節間の関係に基づき、述語文節が動詞連用形の文節である場合、当該述語文節を係り先の単語の直後に移動する、という文節の並べ替え規則、主語文節がない場合は目的語文節(ヲ格)及び対象文節(ニ格)のうちの何れか前方にあるものの直前に述語文節を移動する、という文節の並べ替え規則、及び単語の並べ替え規則に従って、「データ保存装置10「示すに図1」が」のように並べ替えて、その後、上述の文節の並べ替え規則に従って、文節の並べ替えを行う。
翻訳装置100の翻訳部42は、並べ替え部40で並べ替えられた日本語の文を英語に翻訳する。本実施例では、翻訳モデル学習装置200の翻訳モデル学習部258で学習された統計翻訳モデル(句翻訳モデル、句並べ替えモデル、言語モデル)及び各モデルに対する重みを利用し、公知の統計翻訳ソフトウェアMosesを用いた。本実施例においてはMosesの「the data storage device 10 is connected to a data collecting device 20.」との出力結果を出力部70に出力する。
上記の実施例の方法で実現された機械翻訳プログラムは、従来技術で構成された機械翻訳プログラムおよび従来の主辞後置型並べ替え方法に基づく機械翻訳プログラムより高い翻訳性能を示すことが分かった。約300万文の日英並行コーパスで学習された統計モデルを用いた実験において、当該分野で最も一般的に用いられる評価指標BLEUの値が、事前並べ替え処理を行わない従来技術で構成された機械翻訳プログラムでは0.2956であったのに対し、本実施例の機械翻訳プログラムでは0.3170を達成している。
以上説明したように、本発明の実施の形態に係る翻訳装置によれば、入力文の各文節内の各単語を「内容語」、「機能語」に分類し、予め定められた文節の並べ替え規則に従って、入力文の文節の順序を並べ替え、予め定められた単語の並べ替え規則に従って、「内容語」、「機能語」の順序を並べ替えることによって語順を並べ替え、語順を並べ替えた入力文を翻訳先言語で記述された文に翻訳することにより、入力文を精度良く翻訳することが出来る。
また、本発明の実施の形態に係る翻訳モデル学習装置によれば、日本語の文又は語句の各文節内の各単語を「内容語」、「機能語」に分類し、予め定められた文節の並べ替え規則に従って、日本語の文又は語句の文節の順序を並べ替え、予め定められた単語の並べ替え規則に従って、「内容語」、「機能語」の順序を並べ替えることによって語順を並べ替え、語順を並べ替えた日本語の文又は語句と、対応する対訳データに含まれる翻訳先言語で記述された文又は語句とに基づいて、複数種類の翻訳モデルを学習し、語順を並べ替えた日本語で記述された文又は語句と、対応する対訳データに含まれる特定言語で記述された文又は語句と、複数種類の翻訳モデルとに基づいて、複数種類の翻訳モデルの各々に対する重みを学習することにより、精度良く翻訳を行うことが出来る翻訳モデルを学習することが出来る。
また、日本語から英語への翻訳において、日本語の語順を英語に近い語順に並べ替えることが可能になるため、日本語から英語への翻訳において語順の差が非常に小さくなることから、翻訳がより容易になる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、形態素解析と、構文解析と、述語項構造解析とを別々に行う場合を説明したが、これに限定されるものではなく、形態素解析と構文解析を同時に行ってもよい。また、構文解析と述語項構造解析を同時に行ってもよい。
また、日本語を英語の語順に相似するように語順を並べ替える場合について説明したが、これに限定されるものではなく、言語が異なる2言語の第1言語を第2言語の語順に相似するように語順を並べ替えてもよい。
10 入力部
20 演算部
30 言語解析部
32 形態素解析部
34 構文解析部
36 述語項構造解析部
40 並べ替え部
42 翻訳部
44 モデル記憶部
70 出力部
100 翻訳装置
200 翻訳モデル学習装置
210 入力部
220 演算部
250 学習用並行コーパス
252 モデル学習部
254 学習データ言語解析部
256 学習データ並べ替え部
257 モデル用並行コーパス
258 翻訳モデル学習部
259 翻訳部
260 モデル重み学習部
262 モデル記憶部
270 出力部

Claims (14)

  1. 第1言語で記述された入力文の語順を、第1言語とは異なる第2言語で記述された文に近い語順に並べ替える語順並べ替え装置において、
    入力文の各文節について、前記文節内の各要素を2種類以上の要素に分類する構文解析部と、
    前記文節毎に、前記入力文に対する係り受け解析の結果に基づいて、予め定められた前記第1言語の並べ替え規則に従って、前記構文解析部により分類された前記2種類以上の要素の順序を並べ替えるか否かを判断し、前記2種類以上の要素の順序を並べ替えることにより、前記入力文の語順を並べ替える並べ替え部と、
    を含む語順並べ替え装置。
  2. 前記構文解析部は、前記文節内の各要素を、内容語と機能語とに分類する請求項1記載の語順並べ替え装置。
  3. 前記並べ替え部は、前記入力文に対する係り受け解析の結果から得られる前記文節間の係り受け関係に基づいて、前記文節毎に、前記文節の前記2種類以上の要素の順序を並べ替えるか否かを判断し、前記2種類以上の要素の順序を並べ替える請求項1又は2記載の語順並べ替え装置。
  4. 前記並べ替え部は、前記文節毎に、前記入力文に対する係り受け解析の結果から得られる前記文節の係り元及び係り先の少なくとも一方の文節の要素の構成に基づいて、前記文節の前記2種類以上の要素の順序を並べ替えるか否かを判断し、前記2種類以上の要素の順序を並べ替える請求項1又は2記載の語順並べ替え装置。
  5. 前記並べ替え部は、前記文節毎に、前記入力文に対する係り受け解析の結果から得られる前記文節間の係り受け関係と、前記文節の係り元及び係り先の少なくとも一方の文節の要素の構成とに基づいて、前記文節の前記2種類以上の要素の順序を並べ替えるか否かを判断し、前記2種類以上の要素の順序を並べ替える請求項1又は2記載の語順並べ替え装置。
  6. 前記並べ替え部は、前記文節毎に、前記文節の機能語が前記文節の先頭に配置されるように、前記文節の前記2種類以上の要素の順序を並べ替える請求項2記載の語順並べ替え装置。
  7. 日本語で記述された入力文の語順を、日本語とは異なる特定言語で記述された文に近い語順に並べ替える語順並べ替え装置において、
    前記入力文の各文節について、前記文節内の各要素を2種類以上の要素に分類する構文解析部と、
    日本語で記述された文の文節の順序を前記特定言語で記述された文の文節の順序に並べ替えるための予め定められた文節並べ替え規則に従って、前記入力文の文節の順序を並べ替え、前記並べ替えた前記入力文について、前記文節毎に、前記入力文に対する係り受け解析の結果に基づいて、日本語で記述された文の文節の前記2種類以上の要素の順序を前記特定言語で記述された文の文節の前記2種類以上の要素の順序に並べ替えるための予め定められた要素並べ替え規則に従って、前記構文解析部により分類された前記2種類以上の要素の順序を並べ替えるか否かを判断し、前記2種類以上の要素の順序を並べ替えることにより、前記入力文の語順を並べ替える並べ替え部と、
    を含む語順並べ替え装置。
  8. 日本語で記述された入力文を、日本語とは異なる特定言語で記述された文に翻訳する翻訳装置において、
    前記入力文の各文節について、前記文節内の各要素を2種類以上の要素に分類する構文解析部と、
    日本語で記述された文の文節の順序を前記特定言語で記述された文の文節の順序に並べ替えるための予め定められた文節並べ替え規則に従って、前記入力文の文節の順序を並べ替え、前記並べ替えた前記入力文について、前記文節毎に、日本語で記述された文の文節の前記2種類以上の要素の順序を前記特定言語で記述された文の文節の前記2種類以上の要素の順序に並べ替えるための予め定められた要素並べ替え規則に従って、前記構文解析部により分類された前記2種類以上の要素の順序を並べ替えることにより、前記入力文の語順を並べ替える並べ替え部と、
    複数種類の翻訳モデル及び前記複数種類の翻訳モデルの各々に対する重みに基づいて、前記並べ替え部により要素の順序を並べ替えられた前記入力文を、前記特定言語で記述された文に翻訳する翻訳部と、
    を含む翻訳装置。
  9. 予め用意された、日本語で記述された文又は語句と、日本語とは異なる特定言語で記述された文又は語句との対である対訳データの集合に基づいて、日本語で記述された文を、前記特定言語で記述された文に翻訳するための複数種類の翻訳モデル及び前記複数種類の翻訳モデルの各々に対する重みを学習する翻訳モデル学習装置において、
    前記対訳データの集合の各対訳データの日本語で記述された文又は語句の各文節について、前記文節内の各要素を2種類以上の要素に分類する学習データ言語解析部と、
    日本語で記述された文の文節の順序を前記特定言語で記述された文の文節の順序に並べ替えるための予め定められた文節並べ替え規則に従って、各対訳データの日本語で記述された文又は語句の文節の順序を並べ替え、前記並べ替えた前記文又は語句について、前記文節毎に、前記文又は語句の文節の前記2種類以上の要素の順序を前記特定言語で記述された文又は語句の文節の前記2種類以上の要素の順序に並べ替えるための予め定められた要素並べ替え規則に従って、前記学習データ言語解析部により分類された前記2種類以上の要素の順序を並べ替えることにより、前記文又は語句の語順を並べ替える学習データ並べ替え部と、
    前記学習データ並べ替え部により要素の順序を並べ替えられた各対訳データの日本語で記述された文又は語句と、各対訳データの前記特定言語で記述された文又は語句とに基づいて、前記複数種類の翻訳モデルを学習する翻訳モデル学習部と、
    前記学習データ並べ替え部により要素の順序を並べ替えられた各対訳データの日本語で記述された文又は語句と、各対訳データの前記特定言語で記述された文又は語句と、前記翻訳モデル学習部により学習された複数種類の翻訳モデルとに基づいて、前記複数種類の翻訳モデルの各々に対する重みを学習するモデル重み学習部と、
    を含む翻訳モデル学習装置。
  10. 構文解析部と、並べ替え部とを含む、第1言語で記述された入力文の語順を、第1言語とは異なる第2言語で記述された文に近い語順に並べ替える語順並べ替え装置の語順並べ替え方法であって、
    前記構文解析部は、入力文の各文節について、前記文節内の各要素を2種類以上の要素に分類し、
    前記並べ替え部は、前記文節毎に、前記入力文に対する係り受け解析の結果に基づいて、予め定められた前記第1言語の並べ替え規則に従って、前記構文解析部により分類された前記2種類以上の要素の順序を並べ替えるか否かを判断し、前記2種類以上の要素の順序を並べ替えることにより、前記入力文の語順を並べ替える
    語順並べ替え方法。
  11. 構文解析部と、並べ替え部と、を含み、日本語で記述された入力文の語順を、日本語とは異なる特定言語で記述された文に近い語順に並べ替える語順並べ替え装置の語順並べ替え方法であって、
    前記構文解析部は、前記入力文の各文節について、前記文節内の各要素を2種類以上の要素に分類し、
    前記並べ替え部は、日本語で記述された文の文節の順序を前記特定言語で記述された文の文節の順序に並べ替えるための予め定められた文節並べ替え規則に従って、前記入力文の文節の順序を並べ替え、前記並べ替えた前記入力文について、前記文節毎に、前記入力文に対する係り受け解析の結果に基づいて、日本語で記述された文の文節の前記2種類以上の要素の順序を前記特定言語で記述された文の文節の前記2種類以上の要素の順序に並べ替えるための予め定められた要素並べ替え規則に従って、前記構文解析部により分類された前記2種類以上の要素の順序を並べ替えるか否かを判断し、前記2種類以上の要素の順序を並べ替えることにより、前記入力文の語順を並べ替える
    語順並べ替え方法。
  12. 構文解析部と、並べ替え部と、翻訳部と、を含み、日本語で記述された入力文を、日本語とは異なる特定言語で記述された文に翻訳する翻訳装置の翻訳方法であって、
    前記構文解析部は、前記入力文の各文節について、前記文節内の各要素を2種類以上の要素に分類し、
    前記並べ替え部は、日本語で記述された文の文節の順序を前記特定言語で記述された文の文節の順序に並べ替えるための予め定められた文節並べ替え規則に従って、前記入力文の文節の順序を並べ替え、前記並べ替えた前記入力文について、前記文節毎に、日本語で記述された文の文節の前記2種類以上の要素の順序を前記特定言語で記述された文の文節の前記2種類以上の要素の順序に並べ替えるための予め定められた要素並べ替え規則に従って、前記構文解析部により分類された前記2種類以上の要素の順序を並べ替えることにより、前記入力文の語順を並べ替え、
    前記翻訳部は、複数種類の翻訳モデル及び前記複数種類の翻訳モデルの各々に対する重みに基づいて、前記並べ替え部により要素の順序を並べ替えられた前記入力文を、前記特定言語で記述された文に翻訳する
    翻訳方法。
  13. 学習データ言語解析部と、学習データ並べ替え部と、翻訳モデル学習部と、モデル重み学習部と、を含み、予め用意された、日本語で記述された文又は語句と、日本語とは異なる特定言語で記述された文又は語句との対である対訳データの集合に基づいて、日本語で記述された文を、前記特定言語で記述された文に翻訳するための複数種類の翻訳モデル及び前記複数種類の翻訳モデルの各々に対する重みを学習する翻訳モデル学習装置の翻訳モデル学習方法であって、
    前記学習データ言語解析部は、前記対訳データの集合の各対訳データの日本語で記述された文又は語句の各文節について、前記文節内の各要素を2種類以上の要素に分類し、
    前記学習データ並べ替え部は、日本語で記述された文の文節の順序を前記特定言語で記述された文の文節の順序に並べ替えるための予め定められた文節並べ替え規則に従って、各対訳データの日本語で記述された文又は語句の文節の順序を並べ替え、前記並べ替えた前記文又は語句について、前記文節毎に、前記文又は語句の文節の前記2種類以上の要素の順序を前記特定言語で記述された文又は語句の文節の前記2種類以上の要素の順序に並べ替えるための予め定められた要素並べ替え規則に従って、前記学習データ言語解析部により分類された前記2種類以上の要素の順序を並べ替えることにより、前記文又は語句の語順を並べ替え、
    前記翻訳モデル学習部は、前記学習データ並べ替え部により要素の順序を並べ替えられた各対訳データの日本語で記述された文又は語句と、各対訳データの前記特定言語で記述された文又は語句とに基づいて、前記複数種類の翻訳モデルを学習し、
    前記モデル重み学習部は、前記学習データ並べ替え部により要素の順序を並べ替えられた各対訳データの日本語で記述された文又は語句と、各対訳データの前記特定言語で記述された文又は語句と、前記翻訳モデル学習部により学習された複数種類の翻訳モデルとに基づいて、前記複数種類の翻訳モデルの各々に対する重みを学習する
    翻訳モデル学習方法。
  14. コンピュータを、請求項1〜7の何れか1項記載の語順並べ替え装置、請求項8に記載の翻訳装置、又は請求項9に記載の翻訳モデル学習装置を構成する各部として機能させるためのプログラム。
JP2013040796A 2013-03-01 2013-03-01 語順並べ替え装置、翻訳装置、翻訳モデル学習装置、方法、及びプログラム Active JP5800206B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013040796A JP5800206B2 (ja) 2013-03-01 2013-03-01 語順並べ替え装置、翻訳装置、翻訳モデル学習装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013040796A JP5800206B2 (ja) 2013-03-01 2013-03-01 語順並べ替え装置、翻訳装置、翻訳モデル学習装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2014170296A JP2014170296A (ja) 2014-09-18
JP5800206B2 true JP5800206B2 (ja) 2015-10-28

Family

ID=51692668

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013040796A Active JP5800206B2 (ja) 2013-03-01 2013-03-01 語順並べ替え装置、翻訳装置、翻訳モデル学習装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5800206B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6952967B2 (ja) * 2015-03-06 2021-10-27 国立研究開発法人情報通信研究機構 自動翻訳装置
CN111859941B (zh) * 2019-04-30 2023-05-05 广东小天才科技有限公司 一种调整英文语句顺序的方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05266069A (ja) * 1992-03-23 1993-10-15 Nec Corp 中国語と日本語との間の双方向機械翻訳方式
JPH0981568A (ja) * 1995-09-11 1997-03-28 Matsushita Electric Ind Co Ltd 機械翻訳用の中国語生成装置
JP4047900B1 (ja) * 2006-11-15 2008-02-13 日本電信電話株式会社 係り受け解析装置及びそのプログラム
JP2008299777A (ja) * 2007-06-04 2008-12-11 Nippon Hoso Kyokai <Nhk> 多言語単語分類装置及び多言語単語分類プログラム
JP5193798B2 (ja) * 2008-10-24 2013-05-08 日本電信電話株式会社 辞書作成装置、辞書作成方法および辞書作成プログラム並びに辞書作成プログラムを記録した記録媒体
JP2010244385A (ja) * 2009-04-08 2010-10-28 Nec Corp 機械翻訳装置、機械翻訳方法、およびプログラム
JP5544518B2 (ja) * 2010-05-14 2014-07-09 日本電信電話株式会社 機械翻訳装置、機械翻訳方法、およびそのプログラム

Also Published As

Publication number Publication date
JP2014170296A (ja) 2014-09-18

Similar Documents

Publication Publication Date Title
US8670975B2 (en) Adaptive pattern learning for bilingual data mining
CN1954315B (zh) 用于将汉语拼音翻译成汉字的系统和方法
JP3266246B2 (ja) 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法
Mori et al. A machine learning approach to recipe text processing
WO2005059771A1 (ja) 対訳判断装置、方法及びプログラム
JP2007241764A (ja) 構文解析プログラム、構文解析方法、構文解析装置、及び構文解析プログラムが記録されたコンピュータ読み取り可能な記録媒体
JP2013502643A (ja) 構造化データ翻訳装置、システム及び方法
Hadni et al. Hybrid part-of-speech tagger for non-vocalized Arabic text
Mager et al. Probabilistic finite-state morphological segmenter for wixarika (huichol) language
Khairova et al. The Aligned Kazakh-Russian Parallel Corpus Focused on the Criminal Theme.
JP5800206B2 (ja) 語順並べ替え装置、翻訳装置、翻訳モデル学習装置、方法、及びプログラム
JP5552101B2 (ja) 並べ替え規則学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラム
JP5780670B2 (ja) 翻訳装置、方法、及びプログラム、並びに翻訳モデル学習装置、方法、及びプログラム
JP5734917B2 (ja) 並べ替えモデル学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラム
Yeshambel et al. Evaluation of corpora, resources and tools for Amharic information retrieval
Khoufi et al. Supervised learning model for parsing Arabic language
JP6040946B2 (ja) 語順並べ替え装置、翻訳装置、方法、及びプログラム
JP4088171B2 (ja) テキスト解析装置、方法、プログラム及びそのプログラムを記録した記録媒体
JP6461832B2 (ja) オラクル要約探索装置、方法、及びプログラム
JP6083645B2 (ja) 語順並べ替え装置、翻訳装置、翻訳モデル学習装置、方法、及びプログラム
Ouersighni Robust rule-based approach in Arabic processing
Howlett et al. Dual-path phrase-based statistical machine translation
Qamet et al. Development Kazakh-Turkish machine translation on the base of complete set of endings model
JP5462894B2 (ja) 翻訳モデル学習装置、方法、翻訳装置、方法、及びプログラム
KR101638442B1 (ko) 중국어 구문 분절 방법 및 장치

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150127

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150319

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150714

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150812

R150 Certificate of patent or registration of utility model

Ref document number: 5800206

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250