JP2015153182A

JP2015153182A - 語順並べ替え装置、翻訳装置、方法、及びプログラム

Info

Publication number: JP2015153182A
Application number: JP2014026801A
Authority: JP
Inventors: 克仁須藤; Katsuto Sudo; 永田　昌明; Masaaki Nagata; 昌明永田; 翔星野; Sho Hoshino; 祐介宮尾; Yusuke Miyao
Original assignee: Nippon Telegraph and Telephone Corp; Research Organization of Information and Systems
Current assignee: Nippon Telegraph and Telephone Corp; Research Organization of Information and Systems
Priority date: 2014-02-14
Filing date: 2014-02-14
Publication date: 2015-08-24
Anticipated expiration: 2034-02-14
Also published as: JP6040946B2

Abstract

【課題】入力文又は句の語順を適切に並べ替えることできる。
【解決手段】文節同定部３４により、入力文又は句について、機能語を含む各文節を同定し、主部同定部４０により、入力文又は句の主部を同定し、並べ替え部５０により、同定された入力文又は句の主部について、主部に含まれる各文節の順序を反転するように並べ替え、入力文又は句のうち、主部とは異なる部分について、各文節の順序を反転するように並べ替え、主部について並べ替えられた各文節及び主部とは異なる部分について並べ替えられた各文節について、文節同定部により同定された機能語を文節の先頭に並べ替えるように、文節内の語順を並べ替える。
【選択図】図１

Description

本発明は、語順並べ替え装置、翻訳装置、方法、及びプログラムに係り、特に、入力文の語順を並べ替える語順並べ替え装置、翻訳装置、方法、及びプログラムに関する。

言語Ａから言語Ｂへの機械翻訳の処理は、言語Ａの語句から言語Ｂの語句への翻訳と、翻訳された言語Ｂの語句の言語Ｂにおける適切な並べ替えとの２つに大別される。当該分野で広く利用されている統計的翻訳技術においては、大量の対訳文から推定された言語Ａの語句と言語Ｂの語句との対応関係から語句の翻訳と語句の並べ替えを統計的にモデル化し、言語Ａの入力文に対し、それらの統計モデルに基づいて尤もらしい語句の翻訳と語句の並べ替えによって構成される言語Ｂの翻訳文を探索するという方法が採られる。

一般にすべての翻訳文候補を網羅的に探索することは計算量的に非常に困難であるため、各語句の翻訳の候補数を制限し、かつ語句の並べ替えの距離を一定の範囲内に制約することによって実用的な計算量での機械翻訳処理が実現される。

しかし、翻訳の対象となる言語Ａと言語Ｂの組み合わせによっては、対応する語句が大きく異なる順序で現れる可能性があり、そのような言語間の翻訳を正確に行うためには十分に大きな並べ替え距離を考慮した翻訳処理が要求されるため、計算量の増加が避けられないという問題が存在する。

上記問題に対処する技術として、翻訳処理を行う前に言語Ａの語句を対応する言語Ｂの語句の順序に近づけるように並べ替える「事前並べ替え(pre-ordering)」と呼ばれる技術が知られている(特許文献１、非特許文献１)。非特許文献１の方法は、独語から英語、特許文献１の方法は、英語から日本語への翻訳を対象としており、入力文の言語（言語Ａ）の語句を翻訳後の言語（言語Ｂ）の対応する語句の順序に近づけるように並べ替える規則を利用している。

また、日本語から英語への翻訳において、構文解析を利用して日本語の文節の係り受け構造を推定し、文節の順序を入れ替えることによって英語の語順に近づける技術が知られている（非特許文献２、非特許文献３、非特許文献４）。

非特許文献２の方法は、係り受け構造に加え、述語項構造解析と呼ばれるある述語に対する主語や目的語等を推定する技術を利用して主語や目的語を同定し、英語の主語‐動詞‐目的語の順になるように主語や目的語を移動するための規則を利用している。

非特許文献３の方法は、係り受け構造と、助詞を利用して主語や目的語を推定し、非特許文献２の方法と同様の並べ替え規則を利用している。これらの方法は文節の順序を英語に近い順に並べることが期待できるが、文節内の語順は変えないため、「東京に着いた」という句は、「着いた東京に」という語順になるに留まり、対応する英語の「arrived at Tokyo」とは助詞「に」と前置詞「at」の位置に違いが残る。

非特許文献４の方法は、非特許文献２の方法を改良し、日本語の助詞や助動詞等の機能語を文節の先頭に移動することによって、英語の前置詞の位置とほぼ一致するような並べ替えを実現している。また、構文解析を利用せず、日本語の述部を反転させて英語の語順に近づける技術も知られている（非特許文献５）。

特開２０１１−１７５５００号公報

Michael Collins, Philipp Koehn, Ivona Kucerova, "Clause Restructuring for Statistical Machine Translation", In Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics, pp. 531-540, 2005 Mamoru Komachi, Yuji Matsumoto, Masaaki Nagata, "Phrase Reordering for Statistical Machine Translation Based on Predicate-Argument Structure", In Proceedings of International Work-shop on Spoken Language Translation (IWSLT 2006), 2006 Katsuhito Sudoh, Kevin Duh, Hajime Tsukada, Masaaki Nagata, Xianchao Wu, Takuya Matsuzaki and Jun'ichi Tsujii, "NTT-UT Statistical Machine Translation in NTCIR-9 PatentMT", In Proceedings of NTCIR-9, 2011. Sho Hoshino, Yusuke Miyao, Katsuhito Sudoh, Masaaki Nagata, "Two-Stage Pre-ordering for Japanese-to-English Statistical Machine Translation", In Proceedings of IJCNLP, 2013 Jason Katz-Brown and Michael Collins, "Syntactic reordering in preprocessing for Japanese→English translation: MIT system description for NTCIR-7 patent translation task", In Proceedings of the NTCIR-7 Workshop Meeting, 2008.

しかし、非特許文献１及び特許文献１の方法は、言語Ａ側の構文解析と適切な規則を利用することによって並べ替えをかなり正確に行うことができる反面、言語Ａや言語Ｂが異なれば必要な規則も異なるため、新たに規則を定義する必要があるという問題がある。

また、非特許文献２、非特許文献３、及び非特許文献４に記載の方法は文法的に妥当な並べ替えを可能にする一方で、日本語の係り受け解析や述語項構造解析といった処理の正確性の影響を強く受けるという問題がある。また、このような解析を行うためには相応の規則の設計や学習用コーパスの整備などが必要な上、処理対象分野が設計時のものと異なる場合は語彙や文体の違いなどの影響を受けて解析精度が低下することもあるという問題もある。

また、非特許文献５に記載の方法は、解析精度の問題はないが、述部の語順を単純に反転させてしまうために、並列句や複合語のように順序を持つ語句まで逆順に並べ替えてしまい、動詞や目的語という単位の順序はおおむね英語に近づくものの、その内部の語順は望ましい英語の語順と逆になってしまうという問題がある。

本発明は、上記問題点を解決するために成されたものであり、入力文の語順を適切に並べ替えることできる語順並べ替え装置、翻訳装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、第１の発明に係る語順並べ替え装置は、入力文又は句について、機能語を含む各文節を同定する文節同定部と、前記入力文又は句の主部を同定する主部同定部と、前記主部同定部により同定された前記入力文又は句の主部について、前記主部に含まれる各文節の順序を反転するように並べ替え、前記入力文又は句のうち、前記主部とは異なる部分について、各文節の順序を反転するように並べ替え、前記主部について並べ替えられた各文節及び前記主部とは異なる部分について並べ替えられた各文節について、前記文節に含まれる機能語を前記文節の先頭に並べ替えるように、前記文節内の語順を並べ替える並べ替え部と、を含んで構成されている。

第２の発明に係る語順並べ替え方法は、文節同定部と、主部同定部と、並べ替え部と、を含む語順並べ替え装置における語順並べ替え方法であって、前記文節同定部が、入力文又は句について、機能語を含む各文節を同定し、前記主部同定部が、前記入力文又は句の主部を同定し、前記並べ替え部が、前記主部同定部により同定された前記入力文又は句の主部について、前記主部に含まれる各文節の順序を反転するように並べ替え、前記入力文又は句のうち、前記主部とは異なる部分について、各文節の順序を反転するように並べ替え、前記主部について並べ替えられた各文節及び前記主部とは異なる部分について並べ替えられた各文節について、前記文節に含まれる機能語を前記文節の先頭に並べ替えるように、前記文節内の語順を並べ替える。

第１及び第２の発明によれば、文節同定部により、入力文又は句について、機能語を含む各文節を同定し、主部同定部により、入力文又は句の主部の各々を同定し、並べ替え部により、同定された入力文又は句の主部について、各文節の順序を反転するように並べ替え、主部とは異なる部分について、各文節の順序を反転するように並べ替え、並べ替えられた各文節について、文節に含まれる機能語を文節の先頭に並べ替える。

このように、主部の各文節の順序を反転するように並べ替え、主部とは異なる部分についての各文節の順序を反転するように並べ替え、各文節の機能語を文節の先頭に並べ替えることにより、入力文又は句の語順を適切に並べ替えることできる。

また、第１の発明に係る語順並べ替え装置において、前記入力文又は句の各文節から、並列の関係となる文節の組み合わせを同定する並列同定部を更に含み、前記並べ替え部は、前記並列同定部により同定された並列の関係となる文節の組み合わせについての文節の順序を維持するように、前記主部に含まれる各文節の順序を反転するように並べ替え、前記主部とは異なる部分について各文節の順序を反転するように並べ替え、前記並列の関係となる文節の組み合わせについて、最も後方に位置する文節に含まれる機能語を、最も前方に位置する文節の先頭に並べ替え、前記並列の関係となる文節の組み合わせとは異なる各文節について、前記文節に含まれる機能語を前記文節の先頭に並べ替えるように、前記文節内の語順を並べ替えてもよい。

第３の発明に係る翻訳装置は、第１特定言語で記述された入力文又は句を、第１特定言語とは異なる第２特定言語で記述された文又は句に翻訳する翻訳装置において、上記第１の発明の語順並べ替え装置によって前記入力文又は句を並べ替えた結果について、複数種類の翻訳モデル及び前記複数種類の翻訳モデルの各々に対する重みに基づいて、前記第２特定言語で記述された文又は句に翻訳する翻訳部と、を含んで構成されている。

第４の発明に係る翻訳方法は、翻訳部を含む、第１特定言語で記述された入力文又は句を、第１特定言語とは異なる第２特定言語で記述された文又は句に翻訳する翻訳装置における翻訳方法であって、前記翻訳部によって、上記第２の発明の語順並べ替え方法によって前記入力文又は句を並べ替えた結果について、複数種類の翻訳モデル及び前記複数種類の翻訳モデルの各々に対する重みに基づいて、前記第２特定言語で記述された文又は句に翻訳する。

第３及び第４の発明によれば、翻訳部により、語順並べ替え装置によって第１特定言語で記述された入力文又は句を並べ替えた結果について、複数種類の翻訳モデル及び複数種類の翻訳モデルの各々に対する重みに基づいて、第２特定言語で記述された文又は句に翻訳する。

このように、主部の各文節の順序を反転するように並べ替え、主部とは異なる部分についての各文節の順序を反転するように並べ替え、各文節の機能語を文節の先頭に並べ替え、翻訳をすることにより、精度よく翻訳を行うことができる。

また、本発明のプログラムは、コンピュータを、上記の語順並べ替え装置を構成する各部として機能させるためのプログラムである。

また、本発明のプログラムは、コンピュータを、上記の翻訳装置を構成する各部として機能させるためのプログラムである。

以上説明したように、本発明の語順並べ替え装置、方法、及びプログラムによれば、主部の各文節の順序を反転するように並べ替え、主部とは異なる部分についての各文節の順序を反転するように並べ替え、各文節の機能語を文節の先頭に並べ替えることにより、入力文又は句の語順を適切に並べ替えることできる。

また、本発明の翻訳装置、方法、及びプログラムによれば、主部の各文節の順序を反転するように並べ替え、主部とは異なる部分についての各文節の順序を反転するように並べ替え、各文節の機能語を文節の先頭に並べ替え、並べ替えられた文又は句について翻訳を行うことにより、精度よく翻訳を行うことができる。

本発明の実施の形態に係る翻訳装置の機能的構成を示すブロック図である。本発明の実施の形態に係る翻訳モデル学習装置の機能的構成を示すブロック図である。本発明の実施の形態に係る翻訳モデル学習装置における翻訳モデル学習処理ルーチンを示すフローチャート図である。本発明の実施の形態に係る翻訳装置における翻訳処理ルーチンを示すフローチャート図である。ＫＮＰの解析結果の例を示す図である。ＫＮＰの解析結果の解釈の例を示す図である。文分割の例を示す図である。主部の同定の例を示す図である。文節の並べ替え規則を用いて文節を並べ替えた例を示す図である。機能語を文節の先頭に並べ替えた例を示す図である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜本発明の原理＞
本発明の実施の形態において、日本語から英語への翻訳を対象とした事前並べ替えを行うために、上記非特許文献５と同様に日本語で記述された文を主部と述部に分け、その後に上記非特許文献４と同様に文節間・文節内の二段階の並べ替えを行う。特に、本実施の形態においては、文節間の並べ替えにおいて、並列句の順序を誤って反転させることがないように、並列句の情報を利用することで過剰な順序反転を抑制する。なお、日本語を第１特定言語の一例とし、英語を第２特定言語の一例とする。

上記非特許文献４の方法においては、係り受け構造の範囲内に文節の並べ替えが制限されているが、本実施の形態においては、文節の情報までしか利用せず、係り受け構造は並べ替えに利用しない。

また、上記非特許文献５の方法においては、単純に単語順序を反転させるだけであったものを、文節間・文節内の二段階の並べ替えを行うことによって、複合語などの語順反転（例えば、「国立情報学研究所」→「研究所学情報国立」）を抑制する。

また、本実施形態においては、並列構造がある場合に、並列順序を誤って反転させないことにより、並列句の順序反転（例えば、「装置１と装置２が」→「が装置２と装置１」）を抑制する。

＜本発明の実施の形態に係る翻訳装置の構成＞
次に、本発明の実施の形態に係る翻訳装置の構成について説明する。図１に示すように、本発明の実施の形態に係る翻訳装置１００は、ＣＰＵと、ＲＡＭと、後述する翻訳処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この翻訳装置１００は、機能的には図１に示すように入力部１０と、演算部２０と、出力部９０とを備えている。

入力部１０は、キーボードなどの入力装置から日本語の入力文を受け付ける。入力される文は前処理としてＨＴＭＬやＸＭＬなどのタグの除去、表記の正規化等がされ、入力時においては適切な入力形式に変換された状態で入力される。なお、入力部１０は、ネットワーク等を介して外部から入力されたものを受け付けるようにしてもよい。

演算部２０は、言語解析部３０と、並べ替え部５０と、翻訳部５２と、モデル記憶部５４と、を備えている。

言語解析部３０は、形態素解析部３２と、文節同定部３４と、並列同定部３６と、文分割部３８と、主部同定部４０と、を備えている。言語解析部３０は、入力部１０において受け付けた日本語で記述された入力文に対して形態素解析、文節の同定、並列関係となる文節の組み合わせの同定、文の分割、及び主部の同定を行う。

形態素解析部３２は、入力部１０において受け付けた日本語で記述された入力文に対して、公知の形態素解析器（ＪＵＭＡＮ、ＭｅＣａｂ等）を利用し、形態素解析（単語区切りと品詞の同定）を行う。本実施の形態においては、ＪＵＭＡＮを利用する。

文節同定部３４は、形態素解析部３２において形態素解析された日本語で記述された文に対して、文節の同定を行う。具体的には、本実施の形態においては、公知の日本語解析器（ＫＮＰ）を利用して、形態素解析された日本語で記述された文に対して構文解析を行い、当該構文解析の結果のうち文節のみの情報を用いて、各文節について、文節内の各要素としての各単語に、その語単独で意味を持つ「内容語」と、内容語に付属する形でのみ使用され、付属する内容語の構文的あるいは意味的役割を表す「機能語」との分類を与える。なお、内容語のみが同定される文節や、機能語のみが同定される文節が存在する可能性がある。また、「内容語」と「機能語」との分類は、機能語を「助詞及び助動詞」などの特定の品詞に固定した規則を用いて機能語の同定を行ってもよいし、コーパスから学習した分類器を利用してもよい。

なお、公知の日本語解析器（ＣａｂｏＣｈａ等）を利用して、文節の同定を行ってもよいし、文「助詞などの機能語で分割する」というような簡単な規則を用いて、文節の同定を行ってもよい。

並列同定部３６は、文節同定部３４において同定された日本語で記述された入力文の各文節から、並列の関係となる文節の組み合わせを同定する。本実施の形態においては、文節同定部３４において取得した公知の日本語解析器（ＫＮＰ等）による構文解析の結果を利用する。なお、並列の関係となる文節の組み合わせの同定は、接続詞や接続助詞に基づく規則を用いてもよいし、並列構造解析プログラムを用いてもよい。

文分割部３８は、日本語で記述された入力文について、句読点で、当該文を仮想的に分割し、複数の部分文を得る。具体的には、文節同定部３４において取得した公知の日本語解析器（ＫＮＰ等）による構文解析の結果を利用する。これは、日本語では句読点によって、大きく文の構造が分割されることがあり、英語への翻訳においても句読点を跨ぐような長距離の並べ替えを行う必要がないことが多いため、並べ替えは文頭・文末・句読点で挟まれた範囲内に制限すれば十分である場合があるということに基づくものである。そのため、本実施の形態においては、文を仮想的に分割し、複数の部分文に分割することにより、分割点（部分文の範囲）を超えるような並べ替えを行わないように制限させることができる。

主部同定部４０は、日本語で記述された入力文に含まれる主部を同定する。具体的には、文節同定部３４において取得した公知の日本語解析器（ＫＮＰ等）による構文解析の結果を利用し、格助詞「は」、「が」を含む文節という規則に適合する文節を主部として同定する。なお、主部の同定には「格助詞を用いる」等の規則を用いてもよいし、コーパスから学習した分類器を利用してもよい。また、主部とは、「は」、「が」を含む（主部）文節と、それより前の分割点までの間にある文節すべてを含むものとする。また、「は」と「が」とが両方含まれるような場合は、「は」に相当する主部と、「が」に相当する主部とをそれぞれ別の主部として扱ってもよいし、全体で一つの主部として扱ってもよい。

並べ替え部５０は、言語解析部３０で得られた日本語で記述された入力文に含まれる文節の各々と、並列の関係となる文節の組み合わせの同定結果と、主部の同定結果と、部分文への分割結果とを利用して、日本語で記述された文について、部分文の単位において、英語で記述された文の語順に相似するように文節及び文節内の単語を並べ替え、並べ替えられた部分文を結合する。具体的には、以下に示すような処理が行われる。

まず、部分文の単位において、主部同定部４０において主部と同定された部分について、当該部分に含まれる各文節の順序が反転するように並べ替える。なお、並列同定部３６において並列の関係となる文節の組み合わせと同定された文節の組み合わせについては、当該組み合わせに含まれる文節の順序を維持するように並べ替えを行う。なお、主部が複数ある場合には、主部の各々に対して、上記のように並べ替えを行う。

次に、部分文の単位において、主部同定部４０において主部と同定されなかった部分について、当該部分に含まれる各文節の順序が反転するように並べ替える。なお、並列同定部３６において並列の関係となる文節の組み合わせと同定された文節の組み合わせについては、当該組み合わせに含まれる文節の順序を維持するように並べ替えを行う。

次に、部分文の単位において、上記のように並べ替えられた文節の各々について、文節同定部３４において同定された、当該文節に含まれる機能語を、当該文節の先頭に移動させるように語順を並べ替える。なお、並列同定部３６において文節間の並列の関係となる文節の組み合わせと同定された文節の組み合わせについては、当該組み合わせの最も後方にある文節に含まれる機能語を当該組み合わせの最も前方に位置する文節の先頭に並べ替える。なお、特定の機能語については、並べ替えを行わないとしてもよい。例えば、格助詞の「は」、「が」については、並べ替えを行わないようにしてもよい。

そして、全ての部分文について、上記のように並べ替えが行われると、並べ替えられた部分文の各々を連結し、入力部１０において受け付けた日本語で記述された文の語順の並べ替え結果とする。

翻訳部５２は、公知の機械翻訳器を用いて、並べ替え部５０において並べ替えられた日本語で記述された入力文を翻訳し、複数の翻訳候補文の中から、モデル記憶部５４に記憶されている複数の翻訳モデルと翻訳モデルの各々に対する重みに基づいて、翻訳スコアが最適な翻訳候補文を選択し、出力部９０に出力する。なお、翻訳の方法は、非特許文献６（Phillip Koehn, Franz Josef Och, and Daniel Marcu. 2003. Statistical Phrase-based Translation. In Proc. HLT- NAACL, pages 263-270.）の公知の統計的機械翻訳の技術によって実現すればよく、詳細な説明を省略する。

出力部９０は、翻訳部５２において翻訳された英語で記述された文に、入力前の処理で削除したＸＭＬやＨＴＭＬタグなどの復元や追加を行い、出力装置もしくはネットワーク等によって外部に出力する。

＜翻訳モデル学習装置の構成＞
次に、本発明の実施の形態に係る翻訳モデル学習装置の構成について説明する。図２に示すように、本発明の実施の形態に係る翻訳モデル学習装置２００は、ＣＰＵと、ＲＡＭと、後述する翻訳モデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することができる。この翻訳モデル学習装置２００は、機能的には図２に示すように入力部２１０と、演算部２２０と、出力部２９０とを備えている。

入力部２１０は、キーボードなどの入力装置から複数の日本語と英語の対訳となっている文対、語句対（対訳データ）の集合である学習用並行コーパスを受け付ける。なお、入力部２１０は、ネットワーク等を介して外部から入力されたものを受け付けるようにしてもよい。

演算部２２０は、学習用並行コーパス２２２と、モデル学習部２５０と、モデル記憶部２７０とを備えている。

学習用並行コーパス２２２は、入力部２１０において受け付けた学習用並行コーパスが記憶されている。なお、学習用並行コーパスは、日本語と英語の対訳文が同じ行数の位置に記載されたテキストファイルである。

モデル学習部２５０は、学習データ言語解析部２５２と、学習データ並べ替え部２５４と、モデル用並行コーパス２５６と、翻訳モデル学習部２５８と、翻訳部２６０と、モデル重み学習部２６２と、を備えている。モデル学習部２５０は、学習用並行コーパス２２２に記憶されている、学習用並行コーパスを利用して統計的な翻訳モデル及びモデル重みを学習し、モデル記憶部２７０に記憶する。

学習データ言語解析部２５２は、言語解析部３０と同様の形態素解析部、文節同定部、並列同定部、文分割部、及び主部同定部（図示省略）を含み、学習用並行コーパスに含まれる日本語及び英語の対訳データ毎に、日本語及び英語の言語解析を行う。日本語の言語解析は、翻訳装置１００の言語解析部３０で行われる言語解析と同一の言語解析（形態素解析、文節の同定、並列関係となる文節の組み合わせの同定、文の分割、及び主部の同定）を行う。一方、英語の言語解析は単語区切りの同定を行う。英語は通常単語毎に分割されているため、文末記号等を切り出すのみでもよいし、その他当該分野において一般的に用いられる単語分割方法を利用しても良い。

学習データ並べ替え部２５４は、学習データ言語解析部２５２において言語解析された複数の対訳データ毎に、対訳データに含まれる日本語の文又は語句に対して、翻訳装置１００の並べ替え部５０と同様に、部分文の単位において文節及び文節内の単語を並べ替え、連結することによって、語順を並べ替える。学習データ並べ替え部２５４は、並べ替えられた日本語で記述された文又は語句と、対応する対訳データに含まれる英語で記述された文又は語句（単語に区切られたもの）とを併せてモデル用並行コーパスとしてモデル用並行コーパス２５６に各々記憶する。

モデル用並行コーパス２５６は、学習データ並べ替え部２５４において並べ替えられた日本語で記述された文又は語句と、対応する対訳データに含まれる英語で記述された文又は語句（単語に区切られたもの）とを併せた対訳データの集合をモデル用並行コーパスとして記憶している。

翻訳モデル学習部２５８は、モデル用並行コーパス２５６に記憶されている対訳データの集合に基づいて、複数の統計的な翻訳モデルを学習し、モデル記憶部２７０に記憶する。統計的な翻訳モデルには、非特許文献６に代表される統計的機械翻訳技術で利用される「語句翻訳モデル」、「語句並べ替えモデル」、「言語モデル」等があり、機械翻訳の制約として適宜その構成を選択可能である。学習の方法は非特許文献６などが広く知られているが、本実施の形態においては、特定の方法に限定されず適用可能である。

例えば、翻訳モデル学習部２５８は、モデル用並行コーパス２５６に記憶されている日本語で記述された文又は語句と、英語で記述された文又は語句からなる対訳データに基づいて、統計的な語句翻訳モデルと語句並べ替えモデルの各々を学習する。また、モデル用並行コーパス２５６に記憶されている英語で記述された文又は語句に基づいて、言語モデルを学習する。

翻訳部２６０は、重み学習用データであるモデル用並行コーパス２５６に記憶されている日本語の文又は語句の各々について、公知の機械翻訳器と、モデル記憶部２７０に記憶されている複数の翻訳モデル及び複数の翻訳モデルの各々に対する重みと、を用いて複数の翻訳候補を作成する。例えば、モデル記憶部２７０に記憶されている翻訳モデルの各々に対する重みを用いて翻訳スコア（例えば、各翻訳モデルのスコアの重み付き加算値）を算出し、算出された翻訳スコアが一定の値よりも大きい翻訳候補のみを翻訳候補として抽出する。

モデル重み学習部２６２は、重み学習用データの複数の翻訳候補と、モデル用並行コーパス２５６に記憶されている当該重み学習用データに対応する英語で記述された文又は語句（正解翻訳）とに基づいて、翻訳部２６０において抽出された各翻訳候補に対する翻訳評価尺度（例えば、ＢＬＥＵ値）を算出する。

そして、モデル重み学習部２６２は、翻訳部２６０において抽出された翻訳候補の各々の翻訳評価尺度に基づいて、良い翻訳である翻訳候補ほど、モデル記憶部２７０に記憶されている翻訳モデルの各々に対する重みを用いて算出される翻訳スコア（例えば、各翻訳モデルのスコアの重み付き加算値）が高くなるように、翻訳モデルの各々に対する重みを最適化し、翻訳モデルの各々に対する重みをモデル記憶部２７０に記憶する。

上記の翻訳部２６０において行われる翻訳候補の抽出と、モデル重み学習部２６２において行われる重みの学習とは、翻訳モデルの各々に対する重みが収束するまで繰り返して行われる。

出力部２９０は、モデル記憶部２７０に記憶されている翻訳モデル及びモデル重みを出力する。

＜翻訳モデル学習装置の作用＞
次に、本発明の実施の形態に係る翻訳モデル学習装置２００の作用について説明する。まず、入力部２１０により、日本語と英語の対訳となっている文対、語句対（対訳データ）の集合である学習用並行コーパスを受け付け、学習用並行コーパス２２２に記憶される。そして、翻訳モデル学習装置２００のＲＯＭに記憶されたプログラムを、ＣＰＵが実行することにより、図３に示す翻訳モデル学習処理ルーチンが実行される。

まず、ステップＳ１００では、学習用並行コーパス２２２に記憶されている学習用並行コーパスを読み込む。

次に、ステップＳ１０２では、ステップＳ１００において読み込んだ学習用並行コーパスに含まれる日本語の文又は語句の各々について、公知の形態素解析器（ＪＵＭＡＮ、ＭｅＣａｂ等）を利用し、形態素解析（単語区切りと品詞の同定）を行う。

次に、ステップＳ１０４では、ステップＳ１０２において取得した形態素解析済みの日本語で記述された文又は語句の各々について、公知の日本語解析器（ＫＮＰ）を利用して構文解析を行い、当該構文解析の結果のうち文節のみの情報を用いて、各文節について、文節内の各要素としての各単語に、「内容語」と「機能語」との分類を与える。

次に、ステップＳ１０６では、ステップＳ１０２において取得した形態素解析済みの日本語で記述された文又は語句の各々について、公知の日本語解析器を利用した構文解析の結果に基づいて、並列の関係となる文節の組み合わせを同定する。

次に、ステップＳ１０８では、ステップＳ１０２において取得した形態素解析済みの日本語で記述された文又は語句の各々について、公知の日本語解析器を利用した構文解析の結果に基づいて、句読点で、当該文を仮想的に分割し、複数の部分文を得る。

次に、ステップＳ１１０では、ステップＳ１０２において取得した形態素解析済みの日本語で記述された文又は語句の各々について、公知の日本語解析器を利用した構文解析の結果を用いて、格助詞「は」、「が」を含む文節という規則に適合する文節を主部として同定する。

次に、ステップＳ１１２では、ステップＳ１００において読み込んだ学習用並行コーパスに含まれる英語で記述されている文又は語句の各々について、単語区切りの同定を行う。

次に、ステップＳ１１４では、ステップＳ１０２〜ステップＳ１１０までの処理を行った、ステップＳ１００において読み込んだ学習用並行コーパスに含まれる処理対象となる日本語の文又は語句について、ステップＳ１０８において取得した処理対象となる部分文に対して、ステップＳ１０４において取得した文節の情報、ステップＳ１０６において取得した並列の関係となる文節の組み合わせ、及びステップＳ１１０において取得した主部の情報に基づいて、並列の関係となる文節の組み合わせについての文節の順序を維持するように、主部に含まれる各文節の順序を反転するように並べ替えると共に、主部とは異なる部分について各文節の順序を反転するように並べ替える。

次に、ステップＳ１１６では、ステップＳ１１４において取得した並べ替えられた各文節について、ステップＳ１０４において取得した各文節の各単語の「内容語」と「機能語」との分類に基づいて、当該文節に含まれる機能語を先頭に並べ替えるように文節内の単語を並べ替える。

次に、ステップＳ１１８では、処理対象となる日本語の文又は語句に含まれる全ての部分文についてステップＳ１１４〜ステップＳ１１６の処理を終了したか否かの判定を行う。処理対象となる日本語の文又は語句に含まれている全ての部分文についてステップＳ１１４〜ステップＳ１１６の処理を終了した場合には、ステップＳ１２０へ移行し、全ての部分文についてステップＳ１１４〜ステップＳ１１６の処理を終了していない場合には、処理対象となる部分文を変更し、ステップＳ１１４へ移行する。

次に、ステップＳ１２０では、ステップＳ１１６において取得した並べ替えられた部分文の各々を連結した日本語で記述された文又は語句と、対応する対訳データに含まれる英語で記述された文又は語句（ステップＳ１１６で取得したもの）と併せてモデル用並行コーパスとしてモデル用並行コーパス２５６に記憶する。

次に、ステップＳ１２２では、ステップＳ１００において読み込んだ学習用並行コーパスに含まれる日本語の文又は語句の全てについて、ステップＳ１１４〜ステップＳ１２０の処理を終了したか否かを判定する。全ての日本語の文又は語句について、ステップＳ１１４〜ステップＳ１２０の処理を終了した場合には、ステップＳ１２４へ移行し、全ての日本語の文又は語句について、ステップＳ１１４〜ステップＳ１２０の処理を終了していない場合には、処理対象となる日本語の文又は語句を変更し、ステップＳ１１４へ移行する。

次に、ステップＳ１２４では、モデル用並行コーパス２５６に記憶されている日本語で記述された文又は語句と、英語で記述された文又は語句からなる対訳データの集合に基づいて、統計的な語句翻訳モデルと語句並べ替えモデルの各々を学習し、モデル用並行コーパス２５６に記憶されている英語で記述された文又は語句の各々に基づいて、言語モデルを学習する。そして、学習した各翻訳モデルをモデル記憶部２７０に記憶する。また、各翻訳モデルの各々に対する重みの初期値をモデル記憶部２７０に記憶する。

次に、ステップＳ１２６では、ステップＳ１１４〜ステップＳ１２０において語順を並べ替えた日本語で記述された文又は語句の各々について、公知の機械翻訳器と、上記ステップＳ１２４で学習した各翻訳モデルと、モデル記憶部２７０に記憶されている翻訳モデルの各々に対する重みとを用いて、翻訳スコアに基づいて、複数の翻訳候補を作成する。

次に、ステップＳ１２８では、上記ステップＳ１２６で作成された複数の翻訳候補の各々について、モデル用並行コーパス２５６に記憶されている当該翻訳候補に対応する英語で記述された文又は語句（正解翻訳）に基づいて、各翻訳候補に対する翻訳評価尺度を算出する。そして、各翻訳候補の翻訳評価尺度と、各翻訳候補の翻訳スコアとに基づいて、翻訳モデルの各々に対する重みを最適化し、翻訳モデルの各々に対する重みを学習し、モデル記憶部２７０に記憶する。

次に、ステップＳ１３０では、ステップＳ１２８で学習した翻訳モデルの各々に対する重みが収束したか否かを判定する。収束している場合には、処理を終了する。収束していない場合には、ステップＳ１２６に移行する。

＜翻訳装置の作用＞
次に、本発明の実施の形態に係る翻訳装置１００の作用について説明する。まず、入力部１０により、翻訳モデル学習装置２００によって学習された複数の翻訳モデル及び翻訳モデルの各々に対する重みを受け付けモデル記憶部５４に記憶される。そして、入力部１０により、日本語で記述された文を受け付けると、翻訳装置１００のＲＯＭに記憶されたプログラムを、ＣＰＵが実行することにより、図４に示す翻訳処理ルーチンが実行される。

まず、ステップＳ２００では、モデル記憶部５４に記憶されている複数の翻訳モデル及び翻訳モデルの各々に対する重みを読み込む。

次に、ステップＳ２０２では、ステップＳ１０２と同様に、入力部１０おいて受け付けた日本語で記述された入力文に対して、公知の形態素解析器（ＪＵＭＡＮ、ＭｅＣａｂ等）を利用し、形態素解析（単語区切りと品詞の同定）を行う。

次に、ステップＳ２０４では、ステップＳ１０４と同様に、ステップＳ２０２において形態素解析された入力文に対して、公知の日本語解析器（ＫＮＰ）を利用して構文解析を行い、当該構文解析の結果のうち文節のみの情報を用いて、各文節について、文節内の各要素としての各単語に、「内容語」と「機能語」との分類を与える。

次に、ステップＳ２０６では、ステップＳ１０６と同様に、ステップＳ２０４において取得した構文解析の結果に基づいて、並列の関係となる文節の組み合わせを同定する。

次に、ステップＳ２０８では、ステップＳ１０８と同様に、ステップＳ２０４において取得した構文解析の結果に基づいて、公知の日本語解析器を利用した構文解析の結果に基づいて、句読点で、当該文を仮想的に分割し、複数の部分文を得る。

次に、ステップＳ２１０では、ステップＳ１１０と同様に、ステップＳ２０８において取得した文分割された部分文の単位において、ステップＳ２０４において取得した構文解析の結果に基づいて、格助詞「は」、「が」を含む文節という規則に適合する文節を主部として同定する。

次に、ステップＳ２１２では、ステップＳ２０８において取得した入力文の処理対象となる部分文に対して、ステップＳ２０４において取得した文節の情報、ステップＳ２０６において取得した並列の関係となる文節の組み合わせ、及びステップＳ２１０において取得した主部の情報に基づいて、並列の関係となる文節の組み合わせについての文節の順序を維持するように、主部に含まれる各文節の順序を反転するように並べ替えると共に、主部とは異なる部分について各文節の順序を反転するように並べ替える。

次に、ステップＳ２１４では、ステップＳ２１２において取得した並べ替えられた各文節について、ステップＳ２０４において取得した各文節の各単語の「内容語」と「機能語」との分類に基づいて、当該文節に含まれる機能語を先頭に並べ替えるように文節内の単語を並べ替える。

次に、ステップＳ２１６では、入力文に含まれる全ての部分文についてステップＳ２１２〜ステップＳ２１４の処理を終了したか否かの判定を行う。入力文に含まれている全ての部分文についてステップＳ２１２〜ステップＳ２１４の処理を終了した場合には、ステップＳ２１８へ移行し、全ての部分文についてステップＳ２１２〜ステップＳ２１４の処理を終了していない場合には、処理対象となる部分文を変更し、ステップＳ２１２へ移行する。

次に、ステップＳ２１８では、ステップＳ２１４において取得した並べ替えられた部分文の各々を連結する。

次に、ステップＳ２２０において、ステップＳ２１８において取得した語順を並べ替えた入力文について、公知の機械翻訳器を用いて翻訳し、複数の翻訳候補文の中から、ステップＳ２００において取得した複数の翻訳モデルと翻訳モデルの各々に対する重みに基づいて、翻訳スコアが最適な翻訳候補文を選択する。

次に、ステップＳ２２２において、ステップＳ２２０において選択した翻訳結果を出力して処理を終了する。

＜翻訳モデル学習装置２００の実施例＞
次に、約３００万文の日本語・英語並行コーパスから統計翻訳モデルの学習を行った実施例について以下説明する。

翻訳モデル学習装置２００の学習データ言語解析部２５２において、日本語及び英語の言語解析を行う。日本語の言語解析では翻訳装置１００の言語解析部３０と同一の処理を行い、同様の結果が得られる。英語の言語解析ではＭｏｓｅｓに同梱されている単語分割プログラムを利用し、単語分割のみ行う。

翻訳モデル学習装置２００の学習データ並べ替え部２５４において、並行コーパスの日本語については、翻訳装置１００の並べ替え部５０と同様の並べ替え処理を行う。

日本語と英語の並行コーパスは、並べ替えられた日本語の単語列の集合と、英語の単語列の集合に書き換えられる。各単語列の集合は単語ごとに半角空白で区切られた、１行に１文が格納されたテキストファイルである。翻訳モデル学習においては、Ｍｏｓｅｓで提供されている学習プログラムにより、日本語と英語の単語列の集合を表すテキストファイルから、「語句翻訳モデルＤＢ：phrase-table.gz」「語句並べ替えモデルＤＢ：reordering-table.wbe-msd-bidirectional-fe.gz」を作成する。

また、公知の言語モデル学習プログラムＳＲＩＬＭにより、英語の単語列の集合のテキストファイルから「言語モデルＤＢ：ja.5gram.arpa.gz」を作成する。本実施例では、単語５グラム言語モデルを作成する。

さらに、モデル間の重みの最適値を決定する「誤り最小化学習」（Minimum Error Rate Training: MERT）と呼ばれる公知の方法（非特許文献７：Franz J. Och. 2003. Minimum error rate training for statistical machine translation.In Proceedings of the 41st annual conference of the Association for Computational Linguistics, pp.160--167, 2003.）によって、各モデルに対する重みを学習し、前記モデルＤＢの情報と併せて、翻訳プログラム設定ファイルに書き出す。

＜翻訳装置１００の実施例＞
「また、データ保存装置とデータ収集装置がネットワークに接続される。」という日本語文を、翻訳装置１００が実装された計算機端末に入力した場合の実施例を以下に示す。

本実施例では日本語の言語解析に公知の日本語形態素解析ソフトウェアＪＵＭＡＮ、及び公知の構文解析ソフトウェアＫＮＰを利用する。本実施例においては、形態素解析、文節同定、及び並列の関係となる文節の組み合わせの同定を一括で行うために、入力部１０から入力された日本語文を計算機端末の標準入力からＪＵＭＡＮに入力し、その出力を直接ＫＮＰの入力とするように構成している。また、ＫＮＰ解析結果は図５のように出力される。なお、上記図５では、本実施例で利用しない情報の一部を取り除いて表記している。

行頭の記号「＊」は文節の始まりを示し、その後の数字が係り先の文節（０始まりの文節番号）、係タイプ（Ｄは通常の修飾、Ｐは並列）を表す。行頭の記号「＋」は続く行に示された単語が内容語であることを示し、前の行に「＋」で始まる行のない単語は機能語であることを示している。この解析結果の解釈は図６に示す通りである。なお、上記図６では、本実施の形態では係り受けの情報は利用しないため、文節・並列の関係となる文節の組み合わせ・内容語／機能語の情報のみを示す。

また、文分割部３８による文分割において、日本語の句読点を分割点として扱うこととすると、当該入力文は、図７のように分割され、２つの部分文を取得する。

そして、主部同定部４０による主部同定において、「機能語に格助詞「が」を含む文節」という規則を適用し、図８に示すように「部分文１−文節１」と、これと並列の関係となる「部分文１−文節０」とを併せて主部であると同定される。その他の部分は述部と同定する。

翻訳装置１００の並べ替え部５０は、上記のように、日本語文の文節を並べ替える。本実施例では、上記の日本語文の各部分文の主部と述部の各々について、並列の関係となる文節の組み合わせを除き、各文節の順序を反転するように並べ替える。図９に文節を並べ替えた結果を示す。

次に、上記の文節を並べ替えられた日本語文の各部分文についての各文節について、機能語を当該文節の先頭に移動する。ここで、並列の関係となる文節の組み合わせについては、並列の関係となる文節の組み合わせのうち、最後に位置する文節の機能語を並列の関係となる文節の組み合わせの先頭に位置する文節の先頭に移動するという規則を用いる。図１０に、並べ替えの結果を示す。

最後に、並べ替えられた部分文を結合すると「また、がデータ保存装置とデータ収集装置される接続にネットワーク。」という並べ替えられた単語列が得られる。

翻訳装置１００の翻訳部５２は、並べ替え部５０で並べ替えられた日本語の文を英語に翻訳する。本実施例では、翻訳モデル学習装置２００の翻訳モデル学習部２５８で学習された統計翻訳モデル（句翻訳モデル、句並べ替えモデル、言語モデル）及び各モデルに対する重みを利用し、公知の統計翻訳ソフトウェアＭｏｓｅｓを用いた。本実施例においてはＭｏｓｅｓの「then , the data storage device and a data collecting device are connected to the network.」との出力結果を出力部９０に出力する。

上記の実施例の方法で実現された機械翻訳プログラムは、従来技術で構成された機械翻訳プログラムおよび従来の日本語並べ替え方法に基づく機械翻訳プログラムより高い翻訳性能を示すことが分かった。約３００万文の日英並行コーパスで学習された統計モデルを用いた実験において、当該分野で最も一般的に用いられる評価指標ＢＬＥＵ及びＲＩＢＥＳの値が、上記非特許文献４に記載の従来技術で構成された機械翻訳プログラムではそれぞれ、３１．４４、及び７２．８８であったのに対し、本実施例の機械翻訳プログラムでは３１．８４及び７４．２８を達成している。

以上説明したように、本発明の実施の形態に係る翻訳装置によれば、主部の各文節の順序を反転するように並べ替え、主部とは異なる部分についての各文節の順序を反転するように並べ替え、各文節の機能語を文節の先頭に並べ替え、並べ替えられた文について翻訳を行うことにより、精度よく翻訳を行うことができる。

また、日本語から英語への翻訳において、日本語の語順を英語に近い語順に並べ替えることが可能になり、その結果、日本語から英語への翻訳において語順の差が非常に小さくなることから、翻訳がより容易になる。

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、日本語で記述された入力文に対して、英語の語順に相似するように語順を並べ替える場合について説明したが、これに限定されるものではなく、他の言語の入力文を用いてもよい。この場合には、第１言語の入力文に対して、第１言語とは異なる第２言語の語順に相似するように語順を並べ替えるようにすればよい。

また、本実施の形態においては、翻訳装置は、入力文に対して翻訳を行う場合について説明したがこの限りでない。例えば、翻訳装置は、入力句に対して翻訳を行うようにしてもよい。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。

１０入力部
２０演算部
３０言語解析部
３２形態素解析部
３４文節同定部
３６並列同定部
３８文分割部
４０主部同定部
５０並べ替え部
５２翻訳部
５４モデル記憶部
９０出力部
１００翻訳装置
２００翻訳モデル学習装置
２１０入力部
２２０演算部
２２２学習用並行コーパス
２５０モデル学習部
２５２学習データ言語解析部
２５４学習データ並べ替え部
２５６モデル用並行コーパス
２５８翻訳モデル学習部
２６０翻訳部
２６２学習部
２７０モデル記憶部
２９０出力部

Claims

入力文又は句について、機能語を含む各文節を同定する文節同定部と、
前記入力文又は句の主部を同定する主部同定部と、
前記主部同定部により同定された前記入力文又は句の主部について、前記主部に含まれる各文節の順序を反転するように並べ替え、前記入力文又は句のうち、前記主部とは異なる部分について、各文節の順序を反転するように並べ替え、前記主部について並べ替えられた各文節及び前記主部とは異なる部分について並べ替えられた各文節について、前記文節に含まれる機能語を前記文節の先頭に並べ替えるように、前記文節内の語順を並べ替える並べ替え部と、
を含む、語順並べ替え装置。
前記入力文又は句の各文節から、並列の関係となる文節の組み合わせを同定する並列同定部を更に含み、
前記並べ替え部は、前記並列同定部により同定された並列の関係となる文節の組み合わせについての文節の順序を維持するように、前記主部に含まれる各文節の順序を反転するように並べ替え、前記主部とは異なる部分について各文節の順序を反転するように並べ替え、前記並列の関係となる文節の組み合わせについて、最も後方に位置する文節に含まれる機能語を、最も前方に位置する文節の先頭に並べ替え、前記並列の関係となる文節の組み合わせとは異なる各文節について、前記文節に含まれる機能語を前記文節の先頭に並べ替えるように、前記文節内の語順を並べ替える請求項１記載の語順並べ替え装置。
第１特定言語で記述された入力文又は句を、第１特定言語とは異なる第２特定言語で記述された文又は句に翻訳する翻訳装置において、
請求項１又は２記載の語順並べ替え装置によって前記入力文又は句を並べ替えた結果について、複数種類の翻訳モデル及び前記複数種類の翻訳モデルの各々に対する重みに基づいて、前記第２特定言語で記述された文又は句に翻訳する翻訳部
を含む翻訳装置。
文節同定部と、主部同定部と、並べ替え部と、を含む語順並べ替え装置における語順並べ替え方法であって、
前記文節同定部が、入力文又は句について、機能語を含む各文節を同定し、
前記主部同定部が、前記入力文又は句の主部を同定し、
前記並べ替え部が、前記主部同定部により同定された前記入力文又は句の主部について、前記主部に含まれる各文節の順序を反転するように並べ替え、前記入力文又は句のうち、前記主部とは異なる部分について、各文節の順序を反転するように並べ替え、前記主部について並べ替えられた各文節及び前記主部とは異なる部分について並べ替えられた各文節について、前記文節に含まれる機能語を前記文節の先頭に並べ替えるように、前記文節内の語順を並べ替える
語順並べ替え方法。
翻訳部を含む、第１特定言語で記述された入力文又は句を、第１特定言語とは異なる第２特定言語で記述された文又は句に翻訳する翻訳装置における翻訳方法であって、
前記翻訳部によって、請求項４記載の語順並べ替え方法によって前記入力文又は句を並べ替えた結果について、複数種類の翻訳モデル及び前記複数種類の翻訳モデルの各々に対する重みに基づいて、前記第２特定言語で記述された文又は句に翻訳する
翻訳方法。
コンピュータを、請求項１又は請求項２記載の語順並べ替え装置を構成する各部として機能させるためのプログラム。
コンピュータを、請求項３記載の翻訳装置を構成する各部として機能させるためのプログラム。