JP5749219B2

JP5749219B2 - 統計翻訳モデル学習装置、統計翻訳装置、方法、及びプログラム

Info

Publication number: JP5749219B2
Application number: JP2012128333A
Authority: JP
Inventors: 克仁須藤; センチョウゴ; 裕之進藤; 塚田　元; 元塚田; 永田　昌明; 昌明永田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-06-05
Filing date: 2012-06-05
Publication date: 2015-07-15
Anticipated expiration: 2032-06-05
Also published as: JP2013254271A

Description

本発明は、統計翻訳モデル学習装置、統計翻訳装置、方法、及びプログラムに係り、特に、構文解析情報を用いて統計翻訳モデルを学習する統計翻訳モデル学習装置、方法、及びプログラム、並びに、統計翻訳モデルを用いて翻訳を行う統計翻訳装置、方法、及びプログラムに関する。

対訳文データから言語の翻訳に利用する翻訳規則およびその確率を学習して翻訳を行う統計的機械翻訳と呼ばれる技術において、構文（あるいは統語）的な情報を考慮することによって高い翻訳精度を得ることができる「構文に基づく機械翻訳」の方法が種々考案されている。非特許文献1では出力側の言語の構文構造を、非特許文献2では入力側の言語の構文構造を、そして非特許文献3では入力・出力双方の構文構造を、それぞれ考慮することによって、構文的な制約を満足するような翻訳結果を得る方法について記載されている。構文的な情報は通常「構文解析」と呼ばれる、構文構造および各部分構造の文法的な役割を推定する技術(著名な技術として代表的なものにCYK(あるいはCKY)法がある)によって付与されるが、構文解析によって付与される情報は、構文解析器が対象とする文法(例えば文脈自由文法)が規定するものであり、文法は、人手で設計した文法規則、もしくはツリーバンクと呼ばれる構文木データベースから学習される文法規則によって定義される。したがって、構文に基づく機械翻訳で利用される構文的な情報も、通常それらの文法規則・構文木データベースに含まれる構文的な情報に制約される。

特開2011-175500号公報

Kenji Yamada and Kevin Knight, "A Syntax-based Statistical Translation Model", Proceedings of 39th Annual Meeting of the Association for Computational Linguistics, pp.523-530, 2001. Yang Liu他, "Tree-to-String Alignment Template for Statistical Machine Translation", Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the Association for Computational Linguistics, pp.609-616, 2006. Min Zhang他, "A Tree Sequence Alignment-based Tree-to-Tree Translation Model", Proceedings of ACL-08: HLT, pp.559-567, 2008. Yusuke Miyao and Jun’ichi Tsujii, "Feature Forest Models for Probabilistic HPSG Parsing", Computational Linguistics, Volume 34, Number 1, pp.35-80, 2008.

前記構文に基づく機械翻訳で利用する構文的な情報は、機械翻訳での応用を意図したものではなく、情報が少なすぎて機械翻訳における制約として十分な効果が得られないことや、逆に情報が多すぎることによって条件に合致する翻訳が行えなくなることがある。例えば、当該技術分野で広く知られている構文木データベースであるPenn Treebankでは、名詞句はすべて“NP”という識別子（ラベル）で記述されており、それが主格として働くのか目的格として働くのかを記述していないために、翻訳時の制約として十分な情報を含んでいない。一方で、適応的に識別子を細分化して構文解析の性能を向上させる技術（例えば非特許文献４）も存在するが、この技術の構文解析を行う場合には識別子を細分化しすぎることによって制約を満たす翻訳が得られないことが考えられる。

また、主辞の情報を機械翻訳に利用した例として特許文献１に記載された機械翻訳方法が挙げられるが、当該機械翻訳方法においては主辞の情報は入力文の語順を決定的に変換するために利用されており、翻訳時の制約の一つとして利用するものではない。

本発明は、上記の事情を鑑みてなされたもので、適度な構文的情報の利用によって構文に基づく機械翻訳の精度向上を実現することができる統計翻訳モデル学習装置、統計翻訳装置、方法、及びプログラムを提供することを目的とする。

上記の目的を達成するために本発明に係る統計翻訳モデル学習装置は、対訳となる第１言語の文字列及び第２言語の文字列の組み合わせからなる対訳データを記憶する記憶手段と、前記第１言語の文字列に対して形態素解析を含む言語解析処理を行う第１言語解析手段と、前記第２言語の文字列に対して形態素解析を含む言語解析処理を行う第２言語解析手段と、前記第１言語解析手段による言語解析処理の結果及び前記第２言語解析手段による言語解析処理の結果に基づいて、統計翻訳モデルを学習する学習手段と、を含み、前記第１言語解析手段による言語解析処理及び前記第２言語解析手段による言語解析処理の少なくとも一方は、前記文字列に対して構文解析処理を行って、部分構文構造に付与された、文法的な役割を示す識別子を含む構文解析処理の結果を取得し、前記構文解析処理の結果から得られる部分構文構造における主辞の位置及び前記部分構文構造における主辞と修飾語との関係の少なくとも一方を示す付加情報を、前記構文解析処理の結果に含まれる前記部分構文構造の識別子に付加することを含み、前記学習手段は、前記構文解析処理の結果を含む前記言語解析処理の結果に基づいて、前記統計翻訳モデルを学習する。

本発明に係る統計翻訳モデル学習方法は、対訳となる第１言語の文字列及び第２言語の文字列の組み合わせからなる対訳データを記憶する記憶手段と、第１言語解析手段と、第２言語解析手段と、学習手段とを含む統計翻訳モデル学習装置における統計翻訳モデル学習方法であって、前記第１言語解析手段によって、前記第１言語の文字列に対して形態素解析を含む言語解析処理を行い、前記第２言語解析手段によって、前記第２言語の文字列に対して形態素解析を含む言語解析処理を行い、前記学習手段によって、前記第１言語解析手段による言語解析処理の結果及び前記第２言語解析手段による言語解析処理の結果に基づいて、統計翻訳モデルを学習することを含み、前記第１言語解析手段による言語解析処理及び前記第２言語解析手段による言語解析処理の少なくとも一方は、前記文字列に対して構文解析処理を行って、部分構文構造に付与された、文法的な役割を示す識別子を含む構文解析処理の結果を取得し、前記構文解析処理の結果から得られる部分構文構造における主辞の位置及び前記部分構文構造における主辞と修飾語との関係の少なくとも一方を示す付加情報を、前記構文解析処理の結果に含まれる前記部分構文構造の識別子に付加することを含み、前記学習手段は、前記構文解析処理の結果を含む前記言語解析処理の結果に基づいて、前記統計翻訳モデルを学習する。

本発明によれば、第１言語の文字列に対する言語解析処理及び第２言語の文字列に対する言語解析処理の少なくとも一方において、構文解析処理を行って、部分構文構造に付与された、文法的な役割を示す識別子を含む構文解析処理の結果を取得し、部分構文構造における主辞の位置及び前記部分構文構造における主辞と修飾語との関係の少なくとも一方を示す付加情報を、構文解析処理の結果に含まれる前記部分構文構造の識別子に付加して、統計翻訳モデルを学習することにより、適度な構文的情報の利用によって構文に基づく機械翻訳の精度向上を実現することができる。

本発明に係る統計翻訳装置は、上記の統計翻訳モデル学習装置によって学習された前記統計翻訳モデルを記憶するモデル記憶手段と、入力された前記第１言語の文字列に対して形態素解析を含む言語解析処理を行う言語解析手段と、前記言語解析手段による言語解析処理の結果と、前記モデル記憶手段に記憶された前記統計翻訳モデルとに基づいて、前記入力された前記第１言語の文字列を前記第２言語に翻訳する統計翻訳手段とを含んで構成されている。

本発明に係る統計翻訳方法は、上記の統計翻訳モデル学習方法によって学習された前記統計翻訳モデルを記憶するモデル記憶手段と、言語解析手段と、統計翻訳手段とを含む統計翻訳装置における統計翻訳方法であって、前記言語解析手段によって、入力された前記第１言語の文字列に対して形態素解析を含む言語解析処理を行い、前記統計翻訳手段によって、前記言語解析手段による言語解析処理の結果と、前記モデル記憶手段に記憶された前記統計翻訳モデルとに基づいて、前記入力された前記第１言語の文字列を前記第２言語に翻訳する。

本発明に係る統計翻訳装置及び統計翻訳方法によれば、第１言語の文字列に対する言語解析処理及び第２言語の文字列に対する言語解析処理の少なくとも一方において、構文解析処理を行うと共に、部分構文構造における主辞の位置及び主辞と修飾語との関係の少なくとも一方を示す付加情報を、構文解析処理の結果に付加して学習した統計翻訳モデルに基づいて、入力された第１言語の文字列に翻訳することにより、適度な構文的情報の利用によって構文に基づく機械翻訳の精度向上を実現することができる。

本発明に係るプログラムは、コンピュータを、上記の統計翻訳モデル学習装置又は統計翻訳装置の各手段として機能させるためのプログラムである。

以上説明したように、本発明の統計翻訳モデル学習装置、方法、及びプログラムによれば、第１言語の文字列に対する言語解析処理及び第２言語の文字列に対する言語解析処理の少なくとも一方において、構文解析処理を行うと共に、部分構文構造における主辞の位置及び主辞と修飾語との関係の少なくとも一方を示す付加情報を、構文解析処理の結果に付加して、統計翻訳モデルを学習することにより、適度な構文的情報の利用によって構文に基づく機械翻訳の精度向上を実現することができる、という効果が得られる。

本発明の統計翻訳装置、方法、及びプログラムによれば、第１言語の文字列に対する言語解析処理及び第２言語の文字列に対する言語解析処理の少なくとも一方において、構文解析処理を行うと共に、部分構文構造における主辞の位置及び主辞と修飾語との関係の少なくとも一方を示す付加情報を、構文解析処理の結果に付加して学習した統計翻訳モデルに基づいて、入力された第１言語の文字列を第２言語の文字列へ翻訳することにより、適度な構文的情報の利用によって構文に基づく機械翻訳の精度向上を実現することができる、という効果が得られる。

本発明の第１の実施の形態に係る統計翻訳装置の構成を示す概略図である。日本語の文字列群の例を示す図である。英語の文字列群の例を示す図である。日本語の分かち書きの結果の例を示す図である。構文解析結果の例を示す図である。部分構文構造に新しい識別子を付与した結果の例を示す図である。本発明の第１の実施の形態に係る統計翻訳装置における統計翻訳モデル学習処理ルーチンの内容を示すフローチャートである。本発明の第１の実施の形態に係る統計翻訳装置における統計翻訳処理ルーチンの内容を示すフローチャートである。本発明の第２の実施の形態に係る統計翻訳装置の構成を示す概略図である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

〔第１の実施の形態〕
＜システム構成＞
本発明の第１の実施の形態に係る統計翻訳装置１００は、第１言語（翻訳元言語）の入力文字列と第２言語（翻訳先言語）の正しい出力文字列との対訳を含む対訳データが入力され、統計翻訳モデルを学習する。また、統計翻訳装置１００は、学習した統計翻訳モデルを用いて、入力された第１言語の入力文字列を第２言語へ翻訳する。この統計翻訳装置１００は、ＣＰＵと、ＲＡＭと、後述する統計翻訳モデル学習処理ルーチン及び統計翻訳処理ルーチンを実行するためのプログラムを記憶したＲＯＭとを備えたコンピュータで構成され、機能的には次に示すように構成されている。図１に示すように、統計翻訳装置１００は、入力部１０と、演算部２０と、出力部３０とを備えている。

入力部１０は、キーボードなどの入力装置から入力された対訳データとして、相互が対訳となっている文字列群を受け付ける。また、入力部１０は、キーボードなどの入力装置から、翻訳したい第１言語の入力文を受け付ける。なお、入力部１０は、ネットワーク等を介して外部から入力されたものを受け付けるようにしてもよい。

対訳データは対訳文字列対が自明な構造のファイルである。本実施の形態においては、日本語(第１言語)の入力文字列と英語(第２言語)の正解翻訳文字列とが、１行に1文ずつ記載され、かつ同じ行数に対応する日本語文・英文は対訳として対応がとれている。例えば、対訳データは、図２に示すような「第１言語文字列群ファイル」と図３に示すような「第２言語文字列群ファイル」との２つのファイルによって構成されている。

演算部２０は、第１言語文字列群記憶部２１、第２言語文字列群記憶部２２、前処理部２３、第１言語解析部２４、第２言語解析部２５、統計翻訳モデル学習部２６、統計翻訳モデル記憶部２７、前処理部２８、入力言語解析部２９、統計翻訳部３１、及び後処理部３２を備えている。なお、入力言語解析部２９は、言語解析手段の一例である。

第１言語文字列群記憶部２１は、入力部１０により受け付けた対訳データに含まれる第１言語の文字列群を記憶する。第２言語文字列群記憶部２２は、入力部１０により受け付けた対訳データに含まれる第２言語の文字列群を記憶する。第１言語文字列群記憶部２１に記憶された第１言語の文字列群と、第２言語文字列群記憶部２２に記憶された第１言語の文字列群とは、対訳として対応がとれるように記憶されている。

前処理部２３は、第１言語文字列群記憶部２１に記憶されている第１言語の各文字列、または第２言語文字列群記憶部２２に記憶されている第２言語の各文字列に対して、異体字の統一化や不要な文字の削除、特殊文字（例えば、「＃」、「｜」）の書き換え等を行う。

第１言語解析部２４は、形態素解析部２４Ａから構成される。形態素解析部２４Ａは、第１言語文字列群記憶部２１に記憶されている第１言語の各文字列（前処理が行われた場合には、処理結果として各文字列）に対して、形態素解析処理(単語分割と品詞種別推定)を行う。なお、品詞種別推定は省略してもよい。形態素解析については公知の種々の方法が利用可能である。例えば、公知の日本語形態素解析プログラムMeCabを利用する。本実施の形態では、日本語の品詞情報を利用しないため、日本語の分かち書き（単語分割）のみを行う。分かち書きの結果の抜粋を図４に示す。

第２言語解析部２５は、形態素解析部２５Ａ、構文解析部２５Ｂ、及び識別子付与部２５Ｃから構成される。

形態素解析部２５Ａは、第２言語文字列群記憶部２２に記憶されている第２言語の各文字列（前処理が行われた場合には、処理結果として各文字列）に対して、形態素解析処理(単語分割と品詞種別推定)を行う。

構文解析部２５Ｂは、第２言語の各文字列の形態素解析の結果を利用して、構文解析処理を行い、構文構造の推定、および部分構文構造に対する識別子の推定を行う。構文解析の方法は種々の方法が知られているが、本実施の形態では、主辞の情報や、主辞と修飾語の関係についての情報を利用するため、その情報を推定することができる構文解析方法(例えば上記の非特許文献４に記載の「主辞駆動型句構造文法」による構文解析や、非特許文献５（Jun Suzuki他, “An Empirical Study of Semi-supervised Structure Conditional Models for Dependency Parsing”, Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing, pp.551-560, 2009）に記載の「依存構造解析」等)を利用する。

本実施の形態の例では、英語の形態素解析と構文解析を、上記の非特許文献4の主辞駆動句構造文法による構文解析を実現する、公知の英語構文解析プログラムEnjuを用いて行う。なお、Enjuは形態素解析処理を合わせて実行するため、別途形態素解析は用いない。対訳データの英文に対する構文解析結果の抜粋を図５に示す。図５において、schemaが適用された句構造文法規則であり、例えば、subj_head は木の左側の子ノードが主語として木の右側の子ノードの主辞を修飾する構造であることを示している。また、headは主辞である子ノードのidを示しており、例えばidがc0であるノードの主辞は右側の子ノードc6であることを示す。

識別子付与部２５Ｃは、構文解析部２５Ｂで得られた構文解析結果に対して、構文に基づく機械翻訳で利用する識別子の付与を行う。識別子は部分木のような部分構文構造の文法的な役割を示すものであり、英語ではPenn Treebankで利用されている分類体系が広く知られている。識別子付与部２５Ｃは、構文解析部２５Ｂで部分構文構造に対して通常付与される識別子(“NP(名詞句)”，“PP(前置詞句)”等)に、主辞の部分構文構造における位置、もしくは主辞と修飾語の関係を表す追加識別子、あるいはその両方を付加して、新しい識別子を、構文解析結果における当該部分構文構造に付与する。主辞駆動句構造文法や依存構造解析では部分構文構造において主辞がどの位置に現れるかが示されるため、例えば二分木で表現される構文解析結果においては、主辞の位置は“Left”(部分構文構造の左側が主辞)あるいは“Right”(右側が主辞)で表すことができる。また、主辞と修飾語の関係については、上記の非特許文献４で用いられている句構造文法規則(schema，例: 主辞である動詞が主語を修飾語として取る)や、上記の非特許文献5で用いられている依存構造タイプ(例: 修飾語は目的語として主辞を修飾する)などがそれに相当するものであって、そうした分類に基づく識別子を利用することができる。

本実施の形態の例では、schemaと主辞の情報を識別子として利用する。具体的には、元となる識別子をcatの値とし、そこにschemaの値と、主辞が左側にあるか右側にあるかをLHSまたはRHSで示したものとを連結する。その結果、例えばS+subj_head+RHSのような新しい識別子を得る。この識別子付与部２５Ｃによる処理の結果を図６に示す。図６のデータ仕様は、公知の統計的機械翻訳ツールキットMosesにおいて構文に基づく翻訳を行う場合の構文木データの格納仕様に従ったものである。なお、新しい識別子が、付加情報の一例である。

統計翻訳モデル学習部２６は、第１言語解析部２４の結果である第１言語の文字列群の分かち書きの結果と、第２言語解析部２４の結果である第２言語の文字列群の構文解析結果であって、新しい識別子が付与された構文解析結果、及び第２言語の文字列群の形態素解析結果とに基づいて、統計翻訳モデルの学習を行う。構文に基づく統計翻訳モデルの学習方法としては、上記の非特許文献1や非特許文献６（Michel Galley他, “What’s in a translation rule?”, HLT-NAACL 2004: Main Proceedings, pp.273-280, 2004）に記載の方法が利用可能である。

本実施の形態の例では、日本語の文字列群の分かち書き結果と、英語の文字列群の構文解析結果に対して識別子を付与した結果とを利用して、構文に基づく統計翻訳モデルの学習を行う。構文に基づく統計翻訳モデルの学習は、上記の非特許文献６の方法に相当する方法で、公知のツールキットMosesに同梱の学習プログラムを利用して行う。構文に基づく統計翻訳モデルは、日本語の句（単語列）と対応する英語の部分構文構造の組み合わせに対する、相互に翻訳される条件付き確率を含んでいる。また、統計翻訳モデルは、英語の統計的言語モデルを含み、統計的言語モデルの学習を、公知のプログラムSRILMを利用して行う。英語の統計的言語モデルは、英語の単語の連接確率を表現したものであり、本実施の形態の例では5グラム(直前の4個の単語の並びの後にある単語が現れる確率分布を表現)を利用する。また、統計翻訳モデルは、日本語の単語列と対応する英語の単語列の組み合わせに対する、相互に翻訳される条件付き確率を含んでいてもよい。

統計翻訳モデル記憶部２７には、統計翻訳モデル学習部２６によって学習された統計翻訳モデルを記憶する。

前処理部２８は、入力部１０により受け付けた第１言語の文字列に対して、前処理部２３と同様に、異体字の統一化や不要な文字の削除、特殊文字の書き換え等を行う。

入力言語解析部２９は、形態素解析部２９Ａから構成される。形態素解析部２９Ａは、入力部１０により受け付けた第１言語の文字列（前処理が行われた場合には、処理結果として文字列）に対して、形態素解析部２４Ａと同様に、形態素解析処理(単語分割と品詞種別推定)を行う。なお、品詞種別推定は省略してもよい。本実施の形態の例では、MeCabによる日本語の分かち書き（単語分割）のみを行う。

統計翻訳部３１は、統計翻訳モデル記憶部２７に記憶された統計翻訳モデルを利用して、前処理部２８および入力言語解析部２９で処理された第１言語の文字列を第２言語へ翻訳する。翻訳の方法としては、上記の非特許文献1や非特許文献6に記載の方法が利用可能である。

本実施の形態の例では、日本語の文「図１を用いて情報圧縮符号化に関連する構成について説明する。」に対して、MeCabによる分かち書きを適用した結果に対して、機械翻訳プログラムmoses_chart (Mosesに同梱の構文に基づく翻訳を行うプログラム)を利用して、翻訳結果「With reference to FIG. 1, the configuration related to the compressive coding will be described.」を得る。

後処理部３２は、翻訳結果に対して書き換えられた特殊文字の書き戻し等の後処理を行う。

後処理部３２による処理結果である翻訳文が、出力部３０により出力される。出力の形態については特に規定しないが、ディスプレイなどへの出力、ネットワークを介した外部計算機等への出力が例として考えられる。

＜統計翻訳装置の作用＞
次に、第１の実施の形態に係る統計翻訳装置１００の作用について説明する。まず、対訳として対応がとれている日本語の文字列群と英語の正しい翻訳文である文字列群とからなる対訳データが、統計翻訳装置１００に入力されると、統計翻訳装置１００によって、入力された対訳データが、第１言語文字列群記憶部２１及び第２言語文字列群記憶部２２に分かれて格納される。そして、統計翻訳装置１００によって、図７に示す統計翻訳モデル学習処理ルーチンが実行される。

まず、ステップＳ１０１において、第１言語文字列群記憶部２１から第１言語の文字列群を取得すると共に、第２言語文字列群記憶部２２から第２言語の文字列群を取得する。そして、ステップＳ１０２において、上記ステップＳ１０１で取得した第１言語の文字列群及び第２言語の文字列群の少なくとも一方に対して、前処理を行う。

次のステップＳ１０３では、上記ステップＳ１０１で取得した第１言語の文字列群又は上記ステップＳ１０２で前処理が行われた第１言語の文字列群に対して、形態素解析処理を行う。ステップＳ１０４では、上記ステップＳ１０１で取得した第２言語の文字列群又は上記ステップＳ１０２で前処理が行われた第２言語の文字列群に対して、形態素解析処理を行う。

そして、ステップＳ１０５において、上記ステップＳ１０４での形態素解析処理の結果を用いて、第２言語の単語列群に対して構文解析処理を行う。次のステップＳ１０６では、上記ステップＳ１０５での構文解析処理の結果を用いて、第２言語の文字列群の部分構文構造における主辞の位置、及び主辞と修飾語との関係を示す識別子を、第２言語の文字列群に対する構文解析処理の結果に付与する。

ステップＳ１０７では、上記ステップＳ１０３の形態素解析処理の結果として得られる第１言語の文字列群の分かち書きと、上記ステップＳ１０６で得られる第２言語の文字列群の構文解析結果から得られる各部分構文構造とを、対訳として対応付けて、学習データとしてファイルに記録する。また、第２言語の文字列群の形態素解析処理の結果から得られる単語の連接情報を、学習データとしてファイルに記録する。

次のステップＳ１０８では、上記ステップＳ１０７で得られた学習データに基づいて、統計的言語モデルを含む統計翻訳モデルを学習し、ステップＳ１０９において、学習結果を、統計翻訳モデル記憶部２７に格納して、統計翻訳モデル学習処理ルーチンを終了する。

また、キーボードなどの入力装置から、翻訳したい第１言語（日本語）の文字列が、統計翻訳装置１００に入力されると、統計翻訳装置１００によって、図８に示す統計翻訳処理ルーチンが実行される。

まず、ステップＳ１１１において、第１言語（日本語）の入力文字列を受け付け、ステップＳ１１２で、上記ステップS111で受け付けた入力文字列に対して、前処理を行う。そして、ステップＳ１１３において、上記ステップＳ１１１で前処理が行われた入力文字列に対して形態素解析処理を行う。

次のステップＳ１１４では、上記ステップＳ１１３で得られた形態素解析処理の結果（分かち書きの結果）、及び統計翻訳モデル記憶部２７に記憶されている統計翻訳モデルに基づいて、入力文字列を翻訳した第２言語（英語）の翻訳文を生成する。

そして、ステップＳ１１５において、上記ステップＳ１１４で生成された第２言語の翻訳文に対して後処理を行い、ステップＳ１１６で、後処理が行われた第２言語の翻訳文を出力部３０により出力して、統計翻訳処理ルーチンを終了する。

＜実験結果＞
次に、本実施の形態で説明した統計翻訳の方法について実験を行った結果を説明する。英語側で構文の情報を利用した日本語から英語への翻訳実験を行った。本発明の主辞に関わる付加的情報を利用しなかった場合の統計翻訳を、比較対象とした。比較対象では、公知の翻訳自動評価方法BLEUにおいて0.311、RIBESにおいて0.733であったものが、本実施の形態で説明した統計翻訳の方法によればBLEUにおいて0.317、RIBESにおいて0.742と改善することを確認した。

以上説明したように、本発明の第１の実施の形態に係る統計翻訳装置によれば、第２言語の文字列に対する言語解析処理において、構文解析処理を行うと共に、部分構文構造における主辞の位置、及び部分構文構造における主辞と修飾語との関係を示す新しい識別子を、構文解析処理の結果に付与して、構文に基づく統計翻訳モデルを学習することにより、適度な構文的情報の利用によって構文に基づく機械翻訳の精度向上を実現することができる。

また、部分構文構造における主辞の位置、及び部分構文構造における主辞と修飾語との関係を示す新しい識別子を、構文解析処理の結果に付加して学習した統計翻訳モデルに基づいて、入力された第１言語の文字列を第２言語へ翻訳することにより、精度のよい機械翻訳を実現することができる。

また、構文に基づく翻訳において、主辞と修飾語の情報を制約として加えることで、より適切な翻訳規則を選択することができるようになり、翻訳精度が高まることが期待できる。

〔第２の実施の形態〕
次に、第２の実施の形態について説明する。なお、第１の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。

第２の実施の形態では、第１言語、第２言語の双方に対して、構文解析処理を行うと共に、新しい識別子を付与している点が、第１の実施の形態と異なっている。

図９に示すように、第２の実施の形態に係る統計翻訳装置２００の演算部２２０は、第１言語文字列群記憶部２１、第２言語文字列群記憶部２２、前処理部２３、第１言語解析部２２４、第２言語解析部２５、統計翻訳モデル学習部２６、統計翻訳モデル記憶部２７、前処理部２８、入力言語解析部２２９、統計翻訳部３１、及び後処理部３２を備えている。

第１言語解析部２２４は、形態素解析部２４Ａ、構文解析部２２４Ｂ、及び識別子付与部２２４Ｃから構成される。形態素解析部２４Ａは、第１言語文字列群記憶部２１に記憶されている第１言語の各文字列（前処理が行われた場合には、処理結果として各文字列）に対して、形態素解析処理(単語分割と品詞種別推定)を行う。

構文解析部２２４Ｂは、第１言語の各文字列の形態素解析の結果を利用して、構文解析処理を行い、構文構造の推定、および部分構文構造の識別子の推定を行う。構文解析の方法は種々の方法が知られているが、本実施の形態では、主辞の情報や、主辞と修飾語の関係についての情報を利用するため、その情報を推定することができる構文解析方法を利用する。

識別子付与部２２４Ｃは、構文解析部２２４Ｂで得られた構文解析結果に対して、構文に基づく機械翻訳で利用する識別子の付与を行う。識別子付与部２２４Ｃは、構文解析部２２４Ｂで部分構文構造に対して通常付与される識別子(“NP(名詞句)”，“PP(前置詞句)”等)に、主辞の部分構文構造における位置、もしくは部分構文構造における主辞と修飾語の関係を表す追加識別子、あるいはその両方を付加して、新しい識別子を、構文解析結果における当該部分構文構造に対して付与する。

統計翻訳モデル学習部２６は、第１言語解析部２２４の結果である第１言語の文字列群の構文解析結果であって、新しい識別子が付与された構文解析結果と、第２言語解析部２４の結果である第２言語の文字列群の構文解析結果であって、新しい識別子が付与された構文解析結果とに基づいて、統計翻訳モデルの学習を行う。

統計翻訳モデルは、日本語の部分構文構造（構文木）と対応する英語の部分構文構造（構文木）の組み合わせに対する、相互に翻訳される条件付き確率を含んでいる。このような構文に基づく統計翻訳モデルの学習方法としては、非特許文献７（Min Zhang et al., "A Tree Sequence Alignment-based Tree-to-Tree Translation Model", Proceedings of ACL-08: HLT (2008)）に記載の方法が利用可能である。

また、統計翻訳モデルは、日本語の句（単語列）と対応する英語の部分構文構造の組み合わせに対する、相互に翻訳される条件付き確率、又は日本語の部分構文構造と対応する英語の句（単語列）の組み合わせに対する、相互に翻訳される条件付き確率を含んでいてもよい。また、統計翻訳モデルは、英語の統計的言語モデルを含んでいてもよい。また、統計翻訳モデルは、日本語の単語列と対応する英語の単語列の組み合わせに対する、相互に翻訳される条件付き確率を含んでいてもよい。

入力言語解析部２２９は、形態素解析部２９Ａ、構文解析部２２９Ｂ、及び識別子付与部２２９Ｃから構成される。形態素解析部２９Ａは、入力部１０により受け付けた第１言語の文字列（前処理が行われた場合には、処理結果として文字列）に対して、形態素解析部２４Ａと同様に、形態素解析処理(単語分割と品詞種別推定)を行う。

構文解析部２２９Ｂは、第１言語の文字列の形態素解析の結果を利用して、構文解析部２２４Ｂと同様に、構文解析処理を行い、構文構造および識別子の推定を行う。

識別子付与部２２９Ｃは、構文解析部２２９Ｂで得られた構文解析結果に対して、識別子付与部２２４Ｃと同様に、構文に基づく機械翻訳で利用する識別子の付与を行う。

統計翻訳部３１は、統計翻訳モデル記憶部２７に記憶された統計翻訳モデルを利用して、入力言語解析部２９で得られた第１言語の文字列の構文解析結果及び形態素解析結果に基づいて、第１言語の文字列を第２言語に翻訳する。翻訳の方法としては、上記の非特許文献１、非特許文献６、非特許文献７に記載の方法が利用可能である。

なお、第２の実施の形態に係る統計翻訳装置２００の他の構成及び作用については、第１の実施の形態と同様であるため、説明を省略する。

以上説明したように、第２の実施の形態に係る統計翻訳装置によれば、第１言語の文字列に対する言語解析処理及び第２言語の文字列に対する言語解析処理の双方において、構文解析処理を行うと共に、部分構文構造における主辞の位置、及び部分構文構造における主辞と修飾語との関係を示す新しい識別子を、それぞれの構文解析処理の結果に付加して、構文に基づく統計翻訳モデルを学習することにより、適度な構文的情報の利用によって構文に基づく機械翻訳の精度向上を実現することができる。

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、第１言語解析部が、形態素解析部、構文解析部、及び識別子付与部を備え、第２言語解析部が、形態素解析部のみを備えるように構成してもよい。この場合には、入力言語解析部は、形態素解析部、構文解析部、及び識別子付与部を備え、統計翻訳部は、統計翻訳モデル記憶部に記憶された統計翻訳モデルを利用して、入力言語解析部で得られた第１言語の文字列の構文解析結果及び形態素解析結果に基づいて、第１言語の文字列を第２言語へ翻訳するようにすればよい。

また、統計翻訳モデルの学習を、統計翻訳装置とは別の装置において行うようにしてもよい。この場合には、統計翻訳モデルの学習を行う学習装置は、上記第１の実施の形態で説明した、第１言語文字列群記憶部２１、第２言語文字列群記憶部２２、前処理部２３、第１言語解析部２４、第２言語解析部２５、統計翻訳モデル学習部２６、及び統計翻訳モデル記憶部２７を備えていればよい。あるいは、統計翻訳モデルの学習を行う学習装置は、上記第２の実施の形態で説明した、第１言語文字列群記憶部２１、第２言語文字列群記憶部２２、前処理部２３、第１言語解析部２２４、第２言語解析部２５、統計翻訳モデル学習部２６、及び統計翻訳モデル記憶部２７を備えていればよい。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。

１０入力部
２０、２２０演算部
２１第１言語文字列群記憶部
２２第２言語文字列群記憶部
２４Ａ、２５Ａ、２９Ａ形態素解析部
２４、２２４第１言語解析部
２５第２言語解析部
２５Ｂ、２２４Ｂ、２２９Ｂ構文解析部
２５Ｃ、２２４Ｃ、２２９Ｃ識別子付与部
２６統計翻訳モデル学習部
２７統計翻訳モデル記憶部
２９、２２９入力言語解析部
３０出力部
３１統計翻訳部
１００、２００統計翻訳装置

Claims

対訳となる第１言語の文字列及び第２言語の文字列の組み合わせからなる対訳データを記憶する記憶手段と、
前記第１言語の文字列に対して形態素解析を含む言語解析処理を行う第１言語解析手段と、
前記第２言語の文字列に対して形態素解析を含む言語解析処理を行う第２言語解析手段と、
前記第１言語解析手段による言語解析処理の結果及び前記第２言語解析手段による言語解析処理の結果に基づいて、統計翻訳モデルを学習する学習手段と、
を含み、
前記第１言語解析手段による言語解析処理及び前記第２言語解析手段による言語解析処理の少なくとも一方は、前記文字列に対して構文解析処理を行って、部分構文構造に付与された、文法的な役割を示す識別子を含む構文解析処理の結果を取得し、前記構文解析処理の結果から得られる部分構文構造における主辞の位置及び前記部分構文構造における主辞と修飾語との関係の少なくとも一方を示す付加情報を、前記構文解析処理の結果に含まれる前記部分構文構造の識別子に付加することを含み、
前記学習手段は、前記構文解析処理の結果を含む前記言語解析処理の結果に基づいて、前記統計翻訳モデルを学習する
統計翻訳モデル学習装置。
請求項１記載の統計翻訳モデル学習装置によって学習された前記統計翻訳モデルを記憶するモデル記憶手段と、
入力された前記第１言語の文字列に対して形態素解析を含む言語解析処理を行う言語解析手段と、
前記言語解析手段による言語解析処理の結果と、前記モデル記憶手段に記憶された前記統計翻訳モデルとに基づいて、前記入力された前記第１言語の文字列を前記第２言語に翻訳する統計翻訳手段と、
を含む統計翻訳装置。
前記第１言語解析手段による言語解析処理は、前記構文解析処理を行うと共に前記付加情報を前記構文解析処理の結果に含まれる前記部分構文構造の識別子に付加することを含み、
前記言語解析手段は、前記入力された前記第１言語の文字列に対して構文解析処理を行って、部分構文構造に付与された前記識別子を含む構文解析処理の結果を取得し、前記構文解析処理の結果から得られる部分構文構造における主辞の位置及び前記部分構文構造における主辞と修飾語との関係の少なくとも一方を示す付加情報を、前記構文解析処理の結果に含まれる前記部分構文構造の識別子に付加することを含み、
前記統計翻訳手段は、前記言語解析手段による前記構文解析処理の結果を含む前記言語解析処理の結果に基づいて、前記入力された前記第１言語の文字列を前記第２言語に翻訳する請求項２記載の統計翻訳装置。
対訳となる第１言語の文字列及び第２言語の文字列の組み合わせからなる対訳データを記憶する記憶手段と、第１言語解析手段と、第２言語解析手段と、学習手段とを含む統計翻訳モデル学習装置における統計翻訳モデル学習方法であって、
前記第１言語解析手段によって、前記第１言語の文字列に対して形態素解析を含む言語解析処理を行い、
前記第２言語解析手段によって、前記第２言語の文字列に対して形態素解析を含む言語解析処理を行い、
前記学習手段によって、前記第１言語解析手段による言語解析処理の結果及び前記第２言語解析手段による言語解析処理の結果に基づいて、統計翻訳モデルを学習する
ことを含み、
前記第１言語解析手段による言語解析処理及び前記第２言語解析手段による言語解析処理の少なくとも一方は、前記文字列に対して構文解析処理を行って、部分構文構造に付与された、文法的な役割を示す識別子を含む構文解析処理の結果を取得し、前記構文解析処理の結果から得られる部分構文構造における主辞の位置及び前記部分構文構造における主辞と修飾語との関係の少なくとも一方を示す付加情報を、前記構文解析処理の結果に含まれる前記部分構文構造の識別子に付加することを含み、
前記学習手段は、前記構文解析処理の結果を含む前記言語解析処理の結果に基づいて、前記統計翻訳モデルを学習する
統計翻訳モデル学習方法。
請求項４記載の統計翻訳モデル学習方法によって学習された前記統計翻訳モデルを記憶するモデル記憶手段と、言語解析手段と、統計翻訳手段とを含む統計翻訳装置における統計翻訳方法であって、
前記言語解析手段によって、入力された前記第１言語の文字列に対して形態素解析を含む言語解析処理を行い、
前記統計翻訳手段によって、前記言語解析手段による言語解析処理の結果と、前記モデル記憶手段に記憶された前記統計翻訳モデルとに基づいて、前記入力された前記第１言語の文字列を前記第２言語に翻訳する
統計翻訳方法。
前記第１言語解析手段による言語解析処理は、前記構文解析処理を行うと共に前記付加情報を前記構文解析処理の結果に含まれる前記部分構文構造の識別子に付加することを含み、
前記言語解析手段は、前記入力された前記第１言語の文字列に対して構文解析処理を行って、部分構文構造に付与された前記識別子を含む構文解析処理の結果を取得し、前記構文解析処理の結果から得られる部分構文構造における主辞の位置及び前記部分構文構造における主辞と修飾語との関係の少なくとも一方を示す付加情報を、前記構文解析処理の結果に含まれる前記部分構文構造の識別子に付加することを含み、
前記統計翻訳手段は、前記言語解析手段による前記構文解析処理の結果を含む前記言語解析処理の結果に基づいて、前記入力された前記第１言語の文字列を前記第２言語に翻訳する請求項５記載の統計翻訳方法。
コンピュータを、請求項１記載の統計翻訳モデル学習装置の各手段として機能させるためのプログラム。
コンピュータを、請求項２又は３記載の統計翻訳装置の各手段として機能させるためのプログラム。