JP5911098B2

JP5911098B2 - 翻訳装置、およびプログラム

Info

Publication number: JP5911098B2
Application number: JP2012088335A
Authority: JP
Inventors: 功雄後藤; 将夫内山
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2012-04-09
Filing date: 2012-04-09
Publication date: 2016-04-27
Anticipated expiration: 2032-04-09
Also published as: JP2013218524A

Description

本発明は、機械翻訳を行う翻訳装置等に関するものである。

機械翻訳における主な課題は訳語選択と語順推定である。機械翻訳の中のアルゴリズムの一つである統計翻訳において、訳語選択の性能は高いため、統計翻訳の現状の大きな課題は語順推定である。

また、機械翻訳での語順推定の方法は３つある。第一は、訳語選択と語順推定を同時に行う方法である。第二は、語順推定をしてから，訳語選択を行う、プレオーダリングと言われる方法である。第三は、訳語選択をしてから，語順推定を行う、ポストオーダリングと言われる方法である。

従来のポストオーダリングの手法は，フレーズベース統計翻訳で語順を入れ替える（例えば、非特許文献１参照）。

Katsuhito Sudoh, Xianchao Wu, Kevin Duh, Hajime Tsukada, and Masaaki Nagata. 2011. Post-ordering in statistical machine translation. In Proceedings of the 13th Machine Translation Summit, pages 316-323.

しかしながら、従来のポストオーダリングの手法における語順推定モデル（非特許文献１を参照）は、ｍｏｎｏｔｏｎｅ，ｓｗａｐ，ｄｉｓｃｏｎｔｉｎｕｏｕｓのいずれかになる確率を計算するのみである。つまり、従来のポストオーダリングの手法の語順推定において、構文構造の情報を利用していないため、文が長くなると高精度な語順推定は困難であった。そのため、従来の手法では、機械翻訳の訳質が高くなかった。

本第一の発明の翻訳装置は、原言語の要素と目的言語の要素との対である２以上の要素対を格納し得る要素対格納部と、原言語の語順の二分木を示す情報である学習二分木を、１以上格納し得る学習二分木格納部と、原言語文を受け付ける受付部と、原言語文が有する２以上の各要素に対応する目的言語の２以上の要素を、要素対格納部から取得する検索部と、原言語の語順であり、検索部が取得した目的言語の２以上の要素を有する文である構文解析対象を取得する構文解析対象取得部と、構文解析対象を構文解析し、学習二分木格納部の１以上の学習二分木を用いて、語順を入れ替えるか否かを示すフラグを有する１以上の目的言語の二分木を取得する二分木取得部と、二分木取得部が取得した１以上の目的言語の各二分木のフラグが、語順を入れ替えることを示す情報である場合に、二分木の子ノードの語順を入れ替え、目的言語文を取得する入替部と、入替部が取得した目的言語文を出力する出力部とを具備する翻訳装置である。

かかる構成により、機械翻訳における語順の推定精度が向上し、訳質が高くなる。

また、本第二の発明の翻訳装置は、第一の発明に対して、学習二分木は、原言語の語順の二分木を示す情報であり、学習二分木の出現し易さを示す二分木確率情報と語順を入れ替えるか否かを示すフラグとを有する二分木の情報であり、二分木取得部は、構文解析対象を構文解析し、学習二分木格納部の１以上の学習二分木が有する二分木確率情報を用いて、１以上の二分木により構成される構文木の出現し易さが最大となる１以上の二分木であり、フラグを有する１以上の目的言語の二分木を、１以上の学習二分木を用いて取得する翻訳装置である。

また、本第三の発明の翻訳装置は、第二の発明に対して、学習二分木は、原言語の語順の二分木を示す情報であり、学習二分木の出現し易さを示す二分木確率情報を有する二分木の情報であり、二分木取得部は、原言語文をも構文解析し、原言語文の構文木である原言語構造木を取得し、原言語構造木を構成する１以上の対応する二分木と異なる構造である学習二分木に対応する二分木確率情報が示す出現し易さを減じて、１以上の二分木により構成される構文木の出現し易さが最大となる１以上の二分木であり、フラグを有する１以上の目的言語の二分木を取得する翻訳装置である。

かかる構成により、機械翻訳における語順の推定精度がより向上し、訳質がより高くなる。

また、本第四の発明の翻訳装置は、第一の発明に対して、二分木取得部は、構文解析対象を構文解析し、学習二分木格納部の１以上の学習二分木が有する二分木確率情報を用いて、１以上の二分木により構成される構文木の出現し易さが最大となる１以上の二分木を取得し、かつ、１以上の各二分木に対して、機械学習のアルゴリズムを用いてフラグを決定し、フラグを有する１以上の目的言語の二分木を取得する翻訳装置である。

また、本第五の発明の翻訳装置は、第二の発明に対して、１以上の目的言語文を格納し得る目的言語文格納部と、１以上の各目的言語文を構文解析し、１以上の二分木を取得する目的言語文二分木取得部と、目的言語文二分木取得部が取得した１以上の各二分木に対して、目的言語から原言語へのプレオーダリング手法を適用し、フラグを有し、原言語の語順であり、目的言語の要素を有する文の構文木を構成する二分木である１以上の原言語語順二分木を取得する原言語語順二分木取得部と、原言語語順二分木取得部が取得した１以上の各原言語語順二分木に対して、機械学習のアルゴリズムを用いて、１以上の学習二分木を構成し、学習二分木格納部に蓄積する学習部とをさらに具備する翻訳装置である。

かかる構成により、自動的に学習二分木の学習が行えることにより、容易に機械翻訳における訳質が高くなる。

また、本第六の発明の翻訳装置は、第一から第五いずれかの発明に対して、原言語は日本語であり、目的言語は英語であり、学習二分木は構文構造付きのＥＷＪＳであり、構文解析対象はＥＷＪＳである翻訳装置である。なお、ＥＷＪＳとは、「English Word in Japanese Structure」の略であり、語順は原言語の日本語で、単語は目的言語の英語の文を言う。

かかる構成により、日英翻訳の機械翻訳における語順の推定精度が向上し、訳質が高くなる。

本発明による翻訳装置によれば、機械翻訳の訳質が高くなる。

実施の形態１における翻訳装置１のブロック図同翻訳装置が翻訳する動作について説明するフローチャート同翻訳装置が学習二分木を学習する動作について説明するフローチャート同二分木取得部が取得するＥＷＪＳの構文木を示す図同入替部が取得する英語文の構文木を示す図同実験結果を示す図同翻訳装置の動作の具体例を説明する図同他の構成の翻訳装置３のブロック図実施の形態２における翻訳装置２のブロック図上記実施の形態におけるコンピュータシステムの概観図同コンピュータシステムのブロック図

以下、翻訳装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。

（実施の形態１）
本実施の形態において、機械翻訳を行う翻訳装置１であって、訳語選択をしてから，語順推定を行うポストオーダリングの手法を採用する翻訳装置１について説明する。

また、特に、本実施の形態において、原言語文を単語等の要素に分割し、1以上の連続または非連続の要素の並び毎に訳語選択を行い、二分木を構成し、必要に応じて、二分木の兄弟ノードを入れ替えて、目的言語文を取得する翻訳装置１について説明する。

また、本実施の形態において、原言語文の構文木も作成し、当該原言語の構文木と
原言語の語順であり目的言語の構文木との構造が異なる二分木の確率を下げて、二分木を選択することにより、より精度の高い翻訳を行える翻訳装置１について説明する。

また、特に、本実施の形態において、例えば、原言語は日本語で、目的言語は英語であり、構文構造付きのＥＷＪＳを学習しておき、二分木の兄弟ノードを入れ替えるか否かを判断する翻訳装置１について説明する。

さらに、本実施の形態において、後述する学習二分木（構文構造付きのＥＷＪＳ等）の学習機能を有する翻訳装置１について説明する。

図１は、本実施の形態における翻訳装置１のブロック図である。翻訳装置１は、目的言語文格納部１０１、要素対格納部１０２、学習二分木格納部１０３、目的言語文二分木取得部１０４、原言語語順二分木取得部１１３、学習部１０５、受付部１０６、分割部１０７、検索部１０８、構文解析対象取得部１０９、二分木取得部１１０、入替部１１１、および出力部１１２を備える。

目的言語文格納部１０１は、１以上の目的言語文を格納し得る。目的言語文とは、目的言語の文である。目的言語は、例えば、英語である。ただし、原言語と異なる言語であれば良く、言語は問わない。

要素対格納部１０２は、２以上の要素対を格納し得る。要素対とは、原言語の要素と目的言語の要素との対である。要素とは、単語、形態素、句等、文を構成する部分である。要素は２以上の用語列や文でも良い。また、要素対は、原言語の要素と目的言語の要素と対応の確率に関する情報を保持していても良い。また、要素対格納部１０２は、いわゆる用語辞書と言っても良い。また、原言語は、例えば、日本語である。ただし、原言語の言語は問わない。

学習二分木格納部１０３は、１以上の学習二分木を格納し得る。学習二分木は、原言語の語順の、目的言語の二分木を示す情報である。また、学習二分木は、例えば、原言語の語順の二分木を示す情報であり、学習二分木の出現し易さを示す二分木確率情報とフラグとを有する情報でも良い。また、学習二分木は、原言語の語順の二分木を示す情報であり、学習二分木の出現し易さを示す二分木確率情報を有する情報でも良い。また、ここで、フラグとは、学習二分木を構成する２つの子ノード（兄弟のノード）の語順を入れ替えるか否かを示す情報である。

学習二分木は、例えば、親のノードの品詞を示す情報と、２つの子のノードの品詞を示す情報とを有する。また、学習二分木は、例えば、親のノードの品詞を示す情報と、２つの子のノードの品詞を示す情報と、フラグとを有する。また、２つの子のノードは、目的言語の要素でも良い。また、学習二分木は構文木を構成する情報である、と言える。品詞を示す情報とは、例えば、ＰＯＳタグでも良いし、ＰＯＳタグとフラグでも良い。つまり、学習二分木は、例えば、ＰＯＳタグとフラグを有する。ＰＯＳタグとフラグの例は、「Ｓ＿ＳＴ」「ＶＰ＿ＳＷ」「ＮＰ＿ＳＴ」等である。「Ｓ＿ＳＴ」の「Ｓ」は文を示すＰＯＳタグであり、「ＳＴ」は語順を入れ替えないことを示すフラグである。また、「ＶＰ＿ＳＷ」の「ＶＰ」は動詞句を示すＰＯＳタグであり、「ＳＷ」は語順を入れ替えることを示すフラグである。「ＮＰ＿ＳＴ」の「ＮＰ」は名詞句を示すＰＯＳタグである。なお、品詞を示す情報とは、品詞の情報に加えて、対応する要素（単語等）の隠れクラスを有しても良い。隠れクラスとは、要素をグループ化した際のグループ識別子である。

目的言語文二分木取得部１０４は、１以上の各目的言語文を構文解析し、１以上の目的言語文の二分木を取得する。１以上の目的言語文は、目的言語文格納部１０１に格納されている。目的言語文二分木取得部１０４は、例えば、ＢｅｒｋｅｌｅｙＰａｒｓｅｒ（Improved inference for unlexicalized parsing. In NAACL-HLT, pages 404-411, Rochester, New York, April. Association for Computational Linguistics.）等の構文解析器により実現され得る。

原言語語順二分木取得部１１３は、目的言語文二分木取得部１０４が取得した１以上の各二分木から、１以上の原言語語順二分木を取得する。原言語語順二分木取得部１１３は、例えば、目的言語文二分木取得部１０４が取得した１以上の各二分木に対して、目的言語（例えば、英語）から原言語（例えば、日本語）へのプレオーダリング手法を適用し、１以上の原言語語順二分木を取得する。目的言語（例えば、英語）から原言語（例えば、日本語）へのプレオーダリング手法は、人手ルールまたは機械学習で獲得されたルールを用いて処理を行う。かかるプレオーダリング手法は、公知技術であるので詳細な説明を省略する（Hideki Isozaki, Katsuhito Sudoh, Hajime Tsukada, and Kevin Duh. Head Finalization: A Simple Reordering Rule for SOV Languages. In Proceedings of the Joint Fifth Workshop on Statistical Machine Translation and MetricsMATR, pages 244-251. 2010.参照のこと）。また、原言語語順二分木とは、フラグを有し、原言語の語順であり、目的言語の要素を有する文の構文木を構成する二分木である。原言語語順二分木は、例えば、ＥＷＪＳを二分木の構造にした情報であり、二分木の各ノードにフラグを有する情報である。

学習部１０５は、原言語語順二分木取得部１１３が取得した１以上の各原言語語順二分木に対して、機械学習のアルゴリズムを用いて、１以上の学習二分木を構成し、学習二分木格納部１０３に蓄積する。機械学習のアルゴリズムは、例えば、ＳＶＭ、決定木を使用するアルゴリズム等、問わない。また、機械学習の際の素性は、例えば、二分木の親ノードの品詞、２つの子ノードの品詞等である。学習部１０５は、例えば、二分木の親ノードの品詞と２つの子ノードの品詞とフラグとを有する情報を予め学習している。

受付部１０６は、原言語文を受け付ける。原言語文とは、原言語の文である。また、受け付けとは、キーボードやマウス、タッチパネルなどの入力デバイスから入力された情報の受け付け、有線もしくは無線の通信回線を介して送信された情報の受信、光ディスクや磁気ディスク、半導体メモリなどの記録媒体から読み出された情報の受け付けなどを含む概念である。原言語文の入力手段は、キーボードやマウスやメニュー画面によるもの等、何でも良い。受付部１０６は、キーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。

分割部１０７は、原言語文を分割し、１以上の要素を取得する。分割部１０７は、例えば、形態素解析器である。分割部１０７は、例えば、Ｃｈａｓｅｎ（ＵＲＬ：http://chasen.aist-nara.ac.jp/index.php?cmd=read&page=ProjectPractice2005&word=%A3%C3%A3%E8%A3%E1%A3%F3%A3%E5%A3%EE参照）やＭｅｃａｂ（ＵＲＬ：http://mecab.sourceforge.net/参照）等である。なお、分割部１０７は、通常、２以上の要素を取得する。

検索部１０８は、原言語文が有する１以上の各要素に対応する目的言語の１以上の要素を、要素対格納部１０２から取得する。つまり、検索部１０８は、訳語選択を行う。検索部１０８は、例えば、１以上の連続または非連続の要素の並び毎に訳語選択を行う。検索部１０８は、要素対が有する確率に関する情報を用いて、原言語の要素に対応する目的言語の要素を取得しても良い。検索部１０８が行う訳語選択のアルゴリズムは問わない。

構文解析対象取得部１０９は、原言語の語順であり、検索部１０８が取得した目的言語の２以上の要素を有する文である構文解析対象を取得する。構文解析対象は、語順は原言語で単語は目的言語の文であり、Target Word in Source language Structure（ＴＷＳＳ）と言っても良い。また、構文解析対象は、例えば、ＥＷＪＳである。

二分木取得部１１０は、構文解析対象を構文解析し、学習二分木格納部１０３の１以上の学習二分木を用いて、語順を入れ替えるか否かを示すフラグを有する１以上の目的言語の二分木を取得する。１以上の目的言語の二分木は、原言語の語順であり、目的言語の構文木である。１以上の目的言語の二分木は、例えば、構文構造付きのＥＷＪＳである。

具体的には、例えば、二分木取得部１１０は、構文解析対象を構文解析し、学習二分木格納部１０３の１以上の学習二分木が有する二分木確率情報を用いて、１以上の二分木により構成される構文木の出現し易さが最大となる１以上の二分木であり、フラグを有する１以上の目的言語の二分木を、１以上の学習二分木を用いて取得する。かかる方法を第一の方法という。

また、二分木取得部１１０は、原言語文をも構文解析し、原言語文の構文木である原言語構造木を取得し、原言語構造木を構成する１以上の対応する二分木と異なる構造である学習二分木に対応する二分木確率情報が示す出現し易さを減じて、１以上の二分木により構成される構文木の出現し易さが最大となる１以上の二分木であり、フラグを有する１以上の目的言語の二分木を取得しても良い。かかる方法を第二の方法という。第二の方法において、二分木取得部１１０は、例えば、機械学習を用いて、目的言語の二分木を取得する。ここでの機械学習のアルゴリズムは、ＳＶＭ、決定木等、問わない。また、素性は、例えば、親ノードの品詞、２つの子ノードの品詞等である。また、ここで、目的言語の二分木は、例えば、フラグを有する構文構造付きのＥＷＪＳである。また、第二の方法における「学習二分木に対応する二分木確率情報が示す出現し易さを減じる」とは、相対的に減じれば良い。つまり、原言語構造木を構成する１以上の対応する二分木と異なる構造である学習二分木に対応する二分木確率情報は変化させずに、原言語構造木を構成する１以上の対応する二分木と同じ構造である学習二分木に対応する二分木確率情報が示す出現し易さを増加させても良い。また、第二の方法において、二分木取得部１１０は、原言語構造木を構成する１以上の対応する二分木と異なる構造である学習二分木に対応する二分木確率情報が示す出現し易さを減じ、かつ原言語構造木を構成する１以上の対応する二分木と同じ構造である学習二分木に対応する二分木確率情報が示す出現し易さを増加させても良い。

なお、第二の方法は、以下の概念のもと採用される。つまり、正しい１以上の目的言語の二分木からなる構文木（例えば、ＥＷＪＳ）の構文構造は、原言語文の構文構造と似た構造であるはずである。そのため、高精度に原言語文の構文構造を解析できれば、原言語文の構造に近くなるように、１以上の目的言語の二分木からなる構文木の構造をパースすることで、パース精度の向上が期待できる。

第二の方法を用いて、原言語をパースすることには以下の利点がある。まず、構文解析対象は翻訳結果であるためノイズが含まれる可能性があるが、入力文の原言語文にはこのようなノイズが含まれないので、それだけ原言語文のパースは構文解析対象のパースより有利である。また、原言語のパージング技術を活用することができる。また、パラレルコーパスにおいて、一方の言語をパースする際に相手言語側の情報を利用して、解析精度を向上させるという手法が存在するが、これと同じ効果が期待できる。

入替部１１１は、二分木取得部１１０が取得した１以上の目的言語の各二分木のフラグが、語順を入れ替えることを示す情報である場合に、二分木の子ノードの語順を入れ替え、目的言語文を取得する。なお、入替部１１１は、目的言語の二分木のフラグが語順を入れ替えないことを示す情報である場合には、二分木の子ノードの語順を入れ替えないことは言うまでもない。

出力部１１２は、入替部１１１が取得した目的言語文を出力する。ここで、出力とは、ディスプレイへの表示、プロジェクターを用いた投影、プリンタでの印字、音出力、外部の装置への送信、記録媒体への蓄積、他の処理装置や他のプログラムなどへの処理結果の引渡しなどを含む概念である。

以下、翻訳装置１に原言語文Ｆが与えられた場合、翻訳装置１が目的言語文Ｅを取得する動作例の詳細を説明する。ＦからＥへの翻訳は、数式１のように定式化できる。ここで、原言語文をＦ、構文解析対象（例えば、ＥＷＪＳ）をＭ、目的言語文をＥとする。また、λやλ_ｘ（ｘは、ｒ，ｓ等）は重みのパラメータである。

つまり、Ｆが与えられた場合、二分木取得部１１０は、学習二分木格納部１０３の学習二分木が有する二分木確率情報を用いて、Ｆに対して、確率の情報が示す確率が最大となるような１以上の目的言語の二分木を、学習二分木格納部１０３から取得する。数式１において、Ｐ（Ｍ｜Ｆ）は、Ｆが与えられた場合の、Ｍを取得する確率を示す。Ｐ（Ｍ｜Ｆ）^λｓの対数値として、例えば、対数線型モデルを用いたＳＭＴ（統計翻訳）のスコアを用いる。また、数式１の対数値として、ＦからＭを取得する場合に、例えば、Ｍｏｓｅｓのスコア（Chao Wang, Michael Collins, and Philipp Koehn. 2007.Chinese syntactic reordering for statistical machine translation. In Proceedings of the EMNLP-CoNLL),pages 737-745, Prague, Czech Republic, June. Association for Computational Linguistics. 参照）を用いることは好適である。

また、二分木取得部１１０がフラグを有する１以上の目的言語の二分木を取得する２つの方法の例（第一の方法、第二の方法）を、以下に説明する。

第一の方法において、数式１のＰ（Ｅ｜Ｍ，Ｆ）は、数式２のように変形できる。

数式２において、Ｔ_Ｍは、Ｍの構文構造である。また、Ｐ（Ｅ）は、目的言語文の原語モデルにおける確率である。さらに、Ｐ（Ｔ_Ｍ｜Ｍ）は、ＭからＴ_Ｍが生成される確率である。なお、数式２において、Ｐ（Ｅ｜Ｔ_Ｍ，Ｍ）^λｒ１は１であるので、省略可能である。

数式２は、以下のことを示す。二分木取得部１１０は、構文解析対象を構文解析し、学習二分木格納部１０３の１以上の学習二分木が有する二分木確率情報を用いて、１以上の二分木により構成される構文木の出現し易さが最大となる１以上の二分木であり、フラグを有する１以上の目的言語の二分木を、１以上の学習二分木を用いて取得する。なお、取得された１以上の目的言語の二分木は、構文解析対象を構文解析した結果の構文木である。

次に、入替部１１１は、１以上の目的言語の各二分木に対して、二分木の子ノードを入れ替えるか否かを判断し、入れ替えるとの判断をした二分木の兄弟ノードを入れ替え、目的言語文を取得する。

さらに具体的には、二分木取得部１１０は、構文解析対象を構文解析し、Ｎ−ｂｅｓｔの構文木を取得する。次に、入替部１１１は、各構文木を構成する二分木に対して、二分木の子ノードを入れ替えるか否かを判断し、構文木ごとに、Ｋ−ｂｅｓｔのＥを取得する。つまり、入替部１１１は、Ｎ×Ｋ通りの目的言語文の候補を取得し、かかる候補から最も確率が大きい目的言語文を決定する。

第二の方法において、数式１のＰ（Ｅ｜Ｍ，Ｆ）は、数式３のように変形できる。

数式３において、Ｐ（Ｅ｜Ｔ_Ｍ，Ｍ）^λｒ１は１であり、省略可能である。また、Ｐ（Ｅ）は、目的言語文の原語モデルにおける確率である。また、Ａは、原言語の要素と目的言語の要素のアライメントを示す。また、Ｔ_Ｆは、原言語文の構文木を示す。さらに、Ｐ（Ｔ_Ｆ｜Ｆ）は予め与えられている定数である。また、Ｐ（Ａ｜Ｍ，Ｆ）は定数と規定できえる。Ｐ（Ｔ_Ｍ｜Ａ，Ｔ_Ｆ，Ｍ，Ｆ）は、第一の方法とは異なる点である。つまり、第二の方法において、Ｔ_Ｆ（原言語文の構文木）を用いて、Ｅを決定する。

具体的には、数式３は、以下のことを示す。つまり、二分木取得部１１０は、原言語文をも構文解析し、原言語文の構文木である原言語構造木を取得し、原言語構造木を構成する１以上の対応する二分木と異なる構造である学習二分木に対応する二分木確率情報が示す出現し易さを減じて、１以上の二分木により構成される構文木の出現し易さが最大となる１以上の二分木であり、フラグを有する１以上の目的言語の二分木を取得しても良い。

さらに具体的には、Ｐ（Ｔ_Ｍ｜Ａ，Ｔ_Ｆ，Ｍ，Ｆ）を取得するために、二分木取得部１１０は、例えば、以下のような処理を行う。まず、二分木取得部１１０は、原言語文を構文解析し、原言語文の構文木（Ｔ_Ｆ）を取得する。次に、二分木取得部１１０は、１以上の目的言語の二分木から構成される構文木（Ｔ_Ｍ）を取得する。次に、二分木取得部１１０は、原言語文の構文木（Ｔ_Ｆ）を構成する各二分木と、当該各二分木に対応する目的言語の二分木（（（Ｔ_Ｍ）を構成する二分木）とを比較し、各二分木のワードスパンを取得する。そして、二分木取得部１１０は、各二分木のワードスパンを用いて、原言語文の構文木（Ｔ_Ｆ）を構成する二分木と目的言語の二分木とがクロスしているか否かを判断する。二分木取得部１１０は、両二分木がクロスしていると判断した場合、目的言語の二分木（（（Ｔ_Ｍ）を構成する二分木）に対応する二分木確率情報が示す出現し易さを減じる。また、クロスしていないと判断した場合、目的言語の二分木（（（Ｔ_Ｍ）を構成する二分木）に対応する二分木確率情報が示す出現し易さを増加させる。なお、ここで、二分木取得部１１０は、両二分木がクロスしている場合と両二分木がクロスしていない場合との一方の二分木確率情報が示す出現し易さを変化させるだけでも良い。

目的言語文格納部１０１、要素対格納部１０２、および学習二分木格納部１０３は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。

目的言語文格納部１０１等に目的言語文等が記憶される過程は問わない。例えば、記録媒体を介して目的言語文等が目的言語文格納部１０１等で記憶されるようになってもよく、通信回線等を介して送信された目的言語文等が目的言語文格納部１０１等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された目的言語文等が目的言語文格納部１０１等で記憶されるようになってもよい。

目的言語文二分木取得部１０４、学習部１０５、受付部１０６、分割部１０７、検索部１０８、構文解析対象取得部１０９、二分木取得部１１０、および入替部１１１は、通常、ＭＰＵやメモリ等から実現され得る。目的言語文二分木取得部１０４等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

出力部１１２は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。出力部１１２は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。

次に、翻訳装置１が原言語文を翻訳し、目的言語文を取得する動作について、図２のフローチャートを用いて説明する。

（ステップＳ２０１）受付部１０６は、原言語文を受け付けたか否かを判断する。原言語文を受け付ければステップＳ２０２に行き、原言語文を受け付けなければステップＳ２０１に戻る。

（ステップＳ２０２）分割部１０７は、ステップＳ２０１で受け付けられた原言語文を分割し、１以上の要素を取得する。

（ステップＳ２０３）検索部１０８は、カウンタｉに１を代入する。

（ステップＳ２０４）検索部１０８は、ステップＳ２０２で取得された要素のうち、ｉ番目の要素が存在するか否かを判断する。ｉ番目の要素が存在すればステップＳ２０５に行き、ｉ番目の要素が存在しなければステップＳ２０７に行く。

（ステップＳ２０５）検索部１０８は、ｉ番目の要素に対応する目的言語の要素を、要素対格納部１０２から取得する。

（ステップＳ２０６）検索部１０８は、カウンタｉを１、インクリメントし、ステップＳ２０４に戻る。

（ステップＳ２０７）構文解析対象取得部１０９は、ステップＳ２０２における原言語文の分割結果と、ステップＳ２０５で取得された目的言語の１以上の要素とを用いて、原言語の語順であり、目的言語の１以上の要素を有する文である構文解析対象を取得する。

（ステップＳ２０８）二分木取得部１１０は、構文解析対象を、学習二分木格納部１０３の１以上の学習二分木を用いて構文解析する。そして、二分木取得部１１０は、フラグを有する１以上の目的言語の二分木を取得する。ここで、二分木取得部１１０は、学習二分木格納部１０３の１以上の学習二分木を用いて、１以上の目的言語の二分木を取得する。

（ステップＳ２０９）入替部１１１は、カウンタｊに１を代入する。

（ステップＳ２１０）入替部１１１は、ステップＳ２０８で取得された二分木の中に、ｊ番目の二分木が存在するか否かを判断する。ｊ番目の二分木が存在すればステップＳ２１１に行き、ｊ番目の二分木が存在しなければステップＳ２１５に行く。

（ステップＳ２１１）入替部１１１は、ステップＳ２０８で取得された二分木の中から、ｊ番目の二分木のフラグを取得する。

（ステップＳ２１２）入替部１１１は、ステップＳ２１１で取得したフラグが、語順を入れ替えることを示す情報であるか否かを判断する。フラグが語順を入れ替えることを示す情報であればステップＳ２１３に行き、語順を入れ替えないことを示す情報であればステップＳ２１４に行く。

（ステップＳ２１３）入替部１１１は、ｊ番目の二分木の２つの兄弟ノードを入れ替える。

（ステップＳ２１４）入替部１１１は、カウンタｊを１、インクリメントし、ステップＳ２１０に戻る。

（ステップＳ２１５）ステップＳ２１０でｊ番目の二分木が存在しなかった場合、入替部１１１は、目的言語文を構成する。

（ステップＳ２１６）出力部１１２は、入替部１１１がステップＳ２１５で構成した目的言語文を出力し、ステップＳ２０１に戻る。

なお、図２のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。

次に、翻訳装置１が学習二分木を学習する動作について、図３のフローチャートを用いて説明する。

（ステップＳ３０１）目的言語文二分木取得部１０４は、カウンタｉに１を代入する。

（ステップＳ３０２）目的言語文二分木取得部１０４は、目的言語文格納部１０１にｉ番目の目的言語文が存在するか否かを判断する。ｉ番目の目的言語文が存在すればステップＳ３０３に行き、存在しなければステップＳ３１０に行く。

（ステップＳ３０３）目的言語文二分木取得部１０４は、ｉ番目の目的言語文を目的言語文格納部１０１から取得し、当該目的言語文を構文解析し、目的言語の構文木を取得する。

（ステップＳ３０４）原言語語順二分木取得部１１３は、カウンタｊに１を代入する。

（ステップＳ３０５）原言語語順二分木取得部１１３は、ステップＳ３０３で取得された構文木の中に、ｊ番目の二分木が存在するか否かを判断する。ｊ番目の二分木が存在すればステップＳ３０６に行き、存在しなければステップＳ３０９に行く。

（ステップＳ３０６）原言語語順二分木取得部１１３は、機械学習を用いて、ｊ番目の二分木のフラグを決定する。なお、フラグとは、二分木を構成する兄弟ノードを入れ替えるか否かを示す情報である。

（ステップＳ３０７）原言語語順二分木取得部１１３は、ステップＳ３０６で決定したフラグを、ｊ番目の二分木に付与し、フラグ付きの二分木を図示しないバッファに一時蓄積する。

（ステップＳ３０８）原言語語順二分木取得部１１３は、カウンタｊを１、インクリメントし、ステップＳ３０５に戻る。

（ステップＳ３０９）ステップＳ３０５でｊ番目の二分木が存在しなかった場合、目的言語文二分木取得部１０４は、カウンタｉを１、インクリメントし、ステップＳ３０２に戻る。

（ステップＳ３１０）ステップＳ３０２でｉ番目の目的言語文が存在しなかった場合、学習部１０５は、カウンタｋに１を代入する。

（ステップＳ３１１）学習部１０５は、図示しないバッファに、ｋ種類目の二分木が存在するか否かを判断する。ｋ種類目の二分木が存在すればステップＳ３１２に行き、存在しなければ処理を終了する。

（ステップＳ３１２）学習部１０５は、ｋ種類目の二分木の二分木確率情報を取得する。具体的には、例えば、学習部１０５は、ｋ種類目の二分木の、バッファ内での出現回数を取得する。また、学習部１０５は、バッファ内の全二分木数を取得する。そして、学習部１０５は、「二分木確率情報＝ｋ種類目の二分木の出現回数／全二分木数」を算出する。

（ステップＳ３１３）学習部１０５は、ステップＳ３１２で取得した二分木確率情報をｋ種類目の二分木に付加し、学習二分木を構成する。

（ステップＳ３１４）学習部１０５は、ステップＳ３１３で構成した学習二分木を学習二分木格納部１０３に蓄積する。

（ステップＳ３１５）学習部１０５は、カウンタｋを１、インクリメントし、ステップＳ３１１に戻る。

以下、本実施の形態における翻訳装置１の具体的な動作について説明する。ここでは、原言語は日本語、目的言語は英語である、とする。

受付部１０６は、原言語文「彼は昨日本を買った」を受け付けたとする。次に、分割部１０７は、文「彼は昨日本を買った」に形態素解析を行い、形態素（要素の一種）に分割する。そして、分割部１０７は、「彼は昨日本を買った」を得る。

次に、検索部１０８は、統計翻訳のアルゴリズムにより、要素対格納部１０２の要素対を用いて、原言語の各要素「彼」「は」「昨日」「本」「を」「買った」の訳語を選択する。そして、検索部１０８は、「彼」に対して「ｈｅ」、「は」に対して「＿ｖａ０」、「昨日」に対して「ｙｅｓｔｅｒｄａｙ」、「本」に対して「ｂｏｏｋｓ」、「を」に対して「＿ｖａ２」、「買った」に対して「ｂｏｕｇｈｔ」を得る。

次に、構文解析対象取得部１０９は、原言語文の分割結果「彼は昨日本を買った」と、目的言語の１以上の要素（「ｈｅ」、「＿ｖａ０」、「ｙｅｓｔｅｒｄａｙ」、「ｂｏｏｋｓ」、「＿ｖａ２」、「ｂｏｕｇｈｔ」）とを用いて、原言語の語順であり、目的言語の１以上の要素を有する文である構文解析対象「ｈｅ＿ｖａ０ｙｅｓｔｅｒｄａｙｂｏｏｋｓ＿ｖａ２ｂｏｕｇｈｔ」を取得する。なお、この構文解析対象は、ＥＷＪＳである。

次に、二分木取得部１１０は、構文解析対象「ｈｅ＿ｖａ０ｙｅｓｔｅｒｄａｙｂｏｏｋｓ＿ｖａ２ｂｏｕｇｈｔ」を、学習二分木格納部１０３の１以上の学習二分木を用いて構文解析する。そして、二分木取得部１１０は、図４に示す構文木（ＥＷＪＳの構文木）を取得する。この構文木は、目的言語の二分木の集合である。また、この構文木は、原言語文の語順の構文木である。また、この構文木を構成する二分木は、ＰＯＳタグとフラグとを有する。

次に、入替部１１１は、フラグに「ＳＷ」を有する二分木に対して、兄弟ノードを入れ替える。つまり、入替部１１１は、図４の構文木のうち、「ＶＰ＿ＳＷ」の２つの二分木の兄弟ノードを入れ替える。そして、入替部１１１は、図５に示す英語文の構文木を取得する。なお、図５の構文木において、フラグは消去されている。

次に、入替部１１１は、図５に示す英語文の構文木から、目的言語文「ｈｅｂｏｕｇｈｔｂｏｏｋｓｙｅｓｔｅｒｄａｙ」を取得する。なお、入替部１１１は、目的言語文を取得する際に、削除する特定の要素「＿ｖａ０」「＿ｖａ２」等を予め保持している。そして、入替部１１１は予め保持している特定の要素を削除し、目的言語文を取得する。

なお、入替部１１１は、特定の要素「＿ｖａ０」「＿ｖａ２」等を削除した後、必要な冠詞を挿入する処理を行うことは好適である。また、必要な冠詞を挿入する処理は、例えば、機械学習により可能である。なお、英語（目的言語の一例）の文を訓練データとして構築したＮ−ｇｒａｍ言語モデルを用いて冠詞を挿入することができる。例えば、入替部１１１は、各単語間に冠詞がある場合と無い場合の文の生成確率を計算し、文の生成確率が最大となる単語列を選択することで、挿入する冠詞の種類と位置を決定する。

次に、出力部１１２は、入替部１１１が取得した目的言語文「ｈｅｂｏｕｇｈｔｂｏｏｋｓｙｅｓｔｅｒｄａｙ」を出力する。

以下、翻訳装置１について行った実験について説明する。
（実験）

本実験において、NTCIR-9 Patent Machine Translation Japanese to English subtaskおよびNTCIR-8 Patent Translation Japanese to English taskのデータを用いた．これらのデータは特許文である。これらの特許文は、旅行会話の文やニュースの文に比べて長い。本実験において、原言語は日本語であり、目的言語は英語である。

また、ＮＴＣＩＲ−９とＮＴＣＩＲ−８で訓練データと開発データは同じであり、テストデータは異なる。ＮＴＣＩＲ−９のテストデータの文数は２０００で、ＮＴＣＩＲ−８のテストデータの文数は１２５１であった。また、訓練データ、開発データ、リファレンスデータ中に含まれるXML entity(例えば、&lg;, &tilde;, ’等)はＵＴＦ−８の文字に戻してから用いた。

また、本実験において、英語のトークン化とＰＯＳタグの付与と構文解析にはＥｎｊｕ（Yusuke Miyao and Jun'ichi Tsujii. 2008. Feature forest models for probabilistic hpsg parsing. In Computational Linguistics, Volume 34, Number 1, pages 81-88参照）を用いた。日本語の形態素解析にはＭｅｃａｂ、係り受け解析にはＣａｂｏｃｈａを用いた。また、日本語の英数字と括弧のトークン化は英語のトークン化と同じになるようにした。

翻訳モデルは、訓練データのうち、英語と日本語の単語数がいずれも６４単語以下の文から構築した。全訓練データ約３１９万文のうち、約２９７万文が６４単語以下であった。また、言語モデルにはＳＲＩＬＭの５−ｇｒａｍを用いた。言語モデルは、全訓練データを用いて学習した。

また、ＥＷＪＳの構文構造をパースするモデルの学習およびテスト時のパースにはｂｅｒｋｅｌｅｙｐａｒｓｅｒを用いた。また、パージングモデルは、４０語以内の文から、５０万文をランダムに選択して、学習された。

また、本実験において、上記の数式２のＳＭＴスコアの算出や、ＥＷＪＳ（Ｍ）の生成のために、フレーズベースの統計翻訳システムのＭｏｓｅｓ（Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris Callison-Burch, Marcello Federico, Nicola Bertoldi,Brooke Cowan, Wade Shen, Christine Moran, Richard Zens, Chris Dyer, Ondrej Bojar, Alexandra Constantin, and Evan Herbst. 2007. Moses: Open source toolkit for statistical machine translation. In Proceedings of the 45th ACL, pages 177-180, Prague, Czech Republic, June. Association for Computational Linguistics.参照）を用いた。また、歪み限界（Ｄｉｓｔｏｒｔｉｏｎｌｉｍｉｔ）は０に設定した。ＳＭＴのパラメータは、ＭＥＲＴで開発データの前半を用いてチューニングした。

また、Ｍを介した上記の数式１の処理では、ＭのＮ−ｂｅｓｔ解を用いてビームサーチした。その際のビーム幅は１０を用いた。なお、Ｍは、Mosesの出力である。

また、数式２のＰ（Ｔ_Ｍ｜Ｍ）と数式３のＰ（Ｔ_Ｍ｜Ａ，Ｔ_Ｆ，Ｍ，Ｆ）の処理では、解析結果のＫ−ｂｅｓｔ解を用いた。そして、Ｋ−ｂｅｓｔ解の確率は定数に近似した。

また、数式２で設定が必要なパラメータは、λ_ｒ２とＫ−ｂｅｓｔのＫの２つである。また、数式３で設定が必要なパラメータはλ_ｒ２と、Ｋ−ｂｅｓｔのＫと、ｗの３つである。ｗは、Ｍをパースする際にＴ_Ｆの影響の強さを調節するパラメータである。これらのパラメータは開発データの後半を用いてチューニングした。このチューニングはＢＬＥＵの値に基づいて行った。なお、ＢＬＥＵ（Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. 2002. Bleu: a Method for Automatic Evaluation of Machine Translation. In Proceedings of 40^th ACL, pages 311-318. 参照)は、自動評価による値である。

以上の前提の元、本実験において、次の５つの比較手法を用いた。
・Phrase-based SMT (PBMT)
・hierarchical phrase-based SMT (HPBMT)
・String-to-tree syntax-based SMT (SBMT)
・Post-ordering based on phrase-based SMT (PO-PBMT)
・Post-ordering based on hierarchical phrase-based SMT (PO-HPBMT)

なお、これらのシステムには上記のMosesを用いた。また、PO-PBMTは、非特許文献１の手法である。PO-PBMTでは、はじめに歪み限界０で日本語文をＥＷＪＳにフレーズベースの統計翻訳で翻訳し、歪み限界２０でＥＷＪＳを英語文にフレーズベースの統計翻訳で翻訳した。これらの歪み限界の値は、非特許文献１の実験で最も実験結果が高かった値である。

また、PO-HPBMTでは、PO-PBMTでＥＷＪＳから英語文への翻訳にフレーズベースの統計翻訳の代わりに階層フレーズベースの統計翻訳を用いた。階層フレーズベースの統計翻訳の最大チャートスパンには１５を用いた。

また、PMBTの歪み限界には１２と２０を用いた．HPBMTの最大チャートスパンには１５を用いた。その他のシステムのパラメータはシステムのデフォルト値を用いた。また、統計翻訳のパラメータは、開発データの前半を用いてMERTによってチューニングした。

本実験において、翻訳結果の訳質はＲＩＢＥＳｖ１．１およびＢＬＥＵ−４で評価した。ＲＩＢＥＳのパラメータはデフォルト設定を用いた。なお、本実験において、大文字と小文字とは区別をしていない。本実験の実験結果を図６に示す。なお、ＲＩＢＥＳについては、文献（Hideki Isozaki, Tsutomu Hirao, Kevin Duh, Katsuhito Sudoh, and Hajime Tsukada. 2010a. Automatic Evaluation of Translation Quality for Distant Language Pairs. In Proceedings of the 2010 EMNLP, pages 944-952.）を参照のこと。

図６において、Ｐｒｏｐｏｓｅｄ（ｗｉｔｈｏｕｔＴ_Ｆ）は、翻訳装置１が上記の数式２を利用した場合の結果である。また、Ｐｒｏｐｏｓｅｄ（ｗｉｔｈＴ_Ｆ）は、翻訳装置１が上記の数式３を利用した場合の結果である。

Ｐｒｏｐｏｓｅｄ（ｗｉｔｈＴ_Ｆ）は、ＲＩＢＥＳおよびＢＬＥＵいずれにおいても、またＮＴＣＩＲ−９、ＮＴＣＩＲ−８のいずれにおいても、比較手法より値が高かった。

以上より、翻訳装置１の手法による語順推定の有効性が示された。

また、翻訳装置１の手法の（ｗｉｔｈＴ_Ｆ）と（ｗｉｔｈｏｕｔＴ_Ｆ）とを比較すると、ＮＴＣＩＲ−９、ＮＴＣＩＲ−８のいずれにおいても、（ｗｉｔｈＴ_Ｆ）の方がＲＩＢＥＳ、ＢＬＥＵともに少し高かった。そのため、日本語の構文構造をＥＷＪＳのパースに利用する手法は、少し効果が見られた。

以上、本実施の形態によれば、機械翻訳の訳質が高くなる。さらに具体的には、原言語と目的言語での構文構造の違いを識別するモデルを含んだ構文解析モデルを用いて構文解析し、その解析結果に基づいて構文構造の兄弟ノードの語順を入れ替えることにより、語順を入れ替えるため、語順の推定精度が向上し、機械翻訳の訳質が高くなる。

なお、本実施の形態において、上述したように、二分木取得部１１０は、原言語文をも構文解析し、原言語文の構文木である原言語構造木を取得し、原言語構造木を構成する１以上の対応する二分木と異なる構造である学習二分木に対応する二分木確率情報が示す出現し易さを減じて、１以上の二分木により構成される構文木の出現し易さが最大となる１以上の二分木であり、フラグを有する１以上の目的言語の二分木を取得しても良い。かかる第二の方法の具体例を含む翻訳装置１の動作について、図７を用いて説明する。

今、受付部１０６は、原言語文「彼は望遠鏡で彼女を見た」を受け付けた、とする。そして、分割部１０７は、原言語文「彼は望遠鏡で彼女を見た」を分割し、７つの要素「彼」「は」「望遠鏡」「で」「彼女」「を」「見た」を取得する。

次に、検索部１０８は、各要素に対応する目的言語の要素を、要素対格納部１０２から取得する。

次に、構文解析対象取得部１０９は、原言語文の分割結果と、目的言語の１以上の要素とを用いて、構文解析対象「ｈｅ＿ｖａ０ｔｅｌｅｓｃｏｐｅｗｉｔｈｈｅｒ＿ｖａ２ｓａｗ」を取得する。

次に、二分木取得部１１０は、構文解析対象を、学習二分木格納部１０３の１以上の学習二分木を用いて構文解析する。そして、二分木取得部１１０は、フラグを有する１以上の目的言語の二分木を取得する。ここでは、二分木取得部１１０は、図７のＣａｓｅ１とＣａｓｅ２との２つのＥＷＪＳ構文木を取得した、とする。

次に、二分木取得部１１０は、原言語文「彼は望遠鏡で彼女を見た」を構文解析する。そして、図７の原言語文の構文木を取得する。

次に、二分木取得部１１０は、原言語文の構文木を構成する各二分木と、当該各二分木に対応する目的言語の二分木とを比較し、各二分木のワードスパンを取得する。ここで、例えば、二分木取得部１１０は、「彼女」「を」「見た」に対応する原言語文の二分木のスパンを「５−７」と取得する。また、二分木取得部１１０は、図７のＣａｓｅ１の「彼女」「を」「見た」に対応する二分木のスパンを「５−７」と取得する。さらに、二分木取得部１１０は、図７のＣａｓｅ２の「彼女」「を」「見た」に対応する二分木のスパンを「３−６」と取得する。

次に、二分木取得部１１０は、各二分木のワードスパン（「５−７」と「５−７」）を用いて、原言語文の構文木を構成する二分木と、図７のＣａｓｅ１の目的言語の二分木とがクロスしていない、と判断する。また、二分木取得部１１０は、各二分木のワードスパン（「５−７」と「３−６」）を用いて、原言語文の構文木を構成する二分木と、図７のＣａｓｅ２の目的言語の二分木とがクロスしている、と判断する。

そして、二分木取得部１１０は、両二分木がクロスしていると判断した、図７のＣａｓｅ２の目的言語の二分木に対応する二分木確率情報が示す出現し易さを減じる。なお、減じる程度は、通常、予め決められている。

また、二分木取得部１１０は、両二分木がクロスしていないと判断した、図７のＣａｓｅ１の目的言語の二分木に対応する二分木確率情報が示す出現し易さを増加させる。なお、増加させる程度は、通常、予め決められている。

そして、二分木確率情報を用いて、確率が最大となるように、二分木取得部１１０は、ＥＷＪＳ構文木を決定する。

次に、二分木取得部１１０が取得したＥＷＪＳ構文木（構文構造付きＥＷＪＳ）を構成する各二分木に対して、入替部１１１は、二分木が有するフラグが、語順を入れ替えることを示す情報であるか否かを判断する。そして、入替部１１１は、語順を入れ替えることを示すフラグに対応する二分木の２つの兄弟ノードを入れ替える。そして、入替部１１１は、目的言語文を取得する。

次に、出力部１１２は、入替部１１１が取得した目的言語文を出力する。

なお、上記実施の形態において、主として、翻訳装置の原言語は分かち書きされていない言語を対象とした。つまり、翻訳装置は、分割部１０７を有した。しかし、原言語が分かち書きされている言語（例えば、英語等）の場合、翻訳装置は、分割部１０７を有しない。かかる場合、例えば、翻訳装置３の構成は、図８のようになる。つまり、かかる場合の翻訳装置３は、原言語の要素と目的言語の要素との対である２以上の要素対を格納し得る要素対格納部と、原言語の語順の二分木を示す情報である学習二分木を、１以上格納し得る学習二分木格納部と、原言語文を受け付ける受付部と、前記原言語文が有する２以上の各要素に対応する目的言語の２以上の要素を、前記要素対格納部から取得する検索部と、原言語の語順であり、前記検索部が取得した目的言語の２以上の要素を有する文である構文解析対象を取得する構文解析対象取得部と、前記構文解析対象を構文解析し、前記学習二分木格納部の１以上の学習二分木を用いて、語順を入れ替えるか否かを示すフラグを有する１以上の目的言語の二分木を取得する二分木取得部と、前記二分木取得部が取得した１以上の目的言語の各二分木のフラグが、語順を入れ替えることを示す情報である場合に、当該二分木の子ノードの語順を入れ替え、目的言語文を取得する入替部と、前記入替部が取得した目的言語文を出力する出力部とを具備する翻訳装置である。

さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをＣＤ−ＲＯＭなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、記録媒体に、原言語の要素と目的言語の要素との対である２以上の要素対と、原言語の語順の二分木を示す情報である１以上の学習二分木とを格納しており、コンピュータを、原言語文を受け付ける受付部と、前記原言語文が有する２以上の各要素に対応する目的言語の２以上の要素を、前記記録媒体から取得する検索部と、原言語の語順であり、前記検索部が取得した目的言語の１以上の要素を有する文である構文解析対象を取得する構文解析対象取得部と、前記構文解析対象を構文解析し、前記記録媒体の１以上の学習二分木を用いて、語順を入れ替えるか否かを示すフラグを有する１以上の目的言語の二分木を取得する二分木取得部と、前記二分木取得部が取得した１以上の目的言語の各二分木のフラグが、語順を入れ替えることを示す情報である場合に、当該二分木の子ノードの語順を入れ替え、目的言語文を取得する入替部と、前記入替部が取得した目的言語文を出力する出力部として機能させるためのプログラム、である。

上記プログラムにおいて、前記学習二分木は、原言語の語順の二分木を示す情報であり、当該学習二分木の出現し易さを示す二分木確率情報と語順を入れ替えるか否かを示すフラグとを有する二分木の情報であり、前記二分木取得部は、前記構文解析対象を構文解析し、前記学習二分木格納部の１以上の学習二分木が有する二分木確率情報を用いて、１以上の二分木により構成される構文木の出現し易さが最大となる１以上の二分木であり、フラグを有する１以上の目的言語の二分木を、前記１以上の学習二分木を用いて取得するものとして、コンピュータを機能させることは好適である。

上記プログラムにおいて、前記学習二分木は、原言語の語順の二分木を示す情報であり、当該学習二分木の出現し易さを示す二分木確率情報を有する二分木の情報であり、前記二分木取得部は、前記原言語文をも構文解析し、原言語文の構文木である原言語構造木を取得し、当該原言語構造木を構成する１以上の対応する二分木と異なる構造である学習二分木に対応する二分木確率情報が示す出現し易さを減じて、１以上の二分木により構成される構文木の出現し易さが最大となる１以上の二分木であり、フラグを有する１以上の目的言語の二分木を取得するものとして、コンピュータを機能させることは好適である。

上記プログラムにおいて、コンピュータを記録媒体に格納されている１以上の各目的言語文を構文解析し、１以上の二分木を取得する目的言語文二分木取得部と、前記目的言語文二分木取得部が取得した１以上の各二分木に対して、機械学習のアルゴリズムを用いてフラグを決定し、当該フラグを有する１以上の学習二分木を構成し、前記学習二分木格納部に蓄積する学習部として、さらに機能させることは好適である。

上記プログラムにおいて、原言語は日本語であり、目的言語は英語であり、前記学習二分木は構文構造付きのＥＷＪＳであり、前記構文解析対象はＥＷＪＳであるものとして、コンピュータを機能させることは好適である。

（実施の形態２）
本実施の形態において、実施の形態１と比較して、学習二分木はフラグを有さず、後にフラグを決定するところが異なる。

図９は、本実施の形態における翻訳装置２のブロック図である。翻訳装置２は、目的言語文格納部１０１、要素対格納部１０２、学習二分木格納部２０３、目的言語文二分木取得部１０４、学習部１０５、受付部１０６、分割部１０７、検索部１０８、構文解析対象取得部１０９、二分木取得部２１０、入替部１１１、出力部１１２を備える。

学習二分木格納部２０３は、１以上の学習二分木を格納し得る。学習二分木は、原言語の語順の二分木を示す情報である。ここでの学習二分木は、フラグを有さない。学習二分木とは、例えば、親のノードの品詞を示す情報と、２つの子のノードの品詞を示す情報とを有する。また、２つの子のノードは、目的言語の要素でも良い。学習二分木は、二分木確率情報を有することは好適である。

学習二分木格納部２０３は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。学習二分木格納部２０３に学習二分木が記憶される過程は問わない。

二分木取得部２１０は、構文解析対象を構文解析し、学習二分木格納部２０３の１以上の学習二分木を用いて、語順を入れ替えるか否かを示すフラグを有する１以上の目的言語の二分木を取得する。

さらに具体的には、二分木取得部２１０は、構文解析対象を構文解析し、学習二分木格納部２０３の１以上の学習二分木が有する二分木確率情報を用いて、１以上の二分木により構成される構文木の出現し易さが最大となる１以上の二分木を取得する。次に、二分木取得部２１０は、取得した１以上の各二分木に対して、機械学習のアルゴリズムを用いてフラグを決定し、フラグを有する１以上の目的言語の二分木を取得する。

なお、二分木取得部２１０は、例えば、二分木の情報およびフラグの情報を対応付けて格納している。ここで、格納している情報を学習データと言う。そして、二分木取得部２１０は、取得した１以上の各二分木に対して、学習データを用いて、機械学習し、フラグを決定する。機械学習のアルゴリズムは、ＳＶＭ、決定木等、問わない。また、機械学習の素性は、例えば、二分木を構成する親ノードの品詞と、２つの子ノードの品詞である。ただし、機械学習の素性も問わない。

二分木取得部２１０は、通常、ＭＰＵやメモリ等から実現され得る。二分木取得部２１０の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。

また、本実施の形態において、学習二分木格納部２０３で格納している学習二分木はフラグを有する必要がない。つまり、簡易な学習データを用いて、二分木の兄弟ノードの語順を入れ替えるか否かを判断できる。

なお、本実施の形態における翻訳装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、記録媒体に、原言語の要素と目的言語の要素との対である２以上の要素対と、原言語の語順の二分木を示す情報である１以上の学習二分木とを格納しており、コンピュータを、原言語文を受け付ける受付部と、前記原言語文を分割し、１以上の要素を取得する分割部と、前記分割部が取得した１以上の各要素に対応する目的言語の１以上の要素を、前記記録媒体から取得する検索部と、原言語の語順であり、前記検索部が取得した目的言語の１以上の要素を有する文である構文解析対象を取得する構文解析対象取得部と、前記構文解析対象を構文解析し、前記記録媒体の１以上の学習二分木を用いて、語順を入れ替えるか否かを示すフラグを有する１以上の目的言語の二分木を取得する二分木取得部と、前記二分木取得部が取得した１以上の目的言語の各二分木のフラグが、語順を入れ替えることを示す情報である場合に、当該二分木の子ノードの語順を入れ替え、目的言語文を取得する入替部と、前記入替部が取得した目的言語文を出力する出力部として機能させるためのプログラム、である。

上記プログラムにおいて、前記二分木取得部は、前記構文解析対象を構文解析し、前記学習二分木格納部の１以上の学習二分木が有する二分木確率情報を用いて、１以上の二分木により構成される構文木の出現し易さが最大となる１以上の二分木を取得し、かつ、１以上の各二分木に対して、機械学習のアルゴリズムを用いてフラグを決定し、フラグを有する１以上の目的言語の二分木を取得するものとして、コンピュータを機能させることは好適である。

また、図１０は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の翻訳装置を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図１０は、このコンピュータシステム３００の概観図であり、図１１は、システム３００のブロック図である。

図１０において、コンピュータシステム３００は、ＣＤ−ＲＯＭドライブを含むコンピュータ３０１と、キーボード３０２と、マウス３０３と、モニタ３０４とを含む。

図１１において、コンピュータ３０１は、ＣＤ−ＲＯＭドライブ３０１２に加えて、ＭＰＵ３０１３と、バス３０１４と、ＲＯＭ３０１５と、ＲＡＭ３０１６と、ハードディスク３０１７とを含む。なお、バス３０１４は、ＭＰＵ３０１３やＣＤ−ＲＯＭドライブ３０１２に接続されている。また、ＲＯＭ３０１５には、ブートアッププログラム等のプログラムが記憶されている。また、ＲＡＭ３０１６は、ＭＰＵ３０１３に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのものである。また、ハードディスク３０１７は、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのものである。ここでは、図示しないが、コンピュータ３０１は、さらに、ＬＡＮへの接続を提供するネットワークカードを含んでも良い。

コンピュータシステム３００に、上述した実施の形態の翻訳装置の機能を実行させるプログラムは、ＣＤ−ＲＯＭ３１０１に記憶されて、ＣＤ−ＲＯＭドライブ３０１２に挿入され、さらにハードディスク３０１７に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ３０１に送信され、ハードディスク３０１７に記憶されても良い。プログラムは実行の際にＲＡＭ３０１６にロードされる。プログラムは、ＣＤ−ＲＯＭ３１０１またはネットワークから直接、ロードされても良い。

プログラムは、コンピュータ３０１に、上述した実施の形態の翻訳装置の機能を実行させるオペレーティングシステム、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能（モジュール）を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム３００がどのように動作するかは周知であり、詳細な説明は省略する。

また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。

また、上記各実施の形態において、各処理（各機能）は、単一の装置（システム）によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。

本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。

以上のように、本発明にかかる翻訳装置は機械翻訳の訳質が高くなる、という効果を有し、日英特許翻訳システム等として有用である。

１、２翻訳装置
１１０、２１０二分木取得部
１０１目的言語文格納部
１０２要素対格納部
１０３、２０３学習二分木格納部
１０４目的言語文二分木取得部
１０５学習部
１０６受付部
１０７分割部
１０８検索部
１０９構文解析対象取得部
１１１入替部
１１２出力部

Claims

原言語の要素と目的言語の要素との対である２以上の要素対を格納し得る要素対格納部と、
原言語の語順の二分木を示す情報である学習二分木を、１以上格納し得る学習二分木格納部と、
原言語文を受け付ける受付部と、
前記原言語文が有する２以上の各要素に対応する目的言語の２以上の要素を、前記要素対格納部から取得する検索部と、
原言語の語順であり、前記検索部が取得した目的言語の２以上の要素を有する文である構文解析対象を取得する構文解析対象取得部と、
前記構文解析対象を構文解析し、前記学習二分木格納部の１以上の学習二分木を用いて、語順を入れ替えるか否かを示すフラグを有する１以上の目的言語の二分木を取得する二分木取得部と、
前記二分木取得部が取得した１以上の目的言語の各二分木のフラグが、語順を入れ替えることを示す情報である場合に、当該二分木の子ノードの語順を入れ替え、目的言語文を取得する入替部と、
前記入替部が取得した目的言語文を出力する出力部とを具備し、
前記学習二分木は、
原言語の語順の二分木を示す情報であり、当該学習二分木の出現し易さを示す二分木確率情報と語順を入れ替えるか否かを示すフラグとを有する二分木の情報であり、
前記二分木取得部は、
前記構文解析対象を構文解析し、前記学習二分木格納部の１以上の学習二分木が有する二分木確率情報を用いて、１以上の二分木により構成される構文木の出現し易さが最大となる１以上の二分木であり、フラグを有する１以上の目的言語の二分木を、前記１以上の学習二分木を用いて取得する翻訳装置。
原言語の要素と目的言語の要素との対である２以上の要素対を格納し得る要素対格納部と、
原言語の語順の二分木を示す情報である学習二分木を、１以上格納し得る学習二分木格納部と、
原言語文を受け付ける受付部と、
前記原言語文が有する２以上の各要素に対応する目的言語の２以上の要素を、前記要素対格納部から取得する検索部と、
原言語の語順であり、前記検索部が取得した目的言語の２以上の要素を有する文である構文解析対象を取得する構文解析対象取得部と、
前記構文解析対象を構文解析し、前記学習二分木格納部の１以上の学習二分木を用いて、語順を入れ替えるか否かを示すフラグを有する１以上の目的言語の二分木を取得する二分木取得部と、
前記二分木取得部が取得した１以上の目的言語の各二分木のフラグが、語順を入れ替えることを示す情報である場合に、当該二分木の子ノードの語順を入れ替え、目的言語文を取得する入替部と、
前記入替部が取得した目的言語文を出力する出力部とを具備し、
前記学習二分木は、
原言語の語順の二分木を示す情報であり、当該学習二分木の出現し易さを示す二分木確率情報を有する二分木の情報であり、
前記二分木取得部は、
前記原言語文をも構文解析し、原言語文の構文木である原言語構造木を取得し、当該原言語構造木を構成する１以上の対応する二分木と異なる構造である学習二分木に対応する二分木確率情報が示す出現し易さを減じて、１以上の二分木により構成される構文木の出現し易さが最大となる１以上の二分木であり、フラグを有する１以上の目的言語の二分木を取得する翻訳装置。
前記二分木取得部は、
前記１以上の各二分木に対して、当該１以上の各二分木の親ノードの品詞および２つの子ノードの品詞を素性として、機械学習のアルゴリズムを用いてフラグを決定し、フラグを有する１以上の目的言語の二分木を取得する請求項２記載の翻訳装置。
１以上の目的言語文を格納し得る目的言語文格納部と、
前記１以上の各目的言語文を構文解析し、１以上の二分木を取得する目的言語文二分木取得部と、
前記目的言語文二分木取得部が取得した１以上の各二分木に対して、目的言語から原言語へのプレオーダリング手法を適用し、フラグを有し、原言語の語順であり、目的言語の要素を有する文の構文木を構成する二分木である１以上の原言語語順二分木を取得する原言語語順二分木取得部と、
前記原言語語順二分木取得部が取得した１以上の各原言語語順二分木に対して、機械学習のアルゴリズムを用いて、１以上の学習二分木を構成し、前記学習二分木格納部に蓄積する学習部とをさらに具備する請求項１から請求項３いずれか一項に記載の翻訳装置。
記録媒体に、
原言語の要素と目的言語の要素との対である２以上の要素対と、
原言語の語順の二分木を示す情報である１以上の学習二分木とを格納しており、
コンピュータを、
原言語文を受け付ける受付部と、
前記原言語文を分割し、１以上の要素を取得する分割部と、
前記分割部が取得した１以上の各要素に対応する目的言語の１以上の要素を、前記記録媒体から取得する検索部と、
原言語の語順であり、前記検索部が取得した目的言語の１以上の要素を有する文である構文解析対象を取得する構文解析対象取得部と、
前記構文解析対象を構文解析し、前記記録媒体の１以上の学習二分木を用いて、語順を入れ替えるか否かを示すフラグを有する１以上の目的言語の二分木を取得する二分木取得部と、
前記二分木取得部が取得した１以上の目的言語の各二分木のフラグが、語順を入れ替えることを示す情報である場合に、当該二分木の子ノードの語順を入れ替え、目的言語文を取得する入替部と、
前記入替部が取得した目的言語文を出力する出力部として機能させるためのプログラムであって、
前記学習二分木は、
原言語の語順の二分木を示す情報であり、当該学習二分木の出現し易さを示す二分木確率情報と語順を入れ替えるか否かを示すフラグとを有する二分木の情報であり、
前記二分木取得部は、
前記構文解析対象を構文解析し、前記記録媒体の１以上の学習二分木が有する二分木確率情報を用いて、１以上の二分木により構成される構文木の出現し易さが最大となる１以上の二分木であり、フラグを有する１以上の目的言語の二分木を、前記１以上の学習二分木を用いて取得するものとしてコンピュータを機能させるためのプログラム。
記録媒体に、
原言語の要素と目的言語の要素との対である２以上の要素対と、
原言語の語順の二分木を示す情報である１以上の学習二分木とを格納しており、
コンピュータを、
原言語文を受け付ける受付部と、
前記原言語文が有する２以上の各要素に対応する目的言語の２以上の要素を、前記記録媒体から取得する検索部と、
原言語の語順であり、前記検索部が取得した目的言語の２以上の要素を有する文である構文解析対象を取得する構文解析対象取得部と、
前記構文解析対象を構文解析し、前記記録媒体の１以上の学習二分木を用いて、語順を入れ替えるか否かを示すフラグを有する１以上の目的言語の二分木を取得する二分木取得部と、
前記二分木取得部が取得した１以上の目的言語の各二分木のフラグが、語順を入れ替えることを示す情報である場合に、当該二分木の子ノードの語順を入れ替え、目的言語文を取得する入替部と、
前記入替部が取得した目的言語文を出力する出力部として機能させるためのプログラムであって、
前記学習二分木は、
原言語の語順の二分木を示す情報であり、当該学習二分木の出現し易さを示す二分木確率情報を有する二分木の情報であり、
前記二分木取得部は、
前記原言語文をも構文解析し、原言語文の構文木である原言語構造木を取得し、当該原言語構造木を構成する１以上の対応する二分木と異なる構造である学習二分木に対応する二分木確率情報が示す出現し易さを減じて、１以上の二分木により構成される構文木の出現し易さが最大となる１以上の二分木であり、フラグを有する１以上の目的言語の二分木を取得するものとしてコンピュータを機能させるためのプログラム。