JP2013054607A

JP2013054607A - 並べ替え規則学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラム

Info

Publication number: JP2013054607A
Application number: JP2011193366A
Authority: JP
Inventors: Xianchao Wu; センチョウゴ; Katsuto Sudo; 克仁須藤; Do Kevin; ドゥケヴィン; Hajime Tsukada; 元塚田; Masaaki Nagata; 昌明永田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2011-09-05
Filing date: 2011-09-05
Publication date: 2013-03-21
Anticipated expiration: 2031-09-05
Also published as: JP5552101B2

Abstract

【課題】文法的な構造を分断してしまうような並べ替えを抑制し、高精度な機械翻訳を行う。
【解決手段】入力文解析部５４で、翻訳元言語で記述された入力文が、文節各々及び文節間の係り受け関係を示すノードを含んで構成され、ノードに対応する文節内に存在する機能語を示すラベルがノード各々に付与された構文木で表現されるように、入力文を解析する。並べ替え部５６で、解析された構文木に対して並べ替え規則４２を適用して、入力文を並べ替える。並べ替え規則４２は、構文木における部分木の複数の子ノードを並べ替えるための並べ替え規則であって、子ノードに付与されたラベルで示される文節内の機能語と翻訳先言語の文法とによる制約と、翻訳元言語と翻訳先言語との単語対応及び翻訳先言語の構文解析結果による制約とが考慮されている。翻訳処理部５８は、並べ替え部５６で並べ替えられた入力文を翻訳モデル４６に基づいて、翻訳先言語に翻訳する。
【選択図】図１

Description

本発明は、並べ替え規則学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラムに係り、特に、入力側の言語（以下、「翻訳元言語」という）の単語や句を、出力側の言語（以下、「翻訳先言語」という）の語順に近づくように並べ替えるための並べ替え規則を学習する並べ替え規則学習装置、方法、及びプログラム、並びに学習された並べ替え規則を利用して翻訳元言語を翻訳先言語に翻訳する翻訳装置、方法、及びプログラムに関する。

従来、翻訳元言語の文を翻訳先言語の文に機械翻訳することが行われている。このような機械翻訳において、例えば、日本語と英語のような語順の大きく異なる言語間の翻訳は、語順に大きな異なりがない言語間での翻訳と比べて難しい問題である。特に、統計モデルを利用して機械翻訳を実現する統計的機械翻訳の技術においては、様々に語順を入れ替えて最適な翻訳結果を探索する必要があり、その場合分けの数は理論的には入力単語数の階乗個に及ぶため、より顕著な問題である。従来の統計的機械翻訳の技術においては、最大の単語や句の並べ替え距離を事前に設定し、探索範囲を限定するという近似的解法が一般的に利用されている。しかしながら、このような手法では、例えば長い名詞句を目的語とするような英文の日本語への翻訳において、動詞句が日本語として望ましい文末の位置に来るような句の並べ替えが探索できず、誤った位置に出現するようなことが起こり得る。

こうした問題に対処する別の方法として、翻訳元言語の単語や句を翻訳前に翻訳先言語の語順に近づくように並べ替える「事前並べ替え（pre-ordering）」と呼ばれる技術が提案されている（例えば、非特許文献１参照）。このような技術では、一般的に翻訳元言語の文に対して構文解析を行い、構文木の親ノードに接続する複数の子ノードの順序を入れ替える操作によって、単語や句の並べ替えを実現する。順序の入れ替えは別途作成した規則集合を利用する手法（例えば、非特許文献１参照）、対訳文集合から自動的に規則を抽出する手法（例えば、非特許文献２参照）、並べ替えに関する統計モデルを推定する手法（例えば、非特許文献３参照）が広く知られている。これらの従来の事前並べ替えの手法では、句構造文法を用いた構文解析または単語単位の依存構造（係り受け）解析を利用して並べ替え規則や統計モデルが学習されている。

Hideki Isozaki, Katsuhito Sudoh, Hajime Tsukada, and Kevin Duh. Head Finalization, "A Simple Reordering Rule for SOV Languages.", Proceedings of WMT-MetricsMATR 2010. pp. 244-251. 2010. Dmitriy Genzel, "Automatically Learning Source-side Reordering Rules for Large Scale Machine Translation.", Proceedings of COLING-2010. pp. 376-384. 2010. Chi-Ho Li, Dongdong Zhang, Mu Li, Ming Zhou, Minghui Li, and Yi Guan, "A Probabilistic Approach to Syntax-based Reordering for Statistical Machine Translation.", Proceedings of ACL 2007, pages 720-727. 2007.

しかしながら、日本語の構文解析においては、文節を単位とする依存構造解析が広く使われており、従来の単語単位の構文構造とは異なることから、前述の方法を直接利用することが難しく、また、文節の並べ替えによって翻訳元言語または翻訳先言語の文法的な構造が分断される場合があり、翻訳精度を向上させることができない、という問題があった。

本発明は上記問題点に鑑みてなされたものであり、文法的な構造を分断してしまうような並べ替えを抑制し、高精度な機械翻訳を行うための並べ替え規則を学習することができる並べ替え規則学習装置、方法、及びプログラム、並びに学習された並べ替え規則を利用して高精度な機械翻訳を行うことができる翻訳装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、本発明の並べ替え規則学習装置は、翻訳元言語で記述された学習用翻訳元文を解析して、該学習用翻訳元文が、文節各々及び文節間の係り受け関係を示すノードを含んで構成され、該ノードに対応する文節内に存在する機能語を示すラベルが該ノード各々に付与された構文木で表現された解析結果を得る翻訳元解析手段と、前記翻訳元解析手段で得られた前記構文木に含まれ、かつ親ノード及び複数の子ノードを有する部分木の複数の子ノードを並べ替えるための並べ替え規則であって、該部分木の構造、該子ノードに付与されたラベルで示される文節内の機能語、及び翻訳元言語と翻訳先言語との単語対応付けにより制約される並べ替え規則を学習する学習手段と、を含んで構成されている。

本発明の並べ替え規則学習装置によれば、翻訳元解析手段が、翻訳元言語で記述された学習用翻訳元文を解析して、学習用翻訳元文が、文節各々及び文節間の係り受け関係を示すノードを含んで構成され、ノードに対応する文節内に存在する機能語を示すラベルがノード各々に付与された構文木で表現された解析結果を得る。そして、学習手段が、翻訳元解析手段で得られた構文木に含まれ、かつ親ノード及び複数の子ノードを有する部分木の複数の子ノードを並べ替えるための並べ替え規則であって、部分木の構造、子ノードに付与されたラベルで示される文節内の機能語、及び翻訳元言語と翻訳先言語との単語対応付けにより制約される並べ替え規則を学習する。

このように、文節間の係り受け関係を示す構文木における部分木の子ノードを並べ替える際に、部分木の構造、子ノードに付与されたラベルで示される文節内の機能語、及び翻訳元言語と翻訳先言語との単語対応付けにより制約されるため、文節などの数語からなる単語列を単位とする依存構造を利用しながら、文法的な構造を分断してしまうような並べ替えを抑制し、高精度な機械翻訳を行うための並べ替え規則を学習することができる。

また、本発明の並べ替え規則学習装置は、前記学習用翻訳元文と対訳を成す前記翻訳先言語で記述された学習用翻訳先文を構文解析する翻訳先解析手段を更に含んで構成することができ、前記学習手段は、前記翻訳先解析手段の解析結果に基づいて、前記部分木の複数の子ノード各々に対応する文節に含まれる単語群に対応する前記学習用翻訳先文の単語群が、該翻訳先言語の文法上の区切りとなる単位に一致する部分木を用いて、前記並べ替え規則を学習することができる。これにより、より精緻な並べ替え規則を学習することができる。

また、上記目的を達成するために、本発明の翻訳装置は、翻訳元言語で記述された入力文を解析して、該入力文が、文節各々及び文節間の係り受け関係を示すノードを含んで構成され、該ノードに対応する文節内に存在する機能語を示すラベルが該ノード各々に付与された構文木で表現された解析結果を得る入力文解析手段と、親ノード及び複数の子ノードを有する部分木の複数の子ノードを並べ替えるための並べ替え規則であって、該部分木の構造、該子ノードに付与されたラベルで示される文節内の機能語、及び翻訳元言語と翻訳先言語との単語対応付けにより制約される並べ替え規則を適用して、前記入力文解析手段で得られた構文木に含まれる部分木の子ノードを並べ替えることにより、前記入力文を並べ替える並べ替え手段と、前記並べ替え手段により並べ替えられた入力文を、並べ替え後の翻訳元言語の文を翻訳先言語に翻訳するための翻訳モデルに基づいて、翻訳先言語に翻訳する翻訳手段と、を含んで構成されている。

本発明の翻訳装置によれば、入力文解析手段が、翻訳元言語で記述された入力文を解析して、入力文が、文節各々及び文節間の係り受け関係を示すノードを含んで構成され、ノードに対応する文節内に存在する機能語を示すラベルがノード各々に付与された構文木で表現された解析結果を得る。そして、並べ替え手段が、親ノード及び複数の子ノードを有する部分木の複数の子ノードを並べ替えるための並べ替え規則であって、部分木の構造、子ノードに付与されたラベルで示される文節内の機能語、及び翻訳元言語と翻訳先言語との単語対応付けにより制約される並べ替え規則を適用して、入力文解析手段で得られた構文木に含まれる部分木の子ノードを並べ替えることにより、入力文を並べ替え、翻訳手段が、並べ替え手段により並べ替えられた入力文を、並べ替え後の翻訳元言語の文を翻訳先言語に翻訳するための翻訳モデルに基づいて、翻訳先言語に翻訳する。

このように、文節間の係り受け関係を示す構文木における部分木の子ノードを並べ替える際に、部分木の構造、子ノードに付与されたラベルで示される文節内の機能語、及び翻訳元言語と翻訳先言語との単語対応付けにより制約された並べ替え規則を用いて事前並べ替えを行うため、文節などの数語からなる単語列を単位とする依存構造を利用しながら、文法的な構造を分断してしまうような並べ替えを抑制し、高精度な機械翻訳を行うことができる。

また、前記並べ替え手段は、上記の並べ替え規則学習装置により学習された並べ替え規則を適用して、前記入力文を並べ替えることができる。

また、本発明の並べ替え規則学習方法は、翻訳元解析手段と、学習手段とを含む並べ替え規則学習装置における並べ替え規則学習方法であって、前記翻訳元解析手段は、翻訳元言語で記述された学習用翻訳元文を解析して、該学習用翻訳元文が、文節各々及び文節間の係り受け関係を示すノードを含んで構成され、該ノードに対応する文節内に存在する機能語を示すラベルが該ノード各々に付与された構文木で表現された解析結果を得、前記学習手段は、前記翻訳元解析手段で得られた前記構文木に含まれ、かつ親ノード及び複数の子ノードを有する部分木の複数の子ノードを並べ替えるための並べ替え規則であって、該部分木の構造、該子ノードに付与されたラベルで示される文節内の機能語、及び翻訳元言語と翻訳先言語との単語対応付けにより制約される並べ替え規則を学習する方法である。

また、翻訳先解析手段を更に含む並べ替え規則学習装置における並べ替え規則学習方法においては、前記翻訳先解析手段は、前記学習用翻訳元文と対訳を成す前記翻訳先言語で記述された学習用翻訳先文を構文解析し、前記学習手段は、前記翻訳先解析手段の解析結果に基づいて、前記部分木の複数の子ノード各々に対応する文節に含まれる単語群に対応する前記学習用翻訳先文の単語群が、該翻訳先言語の文法上の区切りとなる単位に一致する部分木を用いて、前記並べ替え規則を学習することができる。

また、本発明の翻訳方法は、入力文解析手段と、並べ替え手段と、翻訳手段とを含む翻訳装置における翻訳方法であって、前記入力文解析手段は、翻訳元言語で記述された入力文を解析して、該入力文が、文節各々及び文節間の係り受け関係を示すノードを含んで構成され、該ノードに対応する文節内に存在する機能語を示すラベルが該ノード各々に付与された構文木で表現された解析結果を得、前記並べ替え手段は、親ノード及び複数の子ノードを有する部分木の複数の子ノードを並べ替えるための並べ替え規則であって、該部分木の構造、該子ノードに付与されたラベルで示される文節内の機能語、及び翻訳元言語と翻訳先言語との単語対応付けにより制約される並べ替え規則を適用して、前記入力文解析手段で得られた構文木に含まれる部分木の子ノードを並べ替えることにより、前記入力文を並べ替える並べ替え、前記翻訳手段は、前記並べ替え手段により並べ替えられた入力文を、並べ替え後の翻訳元言語の文を翻訳先言語に翻訳するための翻訳モデルに基づいて、翻訳先言語に翻訳する方法である。

また、本発明の翻訳方法において、前記並べ替え手段は、上記の並べ替え規則学習装置により学習された並べ替え規則を適用して、前記入力文を並べ替えることができる。

また、本発明の並べ替え規則学習プログラムは、コンピュータを、上記の並べ替え規則学習装置を構成する各手段として機能させるためのプログラムである。

また、本発明の翻訳プログラムは、コンピュータを、上記の翻訳装置を構成する各手段として機能させるためのプログラムである。

以上説明したように、本発明の並べ替え規則学習装置、方法、及びプログラムによれば、文節間の係り受け関係を示す構文木における部分木の子ノードを並べ替える際に、部分木の構造、子ノードに付与されたラベルで示される文節内の機能語、及び翻訳元言語と翻訳先言語との単語対応付けにより制約されるため、文節などの数語からなる単語列を単位とする依存構造を利用しながら、文法的な構造を分断してしまうような並べ替えを抑制し、高精度な機械翻訳を行うための並べ替え規則を学習することができる、という効果が得られる。

また、本発明の翻訳装置、方法、及びプログラムによれば、文節間の係り受け関係を示す構文木における部分木の子ノードを並べ替える際に、部分木の構造、子ノードに付与されたラベルで示される文節内の機能語、及び翻訳元言語と翻訳先言語との単語対応付けにより制約された並べ替え規則を用いて事前並べ替えを行うため、文節などの数語からなる単語列を単位とする依存構造を利用しながら、文法的な構造を分断してしまうような並べ替えを抑制し、高精度な機械翻訳を行うことができる、という効果が得られる。

本実施の形態の翻訳装置の機能的構成を示すブロック図である。本実施の形態の翻訳装置における学習処理ルーチンの内容を示すフローチャートである。翻訳元言語の解析処理ルーチンの内容を示すフローチャートである。依存構造解析結果の構文木への変換を説明するための図である。並べ替え規則学習処理ルーチンの内容を示すフローチャートである。本実施の形態の翻訳装置における翻訳処理ルーチンの内容を示すフローチャートである。日本語（翻訳元言語）の文の例を示す図である。日本語の依存構造解析結果ファイルの一例を示す図である。並べ替え規則の一例を示す図である。英語（翻訳先言語）の文の例を示す図である。英語の構文解析結果の一例を示す図である。英語の構文木、英語と日本語との単語対応付け結果、及び日本語の依存構造の一例を示す図である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。本実施の形態では、翻訳元言語を日本語、翻訳先言語を英語とした場合の並べ替え規則の学習、及び翻訳について説明する。

本実施の形態に係る翻訳装置１０は、ＣＰＵと、ＲＡＭと、後述する学習処理及び翻訳処理ルーチンを実行するためのプログラムを記憶したＲＯＭと、を備えたコンピュータで構成されている。また、記憶手段としてのＨＤＤを含んで構成するようにしてもよい。このコンピュータは、機能的には、図１に示すように、学習部２０と、翻訳部５０とを含んだ構成で表すことができる。

学習部２０は、さらに、翻訳元言語解析部２２と、翻訳先言語解析部２４と、単語対応付け部２６と、並べ替え規則学習部２８と、翻訳学習部３０とを含んだ構成で表すことができる。

翻訳元言語解析部２２は、対訳文（日本語）データベース３２に含まれる翻訳元言語である日本語で記述された複数の文に対して、形態素解析及び構文解析を行う。構文解析は文節単位で行い、文節間の係り受け関係を構文木として表現する。より具体的には、翻訳元言語の文を、翻訳元言語の文の文節各々及び文節間の係り受け関係を示すノードで構成され、ノード各々にラベルが付与された構文木（係り受け解析木３４）で表現する。各ノードに付与されるラベルは、そのノードに対応する文節に含まれる主辞単語の品詞や、そのノードに含まれる機能語（日本語の場合は「助詞」）の情報が含まれる。

翻訳先言語解析部２４は、対訳文（英語）データベース３６に含まれる翻訳先言語である英語で記述された複数の文に対して、形態素解析及び構文解析を行う。ここで、対訳文（日本語）データベース３２内の文と、対訳文（英語）データベース３６内の文とは対訳を成す。本発明において、翻訳先言語を解析することは必須の機能ではないが、本実施の形態では、並べ替え規則の精緻化のために、翻訳先言語についても言語解析を行い、その情報を並べ替え規則の学習に利用する。言語解析の方法については、翻訳元言語解析部２２と言語の違いを除いて同様であり、解析結果として、構文解析木３８を得る。

単語対応付け部２６は、翻訳元言語の文と翻訳先言語の文との間で、双方の単語対応を与える。翻訳元言語の文節をどのように並べ替えれば翻訳先言語の語順に近くなるかは、双方の単語同士の対応関係をもとに定義することができる。機械翻訳における事前並べ替えの目的は、翻訳時に語順の入れ替えを考慮せずに済むようにすることであり、単語の対応関係が交差することがなくなるように並べ替えをすればよい。従って、単語対応付け部２６では、単語の対応関係が交差しないような並べ替えの正解を得るために、単語同士の対応関係を明らかにする。例えば、統計的機械翻訳の分野で非常に広く知られた自動単語対応付けの技術（例えば、非特許文献４「Peter F. Brown, Stephen A. Della Pietra, Vincent J. Della Pietra, and Robert L. Mercer, "The mathematics of statistical machine translation", Parameter estimation. Computational Linguistics, vol. 19 no.2, pages 263-311. 1993.」参照）によって、単語同士の対応関係（単語アライメント４０）を求める。

並べ替え規則学習部２８は、翻訳元言語解析部２２で作成された係り受け解析木３４、翻訳先言語解析部で作成された構文解析木３８、及び単語対応付け部２６で求められた単語アライメント４０に基づいて、翻訳元言語の文の単語や句の並べ替え規則を学習する。翻訳元言語解析部２２で作成された係り受け解析木３４の各部分木に対して、部分木の子ノードの並べ替えが必要か不要かを判定し、その結果を並べ替えパターンとして抽出する。部分木の構造としては、一般的には、ある構文木のノード（親ノード）とその親ノードに（直接）接続される子ノード全て、または全ての孫ノードや全ての曾孫ノードまで含む深い構造を考えることができる。部分木に含まれる各ノードには、翻訳元言語解析部２２によりラベルが付加されており、ラベルが示す情報を並べ替えに関する情報（特徴量）として用いることができる。特に、各ノードのラベルが示す情報には、文節内の機能語の情報が含まれている。この部分木の構造、ラベルで示される文節内の機能語、及び翻訳元言語と翻訳先言語との単語対応付けにより、子ノードの並べ替えは制約される。従って、このような情報を特徴量として用いて並べ替え規則を学習することで、文節の文法的な役割を考慮した精緻な並べ替えパターンを抽出することができる。

また、並べ替え規則学習部２８は、より精緻な並べ替え規則を学習するために、単語対応付け部２６で求められた単語アライメント４０に基づいて、部分木の子ノードを並べ替えた場合に、その子ノードに対応する文節内の単語に対応する翻訳先言語の単語の単語位置の順序が昇順に近づくような並べ替えパターンを抽出する。また、翻訳先言語解析部２４で作成された構文解析木３８に基づいて、部分木の子ノードに対応する文節に含まれる単語群に対応する翻訳先言語の単語群が、翻訳先言語の文法上の区切りの単位（句、文節、部分木等の句構造の単位）と合致するか否かを判定して、文法上適切な並べ替えパターンを抽出する。

ここで、抽出された並べ替えパターンは、相互に矛盾するものが存在し得る。同じ部分木の構造であっても、対応する訳文の違いにより、並べ替えが必要な場合もあれば不要な場合もあるためである。そこで、並べ替え規則学習部２８は、抽出した並べ替えパターンの頻度を利用して確率的または決定的な並べ替え規則４２を構成する。

翻訳学習部は３０、並べ替えられた翻訳元言語の文と翻訳先言語の文の並行コーパスを用いて、翻訳モデル４６を作成する。翻訳先言語の語順に近づけた翻訳元言語の文を翻訳するため、通常翻訳モデルの学習に利用する翻訳元言語と翻訳先言語の並行コーパスのうちの翻訳元言語の文に対して並べ替えを適用し、並べ替えられた翻訳元言語（対訳文（並べ替えた日本語）４４）と翻訳先言語（対訳文（英語）３６）との並行コーパスを用いて学習する。対訳文（並べ替えた日本語）４４の生成には、前述の並べ替え規則学習部２８で用いた、単語アライメント４０に基づく並べ替えの正解を用いてもよいし、学習された並べ替え規則４２を適用してもよい。前者の場合には、追加の計算が不要で、かつ並べ替えが正確であることが保証されるが、翻訳時に後述する並べ替え部５６で得られる並べ替え結果とは異なる結果となる可能性がある。一方、後者は、並べ替え処理を改めて行う必要があるが、翻訳時の並べ替え部５６と同様の並べ替えが適用されることが保証される。簡便性を重視する場合には、前者を選択することとなるが、本実施の形態では、後者を利用する場合について説明する。

翻訳学習部３０は、上記のように生成された対訳文（並べ替えた日本語）４４と、翻訳先言語（対訳文（英語）３６）との並行コーパスを利用して、統計的な翻訳モデルを学習する。学習の手法は、従来既知の学習手法（例えば、非特許文献５「Phillip Koehn, Franz Josef Och, and Daniel Marcu. 2003. "Statistical Phrase-based Translation." In Proc. HLT-NAACL, pages 263-270.」参照）を適用可能である。

翻訳部５０は、さらに、入力部５２と、入力文解析部５４と、並べ替え部５６と、翻訳処理部５８と、出力部６０とを含んだ構成で表すことができる。

入力部５２は、入力文（翻訳元言語の文、ここでは日本語の文）を図示しない入力装置またはネットワーク等を介して外部から受け取り、必要な前処理を施す。前処理としては、例えば、ＨＴＭＬやＸＭＬなどのタグの除去、表記の正規化などがあり、後段の処理で前提としている入力形式に変換する処理を行う。

入力文解析部５４は、学習部２０の翻訳元言語解析部２２と同様に、入力文に対して、形態素解析及び文節単位の構文解析を行い、入力文を、機能語の情報を含むラベルが付与されたノードで構成され、文節間の係り受け関係を表現した構文木で表現する。

並べ替え部５６は、入力文解析部５４で作成された構文木に対して、並べ替え規則学習部２８で学習された並べ替え規則４２を順次適用する。例えば、構文木から順次部分木を抽出し、抽出した部分木の子ノードを並べ替えることにより得られる入力文の全ての並べ替え候補に対して、並べ替え規則４２を適用することにより得られるスコアに基づいて、並べ替え結果を決定する。並べ替え規則４２が非決定的である場合は、複数の並べ替え結果候補を生成した後、最適な並べ替え結果候補を選択する。また、全ての並べ替え候補のうち、上述の並べ替え規則学習部２８での並べ替えパターンの抽出時と同様に、機能語と翻訳先言語の文法とにより制約された並べ替え候補を抽出するようにしてもよい。

翻訳処理部５８は、翻訳学習部３０で学習された翻訳モデル４６を用いて、並べ替え部５６で並べ替えられた入力文を翻訳する。翻訳処理部５８の機能は、一般的な統計的機械翻訳の技術（例えば、非特許文献４）を適用することができる。

出力部６０は、翻訳処理部５８による翻訳結果に後処理を施し、図示しない出力装置またはネットワーク等によって外部に出力する。後処理としては、入力部５２の前処理で削除したＸＭＬやＨＴＭＬタグなどの復元や追加などがある。

次に、本実施の形態の翻訳装置１０の作用について説明する。まず、学習処理を実行することにより、並べ替え規則４２及び翻訳モデル４６を学習する。そして、この学習された並べ替え規則４２及び翻訳モデル４６を用いて翻訳処理を実行して、入力された翻訳元言語の入力文を翻訳先言語に翻訳する。

ここで、図２を参照して、本実施の形態の翻訳装置１０において実行される学習処理ルーチンについて説明する。

ステップ１００で、翻訳元言語の解析処理を実行する。ここで、図３を参照して、翻訳言語の解析処理ルーチンについて説明する。

ステップ１０２で、対訳文（日本語）データベース３２に含まれる翻訳元言語である日本語で記述された複数の文に対して、形態素解析（単語区切り及び品詞の同定）を行う。また、形態素解析された入力文に対して、句構造文法を用いた構文解析や依存構造解析を行う。ここでは、「状態遷移情報データベース２６は前記したＷＦＳＴデータベースに相当する。」という翻訳元言語の文に対して、以下のような解析結果が得られたとする。

・（文節０）状態遷移情報データベース［主辞単語／名詞］ →文節１に係る
・（文節１）２６［主辞単語／名詞］は →文節４に係る
・（文節２）前記し［主辞単語／動詞］た →文節３に係る
・（文節３）ＷＦＳＴデータベース［主辞単語／名詞］に →文節４に係る
・（文節４）相当する［主辞単語］。 →係り先がない＝文の主辞文節
ここで、[ ]は、[ ]前の単語がその文節を代表する主辞単語であること、及びその主辞単語の品詞を表している。そして、ステップ１０４〜１２６で、図４に示すように、上記ステップ１０２の解析結果を構文木（係り受け解析木３４）へ変換する。

詳細には、ステップ１０４で、文の主辞となる（係り先のない）主辞文節Ａを選択する。上記の例では、文節４が選択される。

次に、ステップ１０６で、上記ステップ１０４で選択した主辞文節Ａに係る文節が存在するか否かを判定する。存在する場合には、主辞文節Ａに係る文節を文節Ｂｉ（ｉ＝１，２，・・・，ｎ、ｎは文節Ｂの総数）として、ステップ１０８へ移行する。文節Ｂが存在しない場合には、ステップ１２６へ移行する。ここでは、文節１が“Ｂ１”、文節３が“Ｂ２”として設定されて、ステップ１０８へ移行する。

ステップ１０８では、主辞文節Ａを示すノードＮ_Ａにラベルを付与し、主辞文節Ａに対応する新たなノードＮ_Ａ’を作成してラベルを付与し、ノードＮ_ＡとノードＮ_Ａ’とを接続する。ここで、文節を示すノード（ここではノードＮ_Ａ）に付与されるラベルは、以下のように決定することができる。

（ａ）そのノードに対応する文節が動詞を含む場合は、動詞を表すラベル
（ｂ）そのノードに対応する文節が動詞を含まない場合は、その文節内の主辞単語の品詞を表すラベル
（ｃ）そのノードに対応する文節が機能語を含む場合は、その機能語を上記（１）または（２）のラベルの後に追加する。

また、文節に対応して新たに作成されたノード（ここではノードＮ_Ａ’）に付与されるラベルは、上記（ａ）または（ｂ）に替えてラベル「Ｘ」とし、更に上記（ｃ）を追加する。従って、ここでは、ノードＮ_Ａにはラベル「動詞」が付与され、ノードＮ_Ａ’にはラベル「Ｘ」が付与される。

次に、ステップ１１０で、上記ステップ１０６で設定された文節Ｂの識別番号を示す変数ｉに１をセットし、次のステップ１１２で、文節Ｂｉに係る文節が存在するか否かを判定する。存在する場合には、文節Ｂｉに係る文節を文節ｂｉｊ（ｊ＝１，２，・・・，ｍ、ｍは文節ｂｉの総数）として、ステップ１１４へ移行する。文節ｂｉが存在しない場合には、ステップ１２２へ移行する。ここでは、文節０が“ｂ１１”として設定されて、ステップ１１４へ移行する。文節Ｂｉは、依存構造階層における一階層下での主辞文節であるので、再帰的に以下の処理を実行し、文節Ｂｉを主辞文節とする構文木のノードＮ_Ｂｉを生成するものである。

ステップ１１４では、文節Ｂｉを示すノードＮ_Ｂｉにラベルを付与し、文節Ｂｉに対応する新たなノードＮ_Ｂｉ’を作成してラベルを付与し、ノードＮ_ＢｉとノードＮ_Ｂｉ’とを接続する。さらに、上記ステップ１０８で文節Ｂｉの係り先の文節に対応して新たに作成されたノード（ここではＮ_Ａ’）とノードＮ_Ｂｉ’とを接続する。各ノードに付与されるラベルは、上記ステップ１０８と同様である。従って、ここでは、ノードＮ_Ｂｉには、ノードＮ_Ｂｉに対応する文節１の主辞単語の品詞「名詞」に、文節１に含まれる機能語「は」が追加されて、ラベル「名詞は」が付与される。ノードＮ_Ｂｉ’にはラベル「Ｘは」が付与される。

次に、ステップ１１６で、変数ｉがｎになったか否かを判定することにより、全ての文節Ｂｉについて処理が終了したか否かを判定する。ｉ≠ｎの場合には、ステップ１１８へ移行して、変数ｉを１インクリメントして、ステップ１１２へ戻る。文節Ｂ２＝文節３について同様に処理して、文節２が“ｂ２１”として設定され、文節Ｂ２を示すノードＮ_Ｂ２にラベル「名詞に」が付与され、文節Ｂ２に対応する新たなノードＮ_Ｂ２’にラベル「Ｘに」が付与される。

ステップ１１６で、ｉ＝ｎとなったと判定された場合には、ステップ１２０へ移行して、文節ｂｉｊの識別番号をＢｉに置き換える。ここでは、文節０が“ｂ１１”→“Ｂ１”に、文節２が“ｂ２１”→“Ｂ２”に置き換えられる。そして、ステップ１１０へ戻り、変数ｉに１をセットして、ステップ１１２〜１１６の処理を繰り返す。文節Ｂ１（文節ｂ１１）＝文節０についての処理では、文節０に係る文節がないため、ステップ１１２で否定判定されて、ステップ１２２へ移行する。

ステップ１２２では、文節Ｂｉ（置き換え前の文節ｂｉｊ）を示すノードＮ_ｂｉｊにラベルを付与し、上記ステップ１１４で文節Ｂｉの係り先の文節に対応して新たに作成されたノードＮ_Ｂｉ’とノードＮｂ_ｉｊとを接続する。各ノードに付与されるラベルは、上記ステップ１０８と同様である。従って、ここでは、ノードＮ_ｂ１１に、ラベル「名詞」が付与される。

次に、ステップ１２４で、変数ｉがｎになったか否かを判定することにより、全ての文節Ｂｉについて処理が終了したか否かを判定する。ｉ≠ｎの場合には、ステップ１１８へ移行して、変数ｉを１インクリメントして、ステップ１１２へ戻る。文節Ｂ２（置き換え前の文節ｂ２１）＝文節２について同様に処理して、ノードＮ_ｂ２１にラベル「動詞」が付与される。本ステップにおいて、ｉ＝ｎとなった場合には、学習処理（図２）へリターンする。

また、上記ステップ１０６で否定判定されてステップ１２６へ移行した場合には、主辞文節Ａを示すノードＮ_Ａにラベルを付与し、学習処理（図２）へリターンする。

なお、上記ステップ１０２で実行される構文解析が、文節間の係り受けの二項関係を求めるものである場合には、実装によっては構文木の構造を返さない場合もあるため、上記ステップ１０４〜１２６の構文木への変換処理を実行する。ただし、上記ステップ１０２で実行される構文解析が、句構造文法による解析であれば構文木が得られるため、上記ステップ１０４〜１２６の処理を省略することができる。

次に、学習処理のステップ２００では、翻訳先言語の解析処理を実行して、構文解析木３８を得る。処理については、言語の違いを除いて上記ステップ１００の翻訳元言語の解析処理と同様であるため、説明を省略する。

次に、ステップ３００で、上記ステップ１００の翻訳元言語の文に対する形態素解析の結果と、上記ステップ２００の翻訳先言語の文に対する形態素解析の結果とに基づいて、翻訳元言語の文と翻訳先言語の文との単語対応付けを行い、単語アライメント４０を求める。単語アライメント４０は、例えば、翻訳元言語及び翻訳先言語各々の文の先頭を０とし、文の末尾に向かって昇順の自然数で与えられる単語位置を用いて、対応する単語同士を“−”で接続して羅列したものとすることができる。

次に、ステップ４００で、並べ替え規則学習処理を実行する。ここで、図５を参照して、並べ替え規則学習処理ルーチンについて説明する。

ステップ４０２で、上記ステップ１００で作成された構文木（係る受け解析木３４）から親ノードＲ及び複数の子ノードＣｉ（ｉ＝１，２，・・・，ｎ）を有する部分木Ｒ−Ｃｉを抽出する。

次に、ステップ４０４で、子ノードＣｉに付与されたラベルが示す機能語の情報と、翻訳先言語の文法との関係に基づいて、並べ替えパターン候補を抽出する。例えば、図４に示す構文木から、親ノードＲ＝Ｎ_Ａ’、子ノードＣ１＝Ｎ_Ｂ１’、子ノードＣ２＝Ｎ_Ｂ２’、子ノードＣ３＝Ｎ_Ａとする部分木を抽出した場合について説明する。この場合、子ノードＣ１にはラベル「Ｘは（ “は”は機能語）」、子ノードＣ２にはラベル「Ｘに（“に”は機能語）」、子ノード「Ｃ３」にはラベル「動詞」が付与されている。ここから、「Ｘは」は主語を表す文節に対応しており、「Ｘに」は目的語を表す文節に対応していることが分かる。従って、翻訳先言語である英語の語順から、許される子ノードの並び順として、Ｃ１−Ｃ３−Ｃ２が並べ替えパターン候補として抽出される。仮に、各ノードにラベルが付与されていない場合、または品詞の情報だけで機能語に関する情報を有さない場合には、Ｃ３−Ｃ１−Ｃ２等の翻訳先言語の文法上適切でない並べ替えパターンまで抽出されてしまう。このように機能語の情報を利用することで、文法上適切でない並べ替えパターンが抽出されることを抑制することができる。

次に、ステップ４０６で、上記ステップ３００で求められた単語アライメント４０を用いて、子ノードＣｉの子孫にある文節に含まれる翻訳元言語の単語位置の集合Ｓｉｊ（ｊ＝１，２，・・・，ｍ）を求める。また、Ｓｉｊに対応する翻訳先言語の単語群Ｅｉの単語位置の集合Ｔｉｋ（ｋ＝１，２，・・・，ｌ）を求める。

次に、ステップ４０８で、上記ステップ４０６で求めた単語位置Ｓｉｊ及び単語位置Ｔｉｋに基づいて、上記ステップ４０４で抽出した並べ替えパターン候補の中から最適な並べ替えを決定する。例えば、以下の手順により最適な並べ替えを決定することができる。

（１）子ノードＣｉの中から２つの子ノード（ＣＬ、ＣＲ）を選択する。

（２）子ノードＣＬに対応する単語位置ＴＬｋの半数以上が、子ノードＣＲに対応する単語位置ＴＲｋの最大値を超える場合は、子ノードＣＬを子ノードＣＲよりも後ろに並べ替える。

（３）子ノードＣＲに対応する単語位置ＴＲｋの半数以上が、子ノードＣＬに対応する単語位置ＴＬｋの最大値を超える場合は、子ノードＣＬを子ノードＣＲよりも前に並べ替える。

（４）上記（２）及び（３）のいずれでもない場合には、元の順序を保持する。

上記（１）〜（４）を、全ての子ノードの組み合わせに対して行うことで、最適な並べ替えを決定することができる。ただし、最適な並べ替えの決定については、単語対応付けの信頼度に基づいて単語対応の制約を緩和し頑健性を向上するなどの対処（非特許文献３参照）も可能であり、上記で説明した方法に限定されるものではない。

次に、ステップ４１０で、子ノードＣｉに対応する翻訳先言語の単語群Ｅｉが、翻訳先言語の文法上の区切りとなる単位、例えば、句、文節、部分木等の句構造の単位に合致するか否かを判定する。単語群Ｅｉが句構造の単位に合致する場合には、ステップ４１２へ移行して、上記ステップ４０８で決定した最適な並べ替えを並べ替えパターンとして抽出する。一方、単語群Ｅｉが句構造の単位に合致しない場合には、並べ替えパターンを抽出することなくステップ４１４へ移行する。

ステップ４１４では、翻訳元言語の構文木から全ての部分木を抽出したか否かを判定する。まだ抽出していない部分木が存在する場合には、ステップ４０２へ戻って、処理を繰り返す。全ての部分木について抽出及び処理が終了している場合には、ステップ４１６へ移行する。

ステップ４１６では、上記ステップ４１２で抽出された並べ替えパターンの頻度を利用して、確率的または決定的な並べ替え規則を学習する。例えば、確率的な規則を学習する場合には、ある部分木ｓから得られた並べ替えパターンｔ_ｉがＫ個（ｔ_１，ｔ_２，・・・，ｔ_Ｋ）あったとすると、部分木ｓに並べ替えパターンｔｋ（１≦ｋ≦Ｋ）を適用して並べ替える確率は、下記（１）式となる。

この確率を各並べ替えパターンのスコアとして付与して、並べ替え規則として構成する。また、確率分布の平滑化等により、学習データによる偏りを抑制するような仕組みを導入してもよい。また、並べ替え規則を決定的に構成する場合には、上記の確率が最大となる並べ替えパターンのみを並べ替え規則として採用すればよい。並べ替え規則の学習が終了した場合には、学習処理（図２）へリターンする。

次に、学習処理のステップ５００では、上記ステップ４００で学習された並べ替え規則４２を、翻訳元言語の文に適用して、並べ替えた翻訳元言語の文（対訳文（並べ替えた日本語））を生成する。そして、対訳文（並べ替えた日本語）４４と翻訳先言語（対訳文（英語）３６）との並行コーパスを用いて、従来既知の手法を用いて、並べ替えた翻訳元言語の文を翻訳先言語に翻訳するための翻訳モデル４６を学習して、処理を終了する。

次に、図６を参照して、本実施の形態の翻訳装置１０において実行される翻訳処理ルーチンについて説明する。

ステップ６００で、入力文の解析処理を実行する。入力文の解析処理は、翻訳元言語の解析処理（図３）と同様であるので、説明を省略する。

次に、ステップ６０２で、上記ステップ６００で作成された入力文の構文木から順次部分木を抽出し、抽出した部分木の子ノードを並べ替えることにより得られる入力文の全ての並べ替え候補を作成する。また、この並べ替え候補作成の際、部分木の子ノードに付与されたラベルが示す機能語の情報と翻訳先後の文法とによる制約を利用して、並べ替え候補を作成する。

次に、ステップ６０４で、上記ステップ６０２で作成された並べ替え候補に対して、学習処理で学習された並べ替え規則４２を適用して、並べ替え候補毎にスコアを算出する。スコアは、並べ替え候補に適用される並べ替え規則の確率（例えば、（１）式）を乗算して算出することができる。

次に、ステップ６０６で、上記ステップ６０４で作成した並べ替え候補のうち、スコアが上位の所定個を選択する。次に、ステップ６０８で、選択した並べ替え候補について、単語Ｎグラムモデルなどを用いた指標により、並べ替え結果の妥当性を評価する。そして、評価結果に基づいて、最終的な並べ替えを決定し、入力文を並べ替える。

次に、ステップ６１０で、学習処理で学習された翻訳モデル４６を用いて、上記ステップ６０８で並べ替えられた入力文を、一般的な統計的機械翻訳の技術を適用して、翻訳先言語に翻訳して出力し、処理を終了する。

本実施の形態の翻訳装置の処理について、より具体的な実施例を用いて説明する。本実施例においても、翻訳元言語を日本語、翻訳先言語を英語とする場合について説明する。

まず、入力部５２で、図７に示すような入力文を受け付け、入力文解析部５４で、公知の依存構造解析プログラムＣａｂｏＣｈａに入力して、形態素解析及び構文解析を実行する（ステップ６００）。なお、図７中の記号“＼＼”は行が続いていることを示している。以下の図でも同様である。これにより、図８に示すような依存構造解析結果ファイルが得られる。図８では、図７に示す入力文の１文目の解析結果を抜粋して示している。図８の結果は、＊がそれぞれ入力文の文節の区切り位置を示し、＊に続く部分は順に以下の内容を示す。

・文節ＩＤ
・係り先の文節ＩＤ及び“Ｄ”、または“−１Ｏ”（係り先のない文節＝主辞文節）
・文節の主辞単語の位置、文節の機能語の位置（文節内最初の単語の位置を０とする）

なお、ここでの機能語は、文節内の主辞単語を含む意味で、本発明においてノードに付与されるラベルが示す「機能語」とは異なる場合を含む。

・係り受けスコア（本実施例では不使用）
また、＊以下の行は文節内の単語の情報（表層、読み、原型、品詞情報、キーワードラベル（人名、地名等の情報、特にない場合は“０”））を表し、末尾行のＥＯＳは文の区切りを表す。この係り受け解析結果は、上記実施の形態のステップ１０２で説明したような係り受け関係を表している。この解析結果を用いて、入力文を構文木（係り受け解析木３４）に変換する（翻訳処理におけるステップ１０４〜１２６）。

次に、図９に抜粋したような並べ替え規則４２が、並べ替え規則学習部２８により得られた（詳細は後述）。本実施例では、部分木は１階層（親ノードと子ノードとの関係）のみ用いた。並べ替え規則４２は、各フィールドを記号“｜｜｜”で区切り、以下のように構成されている。

・親ノードのラベル
・子ノードのラベル（各子ノードが記号“｜”で区切られている）
・並べ替え結果、数字は子ノードのＩＤを示し、数字の部分には対応する子ノードのラベルで表現されている文字列が代入される（品詞ラベルなら機能語を除いた文節、Ｘなら機能語を除いた部分木の被覆する文字列）。ここでは、日本語及び英語の文法に基づいて、並べ替え結果における機能語の位置を定めている。

・並べ替えがあるかないかを示す２値（０：並べ替えなし、１：並べ替えあり）
・並べ替えスコア（部分木構造に対する条件付き確率）
この並べ替え規則を例文に適用すると、以下のような並べ替え候補が得られる（ステップ６０２）。スコアは各並べ替え規則の並べ替えスコアを乗算したものを用いた（ステップ６０４）。

・状態遷移情報データベース２６は相当するに前記したＷＦＳＴデータベース（スコア：０．１５３６）
・２６状態遷移情報データベースは相当するに前記したＷＦＳＴデータベース（スコア：０．００４４）
・状態遷移情報データベース２６は相当するにＷＦＳＴデータベース前記した（スコア：０．４３９３）
・２６状態遷移情報データベースは相当するにＷＦＳＴデータベース前記した（スコア：０．０１２６）

そして、上記の並べ替え候補から、スコア最大の並べ替え候補（３番目）を選択する（ステップ６０６）。選択した並べ替え候補を、翻訳学習部３０で学習された翻訳モデル４６と、公知の統計翻訳ソフトウェアＭｏｓｅｓとを利用して翻訳した（ステップ６１０）。上記例文の翻訳結果は、以下のようになった。

・the state transition database 26 correspond to the WFST database described above.
“correspond”の活用形が誤っている他は正しい翻訳結果を得ることができた。

次に、上記の翻訳処理に用いた並べ替え規則４２及び翻訳モデル４６の学習について説明する。本実施例では、並べ替え規則を抽出する際に、英語側の句の単位を正しく反映しないような並べ替え規則を抽出することがないように、英語の句構造を制約として利用した。そのための句構造解析に公知の英語構文解析エンジンＥｎｊｕを利用した。本実施例で使用した英文を抜粋したものを図１０に示す。説明のため、この例文は図７に示した日本語文の対訳文を用いる。

この先頭の文をＥｎｊｕで構文解析した結果を図１１に示す（ステップ２００）。図中のｃ＊がそれぞれ句構造を表しており、本実施例ではこの句構造と合致しないような並べ替え規則を抽出しない、という制約を課す。

次に、日本語と英語との単語対応付けには、統計的機械翻訳の分野で一般的に用いられる公知のソフトウェアＧＩＺＡ＋＋と、Ｍｏｓｅｓで利用される公知のソフトウェアｓｙｍａｌとを利用した。ＧＩＺＡ＋＋は単語の１対多の対応関係を推定するため、一般に多対多となる単語対応関係をそのまま推定することができない。従って、非特許文献５に記載されているような１対多の関係と多対１の関係を重ねあわせて多対多の関係を求めることが広く行われており、ｓｙｍａｌはそれを実装したソフトウェアである。

この結果、図１２に示した英文と日本語文との単語対応関係は、以下のように得られる（ステップ３００）。

0-0 0-1 1-2 2-2 3-3 4-4 5-6 7-10 7-11 8-10 10-8 11-9 13-5 14-5 15-12
“−”で結ばれた数字はそれぞれ日本語側の単語位置（０から始まる）、及び英語側の単語位置（０から始まる）であり、この対応関係は図の破線で示されている。ここで、一点鎖線はｓｙｍａｌによって重ねあわせた際に消去された単語対（ｓｙｍａｌの処理の詳細は非特許文献５参照）を示す。

次に、図１２に示した日本語と英語との言語解析結果及び単語対応付け結果、つまり図８と図１１と単語対応付け結果とを用いて、並べ替えパターンを抽出する（ステップ４０４〜４０８）。

一例として、文節２及び文節３を子ノードとする部分木を考える（図４を参照）。文節２に含まれる日本語の単語位置集合はＪ_２＝｛７，８，９｝、文節３はＪ_３＝｛１０，１１，１２｝である。これらと対応する英語の単語位置を単語対応付け結果から求めると、文節２に対応するものは、Ｅ_２＝｛１０，１１｝、文節３はＥ_３＝｛８，９｝である。この結果、Ｅ_２の各要素はＥ_３の最大値９よりも大きいため、文節２は文節３よりも後ろに並べ替えられることが分かる。

また、Ｅ_２及びＥ_３はそれぞれ図１２の句構造ｃ２０及びｃ１７に対応し、句構造の単位と合致するため、並べ替えパターンとして適切であると判断する（ステップ４１０）。例えば、Ｅ’_３＝｛９，１０，１１｝であったとすると、Ｅ’_３は対応する句構造がないため、Ｅ’_３を含むような並べ替えパターンは抽出されない。以上から、Ｊ_２とＪ_３からＥ_２とＥ_３への並べ替えを表現する以下の並べ替えパターンが抽出される（ステップ４１２）。

Ｘに｜｜｜動詞｜名詞に｜｜｜１０に｜｜｜１
上記のように日本語と英語との並行コーパスとそれぞれの言語解析結果、及び単語対応付け結果を用いて、係り受け解析木の構文木に含まれる部分木に基づいて、並べ替えパターンを抽出することができる。そして、抽出された並べ替えパターンを数え上げ、並べ替え規則集合として構成する。本実施例では、日本語の部分木構造に対する並べ替え結果の条件付き確率を並べ替え規則のスコアとして定義する。従って、
Ｘに｜｜｜動詞｜名詞に｜｜｜１０に｜｜｜１
がラベル「動詞」が付与されたノード、及びラベル「名詞に」が付与されたノードを子ノードとする部分木全体の２５．９％から抽出され、
Ｘに｜｜｜動詞｜名詞に｜｜｜０１に｜｜｜０
がラベル「動詞」が付与されたノード、及びラベル「名詞に」が付与されたノードを子ノードとする部分木全体の７４．１％から抽出された結果として、図９の並べ替え規則が構成されたこととなる。

上記の実施例では、約３，０００，０００文の英日並行コーパスを用いた実験において、当該分野で最も一般的に用いられる評価指標ＢＬＥＵの値が、既存技術が０．２６０２であったのに対し、本実施例では０．２７５０を達成し、既存技術で構成された機械翻訳システムよりも高い翻訳精度を示した。

以上説明したように、本実施の形態の翻訳装置によれば、翻訳先言語の文について、文節単位の係り受け関係を示す構文木におけるノードの並べ替えによる並べ替え規則を学習する際に、構文木の各ノードに対応する文節に含まれる機能語と翻訳先言語との制約を考慮するため、文法的な構造を分断してしまうような並べ替えを抑制した精緻な並べ替え規則を学習することができる。また、翻訳元言語の文と翻訳先言語の文との単語対応付け、及び翻訳先言語の構文解析結果を利用することによって、より精緻な並べ替え規則を学習することができる。また、このように学習された並べ替え規則を用いた事前並べ替えにより、翻訳元言語の文から翻訳先言語の文へ高精度に翻訳を行うことができる。

従って、日本語の文節単位依存構造解析のような、文節のように単語よりも長い単位での翻訳元言語の構文解析の結果を用いて、翻訳先言語の語順に近づくような翻訳元言語の文節の並べ替えを緻密な規則によって正確に行うことができ、統計的機械翻訳において精度を落とす要因となる単語の並べ替えの問題を解決することができる。

なお、上記実施の形態では、翻訳元言語を日本語、翻訳先言語を英語とする場合について説明したが、他の言語にも適用することができる。また、上記実施の形態では、日本語の文節単位での並べ替えを前提として説明したが、文節以外の言語的な句の単位での並べ替えも可能である。

また、上記実施の形態では、学習部と翻訳部とを１つのコンピュータで構成する場合について説明したが、別々のコンピュータで構成するようにしてもよい。

本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

また、上述の翻訳装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。

また、本願明細書中において、プログラムが予めインストールされている実施の形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。

１０翻訳装置
２０学習部
２２翻訳元言語解析部
２４翻訳先言語解析部
２６単語対応付け部
２８並べ替え規則学習部
３０翻訳学習部
５０翻訳部
５２入力部
５４入力文解析部
５６並べ替え部
５８翻訳処理部
６０出力部

Claims

翻訳元言語で記述された学習用翻訳元文を解析して、該学習用翻訳元文が、文節各々及び文節間の係り受け関係を示すノードを含んで構成され、該ノードに対応する文節内に存在する機能語を示すラベルが該ノード各々に付与された構文木で表現された解析結果を得る翻訳元解析手段と、
前記翻訳元解析手段で得られた前記構文木に含まれ、かつ親ノード及び複数の子ノードを有する部分木の複数の子ノードを並べ替えるための並べ替え規則であって、該部分木の構造、該子ノードに付与されたラベルで示される文節内の機能語、及び翻訳元言語と翻訳先言語との単語対応付けにより制約される並べ替え規則を学習する学習手段と、
を含む並べ替え規則学習装置。
前記学習用翻訳元文と対訳を成す前記翻訳先言語で記述された学習用翻訳先文を構文解析する翻訳先解析手段を更に含み、
前記学習手段は、前記翻訳先解析手段の解析結果に基づいて、前記部分木の複数の子ノード各々に対応する文節に含まれる単語群に対応する前記学習用翻訳先文の単語群が、該翻訳先言語の文法上の区切りとなる単位に一致する部分木を用いて、前記並べ替え規則を学習する
請求項１記載の並べ替え規則学習装置。
翻訳元言語で記述された入力文を解析して、該入力文が、文節各々及び文節間の係り受け関係を示すノードを含んで構成され、該ノードに対応する文節内に存在する機能語を示すラベルが該ノード各々に付与された構文木で表現された解析結果を得る入力文解析手段と、
親ノード及び複数の子ノードを有する部分木の複数の子ノードを並べ替えるための並べ替え規則であって、該部分木の構造、該子ノードに付与されたラベルで示される文節内の機能語、及び翻訳元言語と翻訳先言語との単語対応付けにより制約される並べ替え規則を適用して、前記入力文解析手段で得られた構文木に含まれる部分木の子ノードを並べ替えることにより、前記入力文を並べ替える並べ替え手段と、
前記並べ替え手段により並べ替えられた入力文を、並べ替え後の翻訳元言語の文を翻訳先言語に翻訳するための翻訳モデルに基づいて、翻訳先言語に翻訳する翻訳手段と、
を含む翻訳装置。
前記並べ替え手段は、請求項１または請求項２記載の並べ替え規則学習装置により学習された並べ替え規則を適用して、前記入力文を並べ替える請求項３記載の翻訳装置。
翻訳元解析手段と、学習手段とを含む並べ替え規則学習装置における並べ替え規則学習方法であって、
前記翻訳元解析手段は、翻訳元言語で記述された学習用翻訳元文を解析して、該学習用翻訳元文が、文節各々及び文節間の係り受け関係を示すノードを含んで構成され、該ノードに対応する文節内に存在する機能語を示すラベルが該ノード各々に付与された構文木で表現された解析結果を得、
前記学習手段は、前記翻訳元解析手段で得られた前記構文木に含まれ、かつ親ノード及び複数の子ノードを有する部分木の複数の子ノードを並べ替えるための並べ替え規則であって、該部分木の構造、該子ノードに付与されたラベルで示される文節内の機能語、及び翻訳元言語と翻訳先言語との単語対応付けにより制約される並べ替え規則を学習する
並べ替え規則学習方法。
翻訳先解析手段を更に含む並べ替え規則学習装置における並べ替え規則学習方法であって、
前記翻訳先解析手段は、前記学習用翻訳元文と対訳を成す前記翻訳先言語で記述された学習用翻訳先文を構文解析し、
前記学習手段は、前記翻訳先解析手段の解析結果に基づいて、前記部分木の複数の子ノード各々に対応する文節に含まれる単語群に対応する前記学習用翻訳先文の単語群が、該翻訳先言語の文法上の区切りとなる単位に一致する部分木を用いて、前記並べ替え規則を学習する
請求項５記載の並べ替え規則学習方法。
入力文解析手段と、並べ替え手段と、翻訳手段とを含む翻訳装置における翻訳方法であって、
前記入力文解析手段は、翻訳元言語で記述された入力文を解析して、該入力文が、文節各々及び文節間の係り受け関係を示すノードを含んで構成され、該ノードに対応する文節内に存在する機能語を示すラベルが該ノード各々に付与された構文木で表現された解析結果を得、
前記並べ替え手段は、親ノード及び複数の子ノードを有する部分木の複数の子ノードを並べ替えるための並べ替え規則であって、該部分木の構造、該子ノードに付与されたラベルで示される文節内の機能語、及び翻訳元言語と翻訳先言語との単語対応付けにより制約される並べ替え規則を適用して、前記入力文解析手段で得られた構文木に含まれる部分木の子ノードを並べ替えることにより、前記入力文を並べ替える並べ替え、
前記翻訳手段は、前記並べ替え手段により並べ替えられた入力文を、並べ替え後の翻訳元言語の文を翻訳先言語に翻訳するための翻訳モデルに基づいて、翻訳先言語に翻訳する
翻訳方法。
前記並べ替え手段は、請求項１または請求項２記載の並べ替え規則学習装置により学習された並べ替え規則を適用して、前記入力文を並べ替える請求項７記載の翻訳方法。
コンピュータを、請求項１または請求項２記載の並べ替え規則学習装置を構成する各手段として機能させるための並べ替え規則学習プログラム。
コンピュータを、請求項３または請求項４記載の翻訳装置を構成する各手段として機能させるための翻訳プログラム。