JP6590723B2

JP6590723B2 - 単語並べ替え学習方法、単語並べ替え方法、装置、及びプログラム

Info

Publication number: JP6590723B2
Application number: JP2016025253A
Authority: JP
Inventors: 克仁須藤; 正彬西野; 永田　昌明; 昌明永田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2016-02-12
Filing date: 2016-02-12
Publication date: 2019-10-16
Anticipated expiration: 2036-02-12
Also published as: JP2017142758A

Description

本発明は、単語並べ替え学習方法、単語並べ替え方法、装置、及びプログラムに関する。

言語Aから言語Bへの機械翻訳の処理は、言語A(以下、原言語)の語句から言語B(以下、目的言語)の語句への翻訳と、翻訳された目的言語の語句の目的言語における適切な並べ替えとの2つに大別される。当該分野で広く利用されている統計的翻訳技術においては、大量の対訳文から推定された原言語の語句と目的言語の語句との対応関係から語句の翻訳と語句の並べ替えを統計的にモデル化し、原言語の入力文に対し、それらの統計モデルに基づいて尤もらしい語句の翻訳と語句の並べ替えによって構成される目的言語の翻訳文を探索するという方法が採られる。一般にすべての翻訳文候補を網羅的に探索することは計算量的に非常に困難であるため、各語句の翻訳の候補数を制限し、かつ語句の並べ替えの距離を一定の範囲内に制約することによって実用的な計算量での機械翻訳処理が実現される。しかし、翻訳の対象となる原言語と目的言語の組み合わせによっては、対応する語句が大きく異なる順序で現れる可能性があり、そのような言語間の翻訳を正確に行うためには十分に大きな並べ替え距離を考慮した翻訳処理が要求されるため、計算量の増加が避けられないという問題が存在する。

当該問題に対処する技術として、翻訳処理を行う前に原言語の語句を対応する目的言語の語句の順序に近づけるように並べ替える「事前並べ替え(pre-ordering)」と呼ばれる技術が存在する。

非特許文献1は独語から英語、特許文献1は英語から日本語への翻訳を対象としており入力文の言語(原言語)の語句を翻訳後の言語(目的言語)の対応する語句の順序に近づけるように並べ替える規則を利用している。これらの技術は原言語側の構文解析と適切な規則を利用することによって並べ替えをかなり正確に行うことができる反面、原言語や目的言語が異なれば必要な規則も異なるため、新たに規則を定義する必要がある。

言語によらず実現可能な事前並べ替えの方法としては、統計モデルを利用して行う非特許文献2、非特許文献3が挙げられる。

非特許文献2では、原言語の依存構造木における主辞(head)と修飾語(modifier)の並べ替えを、統計的な順位付けモデルであるRanking SVMを用いて行っている。

非特許文献3では、各修飾語が主辞より前方に並べ替えられるか後方に並べ替えられるかを先に決定した後、前方の修飾語と後方の修飾語の順序をそれぞれ決定するという二段階の並べ替えを行っている。

言語非依存な事前並べ替えを実現する非特許文献2や非特許文献3に記載の方法においては、原言語の構文木上の子ノードの順序を入れ替えるか否かの学習データを、対訳データにおいて人手で付与、もしくは非特許文献5、非特許文献6に示すような方法によって自動的に推定した原言語と目的言語の単語対応付け情報に基づいて獲得する。非特許文献2では、単語対応付け情報が与えられたとき、単語対応の交差数が最小となるような依存構造木上の並べ替えを学習データとしている。非特許文献3では、依存構造上の並べ替えによって単語対応付けの交差数が０となるもののみを選択して学習データとして利用している。また、非特許文献4では、単語対応付けの交差数を最小化することを保証している。

特開２０１１−１７５５００号公報

Michael Collins他, "Clause Restructuring for Statistical Machine Translation", In Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics, pp. 531-540, 2005. Nang Yang 他、"A Ranking-based Approach to Word Reordering for Statistical Machine Translation", Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics, pp. 912-920, 2012. Uri Lerner他, "Source-Side Classifier Preordering for Machine Translation," Proceeding of the 2013 Conference on Empirical Methods in Natural Language Processing, pp. 513-523, 2013. Sho Hoshino他, "Discriminative Preordering Meets Kendall’s tau Maximization," Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Short Papers), pp. 139-144, 2015. Peter F. Brown他, "The Mathematics of Statistical Machine Translation: Parameter Estimation," Computational Linguistics, pp. 268-311, 1993. Jason Riesa他, "Feature-Rich Language-Independent Syntax-Based Alignment for Statistical Machine Translation," Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing, pp. 497-507, 2011.

統計モデルを利用した事前並べ替えを行う場合の学習データとなる、単語対応の交差数が最小となるような並べ替えの決定は、非特許文献2でも言及されている通り、依存構造木上のある主辞とその主辞に対する修飾語の合計数がNのとき、N!(Nの階乗)個の可能な並べ替えの中から最小となるものを選択する必要があるため、要素数が大きくなると計算量が大きくなるという問題がある。

また、上記非特許文献2では計算量の問題を回避するために可能な並べ替えの範囲に制約をかけ、動的計画法によって制約を満たす中で単語対応の交差数が最小となるものを選択しているため、望ましい並べ替えが学習できなくなる可能性がある。

また、上記非特許文献3では、交差数を最小とする並べ替えが容易に決定できるような、単語対応が非常に単純な事例のみを選択的に学習データとして利用し、その他の事例を無視しているため、学習できる並べ替えの事例が非常に限定される可能性が高い。

上記非特許文献4では、交差数を最小化することを保証しているが、並べ替えの要素数が2に限定されており、依存構造など分岐数が多い構文木には適用できない。

さらに、依存構造木上の最適な並べ替えの決定は要素数が増えると可能な並べ替えの個数が指数的に増大してしまうため、一般に困難である。

また、探索空間を制限すれば計算量は削減できるが、最適性が保証されない。また、単語対応が単純な事例に限定すれば決定は容易になるが、数多くの事例を捨ててしまうことになる。

本発明は、上記事情を鑑みて成されたものであり、並べ替えモデルを学習するための適切な学習データを得ることができる単語並べ替え学習方法、装置、及びプログラムを提供することを目的とする。

また、適切に単語の事前並べ替えを決定することができる単語並べ替え方法及びプログラムを提供することを目的とする。

上記目的を達成するために、本発明に係る単語並べ替え学習方法は、統語解析部、単語対応付け部、及び並べ替え正解決定部を含む単語並べ替え学習装置における単語並べ替え学習方法であって、前記統語解析部が、対訳となる原言語文及び目的言語文のペアに含まれる原言語文について、原言語の統語解析を行って、前記原言語文の構文木を生成するステップと、前記単語対応付け部が、前記原言語文及び前記目的言語文の間における単語の対応付けを行うステップと、前記並べ替え正解決定部が、前記単語対応付け部による単語の対応付けの結果に基づいて、前記原言語文の構文木におけるノードの二個組の各々について、前記単語の対応付けの結果を用いて求められる、前記二個組の一方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列と、前記二個組の他方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列とに基づいて、前記二個組の前記ノードの順序を決定し、前記二個組の各々について前記決定された前記二個組の前記ノードの順序に基づいて、トポロジカルソートを用いて、前記原言語文の構文木における前記ノードの順序を決定し、前記決定されたノードの順序に対応する原言語の単語列を、単語の並び替えを学習するための学習データにおける、前記原言語文の並び替えの正解として決定するステップと、を含んで構成されている。

本発明に係る単語並べ替え学習装置は、対訳となる原言語文及び目的言語文のペアに含まれる原言語文について、原言語の統語解析を行って、前記原言語文の構文木を生成する統語解析部と、前記原言語文及び前記目的言語文の間における単語の対応付けを行う単語対応付け部と、前記単語対応付け部による単語の対応付けの結果に基づいて、前記原言語文の構文木におけるノードの二個組の各々について、前記単語の対応付けの結果を用いて求められる、前記二個組の一方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列と、前記二個組の他方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列とに基づいて、前記二個組の前記ノードの順序を決定し、前記二個組の各々について前記決定された前記二個組の前記ノードの順序に基づいて、トポロジカルソートを用いて、前記原言語文の構文木における前記ノードの順序を決定し、前記決定されたノードの順序に対応する原言語の単語列を、単語の並び替えを学習するための学習データにおける、前記原言語文の並び替えの正解として決定する並べ替え正解決定部と、を含んで構成されている。

本発明に係る単語並べ替え方法は、統語解析部、特徴量抽出部、及び単語並べ替え決定部を含む単語並べ替え装置における単語並べ替え方法であって、前記統語解析部が、入力された原言語文に基づいて、原言語の統語解析を行って、前記原言語文の構文木を生成するステップと、前記特徴量抽出部が、前記原言語文の構文木の各ノードについて、並べ替えを行うか否かの判定のための特徴量を抽出するステップと、前記単語並べ替え決定部が、前記特徴量抽出部によって抽出された、前記原言語文の構文木の各ノードについての特徴量と、請求項４に記載の単語並べ替え学習方法によって学習された前記並べ替えモデルとに基づいて、前記原言語文の構文木のノードの順序を反転させるか否かを決定し、前記決定の結果に基づいて、前記原言語文の単語の並べ替えを行うステップと、を含んで構成されている。

また、本発明のプログラムは、上記の単語並べ替え学習方法、または上記の単語並べ替え方法を構成する各ステップをコンピュータに実行させるためのプログラムである。

以上説明したように、本発明の単語並べ替え学習方法、装置、及びプログラムによれば、単語の対応付けの結果に基づいて、原言語文の構文木におけるノードの二個組の各々について、二個組の一方のノードを先頭にした順序での、二個組のノードが表す原言語文の単語列に対応する目的言語文の単語列と、二個組の他方のノードを先頭にした順序での、二個組のノードが表す原言語文の単語列に対応する目的言語文の単語列とに基づいて、二個組のノードの順序を決定し、二個組の各々について決定された二個組のノードの順序に基づいて、トポロジカルソートを用いて、原言語文の構文木におけるノードの順序を決定し、決定されたノードの順序に対応する原言語の単語列を、単語の並び替えを学習するための学習データにおける、原言語文の並び替えの正解として決定することにより、並べ替えモデルを学習するための適切な学習データを得ることができる、という効果を有する。

また、本発明の単語並べ替え方法及びプログラムによれば、原言語文の構文木の各ノードについての特徴量と、学習された並べ替えモデルとに基づいて、原言語文の構文木のノードの順序を反転させるか否かを決定し、決定の結果に基づいて、原言語文の単語の並べ替えを行うことにより、適切に単語の事前並べ替えを決定することができる。

本発明の実施の形態に係る単語並べ替え学習装置の機能的構成を示すブロック図である。原言語の構文木と目的言語との対応関係の例を示す図である。本発明の実施の形態に係る単語並べ替え装置の機能的構成を示すブロック図である。本発明の実施の形態に係る機械翻訳学習装置の機能的構成を示すブロック図である。本発明の実施の形態に係る機械翻訳装置の機能的構成を示すブロック図である。本発明の実施の形態に係る単語並べ替え学習装置における単語並べ替え学習処理ルーチンを示すフローチャート図である。本発明の実施の形態に係る単語並べ替え装置における単語並べ替え処理ルーチンを示すフローチャート図である。本発明の実施の形態に係る機械翻訳学習装置における機械翻訳学習処理ルーチンを示すフローチャート図である。本発明の実施の形態に係る機械翻訳装置における機械翻訳処理ルーチンを示すフローチャート図である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜本発明の実施の形態の概要＞
本発明の実施の形態では、原言語の構文木に基づく事前並べ替えの学習データのための最適な並べ替えの決定を効率的に行うことを目的とする。具体的には、本実施の形態では、上記非特許文献2と同様の構文木上での事前並べ替えの学習を行うための最適な並べ替えの決定を、原言語側の二単語の順序入れ替えによる単語対応の交差数増減によって定義する。そして、交差数増減によって定義された要素の順序関係を利用したトポロジカルソートを行う。これにより、並べ替えの対象となる要素の数Ｎに対してＯ（Ｎ！）であった計算量を、Ｏ（Ｎ^２）の計算量で実現する。

また、当該順序関係に循環が含まれ、トポロジカルソートによる最適な並べ替えの決定が行えない場合についてのみ学習データから除外することで、上記非特許文献3のように数多くの事例を除外することなく事前並べ替えの学習を行うことを可能にする。これにより、上記非特許文献3と比べて制約の度合いは非常に小さく、より多くの事例から学習することができる。

なお、構文木は依存構造（係り受け）木でも句構造木でもよい。本実施の形態では、構文木として依存構造木を用いる場合を例に説明する。また、本実施形態では、日本語を原言語の一例とし、英語を目的言語の一例とする。

＜本発明の実施の形態に係る単語並べ替え学習装置の構成＞
次に、本発明の実施の形態に係る単語並べ替え学習装置の構成について説明する。図１に示すように、本発明の実施の形態に係る単語並べ替え学習装置１００は、ＣＰＵと、ＲＡＭと、後述する単語並べ替え学習処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この単語並べ替え学習装置１００は、機能的には図１に示すように入力部１０と、演算部２０と、出力部５０とを備えている。

入力部１０は、対訳文である原言語文と目的言語文とのペアの集合の入力を受け付ける。

演算部２０は、原言語文データベース２２、目的言語文データベース２４、統語解析部２６、単語対応付け部２８、並べ替え正解決定部３０、特徴量抽出部３６、並べ替えモデル学習部３８、及び並べ替えモデル４０を備えている。

原言語文データベース２２は、入力部１０により受け付けた対訳文の原言語文の集合を記憶している。

目的言語文データベース２４は、入力部１０により受け付けた対訳文の目的言語文の集合を記憶している。

統語解析部２６は、原言語文データベース２２に記憶されている原言語文の各々について、原言語の統語解析を行い、当該原言語文の構文木を生成する。統語解析部２６における処理には単語分割や品詞付与を含み得る。統語解析の方法は公知の技術、例えば英語についてはBerkeley ParserやEnju等のソフトウェア、日本語についてはHaruniwaやCkylark等のソフトウェアが利用できるが、本発明の実施の形態における構成は特定の統語解析技術に依存しない。また、後段の処理における精度向上のために、目的言語文データベース２４に記憶されている目的言語文の各々について統語解析を行ってもよい。

単語対応付け部２８は、原言語文データベース２２に記憶された対訳文の原言語文及び目的言語文データベース２４に記憶された目的言語文のペアの各々について、当該ペアの原言語文及び目的言語文の間における単語の対応付けを行う。

単語対応付けの方法は公知の技術、例えば非特許文献4に記載のモデルによる対応付けを行うGIZA++等のソフトウェアが利用可能である。または、別に与える原言語文・目的言語文・原言語と目的言語の間の単語対応情報を利用して、非特許文献5に記載の手法によって単語対応付けモデルを学習し、そのモデルを利用して単語対応付けを行ってもよい。もしくは、単語対応情報を別途入力し、前記のような対応付けを機械的に推定する処理を行わない構成とすることも可能である。

並べ替え正解決定部３０は、単語対応付け部２８による単語対応付けの結果に基づいて、原言語文の構文木におけるノードの二個組の各々について、二個組のノードの順序を決定する。

具体的には、並べ替え正解決定部３０は、単語の対応付けの結果を用いて求められる、二個組の一方のノードを先頭にした順序での、二個組のノードが表す原言語文の単語列に対応する目的言語文の単語列と、二個組の他方のノードを先頭にした順序での、二個組のノードが表す原言語文の単語列に対応する目的言語文の単語列とに基づいて、二個組のノードの順序を決定する。

そして、並べ替え正解決定部３０は、二個組の各々について決定された二個組のノードの順序に基づいて、トポロジカルソートを用いて、原言語文の構文木におけるノードの順序を決定し、決定されたノードの順序に対応する原言語の単語列を、単語の並び替えを学習するための学習データにおける、原言語文の並び替えの正解として決定する。

以下に、単語対応付けの結果に基づいて、原言語の構文木上で並べ替えをすることで目的言語の語順に近づくノードを同定し、後述の並べ替えモデルの学習における正解を決定する原理について説明する。

目的言語の語順に近づけるための基準としては、上記非特許文献2と同様、単語対応の交差数を利用する。ただし、この単語対応の交差数とは、上記非特許文献6に記載の、原言語側の先頭から順に、対応する目的言語側の単語の先頭からの位置（順位）を昇順に並べた場合のケンドールの順位相関係数と等価であることから、以下の説明では当該順位相関係数を利用する。ケンドールの順位相関係数（一般に、ギリシア文字のタウで表される）は、任意の二個組について順序関係の定義されたＮ個の要素の列に対して、

と定義される。ここで、ｎ_ｃは昇順となっている二個組の数、ｎ_ｄは降順となっている二個組の数である。

本実施形態で利用する順位相関係数の計算について、図２の例に基づいて説明する。図２の例１に示したような日本語（原言語）の構文木（例１では依存構造木）と、英語の単語列、細い実線で表されている日本語と英語との間の単語対応があった場合、日本語の8番目の単語「見た」を主辞、2番目の単語「は」、3番目の単語「昨日」、5番目の単語「で」、7番目の単語「を」を修飾語とする部分構造に注目する。なお、各修飾語は、それぞれを主辞とする下位の部分構造を構成している。ここで、「は」を主辞とする部分構造は英語側の1番目の単語“He”、「昨日」を主辞とする部分構造は英語側の8番目の単語“yesterday”、「で」を主辞とする部分構造は英語側の6番目の単語“in”と7番目の単語“Kyoto”、「を」を主辞とする部分構造は英語側の4番目の単語“black”と5番目の単語“cat”、主辞「見た」は英語側の2番目の単語“saw”、にそれぞれ対応付けられている。

並べ替え正解決定部３０は、二項順序決定部３２と、トポロジカルソート部３４とを備えている。

二項順序決定部３２は、まず、単語対応付け部２８による単語の対応付けの結果に基づいて、統語解析部２６によって得られた原言語文の構文木におけるノードの二個組の各々について、単語の対応付けの結果を用いて求められる、二個組の一方のノードを先頭にした順序での、二個組のノードが表す原言語文の単語列に対応する目的言語文の単語列と、原言語文の単語列とに基づいて、第１の順位相関係数を算出する。

次に、二項順序決定部３２は、ノードの二個組の各々について、単語の対応付けの結果を用いて求められる、二個組の他方のノードを先頭にした順序での、二個組のノードが表す原言語文の単語列に対応する目的言語文の単語列と、原言語文の単語列とに基づいて、第２の順位相関係数を算出する。

そして、二項順序決定部３２は、第１の順位相関係数と第２の順位相関係数とに基づいて、二個組のノードの順序を決定する。

二項順序決定部３２によってトポロジカルソートを行うための順序関係が決定される。要素（本実施形態ではノードを表す。）間の順序関係は、対応する目的言語側の単語の位置によって定義する。例えば、「を」を主辞とする部分構造と「見た」との順序関係については、順序を変更せず「見た」が後方にあったとすると、対応する目的言語側の単語の位置は“[4 5] [2]”と表現される（それぞれの部分構造に対応付けられている位置の列を[]で囲っている）。一方、順序を逆転したとすると“[2] [4 5]”となり、順序を逆転させた方が、順位相関係数が大きくなることは自明である。したがって、この二個組については、主辞「見た」が「を」を主辞とする部分構造より前方にある（順位が高い）と定義される。以下同様に考えると、

・「は」は「昨日」「で」「を」「見た」よりも順位が高い
・「昨日」は「で」「を」「見た」よりも順位が低い
・「で」は「を」「見た」よりも順位が低い

ことが分かり、５個のノードに対する全ての二個組のノードについて順序関係が定義できる。ここで、ノード順の反転によって順位相関係数が変化しないノードの組については、同順であるとする。

トポロジカルソート部３４は、二項順序決定部３２により二個組の各々について決定された二個組のノードの順序に基づいて、トポロジカルソートを用いて、原言語文の構文木におけるノードの順序を決定する。そして、トポロジカルソート部３４は、決定されたノードの順序に対応する原言語の単語列を、単語の並び替えを学習するための学習データにおける、原言語文の並び替えの正解として決定する。

トポロジカルソート部３４によってノードのトポロジカルソートが行われる。ノードの二個組に対して順序関係が定義された上でのトポロジカルソートは公知の方式で行うことができる。

なお、順序関係に循環がある場合はトポロジカルソートに失敗する。この場合は与えられた対訳文と構文木、および単語対応から適切なノードの並べ替えが決定できないため、学習データから除外する。

したがって、トポロジカルソート部３４は、二個組の各々について決定された二個組のノードの順序に基づいて、原言語文の構文木におけるノードの順序関係が循環する場合に、原言語文と目的言語文のペアを、学習データから除外する。

また、二つ以上のノードが同順となるような結果が得られた場合については、以下のいずれかで対応する。

・同順のものは同順であるとして学習データとする。
・同順となっているノード群のみを取り除いて学習データとする。
・当該部分構造全体を学習データから除外する。

特徴量抽出部３６は、統語解析部２６によって生成された原言語文の構文木のうち、並べ替え正解決定部３０によって並べ替えの正解が決定された、当該原言語文の構文木上の各ノードに対して、並べ替えを行うか否かの判定のための特徴量を抽出する。

本実施の形態では特徴量の詳細については規定しないが、非特許文献2、非特許文献3に記載のような、単語・品詞・構文木の構造やラベル、それらを組み合わせたものなどを利用することができる。

並べ替えモデル学習部３８は、並べ替え正解決定部３０によって決定された、原言語文の並び替えの正解と、特徴量抽出部３６によって抽出された、原言語文の構文木の各ノードについての特徴量とに基づいて、原言語文の構文木のノードの順序を反転させるか否かを決定するための並べ替えモデルを学習する。学習の方法は特に規定しないが、公知の順序付け学習の技術、例えばRanking SVM 等が利用可能である。

並べ替えモデル４０には、並べ替えモデル学習部３８によって学習された並べ替えモデルが格納される。並べ替えモデル４０に記憶された並べ替えモデルが、出力部５０により出力される。

＜単語並べ替え装置の構成＞
次に、本発明の実施の形態に係る単語並べ替え装置の構成について説明する。図３に示すように、本発明の実施の形態に係る単語並べ替え装置２００は、ＣＰＵと、ＲＡＭと、後述する単語並べ替え処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することができる。この単語並べ替え装置２００は、機能的には図３に示すように入力部２１０と、演算部２２０と、出力部２３０とを備えている。

入力部２１０は、並べ替え対象となる原言語文の入力を受け付ける。

演算部２２０は、統語解析部２２２、特徴量抽出部２２４、並べ替えモデル２２６、及び並べ替え決定部２２８を備えている。

統語解析部２２２は、単語並べ替え学習装置１００における統語解析部２６と同様に、入力された原言語文を統語解析し、原言語文の構文木を生成する。

特徴量抽出部２２４は、統語解析部２２２によって生成された原言語文の構文木に基づいて、単語並べ替え学習装置１００の特徴量抽出部３６と同様に、原言語文の構文木上の各ノードについて、単語の並べ替えのための特徴量を抽出する。

並べ替えモデル２２６は、単語並べ替え学習装置１００の並べ替えモデル４０と同一の並べ替えモデルを記憶している。

並べ替え決定部２２８は、原言語文の構文木上の各ノードについて、並べ替えモデル２２６に記憶されている並べ替えモデルと、特徴量抽出部２２４で得られた特徴量とに基づいて、ノードを並べ替えるか並べ替えないかを決定する。決定の方法は特に規定しないが、並べ替えモデルの学習に利用した方法に合わせた公知の技術が利用可能である。

また、並べ替え決定部２２８は、並べ替えの決定結果を構文木に反映させ、単語列または構文木の形で、出力部２３０により記憶媒体または端末に出力する。

＜機械翻訳学習装置の構成＞
次に、本発明の実施の形態に係る機械翻訳学習装置の構成について説明する。図４に示すように、本発明の実施の形態に係る機械翻訳学習装置３００は、ＣＰＵと、ＲＡＭと、後述する機械翻訳学習処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することができる。この機械翻訳学習装置３００は、機能的には図４に示すように入力部３１０と、演算部３２０と、出力部３９０とを備えている。

入力部３１０は、機械翻訳のための学習データとして、対訳文である原言語文と目的言語文とのペアの集合の入力を受け付ける。ただし、原言語文の各々は、単語並べ替え装置２００によって目的言語の語順に近づけるように単語の並べ替えが行われたものである。

また、入力部３１０は、目的言語文の集合の入力を受け付ける。

また、入力部３１０は、モデルの重み調整のための学習データとして、対訳文である原言語文と目的言語文とのペアの集合の入力を受け付ける。ただし、原言語文の各々は、単語並べ替え装置２００によって目的言語の語順に近づけるように単語の並べ替えが行われたものである。

演算部３２０は、対訳原言語文データベース３２２、対訳目的言語文データベース３２４、単語対応付け部３２６、翻訳モデル学習部３２８、目的言語文データベース３３０、言語モデル学習部３３２、翻訳モデル３３４、言語モデル３３６、重み調整用対訳文データベース３３８、重み調整部３４０、及びモデル重み記憶部３４２を備えている。

対訳原言語文データベース３２２は、入力部３１０により受け付けた対訳文の原言語文の集合を記憶している。

対訳目的言語文データベース３２４は、入力部３１０により受け付けた対訳文の目的言語文の集合を記憶している。

単語対応付け部３２６は、対訳文である原言語文及び目的言語文のペアの各々について、当該ペアの原言語文及び目的言語文の間における単語対応付けを行う。単語対応付けの方法として、単語並べ替え学習装置１００における単語対応付け部２８と同様の方法でもよいし、別の方法を用いてもよい。対応付けに公知の技術が利用できることも同様である。

翻訳モデル学習部３２８は、対訳文である原言語文及び目的言語文のペアの各々に対する、単語対応付け部３２６による単語対応付けの結果に基づき、原言語の語句が目的言語の語句に翻訳される確率を計算した翻訳モデルを学習する。モデルの学習は公知の技術、例えば非特許文献７の方法が利用可能である。また、単語対応付けを経ず対訳データから翻訳モデルを直接学習する方法、例えば非特許文献８の方法を利用してもよい。

［非特許文献７］: Phillip Koehn他, ”Statistical Phrase-based Translation,” Proc. HLT- NAACL, pp. 263-270, 2003.
［非特許文献８］: Graham Neubig他, ”An Unsupervised Model for Joint Phrase Alignment and Extraction,” Proc. ACL, pp. 632-641, 2011.

目的言語文データベース３３０は、入力部３１０により受け付けた目的言語文の集合を記憶している。

言語モデル学習部３３２は、目的言語文データベース３３０に記憶されている目的言語文の集合に基づいて、目的言語の言語モデルを学習する。言語モデルの種類やその学習方法については特に規定しないが、公知の単語Nグラム言語モデルや、その種々の学習方法が利用可能である。

翻訳モデル３３４には、翻訳モデル学習部３２８によって学習された翻訳モデルが記憶されている。

言語モデル３３６には、言語モデル学習部３３２によって学習された言語モデルが記憶されている。

重み調整用対訳文データベース３３８は、入力部３１０により受け付けた、対訳文である原言語文と目的言語文とのペアの集合を記憶している。

重み調整部３４０は、目的言語文データベース３３０に記憶されている目的言語文の集合、翻訳モデル３３４に記憶されている翻訳モデル、及び言語モデル３３６に記憶されている翻訳モデルに基づいて、翻訳モデル及び言語モデルの各々に対する重みを調整する。

複数の統計モデルを利用して機械翻訳を行う場合、それぞれのモデルに適切な重みを設定することで翻訳精度の向上が期待できる。重みの調整には公知の技術、例えば非特許文献９に記載の、重み調整用の対訳文を利用して、重み調整用の原言語文を翻訳したときに得られる翻訳結果が、重み調整用の目的言語文に近づくように重みを更新する処理を繰り返し行う方法が利用可能である。

［非特許文献９］: Franz Josef Och, ”Minimum Error Rate Training in Statistical Machine Translation,” Proc. ACL, pp. 160-167, 2003.

モデル重み記憶部３４２は、重み調整部３４０によって調整された翻訳モデル及び言語モデルの各々に対する重みを記憶している。

出力部３９０は、翻訳モデル３３４に記憶されている翻訳モデル、及び言語モデル３３６に記憶されている翻訳モデル、モデル重み記憶部３４２に記憶されている重みを、記憶媒体または端末に出力する。

＜機械翻訳装置の構成＞
次に、本発明の実施の形態に係る機械翻訳装置の構成について説明する。図５に示すように、本発明の実施の形態に係る機械翻訳装置４００は、ＣＰＵと、ＲＡＭと、後述する機械翻訳処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することができる。この機械翻訳装置４００は、機能的には図５に示すように入力部４１０と、演算部４２０と、出力部４９０とを備えている。

入力部４１０は、翻訳対象となる原言語文の入力を受け付ける。ただし、原言語文は、単語並べ替え装置２００によって目的言語の語順に近づけるように単語の並べ替えが行われたものである。

演算部４２０は、翻訳モデル４２２、言語モデル４２４、モデル重み記憶部４２６、及び翻訳実行部４２８を備えている。

翻訳モデル４２２には、機械翻訳学習装置３００の翻訳モデル３３４と同一の翻訳モデルが記憶されている。

言語モデル４２４には、機械翻訳学習装置３００の言語モデル３３６と同一の言語モデルが記憶されている。

モデル重み記憶部４２６は、機械翻訳学習装置３００のモデル重み記憶部３４２と同一の、翻訳モデル及び言語モデルの各々に対する重みを記憶している。

翻訳実行部４２８は、翻訳モデル４２２に記憶されている翻訳モデル、言語モデル４２４に記憶されている言語モデル、及びモデル重み記憶部４２６に記憶されている重みに基づいて、入力部４１０で受け付けた原言語文を目的言語文へ翻訳する翻訳処理を実行する。翻訳の方法は公知の技術、例えば非特許文献６の技術が利用可能である。

翻訳結果は、出力部４９０を介して、端末または記憶媒体に出力される。

＜単語並べ替え学習装置の作用＞
次に、本発明の実施の形態に係る単語並べ替え学習装置１００の作用について説明する。まず、入力部１０により、対訳文である原言語文と目的言語文とのペアの集合の入力を受け付け、原言語文の集合が、原言語文データベース２２に記憶され、目的言語文の集合が、目的言語文データベース２４に記憶される。そして、単語並べ替え学習装置１００のＲＯＭに記憶されたプログラムを、ＣＰＵが実行することにより、図６に示す単語並べ替え学習処理ルーチンが実行される。

まず、ステップＳ１００では、原言語文データベース２２及び目的言語文データベース２４に記憶されている対訳文である原言語文と目的言語文とのペアの集合を読み込む。

次に、ステップＳ１０２では、ステップＳ１００において読み込んだ対訳文のペアの集合に含まれる原言語文の各々について、統語解析を行って、当該原言語文の構文木を生成する。

そして、ステップＳ１０４では、対訳文のペアの集合に含まれる対訳文のペアの各々について、単語の対応付けを行う。

そして、ステップＳ１０６では、対訳文の原言語文の各々に対し、上記ステップＳ１０４での単語対応付けの結果に基づいて、当該原言語文の構文木におけるノードの二個組の各々について、上記式（１）に示す順位相関係数を算出し、二個組のノードの順序を決定する。

そして、ステップＳ１０８では、対訳文の原言語文の各々に対し、上記ステップＳ１０６で決定された二個組のノードの順序に基づいて、トポロジカルソートを用いて、当該原言語文の構文木におけるノードの順序を決定する。そして、原言語文の各々に対し、決定されたノードの順序に対応する原言語の単語列を、単語の並び替えを学習するための学習データにおける、原言語文の並び替えの正解として決定する。

ステップＳ１１０では、対訳文の原言語文のうち、上記ステップＳ１０８で正解が決定された、当該原言語文の構文木の各々について、当該原言語文の構文木上の各ノードに対して、並べ替えを行うか否かの判定のための特徴量を抽出する。

そして、ステップＳ１１２では、上記ステップＳ１０８で決定された各ノードの正解と、上記ステップＳ１１０で抽出された各ノードの特徴量とに基づいて、並べ替えモデルを学習し、並べ替えモデル４０に記憶すると共に、出力部５０により出力して、単語並べ替え学習処理ルーチンを終了する。

＜単語並べ替え装置の作用＞
次に、本発明の実施の形態に係る単語並べ替え装置２００の作用について説明する。まず、入力部２１０により、機械翻訳学習装置３００又は機械翻訳装置４００に入力するための、単語並べ替え対象の原言語文を受け付けると、単語並べ替え装置２００のＲＯＭに記憶されたプログラムを、ＣＰＵが実行することにより、図７に示す単語並べ替え処理ルーチンが実行される。

まず、ステップＳ２００では、入力部２１０により受け付けた原言語文を読み込む。

次に、ステップＳ２０２では、ステップＳ１０２と同様に、入力部２１０おいて受け付けた原言語文に対して、統語解析を行って、構文木を生成する。

ステップＳ２０４では、上記ステップＳ２０２で生成された原言語文の構文木に基づいて、ステップＳ１１０と同様に、子ノードを２つ有する各ノードに対して、並べ替えを行うか否かの判定のための特徴量を抽出する。

そして、ステップＳ２０８では、上記ステップＳ２０４で抽出された各ノードの特徴量と、並べ替えモデル２２６に記憶されている並べ替えモデルとに基づいて、各ノードについて並べ替えるか並べ替えないかを決定する。そして、並べ替えの決定結果を構文木に反映させ、単語列または構文木の形で、出力部２３０により出力し、単語並べ替え処理ルーチンを終了する。

出力部２３０により出力された、単語の並べ替えが行われた単語列が、機械翻訳学習装置３００又は機械翻訳装置４００の入力として用いられる。

＜機械翻訳学習装置の作用＞
次に、本発明の実施の形態に係る機械翻訳学習装置３００の作用について説明する。まず、入力部３１０により、対訳文である原言語文と目的言語文とのペアの集合の入力を受け付け、原言語文の集合が、対訳原言語文データベース３２２に記憶され、目的言語文の集合が、対訳目的言語文データベース３２４に記憶される。ただし、入力される原言語文の各々は、単語並べ替え装置２００によって目的言語の語順に近づけるように単語の並べ替えが行われたものである。

また、入力部３１０により、目的言語文の集合を受け付け、目的言語文データベース３３０に記憶される。また、入力部３１０により、モデルの重み調整のための学習データとして、対訳文である原言語文と目的言語文とのペアの集合の入力を受け付け、重み調整用対訳文データベース３３８に記憶される。ただし、入力される原言語文の各々は、単語並べ替え装置２００によって目的言語の語順に近づけるように単語の並べ替えが行われたものである。

そして、機械翻訳学習装置３００のＲＯＭに記憶されたプログラムを、ＣＰＵが実行することにより、図８に示す機械翻訳学習処理ルーチンが実行される。

まず、ステップＳ３００では、対訳原言語文データベース３２２及び対訳目的言語文データベース３２４に記憶されている、対訳文である原言語文と目的言語文とのペアの集合を読み込む。

次に、ステップＳ３０２では、対訳文のペアの集合に含まれる対訳文のペアの各々について、単語の対応付けを行う。

そして、ステップＳ３０４では、上記ステップＳ３０２による単語の対応付け結果に基づいて、翻訳モデルを学習し、翻訳モデル３３４に記憶して、出力部３９０により出力する。

ステップＳ３０６では、目的言語文データベース３３０に記憶されている目的言語文の集合を読み込む。

そして、ステップＳ３０８では、上記ステップＳ３０６で読み込んだ目的言語文の集合に基づいて、言語モデルを学習し、言語モデル３３６に記憶して、出力部３９０により出力する。

ステップＳ３１０では、重み調整用対訳文データベース３３８に記憶されている対訳文のペアの集合を読み込む。

そして、ステップＳ３１２では、上記ステップＳ３１０で読み込んだ対訳文のペアの集合、翻訳モデル３３４に記憶されている翻訳モデル、及び言語モデル３３６に記憶されている言語モデルに基づいて、各モデルの重みを調整し、モデル重み記憶部３４２に記憶して、出力部３９０により出力し、機械翻訳学習処理ルーチンを終了する。

＜機械翻訳装置の作用＞
次に、本発明の実施の形態に係る機械翻訳装置４００の作用について説明する。まず、入力部４１０により、機械翻訳対象の原言語文を受け付けると、機械翻訳装置４００のＲＯＭに記憶されたプログラムを、ＣＰＵが実行することにより、図９に示す機械翻訳処理ルーチンが実行される。ただし、機械翻訳対象の原言語文は、単語並べ替え装置２００によって目的言語の語順に近づけるように単語の並べ替えが行われたものである。

まず、ステップＳ４００では、入力部４１０により受け付けた原言語文を読み込む。

次に、ステップＳ４０２では、翻訳モデル４２２に記憶されている翻訳モデル、言語モデル４２４に記憶されている言語モデル、及びモデル重み記憶部４２６に記憶されている各モデルの重みに基づいて、上記ステップＳ４００で得られた原言語文を目的言語文へ翻訳する処理を実行して、翻訳結果を、出力部４９０により出力して、機械翻訳処理ルーチンを終了する。

以上説明したように、本発明の実施の形態に係る単語並べ替え学習装置によれば、単語の対応付けの結果に基づいて、原言語文の構文木におけるノードの二個組の各々について、二個組の一方のノードを先頭にした順序での、二個組のノードが表す原言語文の単語列に対応する目的言語文の単語列と、二個組の他方のノードを先頭にした順序での、二個組のノードが表す原言語文の単語列に対応する目的言語文の単語列とに基づいて、二個組のノードの順序を決定し、二個組の各々について決定された二個組のノードの順序に基づいて、トポロジカルソートを用いて、原言語文の構文木におけるノードの順序を決定し、決定されたノードの順序に対応する原言語の単語列を、単語の並び替えを学習するための学習データにおける、原言語文の並び替えの正解として決定することにより、原言語の構文木に基づく並べ替えモデルを学習するための適切な学習データを得ることができる。

また、本発明の実施の形態に係る単語並べ替え学習装置によれば、原言語文の並び替えの正解として決定された学習データを用いることにより、精度よく機械翻訳を行うための単語の並び替えを行う並べ替えモデルを得ることができる。

また、本発明の実施の形態によれば、機械翻訳において語順を正しく翻訳するための事前並べ替えを、単語対応付けの結果を最大限に活用しつつ、多くの学習例を利用して効率よく学習することで精度を向上させ、また機械翻訳の精度を向上させることができる。

また、本発明の実施の形態に係る単語並べ替え装置によれば、原言語文の構文木において各ノードについての特徴量と、上述のように学習された並べ替えモデルとに基づいて、原言語文の構文木においてノードの順序を反転させるか否かを決定し、原言語文の単語の並べ替えを行うことにより、適切に単語の事前並べ替えを決定することができる。

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、単語並べ替え学習装置において、目的言語文の構文木を生成するようにしてもよい。この場合には、単語対応付け部は、原言語文の構文木と、目的言語文の構文木とに基づいて、単語の対応付けを行うようにすればよい。

また、本実施の形態においては、単語並べ替え装置と機械翻訳学習装置とは別々の装置として構成される場合を例に説明したが、これに限定されるものではなく、単語並べ替え装置と機械翻訳学習装置とを１つの装置として構成してもよい。また、単語並べ替え装置と機械翻訳装置とは別々の装置として構成される場合を例に説明したが、これに限定されるものではなく、単語並べ替え装置と機械翻訳装置とを１つの装置として構成してもよい。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。

１０, ２１０, ３１０, ４１０入力部
２０, ２２０, ３２０, ４２０演算部
２２原言語文データベース
２４目的言語文データベース
２６, ２２２統語解析部
２８, ３２６単語対応付け部
３０並べ替え正解決定部
３２二項順序決定部
３４トポロジカルソート部
３６, ２２４特徴量抽出部
３８並べ替えモデル学習部
４０, ２２６並べ替えモデル
５０, ２３０, ３９０, ４９０出力部
１００単語並べ替え学習装置
２００単語並べ替え装置
２２８並べ替え決定部
３００機械翻訳学習装置
３２２対訳原言語文データベース
３２４対訳目的言語文データベース
３２８翻訳モデル学習部
３３０目的言語文データベース
３３２言語モデル学習部
３３４, ４２２翻訳モデル
３３６, ４２４言語モデル
３３８重み調整用対訳文データベース
３４０重み調整部
３４２, ４２６モデル重み記憶部
４００機械翻訳装置
４２８翻訳実行部

Claims

統語解析部、単語対応付け部、及び並べ替え正解決定部を含む単語並べ替え学習装置における単語並べ替え学習方法であって、
前記統語解析部が、対訳となる原言語文及び目的言語文のペアに含まれる原言語文について、原言語の統語解析を行って、前記原言語文の構文木を生成するステップと、
前記単語対応付け部が、前記原言語文及び前記目的言語文の間における単語の対応付けを行うステップと、
前記並べ替え正解決定部が、前記単語対応付け部による単語の対応付けの結果に基づいて、前記原言語文の構文木におけるノードの二個組の各々について、前記単語の対応付けの結果を用いて求められる、前記二個組の一方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列と、前記二個組の他方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列とに基づいて、前記二個組の前記ノードの順序を決定し、
前記二個組の各々について前記決定された前記二個組の前記ノードの順序に基づいて、トポロジカルソートを用いて、前記原言語文の構文木における前記ノードの順序を決定し、前記決定されたノードの順序に対応する原言語の単語列を、単語の並び替えを学習するための学習データにおける、前記原言語文の並び替えの正解として決定するステップと、
を含み、
前記並べ替え正解決定部が前記原言語文の並び替えの正解として決定するステップは、
前記原言語文の構文木におけるノードの二個組の各々について、
前記単語の対応付けの結果を用いて求められる、前記二個組の一方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列と、前記原言語文の単語列とに基づいて、第１の順位相関係数を算出し、
前記二個組の他方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列と、前記原言語文の単語列とに基づいて、第２の順位相関係数を算出し、
前記第１の順位相関係数と前記第２の順位相関係数とに基づいて、前記二個組の前記ノードの順序を決定する、
単語並べ替え学習方法。
前記並べ替え正解決定部が前記原言語文の並び替えの正解として決定するステップは、前記二個組の各々について前記決定された前記二個組の前記ノードの順序に基づいて、前記原言語文の構文木における前記ノードの順序関係が循環する場合に、前記原言語文と前記目的言語文のペアを、前記学習データから除外する
請求項１に記載の単語並べ替え学習方法。
特徴量抽出部が、前記並べ替え正解決定部によって並べ替えの正解が決定された、前記原言語文の構文木上の各ノードに対して、並べ替えを行うか否かの判定のための特徴量を抽出するステップと、
並べ替えモデル学習部が、前記並べ替え正解決定部によって決定された、前記原言語文の並び替えの正解と、前記特徴量抽出部によって抽出された、前記原言語文の構文木の各ノードについての特徴量とに基づいて、原言語文の構文木のノードの順序を反転させるか否かを決定するための並べ替えモデルを学習するステップとを更に含む
請求項１又は請求項２に記載の単語並べ替え学習方法。
統語解析部、単語対応付け部、並べ替え正解決定部、特徴量抽出部、並べ替えモデル学習部、及び単語並べ替え決定部を含む単語並べ替え装置における単語並べ替え方法であって、
前記統語解析部が、対訳となる原言語文及び目的言語文のペアに含まれる原言語文について、原言語の統語解析を行って、前記原言語文の構文木を生成するステップと、
前記単語対応付け部が、前記原言語文及び前記目的言語文の間における単語の対応付けを行うステップと、
前記並べ替え正解決定部が、前記単語対応付け部による単語の対応付けの結果に基づいて、前記原言語文の構文木におけるノードの二個組の各々について、前記単語の対応付けの結果を用いて求められる、前記二個組の一方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列と、前記二個組の他方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列とに基づいて、前記二個組の前記ノードの順序を決定し、
前記二個組の各々について前記決定された前記二個組の前記ノードの順序に基づいて、トポロジカルソートを用いて、前記原言語文の構文木における前記ノードの順序を決定し、前記決定されたノードの順序に対応する原言語の単語列を、単語の並び替えを学習するための学習データにおける、前記原言語文の並び替えの正解として決定するステップと、
前記特徴量抽出部が、前記並べ替え正解決定部によって並べ替えの正解が決定された、前記原言語文の構文木上の各ノードに対して、並べ替えを行うか否かの判定のための特徴量を抽出するステップと、
前記並べ替えモデル学習部が、前記並べ替え正解決定部によって決定された、前記原言語文の並び替えの正解と、前記特徴量抽出部によって抽出された、前記原言語文の構文木の各ノードについての特徴量とに基づいて、原言語文の構文木のノードの順序を反転させるか否かを決定するための並べ替えモデルを学習するステップと、
前記統語解析部が、入力された原言語文である入力原言語文に基づいて、原言語の統語解析を行って、前記入力原言語文の構文木を生成するステップと、
前記特徴量抽出部が、前記入力原言語文の構文木の各ノードについて、並べ替えを行うか否かの判定のための特徴量を抽出するステップと、
前記単語並べ替え決定部が、前記特徴量抽出部によって抽出された、前記入力原言語文の構文木の各ノードについての特徴量と、学習された前記並べ替えモデルとに基づいて、前記入力原言語文の構文木のノードの順序を反転させるか否かを決定し、前記決定の結果に基づいて、前記入力原言語文の単語の並べ替えを行うステップと、
を含み、
前記並べ替え正解決定部が前記原言語文の並び替えの正解として決定するステップは、
前記原言語文の構文木におけるノードの二個組の各々について、
前記単語の対応付けの結果を用いて求められる、前記二個組の一方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列と、前記原言語文の単語列とに基づいて、第１の順位相関係数を算出し、
前記二個組の他方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列と、前記原言語文の単語列とに基づいて、第２の順位相関係数を算出し、
前記第１の順位相関係数と前記第２の順位相関係数とに基づいて、前記二個組の前記ノードの順序を決定する、
単語並べ替え方法。
対訳となる原言語文及び目的言語文のペアに含まれる原言語文について、原言語の統語解析を行って、前記原言語文の構文木を生成する統語解析部と、
前記原言語文及び前記目的言語文の間における単語の対応付けを行う単語対応付け部と、
前記単語対応付け部による単語の対応付けの結果に基づいて、前記原言語文の構文木におけるノードの二個組の各々について、前記単語の対応付けの結果を用いて求められる、前記二個組の一方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列と、前記二個組の他方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列とに基づいて、前記二個組の前記ノードの順序を決定し、
前記二個組の各々について前記決定された前記二個組の前記ノードの順序に基づいて、トポロジカルソートを用いて、前記原言語文の構文木における前記ノードの順序を決定し、前記決定されたノードの順序に対応する原言語の単語列を、単語の並び替えを学習するための学習データにおける、前記原言語文の並び替えの正解として決定する並べ替え正解決定部とを含み、
前記並べ替え正解決定部は、
前記原言語文の構文木におけるノードの二個組の各々について、
前記単語の対応付けの結果を用いて求められる、前記二個組の一方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列と、前記原言語文の単語列とに基づいて、第１の順位相関係数を算出し、
前記二個組の他方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列と、前記原言語文の単語列とに基づいて、第２の順位相関係数を算出し、
前記第１の順位相関係数と前記第２の順位相関係数とに基づいて、前記二個組の前記ノードの順序を決定する、
単語並べ替え学習装置。
対訳となる原言語文及び目的言語文のペアに含まれる原言語文について、原言語の統語解析を行って、前記原言語文の構文木を生成すると共に、入力された原言語文である入力原言語文に基づいて、原言語の統語解析を行って、前記入力原言語文の構文木を生成する統語解析部と、
前記原言語文及び前記目的言語文の間における単語の対応付けを行う単語対応付け部と、
前記単語対応付け部による単語の対応付けの結果に基づいて、前記原言語文の構文木におけるノードの二個組の各々について、前記単語の対応付けの結果を用いて求められる、前記二個組の一方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列と、前記二個組の他方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列とに基づいて、前記二個組の前記ノードの順序を決定し、
前記二個組の各々について前記決定された前記二個組の前記ノードの順序に基づいて、トポロジカルソートを用いて、前記原言語文の構文木における前記ノードの順序を決定し、前記決定されたノードの順序に対応する原言語の単語列を、単語の並び替えを学習するための学習データにおける、前記原言語文の並び替えの正解として決定する並べ替え正解決定部と、
前記並べ替え正解決定部によって並べ替えの正解が決定された、前記原言語文の構文木上の各ノードに対して、並べ替えを行うか否かの判定のための特徴量を抽出すると共に、前記入力原言語文の構文木の各ノードについて、並べ替えを行うか否かの判定のための特徴量を抽出する特徴量抽出部と、
前記並べ替え正解決定部によって決定された、前記原言語文の並び替えの正解と、前記特徴量抽出部によって抽出された、前記原言語文の構文木の各ノードについての特徴量とに基づいて、原言語文の構文木のノードの順序を反転させるか否かを決定するための並べ替えモデルを学習する並べ替えモデル学習部と、
前記特徴量抽出部によって抽出された、前記入力原言語文の構文木の各ノードについての特徴量と、学習された前記並べ替えモデルとに基づいて、前記入力原言語文の構文木のノードの順序を反転させるか否かを決定し、前記決定の結果に基づいて、前記入力原言語文の単語の並べ替えを行う単語並べ替え決定部と、
を含み、
前記並べ替え正解決定部は、
前記原言語文の構文木におけるノードの二個組の各々について、
前記単語の対応付けの結果を用いて求められる、前記二個組の一方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列と、前記原言語文の単語列とに基づいて、第１の順位相関係数を算出し、
前記二個組の他方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列と、前記原言語文の単語列とに基づいて、第２の順位相関係数を算出し、
前記第１の順位相関係数と前記第２の順位相関係数とに基づいて、前記二個組の前記ノードの順序を決定する、
を含む単語並べ替え装置。
請求項１〜請求項３の何れか１項記載の単語並べ替え学習方法を構成する各ステップをコンピュータに実行させるためのプログラム。
請求項４記載の単語並べ替え方法を構成する各ステップをコンピュータに実行させるためのプログラム。