JP6590723B2 - 単語並べ替え学習方法、単語並べ替え方法、装置、及びプログラム - Google Patents

単語並べ替え学習方法、単語並べ替え方法、装置、及びプログラム Download PDF

Info

Publication number
JP6590723B2
JP6590723B2 JP2016025253A JP2016025253A JP6590723B2 JP 6590723 B2 JP6590723 B2 JP 6590723B2 JP 2016025253 A JP2016025253 A JP 2016025253A JP 2016025253 A JP2016025253 A JP 2016025253A JP 6590723 B2 JP6590723 B2 JP 6590723B2
Authority
JP
Japan
Prior art keywords
language sentence
source language
word
rearrangement
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016025253A
Other languages
English (en)
Other versions
JP2017142758A (ja
Inventor
克仁 須藤
克仁 須藤
正彬 西野
正彬 西野
永田 昌明
昌明 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016025253A priority Critical patent/JP6590723B2/ja
Publication of JP2017142758A publication Critical patent/JP2017142758A/ja
Application granted granted Critical
Publication of JP6590723B2 publication Critical patent/JP6590723B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Description

本発明は、単語並べ替え学習方法、単語並べ替え方法、装置、及びプログラムに関する。
言語Aから言語Bへの機械翻訳の処理は、言語A(以下、原言語)の語句から言語B(以下、目的言語)の語句への翻訳と、翻訳された目的言語の語句の目的言語における適切な並べ替えとの2つに大別される。当該分野で広く利用されている統計的翻訳技術においては、大量の対訳文から推定された原言語の語句と目的言語の語句との対応関係から語句の翻訳と語句の並べ替えを統計的にモデル化し、原言語の入力文に対し、それらの統計モデルに基づいて尤もらしい語句の翻訳と語句の並べ替えによって構成される目的言語の翻訳文を探索するという方法が採られる。一般にすべての翻訳文候補を網羅的に探索することは計算量的に非常に困難であるため、各語句の翻訳の候補数を制限し、かつ語句の並べ替えの距離を一定の範囲内に制約することによって実用的な計算量での機械翻訳処理が実現される。しかし、翻訳の対象となる原言語と目的言語の組み合わせによっては、対応する語句が大きく異なる順序で現れる可能性があり、そのような言語間の翻訳を正確に行うためには十分に大きな並べ替え距離を考慮した翻訳処理が要求されるため、計算量の増加が避けられないという問題が存在する。
当該問題に対処する技術として、翻訳処理を行う前に原言語の語句を対応する目的言語の語句の順序に近づけるように並べ替える「事前並べ替え(pre-ordering)」と呼ばれる技術が存在する。
非特許文献1は独語から英語、特許文献1は英語から日本語への翻訳を対象としており入力文の言語(原言語)の語句を翻訳後の言語(目的言語)の対応する語句の順序に近づけるように並べ替える規則を利用している。これらの技術は原言語側の構文解析と適切な規則を利用することによって並べ替えをかなり正確に行うことができる反面、原言語や目的言語が異なれば必要な規則も異なるため、新たに規則を定義する必要がある。
言語によらず実現可能な事前並べ替えの方法としては、統計モデルを利用して行う非特許文献2、非特許文献3が挙げられる。
非特許文献2では、原言語の依存構造木における主辞(head)と修飾語(modifier)の並べ替えを、統計的な順位付けモデルであるRanking SVMを用いて行っている。
非特許文献3では、各修飾語が主辞より前方に並べ替えられるか後方に並べ替えられるかを先に決定した後、前方の修飾語と後方の修飾語の順序をそれぞれ決定するという二段階の並べ替えを行っている。
言語非依存な事前並べ替えを実現する非特許文献2や非特許文献3に記載の方法においては、原言語の構文木上の子ノードの順序を入れ替えるか否かの学習データを、対訳データにおいて人手で付与、もしくは非特許文献5、非特許文献6に示すような方法によって自動的に推定した原言語と目的言語の単語対応付け情報に基づいて獲得する。非特許文献2では、単語対応付け情報が与えられたとき、単語対応の交差数が最小となるような依存構造木上の並べ替えを学習データとしている。非特許文献3では、依存構造上の並べ替えによって単語対応付けの交差数が0となるもののみを選択して学習データとして利用している。また、非特許文献4では、単語対応付けの交差数を最小化することを保証している。
特開2011−175500号公報
Michael Collins他, "Clause Restructuring for Statistical Machine Translation", In Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics, pp. 531-540, 2005. Nang Yang 他、"A Ranking-based Approach to Word Reordering for Statistical Machine Translation", Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics, pp. 912-920, 2012. Uri Lerner他, "Source-Side Classifier Preordering for Machine Translation," Proceeding of the 2013 Conference on Empirical Methods in Natural Language Processing, pp. 513-523, 2013. Sho Hoshino他, "Discriminative Preordering Meets Kendall’s tau Maximization," Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Short Papers), pp. 139-144, 2015. Peter F. Brown他, "The Mathematics of Statistical Machine Translation: Parameter Estimation," Computational Linguistics, pp. 268-311, 1993. Jason Riesa他, "Feature-Rich Language-Independent Syntax-Based Alignment for Statistical Machine Translation," Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing, pp. 497-507, 2011.
統計モデルを利用した事前並べ替えを行う場合の学習データとなる、単語対応の交差数が最小となるような並べ替えの決定は、非特許文献2でも言及されている通り、依存構造木上のある主辞とその主辞に対する修飾語の合計数がNのとき、N!(Nの階乗)個の可能な並べ替えの中から最小となるものを選択する必要があるため、要素数が大きくなると計算量が大きくなるという問題がある。
また、上記非特許文献2では計算量の問題を回避するために可能な並べ替えの範囲に制約をかけ、動的計画法によって制約を満たす中で単語対応の交差数が最小となるものを選択しているため、望ましい並べ替えが学習できなくなる可能性がある。
また、上記非特許文献3では、交差数を最小とする並べ替えが容易に決定できるような、単語対応が非常に単純な事例のみを選択的に学習データとして利用し、その他の事例を無視しているため、学習できる並べ替えの事例が非常に限定される可能性が高い。
上記非特許文献4では、交差数を最小化することを保証しているが、並べ替えの要素数が2に限定されており、依存構造など分岐数が多い構文木には適用できない。
さらに、依存構造木上の最適な並べ替えの決定は要素数が増えると可能な並べ替えの個数が指数的に増大してしまうため、一般に困難である。
また、探索空間を制限すれば計算量は削減できるが、最適性が保証されない。また、単語対応が単純な事例に限定すれば決定は容易になるが、数多くの事例を捨ててしまうことになる。
本発明は、上記事情を鑑みて成されたものであり、並べ替えモデルを学習するための適切な学習データを得ることができる単語並べ替え学習方法、装置、及びプログラムを提供することを目的とする。
また、適切に単語の事前並べ替えを決定することができる単語並べ替え方法及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明に係る単語並べ替え学習方法は、統語解析部、単語対応付け部、及び並べ替え正解決定部を含む単語並べ替え学習装置における単語並べ替え学習方法であって、前記統語解析部が、対訳となる原言語文及び目的言語文のペアに含まれる原言語文について、原言語の統語解析を行って、前記原言語文の構文木を生成するステップと、前記単語対応付け部が、前記原言語文及び前記目的言語文の間における単語の対応付けを行うステップと、前記並べ替え正解決定部が、前記単語対応付け部による単語の対応付けの結果に基づいて、前記原言語文の構文木におけるノードの二個組の各々について、前記単語の対応付けの結果を用いて求められる、前記二個組の一方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列と、前記二個組の他方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列とに基づいて、前記二個組の前記ノードの順序を決定し、前記二個組の各々について前記決定された前記二個組の前記ノードの順序に基づいて、トポロジカルソートを用いて、前記原言語文の構文木における前記ノードの順序を決定し、前記決定されたノードの順序に対応する原言語の単語列を、単語の並び替えを学習するための学習データにおける、前記原言語文の並び替えの正解として決定するステップと、を含んで構成されている。
本発明に係る単語並べ替え学習装置は、対訳となる原言語文及び目的言語文のペアに含まれる原言語文について、原言語の統語解析を行って、前記原言語文の構文木を生成する統語解析部と、前記原言語文及び前記目的言語文の間における単語の対応付けを行う単語対応付け部と、前記単語対応付け部による単語の対応付けの結果に基づいて、前記原言語文の構文木におけるノードの二個組の各々について、前記単語の対応付けの結果を用いて求められる、前記二個組の一方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列と、前記二個組の他方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列とに基づいて、前記二個組の前記ノードの順序を決定し、前記二個組の各々について前記決定された前記二個組の前記ノードの順序に基づいて、トポロジカルソートを用いて、前記原言語文の構文木における前記ノードの順序を決定し、前記決定されたノードの順序に対応する原言語の単語列を、単語の並び替えを学習するための学習データにおける、前記原言語文の並び替えの正解として決定する並べ替え正解決定部と、を含んで構成されている。
本発明に係る単語並べ替え方法は、統語解析部、特徴量抽出部、及び単語並べ替え決定部を含む単語並べ替え装置における単語並べ替え方法であって、前記統語解析部が、入力された原言語文に基づいて、原言語の統語解析を行って、前記原言語文の構文木を生成するステップと、前記特徴量抽出部が、前記原言語文の構文木の各ノードについて、並べ替えを行うか否かの判定のための特徴量を抽出するステップと、前記単語並べ替え決定部が、前記特徴量抽出部によって抽出された、前記原言語文の構文木の各ノードについての特徴量と、請求項4に記載の単語並べ替え学習方法によって学習された前記並べ替えモデルとに基づいて、前記原言語文の構文木のノードの順序を反転させるか否かを決定し、前記決定の結果に基づいて、前記原言語文の単語の並べ替えを行うステップと、を含んで構成されている。
また、本発明のプログラムは、上記の単語並べ替え学習方法、または上記の単語並べ替え方法を構成する各ステップをコンピュータに実行させるためのプログラムである。
以上説明したように、本発明の単語並べ替え学習方法、装置、及びプログラムによれば、単語の対応付けの結果に基づいて、原言語文の構文木におけるノードの二個組の各々について、二個組の一方のノードを先頭にした順序での、二個組のノードが表す原言語文の単語列に対応する目的言語文の単語列と、二個組の他方のノードを先頭にした順序での、二個組のノードが表す原言語文の単語列に対応する目的言語文の単語列とに基づいて、二個組のノードの順序を決定し、二個組の各々について決定された二個組のノードの順序に基づいて、トポロジカルソートを用いて、原言語文の構文木におけるノードの順序を決定し、決定されたノードの順序に対応する原言語の単語列を、単語の並び替えを学習するための学習データにおける、原言語文の並び替えの正解として決定することにより、並べ替えモデルを学習するための適切な学習データを得ることができる、という効果を有する。
また、本発明の単語並べ替え方法及びプログラムによれば、原言語文の構文木の各ノードについての特徴量と、学習された並べ替えモデルとに基づいて、原言語文の構文木のノードの順序を反転させるか否かを決定し、決定の結果に基づいて、原言語文の単語の並べ替えを行うことにより、適切に単語の事前並べ替えを決定することができる。
本発明の実施の形態に係る単語並べ替え学習装置の機能的構成を示すブロック図である。 原言語の構文木と目的言語との対応関係の例を示す図である。 本発明の実施の形態に係る単語並べ替え装置の機能的構成を示すブロック図である。 本発明の実施の形態に係る機械翻訳学習装置の機能的構成を示すブロック図である。 本発明の実施の形態に係る機械翻訳装置の機能的構成を示すブロック図である。 本発明の実施の形態に係る単語並べ替え学習装置における単語並べ替え学習処理ルーチンを示すフローチャート図である。 本発明の実施の形態に係る単語並べ替え装置における単語並べ替え処理ルーチンを示すフローチャート図である。 本発明の実施の形態に係る機械翻訳学習装置における機械翻訳学習処理ルーチンを示すフローチャート図である。 本発明の実施の形態に係る機械翻訳装置における機械翻訳処理ルーチンを示すフローチャート図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態の概要>
本発明の実施の形態では、原言語の構文木に基づく事前並べ替えの学習データのための最適な並べ替えの決定を効率的に行うことを目的とする。具体的には、本実施の形態では、上記非特許文献2と同様の構文木上での事前並べ替えの学習を行うための最適な並べ替えの決定を、原言語側の二単語の順序入れ替えによる単語対応の交差数増減によって定義する。そして、交差数増減によって定義された要素の順序関係を利用したトポロジカルソートを行う。これにより、並べ替えの対象となる要素の数Nに対してO(N!)であった計算量を、O(N)の計算量で実現する。
また、当該順序関係に循環が含まれ、トポロジカルソートによる最適な並べ替えの決定が行えない場合についてのみ学習データから除外することで、上記非特許文献3のように数多くの事例を除外することなく事前並べ替えの学習を行うことを可能にする。これにより、上記非特許文献3と比べて制約の度合いは非常に小さく、より多くの事例から学習することができる。
なお、構文木は依存構造(係り受け)木でも句構造木でもよい。本実施の形態では、構文木として依存構造木を用いる場合を例に説明する。また、本実施形態では、日本語を原言語の一例とし、英語を目的言語の一例とする。
<本発明の実施の形態に係る単語並べ替え学習装置の構成>
次に、本発明の実施の形態に係る単語並べ替え学習装置の構成について説明する。図1に示すように、本発明の実施の形態に係る単語並べ替え学習装置100は、CPUと、RAMと、後述する単語並べ替え学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この単語並べ替え学習装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部50とを備えている。
入力部10は、対訳文である原言語文と目的言語文とのペアの集合の入力を受け付ける。
演算部20は、原言語文データベース22、目的言語文データベース24、統語解析部26、単語対応付け部28、並べ替え正解決定部30、特徴量抽出部36、並べ替えモデル学習部38、及び並べ替えモデル40を備えている。
原言語文データベース22は、入力部10により受け付けた対訳文の原言語文の集合を記憶している。
目的言語文データベース24は、入力部10により受け付けた対訳文の目的言語文の集合を記憶している。
統語解析部26は、原言語文データベース22に記憶されている原言語文の各々について、原言語の統語解析を行い、当該原言語文の構文木を生成する。統語解析部26における処理には単語分割や品詞付与を含み得る。統語解析の方法は公知の技術、例えば英語についてはBerkeley ParserやEnju等のソフトウェア、日本語についてはHaruniwaやCkylark等のソフトウェアが利用できるが、本発明の実施の形態における構成は特定の統語解析技術に依存しない。また、後段の処理における精度向上のために、目的言語文データベース24に記憶されている目的言語文の各々について統語解析を行ってもよい。
単語対応付け部28は、原言語文データベース22に記憶された対訳文の原言語文及び目的言語文データベース24に記憶された目的言語文のペアの各々について、当該ペアの原言語文及び目的言語文の間における単語の対応付けを行う。
単語対応付けの方法は公知の技術、例えば非特許文献4に記載のモデルによる対応付けを行うGIZA++等のソフトウェアが利用可能である。または、別に与える原言語文・目的言語文・原言語と目的言語の間の単語対応情報を利用して、非特許文献5に記載の手法によって単語対応付けモデルを学習し、そのモデルを利用して単語対応付けを行ってもよい。もしくは、単語対応情報を別途入力し、前記のような対応付けを機械的に推定する処理を行わない構成とすることも可能である。
並べ替え正解決定部30は、単語対応付け部28による単語対応付けの結果に基づいて、原言語文の構文木におけるノードの二個組の各々について、二個組のノードの順序を決定する。
具体的には、並べ替え正解決定部30は、単語の対応付けの結果を用いて求められる、二個組の一方のノードを先頭にした順序での、二個組のノードが表す原言語文の単語列に対応する目的言語文の単語列と、二個組の他方のノードを先頭にした順序での、二個組のノードが表す原言語文の単語列に対応する目的言語文の単語列とに基づいて、二個組のノードの順序を決定する。
そして、並べ替え正解決定部30は、二個組の各々について決定された二個組のノードの順序に基づいて、トポロジカルソートを用いて、原言語文の構文木におけるノードの順序を決定し、決定されたノードの順序に対応する原言語の単語列を、単語の並び替えを学習するための学習データにおける、原言語文の並び替えの正解として決定する。
以下に、単語対応付けの結果に基づいて、原言語の構文木上で並べ替えをすることで目的言語の語順に近づくノードを同定し、後述の並べ替えモデルの学習における正解を決定する原理について説明する。
目的言語の語順に近づけるための基準としては、上記非特許文献2と同様、単語対応の交差数を利用する。ただし、この単語対応の交差数とは、上記非特許文献6に記載の、原言語側の先頭から順に、対応する目的言語側の単語の先頭からの位置(順位)を昇順に並べた場合のケンドールの順位相関係数と等価であることから、以下の説明では当該順位相関係数を利用する。ケンドールの順位相関係数(一般に、ギリシア文字のタウで表される)は、任意の二個組について順序関係の定義されたN個の要素の列に対して、
と定義される。ここで、nは昇順となっている二個組の数、nは降順となっている二個組の数である。
本実施形態で利用する順位相関係数の計算について、図2の例に基づいて説明する。図2の例1に示したような日本語(原言語)の構文木(例1では依存構造木)と、英語の単語列、細い実線で表されている日本語と英語との間の単語対応があった場合、日本語の8番目の単語「見た」を主辞、2番目の単語「は」、3番目の単語「昨日」、5番目の単語「で」、7番目の単語「を」を修飾語とする部分構造に注目する。なお、各修飾語は、それぞれを主辞とする下位の部分構造を構成している。ここで、「は」を主辞とする部分構造は英語側の1番目の単語“He”、「昨日」を主辞とする部分構造は英語側の8番目の単語“yesterday”、「で」を主辞とする部分構造は英語側の6番目の単語“in”と7番目の単語“Kyoto”、「を」を主辞とする部分構造は英語側の4番目の単語“black”と5番目の単語“cat”、主辞「見た」は英語側の2番目の単語“saw”、にそれぞれ対応付けられている。
並べ替え正解決定部30は、二項順序決定部32と、トポロジカルソート部34とを備えている。
二項順序決定部32は、まず、単語対応付け部28による単語の対応付けの結果に基づいて、統語解析部26によって得られた原言語文の構文木におけるノードの二個組の各々について、単語の対応付けの結果を用いて求められる、二個組の一方のノードを先頭にした順序での、二個組のノードが表す原言語文の単語列に対応する目的言語文の単語列と、原言語文の単語列とに基づいて、第1の順位相関係数を算出する。
次に、二項順序決定部32は、ノードの二個組の各々について、単語の対応付けの結果を用いて求められる、二個組の他方のノードを先頭にした順序での、二個組のノードが表す原言語文の単語列に対応する目的言語文の単語列と、原言語文の単語列とに基づいて、第2の順位相関係数を算出する。
そして、二項順序決定部32は、第1の順位相関係数と第2の順位相関係数とに基づいて、二個組のノードの順序を決定する。
二項順序決定部32によってトポロジカルソートを行うための順序関係が決定される。要素(本実施形態ではノードを表す。)間の順序関係は、対応する目的言語側の単語の位置によって定義する。例えば、「を」を主辞とする部分構造と「見た」との順序関係については、順序を変更せず「見た」が後方にあったとすると、対応する目的言語側の単語の位置は“[4 5] [2]”と表現される(それぞれの部分構造に対応付けられている位置の列を[]で囲っている)。一方、順序を逆転したとすると“[2] [4 5]”となり、順序を逆転させた方が、順位相関係数が大きくなることは自明である。したがって、この二個組については、主辞「見た」が「を」を主辞とする部分構造より前方にある(順位が高い)と定義される。以下同様に考えると、
・「は」は「昨日」「で」「を」「見た」よりも順位が高い
・「昨日」は「で」「を」「見た」よりも順位が低い
・「で」は「を」「見た」よりも順位が低い
ことが分かり、5個のノードに対する全ての二個組のノードについて順序関係が定義できる。ここで、ノード順の反転によって順位相関係数が変化しないノードの組については、同順であるとする。
トポロジカルソート部34は、二項順序決定部32により二個組の各々について決定された二個組のノードの順序に基づいて、トポロジカルソートを用いて、原言語文の構文木におけるノードの順序を決定する。そして、トポロジカルソート部34は、決定されたノードの順序に対応する原言語の単語列を、単語の並び替えを学習するための学習データにおける、原言語文の並び替えの正解として決定する。
トポロジカルソート部34によってノードのトポロジカルソートが行われる。ノードの二個組に対して順序関係が定義された上でのトポロジカルソートは公知の方式で行うことができる。
なお、順序関係に循環がある場合はトポロジカルソートに失敗する。この場合は与えられた対訳文と構文木、および単語対応から適切なノードの並べ替えが決定できないため、学習データから除外する。
したがって、トポロジカルソート部34は、二個組の各々について決定された二個組のノードの順序に基づいて、原言語文の構文木におけるノードの順序関係が循環する場合に、原言語文と目的言語文のペアを、学習データから除外する。
また、二つ以上のノードが同順となるような結果が得られた場合については、以下のいずれかで対応する。
・同順のものは同順であるとして学習データとする。
・同順となっているノード群のみを取り除いて学習データとする。
・当該部分構造全体を学習データから除外する。
特徴量抽出部36は、統語解析部26によって生成された原言語文の構文木のうち、並べ替え正解決定部30によって並べ替えの正解が決定された、当該原言語文の構文木上の各ノードに対して、並べ替えを行うか否かの判定のための特徴量を抽出する。
本実施の形態では特徴量の詳細については規定しないが、非特許文献2、非特許文献3に記載のような、単語・品詞・構文木の構造やラベル、それらを組み合わせたものなどを利用することができる。
並べ替えモデル学習部38は、並べ替え正解決定部30によって決定された、原言語文の並び替えの正解と、特徴量抽出部36によって抽出された、原言語文の構文木の各ノードについての特徴量とに基づいて、原言語文の構文木のノードの順序を反転させるか否かを決定するための並べ替えモデルを学習する。学習の方法は特に規定しないが、公知の順序付け学習の技術、例えばRanking SVM 等が利用可能である。
並べ替えモデル40には、並べ替えモデル学習部38によって学習された並べ替えモデルが格納される。並べ替えモデル40に記憶された並べ替えモデルが、出力部50により出力される。
<単語並べ替え装置の構成>
次に、本発明の実施の形態に係る単語並べ替え装置の構成について説明する。図3に示すように、本発明の実施の形態に係る単語並べ替え装置200は、CPUと、RAMと、後述する単語並べ替え処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することができる。この単語並べ替え装置200は、機能的には図3に示すように入力部210と、演算部220と、出力部230とを備えている。
入力部210は、並べ替え対象となる原言語文の入力を受け付ける。
演算部220は、統語解析部222、特徴量抽出部224、並べ替えモデル226、及び並べ替え決定部228を備えている。
統語解析部222は、単語並べ替え学習装置100における統語解析部26と同様に、入力された原言語文を統語解析し、原言語文の構文木を生成する。
特徴量抽出部224は、統語解析部222によって生成された原言語文の構文木に基づいて、単語並べ替え学習装置100の特徴量抽出部36と同様に、原言語文の構文木上の各ノードについて、単語の並べ替えのための特徴量を抽出する。
並べ替えモデル226は、単語並べ替え学習装置100の並べ替えモデル40と同一の並べ替えモデルを記憶している。
並べ替え決定部228は、原言語文の構文木上の各ノードについて、並べ替えモデル226に記憶されている並べ替えモデルと、特徴量抽出部224で得られた特徴量とに基づいて、ノードを並べ替えるか並べ替えないかを決定する。決定の方法は特に規定しないが、並べ替えモデルの学習に利用した方法に合わせた公知の技術が利用可能である。
また、並べ替え決定部228は、並べ替えの決定結果を構文木に反映させ、単語列または構文木の形で、出力部230により記憶媒体または端末に出力する。
<機械翻訳学習装置の構成>
次に、本発明の実施の形態に係る機械翻訳学習装置の構成について説明する。図4に示すように、本発明の実施の形態に係る機械翻訳学習装置300は、CPUと、RAMと、後述する機械翻訳学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することができる。この機械翻訳学習装置300は、機能的には図4に示すように入力部310と、演算部320と、出力部390とを備えている。
入力部310は、機械翻訳のための学習データとして、対訳文である原言語文と目的言語文とのペアの集合の入力を受け付ける。ただし、原言語文の各々は、単語並べ替え装置200によって目的言語の語順に近づけるように単語の並べ替えが行われたものである。
また、入力部310は、目的言語文の集合の入力を受け付ける。
また、入力部310は、モデルの重み調整のための学習データとして、対訳文である原言語文と目的言語文とのペアの集合の入力を受け付ける。ただし、原言語文の各々は、単語並べ替え装置200によって目的言語の語順に近づけるように単語の並べ替えが行われたものである。
演算部320は、対訳原言語文データベース322、対訳目的言語文データベース324、単語対応付け部326、翻訳モデル学習部328、目的言語文データベース330、言語モデル学習部332、翻訳モデル334、言語モデル336、重み調整用対訳文データベース338、重み調整部340、及びモデル重み記憶部342を備えている。
対訳原言語文データベース322は、入力部310により受け付けた対訳文の原言語文の集合を記憶している。
対訳目的言語文データベース324は、入力部310により受け付けた対訳文の目的言語文の集合を記憶している。
単語対応付け部326は、対訳文である原言語文及び目的言語文のペアの各々について、当該ペアの原言語文及び目的言語文の間における単語対応付けを行う。単語対応付けの方法として、単語並べ替え学習装置100における単語対応付け部28と同様の方法でもよいし、別の方法を用いてもよい。対応付けに公知の技術が利用できることも同様である。
翻訳モデル学習部328は、対訳文である原言語文及び目的言語文のペアの各々に対する、単語対応付け部326による単語対応付けの結果に基づき、原言語の語句が目的言語の語句に翻訳される確率を計算した翻訳モデルを学習する。モデルの学習は公知の技術、例えば非特許文献7の方法が利用可能である。また、単語対応付けを経ず対訳データから翻訳モデルを直接学習する方法、例えば非特許文献8の方法を利用してもよい。
[非特許文献7]: Phillip Koehn他, ”Statistical Phrase-based Translation,” Proc. HLT- NAACL, pp. 263-270, 2003.
[非特許文献8]: Graham Neubig他, ”An Unsupervised Model for Joint Phrase Alignment and Extraction,” Proc. ACL, pp. 632-641, 2011.
目的言語文データベース330は、入力部310により受け付けた目的言語文の集合を記憶している。
言語モデル学習部332は、目的言語文データベース330に記憶されている目的言語文の集合に基づいて、目的言語の言語モデルを学習する。言語モデルの種類やその学習方法については特に規定しないが、公知の単語Nグラム言語モデルや、その種々の学習方法が利用可能である。
翻訳モデル334には、翻訳モデル学習部328によって学習された翻訳モデルが記憶されている。
言語モデル336には、言語モデル学習部332によって学習された言語モデルが記憶されている。
重み調整用対訳文データベース338は、入力部310により受け付けた、対訳文である原言語文と目的言語文とのペアの集合を記憶している。
重み調整部340は、目的言語文データベース330に記憶されている目的言語文の集合、翻訳モデル334に記憶されている翻訳モデル、及び言語モデル336に記憶されている翻訳モデルに基づいて、翻訳モデル及び言語モデルの各々に対する重みを調整する。
複数の統計モデルを利用して機械翻訳を行う場合、それぞれのモデルに適切な重みを設定することで翻訳精度の向上が期待できる。重みの調整には公知の技術、例えば非特許文献9に記載の、重み調整用の対訳文を利用して、重み調整用の原言語文を翻訳したときに得られる翻訳結果が、重み調整用の目的言語文に近づくように重みを更新する処理を繰り返し行う方法が利用可能である。
[非特許文献9]: Franz Josef Och, ”Minimum Error Rate Training in Statistical Machine Translation,” Proc. ACL, pp. 160-167, 2003.
モデル重み記憶部342は、重み調整部340によって調整された翻訳モデル及び言語モデルの各々に対する重みを記憶している。
出力部390は、翻訳モデル334に記憶されている翻訳モデル、及び言語モデル336に記憶されている翻訳モデル、モデル重み記憶部342に記憶されている重みを、記憶媒体または端末に出力する。
<機械翻訳装置の構成>
次に、本発明の実施の形態に係る機械翻訳装置の構成について説明する。図5に示すように、本発明の実施の形態に係る機械翻訳装置400は、CPUと、RAMと、後述する機械翻訳処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することができる。この機械翻訳装置400は、機能的には図5に示すように入力部410と、演算部420と、出力部490とを備えている。
入力部410は、翻訳対象となる原言語文の入力を受け付ける。ただし、原言語文は、単語並べ替え装置200によって目的言語の語順に近づけるように単語の並べ替えが行われたものである。
演算部420は、翻訳モデル422、言語モデル424、モデル重み記憶部426、及び翻訳実行部428を備えている。
翻訳モデル422には、機械翻訳学習装置300の翻訳モデル334と同一の翻訳モデルが記憶されている。
言語モデル424には、機械翻訳学習装置300の言語モデル336と同一の言語モデルが記憶されている。
モデル重み記憶部426は、機械翻訳学習装置300のモデル重み記憶部342と同一の、翻訳モデル及び言語モデルの各々に対する重みを記憶している。
翻訳実行部428は、翻訳モデル422に記憶されている翻訳モデル、言語モデル424に記憶されている言語モデル、及びモデル重み記憶部426に記憶されている重みに基づいて、入力部410で受け付けた原言語文を目的言語文へ翻訳する翻訳処理を実行する。翻訳の方法は公知の技術、例えば非特許文献6の技術が利用可能である。
翻訳結果は、出力部490を介して、端末または記憶媒体に出力される。
<単語並べ替え学習装置の作用>
次に、本発明の実施の形態に係る単語並べ替え学習装置100の作用について説明する。まず、入力部10により、対訳文である原言語文と目的言語文とのペアの集合の入力を受け付け、原言語文の集合が、原言語文データベース22に記憶され、目的言語文の集合が、目的言語文データベース24に記憶される。そして、単語並べ替え学習装置100のROMに記憶されたプログラムを、CPUが実行することにより、図6に示す単語並べ替え学習処理ルーチンが実行される。
まず、ステップS100では、原言語文データベース22及び目的言語文データベース24に記憶されている対訳文である原言語文と目的言語文とのペアの集合を読み込む。
次に、ステップS102では、ステップS100において読み込んだ対訳文のペアの集合に含まれる原言語文の各々について、統語解析を行って、当該原言語文の構文木を生成する。
そして、ステップS104では、対訳文のペアの集合に含まれる対訳文のペアの各々について、単語の対応付けを行う。
そして、ステップS106では、対訳文の原言語文の各々に対し、上記ステップS104での単語対応付けの結果に基づいて、当該原言語文の構文木におけるノードの二個組の各々について、上記式(1)に示す順位相関係数を算出し、二個組のノードの順序を決定する。
そして、ステップS108では、対訳文の原言語文の各々に対し、上記ステップS106で決定された二個組のノードの順序に基づいて、トポロジカルソートを用いて、当該原言語文の構文木におけるノードの順序を決定する。そして、原言語文の各々に対し、決定されたノードの順序に対応する原言語の単語列を、単語の並び替えを学習するための学習データにおける、原言語文の並び替えの正解として決定する。
ステップS110では、対訳文の原言語文のうち、上記ステップS108で正解が決定された、当該原言語文の構文木の各々について、当該原言語文の構文木上の各ノードに対して、並べ替えを行うか否かの判定のための特徴量を抽出する。
そして、ステップS112では、上記ステップS108で決定された各ノードの正解と、上記ステップS110で抽出された各ノードの特徴量とに基づいて、並べ替えモデルを学習し、並べ替えモデル40に記憶すると共に、出力部50により出力して、単語並べ替え学習処理ルーチンを終了する。
<単語並べ替え装置の作用>
次に、本発明の実施の形態に係る単語並べ替え装置200の作用について説明する。まず、入力部210により、機械翻訳学習装置300又は機械翻訳装置400に入力するための、単語並べ替え対象の原言語文を受け付けると、単語並べ替え装置200のROMに記憶されたプログラムを、CPUが実行することにより、図7に示す単語並べ替え処理ルーチンが実行される。
まず、ステップS200では、入力部210により受け付けた原言語文を読み込む。
次に、ステップS202では、ステップS102と同様に、入力部210おいて受け付けた原言語文に対して、統語解析を行って、構文木を生成する。
ステップS204では、上記ステップS202で生成された原言語文の構文木に基づいて、ステップS110と同様に、子ノードを2つ有する各ノードに対して、並べ替えを行うか否かの判定のための特徴量を抽出する。
そして、ステップS208では、上記ステップS204で抽出された各ノードの特徴量と、並べ替えモデル226に記憶されている並べ替えモデルとに基づいて、各ノードについて並べ替えるか並べ替えないかを決定する。そして、並べ替えの決定結果を構文木に反映させ、単語列または構文木の形で、出力部230により出力し、単語並べ替え処理ルーチンを終了する。
出力部230により出力された、単語の並べ替えが行われた単語列が、機械翻訳学習装置300又は機械翻訳装置400の入力として用いられる。
<機械翻訳学習装置の作用>
次に、本発明の実施の形態に係る機械翻訳学習装置300の作用について説明する。まず、入力部310により、対訳文である原言語文と目的言語文とのペアの集合の入力を受け付け、原言語文の集合が、対訳原言語文データベース322に記憶され、目的言語文の集合が、対訳目的言語文データベース324に記憶される。ただし、入力される原言語文の各々は、単語並べ替え装置200によって目的言語の語順に近づけるように単語の並べ替えが行われたものである。
また、入力部310により、目的言語文の集合を受け付け、目的言語文データベース330に記憶される。また、入力部310により、モデルの重み調整のための学習データとして、対訳文である原言語文と目的言語文とのペアの集合の入力を受け付け、重み調整用対訳文データベース338に記憶される。ただし、入力される原言語文の各々は、単語並べ替え装置200によって目的言語の語順に近づけるように単語の並べ替えが行われたものである。
そして、機械翻訳学習装置300のROMに記憶されたプログラムを、CPUが実行することにより、図8に示す機械翻訳学習処理ルーチンが実行される。
まず、ステップS300では、対訳原言語文データベース322及び対訳目的言語文データベース324に記憶されている、対訳文である原言語文と目的言語文とのペアの集合を読み込む。
次に、ステップS302では、対訳文のペアの集合に含まれる対訳文のペアの各々について、単語の対応付けを行う。
そして、ステップS304では、上記ステップS302による単語の対応付け結果に基づいて、翻訳モデルを学習し、翻訳モデル334に記憶して、出力部390により出力する。
ステップS306では、目的言語文データベース330に記憶されている目的言語文の集合を読み込む。
そして、ステップS308では、上記ステップS306で読み込んだ目的言語文の集合に基づいて、言語モデルを学習し、言語モデル336に記憶して、出力部390により出力する。
ステップS310では、重み調整用対訳文データベース338に記憶されている対訳文のペアの集合を読み込む。
そして、ステップS312では、上記ステップS310で読み込んだ対訳文のペアの集合、翻訳モデル334に記憶されている翻訳モデル、及び言語モデル336に記憶されている言語モデルに基づいて、各モデルの重みを調整し、モデル重み記憶部342に記憶して、出力部390により出力し、機械翻訳学習処理ルーチンを終了する。
<機械翻訳装置の作用>
次に、本発明の実施の形態に係る機械翻訳装置400の作用について説明する。まず、入力部410により、機械翻訳対象の原言語文を受け付けると、機械翻訳装置400のROMに記憶されたプログラムを、CPUが実行することにより、図9に示す機械翻訳処理ルーチンが実行される。ただし、機械翻訳対象の原言語文は、単語並べ替え装置200によって目的言語の語順に近づけるように単語の並べ替えが行われたものである。
まず、ステップS400では、入力部410により受け付けた原言語文を読み込む。
次に、ステップS402では、翻訳モデル422に記憶されている翻訳モデル、言語モデル424に記憶されている言語モデル、及びモデル重み記憶部426に記憶されている各モデルの重みに基づいて、上記ステップS400で得られた原言語文を目的言語文へ翻訳する処理を実行して、翻訳結果を、出力部490により出力して、機械翻訳処理ルーチンを終了する。
以上説明したように、本発明の実施の形態に係る単語並べ替え学習装置によれば、単語の対応付けの結果に基づいて、原言語文の構文木におけるノードの二個組の各々について、二個組の一方のノードを先頭にした順序での、二個組のノードが表す原言語文の単語列に対応する目的言語文の単語列と、二個組の他方のノードを先頭にした順序での、二個組のノードが表す原言語文の単語列に対応する目的言語文の単語列とに基づいて、二個組のノードの順序を決定し、二個組の各々について決定された二個組のノードの順序に基づいて、トポロジカルソートを用いて、原言語文の構文木におけるノードの順序を決定し、決定されたノードの順序に対応する原言語の単語列を、単語の並び替えを学習するための学習データにおける、原言語文の並び替えの正解として決定することにより、原言語の構文木に基づく並べ替えモデルを学習するための適切な学習データを得ることができる。
また、本発明の実施の形態に係る単語並べ替え学習装置によれば、原言語文の並び替えの正解として決定された学習データを用いることにより、精度よく機械翻訳を行うための単語の並び替えを行う並べ替えモデルを得ることができる。
また、本発明の実施の形態によれば、機械翻訳において語順を正しく翻訳するための事前並べ替えを、単語対応付けの結果を最大限に活用しつつ、多くの学習例を利用して効率よく学習することで精度を向上させ、また機械翻訳の精度を向上させることができる。
また、本発明の実施の形態に係る単語並べ替え装置によれば、原言語文の構文木において各ノードについての特徴量と、上述のように学習された並べ替えモデルとに基づいて、原言語文の構文木においてノードの順序を反転させるか否かを決定し、原言語文の単語の並べ替えを行うことにより、適切に単語の事前並べ替えを決定することができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、単語並べ替え学習装置において、目的言語文の構文木を生成するようにしてもよい。この場合には、単語対応付け部は、原言語文の構文木と、目的言語文の構文木とに基づいて、単語の対応付けを行うようにすればよい。
また、本実施の形態においては、単語並べ替え装置と機械翻訳学習装置とは別々の装置として構成される場合を例に説明したが、これに限定されるものではなく、単語並べ替え装置と機械翻訳学習装置とを1つの装置として構成してもよい。また、単語並べ替え装置と機械翻訳装置とは別々の装置として構成される場合を例に説明したが、これに限定されるものではなく、単語並べ替え装置と機械翻訳装置とを1つの装置として構成してもよい。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。
10, 210, 310, 410 入力部
20, 220, 320, 420 演算部
22 原言語文データベース
24 目的言語文データベース
26, 222 統語解析部
28, 326 単語対応付け部
30 並べ替え正解決定部
32 二項順序決定部
34 トポロジカルソート部
36, 224 特徴量抽出部
38 並べ替えモデル学習部
40, 226 並べ替えモデル
50, 230, 390, 490 出力部
100 単語並べ替え学習装置
200 単語並べ替え装置
228 並べ替え決定部
300 機械翻訳学習装置
322 対訳原言語文データベース
324 対訳目的言語文データベース
328 翻訳モデル学習部
330 目的言語文データベース
332 言語モデル学習部
334, 422 翻訳モデル
336, 424 言語モデル
338 重み調整用対訳文データベース
340 重み調整部
342, 426 モデル重み記憶部
400 機械翻訳装置
428 翻訳実行部

Claims (8)

  1. 統語解析部、単語対応付け部、及び並べ替え正解決定部を含む単語並べ替え学習装置における単語並べ替え学習方法であって、
    前記統語解析部が、対訳となる原言語文及び目的言語文のペアに含まれる原言語文について、原言語の統語解析を行って、前記原言語文の構文木を生成するステップと、
    前記単語対応付け部が、前記原言語文及び前記目的言語文の間における単語の対応付けを行うステップと、
    前記並べ替え正解決定部が、前記単語対応付け部による単語の対応付けの結果に基づいて、前記原言語文の構文木におけるノードの二個組の各々について、前記単語の対応付けの結果を用いて求められる、前記二個組の一方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列と、前記二個組の他方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列とに基づいて、前記二個組の前記ノードの順序を決定し、
    前記二個組の各々について前記決定された前記二個組の前記ノードの順序に基づいて、トポロジカルソートを用いて、前記原言語文の構文木における前記ノードの順序を決定し、前記決定されたノードの順序に対応する原言語の単語列を、単語の並び替えを学習するための学習データにおける、前記原言語文の並び替えの正解として決定するステップと、
    含み、
    前記並べ替え正解決定部が前記原言語文の並び替えの正解として決定するステップは、
    前記原言語文の構文木におけるノードの二個組の各々について、
    前記単語の対応付けの結果を用いて求められる、前記二個組の一方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列と、前記原言語文の単語列とに基づいて、第1の順位相関係数を算出し、
    前記二個組の他方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列と、前記原言語文の単語列とに基づいて、第2の順位相関係数を算出し、
    前記第1の順位相関係数と前記第2の順位相関係数とに基づいて、前記二個組の前記ノードの順序を決定する、
    単語並べ替え学習方法。
  2. 前記並べ替え正解決定部が前記原言語文の並び替えの正解として決定するステップは、前記二個組の各々について前記決定された前記二個組の前記ノードの順序に基づいて、前記原言語文の構文木における前記ノードの順序関係が循環する場合に、前記原言語文と前記目的言語文のペアを、前記学習データから除外する
    請求項1に記載の単語並べ替え学習方法。
  3. 特徴量抽出部が、前記並べ替え正解決定部によって並べ替えの正解が決定された、前記原言語文の構文木上の各ノードに対して、並べ替えを行うか否かの判定のための特徴量を抽出するステップと、
    並べ替えモデル学習部が、前記並べ替え正解決定部によって決定された、前記原言語文の並び替えの正解と、前記特徴量抽出部によって抽出された、前記原言語文の構文木の各ノードについての特徴量とに基づいて、原言語文の構文木のノードの順序を反転させるか否かを決定するための並べ替えモデルを学習するステップとを更に含む
    請求項1又は請求項2に記載の単語並べ替え学習方法。
  4. 統語解析部、単語対応付け部、並べ替え正解決定部、特徴量抽出部、並べ替えモデル学習部、及び単語並べ替え決定部を含む単語並べ替え装置における単語並べ替え方法であって、
    前記統語解析部が、対訳となる原言語文及び目的言語文のペアに含まれる原言語文について、原言語の統語解析を行って、前記原言語文の構文木を生成するステップと、
    前記単語対応付け部が、前記原言語文及び前記目的言語文の間における単語の対応付けを行うステップと、
    前記並べ替え正解決定部が、前記単語対応付け部による単語の対応付けの結果に基づいて、前記原言語文の構文木におけるノードの二個組の各々について、前記単語の対応付けの結果を用いて求められる、前記二個組の一方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列と、前記二個組の他方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列とに基づいて、前記二個組の前記ノードの順序を決定し、
    前記二個組の各々について前記決定された前記二個組の前記ノードの順序に基づいて、トポロジカルソートを用いて、前記原言語文の構文木における前記ノードの順序を決定し、前記決定されたノードの順序に対応する原言語の単語列を、単語の並び替えを学習するための学習データにおける、前記原言語文の並び替えの正解として決定するステップと、
    前記特徴量抽出部が、前記並べ替え正解決定部によって並べ替えの正解が決定された、前記原言語文の構文木上の各ノードに対して、並べ替えを行うか否かの判定のための特徴量を抽出するステップと、
    前記並べ替えモデル学習部が、前記並べ替え正解決定部によって決定された、前記原言語文の並び替えの正解と、前記特徴量抽出部によって抽出された、前記原言語文の構文木の各ノードについての特徴量とに基づいて、原言語文の構文木のノードの順序を反転させるか否かを決定するための並べ替えモデルを学習するステップと、
    前記統語解析部が、入力された原言語文である入力原言語文に基づいて、原言語の統語解析を行って、前記入力原言語文の構文木を生成するステップと、
    前記特徴量抽出部が、前記入力原言語文の構文木の各ノードについて、並べ替えを行うか否かの判定のための特徴量を抽出するステップと、
    前記単語並べ替え決定部が、前記特徴量抽出部によって抽出された、前記入力原言語文の構文木の各ノードについての特徴量と、学習された前記並べ替えモデルとに基づいて、前記入力原言語文の構文木のノードの順序を反転させるか否かを決定し、前記決定の結果に基づいて、前記入力原言語文の単語の並べ替えを行うステップと、
    を含み、
    前記並べ替え正解決定部が前記原言語文の並び替えの正解として決定するステップは、
    前記原言語文の構文木におけるノードの二個組の各々について、
    前記単語の対応付けの結果を用いて求められる、前記二個組の一方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列と、前記原言語文の単語列とに基づいて、第1の順位相関係数を算出し、
    前記二個組の他方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列と、前記原言語文の単語列とに基づいて、第2の順位相関係数を算出し、
    前記第1の順位相関係数と前記第2の順位相関係数とに基づいて、前記二個組の前記ノードの順序を決定する、
    単語並べ替え方法。
  5. 対訳となる原言語文及び目的言語文のペアに含まれる原言語文について、原言語の統語解析を行って、前記原言語文の構文木を生成する統語解析部と、
    前記原言語文及び前記目的言語文の間における単語の対応付けを行う単語対応付け部と、
    前記単語対応付け部による単語の対応付けの結果に基づいて、前記原言語文の構文木におけるノードの二個組の各々について、前記単語の対応付けの結果を用いて求められる、前記二個組の一方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列と、前記二個組の他方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列とに基づいて、前記二個組の前記ノードの順序を決定し、
    前記二個組の各々について前記決定された前記二個組の前記ノードの順序に基づいて、トポロジカルソートを用いて、前記原言語文の構文木における前記ノードの順序を決定し、前記決定されたノードの順序に対応する原言語の単語列を、単語の並び替えを学習するための学習データにおける、前記原言語文の並び替えの正解として決定する並べ替え正解決定部とを含み、
    前記並べ替え正解決定部は、
    前記原言語文の構文木におけるノードの二個組の各々について、
    前記単語の対応付けの結果を用いて求められる、前記二個組の一方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列と、前記原言語文の単語列とに基づいて、第1の順位相関係数を算出し、
    前記二個組の他方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列と、前記原言語文の単語列とに基づいて、第2の順位相関係数を算出し、
    前記第1の順位相関係数と前記第2の順位相関係数とに基づいて、前記二個組の前記ノードの順序を決定する、
    単語並べ替え学習装置。
  6. 対訳となる原言語文及び目的言語文のペアに含まれる原言語文について、原言語の統語解析を行って、前記原言語文の構文木を生成すると共に、入力された原言語文である入力原言語文に基づいて、原言語の統語解析を行って、前記入力原言語文の構文木を生成する統語解析部と、
    前記原言語文及び前記目的言語文の間における単語の対応付けを行う単語対応付け部と、
    前記単語対応付け部による単語の対応付けの結果に基づいて、前記原言語文の構文木におけるノードの二個組の各々について、前記単語の対応付けの結果を用いて求められる、前記二個組の一方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列と、前記二個組の他方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列とに基づいて、前記二個組の前記ノードの順序を決定し、
    前記二個組の各々について前記決定された前記二個組の前記ノードの順序に基づいて、トポロジカルソートを用いて、前記原言語文の構文木における前記ノードの順序を決定し、前記決定されたノードの順序に対応する原言語の単語列を、単語の並び替えを学習するための学習データにおける、前記原言語文の並び替えの正解として決定する並べ替え正解決定部と、
    前記並べ替え正解決定部によって並べ替えの正解が決定された、前記原言語文の構文木上の各ノードに対して、並べ替えを行うか否かの判定のための特徴量を抽出すると共に、前記入力原言語文の構文木の各ノードについて、並べ替えを行うか否かの判定のための特徴量を抽出する特徴量抽出部と、
    前記並べ替え正解決定部によって決定された、前記原言語文の並び替えの正解と、前記特徴量抽出部によって抽出された、前記原言語文の構文木の各ノードについての特徴量とに基づいて、原言語文の構文木のノードの順序を反転させるか否かを決定するための並べ替えモデルを学習する並べ替えモデル学習部と、
    前記特徴量抽出部によって抽出された、前記入力原言語文の構文木の各ノードについての特徴量と、学習された前記並べ替えモデルとに基づいて、前記入力原言語文の構文木のノードの順序を反転させるか否かを決定し、前記決定の結果に基づいて、前記入力原言語文の単語の並べ替えを行う単語並べ替え決定部と、
    を含み、
    前記並べ替え正解決定部は、
    前記原言語文の構文木におけるノードの二個組の各々について、
    前記単語の対応付けの結果を用いて求められる、前記二個組の一方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列と、前記原言語文の単語列とに基づいて、第1の順位相関係数を算出し、
    前記二個組の他方のノードを先頭にした順序での、前記二個組の前記ノードが表す前記原言語文の単語列に対応する前記目的言語文の単語列と、前記原言語文の単語列とに基づいて、第2の順位相関係数を算出し、
    前記第1の順位相関係数と前記第2の順位相関係数とに基づいて、前記二個組の前記ノードの順序を決定する、
    を含む単語並べ替え装置
  7. 請求項1〜請求項の何れか1項記載の単語並べ替え学習方法を構成する各ステップをコンピュータに実行させるためのプログラム。
  8. 求項記載の単語並べ替え方法を構成する各ステップをコンピュータに実行させるためのプログラム。
JP2016025253A 2016-02-12 2016-02-12 単語並べ替え学習方法、単語並べ替え方法、装置、及びプログラム Active JP6590723B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016025253A JP6590723B2 (ja) 2016-02-12 2016-02-12 単語並べ替え学習方法、単語並べ替え方法、装置、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016025253A JP6590723B2 (ja) 2016-02-12 2016-02-12 単語並べ替え学習方法、単語並べ替え方法、装置、及びプログラム

Publications (2)

Publication Number Publication Date
JP2017142758A JP2017142758A (ja) 2017-08-17
JP6590723B2 true JP6590723B2 (ja) 2019-10-16

Family

ID=59627263

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016025253A Active JP6590723B2 (ja) 2016-02-12 2016-02-12 単語並べ替え学習方法、単語並べ替え方法、装置、及びプログラム

Country Status (1)

Country Link
JP (1) JP6590723B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110489763B (zh) * 2019-07-18 2023-03-10 深圳市轱辘车联数据技术有限公司 一种视频翻译方法及装置
WO2022264404A1 (ja) * 2021-06-18 2022-12-22 富士通株式会社 翻訳方法、翻訳プログラム及び情報処理装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5734917B2 (ja) * 2012-05-30 2015-06-17 日本電信電話株式会社 並べ替えモデル学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラム
JP6103573B2 (ja) * 2012-06-11 2017-03-29 国立研究開発法人情報通信研究機構 翻訳装置、翻訳方法、およびプログラム
JP5843117B2 (ja) * 2013-12-04 2016-01-13 国立研究開発法人情報通信研究機構 学習装置、翻訳装置、学習方法、翻訳方法、およびプログラム

Also Published As

Publication number Publication date
JP2017142758A (ja) 2017-08-17

Similar Documents

Publication Publication Date Title
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
JP5774751B2 (ja) ツリーレット翻訳対の抽出
US8046211B2 (en) Technologies for statistical machine translation based on generated reordering knowledge
CN109670191B (zh) 机器翻译的校准优化方法、装置与电子设备
CN100527125C (zh) 一种统计机器翻译中的在线翻译模型选择方法和系统
JP5586817B2 (ja) ツリーレット翻訳対の抽出
CN107391495B (zh) 一种双语平行语料的句对齐方法
CN105068997B (zh) 平行语料的构建方法及装置
CN111353306B (zh) 基于实体关系和依存Tree-LSTM的联合事件抽取的方法
CN109857846B (zh) 用户问句与知识点的匹配方法和装置
CN110442880B (zh) 一种机器翻译译文的翻译方法、装置及存储介质
CN109033085B (zh) 中文分词系统及中文文本的分词方法
JP6590723B2 (ja) 単語並べ替え学習方法、単語並べ替え方法、装置、及びプログラム
Wax Automated grammar engineering for verbal morphology
JP6535607B2 (ja) 前処理モデル学習装置、方法、及びプログラム
CN110991193A (zh) 一种基于OpenKiWi的翻译矩阵模型选择系统
JP2013054607A (ja) 並べ替え規則学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラム
JP5391867B2 (ja) 翻訳装置及び翻訳プログラム
JP5734917B2 (ja) 並べ替えモデル学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラム
İnce Spell checking and error correcting application for Turkish
JP5780670B2 (ja) 翻訳装置、方法、及びプログラム、並びに翻訳モデル学習装置、方法、及びプログラム
JP6564709B2 (ja) 文書き換え装置、方法、及びプログラム
JP6613666B2 (ja) 単語並べ替え学習装置、単語並べ替え装置、方法、及びプログラム
JP5544518B2 (ja) 機械翻訳装置、機械翻訳方法、およびそのプログラム
Kondo et al. Hidden markov tree model for word alignment

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190212

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190409

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190910

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190917

R150 Certificate of patent or registration of utility model

Ref document number: 6590723

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150