JP2013054607A - 並べ替え規則学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラム - Google Patents

並べ替え規則学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラム Download PDF

Info

Publication number
JP2013054607A
JP2013054607A JP2011193366A JP2011193366A JP2013054607A JP 2013054607 A JP2013054607 A JP 2013054607A JP 2011193366 A JP2011193366 A JP 2011193366A JP 2011193366 A JP2011193366 A JP 2011193366A JP 2013054607 A JP2013054607 A JP 2013054607A
Authority
JP
Japan
Prior art keywords
translation
rearrangement
learning
node
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011193366A
Other languages
English (en)
Other versions
JP5552101B2 (ja
Inventor
Xianchao Wu
センチョウ ゴ
Katsuto Sudo
克仁 須藤
Do Kevin
ドゥ ケヴィン
Hajime Tsukada
元 塚田
Masaaki Nagata
昌明 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011193366A priority Critical patent/JP5552101B2/ja
Publication of JP2013054607A publication Critical patent/JP2013054607A/ja
Application granted granted Critical
Publication of JP5552101B2 publication Critical patent/JP5552101B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】文法的な構造を分断してしまうような並べ替えを抑制し、高精度な機械翻訳を行う。
【解決手段】入力文解析部54で、翻訳元言語で記述された入力文が、文節各々及び文節間の係り受け関係を示すノードを含んで構成され、ノードに対応する文節内に存在する機能語を示すラベルがノード各々に付与された構文木で表現されるように、入力文を解析する。並べ替え部56で、解析された構文木に対して並べ替え規則42を適用して、入力文を並べ替える。並べ替え規則42は、構文木における部分木の複数の子ノードを並べ替えるための並べ替え規則であって、子ノードに付与されたラベルで示される文節内の機能語と翻訳先言語の文法とによる制約と、翻訳元言語と翻訳先言語との単語対応及び翻訳先言語の構文解析結果による制約とが考慮されている。翻訳処理部58は、並べ替え部56で並べ替えられた入力文を翻訳モデル46に基づいて、翻訳先言語に翻訳する。
【選択図】図1

Description

本発明は、並べ替え規則学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラムに係り、特に、入力側の言語(以下、「翻訳元言語」という)の単語や句を、出力側の言語(以下、「翻訳先言語」という)の語順に近づくように並べ替えるための並べ替え規則を学習する並べ替え規則学習装置、方法、及びプログラム、並びに学習された並べ替え規則を利用して翻訳元言語を翻訳先言語に翻訳する翻訳装置、方法、及びプログラムに関する。
従来、翻訳元言語の文を翻訳先言語の文に機械翻訳することが行われている。このような機械翻訳において、例えば、日本語と英語のような語順の大きく異なる言語間の翻訳は、語順に大きな異なりがない言語間での翻訳と比べて難しい問題である。特に、統計モデルを利用して機械翻訳を実現する統計的機械翻訳の技術においては、様々に語順を入れ替えて最適な翻訳結果を探索する必要があり、その場合分けの数は理論的には入力単語数の階乗個に及ぶため、より顕著な問題である。従来の統計的機械翻訳の技術においては、最大の単語や句の並べ替え距離を事前に設定し、探索範囲を限定するという近似的解法が一般的に利用されている。しかしながら、このような手法では、例えば長い名詞句を目的語とするような英文の日本語への翻訳において、動詞句が日本語として望ましい文末の位置に来るような句の並べ替えが探索できず、誤った位置に出現するようなことが起こり得る。
こうした問題に対処する別の方法として、翻訳元言語の単語や句を翻訳前に翻訳先言語の語順に近づくように並べ替える「事前並べ替え(pre-ordering)」と呼ばれる技術が提案されている(例えば、非特許文献1参照)。このような技術では、一般的に翻訳元言語の文に対して構文解析を行い、構文木の親ノードに接続する複数の子ノードの順序を入れ替える操作によって、単語や句の並べ替えを実現する。順序の入れ替えは別途作成した規則集合を利用する手法(例えば、非特許文献1参照)、対訳文集合から自動的に規則を抽出する手法(例えば、非特許文献2参照)、並べ替えに関する統計モデルを推定する手法(例えば、非特許文献3参照)が広く知られている。これらの従来の事前並べ替えの手法では、句構造文法を用いた構文解析または単語単位の依存構造(係り受け)解析を利用して並べ替え規則や統計モデルが学習されている。
Hideki Isozaki, Katsuhito Sudoh, Hajime Tsukada, and Kevin Duh. Head Finalization, "A Simple Reordering Rule for SOV Languages.", Proceedings of WMT-MetricsMATR 2010. pp. 244-251. 2010. Dmitriy Genzel, "Automatically Learning Source-side Reordering Rules for Large Scale Machine Translation.", Proceedings of COLING-2010. pp. 376-384. 2010. Chi-Ho Li, Dongdong Zhang, Mu Li, Ming Zhou, Minghui Li, and Yi Guan, "A Probabilistic Approach to Syntax-based Reordering for Statistical Machine Translation.", Proceedings of ACL 2007, pages 720-727. 2007.
しかしながら、日本語の構文解析においては、文節を単位とする依存構造解析が広く使われており、従来の単語単位の構文構造とは異なることから、前述の方法を直接利用することが難しく、また、文節の並べ替えによって翻訳元言語または翻訳先言語の文法的な構造が分断される場合があり、翻訳精度を向上させることができない、という問題があった。
本発明は上記問題点に鑑みてなされたものであり、文法的な構造を分断してしまうような並べ替えを抑制し、高精度な機械翻訳を行うための並べ替え規則を学習することができる並べ替え規則学習装置、方法、及びプログラム、並びに学習された並べ替え規則を利用して高精度な機械翻訳を行うことができる翻訳装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明の並べ替え規則学習装置は、翻訳元言語で記述された学習用翻訳元文を解析して、該学習用翻訳元文が、文節各々及び文節間の係り受け関係を示すノードを含んで構成され、該ノードに対応する文節内に存在する機能語を示すラベルが該ノード各々に付与された構文木で表現された解析結果を得る翻訳元解析手段と、前記翻訳元解析手段で得られた前記構文木に含まれ、かつ親ノード及び複数の子ノードを有する部分木の複数の子ノードを並べ替えるための並べ替え規則であって、該部分木の構造、該子ノードに付与されたラベルで示される文節内の機能語、及び翻訳元言語と翻訳先言語との単語対応付けにより制約される並べ替え規則を学習する学習手段と、を含んで構成されている。
本発明の並べ替え規則学習装置によれば、翻訳元解析手段が、翻訳元言語で記述された学習用翻訳元文を解析して、学習用翻訳元文が、文節各々及び文節間の係り受け関係を示すノードを含んで構成され、ノードに対応する文節内に存在する機能語を示すラベルがノード各々に付与された構文木で表現された解析結果を得る。そして、学習手段が、翻訳元解析手段で得られた構文木に含まれ、かつ親ノード及び複数の子ノードを有する部分木の複数の子ノードを並べ替えるための並べ替え規則であって、部分木の構造、子ノードに付与されたラベルで示される文節内の機能語、及び翻訳元言語と翻訳先言語との単語対応付けにより制約される並べ替え規則を学習する。
このように、文節間の係り受け関係を示す構文木における部分木の子ノードを並べ替える際に、部分木の構造、子ノードに付与されたラベルで示される文節内の機能語、及び翻訳元言語と翻訳先言語との単語対応付けにより制約されるため、文節などの数語からなる単語列を単位とする依存構造を利用しながら、文法的な構造を分断してしまうような並べ替えを抑制し、高精度な機械翻訳を行うための並べ替え規則を学習することができる。
また、本発明の並べ替え規則学習装置は、前記学習用翻訳元文と対訳を成す前記翻訳先言語で記述された学習用翻訳先文を構文解析する翻訳先解析手段を更に含んで構成することができ、前記学習手段は、前記翻訳先解析手段の解析結果に基づいて、前記部分木の複数の子ノード各々に対応する文節に含まれる単語群に対応する前記学習用翻訳先文の単語群が、該翻訳先言語の文法上の区切りとなる単位に一致する部分木を用いて、前記並べ替え規則を学習することができる。これにより、より精緻な並べ替え規則を学習することができる。
また、上記目的を達成するために、本発明の翻訳装置は、翻訳元言語で記述された入力文を解析して、該入力文が、文節各々及び文節間の係り受け関係を示すノードを含んで構成され、該ノードに対応する文節内に存在する機能語を示すラベルが該ノード各々に付与された構文木で表現された解析結果を得る入力文解析手段と、親ノード及び複数の子ノードを有する部分木の複数の子ノードを並べ替えるための並べ替え規則であって、該部分木の構造、該子ノードに付与されたラベルで示される文節内の機能語、及び翻訳元言語と翻訳先言語との単語対応付けにより制約される並べ替え規則を適用して、前記入力文解析手段で得られた構文木に含まれる部分木の子ノードを並べ替えることにより、前記入力文を並べ替える並べ替え手段と、前記並べ替え手段により並べ替えられた入力文を、並べ替え後の翻訳元言語の文を翻訳先言語に翻訳するための翻訳モデルに基づいて、翻訳先言語に翻訳する翻訳手段と、を含んで構成されている。
本発明の翻訳装置によれば、入力文解析手段が、翻訳元言語で記述された入力文を解析して、入力文が、文節各々及び文節間の係り受け関係を示すノードを含んで構成され、ノードに対応する文節内に存在する機能語を示すラベルがノード各々に付与された構文木で表現された解析結果を得る。そして、並べ替え手段が、親ノード及び複数の子ノードを有する部分木の複数の子ノードを並べ替えるための並べ替え規則であって、部分木の構造、子ノードに付与されたラベルで示される文節内の機能語、及び翻訳元言語と翻訳先言語との単語対応付けにより制約される並べ替え規則を適用して、入力文解析手段で得られた構文木に含まれる部分木の子ノードを並べ替えることにより、入力文を並べ替え、翻訳手段が、並べ替え手段により並べ替えられた入力文を、並べ替え後の翻訳元言語の文を翻訳先言語に翻訳するための翻訳モデルに基づいて、翻訳先言語に翻訳する。
このように、文節間の係り受け関係を示す構文木における部分木の子ノードを並べ替える際に、部分木の構造、子ノードに付与されたラベルで示される文節内の機能語、及び翻訳元言語と翻訳先言語との単語対応付けにより制約された並べ替え規則を用いて事前並べ替えを行うため、文節などの数語からなる単語列を単位とする依存構造を利用しながら、文法的な構造を分断してしまうような並べ替えを抑制し、高精度な機械翻訳を行うことができる。
また、前記並べ替え手段は、上記の並べ替え規則学習装置により学習された並べ替え規則を適用して、前記入力文を並べ替えることができる。
また、本発明の並べ替え規則学習方法は、翻訳元解析手段と、学習手段とを含む並べ替え規則学習装置における並べ替え規則学習方法であって、前記翻訳元解析手段は、翻訳元言語で記述された学習用翻訳元文を解析して、該学習用翻訳元文が、文節各々及び文節間の係り受け関係を示すノードを含んで構成され、該ノードに対応する文節内に存在する機能語を示すラベルが該ノード各々に付与された構文木で表現された解析結果を得、前記学習手段は、前記翻訳元解析手段で得られた前記構文木に含まれ、かつ親ノード及び複数の子ノードを有する部分木の複数の子ノードを並べ替えるための並べ替え規則であって、該部分木の構造、該子ノードに付与されたラベルで示される文節内の機能語、及び翻訳元言語と翻訳先言語との単語対応付けにより制約される並べ替え規則を学習する方法である。
また、翻訳先解析手段を更に含む並べ替え規則学習装置における並べ替え規則学習方法においては、前記翻訳先解析手段は、前記学習用翻訳元文と対訳を成す前記翻訳先言語で記述された学習用翻訳先文を構文解析し、前記学習手段は、前記翻訳先解析手段の解析結果に基づいて、前記部分木の複数の子ノード各々に対応する文節に含まれる単語群に対応する前記学習用翻訳先文の単語群が、該翻訳先言語の文法上の区切りとなる単位に一致する部分木を用いて、前記並べ替え規則を学習することができる。
また、本発明の翻訳方法は、入力文解析手段と、並べ替え手段と、翻訳手段とを含む翻訳装置における翻訳方法であって、前記入力文解析手段は、翻訳元言語で記述された入力文を解析して、該入力文が、文節各々及び文節間の係り受け関係を示すノードを含んで構成され、該ノードに対応する文節内に存在する機能語を示すラベルが該ノード各々に付与された構文木で表現された解析結果を得、前記並べ替え手段は、親ノード及び複数の子ノードを有する部分木の複数の子ノードを並べ替えるための並べ替え規則であって、該部分木の構造、該子ノードに付与されたラベルで示される文節内の機能語、及び翻訳元言語と翻訳先言語との単語対応付けにより制約される並べ替え規則を適用して、前記入力文解析手段で得られた構文木に含まれる部分木の子ノードを並べ替えることにより、前記入力文を並べ替える並べ替え、前記翻訳手段は、前記並べ替え手段により並べ替えられた入力文を、並べ替え後の翻訳元言語の文を翻訳先言語に翻訳するための翻訳モデルに基づいて、翻訳先言語に翻訳する方法である。
また、本発明の翻訳方法において、前記並べ替え手段は、上記の並べ替え規則学習装置により学習された並べ替え規則を適用して、前記入力文を並べ替えることができる。
また、本発明の並べ替え規則学習プログラムは、コンピュータを、上記の並べ替え規則学習装置を構成する各手段として機能させるためのプログラムである。
また、本発明の翻訳プログラムは、コンピュータを、上記の翻訳装置を構成する各手段として機能させるためのプログラムである。
以上説明したように、本発明の並べ替え規則学習装置、方法、及びプログラムによれば、文節間の係り受け関係を示す構文木における部分木の子ノードを並べ替える際に、部分木の構造、子ノードに付与されたラベルで示される文節内の機能語、及び翻訳元言語と翻訳先言語との単語対応付けにより制約されるため、文節などの数語からなる単語列を単位とする依存構造を利用しながら、文法的な構造を分断してしまうような並べ替えを抑制し、高精度な機械翻訳を行うための並べ替え規則を学習することができる、という効果が得られる。
また、本発明の翻訳装置、方法、及びプログラムによれば、文節間の係り受け関係を示す構文木における部分木の子ノードを並べ替える際に、部分木の構造、子ノードに付与されたラベルで示される文節内の機能語、及び翻訳元言語と翻訳先言語との単語対応付けにより制約された並べ替え規則を用いて事前並べ替えを行うため、文節などの数語からなる単語列を単位とする依存構造を利用しながら、文法的な構造を分断してしまうような並べ替えを抑制し、高精度な機械翻訳を行うことができる、という効果が得られる。
本実施の形態の翻訳装置の機能的構成を示すブロック図である。 本実施の形態の翻訳装置における学習処理ルーチンの内容を示すフローチャートである。 翻訳元言語の解析処理ルーチンの内容を示すフローチャートである。 依存構造解析結果の構文木への変換を説明するための図である。 並べ替え規則学習処理ルーチンの内容を示すフローチャートである。 本実施の形態の翻訳装置における翻訳処理ルーチンの内容を示すフローチャートである。 日本語(翻訳元言語)の文の例を示す図である。 日本語の依存構造解析結果ファイルの一例を示す図である。 並べ替え規則の一例を示す図である。 英語(翻訳先言語)の文の例を示す図である。 英語の構文解析結果の一例を示す図である。 英語の構文木、英語と日本語との単語対応付け結果、及び日本語の依存構造の一例を示す図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。本実施の形態では、翻訳元言語を日本語、翻訳先言語を英語とした場合の並べ替え規則の学習、及び翻訳について説明する。
本実施の形態に係る翻訳装置10は、CPUと、RAMと、後述する学習処理及び翻訳処理ルーチンを実行するためのプログラムを記憶したROMと、を備えたコンピュータで構成されている。また、記憶手段としてのHDDを含んで構成するようにしてもよい。このコンピュータは、機能的には、図1に示すように、学習部20と、翻訳部50とを含んだ構成で表すことができる。
学習部20は、さらに、翻訳元言語解析部22と、翻訳先言語解析部24と、単語対応付け部26と、並べ替え規則学習部28と、翻訳学習部30とを含んだ構成で表すことができる。
翻訳元言語解析部22は、対訳文(日本語)データベース32に含まれる翻訳元言語である日本語で記述された複数の文に対して、形態素解析及び構文解析を行う。構文解析は文節単位で行い、文節間の係り受け関係を構文木として表現する。より具体的には、翻訳元言語の文を、翻訳元言語の文の文節各々及び文節間の係り受け関係を示すノードで構成され、ノード各々にラベルが付与された構文木(係り受け解析木34)で表現する。各ノードに付与されるラベルは、そのノードに対応する文節に含まれる主辞単語の品詞や、そのノードに含まれる機能語(日本語の場合は「助詞」)の情報が含まれる。
翻訳先言語解析部24は、対訳文(英語)データベース36に含まれる翻訳先言語である英語で記述された複数の文に対して、形態素解析及び構文解析を行う。ここで、対訳文(日本語)データベース32内の文と、対訳文(英語)データベース36内の文とは対訳を成す。本発明において、翻訳先言語を解析することは必須の機能ではないが、本実施の形態では、並べ替え規則の精緻化のために、翻訳先言語についても言語解析を行い、その情報を並べ替え規則の学習に利用する。言語解析の方法については、翻訳元言語解析部22と言語の違いを除いて同様であり、解析結果として、構文解析木38を得る。
単語対応付け部26は、翻訳元言語の文と翻訳先言語の文との間で、双方の単語対応を与える。翻訳元言語の文節をどのように並べ替えれば翻訳先言語の語順に近くなるかは、双方の単語同士の対応関係をもとに定義することができる。機械翻訳における事前並べ替えの目的は、翻訳時に語順の入れ替えを考慮せずに済むようにすることであり、単語の対応関係が交差することがなくなるように並べ替えをすればよい。従って、単語対応付け部26では、単語の対応関係が交差しないような並べ替えの正解を得るために、単語同士の対応関係を明らかにする。例えば、統計的機械翻訳の分野で非常に広く知られた自動単語対応付けの技術(例えば、非特許文献4「Peter F. Brown, Stephen A. Della Pietra, Vincent J. Della Pietra, and Robert L. Mercer, "The mathematics of statistical machine translation", Parameter estimation. Computational Linguistics, vol. 19 no.2, pages 263-311. 1993.」参照)によって、単語同士の対応関係(単語アライメント40)を求める。
並べ替え規則学習部28は、翻訳元言語解析部22で作成された係り受け解析木34、翻訳先言語解析部で作成された構文解析木38、及び単語対応付け部26で求められた単語アライメント40に基づいて、翻訳元言語の文の単語や句の並べ替え規則を学習する。翻訳元言語解析部22で作成された係り受け解析木34の各部分木に対して、部分木の子ノードの並べ替えが必要か不要かを判定し、その結果を並べ替えパターンとして抽出する。部分木の構造としては、一般的には、ある構文木のノード(親ノード)とその親ノードに(直接)接続される子ノード全て、または全ての孫ノードや全ての曾孫ノードまで含む深い構造を考えることができる。部分木に含まれる各ノードには、翻訳元言語解析部22によりラベルが付加されており、ラベルが示す情報を並べ替えに関する情報(特徴量)として用いることができる。特に、各ノードのラベルが示す情報には、文節内の機能語の情報が含まれている。この部分木の構造、ラベルで示される文節内の機能語、及び翻訳元言語と翻訳先言語との単語対応付けにより、子ノードの並べ替えは制約される。従って、このような情報を特徴量として用いて並べ替え規則を学習することで、文節の文法的な役割を考慮した精緻な並べ替えパターンを抽出することができる。
また、並べ替え規則学習部28は、より精緻な並べ替え規則を学習するために、単語対応付け部26で求められた単語アライメント40に基づいて、部分木の子ノードを並べ替えた場合に、その子ノードに対応する文節内の単語に対応する翻訳先言語の単語の単語位置の順序が昇順に近づくような並べ替えパターンを抽出する。また、翻訳先言語解析部24で作成された構文解析木38に基づいて、部分木の子ノードに対応する文節に含まれる単語群に対応する翻訳先言語の単語群が、翻訳先言語の文法上の区切りの単位(句、文節、部分木等の句構造の単位)と合致するか否かを判定して、文法上適切な並べ替えパターンを抽出する。
ここで、抽出された並べ替えパターンは、相互に矛盾するものが存在し得る。同じ部分木の構造であっても、対応する訳文の違いにより、並べ替えが必要な場合もあれば不要な場合もあるためである。そこで、並べ替え規則学習部28は、抽出した並べ替えパターンの頻度を利用して確率的または決定的な並べ替え規則42を構成する。
翻訳学習部は30、並べ替えられた翻訳元言語の文と翻訳先言語の文の並行コーパスを用いて、翻訳モデル46を作成する。翻訳先言語の語順に近づけた翻訳元言語の文を翻訳するため、通常翻訳モデルの学習に利用する翻訳元言語と翻訳先言語の並行コーパスのうちの翻訳元言語の文に対して並べ替えを適用し、並べ替えられた翻訳元言語(対訳文(並べ替えた日本語)44)と翻訳先言語(対訳文(英語)36)との並行コーパスを用いて学習する。対訳文(並べ替えた日本語)44の生成には、前述の並べ替え規則学習部28で用いた、単語アライメント40に基づく並べ替えの正解を用いてもよいし、学習された並べ替え規則42を適用してもよい。前者の場合には、追加の計算が不要で、かつ並べ替えが正確であることが保証されるが、翻訳時に後述する並べ替え部56で得られる並べ替え結果とは異なる結果となる可能性がある。一方、後者は、並べ替え処理を改めて行う必要があるが、翻訳時の並べ替え部56と同様の並べ替えが適用されることが保証される。簡便性を重視する場合には、前者を選択することとなるが、本実施の形態では、後者を利用する場合について説明する。
翻訳学習部30は、上記のように生成された対訳文(並べ替えた日本語)44と、翻訳先言語(対訳文(英語)36)との並行コーパスを利用して、統計的な翻訳モデルを学習する。学習の手法は、従来既知の学習手法(例えば、非特許文献5「Phillip Koehn, Franz Josef Och, and Daniel Marcu. 2003. "Statistical Phrase-based Translation." In Proc. HLT-NAACL, pages 263-270.」参照)を適用可能である。
翻訳部50は、さらに、入力部52と、入力文解析部54と、並べ替え部56と、翻訳処理部58と、出力部60とを含んだ構成で表すことができる。
入力部52は、入力文(翻訳元言語の文、ここでは日本語の文)を図示しない入力装置またはネットワーク等を介して外部から受け取り、必要な前処理を施す。前処理としては、例えば、HTMLやXMLなどのタグの除去、表記の正規化などがあり、後段の処理で前提としている入力形式に変換する処理を行う。
入力文解析部54は、学習部20の翻訳元言語解析部22と同様に、入力文に対して、形態素解析及び文節単位の構文解析を行い、入力文を、機能語の情報を含むラベルが付与されたノードで構成され、文節間の係り受け関係を表現した構文木で表現する。
並べ替え部56は、入力文解析部54で作成された構文木に対して、並べ替え規則学習部28で学習された並べ替え規則42を順次適用する。例えば、構文木から順次部分木を抽出し、抽出した部分木の子ノードを並べ替えることにより得られる入力文の全ての並べ替え候補に対して、並べ替え規則42を適用することにより得られるスコアに基づいて、並べ替え結果を決定する。並べ替え規則42が非決定的である場合は、複数の並べ替え結果候補を生成した後、最適な並べ替え結果候補を選択する。また、全ての並べ替え候補のうち、上述の並べ替え規則学習部28での並べ替えパターンの抽出時と同様に、機能語と翻訳先言語の文法とにより制約された並べ替え候補を抽出するようにしてもよい。
翻訳処理部58は、翻訳学習部30で学習された翻訳モデル46を用いて、並べ替え部56で並べ替えられた入力文を翻訳する。翻訳処理部58の機能は、一般的な統計的機械翻訳の技術(例えば、非特許文献4)を適用することができる。
出力部60は、翻訳処理部58による翻訳結果に後処理を施し、図示しない出力装置またはネットワーク等によって外部に出力する。後処理としては、入力部52の前処理で削除したXMLやHTMLタグなどの復元や追加などがある。
次に、本実施の形態の翻訳装置10の作用について説明する。まず、学習処理を実行することにより、並べ替え規則42及び翻訳モデル46を学習する。そして、この学習された並べ替え規則42及び翻訳モデル46を用いて翻訳処理を実行して、入力された翻訳元言語の入力文を翻訳先言語に翻訳する。
ここで、図2を参照して、本実施の形態の翻訳装置10において実行される学習処理ルーチンについて説明する。
ステップ100で、翻訳元言語の解析処理を実行する。ここで、図3を参照して、翻訳言語の解析処理ルーチンについて説明する。
ステップ102で、対訳文(日本語)データベース32に含まれる翻訳元言語である日本語で記述された複数の文に対して、形態素解析(単語区切り及び品詞の同定)を行う。また、形態素解析された入力文に対して、句構造文法を用いた構文解析や依存構造解析を行う。ここでは、「状態遷移情報データベース26は前記したWFSTデータベースに相当する。」という翻訳元言語の文に対して、以下のような解析結果が得られたとする。
・(文節0)状態遷移情報データベース[主辞単語/名詞] →文節1に係る
・(文節1)26[主辞単語/名詞]は →文節4に係る
・(文節2)前記し[主辞単語/動詞]た →文節3に係る
・(文節3)WFSTデータベース[主辞単語/名詞]に →文節4に係る
・(文節4)相当する[主辞単語]。 →係り先がない=文の主辞文節
ここで、[ ]は、[ ]前の単語がその文節を代表する主辞単語であること、及びその主辞単語の品詞を表している。そして、ステップ104〜126で、図4に示すように、上記ステップ102の解析結果を構文木(係り受け解析木34)へ変換する。
詳細には、ステップ104で、文の主辞となる(係り先のない)主辞文節Aを選択する。上記の例では、文節4が選択される。
次に、ステップ106で、上記ステップ104で選択した主辞文節Aに係る文節が存在するか否かを判定する。存在する場合には、主辞文節Aに係る文節を文節Bi(i=1,2,・・・,n、nは文節Bの総数)として、ステップ108へ移行する。文節Bが存在しない場合には、ステップ126へ移行する。ここでは、文節1が“B1”、文節3が“B2”として設定されて、ステップ108へ移行する。
ステップ108では、主辞文節Aを示すノードNにラベルを付与し、主辞文節Aに対応する新たなノードN’を作成してラベルを付与し、ノードNとノードN’とを接続する。ここで、文節を示すノード(ここではノードN)に付与されるラベルは、以下のように決定することができる。
(a)そのノードに対応する文節が動詞を含む場合は、動詞を表すラベル
(b)そのノードに対応する文節が動詞を含まない場合は、その文節内の主辞単語の品詞を表すラベル
(c)そのノードに対応する文節が機能語を含む場合は、その機能語を上記(1)または(2)のラベルの後に追加する。
また、文節に対応して新たに作成されたノード(ここではノードN’)に付与されるラベルは、上記(a)または(b)に替えてラベル「X」とし、更に上記(c)を追加する。従って、ここでは、ノードNにはラベル「動詞」が付与され、ノードN’にはラベル「X」が付与される。
次に、ステップ110で、上記ステップ106で設定された文節Bの識別番号を示す変数iに1をセットし、次のステップ112で、文節Biに係る文節が存在するか否かを判定する。存在する場合には、文節Biに係る文節を文節bij(j=1,2,・・・,m、mは文節biの総数)として、ステップ114へ移行する。文節biが存在しない場合には、ステップ122へ移行する。ここでは、文節0が“b11”として設定されて、ステップ114へ移行する。文節Biは、依存構造階層における一階層下での主辞文節であるので、再帰的に以下の処理を実行し、文節Biを主辞文節とする構文木のノードNBiを生成するものである。
ステップ114では、文節Biを示すノードNBiにラベルを付与し、文節Biに対応する新たなノードNBi’を作成してラベルを付与し、ノードNBiとノードNBi’とを接続する。さらに、上記ステップ108で文節Biの係り先の文節に対応して新たに作成されたノード(ここではN’)とノードNBi’とを接続する。各ノードに付与されるラベルは、上記ステップ108と同様である。従って、ここでは、ノードNBiには、ノードNBiに対応する文節1の主辞単語の品詞「名詞」に、文節1に含まれる機能語「は」が追加されて、ラベル「名詞は」が付与される。ノードNBi’にはラベル「Xは」が付与される。
次に、ステップ116で、変数iがnになったか否かを判定することにより、全ての文節Biについて処理が終了したか否かを判定する。i≠nの場合には、ステップ118へ移行して、変数iを1インクリメントして、ステップ112へ戻る。文節B2=文節3について同様に処理して、文節2が“b21”として設定され、文節B2を示すノードNB2にラベル「名詞に」が付与され、文節B2に対応する新たなノードNB2’にラベル「Xに」が付与される。
ステップ116で、i=nとなったと判定された場合には、ステップ120へ移行して、文節bijの識別番号をBiに置き換える。ここでは、文節0が“b11”→“B1”に、文節2が“b21”→“B2”に置き換えられる。そして、ステップ110へ戻り、変数iに1をセットして、ステップ112〜116の処理を繰り返す。文節B1(文節b11)=文節0についての処理では、文節0に係る文節がないため、ステップ112で否定判定されて、ステップ122へ移行する。
ステップ122では、文節Bi(置き換え前の文節bij)を示すノードNbijにラベルを付与し、上記ステップ114で文節Biの係り先の文節に対応して新たに作成されたノードNBi’とノードNbijとを接続する。各ノードに付与されるラベルは、上記ステップ108と同様である。従って、ここでは、ノードNb11に、ラベル「名詞」が付与される。
次に、ステップ124で、変数iがnになったか否かを判定することにより、全ての文節Biについて処理が終了したか否かを判定する。i≠nの場合には、ステップ118へ移行して、変数iを1インクリメントして、ステップ112へ戻る。文節B2(置き換え前の文節b21)=文節2について同様に処理して、ノードNb21にラベル「動詞」が付与される。本ステップにおいて、i=nとなった場合には、学習処理(図2)へリターンする。
また、上記ステップ106で否定判定されてステップ126へ移行した場合には、主辞文節Aを示すノードNにラベルを付与し、学習処理(図2)へリターンする。
なお、上記ステップ102で実行される構文解析が、文節間の係り受けの二項関係を求めるものである場合には、実装によっては構文木の構造を返さない場合もあるため、上記ステップ104〜126の構文木への変換処理を実行する。ただし、上記ステップ102で実行される構文解析が、句構造文法による解析であれば構文木が得られるため、上記ステップ104〜126の処理を省略することができる。
次に、学習処理のステップ200では、翻訳先言語の解析処理を実行して、構文解析木38を得る。処理については、言語の違いを除いて上記ステップ100の翻訳元言語の解析処理と同様であるため、説明を省略する。
次に、ステップ300で、上記ステップ100の翻訳元言語の文に対する形態素解析の結果と、上記ステップ200の翻訳先言語の文に対する形態素解析の結果とに基づいて、翻訳元言語の文と翻訳先言語の文との単語対応付けを行い、単語アライメント40を求める。単語アライメント40は、例えば、翻訳元言語及び翻訳先言語各々の文の先頭を0とし、文の末尾に向かって昇順の自然数で与えられる単語位置を用いて、対応する単語同士を“−”で接続して羅列したものとすることができる。
次に、ステップ400で、並べ替え規則学習処理を実行する。ここで、図5を参照して、並べ替え規則学習処理ルーチンについて説明する。
ステップ402で、上記ステップ100で作成された構文木(係る受け解析木34)から親ノードR及び複数の子ノードCi(i=1,2,・・・,n)を有する部分木R−Ciを抽出する。
次に、ステップ404で、子ノードCiに付与されたラベルが示す機能語の情報と、翻訳先言語の文法との関係に基づいて、並べ替えパターン候補を抽出する。例えば、図4に示す構文木から、親ノードR=N’、子ノードC1=NB1’、子ノードC2=NB2’、子ノードC3=Nとする部分木を抽出した場合について説明する。この場合、子ノードC1にはラベル「Xは( “は”は機能語)」、子ノードC2にはラベル「Xに(“に”は機能語)」、子ノード「C3」にはラベル「動詞」が付与されている。ここから、「Xは」は主語を表す文節に対応しており、「Xに」は目的語を表す文節に対応していることが分かる。従って、翻訳先言語である英語の語順から、許される子ノードの並び順として、C1−C3−C2が並べ替えパターン候補として抽出される。仮に、各ノードにラベルが付与されていない場合、または品詞の情報だけで機能語に関する情報を有さない場合には、C3−C1−C2等の翻訳先言語の文法上適切でない並べ替えパターンまで抽出されてしまう。このように機能語の情報を利用することで、文法上適切でない並べ替えパターンが抽出されることを抑制することができる。
次に、ステップ406で、上記ステップ300で求められた単語アライメント40を用いて、子ノードCiの子孫にある文節に含まれる翻訳元言語の単語位置の集合Sij(j=1,2,・・・,m)を求める。また、Sijに対応する翻訳先言語の単語群Eiの単語位置の集合Tik(k=1,2,・・・,l)を求める。
次に、ステップ408で、上記ステップ406で求めた単語位置Sij及び単語位置Tikに基づいて、上記ステップ404で抽出した並べ替えパターン候補の中から最適な並べ替えを決定する。例えば、以下の手順により最適な並べ替えを決定することができる。
(1)子ノードCiの中から2つの子ノード(CL、CR)を選択する。
(2)子ノードCLに対応する単語位置TLkの半数以上が、子ノードCRに対応する単語位置TRkの最大値を超える場合は、子ノードCLを子ノードCRよりも後ろに並べ替える。
(3)子ノードCRに対応する単語位置TRkの半数以上が、子ノードCLに対応する単語位置TLkの最大値を超える場合は、子ノードCLを子ノードCRよりも前に並べ替える。
(4)上記(2)及び(3)のいずれでもない場合には、元の順序を保持する。
上記(1)〜(4)を、全ての子ノードの組み合わせに対して行うことで、最適な並べ替えを決定することができる。ただし、最適な並べ替えの決定については、単語対応付けの信頼度に基づいて単語対応の制約を緩和し頑健性を向上するなどの対処(非特許文献3参照)も可能であり、上記で説明した方法に限定されるものではない。
次に、ステップ410で、子ノードCiに対応する翻訳先言語の単語群Eiが、翻訳先言語の文法上の区切りとなる単位、例えば、句、文節、部分木等の句構造の単位に合致するか否かを判定する。単語群Eiが句構造の単位に合致する場合には、ステップ412へ移行して、上記ステップ408で決定した最適な並べ替えを並べ替えパターンとして抽出する。一方、単語群Eiが句構造の単位に合致しない場合には、並べ替えパターンを抽出することなくステップ414へ移行する。
ステップ414では、翻訳元言語の構文木から全ての部分木を抽出したか否かを判定する。まだ抽出していない部分木が存在する場合には、ステップ402へ戻って、処理を繰り返す。全ての部分木について抽出及び処理が終了している場合には、ステップ416へ移行する。
ステップ416では、上記ステップ412で抽出された並べ替えパターンの頻度を利用して、確率的または決定的な並べ替え規則を学習する。例えば、確率的な規則を学習する場合には、ある部分木sから得られた並べ替えパターンtがK個(t,t,・・・,t)あったとすると、部分木sに並べ替えパターンtk(1≦k≦K)を適用して並べ替える確率は、下記(1)式となる。
Figure 2013054607
この確率を各並べ替えパターンのスコアとして付与して、並べ替え規則として構成する。また、確率分布の平滑化等により、学習データによる偏りを抑制するような仕組みを導入してもよい。また、並べ替え規則を決定的に構成する場合には、上記の確率が最大となる並べ替えパターンのみを並べ替え規則として採用すればよい。並べ替え規則の学習が終了した場合には、学習処理(図2)へリターンする。
次に、学習処理のステップ500では、上記ステップ400で学習された並べ替え規則42を、翻訳元言語の文に適用して、並べ替えた翻訳元言語の文(対訳文(並べ替えた日本語))を生成する。そして、対訳文(並べ替えた日本語)44と翻訳先言語(対訳文(英語)36)との並行コーパスを用いて、従来既知の手法を用いて、並べ替えた翻訳元言語の文を翻訳先言語に翻訳するための翻訳モデル46を学習して、処理を終了する。
次に、図6を参照して、本実施の形態の翻訳装置10において実行される翻訳処理ルーチンについて説明する。
ステップ600で、入力文の解析処理を実行する。入力文の解析処理は、翻訳元言語の解析処理(図3)と同様であるので、説明を省略する。
次に、ステップ602で、上記ステップ600で作成された入力文の構文木から順次部分木を抽出し、抽出した部分木の子ノードを並べ替えることにより得られる入力文の全ての並べ替え候補を作成する。また、この並べ替え候補作成の際、部分木の子ノードに付与されたラベルが示す機能語の情報と翻訳先後の文法とによる制約を利用して、並べ替え候補を作成する。
次に、ステップ604で、上記ステップ602で作成された並べ替え候補に対して、学習処理で学習された並べ替え規則42を適用して、並べ替え候補毎にスコアを算出する。スコアは、並べ替え候補に適用される並べ替え規則の確率(例えば、(1)式)を乗算して算出することができる。
次に、ステップ606で、上記ステップ604で作成した並べ替え候補のうち、スコアが上位の所定個を選択する。次に、ステップ608で、選択した並べ替え候補について、単語Nグラムモデルなどを用いた指標により、並べ替え結果の妥当性を評価する。そして、評価結果に基づいて、最終的な並べ替えを決定し、入力文を並べ替える。
次に、ステップ610で、学習処理で学習された翻訳モデル46を用いて、上記ステップ608で並べ替えられた入力文を、一般的な統計的機械翻訳の技術を適用して、翻訳先言語に翻訳して出力し、処理を終了する。
本実施の形態の翻訳装置の処理について、より具体的な実施例を用いて説明する。本実施例においても、翻訳元言語を日本語、翻訳先言語を英語とする場合について説明する。
まず、入力部52で、図7に示すような入力文を受け付け、入力文解析部54で、公知の依存構造解析プログラムCaboChaに入力して、形態素解析及び構文解析を実行する(ステップ600)。なお、図7中の記号“\\”は行が続いていることを示している。以下の図でも同様である。これにより、図8に示すような依存構造解析結果ファイルが得られる。図8では、図7に示す入力文の1文目の解析結果を抜粋して示している。図8の結果は、*がそれぞれ入力文の文節の区切り位置を示し、*に続く部分は順に以下の内容を示す。
・文節ID
・係り先の文節ID及び“D”、または“−1O”(係り先のない文節=主辞文節)
・文節の主辞単語の位置、文節の機能語の位置(文節内最初の単語の位置を0とする)
なお、ここでの機能語は、文節内の主辞単語を含む意味で、本発明においてノードに付与されるラベルが示す「機能語」とは異なる場合を含む。
・係り受けスコア(本実施例では不使用)
また、*以下の行は文節内の単語の情報(表層、読み、原型、品詞情報、キーワードラベル(人名、地名等の情報、特にない場合は“0”))を表し、末尾行のEOSは文の区切りを表す。この係り受け解析結果は、上記実施の形態のステップ102で説明したような係り受け関係を表している。この解析結果を用いて、入力文を構文木(係り受け解析木34)に変換する(翻訳処理におけるステップ104〜126)。
次に、図9に抜粋したような並べ替え規則42が、並べ替え規則学習部28により得られた(詳細は後述)。本実施例では、部分木は1階層(親ノードと子ノードとの関係)のみ用いた。並べ替え規則42は、各フィールドを記号“|||”で区切り、以下のように構成されている。
・親ノードのラベル
・子ノードのラベル(各子ノードが記号“|”で区切られている)
・並べ替え結果、数字は子ノードのIDを示し、数字の部分には対応する子ノードのラベルで表現されている文字列が代入される(品詞ラベルなら機能語を除いた文節、Xなら機能語を除いた部分木の被覆する文字列)。ここでは、日本語及び英語の文法に基づいて、並べ替え結果における機能語の位置を定めている。
・並べ替えがあるかないかを示す2値(0:並べ替えなし、1:並べ替えあり)
・並べ替えスコア(部分木構造に対する条件付き確率)
この並べ替え規則を例文に適用すると、以下のような並べ替え候補が得られる(ステップ602)。スコアは各並べ替え規則の並べ替えスコアを乗算したものを用いた(ステップ604)。
・状態 遷移 情報 データベース 26 は 相当する に 前記した WFSTデータベース(スコア:0.1536)
・26 状態 遷移 情報 データベース は 相当する に 前記した WFSTデータベース(スコア:0.0044)
・状態 遷移 情報 データベース 26 は 相当する に WFSTデータベース 前記した(スコア:0.4393)
・26 状態 遷移 情報 データベース は 相当する に WFSTデータベース 前記した(スコア:0.0126)
そして、上記の並べ替え候補から、スコア最大の並べ替え候補(3番目)を選択する(ステップ606)。選択した並べ替え候補を、翻訳学習部30で学習された翻訳モデル46と、公知の統計翻訳ソフトウェアMosesとを利用して翻訳した(ステップ610)。上記例文の翻訳結果は、以下のようになった。
・the state transition database 26 correspond to the WFST database described above.
“correspond”の活用形が誤っている他は正しい翻訳結果を得ることができた。
次に、上記の翻訳処理に用いた並べ替え規則42及び翻訳モデル46の学習について説明する。本実施例では、並べ替え規則を抽出する際に、英語側の句の単位を正しく反映しないような並べ替え規則を抽出することがないように、英語の句構造を制約として利用した。そのための句構造解析に公知の英語構文解析エンジンEnjuを利用した。本実施例で使用した英文を抜粋したものを図10に示す。説明のため、この例文は図7に示した日本語文の対訳文を用いる。
この先頭の文をEnjuで構文解析した結果を図11に示す(ステップ200)。図中のc*がそれぞれ句構造を表しており、本実施例ではこの句構造と合致しないような並べ替え規則を抽出しない、という制約を課す。
次に、日本語と英語との単語対応付けには、統計的機械翻訳の分野で一般的に用いられる公知のソフトウェアGIZA++と、Mosesで利用される公知のソフトウェアsymalとを利用した。GIZA++は単語の1対多の対応関係を推定するため、一般に多対多となる単語対応関係をそのまま推定することができない。従って、非特許文献5に記載されているような1対多の関係と多対1の関係を重ねあわせて多対多の関係を求めることが広く行われており、symalはそれを実装したソフトウェアである。
この結果、図12に示した英文と日本語文との単語対応関係は、以下のように得られる(ステップ300)。
0-0 0-1 1-2 2-2 3-3 4-4 5-6 7-10 7-11 8-10 10-8 11-9 13-5 14-5 15-12
“−”で結ばれた数字はそれぞれ日本語側の単語位置(0から始まる)、及び英語側の単語位置(0から始まる)であり、この対応関係は図の破線で示されている。ここで、一点鎖線はsymalによって重ねあわせた際に消去された単語対(symalの処理の詳細は非特許文献5参照)を示す。
次に、図12に示した日本語と英語との言語解析結果及び単語対応付け結果、つまり図8と図11と単語対応付け結果とを用いて、並べ替えパターンを抽出する(ステップ404〜408)。
一例として、文節2及び文節3を子ノードとする部分木を考える(図4を参照)。文節2に含まれる日本語の単語位置集合はJ={7,8,9}、文節3はJ={10,11,12}である。これらと対応する英語の単語位置を単語対応付け結果から求めると、文節2に対応するものは、E={10,11}、文節3はE={8,9}である。この結果、Eの各要素はEの最大値9よりも大きいため、文節2は文節3よりも後ろに並べ替えられることが分かる。
また、E及びEはそれぞれ図12の句構造c20及びc17に対応し、句構造の単位と合致するため、並べ替えパターンとして適切であると判断する(ステップ410)。例えば、E’={9,10,11}であったとすると、E’は対応する句構造がないため、E’を含むような並べ替えパターンは抽出されない。以上から、JとJからEとEへの並べ替えを表現する以下の並べ替えパターンが抽出される(ステップ412)。
X に ||| 動詞 | 名詞 に ||| 1 0 に ||| 1
上記のように日本語と英語との並行コーパスとそれぞれの言語解析結果、及び単語対応付け結果を用いて、係り受け解析木の構文木に含まれる部分木に基づいて、並べ替えパターンを抽出することができる。そして、抽出された並べ替えパターンを数え上げ、並べ替え規則集合として構成する。本実施例では、日本語の部分木構造に対する並べ替え結果の条件付き確率を並べ替え規則のスコアとして定義する。従って、
X に ||| 動詞 | 名詞 に ||| 1 0 に ||| 1
がラベル「動詞」が付与されたノード、及びラベル「名詞に」が付与されたノードを子ノードとする部分木全体の25.9%から抽出され、
X に ||| 動詞 | 名詞 に ||| 0 1 に ||| 0
がラベル「動詞」が付与されたノード、及びラベル「名詞に」が付与されたノードを子ノードとする部分木全体の74.1%から抽出された結果として、図9の並べ替え規則が構成されたこととなる。
上記の実施例では、約3,000,000文の英日並行コーパスを用いた実験において、当該分野で最も一般的に用いられる評価指標BLEUの値が、既存技術が0.2602であったのに対し、本実施例では0.2750を達成し、既存技術で構成された機械翻訳システムよりも高い翻訳精度を示した。
以上説明したように、本実施の形態の翻訳装置によれば、翻訳先言語の文について、文節単位の係り受け関係を示す構文木におけるノードの並べ替えによる並べ替え規則を学習する際に、構文木の各ノードに対応する文節に含まれる機能語と翻訳先言語との制約を考慮するため、文法的な構造を分断してしまうような並べ替えを抑制した精緻な並べ替え規則を学習することができる。また、翻訳元言語の文と翻訳先言語の文との単語対応付け、及び翻訳先言語の構文解析結果を利用することによって、より精緻な並べ替え規則を学習することができる。また、このように学習された並べ替え規則を用いた事前並べ替えにより、翻訳元言語の文から翻訳先言語の文へ高精度に翻訳を行うことができる。
従って、日本語の文節単位依存構造解析のような、文節のように単語よりも長い単位での翻訳元言語の構文解析の結果を用いて、翻訳先言語の語順に近づくような翻訳元言語の文節の並べ替えを緻密な規則によって正確に行うことができ、統計的機械翻訳において精度を落とす要因となる単語の並べ替えの問題を解決することができる。
なお、上記実施の形態では、翻訳元言語を日本語、翻訳先言語を英語とする場合について説明したが、他の言語にも適用することができる。また、上記実施の形態では、日本語の文節単位での並べ替えを前提として説明したが、文節以外の言語的な句の単位での並べ替えも可能である。
また、上記実施の形態では、学習部と翻訳部とを1つのコンピュータで構成する場合について説明したが、別々のコンピュータで構成するようにしてもよい。
本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
また、上述の翻訳装置は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施の形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
10 翻訳装置
20 学習部
22 翻訳元言語解析部
24 翻訳先言語解析部
26 単語対応付け部
28 並べ替え規則学習部
30 翻訳学習部
50 翻訳部
52 入力部
54 入力文解析部
56 並べ替え部
58 翻訳処理部
60 出力部

Claims (10)

  1. 翻訳元言語で記述された学習用翻訳元文を解析して、該学習用翻訳元文が、文節各々及び文節間の係り受け関係を示すノードを含んで構成され、該ノードに対応する文節内に存在する機能語を示すラベルが該ノード各々に付与された構文木で表現された解析結果を得る翻訳元解析手段と、
    前記翻訳元解析手段で得られた前記構文木に含まれ、かつ親ノード及び複数の子ノードを有する部分木の複数の子ノードを並べ替えるための並べ替え規則であって、該部分木の構造、該子ノードに付与されたラベルで示される文節内の機能語、及び翻訳元言語と翻訳先言語との単語対応付けにより制約される並べ替え規則を学習する学習手段と、
    を含む並べ替え規則学習装置。
  2. 前記学習用翻訳元文と対訳を成す前記翻訳先言語で記述された学習用翻訳先文を構文解析する翻訳先解析手段を更に含み、
    前記学習手段は、前記翻訳先解析手段の解析結果に基づいて、前記部分木の複数の子ノード各々に対応する文節に含まれる単語群に対応する前記学習用翻訳先文の単語群が、該翻訳先言語の文法上の区切りとなる単位に一致する部分木を用いて、前記並べ替え規則を学習する
    請求項1記載の並べ替え規則学習装置。
  3. 翻訳元言語で記述された入力文を解析して、該入力文が、文節各々及び文節間の係り受け関係を示すノードを含んで構成され、該ノードに対応する文節内に存在する機能語を示すラベルが該ノード各々に付与された構文木で表現された解析結果を得る入力文解析手段と、
    親ノード及び複数の子ノードを有する部分木の複数の子ノードを並べ替えるための並べ替え規則であって、該部分木の構造、該子ノードに付与されたラベルで示される文節内の機能語、及び翻訳元言語と翻訳先言語との単語対応付けにより制約される並べ替え規則を適用して、前記入力文解析手段で得られた構文木に含まれる部分木の子ノードを並べ替えることにより、前記入力文を並べ替える並べ替え手段と、
    前記並べ替え手段により並べ替えられた入力文を、並べ替え後の翻訳元言語の文を翻訳先言語に翻訳するための翻訳モデルに基づいて、翻訳先言語に翻訳する翻訳手段と、
    を含む翻訳装置。
  4. 前記並べ替え手段は、請求項1または請求項2記載の並べ替え規則学習装置により学習された並べ替え規則を適用して、前記入力文を並べ替える請求項3記載の翻訳装置。
  5. 翻訳元解析手段と、学習手段とを含む並べ替え規則学習装置における並べ替え規則学習方法であって、
    前記翻訳元解析手段は、翻訳元言語で記述された学習用翻訳元文を解析して、該学習用翻訳元文が、文節各々及び文節間の係り受け関係を示すノードを含んで構成され、該ノードに対応する文節内に存在する機能語を示すラベルが該ノード各々に付与された構文木で表現された解析結果を得、
    前記学習手段は、前記翻訳元解析手段で得られた前記構文木に含まれ、かつ親ノード及び複数の子ノードを有する部分木の複数の子ノードを並べ替えるための並べ替え規則であって、該部分木の構造、該子ノードに付与されたラベルで示される文節内の機能語、及び翻訳元言語と翻訳先言語との単語対応付けにより制約される並べ替え規則を学習する
    並べ替え規則学習方法。
  6. 翻訳先解析手段を更に含む並べ替え規則学習装置における並べ替え規則学習方法であって、
    前記翻訳先解析手段は、前記学習用翻訳元文と対訳を成す前記翻訳先言語で記述された学習用翻訳先文を構文解析し、
    前記学習手段は、前記翻訳先解析手段の解析結果に基づいて、前記部分木の複数の子ノード各々に対応する文節に含まれる単語群に対応する前記学習用翻訳先文の単語群が、該翻訳先言語の文法上の区切りとなる単位に一致する部分木を用いて、前記並べ替え規則を学習する
    請求項5記載の並べ替え規則学習方法。
  7. 入力文解析手段と、並べ替え手段と、翻訳手段とを含む翻訳装置における翻訳方法であって、
    前記入力文解析手段は、翻訳元言語で記述された入力文を解析して、該入力文が、文節各々及び文節間の係り受け関係を示すノードを含んで構成され、該ノードに対応する文節内に存在する機能語を示すラベルが該ノード各々に付与された構文木で表現された解析結果を得、
    前記並べ替え手段は、親ノード及び複数の子ノードを有する部分木の複数の子ノードを並べ替えるための並べ替え規則であって、該部分木の構造、該子ノードに付与されたラベルで示される文節内の機能語、及び翻訳元言語と翻訳先言語との単語対応付けにより制約される並べ替え規則を適用して、前記入力文解析手段で得られた構文木に含まれる部分木の子ノードを並べ替えることにより、前記入力文を並べ替える並べ替え、
    前記翻訳手段は、前記並べ替え手段により並べ替えられた入力文を、並べ替え後の翻訳元言語の文を翻訳先言語に翻訳するための翻訳モデルに基づいて、翻訳先言語に翻訳する
    翻訳方法。
  8. 前記並べ替え手段は、請求項1または請求項2記載の並べ替え規則学習装置により学習された並べ替え規則を適用して、前記入力文を並べ替える請求項7記載の翻訳方法。
  9. コンピュータを、請求項1または請求項2記載の並べ替え規則学習装置を構成する各手段として機能させるための並べ替え規則学習プログラム。
  10. コンピュータを、請求項3または請求項4記載の翻訳装置を構成する各手段として機能させるための翻訳プログラム。
JP2011193366A 2011-09-05 2011-09-05 並べ替え規則学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラム Active JP5552101B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011193366A JP5552101B2 (ja) 2011-09-05 2011-09-05 並べ替え規則学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011193366A JP5552101B2 (ja) 2011-09-05 2011-09-05 並べ替え規則学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2013054607A true JP2013054607A (ja) 2013-03-21
JP5552101B2 JP5552101B2 (ja) 2014-07-16

Family

ID=48131521

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011193366A Active JP5552101B2 (ja) 2011-09-05 2011-09-05 並べ替え規則学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5552101B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015028779A (ja) * 2013-07-30 2015-02-12 コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド 複数のレベルの中間閾値ビットマップを用いた、hdr画像処理におけるゴーストアーティファクトの検出および除去方法
WO2015083762A1 (ja) * 2013-12-04 2015-06-11 独立行政法人情報通信研究機構 学習装置、翻訳装置、学習方法、および翻訳方法
JP2015153182A (ja) * 2014-02-14 2015-08-24 日本電信電話株式会社 語順並べ替え装置、翻訳装置、方法、及びプログラム
JP2017021596A (ja) * 2015-07-10 2017-01-26 日本電信電話株式会社 単語並べ替え学習装置、単語並べ替え装置、方法、及びプログラム
CN112800754A (zh) * 2021-01-26 2021-05-14 浙江香侬慧语科技有限责任公司 基于预训练语言模型的无监督语法推导方法、装置和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05266069A (ja) * 1992-03-23 1993-10-15 Nec Corp 中国語と日本語との間の双方向機械翻訳方式
JP2003263433A (ja) * 2002-03-07 2003-09-19 Advanced Telecommunication Research Institute International 統計的機械翻訳機における翻訳モデルの生成方法
JP2004310170A (ja) * 2003-04-02 2004-11-04 Nippon Telegr & Teleph Corp <Ntt> 対訳単語対の学習方法、装置、及び、対訳単語対の学習プログラムを記録した記録媒体
JP2005025474A (ja) * 2003-07-01 2005-01-27 Advanced Telecommunication Research Institute International 機械翻訳装置、コンピュータプログラム及びコンピュータ

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05266069A (ja) * 1992-03-23 1993-10-15 Nec Corp 中国語と日本語との間の双方向機械翻訳方式
JP2003263433A (ja) * 2002-03-07 2003-09-19 Advanced Telecommunication Research Institute International 統計的機械翻訳機における翻訳モデルの生成方法
JP2004310170A (ja) * 2003-04-02 2004-11-04 Nippon Telegr & Teleph Corp <Ntt> 対訳単語対の学習方法、装置、及び、対訳単語対の学習プログラムを記録した記録媒体
JP2005025474A (ja) * 2003-07-01 2005-01-27 Advanced Telecommunication Research Institute International 機械翻訳装置、コンピュータプログラム及びコンピュータ

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015028779A (ja) * 2013-07-30 2015-02-12 コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド 複数のレベルの中間閾値ビットマップを用いた、hdr画像処理におけるゴーストアーティファクトの検出および除去方法
WO2015083762A1 (ja) * 2013-12-04 2015-06-11 独立行政法人情報通信研究機構 学習装置、翻訳装置、学習方法、および翻訳方法
US9779086B2 (en) 2013-12-04 2017-10-03 National Institute Of Information And Communications Technology Learning apparatus, translation apparatus, learning method, and translation method
JP2015153182A (ja) * 2014-02-14 2015-08-24 日本電信電話株式会社 語順並べ替え装置、翻訳装置、方法、及びプログラム
JP2017021596A (ja) * 2015-07-10 2017-01-26 日本電信電話株式会社 単語並べ替え学習装置、単語並べ替え装置、方法、及びプログラム
CN112800754A (zh) * 2021-01-26 2021-05-14 浙江香侬慧语科技有限责任公司 基于预训练语言模型的无监督语法推导方法、装置和介质

Also Published As

Publication number Publication date
JP5552101B2 (ja) 2014-07-16

Similar Documents

Publication Publication Date Title
Peng et al. A synchronous hyperedge replacement grammar based approach for AMR parsing
US7707026B2 (en) Multilingual translation memory, translation method, and translation program
EP1351158A1 (en) Machine translation
US20050137853A1 (en) Machine translation
JP2007241764A (ja) 構文解析プログラム、構文解析方法、構文解析装置、及び構文解析プログラムが記録されたコンピュータ読み取り可能な記録媒体
Williams et al. Edinburgh's statistical machine translation systems for WMT16
JP5552101B2 (ja) 並べ替え規則学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラム
JP5734917B2 (ja) 並べ替えモデル学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラム
JP5780670B2 (ja) 翻訳装置、方法、及びプログラム、並びに翻訳モデル学習装置、方法、及びプログラム
Nguyen et al. A tree-to-string phrase-based model for statistical machine translation
JP5924677B2 (ja) 機械翻訳装置、機械翻訳方法、およびプログラム
JP6590723B2 (ja) 単語並べ替え学習方法、単語並べ替え方法、装置、及びプログラム
CN114528459A (zh) 一种基于语义的网页信息抽取方法及系统
Kondo et al. Hidden markov tree model for word alignment
Novák A model of computational morphology and its application to Uralic languages
JP6040946B2 (ja) 語順並べ替え装置、翻訳装置、方法、及びプログラム
JP6083645B2 (ja) 語順並べ替え装置、翻訳装置、翻訳モデル学習装置、方法、及びプログラム
CN112016301B (zh) 一种融合短语先验知识的依存句法分析方法及装置
JP5416021B2 (ja) 機械翻訳装置、機械翻訳方法、およびそのプログラム
Mohamed et al. Automatic creation of a word aligned Sinhala-Tamil parallel corpus
Shaalan et al. Automatic rule induction in Arabic to English machine translation framework
Lee et al. IBM Chinese-to-English PatentMT System for NTCIR-9.
JP3921543B2 (ja) 機械翻訳装置
JP2017021596A (ja) 単語並べ替え学習装置、単語並べ替え装置、方法、及びプログラム
JP5749219B2 (ja) 統計翻訳モデル学習装置、統計翻訳装置、方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130729

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140311

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140424

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140520

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140523

R150 Certificate of patent or registration of utility model

Ref document number: 5552101

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150