JP2013250605A - 機械翻訳装置、機械翻訳方法、およびプログラム - Google Patents

機械翻訳装置、機械翻訳方法、およびプログラム Download PDF

Info

Publication number
JP2013250605A
JP2013250605A JP2012122866A JP2012122866A JP2013250605A JP 2013250605 A JP2013250605 A JP 2013250605A JP 2012122866 A JP2012122866 A JP 2012122866A JP 2012122866 A JP2012122866 A JP 2012122866A JP 2013250605 A JP2013250605 A JP 2013250605A
Authority
JP
Japan
Prior art keywords
unit
swap operator
swap
target language
word order
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012122866A
Other languages
English (en)
Other versions
JP5924677B2 (ja
Inventor
Masao Uchiyama
将夫 内山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2012122866A priority Critical patent/JP5924677B2/ja
Publication of JP2013250605A publication Critical patent/JP2013250605A/ja
Application granted granted Critical
Publication of JP5924677B2 publication Critical patent/JP5924677B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】従来、任意の二言語間で、高精度な機械翻訳ができなかった。
【解決手段】語順の入れ替えが発生する二分木の文脈自由文法規則を示す情報である2以上のスワップオペレータを格納し得るスワップオペレータ格納部と、原言語文を受け付ける受付部と、原言語文を構文解析し、当該構文解析の結果を用いて、1以上の二分木を取得する二分木取得部と、1以上の各二分木に対して、スワップオペレータ格納部のスワップオペレータを適用し、いずれかのスワップオペレータに対応するか否かを判断する判断部と、判断部がいずれかのスワップオペレータに対応すると判断した二分木の葉の部分の語順を入れ替える入替部と、入替部の処理結果に対して、目的言語への機械翻訳を実行し、目的言語文を取得する機械翻訳部と、機械翻訳部が取得した目的言語文を出力する出力部とを具備する機械翻訳装置により、任意の二言語間で、高精度な機械翻訳ができる。
【選択図】図1

Description

本発明は、機械翻訳装置等に関するものである。
原言語を機械翻訳により目的言語に翻訳する時の技術的な大きな課題は、原言語と目的言語とで語順が異なることである。この課題を克服する方法の一つとして、原言語を言語学的に構文解析して、その構文解析結果を参考にして、原言語の語順を、目的言語の語順に並べ替える方法がある。この方法を原言語語順変換と呼ぶ。
原言語語順変換は、統計的機械翻訳において、幅広く用いられている技術であり、言語学的な構文解析技術を用いた原言語語順変換の方法も、非特許文献1、非特許文献2、非特許文献3等に示すように多数ある。
特許文献1、非特許文献1に記載されている技術は、原言語を言語学的に構文解析し、その構文構造を人手で記述した規則により変更し、その変更結果を利用して統計的機械翻訳をするものである。また、非特許文献2、3に記載されている技術は、原言語を言語学的に構文解析し、その構文構造を自動学習した規則により変更し、その変更結果を利用して統計的機械翻訳をするものである。
特開2011−175500号公報
Chao Wang, Michael Collins, and Philipp Koehn. 2007. Chinese Syntactic Reordering for Statistical Machine Translation. In Proceedings of the EMNLP-CoNLL), pages 737-745, Prague, Czech Republic, June. Association for Computational Linguistics Fei Xia and Michael McCord. 2004. Improving a Statistical MT System with Automatically Learned Rewrite Patterns. In Proceedings of Coling, pages 508-514, Geneva, Switzerland, Aug 23-Aug 27. COLING. Xianchao Wu, Katsuhito Sudoh, Kevin Duh, Hajime Tsukada, and Masaaki Nagata. 2011. Extracting Preordering Rules from Chunk-based Dependency Trees for Japanese-to-English Translation. In Proceedings of the 13th Machine Translation Summit, pages 300-307
しかしながら、非特許文献1等のように人手規則を利用する方法は、高精度の語順変換を達成可能であるが、翻訳したい言語間に特有の規則を人手で記述する必要がある。そのため、多数の言語間にこの方法を利用するのは困難である。たとえば、特許文献1の方法は、英語を日本語に翻訳するときには有効であるが、日本語を英語に翻訳するときには利用不可能である。
また、非特許文献2、3等の自動学習された規則を利用する方法は、任意の言語間に適用可能であるが、これまでは、人手規則に比べて語順変換精度が低かった。その精度の低い原因としては、以下の2つの理由が挙げられる。第一に、言語学的な構文解析器が多分木を出力するため、その変換規則を学習するのが困難であった。第二に、自動学習された変換規則が多量なため、人手で規則を追加するのが困難かつ人手追加規則の影響が少ないため、自動学習された規則を改良して高精度にすることが困難であった。
以上により、従来の機械翻訳装置においては、任意の二言語間で、高精度な機械翻訳ができなかった。
本第一の発明の機械翻訳装置は、語順の入れ替えが発生する二分木の文脈自由文法規則を示す情報である2以上のスワップオペレータを格納し得るスワップオペレータ格納部と、原言語文を受け付ける受付部と、原言語文を構文解析し、構文解析の結果を用いて、1以上の二分木を取得する二分木取得部と、1以上の各二分木に対して、スワップオペレータ格納部のスワップオペレータを適用し、いずれかのスワップオペレータに対応するか否かを判断する判断部と、判断部がいずれかのスワップオペレータに対応すると判断した二分木の葉の部分の語順を入れ替える入替部と、入替部の処理結果に対して、目的言語への機械翻訳を実行し、目的言語文を取得する機械翻訳部と、機械翻訳部が取得した目的言語文を出力する出力部とを具備する機械翻訳装置である。
かかる構成により、任意の二言語間で、高精度な機械翻訳ができる。
また、本第二の発明の機械翻訳装置は、第一の発明に対して、枝分かれが3以上のn分木であり、二分木を構成しないことを示す情報である1以上の例外情報を格納し得る例外情報格納部をさらに具備し、二分木取得部は、原言語文を構文解析した結果のうち、1以上のいずれかの例外情報に対応しない部分に対してのみ、1以上の二分木を取得し、判断部は、原言語文を構文解析した結果のうち、1以上のいずれかの例外情報に対応する部分について、いずれかのスワップオペレータに対応するか否かを判断しない機械翻訳装置である。
かかる構成により、任意の二言語間で、さらに高精度な機械翻訳ができる。
また、本第三の発明の機械翻訳装置は、第一または第二の発明に対して、原言語文と目的言語文とを対応付けた1組以上の対応文を格納し得る対訳コーパスと、原言語の単語または句と目的言語の単語または句とのアライメントの情報であるアライメント情報を格納し得るアライメント情報格納部と、語順の入れ替えが発生する二分木の文脈自由文法規則を示す情報であるスワップオペレータの候補である1以上のスワップオペレータ候補を格納し得るスワップオペレータ候補格納部と、対訳コーパスの1以上の原言語文を構文解析し、原言語文の1以上の二分木を取得する構文解析部と、構文解析部が取得した原言語文の1以上の二分木に対して、1以上の各スワップオペレータ候補を適用し、スワップオペレータ候補に対応する二分木の葉の部分を語順変換して、原言語の目的言語の語順の文である1以上の目的言語語順文を取得する目的言語語順文取得部と、アライメント情報を用いて、対訳コーパスが有する1以上の目的言語文と、目的言語語順文取得部が取得した1以上の目的言語語順文との順位相関を算出する順位相関算出部と、順位相関算出部が算出した順位相関が所定の条件を満たすほど大きい場合、順位相関に対応するスワップオペレータ候補をスワップオペレータとして取得するスワップオペレータ取得部と、スワップオペレータ取得部が取得したスワップオペレータを、スワップオペレータ格納部に蓄積するスワップオペレータ蓄積部とをさらに具備する機械翻訳装置である。
かかる構成により、任意の二言語間で、高精度な機械翻訳を行うためのスワップオペレータを自動生成できる。
また、本第四の発明の機械翻訳装置は、第三の発明に対して、スワップオペレータ候補格納部は、重要度の順にソートされた2以上のスワップオペレータ候補を格納しており、目的言語語順文取得部は、構文解析部が取得した原言語文の1以上の二分木に対して、初期値が空であるスワップオペレータ格納部の各スワップオペレータを適用し、各スワップオペレータに対応する二分木の葉の部分を語順変換して、原言語の目的言語の語順の文である1以上の第一目的言語語順文を取得する第一目的言語語順文取得手段と、構文解析部が取得した原言語文の1以上の二分木に対して、初期値が空であるスワップオペレータ格納部の各スワップオペレータおよび重要度順の上位から順次取り出されたスワップオペレータ候補を適用し、各スワップオペレータまたはスワップオペレータ候補に対応する二分木の葉の部分を語順変換して、原言語の目的言語の語順の文である1以上の第二目的言語語順文を取得する第二目的言語語順文取得手段とを具備し、順位相関算出部は、アライメント情報を用いて、対訳コーパスが有する1以上の目的言語文と、第一目的言語語順文取得手段が取得した1以上の第一目的言語語順文との第一順位相関を算出する第一順位相関算出手段と、アライメント情報を用いて、対訳コーパスが有する1以上の目的言語文と、第二目的言語語順文取得手段が取得した1以上の第二目的言語語順文との第二順位相関を算出する第二順位相関算出手段とを具備し、スワップオペレータ取得部は、第一順位相関と第二順位相関とを比較し、所定の条件を満たすほど第二順位相関が大きい場合、スワップオペレータ候補をスワップオペレータとして取得し、スワップオペレータ蓄積部は、スワップオペレータ取得部が取得したスワップオペレータを、スワップオペレータ格納部に蓄積し、スワップオペレータ候補格納部のすべてのスワップオペレータ候補に対する処理を終了するまで、目的言語語順文取得部、順位相関算出部、スワップオペレータ取得部、およびスワップオペレータ蓄積部の処理を継続させる制御部をさらに具備する機械翻訳装置である。
かかる構成により、任意の二言語間で、高精度な機械翻訳を行うためのスワップオペレータを自動生成できる。
本発明による機械翻訳装置によれば、任意の二言語間で、高精度な機械翻訳ができる。
実施の形態1における機械翻訳装置1のブロック図 同機械翻訳装置1が行う翻訳処理の動作を説明するフローチャート 同機械翻訳装置1のスワップオペレータの取得動作を説明するフローチャート 同スワップオペレータを示す図 同コンピュータシステムの概観図 同コンピュータシステムのブロック図
以下、機械翻訳装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
(実施の形態1)
本実施の形態において、受け付けた原言語文を二分木にし、スワップオペレータを用いて、原言語の二分木を入れ替えることにより、任意の二言語間で、高精度な機械翻訳ができる機械翻訳装置1について説明する。なお、機械翻訳装置1では、原言語の二分木を入れ替えた後、機械翻訳を行い、目的言語文を取得する。
また、本実施の形態において、3以上のn分木(nは3以上の自然数)であり、語順を入れ替えない例外を格納しており、当該例外情報を用いて、さらに精度高く機械翻訳を行う機械翻訳装置1について説明する。
さらに、本実施の形態において、スワップオペレータの自動抽出の方法について説明する。
図1は、本実施の形態における機械翻訳装置1のブロック図である。
機械翻訳装置1は、アライメント情報格納部101、対訳コーパス102、スワップオペレータ候補格納部103、スワップオペレータ格納部104、例外情報格納部105、受付部106、二分木取得部107、判断部108、入替部109、機械翻訳部110、出力部111、構文解析部112、目的言語語順文取得部113、順位相関算出部114、スワップオペレータ取得部115、スワップオペレータ蓄積部116、および制御部117を備える。
目的言語語順文取得部113は、第一目的言語語順文取得手段1131、および第二目的言語語順文取得手段1132を備える。
順位相関算出部114は、第一順位相関算出手段1141、および第二順位相関算出手段1142を備える。
アライメント情報格納部101は、1以上のアライメント情報を格納し得る。アライメント情報とは、原言語の単語または句と目的言語の単語または句とのアライメントの情報である。なお、原言語の単語または句と目的言語の単語または句とのアライメントの情報を取得する技術は、公知技術である。そして、例えば、日本語の単語または句と英語の単語または句のアライメントの情報は、例えば、GIZA++(URL:http://code.google.com/p/giza-pp/ 参照)により取得される。
対訳コーパス102は、1組以上の対応文を格納し得る。対応文とは、原言語文と目的言語文とを対応付けた情報である。対応文は、原言語文と目的言語文の組でも良いし、原言語文と目的言語文との対応を示す情報のみでも良い。対応文は、原言語文と目的言語文とを取り出すための情報であれば、どのような構造でも良い。
スワップオペレータ候補格納部103は、1以上のスワップオペレータ候補を格納し得る。スワップオペレータ候補とは、語順の入れ替えが発生する二分木の文脈自由文法規則を示す情報の候補である。
スワップオペレータ候補格納部103は、重要度の順にソートされた2以上のスワップオペレータ候補を格納していることは好適である。ここで、重要度とは、出現頻度でも良いし、他の指標でも良い。他の指標とは、出現確率等である。なお、重要度が出現頻度である場合、重要度の順にソートされた2以上のスワップオペレータ候補とは、出現頻度の大きい順にソートされた2以上のスワップオペレータ候補である。
スワップオペレータ候補格納部103の1以上のスワップオペレータ候補は、図示しない手段が対訳コーパス102から取得される。図示しない手段は、対訳コーパス102の中のすべての原言語文を構文解析し、それを二分木に変換する。次に、図示しない手段は、すべての二分木から、右辺のシンボルが2つの文脈自由文法規則を抽出し、それを頻度順にソートする。このとき、各々の文脈自由文法規則をスワップオペレータ候補と呼ぶ。なお、ここでは、重要度順は、例えば、頻度順である。なお、このときのスワップオペレータ候補を構成する文法記号は、英語が原言語の場合には、周知のPenn Treebankコーパスの文法記号を利用するのが簡便であるが、この文法記号を、自動的に複数の文法記号に分割したものを利用してもよいし("Learning Accurate, Compact, and Interpretable Tree Annotation" Slav Petrov, Leon Barrett, Romain Thibaux and Dan Klein in COLING-ACL 2006)、この文法記号に語彙情報を付加してもよい。また、NP-SBJのように、そのNPが主語であることを示すSBJのような文法機能タグを付与しても良い。
スワップオペレータ格納部104は、1または2以上のスワップオペレータを格納し得る。スワップオペレータは、語順の入れ替えが発生する二分木の文脈自由文法規則を示す情報である。スワップオペレータ格納部104のスワップオペレータは、後述するように自動的に取得されることは好適であるが、人手で抽出されても良い。人手で抽出する方法としては、あるスワップオペレータ候補について、その候補が適用可能な部分木を人手で調べてみて、もしその部分木の左右の子ノードをスワップすることにより、原言語の語順が目的言語の語順に近くなるようであれば、その候補をスワップオペレータとして採用する。
例外情報格納部105は、1以上の例外情報を格納し得る。例外情報は、枝分かれが3以上のn分木であり、二分木を構成しないことを示す情報である。例外情報は、語順の入れ替えを行わないことを示す情報である、と捕らえても良い。例外情報は、例えば、文のうちの、「A and B」などの並列構造の部分を示す情報や、文のうちの括弧("")の部分を示す情報などである。
受付部106は、原言語文を受け付ける。ここで、受け付けとは、キーボードやマウス、タッチパネルなどの入力デバイスから入力された情報の受け付け、有線もしくは無線の通信回線を介して送信された情報の受信、光ディスクや磁気ディスク、半導体メモリなどの記録媒体から読み出された情報の受け付け、他のプログラムや関数から渡されることなどを含む概念である。原言語文の入力手段は、キーボードやマウスやメニュー画面によるもの等、何でも良い。
二分木取得部107は、原言語文を構文解析し、1以上の二分木を取得する。通常、二分木取得部107は、原言語文を構文解析し、当該構文解析の結果を用いて、1以上の二分木を取得する。原言語が英語である場合、二分木取得部107は、例えば、構文解析器「Berkeley Parser ("Learning Accurate, Compact, and Interpretable Tree Annotation" Slav Petrov, Leon Barrett, Romain Thibaux and Dan Klein in COLING-ACL 2006)」を含む。
二分木取得部107は、原言語文を構文解析した結果のうち、例外情報格納部105に格納されている1以上のいずれかの例外情報に対応しない部分に対してのみ、1以上の二分木を取得することは好適である。
判断部108は、二分木取得部107が取得した1以上の各二分木に対して、スワップオペレータ格納部104のスワップオペレータを適用し、いずれかのスワップオペレータに対応するか否かを判断する。
なお、判断部108は、原言語文を構文解析した結果のうち、1以上のいずれかの例外情報に対応する部分について、いずれかのスワップオペレータに対応するか否かを判断しないことは好適である。
入替部109は、判断部108がいずれかのスワップオペレータに対応すると判断した二分木の葉の部分の語順を入れ替える。なお、二分木は、一つの根(ルート)の部分と、二つの葉(リーフ)の部分を有する。また、二分木を構成する二つの葉(リーフ)の部分は、順序を有する。
また、具体的には、例えば、スワップオペレータ「A→B C」は、次のように入力文(受付部106が受け付ける原言語文)に適用される。つまり、入力文を二分木にしたものについて、判断部108は、(A(B…)(C…))という部分木があることを検出する。そして、入替部109は、その部分木を(A(C…)(B….))に語順変換する。そして、入替部109は、与えられた入力文について、その全ての部分木に適用可能なすべてのスワップオペレータを適用したあとで、その変換された2分木の葉にあたる単語を先頭から順番に出力することで、語順を変換する。
機械翻訳部110は、入替部109の処理結果に対して、目的言語への機械翻訳を実行し、目的言語文を取得する。機械翻訳部110は公知技術でも実現可能であるので、詳細な説明を省略する。機械翻訳部110は、例えば、統計ベースの機械翻訳処理を行う。
出力部111は、機械翻訳部110が取得した目的言語文を出力する。ここで、出力とは、ディスプレイへの表示、プロジェクターを用いた投影、プリンタでの印字、音出力、外部の装置への送信、記録媒体への蓄積、他の処理装置や他のプログラムなどへの処理結果の引渡しなどを含む概念である。
構文解析部112は、対訳コーパス102の1以上の原言語文を構文解析し、原言語文の1以上の二分木を取得する。
構文解析部112は、二分木取得部107と同じ処理を行う。つまり、二分木取得部107で代用しても良い。かかる場合、構文解析部112は、実質上、存在しない、と考えて良い。
目的言語語順文取得部113は、構文解析部112が取得した原言語文の1以上の二分木に対して、1以上の各スワップオペレータ候補を適用し、スワップオペレータ候補に対応する二分木の葉の部分を語順変換して、1以上の目的言語語順文を取得する。目的言語語順文は、原言語の文であり、目的言語の語順の文である。目的言語語順文取得部113は、例えば、対訳コーパス102を用いて、1以上の目的言語語順文を取得する。
目的言語語順文取得部113を構成する第一目的言語語順文取得手段1131は、構文解析部112が取得した原言語文の1以上の二分木に対して、初期値が空であるスワップオペレータ格納部104の各スワップオペレータを適用し、各スワップオペレータに対応する二分木の葉の部分を語順変換して、1以上の目的言語語順文を取得する。この目的言語語順文を第一目的言語語順文という。
第二目的言語語順文取得手段1132は、構文解析部112が取得した原言語文の1以上の二分木に対して、初期値が空であるスワップオペレータ格納部104の各スワップオペレータおよび重要度順の上位から順次取り出されたスワップオペレータ候補を適用し、各スワップオペレータまたはスワップオペレータ候補に対応する二分木の葉の部分を語順変換して、1以上の目的言語語順文を取得する。この目的言語語順文を第二目的言語語順文という。
順位相関算出部114は、アライメント情報格納部101のアライメント情報を用いて、対訳コーパス102が有する1以上の目的言語文と、目的言語語順文取得部113が取得した1以上の目的言語語順文との順位相関を算出する。順位相関の算出方法は公知技術である。例えば、順位相関の求め方は、「Automatic Evaluation of Translation Quality for Distant Language Pairs. Hideki Isozaki, Tsutomu Hirao, Kevin Duh, Katsuhito Sudoh, Hajime Tsukada. Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, pages 944-952,MIT, Massachusetts, USA, 9-11 October 2010」に記載されている。また、「A Lightweight Evaluation Framework for Machine Translation Reordering David Talbot, Hideto Kazawa, Hiroshi Ichikawa, Jason Katz-Brown, Masakazu Seno and Franz Och. EMNLP-2011 6th workshop on statistical machine translation. 2011.」の(1)式の値を計算し、順位相関の代わりに、用いてもよい。なお、この(1)式の値は、厳密には順位相関でないが、順位相関と捕らえても良い。
順位相関算出部114を構成する第一順位相関算出手段1141は、アライメント情報格納部101のアライメント情報を用いて、対訳コーパス102が有する1以上の目的言語文と、第一目的言語語順文取得手段1131が取得した1以上の第一目的言語語順文との第一順位相関を算出する。
第二順位相関算出手段1142は、アライメント情報格納部101のアライメント情報を用いて、対訳コーパス102が有する1以上の目的言語文と、第二目的言語語順文取得手段1132が取得した1以上の第二目的言語語順文との第二順位相関を算出する。
スワップオペレータ取得部115は、順位相関算出部114が算出した順位相関が所定の条件を満たすほど大きい場合、順位相関に対応するスワップオペレータ候補をスワップオペレータとして取得する。
また、スワップオペレータ取得部115は、第一順位相関と第二順位相関とを比較し、所定の条件を満たすほど第二順位相関が大きい場合、スワップオペレータ候補をスワップオペレータとして取得することは好適である。
さらに、スワップオペレータ取得部115は、第一順位相関と第二順位相関とに対して、周知の符号検定を適用し、その結果、第二順位相関が統計的に優位に大きい場合、スワップオペレータ候補をスワップオペレータとして取得することは好適である。
スワップオペレータ蓄積部116は、スワップオペレータ取得部115が取得したスワップオペレータを、スワップオペレータ格納部104に蓄積する。
制御部117は、スワップオペレータ候補格納部103のすべてのスワップオペレータ候補に対する処理を終了するまで、目的言語語順文取得部113、順位相関算出部114、スワップオペレータ取得部115、およびスワップオペレータ蓄積部116の処理を継続させる。なお、制御部117は、必須ではない。
アライメント情報格納部101、対訳コーパス102、スワップオペレータ候補格納部103、スワップオペレータ格納部104、および例外情報格納部105は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
アライメント情報格納部101等にアライメント情報等が記憶される過程は問わない。例えば、記録媒体を介してアライメント情報等がアライメント情報格納部101等で記憶されるようになってもよく、通信回線等を介して送信されたアライメント情報等がアライメント情報格納部101等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力されたアライメント情報等がアライメント情報格納部101等で記憶されるようになってもよい。
受付部106は、キーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。
二分木取得部107、判断部108、入替部109、機械翻訳部110、構文解析部112、目的言語語順文取得部113、順位相関算出部114、スワップオペレータ取得部115、スワップオペレータ蓄積部116、および制御部117は、通常、MPUやメモリ等から実現され得る。二分木取得部107等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
出力部111は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。出力部111は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
次に、機械翻訳装置1の動作について説明する。まず、機械翻訳装置1が行う翻訳処理の動作について、図2のフローチャートを用いて説明する。
(ステップS201)受付部106は、原言語文を受け付けたか否かを判断する。原言語文を受け付ければステップS202に行き、原言語文を受け付けなければステップS201に戻る。
(ステップS202)二分木取得部107は、ステップS201で受け付けられた原言語文に対して、構文解析を行う。
(ステップS203)二分木取得部107は、ステップS202で行った構文解析の結果から、1以上の二分木を取得する。
(ステップS204)判断部108は、カウンタiに1を代入する。
(ステップS205)判断部108は、ステップS203で取得された1以上の二分木の中の、i番目の二分木が存在するか否かを判断する。i番目の二分木が存在すればステップS206に行き、存在しなければステップS212に行く。
(ステップS206)判断部108は、カウンタjに1を代入する。
(ステップS207)判断部108は、スワップオペレータ格納部104に、j番目のスワップオペレータが存在するか否かを判断する。j番目のスワップオペレータが存在すればステップS208に行き、存在しなければステップS210に行く。
(ステップS208)判断部108は、i番目の二分木がj番目のスワップオペレータに対応するか否かを判断する。i番目の二分木がj番目のスワップオペレータに対応する場合はステップS209に行き、対応しない場合はステップS211に行く。
(ステップS209)入替部109は、i番目の二分木の葉の部分の順序を入れ替える。
(ステップS210)判断部108は、カウンタiを1、インクリメントし、ステップS205に戻る。
(ステップS211)判断部108は、カウンタjを1、インクリメントし、ステップS207に戻る。
(ステップS212)機械翻訳部110は、スワップオペレータに対応する二分木を入れ替えた原言語文に対して、機械翻訳を行う。スワップオペレータに対応する二分木を入れ替えた原言語文とは、語順が目的言語の語順となった原言語の文である。なお、語順が目的言語の語順となった原言語の文は、通常、二分木の葉の部分を先頭から取り出した文であり、語順が目的言語の語順であり、単語や句が原言語の文である。
(ステップS213)出力部111は、ステップS212における機械翻訳結果を出力し、処理を終了する。
なお、図2のフローチャートにおいて、多数の文が受け付けられた場合は、上記の処理が繰り返して行われる。
また、図2のフローチャートのステップS203において、二分木取得部107は、原言語文を構文解析した結果のうち、例外情報格納部105に格納されている1以上のいずれかの例外情報に対応しない部分に対してのみ、1以上の二分木を取得しても良い。
次に、機械翻訳装置1のスワップオペレータを取得する動作について、図3のフローチャートを用いて説明する。
(ステップS301)構文解析部112は、対訳コーパス102の中の全ての原言語文を構文解析し、1以上の二分木を取得する。なお、この1以上の二分木をEとする。
(ステップS302)目的言語語順文取得部113は、対訳コーパス102の中の全ての目的言語文を読み出す。この全ての目的言語文をJとする。
(ステップS303)目的言語語順文取得部113は、アライメント情報格納部101から、EとJの単語をアライメントした情報を取得する。このアライメントした情報をAとする。
(ステップS304)目的言語語順文取得部113は、重要度順にソートされたスワップオペレータ候補リストを、スワップオペレータ候補格納部103から読み出す。スワップオペレータ候補リストとは、スワップオペレータ候補格納部103の1以上のスワップオペレータ候補である。なお、このスワップオペレータ候補リストをCとする。
(ステップS305)目的言語語順文取得部113は、スワップオペレータ格納部104を空にする。なお、スワップオペレータ格納部104をLとする。
(ステップS306)制御部117は、カウンタiに1を代入する。
(ステップS307)目的言語語順文取得部113は、i番目のスワップオペレータ候補がスワップオペレータ候補格納部103に存在するか否かを判断する。i番目のスワップオペレータ候補が存在すればステップS308に行き、存在しなければ処理を終了する。
(ステップS308)目的言語語順文取得部113は、Eに対してLを適用し、Lに対応する二分木の葉の語順を変更する。そして、目的言語語順文取得部113は、二分木の語順を変更した情報を取得する。かかる情報をFとする。
(ステップS309)順位相関算出部114は、Aを用いて、FとJの各対訳文間の順位相関を取得する。かかる順位相関を第一順位相関とする。
(ステップS310)目的言語語順文取得部113は、Lにi番目のスワップオペレータ候補を加えてMを作成する。
(ステップS311)目的言語語順文取得部113は、Eに対してMを適用し、Mに対応する二分木の葉の語順を変更する。そして、目的言語語順文取得部113は、二分木の語順を変更した情報を取得する。かかる情報をGとする。
(ステップS312)順位相関算出部114は、Aを用いて、GとJの各対訳文間の順位相関を取得する。かかる順位相関を第二順位相関とする。
(ステップS313)スワップオペレータ取得部115は、
第一順位相関と第二順位相関とを比較し、所定の条件を満たすほど第二順位相関が大きいか否かを判断する。条件を満たす場合はステップS314に行き、条件を満たさない場合はステップS315に行く。
(ステップS314)スワップオペレータ蓄積部116は、i番目のスワップオペレータ候補をスワップオペレータ格納部104に蓄積する。つまり、本ステップで、Lにi番目のスワップオペレータ候補が加えられる。
(ステップS315)制御部117は、カウンタiを1、インクリメントし、ステップS307に戻る。
なお、図3のフローチャートにおいて、ステップS305の処理は無くても良い。
また、図3のフローチャートにおいて、通常、ステップS306からステップS315におけるループ処理は、制御部117により制御される。
以下、本実施の形態における機械翻訳装置1の具体的な動作について説明する。ここで、機械翻訳装置1は英日翻訳を行う、とする。
今、スワップオペレータ格納部104に、図4に示すスワップオペレータが格納されている、とする。スワップオペレータ「VP→VBD NP」は、ルートが「VP」で、葉が「VBD」「NP」の二分木であり、葉の順序が「VBD」「NP」の順である二分木を示す。そして、スワップオペレータ「VP→VBD NP」は、「VP→VBD NP」に対応する二分木について、葉の順序を「NP」「VBD」の順に入れ替えることを示す。
そして、例えば、受付部106は、原言語文「I gave him apples.」を受け付けた、とする。
次に、二分木取得部107は、原言語文「I gave him apples.」を構文解析し、(S (NP (PRP I)) (VP (VBD gave) (NP (PRP him)) (NP (NNS apples))) (. .))という構文解析結果を得る。なお、構文解析結果は、ここでは句構造である。
次に、二分木取得部107は、上記の句構造を、1以上の二分木に変換する。なお、句構造から1以上の二分木を取得するために、二分木取得部107は、例えば、(Probabilistic CFG with latent annotations. T. Matsuzaki, Y. Miyao and J. Tsujii. ACL '05 Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics.2005)の Figure.6のいずれかの方法を利用しても良いし、また、Binarizing Syntax Trees to Improve Syntax-Based Machine Translation Accuracy. W. Wang, K. Knight, D. Marcuで提案されているEM法を利用してもよい。さらに、人手もしくは自動で作成した規則を利用して、句構造を二分木に変換しても良い。なお、Enju (Feature forest models for probabilistic HPSG parsing. Y. Miyao and J. Tsujii. Computational Linguistics, vol. 34, no.1, pp. 35-80, 2008)は、2分木を出力するので、二分木取得部107は、Berkeley Parser ではなくてEnjuと同一の処理を行ってもよい。
また、日本語や英語で、句構造解析ではなくて、依存構造解析がしてある構文解析結果については、例えば、二分木取得部107は、Xianchao Wu, Katsuhito Sudoh, Kevin Duh, Hajime Tsukada, and Masaaki Nagata. 2011. Extracting Preordering Rules from Chunk-based Dependency Trees for Japanese-to-English Translation. In Proceedings of the 13th Machine Translation Summit, pages 300-307の方法により句構造にしてから二分木にしても良い。
次に、判断部108は、上記の構文解析結果から、「S→NP VP」「VP→VBD NP」「VBD→VBD NP」等の二分木(ここでは、文脈自由文法規則)を取得する。
そして、判断部108は、構文解析結果から取得された各二分木に対して、図4のスワップオペレータを適用する。
そして、判断部108は、「VP→VBD NP」「VBD→VBD NP」は、図4のスワップオペレータの一つに対応する(一致する)と判断する。
次に、入替部109は、「VP→VBD NP」、および「VBD→VBD NP」の二分木の葉の語順を入れ替える。
そして、入替部109は、目的言語の語順の、原言語文の二分木の集合「(S (S (NP (PRP I)) (VP (NP (NNS apples)) (VBD (NP (PRP him)) (VBD gave)))) (. .))」を得る。
次に、入替部109は、この二分木の葉の部分を先頭から取り出し、「I apples him gave .」を得る。
次に、機械翻訳部110は、入替部109の処理結果「I apples him gave .」に対して、目的言語への機械翻訳を実行し、目的言語文「私はリンゴを彼にあげた」を取得する。
以上、本実施の形態によれば、スワップオペレータリストを利用することにより、日英翻訳を含む任意の2言語間の翻訳を簡易に行うことができる。さらに詳細には、本実施の形態によれば、日本語→英語、英語→日本語、日本語→中国語、中国語→日本語、英語→フランス語など、原言語の構文解析システムが利用可能な任意の言語間の機械翻訳について、原言語語順変換を適用することにより、機械翻訳の性能が向上する。
また、本実施の形態によれば、特に、日本語→英語、英語→日本語のように、語順の違いが大きい言語間の翻訳において発明の効果が最も発揮される。
また、本実施の形態によれば、上述したように、スワップオペレータを人手で抽出することが可能である。これは、スワップオペレータ候補が3つの文法記号のみからなるという非常に簡単な規則であり、かつ、抽出される規則の総数が数百程度と少ないためである。なお、例えば、Xianchao Wu, Katsuhito Sudoh, Kevin Duh, Hajime Tsukada, and Masaaki Nagata. 2011a. Extracting Preordering Rules from Chunk-based Dependency Trees for Japanese-to-English Translation. In Proceedings of the 13th Machine Translation Summit, pages 300-307では682837個の語順規則が抽出されており、人手で管理することは困難である。
また、本実施の形態によれば、二分木に特化したスワップオペレータリストを用いることにより、スワップオペレータの数が、三分木以上から語順規則を自動生成する場合と比べて、大幅に少なくなり、人手でそのリストを管理するとともに、人手により追加した規則により原言語語順変換精度を向上することが可能になった。このことは、語順変換の精度向上にとって、きわめて重要なことである。
なお、本実施の形態によれば、主として、原言語は英語の例で説明したが、原言語および目的言語は問わない。原言語が日本語の場合、例えば、スワップオペレータは「形容詞句→名詞句 形容詞」である。
さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD−ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における機械翻訳装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、記録媒体である、語順の入れ替えが発生する二分木の文脈自由文法規則を示す情報である1以上のスワップオペレータを格納し得るスワップオペレータ格納部にアクセス可能なコンピュータを、原言語文を受け付ける受付部と、前記原言語文を構文解析し、当該構文解析の結果を用いて、1以上の二分木を取得する二分木取得部と、前記1以上の各二分木に対して、前記スワップオペレータ格納部のスワップオペレータを適用し、いずれかのスワップオペレータに対応するか否かを判断する判断部と、前記判断部がいずれかのスワップオペレータに対応すると判断した二分木の葉の部分の語順を入れ替える入替部と、前記入替部の処理結果に対して、目的言語への機械翻訳を実行し、目的言語文を取得する機械翻訳部と、前記機械翻訳部が取得した目的言語文を出力する出力部として機能させるためのプログラム、である。
また、記録媒体に、枝分かれが3以上のn分木であり、二分木を構成しないことを示す情報である1以上の例外情報をさらに格納しており、上記プログラムにおいて、前記二分木取得部は、前記原言語文を構文解析した結果のうち、前記1以上のいずれかの例外情報に対応しない部分に対してのみ、1以上の二分木を取得し、前記判断部は、前記原言語文を構文解析した結果のうち、前記1以上のいずれかの例外情報に対応する部分について、いずれかのスワップオペレータに対応するか否かを判断しないものとして、コンピュータを機能させることは好適である。
また、記憶媒体に、原言語文と目的言語文とを対応付けた1組以上の対応文を格納し得る対訳コーパスと、原言語の単語または句と目的言語の単語または句とのアライメントの情報である1以上のアライメント情報と、語順の入れ替えが発生する二分木の文脈自由文法規則を示す情報であるスワップオペレータの候補である1以上の候補スワップオペレータとをさらに格納しており、上記プログラムにおいて、前記対訳コーパスの1以上の原言語文を構文解析し、原言語文の1以上の二分木を取得する構文解析部と、前記構文解析部が取得した原言語文の1以上の二分木に対して、前記1以上の各候補スワップオペレータを適用し、候補スワップオペレータに対応する二分木の葉の部分を語順変換して、原言語の目的言語の語順の文である1以上の目的言語語順文を取得する目的言語語順文取得部と、前記アライメント情報を用いて、前記対訳コーパスが有する1以上の目的言語文と、前記目的言語語順文取得部が取得した1以上の目的言語語順文との順位相関を算出する順位相関算出部と、前記順位相関算出部が算出した順位相関が所定の条件を満たすほど大きい場合、当該順位相関に対応する候補スワップオペレータをスワップオペレータとして取得するスワップオペレータ取得部と、前記スワップオペレータ取得部が取得したスワップオペレータを、前記スワップオペレータ格納部に蓄積するスワップオペレータ蓄積部として、コンピュータをさらに機能させることは好適である。
また、前記記憶媒体は、重要度の順にソートされた2以上の候補スワップオペレータを格納しており、上記プログラムにおいて、前記目的言語語順文取得部は、前記構文解析部が取得した原言語文の1以上の二分木に対して、初期値が空であるスワップオペレータ格納部の各スワップオペレータを適用し、当該各スワップオペレータに対応する二分木の葉の部分を語順変換して、原言語の目的言語の語順の文である1以上の第一目的言語語順文を取得する第一目的言語語順文取得手段と、前記構文解析部が取得した原言語文の1以上の二分木に対して、初期値が空であるスワップオペレータ格納部の各スワップオペレータおよび前記重要度順の上位から順次取り出された候補スワップオペレータを適用し、前記各スワップオペレータまたは前記候補スワップオペレータに対応する二分木の葉の部分を語順変換して、原言語の目的言語の語順の文である1以上の第二目的言語語順文を取得する第二目的言語語順文取得手段とを具備し、前記順位相関算出部は、前記アライメント情報を用いて、前記対訳コーパスが有する1以上の目的言語文と、前記第一目的言語語順文取得手段が取得した1以上の第一目的言語語順文との第一順位相関を算出する第一順位相関算出手段と、前記アライメント情報を用いて、前記対訳コーパスが有する1以上の目的言語文と、前記第二目的言語語順文取得手段が取得した1以上の第二目的言語語順文との第二順位相関を算出する第二順位相関算出手段とを具備し、前記スワップオペレータ取得部は、前記第一順位相関と前記第二順位相関とを比較し、所定の条件を満たすほど前記第二順位相関が大きい場合、前記候補スワップオペレータをスワップオペレータとして取得し、前記スワップオペレータ蓄積部は、前記スワップオペレータ取得部が取得したスワップオペレータを、前記スワップオペレータ格納部に蓄積し、前記候補スワップオペレータ格納部のすべての候補スワップオペレータに対する処理を終了するまで、前記目的言語語順文取得部、前記順位相関算出部、前記スワップオペレータ取得部、および前記スワップオペレータ蓄積部の処理を継続させる制御部をさらに具備するものとして、コンピュータを機能させることは好適である。
また、図5は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の機械翻訳装置を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図5は、このコンピュータシステム300の概観図であり、図6は、システム300のブロック図である。
図5において、コンピュータシステム300は、CD−ROMドライブを含むコンピュータ301と、キーボード302と、マウス303と、モニタ304とを含む。
図6において、コンピュータ301は、CD−ROMドライブ3012に加えて、MPU3013と、MPU3013、CD−ROMドライブ3012に接続されたバス3014と、ブートアッププログラム等のプログラムを記憶するためのROM3015と、MPU3013に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのRAM3016と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク3017とを含む。ここでは、図示しないが、コンピュータ301は、さらに、LANへの接続を提供するネットワークカードを含んでも良い。
コンピュータシステム300に、上述した実施の形態の機械翻訳装置の機能を実行させるプログラムは、CD−ROM3101に記憶されて、CD−ROMドライブ3012に挿入され、さらにハードディスク3017に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ301に送信され、ハードディスク3017に記憶されても良い。プログラムは実行の際にRAM3016にロードされる。プログラムは、CD−ROM3101またはネットワークから直接、ロードされても良い。
プログラムは、コンピュータ301に、上述した実施の形態の機械翻訳装置の機能を実行させるオペレーティングシステム(OS)、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム300がどのように動作するかは周知であり、詳細な説明は省略する。
なお、上記プログラムにおいて、情報を送信する送信ステップや、情報を受信する受信ステップなどでは、ハードウェアによって行われる処理、例えば、送信ステップにおけるモデムやインターフェースカードなどで行われる処理(ハードウェアでしか行われない処理)は含まれない。
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
また、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
以上のように、本発明にかかる機械翻訳装置は、任意の二言語間で、高精度な機械翻訳ができる、という効果を有し、機械翻訳装置等として有用である。
1 機械翻訳装置
101 アライメント情報格納部
102 対訳コーパス
103 スワップオペレータ候補格納部
104 スワップオペレータ格納部
105 例外情報格納部
106 受付部
107 二分木取得部
108 判断部
109 入替部
110 機械翻訳部
111 出力部
112 構文解析部
113 目的言語語順文取得部
114 順位相関算出部
115 スワップオペレータ取得部
116 スワップオペレータ蓄積部
117 制御部
1131 第一目的言語語順文取得手段
1132 第二目的言語語順文取得手段
1141 第一順位相関算出手段
1142 第二順位相関算出手段

Claims (6)

  1. 語順の入れ替えが発生する二分木の文脈自由文法規則を示す情報である1以上のスワップオペレータを格納し得るスワップオペレータ格納部と、
    原言語文を受け付ける受付部と、
    前記原言語文を構文解析し、当該構文解析の結果を用いて、1以上の二分木を取得する二分木取得部と、
    前記1以上の各二分木に対して、前記スワップオペレータ格納部のスワップオペレータを適用し、いずれかのスワップオペレータに対応するか否かを判断する判断部と、
    前記判断部がいずれかのスワップオペレータに対応すると判断した二分木の葉の部分の語順を入れ替える入替部と、
    前記入替部の処理結果に対して、目的言語への機械翻訳を実行し、目的言語文を取得する機械翻訳部と、
    前記機械翻訳部が取得した目的言語文を出力する出力部とを具備する機械翻訳装置。
  2. 枝分かれが3以上のn分木であり、二分木を構成しないことを示す情報である1以上の例外情報を格納し得る例外情報格納部をさらに具備し、
    前記二分木取得部は、
    前記原言語文を構文解析した結果のうち、前記1以上のいずれかの例外情報に対応しない部分に対してのみ、1以上の二分木を取得し、
    前記判断部は、
    前記原言語文を構文解析した結果のうち、前記1以上のいずれかの例外情報に対応する部分について、いずれかのスワップオペレータに対応するか否かを判断しない請求項1記載の機械翻訳装置。
  3. 原言語文と目的言語文とを対応付けた1組以上の対応文を格納し得る対訳コーパスと、
    原言語の単語または句と目的言語の単語または句とのアライメントの情報であるアライメント情報を格納し得るアライメント情報格納部と、
    語順の入れ替えが発生する二分木の文脈自由文法規則を示す情報であるスワップオペレータの候補である1以上のスワップオペレータ候補を格納し得るスワップオペレータ候補格納部と、
    前記対訳コーパスの1以上の原言語文を構文解析し、原言語文の1以上の二分木を取得する構文解析部と、
    前記構文解析部が取得した原言語文の1以上の二分木に対して、前記1以上の各スワップオペレータ候補を適用し、スワップオペレータ候補に対応する二分木の葉の部分を語順変換して、原言語の目的言語の語順の文である1以上の目的言語語順文を取得する目的言語語順文取得部と、
    前記アライメント情報を用いて、前記対訳コーパスが有する1以上の目的言語文と、前記目的言語語順文取得部が取得した1以上の目的言語語順文との順位相関を算出する順位相関算出部と、
    前記順位相関算出部が算出した順位相関が所定の条件を満たすほど大きい場合、当該順位相関に対応するスワップオペレータ候補をスワップオペレータとして取得するスワップオペレータ取得部と、
    前記スワップオペレータ取得部が取得したスワップオペレータを、前記スワップオペレータ格納部に蓄積するスワップオペレータ蓄積部とをさらに具備する請求項1または請求項2記載の機械翻訳装置。
  4. 前記スワップオペレータ候補格納部は、
    重要度の順にソートされた2以上のスワップオペレータ候補を格納しており、
    前記目的言語語順文取得部は、
    前記構文解析部が取得した原言語文の1以上の二分木に対して、初期値が空であるスワップオペレータ格納部の各スワップオペレータを適用し、当該各スワップオペレータに対応する二分木の葉の部分を語順変換して、原言語の目的言語の語順の文である1以上の第一目的言語語順文を取得する第一目的言語語順文取得手段と、
    前記構文解析部が取得した原言語文の1以上の二分木に対して、初期値が空であるスワップオペレータ格納部の各スワップオペレータおよび前記重要度順の上位から順次取り出されたスワップオペレータ候補を適用し、前記各スワップオペレータまたは前記スワップオペレータ候補に対応する二分木の葉の部分を語順変換して、原言語の目的言語の語順の文である1以上の第二目的言語語順文を取得する第二目的言語語順文取得手段とを具備し、
    前記順位相関算出部は、
    前記アライメント情報を用いて、前記対訳コーパスが有する1以上の目的言語文と、前記第一目的言語語順文取得手段が取得した1以上の第一目的言語語順文との第一順位相関を算出する第一順位相関算出手段と、
    前記アライメント情報を用いて、前記対訳コーパスが有する1以上の目的言語文と、前記第二目的言語語順文取得手段が取得した1以上の第二目的言語語順文との第二順位相関を算出する第二順位相関算出手段とを具備し、
    前記スワップオペレータ取得部は、
    前記第一順位相関と前記第二順位相関とを比較し、所定の条件を満たすほど前記第二順位相関が大きい場合、前記スワップオペレータ候補をスワップオペレータとして取得し、
    前記スワップオペレータ蓄積部は、
    前記スワップオペレータ取得部が取得したスワップオペレータを、前記スワップオペレータ格納部に蓄積し、
    前記スワップオペレータ候補格納部のすべてのスワップオペレータ候補に対する処理を終了するまで、前記目的言語語順文取得部、前記順位相関算出部、前記スワップオペレータ取得部、および前記スワップオペレータ蓄積部の処理を継続させる制御部をさらに具備する請求項3記載の機械翻訳装置。
  5. 記録媒体に、
    語順の入れ替えが発生する二分木の文脈自由文法規則を示す情報である2以上のスワップオペレータを格納しており、
    受付部、二分木取得部、判断部、入替部、機械翻訳部、および出力部により実現される機械翻訳方法であって、
    前記受付部が、原言語文を受け付ける受付部と、
    前記二分木取得部が、前記原言語文を構文解析し、当該構文解析の結果を用いて、1以上の二分木を取得する二分木取得ステップと、
    前記判断部が、前記1以上の各二分木に対して、前記記録媒体のスワップオペレータを適用し、いずれかのスワップオペレータに対応するか否かを判断する判断ステップと、
    前記入替部が、前記判断ステップでいずれかのスワップオペレータに対応すると判断された二分木の葉の部分の語順を入れ替える入替ステップと、
    前記機械翻訳部が、前記入替ステップにおける処理結果に対して、目的言語への機械翻訳を実行し、目的言語文を取得する機械翻訳ステップと、
    前記出力部が、前記機械翻訳ステップで取得された目的言語文を出力する出力ステップとを具備する機械翻訳方法。
  6. 語順の入れ替えが発生する二分木の文脈自由文法規則を示す情報である2以上のスワップオペレータを格納し得るスワップオペレータ格納部にアクセス可能なコンピュータを、
    原言語文を受け付ける受付部と、
    前記原言語文を構文解析し、当該構文解析の結果を用いて、1以上の二分木を取得する二分木取得部と、
    前記1以上の各二分木に対して、前記スワップオペレータ格納部のスワップオペレータを適用し、いずれかのスワップオペレータに対応するか否かを判断する判断部と、
    前記判断部がいずれかのスワップオペレータに対応すると判断した二分木の葉の部分の語順を入れ替える入替部と、
    前記入替部の処理結果に対して、目的言語への機械翻訳を実行し、目的言語文を取得する機械翻訳部と、
    前記機械翻訳部が取得した目的言語文を出力する出力部として機能させるためのプログラム。
JP2012122866A 2012-05-30 2012-05-30 機械翻訳装置、機械翻訳方法、およびプログラム Active JP5924677B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012122866A JP5924677B2 (ja) 2012-05-30 2012-05-30 機械翻訳装置、機械翻訳方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012122866A JP5924677B2 (ja) 2012-05-30 2012-05-30 機械翻訳装置、機械翻訳方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2013250605A true JP2013250605A (ja) 2013-12-12
JP5924677B2 JP5924677B2 (ja) 2016-05-25

Family

ID=49849280

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012122866A Active JP5924677B2 (ja) 2012-05-30 2012-05-30 機械翻訳装置、機械翻訳方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP5924677B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016125710A1 (ja) * 2015-02-02 2016-08-11 国立研究開発法人情報通信研究機構 構文解析装置、学習装置、機械翻訳装置、および記録媒体
JP2017021596A (ja) * 2015-07-10 2017-01-26 日本電信電話株式会社 単語並べ替え学習装置、単語並べ替え装置、方法、及びプログラム
JP2019533181A (ja) * 2016-08-02 2019-11-14 ハイパーコネクト インコーポレイテッド 通訳装置及び方法(device and method of translating a language)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05266069A (ja) * 1992-03-23 1993-10-15 Nec Corp 中国語と日本語との間の双方向機械翻訳方式

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05266069A (ja) * 1992-03-23 1993-10-15 Nec Corp 中国語と日本語との間の双方向機械翻訳方式

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN7015003568; Kenji Yamada and Kevin Knight: 'A syntax-based statistical translation model' Proceedings of the 39th Annual Meeting on Association for Computational Linguistics , 20010711, p.523-530, Association for Computational Linguistics *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016125710A1 (ja) * 2015-02-02 2016-08-11 国立研究開発法人情報通信研究機構 構文解析装置、学習装置、機械翻訳装置、および記録媒体
JP2017021596A (ja) * 2015-07-10 2017-01-26 日本電信電話株式会社 単語並べ替え学習装置、単語並べ替え装置、方法、及びプログラム
JP2019533181A (ja) * 2016-08-02 2019-11-14 ハイパーコネクト インコーポレイテッド 通訳装置及び方法(device and method of translating a language)

Also Published As

Publication number Publication date
JP5924677B2 (ja) 2016-05-25

Similar Documents

Publication Publication Date Title
CN110874537B (zh) 多语言翻译模型的生成方法、翻译方法及设备
Ortega et al. Neural machine translation with a polysynthetic low resource language
KR101762866B1 (ko) 구문 구조 변환 모델과 어휘 변환 모델을 결합한 기계 번역 장치 및 기계 번역 방법
KR100530154B1 (ko) 변환방식 기계번역시스템에서 사용되는 변환사전을생성하는 방법 및 장치
KR20080014845A (ko) 1개 국어 및 이용가능한 2개 국어 코퍼스로부터의 연어번역을 위한 컴퓨터 판독가능 매체, 추출 방법 및 추출시스템
US9779086B2 (en) Learning apparatus, translation apparatus, learning method, and translation method
KR20120021933A (ko) 의존관계 포레스트를 이용한 통계적 기계 번역 방법
Lindén et al. Hfst—a system for creating nlp tools
JP2017199363A (ja) 機械翻訳装置及び機械翻訳のためのコンピュータプログラム
JP5911098B2 (ja) 翻訳装置、およびプログラム
JP6952967B2 (ja) 自動翻訳装置
JP5924677B2 (ja) 機械翻訳装置、機械翻訳方法、およびプログラム
JP5410334B2 (ja) 語順変換装置、機械翻訳用統計モデル作成装置、機械翻訳装置、語順変換方法、機械翻訳用統計モデル作成方法、機械翻訳方法、プログラム
JP5552101B2 (ja) 並べ替え規則学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラム
JP2010244385A (ja) 機械翻訳装置、機械翻訳方法、およびプログラム
Rikters Hybrid machine translation by combining output from multiple machine translation systems
Salami et al. Phrase-boundary model for statistical machine translation
Nguyen et al. A tree-to-string phrase-based model for statistical machine translation
Rikters et al. Combining machine translated sentence chunks from multiple MT systems
US20180011833A1 (en) Syntax analyzing device, learning device, machine translation device and storage medium
Bhat et al. A house united: bridging the script and lexical barrier between Hindi and Urdu
JP2004318344A (ja) 機械翻訳システム及び機械翻訳方法、並びにコンピュータ・プログラム
JP6221339B2 (ja) 翻訳装置及び翻訳方法
Zhang et al. A unified approach for effectively integrating source-side syntactic reordering rules into phrase-based translation
Kapanadze et al. Building resources for georgian treebanking-based nlp

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150305

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151211

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151217

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160324

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160412

R150 Certificate of patent or registration of utility model

Ref document number: 5924677

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250