JP2018055328A - 対訳文抽出装置、対訳文抽出方法およびプログラム - Google Patents

対訳文抽出装置、対訳文抽出方法およびプログラム Download PDF

Info

Publication number
JP2018055328A
JP2018055328A JP2016189424A JP2016189424A JP2018055328A JP 2018055328 A JP2018055328 A JP 2018055328A JP 2016189424 A JP2016189424 A JP 2016189424A JP 2016189424 A JP2016189424 A JP 2016189424A JP 2018055328 A JP2018055328 A JP 2018055328A
Authority
JP
Japan
Prior art keywords
sentence
language
document
translation
bilingual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016189424A
Other languages
English (en)
Inventor
佐藤 大輔
Daisuke Sato
大輔 佐藤
松永 務
Tsutomu Matsunaga
務 松永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Group Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP2016189424A priority Critical patent/JP2018055328A/ja
Publication of JP2018055328A publication Critical patent/JP2018055328A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】一般の辞書を用いて文同士を対応付ける場合と比較して、より品質の高い対訳コーパスを作成する。【解決手段】対訳文抽出装置の第1対訳文取得部は、対訳文書を構成する第1言語の文と第2言語の文を、対訳辞書を用いてマッチングして、第1言語と第2言語の対訳文を取得する。翻訳モデル生成部は、取得された対訳文に基づいて翻訳モデルを生成する。翻訳部は、生成された翻訳モデルを用いて、第2言語の文書を第1言語に翻訳して翻訳文書を作成する。単語一致度算出部は、第1言語の文書を構成する各文について、翻訳文書を構成する各文との間の単語の一致度を算出する。第2対訳文取得部は、第1言語の文書を構成する各文について、翻訳文書を構成する文のうち、他の文と比較して単語の一致度が高い文を特定し、当該第1言語の文と、当該特定した文に対応する第2言語の文の組を、対訳文として取得する。【選択図】図1

Description

本発明は、対訳コーパスを作成する技術に関する。
近年、統計的機械翻訳やテキストマイニングに利用するため、大量で良質な対訳コーパスを作成することの重要性が認識されてきている。一般に対訳コーパスの作成には多大なコストがかかることから、その効率的な作成方法が技術的課題となっている。対訳コーパスを作成する方法としては、例えば、対訳文書を構成する一方の言語の文書を辞書引きして他方の言語の単語群に変換し、他方の言語の文との間で単語の一致数を計ることで、文の対応付けを行う方法が知られている(非特許文献1参照)。
石坂達也、内山将夫、隅田英一郎、山本和英、「大規模オープンソース日英対訳コーパスの構築」、情報処理学会研究報告、2009-NL-191、p.1-6、2009年5月
しかし、従来のコーパス作成方法では、一般の辞書を用いて単語の一致数を計り、文同士を対応付ける結果、一般の辞書に載っていないような専門用語が記載された対訳文書に基づいて対訳コーパスを作成する場合には、文全体として見たときに対訳となっていない文同士を対応付けてしまう場合があった。
本発明は、このような事情に鑑みてなされたものであり、一般の辞書を用いて単語の一致数を計り、文同士を対応付ける場合と比較して、より品質の高い対訳コーパスを作成することを目的とする。
上記の課題を解決するため、本発明は、第1言語と第2言語の対訳文書を取得する対訳文書取得部と、前記取得された対訳文書を構成する前記第1言語の文と前記第2言語の文を、前記第1言語と前記第2言語の対訳辞書を用いてマッチングして、前記第1言語と前記第2言語の対訳文を取得する第1対訳文取得部と、前記取得された対訳文に基づいて第1翻訳モデルを生成する翻訳モデル生成部と、前記生成された第1翻訳モデルを用いて、前記対訳文書を構成する前記第2言語の文書を前記第1言語に翻訳して第1翻訳文書を作成する翻訳部と、前記対訳文書と前記作成された第1翻訳文書とを文に分割する分割部と、前記第1言語の文書を構成する各文について、前記第1翻訳文書を構成する各文との間の単語の一致度を算出する単語一致度算出部と、前記第1言語の文書を構成する各文について、前記第1翻訳文書を構成する文のうち、他の文と比較して単語の一致度が高い文を特定し、当該第1言語の文と、当該特定した文に対応する前記第2言語の文の組を、対訳文として取得する第2対訳文取得部とを備える対訳文抽出装置を提供する。
好適な態様において、前記翻訳モデル生成部は、前記第2対訳文取得部により取得された対訳文に基づいて第2翻訳モデルを生成し、前記翻訳部は、前記生成された第2翻訳モデルを用いて、前記対訳文書を構成する前記第2言語の文書を前記第1言語に翻訳して第2翻訳文書を作成し、前記分割部は、前記作成された第2翻訳文書を文に分割し、前記単語一致度算出部は、前記第1言語の文書を構成する各文について、前記第2翻訳文書を構成する各文との間の単語の一致度を算出し、前記第2対訳文取得部は、前記第1言語の文書を構成する各文について、前記第2翻訳文書を構成する文のうち、他の文と比較して単語の一致度が高い文を特定し、当該第1言語の文と、当該特定した文に対応する前記第2言語の文の組を、対訳文として取得する。
また、本発明は、1以上のコンピュータにより実行される対訳文抽出方法であって、第1言語と第2言語の対訳文書を取得するステップと、前記取得された対訳文書を構成する前記第1言語の文と前記第2言語の文を、前記第1言語と前記第2言語の対訳辞書を用いてマッチングして、前記第1言語と前記第2言語の対訳文を取得するステップと、前記取得された対訳文に基づいて第1翻訳モデルを生成するステップと、前記生成された第1翻訳モデルを用いて、前記対訳文書を構成する前記第2言語の文書を前記第1言語に翻訳して第1翻訳文書を作成するステップと、前記対訳文書と前記作成された第1翻訳文書とを文に分割するステップと、前記第1言語の文書を構成する各文について、前記第1翻訳文書を構成する各文との間の単語の一致度を算出するステップと、前記第1言語の文書を構成する各文について、前記第1翻訳文書を構成する文のうち、他の文と比較して単語の一致度が高い文を特定し、当該第1言語の文と、当該特定した文に対応する前記第2言語の文の組を、対訳文として取得するステップとを備える対訳文抽出方法を提供する。
また、本発明は、コンピュータに、第1言語と第2言語の対訳文書を取得するステップと、前記取得された対訳文書を構成する前記第1言語の文と前記第2言語の文を、前記第1言語と前記第2言語の対訳辞書を用いてマッチングして、前記第1言語と前記第2言語の対訳文を取得するステップと、前記取得された対訳文に基づいて第1翻訳モデルを生成するステップと、前記生成された第1翻訳モデルを用いて、前記対訳文書を構成する前記第2言語の文書を前記第1言語に翻訳して第1翻訳文書を作成するステップと、前記対訳文書と前記作成された第1翻訳文書とを文に分割するステップと、前記第1言語の文書を構成する各文について、前記第1翻訳文書を構成する各文との間の単語の一致度を算出するステップと、前記第1言語の文書を構成する各文について、前記第1翻訳文書を構成する文のうち、他の文と比較して単語の一致度が高い文を特定し、当該第1言語の文と、当該特定した文に対応する前記第2言語の文の組を、対訳文として取得するステップとを実行させるためのプログラムを提供する。
本発明によれば、一般の辞書を用いて単語の一致数を計り、文同士を対応付ける場合と比較して、より品質の高い対訳コーパスを作成することができる。
対訳文抽出装置1の構成の一例を示すブロック図である。 対訳文抽出処理の一例を示すフロー図である。 対訳文書の一例を示す図である。 対訳文記憶部106のデータの一例を示す図である。 対訳文書記憶部101のデータの一例を示す図である。 日本語文記憶部111に記憶されるデータの一例を示す図である。 英語文記憶部112に記憶されるデータの一例を示す図である。 単語の一致度の算出方法の一例を説明する図である。
1.実施形態
1−1.構成
図1は、本実施形態に係る対訳文抽出装置1の構成の一例を示すブロック図である。対訳文抽出装置1は、CPU等の演算処理装置と、HDD等の記憶装置を備えるコンピュータである。この対訳文抽出装置1は、対訳文書記憶部101と、第1対訳文書取得部102と、第1単語分割部103と、対訳辞書記憶部104と、第1対訳文取得部105と、対訳文記憶部106と、翻訳モデル生成部107と、翻訳部108と、第2対訳文書取得部109と、第2単語分割部110と、日本語文記憶部111と、英語文記憶部112と、単語一致度算出部113と、第2対訳文取得部114という機能を備える。これらの機能のうち、対訳文書記憶部101、対訳辞書記憶部104、対訳文記憶部106、日本語文記憶部111および英語文記憶部112の機能は、記憶装置により実現される。その他の機能は、演算処理装置が、記憶装置に記憶されるプログラムを実行することにより実現される。
対訳文書記憶部101は、第1言語と第2言語の対訳文書を記憶する。ここで、第1言語は日本語であり、第2言語は英語である。対訳文書とは、日本語の文書と、当該文書を英語に翻訳して作成した英語の文書の対である。対訳文書は、例えば、同じ特許ファミリに属する日本特許出願の特許公報と米国特許出願の特許公報の対である。または、日本語の新聞記事と、当該新聞記事の英語版の対である。または、オープンソースソフトウェアの英語版のマニュアルと、当該マニュアルの日本語訳の対である。
第1対訳文書取得部102は、対訳文書記憶部101から対訳文書を取得する。
第1単語分割部103は、第1対訳文書取得部102により取得された対訳文書を文に分割し、かつ、各文を単語に分割する。日本語の文書については、形態素解析を行って、句点を手掛かりに文に分割し、かつ、各文を単語に分割する。その際、活用語を基本形に変換してもよい。英語の文書については、ピリオドを手掛かりに文に分割し、かつ、スペースを手掛かりに各文を単語に分割する。その際、語尾の解析を行って活用語を基本形に変換してもよい。また、大文字を小文字に変換し、かつ、複数形を単数形に変換してもよい。なお、他の実施形態において、第1単語分割部103は、他の周知の方法を用いて、第1対訳文書取得部102により取得された対訳文書を文に分割し、かつ、各文を単語に分割してもよい。
対訳辞書記憶部104は、対訳辞書を記憶する。ここで、対訳辞書とは、日本語の単語と、当該単語と同じ意味を持つ英語の単語の対の集合である。
第1対訳文取得部105は、第1単語分割部103により切り出された日本語の文と英語の文を、対訳辞書記憶部104に記憶される対訳辞書を用いてマッチングして、日本語と英語の対訳文を取得する。具体的には、第1対訳文取得部105は、第1単語分割部103により切り出された英語の文を辞書引きして日本語の単語群に変換し、日本語の各文との類似度を算出し、算出した類似度が最大となる日本語の文と上記英語の文の対を対訳文として取得する。ここで、類似度とは、英語の文を辞書引きして得られた日本語の単語群と日本語の文の間で一致する単語の数に基づいて算出される値である。より具体的には、日本語の単語群と日本語の文に含まれるすべての自立語の数に対する、両者の間で一致する自立語の数の割合により表現される値である。例えば、第1対訳文取得部105は、上記の非特許文献に記載の対訳コーパス作成方法のように、DP(Dynamic Programming)マッチングを用いて対訳文を取得する。別の例として、第1対訳文取得部105は、Takehito Utsuro, et al. "Bilingual Text Matching using Bilingual Dictionary and Statistics," COLING, p.1076-1082, 1994に記載のようにDPマッチングを用いて対訳文を取得してもよい。なおここで、対訳文とは、日本語の文と、当該文を英語に翻訳して作成した英語の文の対である。言い換えると、日本語の文と、当該文と同じ意味を持つ英語の文の対である。
対訳文記憶部106は、第1対訳文取得部105により取得された対訳文(言い換えると、対訳コーパス)を記憶する。その際、対訳文記憶部106は、各対訳文を、当該対訳文を識別する対訳文IDと対応付けて記憶する。
翻訳モデル生成部107は、対訳文記憶部106に記憶された対訳文に基づいて翻訳モデルを生成する。その際、翻訳モデル生成部107は、例えばMosesデコーダ(http://www.statmt.org/moses/)を用いて翻訳モデルを生成する。Mosesデコーダについては、例えば、Philipp Koehn, et al. "Moses: Open Source Toolkit for Statistical Machine Translation," Annual Meeting of the Association for Computational Linguistics, demonstration session, Prague, Czech Republic, June 2007を参照のこと。
翻訳部108は、翻訳モデル生成部107により生成された翻訳モデルを用いて、第1対訳文書取得部102により取得された対訳文書を構成する英語の文書を日本語に翻訳して和訳文書を作成する。翻訳部108は、作成した和訳文書を、原文である英語の文書と対応付けて対訳文書記憶部101に記憶する。
第2対訳文書取得部109は、対訳文書記憶部101から対訳文書と、翻訳部108により作成され記憶された和訳文書とを取得する。
第2単語分割部110は、第2対訳文取得部114により取得された対訳文書と和訳文書とを文に分割し、かつ、各文を単語に分割する。日本語の文書と和訳文書については、形態素解析を行って、句点を手掛かりに文に分割し、かつ、各文を単語に分割する。その際、活用語を基本形に変換してもよい。英語の文書については、ピリオドを手掛かりに文に分割する。なおここで、単語とは、具体的には自立語であり、より具体的には、名詞、動詞、形容詞および副詞である。
日本語文記憶部111は、第2単語分割部110により日本語の文書から切り出された日本語の文と、当該文に含まれる単語の組とを対応付けて記憶する。その際、日本語文記憶部111は、各日本語の文を、当該文を識別するIDと対応付けて記憶する。
英語文記憶部112は、第2単語分割部110により英語の文書から切り出された英語の文と、和訳文書から切り出された和訳文と、当該和訳文に含まれる単語の組とを対応付けて記憶する。その際、英語文記憶部112は、各英語の文を、当該文を識別するIDと対応付けて記憶する。なおここで、切り出された英語の文と和訳文との対応付けは、各文書における記載順序に沿って行われる。例えば、英語の文書から切り出された最初の一文は、和訳文書から切り出された最初の一文と対応付けられる。
単語一致度算出部113は、日本語文記憶部111に記憶された各日本語の文について、英語文記憶部112に記憶された各和訳文との間の単語の一致度を算出する。ここで単語の一致度とは、具体的には、日本語の文と和訳文との間で一致する単語の数により表される
第2対訳文取得部114は、日本語文記憶部111に記憶された各日本語の文について、英語文記憶部112に記憶された和訳文のうち、他の文と比較して、単語一致度算出部113により算出された単語の一致度が高い文を特定し、当該日本語の文と、当該特定した文に対応する英語の文の組を、対訳文として取得する。ここで、単語の一致度が高い文とは、具体的には、英語文記憶部112に記憶された和訳文のうち、処理対象の日本語の文との間の単語の一致度が最大の文のことである。また、特定した和訳文に対応する英語の文とは、具体的には、特定した和訳文と英語文記憶部112において対応付けられている英語の文である。言い換えると、特定した和訳文の原文である英語の文である。第2対訳文取得部114は、日本語文記憶部111に記憶された各日本語の文について対訳文を取得すると、対訳文記憶部106に記憶されている対訳文を、取得した対訳文で更新する。
1−2.動作
対訳文抽出装置1の動作について説明する。図2は、対訳文抽出装置1により実行される対訳文抽出処理の一例を示すフロー図である。
この対訳文抽出処理のステップS1において、対訳文抽出装置1の第1対訳文書取得部102は、対訳文書記憶部101から対訳文書を取得する。図3は、対訳文書の一例を示す図である。
第1対訳文書取得部102により対訳文書が取得されると、第1単語分割部103は、取得された対訳文書を文に分割し、かつ、各文を単語に分割する(ステップS2)。日本語の文書については、形態素解析を行って、句点を手掛かりに文に分割し、かつ、各文を単語に分割する。英語の文書については、ピリオドを手掛かりに文に分割し、かつ、スペースを手掛かりに各文を単語に分割する。
第1単語分割部103により対訳文書が文に分割され、かつ、各文が単語に分割されると、第1対訳文取得部105は、第1単語分割部103により切り出された日本語の文と英語の文を、対訳辞書記憶部104に記憶される対訳辞書を用いてマッチングして、日本語と英語の対訳文を取得する(ステップS3)。対訳文を取得すると、第1対訳文取得部105は、各対訳文を対訳文IDと対応付けて対訳文記憶部106に記憶する(ステップS4)。図4は、第1対訳文取得部105により対訳文が記憶された対訳文記憶部106のデータの一例を示す図である。
第1対訳文取得部105により対訳文が対訳文記憶部106に記憶されると、翻訳モデル生成部107は、記憶された対訳文に基づいて翻訳モデルを生成する(ステップS5)。
翻訳モデル生成部107により翻訳モデルが生成されると、翻訳部108は、生成された翻訳モデルを用いて、第1対訳文書取得部102により取得された対訳文書を構成する英語の文書を日本語に翻訳して和訳文書を作成する(ステップS6)。翻訳部108は、作成した和訳文書を、原文である英語の文書と対応付けて対訳文書記憶部101に記憶する。図5は、翻訳部108により和訳文書が記憶された対訳文書記憶部101のデータの一例を示す図である。
翻訳部108により和訳文書が作成されると、第2対訳文書取得部109は、対訳文書記憶部101から対訳文書と、翻訳部108により作成され記憶された和訳文書とを取得する(ステップS7)。
第2対訳文書取得部109により対訳文書と和訳文書とが取得されると、第2単語分割部110は、取得された対訳文書と和訳文書とを文に分割し、かつ、各文を単語に分割する(ステップS8)。日本語の文書と和訳文書については、形態素解析を行って、句点を手掛かりに文に分割し、かつ、各文を単語に分割する。英語の文書については、ピリオドを手掛かりに文に分割する。第2単語分割部110は、日本語の文書から切り出された日本語の文と、当該文に含まれる単語の組とを対応付けて日本語文記憶部111に記憶する。また、英語の文書から切り出された英語の文と、和訳文書から切り出された和訳文と、当該和訳文に含まれる単語の組とを対応付けて英語文記憶部112に記憶する。図6は、日本語文記憶部111に記憶されるデータの一例を示す図である。図7は、英語文記憶部112に記憶されるデータの一例を示す図である。
なお、他の実施形態において、第2単語分割部110は、対訳文書については分割処理を行わずに、ステップS2で日本語の文書から切り出された日本語の文と、当該文に含まれる単語の組とを対応付けて日本語文記憶部111に記憶してもよい、また、ステップS2で英語の文書から切り出された英語の文と、ステップS8で和訳文書から切り出された和訳文と、当該和訳文に含まれる単語の組とを対応付けて英語文記憶部112に記憶してもよい。
第2単語分割部110により対訳文書と和訳文書に対して分割処理が行われると、単語一致度算出部113は、日本語文記憶部111に記憶された各日本語の文について、英語文記憶部112に記憶された各和訳文との間の単語の一致度を算出する(ステップS9)。図8は、単語の一致度の算出方法の一例を説明する図である。同図に示すID「030」の日本語の文は、ID「026」の和訳文との間で、「蛋白質」、「特異的」、「認識」、「モノクローナル」、「抗体」、「精製」および「行う」の計7個の単語が共通している。すなわち、両者の単語の一致度は「7」である。一方、同日本語の文は、ID「039」の和訳文との間で、「蛋白質」、「特異的」、「認識」、「抗体」、「精製」および「行う」の計6個の単語が共通している。すなわち、両者の単語の一致度は「6」である。
単語一致度算出部113により単語の一致度が算出されると、第2対訳文取得部114は、日本語文記憶部111に記憶された各日本語の文について、英語文記憶部112に記憶された和訳文のうち、他の文と比較して、単語一致度算出部113により算出された単語の一致度が高い文を特定し、当該日本語の文と、当該特定した文に対応する英語の文の組を、対訳文として取得する(ステップS10)。例えば、図8に示す例では、ID「026」および「039」の2つの和訳文のうち、ID「030」の日本語の文との間で単語の一致度が高いID「026」の和訳文が特定され、当該日本語の文と、特定された和訳文と対応付けられている英語の文の組が、対訳文として取得される。第2対訳文取得部114は、対訳文を取得すると、対訳文記憶部106に記憶されている対訳文を、取得した対訳文で更新する(ステップS11)。
以上が、対訳文抽出処理についての説明である。
以上説明した対訳文抽出装置1によれば、第1対訳文取得部105によりDPマッチングを用いて対訳文書から対訳文が取得された後に、取得された対訳文に基づいて翻訳モデルが生成され、その翻訳モデルを用いて作成された和訳文書と日本語の文書の間の単語の一致度に基づいて対訳文が取得されている。このように、本対訳文抽出装置1では、対訳文書から取得された対訳文に基づいて生成された翻訳モデルを用いて和訳文書が作成されるため、単に対訳辞書を用いて翻訳した場合と比較して翻訳の精度が向上する。翻訳の精度が向上する結果、単語の一致度の算出の精度も向上し、結果として、より品質の高い対訳コーパスを作成することができる。
例えば、図8に示す例を参照して説明すると、仮に「モノクローナル」という用語が対訳辞書に登録されていなかったとすると、上記の対訳文抽出処理のステップS4において、ID「030」の日本語の文は、ID「026」および「039」の2つの英語の文のうち、どちらに対応付ければよいか判断することができない。これは、英単語「monoclonal」を「モノクローナル」に翻訳することができない結果、いずれの英語の文も、ID「030」の日本語の文との間の単語の一致数が「6」となるからである。しかし、対訳文書から対訳文が取得され、その対訳文に、「モノクローナル」という用語を含む文が含まれていたと仮定すると、当該対訳文に基づいて生成された翻訳モデルを用いて作成された和訳文書では、英単語「monoclonal」が「モノクローナル」に翻訳されることになる。その結果、ID「026」の英語の文とID「030」の日本語の文の単語の一致度は「7」となり、両者は対訳文として対応付けられやすくなる。
2.変形例
上記の実施形態は、以下に記載するように変形してもよい。以下に記載する1以上の変形例は、互いに組み合わせてもよい。
2−1.変形例1
上記の実施形態に係る対訳文抽出装置1は、複数のコンピュータにより構成されるコンピュータシステムであってもよい。上記の実施形態に係る対訳文抽出装置1が備える記憶装置は、インターネット等の通信回線を介して対訳文抽出装置1と接続されてもよい。
2−2.変形例2
上記の実施形態において、第1言語を英語とし、第2言語を日本語としてもよい。また、第1言語と第2言語の組み合わせは、日本語と英語の他に、ドイツ語、フランス語、中国語、韓国語等の自然言語の中から任意に選択されてよい。
2−3.変形例3
上記の実施形態に係る第1対訳文取得部105は、第1単語分割部103により切り出された日本語の文を辞書引きして英語の単語群に変換し、英語の各文との類似度を算出し、算出した類似度が最大となる英語の文と上記日本語の文の対を対訳文として取得するようにしてもよい。
2−4.変形例4
上記の実施形態に係る翻訳モデル生成部107は、Mosesデコーダ以外の他のデコーダを用いて翻訳モデルを生成してもよい。例えば、Pharaohデコーダを用いて翻訳モデルを生成してもよい。Pharaohデコーダについては、例えば、Philipp Koehn, "Pharaoh: A Beam Search Decoder for Phrase-Based Statistical Machine Translation Models," Proceedings of the 6th Conference of the Association for Machine Translation in the Americas, p.115-124, 2004を参照のこと。
2−5.変形例5
上記の実施形態において、単語の一致度は、日本語の文と和訳文との間で一致する単語の数に基づいて算出される値により表されてもよい。具体的には、日本語の文と和訳文の両方に含まれるすべての単語の数に対する、両者の間で一致する単語の数の割合により表現されてもよい。
2−6.変形例6
上記の実施形態では、日本語の文と和訳文との間で単語の一致度が算出されているが、これに代えて、英語の文と英訳文との間で単語の一致度を算出するようにしてもよい。その場合、翻訳部108は、翻訳モデル生成部107により生成された翻訳モデルを用いて、第1対訳文書取得部102により取得された対訳文書を構成する日本語の文書を英語に翻訳して英訳文書を作成する。第2対訳文書取得部109は、対訳文書記憶部101から対訳文書と、翻訳部108により作成された英訳文書とを取得する。第2単語分割部110は、第2対訳文取得部114により取得された対訳文書と英訳文書とを文に分割し、かつ、各文を単語に分割する。日本語文記憶部111は、第2単語分割部110により日本語の文書から切り出された日本語の文と、英訳文書から切り出された英訳文と、当該英訳文に含まれる単語の組とを対応付けて記憶する。なおここで、切り出された日本語の文と英訳文との対応付けは、各文書における記載順序に沿って行われる。英語文記憶部112は、第2単語分割部110により英語の文書から切り出された英語の文と、当該文に含まれる単語の組とを対応付けて記憶する。単語一致度算出部113は、日本語文記憶部111に記憶された各英訳文について、英語文記憶部112に記憶された各英語の文との間の単語の一致度を算出する。
別の例として、日本語の文と和訳文との間で単語の一致度に加えて、英語の文と英訳文との間で単語の一致度も算出するようにしてもよい。その場合、第2対訳文取得部114は、日本語の文と和訳文との間の単語の一致度が最大となり、かつ、英訳文と英語の文との間の単語の一致度が最大となる日本語の文と英語の文の組を、対訳文として取得するようにしてもよい。
2−7.変形例7
上記の実施形態に係る対訳文抽出処理において、ステップS11で対訳文記憶部106に記憶された対訳文に基づいて、再度、ステップS5〜S11を実行してもよい。ステップS5〜S11を繰り返し実行することで、品質の向上した対訳文に基づいて翻訳モデルを生成し、その翻訳モデルを用いて作成した和訳文書と日本語の文書の間の単語の一致度に基づいて対訳文を取得することができる。すなわち、さらに品質の向上した対訳コーパスを作成することができる。なお、ステップS5〜S11を繰り返し実行する回数は、対訳文抽出装置1の利用者により設定されてよい。
2−8.変形例8
上記の変形例7において、再度、ステップS5〜S11を実行する際に、上記の変形例6のように、日本語の文と和訳文との間で単語の一致度を算出するのに代えて、英語の文と英訳文との間で単語の一致度を算出するようにしてもよい。
別の例として、英語の文と英訳文との間の単語の一致度に代えて、編集距離を算出するようにしてもよい。その場合、単語一致度算出部113に代わり、編集距離算出部が、日本語文記憶部111に記憶された各日本語の文について、英語文記憶部112に記憶された各和訳文との間の編集距離を算出する。ここで編集距離とは、英訳文を英語の文に変更するために必要とされる編集操作の回数に基づいて算出される値である。具体的には、編集距離算出部は、編集距離としてTER(Translation Error Rate)を算出する。ここで、編集操作とは、具体的には、挿入、削除、置換および並び替えの4つの操作である。TERについては、例えば、Matthew Snover, et al. “A study of translation edit rate with targeted human annotation,” Proceedings of Association for Machine Translation in the Americas, p.223-231, 2006を参照のこと。単語の一致度に代えて編集距離を算出する場合には、第2対訳文取得部114は、日本語文記憶部111に記憶された各日本語の文について、英語文記憶部112に記憶された英語の文のうち、他の文と比較して、編集距離算出部により算出された編集距離が小さい文を特定し、当該日本語の文と、当該特定した文に対応する英語の文の組を、対訳文として取得する。
なお、編集距離算出部は、編集距離として、TER以外の値を算出してもよい。例えば、Levenshtein距離や、Damerau-Levenshtein距離や、Jaro-Winkler距離を算出してもよい。
別の例として、編集距離算出部は、編集距離に代えて、BLUEまたはRIBESを算出してもよい。BLUEについては、例えば、Kishore Papineni, et al. “BLUE: a method for automatic evaluation of machine translation,” Proc. of the 40th Annual Meeting of the Association for Computational Linguistics, p.311-318, July 2002を参照のこと。RIBESについては、例えば、平尾努,他「RIBES: 順位相関に基づく翻訳の自動評価法」、言語処理学会 第17回年次大会発表論文集、p.1115-1118、2011年3月を参照のこと。
2−9.変形例9
上記の実施形態または変形例に係る対訳文抽出装置1の各機能を実現するためのプログラムは、コンピュータ装置が読み取り可能な記録媒体を介して提供されてもよい。ここで、記録媒体とは、例えば、磁気テープや磁気ディスクなどの磁気記録媒体や、光ディスクなどの光記録媒体や、光磁気記録媒体や、半導体メモリ等である。また、このプログラムは、インターネット等のネットワークを介して提供されてもよい。
1…対訳文抽出装置、101…対訳文書記憶部、102…第1対訳文書取得部、103…第1単語分割部、104…対訳辞書記憶部、105…第1対訳文取得部、106…対訳文記憶部、107…翻訳モデル生成部、108…翻訳部、109…第2対訳文書取得部、110…第2単語分割部、111…日本語文記憶部、112…英語文記憶部、113…単語一致度算出部、114…第2対訳文取得部

Claims (4)

  1. 第1言語と第2言語の対訳文書を取得する対訳文書取得部と、
    前記取得された対訳文書を構成する前記第1言語の文と前記第2言語の文を、前記第1言語と前記第2言語の対訳辞書を用いてマッチングして、前記第1言語と前記第2言語の対訳文を取得する第1対訳文取得部と、
    前記取得された対訳文に基づいて第1翻訳モデルを生成する翻訳モデル生成部と、
    前記生成された第1翻訳モデルを用いて、前記対訳文書を構成する前記第2言語の文書を前記第1言語に翻訳して第1翻訳文書を作成する翻訳部と、
    前記対訳文書と前記作成された第1翻訳文書とを文に分割する分割部と、
    前記第1言語の文書を構成する各文について、前記第1翻訳文書を構成する各文との間の単語の一致度を算出する単語一致度算出部と、
    前記第1言語の文書を構成する各文について、前記第1翻訳文書を構成する文のうち、他の文と比較して単語の一致度が高い文を特定し、当該第1言語の文と、当該特定した文に対応する前記第2言語の文の組を、対訳文として取得する第2対訳文取得部と
    を備える対訳文抽出装置。
  2. 前記翻訳モデル生成部は、前記第2対訳文取得部により取得された対訳文に基づいて第2翻訳モデルを生成し、
    前記翻訳部は、前記生成された第2翻訳モデルを用いて、前記対訳文書を構成する前記第2言語の文書を前記第1言語に翻訳して第2翻訳文書を作成し、
    前記分割部は、前記作成された第2翻訳文書を文に分割し、
    前記単語一致度算出部は、前記第1言語の文書を構成する各文について、前記第2翻訳文書を構成する各文との間の単語の一致度を算出し、
    前記第2対訳文取得部は、前記第1言語の文書を構成する各文について、前記第2翻訳文書を構成する文のうち、他の文と比較して単語の一致度が高い文を特定し、当該第1言語の文と、当該特定した文に対応する前記第2言語の文の組を、対訳文として取得する
    ことを特徴とする請求項1に記載の対訳文抽出装置。
  3. 1以上のコンピュータにより実行される対訳文抽出方法であって、
    第1言語と第2言語の対訳文書を取得するステップと、
    前記取得された対訳文書を構成する前記第1言語の文と前記第2言語の文を、前記第1言語と前記第2言語の対訳辞書を用いてマッチングして、前記第1言語と前記第2言語の対訳文を取得するステップと、
    前記取得された対訳文に基づいて第1翻訳モデルを生成するステップと、
    前記生成された第1翻訳モデルを用いて、前記対訳文書を構成する前記第2言語の文書を前記第1言語に翻訳して第1翻訳文書を作成するステップと、
    前記対訳文書と前記作成された第1翻訳文書とを文に分割するステップと、
    前記第1言語の文書を構成する各文について、前記第1翻訳文書を構成する各文との間の単語の一致度を算出するステップと、
    前記第1言語の文書を構成する各文について、前記第1翻訳文書を構成する文のうち、他の文と比較して単語の一致度が高い文を特定し、当該第1言語の文と、当該特定した文に対応する前記第2言語の文の組を、対訳文として取得するステップと
    を備える対訳文抽出方法。
  4. コンピュータに、
    第1言語と第2言語の対訳文書を取得するステップと、
    前記取得された対訳文書を構成する前記第1言語の文と前記第2言語の文を、前記第1言語と前記第2言語の対訳辞書を用いてマッチングして、前記第1言語と前記第2言語の対訳文を取得するステップと、
    前記取得された対訳文に基づいて第1翻訳モデルを生成するステップと、
    前記生成された第1翻訳モデルを用いて、前記対訳文書を構成する前記第2言語の文書を前記第1言語に翻訳して第1翻訳文書を作成するステップと、
    前記対訳文書と前記作成された第1翻訳文書とを文に分割するステップと、
    前記第1言語の文書を構成する各文について、前記第1翻訳文書を構成する各文との間の単語の一致度を算出するステップと、
    前記第1言語の文書を構成する各文について、前記第1翻訳文書を構成する文のうち、他の文と比較して単語の一致度が高い文を特定し、当該第1言語の文と、当該特定した文に対応する前記第2言語の文の組を、対訳文として取得するステップと
    を実行させるためのプログラム。
JP2016189424A 2016-09-28 2016-09-28 対訳文抽出装置、対訳文抽出方法およびプログラム Pending JP2018055328A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016189424A JP2018055328A (ja) 2016-09-28 2016-09-28 対訳文抽出装置、対訳文抽出方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016189424A JP2018055328A (ja) 2016-09-28 2016-09-28 対訳文抽出装置、対訳文抽出方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2018055328A true JP2018055328A (ja) 2018-04-05

Family

ID=61834105

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016189424A Pending JP2018055328A (ja) 2016-09-28 2016-09-28 対訳文抽出装置、対訳文抽出方法およびプログラム

Country Status (1)

Country Link
JP (1) JP2018055328A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113609872A (zh) * 2021-03-29 2021-11-05 智慧芽信息科技(苏州)有限公司 文本处理方法及装置、模型训练方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009217689A (ja) * 2008-03-12 2009-09-24 National Institute Of Information & Communication Technology 情報処理装置、情報処理方法、及びプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009217689A (ja) * 2008-03-12 2009-09-24 National Institute Of Information & Communication Technology 情報処理装置、情報処理方法、及びプログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
中島 正裕: "統計翻訳のための文情報量を用いた対訳文選択", 情報処理学会第74回(平成24年)全国大会講演論文集(2) 人工知能と認知科学, JPN6020012800, 6 March 2012 (2012-03-06), pages 2 - 277, ISSN: 0004305349 *
安田 圭志: "翻訳自動評価法を用いた文アライメントの提案", 言語処理学会第14回年次大会発表論文集, JPN6020012799, 17 March 2008 (2008-03-17), pages 891 - 894, ISSN: 0004305348 *
石坂 達也: "大規模オープンソース日英対訳コーパスの構築", 情報処理学会研究報告 平成21年度▲1▼ [CD−ROM], vol. Vol.2009−NL−191, JPN6020012802, 15 June 2009 (2009-06-15), ISSN: 0004305350 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113609872A (zh) * 2021-03-29 2021-11-05 智慧芽信息科技(苏州)有限公司 文本处理方法及装置、模型训练方法及装置

Similar Documents

Publication Publication Date Title
KR101762866B1 (ko) 구문 구조 변환 모델과 어휘 변환 모델을 결합한 기계 번역 장치 및 기계 번역 방법
CN100527125C (zh) 一种统计机器翻译中的在线翻译模型选择方法和系统
US8886514B2 (en) Means and a method for training a statistical machine translation system utilizing a posterior probability in an N-best translation list
KR101266361B1 (ko) 구조화된 번역 메모리 기반의 자동 번역 시스템 및 자동 번역 방법
Chen et al. A simplification-translation-restoration framework for cross-domain SMT applications
CN108519963B (zh) 一种将流程模型自动转换为多语言文本的方法
Lyons A review of Thai–English machine translation
JP2016164707A (ja) 自動翻訳装置及び翻訳用モデル学習装置
Dandapat et al. Using example-based MT to support statistical MT when translating homogeneous data in a resource-poor setting
JP2018072979A (ja) 対訳文抽出装置、対訳文抽出方法およびプログラム
JP6678087B2 (ja) 対訳文抽出装置、対訳文抽出方法およびプログラム
JP2009205357A (ja) 中国語の品詞を判定する装置、方法およびプログラム
Aasha et al. Machine translation from English to Malayalam using transfer approach
JPH10312382A (ja) 類似用例翻訳システム
CN104331397B (zh) 一种机器翻译方法及系统
JP2018055328A (ja) 対訳文抽出装置、対訳文抽出方法およびプログラム
Pinnis et al. Developing a neural machine translation service for the 2017-2018 european union presidency
JP5298834B2 (ja) 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置
Krotova et al. A joint approach to compound splitting and idiomatic compound detection
Lavecchia et al. Using inter-lingual triggers for machine translation
CN1553381A (zh) 多语种对应目录式语言数据库及同步电脑互译、交流方法
JP5909123B2 (ja) 機械翻訳装置、機械翻訳方法およびプログラム
WO2009144890A1 (ja) 翻訳前換言規則生成システム
Chen et al. Semi-supervised Chinese word segmentation based on bilingual information
JP4708682B2 (ja) 対訳単語対の学習方法、装置、及び、対訳単語対の学習プログラムを記録した記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190710

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200325

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200407

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20200714