JP2018055328A

JP2018055328A - 対訳文抽出装置、対訳文抽出方法およびプログラム

Info

Publication number: JP2018055328A
Application number: JP2016189424A
Authority: JP
Inventors: 佐藤　大輔; Daisuke Sato; 大輔佐藤; 松永　務; Tsutomu Matsunaga; 務松永
Original assignee: NTT Data Corp
Current assignee: NTT Data Group Corp
Priority date: 2016-09-28
Filing date: 2016-09-28
Publication date: 2018-04-05

Abstract

【課題】一般の辞書を用いて文同士を対応付ける場合と比較して、より品質の高い対訳コーパスを作成する。【解決手段】対訳文抽出装置の第１対訳文取得部は、対訳文書を構成する第１言語の文と第２言語の文を、対訳辞書を用いてマッチングして、第１言語と第２言語の対訳文を取得する。翻訳モデル生成部は、取得された対訳文に基づいて翻訳モデルを生成する。翻訳部は、生成された翻訳モデルを用いて、第２言語の文書を第１言語に翻訳して翻訳文書を作成する。単語一致度算出部は、第１言語の文書を構成する各文について、翻訳文書を構成する各文との間の単語の一致度を算出する。第２対訳文取得部は、第１言語の文書を構成する各文について、翻訳文書を構成する文のうち、他の文と比較して単語の一致度が高い文を特定し、当該第１言語の文と、当該特定した文に対応する第２言語の文の組を、対訳文として取得する。【選択図】図１

Description

本発明は、対訳コーパスを作成する技術に関する。

近年、統計的機械翻訳やテキストマイニングに利用するため、大量で良質な対訳コーパスを作成することの重要性が認識されてきている。一般に対訳コーパスの作成には多大なコストがかかることから、その効率的な作成方法が技術的課題となっている。対訳コーパスを作成する方法としては、例えば、対訳文書を構成する一方の言語の文書を辞書引きして他方の言語の単語群に変換し、他方の言語の文との間で単語の一致数を計ることで、文の対応付けを行う方法が知られている（非特許文献１参照）。

石坂達也、内山将夫、隅田英一郎、山本和英、「大規模オープンソース日英対訳コーパスの構築」、情報処理学会研究報告、2009-NL-191、p.1-6、2009年5月

しかし、従来のコーパス作成方法では、一般の辞書を用いて単語の一致数を計り、文同士を対応付ける結果、一般の辞書に載っていないような専門用語が記載された対訳文書に基づいて対訳コーパスを作成する場合には、文全体として見たときに対訳となっていない文同士を対応付けてしまう場合があった。

本発明は、このような事情に鑑みてなされたものであり、一般の辞書を用いて単語の一致数を計り、文同士を対応付ける場合と比較して、より品質の高い対訳コーパスを作成することを目的とする。

上記の課題を解決するため、本発明は、第１言語と第２言語の対訳文書を取得する対訳文書取得部と、前記取得された対訳文書を構成する前記第１言語の文と前記第２言語の文を、前記第１言語と前記第２言語の対訳辞書を用いてマッチングして、前記第１言語と前記第２言語の対訳文を取得する第１対訳文取得部と、前記取得された対訳文に基づいて第１翻訳モデルを生成する翻訳モデル生成部と、前記生成された第１翻訳モデルを用いて、前記対訳文書を構成する前記第２言語の文書を前記第１言語に翻訳して第１翻訳文書を作成する翻訳部と、前記対訳文書と前記作成された第１翻訳文書とを文に分割する分割部と、前記第１言語の文書を構成する各文について、前記第１翻訳文書を構成する各文との間の単語の一致度を算出する単語一致度算出部と、前記第１言語の文書を構成する各文について、前記第１翻訳文書を構成する文のうち、他の文と比較して単語の一致度が高い文を特定し、当該第１言語の文と、当該特定した文に対応する前記第２言語の文の組を、対訳文として取得する第２対訳文取得部とを備える対訳文抽出装置を提供する。

好適な態様において、前記翻訳モデル生成部は、前記第２対訳文取得部により取得された対訳文に基づいて第２翻訳モデルを生成し、前記翻訳部は、前記生成された第２翻訳モデルを用いて、前記対訳文書を構成する前記第２言語の文書を前記第１言語に翻訳して第２翻訳文書を作成し、前記分割部は、前記作成された第２翻訳文書を文に分割し、前記単語一致度算出部は、前記第１言語の文書を構成する各文について、前記第２翻訳文書を構成する各文との間の単語の一致度を算出し、前記第２対訳文取得部は、前記第１言語の文書を構成する各文について、前記第２翻訳文書を構成する文のうち、他の文と比較して単語の一致度が高い文を特定し、当該第１言語の文と、当該特定した文に対応する前記第２言語の文の組を、対訳文として取得する。

また、本発明は、１以上のコンピュータにより実行される対訳文抽出方法であって、第１言語と第２言語の対訳文書を取得するステップと、前記取得された対訳文書を構成する前記第１言語の文と前記第２言語の文を、前記第１言語と前記第２言語の対訳辞書を用いてマッチングして、前記第１言語と前記第２言語の対訳文を取得するステップと、前記取得された対訳文に基づいて第１翻訳モデルを生成するステップと、前記生成された第１翻訳モデルを用いて、前記対訳文書を構成する前記第２言語の文書を前記第１言語に翻訳して第１翻訳文書を作成するステップと、前記対訳文書と前記作成された第１翻訳文書とを文に分割するステップと、前記第１言語の文書を構成する各文について、前記第１翻訳文書を構成する各文との間の単語の一致度を算出するステップと、前記第１言語の文書を構成する各文について、前記第１翻訳文書を構成する文のうち、他の文と比較して単語の一致度が高い文を特定し、当該第１言語の文と、当該特定した文に対応する前記第２言語の文の組を、対訳文として取得するステップとを備える対訳文抽出方法を提供する。

また、本発明は、コンピュータに、第１言語と第２言語の対訳文書を取得するステップと、前記取得された対訳文書を構成する前記第１言語の文と前記第２言語の文を、前記第１言語と前記第２言語の対訳辞書を用いてマッチングして、前記第１言語と前記第２言語の対訳文を取得するステップと、前記取得された対訳文に基づいて第１翻訳モデルを生成するステップと、前記生成された第１翻訳モデルを用いて、前記対訳文書を構成する前記第２言語の文書を前記第１言語に翻訳して第１翻訳文書を作成するステップと、前記対訳文書と前記作成された第１翻訳文書とを文に分割するステップと、前記第１言語の文書を構成する各文について、前記第１翻訳文書を構成する各文との間の単語の一致度を算出するステップと、前記第１言語の文書を構成する各文について、前記第１翻訳文書を構成する文のうち、他の文と比較して単語の一致度が高い文を特定し、当該第１言語の文と、当該特定した文に対応する前記第２言語の文の組を、対訳文として取得するステップとを実行させるためのプログラムを提供する。

本発明によれば、一般の辞書を用いて単語の一致数を計り、文同士を対応付ける場合と比較して、より品質の高い対訳コーパスを作成することができる。

対訳文抽出装置１の構成の一例を示すブロック図である。対訳文抽出処理の一例を示すフロー図である。対訳文書の一例を示す図である。対訳文記憶部１０６のデータの一例を示す図である。対訳文書記憶部１０１のデータの一例を示す図である。日本語文記憶部１１１に記憶されるデータの一例を示す図である。英語文記憶部１１２に記憶されるデータの一例を示す図である。単語の一致度の算出方法の一例を説明する図である。

１．実施形態
１−１．構成
図１は、本実施形態に係る対訳文抽出装置１の構成の一例を示すブロック図である。対訳文抽出装置１は、ＣＰＵ等の演算処理装置と、ＨＤＤ等の記憶装置を備えるコンピュータである。この対訳文抽出装置１は、対訳文書記憶部１０１と、第１対訳文書取得部１０２と、第１単語分割部１０３と、対訳辞書記憶部１０４と、第１対訳文取得部１０５と、対訳文記憶部１０６と、翻訳モデル生成部１０７と、翻訳部１０８と、第２対訳文書取得部１０９と、第２単語分割部１１０と、日本語文記憶部１１１と、英語文記憶部１１２と、単語一致度算出部１１３と、第２対訳文取得部１１４という機能を備える。これらの機能のうち、対訳文書記憶部１０１、対訳辞書記憶部１０４、対訳文記憶部１０６、日本語文記憶部１１１および英語文記憶部１１２の機能は、記憶装置により実現される。その他の機能は、演算処理装置が、記憶装置に記憶されるプログラムを実行することにより実現される。

対訳文書記憶部１０１は、第１言語と第２言語の対訳文書を記憶する。ここで、第１言語は日本語であり、第２言語は英語である。対訳文書とは、日本語の文書と、当該文書を英語に翻訳して作成した英語の文書の対である。対訳文書は、例えば、同じ特許ファミリに属する日本特許出願の特許公報と米国特許出願の特許公報の対である。または、日本語の新聞記事と、当該新聞記事の英語版の対である。または、オープンソースソフトウェアの英語版のマニュアルと、当該マニュアルの日本語訳の対である。

第１対訳文書取得部１０２は、対訳文書記憶部１０１から対訳文書を取得する。

第１単語分割部１０３は、第１対訳文書取得部１０２により取得された対訳文書を文に分割し、かつ、各文を単語に分割する。日本語の文書については、形態素解析を行って、句点を手掛かりに文に分割し、かつ、各文を単語に分割する。その際、活用語を基本形に変換してもよい。英語の文書については、ピリオドを手掛かりに文に分割し、かつ、スペースを手掛かりに各文を単語に分割する。その際、語尾の解析を行って活用語を基本形に変換してもよい。また、大文字を小文字に変換し、かつ、複数形を単数形に変換してもよい。なお、他の実施形態において、第１単語分割部１０３は、他の周知の方法を用いて、第１対訳文書取得部１０２により取得された対訳文書を文に分割し、かつ、各文を単語に分割してもよい。

対訳辞書記憶部１０４は、対訳辞書を記憶する。ここで、対訳辞書とは、日本語の単語と、当該単語と同じ意味を持つ英語の単語の対の集合である。

第１対訳文取得部１０５は、第１単語分割部１０３により切り出された日本語の文と英語の文を、対訳辞書記憶部１０４に記憶される対訳辞書を用いてマッチングして、日本語と英語の対訳文を取得する。具体的には、第１対訳文取得部１０５は、第１単語分割部１０３により切り出された英語の文を辞書引きして日本語の単語群に変換し、日本語の各文との類似度を算出し、算出した類似度が最大となる日本語の文と上記英語の文の対を対訳文として取得する。ここで、類似度とは、英語の文を辞書引きして得られた日本語の単語群と日本語の文の間で一致する単語の数に基づいて算出される値である。より具体的には、日本語の単語群と日本語の文に含まれるすべての自立語の数に対する、両者の間で一致する自立語の数の割合により表現される値である。例えば、第１対訳文取得部１０５は、上記の非特許文献に記載の対訳コーパス作成方法のように、ＤＰ（Dynamic Programming）マッチングを用いて対訳文を取得する。別の例として、第１対訳文取得部１０５は、Takehito Utsuro, et al. "Bilingual Text Matching using Bilingual Dictionary and Statistics," COLING, p.1076-1082, 1994に記載のようにＤＰマッチングを用いて対訳文を取得してもよい。なおここで、対訳文とは、日本語の文と、当該文を英語に翻訳して作成した英語の文の対である。言い換えると、日本語の文と、当該文と同じ意味を持つ英語の文の対である。

対訳文記憶部１０６は、第１対訳文取得部１０５により取得された対訳文（言い換えると、対訳コーパス）を記憶する。その際、対訳文記憶部１０６は、各対訳文を、当該対訳文を識別する対訳文ＩＤと対応付けて記憶する。

翻訳モデル生成部１０７は、対訳文記憶部１０６に記憶された対訳文に基づいて翻訳モデルを生成する。その際、翻訳モデル生成部１０７は、例えばMosesデコーダ（http://www.statmt.org/moses/）を用いて翻訳モデルを生成する。Mosesデコーダについては、例えば、Philipp Koehn, et al. "Moses: Open Source Toolkit for Statistical Machine Translation," Annual Meeting of the Association for Computational Linguistics, demonstration session, Prague, Czech Republic, June 2007を参照のこと。

翻訳部１０８は、翻訳モデル生成部１０７により生成された翻訳モデルを用いて、第１対訳文書取得部１０２により取得された対訳文書を構成する英語の文書を日本語に翻訳して和訳文書を作成する。翻訳部１０８は、作成した和訳文書を、原文である英語の文書と対応付けて対訳文書記憶部１０１に記憶する。

第２対訳文書取得部１０９は、対訳文書記憶部１０１から対訳文書と、翻訳部１０８により作成され記憶された和訳文書とを取得する。

第２単語分割部１１０は、第２対訳文取得部１１４により取得された対訳文書と和訳文書とを文に分割し、かつ、各文を単語に分割する。日本語の文書と和訳文書については、形態素解析を行って、句点を手掛かりに文に分割し、かつ、各文を単語に分割する。その際、活用語を基本形に変換してもよい。英語の文書については、ピリオドを手掛かりに文に分割する。なおここで、単語とは、具体的には自立語であり、より具体的には、名詞、動詞、形容詞および副詞である。

日本語文記憶部１１１は、第２単語分割部１１０により日本語の文書から切り出された日本語の文と、当該文に含まれる単語の組とを対応付けて記憶する。その際、日本語文記憶部１１１は、各日本語の文を、当該文を識別するＩＤと対応付けて記憶する。

英語文記憶部１１２は、第２単語分割部１１０により英語の文書から切り出された英語の文と、和訳文書から切り出された和訳文と、当該和訳文に含まれる単語の組とを対応付けて記憶する。その際、英語文記憶部１１２は、各英語の文を、当該文を識別するＩＤと対応付けて記憶する。なおここで、切り出された英語の文と和訳文との対応付けは、各文書における記載順序に沿って行われる。例えば、英語の文書から切り出された最初の一文は、和訳文書から切り出された最初の一文と対応付けられる。

単語一致度算出部１１３は、日本語文記憶部１１１に記憶された各日本語の文について、英語文記憶部１１２に記憶された各和訳文との間の単語の一致度を算出する。ここで単語の一致度とは、具体的には、日本語の文と和訳文との間で一致する単語の数により表される

第２対訳文取得部１１４は、日本語文記憶部１１１に記憶された各日本語の文について、英語文記憶部１１２に記憶された和訳文のうち、他の文と比較して、単語一致度算出部１１３により算出された単語の一致度が高い文を特定し、当該日本語の文と、当該特定した文に対応する英語の文の組を、対訳文として取得する。ここで、単語の一致度が高い文とは、具体的には、英語文記憶部１１２に記憶された和訳文のうち、処理対象の日本語の文との間の単語の一致度が最大の文のことである。また、特定した和訳文に対応する英語の文とは、具体的には、特定した和訳文と英語文記憶部１１２において対応付けられている英語の文である。言い換えると、特定した和訳文の原文である英語の文である。第２対訳文取得部１１４は、日本語文記憶部１１１に記憶された各日本語の文について対訳文を取得すると、対訳文記憶部１０６に記憶されている対訳文を、取得した対訳文で更新する。

１−２．動作
対訳文抽出装置１の動作について説明する。図２は、対訳文抽出装置１により実行される対訳文抽出処理の一例を示すフロー図である。

この対訳文抽出処理のステップＳ１において、対訳文抽出装置１の第１対訳文書取得部１０２は、対訳文書記憶部１０１から対訳文書を取得する。図３は、対訳文書の一例を示す図である。

第１対訳文書取得部１０２により対訳文書が取得されると、第１単語分割部１０３は、取得された対訳文書を文に分割し、かつ、各文を単語に分割する（ステップＳ２）。日本語の文書については、形態素解析を行って、句点を手掛かりに文に分割し、かつ、各文を単語に分割する。英語の文書については、ピリオドを手掛かりに文に分割し、かつ、スペースを手掛かりに各文を単語に分割する。

第１単語分割部１０３により対訳文書が文に分割され、かつ、各文が単語に分割されると、第１対訳文取得部１０５は、第１単語分割部１０３により切り出された日本語の文と英語の文を、対訳辞書記憶部１０４に記憶される対訳辞書を用いてマッチングして、日本語と英語の対訳文を取得する（ステップＳ３）。対訳文を取得すると、第１対訳文取得部１０５は、各対訳文を対訳文ＩＤと対応付けて対訳文記憶部１０６に記憶する（ステップＳ４）。図４は、第１対訳文取得部１０５により対訳文が記憶された対訳文記憶部１０６のデータの一例を示す図である。

第１対訳文取得部１０５により対訳文が対訳文記憶部１０６に記憶されると、翻訳モデル生成部１０７は、記憶された対訳文に基づいて翻訳モデルを生成する（ステップＳ５）。

翻訳モデル生成部１０７により翻訳モデルが生成されると、翻訳部１０８は、生成された翻訳モデルを用いて、第１対訳文書取得部１０２により取得された対訳文書を構成する英語の文書を日本語に翻訳して和訳文書を作成する（ステップＳ６）。翻訳部１０８は、作成した和訳文書を、原文である英語の文書と対応付けて対訳文書記憶部１０１に記憶する。図５は、翻訳部１０８により和訳文書が記憶された対訳文書記憶部１０１のデータの一例を示す図である。

翻訳部１０８により和訳文書が作成されると、第２対訳文書取得部１０９は、対訳文書記憶部１０１から対訳文書と、翻訳部１０８により作成され記憶された和訳文書とを取得する（ステップＳ７）。

第２対訳文書取得部１０９により対訳文書と和訳文書とが取得されると、第２単語分割部１１０は、取得された対訳文書と和訳文書とを文に分割し、かつ、各文を単語に分割する（ステップＳ８）。日本語の文書と和訳文書については、形態素解析を行って、句点を手掛かりに文に分割し、かつ、各文を単語に分割する。英語の文書については、ピリオドを手掛かりに文に分割する。第２単語分割部１１０は、日本語の文書から切り出された日本語の文と、当該文に含まれる単語の組とを対応付けて日本語文記憶部１１１に記憶する。また、英語の文書から切り出された英語の文と、和訳文書から切り出された和訳文と、当該和訳文に含まれる単語の組とを対応付けて英語文記憶部１１２に記憶する。図６は、日本語文記憶部１１１に記憶されるデータの一例を示す図である。図７は、英語文記憶部１１２に記憶されるデータの一例を示す図である。

なお、他の実施形態において、第２単語分割部１１０は、対訳文書については分割処理を行わずに、ステップＳ２で日本語の文書から切り出された日本語の文と、当該文に含まれる単語の組とを対応付けて日本語文記憶部１１１に記憶してもよい、また、ステップＳ２で英語の文書から切り出された英語の文と、ステップＳ８で和訳文書から切り出された和訳文と、当該和訳文に含まれる単語の組とを対応付けて英語文記憶部１１２に記憶してもよい。

第２単語分割部１１０により対訳文書と和訳文書に対して分割処理が行われると、単語一致度算出部１１３は、日本語文記憶部１１１に記憶された各日本語の文について、英語文記憶部１１２に記憶された各和訳文との間の単語の一致度を算出する（ステップＳ９）。図８は、単語の一致度の算出方法の一例を説明する図である。同図に示すＩＤ「０３０」の日本語の文は、ＩＤ「０２６」の和訳文との間で、「蛋白質」、「特異的」、「認識」、「モノクローナル」、「抗体」、「精製」および「行う」の計７個の単語が共通している。すなわち、両者の単語の一致度は「７」である。一方、同日本語の文は、ＩＤ「０３９」の和訳文との間で、「蛋白質」、「特異的」、「認識」、「抗体」、「精製」および「行う」の計６個の単語が共通している。すなわち、両者の単語の一致度は「６」である。

単語一致度算出部１１３により単語の一致度が算出されると、第２対訳文取得部１１４は、日本語文記憶部１１１に記憶された各日本語の文について、英語文記憶部１１２に記憶された和訳文のうち、他の文と比較して、単語一致度算出部１１３により算出された単語の一致度が高い文を特定し、当該日本語の文と、当該特定した文に対応する英語の文の組を、対訳文として取得する（ステップＳ１０）。例えば、図８に示す例では、ＩＤ「０２６」および「０３９」の２つの和訳文のうち、ＩＤ「０３０」の日本語の文との間で単語の一致度が高いＩＤ「０２６」の和訳文が特定され、当該日本語の文と、特定された和訳文と対応付けられている英語の文の組が、対訳文として取得される。第２対訳文取得部１１４は、対訳文を取得すると、対訳文記憶部１０６に記憶されている対訳文を、取得した対訳文で更新する（ステップＳ１１）。
以上が、対訳文抽出処理についての説明である。

以上説明した対訳文抽出装置１によれば、第１対訳文取得部１０５によりＤＰマッチングを用いて対訳文書から対訳文が取得された後に、取得された対訳文に基づいて翻訳モデルが生成され、その翻訳モデルを用いて作成された和訳文書と日本語の文書の間の単語の一致度に基づいて対訳文が取得されている。このように、本対訳文抽出装置１では、対訳文書から取得された対訳文に基づいて生成された翻訳モデルを用いて和訳文書が作成されるため、単に対訳辞書を用いて翻訳した場合と比較して翻訳の精度が向上する。翻訳の精度が向上する結果、単語の一致度の算出の精度も向上し、結果として、より品質の高い対訳コーパスを作成することができる。

例えば、図８に示す例を参照して説明すると、仮に「モノクローナル」という用語が対訳辞書に登録されていなかったとすると、上記の対訳文抽出処理のステップＳ４において、ＩＤ「０３０」の日本語の文は、ＩＤ「０２６」および「０３９」の２つの英語の文のうち、どちらに対応付ければよいか判断することができない。これは、英単語「monoclonal」を「モノクローナル」に翻訳することができない結果、いずれの英語の文も、ＩＤ「０３０」の日本語の文との間の単語の一致数が「６」となるからである。しかし、対訳文書から対訳文が取得され、その対訳文に、「モノクローナル」という用語を含む文が含まれていたと仮定すると、当該対訳文に基づいて生成された翻訳モデルを用いて作成された和訳文書では、英単語「monoclonal」が「モノクローナル」に翻訳されることになる。その結果、ＩＤ「０２６」の英語の文とＩＤ「０３０」の日本語の文の単語の一致度は「７」となり、両者は対訳文として対応付けられやすくなる。

２．変形例
上記の実施形態は、以下に記載するように変形してもよい。以下に記載する１以上の変形例は、互いに組み合わせてもよい。

２−１．変形例１
上記の実施形態に係る対訳文抽出装置１は、複数のコンピュータにより構成されるコンピュータシステムであってもよい。上記の実施形態に係る対訳文抽出装置１が備える記憶装置は、インターネット等の通信回線を介して対訳文抽出装置１と接続されてもよい。

２−２．変形例２
上記の実施形態において、第１言語を英語とし、第２言語を日本語としてもよい。また、第１言語と第２言語の組み合わせは、日本語と英語の他に、ドイツ語、フランス語、中国語、韓国語等の自然言語の中から任意に選択されてよい。

２−３．変形例３
上記の実施形態に係る第１対訳文取得部１０５は、第１単語分割部１０３により切り出された日本語の文を辞書引きして英語の単語群に変換し、英語の各文との類似度を算出し、算出した類似度が最大となる英語の文と上記日本語の文の対を対訳文として取得するようにしてもよい。

２−４．変形例４
上記の実施形態に係る翻訳モデル生成部１０７は、Mosesデコーダ以外の他のデコーダを用いて翻訳モデルを生成してもよい。例えば、Pharaohデコーダを用いて翻訳モデルを生成してもよい。Pharaohデコーダについては、例えば、Philipp Koehn, "Pharaoh: A Beam Search Decoder for Phrase-Based Statistical Machine Translation Models," Proceedings of the 6th Conference of the Association for Machine Translation in the Americas, p.115-124, 2004を参照のこと。

２−５．変形例５
上記の実施形態において、単語の一致度は、日本語の文と和訳文との間で一致する単語の数に基づいて算出される値により表されてもよい。具体的には、日本語の文と和訳文の両方に含まれるすべての単語の数に対する、両者の間で一致する単語の数の割合により表現されてもよい。

２−６．変形例６
上記の実施形態では、日本語の文と和訳文との間で単語の一致度が算出されているが、これに代えて、英語の文と英訳文との間で単語の一致度を算出するようにしてもよい。その場合、翻訳部１０８は、翻訳モデル生成部１０７により生成された翻訳モデルを用いて、第１対訳文書取得部１０２により取得された対訳文書を構成する日本語の文書を英語に翻訳して英訳文書を作成する。第２対訳文書取得部１０９は、対訳文書記憶部１０１から対訳文書と、翻訳部１０８により作成された英訳文書とを取得する。第２単語分割部１１０は、第２対訳文取得部１１４により取得された対訳文書と英訳文書とを文に分割し、かつ、各文を単語に分割する。日本語文記憶部１１１は、第２単語分割部１１０により日本語の文書から切り出された日本語の文と、英訳文書から切り出された英訳文と、当該英訳文に含まれる単語の組とを対応付けて記憶する。なおここで、切り出された日本語の文と英訳文との対応付けは、各文書における記載順序に沿って行われる。英語文記憶部１１２は、第２単語分割部１１０により英語の文書から切り出された英語の文と、当該文に含まれる単語の組とを対応付けて記憶する。単語一致度算出部１１３は、日本語文記憶部１１１に記憶された各英訳文について、英語文記憶部１１２に記憶された各英語の文との間の単語の一致度を算出する。

別の例として、日本語の文と和訳文との間で単語の一致度に加えて、英語の文と英訳文との間で単語の一致度も算出するようにしてもよい。その場合、第２対訳文取得部１１４は、日本語の文と和訳文との間の単語の一致度が最大となり、かつ、英訳文と英語の文との間の単語の一致度が最大となる日本語の文と英語の文の組を、対訳文として取得するようにしてもよい。

２−７．変形例７
上記の実施形態に係る対訳文抽出処理において、ステップＳ１１で対訳文記憶部１０６に記憶された対訳文に基づいて、再度、ステップＳ５〜Ｓ１１を実行してもよい。ステップＳ５〜Ｓ１１を繰り返し実行することで、品質の向上した対訳文に基づいて翻訳モデルを生成し、その翻訳モデルを用いて作成した和訳文書と日本語の文書の間の単語の一致度に基づいて対訳文を取得することができる。すなわち、さらに品質の向上した対訳コーパスを作成することができる。なお、ステップＳ５〜Ｓ１１を繰り返し実行する回数は、対訳文抽出装置１の利用者により設定されてよい。

２−８．変形例８
上記の変形例７において、再度、ステップＳ５〜Ｓ１１を実行する際に、上記の変形例６のように、日本語の文と和訳文との間で単語の一致度を算出するのに代えて、英語の文と英訳文との間で単語の一致度を算出するようにしてもよい。

別の例として、英語の文と英訳文との間の単語の一致度に代えて、編集距離を算出するようにしてもよい。その場合、単語一致度算出部１１３に代わり、編集距離算出部が、日本語文記憶部１１１に記憶された各日本語の文について、英語文記憶部１１２に記憶された各和訳文との間の編集距離を算出する。ここで編集距離とは、英訳文を英語の文に変更するために必要とされる編集操作の回数に基づいて算出される値である。具体的には、編集距離算出部は、編集距離としてＴＥＲ（Translation Error Rate）を算出する。ここで、編集操作とは、具体的には、挿入、削除、置換および並び替えの４つの操作である。ＴＥＲについては、例えば、Matthew Snover, et al. “A study of translation edit rate with targeted human annotation,” Proceedings of Association for Machine Translation in the Americas, p.223-231, 2006を参照のこと。単語の一致度に代えて編集距離を算出する場合には、第２対訳文取得部１１４は、日本語文記憶部１１１に記憶された各日本語の文について、英語文記憶部１１２に記憶された英語の文のうち、他の文と比較して、編集距離算出部により算出された編集距離が小さい文を特定し、当該日本語の文と、当該特定した文に対応する英語の文の組を、対訳文として取得する。

なお、編集距離算出部は、編集距離として、ＴＥＲ以外の値を算出してもよい。例えば、Levenshtein距離や、Damerau-Levenshtein距離や、Jaro-Winkler距離を算出してもよい。

別の例として、編集距離算出部は、編集距離に代えて、BLUEまたはRIBESを算出してもよい。BLUEについては、例えば、Kishore Papineni, et al. “BLUE: a method for automatic evaluation of machine translation,” Proc. of the 40th Annual Meeting of the Association for Computational Linguistics, p.311-318, July 2002を参照のこと。RIBESについては、例えば、平尾努，他「RIBES: 順位相関に基づく翻訳の自動評価法」、言語処理学会第17回年次大会発表論文集、p.1115-1118、2011年3月を参照のこと。

２−９．変形例９
上記の実施形態または変形例に係る対訳文抽出装置１の各機能を実現するためのプログラムは、コンピュータ装置が読み取り可能な記録媒体を介して提供されてもよい。ここで、記録媒体とは、例えば、磁気テープや磁気ディスクなどの磁気記録媒体や、光ディスクなどの光記録媒体や、光磁気記録媒体や、半導体メモリ等である。また、このプログラムは、インターネット等のネットワークを介して提供されてもよい。

１…対訳文抽出装置、１０１…対訳文書記憶部、１０２…第１対訳文書取得部、１０３…第１単語分割部、１０４…対訳辞書記憶部、１０５…第１対訳文取得部、１０６…対訳文記憶部、１０７…翻訳モデル生成部、１０８…翻訳部、１０９…第２対訳文書取得部、１１０…第２単語分割部、１１１…日本語文記憶部、１１２…英語文記憶部、１１３…単語一致度算出部、１１４…第２対訳文取得部

Claims

第１言語と第２言語の対訳文書を取得する対訳文書取得部と、
前記取得された対訳文書を構成する前記第１言語の文と前記第２言語の文を、前記第１言語と前記第２言語の対訳辞書を用いてマッチングして、前記第１言語と前記第２言語の対訳文を取得する第１対訳文取得部と、
前記取得された対訳文に基づいて第１翻訳モデルを生成する翻訳モデル生成部と、
前記生成された第１翻訳モデルを用いて、前記対訳文書を構成する前記第２言語の文書を前記第１言語に翻訳して第１翻訳文書を作成する翻訳部と、
前記対訳文書と前記作成された第１翻訳文書とを文に分割する分割部と、
前記第１言語の文書を構成する各文について、前記第１翻訳文書を構成する各文との間の単語の一致度を算出する単語一致度算出部と、
前記第１言語の文書を構成する各文について、前記第１翻訳文書を構成する文のうち、他の文と比較して単語の一致度が高い文を特定し、当該第１言語の文と、当該特定した文に対応する前記第２言語の文の組を、対訳文として取得する第２対訳文取得部と
を備える対訳文抽出装置。
前記翻訳モデル生成部は、前記第２対訳文取得部により取得された対訳文に基づいて第２翻訳モデルを生成し、
前記翻訳部は、前記生成された第２翻訳モデルを用いて、前記対訳文書を構成する前記第２言語の文書を前記第１言語に翻訳して第２翻訳文書を作成し、
前記分割部は、前記作成された第２翻訳文書を文に分割し、
前記単語一致度算出部は、前記第１言語の文書を構成する各文について、前記第２翻訳文書を構成する各文との間の単語の一致度を算出し、
前記第２対訳文取得部は、前記第１言語の文書を構成する各文について、前記第２翻訳文書を構成する文のうち、他の文と比較して単語の一致度が高い文を特定し、当該第１言語の文と、当該特定した文に対応する前記第２言語の文の組を、対訳文として取得する
ことを特徴とする請求項１に記載の対訳文抽出装置。
１以上のコンピュータにより実行される対訳文抽出方法であって、
第１言語と第２言語の対訳文書を取得するステップと、
前記取得された対訳文書を構成する前記第１言語の文と前記第２言語の文を、前記第１言語と前記第２言語の対訳辞書を用いてマッチングして、前記第１言語と前記第２言語の対訳文を取得するステップと、
前記取得された対訳文に基づいて第１翻訳モデルを生成するステップと、
前記生成された第１翻訳モデルを用いて、前記対訳文書を構成する前記第２言語の文書を前記第１言語に翻訳して第１翻訳文書を作成するステップと、
前記対訳文書と前記作成された第１翻訳文書とを文に分割するステップと、
前記第１言語の文書を構成する各文について、前記第１翻訳文書を構成する各文との間の単語の一致度を算出するステップと、
前記第１言語の文書を構成する各文について、前記第１翻訳文書を構成する文のうち、他の文と比較して単語の一致度が高い文を特定し、当該第１言語の文と、当該特定した文に対応する前記第２言語の文の組を、対訳文として取得するステップと
を備える対訳文抽出方法。
コンピュータに、
第１言語と第２言語の対訳文書を取得するステップと、
前記取得された対訳文書を構成する前記第１言語の文と前記第２言語の文を、前記第１言語と前記第２言語の対訳辞書を用いてマッチングして、前記第１言語と前記第２言語の対訳文を取得するステップと、
前記取得された対訳文に基づいて第１翻訳モデルを生成するステップと、
前記生成された第１翻訳モデルを用いて、前記対訳文書を構成する前記第２言語の文書を前記第１言語に翻訳して第１翻訳文書を作成するステップと、
前記対訳文書と前記作成された第１翻訳文書とを文に分割するステップと、
前記第１言語の文書を構成する各文について、前記第１翻訳文書を構成する各文との間の単語の一致度を算出するステップと、
前記第１言語の文書を構成する各文について、前記第１翻訳文書を構成する文のうち、他の文と比較して単語の一致度が高い文を特定し、当該第１言語の文と、当該特定した文に対応する前記第２言語の文の組を、対訳文として取得するステップと
を実行させるためのプログラム。