JP2017010274A

JP2017010274A - 対応付け装置及びプログラム

Info

Publication number: JP2017010274A
Application number: JP2015125095A
Authority: JP
Inventors: 敏鈴木; Satoshi Suzuki; 昌明永田; Masaaki Nagata
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2015-06-22
Filing date: 2015-06-22
Publication date: 2017-01-12

Abstract

【課題】対訳となる第１の言語の文書と第２の言語の文書とを低コストで得ることができるようにする。【解決手段】翻訳部２６は、第２の言語の文書の集合に含まれる複数の第２の言語の文書の各々について、第２の言語の文書を第１の言語の文書へ翻訳する。そして、ベクトル化部２８は、翻訳部２６によって翻訳された第１の言語の文書の各々をベクトル化したベクトルを生成し、第１の言語の文書の集合に含まれる第１の言語の文書の各々をベクトル化したベクトルを生成する。一致度計算部３８は、翻訳された第１の言語の文書と第１の言語の文書の集合に含まれる第１の言語の文書との組み合わせの各々について、ベクトル化部２８によって生成されたベクトル間の一致度を計算する。そして、対応付け部４０は、一致度計算部３８によって計算された一致度の各々に基づいて、第１の言語の文書と第２の言語の文書とを対応付ける。【選択図】図１

Description

本発明は、対応付け装置及びプログラムに係り、特に、テキストを対応付ける対応付け装置及びプログラムに関する。

機械翻訳の精度を高めるには、膨大な数の学習データが必要である。例えば、日英翻訳であれば、日本語文書と英語文書との対応を学習させることで実現している。従来は、これら文書の収集、対応付けを人手で行ってきた。

近年、ウェブ上から多くの多言語文書が収集可能となったが、文書間の対応付けが明確でないものが多く、それらに関しては利用を諦めるか、あるいは人手で対応付けを行っている。

対応付けを自動で行う手法としては、非特許文献１に記載の手法が知られている。

Jakob Uszkoreit et al., "Large Scale Parallel Document Mining for Machine Translation", Proceedings of the 23rd International Conference on Computational Linguistics (Coling 2010), p.1101−1109, Beijing, August 2010

上記非特許文献１の手法では、多言語の文書を全て英語に変換し、near-duplicate detectionで評価するためにn-gramという計算コストの高い技術を利用している。当該手法では、単語の並び順および頻度を基に、文書間の一致度を計算している。

本発明は、上記の事情に鑑みてなされたものであり、対訳となる第１の言語のテキストと第２の言語のテキストとを低コストで得ることができる対応付け装置及びプログラムを提供することを目的とする。

上記目的を達成するために、本発明の対応付け装置は、第１の言語のテキストの集合と、第２の言語のテキストの集合とを入力とし、前記第１の言語のテキストと、前記第１の言語のテキストの対訳である第２の言語のテキストとを対応付ける対応付け装置であって、前記第２の言語のテキストの集合に含まれる複数の第２の言語のテキストの各々について、前記第２の言語のテキストを第１の言語のテキストへ翻訳する翻訳部と、前記翻訳部によって翻訳された前記第１の言語のテキストの各々をベクトル化したベクトルを生成し、前記第１の言語のテキストの集合に含まれる第１の言語のテキストの各々をベクトル化したベクトルを生成するベクトル化部と、前記翻訳部によって翻訳された前記第１の言語のテキストと前記第１の言語のテキストの集合に含まれる第１の言語のテキストとの組み合わせの各々について、前記ベクトル化部によって生成されたベクトル間の一致度を計算する一致度計算部と、前記一致度計算部によって計算された一致度の各々に基づいて、前記第１の言語のテキストの集合に含まれる第１の言語のテキストと、前記第２の言語のテキストの集合に含まれる第２の言語のテキストとを対応付ける対応付け部と、を含んで構成されている。

本発明の前記ベクトル化部は、前記翻訳部によって翻訳された前記第１の言語のテキストの各々について、前記第１の言語のテキストにおける単語の出現頻度に基づくベクトルを生成し、前記第１の言語のテキストの集合に含まれる第１の言語のテキストの各々について、該第１の言語のテキストにおける単語の出現頻度に基づくベクトルを生成するようにすることができる。

本発明の前記ベクトル化部は、前記テキストにおける単語の出現頻度に基づいて、パラグラフベクトルによるベクトル化又は特異値分解などを用いて、前記テキストの各々について前記ベクトルを生成するようにすることができる。

本発明の前記翻訳部は、前記第２の言語のテキストに含まれる各単語を、前記第１の言語の単語へ翻訳した前記第１の言語のテキストを生成するようにすることができる。

本発明の前記テキストは、文書、文、又は少なくとも１つの文からなる段落であるようにすることができる。

本発明の前記テキストは、文、又は少なくとも１つの文からなる段落であり、前記テキストの集合は文書であるようにすることができる。

本発明の前記テキストは、少なくとも１つの文からなる段落であり、前記テキストの集合は文書であり前記翻訳部は、前記第２の言語の文書に含まれる複数の第２の言語の段落の各々について、前記第２の言語の段落を第１の言語の段落へ翻訳し、前記ベクトル化部は、前記翻訳部によって翻訳された前記第１の言語の段落の各々をベクトル化したベクトルを生成し、前記第１の言語の文書に含まれる第１の言語の段落の各々をベクトル化したベクトルを生成し、前記一致度計算部は、前記翻訳部によって翻訳された前記第１の言語の段落と前記第１の言語の文書に含まれる第１の言語の段落との組み合わせの各々について、前記ベクトル化部によって生成されたベクトル間の一致度を計算し、前記対応付け部は、前記一致度計算部によって計算された一致度の各々に基づいて、前記第１の言語の文書に含まれる第１の言語の段落と、前記第２の言語の文書に含まれる第２の言語の段落とを対応付け、前記翻訳部は、更に、前記対応付け部によって対応付けられた第１の言語の段落と第２の言語の段落とを入力とし、前記第２の言語の段落の文の各々について、前記第２の言語の段落の文を第１の言語の文へ翻訳し、前記ベクトル化部は、更に、前記翻訳部によって翻訳された前記第１の言語の段落の文の各々をベクトル化したベクトルを生成し、前記第１の言語の段落に含まれる第１の言語の文の各々をベクトル化したベクトルを生成し、前記一致度計算部は、更に、前記翻訳部によって翻訳された前記第１の言語の段落の文と前記第１の言語の段落に含まれる第１の言語の文との組み合わせの各々について、前記ベクトル化部によって生成されたベクトル間の一致度を計算し、前記対応付け部は、更に、前記一致度計算部によって計算された一致度の各々に基づいて、前記第１の言語の段落に含まれる第１の言語の文と、前記第２の言語の段落に含まれる第２の言語の文とを対応付けるようにすることができる。

本発明の前記ベクトル化部は、前記翻訳部によって翻訳された前記第１の言語のテキストの各々をベクトル化した複数の種類のベクトルを生成し、前記第１の言語のテキストの集合に含まれる第１の言語のテキストの各々をベクトル化した複数の種類のベクトルを生成し、前記一致度計算部は、前記翻訳部によって翻訳された前記第１の言語のテキストと前記第１の言語のテキストの集合に含まれる第１の言語のテキストとの組み合わせの各々について、前記複数の種類のベクトル毎に、前記ベクトル化部によって生成された前記種類のベクトル間の一致度を計算し、前記複数の種類のベクトル毎に計算されたベクトル間の一致度を組み合わせた一致度を計算するようにすることができる。

本発明の前記対応付け部によって対応付けられた前記第１の言語のテキストと前記第２の言語のテキストとに基づいて、前記第１の言語のテキスト及び前記第２の言語のテキストの何れか一方から他方へ翻訳するための翻訳モデルを学習する学習部を更に含むようにすることができる。

また、本発明のプログラムは、コンピュータを、上記の対応付け装置の各部として機能させるためのプログラムである。

以上説明したように、本発明の対応付け装置及びプログラムによれば、第１の言語のテキストの集合と第２の言語のテキストの集合とを入力とし、第２の言語のテキストの集合に含まれる複数の第２の言語のテキストの各々について、第２の言語のテキストを第１の言語のテキストへ翻訳し、翻訳された第１の言語のテキストの各々のベクトルを生成し、第１の言語のテキストの集合に含まれる第１の言語のテキストの各々のベクトルを生成し、翻訳された第１の言語のテキストと第１の言語のテキストの集合に含まれる第１の言語の文書との組み合わせの各々について、生成されたベクトル間の一致度を計算し、計算された一致度の各々に基づいて、第１の言語のテキストの集合に含まれる第１の言語のテキストと、第２の言語のテキストの集合に含まれる第２の言語のテキストとを対応付けることにより、対訳となる第１の言語のテキストと第２の言語のテキストとを低コストで得ることができる、という効果が得られる。

本発明の第１の実施の形態に係る対応付け装置の概要を示す図である。本発明の第１の実施の形態に係る文書対応付け処理ルーチンのフローチャートの一例である。本発明の第２の実施の形態に係る対応付け装置の概要を示す図である。本発明の第２の実施の形態に係る文対応付け処理ルーチンのフローチャートの一例である。本発明の第３の実施の形態に係る段落対応付け処理ルーチンのフローチャートの一例である。本発明の第４の実施の形態に係る対応付け装置の概要を示す図である。本発明の第４の実施の形態に係る対応付け処理ルーチンのフローチャートの一例である。本発明の第５の実施の形態に係る対応付け装置の概要を示す図である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜本発明の実施の形態の概要＞
本発明の実施の形態の技術分野は、自然言語処理、自動翻訳、及び機械学習に関するものである。本発明の実施の形態では、翻訳文と当該翻訳文の原文との対応関係を発見する。具体的には、翻訳文を原文の言語へ変換し、原文との一致度を計算し、翻訳文と全ての候補の中から尤もらしい原文とを対応付ける。本発明の実施の形態では、原文の集合と原文の翻訳文の集合とがあり、対応関係が不明の状態にある中から、対となる文（又は文書）を取り出すことが目的である。

本発明の実施の形態では、第１の言語のテキストの集合と、第２の言語のテキストの集合とを入力とし、第１の言語のテキストと、第１の言語のテキストの対訳である第２の言語のテキストとを対応付ける対応付け装置に本発明を適用した場合を例に説明する。

＜第１の実施の形態＞
＜システム構成＞
以下、図面を参照して本発明の実施の形態を詳細に説明する。図１は、第１の実施の形態に係る対応付け装置の構成の一例を示す図である。第１の実施の形態では、テキストが文書である場合を例に説明する。第１の実施の形態に係る対応付け装置は、第１の言語の文書と、第１の言語の文書の対訳である第２の言語の文書とを対応付ける。

対応付け装置１００は、ＣＰＵ（Central Processing Unit）と、ＲＡＭ（Random Access Memory）と、ＣＰＵが後述する各処理ルーチンを実行するためのプログラムを記憶したＲＯＭ（Read Only Memory）とを備えたコンピュータで構成されている。また、対訳文書対応付け装置１００を構成するコンピュータは、ハードディスクドライブ等の記憶部や通信インタフェース等を備えていてもよい。また、ハードディスクドライブにＣＰＵが実行するプログラムが記憶されていてもよい。ＣＰＵがＲＯＭやハードディスク等の記憶部に記憶されているプログラムを読み出して実行することにより、上記ハードウェアとプログラムとを協働させて以下に説明する機能が実現される。

このコンピュータは、機能的には、図１に示すように、入力部１０、演算部２０、及び出力部５０を含んだ構成で表わすことができる。

入力部１０は、原文書の集合である第１の言語の文書の集合と、原文書の翻訳文書の集合である第２の言語の文書の集合とを受け付ける。第１の言語の文書の集合の文書の各々と、第２の言語の文書の集合の文書の各々との対応は未知であるとする。第１の言語の一例としては例えば日本語が挙げられ、第２の言語の一例としては例えば英語が挙げられる。

演算部２０は、原文データベース２２と、翻訳文データベース２４と、翻訳部２６と、ベクトル化部２８と、第１ベクトルデータベース３４と、第２ベクトルデータベース３６と、一致度計算部３８と、対応付け部４０と、対応付け文書データベース４２と、学習部４４とを備えている。

原文データベース２２には、入力部１０によって受け付けた第１の言語の文書の集合が格納される。原文データベース２２に格納されている第１の言語の文書の各々は、翻訳文データベース２４に格納されている第２の言語の文書の各々の対訳である。

翻訳文データベース２４には、入力部１０によって受け付けた第２の言語の文書の集合が格納される。翻訳文データベース２４に格納されている第２の言語の文書の各々は、原文データベース２２に格納されている第１の言語の文書の各々の対訳である。

翻訳部２６は、翻訳文データベース２４に格納された第２の言語の文書の集合に含まれる複数の第２の言語の文書の各々について、第２の言語の文書を第１の言語の文書へ翻訳する。具体的には、翻訳部２６は、簡易な翻訳システムにより第２の言語の文書を第１の言語の文書へ翻訳する。例えば、翻訳部２６は、Ｇｏｏｇｌｅ（登録商標）翻訳等を用いて第２の言語の文書を第１の言語の文書へ翻訳する。

ベクトル化部２８は、翻訳部２６によって翻訳された第１の言語の文書の各々をベクトル化したベクトルを生成し、原文データベース２２に格納された第１の言語の文書の各々をベクトル化したベクトルを生成する。ベクトル化部２８は、第１ベクトル化部３０と第２ベクトル化部３２とを備えている。

第１ベクトル化部３０は、翻訳部２６によって翻訳された第１の言語の文書の各々をベクトル化したベクトルを生成する。例えば、第１ベクトル化部３０は、翻訳部２６によって翻訳された第１の言語の文書の各々について、第１の言語の文書における単語の出現頻度に基づくベクトルを生成する。具体的には、第１ベクトル化部３０は、例えば、第１の言語の文書における単語の出現頻度及び単語の語順に関する情報に基づいて、パラグラフベクトル（ＰａｒａｇｒａｐｈＶｅｃｔｏｒ）（例えば、参考文献（Le and Mikolov, “Distributed Representations of Sentences and Documents”, Proceedings of the 31 st International Conference on Machine Learning, Beijing, China, 2014.）を参照）によるベクトル化等を用いて第１の言語の文書の各々をベクトル化する。
そして、第１ベクトル化部３０は、生成されたベクトルの各々を第１ベクトルデータベース３４に格納する。

第２ベクトル化部３２は、原文データベース２２に格納された第１の言語の文書の各々をベクトル化したベクトルを生成する。例えば、第２ベクトル化部３２は、第１ベクトル化部３０と同様に、原文データベース２２に格納された第１の言語の文書の各々について、第１の言語の文書における単語の出現頻度に基づくベクトルを生成する。具体的には第１ベクトル化部３０と同様に、パラグラフベクトル等を用いて第１の言語の文書の各々をベクトル化する。
そして、第２ベクトル化部３２は、生成されたベクトルの各々を第２ベクトルデータベース３６に格納する。

第１ベクトルデータベース３４には、第１ベクトル化部３０によって生成された第１の言語の文書のベクトルの各々が格納される。

第２ベクトルデータベース３６には、第２ベクトル化部３２によって生成された第１の言語の文書のベクトルの各々が格納される。

一致度計算部３８は、翻訳部２６によって翻訳された第１の言語の文書と原文データベース２２に格納された第１の言語の文書との組み合わせの各々について、第１ベクトルデータベース３４に格納された第１の言語の文書のベクトルと第２ベクトルデータベース３６に格納された第１の言語の文書のベクトルとのベクトル間の一致度を計算する。ベクトル間の一致度の計算は、例えば、内積計算等を用いる。一致度計算部３８は、全ての組み合わせで一致度を計算し、メモリ（図示省略）に一時保存する。

対応付け部４０は、一致度計算部３８によって計算された一致度の各々に基づいて、原文データベース２２に格納された第１の言語の文書の集合に含まれる第１の言語の文書と、翻訳文データベース２４に格納された第２の言語の文書の集合に含まれる第２の言語の文書とを対応付ける。具体的には、対応付け部４０は、計算された一致度が高い順に、第１の言語の文書と第２の言語の文書とが１対１に対応するように組み合わせ、出力する。また、対応付け部４０は、対応付けられた第１の言語の文書と第２の言語の文書との各々を、対応付け文書データベース４２に格納する。

対応付け文書データベース４２には、対応付け部４０によって対応付けられた第１の言語の文書と第２の言語の文書との各々が格納される。

学習部４４は、対応付け文書データベース４２に格納された、対応付けられた第１の言語の文書と第２の言語の文書とのペアの各々に基づいて、翻訳対象の第１の言語の文書を第２の言語の文書へ翻訳するための翻訳モデルを学習する。なお、翻訳対象の第２の言語の文書を第１の言語の文書へ翻訳するための翻訳モデルを学習してもよい。

出力部５０は、学習部４４によって学習された翻訳モデルを出力する。

＜対応付け装置１００の動作＞
次に、対応付け装置１００の作用について図２を参照して詳細に説明する。まず、第１の言語の文書の集合と、第２の言語の文書の集合とが対応付け装置１００に入力されると、入力部１０は第１の言語の文書の集合及び第２の言語の文書の集合を受け付け、第１の言語の文書の集合を原文データベース２２に格納し、第２の言語の文書の集合を翻訳文データベース２４に格納する。そして、対応付け装置１００は、図２に示す文書対応付け処理ルーチンを実行する。

ステップＳ１００において、翻訳部２６は、翻訳文データベース２４に格納された第２の言語の文書の集合に含まれる複数の第２の言語の文書の各々について、第２の言語の文書を第１の言語の文書へ翻訳する。

次に、ステップＳ１０２において、第１ベクトル化部３０は、上記ステップＳ１００で翻訳された第１の言語の文書の各々をベクトル化したベクトルを生成する。

ステップＳ１０４において、第１ベクトル化部３０は、上記ステップＳ１０２で生成されたベクトルの各々を第１ベクトルデータベース３４に格納する。

ステップＳ１０６において、第２ベクトル化部３２は、原文データベース２２に格納された第１の言語の文書の各々をベクトル化したベクトルを生成する。

ステップＳ１０８において、第２ベクトル化部３２は、上記ステップＳ１０６で生成されたベクトルの各々を第２ベクトルデータベース３６に格納する。

ステップＳ１１０において、一致度計算部３８は、上記ステップＳ１００で翻訳された第１の言語の文書と、原文データベース２２に格納された第１の言語の文書との組み合わせの各々について、上記ステップＳ１０４で第１ベクトルデータベース３４に格納された第１の言語の文書のベクトルと、上記ステップＳ１０８で第２ベクトルデータベース３６に格納された第１の言語の文書のベクトルとのベクトル間の一致度を計算する。

ステップＳ１１２において、対応付け部４０は、上記ステップＳ１１０で計算された一致度の各々に基づいて、原文データベース２２に格納された第１の言語の文書の集合に含まれる第１の言語の文書と、翻訳文データベース２４に格納された第２の言語の文書の集合に含まれる第２の言語の文書とを対応付ける。

ステップＳ１１４において、対応付け部４０は、上記ステップＳ１１２で対応付けられた第１の言語の文書と第２の言語の文書との各々を対応付け文書データベース４２に格納し、文書対応付け処理ルーチンを終了する。

対応付け文書データベース４２に第１の言語の文書と第２の言語の文書との各々が格納されると、学習部４４は、対応付け文書データベース４２に格納された第１の言語の文書と第２の言語の文書との各々に基づいて、翻訳対象の文書を翻訳するための翻訳モデルを学習する。そして、出力部５０は、学習部４４によって学習された翻訳モデルを出力する。

以上説明したように、本発明の第１の実施の形態に係る対応付け装置１００によれば、第１の言語の文書の集合と第２の言語の文書の集合とを入力とし、第２の言語の文書の集合に含まれる複数の第２の言語の文書の各々について、第２の言語の文書を第１の言語の文書へ翻訳し、翻訳された第１の言語の文書の各々のベクトルを生成し、第１の言語の文書の集合に含まれる第１の言語の文書の各々のベクトルを生成し、翻訳された第１の言語の文書と第１の言語の文書の集合に含まれる第１の言語の文書との組み合わせの各々について、生成されたベクトル間の一致度を計算し、計算された一致度の各々に基づいて、第１の言語の文書の集合に含まれる第１の言語の文書と、第２の言語の文書の集合に含まれる第２の言語の文書とを対応付けることにより、対訳となる第１の言語の文書と第２の言語の文書とを低コストで得ることができる。また、対訳関係にある第１の言語の文書と第２の言語の文書とを精度よく対応付けることができる。

また、本発明の実施の形態により、第１の言語の文書と第２の言語の文書との対応関係を低コストで明確にすることができ、大量の文書が機械翻訳の学習データ等として利用可能になる。

また、本発明の実施の形態により、従来の人手による対応付け作業にかかる膨大なコストを省き、大量の文書を低コストで処理することが可能になる。

また、本発明の実施の形態を用いれば、機械翻訳のための学習データを大量に供給することが可能となり、翻訳精度の向上が見込まれる。

また、従来技術では、単語翻訳の表記揺れにより文書間の対応付けが困難であったが、本発明の実施の形態で用いたベクトル化手法を適用すれば、訳語の表記揺れに対して頑強な一致度計算が可能となる。

また、単語の出現頻度に基づき、一致度を計算することにより、日英等の語順の大きく異なる言語間の翻訳文にも対応することができる。また、計算コストが小さくなるという利点もある。

＜第２の実施の形態＞
＜システム構成＞
次に、第２の実施の形態について説明する。なお、第１の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。

第２の実施の形態は、テキストが文であり、第１の言語の文と、第１の言語の文の対訳である第２の言語の文とを対応付ける点が、第１の実施の形態と異なっている。

図３に示すように、第２の実施の形態に係る対応付け装置２００は、入力部２１０、演算部２２０、及び出力部２５０を含んだ構成で表わすことができる。

入力部２１０は、原文の集合である第１の言語の文の集合と、原文の翻訳文の集合である第２の言語の文の集合とを受け付ける。第１の言語の文の集合の文の各々と、第２の言語の文の集合の文の各々との対応は未知であるとする。

演算部２２０は、原文データベース２２２と、翻訳文データベース２２４と、翻訳部２２６と、ベクトル化部２２８と、第１ベクトルデータベース２３４と、第２ベクトルデータベース２３６と、一致度計算部２３８と、対応付け部２４０と、対応付け文データベース２４２と、学習部２４４とを備えている。

原文データベース２２２には、入力部２１０によって受け付けた第１の言語の文の集合が格納される。

翻訳文データベース２２４には、入力部２１０によって受け付けた第２の言語の文の集合が格納される。

翻訳部２２６は、翻訳文データベース２２４に格納された第２の言語の文の各々について、第２の言語の文を第１の言語の文へ翻訳する。

ベクトル化部２２８は、翻訳部２２６によって翻訳された第１の言語の文の各々をベクトル化したベクトルを生成し、原文データベース２２２に格納された第１の言語の文の各々をベクトル化したベクトルを生成する。ベクトル化部２２８は、第１ベクトル化部２３０と第２ベクトル化部２３２とを備えている。

第１ベクトル化部２３０は、翻訳部２２６によって翻訳された第１の言語の文の各々をベクトル化したベクトルを生成する。そして、第１ベクトル化部２３０は、生成されたベクトルの各々を第１ベクトルデータベース２３４に格納する。

第２ベクトル化部２３２は、原文データベース２２２に格納された第１の言語の文の各々をベクトル化したベクトルを生成する。そして、第２ベクトル化部２３２は、生成されたベクトルの各々を第２ベクトルデータベース３６に格納する。

第１ベクトルデータベース２３４には、第１ベクトル化部２３０によってベクトル化された第１の言語の文のベクトルの各々が格納される。

第２ベクトルデータベース２３６には、第２ベクトル化部２３２によってベクトル化された第１の言語の文のベクトルの各々が格納される。

一致度計算部２３８は、翻訳部２２６によって翻訳された第１の言語の文と原文データベース２２２に格納された第１の言語の文との組み合わせの各々について、第１ベクトルデータベース２３４に格納された第１の言語の文のベクトルと第２ベクトルデータベース２３６に格納された第１の言語の文のベクトルとのベクトル間の一致度を計算する。

対応付け部２４０は、一致度計算部２３８によって計算された一致度の各々に基づいて、原文データベース２２２に格納された第１の言語の文の集合に含まれる第１の言語の文と、翻訳文データベース２２４に格納された第２の言語の文の集合に含まれる第２の言語の文とを対応付ける。

対応付け文データベース２４２には、対応付け部２４０によって対応付けられた第１の言語の文と第２の言語の文との各々が格納される。

学習部２４４は、対応付け文データベース２４２に格納された、対応付けられた第１の言語の文と第２の言語の文とのペアの各々に基づいて、翻訳対象の第１の言語の文を第２の言語の文へ翻訳するための翻訳モデルを学習する。なお、翻訳対象の第２の言語の文を第１の言語の文へ翻訳するための翻訳モデルを学習してもよい。

＜対応付け装置２００の動作＞
次に、対応付け装置２００の作用について図４を参照して詳細に説明する。まず、第１の言語の文の集合と、第２の言語の文の集合とが対応付け装置２００に入力されると、入力部２１０は第１の言語の文の集合及び第２の言語の文の集合を受け付け、第１の言語の文の集合を原文データベース２２２に格納し、第２の言語の文の集合を翻訳文データベース２２４に格納する。そして、対応付け装置２００は、図４に示す文対応付け処理ルーチンを実行する。

ステップＳ２００において、翻訳部２２６は、翻訳文データベース２２４に格納された第２の言語の文の集合に含まれる複数の第２の言語の文の各々について、第２の言語の文を第１の言語の文へ翻訳する。

次に、ステップＳ２０２において、第１ベクトル化部２３０は、上記ステップＳ２００で翻訳された第１の言語の文の各々をベクトル化したベクトルを生成する。

ステップＳ２０４において、第１ベクトル化部２３０は、上記ステップＳ２０２で生成されたベクトルの各々を第１ベクトルデータベース２３４に格納する。

ステップＳ２０６において、第２ベクトル化部２３２は、原文データベース２２２に格納された第１の言語の文の各々をベクトル化したベクトルを生成する。

ステップＳ２０８において、第２ベクトル化部２３２は、上記ステップＳ２０６で生成されたベクトルの各々を第２ベクトルデータベース２３６に格納する。

ステップＳ２１０において、一致度計算部２３８は、上記ステップＳ２００で翻訳された第１の言語の文と、原文データベース２２２に格納された第１の言語の文との組み合わせの各々について、上記ステップＳ２０４で第１ベクトルデータベース２３４に格納された第１の言語の文のベクトルと、上記ステップＳ２０８で第２ベクトルデータベース２３６に格納された第１の言語の文のベクトルとのベクトル間の一致度を計算する。

ステップＳ２１２において、対応付け部２４０は、上記ステップＳ２１０で計算された一致度の各々に基づいて、原文データベース２２２に格納された第１の言語の文の集合に含まれる第１の言語の文と、翻訳文データベース２２４に格納された第２の言語の文の集合に含まれる第２の言語の文とを対応付ける。

ステップＳ２１４において、対応付け部２４０は、上記ステップＳ２１２で対応付けられた第１の言語の文と第２の言語の文との各々を対応付け文データベース２４２に格納し、文対応付け処理ルーチンを終了する。

対応付け文データベース２４２に第１の言語の文と第２の言語の文との各々が格納されると、学習部２４４は、対応付け文データベース２４２に格納された第１の言語の文と第２の言語の文との各々に基づいて、翻訳対象の文を翻訳するための翻訳モデルを学習する。

なお、第２の実施の形態に係る対応付け装置２００の他の構成及び作用については、第１の実施の形態と同様であるため、説明を省略する。

以上説明したように、本発明の第２の実施の形態に係る対応付け装置２００によれば、第１の言語の文の集合と第２の言語の文の集合とを入力とし、第２の言語の文の集合に含まれる複数の第２の言語の文の各々について、第２の言語の文を第１の言語の文へ翻訳し、翻訳された第１の言語の文の各々のベクトルを生成し、第１の言語の文の集合に含まれる第１の言語の文の各々のベクトルを生成し、翻訳された第１の言語の文と第１の言語の文の集合に含まれる第１の言語の文との組み合わせの各々について、生成されたベクトル間の一致度を計算し、計算された一致度の各々に基づいて、第１の言語の文の集合に含まれる第１の言語の文と、第２の言語の文の集合に含まれる第２の言語の文とを対応付けることにより、対訳となる第１の言語の文と第２の言語の文とを低コストで得ることができる。

＜第３の実施の形態＞
＜システム構成＞
次に、第３の実施の形態について説明する。なお、第３の実施の形態に係る対応付け装置の構成は、第１の実施の形態と同様の構成となるため、同一符号を付して説明を省略する。

第３の実施の形態では、少なくとも１つの文からなる段落毎にベクトル化する点が、第１及び第２の実施の形態と異なっている。

本発明の実施の形態は、文書間の対応付けだけではなく、対応がとれている第１の言語の文書と第２の言語の文書とにおいて、文書内の段落同士の対応付け、あるいは、上記第２の実施の形態のように文同士の対応付けに適用することも可能である。

一般に、翻訳文書は原文書を要約的に翻訳した文書であることも多く、このような場合、文レベル又は段落レベルの対応がとれず、機械翻訳の学習データとしての利用は難しい。

従って、第３の実施の形態では、上記第１の実施の形態の文書の集合を、段落集合である文書に置き換え、段落レベルの対応を取り出す場合を例に説明する。

第３の実施の形態に係る入力部１０は、原文書である第１の言語の文書と、原文書の翻訳文書である第２の言語の文書とを受け付ける。第１の言語の文書の各段落と、第２の言語の文書の各段落との対応は未知であるとする。

第３の実施の形態に係る原文データベース２２には、入力部１０によって受け付けた第１の言語の文書が格納される。

第３の実施の形態に係る翻訳文データベース２４には、入力部１０によって受け付けた第２の言語の文書が格納される。

第３の実施の形態に係る翻訳部２６は、翻訳文データベース２４に格納された第２の言語の文書の段落の各々について、第２の言語の文書の各段落を第１の言語の文書へ翻訳する。

第３の実施の形態に係るベクトル化部２８は、第１ベクトル化部３０と第２ベクトル化部３２とを備えている。

第３の実施の形態に係る第１ベクトル化部３０は、翻訳部２６によって翻訳された第１の言語の文書の段落の各々について、当該段落をベクトル化したベクトルを生成する。

第３の実施の形態に係る第２ベクトル化部３２は、原文データベース２２に格納された第１の言語の文書の段落の各々について、当該段落をベクトル化したベクトルを生成する。

第３の実施の形態に係る第１ベクトルデータベース３４には、第１ベクトル化部３０によって生成された第１の言語の文書の各段落のベクトルの各々が格納される。

第３の実施の形態に係る第２ベクトルデータベース３６には、第２ベクトル化部３２によって生成された第１の言語の文書の各段落のベクトルの各々が格納される。

第３の実施の形態に係る一致度計算部３８は、翻訳部２６によって翻訳された第１の言語の文書の段落と原文データベース２２に格納された第１の言語の文書の段落との組み合わせの各々について、第１ベクトルデータベース３４に格納された第１の言語の文書の段落のベクトルと第２ベクトルデータベース３６に格納された第１の言語の文書の段落のベクトルとに基づいて、ベクトル間の一致度を計算する。

第３の実施の形態に係る対応付け部４０は、一致度計算部３８によって計算された一致度の各々に基づいて、原文データベース２２２に格納された第１の言語の文書の段落の各々と、翻訳文データベース２２４に格納された第２の言語の文書の段落の各々とを対応付ける。

第３の実施の形態に係る対応付け文書データベース４２には、対応付け部４０によって対応付けられた第１の言語の文書の段落と第２の言語の文書の段落との各々が格納される。

第３の実施の形態に係る学習部４４は、対応付け文書データベース４２に格納された、対応付けられた第１の言語の文書の段落と第２の言語の文書の段落とのペアの各々に基づいて、翻訳対象の第１の言語の文書を第２の言語の文書へ翻訳するための翻訳モデルを学習する。なお、翻訳対象の第２の言語の文書を第１の言語の文書へ翻訳するための翻訳モデルを学習してもよい。

＜第３の実施の形態に係る対応付け装置の動作＞
次に、第３の実施の形態に係る対応付け装置の作用について図５を参照して詳細に説明する。まず、第１の言語の文書と、第２の言語の文書とが対応付け装置に入力されると、入力部１０は第１の言語の文書及び第２の言語の文書を受け付け、第１の言語の文書を原文データベース２２に格納し、第２の言語の文書を翻訳文データベース２４に格納する。そして、対応付け装置は、図５に示す段落対応付け処理ルーチンを実行する。

ステップＳ３００において、翻訳部２６は、翻訳文データベース２４に格納された第２の言語の文書の段落の各々について、第２の言語の文書の各段落を第１の言語の文書へ翻訳する。

次に、ステップＳ３０２において、第１ベクトル化部３０は、上記ステップＳ３００で翻訳された第１の言語の文書の段落の各々をベクトル化したベクトルを生成する。

ステップＳ３０４において、第１ベクトル化部３０は、上記ステップＳ３０２で生成されたベクトルの各々を第１ベクトルデータベース３４に格納する。

ステップＳ３０６において、第２ベクトル化部３２は、原文データベース２２に格納された第１の言語の文書の段落の各々をベクトル化したベクトルを生成する。

ステップＳ３０８において、第２ベクトル化部３２は、上記ステップＳ３０６で生成されたベクトルの各々を第２ベクトルデータベース３６に格納する。

ステップＳ３１０において、一致度計算部３８は、上記ステップＳ３００で翻訳された第１の言語の文書の段落と、原文データベース２２に格納された第１の言語の文書の段落との組み合わせの各々について、上記ステップＳ３０４で第１ベクトルデータベース３４に格納された第１の言語の文書の段落のベクトルと、上記ステップＳ１０８で第２ベクトルデータベース３６に格納された第１の言語の文書の段落のベクトルとのベクトル間の一致度を計算する。

ステップＳ３１２において、対応付け部４０は、上記ステップＳ３１０で計算された一致度の各々に基づいて、原文データベース２２に格納された第１の言語の文書の段落の各々と、翻訳文データベース２４に格納された第２の言語の文書の段落の各々とを対応付ける。

ステップＳ３１４において、対応付け部４０は、上記ステップＳ３１２で対応付けられた第１の言語の文書の段落と第２の言語の文書の段落との各々を対応付け文書データベース４２に格納し、段落対応付け処理ルーチンを終了する。

対応付け文書データベース４２に第１の言語の文書と第２の言語の文書との各々が格納されると、学習部４４は、対応付け文書データベース４２に格納された第１の言語の文書の段落と第２の言語の文書の段落とのペアの各々に基づいて、翻訳対象の文書を翻訳するための翻訳モデルを学習する。そして、出力部５０は、学習部４４によって学習された翻訳モデルを出力する。

なお、第３の実施の形態に係る対応付け装置の他の構成及び作用については、第１の実施の形態と同様であるため、説明を省略する。

以上説明したように、本発明の第３の実施の形態に係る対応付け装置によれば、翻訳された第１の言語の文書の段落の各々について、第１の言語の文書の段落をベクトル化したベクトルを生成し、原文データベース２２に格納された第１の言語の文書の段落の各々について、第１の言語の文書の段落をベクトル化したベクトルを生成し、翻訳された第１の言語の文書の段落と第１の言語の文書に含まれる第１の言語の文書の段落との組み合わせの各々について、生成されたベクトル間の一致度を計算し、計算された一致度の各々に基づいて、第１の言語の文書の段落と、第２の言語の文書の段落とを対応付けることにより、対訳となる第１の言語の文書の段落と第２の言語の文書の段落とを低コストで得ることができる。

なお、第３の実施の形態では、文書の段落を対応付ける場合を例に説明したが、文書に含まれる文を対応付けてもよい。

＜第４の実施の形態＞
＜システム構成＞
次に、第４の実施の形態について説明する。なお、第１〜第３の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。

第４の実施の形態では、第１の言語の文書と第２の言語の文書とについて、段落レベルの対応付けを行った後、その結果を入力部に戻し、文レベルの対応付けを行い、２段階の対応付けを行う点が、第１〜第３の実施の形態と異なっている。

図６に示すように、第４の実施の形態に係る対応付け装置４００は、入力部４１０、演算部４２０、及び出力部４５０を含んだ構成で表わすことができる。

入力部４１０は、第３の実施の形態と同様に、原文書である第１の言語の文書と、原文書の翻訳文書である第２の言語の文書とを受け付ける。また、入力部４１０は、後述する段落対応情報データベース４６０に格納されている段落対応情報を取得する。段落対応情報は、第１の言語の文書の段落と第２の言語の文書の段落との対応関係を表す。

原文データベース４２２には、第３の実施の形態と同様に、入力部４１０によって受け付けた第１の言語の文書が格納される。

翻訳文データベース４２４には、第３の実施の形態と同様に、入力部４１０によって受け付けた第２の言語の文書が格納される。

翻訳部４２６は、第３の実施の形態と同様に、翻訳文データベース４２４に格納された第２の言語の文書の段落の各々について、第２の言語の文書の各段落を第１の言語の文書へ翻訳する。また、翻訳部４２６は、更に、翻訳文データベース４２４に格納された第２の言語の文書の段落の文の各々について、第２の言語の文書の段落の各文を第１の言語の文へ翻訳する。

ベクトル化部４２８は、第１ベクトル化部４３０と第２ベクトル化部４３２とを備えている。

第１ベクトル化部４３０は、第３の実施の形態と同様に、翻訳部４２６によって翻訳された第１の言語の文書の段落の各々について、当該段落をベクトル化したベクトルを生成する。また、第１ベクトル化部４３０は、更に、翻訳部４２６によって翻訳された第１の言語の文書の段落の文の各々について、当該文をベクトル化したベクトルを生成する。

第２ベクトル化部４３２は、第３の実施の形態と同様に、原文データベース４２２に格納された第１の言語の文書の段落の各々について、当該段落をベクトル化したベクトルを生成する。また、第２ベクトル化部４３２は、原文データベース４２２に格納された第１の言語の文書の段落の文の各々について、当該文をベクトル化したベクトルを生成する。

第１ベクトルデータベース４３４には、第３の実施の形態と同様に、第１ベクトル化部４３０によって生成された第１の言語の文書の各段落のベクトルの各々が格納される。また、第１ベクトルデータベース４３４には、第１ベクトル化部４３０によって生成された第１の言語の文書の段落の各文のベクトルの各々が格納される。

第２ベクトルデータベース４３６には、第３の実施の形態と同様に、第２ベクトル化部４３２によって生成された第１の言語の文書の各段落のベクトルの各々が格納される。また、第２ベクトルデータベース４３６には、第２ベクトル化部４３２によって生成された第１の言語の文書の段落の各文のベクトルの各々が格納される。

一致度計算部４３８は、第３の実施の形態と同様に、翻訳部４２６によって翻訳された第１の言語の文書の段落と原文データベース４２２に格納された第１の言語の文書の段落との組み合わせの各々について、第１ベクトルデータベース４３４に格納された第１の言語の文書の段落のベクトルと第２ベクトルデータベース４３６に格納された第１の言語の文書の段落のベクトルとに基づいて、段落のベクトル間の一致度を計算する。
また、一致度計算部４３８は、更に、入力部４１０によって取得された段落対応情報に基づいて、対応付けられた第１の言語の文書の段落と第２の言語の文書の段落のペアの各々について、第１の言語の文書の段落の文のベクトルと第２の言語の文書の段落の文のベクトルとに基づいて、文のベクトル間の一致度を計算する。

対応付け部４４０は、第３の実施の形態と同様に、一致度計算部４３８によって計算された段落のベクトルの一致度の各々に基づいて、原文データベース２２２に格納された第１の言語の文書の段落の各々と、翻訳文データベース２２４に格納された第２の言語の文書の段落の各々とを対応付ける。そして、対応付け部４４０は、第１の言語の文書の段落と第２の言語の文書の段落との対応付け関係を表す段落対応情報を生成する。
また、対応付け部４４０は、更に、一致度計算部４３８によって計算された文のベクトルの一致度の各々に基づいて、対応付けられた第１の言語の文書の段落の各文と第２の言語の文書の段落の各文とを対応付ける。

対応付け文データベース４４２には、対応付け部４４０によって対応付けられた第１の言語の文書の段落と第２の言語の文書の段落との各々が格納される。また、対応付け文データベース４４２には、対応付け部４４０によって対応付けられた第１の言語の文書の段落の文と第２の言語の文書の段落の文との各々が格納される。

学習部４４４は、対応付け文データベース４４２に格納された、対応付けられた第１の言語の文書の段落と第２の言語の文書の段落とのペアの各々と、対応付けられた第１の言語の文書の段落の文と第２の言語の文書の段落の文とのペアの各々とに基づいて、翻訳対象の第１の言語の文書を第２の言語の文書へ翻訳するための翻訳モデルを学習する。なお、翻訳対象の第２の言語の文書を第１の言語の文書へ翻訳するための翻訳モデルを学習してもよい。

出力部４５０は、学習部４４４によって学習された翻訳モデルを出力する。また、出力部４５０は、対応付け部４４０によって生成された第１の言語の文書の段落と第２の言語の文書の段落とのペアの各々に関する段落対応情報を出力する。

段落対応情報データベース４６０には、出力部４５０によって出力された段落対応情報が格納される。

＜対応付け装置４００の動作＞
次に、対応付け装置４００の作用について図７を参照して詳細に説明する。まず、第１の言語の文の集合と、第２の言語の文の集合とが対応付け装置４００に入力されると、入力部４１０は第１の言語の文の集合及び第２の言語の文の集合を受け付け、第１の言語の文の集合を原文データベース４２２に格納し、第２の言語の文の集合を翻訳文データベース４２４に格納する。そして、対応付け装置４００は、図７に示す対応付け処理ルーチンを実行する。

ステップＳ４００では、原文データベース４２２に格納された第１の言語の文書の段落の各々と、翻訳文データベース４２４に格納された第２の言語の文書の段落の各々とを対応付ける。ステップＳ４００は、上記図５に示す段落対応付け処理ルーチンによって実現される。

次のステップＳ４０２において、出力部４５０は、対応付け文データベース４４２に格納された第１の言語の文書の段落と第２の言語の文書の段落とのペアの各々に関する段落対応情報を出力し、段落対応情報データベース４６０に格納する。

ステップＳ４０４において、入力部４１０は、段落対応情報データベース４６０に格納されている段落対応情報を取得する。

ステップＳ４０６では、上記ステップＳ４０４で取得された段落対応情報に基づいて、上記ステップＳ４００で対応付けられた第１の言語の文書の段落の各文と第２の言語の文書の段落の各文とを対応付ける。ステップＳ４０６は、上記図４に示す文対応付け処理ルーチンによって実現される。

なお、第４の実施の形態に係る対応付け装置４００の他の構成及び作用については、第１〜第３の実施の形態と同様であるため、説明を省略する。

以上説明したように、本発明の第４の実施の形態に係る対応付け装置によれば、第１の言語の文書に含まれる第１の言語の段落と、第２の言語の文書に含まれる第２の言語の段落とを対応付け、第１の言語の文書に含まれる第１の言語の段落と、第２の言語の文書に含まれる第２の言語の段落との対応付け関係を表す段落対応情報を生成し、生成された段落対応情報に基づいて、記第１の言語の段落に含まれる第１の言語の文と、第２の言語の段落に含まれる第２の言語の文とを対応付けることにより、対訳関係にある第１の言語の文と第２の言語の文とを精度よく対応付けることができる。

＜第５の実施の形態＞
＜システム構成＞
次に、第５の実施の形態について説明する。なお、第１〜第４の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。

第５の実施の形態では、ベクトル化計算を行うときに２種類以上のベクトル化計算を組み合わせて行い、対応するベクトル化計算によって生成されたベクトル間の一致度を計算して対応関係を判断する点が、第１〜第３の実施の形態と異なっている。

図８に示すように、第４の実施の形態に係る対応付け装置５００は、入力部２１０、演算部５２０、及び出力部５０を含んだ構成で表わすことができる。

演算部５２０は、原文データベース２２２と、翻訳文データベース２２４と、翻訳部２２６と、ベクトル化部５２８と、第１ベクトルデータベース５３４と、第３ベクトルデータベース５３５と、第２ベクトルデータベース５３６と、第４ベクトルデータベース５３７と、一致度計算部５３８と、対応付け部２４０と、対応付け文データベース２４２と、学習部２４４とを備えている。

ベクトル化部５２８は、翻訳部２２６によって翻訳された第１の言語の文の各々をベクトル化した複数の種類のベクトルを生成し、原文データベース２２２に格納された第１の言語の文の各々をベクトル化した複数の種類のベクトルを生成する。例えば、ベクトル化部５２８は、２種類のベクトル化手法によってベクトルを生成する。ベクトル化部５２８は、第１ベクトル化部５３０と第２ベクトル化部５３２とを備えている。

第１ベクトル化部５３０は、翻訳部２２６によって翻訳された第１の言語の文の各々を、第１のベクトル化手法によってベクトル化したベクトルを生成する。そして、第１ベクトル化部５３０は、第１のベクトル化手法によって生成されたベクトルの各々を第１ベクトルデータベース５３４に格納する。また、第１ベクトル化部５３０は、翻訳部２２６によって翻訳された第１の言語の文の各々を、第２のベクトル化手法によってベクトル化したベクトルを生成する。そして、第１ベクトル化部５３０は、第２のベクトル化手法によって生成されたベクトルの各々を第３ベクトルデータベース５３５に格納する。

第２ベクトル化部５３２は、原文データベース２２２に格納された第１の言語の文の各々を、第１のベクトル化手法によってベクトル化したベクトルを生成する。そして、第２ベクトル化部５３２は、第１のベクトル化手法によって生成されたベクトルの各々を第２ベクトルデータベース５３６に格納する。また、第２ベクトル化部５３２は、原文データベース２２２に格納された第１の言語の文の各々を、第２のベクトル化手法によってベクトル化したベクトルを生成する。そして、第２ベクトル化部５３２は、第２のベクトル化手法によって生成されたベクトルの各々を第４ベクトルデータベース５３７に格納する。

第１ベクトルデータベース５３４には、第１ベクトル化部５３０により第１のベクトル化手法によってベクトル化された第１の言語の文のベクトルの各々が格納される。

第３ベクトルデータベース５３５には、第１ベクトル化部５３０により第２のベクトル化手法によってベクトル化された第１の言語の文のベクトルの各々が格納される。

第２ベクトルデータベース５３６には、第２ベクトル化部５３２により第１のベクトル化手法によってベクトル化された第１の言語の文のベクトルの各々が格納される。

第４ベクトルデータベース５３７には、第２ベクトル化部５３２により第２のベクトル化手法によってベクトル化された第１の言語の文のベクトルの各々が格納される。

第１ベクトルデータベース５３４及び第２ベクトルデータベース５３６に格納されているベクトルは、同じ計算手法によってベクトル化されている。また、第３ベクトルデータベース５３５及び第４ベクトルデータベース５３７に格納されているベクトルは同じ計算手法によってベクトル化されている。

一致度計算部５３８は、翻訳部２２６によって翻訳された第１の言語の文と原文データベース２２２に格納された第１の言語の文との組み合わせの各々について、複数の種類のベクトル毎に、ベクトル化部５２８によって生成された当該種類のベクトル間の一致度を計算する。具体的には、一致度計算部５３８は、第１ベクトルデータベース２３４に格納された第１の言語の文のベクトルと第２ベクトルデータベース２３６に格納された第１の言語の文のベクトルとのベクトル間の第１の一致度を計算する。
また、一致度計算部５３８は、翻訳部２２６によって翻訳された第１の言語の文と原文データベース２２２に格納された第１の言語の文との組み合わせの各々について、第３ベクトルデータベース５３５に格納された第１の言語の文のベクトルと第４ベクトルデータベース５３７に格納された第１の言語の文のベクトルとのベクトル間の第２の一致度を計算する。

そして、一致度計算部５３８は、複数の種類のベクトル毎に計算されたベクトル間の一致度を組み合わせた一致度を計算する。具体的には、一致度計算部５３８は、計算された第１の一致度及び第２の一致度に基づいて、予め与えられた割合でそれぞれの一致度を組み合わせてベクトル間の一致度を計算する。

なお、第５の実施の形態に係る対応付け装置５００の他の構成及び作用については、第１〜第４の実施の形態と同様であるため、説明を省略する。

以上説明したように、本発明の第５の実施の形態に係る対応付け装置によれば、翻訳部によって翻訳された第１の言語の文の各々をベクトル化したベクトルを複数種類生成し、第１の言語の文の集合に含まれる第１の言語の文の各々をベクトル化したベクトルを複数種類生成し、翻訳部によって翻訳された第１の言語の文と第１の言語の文の集合に含まれる第１の言語の文との組み合わせの各々について、生成された対応する種類のベクトル間の一致度の各々を計算し、対応する種類のベクトル間の一致度の各々に基づいて、翻訳部によって翻訳された第１の言語の文と第１の言語の文の集合に含まれる第１の言語の文との一致度を計算することにより、対訳関係にある第１の言語の文と第２の言語の文とを精度よく対応付けることができる。

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、上記第１〜第５の実施の形態では、第２の言語のテキストを第１の言語のテキストへ翻訳する場合を例に説明したが、これに限定されるものではなく、第１の言語のテキストを第２の言語のテキストへ翻訳し、翻訳された第２の言語のテキストの各々のベクトルを生成し、第２の言語のテキストの集合に含まれる第２の言語の文書の各々のベクトルを生成し、翻訳された第２の言語の文書と第２の言語の文書の集合に含まれる第２の言語の文書との組み合わせの各々について、生成されたベクトル間の一致度を計算し、計算された一致度の各々に基づいて、第１の言語の文書の集合に含まれる第１の言語の文書と、第２の言語の文書の集合に含まれる第２の言語の文書とを対応付けてもよい。

また、上記第１〜第５の実施の形態の翻訳部は、第２の言語のテキストに含まれる各単語のみを、第１の言語の単語へ翻訳した第１の言語のテキストを生成してもよい。

上記第１〜第５の実施の形態のベクトル化部におけるベクトル化の手法については、単語の出現頻度を基に計算される手法が適用できる。例えば、特異値分解（ＳＶＤ：singular value decomposition）等による手法でもよく、また、ＴＦＩＤＦあるいはＯｋａｐｉ＿ＢＭ２５等による出現頻度に基づく値をそのまま使ってもよい。ＰａｒａｇｒａｐｈＶｅｃｔｏｒ（上記参考文献）やＳＶＤ等単語間の関連性を組み込んだベクトル化手法を適用すれば、訳語の揺れに対して頑強な一致度計算が可能となる。

また、上記第１〜第５の実施の形態において一致度をもとに対応付けを行う場合、一致度の高い順に重複が起こらないように順次対応付けを行っても良いし、全体の対応付けとして尤もらしい組み合わせを採用してもよい。尤もらしい組み合わせは、例えば、それぞれの対応に、一致度から計算した確率を与え、対応付けの組み合わせを同時確率として計算する方法などが適用することができる。

また、上記第１〜第５の実施の形態では、第３の言語の文（又は文書）が、第１の言語の文（又は文書）と第２の言語の文（又は文書）とに予め翻訳されている場合についても適用することができる。例えば第３の言語がドイツ語であり、ドイツ語の文（又は文書）が、第１の言語である英語と、第２の言語である日本語とに予め翻訳されている場合についても、第１の言語の文（又は文書）と第２の言語の文（又は文書）とを対応付けることができる。

また、上記第５の実施の形態では、ベクトルの種類が２種類である場合を例に説明したが、これに限定されるものではなく、複数の種類のベクトルを生成してもよい。

また、第４の実施の形態では、はじめに文書レベルの対応付けを行った後、段落レベルの対応付けをし、さらに、文レベルの対応付けを計算するといった、３段階以上の対応付け計算を適用することも可能である。

また、上述の対応付け装置が各データベースを備えている場合について説明したが、例えば各データベースが対応付け装置の外部装置に設けられ、対応付け装置は、外部装置と通信手段を用いて通信することにより、各データベースを参照するようにしてもよい。

また、上述の対応付け装置は、内部にコンピュータシステムを有しているが、コンピュータシステムは、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。

１０，２１０，４１０入力部
２０，２２０，４２０，５２０演算部
２２，２２２，４２２原文データベース
２４，２２４，４２４翻訳文データベース
２６，２２６，４２６翻訳部
２８，２２８，４２８，５２８ベクトル化部
３０，２３０，４３０，５３０第１ベクトル化部
３２，２３２，４３２，５３２第２ベクトル化部
３４，２３４，４３４，５３４第１ベクトルデータベース
３６，２３６，４３６，５３６第２ベクトルデータベース
３８，２３８，４３８，５３８一致度計算部
４０，２４０，４４０対応付け部
４２対応付け文書データベース
４４，２４４，４４４学習部
５０，２５０，４５０出力部
１００，２００，４００，５００対応付け装置
２４２，４４２対応付け文データベース
４６０段落対応情報データベース
５３５第３ベクトルデータベース
５３７第４ベクトルデータベース

Claims

第１の言語のテキストの集合と、第２の言語のテキストの集合とを入力とし、前記第１の言語のテキストと、前記第１の言語のテキストの対訳である第２の言語のテキストとを対応付ける対応付け装置であって、
前記第２の言語のテキストの集合に含まれる複数の第２の言語のテキストの各々について、前記第２の言語のテキストを第１の言語のテキストへ翻訳する翻訳部と、
前記翻訳部によって翻訳された前記第１の言語のテキストの各々をベクトル化したベクトルを生成し、前記第１の言語のテキストの集合に含まれる第１の言語のテキストの各々をベクトル化したベクトルを生成するベクトル化部と、
前記翻訳部によって翻訳された前記第１の言語のテキストと前記第１の言語のテキストの集合に含まれる第１の言語のテキストとの組み合わせの各々について、前記ベクトル化部によって生成されたベクトル間の一致度を計算する一致度計算部と、
前記一致度計算部によって計算された一致度の各々に基づいて、前記第１の言語のテキストの集合に含まれる第１の言語のテキストと、前記第２の言語のテキストの集合に含まれる第２の言語のテキストとを対応付ける対応付け部と、
を含む対応付け装置。
前記ベクトル化部は、前記翻訳部によって翻訳された前記第１の言語のテキストの各々について、前記第１の言語のテキストにおける単語の出現頻度に基づくベクトルを生成し、前記第１の言語のテキストの集合に含まれる第１の言語のテキストの各々について、該第１の言語のテキストにおける単語の出現頻度に基づくベクトルを生成する
請求項１に記載の対応付け装置。
前記ベクトル化部は、前記テキストにおける単語の出現頻度に基づいて、パラグラフベクトルによるベクトル化又は特異値分解を用いて、前記テキストの各々について前記ベクトルを生成する
請求項２に記載の対応付け装置。
前記翻訳部は、前記第２の言語のテキストに含まれる各単語を、前記第１の言語の単語へ翻訳した前記第１の言語のテキストを生成する
請求項１〜請求項３の何れか１項に記載の対応付け装置。
前記テキストは、少なくとも１つの文からなる段落であり、
前記テキストの集合は文書であり
前記翻訳部は、前記第２の言語の文書に含まれる複数の第２の言語の段落の各々について、前記第２の言語の段落を第１の言語の段落へ翻訳し、
前記ベクトル化部は、前記翻訳部によって翻訳された前記第１の言語の段落の各々をベクトル化したベクトルを生成し、前記第１の言語の文書に含まれる第１の言語の段落の各々をベクトル化したベクトルを生成し、
前記一致度計算部は、前記翻訳部によって翻訳された前記第１の言語の段落と前記第１の言語の文書に含まれる第１の言語の段落との組み合わせの各々について、前記ベクトル化部によって生成されたベクトル間の一致度を計算し、
前記対応付け部は、前記一致度計算部によって計算された一致度の各々に基づいて、前記第１の言語の文書に含まれる第１の言語の段落と、前記第２の言語の文書に含まれる第２の言語の段落とを対応付け、
前記翻訳部は、更に、前記対応付け部によって対応付けられた第１の言語の段落と第２の言語の段落とを入力とし、前記第２の言語の段落の文の各々について、前記第２の言語の段落の文を第１の言語の文へ翻訳し、
前記ベクトル化部は、更に、前記翻訳部によって翻訳された前記第１の言語の段落の文の各々をベクトル化したベクトルを生成し、前記第１の言語の段落に含まれる第１の言語の文の各々をベクトル化したベクトルを生成し、
前記一致度計算部は、更に、前記翻訳部によって翻訳された前記第１の言語の段落の文と前記第１の言語の段落に含まれる第１の言語の文との組み合わせの各々について、前記ベクトル化部によって生成されたベクトル間の一致度を計算し、
前記対応付け部は、更に、前記一致度計算部によって計算された一致度の各々に基づいて、前記第１の言語の段落に含まれる第１の言語の文と、前記第２の言語の段落に含まれる第２の言語の文とを対応付ける
請求項１〜請求項４の何れか１項に記載の対応付け装置。
前記ベクトル化部は、前記翻訳部によって翻訳された前記第１の言語のテキストの各々をベクトル化した複数の種類のベクトルを生成し、前記第１の言語のテキストの集合に含まれる第１の言語のテキストの各々をベクトル化した複数の種類のベクトルを生成し、
前記一致度計算部は、前記翻訳部によって翻訳された前記第１の言語のテキストと前記第１の言語のテキストの集合に含まれる第１の言語のテキストとの組み合わせの各々について、前記複数の種類のベクトル毎に、前記ベクトル化部によって生成された前記種類のベクトル間の一致度を計算し、前記複数の種類のベクトル毎に計算されたベクトル間の一致度を組み合わせた一致度を計算する
請求項１〜請求項５の何れか１項に記載の対応付け装置。
前記対応付け部によって対応付けられた前記第１の言語のテキストと前記第２の言語のテキストとに基づいて、前記第１の言語のテキスト及び前記第２の言語のテキストの何れか一方から他方へ翻訳するための翻訳モデルを学習する学習部を更に含む
請求項１〜請求項６の何れか１項に記載の対応付け装置。
コンピュータを、請求項１〜請求項７の何れか１項に記載の対応付け装置の各部として機能させるためのプログラム。