JP2017010274A - 対応付け装置及びプログラム - Google Patents

対応付け装置及びプログラム Download PDF

Info

Publication number
JP2017010274A
JP2017010274A JP2015125095A JP2015125095A JP2017010274A JP 2017010274 A JP2017010274 A JP 2017010274A JP 2015125095 A JP2015125095 A JP 2015125095A JP 2015125095 A JP2015125095 A JP 2015125095A JP 2017010274 A JP2017010274 A JP 2017010274A
Authority
JP
Japan
Prior art keywords
language
unit
text
sentence
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015125095A
Other languages
English (en)
Inventor
敏 鈴木
Satoshi Suzuki
敏 鈴木
昌明 永田
Masaaki Nagata
昌明 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015125095A priority Critical patent/JP2017010274A/ja
Publication of JP2017010274A publication Critical patent/JP2017010274A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Complex Calculations (AREA)
  • Machine Translation (AREA)

Abstract

【課題】対訳となる第1の言語の文書と第2の言語の文書とを低コストで得ることができるようにする。【解決手段】翻訳部26は、第2の言語の文書の集合に含まれる複数の第2の言語の文書の各々について、第2の言語の文書を第1の言語の文書へ翻訳する。そして、ベクトル化部28は、翻訳部26によって翻訳された第1の言語の文書の各々をベクトル化したベクトルを生成し、第1の言語の文書の集合に含まれる第1の言語の文書の各々をベクトル化したベクトルを生成する。一致度計算部38は、翻訳された第1の言語の文書と第1の言語の文書の集合に含まれる第1の言語の文書との組み合わせの各々について、ベクトル化部28によって生成されたベクトル間の一致度を計算する。そして、対応付け部40は、一致度計算部38によって計算された一致度の各々に基づいて、第1の言語の文書と第2の言語の文書とを対応付ける。【選択図】図1

Description

本発明は、対応付け装置及びプログラムに係り、特に、テキストを対応付ける対応付け装置及びプログラムに関する。
機械翻訳の精度を高めるには、膨大な数の学習データが必要である。例えば、日英翻訳であれば、日本語文書と英語文書との対応を学習させることで実現している。従来は、これら文書の収集、対応付けを人手で行ってきた。
近年、ウェブ上から多くの多言語文書が収集可能となったが、文書間の対応付けが明確でないものが多く、それらに関しては利用を諦めるか、あるいは人手で対応付けを行っている。
対応付けを自動で行う手法としては、非特許文献1に記載の手法が知られている。
Jakob Uszkoreit et al., "Large Scale Parallel Document Mining for Machine Translation", Proceedings of the 23rd International Conference on Computational Linguistics (Coling 2010), p.1101−1109, Beijing, August 2010
上記非特許文献1の手法では、多言語の文書を全て英語に変換し、near-duplicate detectionで評価するためにn-gramという計算コストの高い技術を利用している。当該手法では、単語の並び順および頻度を基に、文書間の一致度を計算している。
本発明は、上記の事情に鑑みてなされたものであり、対訳となる第1の言語のテキストと第2の言語のテキストとを低コストで得ることができる対応付け装置及びプログラムを提供することを目的とする。
上記目的を達成するために、本発明の対応付け装置は、第1の言語のテキストの集合と、第2の言語のテキストの集合とを入力とし、前記第1の言語のテキストと、前記第1の言語のテキストの対訳である第2の言語のテキストとを対応付ける対応付け装置であって、前記第2の言語のテキストの集合に含まれる複数の第2の言語のテキストの各々について、前記第2の言語のテキストを第1の言語のテキストへ翻訳する翻訳部と、前記翻訳部によって翻訳された前記第1の言語のテキストの各々をベクトル化したベクトルを生成し、前記第1の言語のテキストの集合に含まれる第1の言語のテキストの各々をベクトル化したベクトルを生成するベクトル化部と、前記翻訳部によって翻訳された前記第1の言語のテキストと前記第1の言語のテキストの集合に含まれる第1の言語のテキストとの組み合わせの各々について、前記ベクトル化部によって生成されたベクトル間の一致度を計算する一致度計算部と、前記一致度計算部によって計算された一致度の各々に基づいて、前記第1の言語のテキストの集合に含まれる第1の言語のテキストと、前記第2の言語のテキストの集合に含まれる第2の言語のテキストとを対応付ける対応付け部と、を含んで構成されている。
本発明の前記ベクトル化部は、前記翻訳部によって翻訳された前記第1の言語のテキストの各々について、前記第1の言語のテキストにおける単語の出現頻度に基づくベクトルを生成し、前記第1の言語のテキストの集合に含まれる第1の言語のテキストの各々について、該第1の言語のテキストにおける単語の出現頻度に基づくベクトルを生成するようにすることができる。
本発明の前記ベクトル化部は、前記テキストにおける単語の出現頻度に基づいて、パラグラフベクトルによるベクトル化又は特異値分解などを用いて、前記テキストの各々について前記ベクトルを生成するようにすることができる。
本発明の前記翻訳部は、前記第2の言語のテキストに含まれる各単語を、前記第1の言語の単語へ翻訳した前記第1の言語のテキストを生成するようにすることができる。
本発明の前記テキストは、文書、文、又は少なくとも1つの文からなる段落であるようにすることができる。
本発明の前記テキストは、文、又は少なくとも1つの文からなる段落であり、前記テキストの集合は文書であるようにすることができる。
本発明の前記テキストは、少なくとも1つの文からなる段落であり、前記テキストの集合は文書であり前記翻訳部は、前記第2の言語の文書に含まれる複数の第2の言語の段落の各々について、前記第2の言語の段落を第1の言語の段落へ翻訳し、前記ベクトル化部は、前記翻訳部によって翻訳された前記第1の言語の段落の各々をベクトル化したベクトルを生成し、前記第1の言語の文書に含まれる第1の言語の段落の各々をベクトル化したベクトルを生成し、前記一致度計算部は、前記翻訳部によって翻訳された前記第1の言語の段落と前記第1の言語の文書に含まれる第1の言語の段落との組み合わせの各々について、前記ベクトル化部によって生成されたベクトル間の一致度を計算し、前記対応付け部は、前記一致度計算部によって計算された一致度の各々に基づいて、前記第1の言語の文書に含まれる第1の言語の段落と、前記第2の言語の文書に含まれる第2の言語の段落とを対応付け、前記翻訳部は、更に、前記対応付け部によって対応付けられた第1の言語の段落と第2の言語の段落とを入力とし、前記第2の言語の段落の文の各々について、前記第2の言語の段落の文を第1の言語の文へ翻訳し、前記ベクトル化部は、更に、前記翻訳部によって翻訳された前記第1の言語の段落の文の各々をベクトル化したベクトルを生成し、前記第1の言語の段落に含まれる第1の言語の文の各々をベクトル化したベクトルを生成し、前記一致度計算部は、更に、前記翻訳部によって翻訳された前記第1の言語の段落の文と前記第1の言語の段落に含まれる第1の言語の文との組み合わせの各々について、前記ベクトル化部によって生成されたベクトル間の一致度を計算し、前記対応付け部は、更に、前記一致度計算部によって計算された一致度の各々に基づいて、前記第1の言語の段落に含まれる第1の言語の文と、前記第2の言語の段落に含まれる第2の言語の文とを対応付けるようにすることができる。
本発明の前記ベクトル化部は、前記翻訳部によって翻訳された前記第1の言語のテキストの各々をベクトル化した複数の種類のベクトルを生成し、前記第1の言語のテキストの集合に含まれる第1の言語のテキストの各々をベクトル化した複数の種類のベクトルを生成し、前記一致度計算部は、前記翻訳部によって翻訳された前記第1の言語のテキストと前記第1の言語のテキストの集合に含まれる第1の言語のテキストとの組み合わせの各々について、前記複数の種類のベクトル毎に、前記ベクトル化部によって生成された前記種類のベクトル間の一致度を計算し、前記複数の種類のベクトル毎に計算されたベクトル間の一致度を組み合わせた一致度を計算するようにすることができる。
本発明の前記対応付け部によって対応付けられた前記第1の言語のテキストと前記第2の言語のテキストとに基づいて、前記第1の言語のテキスト及び前記第2の言語のテキストの何れか一方から他方へ翻訳するための翻訳モデルを学習する学習部を更に含むようにすることができる。
また、本発明のプログラムは、コンピュータを、上記の対応付け装置の各部として機能させるためのプログラムである。
以上説明したように、本発明の対応付け装置及びプログラムによれば、第1の言語のテキストの集合と第2の言語のテキストの集合とを入力とし、第2の言語のテキストの集合に含まれる複数の第2の言語のテキストの各々について、第2の言語のテキストを第1の言語のテキストへ翻訳し、翻訳された第1の言語のテキストの各々のベクトルを生成し、第1の言語のテキストの集合に含まれる第1の言語のテキストの各々のベクトルを生成し、翻訳された第1の言語のテキストと第1の言語のテキストの集合に含まれる第1の言語の文書との組み合わせの各々について、生成されたベクトル間の一致度を計算し、計算された一致度の各々に基づいて、第1の言語のテキストの集合に含まれる第1の言語のテキストと、第2の言語のテキストの集合に含まれる第2の言語のテキストとを対応付けることにより、対訳となる第1の言語のテキストと第2の言語のテキストとを低コストで得ることができる、という効果が得られる。
本発明の第1の実施の形態に係る対応付け装置の概要を示す図である。 本発明の第1の実施の形態に係る文書対応付け処理ルーチンのフローチャートの一例である。 本発明の第2の実施の形態に係る対応付け装置の概要を示す図である。 本発明の第2の実施の形態に係る文対応付け処理ルーチンのフローチャートの一例である。 本発明の第3の実施の形態に係る段落対応付け処理ルーチンのフローチャートの一例である。 本発明の第4の実施の形態に係る対応付け装置の概要を示す図である。 本発明の第4の実施の形態に係る対応付け処理ルーチンのフローチャートの一例である。 本発明の第5の実施の形態に係る対応付け装置の概要を示す図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態の概要>
本発明の実施の形態の技術分野は、自然言語処理、自動翻訳、及び機械学習に関するものである。本発明の実施の形態では、翻訳文と当該翻訳文の原文との対応関係を発見する。具体的には、翻訳文を原文の言語へ変換し、原文との一致度を計算し、翻訳文と全ての候補の中から尤もらしい原文とを対応付ける。本発明の実施の形態では、原文の集合と原文の翻訳文の集合とがあり、対応関係が不明の状態にある中から、対となる文(又は文書)を取り出すことが目的である。
本発明の実施の形態では、第1の言語のテキストの集合と、第2の言語のテキストの集合とを入力とし、第1の言語のテキストと、第1の言語のテキストの対訳である第2の言語のテキストとを対応付ける対応付け装置に本発明を適用した場合を例に説明する。
<第1の実施の形態>
<システム構成>
以下、図面を参照して本発明の実施の形態を詳細に説明する。図1は、第1の実施の形態に係る対応付け装置の構成の一例を示す図である。第1の実施の形態では、テキストが文書である場合を例に説明する。第1の実施の形態に係る対応付け装置は、第1の言語の文書と、第1の言語の文書の対訳である第2の言語の文書とを対応付ける。
対応付け装置100は、CPU(Central Processing Unit)と、RAM(Random Access Memory)と、CPUが後述する各処理ルーチンを実行するためのプログラムを記憶したROM(Read Only Memory)とを備えたコンピュータで構成されている。また、対訳文書対応付け装置100を構成するコンピュータは、ハードディスクドライブ等の記憶部や通信インタフェース等を備えていてもよい。また、ハードディスクドライブにCPUが実行するプログラムが記憶されていてもよい。CPUがROMやハードディスク等の記憶部に記憶されているプログラムを読み出して実行することにより、上記ハードウェアとプログラムとを協働させて以下に説明する機能が実現される。
このコンピュータは、機能的には、図1に示すように、入力部10、演算部20、及び出力部50を含んだ構成で表わすことができる。
入力部10は、原文書の集合である第1の言語の文書の集合と、原文書の翻訳文書の集合である第2の言語の文書の集合とを受け付ける。第1の言語の文書の集合の文書の各々と、第2の言語の文書の集合の文書の各々との対応は未知であるとする。第1の言語の一例としては例えば日本語が挙げられ、第2の言語の一例としては例えば英語が挙げられる。
演算部20は、原文データベース22と、翻訳文データベース24と、翻訳部26と、ベクトル化部28と、第1ベクトルデータベース34と、第2ベクトルデータベース36と、一致度計算部38と、対応付け部40と、対応付け文書データベース42と、学習部44とを備えている。
原文データベース22には、入力部10によって受け付けた第1の言語の文書の集合が格納される。原文データベース22に格納されている第1の言語の文書の各々は、翻訳文データベース24に格納されている第2の言語の文書の各々の対訳である。
翻訳文データベース24には、入力部10によって受け付けた第2の言語の文書の集合が格納される。翻訳文データベース24に格納されている第2の言語の文書の各々は、原文データベース22に格納されている第1の言語の文書の各々の対訳である。
翻訳部26は、翻訳文データベース24に格納された第2の言語の文書の集合に含まれる複数の第2の言語の文書の各々について、第2の言語の文書を第1の言語の文書へ翻訳する。具体的には、翻訳部26は、簡易な翻訳システムにより第2の言語の文書を第1の言語の文書へ翻訳する。例えば、翻訳部26は、Google(登録商標)翻訳等を用いて第2の言語の文書を第1の言語の文書へ翻訳する。
ベクトル化部28は、翻訳部26によって翻訳された第1の言語の文書の各々をベクトル化したベクトルを生成し、原文データベース22に格納された第1の言語の文書の各々をベクトル化したベクトルを生成する。ベクトル化部28は、第1ベクトル化部30と第2ベクトル化部32とを備えている。
第1ベクトル化部30は、翻訳部26によって翻訳された第1の言語の文書の各々をベクトル化したベクトルを生成する。例えば、第1ベクトル化部30は、翻訳部26によって翻訳された第1の言語の文書の各々について、第1の言語の文書における単語の出現頻度に基づくベクトルを生成する。具体的には、第1ベクトル化部30は、例えば、第1の言語の文書における単語の出現頻度及び単語の語順に関する情報に基づいて、パラグラフベクトル(ParagraphVector)(例えば、参考文献(Le and Mikolov, “Distributed Representations of Sentences and Documents”, Proceedings of the 31 st International Conference on Machine Learning, Beijing, China, 2014.)を参照)によるベクトル化等を用いて第1の言語の文書の各々をベクトル化する。
そして、第1ベクトル化部30は、生成されたベクトルの各々を第1ベクトルデータベース34に格納する。
第2ベクトル化部32は、原文データベース22に格納された第1の言語の文書の各々をベクトル化したベクトルを生成する。例えば、第2ベクトル化部32は、第1ベクトル化部30と同様に、原文データベース22に格納された第1の言語の文書の各々について、第1の言語の文書における単語の出現頻度に基づくベクトルを生成する。具体的には第1ベクトル化部30と同様に、パラグラフベクトル等を用いて第1の言語の文書の各々をベクトル化する。
そして、第2ベクトル化部32は、生成されたベクトルの各々を第2ベクトルデータベース36に格納する。
第1ベクトルデータベース34には、第1ベクトル化部30によって生成された第1の言語の文書のベクトルの各々が格納される。
第2ベクトルデータベース36には、第2ベクトル化部32によって生成された第1の言語の文書のベクトルの各々が格納される。
一致度計算部38は、翻訳部26によって翻訳された第1の言語の文書と原文データベース22に格納された第1の言語の文書との組み合わせの各々について、第1ベクトルデータベース34に格納された第1の言語の文書のベクトルと第2ベクトルデータベース36に格納された第1の言語の文書のベクトルとのベクトル間の一致度を計算する。ベクトル間の一致度の計算は、例えば、内積計算等を用いる。一致度計算部38は、全ての組み合わせで一致度を計算し、メモリ(図示省略)に一時保存する。
対応付け部40は、一致度計算部38によって計算された一致度の各々に基づいて、原文データベース22に格納された第1の言語の文書の集合に含まれる第1の言語の文書と、翻訳文データベース24に格納された第2の言語の文書の集合に含まれる第2の言語の文書とを対応付ける。具体的には、対応付け部40は、計算された一致度が高い順に、第1の言語の文書と第2の言語の文書とが1対1に対応するように組み合わせ、出力する。また、対応付け部40は、対応付けられた第1の言語の文書と第2の言語の文書との各々を、対応付け文書データベース42に格納する。
対応付け文書データベース42には、対応付け部40によって対応付けられた第1の言語の文書と第2の言語の文書との各々が格納される。
学習部44は、対応付け文書データベース42に格納された、対応付けられた第1の言語の文書と第2の言語の文書とのペアの各々に基づいて、翻訳対象の第1の言語の文書を第2の言語の文書へ翻訳するための翻訳モデルを学習する。なお、翻訳対象の第2の言語の文書を第1の言語の文書へ翻訳するための翻訳モデルを学習してもよい。
出力部50は、学習部44によって学習された翻訳モデルを出力する。
<対応付け装置100の動作>
次に、対応付け装置100の作用について図2を参照して詳細に説明する。まず、第1の言語の文書の集合と、第2の言語の文書の集合とが対応付け装置100に入力されると、入力部10は第1の言語の文書の集合及び第2の言語の文書の集合を受け付け、第1の言語の文書の集合を原文データベース22に格納し、第2の言語の文書の集合を翻訳文データベース24に格納する。そして、対応付け装置100は、図2に示す文書対応付け処理ルーチンを実行する。
ステップS100において、翻訳部26は、翻訳文データベース24に格納された第2の言語の文書の集合に含まれる複数の第2の言語の文書の各々について、第2の言語の文書を第1の言語の文書へ翻訳する。
次に、ステップS102において、第1ベクトル化部30は、上記ステップS100で翻訳された第1の言語の文書の各々をベクトル化したベクトルを生成する。
ステップS104において、第1ベクトル化部30は、上記ステップS102で生成されたベクトルの各々を第1ベクトルデータベース34に格納する。
ステップS106において、第2ベクトル化部32は、原文データベース22に格納された第1の言語の文書の各々をベクトル化したベクトルを生成する。
ステップS108において、第2ベクトル化部32は、上記ステップS106で生成されたベクトルの各々を第2ベクトルデータベース36に格納する。
ステップS110において、一致度計算部38は、上記ステップS100で翻訳された第1の言語の文書と、原文データベース22に格納された第1の言語の文書との組み合わせの各々について、上記ステップS104で第1ベクトルデータベース34に格納された第1の言語の文書のベクトルと、上記ステップS108で第2ベクトルデータベース36に格納された第1の言語の文書のベクトルとのベクトル間の一致度を計算する。
ステップS112において、対応付け部40は、上記ステップS110で計算された一致度の各々に基づいて、原文データベース22に格納された第1の言語の文書の集合に含まれる第1の言語の文書と、翻訳文データベース24に格納された第2の言語の文書の集合に含まれる第2の言語の文書とを対応付ける。
ステップS114において、対応付け部40は、上記ステップS112で対応付けられた第1の言語の文書と第2の言語の文書との各々を対応付け文書データベース42に格納し、文書対応付け処理ルーチンを終了する。
対応付け文書データベース42に第1の言語の文書と第2の言語の文書との各々が格納されると、学習部44は、対応付け文書データベース42に格納された第1の言語の文書と第2の言語の文書との各々に基づいて、翻訳対象の文書を翻訳するための翻訳モデルを学習する。そして、出力部50は、学習部44によって学習された翻訳モデルを出力する。
以上説明したように、本発明の第1の実施の形態に係る対応付け装置100によれば、第1の言語の文書の集合と第2の言語の文書の集合とを入力とし、第2の言語の文書の集合に含まれる複数の第2の言語の文書の各々について、第2の言語の文書を第1の言語の文書へ翻訳し、翻訳された第1の言語の文書の各々のベクトルを生成し、第1の言語の文書の集合に含まれる第1の言語の文書の各々のベクトルを生成し、翻訳された第1の言語の文書と第1の言語の文書の集合に含まれる第1の言語の文書との組み合わせの各々について、生成されたベクトル間の一致度を計算し、計算された一致度の各々に基づいて、第1の言語の文書の集合に含まれる第1の言語の文書と、第2の言語の文書の集合に含まれる第2の言語の文書とを対応付けることにより、対訳となる第1の言語の文書と第2の言語の文書とを低コストで得ることができる。また、対訳関係にある第1の言語の文書と第2の言語の文書とを精度よく対応付けることができる。
また、本発明の実施の形態により、第1の言語の文書と第2の言語の文書との対応関係を低コストで明確にすることができ、大量の文書が機械翻訳の学習データ等として利用可能になる。
また、本発明の実施の形態により、従来の人手による対応付け作業にかかる膨大なコストを省き、大量の文書を低コストで処理することが可能になる。
また、本発明の実施の形態を用いれば、機械翻訳のための学習データを大量に供給することが可能となり、翻訳精度の向上が見込まれる。
また、従来技術では、単語翻訳の表記揺れにより文書間の対応付けが困難であったが、本発明の実施の形態で用いたベクトル化手法を適用すれば、訳語の表記揺れに対して頑強な一致度計算が可能となる。
また、単語の出現頻度に基づき、一致度を計算することにより、日英等の語順の大きく異なる言語間の翻訳文にも対応することができる。また、計算コストが小さくなるという利点もある。
<第2の実施の形態>
<システム構成>
次に、第2の実施の形態について説明する。なお、第1の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
第2の実施の形態は、テキストが文であり、第1の言語の文と、第1の言語の文の対訳である第2の言語の文とを対応付ける点が、第1の実施の形態と異なっている。
図3に示すように、第2の実施の形態に係る対応付け装置200は、入力部210、演算部220、及び出力部250を含んだ構成で表わすことができる。
入力部210は、原文の集合である第1の言語の文の集合と、原文の翻訳文の集合である第2の言語の文の集合とを受け付ける。第1の言語の文の集合の文の各々と、第2の言語の文の集合の文の各々との対応は未知であるとする。
演算部220は、原文データベース222と、翻訳文データベース224と、翻訳部226と、ベクトル化部228と、第1ベクトルデータベース234と、第2ベクトルデータベース236と、一致度計算部238と、対応付け部240と、対応付け文データベース242と、学習部244とを備えている。
原文データベース222には、入力部210によって受け付けた第1の言語の文の集合が格納される。
翻訳文データベース224には、入力部210によって受け付けた第2の言語の文の集合が格納される。
翻訳部226は、翻訳文データベース224に格納された第2の言語の文の各々について、第2の言語の文を第1の言語の文へ翻訳する。
ベクトル化部228は、翻訳部226によって翻訳された第1の言語の文の各々をベクトル化したベクトルを生成し、原文データベース222に格納された第1の言語の文の各々をベクトル化したベクトルを生成する。ベクトル化部228は、第1ベクトル化部230と第2ベクトル化部232とを備えている。
第1ベクトル化部230は、翻訳部226によって翻訳された第1の言語の文の各々をベクトル化したベクトルを生成する。そして、第1ベクトル化部230は、生成されたベクトルの各々を第1ベクトルデータベース234に格納する。
第2ベクトル化部232は、原文データベース222に格納された第1の言語の文の各々をベクトル化したベクトルを生成する。そして、第2ベクトル化部232は、生成されたベクトルの各々を第2ベクトルデータベース36に格納する。
第1ベクトルデータベース234には、第1ベクトル化部230によってベクトル化された第1の言語の文のベクトルの各々が格納される。
第2ベクトルデータベース236には、第2ベクトル化部232によってベクトル化された第1の言語の文のベクトルの各々が格納される。
一致度計算部238は、翻訳部226によって翻訳された第1の言語の文と原文データベース222に格納された第1の言語の文との組み合わせの各々について、第1ベクトルデータベース234に格納された第1の言語の文のベクトルと第2ベクトルデータベース236に格納された第1の言語の文のベクトルとのベクトル間の一致度を計算する。
対応付け部240は、一致度計算部238によって計算された一致度の各々に基づいて、原文データベース222に格納された第1の言語の文の集合に含まれる第1の言語の文と、翻訳文データベース224に格納された第2の言語の文の集合に含まれる第2の言語の文とを対応付ける。
対応付け文データベース242には、対応付け部240によって対応付けられた第1の言語の文と第2の言語の文との各々が格納される。
学習部244は、対応付け文データベース242に格納された、対応付けられた第1の言語の文と第2の言語の文とのペアの各々に基づいて、翻訳対象の第1の言語の文を第2の言語の文へ翻訳するための翻訳モデルを学習する。なお、翻訳対象の第2の言語の文を第1の言語の文へ翻訳するための翻訳モデルを学習してもよい。
<対応付け装置200の動作>
次に、対応付け装置200の作用について図4を参照して詳細に説明する。まず、第1の言語の文の集合と、第2の言語の文の集合とが対応付け装置200に入力されると、入力部210は第1の言語の文の集合及び第2の言語の文の集合を受け付け、第1の言語の文の集合を原文データベース222に格納し、第2の言語の文の集合を翻訳文データベース224に格納する。そして、対応付け装置200は、図4に示す文対応付け処理ルーチンを実行する。
ステップS200において、翻訳部226は、翻訳文データベース224に格納された第2の言語の文の集合に含まれる複数の第2の言語の文の各々について、第2の言語の文を第1の言語の文へ翻訳する。
次に、ステップS202において、第1ベクトル化部230は、上記ステップS200で翻訳された第1の言語の文の各々をベクトル化したベクトルを生成する。
ステップS204において、第1ベクトル化部230は、上記ステップS202で生成されたベクトルの各々を第1ベクトルデータベース234に格納する。
ステップS206において、第2ベクトル化部232は、原文データベース222に格納された第1の言語の文の各々をベクトル化したベクトルを生成する。
ステップS208において、第2ベクトル化部232は、上記ステップS206で生成されたベクトルの各々を第2ベクトルデータベース236に格納する。
ステップS210において、一致度計算部238は、上記ステップS200で翻訳された第1の言語の文と、原文データベース222に格納された第1の言語の文との組み合わせの各々について、上記ステップS204で第1ベクトルデータベース234に格納された第1の言語の文のベクトルと、上記ステップS208で第2ベクトルデータベース236に格納された第1の言語の文のベクトルとのベクトル間の一致度を計算する。
ステップS212において、対応付け部240は、上記ステップS210で計算された一致度の各々に基づいて、原文データベース222に格納された第1の言語の文の集合に含まれる第1の言語の文と、翻訳文データベース224に格納された第2の言語の文の集合に含まれる第2の言語の文とを対応付ける。
ステップS214において、対応付け部240は、上記ステップS212で対応付けられた第1の言語の文と第2の言語の文との各々を対応付け文データベース242に格納し、文対応付け処理ルーチンを終了する。
対応付け文データベース242に第1の言語の文と第2の言語の文との各々が格納されると、学習部244は、対応付け文データベース242に格納された第1の言語の文と第2の言語の文との各々に基づいて、翻訳対象の文を翻訳するための翻訳モデルを学習する。
なお、第2の実施の形態に係る対応付け装置200の他の構成及び作用については、第1の実施の形態と同様であるため、説明を省略する。
以上説明したように、本発明の第2の実施の形態に係る対応付け装置200によれば、第1の言語の文の集合と第2の言語の文の集合とを入力とし、第2の言語の文の集合に含まれる複数の第2の言語の文の各々について、第2の言語の文を第1の言語の文へ翻訳し、翻訳された第1の言語の文の各々のベクトルを生成し、第1の言語の文の集合に含まれる第1の言語の文の各々のベクトルを生成し、翻訳された第1の言語の文と第1の言語の文の集合に含まれる第1の言語の文との組み合わせの各々について、生成されたベクトル間の一致度を計算し、計算された一致度の各々に基づいて、第1の言語の文の集合に含まれる第1の言語の文と、第2の言語の文の集合に含まれる第2の言語の文とを対応付けることにより、対訳となる第1の言語の文と第2の言語の文とを低コストで得ることができる。
<第3の実施の形態>
<システム構成>
次に、第3の実施の形態について説明する。なお、第3の実施の形態に係る対応付け装置の構成は、第1の実施の形態と同様の構成となるため、同一符号を付して説明を省略する。
第3の実施の形態では、少なくとも1つの文からなる段落毎にベクトル化する点が、第1及び第2の実施の形態と異なっている。
本発明の実施の形態は、文書間の対応付けだけではなく、対応がとれている第1の言語の文書と第2の言語の文書とにおいて、文書内の段落同士の対応付け、あるいは、上記第2の実施の形態のように文同士の対応付けに適用することも可能である。
一般に、翻訳文書は原文書を要約的に翻訳した文書であることも多く、このような場合、文レベル又は段落レベルの対応がとれず、機械翻訳の学習データとしての利用は難しい。
従って、第3の実施の形態では、上記第1の実施の形態の文書の集合を、段落集合である文書に置き換え、段落レベルの対応を取り出す場合を例に説明する。
第3の実施の形態に係る入力部10は、原文書である第1の言語の文書と、原文書の翻訳文書である第2の言語の文書とを受け付ける。第1の言語の文書の各段落と、第2の言語の文書の各段落との対応は未知であるとする。
第3の実施の形態に係る原文データベース22には、入力部10によって受け付けた第1の言語の文書が格納される。
第3の実施の形態に係る翻訳文データベース24には、入力部10によって受け付けた第2の言語の文書が格納される。
第3の実施の形態に係る翻訳部26は、翻訳文データベース24に格納された第2の言語の文書の段落の各々について、第2の言語の文書の各段落を第1の言語の文書へ翻訳する。
第3の実施の形態に係るベクトル化部28は、第1ベクトル化部30と第2ベクトル化部32とを備えている。
第3の実施の形態に係る第1ベクトル化部30は、翻訳部26によって翻訳された第1の言語の文書の段落の各々について、当該段落をベクトル化したベクトルを生成する。
第3の実施の形態に係る第2ベクトル化部32は、原文データベース22に格納された第1の言語の文書の段落の各々について、当該段落をベクトル化したベクトルを生成する。
第3の実施の形態に係る第1ベクトルデータベース34には、第1ベクトル化部30によって生成された第1の言語の文書の各段落のベクトルの各々が格納される。
第3の実施の形態に係る第2ベクトルデータベース36には、第2ベクトル化部32によって生成された第1の言語の文書の各段落のベクトルの各々が格納される。
第3の実施の形態に係る一致度計算部38は、翻訳部26によって翻訳された第1の言語の文書の段落と原文データベース22に格納された第1の言語の文書の段落との組み合わせの各々について、第1ベクトルデータベース34に格納された第1の言語の文書の段落のベクトルと第2ベクトルデータベース36に格納された第1の言語の文書の段落のベクトルとに基づいて、ベクトル間の一致度を計算する。
第3の実施の形態に係る対応付け部40は、一致度計算部38によって計算された一致度の各々に基づいて、原文データベース222に格納された第1の言語の文書の段落の各々と、翻訳文データベース224に格納された第2の言語の文書の段落の各々とを対応付ける。
第3の実施の形態に係る対応付け文書データベース42には、対応付け部40によって対応付けられた第1の言語の文書の段落と第2の言語の文書の段落との各々が格納される。
第3の実施の形態に係る学習部44は、対応付け文書データベース42に格納された、対応付けられた第1の言語の文書の段落と第2の言語の文書の段落とのペアの各々に基づいて、翻訳対象の第1の言語の文書を第2の言語の文書へ翻訳するための翻訳モデルを学習する。なお、翻訳対象の第2の言語の文書を第1の言語の文書へ翻訳するための翻訳モデルを学習してもよい。
<第3の実施の形態に係る対応付け装置の動作>
次に、第3の実施の形態に係る対応付け装置の作用について図5を参照して詳細に説明する。まず、第1の言語の文書と、第2の言語の文書とが対応付け装置に入力されると、入力部10は第1の言語の文書及び第2の言語の文書を受け付け、第1の言語の文書を原文データベース22に格納し、第2の言語の文書を翻訳文データベース24に格納する。そして、対応付け装置は、図5に示す段落対応付け処理ルーチンを実行する。
ステップS300において、翻訳部26は、翻訳文データベース24に格納された第2の言語の文書の段落の各々について、第2の言語の文書の各段落を第1の言語の文書へ翻訳する。
次に、ステップS302において、第1ベクトル化部30は、上記ステップS300で翻訳された第1の言語の文書の段落の各々をベクトル化したベクトルを生成する。
ステップS304において、第1ベクトル化部30は、上記ステップS302で生成されたベクトルの各々を第1ベクトルデータベース34に格納する。
ステップS306において、第2ベクトル化部32は、原文データベース22に格納された第1の言語の文書の段落の各々をベクトル化したベクトルを生成する。
ステップS308において、第2ベクトル化部32は、上記ステップS306で生成されたベクトルの各々を第2ベクトルデータベース36に格納する。
ステップS310において、一致度計算部38は、上記ステップS300で翻訳された第1の言語の文書の段落と、原文データベース22に格納された第1の言語の文書の段落との組み合わせの各々について、上記ステップS304で第1ベクトルデータベース34に格納された第1の言語の文書の段落のベクトルと、上記ステップS108で第2ベクトルデータベース36に格納された第1の言語の文書の段落のベクトルとのベクトル間の一致度を計算する。
ステップS312において、対応付け部40は、上記ステップS310で計算された一致度の各々に基づいて、原文データベース22に格納された第1の言語の文書の段落の各々と、翻訳文データベース24に格納された第2の言語の文書の段落の各々とを対応付ける。
ステップS314において、対応付け部40は、上記ステップS312で対応付けられた第1の言語の文書の段落と第2の言語の文書の段落との各々を対応付け文書データベース42に格納し、段落対応付け処理ルーチンを終了する。
対応付け文書データベース42に第1の言語の文書と第2の言語の文書との各々が格納されると、学習部44は、対応付け文書データベース42に格納された第1の言語の文書の段落と第2の言語の文書の段落とのペアの各々に基づいて、翻訳対象の文書を翻訳するための翻訳モデルを学習する。そして、出力部50は、学習部44によって学習された翻訳モデルを出力する。
なお、第3の実施の形態に係る対応付け装置の他の構成及び作用については、第1の実施の形態と同様であるため、説明を省略する。
以上説明したように、本発明の第3の実施の形態に係る対応付け装置によれば、翻訳された第1の言語の文書の段落の各々について、第1の言語の文書の段落をベクトル化したベクトルを生成し、原文データベース22に格納された第1の言語の文書の段落の各々について、第1の言語の文書の段落をベクトル化したベクトルを生成し、翻訳された第1の言語の文書の段落と第1の言語の文書に含まれる第1の言語の文書の段落との組み合わせの各々について、生成されたベクトル間の一致度を計算し、計算された一致度の各々に基づいて、第1の言語の文書の段落と、第2の言語の文書の段落とを対応付けることにより、対訳となる第1の言語の文書の段落と第2の言語の文書の段落とを低コストで得ることができる。
なお、第3の実施の形態では、文書の段落を対応付ける場合を例に説明したが、文書に含まれる文を対応付けてもよい。
<第4の実施の形態>
<システム構成>
次に、第4の実施の形態について説明する。なお、第1〜第3の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
第4の実施の形態では、第1の言語の文書と第2の言語の文書とについて、段落レベルの対応付けを行った後、その結果を入力部に戻し、文レベルの対応付けを行い、2段階の対応付けを行う点が、第1〜第3の実施の形態と異なっている。
図6に示すように、第4の実施の形態に係る対応付け装置400は、入力部410、演算部420、及び出力部450を含んだ構成で表わすことができる。
入力部410は、第3の実施の形態と同様に、原文書である第1の言語の文書と、原文書の翻訳文書である第2の言語の文書とを受け付ける。また、入力部410は、後述する段落対応情報データベース460に格納されている段落対応情報を取得する。段落対応情報は、第1の言語の文書の段落と第2の言語の文書の段落との対応関係を表す。
原文データベース422には、第3の実施の形態と同様に、入力部410によって受け付けた第1の言語の文書が格納される。
翻訳文データベース424には、第3の実施の形態と同様に、入力部410によって受け付けた第2の言語の文書が格納される。
翻訳部426は、第3の実施の形態と同様に、翻訳文データベース424に格納された第2の言語の文書の段落の各々について、第2の言語の文書の各段落を第1の言語の文書へ翻訳する。また、翻訳部426は、更に、翻訳文データベース424に格納された第2の言語の文書の段落の文の各々について、第2の言語の文書の段落の各文を第1の言語の文へ翻訳する。
ベクトル化部428は、第1ベクトル化部430と第2ベクトル化部432とを備えている。
第1ベクトル化部430は、第3の実施の形態と同様に、翻訳部426によって翻訳された第1の言語の文書の段落の各々について、当該段落をベクトル化したベクトルを生成する。また、第1ベクトル化部430は、更に、翻訳部426によって翻訳された第1の言語の文書の段落の文の各々について、当該文をベクトル化したベクトルを生成する。
第2ベクトル化部432は、第3の実施の形態と同様に、原文データベース422に格納された第1の言語の文書の段落の各々について、当該段落をベクトル化したベクトルを生成する。また、第2ベクトル化部432は、原文データベース422に格納された第1の言語の文書の段落の文の各々について、当該文をベクトル化したベクトルを生成する。
第1ベクトルデータベース434には、第3の実施の形態と同様に、第1ベクトル化部430によって生成された第1の言語の文書の各段落のベクトルの各々が格納される。また、第1ベクトルデータベース434には、第1ベクトル化部430によって生成された第1の言語の文書の段落の各文のベクトルの各々が格納される。
第2ベクトルデータベース436には、第3の実施の形態と同様に、第2ベクトル化部432によって生成された第1の言語の文書の各段落のベクトルの各々が格納される。また、第2ベクトルデータベース436には、第2ベクトル化部432によって生成された第1の言語の文書の段落の各文のベクトルの各々が格納される。
一致度計算部438は、第3の実施の形態と同様に、翻訳部426によって翻訳された第1の言語の文書の段落と原文データベース422に格納された第1の言語の文書の段落との組み合わせの各々について、第1ベクトルデータベース434に格納された第1の言語の文書の段落のベクトルと第2ベクトルデータベース436に格納された第1の言語の文書の段落のベクトルとに基づいて、段落のベクトル間の一致度を計算する。
また、一致度計算部438は、更に、入力部410によって取得された段落対応情報に基づいて、対応付けられた第1の言語の文書の段落と第2の言語の文書の段落のペアの各々について、第1の言語の文書の段落の文のベクトルと第2の言語の文書の段落の文のベクトルとに基づいて、文のベクトル間の一致度を計算する。
対応付け部440は、第3の実施の形態と同様に、一致度計算部438によって計算された段落のベクトルの一致度の各々に基づいて、原文データベース222に格納された第1の言語の文書の段落の各々と、翻訳文データベース224に格納された第2の言語の文書の段落の各々とを対応付ける。そして、対応付け部440は、第1の言語の文書の段落と第2の言語の文書の段落との対応付け関係を表す段落対応情報を生成する。
また、対応付け部440は、更に、一致度計算部438によって計算された文のベクトルの一致度の各々に基づいて、対応付けられた第1の言語の文書の段落の各文と第2の言語の文書の段落の各文とを対応付ける。
対応付け文データベース442には、対応付け部440によって対応付けられた第1の言語の文書の段落と第2の言語の文書の段落との各々が格納される。また、対応付け文データベース442には、対応付け部440によって対応付けられた第1の言語の文書の段落の文と第2の言語の文書の段落の文との各々が格納される。
学習部444は、対応付け文データベース442に格納された、対応付けられた第1の言語の文書の段落と第2の言語の文書の段落とのペアの各々と、対応付けられた第1の言語の文書の段落の文と第2の言語の文書の段落の文とのペアの各々とに基づいて、翻訳対象の第1の言語の文書を第2の言語の文書へ翻訳するための翻訳モデルを学習する。なお、翻訳対象の第2の言語の文書を第1の言語の文書へ翻訳するための翻訳モデルを学習してもよい。
出力部450は、学習部444によって学習された翻訳モデルを出力する。また、出力部450は、対応付け部440によって生成された第1の言語の文書の段落と第2の言語の文書の段落とのペアの各々に関する段落対応情報を出力する。
段落対応情報データベース460には、出力部450によって出力された段落対応情報が格納される。
<対応付け装置400の動作>
次に、対応付け装置400の作用について図7を参照して詳細に説明する。まず、第1の言語の文の集合と、第2の言語の文の集合とが対応付け装置400に入力されると、入力部410は第1の言語の文の集合及び第2の言語の文の集合を受け付け、第1の言語の文の集合を原文データベース422に格納し、第2の言語の文の集合を翻訳文データベース424に格納する。そして、対応付け装置400は、図7に示す対応付け処理ルーチンを実行する。
ステップS400では、原文データベース422に格納された第1の言語の文書の段落の各々と、翻訳文データベース424に格納された第2の言語の文書の段落の各々とを対応付ける。ステップS400は、上記図5に示す段落対応付け処理ルーチンによって実現される。
次のステップS402において、出力部450は、対応付け文データベース442に格納された第1の言語の文書の段落と第2の言語の文書の段落とのペアの各々に関する段落対応情報を出力し、段落対応情報データベース460に格納する。
ステップS404において、入力部410は、段落対応情報データベース460に格納されている段落対応情報を取得する。
ステップS406では、上記ステップS404で取得された段落対応情報に基づいて、上記ステップS400で対応付けられた第1の言語の文書の段落の各文と第2の言語の文書の段落の各文とを対応付ける。ステップS406は、上記図4に示す文対応付け処理ルーチンによって実現される。
なお、第4の実施の形態に係る対応付け装置400の他の構成及び作用については、第1〜第3の実施の形態と同様であるため、説明を省略する。
以上説明したように、本発明の第4の実施の形態に係る対応付け装置によれば、第1の言語の文書に含まれる第1の言語の段落と、第2の言語の文書に含まれる第2の言語の段落とを対応付け、第1の言語の文書に含まれる第1の言語の段落と、第2の言語の文書に含まれる第2の言語の段落との対応付け関係を表す段落対応情報を生成し、生成された段落対応情報に基づいて、記第1の言語の段落に含まれる第1の言語の文と、第2の言語の段落に含まれる第2の言語の文とを対応付けることにより、対訳関係にある第1の言語の文と第2の言語の文とを精度よく対応付けることができる。
<第5の実施の形態>
<システム構成>
次に、第5の実施の形態について説明する。なお、第1〜第4の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。
第5の実施の形態では、ベクトル化計算を行うときに2種類以上のベクトル化計算を組み合わせて行い、対応するベクトル化計算によって生成されたベクトル間の一致度を計算して対応関係を判断する点が、第1〜第3の実施の形態と異なっている。
図8に示すように、第4の実施の形態に係る対応付け装置500は、入力部210、演算部520、及び出力部50を含んだ構成で表わすことができる。
演算部520は、原文データベース222と、翻訳文データベース224と、翻訳部226と、ベクトル化部528と、第1ベクトルデータベース534と、第3ベクトルデータベース535と、第2ベクトルデータベース536と、第4ベクトルデータベース537と、一致度計算部538と、対応付け部240と、対応付け文データベース242と、学習部244とを備えている。
ベクトル化部528は、翻訳部226によって翻訳された第1の言語の文の各々をベクトル化した複数の種類のベクトルを生成し、原文データベース222に格納された第1の言語の文の各々をベクトル化した複数の種類のベクトルを生成する。例えば、ベクトル化部528は、2種類のベクトル化手法によってベクトルを生成する。ベクトル化部528は、第1ベクトル化部530と第2ベクトル化部532とを備えている。
第1ベクトル化部530は、翻訳部226によって翻訳された第1の言語の文の各々を、第1のベクトル化手法によってベクトル化したベクトルを生成する。そして、第1ベクトル化部530は、第1のベクトル化手法によって生成されたベクトルの各々を第1ベクトルデータベース534に格納する。また、第1ベクトル化部530は、翻訳部226によって翻訳された第1の言語の文の各々を、第2のベクトル化手法によってベクトル化したベクトルを生成する。そして、第1ベクトル化部530は、第2のベクトル化手法によって生成されたベクトルの各々を第3ベクトルデータベース535に格納する。
第2ベクトル化部532は、原文データベース222に格納された第1の言語の文の各々を、第1のベクトル化手法によってベクトル化したベクトルを生成する。そして、第2ベクトル化部532は、第1のベクトル化手法によって生成されたベクトルの各々を第2ベクトルデータベース536に格納する。また、第2ベクトル化部532は、原文データベース222に格納された第1の言語の文の各々を、第2のベクトル化手法によってベクトル化したベクトルを生成する。そして、第2ベクトル化部532は、第2のベクトル化手法によって生成されたベクトルの各々を第4ベクトルデータベース537に格納する。
第1ベクトルデータベース534には、第1ベクトル化部530により第1のベクトル化手法によってベクトル化された第1の言語の文のベクトルの各々が格納される。
第3ベクトルデータベース535には、第1ベクトル化部530により第2のベクトル化手法によってベクトル化された第1の言語の文のベクトルの各々が格納される。
第2ベクトルデータベース536には、第2ベクトル化部532により第1のベクトル化手法によってベクトル化された第1の言語の文のベクトルの各々が格納される。
第4ベクトルデータベース537には、第2ベクトル化部532により第2のベクトル化手法によってベクトル化された第1の言語の文のベクトルの各々が格納される。
第1ベクトルデータベース534及び第2ベクトルデータベース536に格納されているベクトルは、同じ計算手法によってベクトル化されている。また、第3ベクトルデータベース535及び第4ベクトルデータベース537に格納されているベクトルは同じ計算手法によってベクトル化されている。
一致度計算部538は、翻訳部226によって翻訳された第1の言語の文と原文データベース222に格納された第1の言語の文との組み合わせの各々について、複数の種類のベクトル毎に、ベクトル化部528によって生成された当該種類のベクトル間の一致度を計算する。具体的には、一致度計算部538は、第1ベクトルデータベース234に格納された第1の言語の文のベクトルと第2ベクトルデータベース236に格納された第1の言語の文のベクトルとのベクトル間の第1の一致度を計算する。
また、一致度計算部538は、翻訳部226によって翻訳された第1の言語の文と原文データベース222に格納された第1の言語の文との組み合わせの各々について、第3ベクトルデータベース535に格納された第1の言語の文のベクトルと第4ベクトルデータベース537に格納された第1の言語の文のベクトルとのベクトル間の第2の一致度を計算する。
そして、一致度計算部538は、複数の種類のベクトル毎に計算されたベクトル間の一致度を組み合わせた一致度を計算する。具体的には、一致度計算部538は、計算された第1の一致度及び第2の一致度に基づいて、予め与えられた割合でそれぞれの一致度を組み合わせてベクトル間の一致度を計算する。
なお、第5の実施の形態に係る対応付け装置500の他の構成及び作用については、第1〜第4の実施の形態と同様であるため、説明を省略する。
以上説明したように、本発明の第5の実施の形態に係る対応付け装置によれば、翻訳部によって翻訳された第1の言語の文の各々をベクトル化したベクトルを複数種類生成し、第1の言語の文の集合に含まれる第1の言語の文の各々をベクトル化したベクトルを複数種類生成し、翻訳部によって翻訳された第1の言語の文と第1の言語の文の集合に含まれる第1の言語の文との組み合わせの各々について、生成された対応する種類のベクトル間の一致度の各々を計算し、対応する種類のベクトル間の一致度の各々に基づいて、翻訳部によって翻訳された第1の言語の文と第1の言語の文の集合に含まれる第1の言語の文との一致度を計算することにより、対訳関係にある第1の言語の文と第2の言語の文とを精度よく対応付けることができる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上記第1〜第5の実施の形態では、第2の言語のテキストを第1の言語のテキストへ翻訳する場合を例に説明したが、これに限定されるものではなく、第1の言語のテキストを第2の言語のテキストへ翻訳し、翻訳された第2の言語のテキストの各々のベクトルを生成し、第2の言語のテキストの集合に含まれる第2の言語の文書の各々のベクトルを生成し、翻訳された第2の言語の文書と第2の言語の文書の集合に含まれる第2の言語の文書との組み合わせの各々について、生成されたベクトル間の一致度を計算し、計算された一致度の各々に基づいて、第1の言語の文書の集合に含まれる第1の言語の文書と、第2の言語の文書の集合に含まれる第2の言語の文書とを対応付けてもよい。
また、上記第1〜第5の実施の形態の翻訳部は、第2の言語のテキストに含まれる各単語のみを、第1の言語の単語へ翻訳した第1の言語のテキストを生成してもよい。
上記第1〜第5の実施の形態のベクトル化部におけるベクトル化の手法については、単語の出現頻度を基に計算される手法が適用できる。例えば、特異値分解(SVD:singular value decomposition)等による手法でもよく、また、TFIDFあるいはOkapi_BM25等による出現頻度に基づく値をそのまま使ってもよい。ParagraphVector(上記参考文献)やSVD等単語間の関連性を組み込んだベクトル化手法を適用すれば、訳語の揺れに対して頑強な一致度計算が可能となる。
また、上記第1〜第5の実施の形態において一致度をもとに対応付けを行う場合、一致度の高い順に重複が起こらないように順次対応付けを行っても良いし、全体の対応付けとして尤もらしい組み合わせを採用してもよい。尤もらしい組み合わせは、例えば、それぞれの対応に、一致度から計算した確率を与え、対応付けの組み合わせを同時確率として計算する方法などが適用することができる。
また、上記第1〜第5の実施の形態では、第3の言語の文(又は文書)が、第1の言語の文(又は文書)と第2の言語の文(又は文書)とに予め翻訳されている場合についても適用することができる。例えば第3の言語がドイツ語であり、ドイツ語の文(又は文書)が、第1の言語である英語と、第2の言語である日本語とに予め翻訳されている場合についても、第1の言語の文(又は文書)と第2の言語の文(又は文書)とを対応付けることができる。
また、上記第5の実施の形態では、ベクトルの種類が2種類である場合を例に説明したが、これに限定されるものではなく、複数の種類のベクトルを生成してもよい。
また、第4の実施の形態では、はじめに文書レベルの対応付けを行った後、段落レベルの対応付けをし、さらに、文レベルの対応付けを計算するといった、3段階以上の対応付け計算を適用することも可能である。
また、上述の対応付け装置が各データベースを備えている場合について説明したが、例えば各データベースが対応付け装置の外部装置に設けられ、対応付け装置は、外部装置と通信手段を用いて通信することにより、各データベースを参照するようにしてもよい。
また、上述の対応付け装置は、内部にコンピュータシステムを有しているが、コンピュータシステムは、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
10,210,410 入力部
20,220,420,520 演算部
22,222,422 原文データベース
24,224,424 翻訳文データベース
26,226,426 翻訳部
28,228,428,528 ベクトル化部
30,230,430,530 第1ベクトル化部
32,232,432,532 第2ベクトル化部
34,234,434,534 第1ベクトルデータベース
36,236,436,536 第2ベクトルデータベース
38,238,438,538 一致度計算部
40,240,440 対応付け部
42 対応付け文書データベース
44,244,444 学習部
50,250,450 出力部
100,200,400,500 対応付け装置
242,442 対応付け文データベース
460 段落対応情報データベース
535 第3ベクトルデータベース
537 第4ベクトルデータベース

Claims (8)

  1. 第1の言語のテキストの集合と、第2の言語のテキストの集合とを入力とし、前記第1の言語のテキストと、前記第1の言語のテキストの対訳である第2の言語のテキストとを対応付ける対応付け装置であって、
    前記第2の言語のテキストの集合に含まれる複数の第2の言語のテキストの各々について、前記第2の言語のテキストを第1の言語のテキストへ翻訳する翻訳部と、
    前記翻訳部によって翻訳された前記第1の言語のテキストの各々をベクトル化したベクトルを生成し、前記第1の言語のテキストの集合に含まれる第1の言語のテキストの各々をベクトル化したベクトルを生成するベクトル化部と、
    前記翻訳部によって翻訳された前記第1の言語のテキストと前記第1の言語のテキストの集合に含まれる第1の言語のテキストとの組み合わせの各々について、前記ベクトル化部によって生成されたベクトル間の一致度を計算する一致度計算部と、
    前記一致度計算部によって計算された一致度の各々に基づいて、前記第1の言語のテキストの集合に含まれる第1の言語のテキストと、前記第2の言語のテキストの集合に含まれる第2の言語のテキストとを対応付ける対応付け部と、
    を含む対応付け装置。
  2. 前記ベクトル化部は、前記翻訳部によって翻訳された前記第1の言語のテキストの各々について、前記第1の言語のテキストにおける単語の出現頻度に基づくベクトルを生成し、前記第1の言語のテキストの集合に含まれる第1の言語のテキストの各々について、該第1の言語のテキストにおける単語の出現頻度に基づくベクトルを生成する
    請求項1に記載の対応付け装置。
  3. 前記ベクトル化部は、前記テキストにおける単語の出現頻度に基づいて、パラグラフベクトルによるベクトル化又は特異値分解を用いて、前記テキストの各々について前記ベクトルを生成する
    請求項2に記載の対応付け装置。
  4. 前記翻訳部は、前記第2の言語のテキストに含まれる各単語を、前記第1の言語の単語へ翻訳した前記第1の言語のテキストを生成する
    請求項1〜請求項3の何れか1項に記載の対応付け装置。
  5. 前記テキストは、少なくとも1つの文からなる段落であり、
    前記テキストの集合は文書であり
    前記翻訳部は、前記第2の言語の文書に含まれる複数の第2の言語の段落の各々について、前記第2の言語の段落を第1の言語の段落へ翻訳し、
    前記ベクトル化部は、前記翻訳部によって翻訳された前記第1の言語の段落の各々をベクトル化したベクトルを生成し、前記第1の言語の文書に含まれる第1の言語の段落の各々をベクトル化したベクトルを生成し、
    前記一致度計算部は、前記翻訳部によって翻訳された前記第1の言語の段落と前記第1の言語の文書に含まれる第1の言語の段落との組み合わせの各々について、前記ベクトル化部によって生成されたベクトル間の一致度を計算し、
    前記対応付け部は、前記一致度計算部によって計算された一致度の各々に基づいて、前記第1の言語の文書に含まれる第1の言語の段落と、前記第2の言語の文書に含まれる第2の言語の段落とを対応付け、
    前記翻訳部は、更に、前記対応付け部によって対応付けられた第1の言語の段落と第2の言語の段落とを入力とし、前記第2の言語の段落の文の各々について、前記第2の言語の段落の文を第1の言語の文へ翻訳し、
    前記ベクトル化部は、更に、前記翻訳部によって翻訳された前記第1の言語の段落の文の各々をベクトル化したベクトルを生成し、前記第1の言語の段落に含まれる第1の言語の文の各々をベクトル化したベクトルを生成し、
    前記一致度計算部は、更に、前記翻訳部によって翻訳された前記第1の言語の段落の文と前記第1の言語の段落に含まれる第1の言語の文との組み合わせの各々について、前記ベクトル化部によって生成されたベクトル間の一致度を計算し、
    前記対応付け部は、更に、前記一致度計算部によって計算された一致度の各々に基づいて、前記第1の言語の段落に含まれる第1の言語の文と、前記第2の言語の段落に含まれる第2の言語の文とを対応付ける
    請求項1〜請求項4の何れか1項に記載の対応付け装置。
  6. 前記ベクトル化部は、前記翻訳部によって翻訳された前記第1の言語のテキストの各々をベクトル化した複数の種類のベクトルを生成し、前記第1の言語のテキストの集合に含まれる第1の言語のテキストの各々をベクトル化した複数の種類のベクトルを生成し、
    前記一致度計算部は、前記翻訳部によって翻訳された前記第1の言語のテキストと前記第1の言語のテキストの集合に含まれる第1の言語のテキストとの組み合わせの各々について、前記複数の種類のベクトル毎に、前記ベクトル化部によって生成された前記種類のベクトル間の一致度を計算し、前記複数の種類のベクトル毎に計算されたベクトル間の一致度を組み合わせた一致度を計算する
    請求項1〜請求項5の何れか1項に記載の対応付け装置。
  7. 前記対応付け部によって対応付けられた前記第1の言語のテキストと前記第2の言語のテキストとに基づいて、前記第1の言語のテキスト及び前記第2の言語のテキストの何れか一方から他方へ翻訳するための翻訳モデルを学習する学習部を更に含む
    請求項1〜請求項6の何れか1項に記載の対応付け装置。
  8. コンピュータを、請求項1〜請求項7の何れか1項に記載の対応付け装置の各部として機能させるためのプログラム。
JP2015125095A 2015-06-22 2015-06-22 対応付け装置及びプログラム Pending JP2017010274A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015125095A JP2017010274A (ja) 2015-06-22 2015-06-22 対応付け装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015125095A JP2017010274A (ja) 2015-06-22 2015-06-22 対応付け装置及びプログラム

Publications (1)

Publication Number Publication Date
JP2017010274A true JP2017010274A (ja) 2017-01-12

Family

ID=57762431

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015125095A Pending JP2017010274A (ja) 2015-06-22 2015-06-22 対応付け装置及びプログラム

Country Status (1)

Country Link
JP (1) JP2017010274A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107256209A (zh) * 2017-06-16 2017-10-17 江苏经贸职业技术学院 一种文档交互方法
CN107256211A (zh) * 2017-06-16 2017-10-17 江苏经贸职业技术学院 一种文档交互方法
CN107291670A (zh) * 2017-06-16 2017-10-24 江苏经贸职业技术学院 一种文档交互方法
CN115345127A (zh) * 2022-06-08 2022-11-15 甲骨易(北京)语言科技股份有限公司 一种平行语料句子级对齐系统和方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02294779A (ja) * 1989-05-10 1990-12-05 Hitachi Ltd 機械翻訳システム
JP2002259374A (ja) * 2001-03-01 2002-09-13 Toshiba Corp 翻訳装置、翻訳方法及び翻訳プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02294779A (ja) * 1989-05-10 1990-12-05 Hitachi Ltd 機械翻訳システム
JP2002259374A (ja) * 2001-03-01 2002-09-13 Toshiba Corp 翻訳装置、翻訳方法及び翻訳プログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107256209A (zh) * 2017-06-16 2017-10-17 江苏经贸职业技术学院 一种文档交互方法
CN107256211A (zh) * 2017-06-16 2017-10-17 江苏经贸职业技术学院 一种文档交互方法
CN107291670A (zh) * 2017-06-16 2017-10-24 江苏经贸职业技术学院 一种文档交互方法
CN115345127A (zh) * 2022-06-08 2022-11-15 甲骨易(北京)语言科技股份有限公司 一种平行语料句子级对齐系统和方法

Similar Documents

Publication Publication Date Title
Guzmán et al. The flores evaluation datasets for low-resource machine translation: Nepali-english and sinhala-english
CN109213995B (zh) 一种基于双语词嵌入的跨语言文本相似度评估技术
CN110874537B (zh) 多语言翻译模型的生成方法、翻译方法及设备
US10318642B2 (en) Method for generating paraphrases for use in machine translation system
US10832012B2 (en) Method executed in translation system and including generation of translated text and generation of parallel translation data
JP6404511B2 (ja) 翻訳支援システム、翻訳支援方法、および翻訳支援プログラム
CN110678868B (zh) 翻译支持系统、装置和方法以及计算机可读介质
Hartmann et al. A Large Corpus of Product Reviews in Portuguese: Tackling Out-Of-Vocabulary Words.
WO2015096529A1 (zh) 面向通用机译引擎的个性化翻译方法及装置
US20150161109A1 (en) Reordering words for machine translation
JP2013206397A (ja) 機械翻訳装置、機械翻訳方法及び機械翻訳プログラム
JP2017010274A (ja) 対応付け装置及びプログラム
JP5973986B2 (ja) 翻訳システム、方法、及びプログラム
EP2851809A2 (en) Machine translation apparatus and method
Nasution Pivot-based hybrid machine translation to support multilingual communication for closely related languages
JP2016164707A (ja) 自動翻訳装置及び翻訳用モデル学習装置
Priyadarshani et al. Statistical machine learning for transliteration: Transliterating names between sinhala, tamil and english
JP5428199B2 (ja) 対訳文抽出装置及び対訳文抽出方法
Rama et al. Two methods for automatic identification of cognates
Bal et al. Bilingual machine translation: Bengali to English
JP5298833B2 (ja) 翻訳装置及び翻訳プログラム
Uban et al. A computational approach to measuring the semantic divergence of cognates
CN113822053A (zh) 一种语法错误检测方法、装置、电子设备及存储介质
JP2010170303A (ja) 機械翻訳装置及びプログラム
Eo et al. Word-level quality estimation for Korean-English neural machine translation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170621

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180501

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180515

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20181106