JP2015022431A - 学習モデル作成装置、翻訳装置、学習モデル作成方法、及びプログラム - Google Patents

学習モデル作成装置、翻訳装置、学習モデル作成方法、及びプログラム Download PDF

Info

Publication number
JP2015022431A
JP2015022431A JP2013148721A JP2013148721A JP2015022431A JP 2015022431 A JP2015022431 A JP 2015022431A JP 2013148721 A JP2013148721 A JP 2013148721A JP 2013148721 A JP2013148721 A JP 2013148721A JP 2015022431 A JP2015022431 A JP 2015022431A
Authority
JP
Japan
Prior art keywords
meta information
translation
unit
sentence
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013148721A
Other languages
English (en)
Other versions
JP6186198B2 (ja
Inventor
智道 高山
Tomomichi Takayama
智道 高山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Group Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP2013148721A priority Critical patent/JP6186198B2/ja
Publication of JP2015022431A publication Critical patent/JP2015022431A/ja
Application granted granted Critical
Publication of JP6186198B2 publication Critical patent/JP6186198B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】統計翻訳の品質を低下させずに、新語の追加などの変更の対応に要する期間を短縮する。【解決手段】学習モデル作成装置は、異なる言語の対応する文の組である対訳文に含まれる異なる言語の対応する用語を、用語毎に異なる個別メタ情報に置換する個別メタ情報置換部と、個別メタ情報置換部によって置換された個別メタ情報を含む対訳文に基づいて、個別メタ情報を含む対訳文を構成する異なる言語のフレーズの対であるフレーズ対を含む第1翻訳モデルを作成する翻訳モデル作成部と、第1翻訳モデルより、所定の規則を満たすフレーズ対で構成される第2翻訳モデルを作成する翻訳モデル整形部と、フレーズ対に含まれる個別メタ情報を、個々の用語を特定しない統合メタ情報に変換した第3翻訳モデルを学習モデルとして生成するメタ情報統合部と、を備える。【選択図】図1

Description

本発明は、学習モデル作成装置、翻訳装置、学習モデル作成方法、及びプログラムに関する。
近年、コンピュータにより原言語を目的言語に翻訳する技術として、統計ベース機械翻訳(統計的機械翻訳と呼ばれることもある。以下、統計翻訳という)が広く使用されている。このような統計翻訳では、一般に、原言語文と目的言語文との対になった対訳を大量に用意し、それらを入力に統計的手法を用いて作成された学習モデルに基づき翻訳を行っている。なお、統計翻訳では、一般に、この学習モデルとして翻訳モデルと言語モデルとの2つのモデルが用いられている。ここで、翻訳モデルとは、原言語のフレーズと目的言語のフレーズとの対応を確率により定義したモデルである。また、言語モデルとは、目的言語の言語らしさを定義したモデルである。
特開2010−282453号公報
上述のような統計翻訳では、例えば、新語の追加に対応するためには、その新語を用いた多くのバリエーションの対訳を用意し、学習モデルを再作成する必要がある。さらに、学習モデルを作成するためには、大量の対訳が必要であり、学習モデルの作成には、一般的に長い作成期間を必要とする。このように、上述のような統計翻訳では、新語の追加などの変更に対応するために長い作成期間を必要としていた。
特許文献1には、新語の追加に対応するための期間を短縮するために、原言語の単語と目的言語の単語との対応関係を定義した単語辞書に予め登録されている単語の箇所を変数(記号)に変換した対訳を生成し、生成した対訳に基づいて学習モデルを作成する技術が記載されている。この特許文献1に記載の技術では、変数を用いて特定の単語に依存しない学習モデルを作成することで、学習モデルの再作成を行わずに新語の追加に対応している。また、この特許文献1に記載の技術では、原言語と目的言語とで予め単語の対応関係を記憶する記憶部を備え、翻訳の際には記憶部に記憶されている原言語の単語を変数に置き換えて変数を含む翻訳文を得た後、記憶部を用いて変数を目的言語の単語に戻すことにより原言語の単語の翻訳結果である目的言語の単語を指定することができる。
しかしながら、特許文献1に記載の技術では、例えば、翻訳モデルに誤ったフレーズが大量に作成されることがある。統計翻訳では、翻訳モデルに誤ったフレーズが大量に作成された場合に、正しく目的言語に翻訳することが困難である。そのため、特許文献1に記載の技術では、統計翻訳の品質が低下することがあった。
本発明は、上記問題を解決すべくなされたもので、その目的は、統計翻訳の品質を低下させずに、新語の追加などの変更の対応に要する期間を短縮することができる学習モデル作成装置、翻訳装置、学習モデル作成方法、及びプログラムを提供することにある。
上記問題を解決するために、本発明の一態様は、統計的手法に基づいて機械翻訳のための学習モデルを作成する学習モデル作成装置であって、異なる言語の対応する文の組である対訳文に含まれる前記異なる言語の対応する用語を、用語毎に異なる個別メタ情報に置換する個別メタ情報置換部と、前記個別メタ情報置換部によって置換された前記個別メタ情報を含む前記対訳文に基づいて、前記個別メタ情報を含む前記対訳文を構成する前記異なる言語のフレーズの対であるフレーズ対を含む第1翻訳モデルを作成する翻訳モデル作成部と、前記第1翻訳モデルより、所定の規則を満たすフレーズ対で構成される第2翻訳モデルを作成する翻訳モデル整形部と、前記フレーズ対に含まれる個別メタ情報を、個々の用語を特定しない統合メタ情報に変換した第3翻訳モデルを前記学習モデルとして生成するメタ情報統合部と、を備えることを特徴とする学習モデル作成装置である。
また、本発明の一態様は、上記の学習モデル作成装置において、前記翻訳モデル整形部は、前記フレーズ対が有する前記異なる言語のフレーズにおいて前記個別メタ情報の数が異なる場合、又は、前記フレーズ対において少なくとも1つのフレーズが前記個別メタ情報を2個以上有する場合に、当該フレーズ対を削除対象とし、前記第1翻訳モデルから前記削除対象を削除して前記第2翻訳モデルを生成することを特徴とする。
また、本発明の一態様は、上記の学習モデル作成装置において、前記翻訳モデル整形部は、前記フレーズ対が有する前記異なる言語のフレーズにおいて、前記個別メタ情報の数が等しい場合、且つ、前記個別メタ情報の出現順序が等しい場合に、当該フレーズ対を前記削除対象から除外することを特徴とする。
また、本発明の一態様は、上記の学習モデル作成装置において、前記対訳文を記憶する対訳コーパス記憶部から前記対訳文を取得し、取得した前記対訳文を形態素解析する前処理部を備え、前記個別メタ情報は、当該用語の属性に応じた分類を示す分類情報を含み、且つ、個々の用語を区別可能であり、前記個別メタ情報置換部は、前記異なる言語の対応する用語の組と、前記分類情報とを対応付けて記憶する用語辞書記憶部から、文字列が長い用語の順に用語を取得して、前記前処理部によって形態素解析された前記対訳文を検索し、前記前処理部によって形態素解析された前記対訳文、前記用語の組の双方の用語が含まれる場合に、当該用語に対応する前記分類情報を含み、且つ、個々の用語を区別可能な前記個別メタ情報に、当該用語を変換し、前記翻訳モデル作成部は、前記個別メタ情報を含む前記対訳文に基づいて、前記個別メタ情報を含む前記対訳文を構成する前記異なる言語のフレーズの対であるフレーズ対と、当該フレーズ対の確率情報とを含を含む前記第1翻訳モデルを作成し、前記メタ情報統合部は、前記第2翻訳モデルに含まれる前記個別メタ情報を、前記分類情報を示す前記統合メタ情報に変換した前記第3翻訳モデルを前記学習モデルとして生成することを特徴とする。
また、本発明の一態様は、上記の学習モデル作成装置において、前記学習モデルには、前記第3翻訳モデルと言語モデルとが含まれ、前記異なる言語のいずれか1つの言語の文であって、複数の文を記憶する目的言語コーパス記憶部から取得した前記1つの言語の文に含まれる用語を、当該用語に対応する前記統合メタ情報に置換する統合メタ情報置換部と、前記統合メタ情報置換部によって置換された前記統合メタ情報を含む前記1つの言語の文に基づいて、前記言語モデルを前記学習モデルとして作成する言語モデル作成部とを備えることを特徴とする。
また、本発明の一態様は、前記異なる言語のいずれか1つの言語の文を取得し、取得した前記1つの言語の文に含まれる用語を前記統合メタ情報に置換する翻訳メタ情報置換部と、前記異なる言語の用語を対応付けて記憶する用語辞書記憶部と、上記の学習モデル作成装置によって作成された前記学習モデルに基づいて、前記翻訳メタ情報置換部によって置換された前記統合メタ情報を含む前記1つの言語の文を、前記異なる言語のうち前記取得した1つの言語の文の言語以外の言語の文である翻訳文に翻訳する翻訳処理部と、前記置換された用語を特定する情報と置換結果である統合メタ情報との対応を記憶する復元情報記憶部と、前記翻訳文に含まれる統合メタ情報を、前記復元情報記憶部が記憶する前記用語を特定する情報に基づき特定される、前記翻訳文に含まれる前記統合メタ情報に置換された用語に対応付けて前記用語辞書記憶部に記憶された用語に変換するメタ情報復元部と、を備えることを特徴とする翻訳装置である。
上記の学習モデル作成装置統計的手法に基づいて機械翻訳のための学習モデルを作成する学習モデル作成方法であって、個別メタ情報置換部が、異なる言語の対応する文の組である対訳文に含まれる前記異なる言語の対応する用語を、用語毎に異なる個別メタ情報に置換する個別メタ情報置換ステップと、翻訳モデル作成部が、前記個別メタ情報置換部によって置換された前記個別メタ情報を含む前記対訳文に基づいて、前記個別メタ情報を含む前記対訳文を構成する前記異なる言語のフレーズの対であるフレーズ対を含む第1翻訳モデルを作成する翻訳モデル作成ステップと、翻訳モデル整形部が、前記第1翻訳モデルより、所定の規則を満たすフレーズ対で構成される第2翻訳モデルを作成する翻訳モデル整形ステップと、メタ情報統合部が、前記フレーズ対に含まれる個別メタ情報を、個々の用語を特定しない統合メタ情報に変換した第3翻訳モデルを前記学習モデルとして生成するメタ情報統合ステップと、を含むことを特徴とする学習モデル作成方法である。
上記の学習モデル作成装置統計的手法に基づいて機械翻訳のための学習モデルを作成する学習モデル作成装置としてのコンピュータに、個別メタ情報置換部が、異なる言語の対応する文の組である対訳文に含まれる前記異なる言語の対応する用語を、用語毎に異なる個別メタ情報に置換する個別メタ情報置換ステップと、翻訳モデル作成部が、前記個別メタ情報置換部によって置換された前記個別メタ情報を含む前記対訳文に基づいて、前記個別メタ情報を含む前記対訳文を構成する前記異なる言語のフレーズの対であるフレーズ対を含む第1翻訳モデルを作成する翻訳モデル作成ステップと、翻訳モデル整形部が、前記第1翻訳モデルより、所定の規則を満たすフレーズ対で構成される第2翻訳モデルを作成する翻訳モデル整形ステップと、メタ情報統合部が、前記フレーズ対に含まれる個別メタ情報を、個々の用語を特定しない統合メタ情報に変換した第3翻訳モデルを前記学習モデルとして生成するメタ情報統合ステップと、を実行させるためのプログラムである。
本発明によれば、統計翻訳の品質を低下させずに、新語の追加などの変更の対応に要する期間を短縮することができる。
本実施形態による学習モデル作成装置の一例を示すブロック図である。 本実施形態における対訳コーパス記憶部のデータ構成の一例を示す構成図である。 本実施形態における目的言語コーパス記憶部のデータ構成の一例を示す構成図である。 本実施形態における用語辞書記憶部の用語辞書テーブルのデータ構成の一例を示す構成図である。 本実施形態における用語辞書記憶部の分類テーブルのデータ構成の一例を示す構成図である。 本実施形態における分類置換情報記憶部のデータ構成の一例を示す構成図である。 本実施形態における識別置換情報記憶部のデータ構成の一例を示す構成図である。 本実施形態における翻訳モデルの作成処理の一例を示すフローチャートである。 本実施形態における翻訳モデルの作成処理の一例を説明する説明図である。 本実施形態における個別メタ情報の置換処理の一例を説明する説明図である。 本実施形態における言語モデルの作成処理の一例を示すフローチャートである。 本実施形態による翻訳装置の一例を示すブロック図である。 本実施形態における復元情報記憶部のデータ構成の一例を示す構成図である。 本実施形態における翻訳装置の翻訳処理の一例を示すフローチャートである。 本実施形態における翻訳装置の翻訳処理の一例を説明する説明図である。
以下、本発明の一実施形態による学習モデル作成装置、及び翻訳装置について、図面を参照して説明する。
まず、本実施形態による学習モデル作成装置について、図面を参照して説明する。
[学習モデル作成装置の実施形態]
図1は、本実施形態による学習モデル作成装置1の一例を示すブロック図である。
この図において、学習モデル作成装置1は、記憶部40と処理部50を備えている。学習モデル作成装置1は、対訳コーパス記憶部20に記憶されている対訳文と、目的言語コーパス記憶部30に記憶されている目的言語文とを入力データとして、統計ベース機械翻訳(以下、統計翻訳という)に使用する学習モデル(翻訳モデル、及び言語モデル)を作成する。すなわち、学習モデル作成装置1は、統計的手法に基づいて機械翻訳のための学習モデルを作成する。
ここで、対訳文とは、原言語文と、この原言語文に対応する目的言語文との組を示し、「対訳コーパス」とは、対訳文の集まりのことである。また、「目的言語コーパス」とは、目的言語文の集まりのことである。
また、原言語文とは、翻訳処理の入力となる言語の文のことであり、原言語(第1言語)とは、翻訳処理の入力となる言語のことである。また、目的言語文とは、翻訳結果となる目的言語の文のことであり、目的言語(第2言語)とは、翻訳結果となる言語のことである。
なお、本実施形態では、原言語(第1言語)が日本語であり、目的言語(第2言語)が英語である場合の一例について説明する。
対訳コーパス記憶部20は、複数の対訳文を有する対訳コーパスを記憶する。対訳コーパス記憶部20は、例えば、翻訳処理の入力となる言語の文である原言語文と、原言語文に対応する翻訳結果となる目的言語の文である目的言語文との組を示す対訳文を記憶する。ここで、図2を参照して、対訳コーパス記憶部20が記憶する対訳コーパスのデータ構成について説明する。
図2は、本実施形態における対訳コーパス記憶部20のデータ構成の一例を示す構成図である。
この図において、対訳コーパス記憶部20は、「No.」と、「原言語文」と、「目的言語文」とを対応付けて記憶する。ここで、「No.」は、対訳文の番号(識別情報)を示し、「原言語文」は、原言語の文である日本語文を示し、「目的言語文」は、目的言語の文である英語文を示している。なお、「原言語文」と、「目的言語文」との組が、対訳文に対応する。
例えば、図2に示す例では、対訳コーパス記憶部20は、「No.」が“1”〜“N”までの対訳文を記憶しており、「No.」が“1”である対訳文は、「原言語文」(日本語文)が“私は、東京に行く。”であり、この「原言語文」に対応する「目的言語文」(英語文)が、“I go to Tokyo.”であることを示している。
目的言語コーパス記憶部30は、複数の目的言語文(英語文)を記憶する。ここで、図3を参照して、目的言語コーパス記憶部30が記憶する目的言語コーパスのデータ構成について説明する。
図3は、本実施形態における目的言語コーパス記憶部30のデータ構成の一例を示す構成図である。
この図において、目的言語コーパス記憶部30は、「No.」と、「目的言語文」とを対応付けて記憶する。ここで、「No.」は、「目的言語文」の番号(識別情報)を示し、「目的言語文」は、目的言語の文である英語文を示している。
例えば、図3に示す例では、目的言語コーパス記憶部30は、「No.」が“1”〜“M”までの「目的言語文」を記憶しており、「No.」が“1”である「目的言語文」(英語文)が、“This is a pen.”であることを示している。
記憶部40は、学習モデル作成装置1が学習モデルを作成する際に、使用する各種情報を記憶する。記憶部40は、用語辞書記憶部41、メタ情報記憶部42、及び整形規則記憶部43を備えている。また、メタ情報記憶部42は、分類置換情報記憶部421と、識別置換情報記憶部422とを備えている。
用語辞書記憶部41は、用語辞書の情報を示す用語辞書情報を記憶する。用語辞書記憶部41は、用語辞書テーブルとして、原言語の用語と目的言語の用語との組と、用語の品詞と、用語の分類を示す識別情報(分類ID)とを対応付けて記憶する。例えば、用語辞書記憶部41は、図4に示すように、用語辞書テーブルT1として、「No.」、「原言語の用語」、「目的言語の用語」、「品詞」、及び「分類(分類ID)」を対応付けて記憶している。
図4は、本実施形態における用語辞書記憶部41の用語辞書テーブルT1のデータ構成の一例を示す構成図である。
この図において、「No.」は、用語辞書情報の番号(識別情報)を示し、「原言語の用語」は、原言語(日本語)の用語を示し、「目的言語の用語」は、「原言語の用語」に対応する目的言語(英語)の用語を示している。また、「品詞」は、用語の品詞の種類を示し、「分類(分類ID)」は、用語の属性に応じた分類を示す分類情報(識別情報)を示している。ここで、「原言語の用語」及び「目的言語の用語」は、いずれも前処理済みである。「前処理済み」の「原言語の用語」及び「目的言語の用語」とは、各用語ともに正規化され、単語分かち書きされている状態の「原言語の用語」及び「目的言語の用語」を示す。
例えば、図4に示す例では、用語辞書テーブルT1は、「No.」が“1”〜“X”までの用語辞書情報を記憶しており、「No.」が“1”である「原言語の用語」(日本語の用語)が、“要件 定義 書”であり、「目的言語の用語」(英語の用語)が“requirements definition document”であることを示している。また、「品詞」が“名詞”であり、「分類(分類ID)」が“文書名(54)”であることを示している。
また、用語辞書記憶部41は、図5に示すように、分類IDを定義する分類定義情報を記憶する分類テーブルT2を有している。用語辞書記憶部41は、図5に示すように、「分類」と「分類ID」とを対応付けて、分類テーブルT2として記憶する。
図5は、本実施形態における用語辞書記憶部41の分類テーブルT2のデータ構成の一例を示す構成図である。
この図において、「分類」は、用語の分類を示し、「分類ID」は、用語の分類の識別情報を示している。
例えば、図5に示す例では、分類テーブルT2は、「分類」が“人名”であり、この分類に対応する「分類ID」が“01”であることを示し、「分類」が“文書名” であり、この分類に対応する「分類ID」が“54”であることを示している。
メタ情報記憶部42は、学習モデル作成装置1で用いるメタ情報のバリエーションを記憶する。ここで、「メタ情報」は、例えば、メタ情報であることを示す文字列(例:ZZ)を有し、分類置換IDと、識別置換IDとの2種類がある。分類置換IDは、用語(単語)の分類を示す分類情報であり、以下、「統合メタ情報」ということがある。また、識別置換IDは、用語(単語)の分類に加えて1つの文の中で用語(単語)を一意に特定可能な情報を含む識別置換情報であり、以下、個別メタ情報(又は、単に、メタ情報)ということがある。すなわち、識別置換IDは、用語の属性に応じた分類を示す分類情報を含み、且つ、個々の用語を区別可能なメタ情報である。なお、ここでの用語とは、1つの単語であってもよいし、複数の単語を組み合わせたものであってもよい。
例えば、分類置換ID(統合メタ情報)は、“ZZ”の直後に分類を示す数字2桁を追加した情報であり、識別置換ID(個別メタ情報)は、分類置換ID(統合メタ情報)の直後に用語を区別するための数字2桁(識別ID)を追加した情報である。
なお、分類置換ID(統合メタ情報)及び識別置換ID(個別メタ情報)は、単語分割後に1つの単語として扱われる必要がある。例えば、単語分割器によっては、“ZZ01”を“ZZ”と“01”とに分割してしまう場合がある。このような場合には、例えば、単語分割器の単語分割辞書に登録して強制的に1つの単語になるようにしてもよいし、もしくは、“ZZ”を“9999”等に変えて単語分割を実行してもよい。例えば、分類置換ID(統合メタ情報)及び識別置換ID(個別メタ情報)の先頭を“9999”等にすれば、通常の単語分割器であれば1つの単語として扱われる。
また、メタ情報記憶部42は、分類置換IDの対訳を記憶する分類置換情報記憶部421と、識別置換IDの対訳を記憶する識別置換情報記憶部422とを備えている。
分類置換情報記憶部421は、図6に示すように、原言語の分類置換IDと、目的言語の分類置換IDとを対応づけて記憶する。
図6は、本実施形態における分類置換情報記憶部421のデータ構成の一例を示す構成図である。
この図において、「No.」は、分類置換IDの対訳の番号(識別情報)を示し、「原言語」は、原言語(日本語)の分類置換IDを示し、「目的言語」は、「原言語」に対応する目的言語(英語)の分類置換IDを示している。
例えば、図6に示す例では、分類置換情報記憶部421は、「No.」が“1”〜“Y”までの分類置換IDの対訳を記憶しており、「No.」が“1”である「原言語」(日本語の分類置換ID)が、“ZZ01”であり、「目的言語」(英語の分類置換ID)が“ZZ01”であることを示している。
識別置換情報記憶部422は、図7に示すように、原言語の識別置換IDと、目的言語の識別置換IDとを対応づけて記憶する。
図7は、本実施形態における識別置換情報記憶部422のデータ構成の一例を示す構成図である。
この図において、「No.」は、識別置換IDの対訳の番号(識別情報)を示し、「原言語」は、原言語(日本語)の識別置換IDを示し、「目的言語」は、「原言語」に対応する目的言語(英語)の識別置換IDを示している。
例えば、図7に示す例では、識別置換情報記憶部422は、「No.」が“1”〜“YY”までの識別置換IDの対訳を記憶しており、「No.」が“1”である「原言語」(日本語の識別置換ID)が、“ZZ0101”であり、「目的言語」(英語の識別置換ID)が“ZZ0101”であることを示している。
なお、図7に示す例では、分類置換IDが“ZZ01”である場合の例を示しているが、識別置換情報記憶部422には、各分類置換IDについて同様の情報が記憶されている。
再び、図1に戻り、整形規則記憶部43は、翻訳モデルの中に含まれるフレーズ対を取捨選択するための規則を記憶している。なお、整形規則記憶部43が記憶するフレーズ対を取捨選択するための規則の詳細については、後述する。なお、フレーズとは、形態素の連続列である。
処理部50は、例えば、CPU(Central Processing Unit)などを含むプロセッサであり、学習モデル作成装置1の各種処理を実行する。
処理部50は、前処理部51、個別メタ情報置換部52、翻訳モデル作成部53、フレーズ整形部54、メタ情報統合部55、統合メタ情報置換部56、及び言語モデル作成部57を備えている。
前処理部51は、正規化処理と単語分かち書き処理との2つの処理を実行する。前処理部51は、正規化処理(第1の処理)として、例えば、大文字/小文字、特殊記号等を統一する処理を実行する。また、前処理部51は、単語分かち書き処理(第2の処理)として、例えば、入力文を形態素に分けて間にスペースを入れて出力する。すなわち、前処理部51は、例えば、対訳コーパス記憶部20から取得した対訳文が有する原言語文及び目的言語文と、目的言語コーパス記憶部30から取得した目的言語文とを形態素解析し、形態素解析結果に基づいて、形態素に分けて間にスペースを入れて出力する。なお、前処理部51は、正規化処理から単語分かち書き処理の順に実行されることが望ましい。
ここで、前処理部51は、対訳コーパス記憶部20から対訳文を取得し、取得した対訳文を形態素解析するとともに、目的言語コーパス記憶部30から目的言語文を取得し、取得した目的言語文を形態素解析する。ここで、「形態素解析」とは、文を言語で意味を持つ最小単位である形態素の列に分割し、それぞれの品詞を判別する処理のことである。
前処理部51は、形態素解析の結果として、文の各単語に対して、品詞と、出現位置を示す情報(文頭から数えて、何文字目から何文字目までを占めるのかを示す情報)とを付与する。
前処理部51は、単語分かち書き処理した対訳文を個別メタ情報置換部52に出力する。また、前処理部51は、単語分かち書き処理した目的言語文を統合メタ情報置換部56に出力する。
個別メタ情報置換部52は、前処理部51より形態素解析された対訳文を受け取り、対訳文の中で用語辞書記憶部41に記憶されている用語を個別メタ情報(識別置換ID)に変換する。すなわち、個別メタ情報置換部52は、対訳コーパス記憶部20から取得した対訳文に含まれる用語を、用語の属性に応じた分類を示す分類情報を含み、且つ、個々の用語を区別可能なメタ情報に置換する。
例えば、個別メタ情報置換部52は、用語辞書記憶部41から、文字列が長い用語の順に検索して、前処理部51によって形態素解析された対訳文に含まれる用語が抽出された場合に、抽出された当該用語を、当該用語に対応する分類情報を含む個別メタ情報(識別置換ID)に置換する。
具体的に、個別メタ情報置換部52は、後述する図9(a)に示すような対訳文を、図9(b)に示すような、個別メタ情報(識別置換ID)を含む対訳文に変換する。このように、個別メタ情報置換部52は、異なる言語の対応する文の組である対訳文に含まれる異なる言語の対応する用語を、用語毎に異なる個別メタ情報に置換する。
翻訳モデル作成部53は、個別メタ情報置換部52によって置換されたメタ情報を含む対訳文と、メタ情報記憶部に記憶された識別置換IDとに基づいて、原言語のフレーズと目的言語のフレーズとのフレーズ対と、当該フレーズ対の確率情報とを含む翻訳モデル(第1翻訳モデル)を作成する。すなわち、翻訳モデル作成部53は、用語辞書記憶部41に記憶された単語が個別メタ情報に置換された対訳文と、メタ情報記憶部42に記憶されたメタ情報の対応関係を示す情報とを学習の入力として、既存の統計的手法に基づいて学習を行い、翻訳モデル(第1翻訳モデル)を出力する。ここで、翻訳モデルは、原言語のフレーズと目的言語のフレーズと、その対応づけの確率が対応づけられた情報である。なお、メタ情報記憶部42に記憶されたメタ情報の対応関係を示す情報を学習の入力とすることにより、学習に用いる対訳文に含まれるメタ情報の対応関係を学習することができる。例えば、分類置換ID、識別置換IDは原言語と目的言語との間で変化しないこととする場合、使用する可能性のある全ての置換IDについて、原言語での置換ID“ZZ0101”は目的言語での置換ID“ZZ0101”に対応する、という情報を学習の入力とする。なお、原言語のフレーズや目的言語のフレーズの中には、メタ情報が含まれることもある。
このように、翻訳モデル作成部53は、個別メタ情報置換部52によって置換された個別メタ情報(識別置換ID)を含む対訳文に基づいて、個別メタ情報(識別置換ID)を含む対訳文を構成する異なる言語のフレーズの対であるフレーズ対を含む翻訳モデル(第1翻訳モデル)を作成する。
フレーズ整形部54(翻訳モデル整形部)は、翻訳モデル作成部53によって作成された翻訳モデル(第1翻訳モデル)が有するフレーズ対を、所定の規則に基づいて取捨選択して、翻訳モデルを整形し、整形した翻訳モデルである整形翻訳モデル(第2翻訳モデル)を出力する。すなわち、フレーズ整形部54は、翻訳モデル(第1翻訳モデル)より、所定の規則を満たすフレーズ対で構成される整形翻訳モデル(第2翻訳モデル)を作成する。翻訳モデル整形部と、フレーズ整形部54は、整形規則記憶部43に予め記憶されている規則に基づいて、翻訳モデル作成部53によって作成された翻訳モデル(第1翻訳モデル)が有するフレーズ対を取捨選択する。
ここで、整形規則記憶部43が記憶するフレーズ対を取捨選択するための規則は、以下である。
[規則1]
フレーズ対が有する原言語のフレーズと目的言語のフレーズとにおいてメタ情報の数が異なる場合に、当該フレーズ対を削除対象とする。すなわち、原言語と目的言語とが対応付けられたフレーズ対で、個別メタ情報(識別置換ID)の数の異なるもの(つまり、対応付けられた原言語と目的言語とのフレーズそれぞれに含まれる個別メタ情報の数が異なるもの)は、削除対象とする。
フレーズ整形部54は、整形規則記憶部43が記憶するこの[規則1]に基づいて、フレーズ対が有する原言語のフレーズと目的言語のフレーズとにおいてメタ情報の数が異なる場合に、当該フレーズ対を削除対象とし、翻訳モデルから削除対象を削除して整形翻訳モデルを生成する。
[規則2]
フレーズ対が有する原言語のフレーズと目的言語のフレーズとにおいて、フレーズ対がメタ情報を2個以上有するフレーズを含む場合(つまり、対応付けられた原言語と目的言語とのフレーズの、少なくとも1つのフレーズに含まれるメタ情報の数が2個以上の場合)に、当該フレーズ対を削除対象とする。すなわち、原言語と目的言語とが対応付けられたフレーズ対において、1つのフレーズが、個別メタ情報(識別置換ID)を2個以上含むものは、削除対象とする。
フレーズ整形部54は、整形規則記憶部43が記憶するこの[規則2]に基づいて、フレーズ対が有する原言語のフレーズと目的言語のフレーズとにおいて、1つのフレーズがメタ情報を2個以上有するフレーズを含む場合に、当該フレーズ対を削除対象とし、翻訳モデルから削除対象を削除して整形翻訳モデルを生成する。
[規則3]
フレーズ対が有する原言語のフレーズと目的言語のフレーズとにおいて、メタ情報の数が等しい場合(つまり、対応付けられた原言語と目的言語のフレーズそれぞれに含まれる個別メタ情報の数が同じ場合)、且つ、メタ情報の出現順序が等しい場合に、当該フレーズ対を削除対象から除外する(つまり、削除しない)。すなわち、原言語と目的言語とが対応付けられたフレーズ対で、対応する個別メタ情報(識別置換ID)の出現順序が等しいものを削除対象から除外する。
フレーズ整形部54は、整形規則記憶部43が記憶するこの[規則3]に基づいて、フレーズ対が有する原言語のフレーズと目的言語のフレーズとにおいて、メタ情報の数が等しい場合、且つ、メタ情報の出現順序が等しい場合に、当該フレーズ対を削除対象から除外する。
フレーズ整形部54は、上述の[規則1]〜[規則3]に基づいて、翻訳モデル作成部53によって作成された翻訳モデルが有するフレーズ対を、取捨選択することにより、以下に示すような翻訳誤りを生じさせる可能性のあるフレーズ対を予め削除する処理を行う。
(1)原言語と目的言語とで個別メタ情報(識別置換ID)の個数の異なるフレーズ対
このフレーズ対は、翻訳モデル作成部53によって誤って抽出されたフレーズ対であり、このフレーズ対を含んだ翻訳モデルに基づいて統計処理が行われた場合、原言語と目的言語との間で、個別メタ情報(識別置換ID)の数が異なる翻訳がされることになる。
(2)原言語と目的言語とで個別メタ情報(識別置換ID)の出現順序が異なるフレーズ対
このフレーズ対は、同一フレーズ内に同じ分類の辞書登録用語が複数出現する場合で、且つ、語順が原言語と目的言語との間で入れ替わる場合である。
原言語と目的言語とで対応する用語の語順が異なるような文対を学習した場合、第1翻訳モデルにて高い出現確率値が付与されたフレーズ対の中には、原言語と目的言語との間で語順が入れ替わるようなフレーズ対が多数含まれることになる。例えば、個別メタ情報(識別置換ID)の形式では(つまり、各用語を個別に特定できる情報が含まれた状態では)、このフレーズ対を用いて翻訳を行う場合には正しい翻訳結果を得ることができる。
ところが、第1翻訳モデルを翻訳に用いた場合、同一の用語であっても、学習時の個別メタ情報(識別置換ID)と翻訳する際の個別メタ情報(識別置換ID)とが一致しなければ、学習したフレーズを翻訳に用いることができない。この問題は、辞書用語を含む対訳文を、現実的に出現しうる全ての個別メタ情報(識別置換ID)に対応した複数の対訳文に変換し、それらを学習対象とすることで回避できる。このようなことが実行された場合に、個別メタ情報のバリエーションに応じたフレーズ対が自動作成され、学習した際と翻訳した際との個別メタ情報の違いを気にせずに正しい翻訳ができるようになる。しかしながら、この場合、1つの対訳文から複数の対訳文が生成されるということを示し、例えば、ある対訳文が辞書用語を1語含み、出現しうる個別メタ情報の数、つまり同一分類の辞書用語が1文内に出現しうる最大値を仮に10個と設定すると、1つの対訳文から10個の対訳文対が生成されることになる。但し、これは、以下で詳細に述べるように、辞書用語が同一文内に1語のみしか存在しない場合の例であり、複数ある場合に必要な対訳文数はその数に応じてさらに爆発的に増える。
このように、辞書用語を含む対訳文を、現実的に出現しうる全ての個別メタ情報(識別置換ID)に対応した複数の対訳文に変換した場合には、個別メタ情報のバリエーションごとにフレーズ対が作成されるために翻訳モデルサイズが膨大となる。そのため、この場合、翻訳モデル作成に用いる入力データが増えて、翻訳モデル作成のための学習に要する時間が長くなるとともに、翻訳モデルに含まれるフレーズ対が翻訳で利用される確率が低下する問題が生じる。つまり、学習結果が、スパース(疎密な情報)となるという問題が生じる。
特に、翻訳モデルサイズが膨大となる問題が顕著であり、1つの対訳文中に複数の辞書用語が存在する場合、仮に全ての辞書用語が同一分類の用語であったとしても、各々が取りうる個別メタ情報同士には、同一の識別IDは用いることができないということ以外に何らの制限もないため、容易に組み合わせ爆発を起こすことが考えられる。
例えば、1つの辞書用語が取りうる個別メタ情報の種類数をN、ある対訳文中に辞書用語がM語存在し、これらが全て同一の用語分類である場合を考える。この場合、当該対訳文の辞書用語部分を出現しうる全てのバリエーションの個別メタ情報に変換した対訳文を作成するには、P(N,M)文の対訳を生成する必要があることになる。仮に、N=10、及びM=4の場合を考えると、1つの対訳文から約5000文の対訳文を生成する必要が生じ、現実的とはいえない。なお、ここでは、辞書用語が全て同一の分類である場合のみを考えたが、複数分類の用語がある場合は、異なる用語分類の用語においては、「同一の識別IDは用いることができない」という制限すら外れるため、さらに対訳文の組み合わせ数は増大する。
この問題を回避するために、本実施形態では、フレーズ対に含まれる個別メタ情報の識別IDを削除し、個別メタ情報を統合メタ情報に変換して翻訳に用いる。個別メタ情報を統合メタ情報に変換すると、フレーズ対の各フレーズに複数のメタ情報が含まれる場合、原言語のフレーズの複数のメタ情報と、目的言語のフレーズの複数のメタ情報との対応づけを示す情報が失われてしまう。
例えば、原言語のフレーズの中に同じ分類の個別メタ情報が2つ含まれ、目的言語のフレーズの中にも同じ分類の個別メタ情報が2つ含まれる場合を考える。このような場合、個別メタ情報を統合メタ情報に変換すると、原言語のフレーズの2つの統合メタ情報と目的言語の2つの統合メタ情報を対応付ける組み合わせが2種類生じ、統合メタ情報ではいずれの組み合わせが正しいかを判断することができなくなる。
例えば、“メタ情報の順序は入れ替わらない”といった規則を予め付与することにより、
複数の統合メタ情報を対応づけることはできる。しかし、この規則を用いて複数の統合メタ情報を含むフレーズを用いて翻訳を実施した場合、正しくは語順が入れ替わる文が翻訳対象として入力されると、語順が入れ替わらない翻訳(つまり、誤った翻訳)がされることになる。つまり、この(2)に示すフレーズ対を含んだ翻訳モデルに基づいて統計処理が行われた場合、語順が入れ替わるべき所で、語順が入れ替わらない翻訳がされることになる。
ここで、例えば、フレーズ整形部54が、[規則2]によって図9(c)から図9(d)において削除している“ZZ0101 に ZZ0102 を あげ た 。”と“gave ZZ0102 to ZZ0101”とのフレーズ対を残していた場合を考える。ここで用語辞書には、“彼”⇔“him”及び“本”⇔“books”が登録されているとする。この場合、メタ情報統合部55によって、このフレーズ対は、“ZZ01 に ZZ01 を あげ た 。”と“gave ZZ01 to ZZ01”とに変換される。この変換されたフレーズ対を用いて、“私は彼に本をあげた。”という文を翻訳した場合、前処理及び分類置換IDに置換が実行され、“私 は ZZ0101 に ZZ0102 を あげ た 。”という文に変換される。この分類置換IDに置換された文を翻訳すると、“I gave ZZ01 to ZZ01 .”を経て、“I gave him to books.”と誤った翻訳がされてしまう。これは、識別置換IDから分類置換IDに変換されることにより、語順が入れ替わることの情報が失われてしまうためである。
本実施形態の学習モデル作成装置1は、このような誤った翻訳がされる可能性のあるフレーズ対を予め削除している。
このように、本実施形態における学習モデル作成装置1は、フレーズ整形部54によるフレーズ対の取捨選択処理を行うことにより、上述の(1)及び(2)に示す誤翻訳(翻訳誤り)を低減することができる。
メタ情報統合部55は、フレーズ整形部54によって整形された整形翻訳モデルに含まれるメタ情報を、分類情報を示す統合メタ情報(分類置換ID)に変換した統合翻訳モデル(第3翻訳モデル)を学習モデルとして生成する。すなわち、メタ情報統合部55は、フレーズ整形部54によって整形された整形翻訳モデルに含まれる個別メタ情報(識別置換ID)を全て抽出し、抽出した個別メタ情報(識別置換ID)の識別ID部分(用語(単語)を区別するための数字2桁の部分)を削除して分類置換IDに変換する処理を行う。
メタ情報統合部55は、例えば、個別メタ情報として“ZZ0101”及び“ZZ0102”が抽出された場合に、それぞれの下位2桁の識別ID部分を削除し、“ZZ01”(分類置換ID)に変換する。
ここで、翻訳モデルの全フレーズ対について個別メタ情報を統合メタ情報に変換する上記の処理を実施すると、同一のフレーズ対が複数出現する可能性がある。
以下に1つのフレーズ対に2種類の確率値が付与されている場合の例を用いて説明する。
例えば、個別メタ情報を統合メタ情報に置き換える前には、下記のような3つのフレーズ対がある場合を想定する。
“ZZ5401 を ZZ5402”⇔“ZZ5401 to ZZ5402”:確率値PF1、PG1
“ZZ5405 を ZZ5406”⇔“ZZ5405 to ZZ5406”:確率値PF2、PG2
“ZZ5409 を ZZ5410”⇔“ZZ5409 to ZZ5410”:確率値PF3、PG3
これらのフレーズ対の個別メタ情報を統合メタ情報へ変換すると、
“ZZ54 を ZZ54”⇔“ZZ54 to ZZ54”:確率値PF1、PG1
“ZZ54 を ZZ54”⇔“ZZ54 to ZZ54”:確率値PF2、PG2
“ZZ54 を ZZ54”⇔“ZZ54 to ZZ54”:確率値PF3、PG3
という、フレーズ対の内容は同一だが、付与されている確率値の異なるフレーズ対が3つ出現する。
上記の場合、本来、フレーズ対“ZZ54 を ZZ54”⇔“ZZ54 to ZZ54”に対して付与されるべき確率値が、複数のフレーズ対に分散した状態となる。そのため、これらのフレーズ対をそのまま残して統合翻訳モデルを作成すると、翻訳の際には分散したフレーズ対の中で高い確率値を示すフレーズ対しか用いられないため、以下の問題が生じる。
(1)フレーズ対に対して付与される確率値が低くなるため、翻訳結果がこのフレーズ対が用いられる確率が本来あるべき確率よりも下がる。つまり、翻訳結果の際に用いられる確率が本来あるべき確率値よりも下がるため、翻訳結果の精度が下がるという問題が生じる。
(2)学習結果の中に、翻訳で用いられないフレーズ対が多く発生する。つまり、記憶部に不要なフレーズ対が記憶されてしまうという問題が生じる。
これらの問題を解消するために、メタ情報統合部55は「フレーズ対の内容は同一だが、付与されている確率値の異なるフレーズ対」を1つのフレーズ対として統合するフレーズ対のユニーク処理を実施する。
フレーズ対を統合する方法としては、統合前の各フレーズ対に付与された確率値の和を統合後のフレーズ対の確率値とする。1つのフレーズ対には複数種類の確率値が付与されることが一般的であるが、統合後の確率値は、その種類ごとに和をとったものとすればよい。
上記3つのフレーズ対の例では、メタ情報統合部55は、確率値のみが異なる3つのフレーズ対を“ZZ54 を ZZ54”⇔“ZZ54 to ZZ54”という1つのフレーズ対に統合し、確率値を統合前の確率値の和、すなわち、(PF1+PF2+PF3)、(PG1+PG2+PG3)により再定義する。つまり、上記の3つのフレーズ対は、下記の1つのフレーズ対へ統合される。
“ZZ54 を ZZ54”⇔“ZZ54 to ZZ54”:確率値(PF1+PF2+PF3)、(PG1+PG2+PG3)
メタ情報統合部55は、上記のように重複する全てのフレーズ対に対して、フレーズ対を統合するユニーク処理を実施した後、生成したモデル(第3翻訳モデル)を学習モデルとして出力する。
統合メタ情報置換部56は、目的言語コーパス記憶部30から取得した目的言語文に含まれる用語(単語)を、当該用語に対応する統合メタ情報(分類置換ID)に置換する。すなわち、統合メタ情報置換部56は、前処理部51から形態素解析された目的言語文を取得し、目的言語文の中で用語辞書記憶部41に記憶されている用語(単語)を統合メタ情報(分類置換ID)に置き換える。
言語モデル作成部57は、統合メタ情報置換部56によって置換された統合メタ情報(分類置換ID)を含む目的言語文に基づいて、言語モデルを学習モデルとして作成する。すなわち、言語モデル作成部57は、用語辞書記憶部41に登録された用語(単語)を統合メタ情報(分類置換ID)に置き換えた目的言語文を入力として、既存の統計的手法に基づいて学習を行い、言語モデルを作成する。例えば、例えば、nグラム形式の言語モデルを学習結果として出力する。
次に、本実施形態における学習モデル作成装置1の動作について説明する。
ここでは、まず、図8及び図9を参照して、本実施形態における翻訳モデルの作成処理の一例について説明する。
<翻訳モデルの作成処理>
図8は、本実施形態における翻訳モデルの作成処理の一例を示すフローチャートである。また、図9は、本実施形態における翻訳モデルの作成処理の一例を説明する説明図である
図8において、まず、学習モデル作成装置1の処理部50は、対訳文を取得する(ステップS101)。すなわち、処理部50の前処理部51は、対訳コーパス記憶部20から対訳文を取得する。
次に、前処理部51は、対訳文を形態素解析する(ステップS102)。前処理部51は、対訳コーパス記憶部20から取得した対訳文を、言語で意味を持つ最小単位である形態素の列に分割し、それぞれの品詞を判別する処理を行う。前処理部51は、図9(a)に示すような、形態素解析した対訳文を個別メタ情報置換部52に出力する。
次に、処理部50は、対訳文のうち、用語辞書に存在する用語対を識別置換IDに置換する(ステップS103)。すなわち、処理部50の個別メタ情報置換部52は、前処理部51より形態素解析された対訳文を受け取り、対訳文の中で用語辞書記憶部41に記憶されている用語を識別置換IDに変換する。
例えば、個別メタ情報置換部52は、図9(a)に示すような対訳文を、図9(b)に示すような、個別メタ情報(識別置換ID)を含む対訳文に変換する。図9に示す例では、対訳文において、“彼”⇔“him”、及び“本”⇔“books”が、用語辞書記憶部41に存在している。そのため、個別メタ情報置換部52は、“彼”及び“him”を識別置換ID“ZZ0101”に変換し、“本”及び“books”を識別置換ID“ZZ0102”に変換する。
なお、個別メタ情報置換部52による個別メタ情報の置換処理の詳細については、後述する。
次に、処理部50の翻訳モデル作成部53は、翻訳モデルを作成する(ステップS104)。すなわち、翻訳モデル作成部53は、個別メタ情報置換部52によって置換された識別置換IDを含む対訳文と、メタ情報記憶部42に記憶されたメタ情報の対応関係を示す情報とを学習の入力として、既存の統計的手法に基づいて学習を行い、翻訳モデルを出力する。なお、作成された翻訳モデルには、例えば、図9(c)に示すようなフレーズ対が含まれている。
次に、処理部50のフレーズ整形部54は、翻訳モデルが有するフレーズ対を取捨選択して、翻訳モデルを整形する(ステップS105)。すなわち、フレーズ整形部54は、整形規則記憶部43に記憶されている[規則1]〜[規則3]に基づいて、フレーズ対を取捨選択して、翻訳モデルを整形し、整形した翻訳モデルである整形翻訳モデル(第2翻訳モデル)を出力する。フレーズ整形部54は、例えば、図9(d)に示すようなフレーズ対を残して整形した整形翻訳モデルを生成する。なお、図示していないが、各フレーズ対には、そのフレーズ対の出現確率が付与されている。
次に、処理部50のメタ情報統合部55は、翻訳モデルの識別置換IDを分類置換IDに変換する(ステップS106)。すなわち、メタ情報統合部55は、フレーズ整形部54によって整形された整形翻訳モデルに含まれる識別置換IDを全て抽出し、図9(e)に示すように、抽出した識別置換IDの識別ID部分(用語(単語)を区別するための数字2桁の部分)を削除した分類置換IDに変換する。メタ情報統合部55は、分類置換IDに変換した統合翻訳モデル(第3翻訳モデル)を学習モデルとして出力し、処理を終了する。
なお、図9(c)に示す例では、フレーズ対“あげ た”⇔“to ZZ0101”は、原言語のフレーズの“あげ た”に含まれる個別メタ情報の個数(0個)と、目的言語のフレーズの“to ZZ0101”に含まれる個別メタ情報の個数(1個)が異なるため、上述の[規則1]により削除対象となる。
また、フレーズ対“ZZ0101 に ZZ0102 を あげ”⇔“gave ZZ0102 to”についても、原言語のフレーズに含まれる個別メタ情報の個数(2個)が2個以上であり、且つ、原言語のフレーズに含まれる個別メタ情報の個数と目的言語のフレーズに含まれる個別メタ情報の個数(1個)とが異なるため、上述の[規則1]と[規則2]との双方により削除対象となる。
上記2つのフレーズ対は、[規則3]による削除対象からの除外規則には該当しないため、削除される(第2翻訳モデルには含まれない)。
また、上記の他にも、たとえば“ZZ0101 に ZZ0102 を あげ”⇔“gave ZZ0102 to ZZ0101”というフレーズ対が第1翻訳モデルに含まれる場合、上述の[規則1]には該当しないが、[規則2]には該当するために削除対象となる。この場合、原言語のフレーズと目的言語のフレーズとで個別メタ情報の出現順序が異なるため(原言語では“ZZ0101”の次に“ZZ0102”が出現し、目的言語では“ZZ0102”の次に“ZZ0101”が出現するため)、[規則3]には該当せず、このフレーズ対は削除される。
また、例えば、分類IDが“00”の単語として、“りんご”⇔“apples”、及び“オレンジ”⇔“oranges”が辞書登録されている場合、例文の“私 は 彼 に りんご と オレンジ を あげ た 。”⇔“i gave apples and oranges to him .”という対訳は、“私 は 彼 に ZZ0001 と ZZ0002 を あげ た 。”⇔“i gave ZZ0001 and ZZ0002 to him .”とID置換され、そこから“ZZ0001 と ZZ0002”⇔“ZZ0001 and ZZ0002”というフレーズ対が学習される。このフレーズ対は、[規則2]に該当するが、[規則3]にも該当するため、削除対象ではなくなる。すなわち、この場合、原言語のフレーズと目的言語のフレーズとで個別メタ情報の数が等しく、且つ、個別メタ情報の出現順序が等しいので、[規則3]に該当するため、当該フレーズ対は、削除対象から除外される(削除されず、このフレーズ対は、第2翻訳モデルに含まれる)。
次に、個別メタ情報置換部52による個別メタ情報の置換処理について詳細に説明する。
<個別メタ情報の置換処理>
図10は、本実施形態における個別メタ情報の置換処理の一例を説明する説明図である。
この図において、個別メタ情報置換部52は、まず、用語辞書情報を取得する(ステップS201)。すなわち、個別メタ情報置換部52は、用語辞書記憶部41(用語辞書テーブルT1)から用語辞書情報を取得する。そして、個別メタ情報置換部52は、取得した用語辞書情報を原言語の用語の長さの降順にソートする(ステップS202)。
次に、個別メタ情報置換部52は、対訳文の1組を取得する(ステップS203)。すなわち、個別メタ情報置換部52は、前処理部51によって形態素解析された1組の対訳文を取得する。
次に、個別メタ情報置換部52は、辞書用語を降順に取得する(ステップS204)。すなわち、個別メタ情報置換部52は、用語辞書情報の用語(辞書用語)を用語の長さが長い順(用語を構成する文字の数が多い順に)に1つ取得する。なお、ここでの用語とは、1つの単語であってもよいし、複数の単語を組み合わせたものであってもよい。
次に、個別メタ情報置換部52は、対訳文を検索して、原言語文と目的言語文との双方に辞書用語が存在するか否かを判定する(ステップS205)。
具体的に、個別メタ情報置換部52は、取得した用語(辞書用語)を検索キーとして、対訳文を検索し、対訳文において、原言語文と目的言語文との双方に辞書用語が存在するか否かを判定する。個別メタ情報置換部52は、原言語文と目的言語文との双方に辞書用語が存在しない場合(ステップS205:NO)に、その原言語の用語は置換対象外と判定し、処理をステップS207に進める。また、個別メタ情報置換部52は、原言語文と目的言語文との双方に辞書用語が存在する場合(ステップS205:YES)に、処理をステップS206に進める。
次に、ステップS206において、個別メタ情報置換部52は、対訳文のうち、用語辞書に存在する用語の組(辞書用語の組)を識別置換IDに置換する。すなわち、個別メタ情報置換部52は、用語辞書記憶部41から抽出された用語(辞書用語)が対訳文の目的言語文に含まる場合に、検索キーとして用いた原言語の用語と、この原言語の用語と対応づけられた目的言語の用語とを、個別メタ情報置換対象とする。この場合、個別メタ情報置換部52は、用語辞書記憶部41から検索キー(用語の組)に対応づけられた分類情報(例えば、“文書名”の場合には“54”)を取得する。そして、個別メタ情報置換部52は、個別メタ情報置換対象となる用語の組を、メタ情報であることを示す文字列(例えば、ZZ)の後に、取得された分類情報を連結し、さらに、同一分類の置換対象の用語の組を区別するための識別情報(例えば、2桁の数字)を付与した個別メタ情報(識別置換ID)に置換する。
個別メタ情報置換部52は、例えば、対訳文の中に、新たな置換対象の用語の組と同一分野の個別メタ情報(置換済の用語)の数をカウントし、メタ情報記憶部42の分類に対応する識別置換情報記憶部422の中から、カウント結果+1の項目番号(「No.」)に該当する個別メタ情報(識別置換ID)を取得する。個別メタ情報置換部52は、個別メタ情報置換対象となる用語の組の原言語の用語を、識別置換情報記憶部422から取得した原言語の個別メタ情報(識別置換ID)に置き換えるとともに、用語の組の目的言語の用語を、識別置換情報記憶部422から取得した目的言語の個別メタ情報(識別置換ID)に置き換える。ステップS205の処理の後、個別メタ情報置換部52は、処理をステップS207に進める。
次に、ステップS207において、個別メタ情報置換部52は、次の辞書用語があるか否かを判定する。すなわち、個別メタ情報置換部52は、降順にソートされた次の用語辞書情報があるか否か判定する。個別メタ情報置換部52は、次の辞書用語がある場合(ステップS207:YES)に、処理をステップS204に進め、次の辞書用語を取得して対訳文を検索する。また、個別メタ情報置換部52は、次の辞書用語がない場合(ステップS207:NO)に、処理をステップS208に進める。
次に、ステップS208において、個別メタ情報置換部52は、次の対訳文があるか否かを判定する。個別メタ情報置換部52は、次の対訳文がある場合(ステップS208:YES)に、処理をステップS202に進め、次の対訳文を取得する。また、個別メタ情報置換部52は、次の対訳文がない場合(ステップS208:NO)に、個別メタ情報への置換処理が終了したと判定し、処理を終了する。
なお、図10において、個別メタ情報置換部52は、個別メタ情報置換部52は、上述のステップS204〜ステップS207の処理を、用語辞書情報の数だけ繰り返し実行し、上述のステップS203〜ステップS208の処理を、対訳文の数だけ繰り返し実行する。
次に、個別メタ情報置換部52による個別メタ情報の置換処理の具体例について説明する。
例えば、対訳文が、原言語文「定義書としては、要件定義書と・・・」に対応する目的言語文が“Requirement definition document,・・・are included in definition document.”である場合の一例について説明する。
この場合、個別メタ情報置換部52は、用語辞書記憶部41が記憶する辞書用語情報の中から原言語の用語の文字列が長い用語から順に取得する。
個別メタ情報置換部52は、取得した原言語の用語(辞書用語)を検索キーとして対訳文の原言語文の中に検索キーの用語が含まれるか否かを検索する。個別メタ情報置換部52は、ここでは、対訳文の原言語文の中から辞書用語である「要件定義書」を検索により抽出して、この「要件定義書」に対応付けられた目的言語文の用語である“requirement definition document”を取得する。さらに、個別メタ情報置換部52は、目的言語文の対訳文を “requirement definition document”を検索キーとして検索し、“requirement definition document”が対訳文に含まれることを確認し、原言語の「要件定義書」と目的言語の“requirement definition document”を置換対象とする。
次に、個別メタ情報置換部52は、用語辞書記憶部41から置換対象となった用語に対応付けられた分類の情報を取得し、対訳文の中で同じ分類の置換済のメタ情報の数をカウントする(この場合の例は、0個となる)。個別メタ情報置換部52は、分野の情報とカウント結果を基に、メタ情報記憶部42を検索する。この場合の例は、識別置換情報記憶部422において、分野が“文書名”の1番目の情報(「原言語」=“ZZ5401”、「目的言語」=“ZZ5401”)を取得する。個別メタ情報置換部52は、置換対象の用語を識別置換情報記憶部422から取得した個別メタ情報(識別置換ID)に置換する。この場合の例では、個別メタ情報置換部52は、「要件定義書」を“ZZ5401”に、“requirement definition document”を“ZZ5401”に、それぞれ置換する。
次に、個別メタ情報置換部52は、対訳文の原言語文の中から辞書用語である「定義書」を検索して、この「要件定義書」に対応付けられた目的言語の用語である“definition document”を取得する。さらに、個別メタ情報置換部52は、目的言語の対訳文の中で“definition document”を検索し、“definition document”が対訳文に含まれることを確認し、原言語の「定義書」と目的言語の“definition document”を置換対象とする。なお、元の対訳文での「要件定義書」と“requirement definition document”とは、既に個別メタ情報に置換済であるため、これらに含まれる文字列が置換対象として改めて抽出されることはない。
さらに、個別メタ情報置換部52は、用語辞書記憶部41から置換対象となった用語に対応付けられた分類の情報を取得し、対訳文の中で同じ分類(「分類」=“文書名”)の置換済の個別メタ情報の数をカウントする。すなわち、個別メタ情報置換部52は、“ZZ54”で始まる個別メタ情報の数をカウントする(この場合の例は、1個となる)。
個別メタ情報置換部52は、分野の情報とカウント結果を基に、メタ情報記憶部42を検索する。この場合の例は、識別置換情報記憶部422において、分野が“文書名”の2番目の情報(「原言語」=“ZZ5402”、「目的言語」=“ZZ5402”)を取得する。個別メタ情報置換部52は、置換対象の用語を識別置換情報記憶部422から取得した個別メタ情報(識別置換ID)に置換する。この場合の例では、個別メタ情報置換部52は、「定義書」を“ZZ5402”に、“definition document”を“ZZ5402”に、それぞれ置換する。
このように、個別メタ情報置換部52は、対訳文に含まれる用語を、用語の属性に応じた分類を示す分類情報を含み、且つ、個々の用語を区別可能なメタ情報に置換する。
なお、個別メタ情報置換部52は、個別メタ情報への置き換え(変換)を対訳文ごとに実施するため、例えば、対訳文番号“A”の中で「定義書」が“ZZ5401”に置き換えられ、対訳文番号“B”では「定義書」が“ZZ5499”に置き換えられることもある。すなわち、用語を特定するための下位2桁(識別ID)は、対訳文によって変化する可能性がある。
次に、図11を参照して、本実施形態における言語モデルの作成処理の一例について説明する。
<言語モデルの作成処理>
図11は、本実施形態における言語モデルの作成処理の一例を示すフローチャートである。
この図において、まず、言語モデルの作成処理の処理部50は、目的言語文を取得する(ステップS301)。すなわち、処理部50の前処理部51は、目的言語コーパス記憶部30から対訳文を取得する。
次に、前処理部51は、目的言語文を形態素解析する(ステップS302)。前処理部51は、目的言語コーパス記憶部30から取得した目的言語文を、言語で意味を持つ最小単位である形態素の列に分割し、それぞれの品詞を判別する処理を行う。
次に、処理部50は、目的言語文のうち、用語辞書に存在する用語を分類置換IDに置換する(ステップS303)。すなわち、処理部50の統合メタ情報置換部56は、前処理部51より形態素解析された目的言語文を受け取り、目的言語文の中で用語辞書記憶部41に記憶されている用語を分類置換IDに変換する。なお、統合メタ情報置換部56は、用語辞書記憶部41に記憶されている用語(単語)を検索する際に、用語辞書記憶部41の用語辞書テーブルT1を文字列の長い順にソートして、目的言語文の中の用語を検索する。
次に、処理部50の言語モデル作成部57は、言語モデルを作成する(ステップS304)。すなわち、言語モデル作成部57は、統合メタ情報置換部56によって置換された分類置換IDを含む目的言語文を学習の入力として、既存の統計的手法に基づいて学習を行い、言語モデルを出力する。
なお、一般的には、翻訳モデル、及び言語モデルが作成された後、“チューニング”というフェーズを経る。これは、翻訳のスコア計算時に用いる“各モデルの確率値に乗ずる重みパラメータ”を最適化するためのもので、チューニングプログラムとチューニング対象の対訳コーパスが必要となる。
ここで、チューニング対象の対訳コーパスは、翻訳時に精度を確保したいと考える分野のコーパスが採用されることが一般的であり、学習時に用いたものの一部を用いてもよいし、学習時とは別のものを用いてもよい。
本提案手法においては、チューニングプログラムは既存のもの、例えば、Moses付属のMERT(Minimum Error Rate Training)等を用いればよいが、チューニング対象の対訳コーパスに関しては、原言語、及び目的言語ともに辞書登録用語部分を統合メタ情報に置換したものを用いる必要がある。これは言語モデル作成時に実行している前処理部の処理と、統合メタ情報置換部の処理を、チューニング対象の対訳コーパスの原言語、及び目的言語の双方それぞれに実行したものに等しい。チューニングでは、言語モデルと、メタ情報統合部55を経た後の翻訳モデルを用いて翻訳を繰り返しつつパラメータを改善していくので、個別メタ情報は用いない。なお、本提案手法の効果を最大化するためには、統合メタ情報へ置換された箇所の多い対訳コーパスを用いるとよい。
次に、本実施形態による翻訳装置について、図面を参照して説明する。
[翻訳装置の実施形態]
図12は、本実施形態による翻訳装置100の一例を示すブロック図である。
この図において、翻訳装置100は、記憶部60と処理部70を備えている。翻訳装置100は、学習モデル作成装置1で作成した学習モデルに基づいて、入力された原言語文を統計翻訳し、統計翻訳の翻訳結果である目的言語文を出力する。
記憶部60は、翻訳装置100が統計翻訳を行う際に、使用する各種情報を記憶する。記憶部60は、用語辞書記憶部61、及び復元情報記憶部62を備えている。
用語辞書記憶部61は、図1に示す用語辞書記憶部41と同様に、用語辞書の情報を示す用語辞書情報を記憶する。用語辞書記憶部61は、用語辞書記憶部41と同様に、用語辞書テーブルT1と、分類テーブルT2として記憶する。なお、用語辞書記憶部61は、学習モデルを作成した際に用いたものを基本とし、新語の追加が生じた場合に、用語辞書テーブルT1に新語が追加される。
復元情報記憶部62は、翻訳の際に、目的言語文に含まれる分類置換IDを用語(単語)に復元するための情報を記憶する。復元情報記憶部62は、図13に示すように、「No.」、「位置情報」、「復元用語」、及び「分類置換ID」を対応付けて記憶する。ここで、図13を参照して、復元情報記憶部62のデータ構成について説明する。
図13は、本実施形態における復元情報記憶部62のデータ構成の一例を示す構成図である。
この図において、「No.」は、復元情報の番号(識別情報)を示し、「位置情報」は、後述する統合メタ情報(分類置換ID)の置換処理において、置換する用語(単語)の原文中の位置を示す情報(例えば、原文中の何番目から何番目の形態素であるかを示す情報)を示している。また、「復元用語」は、復元の際に、置換する目的言語の用語(単語)を示している。また、「分類置換ID」は、統合メタ情報(分類置換ID)の置換処理において置換した統合メタ情報(分類置換ID)を示している。すなわち、「復元用語」とは、統合メタ情報に置き換えられた用語と対応付けて用語辞書記憶部61に記憶されている目的言語の用語である。
例えば、図13に示す例では、復元情報記憶部62は、「No.」が“1”である「位置情報」が、“0”であり、「復元用語」が“requirements definition document”であることを示している。また、「分類置換ID」が“ZZ54”であることを示している。
再び、図12に戻り、処理部70は、例えば、CPUなどを含むプロセッサであり、翻訳装置100の各種処理を実行する。
処理部70は、前処理部51、翻訳メタ情報置換部72、翻訳処理部73、メタ情報復元部75、及び後処理部76を備えている。また、翻訳処理部73は、学習モデル74を有している。
前処理部51は、入力文として原言語文を取得し、取得した原言語文を形態素解析する。なお、前処理部51で行う形態素解析の処理は、図1に示す前処理部51と同様である。
前処理部51は、形態素解析した原言語文を翻訳メタ情報置換部72に出力する。
翻訳メタ情報置換部72は、取得した原言語文に含まれる用語を、当該用語に対応する統合メタ情報(分類置換ID)に置換する。翻訳メタ情報置換部72は、前処理部51から形態素解析された原言語文を取得し、原言語文の中で用語辞書記憶部61に記憶されている用語(単語)を統合メタ情報(分類置換ID)に置き換える。なお、翻訳メタ情報置換部72は、統合メタ情報(分類置換ID)に置き換える際に、上述した復元情報記憶部62に、「位置情報」、「復元用語」、及び「分類置換ID」を対応付けて復元情報として記憶する。ここで、「復元用語」とは、統合メタ情報に置き換えられた用語と対応付けて用語辞書記憶部61に記憶されている目的言語の用語である。
翻訳処理部73は、学習モデル作成装置1によって作成された学習モデル74に基づいて、翻訳メタ情報置換部72によって置換された統合メタ情報(分類置換ID)を含む原言語文を、統合メタ情報(分類置換ID)を含む目的言語文に翻訳する。なお、ここで学習モデル74には、例えば、翻訳モデルと言語モデルとが含まれる。
また、翻訳処理部73は、出力される目的言語文の各フレーズが、原言語文ではどの位置にあったかを示す情報を付与する。例えば、この原言語文ではどの位置にあったかを示す情報は、原言語文での単語の位置情報を用いることとしてもよく、翻訳処理部73は、「私 は ZZ01 を ZZ01 に あげた 。」という文を翻訳した場合、“I[0−1] gave ZZ01[4−6] to ZZ01[2−3].[7−7]”という翻訳結果を得ることとしてもよい。なお、この例では、“I”、“gave to ZZ01”、“to ZZ01”及び“.”の計4つのフレーズに分けて翻訳されたことになる。また、この例では、原言語の2−3番目の形態素が“to ZZ01”に、4−6番目の形態素が“gave to ZZ01”に翻訳されたことを表している。なお、原言語の形態素は、例えば、0番目から数えている。すなわち、上述の例では、0番目が“私”に対応し、1番目が“は”に対応する。
メタ情報復元部75は、翻訳処理部73によって翻訳された目的言語文に含まれる統合メタ情報(分類置換ID)を、当該統合メタ情報(分類置換ID)の変換元である原言語の用語に対応する目的言語の用語に復元する。メタ情報復元部75は、復元情報記憶部62から復元情報を取得して、復元情報に基づいて、目的言語文に含まれる統合メタ情報(分類置換ID)を、当該統合メタ情報(分類置換ID)に対応する用語(単語)に置き換える。すなわち、メタ情報復元部75は、翻訳結果に含まれる統合メタ情報に付随する情報(例、位置情報[8−11]など)から、目的言語文に含まれる各統合メタ情報に対応する原言語文での統合メタ情報を特定する。さらに、メタ情報復元部75は、復元情報記憶部62から取得しした復元情報に基づいて、目的言語文に含まれる統合メタ情報(分類置換ID)に対応する用語(単語)に置き換える。
このように、メタ情報復元部75は、翻訳結果に含まれる統合メタ情報(分類置換ID)とそれに付随する位置情報を基に復元情報記憶部62を検索し、該当する復元情報ある場合、翻訳結果に含まれる統合メタ情報を該当する復元情報における「復元用語」で置き換える。
後処理部76は、メタ情報復元部75によって、統合メタ情報(分類置換ID)を用語(単語)に置換された目的言語文に含まれる位置情報(例、[8−11]など)を削除するとともに、必要に応じて大文字に変換するなど、目的言語文の体裁を整える後処理を実行し、後処理した目的言語文を出力する。
次に、本実施形態における翻訳装置100の動作について説明する。
ここでは、図14及び図15を参照して、本実施形態における翻訳装置100の翻訳処理の一例について説明する。
図14は、本実施形態における翻訳装置100の翻訳処理の一例を示すフローチャートである。また、図15は、本実施形態における翻訳装置100の翻訳処理の一例を説明する説明図である
図14において、まず、翻訳装置100の処理部70は、入力文である原言語文を取得する(ステップS401)。すなわち、処理部70の前処理部51は、入力文である原言語文を取得する。
次に、前処理部51は、原言語文を形態素解析する(ステップS402)。前処理部51は、図15(a)に示すような、形態素解析した原言語文を翻訳メタ情報置換部72に出力する。
次に、処理部50の翻訳メタ情報置換部72は、原言語文のうち、用語辞書に存在する用語を分類置換IDに置換する(ステップS403)。すなわち、翻訳メタ情報置換部72は、前処理部51から形態素解析された原言語文を受け取り、原言語文の中で用語辞書記憶部61に記憶されている用語を分類置換IDに変換する。
例えば、翻訳メタ情報置換部72は、図15(a)に示すような原言語文を、図15(b)に示すような、分類置換IDを含む原言語文に変換する。
また、翻訳メタ情報置換部72は、分類置換IDに置き換える際に、復元情報記憶部62に、「位置情報」、「復元用語」、及び「分類置換ID」を対応付けて復元情報として記憶する。
例えば、図15(b)に示す例では、翻訳メタ情報置換部72は、「位置情報」が“0”、「復元用語」が“requirements definition document”、及び「分類置換ID」が“ZZ54”である復元情報F1を1番目の分類置換IDの復元情報として復元情報記憶部62に記憶させる。また、翻訳メタ情報置換部72は、「位置情報」が“5”、「復元用語」が“function list”、及び「分類置換ID」が“ZZ54”である復元情報F2を2番目の分類置換IDの復元情報として復元情報記憶部62に記憶させる。
次に、処理部70の翻訳処理部73は、分類置換IDに置換された原言語文を学習モデル74に基づいて翻訳する(ステップS404)。ここで、例えば、翻訳処理部73は、図15(b)に示すような原言語文を、図15(c)に示すような、分類置換ID及び位置情報を含む目的言語文に変換する。
次に、処理部70のメタ情報復元部75は、翻訳結果の分類置換IDを用語に復元する(ステップS405)。すなわち、メタ情報復元部75は、翻訳結果に含まれる分類置換IDに付随する位置情報から、目的言語文に含まれる各分類置換IDに対応する原言語文での分類置換IDを特定する。さらに、メタ情報復元部75は、復元情報記憶部62から取得しした復元情報に基づいて、目的言語文に含まれる分類置換IDに対応する用語(単語)に置き換える。ここで、例えば、メタ情報復元部75は、図15(c)に示すような分類置換ID及び位置情報を含む目的言語文を、図15(d)に示すような、目的言語文に変換する。
例えば、図15に示す例では、メタ情報復元部75は、上述した復元情報F1に基づいて、目的言語文の1番目の“ZZ54”を、“function list”に変換する。また。メタ情報復元部75は、上述した復元情報F2に基づいて、目的言語文の2番目の“ZZ54”を、“requirements definition document”に変換する。
次に、処理部70の後処理部76は、翻訳結果の目的言語文を後処理する(ステップS406)。すなわち、後処理部76は、後処理により、図15(e)に示すような、目的言語文を生成し、出力する。
以上説明したように、本実施形態による学習モデル作成装置1は、統計的手法に基づいて機械翻訳のための学習モデルを作成する装置であって、個別メタ情報置換部52と、翻訳モデル作成部53と、フレーズ整形部54と、メタ情報統合部55とを備えている。個別メタ情報置換部52は、翻訳処理の入力となる言語の文である原言語文と、原言語文に対応する翻訳結果となる目的言語の文である目的言語文との組を示す対訳文を記憶する対訳コーパス記憶部20から取得した対訳文に、原言語の用語と、目的言語の用語とを対応付けて記憶する用語辞書記憶部41から取得した原言語の用語及び目的言語の用語が含まれる場合に、当該含まれる用語を、個々の用語を区別可能なメタ情報(識別置換ID)に置換する。翻訳モデル作成部53は、個別メタ情報置換部52によって置換されたメタ情報を含む対訳文に基づいて、原言語のフレーズと目的言語のフレーズとのフレーズ対と、当該フレーズ対の確率情報とを含む第1翻訳モデルを作成する。フレーズ整形部54は、翻訳モデル作成部53によって作成された第1翻訳モデルが有するフレーズ対を、所定の規則に基づいて取捨選択して、第1翻訳モデルを整形翻訳モデル(第2翻訳モデル)に整形する。そして、メタ情報統合部55は、フレーズ整形部54によって整形された整形翻訳モデルに含まれるメタ情報を、個々の用語を特定しない(個々の用語を区別しない)統合メタ情報(分類置換ID)に変換した統合翻訳モデル(第3翻訳モデル)を学習モデルとして生成する。
すなわち、個別メタ情報置換部52は、異なる言語の対応する文の組である対訳文に含まれる異なる言語の対応する用語を、用語毎に異なる個別メタ情報に置換する。翻訳モデル作成部53は、個別メタ情報置換部52によって置換された個別メタ情報(識別置換ID)を含む対訳文に基づいて、個別メタ情報(識別置換ID)を含む対訳文を構成する異なる言語のフレーズの対であるフレーズ対を含む翻訳モデル(第1翻訳モデル)を作成する。フレーズ整形部54は、翻訳モデル(第1翻訳モデル)より、所定の規則を満たすフレーズ対で構成される整形翻訳モデル(第2翻訳モデル)を作成する。そして、メタ情報統合部55は、整形翻訳モデル(第2翻訳モデル)のフレーズ対に含まれる個別メタ情報を、個々の用語を特定しない(個々の用語を区別しない)統合メタ情報(分類置換ID)に変換した統合翻訳モデル(第3翻訳モデル)を学習モデルとして生成する。
これにより、本実施形態による学習モデル作成装置1は、メタ情報を含む対訳文に基づいて作成された翻訳モデル(第1翻訳モデル)に含まれる、例えば、誤翻訳を生じさせる可能性のあるフレーズ対を翻訳モデルから予め削除することができる。また、本実施形態による学習モデル作成装置1は、統合メタ情報を含んだ翻訳モデルを作成するので、新語の追加などの変更が生じたい場合に、用語辞書(用語辞書記憶部61)を変更することで対応可能であり、再学習して学習モデル(翻訳モデル)を再作成させずに対応することができる。また、本実施形態による学習モデル作成装置1は、メタ情報に置換した対訳文を用いることで、学習モデルを作成するための対訳文の数を減らすことができので、学習モデルの作成期間を短縮することができる。よって、本実施形態による学習モデル作成装置1は、統計翻訳の品質を低下させずに、新語の追加などの変更の対応に要する期間を短縮することができる。
すなわち、本実施形態による学習モデル作成装置1は、統計翻訳の品質を低下させずに、学習コストを低減させることができる(必要対訳文数の削減、再学習が必要な機会の削減)。
また、本実施形態では、フレーズ整形部54は、フレーズ対が有する原言語のフレーズと目的言語のフレーズとにおいて(異なる言語のフレーズにおいて)個別メタ情報の数が異なる場合、又は、フレーズ対において少なくとも1つのフレーズが個別メタ情報を2個以上有する場合に、当該フレーズ対を削除対象とし、第1翻訳モデルから削除対象を削除して整形翻訳モデルを生成する。さらに、フレーズ整形部54は、フレーズ対が有する原言語のフレーズと目的言語のフレーズとにおいて(異なる言語のフレーズにおいて)、個別メタ情報の数が等しい場合、且つ、個別メタ情報の出現順序が等しい場合に、当該フレーズ対を削除対象から除外する。
これにより、本実施形態による学習モデル作成装置1は、誤翻訳の原因となる(1)原言語と目的言語とで個別メタ情報(識別置換ID)の個数の異なるフレーズ対と、(2)原言語と目的言語とで個別メタ情報(識別置換ID)の出現順序が異なるフレーズ対とを翻訳モデルから適切に削除することができる。よって、本実施形態による学習モデル作成装置1は、統計翻訳の品質を低下させずに、新語の追加などの変更の対応に要する期間を短縮することができる。
なお、例えば、同じ分類の識別置換IDに置換対象の単語が複数あり、原言語文と目的言語文との間で順序が変わるような原言語文を統計翻訳する際に、上述の(2)のフレーズ対が翻訳モデルに存在している場合に、誤翻訳が発生する。上述の(1)及び(2)のフレーズ対を翻訳モデルから削除した場合、翻訳モデルに含まれる識別置換IDを含むフレーズ対は、識別置換IDの数が一致し、且つ、出現順序が等しいものになる。そのため、翻訳モデルは、同じ分類の識別置換IDに置換対象の単語が複数あり、原言語文と目的言語文との間で順序が変わるような原言語文を統計翻訳する場合に、誤翻訳などの悪影響を与えない学習モデルとなる。すなわち、本実施形態により作成される翻訳モデルは、上述の(2)に示すフレーズ対を含んでいる場合のように、語順が入れ替わるべき所で語順が入れ替わらない翻訳がされる誤翻訳を生じない学習モデルとなる。よって、本実施形態による学習モデル作成装置1は、原言語文と目的言語文との間で順序が変わるような原言語文を統計翻訳する場合に対応した適切な学習モデルを作成することができる。
ところで、従来の統計翻訳において、「XML Markup」という手法を使い、ある特定の用語の訳をユーザが明示的に指定することができる用語登録の方式が提案されている。しかしながら、この方式では、強制的に訳語が決定されるというだけであり、語順まで考慮された用語登録の方式ではなかった。
例えば、図15に示す例において、「XML Markup」を利用した場合、下記のような処理となる。ここで、Markup用語とは、「XML Markup」により訳語が指定される原言語の用語を示す。下記の例でいえば、“要件定義書”、及び“機能一覧”がMarkup用語となる。
「XML Markup」を利用した場合、“要件定義書を参照して機能一覧を作成してください。”は、前処理実施後、Markup用語の訳語を指定しつつ、XMLタグで囲む処理が実行され、“<np translation=″requirements definition documents″>要件 定義 書</np>を 参照 し て<np translation=″function list″></np>を 作成 し て ください 。”となる。
次に、XMLタグで囲む処理が実行された上述の文が、Markup用語を指定された訳語に変換されるとともに、その他のフレーズも目的言語に変換される。例えば、XMLタグで囲む処理が実行された上述の文が、“requirements definition documents/with reference to/function list/please create/.”という5つのフレーズに変換される。
「XML Markup」を利用した場合には、学習モデル用いて、この5つのフレーズを並び替えが実行され、目的言語文として出力される。
なお、本来の処理は、このように逐次的な処理ではなく、並び替えと訳語選択を同時に解いてもっともらしい訳が選択される処理であるが、ここでは、語順の問題を説明する上で、上記処理のように説明した。
上記の「XML Markup」を利用した場合には、上記処理の並び替えの際に、下記2点の理由により、語順を考慮した翻訳がされ難い。
(理由1)Markup用語は単独フレーズとして扱われるため、必用以上にフレーズが分断され、フレーズ内で語順が考慮されることが望ましい箇所もフレーズ間の並び替えになってしまう。すなわち、「XML Markup」を利用して訳語を指定した場合、Markup用語箇所で強制的にフレーズが分断されるため、フレーズ単位での翻訳が望ましいような箇所の語順もフレーズ間で並べ替えなくてはいけなくなってしまう。これは、Markup用語を含みつつそれらの前後に結合する単語情報も含んだフレーズを学習されていない可能性が高く、学習されていたとしても翻訳時に当該フレーズを用いることができないために起こる。
上記の例でいえば、“機能一覧”と“を 作成 し て ください 。”の双方を含んだフレーズは仮に学習済みであったとしても、翻訳時には用いられない。前者は、Markup用語であるので、入力文は、少なくともこの前者と後者との間でフレーズが分断され翻訳されるからである。分断された後は、この2つのフレーズを正しく並べ替える必要があるが、下記(理由2)で示すようにそのための語順情報が言語モデルにない場合が多いため、正しい語順が得られない可能性が高い。
これに対して、本実施形態による学習モデル作成装置1では、用語辞書記憶部41に記憶されている辞書用語でフレーズが分断されることもなく、統合メタ情報(分類置換ID)とそれらと結合する前後の単語を含んだフレーズの学習が可能であり、当該フレーズを翻訳時に用いることができる。本実施形態では、上記の例でいえば、“ZZ54を作成してください。”⇔“please create ZZ54”というフレーズ対が学習可能であり、当該フレーズを翻訳時に用いることができるので、“function list”と“please create”との語順が問題になることがない。
(理由2)フレーズ間の並び替えもMarkup用語とそれ以外の用語との連結に関する語順情報が言語モデルにないため、うまく翻訳できない可能性が高い。すなわち、「XML Markup」で指定される訳語が、学習する際の対訳コーパスに含まれない用語である場合、言語モデルには当然、当該用語の並べ替えの情報がない。そして、本実施形態による学習モデル作成装置1の目的の1つである、新語を学習モデルに追加したいような目的において、「XML Markup」を利用した場合には、それらの訳語が既存の対訳コーパスに含まれない可能性は極めて高い。つまり、“requirements definition document”、“function list”等の用語と、これらが他のフレーズとどのように連結するのかの情報が言語モデルにないため、「XML Markup」を利用した場合には、Markup用語を含むフレーズ間の語順並び替えが正しく実施されない可能性が高い。
これに対して、本実施形態による学習モデル作成装置1では、統合メタ情報(分類置換ID)に変換した状態で語順情報を学習しているため、これらに対応することが可能である。例えば、図15に示す例では、統合メタ情報(分類置換ID)に変換されたフレーズ“with reference to ZZ54”及び“please create ZZ54”が正しく並び替えられればよく、本実施形態による学習モデル作成装置1では、“ZZ54”と“with reference”とが連結するという情報が、学習されるので、フレーズ間の語順並び替えが正しく実施される。つまり、本実施形態による学習モデル作成装置1では、これらが連結する文を学習しておけば、“ZZ54”の部分が変わっても同一の分類用語であれば再学習の必要なく語順が最適に決定される。
また、本実施形態による学習モデル作成装置1は、上述したように、翻訳モデルに含まれる識別置換IDを含むフレーズ対は、識別置換IDの数が一致し、且つ、出現順序が等しいものになるので、語順が入れ替わるものが出現しない。よって、本実施形態による学習モデル作成装置1は、語順まで考慮した用語登録方式に対応させることができる。
また、従来技術では、例えば、対訳文の中に変数に置き換えられる単語が複数存在する場合、原言語と目的言語とで変数に置き換えられた単語の対応関係についての情報学習時点では欠落しているため、変数に置き換えられた単語同士を正しく対応付けて学習することができない。また、従来の統計翻訳の翻訳モデルでは一般的に原言語と目的言語とでフレーズの対応づけにより翻訳を行うが、例えば、1つのフレーズの中に変数に置き換えられる単語が複数存在する場合、変数に置き換えられた各単語をどの様に対応付けるのかについての情報が翻訳モデルには含まれないため、そのままでは変数を単語に戻すことができない。すなわち、従来技術では、何らかの規則を予め設けて単語同士の対応づけを行うことはできるが、対訳文により単語同士をどの様に対応付けるのかが変化するため、正しく対応づけるための規則を網羅的に作成することは困難である。
これに対して、本実施形態による学習モデル作成装置1では、翻訳モデルに含まれる識別置換IDを含むフレーズ対は、識別置換IDの数が一致し、且つ、出現順序が等しいものになるので、例えば、1つのフレーズの中に変数に置き換えられる単語が複数存在する場合であっても、各単語を正しく対応付けることができる。また、本実施形態による学習モデル作成装置1は、用語辞書(用語辞書記憶部61)に用語を登録することにより、原言語と目的言語とで単語の対応づけを指定することができる。
また、本実施形態による学習モデル作成装置1は、対訳文を記憶する対訳コーパス記憶部20から対訳文を取得し、取得した対訳文を形態素解析する前処理部51を備えている。なお、個別メタ情報(識別置換ID)は、当該用語の属性に応じた分類を示す分類情報を含み、且つ、個々の用語を区別可能である。用語辞書記憶部41は、原言語の用語と、目的言語の用語と、分類情報とを対応付けて記憶する。すなわち、用語辞書記憶部41は、異なる言語の対応する用語の組と、分類情報とを対応付けて記憶する。個別メタ情報置換部52は、用語辞書記憶部41から、文字列が長い順に用語を取得して、前処理部51によって形態素解析された対訳文を検索し、前処理部51によって形態素解析された対訳文に原言語の用語及び目的言語の用語(用語の組の双方の用語)が含まれる場合に、当該用語に対応する分類情報を含み、且つ、個々の用語を区別可能なメタ情報(識別置換ID)に、当該用語を変換する。翻訳モデル作成部53は、個別メタ情報を含む対訳文に基づいて、個別メタ情報を含む対訳文を構成する異なる言語のフレーズの対であるフレーズ対と、当該フレーズ対の確率情報とを含を含む第1翻訳モデルを作成する。そして、メタ情報統合部55は、整形翻訳モデルに含まれる識別置換IDを、分類置換IDに変換した統合翻訳モデルを学習モデルとして生成する。
これにより、文字列が長い順に検索するため、本実施形態による学習モデル作成装置1は、複数の形態素から構成される複合語(例えば、上述した「要件定義書」など)に対応させることができる。
また、本実施形態による学習モデル作成装置1は、用語の分類に応じて、異なる統合メタ情報(分類置換ID)に変換した統合翻訳モデルを学習モデルとして生成することができる。そのため、本実施形態による学習モデル作成装置1は、新語の追加などの変更が生じたい場合に、分類ごとに用語辞書(用語辞書記憶部61)に用語を追加することで対応可能であり、再学習して学習モデル(翻訳モデル)を再作成させずに対応することができる。
また、本実施形態による学習モデル作成装置1は、統合メタ情報置換部56と、言語モデル作成部57とを備えている。なお、学習モデルには、統合翻訳モデル(第3翻訳モデル)と言語モデルとが含まれている。統合メタ情報置換部56は、複数の目的言語文を記憶する目的言語コーパス記憶部30から取得した目的言語文に含まれる用語を、当該用語に対応する統合メタ情報(分類置換ID)に置換する。なお、目的言語コーパス記憶部30は、異なる言語のいずれか1つの言語の文であって、複数の文を記憶する。そして、言語モデル作成部57は、統合メタ情報置換部56によって置換された統合メタ情報を含む目的言語文(異なる言語のいずれか1つの言語の文)に基づいて、言語モデルを学習モデルとして作成する。
これにより、本実施形態による学習モデル作成装置1は、統合メタ情報に対応した言語モデルを作成することができる。また、翻訳モデルと言語モデルとの両方を用いて、統計翻訳を行うことができるので、本実施形態による学習モデル作成装置1は、翻訳品質を向上させることができる。
また、本実施形態によれば、翻訳装置100は、翻訳メタ情報置換部72と、用語辞書記憶部61と、翻訳処理部73と、復元情報記憶部62と、メタ情報復元部75とを備えている。翻訳メタ情報置換部72は、取得した原言語文(異なる言語のいずれか1つの言語の文)に含まれる用語を、統合メタ情報に置換する。用語辞書記憶部61は、異なる言語の用語を対応付けて記憶する。翻訳処理部73は、上述の学習モデル作成装置1によって作成された学習モデル74に基づいて、翻訳メタ情報置換部72によって置換された統合メタ情報(分類置換ID)を含む原言語文を、統合メタ情報(分類置換ID)を含む目的言語文に翻訳する。すなわち、翻訳処理部73は、上述の学習モデル作成装置1によって作成された学習モデル74に基づいて、翻訳メタ情報置換部72によって置換された統合メタ情報(分類置換ID)を含む異なる言語のいずれか1つの言語の文を、統合メタ情報(分類置換ID)を含む翻訳文に翻訳する。ここで、翻訳文は、異なる言語のうち取得した1つの言語の文(原言語文)の言語以外の言語の文(目的言語文)である。復元情報記憶部62は、置換された用語を特定する情報(例えば、「位置情報」、「復元用語」など)と置換結果である統合メタ情報とを対応付けて記憶する。そして、メタ情報復元部75は、翻訳処理部73によって翻訳された目的言語文に含まれる統合メタ情報(分類置換ID)を、当該統合メタ情報の変換元である原言語の用語に対応する目的言語の用語に復元する。すなわち、メタ情報復元部75は、翻訳文に含まれる統合メタ情報(分類置換ID)を、復元情報記憶部62に基づき特定される、翻訳文に含まれる統合メタ情報(分類置換ID)に置換された用語に対応付けて用語辞書記憶部61に記憶された用語に変換する。
これにより、本実施形態による翻訳装置100は、学習モデル作成装置1と同様の効果を奏する。すなわち、本実施形態による翻訳装置100は、統計翻訳の品質を低下させずに、新語の追加などの変更の対応に要する期間を短縮することができる。また、本実施形態による翻訳装置100は、複合語に対応させることができるともに、語順まで考慮した用語登録に対応させることができる。
また、本実施形態による学習モデル作成方法は、統計的手法に基づいて機械翻訳のための学習モデルを作成する学習モデル作成方法であって、個別メタ情報置換ステップと、翻訳モデル作成ステップと、翻訳モデル整形ステップと、メタ情報統合ステップとを含んでいる。個別メタ情報置換ステップにおいて、個別メタ情報置換部52が、対訳コーパス記憶部20から取得した対訳文に含まれる用語を、用語の属性に応じた分類を示す分類情報を含み、且つ、個々の用語を区別可能なメタ情報(識別置換ID)に置換する。翻訳モデル作成ステップにおいて、翻訳モデル作成部53が、個別メタ情報置換ステップによって置換されたメタ情報を含む対訳文に基づいて、原言語のフレーズと目的言語のフレーズとのフレーズ対と、当該フレーズ対の確率情報とを含む第1翻訳モデルを作成する。翻訳モデル整形ステップにおいて、フレーズ整形部54が、翻訳モデル作成ステップによって作成された第1翻訳モデルが有するフレーズ対を、所定の規則に基づいて取捨選択して、第1翻訳モデルを整形翻訳モデル(第2翻訳モデル)に整形する。そして、メタ情報統合ステップにおいて、メタ情報統合部55が、翻訳モデル整形ステップによって整形された整形翻訳モデルに含まれるメタ情報(識別置換ID)を、分類情報を示す統合メタ情報(分類置換ID)に変換した統合翻訳モデル(第3翻訳モデル)を学習モデルとして生成する。
これにより、本実施形態による学習モデル作成方法は、学習モデル作成装置1と同様の効果を奏する。
なお、本発明は、上記の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で変更可能である。
例えば、上記の実施形態では、原言語(第1言語)が日本語であり、目的言語(第2言語)が英語である場合の一例について説明したが、これに限定されるものではない。学習モデル作成装置1及び翻訳装置100は、例えば、日本語及び英語の他に、フランス語、ドイツ語、中国語、韓国語などの自然言語のうちのいずれかの2つの言語に対して適用してもよい。
また、上記の実施形態では、統合メタ情報の一例として、分類置換IDを用いる場合について説明したが、個々の用語を特定しない(個々の用語を区別しない)メタ情報であれば、他のメタ情報であってもよい。
また、個別メタ情報(識別置換ID)、及び統合メタ情報は、分類を示す情報を含まなくてもよい。この場合、個別メタ情報、及び統合メタ情報は、例えば、分類情報を使用しないものでもよいし、分類情報が1種類であってもよい。また、個別メタ情報に分類を示す情報が含まれない場合、個別メタ情報は、1つの文の中で用語を一意に特定可能な情報を含むものであればよい。
また、上記の実施形態では、学習モデル作成装置1は、学習モデルとして、翻訳モデルと言語モデルとを作成する場合について説明したが、並び替え情報を定義した並び替えモデルを作成してもよい。なお、学習モデル作成装置1は、並び替えモデルを翻訳モデルと同様の手法により作成することが可能である。また、翻訳装置100は、同様に、並び替えモデルが付随した翻訳モデルに対応させてもよい。
また、上記の実施形態では、翻訳装置100は、学習モデル作成装置1を含まない形態について説明したが、翻訳装置100が学習モデル作成装置1を備える形態であってもよい。
また、上記の実施形態では、学習モデル作成装置1は、対訳コーパス記憶部20及び目的言語コーパス記憶部30を備えない場合について説明したが、対訳コーパス記憶部20及び目的言語コーパス記憶部30を備えてもよい。また、学習モデル作成装置1は、記憶部40を備えずに、サーバ装置などの外部装置が、記憶部40を備える形態でもよい。また、同様に、翻訳装置100は、記憶部60を備えずに、サーバ装置などの外部装置が、記憶部60を備える形態でもよい。
また、上記の実施形態では、学習モデル作成装置1は、対訳コーパスと目的言語コーパスとが独立した情報として取得する場合について説明したが、対訳コーパスが目的言語コーパスを兼ねてもよい。
また、上記の実施形態では、図4に示すように、用語辞書記憶部41の用語辞書テーブルT1に「No.」を含む場合について説明したが、用語辞書テーブルT1に「No.」を含まない形態でもよい。また、ユーザが辞書を読む際の読み易さを考慮して、用語辞書テーブルT1に前処理前の「原言語の用語」及び「目的言語の用語」を追加してもよい。なお、前処理後の「原言語の用語」及び「目的言語の用語」を生成するために、前処理前の「原言語の用語」及び「目的言語の用語」を入力する必要があるので、学習モデル作成装置1は、一度は、前処理前の「原言語の用語」及び「目的言語の用語」を取得する必要がある。
また、上記の実施形態では、識別置換ID(個別メタ情報)を、メタ情報記憶部42から検索して取得する場合について説明したが、これに限定されるものではない。例えば、識別置換IDを“メタ情報であることを示す文字列”、“分類ID”、及び“予め定められた桁数の識別ID”の結合とする場合、個別メタ情報置換部52は、メタ情報であることを示す文字列と分類IDの情報とに加えて、上述した“カウント結果+1”の数値を識別IDとして組み合わせることにより識別置換IDを作成してもよい。
なお、本発明における学習モデル作成装置1及び翻訳装置100が備える各構成の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより上述した学習モデル作成装置1及び翻訳装置100が備える各構成における処理を行ってもよい。ここで、「記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行する」とは、コンピュータシステムにプログラムをインストールすることを含む。ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、インターネットやWAN、LAN、専用回線等の通信回線を含むネットワークを介して接続された複数のコンピュータ装置を含んでもよい。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。このように、プログラムを記憶した記録媒体は、CD−ROM等の非一過性の記録媒体であってもよい。また、記録媒体には、当該プログラムを配信するために配信サーバからアクセス可能な内部または外部に設けられた記録媒体も含まれる。なお、プログラムを複数に分割し、それぞれ異なるタイミングでダウンロードした後に学習モデル作成装置1及び翻訳装置100が備える各構成で合体される構成や、分割されたプログラムのそれぞれを配信する配信サーバが異なっていてもよい。
さらに「コンピュータ読み取り可能な記録媒体」とは、ネットワークを介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、上述した機能の一部を実現するためのものであってもよい。さらに、上述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
また、上述した機能の一部または全部を、LSI(Large Scale Integration)等の集積回路として実現してもよい。上述した各機能は個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はLSIに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりLSIに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。
1 学習モデル作成装置
20 対訳コーパス記憶部
30 目的言語コーパス記憶部
40、60 記憶部
41 用語辞書記憶部
42 メタ情報記憶部
43 整形規則記憶部
50、70 処理部
51、71 前処理部
52 個別メタ情報置換部
53 翻訳モデル作成部
54 フレーズ整形部
55 メタ情報統合部
56 統合メタ情報置換部
57 言語モデル作成部
61 用語辞書記憶部
62 復元情報記憶部
72 翻訳メタ情報置換部
73 翻訳処理部
74 学習モデル
75 メタ情報復元部
76 後処理部
100 翻訳装置
421 分類置換情報記憶部
422 識別置換情報記憶部
T1 用語辞書テーブル
T2 分類テーブル

Claims (8)

  1. 統計的手法に基づいて機械翻訳のための学習モデルを作成する学習モデル作成装置であって、
    異なる言語の対応する文の組である対訳文に含まれる前記異なる言語の対応する用語を、用語毎に異なる個別メタ情報に置換する個別メタ情報置換部と、
    前記個別メタ情報置換部によって置換された前記個別メタ情報を含む前記対訳文に基づいて、前記個別メタ情報を含む前記対訳文を構成する前記異なる言語のフレーズの対であるフレーズ対を含む第1翻訳モデルを作成する翻訳モデル作成部と、
    前記第1翻訳モデルより、所定の規則を満たすフレーズ対で構成される第2翻訳モデルを作成する翻訳モデル整形部と、
    前記フレーズ対に含まれる個別メタ情報を、個々の用語を特定しない統合メタ情報に変換した第3翻訳モデルを前記学習モデルとして生成するメタ情報統合部と、
    を備えることを特徴とする学習モデル作成装置。
  2. 前記翻訳モデル整形部は、
    前記フレーズ対が有する前記異なる言語のフレーズにおいて前記個別メタ情報の数が異なる場合、又は、前記フレーズ対において少なくとも1つのフレーズが前記個別メタ情報を2個以上有する場合に、当該フレーズ対を削除対象とし、前記第1翻訳モデルから前記削除対象を削除して前記第2翻訳モデルを生成する
    ことを特徴とする請求項1に記載の学習モデル作成装置。
  3. 前記翻訳モデル整形部は、
    前記フレーズ対が有する前記異なる言語のフレーズにおいて、前記個別メタ情報の数が等しい場合、且つ、前記個別メタ情報の出現順序が等しい場合に、当該フレーズ対を前記削除対象から除外する
    ことを特徴とする請求項2に記載の学習モデル作成装置。
  4. 前記対訳文を記憶する対訳コーパス記憶部から前記対訳文を取得し、取得した前記対訳文を形態素解析する前処理部を備え、
    前記個別メタ情報は、当該用語の属性に応じた分類を示す分類情報を含み、且つ、個々の用語を区別可能であり、
    前記個別メタ情報置換部は、
    前記異なる言語の対応する用語の組と、前記分類情報とを対応付けて記憶する用語辞書記憶部から、文字列が長い用語の順に用語を取得して、前記前処理部によって形態素解析された前記対訳文を検索し、前記前処理部によって形態素解析された前記対訳文に、前記用語の組の双方の用語が含まれる場合に、当該用語に対応する前記分類情報を含み、且つ、個々の用語を区別可能な前記個別メタ情報に、当該用語を変換し、
    前記翻訳モデル作成部は、
    前記個別メタ情報を含む前記対訳文に基づいて、前記個別メタ情報を含む前記対訳文を構成する前記異なる言語のフレーズの対であるフレーズ対と、当該フレーズ対の確率情報とを含を含む前記第1翻訳モデルを作成し、
    前記メタ情報統合部は、
    前記第2翻訳モデルに含まれる前記個別メタ情報を、前記分類情報を示す前記統合メタ情報に変換した前記第3翻訳モデルを前記学習モデルとして生成する
    ことを特徴とする請求項2から請求項3のいずれか一項に記載の学習モデル作成装置。
  5. 前記学習モデルには、前記第3翻訳モデルと言語モデルとが含まれ、
    前記異なる言語のいずれか1つの言語の文であって、複数の文を記憶する目的言語コーパス記憶部から取得した前記1つの言語の文に含まれる用語を、当該用語に対応する前記統合メタ情報に置換する統合メタ情報置換部と、
    前記統合メタ情報置換部によって置換された前記統合メタ情報を含む前記1つの言語の文に基づいて、前記言語モデルを前記学習モデルとして作成する言語モデル作成部と
    を備えることを特徴とする請求項1から請求項4のいずれか一項に記載の学習モデル作成装置。
  6. 前記異なる言語のいずれか1つの言語の文を取得し、取得した前記1つの言語の文に含まれる用語を前記統合メタ情報に置換する翻訳メタ情報置換部と、
    前記異なる言語の用語を対応付けて記憶する用語辞書記憶部と、
    請求項1から請求項5のいずれか一項に記載の学習モデル作成装置によって作成された前記学習モデルに基づいて、前記翻訳メタ情報置換部によって置換された前記統合メタ情報を含む前記1つの言語の文を、前記異なる言語のうち前記取得した1つの言語の文の言語以外の言語の文である翻訳文に翻訳する翻訳処理部と、
    前記置換された用語を特定する情報と置換結果である統合メタ情報との対応を記憶する復元情報記憶部と、
    前記翻訳文に含まれる統合メタ情報を、前記復元情報記憶部が記憶する前記用語を特定する情報に基づき特定される、前記翻訳文に含まれる前記統合メタ情報に置換された用語に対応付けて前記用語辞書記憶部に記憶された用語に変換するメタ情報復元部と、
    を備えることを特徴とする翻訳装置。
  7. 統計的手法に基づいて機械翻訳のための学習モデルを作成する学習モデル作成方法であって、
    個別メタ情報置換部が、異なる言語の対応する文の組である対訳文に含まれる前記異なる言語の対応する用語を、用語毎に異なる個別メタ情報に置換する個別メタ情報置換ステップと、
    翻訳モデル作成部が、前記個別メタ情報置換部によって置換された前記個別メタ情報を含む前記対訳文に基づいて、前記個別メタ情報を含む前記対訳文を構成する前記異なる言語のフレーズの対であるフレーズ対を含む第1翻訳モデルを作成する翻訳モデル作成ステップと、
    翻訳モデル整形部が、前記第1翻訳モデルより、所定の規則を満たすフレーズ対で構成される第2翻訳モデルを作成する翻訳モデル整形ステップと、
    メタ情報統合部が、前記フレーズ対に含まれる個別メタ情報を、個々の用語を特定しない統合メタ情報に変換した第3翻訳モデルを前記学習モデルとして生成するメタ情報統合ステップと、
    を含むことを特徴とする学習モデル作成方法。
  8. 統計的手法に基づいて機械翻訳のための学習モデルを作成する学習モデル作成装置としてのコンピュータに、
    個別メタ情報置換部が、異なる言語の対応する文の組である対訳文に含まれる前記異なる言語の対応する用語を、用語毎に異なる個別メタ情報に置換する個別メタ情報置換ステップと、
    翻訳モデル作成部が、前記個別メタ情報置換部によって置換された前記個別メタ情報を含む前記対訳文に基づいて、前記個別メタ情報を含む前記対訳文を構成する前記異なる言語のフレーズの対であるフレーズ対を含む第1翻訳モデルを作成する翻訳モデル作成ステップと、
    翻訳モデル整形部が、前記第1翻訳モデルより、所定の規則を満たすフレーズ対で構成される第2翻訳モデルを作成する翻訳モデル整形ステップと、
    メタ情報統合部が、前記フレーズ対に含まれる個別メタ情報を、個々の用語を特定しない統合メタ情報に変換した第3翻訳モデルを前記学習モデルとして生成するメタ情報統合ステップと、
    を実行させるためのプログラム。
JP2013148721A 2013-07-17 2013-07-17 学習モデル作成装置、翻訳装置、学習モデル作成方法、及びプログラム Active JP6186198B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013148721A JP6186198B2 (ja) 2013-07-17 2013-07-17 学習モデル作成装置、翻訳装置、学習モデル作成方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013148721A JP6186198B2 (ja) 2013-07-17 2013-07-17 学習モデル作成装置、翻訳装置、学習モデル作成方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2015022431A true JP2015022431A (ja) 2015-02-02
JP6186198B2 JP6186198B2 (ja) 2017-08-23

Family

ID=52486845

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013148721A Active JP6186198B2 (ja) 2013-07-17 2013-07-17 学習モデル作成装置、翻訳装置、学習モデル作成方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6186198B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017142757A (ja) * 2016-02-12 2017-08-17 日本電信電話株式会社 情報処理方法、装置、及びプログラム
CN109564591A (zh) * 2016-09-09 2019-04-02 松下知识产权经营株式会社 翻译装置以及翻译方法
JP2019061655A (ja) * 2017-09-25 2019-04-18 三星電子株式会社Samsung Electronics Co.,Ltd. 文章生成方法、装置及びコンピュータプログラム
JP2021099771A (ja) * 2019-12-19 2021-07-01 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド 翻訳方法、装置、電子機器、可読記憶媒体、及びコンピュータープログラム
JP2022511139A (ja) * 2019-10-25 2022-01-31 北京小米智能科技有限公司 情報処理方法、装置および記憶媒体
US11263408B2 (en) 2018-03-13 2022-03-01 Fujitsu Limited Alignment generation device and alignment generation method

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吉崎大輔 他3名: "統計的機械翻訳における未登録語のグループ化による翻訳", 言語処理学会第16回年次大会 発表論文集, JPN6017011759, 8 March 2010 (2010-03-08), JP, pages 653−656頁 *
関拓也 他1名: "統計的機械翻訳における地名の汎化の影響", 言語処理学会第15回年次大会 発表論文集, JPN6017011760, 2 March 2009 (2009-03-02), JP, pages 200−203頁 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017142757A (ja) * 2016-02-12 2017-08-17 日本電信電話株式会社 情報処理方法、装置、及びプログラム
CN109564591A (zh) * 2016-09-09 2019-04-02 松下知识产权经营株式会社 翻译装置以及翻译方法
JP2019061655A (ja) * 2017-09-25 2019-04-18 三星電子株式会社Samsung Electronics Co.,Ltd. 文章生成方法、装置及びコンピュータプログラム
JP7181019B2 (ja) 2017-09-25 2022-11-30 三星電子株式会社 文章生成方法、装置及びコンピュータプログラム
US11263408B2 (en) 2018-03-13 2022-03-01 Fujitsu Limited Alignment generation device and alignment generation method
JP2022511139A (ja) * 2019-10-25 2022-01-31 北京小米智能科技有限公司 情報処理方法、装置および記憶媒体
US11461561B2 (en) 2019-10-25 2022-10-04 Beijing Xiaomi Intelligent Technology Co., Ltd. Method and device for information processing, and storage medium
JP7208968B2 (ja) 2019-10-25 2023-01-19 北京小米智能科技有限公司 情報処理方法、装置および記憶媒体
JP2021099771A (ja) * 2019-12-19 2021-07-01 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド 翻訳方法、装置、電子機器、可読記憶媒体、及びコンピュータープログラム
US11574135B2 (en) 2019-12-19 2023-02-07 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, apparatus, electronic device and readable storage medium for translation

Also Published As

Publication number Publication date
JP6186198B2 (ja) 2017-08-23

Similar Documents

Publication Publication Date Title
CN108287858B (zh) 自然语言的语义提取方法及装置
JP6186198B2 (ja) 学習モデル作成装置、翻訳装置、学習モデル作成方法、及びプログラム
US5895446A (en) Pattern-based translation method and system
Schmaltz et al. Adapting sequence models for sentence correction
CN103970798B (zh) 数据的搜索和匹配
JPH079655B2 (ja) スペルの誤りの検出訂正方法及び装置
JP6543922B2 (ja) インデックス生成プログラム
WO2016095645A1 (zh) 笔画输入方法、装置和系统
CN100454294C (zh) 用于将日文翻译成中文的设备
CN101308512B (zh) 一种基于网页的互译翻译对抽取方法及装置
CN105573990A (zh) 外语句子制作支援装置以及方法
JP5373998B1 (ja) 辞書生成装置、方法、及びプログラム
Alhawiti Adaptive models of Arabic text
CN108345694B (zh) 一种基于主题数据库的文献检索方法及系统
US20130202208A1 (en) Information processing device and information processing method
JP5391867B2 (ja) 翻訳装置及び翻訳プログラム
JP2020106880A (ja) 情報処理装置、モデル作成方法及びプログラム
Bhatti et al. Phonetic-based sindhi spellchecker system using a hybrid model
JP2011227749A (ja) 略語完全語復元装置とその方法と、プログラム
Yahya et al. Arabic text categorization based on Arabic Wikipedia
CN112307235B (zh) 前端页面元素的命名方法、装置及电子设备
Torunoglu-Selamet et al. Exploring spelling correction approaches for turkish
JP5298834B2 (ja) 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置
CN113330430B (zh) 语句结构向量化装置、语句结构向量化方法及记录有语句结构向量化程序的记录介质
JP6361472B2 (ja) 対応情報生成プログラム、対応情報生成装置及び対応情報生成方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160621

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170327

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170404

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170530

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170704

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170731

R150 Certificate of patent or registration of utility model

Ref document number: 6186198

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350