JP6186198B2

JP6186198B2 - 学習モデル作成装置、翻訳装置、学習モデル作成方法、及びプログラム

Info

Publication number: JP6186198B2
Application number: JP2013148721A
Authority: JP
Inventors: 智道高山
Original assignee: NTT Data Corp
Current assignee: NTT Data Corp
Priority date: 2013-07-17
Filing date: 2013-07-17
Publication date: 2017-08-23
Anticipated expiration: 2033-07-17
Also published as: JP2015022431A

Description

本発明は、学習モデル作成装置、翻訳装置、学習モデル作成方法、及びプログラムに関する。

近年、コンピュータにより原言語を目的言語に翻訳する技術として、統計ベース機械翻訳（統計的機械翻訳と呼ばれることもある。以下、統計翻訳という）が広く使用されている。このような統計翻訳では、一般に、原言語文と目的言語文との対になった対訳を大量に用意し、それらを入力に統計的手法を用いて作成された学習モデルに基づき翻訳を行っている。なお、統計翻訳では、一般に、この学習モデルとして翻訳モデルと言語モデルとの２つのモデルが用いられている。ここで、翻訳モデルとは、原言語のフレーズと目的言語のフレーズとの対応を確率により定義したモデルである。また、言語モデルとは、目的言語の言語らしさを定義したモデルである。

特開２０１０−２８２４５３号公報

上述のような統計翻訳では、例えば、新語の追加に対応するためには、その新語を用いた多くのバリエーションの対訳を用意し、学習モデルを再作成する必要がある。さらに、学習モデルを作成するためには、大量の対訳が必要であり、学習モデルの作成には、一般的に長い作成期間を必要とする。このように、上述のような統計翻訳では、新語の追加などの変更に対応するために長い作成期間を必要としていた。

特許文献１には、新語の追加に対応するための期間を短縮するために、原言語の単語と目的言語の単語との対応関係を定義した単語辞書に予め登録されている単語の箇所を変数（記号）に変換した対訳を生成し、生成した対訳に基づいて学習モデルを作成する技術が記載されている。この特許文献１に記載の技術では、変数を用いて特定の単語に依存しない学習モデルを作成することで、学習モデルの再作成を行わずに新語の追加に対応している。また、この特許文献１に記載の技術では、原言語と目的言語とで予め単語の対応関係を記憶する記憶部を備え、翻訳の際には記憶部に記憶されている原言語の単語を変数に置き換えて変数を含む翻訳文を得た後、記憶部を用いて変数を目的言語の単語に戻すことにより原言語の単語の翻訳結果である目的言語の単語を指定することができる。
しかしながら、特許文献１に記載の技術では、例えば、翻訳モデルに誤ったフレーズが大量に作成されることがある。統計翻訳では、翻訳モデルに誤ったフレーズが大量に作成された場合に、正しく目的言語に翻訳することが困難である。そのため、特許文献１に記載の技術では、統計翻訳の品質が低下することがあった。

本発明は、上記問題を解決すべくなされたもので、その目的は、統計翻訳の品質を低下させずに、新語の追加などの変更の対応に要する期間を短縮することができる学習モデル作成装置、翻訳装置、学習モデル作成方法、及びプログラムを提供することにある。

上記問題を解決するために、本発明の一態様は、統計的手法に基づいて機械翻訳のための学習モデルを作成する学習モデル作成装置であって、異なる言語の対応する文の組である対訳文に含まれる前記異なる言語の対応する用語を、用語毎に異なる個別メタ情報に置換する個別メタ情報置換部と、前記個別メタ情報置換部によって置換された前記個別メタ情報を含む前記対訳文に基づいて、前記個別メタ情報を含む前記対訳文を構成する前記異なる言語のフレーズの対であるフレーズ対を含む第１翻訳モデルを作成する翻訳モデル作成部と、前記第１翻訳モデルより、所定の規則を満たすフレーズ対で構成される第２翻訳モデルを作成する翻訳モデル整形部と、前記フレーズ対に含まれる個別メタ情報を、個々の用語を特定しない統合メタ情報に変換した第３翻訳モデルを前記学習モデルとして生成するメタ情報統合部と、を備え、前記翻訳モデル整形部は、前記フレーズ対が有する前記異なる言語のフレーズにおいて前記個別メタ情報の数が異なる場合に、当該フレーズ対を削除対象とし、前記第１翻訳モデルから前記削除対象を削除して前記第２翻訳モデルを生成することを特徴とする学習モデル作成装置である。

また、本発明の一態様は、統計的手法に基づいて機械翻訳のための学習モデルを作成する学習モデル作成装置であって、異なる言語の対応する文の組である対訳文に含まれる前記異なる言語の対応する用語を、用語毎に異なる個別メタ情報に置換する個別メタ情報置換部と、前記個別メタ情報置換部によって置換された前記個別メタ情報を含む前記対訳文に基づいて、前記個別メタ情報を含む前記対訳文を構成する前記異なる言語のフレーズの対であるフレーズ対を含む第１翻訳モデルを作成する翻訳モデル作成部と、前記第１翻訳モデルより、所定の規則を満たすフレーズ対で構成される第２翻訳モデルを作成する翻訳モデル整形部と、前記フレーズ対に含まれる個別メタ情報を、個々の用語を特定しない統合メタ情報に変換した第３翻訳モデルを前記学習モデルとして生成するメタ情報統合部と、を備え、前記翻訳モデル整形部は、前記フレーズ対において少なくとも１つのフレーズが前記個別メタ情報を２個以上有する場合に、当該フレーズ対を削除対象とし、前記第１翻訳モデルから前記削除対象を削除して前記第２翻訳モデルを生成することを特徴とする学習モデル作成装置である。

また、本発明の一態様は、上記の学習モデル作成装置において、前記翻訳モデル整形部は、前記フレーズ対が有する前記異なる言語のフレーズにおいて、前記個別メタ情報の数が等しい場合、且つ、前記個別メタ情報の出現順序が等しい場合に、当該フレーズ対を前記削除対象から除外することを特徴とする。

また、本発明の一態様は、上記の学習モデル作成装置において、前記対訳文を記憶する対訳コーパス記憶部から前記対訳文を取得し、取得した前記対訳文を形態素解析する前処理部を備え、前記個別メタ情報は、当該用語の属性に応じた分類を示す分類情報を含み、且つ、個々の用語を区別可能であり、前記個別メタ情報置換部は、前記異なる言語の対応する用語の組と、前記分類情報とを対応付けて記憶する用語辞書記憶部から、文字列が長い用語の順に用語を取得して、前記前処理部によって形態素解析された前記対訳文を検索し、前記前処理部によって形態素解析された前記対訳文、前記用語の組の双方の用語が含まれる場合に、当該用語に対応する前記分類情報を含み、且つ、個々の用語を区別可能な前記個別メタ情報に、当該用語を変換し、前記翻訳モデル作成部は、前記個別メタ情報を含む前記対訳文に基づいて、前記個別メタ情報を含む前記対訳文を構成する前記異なる言語のフレーズの対であるフレーズ対と、当該フレーズ対の確率情報とを含を含む前記第１翻訳モデルを作成し、前記メタ情報統合部は、前記第２翻訳モデルに含まれる前記個別メタ情報を、前記分類情報を示す前記統合メタ情報に変換した前記第３翻訳モデルを前記学習モデルとして生成することを特徴とする。

また、本発明の一態様は、上記の学習モデル作成装置において、前記学習モデルには、前記第３翻訳モデルと言語モデルとが含まれ、前記異なる言語のいずれか１つの言語の文であって、複数の文を記憶する目的言語コーパス記憶部から取得した前記１つの言語の文に含まれる用語を、当該用語に対応する前記統合メタ情報に置換する統合メタ情報置換部と、前記統合メタ情報置換部によって置換された前記統合メタ情報を含む前記１つの言語の文に基づいて、前記言語モデルを前記学習モデルとして作成する言語モデル作成部とを備えることを特徴とする。

また、本発明の一態様は、前記異なる言語のいずれか１つの言語の文を取得し、取得した前記１つの言語の文に含まれる用語を前記統合メタ情報に置換する翻訳メタ情報置換部と、前記異なる言語の用語を対応付けて記憶する用語辞書記憶部と、上記の学習モデル作成装置によって作成された前記学習モデルに基づいて、前記翻訳メタ情報置換部によって置換された前記統合メタ情報を含む前記１つの言語の文を、前記異なる言語のうち前記取得した１つの言語の文の言語以外の言語の文である翻訳文に翻訳する翻訳処理部と、前記置換された用語を特定する情報と置換結果である統合メタ情報との対応を記憶する復元情報記憶部と、前記翻訳文に含まれる統合メタ情報を、前記復元情報記憶部が記憶する前記用語を特定する情報に基づき特定される、前記翻訳文に含まれる前記統合メタ情報に置換された用語に対応付けて前記用語辞書記憶部に記憶された用語に変換するメタ情報復元部と、を備えることを特徴とする翻訳装置である。
また、本発明の一態様は、統計的手法に基づいて機械翻訳のための学習モデルを作成する学習モデル作成方法であって、個別メタ情報置換部が、異なる言語の対応する文の組である対訳文に含まれる前記異なる言語の対応する用語を、用語毎に異なる個別メタ情報に置換する個別メタ情報置換ステップと、翻訳モデル作成部が、前記個別メタ情報置換部によって置換された前記個別メタ情報を含む前記対訳文に基づいて、前記個別メタ情報を含む前記対訳文を構成する前記異なる言語のフレーズの対であるフレーズ対を含む第１翻訳モデルを作成する翻訳モデル作成ステップと、翻訳モデル整形部が、前記第１翻訳モデルより、所定の規則を満たすフレーズ対で構成される第２翻訳モデルを作成する翻訳モデル整形ステップと、メタ情報統合部が、前記フレーズ対に含まれる個別メタ情報を、個々の用語を特定しない統合メタ情報に変換した第３翻訳モデルを前記学習モデルとして生成するメタ情報統合ステップと、を含み、前記翻訳モデル作成ステップにおいて、前記翻訳モデル整形部が、前記フレーズ対が有する前記異なる言語のフレーズにおいて前記個別メタ情報の数が異なる場合に、当該フレーズ対を削除対象とし、前記第１翻訳モデルから前記削除対象を削除して前記第２翻訳モデルを生成することを特徴とする学習モデル作成である。
また、本発明の一態様は、統計的手法に基づいて機械翻訳のための学習モデルを作成する学習モデル作成方法であって、個別メタ情報置換部が、異なる言語の対応する文の組である対訳文に含まれる前記異なる言語の対応する用語を、用語毎に異なる個別メタ情報に置換する個別メタ情報置換ステップと、翻訳モデル作成部が、前記個別メタ情報置換部によって置換された前記個別メタ情報を含む前記対訳文に基づいて、前記個別メタ情報を含む前記対訳文を構成する前記異なる言語のフレーズの対であるフレーズ対を含む第１翻訳モデルを作成する翻訳モデル作成ステップと、翻訳モデル整形部が、前記第１翻訳モデルより、所定の規則を満たすフレーズ対で構成される第２翻訳モデルを作成する翻訳モデル整形ステップと、メタ情報統合部が、前記フレーズ対に含まれる個別メタ情報を、個々の用語を特定しない統合メタ情報に変換した第３翻訳モデルを前記学習モデルとして生成するメタ情報統合ステップと、を含み、前記翻訳モデル作成ステップにおいて、前記翻訳モデル整形部が、前記フレーズ対において少なくとも１つのフレーズが前記個別メタ情報を２個以上有する場合に、当該フレーズ対を削除対象とし、前記第１翻訳モデルから前記削除対象を削除して前記第２翻訳モデルを生成することを特徴とする学習モデル作成方法である。
また、本発明の一態様は、統計的手法に基づいて機械翻訳のための学習モデルを作成する学習モデル作成装置としてのコンピュータに、個別メタ情報置換部が、異なる言語の対応する文の組である対訳文に含まれる前記異なる言語の対応する用語を、用語毎に異なる個別メタ情報に置換する個別メタ情報置換ステップと、翻訳モデル作成部が、前記個別メタ情報置換部によって置換された前記個別メタ情報を含む前記対訳文に基づいて、前記個別メタ情報を含む前記対訳文を構成する前記異なる言語のフレーズの対であるフレーズ対を含む第１翻訳モデルを作成する翻訳モデル作成ステップと、翻訳モデル整形部が、前記第１翻訳モデルより、所定の規則を満たすフレーズ対で構成される第２翻訳モデルを作成する翻訳モデル整形ステップと、メタ情報統合部が、前記フレーズ対に含まれる個別メタ情報を、個々の用語を特定しない統合メタ情報に変換した第３翻訳モデルを前記学習モデルとして生成するメタ情報統合ステップと、を実行させ、前記翻訳モデル作成ステップにおいて、前記翻訳モデル整形部が、前記フレーズ対が有する前記異なる言語のフレーズにおいて前記個別メタ情報の数が異なる場合に、当該フレーズ対を削除対象とし、前記第１翻訳モデルから前記削除対象を削除して前記第２翻訳モデルを生成する処理を実行させるためのプログラムである。
また、本発明の一態様は、統計的手法に基づいて機械翻訳のための学習モデルを作成する学習モデル作成装置としてのコンピュータに、個別メタ情報置換部が、異なる言語の対応する文の組である対訳文に含まれる前記異なる言語の対応する用語を、用語毎に異なる個別メタ情報に置換する個別メタ情報置換ステップと、翻訳モデル作成部が、前記個別メタ情報置換部によって置換された前記個別メタ情報を含む前記対訳文に基づいて、前記個別メタ情報を含む前記対訳文を構成する前記異なる言語のフレーズの対であるフレーズ対を含む第１翻訳モデルを作成する翻訳モデル作成ステップと、翻訳モデル整形部が、前記第１翻訳モデルより、所定の規則を満たすフレーズ対で構成される第２翻訳モデルを作成する翻訳モデル整形ステップと、メタ情報統合部が、前記フレーズ対に含まれる個別メタ情報を、個々の用語を特定しない統合メタ情報に変換した第３翻訳モデルを前記学習モデルとして生成するメタ情報統合ステップと、を実行させ、前記翻訳モデル作成ステップにおいて、前記翻訳モデル整形部が、前記フレーズ対において少なくとも１つのフレーズが前記個別メタ情報を２個以上有する場合に、当該フレーズ対を削除対象とし、前記第１翻訳モデルから前記削除対象を削除して前記第２翻訳モデルを生成する処理を実行させるためのプログラムである。

本発明によれば、統計翻訳の品質を低下させずに、新語の追加などの変更の対応に要する期間を短縮することができる。

本実施形態による学習モデル作成装置の一例を示すブロック図である。本実施形態における対訳コーパス記憶部のデータ構成の一例を示す構成図である。本実施形態における目的言語コーパス記憶部のデータ構成の一例を示す構成図である。本実施形態における用語辞書記憶部の用語辞書テーブルのデータ構成の一例を示す構成図である。本実施形態における用語辞書記憶部の分類テーブルのデータ構成の一例を示す構成図である。本実施形態における分類置換情報記憶部のデータ構成の一例を示す構成図である。本実施形態における識別置換情報記憶部のデータ構成の一例を示す構成図である。本実施形態における翻訳モデルの作成処理の一例を示すフローチャートである。本実施形態における翻訳モデルの作成処理の一例を説明する説明図である。本実施形態における個別メタ情報の置換処理の一例を説明する説明図である。本実施形態における言語モデルの作成処理の一例を示すフローチャートである。本実施形態による翻訳装置の一例を示すブロック図である。本実施形態における復元情報記憶部のデータ構成の一例を示す構成図である。本実施形態における翻訳装置の翻訳処理の一例を示すフローチャートである。本実施形態における翻訳装置の翻訳処理の一例を説明する説明図である。

以下、本発明の一実施形態による学習モデル作成装置、及び翻訳装置について、図面を参照して説明する。
まず、本実施形態による学習モデル作成装置について、図面を参照して説明する。

［学習モデル作成装置の実施形態］
図１は、本実施形態による学習モデル作成装置１の一例を示すブロック図である。
この図において、学習モデル作成装置１は、記憶部４０と処理部５０を備えている。学習モデル作成装置１は、対訳コーパス記憶部２０に記憶されている対訳文と、目的言語コーパス記憶部３０に記憶されている目的言語文とを入力データとして、統計ベース機械翻訳（以下、統計翻訳という）に使用する学習モデル（翻訳モデル、及び言語モデル）を作成する。すなわち、学習モデル作成装置１は、統計的手法に基づいて機械翻訳のための学習モデルを作成する。

ここで、対訳文とは、原言語文と、この原言語文に対応する目的言語文との組を示し、「対訳コーパス」とは、対訳文の集まりのことである。また、「目的言語コーパス」とは、目的言語文の集まりのことである。
また、原言語文とは、翻訳処理の入力となる言語の文のことであり、原言語（第１言語）とは、翻訳処理の入力となる言語のことである。また、目的言語文とは、翻訳結果となる目的言語の文のことであり、目的言語（第２言語）とは、翻訳結果となる言語のことである。
なお、本実施形態では、原言語（第１言語）が日本語であり、目的言語（第２言語）が英語である場合の一例について説明する。

対訳コーパス記憶部２０は、複数の対訳文を有する対訳コーパスを記憶する。対訳コーパス記憶部２０は、例えば、翻訳処理の入力となる言語の文である原言語文と、原言語文に対応する翻訳結果となる目的言語の文である目的言語文との組を示す対訳文を記憶する。ここで、図２を参照して、対訳コーパス記憶部２０が記憶する対訳コーパスのデータ構成について説明する。
図２は、本実施形態における対訳コーパス記憶部２０のデータ構成の一例を示す構成図である。
この図において、対訳コーパス記憶部２０は、「Ｎｏ．」と、「原言語文」と、「目的言語文」とを対応付けて記憶する。ここで、「Ｎｏ．」は、対訳文の番号（識別情報）を示し、「原言語文」は、原言語の文である日本語文を示し、「目的言語文」は、目的言語の文である英語文を示している。なお、「原言語文」と、「目的言語文」との組が、対訳文に対応する。
例えば、図２に示す例では、対訳コーパス記憶部２０は、「Ｎｏ．」が“１”〜“Ｎ”までの対訳文を記憶しており、「Ｎｏ．」が“１”である対訳文は、「原言語文」（日本語文）が“私は、東京に行く。”であり、この「原言語文」に対応する「目的言語文」（英語文）が、“ＩｇｏｔｏＴｏｋｙｏ．”であることを示している。

目的言語コーパス記憶部３０は、複数の目的言語文（英語文）を記憶する。ここで、図３を参照して、目的言語コーパス記憶部３０が記憶する目的言語コーパスのデータ構成について説明する。
図３は、本実施形態における目的言語コーパス記憶部３０のデータ構成の一例を示す構成図である。
この図において、目的言語コーパス記憶部３０は、「Ｎｏ．」と、「目的言語文」とを対応付けて記憶する。ここで、「Ｎｏ．」は、「目的言語文」の番号（識別情報）を示し、「目的言語文」は、目的言語の文である英語文を示している。
例えば、図３に示す例では、目的言語コーパス記憶部３０は、「Ｎｏ．」が“１”〜“Ｍ”までの「目的言語文」を記憶しており、「Ｎｏ．」が“１”である「目的言語文」（英語文）が、“Ｔｈｉｓｉｓａｐｅｎ．”であることを示している。

記憶部４０は、学習モデル作成装置１が学習モデルを作成する際に、使用する各種情報を記憶する。記憶部４０は、用語辞書記憶部４１、メタ情報記憶部４２、及び整形規則記憶部４３を備えている。また、メタ情報記憶部４２は、分類置換情報記憶部４２１と、識別置換情報記憶部４２２とを備えている。

用語辞書記憶部４１は、用語辞書の情報を示す用語辞書情報を記憶する。用語辞書記憶部４１は、用語辞書テーブルとして、原言語の用語と目的言語の用語との組と、用語の品詞と、用語の分類を示す識別情報（分類ＩＤ）とを対応付けて記憶する。例えば、用語辞書記憶部４１は、図４に示すように、用語辞書テーブルＴ１として、「Ｎｏ．」、「原言語の用語」、「目的言語の用語」、「品詞」、及び「分類（分類ＩＤ）」を対応付けて記憶している。

図４は、本実施形態における用語辞書記憶部４１の用語辞書テーブルＴ１のデータ構成の一例を示す構成図である。
この図において、「Ｎｏ．」は、用語辞書情報の番号（識別情報）を示し、「原言語の用語」は、原言語（日本語）の用語を示し、「目的言語の用語」は、「原言語の用語」に対応する目的言語（英語）の用語を示している。また、「品詞」は、用語の品詞の種類を示し、「分類（分類ＩＤ）」は、用語の属性に応じた分類を示す分類情報（識別情報）を示している。ここで、「原言語の用語」及び「目的言語の用語」は、いずれも前処理済みである。「前処理済み」の「原言語の用語」及び「目的言語の用語」とは、各用語ともに正規化され、単語分かち書きされている状態の「原言語の用語」及び「目的言語の用語」を示す。

例えば、図４に示す例では、用語辞書テーブルＴ１は、「Ｎｏ．」が“１”〜“Ｘ”までの用語辞書情報を記憶しており、「Ｎｏ．」が“１”である「原言語の用語」（日本語の用語）が、“要件定義書”であり、「目的言語の用語」（英語の用語）が“ｒｅｑｕｉｒｅｍｅｎｔｓｄｅｆｉｎｉｔｉｏｎｄｏｃｕｍｅｎｔ”であることを示している。また、「品詞」が“名詞”であり、「分類（分類ＩＤ）」が“文書名（５４）”であることを示している。

また、用語辞書記憶部４１は、図５に示すように、分類ＩＤを定義する分類定義情報を記憶する分類テーブルＴ２を有している。用語辞書記憶部４１は、図５に示すように、「分類」と「分類ＩＤ」とを対応付けて、分類テーブルＴ２として記憶する。

図５は、本実施形態における用語辞書記憶部４１の分類テーブルＴ２のデータ構成の一例を示す構成図である。
この図において、「分類」は、用語の分類を示し、「分類ＩＤ」は、用語の分類の識別情報を示している。
例えば、図５に示す例では、分類テーブルＴ２は、「分類」が“人名”であり、この分類に対応する「分類ＩＤ」が“０１”であることを示し、「分類」が“文書名” であり、この分類に対応する「分類ＩＤ」が“５４”であることを示している。

メタ情報記憶部４２は、学習モデル作成装置１で用いるメタ情報のバリエーションを記憶する。ここで、「メタ情報」は、例えば、メタ情報であることを示す文字列（例：ＺＺ）を有し、分類置換ＩＤと、識別置換ＩＤとの２種類がある。分類置換ＩＤは、用語（単語）の分類を示す分類情報であり、以下、「統合メタ情報」ということがある。また、識別置換ＩＤは、用語（単語）の分類に加えて１つの文の中で用語（単語）を一意に特定可能な情報を含む識別置換情報であり、以下、個別メタ情報（又は、単に、メタ情報）ということがある。すなわち、識別置換ＩＤは、用語の属性に応じた分類を示す分類情報を含み、且つ、個々の用語を区別可能なメタ情報である。なお、ここでの用語とは、１つの単語であってもよいし、複数の単語を組み合わせたものであってもよい。
例えば、分類置換ＩＤ（統合メタ情報）は、“ＺＺ”の直後に分類を示す数字２桁を追加した情報であり、識別置換ＩＤ（個別メタ情報）は、分類置換ＩＤ（統合メタ情報）の直後に用語を区別するための数字２桁（識別ＩＤ）を追加した情報である。

なお、分類置換ＩＤ（統合メタ情報）及び識別置換ＩＤ（個別メタ情報）は、単語分割後に１つの単語として扱われる必要がある。例えば、単語分割器によっては、“ＺＺ０１”を“ＺＺ”と“０１”とに分割してしまう場合がある。このような場合には、例えば、単語分割器の単語分割辞書に登録して強制的に１つの単語になるようにしてもよいし、もしくは、“ＺＺ”を“９９９９”等に変えて単語分割を実行してもよい。例えば、分類置換ＩＤ（統合メタ情報）及び識別置換ＩＤ（個別メタ情報）の先頭を“９９９９”等にすれば、通常の単語分割器であれば１つの単語として扱われる。

また、メタ情報記憶部４２は、分類置換ＩＤの対訳を記憶する分類置換情報記憶部４２１と、識別置換ＩＤの対訳を記憶する識別置換情報記憶部４２２とを備えている。
分類置換情報記憶部４２１は、図６に示すように、原言語の分類置換ＩＤと、目的言語の分類置換ＩＤとを対応づけて記憶する。

図６は、本実施形態における分類置換情報記憶部４２１のデータ構成の一例を示す構成図である。
この図において、「Ｎｏ．」は、分類置換ＩＤの対訳の番号（識別情報）を示し、「原言語」は、原言語（日本語）の分類置換ＩＤを示し、「目的言語」は、「原言語」に対応する目的言語（英語）の分類置換ＩＤを示している。
例えば、図６に示す例では、分類置換情報記憶部４２１は、「Ｎｏ．」が“１”〜“Ｙ”までの分類置換ＩＤの対訳を記憶しており、「Ｎｏ．」が“１”である「原言語」（日本語の分類置換ＩＤ）が、“ＺＺ０１”であり、「目的言語」（英語の分類置換ＩＤ）が“ＺＺ０１”であることを示している。

識別置換情報記憶部４２２は、図７に示すように、原言語の識別置換ＩＤと、目的言語の識別置換ＩＤとを対応づけて記憶する。

図７は、本実施形態における識別置換情報記憶部４２２のデータ構成の一例を示す構成図である。
この図において、「Ｎｏ．」は、識別置換ＩＤの対訳の番号（識別情報）を示し、「原言語」は、原言語（日本語）の識別置換ＩＤを示し、「目的言語」は、「原言語」に対応する目的言語（英語）の識別置換ＩＤを示している。
例えば、図７に示す例では、識別置換情報記憶部４２２は、「Ｎｏ．」が“１”〜“ＹＹ”までの識別置換ＩＤの対訳を記憶しており、「Ｎｏ．」が“１”である「原言語」（日本語の識別置換ＩＤ）が、“ＺＺ０１０１”であり、「目的言語」（英語の識別置換ＩＤ）が“ＺＺ０１０１”であることを示している。
なお、図７に示す例では、分類置換ＩＤが“ＺＺ０１”である場合の例を示しているが、識別置換情報記憶部４２２には、各分類置換ＩＤについて同様の情報が記憶されている。

再び、図１に戻り、整形規則記憶部４３は、翻訳モデルの中に含まれるフレーズ対を取捨選択するための規則を記憶している。なお、整形規則記憶部４３が記憶するフレーズ対を取捨選択するための規則の詳細については、後述する。なお、フレーズとは、形態素の連続列である。

処理部５０は、例えば、ＣＰＵ（Central Processing Unit）などを含むプロセッサであり、学習モデル作成装置１の各種処理を実行する。
処理部５０は、前処理部５１、個別メタ情報置換部５２、翻訳モデル作成部５３、フレーズ整形部５４、メタ情報統合部５５、統合メタ情報置換部５６、及び言語モデル作成部５７を備えている。

前処理部５１は、正規化処理と単語分かち書き処理との２つの処理を実行する。前処理部５１は、正規化処理（第１の処理）として、例えば、大文字／小文字、特殊記号等を統一する処理を実行する。また、前処理部５１は、単語分かち書き処理（第２の処理）として、例えば、入力文を形態素に分けて間にスペースを入れて出力する。すなわち、前処理部５１は、例えば、対訳コーパス記憶部２０から取得した対訳文が有する原言語文及び目的言語文と、目的言語コーパス記憶部３０から取得した目的言語文とを形態素解析し、形態素解析結果に基づいて、形態素に分けて間にスペースを入れて出力する。なお、前処理部５１は、正規化処理から単語分かち書き処理の順に実行されることが望ましい。

ここで、前処理部５１は、対訳コーパス記憶部２０から対訳文を取得し、取得した対訳文を形態素解析するとともに、目的言語コーパス記憶部３０から目的言語文を取得し、取得した目的言語文を形態素解析する。ここで、「形態素解析」とは、文を言語で意味を持つ最小単位である形態素の列に分割し、それぞれの品詞を判別する処理のことである。
前処理部５１は、形態素解析の結果として、文の各単語に対して、品詞と、出現位置を示す情報（文頭から数えて、何文字目から何文字目までを占めるのかを示す情報）とを付与する。
前処理部５１は、単語分かち書き処理した対訳文を個別メタ情報置換部５２に出力する。また、前処理部５１は、単語分かち書き処理した目的言語文を統合メタ情報置換部５６に出力する。

個別メタ情報置換部５２は、前処理部５１より形態素解析された対訳文を受け取り、対訳文の中で用語辞書記憶部４１に記憶されている用語を個別メタ情報（識別置換ＩＤ）に変換する。すなわち、個別メタ情報置換部５２は、対訳コーパス記憶部２０から取得した対訳文に含まれる用語を、用語の属性に応じた分類を示す分類情報を含み、且つ、個々の用語を区別可能なメタ情報に置換する。
例えば、個別メタ情報置換部５２は、用語辞書記憶部４１から、文字列が長い用語の順に検索して、前処理部５１によって形態素解析された対訳文に含まれる用語が抽出された場合に、抽出された当該用語を、当該用語に対応する分類情報を含む個別メタ情報（識別置換ＩＤ）に置換する。
具体的に、個別メタ情報置換部５２は、後述する図９（ａ）に示すような対訳文を、図９（ｂ）に示すような、個別メタ情報（識別置換ＩＤ）を含む対訳文に変換する。このように、個別メタ情報置換部５２は、異なる言語の対応する文の組である対訳文に含まれる異なる言語の対応する用語を、用語毎に異なる個別メタ情報に置換する。

翻訳モデル作成部５３は、個別メタ情報置換部５２によって置換されたメタ情報を含む対訳文と、メタ情報記憶部に記憶された識別置換ＩＤとに基づいて、原言語のフレーズと目的言語のフレーズとのフレーズ対と、当該フレーズ対の確率情報とを含む翻訳モデル（第１翻訳モデル）を作成する。すなわち、翻訳モデル作成部５３は、用語辞書記憶部４１に記憶された単語が個別メタ情報に置換された対訳文と、メタ情報記憶部４２に記憶されたメタ情報の対応関係を示す情報とを学習の入力として、既存の統計的手法に基づいて学習を行い、翻訳モデル（第１翻訳モデル）を出力する。ここで、翻訳モデルは、原言語のフレーズと目的言語のフレーズと、その対応づけの確率が対応づけられた情報である。なお、メタ情報記憶部４２に記憶されたメタ情報の対応関係を示す情報を学習の入力とすることにより、学習に用いる対訳文に含まれるメタ情報の対応関係を学習することができる。例えば、分類置換ＩＤ、識別置換ＩＤは原言語と目的言語との間で変化しないこととする場合、使用する可能性のある全ての置換ＩＤについて、原言語での置換ＩＤ“ＺＺ０１０１”は目的言語での置換ＩＤ“ＺＺ０１０１”に対応する、という情報を学習の入力とする。なお、原言語のフレーズや目的言語のフレーズの中には、メタ情報が含まれることもある。
このように、翻訳モデル作成部５３は、個別メタ情報置換部５２によって置換された個別メタ情報（識別置換ＩＤ）を含む対訳文に基づいて、個別メタ情報（識別置換ＩＤ）を含む対訳文を構成する異なる言語のフレーズの対であるフレーズ対を含む翻訳モデル（第１翻訳モデル）を作成する。

フレーズ整形部５４（翻訳モデル整形部）は、翻訳モデル作成部５３によって作成された翻訳モデル（第１翻訳モデル）が有するフレーズ対を、所定の規則に基づいて取捨選択して、翻訳モデルを整形し、整形した翻訳モデルである整形翻訳モデル（第２翻訳モデル）を出力する。すなわち、フレーズ整形部５４は、翻訳モデル（第１翻訳モデル）より、所定の規則を満たすフレーズ対で構成される整形翻訳モデル（第２翻訳モデル）を作成する。翻訳モデル整形部と、フレーズ整形部５４は、整形規則記憶部４３に予め記憶されている規則に基づいて、翻訳モデル作成部５３によって作成された翻訳モデル（第１翻訳モデル）が有するフレーズ対を取捨選択する。

ここで、整形規則記憶部４３が記憶するフレーズ対を取捨選択するための規則は、以下である。
［規則１］
フレーズ対が有する原言語のフレーズと目的言語のフレーズとにおいてメタ情報の数が異なる場合に、当該フレーズ対を削除対象とする。すなわち、原言語と目的言語とが対応付けられたフレーズ対で、個別メタ情報（識別置換ＩＤ）の数の異なるもの（つまり、対応付けられた原言語と目的言語とのフレーズそれぞれに含まれる個別メタ情報の数が異なるもの）は、削除対象とする。
フレーズ整形部５４は、整形規則記憶部４３が記憶するこの［規則１］に基づいて、フレーズ対が有する原言語のフレーズと目的言語のフレーズとにおいてメタ情報の数が異なる場合に、当該フレーズ対を削除対象とし、翻訳モデルから削除対象を削除して整形翻訳モデルを生成する。

［規則２］
フレーズ対が有する原言語のフレーズと目的言語のフレーズとにおいて、フレーズ対がメタ情報を２個以上有するフレーズを含む場合（つまり、対応付けられた原言語と目的言語とのフレーズの、少なくとも１つのフレーズに含まれるメタ情報の数が２個以上の場合）に、当該フレーズ対を削除対象とする。すなわち、原言語と目的言語とが対応付けられたフレーズ対において、１つのフレーズが、個別メタ情報（識別置換ＩＤ）を２個以上含むものは、削除対象とする。
フレーズ整形部５４は、整形規則記憶部４３が記憶するこの［規則２］に基づいて、フレーズ対が有する原言語のフレーズと目的言語のフレーズとにおいて、１つのフレーズがメタ情報を２個以上有するフレーズを含む場合に、当該フレーズ対を削除対象とし、翻訳モデルから削除対象を削除して整形翻訳モデルを生成する。

［規則３］
フレーズ対が有する原言語のフレーズと目的言語のフレーズとにおいて、メタ情報の数が等しい場合（つまり、対応付けられた原言語と目的言語のフレーズそれぞれに含まれる個別メタ情報の数が同じ場合）、且つ、メタ情報の出現順序が等しい場合に、当該フレーズ対を削除対象から除外する（つまり、削除しない）。すなわち、原言語と目的言語とが対応付けられたフレーズ対で、対応する個別メタ情報（識別置換ＩＤ）の出現順序が等しいものを削除対象から除外する。
フレーズ整形部５４は、整形規則記憶部４３が記憶するこの［規則３］に基づいて、フレーズ対が有する原言語のフレーズと目的言語のフレーズとにおいて、メタ情報の数が等しい場合、且つ、メタ情報の出現順序が等しい場合に、当該フレーズ対を削除対象から除外する。

フレーズ整形部５４は、上述の［規則１］〜［規則３］に基づいて、翻訳モデル作成部５３によって作成された翻訳モデルが有するフレーズ対を、取捨選択することにより、以下に示すような翻訳誤りを生じさせる可能性のあるフレーズ対を予め削除する処理を行う。

（１）原言語と目的言語とで個別メタ情報（識別置換ＩＤ）の個数の異なるフレーズ対
このフレーズ対は、翻訳モデル作成部５３によって誤って抽出されたフレーズ対であり、このフレーズ対を含んだ翻訳モデルに基づいて統計処理が行われた場合、原言語と目的言語との間で、個別メタ情報（識別置換ＩＤ）の数が異なる翻訳がされることになる。

（２）原言語と目的言語とで個別メタ情報（識別置換ＩＤ）の出現順序が異なるフレーズ対
このフレーズ対は、同一フレーズ内に同じ分類の辞書登録用語が複数出現する場合で、且つ、語順が原言語と目的言語との間で入れ替わる場合である。
原言語と目的言語とで対応する用語の語順が異なるような文対を学習した場合、第１翻訳モデルにて高い出現確率値が付与されたフレーズ対の中には、原言語と目的言語との間で語順が入れ替わるようなフレーズ対が多数含まれることになる。例えば、個別メタ情報（識別置換ＩＤ）の形式では（つまり、各用語を個別に特定できる情報が含まれた状態では）、このフレーズ対を用いて翻訳を行う場合には正しい翻訳結果を得ることができる。

ところが、第１翻訳モデルを翻訳に用いた場合、同一の用語であっても、学習時の個別メタ情報（識別置換ＩＤ）と翻訳する際の個別メタ情報（識別置換ＩＤ）とが一致しなければ、学習したフレーズを翻訳に用いることができない。この問題は、辞書用語を含む対訳文を、現実的に出現しうる全ての個別メタ情報（識別置換ＩＤ）に対応した複数の対訳文に変換し、それらを学習対象とすることで回避できる。このようなことが実行された場合に、個別メタ情報のバリエーションに応じたフレーズ対が自動作成され、学習した際と翻訳した際との個別メタ情報の違いを気にせずに正しい翻訳ができるようになる。しかしながら、この場合、１つの対訳文から複数の対訳文が生成されるということを示し、例えば、ある対訳文が辞書用語を１語含み、出現しうる個別メタ情報の数、つまり同一分類の辞書用語が１文内に出現しうる最大値を仮に１０個と設定すると、１つの対訳文から１０個の対訳文対が生成されることになる。但し、これは、以下で詳細に述べるように、辞書用語が同一文内に１語のみしか存在しない場合の例であり、複数ある場合に必要な対訳文数はその数に応じてさらに爆発的に増える。

このように、辞書用語を含む対訳文を、現実的に出現しうる全ての個別メタ情報（識別置換ＩＤ）に対応した複数の対訳文に変換した場合には、個別メタ情報のバリエーションごとにフレーズ対が作成されるために翻訳モデルサイズが膨大となる。そのため、この場合、翻訳モデル作成に用いる入力データが増えて、翻訳モデル作成のための学習に要する時間が長くなるとともに、翻訳モデルに含まれるフレーズ対が翻訳で利用される確率が低下する問題が生じる。つまり、学習結果が、スパース（疎密な情報）となるという問題が生じる。

特に、翻訳モデルサイズが膨大となる問題が顕著であり、１つの対訳文中に複数の辞書用語が存在する場合、仮に全ての辞書用語が同一分類の用語であったとしても、各々が取りうる個別メタ情報同士には、同一の識別ＩＤは用いることができないということ以外に何らの制限もないため、容易に組み合わせ爆発を起こすことが考えられる。
例えば、１つの辞書用語が取りうる個別メタ情報の種類数をＮ、ある対訳文中に辞書用語がＭ語存在し、これらが全て同一の用語分類である場合を考える。この場合、当該対訳文の辞書用語部分を出現しうる全てのバリエーションの個別メタ情報に変換した対訳文を作成するには、Ｐ(Ｎ，Ｍ)文の対訳を生成する必要があることになる。仮に、Ｎ＝１０、及びＭ＝４の場合を考えると、１つの対訳文から約５０００文の対訳文を生成する必要が生じ、現実的とはいえない。なお、ここでは、辞書用語が全て同一の分類である場合のみを考えたが、複数分類の用語がある場合は、異なる用語分類の用語においては、「同一の識別ＩＤは用いることができない」という制限すら外れるため、さらに対訳文の組み合わせ数は増大する。

この問題を回避するために、本実施形態では、フレーズ対に含まれる個別メタ情報の識別ＩＤを削除し、個別メタ情報を統合メタ情報に変換して翻訳に用いる。個別メタ情報を統合メタ情報に変換すると、フレーズ対の各フレーズに複数のメタ情報が含まれる場合、原言語のフレーズの複数のメタ情報と、目的言語のフレーズの複数のメタ情報との対応づけを示す情報が失われてしまう。
例えば、原言語のフレーズの中に同じ分類の個別メタ情報が２つ含まれ、目的言語のフレーズの中にも同じ分類の個別メタ情報が２つ含まれる場合を考える。このような場合、個別メタ情報を統合メタ情報に変換すると、原言語のフレーズの２つの統合メタ情報と目的言語の２つの統合メタ情報を対応付ける組み合わせが２種類生じ、統合メタ情報ではいずれの組み合わせが正しいかを判断することができなくなる。

例えば、“メタ情報の順序は入れ替わらない”といった規則を予め付与することにより、
複数の統合メタ情報を対応づけることはできる。しかし、この規則を用いて複数の統合メタ情報を含むフレーズを用いて翻訳を実施した場合、正しくは語順が入れ替わる文が翻訳対象として入力されると、語順が入れ替わらない翻訳（つまり、誤った翻訳）がされることになる。つまり、この（２）に示すフレーズ対を含んだ翻訳モデルに基づいて統計処理が行われた場合、語順が入れ替わるべき所で、語順が入れ替わらない翻訳がされることになる。

ここで、例えば、フレーズ整形部５４が、［規則２］によって図９（ｃ）から図９（ｄ）において削除している“ＺＺ０１０１にＺＺ０１０２をあげた。”と“ｇａｖｅＺＺ０１０２ｔｏＺＺ０１０１”とのフレーズ対を残していた場合を考える。ここで用語辞書には、“彼”⇔“ｈｉｍ”及び“本”⇔“ｂｏｏｋｓ”が登録されているとする。この場合、メタ情報統合部５５によって、このフレーズ対は、“ＺＺ０１にＺＺ０１をあげた。”と“ｇａｖｅＺＺ０１ｔｏＺＺ０１”とに変換される。この変換されたフレーズ対を用いて、“私は彼に本をあげた。”という文を翻訳した場合、前処理及び分類置換ＩＤに置換が実行され、“私はＺＺ０１０１にＺＺ０１０２をあげた。”という文に変換される。この分類置換ＩＤに置換された文を翻訳すると、“ＩｇａｖｅＺＺ０１ｔｏＺＺ０１．”を経て、“Ｉｇａｖｅｈｉｍｔｏｂｏｏｋｓ．”と誤った翻訳がされてしまう。これは、識別置換ＩＤから分類置換ＩＤに変換されることにより、語順が入れ替わることの情報が失われてしまうためである。
本実施形態の学習モデル作成装置１は、このような誤った翻訳がされる可能性のあるフレーズ対を予め削除している。

このように、本実施形態における学習モデル作成装置１は、フレーズ整形部５４によるフレーズ対の取捨選択処理を行うことにより、上述の（１）及び（２）に示す誤翻訳（翻訳誤り）を低減することができる。

メタ情報統合部５５は、フレーズ整形部５４によって整形された整形翻訳モデルに含まれるメタ情報を、分類情報を示す統合メタ情報（分類置換ＩＤ）に変換した統合翻訳モデル（第３翻訳モデル）を学習モデルとして生成する。すなわち、メタ情報統合部５５は、フレーズ整形部５４によって整形された整形翻訳モデルに含まれる個別メタ情報（識別置換ＩＤ）を全て抽出し、抽出した個別メタ情報（識別置換ＩＤ）の識別ＩＤ部分（用語（単語）を区別するための数字２桁の部分）を削除して分類置換ＩＤに変換する処理を行う。
メタ情報統合部５５は、例えば、個別メタ情報として“ＺＺ０１０１”及び“ＺＺ０１０２”が抽出された場合に、それぞれの下位２桁の識別ＩＤ部分を削除し、“ＺＺ０１”（分類置換ＩＤ）に変換する。

ここで、翻訳モデルの全フレーズ対について個別メタ情報を統合メタ情報に変換する上記の処理を実施すると、同一のフレーズ対が複数出現する可能性がある。
以下に１つのフレーズ対に２種類の確率値が付与されている場合の例を用いて説明する。
例えば、個別メタ情報を統合メタ情報に置き換える前には、下記のような３つのフレーズ対がある場合を想定する。
“ＺＺ５４０１をＺＺ５４０２”⇔“ＺＺ５４０１ｔｏＺＺ５４０２”：確率値ＰＦ１、ＰＧ１
“ＺＺ５４０５をＺＺ５４０６”⇔“ＺＺ５４０５ｔｏＺＺ５４０６”：確率値ＰＦ２、ＰＧ２
“ＺＺ５４０９をＺＺ５４１０”⇔“ＺＺ５４０９ｔｏＺＺ５４１０”：確率値ＰＦ３、ＰＧ３
これらのフレーズ対の個別メタ情報を統合メタ情報へ変換すると、
“ＺＺ５４をＺＺ５４”⇔“ＺＺ５４ｔｏＺＺ５４”：確率値ＰＦ１、ＰＧ１
“ＺＺ５４をＺＺ５４”⇔“ＺＺ５４ｔｏＺＺ５４”：確率値ＰＦ２、ＰＧ２
“ＺＺ５４をＺＺ５４”⇔“ＺＺ５４ｔｏＺＺ５４”：確率値ＰＦ３、ＰＧ３
という、フレーズ対の内容は同一だが、付与されている確率値の異なるフレーズ対が３つ出現する。

上記の場合、本来、フレーズ対“ＺＺ５４をＺＺ５４”⇔“ＺＺ５４ｔｏＺＺ５４”に対して付与されるべき確率値が、複数のフレーズ対に分散した状態となる。そのため、これらのフレーズ対をそのまま残して統合翻訳モデルを作成すると、翻訳の際には分散したフレーズ対の中で高い確率値を示すフレーズ対しか用いられないため、以下の問題が生じる。
（１）フレーズ対に対して付与される確率値が低くなるため、翻訳結果がこのフレーズ対が用いられる確率が本来あるべき確率よりも下がる。つまり、翻訳結果の際に用いられる確率が本来あるべき確率値よりも下がるため、翻訳結果の精度が下がるという問題が生じる。
（２）学習結果の中に、翻訳で用いられないフレーズ対が多く発生する。つまり、記憶部に不要なフレーズ対が記憶されてしまうという問題が生じる。
これらの問題を解消するために、メタ情報統合部５５は「フレーズ対の内容は同一だが、付与されている確率値の異なるフレーズ対」を１つのフレーズ対として統合するフレーズ対のユニーク処理を実施する。

フレーズ対を統合する方法としては、統合前の各フレーズ対に付与された確率値の和を統合後のフレーズ対の確率値とする。１つのフレーズ対には複数種類の確率値が付与されることが一般的であるが、統合後の確率値は、その種類ごとに和をとったものとすればよい。
上記３つのフレーズ対の例では、メタ情報統合部５５は、確率値のみが異なる３つのフレーズ対を“ＺＺ５４をＺＺ５４”⇔“ＺＺ５４ｔｏＺＺ５４”という１つのフレーズ対に統合し、確率値を統合前の確率値の和、すなわち、（ＰＦ１＋ＰＦ２＋ＰＦ３）、（ＰＧ１＋ＰＧ２＋ＰＧ３）により再定義する。つまり、上記の３つのフレーズ対は、下記の１つのフレーズ対へ統合される。
“ＺＺ５４をＺＺ５４”⇔“ＺＺ５４ｔｏＺＺ５４”：確率値（ＰＦ１＋ＰＦ２＋ＰＦ３）、（ＰＧ１＋ＰＧ２＋ＰＧ３）
メタ情報統合部５５は、上記のように重複する全てのフレーズ対に対して、フレーズ対を統合するユニーク処理を実施した後、生成したモデル（第３翻訳モデル）を学習モデルとして出力する。

統合メタ情報置換部５６は、目的言語コーパス記憶部３０から取得した目的言語文に含まれる用語（単語）を、当該用語に対応する統合メタ情報（分類置換ＩＤ）に置換する。すなわち、統合メタ情報置換部５６は、前処理部５１から形態素解析された目的言語文を取得し、目的言語文の中で用語辞書記憶部４１に記憶されている用語（単語）を統合メタ情報（分類置換ＩＤ）に置き換える。

言語モデル作成部５７は、統合メタ情報置換部５６によって置換された統合メタ情報（分類置換ＩＤ）を含む目的言語文に基づいて、言語モデルを学習モデルとして作成する。すなわち、言語モデル作成部５７は、用語辞書記憶部４１に登録された用語（単語）を統合メタ情報（分類置換ＩＤ）に置き換えた目的言語文を入力として、既存の統計的手法に基づいて学習を行い、言語モデルを作成する。例えば、例えば、ｎグラム形式の言語モデルを学習結果として出力する。

次に、本実施形態における学習モデル作成装置１の動作について説明する。
ここでは、まず、図８及び図９を参照して、本実施形態における翻訳モデルの作成処理の一例について説明する。

＜翻訳モデルの作成処理＞
図８は、本実施形態における翻訳モデルの作成処理の一例を示すフローチャートである。また、図９は、本実施形態における翻訳モデルの作成処理の一例を説明する説明図である
図８において、まず、学習モデル作成装置１の処理部５０は、対訳文を取得する（ステップＳ１０１）。すなわち、処理部５０の前処理部５１は、対訳コーパス記憶部２０から対訳文を取得する。

次に、前処理部５１は、対訳文を形態素解析する（ステップＳ１０２）。前処理部５１は、対訳コーパス記憶部２０から取得した対訳文を、言語で意味を持つ最小単位である形態素の列に分割し、それぞれの品詞を判別する処理を行う。前処理部５１は、図９（ａ）に示すような、形態素解析した対訳文を個別メタ情報置換部５２に出力する。

次に、処理部５０は、対訳文のうち、用語辞書に存在する用語対を識別置換ＩＤに置換する（ステップＳ１０３）。すなわち、処理部５０の個別メタ情報置換部５２は、前処理部５１より形態素解析された対訳文を受け取り、対訳文の中で用語辞書記憶部４１に記憶されている用語を識別置換ＩＤに変換する。
例えば、個別メタ情報置換部５２は、図９（ａ）に示すような対訳文を、図９（ｂ）に示すような、個別メタ情報（識別置換ＩＤ）を含む対訳文に変換する。図９に示す例では、対訳文において、“彼”⇔“ｈｉｍ”、及び“本”⇔“ｂｏｏｋｓ”が、用語辞書記憶部４１に存在している。そのため、個別メタ情報置換部５２は、“彼”及び“ｈｉｍ”を識別置換ＩＤ“ＺＺ０１０１”に変換し、“本”及び“ｂｏｏｋｓ”を識別置換ＩＤ“ＺＺ０１０２”に変換する。
なお、個別メタ情報置換部５２による個別メタ情報の置換処理の詳細については、後述する。

次に、処理部５０の翻訳モデル作成部５３は、翻訳モデルを作成する（ステップＳ１０４）。すなわち、翻訳モデル作成部５３は、個別メタ情報置換部５２によって置換された識別置換ＩＤを含む対訳文と、メタ情報記憶部４２に記憶されたメタ情報の対応関係を示す情報とを学習の入力として、既存の統計的手法に基づいて学習を行い、翻訳モデルを出力する。なお、作成された翻訳モデルには、例えば、図９（ｃ）に示すようなフレーズ対が含まれている。

次に、処理部５０のフレーズ整形部５４は、翻訳モデルが有するフレーズ対を取捨選択して、翻訳モデルを整形する（ステップＳ１０５）。すなわち、フレーズ整形部５４は、整形規則記憶部４３に記憶されている［規則１］〜［規則３］に基づいて、フレーズ対を取捨選択して、翻訳モデルを整形し、整形した翻訳モデルである整形翻訳モデル（第２翻訳モデル）を出力する。フレーズ整形部５４は、例えば、図９（ｄ）に示すようなフレーズ対を残して整形した整形翻訳モデルを生成する。なお、図示していないが、各フレーズ対には、そのフレーズ対の出現確率が付与されている。

次に、処理部５０のメタ情報統合部５５は、翻訳モデルの識別置換ＩＤを分類置換ＩＤに変換する（ステップＳ１０６）。すなわち、メタ情報統合部５５は、フレーズ整形部５４によって整形された整形翻訳モデルに含まれる識別置換ＩＤを全て抽出し、図９（ｅ）に示すように、抽出した識別置換ＩＤの識別ＩＤ部分（用語（単語）を区別するための数字２桁の部分）を削除した分類置換ＩＤに変換する。メタ情報統合部５５は、分類置換ＩＤに変換した統合翻訳モデル（第３翻訳モデル）を学習モデルとして出力し、処理を終了する。

なお、図９（ｃ）に示す例では、フレーズ対“あげた”⇔“ｔｏＺＺ０１０１”は、原言語のフレーズの“あげた”に含まれる個別メタ情報の個数（０個）と、目的言語のフレーズの“ｔｏＺＺ０１０１”に含まれる個別メタ情報の個数（１個）が異なるため、上述の［規則１］により削除対象となる。
また、フレーズ対“ＺＺ０１０１にＺＺ０１０２をあげ”⇔“ｇａｖｅＺＺ０１０２ｔｏ”についても、原言語のフレーズに含まれる個別メタ情報の個数（２個）が２個以上であり、且つ、原言語のフレーズに含まれる個別メタ情報の個数と目的言語のフレーズに含まれる個別メタ情報の個数（１個）とが異なるため、上述の［規則１］と［規則２］との双方により削除対象となる。
上記２つのフレーズ対は、［規則３］による削除対象からの除外規則には該当しないため、削除される（第２翻訳モデルには含まれない）。

また、上記の他にも、たとえば“ＺＺ０１０１にＺＺ０１０２をあげ”⇔“ｇａｖｅＺＺ０１０２ｔｏＺＺ０１０１”というフレーズ対が第１翻訳モデルに含まれる場合、上述の［規則１］には該当しないが、［規則２］には該当するために削除対象となる。この場合、原言語のフレーズと目的言語のフレーズとで個別メタ情報の出現順序が異なるため（原言語では“ＺＺ０１０１”の次に“ＺＺ０１０２”が出現し、目的言語では“ＺＺ０１０２”の次に“ＺＺ０１０１”が出現するため）、［規則３］には該当せず、このフレーズ対は削除される。

また、例えば、分類ＩＤが“００”の単語として、“りんご”⇔“ａｐｐｌｅｓ”、及び“オレンジ”⇔“ｏｒａｎｇｅｓ”が辞書登録されている場合、例文の“私は彼にりんごとオレンジをあげた。”⇔“ｉｇａｖｅａｐｐｌｅｓａｎｄｏｒａｎｇｅｓｔｏｈｉｍ．”という対訳は、“私は彼にＺＺ０００１とＺＺ０００２をあげた。”⇔“ｉｇａｖｅ ZZ00０１ａｎｄＺＺ０００２ｔｏｈｉｍ．”とＩＤ置換され、そこから“ＺＺ０００１とＺＺ０００２”⇔“ＺＺ０００１ａｎｄＺＺ０００２”というフレーズ対が学習される。このフレーズ対は、［規則２］に該当するが、［規則３］にも該当するため、削除対象ではなくなる。すなわち、この場合、原言語のフレーズと目的言語のフレーズとで個別メタ情報の数が等しく、且つ、個別メタ情報の出現順序が等しいので、［規則３］に該当するため、当該フレーズ対は、削除対象から除外される（削除されず、このフレーズ対は、第２翻訳モデルに含まれる）。

次に、個別メタ情報置換部５２による個別メタ情報の置換処理について詳細に説明する。
＜個別メタ情報の置換処理＞
図１０は、本実施形態における個別メタ情報の置換処理の一例を説明する説明図である。
この図において、個別メタ情報置換部５２は、まず、用語辞書情報を取得する（ステップＳ２０１）。すなわち、個別メタ情報置換部５２は、用語辞書記憶部４１（用語辞書テーブルＴ１）から用語辞書情報を取得する。そして、個別メタ情報置換部５２は、取得した用語辞書情報を原言語の用語の長さの降順にソートする（ステップＳ２０２）。

次に、個別メタ情報置換部５２は、対訳文の１組を取得する（ステップＳ２０３）。すなわち、個別メタ情報置換部５２は、前処理部５１によって形態素解析された１組の対訳文を取得する。

次に、個別メタ情報置換部５２は、辞書用語を降順に取得する（ステップＳ２０４）。すなわち、個別メタ情報置換部５２は、用語辞書情報の用語（辞書用語）を用語の長さが長い順（用語を構成する文字の数が多い順に）に１つ取得する。なお、ここでの用語とは、１つの単語であってもよいし、複数の単語を組み合わせたものであってもよい。
次に、個別メタ情報置換部５２は、対訳文を検索して、原言語文と目的言語文との双方に辞書用語が存在するか否かを判定する（ステップＳ２０５）。
具体的に、個別メタ情報置換部５２は、取得した用語（辞書用語）を検索キーとして、対訳文を検索し、対訳文において、原言語文と目的言語文との双方に辞書用語が存在するか否かを判定する。個別メタ情報置換部５２は、原言語文と目的言語文との双方に辞書用語が存在しない場合（ステップＳ２０５：ＮＯ）に、その原言語の用語は置換対象外と判定し、処理をステップＳ２０７に進める。また、個別メタ情報置換部５２は、原言語文と目的言語文との双方に辞書用語が存在する場合（ステップＳ２０５：ＹＥＳ）に、処理をステップＳ２０６に進める。

次に、ステップＳ２０６において、個別メタ情報置換部５２は、対訳文のうち、用語辞書に存在する用語の組（辞書用語の組）を識別置換ＩＤに置換する。すなわち、個別メタ情報置換部５２は、用語辞書記憶部４１から抽出された用語（辞書用語）が対訳文の目的言語文に含まる場合に、検索キーとして用いた原言語の用語と、この原言語の用語と対応づけられた目的言語の用語とを、個別メタ情報置換対象とする。この場合、個別メタ情報置換部５２は、用語辞書記憶部４１から検索キー（用語の組）に対応づけられた分類情報（例えば、“文書名”の場合には“５４”）を取得する。そして、個別メタ情報置換部５２は、個別メタ情報置換対象となる用語の組を、メタ情報であることを示す文字列（例えば、ＺＺ）の後に、取得された分類情報を連結し、さらに、同一分類の置換対象の用語の組を区別するための識別情報（例えば、２桁の数字）を付与した個別メタ情報（識別置換ＩＤ）に置換する。
個別メタ情報置換部５２は、例えば、対訳文の中に、新たな置換対象の用語の組と同一分野の個別メタ情報（置換済の用語）の数をカウントし、メタ情報記憶部４２の分類に対応する識別置換情報記憶部４２２の中から、カウント結果＋１の項目番号（「Ｎｏ．」）に該当する個別メタ情報（識別置換ＩＤ）を取得する。個別メタ情報置換部５２は、個別メタ情報置換対象となる用語の組の原言語の用語を、識別置換情報記憶部４２２から取得した原言語の個別メタ情報（識別置換ＩＤ）に置き換えるとともに、用語の組の目的言語の用語を、識別置換情報記憶部４２２から取得した目的言語の個別メタ情報（識別置換ＩＤ）に置き換える。ステップＳ２０５の処理の後、個別メタ情報置換部５２は、処理をステップＳ２０７に進める。

次に、ステップＳ２０７において、個別メタ情報置換部５２は、次の辞書用語があるか否かを判定する。すなわち、個別メタ情報置換部５２は、降順にソートされた次の用語辞書情報があるか否か判定する。個別メタ情報置換部５２は、次の辞書用語がある場合（ステップＳ２０７：ＹＥＳ）に、処理をステップＳ２０４に進め、次の辞書用語を取得して対訳文を検索する。また、個別メタ情報置換部５２は、次の辞書用語がない場合（ステップＳ２０７：ＮＯ）に、処理をステップＳ２０８に進める。

次に、ステップＳ２０８において、個別メタ情報置換部５２は、次の対訳文があるか否かを判定する。個別メタ情報置換部５２は、次の対訳文がある場合（ステップＳ２０８：ＹＥＳ）に、処理をステップＳ２０２に進め、次の対訳文を取得する。また、個別メタ情報置換部５２は、次の対訳文がない場合（ステップＳ２０８：ＮＯ）に、個別メタ情報への置換処理が終了したと判定し、処理を終了する。
なお、図１０において、個別メタ情報置換部５２は、個別メタ情報置換部５２は、上述のステップＳ２０４〜ステップＳ２０７の処理を、用語辞書情報の数だけ繰り返し実行し、上述のステップＳ２０３〜ステップＳ２０８の処理を、対訳文の数だけ繰り返し実行する。

次に、個別メタ情報置換部５２による個別メタ情報の置換処理の具体例について説明する。
例えば、対訳文が、原言語文「定義書としては、要件定義書と・・・」に対応する目的言語文が“Ｒｅｑｕｉｒｅｍｅｎｔｄｅｆｉｎｉｔｉｏｎｄｏｃｕｍｅｎｔ，・・・ａｒｅｉｎｃｌｕｄｅｄｉｎｄｅｆｉｎｉｔｉｏｎｄｏｃｕｍｅｎｔ.”である場合の一例について説明する。
この場合、個別メタ情報置換部５２は、用語辞書記憶部４１が記憶する辞書用語情報の中から原言語の用語の文字列が長い用語から順に取得する。

個別メタ情報置換部５２は、取得した原言語の用語（辞書用語）を検索キーとして対訳文の原言語文の中に検索キーの用語が含まれるか否かを検索する。個別メタ情報置換部５２は、ここでは、対訳文の原言語文の中から辞書用語である「要件定義書」を検索により抽出して、この「要件定義書」に対応付けられた目的言語文の用語である“ｒｅｑｕｉｒｅｍｅｎｔｄｅｆｉｎｉｔｉｏｎｄｏｃｕｍｅｎｔ”を取得する。さらに、個別メタ情報置換部５２は、目的言語文の対訳文を “ｒｅｑｕｉｒｅｍｅｎｔｄｅｆｉｎｉｔｉｏｎｄｏｃｕｍｅｎｔ”を検索キーとして検索し、“ｒｅｑｕｉｒｅｍｅｎｔｄｅｆｉｎｉｔｉｏｎｄｏｃｕｍｅｎｔ”が対訳文に含まれることを確認し、原言語の「要件定義書」と目的言語の“ｒｅｑｕｉｒｅｍｅｎｔｄｅｆｉｎｉｔｉｏｎｄｏｃｕｍｅｎｔ”を置換対象とする。

次に、個別メタ情報置換部５２は、用語辞書記憶部４１から置換対象となった用語に対応付けられた分類の情報を取得し、対訳文の中で同じ分類の置換済のメタ情報の数をカウントする（この場合の例は、０個となる）。個別メタ情報置換部５２は、分野の情報とカウント結果を基に、メタ情報記憶部４２を検索する。この場合の例は、識別置換情報記憶部４２２において、分野が“文書名”の１番目の情報（「原言語」＝“ＺＺ５４０１”、「目的言語」＝“ＺＺ５４０１”）を取得する。個別メタ情報置換部５２は、置換対象の用語を識別置換情報記憶部４２２から取得した個別メタ情報（識別置換ＩＤ）に置換する。この場合の例では、個別メタ情報置換部５２は、「要件定義書」を“ＺＺ５４０１”に、“ｒｅｑｕｉｒｅｍｅｎｔｄｅｆｉｎｉｔｉｏｎｄｏｃｕｍｅｎｔ”を“ＺＺ５４０１”に、それぞれ置換する。

次に、個別メタ情報置換部５２は、対訳文の原言語文の中から辞書用語である「定義書」を検索して、この「要件定義書」に対応付けられた目的言語の用語である“ｄｅｆｉｎｉｔｉｏｎｄｏｃｕｍｅｎｔ”を取得する。さらに、個別メタ情報置換部５２は、目的言語の対訳文の中で“ｄｅｆｉｎｉｔｉｏｎｄｏｃｕｍｅｎｔ”を検索し、“ｄｅｆｉｎｉｔｉｏｎｄｏｃｕｍｅｎｔ”が対訳文に含まれることを確認し、原言語の「定義書」と目的言語の“ｄｅｆｉｎｉｔｉｏｎｄｏｃｕｍｅｎｔ”を置換対象とする。なお、元の対訳文での「要件定義書」と“ｒｅｑｕｉｒｅｍｅｎｔｄｅｆｉｎｉｔｉｏｎｄｏｃｕｍｅｎｔ”とは、既に個別メタ情報に置換済であるため、これらに含まれる文字列が置換対象として改めて抽出されることはない。

さらに、個別メタ情報置換部５２は、用語辞書記憶部４１から置換対象となった用語に対応付けられた分類の情報を取得し、対訳文の中で同じ分類（「分類」＝“文書名”）の置換済の個別メタ情報の数をカウントする。すなわち、個別メタ情報置換部５２は、“ＺＺ５４”で始まる個別メタ情報の数をカウントする（この場合の例は、１個となる）。
個別メタ情報置換部５２は、分野の情報とカウント結果を基に、メタ情報記憶部４２を検索する。この場合の例は、識別置換情報記憶部４２２において、分野が“文書名”の２番目の情報（「原言語」＝“ＺＺ５４０２”、「目的言語」＝“ＺＺ５４０２”）を取得する。個別メタ情報置換部５２は、置換対象の用語を識別置換情報記憶部４２２から取得した個別メタ情報（識別置換ＩＤ）に置換する。この場合の例では、個別メタ情報置換部５２は、「定義書」を“ＺＺ５４０２”に、“ｄｅｆｉｎｉｔｉｏｎｄｏｃｕｍｅｎｔ”を“ＺＺ５４０２”に、それぞれ置換する。

このように、個別メタ情報置換部５２は、対訳文に含まれる用語を、用語の属性に応じた分類を示す分類情報を含み、且つ、個々の用語を区別可能なメタ情報に置換する。
なお、個別メタ情報置換部５２は、個別メタ情報への置き換え（変換）を対訳文ごとに実施するため、例えば、対訳文番号“Ａ”の中で「定義書」が“ＺＺ５４０１”に置き換えられ、対訳文番号“Ｂ”では「定義書」が“ＺＺ５４９９”に置き換えられることもある。すなわち、用語を特定するための下位２桁（識別ＩＤ）は、対訳文によって変化する可能性がある。

次に、図１１を参照して、本実施形態における言語モデルの作成処理の一例について説明する。

＜言語モデルの作成処理＞
図１１は、本実施形態における言語モデルの作成処理の一例を示すフローチャートである。
この図において、まず、言語モデルの作成処理の処理部５０は、目的言語文を取得する（ステップＳ３０１）。すなわち、処理部５０の前処理部５１は、目的言語コーパス記憶部３０から対訳文を取得する。

次に、前処理部５１は、目的言語文を形態素解析する（ステップＳ３０２）。前処理部５１は、目的言語コーパス記憶部３０から取得した目的言語文を、言語で意味を持つ最小単位である形態素の列に分割し、それぞれの品詞を判別する処理を行う。

次に、処理部５０は、目的言語文のうち、用語辞書に存在する用語を分類置換ＩＤに置換する（ステップＳ３０３）。すなわち、処理部５０の統合メタ情報置換部５６は、前処理部５１より形態素解析された目的言語文を受け取り、目的言語文の中で用語辞書記憶部４１に記憶されている用語を分類置換ＩＤに変換する。なお、統合メタ情報置換部５６は、用語辞書記憶部４１に記憶されている用語（単語）を検索する際に、用語辞書記憶部４１の用語辞書テーブルＴ１を文字列の長い順にソートして、目的言語文の中の用語を検索する。

次に、処理部５０の言語モデル作成部５７は、言語モデルを作成する（ステップＳ３０４）。すなわち、言語モデル作成部５７は、統合メタ情報置換部５６によって置換された分類置換ＩＤを含む目的言語文を学習の入力として、既存の統計的手法に基づいて学習を行い、言語モデルを出力する。

なお、一般的には、翻訳モデル、及び言語モデルが作成された後、“チューニング”というフェーズを経る。これは、翻訳のスコア計算時に用いる“各モデルの確率値に乗ずる重みパラメータ”を最適化するためのもので、チューニングプログラムとチューニング対象の対訳コーパスが必要となる。
ここで、チューニング対象の対訳コーパスは、翻訳時に精度を確保したいと考える分野のコーパスが採用されることが一般的であり、学習時に用いたものの一部を用いてもよいし、学習時とは別のものを用いてもよい。
本提案手法においては、チューニングプログラムは既存のもの、例えば、Ｍｏｓｅｓ付属のＭＥＲＴ（Minimum Error Rate Training）等を用いればよいが、チューニング対象の対訳コーパスに関しては、原言語、及び目的言語ともに辞書登録用語部分を統合メタ情報に置換したものを用いる必要がある。これは言語モデル作成時に実行している前処理部の処理と、統合メタ情報置換部の処理を、チューニング対象の対訳コーパスの原言語、及び目的言語の双方それぞれに実行したものに等しい。チューニングでは、言語モデルと、メタ情報統合部５５を経た後の翻訳モデルを用いて翻訳を繰り返しつつパラメータを改善していくので、個別メタ情報は用いない。なお、本提案手法の効果を最大化するためには、統合メタ情報へ置換された箇所の多い対訳コーパスを用いるとよい。

次に、本実施形態による翻訳装置について、図面を参照して説明する。
［翻訳装置の実施形態］
図１２は、本実施形態による翻訳装置１００の一例を示すブロック図である。
この図において、翻訳装置１００は、記憶部６０と処理部７０を備えている。翻訳装置１００は、学習モデル作成装置１で作成した学習モデルに基づいて、入力された原言語文を統計翻訳し、統計翻訳の翻訳結果である目的言語文を出力する。

記憶部６０は、翻訳装置１００が統計翻訳を行う際に、使用する各種情報を記憶する。記憶部６０は、用語辞書記憶部６１、及び復元情報記憶部６２を備えている。

用語辞書記憶部６１は、図１に示す用語辞書記憶部４１と同様に、用語辞書の情報を示す用語辞書情報を記憶する。用語辞書記憶部６１は、用語辞書記憶部４１と同様に、用語辞書テーブルＴ１と、分類テーブルＴ２として記憶する。なお、用語辞書記憶部６１は、学習モデルを作成した際に用いたものを基本とし、新語の追加が生じた場合に、用語辞書テーブルＴ１に新語が追加される。

復元情報記憶部６２は、翻訳の際に、目的言語文に含まれる分類置換ＩＤを用語（単語）に復元するための情報を記憶する。復元情報記憶部６２は、図１３に示すように、「Ｎｏ．」、「位置情報」、「復元用語」、及び「分類置換ＩＤ」を対応付けて記憶する。ここで、図１３を参照して、復元情報記憶部６２のデータ構成について説明する。

図１３は、本実施形態における復元情報記憶部６２のデータ構成の一例を示す構成図である。
この図において、「Ｎｏ．」は、復元情報の番号（識別情報）を示し、「位置情報」は、後述する統合メタ情報（分類置換ＩＤ）の置換処理において、置換する用語（単語）の原文中の位置を示す情報（例えば、原文中の何番目から何番目の形態素であるかを示す情報)を示している。また、「復元用語」は、復元の際に、置換する目的言語の用語（単語）を示している。また、「分類置換ＩＤ」は、統合メタ情報（分類置換ＩＤ）の置換処理において置換した統合メタ情報（分類置換ＩＤ）を示している。すなわち、「復元用語」とは、統合メタ情報に置き換えられた用語と対応付けて用語辞書記憶部６１に記憶されている目的言語の用語である。

例えば、図１３に示す例では、復元情報記憶部６２は、「Ｎｏ．」が“１”である「位置情報」が、“０”であり、「復元用語」が“ｒｅｑｕｉｒｅｍｅｎｔｓｄｅｆｉｎｉｔｉｏｎｄｏｃｕｍｅｎｔ”であることを示している。また、「分類置換ＩＤ」が“ＺＺ５４”であることを示している。

再び、図１２に戻り、処理部７０は、例えば、ＣＰＵなどを含むプロセッサであり、翻訳装置１００の各種処理を実行する。
処理部７０は、前処理部５１、翻訳メタ情報置換部７２、翻訳処理部７３、メタ情報復元部７５、及び後処理部７６を備えている。また、翻訳処理部７３は、学習モデル７４を有している。

前処理部５１は、入力文として原言語文を取得し、取得した原言語文を形態素解析する。なお、前処理部５１で行う形態素解析の処理は、図１に示す前処理部５１と同様である。
前処理部５１は、形態素解析した原言語文を翻訳メタ情報置換部７２に出力する。

翻訳メタ情報置換部７２は、取得した原言語文に含まれる用語を、当該用語に対応する統合メタ情報（分類置換ＩＤ）に置換する。翻訳メタ情報置換部７２は、前処理部５１から形態素解析された原言語文を取得し、原言語文の中で用語辞書記憶部６１に記憶されている用語（単語）を統合メタ情報（分類置換ＩＤ）に置き換える。なお、翻訳メタ情報置換部７２は、統合メタ情報（分類置換ＩＤ）に置き換える際に、上述した復元情報記憶部６２に、「位置情報」、「復元用語」、及び「分類置換ＩＤ」を対応付けて復元情報として記憶する。ここで、「復元用語」とは、統合メタ情報に置き換えられた用語と対応付けて用語辞書記憶部６１に記憶されている目的言語の用語である。

翻訳処理部７３は、学習モデル作成装置１によって作成された学習モデル７４に基づいて、翻訳メタ情報置換部７２によって置換された統合メタ情報（分類置換ＩＤ）を含む原言語文を、統合メタ情報（分類置換ＩＤ）を含む目的言語文に翻訳する。なお、ここで学習モデル７４には、例えば、翻訳モデルと言語モデルとが含まれる。
また、翻訳処理部７３は、出力される目的言語文の各フレーズが、原言語文ではどの位置にあったかを示す情報を付与する。例えば、この原言語文ではどの位置にあったかを示す情報は、原言語文での単語の位置情報を用いることとしてもよく、翻訳処理部７３は、「私はＺＺ０１をＺＺ０１にあげた。」という文を翻訳した場合、“Ｉ［０−１］ｇａｖｅＺＺ０１［４−６］ｔｏＺＺ０１［２−３］.［７−７］”という翻訳結果を得ることとしてもよい。なお、この例では、“Ｉ”、“ｇａｖｅｔｏＺＺ０１”、“ｔｏＺＺ０１”及び“．”の計４つのフレーズに分けて翻訳されたことになる。また、この例では、原言語の２−３番目の形態素が“ｔｏＺＺ０１”に、４−６番目の形態素が“ｇａｖｅｔｏＺＺ０１”に翻訳されたことを表している。なお、原言語の形態素は、例えば、０番目から数えている。すなわち、上述の例では、０番目が“私”に対応し、１番目が“は”に対応する。

メタ情報復元部７５は、翻訳処理部７３によって翻訳された目的言語文に含まれる統合メタ情報（分類置換ＩＤ）を、当該統合メタ情報（分類置換ＩＤ）の変換元である原言語の用語に対応する目的言語の用語に復元する。メタ情報復元部７５は、復元情報記憶部６２から復元情報を取得して、復元情報に基づいて、目的言語文に含まれる統合メタ情報（分類置換ＩＤ）を、当該統合メタ情報（分類置換ＩＤ）に対応する用語（単語）に置き換える。すなわち、メタ情報復元部７５は、翻訳結果に含まれる統合メタ情報に付随する情報（例、位置情報［８−１１］など）から、目的言語文に含まれる各統合メタ情報に対応する原言語文での統合メタ情報を特定する。さらに、メタ情報復元部７５は、復元情報記憶部６２から取得しした復元情報に基づいて、目的言語文に含まれる統合メタ情報（分類置換ＩＤ）に対応する用語（単語）に置き換える。
このように、メタ情報復元部７５は、翻訳結果に含まれる統合メタ情報（分類置換ＩＤ）とそれに付随する位置情報を基に復元情報記憶部６２を検索し、該当する復元情報ある場合、翻訳結果に含まれる統合メタ情報を該当する復元情報における「復元用語」で置き換える。

後処理部７６は、メタ情報復元部７５によって、統合メタ情報（分類置換ＩＤ）を用語（単語）に置換された目的言語文に含まれる位置情報（例、［８−１１］など）を削除するとともに、必要に応じて大文字に変換するなど、目的言語文の体裁を整える後処理を実行し、後処理した目的言語文を出力する。

次に、本実施形態における翻訳装置１００の動作について説明する。
ここでは、図１４及び図１５を参照して、本実施形態における翻訳装置１００の翻訳処理の一例について説明する。

図１４は、本実施形態における翻訳装置１００の翻訳処理の一例を示すフローチャートである。また、図１５は、本実施形態における翻訳装置１００の翻訳処理の一例を説明する説明図である
図１４において、まず、翻訳装置１００の処理部７０は、入力文である原言語文を取得する（ステップＳ４０１）。すなわち、処理部７０の前処理部５１は、入力文である原言語文を取得する。

次に、前処理部５１は、原言語文を形態素解析する（ステップＳ４０２）。前処理部５１は、図１５（ａ）に示すような、形態素解析した原言語文を翻訳メタ情報置換部７２に出力する。

次に、処理部５０の翻訳メタ情報置換部７２は、原言語文のうち、用語辞書に存在する用語を分類置換ＩＤに置換する（ステップＳ４０３）。すなわち、翻訳メタ情報置換部７２は、前処理部５１から形態素解析された原言語文を受け取り、原言語文の中で用語辞書記憶部６１に記憶されている用語を分類置換ＩＤに変換する。
例えば、翻訳メタ情報置換部７２は、図１５（ａ）に示すような原言語文を、図１５（ｂ）に示すような、分類置換ＩＤを含む原言語文に変換する。
また、翻訳メタ情報置換部７２は、分類置換ＩＤに置き換える際に、復元情報記憶部６２に、「位置情報」、「復元用語」、及び「分類置換ＩＤ」を対応付けて復元情報として記憶する。

例えば、図１５（ｂ）に示す例では、翻訳メタ情報置換部７２は、「位置情報」が“０”、「復元用語」が“ｒｅｑｕｉｒｅｍｅｎｔｓｄｅｆｉｎｉｔｉｏｎｄｏｃｕｍｅｎｔ”、及び「分類置換ＩＤ」が“ＺＺ５４”である復元情報Ｆ１を１番目の分類置換ＩＤの復元情報として復元情報記憶部６２に記憶させる。また、翻訳メタ情報置換部７２は、「位置情報」が“５”、「復元用語」が“ｆｕｎｃｔｉｏｎｌｉｓｔ”、及び「分類置換ＩＤ」が“ＺＺ５４”である復元情報Ｆ２を２番目の分類置換ＩＤの復元情報として復元情報記憶部６２に記憶させる。

次に、処理部７０の翻訳処理部７３は、分類置換ＩＤに置換された原言語文を学習モデル７４に基づいて翻訳する（ステップＳ４０４）。ここで、例えば、翻訳処理部７３は、図１５（ｂ）に示すような原言語文を、図１５（ｃ）に示すような、分類置換ＩＤ及び位置情報を含む目的言語文に変換する。

次に、処理部７０のメタ情報復元部７５は、翻訳結果の分類置換ＩＤを用語に復元する（ステップＳ４０５）。すなわち、メタ情報復元部７５は、翻訳結果に含まれる分類置換ＩＤに付随する位置情報から、目的言語文に含まれる各分類置換ＩＤに対応する原言語文での分類置換ＩＤを特定する。さらに、メタ情報復元部７５は、復元情報記憶部６２から取得しした復元情報に基づいて、目的言語文に含まれる分類置換ＩＤに対応する用語（単語）に置き換える。ここで、例えば、メタ情報復元部７５は、図１５（ｃ）に示すような分類置換ＩＤ及び位置情報を含む目的言語文を、図１５（ｄ）に示すような、目的言語文に変換する。
例えば、図１５に示す例では、メタ情報復元部７５は、上述した復元情報Ｆ１に基づいて、目的言語文の１番目の“ＺＺ５４”を、“ｆｕｎｃｔｉｏｎｌｉｓｔ”に変換する。また。メタ情報復元部７５は、上述した復元情報Ｆ２に基づいて、目的言語文の２番目の“ＺＺ５４”を、“ｒｅｑｕｉｒｅｍｅｎｔｓｄｅｆｉｎｉｔｉｏｎｄｏｃｕｍｅｎｔ”に変換する。

次に、処理部７０の後処理部７６は、翻訳結果の目的言語文を後処理する（ステップＳ４０６）。すなわち、後処理部７６は、後処理により、図１５（ｅ）に示すような、目的言語文を生成し、出力する。

以上説明したように、本実施形態による学習モデル作成装置１は、統計的手法に基づいて機械翻訳のための学習モデルを作成する装置であって、個別メタ情報置換部５２と、翻訳モデル作成部５３と、フレーズ整形部５４と、メタ情報統合部５５とを備えている。個別メタ情報置換部５２は、翻訳処理の入力となる言語の文である原言語文と、原言語文に対応する翻訳結果となる目的言語の文である目的言語文との組を示す対訳文を記憶する対訳コーパス記憶部２０から取得した対訳文に、原言語の用語と、目的言語の用語とを対応付けて記憶する用語辞書記憶部４１から取得した原言語の用語及び目的言語の用語が含まれる場合に、当該含まれる用語を、個々の用語を区別可能なメタ情報（識別置換ＩＤ）に置換する。翻訳モデル作成部５３は、個別メタ情報置換部５２によって置換されたメタ情報を含む対訳文に基づいて、原言語のフレーズと目的言語のフレーズとのフレーズ対と、当該フレーズ対の確率情報とを含む第１翻訳モデルを作成する。フレーズ整形部５４は、翻訳モデル作成部５３によって作成された第１翻訳モデルが有するフレーズ対を、所定の規則に基づいて取捨選択して、第１翻訳モデルを整形翻訳モデル（第２翻訳モデル）に整形する。そして、メタ情報統合部５５は、フレーズ整形部５４によって整形された整形翻訳モデルに含まれるメタ情報を、個々の用語を特定しない（個々の用語を区別しない）統合メタ情報（分類置換ＩＤ）に変換した統合翻訳モデル（第３翻訳モデル）を学習モデルとして生成する。

すなわち、個別メタ情報置換部５２は、異なる言語の対応する文の組である対訳文に含まれる異なる言語の対応する用語を、用語毎に異なる個別メタ情報に置換する。翻訳モデル作成部５３は、個別メタ情報置換部５２によって置換された個別メタ情報（識別置換ＩＤ）を含む対訳文に基づいて、個別メタ情報（識別置換ＩＤ）を含む対訳文を構成する異なる言語のフレーズの対であるフレーズ対を含む翻訳モデル（第１翻訳モデル）を作成する。フレーズ整形部５４は、翻訳モデル（第１翻訳モデル）より、所定の規則を満たすフレーズ対で構成される整形翻訳モデル（第２翻訳モデル）を作成する。そして、メタ情報統合部５５は、整形翻訳モデル（第２翻訳モデル）のフレーズ対に含まれる個別メタ情報を、個々の用語を特定しない（個々の用語を区別しない）統合メタ情報（分類置換ＩＤ）に変換した統合翻訳モデル（第３翻訳モデル）を学習モデルとして生成する。

これにより、本実施形態による学習モデル作成装置１は、メタ情報を含む対訳文に基づいて作成された翻訳モデル（第１翻訳モデル）に含まれる、例えば、誤翻訳を生じさせる可能性のあるフレーズ対を翻訳モデルから予め削除することができる。また、本実施形態による学習モデル作成装置１は、統合メタ情報を含んだ翻訳モデルを作成するので、新語の追加などの変更が生じたい場合に、用語辞書（用語辞書記憶部６１）を変更することで対応可能であり、再学習して学習モデル（翻訳モデル）を再作成させずに対応することができる。また、本実施形態による学習モデル作成装置１は、メタ情報に置換した対訳文を用いることで、学習モデルを作成するための対訳文の数を減らすことができので、学習モデルの作成期間を短縮することができる。よって、本実施形態による学習モデル作成装置１は、統計翻訳の品質を低下させずに、新語の追加などの変更の対応に要する期間を短縮することができる。
すなわち、本実施形態による学習モデル作成装置１は、統計翻訳の品質を低下させずに、学習コストを低減させることができる（必要対訳文数の削減、再学習が必要な機会の削減）。

また、本実施形態では、フレーズ整形部５４は、フレーズ対が有する原言語のフレーズと目的言語のフレーズとにおいて（異なる言語のフレーズにおいて）個別メタ情報の数が異なる場合、又は、フレーズ対において少なくとも１つのフレーズが個別メタ情報を２個以上有する場合に、当該フレーズ対を削除対象とし、第１翻訳モデルから削除対象を削除して整形翻訳モデルを生成する。さらに、フレーズ整形部５４は、フレーズ対が有する原言語のフレーズと目的言語のフレーズとにおいて（異なる言語のフレーズにおいて）、個別メタ情報の数が等しい場合、且つ、個別メタ情報の出現順序が等しい場合に、当該フレーズ対を削除対象から除外する。
これにより、本実施形態による学習モデル作成装置１は、誤翻訳の原因となる（１）原言語と目的言語とで個別メタ情報（識別置換ＩＤ）の個数の異なるフレーズ対と、（２）原言語と目的言語とで個別メタ情報（識別置換ＩＤ）の出現順序が異なるフレーズ対とを翻訳モデルから適切に削除することができる。よって、本実施形態による学習モデル作成装置１は、統計翻訳の品質を低下させずに、新語の追加などの変更の対応に要する期間を短縮することができる。

なお、例えば、同じ分類の識別置換ＩＤに置換対象の単語が複数あり、原言語文と目的言語文との間で順序が変わるような原言語文を統計翻訳する際に、上述の（２）のフレーズ対が翻訳モデルに存在している場合に、誤翻訳が発生する。上述の（１）及び（２）のフレーズ対を翻訳モデルから削除した場合、翻訳モデルに含まれる識別置換ＩＤを含むフレーズ対は、識別置換ＩＤの数が一致し、且つ、出現順序が等しいものになる。そのため、翻訳モデルは、同じ分類の識別置換ＩＤに置換対象の単語が複数あり、原言語文と目的言語文との間で順序が変わるような原言語文を統計翻訳する場合に、誤翻訳などの悪影響を与えない学習モデルとなる。すなわち、本実施形態により作成される翻訳モデルは、上述の（２）に示すフレーズ対を含んでいる場合のように、語順が入れ替わるべき所で語順が入れ替わらない翻訳がされる誤翻訳を生じない学習モデルとなる。よって、本実施形態による学習モデル作成装置１は、原言語文と目的言語文との間で順序が変わるような原言語文を統計翻訳する場合に対応した適切な学習モデルを作成することができる。

ところで、従来の統計翻訳において、「ＸＭＬＭａｒｋｕｐ」という手法を使い、ある特定の用語の訳をユーザが明示的に指定することができる用語登録の方式が提案されている。しかしながら、この方式では、強制的に訳語が決定されるというだけであり、語順まで考慮された用語登録の方式ではなかった。
例えば、図１５に示す例において、「ＸＭＬＭａｒｋｕｐ」を利用した場合、下記のような処理となる。ここで、Ｍａｒｋｕｐ用語とは、「ＸＭＬＭａｒｋｕｐ」により訳語が指定される原言語の用語を示す。下記の例でいえば、“要件定義書”、及び“機能一覧”がＭａｒｋｕｐ用語となる。
「ＸＭＬＭａｒｋｕｐ」を利用した場合、“要件定義書を参照して機能一覧を作成してください。”は、前処理実施後、Ｍａｒｋｕｐ用語の訳語を指定しつつ、ＸＭＬタグで囲む処理が実行され、“＜ｎｐｔｒａｎｓｌａｔｉｏｎ＝″ｒｅｑｕｉｒｅｍｅｎｔｓｄｅｆｉｎｉｔｉｏｎｄｏｃｕｍｅｎｔｓ″＞要件定義書＜／ｎｐ＞を参照して＜ｎｐｔｒａｎｓｌａｔｉｏｎ＝″ｆｕｎｃｔｉｏｎｌｉｓｔ″＞＜／ｎｐ＞を作成してください。”となる。

次に、ＸＭＬタグで囲む処理が実行された上述の文が、Ｍａｒｋｕｐ用語を指定された訳語に変換されるとともに、その他のフレーズも目的言語に変換される。例えば、ＸＭＬタグで囲む処理が実行された上述の文が、“ｒｅｑｕｉｒｅｍｅｎｔｓｄｅｆｉｎｉｔｉｏｎｄｏｃｕｍｅｎｔｓ／ｗｉｔｈｒｅｆｅｒｅｎｃｅｔｏ／ｆｕｎｃｔｉｏｎｌｉｓｔ／ｐｌｅａｓｅｃｒｅａｔｅ／．”という５つのフレーズに変換される。
「ＸＭＬＭａｒｋｕｐ」を利用した場合には、学習モデル用いて、この５つのフレーズを並び替えが実行され、目的言語文として出力される。
なお、本来の処理は、このように逐次的な処理ではなく、並び替えと訳語選択を同時に解いてもっともらしい訳が選択される処理であるが、ここでは、語順の問題を説明する上で、上記処理のように説明した。
上記の「ＸＭＬＭａｒｋｕｐ」を利用した場合には、上記処理の並び替えの際に、下記２点の理由により、語順を考慮した翻訳がされ難い。

（理由１）Ｍａｒｋｕｐ用語は単独フレーズとして扱われるため、必用以上にフレーズが分断され、フレーズ内で語順が考慮されることが望ましい箇所もフレーズ間の並び替えになってしまう。すなわち、「ＸＭＬＭａｒｋｕｐ」を利用して訳語を指定した場合、Ｍａｒｋｕｐ用語箇所で強制的にフレーズが分断されるため、フレーズ単位での翻訳が望ましいような箇所の語順もフレーズ間で並べ替えなくてはいけなくなってしまう。これは、Ｍａｒｋｕｐ用語を含みつつそれらの前後に結合する単語情報も含んだフレーズを学習されていない可能性が高く、学習されていたとしても翻訳時に当該フレーズを用いることができないために起こる。
上記の例でいえば、“機能一覧”と“を作成してください。”の双方を含んだフレーズは仮に学習済みであったとしても、翻訳時には用いられない。前者は、Ｍａｒｋｕｐ用語であるので、入力文は、少なくともこの前者と後者との間でフレーズが分断され翻訳されるからである。分断された後は、この２つのフレーズを正しく並べ替える必要があるが、下記（理由２）で示すようにそのための語順情報が言語モデルにない場合が多いため、正しい語順が得られない可能性が高い。

これに対して、本実施形態による学習モデル作成装置１では、用語辞書記憶部４１に記憶されている辞書用語でフレーズが分断されることもなく、統合メタ情報（分類置換ＩＤ）とそれらと結合する前後の単語を含んだフレーズの学習が可能であり、当該フレーズを翻訳時に用いることができる。本実施形態では、上記の例でいえば、“ＺＺ５４を作成してください。”⇔“ｐｌｅａｓｅｃｒｅａｔｅＺＺ５４”というフレーズ対が学習可能であり、当該フレーズを翻訳時に用いることができるので、“ｆｕｎｃｔｉｏｎｌｉｓｔ”と“ｐｌｅａｓｅｃｒｅａｔｅ”との語順が問題になることがない。

（理由２）フレーズ間の並び替えもＭａｒｋｕｐ用語とそれ以外の用語との連結に関する語順情報が言語モデルにないため、うまく翻訳できない可能性が高い。すなわち、「ＸＭＬＭａｒｋｕｐ」で指定される訳語が、学習する際の対訳コーパスに含まれない用語である場合、言語モデルには当然、当該用語の並べ替えの情報がない。そして、本実施形態による学習モデル作成装置１の目的の１つである、新語を学習モデルに追加したいような目的において、「ＸＭＬＭａｒｋｕｐ」を利用した場合には、それらの訳語が既存の対訳コーパスに含まれない可能性は極めて高い。つまり、“ｒｅｑｕｉｒｅｍｅｎｔｓｄｅｆｉｎｉｔｉｏｎｄｏｃｕｍｅｎｔ”、“ｆｕｎｃｔｉｏｎｌｉｓｔ”等の用語と、これらが他のフレーズとどのように連結するのかの情報が言語モデルにないため、「ＸＭＬＭａｒｋｕｐ」を利用した場合には、Ｍａｒｋｕｐ用語を含むフレーズ間の語順並び替えが正しく実施されない可能性が高い。

これに対して、本実施形態による学習モデル作成装置１では、統合メタ情報（分類置換ＩＤ）に変換した状態で語順情報を学習しているため、これらに対応することが可能である。例えば、図１５に示す例では、統合メタ情報（分類置換ＩＤ）に変換されたフレーズ“ｗｉｔｈｒｅｆｅｒｅｎｃｅｔｏＺＺ５４”及び“ｐｌｅａｓｅｃｒｅａｔｅＺＺ５４”が正しく並び替えられればよく、本実施形態による学習モデル作成装置１では、“ＺＺ５４”と“ｗｉｔｈｒｅｆｅｒｅｎｃｅ”とが連結するという情報が、学習されるので、フレーズ間の語順並び替えが正しく実施される。つまり、本実施形態による学習モデル作成装置１では、これらが連結する文を学習しておけば、“ＺＺ５４”の部分が変わっても同一の分類用語であれば再学習の必要なく語順が最適に決定される。
また、本実施形態による学習モデル作成装置１は、上述したように、翻訳モデルに含まれる識別置換ＩＤを含むフレーズ対は、識別置換ＩＤの数が一致し、且つ、出現順序が等しいものになるので、語順が入れ替わるものが出現しない。よって、本実施形態による学習モデル作成装置１は、語順まで考慮した用語登録方式に対応させることができる。

また、従来技術では、例えば、対訳文の中に変数に置き換えられる単語が複数存在する場合、原言語と目的言語とで変数に置き換えられた単語の対応関係についての情報学習時点では欠落しているため、変数に置き換えられた単語同士を正しく対応付けて学習することができない。また、従来の統計翻訳の翻訳モデルでは一般的に原言語と目的言語とでフレーズの対応づけにより翻訳を行うが、例えば、１つのフレーズの中に変数に置き換えられる単語が複数存在する場合、変数に置き換えられた各単語をどの様に対応付けるのかについての情報が翻訳モデルには含まれないため、そのままでは変数を単語に戻すことができない。すなわち、従来技術では、何らかの規則を予め設けて単語同士の対応づけを行うことはできるが、対訳文により単語同士をどの様に対応付けるのかが変化するため、正しく対応づけるための規則を網羅的に作成することは困難である。
これに対して、本実施形態による学習モデル作成装置１では、翻訳モデルに含まれる識別置換ＩＤを含むフレーズ対は、識別置換ＩＤの数が一致し、且つ、出現順序が等しいものになるので、例えば、１つのフレーズの中に変数に置き換えられる単語が複数存在する場合であっても、各単語を正しく対応付けることができる。また、本実施形態による学習モデル作成装置１は、用語辞書（用語辞書記憶部６１）に用語を登録することにより、原言語と目的言語とで単語の対応づけを指定することができる。

また、本実施形態による学習モデル作成装置１は、対訳文を記憶する対訳コーパス記憶部２０から対訳文を取得し、取得した対訳文を形態素解析する前処理部５１を備えている。なお、個別メタ情報（識別置換ＩＤ）は、当該用語の属性に応じた分類を示す分類情報を含み、且つ、個々の用語を区別可能である。用語辞書記憶部４１は、原言語の用語と、目的言語の用語と、分類情報とを対応付けて記憶する。すなわち、用語辞書記憶部４１は、異なる言語の対応する用語の組と、分類情報とを対応付けて記憶する。個別メタ情報置換部５２は、用語辞書記憶部４１から、文字列が長い順に用語を取得して、前処理部５１によって形態素解析された対訳文を検索し、前処理部５１によって形態素解析された対訳文に原言語の用語及び目的言語の用語（用語の組の双方の用語）が含まれる場合に、当該用語に対応する分類情報を含み、且つ、個々の用語を区別可能なメタ情報（識別置換ＩＤ）に、当該用語を変換する。翻訳モデル作成部５３は、個別メタ情報を含む対訳文に基づいて、個別メタ情報を含む対訳文を構成する異なる言語のフレーズの対であるフレーズ対と、当該フレーズ対の確率情報とを含を含む第１翻訳モデルを作成する。そして、メタ情報統合部５５は、整形翻訳モデルに含まれる識別置換ＩＤを、分類置換ＩＤに変換した統合翻訳モデルを学習モデルとして生成する。
これにより、文字列が長い順に検索するため、本実施形態による学習モデル作成装置１は、複数の形態素から構成される複合語（例えば、上述した「要件定義書」など）に対応させることができる。
また、本実施形態による学習モデル作成装置１は、用語の分類に応じて、異なる統合メタ情報（分類置換ＩＤ）に変換した統合翻訳モデルを学習モデルとして生成することができる。そのため、本実施形態による学習モデル作成装置１は、新語の追加などの変更が生じたい場合に、分類ごとに用語辞書（用語辞書記憶部６１）に用語を追加することで対応可能であり、再学習して学習モデル（翻訳モデル）を再作成させずに対応することができる。

また、本実施形態による学習モデル作成装置１は、統合メタ情報置換部５６と、言語モデル作成部５７とを備えている。なお、学習モデルには、統合翻訳モデル（第３翻訳モデル）と言語モデルとが含まれている。統合メタ情報置換部５６は、複数の目的言語文を記憶する目的言語コーパス記憶部３０から取得した目的言語文に含まれる用語を、当該用語に対応する統合メタ情報（分類置換ＩＤ）に置換する。なお、目的言語コーパス記憶部３０は、異なる言語のいずれか１つの言語の文であって、複数の文を記憶する。そして、言語モデル作成部５７は、統合メタ情報置換部５６によって置換された統合メタ情報を含む目的言語文（異なる言語のいずれか１つの言語の文）に基づいて、言語モデルを学習モデルとして作成する。
これにより、本実施形態による学習モデル作成装置１は、統合メタ情報に対応した言語モデルを作成することができる。また、翻訳モデルと言語モデルとの両方を用いて、統計翻訳を行うことができるので、本実施形態による学習モデル作成装置１は、翻訳品質を向上させることができる。

また、本実施形態によれば、翻訳装置１００は、翻訳メタ情報置換部７２と、用語辞書記憶部６１と、翻訳処理部７３と、復元情報記憶部６２と、メタ情報復元部７５とを備えている。翻訳メタ情報置換部７２は、取得した原言語文（異なる言語のいずれか１つの言語の文）に含まれる用語を、統合メタ情報に置換する。用語辞書記憶部６１は、異なる言語の用語を対応付けて記憶する。翻訳処理部７３は、上述の学習モデル作成装置１によって作成された学習モデル７４に基づいて、翻訳メタ情報置換部７２によって置換された統合メタ情報（分類置換ＩＤ）を含む原言語文を、統合メタ情報（分類置換ＩＤ）を含む目的言語文に翻訳する。すなわち、翻訳処理部７３は、上述の学習モデル作成装置１によって作成された学習モデル７４に基づいて、翻訳メタ情報置換部７２によって置換された統合メタ情報（分類置換ＩＤ）を含む異なる言語のいずれか１つの言語の文を、統合メタ情報（分類置換ＩＤ）を含む翻訳文に翻訳する。ここで、翻訳文は、異なる言語のうち取得した１つの言語の文（原言語文）の言語以外の言語の文（目的言語文）である。復元情報記憶部６２は、置換された用語を特定する情報（例えば、「位置情報」、「復元用語」など）と置換結果である統合メタ情報とを対応付けて記憶する。そして、メタ情報復元部７５は、翻訳処理部７３によって翻訳された目的言語文に含まれる統合メタ情報（分類置換ＩＤ）を、当該統合メタ情報の変換元である原言語の用語に対応する目的言語の用語に復元する。すなわち、メタ情報復元部７５は、翻訳文に含まれる統合メタ情報（分類置換ＩＤ）を、復元情報記憶部６２に基づき特定される、翻訳文に含まれる統合メタ情報（分類置換ＩＤ）に置換された用語に対応付けて用語辞書記憶部６１に記憶された用語に変換する。
これにより、本実施形態による翻訳装置１００は、学習モデル作成装置１と同様の効果を奏する。すなわち、本実施形態による翻訳装置１００は、統計翻訳の品質を低下させずに、新語の追加などの変更の対応に要する期間を短縮することができる。また、本実施形態による翻訳装置１００は、複合語に対応させることができるともに、語順まで考慮した用語登録に対応させることができる。

また、本実施形態による学習モデル作成方法は、統計的手法に基づいて機械翻訳のための学習モデルを作成する学習モデル作成方法であって、個別メタ情報置換ステップと、翻訳モデル作成ステップと、翻訳モデル整形ステップと、メタ情報統合ステップとを含んでいる。個別メタ情報置換ステップにおいて、個別メタ情報置換部５２が、対訳コーパス記憶部２０から取得した対訳文に含まれる用語を、用語の属性に応じた分類を示す分類情報を含み、且つ、個々の用語を区別可能なメタ情報（識別置換ＩＤ）に置換する。翻訳モデル作成ステップにおいて、翻訳モデル作成部５３が、個別メタ情報置換ステップによって置換されたメタ情報を含む対訳文に基づいて、原言語のフレーズと目的言語のフレーズとのフレーズ対と、当該フレーズ対の確率情報とを含む第１翻訳モデルを作成する。翻訳モデル整形ステップにおいて、フレーズ整形部５４が、翻訳モデル作成ステップによって作成された第１翻訳モデルが有するフレーズ対を、所定の規則に基づいて取捨選択して、第１翻訳モデルを整形翻訳モデル（第２翻訳モデル）に整形する。そして、メタ情報統合ステップにおいて、メタ情報統合部５５が、翻訳モデル整形ステップによって整形された整形翻訳モデルに含まれるメタ情報（識別置換ＩＤ）を、分類情報を示す統合メタ情報（分類置換ＩＤ）に変換した統合翻訳モデル（第３翻訳モデル）を学習モデルとして生成する。
これにより、本実施形態による学習モデル作成方法は、学習モデル作成装置１と同様の効果を奏する。

なお、本発明は、上記の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で変更可能である。
例えば、上記の実施形態では、原言語（第１言語）が日本語であり、目的言語（第２言語）が英語である場合の一例について説明したが、これに限定されるものではない。学習モデル作成装置１及び翻訳装置１００は、例えば、日本語及び英語の他に、フランス語、ドイツ語、中国語、韓国語などの自然言語のうちのいずれかの２つの言語に対して適用してもよい。
また、上記の実施形態では、統合メタ情報の一例として、分類置換ＩＤを用いる場合について説明したが、個々の用語を特定しない（個々の用語を区別しない）メタ情報であれば、他のメタ情報であってもよい。
また、個別メタ情報（識別置換ＩＤ）、及び統合メタ情報は、分類を示す情報を含まなくてもよい。この場合、個別メタ情報、及び統合メタ情報は、例えば、分類情報を使用しないものでもよいし、分類情報が１種類であってもよい。また、個別メタ情報に分類を示す情報が含まれない場合、個別メタ情報は、１つの文の中で用語を一意に特定可能な情報を含むものであればよい。

また、上記の実施形態では、学習モデル作成装置１は、学習モデルとして、翻訳モデルと言語モデルとを作成する場合について説明したが、並び替え情報を定義した並び替えモデルを作成してもよい。なお、学習モデル作成装置１は、並び替えモデルを翻訳モデルと同様の手法により作成することが可能である。また、翻訳装置１００は、同様に、並び替えモデルが付随した翻訳モデルに対応させてもよい。
また、上記の実施形態では、翻訳装置１００は、学習モデル作成装置１を含まない形態について説明したが、翻訳装置１００が学習モデル作成装置１を備える形態であってもよい。

また、上記の実施形態では、学習モデル作成装置１は、対訳コーパス記憶部２０及び目的言語コーパス記憶部３０を備えない場合について説明したが、対訳コーパス記憶部２０及び目的言語コーパス記憶部３０を備えてもよい。また、学習モデル作成装置１は、記憶部４０を備えずに、サーバ装置などの外部装置が、記憶部４０を備える形態でもよい。また、同様に、翻訳装置１００は、記憶部６０を備えずに、サーバ装置などの外部装置が、記憶部６０を備える形態でもよい。

また、上記の実施形態では、学習モデル作成装置１は、対訳コーパスと目的言語コーパスとが独立した情報として取得する場合について説明したが、対訳コーパスが目的言語コーパスを兼ねてもよい。

また、上記の実施形態では、図４に示すように、用語辞書記憶部４１の用語辞書テーブルＴ１に「Ｎｏ．」を含む場合について説明したが、用語辞書テーブルＴ１に「Ｎｏ．」を含まない形態でもよい。また、ユーザが辞書を読む際の読み易さを考慮して、用語辞書テーブルＴ１に前処理前の「原言語の用語」及び「目的言語の用語」を追加してもよい。なお、前処理後の「原言語の用語」及び「目的言語の用語」を生成するために、前処理前の「原言語の用語」及び「目的言語の用語」を入力する必要があるので、学習モデル作成装置１は、一度は、前処理前の「原言語の用語」及び「目的言語の用語」を取得する必要がある。

また、上記の実施形態では、識別置換ＩＤ（個別メタ情報）を、メタ情報記憶部４２から検索して取得する場合について説明したが、これに限定されるものではない。例えば、識別置換ＩＤを“メタ情報であることを示す文字列”、“分類ＩＤ”、及び“予め定められた桁数の識別ＩＤ”の結合とする場合、個別メタ情報置換部５２は、メタ情報であることを示す文字列と分類ＩＤの情報とに加えて、上述した“カウント結果＋１”の数値を識別ＩＤとして組み合わせることにより識別置換ＩＤを作成してもよい。

なお、本発明における学習モデル作成装置１及び翻訳装置１００が備える各構成の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより上述した学習モデル作成装置１及び翻訳装置１００が備える各構成における処理を行ってもよい。ここで、「記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行する」とは、コンピュータシステムにプログラムをインストールすることを含む。ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、インターネットやＷＡＮ、ＬＡＮ、専用回線等の通信回線を含むネットワークを介して接続された複数のコンピュータ装置を含んでもよい。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。このように、プログラムを記憶した記録媒体は、ＣＤ−ＲＯＭ等の非一過性の記録媒体であってもよい。また、記録媒体には、当該プログラムを配信するために配信サーバからアクセス可能な内部または外部に設けられた記録媒体も含まれる。なお、プログラムを複数に分割し、それぞれ異なるタイミングでダウンロードした後に学習モデル作成装置１及び翻訳装置１００が備える各構成で合体される構成や、分割されたプログラムのそれぞれを配信する配信サーバが異なっていてもよい。

さらに「コンピュータ読み取り可能な記録媒体」とは、ネットワークを介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、上述した機能の一部を実現するためのものであってもよい。さらに、上述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

また、上述した機能の一部または全部を、ＬＳＩ（Large Scale Integration）等の集積回路として実現してもよい。上述した各機能は個別にプロセッサ化してもよいし、一部、または全部を集積してプロセッサ化してもよい。また、集積回路化の手法はＬＳＩに限らず専用回路、または汎用プロセッサで実現してもよい。また、半導体技術の進歩によりＬＳＩに代替する集積回路化の技術が出現した場合、当該技術による集積回路を用いてもよい。

１学習モデル作成装置
２０対訳コーパス記憶部
３０目的言語コーパス記憶部
４０、６０記憶部
４１用語辞書記憶部
４２メタ情報記憶部
４３整形規則記憶部
５０、７０処理部
５１、７１前処理部
５２個別メタ情報置換部
５３翻訳モデル作成部
５４フレーズ整形部
５５メタ情報統合部
５６統合メタ情報置換部
５７言語モデル作成部
６１用語辞書記憶部
６２復元情報記憶部
７２翻訳メタ情報置換部
７３翻訳処理部
７４学習モデル
７５メタ情報復元部
７６後処理部
１００翻訳装置
４２１分類置換情報記憶部
４２２識別置換情報記憶部
Ｔ１用語辞書テーブル
Ｔ２分類テーブル

Claims

統計的手法に基づいて機械翻訳のための学習モデルを作成する学習モデル作成装置であって、
異なる言語の対応する文の組である対訳文に含まれる前記異なる言語の対応する用語を、用語毎に異なる個別メタ情報に置換する個別メタ情報置換部と、
前記個別メタ情報置換部によって置換された前記個別メタ情報を含む前記対訳文に基づいて、前記個別メタ情報を含む前記対訳文を構成する前記異なる言語のフレーズの対であるフレーズ対を含む第１翻訳モデルを作成する翻訳モデル作成部と、
前記第１翻訳モデルより、所定の規則を満たすフレーズ対で構成される第２翻訳モデルを作成する翻訳モデル整形部と、
前記フレーズ対に含まれる個別メタ情報を、個々の用語を特定しない統合メタ情報に変換した第３翻訳モデルを前記学習モデルとして生成するメタ情報統合部と、
を備え、
前記翻訳モデル整形部は、
前記フレーズ対が有する前記異なる言語のフレーズにおいて前記個別メタ情報の数が異なる場合に、当該フレーズ対を削除対象とし、前記第１翻訳モデルから前記削除対象を削除して前記第２翻訳モデルを生成する
ことを特徴とする学習モデル作成装置。
統計的手法に基づいて機械翻訳のための学習モデルを作成する学習モデル作成装置であって、
異なる言語の対応する文の組である対訳文に含まれる前記異なる言語の対応する用語を、用語毎に異なる個別メタ情報に置換する個別メタ情報置換部と、
前記個別メタ情報置換部によって置換された前記個別メタ情報を含む前記対訳文に基づいて、前記個別メタ情報を含む前記対訳文を構成する前記異なる言語のフレーズの対であるフレーズ対を含む第１翻訳モデルを作成する翻訳モデル作成部と、
前記第１翻訳モデルより、所定の規則を満たすフレーズ対で構成される第２翻訳モデルを作成する翻訳モデル整形部と、
前記フレーズ対に含まれる個別メタ情報を、個々の用語を特定しない統合メタ情報に変換した第３翻訳モデルを前記学習モデルとして生成するメタ情報統合部と、
を備え、
前記翻訳モデル整形部は、
前記フレーズ対において少なくとも１つのフレーズが前記個別メタ情報を２個以上有する場合に、当該フレーズ対を削除対象とし、前記第１翻訳モデルから前記削除対象を削除して前記第２翻訳モデルを生成する
ことを特徴とする学習モデル作成装置。
前記翻訳モデル整形部は、
前記フレーズ対が有する前記異なる言語のフレーズにおいて、前記個別メタ情報の数が等しい場合、且つ、前記個別メタ情報の出現順序が等しい場合に、当該フレーズ対を前記削除対象から除外する
ことを特徴とする請求項１又は請求項２に記載の学習モデル作成装置。
前記対訳文を記憶する対訳コーパス記憶部から前記対訳文を取得し、取得した前記対訳文を形態素解析する前処理部を備え、
前記個別メタ情報は、当該用語の属性に応じた分類を示す分類情報を含み、且つ、個々の用語を区別可能であり、
前記個別メタ情報置換部は、
前記異なる言語の対応する用語の組と、前記分類情報とを対応付けて記憶する用語辞書記憶部から、文字列が長い用語の順に用語を取得して、前記前処理部によって形態素解析された前記対訳文を検索し、前記前処理部によって形態素解析された前記対訳文に、前記用語の組の双方の用語が含まれる場合に、当該用語に対応する前記分類情報を含み、且つ、個々の用語を区別可能な前記個別メタ情報に、当該用語を変換し、
前記翻訳モデル作成部は、
前記個別メタ情報を含む前記対訳文に基づいて、前記個別メタ情報を含む前記対訳文を構成する前記異なる言語のフレーズの対であるフレーズ対と、当該フレーズ対の確率情報とを含を含む前記第１翻訳モデルを作成し、
前記メタ情報統合部は、
前記第２翻訳モデルに含まれる前記個別メタ情報を、前記分類情報を示す前記統合メタ情報に変換した前記第３翻訳モデルを前記学習モデルとして生成する
ことを特徴とする請求項１から請求項３のいずれか一項に記載の学習モデル作成装置。
前記学習モデルには、前記第３翻訳モデルと言語モデルとが含まれ、
前記異なる言語のいずれか１つの言語の文であって、複数の文を記憶する目的言語コーパス記憶部から取得した前記１つの言語の文に含まれる用語を、当該用語に対応する前記統合メタ情報に置換する統合メタ情報置換部と、
前記統合メタ情報置換部によって置換された前記統合メタ情報を含む前記１つの言語の文に基づいて、前記言語モデルを前記学習モデルとして作成する言語モデル作成部と
を備えることを特徴とする請求項１から請求項４のいずれか一項に記載の学習モデル作成装置。
前記異なる言語のいずれか１つの言語の文を取得し、取得した前記１つの言語の文に含まれる用語を前記統合メタ情報に置換する翻訳メタ情報置換部と、
前記異なる言語の用語を対応付けて記憶する用語辞書記憶部と、
請求項１から請求項５のいずれか一項に記載の学習モデル作成装置によって作成された前記学習モデルに基づいて、前記翻訳メタ情報置換部によって置換された前記統合メタ情報を含む前記１つの言語の文を、前記異なる言語のうち前記取得した１つの言語の文の言語以外の言語の文である翻訳文に翻訳する翻訳処理部と、
前記置換された用語を特定する情報と置換結果である統合メタ情報との対応を記憶する復元情報記憶部と、
前記翻訳文に含まれる統合メタ情報を、前記復元情報記憶部が記憶する前記用語を特定する情報に基づき特定される、前記翻訳文に含まれる前記統合メタ情報に置換された用語に対応付けて前記用語辞書記憶部に記憶された用語に変換するメタ情報復元部と、
を備えることを特徴とする翻訳装置。
統計的手法に基づいて機械翻訳のための学習モデルを作成する学習モデル作成方法であって、
個別メタ情報置換部が、異なる言語の対応する文の組である対訳文に含まれる前記異なる言語の対応する用語を、用語毎に異なる個別メタ情報に置換する個別メタ情報置換ステップと、
翻訳モデル作成部が、前記個別メタ情報置換部によって置換された前記個別メタ情報を含む前記対訳文に基づいて、前記個別メタ情報を含む前記対訳文を構成する前記異なる言語のフレーズの対であるフレーズ対を含む第１翻訳モデルを作成する翻訳モデル作成ステップと、
翻訳モデル整形部が、前記第１翻訳モデルより、所定の規則を満たすフレーズ対で構成される第２翻訳モデルを作成する翻訳モデル整形ステップと、
メタ情報統合部が、前記フレーズ対に含まれる個別メタ情報を、個々の用語を特定しない統合メタ情報に変換した第３翻訳モデルを前記学習モデルとして生成するメタ情報統合ステップと、
を含み、
前記翻訳モデル作成ステップにおいて、前記翻訳モデル整形部が、
前記フレーズ対が有する前記異なる言語のフレーズにおいて前記個別メタ情報の数が異なる場合に、当該フレーズ対を削除対象とし、前記第１翻訳モデルから前記削除対象を削除して前記第２翻訳モデルを生成する
ことを特徴とする学習モデル作成方法。
統計的手法に基づいて機械翻訳のための学習モデルを作成する学習モデル作成方法であって、
個別メタ情報置換部が、異なる言語の対応する文の組である対訳文に含まれる前記異なる言語の対応する用語を、用語毎に異なる個別メタ情報に置換する個別メタ情報置換ステップと、
翻訳モデル作成部が、前記個別メタ情報置換部によって置換された前記個別メタ情報を含む前記対訳文に基づいて、前記個別メタ情報を含む前記対訳文を構成する前記異なる言語のフレーズの対であるフレーズ対を含む第１翻訳モデルを作成する翻訳モデル作成ステップと、
翻訳モデル整形部が、前記第１翻訳モデルより、所定の規則を満たすフレーズ対で構成される第２翻訳モデルを作成する翻訳モデル整形ステップと、
メタ情報統合部が、前記フレーズ対に含まれる個別メタ情報を、個々の用語を特定しない統合メタ情報に変換した第３翻訳モデルを前記学習モデルとして生成するメタ情報統合ステップと、
を含み、
前記翻訳モデル作成ステップにおいて、前記翻訳モデル整形部が、
前記フレーズ対において少なくとも１つのフレーズが前記個別メタ情報を２個以上有する場合に、当該フレーズ対を削除対象とし、前記第１翻訳モデルから前記削除対象を削除して前記第２翻訳モデルを生成する
ことを特徴とする学習モデル作成方法。
統計的手法に基づいて機械翻訳のための学習モデルを作成する学習モデル作成装置としてのコンピュータに、
個別メタ情報置換部が、異なる言語の対応する文の組である対訳文に含まれる前記異なる言語の対応する用語を、用語毎に異なる個別メタ情報に置換する個別メタ情報置換ステップと、
翻訳モデル作成部が、前記個別メタ情報置換部によって置換された前記個別メタ情報を含む前記対訳文に基づいて、前記個別メタ情報を含む前記対訳文を構成する前記異なる言語のフレーズの対であるフレーズ対を含む第１翻訳モデルを作成する翻訳モデル作成ステップと、
翻訳モデル整形部が、前記第１翻訳モデルより、所定の規則を満たすフレーズ対で構成される第２翻訳モデルを作成する翻訳モデル整形ステップと、
メタ情報統合部が、前記フレーズ対に含まれる個別メタ情報を、個々の用語を特定しない統合メタ情報に変換した第３翻訳モデルを前記学習モデルとして生成するメタ情報統合ステップと、
を実行させ、
前記翻訳モデル作成ステップにおいて、前記翻訳モデル整形部が、
前記フレーズ対が有する前記異なる言語のフレーズにおいて前記個別メタ情報の数が異なる場合に、当該フレーズ対を削除対象とし、前記第１翻訳モデルから前記削除対象を削除して前記第２翻訳モデルを生成する処理
を実行させるためのプログラム。
統計的手法に基づいて機械翻訳のための学習モデルを作成する学習モデル作成装置としてのコンピュータに、
個別メタ情報置換部が、異なる言語の対応する文の組である対訳文に含まれる前記異なる言語の対応する用語を、用語毎に異なる個別メタ情報に置換する個別メタ情報置換ステップと、
翻訳モデル作成部が、前記個別メタ情報置換部によって置換された前記個別メタ情報を含む前記対訳文に基づいて、前記個別メタ情報を含む前記対訳文を構成する前記異なる言語のフレーズの対であるフレーズ対を含む第１翻訳モデルを作成する翻訳モデル作成ステップと、
翻訳モデル整形部が、前記第１翻訳モデルより、所定の規則を満たすフレーズ対で構成される第２翻訳モデルを作成する翻訳モデル整形ステップと、
メタ情報統合部が、前記フレーズ対に含まれる個別メタ情報を、個々の用語を特定しない統合メタ情報に変換した第３翻訳モデルを前記学習モデルとして生成するメタ情報統合ステップと、
を実行させ、
前記翻訳モデル作成ステップにおいて、前記翻訳モデル整形部が、
前記フレーズ対において少なくとも１つのフレーズが前記個別メタ情報を２個以上有する場合に、当該フレーズ対を削除対象とし、前記第１翻訳モデルから前記削除対象を削除して前記第２翻訳モデルを生成する処理
を実行させるためのプログラム。