JP2010198438A

JP2010198438A - 文の対中の単語対応付装置及びそのコンピュータプログラム

Info

Publication number: JP2010198438A
Application number: JP2009043828A
Authority: JP
Inventors: Chooi Ling Goh; チュイリンゴー; Eiichiro Sumida; 英一郎隅田
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2009-02-26
Filing date: 2009-02-26
Publication date: 2010-09-09
Anticipated expiration: 2029-02-26
Also published as: JP5454763B2

Abstract

【課題】扱われる言語の対に関わりなく、相当の再現率で高い精度を達成できる、文対応付済対訳コーパスの単語対応付けのための装置を提供する。
【解決手段】単語対応付け装置７０は、単語対応付対訳コーパス８０と、素性セットを抽出し、文の対の各々における各単語対に対応付ラベルを割当てる素性抽出モジュール８４と、素性セットと対応付ラベルとを用いて、ＣＲＦ単語対応付モデル９２の学習を行なうＣＲＦモジュール９０と、ＣＲＦ単語対応付モデル９２を用いて入力された文の対の単語を対応付ける対応付モジュール９６と、を含む。素性抽出モジュール８４は、ダイス係数、ＰＯＳタグ、語幹、Ｂｉ−ｄｉｃ尺度、又は単語対の相対的な文の位置、又はこれら素性のいずれかの組合せを含む、ユニグラム素性を計算する。素性セットはさらに、文脈素性又はマルチグラム素性を含んでもよい。
【選択図】図２

Description

この発明は対訳の文の対での単語対応付に関し、特に、大規模な対訳の文の対でのより信頼性の高い単語の対応付けに関する。

統計的機械翻訳（ｓｔａｔｉｓｔｉｃａｌｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎ：ＳＭＴ）システムにおいて、単語の対応付けは重要な役割を果たす。単語対応付けの出力を、新たな文のデコードに用いることができる。現在のＳＭＴシステムのほとんどは、文単位で対応付済のパラレルコーパスから、生成モデルであるＧＩＺＡ＋＋（非特許文献３）を用いて自動的に単語を対応付けさせる。

図１はＧＩＺＡ＋＋を用いた先行技術の翻訳モデル生成システム４０を示す図である。図１を参照して、従来の翻訳モデル生成システム４０は、文対応付済対訳コーパス５０の記憶部と、ＧＩＺＡ＋＋を用いて文対応付対訳コーパス５０内の文の対の各々において単語の対応付けを行なう対応付モジュール５２と、対応付モジュール５２から受けた単語対応付済コーパス５４のための記憶部と、単語対応コーパス５４を学習用データセットとして用いて翻訳モデル５８の学習を行なうための、これも従来入手可能な翻訳モデル生成部５６と、を含む。

ＧＩＺＡ＋＋は、大規模な文対応付済対訳コーパスが用いられる場合は良好に動作する。しかし、生成モデルを用いて、コーパス中に出現しない単語及び疎なデータを扱うのは困難である。

現在の研究によれば、ＳＭＴシステムは、特に大規模な文対応付済対訳コーパスが存在する場合には、用例ベースの方法及びルールベースの方法に比べてより良い翻訳を生成することが示されている。ＳＭＴシステムでは、言語対の如何にかかわらず、パラレルな対訳コーパスがある限り、システムを容易に学習できる。しかし、これらのコーパスは典型的には文の対応付けがされているが、翻訳モデルを構築する前には、単語をその翻訳と自動的に一致させなければならない。その後、前提となる単語の対応付けを用いて、句のテーブルを構築する。句ベースのＳＭＴでは、句テーブルはデコードの際に必要である。

長年にわたって、単語をより良く対応させることがより良い翻訳につながるか否かが論争の対象となってきた。最近の広範な評価によって、対応付けの正確さの向上が機械翻訳の改善につながることが示された。しかし、依然としてその間には一致の制約がある。したがって、良好な単語対応付モデルが依然として必要である。

フィルブランソン及びトレヴァーコーン、２００６．条件付確率場での識別的単語対応付け。ＣＯＬＩＮＧ／ＡＣＬ予稿集、６５−７２ページ。（Phil Blunsom and Trevor Cohn. 2006. Discriminative word alignment with conditional random fields. In Proceedings of COLING/ACL, pages 65-72.）ピーターＦ．ブラウン、ビンセントＪ．デッラピトラ、スティーブンＡ．デッラピトラ及びロバートＬ．マーサー。１９９３．統計的機械翻訳の数学：パラメータ推定。コンピュータ言語、１９（２）：２６３−３１１．（Peter F. Brown, Vincent J. Della Pietra, Stephen A. Della Pietra, and Robert L. Mercer. 1993. The mathematics of statistical machine translation: Parameter estimation. Computational Linguistics, 19(2):263-311.）フランツヨセフオチ及びヘルマンネイ。２００３．種々の統計的対応付モデルの系統的比較。コンピュータ言語、２９（１）：１９−５２．（Franz Josef Och and Hermann Ney. 2003. A systematic comparison of various statistical alignment models. Computational Linguistics, 29(1):19-52.）

現在、ＩＢＭモデルに基づいた、ＧＩＺＡ＋＋等の単語対応付生成モデル（非特許文献２）が、ＳＭＴシステムで広く用いられている。ＧＩＺＡ＋＋は大規模なパラレルコーパスで学習すると良好な結果を与える。さらに、これは英語とドイツ語等の類似した言語を含む対では非常にうまく機能する。しかし、統語構造が大きく異なる言語対、例えば英語と中国語との対を対応付けする場合には、同様の性能を得ることはできない。ＧＩＺＡ＋＋は文の間でほとんどの単語を対応させようとし（対応付けなし、はほとんどない。）、対応の再現率が高いが、同時にこれは偽の対応付けも生じさせる（すなわち、精度は低い）。

再現率が高ければ、翻訳されない単語数が減るという意味で翻訳の品質が確かに向上するが、精度が低ければ翻訳の品質は低下する。したがって、再現率と精度とのトレードオフは、高品質の翻訳を生成するために非常に重要である。句ベースのＳＭＴシステムでは、単語の対応付けの後、句テーブルが作られる。対応付けできなかった単語は、文脈に応じて何らかの句に自由に添付される。再現率が高く精度の低い対応付けでは、生成される句は少なくなり、一方で再現率が低く精度が高ければ、より多くの句が生成される。高い精度が容易に得られるのは、正確さの高いリンクが生成されたときのみである。しかしその場合、再現率は低くなりすぎるであろう。最も良いのは、再現率を改善しつつ精度を維持することである。

これに関して、最近の研究によれば（非特許文献１）、対訳文コーパスの単語対応付けにおいて、条件付確率場（ｃｏｎｄｉｔｉｏｎａｌｒａｎｄｏｍｆｉｅｌｄｓ：ＣＲＦ）が効果的であることがわかった。しかし、非特許文献１の教示は英語とフランス語等の類似した言語の組合せに限られており、かなり異なる統語構造を持つ言語の対については論じられていない。

したがって、この発明の目的は、扱われる言語の対に関わりなく、相当の再現率で高い精度を達成できる、文対応付対訳コーパスの単語対応付けのための装置及び方法を提供することである。

第１の局面によれば、この発明は第１の言語と第２の言語との入力文対において単語を対応付けるための装置に関する。この装置は、前記第１及び第２の言語の第１の対訳コーパスを記憶する記憶部を含む。前記第１の対訳コーパスでは単語が対応付けられている。装置はさらに、前記第１の対訳コーパス内の前記文対の各々について可能な単語対の各々に、予め定められた素性の組を抽出し対応付けラベルを割当てるための抽出手段を含む。前記対応付けラベルは前記可能な単語が対応ありか対応なしかを示す。装置はさらに、前記第１の対訳コーパスについて前記抽出手段が抽出し割当てた前記素性の組と前記対応付ラベルとを用いて、ＣＲＦ単語対応付モデルの学習を行なうための学習手段と、前記ＣＲＦ単語対応付モデルを用いて、前記入力された文の対の単語を対応付けるための対応付手段と、を含む。前記抽出手段は前記文の対の各々における各単語対に対しユニグラム素性の組を計算するための手段を含む。前記ユニグラム素性の組は単語対のダイス係数、単語対の品詞タグ、単語対の語幹（stem）又は見出し部、単語対の対訳辞書共起尺度（Ｂｉ−ｄｉｃ尺度）、又は前記文の対中の単語対の相対的文位置（ＲｅｌａｔｉｖｅＳｅｎｔｅｎｃｅＰｏｓｉｔｉｏｎ：Ｒｅｌｐｏｓ）、又はこれら素性のいずれかの組合せを含む。

好ましくは、前記第２の単語は屈折語であり、前記ユニグラム素性の組はさらに、前記単語対の各々における前記第２の言語の単語の語幹又は見出し語を含む。

さらに好ましくは前記ユニグラム素性の組はさらに、前記文の対のいずれかの文の先行する単語又は後続の単語について抽出された前記ユニグラム素性のいずれかを含む。

さらに好ましくは、前記素性の組はさらに、前記ユニグラム素性のマルチグラム組合せを含む、マルチグラム素性の組を含む。

マルチグラム素性の組は前記ユニグラム素性の２つの組合せを１個又は２個以上含むバイグラム素性の組を含んでもよい。前記マルチグラム素性の組はさらに、前記ユニグラム素性の３つの組合せを１個又は２個以上含むトライグラム素性の組を含んでもよい。

好ましくは、装置はさらに前記第１及び第２の言語の第２の対訳コーパスを記憶する記憶部をさらに含む。前記第２の対訳コーパスでは単語対応付けがされていない。装置はさらに、前記学習手段によって前記第２の対訳コーパス中の前記文の対の各々を単語対応付けさせることによって、前記第２の対訳コーパス中の文の対を対応付けるための手段を含む。

第２の局面によれば、この発明はコンピュータによって、第１の言語と第２の言語との入力文対において単語を対応付けるための装置を実現するためのコンピュータで実行可能なプログラムに関する。このプログラムは前記コンピュータを、前記第１及び第２の言語の第１の対訳コーパスを記憶する記憶部として機能させる。前記第１の対訳コーパスは単語が対応付けられている。プログラムはさらに、コンピュータを前記第１の対訳コーパス内の前記文対の各々について可能な単語対の各々に、予め定められた素性の組を抽出し対応付ラベルを割当てるための抽出手段として機能させる。前記対応付ラベルは前記可能な単語対が対応ありか対応なしかを示す。プログラムはさらに、コンピュータを前記第１の対訳コーパスについて前記抽出手段が抽出し割当てた前記素性の組と前記対応付ラベルとを用いて、ＣＲＦ単語対応付モデルの学習を行なうための学習手段と、前記ＣＲＦ単語対応付モデルを用いて、前記第２の対訳コーパス内の文の対の各々の単語を対応付けるための対応付手段と、として機能させる。前記抽出手段は前記文の対の各々における各単語対に対しユニグラム素性の組を計算するための手段を含む。前記ユニグラム素性の組は単語対のダイス係数、単語対の品詞タグ、単語対の語幹又は見出し部、Ｂｉ−ｄｉｃ尺度、又は前記文の対中の単語対の相対的文位置、又はこれら素性のいずれかの組合せを含む。

従来の翻訳モデル生成システム４０の全体構造を示す図である。この発明の一実施の形態にしたがった翻訳モデル生成システム７０の全体構造を示す図である。中国語と英語の文の対の例を示す図である。中国語と英語の文の対の単語対応付けの例を示す図である。翻訳モデル生成システム７０内の特徴抽出モジュール８４の詳細な構造を示す図である。Ｂｉ−ｄｉｃ辞書尺度の計算に用いられる、対訳辞書のエントリの例を示す図である。文の対において中国語の単語と英語の単語との組合せのために作られたユニグラム素性の表を示す図である。この発明の実施の形態で用いられる素性の組を示す図である。対応付モジュール９６の詳細な構造を示す図である。ＣＲＦ単語対応付モデルの単語対応付けの結果例を示す図である。ヒューリスティック対応付ルールの単語対応付けの結果例を示す図である。この発明の一実施の形態にしたがって行なわれた実験での、精度に対する学習コーパスのサイズのグラフィックな出力を示す図である。コンピュータシステム３３０の正面図である。コンピュータシステム３３０のブロック図である。

[はじめに]
この発明の一実施の形態は、大型の、文が対応付けられた中国語と英語との対訳コーパスでの単語対応付けに関する。この実施の形態では、機械学習モデルとして、識別的モデル、ＣＲＦを適用して、単語対応付けの問題を解決する。ここでは、このモデルをスーパーアライン（Ｓｕｐｅｒ−Ａｌｉｇｎ）と呼ぶ。なぜなら、これは素性の学習に有力な（効率のよい）教師ありモデルだからである。対応付けの問題は、（後述する）ダイス（Ｄｉｃｅ）、文の対における単語の相対位置（Ｒｅｌｐｏｓ）、Ｂｉ−ｄｉｃ尺度、品詞（ｐａｒｔ−ｏｆ−ｓｐｅｅｃｈ：ＰＯＳ）タグ、及び屈折語での語幹といった特徴を与えられた場合の単語対のラベル付け問題として扱われる。さらに、文脈中の単語とＰＯＳタグとが、通常のシーケンシャルなラベル付け問題と同様に、素性として用いられる。

まず、文の各対に対し、単語対のリストｎ×ｍを構築し、ここで、ｎは文の対における中国語の単語数であり、ｍは英語の単語数である。ここでの課題は、単語対の各々に、「対応付けあり」又は「対応付けなし」のラベルを付けることである。

６種類の素性が定義された。

１．ダイス係数
ダイス係数は、文対応付コーパスを用いて２つの単語の密接さを推定するのに用いられる。この係数はまた、非特許文献１でも用いられている。

ここでＣ_Ｃ及びＣ_Ｅは対訳コーパス中での中国語の単語ｃと英語の単語ｅとの出現数をそれぞれ表し、Ｃ_ＣＥは対訳コーパス中の単語ｃ及びｅの共起数を表す。この値が高ければ（低ければ）単語の対｛ｃ，ｅ｝が密接に（ゆるく）関連していることを示す。ダイス係数は大型の対訳コーパス中の単語対について前もって計算しておき、表として記憶しておいてもよい。中国語の単語ｃと英語の単語ｅとを与えられれば、計数Ｄｉｃｅ（ｃ，ｅ）を表から容易に見出すことができる。

２．対訳辞書
２つの単語についての第２の尺度パラメータはＢｉ−ｄｉｃ尺度であり、これは対訳辞書中の単語対の共起確率を示す。もし単語対が辞書中の同じエントリに存在すれば、これらを互いに対応付けできる確率は高い。しかし、ひとつの言語に属する多くの単語が、別の言語の単一の単語に常に翻訳できるとは限らない。ソース言語中の単語は、別の言語では複合語として翻訳されうるし、その逆もある。中国語と英語といった、統語的にかなり異なる言語間の翻訳では特にそうである。

そこで、中国語の単語ｃと英語の単語ｅとのＢｉ−ｄｉｃを以下のように計算する。

ここでＳｉｍ（ｅ，Ｔ）は英語の単語ｅと、対訳辞書中で見出された中国語の単語ｃの英訳Ｔの組との類似性を表し、｜ｅ_ｉ｜は英語の句ｅｉを構成する単語の数を示す。｜ｅ_ｉ｜は１つ、２つ、又はそれ以上でありうる。

ここで対応付けのために考える単語対を（ｃ，ｅ）とする。辞書中でｃの訳Ｔを探す。ｃの訳Ｔとしては多数の訳がありうる。上の式で与えられるＴとｅとを比較する。Ｔにおけるｅ_ｉの訳の各々について、もし１対１の一致があるならば、すなわち、もしｅ＝ｅ_ｉであれば、スコアは１となる。そうでなければ、スコアは１／Ｎとなる。ここでＮ＝｜ｅ_ｉ｜はｅ_ｉ中に単語ｅが存在する場合の訳ｅ_ｉ中の単語の数であり、存在しない場合スコアは０である。もし単語ｅがいくつかの訳に一致する場合は、最大値のみをとる。

３．文中の単語の相対位置（Ｒｅｌｐｏｓ）
このパラメータは対応付行列の対角空間に近接して単語を対応付けする傾向を学習するのに用いられる。Ｒｅｌｐｏｓは以下のように計算される。

ここでＣ及びＥはそれぞれ、文の対における中国語の文と英語の文とを示す。

４．ＰＯＳタグ
単語のＰＯＳラベルは、この実施の形態では、辞書的な単語のスパースネスを減じるために、両方の言語について素性のパラメータとして用いられる。中国語のテキストと英語のテキストとで用いられるＰＯＳタグ付部は、この実施の形態では同様のＰＯＳタグの組を共有する。異なるＰＯＳタグの組も同じようにうまく働くであろうが、正確さはおそらく低くなるであろう。この実施の形態では、対訳コーパス中の単語にＰＯＳタグが割当てられていると仮定する。

５．ステム化
スパースネスを減じるために、屈折語の語幹又は見出し語が用いられる。この実施の形態では、英語にのみ語幹を用いる。この実施の形態では、対訳コーパス中の単語に語幹又は見出し語が割当てられていると仮定する。

６．文脈素性
現在の単語（ソース及びターゲット）の前後の文脈を用いる。文脈は上述の素性パラメータ、ＰＯＳ及びステム化を含む。

素性は、ユニグラム、バイグラム又はトライグラムで符号化されうる。文脈素性（前後）を素性の組にさらに追加してもよい。この実施の形態で用いられる素性の組については、図８を参照してさらに説明する。

対応付モデルは文対応付コーパス中で単語の対応付けに用いられ、これは、句ベースの機械翻訳システムにおいて翻訳モデルを作成するのに用いられる。このモデルは単語対応付けに高い精度と同程度の再現率とを生じさせる。この結果、翻訳品質もまた改善される。

再現率を増加させるために、ヒューリスティックモデルもまた用いられる。文ｓを文ｔと対応させると、ＣＲＦモデルから出力される単語対応付出力は図１０に示すようになる。いくつかヌルリンクがあるが、（ｓ３ｓ４）（ｔ４ｔ５ｔ６）、これは単語がどの単語とも対応しなかったことを意味する。

ここで、ヒューリスティックによれば、ソース（ｓ３ｓ４）中の２つの単語をターゲットの３つの単語（ｔ４ｔ５ｔ６）に対応付けることができる。この結果を図１１に示す。

この種の対応付けは、各々の側で最大３単語までに制限する。この方法により、再現率を増加できるだけでなく、翻訳モデル中の句の生成を制限できるので、翻訳の品質がさらに向上する。ここで注目すべきことは、ヒューリスティックルールが最も有効なのは、単語の順序が互いにそれほど広く異ならない、中国語と英語といった特定の言語対である、ということである。例えば、日本語と英語との場合、語順が互いに大きく異なるため、このルールは有効でない。

[システム構成]
図２を参照して、この発明の一実施の形態にしたがった翻訳モデル生成システム７０は、小規模の単語対応付対訳コーパス８０と大規模な文対応付対訳コーパス９４とから、統計的翻訳モデル７６を生成する。この実施の形態では、単語対応付対訳コーパス８０を用いてＣＲＦ単語対応付モデルの学習を行ない、次にこれを用いて、文対応付対訳コーパスにおいて文の対の単語を対応付ける。

単語対応付対訳コーパス８０は人の手で対応付けされた中国語と英語の対訳コーパスである。中国語の文が前もってセグメント化され、中国語と英語の全ての単語が適切なＰＯＳタグでラベル付されている。さらに、単語対応付対訳コーパス８０において文の各対中の単語対の各々に、対応付リンクが規定されている。この実施の形態では、２種類の対応付リンクが用いられる。「対応あり」と「対応なし」である。これらの対応付けは、コンピュータ上ではそれぞれ「０」と「１」とで示されうる。別の実施の形態では、４種類の対応付リンクが規定できる。強、弱、偽、ヌル、である。強リンクは、非常に良い訳となっている単語をさす。複合語及びいくつかの対応は弱リンクで表すことができるだろう。強リンクと弱リンクとはともに、純粋なリンクと考えられる。冠詞及び前置詞等の機能的単語の対応は偽リンクを用いて示される。ヌルリンクはどの単語とも対応しない単語を示す。これらのリンクはそれぞれ「０」、「１」、「２」及び「３」で表される。

図２を参照して、翻訳モデル生成システム７０は、文対応付対訳コーパス７２内で出現する単語対の各々について、ダイス係数計算部７４で計算可能なダイス係数を記憶するダイス係数テーブル８２と、予め定められた中国語と英語との対訳辞書８６を記憶する記憶部と、ダイス係数テーブル８２と対訳辞書８６とを参照して、単語対応付対訳コーパス８０内の文の対の各々において中国語と英語の単語の組合せの各々について素性パラメータの組を抽出し、学習データセット８８を出力する素性抽出モジュール８４と、学習データセット８８からＣＲＦ単語対応モデル９２を作成するためのＣＲＦモジュール９０とを含む。素性抽出モジュール８４は各素性の組に、単語対応付対訳コーパス８０にしたがって、単語対が対応付けられているか否かを示す対応ラベル「０」又は「１」を割当てる。

ＣＲＦモデルの学習は比較的複雑な処理である。しかし、この目的のためのプログラムツールキットは広く入手可能である。例えば、オープンソースのＣＲＦ＋＋ツールキットがhttp://crfpp.sourceforge.net/で入手可能であり、Ｍａｔｌａｂ（登録商標）用ＣＲＦツールキットがhttp://www.cs.ubc.ca/~murphyk/Software/CRF/crf.htmlで入手可能である。

翻訳モデル生成システム７０はさらに、ＣＦＲ単語対応モデル９２、ダイス係数テーブル８２及び対訳辞書８６を用いて、文対応付対訳コーパス９４内の文の対の各々の単語を対応付けるための対応付モジュール９６と、対応付モジュール９６によって単語の対応付けがなされた単語対応付対訳コーパス９８を記憶する記憶部と、対訳コーパス９８内で単語対応付けされた中国語と英語との可能な組合せの確率を計算することにより、翻訳モデルを生成する翻訳モデル生成部１００と、を含む。

図３は各々が英語の文と中国語の文とを含む、２つの文の対１２０及び１２２を示す。図４は図３に示された文の対の単語対応付けの例を示す。ここで○の中に＋の記号は強リンクを示し、○の中に点・の記号は弱リンクを示し、○の中に×の記号は偽リンクを示す。単純な点「・」はヌルリンク（対応なし）を示す。

中国語と英語とはかなり異なる統語構造を有する。このため、これらの間の翻訳が対角線上の行列空間で対応付けられないことがしばしばである。図４（Ａ）では対応付けがほぼ対角線上にあるが、図４（Ｂ）の別の例では対応付けは行列にわたって分散している。図４（Ｂ）に示すような対応付けを解決するのは困難である。

翻訳モデル生成システム７０において、単語対応付けはシーケンシャルなラベル付問題として扱われる。単語対の各々には素性抽出モジュール８４によって何らかの素性と所望の出力が割当てられ、ＣＲＦモジュールによる識別モデルＣＲＦを用いて学習が行なわれる。ＣＲＦはシーケンシャルなデータのラベル付に効率的であることが分かっている。さらに、これは形態素解析、構文解析、固有名詞表現認識、情報抽出及びテキストのチャンク化等の様々なＮＬＰ（ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ：自然言語処理）で用いられている。ここでは、簡単で高速なパブリックドメインの学習ツールＣＲＦ＋＋を用いて学習とデコードとを行なった。

図５を参照して、素性抽出モジュール８４は、単語対応付対訳コーパス８０の文の各対を予め定められたシーケンスで取出すための文対抽出モジュール１３８と、文対抽出モジュール１３８によって取出された文の対中の単語対の各々を取出す単語対抽出モジュール１４０と、単語対抽出モジュール１４０によって取出された単語対について、ダイス係数テーブル８２のダイス係数を検索するためのダイス係数ルックアップモジュール１４２と、単語対抽出モジュール１４０によって取出された単語対のＰＯＳタグを抽出するＰＯＳタグ抽出部１４４と、単語対抽出モジュール１４０によって取出された単語対の相対的文位置（Ｒｅｌｐｏｓ）を計算するためのＲｅｌｐｏｓ計算部１８６と、対訳辞書８６を用いて単語対抽出モジュール１４０によって取出された単語対のＢｉ−ｄｉｃ尺度を計算するＢｉ−ｄｉｃ尺度計算部１４８と、単語対抽出モジュール１４０によって取出された単語対の英語部分の語幹又は見出し語を見出すためのステム化モジュール５０と、を含む。

単語対抽出モジュール１４０はｎ×ｍの単語対のリストを構築する。ここで、ｎは単語対応付対訳コーパス８０における中国語単語の数であり、ｍは英単語の数である。素性抽出モジュール８４の役目は、これら単語対の各々について、所望の出力（対応付ラベル）を含む素性の組を生成することである。

素性抽出モジュール８４はさらに、文対抽出モジュール１３８によって取出された文対の各々において、単語対抽出モジュール１４０によって抽出された単語対の各々を、ダイス係数ルックアップモジュール１４２、ＰＯＳタグ抽出部１４４、相対的文位置計算部１４６、Ｂｉ−ｄｉｃ尺度計算部１４８及びステム化モジュール１５０により出力されるその特徴パラメータと、対応付ラベルとともに記憶する素性メモリ１５２と、ダイス係数ルックアップモジュール１４２、ＰＯＳタグ抽出部１４４、相対的文位置計算部１４６、Ｂｉ−ｄｉｃ尺度計算部１４８及びステム化モジュール１５０の動作が完了したことに応答して、単語対抽出モジュール１４０によって取出された単語対のバイグラム及びトライグラム素性と文脈素性とを生成するマルチグラム／文脈素性生成部１５４と、を含む。

マルチグラム／文脈素性生成部１５４がバイグラム及びトライグラム素性と文脈素性との生成を完了すると、これらの素性が素性メモリ１５２に記憶される。マルチグラム／文脈素性生成部１５４は記憶部に制御信号を出力して学習データセット８８（図２を参照）を記憶させるので、記憶部は素性メモリ１５２に記憶された単語をその素性パラメータとともに読出し、記憶する。

図６は、Ｂｉ−ｄｉｃ尺度計算部１４８がどのように単語対（ｃ，ｅ）のＢｉ−ｄｉｃ尺度を計算するかを例示する。はじめに、中国語の単語ｃの翻訳を対訳辞書８６から検索する。ここで、対訳辞書８６においてエントリＴが中国語の単語ｃに対応すると認められた、と仮定する。さらに、エントリＴが中国語の単語ｃに対する３個の翻訳ｅ_１、ｅ_２及びｅ_３を含み、翻訳ｅ_１は２つの英単語ｅ_１１及びｅ_１２を含むと仮定する。

Ｂｉ−ｄｉｃ（ｃ，ｅ）の定義にしたがって、Ｓｉｍ（e，ｅ_ｉ）（ｉ＝１，２，３）がまず計算される。ｅ_１はｅ_１１とｅ_１２とからなるので、｜ｅ_１｜＝２となる。したがって、ｅ＝ｅ_１１又はｅ＝ｅ_１２であればＳｉｍ（e，ｅ_ｉ）＝１／２であり、そうでなければ０である。ｅ_２及びｅ_３の各々が１単語からなると仮定すれば、｜ｅ_２｜＝｜ｅ_３｜＝１である。したがって、もしｅ＝ｅ_２であればＳｉｍ（ｅ，ｅ_２）＝１であり、そうでなければ０であり、もしｅ＝ｅ_３ならばＳｉｍ（ｅ，ｅ_３）＝１であり、そうでなければ０である。したがって、Ｂｉ−ｄｉｃ（ｃ，ｅ）＝Ｍａｘ（Ｓｉｍ（ｅ，ｅ_ｉ）（ｉ＝１，２，３））＝１である。この処理は直截的であり、コンピュータプログラムでの実現化が容易である。

図７は中国語の文１８０と英語の文１９０とを含む文の対の、ユニグラム素性の組を示す。ここで、中国語の文１８０はＮｃ個の単語Ｃ−ｗｏｒｄ（０）からＣ−ｗｏｒｄ（Ｎｃ−１）を含むと仮定し、英語の文１９０はＮｅ個の単語Ｅ−ｗｏｒｄ（０）からＥ−ｗｏｒｄ（Ｎｅ−１）を含むと仮定する。したがって、ここでは図７の行列に示すようなＮｃ×Ｎｅの単語対がある。

単語対Ｃ−ｗｏｒｄ（ｊ）及びＥ−ｗｏｒｄ（ｊ）の各々について、特徴抽出モジュール８４はＤｉｃｅ（ｉ，ｊ）、Ｂｉ−ｄｉｃ（ｉ，ｊ）、及びＲｅｌｐｏｓ（ｉ，ｊ）、ＰＯＳ（ｉ）、ＰＯＳ（ｊ）、ｓｔｅｍ（ｊ）を計算し、対応付ラベル（ｉ，ｊ）を割当てる。

図８は単語対Ｃ−ｗｏｒｄ（ｊ）及びＥ−ｗｏｒｄ（ｊ）の素性の組の例を示す。図８を参照して、素性の組１５６はユニグラム素性サブセット２２０と、バイグラム素性サブセット２２２と、トライグラム素性サブセット２２４と、ユニグラム文脈（前後）素性サブセット２２６及び２２８と、バイグラム文脈（前後）素性サブセット２３０及び２３２と、所望の出力２３４（対応付ラベル）と、を含む。

図９を参照して、対応付モジュール９６は、文対抽出モジュール２５８と、単語対抽出モジュール２６０と、ダイス係数ルックアップモジュール２６２と、ＰＯＳタグ抽出部２６４と、相対的文位置計算部２６６と、Ｂｉ−ｄｉｃ尺度計算部２６８と、ステム化モジュール２７０と、素性メモリ２７２と、マルチグラム／文脈素性生成部２７４と、を含み、これらはそれぞれ、図５に示された文対抽出モジュール１３８と、単語対抽出モジュール１４０と、ダイス係数ルックアップモジュール１４２と、ＰＯＳタグ抽出部１４４と、相対的文位置計算部１４６と、Ｂｉ−ｄｉｃ尺度計算部１４８と、ステム化モジュール１５０と、素性メモリ１５２と、マルチグラム／文脈素性生成部１５４とに対応する。

対応付モジュール９６はさらに、マルチグラム／文脈素性生成部２７４によるマルチグラム／文脈生成の完了に応答して、文対抽出モジュール２５８によって取出された文の各々について素性メモリ２７２に記憶された各単語対に「対応あり」（「０」）又は「対応なし」（「１」）の対応付ラベルを決定するＣＲＦ単語対応付モデル９２と、対応付ラベルとともに文の対を記憶する対応付メモリ２７６と、対応付メモリ２７６に記憶された文の対にヒューリスティックな対応付ルールを適用して文対のリンクのない単語にリンクを付加するためのヒューリスティックルールベース対応付モジュール２７８と、を含む。ヒューリスティックルールベース対応付モジュール２７８の出力が、文対抽出モジュール２５８によって取出された文対の最終的な対応付である。文対応付対訳コーパス９５の文対の各々について対応付を繰返すことで、単語対応付対訳コーパス９８が生成される。ＣＲＦは、学習後、適用される素性の組に応じて対応付ラベルを出力するように学習される。

[動作]
この実施の形態の翻訳モデル生成システム７０は以下のように動作する。ダイス係数８２は、文対応付対訳からダイス係数計算部７４によって生成され、単語対応付対訳コーパス８０内の各文対の各単語はセグメント化されかつ適切なＰＯＳタグを付され、さらに翻訳モデル生成システム７０は対訳辞書８６を使用可能である、と仮定する。

素性抽出モジュール８４内の文対抽出モジュール１３８は、単語対応付対訳コーパス８０内の第１の文の対を取出し、取出された文の対を文対抽出モジュール１４０に与える。これに応じて、単語対抽出モジュール１４０はその文対で可能な全ての中国語と英語の単語を生成する。単語対の各々について、単語対抽出モジュール１４０はこれをダイス係数ルックアップモジュール１４２、ＰＯＳタグ抽出部１４４、相対的文位置計算部１４６、Ｂｉ−ｄｉｃ尺度計算部１４８、及びステム化モジュール１５０に与える。単語対抽出モジュール１４０はまた、単語対と単語対のそれぞれの素性の組とを記憶するための素性テーブルを素性メモリ１５２に作成する。単語対抽出モジュール１４０はまた、各単語対について、素性テーブルの適切な欄に所望の出力として、「対応あり」又は「対応なし」のラベルを記憶する。

ダイス係数ルックアップモジュール１４２はダイス係数テーブル８２の中国語単語と英単語との間のダイス係数を探し、素性テーブルの適切な欄にそのダイス係数を記憶する。

ＰＯＳタグ抽出部１４４は与えられた単語対からＰＯＳタグを抽出し、ＰＯＳタグを素性メモリ１５２の適切な欄に記憶する。

相対的文位置計算部１４６は与えられた単語対における中国語単語と英単語とのＲｅｌｐｏｓを計算し、そのＲｅｌｐｏｓ値を素性テーブルの適切な欄に記憶する。

Ｂｉ−ｄｉｃ尺度計算部１４８は与えられた単語対における中国語単語と英単語との間のＢｉ−ｄｉｃ尺度を計算し、そのＢｉ−ｄｉｃ値を素性テーブルの適切な欄に記憶する。

ステム化モジュール１５０は与えられた単語対中の英単語の語幹又は見出し語を探し、その語幹又は見出し語を素性テーブルの適切な欄に記憶する。

モジュール１４２、１４４、１４６、１４８及び１５０の各々は、単語対抽出モジュール１４０から与えられた単語対についてその動作を完了すると、単語対抽出モジュール１４０に完了信号を出力する。これに応じて、単語対抽出モジュール１４０は取りだした文から次の単語対を取出し、その単語対をモジュール１４２、１４４、１４６、１４８及び１５０に与える。この単語対に対して、上述の素性計算処理が繰返される。

文対抽出モジュール１３８によって取出された文対中の単語対全てに関しユニグラム素性が計算され素性テーブルに記憶されると、単語対抽出モジュール１４０は文対抽出モジュール１３８に完了信号を出力する。これに応じて、文対抽出モジュール１３８は単語対応付対訳コーパス８０から第２の文対を取出し、これを単語対抽出モジュール１４０に与える。第２の文対は第１の文対と同様に処理され、第２の文対中の単語対の各々に対しユニグラム素性の組が素性テーブルに記憶される。

この動作は単語対応付対訳コーパス８０内の全ての文の対に対して繰返される。全ての文対が処理されそのそれぞれのユニグラム素性の組が素性テーブルに記憶されると、文対抽出モジュール１３８はマルチグラム／文脈素性生成部１５４に完了信号を出力する。これに応じて、マルチグラム／文脈素性生成部１５４は素性の組に記憶された単語対の全てについて、バイグラム、トライグラム及び文脈素性を生成する。

マルチグラム／文脈素性生成部１５４による動作が完了すると、これは記憶部に制御信号を出力して学習データセット８８を記憶させる（図２を参照）。これに応じて、記憶部は素性メモリ１５２内に素性テーブルを記憶し、これはＣＲＦ単語対応付モジュール９２によって学習データセットとして用いられる。

学習データセット８８が利用可能になると、ＣＲＦモジュール９０はＣＲＦ単語対応付モジュール９２の学習を開始する。ＣＲＦ単語対応付モジュール９２の学習が完了すると、大型のコーパスである文対応付対訳コーパス９４をＣＲＦ単語対応付モジュール９２を用いて単語対応付けすることができる。

図９を参照して、特徴抽出モジュール８４の文対抽出モジュール１３８の場合と同様に、文対抽出モジュール２５８は文対応付対訳コーパス９４内の第１の文対を取出す。文対抽出モジュール２５８はこの文対を単語対抽出モジュール２６０に与える。

これに応じて、単語対抽出モジュール２６０はその文の対で可能な中国語単語と英単語との全ての単語対を生成する。単語対の各々について、単語対抽出モジュール２６０はこれをダイス係数ルックアップテーブル２６２、ＰＯＳタグ抽出部２６４、相対的文位置計算部２６６、Ｂｉ−ｄｉｃ尺度計算部２６８及びステム化モジュール２７０に与える。単語対抽出モジュール２６０はまた、素性メモリ２７２内に素性テーブルを作り、単語対と、単語対のそれぞれの素性の組とを記憶する。

ダイス係数ルックアップモジュール２６２、ＰＯＳタグ抽出部２６４、相対的文位置計算部２６６、Ｂｉ−ｄｉｃ尺度計算部２６８及びステム化モジュール２７０は、図５のダイス係数ルックアップモジュール１４２、ＰＯＳタグ抽出部１４４、相対的文位置計算部１４６、Ｂｉ−ｄｉｃ尺度計算部１４８及びステム化モジュール１５０と同様に動作する。したがって、それらの動作はここでは繰返さない。計算された、又は抽出された素性は素性メモリ２７２の適切な欄に記憶される。

モジュール２６２、２６４、２６６、２６８及び２７０がそれぞれの役割を完了すると、これらは単語対抽出モジュール２６０に完了信号を出力する。これに応じて、単語対抽出モジュール２６０は次の単語対を取出し、その単語対をモジュール２６２、２６４、２６６、２６８及び２７０に与える。こうして上述の動作がこの単語対に対しても実行され、次のユニグラム素性の組が生成されて素性メモリ２７２に記憶される。

第１の文の対中の全ての単語対が処理されると、単語対抽出モジュール２６０はマルチグラム／文脈素性生成部２７４に制御信号を送る。これに応じて、マルチグラム／文脈素性生成部２７４は素性メモリ２７２内の単語対の素性セットの各々に対し、バイグラム、トライグラム及び文脈素性を生成する。

バイグラム、トライグラム及び文脈素性が生成されると、関心のある文対についての素性の組が完成する。マルチグラム／文脈素性生成部２７４はＣＲＦ単語対応付モジュール９２に制御信号を送り、これによってＣＲＦ単語対応付けのための素性の組の準備が整ったことになる。

これに応じて、素性の組が素性メモリ２７２から読出され、ＣＲＦ単語対応付モジュール９２に与えられる。これに応じて、ＣＲＦ単語対応付モジュール９２は関心のある文対の単語対の各々に、単語対応付ラベルの組を出力する。文の対は、単語対応付ラベルとともに、対応メモリ２７６に記憶される。

対応メモリ２７６に記憶された文の対はさらに、ヒューリスティックルールベース対応付モジュール２７８に与えられ、ここでは単語対応付けされた文の対にヒューリスティックルールが適用され、最終的な対応付け結果が出力されて対訳コーパス９８（図２）に記憶される。

第１の文の単語対応付けが完了すると、ヒューリスティックルールベース対応付モジュール２７８は次の文の対に対する処理を開始してよいことを示す制御信号を送信する。

これに応じて、文対抽出モジュール２５８は文対応付対訳コーパス９４内の第２の文対を取出し、この文の対を単語対抽出モジュール２６０に与える。こうして、第１の文の対に対して実行された処理が、第２の文の対に対して繰返される。

文対応付対訳コーパス９４内の文の対の各々について上述の動作を繰返すことにより、対訳コーパス９８を作成することができる。文の対には単語対応付ラベルが付されているので、翻訳モデル生成部１００は対訳コーパス９８内の単語対応付を処理することで翻訳モデル７６を生成することができる。

上述の実施の形態では、「対応あり」及び「対応なし」の２つの対応付ラベルを用いた。しかし、先にも述べたように、この発明はこのような実施の形態に限定されるものではなく、３種類又はそれ以上のラベルを用いることもできる。例えば、強、弱、偽、ヌルのリンクを含む４つのリンクを用いてもよい。この場合、単語対応付対訳コーパス８０（図２）内の文の対は、これら４つの対応付ラベルのそれぞれでラベル付けされることになる。

[実験]
実験的セットアップ
上述の実施の形態は簡潔の目的のため２つの対応付けラベル（「対応あり」と「対応なし」）を用いたシステムを扱ったが、実験では４つの対応付けラベル（強、弱、偽、ヌル）を用いた。さらに、ＣＲＦ対応付けのために、出願人が用意した中国語と英語との人手で対応付けした基本旅行表現コーパス（ＢａｓｉｃＴｒａｖｅｌｅｒＥｘｐｅｒｓｓｉｏｎＣｏｒｐｕｓ：ＢＴＥＣ）を用いた。これは３５，３８４個の文対と３６９，５８７個のリンクとからなる。これらのリンクのうち、５４．１７％が強リンク、２５．３４％が弱リンク、２０．４９％が偽リンクである。

対応付けの実験結果
単語対応付けの実験において、１０００個の文対を取置データとして、また９９９個の文対をテスト用データとして、ランダムに選択した。最後に、３３Ｋを学習データとして保持した。

対応付誤り率（Ａｌｉｇｎｍｅｎｔｅｒｒｏｒｒａｔｅ：ＡＥＲ）は非特許文献３で提案された対応付作業のための尺度パラメータである。ＡＥＲは確実なリンク及び可能なリンク（ＳｕｒｅａｎｄＰｏｓｓｉｂｌｅｌｉｎｋｓ）に基づいて計算される。しかし、ＡＥＲは翻訳品質（ＢＬＥＵスコア）との相関がないとされている。再現率と精度とのトレードオフを変更することで計算されるＦ−値のほうが、良好な相関を有する。この研究では、再現率（α）と精度（１−α）とに適用される重みとして、定数αを用いた。値が０．５より低ければ再現率の方に重きが置かれ、逆もまた成り立つ。良好なαの設定を見出すことは単純でなく、言語対とコーパスのサイズに大きく依存する。このため、ここでは単純なバランスのとれたＦ−値であるα＝０．５のみを用いて、この対応付モデルの性能を評価した。

ここでは、対応付けの正確さを、以下の式で与えられるように、精度、再現率及びＦ−値を用いて測定した。ここで、Ａは標準となる対応付けを表し、Ｓは得られた対応付けを表し、Ａ∩Ｓは正しい対応付けを表す。この場合、異なる種類のリンクは考慮しない。

テーブル１は完全なモデルから各素性を減算したときに得られた結果を示す。これは、どの素性がこの発明の課題に有用であるかを見出すために行なわれた。

テーブル１からわかるように、最も有用な素性はダイスであり、これに相対位置と対訳辞書とが続く。ＰＯＳタグとステム化とはＦ−値をそれほど改善しない（場合によっては劣化させる）が、精度は改善する。文脈の素性を付加することで、正確さがさらに改善される。これまで、文脈素性を除くすべての素性はユニグラムであった。いくつかのバイグラム素性とトライグラム素性とを試したところ、増分的な改善があった。バイグラム素性とトライグラム素性との組合せは、取り置いたデータを用いて決定された。実験で用いた素性を図８に示す。

最後に、全ての素性を加えることにより、最高のＦ−値である８４．５９ポイントを得た。この素性の組では、ダイスと対訳辞書素性とは発明の学習コーパスから独立である。したがって、もしより大型の対訳文対応付済コーパスを得ることができれば、ダイスを再計算することができる。テーブル１の最終行で見られるように、１６０Ｋの文対応付コーパスを用いて計算したダイスを用いれば、Ｆ−値を８４．７４までさらに増加させることができる。現在、この実験のためにはより大きな対訳辞書はないが、より良い、より大型の対訳辞書があればこのモデルは確実にさらに改善されるであろう。さらに、ヒューリスティックなモデルを用いてより多くの対応を付加すれば、Ｆ−値を８４．８５まで改善できる。

人手で対応付けた学習コーパスを得ることは容易ではない。これは資源と時間とを消費する。発明の方法は学習コーパスを必要とするので、合理的な結果を得るのに必要な学習データの量を決定しておきたい。図１２は正確さに対する学習コーパスのサイズをグラフ出力したものである。学習用文が１０，０００を超えると正確さの増分がゆっくりになる。したがって、何らかの新たな言語対のためにＣＲＦ単語対応付モデルを学習するには、約１０，０００個の文の対があれば十分と結論づけることができる。

次に、グロー−ダイアゴナル（ｇｒｏｗ−ｄｉａｇｏｎａｌ）モードにより調整したＧＩＺＡ＋＋を用いて得られた精度と、この発明のＣＲＦ単語対応付モデルを用いたものとを比較したい。

ＡＥＲは翻訳の品質とは相関がないが、これは依然として、対応付作業の評価尺度として慣用されている。このため、他のモデルとの比較のため、ＡＥＲも計算した。コーパスにはＡＥＲで規定されるような注釈をつけていないので、可能なのは推定のみである。ここでは、本件の強リンクと弱リンクとがその確実な（Ｓｕｒｅ：Ｓ）リンクと等しいものと仮定し、偽リンクがその可能な（Ｐｏｓｓｉｂｌｅ：Ｐ）リンクとなる。したがって、以下の式をこのＡＥＲの尺度として規定する。

ここでＡ＝システム出力、Ｓ＝強＋弱リンク、Ｐ＝強＋弱＋偽リンクである。

テーブル２は各種リンクの各々の結果と、ＧＩＺＡ＋＋との比較である。スーパーアラインは強リンクのラベル付けに関するかぎり良好に動作する、なぜなら、これらは最も容易に検出できるリンクだからである。その性能は弱リンクでは良いが、偽リンクではあまり満足のいくものではない。先に説明したように、偽リンクはほとんどの場合機能的な単語であって、互いの直接の翻訳ではない。対応付けを決定するにあたって、これらは文脈に大いに依存する。言換えれば、文脈によってある単語が異なる単語とリンク付されうるので、曖昧性が高い。したがって、偽リンクの対応付けの精度は低い。

この実験では、２つのＧＩＺＡ＋＋モデルを学習した。第１のモデルは、取置データとテスト用データを含めた３５Ｋ学習データの全てを用いた。第２のモデルはテスト用データのみを用いた。結果は、第２のモデルの結果が第１のものよりかなり悪かった。これはまた、ＧＩＺＡ＋＋で良い性能を得るためには、より大型の学習コーパスが必要であることを示した。これに対して、スーパーアラインは、わずかに１０００個の文対を用いて学習した場合でさえ、（３５Ｋで学習した）ＧＩＺＡ＋＋と等しい結果が得られた。完全な学習データを用いると、スーパーアラインはＧＩＺＡ＋＋を約７％上回った。スーパーアラインの最大の利点は、得られる精度である。ＧＩＺＡ＋＋は再現率は良いが、精度が比較的低い。スーパーアラインは学習データの小型の組でも、常に高い精度を保証する。しかし、文の対が１０００個のみでは、ＧＩＺＡ＋＋に比べて再現率は極めて低い。もっとも、Ｆ−値とＡＥＲとの結果は同等である。しかし、文の対が５０００になると、スーパーアラインは大きなマージンをもってＧＩＺＡ＋＋より良好になる。

[コンピュータによる実現]
上述の実施の形態は、コンピュータシステムと、コンピュータシステム上で動作するコンピュータプログラムとによって実現されうる。図１３はこの実施の形態で用いられるコンピュータシステム３３０の外観を示し、図１４はコンピュータシステム３３０のブロック図である。ここに示すコンピュータシステム３３０は単なる例示であって、他の構成も利用可能である。

図１３を参照して、コンピュータシステム３３０は、コンピュータ３４０と、全てコンピュータ３３０に接続された、モニタ３４２、キーボード３４６、マウス３４８、スピーカ３７２及びマイクロフォン３７０とを含む。さらに、コンピュータ３４０は、ＤＶＤ−ＲＯＭ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ：ディジタル多用途読出し専用メモリ）ドライブ３５０と、半導体メモリドライブ３５２とを含む。

図１４を参照して、コンピュータ３４０はさらに、ＤＶＤ−ＲＯＭドライブ３５０と半導体メモリドライブ３５２とに接続されたバス３６６と、全てバス３６６に接続された、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ：中央処理装置）３５６、コンピュータ３４０のブートアッププログラムを記憶するＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ：読出し専用メモリ）３５８、ＣＰＵ３５６の作業領域を提供するとともにＣＰＵ３５６によって実行されるプログラムの記憶領域を提供するＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ：ランダムアクセスメモリ）３６０、並びに単語対応付対訳コーパス８０、文対応付対訳コーパス９４、対訳コーパス９８、及び翻訳モデル７６を記憶するハードディスクドライブ３５４とを含む。

上述の実施の形態のシステムを実現するソフトウェアは、ＤＶＤ−ＲＯＭ３６２又は半導体メモリ３６４等の記憶媒体に記録されるオブジェクトコードの形で配布され、ＤＶＤ−ＲＯＭドライブ３５０又は半導体メモリドライブ３５２等の読出装置によってコンピュータ３４０に与えられ、ハードディスクドライブ３５４に記憶されてもよい。ＣＰＵ３５６がプログラムを実行するときは、プログラムはハードディスクドライブ３５４から読出され、ＲＡＭ３６０に記憶される。図示しないプログラムカウンタによって指示されるアドレスから命令がフェッチされ、その命令が実行される。ＣＰＵ３５６は処理すべきデータをハードディスクドライブ３５４から読出し、処理結果をまたハードディスクドライブ３５４に記憶する。

コンピュータシステム３３０の一般的動作は周知であるので、詳細な説明はここでは行なわない。

ソフトウェア配布の方法については、これを記憶媒体に固定することは必ずしも必要でない。例えば、ソフトウェアはネットワークに接続された別のコンピュータから配布されてもよい。ソフトウェアの一部をハードディスクドライブ３５４に記憶させ、ソフトウェアの残りの部分をネットワークを介してハードディスクに取込み、実行時に統合してもよい。

典型的には、現代のコンピュータはコンピュータのオペレーティングシステム（ＯＳ）によって提供される一般的な機能を利用し、所望の目的にしたがって制御されたやり方で機能を実行する。さらに、サードパーティによって提供されるコンピュータプログラムツールキット又はツールボックスは基本的なものだけでなく、翻訳モデル生成システムの構築ブロックを提供する洗練されたプログラムもある。したがって、ＯＳ又はサードパーティによって提供されうる一般的な機能を含まず、単に構築ブロック機能の実行順序の組合せを指示するのみのプログラムも、そのプログラムが全体として所望の目的を達成するのであれば、この発明の範囲に含まれる。

[終りに]
この実施の形態では、識別的モデルであるＣＲＦを用いて、教師あり単語対応付けを導入した。対応付けを、シーケンシャルなラベル付問題として扱い、モデルを学習して、単語対の各々に、文中の単語間の関係を示すラベルを付与させた。すなわち、強リンク、弱リンク、偽リンク又はヌルリンクである。単語対には、ダイス係数、相対位置、対訳辞書に基づく類似度、ＰＯＳタグ及び単語の語幹といった、有用な素性を与えた。さらに、文脈上の素性、すなわち現在の単語対の回りの単語及びＰＯＳタグも規定した。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。

７０翻訳モデル生成システム
７６翻訳モデル
８０単語対応付対訳コーパス
８２ダイス係数テーブル
８４素性抽出モジュール
８６対訳辞書
８８学習データセット
９０ＣＲＦモジュール
９２ＣＲＦ単語対応付モデル
９４文対応付対訳コーパス
９６対応付モジュール
９８単語対応付対訳コーパス
１００翻訳モデル生成部
１３８、２５８文対抽出モジュール
１４０、２６０単語対抽出モジュール
１４２、２６２ダイス係数ルックアップモジュール
１４４、２６４ＰＯＳタグ抽出部
１４６、２６８Ｂｉ−ｄｉｃ尺度計算部
１５０、２７０ステム化モジュール
１５２、２７２素性メモリ
１５４、２７４マルチグラム／文脈素性生成部

Claims

第１の言語と第２の言語との入力文対において単語を対応付けるための装置であって、
前記第１及び第２の言語の第１の対訳コーパスを記憶する記憶部を含み、前記第１の対訳コーパスでは単語が対応付けられており、さらに
前記第１の対訳コーパス内の前記文対の各々について可能な単語対の各々に、予め定められた素性の組を抽出し対応付けラベルを割当てるための抽出手段を含み、前記対応付けラベルは前記可能な単語が対応ありか対応なしかを示すものであり、さらに、
前記第１の対訳コーパスについて前記抽出手段が抽出し割当てた前記素性の組と前記対応付けラベルとを用いて、条件付確率場（ＣＲＦ）単語対応付けモデルを学習するための学習手段と、
前記ＣＲＦ単語対応付けモデルを用いて、前記入力された文の対の単語を対応付けるための対応付け手段と、を含み、
前記抽出手段は
前記文の対の各々における各単語対に対しユニグラム素性の組を計算するための手段を含み、前記ユニグラム素性の組は単語対のダイス係数、単語対の品詞タグ、単語対の語幹又は見出し部、単語対の対訳辞書共起尺度、又は前記文の対中の単語対の相対的文位置、又はこれら素性のいずれかの組合せを含む、単語対応付け装置。
前記第２の単語は屈折語であり、前記ユニグラム素性の組はさらに、前記単語対の各々における前記第２の言語の単語の語幹又は見出し語を含む、請求項１に記載の装置。
前記ユニグラム素性の組はさらに、前記文の対のいずれかの文の先行する単語又は後続の単語について抽出された前記ユニグラム素性のいずれかを含む、請求項１又は請求項２に記載の装置。
前記素性の組はさらに、前記ユニグラム素性のマルチグラム組合せを含む、マルチグラム素性の組を含む、請求項１から請求項３のいずれかに記載の装置。
前記マルチグラム素性の組は前記ユニグラム素性の２つの組合せを１個又は２個以上含むバイグラム素性の組を含む、請求項４に記載の装置。
前記マルチグラム素性の組はさらに、前記ユニグラム素性の３つの組合せを１個又は２個以上含むトライグラム素性の組を含む、請求項５に記載の装置。
前記第１及び第２の言語の第２の対訳コーパスを記憶する記憶部をさらに含み、前記第２の対訳コーパスでは単語対応付けされておらず、さらに、
前記学習手段によって前記第２の対訳コーパス中の前記文の対の各々を単語対応付けさせることによって、前記第２の対訳コーパス中の文の対を対応付けるための手段を含む、請求項１から請求項６のいずれかに記載の装置。
コンピュータによって、第１の言語と第２の言語との入力文対において単語を対応付けるための装置を実現するためのコンピュータで実行可能なプログラムであって、前記プログラムは前記コンピュータを、
前記第１及び第２の言語の第1の対訳コーパスを記憶する記憶部として機能させ、前記第１の対訳コーパスは単語が対応付けられており、さらに
前記第１の対訳コーパス内の前記文対の各々について可能な単語対の各々に、予め定められた素性の組を抽出し対応付けラベルを割当てるための抽出手段として機能させ、前記対応付けラベルは前記可能な単語対が対応ありか対応なしかを示すものであり、さらに、
前記第１の対訳コーパスについて前記抽出手段が抽出し割当てた前記素性の組と前記対応付けラベルとを用いて、条件付確率場（ＣＲＦ）単語対応付けモデルを学習するための学習手段と、
前記ＣＲＦ単語対応付けモデルを用いて、前記入力された文の対の単語を対応付けるための対応付け手段と、として機能させ、
前記抽出手段は
前記文の対の各々における各単語対に対しユニグラム素性の組を計算するための手段を含み、前記ユニグラム素性の組は単語対のダイス係数、単語対の品詞タグ、単語対の語幹又は見出し部、単語対の対訳辞書共起尺度、又は前記文の対中の単語対の相対的文位置、又はこれら素性のいずれかの組合せを含む、コンピュータプログラム。