JP2010198438A - 文の対中の単語対応付装置及びそのコンピュータプログラム - Google Patents

文の対中の単語対応付装置及びそのコンピュータプログラム Download PDF

Info

Publication number
JP2010198438A
JP2010198438A JP2009043828A JP2009043828A JP2010198438A JP 2010198438 A JP2010198438 A JP 2010198438A JP 2009043828 A JP2009043828 A JP 2009043828A JP 2009043828 A JP2009043828 A JP 2009043828A JP 2010198438 A JP2010198438 A JP 2010198438A
Authority
JP
Japan
Prior art keywords
word
pair
sentence
feature
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009043828A
Other languages
English (en)
Other versions
JP5454763B2 (ja
Inventor
Chooi Ling Goh
チュイリン ゴー
Eiichiro Sumida
英一郎 隅田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2009043828A priority Critical patent/JP5454763B2/ja
Publication of JP2010198438A publication Critical patent/JP2010198438A/ja
Application granted granted Critical
Publication of JP5454763B2 publication Critical patent/JP5454763B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】扱われる言語の対に関わりなく、相当の再現率で高い精度を達成できる、文対応付済対訳コーパスの単語対応付けのための装置を提供する。
【解決手段】単語対応付け装置70は、単語対応付対訳コーパス80と、素性セットを抽出し、文の対の各々における各単語対に対応付ラベルを割当てる素性抽出モジュール84と、素性セットと対応付ラベルとを用いて、CRF単語対応付モデル92の学習を行なうCRFモジュール90と、CRF単語対応付モデル92を用いて入力された文の対の単語を対応付ける対応付モジュール96と、を含む。素性抽出モジュール84は、ダイス係数、POSタグ、語幹、Bi−dic尺度、又は単語対の相対的な文の位置、又はこれら素性のいずれかの組合せを含む、ユニグラム素性を計算する。素性セットはさらに、文脈素性又はマルチグラム素性を含んでもよい。
【選択図】 図2

Description

この発明は対訳の文の対での単語対応付に関し、特に、大規模な対訳の文の対でのより信頼性の高い単語の対応付けに関する。
統計的機械翻訳(statistical machine translation:SMT)システムにおいて、単語の対応付けは重要な役割を果たす。単語対応付けの出力を、新たな文のデコードに用いることができる。現在のSMTシステムのほとんどは、文単位で対応付済のパラレルコーパスから、生成モデルであるGIZA++(非特許文献3)を用いて自動的に単語を対応付けさせる。
図1はGIZA++を用いた先行技術の翻訳モデル生成システム40を示す図である。図1を参照して、従来の翻訳モデル生成システム40は、文対応付済対訳コーパス50の記憶部と、GIZA++を用いて文対応付対訳コーパス50内の文の対の各々において単語の対応付けを行なう対応付モジュール52と、対応付モジュール52から受けた単語対応付済コーパス54のための記憶部と、単語対応コーパス54を学習用データセットとして用いて翻訳モデル58の学習を行なうための、これも従来入手可能な翻訳モデル生成部56と、を含む。
GIZA++は、大規模な文対応付済対訳コーパスが用いられる場合は良好に動作する。しかし、生成モデルを用いて、コーパス中に出現しない単語及び疎なデータを扱うのは困難である。
現在の研究によれば、SMTシステムは、特に大規模な文対応付済対訳コーパスが存在する場合には、用例ベースの方法及びルールベースの方法に比べてより良い翻訳を生成することが示されている。SMTシステムでは、言語対の如何にかかわらず、パラレルな対訳コーパスがある限り、システムを容易に学習できる。しかし、これらのコーパスは典型的には文の対応付けがされているが、翻訳モデルを構築する前には、単語をその翻訳と自動的に一致させなければならない。その後、前提となる単語の対応付けを用いて、句のテーブルを構築する。句ベースのSMTでは、句テーブルはデコードの際に必要である。
長年にわたって、単語をより良く対応させることがより良い翻訳につながるか否かが論争の対象となってきた。最近の広範な評価によって、対応付けの正確さの向上が機械翻訳の改善につながることが示された。しかし、依然としてその間には一致の制約がある。したがって、良好な単語対応付モデルが依然として必要である。
フィル ブランソン及びトレヴァー コーン、2006.条件付確率場での識別的単語対応付け。COLING/ACL予稿集、65−72ページ。(Phil Blunsom and Trevor Cohn. 2006. Discriminative word alignment with conditional random fields. In Proceedings of COLING/ACL, pages 65-72.) ピーター F.ブラウン、ビンセント J.デッラピトラ、スティーブン A.デッラピトラ及びロバート L.マーサー。1993.統計的機械翻訳の数学:パラメータ推定。コンピュータ言語、19(2):263−311.(Peter F. Brown, Vincent J. Della Pietra, Stephen A. Della Pietra, and Robert L. Mercer. 1993. The mathematics of statistical machine translation: Parameter estimation. Computational Linguistics, 19(2):263-311.) フランツ ヨセフ オチ及びヘルマン ネイ。2003.種々の統計的対応付モデルの系統的比較。コンピュータ言語、29(1):19−52.(Franz Josef Och and Hermann Ney. 2003. A systematic comparison of various statistical alignment models. Computational Linguistics, 29(1):19-52.)
現在、IBMモデルに基づいた、GIZA++等の単語対応付生成モデル(非特許文献2)が、SMTシステムで広く用いられている。GIZA++は大規模なパラレルコーパスで学習すると良好な結果を与える。さらに、これは英語とドイツ語等の類似した言語を含む対では非常にうまく機能する。しかし、統語構造が大きく異なる言語対、例えば英語と中国語との対を対応付けする場合には、同様の性能を得ることはできない。GIZA++は文の間でほとんどの単語を対応させようとし(対応付けなし、はほとんどない。)、対応の再現率が高いが、同時にこれは偽の対応付けも生じさせる(すなわち、精度は低い)。
再現率が高ければ、翻訳されない単語数が減るという意味で翻訳の品質が確かに向上するが、精度が低ければ翻訳の品質は低下する。したがって、再現率と精度とのトレードオフは、高品質の翻訳を生成するために非常に重要である。句ベースのSMTシステムでは、単語の対応付けの後、句テーブルが作られる。対応付けできなかった単語は、文脈に応じて何らかの句に自由に添付される。再現率が高く精度の低い対応付けでは、生成される句は少なくなり、一方で再現率が低く精度が高ければ、より多くの句が生成される。高い精度が容易に得られるのは、正確さの高いリンクが生成されたときのみである。しかしその場合、再現率は低くなりすぎるであろう。最も良いのは、再現率を改善しつつ精度を維持することである。
これに関して、最近の研究によれば(非特許文献1)、対訳文コーパスの単語対応付けにおいて、条件付確率場(conditional random fields:CRF)が効果的であることがわかった。しかし、非特許文献1の教示は英語とフランス語等の類似した言語の組合せに限られており、かなり異なる統語構造を持つ言語の対については論じられていない。
したがって、この発明の目的は、扱われる言語の対に関わりなく、相当の再現率で高い精度を達成できる、文対応付対訳コーパスの単語対応付けのための装置及び方法を提供することである。
第1の局面によれば、この発明は第1の言語と第2の言語との入力文対において単語を対応付けるための装置に関する。この装置は、前記第1及び第2の言語の第1の対訳コーパスを記憶する記憶部を含む。前記第1の対訳コーパスでは単語が対応付けられている。装置はさらに、前記第1の対訳コーパス内の前記文対の各々について可能な単語対の各々に、予め定められた素性の組を抽出し対応付けラベルを割当てるための抽出手段を含む。前記対応付けラベルは前記可能な単語が対応ありか対応なしかを示す。装置はさらに、前記第1の対訳コーパスについて前記抽出手段が抽出し割当てた前記素性の組と前記対応付ラベルとを用いて、CRF単語対応付モデルの学習を行なうための学習手段と、前記CRF単語対応付モデルを用いて、前記入力された文の対の単語を対応付けるための対応付手段と、を含む。前記抽出手段は前記文の対の各々における各単語対に対しユニグラム素性の組を計算するための手段を含む。前記ユニグラム素性の組は単語対のダイス係数、単語対の品詞タグ、単語対の語幹(stem)又は見出し部、単語対の対訳辞書共起尺度(Bi−dic尺度)、又は前記文の対中の単語対の相対的文位置(Relative Sentence Position:Relpos)、又はこれら素性のいずれかの組合せを含む。
好ましくは、前記第2の単語は屈折語であり、前記ユニグラム素性の組はさらに、前記単語対の各々における前記第2の言語の単語の語幹又は見出し語を含む。
さらに好ましくは前記ユニグラム素性の組はさらに、前記文の対のいずれかの文の先行する単語又は後続の単語について抽出された前記ユニグラム素性のいずれかを含む。
さらに好ましくは、前記素性の組はさらに、前記ユニグラム素性のマルチグラム組合せを含む、マルチグラム素性の組を含む。
マルチグラム素性の組は前記ユニグラム素性の2つの組合せを1個又は2個以上含むバイグラム素性の組を含んでもよい。前記マルチグラム素性の組はさらに、前記ユニグラム素性の3つの組合せを1個又は2個以上含むトライグラム素性の組を含んでもよい。
好ましくは、装置はさらに前記第1及び第2の言語の第2の対訳コーパスを記憶する記憶部をさらに含む。前記第2の対訳コーパスでは単語対応付けがされていない。装置はさらに、前記学習手段によって前記第2の対訳コーパス中の前記文の対の各々を単語対応付けさせることによって、前記第2の対訳コーパス中の文の対を対応付けるための手段を含む。
第2の局面によれば、この発明はコンピュータによって、第1の言語と第2の言語との入力文対において単語を対応付けるための装置を実現するためのコンピュータで実行可能なプログラムに関する。このプログラムは前記コンピュータを、前記第1及び第2の言語の第1の対訳コーパスを記憶する記憶部として機能させる。前記第1の対訳コーパスは単語が対応付けられている。プログラムはさらに、コンピュータを前記第1の対訳コーパス内の前記文対の各々について可能な単語対の各々に、予め定められた素性の組を抽出し対応付ラベルを割当てるための抽出手段として機能させる。前記対応付ラベルは前記可能な単語対が対応ありか対応なしかを示す。プログラムはさらに、コンピュータを前記第1の対訳コーパスについて前記抽出手段が抽出し割当てた前記素性の組と前記対応付ラベルとを用いて、CRF単語対応付モデルの学習を行なうための学習手段と、前記CRF単語対応付モデルを用いて、前記第2の対訳コーパス内の文の対の各々の単語を対応付けるための対応付手段と、として機能させる。前記抽出手段は前記文の対の各々における各単語対に対しユニグラム素性の組を計算するための手段を含む。前記ユニグラム素性の組は単語対のダイス係数、単語対の品詞タグ、単語対の語幹又は見出し部、Bi−dic尺度、又は前記文の対中の単語対の相対的文位置、又はこれら素性のいずれかの組合せを含む。
従来の翻訳モデル生成システム40の全体構造を示す図である。 この発明の一実施の形態にしたがった翻訳モデル生成システム70の全体構造を示す図である。 中国語と英語の文の対の例を示す図である。 中国語と英語の文の対の単語対応付けの例を示す図である。 翻訳モデル生成システム70内の特徴抽出モジュール84の詳細な構造を示す図である。 Bi−dic辞書尺度の計算に用いられる、対訳辞書のエントリの例を示す図である。 文の対において中国語の単語と英語の単語との組合せのために作られたユニグラム素性の表を示す図である。 この発明の実施の形態で用いられる素性の組を示す図である。 対応付モジュール96の詳細な構造を示す図である。 CRF単語対応付モデルの単語対応付けの結果例を示す図である。 ヒューリスティック対応付ルールの単語対応付けの結果例を示す図である。 この発明の一実施の形態にしたがって行なわれた実験での、精度に対する学習コーパスのサイズのグラフィックな出力を示す図である。 コンピュータシステム330の正面図である。 コンピュータシステム330のブロック図である。
[はじめに]
この発明の一実施の形態は、大型の、文が対応付けられた中国語と英語との対訳コーパスでの単語対応付けに関する。この実施の形態では、機械学習モデルとして、識別的モデル、CRFを適用して、単語対応付けの問題を解決する。ここでは、このモデルをスーパーアライン(Super−Align)と呼ぶ。なぜなら、これは素性の学習に有力な(効率のよい)教師ありモデルだからである。対応付けの問題は、(後述する)ダイス(Dice)、文の対における単語の相対位置(Relpos)、Bi−dic尺度、品詞(part−of−speech:POS)タグ、及び屈折語での語幹といった特徴を与えられた場合の単語対のラベル付け問題として扱われる。さらに、文脈中の単語とPOSタグとが、通常のシーケンシャルなラベル付け問題と同様に、素性として用いられる。
まず、文の各対に対し、単語対のリストn×mを構築し、ここで、nは文の対における中国語の単語数であり、mは英語の単語数である。ここでの課題は、単語対の各々に、「対応付けあり」又は「対応付けなし」のラベルを付けることである。
6種類の素性が定義された。
1.ダイス係数
ダイス係数は、文対応付コーパスを用いて2つの単語の密接さを推定するのに用いられる。この係数はまた、非特許文献1でも用いられている。
Figure 2010198438
ここでC及びCは対訳コーパス中での中国語の単語cと英語の単語eとの出現数をそれぞれ表し、CCEは対訳コーパス中の単語c及びeの共起数を表す。この値が高ければ(低ければ)単語の対{c,e}が密接に(ゆるく)関連していることを示す。ダイス係数は大型の対訳コーパス中の単語対について前もって計算しておき、表として記憶しておいてもよい。中国語の単語cと英語の単語eとを与えられれば、計数Dice(c,e)を表から容易に見出すことができる。
2.対訳辞書
2つの単語についての第2の尺度パラメータはBi−dic尺度であり、これは対訳辞書中の単語対の共起確率を示す。もし単語対が辞書中の同じエントリに存在すれば、これらを互いに対応付けできる確率は高い。しかし、ひとつの言語に属する多くの単語が、別の言語の単一の単語に常に翻訳できるとは限らない。ソース言語中の単語は、別の言語では複合語として翻訳されうるし、その逆もある。中国語と英語といった、統語的にかなり異なる言語間の翻訳では特にそうである。
そこで、中国語の単語cと英語の単語eとのBi−dicを以下のように計算する。
Figure 2010198438
ここでSim(e,T)は英語の単語eと、対訳辞書中で見出された中国語の単語cの英訳Tの組との類似性を表し、|e|は英語の句eiを構成する単語の数を示す。|e|は1つ、2つ、又はそれ以上でありうる。
ここで対応付けのために考える単語対を(c,e)とする。辞書中でcの訳Tを探す。cの訳Tとしては多数の訳がありうる。上の式で与えられるTとeとを比較する。Tにおけるeの訳の各々について、もし1対1の一致があるならば、すなわち、もしe=eであれば、スコアは1となる。そうでなければ、スコアは1/Nとなる。ここでN=|e|はe中に単語eが存在する場合の訳e中の単語の数であり、存在しない場合スコアは0である。もし単語eがいくつかの訳に一致する場合は、最大値のみをとる。
3.文中の単語の相対位置(Relpos)
このパラメータは対応付行列の対角空間に近接して単語を対応付けする傾向を学習するのに用いられる。Relposは以下のように計算される。
Figure 2010198438
ここでC及びEはそれぞれ、文の対における中国語の文と英語の文とを示す。
4.POSタグ
単語のPOSラベルは、この実施の形態では、辞書的な単語のスパースネスを減じるために、両方の言語について素性のパラメータとして用いられる。中国語のテキストと英語のテキストとで用いられるPOSタグ付部は、この実施の形態では同様のPOSタグの組を共有する。異なるPOSタグの組も同じようにうまく働くであろうが、正確さはおそらく低くなるであろう。この実施の形態では、対訳コーパス中の単語にPOSタグが割当てられていると仮定する。
5.ステム化
スパースネスを減じるために、屈折語の語幹又は見出し語が用いられる。この実施の形態では、英語にのみ語幹を用いる。この実施の形態では、対訳コーパス中の単語に語幹又は見出し語が割当てられていると仮定する。
6.文脈素性
現在の単語(ソース及びターゲット)の前後の文脈を用いる。文脈は上述の素性パラメータ、POS及びステム化を含む。
素性は、ユニグラム、バイグラム又はトライグラムで符号化されうる。文脈素性(前後)を素性の組にさらに追加してもよい。この実施の形態で用いられる素性の組については、図8を参照してさらに説明する。
対応付モデルは文対応付コーパス中で単語の対応付けに用いられ、これは、句ベースの機械翻訳システムにおいて翻訳モデルを作成するのに用いられる。このモデルは単語対応付けに高い精度と同程度の再現率とを生じさせる。この結果、翻訳品質もまた改善される。
再現率を増加させるために、ヒューリスティックモデルもまた用いられる。文sを文tと対応させると、CRFモデルから出力される単語対応付出力は図10に示すようになる。いくつかヌルリンクがあるが、(s3s4)(t4t5t6)、これは単語がどの単語とも対応しなかったことを意味する。
ここで、ヒューリスティックによれば、ソース(s3s4)中の2つの単語をターゲットの3つの単語(t4t5t6)に対応付けることができる。この結果を図11に示す。
この種の対応付けは、各々の側で最大3単語までに制限する。この方法により、再現率を増加できるだけでなく、翻訳モデル中の句の生成を制限できるので、翻訳の品質がさらに向上する。ここで注目すべきことは、ヒューリスティックルールが最も有効なのは、単語の順序が互いにそれほど広く異ならない、中国語と英語といった特定の言語対である、ということである。例えば、日本語と英語との場合、語順が互いに大きく異なるため、このルールは有効でない。
[システム構成]
図2を参照して、この発明の一実施の形態にしたがった翻訳モデル生成システム70は、小規模の単語対応付対訳コーパス80と大規模な文対応付対訳コーパス94とから、統計的翻訳モデル76を生成する。この実施の形態では、単語対応付対訳コーパス80を用いてCRF単語対応付モデルの学習を行ない、次にこれを用いて、文対応付対訳コーパスにおいて文の対の単語を対応付ける。
単語対応付対訳コーパス80は人の手で対応付けされた中国語と英語の対訳コーパスである。中国語の文が前もってセグメント化され、中国語と英語の全ての単語が適切なPOSタグでラベル付されている。さらに、単語対応付対訳コーパス80において文の各対中の単語対の各々に、対応付リンクが規定されている。この実施の形態では、2種類の対応付リンクが用いられる。「対応あり」と「対応なし」である。これらの対応付けは、コンピュータ上ではそれぞれ「0」と「1」とで示されうる。別の実施の形態では、4種類の対応付リンクが規定できる。強、弱、偽、ヌル、である。強リンクは、非常に良い訳となっている単語をさす。複合語及びいくつかの対応は弱リンクで表すことができるだろう。強リンクと弱リンクとはともに、純粋なリンクと考えられる。冠詞及び前置詞等の機能的単語の対応は偽リンクを用いて示される。ヌルリンクはどの単語とも対応しない単語を示す。これらのリンクはそれぞれ「0」、「1」、「2」及び「3」で表される。
図2を参照して、翻訳モデル生成システム70は、文対応付対訳コーパス72内で出現する単語対の各々について、ダイス係数計算部74で計算可能なダイス係数を記憶するダイス係数テーブル82と、予め定められた中国語と英語との対訳辞書86を記憶する記憶部と、ダイス係数テーブル82と対訳辞書86とを参照して、単語対応付対訳コーパス80内の文の対の各々において中国語と英語の単語の組合せの各々について素性パラメータの組を抽出し、学習データセット88を出力する素性抽出モジュール84と、学習データセット88からCRF単語対応モデル92を作成するためのCRFモジュール90とを含む。素性抽出モジュール84は各素性の組に、単語対応付対訳コーパス80にしたがって、単語対が対応付けられているか否かを示す対応ラベル「0」又は「1」を割当てる。
CRFモデルの学習は比較的複雑な処理である。しかし、この目的のためのプログラムツールキットは広く入手可能である。例えば、オープンソースのCRF++ツールキットがhttp://crfpp.sourceforge.net/で入手可能であり、Matlab(登録商標)用CRFツールキットがhttp://www.cs.ubc.ca/~murphyk/Software/CRF/crf.htmlで入手可能である。
翻訳モデル生成システム70はさらに、CFR単語対応モデル92、ダイス係数テーブル82及び対訳辞書86を用いて、文対応付対訳コーパス94内の文の対の各々の単語を対応付けるための対応付モジュール96と、対応付モジュール96によって単語の対応付けがなされた単語対応付対訳コーパス98を記憶する記憶部と、対訳コーパス98内で単語対応付けされた中国語と英語との可能な組合せの確率を計算することにより、翻訳モデルを生成する翻訳モデル生成部100と、を含む。
図3は各々が英語の文と中国語の文とを含む、2つの文の対120及び122を示す。図4は図3に示された文の対の単語対応付けの例を示す。ここで○の中に+の記号は強リンクを示し、○の中に点・の記号は弱リンクを示し、○の中に×の記号は偽リンクを示す。単純な点「・」はヌルリンク(対応なし)を示す。
中国語と英語とはかなり異なる統語構造を有する。このため、これらの間の翻訳が対角線上の行列空間で対応付けられないことがしばしばである。図4(A)では対応付けがほぼ対角線上にあるが、図4(B)の別の例では対応付けは行列にわたって分散している。図4(B)に示すような対応付けを解決するのは困難である。
翻訳モデル生成システム70において、単語対応付けはシーケンシャルなラベル付問題として扱われる。単語対の各々には素性抽出モジュール84によって何らかの素性と所望の出力が割当てられ、CRFモジュールによる識別モデルCRFを用いて学習が行なわれる。CRFはシーケンシャルなデータのラベル付に効率的であることが分かっている。さらに、これは形態素解析、構文解析、固有名詞表現認識、情報抽出及びテキストのチャンク化等の様々なNLP(Natural Language Processing:自然言語処理)で用いられている。ここでは、簡単で高速なパブリックドメインの学習ツールCRF++を用いて学習とデコードとを行なった。
図5を参照して、素性抽出モジュール84は、単語対応付対訳コーパス80の文の各対を予め定められたシーケンスで取出すための文対抽出モジュール138と、文対抽出モジュール138によって取出された文の対中の単語対の各々を取出す単語対抽出モジュール140と、単語対抽出モジュール140によって取出された単語対について、ダイス係数テーブル82のダイス係数を検索するためのダイス係数ルックアップモジュール142と、単語対抽出モジュール140によって取出された単語対のPOSタグを抽出するPOSタグ抽出部144と、単語対抽出モジュール140によって取出された単語対の相対的文位置(Relpos)を計算するためのRelpos計算部186と、対訳辞書86を用いて単語対抽出モジュール140によって取出された単語対のBi−dic尺度を計算するBi−dic尺度計算部148と、単語対抽出モジュール140によって取出された単語対の英語部分の語幹又は見出し語を見出すためのステム化モジュール50と、を含む。
単語対抽出モジュール140はn×mの単語対のリストを構築する。ここで、nは単語対応付対訳コーパス80における中国語単語の数であり、mは英単語の数である。素性抽出モジュール84の役目は、これら単語対の各々について、所望の出力(対応付ラベル)を含む素性の組を生成することである。
素性抽出モジュール84はさらに、文対抽出モジュール138によって取出された文対の各々において、単語対抽出モジュール140によって抽出された単語対の各々を、ダイス係数ルックアップモジュール142、POSタグ抽出部144、相対的文位置計算部146、Bi−dic尺度計算部148及びステム化モジュール150により出力されるその特徴パラメータと、対応付ラベルとともに記憶する素性メモリ152と、ダイス係数ルックアップモジュール142、POSタグ抽出部144、相対的文位置計算部146、Bi−dic尺度計算部148及びステム化モジュール150の動作が完了したことに応答して、単語対抽出モジュール140によって取出された単語対のバイグラム及びトライグラム素性と文脈素性とを生成するマルチグラム/文脈素性生成部154と、を含む。
マルチグラム/文脈素性生成部154がバイグラム及びトライグラム素性と文脈素性との生成を完了すると、これらの素性が素性メモリ152に記憶される。マルチグラム/文脈素性生成部154は記憶部に制御信号を出力して学習データセット88(図2を参照)を記憶させるので、記憶部は素性メモリ152に記憶された単語をその素性パラメータとともに読出し、記憶する。
図6は、Bi−dic尺度計算部148がどのように単語対(c,e)のBi−dic尺度を計算するかを例示する。はじめに、中国語の単語cの翻訳を対訳辞書86から検索する。ここで、対訳辞書86においてエントリTが中国語の単語cに対応すると認められた、と仮定する。さらに、エントリTが中国語の単語cに対する3個の翻訳e、e及びeを含み、翻訳eは2つの英単語e11及びe12を含むと仮定する。
Bi−dic(c,e)の定義にしたがって、Sim(e,e)(i=1,2,3)がまず計算される。eはe11とe12とからなるので、|e|=2となる。したがって、e=e11又はe=e12であればSim(e,e)=1/2であり、そうでなければ0である。e及びeの各々が1単語からなると仮定すれば、|e|=|e|=1である。したがって、もしe=eであればSim(e,e)=1であり、そうでなければ0であり、もしe=eならばSim(e,e)=1であり、そうでなければ0である。したがって、Bi−dic(c,e)=Max(Sim(e,e)(i=1,2,3))=1である。この処理は直截的であり、コンピュータプログラムでの実現化が容易である。
図7は中国語の文180と英語の文190とを含む文の対の、ユニグラム素性の組を示す。ここで、中国語の文180はNc個の単語C−word(0)からC−word(Nc−1)を含むと仮定し、英語の文190はNe個の単語E−word(0)からE−word(Ne−1)を含むと仮定する。したがって、ここでは図7の行列に示すようなNc×Neの単語対がある。
単語対C−word(j)及びE−word(j)の各々について、特徴抽出モジュール84はDice(i,j)、Bi−dic(i,j)、及びRelpos(i,j)、POS(i)、POS(j)、stem(j)を計算し、対応付ラベル(i,j)を割当てる。
図8は単語対C−word(j)及びE−word(j)の素性の組の例を示す。図8を参照して、素性の組156はユニグラム素性サブセット220と、バイグラム素性サブセット222と、トライグラム素性サブセット224と、ユニグラム文脈(前後)素性サブセット226及び228と、バイグラム文脈(前後)素性サブセット230及び232と、所望の出力234(対応付ラベル)と、を含む。
図9を参照して、対応付モジュール96は、文対抽出モジュール258と、単語対抽出モジュール260と、ダイス係数ルックアップモジュール262と、POSタグ抽出部264と、相対的文位置計算部266と、Bi−dic尺度計算部268と、ステム化モジュール270と、素性メモリ272と、マルチグラム/文脈素性生成部274と、を含み、これらはそれぞれ、図5に示された文対抽出モジュール138と、単語対抽出モジュール140と、ダイス係数ルックアップモジュール142と、POSタグ抽出部144と、相対的文位置計算部146と、Bi−dic尺度計算部148と、ステム化モジュール150と、素性メモリ152と、マルチグラム/文脈素性生成部154とに対応する。
対応付モジュール96はさらに、マルチグラム/文脈素性生成部274によるマルチグラム/文脈生成の完了に応答して、文対抽出モジュール258によって取出された文の各々について素性メモリ272に記憶された各単語対に「対応あり」(「0」)又は「対応なし」(「1」)の対応付ラベルを決定するCRF単語対応付モデル92と、対応付ラベルとともに文の対を記憶する対応付メモリ276と、対応付メモリ276に記憶された文の対にヒューリスティックな対応付ルールを適用して文対のリンクのない単語にリンクを付加するためのヒューリスティックルールベース対応付モジュール278と、を含む。ヒューリスティックルールベース対応付モジュール278の出力が、文対抽出モジュール258によって取出された文対の最終的な対応付である。文対応付対訳コーパス95の文対の各々について対応付を繰返すことで、単語対応付対訳コーパス98が生成される。CRFは、学習後、適用される素性の組に応じて対応付ラベルを出力するように学習される。
[動作]
この実施の形態の翻訳モデル生成システム70は以下のように動作する。ダイス係数82は、文対応付対訳からダイス係数計算部74によって生成され、単語対応付対訳コーパス80内の各文対の各単語はセグメント化されかつ適切なPOSタグを付され、さらに翻訳モデル生成システム70は対訳辞書86を使用可能である、と仮定する。
素性抽出モジュール84内の文対抽出モジュール138は、単語対応付対訳コーパス80内の第1の文の対を取出し、取出された文の対を文対抽出モジュール140に与える。これに応じて、単語対抽出モジュール140はその文対で可能な全ての中国語と英語の単語を生成する。単語対の各々について、単語対抽出モジュール140はこれをダイス係数ルックアップモジュール142、POSタグ抽出部144、相対的文位置計算部146、Bi−dic尺度計算部148、及びステム化モジュール150に与える。単語対抽出モジュール140はまた、単語対と単語対のそれぞれの素性の組とを記憶するための素性テーブルを素性メモリ152に作成する。単語対抽出モジュール140はまた、各単語対について、素性テーブルの適切な欄に所望の出力として、「対応あり」又は「対応なし」のラベルを記憶する。
ダイス係数ルックアップモジュール142はダイス係数テーブル82の中国語単語と英単語との間のダイス係数を探し、素性テーブルの適切な欄にそのダイス係数を記憶する。
POSタグ抽出部144は与えられた単語対からPOSタグを抽出し、POSタグを素性メモリ152の適切な欄に記憶する。
相対的文位置計算部146は与えられた単語対における中国語単語と英単語とのRelposを計算し、そのRelpos値を素性テーブルの適切な欄に記憶する。
Bi−dic尺度計算部148は与えられた単語対における中国語単語と英単語との間のBi−dic尺度を計算し、そのBi−dic値を素性テーブルの適切な欄に記憶する。
ステム化モジュール150は与えられた単語対中の英単語の語幹又は見出し語を探し、その語幹又は見出し語を素性テーブルの適切な欄に記憶する。
モジュール142、144、146、148及び150の各々は、単語対抽出モジュール140から与えられた単語対についてその動作を完了すると、単語対抽出モジュール140に完了信号を出力する。これに応じて、単語対抽出モジュール140は取りだした文から次の単語対を取出し、その単語対をモジュール142、144、146、148及び150に与える。この単語対に対して、上述の素性計算処理が繰返される。
文対抽出モジュール138によって取出された文対中の単語対全てに関しユニグラム素性が計算され素性テーブルに記憶されると、単語対抽出モジュール140は文対抽出モジュール138に完了信号を出力する。これに応じて、文対抽出モジュール138は単語対応付対訳コーパス80から第2の文対を取出し、これを単語対抽出モジュール140に与える。第2の文対は第1の文対と同様に処理され、第2の文対中の単語対の各々に対しユニグラム素性の組が素性テーブルに記憶される。
この動作は単語対応付対訳コーパス80内の全ての文の対に対して繰返される。全ての文対が処理されそのそれぞれのユニグラム素性の組が素性テーブルに記憶されると、文対抽出モジュール138はマルチグラム/文脈素性生成部154に完了信号を出力する。これに応じて、マルチグラム/文脈素性生成部154は素性の組に記憶された単語対の全てについて、バイグラム、トライグラム及び文脈素性を生成する。
マルチグラム/文脈素性生成部154による動作が完了すると、これは記憶部に制御信号を出力して学習データセット88を記憶させる(図2を参照)。これに応じて、記憶部は素性メモリ152内に素性テーブルを記憶し、これはCRF単語対応付モジュール92によって学習データセットとして用いられる。
学習データセット88が利用可能になると、CRFモジュール90はCRF単語対応付モジュール92の学習を開始する。CRF単語対応付モジュール92の学習が完了すると、大型のコーパスである文対応付対訳コーパス94をCRF単語対応付モジュール92を用いて単語対応付けすることができる。
図9を参照して、特徴抽出モジュール84の文対抽出モジュール138の場合と同様に、文対抽出モジュール258は文対応付対訳コーパス94内の第1の文対を取出す。文対抽出モジュール258はこの文対を単語対抽出モジュール260に与える。
これに応じて、単語対抽出モジュール260はその文の対で可能な中国語単語と英単語との全ての単語対を生成する。単語対の各々について、単語対抽出モジュール260はこれをダイス係数ルックアップテーブル262、POSタグ抽出部264、相対的文位置計算部266、Bi−dic尺度計算部268及びステム化モジュール270に与える。単語対抽出モジュール260はまた、素性メモリ272内に素性テーブルを作り、単語対と、単語対のそれぞれの素性の組とを記憶する。
ダイス係数ルックアップモジュール262、POSタグ抽出部264、相対的文位置計算部266、Bi−dic尺度計算部268及びステム化モジュール270は、図5のダイス係数ルックアップモジュール142、POSタグ抽出部144、相対的文位置計算部146、Bi−dic尺度計算部148及びステム化モジュール150と同様に動作する。したがって、それらの動作はここでは繰返さない。計算された、又は抽出された素性は素性メモリ272の適切な欄に記憶される。
モジュール262、264、266、268及び270がそれぞれの役割を完了すると、これらは単語対抽出モジュール260に完了信号を出力する。これに応じて、単語対抽出モジュール260は次の単語対を取出し、その単語対をモジュール262、264、266、268及び270に与える。こうして上述の動作がこの単語対に対しても実行され、次のユニグラム素性の組が生成されて素性メモリ272に記憶される。
第1の文の対中の全ての単語対が処理されると、単語対抽出モジュール260はマルチグラム/文脈素性生成部274に制御信号を送る。これに応じて、マルチグラム/文脈素性生成部274は素性メモリ272内の単語対の素性セットの各々に対し、バイグラム、トライグラム及び文脈素性を生成する。
バイグラム、トライグラム及び文脈素性が生成されると、関心のある文対についての素性の組が完成する。マルチグラム/文脈素性生成部274はCRF単語対応付モジュール92に制御信号を送り、これによってCRF単語対応付けのための素性の組の準備が整ったことになる。
これに応じて、素性の組が素性メモリ272から読出され、CRF単語対応付モジュール92に与えられる。これに応じて、CRF単語対応付モジュール92は関心のある文対の単語対の各々に、単語対応付ラベルの組を出力する。文の対は、単語対応付ラベルとともに、対応メモリ276に記憶される。
対応メモリ276に記憶された文の対はさらに、ヒューリスティックルールベース対応付モジュール278に与えられ、ここでは単語対応付けされた文の対にヒューリスティックルールが適用され、最終的な対応付け結果が出力されて対訳コーパス98(図2)に記憶される。
第1の文の単語対応付けが完了すると、ヒューリスティックルールベース対応付モジュール278は次の文の対に対する処理を開始してよいことを示す制御信号を送信する。
これに応じて、文対抽出モジュール258は文対応付対訳コーパス94内の第2の文対を取出し、この文の対を単語対抽出モジュール260に与える。こうして、第1の文の対に対して実行された処理が、第2の文の対に対して繰返される。
文対応付対訳コーパス94内の文の対の各々について上述の動作を繰返すことにより、対訳コーパス98を作成することができる。文の対には単語対応付ラベルが付されているので、翻訳モデル生成部100は対訳コーパス98内の単語対応付を処理することで翻訳モデル76を生成することができる。
上述の実施の形態では、「対応あり」及び「対応なし」の2つの対応付ラベルを用いた。しかし、先にも述べたように、この発明はこのような実施の形態に限定されるものではなく、3種類又はそれ以上のラベルを用いることもできる。例えば、強、弱、偽、ヌルのリンクを含む4つのリンクを用いてもよい。この場合、単語対応付対訳コーパス80(図2)内の文の対は、これら4つの対応付ラベルのそれぞれでラベル付けされることになる。
[実験]
実験的セットアップ
上述の実施の形態は簡潔の目的のため2つの対応付けラベル(「対応あり」と「対応なし」)を用いたシステムを扱ったが、実験では4つの対応付けラベル(強、弱、偽、ヌル)を用いた。さらに、CRF対応付けのために、出願人が用意した中国語と英語との人手で対応付けした基本旅行表現コーパス(Basic Traveler Experssion Corpus:BTEC)を用いた。これは35,384個の文対と369,587個のリンクとからなる。これらのリンクのうち、54.17%が強リンク、25.34%が弱リンク、20.49%が偽リンクである。
対応付けの実験結果
単語対応付けの実験において、1000個の文対を取置データとして、また999個の文対をテスト用データとして、ランダムに選択した。最後に、33Kを学習データとして保持した。
対応付誤り率(Alignment error rate:AER)は非特許文献3で提案された対応付作業のための尺度パラメータである。AERは確実なリンク及び可能なリンク(Sure and Possible links)に基づいて計算される。しかし、AERは翻訳品質(BLEUスコア)との相関がないとされている。再現率と精度とのトレードオフを変更することで計算されるF−値のほうが、良好な相関を有する。この研究では、再現率(α)と精度(1−α)とに適用される重みとして、定数αを用いた。値が0.5より低ければ再現率の方に重きが置かれ、逆もまた成り立つ。良好なαの設定を見出すことは単純でなく、言語対とコーパスのサイズに大きく依存する。このため、ここでは単純なバランスのとれたF−値であるα=0.5のみを用いて、この対応付モデルの性能を評価した。
ここでは、対応付けの正確さを、以下の式で与えられるように、精度、再現率及びF−値を用いて測定した。ここで、Aは標準となる対応付けを表し、Sは得られた対応付けを表し、A∩Sは正しい対応付けを表す。この場合、異なる種類のリンクは考慮しない。
Figure 2010198438
テーブル1は完全なモデルから各素性を減算したときに得られた結果を示す。これは、どの素性がこの発明の課題に有用であるかを見出すために行なわれた。
Figure 2010198438
テーブル1からわかるように、最も有用な素性はダイスであり、これに相対位置と対訳辞書とが続く。POSタグとステム化とはF−値をそれほど改善しない(場合によっては劣化させる)が、精度は改善する。文脈の素性を付加することで、正確さがさらに改善される。これまで、文脈素性を除くすべての素性はユニグラムであった。いくつかのバイグラム素性とトライグラム素性とを試したところ、増分的な改善があった。バイグラム素性とトライグラム素性との組合せは、取り置いたデータを用いて決定された。実験で用いた素性を図8に示す。
最後に、全ての素性を加えることにより、最高のF−値である84.59ポイントを得た。この素性の組では、ダイスと対訳辞書素性とは発明の学習コーパスから独立である。したがって、もしより大型の対訳文対応付済コーパスを得ることができれば、ダイスを再計算することができる。テーブル1の最終行で見られるように、160Kの文対応付コーパスを用いて計算したダイスを用いれば、F−値を84.74までさらに増加させることができる。現在、この実験のためにはより大きな対訳辞書はないが、より良い、より大型の対訳辞書があればこのモデルは確実にさらに改善されるであろう。さらに、ヒューリスティックなモデルを用いてより多くの対応を付加すれば、F−値を84.85まで改善できる。
人手で対応付けた学習コーパスを得ることは容易ではない。これは資源と時間とを消費する。発明の方法は学習コーパスを必要とするので、合理的な結果を得るのに必要な学習データの量を決定しておきたい。図12は正確さに対する学習コーパスのサイズをグラフ出力したものである。学習用文が10,000を超えると正確さの増分がゆっくりになる。したがって、何らかの新たな言語対のためにCRF単語対応付モデルを学習するには、約10,000個の文の対があれば十分と結論づけることができる。
次に、グロー−ダイアゴナル(grow−diagonal)モードにより調整したGIZA++を用いて得られた精度と、この発明のCRF単語対応付モデルを用いたものとを比較したい。
AERは翻訳の品質とは相関がないが、これは依然として、対応付作業の評価尺度として慣用されている。このため、他のモデルとの比較のため、AERも計算した。コーパスにはAERで規定されるような注釈をつけていないので、可能なのは推定のみである。ここでは、本件の強リンクと弱リンクとがその確実な(Sure:S)リンクと等しいものと仮定し、偽リンクがその可能な(Possible:P)リンクとなる。したがって、以下の式をこのAERの尺度として規定する。
Figure 2010198438
ここでA=システム出力、S=強+弱リンク、P=強+弱+偽リンクである。
テーブル2は各種リンクの各々の結果と、GIZA++との比較である。スーパーアラインは強リンクのラベル付けに関するかぎり良好に動作する、なぜなら、これらは最も容易に検出できるリンクだからである。その性能は弱リンクでは良いが、偽リンクではあまり満足のいくものではない。先に説明したように、偽リンクはほとんどの場合機能的な単語であって、互いの直接の翻訳ではない。対応付けを決定するにあたって、これらは文脈に大いに依存する。言換えれば、文脈によってある単語が異なる単語とリンク付されうるので、曖昧性が高い。したがって、偽リンクの対応付けの精度は低い。
Figure 2010198438
この実験では、2つのGIZA++モデルを学習した。第1のモデルは、取置データとテスト用データを含めた35K学習データの全てを用いた。第2のモデルはテスト用データのみを用いた。結果は、第2のモデルの結果が第1のものよりかなり悪かった。これはまた、GIZA++で良い性能を得るためには、より大型の学習コーパスが必要であることを示した。これに対して、スーパーアラインは、わずかに1000個の文対を用いて学習した場合でさえ、(35Kで学習した)GIZA++と等しい結果が得られた。完全な学習データを用いると、スーパーアラインはGIZA++を約7%上回った。スーパーアラインの最大の利点は、得られる精度である。GIZA++は再現率は良いが、精度が比較的低い。スーパーアラインは学習データの小型の組でも、常に高い精度を保証する。しかし、文の対が1000個のみでは、GIZA++に比べて再現率は極めて低い。もっとも、F−値とAERとの結果は同等である。しかし、文の対が5000になると、スーパーアラインは大きなマージンをもってGIZA++より良好になる。
[コンピュータによる実現]
上述の実施の形態は、コンピュータシステムと、コンピュータシステム上で動作するコンピュータプログラムとによって実現されうる。図13はこの実施の形態で用いられるコンピュータシステム330の外観を示し、図14はコンピュータシステム330のブロック図である。ここに示すコンピュータシステム330は単なる例示であって、他の構成も利用可能である。
図13を参照して、コンピュータシステム330は、コンピュータ340と、全てコンピュータ330に接続された、モニタ342、キーボード346、マウス348、スピーカ372及びマイクロフォン370とを含む。さらに、コンピュータ340は、DVD−ROM(Digital Versatile Disc Read Only Memory:ディジタル多用途読出し専用メモリ)ドライブ350と、半導体メモリドライブ352とを含む。
図14を参照して、コンピュータ340はさらに、DVD−ROMドライブ350と半導体メモリドライブ352とに接続されたバス366と、全てバス366に接続された、CPU(Central Processing Unit:中央処理装置)356、コンピュータ340のブートアッププログラムを記憶するROM(Read Only Memory:読出し専用メモリ)358、CPU356の作業領域を提供するとともにCPU356によって実行されるプログラムの記憶領域を提供するRAM(Random Access Memory:ランダムアクセスメモリ)360、並びに単語対応付対訳コーパス80、文対応付対訳コーパス94、対訳コーパス98、及び翻訳モデル76を記憶するハードディスクドライブ354とを含む。
上述の実施の形態のシステムを実現するソフトウェアは、DVD−ROM362又は半導体メモリ364等の記憶媒体に記録されるオブジェクトコードの形で配布され、DVD−ROMドライブ350又は半導体メモリドライブ352等の読出装置によってコンピュータ340に与えられ、ハードディスクドライブ354に記憶されてもよい。CPU356がプログラムを実行するときは、プログラムはハードディスクドライブ354から読出され、RAM360に記憶される。図示しないプログラムカウンタによって指示されるアドレスから命令がフェッチされ、その命令が実行される。CPU356は処理すべきデータをハードディスクドライブ354から読出し、処理結果をまたハードディスクドライブ354に記憶する。
コンピュータシステム330の一般的動作は周知であるので、詳細な説明はここでは行なわない。
ソフトウェア配布の方法については、これを記憶媒体に固定することは必ずしも必要でない。例えば、ソフトウェアはネットワークに接続された別のコンピュータから配布されてもよい。ソフトウェアの一部をハードディスクドライブ354に記憶させ、ソフトウェアの残りの部分をネットワークを介してハードディスクに取込み、実行時に統合してもよい。
典型的には、現代のコンピュータはコンピュータのオペレーティングシステム(OS)によって提供される一般的な機能を利用し、所望の目的にしたがって制御されたやり方で機能を実行する。さらに、サードパーティによって提供されるコンピュータプログラムツールキット又はツールボックスは基本的なものだけでなく、翻訳モデル生成システムの構築ブロックを提供する洗練されたプログラムもある。したがって、OS又はサードパーティによって提供されうる一般的な機能を含まず、単に構築ブロック機能の実行順序の組合せを指示するのみのプログラムも、そのプログラムが全体として所望の目的を達成するのであれば、この発明の範囲に含まれる。
[終りに]
この実施の形態では、識別的モデルであるCRFを用いて、教師あり単語対応付けを導入した。対応付けを、シーケンシャルなラベル付問題として扱い、モデルを学習して、単語対の各々に、文中の単語間の関係を示すラベルを付与させた。すなわち、強リンク、弱リンク、偽リンク又はヌルリンクである。単語対には、ダイス係数、相対位置、対訳辞書に基づく類似度、POSタグ及び単語の語幹といった、有用な素性を与えた。さらに、文脈上の素性、すなわち現在の単語対の回りの単語及びPOSタグも規定した。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。
70 翻訳モデル生成システム
76 翻訳モデル
80 単語対応付対訳コーパス
82 ダイス係数テーブル
84 素性抽出モジュール
86 対訳辞書
88 学習データセット
90 CRFモジュール
92 CRF単語対応付モデル
94 文対応付対訳コーパス
96 対応付モジュール
98 単語対応付対訳コーパス
100 翻訳モデル生成部
138、258 文対抽出モジュール
140、260 単語対抽出モジュール
142、262 ダイス係数ルックアップモジュール
144、264 POSタグ抽出部
146、268 Bi−dic尺度計算部
150、270 ステム化モジュール
152、272 素性メモリ
154、274 マルチグラム/文脈素性生成部

Claims (8)

  1. 第1の言語と第2の言語との入力文対において単語を対応付けるための装置であって、
    前記第1及び第2の言語の第1の対訳コーパスを記憶する記憶部を含み、前記第1の対訳コーパスでは単語が対応付けられており、さらに
    前記第1の対訳コーパス内の前記文対の各々について可能な単語対の各々に、予め定められた素性の組を抽出し対応付けラベルを割当てるための抽出手段を含み、前記対応付けラベルは前記可能な単語が対応ありか対応なしかを示すものであり、さらに、
    前記第1の対訳コーパスについて前記抽出手段が抽出し割当てた前記素性の組と前記対応付けラベルとを用いて、条件付確率場(CRF)単語対応付けモデルを学習するための学習手段と、
    前記CRF単語対応付けモデルを用いて、前記入力された文の対の単語を対応付けるための対応付け手段と、を含み、
    前記抽出手段は
    前記文の対の各々における各単語対に対しユニグラム素性の組を計算するための手段を含み、前記ユニグラム素性の組は単語対のダイス係数、単語対の品詞タグ、単語対の語幹又は見出し部、単語対の対訳辞書共起尺度、又は前記文の対中の単語対の相対的文位置、又はこれら素性のいずれかの組合せを含む、単語対応付け装置。
  2. 前記第2の単語は屈折語であり、前記ユニグラム素性の組はさらに、前記単語対の各々における前記第2の言語の単語の語幹又は見出し語を含む、請求項1に記載の装置。
  3. 前記ユニグラム素性の組はさらに、前記文の対のいずれかの文の先行する単語又は後続の単語について抽出された前記ユニグラム素性のいずれかを含む、請求項1又は請求項2に記載の装置。
  4. 前記素性の組はさらに、前記ユニグラム素性のマルチグラム組合せを含む、マルチグラム素性の組を含む、請求項1から請求項3のいずれかに記載の装置。
  5. 前記マルチグラム素性の組は前記ユニグラム素性の2つの組合せを1個又は2個以上含むバイグラム素性の組を含む、請求項4に記載の装置。
  6. 前記マルチグラム素性の組はさらに、前記ユニグラム素性の3つの組合せを1個又は2個以上含むトライグラム素性の組を含む、請求項5に記載の装置。
  7. 前記第1及び第2の言語の第2の対訳コーパスを記憶する記憶部をさらに含み、前記第2の対訳コーパスでは単語対応付けされておらず、さらに、
    前記学習手段によって前記第2の対訳コーパス中の前記文の対の各々を単語対応付けさせることによって、前記第2の対訳コーパス中の文の対を対応付けるための手段を含む、請求項1から請求項6のいずれかに記載の装置。
  8. コンピュータによって、第1の言語と第2の言語との入力文対において単語を対応付けるための装置を実現するためのコンピュータで実行可能なプログラムであって、前記プログラムは前記コンピュータを、
    前記第1及び第2の言語の第1の対訳コーパスを記憶する記憶部として機能させ、前記第1の対訳コーパスは単語が対応付けられており、さらに
    前記第1の対訳コーパス内の前記文対の各々について可能な単語対の各々に、予め定められた素性の組を抽出し対応付けラベルを割当てるための抽出手段として機能させ、前記対応付けラベルは前記可能な単語対が対応ありか対応なしかを示すものであり、さらに、
    前記第1の対訳コーパスについて前記抽出手段が抽出し割当てた前記素性の組と前記対応付けラベルとを用いて、条件付確率場(CRF)単語対応付けモデルを学習するための学習手段と、
    前記CRF単語対応付けモデルを用いて、前記入力された文の対の単語を対応付けるための対応付け手段と、として機能させ、
    前記抽出手段は
    前記文の対の各々における各単語対に対しユニグラム素性の組を計算するための手段を含み、前記ユニグラム素性の組は単語対のダイス係数、単語対の品詞タグ、単語対の語幹又は見出し部、単語対の対訳辞書共起尺度、又は前記文の対中の単語対の相対的文位置、又はこれら素性のいずれかの組合せを含む、コンピュータプログラム。
JP2009043828A 2009-02-26 2009-02-26 文の対中の単語対応付装置及びそのコンピュータプログラム Active JP5454763B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009043828A JP5454763B2 (ja) 2009-02-26 2009-02-26 文の対中の単語対応付装置及びそのコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009043828A JP5454763B2 (ja) 2009-02-26 2009-02-26 文の対中の単語対応付装置及びそのコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2010198438A true JP2010198438A (ja) 2010-09-09
JP5454763B2 JP5454763B2 (ja) 2014-03-26

Family

ID=42823081

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009043828A Active JP5454763B2 (ja) 2009-02-26 2009-02-26 文の対中の単語対応付装置及びそのコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP5454763B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017084274A (ja) * 2015-10-30 2017-05-18 日本電信電話株式会社 単語対応付け装置、機械翻訳学習装置、方法、及びプログラム
CN110889456A (zh) * 2019-12-02 2020-03-17 深圳大学 基于神经网络的共生矩阵特征提取方法、存储介质及终端

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110175246B (zh) * 2019-04-09 2021-04-13 山东科技大学 一种从视频字幕中提取概念词的方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
CSNG200100814007; 辻 慶太,芳鐘 冬樹,影浦 峡: '対訳コーパスにおける低頻度語の性質 訳語対自動抽出に向けた基礎研究' 電子情報通信学会技術研究報告 Vol.100 No.200 第100巻 第200号【ISSN】0913-5685, 20000711, p.47-p.54, 社団法人電子情報通信学会 *
CSNG200800066010; 塚田 元,永田 昌明,隅田 英一郎,黒橋 禎夫: '機械翻訳最新事情:(下)評価型ワークショップの動向と日本からの貢献' 情報処理 第49巻 第2号 第49巻 第2号【ISSN】0447-8053, 20080215, p.194-p.202, 社団法人情報処理学会 *
JPN6013023958; 塚田 元,永田 昌明,隅田 英一郎,黒橋 禎夫: '機械翻訳最新事情:(下)評価型ワークショップの動向と日本からの貢献' 情報処理 第49巻 第2号 第49巻 第2号【ISSN】0447-8053, 20080215, p.194-p.202, 社団法人情報処理学会 *
JPN6013023960; 辻 慶太,芳鐘 冬樹,影浦 峡: '対訳コーパスにおける低頻度語の性質 訳語対自動抽出に向けた基礎研究' 電子情報通信学会技術研究報告 Vol.100 No.200 第100巻 第200号【ISSN】0913-5685, 20000711, p.47-p.54, 社団法人電子情報通信学会 *
JPN7013001861; Phil Blunsom,Trevor Cohn: 'Discriminative word alignment with conditional random fields.' In proceeding of COLING/ACL , 2006, pp.65-72, ACL-44 Proceedings of the 21st International Confe *
JPN7013001862; Peter F. Brown, Vincent J. Della Pietra, Stephen A. Della Pietra, Robert L. Mercer: 'The mathematics of statistical machine translation: parameter estimation' Computational Linguistics - Special issue on using large corpora: II Volume 19 Issue 2, 199306, pp.263-31&#xFF11 *
JPN7013001863; Franz Josef Och, Hermann Ney: 'A systematic comparison of various statistical alignment models' Computational Linguistics Volume 29 Issue 1, 200303, pp.19-51, MIT Press *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017084274A (ja) * 2015-10-30 2017-05-18 日本電信電話株式会社 単語対応付け装置、機械翻訳学習装置、方法、及びプログラム
CN110889456A (zh) * 2019-12-02 2020-03-17 深圳大学 基于神经网络的共生矩阵特征提取方法、存储介质及终端

Also Published As

Publication number Publication date
JP5454763B2 (ja) 2014-03-26

Similar Documents

Publication Publication Date Title
US20050216253A1 (en) System and method for reverse transliteration using statistical alignment
US20070011132A1 (en) Named entity translation
US20070021956A1 (en) Method and apparatus for generating ideographic representations of letter based names
US20100088085A1 (en) Statistical machine translation apparatus and method
Costa-Jussá et al. Statistical machine translation enhancements through linguistic levels: A survey
Mori Word-based partial annotation for efficient corpus construction
Singh et al. Part of speech tagging of Marathi text using trigram method
Li et al. Improving text normalization using character-blocks based models and system combination
Cing et al. Improving accuracy of part-of-speech (POS) tagging using hidden markov model and morphological analysis for Myanmar Language
Huang et al. Words without boundaries: Computational approaches to Chinese word segmentation
Udupa et al. “They Are Out There, If You Know Where to Look”: Mining Transliterations of OOV Query Terms for Cross-Language Information Retrieval
JP5454763B2 (ja) 文の対中の単語対応付装置及びそのコンピュータプログラム
Slayden et al. Thai sentence-breaking for large-scale SMT
Saito et al. Multi-language named-entity recognition system based on HMM
Saini et al. Relative clause based text simplification for improved english to hindi translation
Dhanalakshmi et al. Chunker for tamil
Pretorius et al. Setswana tokenisation and computational verb morphology: Facing the challenge of a disjunctive orthography
Cing et al. Joint word segmentation and part-of-speech (POS) tagging for Myanmar language
JP2006127405A (ja) バイリンガルパラレルテキストをアライメントする方法及びそのためのコンピュータで実行可能なプログラム
Hatori et al. Predicting word pronunciation in Japanese
Phodong et al. Improvement of word alignment in Thai-English statistical machine translation by grammatical attributes identification
Bar et al. Arabic multiword expressions
Khemakhem et al. The MIRACL Arabic-English statistical machine translation system for IWSLT 2010
Gebre Part of speech tagging for Amharic
Phyue Unknown word detection via syntax analyzer

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130521

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130705

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130730

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131022

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20131022

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20131114

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131203

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131224

R150 Certificate of patent or registration of utility model

Ref document number: 5454763

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250