JP2008165786A

JP2008165786A - 機械翻訳用のシーケンス分類

Info

Publication number: JP2008165786A
Application number: JP2007331748A
Authority: JP
Inventors: Srinivas Bangalore; バンガロアスリニヴァス; Patrick Haffner; ハフナーパトリック; Stephan Kanthak; カンサックスチーファン
Original assignee: AT&T Corp
Current assignee: AT&T Corp
Priority date: 2006-12-28
Filing date: 2007-12-25
Publication date: 2008-07-17
Also published as: EP1959357A3; US20080162111A1; EP1959357A2; US7783473B2

Abstract

【課題】ある記号のシーケンスを記号の別のシーケンスに翻訳するのに適用可能な方法及びモデルを提供する。
【解決手段】自然言語文の翻訳など、シーケンスの分類が、独立仮定を使用して実行される。独立仮定とは、特定のターゲット文単語へのソース文単語の正しい翻訳の確率が、文内の他の単語の翻訳と独立であるという仮定である。この仮定は、正しい仮定ではないが、それでも、高いレベルの単語翻訳精度が達成される。具体的に言うと、識別トレーニングが、トレーニング文内の対応するソース単語の特徴の集合に基づいて、ターゲット語彙単語ごとのモデルを展開するのに使用され、これらの特徴のうちの少なくとも１つは、ソース単語の文脈に関連する。各モデルは、対応するターゲット語彙単語の重みベクトルを含む。ベクトルを構成する重みは、特徴のめいめいの１つに関連し、各重みは、ソース単語のその特徴の存在が、問題のターゲット単語が正しい単語である可能性をより高める範囲の尺度である。
【選択図】図２

Description

本発明は、自然言語文の機械翻訳を実行する時に必要になるものなどのシーケンス分類に関する。

機械翻訳では、目的は、英文
Ｉｎｅｅｄｔｏｍａｋｅａｃｏｌｌｅｃｔｃａｌｌ
などのソース文を、その文の日本語版
私はコレクトコールをかける必要があります
などのターゲット文に翻訳することである。この課題は、シーケンス分類と称するより一般的な問題の特殊事例である。

より一般的な言葉で述べると、自然言語翻訳問題は、ソース記号（シンボル）シーケンスをとり、特定のターゲット記号シーケンスであるものとして分類することという特定の事例として理解することができる。便宜上、本明細書での議論は、単語「記号（シンボル）」、「シーケンス」、および「分類」ではなく、それぞれ「単語」、「文」、および「翻訳」を使用する。しかし、本発明が、ある記号のシーケンスを記号の別のシーケンスに翻訳することというより一般的な事例に適用可能であることを理解されたい。また、本発明が、文法的に完全な文だけではなく、完全な文法的な文にはならない句または単語の他の記号列に適用可能であり、したがって、本明細書および添付の特許請求の範囲での単語「文」が、これによって、そのような句または単語の記号列を含むと定義されることをも了解されたい。

ソース文単語に対応するターゲット文単語を識別するという課題は、各ソース言語単語が、すべてが同一の順序で一定不変に特定のターゲット言語単語に翻訳されるならば、多少単純になるはずである。しかし、しばしば、そうではない。たとえば、上の文の英単語「ｃｏｌｌｅｃｔ」は、電話で呼び出された当事者が電話料金の責任を負うタイプの電話呼を指す。単語「ｃｏｌｌｅｃｔ」のその特定の意味は、日本語の特定の単語に翻訳される。しかし、単語「ｃｏｌｌｅｃｔ」は、句「ｃｏｌｌｅｃｔｙｏｕｒｐａｐｅｒｓａｎｄｇｏｈｏｍｅ（書類を集めて帰りなさい）」および「ｃｏｌｌｅｃｔｙｏｕｒｓｅｌｆ，ｙｏｕ’ｒｅｇｅｔｔｉｎｇｔｏｏｅｍｏｔｉｏｎａｌｌｙｉｎｖｏｌｖｅｄ（落ち着きなさい。感情的になりすぎていますよ）」のように、複数の他の意味を有する。単語「ｃｏｌｌｅｃｔ」のこれらの意味のそれぞれが、異なる日本語の対応物を有する。また、単語の順序は、言語によって異なる。

ターゲット語彙の特定の単語が、ソース文の単語の正しい翻訳である確率は、ソース単語自体だけではなく、前後の文脈情報に依存する。したがって、英文での単語「ｃｏｌｌｅｃｔ」の直後の単語「ｃａｌｌ」の出現は、日本語の単語「コレクト」が、単語「ｃｏｌｌｅｃｔ」の正しい翻訳である確率を高める。というのは、１つの英文での２つの単語「ｃｏｌｌｅｃｔ」および「ｃａｌｌ」の使用が、「ｃｏｌｌｅｃｔ」がソース文で電話の文脈で使用されている確率を高めるからである。
米国特許出願第１１／＿＿＿，＿＿＿号、名称「ＤｉｓｃｒｉｍｉｎａｔｉｖｅＴｒａｉｎｉｎｇＯｆＭｏｄｅｌｓＦｏｒＳｅｑｕｅｎｃｅＣｌａｓｓｉｆｉｃａｔｉｏｎ」 F. Och and H. Ney, "Discriminative training and maximum entropy models for statistical machine translation," in Proceedings of ACL, 2002. K. Yamada and K. Knight, "A syntax-based statistical translation model," in Proceedings of 39th ACL, 2001. P. Brown, S.D. Pietra, V.D. Pietra, and R. Mercer, "The Mathematics of Machine Translation: Parameter Estimation," Computational Linguistics, vol. 16, no. 2, pp. 263-312, 1993. F.J. Och and H. Ney, "A systematic comparison of various statistical alignment models," Computational Linguistics, vol. 29, no. 1, pp. 19-51, 2003. S. Kumar and W. Byrne, "A weighted finite state transducer implementation of the alignment template model for statistical machine translation," in Proceedings of HLT-NAACL 2003, Edmonton, Canada, May 2003. P. Koehn, F. J. Och, and D. Marcu, "Statistical phrase-based translation," in Proceedings of the Human Language Technology Conference 2003 (HLT-NAACL 2003), Edmonton, Canada, May 2003. N. Bertoldi, R. Cattoni, M. Cettolo, and M. Federico, "The ITC-IRST Statistical Machine Translation System for IWSLT-2004," in Proceedings of the International Workshop on Spoken Language Translation (IWSLT), Kyoto, Japan, Sept. 2004, pp. 51-58. R. Zens, O. Bender, S. Hasan, S. Khadivi, E. Matusov, J. Xu, Y. Zhang, and H. Ney, "The RWTH Phrase-based Statistical Machine Translation System.," in Proceedings of the International Workshop on Spoken Language Translation (IWSLT), Pittsburgh, PA, Oct. 2005, pp. 155-162. S. Bangalore and G. Riccardi, "Stochastic finite-state models for spoken language machine translation," Machine Translation, vol. 17, no. 3, 2002. F. Casacuberta and E. Vidal, "Machine translation with inferred stochastic finite-state transducers," Computational Linguistics, vol. 30(2):205-225, 2004. S. Kanthak and H. Ney, "Fsa: An efficient and flexible C++ toolkit for finite state automata using on-demand computation," in Proceedings of the 42nd Annual Meeting of the Association for Computational Linguistics, Barcelona, Spain, 2004, pp. 510-517. J. M. Crego, J. B. Marino, and A. de Gispert, "An ngram-based statistical machine translation decoder," in Proc. of the 9th European Conf. on Speech Communication and Technology (Interspeech'05), Lisbon, Portugal, Sept. 2005, pp. 3185-3188. F. J. Och and H. Ney, "Discriminative training and maximum entropy models for statistical machine translation," in Proc. Annual Meeting of the Association for Computational Linguistics, Philadelphia, PA, July 2002, pp. 295-302. V. Goffin, C. Allauzen, E. Bocchieri, D. Hakkani-Tur, A. Ljolje, S. Parthasarathy, M. Rahim, G. Riccardi, and M. Saraclar, "The AT&T WATSON Speech Recognizer," in Proceedings of ICASSP, Philadelphia, PA, 2005. A. Stolcke, "SRILM - An Extensible Language Modeling Toolkit," in Proc. Intl. Conf. Spoken Language Processing, 2002. J. Lafferty, A. McCallum, and F. Pereira, "Conditional random fields: Probabilistic models for segmenting and labeling sequence data," in Proceedings of ICML, San Francisco, CA, 2001. A.L. Berger, Stephen A. D. Pietra, D. Pietra, and J. Vincent, "A Maximum Entropy Approach to Natural Language Processing," Computational Linguistics, vol. 22, no. 1, pp. 39-71, 1996. R. Malouf, "A comparison of algorithms for maximum entropy parameter estimation," in Proceedings of CoNLL-2002. 2002, pp. 49-55, Taipei, Taiwan. M. Dudik, S. Phillips, and R.E. Schapire, "Performance Guarantees for Regularized Maximum Entropy Density Estimation," in Proceedings of COLT'04, Banff, Canada, 2004, Springer Verlag. A. McCallum, D. Freitag, and F. Pereira, "Maximum entropy Markov models for information extraction and segmentation," in Proc. 17th International Conf. on Machine Learning. 2000, pp. 591-598, Morgan Kaufmann, San Francisco, CA. L. Bottou, Une Approche the<'>orique de l'Apprentissage Connexionniste: Applications a la Reconnaissance de la Parole, Ph.D. thesis, Universite<'> de Paris XI, 91405 Orsay cedex, France, 1991. J. Lafferty, A. McCallum, and F. Pereira, "Conditional random fields: Probabilistic models for segmenting and labeling sequence data," in Proc. 18th International Conf. on Machine Learning. 2001, pp. 282-289, Morgan Kaufmann, San Francisco, CA. J. Platt, "Probabilistic outputs for support vector machines and comparison to regularized likelihood methods," in NIPS. 1999, MIT Press. http://homepages.inf.ed.ac.uk/s0450736/maxent_toolkit.html

本発明は、ある記号のシーケンスを記号の別のシーケンスに翻訳することに適用可能な方法及びモデルを提供することを目的とする。

上記は、識別トレーニング（ｄｉｓｃｒｉｍｉｎａｔｉｖｅｔｒａｉｎｉｎｇ）手法を使用する文レベルのトレーニングおよび翻訳を介して、機械翻訳環境で考慮に入れることができる。エンコーダは、英語トレーニング文ならびに対応する和文を与えられることによってトレーニングされ、文レベル・モデルがもたらされる。次に、デコーダは、そのモデルを翻訳に使用する。具体的に言うと、ソース英文を与えられれば、和文の任意の所与の１つがソース英文の翻訳である確率を、各和文について展開されたモデルに基づいて計算することができる。最高の計算された確率を有する和文が、ソース英文の正しい翻訳として選択される。このモデルは、トレーニング文全体に基づく文レベルのモデルなので、前述の文脈情報は、このモデルに組み込まれている。

そのような手法は、ターゲット語彙のサイズおよび／またはソース文の個数もしくはソース文の間の変動性が小さい場合には実用的である可能性がある。しかし、自然言語翻訳という一般的な事例で（あるいは、多数の特殊化された翻訳環境でさえ）、可能な文の個数は、指数関数的に多く、モデルをトレーニングすることの計算要件が、法外にリソース集中型になる。

前述に対処する本発明を、本明細書で、自然言語ソース文の単語を自然言語ターゲット文の対応する単語に翻訳するプロセスの文脈で示す。分類は、独立仮定（ｉｎｄｅｐｅｎｄｅｎｃｅａｓｓｕｍｐｔｉｏｎ）を使用して実行される。独立仮定は、特定のターゲット文単語へのソース文単語の正しい翻訳の確率が、文の他の単語の翻訳と独立であるという仮定である。

この独立仮定は、実際には正しくない。すなわち、特定のターゲット言語単語が特定のソース文単語の正しい翻訳である確率は、文中の他の単語がどのように翻訳されるかによって影響される「可能性がある」。したがって、さまざまな単語の正しい翻訳の確率は、本発明の独立仮定によれば、独立ではなく、実際には相互依存である。

単純な例として、英語の単語「ｃｏｌｌｅｃｔ」および「ｂａｎｋ」を含むソース文を検討されたい。単語「ｃｏｌｌｅｃｔ」は、「ｃｏｌｌｅｃｔ（コレクト）」電話呼を指すことができ、あるいは、たとえば金融機関が別の銀行から資金を「ｃｏｌｌｅｃｔ（集める）」ことができる金融取引環境で使用することができる。「ｃｏｌｌｅｃｔ」のこの２つの意味に対応する、日本語の２つの異なる単語がある。同様に、単語「ｂａｎｋ」は、たとえば、金融機関または川の土手を指すことができる。やはり、この２つの意味に対応する、日本語の２つの異なる単語がある。所与の文の単語「ｂａｎｋ」の正しい翻訳が、金融機関を指す日本語の単語である確率は、同一の文の単語「ｃｏｌｌｅｃｔ」の正しい翻訳が、「ｃｏｌｌｅｃｔ」の電話環境の意味ではなく、資金を集めることを指す日本語の単語であることがわかっている場合に、高くなる。

強い仮定ではあるが、本発明を特徴づける独立仮定は、たとえば文レベル翻訳手法のように、上で説明した相互依存性が考慮に入れられる場合よりはるかに少ない計算リソースを用いてソース翻訳プロセスを実行することを可能にする。
本願と同時に出願され、本願と同一の譲受人に譲渡された同時係属の米国特許出願第１１／＿＿＿，＿＿＿号、名称「ＤｉｓｃｒｉｍｉｎａｔｉｖｅＴｒａｉｎｉｎｇＯｆＭｏｄｅｌｓＦｏｒＳｅｑｕｅｎｃｅＣｌａｓｓｉｆｉｃａｔｉｏｎ」で請求される発明によれば、単語モデルが、トレーニング文内の対応するソース単語の特徴の集合に基づいて、ターゲット語彙単語ごとに展開され、これらの特徴のうちの少なくとも１つは、ソース単語の文脈すなわちソース単語に関する文脈情報に関係する。各モデルは、実例として、対応するターゲット語彙単語の重みベクトルを含む。この重みベクトルを構成する重みは、特徴のめいめいの１つに関連し、各重みは、ソース単語のその特徴の存在が、問題のターゲット単語が正しい単語である可能性をより高める範囲の尺度である。

本発明の原理によれば、そのような単語モデルを与えられれば、ソース文の各単語は、ソース文の他の単語と独立に分類できる。ソース文は、独立に分類されたソース単語に基づいて分類できる。

上の手法は、一時に１単語を翻訳するので、ターゲット言語の文法規則と一貫する形でのターゲット文の記号のシーケンシングなど、文レベル手法に固有の機能性の一部を提供しない。しかし、その機能および完全な翻訳プロセスに必要な他の機能は、当業者に既知または当業者が導出できる他のステップによってたやすく扱うことができ、そのようなステップは、本発明がその一部を構成する全体的プロセスの文脈内で実行することができる。

上は、自然言語翻訳に関係する用語すなわち、「単語」、「文」、および「翻訳」などの用語を使用して本発明を要約するものである。しかし、上で注記したように、本発明の原理は、記号シーケンス内の記号の分類というより一般的な事例に適用可能である。

概要の説明
図１および２は、それぞれ、識別トレーニングプロセスおよび翻訳プロセスの概念的ブロック図である。
実例として、開示されるプロセスは、ソース自然言語の単語シーケンスまたは文の複数の単語の、ターゲット自然言語の対応する単語への翻訳を可能にする。ソース言語およびターゲット言語は、実例として、それぞれ英語および日本語である。

図１は、より具体的には、英語のトレーニング文および日本語の対応する文が、識別トレーニングプロセスで、日本語単語のそれぞれの重みの集合を展開するのに使用される、開示されるプロセスのトレーニング・フェーズを表す。これらの重みは、その後、図２のプロセスで、前述の翻訳を実行するのに使用される。

図１に示されたトレーニング・プロセスは、多数のトレーニング文について繰り返される。例として、単一トレーニング文の処理を示す。３つの情報が、トレーニング文ごとに入力される。英語トレーニング文（実例として「Ｉｎｅｅｄｔｏｍａｋｅａｃｏｌｌｅｃｔｃａｌｌ」）と、対応する日本語のトレーニング文
私はコレクトコールをかける必要があります
と、いわゆるアラインメント情報とがある。このトレーニング文のアラインメント情報は、実例として１５０３０２４である。アラインメント情報の各桁位置は、英文の１単語に対応する。各桁位置の値は、所与の和文の対応する日本語単語の位置を示す。したがって、１５０３０２４は、単語「Ｉ」、「ｗａｎｔ」、「ｍａｋｅ」、「ｃｏｌｌｅｃｔ」、および「ｃａｌｌ」が、対応する和文の１番目の単語、５番目の単語、３番目の単語、２番目の単語、および４番目の単語であることを意味する。アラインメント情報の０は、英文の単語「ｔｏ」および「ａ」が、和文の対応する単語を有しないことを示す。当業者は、そのようなアラインメント・データを生成するのに使用できるソフトウェア・ツールを知っている。そのようなツールの１つが、ＧＩＺＡ＋＋アラインメント・ツールである。

この３つの情報は、特徴ベクトル・ジェネレータ１２によって処理されて、トレーニング文の日本語版の単語のそれぞれのトレーニング特徴ベクトルが生成される。特徴ベクトル・ジェネレータ１２は、独立型のまたは特殊目的の処理要素として図示されてはいるが、図面に示された他の要素と同様に、実例として、プロセッサによって実行される時に本明細書で説明される機能性を実行するプログラム・コードおよび／または実行中のプログラム・コードによってそのデータが使用されるデータ構造体として実施されることを了解されたい。

特徴ベクトル・ジェネレータ１２は、特徴定義１１の集合に対して英単語を評価することによって、トレーニング文の日本語版の単語ごとに、トレーニング特徴ベクトルとして表されるトレーニング特徴値の集合を生成する。少なくとも１つ、好ましくは多数の特徴定義が、英単語の文脈に関係する、すなわち、所与のトレーニング文内の所与の単語とトレーニング・シーケンス内の他の単語のうちの１つまたは複数との間の関係を定義する。この例示的実施形態で使用される特徴定義の集合を、下で提示するが、そのうちの最初の９つだけを明示的に示す。
特徴定義
・次の単語は「ｃａｌｌ」か？
・前の単語は「ｍａｋｅａ」か？
・現在の単語は文の最初の単語か？
・現在の単語は文の最後の単語か？
・文は質問か？
・現在の単語は「ｉｎｇ」で終わるか？
・現在の単語は大文字で始まるか？
・前の単語は句読点を有するか？
・次の２つの単語は「ｃａｌｌｓｂｕｔ」か？
・など

特徴定義の通常の集合は、たとえば、数万個から数千万個の文脈関連特徴を有することができる。翻訳される文の種類に適当な特徴の集合を展開できることは、当業者の水準に含まれる。具体的に言うと、テンプレート質問の固定された集合を使用して、特徴関数（ｆｅａｔｕｒｅｆｕｎｃｔｉｏｎ）を記述する。これらのテンプレート質問は、文脈特徴関数をもたらすために、トレーニング・データに現れる可能な文脈によって実例を挙げて説明される。テンプレート質問のいくつかの例は、次の通りである。
ａ．前の単語＝Ｘか？
ｂ．次の単語＝Ｘか？
ｃ．前の単語の前の単語＝Ｘか？
ｄ．前の単語がＸであり次の単語がＹであるか？
ｅ．前の単語は先頭を大文字にされているか？
ｆ．次の単語がＸであり前の単語が先頭を大文字にされているか？
通常、テンプレート質問の集合は、１００テンプレート程度であり、これは、ソース言語のすべての語彙項目に対して実例を挙げて説明される時に、多数の特徴関数をもたらす。

他の特徴に、ａ）単語は名詞／動詞／形容詞などであるか？またはｂ）単語は主語／述語／目的語であるか？などの文法的定義および／または言語学的定義を含めることができる。文を分析し、この種類の質問に答えることができるツールが、市販されている。さらに、この種類の情報は、特定の単語（または記号）に「関する」情報とみなすことができるが、単語（または記号）に関連するそのような情報（または他の情報）を、単語（または記号）自体の実際の一部と考えることができる。

１２によって生成される各トレーニング特徴ベクトルの要素は、２進数（０および１）であり、この２進数のそれぞれは、対応する英単語が、ある特徴を有する（「１」）または有しない（「０」）のどちらであるかを示す。したがって、上で指定された特徴定義を用いると、文「Ｉｎｅｅｄｔｏｍａｋｅａｃｏｌｌｅｃｔｃａｌｌ」の単語「ｃｏｌｌｅｃｔ」のトレーニング特徴ベクトルは、［１１０００００００ …］になるはずである。というのは、「ｃｏｌｌｅｃｔ」の次の単語が、「ｃａｌｌ」であり、「ｃｏｌｌｅｃｔ」の前の単語が、「ｍａｋｅａ」であり、現在の単語「ｃｏｌｌｅｃｔ」が、文の最初の単語ではない、などであるからである。

上にも図面にも示されていないが、特徴定義は、問題の英単語が実際にはどれであるかの表示をも含む。最も単純な場合に、これは、トレーニング文および後に翻訳のために提示される文に現れると期待される英単語ごとに特徴ベクトル内に位置を割り振ることによって行うことができる。２進値は、その単語自体に対応する位置（ここでは値が「１」になる）を除いて、ベクトルのこれらの位置のそれぞれで「０」になる。実際には、当業者が知っている通り、トレーニング特徴ベクトル内で英単語のアイデンティティをエンコードする、よりコンパクトな形がある。

図１では、１４に、トレーニング特徴ベクトルが、トレーニング文の日本語版に現れる単語ごとに生成されることが示されている。１４内の省略記号によって示されるように、より多数のトレーニング文が、上で説明した形で処理されるはずである。

適当な個数のトレーニング文が処理され、トレーニング特徴ベクトルが生成された後に、それらのトレーニング特徴ベクトルが、エンコーダ１５によって処理され、エンコーダ１５は、各トレーニング特徴ベクトルに対応する日本語単語の表示をも受け取る。トレーニング文は、翻訳フェーズで翻訳のために提示されると期待される各英単語が、これから説明するように、正確な重み値を達成するためにトレーニング文に十分な回数だけ現れるように計画される。

エンコーダ１５は、重みテーブル１６によって表されるように、トレーニング文に現れる日本語単語ごとの重みの集合の形で、記号モデルすなわち単語モデルを展開する。トレーニング文に現れた日本語単語のリストを、ターゲット語彙と称する。ターゲット語彙の個々の単語を、「ｔ」によって表し、この「ｔ」は、語彙単語のリストにわたる範囲を有する変数の性質を持つ。したがって、「ｔ」がとり得る「値」は、ターゲット語彙内のさまざまな日本語単語である（この表記のわずかな変形で、「ｔ」は、本明細書で後で示す式９で、１からＶまでの範囲にわたる合計インデックスとして使用され、ここで、Ｖは、語彙に含まれる単語数を示す数である。１からＶまでの各数字は、この事例では、めいめいの日本語単語の代役ラベルである）。

ターゲット語彙の各単語ｔは、重みベクトルλ_ｔによって表される重みの関連する集合を有する。重みベクトルλ_ｔの重みのそれぞれは、対応する特徴定義に関連する数値である。したがって、たとえば、単語「コールを」の重みベクトルの最初の項目は、数３．１であるが、これは、最初の特徴定義『次の単語は「ｃａｌｌ」であるか』に関連する重みである。重みベクトルは、下で説明するように、ソース英文の単語を翻訳する過程で使用される。当面は、特定のターゲット語彙単語ｔの重みベクトル内の各重みが、翻訳されるソース文の単語が、問題の特徴を有する時に、その特定のターゲット語彙単語ｔに翻訳される確率の尺度であることに留意することで十分である。したがって、この例では、重み３．１は、翻訳されるソース文内の英単語が特徴定義『次の単語は「ｃａｌｌ」であるか』を満足する時に、その英単語が日本語単語「コールを」に対応する確率の尺度である。

重みベクトルを導出するためにトレーニング特徴ベクトルをエンコードする技法が、下で引用されているＤｕｄｉｋ他の参考文献［１９］に記載されている。実用的な実施形態では、重みは、任意の正の値または負の値をとることができ、小数点以下４桁の精度を有することができる。図面および例を単純にするために、図１に示されたすべての重みは、小数点以下１桁だけの精度を有し、すべてが−１０．０から＋１０．０までの範囲内にある。

重みベクトルを展開したならば、ソース英文の単語の翻訳を実行することができる。図２に、単語ｗ_１、ｗ_２、…ｗ_ｉ…を含むそのようなソース文Ｓを示す。ソース文Ｓは、特徴ベクトル・ジェネレータ２２に適用され、特徴ベクトル・ジェネレータ２２は、図１の特徴ベクトル・ジェネレータ１２と同様に、特徴定義１１の集合に対して各単語を評価することによって、この文の単語ごとに特徴ベクトルを生成する。文Ｓの単語ｗ_１、ｗ_２、…ｗ_ｉ…について生成される特徴ベクトルを、それぞれＦ（Ｓ，１）、Ｆ（Ｓ，２）、…Ｆ（Ｓ，ｉ）、…と表す。単語ｗ_１、ｗ_２、…ｗ_ｉ…のそれぞれについて、最も可能性の高い正しい対応する日本語単語がどれであるかに関する判定を行う。そのプロセスは、図２では箱２４および２５によって表されており、この後者は、図１のテーブル１６からの重みベクトルを使用する。

各単語の翻訳は、ソース文内のすべての他の単語の正しい翻訳と判定されたものとは独立に実行される。具体的に言うと、第ｉ単語ｗ_ｉを与えられて、ターゲット語彙単語ｔごとに判定を行う。その判定は、そのターゲット語彙単語が単語ｗ_ｉの正しい翻訳である確率の判定である。２５に示されているように、語彙単語ｔがｗ_ｉの正しい翻訳である確率を、Ｐ（ｔ_ｉ｜Ｆ（Ｓ，ｉ））と表す。やはり２５に示されているように、その確率は、ｗ_ｉの特徴ベクトルと、単語ｔに関連する重みすなわちλ_ｔとの関数である。特定の計算を、下で式９として示す。現在の議論については、確率Ｐ（ｔ_ｉ｜Ｆ（Ｓ，ｉ））が、ドット積λ_ｔ・Ｆ（Ｓ，ｉ）の関数であることに留意することで十分である。２つのベクトルのドット積が、２つのベクトルの対応する要素の積の合計であることを想起されたい。たとえば、２つのベクトル［１０１］と［１．２３．４０．１］とのドット積は、（１×１．２）＋（０×３．４）＋（１×０．１）＝１．３である。

発見的に、ターゲット語彙単語ｔが正しい日本語単語である確率が、なぜドット積λ_ｔ・Ｆ（Ｓ，ｉ）の関数であるかを理解することができる。上で注記したように、各特徴に関連するλ_ｔの重みは、ソース単語がその特徴を有する時に、単語ｔが、翻訳されるソース単語の正しい翻訳である確率の尺度であることを想起されたい。したがって、ａ）ソース単語が有する特徴が多いほど、およびｂ）比較的大きい関連する重みを有する特徴が多いほど、ドット積が大きくなり、これは、検討されている日本語単語が正しい翻訳であることの見込みの高まりを反映する。

特徴ベクトルは、０および１からなるので、ドット積が、問題のソース単語が満足する特徴定義に関連する重みの合計によって与えられることを観察することができる。したがって、単語ｔがソース単語の正しい翻訳である確率は、問題のソース単語が満足する特徴定義に関連する重みの合計の関数である。

ｔのすべての値についてすなわちターゲット語彙の各単語についてドット積を判定した後に、ｔ^＊と表される、最大のドット積に関連する語彙単語が、正しい翻訳されたターゲット単語として採用される。
２７に示されているように、ｔ^＊と表される、翻訳されたターゲット単語は、

によって与えられる語彙単語ｔであり、これは、単語ｗ_ｉを与えられて、翻訳されたターゲット単語ｔ^＊ _ｉが、最も大きいすなわち最大の（ａｒｇｍａｘ）関連する確率を有する単語であることを意味する。

上で、特徴定義１１が、上で示したものなどの文脈的特徴に加えて、特徴として、その英単語自体が実際にどれであるかの表示を含むことを注記した。英単語に関連する重みは、日本語へのその英単語のすべての可能な翻訳について非常に大きい。すなわち、「ｃｏｌｌｅｃｔ」であるソース単語に関連する重みは、「ｃｏｌｌｅｃｔ」が正しく翻訳される可能性がある複数の日本語単語のそれぞれについて、非常に大きい。その結果、これらの複数の日本語単語は、処理されつつある単語が英単語「ｃｏｌｌｅｃｔ」である時には必ず、不可避的に最大のドット積を有する単語になる。次に、ドット積の文脈関連構成要素は、「ｃｏｌｌｅｃｔ」を意味するこれらの複数の日本語単語のどれが正しい単語であれ、その単語に向かって「天秤の片方を重くする」。
最後に、図２は、このプロセスの出力が、ターゲット文Ｔ^＊＝ｔ^＊ _１、ｔ^＊ _２…ｔ^＊ _ｉ…であることを示す。

理論的基盤
次では、本発明の理論的基盤を提示する。数値識別子、たとえば［１］を用いて本明細書で参照される科学論文は、下にリストされている。
１．序説
識別トレーニングされる分類ベースの技法は、音声処理問題および自然言語処理問題において曖昧さを解決する主要な手法になってきた。これらの技法は、文書全体からの特徴を使用する文書ルーティング（ｄｏｃｕｍｅｎｔｒｏｕｔｉｎｇ）の課題から発したが、品詞タギング（ｐａｒｔ−ｏｆ−ｓｐｅｅｃｈｔａｇｇｉｎｇ）、固有表現タギング（ｎａｍｅｄ−ｅｎｔｉｔｙｔａｇｇｉｎｇ）などの単語レベル曖昧性解消課題および単語の局所的文脈内の特徴だけに頼る依存性解析課題にも成功して適用されてきた。これらの手法を使用してトレーニングされたモデルは、独立変数の分布をモデル化せずに条件付き分布を直接に最適化するので、生成モデルより性能が優れていることが示されてきた。

しかし、機械翻訳研究のほとんどは、生成モデリング技法に焦点を合わせてきた。識別トレーニングは、モデル組合せ［１］にのみ使用され、モデルのパラメータをトレーニングするのに直接には使用されてこなかった。識別トレーニングされる分類技法を、翻訳モデルのパラメータを推定するために直接に適用することは、通常はターゲット言語語彙のサイズである非常に大きいラベル集合を扱うためにクラシファイヤ（ｃｌａｓｓｉｆｉｅｒ）をスケーリングすることを必要とする。我々は、そのような大きいラベル集合までクラシファイヤをスケーリングする方法を提示し、話し言葉翻訳の課題に関して機械翻訳モデルをトレーニングするためにこの方法を適用する。

機械翻訳の精度を改善するために生成モデリング・フレームワークで統語的情報を活用する複数の試みがあった［２］。しかし、これらの手法は、最良でも最低限の成功を収めるのみであった。我々は、識別分類フレームワークが、独立変数の分布をモデル化せず、したがって通常は生成モデルに影響するまばらさの問題によって影響されないので、そのような言語学的に豊かな情報を活用するのにより適切であると考える。

２．統計的機械翻訳モデル
式Ｔ＝ｔ＼ｓ＼ｄｏ５（１）＼，…＼，ｔ＼ｓ＼ｄｏ５（Ｍ）（ｔ_ｉ∈Ｌ_Ｔ）。これは、Ｐ（Ｔ｜Ｓ）を最大にする最良のターゲット・シーケンスの探索として定式化することができる。理想的には、Ｐ（Ｔ｜Ｓ）は、トレーニング・データに関する条件付き尤度を最大にするために直接に推定されなければならない（ｄｉｓｃｒｉｍｉｎａｎｔｍｏｄｅｌ）。しかし、Ｔは、可能なラベルの指数関数的に大きい組合せを有するシーケンスに対応し、伝統的な分類手法は、直接には使用することができない。この問題を克服するために、「雑音があるチャネル」のパラダイムで提案されているように［３］、ベイズ変換を適用し、生成技法を採用する。シーケンスＳは、Ｔの雑音がある版と考えることができ、最良推測Ｔ^＊は、

として計算される。

翻訳確率Ｐ（Ｓ｜Ｔ）は、ＳのトークンとＴのトークンとの間のアラインメントのコーパスから推定される。アラインメントに対する複数の手法すなわち、記号列ベースのアラインメントおよびツリーベースのアラインメントがあったが、この論文において、我々は、Ｇｉｚａ＋＋［４］を使用して、ソース言語のトークンとターゲット言語のトークンとの間のアラインメントを提供する。アラインメントの同一のソースを使用し、入力ソース記号列Ｓを与えられて最良のＴ^＊を計算するデコーダに関する複数の変形形態があった。我々は、次のセクションでこれらのデコーダの一部を論ずる。

３．機械翻訳用のデコーダ
式１および２は、異なるデコーダ・アーキテクチャをもたらす異なる形で解釈することができる。我々は、下でこれらのデコーダ・アーキテクチャの概要を示す。
３．１条件付き確率モデルに基づくデコーダ
式２に示されているように条件付き確率モデルを使用することは、独立にトレーニングできる複数の知識ソースからの翻訳プロセスを構成するという利点を有する。ＫｕｍａｒおよびＢｙｒｎｅ［５］は、翻訳プロセスを、５つのモデルすなわち、ソース言語モデル、ソース分割モデル、句交換モデル、テンプレート・シーケンス・モデル、および句翻訳モデルにさらに分解できることを示した。すべてのモデルが独立にトレーニングされるので、異なるデータ・セットを使用して、それぞれを推定することができる。条件付き確率に基づくデコーダの他の例は、［３、４、６、７、８］に見出すことができる。
３．２同時確率モデルに基づくデコーダ
［９、１０、１１、１２］に示されたＦＳＴに基づくデコーダは、２言語コーパスからの同時確率モデルＰ（Ｓ，Ｔ）を使用してターゲット記号列をデコードする。２言語は、ソース単語順またはターゲット単語順のいずれかで使用することができる。これは、２つの異なる２ステージ・デコーダを生じる。式３に示されているように、まず、ソース記号列が、ソース単語順でターゲット記号列にマッピングされる。ターゲット記号列は、

の可能な並べ換えの集合からターゲット言語モデルに基づいて最尤記号列として計算される（式４）。

このデコーダの異なる版では、式５に示されているように、デコードされたターゲット記号列の並べ換えではなく、ソース記号列の可能な並べ換えの集合（λ_Ｓ）が、デコードされる。

３．３文に基づく特徴の組合せ
正規化されていないモデルをも可能にするために条件付き確率手法を緩和することは、文に基づく指数関数的特徴組合せ手法（対数−線形モデル組合せとも称する）につながる。

特徴の選択は、事実上無制限であるが、使用される条件付き確率モデルの指数だけを調整するのにこの手法を使用することが、非常に効率的であることが示されている（［１３、７、８］も参照されたい）。Ｃｒｅｇｏ他［１２］は、同時確率に基づく類似するシステムを提示している。

４．有限状態変換器に基づく機械翻訳モデル
このセクションでは、我々は、有限状態機械翻訳モデルを作成するステップを説明する。我々は、次に示されるように、ＧＩＺＡ＋＋を使用して構築された２言語アラインメントから始める。
英語：Ｉｎｅｅｄｔｏｍａｋｅａｃｏｌｌｅｃｔｃａｌｌ
日本語：私はコレクトコールをかける必要があります
アラインメント１５０３０２４
この「アラインメント」記号列は、ソース記号列の単語ごとに、ターゲット記号列の単語の位置インデックスを与える。どの単語にもマッピングされないソース単語は、インデックス０を関連付けられる。２言語コーパス式Ｔ＝…＼（ｗ＼ｓ＼ｄｏ５（ｉ）：ｘ＼ｓ＼ｄｏ５（ｉ）＼）…をコンパイルすることは、単純であり、ここで、ソース単語ｗ_ｉ∈Ｌ_Ｓ∪εであり、そのアラインメントされた単語ｘ_ｉ∈Ｌ_Ｔ∪εである（εはヌル記号である）。２言語のトークンを、ソース言語の単語順に従って順序付けるか、ターゲット言語の単語順に従って順序付けるかのいずれかとすることができることに留意されたい。ここで、我々は、
Ｉ：私はｎｅｅｄ：必要がありますｔｏ：ε ｍａｋｅ：コールを
ａ：ε ｃｏｌｌｅｃｔ＿コレクトｃａｌｌ＿かける
すなわち、前に示した、例のアラインメントおよびそのアラインメントに対応するソース単語順の２言語記号列を見る。このコーパスＴから、我々は、言語モデリング・ツール［１４、１５］を使用してｎ−グラム言語モデルをトレーニングする。結果の言語モデルは、式Ｓ×Ｔ→［０＼，１］）と表される。このオートマトンの弧上の記号（ｓ_ｉ＿ｔ_ｉ）は、ＳからＴへの重み付き記号列−記号列変換をもたらす式Ｓ→Ｔ×［０＼，１］と解釈される（式７に示されているように）。
式Ｔ＼ｓ＼ｕｐ５（＊）＝ａｒｇｍａｘ＼ｓ＼ｄｏ５（Ｔ）Ｐ＼（ｓ＼ｓ＼ｄｏ５（ｉ）＼，ｔ＼ｓ＼ｄｏ５（ｉ）｜ｓ＼ｓ＼ｄｏ５（ｉ−１）＼，ｔ＼ｓ＼ｄｏ５（ｉ−１）…ｓ＼ｓ＼ｄｏ５（ｉ−ｎ−１）＼，ｔ＼ｓ＼ｄｏ５（ｉ−ｎ−１）＼）（７）

５．シーケンス分類技法
前に述べたように、式１は、ソース言語記号列をターゲット言語記号列に変換する直接的方法を表す。式１は、Ｐ（Ｔ｜Ｓ）の推定値に依存する。学習は、Ｔ^＊がターゲット出力シーケンス

によく一致するようにするためにシステムのパラメータを変更することからなる。理想的には、Ｐ（Ｔ｜Ｓ）は、トレーニング・データに対する条件付き尤度を最大にするために直接に推定されなければならない（ｄｉｓｃｒｉｍｉｎａｎｔｍｏｄｅｌ）。しかし、Ｔは、可能なラベルの指数関数的に大きい組合せを有するシーケンス出力に対応し、伝統的な分類手法は、直接には使用することができない。条件付き確率場（ＣｏｎｄｉｔｉｏｎａｌＲａｎｄｏｍＦｉｅｌｄｓ（ＣＲＦ））［１６］は、シーケンス・レベルで指数関数モデルをトレーニングするが、我々の課題などの翻訳課題では、そのようなモデルのトレーニングの計算要件が、極端に高価である。

我々は、独立仮定を使用して、記号列レベルの大域分類問題を、式８に示された局所分類問題の積に近似する。
式Ｐ＼（Ｔ｜Ｓ＼）＝＼Ｉ＼ｐｒ（ｉ，Ｎ，）Ｐ＼（ｔ＼ｓ＼ｄｏ５（ｉ）｜Φ＼（Ｓ＼，ｉ＼）＼）（８）
ここで、Φ（Ｓ，ｉ）は、ソース記号列Ｓから抽出された特徴の集合である（このセクションの残りではΦと短縮する）。式Ｐ＼（ｔ＼ｓ＼ｄｏ５（ｉ）｜Φ＼（Ｓ＼，ｉ＼）＼）は、トレーニング・データにまたがる各特徴の平均値を正しく推定する、最も情報の少ないものを選択するため（Ｍａｘｅｎｔを用いて）である［１７］。これは、我々に、重みλ_ｔによってパラメータ化されたギブス分布を与え、ここで、ｔは、ラベル集合にまたがる範囲を有し、ｖは、ターゲット言語語彙の総数である。

式Ｌ＝＼Ｉ＼ｓｕ（ｉ，，）Ｌ＼（ｓ＼ｓ＼ｄｏ５（ｉ）＼，ｔ＼ｓ＼ｄｏ５（ｉ）＼）であり、

である。

この凹関数の大域最大値を見つけるのに使用される手順は、２つの主要な系列の方法すなわち、ＩｔｅｒａｔｉｖｅＳｃａｌｉｎｇ（ＩＳ）手順およびｇｒａｄｉｅｎｔｄｅｓｃｅｎｔ手順、具体的には、最高速であると報告されているＬ−ＢＦＧＳ法［１８］を含む。我々は、新しいＳｅｑｕｅｎｔｉａｌＬ１−ＲｅｇｕｌａｒｉｚｅｄＭａｘｅｎｔアルゴリズム（ＳＬ１−Ｍａｘ）［１９］を用いて、Ｌ−ＢＦＧＳと比較して、より高速の収束を得た（ｈｔｔｐ：／／ｈｏｍｅｐａｇｅｓ．ｉｎｆ．ｅｄ．ａｃ．ｕｋ／ｓ０４５０７３６／ｍａｘｅｎｔ＿ｔｏｏｌｋｉｔ．ｈｔｍｌを参照されたい）。我々は、我々の目的のために条件付き分布にＳＬ１−Ｍａｘを適合させた。ＳＬ１−Ｍａｘアルゴリズムのもう１つの利点は、Ｌ１レギュラリゼーションならびにレギュラリゼーション・メタパラメータを推定する効率的ヒューリスティックを提供することである。計算要件はＯ（Ｖ）であり、すべてのクラスを同時にトレーニングする必要があるので、メモリ要件もＯ（Ｖ）である。非ゼロ重みの実際の個数が特徴の総数よりはるかに少ないことを考えて、我々は、実現可能なランタイム・システムをもたらす疎な特徴表現を使用する。

５．１フレーム・レベルｄｉｓｃｒｉｍｉｎａｎｔｍｏｄｅｌ：２進Ｍａｘｅｎｔ
機械翻訳の課題に関して、トレーニング中にＯ（Ｖ）メモリを割り振ることさえ、現在のコンピュータのメモリ容量を超える。学習をより御しやすいものにするために、我々は、フレームレベル・マルチクラス分類問題を２進分類副問題に因数分解する。これは、パラメータのトレーニング中の並列化をも可能にする。我々は、ここで、各フレームでＶ個の１対他２進クラシファイヤを使用する。それぞれが、式ｂ＼ｓ＼ｄｏ５（ｊ）＼（ｔ＼）を出力する。各成分の確率は、独立に推定される。

式Ｐ＼（ｔ＼ｓ＼ｄｏ５（ｉ）｜Φ＼）＝＼Ｉ＼ｐｒ（ｊ，，）Ｐ＼（ｂ＼ｓ＼ｄｏ５（ｊ）＼（ｔ＼ｓ＼ｄｏ５（ｉ）＼）｜Φ＼）である。したがって、我々は、尤度を分離し、クラシファイヤを独立にトレーニングすることができる。我々は、ここで、Ｖ個の１対他２進成分からなる、最も単純で最も一般的に研究されたコードを使用する。独立仮定は、出力ラベルまたは出力クラスが独立であることを述べるものである。

５．２最大エントロピ・マルコフ・モデルすなわちＭＥＭＭ
式８の独立仮定は非常に強く、式Ｐ＼（ｔ＼ｓ＼ｄｏ５（ｉ）｜ｔ＼ｓ＼ｄｏ５（ｉ−１）＼，Φ＼（Ｓ＼，ｉ＼）＼）を追加することができる（２進独立性）。ＭＥＭＭ［２０］は、シーケンス依存性を学習するフレームレベルＭａｘｅｎｔクラシファイヤの使用を可能にするが、ＭＥＭＭは、通常、入力特徴（式Ｐ＼ｓ＼ｄｏ５（ｔ＼ｓ＼ｄｏ４（ｉ−１））＼（ｔ＼ｓ＼ｄｏ５（ｉ）｜Φ＼（Ｓ＼，ｉ＼）＼）である特徴）の実際の個数にある係数Ｖを乗ずる。これは、ラベリング・バイアスと称する新しい問題［２１］すなわち、重要なフレームレベルｄｉｓｃｒｉｍｉｎａｎｔ判断がシーケンス・レベルで無視され、性能の損失がもたらされる可能性がある［２２］という問題を引き起こす。

５．３動的文脈最大エントロピ・モデル
式Ｐ＼ｓ＼ｄｏ５（ｔ＼ｓ＼ｄｏ４（ｉ−１））＼（ｔ＼ｓ＼ｄｏ５（ｉ）｜Φ＼（Ｓ＼，ｉ＼）＼）は、ｔ_ｉ−１ラベルに基づいてコーパスを分割することを必要とする。これは、推定中のラベル集合にまたがる非互換事象空間につながる。この問題を軽減するために、我々は、特徴関数式Ｐ＼（ｔ＼ｓ＼ｄｏ５（ｉ）｜Φ＼（Ｓ＼，ｉ＼，ｔ＼ｓ＼ｄｏ５（ｉ−１）＼）＼）の一部として動的文脈を使用する。我々がこれを動的文脈モデルと呼ぶのは、特徴のすべてを入力記号列から統計的に計算できる、上で提示した静的文脈モデルと異なって、特徴がデコード中に動的に計算されるからである。

６．実験および結果
我々は、２つの異なる話し言葉コーパスに対して翻訳モデルを評価した。まず、「ＨｏｗＭａｙＩＨｅｌｐＹｏｕ」（ＨＭＩＨＹ）コーパスは、電話サービスに関連するオペレータと顧客との会話からなる。我々は、顧客の発話の筆写を使用し、この筆写は、手作業で日本語およびスペイン語にも翻訳された。英文−和文対のコーパス統計を、表１に示す。５８１２個の英文−スペイン語文対が、トレーニングに使用され、８２９個がテストに使用された。

第２のコーパスＡＴＩＳは、手作業で筆写され、スペイン語に翻訳された、航空機予約サービスへの問合せからなる。このコーパス統計を、表２に示す。

翻訳モデルの精度を、単語精度メトリックを使用して評価する。単純な精度を、テスト・コーパスのターゲット言語記号列と翻訳モデルによって作られた記号列との間の挿入誤り（Ｉ）、削除誤り（Ｄ）、および置換誤り（Ｓ）の個数に基づいて計算する。
式ＷｏｒｄＡｃｃｕｒａｃｙ＝＼（１−＼Ｆ（Ｉ＋Ｄ＋Ｓ，Ｒ）＼）＊１００（１２）
異なるコーパスに関する翻訳モデルの単語精度結果を、表３に示す。我々は、所与のソース単語について最も頻繁なターゲット単語を選択するというベースライン・モデルを示す。この表からわかるように、ＦＳＴに基づくモデルは、ベースラインより性能が大幅に優れているが、Ｍａｘｅｎｔトレーニングを使用してトレーニングされた、シーケンス分類に基づくデコーダは、３つのコーパスのすべてについて、ＦＳＴに基づくデコーダよりよく動作する。

分類手法は、ターゲット単語、句（複数トークン）、およびヌル記号（ε）をラベルとみなす。たとえば、ＡＴＩＳトレーニング・データは、３３６個のεラベル、５０３個の句ラベル、および２５７６個の単語ラベルを含む。静的Ｍａｘｅｎｔではなく文脈的Ｍａｘｅｎｔを使用することによって、ラベル分類精度が大幅に改善される（６５％から６７％まで）。

しかし、翻訳された記号列の単語精度を評価するために、εラベルを除去し、複数トークン・ラベルを展開することによって、分類されたラベルを単語として再筆写する。我々は、これらの変換の後に、静的文脈Ｍａｘｅｎｔモデルと動的文脈Ｍａｘｅｎｔモデルとによって提供される翻訳の間で、単語精度の大きい差を観察しなかった。

我々は、クラシファイヤについて我々が使用する損失関数が、最終的な目的関数を正しく表さないと推量する。２つの句ラベルの間の誤分類は、ある句と別の句とで異なる単語の個数に依存する可変コストを有し、これは、我々の損失関数では考慮されていない（動的計画法の影響を取り除くために、我々は、真のテスト・ラベルを文脈として使用する（デコードをだます）ことによって動的文脈Ｍａｘｅｎｔを実行した。この事例においても、ラベルが単語に筆写された後に、動的文脈Ｍａｘｅｎｔモデル性能は、静的文脈Ｍａｘｅｎｔモデル性能より良くはない）。

性能を改善するもう１つの方法は、静的クラシファイヤの表現力を高めることである。我々は、まず、Ｍａｘｅｎｔと同一の線形クラシファイヤであるが異なるトレーニング手順を有する線形ＳＶＭを実行した。表３の線形ＳＶＭについて観察された、より低い単語精度は、εモデルに対する単語の過剰検出によって説明される。認識されたクラスは、あるモデルと他のモデルとの比較によって得られ、その閾値は、たとえば追加の一変量ロジスティック回帰［２３］を使用して、より注意深く調整される必要がある。我々が線形から二次多項式ＳＶＭへの改善を観察するという事実は、複数のカーネルの使用が性能を改善することを示す。

結論
本明細書で図示されかつ／または説明された実施形態は、単に例示的である。当業者は、本明細書に明示的に図示されまたは説明されてはいないが、本発明の原理を実施し、したがって本発明の趣旨および範囲に含まれる、多数の代替の配置およびプロセスを考案することができる。

単語モデルを展開する識別トレーニングプロセスを示す概念的ブロック図である。本発明の原理に従ってソース・シーケンス単語をターゲット・シーケンス単語に翻訳するためにトレーニング・プロセス中に展開される単語モデルを使用する翻訳プロセスを示す概念的ブロック図である。

Claims

ソース記号シーケンスをターゲット記号シーケンスに分類する方法であって、
ソース・シーケンスの各記号を前記ソース・シーケンスの他の記号と独立に分類するステップであって、前記分類は記号モデルに基づき、前記記号モデルのうちの少なくとも１つの各々はトレーニング・シーケンス文脈情報の関数である、ステップと、
前記独立に分類されたソース・シーケンス記号に基づいて前記ターゲット記号シーケンスを分類するステップと
を含む方法。
各記号モデルは、ターゲット語彙の各々の記号に関連し、複数のトレーニング・シーケンス内の記号に関する文脈情報の関数として生成される、請求項１に記載の方法。
各記号モデルは、複数の特徴定義のうちの各々の特徴定義にそれぞれが関連する重みの各々の集合であり、前記特徴定義のうちの少なくとも１つは、所与のソース・シーケンス内の所与の記号と前記ソース・シーケンス内の他の記号のうちの１つまたは複数との間の関係を定義する、請求項２に記載の方法。
ソース・シーケンスの各記号を前記ソース・シーケンスの他の記号と独立に分類する前記ステップは、ターゲット語彙記号のうちの少なくとも１つについて各々の確率を生成するステップを含み、所与のターゲット語彙記号の前記確率は関連する記号モデルの重みの関数であり、さらに、前記特徴定義のうちのどれが分類される前記ソース記号によって満足されるかの関数である、請求項３に記載の方法。
ソース自然言語文内の単語をターゲット自然言語文内の対応する単語に翻訳する方法であって、
特定のソース文単語について、複数のターゲット語彙単語のうちの各１つのターゲット語彙単語の確率を判定するステップであって、前記確率は前記各１つのターゲット語彙単語が前記特定のソース語彙単語の正しい翻訳である確率であり、前記確率は特徴値の集合の関数であり、さらに、前記各１つのターゲット語彙単語に関連する重みの集合の関数であり、前記特徴値は複数の特徴定義のうちのどれが前記特定のソース文単語によって満足されるかを示し、前記特徴のうちの少なくとも１つは前記特定のソース文単語に関する文脈情報であり、前記重みのそれぞれは前記特徴のうちの各々の１つに関連する、ステップと、
そのように判定された前記確率の関数として、前記ソース文の前記正しい翻訳として前記ターゲット語彙単語のうちの特定の１つを選択するステップと
を含む方法。
前記選択されるターゲット語彙単語は、前記確率のうちで最高の確率を有する前記ターゲット語彙単語である、請求項５に記載の方法。
前記重みのそれぞれは、前記ソース文内の単語が、前記ソース文単語が問題の特徴を有する時に前記ターゲット語彙単語のうちの前記各１つのターゲット語彙単語に翻訳される確率の尺度である、請求項５に記載の方法。
前記確率は、前記特定のソース文単語によって満足される特徴定義に関連する前記重みの合計の関数である、請求項５に記載の方法。
前記ターゲット語彙単語のうちの前記各１つのターゲット語彙単語に関連する前記重みは、ａ）前記ソース言語のトレーニング文、ｂ）前記ターゲット言語の前記対応する文、およびｃ）各ソース言語トレーニング文内のどの単語が前記対応するターゲット言語文内のどの単語に対応するかを示すアラインメント情報に基づく識別トレーニングの結果である、請求項５に記載の方法。