JP2008165783A - シーケンス分類のためのモデルの識別トレーニング - Google Patents

シーケンス分類のためのモデルの識別トレーニング Download PDF

Info

Publication number
JP2008165783A
JP2008165783A JP2007329742A JP2007329742A JP2008165783A JP 2008165783 A JP2008165783 A JP 2008165783A JP 2007329742 A JP2007329742 A JP 2007329742A JP 2007329742 A JP2007329742 A JP 2007329742A JP 2008165783 A JP2008165783 A JP 2008165783A
Authority
JP
Japan
Prior art keywords
word
sentence
training
source
translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007329742A
Other languages
English (en)
Inventor
Srinivas Bangalore
バンガロア スリニヴァス
Patrick Haffner
ハフナー パトリック
Stephan Kanthak
カンサック スチーファン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp filed Critical AT&T Corp
Publication of JP2008165783A publication Critical patent/JP2008165783A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

【課題】ある記号のシーケンスを記号の別のシーケンスに翻訳するのに適用可能な方法及びモデルを提供する。
【解決手段】自然言語文の翻訳などシーケンスの分類が、独立仮定を使用して実行される。独立仮定とは特定のターゲット文単語へのソース文単語の正しい翻訳の確率が文内の他の単語の翻訳と独立であるという仮定である。これは正しい仮定ではないが、それでも高いレベルの単語翻訳精度が達成される。具体的には、識別トレーニングがトレーニング文内の対応するソース単語の特徴の集合に基づいてターゲット語彙単語ごとのモデルを展開するのに使用され、これら特徴の少なくとも1つはソース単語の文脈に関連する。各モデルは対応するターゲット語彙単語の重みベクトルを含む。ベクトルを構成する重みは、特徴の各々1つに関連し、各重みはソース単語のその特徴の存在が問題のターゲット単語が正しい単語である可能性をより高める範囲の尺度である。
【選択図】図2

Description

本発明は、自然言語文の機械翻訳を実行する時に必要になるものなどのシーケンス分類に関する。
機械翻訳において、目的は、英文
I need to make a collect call
などのソース文を、その文の日本語版
私は コレクト コールを かける 必要があります
などのターゲット文に翻訳することである。この課題は、シーケンス分類と称するより一般的な問題の特殊事例である。
より一般的な言葉で述べると、自然言語翻訳問題は、ソース記号シーケンスをとり、特定のターゲット記号シーケンスであるものとして分類することという特定の事例として理解することができる。便宜上、本明細書での議論は、用語「記号(シンボル)」、「シーケンス」、および「分類」ではなく、それぞれ「単語」、「文」、および「翻訳」を使用する。しかし、本発明が、ある記号のシーケンスを記号の別のシーケンスに翻訳することというより一般的な事例に適用可能であることを理解されたい。また、本発明が、文法的に完全な文だけではなく、完全な文法的な文にはならない句または単語の他の記号列に適用可能であり、したがって、本明細書および添付の特許請求の範囲での単語「文」が、これによって、そのような句または単語の記号列を含むと定義されることをも了解されたい。
ソース文単語に対応するターゲット文単語を識別するという課題は、各ソース言語単語が、すべてが同一の順序で一定不変に特定のターゲット言語単語に翻訳されるならば、多少単純になるはずである。しかし、しばしば、そうではない。たとえば、上の文の英単語「collect」は、電話で呼び出された当事者が電話料金の責任を負うタイプの電話呼を指す。単語「collect」のその特定の意味は、日本語の特定の単語に翻訳される。しかし、単語「collect」は、句「collect your papers and go home(書類を集めて帰りなさい)」および「collect yourself,you’re getting too emotionally involved(落ち着きなさい。感情的になりすぎていますよ)」のように、複数の他の意味を有する。単語「collect」のこれらの意味のそれぞれが、異なる日本語の対応物を有する。また、単語の順序は、言語によって異なる。
ターゲット語彙の特定の単語が、ソース文の単語の正しい翻訳である確率は、ソース単語自体だけではなく、前後の文脈情報に依存する。したがって、英文での単語「collect」の直後の単語「call」の出現は、日本語の単語「コレクト」が、単語「collect」の正しい翻訳である確率を高める。というのは、1つの英文での2つの単語「collect」および「call」の使用が、「collect」がソース文で電話の文脈で使用されている確率を高めるからである。
米国特許出願第11/___,___号、発明の名称「Sequence Classification for Machine Translation」 F. Och and H. Ney, "Discriminative training and maximum entropy models for statistical machine translation," in Proceedings of ACL, 2002. K. Yamada and K. Knight, "A syntax-based statistical translation model," in Proceedings of 39th ACL, 2001. P. Brown, S.D. Pietra, V.D. Pietra, and R. Mercer, "The Mathematics of Machine Translation: Parameter Estimation," Computational Linguistics, vol. 16, no. 2, pp. 263-312, 1993. F.J. Och and H. Ney, "A systematic comparison of various statistical alignment models," Computational Linguistics, vol. 29, no. 1, pp. 19-51, 2003. S. Kumar and W. Byrne, "A weighted finite state transducer implementation of the alignment template model for statistical machine translation," in Proceedings of HLT-NAACL 2003, Edmonton, Canada, May 2003. P. Koehn, F. J. Och, and D. Marcu, "Statistical phrase-based translation," in Proceedings of the Human Language Technology Conference 2003 (HLT-NAACL 2003), Edmonton, Canada, May 2003. N. Bertoldi, R. Cattoni, M. Cettolo, and M. Federico, "The ITC-IRST Statistical Machine Translation System for IWSLT-2004," in Proceedings of the International Workshop on Spoken Language Translation (IWSLT), Kyoto, Japan, Sept. 2004, pp. 51-58. R. Zens, O. Bender, S. Hasan, S. Khadivi, E. Matusov, J. Xu, Y. Zhang, and H. Ney, "The RWTH Phrase-based Statistical Machine Translation System.," in Proceedings of the International Workshop on Spoken Language Translation (IWSLT), Pittsburgh, PA, Oct. 2005, pp. 155-162. S. Bangalore and G. Riccardi, "Stochastic finite-state models for spoken language machine translation," Machine Translation, vol. 17, no. 3, 2002. F. Casacuberta and E. Vidal, "Machine translation with inferred stochastic finite-state transducers," Computational Linguistics, vol. 30(2):205-225, 2004. S. Kanthak and H. Ney, "Fsa: An efficient and flexible C++ toolkit for finite state automata using on-demand computation," in Proceedings of the 42nd Annual Meeting of the Association for Computational Linguistics, Barcelona, Spain, 2004, pp. 510-517. J. M. Crego, J. B. Marino, and A. de Gispert, "An ngram-based statistical machine translation decoder," in Proc. of the 9th European Conf. on Speech Communication and Technology (Interspeech'05), Lisbon, Portugal, Sept. 2005, pp. 3185-3188. F. J. Och and H. Ney, "Discriminative training and maximum entropy models for statistical machine translation," in Proc. Annual Meeting of the Association for Computational Linguistics, Philadelphia, PA, July 2002, pp. 295-302. V. Goffin, C. Allauzen, E. Bocchieri, D. Hakkani-Tur, A. Ljolje, S. Parthasarathy, M. Rahim, G. Riccardi, and M. Saraclar, "The AT&T WATSON Speech Recognizer," in Proceedings of ICASSP, Philadelphia, PA, 2005. A. Stolcke, "SRILM - An Extensible Language Modeling Toolkit," in Proc. Intl. Conf. Spoken Language Processing, 2002. J. Lafferty, A. McCallum, and F. Pereira, "Conditional random fields: Probabilistic models for segmenting and labeling sequence data," in Proceedings of ICML, San Francisco, CA, 2001. A.L. Berger, Stephen A. D. Pietra, D. Pietra, and J. Vincent, "A Maximum Entropy Approach to Natural Language Processing," Computational Linguistics, vol. 22, no. 1, pp. 39-71, 1996. R. Malouf, "A comparison of algorithms for maximum entropy parameter estimation," in Proceedings of CoNLL-2002. 2002, pp. 49-55, Taipei, Taiwan. M. Dudik, S. Phillips, and R.E. Schapire, "Performance Guarantees for Regularized Maximum Entropy Density Estimation," in Proceedings of COLT'04, Banff, Canada, 2004, Springer Verlag. A. McCallum, D. Freitag, and F. Pereira, "Maximum entropy Markov models for information extraction and segmentation," in Proc. 17th International Conf. on Machine Learning. 2000, pp. 591-598, Morgan Kaufmann, San Francisco, CA. L. Bottou, Une Approche the<'>orique de l'Apprentissage Connexionniste: Applications a la Reconnaissance de la Parole, Ph.D. thesis, Universite<'> de Paris XI, 91405 Orsay cedex, France, 1991. J. Lafferty, A. McCallum, and F. Pereira, "Conditional random fields: Probabilistic models for segmenting and labeling sequence data," in Proc. 18th International Conf. on Machine Learning. 2001, pp. 282-289, Morgan Kaufmann, San Francisco, CA. J. Platt, "Probabilistic outputs for support vector machines and comparison to regularized likelihood methods," in NIPS. 1999, MIT Press. http://homepages.inf.ed.ac.uk/s0450736/maxent_toolkit.html
本発明は、ある記号のシーケンスを記号の別のシーケンスに翻訳することに適用可能な方法及びモデルを提供することを目的とする。
上記は、識別トレーニング(discriminative training)手法を使用する文レベルのトレーニングおよび翻訳を介して、機械翻訳環境で考慮に入れることができる。エンコーダは、英語トレーニング文ならびに対応する和文を与えられることによってトレーニングされ、文レベル・モデルがもたらされる。次に、デコーダは、そのモデルを翻訳に使用する。具体的に言うと、ソース英文を与えられれば、和文の任意の所与の1つがソース英文の翻訳である確率を、各和文について展開されたモデルに基づいて計算することができる。最高の計算された確率を有する和文が、ソース英文の正しい翻訳として選択される。このモデルは、トレーニング文全体に基づく文レベルのモデルなので、前述の文脈情報は、このモデルに組み込まれている。
そのような手法は、ターゲット語彙のサイズおよび/またはソース文の個数もしくはソース文の間の変動性が小さい場合には実用的である可能性がある。しかし、自然言語翻訳という一般的な事例で(あるいは、多数の特殊化された翻訳環境でさえ)、可能な文の個数は、指数関数的に多く、モデルをトレーニングすることの計算要件が、法外にリソース集中型になる。
前述に対処する本発明を、本明細書で、自然言語ソース文の単語を自然言語ターゲット文の対応する単語に翻訳するプロセスの文脈で示す。分類は、独立仮定(independence assumption)を使用して実行される。独立仮定は、特定のターゲット文単語へのソース文単語の正しい翻訳の確率が、文の他の単語の翻訳と独立であるという仮定である。
この独立仮定は、実際には正しくない。すなわち、特定のターゲット言語単語が特定のソース文単語の正しい翻訳である確率は、文中の他の単語がどのように翻訳されるかによって影響される「可能性がある」。したがって、さまざまな単語の正しい翻訳の確率は、本発明の独立仮定によれば、独立ではなく、実際には相互依存である。
単純な例として、英語の単語「collect」および「bank」を含むソース文を検討されたい。単語「collect」は、「collect(コレクト)」電話呼を指すことができ、あるいは、たとえば金融機関が別の銀行から資金を「collect(集める)」ことができる金融取引環境で使用することができる。「collect」のこの2つの意味に対応する、日本語の2つの異なる単語がある。同様に、単語「bank」は、たとえば、金融機関または川の土手を指すことができる。やはり、この2つの意味に対応する、日本語の2つの異なる単語がある。所与の文の単語「bank」の正しい翻訳が、金融機関を指す日本語の単語である確率は、同一の文の単語「collect」の正しい翻訳が、「collect」の電話環境の意味ではなく、資金を集めることを指す日本語の単語であることがわかっている場合に、高くなる。
強い仮定ではあるが、本発明を特徴づける独立仮定は、たとえば文レベル翻訳手法のように、上で説明した相互依存性が考慮に入れられる場合よりはるかに少ない計算リソースを用いてソース翻訳プロセスを実行することを可能にする。
本発明によれば、単語モデルが、トレーニング文内の対応するソース単語の特徴の集合に基づいてターゲット語彙単語ごとに展開され、これらの特徴のうちの少なくとも1つは、ソース単語の文脈すなわちソース単語に関する文脈情報に関係する。
各モデルは、実例として、対応するターゲット語彙単語の重みベクトルを含む。この重みベクトルを構成する重みは、特徴のめいめいの1つに関連し、各重みは、ソース単語のその特徴の存在が、問題のターゲット単語が正しい単語である可能性をより高める範囲の尺度である。
本発明に従って生成されたそのような単語モデルを与えられれば、本願と同時に出願され、本願と同一の譲受人に譲渡された同時係属の米国特許出願第11/___,___号、名称「Sequence Classification for Machine Translation」で請求される発明に従って、ソース文の各単語を、ソース文の他の単語と独立に分類することができ、ターゲット文を、独立に分類されたソース単語に基づいて分類することができる。
上の手法は、一時に1単語を翻訳するので、ターゲット言語の文法規則と一貫する形でのターゲット文の記号のシーケンシングなど、文レベル手法に固有の機能性の一部を提供しない。しかし、その機能および完全な翻訳プロセスに必要な他の機能は、当業者に既知または当業者が導出できる他のステップによってたやすく扱うことができ、そのようなステップは、本発明がその一部を構成する全体的プロセスの文脈内で実行することができる。
上述の記載は、自然言語翻訳に関係する用語すなわち、「単語」、「文」、および「翻訳」などの用語を使用して本発明を要約するものである。しかし、上で注記したように、本発明の原理は、記号シーケンス内の記号の分類というより一般的な事例に適用可能である。
概要の説明
図1および2は、それぞれ、識別トレーニングプロセスおよび翻訳プロセスの概念的ブロック図である。
実例として、開示されるプロセスは、ソース自然言語の単語シーケンスまたは文の複数の単語の、ターゲット自然言語の対応する単語への翻訳を可能にする。ソース言語およびターゲット言語は、実例として、それぞれ英語および日本語である。
図1は、より具体的には、英語のトレーニング文および日本語の対応する文が、識別トレーニングプロセスで、日本語単語のそれぞれの重みの集合を展開するのに使用される、開示されるプロセスのトレーニング・フェーズを表す。これらの重みは、その後、図2のプロセスで、前述の翻訳を実行するのに使用される。
図1に示されたトレーニング・プロセスは、多数のトレーニング文について繰り返される。例として、単一トレーニング文の処理を示す。3つの情報が、トレーニング文ごとに入力される。英語トレーニング文(実例として「I need to make a collect call」)と、対応する日本語のトレーニング文
私は コレクト コールを かける 必要があります
と、いわゆるアラインメント情報とがある。このトレーニング文のアラインメント情報は、実例として1 5 0 3 0 2 4である。アラインメント情報の各桁位置は、英文の1単語に対応する。各桁位置の値は、所与の和文の対応する日本語単語の位置を示す。したがって、1 5 0 3 0 2 4は、単語「I」、「want」、「make」、「collect」、および「call」が、対応する和文の1番目の単語、5番目の単語、3番目の単語、2番目の単語、および4番目の単語であることを意味する。アラインメント情報の0は、英文の単語「to」および「a」が、和文の対応する単語を有しないことを示す。当業者は、そのようなアラインメント・データを生成するのに使用できるソフトウェア・ツールを知っている。そのようなツールの1つが、GIZA++アラインメント・ツールである。
この3つの情報は、特徴ベクトル・ジェネレータ12によって処理されて、トレーニング文の日本語版の単語のそれぞれのトレーニング特徴ベクトルが生成される。特徴ベクトル・ジェネレータ12は、独立型のまたは特殊目的の処理要素として図示されてはいるが、図面に示された他の要素と同様に、実例として、プロセッサによって実行される時に本明細書で説明される機能性を実行するプログラム・コードおよび/または実行中のプログラム・コードによってそのデータが使用されるデータ構造体として実施されることを了解されたい。
特徴ベクトル・ジェネレータ12は、特徴定義11の集合に対して英単語を評価することによって、トレーニング文の日本語版の単語ごとに、トレーニング特徴ベクトルとして表されるトレーニング特徴値の集合を生成する。少なくとも1つ、好ましくは多数の特徴定義が、英単語の文脈に関係する、すなわち、所与のトレーニング文内の所与の単語とトレーニング・シーケンス内の他の単語のうちの1つまたは複数との間の関係を定義する。この例示的実施形態で使用される特徴定義の集合を、下で提示するが、そのうちの最初の9つだけを明示的に示す。
特徴定義
・次の単語は「call」か?
・前の単語は「make a」か?
・現在の単語は文の最初の単語か?
・現在の単語は文の最後の単語か?
・文は質問か?
・現在の単語は「ing」で終わるか?
・現在の単語は大文字で始まるか?
・前の単語は句読点を有するか?
・次の2つの単語は「calls but」か?
・など
特徴定義の通常の集合は、たとえば、数万個から数千万個の文脈関連特徴を有することができる。翻訳される文の種類に適当な特徴の集合を展開できることは、当業者の水準に含まれる。具体的に言うと、テンプレート質問の固定された集合を使用して、特徴関数(feature function)を記述する。これらのテンプレート質問は、文脈特徴関数をもたらすために、トレーニング・データに現れる可能な文脈によって実例を挙げて説明される。テンプレート質問のいくつかの例は、次の通りである。
a.前の単語=Xか?
b.次の単語=Xか?
c.前の単語の前の単語=Xか?
d.前の単語がXであり次の単語がYであるか?
e.前の単語は先頭を大文字にされているか?
f.次の単語がXであり前の単語が先頭を大文字にされているか?
通常、テンプレート質問の集合は、100テンプレート程度であり、これは、ソース言語のすべての語彙項目に対して実例を挙げて説明される時に、多数の特徴関数をもたらす。
他の特徴に、a)単語は名詞/動詞/形容詞などであるか?またはb)単語は主語/述語/目的語であるか?などの文法的定義および/または言語学的定義を含めることができる。文を分析し、この種類の質問に答えることができるツールが、市販されている。さらに、この種類の情報は、特定の単語(または記号)に「関する」情報とみなすことができるが、単語(または記号)に関連するそのような情報(または他の情報)を、単語(または記号)自体の実際の一部と考えることができる。
12によって生成される各トレーニング特徴ベクトルの要素は、2進数(0および1)であり、この2進数のそれぞれは、対応する英単語が、ある特徴を有する(「1」)または有しない(「0」)のどちらであるかを示す。したがって、上で指定された特徴定義を用いると、文「I need to make a collect call」の単語「collect」のトレーニング特徴ベクトルは、[1 1 0 0 0 0 0 0 0 …]になるはずである。というのは、「collect」の次の単語が、「call」であり、「collect」の前の単語が、「make a」であり、現在の単語「collect」が、文の最初の単語ではない、などであるからである。
上述の記載にも図面にも示されていないが、特徴定義は、問題の英単語が実際にはどれであるかの表示をも含む。最も単純な場合に、これは、トレーニング文および後に翻訳のために提示される文に現れると期待される英単語ごとに特徴ベクトル内に位置を割り振ることによって行うことができる。2進値は、その単語自体に対応する位置(ここでは値が「1」になる)を除いて、ベクトルのこれらの位置のそれぞれで「0」になる。実際には、当業者が知っている通り、トレーニング特徴ベクトル内で英単語のアイデンティティをエンコードする、よりコンパクトな形がある。
図1では、14に、トレーニング特徴ベクトルが、トレーニング文の日本語版に現れる単語ごとに生成されることが示されている。14内の省略記号によって示されるように、より多数のトレーニング文が、上で説明した形で処理されるはずである。
適当な個数のトレーニング文が処理され、トレーニング特徴ベクトルが生成された後に、それらのトレーニング特徴ベクトルが、エンコーダ15によって処理され、エンコーダ15は、各トレーニング特徴ベクトルに対応する日本語単語の表示をも受け取る。トレーニング文は、翻訳フェーズで翻訳のために提示されると期待される各英単語が、これから説明するように、正確な重み値を達成するためにトレーニング文に十分な回数だけ現れるように計画される。
エンコーダ15は、重みテーブル16によって表されるように、トレーニング文に現れる日本語単語ごとの重みの集合の形で、記号モデルすなわち単語モデルを展開する。トレーニング文に現れた日本語単語のリストを、ターゲット語彙と称する。ターゲット語彙の個々の単語を、「t」によって表し、この「t」は、語彙単語のリストにわたる範囲を有する変数の性質を持つ。したがって、「t」がとり得る「値」は、ターゲット語彙内のさまざまな日本語単語である(この表記のわずかな変形で、「t」は、本明細書で後で示す式9で、1からVまでの範囲にわたる合計インデックスとして使用され、ここで、Vは、語彙に含まれる単語数を示す数である。1からVまでの各数字は、この事例では、めいめいの日本語単語の代役ラベルである)。
ターゲット語彙の各単語tは、重みベクトルλによって表される重みの関連する集合を有する。重みベクトルλの重みのそれぞれは、対応する特徴定義に関連する数値である。したがって、たとえば、単語「コールを」の重みベクトルの最初の項目は、数3.1であるが、これは、最初の特徴定義『次の単語は「call」であるか』に関連する重みである。重みベクトルは、下で説明するように、ソース英文の単語を翻訳する過程で使用される。当面は、特定のターゲット語彙単語tの重みベクトル内の各重みが、翻訳されるソース文の単語が、問題の特徴を有する時に、その特定のターゲット語彙単語tに翻訳される確率の尺度であることに留意することで十分である。したがって、この例では、重み3.1は、翻訳されるソース文内の英単語が特徴定義『次の単語は「call」であるか』を満足する時に、その英単語が日本語単語「コールを」に対応する確率の尺度である。
重みベクトルを導出するためにトレーニング特徴ベクトルをエンコードする技法が、下で引用されているDudik他の参考文献[19]に記載されている。実用的な実施形態では、重みは、任意の正の値または負の値をとることができ、小数点以下4桁の精度を有することができる。図面および例を単純にするために、図1に示されたすべての重みは、小数点以下1桁だけの精度を有し、すべてが−10.0から+10.0までの範囲内にある。
重みベクトルを展開したならば、ソース英文の単語の翻訳を実行することができる。図2に、単語w、w、…w…を含むそのようなソース文Sを示す。ソース文Sは、特徴ベクトル・ジェネレータ22に適用され、特徴ベクトル・ジェネレータ22は、図1の特徴ベクトル・ジェネレータ12と同様に、特徴定義11の集合に対して各単語を評価することによって、この文の単語ごとに特徴ベクトルを生成する。文Sの単語w、w、…w…について生成される特徴ベクトルを、それぞれF(S,1)、F(S,2)、…F(S,i)、…と表す。単語w、w、…w…のそれぞれについて、最も可能性の高い正しい対応する日本語単語がどれであるかに関する判定を行う。そのプロセスは、図2では箱24および25によって表されており、この後者は、図1のテーブル16からの重みベクトルを使用する。
各単語の翻訳は、ソース文内のすべての他の単語の正しい翻訳と判定されたものとは独立に実行される。具体的に言うと、第i単語wを与えられて、ターゲット語彙単語tごとに判定を行う。その判定は、そのターゲット語彙単語が単語wの正しい翻訳である確率の判定である。25に示されているように、語彙単語tがwの正しい翻訳である確率を、P(t|F(S,i))と表す。やはり25に示されているように、その確率は、wの特徴ベクトルと、単語tに関連する重みすなわちλとの関数である。特定の計算を、下で式9として示す。現在の議論については、確率P(t|F(S,i))が、ドット積λ・F(S,i)の関数であることに留意することで十分である。2つのベクトルのドット積が、2つのベクトルの対応する要素の積の合計であることを想起されたい。たとえば、2つのベクトル[1 0 1]と[1.2 3.4 0.1]とのドット積は、(1×1.2)+(0×3.4)+(1×0.1)=1.3である。
発見的に、ターゲット語彙単語tが正しい日本語単語である確率が、なぜドット積λ・F(S,i)の関数であるかを理解することができる。上で注記したように、各特徴に関連するλの重みは、ソース単語がその特徴を有する時に、単語tが、翻訳されるソース単語の正しい翻訳である確率の尺度であることを想起されたい。したがって、a)ソース単語が有する特徴が多いほど、およびb)比較的大きい関連する重みを有する特徴が多いほど、ドット積が大きくなり、これは、検討されている日本語単語が正しい翻訳であることの見込みの高まりを反映する。
特徴ベクトルは、0および1からなるので、ドット積が、問題のソース単語が満足する特徴定義に関連する重みの合計によって与えられることを観察することができる。したがって、単語tがソース単語の正しい翻訳である確率は、問題のソース単語が満足する特徴定義に関連する重みの合計の関数である。
tのすべての値についてすなわちターゲット語彙の各単語についてドット積を判定した後に、tと表される、最大のドット積に関連する語彙単語が、正しい翻訳されたターゲット単語として採用される。
27に示されているように、tと表される、翻訳されたターゲット単語は、
Figure 2008165783

によって与えられる語彙単語tであり、これは、単語wを与えられて、翻訳されたターゲット単語t が、最も大きいすなわち最大の(argmax)関連する確率を有する単語であることを意味する。
上で、特徴定義11が、上で示したものなどの文脈的特徴に加えて、特徴として、その英単語自体が実際にどれであるかの表示を含むことを注記した。英単語に関連する重みは、日本語へのその英単語のすべての可能な翻訳について非常に大きい。すなわち、「collect」であるソース単語に関連する重みは、「collect」が正しく翻訳される可能性がある複数の日本語単語のそれぞれについて、非常に大きい。その結果、これらの複数の日本語単語は、処理されつつある単語が英単語「collect」である時には必ず、不可避的に最大のドット積を有する単語になる。次に、ドット積の文脈関連構成要素は、「collect」を意味するこれらの複数の日本語単語のどれが正しい単語であれ、その単語に向かって「天秤の片方を重くする」。
最後に、図2は、このプロセスの出力が、ターゲット文T=t 、t …t …であることを示す。
理論的基盤
次では、本発明の理論的基盤を提示する。数値識別子、たとえば[1]を用いて本明細書で参照される科学論文は、下にリストされている。
1.序説
識別トレーニングされる分類ベースの技法は、音声処理問題および自然言語処理問題において曖昧さを解決する主要な手法になってきた。これらの技法は、文書全体からの特徴を使用する文書ルーティング(document routing)の課題から発したが、品詞タギング(part−of−speech tagging)、固有表現タギング(named−entity tagging)などの単語レベル曖昧性解消課題および単語の局所的文脈内の特徴だけに頼る依存性解析課題にも成功して適用されてきた。これらの手法を使用してトレーニングされたモデルは、独立変数の分布をモデル化せずに条件付き分布を直接に最適化するので、生成モデルより性能が優れていることが示されてきた。
しかし、機械翻訳研究のほとんどは、生成モデリング技法に焦点を合わせてきた。識別トレーニングは、モデル組合せ[1]にのみ使用され、モデルのパラメータをトレーニングするのに直接には使用されてこなかった。識別トレーニングされる分類技法を、翻訳モデルのパラメータを推定するために直接に適用することは、通常はターゲット言語語彙のサイズである非常に大きいラベル集合を扱うためにクラシファイヤをスケーリングすることを必要とする。我々は、そのような大きいラベル集合までクラシファイヤをスケーリングする方法を提示し、話し言葉翻訳の課題に関して機械翻訳モデルをトレーニングするためにこの方法を適用する。
機械翻訳の精度を改善するために生成モデリング・フレームワークで統語的情報を活用する複数の試みがあった[2]。しかし、これらの手法は、最良でも最低限の成功を収めるのみであった。我々は、discriminative分類フレームワークが、独立変数の分布をモデル化せず、したがって通常は生成モデルに影響するまばらさの問題によって影響されないので、そのような言語学的に豊かな情報を活用するのにより適切であると考える。
2.統計的機械翻訳モデル
式T=t\s\do5(1)\,…\,t\s\do5(M)(t∈L)。これは、P(T|S)を最大にする最良のターゲット・シーケンスの探索として定式化することができる。理想的には、P(T|S)は、トレーニング・データに関する条件付き尤度を最大にするために直接に推定されなければならない(discriminant model)。しかし、Tは、可能なラベルの指数関数的に大きい組合せを有するシーケンスに対応し、伝統的な分類手法は、直接には使用することができない。この問題を克服するために、「雑音があるチャネル」のパラダイムで提案されているように[3]、ベイズ変換を適用し、生成技法を採用する。シーケンスSは、Tの雑音がある版と考えることができ、最良推測Tは、
Figure 2008165783
として計算される。
翻訳確率P(S|T)は、SのトークンとTのトークンとの間のアラインメントのコーパスから推定される。アラインメントに対する複数の手法すなわち、記号列ベースのアラインメントおよびツリーベースのアラインメントがあったが、この論文において、我々は、Giza++[4]を使用して、ソース言語のトークンとターゲット言語のトークンとの間のアラインメントを提供する。アラインメントの同一のソースを使用し、入力ソース記号列Sを与えられて最良のTを計算するデコーダに関する複数の変形形態があった。我々は、次のセクションでこれらのデコーダの一部を論ずる。
3.機械翻訳用のデコーダ
式1および2は、異なるデコーダ・アーキテクチャをもたらす異なる形で解釈することができる。我々は、下でこれらのデコーダ・アーキテクチャの概要を示す。
3.1 条件付き確率モデルに基づくデコーダ
式2に示されているように条件付き確率モデルを使用することは、独立にトレーニングできる複数の知識ソースからの翻訳プロセスを構成するという利点を有する。KumarおよびByrne[5]は、翻訳プロセスを、5つのモデルすなわち、ソース言語モデル、ソース分割モデル、句交換モデル、テンプレート・シーケンス・モデル、および句翻訳モデルにさらに分解できることを示した。すべてのモデルが独立にトレーニングされるので、異なるデータ・セットを使用して、それぞれを推定することができる。条件付き確率に基づくデコーダの他の例は、[3、4、6、7、8]に見出すことができる。
3.2 同時確率モデルに基づくデコーダ
[9、10、11、12]に示されたFSTに基づくデコーダは、2言語コーパスからの同時確率モデルP(S,T)を使用してターゲット記号列をデコードする。2言語は、ソース単語順またはターゲット単語順のいずれかで使用することができる。これは、2つの異なる2ステージ・デコーダを生じる。式3に示されているように、まず、ソース記号列が、ソース単語順でターゲット記号列にマッピングされる。ターゲット記号列は、
Figure 2008165783
の可能な並べ換えの集合からターゲット言語モデルに基づいて最尤記号列として計算される(式4)。
Figure 2008165783
このデコーダの異なる版では、式5に示されているように、デコードされたターゲット記号列の並べ換えではなく、ソース記号列の可能な並べ換えの集合(λ)が、デコードされる。
Figure 2008165783
3.3 文に基づく特徴の組合せ
正規化されていないモデルをも可能にするために条件付き確率手法を緩和することは、文に基づく指数関数的特徴組合せ手法(対数−線形モデル組合せとも称する)につながる。
Figure 2008165783
特徴の選択は、事実上無制限であるが、使用される条件付き確率モデルの指数だけを調整するのにこの手法を使用することが、非常に効率的であることが示されている([13、7、8]も参照されたい)。Crego他[12]は、同時確率に基づく類似するシステムを提示している。
4.有限状態変換器に基づく機械翻訳モデル
このセクションでは、我々は、有限状態機械翻訳モデルを作成するステップを説明する。我々は、次に示されるように、GIZA++を使用して構築された2言語アラインメントから始める。
英語: I need to make a collect call
日本語: 私は コレクト コールを かける 必要があります
アラインメント 1 5 0 3 0 2 4
この「アラインメント」記号列は、ソース記号列の単語ごとに、ターゲット記号列の単語の位置インデックスを与える。どの単語にもマッピングされないソース単語は、インデックス0を関連付けられる。2言語コーパス式T=…\(w\s\do5(i):x\s\do5(i)\)…をコンパイルすることは、単純であり、ここで、ソース単語w∈L∪εであり、そのアラインメントされた単語x∈L∪εである(εはヌル記号である)。2言語のトークンを、ソース言語の単語順に従って順序付けるか、ターゲット言語の単語順に従って順序付けるかのいずれかとすることができることに留意されたい。ここで、我々は、
I:私は need:必要があります to:ε make:コールを
a:ε collect_コレクト call_かける
すなわち、前に示した、例のアラインメントおよびそのアラインメントに対応するソース単語順の2言語記号列を見る。このコーパスTから、我々は、言語モデリング・ツール[14、15]を使用してn−グラム言語モデルをトレーニングする。結果の言語モデルは、式S×T→[0\,1])と表される。このオートマトンの弧上の記号(s_t)は、SからTへの重み付き記号列−記号列変換をもたらす式S→T×[0\,1]と解釈される(式7に示されているように)。
式T\s\up5(*)=argmax\s\do5(T)P\(s\s\do5(i)\,t\s\do5(i)|s\s\do5(i−1)\,t\s\do5(i−1)…s\s\do5(i−n−1)\,t\s\do5(i−n−1)\) (7)
5.シーケンス分類技法
前に述べたように、式1は、ソース言語記号列をターゲット言語記号列に変換する直接的方法を表す。式1は、P(T|S)の推定値に依存する。学習は、Tがターゲット出力シーケンス
Figure 2008165783
によく一致するようにするためにシステムのパラメータを変更することからなる。理想的には、P(T|S)は、トレーニング・データに対する条件付き尤度を最大にするために直接に推定されなければならない(discriminant model)。しかし、Tは、可能なラベルの指数関数的に大きい組合せを有するシーケンス出力に対応し、伝統的な分類手法は、直接には使用することができない。条件付き確率場(Conditional Random Fields、CRF)[16]は、シーケンス・レベルで指数関数モデルをトレーニングするが、我々の課題などの翻訳課題では、そのようなモデルのトレーニングの計算要件が、極端に高価である。
我々は、独立仮定を使用して、記号列レベルの大域分類問題を、式8に示された局所分類問題の積に近似する。
式P\(T|S\)=\I\pr(i,N, )P\(t\s\do5(i)|Φ\(S\,i\)\) (8)
ここで、Φ(S,i)は、ソース記号列Sから抽出された特徴の集合である(このセクションの残りではΦと短縮する)。式P\(t\s\do5(i)|Φ\(S\,i\)\)は、トレーニング・データにまたがる各特徴の平均値を正しく推定する、最も情報の少ないものを選択するため(Maxentを用いて)である[17]。これは、我々に、重みλによってパラメータ化されたギブス分布を与え、ここで、tは、ラベル集合にまたがる範囲を有し、vは、ターゲット言語語彙の総数である。
Figure 2008165783
式L=\I\su(i,, )L\(s\s\do5(i)\,t\s\do5(i)\)であり、
Figure 2008165783
である。
この凹関数の大域最大値を見つけるのに使用される手順は、2つの主要な系列の方法すなわち、Iterative Scaling(IS)手順およびgradient descent手順、具体的には、最高速であると報告されているL−BFGS法[18]を含む。我々は、新しいSequential L1−Regularized Maxentアルゴリズム(SL1−Max)[19]を用いて、L−BFGSと比較して、より高速の収束を得た(http://homepages.inf.ed.ac.uk/s0450736/maxent_toolkit.htmlを参照されたい)。我々は、我々の目的のために条件付き分布にSL1−Maxを適合させた。SL1−Maxアルゴリズムのもう1つの利点は、L1レギュラリゼーションならびにレギュラリゼーション・メタパラメータを推定する効率的ヒューリスティックを提供することである。計算要件はO(V)であり、すべてのクラスを同時にトレーニングする必要があるので、メモリ要件もO(V)である。非ゼロ重みの実際の個数が特徴の総数よりはるかに少ないことを考えて、我々は、実現可能なランタイム・システムをもたらす疎な特徴表現を使用する。
5.1 フレーム・レベルdiscriminant model:2進Maxent
機械翻訳の課題に関して、トレーニング中にO(V)メモリを割り振ることさえ、現在のコンピュータのメモリ容量を超える。学習をより御しやすいものにするために、我々は、フレームレベル・マルチクラス分類問題を2進分類副問題に因数分解する。これは、パラメータのトレーニング中の並列化をも可能にする。我々は、ここで、各フレームでV個の1対他2進クラシファイヤを使用する。それぞれが、式b\s\do5(j)\(t\)を出力する。各成分の確率は、独立に推定される。
Figure 2008165783
式P\(t\s\do5(i)|Φ\)=\I\pr(j,, )P\(b\s\do5(j)\(t\s\do5(i)\)|Φ\)である。したがって、我々は、尤度を分離し、クラシファイヤを独立にトレーニングすることができる。我々は、ここで、V個の1対他2進成分からなる、最も単純で最も一般的に研究されたコードを使用する。独立仮定は、出力ラベルまたは出力クラスが独立であることを述べるものである。
5.2 最大エントロピ・マルコフ・モデルすなわちMEMM
式8の独立仮定は非常に強く、式P\(t\s\do5(i)|t\s\do5(i−1)\,Φ\(S\,i\)\)を追加することができる(2進独立性)。MEMM[20]は、シーケンス依存性を学習するフレームレベルMaxentクラシファイヤの使用を可能にするが、MEMMは、通常、入力特徴(式P\s\do5(t\s\do4(i−1))\(t\s\do5(i)|Φ\(S\,i\)\)である特徴)の実際の個数にある係数Vを乗ずる。これは、ラベリング・バイアスと称する新しい問題[21]すなわち、重要なフレームレベルdiscriminant判断がシーケンス・レベルで無視され、性能の損失がもたらされる可能性がある[22]という問題を引き起こす。
5.3 動的文脈最大エントロピ・モデル
式P\s\do5(t\s\do4(i−1))\(t\s\do5(i)|Φ\(S\,i\)\)は、ti−1ラベルに基づいてコーパスを分割することを必要とする。これは、推定中のラベル集合にまたがる非互換事象空間につながる。この問題を軽減するために、我々は、特徴関数式P\(t\s\do5(i)|Φ\(S\,i\,t\s\do5(i−1)\)\)の一部として動的文脈を使用する。我々がこれを動的文脈モデルと呼ぶのは、特徴のすべてを入力記号列から統計的に計算できる、上で提示した静的文脈モデルと異なって、特徴がデコード中に動的に計算されるからである。
6.実験および結果
我々は、2つの異なる話し言葉コーパスに対して翻訳モデルを評価した。まず、「How May I Help You」(HMIHY)コーパスは、電話サービスに関連するオペレータと顧客との会話からなる。我々は、顧客の発話の筆写を使用し、この筆写は、手作業で日本語およびスペイン語にも翻訳された。英文−和文対のコーパス統計を、表1に示す。5812個の英文−スペイン語文対が、トレーニングに使用され、829個がテストに使用された。
Figure 2008165783
第2のコーパスATISは、手作業で筆写され、スペイン語に翻訳された、航空機予約サービスへの問合せからなる。このコーパス統計を、表2に示す。
Figure 2008165783
翻訳モデルの精度を、単語精度メトリックを使用して評価する。単純な精度を、テスト・コーパスのターゲット言語記号列と翻訳モデルによって作られた記号列との間の挿入誤り(I)、削除誤り(D)、および置換誤り(S)の個数に基づいて計算する。
式WordAccuracy=\(1−\F(I+D+S,R)\)*100 (12)
異なるコーパスに関する翻訳モデルの単語精度結果を、表3に示す。我々は、所与のソース単語について最も頻繁なターゲット単語を選択するというベースライン・モデルを示す。この表からわかるように、FSTに基づくモデルは、ベースラインより性能が大幅に優れているが、Maxentトレーニングを使用してトレーニングされた、シーケンス分類に基づくデコーダは、3つのコーパスのすべてについて、FSTに基づくデコーダよりよく動作する。
Figure 2008165783
分類手法は、ターゲット単語、句(複数トークン)、およびヌル記号(ε)をラベルとみなす。たとえば、ATISトレーニング・データは、336個のεラベル、503個の句ラベル、および2576個の単語ラベルを含む。静的Maxentではなく文脈的Maxentを使用することによって、ラベル分類精度が大幅に改善される(65%から67%まで)。
しかし、翻訳された記号列の単語精度を評価するために、εラベルを除去し、複数トークン・ラベルを展開することによって、分類されたラベルを単語として再筆写する。我々は、これらの変換の後に、静的文脈Maxentモデルと動的文脈Maxentモデルとによって提供される翻訳の間で、単語精度の大きい差を観察しなかった。
我々は、クラシファイヤについて我々が使用する損失関数が、最終的な目的関数を正しく表さないと推量する。2つの句ラベルの間の誤分類は、ある句と別の句とで異なる単語の個数に依存する可変コストを有し、これは、我々の損失関数では考慮されていない(動的計画法の影響を取り除くために、我々は、真のテスト・ラベルを文脈として使用する(デコードをだます)ことによって動的文脈Maxentを実行した。この事例においても、ラベルが単語に筆写された後に、動的文脈Maxentモデル性能は、静的文脈Maxentモデル性能より良くはない)。
性能を改善するもう1つの形は、静的クラシファイヤの表現力を高めることである。我々は、まず、Maxentと同一の線形クラシファイヤであるが異なるトレーニング手順を有する線形SVMを実行した。表3の線形SVMについて観察された、より低い単語精度は、εモデルに対する単語の過剰検出によって説明される。認識されたクラスは、あるモデルと他のモデルとの比較によって得られ、その閾値は、たとえば追加の一変量ロジスティック回帰[23]を使用して、より注意深く調整される必要がある。我々が線形から二次多項式SVMへの改善を観察するという事実は、複数のカーネルの使用が性能を改善することを示す。
結論
本明細書で図示されかつ/または説明された実施形態は、単に例示的である。当業者は、本明細書に明示的に図示されまたは説明されてはいないが、本発明の原理を実施し、したがって本発明の趣旨および範囲に含まれる、多数の代替の配置およびプロセスを考案することができる。
本発明の原理を実施する単語モデルを展開する識別トレーニングプロセスを示す概念的ブロック図である。 トレーニング・プロセス中に展開される単語モデルを使用する翻訳プロセスを示す概念的ブロック図である。

Claims (6)

  1. ターゲット言語語彙単語のモデルを展開するために識別トレーニングを実行することを含む方法であって、前記トレーニングは、前記ターゲット言語の文に対応するソース言語のトレーニング文と、各ソース言語トレーニング文のどの単語が対応するターゲット言語文のどの単語に対応するかを示すアラインメント情報とに基づき、
    前記ソース言語文内の単語および前記ターゲット言語文内の対応する単語に関連する特徴値の集合を生成するステップであって、前記特徴値は、前記関連するソース単語が各々の特徴定義を満足するかどうかを示し、前記特徴定義のうちの少なくとも1つは、前記関連するソース単語の文脈的特性である、生成するステップと、
    前記特徴値に基づいて前記モデルを展開するステップと
    を含む方法。
  2. 前記トレーニングは、さらに、各ソース言語トレーニング文内のどの単語が前記対応するターゲット言語文内のどの単語に対応するかを示すアラインメント情報に基づく、請求項1に記載の方法。
  3. 各ターゲット語彙単語の前記モデルは、それぞれが前記特徴定義のめいめいの特徴定義に関連する重みの集合であり、各重みは、ソース言語文内の単語が、前記ソース言語文単語が問題の特徴を有する時にターゲット語彙単語に翻訳される確率の尺度である、請求項1に記載の方法。
  4. 前記トレーニングは、さらに、各ソース言語トレーニング文内のどの単語が前記対応するターゲット言語文内のどの単語に対応するかを示すアラインメント情報に基づく、請求項3に記載の方法。
  5. 請求項1に記載の方法を使用して展開されるモデル。
  6. 請求項4に記載の方法を使用して展開されるモデル。
JP2007329742A 2006-12-28 2007-12-21 シーケンス分類のためのモデルの識別トレーニング Pending JP2008165783A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US11/646,983 US20080162117A1 (en) 2006-12-28 2006-12-28 Discriminative training of models for sequence classification

Publications (1)

Publication Number Publication Date
JP2008165783A true JP2008165783A (ja) 2008-07-17

Family

ID=39283916

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007329742A Pending JP2008165783A (ja) 2006-12-28 2007-12-21 シーケンス分類のためのモデルの識別トレーニング

Country Status (3)

Country Link
US (1) US20080162117A1 (ja)
EP (1) EP1939758A3 (ja)
JP (1) JP2008165783A (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8332207B2 (en) * 2007-03-26 2012-12-11 Google Inc. Large language models in machine translation
US8280721B2 (en) * 2007-08-31 2012-10-02 Microsoft Corporation Efficiently representing word sense probabilities
US7996214B2 (en) * 2007-11-01 2011-08-09 At&T Intellectual Property I, L.P. System and method of exploiting prosodic features for dialog act tagging in a discriminative modeling framework
US8249856B2 (en) * 2008-03-20 2012-08-21 Raytheon Bbn Technologies Corp. Machine translation
US8306806B2 (en) * 2008-12-02 2012-11-06 Microsoft Corporation Adaptive web mining of bilingual lexicon
US8291069B1 (en) * 2008-12-23 2012-10-16 At&T Intellectual Property I, L.P. Systems, devices, and/or methods for managing sample selection bias
US8463591B1 (en) * 2009-07-31 2013-06-11 Google Inc. Efficient polynomial mapping of data for use with linear support vector machines
US9576570B2 (en) 2010-07-30 2017-02-21 Sri International Method and apparatus for adding new vocabulary to interactive translation and dialogue systems
US8527270B2 (en) * 2010-07-30 2013-09-03 Sri International Method and apparatus for conducting an interactive dialogue
CN104484319A (zh) * 2010-09-24 2015-04-01 新加坡国立大学 用于自动化文本校正的方法和系统
KR101776673B1 (ko) * 2011-01-11 2017-09-11 삼성전자주식회사 자연어 처리용 문법 자동 생성 장치 및 방법
WO2014132402A1 (ja) * 2013-02-28 2014-09-04 株式会社東芝 データ処理装置および物語モデル構築方法
KR101770527B1 (ko) * 2013-11-27 2017-08-22 가부시키가이샤 엔티티 도코모 기계학습에 기초한 자동 태스크 분류 방법
US9842592B2 (en) 2014-02-12 2017-12-12 Google Inc. Language models using non-linguistic context
US9412365B2 (en) 2014-03-24 2016-08-09 Google Inc. Enhanced maximum entropy models
US9805028B1 (en) * 2014-09-17 2017-10-31 Google Inc. Translating terms using numeric representations
US9864741B2 (en) * 2014-09-23 2018-01-09 Prysm, Inc. Automated collective term and phrase index
JP6074820B2 (ja) * 2015-01-23 2017-02-08 国立研究開発法人情報通信研究機構 アノテーション補助装置及びそのためのコンピュータプログラム
US10134394B2 (en) 2015-03-20 2018-11-20 Google Llc Speech recognition using log-linear model
US10832664B2 (en) 2016-08-19 2020-11-10 Google Llc Automated speech recognition using language models that selectively use domain-specific model components
CN110020120B (zh) * 2017-10-10 2023-11-10 腾讯科技(北京)有限公司 内容投放系统中的特征词处理方法、装置及存储介质
CN112307769B (zh) * 2019-07-29 2024-03-15 武汉Tcl集团工业研究院有限公司 一种自然语言模型的生成方法和计算机设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5510981A (en) * 1993-10-28 1996-04-23 International Business Machines Corporation Language translation apparatus and method using context-based translation models
US6092034A (en) * 1998-07-27 2000-07-18 International Business Machines Corporation Statistical translation system and method for fast sense disambiguation and translation of large corpora using fertility models and sense models
US6598015B1 (en) * 1999-09-10 2003-07-22 Rws Group, Llc Context based computer-assisted language translation
US7209875B2 (en) * 2002-12-04 2007-04-24 Microsoft Corporation System and method for machine learning a confidence metric for machine translation
US7346487B2 (en) * 2003-07-23 2008-03-18 Microsoft Corporation Method and apparatus for identifying translations
US7200550B2 (en) * 2004-11-04 2007-04-03 Microsoft Corporation Projecting dependencies to generate target language dependency structure

Also Published As

Publication number Publication date
EP1939758A2 (en) 2008-07-02
US20080162117A1 (en) 2008-07-03
EP1939758A3 (en) 2009-06-03

Similar Documents

Publication Publication Date Title
US7783473B2 (en) Sequence classification for machine translation
JP2008165783A (ja) シーケンス分類のためのモデルの識別トレーニング
KR102490752B1 (ko) 인공 신경망을 이용한 심층 문맥 기반 문법 오류 정정
Rastogi et al. Weighting finite-state transductions with neural context
Liao et al. Improving readability for automatic speech recognition transcription
CN109887484B (zh) 一种基于对偶学习的语音识别与语音合成方法及装置
US8849665B2 (en) System and method of providing machine translation from a source language to a target language
US9176936B2 (en) Transliteration pair matching
Casacuberta et al. Some approaches to statistical and finite-state speech-to-speech translation
JP7441864B2 (ja) 多音字の発音を予測する方法、装置、設備、および記憶媒体
JP3768205B2 (ja) 形態素解析装置、形態素解析方法及び形態素解析プログラム
Heigold et al. Equivalence of generative and log-linear models
US20140163951A1 (en) Hybrid adaptation of named entity recognition
CN104462072A (zh) 面向计算机辅助翻译的输入方法与装置
Zitouni et al. Arabic diacritic restoration approach based on maximum entropy models
Kurimo et al. Modeling under-resourced languages for speech recognition
Schwartz et al. Neural polysynthetic language modelling
García-Martínez et al. Neural machine translation by generating multiple linguistic factors
JP2007513407A (ja) 文法生成のための句への意味標識の付与
CN113947072A (zh) 一种文本纠错方法及文本纠错装置
Stahlberg et al. Word segmentation and pronunciation extraction from phoneme sequences through cross-lingual word-to-phoneme alignment
WO2019163752A1 (ja) 形態素解析学習装置、形態素解析装置、方法、及びプログラム
Jabaian et al. A unified framework for translation and understanding allowing discriminative joint decoding for multilingual speech semantic interpretation
Feng et al. Neural phrase-to-phrase machine translation
Granell et al. Image–speech combination for interactive computer assisted transcription of handwritten documents