JP2008165786A - 機械翻訳用のシーケンス分類 - Google Patents

機械翻訳用のシーケンス分類 Download PDF

Info

Publication number
JP2008165786A
JP2008165786A JP2007331748A JP2007331748A JP2008165786A JP 2008165786 A JP2008165786 A JP 2008165786A JP 2007331748 A JP2007331748 A JP 2007331748A JP 2007331748 A JP2007331748 A JP 2007331748A JP 2008165786 A JP2008165786 A JP 2008165786A
Authority
JP
Japan
Prior art keywords
word
source
sentence
target
symbol
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007331748A
Other languages
English (en)
Inventor
Srinivas Bangalore
バンガロア スリニヴァス
Patrick Haffner
ハフナー パトリック
Stephan Kanthak
カンサック スチーファン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp filed Critical AT&T Corp
Publication of JP2008165786A publication Critical patent/JP2008165786A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

【課題】ある記号のシーケンスを記号の別のシーケンスに翻訳するのに適用可能な方法及びモデルを提供する。
【解決手段】自然言語文の翻訳など、シーケンスの分類が、独立仮定を使用して実行される。独立仮定とは、特定のターゲット文単語へのソース文単語の正しい翻訳の確率が、文内の他の単語の翻訳と独立であるという仮定である。この仮定は、正しい仮定ではないが、それでも、高いレベルの単語翻訳精度が達成される。具体的に言うと、識別トレーニングが、トレーニング文内の対応するソース単語の特徴の集合に基づいて、ターゲット語彙単語ごとのモデルを展開するのに使用され、これらの特徴のうちの少なくとも1つは、ソース単語の文脈に関連する。各モデルは、対応するターゲット語彙単語の重みベクトルを含む。ベクトルを構成する重みは、特徴のめいめいの1つに関連し、各重みは、ソース単語のその特徴の存在が、問題のターゲット単語が正しい単語である可能性をより高める範囲の尺度である。
【選択図】図2

Description

本発明は、自然言語文の機械翻訳を実行する時に必要になるものなどのシーケンス分類に関する。
機械翻訳では、目的は、英文
I need to make a collect call
などのソース文を、その文の日本語版
私は コレクト コールを かける 必要があります
などのターゲット文に翻訳することである。この課題は、シーケンス分類と称するより一般的な問題の特殊事例である。
より一般的な言葉で述べると、自然言語翻訳問題は、ソース記号(シンボル)シーケンスをとり、特定のターゲット記号シーケンスであるものとして分類することという特定の事例として理解することができる。便宜上、本明細書での議論は、単語「記号(シンボル)」、「シーケンス」、および「分類」ではなく、それぞれ「単語」、「文」、および「翻訳」を使用する。しかし、本発明が、ある記号のシーケンスを記号の別のシーケンスに翻訳することというより一般的な事例に適用可能であることを理解されたい。また、本発明が、文法的に完全な文だけではなく、完全な文法的な文にはならない句または単語の他の記号列に適用可能であり、したがって、本明細書および添付の特許請求の範囲での単語「文」が、これによって、そのような句または単語の記号列を含むと定義されることをも了解されたい。
ソース文単語に対応するターゲット文単語を識別するという課題は、各ソース言語単語が、すべてが同一の順序で一定不変に特定のターゲット言語単語に翻訳されるならば、多少単純になるはずである。しかし、しばしば、そうではない。たとえば、上の文の英単語「collect」は、電話で呼び出された当事者が電話料金の責任を負うタイプの電話呼を指す。単語「collect」のその特定の意味は、日本語の特定の単語に翻訳される。しかし、単語「collect」は、句「collect your papers and go home(書類を集めて帰りなさい)」および「collect yourself,you’re getting too emotionally involved(落ち着きなさい。感情的になりすぎていますよ)」のように、複数の他の意味を有する。単語「collect」のこれらの意味のそれぞれが、異なる日本語の対応物を有する。また、単語の順序は、言語によって異なる。
ターゲット語彙の特定の単語が、ソース文の単語の正しい翻訳である確率は、ソース単語自体だけではなく、前後の文脈情報に依存する。したがって、英文での単語「collect」の直後の単語「call」の出現は、日本語の単語「コレクト」が、単語「collect」の正しい翻訳である確率を高める。というのは、1つの英文での2つの単語「collect」および「call」の使用が、「collect」がソース文で電話の文脈で使用されている確率を高めるからである。
米国特許出願第11/___,___号、名称「Discriminative Training Of Models For Sequence Classification」 F. Och and H. Ney, "Discriminative training and maximum entropy models for statistical machine translation," in Proceedings of ACL, 2002. K. Yamada and K. Knight, "A syntax-based statistical translation model," in Proceedings of 39th ACL, 2001. P. Brown, S.D. Pietra, V.D. Pietra, and R. Mercer, "The Mathematics of Machine Translation: Parameter Estimation," Computational Linguistics, vol. 16, no. 2, pp. 263-312, 1993. F.J. Och and H. Ney, "A systematic comparison of various statistical alignment models," Computational Linguistics, vol. 29, no. 1, pp. 19-51, 2003. S. Kumar and W. Byrne, "A weighted finite state transducer implementation of the alignment template model for statistical machine translation," in Proceedings of HLT-NAACL 2003, Edmonton, Canada, May 2003. P. Koehn, F. J. Och, and D. Marcu, "Statistical phrase-based translation," in Proceedings of the Human Language Technology Conference 2003 (HLT-NAACL 2003), Edmonton, Canada, May 2003. N. Bertoldi, R. Cattoni, M. Cettolo, and M. Federico, "The ITC-IRST Statistical Machine Translation System for IWSLT-2004," in Proceedings of the International Workshop on Spoken Language Translation (IWSLT), Kyoto, Japan, Sept. 2004, pp. 51-58. R. Zens, O. Bender, S. Hasan, S. Khadivi, E. Matusov, J. Xu, Y. Zhang, and H. Ney, "The RWTH Phrase-based Statistical Machine Translation System.," in Proceedings of the International Workshop on Spoken Language Translation (IWSLT), Pittsburgh, PA, Oct. 2005, pp. 155-162. S. Bangalore and G. Riccardi, "Stochastic finite-state models for spoken language machine translation," Machine Translation, vol. 17, no. 3, 2002. F. Casacuberta and E. Vidal, "Machine translation with inferred stochastic finite-state transducers," Computational Linguistics, vol. 30(2):205-225, 2004. S. Kanthak and H. Ney, "Fsa: An efficient and flexible C++ toolkit for finite state automata using on-demand computation," in Proceedings of the 42nd Annual Meeting of the Association for Computational Linguistics, Barcelona, Spain, 2004, pp. 510-517. J. M. Crego, J. B. Marino, and A. de Gispert, "An ngram-based statistical machine translation decoder," in Proc. of the 9th European Conf. on Speech Communication and Technology (Interspeech'05), Lisbon, Portugal, Sept. 2005, pp. 3185-3188. F. J. Och and H. Ney, "Discriminative training and maximum entropy models for statistical machine translation," in Proc. Annual Meeting of the Association for Computational Linguistics, Philadelphia, PA, July 2002, pp. 295-302. V. Goffin, C. Allauzen, E. Bocchieri, D. Hakkani-Tur, A. Ljolje, S. Parthasarathy, M. Rahim, G. Riccardi, and M. Saraclar, "The AT&T WATSON Speech Recognizer," in Proceedings of ICASSP, Philadelphia, PA, 2005. A. Stolcke, "SRILM - An Extensible Language Modeling Toolkit," in Proc. Intl. Conf. Spoken Language Processing, 2002. J. Lafferty, A. McCallum, and F. Pereira, "Conditional random fields: Probabilistic models for segmenting and labeling sequence data," in Proceedings of ICML, San Francisco, CA, 2001. A.L. Berger, Stephen A. D. Pietra, D. Pietra, and J. Vincent, "A Maximum Entropy Approach to Natural Language Processing," Computational Linguistics, vol. 22, no. 1, pp. 39-71, 1996. R. Malouf, "A comparison of algorithms for maximum entropy parameter estimation," in Proceedings of CoNLL-2002. 2002, pp. 49-55, Taipei, Taiwan. M. Dudik, S. Phillips, and R.E. Schapire, "Performance Guarantees for Regularized Maximum Entropy Density Estimation," in Proceedings of COLT'04, Banff, Canada, 2004, Springer Verlag. A. McCallum, D. Freitag, and F. Pereira, "Maximum entropy Markov models for information extraction and segmentation," in Proc. 17th International Conf. on Machine Learning. 2000, pp. 591-598, Morgan Kaufmann, San Francisco, CA. L. Bottou, Une Approche the<'>orique de l'Apprentissage Connexionniste: Applications a la Reconnaissance de la Parole, Ph.D. thesis, Universite<'> de Paris XI, 91405 Orsay cedex, France, 1991. J. Lafferty, A. McCallum, and F. Pereira, "Conditional random fields: Probabilistic models for segmenting and labeling sequence data," in Proc. 18th International Conf. on Machine Learning. 2001, pp. 282-289, Morgan Kaufmann, San Francisco, CA. J. Platt, "Probabilistic outputs for support vector machines and comparison to regularized likelihood methods," in NIPS. 1999, MIT Press. http://homepages.inf.ed.ac.uk/s0450736/maxent_toolkit.html
本発明は、ある記号のシーケンスを記号の別のシーケンスに翻訳することに適用可能な方法及びモデルを提供することを目的とする。
上記は、識別トレーニング(discriminative training)手法を使用する文レベルのトレーニングおよび翻訳を介して、機械翻訳環境で考慮に入れることができる。エンコーダは、英語トレーニング文ならびに対応する和文を与えられることによってトレーニングされ、文レベル・モデルがもたらされる。次に、デコーダは、そのモデルを翻訳に使用する。具体的に言うと、ソース英文を与えられれば、和文の任意の所与の1つがソース英文の翻訳である確率を、各和文について展開されたモデルに基づいて計算することができる。最高の計算された確率を有する和文が、ソース英文の正しい翻訳として選択される。このモデルは、トレーニング文全体に基づく文レベルのモデルなので、前述の文脈情報は、このモデルに組み込まれている。
そのような手法は、ターゲット語彙のサイズおよび/またはソース文の個数もしくはソース文の間の変動性が小さい場合には実用的である可能性がある。しかし、自然言語翻訳という一般的な事例で(あるいは、多数の特殊化された翻訳環境でさえ)、可能な文の個数は、指数関数的に多く、モデルをトレーニングすることの計算要件が、法外にリソース集中型になる。
前述に対処する本発明を、本明細書で、自然言語ソース文の単語を自然言語ターゲット文の対応する単語に翻訳するプロセスの文脈で示す。分類は、独立仮定(independence assumption)を使用して実行される。独立仮定は、特定のターゲット文単語へのソース文単語の正しい翻訳の確率が、文の他の単語の翻訳と独立であるという仮定である。
この独立仮定は、実際には正しくない。すなわち、特定のターゲット言語単語が特定のソース文単語の正しい翻訳である確率は、文中の他の単語がどのように翻訳されるかによって影響される「可能性がある」。したがって、さまざまな単語の正しい翻訳の確率は、本発明の独立仮定によれば、独立ではなく、実際には相互依存である。
単純な例として、英語の単語「collect」および「bank」を含むソース文を検討されたい。単語「collect」は、「collect(コレクト)」電話呼を指すことができ、あるいは、たとえば金融機関が別の銀行から資金を「collect(集める)」ことができる金融取引環境で使用することができる。「collect」のこの2つの意味に対応する、日本語の2つの異なる単語がある。同様に、単語「bank」は、たとえば、金融機関または川の土手を指すことができる。やはり、この2つの意味に対応する、日本語の2つの異なる単語がある。所与の文の単語「bank」の正しい翻訳が、金融機関を指す日本語の単語である確率は、同一の文の単語「collect」の正しい翻訳が、「collect」の電話環境の意味ではなく、資金を集めることを指す日本語の単語であることがわかっている場合に、高くなる。
強い仮定ではあるが、本発明を特徴づける独立仮定は、たとえば文レベル翻訳手法のように、上で説明した相互依存性が考慮に入れられる場合よりはるかに少ない計算リソースを用いてソース翻訳プロセスを実行することを可能にする。
本願と同時に出願され、本願と同一の譲受人に譲渡された同時係属の米国特許出願第11/___,___号、名称「Discriminative Training Of Models For Sequence Classification」で請求される発明によれば、単語モデルが、トレーニング文内の対応するソース単語の特徴の集合に基づいて、ターゲット語彙単語ごとに展開され、これらの特徴のうちの少なくとも1つは、ソース単語の文脈すなわちソース単語に関する文脈情報に関係する。各モデルは、実例として、対応するターゲット語彙単語の重みベクトルを含む。この重みベクトルを構成する重みは、特徴のめいめいの1つに関連し、各重みは、ソース単語のその特徴の存在が、問題のターゲット単語が正しい単語である可能性をより高める範囲の尺度である。
本発明の原理によれば、そのような単語モデルを与えられれば、ソース文の各単語は、ソース文の他の単語と独立に分類できる。ソース文は、独立に分類されたソース単語に基づいて分類できる。
上の手法は、一時に1単語を翻訳するので、ターゲット言語の文法規則と一貫する形でのターゲット文の記号のシーケンシングなど、文レベル手法に固有の機能性の一部を提供しない。しかし、その機能および完全な翻訳プロセスに必要な他の機能は、当業者に既知または当業者が導出できる他のステップによってたやすく扱うことができ、そのようなステップは、本発明がその一部を構成する全体的プロセスの文脈内で実行することができる。
上は、自然言語翻訳に関係する用語すなわち、「単語」、「文」、および「翻訳」などの用語を使用して本発明を要約するものである。しかし、上で注記したように、本発明の原理は、記号シーケンス内の記号の分類というより一般的な事例に適用可能である。
概要の説明
図1および2は、それぞれ、識別トレーニングプロセスおよび翻訳プロセスの概念的ブロック図である。
実例として、開示されるプロセスは、ソース自然言語の単語シーケンスまたは文の複数の単語の、ターゲット自然言語の対応する単語への翻訳を可能にする。ソース言語およびターゲット言語は、実例として、それぞれ英語および日本語である。
図1は、より具体的には、英語のトレーニング文および日本語の対応する文が、識別トレーニングプロセスで、日本語単語のそれぞれの重みの集合を展開するのに使用される、開示されるプロセスのトレーニング・フェーズを表す。これらの重みは、その後、図2のプロセスで、前述の翻訳を実行するのに使用される。
図1に示されたトレーニング・プロセスは、多数のトレーニング文について繰り返される。例として、単一トレーニング文の処理を示す。3つの情報が、トレーニング文ごとに入力される。英語トレーニング文(実例として「I need to make a collect call」)と、対応する日本語のトレーニング文
私は コレクト コールを かける 必要があります
と、いわゆるアラインメント情報とがある。このトレーニング文のアラインメント情報は、実例として1 5 0 3 0 2 4である。アラインメント情報の各桁位置は、英文の1単語に対応する。各桁位置の値は、所与の和文の対応する日本語単語の位置を示す。したがって、1 5 0 3 0 2 4は、単語「I」、「want」、「make」、「collect」、および「call」が、対応する和文の1番目の単語、5番目の単語、3番目の単語、2番目の単語、および4番目の単語であることを意味する。アラインメント情報の0は、英文の単語「to」および「a」が、和文の対応する単語を有しないことを示す。当業者は、そのようなアラインメント・データを生成するのに使用できるソフトウェア・ツールを知っている。そのようなツールの1つが、GIZA++アラインメント・ツールである。
この3つの情報は、特徴ベクトル・ジェネレータ12によって処理されて、トレーニング文の日本語版の単語のそれぞれのトレーニング特徴ベクトルが生成される。特徴ベクトル・ジェネレータ12は、独立型のまたは特殊目的の処理要素として図示されてはいるが、図面に示された他の要素と同様に、実例として、プロセッサによって実行される時に本明細書で説明される機能性を実行するプログラム・コードおよび/または実行中のプログラム・コードによってそのデータが使用されるデータ構造体として実施されることを了解されたい。
特徴ベクトル・ジェネレータ12は、特徴定義11の集合に対して英単語を評価することによって、トレーニング文の日本語版の単語ごとに、トレーニング特徴ベクトルとして表されるトレーニング特徴値の集合を生成する。少なくとも1つ、好ましくは多数の特徴定義が、英単語の文脈に関係する、すなわち、所与のトレーニング文内の所与の単語とトレーニング・シーケンス内の他の単語のうちの1つまたは複数との間の関係を定義する。この例示的実施形態で使用される特徴定義の集合を、下で提示するが、そのうちの最初の9つだけを明示的に示す。
特徴定義
・次の単語は「call」か?
・前の単語は「make a」か?
・現在の単語は文の最初の単語か?
・現在の単語は文の最後の単語か?
・文は質問か?
・現在の単語は「ing」で終わるか?
・現在の単語は大文字で始まるか?
・前の単語は句読点を有するか?
・次の2つの単語は「calls but」か?
・など
特徴定義の通常の集合は、たとえば、数万個から数千万個の文脈関連特徴を有することができる。翻訳される文の種類に適当な特徴の集合を展開できることは、当業者の水準に含まれる。具体的に言うと、テンプレート質問の固定された集合を使用して、特徴関数(feature function)を記述する。これらのテンプレート質問は、文脈特徴関数をもたらすために、トレーニング・データに現れる可能な文脈によって実例を挙げて説明される。テンプレート質問のいくつかの例は、次の通りである。
a.前の単語=Xか?
b.次の単語=Xか?
c.前の単語の前の単語=Xか?
d.前の単語がXであり次の単語がYであるか?
e.前の単語は先頭を大文字にされているか?
f.次の単語がXであり前の単語が先頭を大文字にされているか?
通常、テンプレート質問の集合は、100テンプレート程度であり、これは、ソース言語のすべての語彙項目に対して実例を挙げて説明される時に、多数の特徴関数をもたらす。
他の特徴に、a)単語は名詞/動詞/形容詞などであるか?またはb)単語は主語/述語/目的語であるか?などの文法的定義および/または言語学的定義を含めることができる。文を分析し、この種類の質問に答えることができるツールが、市販されている。さらに、この種類の情報は、特定の単語(または記号)に「関する」情報とみなすことができるが、単語(または記号)に関連するそのような情報(または他の情報)を、単語(または記号)自体の実際の一部と考えることができる。
12によって生成される各トレーニング特徴ベクトルの要素は、2進数(0および1)であり、この2進数のそれぞれは、対応する英単語が、ある特徴を有する(「1」)または有しない(「0」)のどちらであるかを示す。したがって、上で指定された特徴定義を用いると、文「I need to make a collect call」の単語「collect」のトレーニング特徴ベクトルは、[1 1 0 0 0 0 0 0 0 …]になるはずである。というのは、「collect」の次の単語が、「call」であり、「collect」の前の単語が、「make a」であり、現在の単語「collect」が、文の最初の単語ではない、などであるからである。
上にも図面にも示されていないが、特徴定義は、問題の英単語が実際にはどれであるかの表示をも含む。最も単純な場合に、これは、トレーニング文および後に翻訳のために提示される文に現れると期待される英単語ごとに特徴ベクトル内に位置を割り振ることによって行うことができる。2進値は、その単語自体に対応する位置(ここでは値が「1」になる)を除いて、ベクトルのこれらの位置のそれぞれで「0」になる。実際には、当業者が知っている通り、トレーニング特徴ベクトル内で英単語のアイデンティティをエンコードする、よりコンパクトな形がある。
図1では、14に、トレーニング特徴ベクトルが、トレーニング文の日本語版に現れる単語ごとに生成されることが示されている。14内の省略記号によって示されるように、より多数のトレーニング文が、上で説明した形で処理されるはずである。
適当な個数のトレーニング文が処理され、トレーニング特徴ベクトルが生成された後に、それらのトレーニング特徴ベクトルが、エンコーダ15によって処理され、エンコーダ15は、各トレーニング特徴ベクトルに対応する日本語単語の表示をも受け取る。トレーニング文は、翻訳フェーズで翻訳のために提示されると期待される各英単語が、これから説明するように、正確な重み値を達成するためにトレーニング文に十分な回数だけ現れるように計画される。
エンコーダ15は、重みテーブル16によって表されるように、トレーニング文に現れる日本語単語ごとの重みの集合の形で、記号モデルすなわち単語モデルを展開する。トレーニング文に現れた日本語単語のリストを、ターゲット語彙と称する。ターゲット語彙の個々の単語を、「t」によって表し、この「t」は、語彙単語のリストにわたる範囲を有する変数の性質を持つ。したがって、「t」がとり得る「値」は、ターゲット語彙内のさまざまな日本語単語である(この表記のわずかな変形で、「t」は、本明細書で後で示す式9で、1からVまでの範囲にわたる合計インデックスとして使用され、ここで、Vは、語彙に含まれる単語数を示す数である。1からVまでの各数字は、この事例では、めいめいの日本語単語の代役ラベルである)。
ターゲット語彙の各単語tは、重みベクトルλによって表される重みの関連する集合を有する。重みベクトルλの重みのそれぞれは、対応する特徴定義に関連する数値である。したがって、たとえば、単語「コールを」の重みベクトルの最初の項目は、数3.1であるが、これは、最初の特徴定義『次の単語は「call」であるか』に関連する重みである。重みベクトルは、下で説明するように、ソース英文の単語を翻訳する過程で使用される。当面は、特定のターゲット語彙単語tの重みベクトル内の各重みが、翻訳されるソース文の単語が、問題の特徴を有する時に、その特定のターゲット語彙単語tに翻訳される確率の尺度であることに留意することで十分である。したがって、この例では、重み3.1は、翻訳されるソース文内の英単語が特徴定義『次の単語は「call」であるか』を満足する時に、その英単語が日本語単語「コールを」に対応する確率の尺度である。
重みベクトルを導出するためにトレーニング特徴ベクトルをエンコードする技法が、下で引用されているDudik他の参考文献[19]に記載されている。実用的な実施形態では、重みは、任意の正の値または負の値をとることができ、小数点以下4桁の精度を有することができる。図面および例を単純にするために、図1に示されたすべての重みは、小数点以下1桁だけの精度を有し、すべてが−10.0から+10.0までの範囲内にある。
重みベクトルを展開したならば、ソース英文の単語の翻訳を実行することができる。図2に、単語w、w、…w…を含むそのようなソース文Sを示す。ソース文Sは、特徴ベクトル・ジェネレータ22に適用され、特徴ベクトル・ジェネレータ22は、図1の特徴ベクトル・ジェネレータ12と同様に、特徴定義11の集合に対して各単語を評価することによって、この文の単語ごとに特徴ベクトルを生成する。文Sの単語w、w、…w…について生成される特徴ベクトルを、それぞれF(S,1)、F(S,2)、…F(S,i)、…と表す。単語w、w、…w…のそれぞれについて、最も可能性の高い正しい対応する日本語単語がどれであるかに関する判定を行う。そのプロセスは、図2では箱24および25によって表されており、この後者は、図1のテーブル16からの重みベクトルを使用する。
各単語の翻訳は、ソース文内のすべての他の単語の正しい翻訳と判定されたものとは独立に実行される。具体的に言うと、第i単語wを与えられて、ターゲット語彙単語tごとに判定を行う。その判定は、そのターゲット語彙単語が単語wの正しい翻訳である確率の判定である。25に示されているように、語彙単語tがwの正しい翻訳である確率を、P(t|F(S,i))と表す。やはり25に示されているように、その確率は、wの特徴ベクトルと、単語tに関連する重みすなわちλとの関数である。特定の計算を、下で式9として示す。現在の議論については、確率P(t|F(S,i))が、ドット積λ・F(S,i)の関数であることに留意することで十分である。2つのベクトルのドット積が、2つのベクトルの対応する要素の積の合計であることを想起されたい。たとえば、2つのベクトル[1 0 1]と[1.2 3.4 0.1]とのドット積は、(1×1.2)+(0×3.4)+(1×0.1)=1.3である。
発見的に、ターゲット語彙単語tが正しい日本語単語である確率が、なぜドット積λ・F(S,i)の関数であるかを理解することができる。上で注記したように、各特徴に関連するλの重みは、ソース単語がその特徴を有する時に、単語tが、翻訳されるソース単語の正しい翻訳である確率の尺度であることを想起されたい。したがって、a)ソース単語が有する特徴が多いほど、およびb)比較的大きい関連する重みを有する特徴が多いほど、ドット積が大きくなり、これは、検討されている日本語単語が正しい翻訳であることの見込みの高まりを反映する。
特徴ベクトルは、0および1からなるので、ドット積が、問題のソース単語が満足する特徴定義に関連する重みの合計によって与えられることを観察することができる。したがって、単語tがソース単語の正しい翻訳である確率は、問題のソース単語が満足する特徴定義に関連する重みの合計の関数である。
tのすべての値についてすなわちターゲット語彙の各単語についてドット積を判定した後に、tと表される、最大のドット積に関連する語彙単語が、正しい翻訳されたターゲット単語として採用される。
27に示されているように、tと表される、翻訳されたターゲット単語は、
Figure 2008165786
によって与えられる語彙単語tであり、これは、単語wを与えられて、翻訳されたターゲット単語t が、最も大きいすなわち最大の(argmax)関連する確率を有する単語であることを意味する。
上で、特徴定義11が、上で示したものなどの文脈的特徴に加えて、特徴として、その英単語自体が実際にどれであるかの表示を含むことを注記した。英単語に関連する重みは、日本語へのその英単語のすべての可能な翻訳について非常に大きい。すなわち、「collect」であるソース単語に関連する重みは、「collect」が正しく翻訳される可能性がある複数の日本語単語のそれぞれについて、非常に大きい。その結果、これらの複数の日本語単語は、処理されつつある単語が英単語「collect」である時には必ず、不可避的に最大のドット積を有する単語になる。次に、ドット積の文脈関連構成要素は、「collect」を意味するこれらの複数の日本語単語のどれが正しい単語であれ、その単語に向かって「天秤の片方を重くする」。
最後に、図2は、このプロセスの出力が、ターゲット文T=t 、t …t …であることを示す。
理論的基盤
次では、本発明の理論的基盤を提示する。数値識別子、たとえば[1]を用いて本明細書で参照される科学論文は、下にリストされている。
1.序説
識別トレーニングされる分類ベースの技法は、音声処理問題および自然言語処理問題において曖昧さを解決する主要な手法になってきた。これらの技法は、文書全体からの特徴を使用する文書ルーティング(document routing)の課題から発したが、品詞タギング(part−of−speech tagging)、固有表現タギング(named−entity tagging)などの単語レベル曖昧性解消課題および単語の局所的文脈内の特徴だけに頼る依存性解析課題にも成功して適用されてきた。これらの手法を使用してトレーニングされたモデルは、独立変数の分布をモデル化せずに条件付き分布を直接に最適化するので、生成モデルより性能が優れていることが示されてきた。
しかし、機械翻訳研究のほとんどは、生成モデリング技法に焦点を合わせてきた。識別トレーニングは、モデル組合せ[1]にのみ使用され、モデルのパラメータをトレーニングするのに直接には使用されてこなかった。識別トレーニングされる分類技法を、翻訳モデルのパラメータを推定するために直接に適用することは、通常はターゲット言語語彙のサイズである非常に大きいラベル集合を扱うためにクラシファイヤ(classifier)をスケーリングすることを必要とする。我々は、そのような大きいラベル集合までクラシファイヤをスケーリングする方法を提示し、話し言葉翻訳の課題に関して機械翻訳モデルをトレーニングするためにこの方法を適用する。
機械翻訳の精度を改善するために生成モデリング・フレームワークで統語的情報を活用する複数の試みがあった[2]。しかし、これらの手法は、最良でも最低限の成功を収めるのみであった。我々は、識別分類フレームワークが、独立変数の分布をモデル化せず、したがって通常は生成モデルに影響するまばらさの問題によって影響されないので、そのような言語学的に豊かな情報を活用するのにより適切であると考える。
2.統計的機械翻訳モデル
式T=t\s\do5(1)\,…\,t\s\do5(M)(t∈L)。これは、P(T|S)を最大にする最良のターゲット・シーケンスの探索として定式化することができる。理想的には、P(T|S)は、トレーニング・データに関する条件付き尤度を最大にするために直接に推定されなければならない(discriminant model)。しかし、Tは、可能なラベルの指数関数的に大きい組合せを有するシーケンスに対応し、伝統的な分類手法は、直接には使用することができない。この問題を克服するために、「雑音があるチャネル」のパラダイムで提案されているように[3]、ベイズ変換を適用し、生成技法を採用する。シーケンスSは、Tの雑音がある版と考えることができ、最良推測Tは、
Figure 2008165786
として計算される。
翻訳確率P(S|T)は、SのトークンとTのトークンとの間のアラインメントのコーパスから推定される。アラインメントに対する複数の手法すなわち、記号列ベースのアラインメントおよびツリーベースのアラインメントがあったが、この論文において、我々は、Giza++[4]を使用して、ソース言語のトークンとターゲット言語のトークンとの間のアラインメントを提供する。アラインメントの同一のソースを使用し、入力ソース記号列Sを与えられて最良のTを計算するデコーダに関する複数の変形形態があった。我々は、次のセクションでこれらのデコーダの一部を論ずる。
3.機械翻訳用のデコーダ
式1および2は、異なるデコーダ・アーキテクチャをもたらす異なる形で解釈することができる。我々は、下でこれらのデコーダ・アーキテクチャの概要を示す。
3.1 条件付き確率モデルに基づくデコーダ
式2に示されているように条件付き確率モデルを使用することは、独立にトレーニングできる複数の知識ソースからの翻訳プロセスを構成するという利点を有する。KumarおよびByrne[5]は、翻訳プロセスを、5つのモデルすなわち、ソース言語モデル、ソース分割モデル、句交換モデル、テンプレート・シーケンス・モデル、および句翻訳モデルにさらに分解できることを示した。すべてのモデルが独立にトレーニングされるので、異なるデータ・セットを使用して、それぞれを推定することができる。条件付き確率に基づくデコーダの他の例は、[3、4、6、7、8]に見出すことができる。
3.2 同時確率モデルに基づくデコーダ
[9、10、11、12]に示されたFSTに基づくデコーダは、2言語コーパスからの同時確率モデルP(S,T)を使用してターゲット記号列をデコードする。2言語は、ソース単語順またはターゲット単語順のいずれかで使用することができる。これは、2つの異なる2ステージ・デコーダを生じる。式3に示されているように、まず、ソース記号列が、ソース単語順でターゲット記号列にマッピングされる。ターゲット記号列は、
Figure 2008165786
の可能な並べ換えの集合からターゲット言語モデルに基づいて最尤記号列として計算される(式4)。
Figure 2008165786
このデコーダの異なる版では、式5に示されているように、デコードされたターゲット記号列の並べ換えではなく、ソース記号列の可能な並べ換えの集合(λ)が、デコードされる。
Figure 2008165786
3.3 文に基づく特徴の組合せ
正規化されていないモデルをも可能にするために条件付き確率手法を緩和することは、文に基づく指数関数的特徴組合せ手法(対数−線形モデル組合せとも称する)につながる。
Figure 2008165786
特徴の選択は、事実上無制限であるが、使用される条件付き確率モデルの指数だけを調整するのにこの手法を使用することが、非常に効率的であることが示されている([13、7、8]も参照されたい)。Crego他[12]は、同時確率に基づく類似するシステムを提示している。
4.有限状態変換器に基づく機械翻訳モデル
このセクションでは、我々は、有限状態機械翻訳モデルを作成するステップを説明する。我々は、次に示されるように、GIZA++を使用して構築された2言語アラインメントから始める。
英語: I need to make a collect call
日本語: 私は コレクト コールを かける 必要があります
アラインメント 1 5 0 3 0 2 4
この「アラインメント」記号列は、ソース記号列の単語ごとに、ターゲット記号列の単語の位置インデックスを与える。どの単語にもマッピングされないソース単語は、インデックス0を関連付けられる。2言語コーパス式T=…\(w\s\do5(i):x\s\do5(i)\)…をコンパイルすることは、単純であり、ここで、ソース単語w∈L∪εであり、そのアラインメントされた単語x∈L∪εである(εはヌル記号である)。2言語のトークンを、ソース言語の単語順に従って順序付けるか、ターゲット言語の単語順に従って順序付けるかのいずれかとすることができることに留意されたい。ここで、我々は、
I:私は need:必要があります to:ε make:コールを
a:ε collect_コレクト call_かける
すなわち、前に示した、例のアラインメントおよびそのアラインメントに対応するソース単語順の2言語記号列を見る。このコーパスTから、我々は、言語モデリング・ツール[14、15]を使用してn−グラム言語モデルをトレーニングする。結果の言語モデルは、式S×T→[0\,1])と表される。このオートマトンの弧上の記号(s_t)は、SからTへの重み付き記号列−記号列変換をもたらす式S→T×[0\,1]と解釈される(式7に示されているように)。
式T\s\up5(*)=argmax\s\do5(T)P\(s\s\do5(i)\,t\s\do5(i)|s\s\do5(i−1)\,t\s\do5(i−1)…s\s\do5(i−n−1)\,t\s\do5(i−n−1)\) (7)
5.シーケンス分類技法
前に述べたように、式1は、ソース言語記号列をターゲット言語記号列に変換する直接的方法を表す。式1は、P(T|S)の推定値に依存する。学習は、Tがターゲット出力シーケンス
Figure 2008165786
によく一致するようにするためにシステムのパラメータを変更することからなる。理想的には、P(T|S)は、トレーニング・データに対する条件付き尤度を最大にするために直接に推定されなければならない(discriminant model)。しかし、Tは、可能なラベルの指数関数的に大きい組合せを有するシーケンス出力に対応し、伝統的な分類手法は、直接には使用することができない。条件付き確率場(Conditional Random Fields(CRF))[16]は、シーケンス・レベルで指数関数モデルをトレーニングするが、我々の課題などの翻訳課題では、そのようなモデルのトレーニングの計算要件が、極端に高価である。
我々は、独立仮定を使用して、記号列レベルの大域分類問題を、式8に示された局所分類問題の積に近似する。
式P\(T|S\)=\I\pr(i,N, )P\(t\s\do5(i)|Φ\(S\,i\)\) (8)
ここで、Φ(S,i)は、ソース記号列Sから抽出された特徴の集合である(このセクションの残りではΦと短縮する)。式P\(t\s\do5(i)|Φ\(S\,i\)\)は、トレーニング・データにまたがる各特徴の平均値を正しく推定する、最も情報の少ないものを選択するため(Maxentを用いて)である[17]。これは、我々に、重みλによってパラメータ化されたギブス分布を与え、ここで、tは、ラベル集合にまたがる範囲を有し、vは、ターゲット言語語彙の総数である。
Figure 2008165786
式L=\I\su(i,, )L\(s\s\do5(i)\,t\s\do5(i)\)であり、
Figure 2008165786
である。
この凹関数の大域最大値を見つけるのに使用される手順は、2つの主要な系列の方法すなわち、Iterative Scaling(IS)手順およびgradient descent手順、具体的には、最高速であると報告されているL−BFGS法[18]を含む。我々は、新しいSequential L1−Regularized Maxentアルゴリズム(SL1−Max)[19]を用いて、L−BFGSと比較して、より高速の収束を得た(http://homepages.inf.ed.ac.uk/s0450736/maxent_toolkit.htmlを参照されたい)。我々は、我々の目的のために条件付き分布にSL1−Maxを適合させた。SL1−Maxアルゴリズムのもう1つの利点は、L1レギュラリゼーションならびにレギュラリゼーション・メタパラメータを推定する効率的ヒューリスティックを提供することである。計算要件はO(V)であり、すべてのクラスを同時にトレーニングする必要があるので、メモリ要件もO(V)である。非ゼロ重みの実際の個数が特徴の総数よりはるかに少ないことを考えて、我々は、実現可能なランタイム・システムをもたらす疎な特徴表現を使用する。
5.1 フレーム・レベルdiscriminant model:2進Maxent
機械翻訳の課題に関して、トレーニング中にO(V)メモリを割り振ることさえ、現在のコンピュータのメモリ容量を超える。学習をより御しやすいものにするために、我々は、フレームレベル・マルチクラス分類問題を2進分類副問題に因数分解する。これは、パラメータのトレーニング中の並列化をも可能にする。我々は、ここで、各フレームでV個の1対他2進クラシファイヤを使用する。それぞれが、式b\s\do5(j)\(t\)を出力する。各成分の確率は、独立に推定される。
Figure 2008165786
式P\(t\s\do5(i)|Φ\)=\I\pr(j,, )P\(b\s\do5(j)\(t\s\do5(i)\)|Φ\)である。したがって、我々は、尤度を分離し、クラシファイヤを独立にトレーニングすることができる。我々は、ここで、V個の1対他2進成分からなる、最も単純で最も一般的に研究されたコードを使用する。独立仮定は、出力ラベルまたは出力クラスが独立であることを述べるものである。
5.2 最大エントロピ・マルコフ・モデルすなわちMEMM
式8の独立仮定は非常に強く、式P\(t\s\do5(i)|t\s\do5(i−1)\,Φ\(S\,i\)\)を追加することができる(2進独立性)。MEMM[20]は、シーケンス依存性を学習するフレームレベルMaxentクラシファイヤの使用を可能にするが、MEMMは、通常、入力特徴(式P\s\do5(t\s\do4(i−1))\(t\s\do5(i)|Φ\(S\,i\)\)である特徴)の実際の個数にある係数Vを乗ずる。これは、ラベリング・バイアスと称する新しい問題[21]すなわち、重要なフレームレベルdiscriminant判断がシーケンス・レベルで無視され、性能の損失がもたらされる可能性がある[22]という問題を引き起こす。
5.3 動的文脈最大エントロピ・モデル
式P\s\do5(t\s\do4(i−1))\(t\s\do5(i)|Φ\(S\,i\)\)は、ti−1ラベルに基づいてコーパスを分割することを必要とする。これは、推定中のラベル集合にまたがる非互換事象空間につながる。この問題を軽減するために、我々は、特徴関数式P\(t\s\do5(i)|Φ\(S\,i\,t\s\do5(i−1)\)\)の一部として動的文脈を使用する。我々がこれを動的文脈モデルと呼ぶのは、特徴のすべてを入力記号列から統計的に計算できる、上で提示した静的文脈モデルと異なって、特徴がデコード中に動的に計算されるからである。
6.実験および結果
我々は、2つの異なる話し言葉コーパスに対して翻訳モデルを評価した。まず、「How May I Help You」(HMIHY)コーパスは、電話サービスに関連するオペレータと顧客との会話からなる。我々は、顧客の発話の筆写を使用し、この筆写は、手作業で日本語およびスペイン語にも翻訳された。英文−和文対のコーパス統計を、表1に示す。5812個の英文−スペイン語文対が、トレーニングに使用され、829個がテストに使用された。
Figure 2008165786
第2のコーパスATISは、手作業で筆写され、スペイン語に翻訳された、航空機予約サービスへの問合せからなる。このコーパス統計を、表2に示す。
Figure 2008165786
翻訳モデルの精度を、単語精度メトリックを使用して評価する。単純な精度を、テスト・コーパスのターゲット言語記号列と翻訳モデルによって作られた記号列との間の挿入誤り(I)、削除誤り(D)、および置換誤り(S)の個数に基づいて計算する。
式WordAccuracy=\(1−\F(I+D+S,R)\)*100 (12)
異なるコーパスに関する翻訳モデルの単語精度結果を、表3に示す。我々は、所与のソース単語について最も頻繁なターゲット単語を選択するというベースライン・モデルを示す。この表からわかるように、FSTに基づくモデルは、ベースラインより性能が大幅に優れているが、Maxentトレーニングを使用してトレーニングされた、シーケンス分類に基づくデコーダは、3つのコーパスのすべてについて、FSTに基づくデコーダよりよく動作する。
Figure 2008165786
分類手法は、ターゲット単語、句(複数トークン)、およびヌル記号(ε)をラベルとみなす。たとえば、ATISトレーニング・データは、336個のεラベル、503個の句ラベル、および2576個の単語ラベルを含む。静的Maxentではなく文脈的Maxentを使用することによって、ラベル分類精度が大幅に改善される(65%から67%まで)。
しかし、翻訳された記号列の単語精度を評価するために、εラベルを除去し、複数トークン・ラベルを展開することによって、分類されたラベルを単語として再筆写する。我々は、これらの変換の後に、静的文脈Maxentモデルと動的文脈Maxentモデルとによって提供される翻訳の間で、単語精度の大きい差を観察しなかった。
我々は、クラシファイヤについて我々が使用する損失関数が、最終的な目的関数を正しく表さないと推量する。2つの句ラベルの間の誤分類は、ある句と別の句とで異なる単語の個数に依存する可変コストを有し、これは、我々の損失関数では考慮されていない(動的計画法の影響を取り除くために、我々は、真のテスト・ラベルを文脈として使用する(デコードをだます)ことによって動的文脈Maxentを実行した。この事例においても、ラベルが単語に筆写された後に、動的文脈Maxentモデル性能は、静的文脈Maxentモデル性能より良くはない)。
性能を改善するもう1つの方法は、静的クラシファイヤの表現力を高めることである。我々は、まず、Maxentと同一の線形クラシファイヤであるが異なるトレーニング手順を有する線形SVMを実行した。表3の線形SVMについて観察された、より低い単語精度は、εモデルに対する単語の過剰検出によって説明される。認識されたクラスは、あるモデルと他のモデルとの比較によって得られ、その閾値は、たとえば追加の一変量ロジスティック回帰[23]を使用して、より注意深く調整される必要がある。我々が線形から二次多項式SVMへの改善を観察するという事実は、複数のカーネルの使用が性能を改善することを示す。
結論
本明細書で図示されかつ/または説明された実施形態は、単に例示的である。当業者は、本明細書に明示的に図示されまたは説明されてはいないが、本発明の原理を実施し、したがって本発明の趣旨および範囲に含まれる、多数の代替の配置およびプロセスを考案することができる。
単語モデルを展開する識別トレーニングプロセスを示す概念的ブロック図である。 本発明の原理に従ってソース・シーケンス単語をターゲット・シーケンス単語に翻訳するためにトレーニング・プロセス中に展開される単語モデルを使用する翻訳プロセスを示す概念的ブロック図である。

Claims (9)

  1. ソース記号シーケンスをターゲット記号シーケンスに分類する方法であって、
    ソース・シーケンスの各記号を前記ソース・シーケンスの他の記号と独立に分類するステップであって、前記分類は記号モデルに基づき、前記記号モデルのうちの少なくとも1つの各々はトレーニング・シーケンス文脈情報の関数である、ステップと、
    前記独立に分類されたソース・シーケンス記号に基づいて前記ターゲット記号シーケンスを分類するステップと
    を含む方法。
  2. 各記号モデルは、ターゲット語彙の各々の記号に関連し、複数のトレーニング・シーケンス内の記号に関する文脈情報の関数として生成される、請求項1に記載の方法。
  3. 各記号モデルは、複数の特徴定義のうちの各々の特徴定義にそれぞれが関連する重みの各々の集合であり、前記特徴定義のうちの少なくとも1つは、所与のソース・シーケンス内の所与の記号と前記ソース・シーケンス内の他の記号のうちの1つまたは複数との間の関係を定義する、請求項2に記載の方法。
  4. ソース・シーケンスの各記号を前記ソース・シーケンスの他の記号と独立に分類する前記ステップは、ターゲット語彙記号のうちの少なくとも1つについて各々の確率を生成するステップを含み、所与のターゲット語彙記号の前記確率は関連する記号モデルの重みの関数であり、さらに、前記特徴定義のうちのどれが分類される前記ソース記号によって満足されるかの関数である、請求項3に記載の方法。
  5. ソース自然言語文内の単語をターゲット自然言語文内の対応する単語に翻訳する方法であって、
    特定のソース文単語について、複数のターゲット語彙単語のうちの各1つのターゲット語彙単語の確率を判定するステップであって、前記確率は前記各1つのターゲット語彙単語が前記特定のソース語彙単語の正しい翻訳である確率であり、前記確率は特徴値の集合の関数であり、さらに、前記各1つのターゲット語彙単語に関連する重みの集合の関数であり、前記特徴値は複数の特徴定義のうちのどれが前記特定のソース文単語によって満足されるかを示し、前記特徴のうちの少なくとも1つは前記特定のソース文単語に関する文脈情報であり、前記重みのそれぞれは前記特徴のうちの各々の1つに関連する、ステップと、
    そのように判定された前記確率の関数として、前記ソース文の前記正しい翻訳として前記ターゲット語彙単語のうちの特定の1つを選択するステップと
    を含む方法。
  6. 前記選択されるターゲット語彙単語は、前記確率のうちで最高の確率を有する前記ターゲット語彙単語である、請求項5に記載の方法。
  7. 前記重みのそれぞれは、前記ソース文内の単語が、前記ソース文単語が問題の特徴を有する時に前記ターゲット語彙単語のうちの前記各1つのターゲット語彙単語に翻訳される確率の尺度である、請求項5に記載の方法。
  8. 前記確率は、前記特定のソース文単語によって満足される特徴定義に関連する前記重みの合計の関数である、請求項5に記載の方法。
  9. 前記ターゲット語彙単語のうちの前記各1つのターゲット語彙単語に関連する前記重みは、a)前記ソース言語のトレーニング文、b)前記ターゲット言語の前記対応する文、およびc)各ソース言語トレーニング文内のどの単語が前記対応するターゲット言語文内のどの単語に対応するかを示すアラインメント情報に基づく識別トレーニングの結果である、請求項5に記載の方法。
JP2007331748A 2006-12-28 2007-12-25 機械翻訳用のシーケンス分類 Pending JP2008165786A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US11/647,080 US7783473B2 (en) 2006-12-28 2006-12-28 Sequence classification for machine translation

Publications (1)

Publication Number Publication Date
JP2008165786A true JP2008165786A (ja) 2008-07-17

Family

ID=39414989

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007331748A Pending JP2008165786A (ja) 2006-12-28 2007-12-25 機械翻訳用のシーケンス分類

Country Status (3)

Country Link
US (1) US7783473B2 (ja)
EP (1) EP1959357A3 (ja)
JP (1) JP2008165786A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011242895A (ja) * 2010-05-14 2011-12-01 Nippon Telegr & Teleph Corp <Ntt> 機械翻訳装置、機械翻訳方法、およびそのプログラム
JP2019061655A (ja) * 2017-09-25 2019-04-18 三星電子株式会社Samsung Electronics Co.,Ltd. 文章生成方法、装置及びコンピュータプログラム

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9020804B2 (en) * 2006-05-10 2015-04-28 Xerox Corporation Method for aligning sentences at the word level enforcing selective contiguity constraints
JP2008276517A (ja) * 2007-04-27 2008-11-13 Oki Electric Ind Co Ltd 訳文評価装置、訳文評価方法およびプログラム
US7996214B2 (en) * 2007-11-01 2011-08-09 At&T Intellectual Property I, L.P. System and method of exploiting prosodic features for dialog act tagging in a discriminative modeling framework
US8209164B2 (en) * 2007-11-21 2012-06-26 University Of Washington Use of lexical translations for facilitating searches
US8521516B2 (en) * 2008-03-26 2013-08-27 Google Inc. Linguistic key normalization
US8510097B2 (en) * 2008-12-18 2013-08-13 Palo Alto Research Center Incorporated Region-matching transducers for text-characterization
US8447588B2 (en) * 2008-12-18 2013-05-21 Palo Alto Research Center Incorporated Region-matching transducers for natural language processing
US8463591B1 (en) * 2009-07-31 2013-06-11 Google Inc. Efficient polynomial mapping of data for use with linear support vector machines
US8521507B2 (en) * 2010-02-22 2013-08-27 Yahoo! Inc. Bootstrapping text classifiers by language adaptation
US9164983B2 (en) 2011-05-27 2015-10-20 Robert Bosch Gmbh Broad-coverage normalization system for social media language
US9754215B2 (en) * 2012-12-17 2017-09-05 Sinoeast Concept Limited Question classification and feature mapping in a deep question answering system
CN103116578A (zh) * 2013-02-07 2013-05-22 北京赛迪翻译技术有限公司 一种融合句法树和统计机器翻译技术的翻译方法与装置
US8856642B1 (en) 2013-07-22 2014-10-07 Recommind, Inc. Information extraction and annotation systems and methods for documents
US10191893B2 (en) 2013-07-22 2019-01-29 Open Text Holdings, Inc. Information extraction and annotation systems and methods for documents
US20150088511A1 (en) * 2013-09-24 2015-03-26 Verizon Patent And Licensing Inc. Named-entity based speech recognition
US9697099B2 (en) 2014-06-04 2017-07-04 International Business Machines Corporation Real-time or frequent ingestion by running pipeline in order of effectiveness
US9542496B2 (en) 2014-06-04 2017-01-10 International Business Machines Corporation Effective ingesting data used for answering questions in a question and answer (QA) system
EP3198475A1 (en) 2014-09-26 2017-08-02 British Telecommunications Public Limited Company Efficient conditional state mapping in a pattern matching automaton
WO2016046232A1 (en) 2014-09-26 2016-03-31 British Telecommunications Public Limited Company Improved pattern matching
WO2016046223A1 (en) * 2014-09-26 2016-03-31 British Telecommunications Public Limited Company Efficient pattern matching
US10319019B2 (en) * 2016-09-14 2019-06-11 Ebay Inc. Method, medium, and system for detecting cross-lingual comparable listings for machine translation using image similarity
KR102637338B1 (ko) * 2017-01-26 2024-02-16 삼성전자주식회사 번역 보정 방법 및 장치와 번역 시스템
CN107870904A (zh) * 2017-11-22 2018-04-03 北京搜狗科技发展有限公司 一种翻译方法、装置以及用于翻译的装置
CN110134971B (zh) * 2018-02-08 2022-12-16 腾讯科技(深圳)有限公司 一种机器翻译的方法、设备以及计算机可读存储介质
US10762142B2 (en) 2018-03-16 2020-09-01 Open Text Holdings, Inc. User-defined automated document feature extraction and optimization
US11048762B2 (en) 2018-03-16 2021-06-29 Open Text Holdings, Inc. User-defined automated document feature modeling, extraction and optimization
EP3791330A1 (en) 2018-05-08 2021-03-17 Google LLC Contrastive sequence-to-sequence data selector
US11610277B2 (en) 2019-01-25 2023-03-21 Open Text Holdings, Inc. Seamless electronic discovery system with an enterprise data portal
CN110717340B (zh) * 2019-09-29 2023-11-21 百度在线网络技术(北京)有限公司 推荐方法、装置、电子设备及存储介质
CN110765733A (zh) * 2019-10-24 2020-02-07 科大讯飞股份有限公司 一种文本规整方法、装置、设备及存储介质
CN113569582A (zh) * 2021-07-02 2021-10-29 中译语通科技股份有限公司 一种提升多语言神经机器翻译模型零样本翻译能力的方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6885985B2 (en) * 2000-12-18 2005-04-26 Xerox Corporation Terminology translation for unaligned comparable corpora using category based translation probabilities
US7096179B2 (en) * 2001-08-15 2006-08-22 Siemens Corporate Research, Inc. Text-based automatic content classification and grouping

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011242895A (ja) * 2010-05-14 2011-12-01 Nippon Telegr & Teleph Corp <Ntt> 機械翻訳装置、機械翻訳方法、およびそのプログラム
JP2019061655A (ja) * 2017-09-25 2019-04-18 三星電子株式会社Samsung Electronics Co.,Ltd. 文章生成方法、装置及びコンピュータプログラム
JP7181019B2 (ja) 2017-09-25 2022-11-30 三星電子株式会社 文章生成方法、装置及びコンピュータプログラム

Also Published As

Publication number Publication date
EP1959357A3 (en) 2009-06-03
US20080162111A1 (en) 2008-07-03
EP1959357A2 (en) 2008-08-20
US7783473B2 (en) 2010-08-24

Similar Documents

Publication Publication Date Title
JP2008165786A (ja) 機械翻訳用のシーケンス分類
JP2008165783A (ja) シーケンス分類のためのモデルの識別トレーニング
KR102490752B1 (ko) 인공 신경망을 이용한 심층 문맥 기반 문법 오류 정정
Rastogi et al. Weighting finite-state transductions with neural context
CN109887484B (zh) 一种基于对偶学习的语音识别与语音合成方法及装置
JP7441864B2 (ja) 多音字の発音を予測する方法、装置、設備、および記憶媒体
US8849665B2 (en) System and method of providing machine translation from a source language to a target language
JP3768205B2 (ja) 形態素解析装置、形態素解析方法及び形態素解析プログラム
US9176936B2 (en) Transliteration pair matching
Heigold et al. Equivalence of generative and log-linear models
US20140163951A1 (en) Hybrid adaptation of named entity recognition
CN104462072A (zh) 面向计算机辅助翻译的输入方法与装置
Kurimo et al. Modeling under-resourced languages for speech recognition
Zitouni et al. Arabic diacritic restoration approach based on maximum entropy models
Schwartz et al. Neural polysynthetic language modelling
García-Martínez et al. Neural machine translation by generating multiple linguistic factors
US20080059149A1 (en) Mapping of semantic tags to phases for grammar generation
CN113947072A (zh) 一种文本纠错方法及文本纠错装置
WO2019163752A1 (ja) 形態素解析学習装置、形態素解析装置、方法、及びプログラム
Stahlberg et al. Word segmentation and pronunciation extraction from phoneme sequences through cross-lingual word-to-phoneme alignment
Jabaian et al. A unified framework for translation and understanding allowing discriminative joint decoding for multilingual speech semantic interpretation
Feng et al. Neural phrase-to-phrase machine translation
Lee et al. A data-driven grapheme-to-phoneme conversion method using dynamic contextual converting rules for Korean TTS systems
Antony et al. Statistical method for English to Kannada transliteration
Zheng et al. Grapheme-to-phoneme conversion based on a fast TBL algorithm in mandarin TTS systems