JP2005521952A - 統計的機械翻訳用の句間結合確率モデル - Google Patents

統計的機械翻訳用の句間結合確率モデル Download PDF

Info

Publication number
JP2005521952A
JP2005521952A JP2003581064A JP2003581064A JP2005521952A JP 2005521952 A JP2005521952 A JP 2005521952A JP 2003581064 A JP2003581064 A JP 2003581064A JP 2003581064 A JP2003581064 A JP 2003581064A JP 2005521952 A JP2005521952 A JP 2005521952A
Authority
JP
Japan
Prior art keywords
phrase
translation
model
word
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003581064A
Other languages
English (en)
Inventor
ダニエル マーク
ケビン ナイト
ウィリアム ワン
フィリップ コーエン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Southern California USC
Original Assignee
University of Southern California USC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Southern California USC filed Critical University of Southern California USC
Publication of JP2005521952A publication Critical patent/JP2005521952A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

機械翻訳(MT)システムは句ベースの結合確率モデルを利用できる。このモデルを使用して原始言語と目的言語の文を同時に作成できる。一実施態様で、このモデルは、語間統計的MTシステムが作成した語間アラインメントから句間アラインメントを学習できる。このシステムは、原始言語から目的言語へ及び目的言語から原始言語へ翻訳する用途の両方に結合確率モデルを利用できる。

Description

発明の詳細な説明
関連出願の相互参照
本願は、2002年3月27日付けで出願された米国仮特許願第60/368,450号の優先権を主張するものである。なおこの特許願の開示内容は本願に援用するものである。
発明の起源
本願に記載されている研究と開発は、援助番号N66001−00−1−9814に基づいたDARPA−ITOの援助及び援助番号0128379に基づいたNSF−STTRの援助によってなされたものである。米国政府は本願の発明に特定の権利をもっている。
背景
統計的機械翻訳(MT)に使用されるノイジーチャネル(雑音のある通信路)モデルの大部分は条件付確率モデルである。ノイジーチャネルのフレームワークにおいて、並列コーパス中の各原始文“e”は、確率論的な過程によって目的文“f”を“生成する”と推定され,そのパラメータは従来の期待値最大化(EM)法を利用して概算されている。その生成モデルは、原始語を目的語にマップする方法、及び目的語の順序を付け直して整合された目的文を生成する方法を説明している。各種の方法が、目的語の順序の付直しの説明に用いられていて、語ベース、テンプレートベース、及び文法ベースのモデル(少数の名称をあげるならば)を使う方法が含まれる。これらのモデルは、異なる生成過程を使用して、目的言語の翻訳された語の順序を付け直す方法を説明しているが、辞書のレベルでこれらモデルはすべて、原始語が個々に目的語に翻訳されると仮定している。
概要
機械翻訳(MT)システムは、1又は複数言語コーパスを使って確率的句間翻訳の辞書を作成することができる。例えば、翻訳辞書は、結合確率法、語間条件法などの方法を利用して作成できる。
MTシステムは、翻訳辞書を使って1又は2以上の文(又は文の一部)を翻訳できる。例えばMTシステムは、グリーディー法(greedy method)、ビームスタックデコーダを使う方法又は文をデコードする他の方法を利用できる。
句ベース結合確率モデルを使って翻訳辞書を作成する実施態様では、原始言語の文と目的言語の文は同時に作成することができる。そのシステムは、原始言語から目的言語への翻訳及び目的言語から原始言語への翻訳の両方の用途に対して結合確率モデルを利用できる。
語間条件法を使う実施態様では、そのモデルは、語間統計的MTシステムで作成した語間アラインメント(word-to-word-alignment)から句間アラインメント(phase-to-phase-alignment)を学習することができる。
詳細な説明
本願が開示しているシステム及び方法を使用してより効率的でかつ正確な機械翻訳(MT)を提供できる。いくつかの実施態様で、本発明のMTシステムは句間の確率翻訳の辞書を作成できる。その確率翻訳の辞書は、例えば結合確率モデル又は語間条件モデルを使用して二言語コーパスから自動的に学習できる。
次にこれらの翻訳辞書を使って新しい文を翻訳できる。すなわちその翻訳辞書を使って、MTシステムをトレーニングするために使用されるコーパスには含まれていない文を翻訳できる。翻訳を行うシステムと方法としては、グリーディー法又はビームスタックデコーダを使う方法などの方法がある。
図1は翻訳モデル105とデコーダ110を備えた機械翻訳(MT)システム100を示す。翻訳モデル105は、二言語コーパスから学習できる翻訳辞書を備えている。翻訳モデル105は、語レベル及び句レベルでも辞書の対応を確立できると仮定できる。デコーダ110は、翻訳辞書を使用して入力文に基づいた翻訳文を提供できる。
句間翻訳辞書の作成
いくつかの実施態様によれば、モデル105は結合確率モデルにしたがってトレーニングすることができる。すなわち、モデル105は、原始言語と目的言語の並列文字列を含む並列コーパス115を使って翻訳辞書を自動的に作成できる。モデル105は、原始文を目的文にマップできる方法を取り込もうとはしないが、原始文と目的文を同時に作成する。換言すれば、この翻訳モデルは、原始言語から目的言語へ及び目的言語から原始言語への機械翻訳の用途の両者に対する条件付確率モデルを与えるため容易にマージナライズ(marginalize)できる結合確率モデルである。
一実施態様で、モデル105は下記の確率論的な過程を使って文の対を作成できる。
1.概念Cのバッグを生成する。
2.各概念c∈Cに対して、一対の句
Figure 2005521952
を、
Figure 2005521952

Figure 2005521952
が各々少なくとも一つの語を含んでいる分布
Figure 2005521952
にしたがって生成する。
3.句の二つの線形シーケンスを作り出すため、各言語に作成された句を順序付ける。なおそのシーケンスは二言語コーパスの文の対と一致している。
簡略化するため、概念のバッグ及び作成された句の順序付けを一様分布でモデル化する。また
Figure 2005521952
と仮定される。これらの仮定に基づいて、概念c∈Cを利用して文の対(E,F)を作成する確率は、文EとFを得るため線形に順序付けることができる句のバッグを生成する全句間翻訳確率の積
Figure 2005521952
で与えられることになる。
図2は一実施例を示す。文の対“abc”――“xy”は二つの概念(“ab”:“y”)と(“c”:”x”)、又は一つの概念(“abc”:“xy”)を使用して作成することができる。というのは、両者の場合、各言語の句は原文の対を生成するシーケンスに配列できるからである。しかしながら、同じ文の対は概念(“ab”:“y”)と(“c”:”x”)を使用して作成できない。なぜならばシーケンス“xy”は二つの句“y”と“y”から再現できないからである。同様に、前記文の対は概念(“ac”:“x”)と(“b”:“y”)を使用して作成できる。というのはシーケンス“abc”は句“ac”と“b”を連結することによって作成できないからである。
EとFが、全概念c∈Cの特徴である句
Figure 2005521952

Figure 2005521952
の順序を変えることによって得られる場合は、概念Cのセットを文の対(E,F)に線形化できる。我々はこの特性を述語L(E,F,C)を使って示す。すると、このモデルに基づけば、与えられた文の対(E,F)の確率は、(E,F)に線形化できる概念c∈Cのバッグを作成する可能性のあるすべての方法を合計することによって得ることができる。
Figure 2005521952
上記モデル(“モデル1”)はかなり良好なアラインメントを生成することが分かった。しかしながら、このモデルは、与えられた概念に関連する句の順序付けに対する制約が全く無いので、初めて見る文を翻訳するのに不適である。このことを説明するため、改良モデル(“モデル2”)を開発して歪を説明した。モデル2の生成ストーリーは以下のとおりである。
1.概念Cのバッグを作成する。
2.EとFを空シーケンスεに初期設定する。
3.概念c∈Cを無作為に取り上げ、一対の句
Figure 2005521952
を、
Figure 2005521952

Figure 2005521952
が少なくとも一つの語を含んでいる分布
Figure 2005521952
にしたがって作成する。その後、Cからcを除く。
4.Fの末端に句
Figure 2005521952
を付加する。kをF中の
Figure 2005521952
の出発位置におく。
5.他の句が1及び
Figure 2005521952
の位置を占めないならば、句
Figure 2005521952
をEの1の位置に挿入する。ここで、
Figure 2005521952
は句
Figure 2005521952
の長さを示す。したがって、システムは、確率:
Figure 2005521952
(式中、d(i,j)は位置ベースの歪分布である)で二つの句
Figure 2005521952

Figure 2005521952
の間にアラインメントを作成する。
6.Cが空になるまでステップ3−5を繰り返す。
このモデルでは、文の対(E,F)を生成する確率は下記式:
Figure 2005521952
(ここで、
Figure 2005521952
は文F中の句
Figure 2005521952
の語kの位置を示し、そして
Figure 2005521952
は句eの群の中心の文E内の位置を示す)で与えられる。
上記モデルをトレーニングする方法をコンピュータで行うのは大変である。文の対(E,F)を作成できるアラインメントの数は指数関数的な数なので、期待値最大化(EM)トレーニングアルゴリズムは完全には適用できない。図3は、上記問題を考慮している句ベースの結合確率モデルの訓練アルゴリズム300を説明するフローチャートである。
システムはEとF内の高頻度nグラム(n-gram)を決定する(ブロック305)。句
Figure 2005521952
及び句
Figure 2005521952
が概念cから作成できると最初から仮定すると、
Figure 2005521952
分布をモデル化するテーブルをメモリに記憶させるのにスーパーコンピューターが必要である。このシステムは、無制限のメモリのコンピュータにアクセスしないから、このシステムは、コーパス及びユニグラム(unigram)内に生ずることが多い句に対してのみt分布エントリーを最初に学習する。そして、平滑化によって、このシステムは、稀に存在する句に対してもt分布エントリーを学習する。前記アルゴリズムの次のステップで考慮されるためには、句はコーパス中に少なくとも5回存在しなくてはならない。
次のステップは、t分布テーブルを初期設定するステップである(ブロック310)。EMトレーニング手順が始まる前に、どの語/句の対が同じ意味を共有しているのかという考えは誰も持っていない。換言すれば、文の対(E,F)を作成できるすべてのアラインメントは同じ確率を有していると仮定できる。これらの条件下で、
Figure 2005521952
が同じ概念cで生成されるという事実に、文の対(E,F)が寄与している証拠は、文E中の句
Figure 2005521952
及び文F中の句
Figure 2005521952
に連結される概念cを有する(E,F)間に組み立てることができるアラインメントの数を、これら二つの文の間に組み立てることができるアラインメントの全数で割り算することで与えられる。これらの数はいずれも容易に近似させることができる。
l語の文Eが与えられたとすると、そのl語をk個の空でないセット/概念に分割できるのはS(l,k)通りある。ここで、S(l,k)は第二種のスターリング数である。
Figure 2005521952
また、文Fのm個の語をk個の空でないセットに分割できるのはS(m,k)通りある。E中のどの語もF中のどれかの語にマップできるとした場合、長さがそれぞれlとmの二つの文(E,F)の間に組み立てることができる
Figure 2005521952
のアラインメントがあることになる。概念cが、長さがそれぞれaとbの二つの句
Figure 2005521952
を作成すると、連結するために残される語はl−a個及びm−b個の語だけである。したがって、他の情報が無いとき、句
Figure 2005521952

Figure 2005521952
が同じ概念cで作成される確率は下記式で与えられる。
Figure 2005521952
上記式により返される分数値は、前記システムが関連するt分布の近似値だけであることに注目すべきである。なぜなら、第二種のスターリング数は、連続している与えられた概念と関連する語に何も強制しないからである。しかしながら、上記式は分子と分母を等しく過大評価するので、近似は実際はうまくいく。
アルゴリズムの第二ステップにおいて、このシステムは、コーパス内の各文の対(E,F)の句について定義されるデカルト積のすべてのユニグラムの対及び高頻度のnグラムの対に対する分数値を集めるために上記式を適用する。このシステムは、これらすべてのtカウントを合計し正規化して初期の結合分布tを得る。このステップは、コーパス内のすべての可能性のあるアラインメントにわたる1ステップに対するEMアルゴリズムを実行することになる。
アルゴリズムの第三ステップで、前記システムはビタビアラインメントに対しEMトレーニングを実施する(ブロック315)。一様でないt分布の場合、句間アラインメントは異なる重みを有していて、多項式時間で可能性があるすべてのアラインメントの分数値を集めるために適用できる秘訣は外にはない。図3に示すアルゴリズムのブロック315から始まって、コーパス中の各文の対に対し、このシステムは、高いt確率を有する概念を生成するため、句を連結することによって初期のアラインメントをグリーディに作成する。次に、このシステムは、概念を分断及び合体し、語を概念間で交換し、そして語に概念間を移動させることによって、最高の確率を有するビタビアラインメントの方にヒルクライムする。このシステムは、ヒルクライミングプロセス中にシステムが作成したすべてのアラインメントに関連する確率を計算し、次いでこれらアラインメントのすべての概念にわたってtカウントを収集する。
このシステムは、このビタビベースのEMトレーニング手順を数回繰り返して適用する。その最初の繰返しがモデル1を使う前記アラインメントの確率を推定する。残りの繰返しがモデル2を使う前記アラインメントの確率を推定する。
トレーニング中、このシステムは、平滑化法を適用して、非ゼロ値を、コーパス中に度々存在することはない句の対に連結できる。
トレーニング手順が終わったとき、システムは、結合確率分布tとdに限界を設ける(ブロック320)。こうして、システムがデコードするときに使用する条件付確率分布
Figure 2005521952
及びd(posF|posE)が作成される。
このシステムが図2に示すコーパスに対し図3に示す訓練手順を実行するとき、モデル1を4回繰り返した後、このシステムはアラインメント205及び結合と条件付の確率分布210を得る。人間は生来、可能な最小の句の間にアラインメントを組み立てようとする傾向があるので、一見、第一の文の対に対するビタビアラインメントは間違っているように見える。しかしながら、我々のモデルによってなされる選択は全く適切な選択であることに注目すべきである。とりわけ、追加の情報が無いとき、そのモデルは、“a”と“y”が同じことを意味するか、又は句“abc”と“xy”が同じことを意味すると仮定できる。このモデルは第二の仮説により大きい重みを与える選択を行うが、第一の仮説にいくらかの確率の量を保存する。
結合分布は第二仮説が有利であるとしているが条件付分布はそうではないことにも留意すべきである。条件付分布210は、“a”を“y”と翻訳することのみならず“abc”を“xy”と翻訳することの両者が妥当であると我々に告げているという我々の直感と一致している。その条件付分布が我々の直感を反映している。
別の実施態様で、図1に示すシステム100のようなシステムは、語間のアラインメントから句間の翻訳を学習できる。すなわち、モデル105のようなモデルは、語間のモデルによって学習された語間の翻訳辞書を作成することによって句翻訳辞書をつくることができる。その句翻訳モデルはノイジーチャネルのモデルに基づいている。このシステムは、ベイズの規則を使って、外国語の文章fを英語の文章eに翻訳する翻訳確率を下記式:
argmaxp(e|f)=argmaxp(f|e)p(e)
に公式化しなおす。
この式は言語モデルp(e)及び別の翻訳モデルp(e|f)を考慮している。
デコード(すなわち翻訳)している間、外国語の入力文fはI個の句のシーケンス
Figure 2005521952
に区分される。システムはすべての可能な区分化にわたって一様の確率分布を仮定する。
Figure 2005521952
内の各外国語の句
Figure 2005521952
が英語の句
Figure 2005521952
に翻訳される。その英語の句は再度順序付けすることができる。句の翻訳は確率分布
Figure 2005521952
によってモデル化することができる。ベイズの規則によって、翻訳の方向はモデル化の観点から反転される。
英語の出力句の再順序付けは相対的歪の確率分布d(a−bi−1)によってモデル化される。ここでaはi番目の英語の句に翻訳された外国語の句の出発位置を示し、そしてbi−1はi−1番目の英語の句に翻訳された外国語の句の最後の位置を示す。
歪の確率分布d(・)は、先に述べた実施態様に関連して述べたような、結合確率モデルを使ってトレーニングできる。あるいは、システムは、適当な値のパラメータαを有するより単純な歪モデル
Figure 2005521952
を使うこともできる。
出力の長さを校正するため、このシステムは、トリグラム(trigram)の言語モデルpLMに加えて、作成した英語の各語に対して因子ωを導入する。これは性能を最適化する簡単な手段である。通常、この因子は1より大でありより長い出力をバイアスさせる。
要約すると、このモデルによって外国語入力文fに与えられる最良の英語出力文ebestは下記式で表される。
Figure 2005521952
ここでp(f|e)は下記式に分解される。
Figure 2005521952
Giza++ツールキットが開発されたのは、並列コーパス由来の語ベースの翻訳モデルをトレーニングするためである。その副産物として、このキットは、このデータの語のアラインメントを作成する。このシステムは、このアラインメントをいくつかの発見的方法で改善することができる。このシステムは語のアラインメントに一致しているすべての整列された句の対を収集する。法律上の句の対の中の語は互いに整列しているだけで、外部の語に対して整列していない。句の対が集められると、システムは相対頻度で下記式で表される句翻訳の確率分布を推定する。
Figure 2005521952
いくつかの実施態様では、平滑化を行うことができる。
このシステムが語のアラインメントと一致するすべての句の対を集めると、これは多くの非直感的な句を含んでいる。例えば、“house the”のような句の翻訳文は学習できる。このシステムは、直感的に、このような句が役に立たないと考える傾向がある。可能性のある句を構文上の動機がある句に限定すると、かような非直感的な対をフィルターして除くことができる。
構文上の句だけを含有する句翻訳モデルの性能を評価するための他の動機が、構文上の翻訳モデルを組み立てようとする最近の努力の結果から生まれている。これらのモデルでは、語の再順序付けは適格な構文解析ツリーの構成体の再順序付けに限定される。句の翻訳文を含むこのようなモデルを増大すると、一般に構文のサブツリー全体にまたがる句だけ翻訳が可能になる。これが役に立つ制限なのか又は有害な制限なのかを知ることが大切である。
このシステムは、構文上の句を、構文解析ツリー内の単一サブツリーでカバーされる語のシーケンスと定義する。我々は構文の句の対を以下のようにして収集する。このシステムは並列コーパスに先に述べたようにして語の整列を行う。次にこのシステムは、コーパスの両側を構文解析系で構文解析する。語のアラインメントと一致している句の対のすべてに対して、システムはさらに両方の句が構文解析ツリーのサブツリーなのかどうかをチェックする。これらの句だけがこのモデルに含まれている。したがって、構文上動機がある句の対であって学習される句の対は、構文の知識無しで学習される句の対のサブセットである。句の翻訳の確率分布は相対頻度によって推定できる。
図8は、異なる最大句長で行った実験の結果を示す。語のアラインメントと一致しているすべての句(AP)を使用した。図8に示すように、長さを1句当たり最大3語までに制限すると最高の性能が達成される。これ以上長い句を学習しても改善されない。しかしながら、その限度を2まで下げることは有害である。句をこれ以上長くすると、句の翻訳テーブルの大きさが大きくなる。この増大は最大長の限度とほとんど比例している。しかもこれらモデルの大きさのどれも、これまでメモリの問題を起こさなかった。
このシステムは、その語が互いにうまく翻訳されているかチェックすることによって句の翻訳対の品質を評価することができる。この場合、辞書の翻訳確率分布w(f|e)を使用できる。この分布は、下記のように句のモデルと同じ語のアラインメントから相対頻度によって推定できる。
Figure 2005521952
特定の英語の空トークン(NULL token)を、英語の各文章に付加し次いで位置合わせされていない外国語の語各々に位置合わせすることができる。
句の対
Figure 2005521952
と、外国語の語の位置I=1,…,nと英語の語の位置J=0,1,…,mの間の語のアラインメントaとが与えられると、システムは下記式:
Figure 2005521952
で字句の重みpを計算する。
図9は一実施例を示す。
一つの句の対
Figure 2005521952
に対し複数のアラインメントがある場合、システムは下記式で表わされる最高の字句の重みを有するアラインメントを使用できる。
Figure 2005521952
このシステムは、翻訳中、この字句の重みpを追加の因子として使用できる。これは、モデルp(f|e)が下記式まで拡張されることを意味する。
Figure 2005521952
パラメータλは字句の重みpの強さを定義する。このパラメータの適当な値は約0.25である。
図10は、機械翻訳の性能に対する字句重み付けの影響を示す。我々の実験で、システムはBLEUの得点スケールで0.01まで改善した。
字句の重み付けを有する句の翻訳は、各語に対し1語のクラスを有するアラインメントテンプレートモデルの特殊ケースである。システムが実施する単純化には、字句の重みを予め句の翻訳テーブルに取り入れてデコーディングの速度を上げることができるという利点がある。前記アラインメントテンプレートモデルで使うビームサーチデコーダとは対照的に、図5と6で説明したデコーディング法は、デコードする前に入力文章の可能性のある句の区分のうちの一つを選ぶのではなくて入力文章の可能性のある句の区分のすべてをサーチできる。
この実験で、本発明のシステムはGiza++が作成した語のアラインメントから句の対を学習した。このツールキットが実行するIBM Modelは、せいぜい一つの英語の語を一つの外国語の語に位置合わせできるに過ぎない。本発明のシステムはこの問題を発見的方法で改善する。
第一に本発明のシステムは、並列コーパスを、双方向にすなわち外国語から英語に及び英語から外国語に位置合わせする。これはシステムが調和させようとする二つの語のアラインメントを与える。システムがこれら二つのアラインメントと交差すると、システムは信頼性の高いアラインメントポイントを有する高精度のアラインメントを得る。システムが前記二つのアラインメントを併合すると、システムは追加のアラインメントポイントを有する再現性の高いアラインメントを得る。
交差と併合の間のスペースは、交差で出発し次いで追加のアラインメントポイントを付加する拡張的な発見的方法である。どのポイントを付加するかの決定は、いくつかの基準によって決まる。例えば、潜在的なアラインメントポイントがどのアラインメントに存在しているか(外国語−英語又は英語−外国語),潜在的なポイントがすでに確定されたポイントに隣接しているのかどうか,“隣接している”の意味が、直接接触していることか(ブロック−ディスタンス)又は対角線方向に接触していることか,潜在的なポイントが接続している英語又は外国語の語がまだ位置合わせされていないかどうか、及び両者が位置合わせされていないとしたときは潜在的なポイントの字句確率。
システムは2つの語のアラインメントが交差することで始まる。システムは2つの語のアラインメントの併合体内に存在する新しいアラインメントポイントを付加するだけである。またシステムは、新しいアラインメントポイントがまだ位置合わせされていない少なくとも一つの語に接続することを常に要求する。
第一に、このシステムは、直接隣接するアラインメントポイントにのみ拡張する。このシステムは、アラインメントマトリックスの右上隅から始まる潜在的なポイントをチェックし、最初の英語の語に対するアラインメントポイントをチェックし、次いで第二の英語の語に対するアラインメントポイントのチェックなどを続ける。これは、それ以上のアラインメントポイントを付加できなくなるまで繰返し行われる。最終ステップで、システムは、外の点では同じ要件で、非隣接のアラインメントポイントを付加する。
図11は、この発見的方法(base)の性能を二つの一方向のアラインメント(e2f,f2)及びそれらの併合(union)と比較して示している。図11はベースの発見的方法の二つの改良例も含んでいる。すなわち第一の改良例(diag)では、システムは、反復拡張段階で対角線方向に隣接させている。これの変形(diag-and)で、システムは最終段階で、両方の語が位置合わせされていないことを要求する。
これら異なる方法のランキングは、異なるトレーニングコーパスの大きさに対して変化する。例えば、アラインメントf2eは、最悪から2番目である10,000個の文章対のコーパスから出発するが、最終的には320,000個の文章対の最良の方法と競合する。前記ベースの発見的方法は最初最良であるが、次いで徐々に低下する。最良の方法と最悪の方法の相違は、トレーニングコーパスのほとんどすべての大きさに対して非常に大きく約0.2BLEU(IBMの得点システム)であるが、必ずしも有意ではない。
デコーディング
いくつかの実施態様の句ベースのデコーダはビームサーチアルゴリズムを採用できる。その英語の入力は部分翻訳(又は仮説)の形態で左から右へ作成される。
このシステムは、外国語の入力語が全く翻訳されておらず英語の出力語が全く作成されていない初期状態で可能性がある翻訳のサーチを開始できる。いくつかのまだ翻訳されていない外国語の入力語をカバーする句の翻訳で英語の出力を拡大することによって、新状態をつくることができる。この新状態の現在のコストは、原状態のコストに、付加された句の翻訳における、翻訳と歪と言語モデルとのコストを掛け算したものである。
各サーチ空間(仮説)は、(a)以前の最良状態に対するバックリンク;(b)これまでにカバーされた外国語の語;(c)作成された最後の二つの英語の語(将来の言語モデルのコストを計算するのに必要);(d)カバーされた最後の外国語の句の末端(将来の歪のコストを計算するのに必要);(e)最後の付加された英語の句(仮説の経路から翻訳文を読み取るのに必要);(f)これまでのコスト;及び(g)将来のコストの見積によって表わされる。
上記サーチの最終の状態は、すべての外国語の語をカバーする仮説である。これら仮説の中でコストが最低の仮説が最良の翻訳として選択される。
二つの仮説は、それらが(a)これまでにカバーされた外国語の語、(b)作成された少なくとも二つの英語の語および(c)カバーされた最後の外国語の句の末端で一致している場合、併合することができる。
これらの特性で一致している二つの仮説に到達する二つの経路があるとき、システムは、より安価な仮説例えばこれまでの仮説のなかでコストの低いものを保持する。残った仮説は最良の翻訳への経路の一部になれないので、システムはその仮説を安全に捨てることができる。下位の仮説が第二の最良翻訳の一部になれることがあることに留意すべきである。
図5は、一実施態様の句ベースのデコーディング操作500を説明するフローチャートである。この操作を説明するアルゴリズムは図6に示してある。システムは初期の空の仮説で出発する。次に新しい仮説が、句を翻訳することによって既存の仮説から拡張される。未翻訳の外国語の語のシーケンスとそれらの可能性のある英語の句の翻訳を選択する(ブロック505)。その英語の句を既存の英語の出力シーケンスに連結する(ブロック510)。次に前記外国語の語に翻訳されたという印をつけ次いでその仮説の確率コストを更新する(ブロック515)。未翻訳の外国語の語を含まない最も安価な(最高の確率)最終仮説がサーチの出力である。(ブロック520)。
それらの仮説をスタックに記憶させる。そのスタックSは、m個の外国語の語が翻訳されたすべての仮説を含んでいる。システムはサーチの仮説を再結合することができる。こうすると各スタックに記憶される仮説の数は幾分減少するが、スタックの大きさは入力文の長さに対して指数関数的になる。こうなると網羅的なサーチが実行できなくなる。
したがって、このシステムは、仮説のこれまでにかかったコストと将来のコストの推定値に基づいて弱い仮説を除く。システムは、各スタックに、最良のn個の仮説のビームだけを保持する。将来のコストの推定値は、正確でないのでサーチエラーをもたらす。我々の将来のコストの推定値は、句の翻訳の推定コストを考慮しているが予想される歪のコストを考慮していない。
文中に存在する可能性のある句の翻訳の各々(“翻訳オプション”と呼称されている)について、このシステムは、その句の翻訳の確率に、作成された英語の句に対する言語モデルの確率を掛け算する。言語モデルの確率として、システムは、第一の語に対しユニグラムの確率、第二の語にバイグラム(bigram)の確率及び続くすべての語に対しトリグラムの確率を使用できる。
前記翻訳オプションのコストが与えられると、システムは、連続する外国語の語のシーケンスの将来のコストの推定値を動的計画法で計算できる。システムは歪のコストを無視するので、上記のことは単に可能であるに過ぎないことに留意すべきである。長さnの外国語の入力文のかようなシーケンスはn(n+1)/2個存在しているに過ぎないので、システムはこれらのコストの推定値を予め計算してテーブルに記憶させることができる。
翻訳中、カバーされていない外国語の語の将来のコストは上記テーブルを調べることによって迅速に計算できる。仮説が未翻訳の外国語の語を中断した場合、システムは各シーケンスのコストを調べてそれらのコストの積を求める。
ビームサーチ中に作成された仮説の空間は、各々翻訳を示す経路の格子を形成し、その翻訳の翻訳得点は容易に計算できる。このような格子からn個の最良経路を取り出すことは十分に研究された問題である。
複数の新しい仮説を導出できる仮説に複数の翻訳オプションがあるとき、経路は分枝する。仮説が併合されると、経路は結合する。仮説がいくつもの同じ特性を有しコストがより小さい仮説と一致すると、このシステムは上記のようにその仮説を捨てることができる。併合経路の情報を保持するため、このシステムは、以前の仮説の識別子、よりコストの小さい仮説の識別子及び以前の仮説からよりコストの高い仮説までのコストを含むかような併合の記録を保持する。
図7は図に示すアークを作成する一実施例を示す。この場合、仮説2と4は、上記のように発見的サーチについては等しい。したがって仮説4は削除される。しかし、仮説3から2に至る経路に関する情報を保存するため、システムはこのアークの記録705を記憶する。このアークは、仮説3から4に付加されたコストも含んでいる。仮説1から仮説2に付加されたコストは、仮説のデータ構造体から再計算できるので記憶する必要がないことに注目すべきである。
ビームの大きさ、例えば各スタック内の仮説の最大数は、特定の数に固定できる。翻訳オプションの数は文の長さと直線の関係である。したがってビームサーチの時間複雑性は、文の長さと二次曲線の関係でありそしてビームの大きさと直線の関係である。
ビームの大きさはサーチ空間を限定するのでサーチの質を限定するから、システムは、速度(小さいビームの大きさ)と性能(大きいビームの大きさ)の間の適切なトレードオフを見つけなければならない。実験で、わずか100というビームの大きさで十分であることが分かった。ビームの大きさがこれより大きいと、ごく少数の文が異なって翻訳された。そのデコーダは、2GHzのLinux(登録商標)システムに約10分間で長さが5〜15語の文1755を翻訳した。このシステムは、高品質を保証しながら迅速にデコードした。
いくつかの実施態様で、図1に示すデコーダ100などのデコーダはグリーディな手順を実行する。外国語の文Fが与えられると、そのデコーダは第一に、E*すなわち確率p(E,F)の句を選ぶことによってその文の用語集を作成する。デコーダは次に式:p(E)p(F|E)を最大にするためE及びEとFの間のアラインメントを修正することによって繰返しヒルクライムする。デコーダは、与えられた時間までに組み立てられたアラインメント/翻訳を部分的に修正する一組の操作で既存のアラインメント/翻訳を修正することによってヒルクライムする。これらの操作は、アラインメントの英語の側を異なる確率の句で置換し、既存の概念を併合しそして中断し次に語を概念間で交換する。確率p(E)は単純なトリグラム言語モデルを使って計算できる。その言語モデルは語のレベルで(句のレベルではない)推定される。図3は、文
Figure 2005521952
の翻訳文を見つけるためデコーダがとるステップを示す。図4に示す各中間翻訳文405に先行してその文の確率410が記載され続いて文を変えてより高い確率の翻訳文を生成する操作が記載されている。
いくつかの実施態様を説明してきたが、本発明の精神と範囲を逸脱することなく各種の変形を実施できると理解している。例えば、フローチャートのブロックは飛び越えたり又は順序を変えて実施ししかも望ましい結果をもたらすことができる。異なる翻訳法を使用できる。したがって他の実施態様は本願の請求項の範囲内にある。
句ベースの結合確率翻訳モデルを含む機械翻訳(MT)システムのブロック図である。 句ベースの結合確率翻訳モデルで作成したアラインメントと確率分布を示す。 句ベースの結合確率翻訳モデルのトレーニングアルゴリズムを説明するフローチャートである。 句ベースのグリーディデコーディングの一例を示す。 一実施態様による句ベースのデコーディングアルゴリズムを説明するフローチャートである。 句ベースのデコーディングアルゴリズムを説明する擬似コードを示す。 仮説間のアークの作成を示す線図である。 性能に対する句の長さの影響を示すグラフである。 字句の重みの概算の一例を示す。 字句の重み付けの、性能に対する影響を示すグラフである。 異なる発見的方法の性能を比較するグラフである。

Claims (2)

  1. 2言語の並列テキストセグメントを複数含む並列コーパスで、句ベースの結合確率モデルをトレーニングすることを含んでなる方法。
  2. 請求項1に記載の方法において、
    EとFとからなる文の対の、高頻度のn−グラムを決定し、
    t−分布テーブルを初期設定し、
    ビタビベースの期待値最大化によるトレーニング手順を実行し、次いで
    条件付確率モデルを導出する、
    ことをさらに含んでいる方法。
JP2003581064A 2002-03-27 2003-03-27 統計的機械翻訳用の句間結合確率モデル Pending JP2005521952A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US36845002P 2002-03-27 2002-03-27
PCT/US2003/009771 WO2003083710A2 (en) 2002-03-27 2003-03-27 Phrase- based joint probability model for statistical machine translation

Publications (1)

Publication Number Publication Date
JP2005521952A true JP2005521952A (ja) 2005-07-21

Family

ID=28675493

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003581064A Pending JP2005521952A (ja) 2002-03-27 2003-03-27 統計的機械翻訳用の句間結合確率モデル

Country Status (11)

Country Link
US (1) US7454326B2 (ja)
EP (1) EP1488338B1 (ja)
JP (1) JP2005521952A (ja)
CN (1) CN1643512A (ja)
AT (1) ATE465457T1 (ja)
AU (1) AU2003220606A1 (ja)
CA (1) CA2480398C (ja)
DE (1) DE60332220D1 (ja)
ES (1) ES2343786T3 (ja)
HK (1) HK1072987A1 (ja)
WO (1) WO2003083710A2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8859202B2 (en) 2012-01-20 2014-10-14 The Ohio State University Breast cancer biomarker signatures for invasiveness and prognosis
US8916533B2 (en) 2009-11-23 2014-12-23 The Ohio State University Materials and methods useful for affecting tumor cell growth, migration and invasion

Families Citing this family (174)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060116865A1 (en) 1999-09-17 2006-06-01 Www.Uniscape.Com E-services translation utilizing machine translation and translation memory
US7904595B2 (en) 2001-01-18 2011-03-08 Sdl International America Incorporated Globalization management system and method therefor
US7177792B2 (en) * 2001-05-31 2007-02-13 University Of Southern California Integer programming decoder for machine translation
US8214196B2 (en) * 2001-07-03 2012-07-03 University Of Southern California Syntax-based statistical translation model
AU2003269808A1 (en) 2002-03-26 2004-01-06 University Of Southern California Constructing a translation lexicon from comparable, non-parallel corpora
US7318022B2 (en) * 2003-06-12 2008-01-08 Microsoft Corporation Method and apparatus for training a translation disambiguation classifier
US7711545B2 (en) * 2003-07-02 2010-05-04 Language Weaver, Inc. Empirical methods for splitting compound words with application to machine translation
US8548794B2 (en) 2003-07-02 2013-10-01 University Of Southern California Statistical noun phrase translation
US7587307B2 (en) * 2003-12-18 2009-09-08 Xerox Corporation Method and apparatus for evaluating machine translation quality
US7983896B2 (en) 2004-03-05 2011-07-19 SDL Language Technology In-context exact (ICE) matching
US7698125B2 (en) * 2004-03-15 2010-04-13 Language Weaver, Inc. Training tree transducers for probabilistic operations
US8296127B2 (en) * 2004-03-23 2012-10-23 University Of Southern California Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
US8666725B2 (en) 2004-04-16 2014-03-04 University Of Southern California Selection and use of nonstatistical translation components in a statistical machine translation framework
US7409332B2 (en) * 2004-07-14 2008-08-05 Microsoft Corporation Method and apparatus for initializing iterative training of translation probabilities
US8600728B2 (en) * 2004-10-12 2013-12-03 University Of Southern California Training for a text-to-text application which uses string to tree conversion for training and decoding
US8676563B2 (en) 2009-10-01 2014-03-18 Language Weaver, Inc. Providing human-generated and machine-generated trusted translations
US8886517B2 (en) 2005-06-17 2014-11-11 Language Weaver, Inc. Trust scoring for language translation systems
EP1894125A4 (en) * 2005-06-17 2015-12-02 Nat Res Council Canada MEANS AND METHOD FOR ADAPTED LANGUAGE TRANSLATION
US7974833B2 (en) 2005-06-21 2011-07-05 Language Weaver, Inc. Weighted system of expressing language information using a compact notation
US20070010989A1 (en) * 2005-07-07 2007-01-11 International Business Machines Corporation Decoding procedure for statistical machine translation
US7389222B1 (en) 2005-08-02 2008-06-17 Language Weaver, Inc. Task parallelization in a text-to-text system
US7813918B2 (en) * 2005-08-03 2010-10-12 Language Weaver, Inc. Identifying documents which form translated pairs, within a document collection
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7624020B2 (en) * 2005-09-09 2009-11-24 Language Weaver, Inc. Adapter for allowing both online and offline training of a text to text system
US10319252B2 (en) 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
US7536295B2 (en) * 2005-12-22 2009-05-19 Xerox Corporation Machine translation using non-contiguous fragments of text
US8943080B2 (en) 2006-04-07 2015-01-27 University Of Southern California Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections
US7542893B2 (en) * 2006-05-10 2009-06-02 Xerox Corporation Machine translation using elastic chunks
US9020804B2 (en) 2006-05-10 2015-04-28 Xerox Corporation Method for aligning sentences at the word level enforcing selective contiguity constraints
US7725306B2 (en) * 2006-06-28 2010-05-25 Microsoft Corporation Efficient phrase pair extraction from bilingual word alignments
US8886518B1 (en) 2006-08-07 2014-11-11 Language Weaver, Inc. System and method for capitalizing machine translated text
CA2661535A1 (en) * 2006-08-18 2008-02-21 National Research Council Of Canada Means and method for training a statistical machine translation system
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8433556B2 (en) 2006-11-02 2013-04-30 University Of Southern California Semi-supervised training for statistical word alignment
US20080120092A1 (en) * 2006-11-20 2008-05-22 Microsoft Corporation Phrase pair extraction for statistical machine translation
US9122674B1 (en) 2006-12-15 2015-09-01 Language Weaver, Inc. Use of annotations in statistical machine translation
US8468149B1 (en) 2007-01-26 2013-06-18 Language Weaver, Inc. Multi-lingual online community
US8788258B1 (en) 2007-03-15 2014-07-22 At&T Intellectual Property Ii, L.P. Machine translation using global lexical selection and sentence reconstruction
US8615389B1 (en) 2007-03-16 2013-12-24 Language Weaver, Inc. Generation and exploitation of an approximate language model
US8185375B1 (en) * 2007-03-26 2012-05-22 Google Inc. Word alignment with bridge languages
US8831928B2 (en) 2007-04-04 2014-09-09 Language Weaver, Inc. Customizable machine translation service
TWI386822B (zh) * 2007-09-05 2013-02-21 Shing Lung Chen 建置多語翻譯資料庫內容之方法
CN100527125C (zh) * 2007-05-29 2009-08-12 中国科学院计算技术研究所 一种统计机器翻译中的在线翻译模型选择方法和系统
US9779079B2 (en) * 2007-06-01 2017-10-03 Xerox Corporation Authoring system
US8825466B1 (en) 2007-06-08 2014-09-02 Language Weaver, Inc. Modification of annotated bilingual segment pairs in syntax-based machine translation
US7983898B2 (en) * 2007-06-08 2011-07-19 Microsoft Corporation Generating a phrase translation model by iteratively estimating phrase translation probabilities
US8180624B2 (en) * 2007-09-05 2012-05-15 Microsoft Corporation Fast beam-search decoding for phrasal statistical machine translation
US8046211B2 (en) 2007-10-23 2011-10-25 Microsoft Corporation Technologies for statistical machine translation based on generated reordering knowledge
US8060360B2 (en) * 2007-10-30 2011-11-15 Microsoft Corporation Word-dependent transition models in HMM based word alignment for statistical machine translation
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8504354B2 (en) * 2008-06-02 2013-08-06 Microsoft Corporation Parallel fragment extraction from noisy parallel corpora
US8150677B2 (en) * 2008-06-26 2012-04-03 Microsoft Corporation Machine translation using language order templates
US20090326916A1 (en) * 2008-06-27 2009-12-31 Microsoft Corporation Unsupervised chinese word segmentation for statistical machine translation
US20100017293A1 (en) * 2008-07-17 2010-01-21 Language Weaver, Inc. System, method, and computer program for providing multilingual text advertisments
US8407042B2 (en) 2008-12-09 2013-03-26 Xerox Corporation Cross language tool for question answering
US8768852B2 (en) 2009-01-13 2014-07-01 Amazon Technologies, Inc. Determining phrases related to other phrases
US8423349B1 (en) 2009-01-13 2013-04-16 Amazon Technologies, Inc. Filtering phrases for an identifier
US8706644B1 (en) 2009-01-13 2014-04-22 Amazon Technologies, Inc. Mining phrases for association with a user
US8706643B1 (en) 2009-01-13 2014-04-22 Amazon Technologies, Inc. Generating and suggesting phrases
US9569770B1 (en) 2009-01-13 2017-02-14 Amazon Technologies, Inc. Generating constructed phrases
US20100228538A1 (en) * 2009-03-03 2010-09-09 Yamada John A Computational linguistic systems and methods
US8280718B2 (en) * 2009-03-16 2012-10-02 Xerox Corporation Method to preserve the place of parentheses and tags in statistical machine translation systems
US8326599B2 (en) * 2009-04-21 2012-12-04 Xerox Corporation Bi-phrase filtering for statistical machine translation
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8990064B2 (en) 2009-07-28 2015-03-24 Language Weaver, Inc. Translating documents based on content
US9298700B1 (en) 2009-07-28 2016-03-29 Amazon Technologies, Inc. Determining similar phrases
US10007712B1 (en) 2009-08-20 2018-06-26 Amazon Technologies, Inc. Enforcing user-specified rules
US8380486B2 (en) 2009-10-01 2013-02-19 Language Weaver, Inc. Providing machine-generated translations and corresponding trust levels
JP5407737B2 (ja) * 2009-10-16 2014-02-05 富士通セミコンダクター株式会社 モデル生成プログラム、モデル生成装置、およびモデル生成方法
US8229929B2 (en) 2010-01-06 2012-07-24 International Business Machines Corporation Cross-domain clusterability evaluation for cross-guided data clustering based on alignment between data domains
US8589396B2 (en) * 2010-01-06 2013-11-19 International Business Machines Corporation Cross-guided data clustering based on alignment between data domains
US8548796B2 (en) * 2010-01-20 2013-10-01 Xerox Corporation Statistical machine translation system and method for translation of text into languages which produce closed compound words
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8799658B1 (en) 2010-03-02 2014-08-05 Amazon Technologies, Inc. Sharing media items with pass phrases
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
US9552355B2 (en) 2010-05-20 2017-01-24 Xerox Corporation Dynamic bi-phrases for statistical machine translation
US8612205B2 (en) 2010-06-14 2013-12-17 Xerox Corporation Word alignment method and system for improved vocabulary coverage in statistical machine translation
US20120035905A1 (en) 2010-08-09 2012-02-09 Xerox Corporation System and method for handling multiple languages in text
US8775155B2 (en) 2010-10-25 2014-07-08 Xerox Corporation Machine translation using overlapping biphrase alignments and sampling
KR101762866B1 (ko) * 2010-11-05 2017-08-16 에스케이플래닛 주식회사 구문 구조 변환 모델과 어휘 변환 모델을 결합한 기계 번역 장치 및 기계 번역 방법
US20120158398A1 (en) * 2010-12-17 2012-06-21 John Denero Combining Model-Based Aligner Using Dual Decomposition
US10657540B2 (en) 2011-01-29 2020-05-19 Sdl Netherlands B.V. Systems, methods, and media for web content management
US9547626B2 (en) 2011-01-29 2017-01-17 Sdl Plc Systems, methods, and media for managing ambient adaptability of web applications and web services
US10580015B2 (en) 2011-02-25 2020-03-03 Sdl Netherlands B.V. Systems, methods, and media for executing and optimizing online marketing initiatives
US10140320B2 (en) 2011-02-28 2018-11-27 Sdl Inc. Systems, methods, and media for generating analytical data
US8612204B1 (en) * 2011-03-30 2013-12-17 Google Inc. Techniques for reordering words of sentences for improved translation between languages
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
US8798984B2 (en) 2011-04-27 2014-08-05 Xerox Corporation Method and system for confidence-weighted learning of factored discriminative language models
US20120303352A1 (en) * 2011-05-24 2012-11-29 The Boeing Company Method and apparatus for assessing a translation
US8694303B2 (en) 2011-06-15 2014-04-08 Language Weaver, Inc. Systems and methods for tuning parameters in statistical machine translation
US8713037B2 (en) * 2011-06-30 2014-04-29 Xerox Corporation Translation system adapted for query translation via a reranking framework
US8781810B2 (en) 2011-07-25 2014-07-15 Xerox Corporation System and method for productive generation of compound words in statistical machine translation
US9984054B2 (en) 2011-08-24 2018-05-29 Sdl Inc. Web interface including the review and manipulation of a web document and utilizing permission based control
US8886515B2 (en) 2011-10-19 2014-11-11 Language Weaver, Inc. Systems and methods for enhancing machine translation post edit review processes
US8903707B2 (en) 2012-01-12 2014-12-02 International Business Machines Corporation Predicting pronouns of dropped pronoun style languages for natural language translation
US9465797B2 (en) 2012-02-23 2016-10-11 Google Inc. Translating text using a bridge language
US8942973B2 (en) 2012-03-09 2015-01-27 Language Weaver, Inc. Content page URL translation
US9773270B2 (en) 2012-05-11 2017-09-26 Fredhopper B.V. Method and system for recommending products based on a ranking cocktail
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8543563B1 (en) 2012-05-24 2013-09-24 Xerox Corporation Domain adaptation for query translation
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US20130325436A1 (en) * 2012-05-29 2013-12-05 Wright State University Large Scale Distributed Syntactic, Semantic and Lexical Language Models
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9026425B2 (en) 2012-08-28 2015-05-05 Xerox Corporation Lexical and phrasal feature domain adaptation in statistical machine translation
US11308528B2 (en) 2012-09-14 2022-04-19 Sdl Netherlands B.V. Blueprinting of multimedia assets
US10452740B2 (en) 2012-09-14 2019-10-22 Sdl Netherlands B.V. External content libraries
US11386186B2 (en) 2012-09-14 2022-07-12 Sdl Netherlands B.V. External content library connector systems and methods
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9916306B2 (en) 2012-10-19 2018-03-13 Sdl Inc. Statistical linguistic analysis of source content
US9152622B2 (en) 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
US9235567B2 (en) 2013-01-14 2016-01-12 Xerox Corporation Multi-domain machine translation model adaptation
US9047274B2 (en) 2013-01-21 2015-06-02 Xerox Corporation Machine translation-driven authoring system and method
US9786269B2 (en) 2013-03-14 2017-10-10 Google Inc. Language modeling of complete language sequences
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US10025778B2 (en) 2013-06-09 2018-07-17 Microsoft Technology Licensing, Llc Training markov random field-based translation models using gradient ascent
US9213694B2 (en) 2013-10-10 2015-12-15 Language Weaver, Inc. Efficient online domain adaptation
US9652453B2 (en) 2014-04-14 2017-05-16 Xerox Corporation Estimation of parameters for machine translation without in-domain parallel data
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9785630B2 (en) * 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9606988B2 (en) 2014-11-04 2017-03-28 Xerox Corporation Predicting the quality of automatic translation of an entire document
US9367541B1 (en) 2015-01-20 2016-06-14 Xerox Corporation Terminological adaptation of statistical machine translation system through automatic generation of phrasal contexts for bilingual terms
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10025779B2 (en) 2015-08-13 2018-07-17 Xerox Corporation System and method for predicting an optimal machine translation system for a user based on an updated user profile
CN106484682B (zh) 2015-08-25 2019-06-25 阿里巴巴集团控股有限公司 基于统计的机器翻译方法、装置及电子设备
CN106484681B (zh) 2015-08-25 2019-07-09 阿里巴巴集团控股有限公司 一种生成候选译文的方法、装置及电子设备
US9836453B2 (en) 2015-08-27 2017-12-05 Conduent Business Services, Llc Document-specific gazetteers for named entity recognition
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10614167B2 (en) 2015-10-30 2020-04-07 Sdl Plc Translation review workflow systems and methods
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
WO2018047436A1 (ja) * 2016-09-09 2018-03-15 パナソニックIpマネジメント株式会社 翻訳装置及び翻訳方法
CN107818086B (zh) * 2016-09-13 2021-08-10 株式会社东芝 机器翻译方法和装置
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN110720104B (zh) * 2017-10-09 2021-11-19 华为技术有限公司 一种语音信息处理方法、装置及终端
US10635863B2 (en) 2017-10-30 2020-04-28 Sdl Inc. Fragment recall and adaptive automated translation
US10817676B2 (en) 2017-12-27 2020-10-27 Sdl Inc. Intelligent routing services and systems
US10747962B1 (en) 2018-03-12 2020-08-18 Amazon Technologies, Inc. Artificial intelligence system using phrase tables to evaluate and improve neural network based machine translation
JP7247460B2 (ja) * 2018-03-13 2023-03-29 富士通株式会社 対応関係生成プログラム、対応関係生成装置、対応関係生成方法、及び翻訳プログラム
US11107463B2 (en) * 2018-08-01 2021-08-31 Google Llc Minimum word error rate training for attention-based sequence-to-sequence models
US11256867B2 (en) 2018-10-09 2022-02-22 Sdl Inc. Systems and methods of machine learning for digital assets and message creation
CN111626064B (zh) * 2019-02-26 2024-04-30 株式会社理光 神经机器翻译模型的训练方法、装置及存储介质
CN116933802A (zh) * 2023-09-15 2023-10-24 山东信息职业技术学院 基于人工智能的自动翻译管理方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2279164A (en) * 1993-06-18 1994-12-21 Canon Res Ct Europe Ltd Processing a bilingual database.
DE69837979T2 (de) * 1997-06-27 2008-03-06 International Business Machines Corp. System zum Extrahieren einer mehrsprachigen Terminologie
JPH11143877A (ja) * 1997-10-22 1999-05-28 Internatl Business Mach Corp <Ibm> 圧縮方法、辞書の見出し語インデックス・データを圧縮するための方法、及び機械翻訳システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8916533B2 (en) 2009-11-23 2014-12-23 The Ohio State University Materials and methods useful for affecting tumor cell growth, migration and invasion
US8859202B2 (en) 2012-01-20 2014-10-14 The Ohio State University Breast cancer biomarker signatures for invasiveness and prognosis

Also Published As

Publication number Publication date
ES2343786T3 (es) 2010-08-10
CA2480398C (en) 2011-06-14
AU2003220606A8 (en) 2003-10-13
EP1488338B1 (en) 2010-04-21
US7454326B2 (en) 2008-11-18
AU2003220606A1 (en) 2003-10-13
EP1488338A2 (en) 2004-12-22
CN1643512A (zh) 2005-07-20
CA2480398A1 (en) 2003-10-09
HK1072987A1 (en) 2005-09-16
WO2003083710A2 (en) 2003-10-09
ATE465457T1 (de) 2010-05-15
DE60332220D1 (de) 2010-06-02
US20040030551A1 (en) 2004-02-12
WO2003083710A3 (en) 2004-08-12

Similar Documents

Publication Publication Date Title
JP2005521952A (ja) 統計的機械翻訳用の句間結合確率モデル
Chen Building probabilistic models for natural language
US7536295B2 (en) Machine translation using non-contiguous fragments of text
Och et al. An efficient A* search algorithm for statistical machine translation
JP4945086B2 (ja) 論理形式のための統計的言語モデル
Cherry et al. A probability model to improve word alignment
US7797148B2 (en) Systems and methods for fast and memory efficient machine translation using statistical integrated phase lattice
KR101084786B1 (ko) 트리 서열화 컴포넌트를 저장하는 컴퓨터 판독가능 기록매체
US7533013B2 (en) Machine translation techniques
JP5484317B2 (ja) 機械翻訳における大規模言語モデル
Garg et al. Machine translation: a literature review
US20130325436A1 (en) Large Scale Distributed Syntactic, Semantic and Lexical Language Models
US20060031061A1 (en) Performing machine translation using a unified language model and translation model
US20050234705A1 (en) Statistically driven sentence realizing method and apparatus
JP5586817B2 (ja) ツリーレット翻訳対の抽出
Watanabe et al. Left-to-right target generation for hierarchical phrase-based translation
US20100235162A1 (en) Method to preserve the place of parentheses and tags in statistical machine translation systems
Srinivas et al. An approach to robust partial parsing and evaluation metrics
JP2009075795A (ja) 機械翻訳装置、機械翻訳方法、及びプログラム
JP4113204B2 (ja) 機械翻訳装置、その方法およびプログラム
Wang et al. Structure alignment using bilingual chunking
Costa-jussà An overview of the phrase-based statistical machine translation techniques
JP2006024114A (ja) 機械翻訳装置および機械翻訳コンピュータプログラム
Garcia-Varea et al. Maximum Entropy Modeling: A Suitable Framework to Learn Context-Dependent Lexicon Models for Statistical Machine Translation: Basic Instructions
Huang et al. An EM algorithm for SCFG in formal syntax-based translation

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060829

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20061124

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20061204

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070424