JP2005521952A - 統計的機械翻訳用の句間結合確率モデル - Google Patents
統計的機械翻訳用の句間結合確率モデル Download PDFInfo
- Publication number
- JP2005521952A JP2005521952A JP2003581064A JP2003581064A JP2005521952A JP 2005521952 A JP2005521952 A JP 2005521952A JP 2003581064 A JP2003581064 A JP 2003581064A JP 2003581064 A JP2003581064 A JP 2003581064A JP 2005521952 A JP2005521952 A JP 2005521952A
- Authority
- JP
- Japan
- Prior art keywords
- phrase
- translation
- model
- word
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/45—Example-based machine translation; Alignment
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
機械翻訳(MT)システムは句ベースの結合確率モデルを利用できる。このモデルを使用して原始言語と目的言語の文を同時に作成できる。一実施態様で、このモデルは、語間統計的MTシステムが作成した語間アラインメントから句間アラインメントを学習できる。このシステムは、原始言語から目的言語へ及び目的言語から原始言語へ翻訳する用途の両方に結合確率モデルを利用できる。
Description
関連出願の相互参照
本願は、2002年3月27日付けで出願された米国仮特許願第60/368,450号の優先権を主張するものである。なおこの特許願の開示内容は本願に援用するものである。
本願は、2002年3月27日付けで出願された米国仮特許願第60/368,450号の優先権を主張するものである。なおこの特許願の開示内容は本願に援用するものである。
発明の起源
本願に記載されている研究と開発は、援助番号N66001−00−1−9814に基づいたDARPA−ITOの援助及び援助番号0128379に基づいたNSF−STTRの援助によってなされたものである。米国政府は本願の発明に特定の権利をもっている。
本願に記載されている研究と開発は、援助番号N66001−00−1−9814に基づいたDARPA−ITOの援助及び援助番号0128379に基づいたNSF−STTRの援助によってなされたものである。米国政府は本願の発明に特定の権利をもっている。
背景
統計的機械翻訳(MT)に使用されるノイジーチャネル(雑音のある通信路)モデルの大部分は条件付確率モデルである。ノイジーチャネルのフレームワークにおいて、並列コーパス中の各原始文“e”は、確率論的な過程によって目的文“f”を“生成する”と推定され,そのパラメータは従来の期待値最大化(EM)法を利用して概算されている。その生成モデルは、原始語を目的語にマップする方法、及び目的語の順序を付け直して整合された目的文を生成する方法を説明している。各種の方法が、目的語の順序の付直しの説明に用いられていて、語ベース、テンプレートベース、及び文法ベースのモデル(少数の名称をあげるならば)を使う方法が含まれる。これらのモデルは、異なる生成過程を使用して、目的言語の翻訳された語の順序を付け直す方法を説明しているが、辞書のレベルでこれらモデルはすべて、原始語が個々に目的語に翻訳されると仮定している。
統計的機械翻訳(MT)に使用されるノイジーチャネル(雑音のある通信路)モデルの大部分は条件付確率モデルである。ノイジーチャネルのフレームワークにおいて、並列コーパス中の各原始文“e”は、確率論的な過程によって目的文“f”を“生成する”と推定され,そのパラメータは従来の期待値最大化(EM)法を利用して概算されている。その生成モデルは、原始語を目的語にマップする方法、及び目的語の順序を付け直して整合された目的文を生成する方法を説明している。各種の方法が、目的語の順序の付直しの説明に用いられていて、語ベース、テンプレートベース、及び文法ベースのモデル(少数の名称をあげるならば)を使う方法が含まれる。これらのモデルは、異なる生成過程を使用して、目的言語の翻訳された語の順序を付け直す方法を説明しているが、辞書のレベルでこれらモデルはすべて、原始語が個々に目的語に翻訳されると仮定している。
概要
機械翻訳(MT)システムは、1又は複数言語コーパスを使って確率的句間翻訳の辞書を作成することができる。例えば、翻訳辞書は、結合確率法、語間条件法などの方法を利用して作成できる。
機械翻訳(MT)システムは、1又は複数言語コーパスを使って確率的句間翻訳の辞書を作成することができる。例えば、翻訳辞書は、結合確率法、語間条件法などの方法を利用して作成できる。
MTシステムは、翻訳辞書を使って1又は2以上の文(又は文の一部)を翻訳できる。例えばMTシステムは、グリーディー法(greedy method)、ビームスタックデコーダを使う方法又は文をデコードする他の方法を利用できる。
句ベース結合確率モデルを使って翻訳辞書を作成する実施態様では、原始言語の文と目的言語の文は同時に作成することができる。そのシステムは、原始言語から目的言語への翻訳及び目的言語から原始言語への翻訳の両方の用途に対して結合確率モデルを利用できる。
語間条件法を使う実施態様では、そのモデルは、語間統計的MTシステムで作成した語間アラインメント(word-to-word-alignment)から句間アラインメント(phase-to-phase-alignment)を学習することができる。
詳細な説明
本願が開示しているシステム及び方法を使用してより効率的でかつ正確な機械翻訳(MT)を提供できる。いくつかの実施態様で、本発明のMTシステムは句間の確率翻訳の辞書を作成できる。その確率翻訳の辞書は、例えば結合確率モデル又は語間条件モデルを使用して二言語コーパスから自動的に学習できる。
本願が開示しているシステム及び方法を使用してより効率的でかつ正確な機械翻訳(MT)を提供できる。いくつかの実施態様で、本発明のMTシステムは句間の確率翻訳の辞書を作成できる。その確率翻訳の辞書は、例えば結合確率モデル又は語間条件モデルを使用して二言語コーパスから自動的に学習できる。
次にこれらの翻訳辞書を使って新しい文を翻訳できる。すなわちその翻訳辞書を使って、MTシステムをトレーニングするために使用されるコーパスには含まれていない文を翻訳できる。翻訳を行うシステムと方法としては、グリーディー法又はビームスタックデコーダを使う方法などの方法がある。
図1は翻訳モデル105とデコーダ110を備えた機械翻訳(MT)システム100を示す。翻訳モデル105は、二言語コーパスから学習できる翻訳辞書を備えている。翻訳モデル105は、語レベル及び句レベルでも辞書の対応を確立できると仮定できる。デコーダ110は、翻訳辞書を使用して入力文に基づいた翻訳文を提供できる。
句間翻訳辞書の作成
いくつかの実施態様によれば、モデル105は結合確率モデルにしたがってトレーニングすることができる。すなわち、モデル105は、原始言語と目的言語の並列文字列を含む並列コーパス115を使って翻訳辞書を自動的に作成できる。モデル105は、原始文を目的文にマップできる方法を取り込もうとはしないが、原始文と目的文を同時に作成する。換言すれば、この翻訳モデルは、原始言語から目的言語へ及び目的言語から原始言語への機械翻訳の用途の両者に対する条件付確率モデルを与えるため容易にマージナライズ(marginalize)できる結合確率モデルである。
いくつかの実施態様によれば、モデル105は結合確率モデルにしたがってトレーニングすることができる。すなわち、モデル105は、原始言語と目的言語の並列文字列を含む並列コーパス115を使って翻訳辞書を自動的に作成できる。モデル105は、原始文を目的文にマップできる方法を取り込もうとはしないが、原始文と目的文を同時に作成する。換言すれば、この翻訳モデルは、原始言語から目的言語へ及び目的言語から原始言語への機械翻訳の用途の両者に対する条件付確率モデルを与えるため容易にマージナライズ(marginalize)できる結合確率モデルである。
一実施態様で、モデル105は下記の確率論的な過程を使って文の対を作成できる。
1.概念Cのバッグを生成する。
2.各概念ci∈Cに対して、一対の句
を、
と
が各々少なくとも一つの語を含んでいる分布
にしたがって生成する。
3.句の二つの線形シーケンスを作り出すため、各言語に作成された句を順序付ける。なおそのシーケンスは二言語コーパスの文の対と一致している。
1.概念Cのバッグを生成する。
2.各概念ci∈Cに対して、一対の句
3.句の二つの線形シーケンスを作り出すため、各言語に作成された句を順序付ける。なおそのシーケンスは二言語コーパスの文の対と一致している。
簡略化するため、概念のバッグ及び作成された句の順序付けを一様分布でモデル化する。また
と仮定される。これらの仮定に基づいて、概念ci∈Cを利用して文の対(E,F)を作成する確率は、文EとFを得るため線形に順序付けることができる句のバッグを生成する全句間翻訳確率の積
で与えられることになる。
図2は一実施例を示す。文の対“abc”――“xy”は二つの概念(“ab”:“y”)と(“c”:”x”)、又は一つの概念(“abc”:“xy”)を使用して作成することができる。というのは、両者の場合、各言語の句は原文の対を生成するシーケンスに配列できるからである。しかしながら、同じ文の対は概念(“ab”:“y”)と(“c”:”x”)を使用して作成できない。なぜならばシーケンス“xy”は二つの句“y”と“y”から再現できないからである。同様に、前記文の対は概念(“ac”:“x”)と(“b”:“y”)を使用して作成できる。というのはシーケンス“abc”は句“ac”と“b”を連結することによって作成できないからである。
EとFが、全概念ci∈Cの特徴である句
と
の順序を変えることによって得られる場合は、概念Cのセットを文の対(E,F)に線形化できる。我々はこの特性を述語L(E,F,C)を使って示す。すると、このモデルに基づけば、与えられた文の対(E,F)の確率は、(E,F)に線形化できる概念ci∈Cのバッグを作成する可能性のあるすべての方法を合計することによって得ることができる。
上記モデル(“モデル1”)はかなり良好なアラインメントを生成することが分かった。しかしながら、このモデルは、与えられた概念に関連する句の順序付けに対する制約が全く無いので、初めて見る文を翻訳するのに不適である。このことを説明するため、改良モデル(“モデル2”)を開発して歪を説明した。モデル2の生成ストーリーは以下のとおりである。
1.概念Cのバッグを作成する。
2.EとFを空シーケンスεに初期設定する。
3.概念ci∈Cを無作為に取り上げ、一対の句
を、
と
が少なくとも一つの語を含んでいる分布
にしたがって作成する。その後、Cからciを除く。
4.Fの末端に句
を付加する。kをF中の
の出発位置におく。
5.他の句が1及び
の位置を占めないならば、句
をEの1の位置に挿入する。ここで、
は句
の長さを示す。したがって、システムは、確率:
(式中、d(i,j)は位置ベースの歪分布である)で二つの句
と
の間にアラインメントを作成する。
6.Cが空になるまでステップ3−5を繰り返す。
1.概念Cのバッグを作成する。
2.EとFを空シーケンスεに初期設定する。
3.概念ci∈Cを無作為に取り上げ、一対の句
4.Fの末端に句
5.他の句が1及び
6.Cが空になるまでステップ3−5を繰り返す。
上記モデルをトレーニングする方法をコンピュータで行うのは大変である。文の対(E,F)を作成できるアラインメントの数は指数関数的な数なので、期待値最大化(EM)トレーニングアルゴリズムは完全には適用できない。図3は、上記問題を考慮している句ベースの結合確率モデルの訓練アルゴリズム300を説明するフローチャートである。
システムはEとF内の高頻度nグラム(n-gram)を決定する(ブロック305)。句
及び句
が概念ciから作成できると最初から仮定すると、
分布をモデル化するテーブルをメモリに記憶させるのにスーパーコンピューターが必要である。このシステムは、無制限のメモリのコンピュータにアクセスしないから、このシステムは、コーパス及びユニグラム(unigram)内に生ずることが多い句に対してのみt分布エントリーを最初に学習する。そして、平滑化によって、このシステムは、稀に存在する句に対してもt分布エントリーを学習する。前記アルゴリズムの次のステップで考慮されるためには、句はコーパス中に少なくとも5回存在しなくてはならない。
次のステップは、t分布テーブルを初期設定するステップである(ブロック310)。EMトレーニング手順が始まる前に、どの語/句の対が同じ意味を共有しているのかという考えは誰も持っていない。換言すれば、文の対(E,F)を作成できるすべてのアラインメントは同じ確率を有していると仮定できる。これらの条件下で、
が同じ概念ciで生成されるという事実に、文の対(E,F)が寄与している証拠は、文E中の句
及び文F中の句
に連結される概念ciを有する(E,F)間に組み立てることができるアラインメントの数を、これら二つの文の間に組み立てることができるアラインメントの全数で割り算することで与えられる。これらの数はいずれも容易に近似させることができる。
また、文Fのm個の語をk個の空でないセットに分割できるのはS(m,k)通りある。E中のどの語もF中のどれかの語にマップできるとした場合、長さがそれぞれlとmの二つの文(E,F)の間に組み立てることができる
のアラインメントがあることになる。概念ciが、長さがそれぞれaとbの二つの句
を作成すると、連結するために残される語はl−a個及びm−b個の語だけである。したがって、他の情報が無いとき、句
と
が同じ概念ciで作成される確率は下記式で与えられる。
上記式により返される分数値は、前記システムが関連するt分布の近似値だけであることに注目すべきである。なぜなら、第二種のスターリング数は、連続している与えられた概念と関連する語に何も強制しないからである。しかしながら、上記式は分子と分母を等しく過大評価するので、近似は実際はうまくいく。
アルゴリズムの第二ステップにおいて、このシステムは、コーパス内の各文の対(E,F)の句について定義されるデカルト積のすべてのユニグラムの対及び高頻度のnグラムの対に対する分数値を集めるために上記式を適用する。このシステムは、これらすべてのtカウントを合計し正規化して初期の結合分布tを得る。このステップは、コーパス内のすべての可能性のあるアラインメントにわたる1ステップに対するEMアルゴリズムを実行することになる。
アルゴリズムの第三ステップで、前記システムはビタビアラインメントに対しEMトレーニングを実施する(ブロック315)。一様でないt分布の場合、句間アラインメントは異なる重みを有していて、多項式時間で可能性があるすべてのアラインメントの分数値を集めるために適用できる秘訣は外にはない。図3に示すアルゴリズムのブロック315から始まって、コーパス中の各文の対に対し、このシステムは、高いt確率を有する概念を生成するため、句を連結することによって初期のアラインメントをグリーディに作成する。次に、このシステムは、概念を分断及び合体し、語を概念間で交換し、そして語に概念間を移動させることによって、最高の確率を有するビタビアラインメントの方にヒルクライムする。このシステムは、ヒルクライミングプロセス中にシステムが作成したすべてのアラインメントに関連する確率を計算し、次いでこれらアラインメントのすべての概念にわたってtカウントを収集する。
このシステムは、このビタビベースのEMトレーニング手順を数回繰り返して適用する。その最初の繰返しがモデル1を使う前記アラインメントの確率を推定する。残りの繰返しがモデル2を使う前記アラインメントの確率を推定する。
トレーニング中、このシステムは、平滑化法を適用して、非ゼロ値を、コーパス中に度々存在することはない句の対に連結できる。
トレーニング手順が終わったとき、システムは、結合確率分布tとdに限界を設ける(ブロック320)。こうして、システムがデコードするときに使用する条件付確率分布
及びd(posF|posE)が作成される。
このシステムが図2に示すコーパスに対し図3に示す訓練手順を実行するとき、モデル1を4回繰り返した後、このシステムはアラインメント205及び結合と条件付の確率分布210を得る。人間は生来、可能な最小の句の間にアラインメントを組み立てようとする傾向があるので、一見、第一の文の対に対するビタビアラインメントは間違っているように見える。しかしながら、我々のモデルによってなされる選択は全く適切な選択であることに注目すべきである。とりわけ、追加の情報が無いとき、そのモデルは、“a”と“y”が同じことを意味するか、又は句“abc”と“xy”が同じことを意味すると仮定できる。このモデルは第二の仮説により大きい重みを与える選択を行うが、第一の仮説にいくらかの確率の量を保存する。
結合分布は第二仮説が有利であるとしているが条件付分布はそうではないことにも留意すべきである。条件付分布210は、“a”を“y”と翻訳することのみならず“abc”を“xy”と翻訳することの両者が妥当であると我々に告げているという我々の直感と一致している。その条件付分布が我々の直感を反映している。
別の実施態様で、図1に示すシステム100のようなシステムは、語間のアラインメントから句間の翻訳を学習できる。すなわち、モデル105のようなモデルは、語間のモデルによって学習された語間の翻訳辞書を作成することによって句翻訳辞書をつくることができる。その句翻訳モデルはノイジーチャネルのモデルに基づいている。このシステムは、ベイズの規則を使って、外国語の文章fを英語の文章eに翻訳する翻訳確率を下記式:
argmaxep(e|f)=argmaxep(f|e)p(e)
に公式化しなおす。
argmaxep(e|f)=argmaxep(f|e)p(e)
に公式化しなおす。
この式は言語モデルp(e)及び別の翻訳モデルp(e|f)を考慮している。
英語の出力句の再順序付けは相対的歪の確率分布d(ai−bi−1)によってモデル化される。ここでaiはi番目の英語の句に翻訳された外国語の句の出発位置を示し、そしてbi−1はi−1番目の英語の句に翻訳された外国語の句の最後の位置を示す。
歪の確率分布d(・)は、先に述べた実施態様に関連して述べたような、結合確率モデルを使ってトレーニングできる。あるいは、システムは、適当な値のパラメータαを有するより単純な歪モデル
を使うこともできる。
出力の長さを校正するため、このシステムは、トリグラム(trigram)の言語モデルpLMに加えて、作成した英語の各語に対して因子ωを導入する。これは性能を最適化する簡単な手段である。通常、この因子は1より大でありより長い出力をバイアスさせる。
Giza++ツールキットが開発されたのは、並列コーパス由来の語ベースの翻訳モデルをトレーニングするためである。その副産物として、このキットは、このデータの語のアラインメントを作成する。このシステムは、このアラインメントをいくつかの発見的方法で改善することができる。このシステムは語のアラインメントに一致しているすべての整列された句の対を収集する。法律上の句の対の中の語は互いに整列しているだけで、外部の語に対して整列していない。句の対が集められると、システムは相対頻度で下記式で表される句翻訳の確率分布を推定する。
いくつかの実施態様では、平滑化を行うことができる。
このシステムが語のアラインメントと一致するすべての句の対を集めると、これは多くの非直感的な句を含んでいる。例えば、“house the”のような句の翻訳文は学習できる。このシステムは、直感的に、このような句が役に立たないと考える傾向がある。可能性のある句を構文上の動機がある句に限定すると、かような非直感的な対をフィルターして除くことができる。
構文上の句だけを含有する句翻訳モデルの性能を評価するための他の動機が、構文上の翻訳モデルを組み立てようとする最近の努力の結果から生まれている。これらのモデルでは、語の再順序付けは適格な構文解析ツリーの構成体の再順序付けに限定される。句の翻訳文を含むこのようなモデルを増大すると、一般に構文のサブツリー全体にまたがる句だけ翻訳が可能になる。これが役に立つ制限なのか又は有害な制限なのかを知ることが大切である。
このシステムは、構文上の句を、構文解析ツリー内の単一サブツリーでカバーされる語のシーケンスと定義する。我々は構文の句の対を以下のようにして収集する。このシステムは並列コーパスに先に述べたようにして語の整列を行う。次にこのシステムは、コーパスの両側を構文解析系で構文解析する。語のアラインメントと一致している句の対のすべてに対して、システムはさらに両方の句が構文解析ツリーのサブツリーなのかどうかをチェックする。これらの句だけがこのモデルに含まれている。したがって、構文上動機がある句の対であって学習される句の対は、構文の知識無しで学習される句の対のサブセットである。句の翻訳の確率分布は相対頻度によって推定できる。
図8は、異なる最大句長で行った実験の結果を示す。語のアラインメントと一致しているすべての句(AP)を使用した。図8に示すように、長さを1句当たり最大3語までに制限すると最高の性能が達成される。これ以上長い句を学習しても改善されない。しかしながら、その限度を2まで下げることは有害である。句をこれ以上長くすると、句の翻訳テーブルの大きさが大きくなる。この増大は最大長の限度とほとんど比例している。しかもこれらモデルの大きさのどれも、これまでメモリの問題を起こさなかった。
このシステムは、その語が互いにうまく翻訳されているかチェックすることによって句の翻訳対の品質を評価することができる。この場合、辞書の翻訳確率分布w(f|e)を使用できる。この分布は、下記のように句のモデルと同じ語のアラインメントから相対頻度によって推定できる。
特定の英語の空トークン(NULL token)を、英語の各文章に付加し次いで位置合わせされていない外国語の語各々に位置合わせすることができる。
図9は一実施例を示す。
パラメータλは字句の重みpwの強さを定義する。このパラメータの適当な値は約0.25である。
図10は、機械翻訳の性能に対する字句重み付けの影響を示す。我々の実験で、システムはBLEUの得点スケールで0.01まで改善した。
字句の重み付けを有する句の翻訳は、各語に対し1語のクラスを有するアラインメントテンプレートモデルの特殊ケースである。システムが実施する単純化には、字句の重みを予め句の翻訳テーブルに取り入れてデコーディングの速度を上げることができるという利点がある。前記アラインメントテンプレートモデルで使うビームサーチデコーダとは対照的に、図5と6で説明したデコーディング法は、デコードする前に入力文章の可能性のある句の区分のうちの一つを選ぶのではなくて入力文章の可能性のある句の区分のすべてをサーチできる。
この実験で、本発明のシステムはGiza++が作成した語のアラインメントから句の対を学習した。このツールキットが実行するIBM Modelは、せいぜい一つの英語の語を一つの外国語の語に位置合わせできるに過ぎない。本発明のシステムはこの問題を発見的方法で改善する。
第一に本発明のシステムは、並列コーパスを、双方向にすなわち外国語から英語に及び英語から外国語に位置合わせする。これはシステムが調和させようとする二つの語のアラインメントを与える。システムがこれら二つのアラインメントと交差すると、システムは信頼性の高いアラインメントポイントを有する高精度のアラインメントを得る。システムが前記二つのアラインメントを併合すると、システムは追加のアラインメントポイントを有する再現性の高いアラインメントを得る。
交差と併合の間のスペースは、交差で出発し次いで追加のアラインメントポイントを付加する拡張的な発見的方法である。どのポイントを付加するかの決定は、いくつかの基準によって決まる。例えば、潜在的なアラインメントポイントがどのアラインメントに存在しているか(外国語−英語又は英語−外国語),潜在的なポイントがすでに確定されたポイントに隣接しているのかどうか,“隣接している”の意味が、直接接触していることか(ブロック−ディスタンス)又は対角線方向に接触していることか,潜在的なポイントが接続している英語又は外国語の語がまだ位置合わせされていないかどうか、及び両者が位置合わせされていないとしたときは潜在的なポイントの字句確率。
システムは2つの語のアラインメントが交差することで始まる。システムは2つの語のアラインメントの併合体内に存在する新しいアラインメントポイントを付加するだけである。またシステムは、新しいアラインメントポイントがまだ位置合わせされていない少なくとも一つの語に接続することを常に要求する。
第一に、このシステムは、直接隣接するアラインメントポイントにのみ拡張する。このシステムは、アラインメントマトリックスの右上隅から始まる潜在的なポイントをチェックし、最初の英語の語に対するアラインメントポイントをチェックし、次いで第二の英語の語に対するアラインメントポイントのチェックなどを続ける。これは、それ以上のアラインメントポイントを付加できなくなるまで繰返し行われる。最終ステップで、システムは、外の点では同じ要件で、非隣接のアラインメントポイントを付加する。
図11は、この発見的方法(base)の性能を二つの一方向のアラインメント(e2f,f2)及びそれらの併合(union)と比較して示している。図11はベースの発見的方法の二つの改良例も含んでいる。すなわち第一の改良例(diag)では、システムは、反復拡張段階で対角線方向に隣接させている。これの変形(diag-and)で、システムは最終段階で、両方の語が位置合わせされていないことを要求する。
これら異なる方法のランキングは、異なるトレーニングコーパスの大きさに対して変化する。例えば、アラインメントf2eは、最悪から2番目である10,000個の文章対のコーパスから出発するが、最終的には320,000個の文章対の最良の方法と競合する。前記ベースの発見的方法は最初最良であるが、次いで徐々に低下する。最良の方法と最悪の方法の相違は、トレーニングコーパスのほとんどすべての大きさに対して非常に大きく約0.2BLEU(IBMの得点システム)であるが、必ずしも有意ではない。
デコーディング
いくつかの実施態様の句ベースのデコーダはビームサーチアルゴリズムを採用できる。その英語の入力は部分翻訳(又は仮説)の形態で左から右へ作成される。
いくつかの実施態様の句ベースのデコーダはビームサーチアルゴリズムを採用できる。その英語の入力は部分翻訳(又は仮説)の形態で左から右へ作成される。
このシステムは、外国語の入力語が全く翻訳されておらず英語の出力語が全く作成されていない初期状態で可能性がある翻訳のサーチを開始できる。いくつかのまだ翻訳されていない外国語の入力語をカバーする句の翻訳で英語の出力を拡大することによって、新状態をつくることができる。この新状態の現在のコストは、原状態のコストに、付加された句の翻訳における、翻訳と歪と言語モデルとのコストを掛け算したものである。
各サーチ空間(仮説)は、(a)以前の最良状態に対するバックリンク;(b)これまでにカバーされた外国語の語;(c)作成された最後の二つの英語の語(将来の言語モデルのコストを計算するのに必要);(d)カバーされた最後の外国語の句の末端(将来の歪のコストを計算するのに必要);(e)最後の付加された英語の句(仮説の経路から翻訳文を読み取るのに必要);(f)これまでのコスト;及び(g)将来のコストの見積によって表わされる。
上記サーチの最終の状態は、すべての外国語の語をカバーする仮説である。これら仮説の中でコストが最低の仮説が最良の翻訳として選択される。
二つの仮説は、それらが(a)これまでにカバーされた外国語の語、(b)作成された少なくとも二つの英語の語および(c)カバーされた最後の外国語の句の末端で一致している場合、併合することができる。
これらの特性で一致している二つの仮説に到達する二つの経路があるとき、システムは、より安価な仮説例えばこれまでの仮説のなかでコストの低いものを保持する。残った仮説は最良の翻訳への経路の一部になれないので、システムはその仮説を安全に捨てることができる。下位の仮説が第二の最良翻訳の一部になれることがあることに留意すべきである。
図5は、一実施態様の句ベースのデコーディング操作500を説明するフローチャートである。この操作を説明するアルゴリズムは図6に示してある。システムは初期の空の仮説で出発する。次に新しい仮説が、句を翻訳することによって既存の仮説から拡張される。未翻訳の外国語の語のシーケンスとそれらの可能性のある英語の句の翻訳を選択する(ブロック505)。その英語の句を既存の英語の出力シーケンスに連結する(ブロック510)。次に前記外国語の語に翻訳されたという印をつけ次いでその仮説の確率コストを更新する(ブロック515)。未翻訳の外国語の語を含まない最も安価な(最高の確率)最終仮説がサーチの出力である。(ブロック520)。
それらの仮説をスタックに記憶させる。そのスタックSmは、m個の外国語の語が翻訳されたすべての仮説を含んでいる。システムはサーチの仮説を再結合することができる。こうすると各スタックに記憶される仮説の数は幾分減少するが、スタックの大きさは入力文の長さに対して指数関数的になる。こうなると網羅的なサーチが実行できなくなる。
したがって、このシステムは、仮説のこれまでにかかったコストと将来のコストの推定値に基づいて弱い仮説を除く。システムは、各スタックに、最良のn個の仮説のビームだけを保持する。将来のコストの推定値は、正確でないのでサーチエラーをもたらす。我々の将来のコストの推定値は、句の翻訳の推定コストを考慮しているが予想される歪のコストを考慮していない。
文中に存在する可能性のある句の翻訳の各々(“翻訳オプション”と呼称されている)について、このシステムは、その句の翻訳の確率に、作成された英語の句に対する言語モデルの確率を掛け算する。言語モデルの確率として、システムは、第一の語に対しユニグラムの確率、第二の語にバイグラム(bigram)の確率及び続くすべての語に対しトリグラムの確率を使用できる。
前記翻訳オプションのコストが与えられると、システムは、連続する外国語の語のシーケンスの将来のコストの推定値を動的計画法で計算できる。システムは歪のコストを無視するので、上記のことは単に可能であるに過ぎないことに留意すべきである。長さnの外国語の入力文のかようなシーケンスはn(n+1)/2個存在しているに過ぎないので、システムはこれらのコストの推定値を予め計算してテーブルに記憶させることができる。
翻訳中、カバーされていない外国語の語の将来のコストは上記テーブルを調べることによって迅速に計算できる。仮説が未翻訳の外国語の語を中断した場合、システムは各シーケンスのコストを調べてそれらのコストの積を求める。
ビームサーチ中に作成された仮説の空間は、各々翻訳を示す経路の格子を形成し、その翻訳の翻訳得点は容易に計算できる。このような格子からn個の最良経路を取り出すことは十分に研究された問題である。
複数の新しい仮説を導出できる仮説に複数の翻訳オプションがあるとき、経路は分枝する。仮説が併合されると、経路は結合する。仮説がいくつもの同じ特性を有しコストがより小さい仮説と一致すると、このシステムは上記のようにその仮説を捨てることができる。併合経路の情報を保持するため、このシステムは、以前の仮説の識別子、よりコストの小さい仮説の識別子及び以前の仮説からよりコストの高い仮説までのコストを含むかような併合の記録を保持する。
図7は図に示すアークを作成する一実施例を示す。この場合、仮説2と4は、上記のように発見的サーチについては等しい。したがって仮説4は削除される。しかし、仮説3から2に至る経路に関する情報を保存するため、システムはこのアークの記録705を記憶する。このアークは、仮説3から4に付加されたコストも含んでいる。仮説1から仮説2に付加されたコストは、仮説のデータ構造体から再計算できるので記憶する必要がないことに注目すべきである。
ビームの大きさ、例えば各スタック内の仮説の最大数は、特定の数に固定できる。翻訳オプションの数は文の長さと直線の関係である。したがってビームサーチの時間複雑性は、文の長さと二次曲線の関係でありそしてビームの大きさと直線の関係である。
ビームの大きさはサーチ空間を限定するのでサーチの質を限定するから、システムは、速度(小さいビームの大きさ)と性能(大きいビームの大きさ)の間の適切なトレードオフを見つけなければならない。実験で、わずか100というビームの大きさで十分であることが分かった。ビームの大きさがこれより大きいと、ごく少数の文が異なって翻訳された。そのデコーダは、2GHzのLinux(登録商標)システムに約10分間で長さが5〜15語の文1755を翻訳した。このシステムは、高品質を保証しながら迅速にデコードした。
いくつかの実施態様で、図1に示すデコーダ100などのデコーダはグリーディな手順を実行する。外国語の文Fが与えられると、そのデコーダは第一に、E*すなわち確率p(E,F)の句を選ぶことによってその文の用語集を作成する。デコーダは次に式:p(E)p(F|E)を最大にするためE及びEとFの間のアラインメントを修正することによって繰返しヒルクライムする。デコーダは、与えられた時間までに組み立てられたアラインメント/翻訳を部分的に修正する一組の操作で既存のアラインメント/翻訳を修正することによってヒルクライムする。これらの操作は、アラインメントの英語の側を異なる確率の句で置換し、既存の概念を併合しそして中断し次に語を概念間で交換する。確率p(E)は単純なトリグラム言語モデルを使って計算できる。その言語モデルは語のレベルで(句のレベルではない)推定される。図3は、文
の翻訳文を見つけるためデコーダがとるステップを示す。図4に示す各中間翻訳文405に先行してその文の確率410が記載され続いて文を変えてより高い確率の翻訳文を生成する操作が記載されている。
いくつかの実施態様を説明してきたが、本発明の精神と範囲を逸脱することなく各種の変形を実施できると理解している。例えば、フローチャートのブロックは飛び越えたり又は順序を変えて実施ししかも望ましい結果をもたらすことができる。異なる翻訳法を使用できる。したがって他の実施態様は本願の請求項の範囲内にある。
Claims (2)
- 2言語の並列テキストセグメントを複数含む並列コーパスで、句ベースの結合確率モデルをトレーニングすることを含んでなる方法。
- 請求項1に記載の方法において、
EとFとからなる文の対の、高頻度のn−グラムを決定し、
t−分布テーブルを初期設定し、
ビタビベースの期待値最大化によるトレーニング手順を実行し、次いで
条件付確率モデルを導出する、
ことをさらに含んでいる方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US36845002P | 2002-03-27 | 2002-03-27 | |
PCT/US2003/009771 WO2003083710A2 (en) | 2002-03-27 | 2003-03-27 | Phrase- based joint probability model for statistical machine translation |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005521952A true JP2005521952A (ja) | 2005-07-21 |
Family
ID=28675493
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003581064A Pending JP2005521952A (ja) | 2002-03-27 | 2003-03-27 | 統計的機械翻訳用の句間結合確率モデル |
Country Status (11)
Country | Link |
---|---|
US (1) | US7454326B2 (ja) |
EP (1) | EP1488338B1 (ja) |
JP (1) | JP2005521952A (ja) |
CN (1) | CN1643512A (ja) |
AT (1) | ATE465457T1 (ja) |
AU (1) | AU2003220606A1 (ja) |
CA (1) | CA2480398C (ja) |
DE (1) | DE60332220D1 (ja) |
ES (1) | ES2343786T3 (ja) |
HK (1) | HK1072987A1 (ja) |
WO (1) | WO2003083710A2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8859202B2 (en) | 2012-01-20 | 2014-10-14 | The Ohio State University | Breast cancer biomarker signatures for invasiveness and prognosis |
US8916533B2 (en) | 2009-11-23 | 2014-12-23 | The Ohio State University | Materials and methods useful for affecting tumor cell growth, migration and invasion |
Families Citing this family (174)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060116865A1 (en) | 1999-09-17 | 2006-06-01 | Www.Uniscape.Com | E-services translation utilizing machine translation and translation memory |
US7904595B2 (en) | 2001-01-18 | 2011-03-08 | Sdl International America Incorporated | Globalization management system and method therefor |
US7177792B2 (en) * | 2001-05-31 | 2007-02-13 | University Of Southern California | Integer programming decoder for machine translation |
US8214196B2 (en) * | 2001-07-03 | 2012-07-03 | University Of Southern California | Syntax-based statistical translation model |
AU2003269808A1 (en) | 2002-03-26 | 2004-01-06 | University Of Southern California | Constructing a translation lexicon from comparable, non-parallel corpora |
US7318022B2 (en) * | 2003-06-12 | 2008-01-08 | Microsoft Corporation | Method and apparatus for training a translation disambiguation classifier |
US7711545B2 (en) * | 2003-07-02 | 2010-05-04 | Language Weaver, Inc. | Empirical methods for splitting compound words with application to machine translation |
US8548794B2 (en) | 2003-07-02 | 2013-10-01 | University Of Southern California | Statistical noun phrase translation |
US7587307B2 (en) * | 2003-12-18 | 2009-09-08 | Xerox Corporation | Method and apparatus for evaluating machine translation quality |
US7983896B2 (en) | 2004-03-05 | 2011-07-19 | SDL Language Technology | In-context exact (ICE) matching |
US7698125B2 (en) * | 2004-03-15 | 2010-04-13 | Language Weaver, Inc. | Training tree transducers for probabilistic operations |
US8296127B2 (en) * | 2004-03-23 | 2012-10-23 | University Of Southern California | Discovery of parallel text portions in comparable collections of corpora and training using comparable texts |
US8666725B2 (en) | 2004-04-16 | 2014-03-04 | University Of Southern California | Selection and use of nonstatistical translation components in a statistical machine translation framework |
US7409332B2 (en) * | 2004-07-14 | 2008-08-05 | Microsoft Corporation | Method and apparatus for initializing iterative training of translation probabilities |
US8600728B2 (en) * | 2004-10-12 | 2013-12-03 | University Of Southern California | Training for a text-to-text application which uses string to tree conversion for training and decoding |
US8676563B2 (en) | 2009-10-01 | 2014-03-18 | Language Weaver, Inc. | Providing human-generated and machine-generated trusted translations |
US8886517B2 (en) | 2005-06-17 | 2014-11-11 | Language Weaver, Inc. | Trust scoring for language translation systems |
EP1894125A4 (en) * | 2005-06-17 | 2015-12-02 | Nat Res Council Canada | MEANS AND METHOD FOR ADAPTED LANGUAGE TRANSLATION |
US7974833B2 (en) | 2005-06-21 | 2011-07-05 | Language Weaver, Inc. | Weighted system of expressing language information using a compact notation |
US20070010989A1 (en) * | 2005-07-07 | 2007-01-11 | International Business Machines Corporation | Decoding procedure for statistical machine translation |
US7389222B1 (en) | 2005-08-02 | 2008-06-17 | Language Weaver, Inc. | Task parallelization in a text-to-text system |
US7813918B2 (en) * | 2005-08-03 | 2010-10-12 | Language Weaver, Inc. | Identifying documents which form translated pairs, within a document collection |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7624020B2 (en) * | 2005-09-09 | 2009-11-24 | Language Weaver, Inc. | Adapter for allowing both online and offline training of a text to text system |
US10319252B2 (en) | 2005-11-09 | 2019-06-11 | Sdl Inc. | Language capability assessment and training apparatus and techniques |
US7536295B2 (en) * | 2005-12-22 | 2009-05-19 | Xerox Corporation | Machine translation using non-contiguous fragments of text |
US8943080B2 (en) | 2006-04-07 | 2015-01-27 | University Of Southern California | Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections |
US7542893B2 (en) * | 2006-05-10 | 2009-06-02 | Xerox Corporation | Machine translation using elastic chunks |
US9020804B2 (en) | 2006-05-10 | 2015-04-28 | Xerox Corporation | Method for aligning sentences at the word level enforcing selective contiguity constraints |
US7725306B2 (en) * | 2006-06-28 | 2010-05-25 | Microsoft Corporation | Efficient phrase pair extraction from bilingual word alignments |
US8886518B1 (en) | 2006-08-07 | 2014-11-11 | Language Weaver, Inc. | System and method for capitalizing machine translated text |
CA2661535A1 (en) * | 2006-08-18 | 2008-02-21 | National Research Council Of Canada | Means and method for training a statistical machine translation system |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8433556B2 (en) | 2006-11-02 | 2013-04-30 | University Of Southern California | Semi-supervised training for statistical word alignment |
US20080120092A1 (en) * | 2006-11-20 | 2008-05-22 | Microsoft Corporation | Phrase pair extraction for statistical machine translation |
US9122674B1 (en) | 2006-12-15 | 2015-09-01 | Language Weaver, Inc. | Use of annotations in statistical machine translation |
US8468149B1 (en) | 2007-01-26 | 2013-06-18 | Language Weaver, Inc. | Multi-lingual online community |
US8788258B1 (en) | 2007-03-15 | 2014-07-22 | At&T Intellectual Property Ii, L.P. | Machine translation using global lexical selection and sentence reconstruction |
US8615389B1 (en) | 2007-03-16 | 2013-12-24 | Language Weaver, Inc. | Generation and exploitation of an approximate language model |
US8185375B1 (en) * | 2007-03-26 | 2012-05-22 | Google Inc. | Word alignment with bridge languages |
US8831928B2 (en) | 2007-04-04 | 2014-09-09 | Language Weaver, Inc. | Customizable machine translation service |
TWI386822B (zh) * | 2007-09-05 | 2013-02-21 | Shing Lung Chen | 建置多語翻譯資料庫內容之方法 |
CN100527125C (zh) * | 2007-05-29 | 2009-08-12 | 中国科学院计算技术研究所 | 一种统计机器翻译中的在线翻译模型选择方法和系统 |
US9779079B2 (en) * | 2007-06-01 | 2017-10-03 | Xerox Corporation | Authoring system |
US8825466B1 (en) | 2007-06-08 | 2014-09-02 | Language Weaver, Inc. | Modification of annotated bilingual segment pairs in syntax-based machine translation |
US7983898B2 (en) * | 2007-06-08 | 2011-07-19 | Microsoft Corporation | Generating a phrase translation model by iteratively estimating phrase translation probabilities |
US8180624B2 (en) * | 2007-09-05 | 2012-05-15 | Microsoft Corporation | Fast beam-search decoding for phrasal statistical machine translation |
US8046211B2 (en) | 2007-10-23 | 2011-10-25 | Microsoft Corporation | Technologies for statistical machine translation based on generated reordering knowledge |
US8060360B2 (en) * | 2007-10-30 | 2011-11-15 | Microsoft Corporation | Word-dependent transition models in HMM based word alignment for statistical machine translation |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US8504354B2 (en) * | 2008-06-02 | 2013-08-06 | Microsoft Corporation | Parallel fragment extraction from noisy parallel corpora |
US8150677B2 (en) * | 2008-06-26 | 2012-04-03 | Microsoft Corporation | Machine translation using language order templates |
US20090326916A1 (en) * | 2008-06-27 | 2009-12-31 | Microsoft Corporation | Unsupervised chinese word segmentation for statistical machine translation |
US20100017293A1 (en) * | 2008-07-17 | 2010-01-21 | Language Weaver, Inc. | System, method, and computer program for providing multilingual text advertisments |
US8407042B2 (en) | 2008-12-09 | 2013-03-26 | Xerox Corporation | Cross language tool for question answering |
US8768852B2 (en) | 2009-01-13 | 2014-07-01 | Amazon Technologies, Inc. | Determining phrases related to other phrases |
US8423349B1 (en) | 2009-01-13 | 2013-04-16 | Amazon Technologies, Inc. | Filtering phrases for an identifier |
US8706644B1 (en) | 2009-01-13 | 2014-04-22 | Amazon Technologies, Inc. | Mining phrases for association with a user |
US8706643B1 (en) | 2009-01-13 | 2014-04-22 | Amazon Technologies, Inc. | Generating and suggesting phrases |
US9569770B1 (en) | 2009-01-13 | 2017-02-14 | Amazon Technologies, Inc. | Generating constructed phrases |
US20100228538A1 (en) * | 2009-03-03 | 2010-09-09 | Yamada John A | Computational linguistic systems and methods |
US8280718B2 (en) * | 2009-03-16 | 2012-10-02 | Xerox Corporation | Method to preserve the place of parentheses and tags in statistical machine translation systems |
US8326599B2 (en) * | 2009-04-21 | 2012-12-04 | Xerox Corporation | Bi-phrase filtering for statistical machine translation |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8990064B2 (en) | 2009-07-28 | 2015-03-24 | Language Weaver, Inc. | Translating documents based on content |
US9298700B1 (en) | 2009-07-28 | 2016-03-29 | Amazon Technologies, Inc. | Determining similar phrases |
US10007712B1 (en) | 2009-08-20 | 2018-06-26 | Amazon Technologies, Inc. | Enforcing user-specified rules |
US8380486B2 (en) | 2009-10-01 | 2013-02-19 | Language Weaver, Inc. | Providing machine-generated translations and corresponding trust levels |
JP5407737B2 (ja) * | 2009-10-16 | 2014-02-05 | 富士通セミコンダクター株式会社 | モデル生成プログラム、モデル生成装置、およびモデル生成方法 |
US8229929B2 (en) | 2010-01-06 | 2012-07-24 | International Business Machines Corporation | Cross-domain clusterability evaluation for cross-guided data clustering based on alignment between data domains |
US8589396B2 (en) * | 2010-01-06 | 2013-11-19 | International Business Machines Corporation | Cross-guided data clustering based on alignment between data domains |
US8548796B2 (en) * | 2010-01-20 | 2013-10-01 | Xerox Corporation | Statistical machine translation system and method for translation of text into languages which produce closed compound words |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8799658B1 (en) | 2010-03-02 | 2014-08-05 | Amazon Technologies, Inc. | Sharing media items with pass phrases |
US10417646B2 (en) | 2010-03-09 | 2019-09-17 | Sdl Inc. | Predicting the cost associated with translating textual content |
US9552355B2 (en) | 2010-05-20 | 2017-01-24 | Xerox Corporation | Dynamic bi-phrases for statistical machine translation |
US8612205B2 (en) | 2010-06-14 | 2013-12-17 | Xerox Corporation | Word alignment method and system for improved vocabulary coverage in statistical machine translation |
US20120035905A1 (en) | 2010-08-09 | 2012-02-09 | Xerox Corporation | System and method for handling multiple languages in text |
US8775155B2 (en) | 2010-10-25 | 2014-07-08 | Xerox Corporation | Machine translation using overlapping biphrase alignments and sampling |
KR101762866B1 (ko) * | 2010-11-05 | 2017-08-16 | 에스케이플래닛 주식회사 | 구문 구조 변환 모델과 어휘 변환 모델을 결합한 기계 번역 장치 및 기계 번역 방법 |
US20120158398A1 (en) * | 2010-12-17 | 2012-06-21 | John Denero | Combining Model-Based Aligner Using Dual Decomposition |
US10657540B2 (en) | 2011-01-29 | 2020-05-19 | Sdl Netherlands B.V. | Systems, methods, and media for web content management |
US9547626B2 (en) | 2011-01-29 | 2017-01-17 | Sdl Plc | Systems, methods, and media for managing ambient adaptability of web applications and web services |
US10580015B2 (en) | 2011-02-25 | 2020-03-03 | Sdl Netherlands B.V. | Systems, methods, and media for executing and optimizing online marketing initiatives |
US10140320B2 (en) | 2011-02-28 | 2018-11-27 | Sdl Inc. | Systems, methods, and media for generating analytical data |
US8612204B1 (en) * | 2011-03-30 | 2013-12-17 | Google Inc. | Techniques for reordering words of sentences for improved translation between languages |
US11003838B2 (en) | 2011-04-18 | 2021-05-11 | Sdl Inc. | Systems and methods for monitoring post translation editing |
US8798984B2 (en) | 2011-04-27 | 2014-08-05 | Xerox Corporation | Method and system for confidence-weighted learning of factored discriminative language models |
US20120303352A1 (en) * | 2011-05-24 | 2012-11-29 | The Boeing Company | Method and apparatus for assessing a translation |
US8694303B2 (en) | 2011-06-15 | 2014-04-08 | Language Weaver, Inc. | Systems and methods for tuning parameters in statistical machine translation |
US8713037B2 (en) * | 2011-06-30 | 2014-04-29 | Xerox Corporation | Translation system adapted for query translation via a reranking framework |
US8781810B2 (en) | 2011-07-25 | 2014-07-15 | Xerox Corporation | System and method for productive generation of compound words in statistical machine translation |
US9984054B2 (en) | 2011-08-24 | 2018-05-29 | Sdl Inc. | Web interface including the review and manipulation of a web document and utilizing permission based control |
US8886515B2 (en) | 2011-10-19 | 2014-11-11 | Language Weaver, Inc. | Systems and methods for enhancing machine translation post edit review processes |
US8903707B2 (en) | 2012-01-12 | 2014-12-02 | International Business Machines Corporation | Predicting pronouns of dropped pronoun style languages for natural language translation |
US9465797B2 (en) | 2012-02-23 | 2016-10-11 | Google Inc. | Translating text using a bridge language |
US8942973B2 (en) | 2012-03-09 | 2015-01-27 | Language Weaver, Inc. | Content page URL translation |
US9773270B2 (en) | 2012-05-11 | 2017-09-26 | Fredhopper B.V. | Method and system for recommending products based on a ranking cocktail |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US8543563B1 (en) | 2012-05-24 | 2013-09-24 | Xerox Corporation | Domain adaptation for query translation |
US10261994B2 (en) | 2012-05-25 | 2019-04-16 | Sdl Inc. | Method and system for automatic management of reputation of translators |
US20130325436A1 (en) * | 2012-05-29 | 2013-12-05 | Wright State University | Large Scale Distributed Syntactic, Semantic and Lexical Language Models |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9026425B2 (en) | 2012-08-28 | 2015-05-05 | Xerox Corporation | Lexical and phrasal feature domain adaptation in statistical machine translation |
US11308528B2 (en) | 2012-09-14 | 2022-04-19 | Sdl Netherlands B.V. | Blueprinting of multimedia assets |
US10452740B2 (en) | 2012-09-14 | 2019-10-22 | Sdl Netherlands B.V. | External content libraries |
US11386186B2 (en) | 2012-09-14 | 2022-07-12 | Sdl Netherlands B.V. | External content library connector systems and methods |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US9916306B2 (en) | 2012-10-19 | 2018-03-13 | Sdl Inc. | Statistical linguistic analysis of source content |
US9152622B2 (en) | 2012-11-26 | 2015-10-06 | Language Weaver, Inc. | Personalized machine translation via online adaptation |
US9235567B2 (en) | 2013-01-14 | 2016-01-12 | Xerox Corporation | Multi-domain machine translation model adaptation |
US9047274B2 (en) | 2013-01-21 | 2015-06-02 | Xerox Corporation | Machine translation-driven authoring system and method |
US9786269B2 (en) | 2013-03-14 | 2017-10-10 | Google Inc. | Language modeling of complete language sequences |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US10025778B2 (en) | 2013-06-09 | 2018-07-17 | Microsoft Technology Licensing, Llc | Training markov random field-based translation models using gradient ascent |
US9213694B2 (en) | 2013-10-10 | 2015-12-15 | Language Weaver, Inc. | Efficient online domain adaptation |
US9652453B2 (en) | 2014-04-14 | 2017-05-16 | Xerox Corporation | Estimation of parameters for machine translation without in-domain parallel data |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9785630B2 (en) * | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9606988B2 (en) | 2014-11-04 | 2017-03-28 | Xerox Corporation | Predicting the quality of automatic translation of an entire document |
US9367541B1 (en) | 2015-01-20 | 2016-06-14 | Xerox Corporation | Terminological adaptation of statistical machine translation system through automatic generation of phrasal contexts for bilingual terms |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10025779B2 (en) | 2015-08-13 | 2018-07-17 | Xerox Corporation | System and method for predicting an optimal machine translation system for a user based on an updated user profile |
CN106484682B (zh) | 2015-08-25 | 2019-06-25 | 阿里巴巴集团控股有限公司 | 基于统计的机器翻译方法、装置及电子设备 |
CN106484681B (zh) | 2015-08-25 | 2019-07-09 | 阿里巴巴集团控股有限公司 | 一种生成候选译文的方法、装置及电子设备 |
US9836453B2 (en) | 2015-08-27 | 2017-12-05 | Conduent Business Services, Llc | Document-specific gazetteers for named entity recognition |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10614167B2 (en) | 2015-10-30 | 2020-04-07 | Sdl Plc | Translation review workflow systems and methods |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
WO2018047436A1 (ja) * | 2016-09-09 | 2018-03-15 | パナソニックIpマネジメント株式会社 | 翻訳装置及び翻訳方法 |
CN107818086B (zh) * | 2016-09-13 | 2021-08-10 | 株式会社东芝 | 机器翻译方法和装置 |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
CN110720104B (zh) * | 2017-10-09 | 2021-11-19 | 华为技术有限公司 | 一种语音信息处理方法、装置及终端 |
US10635863B2 (en) | 2017-10-30 | 2020-04-28 | Sdl Inc. | Fragment recall and adaptive automated translation |
US10817676B2 (en) | 2017-12-27 | 2020-10-27 | Sdl Inc. | Intelligent routing services and systems |
US10747962B1 (en) | 2018-03-12 | 2020-08-18 | Amazon Technologies, Inc. | Artificial intelligence system using phrase tables to evaluate and improve neural network based machine translation |
JP7247460B2 (ja) * | 2018-03-13 | 2023-03-29 | 富士通株式会社 | 対応関係生成プログラム、対応関係生成装置、対応関係生成方法、及び翻訳プログラム |
US11107463B2 (en) * | 2018-08-01 | 2021-08-31 | Google Llc | Minimum word error rate training for attention-based sequence-to-sequence models |
US11256867B2 (en) | 2018-10-09 | 2022-02-22 | Sdl Inc. | Systems and methods of machine learning for digital assets and message creation |
CN111626064B (zh) * | 2019-02-26 | 2024-04-30 | 株式会社理光 | 神经机器翻译模型的训练方法、装置及存储介质 |
CN116933802A (zh) * | 2023-09-15 | 2023-10-24 | 山东信息职业技术学院 | 基于人工智能的自动翻译管理方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2279164A (en) * | 1993-06-18 | 1994-12-21 | Canon Res Ct Europe Ltd | Processing a bilingual database. |
DE69837979T2 (de) * | 1997-06-27 | 2008-03-06 | International Business Machines Corp. | System zum Extrahieren einer mehrsprachigen Terminologie |
JPH11143877A (ja) * | 1997-10-22 | 1999-05-28 | Internatl Business Mach Corp <Ibm> | 圧縮方法、辞書の見出し語インデックス・データを圧縮するための方法、及び機械翻訳システム |
-
2003
- 2003-03-27 CN CNA038070189A patent/CN1643512A/zh active Pending
- 2003-03-27 JP JP2003581064A patent/JP2005521952A/ja active Pending
- 2003-03-27 DE DE60332220T patent/DE60332220D1/de not_active Expired - Lifetime
- 2003-03-27 AT AT03716920T patent/ATE465457T1/de not_active IP Right Cessation
- 2003-03-27 ES ES03716920T patent/ES2343786T3/es not_active Expired - Lifetime
- 2003-03-27 US US10/402,350 patent/US7454326B2/en active Active
- 2003-03-27 CA CA2480398A patent/CA2480398C/en not_active Expired - Lifetime
- 2003-03-27 WO PCT/US2003/009771 patent/WO2003083710A2/en active Application Filing
- 2003-03-27 AU AU2003220606A patent/AU2003220606A1/en not_active Abandoned
- 2003-03-27 EP EP03716920A patent/EP1488338B1/en not_active Expired - Lifetime
-
2005
- 2005-05-24 HK HK05104337.9A patent/HK1072987A1/xx not_active IP Right Cessation
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8916533B2 (en) | 2009-11-23 | 2014-12-23 | The Ohio State University | Materials and methods useful for affecting tumor cell growth, migration and invasion |
US8859202B2 (en) | 2012-01-20 | 2014-10-14 | The Ohio State University | Breast cancer biomarker signatures for invasiveness and prognosis |
Also Published As
Publication number | Publication date |
---|---|
ES2343786T3 (es) | 2010-08-10 |
CA2480398C (en) | 2011-06-14 |
AU2003220606A8 (en) | 2003-10-13 |
EP1488338B1 (en) | 2010-04-21 |
US7454326B2 (en) | 2008-11-18 |
AU2003220606A1 (en) | 2003-10-13 |
EP1488338A2 (en) | 2004-12-22 |
CN1643512A (zh) | 2005-07-20 |
CA2480398A1 (en) | 2003-10-09 |
HK1072987A1 (en) | 2005-09-16 |
WO2003083710A2 (en) | 2003-10-09 |
ATE465457T1 (de) | 2010-05-15 |
DE60332220D1 (de) | 2010-06-02 |
US20040030551A1 (en) | 2004-02-12 |
WO2003083710A3 (en) | 2004-08-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2005521952A (ja) | 統計的機械翻訳用の句間結合確率モデル | |
Chen | Building probabilistic models for natural language | |
US7536295B2 (en) | Machine translation using non-contiguous fragments of text | |
Och et al. | An efficient A* search algorithm for statistical machine translation | |
JP4945086B2 (ja) | 論理形式のための統計的言語モデル | |
Cherry et al. | A probability model to improve word alignment | |
US7797148B2 (en) | Systems and methods for fast and memory efficient machine translation using statistical integrated phase lattice | |
KR101084786B1 (ko) | 트리 서열화 컴포넌트를 저장하는 컴퓨터 판독가능 기록매체 | |
US7533013B2 (en) | Machine translation techniques | |
JP5484317B2 (ja) | 機械翻訳における大規模言語モデル | |
Garg et al. | Machine translation: a literature review | |
US20130325436A1 (en) | Large Scale Distributed Syntactic, Semantic and Lexical Language Models | |
US20060031061A1 (en) | Performing machine translation using a unified language model and translation model | |
US20050234705A1 (en) | Statistically driven sentence realizing method and apparatus | |
JP5586817B2 (ja) | ツリーレット翻訳対の抽出 | |
Watanabe et al. | Left-to-right target generation for hierarchical phrase-based translation | |
US20100235162A1 (en) | Method to preserve the place of parentheses and tags in statistical machine translation systems | |
Srinivas et al. | An approach to robust partial parsing and evaluation metrics | |
JP2009075795A (ja) | 機械翻訳装置、機械翻訳方法、及びプログラム | |
JP4113204B2 (ja) | 機械翻訳装置、その方法およびプログラム | |
Wang et al. | Structure alignment using bilingual chunking | |
Costa-jussà | An overview of the phrase-based statistical machine translation techniques | |
JP2006024114A (ja) | 機械翻訳装置および機械翻訳コンピュータプログラム | |
Garcia-Varea et al. | Maximum Entropy Modeling: A Suitable Framework to Learn Context-Dependent Lexicon Models for Statistical Machine Translation: Basic Instructions | |
Huang et al. | An EM algorithm for SCFG in formal syntax-based translation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060829 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20061124 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20061204 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070424 |