JP5774751B2 - ツリーレット翻訳対の抽出 - Google Patents

ツリーレット翻訳対の抽出 Download PDF

Info

Publication number
JP5774751B2
JP5774751B2 JP2014102432A JP2014102432A JP5774751B2 JP 5774751 B2 JP5774751 B2 JP 5774751B2 JP 2014102432 A JP2014102432 A JP 2014102432A JP 2014102432 A JP2014102432 A JP 2014102432A JP 5774751 B2 JP5774751 B2 JP 5774751B2
Authority
JP
Japan
Prior art keywords
target language
dependency
language
word
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014102432A
Other languages
English (en)
Other versions
JP2014142975A (ja
Inventor
エー.メネゼス アルル
エー.メネゼス アルル
ビー.クワーク クリストファー
ビー.クワーク クリストファー
エー.チェリー コリン
エー.チェリー コリン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2014142975A publication Critical patent/JP2014142975A/ja
Application granted granted Critical
Publication of JP5774751B2 publication Critical patent/JP5774751B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language

Description

本発明は、機械翻訳に関する。より詳細には、本発明は、構文の依存関係のツリーレット(treelet)を使用する機械翻訳システムに関する。
機械翻訳は、原言語(source language)の入力テキスト断片(input text fragment)を受け取り、コンピューティングデバイスの使用を通じて目標言語(target language)の対応するテキスト断片(text fragment)に自動的に変換する(translating)プロセスを伴う。機械翻訳は、通例、2つの異なる手法の1つを使用して試みられてきた。第1の手法は、知識工学に基づく手法であり、通例は、言語パーサと人手で作られた変換規則を使用する。商業的な翻訳システム(Systranなど)は、ほぼすべてがこのタイプである。第2の手法は、コーパスに動機付けられた手法であり、通例は、用例に基づく機械翻訳(EBMT)または統計的機械翻訳(SMT)のいずれかである。しかし、現在の研究ではSMTの方が有望であるように考えられ、そのため、この論考では、EBMTではなく、主にSMTに的を当てる。通例、変換に基づくシステムは、パーサを使用して言語情報を取り込むが、SMTシステムは、これを行わない。両方の手法には、長所と短所がある。
Vogel et al. THE CMU STATISTICAL MACHINE TRANSLATION SYSTEM, Proceedings of the MT Summit, (2003) Och et al., A SMORGASBORD OF FEATURES FOR STATISTICAL MACHINE TRANSLATION, Proceedings of the Joint HLT/NAACL Conference (2004) Wu, STOCHASTIC INVERSION INDUCTION GRAMMARS AND BILINGUAL PARSING OF PARALLEL CORPORA, Computational Linguistics, 23 (3): 377-403 (1997) Wu and Wong, MACHINE TRANSLATION WITH A STOCHASTIC GRAMMATICAL CHANNEL, Proceedings of the ACL (1998) Zens and Ney, A COMPARATIVE STUDY ON REORDERING CONSTRAINTS AND STATISTICAL MACHINE TRANSLATION, Proceedings of the ACL (2003) Zens et al., REORDERING CONSTRAINTS FOR PHRASE-BASED STATISTICAL MACHINE TRANSLATION, Proceedings of COLING (2004) Melamed and Wang, STATISTICAL MACHINE TRANSLATION BY PARSING, Technical Report 04-024 Proteus Project (2004) Alashawi, et al., LEARNING DEPENDENCY TRANSLATION MODELS AS COLLECTIONS OF FINITE-STAT HEAD TRANSDUCERS, Computational Linguistics, 26 (1): 45-60 (2000) Ding and Palmer, SYNCHRONOUS DEPENDENCY INSERTION GRAMMARS: A GRAMMAR FORMALISM FOR SYNTAX BASED STATISTICAL MT, in COLLING 2004: Workshop on Recent Advances in Dependency Grammars (2004) Yamada and Knight, A SYNTAX-BASED STATISTICAL TRANSLATION MODEL, Proceedings of the ACL (2001) Lin, A PATH-BASED TRANSFER MODEL FOR MACHINE TRANSLATION, Proceedings of COLLING (2004) Och et al., AN EFFICIENT A * SEARCH ALGORITHM FOR STATISTICAL MACHINE TRANSLATION, in ACL 2001: Data-Driven Machine Translation Workshop, Toulouse France, pp. 55-62 (July 2001) Och, MINIMUM ERROR RATE TRAINING AND STATISTICAL MACHINE TRANSLATION, in Proceedings of the ACL (2003)
SMTシステムは、領域固有の術語と固定されたフレーズの翻訳を学習することにおいては良好に機能するが、単純な文法の一般化を捉えることには優れず、変換プロセス中にしばしば混乱が生じる。それに対し、変換に基づくシステムは、文法的に正しく、滑らかな翻訳(fluent translations)を生成することにはうまく行くことが多いが、開発するのに非常に時間がかかる。また、変換に基づくシステムは、ちょうどSMTが成功する分野、すなわち領域の固有性でうまくいかないことが多い。
これら2つのタイプの機械翻訳システムの様々な側面を組み合わせて1つの混合型のシステムにする試みもなされている。しかし、そうした試みは、なお不利点がある。ここで、SMTの現在の技術水準と、構文とSMTを組み合わせる従来技術の試みを簡単に概観したい。
統計的機械翻訳は、当初は、翻訳を、1つの単語に1回行われる独立した翻訳の決定の連続としてモデル化することを試みた。しかし、この問題の計算上の複雑性そのものが克服するのが難しい障害であり、単語間の統計モデルで局所的な文脈を捉えることは難しいことが分かった。そのため、結果的に作成されたシステムは、しばしばかなり低速で、中程度の品質の翻訳しか生成しなかった。しかし、最近では、統計に基づく機械翻訳は、フレーズ翻訳を行う諸技術の導入により新たな有望性を示している。フレーズ単位の統計的機械翻訳は、1つ1つの単語の翻訳を独立してモデル化することを試みる代わりに、単語のかたまりがどのようにともに変換されるかをモデル化することを試みる。これは、外国語学習の重要な直感的洞察、すなわち短い成句と一般的なフレーズは、滑らかさと忠実性両方のために特異性があると同時に重要であるという洞察を取り込む。
現在のフレーズ単位の統計的機械翻訳システムは、概念的には単純である。単語の並置から開始し、すべての連続する原単語と目標単語(表層文字列で連続している)が、可能なフレーズ翻訳の対または並置のテンプレートとして集められる。それらの対を集めて、1つの変換リポジトリを作る。そして、Vogel et al. THE CMU STATISTICAL MACHINE TRANSLATION SYSTEM, Proceedings of the MT Summit, (2003)(非特許文献1)に記載のものなどの最大尤度推定モデルを使用することにより、翻訳の確率を異なる各対に関連付ける。他の確率モデルも使用することができる。Vogel(非特許文献1)に記載される特定の翻訳モデルは、少なくとも目標言語モデルと組み合わせて使用されて、従来のようなノイズのあるチャンネルモデルを形成する。単純な検索によって最もスコアの高い翻訳が見つけられる。すなわち、モノトーンデコーダが、原言語のフレーズの順序が保たれているものと想定し、ビタビ復号を使用して、変換格子(translation lattice)を通る最良のパスを見つける。一部のシステムでは、少量のフレーズの並び替えが許可され、その場合は、フレーズの移動は、オフセットの点から見てモデル化される。
このタイプのシステムは、並び替えが許されない他のタイプのシステムを上回る改良であるが、このタイプのシステムで使用される並び替えのモデルは、言語学的一般化の点からは制限がある。例えば、英語を日本語に翻訳する場合は、英語の主語−動詞−目的語の節が、一般には日本語の主語−目的語−動詞の節になり、英語の後置修飾の前置詞句が日本語では前置修飾の前置詞句になる。上記のフレーズの並べ替えモデルは、英語とフランス語の場合より、英語と日本語の場合に並び替えが一般的であることは学習するかもしれないが、目的語が動詞の前に移動する可能性があるのに対して、主語は恐らく元の位置のままとなることは学習せず、また、前置詞句/後置詞句の移動に関する一般化もまったく学習しない。代わりに、従来技術によるフレーズに基づくデコーダは、機械的に記憶されたフレーズと、滑らかさを目指す目標言語モデルの偏りに支配されて動作し、必ずしも正確さに支配されて動作するのではない。
また、上述のように、従来技術のフレーズ統計機械翻訳システムは、現在は、連続した句に限定される。つまり、従来技術のシステムでは、原言語と目標言語両方の表層文字列でフレーズが連続していることになる。この制約は、「not」→「ne...pas」のような単純な事さえ学習されることができないことを意味する。トレーニングのために極めて大きなデータセットを使用すると、単に幅広い確率を記憶することにより、これを部分的に補うことができる。しかし、トレーニングデータセットのサイズの実際的な制約を考えると、あまり一般的でない連続しない「フレーズ」は、学習することが不可能に近い。
これらの理由および他の理由から、一部の研究者は、統計に基づく機械翻訳プロセスに構文情報を組み込むことを試みている。これを行う非常に簡単な方法の1つは、再ランク付けによるものである。すなわち、基本となるSMTシステムを使用して翻訳のN−ベストリストを生成し、可能性としては構文モデルを含むモデルのグループを使用して出力を再ランク付けする。そのようなシステムの1つが、Och et al., A SMORGASBORD OF FEATURES FOR STATISTICAL MACHINE TRANSLATION, Proceedings of the Joint HLT/NAACL Conference (2004)(非特許文献2)に記載されている。16000個の変換からなるN−ベストリストでさえも、20語からなる文の翻訳の可能性のごくわずかしか捉えることができず、事後に行われる再ランク付けは、基本デコーダ中でその検索空間の大きな部分を増大させる、あるいは刈り込む機会を構文モデルに与えないので、これは、構文情報を取り込むかなり弱い手段であることが分かっている。
別の従来技術の試みでは、倒置変換文法(ITG)を使用して、構成要素の概念を統計機械翻訳に組み込むことが試みられる。基本的な概念は、並置と翻訳を原言語と目標言語の同時に行われる構文解析と見なすものである。2つのタイプの二分岐規則が許可される。原言語と目標言語の構成要素が同じ順序で生成されるか、または、原言語の構成要素と目標言語の構成要素が逆の順序で生成される。そのようなシステムのいくつかが、Wu, STOCHASTIC INVERSION INDUCTION GRAMMARS AND BILINGUAL PARSING OF PARALLEL CORPORA, Computational Linguistics, 23 (3): 377-403 (1997)(非特許文献3);Wu and Wong, MACHINE TRANSLATION WITH A STOCHASTIC GRAMMATICAL CHANNEL, Proceedings of the ACL (1998)(非特許文献4);Zens and Ney, A COMPARATIVE STUDY ON REORDERING CONSTRAINTS AND STATISTICAL MACHINE TRANSLATION, Proceedings of the ACL (2003)(日特許文献5);Zens et al., REORDERING CONSTRAINTS FOR PHRASE-BASED STATISTICAL MACHINE TRANSLATION, Proceedings of COLING (2004)(非特許文献6)に記載されている。これらの文法は、理論的には興味深い。しかし、これらのタイプの手法を計算的に効率的にするためには、厳格な制限を加え、単純化するためのいくつかの前提がなされなければならない。これは、そのようなシステムのモデル化力を著しく落とす。また、このタイプの翻訳モデルは、一度に1つの語彙項目のレベル(すなわち単語レベル)でしか機能せず、フレーズの組合せは直接モデル化されない。これは、かなり深刻な制約である。実証されたこれらのシステムの翻訳品質は、最良のSMTシステムに劣る。
より新しい理論的手法が提示されており、これは、複数テキストの文法と一般化された複数テキストの文法を使用し、非連続的な翻訳を許可し、並び替えの制約を緩くすることにより、倒置変換(inversion transduction)の文法手法を一般化しようとするものである。この理論は提案されているものの、パラメータ推定については詳細が与えられず、このフレームワークの復号がどのようにフレーズ情報を取り込むのかについての説明がなく、実際のシステムは構築されておらず、翻訳品質の数値も提示されていない。この理論は、Melamed and Wang, STATISTICAL MACHINE TRANSLATION BY PARSING, Technical Report 04-024 Proteus Project (2004)(非特許文献7)により詳細に記載されている。
倒置変換文法に関連する別の従来技術の手法は、ヘッドトランスデューサを使用して、原言語の依存性ツリーの各レベルに独立して適用されるトランスデューサの集まりを使用して、原文を構文解析し、同時に目標言語の依存性ツリーを変換することにより、翻訳を生成するものである。このトランスデューサは、範囲に制約がある。このトランスデューサは、非常に局所的な文脈のみに依拠し、最終的な結果は、基本的に、単語に基づく(フレーズに基づくのに対して)デコーダになる。トランスデューサ導入手法は、データの少なさの問題によっても複雑化する可能性がある。翻訳のモデル化をいくつかの異なる構成要素(語彙選択、順序付けなど)に分ける代わりに、1つのみのトランスデューサがトレーニングされる。そのようなシステムの1つが、Alashawi, et al., LEARNING DEPENDENCY TRANSLATION MODELS AS COLLECTIONS OF FINITE-STAT HEAD TRANSDUCERS, Computational Linguistics, 26 (1): 45-60 (2000)に記載されている。
依存関係のトランスデューサと複数テキストの文法の交わる領域で、本流から外れた系統の研究が形成される。この系統の研究は、同期した依存挿入文法を扱うものであり、Ding and Palmer, SYNCHRONOUS DEPENDENCY INSERTION GRAMMARS: A GRAMMAR FORMALISM FOR SYNTAX BASED STATISTICAL MT, in COLLING 2004: Workshop on Recent Advances in Dependency Grammars (2004)(非特許文献9)により詳細に記載されている。
さらに別の従来技術の試みでは、SMTシステムの滑らかさに伴う問題を改善するために、目標言語でパーサが用いられる。トレーニングデータ中でパーサを用いることにより、目標言語のツリーを原言語の文字列に変換する操作の集合の確率を学習することができる。それらの操作をツリーに基づく言語モデルと組み合わせて、ノイズのあるチャンネル翻訳検索を作り出すことができる。そのようなシステムの1つがYamada and Knight, A SYNTAX-BASED STATISTICAL TRANSLATION MODEL, Proceedings of the ACL (2001)(非特許文献10)に記載されている。このタイプのシステムは、滑らかさにはいくらかのプラスの影響を有するが、構文によらないSMTシステムと比べると、全体的な翻訳品質は改良しない。
翻訳で依存関係情報を用いる別の従来技術の手法は、依存関係ツリーのパスを介して翻訳するものである。そのようなシステムの1つがLin, A PATH-BASED TRANSFER MODEL FOR MACHINE TRANSLATION, Proceedings of COLLING (2004)(非特許文献11)に記載されている。これは、翻訳を試みる前に独立した依存関係パーサを原言語文に適用する唯一の従来技術システムであると思われる。このタイプのシステムは、より多くの記憶されたパターン(フレーズSMTのように)を従属関係の分析と組み合わせて取り込むように思われるが、このシステムの統計的なモデル化は、極めて制約がある。直接の最大尤度推定翻訳モデルのみが使用される。そのため、デコードのプロセスは、例えば目標言語モデルを使用して滑らかさに対して忠実性のバランスをとることをせず、また、SMTシステムにその威力を与える多数の他の統計モデルを活かさない。パスは、任意の順序で組み合わせられる。そして、この手法で課される、従属性ツリーから抽出される「フレーズ」は線形のパスでなければならないという制約は、非常に不利である。これは、非線形に分岐する構成の有望なツリーレット翻訳を失うだけでなく、表層文字列では連続しているが、依存関係ツリーで非線形の一定の一般的なフレーズをモデル化することができない。このため、結果的に得られる翻訳は、依存関係のパスの使用から多少は益を得ているように思われるが、手法全体としては、フレーズSMTデコーダの翻訳品質には及ばない。
上述の論述から、構文による統計機械翻訳の手法の大多数は、フレーズ単位の統計機械翻訳ではなく単語間の翻訳に着目しており、また、翻訳の前に別個のパーサを用いずに、構文解析(parsing)と翻訳(translation)を連係した問題として扱っていることが理解できよう。別個のパーサを使用する唯一の手法は、範囲が非常に限定されており、パスを任意の順序で組み合わせ、可能な翻訳品質を厳しく制限する統計モデルの組合せを用いていない。
現在の技術水準を考えると、文脈自由の構成要素分析(context−free constituency analysis)(依存関係の分析に対して)が、統計機械翻訳システムを開発する際の妥当な開始点であるように思われる。しかし、これは、機械翻訳における構文の最も効果的な表現ではないと考えられる。構成要素の分析と異なり、依存関係の分析は、意味的により関連する要素をともにまとめる傾向がある。例えば、動詞は、目的語だけでなく、そのすべての文法項と直接連続するようになる。また、依存関係ツリーは、非常に語彙化された操作(heavily lexicalized operations)に合うように適合され、これは、フレーズ単位の統計機械翻訳でかなり有効であることが分かっている。
本発明の一実施形態では、デコーダが、原言語入力である依存関係ツリーを受け取り、統計モデルのセットにアクセスし、統計モデルのセットから、対数線形の統計フレームワークで組み合わせられた出力が生成される。デコーダは、ツリーレット翻訳対のテーブルにもアクセスし、原言語の依存関係ツリー、ツリーレット翻訳対テーブルへのアクセス、および統計モデルの適用に基づいて、目標言語の依存関係ツリーを返す。
一実施形態では、デコーダは、動的プログラミングを使用して実施される。別の実施形態では、デコーダは、A*検索を使用して実施される。
本発明を使用することができる例示的環境のブロック図である。 本発明の一実施形態によるトレーニングシステムのブロック図である。 図2に示すシステムの全動作を説明する流れ図である。 文の対の依存構造と単語の並置の生成を示す図である。 文の対の依存構造と単語の並置の生成を示す図である。 文の対の依存構造と単語の並置の生成を示す図である。 文の対の依存構造と単語の並置の生成を示す図である。 文の対の単語の並置と原依存構造を示す図である。 文の対の単語の並置と原依存構造を示す図である。 原言語の依存関係ツリーから目標言語の依存関係ツリーへの依存関係の投射を説明する流れ図である。 原言語の依存関係ツリーから目標言語の依存関係ツリーへの依存関係の投射を示す構造の図である。 原言語の依存関係ツリーから目標言語の依存関係ツリーへの依存関係の投射を示す構造の図である。 原言語の依存関係ツリーから目標言語の依存関係ツリーへの依存関係の投射を示す構造の図である。 原言語の依存関係ツリーから目標言語の依存関係ツリーへの依存関係の投射を示す構造の図である。 原言語の依存関係ツリーから目標言語の依存関係ツリーへの依存関係の投射を示す構造の図である。 目標言語の依存関係ツリーのノードがどのように再結合されるかを説明する流れ図である。 並置されない目標単語への依存関係の割り当てを説明する流れ図である。 目標文の単語が並置されない場合の、原言語の依存関係ツリーから目標言語の依存関係ツリーへの依存関係の投射を示す図である。 目標文の単語が並置されない場合の、原言語の依存関係ツリーから目標言語の依存関係ツリーへの依存関係の投射を示す図である。 目標文の単語が並置されない場合の、原言語の依存関係ツリーから目標言語の依存関係ツリーへの依存関係の投射を示す図である。 目標文の単語が並置されない場合の、原言語の依存関係ツリーから目標言語の依存関係ツリーへの依存関係の投射を示す図である。 目標文中の1つの単語が並置されない場合の、原言語の依存関係ツリーから目標言語の依存関係ツリーへの依存関係の投射を示す図である。 目標文の単語が並置されない場合の、原言語の依存関係ツリーから目標言語の依存関係ツリーへの依存関係の投射を示す図である。 原言語入力の複数の単語が目標言語入力の1つの単語と並置される場合の、原言語ツリーから目標言語ツリーへの依存関係の投射と、ツリーレット翻訳対の抽出を表す図である。 原言語入力の複数の単語が目標言語入力の1つの単語と並置される場合の、原言語ツリーから目標言語ツリーへの依存関係の投射と、ツリーレット翻訳対の抽出を表す図である。 原言語入力の複数の単語が目標言語入力の1つの単語と並置される場合の、原言語ツリーから目標言語ツリーへの依存関係の投射と、ツリーレット翻訳対の抽出を表す図である。 原言語入力の複数の単語が目標言語入力の1つの単語と並置される場合の、原言語ツリーから目標言語ツリーへの依存関係の投射と、ツリーレット翻訳対の抽出を表す図である。 原言語入力の複数の単語が目標言語入力の1つの単語と並置される場合の、原言語ツリーから目標言語ツリーへの依存関係の投射と、ツリーレット翻訳対の抽出を表す図である。 原言語入力の複数の単語が目標言語入力の1つの単語と並置される場合の、原言語ツリーから目標言語ツリーへの依存関係の投射と、ツリーレット翻訳対の抽出を表す図である。 原言語入力の複数の単語が目標言語入力の1つの単語と並置される場合の、原言語ツリーから目標言語ツリーへの依存関係の投射と、ツリーレット翻訳対の抽出を表す図である。 原言語入力の複数の単語が目標言語入力の1つの単語と並置される場合の、原言語ツリーから目標言語ツリーへの依存関係の投射と、ツリーレット翻訳対の抽出を表す図である。 原言語入力の複数の単語が目標言語入力の1つの単語と並置される場合の、原言語ツリーから目標言語ツリーへの依存関係の投射と、ツリーレット翻訳対の抽出を表す図である。 ツリーレット翻訳対の抽出を説明する流れ図である。 目標言語文の複数の単語が原言語文の1つの単語と並置される場合の、文の対からのツリーレット翻訳対の抽出を示す図である。 目標言語文の複数の単語が原言語文の1つの単語と並置される場合の、文の対からのツリーレット翻訳対の抽出を示す図である。 目標言語文の複数の単語が原言語文の1つの単語と並置される場合の、文の対からのツリーレット翻訳対の抽出を示す図である。 本発明の一実施形態によりどのように順序モデルをトレーニングするかを説明する図である。 本発明の一実施形態によりどのように順序モデルをトレーニングするかを説明する図である。 本発明の一実施形態によりどのように順序モデルをトレーニングするかを説明する図である。 本発明の一実施形態によりどのように順序モデルをトレーニングするかを説明する図である。 順序モデルの第2の実施形態の動作を説明する図である。 順序モデルの第2の実施形態の動作を説明する図である。 順序モデルの第2の実施形態の動作を説明する図である。 本発明の一実施形態による実行時環境を表すブロック図である。 図12に示す実行時環境の全体的な動作を説明する流れ図である。 本発明の一実施形態による動的プログラミングデコーダの動作を説明する図である。 本発明の一実施形態による動的プログラミングデコーダの動作を説明する図である。 本発明の一実施形態による動的プログラミングデコーダの動作を説明する図である。 本発明の一実施形態によるデコーダの動作を説明する流れ図である。 本発明の一実施形態によりどのようにモデルの重みがトレーニングされるかを説明する図である。
本発明は、構文の依存関係ツリーを使用した機械翻訳を扱う。しかし、本発明を詳細に説明する前に、本発明を使用することができる例示的な一環境について述べる。
図1に、本発明が実施されることが可能な適切なコンピューティングシステム環境100の例を示す。コンピューティングシステム環境100は、適切なコンピューティング環境の一例に過ぎず、本発明の使用または機能の範囲についての限定を示唆するものではない。また、コンピューティング環境100は、例示的動作環境100に図示される構成要素の1つまたは組合せに関する依存性または必要性を有するものとも解釈すべきでない。
本発明は、多数の他の汎用または特殊目的のコンピューティングシステム環境または構成で動作する。本発明に使用するのに適する可能性があるよく知られるコンピューティングシステム、環境、および/または構成の例には、これらに限定しないが、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサを利用したシステム、セットトップボックス、プログラム可能な家電製品、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、上記のシステムまたはデバイスを含む分散コンピューティング環境などがある。
本発明は、コンピュータによって実行されるプログラムモジュールなどのコンピュータ実行可能命令の一般的なコンテキストで説明することができる。一般に、プログラムモジュールには、特定のタスクを行うか、特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造(data structures)などが含まれる。本発明は、通信ネットワークを通じて結ばれた遠隔の処理デバイスによってタスクが行われる分散コンピューティング環境でも実施することができる。分散コンピューティング環境では、プログラムモジュールは、メモリ記憶装置を含むローカルおよびリモート両方のコンピュータ記憶媒体に置くことができる。
図1を参照すると、本発明を実施する例示的システムは、コンピュータ110の形態の汎用コンピューティングデバイスを含む。コンピュータ110の構成要素は、これらに限定しないが、処理装置120、システムメモリ130、およびシステムメモリを含む各種のシステム構成要素を処理装置120に結合するシステムバス121を含むことができる。システムバス121は、各種のバスアーキテクチャを使用した、メモリバスあるいはメモリコントローラ、ペリフェラルバス、およびローカルバスを含む数種のバス構造のいずれでもよい。限定ではなく例として、そのようなアーキテクチャには、ISA(Industry Standard Architecture)バス、MCA(Micro Channel Architecture)バス、EISA(Enhanced ISA)バス、VESA(Video Electronics Standards Association)ローカルバス、およびメザニンバスとも称されるPCI(Peripheral Component Interconnect)バスがある。
コンピュータ110は、通例、各種のコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ110からのアクセスが可能な利用可能媒体でよく、揮発性および不揮発性の媒体、取り外し可能および取り外し不能の媒体を含む。限定ではなく例として、コンピュータ可読媒体は、コンピュータ記憶媒体と通信媒体からなることができる。コンピュータ記憶媒体には、コンピュータ可読命令、データ構造、プログラムモジュール、あるいは他のデータなどの情報を記憶するための方法または技術で実施された揮発性および不揮発性、取り外し可能および取り外し不能の媒体が含まれる。コンピュータ記憶媒体には、これらに限定しないが、RAM、ROM、EEPROM、フラッシュメモリ、または他のメモリ技術、CD−ROM、デジタル多用途ディスク(DVD)、または他の光ディスク記憶、磁気カセット、磁気テープ、磁気ディスク記憶、または他の磁気記憶装置、あるいは、所望の情報を記憶するために使用することができ、コンピュータ110によるアクセスが可能な他の媒体が含まれる。通信媒体は、通例、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータを、搬送波などの変調データ信号あるいは他の移送機構として実施し、情報伝達媒体を含む。用語「変調されたデータ信号」とは、信号中に情報を符号化するような方式で特性の1つまたは複数を設定または変化させた信号を意味する。限定ではなく例として、通信媒体には、有線ネットワークや直接配線接続などの有線媒体と、音波、RF、赤外線、他の無線媒体などの無線媒体が含まれる。上記の媒体の組合せもコンピュータ可読媒体の範囲に含める。
システムメモリ130は、読出し専用メモリ(ROM)131とランダムアクセスメモリ(RAM)132などの揮発性メモリおよび/または不揮発性メモリの形態のコンピュータ記憶媒体を含む。起動時などにコンピュータ110内の要素間の情報転送を助ける基本ルーチンを含む基本入出力システム133(BIOS)は、通例、ROM131に記憶される。RAM132は、通例、処理装置120から即座にアクセス可能な、かつ/または処理装置120によって現在操作中のデータおよび/またはプログラムモジュールを保持する。限定ではなく例として、図1には、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136、およびプログラムデータ137を示す。
コンピュータ110は、他の取り外し可能/取り外し不能、揮発性/不揮発性のコンピュータ記憶媒体も含むことができる。単なる例として、図1には、取り外し不能、不揮発性の磁気媒体の読み書きを行うハードディスクドライブ141、取り外し可能、不揮発性の磁気ディスク152の読み書きを行う磁気ディスクドライブ151、およびCD−ROMや他の光学媒体などの取り外し可能、不揮発性の光ディスク156の読み書きを行う光ディスクドライブ155を示す。例示的動作環境で使用することができる他の取り外し可能/取り外し不能、揮発性/不揮発性のコンピュータ記憶媒体には、これらに限定しないが、磁気テープカセット、フラッシュメモリカード、デジタル多用途ディスク、デジタルビデオテープ、固体素子RAM、固体素子ROMなどがある。ハードディスクドライブ141は、通例、インターフェース140などの取り外し不能メモリインターフェースを通じてシステムバス121に接続され、磁気ディスクドライブ151および光ディスクドライブ155は、通例、インターフェース150などの取り外し可能メモリインターフェースでシステムバス121に接続される。
上述し、図1に示されるドライブとそれに関連付けられたコンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、および他のデータの記憶をコンピュータ110に提供する。図1では、例えば、ハードディスクドライブ141に、オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、およびプログラムデータ147が記憶されている。これらのコンポーネントは、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136、およびプログラムデータ137と同じであっても異なってもよいことに留意されたい。ここでは、それらが少なくとも異なるコピーであることを表すために、オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、およびプログラムデータ147には異なる参照符号を付している。
ユーザは、キーボード162、マイクロフォン163、およびマウス、トラックボール、タッチパッドなどのポインティングデバイス161などの入力装置を通じてコンピュータ110にコマンドと情報を入力することができる。他の入力装置(図示せず)としては、ジョイスティック、ゲームパッド、衛星受信アンテナ、スキャナなどが挙げられる。上記およびその他の入力装置は、多くの場合、システムバスに結合されたユーザ入力インターフェース160を通じて処理装置120に接続されるが、パラレルポート、ゲームポート、ユニバーサルシリアルバス(USB)などの他のインターフェースおよびバス構造で接続してもよい。モニタ191または他のタイプの表示装置も、ビデオインターフェース190などのインターフェースを介してシステムバス121に接続される。モニタに加えて、コンピュータは、スピーカ197やプリンタ196などの他の周辺出力装置も含むことができ、それらの装置は、出力周辺インターフェース195を通じて接続することができる。
コンピュータ110は、リモートコンピュータ180などの1つまたは複数のリモートコンピュータとの論理接続を使用するネットワーク環境で動作することができる。リモートコンピュータ180は、パーソナルコンピュータ、ハンドヘルドデバイス、サーバ、ルータ、ネットワークPC、ピアデバイス、あるいは他の一般的なネットワークノードであり、通例は、コンピュータ110に関して上述した要素の多くまたはすべてを含む。図1に示される論理接続は、ローカルエリアネットワーク(LAN)171とワイドエリアネットワーク(WAN)173を含むが、他のネットワークを含むことも可能である。このようなネットワーク環境は、オフィス、企業内のコンピュータネットワーク、イントラネット、およびインターネットで一般的である。
LANネットワーク環境で使用される場合、コンピュータ110は、ネットワークインターフェースあるいはアダプタ170を通じてLAN171に接続される。WANネットワーク環境で使用される場合、コンピュータ110は、通例、インターネットなどのWAN173を通じて通信を確立するためのモデム172または他の手段を含む。モデム172は、内蔵型でも外付け型でもよく、ユーザ入力インターフェース160あるいは他の適切な機構を介してシステムバス121に接続することができる。ネットワーク環境では、コンピュータ110との関連で図示されるプログラムモジュールまたはその一部は、遠隔のメモリ記憶装置に記憶することができる。限定ではなく例として、図1では、リモートアプリケーションプログラム185がリモートコンピュータ180にある。図のネットワーク接続は例示的なものであり、コンピュータ間に通信リンクを確立する他の手段を使用してよいことは理解されよう。
図2は、トレーニングシステム200を示すブロック図である。図で、トレーニングシステム200は、文並置された(sentence−aligned)大きな対訳コーパス(parallel corpus)202である入力を受け取る。また、トレーニングシステム200は、ツリーレット翻訳対データベース(treelet translation pair database)204、順序モデル(order model)206、一致モデル(agreement model)208、翻訳確率テーブル(translation probability table)210、および目標言語モデル(target language model)212を含む出力を提供する。システム200は、原言語依存関係構文解析コンポーネント(source language dependency parser component)214、目標言語語分割コンポーネント(target language word segmentation component)216、教師なし語並置コンポーネント(unsupervised word alignment component)218、依存関係ツリー投射コンポーネント(dependency tree projection component)220、目標言語モデルトレーニングコンポーネント(target language model training component)222、ツリーレット対エクストラクタ(treelet pair extractor)224、順序モデルトレーニングコンポーネント(order model training component)226、および一致モデルトレーニングコンポーネント(agreement model training component)228を含む。
図3は、図2に示すシステム200の全動作を説明する流れ図である。初めに、システム200は、文並置された対訳コーパス202にアクセスする。これを図3のブロック250として示す。コーパス202は、例示的に、大きな、対訳データコーパスである。すなわち、コーパス202は、互いの翻訳である複数の文の対を含み、一方の文が第1の言語(ここで原言語と称する)で、もう一方の文が第2の文(ここでは目標言語と称する)になっている。
依存関係構文解析コンポーネント214は、コーパス202にアクセスし、原言語の各文に依存関係の解析を行う。これを図3のブロック252で表す。依存関係構文解析コンポーネント214は、例示的に、テキスト断片を入力として受け取り、複数の動作を行う市販の依存関係パーサである。初めに、構文解析コンポーネント214は、入力されたテキスト断片中の単語を識別する(つまり入力文を単語に区分する)。これを行う際に、パーサは、任意で、複数の単語からなる入力を1つの単語として扱ってよく(White Houseなど)、また語を分けてもよい。例えば、パーサは、語「interest−bearing」を、ハイフン自体を単語として3つの単語に分けることができる。
いずれの場合も、原入力がパーサ214によって区分されると、各テキスト断片の主要語が特定される。そして、文のすべての単語の間の依存関係も特定される。したがって、依存関係構文解析コンポーネント214の出力262は、主要語が特定され、単語間の依存関係が表された単語の集合となる。
これの一表現を図4Aに示す。原言語入力(あるいは表層文字列)は、「The old man ate」である。図4Aは、この表層文字列は単に矢印を含み、単語「ate」への縦の下向きの矢印は、「ate」をテキスト断片中の主要語として識別していることを表す。単語「man」から単語「ate」への矢印は、単語「man」が単語「ate」に前置修飾語として依存することを表す。同様に、2つの単語「the」および「old」から単語「man」への矢印は、それら2つの単語が単語「man」に従属していることを意味する。
依存関係構文解析コンポーネント214から出力される単語と依存関係の別の表現を図4Bに示す。図4Bに示す構造を依存関係ツリーと称し、各単語がツリーのノードを構成し、一番上のノードが主要語すなわちツリーのルートを構成する。ツリー中の2つのレベルのノードをつなぐ線が左下に傾いている場合(ノード「ate」をノード「man」と結ぶ線など)、これは、ツリー中で下にある語(この場合は「man」)が、ツリーで上にある単語(この場合は「ate」)の前置修飾語であることを意味する。したがって、図4Bの依存関係ツリーは、「man」が単語「ate」の前置修飾語であり、2つの単語「the」と「old」は、ともに単語「man」の前置修飾語であることを示す。逆に、右下に傾いた線は、その主要語の後置修飾語である単語を示す。
目標言語分割コンポーネント216も、例示的に、目標言語の入力文を単語の連続に区分する、任意の市販の単語セグメンタ(segmenter)である。例えば、図4Aおよび4Bに示される、「the old man ate」と並置された目標言語の文が、ドイツ語の文「der alte mann isst」であると想定する。この例では、コンポーネント216は、目標言語の文を図4Cに示す単語に分割する。したがって、目標言語語分割コンポーネント216の出力は、単に、並置された文の対の目標文部分の単語のリストとなる。目標言語の入力に単語の区分(word segmentation)を行うことを図3のブロック254に示す。(単語を区切るスペースを使用しない中国語のような言語では、単語の区分作業は、英語やドイツ語などの言語よりもはるかに複雑である。)
原言語の依存関係の構文解析が生成され、目標言語の単語の区分が行われると、原言語の依存関係構文解析を目標言語の語分割の隣に配置して、図2の単語に区分された対訳コーパス256を形成する。したがって、図4Aまたは4Bの表現の1つが、図4Cに示す表現に関連付けられる。
次いで、教師なし語並置コンポーネント218が、まず、並置され、単語に区分された、対訳コーパス256の単語間の対応関係を見つける。語並置コンポーネント218は、例示的に、単語に区分されたバージョンの目標言語コーパス256と、単語に区分されたバージョンの原言語コーパス256の単語間の対応関係を見つける市販の語並置コンポーネントである。この対応関係は、例えば、目標言語の並置された部分が、その部分が並置された原言語部分の翻訳であるという判断を表す。一実施形態では、教師なし語並置コンポーネントは、区分されたバージョンの原言語コーパスと目標言語コーパスのみを入力として使用する。別の実施形態では、教師なし語並置コンポーネントは、原言語の構文解析それぞれについての原言語の依存関係ツリーも使用する。
一実施形態では、単語に区分された原言語の文と単語に区分された目標言語の文の単語の並置は、次の要領でグラフとして表される。原言語の別個の単語1つ1つをグラフの頂点とし、目標言語の別個の単語1つ1つをグラフ中の別個の頂点とする。原単語と目標単語との対応関係を表す辺の集合がある。各辺は、原言語の単語を表す頂点を目標言語の単語を表す頂点とつなぎ、すなわち、グラフは2部グラフになる。単語の並置の他の実施形態は、原言語の単語から、その単語が並置される目標言語の単語の集合への関数など異なる表現を用いることができるが、この関数表現は、上記のグラフ表現に容易に作り変えることができる。この文献では、語並置コンポーネントは、上記のグラフ表現として書き替えることができる、文の各対についての単語の並置を生成するに任意のコンポーネントである。
ここまで論じた例を使用して、図4Dに、並置されたテキストの原言語部分を上に、並置されたテキストの目標言語部分を下に示し、2つのテキストの間の線で単語間の対応関係が表される。したがって、図4Dは、語並置コンポーネント218が、英語の単語「the」とドイツ語の単語「der」、英語の単語「old」とドイツ語の単語「alte」、英語の単語「man」とドイツ語の単語「mann」、および、英語の単語「ate」とドイツ語の単語「isst」の間に対応関係を見つけたことを示す。
図4Dに示される並置は、一対一の並置なのでかなり単純である。すなわち、原言語のテキストの各単語が、目標言語のテキストの1つの単語と並置される。しかし、これより複雑な単語の並置もありうる。例えば、フランス語では、否定は通例2つの単語に分けられる。単語の1つは、文の動詞の前にあり、もう一方の単語は、文の動詞の後に来る。したがって、処理しようとする、並置された、対訳文が、英語の文「I do not speak English」と、それに対応するその文のフランス語の翻訳「Je ne parle pas Francais」であると仮定する。フランス語の場合の否定は、動詞「parle」の両側にある単語「ne...pas」によって表される。
そのため、並置コンポーネント218は、2つの文を図5Aに示すように並置する。原言語の単語「do」には並置が行われず、原言語の単語「not」には2つの単語、すなわち「ne」と「pas」が並置されることに留意されたい。
この単語の並置された文が教師なし語並置コンポーネント218の出力を形成し、図2の単語の並置された対訳コーパス258を形成する。単語に区分された原言語の依存構造と単語に区分された目標言語のテキストとの間の単語の並置を行うステップが、図3のブロック260に示される。したがって、単語の並置された対訳コーパス258では、原言語の単語と目標言語の単語は、何らかの体系的な形式で注釈をつけられた関連付けを有する。この場合は、この関連付けは、単に単語と単語を結ぶ線で表される。
処理のこの時点で、原言語の文は、原言語の依存関係ツリー(または別の原言語の依存構造)に解析されており、単語の並置された対訳コーパスが生成されており、原言語のテキストの単語は、目標言語のテキストの単語と並置されている。図5Bに、これら両方を1つの構造として表すことができる構造を示す。図5Bの上の部分は、上記で図4Aに関して述べたように矢印で形成された依存構造で原言語の入力文「I do not speak French」を示す。図5Bに示す構造の下の部分は、単語が原言語の入力と並置された目標言語の入力「Je ne parle pas Francais」を含む。したがって、図5Bは、原言語の依存関係ツリーと、原言語入力と目標言語入力との単語の並置の両方を示す。原言語の依存関係ツリーは、図2の数字262で表される。
そして、依存関係ツリー投射コンポーネント220が、原言語の依存関係ツリー表現の依存関係を、並置された目標言語の単語に区分された入力に投射して、目標言語の依存関係ツリー(または依存構造)を得る。これを図3のブロック264に示す。
依存関係ツリー投射コンポーネントの一実施形態は、次のように進行する。
(1)一対多の並置:目標言語のすべての別個の集合TiおよびTkについて、
(a)TjとTjのすべての単語が、原単語skおよびslと並置される
(b)skおよびslには他の目標単語は並置されない
(c)tiは、Tiの代表要素である。
(d)tjは、Tjの代表要素であり、skからslへの依存関係がある場合のみ、tiからtjへの依存を生成し、Tiの中の各tkについて、tk!=tiであればtkからtiへの依存を生成し、Tjの中の各tmについて、tm!=tjであれば、tmからtjへの依存を作成する。
一実施形態では、目標ノードの集合の代表は、常に、その集合中で一番右にあるノードである。他の可能な実施形態では、代表は、どの語が主要語になるべきかに関するコーパスの統計によって選択されるか、または人手で作られた規則で選択されることができる。
(2)一対一および多対一の並置:同様に、原単語の別個の集合SkおよびSlと一意に並置されたすべての目標単語tiおよびtjについて、Sk中の何らかのskおよびSl中の何らかのslについて、skからslへの依存関係がある場合のみ、tiからtjへの依存を生成する。
(3)並置されない単語:すべての並置されない目標単語tiについて、tlの左にある最も近い並置された目標単語と、trの右にある最も近い並置された目標単語を見つける。tlが依存関係ツリーでtiより下にある場合は、tiとtlの間に依存関係を作成し、そうでない場合は、tiとtrの間に依存関係を作成する。
(4)並置されないルート:原言語の依存関係ツリーのルートが並置されない場合は、上記のステップをすべて適用した後で、複数の目標依存関係ツリーがあることになり、各ツリーが1つのルートを有する。それらのルートの中から代表を選び、他のすべてのルートがその代表に依存するようにする。
(5)順序が正しくないノードの配置:すべての単語が1つの依存関係ツリーに配置された後に、ツリー中の単語の順序が目標文での順序とは異なる場合は、正しい順序で読み取られることになるツリー中で最も低い点に順序が正しくない各ノードを再結合する。
以下の段落では、具体的な例でこれらの規則を説明する。図6に、原言語の依存関係ツリーから、並置された目標言語のテキストに依存関係が投射されるプロセスを示す流れ図を示す。コンポーネント220は、目標言語の依存関係ツリーに依存関係を生成するために、原言語の依存関係ツリーから、目標言語テキストの並置された単語に依存関係を投射する。目標言語の依存関係ツリーへの依存関係の投射を図6のブロック268に示す。例えば、コンポーネント220は、原側の単語を調べて、それらの単語がどの単語に依存しているかを理解し、それらと同じ依存関係を、目標側の並置された単語に投射する。
この例では、コンポーネント220が(図6Aに示すルート「parle」を特定した後で)単語「I」から開始するとする。原言語の依存関係構造から、単語「I」が前置修飾語として(表層文字列で単語「speak」の前に発生する修飾語として)単語「speak」に依存することが見て取れる。したがって、コンポーネント220は、単語「I」から単語「Je」への並置をたどり、単語「Je」を、ルート「parle」に従属する前置修飾語とする。これを図6Bに示す。
コンポーネント220は、次に単語「do」に遭遇する。単語「do」は、目標言語テキストのどの単語とも並置されないので、コンポーネント220は単に、単語「do」を飛ばし、単語「not」に進む。
単語「not」は、目標側の2つの単語「ne」および「pas」と並置されるので、やや複雑である。
これに対処するために、本発明の一実施形態によれば、原側の1つの単語と並置される目標側の単語の集合を調べてその単語の依存関係を判断するヒューリスティックが用いられる。この実施形態では、目標側の単語の集合の中で一番右にある単語(「pas」)が主要語の依存要素にされ、目標側の元の単語の順序が保持されて、「pas」がツリー中で前置修飾語になるか、後置修飾語になるかを判断する。「pas」は、表層文字列で主要語「parle」の後に来るので、依存関係ツリーでは主要語の後置修飾語にされる。これを図6Cに示す。
次いで、目標側の一致する単語の集合で残っている単語が順に取り出され、この場合も目標表層文字列の元の単語の順序に基づいて、一番右にある単語「pas」の前置修飾語または後置修飾語にされる。この例では、「not」と一致する単語の集合の中で唯一残る単語は、フランス語の単語「ne」である。したがって、「ne」が、単語「pas」の依存要素にされる。「ne」は単語「pas」より前に来るので、依存関係ツリーでは、単語「pas」の前置修飾語として配置される。これを図6Dに示す。
最後に、コンポーネント220は、単語「French」に到達し、この単語が1つの目標単語「Francais」と並置されており、単語「French」が単語「speak」に従属していることを判断する。したがって、コンポーネント220は、目標言語の依存関係ツリーに、単語「Francais」が後置修飾語として単語「parle」(単語「speak」と並置される)に従属するものとして配置する。これも図6Dに示す。
そして、コンポーネント220は、目標言語の依存関係ツリーにおける順序を計算する。この場合、図6Dに示す依存関係ツリーの順序では、フランス語の文字列「Je parle ne pas Francais」になる。コンポーネント220は次いで、元の目標言語入力にアクセスし、表層文字列では単語「ne」が単語「parle」の後になっているので、単語「ne」の順序が正しくないことに気づく。
この誤りに対処し、下記の他の潜在的ないくつかの問題を訂正するために、コンポーネント220は、必要な場合は、目標言語の依存関係ツリーを通る2回目のパス(pass)を行って、目標言語の依存関係ツリーの誤りを取り除く。これを図6のブロック270に示す。
上記で述べたような最初の誤りは、すぐ上で述べた誤りである(目標の単語、すなわち単語「ne」が、図6Dに示す最終的な目標言語依存関係ツリーから読み出される翻訳で正しく順序で現われる)。図6Fは、コンポーネント220がどのようにこの誤りを修正するかを説明する流れ図である。
初めに、コンポーネント220は、目標の依存関係ツリーから読み出された目標文字列の中で、順序が間違っている単語を特定する。これを図6Fのブロック300に示す。この例では、その単語は「ne」である。コンポーネント220は次いで、元の表層文字列の順序が保たれるように、目標言語の依存関係ツリーの中で、特定された単語より上にある(「ne」より上にある)一番低い再結合する点を特定する。この場合、元の順序を維持する、単語「ne」より上にある最も低い点は、「ne」をノード「parle」の前置修飾語として配置するものである。この点の識別を図6Fのブロック302に示す。コンポーネント220は、次いで単語「ne」をその点に再結合する。これを図6Eに示し、図6Fのブロック304として示す。したがって、単語「ne」は、単語「pas」の前置修飾語としての位置から取り外され、単語「parle」の前置修飾語になるように再結合される。
本発明で生じる可能性のある別の問題は、単語に区分された目標文字列の中の単語が、原文字列のどの単語とも並置されない場合に発生する。例えば、フランス語では、しばしば前置詞が動詞の後に挿入され、英語で当てはまる翻訳がない。例えば、原言語の入力文字列「I have books」を想定する。妥当なフランス語の翻訳は、「Je ai de livre」である。原言語と目標言語の単語に区分された入力の単語間の並置を図7Aに示す。目標言語の文字列の単語「de」に、原言語文字列との並置がないことが容易に見て取れよう。
図7Bに、依存関係ツリーの表現と併せて図7Aの単語の並置を示す(原言語文字列の円弧が原言語入力の依存関係を表す)。本発明を使用してそれらの依存関係を目標言語の文字列に投射して、図7Cに示す目標言語の依存関係ツリーを生成する。これは、先の例で述べたように、図7Dに示すように表すこともできる。無論、これは、単語「de」には関連付けられた依存関係がないことを意味する。したがって、本発明の一実施形態によれば、コンポーネント220は、初めに、単語に区分された元の目標文字列の中で並置されていない単語を特定する。これを図7のブロック320で示す。言うまでもなく、この例では、コンポーネント220は、単語「de」を特定する。
次いで、コンポーネント220は、目標依存構造で並置されていない単語の上にある最も近い依存関係の円弧を特定する。図7Dに示す依存構造中で、並置されていない単語「de」より上にある最も近い依存関係の円弧は、「livre」を始点とし、単語「ai」を終点とする円弧である。この円弧の特定を図7のブロック322に示す。
コンポーネント220は次いで、並置されない単語を、特定された円弧の始点の依存要素にする。したがって、本発明では、コンポーネント220は、単語「de」が単語「livre」に従属するようにする。これを図7Eに示す。「de」から上に延びる点線は、依存構造中で「de」の上にある最も近い円弧の位置を表し、「de」から「livre」への円弧は、「de」が「livre」の依存要素にされたことを表す。これを図7のブロック324に示す。図7Eに示す依存構造は、無論、図7Fに示す依存関係ツリーに書き換えることができる。
生じる可能性があり、コンポーネント220の2回目のパスで対処される別の問題は、複数の原単語が1つの目標単語と並置される場合である。例えば、原文字列「Empty the recycle bin」を考えられたい。この文字列のフランス語の翻訳は、「Vider le corbeille」である。これら2つの文字列の単語の並置を、原言語文字列に対応する依存構造と併せて図8Aに示す。図8Aは、原言語の2つの単語「recycle」と「bin」が、目標言語の単語「corbeille」と並置されることを示す。原言語文字列に関連付けられた依存関係ツリーを図8Bに示す。
原言語の依存関係ツリーから目標言語の依存関係ツリーに依存関係を投射するには、原言語の依存関係のルートと並置される単語が特定され、その単語目標言語の依存関係ツリーのルートとされることを思い出されたい。したがって、「empty」と並置される単語は、「vider」であり、「vider」が図8Cの目標言語の依存関係ツリーのルートにされる。
次に、原言語の依存関係ツリーの依存関係が、目標言語の入力の並置された単語に投射されて、目標言語の依存関係ツリーを得ることを思い出されたい。しかし、目標言語の単語「corbeille」には2つの単語が並置される。そのため、コンポーネント220は、目標単語にどちらの依存を投射するかを決定しなければならない。本発明の一実施形態によれば、コンポーネント220は、原言語の依存関係ツリー構造の中で一番上にある原単語の依存関係を使用する。「corbeille」と並置される2つの単語は「recycle」と「bin」なので、図8Bは、単語「bin」が依存関係ツリー構造の中で最も高く、したがってその依存関係が単語「corbeille」に投射されることを示す。「bin」は単語「empty」の後置修飾語なので、単語「corbeille」は、目標言語の依存関係ツリーで単語「vider」の後置修飾語になる。
また、言うまでもなく、「le」は、「corbeille」の前置修飾語として投射され、目標言語の依存関係ツリーは、図8Cのように完成する。図8Dに、原言語および目標言語両方の依存構造と、原言語の文字列と目標言語の文字列間の単語に区分された単語の並置を示す。
図8Dに示す構造は、図8Eに示すように書き換えることもできる。図8Eに、原言語および目標言語両方の依存構造を依存関係ツリーとして示し、単語の並置は、2つの依存関係ツリー間の点線で示される。
このように、依存関係ツリー投射コンポーネント220の出力は、図8Dあるいは8Eに示すような、単語の並置がされた、対訳依存関係ツリー構造(あるいは依存構造)からなるコーパスをもたらす。この説明では、用語「依存関係ツリー」を使用して、単語文字列に沿った円弧で依存関係を示すタイプの構造(図7E)、または、図7Fに示すような実際の依存ツリー構造のいずれかを指す。したがって、「依存関係ツリー」は、これらの構造両方を同義で指す。したがって、用語「単語の並置された、対訳依存関係ツリー」を使用して、図8Dおよび図8Eに示す両方のタイプの構造を同義で指すことができる。依存関係ツリー投射コンポーネントの他の実施形態は、上記とは異なる規則、ヒューリスティック、あるいは統計のセットを用いることができる。
いずれの場合も、コンポーネント220によって生成される、単語が並置された複数の対訳依存関係ツリー構造は、図2のシステム図の単語の並置がされた、対訳依存関係ツリーコーパス400として示される。これは、図8Dまたは8Eに示すような構造を持つコーパスであるか、または、文並置された、対訳コーパス202全体にそれら両方の構造が生成される。
再度図3を参照すると、ブロック264で、並置された目標言語テキストへの原言語の依存関係の投射に処理が進んで、単語の並置された、対訳依存関係ツリーコーパス400を得たことが分かる。次のステップは、コーパス400から、ツリーレットの翻訳対を抽出し、その対をツリーレット翻訳対データベース204に入れることである。これを図3のブロック402で示す。
ツリーレットの翻訳対は、原言語の依存関係ツリーの接続された部分グラフと、それに対応する目標言語の依存関係ツリーの接続された部分グラフと定義される。しかし、本発明の一実施形態によれば、「接続された部分グラフ」の定義では、ツリー中の任意のノードからの兄弟ノードがダミーの親ノードを通じて接続されているものとして扱う。ツリーレットの翻訳対の抽出は、図2に示すツリーレット対エクストラクタ224によって行われる。これがどのように行われるかを示す構造の例が図8E〜8Iに示され、これを行う方法を説明する流れ図が図8Jに示される。
ツリーレット対エクストラクタ224は、初めに、大きさが1の原言語のツリーレットをすべて列挙することから開始する(大きさはツリーレットに含まれるノードの数で表される)。これを図8Jのブロック404および406に示す。列挙される原言語ツリーレットの大きさが1であるこの最初のパスでは、原言語依存関係ツリーのすべてのノードが列挙される。図8Eに示す単語の並置された、対訳依存関係ツリー構造の場合は、原言語ノードそれぞれが、図8Fの左側に列挙される。
次いで、列挙された各ツリーレットの並置が特定される。これを図8Fの右半分に示し、図8Jのブロック408として示す。
ツリーレット対エクストラクタ224は次いで、列挙されたツリーレットとそれに対応する並置から、適切な形式のツリーレット翻訳対を抽出する。これを図8Jのブロック410に示す。ツリーレット「empty−vider」と「the−le」は、ともに形式が適切であり、したがって抽出され、ツリーレット翻訳テーブルに入れられる。しかし、語「bin」と「recycle」についてのツリーレット翻訳対の全体を図8Gに示す。1つのノードを形成するツリーレット「recycle」と1つのノードを形成するツリーレット「bin」は両方とも、同じ目標言語の単語「corbeille」と並置されるので、もう一方と無関係にどちらかの語を抽出すると、適切な形式ツリーレット翻訳対が生成されないことになる。ツリーレット翻訳対の外側に及ぶ並置になってしまう。そのため、列挙されたこれら2つの大きさ1のツリーレットは、破棄される。
エクストラクタ224は、次いで、ブロック412に示すように、考慮すべきより大きなツリーレットがあるかどうかを判定する。ある場合は、考慮するツリーレットの大きさがブロック414で1増され、処理はブロック406に進む。言うまでもなく、この例では、考慮すべきより大きなツリーレットがあり、したがって、エクストラクタ224は、大きさ2の原言語依存関係ツリーのツリーレットをすべて考慮する。
図8Hでは、大きさが2の原言語ツリーレットがすべて列挙されている。1つのノードの子は接続された部分グラフを形成するものとみなされるので、ツリーレット420も列挙されることに気づかれよう。このツリーレットは、星印で表すダミールートの下にある原言語の単語「the」と「recycle」を考慮する。
図8Hから、大きさ2のツリーレットのうちの3つが、もう一方を含まずに単語「bin」または単語「recycle」を有することが分かる。したがって、図8Fおよび8Gの説明から、これらは、適切な形式のツリーレット翻訳対を生むことができない。したがって、それらは却下される。しかし、「recycle」を「bin」の前置修飾語として示す原言語のツリーレットは、「corbeille」として翻訳され、その原言語ツリーレットの原言語の語はどちらも、ツリーレット翻訳対の外側にある並置は持たない。したがって、ツリーレット翻訳対422が抽出され、適切な形式のツリーレット翻訳対としてツリーレット翻訳対データベース204に入れられる。
ブロック406で再度処理が継続し、ここで、ツリーレット対エクストラクタ224は、大きさが3の原言語ツリーレットをすべて列挙する。それらを、図8Iの424、426、および428に示す。ツリーレット424および426は、原言語の単語からのすべての並置を含む翻訳を有する。したがって、それらのツリーレットは、適切な形式のツリーレット翻訳対であり、抽出され、ツリーレット翻訳対データベース204に入れられる。しかし、ツリーレット428は、この場合も単語「bin」のみを有し、単語「recycle」を含まない。「corbeille」は、「bin」と「recycle」の両方に割り当てられるので、「corbeille」は、ツリーレット428を使用して生成されるどのツリーレット翻訳対の外側にも及ぶ並置を有する。そのため、ツリーレット428は破棄される。
ツリーレット対エクストラクタ224は次いで、大きさが4の原言語ツリーレットをすべて考慮する。大きさが4のツリーレットは1つのみであり、図8Iの430に示される。これは、適切な形式のツリーレット翻訳対であり、そのため抽出され、ツリーレット翻訳対データベース204に入れられる。
原言語の依存関係ツリーからなるコーパスにはそれ以上大きなツリーレットがないので、ツリーレット翻訳対エクストラクタ224は、適切な形式のツリーレット翻訳対の抽出を完了する。
ここで、ノードの兄弟が接続された部分グラフを形成するとみなすことをより具体的に説明するために、先に使用した原言語の文「I do not speak French」と、それに対応するフランス語の翻訳「Je ne parle pas Francais」の例を考えたい。これら2つの文の依存構造と単語の並置を図9Aに示す。図9Bに、同じ事柄(依存関係と単語の並置)を表す代替の構造を示す。この例では、大きさ1の原言語のツリーレットが各自の並置とともに列挙される際に、ツリーレットの中でも特に図9Cに示すツリーレットを生成する。この構造は、原単語「星印」の前置修飾語として単語「not」を有するツリーレットは、前置修飾語「ne」および後置修飾語「pas」を有する、その原単語「星印」の翻訳として変換されることができることを示す。したがって、ツリーレット翻訳対データベースは、「ne...pas」を「not」として翻訳してよいことを示すツリーレット翻訳対を含む。
再度図2に示すトレーニングシステム200全体を参照すると、順序モデルトレーニングコンポーネント226は、単語の並置がされた、対訳依存関係ツリーコーパスに基づいて順序モデル206もトレーニングする。これを図3のブロック480に示す。
順序モデル206によって対処される問題は、実行時(本明細書の下記で述べる)に、原言語入力が受け取られ、構文解析されて、原言語の依存構造にされることである。その構造が次いで、terelet翻訳対データベース204のツリーレットと照合される。これにより、一致するツリーレット翻訳対のリストと、したがって、原言語のツリーレットのリストが生成される。しかし、目標言語の依存関係ツリーを形成するためにそれらのツリーレットをどのような順序でつなぐべきかは、確実には分からない。したがって、ツリーレットが任意の方式で単につなげられた場合は、最終的な目標言語の表層文字列は正確でない可能性がある。
したがって、ツリーレットが目標言語の依存関係ツリーに現れる順序の確率論的予測を生成するように順序モデル206がトレーニングされる。単語の並置がされた、対訳依存関係ツリーコーパスは、図8Dおよび8Eに示すようなツリーと、図9Aおよび9Bに示すツリーのような、トレーニングデータのための単語の並置がされた、対訳依存関係ツリーを含むことを思い出されたい。ここでの順序モデルの説明は、図8Dおよび8Eに示す例示的構造との関連で進める。
実行時に入力文が「Empty your recycle bin」であるとする。この文は、まず構文解析されて、図10Aに示すような依存関係ツリーにされる。図10Bに、トレーニングコーパスからエクストラクタ224によって抽出された、ツリーレット翻訳対データベース204にある2つの例示的なツリーレット翻訳対を示す。単語「your」は、図10Aに示す原言語の依存関係ツリーで単語「bin」の依存要素なので、単語「votre」は、単語「corbeille」に従属することになるが、それらのノードをともに配置するにはいくつかの異なる可能性がある。
例えば、「votre」が「corbeille」の前に来るのか後に来るのかは分からない。これらの両方の可能性を示す依存関係ツリー構造を図10Cに示す。順序モデル206は、他のレベルに関係なく、目標言語の依存関係ツリーの各レベルの依存関係の順序を予測する。この例では、順序モデル206は、図10Cに示される依存関係ツリーのどれがより可能性が高いかを予測する。
例示的な一実施形態では、順序モデル206は、単に、すべての可能性を列挙し、各可能性にスコアをつけ、最もスコアが高い可能性を選択する。これを達成するために、順序モデル206は、依存関係ツリー中で親を考慮して子の順序を予測する。一実施形態では、これは、親からのオフセット位置を予測することによって行われる。例えば、図10Dに、「vider」からの「corbeille」のオフセット位置と、「corbeille」からの「le」のオフセット位置を示す。「corbeille」は、「vider」から1の位置だけ離れた後置修飾語(すなわち後に来る)なので、「vider」から1を足したオフセット位置を有する。「le」は、「corbeille」のすぐ前に来るので、「corbeille」から1引いたオフセット位置を有する。言うまでもなく、親(すなわち主要語)に2つ以上の子がある場合、そのうちの複数が親の一方の側にある場合は、位置の整数は、それらの子については2以上になる可能性がある。ここでも、順序モデル206は、依存関係ツリーの各レベルで、位置に別個に注釈をつける。
順序モデル206は、注釈をつけられた位置に該当する、そのレベルにある各単語の確率を提供する。この確率は、式1に示すような確率とすることができる。
式1
以下の場合にP(pos=+1)
当該の単語=corbeille
親の単語=vider
当該単語と並置された単語=bin
当該単語の親と並置された単語=empty
当該単語と並置された原単語の位置=+1
当該単語と並置された単語の品詞(POS)=名詞
当該単語の親と並置された単語のPOS=動詞
式1は、順序モデルが、各種の要素を考慮して、単語「corbeille」に1を足した位置の確率を計算することを示す。式1に挙げられた要素は、その単語自体(corbeille)、その親、その単語と並置された原単語、その単語の親と並置された原単語、その単語と並置された原単語の位置、その単語と並置された単語の品詞、その単語の親と並置された単語の品詞である。
上に挙げた各特性の値は、ここで論じられる例との関連で式1に示される。したがって、順序モデルをトレーニングするために、順序モデル206トレーニングコンポーネント226は、コーパス400全体を調べ、各依存関係ツリー構造の各レベルにある単語を読み取り、式1に列記される特性を埋め、それをトレーニングデータとして使用して確率を生成する。一実施形態では、トレーニングは、決定ツリーを使用して行われる。無論、上記とは異なる特性、あるいは追加的な特性も使用してよいことに留意されたい。しかし、いずれの場合も、順序モデルは、機械学習プロセスを使用してトレーニングされ、原言語の依存関係ツリーの原ノード(source node)を考慮して、翻訳の依存関係ツリーの目標ノード(target nodes)を順序付ける最良の方式を予測するようにトレーニングされる。
一実施形態では、モデルを使用して、ツリーの他のレベルとは無関係に、各レベルの入力における単語の位置を予測する。例えば、一実施形態では、モデルは、各単語の順序を予測することにより、各レベルの順序を予測する。確率は、主要語から所与のオフセットを有する各単語について予測されることができる。モデルは、式1に挙げられた要素またはそれらとは異なる要素を使用することができる。
別の実施形態によれば、順序モデル206は、入れ替え/チャレンジモデルとして実施される。入れ替え/チャレンジモデルは、オフセットの確率を予測せず、代わりに2つの事柄を別々に予測する点を除いては、上記のモデルといくつかの共通点を有する。初めに、原言語の依存関係ツリーで所与の単語が翻訳された(あるいは並置された)元の単語が前置修飾語であった場合に、その単語が前置修飾語のままとなる確率(あるいは同様に、目標単語が原文で後置修飾語であった場合に、その単語が後置修飾語のままとなるかどうか)対(versus)、所与の単語が、原言語の依存関係ツリーで翻訳された(あるいは並置された)元の単語が前置修飾語であった場合に、その単語が「入れ替わって」、後置修飾語になる確率(あるいは、同様に、目標単語が、後置修飾語であった原単語と並置された場合、あるいは後置修飾語であった原単語から翻訳された場合に、前置修飾語になるかどうか)。すなわち、モデルは、ある単語が主要語に対して同じ方向にとどまるか、または主要語に対して入れ替わるかどうかを予測する。
そして、入れ替え/チャレンジモデルは、目標依存関係ツリーの所与のレベルについてどの単語が前置修飾語になり、どの単語が後置修飾語になるかを予測すると、内側からそれらの単語を順序付ける(すなわち、主要語に一番近い単語から、前置修飾語と後置修飾語を順序付けていく)。この際に、モデルは、前置修飾語の対から開始する。そして、モデルは、その対のどちらか一方がもう一方よりも主要語に近いか遠いかを判定する。モデルは、そのレベルのすべての前置修飾語を反復的に調べ、それにより最も近い修飾語、次に近い修飾語を見つけて行く。無論、これは、主要語に対する位置を予測するのではなく、単に、互いに対する各修飾語の位置を見つけるものである。
例が参考となろう。入力文が「The tired man from the sea」であるとする。この文に生成される原言語の依存関係ツリー構造を図11Aに示す。可能な一致ツリーレット翻訳対を図11Bに示す。ノード「homme」から直接依存している複数の子があり、それらの子はすべて、目標言語の依存関係ツリーで同じレベルにあるので、順序モデル206を使用して、「homme」の修飾語の順序を予測する。この順序付けを得るために、順序モデルは、初めに、ノード「homme」の前置修飾語のリストが「le」だけであり、後置修飾語のリストが
と、「de」をルートとするツリーレットとであると予測する。これを予測するために、順序モデル206は、式2に示す確率を生成する。
これは、語「le」がその元の前置修飾語の位置から入れ替わらない確率と、単語
が元の前置修飾語の位置から後置修飾語の位置に入れ替わる確率と、単語「de」が元の後置修飾語の位置から入れ替わらない確率とから、確率が構成されることを示している。この例では、順序モデルが、現在検討対象となっている目標言語の依存関係ツリーレベルで1つの前置修飾語と2つの後置修飾語を予測していることが理解できよう。
1つしか前置修飾語がないので、主要語に対してその修飾語をどこに置くかを予測する必要はない。しかし、後置修飾語は2つある。したがって、順序モデルは、どちらが主要語に近いかを予測しなければならない。そのため、図2に示す確率に加えて、順序モデルは、どちらが主要語に近いかに関して、
が「de」をルートとする後置修飾語に関してのチャレンジを満たすことを予測しなければならない。これを予測するために、式3に示される確率が計算される。
このように、式3は、各種の特性を考慮して、語
が残りの後置修飾語に関してチャレンジを満たす確率を計算する。例示的な一実施形態では、この確率を生成する際に考慮される特性は、図1に示される特性と同じである。したがって、順序モデル206で入れ替え/チャレンジモデルが使用される場合、トレーニングコンポーネント226は、トレーニングコーパス全体を調べ、列記される特性トレーニングデータとして考慮して、それらの確率を計算する。上記の確率を計算するために、各レベルを個別に調べながら各依存関係ツリーを下に移動していく。
図2および3に示される再度トレーニングシステム200の全体的な動作を参照すると、一致モデルトレーニングコンポーネント228も、コーパス400にアクセスして一致モデル208をトレーニングする。これを図3のブロック482に示す。一致モデルトレーニングコンポーネント228は、コーパス400のすべての目標言語依存関係ツリーにアクセスする。一致モデル208は、主要語から各子を予測することを試みる。子は、他の子の順序に関係なく予測される。一致モデル208をトレーニングするために、標準的な言語モデルフレームワークが使用される。しかし、コンポーネント228は、文字列中のいくつかの先行する単語から何らかの単語を予測するようにモデルをトレーニングする代わりに、目標言語の依存関係ツリーそれぞれを下に移動し、親から子を予測するようにモデルをトレーニングする。
一致モデル208に伴う利益の1つは、ツリー中で修飾語が順序付けられていない場合でも、ツリーレットのスコアを得られることである。また、一致モデル208は、修飾語とそれが修飾する単語との間にある単語の数は考慮しない。考慮されるのは、その修飾語がある親の依存要素であり、したがってその親を修飾するということのみである。これは、表層文字列の言語モデルよりも有利である可能性がある。例えば、bi−gramの言語モデルを考えられたい。修飾語と被修飾語の間に3つ以上の単語がある場合、bi−gramの言語モデルでは、その修飾語は被修飾語を予測する際に考慮すらされない。
再度、図2に示すトレーニングシステム全体の図を参照すると、翻訳確率テーブル210は、単に、原言語の単語が目標言語のある単語に翻訳される確率を予測する従来のチャンネルモデルである。
最後に、目標言語モデルトレーニングコンポーネント222は、目標言語語分割コンポーネント216によって生成されたコーパス256の単語に区分された目標文字列にアクセスし、目標言語モデルをトレーニングする。これを図3のブロック484に表し、図2の目標言語モデル212として示す。トレーニングコンポーネント222は、従来の言語モデルトレーニング技術を使用して、目標言語のn−gramの言語モデルをトレーニングする。従来のn−gramモデルでは、単語の確率は、n−1個の先行する単語に基づいて予測される。文全体の確率は、その文の各単語のn−gramの確率をともに乗算した確率になる。
したがって、この時点で、ツリーレット翻訳対データベース204とともに、図2に示すモデルのセットすべてがトレーニングされたことになる。そして、入力テキスト断片の実行時の翻訳を生成するために、それらのモデルが翻訳デコーダによって使用されることができる。図12は、本発明の一実施形態による翻訳システム600を示すブロック図である。翻訳システム600は、モデルの重みのセット602と併せて、統計モデル206、208、210、および212にアクセスすることができる。システム600は、ツリーレット翻訳対データベース204にもアクセスすることができる。
システム600は、ツリーレット翻訳対一致コンポーネント604、原言語依存関係パーサ606(図2に示す原言語依存関係パーサ214と同じものでよい)、およびデコーダ608を含む。図12に示すシステム600の全動作を図13に示す流れ図で説明する。
システム600は、初めに入力文(あるいは他のテキスト断片)610を受け取る。これを図13のブロック612に示す。依存関係構文解析コンポーネント606は、この原入力文610を構文解析して原言語の依存関係ツリーにする。例として、入力テキスト部分が「the files installed on your computer」であるとする。コンポーネント606は、図14Aに示すような原言語の依存関係ツリー614を生成する。入力テキストに依存関係の解析を行うことを図13のブロック616に示す。
ツリーレット翻訳対一致コンポーネント604は、原言語の依存関係ツリー614を受け取り、ツリーレット翻訳対データベース204にアクセスする。コンポーネント604は、データベース204から一致するツリーレット翻訳対(原言語の依存関係ツリー614のツリーレットと一致する翻訳対)をすべて抽出し、そのツリーレット翻訳対を出力618として提供する。一致するツリーレット翻訳対を抽出するステップを図13のブロック620に示す。
デコーダ608は、原言語の依存関係ツリー614および一致するツリーレット翻訳対618を受け取り、翻訳ツリーの仮定を生成し、モデルの重み602によって重み付けされたモデル206、208、210、212で各翻訳対にスコアをつけ、上位N個の翻訳621を出力する。このステップを図13のブロック622および624として示す。
原言語の入力テキスト610が「the files installed on your computer」であるこの例によると、原言語の依存関係構文解析コンポーネント606は、図14Aに示す原言語依存関係ツリー614を生成する。ツリーレット翻訳対一致コンポーネント604は、次いで、ツリーレット翻訳対データベース204から、原言語の依存関係ツリー614のツリーレットと一致する原言語ツリーレットを有するツリーレットを抽出する。例えば、コンポーネント604によって抽出され、出力618として生成されるツリーレット翻訳対が図14Bに示すものであるとする(図14Bの対のリストは、図を簡潔にするために減らしている。実際には、このような短い文でも10数個の一致するツリーレット翻訳対を有することが多い)。ここで、デコーダ608の作業は、原言語の依存関係ツリー614をカバーし、目標言語の依存関係ツリーを生成するために、図14Bのツリーレット翻訳対の最良の組合せと配列を見つけることである。
例示的な一実施形態では、デコーダ608は、動的プログラミングデコーダである。その実施形態では、デコーダ608は、全数復号検索を行う。これを説明する擬似コードの一例を表1に示す。
これと同じ全数検索の一実施形態を説明する流れ図を図14Dの流れ図によって例示し、以下でこの検索を説明する。デコーダ608は、下から上へ各原ノードを別々に調べることから開始し、その原ノードをルートとする部分ツリー全体の最良の翻訳を見つけることを試みる。デコーダ608は、ツリーを上に移動し、原言語ツリーのルートに遭遇するまで、以前に計算された部分ツリーからの計算を再使用する。ルートに遭遇した時に、デコーダ608は、その原言語ツリーで表されるテキスト断片全体の最良の翻訳を見つけている。
詳細には、デコーダ608は、まず最も低い原ノードを選択し、その原ノードをルートとするすべてのツリーレット翻訳対を特定する。図14Aに示す例では、デコーダ608は、原ノード「your」から開始する。しかし、図14Bには、ノード「your」をルートとするツリーレット翻訳対はない。そのため、デコーダは単に次のレベルに上がり、ノード「computer」を分析する。デコーダ608は、図14Bに示す、一致するツリーレット翻訳対700が、ノード「computer」をルートとする原部分ツリーを有することを見つける。原ノードの選択とその原ノードをルートとするすべてのツリーレット翻訳対の特定を図14Dのブロック702に示す。
次いで、特定されたツリーレット翻訳対(この場合は1つのみの対700がある)それぞれについて、デコーダ608は、選択された原ノードをルートとする(すなわち「computer」をルートとする)原部分ツリーの部分で、選択されたツリーレット翻訳対(すなわちツリーレット翻訳対700)にカバーされない部分があるかどうかを判定する。これを図14Dのブロック704に示す。この例では、ツリーレット翻訳対700が、特定された唯一の翻訳対であり、この翻訳対は、「computer」をルートとする部分ツリー全体をカバーしている。したがって、この翻訳対が、単にスコアを付けられ、原ノード「computer」のN−ベストリストに加えられる。これを図14Dのブロック706で示す。
デコーダ608は次いで、ツリーを上に移動して別の原ノードを選択する。次の原ノードは「on」であり、図14Bの一致するツリーレット翻訳対にはノード「on」をルートとするものはない。したがって、デコーダ608は、単に次の原ノード「installed」に移動する。再度ブロック702で、デコーダ608は、図14Bに示すリストの中で、ノード「installed」をルートとするツリーレット翻訳対710を見つける。
ブロック704で、デコーダ608は、ツリーレット翻訳対710が、「computer」およびそれより下の原部分ツリーの部分をカバーしないと判定する。デコーダ608はツリーを上に移動して行くので、ツリーでさらに下にあるカバーされない部分ツリーの部分にはすでにスコアが計算されている。そのため、デコーダ608は、「installed」をルートとする部分ツリーのカバーされない部分の最良の翻訳を取り出す。この場合は、「computer」をルートとする部分ツリーの最良の翻訳を取り出す。これを図14Dのブロック712で示す。取り出された最良の翻訳は、翻訳対700を含む。
ここで、デコーダ608は、翻訳対700の目標言語部分を翻訳対710の目標言語部分とどのようにつなぐかを決定しなければならない。「on」が「sur」と翻訳され、「ordinateur」が「computer」と翻訳されることが単語の並置から分かるので、デコーダ608は、「ordinateur」は「sur」につながると判断する。したがって、図14Aに示す原言語の依存関係ツリーの依存関係に基づき、「ordinateur」は、「sur」に依存しなければならない。しかし、デコーダ608は、単に、「ordinateur」が「sur」の前置修飾語であるか、後置修飾語であるかが分からない。
例示的な一実施形態では、デコーダ608は、2つの部分ツリーをつなぐすべての可能な方式を列挙し、可能な方式それぞれをモデルの全セット(あるいは該当するすべてのモデルで)でスコア付けして、2つの部分ツリーをつなぐ最も可能性の高い方式を判断する。これを図14Dのブロック714に示す。2つの可能性を図14Cに示す。式4は、各モデルのスコアを組み合わせて各仮定の全スコアを得る例示的な方式の1つを示す。
式4
スコア=λ1log(チャンネルモデルの確率)+
λ2log(順序モデルの確率)+
λ3log(一致モデルの確率)+
λ4log(目標言語モデルの確率)
チャンネルモデル確率は、「installe sur」が「installed on」と翻訳される確率に、「votre ordinateur」が「your computer」と翻訳される確率を乗算した確率になる。図14Cの最初の可能な順序の順序モデル確率は、「sur」が位置+1で「installe」の後置修飾語となる確率に、「ordinateur」が位置−1で「sur」の前置修飾語となる確率を乗算した確率になる。図14Cの2番目の可能な順序の順序モデル確率は、「sur」が位置+1で「installe」の後置修飾語となる確率に、「ordinateur」が位置+1で「sur」の後置修飾語となる確率を乗算した確率である。一致モデル確率は、「sur」が「installe」の子である確率に、「ordinateur」が「sur」の子である確率と、「votre」が「ordinateur」の子である確率を乗算した確率になる。最後に、目標言語モデルの確率は単に、仮定の目標言語依存関係ツリーの各葉で読み取られる目標言語の表層文字列の文字列に基づく確率となり、この表層文字列は、最初の可能性の場合は「installe votre ordinateur sur」であり、2番目の可能性の場合は「installe sur votre ordinateur」である。
デコーダ608は、検討対象のノードですべての仮定を構築し、すべてのモデルで各仮定をスコア付けし、各モデルに関連付けられた重みを適用し、それらを合計して、そのノードの各仮定の単一のスコアを得る。スコアが上位からN個の仮定は、選択されたその原ノードのN−ベストリストに入れられる。これを図14Dのブロック720で示す。
このプロセスは、デコーダ608が原言語の依存関係ツリー全体をルートまで横断するまで継続され、その後必要に応じて上位N個の翻訳が出力される。
言うまでもなく、効率を高めるためにいくつかの最適化を行うことができる。例えば、原ノードごとに翻訳の候補の完全なリストを保持する代わりに、スコア付けが上位の候補のサブセットのみを保持してよい。
加えて、デコーダ608によって行われる順序付けの動作の回数を制限するために、デコーダ608は、順序付けのプロセスを開始する前に、所与の単語のセットが以前にデコーダによって順序付けされているかどうかを調べることができる。一実施形態では、これは、順序付けされていないツリーで索引をつけたハッシュテーブルとして実施することができる。各親の子を標準的な順序で並べ替えた後に、同じツリー構造と語彙的選択を有する場合に、2つのツリーが等しいとみなされる。
検索空間を制約する別の方式は、復号プロセスの初期に候補を破棄するものであり、これは、比較的大きく、高費用な順序付け空間を調べる前に行うことができる。例えば、早いうちに候補を取り除く方法の1つは、最終的な翻訳を作成する際に配置される子部分ツリーの完成したスコアと併せて、順序付けられていないツリーレットのチャンネルモデルスコアを調べるものである。それらスコアの合計が現在N−ベストリストにある最低のスコアより低い場合は、順序モデルの確率を加えても全スコアを下げるだけなので、最終的な候補は、N−ベストリストから脱落することになる。
複雑性と時間の点から見ると、順序付けの段階がデコーダ608にとって最も高費用なステップであることが認められている。その複雑性は、順序付けするノードの数の階乗として増大する。また、順序付けは、翻訳の選択肢の可能な組合せごとに要求される。そのため、例示的な一実施形態では、上記の全数的な順序付けステップの代わりに、貪欲法の順序付け手法が用いられる。貪欲法の順序付けの複雑性は、所与のノードにおける子の数に比例する。前置修飾語と後置修飾語の数が固定されると、順序モデルは、他の順序付けの決定と無関係に1つの順序付けの決定を評価することができる。そして、復号の際に、表1に示されるアルゴリズムのすべての可能な順序付けを考慮するステップを、表2に示されるアルゴリズムに替える。
この「貪欲法による順序付け」は、すべての可能な順序付けのごく少ないサブセットのみを明らかにする。これは全数検索に比べて大幅に高速であるが、常に最良の順序付けを生成するとは限らない。
別の実施形態では、試みる必要がある翻訳の組合せの数を減らすことにより、デコーダ608が大幅に高速にされる。ツリーレット翻訳対を使用する翻訳の数は、そのツリーレット対でカバーされない入力の部分ツリーの数とともに指数関数的に増える。解決法の1つは、大きさが可変のN−ベストリストを提供することである。これは、カバーされない部分ツリーを翻訳する再帰呼び出しが、現在のツリーレットにあるカバーされない部分ツリーの数に応じて、返されるN−ベストリストの大きさを制限することを意味する。ツリーレットがツリーのごくわずかな部分しかカバーせず、数回の再帰呼び出しを必要とする場合、それらの呼び出しは、より小さなN−ベストリストを返す。このようにして、指数関数的に増加しやすいツリーレット対が、人為的に指数の値を下げる。これにより、デコーダは、適切な翻訳となる可能性の高いツリーレット対、すなわち、すでにそのツリーの多くの部分を翻訳しているツリーレット対を完全に調べることもできるようになる。
例示的な一実施形態では、N−ベストリストのNの値は、シード値を、再帰呼び出しを使用して解決される必要のあるカバーされないノードの数で割ることによって求められる。そして、その数を切り上げて、どのツリーレット対も1の有効N値を得ないようにする。結果的に急速に低下する進行となるが、なお興味深い事例を区別するので、12の数が比較的良好なシード値となることが判明している。一実施形態では、大きさが可変のN−ベストリストを使用することで、全数デコーダが貪欲法によるデコーダの性能を上回ることができることが判明している。
また、チャンネルモデルのスコアとツリーレットの大きさが、高品質の翻訳を強力に予測することも分かっている。検索が開始する前にスコアが低いツリーレット翻訳対を除去することにより、デコーダが、高品質のツリーレット対の組合せと順序付けを調べるためにより多くの時間を費やせるようになる。翻訳対を除去するには、次を含むいくつかのヒューリスティックを使用することができる。
1.何らかの閾値を上回る最大尤度推定確率を有するツリーレット翻訳対のみを保持する。0.01のカットオフが有効であると考えられる。
2.原言語のツリーレットがまったく同じであるツリーレット翻訳対のセットを与えられて、最大尤度推定確率が、最良の対の何らかの比の範囲内である対のみを保持する。例えば、最大尤度推定確率が最良の最大尤度推定確率の20分の1以上であるツリーレット対のみが保持される。
3.初めに大きさで、次いで最大尤度推定チャネルモデルスコアで、そして別のモデルスコアでランク付けされる、同じ入力ノードを有する上位N個のツリーレット翻訳対のみを保持する。N=3〜5の閾値が、良好に働くことが認められている。
本発明の別の実施形態によれば、デコーダ608は、動的なプログラミングデコーダとして実施されず、代わりにA*検索を使用して実施される。A*検索技術は、よく知られており、その例示的な解説の1つがOch et al., AN EFFICIENT A * SEARCH ALGORITHM FOR STATISTICAL MACHINE TRANSLATION, in ACL 2001: Data-Driven Machine Translation Workshop, Toulouse France, pp. 55-62 (July 2001)(非特許文献12)に記載されている。
A*検索を行う際には、翻訳の候補は、実際に復号された部分についての実際のスコアと、まだ翻訳されていない候補の残りについての推定スコアを有することはよく知られる。推定スコアは、楽観的なスコアであり、候補が完了すると、デコーダは、かなり厳格な切捨てを行うことができる。すなわち、1つの候補が実際に完了されると、実際のスコアと推定スコアの合計が、完了したその候補の実際のスコアより小さい未完了の候補は破棄することができる。これは、その未完了の候補の実際のスコアは、その候補が完了したときに楽観的な推定スコア以下になることが確実であり、したがって、すでに完了した候補のスコアより小さくなることが確実であるためである。
本発明の一実施形態では、A*デコーダは、入力された依存関係ツリーを下から上にも上から下にも検索しない。代わりに、ツリーレット翻訳対データベース204からコンポーネント604によって抽出され、入力610からコンポーネント606によって作成された原言語の依存関係ツリー614の一致する部分であると特定されたツリーレット対応付け空間(あるいは一致するツリーレット翻訳対618)を検索する。A*デコーダは、例えば、図14Bに示す各ツリーレット翻訳対を考慮し、その翻訳対を選択するか否かの二分決定を行う。そのような決定はそれぞれ、検索空間で分岐に相当する。
A*デコーダによって選択された各候補の実際のスコアを計算するために、デコーダは、選択されたツリーレット翻訳対によってカバーされる原言語の依存関係ツリーの部分にスコアをつける。各候補のスコアの推定部分は、原言語の依存関係ツリーのカバーされない部分に適用される可能性のあるすべてのツリーレット翻訳対に適用可能なモデルを適用することによって計算される。最高のスコアが、そのモデルのその候補の推定スコアとして使用される。
例えば、ある候補に一致モデルを適用する場合、その候補の推定される一致モデルスコアは、原言語依存関係ツリーのカバーされない部分をカバーする可能性のある、リストにあるツリーレット翻訳対618すべてを調べ、それらのツリーレット翻訳対のすべての可能な組合せの一致モデルスコアを計算することによって得られる。最も高いスコアが、その候補の推定スコアの一致モデル部分の楽観的な推定値として選択される。これを、適用可能な各モデルについてその候補に繰り返して、その候補の全推定スコアを得る。
適用可能なモデルとは、スコアを適用することが可能なモデルを意味する。例えば、あるノードの順序モデルスコアは、その子ノードの翻訳が選択され、それら子の順序が決定されるまで計算されることができない。同様に、目標言語モデルは、完成した候補が得られて、依存関係ツリーから表層文字列を読み取れるようにならないと適用することができない。したがって、各候補のスコアの実際の部分と推定部分は、具体的にはチャンネルモデルと一致モデルに基づいてのみ得られる。
このタイプのA*検索では、ツリーが互いと矛盾しない限りは、候補が重複するツリーを含むことが許されることは理解されよう。すなわち、1つまたは複数のノードで重複する2つのツリーレット翻訳対は、それらのノードが矛盾しないのであれば検討対象となる。
A*検索をより具体的に説明すると、すべてのツリーレット翻訳を1つの大域的なリストにまとめることから開始し、そのリストが、いくつかの望ましさの基準の1つまたは複数によって並び替えられる。この基準は、例えば、ツリーレットの大きさやチャンネルモデルスコアとすることができる。そして、未完了候補の待ち行列が初期化され、完了した候補の別の待ち行列が初期化される。各候補は、次の構成部分を含む。
1.一致するツリーレット翻訳対の大域リストの中で考慮すべき次のツリーレット翻訳の位置。
2.その候補の中ですでに選択されているツリーレット翻訳のセット。
3.その候補によってカバーされる入力ノードの表現。
4.各モデルに従った各候補のスコアの実際の推定部分と楽観的な推定部分。
各ステップで、最もスコアの高い候補が未完了候補の待ち行列から抽出される。大域リストの中で、各候補の中の次のツリーレット対のポインタで示される次のツリーレット翻訳が考慮される。それ以上ツリーレット対がない場合、その候補は破棄される。
下記でより詳細に説明するように、次のツリーレット翻訳がその候補にすでに選択されたツリーレット翻訳と両立しない場合、その翻訳は飛ばされ、次の翻訳が考慮される。同様に、ツリーレットが既に選択されたツリーレットと両立するが、すでに選択されたツリーレットに何も新しい情報を追加しない場合(すなわち新しい入力ノードをカバーしない場合)も、飛ばされる。
ツリーレット翻訳が両立し、新しいノードをカバーする場合は、その候補がコピーされ、新しい候補を作成し、その新しいツリーレット翻訳が以前に選択されたツリーレットのセットに加えられ、新しくカバーされる入力ノードについて実際のモデルのスコアが加えられ、それらのノードの楽観的な推定値が減算される。新しいスコアには1つまたは複数の閾値のテストを行うことができ、そのテストのいずれかに不合格の場合は、候補は破棄される。閾値テストの一例は、候補のスコアが、完了した候補の待ち行列で最もスコアの低い候補より小さい場合は、破棄してよいというものである。閾値テストに合格するが、入力全体をなおカバーしない場合、候補は、未完了候補の待ち行列に戻される。
新しい候補が入力全体をカバーすると、重複するツリーレットが併合され、選択されたツリーレットと整合するすべての可能な順序付けが調べられる。各順序付けについて、順序モデルと目標モデルのスコアが計算される。順序モデルのスコアと目標スコアを組み合わせて最も高くなる順序付けが選択される。この時点で、候補スコアは、推定スコアを含まず、代わりに、順序モデルと目標モデルを含むすべてのモデルの実際のスコアを含んでいる。そして、完了した候補が完了待ち行列に入れられる。
一方、元の候補は、検索空間で「選択されない」の分岐に相当する。その次のツリーレット対のポインタが、選ばれなかった選択を反映するように推定スコアとして更新される。これは、検索の最適性を失わずに、選ばれなかった選択で推定を厳しくする効果がある。推定をより厳しくすると、より好適な除去が行われ、従って検索の速度が上がる。更新されたスコアには1つまたは複数の閾値テストが行われ、そのテストのいずれかに不合格の場合は候補が破棄され、そうでない場合は、その更新後のスコアに基づいて未完了待ち行列に戻される。
このプロセスは、未完了待ち行列が空になるか、指定された量の検索作業が展開されるまで反復する。
本発明の一実施形態によれば、ツリーレットの両立性の概念は、何らかの種の重複するツリーレットを許可するように拡大される。入力文「Click the selected button.」を考えられたい。「button」の翻訳について一致する「click button」と「selected button」の翻訳を有するものとする。その翻訳上の優先が互いを相互に強化できるようにする代わりに、それら2つの翻訳どちらかの選択を強制することは有害である可能性がある。
ただし、ツリーレット翻訳は、一対一、一対多、多対一、あるいは多対多の翻訳、および/または単語の挿入または削除を提供することが可能であることに留意されたい。例示的な一実施形態では、ツリーレットは、トレーニング時のノードレベルの並置情報を保持する。各ツリーレット翻訳は、対になった原と目標の最小翻訳単位(MTU)の互いに素の集合に分割され、各MTUは、並置の最小の単位に相当する。したがって、単語の挿入と削除は、それぞれ一対多の翻訳と多対一の翻訳としてモデル化される。また、ツリーレットは順序付けられるので、各ツリーレットノードは、そのノードの子の部分的な順序付けを示唆する。したがって、2つのツリーレット翻訳は、それらが重複する入力の部分で、MTUの境界と内容について一致し、さらに、重複の中の各目標ノードについて、各ツリーレット翻訳によって示唆される部分的な順序付けに従う子ノードの総合的な順序付けが存在する場合に、両立するとみなされる。
本発明の一実施形態により追加的な一項目が考慮されるべきであり、それは、モデルスコアに対数線形のフレームワークで適用されるモデルの重み602の値のトレーニングである。一般にBLEUスコアと称される基準は、デコーダが何らかの基準となる翻訳に従って多量の文をどれだけ適切に翻訳したかを評価することを試みる、自動的に生成されるスコアである。最大BLEUトレーニングと称されるよく知られる手法を、対数線形モデル組合せの重みをトレーニングする具体的な方式として使用することができる。
比較的高いレベルでは、最大BLEUアルゴリズムは、どの多次元関数最適化手法とも同じような働きをする。方向が選択され、線形検索を使用してその方向に沿って目的関数が最大化される。目的関数にそれ以上の向上が生成されなくなるまでそれが繰り返される。従来技術のシステムの1つであるOch, MINIMUM ERROR RATE TRAINING AND STATISTICAL MACHINE TRANSLATION, in Proceedings of the ACL (2003)(非特許文献13)では、目的関数を直接最適化する方法(BLEUスコアなど)が記載されている。この方法では、翻訳システムが、入力文についてのN−ベストリストと、各翻訳の連続的な値をとるモデルスコアの集合と、何らかの目的関数を生成することが必要とされる。
一般に、これは、逐次最適化のように動作する。例えば、デコーダに2つのみのモデルがあり、それぞれが重みλ1とλ2を有するものとする。上記の参考方法は、重みの一方を一定に保ち、もう一方の重みのすべての値に沿って最適化し、最適な重みを選ぶことによって動作する。
この手法に伴う問題の1つは、特定の一方向に沿ってBLEUスコアを見る際に、実際には、図15に示す実線のような段階的な関数が得られることである。この実線は、特定の非常に狭い範囲のλについて、参照符号800で示すλ値でBLEUスコアが最も高くなることを表す。ただし、ピーク800の対応する値に重みが選択された場合には、ピークがとても狭いので、これは比較的不安定なシステムになる可能性がある。ピーク800は、単に、その重みを使用して1つの文が非常にうまく行ったことを表す可能性がある。しかし、ピーク800のBLEUスコアほど高くないが、文の範囲全体はλのその値の方ではるかにうまく行ったことを表す傾向があるBLEUスコアを有するはるかに広いピーク802がある。
したがって、モデルの重みを設定する際には、本発明によれば、図15の実線で示される生のBLEUの重みを単に考慮する代わりに、本発明は、図15の点線で示されるBLEUスコアの移動平均を使用する。移動平均を使用すると、平均化ウィンドウは複数のスコアを含み、結果は図15の点線になる。これは、段階的関数のピークの高さだけでなく、幅も考慮に入れる。そのため、BLEUスコアの移動平均を見る際に、λの値は、段階的関数の幅広いピーク802に関連付けられた値にはるかにより近く設定され、より安定したシステムをもたらす。
本発明について特定の実施形態を参照して説明したが、当業者は、本発明の主旨および範囲から逸脱することなく、形態と詳細に変更を加えてよいことを理解されよう。
いくつかの態様を記載しておく。
〔態様1〕
原言語のテキスト断片を目標言語のテキスト断片に変換する機械翻訳システムであって、
前記原言語のテキスト断片中の構文的依存関係を表す原言語の依存関係ツリーと、前記原言語の依存関係ツリーの少なくとも一部分とそれぞれが一致する複数の一致ツリーレット翻訳対とを入力として受け取るように構成されたデコーダであって、前記原言語の依存関係ツリーと前記一致ツリーレット翻訳対に基づき、前記一致ツリーレット翻訳対の目標言語部分の様々な組合せに統計モデルの対数線形の組合せでスコアをつけることにより、前記目標言語のテキスト断片を表す目標言語の依存関係ツリーを生成するように構成されたデコーダ
を備えることを特徴とするシステム。
〔態様2〕
前記デコーダは、複数の異なる大きさを有する一致ツリーレット翻訳対を使用して、前記目標言語の依存関係ツリーを生成するように構成されることを特徴とする態様1に記載の機械翻訳システム。
〔態様3〕
前記デコーダは、複数の異なる形状を有する一致ツリーレット翻訳対を使用して、前記目標言語の依存関係ツリーを生成するように構成されることを特徴とする態様1に記載の機械翻訳システム。
〔態様4〕
前記デコーダは、複数の異なる分岐構成を有する一致ツリーレット翻訳対を使用して、前記目標言語の依存関係ツリーを生成するように構成されることを特徴とする態様3に記載の機械翻訳システム。
〔態様5〕
前記統計モデルは、前記目標言語の依存関係ツリーの所与のレベルにおける複数のノードの順序を統計的に予測する順序モデルを含むことを特徴とする態様1に記載の機械翻訳システム。
〔態様6〕
前記統計モデルはチャンネルモデルを含むことを特徴とする態様5に記載の機械翻訳システム。
〔態様7〕
前記統計モデルは、主要ノードを考慮して、前記目標言語の依存関係ツリー中の1つまたは複数の依存ノードを統計的に予測する一致モデルを含むことを特徴とする態様6に記載の機械翻訳システム。
〔態様8〕
複数のツリーレット翻訳対を記憶するツリーレット翻訳対データベースと、
前記ツリーレット翻訳対データベースから前記一致ツリーレット翻訳対を抽出するように構成されるツリーレット翻訳対一致コンポーネントと
をさらに備えることを特徴とする態様1に記載の機械翻訳システム。
〔態様9〕
前記デコーダは、重複するツリーレット翻訳対を翻訳の仮定として考慮することを特徴とする態様1に記載の機械翻訳システム。
〔態様10〕
前記統計モデルは、重みで重みを付けられ、前記重みは、最大BLEUトレーニングを使用して生成されるスコアの移動平均を使用して生成されることを特徴とする態様1に記載の機械翻訳システム。
〔態様11〕
原言語のテキスト断片を目標言語のテキスト断片に変換する方法であって、
前記原言語のテキスト断片中の構文的依存関係を表す原言語の依存関係ツリーと、前記原言語の依存関係ツリーの少なくとも一部分とそれぞれが一致する複数の一致ツリーレット翻訳対とを入力として受け取るステップと、
前記一致ツリーレット翻訳対の目標言語部分の様々な組合せに統計モデルの対数線形の組合せでスコアをつけるステップと、
前記原言語の依存関係ツリー、前記一致ツリーレット翻訳対、および前記スコアに基づいて、前記目標言語のテキスト断片を表す目標言語の依存関係ツリーを生成するステップと
を備えることを特徴とする方法。
〔態様12〕
スコア付けは、前記統計モデルによって生成されるスコアにモデルの重みで重みをつけることを含み、前記モデルの重みは、
前記モデルの重みの様々な値で翻訳品質を測定する翻訳の測定基準の値を計算することにより、複数の連続的な最適化動作を行うステップと、
前記翻訳の測定基準の値の移動平均に基づいて、前記モデルの重みの値を選択するステップと
を含むトレーニング方法中に生成されることを特徴とする態様11に記載の方法。
〔態様13〕
コンピュータによって実行されると、
複数のツリーレット翻訳対の目標言語部分の様々な組合せに、統計モデルの対数線形の組合せでスコアをつけるステップであって、前記複数のツリーレット翻訳対はそれぞれ、原言語のテキスト断片を表す原言語の依存関係ツリーの少なくとも一部分と一致するステップと、
前記原言語の依存関係ツリー、前記複数のツリーレット翻訳対、および前記スコアに基づいて、前記原言語のテキスト断片の前記目標言語への翻訳である目標言語のテキスト断片を表す目標言語の依存関係ツリーを生成するステップと
を含むステップを前記コンピュータに行わせるコンピュータ可読命令を格納したことを特徴とするコンピュータ可読媒体。
〔態様14〕
目標言語の依存構造を生成するシステムであって、
原言語のトレーニングデータテキスト断片を表す原言語の依存構造中の語彙項目が、それに対応する、前記原言語のテキスト断片の翻訳であるトレーニングデータ目標言語テキスト断片の語彙項目と並置された並置済みの構造を得るように構成されたコーパス処理システムと、
前記原言語の依存構造の語彙項目から前記目標言語のテキスト断片の前記語彙項目に依存関係を投射して、前記目標言語の依存構造を得るように構成された依存関係投射コンポーネントと
を備えることを特徴とするシステム。
〔態様15〕
それぞれが、原言語のテキスト断片とそれに対応する目標言語のテキスト断片とを含む、複数の対訳テキスト断片の対を有するトレーニングデータコーパス
をさらに備えることを特徴とする態様14に記載のシステム。
〔態様16〕
前記依存関係投射コンポーネントは、前記目標言語の依存構造が前記目標言語のテキスト断片を正しく表すかどうかを判定し、正しく表さない場合は、前記目標言語のテキスト断片を正しく表すように前記目標言語の依存構造を調整するように構成されることを特徴とする態様14に記載のシステム。
〔態様17〕
前記依存関係投射コンポーネントは、前記目標言語の依存構造を読み取って目標言語のテキスト文字列を生成し、前記目標言語のテキスト文字列中の前記語彙項目が、前記目標言語のテキスト断片に現われる順序と異なる順序であるかどうかを判定することにより、前記目標言語の依存構造が前記目標言語のテキスト断片を正しく表すかどうかを判定するように構成されることを特徴とする態様16に記載のシステム。
〔態様18〕
前記依存関係投射コンポーネントは、前記目標言語の依存構造から読み取られる前記目標言語のテキスト文字列の語彙項目が、前記目標言語のテキスト断片に現われる順序と同じ順序になるまで、前記目標言語の依存構造を配列し直すことにより、前記目標言語の依存構造を調整するように構成されることを特徴とする態様17に記載のシステム。
〔態様19〕
前記目標言語の依存構造は、目標言語の依存関係ツリーを含み、前記依存関係投射コンポーネントは、前記目標言語の依存関係ツリー中で順序が正しくないノードを特定し、語彙項目が前記目標言語のテキスト断片に現われる順序と同じ順序である目標言語文字列をもたらす前記目標言語の依存関係ツリー中で最も低いレベルに前記特定されたノードを再結合することにより、再配列するように構成されることを特徴とする態様18に記載のシステム。
〔態様20〕
前記コーパス処理システムは、
前記原言語のテキスト断片を構文解析して、原言語の依存構造を得るように構成されたパーサと、
前記目標言語のテキスト断片を語彙項目に区分するように構成されたセグメンタと、
前記原言語の依存構造の語彙項目を前記目標言語のテキスト断片の語彙項目と並置するように構成された並置コンポーネントと
を備えることを特徴とする態様14に記載のシステム。
〔態様21〕
目標言語の依存構造を生成するコンピュータによって実行される方法であって、
それぞれが、原言語のテキスト断片とそれに対応する目標言語のテキスト断片とを含む、複数の対訳テキスト断片の対を有するトレーニングデータコーパスにアクセスするステップと、
原言語のテキスト断片に基づいて生成された原言語の依存構造中の語彙項目が、それに対応する目標言語のテキスト断片中の語彙項目と並置された並置済みの構造を得るステップと、
前記原言語の依存構造中の語彙項目から前記目標言語のテキスト断片の語彙項目に依存関係を投射して、前記目標言語の依存構造を得るステップと
を備えることを特徴とする方法。
〔態様22〕
前記投射するステップは、
前記原言語の依存構造中の語彙項目が前記目標言語のテキスト断片の語彙項目と並置されない場合は、前記原言語の依存構造中の前記並置されない語彙項目から前記目標言語のテキスト断片に依存関係を投射しないことを含むことを特徴とする態様21に記載の方法。
〔態様23〕
前記原言語の依存構造の依存関係は、前記原言語の依存構造中の第1の原語彙項目と第2の原語彙項目との間にあり、前記第1および第2の原語彙項目は、それぞれ前記目標言語のテキスト断片の第1および第2の目標語彙項目と並置され、投射するステップは、
前記第1の原語彙項目と前記第2の原語彙項目との間の前記依存関係を前記第1の目標語彙項目と第2の目標語彙項目に割り当てることを含むことを特徴とする態様21に記載の方法。
〔態様24〕
前記原言語の依存構造中の語彙項目は、前記目標言語のテキスト断片の複数の語彙項目と並置され、投射するステップは、
前記目標言語の依存構造中で前記複数の語彙項目の親ノードを特定するステップと、
前記目標言語のテキスト断片中の前記複数の語彙項目のうち一番右にある語彙項目を特定するステップと、
前記一番右にある語彙項目を前記親ノードからの依存要素として割り当てるステップと、
前記目標言語のテキスト断片中の前記複数の語彙項目の残りを前記一番右にある語彙項目からの依存要素として割り当てるステップと
を含むことを特徴とする態様21に記載の方法。
〔態様25〕
前記目標言語のテキスト断片中の並置されない語彙項目は、前記原言語の依存構造中の語彙項目と並置されず、投射するステップは、
前記目標言語のテキスト断片中で前記並置されない語彙項目のすぐ隣に位置する語彙項目を特定するステップと、
前記並置されない語彙項目を前記特定された語彙項目からの依存要素として割り当てるステップと
を含むことを特徴とする態様21に記載の方法。
〔態様26〕
特定するステップは、
前記目標言語のテキスト断片中の前記並置されない語彙項目の前後にある目標言語の語彙項目の集合の中で、前記目標言語の依存構造において最も低い1つの語彙項目を特定するステップと、
前記特定された語彙項目からの依存要素として前記並置されない語彙項目を割り当てるステップと
を含むことを特徴とする態様25に記載の方法。
〔態様27〕
前記原言語の依存構造中の複数の語彙項目が、前記目標言語のテキスト断片中の1つの語彙項目と並置され、投射するステップは、
前記原言語の依存構造中の複数の語彙項目の中で、前記原言語の依存構造において最も高い語彙項目を特定するステップと、
前記目標言語のテキスト断片中の前記1つの語彙項目に、前記原言語の依存構造中の前記複数の項目のうち前記特定された項目に関連付けられた依存関係を割り当てるステップと
を含むことを特徴とする態様21に記載の方法。
〔態様28〕
原言語の入力を目標言語の出力に変換する機械翻訳システムで使用するツリーレット翻訳対を特定する方法であって、
並置された、対訳構文依存関係構造の対からなるコーパスにアクセスするステップであって、各対は、語彙項目を表すノードを有する原言語の依存構造を含み、前記ノードは、目標言語の依存構造中の語彙項目を表すノードと並置されるステップと、
個々の原ノードと前記原言語の依存構造中で接続された原ノードの組合せを、語彙項目を特定する可能な原ツリーレットとして列挙し、前記目標言語の依存構造中で、前記列挙されたノードおよび接続されたノードの組合せと並置された対応する依存関係を、前記可能な原ツリーレットに対応する可能な目標ツリーレットとして列挙するステップと、
前記可能な原ツリーレットおよび可能な目標ツリーレットから、適切な形式のツリーレット翻訳対を抽出するステップと、
前記ツリーレット翻訳対をデータストアに記憶するステップと
を備えることを特徴とする方法。
〔態様29〕
親ノードの各子ノードは、前記親ノードの他の子ノードと接続されるものとみなされることを特徴とする態様28に記載の方法。
〔態様30〕
前記原言語の依存構造はそれぞれ、原言語のテキスト断片を表し、列挙するステップは、
それら接続された部分が前記原言語のテキスト断片中で隣接しない単語の集合を表すかどうかに関係なく、前記原言語の依存構造の接続された部分を列挙するステップを含むことを特徴とする態様28に記載の方法。
〔態様31〕
前記原言語の依存構造は、原言語の依存関係ツリーを含み、列挙するステップは、
前記原言語の依存関係ツリーで非線形の分岐を表すノードの接続されたセットを列挙するステップ
を含むことを特徴とする態様28に記載の方法。
〔態様32〕
適切な形式のツリーレット翻訳対を抽出するステップは、
前記可能な原ツリーレット中の前記語彙項目が前記可能な目標ツリーレット中の語彙項目と並置され、前記可能な目標ツリーレット中の前記語彙項目が前記可能な原ツリーレットの語彙項目とのみ並置される場合のみ、前記可能な原ツリーレットとそれに対応する可能な目標ツリーレットを適切な形式のツリーレット翻訳対として抽出するステップを備えることを特徴とする態様28に記載の方法。
〔態様33〕
原言語の入力を目標言語の出力に変換する機械翻訳システムで使用するツリーレット翻訳対をトレーニングデータから特定するシステムであって、
並置された、対訳構文依存関係構造の対からなるコーパスにアクセスするように構成されたツリーレット対エクストラクタであって、各対は、語彙項目を表すノードを有する原言語の依存構造を含み、前記ノードは、目標言語の依存構造中の語彙項目を表すノードと並置されるエクストラクタを備え、
前記ツリーレット対エクストラクタはさらに、前記原言語の依存構造の接続された部分である原ノードの集合を可能な原ツリーレットとして列挙するように構成されることを特徴とするシステム。
〔態様34〕
コンピュータによって実行されると、前記コンピュータに、原言語の入力を目標言語の出力に変換する機械翻訳システムで使用するツリーレット翻訳対を特定する方法を行わせるコンピュータ可読命令を記憶するコンピュータ可読媒体であって、前記方法は、
並置された、対訳構文依存関係構造の対からなるコーパスにアクセスするステップであって、各対は、語彙項目を表すノードを有する原言語の依存構造を含み、前記ノードは、目標言語の依存構造中の語彙項目を表すノードと並置されるステップと、
前記原言語の依存構造中の原ノードの接続された集合を可能な原ツリーレットとして列挙するステップと、
前記可能な原ツリーレットとそれに対応する目標言語の依存構造の並置された部分から、適切な形式のツリーレット翻訳対を抽出するステップと
を備えることを特徴とするコンピュータ可読媒体。
〔態様35〕
機械翻訳システムで使用するデータ構造であって、
各対が、原テキスト断片に基づく原言語の構文依存構造の接続された部分を含む原言語部分と、前記原言語部分の語彙項目と並置された語彙項目および構文上の依存関係を有する目標言語部分とを有する、複数のツリーレット翻訳対を備え、前記原言語部分は、共通の親ノードに従属する、前記原言語の構文依存構造からの複数の子ノードを含むことを特徴とするデータ構造。
〔態様36〕
原言語の依存構造、および前記原言語の依存構造のノードと目標言語の依存構造のノードとの並置を考慮して、前記目標言語の依存構造の順序付けにスコアを割り当てる方法であって、
原言語のテキスト断片を表す原言語の依存構造と目標言語の依存構造とを受け取るステップと、
前記目標言語の依存構造中で親ノードに直接従属する依存ノードの順序にスコアを割り当てるステップと
を備えることを特徴とする方法。
〔態様37〕
前記目標言語の依存構造は、複数の親ノードを含み、前記依存ノードの順序にスコアを割り当てるステップは、
前記目標言語の依存構造中で前記複数の親ノードそれぞれに直接従属する依存ノードの順序にスコアを割り当てるステップ
を備えることを特徴とする態様36に記載の方法。
〔態様38〕
前記目標言語の依存構造は、複数のレベルを有する目標言語の依存関係ツリーを含み、スコアを割り当てるステップは、
前記複数レベルを有する目標言語の依存関係ツリーの他のレベルのノードの順序に関係なく、前記複数レベルを有する目標言語の依存関係ツリーの各レベルの依存ノードの順序にスコアを割り当てるステップと、
各レベルの前記スコアをともに組み合わせて、前記目標言語の依存構造全体の順序付けのスコアを割り当てるステップと
を含むことを特徴とする態様36に記載の方法。
〔態様39〕
各レベルの依存ノードの順序にスコアを割り当てるステップは、
前記目標言語の依存関係ツリーの各レベルで、順に、各ノードにスコアを割り当てるステップと、
各ノードに割り当てられた前記スコアを組み合わせて各レベルにスコアを割り当てるステップと
を含むことを特徴とする態様38に記載の方法。
〔態様40〕
各ノードにスコアを割り当てるステップは、
前記親ノードに対して位置のオフセットを有する各ノードの確率を計算するステップ
を含むことを特徴とする態様39に記載の方法。
〔態様41〕
前記原言語の依存構造は、前記目標言語の依存関係ツリーの前記ノードと並置されたノードを有し、各ノードのスコアを割り当てるステップは、
前記目標言語の依存関係ノード中の選択されたノードと並置された前記原言語の依存構造中のノードが、前記原言語の依存構造でその親ノードの前置修飾語または後置修飾語であった場合に、前記目標言語の依存関係ツリー中の前記選択されたノードが切り替わって、前記目標言語の依存構造中でその親ノードの前置修飾語または後置修飾語になる確率を計算するステップ
を含むことを特徴とする態様39に記載の方法。
〔態様42〕
各ノードにスコアを割り当てるステップは、
前記選択されたノードが、前記目標言語の依存関係ツリーの同じレベルにある他のノードに対してその親ノードに所与の近さを有する確率を計算するステップ
を含むことを特徴とする態様41に記載の方法。
〔態様43〕
各ノードにスコアを割り当てるステップは、
前記目標言語の依存関係ツリー中の選択されたノードが、前記目標言語の依存関係ツリーの同じレベルにある他のノードそれぞれに対して順序の位置を変え、前記選択されたノードと同じ修飾語関係を前記親ノードに対して有するべきかどうかを示すスコアを割り当てるステップ
を含むことを特徴とする態様41に記載の方法。
〔態様44〕
前記目標言語の依存構造の順序に割り当てられる前記スコアは、
前記依存ノードおよび前記親ノードに対応する目標単語、前記目標単語と並置された原単語、前記原言語の依存構造における前記原単語の位置、および前記原単語と目標単語それぞれの品詞、
を含む特性のセットの少なくとも一部を含む複数の特性に基づくことを特徴とする態様36に記載の方法。
〔態様45〕
並置された、対訳依存関係構造からなるコーパスに基づいて、依存ノードの順序にスコアを割り当てることを学習するステップをさらに備え、スコアを割り当てることを学習するステップは、
前記コーパス中の順序付けられた目標言語の依存構造から特性のセットを集めるステップと、
前記特性のセットに機械学習技術を使用して、原言語の依存構造、および前記原言語の依存構造と目標言語の依存構造間の並置を考慮して、目標言語の依存構造の順序付けにスコアを割り当てるためのモデルを作成するステップと
を含むことを特徴とする態様36に記載の方法。
〔態様46〕
原言語の依存構造、および原言語の依存構造のノードと前記目標言語の依存構造のノードとの間の並置を考慮して、目標言語依存構造の順序付けにスコアを割り当てるためのモデルであって、
前記原言語の依存構造の複数の原ノード、および前記原言語の依存構造のノードと前記目標言語の依存ノードとの間の並置を考慮して、前記目標言語の依存構造中の親ノードに従属する子ノードの順序にスコアを割り当てるように構成された順序モデル
を備えることを特徴とするモデル。
〔態様47〕
モデルをトレーニングする方法であって、
並置された、対訳の原言語の依存構造と目標言語の依存構造からなるコーパスにアクセスするステップと、
前記コーパス中の特性のセットに基づいて、機械学習システムで目標言語の依存構造のノードの順序付けにスコアを割り当てるように前記モデルをトレーニングするステップと
を備えることを特徴とする方法。
120 処理装置
130 システムメモリ
134 オペレーティングシステム
135 アプリケーションプログラム
136 他のプログラムモジュール
137 プログラムデータ
140 取り外し不能、不揮発性メモリインターフェース
144 オペレーティングシステム
145 アプリケーションプログラム
146 他のプログラムモジュール
147 プログラムデータ
150 取り外し可能、不揮発性メモリインターフェース
160 ユーザ入力インターフェース
161 ポインティングデバイス
162 キーボード
163 マイクロフォン
170 ネットワークインターフェース
171 ローカルエリアネットワーク
172 モデム
173 ワイドエリアネットワーク
180 リモートコンピュータ
185 リモートアプリケーションプログラム
190 ビデオインターフェース
191 モニタ
195 出力周辺インターフェース
196 プリンタ
197 スピーカ
202 文並置された大きな対訳コーパス
204 ツリーレット翻訳対データベース
206 順序モデル
208 一致モデル
210 翻訳確率テーブル
212 目標言語モデル
214 原言語依存関係構文解析コンポーネント
216 目標言語語分割コンポーネント
218 教師なし語並置コンポーネント
220 依存関係ツリー投射コンポーネント
222 目標言語モデルトレーニングコンポーネント
224 ツリーレット対エクストラクタ
226 順序モデルトレーニングコンポーネント
228 一致モデルトレーニングコンポーネント
256 語分割された対訳コーパス
258 語並置された対訳コーパス
262 原言語依存関係ツリー
400 語並置された、対訳依存関係ツリーコーパス
602 モデルの重み
604 ツリーレット翻訳対一致コンポーネント
606 原言語依存関係構文解析コンポーネント
608 デコーダ
610 入力文
614 原言語の依存関係ツリー
618 ツリーレット翻訳対
621 上位N個の翻訳

Claims (13)

  1. 目標言語の依存構造を生成するコンピュータシステムであって、前記コンピュータシステムに記憶されたコンピュータ可読命令が前記コンピュータシステムの処理装置によって実行されると、
    原言語のトレーニングデータテキスト断片を表す原言語の依存構造中の語彙項目が、それに対応する、前記原言語のテキスト断片の翻訳であるトレーニングデータ目標言語テキスト断片の語彙項目と並置された並置済みの構造を得るように構成されたコーパス処理システムと、
    前記原言語の依存構造の語彙項目から前記目標言語のテキスト断片の前記語彙項目に依存関係を投射して、前記目標言語の依存構造を得るように構成された依存関係投射コンポーネントと
    を備え、
    前記目標言語の依存構造は、目標言語の依存関係ツリーを含み、
    前記依存関係投射コンポーネントは、前記目標言語の依存関係ツリー中で順序が正しくないノードを特定し、語彙項目が前記目標言語のテキスト断片に現われる順序と同じ順序である目標言語文字列をもたらす前記目標言語の依存関係ツリー中で最も低いレベルに前記特定されたノードを再結合することにより、前記目標言語の依存構造を再調整するように構成される、
    ことを特徴とするシステム。
  2. それぞれが、原言語のテキスト断片とそれに対応する目標言語のテキスト断片とを含む、複数の対訳テキスト断片の対を有するトレーニングデータコーパス
    をさらに備えることを特徴とする請求項1に記載のシステム。
  3. 前記依存関係投射コンポーネントは、前記目標言語の依存構造が前記目標言語のテキスト断片を正しく表すかどうかを判定し、正しく表さない場合は、前記目標言語のテキスト断片を正しく表すように前記目標言語の依存構造を調整するように構成されることを特徴とする請求項1に記載のシステム。
  4. 前記依存関係投射コンポーネントは、前記目標言語の依存構造を読み取って目標言語のテキスト文字列を生成し、前記目標言語のテキスト文字列中の前記語彙項目が、前記目標言語のテキスト断片に現われる順序と異なる順序であるかどうかを判定することにより、前記目標言語の依存構造が前記目標言語のテキスト断片を正しく表すかどうかを判定するように構成されることを特徴とする請求項3に記載のシステム。
  5. 前記依存関係投射コンポーネントは、前記目標言語の依存構造から読み取られる前記目標言語のテキスト文字列の語彙項目が、前記目標言語のテキスト断片に現われる順序と同じ順序になるまで、前記目標言語の依存構造を配列し直すことにより、前記目標言語の依存構造を調整するように構成されることを特徴とする請求項4に記載のシステム。
  6. 前記コーパス処理システムは、
    前記原言語のテキスト断片を構文解析して、原言語の依存構造を得るように構成されたパーサと、
    前記目標言語のテキスト断片を語彙項目に区分するように構成されたセグメンタと、
    前記原言語の依存構造の語彙項目を前記目標言語のテキスト断片の語彙項目と並置するように構成された並置コンポーネントと
    を備えることを特徴とする請求項1に記載のシステム。
  7. 目標言語の依存構造を生成する方法であって、前記方法は、コンピュータに記憶されたコンピュータ可読命令が前記コンピュータの処理装置によって実行されることによって実施され、
    それぞれが、原言語のテキスト断片とそれに対応する目標言語のテキスト断片とを含む、複数の対訳テキスト断片の対を有するトレーニングデータコーパスにアクセスするステップと、
    原言語のテキスト断片に基づいて生成された原言語の依存構造中の語彙項目が、それに対応する目標言語のテキスト断片中の語彙項目と並置された並置済みの構造を得るステップと、
    前記原言語の依存構造中の語彙項目から前記目標言語のテキスト断片の語彙項目に依存関係を投射して、前記目標言語の依存構造を得るステップと
    を備え、
    前記目標言語の依存構造は、目標言語の依存関係ツリーを含み、
    前記依存関係投射コンポーネントは、前記目標言語の依存関係ツリー中で順序が正しくないノードを特定し、語彙項目が前記目標言語のテキスト断片に現われる順序と同じ順序である目標言語文字列をもたらす前記目標言語の依存関係ツリー中で最も低いレベルに前記特定されたノードを再結合することにより、前記目標言語の依存構造を再調整するように構成される、
    ことを特徴とする方法。
  8. 前記投射するステップは、
    前記原言語の依存構造中の語彙項目が前記目標言語のテキスト断片の語彙項目と並置されない場合は、前記原言語の依存構造中の前記並置されない語彙項目から前記目標言語のテキスト断片に依存関係を投射しないことを含むことを特徴とする請求項7に記載の方法。
  9. 前記原言語の依存構造の依存関係は、前記原言語の依存構造中の第1の原語彙項目と第2の原語彙項目との間にあり、前記第1および第2の原語彙項目は、それぞれ前記目標言語のテキスト断片の第1および第2の目標語彙項目と並置され、投射するステップは、
    前記第1の原語彙項目と前記第2の原語彙項目との間の前記依存関係を前記第1の目標語彙項目と第2の目標語彙項目に割り当てることを含むことを特徴とする請求項7に記載の方法。
  10. 前記原言語の依存構造中の語彙項目は、前記目標言語のテキスト断片の複数の語彙項目と並置され、投射するステップは、
    前記目標言語の依存構造中で前記複数の語彙項目の親ノードを特定するステップと、
    前記目標言語のテキスト断片中の前記複数の語彙項目のうち一番右にある語彙項目を特定するステップと、
    前記一番右にある語彙項目を前記親ノードからの依存要素として割り当てるステップと、
    前記目標言語のテキスト断片中の前記複数の語彙項目の残りを前記一番右にある語彙項目からの依存要素として割り当てるステップと
    を含むことを特徴とする請求項7に記載の方法。
  11. 前記目標言語のテキスト断片中の並置されない語彙項目は、前記原言語の依存構造中の語彙項目と並置されず、投射するステップは、
    前記目標言語のテキスト断片中で前記並置されない語彙項目のすぐ隣に位置する語彙項目を特定するステップと、
    前記並置されない語彙項目を前記特定された語彙項目からの依存要素として割り当てるステップと
    を含むことを特徴とする請求項7に記載の方法。
  12. 特定するステップは、
    前記目標言語のテキスト断片中の前記並置されない語彙項目の前後にある目標言語の語彙項目の集合の中で、前記目標言語の依存構造において最も低い1つの語彙項目を特定するステップと、
    前記特定された語彙項目からの依存要素として前記並置されない語彙項目を割り当てるステップと
    を含むことを特徴とする請求項11に記載の方法。
  13. 前記原言語の依存構造中の複数の語彙項目が、前記目標言語のテキスト断片中の1つの語彙項目と並置され、投射するステップは、
    前記原言語の依存構造中の複数の語彙項目の中で、前記原言語の依存構造において最も高い語彙項目を特定するステップと、
    前記目標言語のテキスト断片中の前記1つの語彙項目に、前記原言語の依存構造中の前記複数の項目のうち前記特定された項目に関連付けられた依存関係を割り当てるステップと
    を含むことを特徴とする請求項7に記載の方法。
JP2014102432A 2004-11-04 2014-05-16 ツリーレット翻訳対の抽出 Expired - Fee Related JP5774751B2 (ja)

Applications Claiming Priority (10)

Application Number Priority Date Filing Date Title
US62548904P 2004-11-04 2004-11-04
US60/625,489 2004-11-04
US11/014,108 US7200550B2 (en) 2004-11-04 2004-12-16 Projecting dependencies to generate target language dependency structure
US11/014,152 2004-12-16
US11/014,503 US7698124B2 (en) 2004-11-04 2004-12-16 Machine translation system incorporating syntactic dependency treelets into a statistical framework
US11/014,492 US7577562B2 (en) 2004-11-04 2004-12-16 Extracting treelet translation pairs
US11/014,152 US7505894B2 (en) 2004-11-04 2004-12-16 Order model for dependency structure
US11/014,108 2004-12-16
US11/014,492 2004-12-16
US11/014,503 2004-12-16

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2005299176A Division JP5586817B2 (ja) 2004-11-04 2005-10-13 ツリーレット翻訳対の抽出

Publications (2)

Publication Number Publication Date
JP2014142975A JP2014142975A (ja) 2014-08-07
JP5774751B2 true JP5774751B2 (ja) 2015-09-09

Family

ID=36751429

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014102432A Expired - Fee Related JP5774751B2 (ja) 2004-11-04 2014-05-16 ツリーレット翻訳対の抽出

Country Status (3)

Country Link
US (5) US7698124B2 (ja)
JP (1) JP5774751B2 (ja)
CN (1) CN1770107B (ja)

Families Citing this family (319)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4718687B2 (ja) * 1999-03-19 2011-07-06 トラドス ゲゼルシャフト ミット ベシュレンクテル ハフツング ワークフロー管理システム
US20060116865A1 (en) 1999-09-17 2006-06-01 Www.Uniscape.Com E-services translation utilizing machine translation and translation memory
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
FR2825496B1 (fr) * 2001-06-01 2003-08-15 Synomia Procede et systeme d'analyse syntaxique large de corpus, notamment de corpus specialises
AU2002316581A1 (en) 2001-07-03 2003-01-21 University Of Southern California A syntax-based statistical translation model
EP1306775A1 (en) * 2001-10-29 2003-05-02 BRITISH TELECOMMUNICATIONS public limited company Machine translation
WO2004001623A2 (en) 2002-03-26 2003-12-31 University Of Southern California Constructing a translation lexicon from comparable, non-parallel corpora
EP1349079A1 (en) * 2002-03-28 2003-10-01 BRITISH TELECOMMUNICATIONS public limited company Machine translation
US8548794B2 (en) 2003-07-02 2013-10-01 University Of Southern California Statistical noun phrase translation
US7983896B2 (en) 2004-03-05 2011-07-19 SDL Language Technology In-context exact (ICE) matching
US8296127B2 (en) * 2004-03-23 2012-10-23 University Of Southern California Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
GB0406619D0 (en) * 2004-03-24 2004-04-28 British Telecomm Induction of grammar rules
US8666725B2 (en) * 2004-04-16 2014-03-04 University Of Southern California Selection and use of nonstatistical translation components in a statistical machine translation framework
US7765520B2 (en) * 2004-05-21 2010-07-27 Bea Systems, Inc. System and method for managing cross project dependencies at development time
DE112005002534T5 (de) 2004-10-12 2007-11-08 University Of Southern California, Los Angeles Training für eine Text-Text-Anwendung, die eine Zeichenketten-Baum-Umwandlung zum Training und Decodieren verwendet
US7698124B2 (en) * 2004-11-04 2010-04-13 Microsoft Corporaiton Machine translation system incorporating syntactic dependency treelets into a statistical framework
CA2525729A1 (en) * 2004-11-08 2006-05-08 At&T Corp. System and method for compiling rules created by machine learning program
US8719244B1 (en) 2005-03-23 2014-05-06 Google Inc. Methods and systems for retrieval of information items and associated sentence fragments
US7937396B1 (en) * 2005-03-23 2011-05-03 Google Inc. Methods and systems for identifying paraphrases from an index of information items and associated sentence fragments
US20060245654A1 (en) * 2005-04-29 2006-11-02 Microsoft Corporation Utilizing grammatical parsing for structured layout analysis
US8886517B2 (en) 2005-06-17 2014-11-11 Language Weaver, Inc. Trust scoring for language translation systems
US8676563B2 (en) 2009-10-01 2014-03-18 Language Weaver, Inc. Providing human-generated and machine-generated trusted translations
US8249344B2 (en) * 2005-07-01 2012-08-21 Microsoft Corporation Grammatical parsing of document visual structures
US7664629B2 (en) * 2005-07-19 2010-02-16 Xerox Corporation Second language writing advisor
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7937265B1 (en) 2005-09-27 2011-05-03 Google Inc. Paraphrase acquisition
US10319252B2 (en) 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
JP4058071B2 (ja) * 2005-11-22 2008-03-05 株式会社東芝 用例翻訳装置、用例翻訳方法および用例翻訳プログラム
JP4961755B2 (ja) * 2006-01-23 2012-06-27 富士ゼロックス株式会社 単語アライメント装置、単語アライメント方法、単語アライメントプログラム
US8509563B2 (en) * 2006-02-02 2013-08-13 Microsoft Corporation Generation of documents from images
JP2007233486A (ja) * 2006-02-27 2007-09-13 Fujitsu Ltd 翻訳者支援プログラム,翻訳者支援装置及び翻訳者支援方法
US7451120B1 (en) * 2006-03-20 2008-11-11 Google Inc. Detecting novel document content
US8943080B2 (en) 2006-04-07 2015-01-27 University Of Southern California Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections
US8209162B2 (en) * 2006-05-01 2012-06-26 Microsoft Corporation Machine translation split between front end and back end processors
US9020804B2 (en) * 2006-05-10 2015-04-28 Xerox Corporation Method for aligning sentences at the word level enforcing selective contiguity constraints
US8898052B2 (en) * 2006-05-22 2014-11-25 Facebook, Inc. Systems and methods for training statistical speech translation systems from speech utilizing a universal speech recognizer
US8244730B2 (en) * 2006-05-30 2012-08-14 Honda Motor Co., Ltd. Learning syntactic patterns for automatic discovery of causal relations from text
US8886518B1 (en) 2006-08-07 2014-11-11 Language Weaver, Inc. System and method for capitalizing machine translated text
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8521506B2 (en) 2006-09-21 2013-08-27 Sdl Plc Computer-implemented method, computer software and apparatus for use in a translation system
JP4481972B2 (ja) * 2006-09-28 2010-06-16 株式会社東芝 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム
US7814045B2 (en) * 2006-10-04 2010-10-12 Sap Ag Semantical partitioning of data
US9495358B2 (en) 2006-10-10 2016-11-15 Abbyy Infopoisk Llc Cross-language text clustering
US9069750B2 (en) 2006-10-10 2015-06-30 Abbyy Infopoisk Llc Method and system for semantic searching of natural language texts
US9471562B2 (en) 2006-10-10 2016-10-18 Abbyy Infopoisk Llc Method and system for analyzing and translating various languages with use of semantic hierarchy
US9075864B2 (en) 2006-10-10 2015-07-07 Abbyy Infopoisk Llc Method and system for semantic searching using syntactic and semantic analysis
US9588958B2 (en) 2006-10-10 2017-03-07 Abbyy Infopoisk Llc Cross-language text classification
US9892111B2 (en) 2006-10-10 2018-02-13 Abbyy Production Llc Method and device to estimate similarity between documents having multiple segments
US8892423B1 (en) 2006-10-10 2014-11-18 Abbyy Infopoisk Llc Method and system to automatically create content for dictionaries
US9633005B2 (en) 2006-10-10 2017-04-25 Abbyy Infopoisk Llc Exhaustive automatic processing of textual information
US8145473B2 (en) 2006-10-10 2012-03-27 Abbyy Software Ltd. Deep model statistics method for machine translation
US9235573B2 (en) 2006-10-10 2016-01-12 Abbyy Infopoisk Llc Universal difference measure
US8195447B2 (en) 2006-10-10 2012-06-05 Abbyy Software Ltd. Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US9098489B2 (en) 2006-10-10 2015-08-04 Abbyy Infopoisk Llc Method and system for semantic searching
US9053090B2 (en) 2006-10-10 2015-06-09 Abbyy Infopoisk Llc Translating texts between languages
US9645993B2 (en) 2006-10-10 2017-05-09 Abbyy Infopoisk Llc Method and system for semantic searching
US8433556B2 (en) * 2006-11-02 2013-04-30 University Of Southern California Semi-supervised training for statistical word alignment
US9122674B1 (en) 2006-12-15 2015-09-01 Language Weaver, Inc. Use of annotations in statistical machine translation
US8065307B2 (en) * 2006-12-20 2011-11-22 Microsoft Corporation Parsing, analysis and scoring of document content
US20080162117A1 (en) * 2006-12-28 2008-07-03 Srinivas Bangalore Discriminative training of models for sequence classification
JP4997966B2 (ja) * 2006-12-28 2012-08-15 富士通株式会社 対訳例文検索プログラム、対訳例文検索装置、および対訳例文検索方法
US8468149B1 (en) 2007-01-26 2013-06-18 Language Weaver, Inc. Multi-lingual online community
US20080221870A1 (en) * 2007-03-08 2008-09-11 Yahoo! Inc. System and method for revising natural language parse trees
US8788258B1 (en) 2007-03-15 2014-07-22 At&T Intellectual Property Ii, L.P. Machine translation using global lexical selection and sentence reconstruction
US8615389B1 (en) 2007-03-16 2013-12-24 Language Weaver, Inc. Generation and exploitation of an approximate language model
US8959011B2 (en) 2007-03-22 2015-02-17 Abbyy Infopoisk Llc Indicating and correcting errors in machine translation systems
US8326598B1 (en) 2007-03-26 2012-12-04 Google Inc. Consensus translations from multiple machine translation systems
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8831928B2 (en) 2007-04-04 2014-09-09 Language Weaver, Inc. Customizable machine translation service
US9779079B2 (en) * 2007-06-01 2017-10-03 Xerox Corporation Authoring system
US8825466B1 (en) 2007-06-08 2014-09-02 Language Weaver, Inc. Modification of annotated bilingual segment pairs in syntax-based machine translation
US7983898B2 (en) * 2007-06-08 2011-07-19 Microsoft Corporation Generating a phrase translation model by iteratively estimating phrase translation probabilities
US8452585B2 (en) * 2007-06-21 2013-05-28 Microsoft Corporation Discriminative syntactic word order model for machine translation
US20090234635A1 (en) * 2007-06-29 2009-09-17 Vipul Bhatt Voice Entry Controller operative with one or more Translation Resources
US8639509B2 (en) * 2007-07-27 2014-01-28 Robert Bosch Gmbh Method and system for computing or determining confidence scores for parse trees at all levels
US20090030861A1 (en) * 2007-07-27 2009-01-29 Paul Almond Ltd Probabilistic Prediction Based Artificial Intelligence Planning System
US8548791B2 (en) * 2007-08-29 2013-10-01 Microsoft Corporation Validation of the consistency of automatic terminology translation
JP5342760B2 (ja) * 2007-09-03 2013-11-13 株式会社東芝 訳語学習のためのデータを作成する装置、方法、およびプログラム
US8180624B2 (en) * 2007-09-05 2012-05-15 Microsoft Corporation Fast beam-search decoding for phrasal statistical machine translation
US8046211B2 (en) 2007-10-23 2011-10-25 Microsoft Corporation Technologies for statistical machine translation based on generated reordering knowledge
US8375073B1 (en) 2007-11-12 2013-02-12 Google Inc. Identification and ranking of news stories of interest
JP5239307B2 (ja) * 2007-11-20 2013-07-17 富士ゼロックス株式会社 翻訳装置及び翻訳プログラム
US8209164B2 (en) * 2007-11-21 2012-06-26 University Of Washington Use of lexical translations for facilitating searches
CN101452446A (zh) * 2007-12-07 2009-06-10 株式会社东芝 目标语言单词变形的方法及装置
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US7996379B1 (en) 2008-02-01 2011-08-09 Google Inc. Document ranking using word relationships
US8615388B2 (en) * 2008-03-28 2013-12-24 Microsoft Corporation Intra-language statistical machine translation
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8706477B1 (en) * 2008-04-25 2014-04-22 Softwin Srl Romania Systems and methods for lexical correspondence linguistic knowledge base creation comprising dependency trees with procedural nodes denoting execute code
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20090326916A1 (en) * 2008-06-27 2009-12-31 Microsoft Corporation Unsupervised chinese word segmentation for statistical machine translation
US20100017293A1 (en) * 2008-07-17 2010-01-21 Language Weaver, Inc. System, method, and computer program for providing multilingual text advertisments
US20100023315A1 (en) * 2008-07-25 2010-01-28 Microsoft Corporation Random walk restarts in minimum error rate training
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US9262409B2 (en) 2008-08-06 2016-02-16 Abbyy Infopoisk Llc Translation of a selected text fragment of a screen
US9176952B2 (en) * 2008-09-25 2015-11-03 Microsoft Technology Licensing, Llc Computerized statistical machine translation with phrasal decoder
US8583418B2 (en) * 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8374881B2 (en) * 2008-11-26 2013-02-12 At&T Intellectual Property I, L.P. System and method for enriching spoken language translation with dialog acts
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8996488B2 (en) * 2008-12-17 2015-03-31 At&T Intellectual Property I, L.P. Methods, systems and computer program products for obtaining geographical coordinates from a textually identified location
US9262403B2 (en) 2009-03-02 2016-02-16 Sdl Plc Dynamic generation of auto-suggest dictionary for natural language translation
GB2468278A (en) * 2009-03-02 2010-09-08 Sdl Plc Computer assisted natural language translation outputs selectable target text associated in bilingual corpus with input target text from partial translation
US20100228538A1 (en) * 2009-03-03 2010-09-09 Yamada John A Computational linguistic systems and methods
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US20100299132A1 (en) * 2009-05-22 2010-11-25 Microsoft Corporation Mining phrase pairs from an unstructured resource
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US8762131B1 (en) 2009-06-17 2014-06-24 Softwin Srl Romania Systems and methods for managing a complex lexicon comprising multiword expressions and multiword inflection templates
US8762130B1 (en) 2009-06-17 2014-06-24 Softwin Srl Romania Systems and methods for natural language processing including morphological analysis, lemmatizing, spell checking and grammar checking
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8990064B2 (en) 2009-07-28 2015-03-24 Language Weaver, Inc. Translating documents based on content
US8380486B2 (en) 2009-10-01 2013-02-19 Language Weaver, Inc. Providing machine-generated translations and corresponding trust levels
EP4318463A3 (en) 2009-12-23 2024-02-28 Google LLC Multi-modal input on an electronic device
US11416214B2 (en) 2009-12-23 2022-08-16 Google Llc Multi-modal input on an electronic device
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
US8285633B2 (en) * 2010-03-29 2012-10-09 Tarlow Maier J System and method for direct client access for management of securities transactions
US8265923B2 (en) * 2010-05-11 2012-09-11 Xerox Corporation Statistical machine translation employing efficient parameter training
US9767095B2 (en) 2010-05-21 2017-09-19 Western Standard Publishing Company, Inc. Apparatus, system, and method for computer aided translation
US9201871B2 (en) 2010-06-11 2015-12-01 Microsoft Technology Licensing, Llc Joint optimization for machine translation system combination
US20120010870A1 (en) * 2010-07-09 2012-01-12 Vladimir Selegey Electronic dictionary and dictionary writing system
KR101794274B1 (ko) * 2010-07-13 2017-11-06 에스케이플래닛 주식회사 계층적 구문 기반의 통계적 기계 번역에서의 번역규칙 필터링과 목적단어 생성을 위한 방법 및 장치
CN102375809A (zh) * 2010-08-04 2012-03-14 英业达股份有限公司 以输入的第一语言即时输出第二语言的系统及其方法
US8326600B2 (en) * 2010-08-11 2012-12-04 Google Inc. Evaluating and modifying transliteration rules
TW201214158A (en) * 2010-09-21 2012-04-01 Inventec Corp System and method for using first language input to instantly output second language
US8560477B1 (en) * 2010-10-08 2013-10-15 Google Inc. Graph-based semi-supervised learning of structured tagging models
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US8352245B1 (en) 2010-12-30 2013-01-08 Google Inc. Adjusting language models
JP5747508B2 (ja) * 2011-01-05 2015-07-15 富士ゼロックス株式会社 対訳情報検索装置、翻訳装置及びプログラム
US9128929B2 (en) 2011-01-14 2015-09-08 Sdl Language Technologies Systems and methods for automatically estimating a translation time including preparation time in addition to the translation itself
US8296142B2 (en) 2011-01-21 2012-10-23 Google Inc. Speech recognition using dock context
US10140320B2 (en) 2011-02-28 2018-11-27 Sdl Inc. Systems, methods, and media for generating analytical data
JP5697202B2 (ja) * 2011-03-08 2015-04-08 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 用語の対応を見出す方法、プログラム及びシステム
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
CN102117270B (zh) * 2011-03-29 2016-01-20 中国科学院自动化研究所 一种基于模糊树到精确树的统计机器翻译方法
US8983995B2 (en) 2011-04-15 2015-03-17 Microsoft Corporation Interactive semantic query suggestion for content search
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
CN102254323B (zh) * 2011-06-10 2013-02-27 西安电子科技大学 基于treelet融合和水平集分割的遥感图像变化检测
US8694303B2 (en) 2011-06-15 2014-04-08 Language Weaver, Inc. Systems and methods for tuning parameters in statistical machine translation
US9201862B2 (en) * 2011-06-16 2015-12-01 Asociacion Instituto Tecnologico De Informatica Method for symbolic correction in human-machine interfaces
US8635233B2 (en) * 2011-06-27 2014-01-21 Microsoft Corporation Techniques to automatically build a language dependency graph for localizable resources
US8725496B2 (en) 2011-07-26 2014-05-13 International Business Machines Corporation Customization of a natural language processing engine
KR20130014106A (ko) * 2011-07-29 2013-02-07 한국전자통신연구원 다중 번역 엔진을 사용한 번역 장치 및 방법
US9984054B2 (en) 2011-08-24 2018-05-29 Sdl Inc. Web interface including the review and manipulation of a web document and utilizing permission based control
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8914277B1 (en) * 2011-09-20 2014-12-16 Nuance Communications, Inc. Speech and language translation of an utterance
US8886679B2 (en) * 2011-10-11 2014-11-11 Hewlett-Packard Development Company, L.P. Mining web applications
US8886515B2 (en) 2011-10-19 2014-11-11 Language Weaver, Inc. Systems and methods for enhancing machine translation post edit review processes
US8935151B1 (en) 2011-12-07 2015-01-13 Google Inc. Multi-source transfer of delexicalized dependency parsers
US20150161109A1 (en) * 2012-01-13 2015-06-11 Google Inc. Reordering words for machine translation
CN104160396B (zh) * 2012-03-01 2017-06-16 国际商业机器公司 在字符串集之中查找最佳匹配字符串的方法和系统
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US8942973B2 (en) 2012-03-09 2015-01-27 Language Weaver, Inc. Content page URL translation
US8989485B2 (en) 2012-04-27 2015-03-24 Abbyy Development Llc Detecting a junction in a text line of CJK characters
US8971630B2 (en) 2012-04-27 2015-03-03 Abbyy Development Llc Fast CJK character recognition
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
CN102708098B (zh) * 2012-05-30 2015-02-04 中国科学院自动化研究所 一种基于依存连贯性约束的双语词语自动对齐方法
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US10810368B2 (en) * 2012-07-10 2020-10-20 Robert D. New Method for parsing natural language text with constituent construction links
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
CN102945231B (zh) * 2012-10-19 2015-03-11 中国科学院计算技术研究所 一种面向增量式翻译的结构化语言模型构建方法及系统
US9152622B2 (en) 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
CN103150329A (zh) * 2013-01-06 2013-06-12 清华大学 双语文本的词语对齐方法及装置
BR112015018905B1 (pt) 2013-02-07 2022-02-22 Apple Inc Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3008641A1 (en) 2013-06-09 2016-04-20 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的系统和方法
KR101749009B1 (ko) 2013-08-06 2017-06-19 애플 인크. 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화
US9213694B2 (en) 2013-10-10 2015-12-15 Language Weaver, Inc. Efficient online domain adaptation
RU2592395C2 (ru) 2013-12-19 2016-07-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Разрешение семантической неоднозначности при помощи статистического анализа
RU2586577C2 (ru) 2014-01-15 2016-06-10 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Фильтрация дуг в синтаксическом графе
US9842592B2 (en) 2014-02-12 2017-12-12 Google Inc. Language models using non-linguistic context
US9412365B2 (en) 2014-03-24 2016-08-09 Google Inc. Enhanced maximum entropy models
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
CN106471570B (zh) 2014-05-30 2019-10-01 苹果公司 多命令单一话语输入方法
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9740687B2 (en) 2014-06-11 2017-08-22 Facebook, Inc. Classifying languages for objects and entities
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
CN104239290B (zh) * 2014-08-08 2017-02-15 中国科学院计算技术研究所 基于依存树的统计机器翻译方法及系统
US9524293B2 (en) * 2014-08-15 2016-12-20 Google Inc. Techniques for automatically swapping languages and/or content for machine translation
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
RU2596600C2 (ru) 2014-09-02 2016-09-10 Общество с ограниченной ответственностью "Аби Девелопмент" Способы и системы обработки изображений математических выражений
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9805028B1 (en) * 2014-09-17 2017-10-31 Google Inc. Translating terms using numeric representations
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9442922B2 (en) * 2014-11-18 2016-09-13 Xerox Corporation System and method for incrementally updating a reordering model for a statistical machine translation system
US9626358B2 (en) 2014-11-26 2017-04-18 Abbyy Infopoisk Llc Creating ontologies by analyzing natural language texts
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9864744B2 (en) 2014-12-03 2018-01-09 Facebook, Inc. Mining multi-lingual data
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9830386B2 (en) 2014-12-30 2017-11-28 Facebook, Inc. Determining trending topics in social media
US9830404B2 (en) 2014-12-30 2017-11-28 Facebook, Inc. Analyzing language dependency structures
US10067936B2 (en) 2014-12-30 2018-09-04 Facebook, Inc. Machine translation output reranking
JP6607482B2 (ja) * 2015-02-02 2019-11-20 国立研究開発法人情報通信研究機構 構文解析装置、学習装置、機械翻訳装置、およびプログラム
US9477652B2 (en) 2015-02-13 2016-10-25 Facebook, Inc. Machine learning dialect identification
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
JP2016177341A (ja) * 2015-03-18 2016-10-06 株式会社エヌ・ティ・ティ・データ 対訳文生成装置、翻訳装置、対訳文生成方法、及びプログラム
US10134394B2 (en) 2015-03-20 2018-11-20 Google Llc Speech recognition using log-linear model
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
CN106372053B (zh) * 2015-07-22 2020-04-28 华为技术有限公司 句法分析的方法和装置
CN106484681B (zh) 2015-08-25 2019-07-09 阿里巴巴集团控股有限公司 一种生成候选译文的方法、装置及电子设备
CN106484682B (zh) 2015-08-25 2019-06-25 阿里巴巴集团控股有限公司 基于统计的机器翻译方法、装置及电子设备
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
KR102407630B1 (ko) * 2015-09-08 2022-06-10 삼성전자주식회사 서버, 사용자 단말 및 이들의 제어 방법.
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9734142B2 (en) 2015-09-22 2017-08-15 Facebook, Inc. Universal translation
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10133738B2 (en) 2015-12-14 2018-11-20 Facebook, Inc. Translation confidence scores
US9734143B2 (en) 2015-12-17 2017-08-15 Facebook, Inc. Multi-media context language processing
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US9747283B2 (en) 2015-12-28 2017-08-29 Facebook, Inc. Predicting future translations
US9805029B2 (en) 2015-12-28 2017-10-31 Facebook, Inc. Predicting future translations
US10002125B2 (en) 2015-12-28 2018-06-19 Facebook, Inc. Language model personalization
US9898460B2 (en) * 2016-01-26 2018-02-20 International Business Machines Corporation Generation of a natural language resource using a parallel corpus
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9978367B2 (en) 2016-03-16 2018-05-22 Google Llc Determining dialog states for language models
CN107291701B (zh) * 2016-04-01 2020-12-01 阿里巴巴集团控股有限公司 一种机器语言生成方法及装置
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10902221B1 (en) 2016-06-30 2021-01-26 Facebook, Inc. Social hash for language models
US9922029B1 (en) * 2016-06-30 2018-03-20 Facebook, Inc. User feedback for low-confidence translations
US10902215B1 (en) 2016-06-30 2021-01-26 Facebook, Inc. Social hash for language models
US10832664B2 (en) 2016-08-19 2020-11-10 Google Llc Automated speech recognition using language models that selectively use domain-specific model components
US10319019B2 (en) * 2016-09-14 2019-06-11 Ebay Inc. Method, medium, and system for detecting cross-lingual comparable listings for machine translation using image similarity
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10185763B2 (en) * 2016-11-30 2019-01-22 Facebook, Inc. Syntactic models for parsing search queries on online social networks
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
CN106649288B (zh) * 2016-12-12 2020-06-23 北京百度网讯科技有限公司 基于人工智能的翻译方法和装置
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10180935B2 (en) 2016-12-30 2019-01-15 Facebook, Inc. Identifying multiple languages in a content item
US10311860B2 (en) 2017-02-14 2019-06-04 Google Llc Language model biasing system
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10789208B2 (en) * 2017-08-02 2020-09-29 Sap Se Dependency mapping in a database environment
CN107590138B (zh) * 2017-08-18 2020-01-31 浙江大学 一种基于词性注意力机制的神经机器翻译方法
CN107800683A (zh) * 2017-09-08 2018-03-13 微梦创科网络科技(中国)有限公司 一种挖掘恶意ip的方法及装置
CN107659562A (zh) * 2017-09-08 2018-02-02 微梦创科网络科技(中国)有限公司 一种挖掘恶意登录账号的方法及装置
US10380249B2 (en) 2017-10-02 2019-08-13 Facebook, Inc. Predicting future trending topics
US10635863B2 (en) 2017-10-30 2020-04-28 Sdl Inc. Fragment recall and adaptive automated translation
US10817676B2 (en) 2017-12-27 2020-10-27 Sdl Inc. Intelligent routing services and systems
CN109190115B (zh) * 2018-08-14 2023-05-26 重庆邂智科技有限公司 一种文本匹配方法、装置、服务器及存储介质
US11120224B2 (en) * 2018-09-14 2021-09-14 International Business Machines Corporation Efficient translating of social media posts
US11256867B2 (en) 2018-10-09 2022-02-22 Sdl Inc. Systems and methods of machine learning for digital assets and message creation
US11113481B2 (en) * 2019-05-02 2021-09-07 Google Llc Adapting automated assistants for use with multiple languages
CN110807334B (zh) * 2019-10-29 2023-07-21 网易有道信息技术(北京)有限公司 文本处理方法、装置、介质和计算设备
US11797781B2 (en) 2020-08-06 2023-10-24 International Business Machines Corporation Syntax-based multi-layer language translation
US11747970B2 (en) 2021-09-23 2023-09-05 International Business Machines Corporation Interactive graphical display of multiple overlapping hypotheses or document versions

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2794919B2 (ja) * 1990-09-03 1998-09-10 日本電気株式会社 機械翻訳装置
JP2745370B2 (ja) * 1993-02-23 1998-04-28 日本アイ・ビー・エム株式会社 機械翻訳方法及び機械翻訳装置
US5966686A (en) * 1996-06-28 1999-10-12 Microsoft Corporation Method and system for computing semantic logical forms from syntax trees
US7050964B2 (en) * 2001-06-01 2006-05-23 Microsoft Corporation Scaleable machine translation system
AU2002316581A1 (en) 2001-07-03 2003-01-21 University Of Southern California A syntax-based statistical translation model
US7526424B2 (en) * 2002-03-20 2009-04-28 Microsoft Corporation Sentence realization model for a natural language generation system
EP1351158A1 (en) 2002-03-28 2003-10-08 BRITISH TELECOMMUNICATIONS public limited company Machine translation
JP3973549B2 (ja) * 2002-12-19 2007-09-12 沖電気工業株式会社 対訳依存構造対応付け装置、方法及びプログラム、並びに、対訳依存構造対応付けプログラムを記録した記録媒体
US7698124B2 (en) 2004-11-04 2010-04-13 Microsoft Corporaiton Machine translation system incorporating syntactic dependency treelets into a statistical framework

Also Published As

Publication number Publication date
US8082143B2 (en) 2011-12-20
JP2014142975A (ja) 2014-08-07
US7577562B2 (en) 2009-08-18
CN1770107A (zh) 2006-05-10
US7505894B2 (en) 2009-03-17
US20090271177A1 (en) 2009-10-29
US20060095248A1 (en) 2006-05-04
US20060111891A1 (en) 2006-05-25
US7200550B2 (en) 2007-04-03
US20060111892A1 (en) 2006-05-25
CN1770107B (zh) 2012-10-10
US20060111896A1 (en) 2006-05-25
US7698124B2 (en) 2010-04-13

Similar Documents

Publication Publication Date Title
JP5774751B2 (ja) ツリーレット翻訳対の抽出
JP5586817B2 (ja) ツリーレット翻訳対の抽出
US7536295B2 (en) Machine translation using non-contiguous fragments of text
US8600728B2 (en) Training for a text-to-text application which uses string to tree conversion for training and decoding
JP4993762B2 (ja) 用例ベースの機械翻訳システム
CA2408819C (en) Machine translation techniques
US8249856B2 (en) Machine translation
US20070265825A1 (en) Machine translation using elastic chunks
De Gispert et al. Hierarchical phrase-based translation with weighted finite-state transducers and shallow-n grammars
Mondal et al. Machine translation and its evaluation: a study
Foster Text prediction for translators
JP5734917B2 (ja) 並べ替えモデル学習装置、方法、及びプログラム、並びに翻訳装置、方法、及びプログラム
Costa-jussà An overview of the phrase-based statistical machine translation techniques
JP4829702B2 (ja) 機械翻訳装置、機械翻訳方法、および生成規則作成装置、生成規則作成方法、ならびにそれらのプログラムおよび記録媒体
JP5544518B2 (ja) 機械翻訳装置、機械翻訳方法、およびそのプログラム
DeNeefe Tree-adjoining machine translation
Quirk et al. Dependency tree translation: Syntactically informed phrasal smt
Jawaid Statistical Machine Translation between Languages with Significant Word Order Differences
Clemente Architecture and modeling for n-gram-based statistical machine translation
Siahbani Left-to-Right Hierarchical Phrase-based Machine Translation
Och Statistical Machine Translation: Foundations and Recent Advances Tutorial at MT Summit 2005 Phuket, Thailand
Jawaid Statistical Machine Translation between Languages with

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140516

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150518

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20150523

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150602

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150701

R150 Certificate of patent or registration of utility model

Ref document number: 5774751

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees