JP2004501429A - 機械翻訳技法 - Google Patents
機械翻訳技法 Download PDFInfo
- Publication number
- JP2004501429A JP2004501429A JP2001583366A JP2001583366A JP2004501429A JP 2004501429 A JP2004501429 A JP 2004501429A JP 2001583366 A JP2001583366 A JP 2001583366A JP 2001583366 A JP2001583366 A JP 2001583366A JP 2004501429 A JP2004501429 A JP 2004501429A
- Authority
- JP
- Japan
- Prior art keywords
- translation
- tree
- target language
- text segment
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
機械翻訳デコーディングが、目的言語に翻訳すべき原始言語のテキストセグメントを入力として受け取り、初期翻訳文を現行目的言語翻訳文として生成し、その現行目的言語翻訳文に、1又は2以上の修正オペレータを適用して、1又は2以上の修正された目的言語翻訳文を生成し、その修正された目的言語翻訳文の1又は2以上が、現行目的言語翻訳文と比べて改良された翻訳文になっているかどうかを確認し、修正された目的言語翻訳文を、現行目的言語翻訳文として設定し、次いで終了条件が生じるまでこれらのステップを繰り返すことによって達成される。ツリー(例えば構文のツリー又は談話のツリー)は、原始言語テキストセグメントに対応するツリーを入力として受け取り、次いでその受け取った入力に、1又は2以上の決定則を適用して、目的言語テキストセグメントに対応するツリーを生成することによって自動的に生成することができる。
Description
【0001】
関連する出願
本願は、2000年5月11日付けで出願された米国仮特許願第60/203,643号の特典を主張し、かつその内容は本願に援用するものである。
【0002】
本発明の起源
本願に記載されている研究と開発は、援助番号MDA904−97−0262に基づいてNSAによって、及び援助番号MDA904−99−C−2535に基づいてDARPA/ITOによって援助を受けたものである。米国政府は本願発明に特定の権利を有している。
【0003】
発明の技術分野
本願は、計量言語学に関し、さらに詳しく述べると機械翻訳技法に関する。さらに具体的に述べると、本願は、原始テキストセグメント(source text segment)の目的テキストセグメント(target text segment)へのデコーディングを実行し、次いで第一言語空間から別の言語空間へツリー(tree)を書き換える技法について述べる。
【0004】
背景と要約
機械翻訳(MT)とは、例えばコンピュータシステムを使用して第一言語(例えばフランス語)を別の言語(例えば英語)へ自動翻訳することである。MT技法を実行するシステムは、原始言語を目的言語へ「デコーディングする」といわれている。エンドユーザの眼から見て、MTのプロセスは比較的簡明である。図1Aに示すように、MT102は、例えばフランス語の原始文100(例えば「ce ne est pas juste」)を入力として受け取り、次にその入力された文を処理した後、目的言語、この実施例の場合、英語の等価のデコーディングされた文(「it is not fair」)を出力する。
【0005】
従来のMTデコーダの一つのタイプは、例えば発明の名称が「Method and System for Natural Language Translation」の米国特許第5,477,451号(Brownら)に記載されている「スタックデコーダ」である。スタックデコーダでは、可能な翻訳文の領域が、グラフ構造に編制され、次いで最適解(翻訳文)が見つかるまで、網羅的に探索される。スタックデコーダは、優れた結果を生成する傾向があるがそれを実行するには大きな経費がかかる。すなわち、例えばスタックデコーダが使用する、可能性のある大きな解の空間を維持し探索することは、計算と空間の点で(例えばコンピュータメモリによって)高価である。これに対応して、本発明の発明者らは、反復して増加させるデコーディング技法が最適か又は最適に近い結果を生成し、しかも、計算と空間の必要量をかなり減らすことができることを見出した。このデコーダは、本願では「グリーディー(greedy)」デコーダ又は等価的に「ファースト(fast)デコーダ」と呼称する。用語「グリーディー」は近視的な最適化に基づいた解を生成する技法すなわち、部分的解が与えられると、次の推定として、その目的を最もよく改善する新しい解を生成する技法を意味する。他の言葉で言えば、グリーディーアルゴリズムは、一般に近似解で始まり、次いで満足すべき解に到達するまで、その近似解を徐々に改善しようとする。
【0006】
上記グリーディーデコーダの実行には、下記機能の各種の組合せが含まれている。
【0007】
一側面で、機械翻訳(MT)のデコーディングには以下のことが含まれている。すなわち、目的言語に翻訳すべき原始言語のテキストセグメント(例えば節、文、パラグラフ又は全書)を入力として受け取り、初期翻訳文[例えば逐語的な又は逐語句的なグロス(word−for−word or phrase−for−phrase gloss)]を現行目的言語の翻訳文として作成し、その現行目的言語翻訳文に1又は2以上の修正オペレータを適用して1又は2以上の修正目的語翻訳文を作成し、その1又は2以上の修正目的言語翻訳文が該現行目的言語翻訳文と比べて改良された翻訳文になっているかどうかを確認し、修正目的言語翻訳文を現行目的言語翻訳文として設定し、次いでこれらのステップを、終了条件が生じるまで繰り返すことが含まれている。
【0008】
1又は2以上の修正オペレータの適用には、現行目的言語翻訳文の1又は2以上の単語の訳語の変更が含まれていてもよい。あるいは又はその上に、1又は2以上の修正オペレータの適用には、(i)現行目的言語翻訳文中の一単語の翻訳文を変更すること、及び同時に(ii)原始言語テキストセグメントと現行目的言語翻訳文の間の最高確率の整合(alignment)をもたらす位置に別の単語を挿入することが含まれていてもよい。その挿入される別の単語は、ゼロ値ファーティリティ(zero−value fertility)である確率が高くてもよい。
【0009】
1又は2以上の修正オペレータを適用することに、現行目的言語翻訳文から、ゼロ値ファーティリティの単語を削除すること;及び/又は現行目的言語翻訳文内のオーバーラップしていない目的言語の単語セグメントをスワップする(swap)ことによって、原始言語テキストセグメントと現行目的言語翻訳文の間の整合を修正すること;及び/又は(i)目的言語単語を現行目的言語翻訳文から除き次に(ii)原始言語テキストセグメント中の単語をリンクすることによって、原始言語テキストセグメントと現行目的言語翻訳文の間の整合を修正することが含まれていてもよい。
【0010】
各種の実施態様では、修正オペレータを適用することが、下記のことのうち二つ以上を適用することを含んでいてもよい。すなわち(i)現行目的言語翻訳文中の1又は2の単語の訳語を変更すること;(ii)現行目的言語翻訳文中の一単語の訳語を変更し、同時に、原始言語テキストセグメントと現行目的言語翻訳文の間の最高確率の整合をもたらす位置に、ゼロ値ファーティリティである確率が高い別の単語を挿入すること;(iii)現行目的言語翻訳文からゼロ値ファーティリティの一単語を削除すること;(iv)現行目的言語翻訳文中のオーバーラップしていない目的言語単語セグメントをスワップすることによって、原始言語テキストセグメントと現行目的言語翻訳文の間の整合を修正すること;及び/又は(V)目的言語の単語を、現行目的言語翻訳文から除き次に原始言語テキストセグメント中の単語をリンクすることによって、原始言語テキストセグメントと現行目的言語翻訳文の間の整合を修正すること;の二つ以上を含んでいてもよい。
【0011】
修正された目的言語翻訳文の1又は2以上が現行目的言語翻訳文と比べて改良された翻訳文になっているかどうかを確認することに、修正された目的言語翻訳文各々の正当性の確率を計算することが含まれていてもよい。
【0012】
終了条件は、修正された目的言語翻訳文の正当性の確率が現行目的言語翻訳文の正当性の確率より大きくないことを確認することを含んでいてもよい。その終了条件は、予め定められた回数の繰り返しが完了すること及び/又は予め定められた時間が経過することであってもよい。
【0013】
別の側面で、コンピュータ実行(computer−implemented)機械翻訳デコーディング法は、例えば、終了条件(例えば予め定められた数の繰り返しの完了、予め定められた時間の経過、及び/又は修正された翻訳文の正当性の確率が前の翻訳文の正当性の確率より大きくないことの確認)が発生するまで、原始言語テキストセグメント(例えば、節、文、パラグラフ又は全書)の目的言語翻訳文を繰り返し修正するグリーディーデコーディングアルゴリズムを実行してもよい。
【0014】
該MTデコーディング法は、近似目的言語翻訳文で出発し次いでその翻訳文を、各逐次反復によって繰り返し改良することができる。その近似目的言語翻訳文は、例えば逐次的な又は句を造ったグロスであってもよく、又は近似目的言語翻訳文は、複数の予め定められた翻訳文の中から選択される予め定められた翻訳文であってもよい。
【0015】
翻訳文を繰り返し修正することに、例えば該翻訳文に対して1又は2以上の修正操作を適用することによって、各反復で翻訳文を徐々に改良することが含まれていてもよい。
【0016】
その1又は2以上の修正操作は下記操作の1又は2以上を含んでいる。すなわち(i)翻訳文中の一つ又は二つの単語を変更すること;(ii)一つの単語の翻訳文を変更し、同時に、原始言語テキストセグメントと翻訳文の間の最高確率の整合をもたらす位置に別の単語を挿入し、その挿入される別の単語がゼロ値ファーティリティである確率が高いこと;(iii)翻訳文から、ゼロ値ファーティリティの単語を除くこと;(iv)翻訳文中のオーバーラップしていない目的言語の単語セグメントをスワップすることによって、原始言語テキストセグメントと翻訳文の間の整合を修正すること;(v)目的言語の単語を翻訳文から除き次いで原始言語テキストセグメント中の単語をリンクすることによって、原始言語テキストセグメントと翻訳文の間の整合を修正すること;の1又は2以上の操作を含んでいる。
【0017】
別の側面で、機械翻訳デコーダは、現行目的言語翻訳文に適用されて1又は2以上の修正された目的言語翻訳文を生成する1又は2以上の修正オペレータを含むデコーディングエンジン;及び1又は2以上の修正オペレータを使用して、現行目的言語翻訳文を繰り返し修正するプロセスループを備えていてもよい。そのプロセスループは、終了条件が生じたときに終了することができる。そのプロセスループは、現行目的言語翻訳文を各繰り返しによって徐々に改良するようにデコーディングエンジンを制御することができる。
【0018】
MTデコーダは、さらに、翻訳文に対する正当性の確率を求めるためのモジュール(例えば、言語モデル及び翻訳モデルを含む)を備えていてもよい。
【0019】
上記プロセスループは、修正された翻訳文の正当性の確率が前の翻訳文の正当性の確率より大きいということを確認したとき及び/又は予め定められた数の繰り返しを完了したとき;及び/又は予め定められた時間が経過した後に終了できる。
【0020】
下記利点の1又は2以上を、本願に記載されているようなグリーディーデコーダが提供できる。ここで述べる技術と方法は、高い正確さ、高速及び比較的低い計算と空間のコストで機能するMTデコーダをもたらすことができる。グリーディーデコーダは、文修正操作の完全セット又はそのサブセットを実行するよう所望どおりに修正することができる。これは、システム設計者及び/又はエンドユーザに、所望の目的又は制限に適合させるために該デコーダの速度、正確さ及び/又は他の性能特性値を適応させるためのかなりの適応性を提供する。一スタンドアロンオペレータ(standalone operator)として又は他のオペレータとともに各々使用することができる一組の基本的修正操作を使用するとこの適応性がさらに高まる。さらに、独立したスタンドアロンオペレータを、該デコーディングエンジンの構成要素として使用すると、そのデコーダが拡張可能でかつ大きさを変えることが可能(スケーラブル)になる。すなわち、異なるか又は追加の修正オペレータを、システムの設計者及び/又はエンドユーザの目的又は制限に適合するように利用することができる。
【0021】
計量言語学におけるMTの研究と関連する分野と関連づけて、研究者らは、各種タイプのツリー構造を開発ししばしば利用して、テキストセグメント(例えば節、文、パラグラフ又は全書)の構造を図式で示している。二つの基本的ツリー構造として次のものがある。すなわち(1)テキストセグメントの要素間の統語的関係を図式で示すのに使用できる統語的ツリー(syntactic tree)、及び(2)テキストセグメントの要素間の修辞的関係を図式で示すのに使用できる修辞的ツリー(等しく、修辞的構造ツリー(RST)又は談話のツリー)がある。修辞的構造ツリー(談話ツリー(discourse tree)とも呼称される)は、William C. Mann及びSandra A. Thompson、「Rhetorical structure theory: Toward a functional theory of text organization」、Text、8(3)巻243〜281頁1988年に詳細に考察されている。
【0022】
図6に示す実施例は、テキストフラグメント用の修辞構造ツリー中に存在しうる構造のタイプを示している。前記ツリーの葉は基本談話ユニット(elementary discourse unit)(「edu」)に対応し、そしてその内部ノードは連続テキストスパン(contiguous text span)に対応する。修辞的構造ツリーの各ノードは、「状態(status)」(すなわち「核」又は「衛星」)及び「修辞的関係」(二つのオーバーラップしていないテキストスパン間を保持する関係)が特徴である。図6では、核を直線で表し、一方、衛星を円弧で表してある。
【0023】
本発明の発明者らは、異なる言語(例えば日本語と英語)のテキストの翻訳文の修辞構造間に大きな差があることを見出したのである。したがって、MTの品質を改良するため、より大きいMTシステムの要素として、本発明の発明者らは、修辞構造を、一つの言語からもう一つの言語へ自動的に書き換える(例えばコンピュータシステムを使用して)方法、例えば、日本語のテキストセグメントに対する修辞ツリー(rhetorical tree)を、英語の対応するテキストセグメントに対する修辞ツリーに書き換える方法を開発した。
【0024】
開示されている、ツリーを書き換える方法の実行には、下記機能の各種の組み合わせが含まれていてもよい。
【0025】
一つの側面では、ツリー(例えば、統語的ツリー又は談話的ツリー)を自動的に生成することに、原始言語テキストセグメントに対応するツリーを、入力として受け取り、次に、その受け取った入力に1又は2以上の決定則を適用して、目的言語のテキストセグメントに対応するツリーを生成させることが含まれる。
【0026】
別の側面では、コンピュータ実行ツリー生成法(computer−implemented tree generation method)は、原始言語テキストセグメント(例えば節、文、パラグラフ又は全書)に対応するツリーを入力として受け取り、次いで1又は2以上の決定則(例えば一つの変換関数を集合的に表す一連の決定則)を、前記受け取った入力に適用して、目的言語のテキストセグメント(異なるタイプのテキストセグメントであってもよい)に対応するツリーを生成することを含んでいてもよい。
【0027】
上記ツリーの生成方法は、さらにトレーニングセット(training set)、例えば複数の入力−出力ツリーペア(input−output tree pair)及び各入力−出力ツリーペア間のマッピングに基づいた1又は2以上の決定則を自動的に決定することを含んでいてもよい。上記の各入力−出力ツリーペア間のマッピングは、前記入力ツリーの葉及びペアの出力ツリーの葉の間のマッピングであってもよい。入力−出力ツリーのペアの葉の間のマッピングは、1対1、1対多数、多数対1又は多数対多数のマッピングでもよい。
【0028】
1又は2以上の決定則を自動的に決定することが、ペアの入力ツリーに適用されると出力ツリーを生成する一連の操作を決定することを含んでいてもよい。一連の操作を決定することが、入力ツリーを入力ツリーのペアになった出力ツリーに翻訳するのに集合的に充分な複数の既定義操作を使用することを含んでいてもよい。上記複数の既定義操作は下記の操作の1又は2以上を含んでいる。すなわち、基本談話ツリー(edt)を、入力並び(入力リスト;input list)からスタックに変換するシフト操作;二つのedtをスタックのトップからポップ(pop)させ、その二つのポップされたedtを新しい一つのツリーに結合し、次いでその新しいツリーをスタックのトップにプッシュする還元操作(reduce operation);一つのedtを予め定められた数のユニットにブレークするブレーク操作(break operation);原始言語のツリーの中で接続関係がない目的言語談話要素をつくるクリエイトネクスト(create−next)操作;スタックのトップのedtを直前のedtに融合する融合操作;入力並び中のedtの位置をスワップするスワップ操作;及び下記タイプ:ユニット、マルチユニット、文、パラグラフ、マルチパラグラフ及びテキストの1又は2以上をedtに割り当てる、アサインタイプ操作(assign Type operation)のうち1又は2以上を含んでいる。
【0029】
複数の既定義操作は、前記のシフト操作、還元操作、ブレーク操作、クリエイトネクスト操作、融合操作、スワップ操作及びアサインタイプ操作を含むクローズドセット(closed set)であってもよい。
【0030】
一連の操作を決定すると、複数の学習ケースがもたらされ、すなわち各入力−出力のツリーのペアに対して一つの学習ケースがもたらされる。その場合、ツリーの生成方法は、さらに、1又は2以上の特徴を、コンテキスト(文脈)に基づいて複数の学習ケース各々と関連づけることを含んでいてもよい。その関連づける特徴としては、操作と談話の特徴、対応ベースの特徴及び語彙の特徴がある。
【0031】
前記ツリー生成方法はさらに、学習プログラム(例えばC4.5)を複数の学習ケースに適用して、1又は2以上の決定則を生成することを含んでいてもよい。
【0032】
別の側面で、コンピュータ実行のツリー生成モジュールは、原始言語テキストセグメントに対応するツリー(統語的ツリー又は談話的ツリー)に適用すると、目的言語テキストセグメントに対応するツリーを生成する決定則の予め定められたセットを含んでいてもよい。その決定則の予め定められたセットは、原始言語のツリーと目的言語のツリーの間の変換関数を定義することができる。
【0033】
別の側面で、異なるタイプのツリー(例えば、統語的ツリー又は談話的ツリー)の間の変換関数を決定することが、複数のツリーのペア及び各ツリーのペア間のマッピングを含むトレーニングセットを生成すること(但しツリーのペアは各々原始のツリー及び対応する目的のツリーを含んでいる);及び原始のツリーに適用されると目的のツリーをもたらす一連の操作をツリーのペア各々に対して決定することによって複数の学習ケースを生成すること;及び学習アルゴリズムを複数の学習ケースに適用することによって複数の決定則を生成することを含んでいてもよい。
【0034】
異なるタイプのツリーの間の変換関数を決定することは、さらに、複数の決定則を生成する前に、1又は2以上の特徴を、コンテキストに基づいた各学習ケースと関連させることを含んでいてもよい。
【0035】
別の側面で、コンピュータ実行談話ベースの機械翻訳システムは、原始言語テキストセグメントの談話構造を解析して、そのテキストセグメントに対する原始言語の談話ツリーを生成する談話パーサ(discourse parser);上記原始言語の談話ツリーを入力として受け取り、出力として目的言語談話ツリーを生成する談話構造変換モジュール;及び上記目的言語の談話ツリーを目的テキストセグメント中にマッピングするマッピングモジュールを含んでいてもよい。その談話構造変換モジュールは、原始言語−目的言語のツリーのペアのトレーニングセットから生成した複数の決定則を含んでいてもよい。
【0036】
下記利点のうちの1又は2以上を、本願に記載されているようなツリー書き換えによって提供することができる。ここに記載の技術と方法は、ユーザ(例えば言語研究者などのヒトのエンドユーザ又はMTシステムなどのコンピュータプロセス)に、目的言語に翻訳されたテキストセグメントに対するツリーに、書き換えられるか又は翻訳される原始言語のテキストセグメントに対するツリーを自動的にもたせるツリー書き換え性能をもたらすことができる。この機能性は、そのスタンドアロン形態で及びより大きなシステムの要素として、例えば談話ベースの機械翻訳システムにおいて有用である。さらに、ここに記載するツリー書き換え器は、ツリーを一つの言語から別の言語に書き換える方法を自動的に学習するので、上記システムは、容易にかつ便利に使用できる。
【0037】
該ツリーの書き換え器をトレーニングするのに利用されるマッピング方式も、いくつもの利点を提供する。例えば原始のツリーと目的のツリーの葉の間に任意のグルーピング(例えば1対1、1対多数、多数対1、多数対多数)をさせることによって、得られるマッピングの適応性、リッチネス(richness)及び堅牢性が高まる。
【0038】
また、ツリー書き換え器をトレーニングするのに使用されるエンハンストシフト還元操作(enhanced shift−reduce operation)もいくつもの利点を提供する。例えば、どんな入力ツリーでもそのペアの出力ツリーに翻訳するのに、集合的に充分である基本的操作のセットは、ツリー構造を書き換えるための強力でしかもコンパクトなツールを提供する。
【0039】
1又は2以上の実施態様の詳細を、添付図面と以下の記載で説明する。本発明の他の特徴、目的及び利点は、下記説明と添付図面及び特許請求の範囲から明らかになるであろう。
【0040】
本発明のこれらおよび他の側面を、ここで添付図面を参照して詳細に説明する。
【0041】
詳細な説明
グリーディーデコーダ
例えば、フランス語の文を英語に翻訳する統計的MTシステムは、三つの部分、すなわち(1)英語文字列(English string)に確率P(e)を割り当てる言語モデル(LM);(2)英語とフランス語の文字列のペアに対し確率P(f|e)を割り当てる翻訳モデル(TM);及び(3)デコーダに分割することができる。そのデコーダは、まだ見られていない文fを取り出して、P(f|e)を最大限にし、又は等しくP(e)・P(f|e)を最大限にするeを見つけようとする。
【0042】
Brownら、「The mathematics of statistical machine translation: Parameter estimation」、Computational Linguistics、19(2)巻1993年は、逐語的に置換し再び順序付けする(re−order)ことに基づいた一連のTMを紹介したが、デコーディングアルゴリズムは含まれていなかった。原始言語と目的言語が同じ語順を有するように強制されている場合(選んで又は適切な前処理によって)、線形ビタアルゴリズムを、Tillmannら、「A DP−based search using monotone alignments in statistical translation」、In Proc. ACL 1997年に記載されているように適用することができる。再順序付けが2分ツリー(binary tree)のノードのまわりの回転に限定される場合、最適のデコーディングが、高多項式アルゴリズム(Wu、「A polynomial−time algorithm for statistical machine translation」、In Proc. ACL、1996年)によって実行できる。任意の単語再順序付けの場合、デコーディングの問題は、NP−完全(NP−complete)問題(非決定性多項式時間完全問題)(Knight、「Decoding complexity in word−replacement translation models」、Computational Linguistics、25(4)巻1999年)である。
【0043】
一つの戦略(Brownらの米国特許第5,477,451号1995年「Method and system for natural language translation」;Wangら「Decoding algorithm in statistical machine translation」、In Proc. ACL、1997年)は、適当に行うデコーディングの大きなサブセットを検査してそれから選択することである。勿論、このようにして優れた翻訳文を見逃すこともある。
【0044】
したがって、デコーディングは、あらゆる問題のインスタンス(problem instance)が正しい応答を有しているクリアーカット最適化タスク(clear−cut optimization task)であるが、優れた応答を迅速に提供することは困難である。以下に、高速グリーディーデコーダの詳細を説明し、その性能を、伝統的なスタックデコーダの性能と比較する。
【0045】
グリーディーデコーダを開発する際、一対の文にわたる単語整合(word alignment)の概念に基づいて作動するIBMモデル4を使用した(図1B参照)。単語の整合は、単一ホーム(英語文字列の位置)をフランス語の各単語に割り当てる。フランス語の二つの単語が同じ一つの英語の単語に整合すると、その英語の単語は、ファーティリティ2(fertility 2)を有しているといわれる。さらに、一つの英単語が整合しないままの場合、その英単語はファーティリティがゼロである。図1Bに示す単語整合は、英語文字列がフランス語文字列に変換される仮説確率論的プロセス(hypothetical stochastic process)の省略表現である。なすべき決定のいくつものセットがある。
【0046】
第一に、あらゆる英語の単語にファーティリティが割り当てられる。これらの割り当ては、表n(φ|ei)にしたがって確率論的に行われる。ファーティリティがゼロの単語はどれも文字列から削除され、ファーティリティ2の単語はどれも複製されるなどが行われる。一単語が1より大きいファーティリティを有している場合、その単語は非常にファータイル(fertile)であると呼ばれる。
【0047】
新しい文字列中の各英語単語の後に、確率p1(一般に約0.02)の不可視英語ヌルエレメント(invisible English NULL element)のファーティリティが加えられる。そのヌルエレメントは、結局、「スプリアス(spurious)」フランス語単語を生成する。
【0048】
次に、英語の単語(ヌルを含む)が、表t(fj|ei)にしたがってフランス語の単語で逐次的に置換される。
【0049】
最後に、これらのフランス語の単語が並びかえられる。並びかえを行う際、IBMモデル4が、ヘッド(head)(特定の英語単語から生成した左端のフランス語の単語)、ノン−ヘッド(non−head)(非常にファーファイルな英語単語だけによって生成した左端以外のフランス語の単語)及びヌル生成単語(NULL−generated)であるフランス語単語を識別する。
【0050】
ヘッド:一つの英語単語のヘッドは、その前の英語単語に割り当てられた位置を基準にして、フランス語文字列の位置を割り当てられる。英語単語Ee−1を、フランス語位置jの何らかの単語に翻訳する場合、eiのフランス語ヘッドの単語は、ひずみ確率(distortion probability)d1(k−j|class(ei−1)、class(fk)でフランス語位置kに確率論的に配置される。なお上記「class」は、フランス語と英語の語い項目(vocabulary item)に対して自動的に決定される単語のクラスを意味する。この相対的オフセットk−jが、隣接する英語単語をインカレッジ(encourage)して、隣接するフランス語単語に翻訳する。ei−1がインファータイル(infertile)である場合、jはei−2などから取り出される。ei−1が非常にファータイルである場合、jはそのフランス語翻訳文の位置の平均位置である。
【0051】
ノンヘッド:英語単語eiのヘッドがフランス語の位置jに配置される場合、その最初のノンヘッドは、別のテーブルd>1(k−j|class(fk))にしたがって、フランス語の位置k(>j)に配置される。次のノンヘッドは、位置qに、確率d>1(q−k|class(fq))などで配置される。
【0052】
ヌル生成単語:ヘッドとノン−ヘッドが配置された後、ヌル生成単語が、残っている空スロット(vacant slot)中にランダムに置換される。φ0ヌル生成単語がある場合、配置方式は確立1/φ0!で選択される。
【0053】
eで出発するこれらの確率論的決定によって、fの異なる選択及びfとeの整合が行われる。eは特定の<a、f>のペアにマッピングすることができる。
【0054】
【数1】
上記式中、x記号で分離されている因数は、ファーティリティ、翻訳、ヘッド置換(head permutation)、ノンヘッド置換、ヌルファーティリティ及びヌル翻訳の確率を示す。上記式中の諸記号は次のとおりである。l(eの長さ)、m(fの長さ)、ei(eにおけるi番目の英語単語)、E0(ヌル単語)、φi(eiのファーティリティ)、φ0(ヌル単語のファーティリティ)、τik(a中のeiによって生成したk番目のフランス単語)、πik(f中のτikの位置)、ρI(a中eiの左側の第一ファータイル単語の位置)、cρ I(ρiに対する全πρikの平均値の最大値(ceiling)又はρiが未定義の場合0である)である。
【0055】
上記のことから見て、新しい文fが与えられると、最適のデコーダが、P(e|f)≒P(e)・P(f|e)を最大限にするeを探索する。ここでP(f|e)は、可能なすべての整合aにわたるP(a、f|e)の和である。この和は、重要な計算を含んでいるので、一般に、代わりに、P(e、a|f)≒P(e)・P(a、f|e)を最大限にする<e、a>のペアを探索することによって回避される。言語モデルP(e)が英語の平滑化n−gramモデルであると想定される。
【0056】
図2は、MTを実行するグリーディーデコーダの一実施態様の作動のフローチャートである。図2に示すように、第一ステップ200は、翻訳すべき入力文を受け取るステップである。この実施例では、翻訳されているテキストセグメントが文であるが、例えば節、パラグラフ又は全書といった他のどんなテキストセグメントでも事実上使用することができる。
【0057】
ステップ202において、翻訳文の第一近似文として、グリーディーデコーダが、入力文の「グロス(gloss)」、特に逐語的翻訳文を生成する。そのグロスは、各フランス語単語fjを、その最も適当な英語翻訳文efj(efj=argmaxet(e|fj))と整合させる(align)ことによって構築される。例えば、フランス語の文「Bien entendu、il parle de une belle victoire」を翻訳する際、グリーディーデコーダは、「bien」の最良の訳語は「well」であり、「entendu」の最良訳語は「heard」であるなどであるから、最初、良好な翻訳文が「Well heard、it talking a beautiful victory」であると想定する。この翻訳文に対応する字並び(alignment)は図3のトップに示してある。
【0058】
ステップ204において、デコーダは、現行翻訳文の正当性の確率P(c)を推定する。
【0059】
最初の字並びがステップ202で生成された後、グリーディーデコーダは、その字並びを、ステップ206で改良しようとする。すなわち、該デコーダは、以下に説明する1又は2以上の文修正オペレータを適用することによって、確率が一層高い字並び(及び暗黙のうちに翻訳文)を見出そうとする。この特定の実施態様に対しては、単語レベルの字並び及び下記の特定のオペレータを使用することを選んだ。しかし、異なる統計的モデルを使用する別の実施態様は、異なる操作又は追加の操作によって利益を得ることができる。
【0060】
下記のオペレータが、集合的に、該デコーダの翻訳エンジンを構成しており、下記のものがある。
【0061】
一つ又は二つの単語の翻訳(translate One or Two Words)(j1、e1、j2、e2)
この操作は、j1とj2の位置に位置している一つ又は二つのフランス語の単語の翻訳文を、efj1とefj2からe1とe2に変更する。efjがファーティリティ1の単語でかつekがヌルであれば、efjは翻訳から削除される。efjがヌル単語であれば、翻訳文中の、最高確率の字並びを生じる位置に単語ekを挿入する。efj1=e1又はefj2=e2であれば、この操作は、結局、単一単語の訳語を変えることになる。
【0062】
翻訳と挿入(translate And Insert)(j、e1、e2)
この操作は、j位置に位置するフランス語単語の訳語をefjからe1に変更し、かつ同時に、最高確率の字並びを生じる位置に単語e2を挿入する。単語e2は、ファーティリティがゼロの確率が高い1024個の単語の自動的に導出されるリストから選択される。efj=e1の場合、この操作は結局ファーティリティがゼロの単語を該字並び中に挿入することになる。
【0063】
ファーティリティゼロの単語の除去(remove Word of Fertility 0)(i)
この操作によって、現行字並びのi位置のファーティリティゼロの単語を削除する。
【0064】
セグメントのスワップ(Swap Segments)(i1、i2、j1、j2)
この操作は、オーバーラップしていない英語単語セグメント[i1、i2]及び[j1、j2]をスワップすることによって、新しい字並びを古い字並びからつくる。スワップ操作中、英語単語とフランス語単語の間のすべての既存リンクは保存される。それらのセグメントは、一つの単語と同じほど小さいか又は|e|−1個の単語と同じほど長くてもよく、この場合|e|は英語の文の長さである。
【0065】
単語の結合(join Words)(i1、i2)
この操作は、字並びから、i1(又はi2)の位置にある英語単語を除き、次いでei1(又はei2)が生成したフランス語単語をei2(又はei1)に連結する。
【0066】
ステップ208において、デコーダは、前記文修正操作の結果各々の正当性の確率P(M1)…P(Mn)を推定する。すなわち、新しく得られた各翻訳文の確率が求められる。
【0067】
ステップ210において、デコーダは、新しい翻訳文がどれも現行翻訳文より優れているかどうかを、それら翻訳文それぞれの正当性の確率を比較することによって確認する。新しい翻訳文がどれも、現行翻訳文より優れた解を示す場合、最良の新しい翻訳文(すなわち正当性の確率が最高の翻訳文の解)がステップ214で現行翻訳文として設定され、次いでそのデコーディングプロセスはステップ206に戻り、前記新しい現行翻訳文の解に対し1又は2以上の文修正操作を実行する。
【0068】
文修正操作が終わって(ステップ210で決定されるように)正当性の確率がより高い翻訳文の解が生成するまで、ステップ206、208、210及び214を繰り返し、その時点で、デコーディングプロセスはステップ212にて停止して、現行翻訳文が最終デコード解として出力される。あるいは、デコーダは、例えばヒトのエンドユーザによって、又はデコーダを翻訳エンジンとして使用するアプリケーションプログラムによって選択される予め定められた回数の繰り返しの後、停止することができる。
【0069】
したがって、段階的方式で、初期グロスから出発して、グリーディーデコーダは、プロセスループ(例えば、図2に示すようにステップ206、208、210及び214)を利用して、考慮中の字並びから1操作離れているすべての字並びを網羅的に繰り返す。あらゆるステップで、デコーダは、現行の字並びの確率がもはや改良できなくなるまで、確率が最高の字並びを選択する。それが例えば、フランス語文「Bien entendu、il parle de une belle victoire」のグロスから出発すると、グリーディーデコーダは、初期の字並びを、図3に示すように、徐々に変え、最終的に、翻訳文「Quite naturally、he talks about a great victory」を生成する。このプロセスにおいて、デコーダは、翻訳文に対して合計77421の異なる字並びを探索し、その翻訳文「Quite naturally、he talks about a great victory」は確率が最高である。
【0070】
デコーディングプロセスのステップ206において、システム設計者及び/又はエンドユーザの選好に応じて、前記五つの文の修正操作のすべてを使用できるか又はそのサブセットを、その他を除外して使用できる。例えば、該デコーダの最も時間のかかる操作は、セグメントのスワップ、一つ又は二つの単語の翻訳及び翻訳と挿入である。セグメントのスワップは、長さ|e|のシーケンスで構築できるすべての可能なオーバーラップしていないスパンのペアを繰り返す。一つ又は二つの単語の翻訳は、|f|2×|t|2の字並びを繰り返す。なお、|f|はフランス語文の大きさであり、そして|t|は各単語と関連する翻訳文の数である(この実行では、この数はトップ10の翻訳文までに限定される)。翻訳と挿入は|f|×|t|×|z|の字並びにわたって繰り返す。なお|z|はファーティリティがゼロの確率が高い単語のリストの大きさである(この実施態様では1024語)。したがって、デコーダは、デコーディングを速く行うためこれらの遅い操作の1又は2以上を省くように設計できるが、正確さが犠牲になることがある。あるいは又はその上に、デコーダは、システム設計者及び/又はエンドユーザの目的に応じて別の又は追加の文修正操作を使用するように設計することができる。
【0071】
グリーディーデコーダの利点はその速度から生まれる。下記の実験が示すように、グリーディーデコーダは他のいかなるデコーダよりも速く翻訳文を生成することができる。グリーディーデコーダは「エニタイムアルゴリズム(anytime algorithm)」の一例であり、作動時間が長ければ長いほど、そのデコーダが見つける翻訳文は優れている。グリーディーデコーダの一つの潜在的トレードオフ(tradeoff)は、そのデコーダが探索する解空間(solution space)に関連しており、その空間は比較的小さい。優れた翻訳文が初期のグロスから離れていればいる程、グリーディーデコーダが優れた翻訳文を見つける可能性は小さい。
【0072】
図4は4回の繰り返しで許容可能な解に到達する動作をしているグリーディーデコーダの別の実施例を示す。図4に示すように、翻訳すべき入力文は「ce ne est pas juste.」である。このデコーダはその初期グロス「that not is not fair.」を使用して、この翻訳文の解(繰り返し1)は、言語モデル確率(LMprob):2.98457e−14及び翻訳モデル確率(TMprob):3.79156e−09に基づいて、正当性の確率(「Aprob」−LMprobとTMprobの積)が1.13162e−22であることを確認している。
【0073】
第二の繰り返しにおいて、このデコーダは、該翻訳文中の単語「not」の第一インスタンスを、1又は2以上の単語の翻訳の操作を適用することによって「is」に変更して、図4の繰り返し2に示す確率を有する新しい翻訳文の解「that is is not fair」が得られる。第三の繰り返しにおいて、このデコーダは、ファーティリティゼロの単語の除去の操作を適用して、該翻訳文中の単語「is」の一インスタンスをドロップさせて、図4の繰り返し3に示す確率を有する新しい翻訳文の解「that is not fair」が得られる。第四の最後の繰り返しにおいて、このデコーダは、1又は2の単語の翻訳の操作を再び適用して該翻訳文中の単語「that」を「it」に変更して、図4の繰り返し4に示す確率を有する最終の翻訳文解「it is not fair」が得られる。
【0074】
グリーディーデコーダの性能を確認するため、一連の実験を行った。すべての実験で、デコーディングは、トレーニング中に確認される、一単語のトップの10の翻訳文だけ、及びテストコーパス(test corpus)から自動的に抽出された、ファーティリティゼロの1024の単語のリストを利用して、実行した。
【0075】
本願に記載のグリーディーデコーダの正確さを確認しそして該デコーダの速度を従来のスタックデコーダ(例えばBrownらの米国特許第5,477,451号に記載されているようなデコーダ)と比較する実験で、長さ6、8、10、15および20にわたって均一に分布させた505の文からなるテストコレクションを使用した。デコーダは、(1)速度及び(2)翻訳の正確さについて評価された。
【0076】
三重字(trigram)言語モデルを利用するデコーダで得られた図5に示す結果は、グリーディーデコーダアルゴリズムが、伝統的なスタックデコーディングアルゴリズムに代わる有利な代替物であることを示している。グリーディーデコーダが、一度にせいぜい一単語が翻訳され、移動され又は挿入される、速度を最適化する操作のセット(すなわち先に考案した5文修正操作の全セットのサブセット)(図5に「グリーディー*」と標記されている)を利用したときでさえ、その翻訳文の正確さはごくわずかしか損われない。対照的に、その翻訳速度は少なくとも一桁増大する。対象の用途によっては、最適の結果を提供する遅いデコーダを使用するか、又は最適ではないが許容可能な結果を提供する速いグリーディーデコーダを使用するかを選択することができる。
【0077】
グリーディーデコーダの別の実施態様も可能である。例えばグリーディーデコーダは、複数の異なる初期翻訳文(例えば図2のステップ202で使用されるグロスの異なる変型)で出発し、次いでグリーディーデコーディングアルゴリズム(すなわち図2に示すステップ204〜214)を、並列している異なる初期翻訳文に実行することができる。例えば、グリーディーデコーダの符号は、メモリに記憶された、多数の翻訳された語句から選択された初期の近似翻訳文で出発する。最後に、最良の翻訳文を選択することができる。異なる初期解のこの並列翻訳文によって、より正確な翻訳文を得ることができる。
【0078】
ツリー書き換え器(tree rewriter)
ほとんどすべての従来のMTシステムは、テキストの一つの文を同時に処理する。このように焦点が限定されているので、MTシステムは一般に、入力テキストの節や文を再グループ化(re−group)し次いで再順序付け(re−order)して目的言語の最も自然な翻訳文を達成することはできない。しかも、英語とフランス語のような類似した言語間でさえ、文の数の不一致が10%ある。すなわち、一言語で二つの文に言われていることが、別の言語では一つの文だけ又は三つの文で言われる(Galeら、「A program for aligning sentences in bilingual corpora」、Computational Linguistics、19(1)巻75〜102頁1993年)。日本語と英語のようなかけはなれた言語のペアの場合、その差はさらに大きい。
【0079】
例えば、図7に示す日本語の文(「テキスト(1)」)を検討する。下記の文(「テキスト(2)」)はテキスト(1)の逐次的「グロス」である。
【0080】
【表1】
【0081】
対照的に、職業翻訳家がつくった、日本語文の二つの文からなる翻訳文(「テキスト(3)」)は以下のように書かれている。
【0082】
【表2】
【0083】
テキストの標識をつけたスパンは、基本談話ユニット(edu)すなわち明白な談話機能を有する最小のテキストスパンを示す(Mannら、「Rhetorical structure theory: Toward a functional theory of text organization」、Text、8(3)巻243〜281頁1988年)。そのテキストフラグメントを綿密に解析すると、テキスト(1)を翻訳する際に、職業翻訳家は、第一に、日本語ユニット2の情報を認識し(テキスト(1)のユニット2はテキスト(3)のユニット1にほぼ対応している);次に日本語ユニット1の情報のいくらかを認識し(テキスト(1)のユニット1の一部はテキスト(3)のユニット2に対応している);次にテキスト(1)のユニット1、3及び5に与えられた情報を拒絶し次いでその情報を英語でユニット3として認識する;などを選択することが分かる。また、該翻訳家は、元の日本語文の情報を、二つの英語文中にリパッケージ(re−package)することを選択する。
【0084】
基本ユニットレベルにおいて、テキスト(1)の日本語とテキスト(3)の前記日本語の英語翻訳文との間の対応は下記マッピング(4)のように表すことができる。式中、j⊂eは、ユニットjの意味内容がユニットeに完全に認識されていることを示し;j⊃eは、ユニットeの意味内容がユニットjに完全に認識されていることを示し;j=eは、ユニットjとeが意味が同等であることを示し、そしてj≒eは、ユニットjとeの間に意味のオーバーラップがあることを示す。
【0085】
【数2】
【0086】
したがって、(4)に示すマッピングは、情報が、日本語から英語に翻訳される時に再順序付けされ次にリパッケージされる方法を明確に示す。しかし、テキストを翻訳するとき、その場合も修辞的翻訳が変化する。対照の関係(contrast relation)を利用して日本語で認識されることは、例えば比較又は譲歩の関係(a Comparison or a Concession relation)を利用して英語で認識することができる。
【0087】
図8と9は、前掲Mannの論文のスタイルで、上記テキストフラグメント(1)と(3)の談話構造を示す。各談話構造は一つのツリーであり、その葉は連続テキストスパンに相当する。各ノードは状態(status)(核又は衛星)及び修辞的関係が特徴であり、その修辞的関係は二つのオーバーラップしていないテキストスパンを保持する関係である。核と衛星の相違は、その核が、衛星よりライタ(writer)の意図に不可欠なことを表現し、そして修辞的関係の核は衛星とは無関係に広範囲にわたっているがその逆はないという実験観測から生じる。スパンが等しく重要である場合、修辞的関係は多核性である。例えば、図8と9に示す英語テキストの修辞的構造中のユニット[3]とスパン[4、5]の間を保持するコントラストの関係は多核性である。サフィックス「−e」で終わる修辞的関係は、埋めこまれた統語的要素に対応する関係を示す。例えば、英語の談話構造のユニット2と1の間を保持する精緻化−目的語−限定語−E(ELABOLATION−OBJECT−ATTRIBUTE−E)の関係は限定相対語(restrictive relative)に対応する。
【0088】
eduレベルのマッピングを知っている場合、スパン(談話要素)レベルでもマッピングを確認できる。例えば、(4)の基本マッピングを使用して、日本語のスパン[1、2]が英語のスパン[1、2]に対応すること、日本語ユニット[4]が英語スパン[4、5]に対応すること、日本語スパン[6、7]が英語ユニット[6]に対応すること、日本語スパン[1、5]が英語スパン[1、5]に対応することなどを確認できる。図8と9が示すように、日本語のツリーのスパン[1、5]と[6、7]の間を保持する譲歩(concession)の関係が、英語のツリーのスパン[1、5]とユニット[6]の間を保持する類似の関係に対応する(日本語の場合、前記関係は文フラグメント間を保持するが英語の場合、前記関係は完全な文の間を保持することをモジュロ(modulo)する)。しかし、日本語のツリーユニット[3]と[4]の間を保持する時を表すafter(TEMPORAL−AFTER)の関係は、英語のツリーのユニット[3]とスパン[4、5]間の対照の関係として認識される。そして、日本語ユニット[6]と[7]は、英語では融合してユニット[6]になるから、前記の精緻化−目的語−限定語−Eの関係は、英語のテキストにおいてもはや明白には述べられない。
【0089】
図8と9に示す二つの談話のツリーの間の差のいくつかは、MTシステムにおいて統語的レベルで、伝統的にアドレス指定されている。例えばユニット1と2の再順序付けは統語的モデルだけを使用して処理できる。しかし、以下に考察するように、情報が文レベルでのみならずパラグラフ及びテキストのレベルで修辞的にパッケージされ編成される方式については、日本語と英語の間に有意な差がある。さらに具体的に述べると、ヒトは、日本語を英語に翻訳するとき、日本語テキストの節、文及びパラグラフを再順序付けし、その情報を、元の日本語ユニットの一対一マッピングでない節、文及びパラグラフに再パッケージし、次いで、英語に特異的な修辞的制約を反映させるため、該翻訳されたテキストの構造を修辞的に再編成する。翻訳システムは、文法的に正しいだけでなく首尾一貫しているテキストをつくらねばならぬ場合、目的テキストの談話構造が、目的言語の自然な翻訳を反映し、かつ原始言語の自然な翻訳を反映しないことを保証しなければならない。
【0090】
下記実験の章で、日本語テキストとそれに対応する英語翻訳文の修辞的構造の間に有意な差があることを実験で示す。これらの差は、談話構造を書き換えるための計算モデルを開発することが必要で望ましいことを示している。
【0091】
実験
MTの談話構造の役割を評価するため、談話のツリーのコーパスを、40の日本語テキストとそれらテキストの対応する翻訳文について手動操作でつくった。これらのテキストは、ARPAコーパス(Whiteら、「Evaluation in the ARPA machine−translation program:1993 methodology」、In Proceedings of the ARPA Human Language Technology Workshop、135〜140頁米国ワシントンD.C.1994年)から無作為に選んだ。各テキストは、平均して約460個の単語を有していた。それら日本語のテキストは合計335個のパラグラフと773の文を有していた。英語のテキストは合計337個のパラグラフと827個の文を有していた。
【0092】
談話注釈プロトコル(discourse annotation protocol)を、日本語と英語について、Marcuら、「Experiments in constructing a corpus of discourse trees」、In Proc. Of the ACL’99 Workshop on Standards and Tools for Discourse Tagging、48〜57頁米国メリーランド1999年)によって追跡されたラインにそって開発した。コーパス中の日本語と英語のテキストすべての談話構造を手動操作で構築するため、Marcuの談話注釈ツール(1999年)を利用した。日本語と英語のテキストの比率は、二つのアナテータ(annotator)で修辞的に標識をつけた。前記ツールと注釈プロトコルは、http://www.isi.edu/ ̄marcu/software/で入手できる。その注釈手続によって、全コーパスにわたって、2641の日本語eduと2363の英語eduが得られた。
【0093】
【表3】
【0094】
上記注釈に信頼性があるのは、コンピュータが階層的構造にわたって、カッパ統計量(kappa statistic)(Siegelら、Non−parametric Statistics for the Behavioral Sciences、McGraw−Hill、第二版1988年)を計算するMarcuらの1999年の方法を使用しているからであった。上記表1は、注釈の信頼性を反映する、基本談話ユニットの平均カッパ統計量ku、階層的談話スパンの平均カッパ統計量ks、階層的中核性のアサインメント(hierarchical nuclearity assignments)の平均カッパ統計量kn、及び階層の修辞的関係のアサインメントの平均カッパ統計量krを示す。0.8より大きいカッパ数学は良好な一致に対応し、0.6より大きいカッパ数字は許容可能な一致に対応する。すべてのカッパ統計量がα=0.01より高いレベルで統計的に有意であった。カッパ統計量に加えて、表1は、カッパ統計量が計算された一文書当たりのデータ点の平均数も括弧内に示す。
【0095】
日本語−英語の談話構造の各対に対するアラインメントファイル(alignment file)も、手動操作で組み立てられた。なおそのファイルは、1頁で考察した注釈において、日本語テキストのeduと英語翻訳文のeduの間の対応を指定した。
【0096】
英語と日本語の談話のツリーの類似性が、edu境界、階層的スパン、中核性及び修辞的関係の日本語と英語の談話構造のアサインメントに関するそれら構造の類似性を反映するラベル付き再表示(labeled recall)及び精度の数字を使用して計算された。
【0097】
比較されるツリーは、一言語と他の言語では、基本ユニットの数、これらユニットの順序、及びそれらユニットが談話スパン中に再帰的にグループ化される方法が異なるので、二つのタイプの再表示及び精度の数字が計算された。位置依存性(P−D)の再表示と精度の数字を計算する場合、日本語のスパンは、それが英語スパンのeduに対応するすべての日本語eduを含んでいたとき、及び日本語と英語のスパンが全構造に対して同じ位置に出現したときに、英語スパンに整合しているとみなした。例えば、図8と9の英語のツリーは、10個のサブセンテンシャルスパン(subsentential span:[1]、[2]、[3]、[4]、[5]、[6]、[1、2]、[4、5]、[3、5]及び[1、5]が特徴的である)(スパン[1、6]は二つの文を包含する(subsume)のでサブセンテンシャルではない)。日本語の談話のツリーは、同じ位置で英語のスパンと整合しうるスパンを四つしかすなわちスパン[1、2]、[4]、[5]及び[1、5]しかもっていない。したがって、日本語のツリーと英語のツリーの間の、それら談話に関する、文レベルより低い類似性は、再表示が4/10で精度が4/11である(図8と9には、11個のサブステンシャル日本語スパンがある)。
【0098】
位置と無関係(P−I)の再表示と精度の数字を計算する場合、日本語スパンが、翻訳文中、英語のツリーの位置まで「浮動」したときでさえ、P−Iの再表示と精度の数字は影響を受けない。これら位置に無関係の数字は、二つのツリーt1とt2の両者が一つのサブツリーtを有している場合、t1とt2は、それらが一つのツリーを共有していない場合より類似しているという直観を反映している。文レベルで、例えば、関係節の統語的構造が適正に翻訳されると、(その構造がたとえ適正に連結されていなくても)これはその関係節を間違って翻訳するより優れていると考えられる。位置と無関係の数字は、談話のツリーを比較するのに一層楽観的メトリック(more optimistic metric)を提供する。その位置と無関係の数字は位置依存性の数字より広い範囲の値にまたがっている。このことによって、日本語と英語の談話構造の間の差のより優れた特性決定を行うことができる。表1に示すツリーにおいて、サブセンテンシャルレベルでのスパンに対して、楽観的な立場をとると、スパン[1、2]、[4]、[5]及び[1、5]に加えて、日本語スパン[1]を英語スパン[2]に、及び日本語スパン[2]を日本語スパン[1]にも整合させることができるので、再表示は6/10になりそして精度は6/11になる。
【0099】
二つの談話のツリーがいかに精密であるかをより良好に推定するため、位置依存性の及び位置と無関係の再表示と精度の数字を、文レベルで(この場合、ユニットはeduによって与えられ、スパンはedu又は単文のセットで与えられる);パラグラフレベルで(この場合、ユニットは文によって与えられ、スパンは文又は単パラグラフのセットによって与えられる);及びテキストレベルで(この場合、ユニットはパラグラフによって与えられ、スパンはパラグラフのセットによって与えられる)計算した。これらの数字は、談話の構造と関係がすべての談話レベルを横切り一つの言語から別の言語へ、文からテキストへどのようにマップされるかを詳細に示す。文レベルでの差異は、日本語と英語の統語的構造間の差異によって説明することができる。パラグラフレベルとテキストレベルでの差異は、純粋に修辞的な意味を有している。
【0100】
再表示と精度の数字を、中核性と関係のアサインメントについて計算したとき、スパンの各ペアにラベルを付けた状態及び修辞的関係も要因として含めた。
【0101】
【表4】
【0102】
上記表2に、各レベル(文、パラグラフ及びテキストのレベル)に対する結果[P−DとP−Iの再表示(R)と精度(P)の数字]を要約してある。「重み付け平均値」の行の数字は、各レベルにおけるユニットの数によって重み付けを行った文、パラグラフ及びテキストそれぞれに特異的な数字の平均値を報告する。「全体」の行の数字は、文とパラグラフの境界に全く注意せずにツリー全体にわたって計算された再表示と精度の数字を反映している。
【0103】
日本と英語の有意に異なる統語的構造が与えられると、再表示と精度の結果は、文レベル以下で組み立てられた談話のツリーの間の類似性を反映して低かった。しかし表2が示すように、パラグラフレベルとテキストレベルでも談話のツリーの間に有意差がある。例えば、位置に無関係の数字は、文の約62%のみ及び文全体にわたって組み立てられた階層的スパンの約53%のみが、前記二つのコーパス間で整合させることができることを示している。パラグラフレベルで文全体にわたって組み立てられたスパンに関連した状態と修辞的関係を見ると、P−Iの再表示数字と精度の数字がそれぞれ約43%と35%まで低下する。
【0104】
再表示及び精度の差はともに、情報が二つの言語のパラグラフ中にパッケージされる方法、及び情報がパラグラフレベル内に及びパラグラフレベルのまわりに修辞的に構築される方法の差異によって説明される。
【0105】
これらの結果は、文単位ベースで、日本語を英語に翻訳しようとする場合、得られるテキストは談話の観点から不自然であろうと強く示唆している。例えば、日本語に比較の関係(CONTRAST relation)を使用して翻訳されたなんらかの情報が、英語に精緻化の関係(ELABORATION relation)を使用して翻訳されると、英語翻訳中に「しかし」のような談話標識を使うことは不適当であろうが、それは日本語の談話構造と矛盾しない。
【0106】
日本語と英語の間の修辞的マッピングを検査したところ、いくつかの日本語の修辞的翻訳文が英語の一つ又はいくつもの好ましい翻訳文に一貫してマップされていることが明らかになった。例えば、日本語テキスト中の115の対照的関係(CONTRAST relation)のうち34が英語の対照の関係にマップされており;27は対句(ANTITHESIS)と譲歩(CONCESSION)などの関係の核になり;14は比較の関係として翻訳され、6は譲歩関係の衛星として翻訳され、5はリスト(LIST)の関係として翻訳される。
【0107】
談話ベースの変換モデル
図10は、訓練中のプロセスにおけるツリー書き換え器のブロック図である。図10に示すように、ツリー書き換え器700は、二つの異なるタイプのツリー、例えばAタイプのツリーとBタイプのもう一つのツリーを入力として受け取り、次にタイプAのツリーをタイプBのツリーに書き換える方法を自動的に学習する。ツリー書き換え器700は、出力として、タイプAのツリーをタイプBのツリーに書き換えるための変換関数:H(A→B)を生成する。したがって、タイプAが日本語のツリーに対応しそしてタイプBが英語のツリーに対応すると仮定すると、H(A→B)は、ユーザ(例えばヒトのエンドユーザ又はツリー書き換え器を起動するソフトウェアアプリケーション)が、英語のツリー構造を日本語の対応するツリー構造に自動的に変換できるようにする。
【0108】
ツリー書き換え器は、構文のツリー(シンタックスツリー;syntactic tree)、修辞のツリー及び事実上、計量言語学に使用される他のどんなタイプのツリー構造に対しても作動する。ツリー書き換え器は、機械翻訳におけるアプリケーションのみならず、集計、談話解析、統語解析、情報検索、自動試験採点及びツリーを生成し使用する他のアプリケーションも有する。例えば機械翻訳の場合、ツリー書き換え器は、一言語に特異的な統語/修辞のツリーを、もう一つの言語に対する統語/修辞のツリーに書き換えるのに使用できる。集計の場合、ツリー書き換え器は、長いテキスト又は文の談話/構文構造を、短いテキスト又は文の談話/構文構造に書き換えるのに使用できる。
【0109】
この高い汎用性は図11に示してあるが、図11中のツリー書き換え器801は、変換関数H(ツリー→ツリー’)を学習するように訓練された後、ツリーを出力として生成するアプリケーション800から、ツリーを入力として受け入れることができる。ツリー書き換え器の出力(ツリー’−上記入力されたツリーの書き換えられたバージョン)は、出力側で、ツリーを入力として使用するアプリケーションに入力として使用できる。
【0110】
図12は、より大きいシステムすなわち談話ベースの機械翻訳システムの要素としてのツリー書き換え器の特定アプリケーションのブロック図である。例えば、より大きい著作(例えば全書)の個々の文を別々に翻訳することによって「タイルド(tiled)」法を翻訳に有効に採用する従来のMTシステムと異なり、図12の談話ベースのMTシステムは、全テキストを全体として翻訳し、原本と文の数及び/又は配列は異なるが、元テキストの基礎になっている談話又は修辞をうまくとらえた翻訳文をもたらすことができる。
【0111】
図12に示すように、談話ベースMTシステム910は、原始言語テキスト900を入力として受け取りついで目的言語テキスト908(該原始言語テキスト900の談話ベース翻訳文)を出力として生成する。そのシステム910は、三つの基本的要素、すなわち談話パーサ(discourse parser)902、談話構造変換モジュール904(すなわち、変換関数:H(ツリー→ツリー’)を使用してツリーを書き換えるようトレーニングされたツリー書き換え器の具体例)、及び目的言語のツリー−テキストマッパー(target language tree−text mapper)906を備えている。
【0112】
上記談話パーサ902は、最初、原始言語テキストの談話構造を引き出し次いで対応する談話のツリーを出力として生成する。談話パーサ902として使用できる談話パーサの詳細は、Daniel Marcu、「A Decision−Based Approach to Rhetorical Parsing」Proceeding of ACL’99、1999年に記載されている。なおこの文献は本願に援用するものである。
【0113】
目的言語のツリーテキストマッパー906は、談話の特異的特徴を取りこんだ翻訳と言語のモデルを使用して目的言語中に入力テキストをマッピングする統計的モジュールである。なおその談話の特異的特徴は、談話パーサ902の出力及び談話構造変換モジュール904の出力から抽出される。適切なマッパー906の詳細は、Ulrich Germann、Michael Jahr、Kevin Knight、Daniel Marcu、Kenji Yamada、「Fast Decoding and Optimal Decoding for Machine Translation」、Proceeding of the 39th Annual Meeting of the Association for Computational Linguistics、2001年7月6〜11日に記載されている。なお、この文献は本願に援用するものである。
【0114】
上記のように、談話構造変換モジュール904は、ツリーを、所望の入力タイプから所望の出力タイプに書き換えるようトレーニングされたツリー書き換え器の具体例である。さらに具体的に述べると、談話構造変換モジュール904は、目的テキストに対して自然な談話翻訳を反映するように、入力テキストの談話構造を書き換える。
【0115】
図13は、二つの異なるタイプのツリー構造、例えばタイプAのツリーとタイプBのツリーの間の変換関数を自動的に学習するように、ツリー書き換え器をトレーニングするのに利用できるプロセス1300を示す流れ図である。
【0116】
図13に示すように、第一ステップ1301は、ツリーの入力−出力ペアのトレーニングセット[Ts、Tt]及び入力−出力ツリーペア各々の葉の間のマッピングCを生成するステップである。そのペアの入力ツリーは、そのタイプから変換することが望ましいタイプのツリーであり、換言すると、原始ツリータイプのTsである。そのペアの出力ツリーは、そのタイプに変換することが望ましいタイプのツリーであり、換言すれば目的ツリータイプのTtである。
【0117】
入力ツリー及びそのペアの出力ツリーの葉の間のマッピングCは、原始テキストセグメントとその対応する目的言語翻訳文の間の対応を定義する。これらのマッピングは、下記のように手動操作で、又はKevin Knight及びDaniel Marcu、「Statistics−Based Summarization−Step One: Sentence Compression」、The 17th National Conference on Artificial Intelligence(AAAI−2000)703〜710頁に記載されているように自動的に生成することができる。なお、この文献は本願に援用するものである。
【0118】
利用できる日本語−英語の入力−出力ペアの葉の間の利用可能なタイプのマッピングは、上記式(4)(式中、jは日本語テキストセグメントを意味しそしてeはそのテキストセグメントの英語翻訳文を意味する)に示してある。式(4)で表されるマッピングは、1対1のマッピングに限定されず、任意のマッピング、すなわち1対1のみならず1対多数、多数対1及び多数対多数のマッピングであってもよいことに留意すべきである。マッピングにおけるこの適応性は、入力ツリーと出力ツリーの間の関連が定義されるリッチネス(richness)を劇的に高め、そしてさらに、自動的に学習される変換関数H[]の適応性を高める。
【0119】
トレーニングセット(入力−出力のツリーのペア及びそれらツリーの間のマッピング)がつくられた後、次に、そのトレーニングプロセスは、ステップ1303で、そのペアになっている入力ツリーから出発する所定の入力ツリーを生成する操作のグルーピングと順序を決定する。このステップは、総合的に、「拡張シフト−還元」操作(“extended shift−reduce”operation)と呼称される下記七つの基本的操作すなわちシフト、還元、ブレーク(break)、クリエイト−ネクスト(create−next)、融合(fusion)、スワップ及びアサインタイプ(assign Type)に基づいて実行される。なおこれらの操作は、「談話ベースの変換モデル」という標題の後記の章で詳細に説明する。これら七つの操作は、与えられた入力ツリーをそのペアになっている出力ツリーに書き換えるのに充分な操作である。
【0120】
ステップ1303の出力は、学習ケースすなわちトレーニングセット中の入力−出力ツリーのペア各々の学習ケースのセットである。各学習ケースは、本質において、入力ツリーに適用されると、ペアの出力ツリーを生成する拡張シフト−還元操作の順序付けられたセットである。
【0121】
次に、ステップ1305において、ツリー書き換え器のトレーニングプロセス1300は、特徴(例えば操作と談話の特徴、対応ベースの特徴及び字句の特徴)を、学習ケースと関連づけて、操作を実行すべきコンテキスト(文脈;context)を反映させる。ステップ1305の詳細は、表題が「Learning the parameters of the discourse−transfer model」の後記章で考察する。
【0122】
次にステップ1307において、ツリー書き換え器トレーニングプロセス1300は、学習アルゴリズム、例えばJ. Ross Quinlan、「C4.5: Programs for Machine Learning」Morgan Kaufmann Publishers1993年に記載されているようなC4.5アルゴリズムを適用して、決定則のセットを学習ケースから学習する。ステップ1307の詳細は、表題が「Learning the parameters of the discourse−transfer model」の後記章で考察する。この決定則のセットは、タイプTsのツリーを、タイプTtのツリーに書き換えるのに用いる変換関数:H(Ts→Tt)を統合的に構成している。その場合、この変換関数は、前には見えなかったタイプTsのツリーを、タイプTtのツリーに書き換えるため、ユーザ、アプリケーション又は他の自動化プロセスが利用できる。
【0123】
ツリー書き換え器のトレーニングのより詳細な考察は次のとおりである。
【0124】
談話構造のツリーを書き換えることを学習するため、定義3.1で以下に定義される関連する問題がアドレス指定される。
【0125】
定義3.1 二つのツリーTsとTt及び対応テーブルCが、=、⊂、⊃及び≒のリアクション(reaction)によって葉のレベルにてTsとTtの間で定義されれば、ツリーTsをTtに書き換える一連のアクションを見つける。
【0126】
任意の組(tuple)(Ts、Tt、C)に対し、このような一連のアクションを引き出すことができるならば、ツリーTsと同じ構造特性を有する見えない(unseen)ツリーTsiから、Ttと類似の構造特性を有するツリーTtjを引き出すように自動的に学習するため、(Ts、Tt、C)の組のコーパスを使うことが可能である。
【0127】
定義3.1の問題を解決するには、Mangerman、「Statistical decision−tree models for parsing」In Proc. Of ACL’95、276〜283頁米国マサチューセッツ州ケンブリッジ1995年;Hermjakob ら、「Learning parse and translation decisions from examples with rich context」In Proc. Of ACL’97482〜489頁スペイン、マドリード1997年;及びMarcu、「A decision−based approach to rhetorical parsing」In Proc. Of ACL’99、365〜372頁米国メリーランド1999年によって適用されるシフト−還元解析パラダイムをいくぶん拡張する必要がある。この拡張されたパラダイムにおいて、該変換プロセスは、空スタック及び一連の基本談話のツリーのedtを含有する入力並び(入力リスト;Input List)から出発し、ツリーTsの各eduに対する一つのedtが入力として与えられる。各edtと関連する状態及び修辞的関係は定義されていない。各ステップにおいて、変換モジュールは、Ts内のユニットから談話のツリーTtを組み立てることを目的とする操作を適用する。前記談話変換モジュールに関連して、以下の七つのタイプの操作が実行される。
【0128】
・シフト操作が第一edtを、入力並びからスタックに変換する。
・還元操作が、スタックのトップに位置する二つの談話のツリーをポップ(pop)し、それらのツリーを、その操作に関与するツリーの状態と修辞関係名を更新する新しいツリーに結合し、次いでその新しいツリーをスタックのトップにプッシュする。これらの操作は、談話のツリーの構造を、目的言語中に組み立てるために利用される。
・ブレーク操作が、入力並びを、予め定められた数のユニット中に開始する際、edtをブレークするために利用される。これらの操作は、得られたツリーがTtと同じ数のedtをもっていることを保証するために使用される。例えば、一つの日本語eduが複数の英語ユニット中にマップされるときはいつも、一つのブレーク操作が利用される。
・クリエイト−ネクスト操作が、例えば、日本語(原始言語)のツリーに対応物がない英語(目的言語)の談話要素をつくるために利用される。
・融合操作が、スタックのトップに位置するedtを、その直前を先行するツリーに融合させるために利用される。これら操作は、例えば、複数の日本語eduが一つの英語eduにマップされるときはいつでも利用される。
・スワップ操作が、入力並びの最初のedtを、右側の1又は2以上の位置に見つけられたedtでスワップする。これら操作は、談話の要素を再順序付けするために使用される。
・アサインタイプの操作が、下記タイプすなわちユニット、マルチユニット、文、パラグラフ、マルチパラグラフ及びテキストの1又は2以上を、スタックのトップに位置するツリーtに割り当てる。これらの操作は、目的言語に特異的な文及びパラグラフの境界を保証するために利用される。
【0129】
例えば、図9の英語のツリーの第一文は、下記アクション(5)のシーケンスをたどることによって、原日本語のシーケンスから得ることができ、そのアクションの効果は図14に示してある。簡潔にするため、図14にはアサインタイプのアクションの効果を示していない。同じく簡潔にするため、いくつものラインは2以上のアクションに相当するラインである。
【0130】
(5)ブレーク2;スワップ2;シフト;アサインタイプユニット;シフト;還元−NS−精緻化−目的語−限定語−E;アサインタイプマルチユニット;シフト;アサインタイプユニット;シフト;アサインタイプユニット;融合;アサインタイプユニット;スワップ2;シフト;アサインタイプユニット;融合;ブレーク2;シフト;アサインタイプユニット;シフト;アサインタイプユニット;還元−NS−精緻化−追加(ADDITIONAL);アサインタイプマルチユニット;還元−NS−対照;アサインタイプマルチユニット;還元−SN−バックグランド;アサインタイプ文。
【0131】
談話ベースの変換モジュールが日本語の談話のツリーから出発する英語の談話のツリーを引き出すことができるようにするために使用されるコーパスに対して、下記の事を実施すれば充分である。
【0132】
・一つのシフト操作
・3×2×85の還元操作;(中核性アサインメントの三つの可能なペア:核−衛星(NS)、衛星−核(SN)および核−核(NN)の各々について、二つの隣接するツリーを還元する二つの可能な方法がある(一方のツリーは二分ツリーをもたらし残りのツリーは非二分ツリーをもたらす)(Marcu、「A decision−based approach to rhetorical parsing」 In Proc. Of ACL’ 99、365〜372頁 米国メリーランド1999年)、及び85の関係名)
・三つのタイプのブレーク操作;(使用されるコーパスにおいて、日本語ユニットが、2ユニット、3ユニット又はせいぜい4ユニットにブレークされる);
・一つのタイプのクリエイト−ネクスト操作;
・一つのタイプの融合操作;
・11タイプのスワップ操作;(コーパスにおいて、日本語ユニットは、英語特異的翻訳文のそれらの位置からせいぜい11位置離れている)
・七つのタイプのアサインタイプ操作:ユニット、マルチユニット、文、マルチ文、パラグラフ、マルチパラグラフ及びテキスト。
【0133】
これらのアクションは、任意のツリーTsを任意のツリーTtに書き換えるのに充分なアクションであり、この場合、Ttは異なる数のeduを有していてもよく、TtのeduはTsのeduとは異なる順序付けがなされていてもよく、かつこれら二つのツリーの階層構造も異なっていてもよい。
【0134】
談話−変換モデルのパラメータの学習
この変換モデルの構成は各々、学習ケースと関連がある。これらのケースは、手動操作で構築される対応(correspondence)を、基本ユニットレベルで使用して、コーパス中の日本語のツリーを同胞の英語のツリーにマッピングするアクションのシーケンスを自動的に引き出すプログラムによってつくった。全体にわたって、日本語と英語の談話のツリーの40個のペアが14108個のケースを生じた。
【0135】
各学習実施例に対して、下記クラス由来の特徴のセットを関連づけた。
【0136】
操作と談話の特徴は、スタック、入力並び、及び最後の五つの操作のタイプに、ツリーの数を反映する。これらの特徴は、特定の時間までに組み立てられる部分のツリーのタイプ、及びこれらのツリーの間を保持する修辞的関係に関連する情報を符号化する。
【0137】
対応ベースの特徴は、中核性、修辞的関係、及び与えられた時間までに引き出される英語様部分のツリーに対応する日本語のツリーのタイプを反映する。
【0138】
字句の特徴は、与えられた時間までに引き出される構造に対応する日本語のスパンが、潜在的な談話標識、例えば「だから」(because)や「のに」(although)を使うかどうかを指定する。
【0139】
談話変換モジュールは、決定のツリー、及び日本語の談話のツリーが英語様のツリーにどのようにマップされるべきかを指定するルールを学習するため、C4.5プログラム(Quinlan著、C4.5: Programs for Machine Learning、Morgan Kaufmann Publishers 1993年)を使用する。分類器(classifier)の10倍相互妥当性の評価(ten−fold cross−validation evaluation)は、正確さが70.2%(±0.21)になった。
【0140】
分類器の強みと弱点を充分に理解するために、問題をより小さい要素に分けた。したがって、すべてのアクションを同時に学習する代わりに、書換え手順が、シフト、還元、ブレーク、融合、スワップ又はアサインタイプの操作(表3に示す「主アクションタイプ」)を選ぶべきかどうかが第一に決定され、その次にはじめて、どんなタイプの還元操作を実施して日本語のユニットをいくつのユニットに分けるか、スワップされたユニットに対する距離をどんな大きさにすべきか、及びどんなタイプのアサインタイプの操作を実行すべきかを決定することによって前記決定が改善される。下記の表3は、10倍相互妥当性評価法を使用して測定される、各データセットの大きさとこれら分類器各々の性能を示す。比較するために、各分類器はマジョリティベースライン(majority baseline)とペアにしてある。
【0141】
【表5】
【0142】
表3に示す結果は、最も困難な学習すべきサブタスクが日本語ユニットの分けなければならないユニットの数を決定するサブタスク及びスワップすべきユニットに対する距離を決定するサブタスクであることを示す。利用される特徴は、これらアクションタイプのベースライン分類器を改良できない。「主アクションタイプ」の分類器についての混同マトリックス(confusion matrix)(表4参照)は、該システムが、ブレークとクリエイト−ネクストのアクションをほとんど同一視する問題があることを示している。該システムは、どんなタイプの中核性順序付けを選ぶか(「中核性−還元」分類器)及びどんな関係を英語様構造に選ぶか(「関係−還元」分類器)を学習することは困難である。
【0143】
【表6】
【0144】
図15は典型的な学習曲線すなわち「還元関係」分類器に対応する学習曲線である。この学習曲線は、より多くのトレイニングデータが性能を改善できることを示唆している。しかし、その学習曲線は、性能を有意に改善するためには、より優れた特徴が必要であろうということも示唆している。
【0145】
下記表5はいくつかの学習されたルールを示す。第一のルールは、日本語から英語に翻訳される時に限定の関係(ATTRIBUTION relation)の核と衛星の順序が変更される修辞マッピングを説明する。第二のルールは、例(EXAMPLE)の日本語衛星を根拠(EVIDENCE)の英語衛星にマッピングするために学習された。
【0146】
【表7】
【0147】
談話ベース変換モジュールの評価
汎用分類器又はその他の6種の分類器を続けて適用することによって、日本語の談話のツリーを、その構造が英語の自然な翻訳文に近くなるツリーにマッピングすることができる。談話ベース変換モジュールを評価するため、10倍相互妥当性評価実験を行った。すなわち、それら分類器を、手動操作で組み立てて整列させた談話構造の36ペアのトレーニングを行い次いでその学習された分類器を使って、四つの見えない日本語の談話のツリーを、英語様ツリーにマップした。その引き出されたツリーと手動操作で組み立てられた英語のツリーの類似性を、さきに考察したマトリクスを使用して測定した。この手順を10回繰り返したが、各回で、異なるサブセットのツリーのペアのトレーニングと試験を行った。
【0148】
表2に報告した結果は、該モデルに対するベースラインとしての報告であった。そのベースラインは、談話の知識を全く適用しないことに対応している。下記表6は、汎用分類器を使用して、日本語のツリーを英語様ツリーにマップしたときに得られた再表示と精度の数字の絶対改良(パーセント)を示す。汎用分類器が最良の結果を示した。表6に示す結果は、10倍相互妥当性評価実験での平均値である。
【0149】
【表8】
【0150】
表6の結果は、ここに記載のモデルが、英語様談話構造を文に対して組み立てることについてはベースラインより優れているが、英語様構造を、パラグラフとテキストのレベルで組み立てることについてはベースラインより劣ることを示している。このモデルの一つの潜在的欠点は、パラグラフの境界を割り当てる(assign)性能が低いことが原因のようである。分類器は、どちらのスパンがパラグラフを考慮すべきでどのスパンがパラグラフを考慮すべきでないかを正しく学習しないので、そのパラグラフとテキストのレベルでの再表示と精度の結果はマイナスの影響を受ける。また、パラグラフとテキストのレベルでの劣った結果は、一ステップずつツリーを再構築する過程でその効果が累積する誤り、及びこれらのレベルについては、それから学習すべきデータが少ないことによって説明できる。
【0151】
しかし、文とパラグラフの境界を無視し、談話構造全体を評価するならば、このモデルは、位置依存評価によって、どうあってもベースラインより優れており;位置独立評価によって、基本ユニット、階層スパン及び中核性状態の割り当て(assignment)についてはベースラインより優れており;そして位置独立評価によって、修辞的関係の割り当てについてはベースラインにごくわずか劣ることが分かる。より高性能の談話の特徴、例えばMayard著、Principles of Japanese Disclosure: A Handbook, Cambridge Univ. Press 1998年に記載されている特徴、及びこれら二つの言語のレキシコグラマー(lexicogrammar)によるより密接な統合によって、談話ベースの翻訳モデルを学習するより優れたきっかけが生まれる。
【0152】
ツリー書き換え器の別の実施態様が可能である。例えば、可能性があることはツリーを書き換える手順に組み入れることができる。あるいは又は追加して、複数のツリーは平行して書き換えることができそして最良のツリーが最後に選択される。現行の実施態様では、目的のツリーTtは一連の決定性ステップにて再帰(recursion)又は分岐なしで生成する。あるいは、可能性があることを個々の各ステップと関連づけ、次いで複数の代替物を同時に探索することによって目的のツリーTtを再構築することが可能である。目的のツリーTtの確率は、そのツリーに生じるすべてのステップの確率の積で表される。この場合、目的のツリーTtは、最大の確率で得られたツリーであると解される。このような方法の利点は、確率的変換関数H[]を学習できることである。
【0153】
ごく少数の実施態様だけを詳細に説明してきたが、当業技術者は、好ましい実施態様において多くの変形が、本願の教示から逸脱することなく可能であることが確実に分かるであろう。このような変形はすべて本願の特許請求の範囲に含まれる。
【図面の簡単な説明】
【図1A】ユーザからみた機械翻訳のブロック図を示す。
【図1B】単語レベルの整合の一例を示す。
【図2】グリーディーデコーダの一実施態様の操作の流れ図を示す。
【図3】フランス語の文の英語翻訳文を生成するグリーディーデコーダの一実施例を示す。
【図4】グリーディーデコーダがフランス語の文の英語翻訳文を生成するとき、ユーザが見る出力の一実施例を示す。
【図5】三文字言語のモデルを使用して行った異なるデコーダ間の比較を示す表である。
【図6】修辞構造のツリーの一実施例を示す。
【図7】日本語の原始文の一例である。
【図8】図7に示す日本語原始文の談話構造である。
【図9】図7に示す日本語原始文から翻訳された英語の目的文の談話構造である。
【図10】ツリー書き換え器のブロック図を示す。
【図11】ツリー書き換え器がより大きいシステムのサブシステムとしてどのように使用できるかを示すブロック図である。
【図12】サブシステムとしてツリー書き換え器を備えた談話ベースの機械翻訳システムのブロック図を示す。
【図13】ツリー書き換え器を組み立てるのに利用する手順の流れ図である。
【図14A】ツリーを徐々に再構築している一実施例を示す。
【図14B】ツリーを徐々に再構築している一実施例を示す。
【図15】関係−還元分類器の学習曲線のグラフである。
関連する出願
本願は、2000年5月11日付けで出願された米国仮特許願第60/203,643号の特典を主張し、かつその内容は本願に援用するものである。
【0002】
本発明の起源
本願に記載されている研究と開発は、援助番号MDA904−97−0262に基づいてNSAによって、及び援助番号MDA904−99−C−2535に基づいてDARPA/ITOによって援助を受けたものである。米国政府は本願発明に特定の権利を有している。
【0003】
発明の技術分野
本願は、計量言語学に関し、さらに詳しく述べると機械翻訳技法に関する。さらに具体的に述べると、本願は、原始テキストセグメント(source text segment)の目的テキストセグメント(target text segment)へのデコーディングを実行し、次いで第一言語空間から別の言語空間へツリー(tree)を書き換える技法について述べる。
【0004】
背景と要約
機械翻訳(MT)とは、例えばコンピュータシステムを使用して第一言語(例えばフランス語)を別の言語(例えば英語)へ自動翻訳することである。MT技法を実行するシステムは、原始言語を目的言語へ「デコーディングする」といわれている。エンドユーザの眼から見て、MTのプロセスは比較的簡明である。図1Aに示すように、MT102は、例えばフランス語の原始文100(例えば「ce ne est pas juste」)を入力として受け取り、次にその入力された文を処理した後、目的言語、この実施例の場合、英語の等価のデコーディングされた文(「it is not fair」)を出力する。
【0005】
従来のMTデコーダの一つのタイプは、例えば発明の名称が「Method and System for Natural Language Translation」の米国特許第5,477,451号(Brownら)に記載されている「スタックデコーダ」である。スタックデコーダでは、可能な翻訳文の領域が、グラフ構造に編制され、次いで最適解(翻訳文)が見つかるまで、網羅的に探索される。スタックデコーダは、優れた結果を生成する傾向があるがそれを実行するには大きな経費がかかる。すなわち、例えばスタックデコーダが使用する、可能性のある大きな解の空間を維持し探索することは、計算と空間の点で(例えばコンピュータメモリによって)高価である。これに対応して、本発明の発明者らは、反復して増加させるデコーディング技法が最適か又は最適に近い結果を生成し、しかも、計算と空間の必要量をかなり減らすことができることを見出した。このデコーダは、本願では「グリーディー(greedy)」デコーダ又は等価的に「ファースト(fast)デコーダ」と呼称する。用語「グリーディー」は近視的な最適化に基づいた解を生成する技法すなわち、部分的解が与えられると、次の推定として、その目的を最もよく改善する新しい解を生成する技法を意味する。他の言葉で言えば、グリーディーアルゴリズムは、一般に近似解で始まり、次いで満足すべき解に到達するまで、その近似解を徐々に改善しようとする。
【0006】
上記グリーディーデコーダの実行には、下記機能の各種の組合せが含まれている。
【0007】
一側面で、機械翻訳(MT)のデコーディングには以下のことが含まれている。すなわち、目的言語に翻訳すべき原始言語のテキストセグメント(例えば節、文、パラグラフ又は全書)を入力として受け取り、初期翻訳文[例えば逐語的な又は逐語句的なグロス(word−for−word or phrase−for−phrase gloss)]を現行目的言語の翻訳文として作成し、その現行目的言語翻訳文に1又は2以上の修正オペレータを適用して1又は2以上の修正目的語翻訳文を作成し、その1又は2以上の修正目的言語翻訳文が該現行目的言語翻訳文と比べて改良された翻訳文になっているかどうかを確認し、修正目的言語翻訳文を現行目的言語翻訳文として設定し、次いでこれらのステップを、終了条件が生じるまで繰り返すことが含まれている。
【0008】
1又は2以上の修正オペレータの適用には、現行目的言語翻訳文の1又は2以上の単語の訳語の変更が含まれていてもよい。あるいは又はその上に、1又は2以上の修正オペレータの適用には、(i)現行目的言語翻訳文中の一単語の翻訳文を変更すること、及び同時に(ii)原始言語テキストセグメントと現行目的言語翻訳文の間の最高確率の整合(alignment)をもたらす位置に別の単語を挿入することが含まれていてもよい。その挿入される別の単語は、ゼロ値ファーティリティ(zero−value fertility)である確率が高くてもよい。
【0009】
1又は2以上の修正オペレータを適用することに、現行目的言語翻訳文から、ゼロ値ファーティリティの単語を削除すること;及び/又は現行目的言語翻訳文内のオーバーラップしていない目的言語の単語セグメントをスワップする(swap)ことによって、原始言語テキストセグメントと現行目的言語翻訳文の間の整合を修正すること;及び/又は(i)目的言語単語を現行目的言語翻訳文から除き次に(ii)原始言語テキストセグメント中の単語をリンクすることによって、原始言語テキストセグメントと現行目的言語翻訳文の間の整合を修正することが含まれていてもよい。
【0010】
各種の実施態様では、修正オペレータを適用することが、下記のことのうち二つ以上を適用することを含んでいてもよい。すなわち(i)現行目的言語翻訳文中の1又は2の単語の訳語を変更すること;(ii)現行目的言語翻訳文中の一単語の訳語を変更し、同時に、原始言語テキストセグメントと現行目的言語翻訳文の間の最高確率の整合をもたらす位置に、ゼロ値ファーティリティである確率が高い別の単語を挿入すること;(iii)現行目的言語翻訳文からゼロ値ファーティリティの一単語を削除すること;(iv)現行目的言語翻訳文中のオーバーラップしていない目的言語単語セグメントをスワップすることによって、原始言語テキストセグメントと現行目的言語翻訳文の間の整合を修正すること;及び/又は(V)目的言語の単語を、現行目的言語翻訳文から除き次に原始言語テキストセグメント中の単語をリンクすることによって、原始言語テキストセグメントと現行目的言語翻訳文の間の整合を修正すること;の二つ以上を含んでいてもよい。
【0011】
修正された目的言語翻訳文の1又は2以上が現行目的言語翻訳文と比べて改良された翻訳文になっているかどうかを確認することに、修正された目的言語翻訳文各々の正当性の確率を計算することが含まれていてもよい。
【0012】
終了条件は、修正された目的言語翻訳文の正当性の確率が現行目的言語翻訳文の正当性の確率より大きくないことを確認することを含んでいてもよい。その終了条件は、予め定められた回数の繰り返しが完了すること及び/又は予め定められた時間が経過することであってもよい。
【0013】
別の側面で、コンピュータ実行(computer−implemented)機械翻訳デコーディング法は、例えば、終了条件(例えば予め定められた数の繰り返しの完了、予め定められた時間の経過、及び/又は修正された翻訳文の正当性の確率が前の翻訳文の正当性の確率より大きくないことの確認)が発生するまで、原始言語テキストセグメント(例えば、節、文、パラグラフ又は全書)の目的言語翻訳文を繰り返し修正するグリーディーデコーディングアルゴリズムを実行してもよい。
【0014】
該MTデコーディング法は、近似目的言語翻訳文で出発し次いでその翻訳文を、各逐次反復によって繰り返し改良することができる。その近似目的言語翻訳文は、例えば逐次的な又は句を造ったグロスであってもよく、又は近似目的言語翻訳文は、複数の予め定められた翻訳文の中から選択される予め定められた翻訳文であってもよい。
【0015】
翻訳文を繰り返し修正することに、例えば該翻訳文に対して1又は2以上の修正操作を適用することによって、各反復で翻訳文を徐々に改良することが含まれていてもよい。
【0016】
その1又は2以上の修正操作は下記操作の1又は2以上を含んでいる。すなわち(i)翻訳文中の一つ又は二つの単語を変更すること;(ii)一つの単語の翻訳文を変更し、同時に、原始言語テキストセグメントと翻訳文の間の最高確率の整合をもたらす位置に別の単語を挿入し、その挿入される別の単語がゼロ値ファーティリティである確率が高いこと;(iii)翻訳文から、ゼロ値ファーティリティの単語を除くこと;(iv)翻訳文中のオーバーラップしていない目的言語の単語セグメントをスワップすることによって、原始言語テキストセグメントと翻訳文の間の整合を修正すること;(v)目的言語の単語を翻訳文から除き次いで原始言語テキストセグメント中の単語をリンクすることによって、原始言語テキストセグメントと翻訳文の間の整合を修正すること;の1又は2以上の操作を含んでいる。
【0017】
別の側面で、機械翻訳デコーダは、現行目的言語翻訳文に適用されて1又は2以上の修正された目的言語翻訳文を生成する1又は2以上の修正オペレータを含むデコーディングエンジン;及び1又は2以上の修正オペレータを使用して、現行目的言語翻訳文を繰り返し修正するプロセスループを備えていてもよい。そのプロセスループは、終了条件が生じたときに終了することができる。そのプロセスループは、現行目的言語翻訳文を各繰り返しによって徐々に改良するようにデコーディングエンジンを制御することができる。
【0018】
MTデコーダは、さらに、翻訳文に対する正当性の確率を求めるためのモジュール(例えば、言語モデル及び翻訳モデルを含む)を備えていてもよい。
【0019】
上記プロセスループは、修正された翻訳文の正当性の確率が前の翻訳文の正当性の確率より大きいということを確認したとき及び/又は予め定められた数の繰り返しを完了したとき;及び/又は予め定められた時間が経過した後に終了できる。
【0020】
下記利点の1又は2以上を、本願に記載されているようなグリーディーデコーダが提供できる。ここで述べる技術と方法は、高い正確さ、高速及び比較的低い計算と空間のコストで機能するMTデコーダをもたらすことができる。グリーディーデコーダは、文修正操作の完全セット又はそのサブセットを実行するよう所望どおりに修正することができる。これは、システム設計者及び/又はエンドユーザに、所望の目的又は制限に適合させるために該デコーダの速度、正確さ及び/又は他の性能特性値を適応させるためのかなりの適応性を提供する。一スタンドアロンオペレータ(standalone operator)として又は他のオペレータとともに各々使用することができる一組の基本的修正操作を使用するとこの適応性がさらに高まる。さらに、独立したスタンドアロンオペレータを、該デコーディングエンジンの構成要素として使用すると、そのデコーダが拡張可能でかつ大きさを変えることが可能(スケーラブル)になる。すなわち、異なるか又は追加の修正オペレータを、システムの設計者及び/又はエンドユーザの目的又は制限に適合するように利用することができる。
【0021】
計量言語学におけるMTの研究と関連する分野と関連づけて、研究者らは、各種タイプのツリー構造を開発ししばしば利用して、テキストセグメント(例えば節、文、パラグラフ又は全書)の構造を図式で示している。二つの基本的ツリー構造として次のものがある。すなわち(1)テキストセグメントの要素間の統語的関係を図式で示すのに使用できる統語的ツリー(syntactic tree)、及び(2)テキストセグメントの要素間の修辞的関係を図式で示すのに使用できる修辞的ツリー(等しく、修辞的構造ツリー(RST)又は談話のツリー)がある。修辞的構造ツリー(談話ツリー(discourse tree)とも呼称される)は、William C. Mann及びSandra A. Thompson、「Rhetorical structure theory: Toward a functional theory of text organization」、Text、8(3)巻243〜281頁1988年に詳細に考察されている。
【0022】
図6に示す実施例は、テキストフラグメント用の修辞構造ツリー中に存在しうる構造のタイプを示している。前記ツリーの葉は基本談話ユニット(elementary discourse unit)(「edu」)に対応し、そしてその内部ノードは連続テキストスパン(contiguous text span)に対応する。修辞的構造ツリーの各ノードは、「状態(status)」(すなわち「核」又は「衛星」)及び「修辞的関係」(二つのオーバーラップしていないテキストスパン間を保持する関係)が特徴である。図6では、核を直線で表し、一方、衛星を円弧で表してある。
【0023】
本発明の発明者らは、異なる言語(例えば日本語と英語)のテキストの翻訳文の修辞構造間に大きな差があることを見出したのである。したがって、MTの品質を改良するため、より大きいMTシステムの要素として、本発明の発明者らは、修辞構造を、一つの言語からもう一つの言語へ自動的に書き換える(例えばコンピュータシステムを使用して)方法、例えば、日本語のテキストセグメントに対する修辞ツリー(rhetorical tree)を、英語の対応するテキストセグメントに対する修辞ツリーに書き換える方法を開発した。
【0024】
開示されている、ツリーを書き換える方法の実行には、下記機能の各種の組み合わせが含まれていてもよい。
【0025】
一つの側面では、ツリー(例えば、統語的ツリー又は談話的ツリー)を自動的に生成することに、原始言語テキストセグメントに対応するツリーを、入力として受け取り、次に、その受け取った入力に1又は2以上の決定則を適用して、目的言語のテキストセグメントに対応するツリーを生成させることが含まれる。
【0026】
別の側面では、コンピュータ実行ツリー生成法(computer−implemented tree generation method)は、原始言語テキストセグメント(例えば節、文、パラグラフ又は全書)に対応するツリーを入力として受け取り、次いで1又は2以上の決定則(例えば一つの変換関数を集合的に表す一連の決定則)を、前記受け取った入力に適用して、目的言語のテキストセグメント(異なるタイプのテキストセグメントであってもよい)に対応するツリーを生成することを含んでいてもよい。
【0027】
上記ツリーの生成方法は、さらにトレーニングセット(training set)、例えば複数の入力−出力ツリーペア(input−output tree pair)及び各入力−出力ツリーペア間のマッピングに基づいた1又は2以上の決定則を自動的に決定することを含んでいてもよい。上記の各入力−出力ツリーペア間のマッピングは、前記入力ツリーの葉及びペアの出力ツリーの葉の間のマッピングであってもよい。入力−出力ツリーのペアの葉の間のマッピングは、1対1、1対多数、多数対1又は多数対多数のマッピングでもよい。
【0028】
1又は2以上の決定則を自動的に決定することが、ペアの入力ツリーに適用されると出力ツリーを生成する一連の操作を決定することを含んでいてもよい。一連の操作を決定することが、入力ツリーを入力ツリーのペアになった出力ツリーに翻訳するのに集合的に充分な複数の既定義操作を使用することを含んでいてもよい。上記複数の既定義操作は下記の操作の1又は2以上を含んでいる。すなわち、基本談話ツリー(edt)を、入力並び(入力リスト;input list)からスタックに変換するシフト操作;二つのedtをスタックのトップからポップ(pop)させ、その二つのポップされたedtを新しい一つのツリーに結合し、次いでその新しいツリーをスタックのトップにプッシュする還元操作(reduce operation);一つのedtを予め定められた数のユニットにブレークするブレーク操作(break operation);原始言語のツリーの中で接続関係がない目的言語談話要素をつくるクリエイトネクスト(create−next)操作;スタックのトップのedtを直前のedtに融合する融合操作;入力並び中のedtの位置をスワップするスワップ操作;及び下記タイプ:ユニット、マルチユニット、文、パラグラフ、マルチパラグラフ及びテキストの1又は2以上をedtに割り当てる、アサインタイプ操作(assign Type operation)のうち1又は2以上を含んでいる。
【0029】
複数の既定義操作は、前記のシフト操作、還元操作、ブレーク操作、クリエイトネクスト操作、融合操作、スワップ操作及びアサインタイプ操作を含むクローズドセット(closed set)であってもよい。
【0030】
一連の操作を決定すると、複数の学習ケースがもたらされ、すなわち各入力−出力のツリーのペアに対して一つの学習ケースがもたらされる。その場合、ツリーの生成方法は、さらに、1又は2以上の特徴を、コンテキスト(文脈)に基づいて複数の学習ケース各々と関連づけることを含んでいてもよい。その関連づける特徴としては、操作と談話の特徴、対応ベースの特徴及び語彙の特徴がある。
【0031】
前記ツリー生成方法はさらに、学習プログラム(例えばC4.5)を複数の学習ケースに適用して、1又は2以上の決定則を生成することを含んでいてもよい。
【0032】
別の側面で、コンピュータ実行のツリー生成モジュールは、原始言語テキストセグメントに対応するツリー(統語的ツリー又は談話的ツリー)に適用すると、目的言語テキストセグメントに対応するツリーを生成する決定則の予め定められたセットを含んでいてもよい。その決定則の予め定められたセットは、原始言語のツリーと目的言語のツリーの間の変換関数を定義することができる。
【0033】
別の側面で、異なるタイプのツリー(例えば、統語的ツリー又は談話的ツリー)の間の変換関数を決定することが、複数のツリーのペア及び各ツリーのペア間のマッピングを含むトレーニングセットを生成すること(但しツリーのペアは各々原始のツリー及び対応する目的のツリーを含んでいる);及び原始のツリーに適用されると目的のツリーをもたらす一連の操作をツリーのペア各々に対して決定することによって複数の学習ケースを生成すること;及び学習アルゴリズムを複数の学習ケースに適用することによって複数の決定則を生成することを含んでいてもよい。
【0034】
異なるタイプのツリーの間の変換関数を決定することは、さらに、複数の決定則を生成する前に、1又は2以上の特徴を、コンテキストに基づいた各学習ケースと関連させることを含んでいてもよい。
【0035】
別の側面で、コンピュータ実行談話ベースの機械翻訳システムは、原始言語テキストセグメントの談話構造を解析して、そのテキストセグメントに対する原始言語の談話ツリーを生成する談話パーサ(discourse parser);上記原始言語の談話ツリーを入力として受け取り、出力として目的言語談話ツリーを生成する談話構造変換モジュール;及び上記目的言語の談話ツリーを目的テキストセグメント中にマッピングするマッピングモジュールを含んでいてもよい。その談話構造変換モジュールは、原始言語−目的言語のツリーのペアのトレーニングセットから生成した複数の決定則を含んでいてもよい。
【0036】
下記利点のうちの1又は2以上を、本願に記載されているようなツリー書き換えによって提供することができる。ここに記載の技術と方法は、ユーザ(例えば言語研究者などのヒトのエンドユーザ又はMTシステムなどのコンピュータプロセス)に、目的言語に翻訳されたテキストセグメントに対するツリーに、書き換えられるか又は翻訳される原始言語のテキストセグメントに対するツリーを自動的にもたせるツリー書き換え性能をもたらすことができる。この機能性は、そのスタンドアロン形態で及びより大きなシステムの要素として、例えば談話ベースの機械翻訳システムにおいて有用である。さらに、ここに記載するツリー書き換え器は、ツリーを一つの言語から別の言語に書き換える方法を自動的に学習するので、上記システムは、容易にかつ便利に使用できる。
【0037】
該ツリーの書き換え器をトレーニングするのに利用されるマッピング方式も、いくつもの利点を提供する。例えば原始のツリーと目的のツリーの葉の間に任意のグルーピング(例えば1対1、1対多数、多数対1、多数対多数)をさせることによって、得られるマッピングの適応性、リッチネス(richness)及び堅牢性が高まる。
【0038】
また、ツリー書き換え器をトレーニングするのに使用されるエンハンストシフト還元操作(enhanced shift−reduce operation)もいくつもの利点を提供する。例えば、どんな入力ツリーでもそのペアの出力ツリーに翻訳するのに、集合的に充分である基本的操作のセットは、ツリー構造を書き換えるための強力でしかもコンパクトなツールを提供する。
【0039】
1又は2以上の実施態様の詳細を、添付図面と以下の記載で説明する。本発明の他の特徴、目的及び利点は、下記説明と添付図面及び特許請求の範囲から明らかになるであろう。
【0040】
本発明のこれらおよび他の側面を、ここで添付図面を参照して詳細に説明する。
【0041】
詳細な説明
グリーディーデコーダ
例えば、フランス語の文を英語に翻訳する統計的MTシステムは、三つの部分、すなわち(1)英語文字列(English string)に確率P(e)を割り当てる言語モデル(LM);(2)英語とフランス語の文字列のペアに対し確率P(f|e)を割り当てる翻訳モデル(TM);及び(3)デコーダに分割することができる。そのデコーダは、まだ見られていない文fを取り出して、P(f|e)を最大限にし、又は等しくP(e)・P(f|e)を最大限にするeを見つけようとする。
【0042】
Brownら、「The mathematics of statistical machine translation: Parameter estimation」、Computational Linguistics、19(2)巻1993年は、逐語的に置換し再び順序付けする(re−order)ことに基づいた一連のTMを紹介したが、デコーディングアルゴリズムは含まれていなかった。原始言語と目的言語が同じ語順を有するように強制されている場合(選んで又は適切な前処理によって)、線形ビタアルゴリズムを、Tillmannら、「A DP−based search using monotone alignments in statistical translation」、In Proc. ACL 1997年に記載されているように適用することができる。再順序付けが2分ツリー(binary tree)のノードのまわりの回転に限定される場合、最適のデコーディングが、高多項式アルゴリズム(Wu、「A polynomial−time algorithm for statistical machine translation」、In Proc. ACL、1996年)によって実行できる。任意の単語再順序付けの場合、デコーディングの問題は、NP−完全(NP−complete)問題(非決定性多項式時間完全問題)(Knight、「Decoding complexity in word−replacement translation models」、Computational Linguistics、25(4)巻1999年)である。
【0043】
一つの戦略(Brownらの米国特許第5,477,451号1995年「Method and system for natural language translation」;Wangら「Decoding algorithm in statistical machine translation」、In Proc. ACL、1997年)は、適当に行うデコーディングの大きなサブセットを検査してそれから選択することである。勿論、このようにして優れた翻訳文を見逃すこともある。
【0044】
したがって、デコーディングは、あらゆる問題のインスタンス(problem instance)が正しい応答を有しているクリアーカット最適化タスク(clear−cut optimization task)であるが、優れた応答を迅速に提供することは困難である。以下に、高速グリーディーデコーダの詳細を説明し、その性能を、伝統的なスタックデコーダの性能と比較する。
【0045】
グリーディーデコーダを開発する際、一対の文にわたる単語整合(word alignment)の概念に基づいて作動するIBMモデル4を使用した(図1B参照)。単語の整合は、単一ホーム(英語文字列の位置)をフランス語の各単語に割り当てる。フランス語の二つの単語が同じ一つの英語の単語に整合すると、その英語の単語は、ファーティリティ2(fertility 2)を有しているといわれる。さらに、一つの英単語が整合しないままの場合、その英単語はファーティリティがゼロである。図1Bに示す単語整合は、英語文字列がフランス語文字列に変換される仮説確率論的プロセス(hypothetical stochastic process)の省略表現である。なすべき決定のいくつものセットがある。
【0046】
第一に、あらゆる英語の単語にファーティリティが割り当てられる。これらの割り当ては、表n(φ|ei)にしたがって確率論的に行われる。ファーティリティがゼロの単語はどれも文字列から削除され、ファーティリティ2の単語はどれも複製されるなどが行われる。一単語が1より大きいファーティリティを有している場合、その単語は非常にファータイル(fertile)であると呼ばれる。
【0047】
新しい文字列中の各英語単語の後に、確率p1(一般に約0.02)の不可視英語ヌルエレメント(invisible English NULL element)のファーティリティが加えられる。そのヌルエレメントは、結局、「スプリアス(spurious)」フランス語単語を生成する。
【0048】
次に、英語の単語(ヌルを含む)が、表t(fj|ei)にしたがってフランス語の単語で逐次的に置換される。
【0049】
最後に、これらのフランス語の単語が並びかえられる。並びかえを行う際、IBMモデル4が、ヘッド(head)(特定の英語単語から生成した左端のフランス語の単語)、ノン−ヘッド(non−head)(非常にファーファイルな英語単語だけによって生成した左端以外のフランス語の単語)及びヌル生成単語(NULL−generated)であるフランス語単語を識別する。
【0050】
ヘッド:一つの英語単語のヘッドは、その前の英語単語に割り当てられた位置を基準にして、フランス語文字列の位置を割り当てられる。英語単語Ee−1を、フランス語位置jの何らかの単語に翻訳する場合、eiのフランス語ヘッドの単語は、ひずみ確率(distortion probability)d1(k−j|class(ei−1)、class(fk)でフランス語位置kに確率論的に配置される。なお上記「class」は、フランス語と英語の語い項目(vocabulary item)に対して自動的に決定される単語のクラスを意味する。この相対的オフセットk−jが、隣接する英語単語をインカレッジ(encourage)して、隣接するフランス語単語に翻訳する。ei−1がインファータイル(infertile)である場合、jはei−2などから取り出される。ei−1が非常にファータイルである場合、jはそのフランス語翻訳文の位置の平均位置である。
【0051】
ノンヘッド:英語単語eiのヘッドがフランス語の位置jに配置される場合、その最初のノンヘッドは、別のテーブルd>1(k−j|class(fk))にしたがって、フランス語の位置k(>j)に配置される。次のノンヘッドは、位置qに、確率d>1(q−k|class(fq))などで配置される。
【0052】
ヌル生成単語:ヘッドとノン−ヘッドが配置された後、ヌル生成単語が、残っている空スロット(vacant slot)中にランダムに置換される。φ0ヌル生成単語がある場合、配置方式は確立1/φ0!で選択される。
【0053】
eで出発するこれらの確率論的決定によって、fの異なる選択及びfとeの整合が行われる。eは特定の<a、f>のペアにマッピングすることができる。
【0054】
【数1】
上記式中、x記号で分離されている因数は、ファーティリティ、翻訳、ヘッド置換(head permutation)、ノンヘッド置換、ヌルファーティリティ及びヌル翻訳の確率を示す。上記式中の諸記号は次のとおりである。l(eの長さ)、m(fの長さ)、ei(eにおけるi番目の英語単語)、E0(ヌル単語)、φi(eiのファーティリティ)、φ0(ヌル単語のファーティリティ)、τik(a中のeiによって生成したk番目のフランス単語)、πik(f中のτikの位置)、ρI(a中eiの左側の第一ファータイル単語の位置)、cρ I(ρiに対する全πρikの平均値の最大値(ceiling)又はρiが未定義の場合0である)である。
【0055】
上記のことから見て、新しい文fが与えられると、最適のデコーダが、P(e|f)≒P(e)・P(f|e)を最大限にするeを探索する。ここでP(f|e)は、可能なすべての整合aにわたるP(a、f|e)の和である。この和は、重要な計算を含んでいるので、一般に、代わりに、P(e、a|f)≒P(e)・P(a、f|e)を最大限にする<e、a>のペアを探索することによって回避される。言語モデルP(e)が英語の平滑化n−gramモデルであると想定される。
【0056】
図2は、MTを実行するグリーディーデコーダの一実施態様の作動のフローチャートである。図2に示すように、第一ステップ200は、翻訳すべき入力文を受け取るステップである。この実施例では、翻訳されているテキストセグメントが文であるが、例えば節、パラグラフ又は全書といった他のどんなテキストセグメントでも事実上使用することができる。
【0057】
ステップ202において、翻訳文の第一近似文として、グリーディーデコーダが、入力文の「グロス(gloss)」、特に逐語的翻訳文を生成する。そのグロスは、各フランス語単語fjを、その最も適当な英語翻訳文efj(efj=argmaxet(e|fj))と整合させる(align)ことによって構築される。例えば、フランス語の文「Bien entendu、il parle de une belle victoire」を翻訳する際、グリーディーデコーダは、「bien」の最良の訳語は「well」であり、「entendu」の最良訳語は「heard」であるなどであるから、最初、良好な翻訳文が「Well heard、it talking a beautiful victory」であると想定する。この翻訳文に対応する字並び(alignment)は図3のトップに示してある。
【0058】
ステップ204において、デコーダは、現行翻訳文の正当性の確率P(c)を推定する。
【0059】
最初の字並びがステップ202で生成された後、グリーディーデコーダは、その字並びを、ステップ206で改良しようとする。すなわち、該デコーダは、以下に説明する1又は2以上の文修正オペレータを適用することによって、確率が一層高い字並び(及び暗黙のうちに翻訳文)を見出そうとする。この特定の実施態様に対しては、単語レベルの字並び及び下記の特定のオペレータを使用することを選んだ。しかし、異なる統計的モデルを使用する別の実施態様は、異なる操作又は追加の操作によって利益を得ることができる。
【0060】
下記のオペレータが、集合的に、該デコーダの翻訳エンジンを構成しており、下記のものがある。
【0061】
一つ又は二つの単語の翻訳(translate One or Two Words)(j1、e1、j2、e2)
この操作は、j1とj2の位置に位置している一つ又は二つのフランス語の単語の翻訳文を、efj1とefj2からe1とe2に変更する。efjがファーティリティ1の単語でかつekがヌルであれば、efjは翻訳から削除される。efjがヌル単語であれば、翻訳文中の、最高確率の字並びを生じる位置に単語ekを挿入する。efj1=e1又はefj2=e2であれば、この操作は、結局、単一単語の訳語を変えることになる。
【0062】
翻訳と挿入(translate And Insert)(j、e1、e2)
この操作は、j位置に位置するフランス語単語の訳語をefjからe1に変更し、かつ同時に、最高確率の字並びを生じる位置に単語e2を挿入する。単語e2は、ファーティリティがゼロの確率が高い1024個の単語の自動的に導出されるリストから選択される。efj=e1の場合、この操作は結局ファーティリティがゼロの単語を該字並び中に挿入することになる。
【0063】
ファーティリティゼロの単語の除去(remove Word of Fertility 0)(i)
この操作によって、現行字並びのi位置のファーティリティゼロの単語を削除する。
【0064】
セグメントのスワップ(Swap Segments)(i1、i2、j1、j2)
この操作は、オーバーラップしていない英語単語セグメント[i1、i2]及び[j1、j2]をスワップすることによって、新しい字並びを古い字並びからつくる。スワップ操作中、英語単語とフランス語単語の間のすべての既存リンクは保存される。それらのセグメントは、一つの単語と同じほど小さいか又は|e|−1個の単語と同じほど長くてもよく、この場合|e|は英語の文の長さである。
【0065】
単語の結合(join Words)(i1、i2)
この操作は、字並びから、i1(又はi2)の位置にある英語単語を除き、次いでei1(又はei2)が生成したフランス語単語をei2(又はei1)に連結する。
【0066】
ステップ208において、デコーダは、前記文修正操作の結果各々の正当性の確率P(M1)…P(Mn)を推定する。すなわち、新しく得られた各翻訳文の確率が求められる。
【0067】
ステップ210において、デコーダは、新しい翻訳文がどれも現行翻訳文より優れているかどうかを、それら翻訳文それぞれの正当性の確率を比較することによって確認する。新しい翻訳文がどれも、現行翻訳文より優れた解を示す場合、最良の新しい翻訳文(すなわち正当性の確率が最高の翻訳文の解)がステップ214で現行翻訳文として設定され、次いでそのデコーディングプロセスはステップ206に戻り、前記新しい現行翻訳文の解に対し1又は2以上の文修正操作を実行する。
【0068】
文修正操作が終わって(ステップ210で決定されるように)正当性の確率がより高い翻訳文の解が生成するまで、ステップ206、208、210及び214を繰り返し、その時点で、デコーディングプロセスはステップ212にて停止して、現行翻訳文が最終デコード解として出力される。あるいは、デコーダは、例えばヒトのエンドユーザによって、又はデコーダを翻訳エンジンとして使用するアプリケーションプログラムによって選択される予め定められた回数の繰り返しの後、停止することができる。
【0069】
したがって、段階的方式で、初期グロスから出発して、グリーディーデコーダは、プロセスループ(例えば、図2に示すようにステップ206、208、210及び214)を利用して、考慮中の字並びから1操作離れているすべての字並びを網羅的に繰り返す。あらゆるステップで、デコーダは、現行の字並びの確率がもはや改良できなくなるまで、確率が最高の字並びを選択する。それが例えば、フランス語文「Bien entendu、il parle de une belle victoire」のグロスから出発すると、グリーディーデコーダは、初期の字並びを、図3に示すように、徐々に変え、最終的に、翻訳文「Quite naturally、he talks about a great victory」を生成する。このプロセスにおいて、デコーダは、翻訳文に対して合計77421の異なる字並びを探索し、その翻訳文「Quite naturally、he talks about a great victory」は確率が最高である。
【0070】
デコーディングプロセスのステップ206において、システム設計者及び/又はエンドユーザの選好に応じて、前記五つの文の修正操作のすべてを使用できるか又はそのサブセットを、その他を除外して使用できる。例えば、該デコーダの最も時間のかかる操作は、セグメントのスワップ、一つ又は二つの単語の翻訳及び翻訳と挿入である。セグメントのスワップは、長さ|e|のシーケンスで構築できるすべての可能なオーバーラップしていないスパンのペアを繰り返す。一つ又は二つの単語の翻訳は、|f|2×|t|2の字並びを繰り返す。なお、|f|はフランス語文の大きさであり、そして|t|は各単語と関連する翻訳文の数である(この実行では、この数はトップ10の翻訳文までに限定される)。翻訳と挿入は|f|×|t|×|z|の字並びにわたって繰り返す。なお|z|はファーティリティがゼロの確率が高い単語のリストの大きさである(この実施態様では1024語)。したがって、デコーダは、デコーディングを速く行うためこれらの遅い操作の1又は2以上を省くように設計できるが、正確さが犠牲になることがある。あるいは又はその上に、デコーダは、システム設計者及び/又はエンドユーザの目的に応じて別の又は追加の文修正操作を使用するように設計することができる。
【0071】
グリーディーデコーダの利点はその速度から生まれる。下記の実験が示すように、グリーディーデコーダは他のいかなるデコーダよりも速く翻訳文を生成することができる。グリーディーデコーダは「エニタイムアルゴリズム(anytime algorithm)」の一例であり、作動時間が長ければ長いほど、そのデコーダが見つける翻訳文は優れている。グリーディーデコーダの一つの潜在的トレードオフ(tradeoff)は、そのデコーダが探索する解空間(solution space)に関連しており、その空間は比較的小さい。優れた翻訳文が初期のグロスから離れていればいる程、グリーディーデコーダが優れた翻訳文を見つける可能性は小さい。
【0072】
図4は4回の繰り返しで許容可能な解に到達する動作をしているグリーディーデコーダの別の実施例を示す。図4に示すように、翻訳すべき入力文は「ce ne est pas juste.」である。このデコーダはその初期グロス「that not is not fair.」を使用して、この翻訳文の解(繰り返し1)は、言語モデル確率(LMprob):2.98457e−14及び翻訳モデル確率(TMprob):3.79156e−09に基づいて、正当性の確率(「Aprob」−LMprobとTMprobの積)が1.13162e−22であることを確認している。
【0073】
第二の繰り返しにおいて、このデコーダは、該翻訳文中の単語「not」の第一インスタンスを、1又は2以上の単語の翻訳の操作を適用することによって「is」に変更して、図4の繰り返し2に示す確率を有する新しい翻訳文の解「that is is not fair」が得られる。第三の繰り返しにおいて、このデコーダは、ファーティリティゼロの単語の除去の操作を適用して、該翻訳文中の単語「is」の一インスタンスをドロップさせて、図4の繰り返し3に示す確率を有する新しい翻訳文の解「that is not fair」が得られる。第四の最後の繰り返しにおいて、このデコーダは、1又は2の単語の翻訳の操作を再び適用して該翻訳文中の単語「that」を「it」に変更して、図4の繰り返し4に示す確率を有する最終の翻訳文解「it is not fair」が得られる。
【0074】
グリーディーデコーダの性能を確認するため、一連の実験を行った。すべての実験で、デコーディングは、トレーニング中に確認される、一単語のトップの10の翻訳文だけ、及びテストコーパス(test corpus)から自動的に抽出された、ファーティリティゼロの1024の単語のリストを利用して、実行した。
【0075】
本願に記載のグリーディーデコーダの正確さを確認しそして該デコーダの速度を従来のスタックデコーダ(例えばBrownらの米国特許第5,477,451号に記載されているようなデコーダ)と比較する実験で、長さ6、8、10、15および20にわたって均一に分布させた505の文からなるテストコレクションを使用した。デコーダは、(1)速度及び(2)翻訳の正確さについて評価された。
【0076】
三重字(trigram)言語モデルを利用するデコーダで得られた図5に示す結果は、グリーディーデコーダアルゴリズムが、伝統的なスタックデコーディングアルゴリズムに代わる有利な代替物であることを示している。グリーディーデコーダが、一度にせいぜい一単語が翻訳され、移動され又は挿入される、速度を最適化する操作のセット(すなわち先に考案した5文修正操作の全セットのサブセット)(図5に「グリーディー*」と標記されている)を利用したときでさえ、その翻訳文の正確さはごくわずかしか損われない。対照的に、その翻訳速度は少なくとも一桁増大する。対象の用途によっては、最適の結果を提供する遅いデコーダを使用するか、又は最適ではないが許容可能な結果を提供する速いグリーディーデコーダを使用するかを選択することができる。
【0077】
グリーディーデコーダの別の実施態様も可能である。例えばグリーディーデコーダは、複数の異なる初期翻訳文(例えば図2のステップ202で使用されるグロスの異なる変型)で出発し、次いでグリーディーデコーディングアルゴリズム(すなわち図2に示すステップ204〜214)を、並列している異なる初期翻訳文に実行することができる。例えば、グリーディーデコーダの符号は、メモリに記憶された、多数の翻訳された語句から選択された初期の近似翻訳文で出発する。最後に、最良の翻訳文を選択することができる。異なる初期解のこの並列翻訳文によって、より正確な翻訳文を得ることができる。
【0078】
ツリー書き換え器(tree rewriter)
ほとんどすべての従来のMTシステムは、テキストの一つの文を同時に処理する。このように焦点が限定されているので、MTシステムは一般に、入力テキストの節や文を再グループ化(re−group)し次いで再順序付け(re−order)して目的言語の最も自然な翻訳文を達成することはできない。しかも、英語とフランス語のような類似した言語間でさえ、文の数の不一致が10%ある。すなわち、一言語で二つの文に言われていることが、別の言語では一つの文だけ又は三つの文で言われる(Galeら、「A program for aligning sentences in bilingual corpora」、Computational Linguistics、19(1)巻75〜102頁1993年)。日本語と英語のようなかけはなれた言語のペアの場合、その差はさらに大きい。
【0079】
例えば、図7に示す日本語の文(「テキスト(1)」)を検討する。下記の文(「テキスト(2)」)はテキスト(1)の逐次的「グロス」である。
【0080】
【表1】
【0081】
対照的に、職業翻訳家がつくった、日本語文の二つの文からなる翻訳文(「テキスト(3)」)は以下のように書かれている。
【0082】
【表2】
【0083】
テキストの標識をつけたスパンは、基本談話ユニット(edu)すなわち明白な談話機能を有する最小のテキストスパンを示す(Mannら、「Rhetorical structure theory: Toward a functional theory of text organization」、Text、8(3)巻243〜281頁1988年)。そのテキストフラグメントを綿密に解析すると、テキスト(1)を翻訳する際に、職業翻訳家は、第一に、日本語ユニット2の情報を認識し(テキスト(1)のユニット2はテキスト(3)のユニット1にほぼ対応している);次に日本語ユニット1の情報のいくらかを認識し(テキスト(1)のユニット1の一部はテキスト(3)のユニット2に対応している);次にテキスト(1)のユニット1、3及び5に与えられた情報を拒絶し次いでその情報を英語でユニット3として認識する;などを選択することが分かる。また、該翻訳家は、元の日本語文の情報を、二つの英語文中にリパッケージ(re−package)することを選択する。
【0084】
基本ユニットレベルにおいて、テキスト(1)の日本語とテキスト(3)の前記日本語の英語翻訳文との間の対応は下記マッピング(4)のように表すことができる。式中、j⊂eは、ユニットjの意味内容がユニットeに完全に認識されていることを示し;j⊃eは、ユニットeの意味内容がユニットjに完全に認識されていることを示し;j=eは、ユニットjとeが意味が同等であることを示し、そしてj≒eは、ユニットjとeの間に意味のオーバーラップがあることを示す。
【0085】
【数2】
【0086】
したがって、(4)に示すマッピングは、情報が、日本語から英語に翻訳される時に再順序付けされ次にリパッケージされる方法を明確に示す。しかし、テキストを翻訳するとき、その場合も修辞的翻訳が変化する。対照の関係(contrast relation)を利用して日本語で認識されることは、例えば比較又は譲歩の関係(a Comparison or a Concession relation)を利用して英語で認識することができる。
【0087】
図8と9は、前掲Mannの論文のスタイルで、上記テキストフラグメント(1)と(3)の談話構造を示す。各談話構造は一つのツリーであり、その葉は連続テキストスパンに相当する。各ノードは状態(status)(核又は衛星)及び修辞的関係が特徴であり、その修辞的関係は二つのオーバーラップしていないテキストスパンを保持する関係である。核と衛星の相違は、その核が、衛星よりライタ(writer)の意図に不可欠なことを表現し、そして修辞的関係の核は衛星とは無関係に広範囲にわたっているがその逆はないという実験観測から生じる。スパンが等しく重要である場合、修辞的関係は多核性である。例えば、図8と9に示す英語テキストの修辞的構造中のユニット[3]とスパン[4、5]の間を保持するコントラストの関係は多核性である。サフィックス「−e」で終わる修辞的関係は、埋めこまれた統語的要素に対応する関係を示す。例えば、英語の談話構造のユニット2と1の間を保持する精緻化−目的語−限定語−E(ELABOLATION−OBJECT−ATTRIBUTE−E)の関係は限定相対語(restrictive relative)に対応する。
【0088】
eduレベルのマッピングを知っている場合、スパン(談話要素)レベルでもマッピングを確認できる。例えば、(4)の基本マッピングを使用して、日本語のスパン[1、2]が英語のスパン[1、2]に対応すること、日本語ユニット[4]が英語スパン[4、5]に対応すること、日本語スパン[6、7]が英語ユニット[6]に対応すること、日本語スパン[1、5]が英語スパン[1、5]に対応することなどを確認できる。図8と9が示すように、日本語のツリーのスパン[1、5]と[6、7]の間を保持する譲歩(concession)の関係が、英語のツリーのスパン[1、5]とユニット[6]の間を保持する類似の関係に対応する(日本語の場合、前記関係は文フラグメント間を保持するが英語の場合、前記関係は完全な文の間を保持することをモジュロ(modulo)する)。しかし、日本語のツリーユニット[3]と[4]の間を保持する時を表すafter(TEMPORAL−AFTER)の関係は、英語のツリーのユニット[3]とスパン[4、5]間の対照の関係として認識される。そして、日本語ユニット[6]と[7]は、英語では融合してユニット[6]になるから、前記の精緻化−目的語−限定語−Eの関係は、英語のテキストにおいてもはや明白には述べられない。
【0089】
図8と9に示す二つの談話のツリーの間の差のいくつかは、MTシステムにおいて統語的レベルで、伝統的にアドレス指定されている。例えばユニット1と2の再順序付けは統語的モデルだけを使用して処理できる。しかし、以下に考察するように、情報が文レベルでのみならずパラグラフ及びテキストのレベルで修辞的にパッケージされ編成される方式については、日本語と英語の間に有意な差がある。さらに具体的に述べると、ヒトは、日本語を英語に翻訳するとき、日本語テキストの節、文及びパラグラフを再順序付けし、その情報を、元の日本語ユニットの一対一マッピングでない節、文及びパラグラフに再パッケージし、次いで、英語に特異的な修辞的制約を反映させるため、該翻訳されたテキストの構造を修辞的に再編成する。翻訳システムは、文法的に正しいだけでなく首尾一貫しているテキストをつくらねばならぬ場合、目的テキストの談話構造が、目的言語の自然な翻訳を反映し、かつ原始言語の自然な翻訳を反映しないことを保証しなければならない。
【0090】
下記実験の章で、日本語テキストとそれに対応する英語翻訳文の修辞的構造の間に有意な差があることを実験で示す。これらの差は、談話構造を書き換えるための計算モデルを開発することが必要で望ましいことを示している。
【0091】
実験
MTの談話構造の役割を評価するため、談話のツリーのコーパスを、40の日本語テキストとそれらテキストの対応する翻訳文について手動操作でつくった。これらのテキストは、ARPAコーパス(Whiteら、「Evaluation in the ARPA machine−translation program:1993 methodology」、In Proceedings of the ARPA Human Language Technology Workshop、135〜140頁米国ワシントンD.C.1994年)から無作為に選んだ。各テキストは、平均して約460個の単語を有していた。それら日本語のテキストは合計335個のパラグラフと773の文を有していた。英語のテキストは合計337個のパラグラフと827個の文を有していた。
【0092】
談話注釈プロトコル(discourse annotation protocol)を、日本語と英語について、Marcuら、「Experiments in constructing a corpus of discourse trees」、In Proc. Of the ACL’99 Workshop on Standards and Tools for Discourse Tagging、48〜57頁米国メリーランド1999年)によって追跡されたラインにそって開発した。コーパス中の日本語と英語のテキストすべての談話構造を手動操作で構築するため、Marcuの談話注釈ツール(1999年)を利用した。日本語と英語のテキストの比率は、二つのアナテータ(annotator)で修辞的に標識をつけた。前記ツールと注釈プロトコルは、http://www.isi.edu/ ̄marcu/software/で入手できる。その注釈手続によって、全コーパスにわたって、2641の日本語eduと2363の英語eduが得られた。
【0093】
【表3】
【0094】
上記注釈に信頼性があるのは、コンピュータが階層的構造にわたって、カッパ統計量(kappa statistic)(Siegelら、Non−parametric Statistics for the Behavioral Sciences、McGraw−Hill、第二版1988年)を計算するMarcuらの1999年の方法を使用しているからであった。上記表1は、注釈の信頼性を反映する、基本談話ユニットの平均カッパ統計量ku、階層的談話スパンの平均カッパ統計量ks、階層的中核性のアサインメント(hierarchical nuclearity assignments)の平均カッパ統計量kn、及び階層の修辞的関係のアサインメントの平均カッパ統計量krを示す。0.8より大きいカッパ数学は良好な一致に対応し、0.6より大きいカッパ数字は許容可能な一致に対応する。すべてのカッパ統計量がα=0.01より高いレベルで統計的に有意であった。カッパ統計量に加えて、表1は、カッパ統計量が計算された一文書当たりのデータ点の平均数も括弧内に示す。
【0095】
日本語−英語の談話構造の各対に対するアラインメントファイル(alignment file)も、手動操作で組み立てられた。なおそのファイルは、1頁で考察した注釈において、日本語テキストのeduと英語翻訳文のeduの間の対応を指定した。
【0096】
英語と日本語の談話のツリーの類似性が、edu境界、階層的スパン、中核性及び修辞的関係の日本語と英語の談話構造のアサインメントに関するそれら構造の類似性を反映するラベル付き再表示(labeled recall)及び精度の数字を使用して計算された。
【0097】
比較されるツリーは、一言語と他の言語では、基本ユニットの数、これらユニットの順序、及びそれらユニットが談話スパン中に再帰的にグループ化される方法が異なるので、二つのタイプの再表示及び精度の数字が計算された。位置依存性(P−D)の再表示と精度の数字を計算する場合、日本語のスパンは、それが英語スパンのeduに対応するすべての日本語eduを含んでいたとき、及び日本語と英語のスパンが全構造に対して同じ位置に出現したときに、英語スパンに整合しているとみなした。例えば、図8と9の英語のツリーは、10個のサブセンテンシャルスパン(subsentential span:[1]、[2]、[3]、[4]、[5]、[6]、[1、2]、[4、5]、[3、5]及び[1、5]が特徴的である)(スパン[1、6]は二つの文を包含する(subsume)のでサブセンテンシャルではない)。日本語の談話のツリーは、同じ位置で英語のスパンと整合しうるスパンを四つしかすなわちスパン[1、2]、[4]、[5]及び[1、5]しかもっていない。したがって、日本語のツリーと英語のツリーの間の、それら談話に関する、文レベルより低い類似性は、再表示が4/10で精度が4/11である(図8と9には、11個のサブステンシャル日本語スパンがある)。
【0098】
位置と無関係(P−I)の再表示と精度の数字を計算する場合、日本語スパンが、翻訳文中、英語のツリーの位置まで「浮動」したときでさえ、P−Iの再表示と精度の数字は影響を受けない。これら位置に無関係の数字は、二つのツリーt1とt2の両者が一つのサブツリーtを有している場合、t1とt2は、それらが一つのツリーを共有していない場合より類似しているという直観を反映している。文レベルで、例えば、関係節の統語的構造が適正に翻訳されると、(その構造がたとえ適正に連結されていなくても)これはその関係節を間違って翻訳するより優れていると考えられる。位置と無関係の数字は、談話のツリーを比較するのに一層楽観的メトリック(more optimistic metric)を提供する。その位置と無関係の数字は位置依存性の数字より広い範囲の値にまたがっている。このことによって、日本語と英語の談話構造の間の差のより優れた特性決定を行うことができる。表1に示すツリーにおいて、サブセンテンシャルレベルでのスパンに対して、楽観的な立場をとると、スパン[1、2]、[4]、[5]及び[1、5]に加えて、日本語スパン[1]を英語スパン[2]に、及び日本語スパン[2]を日本語スパン[1]にも整合させることができるので、再表示は6/10になりそして精度は6/11になる。
【0099】
二つの談話のツリーがいかに精密であるかをより良好に推定するため、位置依存性の及び位置と無関係の再表示と精度の数字を、文レベルで(この場合、ユニットはeduによって与えられ、スパンはedu又は単文のセットで与えられる);パラグラフレベルで(この場合、ユニットは文によって与えられ、スパンは文又は単パラグラフのセットによって与えられる);及びテキストレベルで(この場合、ユニットはパラグラフによって与えられ、スパンはパラグラフのセットによって与えられる)計算した。これらの数字は、談話の構造と関係がすべての談話レベルを横切り一つの言語から別の言語へ、文からテキストへどのようにマップされるかを詳細に示す。文レベルでの差異は、日本語と英語の統語的構造間の差異によって説明することができる。パラグラフレベルとテキストレベルでの差異は、純粋に修辞的な意味を有している。
【0100】
再表示と精度の数字を、中核性と関係のアサインメントについて計算したとき、スパンの各ペアにラベルを付けた状態及び修辞的関係も要因として含めた。
【0101】
【表4】
【0102】
上記表2に、各レベル(文、パラグラフ及びテキストのレベル)に対する結果[P−DとP−Iの再表示(R)と精度(P)の数字]を要約してある。「重み付け平均値」の行の数字は、各レベルにおけるユニットの数によって重み付けを行った文、パラグラフ及びテキストそれぞれに特異的な数字の平均値を報告する。「全体」の行の数字は、文とパラグラフの境界に全く注意せずにツリー全体にわたって計算された再表示と精度の数字を反映している。
【0103】
日本と英語の有意に異なる統語的構造が与えられると、再表示と精度の結果は、文レベル以下で組み立てられた談話のツリーの間の類似性を反映して低かった。しかし表2が示すように、パラグラフレベルとテキストレベルでも談話のツリーの間に有意差がある。例えば、位置に無関係の数字は、文の約62%のみ及び文全体にわたって組み立てられた階層的スパンの約53%のみが、前記二つのコーパス間で整合させることができることを示している。パラグラフレベルで文全体にわたって組み立てられたスパンに関連した状態と修辞的関係を見ると、P−Iの再表示数字と精度の数字がそれぞれ約43%と35%まで低下する。
【0104】
再表示及び精度の差はともに、情報が二つの言語のパラグラフ中にパッケージされる方法、及び情報がパラグラフレベル内に及びパラグラフレベルのまわりに修辞的に構築される方法の差異によって説明される。
【0105】
これらの結果は、文単位ベースで、日本語を英語に翻訳しようとする場合、得られるテキストは談話の観点から不自然であろうと強く示唆している。例えば、日本語に比較の関係(CONTRAST relation)を使用して翻訳されたなんらかの情報が、英語に精緻化の関係(ELABORATION relation)を使用して翻訳されると、英語翻訳中に「しかし」のような談話標識を使うことは不適当であろうが、それは日本語の談話構造と矛盾しない。
【0106】
日本語と英語の間の修辞的マッピングを検査したところ、いくつかの日本語の修辞的翻訳文が英語の一つ又はいくつもの好ましい翻訳文に一貫してマップされていることが明らかになった。例えば、日本語テキスト中の115の対照的関係(CONTRAST relation)のうち34が英語の対照の関係にマップされており;27は対句(ANTITHESIS)と譲歩(CONCESSION)などの関係の核になり;14は比較の関係として翻訳され、6は譲歩関係の衛星として翻訳され、5はリスト(LIST)の関係として翻訳される。
【0107】
談話ベースの変換モデル
図10は、訓練中のプロセスにおけるツリー書き換え器のブロック図である。図10に示すように、ツリー書き換え器700は、二つの異なるタイプのツリー、例えばAタイプのツリーとBタイプのもう一つのツリーを入力として受け取り、次にタイプAのツリーをタイプBのツリーに書き換える方法を自動的に学習する。ツリー書き換え器700は、出力として、タイプAのツリーをタイプBのツリーに書き換えるための変換関数:H(A→B)を生成する。したがって、タイプAが日本語のツリーに対応しそしてタイプBが英語のツリーに対応すると仮定すると、H(A→B)は、ユーザ(例えばヒトのエンドユーザ又はツリー書き換え器を起動するソフトウェアアプリケーション)が、英語のツリー構造を日本語の対応するツリー構造に自動的に変換できるようにする。
【0108】
ツリー書き換え器は、構文のツリー(シンタックスツリー;syntactic tree)、修辞のツリー及び事実上、計量言語学に使用される他のどんなタイプのツリー構造に対しても作動する。ツリー書き換え器は、機械翻訳におけるアプリケーションのみならず、集計、談話解析、統語解析、情報検索、自動試験採点及びツリーを生成し使用する他のアプリケーションも有する。例えば機械翻訳の場合、ツリー書き換え器は、一言語に特異的な統語/修辞のツリーを、もう一つの言語に対する統語/修辞のツリーに書き換えるのに使用できる。集計の場合、ツリー書き換え器は、長いテキスト又は文の談話/構文構造を、短いテキスト又は文の談話/構文構造に書き換えるのに使用できる。
【0109】
この高い汎用性は図11に示してあるが、図11中のツリー書き換え器801は、変換関数H(ツリー→ツリー’)を学習するように訓練された後、ツリーを出力として生成するアプリケーション800から、ツリーを入力として受け入れることができる。ツリー書き換え器の出力(ツリー’−上記入力されたツリーの書き換えられたバージョン)は、出力側で、ツリーを入力として使用するアプリケーションに入力として使用できる。
【0110】
図12は、より大きいシステムすなわち談話ベースの機械翻訳システムの要素としてのツリー書き換え器の特定アプリケーションのブロック図である。例えば、より大きい著作(例えば全書)の個々の文を別々に翻訳することによって「タイルド(tiled)」法を翻訳に有効に採用する従来のMTシステムと異なり、図12の談話ベースのMTシステムは、全テキストを全体として翻訳し、原本と文の数及び/又は配列は異なるが、元テキストの基礎になっている談話又は修辞をうまくとらえた翻訳文をもたらすことができる。
【0111】
図12に示すように、談話ベースMTシステム910は、原始言語テキスト900を入力として受け取りついで目的言語テキスト908(該原始言語テキスト900の談話ベース翻訳文)を出力として生成する。そのシステム910は、三つの基本的要素、すなわち談話パーサ(discourse parser)902、談話構造変換モジュール904(すなわち、変換関数:H(ツリー→ツリー’)を使用してツリーを書き換えるようトレーニングされたツリー書き換え器の具体例)、及び目的言語のツリー−テキストマッパー(target language tree−text mapper)906を備えている。
【0112】
上記談話パーサ902は、最初、原始言語テキストの談話構造を引き出し次いで対応する談話のツリーを出力として生成する。談話パーサ902として使用できる談話パーサの詳細は、Daniel Marcu、「A Decision−Based Approach to Rhetorical Parsing」Proceeding of ACL’99、1999年に記載されている。なおこの文献は本願に援用するものである。
【0113】
目的言語のツリーテキストマッパー906は、談話の特異的特徴を取りこんだ翻訳と言語のモデルを使用して目的言語中に入力テキストをマッピングする統計的モジュールである。なおその談話の特異的特徴は、談話パーサ902の出力及び談話構造変換モジュール904の出力から抽出される。適切なマッパー906の詳細は、Ulrich Germann、Michael Jahr、Kevin Knight、Daniel Marcu、Kenji Yamada、「Fast Decoding and Optimal Decoding for Machine Translation」、Proceeding of the 39th Annual Meeting of the Association for Computational Linguistics、2001年7月6〜11日に記載されている。なお、この文献は本願に援用するものである。
【0114】
上記のように、談話構造変換モジュール904は、ツリーを、所望の入力タイプから所望の出力タイプに書き換えるようトレーニングされたツリー書き換え器の具体例である。さらに具体的に述べると、談話構造変換モジュール904は、目的テキストに対して自然な談話翻訳を反映するように、入力テキストの談話構造を書き換える。
【0115】
図13は、二つの異なるタイプのツリー構造、例えばタイプAのツリーとタイプBのツリーの間の変換関数を自動的に学習するように、ツリー書き換え器をトレーニングするのに利用できるプロセス1300を示す流れ図である。
【0116】
図13に示すように、第一ステップ1301は、ツリーの入力−出力ペアのトレーニングセット[Ts、Tt]及び入力−出力ツリーペア各々の葉の間のマッピングCを生成するステップである。そのペアの入力ツリーは、そのタイプから変換することが望ましいタイプのツリーであり、換言すると、原始ツリータイプのTsである。そのペアの出力ツリーは、そのタイプに変換することが望ましいタイプのツリーであり、換言すれば目的ツリータイプのTtである。
【0117】
入力ツリー及びそのペアの出力ツリーの葉の間のマッピングCは、原始テキストセグメントとその対応する目的言語翻訳文の間の対応を定義する。これらのマッピングは、下記のように手動操作で、又はKevin Knight及びDaniel Marcu、「Statistics−Based Summarization−Step One: Sentence Compression」、The 17th National Conference on Artificial Intelligence(AAAI−2000)703〜710頁に記載されているように自動的に生成することができる。なお、この文献は本願に援用するものである。
【0118】
利用できる日本語−英語の入力−出力ペアの葉の間の利用可能なタイプのマッピングは、上記式(4)(式中、jは日本語テキストセグメントを意味しそしてeはそのテキストセグメントの英語翻訳文を意味する)に示してある。式(4)で表されるマッピングは、1対1のマッピングに限定されず、任意のマッピング、すなわち1対1のみならず1対多数、多数対1及び多数対多数のマッピングであってもよいことに留意すべきである。マッピングにおけるこの適応性は、入力ツリーと出力ツリーの間の関連が定義されるリッチネス(richness)を劇的に高め、そしてさらに、自動的に学習される変換関数H[]の適応性を高める。
【0119】
トレーニングセット(入力−出力のツリーのペア及びそれらツリーの間のマッピング)がつくられた後、次に、そのトレーニングプロセスは、ステップ1303で、そのペアになっている入力ツリーから出発する所定の入力ツリーを生成する操作のグルーピングと順序を決定する。このステップは、総合的に、「拡張シフト−還元」操作(“extended shift−reduce”operation)と呼称される下記七つの基本的操作すなわちシフト、還元、ブレーク(break)、クリエイト−ネクスト(create−next)、融合(fusion)、スワップ及びアサインタイプ(assign Type)に基づいて実行される。なおこれらの操作は、「談話ベースの変換モデル」という標題の後記の章で詳細に説明する。これら七つの操作は、与えられた入力ツリーをそのペアになっている出力ツリーに書き換えるのに充分な操作である。
【0120】
ステップ1303の出力は、学習ケースすなわちトレーニングセット中の入力−出力ツリーのペア各々の学習ケースのセットである。各学習ケースは、本質において、入力ツリーに適用されると、ペアの出力ツリーを生成する拡張シフト−還元操作の順序付けられたセットである。
【0121】
次に、ステップ1305において、ツリー書き換え器のトレーニングプロセス1300は、特徴(例えば操作と談話の特徴、対応ベースの特徴及び字句の特徴)を、学習ケースと関連づけて、操作を実行すべきコンテキスト(文脈;context)を反映させる。ステップ1305の詳細は、表題が「Learning the parameters of the discourse−transfer model」の後記章で考察する。
【0122】
次にステップ1307において、ツリー書き換え器トレーニングプロセス1300は、学習アルゴリズム、例えばJ. Ross Quinlan、「C4.5: Programs for Machine Learning」Morgan Kaufmann Publishers1993年に記載されているようなC4.5アルゴリズムを適用して、決定則のセットを学習ケースから学習する。ステップ1307の詳細は、表題が「Learning the parameters of the discourse−transfer model」の後記章で考察する。この決定則のセットは、タイプTsのツリーを、タイプTtのツリーに書き換えるのに用いる変換関数:H(Ts→Tt)を統合的に構成している。その場合、この変換関数は、前には見えなかったタイプTsのツリーを、タイプTtのツリーに書き換えるため、ユーザ、アプリケーション又は他の自動化プロセスが利用できる。
【0123】
ツリー書き換え器のトレーニングのより詳細な考察は次のとおりである。
【0124】
談話構造のツリーを書き換えることを学習するため、定義3.1で以下に定義される関連する問題がアドレス指定される。
【0125】
定義3.1 二つのツリーTsとTt及び対応テーブルCが、=、⊂、⊃及び≒のリアクション(reaction)によって葉のレベルにてTsとTtの間で定義されれば、ツリーTsをTtに書き換える一連のアクションを見つける。
【0126】
任意の組(tuple)(Ts、Tt、C)に対し、このような一連のアクションを引き出すことができるならば、ツリーTsと同じ構造特性を有する見えない(unseen)ツリーTsiから、Ttと類似の構造特性を有するツリーTtjを引き出すように自動的に学習するため、(Ts、Tt、C)の組のコーパスを使うことが可能である。
【0127】
定義3.1の問題を解決するには、Mangerman、「Statistical decision−tree models for parsing」In Proc. Of ACL’95、276〜283頁米国マサチューセッツ州ケンブリッジ1995年;Hermjakob ら、「Learning parse and translation decisions from examples with rich context」In Proc. Of ACL’97482〜489頁スペイン、マドリード1997年;及びMarcu、「A decision−based approach to rhetorical parsing」In Proc. Of ACL’99、365〜372頁米国メリーランド1999年によって適用されるシフト−還元解析パラダイムをいくぶん拡張する必要がある。この拡張されたパラダイムにおいて、該変換プロセスは、空スタック及び一連の基本談話のツリーのedtを含有する入力並び(入力リスト;Input List)から出発し、ツリーTsの各eduに対する一つのedtが入力として与えられる。各edtと関連する状態及び修辞的関係は定義されていない。各ステップにおいて、変換モジュールは、Ts内のユニットから談話のツリーTtを組み立てることを目的とする操作を適用する。前記談話変換モジュールに関連して、以下の七つのタイプの操作が実行される。
【0128】
・シフト操作が第一edtを、入力並びからスタックに変換する。
・還元操作が、スタックのトップに位置する二つの談話のツリーをポップ(pop)し、それらのツリーを、その操作に関与するツリーの状態と修辞関係名を更新する新しいツリーに結合し、次いでその新しいツリーをスタックのトップにプッシュする。これらの操作は、談話のツリーの構造を、目的言語中に組み立てるために利用される。
・ブレーク操作が、入力並びを、予め定められた数のユニット中に開始する際、edtをブレークするために利用される。これらの操作は、得られたツリーがTtと同じ数のedtをもっていることを保証するために使用される。例えば、一つの日本語eduが複数の英語ユニット中にマップされるときはいつも、一つのブレーク操作が利用される。
・クリエイト−ネクスト操作が、例えば、日本語(原始言語)のツリーに対応物がない英語(目的言語)の談話要素をつくるために利用される。
・融合操作が、スタックのトップに位置するedtを、その直前を先行するツリーに融合させるために利用される。これら操作は、例えば、複数の日本語eduが一つの英語eduにマップされるときはいつでも利用される。
・スワップ操作が、入力並びの最初のedtを、右側の1又は2以上の位置に見つけられたedtでスワップする。これら操作は、談話の要素を再順序付けするために使用される。
・アサインタイプの操作が、下記タイプすなわちユニット、マルチユニット、文、パラグラフ、マルチパラグラフ及びテキストの1又は2以上を、スタックのトップに位置するツリーtに割り当てる。これらの操作は、目的言語に特異的な文及びパラグラフの境界を保証するために利用される。
【0129】
例えば、図9の英語のツリーの第一文は、下記アクション(5)のシーケンスをたどることによって、原日本語のシーケンスから得ることができ、そのアクションの効果は図14に示してある。簡潔にするため、図14にはアサインタイプのアクションの効果を示していない。同じく簡潔にするため、いくつものラインは2以上のアクションに相当するラインである。
【0130】
(5)ブレーク2;スワップ2;シフト;アサインタイプユニット;シフト;還元−NS−精緻化−目的語−限定語−E;アサインタイプマルチユニット;シフト;アサインタイプユニット;シフト;アサインタイプユニット;融合;アサインタイプユニット;スワップ2;シフト;アサインタイプユニット;融合;ブレーク2;シフト;アサインタイプユニット;シフト;アサインタイプユニット;還元−NS−精緻化−追加(ADDITIONAL);アサインタイプマルチユニット;還元−NS−対照;アサインタイプマルチユニット;還元−SN−バックグランド;アサインタイプ文。
【0131】
談話ベースの変換モジュールが日本語の談話のツリーから出発する英語の談話のツリーを引き出すことができるようにするために使用されるコーパスに対して、下記の事を実施すれば充分である。
【0132】
・一つのシフト操作
・3×2×85の還元操作;(中核性アサインメントの三つの可能なペア:核−衛星(NS)、衛星−核(SN)および核−核(NN)の各々について、二つの隣接するツリーを還元する二つの可能な方法がある(一方のツリーは二分ツリーをもたらし残りのツリーは非二分ツリーをもたらす)(Marcu、「A decision−based approach to rhetorical parsing」 In Proc. Of ACL’ 99、365〜372頁 米国メリーランド1999年)、及び85の関係名)
・三つのタイプのブレーク操作;(使用されるコーパスにおいて、日本語ユニットが、2ユニット、3ユニット又はせいぜい4ユニットにブレークされる);
・一つのタイプのクリエイト−ネクスト操作;
・一つのタイプの融合操作;
・11タイプのスワップ操作;(コーパスにおいて、日本語ユニットは、英語特異的翻訳文のそれらの位置からせいぜい11位置離れている)
・七つのタイプのアサインタイプ操作:ユニット、マルチユニット、文、マルチ文、パラグラフ、マルチパラグラフ及びテキスト。
【0133】
これらのアクションは、任意のツリーTsを任意のツリーTtに書き換えるのに充分なアクションであり、この場合、Ttは異なる数のeduを有していてもよく、TtのeduはTsのeduとは異なる順序付けがなされていてもよく、かつこれら二つのツリーの階層構造も異なっていてもよい。
【0134】
談話−変換モデルのパラメータの学習
この変換モデルの構成は各々、学習ケースと関連がある。これらのケースは、手動操作で構築される対応(correspondence)を、基本ユニットレベルで使用して、コーパス中の日本語のツリーを同胞の英語のツリーにマッピングするアクションのシーケンスを自動的に引き出すプログラムによってつくった。全体にわたって、日本語と英語の談話のツリーの40個のペアが14108個のケースを生じた。
【0135】
各学習実施例に対して、下記クラス由来の特徴のセットを関連づけた。
【0136】
操作と談話の特徴は、スタック、入力並び、及び最後の五つの操作のタイプに、ツリーの数を反映する。これらの特徴は、特定の時間までに組み立てられる部分のツリーのタイプ、及びこれらのツリーの間を保持する修辞的関係に関連する情報を符号化する。
【0137】
対応ベースの特徴は、中核性、修辞的関係、及び与えられた時間までに引き出される英語様部分のツリーに対応する日本語のツリーのタイプを反映する。
【0138】
字句の特徴は、与えられた時間までに引き出される構造に対応する日本語のスパンが、潜在的な談話標識、例えば「だから」(because)や「のに」(although)を使うかどうかを指定する。
【0139】
談話変換モジュールは、決定のツリー、及び日本語の談話のツリーが英語様のツリーにどのようにマップされるべきかを指定するルールを学習するため、C4.5プログラム(Quinlan著、C4.5: Programs for Machine Learning、Morgan Kaufmann Publishers 1993年)を使用する。分類器(classifier)の10倍相互妥当性の評価(ten−fold cross−validation evaluation)は、正確さが70.2%(±0.21)になった。
【0140】
分類器の強みと弱点を充分に理解するために、問題をより小さい要素に分けた。したがって、すべてのアクションを同時に学習する代わりに、書換え手順が、シフト、還元、ブレーク、融合、スワップ又はアサインタイプの操作(表3に示す「主アクションタイプ」)を選ぶべきかどうかが第一に決定され、その次にはじめて、どんなタイプの還元操作を実施して日本語のユニットをいくつのユニットに分けるか、スワップされたユニットに対する距離をどんな大きさにすべきか、及びどんなタイプのアサインタイプの操作を実行すべきかを決定することによって前記決定が改善される。下記の表3は、10倍相互妥当性評価法を使用して測定される、各データセットの大きさとこれら分類器各々の性能を示す。比較するために、各分類器はマジョリティベースライン(majority baseline)とペアにしてある。
【0141】
【表5】
【0142】
表3に示す結果は、最も困難な学習すべきサブタスクが日本語ユニットの分けなければならないユニットの数を決定するサブタスク及びスワップすべきユニットに対する距離を決定するサブタスクであることを示す。利用される特徴は、これらアクションタイプのベースライン分類器を改良できない。「主アクションタイプ」の分類器についての混同マトリックス(confusion matrix)(表4参照)は、該システムが、ブレークとクリエイト−ネクストのアクションをほとんど同一視する問題があることを示している。該システムは、どんなタイプの中核性順序付けを選ぶか(「中核性−還元」分類器)及びどんな関係を英語様構造に選ぶか(「関係−還元」分類器)を学習することは困難である。
【0143】
【表6】
【0144】
図15は典型的な学習曲線すなわち「還元関係」分類器に対応する学習曲線である。この学習曲線は、より多くのトレイニングデータが性能を改善できることを示唆している。しかし、その学習曲線は、性能を有意に改善するためには、より優れた特徴が必要であろうということも示唆している。
【0145】
下記表5はいくつかの学習されたルールを示す。第一のルールは、日本語から英語に翻訳される時に限定の関係(ATTRIBUTION relation)の核と衛星の順序が変更される修辞マッピングを説明する。第二のルールは、例(EXAMPLE)の日本語衛星を根拠(EVIDENCE)の英語衛星にマッピングするために学習された。
【0146】
【表7】
【0147】
談話ベース変換モジュールの評価
汎用分類器又はその他の6種の分類器を続けて適用することによって、日本語の談話のツリーを、その構造が英語の自然な翻訳文に近くなるツリーにマッピングすることができる。談話ベース変換モジュールを評価するため、10倍相互妥当性評価実験を行った。すなわち、それら分類器を、手動操作で組み立てて整列させた談話構造の36ペアのトレーニングを行い次いでその学習された分類器を使って、四つの見えない日本語の談話のツリーを、英語様ツリーにマップした。その引き出されたツリーと手動操作で組み立てられた英語のツリーの類似性を、さきに考察したマトリクスを使用して測定した。この手順を10回繰り返したが、各回で、異なるサブセットのツリーのペアのトレーニングと試験を行った。
【0148】
表2に報告した結果は、該モデルに対するベースラインとしての報告であった。そのベースラインは、談話の知識を全く適用しないことに対応している。下記表6は、汎用分類器を使用して、日本語のツリーを英語様ツリーにマップしたときに得られた再表示と精度の数字の絶対改良(パーセント)を示す。汎用分類器が最良の結果を示した。表6に示す結果は、10倍相互妥当性評価実験での平均値である。
【0149】
【表8】
【0150】
表6の結果は、ここに記載のモデルが、英語様談話構造を文に対して組み立てることについてはベースラインより優れているが、英語様構造を、パラグラフとテキストのレベルで組み立てることについてはベースラインより劣ることを示している。このモデルの一つの潜在的欠点は、パラグラフの境界を割り当てる(assign)性能が低いことが原因のようである。分類器は、どちらのスパンがパラグラフを考慮すべきでどのスパンがパラグラフを考慮すべきでないかを正しく学習しないので、そのパラグラフとテキストのレベルでの再表示と精度の結果はマイナスの影響を受ける。また、パラグラフとテキストのレベルでの劣った結果は、一ステップずつツリーを再構築する過程でその効果が累積する誤り、及びこれらのレベルについては、それから学習すべきデータが少ないことによって説明できる。
【0151】
しかし、文とパラグラフの境界を無視し、談話構造全体を評価するならば、このモデルは、位置依存評価によって、どうあってもベースラインより優れており;位置独立評価によって、基本ユニット、階層スパン及び中核性状態の割り当て(assignment)についてはベースラインより優れており;そして位置独立評価によって、修辞的関係の割り当てについてはベースラインにごくわずか劣ることが分かる。より高性能の談話の特徴、例えばMayard著、Principles of Japanese Disclosure: A Handbook, Cambridge Univ. Press 1998年に記載されている特徴、及びこれら二つの言語のレキシコグラマー(lexicogrammar)によるより密接な統合によって、談話ベースの翻訳モデルを学習するより優れたきっかけが生まれる。
【0152】
ツリー書き換え器の別の実施態様が可能である。例えば、可能性があることはツリーを書き換える手順に組み入れることができる。あるいは又は追加して、複数のツリーは平行して書き換えることができそして最良のツリーが最後に選択される。現行の実施態様では、目的のツリーTtは一連の決定性ステップにて再帰(recursion)又は分岐なしで生成する。あるいは、可能性があることを個々の各ステップと関連づけ、次いで複数の代替物を同時に探索することによって目的のツリーTtを再構築することが可能である。目的のツリーTtの確率は、そのツリーに生じるすべてのステップの確率の積で表される。この場合、目的のツリーTtは、最大の確率で得られたツリーであると解される。このような方法の利点は、確率的変換関数H[]を学習できることである。
【0153】
ごく少数の実施態様だけを詳細に説明してきたが、当業技術者は、好ましい実施態様において多くの変形が、本願の教示から逸脱することなく可能であることが確実に分かるであろう。このような変形はすべて本願の特許請求の範囲に含まれる。
【図面の簡単な説明】
【図1A】ユーザからみた機械翻訳のブロック図を示す。
【図1B】単語レベルの整合の一例を示す。
【図2】グリーディーデコーダの一実施態様の操作の流れ図を示す。
【図3】フランス語の文の英語翻訳文を生成するグリーディーデコーダの一実施例を示す。
【図4】グリーディーデコーダがフランス語の文の英語翻訳文を生成するとき、ユーザが見る出力の一実施例を示す。
【図5】三文字言語のモデルを使用して行った異なるデコーダ間の比較を示す表である。
【図6】修辞構造のツリーの一実施例を示す。
【図7】日本語の原始文の一例である。
【図8】図7に示す日本語原始文の談話構造である。
【図9】図7に示す日本語原始文から翻訳された英語の目的文の談話構造である。
【図10】ツリー書き換え器のブロック図を示す。
【図11】ツリー書き換え器がより大きいシステムのサブシステムとしてどのように使用できるかを示すブロック図である。
【図12】サブシステムとしてツリー書き換え器を備えた談話ベースの機械翻訳システムのブロック図を示す。
【図13】ツリー書き換え器を組み立てるのに利用する手順の流れ図である。
【図14A】ツリーを徐々に再構築している一実施例を示す。
【図14B】ツリーを徐々に再構築している一実施例を示す。
【図15】関係−還元分類器の学習曲線のグラフである。
Claims (65)
- 目的言語に翻訳すべき原始言語のテキストセグメントを入力として受け取り、
初期翻訳分を、現行目的言語翻訳文として生成し、
その現行目的言語翻訳文に、1又は2以上の修正オペレータを適用して、1又は2以上の修正された目的言語翻訳文を生成し、
その修正された目的言語翻訳文の1又は2以上が、該現行目的言語翻訳文と比較して改良された翻訳文になっているかどうかを確認し、
修正された目的言語翻訳文を、現行目的言語翻訳文として設定し、次いで
前記適用、前記確認及び前記設定を、終了条件が生じるまで繰り返す、
ことを含んでなる機械翻訳デコーディング方法。 - テキストセグメントが、節、文、パラグラフ又は全書を含んでいる請求項1に記載の方法。
- 初期翻訳文を生成することがグロスをつくることを含む請求項1に記載の方法。
- 該グロスが逐語的グロスか又は逐語句的グロスである請求項3に記載の方法。
- 1又は2以上の修正オペレータを適用することが、現行目的言語翻訳文の一つ又は二つの単語の訳語を変更することを含んでいる請求項1に記載の方法。
- 1又は2以上の修正オペレータを適用することが、(i)現行目的言語翻訳文の一つの単語の訳語を変更すること、及び同時に(ii)原始言語テキストセグメントと現行目的言語翻訳文との間に最高確率の整合を生じる位置に別の単語を挿入することを含み、その挿入される別の単語はファーティリティがゼロ値である確率が高い請求項1に記載の方法。
- 1又は2以上の修正オペレータを適用することが、現行目的言語翻訳文から、ファーティリティがゼロ値の単語を削除することを含む請求項1に記載の方法。
- 1又は2以上の修正オペレータを適用することが、現行目的言語翻訳文中のオーバーラップしていない目的言語の単語セグメントをスワップすることによって、原始言語テキストセグメントと現行目的言語翻訳文の間の整合を修正することを含む請求項1に記載の方法。
- 1又は2以上の修正オペレータを適用することが、(i)現行目的言語翻訳文から目的言語の単語を除き、及び(ii)原始言語テキストセグメント中の単語をリンクすることによって、原始言語テキストセグメントと現行目的言語翻訳文の間の整合を修正することを含む請求項1に記載の方法。
- 1又は2以上の修正パラメータを適用することが、下記のこと、すなわち
(i)現行目的言語翻訳文の一つ又は二つの単語の訳語を変更すること、
(ii)現行目的言語翻訳文の一つの単語の訳語を変更し、同時に、原始言語テキストセグメントと現行目的言語翻訳文の間の最高確率の整合を生じる位置に別の単語を挿入することであって、その挿入された別の単語がゼロ値のファーティリティを有する確率が高いこと、
(iii)現行目的言語翻訳文から、ファーティリティがゼロ値の単語を削除すること、
(iv)現行目的言語翻訳文中のオーバーラップしていない目的言語単語セグメントをスワップすることによって、原始言語テキストセグメントと現行目的言語翻訳文の間の整合を修正すること、並びに
(V)目的言語の単語を現行目的言語翻訳文から除き及び原始言語テキストセグメント中の単語をリンクすることによって、原始言語テキストセグメントと現行目的言語翻訳文の間の整合を修正すること、
の2又は3以上を適用することを含む請求項1に記載の方法。 - 該修正された目的言語翻訳文の1又は2以上が現行目的言語翻訳文と比べて改良された翻訳文になっているかどうかを確認することが、該修正された目的言語翻訳文各々の正当性の確率を計算することを含む請求項1に記載の方法。
- 該終了条件が、修正された目的言語翻訳文の正当性の確率が現行目的言語翻訳文の正当性の確率より大きくないことを確認することを含む請求項1に記載の方法。
- 該終了条件が、予め定められた数の繰り返しの完了を含む請求項1に記載の方法。
- 該終了条件が、予め定められた時間が経過することを含む請求項1に記載の方法。
- 原始言語テキストセグメントの目的言語翻訳文を、終了条件が生じるまで繰り返し修正することを含むコンピュータ実行機械翻訳デコーディング方法。
- 該終了条件が、修正された翻訳文の正当性の確率がその前の翻訳文の正当性の確率より大きくないことを確認することを含む請求項15に記載の方法。
- 該終了条件が、予め定められた数の繰り返しの完了を含む請求項15に記載の方法。
- 該原始言語テキストセグメントが、節、文、パラグラフ又は全書を含む請求項15に記載の方法。
- 近似目的言語翻訳文から出発し、次いでその翻訳文を、連続する各繰り返しによって繰り返し改良する請求項15に記載の方法。
- 該近似目的言語翻訳文がグロスを含む請求項19に記載の方法。
- 該グロスが、逐語的グロス又は逐語句的グロスを含む請求項20に記載の方法。
- 該近似目的言語翻訳文が、複数の予め定められた翻訳文から選択された予め定められた翻訳文を含む請求項19に記載の方法。
- グリーディーアルゴリズムを実行する請求項15に記載の方法。
- 翻訳文を繰り返し修正することが、翻訳文を、各繰り返しによって徐々に改良することを含む請求項15に記載の方法。
- 翻訳文を繰り返し修正することが、その翻訳文に対し1又は2以上の修正操作を、各繰り返しで実行することを含む請求項15に記載の方法。
- 1又は2以上の修正操作が、下記操作すなわち
(i)翻訳文中の一つ又は二つの単語を変更する操作、
(ii)一つの単語の訳語を変更し、同時に、原始言語テキストセグメントとその翻訳文との間に最高確率の整合を生じる位置に別の単語を挿入する操作であって、その挿入された別の単語がファーティリティがゼロ値である確率が高い操作、
(iii)該翻訳文から、ファーティリティがゼロ値の一つの単語を削除する操作、
(iv)該翻訳文中のオーバーラップしていない目的言語単語セグメントをスワップすることによって、原始言語テキストセグメントと該翻訳文との間の整合を修正する操作、及び
(V)一つの目的言語単語を該翻訳文から除き次いで原始言語テキストセグメント中の単語をリンクすることによって、原始言語テキストセグメントと翻訳文との間の整合を修正する操作、
のうちの1又は2以上を含む請求項25に記載の方法。 - 現行目的言語翻訳文に適用されて1又は2以上の修正された目的言語翻訳文を生成する1又は2以上の修正オペレータを含むデコーディングエンジンと、
1又は2以上の修正オペレータを使用して現行目的言語翻訳文を繰り返し修正し、終了条件が生じたときに終了するプロセスループとを含む機械翻訳デコーダ。 - 該プロセスループが、該デコーディングエンジンを制御して、現行目的言語翻訳文を、各繰り返しで徐々に改良する請求項27に記載のデコーダ。
- 翻訳文の正当性の確率を決定するためのモジュールをさらに含む請求項27に記載のデコーダ。
- 翻訳文の正当性の確率を決定するためのモジュールが言語モデルと翻訳モジュールを備えている請求項29に記載のデコーダ。
- プロセスループが、修正された翻訳文の正当性の確率がその前の翻訳文の正当性の確率より大きくないことを確認すると終了する請求項29に記載のデコーダ。
- プロセスループが、予め定められた数の繰り返しが完了すると終了する請求項27に記載のデコーダ。
- 該1又は2以上の修正オペレータが、下記オペレータ、すなわち
(i)現行目的言語翻訳文の一つ又は二つの単語の訳語を変更するオペレータ、
(ii)現行目的言語翻訳文の一単語の訳語を変更し、同時に、原始言語テキストセグメントと現行目的言語翻訳文の間に最高確率の整合を生じる位置に別の単語を挿入するオペレータであって、その挿入された別の単語が、ファーティリティがゼロ値である確率が高いオペレータ、
(iii)現行目的言語翻訳文からファーティリティがゼロ値である一単語を削除するオペレータ、
(iv)現行目的言語翻訳文のオーバーラップしていない目的言語単語セグメントをスワップすることによって、原始言語テキストセグメントと現行目的言語翻訳文の間の整合を修正するオペレータ、及び
(V)現行目的言語翻訳文から一目的言語単語を除き次に原始言語テキストセグメントの単語をリンクすることによって、原始言語テキストセグメントと現行目的言語翻訳文の間の整合を修正するオペレータ、
のうちの1又は2以上を含む請求項27に記載のデコーダ。 - 原始言語テキストセグメントに対応するツリーを入力として受け取り、次に
その受け取った入力に対し1又は2以上の決定則を適用して、目的言語テキストセグメントストに対応するツリーを生成する、
ことを含むコンピュータ実行のツリー生成方法。 - 該1又は2以上の決定則が一連の決定則を含む請求項34に記載の方法。
- 該1又は2以上の決定則が、総合的に、変換関数を表す請求項34に記載の方法。
- トレーニングセットに基づいて、1又は2以上の決定則を自動的に決定することをさらに含む請求項34に記載の方法。
- 該トレーニングセットが、複数の入力−出力のツリーのペア及びその入力−出力のツリーのペア各々の間のマッピングを含む請求項37に記載の方法。
- 該入力−出力のツリーのペアの各々の間のマッピングが、その入力のツリーの葉とそのペアになっている出力のツリーの葉との間のマッピングを含んでいる請求項38に記載の方法。
- 入力−出力のツリーのペアの葉の間のマッピングが、1対1、1対多数、多数対1又は多数対多数であってもよい請求項39に記載の方法。
- 該1又は2以上の決定則を自動的に決定することが、ペアになった入力のツリーに適用されたときに出力のツリーを生成する一連の操作を決定することを含む請求項38に記載の方法。
- 一連の操作を決定することが、入力のツリーを、その入力のツリーのペアになった出力のツリーにするのに総合的に充分である複数の予め定義された操作を使用することを含む請求項41に記載の方法。
- 該複数の予め定義された操作が、下記操作、すなわち
基本談話のツリー(edt)を、入力並びからスタックに変換するシフト操作、
二つのedtをスタックのトップからポップさせ、その二つのポップさせたedtを新しいツリーに結合し、次いでその新しいツリーをスタックのトップにプッシュする還元操作、
一つのedtを予め定められた数のユニットにブレークするブレーク操作、
原始言語のツリーの中で接続関係がない目的言語談話要素をつくるクリエイトネクスト操作、
スタックのトップのedtを直前のedtに融合する融合操作、
入力並び中のedtの位置をスワップするスワップ操作、及び
下記タイプすなわちユニット、マルチユニット、文、パラグラフ、マルチパラグラフ及びテキストの1又は2以上をedtに割り当てるアサインタイプ操作、のうち1又は2以上を含む請求項42に記載の方法。 - 複数の既定義の操作が、前記のシフト操作、還元操作、ブレーク操作、クリエイトネクスト操作、融合操作、スワップ操作及びアサインタイプ操作を含むクローズドセットを含む請求項43に記載の方法。
- 一連の操作を決定することが、複数の学習ケースをもたらし、すなわち入力−出力のツリーのペア各々に対し一つの学習ケースがもたらされる請求項41に記載の方法。
- 1又は2以上の特徴を、コンテキストに基づいて、複数の学習ケース各々と関連づけることをさらに含む請求項45に記載の方法。
- 該関連づけられた特徴が、下記の特徴すなわち操作及び談話の特徴、対応ベースの特徴、並びに語彙の特徴のうち1又は2以上を含む請求項46に記載の方法。
- 学習プログラムを複数の該学習ケースに適用して、1又は2以上の決定則を生成することをさらに含む請求項45に記載の方法。
- 該学習プログラムがC4.5を含む請求項48に記載の方法。
- 原始言語テキストセグメントが、節、文、パラグラフ又は全書を含む請求項34に記載の方法。
- 目的言語テキストセグメントが、節、文、パラグラフ又は全書を含む請求項34に記載の方法。
- 原始言語テキストセグメントと目的言語テキストセグメントが、異なるタイプのテキストセグメントである請求項34に記載の方法。
- 原始言語のツリーと目的言語のツリーが各々、構文のツリーを含んでいる請求項34に記載の方法。
- 原始言語のツリーと目的言語のツリーが各々、談話のツリーを含んでいる請求項34に記載の方法。
- 原始言語テキストセグメントに対応するツリーに適用されると、目的言語テキストセグメントに対応するツリーを生成する決定則の予め定められたセットを含むコンピュータ実行のツリーを生成するモジュール。
- 原始言語テキストセグメントが、節、文、パラグラフ又は全書を含む請求項55に記載のモジュール。
- 目的言語テキストセグメントが、節、文、パラグラフ又は全書を含む請求項55に記載のモジュール。
- 原始言語テキストセグメントと目的言語テキストセグメントが、異なるタイプのテキストセグメントである請求項55に記載のモジュール。
- 原始言語のツリーと目的言語のツリーが各々、構文のツリーを含む請求項55に記載のモジュール。
- 原始言語のツリーと目的言語のツリーが各々、談話のツリーを含む請求項55に記載のモジュール。
- 決定則の予め定められたセットが、原始言語のツリーと目的言語のツリーの間の変換関数を定義する請求項55に記載のモジュール。
- 複数のツリーのペア及び各ツリーのペア間のマッピングを含むトレーニングセットを生成し、そのツリーのペア各々が原始のツリーと対応する目的のツリーを含み、
各ツリーのペアについて、原始のツリーに適用されたとき目的のツリーをもたらす一連の操作を決定することによって、複数の学習ケースを生成し、次に
その複数の学習ケースに、学習アルゴリズムを適用することによって複数の決定則を生成する、
ことを含む、異なるタイプのツリーの間の変換関数を決定する方法。 - 複数の決定則を生成する前に、1又は2以上の特徴を、コンテキストに基づいて学習ケース各々と関連づけることをさらに含む請求項62に記載の方法。
- 原始言語テキストセグメントの談話構造を解析して、テキストセグメントに対する原始言語談話のツリーを生成する談話パーサと、
原始言語談話のツリーを入力として受け入れて目的言語談話のツリーを出力として生成する談話構造変換モジュールと、
目的言語談話のツリーを目的テキストセグメント中にマッピングするマッピングモジュールと、
を含むコンピュータ実行談話ベースの機械翻訳システム。 - 該談話構造変換モジュールが、原始言語−目的言語のツリーのペアのトレーニングセットから生成される複数の決定則を含む請求項64に記載のシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US20364300P | 2000-05-11 | 2000-05-11 | |
PCT/US2001/015379 WO2001086491A2 (en) | 2000-05-11 | 2001-05-11 | Machine translation techniques |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004501429A true JP2004501429A (ja) | 2004-01-15 |
Family
ID=22754752
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001583366A Pending JP2004501429A (ja) | 2000-05-11 | 2001-05-11 | 機械翻訳技法 |
Country Status (7)
Country | Link |
---|---|
US (2) | US7533013B2 (ja) |
EP (1) | EP1352338A2 (ja) |
JP (1) | JP2004501429A (ja) |
CN (1) | CN1465018A (ja) |
AU (2) | AU2001261505A1 (ja) |
CA (1) | CA2408819C (ja) |
WO (2) | WO2001086489A2 (ja) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009527818A (ja) * | 2006-02-17 | 2009-07-30 | グーグル・インコーポレーテッド | 分散型モデルの符号化及び適応可能なスケーラブルアクセス処理 |
JP2009533728A (ja) * | 2006-04-07 | 2009-09-17 | ベイシス テクノロジー コーポレイション | 機械翻訳の方法およびシステム |
US8666725B2 (en) | 2004-04-16 | 2014-03-04 | University Of Southern California | Selection and use of nonstatistical translation components in a statistical machine translation framework |
US8676563B2 (en) | 2009-10-01 | 2014-03-18 | Language Weaver, Inc. | Providing human-generated and machine-generated trusted translations |
US8694303B2 (en) | 2011-06-15 | 2014-04-08 | Language Weaver, Inc. | Systems and methods for tuning parameters in statistical machine translation |
US8825466B1 (en) | 2007-06-08 | 2014-09-02 | Language Weaver, Inc. | Modification of annotated bilingual segment pairs in syntax-based machine translation |
US8831928B2 (en) | 2007-04-04 | 2014-09-09 | Language Weaver, Inc. | Customizable machine translation service |
US8886518B1 (en) | 2006-08-07 | 2014-11-11 | Language Weaver, Inc. | System and method for capitalizing machine translated text |
US8942973B2 (en) | 2012-03-09 | 2015-01-27 | Language Weaver, Inc. | Content page URL translation |
US8943080B2 (en) | 2006-04-07 | 2015-01-27 | University Of Southern California | Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections |
US8990064B2 (en) | 2009-07-28 | 2015-03-24 | Language Weaver, Inc. | Translating documents based on content |
JP2015072509A (ja) * | 2013-10-01 | 2015-04-16 | 日本電信電話株式会社 | 語順並び替え装置、翻訳装置、方法、及びプログラム |
JP2015127894A (ja) * | 2013-12-27 | 2015-07-09 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 支援装置、情報処理方法、及び、プログラム |
US9122674B1 (en) | 2006-12-15 | 2015-09-01 | Language Weaver, Inc. | Use of annotations in statistical machine translation |
US9152622B2 (en) | 2012-11-26 | 2015-10-06 | Language Weaver, Inc. | Personalized machine translation via online adaptation |
US9213694B2 (en) | 2013-10-10 | 2015-12-15 | Language Weaver, Inc. | Efficient online domain adaptation |
US10261994B2 (en) | 2012-05-25 | 2019-04-16 | Sdl Inc. | Method and system for automatic management of reputation of translators |
US10319252B2 (en) | 2005-11-09 | 2019-06-11 | Sdl Inc. | Language capability assessment and training apparatus and techniques |
US10417646B2 (en) | 2010-03-09 | 2019-09-17 | Sdl Inc. | Predicting the cost associated with translating textual content |
US11003838B2 (en) | 2011-04-18 | 2021-05-11 | Sdl Inc. | Systems and methods for monitoring post translation editing |
KR20220094444A (ko) * | 2020-12-29 | 2022-07-06 | 엑스엘에이트 아이앤씨 | 기계번역을 위한 장치 및 방법 |
Families Citing this family (282)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060116865A1 (en) | 1999-09-17 | 2006-06-01 | Www.Uniscape.Com | E-services translation utilizing machine translation and translation memory |
US6961692B1 (en) * | 2000-08-01 | 2005-11-01 | Fuji Xerox Co, Ltd. | System and method for writing analysis using the linguistic discourse model |
US8745093B1 (en) * | 2000-09-28 | 2014-06-03 | Intel Corporation | Method and apparatus for extracting entity names and their relations |
US7054803B2 (en) * | 2000-12-19 | 2006-05-30 | Xerox Corporation | Extracting sentence translations from translated documents |
US6990439B2 (en) * | 2001-01-10 | 2006-01-24 | Microsoft Corporation | Method and apparatus for performing machine translation using a unified language model and translation model |
US7904595B2 (en) | 2001-01-18 | 2011-03-08 | Sdl International America Incorporated | Globalization management system and method therefor |
US7069207B2 (en) * | 2001-01-26 | 2006-06-27 | Microsoft Corporation | Linguistically intelligent text compression |
JP3916124B2 (ja) * | 2001-02-15 | 2007-05-16 | インターナショナル・ビジネス・マシーンズ・コーポレーション | デジタル文書閲覧システム、ブラウザ、デジタル文書表示方法、プログラム及び記憶媒体 |
US7734459B2 (en) * | 2001-06-01 | 2010-06-08 | Microsoft Corporation | Automatic extraction of transfer mappings from bilingual corpora |
US8214196B2 (en) | 2001-07-03 | 2012-07-03 | University Of Southern California | Syntax-based statistical translation model |
US7146358B1 (en) * | 2001-08-28 | 2006-12-05 | Google Inc. | Systems and methods for using anchor text as parallel corpora for cross-language information retrieval |
CN1578954B (zh) * | 2001-10-29 | 2010-04-14 | 英国电讯有限公司 | 计算机语言翻译扩展系统 |
WO2003054146A2 (en) * | 2001-11-14 | 2003-07-03 | Northwestern University | Self-assembly and mineralization of peptide-amphiphile nanofibers |
US7295966B2 (en) * | 2002-01-14 | 2007-11-13 | Microsoft Corporation | System for normalizing a discourse representation structure and normalized data structure |
US7127208B2 (en) * | 2002-01-23 | 2006-10-24 | Educational Testing Service | Automated annotation |
WO2003070749A2 (en) * | 2002-02-15 | 2003-08-28 | Northwestern University | Self-assembly of peptide-amphiphile nanofibers under physiological conditions |
US20040076930A1 (en) | 2002-02-22 | 2004-04-22 | Steinberg Linda S. | Partal assessment design system for educational testing |
US7716207B2 (en) * | 2002-02-26 | 2010-05-11 | Odom Paul S | Search engine methods and systems for displaying relevant topics |
US7340466B2 (en) * | 2002-02-26 | 2008-03-04 | Kang Jo Mgmt. Limited Liability Company | Topic identification and use thereof in information retrieval systems |
US20060004732A1 (en) * | 2002-02-26 | 2006-01-05 | Odom Paul S | Search engine methods and systems for generating relevant search results and advertisements |
JP3959453B2 (ja) * | 2002-03-14 | 2007-08-15 | 沖電気工業株式会社 | 翻訳仲介システム及び翻訳仲介サーバ |
AU2003269808A1 (en) | 2002-03-26 | 2004-01-06 | University Of Southern California | Constructing a translation lexicon from comparable, non-parallel corpora |
JP4088131B2 (ja) * | 2002-03-28 | 2008-05-21 | 富士通株式会社 | 同期コンテンツ情報生成プログラム、同期コンテンツ情報生成装置および同期コンテンツ情報生成方法 |
US7634398B2 (en) * | 2002-05-16 | 2009-12-15 | Microsoft Corporation | Method and apparatus for reattaching nodes in a parse structure |
US7805302B2 (en) * | 2002-05-20 | 2010-09-28 | Microsoft Corporation | Applying a structured language model to information extraction |
WO2004018628A2 (en) | 2002-08-21 | 2004-03-04 | Northwestern University | Charged peptide-amphiphile solutions & self-assembled peptide nanofiber networks formed therefrom |
US7305336B2 (en) * | 2002-08-30 | 2007-12-04 | Fuji Xerox Co., Ltd. | System and method for summarization combining natural language generation with structural analysis |
DE10337934A1 (de) * | 2002-09-30 | 2004-04-08 | Siemens Ag | Verfahren und Vorrichtung zur Strukturierung von Texten |
US7554021B2 (en) | 2002-11-12 | 2009-06-30 | Northwestern University | Composition and method for self-assembly and mineralization of peptide amphiphiles |
US7683025B2 (en) | 2002-11-14 | 2010-03-23 | Northwestern University | Synthesis and self-assembly of ABC triblock bola peptide amphiphiles |
CA2506015A1 (en) * | 2002-11-14 | 2004-06-03 | Educational Testing Service | Automated evaluation of overly repetitive word use in an essay |
US20040167910A1 (en) * | 2002-12-06 | 2004-08-26 | Attensity Corporation | Integrated data products of processes of integrating mixed format data |
AU2004210853A1 (en) * | 2003-02-11 | 2004-08-26 | Northwestern University | Methods and materials for nanocrystalline surface coatings and attachment of peptide amphiphile nanofibers thereon |
US20040230415A1 (en) * | 2003-05-12 | 2004-11-18 | Stefan Riezler | Systems and methods for grammatical text condensation |
US8548794B2 (en) * | 2003-07-02 | 2013-10-01 | University Of Southern California | Statistical noun phrase translation |
US7711545B2 (en) * | 2003-07-02 | 2010-05-04 | Language Weaver, Inc. | Empirical methods for splitting compound words with application to machine translation |
JP2005100335A (ja) * | 2003-09-01 | 2005-04-14 | Advanced Telecommunication Research Institute International | 機械翻訳装置、機械翻訳コンピュータプログラム及びコンピュータ |
JP3919771B2 (ja) * | 2003-09-09 | 2007-05-30 | 株式会社国際電気通信基礎技術研究所 | 機械翻訳システム、その制御装置、及びコンピュータプログラム |
US7610190B2 (en) * | 2003-10-15 | 2009-10-27 | Fuji Xerox Co., Ltd. | Systems and methods for hybrid text summarization |
AU2004297211A1 (en) * | 2003-12-05 | 2005-06-23 | Northwestern University | Branched peptide amphiphiles, related epitope compounds and self assembled structures thereof |
CN102225964A (zh) * | 2003-12-05 | 2011-10-26 | 西北大学 | 自组装的肽两亲物和用于生长因子传递的相关方法 |
US20050138556A1 (en) * | 2003-12-18 | 2005-06-23 | Xerox Corporation | Creation of normalized summaries using common domain models for input text analysis and output text generation |
US7657420B2 (en) * | 2003-12-19 | 2010-02-02 | Palo Alto Research Center Incorporated | Systems and methods for the generation of alternate phrases from packed meaning |
US8037102B2 (en) * | 2004-02-09 | 2011-10-11 | Robert T. and Virginia T. Jenkins | Manipulating sets of hierarchical data |
US20050187772A1 (en) * | 2004-02-25 | 2005-08-25 | Fuji Xerox Co., Ltd. | Systems and methods for synthesizing speech using discourse function level prosodic features |
US7983896B2 (en) | 2004-03-05 | 2011-07-19 | SDL Language Technology | In-context exact (ICE) matching |
US8296127B2 (en) | 2004-03-23 | 2012-10-23 | University Of Southern California | Discovery of parallel text portions in comparable collections of corpora and training using comparable texts |
US20050221266A1 (en) * | 2004-04-02 | 2005-10-06 | Mislevy Robert J | System and method for assessment design |
US20050256848A1 (en) * | 2004-05-13 | 2005-11-17 | International Business Machines Corporation | System and method for user rank search |
US9646107B2 (en) * | 2004-05-28 | 2017-05-09 | Robert T. and Virginia T. Jenkins as Trustee of the Jenkins Family Trust | Method and/or system for simplifying tree expressions such as for query reduction |
US7562008B2 (en) * | 2004-06-23 | 2009-07-14 | Ning-Ping Chan | Machine translation method and system that decomposes complex sentences into two or more sentences |
US7620632B2 (en) * | 2004-06-30 | 2009-11-17 | Skyler Technology, Inc. | Method and/or system for performing tree matching |
US7882147B2 (en) * | 2004-06-30 | 2011-02-01 | Robert T. and Virginia T. Jenkins | File location naming hierarchy |
US8768969B2 (en) * | 2004-07-09 | 2014-07-01 | Nuance Communications, Inc. | Method and system for efficient representation, manipulation, communication, and search of hierarchical composite named entities |
US7599914B2 (en) * | 2004-07-26 | 2009-10-06 | Google Inc. | Phrase-based searching in an information retrieval system |
US7580921B2 (en) * | 2004-07-26 | 2009-08-25 | Google Inc. | Phrase identification in an information retrieval system |
US7711679B2 (en) | 2004-07-26 | 2010-05-04 | Google Inc. | Phrase-based detection of duplicate documents in an information retrieval system |
US7580929B2 (en) * | 2004-07-26 | 2009-08-25 | Google Inc. | Phrase-based personalization of searches in an information retrieval system |
US7567959B2 (en) | 2004-07-26 | 2009-07-28 | Google Inc. | Multiple index based information retrieval system |
JP2006039120A (ja) * | 2004-07-26 | 2006-02-09 | Sony Corp | 対話装置および対話方法、並びにプログラムおよび記録媒体 |
US7702618B1 (en) * | 2004-07-26 | 2010-04-20 | Google Inc. | Information retrieval system for archiving multiple document versions |
US7426507B1 (en) | 2004-07-26 | 2008-09-16 | Google, Inc. | Automatic taxonomy generation in search results using phrases |
US7536408B2 (en) * | 2004-07-26 | 2009-05-19 | Google Inc. | Phrase-based indexing in an information retrieval system |
US7584175B2 (en) * | 2004-07-26 | 2009-09-01 | Google Inc. | Phrase-based generation of document descriptions |
US8600728B2 (en) | 2004-10-12 | 2013-12-03 | University Of Southern California | Training for a text-to-text application which uses string to tree conversion for training and decoding |
US7801923B2 (en) * | 2004-10-29 | 2010-09-21 | Robert T. and Virginia T. Jenkins as Trustees of the Jenkins Family Trust | Method and/or system for tagging trees |
US7627591B2 (en) * | 2004-10-29 | 2009-12-01 | Skyler Technology, Inc. | Method and/or system for manipulating tree expressions |
US7970600B2 (en) * | 2004-11-03 | 2011-06-28 | Microsoft Corporation | Using a first natural language parser to train a second parser |
US7801723B2 (en) * | 2004-11-30 | 2010-09-21 | Palo Alto Research Center Incorporated | Systems and methods for user-interest sensitive condensation |
US7827029B2 (en) * | 2004-11-30 | 2010-11-02 | Palo Alto Research Center Incorporated | Systems and methods for user-interest sensitive note-taking |
US7636727B2 (en) | 2004-12-06 | 2009-12-22 | Skyler Technology, Inc. | Enumeration of trees from finite number of nodes |
US7630995B2 (en) | 2004-11-30 | 2009-12-08 | Skyler Technology, Inc. | Method and/or system for transmitting and/or receiving data |
US20060155530A1 (en) * | 2004-12-14 | 2006-07-13 | International Business Machines Corporation | Method and apparatus for generation of text documents |
US7401077B2 (en) * | 2004-12-21 | 2008-07-15 | Palo Alto Research Center Incorporated | Systems and methods for using and constructing user-interest sensitive indicators of search results |
US8316059B1 (en) | 2004-12-30 | 2012-11-20 | Robert T. and Virginia T. Jenkins | Enumeration of rooted partial subtrees |
JP4301515B2 (ja) * | 2005-01-04 | 2009-07-22 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 文章表示方法、情報処理装置、情報処理システム、プログラム |
WO2006079036A2 (en) * | 2005-01-21 | 2006-07-27 | Northwestern University | Methods and compositions for encapsulation of cells |
US8615530B1 (en) | 2005-01-31 | 2013-12-24 | Robert T. and Virginia T. Jenkins as Trustees for the Jenkins Family Trust | Method and/or system for tree transformation |
US8202098B2 (en) * | 2005-02-28 | 2012-06-19 | Educational Testing Service | Method of model scaling for an automated essay scoring system |
US7681177B2 (en) * | 2005-02-28 | 2010-03-16 | Skyler Technology, Inc. | Method and/or system for transforming between trees and strings |
KR20070108555A (ko) * | 2005-03-04 | 2007-11-12 | 노오쓰웨스턴 유니버시티 | 혈관신생 헤파린 결합 펩티드 양친매성 화합물 |
JP4050755B2 (ja) * | 2005-03-30 | 2008-02-20 | 株式会社東芝 | コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム |
US8356040B2 (en) | 2005-03-31 | 2013-01-15 | Robert T. and Virginia T. Jenkins | Method and/or system for transforming between trees and arrays |
US7899821B1 (en) | 2005-04-29 | 2011-03-01 | Karl Schiffmann | Manipulation and/or analysis of hierarchical data |
US20060277028A1 (en) * | 2005-06-01 | 2006-12-07 | Microsoft Corporation | Training a statistical parser on noisy data by filtering |
US8886517B2 (en) | 2005-06-17 | 2014-11-11 | Language Weaver, Inc. | Trust scoring for language translation systems |
EP1894125A4 (en) * | 2005-06-17 | 2015-12-02 | Nat Res Council Canada | MEANS AND METHOD FOR ADAPTED LANGUAGE TRANSLATION |
US20070010989A1 (en) * | 2005-07-07 | 2007-01-11 | International Business Machines Corporation | Decoding procedure for statistical machine translation |
US7779396B2 (en) * | 2005-08-10 | 2010-08-17 | Microsoft Corporation | Syntactic program language translation |
US8924212B1 (en) * | 2005-08-26 | 2014-12-30 | At&T Intellectual Property Ii, L.P. | System and method for robust access and entry to large structured data using voice form-filling |
US20070192309A1 (en) * | 2005-10-12 | 2007-08-16 | Gordon Fischer | Method and system for identifying sentence boundaries |
US9165039B2 (en) * | 2005-11-29 | 2015-10-20 | Kang Jo Mgmt, Limited Liability Company | Methods and systems for providing personalized contextual search results |
US8416713B2 (en) * | 2006-03-06 | 2013-04-09 | Koninklijke Philips Electronics N.V. | Use of decision trees for automatic commissioning |
US7552047B2 (en) * | 2006-05-02 | 2009-06-23 | International Business Machines Corporation | Instance-based sentence boundary determination by optimization |
US9047275B2 (en) | 2006-10-10 | 2015-06-02 | Abbyy Infopoisk Llc | Methods and systems for alignment of parallel text corpora |
US9645993B2 (en) | 2006-10-10 | 2017-05-09 | Abbyy Infopoisk Llc | Method and system for semantic searching |
US9235573B2 (en) | 2006-10-10 | 2016-01-12 | Abbyy Infopoisk Llc | Universal difference measure |
US8195447B2 (en) | 2006-10-10 | 2012-06-05 | Abbyy Software Ltd. | Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions |
US8214199B2 (en) * | 2006-10-10 | 2012-07-03 | Abbyy Software, Ltd. | Systems for translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions |
US9633005B2 (en) | 2006-10-10 | 2017-04-25 | Abbyy Infopoisk Llc | Exhaustive automatic processing of textual information |
US9984071B2 (en) | 2006-10-10 | 2018-05-29 | Abbyy Production Llc | Language ambiguity detection of text |
US8548795B2 (en) * | 2006-10-10 | 2013-10-01 | Abbyy Software Ltd. | Method for translating documents from one language into another using a database of translations, a terminology dictionary, a translation dictionary, and a machine translation system |
US20080086298A1 (en) * | 2006-10-10 | 2008-04-10 | Anisimovich Konstantin | Method and system for translating sentences between langauges |
US8145473B2 (en) * | 2006-10-10 | 2012-03-27 | Abbyy Software Ltd. | Deep model statistics method for machine translation |
JP5082374B2 (ja) * | 2006-10-19 | 2012-11-28 | 富士通株式会社 | フレーズアラインメントプログラム、翻訳プログラム、フレーズアラインメント装置およびフレーズアラインメント方法 |
US8433556B2 (en) | 2006-11-02 | 2013-04-30 | University Of Southern California | Semi-supervised training for statistical word alignment |
JP4997966B2 (ja) * | 2006-12-28 | 2012-08-15 | 富士通株式会社 | 対訳例文検索プログラム、対訳例文検索装置、および対訳例文検索方法 |
US8468149B1 (en) | 2007-01-26 | 2013-06-18 | Language Weaver, Inc. | Multi-lingual online community |
US7895030B2 (en) * | 2007-03-16 | 2011-02-22 | International Business Machines Corporation | Visualization method for machine translation |
US8615389B1 (en) | 2007-03-16 | 2013-12-24 | Language Weaver, Inc. | Generation and exploitation of an approximate language model |
US8959011B2 (en) | 2007-03-22 | 2015-02-17 | Abbyy Infopoisk Llc | Indicating and correcting errors in machine translation systems |
US7702614B1 (en) | 2007-03-30 | 2010-04-20 | Google Inc. | Index updating using segment swapping |
US7925655B1 (en) | 2007-03-30 | 2011-04-12 | Google Inc. | Query scheduling using hierarchical tiers of index servers |
US8166045B1 (en) | 2007-03-30 | 2012-04-24 | Google Inc. | Phrase extraction using subphrase scoring |
US7693813B1 (en) | 2007-03-30 | 2010-04-06 | Google Inc. | Index server architecture using tiered and sharded phrase posting lists |
US8086594B1 (en) | 2007-03-30 | 2011-12-27 | Google Inc. | Bifurcated document relevance scoring |
US8166021B1 (en) | 2007-03-30 | 2012-04-24 | Google Inc. | Query phrasification |
US7908552B2 (en) * | 2007-04-13 | 2011-03-15 | A-Life Medical Inc. | Mere-parsing with boundary and semantic driven scoping |
US8076295B2 (en) * | 2007-04-17 | 2011-12-13 | Nanotope, Inc. | Peptide amphiphiles having improved solubility and methods of using same |
US7925496B1 (en) * | 2007-04-23 | 2011-04-12 | The United States Of America As Represented By The Secretary Of The Navy | Method for summarizing natural language text |
US7877251B2 (en) * | 2007-05-07 | 2011-01-25 | Microsoft Corporation | Document translation system |
US9779079B2 (en) * | 2007-06-01 | 2017-10-03 | Xerox Corporation | Authoring system |
US8452585B2 (en) * | 2007-06-21 | 2013-05-28 | Microsoft Corporation | Discriminative syntactic word order model for machine translation |
US8812296B2 (en) | 2007-06-27 | 2014-08-19 | Abbyy Infopoisk Llc | Method and system for natural language dictionary generation |
JP5256654B2 (ja) * | 2007-06-29 | 2013-08-07 | 富士通株式会社 | 文章分割プログラム、文章分割装置および文章分割方法 |
US8103498B2 (en) * | 2007-08-10 | 2012-01-24 | Microsoft Corporation | Progressive display rendering of processed text |
US8117223B2 (en) | 2007-09-07 | 2012-02-14 | Google Inc. | Integrating external related phrase information into a phrase-based indexing information retrieval system |
US8229728B2 (en) * | 2008-01-04 | 2012-07-24 | Fluential, Llc | Methods for using manual phrase alignment data to generate translation models for statistical machine translation |
US20120284015A1 (en) * | 2008-01-28 | 2012-11-08 | William Drewes | Method for Increasing the Accuracy of Subject-Specific Statistical Machine Translation (SMT) |
US8666729B1 (en) | 2010-02-10 | 2014-03-04 | West Corporation | Processing natural language grammar |
US8738360B2 (en) | 2008-06-06 | 2014-05-27 | Apple Inc. | Data detection of a character sequence having multiple possible data types |
US9411800B2 (en) * | 2008-06-27 | 2016-08-09 | Microsoft Technology Licensing, Llc | Adaptive generation of out-of-dictionary personalized long words |
US9262409B2 (en) | 2008-08-06 | 2016-02-16 | Abbyy Infopoisk Llc | Translation of a selected text fragment of a screen |
US9129601B2 (en) * | 2008-11-26 | 2015-09-08 | At&T Intellectual Property I, L.P. | System and method for dialog modeling |
US8244519B2 (en) * | 2008-12-03 | 2012-08-14 | Xerox Corporation | Dynamic translation memory using statistical machine translation |
US20100169359A1 (en) * | 2008-12-30 | 2010-07-01 | Barrett Leslie A | System, Method, and Apparatus for Information Extraction of Textual Documents |
US8450271B2 (en) * | 2009-04-13 | 2013-05-28 | Northwestern University | Peptide-based scaffolds for cartilage regeneration and methods for their use |
CN101996166B (zh) * | 2009-08-14 | 2015-08-05 | 张龙哺 | 双语句对模式化记录方法以及翻译方法和翻译系统 |
US8380486B2 (en) | 2009-10-01 | 2013-02-19 | Language Weaver, Inc. | Providing machine-generated translations and corresponding trust levels |
US8788260B2 (en) * | 2010-05-11 | 2014-07-22 | Microsoft Corporation | Generating snippets based on content features |
US8594998B2 (en) * | 2010-07-30 | 2013-11-26 | Ben-Gurion University Of The Negev Research And Development Authority | Multilingual sentence extractor |
JP2012063868A (ja) * | 2010-09-14 | 2012-03-29 | Internatl Business Mach Corp <Ibm> | 言語処理パーサーを組み合わせて、組み合わせパーサーを生成する方法、並びにそのコンピュータ及びコンピュータ・プログラム |
US20120109945A1 (en) * | 2010-10-29 | 2012-05-03 | Emilia Maria Lapko | Method and system of improving navigation within a set of electronic documents |
US9710429B1 (en) * | 2010-11-12 | 2017-07-18 | Google Inc. | Providing text resources updated with translation input from multiple users |
US9317595B2 (en) * | 2010-12-06 | 2016-04-19 | Yahoo! Inc. | Fast title/summary extraction from long descriptions |
US20120143593A1 (en) * | 2010-12-07 | 2012-06-07 | Microsoft Corporation | Fuzzy matching and scoring based on direct alignment |
US9720899B1 (en) | 2011-01-07 | 2017-08-01 | Narrative Science, Inc. | Automatic generation of narratives from data using communication goals and narrative analytics |
US10185477B1 (en) | 2013-03-15 | 2019-01-22 | Narrative Science Inc. | Method and system for configuring automatic generation of narratives from data |
US10657540B2 (en) | 2011-01-29 | 2020-05-19 | Sdl Netherlands B.V. | Systems, methods, and media for web content management |
US9547626B2 (en) | 2011-01-29 | 2017-01-17 | Sdl Plc | Systems, methods, and media for managing ambient adaptability of web applications and web services |
US10580015B2 (en) | 2011-02-25 | 2020-03-03 | Sdl Netherlands B.V. | Systems, methods, and media for executing and optimizing online marketing initiatives |
US10140320B2 (en) | 2011-02-28 | 2018-11-27 | Sdl Inc. | Systems, methods, and media for generating analytical data |
US9984054B2 (en) | 2011-08-24 | 2018-05-29 | Sdl Inc. | Web interface including the review and manipulation of a web document and utilizing permission based control |
US8914279B1 (en) * | 2011-09-23 | 2014-12-16 | Google Inc. | Efficient parsing with structured prediction cascades |
US8886515B2 (en) | 2011-10-19 | 2014-11-11 | Language Weaver, Inc. | Systems and methods for enhancing machine translation post edit review processes |
KR101475284B1 (ko) * | 2011-11-29 | 2014-12-23 | 에스케이텔레콤 주식회사 | 작문 자동 평가를 위해 샬로우 파서를 이용한 오류 검출 장치 및 방법 |
US8903707B2 (en) | 2012-01-12 | 2014-12-02 | International Business Machines Corporation | Predicting pronouns of dropped pronoun style languages for natural language translation |
US20150161109A1 (en) * | 2012-01-13 | 2015-06-11 | Google Inc. | Reordering words for machine translation |
CN102662935A (zh) * | 2012-04-08 | 2012-09-12 | 北京语智云帆科技有限公司 | 一种交互式的机器翻译方法和机器翻译系统 |
US8971630B2 (en) | 2012-04-27 | 2015-03-03 | Abbyy Development Llc | Fast CJK character recognition |
US8989485B2 (en) | 2012-04-27 | 2015-03-24 | Abbyy Development Llc | Detecting a junction in a text line of CJK characters |
US9773270B2 (en) | 2012-05-11 | 2017-09-26 | Fredhopper B.V. | Method and system for recommending products based on a ranking cocktail |
US20150205786A1 (en) * | 2012-07-31 | 2015-07-23 | Nec Corporation | Problem situation detection device, problem situation detection method and problem situation detection-use program |
US11386186B2 (en) | 2012-09-14 | 2022-07-12 | Sdl Netherlands B.V. | External content library connector systems and methods |
US11308528B2 (en) | 2012-09-14 | 2022-04-19 | Sdl Netherlands B.V. | Blueprinting of multimedia assets |
US10452740B2 (en) | 2012-09-14 | 2019-10-22 | Sdl Netherlands B.V. | External content libraries |
US9336185B1 (en) * | 2012-09-18 | 2016-05-10 | Amazon Technologies, Inc. | Generating an electronic publication sample |
US9916306B2 (en) | 2012-10-19 | 2018-03-13 | Sdl Inc. | Statistical linguistic analysis of source content |
CN102999486B (zh) * | 2012-11-16 | 2016-12-21 | 沈阳雅译网络技术有限公司 | 基于组合的短语规则抽取方法 |
CN105808076A (zh) * | 2012-12-14 | 2016-07-27 | 中兴通讯股份有限公司 | 一种浏览器书签的设置方法、装置及终端 |
US9031829B2 (en) | 2013-02-08 | 2015-05-12 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US8996352B2 (en) * | 2013-02-08 | 2015-03-31 | Machine Zone, Inc. | Systems and methods for correcting translations in multi-user multi-lingual communications |
US10650103B2 (en) | 2013-02-08 | 2020-05-12 | Mz Ip Holdings, Llc | Systems and methods for incentivizing user feedback for translation processing |
US9298703B2 (en) | 2013-02-08 | 2016-03-29 | Machine Zone, Inc. | Systems and methods for incentivizing user feedback for translation processing |
US9600473B2 (en) | 2013-02-08 | 2017-03-21 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US9231898B2 (en) | 2013-02-08 | 2016-01-05 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US9501506B1 (en) | 2013-03-15 | 2016-11-22 | Google Inc. | Indexing system |
US9483568B1 (en) | 2013-06-05 | 2016-11-01 | Google Inc. | Indexing system |
US9355372B2 (en) | 2013-07-03 | 2016-05-31 | Thomson Reuters Global Resources | Method and system for simplifying implicit rhetorical relation prediction in large scale annotated corpus |
CA2917153C (en) * | 2013-07-03 | 2022-05-17 | Thomson Reuters Global Resources | Method and system for simplifying implicit rhetorical relation prediction in large scale annotated corpus |
US9336186B1 (en) * | 2013-10-10 | 2016-05-10 | Google Inc. | Methods and apparatus related to sentence compression |
JP6226321B2 (ja) * | 2013-10-23 | 2017-11-08 | 株式会社サン・フレア | 翻訳支援システム、翻訳支援システムのサーバー、翻訳支援システムのクライアント、翻訳支援システムの制御方法、及びそのプログラム |
KR102256291B1 (ko) * | 2013-11-15 | 2021-05-27 | 삼성전자 주식회사 | 번역 상황을 인지하고 번역 기능을 수행하는 방법 및 이를 구현하는 전자장치 |
RU2592395C2 (ru) | 2013-12-19 | 2016-07-20 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Разрешение семантической неоднозначности при помощи статистического анализа |
CN103645931B (zh) * | 2013-12-25 | 2016-06-22 | 盛杰 | 代码转换的方法及装置 |
RU2586577C2 (ru) | 2014-01-15 | 2016-06-10 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Фильтрация дуг в синтаксическом графе |
US11334720B2 (en) | 2019-04-17 | 2022-05-17 | International Business Machines Corporation | Machine learned sentence span inclusion judgments |
EP3155542A4 (en) | 2014-06-11 | 2017-10-18 | Hewlett-Packard Development Company, L.P. | Functional summarization of non-textual content based on a meta-algorithmic pattern |
US9582501B1 (en) * | 2014-06-16 | 2017-02-28 | Yseop Sa | Techniques for automatic generation of natural language text |
US9524293B2 (en) | 2014-08-15 | 2016-12-20 | Google Inc. | Techniques for automatically swapping languages and/or content for machine translation |
RU2596600C2 (ru) | 2014-09-02 | 2016-09-10 | Общество с ограниченной ответственностью "Аби Девелопмент" | Способы и системы обработки изображений математических выражений |
US9372848B2 (en) | 2014-10-17 | 2016-06-21 | Machine Zone, Inc. | Systems and methods for language detection |
US10162811B2 (en) | 2014-10-17 | 2018-12-25 | Mz Ip Holdings, Llc | Systems and methods for language detection |
US11922344B2 (en) | 2014-10-22 | 2024-03-05 | Narrative Science Llc | Automatic generation of narratives from data using communication goals and narrative analytics |
US11341338B1 (en) | 2016-08-31 | 2022-05-24 | Narrative Science Inc. | Applied artificial intelligence technology for interactively using narrative analytics to focus and control visualizations of data |
US11238090B1 (en) | 2015-11-02 | 2022-02-01 | Narrative Science Inc. | Applied artificial intelligence technology for using narrative analytics to automatically generate narratives from visualization data |
US9626358B2 (en) | 2014-11-26 | 2017-04-18 | Abbyy Infopoisk Llc | Creating ontologies by analyzing natural language texts |
US10333696B2 (en) | 2015-01-12 | 2019-06-25 | X-Prime, Inc. | Systems and methods for implementing an efficient, scalable homomorphic transformation of encrypted data with minimal data expansion and improved processing efficiency |
JP6607482B2 (ja) * | 2015-02-02 | 2019-11-20 | 国立研究開発法人情報通信研究機構 | 構文解析装置、学習装置、機械翻訳装置、およびプログラム |
US9767193B2 (en) * | 2015-03-27 | 2017-09-19 | Fujitsu Limited | Generation apparatus and method |
JP6565262B2 (ja) * | 2015-03-27 | 2019-08-28 | 富士通株式会社 | 短縮文生成装置、方法、及びプログラム |
CN105117389B (zh) * | 2015-07-28 | 2018-01-19 | 百度在线网络技术(北京)有限公司 | 翻译方法和装置 |
CN106484682B (zh) | 2015-08-25 | 2019-06-25 | 阿里巴巴集团控股有限公司 | 基于统计的机器翻译方法、装置及电子设备 |
CN106484681B (zh) | 2015-08-25 | 2019-07-09 | 阿里巴巴集团控股有限公司 | 一种生成候选译文的方法、装置及电子设备 |
US10586168B2 (en) | 2015-10-08 | 2020-03-10 | Facebook, Inc. | Deep translations |
US9990361B2 (en) * | 2015-10-08 | 2018-06-05 | Facebook, Inc. | Language independent representations |
US10614167B2 (en) | 2015-10-30 | 2020-04-07 | Sdl Plc | Translation review workflow systems and methods |
US11188588B1 (en) | 2015-11-02 | 2021-11-30 | Narrative Science Inc. | Applied artificial intelligence technology for using narrative analytics to interactively generate narratives from visualization data |
US11232268B1 (en) | 2015-11-02 | 2022-01-25 | Narrative Science Inc. | Applied artificial intelligence technology for using narrative analytics to automatically generate narratives from line charts |
US11222184B1 (en) | 2015-11-02 | 2022-01-11 | Narrative Science Inc. | Applied artificial intelligence technology for using narrative analytics to automatically generate narratives from bar charts |
US10765956B2 (en) | 2016-01-07 | 2020-09-08 | Machine Zone Inc. | Named entity recognition on chat data |
CN106021239B (zh) * | 2016-04-29 | 2018-10-26 | 北京创鑫旅程网络技术有限公司 | 一种翻译质量实时评价方法 |
US10346548B1 (en) * | 2016-09-26 | 2019-07-09 | Lilt, Inc. | Apparatus and method for prefix-constrained decoding in a neural machine translation system |
US10261995B1 (en) | 2016-09-28 | 2019-04-16 | Amazon Technologies, Inc. | Semantic and natural language processing for content categorization and routing |
US10235362B1 (en) * | 2016-09-28 | 2019-03-19 | Amazon Technologies, Inc. | Continuous translation refinement with automated delivery of re-translated content |
US10275459B1 (en) | 2016-09-28 | 2019-04-30 | Amazon Technologies, Inc. | Source language content scoring for localizability |
KR102130429B1 (ko) * | 2016-11-07 | 2020-07-07 | 한화테크윈 주식회사 | 멀티미디어 수신 장치에서 디코딩을 수행하는 방법 및 멀티미디어 장치 |
CA3042293A1 (en) * | 2016-11-17 | 2018-05-24 | Goldman Sachs & Co. LLC | System and method for coupled detection of syntax and semantics for natural language understanding and generation |
US11568148B1 (en) | 2017-02-17 | 2023-01-31 | Narrative Science Inc. | Applied artificial intelligence technology for narrative generation based on explanation communication goals |
US10943069B1 (en) | 2017-02-17 | 2021-03-09 | Narrative Science Inc. | Applied artificial intelligence technology for narrative generation based on a conditional outcome framework |
US11068661B1 (en) | 2017-02-17 | 2021-07-20 | Narrative Science Inc. | Applied artificial intelligence technology for narrative generation based on smart attributes |
US10755053B1 (en) | 2017-02-17 | 2020-08-25 | Narrative Science Inc. | Applied artificial intelligence technology for story outline formation using composable communication goals to support natural language generation (NLG) |
US11954445B2 (en) | 2017-02-17 | 2024-04-09 | Narrative Science Llc | Applied artificial intelligence technology for narrative generation based on explanation communication goals |
US11386274B2 (en) * | 2017-05-10 | 2022-07-12 | Oracle International Corporation | Using communicative discourse trees to detect distributed incompetence |
US10796102B2 (en) * | 2017-05-10 | 2020-10-06 | Oracle International Corporation | Enabling rhetorical analysis via the use of communicative discourse trees |
US12001804B2 (en) * | 2017-05-10 | 2024-06-04 | Oracle International Corporation | Using communicative discourse trees to detect distributed incompetence |
US11960844B2 (en) * | 2017-05-10 | 2024-04-16 | Oracle International Corporation | Discourse parsing using semantic and syntactic relations |
US10599885B2 (en) * | 2017-05-10 | 2020-03-24 | Oracle International Corporation | Utilizing discourse structure of noisy user-generated content for chatbot learning |
US10839154B2 (en) * | 2017-05-10 | 2020-11-17 | Oracle International Corporation | Enabling chatbots by detecting and supporting affective argumentation |
US10817670B2 (en) * | 2017-05-10 | 2020-10-27 | Oracle International Corporation | Enabling chatbots by validating argumentation |
US10679011B2 (en) * | 2017-05-10 | 2020-06-09 | Oracle International Corporation | Enabling chatbots by detecting and supporting argumentation |
US11586827B2 (en) * | 2017-05-10 | 2023-02-21 | Oracle International Corporation | Generating desired discourse structure from an arbitrary text |
US11373632B2 (en) * | 2017-05-10 | 2022-06-28 | Oracle International Corporation | Using communicative discourse trees to create a virtual persuasive dialogue |
US11615145B2 (en) | 2017-05-10 | 2023-03-28 | Oracle International Corporation | Converting a document into a chatbot-accessible form via the use of communicative discourse trees |
US11100144B2 (en) | 2017-06-15 | 2021-08-24 | Oracle International Corporation | Data loss prevention system for cloud security based on document discourse analysis |
US10839161B2 (en) * | 2017-06-15 | 2020-11-17 | Oracle International Corporation | Tree kernel learning for text classification into classes of intent |
US10417350B1 (en) | 2017-08-28 | 2019-09-17 | Amazon Technologies, Inc. | Artificial intelligence system for automated adaptation of text-based classification models for multiple languages |
WO2019060353A1 (en) | 2017-09-21 | 2019-03-28 | Mz Ip Holdings, Llc | SYSTEM AND METHOD FOR TRANSLATION OF KEYBOARD MESSAGES |
US11182412B2 (en) * | 2017-09-27 | 2021-11-23 | Oracle International Corporation | Search indexing using discourse trees |
WO2019067878A1 (en) | 2017-09-28 | 2019-04-04 | Oracle International Corporation | ACTIVATION OF AUTONOMOUS AGENTS TO DISTINGUISH QUESTIONS AND DEMANDS |
US11809825B2 (en) | 2017-09-28 | 2023-11-07 | Oracle International Corporation | Management of a focused information sharing dialogue based on discourse trees |
US10853574B2 (en) | 2017-09-28 | 2020-12-01 | Oracle International Corporation | Navigating electronic documents using domain discourse trees |
US10635863B2 (en) | 2017-10-30 | 2020-04-28 | Sdl Inc. | Fragment recall and adaptive automated translation |
WO2019107623A1 (ko) * | 2017-11-30 | 2019-06-06 | 주식회사 시스트란인터내셔널 | 기계 번역 방법 및 이를 위한 장치 |
US10817676B2 (en) | 2017-12-27 | 2020-10-27 | Sdl Inc. | Intelligent routing services and systems |
US11042708B1 (en) | 2018-01-02 | 2021-06-22 | Narrative Science Inc. | Context saliency-based deictic parser for natural language generation |
US10963649B1 (en) | 2018-01-17 | 2021-03-30 | Narrative Science Inc. | Applied artificial intelligence technology for narrative generation using an invocable analysis service and configuration-driven analytics |
CN111670435A (zh) | 2018-01-30 | 2020-09-15 | 甲骨文国际公司 | 使用交流话语树来检测对解释的请求 |
US11537645B2 (en) | 2018-01-30 | 2022-12-27 | Oracle International Corporation | Building dialogue structure by using communicative discourse trees |
EP3769238A4 (en) * | 2018-03-19 | 2022-01-26 | Coffing, Daniel L. | PROCESSING OF ARGUMENTS AND PROPOSITIONS IN NATURAL LANGUAGE |
WO2019217722A1 (en) * | 2018-05-09 | 2019-11-14 | Oracle International Corporation | Constructing imaginary discourse trees to improve answering convergent questions |
US11455494B2 (en) | 2018-05-30 | 2022-09-27 | Oracle International Corporation | Automated building of expanded datasets for training of autonomous agents |
US11042713B1 (en) | 2018-06-28 | 2021-06-22 | Narrative Scienc Inc. | Applied artificial intelligence technology for using natural language processing to train a natural language generation system |
US11645459B2 (en) * | 2018-07-02 | 2023-05-09 | Oracle International Corporation | Social autonomous agent implementation using lattice queries and relevancy detection |
EP3847643A4 (en) | 2018-09-06 | 2022-04-20 | Coffing, Daniel L. | DIALOG GUIDANCE PROVIDING SYSTEM |
WO2020056409A1 (en) | 2018-09-14 | 2020-03-19 | Coffing Daniel L | Fact management system |
US11256867B2 (en) | 2018-10-09 | 2022-02-22 | Sdl Inc. | Systems and methods of machine learning for digital assets and message creation |
US11562135B2 (en) | 2018-10-16 | 2023-01-24 | Oracle International Corporation | Constructing conclusive answers for autonomous agents |
CN109710952B (zh) * | 2018-12-27 | 2023-06-16 | 北京百度网讯科技有限公司 | 基于人工智能的翻译历史检索方法、装置、设备和介质 |
US11341330B1 (en) | 2019-01-28 | 2022-05-24 | Narrative Science Inc. | Applied artificial intelligence technology for adaptive natural language understanding with term discovery |
US11321536B2 (en) * | 2019-02-13 | 2022-05-03 | Oracle International Corporation | Chatbot conducting a virtual social dialogue |
CN110069624B (zh) * | 2019-04-28 | 2021-05-04 | 北京小米智能科技有限公司 | 文本处理方法及装置 |
US11275892B2 (en) | 2019-04-29 | 2022-03-15 | International Business Machines Corporation | Traversal-based sentence span judgements |
US11263394B2 (en) * | 2019-08-02 | 2022-03-01 | Adobe Inc. | Low-resource sentence compression system |
US11449682B2 (en) | 2019-08-29 | 2022-09-20 | Oracle International Corporation | Adjusting chatbot conversation to user personality and mood |
US11599731B2 (en) * | 2019-10-02 | 2023-03-07 | Oracle International Corporation | Generating recommendations by using communicative discourse trees of conversations |
US11556698B2 (en) * | 2019-10-22 | 2023-01-17 | Oracle International Corporation | Augmenting textual explanations with complete discourse trees |
US11580298B2 (en) | 2019-11-14 | 2023-02-14 | Oracle International Corporation | Detecting hypocrisy in text |
US11501085B2 (en) | 2019-11-20 | 2022-11-15 | Oracle International Corporation | Employing abstract meaning representation to lay the last mile towards reading comprehension |
US11775772B2 (en) | 2019-12-05 | 2023-10-03 | Oracle International Corporation | Chatbot providing a defeating reply |
CN111104807B (zh) * | 2019-12-06 | 2024-05-24 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和电子设备 |
US11847420B2 (en) | 2020-03-05 | 2023-12-19 | Oracle International Corporation | Conversational explainability |
US11074402B1 (en) * | 2020-04-07 | 2021-07-27 | International Business Machines Corporation | Linguistically consistent document annotation |
US11475210B2 (en) * | 2020-08-31 | 2022-10-18 | Twilio Inc. | Language model for abstractive summarization |
US11822892B2 (en) * | 2020-12-16 | 2023-11-21 | International Business Machines Corporation | Automated natural language splitting for generation of knowledge graphs |
US11765267B2 (en) | 2020-12-31 | 2023-09-19 | Twilio Inc. | Tool for annotating and reviewing audio conversations |
CN112784612B (zh) * | 2021-01-26 | 2023-12-22 | 浙江香侬慧语科技有限责任公司 | 基于迭代修改的同步机器翻译的方法、装置、介质及设备 |
US11809804B2 (en) | 2021-05-26 | 2023-11-07 | Twilio Inc. | Text formatter |
CN113705158B (zh) * | 2021-09-26 | 2024-05-24 | 上海一者信息科技有限公司 | 一种文档翻译中智能还原原文样式的方法 |
WO2023212524A1 (en) * | 2022-04-25 | 2023-11-02 | Gyan, Inc. (A Delaware Corporation) | An explainable natural language understanding platform |
CN115795039B (zh) * | 2023-02-08 | 2023-06-02 | 成都索贝数码科技股份有限公司 | 基于深度学习的风格标题生成方法、设备及介质 |
US11995414B1 (en) * | 2023-08-28 | 2024-05-28 | Sdl Inc. | Automatic post-editing systems and methods |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61217871A (ja) * | 1985-03-25 | 1986-09-27 | Toshiba Corp | 翻訳処理装置 |
DE3616751A1 (de) * | 1985-05-20 | 1986-11-20 | Sharp K.K., Osaka | Uebersetzungssystem |
JPH02301869A (ja) * | 1989-05-17 | 1990-12-13 | Hitachi Ltd | 自然言語処理システム保守支援方式 |
US5369574A (en) | 1990-08-01 | 1994-11-29 | Canon Kabushiki Kaisha | Sentence generating system |
US5477451A (en) | 1991-07-25 | 1995-12-19 | International Business Machines Corp. | Method and system for natural language translation |
GB2279164A (en) * | 1993-06-18 | 1994-12-21 | Canon Res Ct Europe Ltd | Processing a bilingual database. |
US5510981A (en) * | 1993-10-28 | 1996-04-23 | International Business Machines Corporation | Language translation apparatus and method using context-based translation models |
US6304841B1 (en) * | 1993-10-28 | 2001-10-16 | International Business Machines Corporation | Automatic construction of conditional exponential models from elementary features |
US5642520A (en) * | 1993-12-07 | 1997-06-24 | Nippon Telegraph And Telephone Corporation | Method and apparatus for recognizing topic structure of language data |
JP3377290B2 (ja) * | 1994-04-27 | 2003-02-17 | シャープ株式会社 | イディオム処理機能を持つ機械翻訳装置 |
JP2855409B2 (ja) | 1994-11-17 | 1999-02-10 | 日本アイ・ビー・エム株式会社 | 自然言語処理方法及びシステム |
GB2295470A (en) * | 1994-11-28 | 1996-05-29 | Sharp Kk | Machine translation system |
US5903858A (en) | 1995-06-23 | 1999-05-11 | Saraki; Masashi | Translation machine for editing a original text by rewriting the same and translating the rewrote one |
JP3579204B2 (ja) | 1997-01-17 | 2004-10-20 | 富士通株式会社 | 文書要約装置およびその方法 |
US5991710A (en) * | 1997-05-20 | 1999-11-23 | International Business Machines Corporation | Statistical translation system with features based on phrases or groups of words |
DE69837979T2 (de) * | 1997-06-27 | 2008-03-06 | International Business Machines Corp. | System zum Extrahieren einer mehrsprachigen Terminologie |
US6112168A (en) * | 1997-10-20 | 2000-08-29 | Microsoft Corporation | Automatically recognizing the discourse structure of a body of text |
US6533822B2 (en) | 1998-01-30 | 2003-03-18 | Xerox Corporation | Creating summaries along with indicators, and automatically positioned tabs |
GB2337611A (en) * | 1998-05-20 | 1999-11-24 | Sharp Kk | Multilingual document retrieval system |
GB2338089A (en) * | 1998-06-02 | 1999-12-08 | Sharp Kk | Indexing method |
US6092034A (en) * | 1998-07-27 | 2000-07-18 | International Business Machines Corporation | Statistical translation system and method for fast sense disambiguation and translation of large corpora using fertility models and sense models |
JP2000132550A (ja) * | 1998-10-26 | 2000-05-12 | Matsushita Electric Ind Co Ltd | 機械翻訳のための中国語生成装置 |
US6393389B1 (en) * | 1999-09-23 | 2002-05-21 | Xerox Corporation | Using ranked translation choices to obtain sequences indicating meaning of multi-token expressions |
-
2001
- 2001-05-11 AU AU2001261505A patent/AU2001261505A1/en not_active Abandoned
- 2001-05-11 WO PCT/US2001/015380 patent/WO2001086489A2/en active Search and Examination
- 2001-05-11 AU AU2001261506A patent/AU2001261506A1/en not_active Abandoned
- 2001-05-11 CN CN01812317A patent/CN1465018A/zh active Pending
- 2001-05-11 EP EP01935406A patent/EP1352338A2/en not_active Withdrawn
- 2001-05-11 US US09/854,327 patent/US7533013B2/en not_active Expired - Lifetime
- 2001-05-11 CA CA002408819A patent/CA2408819C/en not_active Expired - Lifetime
- 2001-05-11 JP JP2001583366A patent/JP2004501429A/ja active Pending
- 2001-05-11 WO PCT/US2001/015379 patent/WO2001086491A2/en active Application Filing
- 2001-05-11 US US09/854,301 patent/US20020046018A1/en not_active Abandoned
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8666725B2 (en) | 2004-04-16 | 2014-03-04 | University Of Southern California | Selection and use of nonstatistical translation components in a statistical machine translation framework |
US10319252B2 (en) | 2005-11-09 | 2019-06-11 | Sdl Inc. | Language capability assessment and training apparatus and techniques |
JP2009527818A (ja) * | 2006-02-17 | 2009-07-30 | グーグル・インコーポレーテッド | 分散型モデルの符号化及び適応可能なスケーラブルアクセス処理 |
JP2009533728A (ja) * | 2006-04-07 | 2009-09-17 | ベイシス テクノロジー コーポレイション | 機械翻訳の方法およびシステム |
US8943080B2 (en) | 2006-04-07 | 2015-01-27 | University Of Southern California | Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections |
US8886518B1 (en) | 2006-08-07 | 2014-11-11 | Language Weaver, Inc. | System and method for capitalizing machine translated text |
US9122674B1 (en) | 2006-12-15 | 2015-09-01 | Language Weaver, Inc. | Use of annotations in statistical machine translation |
US8831928B2 (en) | 2007-04-04 | 2014-09-09 | Language Weaver, Inc. | Customizable machine translation service |
US8825466B1 (en) | 2007-06-08 | 2014-09-02 | Language Weaver, Inc. | Modification of annotated bilingual segment pairs in syntax-based machine translation |
US8990064B2 (en) | 2009-07-28 | 2015-03-24 | Language Weaver, Inc. | Translating documents based on content |
US8676563B2 (en) | 2009-10-01 | 2014-03-18 | Language Weaver, Inc. | Providing human-generated and machine-generated trusted translations |
US10417646B2 (en) | 2010-03-09 | 2019-09-17 | Sdl Inc. | Predicting the cost associated with translating textual content |
US10984429B2 (en) | 2010-03-09 | 2021-04-20 | Sdl Inc. | Systems and methods for translating textual content |
US11003838B2 (en) | 2011-04-18 | 2021-05-11 | Sdl Inc. | Systems and methods for monitoring post translation editing |
US8694303B2 (en) | 2011-06-15 | 2014-04-08 | Language Weaver, Inc. | Systems and methods for tuning parameters in statistical machine translation |
US8942973B2 (en) | 2012-03-09 | 2015-01-27 | Language Weaver, Inc. | Content page URL translation |
US10402498B2 (en) | 2012-05-25 | 2019-09-03 | Sdl Inc. | Method and system for automatic management of reputation of translators |
US10261994B2 (en) | 2012-05-25 | 2019-04-16 | Sdl Inc. | Method and system for automatic management of reputation of translators |
US9152622B2 (en) | 2012-11-26 | 2015-10-06 | Language Weaver, Inc. | Personalized machine translation via online adaptation |
JP2015072509A (ja) * | 2013-10-01 | 2015-04-16 | 日本電信電話株式会社 | 語順並び替え装置、翻訳装置、方法、及びプログラム |
US9213694B2 (en) | 2013-10-10 | 2015-12-15 | Language Weaver, Inc. | Efficient online domain adaptation |
JP2015127894A (ja) * | 2013-12-27 | 2015-07-09 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 支援装置、情報処理方法、及び、プログラム |
KR20220094444A (ko) * | 2020-12-29 | 2022-07-06 | 엑스엘에이트 아이앤씨 | 기계번역을 위한 장치 및 방법 |
KR102562920B1 (ko) | 2020-12-29 | 2023-08-02 | 엑스엘에이트 아이앤씨 | 기계번역을 위한 장치 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
US20020046018A1 (en) | 2002-04-18 |
CA2408819A1 (en) | 2001-11-15 |
WO2001086489A2 (en) | 2001-11-15 |
US7533013B2 (en) | 2009-05-12 |
WO2001086491A2 (en) | 2001-11-15 |
AU2001261506A1 (en) | 2001-11-20 |
WO2001086491A3 (en) | 2003-08-14 |
EP1352338A2 (en) | 2003-10-15 |
AU2001261505A1 (en) | 2001-11-20 |
CA2408819C (en) | 2006-11-07 |
CN1465018A (zh) | 2003-12-31 |
US20020040292A1 (en) | 2002-04-04 |
WO2001086489A3 (en) | 2003-07-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2004501429A (ja) | 機械翻訳技法 | |
US7624005B2 (en) | Statistical machine translation | |
Graehl et al. | Training tree transducers | |
Durrani et al. | A joint sequence translation model with integrated reordering | |
US5895446A (en) | Pattern-based translation method and system | |
Wong et al. | Learning for semantic parsing with statistical machine translation | |
US7565281B2 (en) | Machine translation | |
US7447623B2 (en) | Machine translation | |
US7295962B2 (en) | Statistical memory-based translation system | |
Marcu et al. | The automatic translation of discourse structures | |
US20030023423A1 (en) | Syntax-based statistical translation model | |
Callison-Burch et al. | Co-training for statistical machine translation | |
Gupta et al. | Augmenting training data with syntactic phrasal-segments in low-resource neural machine translation | |
Menezes et al. | Syntactic models for structural word insertion and deletion during translation | |
Huang | Forest-based algorithms in natural language processing | |
Horvat | Hierarchical statistical semantic translation and realization | |
Chen et al. | Semi-supervised dependency parsing | |
Nie et al. | Translingual mining from text data | |
JP5416021B2 (ja) | 機械翻訳装置、機械翻訳方法、およびそのプログラム | |
Williams | Unification-based constraints for statistical machine translation | |
WO2002093416A1 (en) | Statistical memory-based translation system | |
Levinboim | Invertibility and Transitivity in Low-resource Machine Translation | |
Auli | CCG-based models for statistical machine translation | |
Daneshgar et al. | word. alignment: an R package for computing statistical word alignment and its evaluation | |
Ding | Machine translation using probabilistic synchronous dependency insertion grammars |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20051130 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060224 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20060314 |