JP2005507525A - 機械翻訳 - Google Patents
機械翻訳 Download PDFInfo
- Publication number
- JP2005507525A JP2005507525A JP2003540856A JP2003540856A JP2005507525A JP 2005507525 A JP2005507525 A JP 2005507525A JP 2003540856 A JP2003540856 A JP 2003540856A JP 2003540856 A JP2003540856 A JP 2003540856A JP 2005507525 A JP2005507525 A JP 2005507525A
- Authority
- JP
- Japan
- Prior art keywords
- language
- translation
- source
- text
- dependency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/45—Example-based machine translation; Alignment
Abstract
【選択図】図4
Description
【0001】
本発明は機械翻訳に関する。さらに詳細には、本発明は例に基づいた機械翻訳に関する。機械翻訳とは言語処理の1つの部門である。
【背景技術】
【0002】
大部分の機械翻訳システムにおいては、言語学者が、ソース言語(翻訳元の言語)とターゲット言語(翻訳先の言語)の文法、およびソーステキストに対応するデータをターゲットテキストに対応するデータに転移するための転移(transfer)規則に関係する一連の規則の作成を補助している。伝統的な「転移」アーキテクチャにおいては、最初に、ソース言語の統語的依存を削除し、次にターゲット言語に転移されるテキストの意味論(意味)により近い何かに到達するためにソース文法規則が適用され、その転移の時点でターゲット言語の文法規則は構文上正しいターゲット言語テキストを生成するために適用される。
【0003】
しかしながら、このようなシステムのための手作りの規則は高価で、時間を要し、エラーを起こしやすい。これらの問題点を削減する1つの方法はソース言語テキストとその翻訳の例をターゲット言語の中に導入し、それらの中から適当な規則を抽出しようと試みることである。あるアプローチでは、ソース言語とターゲット言語の例のテキストが対応を示すために手作業で書き加えられる。
【0004】
この分野における従来の研究は、例えば、Brown P F 、Cocke J 、della Pietra S A、della Pietra V J、Jelinek F、Lafferty J D、Mercer R LおよびRoossin P S、1990年、コンピュータ的言語学(Computational Linguistics)の16 2、79〜85頁の「機械翻訳に対する統計的なアプローチ(A Statistical Approach to Machine Translation)」、Berger A、Brown P、della Pietra S A、della Pietra V J、Gillet J、Lafferty J、Mercer R、Printz HおよびUres L、1994年、人間言語技術(Human Language Technology)、ARPAスピーチおよび自然言語に関するワークショップの議事録(Proceeding of the ARPA Workshop on Speech and Natural Language)における「機械翻訳の候補システム(Candide System for Machine Translation)」、Sato SおよびNagao M、1990年、COLING‘90における「メモリに基づく翻訳(Towards Memory-based Translation)」、Sato S、1995年、人工知能(Artificial Intelligence)、75 1、31〜49頁、「MBT2:例に基づいた翻訳において例の断片を結合する方法(A Method for Combining Fragments of Examples in Example-based Translation)」、Guvenir H AおよびCicekli I、1998年、情報システム(Information Systems)、23 6、353〜636頁、「翻訳テンプレートの例からの学習(Learning Translation Templates from Examples)」、Watanabe H、1995年、機械翻訳(Machine Translation)10 4、269〜291頁、「規則組み合わせを使用する双方向転移機構のモデル(A Model of a Bi-Directional Transfer Mechanism Using Rule Combinations)」、Al−Adhaileh M HおよびKong T E、COLING−ACL‘98の議事録(Proceedings of COLING-ACL’98)、687〜693頁の「SSTCに基づいた柔軟な例に基づいた構文解析ツール(A Flexible Example-based Parsar based on SSTC)」に説明されている。
【0005】
SatoとNagaoはソーステキストとターゲットテキストを平面的な依存ツリーとして表現するシステムを開発した。依存ツリーは特定の種類の依存グラフである。依存グラフにおいては、テキストのワードは、別のワードに依存する(つまり、別のワードの意味を修正する、あるいは別のワードとなんらかの関係にある)あるワードが(方向の)依存関係によりリンクされるようにリンクされているノードに対応する。(1つの一意の「ルート」ノード以外の)各ノードが(一方のノードはそれから依存するいくつかを有する、つまり複数の他を支配する可能性があるが)1つの他方に正確に依存している場合、依存グラフはツリーである。平面的なツリーとは、ワードがそれらの元のシーケンスで配列されているときに「突起(projection)制約」が満足されている。言い換えると、各ノードのスパン内のあらゆるワードがそのノードにより支配されている。言い換えると、図式では依存線が別の依存線に交差しない。平面的なツリーは、特に計算上効率的であるため、それ故にそれらを使用することは有利である。
【0006】
しかしながら、平面的なツリーは、ソーステキストとターゲットテキスト内で互いに依存するワードが隣接しているときにのみすぐに有効である。言い換えると、ソーステキスト内でのワードの隣接するシーケンスはターゲットテキスト内でのワードの隣接するシーケンスによる翻訳である。文のレベルでは、これは当てはまる可能性が高いが、短い句ほどより一般的に適用可能であるため、より少ない数の例からより多くの翻訳範囲を可能にするために、翻訳できるだろう翻訳単位(つまり、句などの文の部分)、また翻訳構成要素と称される、の最大サイズを縮小することが望ましいだろう。従来の技術においてはこの問題に対する異なるアプローチが取られてきた。この問題のため、句の主要語(head)ワードを連結する連結データを用いることによりソース言語の句とターゲット言語の句を単に位置合わせする(align)ことは可能ではなかった。
【0007】
SatoのMBT2方法はソーステキストとターゲットテキストの両方ともを単純な平面的なツリーとして分析し、単純なツリーの位置合わせ(alignment)を使用してソース言語とターゲット言語の中のツリー間の関係を表現している。例の中に見られるツリーは、ノードの追加とノードの削除などのいくつかの特定の変形(transforms)を可能にすることにより一般化され、Satoのシステムにより生成される翻訳は既存の翻訳との類似性の基準を使用して分類される。
【発明の開示】
【0008】
本発明は、ソーステキストとターゲットテキストの2つのレベルの表現を採用する。第1のレベルはテキストの表面形式(語順を含む)に依存し、第2のレベルは単語間の語義の依存に依存している。ソース言語分析とターゲット言語生成は該第1のレベルを使用する。ソース言語からターゲット言語への転移は第2のレベルを使用して実行される。
【0009】
一態様においては、本発明は、このようなプロセスを用いて分析を実行するよう構成された翻訳システムを提供する。別の態様においては、本発明は例の翻訳テキストからこの種の翻訳システムを開発するシステムを提供する。いずれかのケースでは、本発明はコンピュータプログラムとして実現されてもよく、またこのようなプログラムとそれによって使用のためのデータ構造を実現する。
【0010】
別の態様では、本発明は依存グラフからテキストの分析の表面ツリー表現を推論する方法を提供する。該方法は、
ソース依存グラフとターゲット依存グラフの間の位置合わせに依存する方法で該依存グラフを単純化することと、
上記単純化された依存グラフから当初の(必ずしも平面的でない)表面ツリーを作成することと、
上記表面ツリーから最後の平面的な表面ツリーを作成すること、とを含む。
【0011】
翻訳のために使用される依存表現へのリンクを保持する一方、表面語順の平面的なツリー表現を生成する自動プロセスの提供によって、翻訳システムは単純な論理プログラミングを用いて動作できる。
【0012】
別の態様では、本発明はコンピュータ自然言語翻訳システムのための翻訳単位を生成する方法を提供する。該方法は、
(a)ソース言語テキストの翻訳の例をターゲット言語テキストへ、かつ各このような例に対して提供するステップと、
(b)該ソース言語テキストとターゲット言語テキストに対して、それぞれの言語単位順序が保持されたそれぞれの依存グラフを作成するステップと、
(c)該ソース言語依存グラフの言語単位を、これらの言語単位が直接的に翻訳可能と思われる該ターゲット言語依存グラフのそれぞれ対応する言語単位とリンクさせるステップと、
(d)該依存グラフを変換アルゴリズムで処理して複数のルートノードを検出し、このような検出時に、複数のルートノードの1をドーターにして、それによって単一のルートノードを有する対応するツリーを作成するステップと、
(e)前記対応するツリーを処理して平面的なツリー突起(projection)制約を破るいかなる親/ドーターノード依存をも検出し、このような検出時に、該ツリーのより高いノードから依存する関係するドーターノードを作るステップと、
(f)言語単位の各リンクされた対に対して、それぞれの主要語言語単位として、もしあればドーター言語単位と共に、かつステップ(d)とステップ(e)の動作の結果として依存変化に関するデータと共に、リンクされた言語単位を含むそれぞれの翻訳単位を生成するステップと、を含む。
【0013】
本発明は、一般に、翻訳アプローチおよび機械翻訳方法に適用可能である。本発明の実施形態はテキストの相対的に少ない数の例から一般化することができ、これによりこのような実施形態は、例えば、Melby A K およびWright S E 、1999年、専門用語および知識の表現に関する第5国際会議の議事録(Proceedings of the 5th International Congress on Terminology and Knowledge Representation)、544〜569頁の「辞書編集資源とともに使用するための用語上のデータの利用(Leveraging Terminological Data For Use In Conjunction With Lexicographical Resources)」により説明されるような翻訳メモリに保持されるテキストとともに使用できるようになる。
【0014】
本発明の実施形態は、ここでは添付図面に関して例によってのみ説明されるだろう。
【発明を実施するための最良の形態】
【0015】
第1の実施形態
図1は、本発明を実現するために適した装置を示している。この装置はキーボード102、コンピュータ104および視覚的表示装置106を備えるワークステーション100から構成されている。例えば、ワークステーション100は高性能パーソナルコンピュータまたはサン(sun)ワークステーションであってよい。
【0016】
図2は、CPU108(ペンティアム(Pentium)III(TM)または縮小命令セット(RISC)プロセッサ108であってよい)を備える図1のコンピュータ104の構成要素を示している。CPUに接続されているのはキーボード、VDUおよび他の構成要素と通信するための周辺チップセット112と、実行プログラムおよび作業データを記憶するためのメモリ114と、以後の実行のためにプログラムとデータを記憶する記憶装置110である。該記憶装置110はハードディスクドライブを備える。該ハードディスクドライブが取り外し自在ではない場合には、記憶装置110は、記憶されているテキストファイルの入力を可能にするためのフロッピーディスク(TM)ドライブなどの取り外し自在記憶装置も備える。
【0017】
図3は、CPU108による実行のために記憶装置110上で保持されているプログラムおよびデータを描いている。これらは開発プログラム220および翻訳プログラム230を備える。
【0018】
該開発プログラムはソーステキストファイル224およびターゲットテキストファイル226上で動作しているマッピングプログラム222を備える。この実施形態では、開発プログラムはそれらの統語的且つ語義的なプロパティに関するデータとともにソース言語のワードを記憶するソース語彙目録234と、互いの翻訳であるソースワードとターゲットワードをリンクするマッピングデータ(Eurowordnet Lexiconシステムの共用識別子のような)とともに、ターゲット言語から類似する情報を記憶するターゲット言語語彙目録236も備える。
【0019】
翻訳プログラムは、マッピングプログラム222により確立される関係により定義されるPROLOG規則の形式で翻訳データを記憶する翻訳データ記憶装置232を備える。翻訳論理プログラム238(例えば、PROLOGプログラム)は、規則232を使用して翻訳プログラムによって講じられる段階を定義し、論理インタプリタ(interpreter)プログラム239は翻訳論理および規則をCPU108による実行のためのコードに翻訳する。
【0020】
最後に、オペレーティングシステム237はグラフィックユーザインタフェース、入力/出力機能および周知の機能を提供する。オペレーティングシステムは、例えば、X−Windowsとともに動作するMicrosoft Windows(TM)またはUnix(TM)またはLinuxであってもよい。
【0021】
図4は、翻訳プロセスの概要である。ソース言語テキスト(A)は、ターゲット依存構造(D)に関連付けられるソース依存構造(C)を定義するデータに対応するソース表面ツリー(B)を表すデータを提供するために解析される。次に、ターゲット依存構造は、ターゲット言語テキスト(F)が生成されるターゲット表面ツリー(E)構造を生成するために採用される。
【0022】
これらの段階はさらに詳細に後述される。しかしながら、最初に、以後の翻訳で使用するためのデータを提供する際に開発プログラム220により実行されるプロセスを説明する。
【0023】
翻訳開発プログラム
図5を参照すると、ステップ402では、マッピングプログラム222が、ソース文書の第1の文、および翻訳文書の対応する文のワードを備える画面ディスプレイ(図6に図示される)を作成する(このケースでは、ソース文書には英語の文「I like to swim」があり、ターゲット文書には対応するドイツ語の文「Ich schwimme gern」がある)。それぞれのワードはグラフィックボックス1002〜1008、1010〜1014の中に表示されている。マッピングプログラムにより、ユーザはワードを縦に移動することができるが、(ソーステキストとターゲットテキストの中でのワードの実際の発生順序に相当する)それらの相対的な水平位置を変更することはできない。
【0024】
次にユーザ(翻訳者または言語学者)はワードを含むボックス間の依存関係線(dependency relationship lines)(「リンク」)を(マウスまたは他のカーソル制御装置を使用して)描画することができる。このケースでは、ユーザは、主要語(head)1008からドーター(daughters)1002〜1006のそれぞれに依存線を描画することにより、英語のテキストの中の「主要語」ワードとして「swim」(1008)を、「I」(1002)、「like」(1004)、「to」を「ドーター」として選択している。
【0025】
この時点で、このケースにおけるソース言語の中のドーター1002〜1006のすべてが主要語1008の左側にあることに注意されたい。これらは「左ドーター」と呼ばれる。主要語の内の1つは全文(或いは、さらに一般的な用語ではテキストのブロック)の表面ルート(surface root)としてマーキングされる。
【0026】
ソースグラフの編集は(ステップ404)、ユーザが必要とされるすべてのワードをリンクする(ステップ406)まで続行する。それから、ターゲット言語テキスト(1012〜1014)についてプロセスが繰り返される(ステップ408、410、412)。
【0027】
いったん依存グラフ(dependency graphs)がソース言語テキストとターゲット言語テキストについて構築されると、ステップ414でプログラム222によりユーザは互いの翻訳として対にすることができるソース言語テキストとターゲット言語テキストの中のワード間の位置合わせを示す連結(リンク)を提供することができる。このケースでは、「I」(1002)は「Ich」(1010)と対にされ、「swim」(1008)は「schwimme」(1012)と対にされる。
【0028】
ソーステキストの中のあらゆるワードがターゲットテキストの中のワードによって直接的に翻訳可能であるわけではなく、一般的にはユーザは互いの優れた直接的な翻訳であるワードを連結するにすぎないだろう。しかしながら、ユーザは、たとえそれらの主要語ワード自体は直接的な翻訳ではないにしても、直接的な翻訳である句の対の先頭にあるワードを連結するだろう。本発明の目的のため、このような連結された主要語ワードは直接的に翻訳可能と見なされる言語単位を構成している。
【0029】
しかしながら、連結(位置合わせ)がワードの下の句が(存在する場合は)翻訳対であるだけではなく、主要語ワード自体も翻訳対を形成することも示すことは、通常本実施形態にはあてはまる。
【0030】
ユーザが終了すると(ステップ416)、ソース言語ファイルとターゲット言語ファイルの中に処理されるべきさらなる文がまだ残っているかどうかが判断され、残っていない場合には、ユーザの関与は終了し、ユーザインタフェースは閉じられる。さらなる文が残っている場合には、次の文が選択され(ステップ420)プロセスはステップ402として再開する。この段階で翻訳例を表すデータは、現在、言語単位を表すノードの集合、リンクが依存グラフを定義するノード間の向けられた(directed)リンクの集合、および2つの言語の中のノード間の位置合わせを示すリンクの集合から構成されている。この構造が翻訳例レコード(Translation Example Record)と呼ばれる。
【0031】
翻訳例レコードの処理
図7を参照すると、開発プログラム220により本実施形態で実行されるプロセスは以下のとおりである。ステップ502では翻訳例レコード内の依存グラフが選択され、ステップ504で冗長な構造が削除される(以下を参照すること)。
【0032】
ステップ510では、関係詞節変換プロセス(さらに詳しく後述される)が実行される。これは、すでに生成された依存グラフデータのコピーを作成してから、該コピーを変換することにより達成される。この結果がツリー構造である。
【0033】
ステップ550では、トピックシフト変形プロセスがグラフの編集されたコピー上で実行される(さらに詳しく後述される)。結果はワードの表面順序を保持する平面的なツリーであり、これはステップ580で元の依存グラフデータとともに記憶される。
【0034】
最後に、ステップ590では、各翻訳例レコードが翻訳単位と呼ばれるだろう別々の単位に分割される。各翻訳単位レコードは、主要語ワードごとに主要語ワードの左側の表面ドーター(左ドーター)のリスト、主要語ワードの右側の表面ドーター(右ドーター)のリスト、および依存グラフ内のドーターのリストとともに、ソース言語とターゲット言語内の主要語ワードの対から構成されている。このような翻訳単位は翻訳構成要素対(ソース言語のための1つの構成要素と、ターゲット言語のための1つの構成要素)とも呼ばれている。ステップ582では、すべてが処理されるまで次の依存グラフが選択される。
【0035】
冗長な層の削除
ここでステップ504をさらに詳細に説明する。図8は英語の句「I look for the book」とフランス語の翻訳「Je cherche le livre」の翻訳例レコードを描いている。
【0036】
英語のソーステキストでは、ワード「for」(1106)はフランス語のターゲットテキストの中のワードと位置合わせされていないため、翻訳可能なワードまたは句を定義していない。「for」が(それ自体を含み)支配するワードの部分集合、すなわちターゲット言語の中のワードの部分集合の翻訳はない。したがって、ワード「for」が「book」を支配するという事実は翻訳では役立たない。
【0037】
したがって、本実施形態では、「look」1104と「book」1110の間の「for」によって表現される不必要な構造は排除される。これらの変型は依存グラフを簡略化するために依存データの上で直接的に実行される。
【0038】
図9と図10を参照すると、ステップ505では、「リーフ(leaf)」ノード(つまり、他のいずれのノードをも支配しないノード)が選択され、次にステップ506で前記の次のノードがアクセスされる。これがそれ自体翻訳ノードである、つまり他の言語の中のノードと位置合わせされている(ステップ507)場合には、プロセスは次のノードアップアゲイン(node up again)を読み取るためにステップ505に戻る。
【0039】
前記ノードが他の言語の中のノードと位置合わせされていない(ステップ507)場合には、次のノードアップアゲインが読み取られる(ステップ508)。それが位置合わせされたノードである場合には(ステップ509)、ステップ505で選択された元のノードはリンクを解かれ(unlinked)、その位置合わせされたノードに再び付けられる(ステップ510)。位置合わせされたノードではない場合には、翻訳ノードに到達するまで次のノードアップアゲインが読み取られる(ステップ508)。このプロセスは、すべてが処理されるまで「リーフ」ノードから階層の上まで順番にノードのそれぞれについて繰り返される。図10は、ノード1104からノード1110までのリンクにより置換されるノード1106と1110の間のリンクを示している。
【0040】
後述されるように各翻訳構成要素が主要語とその接近した被支配項から構成されるように作ることができるため、この冗長な構造の削除は、翻訳システムの実現を大幅に簡略化する。中間層はない。これにより翻訳構成要素は(Rosettaシステムで使用されるものに匹敵する)位置合わせされた文法規則のように見え、これは通常の構文解析プログラムが、ソース分析を実行し、それにより翻訳を作成するために使用できることを意味する。
【0041】
説明されたばかりのこの変形では、依存グラフの中の各ノードが明白な親を有すると仮定される。しかしながら、依存グラフはこのトポロジに限定されない。複数の親がある、あるいはまったく親がない位置合わせされていないノードがある場合、(後述される)相対化変形が必要に応じ実行される。これにより、位置合わせされているノードだけが正確に1つの親以外を有することができることが保証される。
【0042】
表面ツリーの作成
開発プログラム220によって実行される次の工程は、前記に引き出された依存グラフを処理し、関連付けられた表面ツリーを作成することである。図6に示される依存グラフはすでに平面的なツリーの形を取っているが、これは常に当てはまるわけではない。
【0043】
以下の工程では依存グラフを使用し、前述されたように引き出された処理された依存グラフ情報のコピーを作成してから、変形することによって表面ツリー構造を作成する。
【0044】
関係詞節変換(「相対化」)
図11は、ノード1022〜1038から構成される英語の句「I know the cat that Mary thought John saw」についてユーザにより構築される可能性がある依存グラフを示している。図11の節などのような関係詞節においては、依存グラフが主要な動詞(「know」)および従属節の動詞(「thought」)に対応する複数のルート(root)を有するだろう。その結果、依存グラフが2つのルートを有していることによって、および「cat」(1028)が2つのノード(「know」(1024)と「saw」(1038))によって支配されるためにツリーではないということである。我々は、依存グラフが以下のプロパティを有すると仮定する。
【0045】
それらは弱く連結され、向けられた非環式のグラフである、
nのノードのあるグラフの場合、n−1のリンクがある。
ノードAとBに複数の親がある場合には、AからBへまたはBからAへの経路は存在しない。
【0046】
これらの仮定は、依存グラフが、共通のノードを共用することにより結合された、節ごとに1つ、ツリーの連結された集合を備えることを暗示している。我々は、これらのツリーの1つが主要ツリーであり、このツリーのルートが主要なルートであると見なす。
【0047】
図12と図13を参照すると、依存グラフをツリーに変形するためのアルゴリズムは、次の通りである。
【0048】
主要なルートノードを現在のノードとして開始する。
現在のノードを「処理済み」と記す。
現在のノードのドーターごとに、
このドーターに未処理の親があるかどうかをチェックする。
このような未処理の親ごとに、この親を支配するルートノード(従属ルート)をみつける。
未処理の親がドーターを支配するリンクを切り離し、
ドーターが従属ルートを支配するリンクを挿入する。
現在のノードのドーターごとに、
そのドーターを現在のノードとし、ノードがなくなるまで手順を続行する。
【0049】
BからAにリンクが存在するケースでは、ノードAはノードBの「ドーター」であると言われている。代わりに、ノードBはノードAの「親」であると言われている。
【0050】
図12が示すように、ステップ512では、グラフの中の最後のノードが処理されているかどうかが判断され、処理されている場合にはプロセスは終了する。処理されていない場合には、ステップ514で次のノードが選択され、ステップ516でノードに複数の親があるかどうかが判断される。大部分のノードには1つの親しかなく、そのケースでは、プロセスはステップ514に戻る。
【0051】
しかしながら、2つの親がある「cat」(1028)のようなノードに遭遇する場合、より従属的なツリーが決定され(ステップ518)(文のルートノードから離れてさらに多数のノードであるそのノードとして)、ステップ520でそれからのリンク(つまり、図11では1038と1028のリンク)が削除される。
【0052】
ステップ522では、ノードからさらに従属的なツリーのルートまで新しいリンクが作成される。図13は、「cat」(1028)を表すノードから「thought」(1034)を表すノードまで作成されるリンクを示している。
【0053】
次に、プロセスは、そのノードに1つしか親ノードがなくなるまでどんな追加のリンクをも削除するためにステップ516に戻り、その文のすべてのノードが処理されるまで、その点でステップ516により次のノードを処理するためにフローがステップ514に戻される。
【0054】
したがってこのプロセスには元の依存グラフから関連したツリー構造を生成するという効果がある。このようにして、この段階で翻訳例レコードは、いまツリートポロジーを有し、表面構造を保持する変形されたソースグラフとターゲットグラフとともに、元のソース依存グラフとターゲット依存グラフの簡略化されたバージョンを備える。
【0055】
トピックシフト変換(「話題化」)
図13のツリーは平面的なツリーであるが、これは必ずしも当てはまらない。例えば、句(主題)がその「論理的な」位置から変位され、テキストの最初の方に現れる場合である。これは、それぞれワードに対応するノード1042〜1054から構成されている英語の「What did Mary think John saw?」という質問を示す図14に図示されるように英語では「Wh−」の質問で発生する。ここでは依存グラフはツリーであるが、それは、「saw」(1052)が「what」(1042)を支配することによる依存関係が突起制約に違反するため平面的なツリーではない。
【0056】
図14から図16を参照すると、ここでステップ550のトピックシフト変換段階がさらに詳しく説明されるだろう。アルゴリズムがツリートポロジーとともにグラフ上で動作するため、前述された相対化変換の後にこのステップを実行することが望ましい。
【0057】
一般的なアルゴリズムは「リーフ」(つまり、他を支配しないノード)ノードから開始し、
ノードごとに(現在の主要語が)突起(projection)(つまり、平面性)制約に違反するあらゆるドーターを識別する(つまり、このノードが直接的にも、間接的にも支配しない介在するノードがあるのか)。
このようなドーターごとに、依存関係(リンク)を削除し、ドーターを現在のノードの親ノードに付ける。
突起制約の違反がもはやなくなるまで続行する。
【0058】
最後(ステップ552)までノードごとに、選択されたノード(ステップ544)について、最後(ステップ556)までドーターノードに対するリンクごとに、ドーターノードに対するリンク(一番左側の最初)が選択される(ステップ558)。次に、プログラムはそのリンクが平面性制約に違反しているかどうか、言い換えると、そのノードによって直接的にも間接的にも支配されていない主要語ワードとドーターワードの間のワードシーケンスにおいて介在するワードがあるかどうかを調べる。突起制約が満たされると、最後(ステップ556)まで次のリンクが選択される(ステップ558)。
【0059】
突起制約が満たされない場合には、ドーターノードに対するリンクは切断され、現在のノードから上に次のノードに再び付けられ、平面性制約に違反していない現在のノードの上のノードにドーターノードが付けられるまで、平面性制約が満たされているかどうかが再び調べられる(ステップ560)。
【0060】
ドーターノードに対する次のリンクが最後(ステップ556)まで選択され(ステップ558)てから、次のノードが最後(ステップ552)まで選択される(ステップ554)。
【0061】
したがって、図15の主題化変換を実行した後、結果は、表面構造を保持し、元の依存グラフに対応する平面的なツリーである図16に図示される構造である。
【0062】
グラフの翻訳単位への分割
相対化変換および話題化変換を実行した後に、記憶されているデータレコードは、文ごとにソース言語とターゲット言語の依存グラフおよび表面ツリーを備える。このような構造は、それらの文が逐語的に表示される新しいテキストを翻訳するために使用できるにすぎないだろう。それぞれが、ソース言語とターゲット言語の間の位置合わせされたノードにより表される「主要語」ワードが先頭になるさらに小さな翻訳構成要素(例えば、短い句に対応する)に文を分割することはさらに有用である。
【0063】
したがって、ステップ590では、開発プログラム220が、位置合わせされたノードの対ごとに1つの翻訳単位レコードと、それぞれの翻訳例を翻訳単位レコードに分割する。
【0064】
各翻訳単位レコードは、主要語ワードごとに、右の表面ドーターのリストと左の表面ドーターのリスト、および依存グラフドーターのリストとともに、ソース言語とターゲット言語の主要語ワードの対から構成されている。これらのリストは空である。
【0065】
それぞれの主要語ワードとそれらの関連付けられたリストはそれぞれの言語構成要素と見なすことができ、対にされ、翻訳単位レコードを形成する。翻訳単位の言語構成要素は、例えば隣接する記憶場所において一緒に記憶されてもよい。該構成要素が隣接していない記憶場所に記憶されている場合も、それらはそれぞれの依存データの位置合わせのおかげで依然として単一の論理翻訳単位を形成する。
【0066】
ドーターを表すフィールドは、文字通りのワード(例えば「like」)かあるいは記入子(placeholder)変数と、例えば、主要語ワード対「I」−「Ich」に関連したドーターフィールドを当初占めた翻訳単位のレコードから形成される二重のワード(duple)のどちらかを含んでもよい。やはり提供されるのは、依存と表面ドーター間の関係を表す追加構造である。これらは「ギャップスタック(gap stack)操作」と呼ばれ、後にさらに説明される。したがって、このような記入子変数を可能にする効果とは、前記元の文中の「swim」−「schwimme」によって率いられるものなどのような翻訳単位において、以前は「I」−「Ich」によって占有されていた場所が現在は別の翻訳単位により占有され、それが「red fish swim」などのような他の文に参加できるようになるという点である。手作りされた規則による翻訳システムにおいては、各記入子変数を占有できるだろう言語単位は(例えば、ある特定の場所で単数の名詞または名詞句だけを可能とするように)構文上定義されるだろうが、本実施形態においてはこの段階でのこのような制約はない。
【0067】
ソース表面構造は、ここで直接的な文法規則として処理でき、その結果、さらに詳しく後述されるように、翻訳対象の新しいテキストの表面分析ツリーを作成するために単純なチャートパーサ(chart parser)を使用することができる。
【0068】
表面ツリーを作成するプロセスがドーターの主要語に対する依存を改変する可能性があるため、表面ツリー内のドーターのリストはあらゆるケースで、依存グラフ内のリストと等しく一致しないだろうことに注意されたい。それはあるノードのドーターが表面ツリー内の別のノードにシフトされ、その結果それはある翻訳構成要素から別の翻訳構成要素に変位されることになるからである。これが処理される方法は以下のとおりである。
【0069】
表面構造を引き出すために変換を形成した結果が、ある翻訳構成要素から別の翻訳構成要素に表面表現の中のノードを変位することである場合、スタック又は同等のデータ構造(「スレッド」と呼ばれるリストの対を使用してPROLOGでシミュレーションされる)を使用することによりこれを考慮に入れる。
【0070】
ギャップスタック操作はそれぞれの翻訳構成要素とそれぞれの表面ドーターに関連つけられている。翻訳構成要素の中の表面ドーターのリストに依存ドーターに含まれていないドーターが含まれると、用語は表面ドーターの内の1つによりギャップスタックの上に押し上げられる。この操作がどのドーターに関連つけられているのかは、余分な表面ドーターにつながる変形に依存している。用語は翻訳構成要素の主要語(相対化変形のケースでは)、または余分なドーター(話題化変形のケースでは)のどちらかを表す。
【0071】
翻訳構成要素が表面ドーターに対する追加である依存ドーターを含むとき、用語は該翻訳構成要素と関連付けられたギャップスタックから取り去られるだろう。この用語は追加の依存ドーターと一体化される。
【0072】
したがって、翻訳での以後の使用においては、ソース表面構造が入力ソーステキストに合わせられ、その関連付けられた依存グラフによって説明できない用語を含む場合、その用語はスタックの上に押し上げられ、異なる翻訳単位の依存グラフと一体化するために検索される。
【0073】
この実施形態はPROLOG内で書かれているため、表面ツリー、ギャップスタック、および依存グラフ構造間の表現は単に可変一体化によって作成できる。表面ツリーと依存グラフ構造の間の関係はそれにより完全に双方向となるためこれは便利である。逆の翻訳を達成するためには、単に翻訳単位の中の2つの構成要素を逆にするだけである。
【0074】
本発明の実施形態に類似した方法でのギャップスタックの使用は、Pereira F.、1981年、「外置変形文法(Extraposition Grammars)」、アメリカコンピュータ言語学ジャーナル(American Journal of Computational Linguistics)、7 4、243〜256頁、およびAlshawi H、1992年、「コア言語エンジン(The Core Language Engine)」、MITプレスケンブリッジ(MIT Press Cambridge)に説明されており、参照によってここに組み込まれる。
【0075】
もう一度図14と図16のグラフにより描かれている話題化変形を考えてみる。これらのグラフから引き出される翻訳単位のソース側は(明確にするためにわずかに簡略化されている)以下のとおりである。
【0076】
構成要素#0
主要語=“think”
左表面ドーター=[‘what’、‘did’、‘mary’]
右表面ドーター=[(#1、X)]
依存ドーター=[‘did’、‘mary’、(#1、X)]
構成要素#1
主要語=“saw”
左表面ドーター=[‘john’]
右表面ドーター=[]
依存ドーター=[‘john’、‘what’]
構成要素#0の中で、依存ドーターリストの中ではなく、表面ドーターリストの中に‘what’があるのがわかる。逆に、構成要素#1はその表面ドーターリストの中ではなくその依存ドーターリストの中に‘what’を有している。
【0077】
構成要素#0では、表面ツリーマッピングに対する依存グラフが発生したときに余分な表面ドーターを助長したのは(#1、X)と記されたドーターであった。したがって、このドーターのためにギャップスタックに‘what’を追加することを希望する。逆に、構成要素#1では、この構成要素を少しでも使用できるようにするために、余分な依存ドーター(‘what’)に対応するギャップスタックから用語を削除できることが必要である。したがって、この構成要素の主要語は用語をギャップストップから取り去り、それは‘what’という表現と一体化するだろう。その結果、修正されたソース側構成要素表現はこのように見える。
【0078】
構成要素#0:
主要語=‘think’
左表面ドーター=[‘what’、‘did’、‘mary’]
右表面ドーター=「(#1、X):push(Gap Stack、‘what’)
依存ドーター=[‘did’、‘mary’(#1、X)]
構成要素#1:
主要語=‘saw’pop(Gap Stack、‘what’)
左表面ドーター=[‘john’]
右表面ドーター=[]
依存ドーター=[‘john’、‘what’]
相対化変形のための構成要素は少し異なって見える。これを説明するために、図11と図13の例を考えてみる。この例では、依存構造内に余分なルートノードがあるだろう。それは、余分な表面ドーターを有する構成要素があり、この表面ドーターにより該構成要素の主要語はギャップスタックの上に押し上げられることを意味する。この例では、‘cat’が関連構成要素の主要語であり、‘thought’は‘cat’の表現をそのギャップスタックの上に押し上げる(‘cat’の)表面ドーターである。これは、‘thought’を依存グラフのローカルルートにし、‘cat’を、どちらの主要語がそれをギャップスタックから取り去る(このケースでは‘saw’)のかの依存ドーターにするという効果を有する。
【0079】
次に図11と図13のグラフのソース側の表現は(明確にするために再び簡略化されている)以下のとおりである。
【0080】
構成要素=#0:
主要語=‘know’
左表面ドーター=[‘I’]
右表面ドーター=「(#1、Y)」
依存ドーター=[‘I’、(#1、Y)]
構成要素=#1:
主要語=‘cat’
左表面ドーター=[‘the’]
右表面ドーター=[(#2、Z):push(Gap Stack、‘cat’)]
依存ドーター=[‘the’]
構成要素=#2:
主要語=‘thought’
左表面ドーター=[‘that’、‘mary’]
右表面ドーター=[(#3,W)]
依存ドーター=[‘that’、‘mary’、(#3、W)]
構成要素=#3
主要語=‘saw’:push(Gap Stack、V)
左表面ドーター=[‘john’]
右表面ドーター=[]
依存ドーター=[‘john’,V]
この例は、‘cat’が構成要素#1のドーター#2のギャップスタックに追加されていることを示している。また、用語(このケースでは変数)は構成要素#3の主要語でギャップスタックから取り去られている。この用語は構成要素#3の依存ドーターと一体化されている。
【0081】
本発明においては、用語「言語単位」はワードと記入子変数の両方を包含し、用語「ワード」は実際のワードまたは逐語的なワードおよび形態素を包含する。
【0082】
したがって、前記例では、構成要素#0の場合、その左表面ドーターは実際のワード‘I’であり、その右表面ドーターは記入子変数‘Y’と、元はそのドーターフィールド‘#1’を占有していた翻訳単位のレコードから形成される二重語である。構成要素#1の場合、その左表面ドーターは実際のワード‘the’であり、その右表面ドーターは記入子変数‘Z’と、元はそのドーターフィールド‘#2’を占有していた翻訳単位のレコードから形成される2重語である。構成要素#2の場合、その左表面ドーターは実際のワード‘that’と‘mary’である。およびその右表面ドーターは記入子変数‘W’と、元はそのドーターフィールド‘#3’を占有していた翻訳単位のレコードから形成される2重語である。構成要素#3の場合、その左表面ドーターは実際のワード‘john’であり、右表面ドーターはないが、ギャップスタックから取り去られた用語のために、その依存ドーターは実際のワード‘john’と値「V」を有する変数である。
【0083】
別の構成要素、例えば、‘the black dog’の#21が存在する、つまり主要語=‘dog’であり、左表面ドーターが‘the’と‘black’の場合には、#1に関連付けられた記入子変数のすべての発生は#21に対して例示され、別の翻訳可能なソーステキストを作成できる。
【0084】
翻訳
該開発プログラムのさらなる態様が後で検討される。しかしながら、これらの特徴をさらによく理解するために、この段階では翻訳プログラム230の動作の説明を紹介することが便利だろう。したがってこれが説明される。
【0085】
翻訳構成要素内のソース表面構造は、例えば、James Allen、「自然言語の理解(Natural Language Understanding)」第2版、ベンジャミンカミングス出版社(Benjamin Cummings Publications,Inc.)、1995年に説明されるように、表面分析ツリーが単純なチャートパーサ(parser)を使用することにより作成されるように、本実施形態では単純な文法規則として処理されるが、右から左あるいは逆もまた同様によりむしろ主要語またはルートから外向きに動作するように修正される。パーサ(parser)は、翻訳単位ごとのソース表面ツリー構造の主要語を翻訳対象のテキストの代わりに各ワードに合わせようとする。これによりソース表面構造を使用するパックされたエッジのデータベースが作成され、その後分析を見つけるためにアンパックされる。
【0086】
スタックを使用して表面ツリー用語と依存ツリー用語の一体化を提供する効果は、ソース依存構造がアンパック中に同時に作成されることを確実にする。
【0087】
表面構造と依存構造により表現される規則の実現の実際の順序は論理インタプリタ239により決定されるが、図17と図18は概念的に該プロセスを描く。
【0088】
図17のステップ602では、翻訳対象のソース言語ファイルの文が選択される。ステップ610では、言語構成要素のソース表面ツリーが、入力されたソーステキストの中のワード順序を再生するパーサを使用して引き出される。ステップ620では、対応する依存グラフが決定される。ステップ692では、ソース依存グラフから、ターゲット依存グラフが決定される。ステップ694では、ターゲット依存グラフから、ターゲット表面ツリーが決定され、ターゲット言語テキストを生成するために使用され、ステップ696でターゲット言語テキストが記憶される。ソーステキストの最後(ステップ698)まで該プロセスは続行する。
【0089】
図18aと図18bはさらに詳しくステップ610〜694を描く。ステップ603では、各表面構造が順に入力されたテキストと比較される。それぞれの逐語的な表面ドーターノード(逐語的なワードを記憶するノード)がソーステキスト文字列内のワードに正確に一致しなければならない。それぞれの位置合わせされた表面ドーター(つまり、追加翻訳単位に対応する表面ドーター)が、ソーステキストの表面ツリーを構築するように、翻訳単位のソース主要語レコードと一体化される。
【0090】
次に、表面分析の中の翻訳単位ごとに、その単位のための記憶されているスタック操作を使用して、あらゆる余分な、または見当たらないドーターを押し出す、または取り去るためにスタックが動作される(ステップ608)。正しい数の用語が依存構造のために読み出せない場合(ステップ610)、候補構造が拒絶され、最後まで次が選択される(ステップ612)。正しい翻訳構成要素が存在する場合、厳密に正しい数のドーターがスタックを通過するだろう。
【0091】
一致する表面構造および依存構造(つまり、文の分析)が検出されると(ステップ610)、図18bを参照して、組み立てられた依存構造の中の翻訳単位ごとに、対応するターゲット主要語ノードが読み出され(ステップ622)対応するターゲット依存構造を構築する。ソース言語とターゲット言語の転移は、このようにして依存構造のレベルで発生し、それ故に、ソース言語および/またはターゲット言語内でのワード配置の予想できない変化によっては相対的に影響されない。
【0092】
ステップ626では、スタックはドーターノードを押すまたは取り去るために動作される。ステップ628では、ターゲット表面構造がターゲット依存構造から決定される。
【0093】
ステップ630では、ターゲット表面構造全体のルートが、リンクに沿って構造を詳しく検討することにより決定される。最後にステップ632では、ターゲットテキストがターゲット表面ルート構成要素からターゲット表面構造を詳しく検討することにより再帰的に生成され、ターゲット表面主要語およびドーター構成要素からターゲットテキストを抽出する。
【0094】
前記説明から、本発明は、2つの異なるグラフを使用して、各言語の例のテキストを表現することによって、例えばSatoのMBT2などのこの分野での前述された研究を区別することが理解されるだろう。グラフの一方は、ワードの順序付けと合意規則などの一言語だけを陥る表面制約を表現するための平面的なツリーである。他方のグラフは例のテキストに依存グラフを提供するさらに一般的に向けられた非環式のグラフである。2つの言語の間の位置合わせは依存グラフの間の位置合わせとして表現される。
【0095】
本発明の1つの有利な点は、ワードの離れたシーケンスを位置合わせすることができることである。別の有利な点は、相互の制限を示すワードが表現の中では「隣接」であることである。これにより、制約が非常に少ない数の例から学習できる。
【0096】
第2の実施形態−翻訳単位の一般化
第1の実施形態の中心的な動作を説明してきたが、次に(前述されたものとは無関係に有用な)追加の好ましい特徴を説明する。
【0097】
前述されたプロセスにより形成された翻訳構成要素は、ターゲット言語とソース言語について、1つの逐語的な主要語と、逐語的または非逐語的のどちらかであってよい(つまり、前述された二重語)多くのドーターから構成され、後者は他の翻訳構成要素のための連結点を表している。翻訳構成要素を使用して、逐語的なドーターのそれぞれは正確に翻訳対象のテキストと一致しなければならず、非逐語的ドーターのそれぞれは別の翻訳構成要素を支配しなければならない。
【0098】
(翻訳単位レコードが現在備えるものである)規則の集合は例のテキストから引き出された。したがって、1つの形容詞が付いたある特定の名詞の例は、それがゼロまたは2以上の形容詞とともに発生する場合その名詞を翻訳するために使用することはできない。本実施形態は与えられた例から一般化する手段を提供する。これにより、効果的な翻訳システムに必要とされる例の数が削減される、あるいは別の見方をすれば、例の与えられた集合の翻訳能力が高められる。
【0099】
(図19a〜図19fを備える)図19は、仏語−英語翻訳単位の6つの例のテキストを示している。図19aでは、ソース主要語は左ドーター「the」と「white」を有する「car」であり、ターゲット主要語は左ドーター「la」と右ドーター「blanche」を有する「voiture」である。同様に、図19bはテキスト「the white hat」(「Le chapeau blanc」)を示している。図19cはテキスト「the car」(「la voiture」)を示している。図19dはテキスト「the hat」(「le chapeau」)を示している。図19eはテキスト「the cat」(「le chat」)を示している。図19fはテキスト「the mouse」(「la souris」)を示している。
【0100】
これらの例のテキストだけに基づいて、前述された翻訳システムは「white mouse」や「white cat」などのような句を翻訳することはできないだろう。
【0101】
システムがこのような例を翻訳できるようにするための一般化は、ここで説明されるように主要語ワード対の識別可能な動作の数を削減するために「擬似翻訳単位」を追加することにより実行される。
【0102】
翻訳単位ごとに、代替を引き出す。これは主要語ワードが削除された翻訳単位から構成されている。2つの代替は、それらが記入子変数および基準(値)をそれらの中に含まれている翻訳単位に名前を変えることによって同一にすることができる場合に相似していると言われている。主要語ワードの対ごとに代替の集合があるだろう。主要語ワードの対の「動作」を説明するためにこの集合を考える。2つの主要語ワードの対は、それらの動作を説明するかなりの数の代替が相似している場合に、相似している方法で動作すると言われている。必要とされる一般化を可能にするために、新しい翻訳単位(擬似翻訳単位)を作成し、相似する主要語ワード対の動作を同一にする。
【0103】
図20を参照すると、ステップ702では、開発プログラム220が記憶装置232に記憶されている翻訳単位を読み取り、相似する単位の位置を突き止める。2つの翻訳単位が相似しているかどうかを判断するために、それらの代替が相似していることを調べる。
【0104】
図19a〜図19fの翻訳例を参照すると、図19dに図示されている単位は図19eの単位に相似していることが判明し、図19cに図示されている単位は図19fに図示されている単位に相似している。すべて4つのソース側は同等であるが(英語の定冠詞が男性形と女性形を有さないため)、2つの対はそれぞれのターゲットドーターリストで同等ではない。
【0105】
識別され、ソース主要語ワードとターゲット主要語ワードで異なる相似する翻訳単位の対ごとに、ステップ704で第3の翻訳単位が作成され、該第3の翻訳単位は、相似する翻訳単位の対の1つとして同じソース−ターゲット主要語ワード対を有するが、異なるドーターを有する。例えば、図19dと図19eによって形成される対に関して、図19dの単位と同じ主要語ワードを有しているため、図19bがステップ704で選択されるだろう。
【0106】
ステップ706では、第3の翻訳単位のドーターのリストと組み合わされた(第3の翻訳単位の主要語ワードではないその他のワードにおける)相似する翻訳単位の対の他方のソース主要語ワードとターゲット主要語ワードを取る新しい翻訳単位レコードが作成される。このケースでは、図19bの翻訳単位を使用して図19dと図19eの相似する翻訳単位の対についてステップ706で生成される翻訳単位は以下のとおりであろう。
【0107】
SH7=Cat
SD1=The
SD2=White
TH7=Chat
TD1=Le
TD2=Blanc
同様に、図19aの翻訳単位を使用して図19cと図19fの相似する翻訳単位の対から形成された新しい翻訳単位は以下のとおりである。
【0108】
SH8=Mouse
SD1=The
SD2=White
TH8=Souris
TD1=La
TD2=Blanche
したがって、翻訳開発プログラム220は新しい翻訳例を生成することができ、その中の多くはソース言語とターゲット言語の中で統語的に正しい。
【0109】
前記例では、限定詞(「the」、「le」、「la」)などの機能語を、それらを言語単位として記すよりむしろ、ソーステキストとターゲットテキストに逐語的な文字列として残すことが過剰な一般化を妨げる(例えば、形容詞−名詞の一致を無視する)利点を有することが見られよう。
【0110】
前述されたような実施形態は効果的に機能するが、本実施形態では相似として選択される翻訳単位の対の数を制限するためにソース言語語彙目録234およびターゲット言語語彙目録236を利用することも可能となるだろう。
【0111】
例えば、ターゲット主要語ワードと同様に、2つのソース主要語ワードが同じ統語カテゴリにある場合にだけ、対は相似していると見なされる可能性がある。加えて、あるいは代わりに、第3の単位の選択は第1の単位および第2の単位のドーターとして同じ1つのあるいは複数の統合カテゴリに属する第3の単位のドーターに関して条件付きとされる可能性があるだろう。これにより、おそらく有用な一般化の数を大幅に削減することなく、作成される誤って一般化された対の数が削減されるだろう。
【0112】
前述された実施形態の一般化が第1の実施形態で採用される場合、それは図7に説明されるプロセスの後に採用される。他の翻訳が利用可能であるときに翻訳システムがこれらを使用するのを阻止するために、翻訳中に擬似翻訳単位の使用とペナルティを関連付けることが便利である。
【0113】
この第2の実施形態の一般化方法は、例では見られなかった新しい翻訳単位を仮定するためにワード動作間の類似を使用することにより、この分野の前述された研究との違いを示す。
【0114】
第3の実施形態−主要語/ドーターの制限の作成および使用
第1の実施形態に説明されるように、翻訳中に任意のドーターが任意の主要語を選択してよい場合、(作成される可能性のあるあらゆる正しい翻訳に加えて)多くの間違った翻訳が作成されるだろう。前記実施形態に説明される一般化のプロセスが採用される場合、この可能性はさらに増加する。多くの翻訳が作成される場合、言語的に正常ではない、つまり言語的に間違ったターゲットテキストを作成する翻訳を排除することが望ましい。
【0115】
翻訳システムは、ソーステキスト自体が文法に適っていることを保証できないため、目的は文法を無視したターゲットテキストを生成することを拒絶するシステムを作成することではなく、むしろ複数の考えられる翻訳アウトプットを考慮して、文法的に正しく、忠実なアウトプットを生じるシステムを作成することである。
【0116】
しかしながら、本実施形態のシステムは、どの主要語がどのドーターと結合すべきかを特定する統語的または意味論的な情報にアクセスすることはない。本実施形態の目的は、存在していた翻訳単位と、さらに具体的には例のテキストでは存在できなかっただろう翻訳単位との組み合わせを一般化することによりこのような統語的または意味論的な情報に類似する機能を実行するためにデータを獲得することである。
【0117】
従って、本実施形態では、書き加えられたソース翻訳テキストおよびターゲット翻訳テキストから前述された開発プログラム220により生成されたデータがさらに処理され、翻訳プロセスの間に許可される主要語翻訳単位とドーター翻訳単位の組み合わせに対する制限を導入する。
【0118】
推論制約
したがって、本実施形態では、制限は開発プログラム220によって開発される。
【0119】
図21を参照すると、ステップ802で開発プログラム220により、翻訳者プログラム230がファイル224、226に記憶されたソース言語例テキストとターゲット言語例テキスト上で実行する。
【0120】
翻訳装置は一方向(つまり、ソース言語からターゲット言語へ)だけで動作することを目的としている場合、ソース言語例テキストだけで動作することが必要とされるにすぎないが、本実施形態でのように、双方向翻訳システムにおいては、プロセスは他の方向でも実行されることは明らかだろう。
【0121】
ステップ804では、翻訳の1つ(各文にいくつかの競合する翻訳があると考えられる)が選択され、ターゲット例テキストのすべてと比較される。分析動作中に翻訳システムにより作成されたソース−ターゲットテキスト対が例の中のいずれかに現れる(ステップ808)場合、その分析は「正しい」リストに加えられる(ステップ810)。現れない場合、それは「間違った」リストに加えられる(ステップ812)。
【0122】
最後の翻訳がまだ処理されていない(ステップ814)場合、ステップ804で次が選択される。次にすべてのソーステキスト例のすべての翻訳について、プロセスが繰り返される。
【0123】
次の段階の目標は、例のテキストの間違った分析を排除することである。
【0124】
したがって、図22を参照すると、図21のプロセスにより作成されたリストからそれぞれの間違った分析が選択され(ステップ822)、ステップ824でソース分析表面構造グラフ(ツリー)とソース分析依存構造が詳しく検討され、構造の中で検出された主要語とドーターの対の別々のリストを作成する。結果は、ソーステキストとターゲットテキストの表面主要語/ドーターの対、および(両方の言語に共通の)依存主要語/ドーター対のリストである。前記に注記されたように、表面ドーターと依存ドーターは多くの翻訳単位について同一ではないため、一般的に3つのリストは異なっている。
【0125】
最後が終了される(ステップ826)まで、各分析についてこのプロセスが繰り返される。
【0126】
間違った分析のそれぞれについて表面および依存主要語/ドーター対の集合をコンパイルすると、ステップ828で、使用禁止にされた場合には最大数の(好ましくはすべての)間違った分析を削除するだろう最小集合となることができるように、主要語/ドーター対の部分集合が選択される。
【0127】
元のグラフが翻訳構成要素に分けられたときに、ドーター位置を占有している構成要素のアイデンティティがそれぞれについて記憶されていたことが思い出される。注釈されたソース−ターゲット例に実際に存在した主要語/ドーターの対にどれかを排除することを回避するために、これらの元の組み合わせが対のリストから削除される。
【0128】
間違った分析の最大を排除するだろう、使用禁止にされる主要語/ドーター対の最小部分集合を見つけるプロセスは、最適化プログラムにより実行され、元の例にはなかった主要語/ドーター対の部分組(those)の影響を反復的に決定するだろう。
【0129】
例えば、それは最大数の間違った翻訳で発生する主要語/ドーター対を選択し、それを排除し、それから残りの翻訳に関して、最大数で発生した主要語/ドーター対を選択し、それを排除する等により実行できるだろう。あるいは、「畜力供給」最適化アプローチが使用できる場合もある。
【0130】
したがって、この工程の成果は結合できない主要語ワードとドーターワードの対の3つのリスト(ソース表現とターゲット表現のそれぞれのリスト、および共通依存表現のためのリスト)である。
【0131】
したがって、これらのリストは、翻訳の分析フェーズの間にそれぞれの組み合わせが指向されず、このようにして可能性のある代替分析の数を削減することによって分析するのに要する時間を削減し、間違った分析を排除するように、この段階では翻訳で以後使用するために記憶できるだろう。
【0132】
しかしながら、ステップ830で対を無効として検出および記したので、例のファイル224に記憶されているものを超えていまでも見えないソーステキストについて、競合する分析の間で選択できるために主要語/ドーターの対合に関するこれらの制限を一般化することが好ましい。
【0133】
これを行うためには、可能であるすべての一般化の中から「最良の」一般化を選択できる原則が必要とされる。本実施形態によると、好ましい一般化とは、(ある意味では)最も簡略であり、例のデータと一貫したままとなるものである。
【0134】
これは以下のように達成される。データ構造が各翻訳単位および位置合わせされた各ドーターに関連付けられる。本実施形態では、他の構造も使用できるだろうが、それは(多くの場合言語学的な用語を特徴付けるために使用されるような)属性値マトリックスである。
【0135】
位置合わせされたドーターは、関連付けられたデータ構造がある意味で「一致する」(例えばPROLOG一体化によって試される)場合にだけ翻訳単位を支配してよい。
【0136】
制限は、元の翻訳例と一貫した翻訳を作成するために必要とされる識別可能な属性値マトリックスの数を最小限に抑えることを選ぶことによって一般化される。ドーターは、主要語およびドーター属性値のマトリックスを一体化できる場合にのみ、翻訳中に特定の主要語を選択できる。2つの翻訳単位は、翻訳単位の集合であって連結できないものが同一である場合及び同一である場合に限り、同じ属性値マトリックスを共有できる。したがって、属性値マトリックスの数を最小限に抑えるためには、ドーターが連結できない主要語の識別可能な集合の数、および主要語が連結できないドーターの識別可能な集合の数を最小限に抑えることを希望する。したがって、目的は、このような識別可能な集合の数を減らすために追加の無効の主要語/ドーターの対を加えることである。
【0137】
したがって、続くプロセスでは、従う原則は、第1の主要語がドーターの第1の集合と結合できず、第2の主要語がドーターの第2の集合と結合できず、ドーターの2つのリストの間に高程度の重複がある場合に、2つの主要語が言語的に同じように動作する可能性があり、したがって、それぞれが、他が結合できないドーターのすべてと結合するのを妨げることが適切である。
【0138】
厳密に同じことは、各ドーターが結合できない主要語の集合に当てはまる。したがって、効果は、類似する主要語を、強制して同一に動作させ、類似する主要語を強制して同一に動作させ、このようにして異なる動作の数を削減し、翻訳例の限られた集合から動作を一般化することである。
【0139】
図23aを参照すると、ステップ832では、無効主要語/ドーター対の集合の中の第1の主要語が位置が突き止められる(プロセスは、表面集合と依存集合のそれぞれについて実行されるが、明確にするためにここではただ1つのプロセスだけが説明される)。集合の中のその主要語の他のすべての場合とともに発生するドーターは、その主要語のための無効ドーターの集合の中に回収される(ステップ834)。
【0140】
集合の中のそれぞれの識別可能な主要語について動作が繰り返されたとき(ステップ836)、次にステップ842で第1のドーターが無効対の集合から選択され、(同様に)対の集合の中のそのドーターのすべての場合とともに発生するそれぞれの主要語がそのドーターの無効の主要語の集合の中にコンパイルされる(ステップ844)。(対の表面リストおよび依存リストの両方について)すべてのドーターと主要語の集合がコンパイルされると(ステップ846)、プロセスは図23bのステップ852に移動する。
【0141】
ステップ852では、(それぞれ、それが結合できないドーターの集合とともに)主要語の集合が多くの部分集合に区分される。同一のドーター集合を備えるすべての主要語がグループ化され、ともに記憶され、部分集合を形成する。この結果は、主要語の異なる動作の数に対応する多くの部分集合である。
【0142】
ステップ854では、ドーターを主要語の同一の集合を有するグループに区分するためにドーターの集合について同じプロセスが繰り返される。
【0143】
次に、ステップ856では、すべての主要語およびドーター部分集合がまだ互いにとって十分に異なっているかどうかが判断される。例えば、部分集合に別の部分集合と共通したドーターがない場合にそれらは異なっていると見なされる。これが当てはまる場合(ステップ856)、プロセスは終了する。
【0144】
それ以外の場合、最も類似したドーター集合(つまり、共通のドーターの最大数−最大交差)を有する主要語の2つの部分集合が検出される(ステップ857)。同様に、ステップ858では、(それらが共通して有している主要語の数で測定される)ドーターの2つの最も類似した部分集合が検出される。
【0145】
ステップ859では、2つの主要語集合、および2つのドーター集合の合併が許容できるかどうかが試される。合併が、例のテキストの中で発生した主要語とドーターの組み合わせを無効に(そして、したがって有効な翻訳を使用禁止に)する効果を有さない限り、それは許容できるだろう。許容できない場合、次に最も類似する集合の位置が突き止められる(ステップ857、858)。
【0146】
合併が許容できる場合には、次に(ステップ860)2つの主要語集合が合併され、合併された部分集合のすべての主要語のドーターの集合が2つの過去の部分集合のドーターの集合の結合になる(すなわち、各主要語が両方の部分集合からすべてのドーターを継承する)。同様に、2つのドーター集合が合併され、各ドーターの主要語集合が2つの過去の主要語集合の結合になる。
【0147】
次に、結果的に生じる部分集合が直交となる(つまり、それらのリストの中で共通のメンバーを共有しなくなる)まで、プロセスはステップ856に戻る。この時点で、プロセスは終了し、結果として生じる部分集合が結合され、翻訳で結合できない主要語/ドーター対の最終的な集合を生成する。
【0148】
次に、これは規則データベース232の中に記憶され、分析中に各ドーターと結合するために選択された主要語を制限するために以後の翻訳中で適用される。前述されたように、表面表現についてと、依存表現について別々の集合が維持される。
【0149】
したがって、本実施形態は、先の実施形態のように、翻訳構成要素により示される動作を簡略化し、一般化する。しかしながら、前記一般化実施形態が可能な翻訳単位の範囲を拡大するために動作したのに対し、本実施形態は翻訳単位組み合わせに対する制限を一般化することにより作成できる正当な翻訳の範囲を制限するために動作する。
【0150】
この第3の実施形態の方法が、訓練例テキストの間違った再翻訳を排除するために制約を推論することによってこの分野での前述されたワークとの違いを示すことが理解されるだろう。
【0151】
結論
本発明はその多様な実施形態において、手作業で作成された言語規則を必要としないが、代わりにユーザインタフェースを使用することによって人間によって書き加えられる例の集合から翻訳規則を学習することができる翻訳システムを提供する。次に、書き加えられた例は翻訳を一般化し、それ以外の場合作成されるだろう文法に合わない翻訳代替策の数を制限するために予備的処理を施される。
【0152】
制限の例と一般化の例はともに例のデータと一貫している最も簡略なモデルを使用するという原則に依存している。
【0153】
採用される形式は、PROLOG言語または類似する言語の一体化特徴と結合される簡略なパーサが翻訳を直接的に実行できる点まで通常の文法または論理規則に似ている翻訳単位がを結果として生じる。
【0154】
本発明の実施形態は別個に使用されてよいが、好ましくはともに使用される。
【0155】
開発プログラム220と翻訳プログラム230の両方を備える装置を説明してきたが、2つが別々の装置として提供でき、開発装置が、以後複数の様々な翻訳装置で使用できる翻訳データを作成することは明らかだろう。装置を説明してきたが、開発プロセスを実行するためのプログラムを含むディスク、および/または翻訳プロセスを実行するためのプログラムを含むディスクを提供することによりプログラムが容易に実現されることは明らかだろう。後者は、翻訳データとは別個に提供されてよく、後者はディスクなどの記録媒体上のデータ構造として提供されてよい。代わりに、例えばインターネットを介してウェブサーバからダウンロードすることによって、プログラムとデータが電子的に提供されてよい。
【0156】
便利なことに、本発明は、翻訳データを作成するためにメモリ内のファイルを使用できるようにするために翻訳者により実行される翻訳ジョブの翻訳メモリとともに使用するために提供される。
【0157】
ソーステキスト内の適切な名称、数、日付を検出するように構成された言語的なプリ−およびポスト−プロセッサプログラムを提供し、それらを正確にターゲットテキストに転送することが望ましい。
【0158】
本発明は機械翻訳に対する応用において説明されてきたが、例えば、ソーステキストの文法性のチェックにおいて、あるいはコンピュータに自然言語入力を提供することにおいてなど、自然言語処理における他の使用も除外されていない。テキストの入出力が説明されてきたが、翻訳装置に音声対テキストおよび/テキスト対音声のインタフェースを与え、テキストの音声による入力および/または出力を可能にすることは簡単だろう。
【0159】
特定の実施形態が説明されてきたが、多くの他の変形および修正がなされてもよいことは明らかだろう。本発明は、添付請求項によりカバーされているかどうかに関係なく、技能のある読者には明らかとなるだろう、あらゆるおよびすべてのこのような変形、修正および代用に及ぶ。疑いを回避するために、あらゆるおよびすべての新規主題およびその組み合わせについて保護が求められている。
【0160】
文脈が明確にそれ以外を要求していない限り、記載および請求項全体で、ワード「備える(comprise)」、「備えている(comprising)」等は排他的あるいは網羅的な意味とは対照的な包括的な意味で、すなわち「含んでいるが、限定されない」の意味で解釈されるべきである。
【0161】
明細書を通して従来の技術の説明は、決して、このような従来の技術が幅広く既知であるか、あるいは分野の共通の一般的な知識の一部を形成することの承認として考えられてはならない。
【図面の簡単な説明】
【0162】
【図1】第1の実施形態によるコンピュータ翻訳システムの構成要素を示すブロック図である。
【図2】図1の一部を形成するコンピュータの構成要素を示すブロック図である。
【図3】図2のコンピュータ内に存在するプログラムおよびデータを示す図である。
【図4】本発明によるテキストの翻訳における段階を示す例示的な図である。
【図5】人間のユーザが例のテキストを書き加えるのを補助するために図1の装置により実行される注釈プロセスを示す流れ図である。
【図6】編集を可能にするために図5のプロセスの間に作成される画面を示す。
【図7】以後の翻訳のためのデータを生成するために第1の実施形態で実行される以後の処理ステップの概略的な概要を示す流れ図である。
【図8】冗長なレベルを描く図5のプロセスにより作成される画面表示を示す。
【図9】図8の冗長なレベルを排除するプロセスを描く流れ図である。
【図10】図9のプロセスの実行後に図8の構造に対応する構造を図解する。
【図11】関係詞節を含む(英語の)ソーステキストのために図5のプロセスにより作成される依存グラフを示す。
【図12】このような関係詞節に遭遇時に第1の実施形態により実行されるプロセスを示す流れ図である。
【図13】図11に対応し、図12のプロセスにより作成される構造を示す。
【図14】トピックがシフトされた句を含むソーステキストのために図5のプロセスにより作成される構造を示す。
【図15】トピックがシフトされた句に応えて第1の実施形態によって実行されるプロセスを示す流れ図である。
【図16】図14に対応し、図15のプロセスにより作成される構造を示す。
【図17】図1の実施形態により実行される翻訳プロセスの概要を示す流れ図である。
【図18a】第1の実施形態の翻訳プロセスをさらに詳細に示す流れ図である。
【図18b】第1の実施形態の翻訳プロセスをさらに詳細に示す流れ図である。
【図19a】一般化のための追加の翻訳構成要素を生成するために本発明の第2の実施形態で使用される翻訳構成要素を示す。
【図19b】一般化のための追加の翻訳構成要素を生成するために本発明の第2の実施形態で使用される翻訳構成要素を示す。
【図19c】一般化のための追加の翻訳構成要素を生成するために本発明の第2の実施形態で使用される翻訳構成要素を示す。
【図19d】一般化のための追加の翻訳構成要素を生成するために本発明の第2の実施形態で使用される翻訳構成要素を示す。
【図19e】一般化のための追加の翻訳構成要素を生成するために本発明の第2の実施形態で使用される翻訳構成要素を示す。
【図19f】一般化のための追加の翻訳構成要素を生成するために本発明の第2の実施形態で使用される翻訳構成要素を示す。
【図20】このような追加の構成要素が第2の実施形態で作成されるプロセスを示す流れ図である。
【図21】第3の実施形態による可能な翻訳単位の組み合わせ間の制限を生成するプロセスの第1の段階を示す流れ図である。
【図22】第3の実施形態のプロセスの第2の段階を示す流れ図である。
【図23a】第3の実施形態のプロセスの第3の段階を示す流れ図である。
【図23b】第3の実施形態のプロセスの第3の段階を示す流れ図である。
Claims (19)
- コンピュータ自然言語翻訳システムであって、該システムは、
ソース言語テキストを入力する手段と、
ターゲット言語テキストを出力する手段と、
前記ターゲット言語テキストを、前記ソース言語テキストから、ソースの例から生成されかつターゲット言語テキストに対応する記憶された翻訳データを用いて、生成する転移手段とを含み、
前記記憶された翻訳データは複数の翻訳単位を含み、各翻訳単位は、
前記ソース言語とターゲット言語の言語単位の発生の順を表現するそれぞれの表面データと、
前記ソース言語とターゲット言語の前記言語単位間の語義の関係に関するそれぞれの依存データと、
前記ターゲット言語の言語単位の対応する依存データと位置合わせされている前記ソース言語の言語単位の依存データと、を含むこと、および、
前記転移手段は、前記ソース言語テキストを分析するときには前記ソース言語の前記表面データを、前記ターゲット言語テキストを生成するときには前記ターゲット言語の前記表面データを、また前記ソーステキストの分析を前記ターゲット言語に関する分析に変換するときには前記依存データを、使用するよう構成されたこと、とを特徴とする。 - 請求項1に記載のシステムにおいて、前記翻訳単位のいくつかに関して、前記表面言語単位の数は、対応する前記依存言語単位の数とは異なる。
- 請求項1に記載のシステムにおいて、各前記翻訳単位に関して、前記表面データと前記依存データはそれぞれ、各言語に関して、主要語言語単位とそれぞれ前記主要語言語単位にリンクしたドーター言語単位を記憶するデータ構造とを含む。
- 請求項3に記載のシステムにおいて、前記言語単位は一定のデータ定義語を含む。
- 請求項3または請求項4に記載のシステムにおいて、前記言語単位は記入子変数を含む。
- 請求項1乃至請求項5のいずれか1項に記載のシステムにおいて、前記翻訳単位はグラフの形式で表現できる前記ソース言語分析を構成できるデータを含む。
- 請求項6に記載のシステムにおいて、該転移手段は前記表面データを用いてソース表面分析グラフと、前記依存データを用いてソース依存グラフとを生成するよう試みるように構成されている。
- 請求項6または請求項7に記載のシステムにおいて、該転移手段は前記依存データを用いてターゲット依存グラフと、前記表面データを用いてターゲット表面分析グラフとを生成するよう試みるように構成されている。
- 請求項6乃至請求項8のいずれか1項に記載のシステムにおいて、前記表面データは、特定または各々の前記表面グラフがツリー構造を有するよう制約されたようなものである。
- 請求項9に記載のシステムにおいて、前記ツリーは平面のツリーである。
- 請求項9または請求項10に記載のシステムにおいて、前記依存データは、特定または各々の前記依存グラフが平面ツリー構造を有するよう制約されていないようなものである。
- 請求項1に記載のシステムにおいて、前記ソース言語の言語単位の依存データと前記ターゲット言語の言語単位の対応する依存データとの位置合わせは、単一の対にされた記録の中の対応する前記ソース言語単位と前記ターゲット言語単位とを対にすることを含む。
- 翻訳に使用されるデータを生成するためのコンピュータ言語翻訳開発システムであって、該システムは、
対応するソース例テキストとターゲット例テキストとがソース言語依存グラフとターゲットの言語依存グラフにリンクできるようにする手段と、
ソーステキストとターゲットテキストの翻訳可能な部分を表す前記ソース言語依存グラフとターゲット言語依存グラフとの対応する翻訳可能なノードを位置合わせできるようにする手段と、
前記ソース言語依存グラフとターゲット言語依存グラフとから、それぞれ関連する表面表現グラフであってツリー構造を有するものを自動的に作成する手段と、を含む。 - 請求項13に記載のシステムにおいて、該作成手段は、2つの直接的に或いは間接的に翻訳可能なノード間に位置した中間ノードを依存グラフ内に位置させる手段と、前記依存グラフ内の該中間ノードに依存する該翻訳可能なノードを、前記表面表現構造において、中間ノードが依存する該翻訳可能なノードに直接的に代わりに依存させる手段と、を含む。
- 請求項13又は請求項14に記載のシステムにおいて、該作成手段は、依存グラフ内に2つの翻訳可能なノードに依存する依存ノードを位置させて、前記表面表現構造において、前記翻訳可能なノードの1を該依存ノードに依存させる手段を含む。
- 請求項13乃至請求項15のいずれか1項記載のシステムにおいて、前記作成手段は、依存グラフ内に、平面的な制約を破るために、より高いノードから依存する依存ノードを位置させ、また前記表面表現構造において、前記依存ノードを、前記制約を前記表面表現構造において満足するために、前記より高いノードが直接的に或いは間接的に依存するノードに依存させる手段を含む。
- コンピュータ上で実行するコードであって、前記コンピュータを請求項1乃至請求項16のいずれか1項記載のシステムとして動作させるコードを含むコンピュータプログラム。
- 依存グラフからテキストの分析の表面ツリー表現を推論する方法であって、該方法は、
ソース依存グラフとターゲット依存グラフの間の位置合わせに依存する方法で該依存グラフを単純化することと、
上記単純化された依存グラフから当初の(必ずしも平面的でない)表面ツリーを作成することと、
上記表面ツリーから最後の平面的な表面ツリーを作成すること、とを含む。 - コンピュータ自然言語翻訳システムのための翻訳単位を生成する方法であって、該方法は、
(a)ソース言語テキストの翻訳の例をターゲット言語テキストへ、かつ各このような例に対して提供するステップと、
(b)該ソース言語テキストとターゲット言語テキストに対して、それぞれの言語単位順序が保持されたそれぞれの依存グラフを作成するステップと、
(c)該ソース言語依存グラフの言語単位を、これらの言語単位が直接的に翻訳可能と思われる該ターゲット言語依存グラフのそれぞれ対応する言語単位とリンクさせるステップと、
(d)該依存グラフを変換アルゴリズムで処理して複数のルートノードを検出し、このような検出時に、複数のルートノードの1をドーターにして、それによって単一のルートノードを有する対応するツリーを作成するステップと、
(e)前記対応するツリーを処理して平面的なツリー突起制約を破るいかなる親/ドーターノード依存を検出し、このような検出時に、該ツリーのより高いノードから依存する関係するドーターノードを作るステップと、
(f)言語単位の各リンクされた対に対して、それぞれの主要語言語単位として、もしあればドーター言語単位と共に、かつステップ(d)とステップ(e)の動作の結果として依存変化に関するデータと共に、リンクされた言語単位を含むそれぞれの翻訳単位を生成するステップと、を含む。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP01309156A EP1306775A1 (en) | 2001-10-29 | 2001-10-29 | Machine translation |
PCT/GB2002/004902 WO2003038664A2 (en) | 2001-10-29 | 2002-10-29 | Machine translation |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005507525A true JP2005507525A (ja) | 2005-03-17 |
Family
ID=8182401
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003540856A Pending JP2005507525A (ja) | 2001-10-29 | 2002-10-29 | 機械翻訳 |
Country Status (6)
Country | Link |
---|---|
US (1) | US7565281B2 (ja) |
EP (2) | EP1306775A1 (ja) |
JP (1) | JP2005507525A (ja) |
CN (1) | CN1608259B (ja) |
CA (1) | CA2465329A1 (ja) |
WO (1) | WO2003038664A2 (ja) |
Families Citing this family (70)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5689361B2 (ja) * | 2011-05-20 | 2015-03-25 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | グラフデータの一部を準同型写像の像であるデータ構造に変換する方法、プログラム、および、システム |
AU2002316581A1 (en) * | 2001-07-03 | 2003-01-21 | University Of Southern California | A syntax-based statistical translation model |
WO2004001623A2 (en) | 2002-03-26 | 2003-12-31 | University Of Southern California | Constructing a translation lexicon from comparable, non-parallel corpora |
EP1634135B1 (en) * | 2003-02-28 | 2011-09-14 | Gannon Technologies Group | Systems and methods for source language word pattern matching |
US8548794B2 (en) | 2003-07-02 | 2013-10-01 | University Of Southern California | Statistical noun phrase translation |
US8296127B2 (en) * | 2004-03-23 | 2012-10-23 | University Of Southern California | Discovery of parallel text portions in comparable collections of corpora and training using comparable texts |
GB0406619D0 (en) * | 2004-03-24 | 2004-04-28 | British Telecomm | Induction of grammar rules |
US8666725B2 (en) * | 2004-04-16 | 2014-03-04 | University Of Southern California | Selection and use of nonstatistical translation components in a statistical machine translation framework |
DE112005002534T5 (de) * | 2004-10-12 | 2007-11-08 | University Of Southern California, Los Angeles | Training für eine Text-Text-Anwendung, die eine Zeichenketten-Baum-Umwandlung zum Training und Decodieren verwendet |
WO2006090732A1 (ja) * | 2005-02-24 | 2006-08-31 | Fuji Xerox Co., Ltd. | 単語翻訳装置、翻訳方法および翻訳プログラム |
US8676563B2 (en) | 2009-10-01 | 2014-03-18 | Language Weaver, Inc. | Providing human-generated and machine-generated trusted translations |
US8886517B2 (en) | 2005-06-17 | 2014-11-11 | Language Weaver, Inc. | Trust scoring for language translation systems |
US10319252B2 (en) | 2005-11-09 | 2019-06-11 | Sdl Inc. | Language capability assessment and training apparatus and techniques |
US8943080B2 (en) | 2006-04-07 | 2015-01-27 | University Of Southern California | Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections |
US8886518B1 (en) | 2006-08-07 | 2014-11-11 | Language Weaver, Inc. | System and method for capitalizing machine translated text |
US8214199B2 (en) * | 2006-10-10 | 2012-07-03 | Abbyy Software, Ltd. | Systems for translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions |
US20080086298A1 (en) * | 2006-10-10 | 2008-04-10 | Anisimovich Konstantin | Method and system for translating sentences between langauges |
US9047275B2 (en) | 2006-10-10 | 2015-06-02 | Abbyy Infopoisk Llc | Methods and systems for alignment of parallel text corpora |
US9633005B2 (en) | 2006-10-10 | 2017-04-25 | Abbyy Infopoisk Llc | Exhaustive automatic processing of textual information |
US9984071B2 (en) | 2006-10-10 | 2018-05-29 | Abbyy Production Llc | Language ambiguity detection of text |
US8892423B1 (en) * | 2006-10-10 | 2014-11-18 | Abbyy Infopoisk Llc | Method and system to automatically create content for dictionaries |
US9235573B2 (en) | 2006-10-10 | 2016-01-12 | Abbyy Infopoisk Llc | Universal difference measure |
US8195447B2 (en) * | 2006-10-10 | 2012-06-05 | Abbyy Software Ltd. | Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions |
US8548795B2 (en) * | 2006-10-10 | 2013-10-01 | Abbyy Software Ltd. | Method for translating documents from one language into another using a database of translations, a terminology dictionary, a translation dictionary, and a machine translation system |
US8145473B2 (en) | 2006-10-10 | 2012-03-27 | Abbyy Software Ltd. | Deep model statistics method for machine translation |
US9645993B2 (en) | 2006-10-10 | 2017-05-09 | Abbyy Infopoisk Llc | Method and system for semantic searching |
US8433556B2 (en) * | 2006-11-02 | 2013-04-30 | University Of Southern California | Semi-supervised training for statistical word alignment |
US9122674B1 (en) | 2006-12-15 | 2015-09-01 | Language Weaver, Inc. | Use of annotations in statistical machine translation |
US8468149B1 (en) | 2007-01-26 | 2013-06-18 | Language Weaver, Inc. | Multi-lingual online community |
US8615389B1 (en) | 2007-03-16 | 2013-12-24 | Language Weaver, Inc. | Generation and exploitation of an approximate language model |
US8959011B2 (en) | 2007-03-22 | 2015-02-17 | Abbyy Infopoisk Llc | Indicating and correcting errors in machine translation systems |
US8831928B2 (en) | 2007-04-04 | 2014-09-09 | Language Weaver, Inc. | Customizable machine translation service |
US8825466B1 (en) | 2007-06-08 | 2014-09-02 | Language Weaver, Inc. | Modification of annotated bilingual segment pairs in syntax-based machine translation |
US8452585B2 (en) * | 2007-06-21 | 2013-05-28 | Microsoft Corporation | Discriminative syntactic word order model for machine translation |
US8812296B2 (en) | 2007-06-27 | 2014-08-19 | Abbyy Infopoisk Llc | Method and system for natural language dictionary generation |
US8521516B2 (en) * | 2008-03-26 | 2013-08-27 | Google Inc. | Linguistic key normalization |
US8706477B1 (en) * | 2008-04-25 | 2014-04-22 | Softwin Srl Romania | Systems and methods for lexical correspondence linguistic knowledge base creation comprising dependency trees with procedural nodes denoting execute code |
US8452108B2 (en) * | 2008-06-25 | 2013-05-28 | Gannon Technologies Group Llc | Systems and methods for image recognition using graph-based pattern matching |
US20100017293A1 (en) * | 2008-07-17 | 2010-01-21 | Language Weaver, Inc. | System, method, and computer program for providing multilingual text advertisments |
US9262409B2 (en) | 2008-08-06 | 2016-02-16 | Abbyy Infopoisk Llc | Translation of a selected text fragment of a screen |
JP2010044637A (ja) * | 2008-08-14 | 2010-02-25 | Just Syst Corp | データ処理装置、方法、及びプログラム |
US20100189316A1 (en) * | 2009-01-27 | 2010-07-29 | Gannon Technologies Group, Llc | Systems and methods for graph-based pattern recognition technology applied to the automated identification of fingerprints |
US8762131B1 (en) * | 2009-06-17 | 2014-06-24 | Softwin Srl Romania | Systems and methods for managing a complex lexicon comprising multiword expressions and multiword inflection templates |
US8762130B1 (en) | 2009-06-17 | 2014-06-24 | Softwin Srl Romania | Systems and methods for natural language processing including morphological analysis, lemmatizing, spell checking and grammar checking |
US8990064B2 (en) | 2009-07-28 | 2015-03-24 | Language Weaver, Inc. | Translating documents based on content |
US8380486B2 (en) | 2009-10-01 | 2013-02-19 | Language Weaver, Inc. | Providing machine-generated translations and corresponding trust levels |
US10417646B2 (en) | 2010-03-09 | 2019-09-17 | Sdl Inc. | Predicting the cost associated with translating textual content |
EP2680162A1 (en) | 2010-07-13 | 2014-01-01 | Motionpoint Corporation | Localisation of website content |
US11003838B2 (en) | 2011-04-18 | 2021-05-11 | Sdl Inc. | Systems and methods for monitoring post translation editing |
US8694303B2 (en) | 2011-06-15 | 2014-04-08 | Language Weaver, Inc. | Systems and methods for tuning parameters in statistical machine translation |
US8886515B2 (en) | 2011-10-19 | 2014-11-11 | Language Weaver, Inc. | Systems and methods for enhancing machine translation post edit review processes |
US8935151B1 (en) | 2011-12-07 | 2015-01-13 | Google Inc. | Multi-source transfer of delexicalized dependency parsers |
US8942973B2 (en) | 2012-03-09 | 2015-01-27 | Language Weaver, Inc. | Content page URL translation |
US9411890B2 (en) * | 2012-04-04 | 2016-08-09 | Google Inc. | Graph-based search queries using web content metadata |
US8989485B2 (en) | 2012-04-27 | 2015-03-24 | Abbyy Development Llc | Detecting a junction in a text line of CJK characters |
US8971630B2 (en) | 2012-04-27 | 2015-03-03 | Abbyy Development Llc | Fast CJK character recognition |
US10261994B2 (en) | 2012-05-25 | 2019-04-16 | Sdl Inc. | Method and system for automatic management of reputation of translators |
US9152622B2 (en) | 2012-11-26 | 2015-10-06 | Language Weaver, Inc. | Personalized machine translation via online adaptation |
CN104252439B (zh) | 2013-06-26 | 2017-08-29 | 华为技术有限公司 | 日记生成方法及装置 |
US9213694B2 (en) | 2013-10-10 | 2015-12-15 | Language Weaver, Inc. | Efficient online domain adaptation |
RU2592395C2 (ru) | 2013-12-19 | 2016-07-20 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Разрешение семантической неоднозначности при помощи статистического анализа |
RU2586577C2 (ru) | 2014-01-15 | 2016-06-10 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Фильтрация дуг в синтаксическом графе |
RU2596600C2 (ru) | 2014-09-02 | 2016-09-10 | Общество с ограниченной ответственностью "Аби Девелопмент" | Способы и системы обработки изображений математических выражений |
US9626358B2 (en) | 2014-11-26 | 2017-04-18 | Abbyy Infopoisk Llc | Creating ontologies by analyzing natural language texts |
US10043511B2 (en) | 2017-01-06 | 2018-08-07 | International Business Machines Corporation | Domain terminology expansion by relevancy |
US10032448B1 (en) | 2017-01-06 | 2018-07-24 | International Business Machines Corporation | Domain terminology expansion by sensitivity |
CN110610630B (zh) * | 2019-08-02 | 2021-05-14 | 广州千课教育科技有限公司 | 一种基于错误离散度检查的智能英语教学系统 |
CN112417140A (zh) * | 2020-11-19 | 2021-02-26 | 北京猎户星空科技有限公司 | 文法配置方法、文法匹配方法、装置和计算机设备 |
CN112541335B (zh) * | 2020-12-24 | 2023-09-01 | 北京百度网讯科技有限公司 | 生成解读文本的方法、装置、电子设备及存储介质 |
US11829726B2 (en) * | 2021-01-25 | 2023-11-28 | International Business Machines Corporation | Dual learning bridge between text and knowledge graph |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58201175A (ja) * | 1982-05-20 | 1983-11-22 | Kokusai Denshin Denwa Co Ltd <Kdd> | 機械翻訳方式 |
US4635199A (en) * | 1983-04-28 | 1987-01-06 | Nec Corporation | Pivot-type machine translating system comprising a pragmatic table for checking semantic structures, a pivot representation, and a result of translation |
JPH0242572A (ja) * | 1988-08-03 | 1990-02-13 | Hitachi Ltd | 共起関係辞書生成保守方法 |
EP0672989A3 (en) * | 1994-03-15 | 1998-10-28 | Toppan Printing Co., Ltd. | Machine translation system |
JPH08101837A (ja) | 1994-09-30 | 1996-04-16 | Toshiba Corp | 機械翻訳装置における翻訳規則学習方法 |
US5678383A (en) * | 1996-01-16 | 1997-10-21 | Danielewicz; Ben | Construction assembly for supporting thin panels |
US6161083A (en) * | 1996-05-02 | 2000-12-12 | Sony Corporation | Example-based translation method and system which calculates word similarity degrees, a priori probability, and transformation probability to determine the best example for translation |
WO1999062002A1 (en) | 1998-05-27 | 1999-12-02 | Master's Innovations Ltd Oy | A method and arrangement for translation of information |
US7072826B1 (en) * | 1998-06-04 | 2006-07-04 | Matsushita Electric Industrial Co., Ltd. | Language conversion rule preparing device, language conversion device and program recording medium |
JP3695191B2 (ja) * | 1998-12-25 | 2005-09-14 | 日本電気株式会社 | 翻訳支援装置及びその方法並びにコンピュータ可読記録媒体 |
US6323452B1 (en) * | 1999-08-05 | 2001-11-27 | United Parcel Service Of America, Inc. | Feeding system and method for placing a plurality of objects on a tray of an automated sorting system |
US6330530B1 (en) * | 1999-10-18 | 2001-12-11 | Sony Corporation | Method and system for transforming a source language linguistic structure into a target language linguistic structure based on example linguistic feature structures |
US6600418B2 (en) * | 2000-12-12 | 2003-07-29 | 3M Innovative Properties Company | Object tracking and management system and method using radio-frequency identification tags |
US6885985B2 (en) * | 2000-12-18 | 2005-04-26 | Xerox Corporation | Terminology translation for unaligned comparable corpora using category based translation probabilities |
JP4574047B2 (ja) * | 2001-03-30 | 2010-11-04 | 富士通株式会社 | 訳例辞書を用いて翻訳を行う機械翻訳装置およびプログラム |
US7734459B2 (en) * | 2001-06-01 | 2010-06-08 | Microsoft Corporation | Automatic extraction of transfer mappings from bilingual corpora |
US7050964B2 (en) * | 2001-06-01 | 2006-05-23 | Microsoft Corporation | Scaleable machine translation system |
US7191115B2 (en) * | 2001-06-20 | 2007-03-13 | Microsoft Corporation | Statistical method and apparatus for learning translation relationships among words |
EP1351158A1 (en) * | 2002-03-28 | 2003-10-08 | BRITISH TELECOMMUNICATIONS public limited company | Machine translation |
EP1349079A1 (en) * | 2002-03-28 | 2003-10-01 | BRITISH TELECOMMUNICATIONS public limited company | Machine translation |
US7171363B2 (en) * | 2002-12-23 | 2007-01-30 | System Application Engineering, Inc. | Pick-by-line system and method |
US7698124B2 (en) * | 2004-11-04 | 2010-04-13 | Microsoft Corporaiton | Machine translation system incorporating syntactic dependency treelets into a statistical framework |
-
2001
- 2001-10-29 EP EP01309156A patent/EP1306775A1/en not_active Withdrawn
-
2002
- 2002-10-29 CA CA002465329A patent/CA2465329A1/en not_active Abandoned
- 2002-10-29 US US10/493,949 patent/US7565281B2/en not_active Expired - Fee Related
- 2002-10-29 JP JP2003540856A patent/JP2005507525A/ja active Pending
- 2002-10-29 EP EP02777454A patent/EP1446732A2/en not_active Withdrawn
- 2002-10-29 CN CN028216970A patent/CN1608259B/zh not_active Expired - Fee Related
- 2002-10-29 WO PCT/GB2002/004902 patent/WO2003038664A2/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
CN1608259A (zh) | 2005-04-20 |
WO2003038664A3 (en) | 2004-06-17 |
WO2003038664A2 (en) | 2003-05-08 |
CA2465329A1 (en) | 2003-05-08 |
US7565281B2 (en) | 2009-07-21 |
US20050015240A1 (en) | 2005-01-20 |
EP1446732A2 (en) | 2004-08-18 |
EP1306775A1 (en) | 2003-05-02 |
CN1608259B (zh) | 2010-10-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2005507525A (ja) | 機械翻訳 | |
JP2005507524A (ja) | 機械翻訳 | |
US5895446A (en) | Pattern-based translation method and system | |
JP4404211B2 (ja) | マルチリンガル翻訳メモリ、翻訳方法および翻訳プログラム | |
JP5538820B2 (ja) | 2カ国語コーパスからの変換マッピングの自動抽出プログラム | |
JP4554273B2 (ja) | 機械トランスレータをトレーニングする方法およびそのシステム | |
JP4714400B2 (ja) | スケーラブル機械翻訳システム | |
US20050137853A1 (en) | Machine translation | |
US20050171757A1 (en) | Machine translation | |
US9053090B2 (en) | Translating texts between languages | |
JP2006164293A (ja) | 自動自然言語翻訳 | |
Krishnamurthy et al. | Ease: Enabling hardware assertion synthesis from english | |
JP2001503540A (ja) | アノテートされたテキストの自動翻訳 | |
JP4869281B2 (ja) | 機械翻訳装置、プログラム及び方法 | |
KR950013129B1 (ko) | 기계번역장치 및 방법 | |
US20220004708A1 (en) | Methods and apparatus to improve disambiguation and interpretation in automated text analysis using structured language space and transducers applied on automatons | |
JP3680489B2 (ja) | 機械翻訳装置および機械翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JPH0561902A (ja) | 機械翻訳システム | |
EP1306773A1 (en) | Machine translation | |
EP1306774A1 (en) | Machine translation | |
Mohanlal et al. | PARSING IN TAMIL–PRESENT STATE OF ART | |
JP2002117028A (ja) | 辞書作成装置および方法と辞書作成プログラムを記録した記録媒体 | |
JPH06309352A (ja) | アスペクト処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050802 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070605 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20070829 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20070905 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071128 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20071225 |