JP2005507525A

JP2005507525A - 機械翻訳

Info

Publication number: JP2005507525A
Application number: JP2003540856A
Authority: JP
Inventors: アップルビー、スティーブン・クリフォード
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 2001-10-29
Filing date: 2002-10-29
Publication date: 2005-03-17
Also published as: CN1608259A; WO2003038664A3; WO2003038664A2; CA2465329A1; US7565281B2; US20050015240A1; EP1446732A2; EP1306775A1; CN1608259B

Abstract

コンピュータ自然言語翻訳システムシステムは、ソース言語テキストを入力する手段と、ターゲット言語テキストを出力する手段と、前記ターゲット言語テキストを前記ソース言語テキストから、ソースの例から生成されかつターゲット言語テキストに対応する記憶された翻訳データを用いて生成する転移手段とを含む。前記記憶された翻訳データは複数の翻訳構成要素を含み、各翻訳構成要素は、前記構成要素内の言語単位の発生の順を表現する表面データと、前記構成要素内の言語単位間の語義の関係に関する依存データと、前記ソース言語の言語構成要素の依存データを前記ターゲット言語構成要素の対応する依存データとリンクさせるリンクデータとを含み、また前記転移手段は、前記ソース言語テキストを分析するときには前記ソース言語の前記表面データを、また前記ターゲット言語テキストを生成するときには前記ターゲット言語の前記表面データを、また前記ソーステキストの分析を前記ターゲット言語に関する分析に変換するときには前記依存データとリンクデータを使用するように構成されたことを特徴とする。
【選択図】図４

Description

【技術分野】
【０００１】
本発明は機械翻訳に関する。さらに詳細には、本発明は例に基づいた機械翻訳に関する。機械翻訳とは言語処理の１つの部門である。
【背景技術】
【０００２】
大部分の機械翻訳システムにおいては、言語学者が、ソース言語（翻訳元の言語）とターゲット言語（翻訳先の言語）の文法、およびソーステキストに対応するデータをターゲットテキストに対応するデータに転移するための転移(transfer)規則に関係する一連の規則の作成を補助している。伝統的な「転移」アーキテクチャにおいては、最初に、ソース言語の統語的依存を削除し、次にターゲット言語に転移されるテキストの意味論（意味）により近い何かに到達するためにソース文法規則が適用され、その転移の時点でターゲット言語の文法規則は構文上正しいターゲット言語テキストを生成するために適用される。
【０００３】
しかしながら、このようなシステムのための手作りの規則は高価で、時間を要し、エラーを起こしやすい。これらの問題点を削減する１つの方法はソース言語テキストとその翻訳の例をターゲット言語の中に導入し、それらの中から適当な規則を抽出しようと試みることである。あるアプローチでは、ソース言語とターゲット言語の例のテキストが対応を示すために手作業で書き加えられる。
【０００４】
この分野における従来の研究は、例えば、ＢｒｏｗｎＰＦ、ＣｏｃｋｅＪ、ｄｅｌｌａＰｉｅｔｒａＳＡ、ｄｅｌｌａＰｉｅｔｒａＶＪ、ＪｅｌｉｎｅｋＦ、ＬａｆｆｅｒｔｙＪＤ、ＭｅｒｃｅｒＲＬおよびＲｏｏｓｓｉｎＰＳ、１９９０年、コンピュータ的言語学（Computational Linguistics）の１６２、７９〜８５頁の「機械翻訳に対する統計的なアプローチ（A Statistical Approach to Machine Translation）」、ＢｅｒｇｅｒＡ、ＢｒｏｗｎＰ、ｄｅｌｌａＰｉｅｔｒａＳＡ、ｄｅｌｌａＰｉｅｔｒａＶＪ、ＧｉｌｌｅｔＪ、ＬａｆｆｅｒｔｙＪ、ＭｅｒｃｅｒＲ、ＰｒｉｎｔｚＨおよびＵｒｅｓＬ、１９９４年、人間言語技術（Human Language Technology）、ＡＲＰＡスピーチおよび自然言語に関するワークショップの議事録（Proceeding of the ARPA Workshop on Speech and Natural Language）における「機械翻訳の候補システム（Candide System for Machine Translation）」、ＳａｔｏＳおよびＮａｇａｏＭ、１９９０年、ＣＯＬＩＮＧ‘９０における「メモリに基づく翻訳（Towards Memory-based Translation）」、ＳａｔｏＳ、１９９５年、人工知能（Artificial Intelligence）、７５１、３１〜４９頁、「ＭＢＴ２：例に基づいた翻訳において例の断片を結合する方法（A Method for Combining Fragments of Examples in Example-based Translation）」、ＧｕｖｅｎｉｒＨＡおよびＣｉｃｅｋｌｉＩ、１９９８年、情報システム（Information Systems）、２３６、３５３〜６３６頁、「翻訳テンプレートの例からの学習（Learning Translation Templates from Examples）」、ＷａｔａｎａｂｅＨ、１９９５年、機械翻訳（Machine Translation）１０４、２６９〜２９１頁、「規則組み合わせを使用する双方向転移機構のモデル（A Model of a Bi-Directional Transfer Mechanism Using Rule Combinations）」、Ａｌ−ＡｄｈａｉｌｅｈＭＨおよびＫｏｎｇＴＥ、ＣＯＬＩＮＧ−ＡＣＬ‘９８の議事録（Proceedings of COLING-ACL’98）、６８７〜６９３頁の「ＳＳＴＣに基づいた柔軟な例に基づいた構文解析ツール（A Flexible Example-based Parsar based on SSTC）」に説明されている。
【０００５】
ＳａｔｏとＮａｇａｏはソーステキストとターゲットテキストを平面的な依存ツリーとして表現するシステムを開発した。依存ツリーは特定の種類の依存グラフである。依存グラフにおいては、テキストのワードは、別のワードに依存する（つまり、別のワードの意味を修正する、あるいは別のワードとなんらかの関係にある）あるワードが（方向の）依存関係によりリンクされるようにリンクされているノードに対応する。（１つの一意の「ルート」ノード以外の）各ノードが（一方のノードはそれから依存するいくつかを有する、つまり複数の他を支配する可能性があるが）１つの他方に正確に依存している場合、依存グラフはツリーである。平面的なツリーとは、ワードがそれらの元のシーケンスで配列されているときに「突起(projection)制約」が満足されている。言い換えると、各ノードのスパン内のあらゆるワードがそのノードにより支配されている。言い換えると、図式では依存線が別の依存線に交差しない。平面的なツリーは、特に計算上効率的であるため、それ故にそれらを使用することは有利である。
【０００６】
しかしながら、平面的なツリーは、ソーステキストとターゲットテキスト内で互いに依存するワードが隣接しているときにのみすぐに有効である。言い換えると、ソーステキスト内でのワードの隣接するシーケンスはターゲットテキスト内でのワードの隣接するシーケンスによる翻訳である。文のレベルでは、これは当てはまる可能性が高いが、短い句ほどより一般的に適用可能であるため、より少ない数の例からより多くの翻訳範囲を可能にするために、翻訳できるだろう翻訳単位（つまり、句などの文の部分）、また翻訳構成要素と称される、の最大サイズを縮小することが望ましいだろう。従来の技術においてはこの問題に対する異なるアプローチが取られてきた。この問題のため、句の主要語(head)ワードを連結する連結データを用いることによりソース言語の句とターゲット言語の句を単に位置合わせする(align)ことは可能ではなかった。
【０００７】
ＳａｔｏのＭＢＴ２方法はソーステキストとターゲットテキストの両方ともを単純な平面的なツリーとして分析し、単純なツリーの位置合わせ(alignment)を使用してソース言語とターゲット言語の中のツリー間の関係を表現している。例の中に見られるツリーは、ノードの追加とノードの削除などのいくつかの特定の変形（transforms）を可能にすることにより一般化され、Ｓａｔｏのシステムにより生成される翻訳は既存の翻訳との類似性の基準を使用して分類される。
【発明の開示】
【０００８】
本発明は、ソーステキストとターゲットテキストの２つのレベルの表現を採用する。第１のレベルはテキストの表面形式（語順を含む）に依存し、第２のレベルは単語間の語義の依存に依存している。ソース言語分析とターゲット言語生成は該第１のレベルを使用する。ソース言語からターゲット言語への転移は第２のレベルを使用して実行される。
【０００９】
一態様においては、本発明は、このようなプロセスを用いて分析を実行するよう構成された翻訳システムを提供する。別の態様においては、本発明は例の翻訳テキストからこの種の翻訳システムを開発するシステムを提供する。いずれかのケースでは、本発明はコンピュータプログラムとして実現されてもよく、またこのようなプログラムとそれによって使用のためのデータ構造を実現する。
【００１０】
別の態様では、本発明は依存グラフからテキストの分析の表面ツリー表現を推論する方法を提供する。該方法は、
ソース依存グラフとターゲット依存グラフの間の位置合わせに依存する方法で該依存グラフを単純化することと、
上記単純化された依存グラフから当初の（必ずしも平面的でない）表面ツリーを作成することと、
上記表面ツリーから最後の平面的な表面ツリーを作成すること、とを含む。
【００１１】
翻訳のために使用される依存表現へのリンクを保持する一方、表面語順の平面的なツリー表現を生成する自動プロセスの提供によって、翻訳システムは単純な論理プログラミングを用いて動作できる。
【００１２】
別の態様では、本発明はコンピュータ自然言語翻訳システムのための翻訳単位を生成する方法を提供する。該方法は、
（ａ）ソース言語テキストの翻訳の例をターゲット言語テキストへ、かつ各このような例に対して提供するステップと、
（ｂ）該ソース言語テキストとターゲット言語テキストに対して、それぞれの言語単位順序が保持されたそれぞれの依存グラフを作成するステップと、
（ｃ）該ソース言語依存グラフの言語単位を、これらの言語単位が直接的に翻訳可能と思われる該ターゲット言語依存グラフのそれぞれ対応する言語単位とリンクさせるステップと、
（ｄ）該依存グラフを変換アルゴリズムで処理して複数のルートノードを検出し、このような検出時に、複数のルートノードの１をドーターにして、それによって単一のルートノードを有する対応するツリーを作成するステップと、
（ｅ）前記対応するツリーを処理して平面的なツリー突起(projection)制約を破るいかなる親／ドーターノード依存をも検出し、このような検出時に、該ツリーのより高いノードから依存する関係するドーターノードを作るステップと、
（ｆ）言語単位の各リンクされた対に対して、それぞれの主要語言語単位として、もしあればドーター言語単位と共に、かつステップ（ｄ）とステップ（ｅ）の動作の結果として依存変化に関するデータと共に、リンクされた言語単位を含むそれぞれの翻訳単位を生成するステップと、を含む。
【００１３】
本発明は、一般に、翻訳アプローチおよび機械翻訳方法に適用可能である。本発明の実施形態はテキストの相対的に少ない数の例から一般化することができ、これによりこのような実施形態は、例えば、ＭｅｌｂｙＡＫおよびＷｒｉｇｈｔＳＥ、１９９９年、専門用語および知識の表現に関する第５国際会議の議事録（Proceedings of the 5th International Congress on Terminology and Knowledge Representation）、５４４〜５６９頁の「辞書編集資源とともに使用するための用語上のデータの利用（Leveraging Terminological Data For Use In Conjunction With Lexicographical Resources）」により説明されるような翻訳メモリに保持されるテキストとともに使用できるようになる。
【００１４】
本発明の実施形態は、ここでは添付図面に関して例によってのみ説明されるだろう。
【発明を実施するための最良の形態】
【００１５】
第１の実施形態
図１は、本発明を実現するために適した装置を示している。この装置はキーボード１０２、コンピュータ１０４および視覚的表示装置１０６を備えるワークステーション１００から構成されている。例えば、ワークステーション１００は高性能パーソナルコンピュータまたはサン(sun)ワークステーションであってよい。
【００１６】
図２は、ＣＰＵ１０８（ペンティアム（Ｐｅｎｔｉｕｍ）ＩＩＩ（ＴＭ）または縮小命令セット（ＲＩＳＣ）プロセッサ１０８であってよい）を備える図１のコンピュータ１０４の構成要素を示している。ＣＰＵに接続されているのはキーボード、ＶＤＵおよび他の構成要素と通信するための周辺チップセット１１２と、実行プログラムおよび作業データを記憶するためのメモリ１１４と、以後の実行のためにプログラムとデータを記憶する記憶装置１１０である。該記憶装置１１０はハードディスクドライブを備える。該ハードディスクドライブが取り外し自在ではない場合には、記憶装置１１０は、記憶されているテキストファイルの入力を可能にするためのフロッピーディスク（ＴＭ）ドライブなどの取り外し自在記憶装置も備える。
【００１７】
図３は、ＣＰＵ１０８による実行のために記憶装置１１０上で保持されているプログラムおよびデータを描いている。これらは開発プログラム２２０および翻訳プログラム２３０を備える。
【００１８】
該開発プログラムはソーステキストファイル２２４およびターゲットテキストファイル２２６上で動作しているマッピングプログラム２２２を備える。この実施形態では、開発プログラムはそれらの統語的且つ語義的なプロパティに関するデータとともにソース言語のワードを記憶するソース語彙目録２３４と、互いの翻訳であるソースワードとターゲットワードをリンクするマッピングデータ（ＥｕｒｏｗｏｒｄｎｅｔＬｅｘｉｃｏｎシステムの共用識別子のような）とともに、ターゲット言語から類似する情報を記憶するターゲット言語語彙目録２３６も備える。
【００１９】
翻訳プログラムは、マッピングプログラム２２２により確立される関係により定義されるＰＲＯＬＯＧ規則の形式で翻訳データを記憶する翻訳データ記憶装置２３２を備える。翻訳論理プログラム２３８（例えば、ＰＲＯＬＯＧプログラム）は、規則２３２を使用して翻訳プログラムによって講じられる段階を定義し、論理インタプリタ(interpreter)プログラム２３９は翻訳論理および規則をＣＰＵ１０８による実行のためのコードに翻訳する。
【００２０】
最後に、オペレーティングシステム２３７はグラフィックユーザインタフェース、入力／出力機能および周知の機能を提供する。オペレーティングシステムは、例えば、Ｘ−Ｗｉｎｄｏｗｓとともに動作するＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ（ＴＭ）またはＵｎｉｘ（ＴＭ）またはＬｉｎｕｘであってもよい。
【００２１】
図４は、翻訳プロセスの概要である。ソース言語テキスト（Ａ）は、ターゲット依存構造（Ｄ）に関連付けられるソース依存構造（Ｃ）を定義するデータに対応するソース表面ツリー（Ｂ）を表すデータを提供するために解析される。次に、ターゲット依存構造は、ターゲット言語テキスト（Ｆ）が生成されるターゲット表面ツリー（Ｅ）構造を生成するために採用される。
【００２２】
これらの段階はさらに詳細に後述される。しかしながら、最初に、以後の翻訳で使用するためのデータを提供する際に開発プログラム２２０により実行されるプロセスを説明する。
【００２３】
翻訳開発プログラム
図５を参照すると、ステップ４０２では、マッピングプログラム２２２が、ソース文書の第１の文、および翻訳文書の対応する文のワードを備える画面ディスプレイ（図６に図示される）を作成する（このケースでは、ソース文書には英語の文「Ｉｌｉｋｅｔｏｓｗｉｍ」があり、ターゲット文書には対応するドイツ語の文「Ｉｃｈｓｃｈｗｉｍｍｅｇｅｒｎ」がある）。それぞれのワードはグラフィックボックス１００２〜１００８、１０１０〜１０１４の中に表示されている。マッピングプログラムにより、ユーザはワードを縦に移動することができるが、（ソーステキストとターゲットテキストの中でのワードの実際の発生順序に相当する）それらの相対的な水平位置を変更することはできない。
【００２４】
次にユーザ（翻訳者または言語学者）はワードを含むボックス間の依存関係線(dependency relationship lines)（「リンク」）を（マウスまたは他のカーソル制御装置を使用して）描画することができる。このケースでは、ユーザは、主要語(head)１００８からドーター(daughters)１００２〜１００６のそれぞれに依存線を描画することにより、英語のテキストの中の「主要語」ワードとして「ｓｗｉｍ」（１００８）を、「Ｉ」（１００２）、「ｌｉｋｅ」（１００４）、「ｔｏ」を「ドーター」として選択している。
【００２５】
この時点で、このケースにおけるソース言語の中のドーター１００２〜１００６のすべてが主要語１００８の左側にあることに注意されたい。これらは「左ドーター」と呼ばれる。主要語の内の１つは全文（或いは、さらに一般的な用語ではテキストのブロック）の表面ルート(surface root)としてマーキングされる。
【００２６】
ソースグラフの編集は（ステップ４０４）、ユーザが必要とされるすべてのワードをリンクする（ステップ４０６）まで続行する。それから、ターゲット言語テキスト（１０１２〜１０１４）についてプロセスが繰り返される（ステップ４０８、４１０、４１２）。
【００２７】
いったん依存グラフ(dependency graphs)がソース言語テキストとターゲット言語テキストについて構築されると、ステップ４１４でプログラム２２２によりユーザは互いの翻訳として対にすることができるソース言語テキストとターゲット言語テキストの中のワード間の位置合わせを示す連結（リンク）を提供することができる。このケースでは、「Ｉ」（１００２）は「Ｉｃｈ」（１０１０）と対にされ、「ｓｗｉｍ」（１００８）は「ｓｃｈｗｉｍｍｅ」（１０１２）と対にされる。
【００２８】
ソーステキストの中のあらゆるワードがターゲットテキストの中のワードによって直接的に翻訳可能であるわけではなく、一般的にはユーザは互いの優れた直接的な翻訳であるワードを連結するにすぎないだろう。しかしながら、ユーザは、たとえそれらの主要語ワード自体は直接的な翻訳ではないにしても、直接的な翻訳である句の対の先頭にあるワードを連結するだろう。本発明の目的のため、このような連結された主要語ワードは直接的に翻訳可能と見なされる言語単位を構成している。
【００２９】
しかしながら、連結（位置合わせ）がワードの下の句が（存在する場合は）翻訳対であるだけではなく、主要語ワード自体も翻訳対を形成することも示すことは、通常本実施形態にはあてはまる。
【００３０】
ユーザが終了すると（ステップ４１６）、ソース言語ファイルとターゲット言語ファイルの中に処理されるべきさらなる文がまだ残っているかどうかが判断され、残っていない場合には、ユーザの関与は終了し、ユーザインタフェースは閉じられる。さらなる文が残っている場合には、次の文が選択され（ステップ４２０）プロセスはステップ４０２として再開する。この段階で翻訳例を表すデータは、現在、言語単位を表すノードの集合、リンクが依存グラフを定義するノード間の向けられた（directed）リンクの集合、および２つの言語の中のノード間の位置合わせを示すリンクの集合から構成されている。この構造が翻訳例レコード（Translation Example Record）と呼ばれる。
【００３１】
翻訳例レコードの処理
図７を参照すると、開発プログラム２２０により本実施形態で実行されるプロセスは以下のとおりである。ステップ５０２では翻訳例レコード内の依存グラフが選択され、ステップ５０４で冗長な構造が削除される（以下を参照すること）。
【００３２】
ステップ５１０では、関係詞節変換プロセス（さらに詳しく後述される）が実行される。これは、すでに生成された依存グラフデータのコピーを作成してから、該コピーを変換することにより達成される。この結果がツリー構造である。
【００３３】
ステップ５５０では、トピックシフト変形プロセスがグラフの編集されたコピー上で実行される（さらに詳しく後述される）。結果はワードの表面順序を保持する平面的なツリーであり、これはステップ５８０で元の依存グラフデータとともに記憶される。
【００３４】
最後に、ステップ５９０では、各翻訳例レコードが翻訳単位と呼ばれるだろう別々の単位に分割される。各翻訳単位レコードは、主要語ワードごとに主要語ワードの左側の表面ドーター（左ドーター）のリスト、主要語ワードの右側の表面ドーター（右ドーター）のリスト、および依存グラフ内のドーターのリストとともに、ソース言語とターゲット言語内の主要語ワードの対から構成されている。このような翻訳単位は翻訳構成要素対（ソース言語のための１つの構成要素と、ターゲット言語のための１つの構成要素）とも呼ばれている。ステップ５８２では、すべてが処理されるまで次の依存グラフが選択される。
【００３５】
冗長な層の削除
ここでステップ５０４をさらに詳細に説明する。図８は英語の句「Ｉｌｏｏｋｆｏｒｔｈｅｂｏｏｋ」とフランス語の翻訳「Ｊｅｃｈｅｒｃｈｅｌｅｌｉｖｒｅ」の翻訳例レコードを描いている。
【００３６】
英語のソーステキストでは、ワード「ｆｏｒ」（１１０６）はフランス語のターゲットテキストの中のワードと位置合わせされていないため、翻訳可能なワードまたは句を定義していない。「ｆｏｒ」が（それ自体を含み）支配するワードの部分集合、すなわちターゲット言語の中のワードの部分集合の翻訳はない。したがって、ワード「ｆｏｒ」が「ｂｏｏｋ」を支配するという事実は翻訳では役立たない。
【００３７】
したがって、本実施形態では、「ｌｏｏｋ」１１０４と「ｂｏｏｋ」１１１０の間の「ｆｏｒ」によって表現される不必要な構造は排除される。これらの変型は依存グラフを簡略化するために依存データの上で直接的に実行される。
【００３８】
図９と図１０を参照すると、ステップ５０５では、「リーフ(leaf)」ノード（つまり、他のいずれのノードをも支配しないノード）が選択され、次にステップ５０６で前記の次のノードがアクセスされる。これがそれ自体翻訳ノードである、つまり他の言語の中のノードと位置合わせされている（ステップ５０７）場合には、プロセスは次のノードアップアゲイン（node up again）を読み取るためにステップ５０５に戻る。
【００３９】
前記ノードが他の言語の中のノードと位置合わせされていない（ステップ５０７）場合には、次のノードアップアゲインが読み取られる（ステップ５０８）。それが位置合わせされたノードである場合には（ステップ５０９）、ステップ５０５で選択された元のノードはリンクを解かれ（unlinked）、その位置合わせされたノードに再び付けられる（ステップ５１０）。位置合わせされたノードではない場合には、翻訳ノードに到達するまで次のノードアップアゲインが読み取られる（ステップ５０８）。このプロセスは、すべてが処理されるまで「リーフ」ノードから階層の上まで順番にノードのそれぞれについて繰り返される。図１０は、ノード１１０４からノード１１１０までのリンクにより置換されるノード１１０６と１１１０の間のリンクを示している。
【００４０】
後述されるように各翻訳構成要素が主要語とその接近した被支配項から構成されるように作ることができるため、この冗長な構造の削除は、翻訳システムの実現を大幅に簡略化する。中間層はない。これにより翻訳構成要素は（Ｒｏｓｅｔｔａシステムで使用されるものに匹敵する）位置合わせされた文法規則のように見え、これは通常の構文解析プログラムが、ソース分析を実行し、それにより翻訳を作成するために使用できることを意味する。
【００４１】
説明されたばかりのこの変形では、依存グラフの中の各ノードが明白な親を有すると仮定される。しかしながら、依存グラフはこのトポロジに限定されない。複数の親がある、あるいはまったく親がない位置合わせされていないノードがある場合、（後述される）相対化変形が必要に応じ実行される。これにより、位置合わせされているノードだけが正確に１つの親以外を有することができることが保証される。
【００４２】
表面ツリーの作成
開発プログラム２２０によって実行される次の工程は、前記に引き出された依存グラフを処理し、関連付けられた表面ツリーを作成することである。図６に示される依存グラフはすでに平面的なツリーの形を取っているが、これは常に当てはまるわけではない。
【００４３】
以下の工程では依存グラフを使用し、前述されたように引き出された処理された依存グラフ情報のコピーを作成してから、変形することによって表面ツリー構造を作成する。
【００４４】
関係詞節変換（「相対化」）
図１１は、ノード１０２２〜１０３８から構成される英語の句「ＩｋｎｏｗｔｈｅｃａｔｔｈａｔＭａｒｙｔｈｏｕｇｈｔＪｏｈｎｓａｗ」についてユーザにより構築される可能性がある依存グラフを示している。図１１の節などのような関係詞節においては、依存グラフが主要な動詞（「ｋｎｏｗ」）および従属節の動詞（「ｔｈｏｕｇｈｔ」）に対応する複数のルート(root)を有するだろう。その結果、依存グラフが２つのルートを有していることによって、および「ｃａｔ」（１０２８）が２つのノード（「ｋｎｏｗ」（１０２４）と「ｓａｗ」（１０３８））によって支配されるためにツリーではないということである。我々は、依存グラフが以下のプロパティを有すると仮定する。
【００４５】
それらは弱く連結され、向けられた非環式のグラフである、
ｎのノードのあるグラフの場合、ｎ−１のリンクがある。
ノードＡとＢに複数の親がある場合には、ＡからＢへまたはＢからＡへの経路は存在しない。
【００４６】
これらの仮定は、依存グラフが、共通のノードを共用することにより結合された、節ごとに１つ、ツリーの連結された集合を備えることを暗示している。我々は、これらのツリーの１つが主要ツリーであり、このツリーのルートが主要なルートであると見なす。
【００４７】
図１２と図１３を参照すると、依存グラフをツリーに変形するためのアルゴリズムは、次の通りである。
【００４８】
主要なルートノードを現在のノードとして開始する。
現在のノードを「処理済み」と記す。
現在のノードのドーターごとに、
このドーターに未処理の親があるかどうかをチェックする。
このような未処理の親ごとに、この親を支配するルートノード（従属ルート）をみつける。
未処理の親がドーターを支配するリンクを切り離し、
ドーターが従属ルートを支配するリンクを挿入する。
現在のノードのドーターごとに、
そのドーターを現在のノードとし、ノードがなくなるまで手順を続行する。
【００４９】
ＢからＡにリンクが存在するケースでは、ノードＡはノードＢの「ドーター」であると言われている。代わりに、ノードＢはノードＡの「親」であると言われている。
【００５０】
図１２が示すように、ステップ５１２では、グラフの中の最後のノードが処理されているかどうかが判断され、処理されている場合にはプロセスは終了する。処理されていない場合には、ステップ５１４で次のノードが選択され、ステップ５１６でノードに複数の親があるかどうかが判断される。大部分のノードには１つの親しかなく、そのケースでは、プロセスはステップ５１４に戻る。
【００５１】
しかしながら、２つの親がある「ｃａｔ」（１０２８）のようなノードに遭遇する場合、より従属的なツリーが決定され（ステップ５１８）（文のルートノードから離れてさらに多数のノードであるそのノードとして）、ステップ５２０でそれからのリンク（つまり、図１１では１０３８と１０２８のリンク）が削除される。
【００５２】
ステップ５２２では、ノードからさらに従属的なツリーのルートまで新しいリンクが作成される。図１３は、「ｃａｔ」（１０２８）を表すノードから「ｔｈｏｕｇｈｔ」（１０３４）を表すノードまで作成されるリンクを示している。
【００５３】
次に、プロセスは、そのノードに１つしか親ノードがなくなるまでどんな追加のリンクをも削除するためにステップ５１６に戻り、その文のすべてのノードが処理されるまで、その点でステップ５１６により次のノードを処理するためにフローがステップ５１４に戻される。
【００５４】
したがってこのプロセスには元の依存グラフから関連したツリー構造を生成するという効果がある。このようにして、この段階で翻訳例レコードは、いまツリートポロジーを有し、表面構造を保持する変形されたソースグラフとターゲットグラフとともに、元のソース依存グラフとターゲット依存グラフの簡略化されたバージョンを備える。
【００５５】
トピックシフト変換（「話題化」）
図１３のツリーは平面的なツリーであるが、これは必ずしも当てはまらない。例えば、句（主題）がその「論理的な」位置から変位され、テキストの最初の方に現れる場合である。これは、それぞれワードに対応するノード１０４２〜１０５４から構成されている英語の「ＷｈａｔｄｉｄＭａｒｙｔｈｉｎｋＪｏｈｎｓａｗ？」という質問を示す図１４に図示されるように英語では「Ｗｈ−」の質問で発生する。ここでは依存グラフはツリーであるが、それは、「ｓａｗ」（１０５２）が「ｗｈａｔ」（１０４２）を支配することによる依存関係が突起制約に違反するため平面的なツリーではない。
【００５６】
図１４から図１６を参照すると、ここでステップ５５０のトピックシフト変換段階がさらに詳しく説明されるだろう。アルゴリズムがツリートポロジーとともにグラフ上で動作するため、前述された相対化変換の後にこのステップを実行することが望ましい。
【００５７】
一般的なアルゴリズムは「リーフ」（つまり、他を支配しないノード）ノードから開始し、
ノードごとに（現在の主要語が）突起（projection）（つまり、平面性）制約に違反するあらゆるドーターを識別する（つまり、このノードが直接的にも、間接的にも支配しない介在するノードがあるのか）。
このようなドーターごとに、依存関係（リンク）を削除し、ドーターを現在のノードの親ノードに付ける。
突起制約の違反がもはやなくなるまで続行する。
【００５８】
最後（ステップ５５２）までノードごとに、選択されたノード（ステップ５４４）について、最後（ステップ５５６）までドーターノードに対するリンクごとに、ドーターノードに対するリンク（一番左側の最初）が選択される（ステップ５５８）。次に、プログラムはそのリンクが平面性制約に違反しているかどうか、言い換えると、そのノードによって直接的にも間接的にも支配されていない主要語ワードとドーターワードの間のワードシーケンスにおいて介在するワードがあるかどうかを調べる。突起制約が満たされると、最後（ステップ５５６）まで次のリンクが選択される（ステップ５５８）。
【００５９】
突起制約が満たされない場合には、ドーターノードに対するリンクは切断され、現在のノードから上に次のノードに再び付けられ、平面性制約に違反していない現在のノードの上のノードにドーターノードが付けられるまで、平面性制約が満たされているかどうかが再び調べられる（ステップ５６０）。
【００６０】
ドーターノードに対する次のリンクが最後（ステップ５５６）まで選択され（ステップ５５８）てから、次のノードが最後（ステップ５５２）まで選択される（ステップ５５４）。
【００６１】
したがって、図１５の主題化変換を実行した後、結果は、表面構造を保持し、元の依存グラフに対応する平面的なツリーである図１６に図示される構造である。
【００６２】
グラフの翻訳単位への分割
相対化変換および話題化変換を実行した後に、記憶されているデータレコードは、文ごとにソース言語とターゲット言語の依存グラフおよび表面ツリーを備える。このような構造は、それらの文が逐語的に表示される新しいテキストを翻訳するために使用できるにすぎないだろう。それぞれが、ソース言語とターゲット言語の間の位置合わせされたノードにより表される「主要語」ワードが先頭になるさらに小さな翻訳構成要素（例えば、短い句に対応する）に文を分割することはさらに有用である。
【００６３】
したがって、ステップ５９０では、開発プログラム２２０が、位置合わせされたノードの対ごとに１つの翻訳単位レコードと、それぞれの翻訳例を翻訳単位レコードに分割する。
【００６４】
各翻訳単位レコードは、主要語ワードごとに、右の表面ドーターのリストと左の表面ドーターのリスト、および依存グラフドーターのリストとともに、ソース言語とターゲット言語の主要語ワードの対から構成されている。これらのリストは空である。
【００６５】
それぞれの主要語ワードとそれらの関連付けられたリストはそれぞれの言語構成要素と見なすことができ、対にされ、翻訳単位レコードを形成する。翻訳単位の言語構成要素は、例えば隣接する記憶場所において一緒に記憶されてもよい。該構成要素が隣接していない記憶場所に記憶されている場合も、それらはそれぞれの依存データの位置合わせのおかげで依然として単一の論理翻訳単位を形成する。
【００６６】
ドーターを表すフィールドは、文字通りのワード（例えば「ｌｉｋｅ」）かあるいは記入子(placeholder)変数と、例えば、主要語ワード対「Ｉ」−「Ｉｃｈ」に関連したドーターフィールドを当初占めた翻訳単位のレコードから形成される二重のワード（duple）のどちらかを含んでもよい。やはり提供されるのは、依存と表面ドーター間の関係を表す追加構造である。これらは「ギャップスタック(gap stack)操作」と呼ばれ、後にさらに説明される。したがって、このような記入子変数を可能にする効果とは、前記元の文中の「ｓｗｉｍ」−「ｓｃｈｗｉｍｍｅ」によって率いられるものなどのような翻訳単位において、以前は「Ｉ」−「Ｉｃｈ」によって占有されていた場所が現在は別の翻訳単位により占有され、それが「ｒｅｄｆｉｓｈｓｗｉｍ」などのような他の文に参加できるようになるという点である。手作りされた規則による翻訳システムにおいては、各記入子変数を占有できるだろう言語単位は（例えば、ある特定の場所で単数の名詞または名詞句だけを可能とするように）構文上定義されるだろうが、本実施形態においてはこの段階でのこのような制約はない。
【００６７】
ソース表面構造は、ここで直接的な文法規則として処理でき、その結果、さらに詳しく後述されるように、翻訳対象の新しいテキストの表面分析ツリーを作成するために単純なチャートパーサ（ｃｈａｒｔｐａｒｓｅｒ）を使用することができる。
【００６８】
表面ツリーを作成するプロセスがドーターの主要語に対する依存を改変する可能性があるため、表面ツリー内のドーターのリストはあらゆるケースで、依存グラフ内のリストと等しく一致しないだろうことに注意されたい。それはあるノードのドーターが表面ツリー内の別のノードにシフトされ、その結果それはある翻訳構成要素から別の翻訳構成要素に変位されることになるからである。これが処理される方法は以下のとおりである。
【００６９】
表面構造を引き出すために変換を形成した結果が、ある翻訳構成要素から別の翻訳構成要素に表面表現の中のノードを変位することである場合、スタック又は同等のデータ構造（「スレッド」と呼ばれるリストの対を使用してＰＲＯＬＯＧでシミュレーションされる）を使用することによりこれを考慮に入れる。
【００７０】
ギャップスタック操作はそれぞれの翻訳構成要素とそれぞれの表面ドーターに関連つけられている。翻訳構成要素の中の表面ドーターのリストに依存ドーターに含まれていないドーターが含まれると、用語は表面ドーターの内の１つによりギャップスタックの上に押し上げられる。この操作がどのドーターに関連つけられているのかは、余分な表面ドーターにつながる変形に依存している。用語は翻訳構成要素の主要語（相対化変形のケースでは）、または余分なドーター（話題化変形のケースでは）のどちらかを表す。
【００７１】
翻訳構成要素が表面ドーターに対する追加である依存ドーターを含むとき、用語は該翻訳構成要素と関連付けられたギャップスタックから取り去られるだろう。この用語は追加の依存ドーターと一体化される。
【００７２】
したがって、翻訳での以後の使用においては、ソース表面構造が入力ソーステキストに合わせられ、その関連付けられた依存グラフによって説明できない用語を含む場合、その用語はスタックの上に押し上げられ、異なる翻訳単位の依存グラフと一体化するために検索される。
【００７３】
この実施形態はＰＲＯＬＯＧ内で書かれているため、表面ツリー、ギャップスタック、および依存グラフ構造間の表現は単に可変一体化によって作成できる。表面ツリーと依存グラフ構造の間の関係はそれにより完全に双方向となるためこれは便利である。逆の翻訳を達成するためには、単に翻訳単位の中の２つの構成要素を逆にするだけである。
【００７４】
本発明の実施形態に類似した方法でのギャップスタックの使用は、ＰｅｒｅｉｒａＦ．、１９８１年、「外置変形文法（Extraposition Grammars）」、アメリカコンピュータ言語学ジャーナル（American Journal of Computational Linguistics）、７４、２４３〜２５６頁、およびＡｌｓｈａｗｉＨ、１９９２年、「コア言語エンジン（The Core Language Engine）」、ＭＩＴプレスケンブリッジ（MIT Press Cambridge）に説明されており、参照によってここに組み込まれる。
【００７５】
もう一度図１４と図１６のグラフにより描かれている話題化変形を考えてみる。これらのグラフから引き出される翻訳単位のソース側は（明確にするためにわずかに簡略化されている）以下のとおりである。
【００７６】
構成要素＃０
主要語＝“ｔｈｉｎｋ”
左表面ドーター＝［‘ｗｈａｔ’、‘ｄｉｄ’、‘ｍａｒｙ’］
右表面ドーター＝［（＃１、Ｘ）］
依存ドーター＝［‘ｄｉｄ’、‘ｍａｒｙ’、（＃１、Ｘ）］
構成要素＃１
主要語＝“ｓａｗ”
左表面ドーター＝［‘ｊｏｈｎ’］
右表面ドーター＝［］
依存ドーター＝［‘ｊｏｈｎ’、‘ｗｈａｔ’］
構成要素＃０の中で、依存ドーターリストの中ではなく、表面ドーターリストの中に‘ｗｈａｔ’があるのがわかる。逆に、構成要素＃１はその表面ドーターリストの中ではなくその依存ドーターリストの中に‘ｗｈａｔ’を有している。
【００７７】
構成要素＃０では、表面ツリーマッピングに対する依存グラフが発生したときに余分な表面ドーターを助長したのは（＃１、Ｘ）と記されたドーターであった。したがって、このドーターのためにギャップスタックに‘ｗｈａｔ’を追加することを希望する。逆に、構成要素＃１では、この構成要素を少しでも使用できるようにするために、余分な依存ドーター（‘ｗｈａｔ’）に対応するギャップスタックから用語を削除できることが必要である。したがって、この構成要素の主要語は用語をギャップストップから取り去り、それは‘ｗｈａｔ’という表現と一体化するだろう。その結果、修正されたソース側構成要素表現はこのように見える。
【００７８】
構成要素＃０：
主要語＝‘ｔｈｉｎｋ’
左表面ドーター＝［‘ｗｈａｔ’、‘ｄｉｄ’、‘ｍａｒｙ’］
右表面ドーター＝「（＃１、Ｘ）：push（Gap Stack、‘ｗｈａｔ’）
依存ドーター＝［‘ｄｉｄ’、‘ｍａｒｙ’（＃１、Ｘ）］
構成要素＃１：
主要語＝‘ｓａｗ’pop（Gap Stack、‘ｗｈａｔ’）
左表面ドーター＝［‘ｊｏｈｎ’］
右表面ドーター＝［］
依存ドーター＝［‘ｊｏｈｎ’、‘ｗｈａｔ’］
相対化変形のための構成要素は少し異なって見える。これを説明するために、図１１と図１３の例を考えてみる。この例では、依存構造内に余分なルートノードがあるだろう。それは、余分な表面ドーターを有する構成要素があり、この表面ドーターにより該構成要素の主要語はギャップスタックの上に押し上げられることを意味する。この例では、‘ｃａｔ’が関連構成要素の主要語であり、‘ｔｈｏｕｇｈｔ’は‘ｃａｔ’の表現をそのギャップスタックの上に押し上げる（‘ｃａｔ’の）表面ドーターである。これは、‘ｔｈｏｕｇｈｔ’を依存グラフのローカルルートにし、‘ｃａｔ’を、どちらの主要語がそれをギャップスタックから取り去る（このケースでは‘ｓａｗ’）のかの依存ドーターにするという効果を有する。
【００７９】
次に図１１と図１３のグラフのソース側の表現は（明確にするために再び簡略化されている）以下のとおりである。
【００８０】
構成要素＝＃０：
主要語＝‘ｋｎｏｗ’
左表面ドーター＝［‘Ｉ’］
右表面ドーター＝「（＃１、Ｙ）」
依存ドーター＝［‘Ｉ’、（＃１、Ｙ）］
構成要素＝＃１：
主要語＝‘ｃａｔ’
左表面ドーター＝［‘ｔｈｅ’］
右表面ドーター＝［（＃２、Ｚ）：push（Gap Stack、‘ｃａｔ’）］
依存ドーター＝［‘ｔｈｅ’］
構成要素＝＃２：
主要語＝‘ｔｈｏｕｇｈｔ’
左表面ドーター＝［‘ｔｈａｔ’、‘ｍａｒｙ’］
右表面ドーター＝［（＃３，Ｗ）］
依存ドーター＝［‘ｔｈａｔ’、‘ｍａｒｙ’、（＃３、Ｗ）］
構成要素＝＃３
主要語＝‘ｓａｗ’：push（Gap Stack、Ｖ）
左表面ドーター＝［‘ｊｏｈｎ’］
右表面ドーター＝［］
依存ドーター＝［‘ｊｏｈｎ’，Ｖ］
この例は、‘ｃａｔ’が構成要素＃１のドーター＃２のギャップスタックに追加されていることを示している。また、用語（このケースでは変数）は構成要素＃３の主要語でギャップスタックから取り去られている。この用語は構成要素＃３の依存ドーターと一体化されている。
【００８１】
本発明においては、用語「言語単位」はワードと記入子変数の両方を包含し、用語「ワード」は実際のワードまたは逐語的なワードおよび形態素を包含する。
【００８２】
したがって、前記例では、構成要素＃０の場合、その左表面ドーターは実際のワード‘Ｉ’であり、その右表面ドーターは記入子変数‘Ｙ’と、元はそのドーターフィールド‘＃１’を占有していた翻訳単位のレコードから形成される二重語である。構成要素＃１の場合、その左表面ドーターは実際のワード‘ｔｈｅ’であり、その右表面ドーターは記入子変数‘Ｚ’と、元はそのドーターフィールド‘＃２’を占有していた翻訳単位のレコードから形成される２重語である。構成要素＃２の場合、その左表面ドーターは実際のワード‘ｔｈａｔ’と‘ｍａｒｙ’である。およびその右表面ドーターは記入子変数‘Ｗ’と、元はそのドーターフィールド‘＃３’を占有していた翻訳単位のレコードから形成される2重語である。構成要素＃３の場合、その左表面ドーターは実際のワード‘ｊｏｈｎ’であり、右表面ドーターはないが、ギャップスタックから取り去られた用語のために、その依存ドーターは実際のワード‘ｊｏｈｎ’と値「Ｖ」を有する変数である。
【００８３】
別の構成要素、例えば、‘ｔｈｅｂｌａｃｋｄｏｇ’の＃２１が存在する、つまり主要語＝‘ｄｏｇ’であり、左表面ドーターが‘ｔｈｅ’と‘ｂｌａｃｋ’の場合には、＃１に関連付けられた記入子変数のすべての発生は＃２１に対して例示され、別の翻訳可能なソーステキストを作成できる。
【００８４】
翻訳
該開発プログラムのさらなる態様が後で検討される。しかしながら、これらの特徴をさらによく理解するために、この段階では翻訳プログラム２３０の動作の説明を紹介することが便利だろう。したがってこれが説明される。
【００８５】
翻訳構成要素内のソース表面構造は、例えば、ＪａｍｅｓＡｌｌｅｎ、「自然言語の理解（Natural Language Understanding）」第２版、ベンジャミンカミングス出版社（ＢｅｎｊａｍｉｎＣｕｍｍｉｎｇｓＰｕｂｌｉｃａｔｉｏｎｓ，Ｉｎｃ．）、１９９５年に説明されるように、表面分析ツリーが単純なチャートパーサ(parser)を使用することにより作成されるように、本実施形態では単純な文法規則として処理されるが、右から左あるいは逆もまた同様によりむしろ主要語またはルートから外向きに動作するように修正される。パーサ(parser)は、翻訳単位ごとのソース表面ツリー構造の主要語を翻訳対象のテキストの代わりに各ワードに合わせようとする。これによりソース表面構造を使用するパックされたエッジのデータベースが作成され、その後分析を見つけるためにアンパックされる。
【００８６】
スタックを使用して表面ツリー用語と依存ツリー用語の一体化を提供する効果は、ソース依存構造がアンパック中に同時に作成されることを確実にする。
【００８７】
表面構造と依存構造により表現される規則の実現の実際の順序は論理インタプリタ２３９により決定されるが、図１７と図１８は概念的に該プロセスを描く。
【００８８】
図１７のステップ６０２では、翻訳対象のソース言語ファイルの文が選択される。ステップ６１０では、言語構成要素のソース表面ツリーが、入力されたソーステキストの中のワード順序を再生するパーサを使用して引き出される。ステップ６２０では、対応する依存グラフが決定される。ステップ６９２では、ソース依存グラフから、ターゲット依存グラフが決定される。ステップ６９４では、ターゲット依存グラフから、ターゲット表面ツリーが決定され、ターゲット言語テキストを生成するために使用され、ステップ６９６でターゲット言語テキストが記憶される。ソーステキストの最後（ステップ６９８）まで該プロセスは続行する。
【００８９】
図１８ａと図１８ｂはさらに詳しくステップ６１０〜６９４を描く。ステップ６０３では、各表面構造が順に入力されたテキストと比較される。それぞれの逐語的な表面ドーターノード（逐語的なワードを記憶するノード）がソーステキスト文字列内のワードに正確に一致しなければならない。それぞれの位置合わせされた表面ドーター（つまり、追加翻訳単位に対応する表面ドーター）が、ソーステキストの表面ツリーを構築するように、翻訳単位のソース主要語レコードと一体化される。
【００９０】
次に、表面分析の中の翻訳単位ごとに、その単位のための記憶されているスタック操作を使用して、あらゆる余分な、または見当たらないドーターを押し出す、または取り去るためにスタックが動作される（ステップ６０８）。正しい数の用語が依存構造のために読み出せない場合（ステップ６１０）、候補構造が拒絶され、最後まで次が選択される（ステップ６１２）。正しい翻訳構成要素が存在する場合、厳密に正しい数のドーターがスタックを通過するだろう。
【００９１】
一致する表面構造および依存構造（つまり、文の分析）が検出されると（ステップ６１０）、図１８ｂを参照して、組み立てられた依存構造の中の翻訳単位ごとに、対応するターゲット主要語ノードが読み出され（ステップ６２２）対応するターゲット依存構造を構築する。ソース言語とターゲット言語の転移は、このようにして依存構造のレベルで発生し、それ故に、ソース言語および／またはターゲット言語内でのワード配置の予想できない変化によっては相対的に影響されない。
【００９２】
ステップ６２６では、スタックはドーターノードを押すまたは取り去るために動作される。ステップ６２８では、ターゲット表面構造がターゲット依存構造から決定される。
【００９３】
ステップ６３０では、ターゲット表面構造全体のルートが、リンクに沿って構造を詳しく検討することにより決定される。最後にステップ６３２では、ターゲットテキストがターゲット表面ルート構成要素からターゲット表面構造を詳しく検討することにより再帰的に生成され、ターゲット表面主要語およびドーター構成要素からターゲットテキストを抽出する。
【００９４】
前記説明から、本発明は、２つの異なるグラフを使用して、各言語の例のテキストを表現することによって、例えばＳａｔｏのＭＢＴ２などのこの分野での前述された研究を区別することが理解されるだろう。グラフの一方は、ワードの順序付けと合意規則などの一言語だけを陥る表面制約を表現するための平面的なツリーである。他方のグラフは例のテキストに依存グラフを提供するさらに一般的に向けられた非環式のグラフである。２つの言語の間の位置合わせは依存グラフの間の位置合わせとして表現される。
【００９５】
本発明の１つの有利な点は、ワードの離れたシーケンスを位置合わせすることができることである。別の有利な点は、相互の制限を示すワードが表現の中では「隣接」であることである。これにより、制約が非常に少ない数の例から学習できる。
【００９６】
第２の実施形態−翻訳単位の一般化
第１の実施形態の中心的な動作を説明してきたが、次に（前述されたものとは無関係に有用な）追加の好ましい特徴を説明する。
【００９７】
前述されたプロセスにより形成された翻訳構成要素は、ターゲット言語とソース言語について、１つの逐語的な主要語と、逐語的または非逐語的のどちらかであってよい（つまり、前述された二重語）多くのドーターから構成され、後者は他の翻訳構成要素のための連結点を表している。翻訳構成要素を使用して、逐語的なドーターのそれぞれは正確に翻訳対象のテキストと一致しなければならず、非逐語的ドーターのそれぞれは別の翻訳構成要素を支配しなければならない。
【００９８】
（翻訳単位レコードが現在備えるものである）規則の集合は例のテキストから引き出された。したがって、１つの形容詞が付いたある特定の名詞の例は、それがゼロまたは２以上の形容詞とともに発生する場合その名詞を翻訳するために使用することはできない。本実施形態は与えられた例から一般化する手段を提供する。これにより、効果的な翻訳システムに必要とされる例の数が削減される、あるいは別の見方をすれば、例の与えられた集合の翻訳能力が高められる。
【００９９】
（図１９ａ〜図１９ｆを備える）図１９は、仏語−英語翻訳単位の６つの例のテキストを示している。図１９ａでは、ソース主要語は左ドーター「ｔｈｅ」と「ｗｈｉｔｅ」を有する「ｃａｒ」であり、ターゲット主要語は左ドーター「ｌａ」と右ドーター「ｂｌａｎｃｈｅ」を有する「ｖｏｉｔｕｒｅ」である。同様に、図１９ｂはテキスト「ｔｈｅｗｈｉｔｅｈａｔ」（「Ｌｅｃｈａｐｅａｕｂｌａｎｃ」）を示している。図１９ｃはテキスト「ｔｈｅｃａｒ」（「ｌａｖｏｉｔｕｒｅ」）を示している。図１９ｄはテキスト「ｔｈｅｈａｔ」（「ｌｅｃｈａｐｅａｕ」）を示している。図１９ｅはテキスト「ｔｈｅｃａｔ」（「ｌｅｃｈａｔ」）を示している。図１９ｆはテキスト「ｔｈｅｍｏｕｓｅ」（「ｌａｓｏｕｒｉｓ」）を示している。
【０１００】
これらの例のテキストだけに基づいて、前述された翻訳システムは「ｗｈｉｔｅｍｏｕｓｅ」や「ｗｈｉｔｅｃａｔ」などのような句を翻訳することはできないだろう。
【０１０１】
システムがこのような例を翻訳できるようにするための一般化は、ここで説明されるように主要語ワード対の識別可能な動作の数を削減するために「擬似翻訳単位」を追加することにより実行される。
【０１０２】
翻訳単位ごとに、代替を引き出す。これは主要語ワードが削除された翻訳単位から構成されている。２つの代替は、それらが記入子変数および基準（値）をそれらの中に含まれている翻訳単位に名前を変えることによって同一にすることができる場合に相似していると言われている。主要語ワードの対ごとに代替の集合があるだろう。主要語ワードの対の「動作」を説明するためにこの集合を考える。２つの主要語ワードの対は、それらの動作を説明するかなりの数の代替が相似している場合に、相似している方法で動作すると言われている。必要とされる一般化を可能にするために、新しい翻訳単位（擬似翻訳単位）を作成し、相似する主要語ワード対の動作を同一にする。
【０１０３】
図２０を参照すると、ステップ７０２では、開発プログラム２２０が記憶装置２３２に記憶されている翻訳単位を読み取り、相似する単位の位置を突き止める。２つの翻訳単位が相似しているかどうかを判断するために、それらの代替が相似していることを調べる。
【０１０４】
図１９ａ〜図１９ｆの翻訳例を参照すると、図１９ｄに図示されている単位は図１９ｅの単位に相似していることが判明し、図１９ｃに図示されている単位は図１９ｆに図示されている単位に相似している。すべて４つのソース側は同等であるが（英語の定冠詞が男性形と女性形を有さないため）、２つの対はそれぞれのターゲットドーターリストで同等ではない。
【０１０５】
識別され、ソース主要語ワードとターゲット主要語ワードで異なる相似する翻訳単位の対ごとに、ステップ７０４で第３の翻訳単位が作成され、該第３の翻訳単位は、相似する翻訳単位の対の１つとして同じソース−ターゲット主要語ワード対を有するが、異なるドーターを有する。例えば、図１９ｄと図１９ｅによって形成される対に関して、図１９ｄの単位と同じ主要語ワードを有しているため、図１９ｂがステップ７０４で選択されるだろう。
【０１０６】
ステップ７０６では、第３の翻訳単位のドーターのリストと組み合わされた（第３の翻訳単位の主要語ワードではないその他のワードにおける）相似する翻訳単位の対の他方のソース主要語ワードとターゲット主要語ワードを取る新しい翻訳単位レコードが作成される。このケースでは、図１９ｂの翻訳単位を使用して図１９ｄと図１９ｅの相似する翻訳単位の対についてステップ７０６で生成される翻訳単位は以下のとおりであろう。
【０１０７】
ＳＨ７＝Ｃａｔ
ＳＤ１＝Ｔｈｅ
ＳＤ２＝Ｗｈｉｔｅ
ＴＨ７＝Ｃｈａｔ
ＴＤ１＝Ｌｅ
ＴＤ２＝Ｂｌａｎｃ
同様に、図１９ａの翻訳単位を使用して図１９ｃと図１９ｆの相似する翻訳単位の対から形成された新しい翻訳単位は以下のとおりである。
【０１０８】
ＳＨ８＝Ｍｏｕｓｅ
ＳＤ１＝Ｔｈｅ
ＳＤ２＝Ｗｈｉｔｅ
ＴＨ８＝Ｓｏｕｒｉｓ
ＴＤ１＝Ｌａ
ＴＤ２＝Ｂｌａｎｃｈｅ
したがって、翻訳開発プログラム２２０は新しい翻訳例を生成することができ、その中の多くはソース言語とターゲット言語の中で統語的に正しい。
【０１０９】
前記例では、限定詞（「ｔｈｅ」、「ｌｅ」、「ｌａ」）などの機能語を、それらを言語単位として記すよりむしろ、ソーステキストとターゲットテキストに逐語的な文字列として残すことが過剰な一般化を妨げる（例えば、形容詞−名詞の一致を無視する）利点を有することが見られよう。
【０１１０】
前述されたような実施形態は効果的に機能するが、本実施形態では相似として選択される翻訳単位の対の数を制限するためにソース言語語彙目録２３４およびターゲット言語語彙目録２３６を利用することも可能となるだろう。
【０１１１】
例えば、ターゲット主要語ワードと同様に、２つのソース主要語ワードが同じ統語カテゴリにある場合にだけ、対は相似していると見なされる可能性がある。加えて、あるいは代わりに、第３の単位の選択は第１の単位および第２の単位のドーターとして同じ１つのあるいは複数の統合カテゴリに属する第３の単位のドーターに関して条件付きとされる可能性があるだろう。これにより、おそらく有用な一般化の数を大幅に削減することなく、作成される誤って一般化された対の数が削減されるだろう。
【０１１２】
前述された実施形態の一般化が第１の実施形態で採用される場合、それは図７に説明されるプロセスの後に採用される。他の翻訳が利用可能であるときに翻訳システムがこれらを使用するのを阻止するために、翻訳中に擬似翻訳単位の使用とペナルティを関連付けることが便利である。
【０１１３】
この第２の実施形態の一般化方法は、例では見られなかった新しい翻訳単位を仮定するためにワード動作間の類似を使用することにより、この分野の前述された研究との違いを示す。
【０１１４】
第３の実施形態−主要語／ドーターの制限の作成および使用
第１の実施形態に説明されるように、翻訳中に任意のドーターが任意の主要語を選択してよい場合、（作成される可能性のあるあらゆる正しい翻訳に加えて）多くの間違った翻訳が作成されるだろう。前記実施形態に説明される一般化のプロセスが採用される場合、この可能性はさらに増加する。多くの翻訳が作成される場合、言語的に正常ではない、つまり言語的に間違ったターゲットテキストを作成する翻訳を排除することが望ましい。
【０１１５】
翻訳システムは、ソーステキスト自体が文法に適っていることを保証できないため、目的は文法を無視したターゲットテキストを生成することを拒絶するシステムを作成することではなく、むしろ複数の考えられる翻訳アウトプットを考慮して、文法的に正しく、忠実なアウトプットを生じるシステムを作成することである。
【０１１６】
しかしながら、本実施形態のシステムは、どの主要語がどのドーターと結合すべきかを特定する統語的または意味論的な情報にアクセスすることはない。本実施形態の目的は、存在していた翻訳単位と、さらに具体的には例のテキストでは存在できなかっただろう翻訳単位との組み合わせを一般化することによりこのような統語的または意味論的な情報に類似する機能を実行するためにデータを獲得することである。
【０１１７】
従って、本実施形態では、書き加えられたソース翻訳テキストおよびターゲット翻訳テキストから前述された開発プログラム２２０により生成されたデータがさらに処理され、翻訳プロセスの間に許可される主要語翻訳単位とドーター翻訳単位の組み合わせに対する制限を導入する。
【０１１８】
推論制約
したがって、本実施形態では、制限は開発プログラム２２０によって開発される。
【０１１９】
図２１を参照すると、ステップ８０２で開発プログラム２２０により、翻訳者プログラム２３０がファイル２２４、２２６に記憶されたソース言語例テキストとターゲット言語例テキスト上で実行する。
【０１２０】
翻訳装置は一方向（つまり、ソース言語からターゲット言語へ）だけで動作することを目的としている場合、ソース言語例テキストだけで動作することが必要とされるにすぎないが、本実施形態でのように、双方向翻訳システムにおいては、プロセスは他の方向でも実行されることは明らかだろう。
【０１２１】
ステップ８０４では、翻訳の１つ（各文にいくつかの競合する翻訳があると考えられる）が選択され、ターゲット例テキストのすべてと比較される。分析動作中に翻訳システムにより作成されたソース−ターゲットテキスト対が例の中のいずれかに現れる（ステップ８０８）場合、その分析は「正しい」リストに加えられる（ステップ８１０）。現れない場合、それは「間違った」リストに加えられる（ステップ８１２）。
【０１２２】
最後の翻訳がまだ処理されていない（ステップ８１４）場合、ステップ８０４で次が選択される。次にすべてのソーステキスト例のすべての翻訳について、プロセスが繰り返される。
【０１２３】
次の段階の目標は、例のテキストの間違った分析を排除することである。
【０１２４】
したがって、図２２を参照すると、図２１のプロセスにより作成されたリストからそれぞれの間違った分析が選択され（ステップ８２２）、ステップ８２４でソース分析表面構造グラフ（ツリー）とソース分析依存構造が詳しく検討され、構造の中で検出された主要語とドーターの対の別々のリストを作成する。結果は、ソーステキストとターゲットテキストの表面主要語／ドーターの対、および（両方の言語に共通の）依存主要語／ドーター対のリストである。前記に注記されたように、表面ドーターと依存ドーターは多くの翻訳単位について同一ではないため、一般的に３つのリストは異なっている。
【０１２５】
最後が終了される（ステップ８２６）まで、各分析についてこのプロセスが繰り返される。
【０１２６】
間違った分析のそれぞれについて表面および依存主要語／ドーター対の集合をコンパイルすると、ステップ８２８で、使用禁止にされた場合には最大数の（好ましくはすべての）間違った分析を削除するだろう最小集合となることができるように、主要語／ドーター対の部分集合が選択される。
【０１２７】
元のグラフが翻訳構成要素に分けられたときに、ドーター位置を占有している構成要素のアイデンティティがそれぞれについて記憶されていたことが思い出される。注釈されたソース−ターゲット例に実際に存在した主要語／ドーターの対にどれかを排除することを回避するために、これらの元の組み合わせが対のリストから削除される。
【０１２８】
間違った分析の最大を排除するだろう、使用禁止にされる主要語／ドーター対の最小部分集合を見つけるプロセスは、最適化プログラムにより実行され、元の例にはなかった主要語／ドーター対の部分組（ｔｈｏｓｅ）の影響を反復的に決定するだろう。
【０１２９】
例えば、それは最大数の間違った翻訳で発生する主要語／ドーター対を選択し、それを排除し、それから残りの翻訳に関して、最大数で発生した主要語／ドーター対を選択し、それを排除する等により実行できるだろう。あるいは、「畜力供給」最適化アプローチが使用できる場合もある。
【０１３０】
したがって、この工程の成果は結合できない主要語ワードとドーターワードの対の３つのリスト（ソース表現とターゲット表現のそれぞれのリスト、および共通依存表現のためのリスト）である。
【０１３１】
したがって、これらのリストは、翻訳の分析フェーズの間にそれぞれの組み合わせが指向されず、このようにして可能性のある代替分析の数を削減することによって分析するのに要する時間を削減し、間違った分析を排除するように、この段階では翻訳で以後使用するために記憶できるだろう。
【０１３２】
しかしながら、ステップ８３０で対を無効として検出および記したので、例のファイル２２４に記憶されているものを超えていまでも見えないソーステキストについて、競合する分析の間で選択できるために主要語／ドーターの対合に関するこれらの制限を一般化することが好ましい。
【０１３３】
これを行うためには、可能であるすべての一般化の中から「最良の」一般化を選択できる原則が必要とされる。本実施形態によると、好ましい一般化とは、（ある意味では）最も簡略であり、例のデータと一貫したままとなるものである。
【０１３４】
これは以下のように達成される。データ構造が各翻訳単位および位置合わせされた各ドーターに関連付けられる。本実施形態では、他の構造も使用できるだろうが、それは（多くの場合言語学的な用語を特徴付けるために使用されるような）属性値マトリックスである。
【０１３５】
位置合わせされたドーターは、関連付けられたデータ構造がある意味で「一致する」（例えばＰＲＯＬＯＧ一体化によって試される）場合にだけ翻訳単位を支配してよい。
【０１３６】
制限は、元の翻訳例と一貫した翻訳を作成するために必要とされる識別可能な属性値マトリックスの数を最小限に抑えることを選ぶことによって一般化される。ドーターは、主要語およびドーター属性値のマトリックスを一体化できる場合にのみ、翻訳中に特定の主要語を選択できる。２つの翻訳単位は、翻訳単位の集合であって連結できないものが同一である場合及び同一である場合に限り、同じ属性値マトリックスを共有できる。したがって、属性値マトリックスの数を最小限に抑えるためには、ドーターが連結できない主要語の識別可能な集合の数、および主要語が連結できないドーターの識別可能な集合の数を最小限に抑えることを希望する。したがって、目的は、このような識別可能な集合の数を減らすために追加の無効の主要語／ドーターの対を加えることである。
【０１３７】
したがって、続くプロセスでは、従う原則は、第１の主要語がドーターの第１の集合と結合できず、第２の主要語がドーターの第２の集合と結合できず、ドーターの２つのリストの間に高程度の重複がある場合に、２つの主要語が言語的に同じように動作する可能性があり、したがって、それぞれが、他が結合できないドーターのすべてと結合するのを妨げることが適切である。
【０１３８】
厳密に同じことは、各ドーターが結合できない主要語の集合に当てはまる。したがって、効果は、類似する主要語を、強制して同一に動作させ、類似する主要語を強制して同一に動作させ、このようにして異なる動作の数を削減し、翻訳例の限られた集合から動作を一般化することである。
【０１３９】
図２３ａを参照すると、ステップ８３２では、無効主要語／ドーター対の集合の中の第１の主要語が位置が突き止められる（プロセスは、表面集合と依存集合のそれぞれについて実行されるが、明確にするためにここではただ１つのプロセスだけが説明される）。集合の中のその主要語の他のすべての場合とともに発生するドーターは、その主要語のための無効ドーターの集合の中に回収される（ステップ８３４）。
【０１４０】
集合の中のそれぞれの識別可能な主要語について動作が繰り返されたとき（ステップ８３６）、次にステップ８４２で第１のドーターが無効対の集合から選択され、（同様に）対の集合の中のそのドーターのすべての場合とともに発生するそれぞれの主要語がそのドーターの無効の主要語の集合の中にコンパイルされる（ステップ８４４）。（対の表面リストおよび依存リストの両方について）すべてのドーターと主要語の集合がコンパイルされると（ステップ８４６）、プロセスは図２３ｂのステップ８５２に移動する。
【０１４１】
ステップ８５２では、（それぞれ、それが結合できないドーターの集合とともに）主要語の集合が多くの部分集合に区分される。同一のドーター集合を備えるすべての主要語がグループ化され、ともに記憶され、部分集合を形成する。この結果は、主要語の異なる動作の数に対応する多くの部分集合である。
【０１４２】
ステップ８５４では、ドーターを主要語の同一の集合を有するグループに区分するためにドーターの集合について同じプロセスが繰り返される。
【０１４３】
次に、ステップ８５６では、すべての主要語およびドーター部分集合がまだ互いにとって十分に異なっているかどうかが判断される。例えば、部分集合に別の部分集合と共通したドーターがない場合にそれらは異なっていると見なされる。これが当てはまる場合（ステップ８５６）、プロセスは終了する。
【０１４４】
それ以外の場合、最も類似したドーター集合（つまり、共通のドーターの最大数−最大交差）を有する主要語の２つの部分集合が検出される（ステップ８５７）。同様に、ステップ８５８では、（それらが共通して有している主要語の数で測定される）ドーターの２つの最も類似した部分集合が検出される。
【０１４５】
ステップ８５９では、２つの主要語集合、および２つのドーター集合の合併が許容できるかどうかが試される。合併が、例のテキストの中で発生した主要語とドーターの組み合わせを無効に（そして、したがって有効な翻訳を使用禁止に）する効果を有さない限り、それは許容できるだろう。許容できない場合、次に最も類似する集合の位置が突き止められる（ステップ８５７、８５８）。
【０１４６】
合併が許容できる場合には、次に（ステップ８６０）２つの主要語集合が合併され、合併された部分集合のすべての主要語のドーターの集合が２つの過去の部分集合のドーターの集合の結合になる（すなわち、各主要語が両方の部分集合からすべてのドーターを継承する）。同様に、２つのドーター集合が合併され、各ドーターの主要語集合が２つの過去の主要語集合の結合になる。
【０１４７】
次に、結果的に生じる部分集合が直交となる（つまり、それらのリストの中で共通のメンバーを共有しなくなる）まで、プロセスはステップ８５６に戻る。この時点で、プロセスは終了し、結果として生じる部分集合が結合され、翻訳で結合できない主要語／ドーター対の最終的な集合を生成する。
【０１４８】
次に、これは規則データベース２３２の中に記憶され、分析中に各ドーターと結合するために選択された主要語を制限するために以後の翻訳中で適用される。前述されたように、表面表現についてと、依存表現について別々の集合が維持される。
【０１４９】
したがって、本実施形態は、先の実施形態のように、翻訳構成要素により示される動作を簡略化し、一般化する。しかしながら、前記一般化実施形態が可能な翻訳単位の範囲を拡大するために動作したのに対し、本実施形態は翻訳単位組み合わせに対する制限を一般化することにより作成できる正当な翻訳の範囲を制限するために動作する。
【０１５０】
この第３の実施形態の方法が、訓練例テキストの間違った再翻訳を排除するために制約を推論することによってこの分野での前述されたワークとの違いを示すことが理解されるだろう。
【０１５１】
結論
本発明はその多様な実施形態において、手作業で作成された言語規則を必要としないが、代わりにユーザインタフェースを使用することによって人間によって書き加えられる例の集合から翻訳規則を学習することができる翻訳システムを提供する。次に、書き加えられた例は翻訳を一般化し、それ以外の場合作成されるだろう文法に合わない翻訳代替策の数を制限するために予備的処理を施される。
【０１５２】
制限の例と一般化の例はともに例のデータと一貫している最も簡略なモデルを使用するという原則に依存している。
【０１５３】
採用される形式は、ＰＲＯＬＯＧ言語または類似する言語の一体化特徴と結合される簡略なパーサが翻訳を直接的に実行できる点まで通常の文法または論理規則に似ている翻訳単位がを結果として生じる。
【０１５４】
本発明の実施形態は別個に使用されてよいが、好ましくはともに使用される。
【０１５５】
開発プログラム２２０と翻訳プログラム２３０の両方を備える装置を説明してきたが、２つが別々の装置として提供でき、開発装置が、以後複数の様々な翻訳装置で使用できる翻訳データを作成することは明らかだろう。装置を説明してきたが、開発プロセスを実行するためのプログラムを含むディスク、および／または翻訳プロセスを実行するためのプログラムを含むディスクを提供することによりプログラムが容易に実現されることは明らかだろう。後者は、翻訳データとは別個に提供されてよく、後者はディスクなどの記録媒体上のデータ構造として提供されてよい。代わりに、例えばインターネットを介してウェブサーバからダウンロードすることによって、プログラムとデータが電子的に提供されてよい。
【０１５６】
便利なことに、本発明は、翻訳データを作成するためにメモリ内のファイルを使用できるようにするために翻訳者により実行される翻訳ジョブの翻訳メモリとともに使用するために提供される。
【０１５７】
ソーステキスト内の適切な名称、数、日付を検出するように構成された言語的なプリ−およびポスト−プロセッサプログラムを提供し、それらを正確にターゲットテキストに転送することが望ましい。
【０１５８】
本発明は機械翻訳に対する応用において説明されてきたが、例えば、ソーステキストの文法性のチェックにおいて、あるいはコンピュータに自然言語入力を提供することにおいてなど、自然言語処理における他の使用も除外されていない。テキストの入出力が説明されてきたが、翻訳装置に音声対テキストおよび／テキスト対音声のインタフェースを与え、テキストの音声による入力および／または出力を可能にすることは簡単だろう。
【０１５９】
特定の実施形態が説明されてきたが、多くの他の変形および修正がなされてもよいことは明らかだろう。本発明は、添付請求項によりカバーされているかどうかに関係なく、技能のある読者には明らかとなるだろう、あらゆるおよびすべてのこのような変形、修正および代用に及ぶ。疑いを回避するために、あらゆるおよびすべての新規主題およびその組み合わせについて保護が求められている。
【０１６０】
文脈が明確にそれ以外を要求していない限り、記載および請求項全体で、ワード「備える(comprise)」、「備えている(comprising)」等は排他的あるいは網羅的な意味とは対照的な包括的な意味で、すなわち「含んでいるが、限定されない」の意味で解釈されるべきである。
【０１６１】
明細書を通して従来の技術の説明は、決して、このような従来の技術が幅広く既知であるか、あるいは分野の共通の一般的な知識の一部を形成することの承認として考えられてはならない。
【図面の簡単な説明】
【０１６２】
【図１】第１の実施形態によるコンピュータ翻訳システムの構成要素を示すブロック図である。
【図２】図１の一部を形成するコンピュータの構成要素を示すブロック図である。
【図３】図２のコンピュータ内に存在するプログラムおよびデータを示す図である。
【図４】本発明によるテキストの翻訳における段階を示す例示的な図である。
【図５】人間のユーザが例のテキストを書き加えるのを補助するために図１の装置により実行される注釈プロセスを示す流れ図である。
【図６】編集を可能にするために図５のプロセスの間に作成される画面を示す。
【図７】以後の翻訳のためのデータを生成するために第１の実施形態で実行される以後の処理ステップの概略的な概要を示す流れ図である。
【図８】冗長なレベルを描く図５のプロセスにより作成される画面表示を示す。
【図９】図８の冗長なレベルを排除するプロセスを描く流れ図である。
【図１０】図９のプロセスの実行後に図８の構造に対応する構造を図解する。
【図１１】関係詞節を含む（英語の）ソーステキストのために図５のプロセスにより作成される依存グラフを示す。
【図１２】このような関係詞節に遭遇時に第１の実施形態により実行されるプロセスを示す流れ図である。
【図１３】図１１に対応し、図１２のプロセスにより作成される構造を示す。
【図１４】トピックがシフトされた句を含むソーステキストのために図５のプロセスにより作成される構造を示す。
【図１５】トピックがシフトされた句に応えて第１の実施形態によって実行されるプロセスを示す流れ図である。
【図１６】図１４に対応し、図１５のプロセスにより作成される構造を示す。
【図１７】図１の実施形態により実行される翻訳プロセスの概要を示す流れ図である。
【図１８ａ】第１の実施形態の翻訳プロセスをさらに詳細に示す流れ図である。
【図１８ｂ】第１の実施形態の翻訳プロセスをさらに詳細に示す流れ図である。
【図１９ａ】一般化のための追加の翻訳構成要素を生成するために本発明の第２の実施形態で使用される翻訳構成要素を示す。
【図１９ｂ】一般化のための追加の翻訳構成要素を生成するために本発明の第２の実施形態で使用される翻訳構成要素を示す。
【図１９ｃ】一般化のための追加の翻訳構成要素を生成するために本発明の第２の実施形態で使用される翻訳構成要素を示す。
【図１９ｄ】一般化のための追加の翻訳構成要素を生成するために本発明の第２の実施形態で使用される翻訳構成要素を示す。
【図１９ｅ】一般化のための追加の翻訳構成要素を生成するために本発明の第２の実施形態で使用される翻訳構成要素を示す。
【図１９ｆ】一般化のための追加の翻訳構成要素を生成するために本発明の第２の実施形態で使用される翻訳構成要素を示す。
【図２０】このような追加の構成要素が第２の実施形態で作成されるプロセスを示す流れ図である。
【図２１】第３の実施形態による可能な翻訳単位の組み合わせ間の制限を生成するプロセスの第１の段階を示す流れ図である。
【図２２】第３の実施形態のプロセスの第２の段階を示す流れ図である。
【図２３ａ】第３の実施形態のプロセスの第３の段階を示す流れ図である。
【図２３ｂ】第３の実施形態のプロセスの第３の段階を示す流れ図である。

Claims

コンピュータ自然言語翻訳システムであって、該システムは、
ソース言語テキストを入力する手段と、
ターゲット言語テキストを出力する手段と、
前記ターゲット言語テキストを、前記ソース言語テキストから、ソースの例から生成されかつターゲット言語テキストに対応する記憶された翻訳データを用いて、生成する転移手段とを含み、
前記記憶された翻訳データは複数の翻訳単位を含み、各翻訳単位は、
前記ソース言語とターゲット言語の言語単位の発生の順を表現するそれぞれの表面データと、
前記ソース言語とターゲット言語の前記言語単位間の語義の関係に関するそれぞれの依存データと、
前記ターゲット言語の言語単位の対応する依存データと位置合わせされている前記ソース言語の言語単位の依存データと、を含むこと、および、
前記転移手段は、前記ソース言語テキストを分析するときには前記ソース言語の前記表面データを、前記ターゲット言語テキストを生成するときには前記ターゲット言語の前記表面データを、また前記ソーステキストの分析を前記ターゲット言語に関する分析に変換するときには前記依存データを、使用するよう構成されたこと、とを特徴とする。
請求項１に記載のシステムにおいて、前記翻訳単位のいくつかに関して、前記表面言語単位の数は、対応する前記依存言語単位の数とは異なる。
請求項１に記載のシステムにおいて、各前記翻訳単位に関して、前記表面データと前記依存データはそれぞれ、各言語に関して、主要語言語単位とそれぞれ前記主要語言語単位にリンクしたドーター言語単位を記憶するデータ構造とを含む。
請求項３に記載のシステムにおいて、前記言語単位は一定のデータ定義語を含む。
請求項３または請求項４に記載のシステムにおいて、前記言語単位は記入子変数を含む。
請求項１乃至請求項５のいずれか１項に記載のシステムにおいて、前記翻訳単位はグラフの形式で表現できる前記ソース言語分析を構成できるデータを含む。
請求項６に記載のシステムにおいて、該転移手段は前記表面データを用いてソース表面分析グラフと、前記依存データを用いてソース依存グラフとを生成するよう試みるように構成されている。
請求項６または請求項７に記載のシステムにおいて、該転移手段は前記依存データを用いてターゲット依存グラフと、前記表面データを用いてターゲット表面分析グラフとを生成するよう試みるように構成されている。
請求項６乃至請求項８のいずれか１項に記載のシステムにおいて、前記表面データは、特定または各々の前記表面グラフがツリー構造を有するよう制約されたようなものである。
請求項９に記載のシステムにおいて、前記ツリーは平面のツリーである。
請求項９または請求項１０に記載のシステムにおいて、前記依存データは、特定または各々の前記依存グラフが平面ツリー構造を有するよう制約されていないようなものである。
請求項１に記載のシステムにおいて、前記ソース言語の言語単位の依存データと前記ターゲット言語の言語単位の対応する依存データとの位置合わせは、単一の対にされた記録の中の対応する前記ソース言語単位と前記ターゲット言語単位とを対にすることを含む。
翻訳に使用されるデータを生成するためのコンピュータ言語翻訳開発システムであって、該システムは、
対応するソース例テキストとターゲット例テキストとがソース言語依存グラフとターゲットの言語依存グラフにリンクできるようにする手段と、
ソーステキストとターゲットテキストの翻訳可能な部分を表す前記ソース言語依存グラフとターゲット言語依存グラフとの対応する翻訳可能なノードを位置合わせできるようにする手段と、
前記ソース言語依存グラフとターゲット言語依存グラフとから、それぞれ関連する表面表現グラフであってツリー構造を有するものを自動的に作成する手段と、を含む。
請求項１３に記載のシステムにおいて、該作成手段は、２つの直接的に或いは間接的に翻訳可能なノード間に位置した中間ノードを依存グラフ内に位置させる手段と、前記依存グラフ内の該中間ノードに依存する該翻訳可能なノードを、前記表面表現構造において、中間ノードが依存する該翻訳可能なノードに直接的に代わりに依存させる手段と、を含む。
請求項１３又は請求項１４に記載のシステムにおいて、該作成手段は、依存グラフ内に２つの翻訳可能なノードに依存する依存ノードを位置させて、前記表面表現構造において、前記翻訳可能なノードの１を該依存ノードに依存させる手段を含む。
請求項１３乃至請求項１５のいずれか１項記載のシステムにおいて、前記作成手段は、依存グラフ内に、平面的な制約を破るために、より高いノードから依存する依存ノードを位置させ、また前記表面表現構造において、前記依存ノードを、前記制約を前記表面表現構造において満足するために、前記より高いノードが直接的に或いは間接的に依存するノードに依存させる手段を含む。
コンピュータ上で実行するコードであって、前記コンピュータを請求項１乃至請求項１６のいずれか１項記載のシステムとして動作させるコードを含むコンピュータプログラム。
依存グラフからテキストの分析の表面ツリー表現を推論する方法であって、該方法は、
ソース依存グラフとターゲット依存グラフの間の位置合わせに依存する方法で該依存グラフを単純化することと、
上記単純化された依存グラフから当初の（必ずしも平面的でない）表面ツリーを作成することと、
上記表面ツリーから最後の平面的な表面ツリーを作成すること、とを含む。
コンピュータ自然言語翻訳システムのための翻訳単位を生成する方法であって、該方法は、
（ａ）ソース言語テキストの翻訳の例をターゲット言語テキストへ、かつ各このような例に対して提供するステップと、
（ｂ）該ソース言語テキストとターゲット言語テキストに対して、それぞれの言語単位順序が保持されたそれぞれの依存グラフを作成するステップと、
（ｃ）該ソース言語依存グラフの言語単位を、これらの言語単位が直接的に翻訳可能と思われる該ターゲット言語依存グラフのそれぞれ対応する言語単位とリンクさせるステップと、
（ｄ）該依存グラフを変換アルゴリズムで処理して複数のルートノードを検出し、このような検出時に、複数のルートノードの１をドーターにして、それによって単一のルートノードを有する対応するツリーを作成するステップと、
（ｅ）前記対応するツリーを処理して平面的なツリー突起制約を破るいかなる親／ドーターノード依存を検出し、このような検出時に、該ツリーのより高いノードから依存する関係するドーターノードを作るステップと、
（ｆ）言語単位の各リンクされた対に対して、それぞれの主要語言語単位として、もしあればドーター言語単位と共に、かつステップ（ｄ）とステップ（ｅ）の動作の結果として依存変化に関するデータと共に、リンクされた言語単位を含むそれぞれの翻訳単位を生成するステップと、を含む。