JP2010521758A

JP2010521758A - 自動翻訳方法

Info

Publication number: JP2010521758A
Application number: JP2009554004A
Authority: JP
Inventors: フルール、クリスチャン; グリフェンステット、グレゴリー; セマール、ナスレディン
Original assignee: コミシリアアレネルジアトミック
Priority date: 2007-03-20
Filing date: 2008-03-12
Publication date: 2010-06-24
Also published as: FR2914079A1; EP2126735A1; US8489384B2; EP2126735B1; FR2914079B1; US20100114558A1; WO2008113733A1

Abstract

本発明は、自動翻訳方法に関する。
本方法は、ソース言語のフレーズをターゲット言語のフレーズに翻訳するときに、
−翻訳対象のソースフレーズの全体的または部分的な翻訳に対応するターゲット言語のフレーズ部分の組をテキストデータベースから抽出するステップ（１）と、
−ソースフレーズと重なるこれらのターゲットフレーズ部分のすべての組み合わせを決定するステップ（２）と、
−前ステップにおいて組み合わされたターゲットフレーズ部分間の重なりが最大であることを基準として、および組み合わされる要素の数が最小化されることを基準として、最良の組み合わせを選定するステップ（３）と、
−一貫性を基準として最良の組み合わせを選定することによりターゲットフレーズを決定するステップ（４）と
を含む。
本発明は、特に、希少言語のテキストの翻訳に適用可能である。
より一般には、過去に確定されたバイリンガルテキストがない場合の翻訳に適用される。
【選択図】図１

Description

本発明は、自動翻訳方法に関する。本発明は、一般に、過去に確定されたバイリンガルテキストがない場合の翻訳に適用される。本発明は、特に、希少言語に関わるテキストの翻訳に適用される。

自動翻訳システムは、現在、少なくとも２つの態様により分けることが可能である。

第１の態様では、翻訳システムは、翻訳対象フレーズの形態統語論的分析、および次いで行われる翻訳済フレーズの転移および生成に基づいている。唯一用いられる意味論は、一般に、データベースに格納されたバイリンガル辞書に組み込まれた用法制限に関するものである。ある分野において理解可能な翻訳を得るためには、専門的語彙および意味的制限を辞書に追加することに時間を費やすことが最良である。翻訳の品質は、テキストが全体的にある程度は理解可能なものになるが、広範な編集を行わずに使用可能な翻訳を構成するものではない。さらに、これらのシステムは、１つのフレーズを許容する一方で別のフレーズ（統語論および意味論的には正しいにもかかわらず）を許容しない言語の用法についてはほとんど考慮していない。

第２の態様では、システムは、翻訳対象フレーズと既に翻訳されているフレーズとの類似性を翻訳に用いる翻訳メモリを利用している。このためには、数多くの翻訳済テキストを有し、整合アルゴリズムを用いて互いの翻訳文である各フレーズを整合させる必要がある。次いで、ソース言語において単言語情報検索手法を用いて、翻訳対象フレーズに最も近い同じ言語のフレーズを検索する。翻訳は、既に翻訳されているテキストのフレーズを予備整合させることにより提供される。これらのシステムは、特に、１つのバージョンと別のバージョンとの間でテキストがさほど変化しない製品用の技術文書の翻訳に使用される。

また、音声認識に使用される技術に基づいて、翻訳メモリに着想を得た自動翻訳アプローチが開発されている。このアプローチは、ｎ個（通常は３個）の単語の連続体に関する統計的方法を用いることで翻訳済テキストを利用して、バイリンガルテキストの他方の要素においてそれらの翻訳が見つかる確率を計算するものである。これらの手法は、従来の自動翻訳システムよりも良好であることが証明されている。しかし、例えばニュースの分野では、（特に英語と経済的に最も重要な言語との）バイリンガルを含む十分なコーパスが存在する一方で、その他のすべての分野では、これらの手法の実用化に十分なデータを有していない。さらに、これらの手法は、考慮されているＮグラム、すなわちＮ個の単語の連続体の使用を通じて存在する希少バイリンガルテキストに含まれる知識のすべてを利用して、言語モデルを作成するものではない。２個、３個、またはＮ個の単語の連続体は、翻訳対象と同一である必要があり、一般には制限的すぎる。実際、連続の制約が厳密であると、非常に制限的になる。例えば、「ｉｌｍａｎｇｅｓｏｕｖｅｎｔｄｕｃｈｏｃｏｌａｔ」をフランス語から英語に「ｈｅｏｆｔｅｎｅａｔｓｃｈｏｃｏｌａｔｅ」と翻訳することで、「ｉｌｍａｎｇｅｄｕｃｈｏｃｏｌａｔ」が翻訳可能にはならない。同様に、単語は、厳密に同一でなければならない。従って、「Ｌｅｇａｔｅａｕｅｓｔｂｏｎ」は、「Ｔｈｅｃａｋｅｉｓｇｏｏｄ」と翻訳されるが、それにより「Ｌｅｓｇａｔｅａｕｘｓｏｎｔｂｏｎｓ」が翻訳可能にはならない。これは、かかるシステムが純粋に統計的システムであるため一般に言語学的処理を行わない、という事実に特に起因している。

また、別の主な欠点は、特に、翻訳の学習に用いられる大量のデータに由来している。実際、利用可能なバイリンガルテキストの量は、ターゲット言語単体、すなわち翻訳先言語の利用可能なテキストよりもはるかに少ない。このことは、例えば希少言語から一般的な言語（特にフランス語または英語など）に翻訳することを目的とする（バイリンガルテキストがコンピュータメディア上にほとんどない、またはまったく存在しない）場合に、より顕著となる。

本発明の目的は、特に、上記の欠点を克服することである。このために、本発明の主題は、ソース言語のフレーズ（ソースフレーズと呼ぶ）をターゲット言語のフレーズ（ターゲットフレーズと呼ぶ）に自動的に翻訳する方法であって、
−翻訳対象のソースフレーズの全体的または部分的な翻訳に対応するターゲット言語のフレーズ部分の組をテキストデータベースから抽出するステップと、
−ソースフレーズと重なるこれらのターゲットフレーズ部分のすべての組み合わせを決定するステップと、
−前ステップにおいて組み合わされたターゲットフレーズ部分間の重なりが最大であることを基準として、および組み合わされる要素の数が最小化されることを基準として、最良の組み合わせを選定するステップと、
−一貫性を基準として最良の組み合わせを選定することによりターゲットフレーズを決定するステップと
を含む、方法である。

本方法は、例えば、フレーズ部分が抽出される元であるターゲット言語のテキストデータベースを作成する予備ステップを含む。

特定の実施形態において、データベースは、
−ターゲット言語のテキストを復元するための第１の段階と、
−復元されたテキストをフレーズに分解し、構文解析を行うための第２の段階と、
−構文解析の表示を伴うフレーズのテキストを収集するための第３の段階と
により作成される。

ターゲット言語のデータベースを作成するステップにおいて、構文解析は、例えば、依存関係の形式で行われ、解析の結果は、三連語（統率子、従属子、関係）により符号化され、三連語は、それらが出現するデータベースの様々なフレーズにおける場所の指示に関連付けられており、統率子は主たる単語であり、その従属子は関係に従って統率子を修飾する単語である。

本方法の第１のステップは、例えば、
−ソースフレーズ構文解析段階と、
−ソース言語とターゲット言語との間の中間言語検索段階と
を含み、
抽出されたフレーズ部分は、要素を可能性のある翻訳で置換したソースフレーズの構文解析結果と、データベースに格納されたターゲットフレーズの構文解析結果との間で最良に重なるものである。

本発明の第２のステップは、例えば、最大の共通部分をもつ組み合わせからソースフレーズと重なる組み合わせを決定する段階を含み、選択された重なりは、所与の閾値よりも大きい長さを有する最大の構造的共通部分を有するフレーズ部分である。

重なりが全体に及んでいるとき、共通部分が最大の組み合わせによりカバーされない単語を、例えば、この単語が翻訳されていないことを伝える指示を伴う対応するソース単語で置換する。

第３のステップにおいて、選択された組み合わせは、例えば、最大数の単語を有する重なりに対応するものである。

第４のステップにおいて、一貫性基準は、例えば、ターゲット言語の屈折の関数である。

本発明の他の特長および利益は、下記の添付図面に照らして後続の説明から明らかになろう。

本発明による方法を実施するための可能性のあるステップを表している。ターゲット言語のテキストデータベースを示している。本発明による方法のステップを実行する連続段階のシーケンス例である。フランス語が翻訳のターゲット言語である場合における、２つのフランス語のフレーズとそれらの構文解析とを例示的に表している。フランス語に翻訳されるべき英語のフレーズとその構文解析とを表している。

図１は、本発明による方法を実施するための可能性のあるステップを示している。本発明による方法は、翻訳の生成法に関して、特に、深い構文解析のための言語学技術をターゲット言語のみについての学習と組み合わせるものである。このために、本方法は、例えばユーザのためにテキスト文書により補完され得る、特にネットワーク（ウェブ）を介してデジタル形式でアクセス可能なターゲット言語フレーズの組に適用されるインデックス化および中間言語テキスト検索技術に特に依拠している。本発明によれば、翻訳において、翻訳対象フレーズがこの中間言語システムへのリクエストとして提示され、翻訳対象のソース段階の意味と全体的に重なる、できるだけ完全な、構造的および意味論的な共通部分を与えるフレーズの組が決定される。抽出されたターゲット言語の段階を構成することにより、所望の翻訳を生成する。以下で説明するステップにより、この方法は実施される。

本方法では、予備ステップ１０において、特にターゲット言語の形態統語論的分析器を用いて、例えばターゲット言語のデータベースを作成する。このデータベースでは、典型的には、文書がフレーズに対応する。

続いて、翻訳対象のソースフレーズを翻訳するため、本方法の第１のステップ１では、翻訳対象のソースフレーズの全体的または部分的な翻訳に対応するターゲット言語のフレーズ部分の組を抽出する。

第２のステップ２では、ソースフレーズと全体的に重なるこれらのターゲットフレーズ部分のすべての組み合わせを決定する。特に固有名詞または未知の名詞が関与する場合は、ほぼ全体的に重なっていればよい。

第３のステップ３では、ステップ２において組み合わされたターゲットフレーズ部分間の重なりが最大であることを基準として、および組み合わされる要素の数が最小化されることを基準として、最良の組み合わせを選定する。重なりとは、ターゲットフレーズの各部分の依存チャートの（換言すれば単語とそれらの関係との）共通部分である。最大重なり基準により最良に重なるものは、最大数の単語を有するものに対応する。

第４のステップ４では、一貫性基準を満たす最良の組み合わせを選定することによりターゲットフレーズを決定する。これらの一貫性基準とは、特に、動詞の時制、性または数、およびより一般には屈折についての情報である。この屈折情報を用いて、屈折により単語を修飾することが可能である。かかる屈折情報は、例えば格変化または活用などの特定の文法的な側面および関係を表す。

図２は、本方法の可能性のある予備ステップ１０におけるデータベースの作成例を示している。この作成には、いくつかの段階が含まれる。第１の段階２１では、翻訳システムは、インターネットまたは他のいずれかの手段によりアクセス可能なターゲット言語のすべてのテキストを復元する。インターネット２０（すなわちウェブ）を介するテキストの復元は、例えば、検索ロボットを使用するか、またはウェブサイト全体を閲覧してそれらのウェブサイトの可能性のある内容を復元する業者によりウェブからブロックを購入することにより行う。

第２の段階２２では、復元されたテキストを既知の方法によりフレーズに分解し、次いで、例えば依存関係の形式において、これらのフレーズの構文解析を順次行うことで、意味論的な観点からは表層的に等価な数多くの形式に共通の表示を与える深層構造を形成する。深層構造とは、実際には、依存関係の形式における統語論的表示に対応する。深層と言うのは、いくつかの所謂表層的記述、すなわち同じ意味を与える単語の連続体を表示可能なためである。表層形式または構造とは、テキストにおける単語のあるがままの配列に対応する。特に、修飾語句、形容詞、または名詞には等価性が存在する。したがって、「ｃａｒｄｉａｃ」は、「ｏｆｔｈｅｈｅａｒｔ」に関連付けられる。同様に、動作名詞と動詞との間にも等価性が存在し、例えば、「ｔｏｒｅａｄ」は、「ｒｅａｄｉｎｇ」に関連付けられる。慣用的な単語または表現は標準化される、すなわち、少なくともそれらの見出語により、またはより好適には完全に同意であると見なされる見出語の組を代表するものにより、表される。見出語とは、特に辞書において見られるような、単語の標準化された形式であり、特に、名詞については主格単数形、形容詞については男性主格単数形、動詞については不定詞に対応する。代名詞の指示対象を算出することで、代名詞が置換している名詞が分かる。性−数および時制−法−人称の情報も表記する。標準化された深層構造と表層形式との間のリンクは保持する。

第３の段階２３では、テキストデータベース２４を編集する。解析された各フレーズは、テキスト検索システムの文書となる。直接ファイルにおける直接情報は、ターゲット形式のフレーズおよび依存リンクを伴う構文解析で構成される。

直接ファイルは、インデックス化されたフレーズの各々に関する情報、すなわちフレーズのテキストおよび依存構文解析の表示を含む。これは、フレーズの構文解析を構成する三連の単語のリスト（各三連語についてフレーズにおける単語の場所の指示を伴う）とすることが可能である。

また、構文解析は、例えば、それらが出現する様々なフレーズにおける場所の指示に関連付けられた統率子−従属子−関係の三連語の形式で逆ファイルに符号化する。これにより、特に、三連語を組み合わせることでより複雑な構造をなすかどうかが確認可能となる。また、この逆ファイルは、単純な単語を含むため、フレーズのその他の単語との関係が分からない場合であっても、それらの単語を検索することが可能である。逆ファイルとは、依存関係にある２つの単語または２つの三連語（統率子−従属子−関係）を表す単語または三連の単語を、データベース２４の文書におけるその場所のリストと関連付けるファイルである。統率子−従属子−関係の三連語に関して、依存解析において、統率子は主たる単語であり、従属子すなわち被統率語はそれを修飾する単語である。例えば、フレーズ「Ｌｅｃｈａｔｂｏｉｔｄｕｌａｉｔｃｈａｕｄ」において、単語「ｂｏｉｔ」は、動作の主体の関係を有する単語「ｃｈａｔ」の統率子であり、直接目的語の関係を有する単語「ｌａｉｔ」の統率子である。また、単語「ｌａｉｔ」は、その従属子である単語「ｃｈａｕｄ」の統率子である。三連語に含まれる関係情報は、特に、従属語の被統率語に対する関係（例えば動作主、補語、副詞等）の性質を示す。図２は、ターゲット言語のデータベースの作成例を示している。他の種類のデータベースを使用することも可能である。特に、データは、単一のファイルまたは単一のデータベースに格納することも、いくつかの場所に分散させることも可能であるが、重要なことはそのアクセス性である。

図３は、本発明による方法のその他のステップを連続段階の例により示している。翻訳対象テキストの組３０からフレーズを抽出する。翻訳対象フレーズの構文解析を行う第１の段階３１と、中間言語検索を行う第２の段階３２とが、本方法の第１のステップ１を形成する。

このため、第１の段階３１では、翻訳対象のフレーズの構文解析をソース言語で行う。この解析は、例えば、ターゲット言語のデータベース２４の作成と同じ依存構文解析により行うことで、できるだけ深層に及ぶ依存表示が与えられる。従って、ターゲット言語の解析とソース言語への翻訳対象であるフレーズの解析とは、１つの同じレベルの表示で行われる。

第２の段階３２では、中間言語検索システムを使用して、要素を可能性のある翻訳で置換したソースフレーズの構文解析（３１）結果と、データベース（２４）に格納されたターゲットフレーズの構文解析（２２）結果との間で最良に重なるものを求める。この中間言語検索を行うために、バイリンガル辞書を使用する。追加の段階では、汎用のバイリンガル辞書を有益なように編集する。これは、例えば市販されているようなバイリンガル辞書は、特にフレーズの一部分を逐語訳することが不可能な場合に、中間言語検索を良好に行うには不適当な可能性があるためである。複合語または慣用表現の翻訳全体を考慮（それらが連続していない場合も含む）することで、著しい改善が見られる。この結果、ただ１つの文法カテゴリーによりタグ付け可能なハイパーワードを考慮することになる。このため、これらのハイパーワードは、翻訳対象フレーズの下位部分であって、一括的に翻訳されるものである。一般に、ハイパーワードとは、一括的にのみ翻訳可能な（必ずしも連続する必要はない）下位部分または下位構造に対応するものである。従って、ハイパーワードは、関与する言語対（ソース言語およびターゲット言語）の従属子である。単語と意味との間の関係の確定の仕方が互いに異質であるほど、バイリンガル辞書において相関されるべき構造がより複雑になり得る。これは、例えば英語の「ｓｅａｔｂｅｌｔ」およびフランス語の「ｃｅｉｎｔｕｒｅｄｅｓｅｃｕｒｉｔｅ」などの逐語訳されない複合語だけでなく、例えばフランス語の「ｍａｉｓｏｎ」および英語の「ｈｏｕｓｅ」などの単純な単語にも関わる。また、これは、フランス語の「ａｖｏｉｒｌｉｅｕ」および英語の「ｏｃｃｕｒ」などの慣用表現、またはより異質な言語について、直接目的補語を統率する動詞が他方の言語では単一の動詞で表されるより複雑な構造にも関わる。

中間言語検索では、要素を可能性のある翻訳で置換したソースフレーズ３１の解析と、テキストデータベース２４に格納されたターゲットフレーズの解析との間で最大の構造的共通部分を確定することにより、バイリンガル辞書４０に含まれる部分翻訳を用いる。構造間の重なりは、実語のみに関わり、例えば冠詞または前置詞などの所謂虚語は対象としない。虚語は、確認することなくその統率子に付加される。このために、例えば、三連語対三連語の検索（統率子、従属子、関係）を行うことが可能である。ともに繋げられた三連語を付加することで、最大の共通部分を求める。この処理には、曖昧であるとともに最も一般的な単語であるためデータベースが最大の文脈を含む単語について、好適な翻訳を選定できる、という顕著な利点がある。最も具体的な単語は、一般に、ただ１つの翻訳のみを有する。

中間言語検索の結果は、同じ構造的共通部分によりともにグループ化されるとともに構造的共通部分のサイズの降順に配列されたフレーズ部分のリストであってもよい。抽出ステップ１において抽出されたフレーズ部分は、例えば、共通部分の長さが所与の閾値を超えるリスト内のフレーズ部分である。

続く段階３３では、先の段階において定義された最大の共通部分に基いてソースフレーズの構造と全体的に重なるものを検索することで、本方法の第２のステップ２を補う。この目的は、最大の共通部分からソース構造と全体的に重なるものを構築することである。これが可能でない場合は、中間言語検索応答のリストをより幅広く検索する。未翻訳の単語が残っている場合は、この単語が翻訳されていないことをユーザに示すことを可能にする指示を伴う対応するソース単語で置換する。

次の段階３４では、最良の組み合わせを選定するステップ３を行う。

最良の組み合わせの選定は、組み合わされたターゲットフレーズ部分間の重なりが最大であることを基準として、および組み合わされる要素の数が最小化されることを基準として決定されるため、例えば、最大数の単語を有する重なりに対応する表層的な単語の組み合わせを、この目的のために選択する。

先の段階３１、３２、３３、３４が終わると、ソース言語の下位構造に対応するデータベース２４のターゲットフレーズに見られる依存構造のそれぞれが、対応する表層構造と関係を有している。これにより、表層構造を形成する表層的な単語の組み合わせ、および翻訳を形成するためにそれらを書き出す順番が、利用可能になる。

最終段階３５では、ステップ４を実施し、これらの最良の組み合わせから保持されるターゲットフレーズは、一貫性基準を満たすものである。これらの一貫性基準は、特に、格変化または活用語尾、時制および活用法、ならびに数、特に単数または複数の標示である。必要な場合は、ソースフレーズの翻訳のためにフレーズの数を保持することも可能である。

以下の図面では、先に説明したステップおよび段階による本発明による翻訳例を示す。図４は、例えばウェブから抽出した、フランス語（この例ではターゲット言語である）の２つのフレーズ４１、４２を示している。第１のフレーズ４１は、「Ｌｅｄｅｖｅｌｏｐｐｅｍｅｎｔｓｃｉｅｎｔｉｆｉｑｕｅｌｅｐｌｕｓｒａｐｉｄｅａａｕｊｏｕｒｄ’ｈｕｉｌｉｅｕｅｎＡｓｉｅ」であり、第２のフレーズ４２は、「Ｌｅｓｔｒｅｍｂｌｅｍｅｎｔｓｄｅｔｅｒｒｅｓｅｐｒｏｄｕｉｓｅｎｔｓｏｕｖｅｎｔａｐｒｏｘｉｍｉｔｅｄｅｍａｓｓｉｆｓｍｏｎｔａｇｎｅｕｘ」である。また、図４は、これらのフレーズの構文解析も示している。各解析は、三連語（統率子、従属子、関係）により符号化している。関係は、従属語４２を統率語４２にリンクする矢印により示し、関係の性質も示している。従って、単語「ｓｃｉｅｎｔｉｆｉｑｕｅ」は、その統率子である単語「ｄｅｖｅｌｏｐｐｅｍｅｎｔ」の従属子であり、その関係は修飾関係である。解析には、単語に加え、例えば「ａｖｏｉｒｌｉｅｕ」などのハイパーワードも用いる。従って、単語「Ａｓｉｅ」は、ハイパーワード「ａｖｏｉｒｌｉｅｕ」の従属子であり、その依存関係は場所補語を示している。これらの二例について、データベース２４は、以下の三連語を格納する。
−（ｄｅｖｅｌｏｐｐｅｍｅｎｔ、ｓｃｉｅｎｔｉｆｉｑｕｅ、修飾）
−（ａｖｏｉｒｌｉｅｕ、Ａｓｉｅ、場所補語）

関係に関する三連データは、前記関係の性質、すなわちこれらの二例については修飾および場所補語を示している。

この第１のフレーズ４１について、これらの２つの三連語を、以下の三連語のリストにより補完する。
−（ｄｅｖｅｌｏｐｐｅｍｅｎｔ、ｌｅ、限定詞）
−（ａｖｏｉｒｌｉｅｕ、ｄｅｖｅｌｏｐｐｅｍｅｎｔ、動作主）
−（ｄｅｖｅｌｏｐｐｅｍｅｎｔ、ｒａｐｉｄｅ、修飾）
−（ｒａｐｉｄｅ、ｌｅｐｌｕｓ、最上級）
−（ａｖｏｉｒｌｉｅｕ、ａｕｊｏｕｒｄ’ｈｕｉ、時間補語）
−（Ａｓｉｅ、ｅｎ、前置詞）

第２のフレーズ４２については、三連語のリストは以下のようになる。
−（ｓｅｐｒｏｄｕｉｒｅ、ｓｏｕｖｅｎｔ、副詞）
−（ｓｅｐｒｏｄｕｉｒｅ、ｔｒｅｍｂｌｅｍｅｎｔｄｅｔｅｒｒｅ、動作主）
−（ｍａｓｓｉｆ、ｍｏｎｔａｇｎｅｕｘ、修飾）
−（ｔｒｅｍｂｌｅｍｅｎｔｄｅｔｅｒｒｅ、ｌｅｓ、限定詞）
−（ｓｅｐｒｏｄｕｉｒｅ、ｍａｓｓｉｆ、場所補語）
−（ｍａｓｓｉｆ、ａｐｒｏｘｉｍｉｔｅｄｅ、前置詞）

例に取り上げたこれらの２つのフランス語フレーズ４１、４２は、それらの構文解析を上記の三連語により表した状態でテキストデータベース２４に格納可能である。

以下の説明は、フレーズの翻訳を得るために組み合わせる要素を決定するために用いる比較メカニズムを用いる本方法の実施例を示している。

図５は、英語（ソース言語）からフランス語（ターゲット言語）に翻訳されるフレーズ５１を例示している。フレーズ５１は、「ＥａｒｔｈｑｕａｋｅｓｆｒｅｑｕｅｎｔｌｙｏｃｃｕｒｉｎＡｓｉａ」である。第１のステップ１の段階３１において行われる構文解析を図５に示す。各単語５２（統率子または従属子である）は依存関係にあり、この依存関係を、従属語から統率語へ向かう矢印により示している。従って、構文解析は以下の三連語のリストにより符号化可能である。
−（ｏｃｃｕｒ、ｅａｒｔｈｑｕａｋｅ、動作主）
−（ｏｃｃｕｒ、ｆｒｅｑｕｅｎｔｌｙ、副詞）
−（ｏｃｃｕｒ、Ａｓｉａ、場所補語）
−（Ａｓｉａ、ｉｎ、前置詞）

解析が完了したら、中間言語検索を適用する。中間言語検索システムは、例えば、そのバイリンガル辞書４０を呼び出し、各単語をターゲット言語に翻訳するとともに、逐語訳されない表現を翻訳する。従って、
−ｅａｒｔｈｑｕａｋｅは、ｔｒｅｍｂｌｅｍｅｎｔｄｅｔｅｒｒｅと翻訳され、
−ｏｃｃｕｒは、ａｒｒｉｖｅｒ、ｉｎｔｅｒｖｅｎｉｒ、ｓ’ｏｐｅｒｅｒ、ｓｅｄｅｒｏｕｌｅｒ、ｓｅｐｒｏｄｕｉｒｅ、ｓｅｐｒｅｓｅｎｔｅｒ、ｓｅｒｅｎｃｏｎｔｒｅｒ、ｓｅｔｒｏｕｖｅｒ、ｓｕｒｖｅｎｉｒ、ａｖｏｉｒｌｉｅｕと翻訳され、
−ｆｒｅｑｕｅｎｔｌｙは、ｓｏｕｖｅｎｔ、ｆｒｅｑｕｅｍｍｅｎｔと翻訳される。

システムは、先の構文解析により確定された依存関係により定義されるすべての可能性のある対を検索することにより、英語の単語をそれらのフランス語翻訳により検索する。対の例を以下に示す。単語間の関係の性質は丸括弧内に示している
−ｔｒｅｍｂｌｅｍｅｎｔｄｅｔｅｒｒｅ（動作主）、ａｒｒｉｖｅ
−ｔｒｅｍｂｌｅｍｅｎｔｄｅｔｅｒｒｅ（動作主）、ｉｎｔｅｒｖｉｅｎｔ
−ｔｒｅｍｂｌｅｍｅｎｔｄｅｔｅｒｒｅ（動作主）、ｓｅｐｒｏｄｕｉｔ
−ｔｒｅｍｂｌｅｍｅｎｔｄｅｔｅｒｒｅ（動作主）、ａｌｉｅｕ
−ｓｅｐｒｏｄｕｉｔ（副詞）、ｆｒｅｑｕｅｍｍｅｎｔ
−ｓｅｐｒｏｄｕｉｔ（副詞）、ｓｏｕｖｅｎｔ
−ａｌｉｅｕ（副詞）、ｓｏｕｖｅｎｔ

いくつかの対のみを有効化する。より詳細には、対をリンクすることにより重なりが最大であるものを有効化する。ターゲット言語の第１のフレーズ部分４５は、「ａｌｉｅｕｅｎＡｓｉｅ」である。第２のフレーズ部分４６は、「ｌｅｓｔｒｅｍｂｌｅｍｅｎｔｓｄｅｔｅｒｒｅｓｅｐｒｏｄｕｉｓｅｎｔ」である。

次いで、ソースフレーズと全体的に重なるフレーズ部分の組み合わせを発生させる。この例では、部分４５および４６を組み合わせることでソースフレーズをカバーすることが可能で、「ｓｅｐｒｏｄｕｉｒｅ」および「ａｖｏｉｒｌｉｅｕ」は、例えばターゲット言語の単言語再構成辞書により同意であると判断し、これらの部分を結合させることで全体的に重ならせることが可能である。克服すべき別の問題には、数に関する相違があり、第１の部分４５の活用した動詞は単数であり、第２の部分４６の活用した動詞は複数である。フランス語の屈折を用いると、変形は単純である。従って、第２の部分４６は、正しく一致する。最終的に、ソースフレーズ５１の翻訳例は、「ｌｅｓｔｒｅｍｂｌｅｍｅｎｔｓｄｅｔｅｒｒｅｓｅｐｒｏｄｕｉｓｅｎｔｓｏｕｖｅｎｔｅｎＡｓｉｅ」となる。

Claims

ソース言語のフレーズ（ソースフレーズと呼ぶ）をターゲット言語のフレーズ（ターゲットフレーズと呼ぶ）に自動的に翻訳する方法であって、
−翻訳対象の前記ソースフレーズの全体的または部分的な翻訳に対応する前記ターゲット言語のフレーズ部分の組をテキストデータベース（２４）から抽出するステップ（１）と、
−前記ソースフレーズと重なるこれらのターゲットフレーズ部分のすべての組み合わせを決定するステップ（２）と、
−前ステップにおいて組み合わされた前記ターゲットフレーズ部分間の重なりが最大であることを基準として、および組み合わされる要素の数が最小化されることを基準として、最良の組み合わせを選定するステップ（３）と、
−一貫性を基準として最良の組み合わせを選定することにより前記ターゲットフレーズを決定するステップ（４）と
を含むことを特徴とする、方法。
前記フレーズ部分が抽出される元である前記ターゲット言語の前記テキストデータベース（２４）を作成する予備ステップ（１０）を含むことを特徴とする、請求項１に記載の方法。
前記データベース（２４）は、
−前記ターゲット言語のテキストを復元するための第１の段階（２１）と、
−前記復元されたテキストをフレーズに分解し、構文解析を行うための第２の段階（２２）と、
−構文解析の表示を伴う前記フレーズの前記テキストを収集するための第３の段階（２３）と
により作成されることを特徴とする、請求項２に記載の方法。
前記構文解析（２２）は、依存関係の形式で行われ、前記解析の結果は、三連語（統率子、従属子、関係）により符号化され、前記三連語は、それらが出現する前記データベース（２４）の様々なフレーズにおける場所の指示に関連付けられており、前記統率子は主たる単語であり、その従属子は前記関係に従って前記統率子を修飾する単語であることを特徴とする、請求項３に記載の方法。
前記第１のステップ（１）は、
−ソースフレーズ構文解析段階（３１）と、
−前記ソース言語と前記ターゲット言語との間の中間言語検索段階（３２）と
を含み、
前記抽出されたフレーズ部分は、要素を可能性のある翻訳で置換した前記ソースフレーズの前記構文解析（３１）結果と、前記データベース（２４）に格納された前記ターゲットフレーズの前記構文解析（２２）結果との間で最良に重なるものであり、前記選択された重なりは、所与の閾値よりも大きい長さを有する最大の構造的共通部分を有する前記フレーズ部分であることを特徴とする、請求項１〜４のいずれか一項に記載の方法。
前記第２のステップ（２）は、最大の共通部分をもつ前記組み合わせから前記ソースフレーズと重なる前記組み合わせを決定する段階（３３）を含むことを特徴とする、請求項５に記載の方法。
前記重なりが全体に及んでいるとき、共通部分が最大の前記組み合わせによりカバーされない単語を、この単語が翻訳されていないことを伝える指示を伴う対応するソース単語で置換することを特徴とする、請求項６に記載の方法。
前記第３のステップ（３）において、前記最大重なり基準により選択された前記組み合わせは、最大数の単語を有する前記重なりに対応するものであることを特徴とする、請求項１〜７のいずれか一項に記載の方法。
前記第４のステップ（４）において、前記一貫性基準は、前記ターゲット言語の屈折の関数であることを特徴とする、請求項１〜８のいずれか一項に記載の方法。