JP2010521758A - 自動翻訳方法 - Google Patents

自動翻訳方法 Download PDF

Info

Publication number
JP2010521758A
JP2010521758A JP2009554004A JP2009554004A JP2010521758A JP 2010521758 A JP2010521758 A JP 2010521758A JP 2009554004 A JP2009554004 A JP 2009554004A JP 2009554004 A JP2009554004 A JP 2009554004A JP 2010521758 A JP2010521758 A JP 2010521758A
Authority
JP
Japan
Prior art keywords
phrase
target
source
word
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009554004A
Other languages
English (en)
Inventor
フルール、クリスチャン
グリフェンステット、グレゴリー
セマール、ナスレディン
Original Assignee
コミシリア ア レネルジ アトミック
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by コミシリア ア レネルジ アトミック filed Critical コミシリア ア レネルジ アトミック
Publication of JP2010521758A publication Critical patent/JP2010521758A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/49Data-driven translation using very large corpora, e.g. the web

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本発明は、自動翻訳方法に関する。
本方法は、ソース言語のフレーズをターゲット言語のフレーズに翻訳するときに、
−翻訳対象のソースフレーズの全体的または部分的な翻訳に対応するターゲット言語のフレーズ部分の組をテキストデータベースから抽出するステップ(1)と、
−ソースフレーズと重なるこれらのターゲットフレーズ部分のすべての組み合わせを決定するステップ(2)と、
−前ステップにおいて組み合わされたターゲットフレーズ部分間の重なりが最大であることを基準として、および組み合わされる要素の数が最小化されることを基準として、最良の組み合わせを選定するステップ(3)と、
−一貫性を基準として最良の組み合わせを選定することによりターゲットフレーズを決定するステップ(4)と
を含む。
本発明は、特に、希少言語のテキストの翻訳に適用可能である。
より一般には、過去に確定されたバイリンガルテキストがない場合の翻訳に適用される。
【選択図】 図1

Description

本発明は、自動翻訳方法に関する。本発明は、一般に、過去に確定されたバイリンガルテキストがない場合の翻訳に適用される。本発明は、特に、希少言語に関わるテキストの翻訳に適用される。
自動翻訳システムは、現在、少なくとも2つの態様により分けることが可能である。
第1の態様では、翻訳システムは、翻訳対象フレーズの形態統語論的分析、および次いで行われる翻訳済フレーズの転移および生成に基づいている。唯一用いられる意味論は、一般に、データベースに格納されたバイリンガル辞書に組み込まれた用法制限に関するものである。ある分野において理解可能な翻訳を得るためには、専門的語彙および意味的制限を辞書に追加することに時間を費やすことが最良である。翻訳の品質は、テキストが全体的にある程度は理解可能なものになるが、広範な編集を行わずに使用可能な翻訳を構成するものではない。さらに、これらのシステムは、1つのフレーズを許容する一方で別のフレーズ(統語論および意味論的には正しいにもかかわらず)を許容しない言語の用法についてはほとんど考慮していない。
第2の態様では、システムは、翻訳対象フレーズと既に翻訳されているフレーズとの類似性を翻訳に用いる翻訳メモリを利用している。このためには、数多くの翻訳済テキストを有し、整合アルゴリズムを用いて互いの翻訳文である各フレーズを整合させる必要がある。次いで、ソース言語において単言語情報検索手法を用いて、翻訳対象フレーズに最も近い同じ言語のフレーズを検索する。翻訳は、既に翻訳されているテキストのフレーズを予備整合させることにより提供される。これらのシステムは、特に、1つのバージョンと別のバージョンとの間でテキストがさほど変化しない製品用の技術文書の翻訳に使用される。
また、音声認識に使用される技術に基づいて、翻訳メモリに着想を得た自動翻訳アプローチが開発されている。このアプローチは、n個(通常は3個)の単語の連続体に関する統計的方法を用いることで翻訳済テキストを利用して、バイリンガルテキストの他方の要素においてそれらの翻訳が見つかる確率を計算するものである。これらの手法は、従来の自動翻訳システムよりも良好であることが証明されている。しかし、例えばニュースの分野では、(特に英語と経済的に最も重要な言語との)バイリンガルを含む十分なコーパスが存在する一方で、その他のすべての分野では、これらの手法の実用化に十分なデータを有していない。さらに、これらの手法は、考慮されているNグラム、すなわちN個の単語の連続体の使用を通じて存在する希少バイリンガルテキストに含まれる知識のすべてを利用して、言語モデルを作成するものではない。2個、3個、またはN個の単語の連続体は、翻訳対象と同一である必要があり、一般には制限的すぎる。実際、連続の制約が厳密であると、非常に制限的になる。例えば、「il mange souvent du chocolat」をフランス語から英語に「he often eats chocolate」と翻訳することで、「il mange du chocolat」が翻訳可能にはならない。同様に、単語は、厳密に同一でなければならない。従って、「Le gateau est bon」は、「The cake is good」と翻訳されるが、それにより「Les gateaux sont bons」が翻訳可能にはならない。これは、かかるシステムが純粋に統計的システムであるため一般に言語学的処理を行わない、という事実に特に起因している。
また、別の主な欠点は、特に、翻訳の学習に用いられる大量のデータに由来している。実際、利用可能なバイリンガルテキストの量は、ターゲット言語単体、すなわち翻訳先言語の利用可能なテキストよりもはるかに少ない。このことは、例えば希少言語から一般的な言語(特にフランス語または英語など)に翻訳することを目的とする(バイリンガルテキストがコンピュータメディア上にほとんどない、またはまったく存在しない)場合に、より顕著となる。
本発明の目的は、特に、上記の欠点を克服することである。このために、本発明の主題は、ソース言語のフレーズ(ソースフレーズと呼ぶ)をターゲット言語のフレーズ(ターゲットフレーズと呼ぶ)に自動的に翻訳する方法であって、
−翻訳対象のソースフレーズの全体的または部分的な翻訳に対応するターゲット言語のフレーズ部分の組をテキストデータベースから抽出するステップと、
−ソースフレーズと重なるこれらのターゲットフレーズ部分のすべての組み合わせを決定するステップと、
−前ステップにおいて組み合わされたターゲットフレーズ部分間の重なりが最大であることを基準として、および組み合わされる要素の数が最小化されることを基準として、最良の組み合わせを選定するステップと、
−一貫性を基準として最良の組み合わせを選定することによりターゲットフレーズを決定するステップと
を含む、方法である。
本方法は、例えば、フレーズ部分が抽出される元であるターゲット言語のテキストデータベースを作成する予備ステップを含む。
特定の実施形態において、データベースは、
−ターゲット言語のテキストを復元するための第1の段階と、
−復元されたテキストをフレーズに分解し、構文解析を行うための第2の段階と、
−構文解析の表示を伴うフレーズのテキストを収集するための第3の段階と
により作成される。
ターゲット言語のデータベースを作成するステップにおいて、構文解析は、例えば、依存関係の形式で行われ、解析の結果は、三連語(統率子、従属子、関係)により符号化され、三連語は、それらが出現するデータベースの様々なフレーズにおける場所の指示に関連付けられており、統率子は主たる単語であり、その従属子は関係に従って統率子を修飾する単語である。
本方法の第1のステップは、例えば、
−ソースフレーズ構文解析段階と、
−ソース言語とターゲット言語との間の中間言語検索段階と
を含み、
抽出されたフレーズ部分は、要素を可能性のある翻訳で置換したソースフレーズの構文解析結果と、データベースに格納されたターゲットフレーズの構文解析結果との間で最良に重なるものである。
本発明の第2のステップは、例えば、最大の共通部分をもつ組み合わせからソースフレーズと重なる組み合わせを決定する段階を含み、選択された重なりは、所与の閾値よりも大きい長さを有する最大の構造的共通部分を有するフレーズ部分である。
重なりが全体に及んでいるとき、共通部分が最大の組み合わせによりカバーされない単語を、例えば、この単語が翻訳されていないことを伝える指示を伴う対応するソース単語で置換する。
第3のステップにおいて、選択された組み合わせは、例えば、最大数の単語を有する重なりに対応するものである。
第4のステップにおいて、一貫性基準は、例えば、ターゲット言語の屈折の関数である。
本発明の他の特長および利益は、下記の添付図面に照らして後続の説明から明らかになろう。
本発明による方法を実施するための可能性のあるステップを表している。 ターゲット言語のテキストデータベースを示している。 本発明による方法のステップを実行する連続段階のシーケンス例である。 フランス語が翻訳のターゲット言語である場合における、2つのフランス語のフレーズとそれらの構文解析とを例示的に表している。 フランス語に翻訳されるべき英語のフレーズとその構文解析とを表している。
図1は、本発明による方法を実施するための可能性のあるステップを示している。本発明による方法は、翻訳の生成法に関して、特に、深い構文解析のための言語学技術をターゲット言語のみについての学習と組み合わせるものである。このために、本方法は、例えばユーザのためにテキスト文書により補完され得る、特にネットワーク(ウェブ)を介してデジタル形式でアクセス可能なターゲット言語フレーズの組に適用されるインデックス化および中間言語テキスト検索技術に特に依拠している。本発明によれば、翻訳において、翻訳対象フレーズがこの中間言語システムへのリクエストとして提示され、翻訳対象のソース段階の意味と全体的に重なる、できるだけ完全な、構造的および意味論的な共通部分を与えるフレーズの組が決定される。抽出されたターゲット言語の段階を構成することにより、所望の翻訳を生成する。以下で説明するステップにより、この方法は実施される。
本方法では、予備ステップ10において、特にターゲット言語の形態統語論的分析器を用いて、例えばターゲット言語のデータベースを作成する。このデータベースでは、典型的には、文書がフレーズに対応する。
続いて、翻訳対象のソースフレーズを翻訳するため、本方法の第1のステップ1では、翻訳対象のソースフレーズの全体的または部分的な翻訳に対応するターゲット言語のフレーズ部分の組を抽出する。
第2のステップ2では、ソースフレーズと全体的に重なるこれらのターゲットフレーズ部分のすべての組み合わせを決定する。特に固有名詞または未知の名詞が関与する場合は、ほぼ全体的に重なっていればよい。
第3のステップ3では、ステップ2において組み合わされたターゲットフレーズ部分間の重なりが最大であることを基準として、および組み合わされる要素の数が最小化されることを基準として、最良の組み合わせを選定する。重なりとは、ターゲットフレーズの各部分の依存チャートの(換言すれば単語とそれらの関係との)共通部分である。最大重なり基準により最良に重なるものは、最大数の単語を有するものに対応する。
第4のステップ4では、一貫性基準を満たす最良の組み合わせを選定することによりターゲットフレーズを決定する。これらの一貫性基準とは、特に、動詞の時制、性または数、およびより一般には屈折についての情報である。この屈折情報を用いて、屈折により単語を修飾することが可能である。かかる屈折情報は、例えば格変化または活用などの特定の文法的な側面および関係を表す。
図2は、本方法の可能性のある予備ステップ10におけるデータベースの作成例を示している。この作成には、いくつかの段階が含まれる。第1の段階21では、翻訳システムは、インターネットまたは他のいずれかの手段によりアクセス可能なターゲット言語のすべてのテキストを復元する。インターネット20(すなわちウェブ)を介するテキストの復元は、例えば、検索ロボットを使用するか、またはウェブサイト全体を閲覧してそれらのウェブサイトの可能性のある内容を復元する業者によりウェブからブロックを購入することにより行う。
第2の段階22では、復元されたテキストを既知の方法によりフレーズに分解し、次いで、例えば依存関係の形式において、これらのフレーズの構文解析を順次行うことで、意味論的な観点からは表層的に等価な数多くの形式に共通の表示を与える深層構造を形成する。深層構造とは、実際には、依存関係の形式における統語論的表示に対応する。深層と言うのは、いくつかの所謂表層的記述、すなわち同じ意味を与える単語の連続体を表示可能なためである。表層形式または構造とは、テキストにおける単語のあるがままの配列に対応する。特に、修飾語句、形容詞、または名詞には等価性が存在する。したがって、「cardiac」は、「of the heart」に関連付けられる。同様に、動作名詞と動詞との間にも等価性が存在し、例えば、「to read」は、「reading」に関連付けられる。慣用的な単語または表現は標準化される、すなわち、少なくともそれらの見出語により、またはより好適には完全に同意であると見なされる見出語の組を代表するものにより、表される。見出語とは、特に辞書において見られるような、単語の標準化された形式であり、特に、名詞については主格単数形、形容詞については男性主格単数形、動詞については不定詞に対応する。代名詞の指示対象を算出することで、代名詞が置換している名詞が分かる。性−数および時制−法−人称の情報も表記する。標準化された深層構造と表層形式との間のリンクは保持する。
第3の段階23では、テキストデータベース24を編集する。解析された各フレーズは、テキスト検索システムの文書となる。直接ファイルにおける直接情報は、ターゲット形式のフレーズおよび依存リンクを伴う構文解析で構成される。
直接ファイルは、インデックス化されたフレーズの各々に関する情報、すなわちフレーズのテキストおよび依存構文解析の表示を含む。これは、フレーズの構文解析を構成する三連の単語のリスト(各三連語についてフレーズにおける単語の場所の指示を伴う)とすることが可能である。
また、構文解析は、例えば、それらが出現する様々なフレーズにおける場所の指示に関連付けられた統率子−従属子−関係の三連語の形式で逆ファイルに符号化する。これにより、特に、三連語を組み合わせることでより複雑な構造をなすかどうかが確認可能となる。また、この逆ファイルは、単純な単語を含むため、フレーズのその他の単語との関係が分からない場合であっても、それらの単語を検索することが可能である。逆ファイルとは、依存関係にある2つの単語または2つの三連語(統率子−従属子−関係)を表す単語または三連の単語を、データベース24の文書におけるその場所のリストと関連付けるファイルである。統率子−従属子−関係の三連語に関して、依存解析において、統率子は主たる単語であり、従属子すなわち被統率語はそれを修飾する単語である。例えば、フレーズ「Le chat boit du lait chaud」において、単語「boit」は、動作の主体の関係を有する単語「chat」の統率子であり、直接目的語の関係を有する単語「lait」の統率子である。また、単語「lait」は、その従属子である単語「chaud」の統率子である。三連語に含まれる関係情報は、特に、従属語の被統率語に対する関係(例えば動作主、補語、副詞等)の性質を示す。図2は、ターゲット言語のデータベースの作成例を示している。他の種類のデータベースを使用することも可能である。特に、データは、単一のファイルまたは単一のデータベースに格納することも、いくつかの場所に分散させることも可能であるが、重要なことはそのアクセス性である。
図3は、本発明による方法のその他のステップを連続段階の例により示している。翻訳対象テキストの組30からフレーズを抽出する。翻訳対象フレーズの構文解析を行う第1の段階31と、中間言語検索を行う第2の段階32とが、本方法の第1のステップ1を形成する。
このため、第1の段階31では、翻訳対象のフレーズの構文解析をソース言語で行う。この解析は、例えば、ターゲット言語のデータベース24の作成と同じ依存構文解析により行うことで、できるだけ深層に及ぶ依存表示が与えられる。従って、ターゲット言語の解析とソース言語への翻訳対象であるフレーズの解析とは、1つの同じレベルの表示で行われる。
第2の段階32では、中間言語検索システムを使用して、要素を可能性のある翻訳で置換したソースフレーズの構文解析(31)結果と、データベース(24)に格納されたターゲットフレーズの構文解析(22)結果との間で最良に重なるものを求める。この中間言語検索を行うために、バイリンガル辞書を使用する。追加の段階では、汎用のバイリンガル辞書を有益なように編集する。これは、例えば市販されているようなバイリンガル辞書は、特にフレーズの一部分を逐語訳することが不可能な場合に、中間言語検索を良好に行うには不適当な可能性があるためである。複合語または慣用表現の翻訳全体を考慮(それらが連続していない場合も含む)することで、著しい改善が見られる。この結果、ただ1つの文法カテゴリーによりタグ付け可能なハイパーワードを考慮することになる。このため、これらのハイパーワードは、翻訳対象フレーズの下位部分であって、一括的に翻訳されるものである。一般に、ハイパーワードとは、一括的にのみ翻訳可能な(必ずしも連続する必要はない)下位部分または下位構造に対応するものである。従って、ハイパーワードは、関与する言語対(ソース言語およびターゲット言語)の従属子である。単語と意味との間の関係の確定の仕方が互いに異質であるほど、バイリンガル辞書において相関されるべき構造がより複雑になり得る。これは、例えば英語の「seat belt」およびフランス語の「ceinture de securite」などの逐語訳されない複合語だけでなく、例えばフランス語の「maison」および英語の「house」などの単純な単語にも関わる。また、これは、フランス語の「avoir lieu」および英語の「occur」などの慣用表現、またはより異質な言語について、直接目的補語を統率する動詞が他方の言語では単一の動詞で表されるより複雑な構造にも関わる。
中間言語検索では、要素を可能性のある翻訳で置換したソースフレーズ31の解析と、テキストデータベース24に格納されたターゲットフレーズの解析との間で最大の構造的共通部分を確定することにより、バイリンガル辞書40に含まれる部分翻訳を用いる。構造間の重なりは、実語のみに関わり、例えば冠詞または前置詞などの所謂虚語は対象としない。虚語は、確認することなくその統率子に付加される。このために、例えば、三連語対三連語の検索(統率子、従属子、関係)を行うことが可能である。ともに繋げられた三連語を付加することで、最大の共通部分を求める。この処理には、曖昧であるとともに最も一般的な単語であるためデータベースが最大の文脈を含む単語について、好適な翻訳を選定できる、という顕著な利点がある。最も具体的な単語は、一般に、ただ1つの翻訳のみを有する。
中間言語検索の結果は、同じ構造的共通部分によりともにグループ化されるとともに構造的共通部分のサイズの降順に配列されたフレーズ部分のリストであってもよい。抽出ステップ1において抽出されたフレーズ部分は、例えば、共通部分の長さが所与の閾値を超えるリスト内のフレーズ部分である。
続く段階33では、先の段階において定義された最大の共通部分に基いてソースフレーズの構造と全体的に重なるものを検索することで、本方法の第2のステップ2を補う。この目的は、最大の共通部分からソース構造と全体的に重なるものを構築することである。これが可能でない場合は、中間言語検索応答のリストをより幅広く検索する。未翻訳の単語が残っている場合は、この単語が翻訳されていないことをユーザに示すことを可能にする指示を伴う対応するソース単語で置換する。
次の段階34では、最良の組み合わせを選定するステップ3を行う。
最良の組み合わせの選定は、組み合わされたターゲットフレーズ部分間の重なりが最大であることを基準として、および組み合わされる要素の数が最小化されることを基準として決定されるため、例えば、最大数の単語を有する重なりに対応する表層的な単語の組み合わせを、この目的のために選択する。
先の段階31、32、33、34が終わると、ソース言語の下位構造に対応するデータベース24のターゲットフレーズに見られる依存構造のそれぞれが、対応する表層構造と関係を有している。これにより、表層構造を形成する表層的な単語の組み合わせ、および翻訳を形成するためにそれらを書き出す順番が、利用可能になる。
最終段階35では、ステップ4を実施し、これらの最良の組み合わせから保持されるターゲットフレーズは、一貫性基準を満たすものである。これらの一貫性基準は、特に、格変化または活用語尾、時制および活用法、ならびに数、特に単数または複数の標示である。必要な場合は、ソースフレーズの翻訳のためにフレーズの数を保持することも可能である。
以下の図面では、先に説明したステップおよび段階による本発明による翻訳例を示す。図4は、例えばウェブから抽出した、フランス語(この例ではターゲット言語である)の2つのフレーズ41、42を示している。第1のフレーズ41は、「Le developpement scientifique le plus rapide a aujourd’hui lieu en Asie」であり、第2のフレーズ42は、「Les tremblements de terre se produisent souvent a proximite de massifs montagneux」である。また、図4は、これらのフレーズの構文解析も示している。各解析は、三連語(統率子、従属子、関係)により符号化している。関係は、従属語42を統率語42にリンクする矢印により示し、関係の性質も示している。従って、単語「scientifique」は、その統率子である単語「developpement」の従属子であり、その関係は修飾関係である。解析には、単語に加え、例えば「avoir lieu」などのハイパーワードも用いる。従って、単語「Asie」は、ハイパーワード「avoir lieu」の従属子であり、その依存関係は場所補語を示している。これらの二例について、データベース24は、以下の三連語を格納する。
−(developpement、scientifique、修飾)
−(avoir lieu、Asie、場所補語)
関係に関する三連データは、前記関係の性質、すなわちこれらの二例については修飾および場所補語を示している。
この第1のフレーズ41について、これらの2つの三連語を、以下の三連語のリストにより補完する。
−(developpement、le、限定詞)
−(avoir lieu、developpement、動作主)
−(developpement、rapide、修飾)
−(rapide、le plus、最上級)
−(avoir lieu、aujourd’hui、時間補語)
−(Asie、en、前置詞)
第2のフレーズ42については、三連語のリストは以下のようになる。
−(se produire、souvent、副詞)
−(se produire、tremblement de terre、動作主)
−(massif、montagneux、修飾)
−(tremblement de terre、les、限定詞)
−(se produire、massif、場所補語)
−(massif、a proximite de、前置詞)
例に取り上げたこれらの2つのフランス語フレーズ41、42は、それらの構文解析を上記の三連語により表した状態でテキストデータベース24に格納可能である。
以下の説明は、フレーズの翻訳を得るために組み合わせる要素を決定するために用いる比較メカニズムを用いる本方法の実施例を示している。
図5は、英語(ソース言語)からフランス語(ターゲット言語)に翻訳されるフレーズ51を例示している。フレーズ51は、「Earthquakes frequently occur in Asia」である。第1のステップ1の段階31において行われる構文解析を図5に示す。各単語52(統率子または従属子である)は依存関係にあり、この依存関係を、従属語から統率語へ向かう矢印により示している。従って、構文解析は以下の三連語のリストにより符号化可能である。
−(occur、earthquake、動作主)
−(occur、frequently、副詞)
−(occur、Asia、場所補語)
−(Asia、in、前置詞)
解析が完了したら、中間言語検索を適用する。中間言語検索システムは、例えば、そのバイリンガル辞書40を呼び出し、各単語をターゲット言語に翻訳するとともに、逐語訳されない表現を翻訳する。従って、
−earthquakeは、tremblement de terreと翻訳され、
−occurは、arriver、intervenir、s’operer、se derouler、se produire、se presenter、se rencontrer、se trouver、survenir、avoir lieuと翻訳され、
−frequentlyは、souvent、frequemmentと翻訳される。
システムは、先の構文解析により確定された依存関係により定義されるすべての可能性のある対を検索することにより、英語の単語をそれらのフランス語翻訳により検索する。対の例を以下に示す。単語間の関係の性質は丸括弧内に示している
−tremblement de terre(動作主)、arrive
−tremblement de terre(動作主)、intervient
−tremblement de terre(動作主)、se produit
−tremblement de terre(動作主)、a lieu
−se produit(副詞)、frequemment
−se produit(副詞)、souvent
−a lieu(副詞)、souvent
いくつかの対のみを有効化する。より詳細には、対をリンクすることにより重なりが最大であるものを有効化する。ターゲット言語の第1のフレーズ部分45は、「a lieu en Asie」である。第2のフレーズ部分46は、「les tremblements de terre se produisent」である。
次いで、ソースフレーズと全体的に重なるフレーズ部分の組み合わせを発生させる。この例では、部分45および46を組み合わせることでソースフレーズをカバーすることが可能で、「se produire」および「avoir lieu」は、例えばターゲット言語の単言語再構成辞書により同意であると判断し、これらの部分を結合させることで全体的に重ならせることが可能である。克服すべき別の問題には、数に関する相違があり、第1の部分45の活用した動詞は単数であり、第2の部分46の活用した動詞は複数である。フランス語の屈折を用いると、変形は単純である。従って、第2の部分46は、正しく一致する。最終的に、ソースフレーズ51の翻訳例は、「les tremblements de terre se produisent souvent en Asie」となる。

Claims (9)

  1. ソース言語のフレーズ(ソースフレーズと呼ぶ)をターゲット言語のフレーズ(ターゲットフレーズと呼ぶ)に自動的に翻訳する方法であって、
    −翻訳対象の前記ソースフレーズの全体的または部分的な翻訳に対応する前記ターゲット言語のフレーズ部分の組をテキストデータベース(24)から抽出するステップ(1)と、
    −前記ソースフレーズと重なるこれらのターゲットフレーズ部分のすべての組み合わせを決定するステップ(2)と、
    −前ステップにおいて組み合わされた前記ターゲットフレーズ部分間の重なりが最大であることを基準として、および組み合わされる要素の数が最小化されることを基準として、最良の組み合わせを選定するステップ(3)と、
    −一貫性を基準として最良の組み合わせを選定することにより前記ターゲットフレーズを決定するステップ(4)と
    を含むことを特徴とする、方法。
  2. 前記フレーズ部分が抽出される元である前記ターゲット言語の前記テキストデータベース(24)を作成する予備ステップ(10)を含むことを特徴とする、請求項1に記載の方法。
  3. 前記データベース(24)は、
    −前記ターゲット言語のテキストを復元するための第1の段階(21)と、
    −前記復元されたテキストをフレーズに分解し、構文解析を行うための第2の段階(22)と、
    −構文解析の表示を伴う前記フレーズの前記テキストを収集するための第3の段階(23)と
    により作成されることを特徴とする、請求項2に記載の方法。
  4. 前記構文解析(22)は、依存関係の形式で行われ、前記解析の結果は、三連語(統率子、従属子、関係)により符号化され、前記三連語は、それらが出現する前記データベース(24)の様々なフレーズにおける場所の指示に関連付けられており、前記統率子は主たる単語であり、その従属子は前記関係に従って前記統率子を修飾する単語であることを特徴とする、請求項3に記載の方法。
  5. 前記第1のステップ(1)は、
    −ソースフレーズ構文解析段階(31)と、
    −前記ソース言語と前記ターゲット言語との間の中間言語検索段階(32)と
    を含み、
    前記抽出されたフレーズ部分は、要素を可能性のある翻訳で置換した前記ソースフレーズの前記構文解析(31)結果と、前記データベース(24)に格納された前記ターゲットフレーズの前記構文解析(22)結果との間で最良に重なるものであり、前記選択された重なりは、所与の閾値よりも大きい長さを有する最大の構造的共通部分を有する前記フレーズ部分であることを特徴とする、請求項1〜4のいずれか一項に記載の方法。
  6. 前記第2のステップ(2)は、最大の共通部分をもつ前記組み合わせから前記ソースフレーズと重なる前記組み合わせを決定する段階(33)を含むことを特徴とする、請求項5に記載の方法。
  7. 前記重なりが全体に及んでいるとき、共通部分が最大の前記組み合わせによりカバーされない単語を、この単語が翻訳されていないことを伝える指示を伴う対応するソース単語で置換することを特徴とする、請求項6に記載の方法。
  8. 前記第3のステップ(3)において、前記最大重なり基準により選択された前記組み合わせは、最大数の単語を有する前記重なりに対応するものであることを特徴とする、請求項1〜7のいずれか一項に記載の方法。
  9. 前記第4のステップ(4)において、前記一貫性基準は、前記ターゲット言語の屈折の関数であることを特徴とする、請求項1〜8のいずれか一項に記載の方法。
JP2009554004A 2007-03-20 2008-03-12 自動翻訳方法 Pending JP2010521758A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0702007A FR2914079B1 (fr) 2007-03-20 2007-03-20 Procede de traduction automatique
PCT/EP2008/052964 WO2008113733A1 (fr) 2007-03-20 2008-03-12 Procede de traduction automatique

Publications (1)

Publication Number Publication Date
JP2010521758A true JP2010521758A (ja) 2010-06-24

Family

ID=38581997

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009554004A Pending JP2010521758A (ja) 2007-03-20 2008-03-12 自動翻訳方法

Country Status (5)

Country Link
US (1) US8489384B2 (ja)
EP (1) EP2126735B1 (ja)
JP (1) JP2010521758A (ja)
FR (1) FR2914079B1 (ja)
WO (1) WO2008113733A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5112116B2 (ja) * 2008-03-07 2013-01-09 株式会社東芝 機械翻訳する装置、方法およびプログラム
US8521516B2 (en) * 2008-03-26 2013-08-27 Google Inc. Linguistic key normalization
KR101301536B1 (ko) * 2009-12-11 2013-09-04 한국전자통신연구원 외국어 작문 서비스 방법 및 시스템
JP6096489B2 (ja) * 2012-11-30 2017-03-15 株式会社東芝 外国語文章作成支援装置、方法、及びプログラム
CN105957516B (zh) * 2016-06-16 2019-03-08 百度在线网络技术(北京)有限公司 多语音识别模型切换方法及装置
CN111666738B (zh) * 2020-06-09 2023-06-20 南京师范大学 一种动作描述自然文本的形式化编码方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7146358B1 (en) * 2001-08-28 2006-12-05 Google Inc. Systems and methods for using anchor text as parallel corpora for cross-language information retrieval

Also Published As

Publication number Publication date
FR2914079A1 (fr) 2008-09-26
EP2126735A1 (fr) 2009-12-02
US8489384B2 (en) 2013-07-16
EP2126735B1 (fr) 2019-04-10
FR2914079B1 (fr) 2009-06-26
US20100114558A1 (en) 2010-05-06
WO2008113733A1 (fr) 2008-09-25

Similar Documents

Publication Publication Date Title
US20070233460A1 (en) Computer-Implemented Method for Use in a Translation System
US8195447B2 (en) Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US8548795B2 (en) Method for translating documents from one language into another using a database of translations, a terminology dictionary, a translation dictionary, and a machine translation system
US8214199B2 (en) Systems for translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US9053090B2 (en) Translating texts between languages
US20050138556A1 (en) Creation of normalized summaries using common domain models for input text analysis and output text generation
US20080086298A1 (en) Method and system for translating sentences between langauges
KR100530154B1 (ko) 변환방식 기계번역시스템에서 사용되는 변환사전을생성하는 방법 및 장치
EP1349079A1 (en) Machine translation
JP2005535007A (ja) 文書検索システム用の知識抽出のための自己学習システムの合成方法
CA2562366A1 (en) A system for multiligual machine translation from english to hindi and other indian languages using pseudo-interlingua and hybridized approach
JP2006252382A (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
Sajous et al. GLAWI, a free XML-encoded Machine-Readable Dictionary built from the French Wiktionary
JP2010521758A (ja) 自動翻訳方法
Sebastian Malayalam natural language processing: challenges in building a phrase-based statistical machine translation system
Wong Example-based machine translation
US20220238103A1 (en) Domain-aware vector encoding (dave) system for a natural language understanding (nlu) framework
Lenci et al. Multilingual Summarization by Integrating Linguistic Resources in the MLIS-MUSI Project.
JP4007413B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
Rahat et al. A recursive algorithm for open information extraction from Persian texts
JP2008077512A (ja) 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム
Moreira et al. Finding missing cross-language links in wikipedia
Sankaravelayuthan et al. A Comprehensive Study of Shallow Parsing and Machine Translation in Malaylam
JP2005092615A (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP3972697B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム