JP2011095841A

JP2011095841A - 文脈内正確（ｉｃｅ）一致

Info

Publication number: JP2011095841A
Application number: JP2009246729A
Authority: JP
Inventors: Russ Ross; ロスラス; Kevin Gillespie; ギルスピーケヴィン; Mills Keith; ミルズキース; Mark Lancaster; ランカスターマーク
Original assignee: SDL PLC
Current assignee: SDL PLC
Priority date: 2009-10-27
Filing date: 2009-10-27
Publication date: 2011-05-12
Anticipated expiration: 2029-10-27
Also published as: JP5473533B2

Abstract

【課題】文脈に関して翻訳メモリ内の複数のソーステキストとのテキストルックアップセグメントのマッチングレベルを判定する方法を提供すること。
【解決手段】本発明は、複数のソーステキスト内のルックアップセグメントに関するすべての正確一致を判定し、少なくとも１つの正確一致が判定される場合に、ルックアップセグメントの文脈がそれぞれの正確一致の文脈と一致する場合に、それぞれの正確一致がルックアップセグメントの文脈内正確一致であると判定する。必要な文脈マッチングの度合は、事前に決定することができ、結果に優先順位を付けることができる。本発明は、文脈を含めて、翻訳メモリにソーステキスト及びターゲットテキストの翻訳対を格納する方法、システム、及びプログラム製品、並びにそのように形成された翻訳メモリをも含む。内容が、以前に翻訳された内容と同一に翻訳され、翻訳者介入を減らす。
【選択図】図１

Description

本発明は、全般的には内容の処理に関し、より具体的には、内容に関連する翻訳及び他の処理機能を単純にするか他の形で容易にするために文脈を含むソース内容との正確な翻訳一致を保証することに関する。

情報が、特にインターネット及びワールドワイドウェブの出現及びすばやい利用を与えられれば、グローバルな基礎でよりアクセス可能になるので、翻訳の役割は、ソーステキストからターゲット言語への単純な筆写から離れて変化してきた。翻訳者は、現在、指定された場所及び顧客への翻訳された内容のタイムリーで正確な展開を保証しなければならない。したがって、内容翻訳に関する高まる需要は、多数の会社に翻訳プロセスの一部を自動化しこれを助けるツールを開発するように促してきた。翻訳者ができる限り早く内容を翻訳することを求めると仮定すると、翻訳を、以前の翻訳を将来の使用のために保存するソフトウェア機能性及び能力におけるより高い柔軟性を用いて、より効率的にすることができる。したがって、翻訳のブロック及び／又はセグメント（「翻訳メモリ」すなわち「ＴＭ」）を含む翻訳をコンピュータメモリ内に保存するツールが作成されてきた。

翻訳データベースとしても知られる翻訳メモリは、ソーステキストが１つ又は複数のターゲット言語でのそれに対応する翻訳に関連付けられるエントリのコレクションである。翻訳メモリは、現在のテキスト及び将来に翻訳されるテキストと共に使用するために取り出され得るテキストセグメントのソース言語／ターゲット言語対を格納するデータベースを含む。通常、ＴＭは、翻訳ツール内で使用され、翻訳者がセグメントを「オープン」する時に、アプリケーションは、同等のソーステキストについてデータベースをルックアップする。その結果は、通常、文書内のソーステキストとＴＭ内のソーステキストとの間の類似性のパーセンテージを表すスコアを用いてランキングされた一致のリストである。翻訳者又は異なるＴＭシステムは、最終結果が高品質翻訳になるようにするために、ルックアップセグメントと対にされるターゲットテキストセグメントを提供する。

二か国語及び多種言語の辞書、文法チェッカ、スペルチェッカ、並びに用語ソフトウェアなど、多数のコンピュータ支援翻訳（「ＣＡＴ」）ツールが、翻訳者を支援するために使用可能であるが、ＴＭは、これらの他のＣＡＴツールを利用すると同時に、正確マッチング及びファジイマッチングを介して、そのデータベースに格納されたオリジナルソース文書を更新された文書又は改訂された文書とマッチアップすることによって、一歩先んじる。正確一致（１００％一致）とは、文書内のソーステキストとＴＭ内のソーステキストとの間に差がない（或いは、ツールによって自動的に処理できない差がない）一致である。ファジイ一致（１００％未満の一致）とは、文書内のソーステキストがＴＭ内のソーステキストに非常に似ているが正確に同一ではない一致である。複製された正確一致は、しばしば、ファジイ一致としても扱われる。ＴＭシステムは、翻訳者の助けとして使用され、人間の翻訳者のテキストを将来の使用のためにデータベースに格納する。たとえば、翻訳者が、オリジナルテキストを翻訳し、翻訳メモリを使用して対になったソースセグメント及びターゲットセグメントを格納する時に、ＴＭを利用することができる。次に、翻訳者は、格納されたテキストを再利用して、そのテキストの改訂又は更新された版を翻訳することができる。新しいテキストのうちで古いテキストと一致しないセグメントだけが、翻訳されなければならない。代替案は、手動翻訳システム又は異なるＣＡＴシステムを使用して、オリジナルテキストを翻訳することである。その後、ＴＭシステムを翻訳者が使用して、翻訳者又は他のＣＡＴシステムによって作られたテキストを位置合せし、これらを現在及び将来の作業のためにＴＭデータベースに格納することによって、改訂又は更新を翻訳することができる。次に、翻訳者は、上で説明したようにＴＭを使用して、新しいテキストのセグメントだけの翻訳に進むことができる。

ＴＭの使用には、多数の利益がある。翻訳を、はるかにより高速に進めることができ、既存翻訳の不必要な再入力を避けることができ、及び／又は翻訳者がテキストのある部分だけを変更することを可能にすることができる。ＴＭは、翻訳の品質のよりよい制御をも可能にする。関連技術では、ＴＭは、非常に大規模なプロジェクトで翻訳ステップを高速化するのに使用された。たとえば、ソフトウェア会社が、そのソフトウェア製品のバージョン１を公開し、添付ドキュメンテーションを翻訳する必要がある場合がある。ドキュメンテーションは、文に分解され、すべての文対がＴＭに取り込まれる状態で翻訳される。２年後、その会社が、そのソフトウェアのバージョン２を公開する。ドキュメンテーションは、大幅に変更されているが、オリジナルドキュメンテーションに類似するかなりの部分もある。今回は、翻訳者がドキュメンテーションを翻訳する時に、翻訳者の作業は、ＴＭからの完全一致及びファジイ一致を活用することを介して減らされる。この例によって示されるように、ＴＭは、通常、パイプラインプロセス内で援助として使用される。関連技術では、ＴＭの利用に関するいくつかの制限もある。

正確一致を使用する（それらの妥当性検査なしで）翻訳の自動活用は、正しくない翻訳を生成する可能性がある。というのは、オリジナルセグメントが使用された文脈と比較した新しいセグメントが使用される文脈の検証がないからである。これが、再利用とリサイクリングとの間の差である。関連技術では、ＴＭシステムは、リサイクリングシステムである。ウェブコンテンツに関して、及びここでは多数のタイプの内容に関して、文書が翻訳され、その後、些細な変更が行われ、その後、もう一度翻訳する必要があることが一般的である。たとえば、製品の利益をリストしたウェブ文書が翻訳される場合があり、その後、新しい利益が追加される場合があり、したがって、その文書はもう一度翻訳される必要があるはずである。関連技術では、ＴＭは、２回目に文書を翻訳する労力を減らす。ソーステキストがＴＭ内の１つ又は複数のエントリと同一である場合には、ほとんどの文について正確一致が存在する。次に、翻訳者は、文脈情報に対する一致の適切性を評価することによって、それぞれについて正しい正確一致が選択されたことを確認する。しかし、関連技術は、内容文脈の判定を提供しない。さらに、関連技術において、所与のセグメントについて最良の正確一致を正確に選択する、又は所与の正確一致がそれが適用されている文脈について適切な一致であるかどうかを妥当性検査する自動化されたプロセスはない。したがって、翻訳者が、一致を妥当性検査することが要求される。翻訳者が妥当性検査し、おそらくは少数の単語が変更された可能性があるにすぎない時にすべての文についてアクションを実行することが必要であるという事実は、関連技術の下でセグメントが異なる状況又は文脈の下で異なって翻訳され得ることを考慮すると、著しく非効率的である。

前述に鑑みて、所与の正確一致が、それが適用されている文脈に関して適切な一致であるかどうかを正確に妥当性検査する自動化されたプロセスの必要が、当技術分野にはある。

本発明の第１の態様によれば、翻訳されるルックアップセグメントに対する翻訳メモリに格納された複数のソーステキストのマッチングレベルを判定する方法であって、
複数のソーステキスト内のルックアップセグメントのすべての正確一致を判定するステップと、
少なくとも１つの正確一致が判定される場合に、ルックアップセグメントの文脈がそれぞれの正確一致の文脈と一致する場合にそれぞれの正確一致がルックアップセグメントの文脈内正確（ｉｎ−ｃｏｎｔｅｘｔｅｘａｃｔ、ＩＣＥ）一致であると判定するステップと
を含み、文脈が、少なくとも２つのレベルを含み、
少なくとも２つのレベルが、ソース使用文脈レベル及びターゲット使用文脈レベルを含む
方法が提供される。したがって、翻訳メモリが、特定のルックアップセグメントの出現について検索されるときに、複数の正確一致が見つかる場合には、本発明は、複数の正確一致の間での曖昧性除去を可能にする。曖昧性除去は、正確一致のそれぞれの文脈と比較したルックアップセグメントの文脈に従って実行される。あるセグメントの少なくとも１つの文脈レベルがルックアップセグメントの文脈レベルと一致する場合に、そのセグメントは、ＩＣＥ一致である。ＩＣＥ一致は、非ＩＣＥ一致より関連する傾向がある。ＩＣＥ一致を、ソース言語のソース使用文脈レベル及び／又はターゲット言語のターゲット使用文脈レベルなど、文脈の異なるレベルに従って識別することができる。

本発明の実施形態では、複数のＩＣＥ一致が判定される場合に、ＩＣＥ一致を判定するステップは、より適切なＩＣＥ一致が１つ又は複数の他のＩＣＥ一致より優先され得るようにするために、文脈マッチングの度合に従って各ＩＣＥ一致に優先順位を付けることを含む。したがって、本発明は、複数の正確一致の曖昧性除去を可能にし、ここで、より高い優先順位のＩＣＥ一致は、より低い優先順位のＩＣＥ一致より関連する翻訳である傾向がある。

本発明の他の実施形態では、ルックアップセグメントのソース使用文脈レベルとターゲット使用文脈レベルとの両方と一致するソース使用文脈レベルとターゲット使用文脈レベルとの両方とを有するＩＣＥ一致は、ルックアップセグメントのソース使用文脈レベルと一致するソース使用文脈レベルのみを有するＩＣＥ一致より高い度合の文脈マッチングがあるとされる。組み合わされた一致するソース使用文脈及びターゲット使用文脈は、一致するソースターゲット使用文脈のみより関連する一致を示す傾向があり、したがって、前者は、後者より優先される。

本発明のさらなる構成では、ルックアップセグメントのターゲット使用文脈レベルと一致するターゲット使用文脈レベルを有するＩＣＥ一致は、ルックアップセグメントのソース使用文脈レベルと一致するソース使用文脈レベルのみを有するＩＣＥ一致より高い度合の文脈マッチングがあるとされる。ターゲット使用文脈は、一致するソースターゲット使用文脈だけより関連する一致を示す傾向があり、したがって、前者は、後者より高い優先順位を与えられる。

本発明の１つの構成では、ソース使用文脈レベルは、先行ソース使用文脈レベルを含み、及び／又はターゲット文脈使用レベルは、先行ターゲット使用文脈レベルを含む。ソース言語の現在翻訳されつつあるセグメント（現行セグメント）に先行するセグメント及びターゲット言語の現行セグメントに先行するセグメントの翻訳は、現行セグメントに続くソースセグメント及びターゲットセグメントが有するものより大きい影響を、翻訳されつつあるセグメントの翻訳に対して有する傾向があり、したがって、現行セグメントに先行するセグメントの文脈は、曖昧性除去の目的で重要と考えられる。

本発明の他の構成では、ソース使用文脈レベルは、後ソース使用文脈レベルを含み、及び／又はターゲット文脈使用レベルは、後ターゲット使用文脈レベルを含む。ソース言語の現在翻訳されつつあるセグメント（現行セグメント）に続くセグメント及びターゲット言語の現行セグメントに続くセグメントの翻訳は、現在翻訳されつつあるセグメントの翻訳に影響を有する可能性があり、したがって、現行セグメントに続くセグメントの文脈を、現行セグメントに先行するセグメントの文脈の考慮に加えて又はその代わりにのいずれかで考慮することができる。

本発明のいくつかの実施形態では、少なくとも２つのレベルが、構造的文脈レベルを含む。（構造的文脈の意味に関する下の詳細な説明の「定義」セクションを参照されたい）。したがって、構造的文脈レベルを、使用文脈レベルに加えて、ＩＣＥ一致の曖昧性除去で使用することができる。

本発明の構成では、複数のＩＣＥ一致が判定される場合に、ＩＣＥ一致を判定するステップが、より適切なＩＣＥ一致が１つ又は複数の他のＩＣＥ一致より優先され得るようにするために、文脈マッチングの度合に従って各ＩＣＥ一致に優先順位を付けるステップを含み、
ソース使用文脈レベルが、先行ソース使用文脈レベルを含み、ターゲット文脈使用レベルが、先行ターゲット使用文脈レベルを含み、
ルックアップセグメントの先行ソース使用文脈レベル及び／又は先行ターゲット使用文脈レベルと一致する先行ソース使用文脈レベル及び／又は先行ターゲット使用文脈レベルを有するＩＣＥ一致が、ルックアップセグメントの構造的文脈レベルと一致する構造的文脈レベルのみを有するＩＣＥ一致より高い度合の文脈マッチングがあるとされる。一致する先行ソース使用文脈レベル及び先行ターゲット使用文脈レベルを用いる翻訳は、構造的文脈マッチングだけを用いる翻訳より関連する傾向があり、したがって、前者は、後者より高い優先順位を与えられる。

本発明の実施形態では、ＩＣＥ一致を判定するステップは、ルックアップセグメントの複数の文脈レベルがそれぞれの正確一致の文脈レベルと一致する場合に限って、それぞれの正確一致がルックアップセグメントのＩＣＥ一致であることを示す。複数の文脈レベルでルックアップセグメントと一致するＩＣＥ一致は、１つの文脈レベルでルックアップセグメントと一致するのみであるＩＣＥ一致より適切な一致である可能性がより高く、したがって、本発明のいくつかの実施形態では、複数の文脈レベルマッチングを有するＩＣＥ一致のみが、曖昧性除去のために検討される、すなわち、本発明のそのような実施形態では、複数の正確一致は、１つの文脈レベルだけがルックアップセグメントの文脈レベルと一致する（たとえば、構造的文脈のみ又はソース使用レベルのみ）場合には曖昧性除去されない。

本発明の構成では、ＩＣＥ一致を判定するステップは、ルックアップセグメントの少なくとも１つの使用文脈レベル及び構造的文脈レベルがそれぞれの正確一致の少なくとも１つの使用文脈レベル及び構造的文脈レベルと一致する場合に限って、それぞれの正確一致がルックアップセグメントのＩＣＥ一致であることを示す。使用文脈レベルと構造的文脈レベルとの両方のマッチングを有するＩＣＥ一致は、ルックアップセグメントの関連する翻訳である傾向があり、したがって、そのようなＩＣＥ一致は、曖昧性除去中に重要と考えられる。

本発明のもう１つの構成では、少なくとも１つの使用文脈レベルは、先行ターゲット使用文脈レベルを含む。ターゲット言語の現在翻訳されつつあるセグメントに先行するセグメントは、一般に、関連する翻訳の非常によい表示であり、したがって、先行ターゲット使用文脈レベル一致が、優先的に優先順位を与えられる。本発明の好ましい実施形態では、曖昧性除去は、ソース使用文脈レベルと組み合わされたターゲット使用文脈レベルを基礎として実行される。

本発明のさらにもう１つの構成では、少なくとも１つの使用文脈レベルは、先行ソース使用文脈レベルを含む。ソース言語の現在翻訳されつつあるセグメントに先行するセグメントは、一般に、関連する翻訳のよい表示であり、したがって、先行ソース使用連絡先レベル一致に、その代わりに優先順位を与えることができる。

本発明の実施形態では、複数のＩＣＥが一致判定される場合に、ＩＣＥ一致を判定するステップが、より適切なＩＣＥが１つ又は複数の他のＩＣＥ一致より優先され得るようにするために、文脈一致の度合に従って各ＩＣＥ一致に優先順位を付けることを含む。優先順位を付けるステップは、ルックアップセグメントに関する最も適切な一致を見つけるために順次考慮することのできる複数の異なる優先するステップを含むことができる。第１ステップは、ルックアップセグメントのソース使用文脈レベル、ターゲット使用文脈レベル、及び構造文脈レベルと一致するソース使用文脈レベル、ターゲット使用文脈レベル、及び構造文脈レベルを有するＩＣＥ一致を第１に優先するステップを含むことができる。第２ステップは、ルックアップセグメントのソース使用文脈レベル及びターゲット使用文脈レベルと一致するソース使用文脈レベル及びターゲット使用文脈レベルを有するＩＣＥ一致を第２に優先するステップを含むことができる。好ましくは、ソース文脈レベルは、先行ソース使用文脈レベルであり、ターゲット使用文脈レベルは、先行ターゲット使用文脈レベルである。第３ステップは、ルックアップセグメントの後ソース使用文脈レベル又は後ターゲット使用文脈レベルと一致する後ソース使用文脈レベル又は後ターゲット使用文脈レベルのいずれかのみを有するＩＣＥ一致よりも、ルックアップセグメントの先行ソース使用文脈レベル又は先行ターゲット使用文脈レベルと一致するルックアップセグメントの先行ソース使用文脈レベル又は先行ターゲット使用文脈レベルのいずれかを有するＩＣＥ一致を第３に優先するステップを含むことができる。第４ステップは、ルックアップセグメントの構造的文脈レベルと一致する構造的文脈レベルのみを有するＩＣＥ一致よりも、ルックアップセグメントの使用文脈レベルと一致する任意の使用文脈レベルを有するＩＣＥ一致を第４に優先するステップを含むことができる。第５ステップは、ルックアップセグメントの異なる構造的文脈レベルを有するＩＣＥ一致よりも、ルックアップセグメントの構造的文脈レベルと一致する構造的文脈レベルを有するＩＣＥ一致を第５に優先するステップを含むことができる。第６ステップは、資産内のルックアップセグメントの位置に最も近い位置を有するＩＣＥ一致を第６に優先するステップを含むことができる。

資産内の位置は、セグメント番号を基礎として判定することができ、ここで、資産内のセグメントに連続して番号を付けることができ、番号をそれぞれのセグメント識別子として使用することができる。代替案では、位置を、資産内の行番号又は単語番号を基礎として判定することができる。さらに、構造的使用文脈を、資産内の位置の形として、すなわち、一致が「見出し」、「表のセル」、「段落」、「脚注」などの中で発生するかどうかを基礎としてそのような位置を示すと解釈することができる。

ある優先するステップが、決定的な結果をもたらす場合には、曖昧性除去手順が終了し、そうでない場合には、この手順は、連続するステップに進み、優先される一致の形の決定的結果に達するまで同様である。本発明の他の実施形態は、上の優先するステップの一部又はすべてを異なる順序で含むことができ、上の優先するステップの代わりに又はこれに加えてのいずれかで、他の優先するステップと組み合わされてもよい。

本発明の実施形態は、ユーザが優先順位付けに基づいてＩＣＥ一致を選択することを可能にするステップをさらに含む。したがって、ＩＣＥ一致が自動的に選択され、翻訳された文書に挿入されるのではなく、ＩＣＥ一致をユーザに表示することができ、ユーザは、表示されたＩＣＥ一致のランクを基礎としてＩＣＥ一致を選択することができる。さらに、ＩＣＥ一致に、一致する文脈レベルの個数及び／又は一致する文脈レベルのタイプ（ソース、ターゲット、後、先行、構造など）に従ってランクを付け、表示することができる。

本発明の実施形態では、ルックアップセグメントは、内容に関して実質的に同一である複数のルックアップセグメントを含み、ＩＣＥ一致を判定するステップは、ルックアップセグメントごとにＩＣＥ一致を判定するステップを含む。したがって、複数のセグメントを、必要な全体的処理を減らすために、バッチで一緒に又は実質的に同時に処理することができる。翻訳されるセグメントのバッチが処理される時に、次のセグメントのＩＣＥレベルを判定できるようにするために、ヒューリスティックベースの手法を適用して、セグメントの「最良」翻訳を選択するのを助けることができる（ターゲット使用文脈が考慮に入れられる時に）。１つのそのような手法を、オプションでセグメント位置、最後の翻訳の日付、資産メタデータその他などのフォールバック機構と組み合わされる、最良ＩＣＥ一致又は単一の正確一致の使用とすることができる。ヒューリスティックベースの手法は、翻訳者との対話がほとんど又は全くないシナリオで有用であり、この場合に、翻訳システムは、曖昧性除去された一致（ＩＣＥ一致又は他の一致）がセグメントについて十分に適切な一致であるかどうかを確信することができない。

本発明のいくつかの構成では、少なくとも１つのルックアップセグメントが、少なくとも１つの他のルックアップセグメントとは異なるＩＣＥ一致を有する。通常、１つのルックアップセグメントは、異なるＩＣＥ一致を有し、この異なるＩＣＥ一致は、ルックアップセグメントごとにＩＣＥ一致を識別するプロセスで役立つ可能性がある。

本発明の第２の態様によれば、翻訳されるルックアップセグメントに対する翻訳メモリに格納された複数のソーステキストのマッチングレベルを判定するシステムであって、
複数のソーステキスト内のルックアップセグメントのすべての正確一致を判定する手段と、
少なくとも１つの正確一致が判定される場合に、ルックアップセグメントの文脈がそれぞれの正確一致の文脈と一致する場合にそれぞれの正確一致がルックアップセグメントの文脈内正確（ＩＣＥ）一致であると判定する手段と
を備え、文脈が、少なくとも２つのレベルを含み、
少なくとも２つのレベルが、ソース使用文脈レベル及びターゲット使用文脈レベルを含む
システムが提供される。

本発明の第３の態様によれば、翻訳メモリ内にソーステキスト及びターゲットテキストの翻訳単位を格納する方法であって、
翻訳単位に文脈を割り当てるステップであって、文脈が、少なくとも２つのレベルを含み、少なくとも２つのレベルが、ソース使用文脈レベル及びターゲット使用文脈レベルを含む、ステップと、
翻訳単位と共に文脈を格納するステップと
を含む方法が提供される。

本発明の第４の態様によれば、翻訳メモリ内にソーステキスト及びターゲットテキストの翻訳単位を格納するシステムであって、
翻訳単位に文脈を割り当てる手段であって、文脈が、少なくとも２つのレベルを含み、少なくとも２つのレベルが、ソース使用文脈レベル及びターゲット使用文脈レベルを含む、手段と、
翻訳単位と共に文脈を格納する手段と
を含むシステムが提供される。

本発明の第５の態様によれば、ルックアップセグメントとの比較のための複数のソーステキストと、
ソーステキストごとの文脈識別子と、
を備え、文脈識別子が、ソース使用文脈部分及びターゲット使用文脈部分を含む
翻訳メモリが提供される。

本発明のいくつかの実施形態では、ソース使用文脈部分及び／又はターゲット使用文脈部分は、先行使用文脈部分及び／又は後使用文脈部分を備える。本発明の他の実施形態では、文脈識別子は、構造的文脈部分を備える。したがって、文脈識別子データを、ルックアップセグメントの翻訳メモリからの検索中などにそれに関連する文脈をたやすく識別できるようにするために、翻訳メモリ内の翻訳単位に関連して格納することができる。翻訳単位は、複数の使用文脈識別子及び／又は複数の構造関連文脈識別子を有することができる。

本発明の第６の態様によれば、翻訳メモリを含む翻訳システムと対話するクライアント側システムであって、
翻訳システムによって翻訳されるセグメントにセグメント識別子を割り当てる手段であって、セグメント識別子が、セグメントのソース使用文脈及びターゲット使用文脈を示す、手段と、
翻訳メモリの一部としての格納のためにセグメント識別子割当を通信する手段と
を備えるクライアント側システムが提供される。

本発明の構成では、セグメント識別子が、構造的文脈を備える。したがって、セグメントを、その構造的文脈に従って識別することができる。

本発明の第７の態様によれば、翻訳されるルックアップセグメントに対する翻訳メモリに格納された複数のソーステキストのマッチングレベルを判定する方法であって、
複数のソーステキスト内のルックアップセグメントのすべてのファジイ一致を判定するステップと、
少なくとも１つのファジイ一致が判定される場合に、ルックアップセグメントの文脈がそれぞれのファジイ一致の文脈と一致する場合に、それぞれのファジイ一致がルックアップセグメントの文脈内ファジイ一致であると判定することと
を含む方法が提供される。

したがって、本発明は、複数のファジイ一致の間の曖昧性除去をも可能にする。曖昧性除去は、ファジイ一致のそれぞれの文脈と比較したルックアップセグメントの文脈に従って実行される。あるセグメントの少なくとも１つの文脈レベルがルックアップセグメントの文脈レベルと一致する場合には、そのセグメントは、文脈内ファジイ一致である。文脈内ファジイ一致は、非文脈内ファジイ一致より関連する傾向がある。好ましくは、文脈は、構造的文脈を含む。

文脈内ファジイ一致を、構造的文脈レベル及び／又はメタデータなどの文脈の異なるレベルに従って識別することができる。同様に、ＩＣＥ一致に対して、異なる文脈レベルの優先順位付けを、文脈内ファジイ一致の間の曖昧性除去の時に適用することができる。

本発明を、同一の度合（ファジイマッチングスコアとも称する）のファジイマッチングを有するファジイ一致、たとえば同一パーセンテージのファジイ一致に適用することができる。１つの例の応用は、それぞれが９７％という同一のファジイマッチング度合を有する複数のファジイ一致の間の曖昧性除去とすることができる。もう１つの例の応用は、それぞれが９９％という同一のファジイマッチング度合を有する複数のファジイ一致の間の曖昧性除去とすることができる。ここでの用語「同一」は、正確に同一又はほぼ同一とすることができ、たとえば、そのファジイマッチングの度合が最も近いパーセンテージ値又はそのようなものに丸められた時に同一であるファジイ一致とすることができる。

同一の度合のファジイマッチングを有するファジイ一致の優先順位付けの代わりに又はそれに加えて、ファジイ一致の優先順位付けを、ファジイマッチングの度合のある範囲（又はスコア帯）の中、たとえば９９から９５％又は８５〜９４％の間で実行することができ、ここで、優先順位付けを、見出し、段落、表のセルその他などの構造的文脈を使用して実行することができる。

本発明を、異なる度合のファジイマッチングを有するファジイ一致に適用することもでき、第２ファジイ一致（たとえば、９９％ファジイ一致）より低い度合のファジイマッチングを有する第１ファジイ一致（たとえば、９８％ファジイ一致）を、第２ファジイ一致がルックアップセグメントと一致する文脈レベルを有しないが、第１ファジイ一致がルックアップセグメントと一致する文脈レベルを有するので、それでもルックアップセグメントについてより適切な一致と考えることができる。これは、第２ファジイ一致より低い度合のファジイマッチングファジイを有する第１ファジイ一致にもかかわらず、発生し得る。

本発明を、正確一致とファジイ一致との両方の文脈が考慮されるハイブリッドシナリオに適用することもできる。ここで、たとえば９９％のファジイ一致を、正確一致がルックアップセグメントと一致する文脈レベルを有しないが、ファジイ一致がルックアップセグメントと一致する文脈レベルを有するので、それでも正確一致より適切な一致と考えることができる。やはり、異なるレベルの文脈マッチング及び異なる文脈レベルの優先順位付けを、そのようなハイブリッド構成に適用することができる。

本発明の第８の態様によれば、翻訳されるルックアップセグメントに対する翻訳メモリに格納された複数のソーステキストのマッチングレベルを判定するシステムであって、
複数のソーステキスト内のルックアップセグメントのすべてのファジイ一致を判定する手段と、
少なくとも１つのファジイ一致が判定される場合に、ルックアップセグメントの文脈がそれぞれのファジイ一致の文脈と一致する場合に、それぞれのファジイ一致がルックアップセグメントの文脈内ファジイ一致であると判定する手段と
を含むシステムが提供される。

本発明の第９の態様によれば、本発明の第１、第３、又は第７の態様のいずれか一項に記載の方法を実行するように適合されたコンピュータソフトウェアが提供される。

本発明の前述及び他の特徴は、本発明の実施形態の次のより特定の説明から明白になる。

本発明の実施形態を、図面を参照して詳細に説明するが、図では、同様の指定が同様の要素を表す。

本発明によるＩＣＥ一致翻訳システムを使用するコンピュータシステムを示すブロック図である。図１のシステムの動作方法論の一実施形態を示す流れ図である。図１のシステムの動作方法論の一実施形態を示す流れ図である。例示的な翻訳メモリ内の２つのエントリを示す図である。図３のエントリを含む例示的なソース資産を示す図である。本発明による翻訳メモリ生成の一実施形態を示す流れ図である。本発明による翻訳メモリ生成の代替実施形態を示す流れ図である。

この詳細な説明は、便宜のみのために、以下の見出し、Ｉ．定義、ＩＩ．全般的概要、ＩＩＩ．システム概要、ＩＶ．動作方法論、及びＶ．結論を含む。

Ｉ．定義
「資産」は、たとえば文脈、使用、サイズなどによる、関連する内容の束縛された集合又はテキストセグメントのグループ化を定義する内容ソースを意味する。一般に、資産は、ハイパーテキストマークアップ言語（ＨＴＭＬ）ファイル、Ｍｉｃｒｏｓｏｆｔ（登録商標）Ｗｏｒｄ（登録商標）文書、又は単純なテキストファイルなど、文書に関連付けられる。しかし、一部の資産は、ファイルシステムファイルに対応しない。資産を、実際に、データベーステーブルの列又はｅｘｔｅｎｓｉｂｌｅｍａｒｋｕｐｌａｎｇｕａｇｅ（ＸＭＬ）リポジトリ内の構造体から定義することができる。物理的にどのように表されるかにはかかわりなく、資産は、すべて、共通の目的すなわち、アクセスでき、操作でき、最終的に翻訳できる関連する内容の束縛された集合を定義することを共有する。資産は、内容、フォーマッティング情報、及び資産の性質に依存する内部構造化データを含むことができる。

「ソース資産」は、そこからルックアップセグメントが引き出される資産を指す。

「セグメント」は、内容の翻訳可能な塊、たとえば、句、文、段落などを含む。セグメントは、翻訳作業の最小単位を表す。実際には、セグメントは、段落、文、又は文断片さえ表すことができる。セグメントは、通常、単一の単語ではないが、単一単語セグメントを使用することができる。

「ソーステキスト」は、翻訳される言語であるオリジナル（ソース）言語に対応する翻訳メモリ内のテキストを指す。ソーステキストは、一致を見つけるために、一致ルックアッププロセス中に資産からのルックアップセグメントと比較される。

「ターゲットテキスト」は、特定のロケールのソーステキストの翻訳を含む、すなわち、ターゲットテキストは、翻訳メモリ（ＴＭ）単位の半分である。

「翻訳メモリ」（ＴＭと省略する）は、ＴＭエントリを含むリポジトリを含む。ＴＭは、任意の個数のロケールのＴＭエントリを含むことができる。たとえば、ＴＭは、英語からフランス語、ギリシャ語からロシア語、アルバニア語からトルコ語などのエントリを含むことができる。

「ＴＭ単位」は、ソーステキストをターゲットテキストにマッピングする翻訳メモリに格納された翻訳対である（翻訳単位、ＴＭエントリ、又はレコードとしても知られる）。ＴＭは、所与の翻訳対に固有であり、この翻訳対は、ソーステキストロケール／ターゲットテキストロケール対を含み、通常は、その翻訳がこの翻訳対を作った資産に関連する。実質的に、ＴＭ単位は、後で再利用できる、以前の翻訳を表す。さらに、本発明による各ＴＭ単位は、関連するソーステキスト／ターゲットテキスト対の文脈を識別する文脈部分を含む。翻訳単位は、通常は２か国語であるが、多種言語とすることもでき、文脈情報、使用カウント、作成日付その他などのメタデータを含むこともできる。

「正確一致（ｅｘａｃｔｍａｔｃｈ）」は、翻訳メモリから来た瞬間の資産からのルックアップテキストと完全に同一であるソーステキストを含むソーステキストを意味する。本明細書で使用される時に、正確一致は、１００％一致をも含み、１００％一致は、正確一致に似ているが、翻訳メモリ単位内に存在する差のゆえに、必ずしも正確一致から生じるのではない。たとえば、ある一致は、１）スコアリングされない空白文字の差すなわち、ＴＭ単位の空白文字とは異なるタイプの空白文字の使用は、正確一致として選択されることを妨げる、２）本発明がそれを介してソーステキストとルックアップテキストとの間のある種の差を効果的に無視する構成されたペナルティ、又は３）ＴＭ一致とオリジナルルックアップテキストとの間の差を修正するためにそれを介して修復ヒューリスティックを適用できるセグメント修復という理由のうちの１つのために、ある一致が、正確一致であることなく１００％としてスコアされ得る。セグメント修復は、たとえば米国特許第７０２０６０１号に記載の、配置可能要素、自動置換技法、及び自動局所化技法の使用によって実行することができる。

「文脈」は、テキストセグメントを取り囲み、その解釈を決定するのを助ける談話を意味する。文脈は、本明細書で使用される時に、異なるレベルを含むことができる。たとえば、文脈は、使用文脈レベル、資産文脈レベル、構造的文脈レベル、及び／又はセグメント識別子を含むことができる。各異なる文脈は、内容の意図された聴衆に応じて異なる言葉遣いを必要とする場合がある。

「使用文脈」は、セグメントを取り巻き、本発明が内容の適切な翻訳をどのように導出するのかに影響する談話を指す。使用文脈を、翻訳されるテキストを取り巻くソース言語のテキストの考慮を伴うソース使用文脈とすることができる。使用連絡先を、翻訳されるテキストの翻訳を取り巻くターゲット言語のテキストの考慮を伴うターゲット使用文脈とすることができる。通常、使用文脈は、翻訳されるセグメントの意味への洞察をもたらす、取り巻く内容と共に定義される。使用文脈は、特定のセグメントに先行するテキスト及び特定のセグメントに続く（後）テキストに関してレベルを有することができ、文脈がソース言語又はターゲット言語の翻訳されるテキストを取り巻くテキストに関連するかどうかに関してもレベルを有することができる。先行使用文脈レベル及び後使用文脈レベルを、ソース使用文脈レベル及びターゲット使用文脈レベルと組み合わせて、先行ソース使用文脈レベル、先行ターゲット使用文脈レベル、後ソース使用文脈レベル、及び後ターゲット使用文脈レベルの形でさらなる文脈レベルを作ることができる。

「資産文脈」は、セグメントがその中に存在する資産環境に関する談話、すなわち、テキストセグメントがそこに表れる全体的内容の背景及び展望フレームワークを指す。

「構造的文脈」は、段落、見出し、目次項目、リスト、又は表のセルその他など、あるセグメントが現れる文書構造単位を指す。

ルックアップセグメントに関する「文脈内正確（ＩＣＥ）一致」は、ソーステキストが正確一致であり、一致をもたらすＴＭ単位と少なくとも１つの文脈レベルを共有しなければならないことを意味する。

「ルックアップテキスト」は、それに関してＴＭ一致が検索されるソース資産からのテキストのセグメントを指す。

「セグメント識別子」（ＳＩＤ）は、所与のセグメントが翻訳されなければならない使用文脈を定義するラベルを含み、ＴＭ単位又は内容の作成時に内容に関連付けられる。ＳＩＤは、所与のセグメントの文脈識別を提供する。ＳＩＤは、セグメント境界を定義するマーカータグを含むことができる。下で説明するように、ＳＩＤは、使用文脈又は取り巻くセグメントに基づくことの代替物又はその拡張である。

ＩＩ．全般的概要
本発明は、なかんずく、翻訳されるルックアップセグメントへの翻訳メモリに格納された複数のソーステキストのマッチングレベルを判定する方法、システム、及びプログラム製品を提供する。本発明は、翻訳メモリ（ＴＭ）内の以前に格納された翻訳からのソース内容に関する高品質一致を生成する。関連技術では、入手可能な最良一致は、正確一致すなわち、ソーステキストがＴＭ内の１つ又は複数のエントリと同一である一致であった。しかし、所与のセグメントについて最良の正確一致を正確に選択し、又は所与の正確一致がそれが適用されている文脈に関する適切な一致であったかどうかを検証する、自動化されたプロセスはない。具体的に言うと、あるセグメントが、異なる状況又は文脈の下で異なって翻訳される場合がある。正確一致の適切性は、文脈情報の評価を必要とし、この文脈情報は、内容使用（それを取り巻く文又はセグメントによって定義される）、構造的文脈、資産文脈（所期の聴衆に応じて異なる言葉遣いを必要とする場合がある）、及び／又は領域識別子、顧客名などのメタデータ、若しくはシステムのユーザによって供給されるか自動的に生成されるか以前の翻訳プロジェクトから抽出される他の情報に基づくものとすることができる。

領域識別子は、正確一致が「電気工学」、「農業」、又は「計算機科学」などに関連する幅広い主題に関連するものとすることができる。単語「ｂａｎｋ」を例に挙げると、これは、領域識別子が地理的領域ではなく金融領域を示す場合に、曖昧性除去され得る。

本発明は、正確一致プロセスを置換するものではない。そうではなく、本発明は、手動妥当性検査の必要を減らし、できる限り貴重なＴＭを作成する際に人を助ける、真の再利用ＴＭシステムを使用することによって、正確一致を超えるマッチングの新しいレベルを提供する。具体的に言うと、本発明の一実施形態は、複数のソーステキスト内でルックアップセグメントのすべての正確一致を判定することと、少なくとも１つの正確一致が判定される場合に、ルックアップセグメントの文脈がそれぞれの正確一致の文脈と一致する場合にそれぞれの正確一致がルックアップセグメントの文脈内正確（ＩＣＥ）一致であると判定することとによって、翻訳されるルックアップセグメントへの翻訳メモリ内に格納された複数のソーステキストのマッチングレベルを判定する。したがって、ＩＣＥ一致判定は、ルックアップセグメントの文脈に基づいて正確一致の適切性を判定する。正確一致であり、一致する文脈を有するソーステキストを、「文脈内正確（ＩＣＥ）一致」と称する。ＩＣＥ一致は、適用される翻訳が、それが使用される文脈に関して適切であることを保証するという点で、正確一致よりすぐれていると考えられる。ＩＣＥ一致は、現在翻訳されているセグメントと同一の文脈で以前に翻訳された一致のおかげで高いレベルの適切性を保証する翻訳一致である。

本発明は、１）新しい内容に関する高品質（再検討を必要としない）一致としての正確一致の適切性を判定し、２）所与のルックアップセグメントの最良の文脈一致を選択し、３）以前に翻訳された内容の以前に割り当てられた翻訳が必ず復元可能であることを保証するために、文脈情報を活用する。新しい内容について、本発明は、文脈情報を活用して、セグメント使用文脈に基づいてＴＭから高品質一致を見つける。本発明は、資産及び／又は構造及び／又は文脈レベルでの文脈を与えられれば、同一の内容が必ず同一の形で翻訳されることをも保証する。

所与のルックアップセグメントの翻訳に関して、ソース文書が翻訳され、すべてのセグメントがＴＭに格納されると仮定する。正確に同一のソース文書がもう一度通される場合には、その文書は、その内容のすべてを含めて、完全に一致し、結果の翻訳された文書は、最初に翻訳された文書と正確に同一になる。この挙動は、単純であり、期待されるものである。しかし、これは、文脈情報を使用することの結果としてのみ保証され得る。この保証の重要性をさらに理解するために、同一の正確な文が２つの異なる場所で２回繰り返されるソース文書を検討されたい。第２の使用は、第１の使用と同一の暗黙の意図を有しない場合があるので、異なって翻訳される。ここで、もう一度、同一の文書がＴＭに対して活用されると考えられたい。複製された文は、同一の翻訳を有するべきなのか、オリジナル文書と同様に異なるべきなのか？その使用の文脈を考慮に入れなければ、これらの文は、ＴＭによって同一の形で翻訳される可能性が最も高い。しかし、本発明によれば、文脈が考慮され、これによって、２つの文は、その使用文脈がそのように規定する限り、異なる翻訳を有し続ける。

以前に翻訳されたテキストセグメントの復元に関して、本発明は、新しい文書の翻訳が、以前に翻訳された文書の翻訳を復元する能力に影響しないことをも保証し、以前に翻訳された文書をＴＭに対して活用し、その結果、その文書が翻訳者によって格納されたものと同一の翻訳を必ずもたらすようにすることによって、翻訳が完全に再現可能であることを保証する方法を提供する。もう一度、２つの同一の文書を検討されたい。第１の文書が翻訳され、その結果がＴＭに格納される。第２の文書が同一のＴＭに対して活用される時に、その文書は、ＩＣＥ一致を用いて完全に翻訳されるものとして表される。使用文脈は、第１文書の使用文脈と同一である。次に、第２文書が、異なる聴衆をターゲットすると考えられたい。ソース言語テキストは、両方の聴衆に適切であると考えられるので、この例では変更されない。しかし、ターゲット言語への翻訳は、多少の変更を必要とする。翻訳者は、この文書に関して翻訳を更新し、その結果をＴＭに格納する。時が経ち、両方の翻訳された文書のコピーが、もう一度要求される。スペースの理由から、オリジナルの翻訳された文書は削除された。ソース文書のどれもが変更されておらず、したがって、まだ同一のソーステキストを含む。本発明は、それぞれが最初に翻訳された文書（それら自体は同一ではなかった）に同一である、オリジナルの翻訳された文書の再生成を容易にする。ソース文書の内容が同一であるにもかかわらず、本発明は、資産文脈情報を活用して、文書固有翻訳が回復可能であることを保証することができる。

本発明を、Ｉｄｉｏｍ社のＷｏｒｌｄＳｅｒｖｅｒ（商標）などの内容管理システムの一部として、又は別々のシステムとして活用することができる。たとえば、ＷｏｒｌｄＳｅｒｖｅｒ（商標）は、企業がグローバル化プロセス全体の文脈で内容を管理すると同時に、確立されたウェブアーキテクチャ、内容管理、及びワークフローシステムを活用することを可能にする、ウェブベースのアプリケーションである。内容管理システムは、たとえばグローバルウェブ戦略の展開から生じる複数の複雑さを単純化し、会社のウェブサイトが複数の国並びに異なる言語、場所、及び文化をも効率的にサポートすることを可能にする。内容管理システムは、サイト管理者、ウェブデベロッパ、内容所有者、翻訳者、及び編集者の間での協同作業に構造及びプロセスを提供し、合理化されたプロセス、同期化されたグローバルウェブ戦略、及び調整されたグローバルウェブチームをもたらす。翻訳者は、内容管理システムを使用して、その翻訳者が翻訳しなければならない内容を見る。ＷｏｒｌｄＳｅｒｖｅｒ（商標）では、翻訳者は、翻訳を必要とする内容をサードパーティ編集ツールにエクスポートするか、実際の翻訳を実行するのに翻訳ワークベンチを使用するかのいずれかを行うことができる。翻訳者は、内容を適合させるが翻訳してはいないユーザ及び／又は内容を再検討するレビュワを含む、個々の投稿者とすることができる。内容管理システムは、後の想起のために翻訳された句をＴＭに格納する。

ＩＩＩ．システム概要
添付図面を参照すると、図１は、本発明による文脈内正確一致翻訳システム１００のブロック図である。システム１００が別々のシステムとして図示されているが、これを、Ｉｄｉｏｍ社のＷｏｒｌｄＳｅｒｖｅｒ（商標）などのより大きい内容管理システム又は翻訳システムの一部として実施できることを了解されたい。これに関して、システム１００の説明が、翻訳システムのある種の機能性を含むが、説明を明瞭にするために他の機能性を省略する場合がある。さらに、システム１００は、クライアント−サーバ（たとえば、ウェブベースの）環境で図示されているが、他の構成も可能であることを了解されたい。

システム１００は、コンピュータ１０２上でコンピュータプログラムコードとして実施されて図示されている。この範囲までで、コンピュータ１０２は、メモリ１１２、処理ユニット１１４、入出力（Ｉ／Ｏ）インターフェース１１６、及びバス１１８を含んで図示されている。さらに、コンピュータ１０２は、外部Ｉ／Ｏデバイス／リソース１２０及びストレージシステム１２２と通信して図示されている。一般に、処理ユニット１１４は、メモリ１１２及び／又はストレージシステム１２２に格納された、システム１００などのコンピュータプログラムコードを実行する。コンピュータプログラムコードを実行している間に、処理ユニット１１４は、メモリ１１２、ストレージシステム１２２、及び／又はＩ／Ｏデバイス１２０から／へデータを読み取り、及び／又は書き込むことができる。バス１１８は、コンピュータ１０２内のコンポーネントのそれぞれの間の通信リンクを提供し、Ｉ／Ｏデバイス１２０は、ユーザがコンピュータ１０２と対話することを可能にする任意のデバイス（たとえば、キーボード、ポインティングデバイス、ディスプレイなど）を含むことができる。

代替案では、ユーザは、コンピュータ１０２と通信する別のコンピューティングデバイス（図示せず）と対話することができる。この場合に、Ｉ／Ｏインターフェース１１６は、コンピュータ１０２がネットワークを介して１つ又は複数の他のコンピューティングデバイスと通信することを可能にする任意のデバイス（たとえば、ネットワークシステム、ネットワークアダプタ、Ｉ／Ｏポート、モデムなど）を含むことができる。ネットワークは、さまざまなタイプの通信リンクの任意の組合せを含むことができる。たとえば、ネットワークは、有線及び／又は無線の伝送方法の任意の組合せを利用できるアドレス可能接続を含むことができる。この場合に、コンピューティングデバイス（たとえば、コンピュータ１０２）は、トークンリング、イーサネット、ＷｉＦｉ、又は他の従来の通信標準規格など、従来のネットワーク接続性を利用することができる。さらに、ネットワークは、インターネット、広域ネットワーク（ＷＡＮ）、ローカルエリアネットワーク（ＬＡＮ）、仮想プライベートネットワーク（ＶＰＮ）、などを含む、１つ又は複数の任意のタイプのネットワークを含むことができる。通信が、インターネットを介して行われる場合に、接続性を、従来のＴＣＰ／ＩＰソケットベースのプロトコルによって提供することができ、コンピューティングデバイスは、インターネットへの接続性を確立するのにインターネットサービスプロバイダを利用することができる。

コンピュータ１０２は、ハードウェア及びソフトウェアのさまざまな可能な組合せを表すに過ぎない。たとえば、処理ユニット１１４は、単一の処理ユニットを含むことができ、或いは、たとえばクライアント及びサーバ上など、１つ又は複数の位置の１つ又は複数の処理ユニットにまたがって分散され得る。同様に、メモリ１１２及びストレージシステム１２２は、１つ又は複数の物理的位置に存在することができる。メモリ１１２及びストレージシステム１２２は、磁気媒体、光媒体、ランダムアクセスメモリ（ＲＡＭ）、読取り専用メモリ（ＲＯＭ）、データオブジェクトなどを含むさまざまなタイプのコンピュータ可読媒体及び／又は伝送媒体の任意の組合せを含むことができる。Ｉ／Ｏインターフェース１１６は、１つ又は複数のＩ／Ｏデバイスと情報を交換する任意のシステムを含むことができる。さらに、図１に示されていない１つ又は複数の追加コンポーネント（たとえば、システムソフトウェア、数値演算コプロセッシングユニットなど）をコンピュータ１０２に含めることができることを理解されたい。この範囲までで、コンピュータ１０２は、ネットワークサーバ、デスクトップコンピュータ、ラップトップ機、ハンドヘルドデバイス、携帯電話機、ポケットベル、携帯情報端末その他など、任意のタイプのコンピューティングデバイスを含むことができる。しかし、コンピュータ１０２がハンドヘルドデバイス又は類似物を含む場合に、１つ若しくは複数のＩ／Ｏデバイス（たとえば、ディスプレイ）及び／又はストレージシステム１２２を、図示されているように外部にではなくコンピュータ１０２内に含めることができることを理解されたい。

下でさらに述べるように、システム１００は、正確一致デターミナ１３０、文脈内正確（ＩＣＥ）一致デターミナ１３２、ハッシュアルゴリズム１３３、ファジイ一致デターミナ１３４、翻訳メモリＴＭジェネレータ１３６、セグメントリトリーバ１３８、及び他のシステム構成要素（Ｓｙｓ．Ｃｏｍｐ．）１４０を含んで図示されている。ＩＣＥ一致デターミナ１３４は、文脈アイデンティファイヤ１４２、一致エバリュエータ１４４、及びＩＣＥ一致プライオリタイザ（ｐｒｉｏｒｉｔｉｚｅｒ）１４６を含む。他のシステム構成要素１４０は、本発明の動作に必要な他の機能性を含むことができるが、本明細書で明示的には説明されない。たとえば、他のシステム構成要素１４０は、Ｉｄｉｏｍ社のＷｏｒｌｄＳｅｒｖｅｒ（商標）によって提供されるものなどの自動翻訳システム及び／又は内容管理システム機能性を含むことができる。

わかりやすくするために図１には示されていないが、クライアント側システム１５０が、コンピュータ１０２に類似する構造を含むことができ、下で説明する機能性を提供するプログラムコードを含むことを理解されたい。

図１には、システム１００による使用のための翻訳メモリ１２８（以下では「ＴＭ１２８」）も示されている。図３に示されているように、ＴＭ１２８は、それぞれ特定のソーステキスト１５２Ａ、１５２Ｂについて特定の言語に以前に翻訳された、格納されたターゲットテキスト１６２、１６４を含む複数のＴＭエントリ１４８を含む（図を簡潔にするために２つだけを示す）。たとえば、格納されたソーステキスト「ｇｌｏｂａｌｅｎｔｅｒｐｒｉｓｅｓ」１５２Ａは、複数のドイツ語翻訳１６２すなわちターゲットテキストに翻訳されており、格納されたソーステキスト「ｔｅａｍｏｆｖｉｓｉｏｎａｒｉｅｓ」１５２Ｂは、複数のフランス語翻訳１６４すなわちターゲットテキストに翻訳されている。各ソーステキスト１５２Ａ及び１５２Ｂは、ルックアップセグメントとの比較のためのものである。各ＴＭ単位１４８は、文脈識別１６６（図を明瞭にするために２つだけにラベルを付ける）をも含む。一実施形態で、文脈識別１６６は、ソース使用文脈部分１６８及び資産文脈部分（ＡＣ）１７０など、異なる文脈レベルの表示を含む。資産文脈部分１７０は、たとえば「３３３３３」など、システム１００に対して特定の資産を識別する資産コードを含む。構造的文脈レベルなど、他の文脈レベルを設けることもできる。いくつかの場合に、資産文脈部分１７０を省略することができる。本発明のこの実施形態では、使用文脈レベルは、先行ソース使用文脈レベル及び後ソース使用文脈レベルである。本発明の他の実施形態では、使用文脈レベルは、その代わりに又はそれに加えて、先行ターゲット使用文脈レベル及び／又は後ターゲット使用文脈レベルを含むことができる。

１つの好ましい実施形態では、各使用文脈１６８は、先行ソース使用文脈（ＵＣ）ハッシュコード１７２及び後ソース使用文脈（ＵＣ）ハッシュコード１７４を含む。先行ＵＣハッシュコード１７２は、翻訳中にそれぞれのソーステキストがその隣に現れる先行するセグメントによって生成されたテキストストリームに基づいてハッシュアルゴリズム１３３を使用して生成される。同様に、後ＵＣハッシュコード１７２は、翻訳中にそれぞれのソーステキストがその隣に現れる続く（後）セグメントによって生成されたテキストストリームに基づいてハッシュアルゴリズム１３３を使用して生成される。ハッシュアルゴリズム１３３は、テキストストリームを一意の数値識別子に変換できる任意の現在既知の又は今後に開発されるハッシュアルゴリズムを含む（図示のハッシュコードが、図を明瞭にするために単純化されていることを了解されたい）。したがって、各ＵＣハッシュコードは、それぞれのソーステキストに関する一意の使用文脈レベルを示す。代替実施形態では、１つの使用文脈ハッシュコードだけを、特定のソーステキスト１５２並びに先行するセグメント及び続くセグメントについて使用することができる。

ルックアップセグメント１５４が作成時に文脈に割り当てられる場合に、文脈識別１６６を、ハッシュアルゴリズム１３３又はこれとユーザ指定のＳＩＤの使用との組合せではなく、上で説明したユーザ指定のＳＩＤを使用して生成することができ、ここで、ハッシュアルゴリズム１３３及びユーザ指定のＳＩＤの一方に、他方に対して優先順位を与えることができる。

本明細書で使用される特定のコードが、例示のみのためのものであることを了解されたい。

ＩＶ．動作方法論
図２Ａ〜Ｂに移り、本発明の動作方法論の一実施形態の流れ図をこれから説明する。図２Ａ〜Ｂの議論は、図１、３、及び４と共に行われる。

Ａ．予備ステップ
図２Ａから始めると、予備ステップＰＳとして、一実施形態で、ルックアップセグメント１５４が、直接にリンクされた或いはあるタイプのネットワーク、たとえばＬＡＮ、ＷＡＮ、又はインターネットによってリンクされたクライアントコンピュータシステム１５０によってＩＣＥ一致システム１００にロードされる。たとえば、ルックアップセグメント１５４を、ＩＣＥ一致システム１００がその一部であるものとすることができる、翻訳ワークフローアプリケーションサーバ（図示せず）、たとえばＩｄｉｏｍ社のＷｏｒｌｄＳｅｒｖｅｒ（商標）を介してロードすることができる。ルックアップセグメント１５４を、より大きい資産の一部としてロードすることができる。この場合に、システム１００は、たとえばＩｄｉｏｍ社のＷｏｒｌｄＳｅｒｖｅｒ（商標）によって提供されるように、ルックアップセグメント１５４を作成する現在既知の又は今後に開発される任意の形でより大きい資産のセグメント化を行うことができる。セグメント化は、それを介して資産の内容が解析され翻訳可能セグメントとして公開されるプロセスである。セグメントのサイズは、セグメント化ルールに依存し、セグメント化ルールは、ユーザ定義とすることができる。

Ｂ．全般的方法論
ステップＳ１〜Ｓ１２は、ルックアップセグメント１５４ごとの分析を表す。

第１ステップＳ１では、ＴＭ１２８内の複数のソーステキスト１５２内のルックアップセグメント１５４のすべての正確一致を、正確一致デターミナ１３０によって判定する。正確一致デターミナ１３０は、ほとんどの従来のＴＭシステムと同様に機能することができ、従来のＴＭシステムの正確一致デターミナは、ストリング比較アルゴリズムを使用してＴＭ１２８に格納された翻訳の適切性を測定し、ここで、スコアは、２つのストリングがどれほどよく一致するかに基づいて与えられる。１００％のスコアは、通常、正確一致が見つかったことを示し、或いは、差を自動的に解決（たとえば、配置可能要素、自動局所化技法、又は自動置換技法を使用して「修復」）され得る一致を示す。たとえば、図３に示されているように、ルックアップセグメント「ｇｌｏｂａｌｅｎｔｅｒｐｒｉｓｅｓ」は、ドイツ語に翻訳された時に、１）ｇｌｏｂａｌｅＷｅｓｅｎ、２）ｇｌｏｂａｌｅＵｎｔｅｒｎｅｈｍｅｎ、及び３）ｇｌｏｂａｌｅＧｅｓｃｈａｅｆｔｅという２つの正確一致をもたらすはずである。ルックアップセグメント「ｔｅａｍｏｆｖｉｓｉｏｎａｒｉｅｓ」は、フランス語に翻訳された時に、１）ｅ’ｑｕｉｐｅｄｅｖｉｓｉｏｎｎａｉｒｅｓ、２）ｇｒｏｕｐｅｄｅｖｉｓｉｏｎｎａｉｒｅｓ、３）ｂａｎｄｅｄｅｓｖｉｓｉｏｎｎａｉｒｅｓ、及び４）ｇｒｏｕｐｅｄｅｆｕｔｕｒｏｌｏｇｕｅｓという４つの正確一致をもたらすはずである。複数の正確一致が、ルックアップセグメント１５４ごとにＴＭ１２８内に存在する場合がある。というのは、任意の所与のセグメントに関する複数の翻訳及び所与の言語でのある陳述の意味が、単語のみから導出されるのではなく、それが使用される文脈からも導出されるからである。したがって、各以前の翻訳が、特定のソーステキスト１５２の、したがって同一のルックアップセグメント１５４の、多数のターゲットテキスト翻訳１６２、１６４をもたらす可能性がある。

ステップＳ２では、少なくとも１つの正確一致が判定された、すなわちＴＭ１２８内で見つかったかどうかに関する判定を行う。ステップＳ２でそうではない場合には、処理はステップＳ３に進み、ここで、ファジイ一致デターミナ１３４が、任意の現在既知の又は今後に開発される形でルックアップセグメント１５４のファジイ一致があるかどうかを判定する。ルックアップセグメント１５４に関するすべてのファジイ一致が、ステップＳ４で報告される。「報告」は、本明細書で使用される時に、ユーザへの結果の表示、結果の転送、及び／又は結果の格納を意味することができる。図示されてはいないが、ファジイ一致が見つからない場合には、従来の自動翻訳を始めさせることができる。

ステップＳ２でＹＥＳである場合には、ステップＳ５で、ＩＣＥ一致デターミナ１３２が、それぞれの正確一致がルックアップセグメント１５４の文脈内正確（ＩＣＥ）一致であるかどうかを判定する。上で述べたように、「ＩＣＥ一致」は、ソーステキスト１５２が正確一致であらねばならず、これがルックアップセグメント１５４と共通の文脈を共有もすることを意味する。言い換えると、ルックアップセグメント１５４の文脈識別と一致する文脈識別１６６を有する正確一致が、ＩＣＥ一致である。一実施形態で、この判定における文脈は、使用文脈のみを含む。しかし、下で説明するように、他の文脈マッチングレベルを使用することができる。

ステップＳ５は、２つのサブステップを含む。第１に、サブステップＳ５Ａ、文脈アイデンティファイヤ１４２が、ルックアップセグメント１５４の文脈を識別する。一実施形態で、文脈アイデンティファイヤ１４２は、そのソース資産内でルックアップセグメント１５４を取り巻くセグメントに基づいて文脈を識別する。この場合に、ハッシュアルゴリズム１３３が、ルックアップセグメント（ＬＳ）先行ＵＣハッシュコード及びルックアップセグメント（ＬＳ）後ＵＣハッシュコードを計算することによって、ルックアップセグメント１５４の使用文脈を判定するために実施される。やはり、ハッシュアルゴリズム１３３は、テキストストリームを一意の数値識別子に変換できる任意の現在既知の又は今後に開発されるハッシュアルゴリズムを含む。図４を参照すると、「ｔｅａｍｏｆｖｉｓｉｏｎａｒｉｅｓ」の形のルックアップセグメント１５４Ａを含む例示的なソース資産１８０が示されている。ＬＳ先行ＵＣハッシュコードは、直接に先行するセグメント１９０に基づいて形成される。たとえば、図４に示されているように、ＬＳ先行ＵＣハッシュコードは、「ＩｄｉｏｍｗａｓｆｏｕｎｄｅｄｉｎＪａｎｕａｒｙ１９９８ｂｙａｔｅａｍｏｆｖｉｓｉｏｎａｒｉｅｓ」について計算される。同様に、ＬＳ後ＵＣハッシュコードは、直接に続くセグメント１９２すなわち、「ｔｅａｍｏｆｖｉｓｉｏｎａｒｉｅｓｗｈｏｒｅｃｏｇｎｉｚｅｄｔｈｅｎｅｅｄｆｏｒａｎｅｎｔｅｒｐｒｉｓｅ−ｃｌａｓｓｓｏｆｔｗａｒｅｐｒｏｄｕｃｔｔｈａｔｗｏｕｌｄｍｅｅｔｔｈｅｇｌｏｂａｌｉｚａｔｉｏｎ」について計算される。ソース資産１８０の資産文脈を、資産ハッシュに基づいて文脈アイデンティファイヤ１４２によって識別することができ、この資産ハッシュは、特定の資産のシステムの識別、たとえば資産名、システム内の位置などに基づく。

代替実施形態では、文脈アイデンティファイヤ１４２は、ルックアップセグメント１５４に関連するセグメント識別子（ＳＩＤ）に従ってルックアップセグメント１５４の文脈を識別し、このＳＩＤは、上で述べたように、セグメントが翻訳されなければならない使用文脈を定義するラベルを含む。ＳＩＤは、セグメント境界を定義するマーカータグを含むことができる。好ましくは、ＳＩＤは、セグメントの作成中に、すなわち内容作成者によって、ソーステキスト１５２及び／又はルックアップセグメント１５４に関連付けられる。しかし、ＳＩＤを、たとえば以前の内容翻訳者によって、より後の時にソーステキスト１５２及び／又はルックアップセグメント１５４に関連付け、或いは上書きすることができる。

サブステップＳ５Ｂでは、ＩＣＥ一致エバリュエータ１４４が、ルックアップセグメント１５４と同一の文脈内で使用されたかどうかすなわち各正確一致がＩＣＥ一致であるかどうかを判定するために各候補と共に格納された文脈識別１６６を使用することによって、ルックアップセグメント１５４の正確一致ごとの評価を行う。正確一致がＩＣＥ一致と考えられるために必要な文脈マッチングの度合は、事前に決定されるものとすることができる。一実施形態では、ＩＣＥ一致エバリュエータ１４４は、ルックアップセグメント１５４の各文脈レベルがそれぞれの正確一致の文脈レベルと一致する場合に限って、それぞれの正確一致がルックアップセグメント１５４のＩＣＥ一致であることを示す。たとえば、文脈が、使用文脈レベル及び資産文脈レベルを含む場合に、判定ステップは、ルックアップセグメントの使用文脈レベルと資産文脈レベルとの両方がそれぞれの正確一致の使用文脈レベルと資産文脈レベルとの両方と一致する場合に限って、それぞれの正確一致がルックアップセグメントのＩＣＥ一致であることを示すことができる。さらなる例として、文脈が、使用文脈レベル及び構造的文脈レベルを含む場合に、判定ステップは、ルックアップセグメントの使用文脈レベルと構造的文脈レベルとの両方がそれぞれの正確一致の使用文脈レベルと構造的文脈レベルとの両方と一致する場合に限って、それぞれの正確一致がルックアップセグメントのＩＣＥ一致であることを示すことができる。使用文脈レベルは、先行ソース使用文脈レベル、後ソース使用文脈レベル、後ターゲット使用文脈レベル、及び後ターゲット使用文脈レベルのうちの１つ又は複数を含むことができる。

例
図３を参照し、例示的なルックアップセグメント１５４がテキスト「ｔｅａｍｏｆｖｉｓｉｏｎａｒｉｅｓ」を含み、これがフランス語に翻訳されなければならないと仮定する。また、ルックアップセグメント「ｔｅａｍｏｆｖｉｓｉｏｎａｒｉｅｓ」が、３３３のＬＳ先行ＵＣハッシュコード及び４４４４のＬＳ後ＵＣハッシュコードを有すると仮定し、６６６６６６の資産文脈を仮定する（図３のすべてのハッシュコードが、図を明瞭にするために単純化されていることを理解されたい）。図３に示されているように、正確一致デターミナ１３０は、フランス語に翻訳された時のルックアップセグメント「ｔｅａｍｏｆｖｉｓｉｏｎａｒｉｅｓ」の４つの正確一致すなわち１）ｅ’ｑｕｉｐｅｄｅｖｉｓｉｏｎｎａｉｒｅｓ、２）ｇｒｏｕｐｅｄｅｖｉｓｉｏｎｎａｉｒｅｓ、３）ｂａｎｄｅｄｅｓｖｉｓｉｏｎｎａｉｒｅｓ、及び４）ｇｒｏｕｐｅｄｅｆｕｔｕｒｏｌｏｇｕｅｓを判定するはずである。ＩＣＥ一致エバリュエータ１４４は、正確一致を再検討し、図３に示されているように、ルックアップセグメント「ｔｅａｍｏｆｖｉｓｉｏｎａｒｉｅｓ」がフランス語に翻訳される時に、ソーステキスト「ｇｒｏｕｐｅｄｅｖｉｓｉｏｎｎａｉｒｅｓ」が、同一の資産文脈１７０及び使用文脈（ハッシュコード）１７２、１７４を有するので、同一の文脈を有すると判定するはずである。したがって、「ｇｒｏｕｐｅｄｅｖｉｓｉｏｎｎａｉｒｅｓ」は、ＩＣＥ一致になるはずである。他のソーステキストは、ルックアップセグメント「ｔｅａｍｏｆｖｉｓｉｏｎａｒｉｅｓ」の少なくとも１つの文脈コードを有しないので、ＩＣＥ一致としての資格を有しないはずである。

代替実施形態では、ＩＣＥ一致エバリュエータ１４４は、ルックアップセグメントの一部の文脈レベルのみがそれぞれの正確一致の文脈レベルと一致する場合であっても、それぞれの正確一致がルックアップセグメント１５４のＩＣＥ一致であることを示すことができる。

例
図３を参照し、例示的なルックアップセグメント１５４が、テキスト「ｇｌｏｂａｌｅｎｔｅｒｐｒｉｓｅｓ」を含み、これがドイツ語に翻訳されなければならないと仮定する。また、ルックアップセグメント「ｇｌｏｂａｌｅｎｔｅｒｐｒｉｓｅｓ」が、１２３４のＬＳ先行ＵＣハッシュコード及び４３２１のＬＳ後ＵＣハッシュコードを有すると仮定し、７８９０の資産文脈を仮定する。図３に示されているように、正確一致デターミナ１３０は、ドイツ語に翻訳された時のルックアップセグメント「ｇｌｏｂａｌｅｎｔｅｒｐｒｉｓｅｓ」の３つの正確一致すなわち、１）ｇｌｏｂａｌｅＷｅｓｅｎ、２）ｇｌｏｂａｌｅＵｎｔｅｒｎｅｈｍｅｎ、及び３）ｇｌｏｂａｌｅＧｅｓｃｈａｅｆｔｅを判定するはずである。１つの使用文脈レベルだけが、正確一致がＩＣＥ一致になるために必要であると仮定すると、ＩＣＥ一致エバリュエータ１４４は、正確一致を再検討し、図３に示されているように、ルックアップセグメント「ｇｌｏｂａｌｅｎｔｅｒｐｒｉｓｅｓ」がドイツ語に翻訳される時に、ソーステキスト「ｇｌｏｂａｌｅＷｅｓｅｎ」及び「ｇｌｏｂａｌｅＵｎｔｅｒｎｅｈｍｅｎ」が、それぞれＬＳＵＣハッシュコードの１つと一致する１つのＵＣハッシュコードを有するので、同一の文脈を有すると判定するはずである。すなわち、「ｇｌｏｂａｌｅＷｅｓｅｎ」は、ルックアップセグメントと同一の前（先行）ソースＵＣハッシュコードを有し、「ｇｌｏｂａｌｅＵｎｔｅｍｅｈｍｅｎ」は、ルックアップセグメントと同一の後ソースＵＣハッシュコードを有する。他のソーステキストは、ルックアップセグメント「ｇｌｏｂａｌｅｎｔｅｒｐｒｉｓｅｓ」の少なくとも１つの文脈レベルを有しないので、ＩＣＥ一致としての資格を有しないはずである。システム１００が複数のＩＣＥ一致にどのように優先順位を付けるかの詳細を、下で説明する。

ＩＣＥ一致が判定されない、すなわち、ステップＳ６のＮＯの場合には、ステップＳ７で、すべての正確一致を報告する。その後、ステップＳ８で、正確一致及びファジイ一致すなわちステップＳ３〜４からの一致を、任意の現在既知の又は今後に開発される形でユーザによって妥当性検査することができる。この場合に、正確一致及びファジイ一致は、そのそれぞれのキャッシュに取り出され、クライアントコンピュータシステム１５０によって翻訳者から使用可能にされ、ここで、翻訳者は、ソース資産１８０内容を与えられて各正確一致が最良一致であることを保証するためにそのような正確一致を妥当性検査し、ソース資産１８０内容と一致するように各ファジイ一致を更新しなければならない。

ＩＣＥ一致が判定される、すなわちステップＳ６のＹＥＳの場合に、図２Ｂに示されているように、ステップＳ９で、ＩＣＥ一致ランカ１４６が、複数のＩＣＥ一致が見つかったかどうかを判定する。１つのＩＣＥ一致だけが判定される場合には、ステップＳ１０で、その単一のＩＣＥ一致を報告する。ＩＣＥ一致が自動的に報告された後に、システム１００は、セグメントリトリーバ１３８を介するターゲットテキスト１６２、１６４の取出を可能にする。

本発明の実施形態は、構造的文脈レベルを使用してＩＣＥ一致の曖昧性除去を改善することに関する。構造化文脈レベルを伴う次の第１の例を検討されたい。
ソース１（ｓ１）構造化文脈＝見出しテキスト「Ｐｒｉｎｔｔｈｅｄｏｃｕｍｅｎｔ」
ターゲット１（ｔ１）構造化文脈＝見出しテキスト「ＤａｓＤｏｋｕｍｅｎｔａｕｓｄｒｕｃｋｅｎ」
この場合に、見出し構造的文脈（翻訳単位内のソースセグメントとターゲットセグメントとの両方について同一）において、ドイツ語翻訳は、翻訳において不定詞（非命令法）形を使用する。

ここで、同一文書内で、さらに、同一の英文が使用されるが、今回は命令形がドイツ語で必要になるように指示リストの形である構造的文脈レベルを伴う次の第２の例を検討されたい。
ソース２（ｓ２）構造的文脈＝指示リスト「Ｐｒｉｎｔｔｈｅｄｏｃｕｍｅｎｔ」
ターゲット２（ｔ２）構造的文脈＝指示リスト「ＤｒｕｃｋｅｎＳｉｅｄａｓＤｏｋｕｍｅｎｔａｕｓ」

上の例示的な文が、本発明の実施形態に従って翻訳メモリ又は他のそのようなデータストアに格納される場合に、異なる翻訳だけではなく、その構造的文脈（すなわち、見出し対指示リスト）も翻訳メモリに格納される。その後、同一の文が同一の構造的文脈で現れる時に、必ず、現在の構造的文脈に適切な翻訳を、優先的に提案することができる。

構造的文脈レベルを、使用文脈レベル（先行、後、ソース、及び／又はターゲット）及び／又は資産文脈レベルの代わりに或いはそれに加えて使用することができる。

Ｃ．複数ＩＣＥ一致優先順位付け
図２Ｂを参照すると、ステップＳ１１〜１２は、複数のＩＣＥ一致がステップＳ５で判定される状況すなわちステップＳ９のＹＥＳに対処するオプションのステップを表す。一実施形態（図示せず）で、ＩＣＥ一致デターミナ１３０は、単純に、ユーザがＩＣＥ一致のリストからＩＣＥ一致を選択することを可能にすることができる。しかし、これは、ＩＣＥ一致の１つの目的すなわち、正確一致を妥当性検査する必要がないことをくつがえすので、好ましくはない。図２Ｂに示された好ましい実施形態では、複数のＩＣＥ一致が判定される場合に、ＩＣＥ一致プライオリタイザ１４６は、ステップＳ１１で、文脈一致の度合に従って各ＩＣＥに優先順位を付ける（ランキングする）。上で説明したように、「文脈マッチングの度合」は、事前に決定されるものとすることができる。このステップは、文脈マッチングの各ＩＣＥ一致度合に優先順位を付け、ステップＳ１２で、選択のためにユーザにＩＣＥ一致を提示するか、最高ランキングのＩＣＥ一致を自動的に選択するかのいずれかを行う。複数ＩＣＥ一致に優先順位を付けるさまざまな定式が、文脈レベルの個数に依存して可能であることを理解されたい。１つ又は複数の固定された定式の代替又はそれへの追加として、最適の（又は他の形で許容可能な）優先順位付けに、学習プロセスを介して到達することができ、ここで、所与のトレーニングコーパスから、又は所定の期間にわたる以前の翻訳プロジェクトからの出力若しくは生翻訳プロジェクトからの部分からの観察された結果が、異なる文脈レベルの優先順位付けを調整するのに使用される。

次の例で、複数ＩＣＥ一致の優先順位付けの一実施形態を示す。

例
文脈が、使用文脈レベル及び資産文脈レベルを含み、ルックアップセグメント「ｔｅａｍｏｆｖｉｓｉｏｎａｒｉｅｓ」が、図４に示されているようにソース文書１８０に基づいて図３のＴＭ１２８を使用してフランス語に翻訳されなければならないと仮定する。この場合に、「ｔｅａｍｏｆｖｉｓｉｏｎａｒｉｅｓ」は、以前に格納された翻訳に基づいて、４つの正確一致すなわち、１）ｅ’ｑｕｉｐｅｄｅｖｉｓｉｏｎｎａｉｒｅｓ、２）ｇｒｏｕｐｅｄｅｖｉｓｉｏｎｎａｉｒｅｓ、３）ｂａｎｄｅｄｅｓｖｉｓｉｏｎｎａｉｒｅｓ、及び４）ｇｒｏｕｐｅｄｅｆｕｔｕｒｏｌｏｇｕｅｓを有する。また、ルックアップセグメント「ｔｅａｍｏｆｖｉｓｉｏｎａｒｉｅｓ」が、ＬＳ前ソースＵＣハッシュコード３３３、ＬＳ後ソースＵＣハッシュコード４４４４、及び資産コード６６６６６６を有すると仮定する。また、正確一致がＩＣＥ一致デターミナ１３２によってＩＣＥ一致として示されるために、１つの文脈レベルだけがルックアップセグメントの文脈レベルと一致する必要があると仮定する。この場合に、各正確一致は、ＩＣＥ一致である。具体的に言うと、１）「ｅ’ｑｕｉｐｅｄｅｖｉｓｉｏｎｎａｉｒｅｓ」は、一致する前ソースＵＣハッシュコード及び資産コードを有し、２）「ｇｒｏｕｐｅｄｅｖｉｓｉｏｎｎａｉｒｅｓ」は、すべての一致する文脈レベルを有し、３）「ｂａｎｄｅｄｅｓｖｉｓｉｏｎｎａｉｒｅｓ」は、一致する資産コードを有し、４）「ｇｒｏｕｐｅｄｅｆｕｔｕｒｏｌｏｇｕｅｓ」は、一致する後ソースＵＣハッシュコードを有する。

定義により、ＩＣＥ一致が、不一致のルックアップセグメント（すなわち、手動翻訳又は機械翻訳を必要とするセグメント）、ファジイ一致、及びＩＣＥ一致ではない正確一致より高い優先順位を与えられることを認められたい。ＩＣＥ一致に関する１つの優先順位付け規程を、下で示す。この規程では、ランキングは、優先権の逆順でリストされ（たとえば、番号が大きいほど、優先順位が高い）、使用文脈（ＵＣ）レベルは、先行ＵＣレベル及び後ＵＣレベルを含み、いくつかの例示的優先順位付けステップは、次を含む。

１．ソース使用文脈（ＵＣ）一致、ターゲットＵＣ）一致、及び構造的文脈一致が、ソース使用文脈（ＵＣ）一致及びターゲット使用文脈（ＵＣ）一致より優先される。
ルックアップセグメントと同一のソースＵＣハッシュコード及びターゲットＵＣハッシュコードのみを有するＩＣＥ一致よりも、ルックアップセグメントと同一のソースＵＣハッシュコードとターゲットＵＣハッシュコードとの両方並びに同一の構造的文脈一致を有するＩＣＥ一致が優先される。

２．ソースＵＣ一致及びターゲットＵＣ一致は、ソースのみのＵＣ一致より優先される。
ルックアップセグメントと同一のソースＵＣハッシュコードだけを有するＩＣＥ一致よりも、ルックアップセグメントと同一のソースＵＣハッシュコードとターゲットＵＣハッシュコードとの両方を有するＩＣＥ一致が優先される。

３．先行ＵＣ一致が、後ＵＣ一致より優先される。
ルックアップセグメントの後ソース使用文脈レベル又は後ターゲット使用文脈レベルと一致するそれらのレベルのいずれかのみを有するＩＣＥ一致よりも、ルックアップセグメントの先行ソース使用文脈レベル又は先行ターゲット使用文脈レベルと一致するそれらのレベルのいずれかを有するＩＣＥ一致が優先される。

４．フルソース使用文脈（ＵＣ）一致が、部分的ソース使用文脈（ＵＣ）一致より優先される。
ルックアップセグメントのハッシュコードと一致する１つのソースＵＣだけを有する正確一致が、ＩＣＥ一致（「部分一致と称する）と考えられると仮定すると、部分一致よりも、ルックアップセグメントと同一の前ソースＵＣハッシュコードと後ソースＵＣハッシュコードとの両方を有するＩＣＥ一致（「フルソースＵＣ一致」と称する）が優先される。言い換えると、ルックアップセグメントの前ソースＵＣレベル及び後ソースＵＣレベルと一致する前ソースＵＣレベルと後ソースＵＣレベルとの両方を有するＩＣＥ一致が、ルックアップセグメントの前ソースＵＣレベル又は後ソースＵＣレベルと一致する前ソースＵＣレベル及び後ソースＵＣレベルの一方だけを有するＩＣＥ一致より優先される。たとえば、ＩＣＥ一致２）「ｇｒｏｕｐｅｄｅｖｉｓｉｏｎｎａｉｒｅｓ」は、これがルックアップセグメントと一致する前ＵＣハッシュコード（３３３）及び後ＵＣハッシュコード（４４４４）を有するので、他のすべてより優先される。

同様に、優先順位付けを、部分ターゲットＵＣ一致よりもフルターゲットＵＣ一致に与えることができる。

５．ルックアップセグメントと同一の資産からのＩＣＥ一致は、他の資産からの一致より優先される。
この場合に、複数のＩＣＥ一致を、上で説明した部分一致よりフル一致を優先することによって区別することはできない、すなわち、第１優先は、非決定的であり、資産コードに基づいて、ルックアップセグメントと同一の資産からのＩＣＥ一致が優先される。言い換えると、第１優先が非決定的である場合に、ルックアップセグメントと同一の資産からのＩＣＥ一致が、異なる資産からのＩＣＥ一致よりも優先される。この例では、ＩＣＥ一致１）「ｅ’ｑｕｉｐｅｄｅｖｉｓｉｏｎｎａｉｒｅｓ」及び４）「ｇｒｏｕｐｅｄｅｆｕｔｕｒｏｌｏｇｕｅｓ」は、両方とも部分ＩＣＥ一致であるが、ＩＣＥ一致１）「ｅ’ｑｕｉｐｅｄｅｖｉｓｉｏｎｎａｉｒｅｓ」は、ルックアップセグメントと同一の資産「６６６６６６」からであり、これが優先されるはずである。

６．同一資産からの複数のＩＣＥ一致がルックアップセグメントについて判定される場合には、資産内のルックアップセグメントの位置により近い位置を有するＩＣＥ一致が優先される。
この優先順位付けは、ルックアップセグメント１５４が、単一のソース資産１８０内の多数の位置に存在し、その結果として複数のＩＣＥ一致が特定の資産について存在する状況に対処するものである。たとえば、図４に、ルックアップセグメント「ｔｅａｍｏｆｖｉｓｉｏｎａｒｉｅｓ」１５４Ａ、１５４Ｂの２つの出現を含むソース資産１８０を示す。この場合に、ＩＣＥ一致プライオリタイザ１４６は、特定のルックアップセグメントの資産内の位置を評価し、同一資産からの他のＩＣＥ一致よりも、ルックアップセグメントの資産内の位置に最も近いＩＣＥ一致を優先する。言い換えると、第２優先が非決定的である場合に、資産内のルックアップセグメントの位置に最も近い位置を有するＩＣＥ一致が、他のＩＣＥ一致よりも優先される。位置のこの評価は、特定の資産内のルックアップセグメントの任意の回数の繰り返しについて繰り返すことができる。

したがって、優先順位付けは、まず複数のＩＣＥ一致の曖昧性を除去するために構造的文脈レベルと組み合わされたソース使用文脈レベル及びターゲット使用文脈レベルの一致を探すことを伴うことができる。この第１ステップが、ＩＣＥ一致の間の曖昧性除去に十分ではない場合には、ソース文脈レベルでの一致だけではなくソース使用文脈レベルとターゲット使用文脈レベルとの両方の一致を使用することができる。後使用文脈レベルではなく先行使用文脈レベルを次に使用することができ、これに、部分的ソース使用文脈又は部分的ターゲット使用文脈ではなくフルソース使用文脈又はフルターゲット使用文脈を続けることができる。上のステップが、複数のＩＣＥ一致の間で曖昧性除去を行えない場合には、資産文脈レベルを使用することができる。これが、それでも曖昧性除去に不十分である場合には、ルックアップセグメントの位置を使用することができる。

資産メタデータを、上のステップ又は類似するステップとの任意の組合せ及び／又は優先の順序で、曖昧性除去のための複数ＩＣＥ一致の優先順位付けで使用することができる。同様に、ファジイ一致の曖昧性を除去するときには、上のステップ又は類似するステップからの異なる優先順位付けの方式及び優先の順序を使用することができる。

上の優先順位付けステップ及びステップの順序付けは、例示のために与えられたものであり、優先順位付けステップの異なる組合せ及び順序を使用することができる。

優先順位付けが完了した後に、ステップＳ１２で、ＩＣＥ一致プライオリタイザ１４６は、任意の現在既知の又は今後に開発される形で、たとえばクライアントコンピュータシステム１５０のグラフィカルユーザインターフェースを介して、ユーザがランクに基づいてＩＣＥ一致を選択することを可能にし、或いは、最高優先順位のＩＣＥ一致を自動的に選択する。ＩＣＥ一致が選択された後に、システム１００は、セグメントリトリーバ１３８を介する少なくとも１つのターゲットテキスト１６２、１６４の取出を可能にする。

ＩＣＥ一致によってもたらされる高水準一致品質のゆえに、ＩＣＥ一致であると判定されるソーステキストは、翻訳者によって再検討又は妥当性検査される必要がない。これらのソーステキストを、自動的に受け入れることができ、したがって、翻訳サイクルタイムが減り、より安価な翻訳コストがもたらされる。さらに、システム１００は、内容に関して実質的に同一である複数のルックアップセグメント１５４が単一のソース資産１８０内に存在する状況に対処する。この場合に、システム１００は、マッチングレベルに基づいてルックアップセグメント１５４ごとにＩＣＥ一致を判定することができる。通常、少なくとも１つのルックアップセグメントが、この判定において助けるために、少なくとも１つの他のルックアップセグメントとは異なるＩＣＥ一致を有する。そうでない場合には、複数のＩＣＥ一致を、上で説明したように選択のためにユーザに報告することができる。システム１００は、内容のセクションの翻訳をも容易にし、この翻訳は、内容のセグメントが分割され若しくは合併されるときであっても一致を取り出すこと及び／又は内容ブロックを単一の資産内で異なって翻訳することを可能にすることを限定なしに含んで、最小限の労力で異なる資産にまたがって繰り返される。

上で説明した動作は、ＴＭ１２８に対するソース資産１８０のさらなるルックアップセグメントの処理を継続し、或いは、資産全体が完了した後にユーザに出力を供給することができる。

Ｄ．ターゲット使用文脈レベル
上で説明した本発明の実施形態は、主に、ソース使用文脈レベルである使用文脈レベルすなわち、ソース言語の翻訳されるテキストを取り巻くテキストに関連する使用文脈を含む。しかし、本発明の他の実施形態は、ターゲット使用文脈レベルである使用文脈レベルすなわち、ターゲット言語の翻訳されるテキストの翻訳を取り巻くテキストに関連する使用文脈を含む。

ソースｓ（ｇ）及び翻訳ｔ（ｇ）を伴う現行セグメントｇがあり、ｔ（ｇ）がルックアップセグメントの所望の翻訳であると考えられたい。翻訳メモリが、ソースｓ（ｇ）について複数の正確一致ｔ^＊（ｇ）を含む場合には、ルックアップセグメントの使用文脈を、複数の正確一致の間での曖昧性除去のために検討することができる、すなわち、使用文脈は、現行使用文脈内で最もよくあてはまるｔ^＊（ｇ）内の翻訳ｔ（ｇ）を選択するために使用される。そのセグメントに先行する（２か国語）セグメントがセグメントｆであり、ｓ（ｆ）が先行セグメントのソースであり、ｔ（ｆ）が先行セグメントのターゲットであり、現行セグメントに続く（後）セグメントがセグメントｈであり、ソースｓ（ｈ）及び翻訳ｔ（ｈ）を伴う場合には。

したがって、上で説明した本発明の実施形態によれば、先行ソース使用文脈レベルｓ（ｆ）及び後ソース使用文脈レベルｓ（ｈ）は、翻訳ｔ^＊（ｓ）の間の曖昧性除去に使用される。しかし、本発明の他の実施形態は、その代わりに又はそれに加えて、ターゲットソース使用文脈レベルすなわち、先行する及び／又は後のターゲット文脈レベルｔ（ｆ）及び使用可能な場合にｔ（ｈ）を使用して、翻訳ｔ^＊（ｇ）の間の曖昧性を除去することができる。

ソース使用文脈レベルを使用する曖昧性除去とターゲット使用文脈レベルを使用する曖昧性除去との間の上記の差を、これから例によって説明する。

ある文書が、
Ｔｈｅｃａｔｓｌｅｅｐｓ．Ｉｔｉｓｃｕｔｅ．Ｉｔｐｕｒｒｓ．
という３つの文の形の３つのセグメントを含むとする。

その場合に、ドイツ語への第２セグメントの翻訳すなわちドイツ語の“Ｉｔｉｓｃｕｔｅ．”が望まれると仮定し、さらに、第１セグメントの翻訳が既にわかっている（“ＤｉｅＫａｔｚｅｓｃｈｌａｅｆｔ．”）と仮定すると、ソース使用文脈に従う潜在的翻訳ｔ^＊（ｇ）＝｛“Ｓｉｅｉｓｔｎｉｅｄｌｉｃｈ．”，“Ｅｒｉｓｔｎｉｅｄｌｉｃｈ．”，“Ｅｓｉｓｔｎｉｅｄｌｉｃｈ．”｝の間の曖昧性除去は、ソース言語の翻訳されるセグメントを取り巻く２つのセグメントすなわち、先行セグメントｓ（ｆ）＝“Ｔｈｅｃａｔｓｌｅｅｐｓ．”及び後セグメントｓ（ｈ）＝“Ｉｔｐｕｒｒｓ．”に基づくことだけができる。

対照的に、ソース使用文脈レベル及びターゲット使用文脈レベルの組合せに従う潜在的翻訳訳ｔ^＊（ｇ）＝｛“Ｓｉｅｉｓｔｎｉｅｄｌｉｃｈ．”，“Ｅｒｉｓｔｎｉｅｄｌｉｃｈ．”，“Ｅｓｉｓｔｎｉｅｄｌｉｃｈ．”｝の間の曖昧性除去は、ソース言語の翻訳されるセグメントに先行するセグメントｓ（ｆ）＝“Ｔｈｅｃａｔｓｌｅｅｐｓ．”に基づき、ターゲット言語の翻訳されるセグメントに先行するセグメントｔ（ｆ）＝“ＤｉｅＫａｔｚｅｓｃｈｌａｅｆｔ．”にも基づくものとすることができる。

多くの状況で、ターゲット及びソースの使用文脈曖昧性除去の組合せの使用は、ソース使用文脈だけを基礎とする曖昧性除去より改善された結果をもたらすことができる。本発明の他の実施形態では、ターゲット使用文脈を使用し、ソース使用文脈を使用しないものとすることができる。

上で、ｔ（ｈ）が、主に完全を期して含まれることに留意されたい。現実には、翻訳者は文書を通って逐次的に作業し、したがって、ｔ（ｈ）は、続くセグメントが翻訳され終わるまで一般に入手可能ではないので、続くセグメントの翻訳は、しばしば未知であり、したがって、曖昧性除去には使用できない。

Ｅ．翻訳メモリの生成
ＴＭエントリに関する文脈情報の存在は、システム１００動作のために必要である。したがって、本発明の実施態様は、ＴＭに追加されるすべての新しい翻訳と共に文脈情報が格納されることを必要とする。これは、以前に翻訳された文書へのアクセスを必要とせずに、ルックアップセグメントの文脈情報を以前に翻訳されたセグメントの文脈情報と効率的に比較することを可能にする。

このために、もう１つの実施形態では、本発明は、翻訳がＴＭ１２８に保存される時に文脈情報が各翻訳と一緒に格納され、したがって、本発明が機能するために翻訳者が以前に翻訳した文書などのファイルを手元に置き続けることを必要としない形を提供する。図５に移ると、本発明は、ＴＭ１２８にソーステキスト及びターゲットテキストの翻訳対を格納する方法をも含む。第１ステップＳ１００では、ＴＭジェネレータ１３６を使用して、文脈を翻訳対に割り当てる。文脈は、たとえば、内容の作成中の上で説明したＳＩＤの実施によって、又は翻訳パス中のハッシュアルゴリズム１３３の動作を介して、割り当てることができる。次に、ステップＳ１０１では、ＴＭジェネレータ１３６によって、文脈を翻訳対と共にＴＭ１２８に格納する。上で説明したように、文脈は、使用文脈レベル（先行、後、ソース、ターゲットの任意の組合せ）、構造的文脈レベル、及び資産文脈レベルのうちの１つ又は複数を含むことができる。

上で説明したＴＭ生成を、資産（セグメント）が作成される時にクライアント側システム１５０上で実施することもできることを了解されたい。この実施形態では、本発明は、ＴＭ１２８を含む翻訳システム（すなわち、他のコンテンツ管理システム構成要素１４０と一緒のシステム１００）と対話するクライアント側システム１５０を含む。図１及び６に移ると、この場合に、クライアント側システム１５０は、ＴＭ１２８によって翻訳されるセグメント１５２にセグメント識別子（ＳＩＤ）を割り当てる（ステップＳ２００）ためにＳＩＤアサイナ２００を設けることによって動作することができ、ＳＩＤは、セグメントの使用文脈を示す。ＳＩＤアサイナ２００は、ユーザが所定のＳＩＤを関連付けることを可能にすることができ、或いは、ＳＩＤは、たとえばハッシュアルゴリズム１３３を使用して生成されてもよい。さらに、システム１５０は、たとえばシステム１００のＴＭジェネレータ１３６によって、ＴＭ１２８の一部として格納されるためにＳＩＤ割当を通信する（ステップＳ２０１）コミュニケータ２０２を含むことができる。

Ｖ．結論
上で説明した発明は、ソース内容をＴＭの内容と完全に照合する能力を翻訳者に与え、ソース内容をＴＭに関して妥当性検査する必要を軽減し、真に再利用可能なＴＭシステムを作成することによって、翻訳者に価値を提供し、これによって、より効率的な翻訳プロセスを可能にする。

上で説明したステップの順番が、例示にすぎないことを理解されたい。この範囲までで、１つ又は複数のステップを、並列に、異なる順序で、離れた時になどで実行することができる。さらに、本発明のさまざまな実施形態で、ステップのうちの１つ又は複数を実行されないものとすることができる。

本発明を、ハードウェア、ソフトウェア、伝搬される信号、又はその任意の組合せで実現でき、図示とは異なって区分できることを理解されたい。すべての種類のコンピュータ／サーバシステム（１つ又は複数）又は本明細書で説明される方法を実行するように適合された他の装置が、適切である。ハードウェア及びソフトウェアの通常の組合せは、ロードされ実行される時に本明細書に記載のそれぞれの方法を実行するコンピュータプログラムを伴う汎用コンピュータシステムとすることができる。その代わりに、本発明の機能タスクのうちの１つ又は複数を実行するための特殊化されたハードウェアを含む特定用途コンピュータ（たとえば、システム１００）を利用することができる。本発明を、コンピュータプログラム製品又は伝搬される信号内で実施することもでき、このコンピュータプログラム製品又は伝搬される信号は、本明細書に記載の方法の実施を可能にするすべてのそれぞれの特徴を含み、コンピュータシステムにロードされた時にこれらの方法を実行することができる。コンピュータプログラム、伝搬される信号、ソフトウェアプログラム、プログラム、又はソフトウェアは、現在の文脈では、（ａ）別の言語、コード、若しくは表記への変換、及び／又は（ｂ）異なる材料形態での再作成のいずれか若しくは両方の後に又は直接にのいずれかで、情報処理機能性を有するシステムに特定の機能を実行させることを意図された命令のセットの、任意の言語、コード、又は表記での任意の表現を意味する。さらに、本発明の教示を、加入契約又は料金を基礎とするビジネスメソッドとして提供できることを了解されたい。たとえば、システム及び／又はコンピュータを、顧客のために本明細書に記載の機能を提供するサービスプロバイダによって作成し、維持し、サポートし、及び／又は展開することができる。すなわち、サービスプロバイダは、上で説明した機能性を提供することができる。

本発明を、その趣旨又は本質的特性から逸脱せずに他の特定の形で実施することができる。上で説明した実施形態が、単純に例示であり、本発明の原理に関して制限的ではないことを理解されたい。本発明の原理を実施し、本発明の趣旨及び範囲に含まれるさまざまな及び他の修正及び変更を、当業者が行うことができ、したがって、特許請求の範囲の同等性の意味及び範囲に含まれるすべての変更は、特許請求の範囲に含まれることが意図されている。

１００文脈内正確一致翻訳システム
１０２コンピュータ
１１２メモリ
１１４処理ユニット
１１６Ｉ／Ｏインターフェース
１１８バス
１２０Ｉ／Ｏデバイス
１２２ストレージシステム
１２８翻訳メモリ
１３０正確一致デターミナ
１３２ＩＣＥ一致デターミナ
１３３ハッシュアルゴリズム
１３４ファジイ一致デターミナ
１３６ＴＭジェネレータ
１３８セグメントリトリーバ
１４０他のシステム構成要素
１４２文脈アイデンティファイヤ
１４４ＩＣＥ一致エバリュエータ
１４６ＩＣＥ一致プライオリタイザ
１４８ＴＭエントリ
１５０クライアント側システム
１５２ソーステキスト
１５４ルックアップセグメント
１６２ターゲットテキスト
１６４ターゲットテキスト
１６６文脈識別
１６８ソース使用文脈部分
１７０資産文脈部分
１７２先行ＵＣハッシュコード
１７４後ＵＣハッシュコード
１８０ソース資産
１９０直接に先行するセグメント
１９２直接に続くセグメント
２００ＳＩＤアサイナ
２０２コミュニケータ

Claims

翻訳されるルックアップセグメントに対する翻訳メモリに格納された複数のソーステキストのマッチングレベルを判定する方法であって、
前記複数のソーステキスト内の前記ルックアップセグメントのすべての正確一致を判定するステップと、
少なくとも１つの正確一致が判定される場合に、前記ルックアップセグメントの文脈がそれぞれの正確一致の文脈と一致するとき、前記それぞれの正確一致が前記ルックアップセグメントの文脈内正確（ＩＣＥ）一致であると判定するステップと
を含み、
前記文脈が、少なくとも２つのレベルを含み、
前記少なくとも２つのレベルが、ソース使用文脈レベル及びターゲット使用文脈レベルを含む、方法。
複数のＩＣＥ一致が判定される場合に、ＩＣＥ一致を判定する前記ステップが、より適切なＩＣＥ一致が１つ又は複数の他のＩＣＥ一致より優先され得るようにするために、文脈マッチングの度合に従って各ＩＣＥ一致に優先順位を付けることを含む、請求項１に記載の方法。
前記ルックアップセグメントのソース使用文脈レベルとターゲット使用文脈レベルとの両方と一致するソース使用文脈レベルとターゲット使用文脈レベルとの両方とを有するＩＣＥ一致が、前記ルックアップセグメントのソース使用文脈レベルと一致するソース使用文脈レベルのみを有するＩＣＥ一致より高い度合の文脈マッチングがあるとされる、請求項１又は２に記載の方法。
前記ルックアップセグメントのターゲット使用文脈レベルと一致するターゲット使用文脈レベルを有するＩＣＥ一致が、前記ルックアップセグメントのソース使用文脈レベルと一致するソース使用文脈レベルのみを有するＩＣＥ一致より高い度合の文脈マッチングがあるとされる、請求項１〜３のいずれか一項に記載の方法。
前記ソース使用文脈レベルが、先行ソース使用文脈レベルを含み、及び／又は前記ターゲット文脈使用レベルが、先行ターゲット使用文脈レベルを含む、請求項１〜４のいずれか一項に記載の方法。
前記ソース使用文脈レベルが、後ソース使用文脈レベルを含み、及び／又は前記ターゲット文脈使用レベルが、後ターゲット使用文脈レベルを含む、請求項１〜５のいずれか一項に記載の方法。
前記少なくとも２つのレベルが、構造的文脈レベルを含む、請求項１〜６のいずれか一項に記載の方法。
複数のＩＣＥ一致が判定される場合に、ＩＣＥ一致を判定する前記ステップが、より適切なＩＣＥ一致が１つ又は複数の他のＩＣＥ一致より優先され得るようにするために、文脈マッチングの度合に従って各ＩＣＥ一致に優先順位を付けるステップを含み、
前記ソース使用文脈レベルが、先行ソース使用文脈レベルを含み、前記ターゲット文脈使用レベルが、先行ターゲット使用文脈レベルを含み、
前記ルックアップセグメントの先行ソース使用文脈レベル及び／又は先行ターゲット使用文脈レベルと一致する先行ソース使用文脈レベル及び／又は先行ターゲット使用文脈レベルを有するＩＣＥ一致が、前記ルックアップセグメントの構造的文脈レベルと一致する構造的文脈レベルのみを有するＩＣＥ一致より高い度合の文脈マッチングがあるとされる、請求項１〜７のいずれか一項に記載の方法。
ＩＣＥ一致を判定する前記ステップは、前記ルックアップセグメントの複数の文脈レベルがそれぞれの正確一致の文脈レベルと一致する場合に限って、前記それぞれの正確一致が前記ルックアップセグメントのＩＣＥ一致であることを示す、請求項１〜８のいずれか一項に記載の方法。
ＩＣＥ一致を判定する前記ステップは、前記ルックアップセグメントの少なくとも１つの使用文脈レベル及び構造的文脈レベルがそれぞれの正確一致の少なくとも１つの使用文脈レベル及び構造的文脈レベルと一致する場合に限って、前記それぞれの正確一致が前記ルックアップセグメントのＩＣＥ一致であることを示す、請求項１〜９のいずれか一項に記載の方法。
前記少なくとも１つの使用文脈レベルが、先行ターゲット使用文脈レベルを含む、請求項１０に記載の方法。
前記少なくとも１つの使用文脈レベルが、先行ソース使用文脈レベルを含む、請求項１０に記載の方法。
複数のＩＣＥ一致が判定される場合に、ＩＣＥ一致を判定する前記ステップが、より適切なＩＣＥ一致が１つ又は複数の他のＩＣＥ一致より優先され得るようにするために、文脈一致の度合に従って各ＩＣＥ一致に優先順位を付けるステップを含み、
前記優先順位を付けるステップが、
前記ルックアップセグメントのソース使用文脈レベル、ターゲット使用文脈レベル、及び構造文脈レベルと一致するソース使用文脈レベル、ターゲット使用文脈レベル、及び構造文脈レベルを有するＩＣＥ一致を第１に優先するステップ
を含む、請求項１〜１２のいずれか一項に記載の方法。
第１に優先する前記ステップが、非決定的である場合に、前記ルックアップセグメントのソース使用文脈レベル及びターゲット使用文脈レベルと一致するソース使用文脈レベル及びターゲット使用文脈レベルを有するＩＣＥ一致を第２に優先するステップを含む、請求項１３に記載の方法。
前記ソース文脈レベルが、先行ソース使用文脈レベルであり、前記ターゲット使用文脈レベルが、先行ターゲット使用文脈レベルである、請求項１３又は１４に記載の方法。
第２に優先する前記ステップが、非決定的である場合に、前記ルックアップセグメントの後ソース使用文脈レベル又は後ターゲット使用文脈レベルと一致する後ソース使用文脈レベル又は後ターゲット使用文脈レベルのいずれかのみを有するＩＣＥ一致よりも、前記ルックアップセグメントの先行ソース使用文脈レベル又は先行ターゲット使用文脈レベルと一致する先行ソース使用文脈レベル又は先行ターゲット使用文脈レベルのいずれかを有するＩＣＥ一致を第３に優先するステップを含む、請求項１４に記載の方法。
第３に優先する前記ステップが、非決定的である場合に、前記ルックアップセグメントの構造的文脈レベルと一致する構造的文脈レベルのみを有するＩＣＥ一致よりも、前記ルックアップセグメントの任意の使用文脈レベルと一致する使用文脈レベルを有するＩＣＥ一致を第４に優先するステップを含む、請求項１６に記載の方法。
第４に優先する前記ステップが、非決定的である場合に、前記ルックアップセグメントの構造的文脈レベルとは異なる構造的文脈レベルを有するＩＣＥ一致よりも、前記ルックアップセグメントの構造的文脈レベルと一致する構造的文脈レベルを有するＩＣＥ一致を第５に優先するステップを含む、請求項１７に記載の方法。
第５に優先する前記ステップが、非決定的である場合に、資産内の前記ルックアップセグメントの位置に最も近い位置を有するＩＣＥ一致を第６に優先するステップを含む、請求項１８に記載の方法。
ユーザが優先順位付けに基づいて前記ＩＣＥ一致を選択することを可能にするステップをさらに含む、請求項２〜１９のいずれか一項に記載の方法。
前記ルックアップセグメントが、内容に関して実質的に同一である複数のルックアップセグメントを含み、
ＩＣＥ一致を判定する前記ステップが、ルックアップセグメントごとにＩＣＥ一致を判定するステップを含む、請求項１〜２０のいずれか一項に記載の方法。
前記少なくとも１つのルックアップセグメントが、少なくとも１つの他のルックアップセグメントとは異なるＩＣＥ一致を有する、請求項２１に記載の方法。
翻訳されるルックアップセグメントに対する翻訳メモリに格納された複数のソーステキストのマッチングレベルを判定するシステムであって、
前記複数のソーステキスト内の前記ルックアップセグメントのすべての正確一致を判定する手段と、
少なくとも１つの正確一致が判定される場合に、前記ルックアップセグメントの文脈がそれぞれの正確一致の文脈と一致するとき、前記それぞれの正確一致が前記ルックアップセグメントの文脈内正確（ＩＣＥ）一致であると判定する手段と
を備え、
前記文脈が、少なくとも２つのレベルを含み、
前記少なくとも２つのレベルが、ソース使用文脈レベル及びターゲット使用文脈レベルを含む、システム。
翻訳メモリ内にソーステキスト及びターゲットテキストの翻訳単位を格納する方法であって、
前記翻訳単位に文脈を割り当てるステップであって、前記文脈が、少なくとも２つのレベルを含み、前記少なくとも２つのレベルが、ソース使用文脈レベル及びターゲット使用文脈レベルを含む、ステップと、
前記翻訳単位と共に前記文脈を格納するステップと
を含む方法。
翻訳メモリ内にソーステキスト及びターゲットテキストの翻訳単位を格納するシステムであって、
前記翻訳単位に文脈を割り当てる手段であって、前記文脈が、少なくとも２つのレベルを含み、前記少なくとも２つのレベルが、ソース使用文脈レベル及びターゲット使用文脈レベルを含む、手段と、
前記翻訳単位と共に前記文脈を格納する手段と
を含むシステム。
ルックアップセグメントとの比較のための複数のソーステキストと、
ソーステキストごとの文脈識別子と、
を備え、前記文脈識別子が、ソース使用文脈部分及びターゲット使用文脈部分を含む、翻訳メモリ。
前記ソース使用文脈部分及び／又はターゲット使用文脈部分が、先行使用文脈部分及び／又は後使用文脈部分を備える、請求項２６に記載の翻訳メモリ。
前記文脈識別子が、構造的文脈部分を備える、請求項２６又は２７に記載の翻訳メモリ。
翻訳メモリを含む翻訳システムと対話するクライアント側システムであって、
前記翻訳システムによって翻訳されるセグメントにセグメント識別子を割り当てる手段であって、前記セグメント識別子が、前記セグメントのソース使用文脈及びターゲット使用文脈を示す、手段と、
前記翻訳メモリの一部としての格納のために前記セグメント識別子割当を通信する手段と
を備えるクライアント側システム。
前記セグメント識別子が、構造的文脈を備える、請求項２９に記載のクライアント側システム。
翻訳されるルックアップセグメントに対する翻訳メモリに格納された複数のソーステキストのマッチングレベルを判定する方法であって、
前記複数のソーステキスト内の前記ルックアップセグメントのすべてのファジイ一致を判定するステップと、
少なくとも１つのファジイ一致が判定される場合に、前記ルックアップセグメントの文脈がそれぞれのファジイ一致の文脈と一致するとき、前記それぞれのファジイ一致が前記ルックアップセグメントの文脈内ファジイ一致であると判定するステップと
を含む方法。
前記判定されたファジイ一致が、同一の度合のファジイマッチングを有するファジイ一致を含む、請求項３１に記載の方法。
前記文脈が、構造的文脈を含む、請求項３１又は３２に記載の方法。
翻訳されるルックアップセグメントに対する翻訳メモリに格納された複数のソーステキストのマッチングレベルを判定するシステムであって、
前記複数のソーステキスト内の前記ルックアップセグメントのすべてのファジイ一致を判定する手段と、
少なくとも１つのファジイ一致が判定される場合に、前記ルックアップセグメントの文脈がそれぞれのファジイ一致の文脈と一致するとき、前記それぞれのファジイ一致が前記ルックアップセグメントの文脈内ファジイ一致であると判定する手段と
を含むシステム。
請求項１、２４、又は３１のいずれか一項に記載の方法を実行するように適合されたコンピュータソフトウェア。