JP2011095841A - 文脈内正確(ice)一致 - Google Patents

文脈内正確(ice)一致 Download PDF

Info

Publication number
JP2011095841A
JP2011095841A JP2009246729A JP2009246729A JP2011095841A JP 2011095841 A JP2011095841 A JP 2011095841A JP 2009246729 A JP2009246729 A JP 2009246729A JP 2009246729 A JP2009246729 A JP 2009246729A JP 2011095841 A JP2011095841 A JP 2011095841A
Authority
JP
Japan
Prior art keywords
context
match
level
source
ice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009246729A
Other languages
English (en)
Other versions
JP5473533B2 (ja
Inventor
Russ Ross
ロス ラス
Kevin Gillespie
ギルスピー ケヴィン
Mills Keith
ミルズ キース
Mark Lancaster
ランカスター マーク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SDL PLC
Original Assignee
SDL PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SDL PLC filed Critical SDL PLC
Priority to JP2009246729A priority Critical patent/JP5473533B2/ja
Publication of JP2011095841A publication Critical patent/JP2011095841A/ja
Application granted granted Critical
Publication of JP5473533B2 publication Critical patent/JP5473533B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】文脈に関して翻訳メモリ内の複数のソーステキストとのテキストルックアップセグメントのマッチングレベルを判定する方法を提供すること。
【解決手段】本発明は、複数のソーステキスト内のルックアップセグメントに関するすべての正確一致を判定し、少なくとも1つの正確一致が判定される場合に、ルックアップセグメントの文脈がそれぞれの正確一致の文脈と一致する場合に、それぞれの正確一致がルックアップセグメントの文脈内正確一致であると判定する。必要な文脈マッチングの度合は、事前に決定することができ、結果に優先順位を付けることができる。本発明は、文脈を含めて、翻訳メモリにソーステキスト及びターゲットテキストの翻訳対を格納する方法、システム、及びプログラム製品、並びにそのように形成された翻訳メモリをも含む。内容が、以前に翻訳された内容と同一に翻訳され、翻訳者介入を減らす。
【選択図】図1

Description

本発明は、全般的には内容の処理に関し、より具体的には、内容に関連する翻訳及び他の処理機能を単純にするか他の形で容易にするために文脈を含むソース内容との正確な翻訳一致を保証することに関する。
情報が、特にインターネット及びワールドワイドウェブの出現及びすばやい利用を与えられれば、グローバルな基礎でよりアクセス可能になるので、翻訳の役割は、ソーステキストからターゲット言語への単純な筆写から離れて変化してきた。翻訳者は、現在、指定された場所及び顧客への翻訳された内容のタイムリーで正確な展開を保証しなければならない。したがって、内容翻訳に関する高まる需要は、多数の会社に翻訳プロセスの一部を自動化しこれを助けるツールを開発するように促してきた。翻訳者ができる限り早く内容を翻訳することを求めると仮定すると、翻訳を、以前の翻訳を将来の使用のために保存するソフトウェア機能性及び能力におけるより高い柔軟性を用いて、より効率的にすることができる。したがって、翻訳のブロック及び/又はセグメント(「翻訳メモリ」すなわち「TM」)を含む翻訳をコンピュータメモリ内に保存するツールが作成されてきた。
翻訳データベースとしても知られる翻訳メモリは、ソーステキストが1つ又は複数のターゲット言語でのそれに対応する翻訳に関連付けられるエントリのコレクションである。翻訳メモリは、現在のテキスト及び将来に翻訳されるテキストと共に使用するために取り出され得るテキストセグメントのソース言語/ターゲット言語対を格納するデータベースを含む。通常、TMは、翻訳ツール内で使用され、翻訳者がセグメントを「オープン」する時に、アプリケーションは、同等のソーステキストについてデータベースをルックアップする。その結果は、通常、文書内のソーステキストとTM内のソーステキストとの間の類似性のパーセンテージを表すスコアを用いてランキングされた一致のリストである。翻訳者又は異なるTMシステムは、最終結果が高品質翻訳になるようにするために、ルックアップセグメントと対にされるターゲットテキストセグメントを提供する。
二か国語及び多種言語の辞書、文法チェッカ、スペルチェッカ、並びに用語ソフトウェアなど、多数のコンピュータ支援翻訳(「CAT」)ツールが、翻訳者を支援するために使用可能であるが、TMは、これらの他のCATツールを利用すると同時に、正確マッチング及びファジイマッチングを介して、そのデータベースに格納されたオリジナルソース文書を更新された文書又は改訂された文書とマッチアップすることによって、一歩先んじる。正確一致(100%一致)とは、文書内のソーステキストとTM内のソーステキストとの間に差がない(或いは、ツールによって自動的に処理できない差がない)一致である。ファジイ一致(100%未満の一致)とは、文書内のソーステキストがTM内のソーステキストに非常に似ているが正確に同一ではない一致である。複製された正確一致は、しばしば、ファジイ一致としても扱われる。TMシステムは、翻訳者の助けとして使用され、人間の翻訳者のテキストを将来の使用のためにデータベースに格納する。たとえば、翻訳者が、オリジナルテキストを翻訳し、翻訳メモリを使用して対になったソースセグメント及びターゲットセグメントを格納する時に、TMを利用することができる。次に、翻訳者は、格納されたテキストを再利用して、そのテキストの改訂又は更新された版を翻訳することができる。新しいテキストのうちで古いテキストと一致しないセグメントだけが、翻訳されなければならない。代替案は、手動翻訳システム又は異なるCATシステムを使用して、オリジナルテキストを翻訳することである。その後、TMシステムを翻訳者が使用して、翻訳者又は他のCATシステムによって作られたテキストを位置合せし、これらを現在及び将来の作業のためにTMデータベースに格納することによって、改訂又は更新を翻訳することができる。次に、翻訳者は、上で説明したようにTMを使用して、新しいテキストのセグメントだけの翻訳に進むことができる。
TMの使用には、多数の利益がある。翻訳を、はるかにより高速に進めることができ、既存翻訳の不必要な再入力を避けることができ、及び/又は翻訳者がテキストのある部分だけを変更することを可能にすることができる。TMは、翻訳の品質のよりよい制御をも可能にする。関連技術では、TMは、非常に大規模なプロジェクトで翻訳ステップを高速化するのに使用された。たとえば、ソフトウェア会社が、そのソフトウェア製品のバージョン1を公開し、添付ドキュメンテーションを翻訳する必要がある場合がある。ドキュメンテーションは、文に分解され、すべての文対がTMに取り込まれる状態で翻訳される。2年後、その会社が、そのソフトウェアのバージョン2を公開する。ドキュメンテーションは、大幅に変更されているが、オリジナルドキュメンテーションに類似するかなりの部分もある。今回は、翻訳者がドキュメンテーションを翻訳する時に、翻訳者の作業は、TMからの完全一致及びファジイ一致を活用することを介して減らされる。この例によって示されるように、TMは、通常、パイプラインプロセス内で援助として使用される。関連技術では、TMの利用に関するいくつかの制限もある。
正確一致を使用する(それらの妥当性検査なしで)翻訳の自動活用は、正しくない翻訳を生成する可能性がある。というのは、オリジナルセグメントが使用された文脈と比較した新しいセグメントが使用される文脈の検証がないからである。これが、再利用とリサイクリングとの間の差である。関連技術では、TMシステムは、リサイクリングシステムである。ウェブコンテンツに関して、及びここでは多数のタイプの内容に関して、文書が翻訳され、その後、些細な変更が行われ、その後、もう一度翻訳する必要があることが一般的である。たとえば、製品の利益をリストしたウェブ文書が翻訳される場合があり、その後、新しい利益が追加される場合があり、したがって、その文書はもう一度翻訳される必要があるはずである。関連技術では、TMは、2回目に文書を翻訳する労力を減らす。ソーステキストがTM内の1つ又は複数のエントリと同一である場合には、ほとんどの文について正確一致が存在する。次に、翻訳者は、文脈情報に対する一致の適切性を評価することによって、それぞれについて正しい正確一致が選択されたことを確認する。しかし、関連技術は、内容文脈の判定を提供しない。さらに、関連技術において、所与のセグメントについて最良の正確一致を正確に選択する、又は所与の正確一致がそれが適用されている文脈について適切な一致であるかどうかを妥当性検査する自動化されたプロセスはない。したがって、翻訳者が、一致を妥当性検査することが要求される。翻訳者が妥当性検査し、おそらくは少数の単語が変更された可能性があるにすぎない時にすべての文についてアクションを実行することが必要であるという事実は、関連技術の下でセグメントが異なる状況又は文脈の下で異なって翻訳され得ることを考慮すると、著しく非効率的である。
前述に鑑みて、所与の正確一致が、それが適用されている文脈に関して適切な一致であるかどうかを正確に妥当性検査する自動化されたプロセスの必要が、当技術分野にはある。
本発明の第1の態様によれば、翻訳されるルックアップセグメントに対する翻訳メモリに格納された複数のソーステキストのマッチングレベルを判定する方法であって、
複数のソーステキスト内のルックアップセグメントのすべての正確一致を判定するステップと、
少なくとも1つの正確一致が判定される場合に、ルックアップセグメントの文脈がそれぞれの正確一致の文脈と一致する場合にそれぞれの正確一致がルックアップセグメントの文脈内正確(in−context exact、ICE)一致であると判定するステップと
を含み、文脈が、少なくとも2つのレベルを含み、
少なくとも2つのレベルが、ソース使用文脈レベル及びターゲット使用文脈レベルを含む
方法が提供される。したがって、翻訳メモリが、特定のルックアップセグメントの出現について検索されるときに、複数の正確一致が見つかる場合には、本発明は、複数の正確一致の間での曖昧性除去を可能にする。曖昧性除去は、正確一致のそれぞれの文脈と比較したルックアップセグメントの文脈に従って実行される。あるセグメントの少なくとも1つの文脈レベルがルックアップセグメントの文脈レベルと一致する場合に、そのセグメントは、ICE一致である。ICE一致は、非ICE一致より関連する傾向がある。ICE一致を、ソース言語のソース使用文脈レベル及び/又はターゲット言語のターゲット使用文脈レベルなど、文脈の異なるレベルに従って識別することができる。
本発明の実施形態では、複数のICE一致が判定される場合に、ICE一致を判定するステップは、より適切なICE一致が1つ又は複数の他のICE一致より優先され得るようにするために、文脈マッチングの度合に従って各ICE一致に優先順位を付けることを含む。したがって、本発明は、複数の正確一致の曖昧性除去を可能にし、ここで、より高い優先順位のICE一致は、より低い優先順位のICE一致より関連する翻訳である傾向がある。
本発明の他の実施形態では、ルックアップセグメントのソース使用文脈レベルとターゲット使用文脈レベルとの両方と一致するソース使用文脈レベルとターゲット使用文脈レベルとの両方とを有するICE一致は、ルックアップセグメントのソース使用文脈レベルと一致するソース使用文脈レベルのみを有するICE一致より高い度合の文脈マッチングがあるとされる。組み合わされた一致するソース使用文脈及びターゲット使用文脈は、一致するソースターゲット使用文脈のみより関連する一致を示す傾向があり、したがって、前者は、後者より優先される。
本発明のさらなる構成では、ルックアップセグメントのターゲット使用文脈レベルと一致するターゲット使用文脈レベルを有するICE一致は、ルックアップセグメントのソース使用文脈レベルと一致するソース使用文脈レベルのみを有するICE一致より高い度合の文脈マッチングがあるとされる。ターゲット使用文脈は、一致するソースターゲット使用文脈だけより関連する一致を示す傾向があり、したがって、前者は、後者より高い優先順位を与えられる。
本発明の1つの構成では、ソース使用文脈レベルは、先行ソース使用文脈レベルを含み、及び/又はターゲット文脈使用レベルは、先行ターゲット使用文脈レベルを含む。ソース言語の現在翻訳されつつあるセグメント(現行セグメント)に先行するセグメント及びターゲット言語の現行セグメントに先行するセグメントの翻訳は、現行セグメントに続くソースセグメント及びターゲットセグメントが有するものより大きい影響を、翻訳されつつあるセグメントの翻訳に対して有する傾向があり、したがって、現行セグメントに先行するセグメントの文脈は、曖昧性除去の目的で重要と考えられる。
本発明の他の構成では、ソース使用文脈レベルは、後ソース使用文脈レベルを含み、及び/又はターゲット文脈使用レベルは、後ターゲット使用文脈レベルを含む。ソース言語の現在翻訳されつつあるセグメント(現行セグメント)に続くセグメント及びターゲット言語の現行セグメントに続くセグメントの翻訳は、現在翻訳されつつあるセグメントの翻訳に影響を有する可能性があり、したがって、現行セグメントに続くセグメントの文脈を、現行セグメントに先行するセグメントの文脈の考慮に加えて又はその代わりにのいずれかで考慮することができる。
本発明のいくつかの実施形態では、少なくとも2つのレベルが、構造的文脈レベルを含む。(構造的文脈の意味に関する下の詳細な説明の「定義」セクションを参照されたい)。したがって、構造的文脈レベルを、使用文脈レベルに加えて、ICE一致の曖昧性除去で使用することができる。
本発明の構成では、複数のICE一致が判定される場合に、ICE一致を判定するステップが、より適切なICE一致が1つ又は複数の他のICE一致より優先され得るようにするために、文脈マッチングの度合に従って各ICE一致に優先順位を付けるステップを含み、
ソース使用文脈レベルが、先行ソース使用文脈レベルを含み、ターゲット文脈使用レベルが、先行ターゲット使用文脈レベルを含み、
ルックアップセグメントの先行ソース使用文脈レベル及び/又は先行ターゲット使用文脈レベルと一致する先行ソース使用文脈レベル及び/又は先行ターゲット使用文脈レベルを有するICE一致が、ルックアップセグメントの構造的文脈レベルと一致する構造的文脈レベルのみを有するICE一致より高い度合の文脈マッチングがあるとされる。一致する先行ソース使用文脈レベル及び先行ターゲット使用文脈レベルを用いる翻訳は、構造的文脈マッチングだけを用いる翻訳より関連する傾向があり、したがって、前者は、後者より高い優先順位を与えられる。
本発明の実施形態では、ICE一致を判定するステップは、ルックアップセグメントの複数の文脈レベルがそれぞれの正確一致の文脈レベルと一致する場合に限って、それぞれの正確一致がルックアップセグメントのICE一致であることを示す。複数の文脈レベルでルックアップセグメントと一致するICE一致は、1つの文脈レベルでルックアップセグメントと一致するのみであるICE一致より適切な一致である可能性がより高く、したがって、本発明のいくつかの実施形態では、複数の文脈レベルマッチングを有するICE一致のみが、曖昧性除去のために検討される、すなわち、本発明のそのような実施形態では、複数の正確一致は、1つの文脈レベルだけがルックアップセグメントの文脈レベルと一致する(たとえば、構造的文脈のみ又はソース使用レベルのみ)場合には曖昧性除去されない。
本発明の構成では、ICE一致を判定するステップは、ルックアップセグメントの少なくとも1つの使用文脈レベル及び構造的文脈レベルがそれぞれの正確一致の少なくとも1つの使用文脈レベル及び構造的文脈レベルと一致する場合に限って、それぞれの正確一致がルックアップセグメントのICE一致であることを示す。使用文脈レベルと構造的文脈レベルとの両方のマッチングを有するICE一致は、ルックアップセグメントの関連する翻訳である傾向があり、したがって、そのようなICE一致は、曖昧性除去中に重要と考えられる。
本発明のもう1つの構成では、少なくとも1つの使用文脈レベルは、先行ターゲット使用文脈レベルを含む。ターゲット言語の現在翻訳されつつあるセグメントに先行するセグメントは、一般に、関連する翻訳の非常によい表示であり、したがって、先行ターゲット使用文脈レベル一致が、優先的に優先順位を与えられる。本発明の好ましい実施形態では、曖昧性除去は、ソース使用文脈レベルと組み合わされたターゲット使用文脈レベルを基礎として実行される。
本発明のさらにもう1つの構成では、少なくとも1つの使用文脈レベルは、先行ソース使用文脈レベルを含む。ソース言語の現在翻訳されつつあるセグメントに先行するセグメントは、一般に、関連する翻訳のよい表示であり、したがって、先行ソース使用連絡先レベル一致に、その代わりに優先順位を与えることができる。
本発明の実施形態では、複数のICEが一致判定される場合に、ICE一致を判定するステップが、より適切なICEが1つ又は複数の他のICE一致より優先され得るようにするために、文脈一致の度合に従って各ICE一致に優先順位を付けることを含む。優先順位を付けるステップは、ルックアップセグメントに関する最も適切な一致を見つけるために順次考慮することのできる複数の異なる優先するステップを含むことができる。第1ステップは、ルックアップセグメントのソース使用文脈レベル、ターゲット使用文脈レベル、及び構造文脈レベルと一致するソース使用文脈レベル、ターゲット使用文脈レベル、及び構造文脈レベルを有するICE一致を第1に優先するステップを含むことができる。第2ステップは、ルックアップセグメントのソース使用文脈レベル及びターゲット使用文脈レベルと一致するソース使用文脈レベル及びターゲット使用文脈レベルを有するICE一致を第2に優先するステップを含むことができる。好ましくは、ソース文脈レベルは、先行ソース使用文脈レベルであり、ターゲット使用文脈レベルは、先行ターゲット使用文脈レベルである。第3ステップは、ルックアップセグメントの後ソース使用文脈レベル又は後ターゲット使用文脈レベルと一致する後ソース使用文脈レベル又は後ターゲット使用文脈レベルのいずれかのみを有するICE一致よりも、ルックアップセグメントの先行ソース使用文脈レベル又は先行ターゲット使用文脈レベルと一致するルックアップセグメントの先行ソース使用文脈レベル又は先行ターゲット使用文脈レベルのいずれかを有するICE一致を第3に優先するステップを含むことができる。第4ステップは、ルックアップセグメントの構造的文脈レベルと一致する構造的文脈レベルのみを有するICE一致よりも、ルックアップセグメントの使用文脈レベルと一致する任意の使用文脈レベルを有するICE一致を第4に優先するステップを含むことができる。第5ステップは、ルックアップセグメントの異なる構造的文脈レベルを有するICE一致よりも、ルックアップセグメントの構造的文脈レベルと一致する構造的文脈レベルを有するICE一致を第5に優先するステップを含むことができる。第6ステップは、資産内のルックアップセグメントの位置に最も近い位置を有するICE一致を第6に優先するステップを含むことができる。
資産内の位置は、セグメント番号を基礎として判定することができ、ここで、資産内のセグメントに連続して番号を付けることができ、番号をそれぞれのセグメント識別子として使用することができる。代替案では、位置を、資産内の行番号又は単語番号を基礎として判定することができる。さらに、構造的使用文脈を、資産内の位置の形として、すなわち、一致が「見出し」、「表のセル」、「段落」、「脚注」などの中で発生するかどうかを基礎としてそのような位置を示すと解釈することができる。
ある優先するステップが、決定的な結果をもたらす場合には、曖昧性除去手順が終了し、そうでない場合には、この手順は、連続するステップに進み、優先される一致の形の決定的結果に達するまで同様である。本発明の他の実施形態は、上の優先するステップの一部又はすべてを異なる順序で含むことができ、上の優先するステップの代わりに又はこれに加えてのいずれかで、他の優先するステップと組み合わされてもよい。
本発明の実施形態は、ユーザが優先順位付けに基づいてICE一致を選択することを可能にするステップをさらに含む。したがって、ICE一致が自動的に選択され、翻訳された文書に挿入されるのではなく、ICE一致をユーザに表示することができ、ユーザは、表示されたICE一致のランクを基礎としてICE一致を選択することができる。さらに、ICE一致に、一致する文脈レベルの個数及び/又は一致する文脈レベルのタイプ(ソース、ターゲット、後、先行、構造など)に従ってランクを付け、表示することができる。
本発明の実施形態では、ルックアップセグメントは、内容に関して実質的に同一である複数のルックアップセグメントを含み、ICE一致を判定するステップは、ルックアップセグメントごとにICE一致を判定するステップを含む。したがって、複数のセグメントを、必要な全体的処理を減らすために、バッチで一緒に又は実質的に同時に処理することができる。翻訳されるセグメントのバッチが処理される時に、次のセグメントのICEレベルを判定できるようにするために、ヒューリスティックベースの手法を適用して、セグメントの「最良」翻訳を選択するのを助けることができる(ターゲット使用文脈が考慮に入れられる時に)。1つのそのような手法を、オプションでセグメント位置、最後の翻訳の日付、資産メタデータその他などのフォールバック機構と組み合わされる、最良ICE一致又は単一の正確一致の使用とすることができる。ヒューリスティックベースの手法は、翻訳者との対話がほとんど又は全くないシナリオで有用であり、この場合に、翻訳システムは、曖昧性除去された一致(ICE一致又は他の一致)がセグメントについて十分に適切な一致であるかどうかを確信することができない。
本発明のいくつかの構成では、少なくとも1つのルックアップセグメントが、少なくとも1つの他のルックアップセグメントとは異なるICE一致を有する。通常、1つのルックアップセグメントは、異なるICE一致を有し、この異なるICE一致は、ルックアップセグメントごとにICE一致を識別するプロセスで役立つ可能性がある。
本発明の第2の態様によれば、翻訳されるルックアップセグメントに対する翻訳メモリに格納された複数のソーステキストのマッチングレベルを判定するシステムであって、
複数のソーステキスト内のルックアップセグメントのすべての正確一致を判定する手段と、
少なくとも1つの正確一致が判定される場合に、ルックアップセグメントの文脈がそれぞれの正確一致の文脈と一致する場合にそれぞれの正確一致がルックアップセグメントの文脈内正確(ICE)一致であると判定する手段と
を備え、文脈が、少なくとも2つのレベルを含み、
少なくとも2つのレベルが、ソース使用文脈レベル及びターゲット使用文脈レベルを含む
システムが提供される。
本発明の第3の態様によれば、翻訳メモリ内にソーステキスト及びターゲットテキストの翻訳単位を格納する方法であって、
翻訳単位に文脈を割り当てるステップであって、文脈が、少なくとも2つのレベルを含み、少なくとも2つのレベルが、ソース使用文脈レベル及びターゲット使用文脈レベルを含む、ステップと、
翻訳単位と共に文脈を格納するステップと
を含む方法が提供される。
本発明の第4の態様によれば、翻訳メモリ内にソーステキスト及びターゲットテキストの翻訳単位を格納するシステムであって、
翻訳単位に文脈を割り当てる手段であって、文脈が、少なくとも2つのレベルを含み、少なくとも2つのレベルが、ソース使用文脈レベル及びターゲット使用文脈レベルを含む、手段と、
翻訳単位と共に文脈を格納する手段と
を含むシステムが提供される。
本発明の第5の態様によれば、ルックアップセグメントとの比較のための複数のソーステキストと、
ソーステキストごとの文脈識別子と、
を備え、文脈識別子が、ソース使用文脈部分及びターゲット使用文脈部分を含む
翻訳メモリが提供される。
本発明のいくつかの実施形態では、ソース使用文脈部分及び/又はターゲット使用文脈部分は、先行使用文脈部分及び/又は後使用文脈部分を備える。本発明の他の実施形態では、文脈識別子は、構造的文脈部分を備える。したがって、文脈識別子データを、ルックアップセグメントの翻訳メモリからの検索中などにそれに関連する文脈をたやすく識別できるようにするために、翻訳メモリ内の翻訳単位に関連して格納することができる。翻訳単位は、複数の使用文脈識別子及び/又は複数の構造関連文脈識別子を有することができる。
本発明の第6の態様によれば、翻訳メモリを含む翻訳システムと対話するクライアント側システムであって、
翻訳システムによって翻訳されるセグメントにセグメント識別子を割り当てる手段であって、セグメント識別子が、セグメントのソース使用文脈及びターゲット使用文脈を示す、手段と、
翻訳メモリの一部としての格納のためにセグメント識別子割当を通信する手段と
を備えるクライアント側システムが提供される。
本発明の構成では、セグメント識別子が、構造的文脈を備える。したがって、セグメントを、その構造的文脈に従って識別することができる。
本発明の第7の態様によれば、翻訳されるルックアップセグメントに対する翻訳メモリに格納された複数のソーステキストのマッチングレベルを判定する方法であって、
複数のソーステキスト内のルックアップセグメントのすべてのファジイ一致を判定するステップと、
少なくとも1つのファジイ一致が判定される場合に、ルックアップセグメントの文脈がそれぞれのファジイ一致の文脈と一致する場合に、それぞれのファジイ一致がルックアップセグメントの文脈内ファジイ一致であると判定することと
を含む方法が提供される。
したがって、本発明は、複数のファジイ一致の間の曖昧性除去をも可能にする。曖昧性除去は、ファジイ一致のそれぞれの文脈と比較したルックアップセグメントの文脈に従って実行される。あるセグメントの少なくとも1つの文脈レベルがルックアップセグメントの文脈レベルと一致する場合には、そのセグメントは、文脈内ファジイ一致である。文脈内ファジイ一致は、非文脈内ファジイ一致より関連する傾向がある。好ましくは、文脈は、構造的文脈を含む。
文脈内ファジイ一致を、構造的文脈レベル及び/又はメタデータなどの文脈の異なるレベルに従って識別することができる。同様に、ICE一致に対して、異なる文脈レベルの優先順位付けを、文脈内ファジイ一致の間の曖昧性除去の時に適用することができる。
本発明を、同一の度合(ファジイマッチングスコアとも称する)のファジイマッチングを有するファジイ一致、たとえば同一パーセンテージのファジイ一致に適用することができる。1つの例の応用は、それぞれが97%という同一のファジイマッチング度合を有する複数のファジイ一致の間の曖昧性除去とすることができる。もう1つの例の応用は、それぞれが99%という同一のファジイマッチング度合を有する複数のファジイ一致の間の曖昧性除去とすることができる。ここでの用語「同一」は、正確に同一又はほぼ同一とすることができ、たとえば、そのファジイマッチングの度合が最も近いパーセンテージ値又はそのようなものに丸められた時に同一であるファジイ一致とすることができる。
同一の度合のファジイマッチングを有するファジイ一致の優先順位付けの代わりに又はそれに加えて、ファジイ一致の優先順位付けを、ファジイマッチングの度合のある範囲(又はスコア帯)の中、たとえば99から95%又は85〜94%の間で実行することができ、ここで、優先順位付けを、見出し、段落、表のセルその他などの構造的文脈を使用して実行することができる。
本発明を、異なる度合のファジイマッチングを有するファジイ一致に適用することもでき、第2ファジイ一致(たとえば、99%ファジイ一致)より低い度合のファジイマッチングを有する第1ファジイ一致(たとえば、98%ファジイ一致)を、第2ファジイ一致がルックアップセグメントと一致する文脈レベルを有しないが、第1ファジイ一致がルックアップセグメントと一致する文脈レベルを有するので、それでもルックアップセグメントについてより適切な一致と考えることができる。これは、第2ファジイ一致より低い度合のファジイマッチングファジイを有する第1ファジイ一致にもかかわらず、発生し得る。
本発明を、正確一致とファジイ一致との両方の文脈が考慮されるハイブリッドシナリオに適用することもできる。ここで、たとえば99%のファジイ一致を、正確一致がルックアップセグメントと一致する文脈レベルを有しないが、ファジイ一致がルックアップセグメントと一致する文脈レベルを有するので、それでも正確一致より適切な一致と考えることができる。やはり、異なるレベルの文脈マッチング及び異なる文脈レベルの優先順位付けを、そのようなハイブリッド構成に適用することができる。
本発明の第8の態様によれば、翻訳されるルックアップセグメントに対する翻訳メモリに格納された複数のソーステキストのマッチングレベルを判定するシステムであって、
複数のソーステキスト内のルックアップセグメントのすべてのファジイ一致を判定する手段と、
少なくとも1つのファジイ一致が判定される場合に、ルックアップセグメントの文脈がそれぞれのファジイ一致の文脈と一致する場合に、それぞれのファジイ一致がルックアップセグメントの文脈内ファジイ一致であると判定する手段と
を含むシステムが提供される。
本発明の第9の態様によれば、本発明の第1、第3、又は第7の態様のいずれか一項に記載の方法を実行するように適合されたコンピュータソフトウェアが提供される。
本発明の前述及び他の特徴は、本発明の実施形態の次のより特定の説明から明白になる。
本発明の実施形態を、図面を参照して詳細に説明するが、図では、同様の指定が同様の要素を表す。
本発明によるICE一致翻訳システムを使用するコンピュータシステムを示すブロック図である。 図1のシステムの動作方法論の一実施形態を示す流れ図である。 図1のシステムの動作方法論の一実施形態を示す流れ図である。 例示的な翻訳メモリ内の2つのエントリを示す図である。 図3のエントリを含む例示的なソース資産を示す図である。 本発明による翻訳メモリ生成の一実施形態を示す流れ図である。 本発明による翻訳メモリ生成の代替実施形態を示す流れ図である。
この詳細な説明は、便宜のみのために、以下の見出し、I.定義、II.全般的概要、III.システム概要、IV.動作方法論、及びV.結論を含む。
I.定義
「資産」は、たとえば文脈、使用、サイズなどによる、関連する内容の束縛された集合又はテキストセグメントのグループ化を定義する内容ソースを意味する。一般に、資産は、ハイパーテキストマークアップ言語(HTML)ファイル、Microsoft(登録商標)Word(登録商標)文書、又は単純なテキストファイルなど、文書に関連付けられる。しかし、一部の資産は、ファイルシステムファイルに対応しない。資産を、実際に、データベーステーブルの列又はextensible markup language(XML)リポジトリ内の構造体から定義することができる。物理的にどのように表されるかにはかかわりなく、資産は、すべて、共通の目的すなわち、アクセスでき、操作でき、最終的に翻訳できる関連する内容の束縛された集合を定義することを共有する。資産は、内容、フォーマッティング情報、及び資産の性質に依存する内部構造化データを含むことができる。
「ソース資産」は、そこからルックアップセグメントが引き出される資産を指す。
「セグメント」は、内容の翻訳可能な塊、たとえば、句、文、段落などを含む。セグメントは、翻訳作業の最小単位を表す。実際には、セグメントは、段落、文、又は文断片さえ表すことができる。セグメントは、通常、単一の単語ではないが、単一単語セグメントを使用することができる。
「ソーステキスト」は、翻訳される言語であるオリジナル(ソース)言語に対応する翻訳メモリ内のテキストを指す。ソーステキストは、一致を見つけるために、一致ルックアッププロセス中に資産からのルックアップセグメントと比較される。
「ターゲットテキスト」は、特定のロケールのソーステキストの翻訳を含む、すなわち、ターゲットテキストは、翻訳メモリ(TM)単位の半分である。
「翻訳メモリ」(TMと省略する)は、TMエントリを含むリポジトリを含む。TMは、任意の個数のロケールのTMエントリを含むことができる。たとえば、TMは、英語からフランス語、ギリシャ語からロシア語、アルバニア語からトルコ語などのエントリを含むことができる。
「TM単位」は、ソーステキストをターゲットテキストにマッピングする翻訳メモリに格納された翻訳対である(翻訳単位、TMエントリ、又はレコードとしても知られる)。TMは、所与の翻訳対に固有であり、この翻訳対は、ソーステキストロケール/ターゲットテキストロケール対を含み、通常は、その翻訳がこの翻訳対を作った資産に関連する。実質的に、TM単位は、後で再利用できる、以前の翻訳を表す。さらに、本発明による各TM単位は、関連するソーステキスト/ターゲットテキスト対の文脈を識別する文脈部分を含む。翻訳単位は、通常は2か国語であるが、多種言語とすることもでき、文脈情報、使用カウント、作成日付その他などのメタデータを含むこともできる。
「正確一致(exact match)」は、翻訳メモリから来た瞬間の資産からのルックアップテキストと完全に同一であるソーステキストを含むソーステキストを意味する。本明細書で使用される時に、正確一致は、100%一致をも含み、100%一致は、正確一致に似ているが、翻訳メモリ単位内に存在する差のゆえに、必ずしも正確一致から生じるのではない。たとえば、ある一致は、1)スコアリングされない空白文字の差すなわち、TM単位の空白文字とは異なるタイプの空白文字の使用は、正確一致として選択されることを妨げる、2)本発明がそれを介してソーステキストとルックアップテキストとの間のある種の差を効果的に無視する構成されたペナルティ、又は3)TM一致とオリジナルルックアップテキストとの間の差を修正するためにそれを介して修復ヒューリスティックを適用できるセグメント修復という理由のうちの1つのために、ある一致が、正確一致であることなく100%としてスコアされ得る。セグメント修復は、たとえば米国特許第7020601号に記載の、配置可能要素、自動置換技法、及び自動局所化技法の使用によって実行することができる。
「文脈」は、テキストセグメントを取り囲み、その解釈を決定するのを助ける談話を意味する。文脈は、本明細書で使用される時に、異なるレベルを含むことができる。たとえば、文脈は、使用文脈レベル、資産文脈レベル、構造的文脈レベル、及び/又はセグメント識別子を含むことができる。各異なる文脈は、内容の意図された聴衆に応じて異なる言葉遣いを必要とする場合がある。
「使用文脈」は、セグメントを取り巻き、本発明が内容の適切な翻訳をどのように導出するのかに影響する談話を指す。使用文脈を、翻訳されるテキストを取り巻くソース言語のテキストの考慮を伴うソース使用文脈とすることができる。使用連絡先を、翻訳されるテキストの翻訳を取り巻くターゲット言語のテキストの考慮を伴うターゲット使用文脈とすることができる。通常、使用文脈は、翻訳されるセグメントの意味への洞察をもたらす、取り巻く内容と共に定義される。使用文脈は、特定のセグメントに先行するテキスト及び特定のセグメントに続く(後)テキストに関してレベルを有することができ、文脈がソース言語又はターゲット言語の翻訳されるテキストを取り巻くテキストに関連するかどうかに関してもレベルを有することができる。先行使用文脈レベル及び後使用文脈レベルを、ソース使用文脈レベル及びターゲット使用文脈レベルと組み合わせて、先行ソース使用文脈レベル、先行ターゲット使用文脈レベル、後ソース使用文脈レベル、及び後ターゲット使用文脈レベルの形でさらなる文脈レベルを作ることができる。
「資産文脈」は、セグメントがその中に存在する資産環境に関する談話、すなわち、テキストセグメントがそこに表れる全体的内容の背景及び展望フレームワークを指す。
「構造的文脈」は、段落、見出し、目次項目、リスト、又は表のセルその他など、あるセグメントが現れる文書構造単位を指す。
ルックアップセグメントに関する「文脈内正確(ICE)一致」は、ソーステキストが正確一致であり、一致をもたらすTM単位と少なくとも1つの文脈レベルを共有しなければならないことを意味する。
「ルックアップテキスト」は、それに関してTM一致が検索されるソース資産からのテキストのセグメントを指す。
「セグメント識別子」(SID)は、所与のセグメントが翻訳されなければならない使用文脈を定義するラベルを含み、TM単位又は内容の作成時に内容に関連付けられる。SIDは、所与のセグメントの文脈識別を提供する。SIDは、セグメント境界を定義するマーカータグを含むことができる。下で説明するように、SIDは、使用文脈又は取り巻くセグメントに基づくことの代替物又はその拡張である。
II.全般的概要
本発明は、なかんずく、翻訳されるルックアップセグメントへの翻訳メモリに格納された複数のソーステキストのマッチングレベルを判定する方法、システム、及びプログラム製品を提供する。本発明は、翻訳メモリ(TM)内の以前に格納された翻訳からのソース内容に関する高品質一致を生成する。関連技術では、入手可能な最良一致は、正確一致すなわち、ソーステキストがTM内の1つ又は複数のエントリと同一である一致であった。しかし、所与のセグメントについて最良の正確一致を正確に選択し、又は所与の正確一致がそれが適用されている文脈に関する適切な一致であったかどうかを検証する、自動化されたプロセスはない。具体的に言うと、あるセグメントが、異なる状況又は文脈の下で異なって翻訳される場合がある。正確一致の適切性は、文脈情報の評価を必要とし、この文脈情報は、内容使用(それを取り巻く文又はセグメントによって定義される)、構造的文脈、資産文脈(所期の聴衆に応じて異なる言葉遣いを必要とする場合がある)、及び/又は領域識別子、顧客名などのメタデータ、若しくはシステムのユーザによって供給されるか自動的に生成されるか以前の翻訳プロジェクトから抽出される他の情報に基づくものとすることができる。
領域識別子は、正確一致が「電気工学」、「農業」、又は「計算機科学」などに関連する幅広い主題に関連するものとすることができる。単語「bank」を例に挙げると、これは、領域識別子が地理的領域ではなく金融領域を示す場合に、曖昧性除去され得る。
本発明は、正確一致プロセスを置換するものではない。そうではなく、本発明は、手動妥当性検査の必要を減らし、できる限り貴重なTMを作成する際に人を助ける、真の再利用TMシステムを使用することによって、正確一致を超えるマッチングの新しいレベルを提供する。具体的に言うと、本発明の一実施形態は、複数のソーステキスト内でルックアップセグメントのすべての正確一致を判定することと、少なくとも1つの正確一致が判定される場合に、ルックアップセグメントの文脈がそれぞれの正確一致の文脈と一致する場合にそれぞれの正確一致がルックアップセグメントの文脈内正確(ICE)一致であると判定することとによって、翻訳されるルックアップセグメントへの翻訳メモリ内に格納された複数のソーステキストのマッチングレベルを判定する。したがって、ICE一致判定は、ルックアップセグメントの文脈に基づいて正確一致の適切性を判定する。正確一致であり、一致する文脈を有するソーステキストを、「文脈内正確(ICE)一致」と称する。ICE一致は、適用される翻訳が、それが使用される文脈に関して適切であることを保証するという点で、正確一致よりすぐれていると考えられる。ICE一致は、現在翻訳されているセグメントと同一の文脈で以前に翻訳された一致のおかげで高いレベルの適切性を保証する翻訳一致である。
本発明は、1)新しい内容に関する高品質(再検討を必要としない)一致としての正確一致の適切性を判定し、2)所与のルックアップセグメントの最良の文脈一致を選択し、3)以前に翻訳された内容の以前に割り当てられた翻訳が必ず復元可能であることを保証するために、文脈情報を活用する。新しい内容について、本発明は、文脈情報を活用して、セグメント使用文脈に基づいてTMから高品質一致を見つける。本発明は、資産及び/又は構造及び/又は文脈レベルでの文脈を与えられれば、同一の内容が必ず同一の形で翻訳されることをも保証する。
所与のルックアップセグメントの翻訳に関して、ソース文書が翻訳され、すべてのセグメントがTMに格納されると仮定する。正確に同一のソース文書がもう一度通される場合には、その文書は、その内容のすべてを含めて、完全に一致し、結果の翻訳された文書は、最初に翻訳された文書と正確に同一になる。この挙動は、単純であり、期待されるものである。しかし、これは、文脈情報を使用することの結果としてのみ保証され得る。この保証の重要性をさらに理解するために、同一の正確な文が2つの異なる場所で2回繰り返されるソース文書を検討されたい。第2の使用は、第1の使用と同一の暗黙の意図を有しない場合があるので、異なって翻訳される。ここで、もう一度、同一の文書がTMに対して活用されると考えられたい。複製された文は、同一の翻訳を有するべきなのか、オリジナル文書と同様に異なるべきなのか? その使用の文脈を考慮に入れなければ、これらの文は、TMによって同一の形で翻訳される可能性が最も高い。しかし、本発明によれば、文脈が考慮され、これによって、2つの文は、その使用文脈がそのように規定する限り、異なる翻訳を有し続ける。
以前に翻訳されたテキストセグメントの復元に関して、本発明は、新しい文書の翻訳が、以前に翻訳された文書の翻訳を復元する能力に影響しないことをも保証し、以前に翻訳された文書をTMに対して活用し、その結果、その文書が翻訳者によって格納されたものと同一の翻訳を必ずもたらすようにすることによって、翻訳が完全に再現可能であることを保証する方法を提供する。もう一度、2つの同一の文書を検討されたい。第1の文書が翻訳され、その結果がTMに格納される。第2の文書が同一のTMに対して活用される時に、その文書は、ICE一致を用いて完全に翻訳されるものとして表される。使用文脈は、第1文書の使用文脈と同一である。次に、第2文書が、異なる聴衆をターゲットすると考えられたい。ソース言語テキストは、両方の聴衆に適切であると考えられるので、この例では変更されない。しかし、ターゲット言語への翻訳は、多少の変更を必要とする。翻訳者は、この文書に関して翻訳を更新し、その結果をTMに格納する。時が経ち、両方の翻訳された文書のコピーが、もう一度要求される。スペースの理由から、オリジナルの翻訳された文書は削除された。ソース文書のどれもが変更されておらず、したがって、まだ同一のソーステキストを含む。本発明は、それぞれが最初に翻訳された文書(それら自体は同一ではなかった)に同一である、オリジナルの翻訳された文書の再生成を容易にする。ソース文書の内容が同一であるにもかかわらず、本発明は、資産文脈情報を活用して、文書固有翻訳が回復可能であることを保証することができる。
本発明を、Idiom社のWorldServer(商標)などの内容管理システムの一部として、又は別々のシステムとして活用することができる。たとえば、WorldServer(商標)は、企業がグローバル化プロセス全体の文脈で内容を管理すると同時に、確立されたウェブアーキテクチャ、内容管理、及びワークフローシステムを活用することを可能にする、ウェブベースのアプリケーションである。内容管理システムは、たとえばグローバルウェブ戦略の展開から生じる複数の複雑さを単純化し、会社のウェブサイトが複数の国並びに異なる言語、場所、及び文化をも効率的にサポートすることを可能にする。内容管理システムは、サイト管理者、ウェブデベロッパ、内容所有者、翻訳者、及び編集者の間での協同作業に構造及びプロセスを提供し、合理化されたプロセス、同期化されたグローバルウェブ戦略、及び調整されたグローバルウェブチームをもたらす。翻訳者は、内容管理システムを使用して、その翻訳者が翻訳しなければならない内容を見る。WorldServer(商標)では、翻訳者は、翻訳を必要とする内容をサードパーティ編集ツールにエクスポートするか、実際の翻訳を実行するのに翻訳ワークベンチを使用するかのいずれかを行うことができる。翻訳者は、内容を適合させるが翻訳してはいないユーザ及び/又は内容を再検討するレビュワを含む、個々の投稿者とすることができる。内容管理システムは、後の想起のために翻訳された句をTMに格納する。
III.システム概要
添付図面を参照すると、図1は、本発明による文脈内正確一致翻訳システム100のブロック図である。システム100が別々のシステムとして図示されているが、これを、Idiom社のWorldServer(商標)などのより大きい内容管理システム又は翻訳システムの一部として実施できることを了解されたい。これに関して、システム100の説明が、翻訳システムのある種の機能性を含むが、説明を明瞭にするために他の機能性を省略する場合がある。さらに、システム100は、クライアント−サーバ(たとえば、ウェブベースの)環境で図示されているが、他の構成も可能であることを了解されたい。
システム100は、コンピュータ102上でコンピュータプログラムコードとして実施されて図示されている。この範囲までで、コンピュータ102は、メモリ112、処理ユニット114、入出力(I/O)インターフェース116、及びバス118を含んで図示されている。さらに、コンピュータ102は、外部I/Oデバイス/リソース120及びストレージシステム122と通信して図示されている。一般に、処理ユニット114は、メモリ112及び/又はストレージシステム122に格納された、システム100などのコンピュータプログラムコードを実行する。コンピュータプログラムコードを実行している間に、処理ユニット114は、メモリ112、ストレージシステム122、及び/又はI/Oデバイス120から/へデータを読み取り、及び/又は書き込むことができる。バス118は、コンピュータ102内のコンポーネントのそれぞれの間の通信リンクを提供し、I/Oデバイス120は、ユーザがコンピュータ102と対話することを可能にする任意のデバイス(たとえば、キーボード、ポインティングデバイス、ディスプレイなど)を含むことができる。
代替案では、ユーザは、コンピュータ102と通信する別のコンピューティングデバイス(図示せず)と対話することができる。この場合に、I/Oインターフェース116は、コンピュータ102がネットワークを介して1つ又は複数の他のコンピューティングデバイスと通信することを可能にする任意のデバイス(たとえば、ネットワークシステム、ネットワークアダプタ、I/Oポート、モデムなど)を含むことができる。ネットワークは、さまざまなタイプの通信リンクの任意の組合せを含むことができる。たとえば、ネットワークは、有線及び/又は無線の伝送方法の任意の組合せを利用できるアドレス可能接続を含むことができる。この場合に、コンピューティングデバイス(たとえば、コンピュータ102)は、トークンリング、イーサネット、WiFi、又は他の従来の通信標準規格など、従来のネットワーク接続性を利用することができる。さらに、ネットワークは、インターネット、広域ネットワーク(WAN)、ローカルエリアネットワーク(LAN)、仮想プライベートネットワーク(VPN)、などを含む、1つ又は複数の任意のタイプのネットワークを含むことができる。通信が、インターネットを介して行われる場合に、接続性を、従来のTCP/IPソケットベースのプロトコルによって提供することができ、コンピューティングデバイスは、インターネットへの接続性を確立するのにインターネットサービスプロバイダを利用することができる。
コンピュータ102は、ハードウェア及びソフトウェアのさまざまな可能な組合せを表すに過ぎない。たとえば、処理ユニット114は、単一の処理ユニットを含むことができ、或いは、たとえばクライアント及びサーバ上など、1つ又は複数の位置の1つ又は複数の処理ユニットにまたがって分散され得る。同様に、メモリ112及びストレージシステム122は、1つ又は複数の物理的位置に存在することができる。メモリ112及びストレージシステム122は、磁気媒体、光媒体、ランダムアクセスメモリ(RAM)、読取り専用メモリ(ROM)、データオブジェクトなどを含むさまざまなタイプのコンピュータ可読媒体及び/又は伝送媒体の任意の組合せを含むことができる。I/Oインターフェース116は、1つ又は複数のI/Oデバイスと情報を交換する任意のシステムを含むことができる。さらに、図1に示されていない1つ又は複数の追加コンポーネント(たとえば、システムソフトウェア、数値演算コプロセッシングユニットなど)をコンピュータ102に含めることができることを理解されたい。この範囲までで、コンピュータ102は、ネットワークサーバ、デスクトップコンピュータ、ラップトップ機、ハンドヘルドデバイス、携帯電話機、ポケットベル、携帯情報端末その他など、任意のタイプのコンピューティングデバイスを含むことができる。しかし、コンピュータ102がハンドヘルドデバイス又は類似物を含む場合に、1つ若しくは複数のI/Oデバイス(たとえば、ディスプレイ)及び/又はストレージシステム122を、図示されているように外部にではなくコンピュータ102内に含めることができることを理解されたい。
下でさらに述べるように、システム100は、正確一致デターミナ130、文脈内正確(ICE)一致デターミナ132、ハッシュアルゴリズム133、ファジイ一致デターミナ134、翻訳メモリTMジェネレータ136、セグメントリトリーバ138、及び他のシステム構成要素(Sys.Comp.)140を含んで図示されている。ICE一致デターミナ134は、文脈アイデンティファイヤ142、一致エバリュエータ144、及びICE一致プライオリタイザ(prioritizer)146を含む。他のシステム構成要素140は、本発明の動作に必要な他の機能性を含むことができるが、本明細書で明示的には説明されない。たとえば、他のシステム構成要素140は、Idiom社のWorldServer(商標)によって提供されるものなどの自動翻訳システム及び/又は内容管理システム機能性を含むことができる。
わかりやすくするために図1には示されていないが、クライアント側システム150が、コンピュータ102に類似する構造を含むことができ、下で説明する機能性を提供するプログラムコードを含むことを理解されたい。
図1には、システム100による使用のための翻訳メモリ128(以下では「TM 128」)も示されている。図3に示されているように、TM 128は、それぞれ特定のソーステキスト152A、152Bについて特定の言語に以前に翻訳された、格納されたターゲットテキスト162、164を含む複数のTMエントリ148を含む(図を簡潔にするために2つだけを示す)。たとえば、格納されたソーステキスト「global enterprises」152Aは、複数のドイツ語翻訳162すなわちターゲットテキストに翻訳されており、格納されたソーステキスト「team of visionaries」152Bは、複数のフランス語翻訳164すなわちターゲットテキストに翻訳されている。各ソーステキスト152A及び152Bは、ルックアップセグメントとの比較のためのものである。各TM単位148は、文脈識別166(図を明瞭にするために2つだけにラベルを付ける)をも含む。一実施形態で、文脈識別166は、ソース使用文脈部分168及び資産文脈部分(AC)170など、異なる文脈レベルの表示を含む。資産文脈部分170は、たとえば「33333」など、システム100に対して特定の資産を識別する資産コードを含む。構造的文脈レベルなど、他の文脈レベルを設けることもできる。いくつかの場合に、資産文脈部分170を省略することができる。本発明のこの実施形態では、使用文脈レベルは、先行ソース使用文脈レベル及び後ソース使用文脈レベルである。本発明の他の実施形態では、使用文脈レベルは、その代わりに又はそれに加えて、先行ターゲット使用文脈レベル及び/又は後ターゲット使用文脈レベルを含むことができる。
1つの好ましい実施形態では、各使用文脈168は、先行ソース使用文脈(UC)ハッシュコード172及び後ソース使用文脈(UC)ハッシュコード174を含む。先行UCハッシュコード172は、翻訳中にそれぞれのソーステキストがその隣に現れる先行するセグメントによって生成されたテキストストリームに基づいてハッシュアルゴリズム133を使用して生成される。同様に、後UCハッシュコード172は、翻訳中にそれぞれのソーステキストがその隣に現れる続く(後)セグメントによって生成されたテキストストリームに基づいてハッシュアルゴリズム133を使用して生成される。ハッシュアルゴリズム133は、テキストストリームを一意の数値識別子に変換できる任意の現在既知の又は今後に開発されるハッシュアルゴリズムを含む(図示のハッシュコードが、図を明瞭にするために単純化されていることを了解されたい)。したがって、各UCハッシュコードは、それぞれのソーステキストに関する一意の使用文脈レベルを示す。代替実施形態では、1つの使用文脈ハッシュコードだけを、特定のソーステキスト152並びに先行するセグメント及び続くセグメントについて使用することができる。
ルックアップセグメント154が作成時に文脈に割り当てられる場合に、文脈識別166を、ハッシュアルゴリズム133又はこれとユーザ指定のSIDの使用との組合せではなく、上で説明したユーザ指定のSIDを使用して生成することができ、ここで、ハッシュアルゴリズム133及びユーザ指定のSIDの一方に、他方に対して優先順位を与えることができる。
本明細書で使用される特定のコードが、例示のみのためのものであることを了解されたい。
IV.動作方法論
図2A〜Bに移り、本発明の動作方法論の一実施形態の流れ図をこれから説明する。図2A〜Bの議論は、図1、3、及び4と共に行われる。
A.予備ステップ
図2Aから始めると、予備ステップPSとして、一実施形態で、ルックアップセグメント154が、直接にリンクされた或いはあるタイプのネットワーク、たとえばLAN、WAN、又はインターネットによってリンクされたクライアントコンピュータシステム150によってICE一致システム100にロードされる。たとえば、ルックアップセグメント154を、ICE一致システム100がその一部であるものとすることができる、翻訳ワークフローアプリケーションサーバ(図示せず)、たとえばIdiom社のWorldServer(商標)を介してロードすることができる。ルックアップセグメント154を、より大きい資産の一部としてロードすることができる。この場合に、システム100は、たとえばIdiom社のWorldServer(商標)によって提供されるように、ルックアップセグメント154を作成する現在既知の又は今後に開発される任意の形でより大きい資産のセグメント化を行うことができる。セグメント化は、それを介して資産の内容が解析され翻訳可能セグメントとして公開されるプロセスである。セグメントのサイズは、セグメント化ルールに依存し、セグメント化ルールは、ユーザ定義とすることができる。
B.全般的方法論
ステップS1〜S12は、ルックアップセグメント154ごとの分析を表す。
第1ステップS1では、TM 128内の複数のソーステキスト152内のルックアップセグメント154のすべての正確一致を、正確一致デターミナ130によって判定する。正確一致デターミナ130は、ほとんどの従来のTMシステムと同様に機能することができ、従来のTMシステムの正確一致デターミナは、ストリング比較アルゴリズムを使用してTM 128に格納された翻訳の適切性を測定し、ここで、スコアは、2つのストリングがどれほどよく一致するかに基づいて与えられる。100%のスコアは、通常、正確一致が見つかったことを示し、或いは、差を自動的に解決(たとえば、配置可能要素、自動局所化技法、又は自動置換技法を使用して「修復」)され得る一致を示す。たとえば、図3に示されているように、ルックアップセグメント「global enterprises」は、ドイツ語に翻訳された時に、1)globale Wesen、2)globale Unternehmen、及び3)globale Geschaefteという2つの正確一致をもたらすはずである。ルックアップセグメント「team of visionaries」は、フランス語に翻訳された時に、1)e’quipe de visionnaires、2)groupe de visionnaires、3)bande des visionnaires、及び4)groupe de futurologuesという4つの正確一致をもたらすはずである。複数の正確一致が、ルックアップセグメント154ごとにTM 128内に存在する場合がある。というのは、任意の所与のセグメントに関する複数の翻訳及び所与の言語でのある陳述の意味が、単語のみから導出されるのではなく、それが使用される文脈からも導出されるからである。したがって、各以前の翻訳が、特定のソーステキスト152の、したがって同一のルックアップセグメント154の、多数のターゲットテキスト翻訳162、164をもたらす可能性がある。
ステップS2では、少なくとも1つの正確一致が判定された、すなわちTM 128内で見つかったかどうかに関する判定を行う。ステップS2でそうではない場合には、処理はステップS3に進み、ここで、ファジイ一致デターミナ134が、任意の現在既知の又は今後に開発される形でルックアップセグメント154のファジイ一致があるかどうかを判定する。ルックアップセグメント154に関するすべてのファジイ一致が、ステップS4で報告される。「報告」は、本明細書で使用される時に、ユーザへの結果の表示、結果の転送、及び/又は結果の格納を意味することができる。図示されてはいないが、ファジイ一致が見つからない場合には、従来の自動翻訳を始めさせることができる。
ステップS2でYESである場合には、ステップS5で、ICE一致デターミナ132が、それぞれの正確一致がルックアップセグメント154の文脈内正確(ICE)一致であるかどうかを判定する。上で述べたように、「ICE一致」は、ソーステキスト152が正確一致であらねばならず、これがルックアップセグメント154と共通の文脈を共有もすることを意味する。言い換えると、ルックアップセグメント154の文脈識別と一致する文脈識別166を有する正確一致が、ICE一致である。一実施形態で、この判定における文脈は、使用文脈のみを含む。しかし、下で説明するように、他の文脈マッチングレベルを使用することができる。
ステップS5は、2つのサブステップを含む。第1に、サブステップS5A、文脈アイデンティファイヤ142が、ルックアップセグメント154の文脈を識別する。一実施形態で、文脈アイデンティファイヤ142は、そのソース資産内でルックアップセグメント154を取り巻くセグメントに基づいて文脈を識別する。この場合に、ハッシュアルゴリズム133が、ルックアップセグメント(LS)先行UCハッシュコード及びルックアップセグメント(LS)後UCハッシュコードを計算することによって、ルックアップセグメント154の使用文脈を判定するために実施される。やはり、ハッシュアルゴリズム133は、テキストストリームを一意の数値識別子に変換できる任意の現在既知の又は今後に開発されるハッシュアルゴリズムを含む。図4を参照すると、「team of visionaries」の形のルックアップセグメント154Aを含む例示的なソース資産180が示されている。LS先行UCハッシュコードは、直接に先行するセグメント190に基づいて形成される。たとえば、図4に示されているように、LS先行UCハッシュコードは、「Idiom was founded in January 1998 by a team of visionaries」について計算される。同様に、LS後UCハッシュコードは、直接に続くセグメント192すなわち、「team of visionaries who recognized the need for an enterprise−class software product that would meet the globalization」について計算される。ソース資産180の資産文脈を、資産ハッシュに基づいて文脈アイデンティファイヤ142によって識別することができ、この資産ハッシュは、特定の資産のシステムの識別、たとえば資産名、システム内の位置などに基づく。
代替実施形態では、文脈アイデンティファイヤ142は、ルックアップセグメント154に関連するセグメント識別子(SID)に従ってルックアップセグメント154の文脈を識別し、このSIDは、上で述べたように、セグメントが翻訳されなければならない使用文脈を定義するラベルを含む。SIDは、セグメント境界を定義するマーカータグを含むことができる。好ましくは、SIDは、セグメントの作成中に、すなわち内容作成者によって、ソーステキスト152及び/又はルックアップセグメント154に関連付けられる。しかし、SIDを、たとえば以前の内容翻訳者によって、より後の時にソーステキスト152及び/又はルックアップセグメント154に関連付け、或いは上書きすることができる。
サブステップS5Bでは、ICE一致エバリュエータ144が、ルックアップセグメント154と同一の文脈内で使用されたかどうかすなわち各正確一致がICE一致であるかどうかを判定するために各候補と共に格納された文脈識別166を使用することによって、ルックアップセグメント154の正確一致ごとの評価を行う。正確一致がICE一致と考えられるために必要な文脈マッチングの度合は、事前に決定されるものとすることができる。一実施形態では、ICE一致エバリュエータ144は、ルックアップセグメント154の各文脈レベルがそれぞれの正確一致の文脈レベルと一致する場合に限って、それぞれの正確一致がルックアップセグメント154のICE一致であることを示す。たとえば、文脈が、使用文脈レベル及び資産文脈レベルを含む場合に、判定ステップは、ルックアップセグメントの使用文脈レベルと資産文脈レベルとの両方がそれぞれの正確一致の使用文脈レベルと資産文脈レベルとの両方と一致する場合に限って、それぞれの正確一致がルックアップセグメントのICE一致であることを示すことができる。さらなる例として、文脈が、使用文脈レベル及び構造的文脈レベルを含む場合に、判定ステップは、ルックアップセグメントの使用文脈レベルと構造的文脈レベルとの両方がそれぞれの正確一致の使用文脈レベルと構造的文脈レベルとの両方と一致する場合に限って、それぞれの正確一致がルックアップセグメントのICE一致であることを示すことができる。使用文脈レベルは、先行ソース使用文脈レベル、後ソース使用文脈レベル、後ターゲット使用文脈レベル、及び後ターゲット使用文脈レベルのうちの1つ又は複数を含むことができる。

図3を参照し、例示的なルックアップセグメント154がテキスト「team of visionaries」を含み、これがフランス語に翻訳されなければならないと仮定する。また、ルックアップセグメント「team of visionaries」が、333のLS先行UCハッシュコード及び4444のLS後UCハッシュコードを有すると仮定し、666666の資産文脈を仮定する(図3のすべてのハッシュコードが、図を明瞭にするために単純化されていることを理解されたい)。図3に示されているように、正確一致デターミナ130は、フランス語に翻訳された時のルックアップセグメント「team of visionaries」の4つの正確一致すなわち1)e’quipe de visionnaires、2)groupe de visionnaires、3)bande des visionnaires、及び4)groupe de futurologuesを判定するはずである。ICE一致エバリュエータ144は、正確一致を再検討し、図3に示されているように、ルックアップセグメント「team of visionaries」がフランス語に翻訳される時に、ソーステキスト「groupe de visionnaires」が、同一の資産文脈170及び使用文脈(ハッシュコード)172、174を有するので、同一の文脈を有すると判定するはずである。したがって、「groupe de visionnaires」は、ICE一致になるはずである。他のソーステキストは、ルックアップセグメント「team of visionaries」の少なくとも1つの文脈コードを有しないので、ICE一致としての資格を有しないはずである。
代替実施形態では、ICE一致エバリュエータ144は、ルックアップセグメントの一部の文脈レベルのみがそれぞれの正確一致の文脈レベルと一致する場合であっても、それぞれの正確一致がルックアップセグメント154のICE一致であることを示すことができる。

図3を参照し、例示的なルックアップセグメント154が、テキスト「global enterprises」を含み、これがドイツ語に翻訳されなければならないと仮定する。また、ルックアップセグメント「global enterprises」が、1234のLS先行UCハッシュコード及び4321のLS後UCハッシュコードを有すると仮定し、7890の資産文脈を仮定する。図3に示されているように、正確一致デターミナ130は、ドイツ語に翻訳された時のルックアップセグメント「global enterprises」の3つの正確一致すなわち、1)globale Wesen、2)globale Unternehmen、及び3)globale Geschaefteを判定するはずである。1つの使用文脈レベルだけが、正確一致がICE一致になるために必要であると仮定すると、ICE一致エバリュエータ144は、正確一致を再検討し、図3に示されているように、ルックアップセグメント「global enterprises」がドイツ語に翻訳される時に、ソーステキスト「globale Wesen」及び「globale Unternehmen」が、それぞれLS UCハッシュコードの1つと一致する1つのUCハッシュコードを有するので、同一の文脈を有すると判定するはずである。すなわち、「globale Wesen」は、ルックアップセグメントと同一の前(先行)ソースUCハッシュコードを有し、「globale Untemehmen」は、ルックアップセグメントと同一の後ソースUCハッシュコードを有する。他のソーステキストは、ルックアップセグメント「global enterprises」の少なくとも1つの文脈レベルを有しないので、ICE一致としての資格を有しないはずである。システム100が複数のICE一致にどのように優先順位を付けるかの詳細を、下で説明する。
ICE一致が判定されない、すなわち、ステップS6のNOの場合には、ステップS7で、すべての正確一致を報告する。その後、ステップS8で、正確一致及びファジイ一致すなわちステップS3〜4からの一致を、任意の現在既知の又は今後に開発される形でユーザによって妥当性検査することができる。この場合に、正確一致及びファジイ一致は、そのそれぞれのキャッシュに取り出され、クライアントコンピュータシステム150によって翻訳者から使用可能にされ、ここで、翻訳者は、ソース資産180内容を与えられて各正確一致が最良一致であることを保証するためにそのような正確一致を妥当性検査し、ソース資産180内容と一致するように各ファジイ一致を更新しなければならない。
ICE一致が判定される、すなわちステップS6のYESの場合に、図2Bに示されているように、ステップS9で、ICE一致ランカ146が、複数のICE一致が見つかったかどうかを判定する。1つのICE一致だけが判定される場合には、ステップS10で、その単一のICE一致を報告する。ICE一致が自動的に報告された後に、システム100は、セグメントリトリーバ138を介するターゲットテキスト162、164の取出を可能にする。
本発明の実施形態は、構造的文脈レベルを使用してICE一致の曖昧性除去を改善することに関する。構造化文脈レベルを伴う次の第1の例を検討されたい。
ソース1(s1) 構造化文脈=見出しテキスト「Print the document」
ターゲット1(t1) 構造化文脈=見出しテキスト「Das Dokument ausdrucken」
この場合に、見出し構造的文脈(翻訳単位内のソースセグメントとターゲットセグメントとの両方について同一)において、ドイツ語翻訳は、翻訳において不定詞(非命令法)形を使用する。
ここで、同一文書内で、さらに、同一の英文が使用されるが、今回は命令形がドイツ語で必要になるように指示リストの形である構造的文脈レベルを伴う次の第2の例を検討されたい。
ソース2(s2) 構造的文脈=指示リスト「Print the document」
ターゲット2(t2) 構造的文脈=指示リスト「Drucken Sie das Dokument aus」
上の例示的な文が、本発明の実施形態に従って翻訳メモリ又は他のそのようなデータストアに格納される場合に、異なる翻訳だけではなく、その構造的文脈(すなわち、見出し対指示リスト)も翻訳メモリに格納される。その後、同一の文が同一の構造的文脈で現れる時に、必ず、現在の構造的文脈に適切な翻訳を、優先的に提案することができる。
構造的文脈レベルを、使用文脈レベル(先行、後、ソース、及び/又はターゲット)及び/又は資産文脈レベルの代わりに或いはそれに加えて使用することができる。
C.複数ICE一致優先順位付け
図2Bを参照すると、ステップS11〜12は、複数のICE一致がステップS5で判定される状況すなわちステップS9のYESに対処するオプションのステップを表す。一実施形態(図示せず)で、ICE一致デターミナ130は、単純に、ユーザがICE一致のリストからICE一致を選択することを可能にすることができる。しかし、これは、ICE一致の1つの目的すなわち、正確一致を妥当性検査する必要がないことをくつがえすので、好ましくはない。図2Bに示された好ましい実施形態では、複数のICE一致が判定される場合に、ICE一致プライオリタイザ146は、ステップS11で、文脈一致の度合に従って各ICEに優先順位を付ける(ランキングする)。上で説明したように、「文脈マッチングの度合」は、事前に決定されるものとすることができる。このステップは、文脈マッチングの各ICE一致度合に優先順位を付け、ステップS12で、選択のためにユーザにICE一致を提示するか、最高ランキングのICE一致を自動的に選択するかのいずれかを行う。複数ICE一致に優先順位を付けるさまざまな定式が、文脈レベルの個数に依存して可能であることを理解されたい。1つ又は複数の固定された定式の代替又はそれへの追加として、最適の(又は他の形で許容可能な)優先順位付けに、学習プロセスを介して到達することができ、ここで、所与のトレーニングコーパスから、又は所定の期間にわたる以前の翻訳プロジェクトからの出力若しくは生翻訳プロジェクトからの部分からの観察された結果が、異なる文脈レベルの優先順位付けを調整するのに使用される。
次の例で、複数ICE一致の優先順位付けの一実施形態を示す。

文脈が、使用文脈レベル及び資産文脈レベルを含み、ルックアップセグメント「team of visionaries」が、図4に示されているようにソース文書180に基づいて図3のTM 128を使用してフランス語に翻訳されなければならないと仮定する。この場合に、「team of visionaries」は、以前に格納された翻訳に基づいて、4つの正確一致すなわち、1)e’quipe de visionnaires、2)groupe de visionnaires、3)bande des visionnaires、及び4)groupe de futurologuesを有する。また、ルックアップセグメント「team of visionaries」が、LS前ソースUCハッシュコード333、LS後ソースUCハッシュコード4444、及び資産コード666666を有すると仮定する。また、正確一致がICE一致デターミナ132によってICE一致として示されるために、1つの文脈レベルだけがルックアップセグメントの文脈レベルと一致する必要があると仮定する。この場合に、各正確一致は、ICE一致である。具体的に言うと、1)「e’quipe de visionnaires」は、一致する前ソースUCハッシュコード及び資産コードを有し、2)「groupe de visionnaires」は、すべての一致する文脈レベルを有し、3)「bande des visionnaires」は、一致する資産コードを有し、4)「groupe de futurologues」は、一致する後ソースUCハッシュコードを有する。
定義により、ICE一致が、不一致のルックアップセグメント(すなわち、手動翻訳又は機械翻訳を必要とするセグメント)、ファジイ一致、及びICE一致ではない正確一致より高い優先順位を与えられることを認められたい。ICE一致に関する1つの優先順位付け規程を、下で示す。この規程では、ランキングは、優先権の逆順でリストされ(たとえば、番号が大きいほど、優先順位が高い)、使用文脈(UC)レベルは、先行UCレベル及び後UCレベルを含み、いくつかの例示的優先順位付けステップは、次を含む。
1.ソース使用文脈(UC)一致、ターゲットUC)一致、及び構造的文脈一致が、ソース使用文脈(UC)一致及びターゲット使用文脈(UC)一致より優先される。
ルックアップセグメントと同一のソースUCハッシュコード及びターゲットUCハッシュコードのみを有するICE一致よりも、ルックアップセグメントと同一のソースUCハッシュコードとターゲットUCハッシュコードとの両方並びに同一の構造的文脈一致を有するICE一致が優先される。
2.ソースUC一致及びターゲットUC一致は、ソースのみのUC一致より優先される。
ルックアップセグメントと同一のソースUCハッシュコードだけを有するICE一致よりも、ルックアップセグメントと同一のソースUCハッシュコードとターゲットUCハッシュコードとの両方を有するICE一致が優先される。
3.先行UC一致が、後UC一致より優先される。
ルックアップセグメントの後ソース使用文脈レベル又は後ターゲット使用文脈レベルと一致するそれらのレベルのいずれかのみを有するICE一致よりも、ルックアップセグメントの先行ソース使用文脈レベル又は先行ターゲット使用文脈レベルと一致するそれらのレベルのいずれかを有するICE一致が優先される。
4.フルソース使用文脈(UC)一致が、部分的ソース使用文脈(UC)一致より優先される。
ルックアップセグメントのハッシュコードと一致する1つのソースUCだけを有する正確一致が、ICE一致(「部分一致と称する)と考えられると仮定すると、部分一致よりも、ルックアップセグメントと同一の前ソースUCハッシュコードと後ソースUCハッシュコードとの両方を有するICE一致(「フルソースUC一致」と称する)が優先される。言い換えると、ルックアップセグメントの前ソースUCレベル及び後ソースUCレベルと一致する前ソースUCレベルと後ソースUCレベルとの両方を有するICE一致が、ルックアップセグメントの前ソースUCレベル又は後ソースUCレベルと一致する前ソースUCレベル及び後ソースUCレベルの一方だけを有するICE一致より優先される。たとえば、ICE一致2)「groupe de visionnaires」は、これがルックアップセグメントと一致する前UCハッシュコード(333)及び後UCハッシュコード(4444)を有するので、他のすべてより優先される。
同様に、優先順位付けを、部分ターゲットUC一致よりもフルターゲットUC一致に与えることができる。
5.ルックアップセグメントと同一の資産からのICE一致は、他の資産からの一致より優先される。
この場合に、複数のICE一致を、上で説明した部分一致よりフル一致を優先することによって区別することはできない、すなわち、第1優先は、非決定的であり、資産コードに基づいて、ルックアップセグメントと同一の資産からのICE一致が優先される。言い換えると、第1優先が非決定的である場合に、ルックアップセグメントと同一の資産からのICE一致が、異なる資産からのICE一致よりも優先される。この例では、ICE一致1)「e’quipe de visionnaires」及び4)「groupe de futurologues」は、両方とも部分ICE一致であるが、ICE一致1)「e’quipe de visionnaires」は、ルックアップセグメントと同一の資産「666666」からであり、これが優先されるはずである。
6.同一資産からの複数のICE一致がルックアップセグメントについて判定される場合には、資産内のルックアップセグメントの位置により近い位置を有するICE一致が優先される。
この優先順位付けは、ルックアップセグメント154が、単一のソース資産180内の多数の位置に存在し、その結果として複数のICE一致が特定の資産について存在する状況に対処するものである。たとえば、図4に、ルックアップセグメント「team of visionaries」154A、154Bの2つの出現を含むソース資産180を示す。この場合に、ICE一致プライオリタイザ146は、特定のルックアップセグメントの資産内の位置を評価し、同一資産からの他のICE一致よりも、ルックアップセグメントの資産内の位置に最も近いICE一致を優先する。言い換えると、第2優先が非決定的である場合に、資産内のルックアップセグメントの位置に最も近い位置を有するICE一致が、他のICE一致よりも優先される。位置のこの評価は、特定の資産内のルックアップセグメントの任意の回数の繰り返しについて繰り返すことができる。
したがって、優先順位付けは、まず複数のICE一致の曖昧性を除去するために構造的文脈レベルと組み合わされたソース使用文脈レベル及びターゲット使用文脈レベルの一致を探すことを伴うことができる。この第1ステップが、ICE一致の間の曖昧性除去に十分ではない場合には、ソース文脈レベルでの一致だけではなくソース使用文脈レベルとターゲット使用文脈レベルとの両方の一致を使用することができる。後使用文脈レベルではなく先行使用文脈レベルを次に使用することができ、これに、部分的ソース使用文脈又は部分的ターゲット使用文脈ではなくフルソース使用文脈又はフルターゲット使用文脈を続けることができる。上のステップが、複数のICE一致の間で曖昧性除去を行えない場合には、資産文脈レベルを使用することができる。これが、それでも曖昧性除去に不十分である場合には、ルックアップセグメントの位置を使用することができる。
資産メタデータを、上のステップ又は類似するステップとの任意の組合せ及び/又は優先の順序で、曖昧性除去のための複数ICE一致の優先順位付けで使用することができる。同様に、ファジイ一致の曖昧性を除去するときには、上のステップ又は類似するステップからの異なる優先順位付けの方式及び優先の順序を使用することができる。
上の優先順位付けステップ及びステップの順序付けは、例示のために与えられたものであり、優先順位付けステップの異なる組合せ及び順序を使用することができる。
優先順位付けが完了した後に、ステップS12で、ICE一致プライオリタイザ146は、任意の現在既知の又は今後に開発される形で、たとえばクライアントコンピュータシステム150のグラフィカルユーザインターフェースを介して、ユーザがランクに基づいてICE一致を選択することを可能にし、或いは、最高優先順位のICE一致を自動的に選択する。ICE一致が選択された後に、システム100は、セグメントリトリーバ138を介する少なくとも1つのターゲットテキスト162、164の取出を可能にする。
ICE一致によってもたらされる高水準一致品質のゆえに、ICE一致であると判定されるソーステキストは、翻訳者によって再検討又は妥当性検査される必要がない。これらのソーステキストを、自動的に受け入れることができ、したがって、翻訳サイクルタイムが減り、より安価な翻訳コストがもたらされる。さらに、システム100は、内容に関して実質的に同一である複数のルックアップセグメント154が単一のソース資産180内に存在する状況に対処する。この場合に、システム100は、マッチングレベルに基づいてルックアップセグメント154ごとにICE一致を判定することができる。通常、少なくとも1つのルックアップセグメントが、この判定において助けるために、少なくとも1つの他のルックアップセグメントとは異なるICE一致を有する。そうでない場合には、複数のICE一致を、上で説明したように選択のためにユーザに報告することができる。システム100は、内容のセクションの翻訳をも容易にし、この翻訳は、内容のセグメントが分割され若しくは合併されるときであっても一致を取り出すこと及び/又は内容ブロックを単一の資産内で異なって翻訳することを可能にすることを限定なしに含んで、最小限の労力で異なる資産にまたがって繰り返される。
上で説明した動作は、TM 128に対するソース資産180のさらなるルックアップセグメントの処理を継続し、或いは、資産全体が完了した後にユーザに出力を供給することができる。
D.ターゲット使用文脈レベル
上で説明した本発明の実施形態は、主に、ソース使用文脈レベルである使用文脈レベルすなわち、ソース言語の翻訳されるテキストを取り巻くテキストに関連する使用文脈を含む。しかし、本発明の他の実施形態は、ターゲット使用文脈レベルである使用文脈レベルすなわち、ターゲット言語の翻訳されるテキストの翻訳を取り巻くテキストに関連する使用文脈を含む。
ソースs(g)及び翻訳t(g)を伴う現行セグメントgがあり、t(g)がルックアップセグメントの所望の翻訳であると考えられたい。翻訳メモリが、ソースs(g)について複数の正確一致t(g)を含む場合には、ルックアップセグメントの使用文脈を、複数の正確一致の間での曖昧性除去のために検討することができる、すなわち、使用文脈は、現行使用文脈内で最もよくあてはまるt(g)内の翻訳t(g)を選択するために使用される。そのセグメントに先行する(2か国語)セグメントがセグメントfであり、s(f)が先行セグメントのソースであり、t(f)が先行セグメントのターゲットであり、現行セグメントに続く(後)セグメントがセグメントhであり、ソースs(h)及び翻訳t(h)を伴う場合には。
したがって、上で説明した本発明の実施形態によれば、先行ソース使用文脈レベルs(f)及び後ソース使用文脈レベルs(h)は、翻訳t(s)の間の曖昧性除去に使用される。しかし、本発明の他の実施形態は、その代わりに又はそれに加えて、ターゲットソース使用文脈レベルすなわち、先行する及び/又は後のターゲット文脈レベルt(f)及び使用可能な場合にt(h)を使用して、翻訳t(g)の間の曖昧性を除去することができる。
ソース使用文脈レベルを使用する曖昧性除去とターゲット使用文脈レベルを使用する曖昧性除去との間の上記の差を、これから例によって説明する。
ある文書が、
The cat sleeps. It is cute. It purrs.
という3つの文の形の3つのセグメントを含むとする。
その場合に、ドイツ語への第2セグメントの翻訳すなわちドイツ語の“It is cute.”が望まれると仮定し、さらに、第1セグメントの翻訳が既にわかっている(“Die Katze schlaeft.”)と仮定すると、ソース使用文脈に従う潜在的翻訳t(g)={“Sie ist niedlich.”,“Er ist niedlich.”,“Es ist niedlich.”}の間の曖昧性除去は、ソース言語の翻訳されるセグメントを取り巻く2つのセグメントすなわち、先行セグメントs(f)=“The cat sleeps.”及び後セグメントs(h)=“It purrs.”に基づくことだけができる。
対照的に、ソース使用文脈レベル及びターゲット使用文脈レベルの組合せに従う潜在的翻訳訳t(g)={“Sie ist niedlich.”,“Er ist niedlich.”,“Es ist niedlich.”}の間の曖昧性除去は、ソース言語の翻訳されるセグメントに先行するセグメントs(f)=“The cat sleeps.”に基づき、ターゲット言語の翻訳されるセグメントに先行するセグメントt(f)=“Die Katze schlaeft.”にも基づくものとすることができる。
多くの状況で、ターゲット及びソースの使用文脈曖昧性除去の組合せの使用は、ソース使用文脈だけを基礎とする曖昧性除去より改善された結果をもたらすことができる。本発明の他の実施形態では、ターゲット使用文脈を使用し、ソース使用文脈を使用しないものとすることができる。
上で、t(h)が、主に完全を期して含まれることに留意されたい。現実には、翻訳者は文書を通って逐次的に作業し、したがって、t(h)は、続くセグメントが翻訳され終わるまで一般に入手可能ではないので、続くセグメントの翻訳は、しばしば未知であり、したがって、曖昧性除去には使用できない。
E.翻訳メモリの生成
TMエントリに関する文脈情報の存在は、システム100動作のために必要である。したがって、本発明の実施態様は、TMに追加されるすべての新しい翻訳と共に文脈情報が格納されることを必要とする。これは、以前に翻訳された文書へのアクセスを必要とせずに、ルックアップセグメントの文脈情報を以前に翻訳されたセグメントの文脈情報と効率的に比較することを可能にする。
このために、もう1つの実施形態では、本発明は、翻訳がTM 128に保存される時に文脈情報が各翻訳と一緒に格納され、したがって、本発明が機能するために翻訳者が以前に翻訳した文書などのファイルを手元に置き続けることを必要としない形を提供する。図5に移ると、本発明は、TM 128にソーステキスト及びターゲットテキストの翻訳対を格納する方法をも含む。第1ステップS100では、TMジェネレータ136を使用して、文脈を翻訳対に割り当てる。文脈は、たとえば、内容の作成中の上で説明したSIDの実施によって、又は翻訳パス中のハッシュアルゴリズム133の動作を介して、割り当てることができる。次に、ステップS101では、TMジェネレータ136によって、文脈を翻訳対と共にTM 128に格納する。上で説明したように、文脈は、使用文脈レベル(先行、後、ソース、ターゲットの任意の組合せ)、構造的文脈レベル、及び資産文脈レベルのうちの1つ又は複数を含むことができる。
上で説明したTM生成を、資産(セグメント)が作成される時にクライアント側システム150上で実施することもできることを了解されたい。この実施形態では、本発明は、TM 128を含む翻訳システム(すなわち、他のコンテンツ管理システム構成要素140と一緒のシステム100)と対話するクライアント側システム150を含む。図1及び6に移ると、この場合に、クライアント側システム150は、TM 128によって翻訳されるセグメント152にセグメント識別子(SID)を割り当てる(ステップS200)ためにSIDアサイナ200を設けることによって動作することができ、SIDは、セグメントの使用文脈を示す。SIDアサイナ200は、ユーザが所定のSIDを関連付けることを可能にすることができ、或いは、SIDは、たとえばハッシュアルゴリズム133を使用して生成されてもよい。さらに、システム150は、たとえばシステム100のTMジェネレータ136によって、TM 128の一部として格納されるためにSID割当を通信する(ステップS201)コミュニケータ202を含むことができる。
V.結論
上で説明した発明は、ソース内容をTMの内容と完全に照合する能力を翻訳者に与え、ソース内容をTMに関して妥当性検査する必要を軽減し、真に再利用可能なTMシステムを作成することによって、翻訳者に価値を提供し、これによって、より効率的な翻訳プロセスを可能にする。
上で説明したステップの順番が、例示にすぎないことを理解されたい。この範囲までで、1つ又は複数のステップを、並列に、異なる順序で、離れた時になどで実行することができる。さらに、本発明のさまざまな実施形態で、ステップのうちの1つ又は複数を実行されないものとすることができる。
本発明を、ハードウェア、ソフトウェア、伝搬される信号、又はその任意の組合せで実現でき、図示とは異なって区分できることを理解されたい。すべての種類のコンピュータ/サーバシステム(1つ又は複数)又は本明細書で説明される方法を実行するように適合された他の装置が、適切である。ハードウェア及びソフトウェアの通常の組合せは、ロードされ実行される時に本明細書に記載のそれぞれの方法を実行するコンピュータプログラムを伴う汎用コンピュータシステムとすることができる。その代わりに、本発明の機能タスクのうちの1つ又は複数を実行するための特殊化されたハードウェアを含む特定用途コンピュータ(たとえば、システム100)を利用することができる。本発明を、コンピュータプログラム製品又は伝搬される信号内で実施することもでき、このコンピュータプログラム製品又は伝搬される信号は、本明細書に記載の方法の実施を可能にするすべてのそれぞれの特徴を含み、コンピュータシステムにロードされた時にこれらの方法を実行することができる。コンピュータプログラム、伝搬される信号、ソフトウェアプログラム、プログラム、又はソフトウェアは、現在の文脈では、(a)別の言語、コード、若しくは表記への変換、及び/又は(b)異なる材料形態での再作成のいずれか若しくは両方の後に又は直接にのいずれかで、情報処理機能性を有するシステムに特定の機能を実行させることを意図された命令のセットの、任意の言語、コード、又は表記での任意の表現を意味する。さらに、本発明の教示を、加入契約又は料金を基礎とするビジネスメソッドとして提供できることを了解されたい。たとえば、システム及び/又はコンピュータを、顧客のために本明細書に記載の機能を提供するサービスプロバイダによって作成し、維持し、サポートし、及び/又は展開することができる。すなわち、サービスプロバイダは、上で説明した機能性を提供することができる。
本発明を、その趣旨又は本質的特性から逸脱せずに他の特定の形で実施することができる。上で説明した実施形態が、単純に例示であり、本発明の原理に関して制限的ではないことを理解されたい。本発明の原理を実施し、本発明の趣旨及び範囲に含まれるさまざまな及び他の修正及び変更を、当業者が行うことができ、したがって、特許請求の範囲の同等性の意味及び範囲に含まれるすべての変更は、特許請求の範囲に含まれることが意図されている。
100 文脈内正確一致翻訳システム
102 コンピュータ
112 メモリ
114 処理ユニット
116 I/Oインターフェース
118 バス
120 I/Oデバイス
122 ストレージシステム
128 翻訳メモリ
130 正確一致デターミナ
132 ICE一致デターミナ
133 ハッシュアルゴリズム
134 ファジイ一致デターミナ
136 TMジェネレータ
138 セグメントリトリーバ
140 他のシステム構成要素
142 文脈アイデンティファイヤ
144 ICE一致エバリュエータ
146 ICE一致プライオリタイザ
148 TMエントリ
150 クライアント側システム
152 ソーステキスト
154 ルックアップセグメント
162 ターゲットテキスト
164 ターゲットテキスト
166 文脈識別
168 ソース使用文脈部分
170 資産文脈部分
172 先行UCハッシュコード
174 後UCハッシュコード
180 ソース資産
190 直接に先行するセグメント
192 直接に続くセグメント
200 SIDアサイナ
202 コミュニケータ

Claims (35)

  1. 翻訳されるルックアップセグメントに対する翻訳メモリに格納された複数のソーステキストのマッチングレベルを判定する方法であって、
    前記複数のソーステキスト内の前記ルックアップセグメントのすべての正確一致を判定するステップと、
    少なくとも1つの正確一致が判定される場合に、前記ルックアップセグメントの文脈がそれぞれの正確一致の文脈と一致するとき、前記それぞれの正確一致が前記ルックアップセグメントの文脈内正確(ICE)一致であると判定するステップと
    を含み、
    前記文脈が、少なくとも2つのレベルを含み、
    前記少なくとも2つのレベルが、ソース使用文脈レベル及びターゲット使用文脈レベルを含む、方法。
  2. 複数のICE一致が判定される場合に、ICE一致を判定する前記ステップが、より適切なICE一致が1つ又は複数の他のICE一致より優先され得るようにするために、文脈マッチングの度合に従って各ICE一致に優先順位を付けることを含む、請求項1に記載の方法。
  3. 前記ルックアップセグメントのソース使用文脈レベルとターゲット使用文脈レベルとの両方と一致するソース使用文脈レベルとターゲット使用文脈レベルとの両方とを有するICE一致が、前記ルックアップセグメントのソース使用文脈レベルと一致するソース使用文脈レベルのみを有するICE一致より高い度合の文脈マッチングがあるとされる、請求項1又は2に記載の方法。
  4. 前記ルックアップセグメントのターゲット使用文脈レベルと一致するターゲット使用文脈レベルを有するICE一致が、前記ルックアップセグメントのソース使用文脈レベルと一致するソース使用文脈レベルのみを有するICE一致より高い度合の文脈マッチングがあるとされる、請求項1〜3のいずれか一項に記載の方法。
  5. 前記ソース使用文脈レベルが、先行ソース使用文脈レベルを含み、及び/又は前記ターゲット文脈使用レベルが、先行ターゲット使用文脈レベルを含む、請求項1〜4のいずれか一項に記載の方法。
  6. 前記ソース使用文脈レベルが、後ソース使用文脈レベルを含み、及び/又は前記ターゲット文脈使用レベルが、後ターゲット使用文脈レベルを含む、請求項1〜5のいずれか一項に記載の方法。
  7. 前記少なくとも2つのレベルが、構造的文脈レベルを含む、請求項1〜6のいずれか一項に記載の方法。
  8. 複数のICE一致が判定される場合に、ICE一致を判定する前記ステップが、より適切なICE一致が1つ又は複数の他のICE一致より優先され得るようにするために、文脈マッチングの度合に従って各ICE一致に優先順位を付けるステップを含み、
    前記ソース使用文脈レベルが、先行ソース使用文脈レベルを含み、前記ターゲット文脈使用レベルが、先行ターゲット使用文脈レベルを含み、
    前記ルックアップセグメントの先行ソース使用文脈レベル及び/又は先行ターゲット使用文脈レベルと一致する先行ソース使用文脈レベル及び/又は先行ターゲット使用文脈レベルを有するICE一致が、前記ルックアップセグメントの構造的文脈レベルと一致する構造的文脈レベルのみを有するICE一致より高い度合の文脈マッチングがあるとされる、請求項1〜7のいずれか一項に記載の方法。
  9. ICE一致を判定する前記ステップは、前記ルックアップセグメントの複数の文脈レベルがそれぞれの正確一致の文脈レベルと一致する場合に限って、前記それぞれの正確一致が前記ルックアップセグメントのICE一致であることを示す、請求項1〜8のいずれか一項に記載の方法。
  10. ICE一致を判定する前記ステップは、前記ルックアップセグメントの少なくとも1つの使用文脈レベル及び構造的文脈レベルがそれぞれの正確一致の少なくとも1つの使用文脈レベル及び構造的文脈レベルと一致する場合に限って、前記それぞれの正確一致が前記ルックアップセグメントのICE一致であることを示す、請求項1〜9のいずれか一項に記載の方法。
  11. 前記少なくとも1つの使用文脈レベルが、先行ターゲット使用文脈レベルを含む、請求項10に記載の方法。
  12. 前記少なくとも1つの使用文脈レベルが、先行ソース使用文脈レベルを含む、請求項10に記載の方法。
  13. 複数のICE一致が判定される場合に、ICE一致を判定する前記ステップが、より適切なICE一致が1つ又は複数の他のICE一致より優先され得るようにするために、文脈一致の度合に従って各ICE一致に優先順位を付けるステップを含み、
    前記優先順位を付けるステップが、
    前記ルックアップセグメントのソース使用文脈レベル、ターゲット使用文脈レベル、及び構造文脈レベルと一致するソース使用文脈レベル、ターゲット使用文脈レベル、及び構造文脈レベルを有するICE一致を第1に優先するステップ
    を含む、請求項1〜12のいずれか一項に記載の方法。
  14. 第1に優先する前記ステップが、非決定的である場合に、前記ルックアップセグメントのソース使用文脈レベル及びターゲット使用文脈レベルと一致するソース使用文脈レベル及びターゲット使用文脈レベルを有するICE一致を第2に優先するステップを含む、請求項13に記載の方法。
  15. 前記ソース文脈レベルが、先行ソース使用文脈レベルであり、前記ターゲット使用文脈レベルが、先行ターゲット使用文脈レベルである、請求項13又は14に記載の方法。
  16. 第2に優先する前記ステップが、非決定的である場合に、前記ルックアップセグメントの後ソース使用文脈レベル又は後ターゲット使用文脈レベルと一致する後ソース使用文脈レベル又は後ターゲット使用文脈レベルのいずれかのみを有するICE一致よりも、前記ルックアップセグメントの先行ソース使用文脈レベル又は先行ターゲット使用文脈レベルと一致する先行ソース使用文脈レベル又は先行ターゲット使用文脈レベルのいずれかを有するICE一致を第3に優先するステップを含む、請求項14に記載の方法。
  17. 第3に優先する前記ステップが、非決定的である場合に、前記ルックアップセグメントの構造的文脈レベルと一致する構造的文脈レベルのみを有するICE一致よりも、前記ルックアップセグメントの任意の使用文脈レベルと一致する使用文脈レベルを有するICE一致を第4に優先するステップを含む、請求項16に記載の方法。
  18. 第4に優先する前記ステップが、非決定的である場合に、前記ルックアップセグメントの構造的文脈レベルとは異なる構造的文脈レベルを有するICE一致よりも、前記ルックアップセグメントの構造的文脈レベルと一致する構造的文脈レベルを有するICE一致を第5に優先するステップを含む、請求項17に記載の方法。
  19. 第5に優先する前記ステップが、非決定的である場合に、資産内の前記ルックアップセグメントの位置に最も近い位置を有するICE一致を第6に優先するステップを含む、請求項18に記載の方法。
  20. ユーザが優先順位付けに基づいて前記ICE一致を選択することを可能にするステップをさらに含む、請求項2〜19のいずれか一項に記載の方法。
  21. 前記ルックアップセグメントが、内容に関して実質的に同一である複数のルックアップセグメントを含み、
    ICE一致を判定する前記ステップが、ルックアップセグメントごとにICE一致を判定するステップを含む、請求項1〜20のいずれか一項に記載の方法。
  22. 前記少なくとも1つのルックアップセグメントが、少なくとも1つの他のルックアップセグメントとは異なるICE一致を有する、請求項21に記載の方法。
  23. 翻訳されるルックアップセグメントに対する翻訳メモリに格納された複数のソーステキストのマッチングレベルを判定するシステムであって、
    前記複数のソーステキスト内の前記ルックアップセグメントのすべての正確一致を判定する手段と、
    少なくとも1つの正確一致が判定される場合に、前記ルックアップセグメントの文脈がそれぞれの正確一致の文脈と一致するとき、前記それぞれの正確一致が前記ルックアップセグメントの文脈内正確(ICE)一致であると判定する手段と
    を備え、
    前記文脈が、少なくとも2つのレベルを含み、
    前記少なくとも2つのレベルが、ソース使用文脈レベル及びターゲット使用文脈レベルを含む、システム。
  24. 翻訳メモリ内にソーステキスト及びターゲットテキストの翻訳単位を格納する方法であって、
    前記翻訳単位に文脈を割り当てるステップであって、前記文脈が、少なくとも2つのレベルを含み、前記少なくとも2つのレベルが、ソース使用文脈レベル及びターゲット使用文脈レベルを含む、ステップと、
    前記翻訳単位と共に前記文脈を格納するステップと
    を含む方法。
  25. 翻訳メモリ内にソーステキスト及びターゲットテキストの翻訳単位を格納するシステムであって、
    前記翻訳単位に文脈を割り当てる手段であって、前記文脈が、少なくとも2つのレベルを含み、前記少なくとも2つのレベルが、ソース使用文脈レベル及びターゲット使用文脈レベルを含む、手段と、
    前記翻訳単位と共に前記文脈を格納する手段と
    を含むシステム。
  26. ルックアップセグメントとの比較のための複数のソーステキストと、
    ソーステキストごとの文脈識別子と、
    を備え、前記文脈識別子が、ソース使用文脈部分及びターゲット使用文脈部分を含む、翻訳メモリ。
  27. 前記ソース使用文脈部分及び/又はターゲット使用文脈部分が、先行使用文脈部分及び/又は後使用文脈部分を備える、請求項26に記載の翻訳メモリ。
  28. 前記文脈識別子が、構造的文脈部分を備える、請求項26又は27に記載の翻訳メモリ。
  29. 翻訳メモリを含む翻訳システムと対話するクライアント側システムであって、
    前記翻訳システムによって翻訳されるセグメントにセグメント識別子を割り当てる手段であって、前記セグメント識別子が、前記セグメントのソース使用文脈及びターゲット使用文脈を示す、手段と、
    前記翻訳メモリの一部としての格納のために前記セグメント識別子割当を通信する手段と
    を備えるクライアント側システム。
  30. 前記セグメント識別子が、構造的文脈を備える、請求項29に記載のクライアント側システム。
  31. 翻訳されるルックアップセグメントに対する翻訳メモリに格納された複数のソーステキストのマッチングレベルを判定する方法であって、
    前記複数のソーステキスト内の前記ルックアップセグメントのすべてのファジイ一致を判定するステップと、
    少なくとも1つのファジイ一致が判定される場合に、前記ルックアップセグメントの文脈がそれぞれのファジイ一致の文脈と一致するとき、前記それぞれのファジイ一致が前記ルックアップセグメントの文脈内ファジイ一致であると判定するステップと
    を含む方法。
  32. 前記判定されたファジイ一致が、同一の度合のファジイマッチングを有するファジイ一致を含む、請求項31に記載の方法。
  33. 前記文脈が、構造的文脈を含む、請求項31又は32に記載の方法。
  34. 翻訳されるルックアップセグメントに対する翻訳メモリに格納された複数のソーステキストのマッチングレベルを判定するシステムであって、
    前記複数のソーステキスト内の前記ルックアップセグメントのすべてのファジイ一致を判定する手段と、
    少なくとも1つのファジイ一致が判定される場合に、前記ルックアップセグメントの文脈がそれぞれのファジイ一致の文脈と一致するとき、前記それぞれのファジイ一致が前記ルックアップセグメントの文脈内ファジイ一致であると判定する手段と
    を含むシステム。
  35. 請求項1、24、又は31のいずれか一項に記載の方法を実行するように適合されたコンピュータソフトウェア。
JP2009246729A 2009-10-27 2009-10-27 文脈内正確(ice)一致 Active JP5473533B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009246729A JP5473533B2 (ja) 2009-10-27 2009-10-27 文脈内正確(ice)一致

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009246729A JP5473533B2 (ja) 2009-10-27 2009-10-27 文脈内正確(ice)一致

Publications (2)

Publication Number Publication Date
JP2011095841A true JP2011095841A (ja) 2011-05-12
JP5473533B2 JP5473533B2 (ja) 2014-04-16

Family

ID=44112701

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009246729A Active JP5473533B2 (ja) 2009-10-27 2009-10-27 文脈内正確(ice)一致

Country Status (1)

Country Link
JP (1) JP5473533B2 (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8935148B2 (en) 2009-03-02 2015-01-13 Sdl Plc Computer-assisted natural language translation
US8935150B2 (en) 2009-03-02 2015-01-13 Sdl Plc Dynamic generation of auto-suggest dictionary for natural language translation
US9128929B2 (en) 2011-01-14 2015-09-08 Sdl Language Technologies Systems and methods for automatically estimating a translation time including preparation time in addition to the translation itself
US9342506B2 (en) 2004-03-05 2016-05-17 Sdl Inc. In-context exact (ICE) matching
US9400786B2 (en) 2006-09-21 2016-07-26 Sdl Plc Computer-implemented method, computer software and apparatus for use in a translation system
US9600472B2 (en) 1999-09-17 2017-03-21 Sdl Inc. E-services translation utilizing machine translation and translation memory
US10635863B2 (en) 2017-10-30 2020-04-28 Sdl Inc. Fragment recall and adaptive automated translation
CN111177098A (zh) * 2019-12-27 2020-05-19 中信百信银行股份有限公司 查看系统日志上下文的方法及系统
US10817676B2 (en) 2017-12-27 2020-10-27 Sdl Inc. Intelligent routing services and systems
US11256867B2 (en) 2018-10-09 2022-02-22 Sdl Inc. Systems and methods of machine learning for digital assets and message creation

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04152466A (ja) * 1990-10-17 1992-05-26 Hitachi Ltd 機械翻訳方法
JPH0793331A (ja) * 1993-09-24 1995-04-07 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 対話文翻訳装置
JP2004318510A (ja) * 2003-04-16 2004-11-11 Toshiba Corp 対訳情報作成装置、対訳情報作成用プログラム、対訳情報作成方法、対訳情報検索装置、対訳情報検索用プログラム及び対訳情報検索方法
US20050197827A1 (en) * 2004-03-05 2005-09-08 Russ Ross In-context exact (ICE) matching

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04152466A (ja) * 1990-10-17 1992-05-26 Hitachi Ltd 機械翻訳方法
JPH0793331A (ja) * 1993-09-24 1995-04-07 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 対話文翻訳装置
JP2004318510A (ja) * 2003-04-16 2004-11-11 Toshiba Corp 対訳情報作成装置、対訳情報作成用プログラム、対訳情報作成方法、対訳情報検索装置、対訳情報検索用プログラム及び対訳情報検索方法
US20050197827A1 (en) * 2004-03-05 2005-09-08 Russ Ross In-context exact (ICE) matching

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
松永 聡彦: "改版文書翻訳システムにおける文脈を考慮した文対応付け手法", 電子情報通信学会技術研究報告, vol. 第103巻,第280号, JPN6013028782, 22 August 2003 (2003-08-22), pages 43 - 48, ISSN: 0002555978 *
熊野 正: "文脈素性のベクタ空間モデルを用いた日英翻訳選択−SENSEVAL−2日本語翻訳タスク参加システムの開", 自然言語処理, vol. 第10巻,第3号, JPN6013028781, 10 April 2003 (2003-04-10), pages 39 - 59, ISSN: 0002555979 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9600472B2 (en) 1999-09-17 2017-03-21 Sdl Inc. E-services translation utilizing machine translation and translation memory
US10216731B2 (en) 1999-09-17 2019-02-26 Sdl Inc. E-services translation utilizing machine translation and translation memory
US10198438B2 (en) 1999-09-17 2019-02-05 Sdl Inc. E-services translation utilizing machine translation and translation memory
US9342506B2 (en) 2004-03-05 2016-05-17 Sdl Inc. In-context exact (ICE) matching
US10248650B2 (en) 2004-03-05 2019-04-02 Sdl Inc. In-context exact (ICE) matching
US9400786B2 (en) 2006-09-21 2016-07-26 Sdl Plc Computer-implemented method, computer software and apparatus for use in a translation system
US8935148B2 (en) 2009-03-02 2015-01-13 Sdl Plc Computer-assisted natural language translation
US9262403B2 (en) 2009-03-02 2016-02-16 Sdl Plc Dynamic generation of auto-suggest dictionary for natural language translation
US8935150B2 (en) 2009-03-02 2015-01-13 Sdl Plc Dynamic generation of auto-suggest dictionary for natural language translation
US9128929B2 (en) 2011-01-14 2015-09-08 Sdl Language Technologies Systems and methods for automatically estimating a translation time including preparation time in addition to the translation itself
US10635863B2 (en) 2017-10-30 2020-04-28 Sdl Inc. Fragment recall and adaptive automated translation
US11321540B2 (en) 2017-10-30 2022-05-03 Sdl Inc. Systems and methods of adaptive automated translation utilizing fine-grained alignment
US10817676B2 (en) 2017-12-27 2020-10-27 Sdl Inc. Intelligent routing services and systems
US11475227B2 (en) 2017-12-27 2022-10-18 Sdl Inc. Intelligent routing services and systems
US11256867B2 (en) 2018-10-09 2022-02-22 Sdl Inc. Systems and methods of machine learning for digital assets and message creation
CN111177098A (zh) * 2019-12-27 2020-05-19 中信百信银行股份有限公司 查看系统日志上下文的方法及系统
CN111177098B (zh) * 2019-12-27 2023-09-22 中信百信银行股份有限公司 查看系统日志上下文的方法及系统

Also Published As

Publication number Publication date
JP5473533B2 (ja) 2014-04-16

Similar Documents

Publication Publication Date Title
US10248650B2 (en) In-context exact (ICE) matching
EP2317447B1 (en) In-context exact (ICE) matching
JP5473533B2 (ja) 文脈内正確(ice)一致
US20100262621A1 (en) In-context exact (ice) matching
CN107209759B (zh) 注解辅助装置及记录介质
US9778929B2 (en) Automated efficient translation context delivery
US7478092B2 (en) Key term extraction
CN106934069B (zh) 数据检索方法及系统
US20190287197A1 (en) Interactive tutorial integration
US20110307243A1 (en) Multilingual runtime rendering of metadata
Nithya et al. A hybrid approach to English to Malayalam machine translation
Bryl et al. Interlinking and knowledge fusion
Alegria et al. Reciprocal enrichment between basque wikipedia and machine translation
RU2546064C1 (ru) Распределенная система и способ языкового перевода
JP2012113459A (ja) 用例翻訳システム、用例翻訳方法及び用例翻訳プログラム
US10229113B1 (en) Leveraging content dimensions during the translation of human-readable languages
US10235362B1 (en) Continuous translation refinement with automated delivery of re-translated content
US10261995B1 (en) Semantic and natural language processing for content categorization and routing
US10223356B1 (en) Abstraction of syntax in localization through pre-rendering
US10275459B1 (en) Source language content scoring for localizability
JP6797038B2 (ja) ソフトウェア素材選定支援装置及びソフトウェア素材選定支援プログラム
US8200651B2 (en) Comprehension of digitally encoded texts
Morris et al. Welsh automatic text summarisation
JP5909123B2 (ja) 機械翻訳装置、機械翻訳方法およびプログラム
Pang et al. I can guess what you mean: A monolingual query enhancement for machine translation

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120622

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120626

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120925

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120928

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20121018

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20121023

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20121126

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20121129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130618

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130918

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130924

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20131018

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20131023

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140204

R150 Certificate of patent or registration of utility model

Ref document number: 5473533

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250