JP5473533B2 - In-context exact (ICE) match - Google Patents

In-context exact (ICE) match Download PDF

Info

Publication number
JP5473533B2
JP5473533B2 JP2009246729A JP2009246729A JP5473533B2 JP 5473533 B2 JP5473533 B2 JP 5473533B2 JP 2009246729 A JP2009246729 A JP 2009246729A JP 2009246729 A JP2009246729 A JP 2009246729A JP 5473533 B2 JP5473533 B2 JP 5473533B2
Authority
JP
Japan
Prior art keywords
context
match
level
ice
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009246729A
Other languages
Japanese (ja)
Other versions
JP2011095841A (en
Inventor
ロス ラス
ギルスピー ケヴィン
ミルズ キース
ランカスター マーク
Original Assignee
エスディーエル・ピーエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by エスディーエル・ピーエルシー filed Critical エスディーエル・ピーエルシー
Priority to JP2009246729A priority Critical patent/JP5473533B2/en
Publication of JP2011095841A publication Critical patent/JP2011095841A/en
Application granted granted Critical
Publication of JP5473533B2 publication Critical patent/JP5473533B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、全般的には内容の処理に関し、より具体的には、内容に関連する翻訳及び他の処理機能を単純にするか他の形で容易にするために文脈を含むソース内容との正確な翻訳一致を保証することに関する。   The present invention relates generally to content processing, and more specifically to content content-related source content to simplify or otherwise facilitate content-related translation and other processing functions. Relating to ensuring accurate translation matching.

情報が、特にインターネット及びワールドワイドウェブの出現及びすばやい利用を与えられれば、グローバルな基礎でよりアクセス可能になるので、翻訳の役割は、ソーステキストからターゲット言語への単純な筆写から離れて変化してきた。翻訳者は、現在、指定された場所及び顧客への翻訳された内容のタイムリーで正確な展開を保証しなければならない。したがって、内容翻訳に関する高まる需要は、多数の会社に翻訳プロセスの一部を自動化しこれを助けるツールを開発するように促してきた。翻訳者ができる限り早く内容を翻訳することを求めると仮定すると、翻訳を、以前の翻訳を将来の使用のために保存するソフトウェア機能性及び能力におけるより高い柔軟性を用いて、より効率的にすることができる。したがって、翻訳のブロック及び/又はセグメント(「翻訳メモリ」すなわち「TM」)を含む翻訳をコンピュータメモリ内に保存するツールが作成されてきた。   The role of translation has changed away from simple handwriting from source text to target language, as information becomes more accessible on a global basis, especially given the emergence and quick use of the Internet and the World Wide Web. It was. Translators must now ensure timely and accurate deployment of translated content to designated locations and customers. Thus, the growing demand for content translation has urged many companies to develop tools to automate and help part of the translation process. Assuming that the translator seeks to translate the content as soon as possible, the translation becomes more efficient, with greater flexibility in software functionality and ability to save previous translations for future use. can do. Accordingly, tools have been created that store translations, including translation blocks and / or segments (“translation memories” or “TMs”), in computer memory.

翻訳データベースとしても知られる翻訳メモリは、ソーステキストが1つ又は複数のターゲット言語でのそれに対応する翻訳に関連付けられるエントリのコレクションである。翻訳メモリは、現在のテキスト及び将来に翻訳されるテキストと共に使用するために取り出され得るテキストセグメントのソース言語/ターゲット言語対を格納するデータベースを含む。通常、TMは、翻訳ツール内で使用され、翻訳者がセグメントを「オープン」する時に、アプリケーションは、同等のソーステキストについてデータベースをルックアップする。その結果は、通常、文書内のソーステキストとTM内のソーステキストとの間の類似性のパーセンテージを表すスコアを用いてランキングされた一致のリストである。翻訳者又は異なるTMシステムは、最終結果が高品質翻訳になるようにするために、ルックアップセグメントと対にされるターゲットテキストセグメントを提供する。   A translation memory, also known as a translation database, is a collection of entries in which source text is associated with corresponding translations in one or more target languages. The translation memory includes a database that stores the source / target language pairs of text segments that can be retrieved for use with current text and text that will be translated in the future. Typically, TM is used in a translation tool, and when a translator “opens” a segment, the application looks up the database for equivalent source text. The result is usually a list of matches ranked using a score that represents the percentage of similarity between the source text in the document and the source text in the TM. A translator or a different TM system provides a target text segment that is paired with a lookup segment to ensure that the final result is a high quality translation.

二か国語及び多種言語の辞書、文法チェッカ、スペルチェッカ、並びに用語ソフトウェアなど、多数のコンピュータ支援翻訳(「CAT」)ツールが、翻訳者を支援するために使用可能であるが、TMは、これらの他のCATツールを利用すると同時に、正確マッチング及びファジイマッチングを介して、そのデータベースに格納されたオリジナルソース文書を更新された文書又は改訂された文書とマッチアップすることによって、一歩先んじる。正確一致(100%一致)とは、文書内のソーステキストとTM内のソーステキストとの間に差がない(或いは、ツールによって自動的に処理できない差がない)一致である。ファジイ一致(100%未満の一致)とは、文書内のソーステキストがTM内のソーステキストに非常に似ているが正確に同一ではない一致である。複製された正確一致は、しばしば、ファジイ一致としても扱われる。TMシステムは、翻訳者の助けとして使用され、人間の翻訳者のテキストを将来の使用のためにデータベースに格納する。たとえば、翻訳者が、オリジナルテキストを翻訳し、翻訳メモリを使用して対になったソースセグメント及びターゲットセグメントを格納する時に、TMを利用することができる。次に、翻訳者は、格納されたテキストを再利用して、そのテキストの改訂又は更新された版を翻訳することができる。新しいテキストのうちで古いテキストと一致しないセグメントだけが、翻訳されなければならない。代替案は、手動翻訳システム又は異なるCATシステムを使用して、オリジナルテキストを翻訳することである。その後、TMシステムを翻訳者が使用して、翻訳者又は他のCATシステムによって作られたテキストを位置合せし、これらを現在及び将来の作業のためにTMデータベースに格納することによって、改訂又は更新を翻訳することができる。次に、翻訳者は、上で説明したようにTMを使用して、新しいテキストのセグメントだけの翻訳に進むことができる。   A number of computer-aided translation (“CAT”) tools are available to assist translators, including bilingual and multilingual dictionaries, grammar checkers, spell checkers, and terminology software. At the same time as using other CAT tools, we go one step further by matching the original source document stored in the database with the updated or revised document via exact and fuzzy matching. An exact match (100% match) is a match where there is no difference between the source text in the document and the source text in the TM (or there is no difference that cannot be processed automatically by the tool). A fuzzy match (less than 100% match) is a match where the source text in the document is very similar to the source text in the TM but is not exactly the same. Replicated exact matches are often treated as fuzzy matches. The TM system is used to help translators and stores human translator text in a database for future use. For example, a TM can be utilized when a translator translates the original text and stores the paired source and target segments using a translation memory. The translator can then reuse the stored text to translate a revised or updated version of the text. Only segments of the new text that do not match the old text must be translated. An alternative is to translate the original text using a manual translation system or a different CAT system. The TM system is then used by the translator to revise or update the text produced by the translator or other CAT system, aligning them and storing them in the TM database for current and future work. Can be translated. The translator can then proceed to translate only the new text segment using the TM as described above.

TMの使用には、多数の利益がある。翻訳を、はるかにより高速に進めることができ、既存翻訳の不必要な再入力を避けることができ、及び/又は翻訳者がテキストのある部分だけを変更することを可能にすることができる。TMは、翻訳の品質のよりよい制御をも可能にする。関連技術では、TMは、非常に大規模なプロジェクトで翻訳ステップを高速化するのに使用された。たとえば、ソフトウェア会社が、そのソフトウェア製品のバージョン1を公開し、添付ドキュメンテーションを翻訳する必要がある場合がある。ドキュメンテーションは、文に分解され、すべての文対がTMに取り込まれる状態で翻訳される。2年後、その会社が、そのソフトウェアのバージョン2を公開する。ドキュメンテーションは、大幅に変更されているが、オリジナルドキュメンテーションに類似するかなりの部分もある。今回は、翻訳者がドキュメンテーションを翻訳する時に、翻訳者の作業は、TMからの完全一致及びファジイ一致を活用することを介して減らされる。この例によって示されるように、TMは、通常、パイプラインプロセス内で援助として使用される。関連技術では、TMの利用に関するいくつかの制限もある。   There are numerous benefits to using TM. The translation can proceed much faster, avoid unnecessary re-entry of existing translations, and / or allow the translator to change only certain parts of the text. TM also allows better control of the quality of translation. In the related art, TM has been used to speed up translation steps in very large projects. For example, a software company may need to publish version 1 of its software product and translate the accompanying documentation. The documentation is broken down into sentences and translated with all sentence pairs taken into the TM. Two years later, the company releases version 2 of the software. Although the documentation has changed significantly, there are significant parts that are similar to the original documentation. This time, when the translator translates the documentation, the translator's work is reduced through taking advantage of exact and fuzzy matches from the TM. As shown by this example, TM is typically used as an aid within the pipeline process. The related art also has some limitations on the use of TM.

正確一致を使用する(それらの妥当性検査なしで)翻訳の自動活用は、正しくない翻訳を生成する可能性がある。というのは、オリジナルセグメントが使用された文脈と比較した新しいセグメントが使用される文脈の検証がないからである。これが、再利用とリサイクリングとの間の差である。関連技術では、TMシステムは、リサイクリングシステムである。ウェブコンテンツに関して、及びここでは多数のタイプの内容に関して、文書が翻訳され、その後、些細な変更が行われ、その後、もう一度翻訳する必要があることが一般的である。たとえば、製品の利益をリストしたウェブ文書が翻訳される場合があり、その後、新しい利益が追加される場合があり、したがって、その文書はもう一度翻訳される必要があるはずである。関連技術では、TMは、2回目に文書を翻訳する労力を減らす。ソーステキストがTM内の1つ又は複数のエントリと同一である場合には、ほとんどの文について正確一致が存在する。次に、翻訳者は、文脈情報に対する一致の適切性を評価することによって、それぞれについて正しい正確一致が選択されたことを確認する。しかし、関連技術は、内容文脈の判定を提供しない。さらに、関連技術において、所与のセグメントについて最良の正確一致を正確に選択する、又は所与の正確一致がそれが適用されている文脈について適切な一致であるかどうかを妥当性検査する自動化されたプロセスはない。したがって、翻訳者が、一致を妥当性検査することが要求される。翻訳者が妥当性検査し、おそらくは少数の単語が変更された可能性があるにすぎない時にすべての文についてアクションを実行することが必要であるという事実は、関連技術の下でセグメントが異なる状況又は文脈の下で異なって翻訳され得ることを考慮すると、著しく非効率的である。   Automatic use of translations that use exact matches (without their validation) can produce incorrect translations. This is because there is no verification of the context in which the new segment is used compared to the context in which the original segment was used. This is the difference between reuse and recycling. In the related art, the TM system is a recycling system. For web content, and here for many types of content, it is common for documents to be translated, after which minor changes are made, and then translated again. For example, a web document listing product benefits may be translated, and then new benefits may be added, so the document will need to be translated again. In the related art, TM reduces the effort of translating a document a second time. If the source text is identical to one or more entries in the TM, there is an exact match for most sentences. The translator then verifies that the correct exact match was selected for each by evaluating the suitability of the match for the contextual information. However, the related art does not provide content context determination. In addition, in the related art, automated to select the best exact match for a given segment correctly, or to validate whether a given exact match is an appropriate match for the context in which it is applied. There is no process. Therefore, the translator is required to validate the match. The fact that translators need to perform an action on every sentence when it is validated and perhaps only a few words may have been changed Or it is significantly inefficient considering that it can be translated differently under context.

前述に鑑みて、所与の正確一致が、それが適用されている文脈に関して適切な一致であるかどうかを正確に妥当性検査する自動化されたプロセスの必要が、当技術分野にはある。   In view of the foregoing, there is a need in the art for an automated process that accurately validates whether a given exact match is an appropriate match with respect to the context in which it is applied.

本発明の第1の態様によれば、翻訳されるルックアップセグメントに対する翻訳メモリに格納された複数のソーステキストのマッチングレベルを判定する方法であって、
複数のソーステキスト内のルックアップセグメントのすべての正確一致を判定するステップと、
少なくとも1つの正確一致が判定される場合に、ルックアップセグメントの文脈がそれぞれの正確一致の文脈と一致する場合にそれぞれの正確一致がルックアップセグメントの文脈内正確(in−context exact、ICE)一致であると判定するステップと
を含み、文脈が、少なくとも2つのレベルを含み、
少なくとも2つのレベルが、ソース使用文脈レベル及びターゲット使用文脈レベルを含む
方法が提供される。したがって、翻訳メモリが、特定のルックアップセグメントの出現について検索されるときに、複数の正確一致が見つかる場合には、本発明は、複数の正確一致の間での曖昧性除去を可能にする。曖昧性除去は、正確一致のそれぞれの文脈と比較したルックアップセグメントの文脈に従って実行される。あるセグメントの少なくとも1つの文脈レベルがルックアップセグメントの文脈レベルと一致する場合に、そのセグメントは、ICE一致である。ICE一致は、非ICE一致より関連する傾向がある。ICE一致を、ソース言語のソース使用文脈レベル及び/又はターゲット言語のターゲット使用文脈レベルなど、文脈の異なるレベルに従って識別することができる。
According to a first aspect of the invention, there is provided a method for determining a matching level of a plurality of source texts stored in a translation memory for a lookup segment to be translated, comprising:
Determining all exact matches of lookup segments in multiple source texts;
If at least one exact match is determined, each exact match is an in-context exact (ICE) match of the lookup segment if the context of the lookup segment matches the context of the respective exact match Determining that the context includes at least two levels;
A method is provided in which at least two levels include a source usage context level and a target usage context level. Thus, if multiple exact matches are found when the translation memory is searched for the occurrence of a particular lookup segment, the present invention allows disambiguation between multiple exact matches. Disambiguation is performed according to the context of the lookup segment compared to the respective context of the exact match. A segment is ICE matched if at least one context level of a segment matches the context level of the lookup segment. ICE matches tend to be more relevant than non-ICE matches. ICE matches can be identified according to different levels of context, such as a source usage context level of the source language and / or a target usage context level of the target language.

本発明の実施形態では、複数のICE一致が判定される場合に、ICE一致を判定するステップは、より適切なICE一致が1つ又は複数の他のICE一致より優先され得るようにするために、文脈マッチングの度合に従って各ICE一致に優先順位を付けることを含む。したがって、本発明は、複数の正確一致の曖昧性除去を可能にし、ここで、より高い優先順位のICE一致は、より低い優先順位のICE一致より関連する翻訳である傾向がある。   In an embodiment of the present invention, when multiple ICE matches are determined, the step of determining an ICE match is to allow a more appropriate ICE match to take precedence over one or more other ICE matches. , Prioritizing each ICE match according to the degree of context matching. Thus, the present invention allows disambiguation of multiple exact matches, where higher priority ICE matches tend to be more relevant translations than lower priority ICE matches.

本発明の他の実施形態では、ルックアップセグメントのソース使用文脈レベルとターゲット使用文脈レベルとの両方と一致するソース使用文脈レベルとターゲット使用文脈レベルとの両方とを有するICE一致は、ルックアップセグメントのソース使用文脈レベルと一致するソース使用文脈レベルのみを有するICE一致より高い度合の文脈マッチングがあるとされる。組み合わされた一致するソース使用文脈及びターゲット使用文脈は、一致するソースターゲット使用文脈のみより関連する一致を示す傾向があり、したがって、前者は、後者より優先される。   In another embodiment of the present invention, an ICE match having both a source usage context level and a target usage context level that match both the source usage context level and the target usage context level of the lookup segment is the lookup segment. Suppose that there is a higher degree of context matching than an ICE match with only a source usage context level that matches the source usage context level. The combined matching source usage context and target usage context tend to show more relevant matches than only the matching source target usage context, so the former takes precedence over the latter.

本発明のさらなる構成では、ルックアップセグメントのターゲット使用文脈レベルと一致するターゲット使用文脈レベルを有するICE一致は、ルックアップセグメントのソース使用文脈レベルと一致するソース使用文脈レベルのみを有するICE一致より高い度合の文脈マッチングがあるとされる。ターゲット使用文脈は、一致するソースターゲット使用文脈だけより関連する一致を示す傾向があり、したがって、前者は、後者より高い優先順位を与えられる。   In a further configuration of the invention, an ICE match having a target usage context level that matches the target usage context level of the lookup segment is higher than an ICE match having only a source usage context level that matches the source usage context level of the lookup segment. It is assumed that there is a degree of context matching. Target usage contexts tend to show more relevant matches than only matching source target usage contexts, so the former is given higher priority than the latter.

本発明の1つの構成では、ソース使用文脈レベルは、先行ソース使用文脈レベルを含み、及び/又はターゲット文脈使用レベルは、先行ターゲット使用文脈レベルを含む。ソース言語の現在翻訳されつつあるセグメント(現行セグメント)に先行するセグメント及びターゲット言語の現行セグメントに先行するセグメントの翻訳は、現行セグメントに続くソースセグメント及びターゲットセグメントが有するものより大きい影響を、翻訳されつつあるセグメントの翻訳に対して有する傾向があり、したがって、現行セグメントに先行するセグメントの文脈は、曖昧性除去の目的で重要と考えられる。   In one configuration of the invention, the source usage context level includes a previous source usage context level and / or the target context usage level includes a previous target usage context level. The translation of the segment that precedes the segment currently being translated in the source language (current segment) and the segment that precedes the current segment in the target language are translated to a greater impact than the source and target segments that follow the current segment. There is a tendency to have a translation of an incoming segment, so the context of the segment preceding the current segment is considered important for disambiguation purposes.

本発明の他の構成では、ソース使用文脈レベルは、後ソース使用文脈レベルを含み、及び/又はターゲット文脈使用レベルは、後ターゲット使用文脈レベルを含む。ソース言語の現在翻訳されつつあるセグメント(現行セグメント)に続くセグメント及びターゲット言語の現行セグメントに続くセグメントの翻訳は、現在翻訳されつつあるセグメントの翻訳に影響を有する可能性があり、したがって、現行セグメントに続くセグメントの文脈を、現行セグメントに先行するセグメントの文脈の考慮に加えて又はその代わりにのいずれかで考慮することができる。   In other configurations of the present invention, the source usage context level includes a post-source usage context level and / or the target context usage level includes a post-target usage context level. The translation of the segment following the currently translated segment of the source language (current segment) and the segment following the current segment of the target language may have an impact on the translation of the currently translated segment, and therefore The context of the segment following can be considered either in addition to or instead of considering the context of the segment preceding the current segment.

本発明のいくつかの実施形態では、少なくとも2つのレベルが、構造的文脈レベルを含む。(構造的文脈の意味に関する下の詳細な説明の「定義」セクションを参照されたい)。したがって、構造的文脈レベルを、使用文脈レベルに加えて、ICE一致の曖昧性除去で使用することができる。   In some embodiments of the invention, at least two levels include structural context levels. (See the “Definitions” section in the detailed description below for the meaning of structural context). Thus, the structural context level can be used in ICE match disambiguation in addition to the usage context level.

本発明の構成では、複数のICE一致が判定される場合に、ICE一致を判定するステップが、より適切なICE一致が1つ又は複数の他のICE一致より優先され得るようにするために、文脈マッチングの度合に従って各ICE一致に優先順位を付けるステップを含み、
ソース使用文脈レベルが、先行ソース使用文脈レベルを含み、ターゲット文脈使用レベルが、先行ターゲット使用文脈レベルを含み、
ルックアップセグメントの先行ソース使用文脈レベル及び/又は先行ターゲット使用文脈レベルと一致する先行ソース使用文脈レベル及び/又は先行ターゲット使用文脈レベルを有するICE一致が、ルックアップセグメントの構造的文脈レベルと一致する構造的文脈レベルのみを有するICE一致より高い度合の文脈マッチングがあるとされる。一致する先行ソース使用文脈レベル及び先行ターゲット使用文脈レベルを用いる翻訳は、構造的文脈マッチングだけを用いる翻訳より関連する傾向があり、したがって、前者は、後者より高い優先順位を与えられる。
In the configuration of the present invention, when multiple ICE matches are determined, the step of determining an ICE match may allow a more appropriate ICE match to take precedence over one or more other ICE matches. Prioritizing each ICE match according to the degree of context matching,
The source usage context level includes a preceding source usage context level, the target context usage level includes a preceding target usage context level,
An ICE match having a preceding source usage context level and / or a preceding target usage context level that matches the preceding source usage context level and / or the preceding target usage context level of the lookup segment matches the structural context level of the lookup segment It is assumed that there is a higher degree of context matching than an ICE match with only structural context levels. Translations that use matching preceding source usage context levels and preceding target usage context levels tend to be more relevant than translations that use only structural context matching, so the former is given higher priority than the latter.

本発明の実施形態では、ICE一致を判定するステップは、ルックアップセグメントの複数の文脈レベルがそれぞれの正確一致の文脈レベルと一致する場合に限って、それぞれの正確一致がルックアップセグメントのICE一致であることを示す。複数の文脈レベルでルックアップセグメントと一致するICE一致は、1つの文脈レベルでルックアップセグメントと一致するのみであるICE一致より適切な一致である可能性がより高く、したがって、本発明のいくつかの実施形態では、複数の文脈レベルマッチングを有するICE一致のみが、曖昧性除去のために検討される、すなわち、本発明のそのような実施形態では、複数の正確一致は、1つの文脈レベルだけがルックアップセグメントの文脈レベルと一致する(たとえば、構造的文脈のみ又はソース使用レベルのみ)場合には曖昧性除去されない。   In an embodiment of the present invention, the step of determining an ICE match is such that each exact match is an ICE match of the lookup segment only if the multiple context levels of the lookup segment match the context level of the respective exact match. Indicates that An ICE match that matches a lookup segment at multiple context levels is more likely to be a better match than an ICE match that only matches a lookup segment at one context level, and thus some of the present invention In this embodiment, only ICE matches with multiple context level matches are considered for disambiguation, i.e., in such embodiments of the invention, multiple exact matches are only one context level. Is not disambiguated if it matches the context level of the lookup segment (eg, structural context only or source usage level only).

本発明の構成では、ICE一致を判定するステップは、ルックアップセグメントの少なくとも1つの使用文脈レベル及び構造的文脈レベルがそれぞれの正確一致の少なくとも1つの使用文脈レベル及び構造的文脈レベルと一致する場合に限って、それぞれの正確一致がルックアップセグメントのICE一致であることを示す。使用文脈レベルと構造的文脈レベルとの両方のマッチングを有するICE一致は、ルックアップセグメントの関連する翻訳である傾向があり、したがって、そのようなICE一致は、曖昧性除去中に重要と考えられる。   In an arrangement of the present invention, the step of determining an ICE match is when the at least one usage context level and the structural context level of the lookup segment match at least one usage context level and a structural context level of each exact match. Only indicates that each exact match is an ICE match of the lookup segment. An ICE match that has both a usage context level and a structural context level match tends to be an associated translation of the look-up segment, so such an ICE match is considered important during disambiguation .

本発明のもう1つの構成では、少なくとも1つの使用文脈レベルは、先行ターゲット使用文脈レベルを含む。ターゲット言語の現在翻訳されつつあるセグメントに先行するセグメントは、一般に、関連する翻訳の非常によい表示であり、したがって、先行ターゲット使用文脈レベル一致が、優先的に優先順位を与えられる。本発明の好ましい実施形態では、曖昧性除去は、ソース使用文脈レベルと組み合わされたターゲット使用文脈レベルを基礎として実行される。   In another configuration of the invention, the at least one usage context level comprises a preceding target usage context level. The segment that precedes the currently translated segment of the target language is generally a very good indication of the associated translation, and therefore, the preceding target usage context level match is preferentially prioritized. In a preferred embodiment of the present invention, disambiguation is performed on the basis of a target usage context level combined with a source usage context level.

本発明のさらにもう1つの構成では、少なくとも1つの使用文脈レベルは、先行ソース使用文脈レベルを含む。ソース言語の現在翻訳されつつあるセグメントに先行するセグメントは、一般に、関連する翻訳のよい表示であり、したがって、先行ソース使用連絡先レベル一致に、その代わりに優先順位を与えることができる。   In yet another configuration of the invention, the at least one usage context level includes a preceding source usage context level. The segment that precedes the currently translated segment of the source language is generally a good indication of the associated translation, and therefore prior source use contact level matches can be given priority instead.

本発明の実施形態では、複数のICEが一致判定される場合に、ICE一致を判定するステップが、より適切なICEが1つ又は複数の他のICE一致より優先され得るようにするために、文脈一致の度合に従って各ICE一致に優先順位を付けることを含む。優先順位を付けるステップは、ルックアップセグメントに関する最も適切な一致を見つけるために順次考慮することのできる複数の異なる優先するステップを含むことができる。第1ステップは、ルックアップセグメントのソース使用文脈レベル、ターゲット使用文脈レベル、及び構造文脈レベルと一致するソース使用文脈レベル、ターゲット使用文脈レベル、及び構造文脈レベルを有するICE一致を第1に優先するステップを含むことができる。第2ステップは、ルックアップセグメントのソース使用文脈レベル及びターゲット使用文脈レベルと一致するソース使用文脈レベル及びターゲット使用文脈レベルを有するICE一致を第2に優先するステップを含むことができる。好ましくは、ソース文脈レベルは、先行ソース使用文脈レベルであり、ターゲット使用文脈レベルは、先行ターゲット使用文脈レベルである。第3ステップは、ルックアップセグメントの後ソース使用文脈レベル又は後ターゲット使用文脈レベルと一致する後ソース使用文脈レベル又は後ターゲット使用文脈レベルのいずれかのみを有するICE一致よりも、ルックアップセグメントの先行ソース使用文脈レベル又は先行ターゲット使用文脈レベルと一致するルックアップセグメントの先行ソース使用文脈レベル又は先行ターゲット使用文脈レベルのいずれかを有するICE一致を第3に優先するステップを含むことができる。第4ステップは、ルックアップセグメントの構造的文脈レベルと一致する構造的文脈レベルのみを有するICE一致よりも、ルックアップセグメントの使用文脈レベルと一致する任意の使用文脈レベルを有するICE一致を第4に優先するステップを含むことができる。第5ステップは、ルックアップセグメントの異なる構造的文脈レベルを有するICE一致よりも、ルックアップセグメントの構造的文脈レベルと一致する構造的文脈レベルを有するICE一致を第5に優先するステップを含むことができる。第6ステップは、資産内のルックアップセグメントの位置に最も近い位置を有するICE一致を第6に優先するステップを含むことができる。   In an embodiment of the present invention, when multiple ICEs are determined to match, the step of determining an ICE match may allow a more appropriate ICE to take precedence over one or more other ICE matches. Including prioritizing each ICE match according to the degree of context match. Prioritizing may include a plurality of different prioritizing steps that can be considered sequentially to find the most appropriate match for the lookup segment. The first step gives first priority to ICE matches having a source usage context level, a target usage context level, and a structural context level that match the source usage context level, the target usage context level, and the structural context level of the lookup segment. Steps may be included. The second step can include second priority over ICE matches having a source usage context level and a target usage context level that match the source usage context level and the target usage context level of the lookup segment. Preferably, the source context level is a preceding source usage context level and the target usage context level is a preceding target usage context level. The third step is that the look-up segment precedes the ICE match that has only either the post-source usage context level or the post-target usage context level that matches the post-source usage context level or the post-target usage context level. A third priority may be included for ICE matches that have either the previous source usage context level or the previous target usage context level of the lookup segment that matches the source usage context level or the previous target usage context level. The fourth step determines the fourth ICE match with any usage context level that matches the usage context level of the lookup segment, rather than the ICE match with only the structural context level that matches the structural context level of the lookup segment. Overriding steps may be included. The fifth step includes fifth priority over ICE matches having a structural context level that matches the structural context level of the lookup segment over ICE matches having a different structural context level of the lookup segment. Can do. The sixth step may include a sixth priority over an ICE match having a position closest to the position of the lookup segment in the asset.

資産内の位置は、セグメント番号を基礎として判定することができ、ここで、資産内のセグメントに連続して番号を付けることができ、番号をそれぞれのセグメント識別子として使用することができる。代替案では、位置を、資産内の行番号又は単語番号を基礎として判定することができる。さらに、構造的使用文脈を、資産内の位置の形として、すなわち、一致が「見出し」、「表のセル」、「段落」、「脚注」などの中で発生するかどうかを基礎としてそのような位置を示すと解釈することができる。   The location within the asset can be determined on the basis of the segment number, where the segments within the asset can be numbered sequentially and the number can be used as the respective segment identifier. Alternatively, the position can be determined based on the line number or word number in the asset. In addition, the structural usage context is based on the position in the asset, that is, based on whether a match occurs within a “heading”, “table cell”, “paragraph”, “footnote”, etc. It can be interpreted as indicating the correct position.

ある優先するステップが、決定的な結果をもたらす場合には、曖昧性除去手順が終了し、そうでない場合には、この手順は、連続するステップに進み、優先される一致の形の決定的結果に達するまで同様である。本発明の他の実施形態は、上の優先するステップの一部又はすべてを異なる順序で含むことができ、上の優先するステップの代わりに又はこれに加えてのいずれかで、他の優先するステップと組み合わされてもよい。   If a preferred step yields a definitive result, the disambiguation procedure ends; otherwise, the procedure proceeds to successive steps to determine the definitive result in the form of a preferred match. The same is true until it is reached. Other embodiments of the present invention may include some or all of the above preferred steps in a different order, and either other instead of or in addition to the above preferred steps. It may be combined with a step.

本発明の実施形態は、ユーザが優先順位付けに基づいてICE一致を選択することを可能にするステップをさらに含む。したがって、ICE一致が自動的に選択され、翻訳された文書に挿入されるのではなく、ICE一致をユーザに表示することができ、ユーザは、表示されたICE一致のランクを基礎としてICE一致を選択することができる。さらに、ICE一致に、一致する文脈レベルの個数及び/又は一致する文脈レベルのタイプ(ソース、ターゲット、後、先行、構造など)に従ってランクを付け、表示することができる。   Embodiments of the invention further include allowing the user to select ICE matches based on prioritization. Thus, an ICE match can be displayed to the user rather than automatically selected and inserted into the translated document, and the user can select an ICE match based on the displayed rank of the ICE match. You can choose. Further, ICE matches can be ranked and displayed according to the number of matching context levels and / or the type of matching context levels (source, target, later, predecessor, structure, etc.).

本発明の実施形態では、ルックアップセグメントは、内容に関して実質的に同一である複数のルックアップセグメントを含み、ICE一致を判定するステップは、ルックアップセグメントごとにICE一致を判定するステップを含む。したがって、複数のセグメントを、必要な全体的処理を減らすために、バッチで一緒に又は実質的に同時に処理することができる。翻訳されるセグメントのバッチが処理される時に、次のセグメントのICEレベルを判定できるようにするために、ヒューリスティックベースの手法を適用して、セグメントの「最良」翻訳を選択するのを助けることができる(ターゲット使用文脈が考慮に入れられる時に)。1つのそのような手法を、オプションでセグメント位置、最後の翻訳の日付、資産メタデータその他などのフォールバック機構と組み合わされる、最良ICE一致又は単一の正確一致の使用とすることができる。ヒューリスティックベースの手法は、翻訳者との対話がほとんど又は全くないシナリオで有用であり、この場合に、翻訳システムは、曖昧性除去された一致(ICE一致又は他の一致)がセグメントについて十分に適切な一致であるかどうかを確信することができない。   In an embodiment of the present invention, the lookup segment includes a plurality of lookup segments that are substantially identical in content, and determining the ICE match includes determining an ICE match for each lookup segment. Thus, multiple segments can be processed together in batch or substantially simultaneously to reduce the overall processing required. Applying a heuristic-based approach to help select the “best” translation of a segment so that the next segment's ICE level can be determined when a batch of segments to be translated is processed Yes (when the target usage context is taken into account). One such approach may be the use of best ICE matches or single exact matches, optionally combined with a fallback mechanism such as segment location, last translation date, asset metadata, etc. The heuristic-based approach is useful in scenarios where there is little or no interaction with the translator, in which case the translation system makes sure that the disambiguated matches (ICE matches or other matches) are adequate for the segment I can't be sure if it is a good match.

本発明のいくつかの構成では、少なくとも1つのルックアップセグメントが、少なくとも1つの他のルックアップセグメントとは異なるICE一致を有する。通常、1つのルックアップセグメントは、異なるICE一致を有し、この異なるICE一致は、ルックアップセグメントごとにICE一致を識別するプロセスで役立つ可能性がある。   In some configurations of the present invention, at least one lookup segment has a different ICE match than at least one other lookup segment. Typically, one lookup segment has a different ICE match, which can be useful in the process of identifying an ICE match for each lookup segment.

本発明の第2の態様によれば、翻訳されるルックアップセグメントに対する翻訳メモリに格納された複数のソーステキストのマッチングレベルを判定するシステムであって、
複数のソーステキスト内のルックアップセグメントのすべての正確一致を判定する手段と、
少なくとも1つの正確一致が判定される場合に、ルックアップセグメントの文脈がそれぞれの正確一致の文脈と一致する場合にそれぞれの正確一致がルックアップセグメントの文脈内正確(ICE)一致であると判定する手段と
を備え、文脈が、少なくとも2つのレベルを含み、
少なくとも2つのレベルが、ソース使用文脈レベル及びターゲット使用文脈レベルを含む
システムが提供される。
According to a second aspect of the invention, a system for determining a matching level of a plurality of source texts stored in a translation memory for a lookup segment to be translated,
A means of determining all exact matches of lookup segments in multiple source texts;
If at least one exact match is determined, determine that each exact match is an in-context exact (ICE) match of the lookup segment if the context of the lookup segment matches the context of each exact match And the context includes at least two levels,
A system is provided in which at least two levels include a source usage context level and a target usage context level.

本発明の第3の態様によれば、翻訳メモリ内にソーステキスト及びターゲットテキストの翻訳単位を格納する方法であって、
翻訳単位に文脈を割り当てるステップであって、文脈が、少なくとも2つのレベルを含み、少なくとも2つのレベルが、ソース使用文脈レベル及びターゲット使用文脈レベルを含む、ステップと、
翻訳単位と共に文脈を格納するステップと
を含む方法が提供される。
According to a third aspect of the present invention, a method for storing translation units of source text and target text in a translation memory comprising:
Assigning a context to a translation unit, the context comprising at least two levels, at least two levels comprising a source usage context level and a target usage context level;
Storing a context with the translation unit.

本発明の第4の態様によれば、翻訳メモリ内にソーステキスト及びターゲットテキストの翻訳単位を格納するシステムであって、
翻訳単位に文脈を割り当てる手段であって、文脈が、少なくとも2つのレベルを含み、少なくとも2つのレベルが、ソース使用文脈レベル及びターゲット使用文脈レベルを含む、手段と、
翻訳単位と共に文脈を格納する手段と
を含むシステムが提供される。
According to a fourth aspect of the present invention, a system for storing translation units of source text and target text in a translation memory,
Means for assigning a context to a translation unit, wherein the context comprises at least two levels, at least two levels comprising a source usage context level and a target usage context level;
And a means for storing the context along with the translation unit.

本発明の第5の態様によれば、ルックアップセグメントとの比較のための複数のソーステキストと、
ソーステキストごとの文脈識別子と、
を備え、文脈識別子が、ソース使用文脈部分及びターゲット使用文脈部分を含む
翻訳メモリが提供される。
According to a fifth aspect of the present invention, a plurality of source texts for comparison with a lookup segment;
A context identifier for each source text,
And a translation memory is provided in which the context identifier includes a source usage context portion and a target usage context portion.

本発明のいくつかの実施形態では、ソース使用文脈部分及び/又はターゲット使用文脈部分は、先行使用文脈部分及び/又は後使用文脈部分を備える。本発明の他の実施形態では、文脈識別子は、構造的文脈部分を備える。したがって、文脈識別子データを、ルックアップセグメントの翻訳メモリからの検索中などにそれに関連する文脈をたやすく識別できるようにするために、翻訳メモリ内の翻訳単位に関連して格納することができる。翻訳単位は、複数の使用文脈識別子及び/又は複数の構造関連文脈識別子を有することができる。   In some embodiments of the invention, the source usage context portion and / or the target usage context portion comprises a pre-use context portion and / or a post-use context portion. In other embodiments of the invention, the context identifier comprises a structural context portion. Thus, context identifier data can be stored in association with the translation unit in the translation memory so that the context associated therewith can be easily identified, such as during retrieval of the lookup segment from the translation memory. A translation unit may have multiple usage context identifiers and / or multiple structure related context identifiers.

本発明の第6の態様によれば、翻訳メモリを含む翻訳システムと対話するクライアント側システムであって、
翻訳システムによって翻訳されるセグメントにセグメント識別子を割り当てる手段であって、セグメント識別子が、セグメントのソース使用文脈及びターゲット使用文脈を示す、手段と、
翻訳メモリの一部としての格納のためにセグメント識別子割当を通信する手段と
を備えるクライアント側システムが提供される。
According to a sixth aspect of the present invention, there is a client-side system for interacting with a translation system including a translation memory,
Means for assigning a segment identifier to a segment translated by a translation system, wherein the segment identifier indicates a source usage context and a target usage context of the segment;
Means for communicating segment identifier assignments for storage as part of a translation memory.

本発明の構成では、セグメント識別子が、構造的文脈を備える。したがって、セグメントを、その構造的文脈に従って識別することができる。   In the arrangement of the invention, the segment identifier comprises a structural context. Thus, segments can be identified according to their structural context.

本発明の第7の態様によれば、翻訳されるルックアップセグメントに対する翻訳メモリに格納された複数のソーステキストのマッチングレベルを判定する方法であって、
複数のソーステキスト内のルックアップセグメントのすべてのファジイ一致を判定するステップと、
少なくとも1つのファジイ一致が判定される場合に、ルックアップセグメントの文脈がそれぞれのファジイ一致の文脈と一致する場合に、それぞれのファジイ一致がルックアップセグメントの文脈内ファジイ一致であると判定することと
を含む方法が提供される。
According to a seventh aspect of the present invention, there is provided a method for determining a matching level of a plurality of source texts stored in a translation memory for a lookup segment to be translated,
Determining all fuzzy matches of lookup segments in multiple source texts;
Determining that each fuzzy match is an in-context fuzzy match of the lookup segment if the context of the lookup segment matches the context of the respective fuzzy match if at least one fuzzy match is determined; Is provided.

したがって、本発明は、複数のファジイ一致の間の曖昧性除去をも可能にする。曖昧性除去は、ファジイ一致のそれぞれの文脈と比較したルックアップセグメントの文脈に従って実行される。あるセグメントの少なくとも1つの文脈レベルがルックアップセグメントの文脈レベルと一致する場合には、そのセグメントは、文脈内ファジイ一致である。文脈内ファジイ一致は、非文脈内ファジイ一致より関連する傾向がある。好ましくは、文脈は、構造的文脈を含む。   Thus, the present invention also allows disambiguation between multiple fuzzy matches. Disambiguation is performed according to the context of the lookup segment compared to the respective context of the fuzzy match. A segment is an in-context fuzzy match if at least one context level of a segment matches the context level of the lookup segment. In-context fuzzy matches tend to be more relevant than non-contextual fuzzy matches. Preferably, the context includes a structural context.

文脈内ファジイ一致を、構造的文脈レベル及び/又はメタデータなどの文脈の異なるレベルに従って識別することができる。同様に、ICE一致に対して、異なる文脈レベルの優先順位付けを、文脈内ファジイ一致の間の曖昧性除去の時に適用することができる。   In-context fuzzy matches can be identified according to structural context levels and / or different levels of context, such as metadata. Similarly, different context-level prioritization can be applied to ICE matches at the time of disambiguation between in-context fuzzy matches.

本発明を、同一の度合(ファジイマッチングスコアとも称する)のファジイマッチングを有するファジイ一致、たとえば同一パーセンテージのファジイ一致に適用することができる。1つの例の応用は、それぞれが97%という同一のファジイマッチング度合を有する複数のファジイ一致の間の曖昧性除去とすることができる。もう1つの例の応用は、それぞれが99%という同一のファジイマッチング度合を有する複数のファジイ一致の間の曖昧性除去とすることができる。ここでの用語「同一」は、正確に同一又はほぼ同一とすることができ、たとえば、そのファジイマッチングの度合が最も近いパーセンテージ値又はそのようなものに丸められた時に同一であるファジイ一致とすることができる。   The present invention can be applied to fuzzy matches having the same degree (also referred to as fuzzy matching score) fuzzy matching, eg, the same percentage of fuzzy matches. One example application may be disambiguation between multiple fuzzy matches, each having the same degree of fuzzy matching of 97%. Another example application may be disambiguation between multiple fuzzy matches, each having the same degree of fuzzy matching of 99%. The term “identical” herein can be exactly the same or nearly identical, for example, a fuzzy match that is the same when rounded to the nearest percentage value or such. be able to.

同一の度合のファジイマッチングを有するファジイ一致の優先順位付けの代わりに又はそれに加えて、ファジイ一致の優先順位付けを、ファジイマッチングの度合のある範囲(又はスコア帯)の中、たとえば99から95%又は85〜94%の間で実行することができ、ここで、優先順位付けを、見出し、段落、表のセルその他などの構造的文脈を使用して実行することができる。   Instead of or in addition to prioritizing fuzzy matches with the same degree of fuzzy matching, prioritize fuzzy matches within a certain range (or score band) of fuzzy matching, eg 99 to 95% Or between 85-94%, where prioritization can be performed using structural contexts such as headings, paragraphs, table cells, etc.

本発明を、異なる度合のファジイマッチングを有するファジイ一致に適用することもでき、第2ファジイ一致(たとえば、99%ファジイ一致)より低い度合のファジイマッチングを有する第1ファジイ一致(たとえば、98%ファジイ一致)を、第2ファジイ一致がルックアップセグメントと一致する文脈レベルを有しないが、第1ファジイ一致がルックアップセグメントと一致する文脈レベルを有するので、それでもルックアップセグメントについてより適切な一致と考えることができる。これは、第2ファジイ一致より低い度合のファジイマッチングファジイを有する第1ファジイ一致にもかかわらず、発生し得る。   The present invention can also be applied to fuzzy matches with different degrees of fuzzy matching, and a first fuzzy match (eg, 98% fuzzy match) with a lower degree of fuzzy matching than a second fuzzy match (eg, 99% fuzzy match). Match) is still a better match for the lookup segment because the second fuzzy match does not have a context level that matches the lookup segment, but the first fuzzy match has a context level that matches the lookup segment be able to. This can occur despite the first fuzzy match having a lower degree of fuzzy matching fuzzy than the second fuzzy match.

本発明を、正確一致とファジイ一致との両方の文脈が考慮されるハイブリッドシナリオに適用することもできる。ここで、たとえば99%のファジイ一致を、正確一致がルックアップセグメントと一致する文脈レベルを有しないが、ファジイ一致がルックアップセグメントと一致する文脈レベルを有するので、それでも正確一致より適切な一致と考えることができる。やはり、異なるレベルの文脈マッチング及び異なる文脈レベルの優先順位付けを、そのようなハイブリッド構成に適用することができる。   The invention can also be applied to hybrid scenarios where both exact and fuzzy matching contexts are considered. Here, for example, 99% of the fuzzy match is a better match than the exact match because the exact match does not have a context level that matches the lookup segment, but the fuzzy match has a context level that matches the lookup segment. Can think. Again, different levels of context matching and different context level prioritization can be applied to such hybrid configurations.

本発明の第8の態様によれば、翻訳されるルックアップセグメントに対する翻訳メモリに格納された複数のソーステキストのマッチングレベルを判定するシステムであって、
複数のソーステキスト内のルックアップセグメントのすべてのファジイ一致を判定する手段と、
少なくとも1つのファジイ一致が判定される場合に、ルックアップセグメントの文脈がそれぞれのファジイ一致の文脈と一致する場合に、それぞれのファジイ一致がルックアップセグメントの文脈内ファジイ一致であると判定する手段と
を含むシステムが提供される。
According to an eighth aspect of the present invention, there is provided a system for determining a matching level of a plurality of source texts stored in a translation memory for a lookup segment to be translated,
Means for determining all fuzzy matches of lookup segments in multiple source texts;
Means for determining that each fuzzy match is an in-context fuzzy match of the lookup segment if the context of the lookup segment matches the context of the respective fuzzy match when at least one fuzzy match is determined; Is provided.

本発明の第9の態様によれば、本発明の第1、第3、又は第7の態様のいずれか一項に記載の方法を実行するように適合されたコンピュータソフトウェアが提供される。   According to a ninth aspect of the present invention there is provided computer software adapted to carry out the method according to any one of the first, third or seventh aspects of the present invention.

本発明の前述及び他の特徴は、本発明の実施形態の次のより特定の説明から明白になる。   The foregoing and other features of the invention will become apparent from the following more specific description of embodiments of the invention.

本発明の実施形態を、図面を参照して詳細に説明するが、図では、同様の指定が同様の要素を表す。   Embodiments of the present invention will be described in detail with reference to the drawings, in which like designations represent like elements.

本発明によるICE一致翻訳システムを使用するコンピュータシステムを示すブロック図である。1 is a block diagram showing a computer system using an ICE matching translation system according to the present invention. FIG. 図1のシステムの動作方法論の一実施形態を示す流れ図である。2 is a flow diagram illustrating one embodiment of an operational methodology for the system of FIG. 図1のシステムの動作方法論の一実施形態を示す流れ図である。2 is a flow diagram illustrating one embodiment of an operational methodology for the system of FIG. 例示的な翻訳メモリ内の2つのエントリを示す図である。FIG. 3 illustrates two entries in an exemplary translation memory. 図3のエントリを含む例示的なソース資産を示す図である。FIG. 4 illustrates an example source asset that includes the entry of FIG. 本発明による翻訳メモリ生成の一実施形態を示す流れ図である。6 is a flowchart illustrating an embodiment of translation memory generation according to the present invention. 本発明による翻訳メモリ生成の代替実施形態を示す流れ図である。6 is a flow diagram illustrating an alternative embodiment of translation memory generation according to the present invention.

この詳細な説明は、便宜のみのために、以下の見出し、I.定義、II.全般的概要、III.システム概要、IV.動作方法論、及びV.結論を含む。   This detailed description is for convenience only and includes the following headings: Definition, II. General overview, III. System overview, IV. Operating methodology, and Includes conclusions.

I.定義
「資産」は、たとえば文脈、使用、サイズなどによる、関連する内容の束縛された集合又はテキストセグメントのグループ化を定義する内容ソースを意味する。一般に、資産は、ハイパーテキストマークアップ言語(HTML)ファイル、Microsoft(登録商標)Word(登録商標)文書、又は単純なテキストファイルなど、文書に関連付けられる。しかし、一部の資産は、ファイルシステムファイルに対応しない。資産を、実際に、データベーステーブルの列又はextensible markup language(XML)リポジトリ内の構造体から定義することができる。物理的にどのように表されるかにはかかわりなく、資産は、すべて、共通の目的すなわち、アクセスでき、操作でき、最終的に翻訳できる関連する内容の束縛された集合を定義することを共有する。資産は、内容、フォーマッティング情報、及び資産の性質に依存する内部構造化データを含むことができる。
I. Definitions “Asset” means a content source that defines a constrained set of related content or grouping of text segments, eg, by context, usage, size, etc. In general, an asset is associated with a document, such as a hypertext markup language (HTML) file, a Microsoft® Word® document, or a simple text file. However, some assets do not correspond to file system files. Assets can actually be defined from a column in a database table or a structure in an extensible markup language (XML) repository. Regardless of how they are physically represented, all assets share a common purpose: defining a constrained set of related content that can be accessed, manipulated, and ultimately translated To do. Assets can include content, formatting information, and internally structured data that depends on the nature of the asset.

「ソース資産」は、そこからルックアップセグメントが引き出される資産を指す。   “Source asset” refers to the asset from which the lookup segment is derived.

「セグメント」は、内容の翻訳可能な塊、たとえば、句、文、段落などを含む。セグメントは、翻訳作業の最小単位を表す。実際には、セグメントは、段落、文、又は文断片さえ表すことができる。セグメントは、通常、単一の単語ではないが、単一単語セグメントを使用することができる。   A “segment” includes translatable chunks of content, such as phrases, sentences, paragraphs, and the like. A segment represents the minimum unit of translation work. In practice, a segment can represent a paragraph, a sentence, or even a sentence fragment. A segment is usually not a single word, but single word segments can be used.

「ソーステキスト」は、翻訳される言語であるオリジナル(ソース)言語に対応する翻訳メモリ内のテキストを指す。ソーステキストは、一致を見つけるために、一致ルックアッププロセス中に資産からのルックアップセグメントと比較される。   “Source text” refers to the text in the translation memory corresponding to the original (source) language that is the language to be translated. The source text is compared to the lookup segment from the asset during the match lookup process to find a match.

「ターゲットテキスト」は、特定のロケールのソーステキストの翻訳を含む、すなわち、ターゲットテキストは、翻訳メモリ(TM)単位の半分である。   “Target text” includes the translation of the source text for a particular locale, ie, the target text is half the translation memory (TM) unit.

「翻訳メモリ」(TMと省略する)は、TMエントリを含むリポジトリを含む。TMは、任意の個数のロケールのTMエントリを含むことができる。たとえば、TMは、英語からフランス語、ギリシャ語からロシア語、アルバニア語からトルコ語などのエントリを含むことができる。   A “translation memory” (abbreviated TM) includes a repository containing TM entries. A TM can contain TM entries for any number of locales. For example, the TM may include entries such as English to French, Greek to Russian, Albanian to Turkish, and the like.

「TM単位」は、ソーステキストをターゲットテキストにマッピングする翻訳メモリに格納された翻訳対である(翻訳単位、TMエントリ、又はレコードとしても知られる)。TMは、所与の翻訳対に固有であり、この翻訳対は、ソーステキストロケール/ターゲットテキストロケール対を含み、通常は、その翻訳がこの翻訳対を作った資産に関連する。実質的に、TM単位は、後で再利用できる、以前の翻訳を表す。さらに、本発明による各TM単位は、関連するソーステキスト/ターゲットテキスト対の文脈を識別する文脈部分を含む。翻訳単位は、通常は2か国語であるが、多種言語とすることもでき、文脈情報、使用カウント、作成日付その他などのメタデータを含むこともできる。   A “TM unit” is a translation pair stored in a translation memory that maps source text to target text (also known as translation unit, TM entry, or record). A TM is specific to a given translation pair, which includes a source text locale / target text locale pair, usually associated with the asset that made the translation pair. In effect, TM units represent previous translations that can be reused later. In addition, each TM unit according to the present invention includes a context portion that identifies the context of the associated source text / target text pair. A translation unit is usually bilingual, but can be in multiple languages and can include metadata such as context information, usage counts, creation dates, and the like.

「正確一致(exact match)」は、翻訳メモリから来た瞬間の資産からのルックアップテキストと完全に同一であるソーステキストを含むソーステキストを意味する。本明細書で使用される時に、正確一致は、100%一致をも含み、100%一致は、正確一致に似ているが、翻訳メモリ単位内に存在する差のゆえに、必ずしも正確一致から生じるのではない。たとえば、ある一致は、1)スコアリングされない空白文字の差すなわち、TM単位の空白文字とは異なるタイプの空白文字の使用は、正確一致として選択されることを妨げる、2)本発明がそれを介してソーステキストとルックアップテキストとの間のある種の差を効果的に無視する構成されたペナルティ、又は3)TM一致とオリジナルルックアップテキストとの間の差を修正するためにそれを介して修復ヒューリスティックを適用できるセグメント修復という理由のうちの1つのために、ある一致が、正確一致であることなく100%としてスコアされ得る。セグメント修復は、たとえば米国特許第7020601号に記載の、配置可能要素、自動置換技法、及び自動局所化技法の使用によって実行することができる。   “Exact match” means source text that includes source text that is exactly the same as the look-up text from the instant asset coming from the translation memory. As used herein, an exact match also includes a 100% match, which is similar to an exact match, but does not necessarily result from an exact match because of the differences that exist within the translation memory unit. is not. For example, a match can be: 1) the difference between unscored white space characters, ie the use of a different type of white space character from TM-based white space prevents it from being selected as an exact match, 2) A configured penalty that effectively ignores certain differences between the source text and the lookup text, or 3) via it to correct the difference between the TM match and the original lookup text Because of one of the reasons for segment repair that can apply repair heuristics, a match can be scored as 100% without being an exact match. Segment repair can be performed, for example, by use of placeable elements, automatic replacement techniques, and automatic localization techniques described in US Pat. No. 7,020,601.

「文脈」は、テキストセグメントを取り囲み、その解釈を決定するのを助ける談話を意味する。文脈は、本明細書で使用される時に、異なるレベルを含むことができる。たとえば、文脈は、使用文脈レベル、資産文脈レベル、構造的文脈レベル、及び/又はセグメント識別子を含むことができる。各異なる文脈は、内容の意図された聴衆に応じて異なる言葉遣いを必要とする場合がある。   “Context” means a discourse that surrounds a text segment and helps determine its interpretation. Context can include different levels as used herein. For example, the context can include a usage context level, an asset context level, a structural context level, and / or a segment identifier. Each different context may require different language depending on the intended audience of the content.

「使用文脈」は、セグメントを取り巻き、本発明が内容の適切な翻訳をどのように導出するのかに影響する談話を指す。使用文脈を、翻訳されるテキストを取り巻くソース言語のテキストの考慮を伴うソース使用文脈とすることができる。使用連絡先を、翻訳されるテキストの翻訳を取り巻くターゲット言語のテキストの考慮を伴うターゲット使用文脈とすることができる。通常、使用文脈は、翻訳されるセグメントの意味への洞察をもたらす、取り巻く内容と共に定義される。使用文脈は、特定のセグメントに先行するテキスト及び特定のセグメントに続く(後)テキストに関してレベルを有することができ、文脈がソース言語又はターゲット言語の翻訳されるテキストを取り巻くテキストに関連するかどうかに関してもレベルを有することができる。先行使用文脈レベル及び後使用文脈レベルを、ソース使用文脈レベル及びターゲット使用文脈レベルと組み合わせて、先行ソース使用文脈レベル、先行ターゲット使用文脈レベル、後ソース使用文脈レベル、及び後ターゲット使用文脈レベルの形でさらなる文脈レベルを作ることができる。   “Usage context” refers to a discourse that surrounds a segment and affects how the present invention derives an appropriate translation of the content. The usage context may be a source usage context with consideration of the source language text surrounding the translated text. The usage contact may be the target usage context with consideration of the target language text surrounding the translation of the text to be translated. Usually, the usage context is defined with surrounding content that provides insight into the meaning of the segment being translated. The usage context can have a level with respect to the text preceding the specific segment and the text following (after) the specific segment, with respect to whether the context relates to the text surrounding the translated text in the source or target language Can also have a level. Combining the pre-use context level and post-use context level with the source use context level and the target use context level, the forms of the pre-source use context level, pre-target use context level, post-source use context level, and post-target use context level To create additional context levels.

「資産文脈」は、セグメントがその中に存在する資産環境に関する談話、すなわち、テキストセグメントがそこに表れる全体的内容の背景及び展望フレームワークを指す。   “Asset Context” refers to the discourse about the asset environment in which the segment resides, ie, the background and perspective framework of the overall content in which the text segment appears.

「構造的文脈」は、段落、見出し、目次項目、リスト、又は表のセルその他など、あるセグメントが現れる文書構造単位を指す。   "Structural context" refers to a document structural unit in which a segment appears, such as a paragraph, heading, table of contents item, list, or table cell.

ルックアップセグメントに関する「文脈内正確(ICE)一致」は、ソーステキストが正確一致であり、一致をもたらすTM単位と少なくとも1つの文脈レベルを共有しなければならないことを意味する。   “In-context exact (ICE) match” for a lookup segment means that the source text is an exact match and must share at least one context level with the TM unit that produces the match.

「ルックアップテキスト」は、それに関してTM一致が検索されるソース資産からのテキストのセグメントを指す。   “Lookup text” refers to a segment of text from which a source asset is searched for TM matches.

「セグメント識別子」(SID)は、所与のセグメントが翻訳されなければならない使用文脈を定義するラベルを含み、TM単位又は内容の作成時に内容に関連付けられる。SIDは、所与のセグメントの文脈識別を提供する。SIDは、セグメント境界を定義するマーカータグを含むことができる。下で説明するように、SIDは、使用文脈又は取り巻くセグメントに基づくことの代替物又はその拡張である。   A “segment identifier” (SID) includes a label that defines the usage context in which a given segment must be translated and is associated with the content when the TM unit or content is created. The SID provides context identification for a given segment. The SID can include a marker tag that defines a segment boundary. As described below, a SID is an alternative or extension of being based on usage context or surrounding segments.

II.全般的概要
本発明は、なかんずく、翻訳されるルックアップセグメントへの翻訳メモリに格納された複数のソーステキストのマッチングレベルを判定する方法、システム、及びプログラム製品を提供する。本発明は、翻訳メモリ(TM)内の以前に格納された翻訳からのソース内容に関する高品質一致を生成する。関連技術では、入手可能な最良一致は、正確一致すなわち、ソーステキストがTM内の1つ又は複数のエントリと同一である一致であった。しかし、所与のセグメントについて最良の正確一致を正確に選択し、又は所与の正確一致がそれが適用されている文脈に関する適切な一致であったかどうかを検証する、自動化されたプロセスはない。具体的に言うと、あるセグメントが、異なる状況又は文脈の下で異なって翻訳される場合がある。正確一致の適切性は、文脈情報の評価を必要とし、この文脈情報は、内容使用(それを取り巻く文又はセグメントによって定義される)、構造的文脈、資産文脈(所期の聴衆に応じて異なる言葉遣いを必要とする場合がある)、及び/又は領域識別子、顧客名などのメタデータ、若しくはシステムのユーザによって供給されるか自動的に生成されるか以前の翻訳プロジェクトから抽出される他の情報に基づくものとすることができる。
II. General Overview The present invention provides, among other things, a method, system, and program product for determining a matching level of a plurality of source texts stored in a translation memory to a translated lookup segment. The present invention produces a high quality match for source content from previously stored translations in a translation memory (TM). In the related art, the best match available was an exact match, i.e. a match where the source text was identical to one or more entries in the TM. However, there is no automated process that accurately selects the best exact match for a given segment or verifies whether a given exact match was an appropriate match for the context to which it is applied. Specifically, a segment may be translated differently under different circumstances or contexts. Appropriateness of exact matching requires evaluation of contextual information, which depends on content usage (defined by the sentence or segment surrounding it), structural context, asset context (depending on the intended audience) And / or metadata such as domain identifiers, customer names, or other supplied or automatically generated or extracted from previous translation projects It can be based on information.

領域識別子は、正確一致が「電気工学」、「農業」、又は「計算機科学」などに関連する幅広い主題に関連するものとすることができる。単語「bank」を例に挙げると、これは、領域識別子が地理的領域ではなく金融領域を示す場合に、曖昧性除去され得る。   Region identifiers may relate to a wide range of subjects where exact matches are related to “Electrical Engineering”, “Agriculture”, “Computer Science”, and the like. Taking the word “bank” as an example, this can be disambiguated if the region identifier indicates a financial region rather than a geographic region.

本発明は、正確一致プロセスを置換するものではない。そうではなく、本発明は、手動妥当性検査の必要を減らし、できる限り貴重なTMを作成する際に人を助ける、真の再利用TMシステムを使用することによって、正確一致を超えるマッチングの新しいレベルを提供する。具体的に言うと、本発明の一実施形態は、複数のソーステキスト内でルックアップセグメントのすべての正確一致を判定することと、少なくとも1つの正確一致が判定される場合に、ルックアップセグメントの文脈がそれぞれの正確一致の文脈と一致する場合にそれぞれの正確一致がルックアップセグメントの文脈内正確(ICE)一致であると判定することとによって、翻訳されるルックアップセグメントへの翻訳メモリ内に格納された複数のソーステキストのマッチングレベルを判定する。したがって、ICE一致判定は、ルックアップセグメントの文脈に基づいて正確一致の適切性を判定する。正確一致であり、一致する文脈を有するソーステキストを、「文脈内正確(ICE)一致」と称する。ICE一致は、適用される翻訳が、それが使用される文脈に関して適切であることを保証するという点で、正確一致よりすぐれていると考えられる。ICE一致は、現在翻訳されているセグメントと同一の文脈で以前に翻訳された一致のおかげで高いレベルの適切性を保証する翻訳一致である。   The present invention does not replace the exact matching process. Rather, the present invention reduces the need for manual validation and creates a new match-up beyond exact match by using a true reusable TM system that helps people in creating the most valuable TM possible. Provides a level. Specifically, an embodiment of the present invention determines all exact matches of a lookup segment within a plurality of source texts, and if at least one exact match is determined, In a translation memory to a translated lookup segment by determining that each exact match is an in-context exact (ICE) match of the lookup segment if the context matches the context of the exact match A matching level of a plurality of stored source texts is determined. Thus, ICE match determination determines the appropriateness of an exact match based on the context of the lookup segment. Source text that is an exact match and has a matching context is referred to as an “in-context exact (ICE) match”. An ICE match is considered superior to an exact match in that it ensures that the applied translation is appropriate with respect to the context in which it is used. An ICE match is a translation match that guarantees a high level of relevance thanks to a previously translated match in the same context as the currently translated segment.

本発明は、1)新しい内容に関する高品質(再検討を必要としない)一致としての正確一致の適切性を判定し、2)所与のルックアップセグメントの最良の文脈一致を選択し、3)以前に翻訳された内容の以前に割り当てられた翻訳が必ず復元可能であることを保証するために、文脈情報を活用する。新しい内容について、本発明は、文脈情報を活用して、セグメント使用文脈に基づいてTMから高品質一致を見つける。本発明は、資産及び/又は構造及び/又は文脈レベルでの文脈を与えられれば、同一の内容が必ず同一の形で翻訳されることをも保証する。   The present invention 1) determines the appropriateness of an exact match as a high quality (no re-examination) match for new content, 2) selects the best contextual match for a given lookup segment, 3) Context information is used to ensure that previously assigned translations of previously translated content are always recoverable. For new content, the present invention utilizes context information to find a high quality match from the TM based on the segment usage context. The present invention also ensures that the same content is always translated in the same way given the context at the asset and / or structure and / or context level.

所与のルックアップセグメントの翻訳に関して、ソース文書が翻訳され、すべてのセグメントがTMに格納されると仮定する。正確に同一のソース文書がもう一度通される場合には、その文書は、その内容のすべてを含めて、完全に一致し、結果の翻訳された文書は、最初に翻訳された文書と正確に同一になる。この挙動は、単純であり、期待されるものである。しかし、これは、文脈情報を使用することの結果としてのみ保証され得る。この保証の重要性をさらに理解するために、同一の正確な文が2つの異なる場所で2回繰り返されるソース文書を検討されたい。第2の使用は、第1の使用と同一の暗黙の意図を有しない場合があるので、異なって翻訳される。ここで、もう一度、同一の文書がTMに対して活用されると考えられたい。複製された文は、同一の翻訳を有するべきなのか、オリジナル文書と同様に異なるべきなのか? その使用の文脈を考慮に入れなければ、これらの文は、TMによって同一の形で翻訳される可能性が最も高い。しかし、本発明によれば、文脈が考慮され、これによって、2つの文は、その使用文脈がそのように規定する限り、異なる翻訳を有し続ける。   Assume that for a given lookup segment translation, the source document is translated and all segments are stored in the TM. If the exact same source document is passed again, it will be an exact match, including all of its contents, and the resulting translated document will be exactly the same as the originally translated document. become. This behavior is simple and expected. However, this can only be guaranteed as a result of using contextual information. To further understand the importance of this guarantee, consider a source document in which the same exact sentence is repeated twice in two different places. The second use is translated differently because it may not have the same implicit intention as the first use. Here again, consider that the same document is utilized for TM. Should the duplicated sentence have the same translation or should it be as different as the original document? Without taking into account the context of their use, these sentences are most likely to be translated in the same way by the TM. However, according to the present invention, context is taken into account, whereby the two sentences continue to have different translations as long as their usage context dictates so.

以前に翻訳されたテキストセグメントの復元に関して、本発明は、新しい文書の翻訳が、以前に翻訳された文書の翻訳を復元する能力に影響しないことをも保証し、以前に翻訳された文書をTMに対して活用し、その結果、その文書が翻訳者によって格納されたものと同一の翻訳を必ずもたらすようにすることによって、翻訳が完全に再現可能であることを保証する方法を提供する。もう一度、2つの同一の文書を検討されたい。第1の文書が翻訳され、その結果がTMに格納される。第2の文書が同一のTMに対して活用される時に、その文書は、ICE一致を用いて完全に翻訳されるものとして表される。使用文脈は、第1文書の使用文脈と同一である。次に、第2文書が、異なる聴衆をターゲットすると考えられたい。ソース言語テキストは、両方の聴衆に適切であると考えられるので、この例では変更されない。しかし、ターゲット言語への翻訳は、多少の変更を必要とする。翻訳者は、この文書に関して翻訳を更新し、その結果をTMに格納する。時が経ち、両方の翻訳された文書のコピーが、もう一度要求される。スペースの理由から、オリジナルの翻訳された文書は削除された。ソース文書のどれもが変更されておらず、したがって、まだ同一のソーステキストを含む。本発明は、それぞれが最初に翻訳された文書(それら自体は同一ではなかった)に同一である、オリジナルの翻訳された文書の再生成を容易にする。ソース文書の内容が同一であるにもかかわらず、本発明は、資産文脈情報を活用して、文書固有翻訳が回復可能であることを保証することができる。   With respect to the restoration of previously translated text segments, the present invention also ensures that the translation of a new document does not affect the ability to restore the translation of a previously translated document. Provides a way to ensure that the translation is fully reproducible by ensuring that the document yields the same translation as that stored by the translator. Once again, consider two identical documents. The first document is translated and the result is stored in TM. When a second document is leveraged for the same TM, the document is represented as fully translated using ICE matching. The usage context is the same as the usage context of the first document. Next, consider that the second document targets a different audience. The source language text is not modified in this example because it is considered appropriate for both audiences. However, translation into the target language requires some changes. The translator updates the translation for this document and stores the result in the TM. Over time, copies of both translated documents are requested again. For reasons of space, the original translated document was deleted. None of the source documents have changed, and therefore still contain the same source text. The present invention facilitates the reproduction of original translated documents, each identical to the originally translated document (which were not themselves identical). Despite the same source document content, the present invention can leverage asset context information to ensure that document specific translations are recoverable.

本発明を、Idiom社のWorldServer(商標)などの内容管理システムの一部として、又は別々のシステムとして活用することができる。たとえば、WorldServer(商標)は、企業がグローバル化プロセス全体の文脈で内容を管理すると同時に、確立されたウェブアーキテクチャ、内容管理、及びワークフローシステムを活用することを可能にする、ウェブベースのアプリケーションである。内容管理システムは、たとえばグローバルウェブ戦略の展開から生じる複数の複雑さを単純化し、会社のウェブサイトが複数の国並びに異なる言語、場所、及び文化をも効率的にサポートすることを可能にする。内容管理システムは、サイト管理者、ウェブデベロッパ、内容所有者、翻訳者、及び編集者の間での協同作業に構造及びプロセスを提供し、合理化されたプロセス、同期化されたグローバルウェブ戦略、及び調整されたグローバルウェブチームをもたらす。翻訳者は、内容管理システムを使用して、その翻訳者が翻訳しなければならない内容を見る。WorldServer(商標)では、翻訳者は、翻訳を必要とする内容をサードパーティ編集ツールにエクスポートするか、実際の翻訳を実行するのに翻訳ワークベンチを使用するかのいずれかを行うことができる。翻訳者は、内容を適合させるが翻訳してはいないユーザ及び/又は内容を再検討するレビュワを含む、個々の投稿者とすることができる。内容管理システムは、後の想起のために翻訳された句をTMに格納する。   The present invention can be utilized as part of a content management system such as Idiom WorldServer ™ or as a separate system. For example, WorldServer ™ is a web-based application that enables companies to leverage content in the context of the entire globalization process while leveraging established web architecture, content management, and workflow systems. . The content management system simplifies the multiple complexities that arise, for example, from the deployment of a global web strategy, and allows a company website to efficiently support multiple countries as well as different languages, locations, and cultures. The content management system provides structure and processes for collaboration between site administrators, web developers, content owners, translators and editors, streamlined processes, synchronized global web strategies, and Bring a coordinated global web team. The translator uses the content management system to see what the translator needs to translate. With WorldServer ™, translators can either export content that requires translation to a third-party editing tool or use a translation workbench to perform the actual translation. Translators can be individual contributors, including users who have adapted content but have not translated and / or reviewers that review the content. The content management system stores the translated phrase in the TM for later recall.

III.システム概要
添付図面を参照すると、図1は、本発明による文脈内正確一致翻訳システム100のブロック図である。システム100が別々のシステムとして図示されているが、これを、Idiom社のWorldServer(商標)などのより大きい内容管理システム又は翻訳システムの一部として実施できることを了解されたい。これに関して、システム100の説明が、翻訳システムのある種の機能性を含むが、説明を明瞭にするために他の機能性を省略する場合がある。さらに、システム100は、クライアント−サーバ(たとえば、ウェブベースの)環境で図示されているが、他の構成も可能であることを了解されたい。
III. System Overview Referring to the accompanying drawings, FIG. 1 is a block diagram of an in-context exact match translation system 100 according to the present invention. Although the system 100 is illustrated as a separate system, it should be understood that this can be implemented as part of a larger content management system or translation system, such as Idiom's WorldServer ™. In this regard, the description of system 100 includes certain functionality of the translation system, but other functionality may be omitted for clarity of explanation. Further, although system 100 is illustrated in a client-server (eg, web-based) environment, it should be appreciated that other configurations are possible.

システム100は、コンピュータ102上でコンピュータプログラムコードとして実施されて図示されている。この範囲までで、コンピュータ102は、メモリ112、処理ユニット114、入出力(I/O)インターフェース116、及びバス118を含んで図示されている。さらに、コンピュータ102は、外部I/Oデバイス/リソース120及びストレージシステム122と通信して図示されている。一般に、処理ユニット114は、メモリ112及び/又はストレージシステム122に格納された、システム100などのコンピュータプログラムコードを実行する。コンピュータプログラムコードを実行している間に、処理ユニット114は、メモリ112、ストレージシステム122、及び/又はI/Oデバイス120から/へデータを読み取り、及び/又は書き込むことができる。バス118は、コンピュータ102内のコンポーネントのそれぞれの間の通信リンクを提供し、I/Oデバイス120は、ユーザがコンピュータ102と対話することを可能にする任意のデバイス(たとえば、キーボード、ポインティングデバイス、ディスプレイなど)を含むことができる。   System 100 is illustrated implemented as computer program code on a computer 102. To this extent, the computer 102 is shown including a memory 112, a processing unit 114, an input / output (I / O) interface 116, and a bus 118. Further, computer 102 is shown in communication with external I / O devices / resources 120 and storage system 122. In general, processing unit 114 executes computer program code, such as system 100, stored in memory 112 and / or storage system 122. While executing computer program code, processing unit 114 may read and / or write data to / from memory 112, storage system 122, and / or I / O device 120. Bus 118 provides a communication link between each of the components in computer 102, and I / O device 120 can be any device that allows a user to interact with computer 102 (eg, a keyboard, pointing device, Display, etc.).

代替案では、ユーザは、コンピュータ102と通信する別のコンピューティングデバイス(図示せず)と対話することができる。この場合に、I/Oインターフェース116は、コンピュータ102がネットワークを介して1つ又は複数の他のコンピューティングデバイスと通信することを可能にする任意のデバイス(たとえば、ネットワークシステム、ネットワークアダプタ、I/Oポート、モデムなど)を含むことができる。ネットワークは、さまざまなタイプの通信リンクの任意の組合せを含むことができる。たとえば、ネットワークは、有線及び/又は無線の伝送方法の任意の組合せを利用できるアドレス可能接続を含むことができる。この場合に、コンピューティングデバイス(たとえば、コンピュータ102)は、トークンリング、イーサネット、WiFi、又は他の従来の通信標準規格など、従来のネットワーク接続性を利用することができる。さらに、ネットワークは、インターネット、広域ネットワーク(WAN)、ローカルエリアネットワーク(LAN)、仮想プライベートネットワーク(VPN)、などを含む、1つ又は複数の任意のタイプのネットワークを含むことができる。通信が、インターネットを介して行われる場合に、接続性を、従来のTCP/IPソケットベースのプロトコルによって提供することができ、コンピューティングデバイスは、インターネットへの接続性を確立するのにインターネットサービスプロバイダを利用することができる。   Alternatively, the user can interact with another computing device (not shown) that communicates with computer 102. In this case, the I / O interface 116 may be any device (eg, network system, network adapter, I / O) that allows the computer 102 to communicate with one or more other computing devices over a network. O port, modem, etc.). A network can include any combination of various types of communication links. For example, the network can include addressable connections that can utilize any combination of wired and / or wireless transmission methods. In this case, the computing device (eg, computer 102) can take advantage of conventional network connectivity, such as token ring, Ethernet, WiFi, or other conventional communication standards. Further, the network can include one or more of any type of network, including the Internet, a wide area network (WAN), a local area network (LAN), a virtual private network (VPN), and the like. When communication occurs over the Internet, connectivity can be provided by conventional TCP / IP socket-based protocols, and the computing device can establish an Internet service provider to establish connectivity to the Internet. Can be used.

コンピュータ102は、ハードウェア及びソフトウェアのさまざまな可能な組合せを表すに過ぎない。たとえば、処理ユニット114は、単一の処理ユニットを含むことができ、或いは、たとえばクライアント及びサーバ上など、1つ又は複数の位置の1つ又は複数の処理ユニットにまたがって分散され得る。同様に、メモリ112及びストレージシステム122は、1つ又は複数の物理的位置に存在することができる。メモリ112及びストレージシステム122は、磁気媒体、光媒体、ランダムアクセスメモリ(RAM)、読取り専用メモリ(ROM)、データオブジェクトなどを含むさまざまなタイプのコンピュータ可読媒体及び/又は伝送媒体の任意の組合せを含むことができる。I/Oインターフェース116は、1つ又は複数のI/Oデバイスと情報を交換する任意のシステムを含むことができる。さらに、図1に示されていない1つ又は複数の追加コンポーネント(たとえば、システムソフトウェア、数値演算コプロセッシングユニットなど)をコンピュータ102に含めることができることを理解されたい。この範囲までで、コンピュータ102は、ネットワークサーバ、デスクトップコンピュータ、ラップトップ機、ハンドヘルドデバイス、携帯電話機、ポケットベル、携帯情報端末その他など、任意のタイプのコンピューティングデバイスを含むことができる。しかし、コンピュータ102がハンドヘルドデバイス又は類似物を含む場合に、1つ若しくは複数のI/Oデバイス(たとえば、ディスプレイ)及び/又はストレージシステム122を、図示されているように外部にではなくコンピュータ102内に含めることができることを理解されたい。   Computer 102 only represents various possible combinations of hardware and software. For example, the processing unit 114 can include a single processing unit, or can be distributed across one or more processing units at one or more locations, eg, on a client and a server. Similarly, the memory 112 and the storage system 122 can reside in one or more physical locations. Memory 112 and storage system 122 may be any combination of various types of computer readable and / or transmission media including magnetic media, optical media, random access memory (RAM), read only memory (ROM), data objects, and the like. Can be included. The I / O interface 116 may include any system that exchanges information with one or more I / O devices. In addition, it should be appreciated that one or more additional components not shown in FIG. 1 (eg, system software, math coprocessing units, etc.) can be included in computer 102. To this extent, the computer 102 can include any type of computing device, such as a network server, desktop computer, laptop machine, handheld device, mobile phone, pager, personal digital assistant, and the like. However, if computer 102 includes a handheld device or the like, one or more I / O devices (eg, a display) and / or storage system 122 may be located within computer 102 rather than externally as shown. It should be understood that

下でさらに述べるように、システム100は、正確一致デターミナ130、文脈内正確(ICE)一致デターミナ132、ハッシュアルゴリズム133、ファジイ一致デターミナ134、翻訳メモリTMジェネレータ136、セグメントリトリーバ138、及び他のシステム構成要素(Sys.Comp.)140を含んで図示されている。ICE一致デターミナ134は、文脈アイデンティファイヤ142、一致エバリュエータ144、及びICE一致プライオリタイザ(prioritizer)146を含む。他のシステム構成要素140は、本発明の動作に必要な他の機能性を含むことができるが、本明細書で明示的には説明されない。たとえば、他のシステム構成要素140は、Idiom社のWorldServer(商標)によって提供されるものなどの自動翻訳システム及び/又は内容管理システム機能性を含むことができる。   As described further below, the system 100 includes an exact match determiner 130, an in-context exact (ICE) match determiner 132, a hash algorithm 133, a fuzzy match determiner 134, a translation memory TM generator 136, a segment retriever 138, and other systems. A component (Sys. Comp.) 140 is shown. The ICE match determiner 134 includes a context identifier 142, a match evaluator 144, and an ICE match prioritizer 146. Other system components 140 may include other functionality necessary for the operation of the present invention, but are not explicitly described herein. For example, other system components 140 may include automated translation systems and / or content management system functionality such as that provided by Idiom's WorldServer ™.

わかりやすくするために図1には示されていないが、クライアント側システム150が、コンピュータ102に類似する構造を含むことができ、下で説明する機能性を提供するプログラムコードを含むことを理解されたい。   Although not shown in FIG. 1 for clarity, it is understood that the client-side system 150 can include a structure similar to the computer 102 and includes program code that provides the functionality described below. I want.

図1には、システム100による使用のための翻訳メモリ128(以下では「TM 128」)も示されている。図3に示されているように、TM 128は、それぞれ特定のソーステキスト152A、152Bについて特定の言語に以前に翻訳された、格納されたターゲットテキスト162、164を含む複数のTMエントリ148を含む(図を簡潔にするために2つだけを示す)。たとえば、格納されたソーステキスト「global enterprises」152Aは、複数のドイツ語翻訳162すなわちターゲットテキストに翻訳されており、格納されたソーステキスト「team of visionaries」152Bは、複数のフランス語翻訳164すなわちターゲットテキストに翻訳されている。各ソーステキスト152A及び152Bは、ルックアップセグメントとの比較のためのものである。各TM単位148は、文脈識別166(図を明瞭にするために2つだけにラベルを付ける)をも含む。一実施形態で、文脈識別166は、ソース使用文脈部分168及び資産文脈部分(AC)170など、異なる文脈レベルの表示を含む。資産文脈部分170は、たとえば「33333」など、システム100に対して特定の資産を識別する資産コードを含む。構造的文脈レベルなど、他の文脈レベルを設けることもできる。いくつかの場合に、資産文脈部分170を省略することができる。本発明のこの実施形態では、使用文脈レベルは、先行ソース使用文脈レベル及び後ソース使用文脈レベルである。本発明の他の実施形態では、使用文脈レベルは、その代わりに又はそれに加えて、先行ターゲット使用文脈レベル及び/又は後ターゲット使用文脈レベルを含むことができる。   Also shown in FIG. 1 is a translation memory 128 (hereinafter “TM 128”) for use by the system 100. As shown in FIG. 3, TM 128 includes a plurality of TM entries 148 including stored target texts 162, 164 previously translated into a specific language for specific source texts 152A, 152B, respectively. (Only two are shown for simplicity of illustration). For example, the stored source text “global enterprises” 152A has been translated into multiple German translations 162 or target text, and the stored source text “team of visionaries” 152B has multiple French translations 164 or target texts. Has been translated into Each source text 152A and 152B is for comparison with a lookup segment. Each TM unit 148 also includes a context identification 166 (labeling only two for clarity of illustration). In one embodiment, context identification 166 includes an indication of different context levels, such as source usage context portion 168 and asset context portion (AC) 170. The asset context portion 170 includes an asset code that identifies a particular asset to the system 100, such as “33333”, for example. Other context levels can be provided, such as a structural context level. In some cases, asset context portion 170 may be omitted. In this embodiment of the invention, the usage context levels are a pre-source usage context level and a post-source usage context level. In other embodiments of the present invention, the usage context level may alternatively or in addition include a pre-target usage context level and / or a post-target usage context level.

1つの好ましい実施形態では、各使用文脈168は、先行ソース使用文脈(UC)ハッシュコード172及び後ソース使用文脈(UC)ハッシュコード174を含む。先行UCハッシュコード172は、翻訳中にそれぞれのソーステキストがその隣に現れる先行するセグメントによって生成されたテキストストリームに基づいてハッシュアルゴリズム133を使用して生成される。同様に、後UCハッシュコード172は、翻訳中にそれぞれのソーステキストがその隣に現れる続く(後)セグメントによって生成されたテキストストリームに基づいてハッシュアルゴリズム133を使用して生成される。ハッシュアルゴリズム133は、テキストストリームを一意の数値識別子に変換できる任意の現在既知の又は今後に開発されるハッシュアルゴリズムを含む(図示のハッシュコードが、図を明瞭にするために単純化されていることを了解されたい)。したがって、各UCハッシュコードは、それぞれのソーステキストに関する一意の使用文脈レベルを示す。代替実施形態では、1つの使用文脈ハッシュコードだけを、特定のソーステキスト152並びに先行するセグメント及び続くセグメントについて使用することができる。   In one preferred embodiment, each usage context 168 includes a preceding source usage context (UC) hash code 172 and a subsequent source usage context (UC) hash code 174. The preceding UC hash code 172 is generated using a hash algorithm 133 based on the text stream generated by the preceding segment in which each source text appears next to it during translation. Similarly, the post-UC hash code 172 is generated using a hash algorithm 133 based on the text stream generated by the subsequent (post) segment in which each source text appears next to it during translation. Hash algorithm 133 includes any currently known or later developed hash algorithm that can convert a text stream into a unique numeric identifier (the illustrated hash code has been simplified for clarity of illustration). ) Thus, each UC hash code indicates a unique usage context level for each source text. In an alternative embodiment, only one usage context hash code can be used for a particular source text 152 and the preceding and following segments.

ルックアップセグメント154が作成時に文脈に割り当てられる場合に、文脈識別166を、ハッシュアルゴリズム133又はこれとユーザ指定のSIDの使用との組合せではなく、上で説明したユーザ指定のSIDを使用して生成することができ、ここで、ハッシュアルゴリズム133及びユーザ指定のSIDの一方に、他方に対して優先順位を与えることができる。   If the lookup segment 154 is assigned to a context at creation time, the context identification 166 is generated using the user-specified SID described above, rather than the hash algorithm 133 or a combination of this and the use of a user-specified SID. Here, one of the hash algorithm 133 and the user-specified SID can be given priority over the other.

本明細書で使用される特定のコードが、例示のみのためのものであることを了解されたい。   It should be understood that the specific codes used herein are for illustration only.

IV.動作方法論
図2A〜Bに移り、本発明の動作方法論の一実施形態の流れ図をこれから説明する。図2A〜Bの議論は、図1、3、及び4と共に行われる。
IV. Operational Methodology Turning now to FIGS. 2A-B, a flowchart of one embodiment of the operational methodology of the present invention will now be described. The discussion of FIGS. 2A-B takes place in conjunction with FIGS.

A.予備ステップ
図2Aから始めると、予備ステップPSとして、一実施形態で、ルックアップセグメント154が、直接にリンクされた或いはあるタイプのネットワーク、たとえばLAN、WAN、又はインターネットによってリンクされたクライアントコンピュータシステム150によってICE一致システム100にロードされる。たとえば、ルックアップセグメント154を、ICE一致システム100がその一部であるものとすることができる、翻訳ワークフローアプリケーションサーバ(図示せず)、たとえばIdiom社のWorldServer(商標)を介してロードすることができる。ルックアップセグメント154を、より大きい資産の一部としてロードすることができる。この場合に、システム100は、たとえばIdiom社のWorldServer(商標)によって提供されるように、ルックアップセグメント154を作成する現在既知の又は今後に開発される任意の形でより大きい資産のセグメント化を行うことができる。セグメント化は、それを介して資産の内容が解析され翻訳可能セグメントとして公開されるプロセスである。セグメントのサイズは、セグメント化ルールに依存し、セグメント化ルールは、ユーザ定義とすることができる。
A. Preliminary Steps Beginning with FIG. 2A, as a preliminary step PS, in one embodiment, a look-up segment 154 is directly linked or some type of network, eg, a client computer system 150 linked by a LAN, WAN, or the Internet. Is loaded into the ICE matching system 100. For example, lookup segment 154 may be loaded via a translation workflow application server (not shown), such as Idiom's WorldServer ™, which ICE matching system 100 may be part of. it can. Lookup segment 154 can be loaded as part of a larger asset. In this case, the system 100 may segment a larger asset in any form now known or later developed to create a lookup segment 154, for example as provided by Idiom's WorldServer ™. It can be carried out. Segmentation is a process through which asset content is analyzed and published as translatable segments. The size of the segment depends on the segmentation rule, which can be user defined.

B.全般的方法論
ステップS1〜S12は、ルックアップセグメント154ごとの分析を表す。
B. General Methodology Steps S1-S12 represent an analysis for each lookup segment 154.

第1ステップS1では、TM 128内の複数のソーステキスト152内のルックアップセグメント154のすべての正確一致を、正確一致デターミナ130によって判定する。正確一致デターミナ130は、ほとんどの従来のTMシステムと同様に機能することができ、従来のTMシステムの正確一致デターミナは、ストリング比較アルゴリズムを使用してTM 128に格納された翻訳の適切性を測定し、ここで、スコアは、2つのストリングがどれほどよく一致するかに基づいて与えられる。100%のスコアは、通常、正確一致が見つかったことを示し、或いは、差を自動的に解決(たとえば、配置可能要素、自動局所化技法、又は自動置換技法を使用して「修復」)され得る一致を示す。たとえば、図3に示されているように、ルックアップセグメント「global enterprises」は、ドイツ語に翻訳された時に、1)globale Wesen、2)globale Unternehmen、及び3)globale Geschaefteという2つの正確一致をもたらすはずである。ルックアップセグメント「team of visionaries」は、フランス語に翻訳された時に、1)e’quipe de visionnaires、2)groupe de visionnaires、3)bande des visionnaires、及び4)groupe de futurologuesという4つの正確一致をもたらすはずである。複数の正確一致が、ルックアップセグメント154ごとにTM 128内に存在する場合がある。というのは、任意の所与のセグメントに関する複数の翻訳及び所与の言語でのある陳述の意味が、単語のみから導出されるのではなく、それが使用される文脈からも導出されるからである。したがって、各以前の翻訳が、特定のソーステキスト152の、したがって同一のルックアップセグメント154の、多数のターゲットテキスト翻訳162、164をもたらす可能性がある。   In a first step S 1, all exact matches of lookup segments 154 in the plurality of source texts 152 in TM 128 are determined by exact match determiner 130. The exact match determiner 130 can function in the same way as most conventional TM systems, and the exact match determiner of conventional TM systems measures the appropriateness of translations stored in TM 128 using a string comparison algorithm. Where the score is given based on how well the two strings match. A score of 100% usually indicates that an exact match has been found, or the difference is automatically resolved (eg, “repaired” using placeable elements, auto-localization techniques, or auto-replacement techniques). Indicates the match to be obtained. For example, as shown in FIG. 3, the lookup segment “global enterprises”, when translated into German, has two exact matches: 1) global Wesen, 2) global Internetnemen, and 3) global Gescheefte. Should bring. The look-up segment “team of visionaries”, when translated into French, is 1) e'quipe de visionnaires, 2) group devisionnaires, 3) bande des visionnaires, and 4) group de foulol4 It should be. Multiple exact matches may exist in TM 128 for each lookup segment 154. This is because the meaning of multiple translations and a statement in a given language for any given segment is derived not only from the word but also from the context in which it is used. is there. Thus, each previous translation may result in multiple target text translations 162, 164 of a particular source text 152 and thus the same lookup segment 154.

ステップS2では、少なくとも1つの正確一致が判定された、すなわちTM 128内で見つかったかどうかに関する判定を行う。ステップS2でそうではない場合には、処理はステップS3に進み、ここで、ファジイ一致デターミナ134が、任意の現在既知の又は今後に開発される形でルックアップセグメント154のファジイ一致があるかどうかを判定する。ルックアップセグメント154に関するすべてのファジイ一致が、ステップS4で報告される。「報告」は、本明細書で使用される時に、ユーザへの結果の表示、結果の転送、及び/又は結果の格納を意味することができる。図示されてはいないが、ファジイ一致が見つからない場合には、従来の自動翻訳を始めさせることができる。   In step S2, a determination is made as to whether at least one exact match has been determined, i.e., has been found in TM128. If not, in step S2, processing proceeds to step S3, where fuzzy match determiner 134 has a fuzzy match for lookup segment 154 in any currently known or later developed form. Determine. All fuzzy matches for lookup segment 154 are reported in step S4. “Report”, as used herein, can mean display of results to a user, transfer of results, and / or storage of results. Although not shown, if no fuzzy match is found, conventional automatic translation can be initiated.

ステップS2でYESである場合には、ステップS5で、ICE一致デターミナ132が、それぞれの正確一致がルックアップセグメント154の文脈内正確(ICE)一致であるかどうかを判定する。上で述べたように、「ICE一致」は、ソーステキスト152が正確一致であらねばならず、これがルックアップセグメント154と共通の文脈を共有もすることを意味する。言い換えると、ルックアップセグメント154の文脈識別と一致する文脈識別166を有する正確一致が、ICE一致である。一実施形態で、この判定における文脈は、使用文脈のみを含む。しかし、下で説明するように、他の文脈マッチングレベルを使用することができる。   If YES in step S2, in step S5, ICE match determiner 132 determines whether each exact match is an in-context exact (ICE) match of lookup segment 154. As noted above, “ICE match” means that the source text 152 must be an exact match, which also shares a common context with the lookup segment 154. In other words, an exact match with a context identification 166 that matches the context identification of the lookup segment 154 is an ICE match. In one embodiment, the context in this determination includes only the usage context. However, other context matching levels can be used, as described below.

ステップS5は、2つのサブステップを含む。第1に、サブステップS5A、文脈アイデンティファイヤ142が、ルックアップセグメント154の文脈を識別する。一実施形態で、文脈アイデンティファイヤ142は、そのソース資産内でルックアップセグメント154を取り巻くセグメントに基づいて文脈を識別する。この場合に、ハッシュアルゴリズム133が、ルックアップセグメント(LS)先行UCハッシュコード及びルックアップセグメント(LS)後UCハッシュコードを計算することによって、ルックアップセグメント154の使用文脈を判定するために実施される。やはり、ハッシュアルゴリズム133は、テキストストリームを一意の数値識別子に変換できる任意の現在既知の又は今後に開発されるハッシュアルゴリズムを含む。図4を参照すると、「team of visionaries」の形のルックアップセグメント154Aを含む例示的なソース資産180が示されている。LS先行UCハッシュコードは、直接に先行するセグメント190に基づいて形成される。たとえば、図4に示されているように、LS先行UCハッシュコードは、「Idiom was founded in January 1998 by a team of visionaries」について計算される。同様に、LS後UCハッシュコードは、直接に続くセグメント192すなわち、「team of visionaries who recognized the need for an enterprise−class software product that would meet the globalization」について計算される。ソース資産180の資産文脈を、資産ハッシュに基づいて文脈アイデンティファイヤ142によって識別することができ、この資産ハッシュは、特定の資産のシステムの識別、たとえば資産名、システム内の位置などに基づく。   Step S5 includes two substeps. First, substep S 5 A, context identifier 142 identifies the context of lookup segment 154. In one embodiment, context identifier 142 identifies a context based on the segments surrounding lookup segment 154 in its source asset. In this case, a hash algorithm 133 is implemented to determine the usage context of the lookup segment 154 by calculating a lookup segment (LS) predecessor UC hash code and a lookup segment (LS) post-UC hash code. The Again, the hash algorithm 133 includes any currently known or later developed hash algorithm that can convert a text stream into a unique numerical identifier. Referring to FIG. 4, an exemplary source asset 180 is shown that includes a lookup segment 154A in the form of “team of visionaries”. The LS predecessor UC hash code is formed based on the immediately preceding segment 190. For example, as shown in FIG. 4, the LS predecessor UC hash code is calculated for “Idioms was found in January 1998 by a team of visions”. Similarly, the post-LS UC hash code is calculated for the segment 192 that follows directly, that is, “team of visionaries who recognized the need for an enterprise-class software product that meets the weight.” The asset context of the source asset 180 can be identified by the context identifier 142 based on the asset hash, which is based on the identification of the particular asset's system, eg, asset name, location in the system, and the like.

代替実施形態では、文脈アイデンティファイヤ142は、ルックアップセグメント154に関連するセグメント識別子(SID)に従ってルックアップセグメント154の文脈を識別し、このSIDは、上で述べたように、セグメントが翻訳されなければならない使用文脈を定義するラベルを含む。SIDは、セグメント境界を定義するマーカータグを含むことができる。好ましくは、SIDは、セグメントの作成中に、すなわち内容作成者によって、ソーステキスト152及び/又はルックアップセグメント154に関連付けられる。しかし、SIDを、たとえば以前の内容翻訳者によって、より後の時にソーステキスト152及び/又はルックアップセグメント154に関連付け、或いは上書きすることができる。   In an alternative embodiment, the context identifier 142 identifies the context of the lookup segment 154 according to the segment identifier (SID) associated with the lookup segment 154, which is the segment translated as described above. Contains a label that defines the usage context that must be present. The SID can include a marker tag that defines a segment boundary. Preferably, the SID is associated with the source text 152 and / or lookup segment 154 during segment creation, ie, by the content creator. However, the SID can be associated or overwritten with the source text 152 and / or lookup segment 154 at a later time, for example, by a previous content translator.

サブステップS5Bでは、ICE一致エバリュエータ144が、ルックアップセグメント154と同一の文脈内で使用されたかどうかすなわち各正確一致がICE一致であるかどうかを判定するために各候補と共に格納された文脈識別166を使用することによって、ルックアップセグメント154の正確一致ごとの評価を行う。正確一致がICE一致と考えられるために必要な文脈マッチングの度合は、事前に決定されるものとすることができる。一実施形態では、ICE一致エバリュエータ144は、ルックアップセグメント154の各文脈レベルがそれぞれの正確一致の文脈レベルと一致する場合に限って、それぞれの正確一致がルックアップセグメント154のICE一致であることを示す。たとえば、文脈が、使用文脈レベル及び資産文脈レベルを含む場合に、判定ステップは、ルックアップセグメントの使用文脈レベルと資産文脈レベルとの両方がそれぞれの正確一致の使用文脈レベルと資産文脈レベルとの両方と一致する場合に限って、それぞれの正確一致がルックアップセグメントのICE一致であることを示すことができる。さらなる例として、文脈が、使用文脈レベル及び構造的文脈レベルを含む場合に、判定ステップは、ルックアップセグメントの使用文脈レベルと構造的文脈レベルとの両方がそれぞれの正確一致の使用文脈レベルと構造的文脈レベルとの両方と一致する場合に限って、それぞれの正確一致がルックアップセグメントのICE一致であることを示すことができる。使用文脈レベルは、先行ソース使用文脈レベル、後ソース使用文脈レベル、後ターゲット使用文脈レベル、及び後ターゲット使用文脈レベルのうちの1つ又は複数を含むことができる。   In sub-step S5B, the context identification 166 stored with each candidate to determine whether the ICE match evaluator 144 was used in the same context as the lookup segment 154, ie, whether each exact match is an ICE match. Is used for each exact match of the lookup segment 154. The degree of context matching required for an exact match to be considered an ICE match can be predetermined. In one embodiment, the ICE match evaluator 144 determines that each exact match is an ICE match of the lookup segment 154 only if each context level of the lookup segment 154 matches the context level of the respective exact match. Indicates. For example, if the context includes a usage context level and an asset context level, the decision step can determine that both the usage context level and the asset context level of the lookup segment Only if both match, it can be shown that each exact match is an ICE match of the lookup segment. As a further example, if the context includes a usage context level and a structural context level, the determining step can include determining whether the usage context level and the structural context level of the lookup segment are the exact matching usage context level and structure, respectively. It can be shown that each exact match is an ICE match of the lookup segment only if it matches both the target context level. The usage context level can include one or more of a preceding source usage context level, a post source usage context level, a post target usage context level, and a post target usage context level.


図3を参照し、例示的なルックアップセグメント154がテキスト「team of visionaries」を含み、これがフランス語に翻訳されなければならないと仮定する。また、ルックアップセグメント「team of visionaries」が、333のLS先行UCハッシュコード及び4444のLS後UCハッシュコードを有すると仮定し、666666の資産文脈を仮定する(図3のすべてのハッシュコードが、図を明瞭にするために単純化されていることを理解されたい)。図3に示されているように、正確一致デターミナ130は、フランス語に翻訳された時のルックアップセグメント「team of visionaries」の4つの正確一致すなわち1)e’quipe de visionnaires、2)groupe de visionnaires、3)bande des visionnaires、及び4)groupe de futurologuesを判定するはずである。ICE一致エバリュエータ144は、正確一致を再検討し、図3に示されているように、ルックアップセグメント「team of visionaries」がフランス語に翻訳される時に、ソーステキスト「groupe de visionnaires」が、同一の資産文脈170及び使用文脈(ハッシュコード)172、174を有するので、同一の文脈を有すると判定するはずである。したがって、「groupe de visionnaires」は、ICE一致になるはずである。他のソーステキストは、ルックアップセグメント「team of visionaries」の少なくとも1つの文脈コードを有しないので、ICE一致としての資格を有しないはずである。
Example Referring to FIG. 3, assume that an exemplary lookup segment 154 includes the text “team of visionaries”, which must be translated into French. Also assume that the lookup segment “team of visionaries” has a LS pre-UC hash code of 333 and a post-LS UC hash code of 4444 and assumes an asset context of 666666 (all hash codes of FIG. (It should be understood that it has been simplified for clarity of illustration). As shown in FIG. 3, the exact match determiner 130 has four exact matches of the look-up segment “team of visionaries” when translated into French: 1) e'quipe devisionnaires, 2) group devisionnaires 3) bandes des visionnaires and 4) groups de futurology should be determined. The ICE match evaluator 144 reviews the exact match and, as shown in FIG. 3, when the lookup segment “team of visionaries” is translated into French, the source text “group de visionnaires” Since it has the asset context 170 and the usage context (hash code) 172, 174, it should be determined that they have the same context. Therefore, “group devisionnaires” should be an ICE match. The other source text should not qualify as an ICE match because it does not have at least one context code for the lookup segment “team of visionaries”.

代替実施形態では、ICE一致エバリュエータ144は、ルックアップセグメントの一部の文脈レベルのみがそれぞれの正確一致の文脈レベルと一致する場合であっても、それぞれの正確一致がルックアップセグメント154のICE一致であることを示すことができる。   In an alternative embodiment, the ICE match evaluator 144 may determine that each exact match matches the ICE match of the lookup segment 154 even if only some context levels of the lookup segment match the context level of each exact match. It can be shown that.


図3を参照し、例示的なルックアップセグメント154が、テキスト「global enterprises」を含み、これがドイツ語に翻訳されなければならないと仮定する。また、ルックアップセグメント「global enterprises」が、1234のLS先行UCハッシュコード及び4321のLS後UCハッシュコードを有すると仮定し、7890の資産文脈を仮定する。図3に示されているように、正確一致デターミナ130は、ドイツ語に翻訳された時のルックアップセグメント「global enterprises」の3つの正確一致すなわち、1)globale Wesen、2)globale Unternehmen、及び3)globale Geschaefteを判定するはずである。1つの使用文脈レベルだけが、正確一致がICE一致になるために必要であると仮定すると、ICE一致エバリュエータ144は、正確一致を再検討し、図3に示されているように、ルックアップセグメント「global enterprises」がドイツ語に翻訳される時に、ソーステキスト「globale Wesen」及び「globale Unternehmen」が、それぞれLS UCハッシュコードの1つと一致する1つのUCハッシュコードを有するので、同一の文脈を有すると判定するはずである。すなわち、「globale Wesen」は、ルックアップセグメントと同一の前(先行)ソースUCハッシュコードを有し、「globale Untemehmen」は、ルックアップセグメントと同一の後ソースUCハッシュコードを有する。他のソーステキストは、ルックアップセグメント「global enterprises」の少なくとも1つの文脈レベルを有しないので、ICE一致としての資格を有しないはずである。システム100が複数のICE一致にどのように優先順位を付けるかの詳細を、下で説明する。
Example Referring to FIG. 3, assume that an exemplary lookup segment 154 includes the text “global enterprises”, which must be translated into German. Also assume that the lookup segment “global enterprises” has a 1234 LS pre-UC hash code and a 4321 post-LS UC hash code and assumes an asset context of 7890. As shown in FIG. 3, the exact match determiner 130 has three exact matches of the lookup segment “global enterprises” when translated into German: 1) global Wesen, 2) global Internetnemen, and 3 ) Should determine global Geschaefte. Assuming that only one usage context level is required for an exact match to become an ICE match, the ICE match evaluator 144 reviews the exact match and, as shown in FIG. When “global enterprises” is translated into German, the source texts “global Wesen” and “global Unternehmen” each have one UC hash code that matches one of the LS UC hash codes, so they have the same context. It should be judged. That is, “global Wesen” has the same previous (preceding) source UC hash code as the look-up segment, and “global Untemehmen” has the same post-source UC hash code as the look-up segment. The other source text should not qualify as an ICE match because it does not have at least one context level for the lookup segment “global enterprises”. Details of how the system 100 prioritizes multiple ICE matches is described below.

ICE一致が判定されない、すなわち、ステップS6のNOの場合には、ステップS7で、すべての正確一致を報告する。その後、ステップS8で、正確一致及びファジイ一致すなわちステップS3〜4からの一致を、任意の現在既知の又は今後に開発される形でユーザによって妥当性検査することができる。この場合に、正確一致及びファジイ一致は、そのそれぞれのキャッシュに取り出され、クライアントコンピュータシステム150によって翻訳者から使用可能にされ、ここで、翻訳者は、ソース資産180内容を与えられて各正確一致が最良一致であることを保証するためにそのような正確一致を妥当性検査し、ソース資産180内容と一致するように各ファジイ一致を更新しなければならない。   If no ICE match is determined, i.e. NO in step S6, all exact matches are reported in step S7. Thereafter, in step S8, the exact and fuzzy matches, ie the matches from steps S3-4, can be validated by the user in any currently known or later developed form. In this case, exact matches and fuzzy matches are retrieved into their respective caches and made available to the translator by the client computer system 150, where the translator is given the source asset 180 content and each exact match. Such an exact match must be validated and each fuzzy match updated to match the source asset 180 content to ensure that is the best match.

ICE一致が判定される、すなわちステップS6のYESの場合に、図2Bに示されているように、ステップS9で、ICE一致ランカ146が、複数のICE一致が見つかったかどうかを判定する。1つのICE一致だけが判定される場合には、ステップS10で、その単一のICE一致を報告する。ICE一致が自動的に報告された後に、システム100は、セグメントリトリーバ138を介するターゲットテキスト162、164の取出を可能にする。   If an ICE match is determined, ie, YES in step S6, as shown in FIG. 2B, in step S9, the ICE match ranker 146 determines whether a plurality of ICE matches are found. If only one ICE match is determined, in step S10, that single ICE match is reported. After the ICE match is automatically reported, the system 100 allows retrieval of the target text 162, 164 via the segment retriever 138.

本発明の実施形態は、構造的文脈レベルを使用してICE一致の曖昧性除去を改善することに関する。構造化文脈レベルを伴う次の第1の例を検討されたい。
ソース1(s1) 構造化文脈=見出しテキスト「Print the document」
ターゲット1(t1) 構造化文脈=見出しテキスト「Das Dokument ausdrucken」
この場合に、見出し構造的文脈(翻訳単位内のソースセグメントとターゲットセグメントとの両方について同一)において、ドイツ語翻訳は、翻訳において不定詞(非命令法)形を使用する。
Embodiments of the present invention relate to improving ICE match disambiguation using structural context levels. Consider the following first example with a structured context level.
Source 1 (s1) Structured context = Heading text “Print the document”
Target 1 (t1) Structured context = Heading text “Das Document ausdruken”
In this case, in the heading structural context (identical for both the source and target segments in the translation unit), the German translation uses the infinitive (non-imperative) form in the translation.

ここで、同一文書内で、さらに、同一の英文が使用されるが、今回は命令形がドイツ語で必要になるように指示リストの形である構造的文脈レベルを伴う次の第2の例を検討されたい。
ソース2(s2) 構造的文脈=指示リスト「Print the document」
ターゲット2(t2) 構造的文脈=指示リスト「Drucken Sie das Dokument aus」
Here, the following second example with a structural context level that is in the form of an instruction list so that the same English sentence is used in the same document, but this time the imperative form is required in German Please consider.
Source 2 (s2) Structural context = instruction list “Print the document”
Target 2 (t2) Structural context = instruction list “Drucken Sie das Document aus”

上の例示的な文が、本発明の実施形態に従って翻訳メモリ又は他のそのようなデータストアに格納される場合に、異なる翻訳だけではなく、その構造的文脈(すなわち、見出し対指示リスト)も翻訳メモリに格納される。その後、同一の文が同一の構造的文脈で現れる時に、必ず、現在の構造的文脈に適切な翻訳を、優先的に提案することができる。   When the above exemplary sentence is stored in a translation memory or other such data store in accordance with an embodiment of the present invention, not only the different translations, but also its structural context (i.e., heading vs. instruction list) Stored in translation memory. Thereafter, whenever the same sentence appears in the same structural context, a translation appropriate to the current structural context can be preferentially proposed.

構造的文脈レベルを、使用文脈レベル(先行、後、ソース、及び/又はターゲット)及び/又は資産文脈レベルの代わりに或いはそれに加えて使用することができる。   The structural context level can be used instead of or in addition to the usage context level (predecessor, after, source, and / or target) and / or asset context level.

C.複数ICE一致優先順位付け
図2Bを参照すると、ステップS11〜12は、複数のICE一致がステップS5で判定される状況すなわちステップS9のYESに対処するオプションのステップを表す。一実施形態(図示せず)で、ICE一致デターミナ130は、単純に、ユーザがICE一致のリストからICE一致を選択することを可能にすることができる。しかし、これは、ICE一致の1つの目的すなわち、正確一致を妥当性検査する必要がないことをくつがえすので、好ましくはない。図2Bに示された好ましい実施形態では、複数のICE一致が判定される場合に、ICE一致プライオリタイザ146は、ステップS11で、文脈一致の度合に従って各ICEに優先順位を付ける(ランキングする)。上で説明したように、「文脈マッチングの度合」は、事前に決定されるものとすることができる。このステップは、文脈マッチングの各ICE一致度合に優先順位を付け、ステップS12で、選択のためにユーザにICE一致を提示するか、最高ランキングのICE一致を自動的に選択するかのいずれかを行う。複数ICE一致に優先順位を付けるさまざまな定式が、文脈レベルの個数に依存して可能であることを理解されたい。1つ又は複数の固定された定式の代替又はそれへの追加として、最適の(又は他の形で許容可能な)優先順位付けに、学習プロセスを介して到達することができ、ここで、所与のトレーニングコーパスから、又は所定の期間にわたる以前の翻訳プロジェクトからの出力若しくは生翻訳プロジェクトからの部分からの観察された結果が、異なる文脈レベルの優先順位付けを調整するのに使用される。
C. Multiple ICE Match Prioritization Referring to FIG. 2B, steps S11-12 represent an optional step that addresses the situation where multiple ICE matches are determined in step S5, ie, YES in step S9. In one embodiment (not shown), the ICE match determiner 130 can simply allow the user to select an ICE match from a list of ICE matches. However, this is not preferred because it overrides one purpose of ICE matching, namely that it is not necessary to validate an exact match. In the preferred embodiment shown in FIG. 2B, when multiple ICE matches are determined, the ICE match prioritizer 146 prioritizes (ranks) each ICE according to the degree of context match in step S11. As explained above, the “degree of context matching” can be determined in advance. This step prioritizes each ICE match degree of context matching, and in step S12 either presents the ICE match to the user for selection or automatically selects the highest ranking ICE match. Do. It should be understood that various formulas for prioritizing multiple ICE matches are possible depending on the number of context levels. As an alternative to or in addition to one or more fixed formulas, optimal (or otherwise acceptable) prioritization can be reached through the learning process, where Observed results from a given training corpus, or output from previous translation projects over a period of time or parts from live translation projects, are used to adjust prioritization of different context levels.

次の例で、複数ICE一致の優先順位付けの一実施形態を示す。   The following example illustrates one embodiment of prioritizing multiple ICE matches.


文脈が、使用文脈レベル及び資産文脈レベルを含み、ルックアップセグメント「team of visionaries」が、図4に示されているようにソース文書180に基づいて図3のTM 128を使用してフランス語に翻訳されなければならないと仮定する。この場合に、「team of visionaries」は、以前に格納された翻訳に基づいて、4つの正確一致すなわち、1)e’quipe de visionnaires、2)groupe de visionnaires、3)bande des visionnaires、及び4)groupe de futurologuesを有する。また、ルックアップセグメント「team of visionaries」が、LS前ソースUCハッシュコード333、LS後ソースUCハッシュコード4444、及び資産コード666666を有すると仮定する。また、正確一致がICE一致デターミナ132によってICE一致として示されるために、1つの文脈レベルだけがルックアップセグメントの文脈レベルと一致する必要があると仮定する。この場合に、各正確一致は、ICE一致である。具体的に言うと、1)「e’quipe de visionnaires」は、一致する前ソースUCハッシュコード及び資産コードを有し、2)「groupe de visionnaires」は、すべての一致する文脈レベルを有し、3)「bande des visionnaires」は、一致する資産コードを有し、4)「groupe de futurologues」は、一致する後ソースUCハッシュコードを有する。
Example The context includes usage context level and asset context level, and the lookup segment “team of visionaries” is translated into French using TM 128 of FIG. 3 based on source document 180 as shown in FIG. Assume that it must be translated. In this case, “team of visions” is based on previously stored translations and has four exact matches: 1) e'quipe devisionnaires, 2) group devisionnaires, 3) banded devisionnaires, and 4) have group de futurology. Also assume that the lookup segment “team of visionaries” has a pre-LS source UC hash code 333, a post-LS source UC hash code 4444, and an asset code 666666. It is also assumed that only one context level needs to match the context level of the lookup segment in order for an exact match to be indicated as an ICE match by the ICE match determiner 132. In this case, each exact match is an ICE match. Specifically, 1) “e'quipe de visionnaires” has a matching previous source UC hash code and asset code, and 2) “group de visionnaires” has all matching context levels, 3) “band des visionnaires” has a matching asset code, 4) “group de futurology” has a matching post source UC hash code.

定義により、ICE一致が、不一致のルックアップセグメント(すなわち、手動翻訳又は機械翻訳を必要とするセグメント)、ファジイ一致、及びICE一致ではない正確一致より高い優先順位を与えられることを認められたい。ICE一致に関する1つの優先順位付け規程を、下で示す。この規程では、ランキングは、優先権の逆順でリストされ(たとえば、番号が大きいほど、優先順位が高い)、使用文脈(UC)レベルは、先行UCレベル及び後UCレベルを含み、いくつかの例示的優先順位付けステップは、次を含む。   It should be appreciated that by definition, ICE matches are given higher priority than non-matching lookup segments (ie, segments that require manual or machine translation), fuzzy matches, and exact matches that are not ICE matches. One prioritization rule for ICE match is shown below. In this rule, the rankings are listed in reverse order of priority (eg, the higher the number, the higher the priority), the usage context (UC) levels include the preceding UC level and the subsequent UC level, and some examples The prioritizing step includes:

1.ソース使用文脈(UC)一致、ターゲットUC)一致、及び構造的文脈一致が、ソース使用文脈(UC)一致及びターゲット使用文脈(UC)一致より優先される。
ルックアップセグメントと同一のソースUCハッシュコード及びターゲットUCハッシュコードのみを有するICE一致よりも、ルックアップセグメントと同一のソースUCハッシュコードとターゲットUCハッシュコードとの両方並びに同一の構造的文脈一致を有するICE一致が優先される。
1. Source usage context (UC) matches, target UC) matches, and structural context matches take precedence over source usage context (UC) matches and target usage context (UC) matches.
Have both the same source UC hash code and target UC hash code as the lookup segment and the same structural context match than the ICE match that has only the same source UC hash code and target UC hash code as the lookup segment ICE match takes precedence.

2.ソースUC一致及びターゲットUC一致は、ソースのみのUC一致より優先される。
ルックアップセグメントと同一のソースUCハッシュコードだけを有するICE一致よりも、ルックアップセグメントと同一のソースUCハッシュコードとターゲットUCハッシュコードとの両方を有するICE一致が優先される。
2. Source UC matches and target UC matches take precedence over source-only UC matches.
An ICE match that has both the same source UC hash code and the target UC hash code as the lookup segment takes precedence over an ICE match that has only the same source UC hash code as the lookup segment.

3.先行UC一致が、後UC一致より優先される。
ルックアップセグメントの後ソース使用文脈レベル又は後ターゲット使用文脈レベルと一致するそれらのレベルのいずれかのみを有するICE一致よりも、ルックアップセグメントの先行ソース使用文脈レベル又は先行ターゲット使用文脈レベルと一致するそれらのレベルのいずれかを有するICE一致が優先される。
3. A preceding UC match takes precedence over a subsequent UC match.
Matches the previous source usage context level or the previous target usage context level of the lookup segment, rather than an ICE match that has only either those levels that match the later source usage context level or the later target usage context level of the lookup segment ICE matches with any of those levels are preferred.

4.フルソース使用文脈(UC)一致が、部分的ソース使用文脈(UC)一致より優先される。
ルックアップセグメントのハッシュコードと一致する1つのソースUCだけを有する正確一致が、ICE一致(「部分一致と称する)と考えられると仮定すると、部分一致よりも、ルックアップセグメントと同一の前ソースUCハッシュコードと後ソースUCハッシュコードとの両方を有するICE一致(「フルソースUC一致」と称する)が優先される。言い換えると、ルックアップセグメントの前ソースUCレベル及び後ソースUCレベルと一致する前ソースUCレベルと後ソースUCレベルとの両方を有するICE一致が、ルックアップセグメントの前ソースUCレベル又は後ソースUCレベルと一致する前ソースUCレベル及び後ソースUCレベルの一方だけを有するICE一致より優先される。たとえば、ICE一致2)「groupe de visionnaires」は、これがルックアップセグメントと一致する前UCハッシュコード(333)及び後UCハッシュコード(4444)を有するので、他のすべてより優先される。
4). A full source usage context (UC) match takes precedence over a partial source usage context (UC) match.
Assuming that an exact match with only one source UC that matches the hash code of the lookup segment is considered an ICE match (referred to as a “partial match”), the previous source UC that is identical to the lookup segment rather than the partial match ICE matches that have both a hash code and a post source UC hash code (referred to as "full source UC match") are preferred. In other words, an ICE match that has both a previous source UC level and a subsequent source UC level that match the previous source UC level and the subsequent source UC level of the lookup segment is the previous source UC level or the subsequent source UC level of the lookup segment. Overrides an ICE match that has only one of the previous source UC level and the later source UC level. For example, ICE match 2) “group de visionnaires” is preferred over all others because it has a pre-UC hash code (333) and a post-UC hash code (4444) that match the lookup segment.

同様に、優先順位付けを、部分ターゲットUC一致よりもフルターゲットUC一致に与えることができる。   Similarly, prioritization can be given to full target UC matches rather than partial target UC matches.

5.ルックアップセグメントと同一の資産からのICE一致は、他の資産からの一致より優先される。
この場合に、複数のICE一致を、上で説明した部分一致よりフル一致を優先することによって区別することはできない、すなわち、第1優先は、非決定的であり、資産コードに基づいて、ルックアップセグメントと同一の資産からのICE一致が優先される。言い換えると、第1優先が非決定的である場合に、ルックアップセグメントと同一の資産からのICE一致が、異なる資産からのICE一致よりも優先される。この例では、ICE一致1)「e’quipe de visionnaires」及び4)「groupe de futurologues」は、両方とも部分ICE一致であるが、ICE一致1)「e’quipe de visionnaires」は、ルックアップセグメントと同一の資産「666666」からであり、これが優先されるはずである。
5. ICE matches from the same asset as the lookup segment take precedence over matches from other assets.
In this case, multiple ICE matches cannot be distinguished by prioritizing the full match over the partial match described above, i.e., the first priority is non-deterministic and is looked up based on the asset code. ICE matching from the same asset as the segment takes precedence. In other words, if the first priority is non-deterministic, an ICE match from the same asset as the lookup segment takes precedence over an ICE match from a different asset. In this example, ICE match 1) "e'quipe de visionnaires" and 4) "group de futurology" are both partial ICE matches, but ICE match 1) "e'quipe de visionnaires" is the lookup segment From the same asset “666666” and this should be preferred.

6.同一資産からの複数のICE一致がルックアップセグメントについて判定される場合には、資産内のルックアップセグメントの位置により近い位置を有するICE一致が優先される。
この優先順位付けは、ルックアップセグメント154が、単一のソース資産180内の多数の位置に存在し、その結果として複数のICE一致が特定の資産について存在する状況に対処するものである。たとえば、図4に、ルックアップセグメント「team of visionaries」154A、154Bの2つの出現を含むソース資産180を示す。この場合に、ICE一致プライオリタイザ146は、特定のルックアップセグメントの資産内の位置を評価し、同一資産からの他のICE一致よりも、ルックアップセグメントの資産内の位置に最も近いICE一致を優先する。言い換えると、第2優先が非決定的である場合に、資産内のルックアップセグメントの位置に最も近い位置を有するICE一致が、他のICE一致よりも優先される。位置のこの評価は、特定の資産内のルックアップセグメントの任意の回数の繰り返しについて繰り返すことができる。
6). If multiple ICE matches from the same asset are determined for a lookup segment, the ICE match that has a position closer to the location of the lookup segment within the asset takes precedence.
This prioritization addresses the situation where the lookup segment 154 exists in multiple locations within a single source asset 180, resulting in multiple ICE matches for a particular asset. For example, FIG. 4 shows a source asset 180 that includes two occurrences of the lookup segment “team of visionaries” 154A, 154B. In this case, the ICE match prioritizer 146 evaluates the position within the asset of a particular lookup segment and determines the ICE match that is closest to the position within the asset of the lookup segment rather than other ICE matches from the same asset. Prioritize. In other words, if the second preference is non-deterministic, the ICE match that has the closest location to the location of the lookup segment in the asset takes precedence over the other ICE matches. This assessment of location can be repeated for any number of iterations of the lookup segment within a particular asset.

したがって、優先順位付けは、まず複数のICE一致の曖昧性を除去するために構造的文脈レベルと組み合わされたソース使用文脈レベル及びターゲット使用文脈レベルの一致を探すことを伴うことができる。この第1ステップが、ICE一致の間の曖昧性除去に十分ではない場合には、ソース文脈レベルでの一致だけではなくソース使用文脈レベルとターゲット使用文脈レベルとの両方の一致を使用することができる。後使用文脈レベルではなく先行使用文脈レベルを次に使用することができ、これに、部分的ソース使用文脈又は部分的ターゲット使用文脈ではなくフルソース使用文脈又はフルターゲット使用文脈を続けることができる。上のステップが、複数のICE一致の間で曖昧性除去を行えない場合には、資産文脈レベルを使用することができる。これが、それでも曖昧性除去に不十分である場合には、ルックアップセグメントの位置を使用することができる。   Thus, prioritization can involve first looking for a match of the source usage context level and the target usage context level combined with the structural context level to remove the ambiguity of multiple ICE matches. If this first step is not sufficient for disambiguation during an ICE match, it may use a match at both the source usage context level and the target usage context level as well as a match at the source context level. it can. The pre-use context level can then be used instead of the post-use context level, which can be followed by a full source usage context or a full target usage context rather than a partial source usage context or a partial target usage context. An asset context level can be used if the above steps fail to disambiguate between multiple ICE matches. If this is still insufficient for disambiguation, the location of the lookup segment can be used.

資産メタデータを、上のステップ又は類似するステップとの任意の組合せ及び/又は優先の順序で、曖昧性除去のための複数ICE一致の優先順位付けで使用することができる。同様に、ファジイ一致の曖昧性を除去するときには、上のステップ又は類似するステップからの異なる優先順位付けの方式及び優先の順序を使用することができる。   Asset metadata can be used in prioritization of multiple ICE matches for disambiguation in any combination and / or priority order with the above or similar steps. Similarly, when removing fuzzy matching ambiguities, different prioritization schemes and priority orders from the above or similar steps can be used.

上の優先順位付けステップ及びステップの順序付けは、例示のために与えられたものであり、優先順位付けステップの異なる組合せ及び順序を使用することができる。   The above prioritization steps and ordering of steps are given by way of example, and different combinations and orders of prioritization steps can be used.

優先順位付けが完了した後に、ステップS12で、ICE一致プライオリタイザ146は、任意の現在既知の又は今後に開発される形で、たとえばクライアントコンピュータシステム150のグラフィカルユーザインターフェースを介して、ユーザがランクに基づいてICE一致を選択することを可能にし、或いは、最高優先順位のICE一致を自動的に選択する。ICE一致が選択された後に、システム100は、セグメントリトリーバ138を介する少なくとも1つのターゲットテキスト162、164の取出を可能にする。   After prioritization is complete, at step S12, the ICE match prioritizer 146 ranks the user in any currently known or later developed form, eg, via the graphical user interface of the client computer system 150. Allows selection of ICE matches based on, or automatically selects the highest priority ICE match. After an ICE match is selected, the system 100 allows retrieval of at least one target text 162, 164 via the segment retriever 138.

ICE一致によってもたらされる高水準一致品質のゆえに、ICE一致であると判定されるソーステキストは、翻訳者によって再検討又は妥当性検査される必要がない。これらのソーステキストを、自動的に受け入れることができ、したがって、翻訳サイクルタイムが減り、より安価な翻訳コストがもたらされる。さらに、システム100は、内容に関して実質的に同一である複数のルックアップセグメント154が単一のソース資産180内に存在する状況に対処する。この場合に、システム100は、マッチングレベルに基づいてルックアップセグメント154ごとにICE一致を判定することができる。通常、少なくとも1つのルックアップセグメントが、この判定において助けるために、少なくとも1つの他のルックアップセグメントとは異なるICE一致を有する。そうでない場合には、複数のICE一致を、上で説明したように選択のためにユーザに報告することができる。システム100は、内容のセクションの翻訳をも容易にし、この翻訳は、内容のセグメントが分割され若しくは合併されるときであっても一致を取り出すこと及び/又は内容ブロックを単一の資産内で異なって翻訳することを可能にすることを限定なしに含んで、最小限の労力で異なる資産にまたがって繰り返される。   Because of the high level match quality provided by ICE match, source text that is determined to be ICE match does not need to be reviewed or validated by the translator. These source texts can be automatically accepted, thus reducing translation cycle time and resulting in lower translation costs. In addition, the system 100 addresses the situation where there are multiple lookup segments 154 in the single source asset 180 that are substantially identical in content. In this case, the system 100 can determine an ICE match for each lookup segment 154 based on the matching level. Typically, at least one lookup segment has a different ICE match than at least one other lookup segment to assist in this determination. Otherwise, multiple ICE matches can be reported to the user for selection as described above. The system 100 also facilitates translation of content sections, which can be used to retrieve matches and / or to separate content blocks within a single asset even when content segments are split or merged. It is repeated across different assets with minimal effort, including without limitation enabling translation.

上で説明した動作は、TM 128に対するソース資産180のさらなるルックアップセグメントの処理を継続し、或いは、資産全体が完了した後にユーザに出力を供給することができる。   The operations described above can continue processing further lookup segments of the source asset 180 for TM 128, or provide output to the user after the entire asset is complete.

D.ターゲット使用文脈レベル
上で説明した本発明の実施形態は、主に、ソース使用文脈レベルである使用文脈レベルすなわち、ソース言語の翻訳されるテキストを取り巻くテキストに関連する使用文脈を含む。しかし、本発明の他の実施形態は、ターゲット使用文脈レベルである使用文脈レベルすなわち、ターゲット言語の翻訳されるテキストの翻訳を取り巻くテキストに関連する使用文脈を含む。
D. Target Usage Context Level The embodiments of the present invention described above mainly include a usage context level that is a source usage context level, that is, a usage context associated with text surrounding the translated text of the source language. However, other embodiments of the invention include a usage context level that is a target usage context level, ie, a usage context associated with the text surrounding the translation of the translated text of the target language.

ソースs(g)及び翻訳t(g)を伴う現行セグメントgがあり、t(g)がルックアップセグメントの所望の翻訳であると考えられたい。翻訳メモリが、ソースs(g)について複数の正確一致t(g)を含む場合には、ルックアップセグメントの使用文脈を、複数の正確一致の間での曖昧性除去のために検討することができる、すなわち、使用文脈は、現行使用文脈内で最もよくあてはまるt(g)内の翻訳t(g)を選択するために使用される。そのセグメントに先行する(2か国語)セグメントがセグメントfであり、s(f)が先行セグメントのソースであり、t(f)が先行セグメントのターゲットであり、現行セグメントに続く(後)セグメントがセグメントhであり、ソースs(h)及び翻訳t(h)を伴う場合には。 Consider a current segment g with source s (g) and translation t (g), where t (g) is the desired translation of the lookup segment. If the translation memory contains multiple exact matches t * (g) for source s (g), consider the usage context of the lookup segment for disambiguation between multiple exact matches The usage context is used to select the translation t (g) within t * (g) that best fits within the current usage context. The segment that precedes the segment (in bilingual) is segment f, s (f) is the source of the preceding segment, t (f) is the target of the preceding segment, and the (following) segment following the current segment is If segment h, with source s (h) and translation t (h).

したがって、上で説明した本発明の実施形態によれば、先行ソース使用文脈レベルs(f)及び後ソース使用文脈レベルs(h)は、翻訳t(s)の間の曖昧性除去に使用される。しかし、本発明の他の実施形態は、その代わりに又はそれに加えて、ターゲットソース使用文脈レベルすなわち、先行する及び/又は後のターゲット文脈レベルt(f)及び使用可能な場合にt(h)を使用して、翻訳t(g)の間の曖昧性を除去することができる。 Thus, according to the embodiment of the invention described above, the leading source usage context level s (f) and the trailing source usage context level s (h) are used for disambiguation during the translation t * (s). Is done. However, other embodiments of the present invention may alternatively or additionally include target source usage context levels, ie, preceding and / or following target context levels t (f) and t (h) when available. Can be used to remove ambiguity between translations t * (g).

ソース使用文脈レベルを使用する曖昧性除去とターゲット使用文脈レベルを使用する曖昧性除去との間の上記の差を、これから例によって説明する。   The above difference between disambiguation using the source usage context level and disambiguation using the target usage context level will now be described by way of example.

ある文書が、
The cat sleeps. It is cute. It purrs.
という3つの文の形の3つのセグメントを含むとする。
A document
The cat sleeps. It is cut. It purrs.
3 segments in the form of three sentences.

その場合に、ドイツ語への第2セグメントの翻訳すなわちドイツ語の“It is cute.”が望まれると仮定し、さらに、第1セグメントの翻訳が既にわかっている(“Die Katze schlaeft.”)と仮定すると、ソース使用文脈に従う潜在的翻訳t(g)={“Sie ist niedlich.”,“Er ist niedlich.”,“Es ist niedlich.”}の間の曖昧性除去は、ソース言語の翻訳されるセグメントを取り巻く2つのセグメントすなわち、先行セグメントs(f)=“The cat sleeps.”及び後セグメントs(h)=“It purrs.”に基づくことだけができる。 In that case, it is assumed that a translation of the second segment into German, ie “It is cut.” In German, is desired, and further the translation of the first segment is already known (“Die Katze schlaft.”). Assuming that the potential translation t * (g) = {“Sie nis niedrich.”, “Er nis niedrich.”, “Es nis niedrich.”} According to the source usage context is It can only be based on the two segments surrounding the segment to be translated, namely the preceding segment s (f) = “The cat sleeps.” And the subsequent segment s (h) = “It purrs.”.

対照的に、ソース使用文脈レベル及びターゲット使用文脈レベルの組合せに従う潜在的翻訳訳t(g)={“Sie ist niedlich.”,“Er ist niedlich.”,“Es ist niedlich.”}の間の曖昧性除去は、ソース言語の翻訳されるセグメントに先行するセグメントs(f)=“The cat sleeps.”に基づき、ターゲット言語の翻訳されるセグメントに先行するセグメントt(f)=“Die Katze schlaeft.”にも基づくものとすることができる。 In contrast, between potential translations t * (g) = {“Sie ist niedrich.”, “Er nis niedrich.”} According to a combination of source usage context level and target usage context level Disambiguation is based on the segment s (f) = “The cat sleeps.” Preceding the translated segment in the source language, and the segment t (f) = “Die Katze” preceding the translated segment in the target language. It can also be based on “schlaft.”

多くの状況で、ターゲット及びソースの使用文脈曖昧性除去の組合せの使用は、ソース使用文脈だけを基礎とする曖昧性除去より改善された結果をもたらすことができる。本発明の他の実施形態では、ターゲット使用文脈を使用し、ソース使用文脈を使用しないものとすることができる。   In many situations, the use of a combination of target and source usage context disambiguation can yield improved results over disambiguation based only on the source usage context. Other embodiments of the invention may use a target usage context and no source usage context.

上で、t(h)が、主に完全を期して含まれることに留意されたい。現実には、翻訳者は文書を通って逐次的に作業し、したがって、t(h)は、続くセグメントが翻訳され終わるまで一般に入手可能ではないので、続くセグメントの翻訳は、しばしば未知であり、したがって、曖昧性除去には使用できない。   Note that t (h) is included primarily for completeness. In reality, the translators work sequentially through the document, so t (h) is not generally available until the following segment has been translated, so the translation of the following segment is often unknown, Therefore, it cannot be used for disambiguation.

E.翻訳メモリの生成
TMエントリに関する文脈情報の存在は、システム100動作のために必要である。したがって、本発明の実施態様は、TMに追加されるすべての新しい翻訳と共に文脈情報が格納されることを必要とする。これは、以前に翻訳された文書へのアクセスを必要とせずに、ルックアップセグメントの文脈情報を以前に翻訳されたセグメントの文脈情報と効率的に比較することを可能にする。
E. Translation Memory Generation The presence of context information regarding TM entries is necessary for system 100 operation. Thus, embodiments of the present invention require that context information be stored with every new translation added to the TM. This makes it possible to efficiently compare the context information of the lookup segment with the context information of the previously translated segment without requiring access to the previously translated document.

このために、もう1つの実施形態では、本発明は、翻訳がTM 128に保存される時に文脈情報が各翻訳と一緒に格納され、したがって、本発明が機能するために翻訳者が以前に翻訳した文書などのファイルを手元に置き続けることを必要としない形を提供する。図5に移ると、本発明は、TM 128にソーステキスト及びターゲットテキストの翻訳対を格納する方法をも含む。第1ステップS100では、TMジェネレータ136を使用して、文脈を翻訳対に割り当てる。文脈は、たとえば、内容の作成中の上で説明したSIDの実施によって、又は翻訳パス中のハッシュアルゴリズム133の動作を介して、割り当てることができる。次に、ステップS101では、TMジェネレータ136によって、文脈を翻訳対と共にTM 128に格納する。上で説明したように、文脈は、使用文脈レベル(先行、後、ソース、ターゲットの任意の組合せ)、構造的文脈レベル、及び資産文脈レベルのうちの1つ又は複数を含むことができる。   To this end, in another embodiment, the present invention allows context information to be stored with each translation when the translation is stored in TM 128, and therefore the translator has previously translated for the present invention to function. Provide a form that does not require you to keep files such as selected documents at hand. Turning to FIG. 5, the present invention also includes a method for storing translation pairs of source text and target text in TM 128. In the first step S100, the TM generator 136 is used to assign a context to the translation pair. The context can be assigned, for example, by the implementation of the SID described above during content creation, or through the operation of the hash algorithm 133 in the translation path. Next, in step S101, the TM generator 136 stores the context in the TM 128 together with the translation pair. As explained above, the context can include one or more of usage context levels (any combination of predecessor, post, source, target), structural context level, and asset context level.

上で説明したTM生成を、資産(セグメント)が作成される時にクライアント側システム150上で実施することもできることを了解されたい。この実施形態では、本発明は、TM 128を含む翻訳システム(すなわち、他のコンテンツ管理システム構成要素140と一緒のシステム100)と対話するクライアント側システム150を含む。図1及び6に移ると、この場合に、クライアント側システム150は、TM 128によって翻訳されるセグメント152にセグメント識別子(SID)を割り当てる(ステップS200)ためにSIDアサイナ200を設けることによって動作することができ、SIDは、セグメントの使用文脈を示す。SIDアサイナ200は、ユーザが所定のSIDを関連付けることを可能にすることができ、或いは、SIDは、たとえばハッシュアルゴリズム133を使用して生成されてもよい。さらに、システム150は、たとえばシステム100のTMジェネレータ136によって、TM 128の一部として格納されるためにSID割当を通信する(ステップS201)コミュニケータ202を含むことができる。   It should be understood that the TM generation described above can also be implemented on the client-side system 150 when an asset (segment) is created. In this embodiment, the present invention includes a client-side system 150 that interacts with a translation system that includes TM 128 (ie, system 100 with other content management system components 140). Turning to FIGS. 1 and 6, in this case, the client-side system 150 operates by providing a SID assigner 200 to assign a segment identifier (SID) to the segment 152 translated by the TM 128 (step S200). The SID indicates the usage context of the segment. The SID assigner 200 may allow a user to associate a predetermined SID, or the SID may be generated using a hash algorithm 133, for example. Additionally, the system 150 can include a communicator 202 that communicates SID assignments (step S201) to be stored as part of the TM 128, eg, by the TM generator 136 of the system 100.

V.結論
上で説明した発明は、ソース内容をTMの内容と完全に照合する能力を翻訳者に与え、ソース内容をTMに関して妥当性検査する必要を軽減し、真に再利用可能なTMシステムを作成することによって、翻訳者に価値を提供し、これによって、より効率的な翻訳プロセスを可能にする。
V. CONCLUSION The invention described above gives translators the ability to perfectly match source content with TM content, reduces the need to validate source content with respect to TM, and creates a truly reusable TM system. By providing value to translators, thereby enabling a more efficient translation process.

上で説明したステップの順番が、例示にすぎないことを理解されたい。この範囲までで、1つ又は複数のステップを、並列に、異なる順序で、離れた時になどで実行することができる。さらに、本発明のさまざまな実施形態で、ステップのうちの1つ又は複数を実行されないものとすることができる。   It should be understood that the order of steps described above is exemplary only. Up to this range, one or more steps can be performed in parallel, in a different order, such as when separated. Further, in various embodiments of the invention, one or more of the steps may not be performed.

本発明を、ハードウェア、ソフトウェア、伝搬される信号、又はその任意の組合せで実現でき、図示とは異なって区分できることを理解されたい。すべての種類のコンピュータ/サーバシステム(1つ又は複数)又は本明細書で説明される方法を実行するように適合された他の装置が、適切である。ハードウェア及びソフトウェアの通常の組合せは、ロードされ実行される時に本明細書に記載のそれぞれの方法を実行するコンピュータプログラムを伴う汎用コンピュータシステムとすることができる。その代わりに、本発明の機能タスクのうちの1つ又は複数を実行するための特殊化されたハードウェアを含む特定用途コンピュータ(たとえば、システム100)を利用することができる。本発明を、コンピュータプログラム製品又は伝搬される信号内で実施することもでき、このコンピュータプログラム製品又は伝搬される信号は、本明細書に記載の方法の実施を可能にするすべてのそれぞれの特徴を含み、コンピュータシステムにロードされた時にこれらの方法を実行することができる。コンピュータプログラム、伝搬される信号、ソフトウェアプログラム、プログラム、又はソフトウェアは、現在の文脈では、(a)別の言語、コード、若しくは表記への変換、及び/又は(b)異なる材料形態での再作成のいずれか若しくは両方の後に又は直接にのいずれかで、情報処理機能性を有するシステムに特定の機能を実行させることを意図された命令のセットの、任意の言語、コード、又は表記での任意の表現を意味する。さらに、本発明の教示を、加入契約又は料金を基礎とするビジネスメソッドとして提供できることを了解されたい。たとえば、システム及び/又はコンピュータを、顧客のために本明細書に記載の機能を提供するサービスプロバイダによって作成し、維持し、サポートし、及び/又は展開することができる。すなわち、サービスプロバイダは、上で説明した機能性を提供することができる。   It should be understood that the invention can be implemented in hardware, software, propagated signals, or any combination thereof and can be partitioned differently than shown. All types of computer / server system (s) or other devices adapted to perform the methods described herein are suitable. The usual combination of hardware and software can be a general-purpose computer system with a computer program that performs the respective methods described herein when loaded and executed. Instead, a special purpose computer (eg, system 100) may be utilized that includes specialized hardware for performing one or more of the functional tasks of the present invention. The invention may also be implemented in a computer program product or propagated signal, which computer program product or propagated signal has all the respective features that enable the implementation of the methods described herein. And these methods can be performed when loaded into a computer system. A computer program, propagated signal, software program, program, or software may, in the current context, (a) convert to another language, code, or notation, and / or (b) recreate in a different material form Any, in any language, code, or notation, of a set of instructions intended to cause a system with information processing functionality to perform a specific function, either after or both of Means an expression. Further, it should be understood that the teachings of the present invention can be provided as a business method based on a subscription or fee. For example, the system and / or computer can be created, maintained, supported, and / or deployed by a service provider that provides the functionality described herein for a customer. That is, the service provider can provide the functionality described above.

本発明を、その趣旨又は本質的特性から逸脱せずに他の特定の形で実施することができる。上で説明した実施形態が、単純に例示であり、本発明の原理に関して制限的ではないことを理解されたい。本発明の原理を実施し、本発明の趣旨及び範囲に含まれるさまざまな及び他の修正及び変更を、当業者が行うことができ、したがって、特許請求の範囲の同等性の意味及び範囲に含まれるすべての変更は、特許請求の範囲に含まれることが意図されている。   The present invention may be embodied in other specific forms without departing from its spirit or essential characteristics. It should be understood that the embodiments described above are merely exemplary and are not limiting with respect to the principles of the invention. Various other and other modifications and changes within the spirit and scope of the present invention can be made by those skilled in the art and thus fall within the meaning and scope of equivalence of the claims. All such changes are intended to be included within the scope of the claims.

100 文脈内正確一致翻訳システム
102 コンピュータ
112 メモリ
114 処理ユニット
116 I/Oインターフェース
118 バス
120 I/Oデバイス
122 ストレージシステム
128 翻訳メモリ
130 正確一致デターミナ
132 ICE一致デターミナ
133 ハッシュアルゴリズム
134 ファジイ一致デターミナ
136 TMジェネレータ
138 セグメントリトリーバ
140 他のシステム構成要素
142 文脈アイデンティファイヤ
144 ICE一致エバリュエータ
146 ICE一致プライオリタイザ
148 TMエントリ
150 クライアント側システム
152 ソーステキスト
154 ルックアップセグメント
162 ターゲットテキスト
164 ターゲットテキスト
166 文脈識別
168 ソース使用文脈部分
170 資産文脈部分
172 先行UCハッシュコード
174 後UCハッシュコード
180 ソース資産
190 直接に先行するセグメント
192 直接に続くセグメント
200 SIDアサイナ
202 コミュニケータ
100 exact match translation system in context 102 computer 112 memory 114 processing unit 116 I / O interface 118 bus 120 I / O device 122 storage system 128 translation memory 130 exact match determiner 132 ICE match determiner 133 hash algorithm 134 fuzzy match determiner 136 TM generator 138 Segment retriever 140 Other system components 142 Context identifiers 144 ICE match evaluator 146 ICE match prioritizer 148 TM entry 150 Client side system 152 Source text 154 Lookup segment 162 Target text 164 Target text 166 Context identification 168 Source usage Context part 1 0 Asset context portion 172 prior UC hash code 174 after UC hash code 180 source asset 190 directly preceding segment 192 immediately follows the segment 200 SID assigner 202 communicator

Claims (29)

コンピュータにより実行される、翻訳されるルックアップセグメントに対する翻訳メモリに格納された複数のソーステキストのマッチングレベルを判定する方法であって、
前記複数のソーステキスト内の前記ルックアップセグメントのすべての正確一致を判定するステップと、
少なくとも1つの正確一致が判定される場合に、前記ルックアップセグメントの文脈がそれぞれの正確一致の文脈と一致するとき、前記それぞれの正確一致が前記ルックアップセグメントの文脈内正確(ICE)一致であると判定するステップとを含み、
前記文脈が、少なくとも2つのレベルを含み、
前記少なくとも2つのレベルが、ソース使用文脈レベル及び構造的文脈レベルを含み、
前記ICE一致が、前記ルックアップセグメントの前記構造的文脈レベルと、前記ソーステキストの前記構造的文脈レベルと、の一致を含む、
方法。
A computer-implemented method for determining a matching level of a plurality of source texts stored in a translation memory for a translated lookup segment, comprising:
Determining all exact matches of the lookup segment in the plurality of source texts;
When at least one exact match is determined, the respective exact match is an in-context exact (ICE) match of the lookup segment when the context of the lookup segment matches the context of the exact match A step of determining
The context includes at least two levels;
It said at least two levels, see contains a source usage context level and a structural context level,
The ICE match includes a match between the structural context level of the lookup segment and the structural context level of the source text;
Method.
複数のICE一致が判定される場合に、ICE一致を判定する前記ステップが、より適切なICE一致が1つ又は複数の他のICE一致より優先され得るようにするために、文脈マッチングの度合に従って各ICE一致に優先順位を付けることを含む、請求項1に記載の方法。   If multiple ICE matches are determined, the step of determining an ICE match is in accordance with the degree of context matching so that a more appropriate ICE match can take precedence over one or more other ICE matches. The method of claim 1, comprising prioritizing each ICE match. 前記ルックアップセグメントのソース使用文脈レベルと構造的文脈レベルとの両方と一致するソース使用文脈レベルと構造的文脈レベルとの両方とを有するICE一致が、前記ルックアップセグメントのソース使用文脈レベルと一致するソース使用文脈レベルのみを有するICE一致より高い度合の文脈マッチングがあるとされる、請求項1又は2に記載の方法。   An ICE match that has both a source usage context level and a structural context level that match both the source usage context level and the structural context level of the lookup segment matches the source usage context level of the lookup segment The method according to claim 1 or 2, wherein there is a higher degree of context matching than an ICE match with only source usage context levels. 前記ルックアップセグメントの構造的文脈レベルと一致する構造的文脈レベルを有するICE一致が、前記ルックアップセグメントのソース使用文脈レベルと一致するソース使用文脈レベルのみを有するICE一致より高い度合の文脈マッチングがあるとされる、請求項1〜3のいずれか一項に記載の方法。   An ICE match having a structural context level that matches the structural context level of the lookup segment has a higher degree of context matching than an ICE match that has only a source usage context level that matches the source usage context level of the lookup segment. The method according to claim 1, wherein the method is said to be present. 前記少なくとも2つのレベルが、ターゲット使用文脈レベルを含み、
前記ソース使用文脈レベルが、先行ソース使用文脈レベルを含み、及び/又は前記ターゲット使用文脈レベルが、先行ターゲット使用文脈レベルを含む、請求項1〜4のいずれか一項に記載の方法。
The at least two levels include a target usage context level;
5. The method of any one of claims 1-4, wherein the source usage context level comprises a previous source usage context level and / or the target usage context level comprises a previous target usage context level.
前記少なくとも2つのレベルが、ターゲット使用文脈レベルを含み、
前記ソース使用文脈レベルが、後ソース使用文脈レベルを含み、及び/又は前記ターゲット使用文脈レベルが、後ターゲット使用文脈レベルを含む、請求項1〜5のいずれか一項に記載の方法。
The at least two levels include a target usage context level;
6. The method of any one of claims 1-5, wherein the source usage context level comprises a post-source usage context level and / or the target usage context level comprises a post-target usage context level.
前記少なくとも2つのレベルが、ターゲット使用文脈レベルを含み、
複数のICE一致が判定される場合に、ICE一致を判定する前記ステップが、より適切なICE一致が1つ又は複数の他のICE一致より優先され得るようにするために、文脈マッチングの度合に従って各ICE一致に優先順位を付けるステップを含み、
前記ソース使用文脈レベルが、先行ソース使用文脈レベルを含み、前記ターゲット使用文脈レベルが、先行ターゲット使用文脈レベルを含み、
前記ルックアップセグメントの先行ソース使用文脈レベル及び/又は先行ターゲット使用文脈レベルと一致する先行ソース使用文脈レベル及び/又は先行ターゲット使用文脈レベルを有するICE一致が、前記ルックアップセグメントの構造的文脈レベルと一致する構造的文脈レベルのみを有するICE一致より高い度合の文脈マッチングがあるとされる、請求項1〜6のいずれか一項に記載の方法。
The at least two levels include a target usage context level;
If multiple ICE matches are determined, the step of determining an ICE match is in accordance with the degree of context matching so that a more appropriate ICE match can take precedence over one or more other ICE matches. Prioritizing each ICE match,
The source usage context level includes a preceding source usage context level; the target usage context level includes a preceding target usage context level;
An ICE match having a preceding source usage context level and / or a preceding target usage context level that matches a preceding source usage context level and / or a preceding target usage context level of the lookup segment is a structural context level of the lookup segment. 7. A method according to any one of the preceding claims, wherein there is a higher degree of context matching than an ICE match with only a matching structural context level.
ICE一致を判定する前記ステップは、前記ルックアップセグメントの複数の文脈レベルがそれぞれの正確一致の文脈レベルと一致する場合に限って、前記それぞれの正確一致が前記ルックアップセグメントのICE一致であることを示す、請求項1〜7のいずれか一項に記載の方法。   The step of determining an ICE match is such that each exact match is an ICE match of the lookup segment only if multiple context levels of the lookup segment match the context level of the exact match. The method according to claim 1, wherein ICE一致を判定する前記ステップは、前記ルックアップセグメントの少なくとも1つの使用文脈レベル及び構造的文脈レベルがそれぞれの正確一致の少なくとも1つの使用文脈レベル及び構造的文脈レベルと一致する場合に限って、前記それぞれの正確一致が前記ルックアップセグメントのICE一致であることを示す、請求項1〜8のいずれか一項に記載の方法。   The step of determining an ICE match only if at least one usage context level and structural context level of the lookup segment matches at least one usage context level and structural context level of each exact match, 9. A method as claimed in any one of the preceding claims, indicating that each respective exact match is an ICE match of the lookup segment. 前記少なくとも1つの使用文脈レベルが、先行ターゲット使用文脈レベルを含む、請求項9に記載の方法。   The method of claim 9, wherein the at least one usage context level comprises a preceding target usage context level. 前記少なくとも1つの使用文脈レベルが、先行ソース使用文脈レベルを含む、請求項9に記載の方法。   The method of claim 9, wherein the at least one usage context level comprises a preceding source usage context level. 前記少なくとも2つのレベルが、ターゲット使用文脈レベルを含み、
複数のICE一致が判定される場合に、ICE一致を判定する前記ステップが、より適切なICE一致が1つ又は複数の他のICE一致より優先され得るようにするために、文脈一致の度合に従って各ICE一致に優先順位を付けるステップを含み、
前記優先順位を付けるステップが、
前記ルックアップセグメントのソース使用文脈レベル、ターゲット使用文脈レベル、及び構造文脈レベルと一致するソース使用文脈レベル、ターゲット使用文脈レベル、及び構造文脈レベルを有するICE一致を第1に優先するステップを含む、請求項1〜11のいずれか一項に記載の方法。
The at least two levels include a target usage context level;
If more than one ICE match is determined, the step of determining an ICE match may be performed according to the degree of context match so that a more appropriate ICE match may take precedence over one or more other ICE matches. Prioritizing each ICE match,
The step of prioritizing comprises:
Priority is given to an ICE match having a source usage context level, a target usage context level, and a structural context level that match the source usage context level, the target usage context level, and the structural context level of the lookup segment. The method according to claim 1.
第1に優先する前記ステップが、非決定的である場合に、前記ルックアップセグメントのソース使用文脈レベル及びターゲット使用文脈レベルと一致するソース使用文脈レベル及びターゲット使用文脈レベルを有するICE一致を第2に優先するステップを含む、請求項12に記載の方法。   If the first priority step is non-deterministic, secondly select an ICE match having a source usage context level and a target usage context level that match the source usage context level and the target usage context level of the lookup segment. The method of claim 12, comprising a priority step. 前記ソース使用文脈レベルが、先行ソース使用文脈レベルであり、前記ターゲット使用文脈レベルが、先行ターゲット使用文脈レベルである、請求項12又は13に記載の方法。   14. The method of claim 12 or 13, wherein the source usage context level is a preceding source usage context level and the target usage context level is a preceding target usage context level. 第2に優先する前記ステップが、非決定的である場合に、前記ルックアップセグメントの後ソース使用文脈レベル又は後ターゲット使用文脈レベルと一致する後ソース使用文脈レベル又は後ターゲット使用文脈レベルのいずれかのみを有するICE一致よりも、前記ルックアップセグメントの先行ソース使用文脈レベル又は先行ターゲット使用文脈レベルと一致する先行ソース使用文脈レベル又は先行ターゲット使用文脈レベルのいずれかを有するICE一致を第3に優先するステップを含む、請求項13に記載の方法。   If the second priority step is non-deterministic, only either the post-source usage context level or the post-target usage context level that matches the post-source usage context level or the post-target usage context level of the lookup segment ICE matches that have either a previous source usage context level or a previous target usage context level that matches the previous source usage context level or the previous target usage context level of the lookup segment over the ICE matches that have The method of claim 13, comprising steps. 第3に優先する前記ステップが、非決定的である場合に、前記ルックアップセグメントの構造的文脈レベルと一致する構造的文脈レベルのみを有するICE一致よりも、前記ルックアップセグメントの任意の使用文脈レベルと一致する使用文脈レベルを有するICE一致を第4に優先するステップを含む、請求項15に記載の方法。   Any usage context level of the lookup segment over an ICE match that has only a structural context level that matches the structural context level of the lookup segment if the third priority step is non-deterministic The method of claim 15, comprising: fourth prioritizing an ICE match having a usage context level that matches. 第4に優先する前記ステップが、非決定的である場合に、前記ルックアップセグメントの構造的文脈レベルとは異なる構造的文脈レベルを有するICE一致よりも、前記ルックアップセグメントの構造的文脈レベルと一致する構造的文脈レベルを有するICE一致を第5に優先するステップを含む、請求項16に記載の方法。   If the fourth priority step is non-deterministic, it matches the structural context level of the lookup segment rather than an ICE match that has a different structural context level than the structural context level of the lookup segment. 17. The method of claim 16, comprising the fifth priority of ICE matches having a structural context level that 第5に優先する前記ステップが、非決定的である場合に、資産内の前記ルックアップセグメントの位置に最も近い位置を有するICE一致を第6に優先するステップを含む、請求項17に記載の方法。   18. The method of claim 17, wherein the step of prioritizing fifth comprises the step of prioritizing an ICE match that has a position closest to the position of the lookup segment in an asset if it is non-deterministic. . ユーザが優先順位付けに基づいて前記ICE一致を選択することを可能にするステップをさらに含む、請求項2〜18のいずれか一項に記載の方法。   The method of any one of claims 2-18, further comprising allowing a user to select the ICE match based on prioritization. 前記ルックアップセグメントが、内容に関して実質的に同一である複数のルックアップセグメントを含み、
ICE一致を判定する前記ステップが、ルックアップセグメントごとにICE一致を判定するステップを含む、請求項1〜19のいずれか一項に記載の方法。
The lookup segment includes a plurality of lookup segments that are substantially identical in content;
20. A method according to any one of the preceding claims, wherein the step of determining an ICE match comprises determining an ICE match for each lookup segment.
前記少なくとも1つのルックアップセグメントが、少なくとも1つの他のルックアップセグメントとは異なるICE一致を有する、請求項20に記載の方法。   21. The method of claim 20, wherein the at least one lookup segment has a different ICE match than at least one other lookup segment. 翻訳されるルックアップセグメントに対する翻訳メモリに格納された複数のソーステキストのマッチングレベルを判定するシステムであって、
前記複数のソーステキスト内の前記ルックアップセグメントのすべての正確一致を判定する手段と、
少なくとも1つの正確一致が判定される場合に、前記ルックアップセグメントの文脈がそれぞれの正確一致の文脈と一致するとき、前記それぞれの正確一致が前記ルックアップセグメントの文脈内正確(ICE)一致であると判定する手段とを備え、
前記文脈が、少なくとも2つのレベルを含み、
前記少なくとも2つのレベルが、構造的文脈レベル及びターゲット使用文脈レベルを含み、
前記ICE一致が、前記ルックアップセグメントの前記構造的文脈レベルと、前記ソーステキストの前記構造的文脈レベルと、の一致を含む、システム。
A system for determining a matching level of a plurality of source texts stored in a translation memory for a lookup segment to be translated,
Means for determining all exact matches of the lookup segments in the plurality of source texts;
When at least one exact match is determined, the respective exact match is an in-context exact (ICE) match of the lookup segment when the context of the lookup segment matches the context of the exact match And means for determining
The context includes at least two levels;
It said at least two levels, see contains structural context level and a target usage context level,
The system wherein the ICE match includes a match between the structural context level of the lookup segment and the structural context level of the source text .
コンピュータにより実行される、翻訳メモリ内にソーステキスト及びターゲットテキストの翻訳単位を格納する方法であって、
前記翻訳単位に文脈を割り当てるステップであって、前記文脈が、少なくとも2つのレベルを含み、前記少なくとも2つのレベルが、ソース使用文脈レベル及び構造的文脈レベルを含む、ステップと、
前記翻訳単位と共に前記文脈を格納するステップとを含み、
前記ソーステキストの前記構造的文脈レベルが、翻訳されるルックアップセグメントの構造的文脈レベルとの文脈内正確(ICE)一致の判定に用いられる、
方法。
A computer-implemented method for storing translation units of source text and target text in a translation memory comprising:
Assigning a context to the translation unit, the context comprising at least two levels, the at least two levels comprising a source usage context level and a structural context level;
Storing the context together with the translation unit;
The structural context level of the source text is used to determine an in-context exact (ICE) match with the structural context level of the translated lookup segment;
Method.
翻訳メモリ内にソーステキスト及びターゲットテキストの翻訳単位を格納するシステムであって、
前記翻訳単位に文脈を割り当てる手段であって、前記文脈が、少なくとも2つのレベルを含み、前記少なくとも2つのレベルが、ソース使用文脈レベル及び構造的文脈レベルを含む、手段と、
前記翻訳単位と共に前記文脈を格納する手段とを含み、
前記ソーステキストの前記構造的文脈レベルが、翻訳されるルックアップセグメントの構造的文脈レベルとの文脈内正確(ICE)一致の判定に用いられる、
システム。
A system for storing translation units of source text and target text in a translation memory,
Means for assigning a context to the translation unit, the context comprising at least two levels, the at least two levels comprising a source usage context level and a structural context level;
Look including a means for storing the context with the translation unit,
The structural context level of the source text is used to determine an in-context exact (ICE) match with the structural context level of the translated lookup segment;
system.
前記翻訳メモリは、
ルックアップセグメントとの比較のための複数のソーステキストと、
ソーステキストごとの文脈識別子と、を備え、前記文脈識別子が、ソース使用文脈部分及びターゲット使用文脈部分を含む、請求項24記載のシステム。
The translation memory is
Multiple source texts for comparison with lookup segments,
25. The system of claim 24, comprising a context identifier for each source text, wherein the context identifier includes a source usage context portion and a target usage context portion.
前記ソース使用文脈部分及び/又はターゲット使用文脈部分が、先行使用文脈部分及び/又は後使用文脈部分を備える、請求項25に記載のシステム。   26. The system of claim 25, wherein the source usage context portion and / or target usage context portion comprises a pre-use context portion and / or a post-use context portion. 前記文脈識別子が、構造的文脈部分を備える、請求項25又は26に記載のシステム。   27. A system according to claim 25 or 26, wherein the context identifier comprises a structural context portion. 翻訳メモリを含む翻訳システムと対話するクライアント側システムであって、
前記翻訳システムによって翻訳されるセグメントにセグメント識別子を割り当てる手段であって、前記セグメント識別子が、前記セグメントのソース使用文脈及びターゲット使用文脈を示す、手段と、
前記翻訳メモリの一部としての格納のために前記セグメント識別子割当を通信する手段とを備え、
前記セグメント識別子が、構造的文脈を備え、
前記セグメントの構造的文脈が、前記翻訳システムにおける前記翻訳メモリのソーステキストの構造的文脈との文脈内正確(ICE)一致の判定に用いられる、
クライアント側システム。
A client-side system that interacts with a translation system that includes a translation memory,
Means for assigning a segment identifier to a segment translated by the translation system, the segment identifier indicating a source usage context and a target usage context of the segment;
Means for communicating the segment identifier assignment for storage as part of the translation memory;
The segment identifier comprises a structural context;
The structural context of the segment is used to determine an in-context exact (ICE) match with the structural context of the source text of the translation memory in the translation system;
Client side system.
請求項1又は23に記載の方法を実行するように適合されたコンピュータソフトウェア。   24. Computer software adapted to perform the method of claim 1 or 23.
JP2009246729A 2009-10-27 2009-10-27 In-context exact (ICE) match Active JP5473533B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009246729A JP5473533B2 (en) 2009-10-27 2009-10-27 In-context exact (ICE) match

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009246729A JP5473533B2 (en) 2009-10-27 2009-10-27 In-context exact (ICE) match

Publications (2)

Publication Number Publication Date
JP2011095841A JP2011095841A (en) 2011-05-12
JP5473533B2 true JP5473533B2 (en) 2014-04-16

Family

ID=44112701

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009246729A Active JP5473533B2 (en) 2009-10-27 2009-10-27 In-context exact (ICE) match

Country Status (1)

Country Link
JP (1) JP5473533B2 (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8935150B2 (en) 2009-03-02 2015-01-13 Sdl Plc Dynamic generation of auto-suggest dictionary for natural language translation
US9342506B2 (en) 2004-03-05 2016-05-17 Sdl Inc. In-context exact (ICE) matching
US9600472B2 (en) 1999-09-17 2017-03-21 Sdl Inc. E-services translation utilizing machine translation and translation memory
US10635863B2 (en) 2017-10-30 2020-04-28 Sdl Inc. Fragment recall and adaptive automated translation
US10817676B2 (en) 2017-12-27 2020-10-27 Sdl Inc. Intelligent routing services and systems
US11256867B2 (en) 2018-10-09 2022-02-22 Sdl Inc. Systems and methods of machine learning for digital assets and message creation

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8521506B2 (en) 2006-09-21 2013-08-27 Sdl Plc Computer-implemented method, computer software and apparatus for use in a translation system
GB2468278A (en) 2009-03-02 2010-09-08 Sdl Plc Computer assisted natural language translation outputs selectable target text associated in bilingual corpus with input target text from partial translation
US9128929B2 (en) 2011-01-14 2015-09-08 Sdl Language Technologies Systems and methods for automatically estimating a translation time including preparation time in addition to the translation itself
CN111177098B (en) * 2019-12-27 2023-09-22 中信百信银行股份有限公司 Method and system for checking system log context

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3273782B2 (en) * 1990-10-17 2002-04-15 株式会社日立製作所 Machine translation method
JPH0793331A (en) * 1993-09-24 1995-04-07 Atr Onsei Honyaku Tsushin Kenkyusho:Kk Talk sentence translating device
JP3831357B2 (en) * 2003-04-16 2006-10-11 株式会社東芝 Parallel translation information creation device and parallel translation information search device
US7983896B2 (en) * 2004-03-05 2011-07-19 SDL Language Technology In-context exact (ICE) matching

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9600472B2 (en) 1999-09-17 2017-03-21 Sdl Inc. E-services translation utilizing machine translation and translation memory
US10198438B2 (en) 1999-09-17 2019-02-05 Sdl Inc. E-services translation utilizing machine translation and translation memory
US10216731B2 (en) 1999-09-17 2019-02-26 Sdl Inc. E-services translation utilizing machine translation and translation memory
US9342506B2 (en) 2004-03-05 2016-05-17 Sdl Inc. In-context exact (ICE) matching
US10248650B2 (en) 2004-03-05 2019-04-02 Sdl Inc. In-context exact (ICE) matching
US8935150B2 (en) 2009-03-02 2015-01-13 Sdl Plc Dynamic generation of auto-suggest dictionary for natural language translation
US9262403B2 (en) 2009-03-02 2016-02-16 Sdl Plc Dynamic generation of auto-suggest dictionary for natural language translation
US10635863B2 (en) 2017-10-30 2020-04-28 Sdl Inc. Fragment recall and adaptive automated translation
US11321540B2 (en) 2017-10-30 2022-05-03 Sdl Inc. Systems and methods of adaptive automated translation utilizing fine-grained alignment
US10817676B2 (en) 2017-12-27 2020-10-27 Sdl Inc. Intelligent routing services and systems
US11475227B2 (en) 2017-12-27 2022-10-18 Sdl Inc. Intelligent routing services and systems
US11256867B2 (en) 2018-10-09 2022-02-22 Sdl Inc. Systems and methods of machine learning for digital assets and message creation

Also Published As

Publication number Publication date
JP2011095841A (en) 2011-05-12

Similar Documents

Publication Publication Date Title
US10248650B2 (en) In-context exact (ICE) matching
EP2317447B1 (en) In-context exact (ICE) matching
JP5473533B2 (en) In-context exact (ICE) match
US20100262621A1 (en) In-context exact (ice) matching
CN107209759B (en) Annotation support device and recording medium
US9778929B2 (en) Automated efficient translation context delivery
US7478092B2 (en) Key term extraction
WO2022132944A1 (en) Generation and/or recommendation of tools for automating aspects of computer programming
Melby et al. Translation memory
Zorrilla-Agut et al. IATE 2: Modernising the EU’s IATE terminological database to respond to the challenges of today’s translation world and beyond
Alegria et al. Reciprocal enrichment between basque wikipedia and machine translation
Nithya et al. A hybrid approach to English to Malayalam machine translation
JP2012113459A (en) Example translation system, example translation method and example translation program
US10235362B1 (en) Continuous translation refinement with automated delivery of re-translated content
RU2546064C1 (en) Distributed system and method of language translation
US10229113B1 (en) Leveraging content dimensions during the translation of human-readable languages
US10261995B1 (en) Semantic and natural language processing for content categorization and routing
US10223356B1 (en) Abstraction of syntax in localization through pre-rendering
US10275459B1 (en) Source language content scoring for localizability
CN113934450A (en) Method, apparatus, computer device and medium for generating annotation information
US8200651B2 (en) Comprehension of digitally encoded texts
JP6797038B2 (en) Software material selection support device and software material selection support program
Kri et al. Comparative study of low resource Digaru language using SMT and NMT
Morris et al. Welsh automatic text summarisation
Manojlovic et al. An Empirical Investigation into Advantages and Disadvantages of Selected CAT Tools–a Freelance Perspective

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120622

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120626

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120925

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120928

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20121018

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20121023

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20121126

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20121129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130618

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130918

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130924

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20131018

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20131023

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140204

R150 Certificate of patent or registration of utility model

Ref document number: 5473533

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250