JP2006500640A

JP2006500640A - 多言語データベース作成のシステムおよび方法

Info

Publication number: JP2006500640A
Application number: JP2003558733A
Authority: JP
Inventors: エリ・アビル
Original assignee: エリ・アビル
Priority date: 2001-12-21
Filing date: 2002-08-13
Publication date: 2006-01-05
Also published as: WO2003058490A1; EP1464007A4; AU2002327445A1; EP1464007A1; TR200402394T2; CN1620658A; CA2471256A1; EA200400857A1; KR20040063995A; IL162576A0; US20030135357A1

Abstract

第１言語の文書セグメント（１）を第２言語の文書セグメント（２）に翻訳する方法および装置。文書セグメントは、文書内の、直接に翻訳される単語（３）の形のテキストとすることができる。本発明は、第１言語の文書を第２言語の文書（３）に直接に翻訳するのに十分な情報がない場合に使用することができる。本発明は、第１言語の文書セグメント（１）と複数の第３言語のそれぞれにおける文書セグメントとの間の関連を提供することと、そのそれぞれが複数の第３言語のそれぞれにおけるセグメントに対応する第２言語のサンプルセグメント（２）間の関連を提供することと、演繹された関連セグメントと同一である少なくとも２つのサンプルセグメントを識別することと、演繹された関連を第１言語の文書セグメント（１）に関連付けることが含まれる。

Description

本発明は、ある状態から第２の状態への内容の変換に使用できる多言語データベースの作成の方法および装置に関する。

本願は、２００１年１２月２１日出願の米国特許出願第１０／０２４４７３号明細書の一部継続出願であり、２００１年３月１６日出願の米国特許出願第６０／２７６１０７号明細書および２００１年６月２１日出願の米国特許出願第６０／２９９４７２号明細書の利益を主張するものであり、これらの特許出願明細書のすべてが、参照によって本明細書に組み込まれる。

ある言語から別の言語へ文書を自動的に翻訳するデバイスおよび方法が周知である。しかし、これらのデバイスおよび方法は、しばしば、ある言語から別の言語へ文書を正確に翻訳することができず、長い時間を費やし、使うのに不都合である可能性がある。人間の翻訳者の他に、他の周知のデバイスには、市販の機械翻訳ソフトウェアが含まれる。これらの周知のシステムは、システムを誤りに弱くし、遅くし、不都合にする短所がある。周知の翻訳デバイスおよび翻訳方法は、テキスト入力に対して常に正確な翻訳を返すことができるわけではなく、したがって、頻繁に、校正および編集のための集中的なユーザ介入を必要とする。正確な機械翻訳は、文書の逐語翻訳を行うデバイスおよび方法の提供より複雑である。これらの逐語システムでは、翻訳したものがしばしば、翻訳された文書の読者にとってほとんど意味をなさない。というのは、逐語法は、単語の選択を誤り、文法単位が一貫しないからである。

これらの不備を克服するために、周知の翻訳デバイスでは、数十年来、語彙、形態論、構文、および意味論の規則の組合せまたは組に基づいて、文の文脈内で単語翻訳を選択することが試みられてきた。これらのシステムを、当技術分野では「規則に基づく（Ｒｕｌｅ−Ｂａｓｅｄ）」機械翻訳（ＭＴ）システムと称するが、これらのシステムは、規則に非常に多くの例外があり、一貫して正確な翻訳を提供できないので、欠陥を有する。

規則に基づくＭＴのほかに、最近１０年間に、「事例に基づく（ｅｘａｍｐｌｅ−ｂａｓｅｄ）」と称するＭＴの新しい方法（ＥＢＭＴ）が開発された。ＥＢＭＴでは、２つの異なる言語でクロス言語データベース（ｃｒｏｓｓ−ｌａｎｇｕａｇｅｄａｔａｂａｓｅ）に記憶された文（または、おそらくは文の部分）を利用する。翻訳照会が、データベース内の文と一致するときに、ターゲット言語の文の翻訳がデータベースによって生成され、第２の言語での正確な翻訳がもたらされる。翻訳照会の一部がデータベース内の文の一部と一致する場合に、このデバイスは、ソース言語の文にマッピングされた文のどの部分が照会の翻訳であるかを正確に判定しようと試みる。

ＥＢＭＴシステムは、クロス言語文のデータベースが、手作業で作成され、常に大部分が「不完全」となるので、幅広い言語の正確な翻訳を提供することができない。ＥＢＭＴのもう１つの短所は、部分的一致が、信頼性のある形で翻訳されないことである。ＥＢＭＴで使用するための変換された文の対を使用して、クロス言語データベースの作成を自動化する試みが行われてきた。しかし、これらの努力は、有意なサイズの意味のある正確なクロス言語データベースの作成に成功してはいない。これらの試みのどれも、翻訳された文書の対からのかなりの数の単語および単語列の翻訳を確実かつ正確に洗練するアルゴリズムを使用していない。

一部の翻訳デバイスでは、規則に基づくエンジンとＥＢＭＴエンジンの両方が組み合わされる。この手法の組合せは、一方のシステムだけよりも高い度合の正確さをもたらすことができるが、その結果は、まだ、ユーザによるかなりの介入および編集がなければ不適切である。

ある言語から別の言語への文書の翻訳を試みるときに直面する問題は、より一般的に、観念または情報を表すデータを、ある状態、たとえば単語から、別の状態で観念を表すデータ、たとえば数学記号に変換するという問題に当てはまる可能性がある。その場合には、ある状態のデータを第２の状態の同等のデータに関連付けるクロス観念関連データベース（ｃｒｏｓｓ−ｉｄｅａａｓｓｏｃｉａｔｉｏｎｄａｔａｂａｓｅ）を調べなければならない。したがって、異なる言語または状態（たとえば、単語、単語列、音、動きなど）での同等の観念を関連付ける辞書またはデータベースを作成し、文書によってある言語または状態で伝えられる観念を、文書によって第２の言語または状態で表される同一のまたは類似する観念に翻訳または変換する、改善されたより効率的な方法および装置が求められている。

本発明は、クロス観念関連データベースを使用する内容の操作に関する。具体的には、本発明は、関連する観念のデータベースを作成する方法および装置を提供し、そのデータベースを使用して観念をある状態から他の状態に変換する方法および装置を提供する。

一実施形態で、たとえば、本発明によって、関連する観念のデータベースが２つの言語によって形成される、言語翻訳データベースを作成する方法および装置が提供される。本発明によって、その言語データベースを使用して、文書（観念を表す）をある言語から別の言語へ（より一般的には、ある状態から別の状態へ）変換する方法および装置が提供される。しかし、言語翻訳の好ましい実施形態を示すが、本発明は、言語翻訳に制限されない。本発明のデータベース作成態様は、ある形で関連するが異なる状態で表現される観念に適用することができ、本発明の変換態様は、ある状態から別の状態への観念の正確な翻訳に適用することができる。

言語翻訳実施形態への本発明の応用を説明する。本明細書で使用される、変換、翻訳、および操作に関する用語は、その最も広義の意味で交換可能に使用される。

本発明の目的は、クロス観念関連データベースを作成し、補足する方法および装置を提供することによって、ある言語または状態から別の言語または状態への文書の効率的な翻訳を実現することである。このデータベースによって、一般に、特定の観念または情報を表す第１の形態または状態のデータが、同一の観念または情報を表す第２の形態または状態のデータに関連付けられる。

本発明のもう１つの目的は、第１の状態、形態、または言語のデータを含む第１文書から第２の状態、形態、または言語のデータを含む第２文書を作成し、第１および第２の文書が実質的に同一の観念または情報を表すという結果をもたらす方法および装置を提供することによって、ある言語または状態から別の言語または状態への文書の翻訳を実現することである。

本発明のもう１つの目的は、第１の状態、形態、または言語のデータを含む第１文書から第２の状態、形態、または言語のデータを含む第２文書を作成し、第１および第２の文書が実質的に同一の観念または情報を表すという結果をもたらす方法および装置であって、クロス観念関連データベースを使用することを含む方法および装置を提供することによって、ある言語または状態から別の言語または状態への文書の翻訳を実現することである。

本発明のもう１つの目的は、リアルタイムの形での文書の翻訳（広義の意味では、ある状態から別の状態への観念の変換）を提供することである。

本発明は、クロス観念データベースを作成する方法および装置を提供することによって、上記および他の目的を達成する。クロス観念データベースを作成する方法および装置に、同一の一般テキストを表す２つ（または３つ以上）の異なる言語の文書の１つまたは複数の対（すなわち、テキストの正確な翻訳（「平行テキスト（ＰａｒａｌｌｅｌＴｅｘｔ）」）または全般的に関連するテキスト（「同等テキスト（ＣｏｍｐａｒａｂｌｅＴｅｘｔ）」））を提供することを含めることができる。本発明では、使用可能なクロス言語文書の第１言語での複数の出現を有するすべての単語および単語列の、少なくとも第１および第２の出現が選択される。次に、第２言語文書で少なくとも第１単語範囲および第２単語範囲を選択するが、第１および第２の単語範囲は、第１言語文書での選択された単語または単語列の第１および第２の出現に対応する。次に、第１単語範囲で見つかる単語および単語列を、第２単語範囲で見つかる単語および単語列と比較し、両方の単語範囲に共通する単語および単語列を突き止め、この突き止められた共通の単語および単語列を、クロス観念データベースに記憶する。次に、前記クロス観念データベース内で、本明細書で説明するように関連頻度（ａｓｓｏｃｉａｔｉｏｎｆｒｅｑｕｅｎｃｙ）（再起の数）を調整した後に、第２言語の２つの範囲で突き止められた共通の単語または単語列を、第１言語の選択された単語または単語列に関連付け、関連頻度によってランキングする。平行テキストおよび同等テキストの言語にまたがる共通の単語および単語列をテストすることによって、さまざまな異なる言語で使用可能な平行テキストまたは同等テキストが増えるにつれて、データベースによってより多くの関連が解決されるようになる。

本発明では、文書をある状態から別の状態に変換する方法および装置を提供することによって、上記および他の目的も達成される。本発明によって、第２言語のデータセグメントに関連する第１言語のデータセグメントからなるデータベースが提供される（上で説明した方法を介してまたは手動で作成される）。本発明では、上で言及したデータベースにアクセスし、データベースに存在する翻訳される文書内の、文書の最初の単語から始まる最長の単語列（単語数によって測定される）を識別することによって、テキストが翻訳される。次に、このシステムでは、データベースから、第１言語の文書から突き止められた単語列に関連する第２言語の単語列を検索する。次に、このシステムでは、データベースに存在し、文書内の前に識別された単語列とオーバーラップする単語（またはその代わりに単語列）を有する文書内の第２単語列を選択し、データベースから第１言語の第２単語列に関連する第２言語の単語列を検索する。第２言語の単語列関連が、オーバーラップする単語（またはその代わりに単語列）を有する場合に、第２言語の単語列関連が組み合わされて（オーバーラップの冗長性を除去される）、翻訳が形成される。そうでない場合には、成功するまで、第１言語単語列に対する他の第２言語関連を検索し、単語のオーバーラップを介する組合せについてテストする。第１言語の文書内の次の単語列が、前に識別された第１言語単語列とオーバーラップする単語（またはその代わりに単語列）を有するデータベース内で最長の単語列を見つけることによって選択され、第１言語文書全体が第２言語文書に翻訳されるまで、上の処理が継続される。

本発明は、クロス観念データベースを作成し、補足し、クロス観念データベースを使用して、第１の言語または状態の文書を第２の言語または状態に翻訳する方法および装置を提供する。本明細書で言及する文書は、ある媒体に固定された記号および文字によって表される、観念としての情報の集合である。たとえば、文書は、磁気媒体または光媒体に記憶された電子文書、あるいは本などの紙文書とすることができる。文書に含まれる記号および文字は、文書のユーザによる理解を意図された表現の１つまたは複数の体系を使用して表現された観念または情報を表す。本発明では、第１状態であるすなわち、表現の１つの体系で表現された情報を含む文書を操作して、第２状態であるすなわち、表現の第２の体系を使用して表現された実質的に同一の情報を含む文書を作る。したがって、本発明によって、表現の体系の間で、たとえば英語、ヘブライ語、広東語などの書かれた言語および話された言語を他の言語に、文書を操作または翻訳することができる。

データベース作成の方法および装置ならびに変換の方法および装置を含む本発明の詳細な説明を、これから説明する。
１．データベース作成の方法および装置
ａ．概要
本発明の方法では、文書内容の操作に、クロス観念データベースを利用する。図１に、クロス観念データベースの実施形態を示す。このクロス観念データベースの実施形態には、列１および２の関連するデータセグメントのリスティングが含まれる。データセグメントは、表現の体系での特定の観念または情報を表す文字のグループ化または記号である。したがって、列１の体系Ａセグメントは、表現Ａの仮定の体系でのさまざまな観念および観念の組合せＤａ１、Ｄａ２、Ｄａ３、およびＤａ４を表すデータセグメントである。列２の体系Ｂセグメントは、データセグメントＤｂ１、Ｄｂ３、Ｄｂ４、Ｄｂ５、Ｄｂ７、Ｄｂ９、Ｄｂ１０、Ｄｂ１２であり、これは、表現Ａの体系でのデータセグメントとの関連頻度によって順序付けられた、表現Ｂの仮定の体系でのさまざまな観念および観念の組合せの一部を表す。列３に、直接頻度（ＤｉｒｅｃｔＦｒｅｑｕｅｎｃｙ）が示されており、これは、言語Ｂの１つまたは複数のセグメントが言語Ａのリストされたセグメント（１つまたは複数）に関連する回数である。列４に、減算後の頻度が示されており、これは、後で詳細に説明するように、言語Ｂのデータセグメント（１つまたは複数）がより大きいセグメントの一部として関連した回数を引いた後の、そのセグメントが言語Ａのセグメント（１つまたは複数）に関連した回数を表す。

図１からわかるように、単一のセグメント、たとえばＤａ１が、複数のセグメントすなわち、Ｄｂ３およびＤｂ４と一緒のＤｂ１と最も適切に関連することがありえる。データセグメントの間の減算後の頻度（本明細書で説明する）が高いほど、体系Ａのセグメントが体系Ｂのセグメントと同等である確率が高くなる。出現の総数によって調整された頻度を測定するほかに、調整された頻度を、たとえば、特定の体系Ａセグメントが特定の体系Ｂセグメントに対応した回数の比率を計算することによって、測定することもできる。データベースが、文書の翻訳に使用されるときに、最高のランクの関連するセグメントが、処理の最初にデータベースから検索される。しかし、翻訳の関連するセグメントの組合せをテストするのに使用される方法によって（後で説明する）、テストの後でより高いランクの関連を使用できないので、異なるより低いランクの関連をテストしなければならないと判定されることがしばしばである。たとえば、Ｄａ１に関する関連についてデータベースに照会する場合に、データベースは、Ｄｂ１＋Ｄｂ３＋Ｄｂ４を返す。Ｄｂ１＋Ｄｂ３＋Ｄｂ４が、翻訳のために実際にデータセグメントを組み合わせる処理によって使用不能と判定される場合に、データベースは、翻訳に関する別の関連セグメントとの正確な組合せに関するテストのために、Ｄｂ９＋Ｄｂ１０を返す。

一般に、本発明のクロス観念データベースを作成する方法には、平行テキスト（ＰａｒａｌｌｅｌＴｅｘｔ）または同等テキスト（ＣｏｍｐａｒａｂｌｅＴｅｘｔ）の検査および操作が含まれる。本発明の方法および装置は、２つの状態にまたがる関連すなわち正確な変換、またはより具体的にはある状態で表現された概念と別の状態で表現された概念との間の関連に関してデータベースが作成されるように使用される。２つの状態の間の翻訳および他の関連する連合は、本発明によって文書が検査され、操作されるにつれて強くなる、すなわち、頻度が高まり、十分に大きい「サンプル」の文書に対する動作によって、最も一般的な（および、ある意味で正しい）関連が、明白になり、この方法および装置が、変換に使用できるようになる。

本発明の一実施形態では、２つの状態によって、単語の言語（たとえば、英語、ヘブライ語、中国語など）が表され、本発明によって、ある言語の単語および単語列を第２言語の翻訳相当物に相関させるクロス言語データベースが作成される。単語列は、連続する隣接する単語のグループとして定義することができ、単語列には、しばしば、言語の表現で使用される句読点および他の記号が含まれる。この例では、本発明によって、２つの言語の文書を検査し、両方の言語で再起する単語または単語列ごとに翻訳のデータベースを作成することによって、データベースが作成される。しかし、本発明を、言語翻訳に制限する必要はない。本発明を用いると、ユーザが、観念のデータベースを作成でき、これらの観念を他の異なる観念に階層的な形で関連付けられるようになる。したがって、観念が、他の観念に関連付けられ、出現の頻度に従ってレーティングされる。出現頻度に与えられる特定の重みおよびこのように作成されるデータベースに適用される使用は、ユーザの要件に応じて変更することができる。

たとえば、ある言語から別の言語へのテキストの翻訳に関して、本発明は、英語と中国語の間の単語および単語列の言語翻訳を生成するように動作する。本発明によって、２つの言語にまたがる単語および単語列の間の関連のランキングが返される。十分に大きいサンプルサイズを与えられれば、最も頻繁に出現する単語および単語列が、英語の単語または単語列の中国語の同等物の１つになる。しかし、本発明では、英語の単語または単語列に関する他の中国語関連も返され、ユーザは、これらの関連を望み通りに操作することができる。たとえば、単語「ｍｏｕｎｔａｉｎ」が、本発明に従って操作されるときに、検査されている言語中の中国語の単語または単語列のリストを返すことができる。単語「ｍｏｕｎｔａｉｎ」の中国語の同等物は、最高のランキングになる可能性が最も高いが、本発明では、「ｓｎｏｗ」、「ｓｋｉ」、「ａｄａｎｇｅｒｏｕｓｓｐｏｒｔ」、「ｔｈｅｈｉｇｈｅｓｔｐｏｉｎｔｉｎｔｈｅｗｏｒｌｄ」、または「Ｍｔ．Ｅｖｅｒｅｓｔ」など、「ｍｏｕｎｔａｉｎ」に関連する他の外国語の単語または単語列が返される。これらの単語および単語列は、「ｍｏｕｎｔａｉｎ」の翻訳よりもランキングが低い可能性が高いが、ユーザが望み通りに操作することができる。したがって、本発明は、自動化された関連データベースクリエータ（ｃｒｅａｔｏｒ）である。最も強い関連が、１つの意味の「翻訳」または「変換」を表すが、他の頻繁な（弱い）関連が、検査される観念に密に関連する観念を表す。したがって、このデータベースを、当技術分野で周知の人工知能アプリケーションを使用するアプリケーションによって使用することができる。これらのシステムでは、現在、アプリケーションの「ニューラルネットワーク」として、不完全な手作業で作成された観念データベースまたは存在論が使用されている。

本発明のもう１つの実施形態では、従来技術で簡単に入手可能なタイプのパーソナルコンピュータシステムなどのコンピューティングデバイスが使用される。コンピューティングデバイスは、通常は、一般的なパーソナルコンピュータ（独立型またはネットワーク環境内のいずれか）であるが、ＰＤＡ、無線デバイス、サーバ、メインフレーム、および類似物などの他のコンピューティングデバイスが、同様に企図されている。しかし、本発明の方法および装置は、そのようなコンピューティングデバイスを使用することを必要とせず、クロス関連の手作業の作成を含めて、他の手段によって簡単に達成することができる。文書の「サンプル」を増補し、クロス関連データベースを作成するために連続する文書を検査する方法は、さまざまであり、文書を、自動給紙（当技術分野で周知の自動紙ローダなど）によって、またはウェブクローラなどの関連文書を自動的に探し出すインターネット上の検索技法を使用することによって、分析および手作業での操作のためにセットアップすることができる。

本発明では、平行テキストに加えて（またはその代わりに）同等テキストを検査することによって、関連するデータベースを作ることができることに留意されたい。さらに、この方法では、ある言語の再起する単語または単語列を検索するときに、すべての使用可能な文書を集合的に調べる。

ｂ．データベースの作成
本発明によれば、データベースを作成するために、文書が検査される。文書入力（やはり、２つの異なる言語で同一のテキストを表す文書の対の）の後に、本明細書に記載の方法および／または装置を使用する作成処理が開始される。

例示のために、２つの異なる言語の文書に同一の内容（または、一般的な意味で観念）が含まれると仮定する。文書Ａは言語Ａ、文書Ｂは言語Ｂで書かれている。これらの文書は、下記のテキストを有する。

本発明の第１ステップは、単語範囲を計算して、所与の単語または単語列の可能な関連の近似位置を判定することである。クロス言語逐語分析（ｃｒｏｓｓ−ｌａｎｇｕａｇｅｗｏｒｄ−ｔｏ−ｗｏｒｄａｎａｌｙｓｉｓ）だけでは、生産的な結果が得られず（すなわち、文書Ａの単語１が、しばしば、文書Ｂの単語１の文字通りの翻訳として存在しない）、ある言語の文の構造が、別の言語の文の異なる位置（または順序）に同等の観念を有する場合があるので、本発明のデータベース作成技法では、第１言語の各単語または単語列を、第２言語文書の選択された「範囲」内にある単語または単語列のすべてに関連付ける。これは、ある言語で、ある観念が別の言語より長いまたはより短い単語列で表現されることがしばしばなので、重要である。範囲は、２つの文書を検査することによって判定され、第２の文書の単語および単語列を第１の文書の単語および単語列と比較するのに使用される。すなわち、第２文書の単語または単語列の範囲は、第１文書の各単語および単語列に関する可能な関連として検査される。範囲に対してテストすることによって、このデータベース作成技法では、第１言語の単語および単語列と同等であり、これに翻訳できる第２言語の単語または単語列の数が確立される。

第１言語文書の所与の単語または単語列に関する関連が探される、第２言語文書の範囲を確立するために判定しなけれればならない２つの属性がある。第１の属性は、範囲内の単語数によって測定される、第２文書での範囲の値またはサイズである。第２の属性は、範囲の中点の配置によって測定される、第２文書での範囲の位置である。どちらの属性もユーザ定義であるが、好ましい実施形態の例を下記に示す。範囲のサイズおよび位置を定義する際の目標は、分析される第１言語セグメントの、第２言語の単語または単語列の翻訳が含まれる確率を高くすることである。

文書の単語数に基づく鐘形曲線の導関数などの一般的な統計技法を含むさまざまな技法を使用して、範囲のサイズまたは値を決定することができる。鐘形曲線などの統計的技法を用いると、文書の先頭および末尾の範囲が、文書の中央の範囲より小さくなる。範囲の鐘形曲線形の頻度を用いると、文書内の単語の絶対数に従って、または文書内の単語のある比率に従ってのいずれかで導出される翻訳の外挿の適度な可能性が得られる。「ステップ」技法などの、範囲を計算する他の方法が存在し、「ステップ」技法では、単語のある比率に関してあるレベルに範囲が存在し、第２のより高いレベルが単語の他の比率に関して存在し、第３のレベルは、単語の残りの比率に関して第１レベルと等しい。やはり、すべての範囲属性を、ユーザ定義とするか、第１言語の分析される単語または単語列の有用な関連を取り込むという目標に関する他の可能なパラメータに従って確立することができる。

第２言語文書内の範囲の位置は、２つの文書内の単語数の間の比較に依存するものとすることができる。範囲位置に関して文書としての資格を有するものは、ユーザ定義であり、ニュース記事、本の章、および複数のデータセグメントからなる内容の他の離散的に識別可能な単位によって例が示される。２つの文書の単語数が、ほぼ等しい場合には、第２言語の範囲の位置は、第１言語の分析される単語または単語列の位置におおむね一致する。２つの文書の単語数が等しくない場合には、ある比率を使用して、範囲の位置を正しく位置決めすることができる。たとえば、文書Ａが５０単語を有し、文書Ｂが１００単語を有する場合に、２つの文書の間の比は、１：２である。文書Ａの中央点は、単語位置２５である。しかし、文書Ａの単語２５が分析されている場合に、この中央点の位置（単語位置２５）を文書Ｂの範囲の中央点の配置として使用することは、有効でない。というのは、この位置（単語位置２５）が、文書Ｂの中央点ではないからである。そうではなく、文書Ａの単語２５の分析に関する文書Ｂの範囲の中央点は、２つの文書の間の単語数の比（すなわち２５×２／１＝５０）によって、文書Ｂの中央点での手動の配置によって、または他の技法によって決定することができる。

文書内の単語または単語列の位置を調べ、上で説明した範囲に含まれるすべての単語または単語列に留意することによって、本発明のデータベース作成技法では、分析される第１文書の各単語または各単語列に翻訳できる第２言語文書内の単語または単語列の可能な組が返される。本発明のデータベース作成技法が使用されるときに、可能な翻訳の資格を与えられる単語および単語列の組は、関連頻度が展開されるにつれて狭められる。したがって、文書の対を検査した後に、本発明によって、ある言語の単語および単語列の、第２言語の単語または単語列との関連頻度が作成される。本発明に従って複数の文書対を検査した後（したがって、多数のサンプルが作成された後）に、クロス言語関連データベース作成技法によって、ある単語または単語列のますます高くなる関連頻度が返される。十分に多数のサンプルの後に、最高の関連頻度によって、可能な翻訳がもたらされる。もちろん、関連頻度が正確な翻訳とみなされる最終的な点は、ユーザ定義であり、他の解釈的翻訳技法（参照によって本明細書に組み込まれる２００１年３月１６日出願の「ＭｅｔｈｏｄａｎｄＡｐｐａｒａｔｕｓｆｏｒＣｏｎｔｅｎｔＭａｎｉｐｕｌａｔｉｏｎ」という名称の米国特許出願第６０／２７６１０７号明細書に記載のものなど）の対象である。

上で示したように、本発明では、単語だけではなく、単語の列（複数の単語）もテストする。上で述べたように、単語列には、出現するすべての句読点および他の記号が含まれる。第１言語の単一の単語を分析した後に、本発明のデータベース作成技法では、２単語の単語列を分析し、次に３単語の単語列を分析し、増分的な形で分析を続ける。この技法によって、しばしば発生する、別の言語でより短いまたはより長い単語列（または単語）に翻訳される、ある言語の単語または単語列の翻訳が可能になる。単語または単語列が、第１の言語のすべての使用可能な文書に１回だけ現れる場合には、本発明の処理は、即座に次の単語または単語列の分析に進み、分析サイクルをもう一度行う。この分析は、すべての使用可能な平行テキストおよび同等テキストに第１言語で複数出現するすべての単語または単語列が分析されたときに停止する。

ある意味で、複数の文書が、集約され、この複数の文書を、単語または単語列の再起を探すために単一の文書として扱うことができる。本質的に、単語または単語列が繰り返されないためには、その単語または単語列が、すべての使用可能な平行テキストおよび同等テキストに１回だけ現れなければならない。さらに、もう１つの実施形態として、すべての使用可能な平行テキストおよび同等テキストに複数回現れるか否かに無関係に、すべての単語および単語列に対応する範囲を調べることが可能である。もう１つの実施形態として、照会の一部である特定の単語および単語列を解決することによって、データベースを作成することができる。翻訳のために単語または単語列が入力されるときに、本発明では、ウェブクローラおよび他のデバイスを使用してインターネット上でクロス言語テキストを突き止めることと、最後に、照会の分析に基づく欠けている関連および十分な使用可能なクロス言語材料の欠如を埋め合わせるようにユーザに求めることによって、まだ分析されていない、メモリに記憶されたクロス言語文書の単語または単語列の複数の出現を見つけることができる。

したがって、本発明は、単語の正しい位置（その単語列での）に依存する単語列を分析する形で動作し、単語選択の文脈ならびに語法、文体、または省略などの文法的特異性を考慮に入れる形で動作することができる。これらの単語列関連は、本明細書で説明する形での翻訳プロセスを提供する二重オーバーラップ翻訳技法にも有用である。

より大きい単語列のサブセットの単語または単語列が、より大きい単語列の関連として一貫性のある形で返される状況に、本発明が適応できることに留意することが重要である。本発明では、頻度戻り値を操作することによって、これらのパターンを考慮に入れる。たとえば、固有名詞は、時々、完全に提示される（「ＪｏｈｎＤｏｅ」のように）、姓または名によって省略される（「Ｊｏｈｎ」または「Ｄｏｅ」）、または別の形で省略される（「Ｍｒ．Ｄｏｅ」）。本発明は、単語列を構成する単語が必ず個別にカウントされると同時に句の一部としてカウントされるので、単語列戻り値よりも個々の単語戻り値を返す可能性が高い（すなわち、フルネームの単語列「ＪｏｈｎＤｏｅ」よりも姓または名の戻り値が多い）ので、ランキングを変更する機構を使用しなければならない。たとえば、どの文書でも、名前「ＪｏｈｎＤｏｅ」が１００回出現し、「Ｊｏｈｎ」が、単独でまたはＪｏｈｎＤｏｅの一部として１２０回出現し、「Ｄｏｅ」が、単独でまたはＪｏｈｎＤｏｅの一部として１１０回出現する場合がある。通常の翻訳戻り値（本発明による）では、単語列「ＪｏｈｎＤｏｅ」の分析を試みるときに、ランク「Ｊｏｈｎ」が、「Ｄｏｅ」より高く、この両方の単語が、単語列「ＪｏｈｎＤｏｅ」より高い。より長い単語列の出現の数をサブセット（または個々の戻り値）の出現から引くことによって、正しい順序付けを達成することができる（もちろん、他の方法を使用して類似する結果を得ることができる）。したがって、１２０（単語「Ｊｏｈｎ」の出現回数）から１００（「ＪｏｈｎＤｏｅ」の出現回数）を引くことによって、「Ｊｏｈｎ」の正しい戻り値が、２０になる。この分析を適用することによって、単語列「ＪｏｈｎＤｏｅ」の出現回数として１００（この単語列の分析し、翻訳を試みるときに）、単語「Ｊｏｈｎ」の出現回数として２０、単語列「Ｄｏｅ」の出現回数として１０が作られ、正しい関連が作成される。

この問題が、固有名詞に制限されず、一般的な句および多数の異なる文脈でしばしば発生することに留意されたい。たとえば、単語列「Ｉｌｏｖｅｙｏｕ」が、別の言語の最も頻繁な単語列関連に翻訳されるたびに、他の言語の「ｌｏｖｅ」の単語が、そのたびに独立に関連付けられる可能性がある。さらに、この単語列が、分析される他のテキストで異なる形で翻訳されるときに、単語「ｌｏｖｅ」が、やはり関連付けられる可能性がある。これによって、分析が歪められ、第１言語の「Ｉｌｏｖｅｙｏｕ」の翻訳について、第２言語の「Ｉｌｏｖｅｙｏｕ」ではなく第２言語の「ｌｏｖｅ」が返される。したがって、やはり、このシステムでは、より長い列の関連をランキングするときに、すべてのサブセット関連の頻度から、より長い単語列関連の出現回数を引く。この概念が、図１にも反映されている。

さらに、データベースに、「ｉｔ」、「ａｎ」、「ａ」、「ｏｆ」、「ａｓ」、「ｉｎ」などの一般的な単語または任意の一般的な単語を、単語および単語列の関連頻度をカウントするときに無視するように指示することができる。これによって、そうでなければ所与の範囲の一部としての一般的な単語の出現によって歪められる真の関連頻度の数が、より正確に反映されるようになる。これによって、本発明の関連データベース作成技法によって、過度の減算計算なしに分析が歪められなくなる。これらまたは他の一般的な単語が関連データベースから「減算」されない場合に、本明細書で詳細に説明する二重オーバーラッププロセスによってそれらが受け入れられないので、それらが、最終的に、適切でなければ翻訳として承認されなくなることに留意されたい。

関連頻度を調整する他の計算を行って、単語および単語列の共通する出現の数の正確な反映を保証できることに留意されたい。たとえば、二重カウントを防ぐ調整は、分析される単語の範囲がオーバーラップするときに適切である可能性がある。調整は、このような場合に、より正確な関連頻度を構築するために望ましい。本発明によるクロス観念データベースを作成し補足する方法および装置の実施形態の例を、これから、上で説明した２つの文書を例として使用して説明する。前の表をもう一度示す。

この実施形態では、単一の文書のみの再起する単語および単語列に焦点を合わせるが、これが主に例示のためであることにもう一度留意されたい。再起する単語および単語列は、すべての使用可能な平行テキストおよび同等テキストを全体として使用して分析される。

上にリストした２つの文書（第１の言語のＡと第２の言語のＢ）を使用すると、データベース作成技法について下記のステップが行われる。
ステップ１。まず、範囲のサイズおよび位置を決定する。上で示したように、サイズおよび位置は、ユーザ定義とすることができ、あるいは、さまざまな方法によって近似することができる。この２つの文書の単語カウントは、ほぼ等しく（文書Ａで１０単語、文書Ｂで８単語）、したがって、範囲の中央点を、文書Ａの単語または単語列の位置に一致するように配置することができる（注：文書の間の単語カウントの比が、８０％なので、その代わりに、範囲の位置を分数４／５を適用することによって確立することができる）。この例では、３の範囲サイズまたは値によって、鐘形曲線を近似する最もよい結果をもたらすことができる。範囲は、文書の先頭および末尾で（±）１、中央で（±）２になる。しかし、上で示したように、範囲（または範囲を決定するのに使用される方法）は、完全にユーザ定義である。

ステップ２。次に、文書Ａの最初の単語を調べ、文書Ａに対してテストして、その文書でのその単語の出現回数を判定する。この例では、文書Ａの最初の単語がＸであり、Ｘは、文書Ａで、位置１、４、および９に３回現れる。単語または単語列の位置番号は、単純にその単語または単語列の、他の単語に関する文書内の位置である。したがって、位置番号は、句読点を無視した文書内の単語の数に対応し、たとえば、文書に１０個の単語があり、単語「ｋｉｎｇ」が２回現れる場合に、単語「ｋｉｎｇ」の位置番号は、単に、その単語が現れる場所（１０個の単語のうちの）である。

単語Ｘは、この文書に複数回現れるので、この処理は、次のステップに進む。単語Ｘが１回だけ現れる場合には、その単語をスキップし、この処理は、次の単語に継続され、作成処理が継続される。

ステップ３。位置１の第１言語の単語Ｘの可能な第２言語の翻訳を返す：文書Ｂに範囲を適用することによって、文書Ｂの位置１および２（１＋／−１）の単語すなわちＡＡおよびＢＢ（文書Ｂの位置１および２）がもたらされる。すべての可能な組合せすなわちＡＡ、ＢＢ、およびＡＡＢＢ（単語列組み合わせとして）が、Ｘの可能な翻訳または関係する関連として返される。したがって、Ｘ１（単語Ｘの最初の出現）によって、関連としてＡＡ、ＢＢ、およびＡＡＢＢが返される。

ステップ４。単語Ｘの次の位置を分析する。この単語（Ｘ２）は、位置４に出現する。位置４は、文書の中央付近なので、範囲（上で説明した）は、位置４の両側２単語になる。文書Ｂの単語４を調べ、範囲（＋／−）２を適用することによって、可能な関連が返され、したがって、単語４の前の２単語および単語４の後の２単語が返される。したがって、位置２、３、４、５、および６の単語が返される。これらの位置は、文書Ｂの単語ＢＢ、ＣＣ、ＡＡ、ＥＥ、およびＦＦに対応する。これらの単語（およびその組み合わされた単語列）のすべての順方向の順列を検討する。したがって、Ｘ２によって、可能な関連としてＢＢ、ＣＣ、ＡＡ、ＥＥ、ＦＦ、ＢＢＣＣ、ＢＢＣＣＡＡ、ＢＢＣＣＡＡＥＥ、ＢＢＣＣＡＡＥＥＦＦ、ＣＣＡＡ、ＣＣＡＡＥＥ、ＣＣＡＡＥＥＦＦ、ＡＡＥＥ、ＡＡＥＥＦＦ、およびＥＥＦＦが返される。

ステップ５。Ｘの最初の出現（位置１）の戻り値を、Ｘの第２の出現（位置４）の戻り値と比較し、一致を判定する。２つの範囲のオーバーラップに出現する同一の単語または単語列を含む戻り値を、単一の出現に減らさなければならないことに留意されたい。たとえば、この例では、位置２の単語が、ＢＢである。これは、Ｘの第１の出現（範囲によって操作される時）およびＸの第２の出現（範囲によって操作される時）の両方で返される。この同一の単語位置が、Ｘ１およびＸ２の両方について返されるので、この単語が、１つの出現としてカウントされる。しかし、同一の単語が、オーバーラップする範囲の２つの異なる単語位置から返される場合には、その単語を、２回カウントし、関連頻度を記録する。この場合に、単語Ｘの戻り値はＡＡである。というのは、単語（ＡＡ）が、Ｘ１およびＸ２の両方の関連戻り値であるからである。両方の関連に出現する他の単語がＢＢであるが、上で説明したように、その単語は、Ｘの第１および第２の出現の範囲の操作によって達する同一位置（したがって同一単語）なので、破棄することができることに留意されたい。

ステップ６。単語Ｘの次の位置（位置９）（Ｘ３）を分析する。（＋／−）１の範囲（文書の末尾付近）を適用することによって、文書Ｂの位置８、９、および１０の関連が返される。文書Ｂは、８つの位置だけを有するので、結果が切り捨てられ、単語位置８すなわちＣＣだけが、Ｘの可能な値として返される（注：その代わりに、ユーザ定義パラメータによって、分析の一部として少なくとも２文字を要求することができ、この場合には、位置８および次に近い位置（位置７のＧＧ）が返される）。

Ｘ３の戻り値をＸ１の戻り値と比較することによって、一致がなく、したがって関連がないことがわかる。
ステップ７。単語Ｘの次の位置を分析する。しかし、文書Ａには単語Ｘのこれ以上の出現がない。この時点で、言語Ａの単語Ｘについて、言語Ｂの単語ＡＡに対する１の関連頻度が確立される。

ステップ８。単語Ｘがこれ以上出現しないので、この処理は、１単語だけ増分され、単語列をテストする。この場合に、検査される単語列は、文書Ａの最初の２単語、「ＸＹ」である。ステップ２から７で説明したものと同一の技法を、この句に適用する。

ステップ９。文書Ａを調べることによって、単語列ＸＹが１回だけ出現することがわかる。この時点で、増分処理が停止し、データベース作成は行われない。終点に達したので、次の単語を検査する（この処理は、単語列について一致が発生しないときに必ず行われる）。この場合には、文書Ａの位置２の単語が、「Ｙ」である。

ステップ１０。単語「Ｙ」についてステップ２から７の処理を適用することによって、下記が得られる。単語Ｙの２つの出現（位置２および７）が存在し、したがって、データベース作成処理が継続される（やはり、Ｙが文書Ａに１回だけ出現する場合には、Ｙは検査されない）。
位置２の範囲のサイズは、（＋／−）１単語である。
文書Ｂに範囲を適用することによって（位置２、単語Ｙの最初の出現の位置）、文書Ｂの位置１、２、および３の結果が返される。
この返された位置にある対応する外国語単語は、ＡＡ、ＢＢ、およびＣＣである。
順方向の順列を適用することによって、Ｙ１の可能性すなわち、ＡＡ、ＢＢ、ＣＣ、ＡＡＢＢ、ＡＡＢＢＣＣ、およびＢＢＣＣが得られる。
Ｙの次の位置（位置７）を分析する。
位置７の範囲のサイズは（＋／−）２単語である。
その範囲を文書Ｂ（位置７）に適用することによって、位置５、６、７、および８での結果すなわちＥＥＦＦＧＧおよびＣＣが返される。
すべての順列によって、Ｙ２の可能性すなわち、ＥＥ、ＦＦ、ＧＧ、ＣＣ、ＥＥＦＦ、ＥＥＦＦＧＧ、ＥＥＦＦＧＧＣＣ、ＦＦＧＧ、ＦＦＧＧＣＣ、およびＧＧＣＣが得られる。
Ｙ１からの結果を突き合わせることによって、唯一の一致としてＣＣが返される。
Ｙ１およびＹ２の一致を組み合わせることによって、Ｙの関連頻度としてＣＣが得られる。

ステップ１１。範囲増分の終り：単語Ｙに関する唯一の可能な一致（単語ＣＣ）が、Ｙの第１の出現の範囲の末尾に出現する（ＣＣは、文書Ｂの位置３に出現する）ので、範囲を第１の出現の位置で１つ増分することによって、位置１、２、３、および４すなわちＡＡ、ＢＢ、ＣＣ、およびＡＡ、または順方向の順列ＡＡ、ＢＢ、ＣＣ、ＡＡＢＢ、ＡＡＢＢＣＣ、ＡＡＢＢＣＣＡＡ、ＢＢＣＣ、ＢＢＣＣＡＡ、およびＣＣＡＡが返される。この結果を適用することによって、Ｙの可能な翻訳としてＣＣが得られる。返された一致が最初の出現（「Ｙ」のベース出現）の範囲の末尾にあったので、範囲が増分されたことに留意されたい。このパターンが範囲の終りに出現するときには、必ず、完全さを保証するサブステップ（または代替ステップ）として、増分が行われる。

ステップ１２。文書Ａには「Ｙ」のこれ以上の出現がないので、この分析では、文書Ａで１単語増分し、単語列「ＹＺ」を検査する（単語Ｙの後の次の単語）。次の列（ＹＺ）に増分し、この処理を繰り返すことによって、下記が得られる。
単語列ＹＺは、文書Ａに２回、位置２および７に出現する。第１の出現（ＹＺ１）のＹＺの可能性は、ＡＡ、ＢＢ、ＣＣ、ＡＡＢＢ、ＡＡＢＢＣＣ、およびＢＢＣＣである（その代わりに、言語Ａで分析される単語列が長くなる時の範囲のサイズの拡張を含む範囲パラメータを定義できることに留意されたい）。
第２の出現（ＹＺ２）でのＹＺの可能性は、ＥＥ、ＦＦ、ＧＧ、ＣＣ、ＥＥＦＦ、ＥＥＦＦＧＧ、ＥＥＦＦＧＧＣＣ、ＦＦＧＧ、ＦＦＧＧＣＣ、およびＧＧＣＣである。
突合せによって、単語列ＹＺの可能な関連としてＣＣが得られる。
範囲の拡張（範囲の末尾の増分）によって、ＹＺに関して、ＡＡ、ＢＢ、ＣＣ、ＡＡＢＢ、ＡＡＢＢＣＣ、ＡＡＢＢＣＣＡＡ、ＢＢＣＣ、ＢＢＣＣＡＡ、およびＣＣＡＡが得られる。
この結果を適用することによって、やはり単語列ＹＺの関連頻度としてＣＣが得られる。

ステップ１３。「ＹＺ」のこれ以上の出現が文書Ａに存在しないので、この分析では、文書Ａで１単語増分し、単語列「ＹＺＸ」（文書Ａの位置３の単語Ｚの次の単語）を検査する。次の単語列（ＹＺＸ）に増分し、この処理を繰り返す（ＹＺＸは、文書Ａに２回出現する）ことによって、下記が得られる。
ＹＺＸの第１の出現の戻り値は、位置２、３、４、および５である。
順列は、ＢＢ、ＣＣ、ＡＡ、ＥＥ、ＢＢＣＣ、ＢＢＣＣＡＡ、ＢＢＣＣＡＡＥＥ、ＣＣＡＡ、ＣＣＡＡＥＥ、およびＡＡＥＥである。
ＹＺＸの第２の出現の戻り値は、位置５、６、７、および８である。
順列は、ＥＥ、ＦＦ、ＧＧ、ＣＣ、ＥＥＦＦ、ＥＥＦＦＧＧ、ＥＥＦＦＧＧＣＣ、ＦＦＧＧ、ＦＦＧＧＣＣ、およびＧＧＣＣである。
この２つを比較することによって、単語列ＹＺＸの関連頻度としてＣＣが得られる。やはり、可能な関連としてのＥＥの戻り値が、両方の場合に同一の単語（すなわち同一位置）で発生するので、破棄されることに留意されたい。

ステップ１４。次の単語列（ＹＺＸＷ）に増分すると、１つの出現だけが見つかる。したがって、単語列データベース作成は、完了し、次の「単語」Ｚ（文書Ａの位置３）を検査する。

ステップ１５。上で説明したステップをＺ（文書Ａに３回出現する）に関して適用することによって、下記が得られる。
Ｚ１の戻り値は、ＡＡ、ＢＢ、ＣＣ、ＡＡ、ＥＥ、ＡＡＢＢ、ＡＡＢＢＣＣ、ＡＡＢＢＣＣＡＡ、ＡＡＢＢＣＣＡＡＥＥ、ＢＢＣＣ、ＢＢＣＣＡＡ、ＢＢＣＣＡＡＥＥ、ＣＣＡＡ、ＣＣＡＡＥＥ、およびＡＡＥＥである。
Ｚ２の戻り値は、ＦＦ、ＧＧ、ＣＣ、ＦＦＧＧ、ＦＦＧＧＣＣ、およびＧＧＣＣである。
Ｚ１とＺ２を比較することによって、Ｚの関連頻度としてＣＣが得られる。
Ｚ３（位置１０）は、定義された範囲内の戻り値を有しない。しかし、言語Ａの単語または単語列のそれぞれについて少なくとも１つの戻り値が存在しなければならないというパラメータを追加すると、Ｚの戻り値はＣＣになる。

Ｚ３の戻り値をＺ１と比較すると、単語Ｚの関連頻度としてＣＣが得られる。しかし、この関連はカウントされない。というのは、単語位置８のＣＣが、上のＺ２の関連で既に考慮されているからである。オーバーラップする範囲によって、この処理で、ある出現の二重カウントが発生するときには、システムは、関連頻度を減らして、真の出現の回数をより正確に反映することができる。

ステップ１６。次の単語列に増分することによって、単語列ＺＸが得られ、これは、文書Ａに２回出現する。上で説明したステップをＺＸに関して適用することによって、下記が得られる。
ＺＸ１の戻り値は、ＢＢ、ＣＣ、ＡＡ、ＥＥ、ＦＦ、ＢＢＣＣ、ＢＢＣＣＡＡ、ＢＢＣＣＡＡＥＥ、ＢＢＣＣＡＡＥＥＦＦ、ＣＣＡＡ、ＣＣＡＡＥＥ、ＣＣＡＡＥＥＦＦ、ＡＡＥＥ、ＡＡＥＥＦＦ、およびＥＥＦＦである。
ＺＸ２の戻り値は、ＦＦ、ＧＧ、ＣＣ、ＦＦＧＧ、ＦＦＧＧＣＣ、およびＧＧＣＣである。
戻り値を比較することによって、単語列ＺＸとＣＣの間の関連が得られる。

ステップ１７。増分することによって、次の句はＺＸＷになる。これは１回だけ出現するので、文書Ａの次の単語（Ｘ）を調べる。
ステップ１８。単語Ｘは、最初の位置で既に検査されている。しかし、単語Ｘの第２位置は、他方の文書に関して、単語Ｘの可能な戻り値について検査されていない。したがって、単語Ｘ（第２位置の）を、単語Ｘの第１の出現と同様に操作して、文書内で前に進む。
位置４のＸの戻り値は、ＢＢ、ＣＣ、ＡＡ、ＥＥ、ＦＦ、ＢＢＣＣ、ＢＢＣＣＡＡ、ＢＢＣＣＡＡＥＥ、ＢＢＣＣＡＡＥＥＦＦ、ＣＣＡＡ、ＣＣＡＡＥＥ、ＣＣＡＡＥＥＦＦ、ＡＡＥＥ、ＡＡＥＥＦＦ、およびＥＥＦＦになる。
位置９のＸの戻り値は、ＣＣになる。
位置９の結果を位置４の結果と比較することによって、単語Ｘの可能な一致としてＣＣが得られ、関連頻度が与えられる。

ステップ１９。次の単語列に増分する（文書内で前を調べると、Ｘの第２の出現との比較に関してＸのこれ以上の出現がないので）ことによって、単語列ＸＷが得られる。しかし、この単語列は、文書Ａに複数回出現しないので、この処理は、次の単語（Ｗ）の検査に移る。単語「Ｗ」は、文書Ａに１回だけ出現し、したがって、増分が行われるが、単語「Ｗ」が１回だけ現れるので、次の単語列ではなく、文書Ａの次の単語「Ｖ」に移る。単語「Ｖ」は、文書Ａに１回だけ出現し、したがって、次の単語（Ｙ）が検査される。単語「Ｙ」は、文書Ａの位置７より先の位置に出現しないので、次の単語（Ｚ）を検査する。単語「Ｚ」は、位置８の後に、位置１０にも現れる。

ステップ２０。単語Ｚの第２の出現に関して上で説明した処理を適用することによって、下記が得られる。
位置８のＺの戻り値は、ＧＧ、ＣＣ、およびＧＧＣＣになる。
位置１０のＺの戻り値は、ＣＣになる。
位置１０の結果を位置８と比較することによって、単語Ｚの関連は作られない。

やはり、単語ＣＣが、可能な関連として返されるが、ＣＣは、位置８のＺと位置１０のＺの分析によって達する同一の単語位置なので、この関連は破棄される。
ステップ２１。１単語だけ増分することによって、単語列ＺＸが得られる。この単語列は、文書Ａの他の（先の）位置に現れないので、この処理は、文書Ａの次の単語「Ｘ」で改めて開始される。単語Ｘは、文書Ａの他の（先の）位置に現れないので、処理を改めて開始する。しかし、文書Ａの終りに達しており、分析が停止する。

ステップ２２。最後の関連頻度を、表にし、上記からのすべての結果を組み合わせ、前に説明したように重複を減算する。
明らかに、文書Ａの単語および単語列に関する結論的な結果を返すのに十分なデータがない。上で検査された関連を有する単語および単語列を含むより多くの文書対が検査されるときに、関連頻度が、統計的に信頼性が高まり、言語ＡおよびＢの間の単語または単語列によって、単語または単語列の可能な翻訳に関する強い関連が作られる。

データベース作成方法の実施形態の例として、当技術分野で周知のタイプのコンピュータシステムに関する動作が、下記のプログラムである。

上で示したように、この実施形態は、関連を作成するのに使用される技法を表す。本発明の技法は、言語変換に制限する必要がない。広義の意味で、この技法は、本質において、異なる単語または単語列によって表される同一概念の対にされた関連として外国語翻訳が単純に存在する、関連付けることができる同一の観念の２つの表現に適用される。したがって、本発明は、すべての感覚（音、視覚、においなど）経験を表すことができる観念を含む、データ、サウンド、音楽、ビデオ、または観念として存在する広い範囲の概念の関連付けに適用することができる。必要なものは、本発明によって２つの実施形態（実施形態が文書の場合には言語翻訳で、音楽の場合は、実施形態を、楽譜のディジタル表現、同一の作曲を表すサウンド周波数などとすることができる）を分析することだけである。

もう１つの実施形態では、当技術分野で周知の、ある規則に基づくアルゴリズムを、クロス言語関連学習に組み込んで、名前、番号、日付など、文脈および意味において交換可能である（時々、潜在的に無限の派生物を有することができる）あるクラスのテキストを扱うことができる。

さらに、使用可能なクロス言語文書が、翻訳に関する統計的に有意な結果を備えない場合には、ユーザが、翻訳および他の関連の可能な選択肢を調べ、適切な選択肢を承認し、ランクを付けることができる。

上で説明したように、翻訳された対のより多くの文書が関連頻度について分析されるにつれて、単語および単語列の間の関連頻度が強くなる。多くの言語対の文書が検査されるときに、本発明の方法および装置によって、互いに直接にではなく第３の言語に共通の関連を有する言語に基づいて、言語対の間の「演繹された関連」が満たされ始める。さらに、翻訳された文書が、複数の言語で存在するときに、すべての言語の間に唯一の共通する関連（翻訳である）が存在するまで、複数の言語にまたがって共通の関連戻り値を分析することができる。

演繹された関連は、各言語のテキストが第３の言語（１つまたは複数）での共通の定義を共有するときに、言語の対のテキストの間で作ることができる。テキストは、単語または句など、翻訳される文書の一部またはセグメントとすることができる。たとえば、言語Ａの句「ａａｄｄｐｚ」を言語Ｂの句に直接に翻訳するのに十分なクロス言語テキストがない場合に、関連を演繹することに、この言語Ａの句を、表４に示されているように、この翻訳を行うのに効率的なクロス言語テキストが存在する言語Ｃ、Ｄ、Ｅ、およびＦのその句の翻訳と比較することを含めることができる。次に、言語Ｃ、Ｄ、Ｅ、およびＦの「ａａｄｄｐｚ」の翻訳を、表５に示されているように、この翻訳を行うのに効率的なクロス言語テキストが存在する場合に、言語Ｂに翻訳することができる。言語Ａの句「ａａｄｄｐｚ」と言語Ｂの句の間の関連の演繹に、さらに、言語Ｃ、Ｄ、Ｅ、およびＦの「ａａｄｄｐｚ」の翻訳から翻訳された言語Ｂの句を比較することを含めることができる。「ａａｄｄｐｚ」の言語Ｃ、Ｄ、Ｅ、およびＦの翻訳から翻訳された言語Ｂの句のいくつかが、同一になる場合があり、本発明のこの好ましい実施形態では、これらが、言語Ａの句「ａａｄｄｐｚ」の正しい言語Ｂ翻訳を表す。表４からわかるように、言語Ｂへの言語Ｃ、Ｄ、およびＦの翻訳によって、同一の言語Ｂの句が作られて、正しい言語Ｂの翻訳「ＵｙＴＢｙＭ」が提供される。したがって、演繹された関連を、言語Ａの句とその正しい言語Ｂ翻訳の間で作成することができる。言語Ｂへの言語Ｅの翻訳によって、同一でない言語Ｂの句ＺｎＶＰｉＯが作られる。これは、言語Ｅの句「１５３」が複数の意味を有すること、または言語Ｂの句ＵｙＴＢｙＭおよびＺｎＶＰｉＯが交換可能であることを示す可能性がある。

下記は、これらの言語のデータが本発明の実施形態で使用される方法を提供するコンピュータプログラム（当技術分野で周知のタイプのコンピュータシステムと共に動作する時の）の例である。

また、存在する状態での表現が、別の状態でのデータ点との人工的な特定の関連であり、データベースでカタログ化される場合に、この２つの状態の間の変換が可能である。たとえば、ある形態、状態、または言語で表される各「観念」が、電磁波（トーン）への関連を割り当てられる場合に、これによって、観念の「電磁表現」が作成される。所与の数の観念が、対応する電磁表現にエンコードされたならば、データ（観念の形での）を、電磁波に翻訳でき、通常の遠隔通信インフラストラクチャを介して一度に転送することができる。電磁波が宛先の機械に達したときに、その機械は、その波を別々の構成要素に合成し、関連（順序付けの指示、本明細書に記載の二重オーバーラップ技法の使用、および／または他の可能な方法と共に）を与えられれば、電磁表現によって表された個々の観念を提示する。

２．観念変換の方法および装置
本発明のもう１つの態様は、第１の状態、形態、または言語のデータを含む第１文書から、第２の状態、形態、または言語のデータを含む第２文書を作成し、第１および第２の文書が実質的に同一の観念または情報を表すという結果をもたらす方法および装置であって、クロス観念関連データベースを使用する方法および装置を提供することを対象とする。この翻訳方法のすべての実施形態で、ある状態から別の状態への観念の正確な翻訳を得るために、二重オーバーラップ技法が使用される。対照的に、従来技術の翻訳デバイスでは、個々の単語の翻訳に焦点を合わせるか、第１言語から第２言語への翻訳を実現する特殊な規則に基づくコードが使用される。本発明では、オーバーラップ技法を使用して、第２言語の単語または単語列を有機的に一緒に接続できるようにし、これらの単語および句が第２言語で書かれる正確な形での、正しい文脈での正確な翻訳にする。

本発明の実施形態では、データベース作成およびオーバーラップ技法の方法が、組み合わされて、正確な言語翻訳が提供される。言語は、あらゆるタイプの変換とすることができ、必ずしも話される／書かれる言語に制限されない。たとえば、変換に、コンピュータ言語、ＡＳＣＩＩなどの特定のデータ符号、および類似物を含めることができる。データベースは、動的である。すなわち、データベースは、内容が変換システムに入力されるときに増大し、翻訳システムが前に入力された内容を使用することが連続的に繰り返される。本発明の好ましい実施形態では、従来技術で簡単に使用可能なタイプのパーソナルコンピュータシステムなどのコンピューティングデバイスが使用される。しかし、このシステムは、そのようなコンピューティングデバイスである必要はなく、データベースの手動作成および変換方法を含む他の手段によって簡単に達成することができる。

本発明は、少なくとも表示手段、入力方法、および出力方法とプロセッサを有する一般的なコンピュータシステムで使用することができる。表示手段は、陰極線管、液晶ディスプレイ、フラットパネルディスプレイ、および類似物など、従来技術ですぐに使用可能なもののいずれかとすることができる。プロセッサ手段も、すぐに入手可能なもののいずれかとすることができ、コンピュータが本発明を実行するように動作できるようにする手段を提供するようにコンピューティング環境で使用される。最後に、入力方法は、クロス関連データベースを構築するための文書の入力を可能にするのに使用され、上で説明したように、ディジタル形式への変換のための特定の入力手段は、ユーザの必要に応じて変更することができる。

ａ．二重オーバーラップ技法を介する手動のデータベース作成および翻訳
単語および単語列の翻訳についてユーザに照会することならびに二重オーバーラップ技法を使用してセグメント翻訳を自動生成することによってクロス言語データベースが開発される、本発明による第１言語から第２言語に文書を翻訳する方法および装置の実施形態の例を、これから説明する。

好ましい実施形態の説明において、英語のデータがヘブライ語のデータに翻訳される例を使用する。この選択は、説明のみを目的とし、第１言語および第２言語の選択を制限することを意図されたものではない。

本発明の好ましい実施形態によれば、コンピュータシステムが、英語からヘブライ語への翻訳間の関連のデータベースを作成するように動作する。翻訳方法には、少なくとも下記のステップが含まれる。

第１に、英語のデータを、コンピュータシステムに入力する。
第２に、英語入力のすべての単語を、まず１単語ずつ検査する。データベースによって、ヘブライ語の既知の単語翻訳が返される。翻訳がデータベースに含まれない場合には、コンピュータシステムは、適切な翻訳を入力するようにユーザに問い合わせる形で動作する。したがって、データベースに、入力された英単語と同等のヘブライ語がない場合には、ユーザに、適切なヘブライ語の同等物を供給するように求める。ユーザは、翻訳を返し、前記変換をデータベースに入力する。後続の使用時に、コンピュータは、前の時点でユーザによって入力されたことによって翻訳が既知になる形でデータベースを操作する。したがって、第２ステップでは、入力データが、解析された状態（たとえば単語単位）で検査され、適切な翻訳が、返される（データベースの動作によって）か、データベースに入力される。

第３に、入力データが、解析されたセグメントを増分する形で検査される。たとえば、データが、まず単語単位で解析された場合に、本発明の翻訳方法では、次に、２単語の列を評価することによって入力を検査する。やはり、上で説明したものに類似する形で、データベースによって、既知の場合に２単語列の翻訳が返され、未知の場合には、翻訳システムは、すべての可能な２単語列の適切な翻訳を入力するようにユーザに問い合わせるように動作する。オーバーラップする２単語セグメントのすべてが、データベースに記憶される。たとえば、単語列が、４単語からなる場合に、データベースによって、メモリ内の翻訳された組合せ、１、２と２、３と３、４を有するかどうかが検査される。ない場合には、ユーザに問い合わせる。データベースに、上のステップ２によって各単語の定義が必ず含まれるが、２単語列について特にエンコードされた翻訳だけが、正確な翻訳として返されることに留意されたい。

第４に、２つのオーバーラップする２単語の英語列のヘブライ翻訳が、オーバーラップする単語（１つまたは複数）を有する場合に、このシステムは、オーバーラップするセグメントを組み合わせる形で動作する。オーバーラップ内の冗長なヘブライ語セグメントを除去して、２つのオーバーラップする英語列を組み合わせる（および英語オーバーラップの冗長性を除去する）ことによって作成される３単語英語列のコヒーレントな翻訳を提供する。上のステップを、１から無限の個数のステップ（ｎ）まで繰り返して、適切な翻訳を提供することができる。この翻訳方法は、両方の言語のエンコードされた単語ブロックをオーバーラップによってブリッジする無矛盾の列を検証することによって、自動的に動作する。両方の言語にまたがって無矛盾性を有するオーバーラップブリッジの自動承認によって、データベースが臨界質量に達したならば完全な精度を有する、２つの言語の間で翻訳する言語ネットワークがもたらされる。

例として、英語の句「Ｉｗａｎｔｔｏｂｕｙａｃａｒ」を検討されたい。本発明の方法の動作時に、この句は、データベースを働かせるコンピュータに入力される。このコンピュータは、データベースに単語「Ｉ」、「ｗａｎｔ」、「ｔｏ」、「ｂｕｙ」、「ａ」、および「ｃａｒ」と同等のヘブライ語が含まれるかどうかを判定するように動作する。そのような同等物が既知である場合には、このコンピュータは、ヘブライ語の同等物を返す。そのような同等物が既知でない場合には、コンピュータによって、適切なヘブライ語翻訳を供給するようにユーザに問い合わせ、そのような翻訳が将来の使用のために記憶される。次に、コンピュータによって、文が、オーバーラップする形の２単語セグメント「Ｉｗａｎｔ」、「ｗａｎｔｔｏ」、「ｔｏｂｕｙ」、「ｂｕｙａ」、および「ａｃａｒ」に解析される。コンピュータは、これらのセグメントのヘブライ語の同等物（すなわち、「Ｉｗａｎｔ」のヘブライ語の同等物など）を返すように動作し、そのようなヘブライ語の同等物が未知の場合には、コンピュータによって、適切なヘブライ語翻訳を供給するようにユーザに問い合わせ、その翻訳を将来の使用のために記憶する。

本発明では、次に、３単語セグメント「Ｉｗａｎｔｔｏ」、「ｗａｎｔｔｏｂｕｙ」、「ｔｏｂｕｙａ」、および「ｂｕｙａｃａｒ」を検査する。処理のこの時点で、本発明では、２単語英語翻訳がオーバーラップするヘブライ語翻訳の各対を組み合わせることを試行し、各３単語英語翻訳照会を行うために組み合わせる（たとえば、「Ｉｗａｎｔ」、「ｗａｎｔｔｏ」を組み合わせて「Ｉｗａｎｔｔｏ」を形成する）ことを試みる。ヘブライ語のセグメントが、やはりそれらをうまく接続する共通のオーバーラップを有する場合に、この変換方法では、自動的に、ユーザ介入を必要とせずに、ヘブライ語に対する３単語英語単語列を翻訳として承認する。ヘブライ語セグメントがオーバーラップせず、組み合わされない場合には、ユーザに、正確な翻訳について問い合わせる。３単語英語列の適切な翻訳の試みの後に、この処理は、４単語の列などに進み、クロス言語オーバーラップを介して、検査されるセグメントが完了するまで（この例では、句全体「Ｉｗａｎｔｔｏｂｕｙａｃａｒ」）翻訳の組合せの自動的な解決を試みる。本発明の方法は、この解析を行った後に、返された翻訳同等物を比較し、オーバーラップしたセグメントの冗長性を除去し、変換された句をユーザに出力する。

ｂ．関連データベースおよび二重オーバーラップ技法を介する文書の翻訳
もう１つの好ましい実施形態では、本発明によって、上で説明したクロス言語データベースを使用して文書内の単語および単語列の単語列翻訳を提供し、その後、上で説明したクロス言語二重オーバーラップ技法を使用して第２言語のオーバーラップする単語列を組み合わせて、文書の翻訳を提供することによって、第１言語の文書を第２言語の文書に翻訳することができる。たとえば、英語で入力され、ヘブライ語に翻訳されることを意図された文「Ｉｎａｄｄｉｔｉｏｎｔｏｍｙｎｅｅｄｔｏｂｅｌｏｖｅｄｂｙａｌｌｔｈｅｇｉｒｌｓｉｎｔｏｗｎ，ＩａｌｗａｙｓｗａｎｔｅｄｔｏｂｅｋｎｏｗｎａｓｔｈｅｂｅｓｔｐｌａｙｅｒｔｏｅｖｅｒｐｌａｙｏｎｔｈｅＮｅｗＹｏｒｋｓｔａｔｅｂａｓｋｅｔｂａｌｌｔｅａｍ」の構成要素を解決するのに十分なクロス言語文書にアクセスできるデータベースを検討されたい。

上で説明した処理を介して、この操作方法によって、句「Ｉｎａｄｄｉｔｉｏｎｔｏｍｙｎｅｅｄｔｏｂｅｌｏｖｅｄｂｙａｌｌｔｈｅｇｉｒｌｓ」が、ソース文書の最初の単語から始まり、データベース内に存在する、ソース文書からの最大の単語列であると判定される。この単語列が、データベース内でヘブライ語の単語列「ｂｅｎｏｓａｆｌｔｚｏｒｅｃｈｓｈｅｌｉｌｉｈｉｏｔａｈｕｖａｌｙｅｄａｙｋｏｌｈａｂａｈｕｒｏｔ」に関連する。この処理では、上で説明した方法を使用して下記の翻訳を判定する。すなわち、翻訳されるテキストからの（かつ、データベースに存在する）前に識別された英単語とオーバーラップする１つの単語（またはその代わりに複数の単語）を有する最大の英単語列およびこのオーバーラップする英単語の２つのヘブライ語の翻訳が、オーバーラップするセグメントを有する。「ｌｏｖｅｄｂｙａｌｌｔｈｅｇｉｒｌｓｉｎｔｏｗｎ」は、「ａｈｕｖａｌｙｅｄａｙｋｏｌｈａｂａｈｕｒｏｔｂｕｉｒ」に翻訳され、「ｔｈｅｇｉｒｌｓｉｎｔｏｗｎ，Ｉａｌｗａｙｓｗａｎｔｅｄｔｏｂｅｋｎｏｗｎ」は、「Ｈａｂａｈｕｒｏｔｂｕｉｒ，ｔａｍｉｄｒａｔｚｉｔｙｌｉｈｉｏｔｙａｈｕａ」に翻訳され、「Ｉａｌｗａｙｓｗａｎｔｅｄｔｏｂｅｋｎｏｗｎａｓｔｈｅｂｅｓｔｐｌａｙｅｒ」は、「ｔａｍｉｄｒａｔｚｉｔｙｌｉｈｉｏｔｙａｈｕａｂｅｔｔｏｒｈａｓａｈｋａｎｈａｃｈｉｔｏｖ」に翻訳され、「ｔｈｅｂｅｓｔｐｌａｙｅｒｔｏｅｖｅｒｐｌａｙｏｎｔｈｅＮｅｗＹｏｒｋｓｔａｔｅｂａｓｋｅｔｂａｌｌｔｅａｍ」は、「ｈａｓａｈｋａｎｈａｃｈｉｔｏｖｓｈｈａｙｐａａｍｓｉｈｅｋｂｅｋｖｕｔｚａｔｈａｋａｄｕｒｓａｌｓｈｅｌｍｅｄｉｎａｔｎｅｗｙｏｒｋ」に翻訳される。

データベースによるこれらの戻り値について、オーバーラップする単語および単語列を比較し、冗長性を除去する操作を行う。したがって、「Ｉｎａｄｄｉｔｉｏｎｔｏｍｙｎｅｅｄｔｏｂｅｌｏｖｅｄｂｙａｌｌｔｈｅｇｉｒｌｓ」は、「ｂｅｎｏｓａｆｌｔｚｏｒｅｃｈｓｈｅｌｉｌｉｈｉｏｔａｈｕｖａｌｙｅｄａｙｋｏｌｈａｂａｈｕｒｏｔ」に翻訳され、「ｌｏｖｅｄｂｙａｌｌｔｈｅｇｉｒｌｓｉｎｔｏｗｎ」は、「ａｈｕｖａｌｙｅｄａｙｋｏｌｈａｂａｈｕｒｏｔｂｕｉｒ」に翻訳される。本発明の技法を使用すると、システムによって、英語のセグメント「Ｉｎａｄｄｉｔｉｏｎｔｏｍｙｎｅｅｄｔｏｂｅｌｏｖｅｄｂｙａｌｌｔｈｅｇｉｒｌｓ」および「ｌｏｖｅｄｂｙａｌｌｔｈｅｇｉｒｌｓｉｎｔｏｗｎ」がとられ、ヘブライ語のセグメント「ｂｅｎｏｓａｆｌｔｚｏｒｅｃｈｓｈｅｌｉｌｉｈｉｏｔａｈｕｖａｌｙｅｄａｙｋｏｌｈａｂａｈｕｒｏｔ」および「ａｈｕｖａｌｙｅｄａｙｋｏｌｈａｂａｈｕｒｏｔｂｕｉｒ」が返され、オーバーラップが判定される。

英語では、句が、「Ｉｎａｄｄｉｔｉｏｎｔｏｍｙｎｅｅｄｔｏｂｅｌｏｖｅｄｂｙａｌｌｔｈｅｇｉｒｌｓ」および「ｌｏｖｅｄｂｙａｌｌｔｈｅｇｉｒｌｓｉｎｔｏｗｎ」である。オーバーラップを除去することによって、「Ｉｎａｄｄｉｔｉｏｎｔｏｍｙｎｅｅｄｔｏｂｅｌｏｖｅｄｂｙａｌｌｔｈｅｇｉｒｌｓｉｎｔｏｗｎ」が得られる。

ヘブライ語では、句が、「ｂｅｎｏｓａｆｌｔｚｏｒｅｃｈｓｈｅｌｉｌｉｈｉｏｔａｈｕｖａｌｙｅｄａｙｋｏｌｈａｂａｈｕｒｏｔ」および「ａｈｕｖａｌｙｅｄａｙｋｏｌｈａｂａｈｕｒｏｔｂｕｉｒ」である。オーバーラップを除去することによって、「ｂｅｎｏｓａｆｌｔｚｏｒｅｃｈｓｈｅｌｉｌｉｈｉｏｔａｈｕｖａｌｙｅｄａｙｋｏｌｈａｂａｈｕｒｏｔｂｕｉｒ」が得られる。

本発明では、次に、次に解析されるセグメントを操作して、処理を継続する。この例では、操作プロセスによって、句「ｔｈｅｇｉｒｌｓｉｎｔｏｗｎ，Ｉａｌｗａｙｓｗａｎｔｅｄｔｏｂｅｋｎｏｗｎ」が処理される。システムによって、英語のセグメント「Ｉｎａｄｄｉｔｉｏｎｔｏｍｙｎｅｅｄｔｏｂｅｌｏｖｅｄｂｙａｌｌｔｈｅｇｉｒｌｓｉｎｔｏｗｎ」および新しい英単語の組「ｔｈｅｇｉｒｌｓｉｎｔｏｗｎ，Ｉａｌｗａｙｓｗａｎｔｅｄｔｏｂｅｋｎｏｗｎ」が解決される。ヘブライ語の対応する単語の組は、「ｂｅｎｏｓａｆｌｔｚｏｒｅｃｈｓｈｅｌｉｌｉｈｉｏｔａｈｕｖａｌｙｅｄａｙｋｏｌｈａｂａｈｕｒｏｔｂｕｉｒ」であり、ヘブライ語の対応する単語の組は、「ｈａｂａｈｕｒｏｔｂｕｉｒ，ｔａｍｉｄｒａｔｚｉｔｙｌｉｈｉｏｔｙａｈｕａ」である。オーバーラップを除去すると、英語では「Ｉｎａｄｄｉｔｉｏｎｔｏｍｙｎｅｅｄｔｏｂｅｌｏｖｅｄｂｙａｌｌｔｈｅｇｉｒｌｓｉｎｔｏｗｎ」および「ｔｈｅｇｉｒｌｓｉｎｔｏｗｎ，Ｉａｌｗａｙｓｗａｎｔｅｄｔｏｂｅｋｎｏｗｎ」が、「Ｉｎａｄｄｉｔｉｏｎｔｏｍｙｎｅｅｄｔｏｂｅｌｏｖｅｄｂｙａｌｌｔｈｅｇｉｒｌｓｉｎｔｏｗｎ，Ｉａｌｗａｙｓｗａｎｔｅｄｔｏｂｅｋｎｏｗｎ」になる。ヘブライ語では、オーバーラップ処理によって、「ｂｅｎｏｓａｆｌｔｚｏｒｅｃｈｓｈｅｌｉｌｉｈｉｏｔａｈｕｖａｌｙｅｄａｙｋｏｌｈａｂａｈｕｒｏｔｂｕｉｒ」および「ｈａｂａｈｕｒｏｔｂｕｉｒ，ｔａｍｉｄｒａｔｚｉｔｙｌｉｈｉｏｔｙａｈｕａ」から、「ｂｅｎｏｓａｆｌｔｚｏｒｅｃｈｓｈｅｌｉｌｉｈｉｏｔａｈｕｖａｌｙｅｄａｙｋｏｌｈａｂａｈｕｒｏｔｂｕｉｒ，ｔａｍｉｄｒａｔｚｉｔｙｌｉｈｉｏｔｙａｈｕａ」が得られる。

本発明によって、翻訳される文書の残りの単語および単語列について、このタイプの動作が継続される。したがって、好ましい実施形態の例では、次の英語単語列が、「Ｉｎａｄｄｉｔｉｏｎｔｏｍｙｎｅｅｄｔｏｂｅｌｏｖｅｄｂｙａｌｌｔｈｅｇｉｒｌｓｉｎｔｏｗｎ，Ｉａｌｗａｙｓｗａｎｔｅｄｔｏｂｅｋｎｏｗｎ」および「Ｉａｌｗａｙｓｗａｎｔｅｄｔｏｂｅｋｎｏｗｎａｓｔｈｅｂｅｓｔｐｌａｙｅｒ」になる。この句についてデータベースによって返されるヘブライ語の翻訳は、「ｂｅｎｏｓａｆｌｔｚｏｒｅｃｈｓｈｅｌｉｌｉｈｉｏｔａｈｕｖａｌｙｅｄａｙｋｏｌｈａｂａｈｕｒｏｔｂｕｉｒ，ｔａｍｉｄｒａｔｚｉｔｙｌｉｈｉｏｔｙａｈｕａ」および「ｔａｍｉｄｒａｔｚｉｔｙｌｉｈｉｏｔｙａｈｕａｂｅｔｔｏｒｈａｓａｈｋａｎｈａｃｈｉｔｏｖ」である。英語のオーバーラップを除去すると、「Ｉｎａｄｄｉｔｉｏｎｔｏｍｙｎｅｅｄｔｏｂｅｌｏｖｅｄｂｙａｌｌｔｈｅｇｉｒｌｓｉｎｔｏｗｎ，Ｉａｌｗａｙｓｗａｎｔｅｄｔｏｂｅｋｎｏｗｎａｓｔｈｅｂｅｓｔｐｌａｙｅｒ」が得られる。ヘブライ語のオーバーラップを除去すると、「ｂｅｎｏｓａｆｌｔｚｏｒｅｃｈｓｈｅｌｉｌｉｈｉｏｔａｈｕｖａｌｙｅｄａｙｋｏｌｈａｂａｈｕｒｏｔｂｕｉｒ，ｔａｍｉｄｒａｔｚｉｔｙｌｉｈｉｏｔｙａｈｕａｂｅｔｔｏｒｈａｓａｈｋａｎｈａｃｈｉｔｏｖ」が得られる。

処理を継続すると、次の単語列は、「Ｉｎａｄｄｉｔｉｏｎｔｏｍｙｎｅｅｄｔｏｂｅｌｏｖｅｄｂｙａｌｌｔｈｅｇｉｒｌｓｉｎｔｏｗｎ，Ｉａｌｗａｙｓｗａｎｔｅｄｔｏｂｅｋｎｏｗｎａｓｔｈｅｂｅｓｔｐｌａｙｅｒ」および「ｔｈｅｂｅｓｔｐｌａｙｅｒｔｏｅｖｅｒｐｌａｙｏｎｔｈｅＮｅｗＹｏｒｋＳｔａｔｅｂａｓｋｅｔｂａｌｌｔｅａｍ」である。対応するヘブライ語の句は、「ｂｅｎｏｓａｆｌｔｚｏｒｅｃｈｓｈｅｌｉｌｉｈｉｏｔａｈｕｖａｌｙｅｄａｙｋｏｌｈａｂａｈｕｒｏｔｂｕｉｒ，ｔａｍｉｄｒａｔｚｉｔｙｌｉｈｉｏｔｙａｈｕａｂｅｔｔｏｒｈａｓａｈｋａｎｈａｃｈｉｔｏｖ」および「ｈａｓａｈｋａｎｈａｃｈｉｔｏｖｓｈｈａｙｐａａｍｓｉｈｅｋｂｅｋｖｕｔｚａｔｈａｋａｄｕｒｓａｌｓｈｅｌｍｅｄｉｎａｔｎｅｗｙｏｒｋ」である。英語のオーバーラップを除去すると、「Ｉｎａｄｄｉｔｉｏｎｔｏｍｙｎｅｅｄｔｏｂｅｌｏｖｅｄｂｙａｌｌｔｈｅｇｉｒｌｓｉｎｔｏｗｎ，ＩａｌｗａｙｓｗａｎｔｅｄｔｏｂｅｋｎｏｗｎａｓｔｈｅｂｅｓｔｐｌａｙｅｒｔｏｅｖｅｒｐｌａｙｏｎｔｈｅＮｅｗＹｏｒｋｓｔａｔｅｂａｓｋｅｔｂａｌｌｔｅａｍ」が得られる。ヘブライ語のオーバーラップを除去すると、「ｂｅｎｏｓａｆｌｔｚｏｒｅｃｈｓｈｅｌｉｌｉｈｉｏｔａｈｕｖａｌｙｅｄａｙｋｏｌｈａｂａｈｕｒｏｔｂｕｉｒ，ｔａｍｉｄｒａｔｚｉｔｙｌｉｈｉｏｔｙａｈｕａｂｅｔｔｏｒｈａｓａｈｋａｎｈａｃｈｉｔｏｖｓｈｈａｙｐａａｍｓｉｈｅｋｂｅｋｖｕｔｚａｔｈａｋａｄｕｒｓａｌｓｈｅｌｍｅｄｉｎａｔｎｅｗｙｏｒｋ」が得られるが、これは、翻訳が望まれるテキストの翻訳である。

この処理の完了時に、本発明は、翻訳された最終的なテキストを返し、そのテキストを出力するように動作する。
戻り値が、上で説明した処理に従ってオーバーラップする関連を返すデータベースの最終的な結果であることに留意されたい。このシステムは、この処理を介して、オーバーラップを介する連続的な第２言語セグメントとの自然におさまる接続を有しない第２言語の戻り値を、最終的に許容しない。ヘブライ語の戻り値のいずれかが、連続するヘブライ語単語列関連との正確なオーバーラップを有しない場合には、その戻り値は、拒絶され、連続するヘブライ語単語列とオーバーラップするヘブライ語単語列関連によって置換される。

本発明の好ましい実施形態の例では、当技術分野で周知のタイプのコンピュータシステムと共に動作する下記のコンピュータプログラムが使用される。

クロス言語関連データベースおよびクロス言語二重オーバーラップ翻訳技法の使用を組み合わせた上の実施形態は、当技術分野で周知の、音声認識ソフトウェア、ＯＣＲスキャニングデバイスなどの、ある状態の情報を別の状態の情報と等しくすることを試みる既存の技法の品質を改善する、他の潜在的な応用例を有する。これらの技法の両方によって、本発明の翻訳方法に対してこれらのシステムの結果をテストすることができる。翻訳が存在せず、したがって誤りが仮定されるときに、ユーザに、警告を与え、照会することができ、あるいは、システムを、オーバーラップする翻訳を作るオーバーラップしない翻訳に近い、データベース内の代替物を探すようにプログラムすることができる。もちろん、ユーザへの戻り値のすべてが、元の言語に変換される。

当業者が理解できるように、当業者なら、本発明の精神および範囲から逸脱せずに上記の装置および方法で多数の変更を加えることができる。

本発明によるクロス観念データベースの一実施形態を示す図である。

Claims

第１言語の文書セグメントを第２言語の文書セグメントに翻訳する方法であって、
前記第１言語の前記文書セグメントと複数の第３言語のそれぞれにおける文書セグメントとの間の関連を提供するステップと、
前記第２言語のセグメントに対応する前記複数の第３言語のサンプルセグメント間の関連を提供するステップと、
前記第２言語の演繹された関連セグメントと同一の少なくとも２つのサンプルセグメントを識別するステップと、
前記第２言語の前記演繹された関連セグメントを前記第１言語の前記文書セグメントに関連付けるステップと
を含む方法。
前記複数の第３言語が、少なくとも１つの第３言語を含む、請求項１に記載の方法。
同等の意味論的意味のセグメントを識別する方法を使用して、同一でないサンプルセグメントを交換可能なセグメントとして識別するステップをさらに含む、請求項２に記載の方法。
プロセッサ、前記プロセッサに結合されたメモリ、および前記メモリに記憶されたプログラムを含むコンピュータデバイスであって、前記コンピュータが、前記プログラムを実行し、
前記第１言語の前記文書セグメントと複数の第３言語のそれぞれにおける文書セグメントとの間の関連を提供するステップと、
前記第２言語のセグメントに対応する前記複数の第３言語のサンプルセグメントのそれぞれの間の関連を提供するステップと、
前記第２言語の演繹された関連セグメントと同一の少なくとも２つのサンプルセグメントを識別するステップと、
前記第２言語の前記演繹された関連セグメントを前記第１言語の前記文書セグメントに関連付けるステップと
を実行するように構成される、コンピュータデバイス。
前記複数の第３言語が、少なくとも１つの言語を含む、請求項４に記載のコンピュータデバイス。
同等の意味論的意味のセグメントを識別することによって、同一でないサンプルセグメントを交換可能なセグメントとして識別する前記ステップを実行するようにさらに構成される、請求項５に記載のコンピュータデバイス。
前記第１言語の前記文書セグメントと複数の第３言語のそれぞれにおける文書セグメントとの間の関連を提供するステップと、
前記第２言語のセグメントに対応する前記複数の第３言語のサンプルセグメントのそれぞれの間の関連を提供するステップと、
前記第２言語の演繹された関連セグメントと同一の少なくとも２つのサンプルセグメントを識別するステップと、
前記第２言語の前記演繹された関連セグメントを前記第１言語の前記文書セグメントに関連付けるステップと
を実行する、コンピュータプロセッサによって実行可能なプログラムをその上に記憶されたコンピュータ可読記憶媒体。