JP2006500640A - 多言語データベース作成のシステムおよび方法 - Google Patents
多言語データベース作成のシステムおよび方法 Download PDFInfo
- Publication number
- JP2006500640A JP2006500640A JP2003558733A JP2003558733A JP2006500640A JP 2006500640 A JP2006500640 A JP 2006500640A JP 2003558733 A JP2003558733 A JP 2003558733A JP 2003558733 A JP2003558733 A JP 2003558733A JP 2006500640 A JP2006500640 A JP 2006500640A
- Authority
- JP
- Japan
- Prior art keywords
- language
- word
- document
- translation
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/45—Example-based machine translation; Alignment
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
第1言語の文書セグメント(1)を第2言語の文書セグメント(2)に翻訳する方法および装置。文書セグメントは、文書内の、直接に翻訳される単語(3)の形のテキストとすることができる。本発明は、第1言語の文書を第2言語の文書(3)に直接に翻訳するのに十分な情報がない場合に使用することができる。本発明は、第1言語の文書セグメント(1)と複数の第3言語のそれぞれにおける文書セグメントとの間の関連を提供することと、そのそれぞれが複数の第3言語のそれぞれにおけるセグメントに対応する第2言語のサンプルセグメント(2)間の関連を提供することと、演繹された関連セグメントと同一である少なくとも2つのサンプルセグメントを識別することと、演繹された関連を第1言語の文書セグメント(1)に関連付けることが含まれる。
Description
本発明は、ある状態から第2の状態への内容の変換に使用できる多言語データベースの作成の方法および装置に関する。
本願は、2001年12月21日出願の米国特許出願第10/024473号明細書の一部継続出願であり、2001年3月16日出願の米国特許出願第60/276107号明細書および2001年6月21日出願の米国特許出願第60/299472号明細書の利益を主張するものであり、これらの特許出願明細書のすべてが、参照によって本明細書に組み込まれる。
ある言語から別の言語へ文書を自動的に翻訳するデバイスおよび方法が周知である。しかし、これらのデバイスおよび方法は、しばしば、ある言語から別の言語へ文書を正確に翻訳することができず、長い時間を費やし、使うのに不都合である可能性がある。人間の翻訳者の他に、他の周知のデバイスには、市販の機械翻訳ソフトウェアが含まれる。これらの周知のシステムは、システムを誤りに弱くし、遅くし、不都合にする短所がある。周知の翻訳デバイスおよび翻訳方法は、テキスト入力に対して常に正確な翻訳を返すことができるわけではなく、したがって、頻繁に、校正および編集のための集中的なユーザ介入を必要とする。正確な機械翻訳は、文書の逐語翻訳を行うデバイスおよび方法の提供より複雑である。これらの逐語システムでは、翻訳したものがしばしば、翻訳された文書の読者にとってほとんど意味をなさない。というのは、逐語法は、単語の選択を誤り、文法単位が一貫しないからである。
これらの不備を克服するために、周知の翻訳デバイスでは、数十年来、語彙、形態論、構文、および意味論の規則の組合せまたは組に基づいて、文の文脈内で単語翻訳を選択することが試みられてきた。これらのシステムを、当技術分野では「規則に基づく(Rule−Based)」機械翻訳(MT)システムと称するが、これらのシステムは、規則に非常に多くの例外があり、一貫して正確な翻訳を提供できないので、欠陥を有する。
規則に基づくMTのほかに、最近10年間に、「事例に基づく(example−based)」と称するMTの新しい方法(EBMT)が開発された。EBMTでは、2つの異なる言語でクロス言語データベース(cross−language database)に記憶された文(または、おそらくは文の部分)を利用する。翻訳照会が、データベース内の文と一致するときに、ターゲット言語の文の翻訳がデータベースによって生成され、第2の言語での正確な翻訳がもたらされる。翻訳照会の一部がデータベース内の文の一部と一致する場合に、このデバイスは、ソース言語の文にマッピングされた文のどの部分が照会の翻訳であるかを正確に判定しようと試みる。
EBMTシステムは、クロス言語文のデータベースが、手作業で作成され、常に大部分が「不完全」となるので、幅広い言語の正確な翻訳を提供することができない。EBMTのもう1つの短所は、部分的一致が、信頼性のある形で翻訳されないことである。EBMTで使用するための変換された文の対を使用して、クロス言語データベースの作成を自動化する試みが行われてきた。しかし、これらの努力は、有意なサイズの意味のある正確なクロス言語データベースの作成に成功してはいない。これらの試みのどれも、翻訳された文書の対からのかなりの数の単語および単語列の翻訳を確実かつ正確に洗練するアルゴリズムを使用していない。
一部の翻訳デバイスでは、規則に基づくエンジンとEBMTエンジンの両方が組み合わされる。この手法の組合せは、一方のシステムだけよりも高い度合の正確さをもたらすことができるが、その結果は、まだ、ユーザによるかなりの介入および編集がなければ不適切である。
ある言語から別の言語への文書の翻訳を試みるときに直面する問題は、より一般的に、観念または情報を表すデータを、ある状態、たとえば単語から、別の状態で観念を表すデータ、たとえば数学記号に変換するという問題に当てはまる可能性がある。その場合には、ある状態のデータを第2の状態の同等のデータに関連付けるクロス観念関連データベース(cross−idea association database)を調べなければならない。したがって、異なる言語または状態(たとえば、単語、単語列、音、動きなど)での同等の観念を関連付ける辞書またはデータベースを作成し、文書によってある言語または状態で伝えられる観念を、文書によって第2の言語または状態で表される同一のまたは類似する観念に翻訳または変換する、改善されたより効率的な方法および装置が求められている。
本発明は、クロス観念関連データベースを使用する内容の操作に関する。具体的には、本発明は、関連する観念のデータベースを作成する方法および装置を提供し、そのデータベースを使用して観念をある状態から他の状態に変換する方法および装置を提供する。
一実施形態で、たとえば、本発明によって、関連する観念のデータベースが2つの言語によって形成される、言語翻訳データベースを作成する方法および装置が提供される。本発明によって、その言語データベースを使用して、文書(観念を表す)をある言語から別の言語へ(より一般的には、ある状態から別の状態へ)変換する方法および装置が提供される。しかし、言語翻訳の好ましい実施形態を示すが、本発明は、言語翻訳に制限されない。本発明のデータベース作成態様は、ある形で関連するが異なる状態で表現される観念に適用することができ、本発明の変換態様は、ある状態から別の状態への観念の正確な翻訳に適用することができる。
言語翻訳実施形態への本発明の応用を説明する。本明細書で使用される、変換、翻訳、および操作に関する用語は、その最も広義の意味で交換可能に使用される。
本発明の目的は、クロス観念関連データベースを作成し、補足する方法および装置を提供することによって、ある言語または状態から別の言語または状態への文書の効率的な翻訳を実現することである。このデータベースによって、一般に、特定の観念または情報を表す第1の形態または状態のデータが、同一の観念または情報を表す第2の形態または状態のデータに関連付けられる。
本発明のもう1つの目的は、第1の状態、形態、または言語のデータを含む第1文書から第2の状態、形態、または言語のデータを含む第2文書を作成し、第1および第2の文書が実質的に同一の観念または情報を表すという結果をもたらす方法および装置を提供することによって、ある言語または状態から別の言語または状態への文書の翻訳を実現することである。
本発明のもう1つの目的は、第1の状態、形態、または言語のデータを含む第1文書から第2の状態、形態、または言語のデータを含む第2文書を作成し、第1および第2の文書が実質的に同一の観念または情報を表すという結果をもたらす方法および装置であって、クロス観念関連データベースを使用することを含む方法および装置を提供することによって、ある言語または状態から別の言語または状態への文書の翻訳を実現することである。
本発明のもう1つの目的は、リアルタイムの形での文書の翻訳(広義の意味では、ある状態から別の状態への観念の変換)を提供することである。
本発明は、クロス観念データベースを作成する方法および装置を提供することによって、上記および他の目的を達成する。クロス観念データベースを作成する方法および装置に、同一の一般テキストを表す2つ(または3つ以上)の異なる言語の文書の1つまたは複数の対(すなわち、テキストの正確な翻訳(「平行テキスト(Parallel Text)」)または全般的に関連するテキスト(「同等テキスト(Comparable Text)」))を提供することを含めることができる。本発明では、使用可能なクロス言語文書の第1言語での複数の出現を有するすべての単語および単語列の、少なくとも第1および第2の出現が選択される。次に、第2言語文書で少なくとも第1単語範囲および第2単語範囲を選択するが、第1および第2の単語範囲は、第1言語文書での選択された単語または単語列の第1および第2の出現に対応する。次に、第1単語範囲で見つかる単語および単語列を、第2単語範囲で見つかる単語および単語列と比較し、両方の単語範囲に共通する単語および単語列を突き止め、この突き止められた共通の単語および単語列を、クロス観念データベースに記憶する。次に、前記クロス観念データベース内で、本明細書で説明するように関連頻度(association frequency)(再起の数)を調整した後に、第2言語の2つの範囲で突き止められた共通の単語または単語列を、第1言語の選択された単語または単語列に関連付け、関連頻度によってランキングする。平行テキストおよび同等テキストの言語にまたがる共通の単語および単語列をテストすることによって、さまざまな異なる言語で使用可能な平行テキストまたは同等テキストが増えるにつれて、データベースによってより多くの関連が解決されるようになる。
本発明では、文書をある状態から別の状態に変換する方法および装置を提供することによって、上記および他の目的も達成される。本発明によって、第2言語のデータセグメントに関連する第1言語のデータセグメントからなるデータベースが提供される(上で説明した方法を介してまたは手動で作成される)。本発明では、上で言及したデータベースにアクセスし、データベースに存在する翻訳される文書内の、文書の最初の単語から始まる最長の単語列(単語数によって測定される)を識別することによって、テキストが翻訳される。次に、このシステムでは、データベースから、第1言語の文書から突き止められた単語列に関連する第2言語の単語列を検索する。次に、このシステムでは、データベースに存在し、文書内の前に識別された単語列とオーバーラップする単語(またはその代わりに単語列)を有する文書内の第2単語列を選択し、データベースから第1言語の第2単語列に関連する第2言語の単語列を検索する。第2言語の単語列関連が、オーバーラップする単語(またはその代わりに単語列)を有する場合に、第2言語の単語列関連が組み合わされて(オーバーラップの冗長性を除去される)、翻訳が形成される。そうでない場合には、成功するまで、第1言語単語列に対する他の第2言語関連を検索し、単語のオーバーラップを介する組合せについてテストする。第1言語の文書内の次の単語列が、前に識別された第1言語単語列とオーバーラップする単語(またはその代わりに単語列)を有するデータベース内で最長の単語列を見つけることによって選択され、第1言語文書全体が第2言語文書に翻訳されるまで、上の処理が継続される。
本発明は、クロス観念データベースを作成し、補足し、クロス観念データベースを使用して、第1の言語または状態の文書を第2の言語または状態に翻訳する方法および装置を提供する。本明細書で言及する文書は、ある媒体に固定された記号および文字によって表される、観念としての情報の集合である。たとえば、文書は、磁気媒体または光媒体に記憶された電子文書、あるいは本などの紙文書とすることができる。文書に含まれる記号および文字は、文書のユーザによる理解を意図された表現の1つまたは複数の体系を使用して表現された観念または情報を表す。本発明では、第1状態であるすなわち、表現の1つの体系で表現された情報を含む文書を操作して、第2状態であるすなわち、表現の第2の体系を使用して表現された実質的に同一の情報を含む文書を作る。したがって、本発明によって、表現の体系の間で、たとえば英語、ヘブライ語、広東語などの書かれた言語および話された言語を他の言語に、文書を操作または翻訳することができる。
データベース作成の方法および装置ならびに変換の方法および装置を含む本発明の詳細な説明を、これから説明する。
1.データベース作成の方法および装置
a.概要
本発明の方法では、文書内容の操作に、クロス観念データベースを利用する。図1に、クロス観念データベースの実施形態を示す。このクロス観念データベースの実施形態には、列1および2の関連するデータセグメントのリスティングが含まれる。データセグメントは、表現の体系での特定の観念または情報を表す文字のグループ化または記号である。したがって、列1の体系Aセグメントは、表現Aの仮定の体系でのさまざまな観念および観念の組合せDa1、Da2、Da3、およびDa4を表すデータセグメントである。列2の体系Bセグメントは、データセグメントDb1、Db3、Db4、Db5、Db7、Db9、Db10、Db12であり、これは、表現Aの体系でのデータセグメントとの関連頻度によって順序付けられた、表現Bの仮定の体系でのさまざまな観念および観念の組合せの一部を表す。列3に、直接頻度(Direct Frequency)が示されており、これは、言語Bの1つまたは複数のセグメントが言語Aのリストされたセグメント(1つまたは複数)に関連する回数である。列4に、減算後の頻度が示されており、これは、後で詳細に説明するように、言語Bのデータセグメント(1つまたは複数)がより大きいセグメントの一部として関連した回数を引いた後の、そのセグメントが言語Aのセグメント(1つまたは複数)に関連した回数を表す。
1.データベース作成の方法および装置
a.概要
本発明の方法では、文書内容の操作に、クロス観念データベースを利用する。図1に、クロス観念データベースの実施形態を示す。このクロス観念データベースの実施形態には、列1および2の関連するデータセグメントのリスティングが含まれる。データセグメントは、表現の体系での特定の観念または情報を表す文字のグループ化または記号である。したがって、列1の体系Aセグメントは、表現Aの仮定の体系でのさまざまな観念および観念の組合せDa1、Da2、Da3、およびDa4を表すデータセグメントである。列2の体系Bセグメントは、データセグメントDb1、Db3、Db4、Db5、Db7、Db9、Db10、Db12であり、これは、表現Aの体系でのデータセグメントとの関連頻度によって順序付けられた、表現Bの仮定の体系でのさまざまな観念および観念の組合せの一部を表す。列3に、直接頻度(Direct Frequency)が示されており、これは、言語Bの1つまたは複数のセグメントが言語Aのリストされたセグメント(1つまたは複数)に関連する回数である。列4に、減算後の頻度が示されており、これは、後で詳細に説明するように、言語Bのデータセグメント(1つまたは複数)がより大きいセグメントの一部として関連した回数を引いた後の、そのセグメントが言語Aのセグメント(1つまたは複数)に関連した回数を表す。
図1からわかるように、単一のセグメント、たとえばDa1が、複数のセグメントすなわち、Db3およびDb4と一緒のDb1と最も適切に関連することがありえる。データセグメントの間の減算後の頻度(本明細書で説明する)が高いほど、体系Aのセグメントが体系Bのセグメントと同等である確率が高くなる。出現の総数によって調整された頻度を測定するほかに、調整された頻度を、たとえば、特定の体系Aセグメントが特定の体系Bセグメントに対応した回数の比率を計算することによって、測定することもできる。データベースが、文書の翻訳に使用されるときに、最高のランクの関連するセグメントが、処理の最初にデータベースから検索される。しかし、翻訳の関連するセグメントの組合せをテストするのに使用される方法によって(後で説明する)、テストの後でより高いランクの関連を使用できないので、異なるより低いランクの関連をテストしなければならないと判定されることがしばしばである。たとえば、Da1に関する関連についてデータベースに照会する場合に、データベースは、Db1+Db3+Db4を返す。Db1+Db3+Db4が、翻訳のために実際にデータセグメントを組み合わせる処理によって使用不能と判定される場合に、データベースは、翻訳に関する別の関連セグメントとの正確な組合せに関するテストのために、Db9+Db10を返す。
一般に、本発明のクロス観念データベースを作成する方法には、平行テキスト(Parallel Text)または同等テキスト(Comparable Text)の検査および操作が含まれる。本発明の方法および装置は、2つの状態にまたがる関連すなわち正確な変換、またはより具体的にはある状態で表現された概念と別の状態で表現された概念との間の関連に関してデータベースが作成されるように使用される。2つの状態の間の翻訳および他の関連する連合は、本発明によって文書が検査され、操作されるにつれて強くなる、すなわち、頻度が高まり、十分に大きい「サンプル」の文書に対する動作によって、最も一般的な(および、ある意味で正しい)関連が、明白になり、この方法および装置が、変換に使用できるようになる。
本発明の一実施形態では、2つの状態によって、単語の言語(たとえば、英語、ヘブライ語、中国語など)が表され、本発明によって、ある言語の単語および単語列を第2言語の翻訳相当物に相関させるクロス言語データベースが作成される。単語列は、連続する隣接する単語のグループとして定義することができ、単語列には、しばしば、言語の表現で使用される句読点および他の記号が含まれる。この例では、本発明によって、2つの言語の文書を検査し、両方の言語で再起する単語または単語列ごとに翻訳のデータベースを作成することによって、データベースが作成される。しかし、本発明を、言語翻訳に制限する必要はない。本発明を用いると、ユーザが、観念のデータベースを作成でき、これらの観念を他の異なる観念に階層的な形で関連付けられるようになる。したがって、観念が、他の観念に関連付けられ、出現の頻度に従ってレーティングされる。出現頻度に与えられる特定の重みおよびこのように作成されるデータベースに適用される使用は、ユーザの要件に応じて変更することができる。
たとえば、ある言語から別の言語へのテキストの翻訳に関して、本発明は、英語と中国語の間の単語および単語列の言語翻訳を生成するように動作する。本発明によって、2つの言語にまたがる単語および単語列の間の関連のランキングが返される。十分に大きいサンプルサイズを与えられれば、最も頻繁に出現する単語および単語列が、英語の単語または単語列の中国語の同等物の1つになる。しかし、本発明では、英語の単語または単語列に関する他の中国語関連も返され、ユーザは、これらの関連を望み通りに操作することができる。たとえば、単語「mountain」が、本発明に従って操作されるときに、検査されている言語中の中国語の単語または単語列のリストを返すことができる。単語「mountain」の中国語の同等物は、最高のランキングになる可能性が最も高いが、本発明では、「snow」、「ski」、「a dangerous sport」、「the highest point in the world」、または「Mt.Everest」など、「mountain」に関連する他の外国語の単語または単語列が返される。これらの単語および単語列は、「mountain」の翻訳よりもランキングが低い可能性が高いが、ユーザが望み通りに操作することができる。したがって、本発明は、自動化された関連データベースクリエータ(creator)である。最も強い関連が、1つの意味の「翻訳」または「変換」を表すが、他の頻繁な(弱い)関連が、検査される観念に密に関連する観念を表す。したがって、このデータベースを、当技術分野で周知の人工知能アプリケーションを使用するアプリケーションによって使用することができる。これらのシステムでは、現在、アプリケーションの「ニューラルネットワーク」として、不完全な手作業で作成された観念データベースまたは存在論が使用されている。
本発明のもう1つの実施形態では、従来技術で簡単に入手可能なタイプのパーソナルコンピュータシステムなどのコンピューティングデバイスが使用される。コンピューティングデバイスは、通常は、一般的なパーソナルコンピュータ(独立型またはネットワーク環境内のいずれか)であるが、PDA、無線デバイス、サーバ、メインフレーム、および類似物などの他のコンピューティングデバイスが、同様に企図されている。しかし、本発明の方法および装置は、そのようなコンピューティングデバイスを使用することを必要とせず、クロス関連の手作業の作成を含めて、他の手段によって簡単に達成することができる。文書の「サンプル」を増補し、クロス関連データベースを作成するために連続する文書を検査する方法は、さまざまであり、文書を、自動給紙(当技術分野で周知の自動紙ローダなど)によって、またはウェブクローラなどの関連文書を自動的に探し出すインターネット上の検索技法を使用することによって、分析および手作業での操作のためにセットアップすることができる。
本発明では、平行テキストに加えて(またはその代わりに)同等テキストを検査することによって、関連するデータベースを作ることができることに留意されたい。さらに、この方法では、ある言語の再起する単語または単語列を検索するときに、すべての使用可能な文書を集合的に調べる。
b.データベースの作成
本発明によれば、データベースを作成するために、文書が検査される。文書入力(やはり、2つの異なる言語で同一のテキストを表す文書の対の)の後に、本明細書に記載の方法および/または装置を使用する作成処理が開始される。
本発明によれば、データベースを作成するために、文書が検査される。文書入力(やはり、2つの異なる言語で同一のテキストを表す文書の対の)の後に、本明細書に記載の方法および/または装置を使用する作成処理が開始される。
例示のために、2つの異なる言語の文書に同一の内容(または、一般的な意味で観念)が含まれると仮定する。文書Aは言語A、文書Bは言語Bで書かれている。これらの文書は、下記のテキストを有する。
本発明の第1ステップは、単語範囲を計算して、所与の単語または単語列の可能な関連の近似位置を判定することである。クロス言語逐語分析(cross−language word−to−word analysis)だけでは、生産的な結果が得られず(すなわち、文書Aの単語1が、しばしば、文書Bの単語1の文字通りの翻訳として存在しない)、ある言語の文の構造が、別の言語の文の異なる位置(または順序)に同等の観念を有する場合があるので、本発明のデータベース作成技法では、第1言語の各単語または単語列を、第2言語文書の選択された「範囲」内にある単語または単語列のすべてに関連付ける。これは、ある言語で、ある観念が別の言語より長いまたはより短い単語列で表現されることがしばしばなので、重要である。範囲は、2つの文書を検査することによって判定され、第2の文書の単語および単語列を第1の文書の単語および単語列と比較するのに使用される。すなわち、第2文書の単語または単語列の範囲は、第1文書の各単語および単語列に関する可能な関連として検査される。範囲に対してテストすることによって、このデータベース作成技法では、第1言語の単語および単語列と同等であり、これに翻訳できる第2言語の単語または単語列の数が確立される。
第1言語文書の所与の単語または単語列に関する関連が探される、第2言語文書の範囲を確立するために判定しなけれればならない2つの属性がある。第1の属性は、範囲内の単語数によって測定される、第2文書での範囲の値またはサイズである。第2の属性は、範囲の中点の配置によって測定される、第2文書での範囲の位置である。どちらの属性もユーザ定義であるが、好ましい実施形態の例を下記に示す。範囲のサイズおよび位置を定義する際の目標は、分析される第1言語セグメントの、第2言語の単語または単語列の翻訳が含まれる確率を高くすることである。
文書の単語数に基づく鐘形曲線の導関数などの一般的な統計技法を含むさまざまな技法を使用して、範囲のサイズまたは値を決定することができる。鐘形曲線などの統計的技法を用いると、文書の先頭および末尾の範囲が、文書の中央の範囲より小さくなる。範囲の鐘形曲線形の頻度を用いると、文書内の単語の絶対数に従って、または文書内の単語のある比率に従ってのいずれかで導出される翻訳の外挿の適度な可能性が得られる。「ステップ」技法などの、範囲を計算する他の方法が存在し、「ステップ」技法では、単語のある比率に関してあるレベルに範囲が存在し、第2のより高いレベルが単語の他の比率に関して存在し、第3のレベルは、単語の残りの比率に関して第1レベルと等しい。やはり、すべての範囲属性を、ユーザ定義とするか、第1言語の分析される単語または単語列の有用な関連を取り込むという目標に関する他の可能なパラメータに従って確立することができる。
第2言語文書内の範囲の位置は、2つの文書内の単語数の間の比較に依存するものとすることができる。範囲位置に関して文書としての資格を有するものは、ユーザ定義であり、ニュース記事、本の章、および複数のデータセグメントからなる内容の他の離散的に識別可能な単位によって例が示される。2つの文書の単語数が、ほぼ等しい場合には、第2言語の範囲の位置は、第1言語の分析される単語または単語列の位置におおむね一致する。2つの文書の単語数が等しくない場合には、ある比率を使用して、範囲の位置を正しく位置決めすることができる。たとえば、文書Aが50単語を有し、文書Bが100単語を有する場合に、2つの文書の間の比は、1:2である。文書Aの中央点は、単語位置25である。しかし、文書Aの単語25が分析されている場合に、この中央点の位置(単語位置25)を文書Bの範囲の中央点の配置として使用することは、有効でない。というのは、この位置(単語位置25)が、文書Bの中央点ではないからである。そうではなく、文書Aの単語25の分析に関する文書Bの範囲の中央点は、2つの文書の間の単語数の比(すなわち25×2/1=50)によって、文書Bの中央点での手動の配置によって、または他の技法によって決定することができる。
文書内の単語または単語列の位置を調べ、上で説明した範囲に含まれるすべての単語または単語列に留意することによって、本発明のデータベース作成技法では、分析される第1文書の各単語または各単語列に翻訳できる第2言語文書内の単語または単語列の可能な組が返される。本発明のデータベース作成技法が使用されるときに、可能な翻訳の資格を与えられる単語および単語列の組は、関連頻度が展開されるにつれて狭められる。したがって、文書の対を検査した後に、本発明によって、ある言語の単語および単語列の、第2言語の単語または単語列との関連頻度が作成される。本発明に従って複数の文書対を検査した後(したがって、多数のサンプルが作成された後)に、クロス言語関連データベース作成技法によって、ある単語または単語列のますます高くなる関連頻度が返される。十分に多数のサンプルの後に、最高の関連頻度によって、可能な翻訳がもたらされる。もちろん、関連頻度が正確な翻訳とみなされる最終的な点は、ユーザ定義であり、他の解釈的翻訳技法(参照によって本明細書に組み込まれる2001年3月16日出願の「Method and Apparatus for Content Manipulation」という名称の米国特許出願第60/276107号明細書に記載のものなど)の対象である。
上で示したように、本発明では、単語だけではなく、単語の列(複数の単語)もテストする。上で述べたように、単語列には、出現するすべての句読点および他の記号が含まれる。第1言語の単一の単語を分析した後に、本発明のデータベース作成技法では、2単語の単語列を分析し、次に3単語の単語列を分析し、増分的な形で分析を続ける。この技法によって、しばしば発生する、別の言語でより短いまたはより長い単語列(または単語)に翻訳される、ある言語の単語または単語列の翻訳が可能になる。単語または単語列が、第1の言語のすべての使用可能な文書に1回だけ現れる場合には、本発明の処理は、即座に次の単語または単語列の分析に進み、分析サイクルをもう一度行う。この分析は、すべての使用可能な平行テキストおよび同等テキストに第1言語で複数出現するすべての単語または単語列が分析されたときに停止する。
ある意味で、複数の文書が、集約され、この複数の文書を、単語または単語列の再起を探すために単一の文書として扱うことができる。本質的に、単語または単語列が繰り返されないためには、その単語または単語列が、すべての使用可能な平行テキストおよび同等テキストに1回だけ現れなければならない。さらに、もう1つの実施形態として、すべての使用可能な平行テキストおよび同等テキストに複数回現れるか否かに無関係に、すべての単語および単語列に対応する範囲を調べることが可能である。もう1つの実施形態として、照会の一部である特定の単語および単語列を解決することによって、データベースを作成することができる。翻訳のために単語または単語列が入力されるときに、本発明では、ウェブクローラおよび他のデバイスを使用してインターネット上でクロス言語テキストを突き止めることと、最後に、照会の分析に基づく欠けている関連および十分な使用可能なクロス言語材料の欠如を埋め合わせるようにユーザに求めることによって、まだ分析されていない、メモリに記憶されたクロス言語文書の単語または単語列の複数の出現を見つけることができる。
したがって、本発明は、単語の正しい位置(その単語列での)に依存する単語列を分析する形で動作し、単語選択の文脈ならびに語法、文体、または省略などの文法的特異性を考慮に入れる形で動作することができる。これらの単語列関連は、本明細書で説明する形での翻訳プロセスを提供する二重オーバーラップ翻訳技法にも有用である。
より大きい単語列のサブセットの単語または単語列が、より大きい単語列の関連として一貫性のある形で返される状況に、本発明が適応できることに留意することが重要である。本発明では、頻度戻り値を操作することによって、これらのパターンを考慮に入れる。たとえば、固有名詞は、時々、完全に提示される(「John Doe」のように)、姓または名によって省略される(「John」または「Doe」)、または別の形で省略される(「Mr. Doe」)。本発明は、単語列を構成する単語が必ず個別にカウントされると同時に句の一部としてカウントされるので、単語列戻り値よりも個々の単語戻り値を返す可能性が高い(すなわち、フルネームの単語列「John Doe」よりも姓または名の戻り値が多い)ので、ランキングを変更する機構を使用しなければならない。たとえば、どの文書でも、名前「John Doe」が100回出現し、「John」が、単独でまたはJohn Doeの一部として120回出現し、「Doe」が、単独でまたはJohn Doeの一部として110回出現する場合がある。通常の翻訳戻り値(本発明による)では、単語列「John Doe」の分析を試みるときに、ランク「John」が、「Doe」より高く、この両方の単語が、単語列「John Doe」より高い。より長い単語列の出現の数をサブセット(または個々の戻り値)の出現から引くことによって、正しい順序付けを達成することができる(もちろん、他の方法を使用して類似する結果を得ることができる)。したがって、120(単語「John」の出現回数)から100(「John Doe」の出現回数)を引くことによって、「John」の正しい戻り値が、20になる。この分析を適用することによって、単語列「John Doe」の出現回数として100(この単語列の分析し、翻訳を試みるときに)、単語「John」の出現回数として20、単語列「Doe」の出現回数として10が作られ、正しい関連が作成される。
この問題が、固有名詞に制限されず、一般的な句および多数の異なる文脈でしばしば発生することに留意されたい。たとえば、単語列「I love you」が、別の言語の最も頻繁な単語列関連に翻訳されるたびに、他の言語の「love」の単語が、そのたびに独立に関連付けられる可能性がある。さらに、この単語列が、分析される他のテキストで異なる形で翻訳されるときに、単語「love」が、やはり関連付けられる可能性がある。これによって、分析が歪められ、第1言語の「I love you」の翻訳について、第2言語の「I love you」ではなく第2言語の「love」が返される。したがって、やはり、このシステムでは、より長い列の関連をランキングするときに、すべてのサブセット関連の頻度から、より長い単語列関連の出現回数を引く。この概念が、図1にも反映されている。
さらに、データベースに、「it」、「an」、「a」、「of」、「as」、「in」などの一般的な単語または任意の一般的な単語を、単語および単語列の関連頻度をカウントするときに無視するように指示することができる。これによって、そうでなければ所与の範囲の一部としての一般的な単語の出現によって歪められる真の関連頻度の数が、より正確に反映されるようになる。これによって、本発明の関連データベース作成技法によって、過度の減算計算なしに分析が歪められなくなる。これらまたは他の一般的な単語が関連データベースから「減算」されない場合に、本明細書で詳細に説明する二重オーバーラッププロセスによってそれらが受け入れられないので、それらが、最終的に、適切でなければ翻訳として承認されなくなることに留意されたい。
関連頻度を調整する他の計算を行って、単語および単語列の共通する出現の数の正確な反映を保証できることに留意されたい。たとえば、二重カウントを防ぐ調整は、分析される単語の範囲がオーバーラップするときに適切である可能性がある。調整は、このような場合に、より正確な関連頻度を構築するために望ましい。本発明によるクロス観念データベースを作成し補足する方法および装置の実施形態の例を、これから、上で説明した2つの文書を例として使用して説明する。前の表をもう一度示す。
この実施形態では、単一の文書のみの再起する単語および単語列に焦点を合わせるが、これが主に例示のためであることにもう一度留意されたい。再起する単語および単語列は、すべての使用可能な平行テキストおよび同等テキストを全体として使用して分析される。
上にリストした2つの文書(第1の言語のAと第2の言語のB)を使用すると、データベース作成技法について下記のステップが行われる。
ステップ1。まず、範囲のサイズおよび位置を決定する。上で示したように、サイズおよび位置は、ユーザ定義とすることができ、あるいは、さまざまな方法によって近似することができる。この2つの文書の単語カウントは、ほぼ等しく(文書Aで10単語、文書Bで8単語)、したがって、範囲の中央点を、文書Aの単語または単語列の位置に一致するように配置することができる(注:文書の間の単語カウントの比が、80%なので、その代わりに、範囲の位置を分数4/5を適用することによって確立することができる)。この例では、3の範囲サイズまたは値によって、鐘形曲線を近似する最もよい結果をもたらすことができる。範囲は、文書の先頭および末尾で(±)1、中央で(±)2になる。しかし、上で示したように、範囲(または範囲を決定するのに使用される方法)は、完全にユーザ定義である。
ステップ1。まず、範囲のサイズおよび位置を決定する。上で示したように、サイズおよび位置は、ユーザ定義とすることができ、あるいは、さまざまな方法によって近似することができる。この2つの文書の単語カウントは、ほぼ等しく(文書Aで10単語、文書Bで8単語)、したがって、範囲の中央点を、文書Aの単語または単語列の位置に一致するように配置することができる(注:文書の間の単語カウントの比が、80%なので、その代わりに、範囲の位置を分数4/5を適用することによって確立することができる)。この例では、3の範囲サイズまたは値によって、鐘形曲線を近似する最もよい結果をもたらすことができる。範囲は、文書の先頭および末尾で(±)1、中央で(±)2になる。しかし、上で示したように、範囲(または範囲を決定するのに使用される方法)は、完全にユーザ定義である。
ステップ2。次に、文書Aの最初の単語を調べ、文書Aに対してテストして、その文書でのその単語の出現回数を判定する。この例では、文書Aの最初の単語がXであり、Xは、文書Aで、位置1、4、および9に3回現れる。単語または単語列の位置番号は、単純にその単語または単語列の、他の単語に関する文書内の位置である。したがって、位置番号は、句読点を無視した文書内の単語の数に対応し、たとえば、文書に10個の単語があり、単語「king」が2回現れる場合に、単語「king」の位置番号は、単に、その単語が現れる場所(10個の単語のうちの)である。
単語Xは、この文書に複数回現れるので、この処理は、次のステップに進む。単語Xが1回だけ現れる場合には、その単語をスキップし、この処理は、次の単語に継続され、作成処理が継続される。
ステップ3。位置1の第1言語の単語Xの可能な第2言語の翻訳を返す:文書Bに範囲を適用することによって、文書Bの位置1および2(1+/−1)の単語すなわちAAおよびBB(文書Bの位置1および2)がもたらされる。すべての可能な組合せすなわちAA、BB、およびAA BB(単語列組み合わせとして)が、Xの可能な翻訳または関係する関連として返される。したがって、X1(単語Xの最初の出現)によって、関連としてAA、BB、およびAA BBが返される。
ステップ4。単語Xの次の位置を分析する。この単語(X2)は、位置4に出現する。位置4は、文書の中央付近なので、範囲(上で説明した)は、位置4の両側2単語になる。文書Bの単語4を調べ、範囲(+/−)2を適用することによって、可能な関連が返され、したがって、単語4の前の2単語および単語4の後の2単語が返される。したがって、位置2、3、4、5、および6の単語が返される。これらの位置は、文書Bの単語BB、CC、AA、EE、およびFFに対応する。これらの単語(およびその組み合わされた単語列)のすべての順方向の順列を検討する。したがって、X2によって、可能な関連としてBB、CC、AA、EE、FF、BB CC、BB CC AA、BB CC AA EE、BB CC AA EE FF、CC AA、CC AA EE、CC AA EE FF、AA EE、AA EE FF、およびEE FFが返される。
ステップ5。Xの最初の出現(位置1)の戻り値を、Xの第2の出現(位置4)の戻り値と比較し、一致を判定する。2つの範囲のオーバーラップに出現する同一の単語または単語列を含む戻り値を、単一の出現に減らさなければならないことに留意されたい。たとえば、この例では、位置2の単語が、BBである。これは、Xの第1の出現(範囲によって操作される時)およびXの第2の出現(範囲によって操作される時)の両方で返される。この同一の単語位置が、X1およびX2の両方について返されるので、この単語が、1つの出現としてカウントされる。しかし、同一の単語が、オーバーラップする範囲の2つの異なる単語位置から返される場合には、その単語を、2回カウントし、関連頻度を記録する。この場合に、単語Xの戻り値はAAである。というのは、単語(AA)が、X1およびX2の両方の関連戻り値であるからである。両方の関連に出現する他の単語がBBであるが、上で説明したように、その単語は、Xの第1および第2の出現の範囲の操作によって達する同一位置(したがって同一単語)なので、破棄することができることに留意されたい。
ステップ6。単語Xの次の位置(位置9)(X3)を分析する。(+/−)1の範囲(文書の末尾付近)を適用することによって、文書Bの位置8、9、および10の関連が返される。文書Bは、8つの位置だけを有するので、結果が切り捨てられ、単語位置8すなわちCCだけが、Xの可能な値として返される(注:その代わりに、ユーザ定義パラメータによって、分析の一部として少なくとも2文字を要求することができ、この場合には、位置8および次に近い位置(位置7のGG)が返される)。
X3の戻り値をX1の戻り値と比較することによって、一致がなく、したがって関連がないことがわかる。
ステップ7。単語Xの次の位置を分析する。しかし、文書Aには単語Xのこれ以上の出現がない。この時点で、言語Aの単語Xについて、言語Bの単語AAに対する1の関連頻度が確立される。
ステップ7。単語Xの次の位置を分析する。しかし、文書Aには単語Xのこれ以上の出現がない。この時点で、言語Aの単語Xについて、言語Bの単語AAに対する1の関連頻度が確立される。
ステップ8。単語Xがこれ以上出現しないので、この処理は、1単語だけ増分され、単語列をテストする。この場合に、検査される単語列は、文書Aの最初の2単語、「X Y」である。ステップ2から7で説明したものと同一の技法を、この句に適用する。
ステップ9。文書Aを調べることによって、単語列X Yが1回だけ出現することがわかる。この時点で、増分処理が停止し、データベース作成は行われない。終点に達したので、次の単語を検査する(この処理は、単語列について一致が発生しないときに必ず行われる)。この場合には、文書Aの位置2の単語が、「Y」である。
ステップ10。単語「Y」についてステップ2から7の処理を適用することによって、下記が得られる。単語Yの2つの出現(位置2および7)が存在し、したがって、データベース作成処理が継続される(やはり、Yが文書Aに1回だけ出現する場合には、Yは検査されない)。
位置2の範囲のサイズは、(+/−)1単語である。
文書Bに範囲を適用することによって(位置2、単語Yの最初の出現の位置)、文書Bの位置1、2、および3の結果が返される。
この返された位置にある対応する外国語単語は、AA、BB、およびCCである。
順方向の順列を適用することによって、Y1の可能性すなわち、AA、BB、CC、AA BB、AA BB CC、およびBB CCが得られる。
Yの次の位置(位置7)を分析する。
位置7の範囲のサイズは(+/−)2単語である。
その範囲を文書B(位置7)に適用することによって、位置5、6、7、および8での結果すなわちEE FF GGおよびCCが返される。
すべての順列によって、Y2の可能性すなわち、EE、FF、GG、CC、EE FF、EE FF GG、EE FF GG CC、FF GG、FF GG CC、およびGG CCが得られる。
Y1からの結果を突き合わせることによって、唯一の一致としてCCが返される。
Y1およびY2の一致を組み合わせることによって、Yの関連頻度としてCCが得られる。
位置2の範囲のサイズは、(+/−)1単語である。
文書Bに範囲を適用することによって(位置2、単語Yの最初の出現の位置)、文書Bの位置1、2、および3の結果が返される。
この返された位置にある対応する外国語単語は、AA、BB、およびCCである。
順方向の順列を適用することによって、Y1の可能性すなわち、AA、BB、CC、AA BB、AA BB CC、およびBB CCが得られる。
Yの次の位置(位置7)を分析する。
位置7の範囲のサイズは(+/−)2単語である。
その範囲を文書B(位置7)に適用することによって、位置5、6、7、および8での結果すなわちEE FF GGおよびCCが返される。
すべての順列によって、Y2の可能性すなわち、EE、FF、GG、CC、EE FF、EE FF GG、EE FF GG CC、FF GG、FF GG CC、およびGG CCが得られる。
Y1からの結果を突き合わせることによって、唯一の一致としてCCが返される。
Y1およびY2の一致を組み合わせることによって、Yの関連頻度としてCCが得られる。
ステップ11。範囲増分の終り:単語Yに関する唯一の可能な一致(単語CC)が、Yの第1の出現の範囲の末尾に出現する(CCは、文書Bの位置3に出現する)ので、範囲を第1の出現の位置で1つ増分することによって、位置1、2、3、および4すなわちAA、BB、CC、およびAA、または順方向の順列AA、BB、CC、AA BB、AA BB CC、AA BB CC AA、BB CC、BB CC AA、およびCC AAが返される。この結果を適用することによって、Yの可能な翻訳としてCCが得られる。返された一致が最初の出現(「Y」のベース出現)の範囲の末尾にあったので、範囲が増分されたことに留意されたい。このパターンが範囲の終りに出現するときには、必ず、完全さを保証するサブステップ(または代替ステップ)として、増分が行われる。
ステップ12。文書Aには「Y」のこれ以上の出現がないので、この分析では、文書Aで1単語増分し、単語列「Y Z」を検査する(単語Yの後の次の単語)。次の列(Y Z)に増分し、この処理を繰り返すことによって、下記が得られる。
単語列Y Zは、文書Aに2回、位置2および7に出現する。第1の出現(Y Z1)のY Zの可能性は、AA、BB、CC、AA BB、AA BB CC、およびBB CCである(その代わりに、言語Aで分析される単語列が長くなる時の範囲のサイズの拡張を含む範囲パラメータを定義できることに留意されたい)。
第2の出現(Y Z2)でのY Zの可能性は、EE、FF、GG、CC、EE FF、EE FF GG、EE FF GG CC、FF GG、FF GG CC、およびGG CCである。
突合せによって、単語列Y Zの可能な関連としてCCが得られる。
範囲の拡張(範囲の末尾の増分)によって、Y Zに関して、AA、BB、CC、AA BB、AA BB CC、AA BB CC AA、BB CC、BB CC AA、およびCC AAが得られる。
この結果を適用することによって、やはり単語列Y Zの関連頻度としてCCが得られる。
単語列Y Zは、文書Aに2回、位置2および7に出現する。第1の出現(Y Z1)のY Zの可能性は、AA、BB、CC、AA BB、AA BB CC、およびBB CCである(その代わりに、言語Aで分析される単語列が長くなる時の範囲のサイズの拡張を含む範囲パラメータを定義できることに留意されたい)。
第2の出現(Y Z2)でのY Zの可能性は、EE、FF、GG、CC、EE FF、EE FF GG、EE FF GG CC、FF GG、FF GG CC、およびGG CCである。
突合せによって、単語列Y Zの可能な関連としてCCが得られる。
範囲の拡張(範囲の末尾の増分)によって、Y Zに関して、AA、BB、CC、AA BB、AA BB CC、AA BB CC AA、BB CC、BB CC AA、およびCC AAが得られる。
この結果を適用することによって、やはり単語列Y Zの関連頻度としてCCが得られる。
ステップ13。「Y Z」のこれ以上の出現が文書Aに存在しないので、この分析では、文書Aで1単語増分し、単語列「Y Z X」(文書Aの位置3の単語Zの次の単語)を検査する。次の単語列(Y Z X)に増分し、この処理を繰り返す(Y Z Xは、文書Aに2回出現する)ことによって、下記が得られる。
Y Z Xの第1の出現の戻り値は、位置2、3、4、および5である。
順列は、BB、CC、AA、EE、BB CC、BB CC AA、BB CC AA EE、CC AA、CC AA EE、およびAA EEである。
Y Z Xの第2の出現の戻り値は、位置5、6、7、および8である。
順列は、EE、FF、GG、CC、EE FF、EE FF GG、EE FF GG CC、FF GG、FF GG CC、およびGG CCである。
この2つを比較することによって、単語列Y Z Xの関連頻度としてCCが得られる。やはり、可能な関連としてのEEの戻り値が、両方の場合に同一の単語(すなわち同一位置)で発生するので、破棄されることに留意されたい。
Y Z Xの第1の出現の戻り値は、位置2、3、4、および5である。
順列は、BB、CC、AA、EE、BB CC、BB CC AA、BB CC AA EE、CC AA、CC AA EE、およびAA EEである。
Y Z Xの第2の出現の戻り値は、位置5、6、7、および8である。
順列は、EE、FF、GG、CC、EE FF、EE FF GG、EE FF GG CC、FF GG、FF GG CC、およびGG CCである。
この2つを比較することによって、単語列Y Z Xの関連頻度としてCCが得られる。やはり、可能な関連としてのEEの戻り値が、両方の場合に同一の単語(すなわち同一位置)で発生するので、破棄されることに留意されたい。
ステップ14。次の単語列(Y Z X W)に増分すると、1つの出現だけが見つかる。したがって、単語列データベース作成は、完了し、次の「単語」Z(文書Aの位置3)を検査する。
ステップ15。上で説明したステップをZ(文書Aに3回出現する)に関して適用することによって、下記が得られる。
Z1の戻り値は、AA、BB、CC、AA、EE、AA BB、AA BB CC、AA BB CC AA、AA BB CC AA EE、BB CC、BB CC AA、BB CC AA EE、CC AA、CC AA EE、およびAA EEである。
Z2の戻り値は、FF、GG、CC、FF GG、FF GG CC、およびGG CCである。
Z1とZ2を比較することによって、Zの関連頻度としてCCが得られる。
Z3(位置10)は、定義された範囲内の戻り値を有しない。しかし、言語Aの単語または単語列のそれぞれについて少なくとも1つの戻り値が存在しなければならないというパラメータを追加すると、Zの戻り値はCCになる。
Z1の戻り値は、AA、BB、CC、AA、EE、AA BB、AA BB CC、AA BB CC AA、AA BB CC AA EE、BB CC、BB CC AA、BB CC AA EE、CC AA、CC AA EE、およびAA EEである。
Z2の戻り値は、FF、GG、CC、FF GG、FF GG CC、およびGG CCである。
Z1とZ2を比較することによって、Zの関連頻度としてCCが得られる。
Z3(位置10)は、定義された範囲内の戻り値を有しない。しかし、言語Aの単語または単語列のそれぞれについて少なくとも1つの戻り値が存在しなければならないというパラメータを追加すると、Zの戻り値はCCになる。
Z3の戻り値をZ1と比較すると、単語Zの関連頻度としてCCが得られる。しかし、この関連はカウントされない。というのは、単語位置8のCCが、上のZ2の関連で既に考慮されているからである。オーバーラップする範囲によって、この処理で、ある出現の二重カウントが発生するときには、システムは、関連頻度を減らして、真の出現の回数をより正確に反映することができる。
ステップ16。次の単語列に増分することによって、単語列Z Xが得られ、これは、文書Aに2回出現する。上で説明したステップをZ Xに関して適用することによって、下記が得られる。
Z X1の戻り値は、BB、CC、AA、EE、FF、BB CC、BB CC AA、BB CC AA EE、BB CC AA EE FF、CC AA、CC AA EE、CC AA EE FF、AA EE、AA EE FF、およびEE FFである。
Z X2の戻り値は、FF、GG、CC、FF GG、FF GG CC、およびGG CCである。
戻り値を比較することによって、単語列Z XとCCの間の関連が得られる。
Z X1の戻り値は、BB、CC、AA、EE、FF、BB CC、BB CC AA、BB CC AA EE、BB CC AA EE FF、CC AA、CC AA EE、CC AA EE FF、AA EE、AA EE FF、およびEE FFである。
Z X2の戻り値は、FF、GG、CC、FF GG、FF GG CC、およびGG CCである。
戻り値を比較することによって、単語列Z XとCCの間の関連が得られる。
ステップ17。増分することによって、次の句はZ X Wになる。これは1回だけ出現するので、文書Aの次の単語(X)を調べる。
ステップ18。単語Xは、最初の位置で既に検査されている。しかし、単語Xの第2位置は、他方の文書に関して、単語Xの可能な戻り値について検査されていない。したがって、単語X(第2位置の)を、単語Xの第1の出現と同様に操作して、文書内で前に進む。
位置4のXの戻り値は、BB、CC、AA、EE、FF、BB CC、BB CC AA、BB CC AA EE、BB CC AA EE FF、CC AA、CC AA EE、CC AA EE FF、AA EE、AA EE FF、およびEE FFになる。
位置9のXの戻り値は、CCになる。
位置9の結果を位置4の結果と比較することによって、単語Xの可能な一致としてCCが得られ、関連頻度が与えられる。
ステップ18。単語Xは、最初の位置で既に検査されている。しかし、単語Xの第2位置は、他方の文書に関して、単語Xの可能な戻り値について検査されていない。したがって、単語X(第2位置の)を、単語Xの第1の出現と同様に操作して、文書内で前に進む。
位置4のXの戻り値は、BB、CC、AA、EE、FF、BB CC、BB CC AA、BB CC AA EE、BB CC AA EE FF、CC AA、CC AA EE、CC AA EE FF、AA EE、AA EE FF、およびEE FFになる。
位置9のXの戻り値は、CCになる。
位置9の結果を位置4の結果と比較することによって、単語Xの可能な一致としてCCが得られ、関連頻度が与えられる。
ステップ19。次の単語列に増分する(文書内で前を調べると、Xの第2の出現との比較に関してXのこれ以上の出現がないので)ことによって、単語列XWが得られる。しかし、この単語列は、文書Aに複数回出現しないので、この処理は、次の単語(W)の検査に移る。単語「W」は、文書Aに1回だけ出現し、したがって、増分が行われるが、単語「W」が1回だけ現れるので、次の単語列ではなく、文書Aの次の単語「V」に移る。単語「V」は、文書Aに1回だけ出現し、したがって、次の単語(Y)が検査される。単語「Y」は、文書Aの位置7より先の位置に出現しないので、次の単語(Z)を検査する。単語「Z」は、位置8の後に、位置10にも現れる。
ステップ20。単語Zの第2の出現に関して上で説明した処理を適用することによって、下記が得られる。
位置8のZの戻り値は、GG、CC、およびGG CCになる。
位置10のZの戻り値は、CCになる。
位置10の結果を位置8と比較することによって、単語Zの関連は作られない。
位置8のZの戻り値は、GG、CC、およびGG CCになる。
位置10のZの戻り値は、CCになる。
位置10の結果を位置8と比較することによって、単語Zの関連は作られない。
やはり、単語CCが、可能な関連として返されるが、CCは、位置8のZと位置10のZの分析によって達する同一の単語位置なので、この関連は破棄される。
ステップ21。1単語だけ増分することによって、単語列Z Xが得られる。この単語列は、文書Aの他の(先の)位置に現れないので、この処理は、文書Aの次の単語「X」で改めて開始される。単語Xは、文書Aの他の(先の)位置に現れないので、処理を改めて開始する。しかし、文書Aの終りに達しており、分析が停止する。
ステップ21。1単語だけ増分することによって、単語列Z Xが得られる。この単語列は、文書Aの他の(先の)位置に現れないので、この処理は、文書Aの次の単語「X」で改めて開始される。単語Xは、文書Aの他の(先の)位置に現れないので、処理を改めて開始する。しかし、文書Aの終りに達しており、分析が停止する。
ステップ22。最後の関連頻度を、表にし、上記からのすべての結果を組み合わせ、前に説明したように重複を減算する。
明らかに、文書Aの単語および単語列に関する結論的な結果を返すのに十分なデータがない。上で検査された関連を有する単語および単語列を含むより多くの文書対が検査されるときに、関連頻度が、統計的に信頼性が高まり、言語AおよびBの間の単語または単語列によって、単語または単語列の可能な翻訳に関する強い関連が作られる。
明らかに、文書Aの単語および単語列に関する結論的な結果を返すのに十分なデータがない。上で検査された関連を有する単語および単語列を含むより多くの文書対が検査されるときに、関連頻度が、統計的に信頼性が高まり、言語AおよびBの間の単語または単語列によって、単語または単語列の可能な翻訳に関する強い関連が作られる。
データベース作成方法の実施形態の例として、当技術分野で周知のタイプのコンピュータシステムに関する動作が、下記のプログラムである。
上で示したように、この実施形態は、関連を作成するのに使用される技法を表す。本発明の技法は、言語変換に制限する必要がない。広義の意味で、この技法は、本質において、異なる単語または単語列によって表される同一概念の対にされた関連として外国語翻訳が単純に存在する、関連付けることができる同一の観念の2つの表現に適用される。したがって、本発明は、すべての感覚(音、視覚、においなど)経験を表すことができる観念を含む、データ、サウンド、音楽、ビデオ、または観念として存在する広い範囲の概念の関連付けに適用することができる。必要なものは、本発明によって2つの実施形態(実施形態が文書の場合には言語翻訳で、音楽の場合は、実施形態を、楽譜のディジタル表現、同一の作曲を表すサウンド周波数などとすることができる)を分析することだけである。
もう1つの実施形態では、当技術分野で周知の、ある規則に基づくアルゴリズムを、クロス言語関連学習に組み込んで、名前、番号、日付など、文脈および意味において交換可能である(時々、潜在的に無限の派生物を有することができる)あるクラスのテキストを扱うことができる。
さらに、使用可能なクロス言語文書が、翻訳に関する統計的に有意な結果を備えない場合には、ユーザが、翻訳および他の関連の可能な選択肢を調べ、適切な選択肢を承認し、ランクを付けることができる。
上で説明したように、翻訳された対のより多くの文書が関連頻度について分析されるにつれて、単語および単語列の間の関連頻度が強くなる。多くの言語対の文書が検査されるときに、本発明の方法および装置によって、互いに直接にではなく第3の言語に共通の関連を有する言語に基づいて、言語対の間の「演繹された関連」が満たされ始める。さらに、翻訳された文書が、複数の言語で存在するときに、すべての言語の間に唯一の共通する関連(翻訳である)が存在するまで、複数の言語にまたがって共通の関連戻り値を分析することができる。
演繹された関連は、各言語のテキストが第3の言語(1つまたは複数)での共通の定義を共有するときに、言語の対のテキストの間で作ることができる。テキストは、単語または句など、翻訳される文書の一部またはセグメントとすることができる。たとえば、言語Aの句「aa dd pz」を言語Bの句に直接に翻訳するのに十分なクロス言語テキストがない場合に、関連を演繹することに、この言語Aの句を、表4に示されているように、この翻訳を行うのに効率的なクロス言語テキストが存在する言語C、D、E、およびFのその句の翻訳と比較することを含めることができる。次に、言語C、D、E、およびFの「aa dd pz」の翻訳を、表5に示されているように、この翻訳を行うのに効率的なクロス言語テキストが存在する場合に、言語Bに翻訳することができる。言語Aの句「aa dd pz」と言語Bの句の間の関連の演繹に、さらに、言語C、D、E、およびFの「aa dd pz」の翻訳から翻訳された言語Bの句を比較することを含めることができる。「aa dd pz」の言語C、D、E、およびFの翻訳から翻訳された言語Bの句のいくつかが、同一になる場合があり、本発明のこの好ましい実施形態では、これらが、言語Aの句「aa dd pz」の正しい言語B翻訳を表す。表4からわかるように、言語Bへの言語C、D、およびFの翻訳によって、同一の言語Bの句が作られて、正しい言語Bの翻訳「UyTByM」が提供される。したがって、演繹された関連を、言語Aの句とその正しい言語B翻訳の間で作成することができる。言語Bへの言語Eの翻訳によって、同一でない言語Bの句ZnVPiOが作られる。これは、言語Eの句「153」が複数の意味を有すること、または言語Bの句UyTByMおよびZnVPiOが交換可能であることを示す可能性がある。
下記は、これらの言語のデータが本発明の実施形態で使用される方法を提供するコンピュータプログラム(当技術分野で周知のタイプのコンピュータシステムと共に動作する時の)の例である。
また、存在する状態での表現が、別の状態でのデータ点との人工的な特定の関連であり、データベースでカタログ化される場合に、この2つの状態の間の変換が可能である。たとえば、ある形態、状態、または言語で表される各「観念」が、電磁波(トーン)への関連を割り当てられる場合に、これによって、観念の「電磁表現」が作成される。所与の数の観念が、対応する電磁表現にエンコードされたならば、データ(観念の形での)を、電磁波に翻訳でき、通常の遠隔通信インフラストラクチャを介して一度に転送することができる。電磁波が宛先の機械に達したときに、その機械は、その波を別々の構成要素に合成し、関連(順序付けの指示、本明細書に記載の二重オーバーラップ技法の使用、および/または他の可能な方法と共に)を与えられれば、電磁表現によって表された個々の観念を提示する。
2.観念変換の方法および装置
本発明のもう1つの態様は、第1の状態、形態、または言語のデータを含む第1文書から、第2の状態、形態、または言語のデータを含む第2文書を作成し、第1および第2の文書が実質的に同一の観念または情報を表すという結果をもたらす方法および装置であって、クロス観念関連データベースを使用する方法および装置を提供することを対象とする。この翻訳方法のすべての実施形態で、ある状態から別の状態への観念の正確な翻訳を得るために、二重オーバーラップ技法が使用される。対照的に、従来技術の翻訳デバイスでは、個々の単語の翻訳に焦点を合わせるか、第1言語から第2言語への翻訳を実現する特殊な規則に基づくコードが使用される。本発明では、オーバーラップ技法を使用して、第2言語の単語または単語列を有機的に一緒に接続できるようにし、これらの単語および句が第2言語で書かれる正確な形での、正しい文脈での正確な翻訳にする。
本発明のもう1つの態様は、第1の状態、形態、または言語のデータを含む第1文書から、第2の状態、形態、または言語のデータを含む第2文書を作成し、第1および第2の文書が実質的に同一の観念または情報を表すという結果をもたらす方法および装置であって、クロス観念関連データベースを使用する方法および装置を提供することを対象とする。この翻訳方法のすべての実施形態で、ある状態から別の状態への観念の正確な翻訳を得るために、二重オーバーラップ技法が使用される。対照的に、従来技術の翻訳デバイスでは、個々の単語の翻訳に焦点を合わせるか、第1言語から第2言語への翻訳を実現する特殊な規則に基づくコードが使用される。本発明では、オーバーラップ技法を使用して、第2言語の単語または単語列を有機的に一緒に接続できるようにし、これらの単語および句が第2言語で書かれる正確な形での、正しい文脈での正確な翻訳にする。
本発明の実施形態では、データベース作成およびオーバーラップ技法の方法が、組み合わされて、正確な言語翻訳が提供される。言語は、あらゆるタイプの変換とすることができ、必ずしも話される/書かれる言語に制限されない。たとえば、変換に、コンピュータ言語、ASCIIなどの特定のデータ符号、および類似物を含めることができる。データベースは、動的である。すなわち、データベースは、内容が変換システムに入力されるときに増大し、翻訳システムが前に入力された内容を使用することが連続的に繰り返される。本発明の好ましい実施形態では、従来技術で簡単に使用可能なタイプのパーソナルコンピュータシステムなどのコンピューティングデバイスが使用される。しかし、このシステムは、そのようなコンピューティングデバイスである必要はなく、データベースの手動作成および変換方法を含む他の手段によって簡単に達成することができる。
本発明は、少なくとも表示手段、入力方法、および出力方法とプロセッサを有する一般的なコンピュータシステムで使用することができる。表示手段は、陰極線管、液晶ディスプレイ、フラットパネルディスプレイ、および類似物など、従来技術ですぐに使用可能なもののいずれかとすることができる。プロセッサ手段も、すぐに入手可能なもののいずれかとすることができ、コンピュータが本発明を実行するように動作できるようにする手段を提供するようにコンピューティング環境で使用される。最後に、入力方法は、クロス関連データベースを構築するための文書の入力を可能にするのに使用され、上で説明したように、ディジタル形式への変換のための特定の入力手段は、ユーザの必要に応じて変更することができる。
a.二重オーバーラップ技法を介する手動のデータベース作成および翻訳
単語および単語列の翻訳についてユーザに照会することならびに二重オーバーラップ技法を使用してセグメント翻訳を自動生成することによってクロス言語データベースが開発される、本発明による第1言語から第2言語に文書を翻訳する方法および装置の実施形態の例を、これから説明する。
単語および単語列の翻訳についてユーザに照会することならびに二重オーバーラップ技法を使用してセグメント翻訳を自動生成することによってクロス言語データベースが開発される、本発明による第1言語から第2言語に文書を翻訳する方法および装置の実施形態の例を、これから説明する。
好ましい実施形態の説明において、英語のデータがヘブライ語のデータに翻訳される例を使用する。この選択は、説明のみを目的とし、第1言語および第2言語の選択を制限することを意図されたものではない。
本発明の好ましい実施形態によれば、コンピュータシステムが、英語からヘブライ語への翻訳間の関連のデータベースを作成するように動作する。翻訳方法には、少なくとも下記のステップが含まれる。
第1に、英語のデータを、コンピュータシステムに入力する。
第2に、英語入力のすべての単語を、まず1単語ずつ検査する。データベースによって、ヘブライ語の既知の単語翻訳が返される。翻訳がデータベースに含まれない場合には、コンピュータシステムは、適切な翻訳を入力するようにユーザに問い合わせる形で動作する。したがって、データベースに、入力された英単語と同等のヘブライ語がない場合には、ユーザに、適切なヘブライ語の同等物を供給するように求める。ユーザは、翻訳を返し、前記変換をデータベースに入力する。後続の使用時に、コンピュータは、前の時点でユーザによって入力されたことによって翻訳が既知になる形でデータベースを操作する。したがって、第2ステップでは、入力データが、解析された状態(たとえば単語単位)で検査され、適切な翻訳が、返される(データベースの動作によって)か、データベースに入力される。
第2に、英語入力のすべての単語を、まず1単語ずつ検査する。データベースによって、ヘブライ語の既知の単語翻訳が返される。翻訳がデータベースに含まれない場合には、コンピュータシステムは、適切な翻訳を入力するようにユーザに問い合わせる形で動作する。したがって、データベースに、入力された英単語と同等のヘブライ語がない場合には、ユーザに、適切なヘブライ語の同等物を供給するように求める。ユーザは、翻訳を返し、前記変換をデータベースに入力する。後続の使用時に、コンピュータは、前の時点でユーザによって入力されたことによって翻訳が既知になる形でデータベースを操作する。したがって、第2ステップでは、入力データが、解析された状態(たとえば単語単位)で検査され、適切な翻訳が、返される(データベースの動作によって)か、データベースに入力される。
第3に、入力データが、解析されたセグメントを増分する形で検査される。たとえば、データが、まず単語単位で解析された場合に、本発明の翻訳方法では、次に、2単語の列を評価することによって入力を検査する。やはり、上で説明したものに類似する形で、データベースによって、既知の場合に2単語列の翻訳が返され、未知の場合には、翻訳システムは、すべての可能な2単語列の適切な翻訳を入力するようにユーザに問い合わせるように動作する。オーバーラップする2単語セグメントのすべてが、データベースに記憶される。たとえば、単語列が、4単語からなる場合に、データベースによって、メモリ内の翻訳された組合せ、1、2と2、3と3、4を有するかどうかが検査される。ない場合には、ユーザに問い合わせる。データベースに、上のステップ2によって各単語の定義が必ず含まれるが、2単語列について特にエンコードされた翻訳だけが、正確な翻訳として返されることに留意されたい。
第4に、2つのオーバーラップする2単語の英語列のヘブライ翻訳が、オーバーラップする単語(1つまたは複数)を有する場合に、このシステムは、オーバーラップするセグメントを組み合わせる形で動作する。オーバーラップ内の冗長なヘブライ語セグメントを除去して、2つのオーバーラップする英語列を組み合わせる(および英語オーバーラップの冗長性を除去する)ことによって作成される3単語英語列のコヒーレントな翻訳を提供する。上のステップを、1から無限の個数のステップ(n)まで繰り返して、適切な翻訳を提供することができる。この翻訳方法は、両方の言語のエンコードされた単語ブロックをオーバーラップによってブリッジする無矛盾の列を検証することによって、自動的に動作する。両方の言語にまたがって無矛盾性を有するオーバーラップブリッジの自動承認によって、データベースが臨界質量に達したならば完全な精度を有する、2つの言語の間で翻訳する言語ネットワークがもたらされる。
例として、英語の句「I want to buy a car」を検討されたい。本発明の方法の動作時に、この句は、データベースを働かせるコンピュータに入力される。このコンピュータは、データベースに単語「I」、「want」、「to」、「buy」、「a」、および「car」と同等のヘブライ語が含まれるかどうかを判定するように動作する。そのような同等物が既知である場合には、このコンピュータは、ヘブライ語の同等物を返す。そのような同等物が既知でない場合には、コンピュータによって、適切なヘブライ語翻訳を供給するようにユーザに問い合わせ、そのような翻訳が将来の使用のために記憶される。次に、コンピュータによって、文が、オーバーラップする形の2単語セグメント「I want」、「want to」、「to buy」、「buy a」、および「a car」に解析される。コンピュータは、これらのセグメントのヘブライ語の同等物(すなわち、「I want」のヘブライ語の同等物など)を返すように動作し、そのようなヘブライ語の同等物が未知の場合には、コンピュータによって、適切なヘブライ語翻訳を供給するようにユーザに問い合わせ、その翻訳を将来の使用のために記憶する。
本発明では、次に、3単語セグメント「I want to」、「want to buy」、「to buy a」、および「buy a car」を検査する。処理のこの時点で、本発明では、2単語英語翻訳がオーバーラップするヘブライ語翻訳の各対を組み合わせることを試行し、各3単語英語翻訳照会を行うために組み合わせる(たとえば、「I want」、「want to」を組み合わせて「I want to」を形成する)ことを試みる。ヘブライ語のセグメントが、やはりそれらをうまく接続する共通のオーバーラップを有する場合に、この変換方法では、自動的に、ユーザ介入を必要とせずに、ヘブライ語に対する3単語英語単語列を翻訳として承認する。ヘブライ語セグメントがオーバーラップせず、組み合わされない場合には、ユーザに、正確な翻訳について問い合わせる。3単語英語列の適切な翻訳の試みの後に、この処理は、4単語の列などに進み、クロス言語オーバーラップを介して、検査されるセグメントが完了するまで(この例では、句全体「I want to buy a car」)翻訳の組合せの自動的な解決を試みる。本発明の方法は、この解析を行った後に、返された翻訳同等物を比較し、オーバーラップしたセグメントの冗長性を除去し、変換された句をユーザに出力する。
b.関連データベースおよび二重オーバーラップ技法を介する文書の翻訳
もう1つの好ましい実施形態では、本発明によって、上で説明したクロス言語データベースを使用して文書内の単語および単語列の単語列翻訳を提供し、その後、上で説明したクロス言語二重オーバーラップ技法を使用して第2言語のオーバーラップする単語列を組み合わせて、文書の翻訳を提供することによって、第1言語の文書を第2言語の文書に翻訳することができる。たとえば、英語で入力され、ヘブライ語に翻訳されることを意図された文「In addition to my need to be loved by all the girls in town,I always wanted to be known as the best player to ever play on the New York state basketball team」の構成要素を解決するのに十分なクロス言語文書にアクセスできるデータベースを検討されたい。
もう1つの好ましい実施形態では、本発明によって、上で説明したクロス言語データベースを使用して文書内の単語および単語列の単語列翻訳を提供し、その後、上で説明したクロス言語二重オーバーラップ技法を使用して第2言語のオーバーラップする単語列を組み合わせて、文書の翻訳を提供することによって、第1言語の文書を第2言語の文書に翻訳することができる。たとえば、英語で入力され、ヘブライ語に翻訳されることを意図された文「In addition to my need to be loved by all the girls in town,I always wanted to be known as the best player to ever play on the New York state basketball team」の構成要素を解決するのに十分なクロス言語文書にアクセスできるデータベースを検討されたい。
上で説明した処理を介して、この操作方法によって、句「In addition to my need to be loved by all the girls」が、ソース文書の最初の単語から始まり、データベース内に存在する、ソース文書からの最大の単語列であると判定される。この単語列が、データベース内でヘブライ語の単語列「benosaf ltzorech sheli lihiot ahuv al yeday kol habahurot」に関連する。この処理では、上で説明した方法を使用して下記の翻訳を判定する。すなわち、翻訳されるテキストからの(かつ、データベースに存在する)前に識別された英単語とオーバーラップする1つの単語(またはその代わりに複数の単語)を有する最大の英単語列およびこのオーバーラップする英単語の2つのヘブライ語の翻訳が、オーバーラップするセグメントを有する。「loved by all the girls in town」は、「ahuv al yeday kol habahurot buir」に翻訳され、「the girls in town,I always wanted to be known」は、「Habahurot buir,tamid ratzity lihiot yahua」に翻訳され、「I always wanted to be known as the best player」は、「tamid ratzity lihiot yahua bettor hasahkan hachi tov」に翻訳され、「the best player to ever play on the New York state basketball team」は、「hasahkan hachi tov sh hay paam sihek bekvutzat hakadursal shel medinat new york」に翻訳される。
データベースによるこれらの戻り値について、オーバーラップする単語および単語列を比較し、冗長性を除去する操作を行う。したがって、「In addition to my need to be loved by all the girls」は、「benosaf ltzorech sheli lihiot ahuv al yeday kol habahurot」に翻訳され、「loved by all the girls in town」は、「ahuv al yeday kol habahurot buir」に翻訳される。本発明の技法を使用すると、システムによって、英語のセグメント「In addition to my need to be loved by all the girls」および「loved by all the girls in town」がとられ、ヘブライ語のセグメント「benosaf ltzorech sheli lihiot ahuv al yeday kol habahurot」および「ahuv al yeday kol habahurot buir」が返され、オーバーラップが判定される。
英語では、句が、「In addition to my need to be loved by all the girls」および「loved by all the girls in town」である。オーバーラップを除去することによって、「In addition to my need to be loved by all the girls in town」が得られる。
ヘブライ語では、句が、「benosaf ltzorech sheli lihiot ahuv al yeday kol habahurot」および「ahuv al yeday kol habahurot buir」である。オーバーラップを除去することによって、「benosaf ltzorech sheli lihiot ahuv al yeday kol habahurot buir」が得られる。
本発明では、次に、次に解析されるセグメントを操作して、処理を継続する。この例では、操作プロセスによって、句「the girls in town,I always wanted to be known」が処理される。システムによって、英語のセグメント「In addition to my need to be loved by all the girls in town」および新しい英単語の組「the girls in town,I always wanted to be known」が解決される。ヘブライ語の対応する単語の組は、「benosaf ltzorech sheli lihiot ahuv al yeday kol habahurot buir」であり、ヘブライ語の対応する単語の組は、「habahurot buir,tamid ratzity lihiot yahua」である。オーバーラップを除去すると、英語では「In addition to my need to be loved by all the girls in town」および「the girls in town,I always wanted to be known」が、「In addition to my need to be loved by all the girls in town,I always wanted to be known」になる。ヘブライ語では、オーバーラップ処理によって、「benosaf ltzorech sheli lihiot ahuv al yeday kol habahurot buir」および「habahurot buir,tamid ratzity lihiot yahua」から、「benosaf ltzorech sheli lihiot ahuv al yeday kol habahurot buir,tamid ratzity lihiot yahua」が得られる。
本発明によって、翻訳される文書の残りの単語および単語列について、このタイプの動作が継続される。したがって、好ましい実施形態の例では、次の英語単語列が、「In addition to my need to be loved by all the girls in town,I always wanted to be known」および「I always wanted to be known as the best player」になる。この句についてデータベースによって返されるヘブライ語の翻訳は、「benosaf ltzorech sheli lihiot ahuv al yeday kol habahurot buir,tamid ratzity lihiot yahua」および「tamid ratzity lihiot yahua bettor hasahkan hachi tov」である。英語のオーバーラップを除去すると、「In addition to my need to be loved by all the girls in town,I always wanted to be known as the best player」が得られる。ヘブライ語のオーバーラップを除去すると、「benosaf ltzorech sheli lihiot ahuv al yeday kol habahurot buir,tamid ratzity lihiot yahua bettor hasahkan hachi tov」が得られる。
処理を継続すると、次の単語列は、「In addition to my need to be loved by all the girls in town,I always wanted to be known as the best player」および「the best player to ever play on the New York State basketball team」である。対応するヘブライ語の句は、「benosaf ltzorech sheli lihiot ahuv al yeday kol habahurot buir,tamid ratzity lihiot yahua bettor hasahkan hachi tov」および「hasahkan hachi tov sh hay paam sihek bekvutzat hakadursal shel medinat new york」である。英語のオーバーラップを除去すると、「In addition to my need to be loved by all the girls in town,I always wanted to be known as the best player to ever play on the New York state basketball team」が得られる。ヘブライ語のオーバーラップを除去すると、「benosaf ltzorech sheli lihiot ahuv al yeday kol habahurot buir,tamid ratzity lihiot yahua bettor hasahkan hachi tov sh hay paam sihek bekvutzat hakadursal shel medinat new york」が得られるが、これは、翻訳が望まれるテキストの翻訳である。
この処理の完了時に、本発明は、翻訳された最終的なテキストを返し、そのテキストを出力するように動作する。
戻り値が、上で説明した処理に従ってオーバーラップする関連を返すデータベースの最終的な結果であることに留意されたい。このシステムは、この処理を介して、オーバーラップを介する連続的な第2言語セグメントとの自然におさまる接続を有しない第2言語の戻り値を、最終的に許容しない。ヘブライ語の戻り値のいずれかが、連続するヘブライ語単語列関連との正確なオーバーラップを有しない場合には、その戻り値は、拒絶され、連続するヘブライ語単語列とオーバーラップするヘブライ語単語列関連によって置換される。
戻り値が、上で説明した処理に従ってオーバーラップする関連を返すデータベースの最終的な結果であることに留意されたい。このシステムは、この処理を介して、オーバーラップを介する連続的な第2言語セグメントとの自然におさまる接続を有しない第2言語の戻り値を、最終的に許容しない。ヘブライ語の戻り値のいずれかが、連続するヘブライ語単語列関連との正確なオーバーラップを有しない場合には、その戻り値は、拒絶され、連続するヘブライ語単語列とオーバーラップするヘブライ語単語列関連によって置換される。
本発明の好ましい実施形態の例では、当技術分野で周知のタイプのコンピュータシステムと共に動作する下記のコンピュータプログラムが使用される。
クロス言語関連データベースおよびクロス言語二重オーバーラップ翻訳技法の使用を組み合わせた上の実施形態は、当技術分野で周知の、音声認識ソフトウェア、OCRスキャニングデバイスなどの、ある状態の情報を別の状態の情報と等しくすることを試みる既存の技法の品質を改善する、他の潜在的な応用例を有する。これらの技法の両方によって、本発明の翻訳方法に対してこれらのシステムの結果をテストすることができる。翻訳が存在せず、したがって誤りが仮定されるときに、ユーザに、警告を与え、照会することができ、あるいは、システムを、オーバーラップする翻訳を作るオーバーラップしない翻訳に近い、データベース内の代替物を探すようにプログラムすることができる。もちろん、ユーザへの戻り値のすべてが、元の言語に変換される。
当業者が理解できるように、当業者なら、本発明の精神および範囲から逸脱せずに上記の装置および方法で多数の変更を加えることができる。
Claims (7)
- 第1言語の文書セグメントを第2言語の文書セグメントに翻訳する方法であって、
前記第1言語の前記文書セグメントと複数の第3言語のそれぞれにおける文書セグメントとの間の関連を提供するステップと、
前記第2言語のセグメントに対応する前記複数の第3言語のサンプルセグメント間の関連を提供するステップと、
前記第2言語の演繹された関連セグメントと同一の少なくとも2つのサンプルセグメントを識別するステップと、
前記第2言語の前記演繹された関連セグメントを前記第1言語の前記文書セグメントに関連付けるステップと
を含む方法。 - 前記複数の第3言語が、少なくとも1つの第3言語を含む、請求項1に記載の方法。
- 同等の意味論的意味のセグメントを識別する方法を使用して、同一でないサンプルセグメントを交換可能なセグメントとして識別するステップをさらに含む、請求項2に記載の方法。
- プロセッサ、前記プロセッサに結合されたメモリ、および前記メモリに記憶されたプログラムを含むコンピュータデバイスであって、前記コンピュータが、前記プログラムを実行し、
前記第1言語の前記文書セグメントと複数の第3言語のそれぞれにおける文書セグメントとの間の関連を提供するステップと、
前記第2言語のセグメントに対応する前記複数の第3言語のサンプルセグメントのそれぞれの間の関連を提供するステップと、
前記第2言語の演繹された関連セグメントと同一の少なくとも2つのサンプルセグメントを識別するステップと、
前記第2言語の前記演繹された関連セグメントを前記第1言語の前記文書セグメントに関連付けるステップと
を実行するように構成される、コンピュータデバイス。 - 前記複数の第3言語が、少なくとも1つの言語を含む、請求項4に記載のコンピュータデバイス。
- 同等の意味論的意味のセグメントを識別することによって、同一でないサンプルセグメントを交換可能なセグメントとして識別する前記ステップを実行するようにさらに構成される、請求項5に記載のコンピュータデバイス。
- 前記第1言語の前記文書セグメントと複数の第3言語のそれぞれにおける文書セグメントとの間の関連を提供するステップと、
前記第2言語のセグメントに対応する前記複数の第3言語のサンプルセグメントのそれぞれの間の関連を提供するステップと、
前記第2言語の演繹された関連セグメントと同一の少なくとも2つのサンプルセグメントを識別するステップと、
前記第2言語の前記演繹された関連セグメントを前記第1言語の前記文書セグメントに関連付けるステップと
を実行する、コンピュータプロセッサによって実行可能なプログラムをその上に記憶されたコンピュータ可読記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/024,473 US20030083860A1 (en) | 2001-03-16 | 2001-12-21 | Content conversion method and apparatus |
US10/116,047 US20030135357A1 (en) | 2001-03-16 | 2002-04-05 | Multilingual database creation system and method |
PCT/US2002/025629 WO2003058490A1 (en) | 2001-12-21 | 2002-08-13 | Multilingual database creation system and method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006500640A true JP2006500640A (ja) | 2006-01-05 |
Family
ID=26698482
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003558733A Pending JP2006500640A (ja) | 2001-12-21 | 2002-08-13 | 多言語データベース作成のシステムおよび方法 |
Country Status (11)
Country | Link |
---|---|
US (1) | US20030135357A1 (ja) |
EP (1) | EP1464007A4 (ja) |
JP (1) | JP2006500640A (ja) |
KR (1) | KR20040063995A (ja) |
CN (1) | CN1620658A (ja) |
AU (1) | AU2002327445A1 (ja) |
CA (1) | CA2471256A1 (ja) |
EA (1) | EA200400857A1 (ja) |
IL (1) | IL162576A0 (ja) |
TR (1) | TR200402394T2 (ja) |
WO (1) | WO2003058490A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100643801B1 (ko) * | 2005-10-26 | 2006-11-10 | 엔에이치엔(주) | 복수의 언어를 연동하는 자동완성 추천어 제공 시스템 및방법 |
US9514376B2 (en) * | 2014-04-29 | 2016-12-06 | Google Inc. | Techniques for distributed optical character recognition and distributed machine language translation |
US10191899B2 (en) | 2016-06-06 | 2019-01-29 | Comigo Ltd. | System and method for understanding text using a translation of the text |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2096374B (en) * | 1981-04-03 | 1984-05-10 | Marconi Co Ltd | Translating devices |
JP3176059B2 (ja) * | 1990-11-15 | 2001-06-11 | キヤノン株式会社 | 翻訳装置 |
ES2101613B1 (es) * | 1993-02-02 | 1998-03-01 | Uribe Echebarria Diaz De Mendi | Metodo de traduccion automatica interlingual asistida por ordenador. |
GB2279164A (en) * | 1993-06-18 | 1994-12-21 | Canon Res Ct Europe Ltd | Processing a bilingual database. |
JP3408291B2 (ja) * | 1993-09-20 | 2003-05-19 | 株式会社東芝 | 辞書作成支援装置 |
EP0672989A3 (en) * | 1994-03-15 | 1998-10-28 | Toppan Printing Co., Ltd. | Machine translation system |
JP3356536B2 (ja) * | 1994-04-13 | 2002-12-16 | 松下電器産業株式会社 | 機械翻訳装置 |
WO1996041281A1 (en) * | 1995-06-07 | 1996-12-19 | International Language Engineering Corporation | Machine assisted translation tools |
US6085162A (en) * | 1996-10-18 | 2000-07-04 | Gedanken Corporation | Translation system and method in which words are translated by a specialized dictionary and then a general dictionary |
US7860706B2 (en) * | 2001-03-16 | 2010-12-28 | Eli Abir | Knowledge system method and appparatus |
US7483828B2 (en) * | 2001-03-16 | 2009-01-27 | Meaningful Machines, L.L.C. | Multilingual database creation system and method |
-
2002
- 2002-04-05 US US10/116,047 patent/US20030135357A1/en not_active Abandoned
- 2002-08-13 WO PCT/US2002/025629 patent/WO2003058490A1/en not_active Application Discontinuation
- 2002-08-13 IL IL16257602A patent/IL162576A0/xx unknown
- 2002-08-13 TR TR2004/02394T patent/TR200402394T2/xx unknown
- 2002-08-13 CA CA002471256A patent/CA2471256A1/en not_active Abandoned
- 2002-08-13 KR KR10-2004-7009532A patent/KR20040063995A/ko not_active Application Discontinuation
- 2002-08-13 CN CNA028281322A patent/CN1620658A/zh active Pending
- 2002-08-13 EP EP02763436A patent/EP1464007A4/en not_active Withdrawn
- 2002-08-13 AU AU2002327445A patent/AU2002327445A1/en not_active Abandoned
- 2002-08-13 JP JP2003558733A patent/JP2006500640A/ja active Pending
- 2002-08-13 EA EA200400857A patent/EA200400857A1/ru unknown
Also Published As
Publication number | Publication date |
---|---|
IL162576A0 (en) | 2005-11-20 |
CA2471256A1 (en) | 2003-07-17 |
WO2003058490A1 (en) | 2003-07-17 |
KR20040063995A (ko) | 2004-07-15 |
EP1464007A1 (en) | 2004-10-06 |
CN1620658A (zh) | 2005-05-25 |
AU2002327445A1 (en) | 2003-07-24 |
EP1464007A4 (en) | 2006-05-24 |
EA200400857A1 (ru) | 2005-12-29 |
TR200402394T2 (tr) | 2005-09-21 |
US20030135357A1 (en) | 2003-07-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7711547B2 (en) | Word association method and apparatus | |
JP2005539280A (ja) | 多言語データベース作成のシステムおよび方法 | |
US5895446A (en) | Pattern-based translation method and system | |
JP2005532605A (ja) | 内容変換の方法および装置 | |
US20030083860A1 (en) | Content conversion method and apparatus | |
Vyas et al. | Real time machine translation system for english to indian language | |
US20030093261A1 (en) | Multilingual database creation system and method | |
Almaaytah et al. | Challenges in Rendering Arabic text to English using Machine Translation: A Systematic Literature Review | |
JP2006500640A (ja) | 多言語データベース作成のシステムおよび方法 | |
Trandafili et al. | Employing a Seq2Seq Model for Spelling Correction in Albanian Language | |
Dashti et al. | PERCORE: A Deep Learning-Based Framework for Persian Spelling Correction with Phonetic Analysis | |
KR20240074344A (ko) | 대표어를 기반으로 하는 자동번역기의 한문고어 번역품질 측정방법 | |
Rafi et al. | Optimizing abstractive summarization with fine-tuned PEGASUS | |
AU2002231266A1 (en) | Content conversion method and apparatus | |
ALMAAYTAH et al. | Challenges in Rendering Arabic Text to English Using Machine Translation: A Systematic | |
Bhatia et al. | Analyzing the Information Density of Various Tokenizations for the Optimization of Natural Language Processing Models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070508 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20070807 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20070814 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080108 |