JP4634715B2 - 任意の各国語での照会によるマッチング文書の検索 - Google Patents
任意の各国語での照会によるマッチング文書の検索 Download PDFInfo
- Publication number
- JP4634715B2 JP4634715B2 JP2003564770A JP2003564770A JP4634715B2 JP 4634715 B2 JP4634715 B2 JP 4634715B2 JP 2003564770 A JP2003564770 A JP 2003564770A JP 2003564770 A JP2003564770 A JP 2003564770A JP 4634715 B2 JP4634715 B2 JP 4634715B2
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- language
- documents
- keywords
- languages
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/319—Inverted lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3337—Translation of the query language, e.g. Chinese to English
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99934—Query formulation, input preparation, or translation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99942—Manipulating data structure, e.g. compression, compaction, compilation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99943—Generating database or data structure, e.g. via user interface
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99944—Object-oriented database structure
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99944—Object-oriented database structure
- Y10S707/99945—Object-oriented database structure processing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【0001】
本発明は、ユーザによって入力される検索キーワード用語を使用するデータベース検索の分野に関する。より詳細には、本発明は、異なる言語による文書を含むデータベースを検索するためのシステムおよび方法であり、複数のデータベース言語の1つを用いて検索語を入力すれば、該当するデータベース文書が別の言語で書かれていても、その文書を識別する。
【背景技術】
【0002】
本出願は、2002年2月1日に出願された「Method and System forSearching a Multi-lingual Database」という名称の米国特許出願第10/066,346号(CHA920010230US1)の一部継続出願である。
【0003】
複数の言語による素材を含むデータベースを検索するために、さまざまな手法が提案されている。ある手法では、検索語を入力する言語、またはユーザの言語にデータベース全体を翻訳する。しかしこの手法では、相当な大きさのデータベース用に大量の翻訳が(そして複数のユーザが異なる言語でデータベースを使用する場合は複数の翻訳が)必要となる可能性がある。さらに、文書を翻訳する各プロセスには、原文の意味をいくらかでも失う(または歪める)危険性が伴う。
【0004】
別の手法では、前述の同時係属出願に記載されているように同義語辞書またはキーワード辞書を使用する。この同時係属出願のシステムは同義語辞書またはキーワード辞書を含み、この同義語辞書またはキーワード辞書は双方向性であり、第1の言語と他の言語の間でキーワードの翻訳を可能にする。文書用の翻訳された言葉、キーワードは逆索引に記憶され、この逆索引はユーザの決定に応じて、選択された言語、第2の言語、またはすべての言語による検索に使用される。このように複数の検索および翻訳済み同義語辞書を使用すると、文書全体を翻訳する必要がなくなり、データベース全体を翻訳することに起因して生じる可能性のある前述のような不正確さを避けることができる。しかし、こうした検索を実行し分析するには長時間を要する場合があり、ユーザが検索を対話式に修正し、有意な結果を得ることができない可能性がある。
【0005】
図1は従来の検索システムを示しており、英語(第1言語)の文書がシンボル102で示され、各国語(NL)などの第2言語の文書がシンボル122で示されている。文書の各セットは別々に維持される一方で、キーワードを抽出して索引を作成するプロセスを介して索引付けされる。このプロセスは、英語の文書102についてはボックス104で、第2言語の文書122についてはボックス124で示されている。次のステップでは、文書の各セットに対して逆索引が実行される。英語による逆索引はブロック106で、第2言語による索引はブロック126で実行される。次いで検索または照会のフォーマットが設定され、複数のデータベースから選択された1つのデータベースに対して適用される。このプロセスは、英語による照会については108で、各国語による照会についてはブロック128で実行される。英語による照会の結果はブロック110で示され、各国語による照会の結果はボックス130で表される。このように、このプロセスのステップは各データベースに対して別々に実行され、ブロック112で文書を索引付けするステップと、ブロック114で逆索引を作成するステップと、ブロック116で検索を実行して結果を提供するステップとを含む。
【0006】
データベースが異なっても、ステップは同一である。各データベースは別々に維持され、それぞれが別々に検索され、それぞれ別々の結果が生成される。この同一の構造は任意の数の別々のデータベースに適用できるため、このシステムを拡張して希望の数の言語をサポートすることができる。しかし自国語(たとえばスペイン語)で書かれているが別の言語(たとえば英語)の専門用語を使用している技術文書もある。このようなシステムでは、検索語に相当する各国語を求めて各国語のデータベースを検索しても、その検索語が文書中に別の言語で含まれている場合は、その検索語を見つけ出すことはできない。またこうしたシステムでは、各国語で検索しても、検索対象を複数の異なる言語で扱う文書を見つけ出すことはできない。
【特許文献1】
米国特許出願第10/066,346号
【0007】
したがって本発明の目的は、複数の言語による文書用の改良型検索エンジンを提供することである。
【0008】
本発明の別の目的は、実行時におけるキーワードの翻訳およびそれらのキーワードを含む文書の検索を減らすことである。
【0009】
本発明の別の目的は、任意のサポート言語によるキーワードを使用したデータベース検索を可能にし、そのサポート言語および任意の他のサポート言語で書かれた文書を検索することである。
【0010】
ここまで本発明の目的および利点のいくつかについて説明したが、他の目的および利点は、以降の本発明に関する説明を添付の図面と併せて参照すれば、当業者にとって明らかになるだろう。
【課題を解決するための手段】
【0011】
本発明によれば、複数の言語の1つによるキーワード検索によってアクセスされ、それらのすべての言語に含まれる文書のリストを提供できる双方向性の逆索引機能を含む検索エンジンによって、検索時間が短縮される。すべてのサポート言語によるキーワードは、キーワードを含むそれらの言語による文書と相互参照される逆索引ルックアップ・テーブルに記憶されることが好ましい。異なる言語で同じ意味を持つ複数のキーワードは、それらの言語の1つで当該キーワードを照会すれば、同時にアクセスすることができる。このテーブルを含む検索エンジンは、ユーザの決定に応じて、選択された言語、第2の言語、またはすべてのサポート言語で関連文書を識別することができる。各文書に関する情報は、文書のIDだけでなく、当該文書にキーワードが登場する回数や、他のキーワードに対する当該キーワードの近接性など、文書のランク付けに使用する情報も含むことができる。したがって逆索引テーブルを使用すると、検索実行時におけるキーワードの翻訳、文書内でのキーワードの識別、およびランク付け情報の蓄積が不要となり、検索時間が短縮され、文書の全文翻訳に起因して生じる可能性のある不正確さを避けることができる。
【発明を実施するための最良の形態】
【0012】
図2は、異なる言語の文書内にある複数のキーワードを、図3に示す単一の拡張キーワード索引テーブルに統合するためのシステムを示す。図2に示すように、データベース200内にある任意の言語(たとえば英語)による文書はシンボル202で表される。データベース内の各文書からのキーワードは、クローラ204を用いてオフラインで識別される。クローラ204はエクストラクタ206用に文書を走査し、エクストラクタ206は文書のテキスト内のキーワードを識別する。次いで抽出された英語のキーワードは、キーワード翻訳機構208を用いて他のサポート言語に翻訳され、すべてのサポート言語で同じ意味を持つキーワードの拡張逆索引210が作成される。キーワードの翻訳は、対応する意味を持つ他の各国語のキーワードと関連付けられた英語のキーワードを含むキーワード辞書212を用いて行われることが好ましく、図3の索引用の同義語リストが作成され、他のサポート言語において対応する意味を持つそれぞれのサポート言語の複数のキーワード内の各キーワードが効果的に列挙される。さまざまな言語を管理するために、ユニコード・システム(UTF8)を用いて各キーワードを翻訳することが提案されている。もっとも本発明においては、本発明の趣旨に矛盾しない的確なシステムであれば、他のいかなるシステムも有利に使用することができる。キーワードを求めて文書に対して問合せを行うための1つの言語として英語が記載されているが、本発明は、キーワードを求めて文書に対して英語で問合せを行うことに限定されない。任意のサポート言語En、NL1、...NLi...NLnを用いて、英語では見つからない文書内のキーワードを見つけることができる。
【0013】
図2の拡張索引テーブル210のさらに詳細な図が、図3に示されている。英語のキーワードK1〜Knが、図2に関連して説明した方法を用いて文書D1〜Dnから抽出される。サポートされるすべての各国語における対応するキーワードが前述のように得られるため、英語のキーワードKiそれぞれに対して、すべてのサポート言語における同義のキーワードが存在する。図3に示すように、Xはリストされたキーワードの1つまたは複数が登場する文書D1〜Dnを示す。たとえば図示してあるように、キーワードK1は文書D1およびDj内に英語で登場し、同じ意味を持つキーワードK11およびK12は各国語NL1およびNL2の文書内に存在する。同様に、同義のキーワードKi1およびKi2は、各国語NL1および2では利用できるが英語では利用できない文書D2内に存在する。同義のキーワードKnおよびKn2は、英語および各国語NL2では利用できるが各国語NL1では利用できない文書Dj内に存在する。Xでマークされた各位置に記憶されているのがランク付け要素情報であり、この情報には、その言葉がその文書内に登場する回数、その文書内に登場する他のキーワードとの近接性、そのキーワードを含む文書の種類(すなわち技術誌や広告)などが含まれる。この情報は、検索によって見つかった他の文書と比較して各文書をランク付けするために使用される。
【0014】
図3のテーブルが任意のサポート言語のキーワードによる問合せを受けると、照会内のキーワードと同じ意味を持つ複数のキーワードを含む任意の言語による文書が識別され、それらのランク付け情報が提供される。たとえば、照会がキーワードKiおよびKnを含むと仮定すると、文書D2〜DjおよびDnはそれらの利用可能な言語で識別されるだろう。したがって文書D2の場合、文書は英語ならびに各国語NL1およびNL2で利用可能と識別され、その一方で文書Djは各国語NL1およびNL2で利用可能と識別されるだろう。タイトルまたはファイル番号で文書を識別することに加えて、記憶されたランク付け要素情報が文書ランク付けアルゴリズムに提供されるだろう。こうしたアルゴリズムは、2002年4月10日に出願された同時係属の米国特許出願第10/120,071号に記載されており、これを参照により本明細書に組み込む。
【0015】
図4は、図3の拡張逆索引を作成する際に役立つキーワード同義語テーブル400の一部を示す。このテーブルは複数の列を含み、それぞれの列は異なるサポート言語と関連付けられている。図示してあるように、これらのサポート言語は、列410の英語、列420のスペイン語、列430のフランス語、列440のイタリア語である。ドイツ語や日本語といった他の任意のサポート言語用に提供されたさらなる列450が示されている。もちろん、英語とは異なる種類の文字を持つ言語もあり、言語によっては英語とは異なる多くのシンボルを持ち、日本語などのいくつかの言語を表すために設定された2バイト文字を使用する必要性が生じるかもしれないことは認識している。この図4では、行に同義語の2つのセットが示されており、一方は行460の英単語「network」と関連付けられ、他方は行470の英単語「processor」と関連付けられている。実際には同義語テーブル400は、シンボル490によって示されるようなさらなる列を必要に応じて有する場合があり(あるいはサポート言語が少なく、サポート言語の選択が設計上の選択の問題であり、本発明の特徴ではないために列が少ない場合もあり)、シンボル480によって示されるように各キーワード用の行を有するであろう。各項目が言語と関連付けられているため、必要に応じて単語をその言語と関連付けて、ネットワークを意味するスペイン語の単語(red)と赤色を意味する英単語を区別できる点に留意することが重要である。このテーブルは、同義語テーブルの概念を理解する上でそれぞれ表形式で示されているが、従来のデータ処理技術に従ってストレージ内に他の既知のフォーマットで存在することができる。
【0016】
図5は、本発明を組み込んだ検索システムを示す。照会510が任意のサポート言語で検索エンジン520に入力され、図2および図3に関連して説明した拡張キーワード逆索引210に渡される。索引210は複数の言語をサポートし、任意のサポート言語によるキーワード照会の翻訳を可能にする。英語による照会の場合、照会は英語のキーワード5301および他のサポート言語のキーワード5302〜530nにおけるリストを用いて逆索引210に適用される。これによって、英語のヒット・リスト5401および各国語のヒット・リスト5402〜540nが作成される。次いでユーザは、関心のある任意の言語で結果5401〜540nを選択することができる。ユーザは、1つのリスト(たとえばリスト5402)を選択し、それを不適当と判断し、別の選択を試みることができる。ユーザの英語理解力が限られている場合は、他の任意の各国語5402〜540nで結果を見ることを望むかもしれない。各国語の結果(たとえば540i)が十分でない(または存在しない)場合、ユーザは英語の結果5401に進むことができる。あるいはユーザは、関心のある結果として最も可能性が高いのは英語の結果5401であると認識し、それらの結果から着手するかもしれない。あるいはユーザは、英語で非常に多くの結果が見つかったため、母国語550でもっと候補を絞り込んだリストを見ようと考えるかもしれない。各国語の結果が貧弱であるか、または利用できない場合、検索エンジンは、選択されたリスト560内に列挙される検索結果を増やすために、他の言語の文書を提供するだろう。この場合、デフォルトのリスト言語は英語であり、英語で利用できない文書は、利用可能な言語で提供される。選択されたリスト内の文書は、ランク付けアルゴリズム570によって分析され、ランク付けされたリスト580がユーザに提供される。
【0017】
図6に示すように、本発明のシステムに問合せを行うためのコンピュータ画面は、キーワード照会600を入力するためのスペースを含むであろう。検索領域602は、検索範囲を示すためのものである。検索領域604は、検索対象の言語を指定するためのものである。領域606は、照会用語が提供される際の言語を示すためのものであり、スペース608は、ランク付けリストが提供される際の言語を提示するために使用される。たとえば図では、「laptop」および「IBM」が検索対象のキーワードである。検索領域は「任意の国」である。しかし必要であれば、たとえば特定の国に、あるいは特定の文書リポジトリにさえ、検索を限定することができる。たとえば米国国会図書館や米国の任意の図書館に検索領域を限定することができる。検索を実行する言語は「すべて」と記載されている。これによって、図3のテーブルに含まれているすべてのサポート言語で検索が行われることになるため、図3に関連して説明したように、同じ文書の複数のコピーがテーブルから読み出されるだろう。スペース606は、検索語が英語であるという事実を識別する。しかし、他のいかなるサポート言語も使用することができる。たとえばドイツ語がサポート言語であるならば、検索語600はドイツ語の単語とすることができ、照会言語はそれらがドイツ語であることを示すであろう。最終的に結果は、照会言語とは異なる言語で提供できるため、ここに図示してあるように、検索語は英語だが、ランク付けされた文書は、それらがドイツ語で利用できるならドイツ語で提供されるだろう。もし何らかの文書がドイツ語で利用できない場合、リストは、その文書を利用できる言語、すなわち第1のデフォルト言語の英語でその文書を含むであろう。記載のスペース600〜608を使用すると、検索が実行される範囲および言語ならびに得られる結果を制御できるようになる。
【0018】
次いで図7を参照すると、ステップ702および704では、図6のスペース600〜608に記載された検索情報をユーザが入力することによってシステムに問い合わせる。入力された照会情報および他の情報を用いてステップ706で拡張逆索引テーブルに問合せを行い、テーブル210から文書リストが得られる。次いでステップ710では、ランク付けされた文書のリストが希望の言語で検索者に提供され、検索者は結果が満足できるかどうかをステップ712で判断する。結果が満足できる場合、プロセスは終了する。しかし結果が満足できない場合、検索者はステップ714において、ステップ702および704で提供したデータを修正することによって検索範囲を広げるか、または他の形で変更することができる。
【0019】
認識されることであろうが、本発明は、複数の命令を含むコンピュータ・プログラム手段を含むプログラムを記憶した汎用コンピュータなどのデータ処理システムでの使用に特に適合したものである。通常これらの命令は、人間が読み取ることのできる高水準言語で書かれ、マシン言語、すなわちデータ処理システムによって理解される単純な命令に翻訳される。適切な例では、こうした命令は必要に応じて直接マシン言語のプログラム言語、すなわち実行の効率は高いがプログラムしづらいシステムで書くことができる。本発明は、何らかの特定の入力言語に限定されるものではない。2002年4月10日に出願された同時係属の米国特許出願第10/120,071号は、本発明と共に使用できるネットワークを開示している。この出願の主題を参照により本明細書に組み込む。本発明のソフトウェアはサーバ上に提供することができ、図6の画面表示が登場するコンピュータを用いてインターネットを介してアクセスすることができる。
【0020】
本明細書で使用されているように、ソフトウェア、コンピュータ・プログラム、およびコンピュータ・プログラム手段という各用語は、交換可能に使用される。本発明の環境におけるソフトウェアとは、情報処理能力を有するシステムに特定の機能を直接、または(a)別の言語、コード、もしくは表記への変換と(b)異なる形態での複製のいずれかの後に、または両方の後に実行させるように意図された任意の言語、コード、または表記による任意の表現または命令のセットを意味する。好ましい実施形態の説明では、異なる言語を管理するためにユニコード・システムを使用したが、本発明においては、異なる言語を表すのに適した他の方法を必要に応じて有利に使用することもできる。
【0021】
各国語という用語は、1つの言語または関連する複数の言語を表すために使用した。各国語は、システムによって任意のサポート言語とすることができ、異なるユーザ用の異なる言語を含むことができる。したがって「各国語」と言えば、メキシコ人やスペイン人にとってはスペイン語のことであり、フランスや他のフランス語圏の人にとってはフランス語のことである。キーワードを特定し、検討中の文書を表すキーワードから独自性のほとんどない共通のテキストを分離するためのシステムとして、さまざまな共通言語用に適切な同義語テーブルを利用することができる。こうしたキーワード特定システムは往々にして技術指向であり、検討中の技術に関連のある言葉を識別する。
【0022】
もちろん、前述の好ましい実施形態に関する説明を添付の図面および特許請求の範囲と併せて参照すれば、本発明に関する多くの変更が当業者にとって明らかであろう。たとえば環境によっては、文書が複数のサポート言語の組合せによって書かれていてもよい。さらに本発明のいくつかの要素は、他の要素を対応して使用することなく単独で有利に使用することもできる。たとえば同義語辞書またはキーワード辞書を使用することが、キーワードを他の言語に翻訳する唯一の方法というわけではない。さらに環境によっては、他のさまざまなデバイスを有利に代用することができる。したがって前述の好ましい実施形態に関する説明は、本発明の原理を例示するものにすぎず、本発明を限定するものではないとみなすべきである。
【図面の簡単な説明】
【0023】
【図1】文書が2つの異なる言語で存在する従来の検索技術を示す図である。
【図2】本発明の改良型複数言語文書データベース索引システムおよび逆索引テーブルを示す図である。
【図3】1つの言語におけるキーワードと、そのキーワードに相当する他の言語における語とを関連付け、照会されたキーワードを含むすべての言語の文書を識別する本発明の索引テーブルを示す図である。
【図4】同義語テーブルの一部を示す図である。
【図5】本発明の複数言語データベース検索システムを示す図である。
【図6】本発明を組み込んだ検索システムに検索照会を入力するために使用できるコンピュータ表示画面の一部を示す図である。
【図7】本発明を実施する際に実行される論理の例を示すフローチャートである。
Claims (3)
- 複数のサポート言語による文書を含むデータベース・システムにおいて、ユーザにより指定された第1のサポート言語のキーワードによる照会に応答して、前記第1のサポート言語のキーワードを含む文書と、該キーワードと同じ意味を持つ、前記第1のサポート言語とは異なる少なくとも1つの第2のサポート言語のキーワードを含む文書とを検索する方法であって、
前記データベース・システムが、
前記第1のサポート言語のキーワード、および該キーワードと同じ意味を持つ、前記第2のサポート言語のキーワードを、前記複数のサポート言語による文書のそれぞれが含むかどうかを示す逆索引テーブルを作成するステップと、
前記ユーザにより指定された第1のサポート言語のキーワードによる照会に応答して、前記逆索引テーブルに問い合わせを行うことにより、当該キーワードを含む文書および当該キーワードと同じ意味を持つ前記第2のサポート言語のキーワードを含む文書のリストを出力するステップと
を実行することを特徴とする方法。 - 複数のサポート言語による文書を含み、ユーザにより指定された第1のサポート言語のキーワードによる照会に応答して、前記第1のサポート言語のキーワードを含む文書と、該キーワードと同じ意味を持つ、前記第1のサポート言語とは異なる少なくとも1つの第2のサポート言語のキーワードを含む文書とを検索するデータベース・システムであって、
前記第1のサポート言語のキーワード、および該キーワードと同じ意味を持つ、前記第2のサポート言語のキーワードを、前記複数のサポート言語による文書のそれぞれが含むかどうかを示す逆索引テーブルと、
前記ユーザにより指定された第1のサポート言語のキーワードによる照会に応答して、前記逆索引テーブルに問い合わせを行うことにより、当該キーワードを含む文書および当該キーワードと同じ意味を持つ前記第2のサポート言語のキーワードを含む文書のリストを出力する検索エンジンと
を含む、データベース・システム。 - 複数のサポート言語による文書を含むデータベース・システムにおいて、ユーザにより指定された第1のサポート言語のキーワードによる照会に応答して、前記第1のサポート言語のキーワードを含む文書と、該キーワードと同じ意味を持つ、前記第1のサポート言語とは異なる少なくとも1つの第2のサポート言語のキーワードを含む文書とを検索するためのプログラムであって、
前記データベース・システムを
前記第1のサポート言語のキーワード、および該キーワードと同じ意味を持つ、前記第2のサポート言語のキーワードを、前記複数のサポート言語による文書のそれぞれが含むかどうかを示す逆索引テーブルと、
前記ユーザにより指定された第1のサポート言語のキーワードによる照会に応答して、前記逆索引テーブルに問い合わせを行うことにより、当該キーワードを含む文書および当該キーワードと同じ意味を持つ前記第2のサポート言語のキーワードを含む文書のリストを出力する検索エンジンと
して機能させるためのプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/066,346 US6952691B2 (en) | 2002-02-01 | 2002-02-01 | Method and system for searching a multi-lingual database |
US10/180,195 US7260570B2 (en) | 2002-02-01 | 2002-06-26 | Retrieving matching documents by queries in any national language |
PCT/EP2003/000761 WO2003065248A2 (en) | 2002-02-01 | 2003-01-24 | Retrieving matching documents by queries in any national language |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005516306A JP2005516306A (ja) | 2005-06-02 |
JP4634715B2 true JP4634715B2 (ja) | 2011-02-16 |
Family
ID=27667790
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003564770A Expired - Fee Related JP4634715B2 (ja) | 2002-02-01 | 2003-01-24 | 任意の各国語での照会によるマッチング文書の検索 |
Country Status (9)
Country | Link |
---|---|
US (1) | US7260570B2 (ja) |
EP (1) | EP1485830B1 (ja) |
JP (1) | JP4634715B2 (ja) |
KR (1) | KR100572797B1 (ja) |
CN (1) | CN100375090C (ja) |
AT (1) | ATE322045T1 (ja) |
CA (1) | CA2474814A1 (ja) |
DE (1) | DE60304331T2 (ja) |
WO (1) | WO2003065248A2 (ja) |
Families Citing this family (70)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6952691B2 (en) * | 2002-02-01 | 2005-10-04 | International Business Machines Corporation | Method and system for searching a multi-lingual database |
US7039625B2 (en) * | 2002-11-22 | 2006-05-02 | International Business Machines Corporation | International information search and delivery system providing search results personalized to a particular natural language |
CN1997992A (zh) * | 2003-03-26 | 2007-07-11 | 维克托·西 | 用于无线网络的在线智能多语种比较商店代理 |
US7483877B2 (en) * | 2003-04-11 | 2009-01-27 | International Business Machines Corporation | Dynamic comparison of search systems in a controlled environment |
JP2004355069A (ja) | 2003-05-27 | 2004-12-16 | Sony Corp | 情報処理装置および方法、プログラム、並びに記録媒体 |
US7854009B2 (en) * | 2003-06-12 | 2010-12-14 | International Business Machines Corporation | Method of securing access to IP LANs |
US20050065774A1 (en) * | 2003-09-20 | 2005-03-24 | International Business Machines Corporation | Method of self enhancement of search results through analysis of system logs |
US8014997B2 (en) * | 2003-09-20 | 2011-09-06 | International Business Machines Corporation | Method of search content enhancement |
US20050138007A1 (en) * | 2003-12-22 | 2005-06-23 | International Business Machines Corporation | Document enhancement method |
US7716211B2 (en) * | 2004-02-10 | 2010-05-11 | Microsoft Corporation | System and method for facilitating full text searching utilizing inverted keyword indices |
DE202004005008U1 (de) * | 2004-03-30 | 2004-06-24 | E.I. Du Pont De Nemours And Company, Wilmington | Textiles Flächengebilde für Schutzbekleidung |
US7594277B2 (en) * | 2004-06-30 | 2009-09-22 | Microsoft Corporation | Method and system for detecting when an outgoing communication contains certain content |
US8473475B2 (en) | 2004-09-15 | 2013-06-25 | Samsung Electronics Co., Ltd. | Information storage medium for storing metadata supporting multiple languages, and systems and methods of processing metadata |
US20060212441A1 (en) * | 2004-10-25 | 2006-09-21 | Yuanhua Tang | Full text query and search systems and methods of use |
US20080077570A1 (en) * | 2004-10-25 | 2008-03-27 | Infovell, Inc. | Full Text Query and Search Systems and Method of Use |
US20070022134A1 (en) * | 2005-07-22 | 2007-01-25 | Microsoft Corporation | Cross-language related keyword suggestion |
US7672831B2 (en) * | 2005-10-24 | 2010-03-02 | Invention Machine Corporation | System and method for cross-language knowledge searching |
KR100643801B1 (ko) * | 2005-10-26 | 2006-11-10 | 엔에이치엔(주) | 복수의 언어를 연동하는 자동완성 추천어 제공 시스템 및방법 |
US8762358B2 (en) * | 2006-04-19 | 2014-06-24 | Google Inc. | Query language determination using query terms and interface language |
US8442965B2 (en) | 2006-04-19 | 2013-05-14 | Google Inc. | Query language identification |
US8255376B2 (en) * | 2006-04-19 | 2012-08-28 | Google Inc. | Augmenting queries with synonyms from synonyms map |
US7835903B2 (en) * | 2006-04-19 | 2010-11-16 | Google Inc. | Simplifying query terms with transliteration |
US8380488B1 (en) | 2006-04-19 | 2013-02-19 | Google Inc. | Identifying a property of a document |
US20070271231A1 (en) * | 2006-05-22 | 2007-11-22 | Jimmy Jong-Yuan Lin | Search method on the Internet |
CN100416570C (zh) * | 2006-09-22 | 2008-09-03 | 浙江大学 | 一种基于问答库的中文自然语言问答方法 |
WO2008086889A1 (de) * | 2007-01-16 | 2008-07-24 | Netbreeze Gmbh | Transkriptionsvorrichtung zur automatisierten transkription und transphrasierung sowie entsprechendes verfahren |
KR100893629B1 (ko) * | 2007-02-12 | 2009-04-20 | 주식회사 이지씨앤씨 | 전자교재 컨텐츠의 구문에 식별코드를 부여하는 시스템 및방법, 전자교재 컨텐츠의 데이터 검색 시스템 및 방법,전자교재 컨텐츠의 사용과 제공에 관한 포인트 관리 시스템및 방법 |
US8051061B2 (en) | 2007-07-20 | 2011-11-01 | Microsoft Corporation | Cross-lingual query suggestion |
US7917488B2 (en) * | 2008-03-03 | 2011-03-29 | Microsoft Corporation | Cross-lingual search re-ranking |
US8065739B1 (en) * | 2008-03-28 | 2011-11-22 | Symantec Corporation | Detecting policy violations in information content containing data in a character-based language |
US8171041B2 (en) * | 2008-05-15 | 2012-05-01 | Enpulz, L.L.C. | Support for international search terms |
US20110295857A1 (en) * | 2008-06-20 | 2011-12-01 | Ai Ti Aw | System and method for aligning and indexing multilingual documents |
US8782061B2 (en) * | 2008-06-24 | 2014-07-15 | Microsoft Corporation | Scalable lookup-driven entity extraction from indexed document collections |
US8135580B1 (en) | 2008-08-20 | 2012-03-13 | Amazon Technologies, Inc. | Multi-language relevance-based indexing and search |
JP5751537B2 (ja) * | 2008-09-17 | 2015-07-22 | 有限会社新英プラナーズ | 国際対応型日本語入力システム |
US20100145923A1 (en) * | 2008-12-04 | 2010-06-10 | Microsoft Corporation | Relaxed filter set |
WO2010105214A2 (en) | 2009-03-13 | 2010-09-16 | Invention Machine Corporation | Question-answering system and method based on semantic labeling of text documents and user questions |
US8577910B1 (en) | 2009-05-15 | 2013-11-05 | Google Inc. | Selecting relevant languages for query translation |
US8572109B1 (en) | 2009-05-15 | 2013-10-29 | Google Inc. | Query translation quality confidence |
US8577909B1 (en) * | 2009-05-15 | 2013-11-05 | Google Inc. | Query translation using bilingual search refinements |
US8538957B1 (en) | 2009-06-03 | 2013-09-17 | Google Inc. | Validating translations using visual similarity between visual media search results |
CN102053991B (zh) * | 2009-10-30 | 2014-07-02 | 国际商业机器公司 | 用于多语言文档检索的方法及系统 |
WO2011061556A1 (en) * | 2009-11-20 | 2011-05-26 | Kim Mo | Intelligent search system |
US8773706B2 (en) * | 2010-03-29 | 2014-07-08 | Konica Minolta Laboratory U.S.A., Inc. | Apparatus, systems, and methods for dynamic language customization |
CN101944108A (zh) * | 2010-09-07 | 2011-01-12 | 深圳市彩讯科技有限公司 | 一种索引文件及索引文件建立方法 |
US8639701B1 (en) * | 2010-11-23 | 2014-01-28 | Google Inc. | Language selection for information retrieval |
US8527518B2 (en) * | 2010-12-16 | 2013-09-03 | Sap Ag | Inverted indexes with multiple language support |
US8498972B2 (en) * | 2010-12-16 | 2013-07-30 | Sap Ag | String and sub-string searching using inverted indexes |
CN103493046B (zh) * | 2011-04-28 | 2018-02-23 | 微软技术许可有限责任公司 | 备选市场搜索结果切换标签 |
AU2012360732B2 (en) * | 2011-12-29 | 2018-02-01 | P2S Media Group Oy | Method and apparatus for providing metadata search codes to multimedia |
US20130332450A1 (en) * | 2012-06-11 | 2013-12-12 | International Business Machines Corporation | System and Method for Automatically Detecting and Interactively Displaying Information About Entities, Activities, and Events from Multiple-Modality Natural Language Sources |
CN103488648B (zh) * | 2012-06-13 | 2018-03-20 | 阿里巴巴集团控股有限公司 | 一种多语种混合检索方法和系统 |
CN104281583B (zh) * | 2013-07-02 | 2018-01-12 | 索意互动(北京)信息技术有限公司 | 信息检索方法及装置 |
CN104731828B (zh) | 2013-12-24 | 2017-12-05 | 华为技术有限公司 | 一种跨领域文档相似度计算方法及装置 |
CN103699675B (zh) * | 2013-12-30 | 2017-07-04 | 语联网(武汉)信息技术有限公司 | 一种译员分级索引的方法 |
US9524293B2 (en) * | 2014-08-15 | 2016-12-20 | Google Inc. | Techniques for automatically swapping languages and/or content for machine translation |
US9977810B2 (en) | 2014-08-21 | 2018-05-22 | Dropbox, Inc. | Multi-user search system with methodology for personal searching |
US9384226B1 (en) | 2015-01-30 | 2016-07-05 | Dropbox, Inc. | Personal content item searching system and method |
US9183303B1 (en) | 2015-01-30 | 2015-11-10 | Dropbox, Inc. | Personal content item searching system and method |
TWI712899B (zh) * | 2015-07-28 | 2020-12-11 | 香港商阿里巴巴集團服務有限公司 | 資訊查詢方法及裝置 |
US9606990B2 (en) | 2015-08-04 | 2017-03-28 | International Business Machines Corporation | Cognitive system with ingestion of natural language documents with embedded code |
KR101656357B1 (ko) | 2015-11-04 | 2016-09-09 | 국방과학연구소 | 데이터 표를 이용하여 공학용 데이터베이스를 구성하는 방법 |
CN105404688A (zh) * | 2015-12-11 | 2016-03-16 | 北京奇虎科技有限公司 | 搜索方法和搜索设备 |
US10824795B2 (en) | 2016-06-21 | 2020-11-03 | Fernando J. Pinho | Indoor positioning and recording system |
WO2017223133A1 (en) * | 2016-06-21 | 2017-12-28 | Pinho Fernando J | Indoor positioning and recording system |
US10691734B2 (en) * | 2017-11-21 | 2020-06-23 | International Business Machines Corporation | Searching multilingual documents based on document structure extraction |
CN108345694B (zh) * | 2018-03-19 | 2021-09-03 | 华北电力大学(保定) | 一种基于主题数据库的文献检索方法及系统 |
US10482185B1 (en) * | 2019-02-27 | 2019-11-19 | Capital One Services, Llc | Methods and arrangements to adjust communications |
CN110347904A (zh) * | 2019-05-28 | 2019-10-18 | 成都美美臣科技有限公司 | 一个多语言电子商务网站处理语言搜索方法 |
CN112380410A (zh) * | 2020-11-10 | 2021-02-19 | 北京字节跳动网络技术有限公司 | 信息处理方法、装置和电子设备 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01181123A (ja) * | 1988-01-14 | 1989-07-19 | Hitachi Ltd | 情報検索装置 |
US6278967B1 (en) * | 1992-08-31 | 2001-08-21 | Logovista Corporation | Automated system for generating natural language translations that are domain-specific, grammar rule-based, and/or based on part-of-speech analysis |
JP2737662B2 (ja) * | 1994-08-29 | 1998-04-08 | 日本電気株式会社 | 外国語キーワード文献検索処理装置 |
US5799307A (en) * | 1995-10-06 | 1998-08-25 | Callware Technologies, Inc. | Rapid storage and recall of computer storable messages by utilizing the file structure of a computer's native operating system for message database organization |
US6055528A (en) * | 1997-07-25 | 2000-04-25 | Claritech Corporation | Method for cross-linguistic document retrieval |
US5991713A (en) * | 1997-11-26 | 1999-11-23 | International Business Machines Corp. | Efficient method for compressing, storing, searching and transmitting natural language text |
JP3181548B2 (ja) * | 1998-02-03 | 2001-07-03 | 富士通株式会社 | 情報検索装置及び情報検索方法 |
JP3601653B2 (ja) * | 1998-03-18 | 2004-12-15 | 富士通株式会社 | 情報検索装置および方法 |
GB2338089A (en) * | 1998-06-02 | 1999-12-08 | Sharp Kk | Indexing method |
US6275789B1 (en) * | 1998-12-18 | 2001-08-14 | Leo Moser | Method and apparatus for performing full bidirectional translation between a source language and a linked alternative language |
US6336117B1 (en) * | 1999-04-30 | 2002-01-01 | International Business Machines Corporation | Content-indexing search system and method providing search results consistent with content filtering and blocking policies implemented in a blocking engine |
CN1176432C (zh) | 1999-07-28 | 2004-11-17 | 国际商业机器公司 | 提供本国语言查询服务的方法和系统 |
US7027974B1 (en) * | 2000-10-27 | 2006-04-11 | Science Applications International Corporation | Ontology-based parser for natural language processing |
EP1454263A4 (en) * | 2001-11-21 | 2008-02-13 | Contecs Dd Llc | DATA DICTIONARY OF DIGITAL RIGHTS MANAGEMENT |
-
2002
- 2002-06-26 US US10/180,195 patent/US7260570B2/en not_active Expired - Fee Related
-
2003
- 2003-01-24 CN CNB038024179A patent/CN100375090C/zh not_active Expired - Lifetime
- 2003-01-24 KR KR1020047011829A patent/KR100572797B1/ko not_active IP Right Cessation
- 2003-01-24 CA CA002474814A patent/CA2474814A1/en not_active Abandoned
- 2003-01-24 EP EP03734691A patent/EP1485830B1/en not_active Expired - Lifetime
- 2003-01-24 WO PCT/EP2003/000761 patent/WO2003065248A2/en active IP Right Grant
- 2003-01-24 AT AT03734691T patent/ATE322045T1/de not_active IP Right Cessation
- 2003-01-24 DE DE60304331T patent/DE60304331T2/de not_active Expired - Lifetime
- 2003-01-24 JP JP2003564770A patent/JP4634715B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CA2474814A1 (en) | 2003-08-07 |
KR100572797B1 (ko) | 2006-04-24 |
US7260570B2 (en) | 2007-08-21 |
WO2003065248A3 (en) | 2004-03-11 |
CN100375090C (zh) | 2008-03-12 |
DE60304331T2 (de) | 2006-11-09 |
EP1485830B1 (en) | 2006-03-29 |
JP2005516306A (ja) | 2005-06-02 |
CN1620661A (zh) | 2005-05-25 |
DE60304331D1 (de) | 2006-05-18 |
US20030149687A1 (en) | 2003-08-07 |
ATE322045T1 (de) | 2006-04-15 |
WO2003065248A2 (en) | 2003-08-07 |
KR20040077918A (ko) | 2004-09-07 |
EP1485830A2 (en) | 2004-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4634715B2 (ja) | 任意の各国語での照会によるマッチング文書の検索 | |
US6952691B2 (en) | Method and system for searching a multi-lingual database | |
US6662152B2 (en) | Information retrieval apparatus and information retrieval method | |
JP3666004B2 (ja) | 多言語対応文書検索システム | |
Capstick et al. | A system for supporting cross-lingual information retrieval | |
US20180004838A1 (en) | System and method for language sensitive contextual searching | |
JP2010257488A (ja) | 対話形サーチクエリー改良のためのシステム及び方法 | |
JP3178421B2 (ja) | テキスト検索装置及びテキスト検索プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2003150623A (ja) | 言語横断型特許文献検索方法 | |
JP2001184358A (ja) | カテゴリ因子による情報検索装置,情報検索方法およびそのプログラム記録媒体 | |
JPH0944523A (ja) | 関連語提示装置 | |
Ntoulas et al. | The infocious web search engine: Improving web searching through linguistic analysis | |
JP4452527B2 (ja) | 文書検索装置、文書検索方法、および文書検索プログラム | |
JP2005018146A (ja) | 各国法律/規格/基準の比較,検索,翻訳システム | |
Larouk | Retrieval textual Information on the web: Multilingual documentary information or linguistic Open Data | |
JP4368550B2 (ja) | 文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラム | |
Celli et al. | Enabling multilingual search through controlled vocabularies: The AGRIS approach | |
Golub | Subject access in online information services for humanities: the case of LGBTQI fiction: Invited speech | |
Abbaci et al. | Index and Search XML Documents by Combining Content and Structure. | |
JP2001337969A (ja) | 知識獲得方法、文書情報構造化方法および装置と前記方法を実施するプログラムを記録した記録媒体 | |
Popescu et al. | Multilingual and content based access to flickr images | |
JPH07262198A (ja) | 文書検索装置 | |
JP2001325283A (ja) | 検索システム | |
JP2003228566A (ja) | 翻訳外国語文献表示システムおよびその表示のための組み合わせファイル |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070612 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070912 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20071016 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101119 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131126 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |