JP2002520712A - データ検索システムと方法およびサーチ・エンジンにおけるその使用 - Google Patents

データ検索システムと方法およびサーチ・エンジンにおけるその使用

Info

Publication number
JP2002520712A
JP2002520712A JP2000559494A JP2000559494A JP2002520712A JP 2002520712 A JP2002520712 A JP 2002520712A JP 2000559494 A JP2000559494 A JP 2000559494A JP 2000559494 A JP2000559494 A JP 2000559494A JP 2002520712 A JP2002520712 A JP 2002520712A
Authority
JP
Japan
Prior art keywords
word
sequence
text
words
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000559494A
Other languages
English (en)
Other versions
JP3581652B2 (ja
Inventor
リスビク、クヌト、マグネ
Original Assignee
ファースト サーチ アンド トランスファー エイエスエイ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ファースト サーチ アンド トランスファー エイエスエイ filed Critical ファースト サーチ アンド トランスファー エイエスエイ
Publication of JP2002520712A publication Critical patent/JP2002520712A/ja
Application granted granted Critical
Publication of JP3581652B2 publication Critical patent/JP3581652B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99937Sorting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Radar Systems Or Details Thereof (AREA)
  • Liquid Crystal Substances (AREA)
  • Automobile Manufacture Line, Endless Track Vehicle, Trailer (AREA)

Abstract

(57)【要約】 テキストと、テキストT内のワードおよび/または記号またはそのシーケンスとシーケンスP内のワードおよび/または記号の間の照合の近似的な次数の編集ディスタンス・メトリックを含む複合メトリックMと、語または記号のシーケンスSを前記シーケンスPへ変換する編集オペレーションの重み付けコスト機能と、前記テキストTと質問Qそれぞれの接尾語ツリー表現内のワードとワード・シーケンスの間の一致の次数を決定するサーチ・アルゴリズムを記憶するためのデータ構造を含んでいる情報検索用サーチ・システム。前記アルゴリズムは質問Qによりデータ構造をサーチして、前記質問へ特定された照合を有する情報を検索する。情報検索のためのサーチ・システムにおける方法が、ワード・シーケンス情報としてのテキストT内のワードの接尾語を記憶するワード・スペースト疎接尾語ツリーと、ワード・シーケンスSと同Pのワードサイズ依存編集ディスタンス・メトリックであって編集オペレーションのために重み付きコスト関数を含むものを生成し、ワード・シーケンスSRまたは検索された情報Rと、質問Qのワード・シーケンスPQとの間で、全ての照合についての編集ディスタンスを計算することにより、照合を決定する。近似サーチ・エンジンにおける使用。

Description

【発明の詳細な説明】
【0001】 本発明は情報検索のためのサーチ・システムに関し、特に、テキストTの形式
で記憶された情報であって、質問Qと検索される情報Rの間の照合の所定次数ま
たは変動次数により前記情報検索を実現し、前記サーチ・システムはテキスト(
T)を記憶するためのデータ構造、質問Qと検索される情報Rの間の一致の次数
を測定するメトリックM、サーチ特にキーワードに基づく全文サーチを実行する
サーチ・アルゴリズムを含んでいて、情報検索のためのサーチ・システムにおけ
る方法で、とりわけ情報がテキストTの形式で記憶され、テキストTがワードお
よびワードのシーケンスに分割され、ワードは記号のシーケンスであり、各ワー
ドは1つまたはそれ以上の接尾語で構成され、接尾語はワード構成シーケンス内
の記号のサブセットである前記方法と、前記サーチ・システムの使用に関する。
【0002】 人知の種々な分野の巨大な量の情報がコンピュータ・メモリ・システムに収集
され記憶されている。コンピュータ・メモリ・システムがますます公衆利用デー
タ通信ネットワークにリンクされるにつれて、公共的および個人的な使用のため
の情報のサーチと検索のシステムと方法が一層の努力で開発されてきた。しかし
ながら、現在のデータ・サーチ方法は、記憶された情報を効率的に検索して使用
する可能性を種々の制限がひどく減少させる。
【0003】 情報は種々のデータ・タイプの形式で記憶され得るし、情報のサーチと検索の
文脈において、動的データと静的データの間を識別することは有用である。動的
データはしばしばに継続的に変化するデータであるので、有効データのセットが
常に変化するのに対して、静的データは非常に稀にしか、または全然変化しない
。例えば株価のような経済データ、または気象データは急激な変化を受けやすい
ので動的である。他方、書物とドキュメントのアーカイバル・ストレージは通常
永久的な静的データである。データの揮発性の概念は、いかに長くデータが有効
であるかに関係する。データの揮発性は、その情報がどのように長くサーチし検
索されるかに関係がある。大量のデータは、サーチを容易にするために構造を必
要とするが、そうした構造を構築する時間コストは、そのデータが有効である時
間よりも高くてはならない。構造を構築するコストはデータ量によって決まり、
従って、情報をサーチするためのデータ構造の構築は、データ量と揮発性の両方
を考慮に入れなければならない。収集された情報はデータベースに記憶されるが
、これらは構造化されているかもしれないし、構造化されていないかもしれない
。その上、データベースはいくつかのタイプのドキュメントを含み得て、それに
は、映像、ビデオ、音響、フォーマット付きまたは注釈付きのテキストが含まれ
る。特に構造化データベースは、データのサーチと検索を容易にするために、通
常、索引を備えている。ワールド・ワイド・ウェブ(WWW)の成長は、複合ハ
イパーリンク・ドキュメントの収集の確実な成長を提供する。これらの大多数は
構造化データベース内に収集されず、サーチを容易にするインデックスは何も利
用できない。しかしながら、ワールド・ワイド・ウェブ内にドキュメントをサー
チする必要は明白であり、その結果、多数のいわゆるサーチ・エンジンが開発さ
れて、ワールド・ワイド・ウェブ内の情報が少なくとも部分的に利用できるよう
になった。
【0004】 サーチ・エンジンは、情報をサーチし検索する1つまたはそれ以上のツールで
あると一般に理解されている。サーチ・システムはまた、固有のサーチ・システ
ムに加えて、例えば多数のユニフォーム・リソース・ロケーター(URL)から
のテキストを含んでいる。そうしたサーチ・エンジンの例には、Alta Vi
sta、Inktomy technologyによるHotBot、Info
seek、Excite、Yahooがある。これらの全ては、ワールド・ワイ
ド・ウェブ内での情報のサーチと検索を遂行する機能を提供する。しかしながら
、それらの速度と性能は、ワールド・ワイド・ウェブ上で利用可能な情報の巨大
な量に決して整合せず、従って、これらのサーチ・エンジンのサーチと検索の性
能が、大いに望ましいものとして残る。
【0005】 テキスト・ドキュメントの大きなコレクションをサーチすることは、いくつか
の質問型を実行することにより通常行ない得る。最も一般的な質問型は、照合と
この変形である。質問される情報内に現存するはずであるキーワードまたはキー
ワードのセットを指定することにより、サーチ・システムはこの要件を満たすす
べてのドキュメントを検索する。基本的なサーチ方法は、いわゆる単一キーワー
ド照合に基づいている。キーワードpがサーチされて、このワードを含む全ての
ドキュメントが検索される。キーワード接頭語pをサーチすることも可能であり
、またドキュメント内のいずれかのキーワード内でこの接頭語が存在する全ての
ドキュメントがが検索される。キーワードによって検索する代わりに、しばしば
サーチはいわゆるイグザクト・フレーズ・マッチングに基づくこともあり、この
場合はサーチは特定のシーケンス内のいくつかの単一キーワードを使用する。当
業者に公知のように、キーワード・フレーズの厳密な照合は、多くのシステムに
おいてブール演算子によって、例えば情報のフィルタリングを可能にするAND
、OR、NOTのような演算子に基づいて実行され得る。例えばANDフレーズ
を使用すれば、このAND演算子によりリンクされる2つのキーワードを含む全
てのドキュメントが結果として返される。またNEARオペレータも、キーワー
ド照合により返すドキュメント自体およびそのドキュメント・テキスト内で互い
に「近く」位置するものを返すために使用される。多くの構造化データベースに
おいて、データベース内に含まれるドキュメントは、例えばドキュメント内の情
報のある部分またはタイプを記すフィールドを備えていて、注釈されている。こ
れにより、ドキュメントの部分のみの照合のためのサーチが可能になり、質問さ
れる情報のタイプが予め知られているときに有用である。
【0006】 テキスト・ドキュメント内でサーチするときにデータは構造化されていて、た
ぶん英語、ノルウェイ語などのようなある自然言語で存在するであろう。ある一
定の文脈によりドキュメントをサーチするときに、質問に近似的に照合するキー
ワードまたはフレーズを照合させるために、近接メトリックを適用することがで
きる。キーワードおよびフレーズ内のエラーを許容することは、近接のための普
通の方法であり、シソーラスを使用することはもう一つの普通の方法である。近
接サーチは、検索される情報と質問の間に、部分的な照合があることのみを必要
とする。国際公表出願WO96/00945、名称「可変長データ・シーケンス
照合方法と装置」(デリンガ他)、インターナショナル・ビジネス・マシン社に
譲渡は、入力からのサーチ・アーギュメント(入力キー)の少なくとも部分的な
照合、好ましくは最長の部分的照合または全ての部分的な照合を記憶し検索する
ためのトリー類似の構造(trie−like structure)を開示す
る。
【0007】 本発明の主要な目的は、大量のデータにおいて迅速で能率的な情報のサーチと
検索のためのサーチシステムと方法を供給することである。特に、分散した大量
のデータ記憶を有する情報システム、例えばインターネットのサーチのためのサ
ーチ・エンジンをインプリメントするのに適したサーチ・システムを供給するこ
とが、本発明の1つの目的である。理解すべきは、本発明によるサーチ・システ
ムは英数字記号の形式により記憶された情報をサーチし検索するのに決して限定
されず、ディジタル化された画像およびグラフィック記号の形式で記憶された情
報をサーチし検索するためにも同様に適用でき、同様に本書に使用されるワード
・テキストも、これらが部分的または全体的に記号のセットとして表現されると
きは、画像として解釈され得ることである。また理解すべきは、本発明によるサ
ーチ・システムが、商用コンピュータ・システム上で適当な高水準言語で書かれ
たソフトウェアとしてインプリメントできるが、前記の種類の情報のサーチと検
索のために専用プロセッサ装置の形式でインプリメントすることもできることで
ある。
【0008】 上記の諸目的と諸利点は本発明によるサーチ・システムにより実現されるが、
その特徴は、前記データ構造は、テキストTにおけるワードの接尾語とワード・
シーケンスと記号シーケンスを記憶する接尾語ツリーST(T)の形式における
ツリー構造を含んでいることと、テキストTにおけるワードまたは記号と質問Q
の間の照合の近似的な次数についての編集ディスタンス・メトリック、およびテ
キストTにおけるワードまたは記号のシーケンスSと質問シーケンスPの間の照
合の近似的な次数についての編集ディスタンス・メトリックの組合せを前記メト
リックMが含んでいて、後者の編集ディスタンス・メトリックがワードと記号の
1つのシーケンスSを他のワードと記号のシーケンスPへ変換する編集オペレー
ションのための加重コスト関数を含むことと、テキストTと質問Qの各々の接尾
語ツリー表現内のワードの間の照合の次数を決定する第1アルゴリズムおよび/
またはテキストTと質問Qの各々の接尾語ツリー表現内のワードのシーケンスの
間の照合の次数を決定する第2アルゴリズムを前記サーチ・アルゴリズムが含ん
でいて、前記第1および/または第2のアルゴリズムは、ワード、ワードのシー
ケンス、または記号のシーケンスまたはこれらの組合せの形式の質問Qで、デー
タ構造をサーチして、これにより前者と後者の間の照合の規定された次数による
質問Qに基づいて情報Rが検索されるようになっていることである。
【0009】 本発明によるサーチシステムの有利な実施例において、前記接尾語ツリーST
(T)は、テキストT内に接尾語の1つのサブセットのみを含んでいるワード・
スペースト疎接尾語ツリーSSTWS(T)である。
【0010】 上記の諸目的と諸利点はまた、本発明によるサーチ・システムにより実現され
るが、その特徴は、テキストT内のワード・セパレータ記号で開始する全ての接
尾語を表現するテキストTのワード・スペースト疎接尾語ツリーSSTWS(T)
を生成し、ワード・スペースト疎接尾語ツリーSSTWS(T)内のテキストT内
のワードのシーケンス情報を記憶し、前記シーケンスSを前記シーケンスPへ変
換する編集オペレーションのためのコストの最小額としてワード・シーケンスS
と同Pのために編集ディスタンス・メトリックD(S,P)を生成し、コストの
合計は各編集オペレーションのコスト関数の合計であり、シーケンスSをシーケ
ンスPへ変換するためのコストの最小額としてワード・シーケンスSと同Pのた
めにワード・サイズ依存編集ディスタンス・メトリックDWS(S,P)を生成し
、コストの合計はこの編集オペレーションの含まれるワード・サイズのためのパ
ラメータにより重みをつけられた各編集オペレーションのコスト関数の合計であ
り、全ての照合について編集ディスタンスD(SR,PQ)をそれぞれ計算するこ
とにより、検索された情報Rと質問Qのワード・シーケンスSRと同PQの間の照
合を決定することである。
【0011】 本発明による有利な方法は追加的に含むものとして、シーケンスSとシーケン
スPの間の近接のパラメータにより、シーケンスSを他のシーケンスPへ変更す
る編集オペレーションに重みを付けて、これにより、問題の編集オペレーション
のコストを決定するときにシーケンスSとシーケンスPの類似性を考慮に入れる
ことを含む。
【0012】 本発明による方法において、好ましくは、質問ワード・シーケンスPQ内の制
限されたワードの数についての編集ディスタンスD(SR,PQ)を計算すること
により、照合の数を制限する。
【0013】 上述の諸目的と諸利点はまた、近似サーチ・エンジン内で本発明によるサーチ
・システムを使用することにより実現することができる。
【0014】 本発明によるサーチ・システムは本質的に3つの部分、すなわち、データ構造
、近似的な照合のためのメトリック、サーチ・アルゴリズムからなる。全文検索
がターゲットであるときは、本質的に本発明によるサーチ・システムである場合
と同様に、検索可能であるべきデータ・セット全体が、高い質問性能をサポート
するデータ構造内に記憶される。
【0015】 本発明の基礎にある基本的な概念を、最初にやや詳しく議論する。テキストT
の形式で記憶された情報はワードとワードのシーケンスへ分割される。ワードは
、ワード境界項により分離された全テキストのサブストリングである。境界項の
セットはBTwordと記される。ワード境界項の共通セットはセット であり得て、ここで\tはタブ・キャラクタを記し、\nは改行キャラクタを記
し、\0はドキュメント終了指示子を記す。本発明の下記の説明に関して、スト
リングとシーケンスに関するいくつかの定義が有用である。
【0016】 (定義1:ストリング) ストリングはASCIIキャラクタのような、アルファベットから取られた記
号のシーケンスである。次にストリングの長さは、そのストリングに含まれてい
る記号またはキャラクタのインスタンスの数であり、|x|と記される。もしx
が長さmを有するならば、このストリングはまたx12...i...mと記され、
ここでxiはストリング内のi番目の記号を表現する。
【0017】 xのサブストリングは、x内の記号の連続グループにより与えられるストリン
グである。こうして、ストリングの始めまたは終りから1つまたはそれ以上のキ
ャラクタを削除することにより、サブストリングが得られる。
【0018】 (定義2:サブストリング、接尾語、接頭語) xのサブストリングは、ある についてのストリング である。ストリング はストリングxの接尾語であり、また、ストリング はストリングxの接頭語である。
【0019】 ワード・シーケンスの観念も使用される。
【0020】 (定義3:ワード・シーケンス) ワード・シーケンスは独立した連続番号である。ワード・シーケンスS=s1,
2,...,nは、s1、s2からsnまでのn個の単一ワード(またはストリング)
からなる。
【0021】 ワード・シーケンスはシーケンス境界項により区切られる。セット・シーケン
ス境界項はBTseqと記される。シーケンス境界項の一般的なセットは、セット
{’0\’}であり得て、ここで0\はドキュメント終了マーカを指示する。
【0022】 近似ワード照合のコンセプトは下記の通りに記述される。
【0023】 ストリングS=s1,2,...,nと質問項q=q12...mが与えられる。その
ときタスクは、もとの質問項qから離れた最大k個のエラーであるs内のqの全
ての出現を発見することである。近接メトリックが、qと潜在的な照合si..
.sjの間のエラーをどのように計算するかを決定する。
【0024】 近接ワードマッチングのための一般的なメトリックは、Levenstein
ディスタンスすなわち編集ディスタンスである(V.I.Levenstein
、「訂正、削除、挿入、反転ができるバイナリ・コード」、(ロシアの)Dok
lady Akademii nauk SSSR、第163巻、第4号、84
5−8頁、(1965年);またサイバネティクスと制御理論、第10巻、第8
号、707−10頁、(1966年))。このメトリックは、1つのストリング
を他へ変換するのに必要な編集オペレーションの最小数として定義される。編集
オペレーションはいずれかの書換え規則で与えられ、例えば、 ・(a→ε),削除 ・(ε→a),挿入 ・(a→b),変更
【0025】 pとmをそれぞれサイズiとjの2つのワードであるとする。そのとき、D(
i,j)はpのi番目の接頭語とmのj番目の接頭語の間の編集ディスタンスを
記す。そのとき編集ディスタンスは下記のように再帰的に定義される。
【0026】 ワード・シーケンス内のワードのレベル上で近似的な照合を定義することも可
能であり、これは下記のように定義される。
【0027】 各ワードがキャラクタのストリングであるn個のワードw1,w2...wn
らなるテキストTを与えられる。シーケンス・パターンPは、m個のワードp1
,p2,...,pmからなる。1≦i≦j≦nであるようなi,jについてシー
ケンスwi,wi+1...,wjから最大でk個のエラーまでp1,p2,...,
mが異なるならば、シーケンス・パターンPはTにおいて近似的な出現を有す
ると言われる。ここでも、近接メトリックが2つのシーケンスの間のエラーの数
を計算する仕方を決定する。
【0028】 サーチ・システム内の検索すべきテキストに、データのサーチを容易にするよ
うな仕方で、索引をつけなければならない。したがって、データ構造は本発明に
よるサーチ・システムのカーネル・データ構造であって、いわゆる接尾語ツリー
、特に疎接尾語ツリーに基づく。これら2つの構造を下記に定義する。接尾語ツ
リーS(T)はテキストT内のあり得る全ての接尾語のツリー表現である。接尾
語ツリーS(T)内の全ての単項ノードはその子と連結されて1つのコンパクト
・バリアント(compact variant)を生成する。
【0029】 図1はテキストT=“構造”(“structure”)のための接尾語ツリ
ーを示す。
【0030】 更に一層特殊には、本発明は疎接尾語ツリーに基づいている。これらは により、「疎接尾語ツリー」、第2回国際計算組み合わせ論年次大会(COCO
ON’96)集録、Springer出版社、219頁−230頁に紹介されて
いて、これもまた、D.R.Morrison「PATRICIA−英数字コー
ド化情報を検索するための実用アルゴリズム」、ジャーナル・オブ・ジ・ACM
、15、514−534頁(1968年)に基づいている。疎接尾語ツリーは下
記のように定義される。
【0031】 (定義4:疎接尾語ツリー) テキストTの疎接尾語ツリーSST(T)は接尾語ツリーであって、テキスト
の接尾語ツリーST(T)内に存在する接尾語のサブセットを1つだけ含むもの
である。
【0032】 本発明によるサーチ・システムを使用して全てのワードをサーチするときに、
ワード境界のみで開始して接尾語を記憶することにより、非均一的に間隔を取っ
た疎接尾語ツリーが有利に生成され得る。ワード・スペースト(word−sp
aced)疎接尾語ツリーのコンセプトは下記のように定義される。
【0033】 (定義5:ワード・スペースト疎接尾語ツリー) テキストTの疎接尾語ツリーSSTws(T)は、テキスト内のワード・セパレ
ータ・キャラクタで開始する接尾語のみを含む疎接尾語ツリーSST(T)であ
る。
【0034】 図2は、ワード・スペースト疎接尾語ツリーの2つの例を示す。読みやすくす
るために、接尾語の一部分を省略してある。T=“to be the bes
t”のためのワード・スペースト疎接尾語ツリーは図2の左側の構造であり、ま
たT=“to make the only major modificat
ion”のためのワード・スペースト疎接尾語ツリーは図2の右側の構造である
【0035】 本発明のサーチ・システムにおいて、テキストは、ワード・スペースト疎接尾
語ツリー内に独立して記憶される複数のワードに自然に分割される。サーチング
のためのアトミック・サーチ項がワード自体であるので、有利なことに各接尾語
がワードの末尾で終結する。これは、この疎接尾語ツリーをいわゆるパトリシア
・トリー(PATRICIA trie)(Morrison、前掲書中に)へ
縮小する。この文献中に定義されるトリーはルート付きのツリーであって、その
性質は、ルート以外の各ノードがアルファベットの記号を含み、また同一のツリ
ーからの2つの子が同一記号を有することがない。注意すべきは、ワード・トリ
ーがワード“検索”から出ていることであり、したがって、トリーがデータの検
索に適したツリー構造であることである。パトリシア・トリーは、葉ノード内に
記憶される接尾語がキーワード区切り文字に限定されるキーワード・スペースト
疎接尾語ツリー(KWSツリー)として定義される。キーワード{“avoid
”,“abuse”,“be”,“become”,“brease”,“sa
y”}のセットが図3に示されている。本発明のサーチ・システムに使用される
構造は、このサーチ・システムがワードのシーケンス情報を明示的に記憶するの
で、パトリシア・トリーと異なる。接尾語の長さを減少させるためには、葉ノー
ドの表現を変更する必要がある。オリジナル・テキストへのポインタは接尾語自
体により置きかえられる。図2に示したのと同じ2つのストリングについて、こ
の種の接尾語長さ縮小を図4に示す。言い換えれば図4はワード境界で切り取ら
れた接尾語を有するワード・スペースト疎接尾語ツリーを示す。T=“to b
e the best”のためのワード・スペースト疎接尾語ツリーは図の左側
に示され、またT=“to make the only major mod
ification”のためのワード・スペースト疎接尾語ツリーは図の右側に
示されている。葉ノードは、その葉ノードにより表現されるワードが生起する全
ての位置のリストを含む。
【0036】 オリジナル・テキストに見出される情報の明示的なシーケンスを使用する代わ
りに、本発明は、ワード・スペースト疎接尾語ツリー内に、シーケンス情報を明
示的に記憶する。これは、オリジナル・テキスト内の連続する語を表現する葉ノ
ードの間にポインタを使用することにより実行される。少なくとも特定の葉ノー
ドにより表現されるワードの全ての生起が利用できるように、次の連続する葉へ
ポインタが付加されなければならない。
【0037】 葉ノードはそれが表現するワードの接尾語のみを含むので、生起リスト内にシ
ーケンス・ポインターズを横断するときに各連続ワードの接尾語だけが現れる。
これは、接尾語だけでなく葉ノード内のワード全体を記憶することにより処理さ
れ、こうして本発明のデータ構造もまた、この点でパトリシアと異なる。明示的
に記憶されたワード・シーケンス情報のデータ構造は、次の連続ワードとその生
起へのポインタを有する生起リストと共に、図5に示されている。
【0038】 本発明によるサーチ・システムは、生起リストを組織するためにパトリシア・
トリーを使用する(Morrison、前掲書中に)。パトリシア・トリーは、
サーチ・システムが、時間O(|p2|)で、ストリングp2を照合する全ての連
続ワードのリストにアクセスできるようにし、ここで|p2|はもちろんp2の長
さである。生起リストを組織するためにパトリシア・トリーを使用することによ
り、テキストからワードを記憶してシーケンス情報を維持するための完全に定義
されたツリー構造が得られる。組織された生起リストのためのパトリシア・トリ
ーと特別な未ソート生起リストの両方を有する典型的な葉ノードが、図6に示さ
れている。本発明のサーチ・システムに使用されるような生起リストのためのメ
モリ要件の例として、約742538のドキュメントがあるデータベースは、合
計333 856 744語と538 244のディスティンクト・ワードの辞
典を有する。このデータベースの全体のサイズは2054.52MBである。そ
の平均ワード長は、こうして6.45バイトである。疎接尾語ツリーは各内部ノ
ードに8バイトを使用し、32ビットのポインタを使用する。各ワードについて
、平均3個の内部ノードが使用されているとみなされる。そのとき葉ノードは生
起リストへのポインタのためのワード全体プラス32ビットを記憶するために、
6.45バイトを必要とする。34.45バイト/ワードの全体が全サイズの1
8.108MBを与える。その上、生起リストは入力ごとの4バイトと、フル・
バージョンを使用する場合の12バイトを有する。したがって、生起リストの全
体のメモリ要件は1273MBから3820MBまで変化する。疎接尾語ツリー
を使用するデータ構造は、オリジナル・テキストの60%から200%の間のサ
イズを有する。これは逆ファイルの要件に比較し得るが、しかし本発明によるサ
ーチ・システムに使用される疎接尾語ツリーは、遥かに迅速なサーチを供給して
、近似照合を可能にし、シーケンス照合を遂行しやすくする。
【0039】 近似サーチにおいては、あり得る照合にエラー測度を与えるためにメトリック
が使用される。本発明によるサーチ・システムはいくつかのメトリックを採用し
、特にメトリックの独自な組合せを採用する。これらのメトリックはメトリック
の組合せとともに、以下に議論される。
【0040】 キャラクタと同様にワードに直観的に適用される削除、挿入、変更のオペレー
ションを、上に定義した編集ディスタンス・メトリックが可能にする。フレーズ
の照合における一般的なエラーは、ワードの脱落、追加、変更である。従って、
近似ワードシーケンス照合問題に適用するために、以前に定義した編集ディスタ
ンス・メトリックを適合させて拡張すべきである。シーケンスの編集オペレーシ
ョンは下記に定義される。
【0041】 (定義6:シーケンスの編集オペレーション) ワードの1つのシーケンスSをワードの他のシーケンスPに変換するために、
シーケンス内のワードに許される編集オペレーションを、下記の書換え規則によ
り書きこむことができる。 ・(a→ε),シーケンスからのワードaの削除 ・(ε→a),シーケンスへのワードaの挿入 ・(a→b),ワードaからワードbへの変更 ・(ab→ba),隣接するワードaとワードbの置換え
【0042】 アトムとしてのキャラクタの代わりに、本発明によるサーチ・システムは、ワ
ードへ編集オペレーションを適用し、そのときワードはオペレーショナル・アト
ムとみなされる。
【0043】 コスト関数 は下記のように定義される定数である。 ここで は下記のように定義される。
【0044】 上記の編集オペレーションを使用することにより、今やシーケンスの編集ディ
スタンスを定義できる。
【0045】 (定義7:シーケンスの編集ディスタンス) シーケンスのための編集ディスタンス・メトリックは、シーケンスS=s1, 2,...,nおよびシーケンスP=p1,2,...,mの間のディスタンスDseq(S,
P)を、シーケンスSをシーケンスPへ変換する編集オペレーションのシーケン
スのためのコストc(x→y)の最小額として定義する。
【0046】 本発明によるサーチ・システムはシーケンスのための編集ディスタンス・メト
リックを強化して、その上で作動されるワードのサイズによる編集オペレーショ
ンのコストの重みを付ける。
【0047】 (定義8:シーケンスのためのワード・サイズ依存編集ディスタンス) シーケンスのためのワード・サイズ依存編集ディスタンスは、1つのシーケン
スを他へ変換するのに必要な編集オペレーションのためのコストの最小額として
定義される。これらのコスト関数はそのオペランドのワード・サイズによって決
まる。
【0048】 本発明によるサーチ・アルゴリズムにおいて、コスト関数の定義は下記の方程
式により与えられる。 ここでlは比較される2つのシーケンスの中の1つのワードの平均長さを記す。
各編集オペレーションのコストは、シーケンスの全体長さの変化に比例するサイ
ズにより、またはカレントのワード長さと考察するシーケンス内の平均ワード長
さとの比率により、重み付けられる。
【0049】 さてこのディスタンス・メトリックは、ワード長さとワード・シーケンスの意
味文脈へのそのワードの重要性との間のある関係の仮定を反映する。その上、本
発明によるサーチ・システムは、変更編集オペレーション(a→b)が使用され
るとき、キャラクタ・レベルの近接が採用される。あるワードaを他のワードb
で置換えることは、これら2つのワードの間の類似性に関係する。従って変更編
集オペレーションの新しいコスト関数は下記のように与えられる。 D(a,b)が、語の正規編集ディスタンス測定関数であるとき、0は完全な類
似性を意味し、1は類似性が全くないことを示す。
【0050】 本発明によるサーチ・システムは、式(4)、(5)、(6)により与えられ
るコスト関数を有するシーケンスの編集ディスタンス・メトリックと、式(1)
により与えられるワードの編集ディスタンス・メトリックを組合せる。これは、
照合されたワードがお互いからk個のエラーよりも離れているときにのみ、シー
ケンス編集オペレーションが使用されることを意味する。
【0051】 本発明によるサーチ・システムに使用されるアルゴリズムは、これらの説明さ
れた構造の効率的なサーチを遂行する。上記のメトリックにより照合が発見され
る。
【0052】 ワード・スペースト疎接尾語ツリー内の近似ワード照合が、編集ディスタンス
マトリクスの計算と接尾語ツリーの横断の組合せにより実行される。このための
アルゴリズムを擬似コードで書いたものが表Iに与えられる。
【0053】 このアルゴリズムは、H.Shang & T.H.Merrettal、「
近似ストリング・マッチングの試み」、知識・データ工学についてのIEEEト
ランザクション、第5巻、第4号、540頁−547頁(1996年)により提
案されたトリー照合アルゴリズムから適合されたものである。このアルゴリズム
の走行時間の予想される最悪の場合は、Shang & Merrettalに
よれば、O(k|Σ|k)である(前掲書に)。
【0054】 近似ワード・シーケンス照合は、全ての可能な照合についてワード・シーケン
ス編集ディスタンスを計算することを必要とする。しかしながら、可能な照合の
数は、可能なワード上にのみ編集ディスタンスの計算を開始することにより制限
できる。シーケンスから1つのワードを削除するコストが可能な開始ワードの数
を決定する。1つの質問シーケンスPQ内のi個のファースト・ワードを削除す
るコストの蓄積が与えられたエラー・スレッショルドの上にあがれば、質問のi
番目のワードにより開始する候補シーケンスは、恐らく照合ではあり得ない。従
ってi個のワードの質問シーケンスPQについて、最大i個の開始ワードが試み
られる。ツリーのシーケンス構造内にバックポインタが1つもないので、全ての
可能な照合が得られることは保証されない。バックポインタを追加することが、
この問題を解決する。本発明によるサーチ・システムに使用されるような近似ワ
ード・シーケンス照合のためのアルゴリズムは、下記の表IIに擬似コードで与え
られる。このアルゴリズムは、p1,2...により逐次的にファースト・キーワー
ドを照合して、全ての可能な開始位置をテストすることを試みる。
【0055】 表IIのApproxSequenceMatchアルゴリズムにおいて、Ap
proxMatchRest関数は、下記の表IIIのアルゴリズムにより定義さ
れる。この関数は、初期エラー値を使用して、残りのシーケンスを照合する。
【0056】 表IIと表IIIのアルゴリズムは、表Iのアルゴリズムと同一の擬似コードで書
かれている。
【0057】 シーケンス内のファースト・ワードに一致する葉ノードを発見するために使用
されるFindExact関数は、ツリーの単一の横断を遂行し、その走行時間
はO|p1|であり、ここでp1は質問シーケンスPQ内のファースト・ワードを
記する。編集ディスタンスの計算は、直接の動的プログラミングを使用して|P
2時間内に実行できるし、またはこの計算アルゴリズムの改良バージョンを使
用してO(k)時間(ここでkはエラー・スレッショルドを記す)内に実行でき
るが、E.Ukkonen、「ストリング内の近似パターンの発見」、ジャーナ
ル・オブ・アルゴリズム、第6巻、132頁−137頁(1985年)を参照さ
れたい。
【0058】 Σnocc(pi)が、ワード・シーケンス内の各ワードpiの生起の数の総合計
を記すならば、そのとき最悪の場合、走行時間は、O(kΣnocc(pi))であ
る。
【0059】 最後に、本発明によるサーチ・システムに基づくサーチ・エンジンのインプリ
メンテーションを簡単に議論する。特に、本発明によるサーチ・システムに基づ
くサーチ・エンジンは、近似サーチ・エンジン(ASE)としてインプリメント
され、大きなドキュメント・コレクションに索引をつけて、これらのドキュメン
ト・コレクションの厳密サーチと近似サーチのためのアルゴリズムを供給するこ
とを意図している。ASEは大きなテキストまたはドキュメントのコレクション
を記憶するデータ構造を供給する。理解すべきは、データ構造が画像、ビデオ、
音響、のような付加的な情報を含むドキュメントから生成されるかも知れず、ま
たテキストはフォーマットまたは注釈されているかもしれないことである。デー
タ構造は上に議論したワード・スペースト疎接尾語ツリーと同一であり、もちろ
ん、ワードはサーチ・システムのキーワードであると理解すべきであり、従って
このワード・スペースト疎接尾語ツリーを代わりにキーワード・スペースト疎接
尾語ツリー(KWSツリー)と名付けることができる。ASEは、KWSツリー
内のドキュメントに索引をつけるアルゴリズムを含む。もちろんこれらのアルゴ
リズムは本発明によるサーチ・システムの一部分を形成しないが、しかしそれら
は当業者によく知られていて文献にも記載されているので、たとえば D.R.Morrison(前掲書)を参照されたい。
【0060】 本発明によりASEの中で使用されるサーチ・システムは、KWSツリー内の
パターンの正確な照合と近似照合の両方のためのアルゴリズムを採用する。上記
の表Iと表IIに与えられるアルゴリズムは、メトリックのようなノン・ユニフォ
ーム編集ディスタンスを有する近似ワードとワードのシーケンスについて使用さ
れる。KWSツリー内の長さmを有するキーワードpの正確な一致を発見するこ
とは、当分野で知られており、ツリー構造の単一の横断として容易にインプリメ
ントされる。擬似コードで書かれた正確なキーワード照合のために適当なアルゴ
リズムを表IVに示す。本発明によるサーチ・システムは正確なシーケンス照合の
ためのアルゴリズムをもサポートできる。正確なキーワード・シーケンス照合の
アルゴリズムは当分野で知られており、下記の表Vに擬似コードで示されるよう
に容易にインプリメントされる。ここに与えられるアルゴリズムは第1キーワー
ドがあれば、その厳密な照合を発見する。次にそれは、第1キーワードの全ての
生起について、第2キーワードが質問の第2キーワードに照合するかどうかをチ
ェックする。もし照合すれば、表VのMatchRest手順が使用されて、2
つの第1キーワードの生起が全シーケンスにおいて照合するかどうかを決定する
。KWSツリー内の近似キーワード照合のために、サーチシステムは上記の表I
のアルゴリズムをインプリメントする。適当なキーワード・シーケンス照合のた
めに、サーチ・システムは上記の表IIのアルゴリズムをインプリメントして、p 1,2...により逐次的にファースト・キーワードを照合して、全ての可能な
開始位置をテストして、表IIIに示すApproxMatchRest機能を適
用して、ある特定の位置で開始するシーケンスを照合して、初期エラー値を処理
する。
【0061】 最後にASEは、ドキュメント・コレクションの索引付けと質問の制御をユー
ザに与える1つの単純なフロント・エンドを必要とする。このフロント・エンド
はまた、ドキュメント・コレクションの統計を備えて、WWW経由などのリモー
ト・アクセスと、ローカル・サーバ・ユーザ・インターフェイスの両方を供給す
ることができる。
【0062】 本発明によるサーチ・システムを有するASEは、新しい索引付けとサーチの
アルゴリズムを容易に追加できるようにする仕方であるので一般的である。また
、各ドキュメントまたはキーワードについて特別な情報を記憶しているので、容
易な仕方でインプリメントできる。特に、フロント・エンドはデータ・構造とサ
ーチ・アルゴリズムから独立しているので、これらにおける内部変更が前者の設
計に何の影響もしない。
【0063】 本発明によるサーチ・システムを使用することにより、ASEがデータ・構造
内で可能な限り少ないメモリのオーバーヘッドを有するように設計できる。また
、サーチができるだけ速くなるように設計できる。しかしながら、これら2つの
要素の間には、通常トレード・オフが存在する。
【0064】 要約すると、本発明によるサーチ・システムを有するASEは、4つの大きな
モジュールを有する。
【0065】 1. KWSツリー構造内のドキュメントを索引付けするためのドキュメント
・インデクシング・モジュールDIM。このモジュールはまた、いくつかのドキ
ュメントのタイプをサポートするための全ての拡張を含む。
【0066】 2. キーワード・スペースト疎接尾語ツリー(KWSツリー)に基づくデー
タ・記憶装置モジュール。
【0067】 3. KWSツリーをサーチするためのサーチ・アルゴリズム・モジュールS
AMであって、ワードおよびワード・シーケンスをそれぞれ正確整合および/ま
たは近似整合するアルゴリズムを含んでいるもの。
【0068】 4. ローカル・サーバ・ユーザ・インターフェイスとリモート質問のための
ネットワーク・インターフェイスの両方を含んでいる、ユーザ・インターフェイ
ス・フロント・エンド・モジュール。
【0069】 ASEの4つのモジュールは共に作用して、完全なサーチ・エンジンの機能性
を供給する。異なったモジュールの間のデータの流れを図7に示す。あるドキュ
メントのコレクションの索引付けが、インデクシング・アルゴリズムを含んでい
るドキュメント・インデクシング・モジュールDIM内で実行される。もちろん
このモジュールは本発明によるサーチ・システムの1つではなく、使用できるイ
ンデクシング・アルゴリズムは当分野でよく知られている。ドキュメント内に見
出されるテキストが、記憶のためにデータ記憶装置モジュールDSMへ渡される
。もちろん、データ記憶装置モジュールは、本発明によるサーチ・システムの一
部分であり、KWSツリー構造に基づいて示されているとおりである。サーチ・
アルゴリズム・モジュールSAMは、データ記憶装置モジュール内に配置された
サーチ用のアルゴリズムを含む。このモジュールは本発明によるサーチ・システ
ムをインプリメントして、ツリーとノード情報についてデータ構造に質問してサ
ーチ処理ができるようにし、同時に状態変数を維持する。フロント・エンド・モ
ジュールがたとえばワーク・ステーション上またはパーソナル・コンピュータ上
などにインプリメントされて、上述の機能性を供給する。
【0070】 既に導入部で述べたように、本発明によるサーチ・システムは、ワークステー
ションを含む商用のコンピュータ・システム上で、適当な高水準言語で書かれた
ソフトウェアとしてインプリメントできることを理解すべきである。それはまた
前述のように専用プロセッサの形式でもインプリメントでき、それは、多数の質
問ワード・シーケンスを有する近似照合のために、大きなワード・シーケンスを
並列に処理できる多数の並列プロセッサを有利に含み得る。プロセッサの固定オ
ペレーショナル・パラメータは、それから低レベル・コードに入力され、一方K
WSツリー構造からのキーワード・シーケンス入力が、巨大な量のデータへの質
問の極度に迅速な処理を可能にするので、本発明によるサーチ・システムは、従
ってワールド・ワイド・ウェブなどにおけるサーチの遂行に高度に適しており、
KWSツリー構造内でさえ現在ワールド・ワイド・ウェブ上に提供されている全
てのドキュメントを索引付けることができ、将来のワールド・ワイド・ウェブに
予想されるデータ量の増加をも処理できる。
【図面の簡単な説明】
本発明によるサーチ・システムと方法を、添付図面を参照しながら、前記に詳
細に説明してきた。
【図1】 接尾語ツリーの一例を示す。
【図2】 本発明に使用されるワード・スペースト疎接尾語ツリーの例である。
【図3】 先行技術として知られるいわゆるパトリシア・トリーの例である。
【図4】 本発明に使用されるワード・スペースト疎接尾語ツリーの更なる例である。
【図5】 本発明に使用される明示的に記憶されたワード・シーケンス情報である。
【図6】 本発明に使用される葉ノード構造である。
【図7】 本発明によるサーチ・システムを有するサーチ・エンジンの構造を図式的に示
す。
【手続補正書】特許協力条約第34条補正の翻訳文提出書
【提出日】平成12年6月23日(2000.6.23)
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】全文
【補正方法】変更
【補正内容】
【発明の名称】 データ検索システムと方法およびサーチ・エンジンにおけるそ
の使用
【特許請求の範囲】
【発明の詳細な説明】
【0001】 本発明は情報検索、特にテキストTの形で記憶された情報のためのサーチシス
テムであって、テキストTがワードおよび/または記号とそれらのシーケンスを
含んでいて、前記情報検索はテキストTがワードおよび/または記号とそれらの
シーケンスを含んでいる質問QとテキストTがワードおよび/または記号とそれ
らのシーケンスを含んでいる検索される情報Rの間の照合の所定または変動の次
数で実現し、少なくともテキストTの一部分を記憶するためのデータ構造と、前
記質問Qと検索される情報Rの間の照合の次数を測定するメトリックMと、サー
チ、特にキーワードkwに基づいて全文サーチを実行するサーチ・アルゴリズム
をインプリメントする前記サーチ・システムと;特にテキストの形式で記憶され
た情報の情報検索のシステムにおける方法であって、テキストTがワードおよび
記号とそれらのシーケンスを含んでいて、ワードおよび記号とそれらのシーケン
スを含んでいる質問QとテキストTからのワードおよび記号とそれらのシーケン
スを含んでいる検索された情報Rの間の所与または変動の次数により前記情報検
索が実現し、検索された情報RはテキストTからのワードおよび記号とそれらの
シーケンスを含んでいて、前記サーチ・システムは少なくともテキストTの一部
分を記憶するためのデータ構造と、質問Qと検索された情報Rの間の総合の次数
を測定するメトリックMを含んでいて、特にキーワードkwに基づく全文サーチ
であるサーチを実行するサーとアルゴリズムを前記サーチシステムがインプリメ
ントし、前記テキスト内の前記情報はワードとワード・シーケンスへ分割され、
前記ワードはワード境界項により分離された全テキストのサブストリングであっ
て記号のシーケンスを形成し、各ワードは記号のシーケンスとして構成される前
記方法に関する。
【0002】 本発明はまた、前記サーチ・システムの使用に関する。
【0003】 人知の種々な分野の巨大な量の情報がコンピュータ・メモリ・システムに収集
され記憶されている。コンピュータ・メモリ・システムがますます公衆利用デー
タ通信ネットワークにリンクされるにつれて、公共的および個人的な使用のため
の情報のサーチと検索のシステムと方法が一層の努力で開発されてきた。しかし
ながら、現在のデータ・サーチ方法は、記憶された情報を効率的に検索して使用
する可能性を種々の制限がひどく減少させる。
【0004】 情報は種々のデータ・タイプの形式で記憶され得るし、情報のサーチと検索の
文脈において、動的データと静的データの間を識別することは有用である。動的
データはしばしば継続的に変化するデータであるので、有効データのセットが常
に変化するのに対して、静的データは非常に稀にしか、または全然変化しない。
例えば株価のような経済データ、または気象データは急激な変化を受けやすいの
で動的である。他方、書物とドキュメントのアーカイバル・ストレージは通常永
久的な静的データである。データの揮発性の概念は、いかに長くデータが有効で
あるかに関係する。データの揮発性は、その情報がどのように長くサーチし検索
されるかに関係がある。大量のデータは、サーチを容易にするために構造を必要
とするが、そうした構造を構築する時間コストは、そのデータが有効である時間
よりも高くてはならない。構造を構築するコストはデータ量によって決まり、従
って、情報をサーチするためのデータ構造の構築は、データ量と揮発性の両方を
考慮に入れなければならない。収集された情報はデータベースに記憶されるが、
これらは構造化されているかもしれないし、構造化されていないかもしれない。
その上、データベースはいくつかのタイプのドキュメントを含み得て、それには
、映像、ビデオ、音響、フォーマット付きまたは注釈付きのテキストが含まれる
。特に構造化データベースは、データのサーチと検索を容易にするために、通常
、索引を備えている。ワールド・ワイド・ウェブ(WWW)の成長は、複合ハイ
パーリンク・ドキュメントの収集の確実な成長を提供する。これらの大多数は構
造化データベース内に収集されず、サーチを容易にするインデックスは何も利用
できない。しかしながら、ワールド・ワイド・ウェブ内にドキュメントをサーチ
する必要は明白であり、その結果、多数のいわゆるサーチ・エンジンが開発され
て、ワールド・ワイド・ウェブ内の情報が少なくとも部分的に利用できるように
なった。
【0005】 サーチ・エンジンは、情報をサーチし検索する1つまたはそれ以上のツールで
あると一般に理解されている。サーチ・システムはまた、固有のサーチ・システ
ムに加えて、例えば多数のユニフォーム・リソース・ロケーター(URL)から
のテキストを含んでいる。そうしたサーチ・エンジンの例には、Alta Vi
sta、Inktomy technologyによるHotBot、Info
seek、Excite、Yahooがある。これらの全ては、ワールド・ワイ
ド・ウェブ内での情報のサーチと検索を遂行する機能を提供する。しかしながら
、それらの速度と性能は、ワールド・ワイド・ウェブ上で利用可能な情報の巨大
な量に決して整合せず、従って、これらのサーチ・エンジンのサーチと検索の性
能が、大いに望ましいものとして残る。
【0006】 テキスト・ドキュメントの大きなコレクションをサーチすることは、いくつか
の質問型を実行することにより通常行ない得る。最も一般的な質問型は、照合と
この変形である。質問される情報内に現存するはずであるキーワードまたはキー
ワードのセットを指定することにより、サーチ・システムはこの要件を満たすす
べてのドキュメントを検索する。基本的なサーチ方法は、いわゆる単一キーワー
ド照合に基づいている。キーワードpがサーチされて、このワードを含む全ての
ドキュメントが検索される。キーワード接頭語pjをサーチすることも可能であ
り、またドキュメント内のいずれかのキーワード内でこの接頭語が存在する全て
のドキュメントが検索される。キーワードによって検索する代わりに、しばしば
サーチはいわゆるイグザクト・フレーズ・マッチングに基づくこともあり、この
場合はサーチは特定のシーケンス内のいくつかの単一キーワードを使用する。当
業者に公知のように、キーワード・フレーズの厳密な照合は、多くのシステムに
おいてブール演算子によって、例えば情報のフィルタリングを可能にするAND
、OR、NOTのような演算子に基づいて実行され得る。例えばANDフレーズ
を使用すれば、このAND演算子によりリンクされる2つのキーワードを含む全
てのドキュメントが結果として返される。またNEARオペレータも、キーワー
ド照合により返すドキュメント自体およびそのドキュメント・テキスト内で互い
に「近く」位置するものを返すために使用される。多くの構造化データベースに
おいて、データベース内に含まれるドキュメントは、例えばドキュメント内の情
報のある部分またはタイプを記すフィールドを備えていて、注釈されている。こ
れにより、ドキュメントの部分のみの照合のためのサーチが可能になり、質問さ
れる情報のタイプが予め知られているときに有用である。
【0007】 テキスト・ドキュメント内でサーチするときにデータは構造化されていて、た
ぶん英語、ノルウェイ語などのようなある自然言語で存在するであろう。ある一
定の文脈によりドキュメントをサーチするときに、質問に近似的に照合するキー
ワードまたはフレーズを照合させるために、近接メトリックを適用することがで
きる。キーワードおよびフレーズ内のエラーを許容することは、近接のための普
通の方法であり、シソーラスを使用することはもう一つの普通の方法である。近
接サーチは、検索される情報と質問の間に、部分的な照合があることのみを必要
とする。国際公表特許出願WO96/00945、名称「可変長データ・シーケ
ンス照合方法と装置」(デリンガ他)、インターナショナル・ビジネス・マシン
社に譲渡は、入力からのサーチ・アーギュメント(入力キー)の少なくとも部分
的な照合、好ましくは最長の部分的照合または全ての部分的な照合を記憶し検索
するためのトリー類似の構造(trie−like structure)を開
示する。
【0008】 一般的な先行技術を更に明らかにするために、国際公表特許出願WO92/1
5954(キンバル他、米国のレッド・ブリック・システム社に譲渡、)および
米国特許第5 627 748号(ベイカー他、米国のルーセント・テクノロジ
ー社へ譲渡)に言及することができ、これらは両方とも正方行列内のサーチ/照
合のための接尾語ツリーの形式のデータ構造を開示する。これら2つの公表特許
はいずれも、リンクされたリストを照合中に使用すること以外には、正規の接尾
語表現を超えるものを何も開示せず、近似照合のためにサーチ中にサーチ空間を
制限する解決法を教示または示唆しない。しかしながら、接尾語ツリーに基づく
データ構造をサーチに適用するときには、そうした解決法が最も望ましく、特に
、ワールド・ワイド・ウェブに見出し得るような極度に大きなドキュメント・コ
レクションにおける近似照合において、最も望ましい。
【0009】 こうして本発明の主要な目的は、大量のデータにおいて迅速で能率的な情報の
サーチと検索のためのサーチシステムと方法を供給することである。特に、分散
した大量のデータ記憶を有する情報システム、例えばインターネットのサーチの
ためのサーチ・エンジンをインプリメントするのに適したサーチ・システムを供
給することが、本発明の1つの目的である。理解すべきは、本発明によるサーチ
・システムは英数字記号の形式により記憶された情報をサーチし検索するのに決
して限定されず、ディジタル化された画像およびグラフィック記号の形式で記憶
された情報をサーチし検索するためにも同様に適用でき、同様に本書に使用され
るワード・テキストも、これらが部分的または全体的に記号のセットとして表現
されるときは、画像として解釈され得ることである。また理解すべきは、本発明
によるサーチ・システムが、商用コンピュータ・システム上で適当な高水準言語
で書かれたソフトウェアとしてインプリメントできるが、前記の種類の情報のサ
ーチと検索のために専用プロセッサ装置の形式でインプリメントすることもでき
ることである。
【0010】 上記の諸目的と諸利点は本発明によるサーチ・システムにより実現されるが、
その特徴は、前記データ構造は、テキストTにおけるワードおよび/または記号
とそれらシーケンスの接尾語を記憶する非均一スペースト疎接尾語ツリーST(
T)の形式におけるツリー構造を含んでいることと、テキストTにおけるワード
および/または記号と質問Qの間の照合の近似的な次数についての編集ディスタ
ンス・メトリック、およびテキストTにおけるワードおよび/または記号のシー
ケンスSと質問Qにおけるワードおよび/または記号の質問シーケンスPの間の
照合の近似的な次数についての編集ディスタンス・メトリックの組合せを前記メ
トリックMが含んでいて、後者の編集ディスタンス・メトリックが前記テキスト
T内のワードおよび/または記号の1つのシーケンスSを前記質問Q内のワード
および/または記号のシーケンスPへ変換する編集オペレーションのための加重
コスト関数を含み、前記加重は、変換におけるシーケンスの長さの変化に比例す
るかまたは照合すべきシーケンスにおけるワードおよび/または記号のサイズに
よって異なる1つの値によって実現することと、テキストTと質問Qの各々の接
尾語ツリー表現内のワードおよび/または記号の間の照合の次数を決定する第1
アルゴリズムおよびテキストTと質問Qの各々の接尾語ツリー表現内のワードお
よび/または記号のシーケンスの間の照合の次数を決定する第2アルゴリズムを
インプリメントされた前記サーチ・アルゴリズムを含んでいて、前記第1および
/または第2のアルゴリズムは、ワード、ワードのシーケンス、または記号のシ
ーケンスまたはこれらの組合せの形式の質問Qで、データ構造をサーチして、こ
れにより前者と後者の間の照合の規定された次数による質問Qに基づいて情報R
が検索されるようになっていることと、前記サーチ・アルゴリズムはまたオプシ
ョンとして、テキストTおよび質問Qの各々の接尾語ツリー表現におけるワード
および/または記号の間の正確な照合を決定する第3アルゴリズムと、テキスト
Tおよび質問Qの各々の接尾語ツリー表現におけるワードおよび/または記号の
シーケンスの間の正確な照合を決定する第4アルゴリズムを含んでいて、前記第
3アルゴリズムおよび/または前記第4アルゴリズムはワードか記号かワードの
シーケンスか記号のシーケンスかこれらの組合せかの形式における質問Qにより
データ構造をサーチして、これにより情報Rが質問Qに基づいて、前者と後者の
正確な照合により検索されることである。
【0011】 本発明によるサーチシステムの有利な実施例において、前記接尾語ツリーST
(T)は、テキストT内に接尾語の1つのサブセットのみを含んでいるワード・
スペースト疎接尾語ツリーSSTWS(T)である。
【0012】 それからワード・スペースト疎接尾語ツリーSSTWS(T)は、好ましくはキ
ーワード・スペースト疎接尾語ツリーSSTkWS(T)である。
【0013】 本発明の更なる有利な実施例において、キーワード・スペースト疎接尾語ツリ
ーSSTkWS(T)においてキーワード照合の次数を検出する第1アルゴリズム
は従属請求項4により開示されたようにインプリメントされ、キーワード・スペ
ースト疎接尾語ツリーSSTkWS(T)においてキーワード照合の次数を検出す
る第2アルゴリズムは従属請求項5により開示されたようにインプリメントされ
、これにより第2アルゴリズムのサブルーチンが従属請求項6に開示されたよう
にインプリメントされるのが好ましく、キーワード・スペースト疎接尾語ツリー
SSTkWS(T)においてキーワード照合の次数を検出する第3アルゴリズムは
従属請求項7により開示されたようにインプリメントされ、最後にキーワード・
スペースト疎接尾語ツリーSSTkWS(T)においてキーワード照合の次数を検
出する第4アルゴリズムは従属請求項8により開示されたようにインプリメント
される。
【0014】 上記の諸目的と諸利点はまた、本発明による方法で実現されるが、その特徴は
、テキストT内のワード・セパレータ記号で開始する全ての接尾語を表現するテ
キストTのワード・スペースト疎接尾語ツリーSSTWS(T)として前記データ
構造を生成し、テキストT内のワードのシーケンス情報をワード・スペースト疎
接尾語ツリーSSTWS(T)内に記憶し、テキストT内のワードの編集ディスタ
ンス・メトリックD(s,q)と、質問Q内の質問ワードqと、テキストT内の
ワードのシーケンスSのワード・サイズ依存編集ディスタンス・メトリックDWS (S,P)と、質問Q内のワードqのシーケンスPを含んでいる組合せ編集ディ
スタンス・メトリックMを生成し、前記編集ディスタンス・メトリックDWS(S
,P)はシーケンスSをシーケンスPへ変換する編集オペレーションのコストの
最小額であり、このコストの最小額は、シーケンスSの全長の変化に比例するパ
ラメータまたはカレントのワード長とシーケンスS;P内の平均ワード長の比率
により重み付けられる各編集オペレーションのコスト関数の最小額であり、検出
される情報Rのワードsと質問Qの間の編集ディスタンスD(s,q)を計算す
ることによりワードs,qの間の照合の次数を決定し、または前記ワードs,q
が互いからk個のエラーを超える場合は、全ての照合について編集ディスタンス
WS(SR,PQ)を計算することにより、検出される情報Rと質問Qのそれぞれ
のワードシーケンスSR,PQの間の一致の次数を決定することである。
【0015】 本発明による有利な方法は追加的に、ワードsおよびqのキャラクタの間の近
接のパラメータにより、ワードsをワードqへ変更する編集オペレーションに重
みを付けて、これにより、編集オペレーションのコストを決定するときに問題の
ワードsとqの類似性を考慮に入れることを含む。
【0016】 本発明による方法の有利な実施例において、好ましくは、質問ワード・シーケ
ンスPQ内の制限されたワードの数についての編集ディスタンスDws(SR,PQ
)を計算することにより、編集ディスタンスを計算して、これにより照合の数を
制限する。
【0017】 本発明による方法の他の有利な実施例において、ワードsとワードqの間の編
集ディスタンスD(s,q)は再帰的に定義され、動的プログラミング手順によ
り前記編集ディスタンスD(s,q)が計算され、また、シーケンスSとシーケ
ンスPの間の編集ディスタンスDws(S,P)が対応して再帰的に定義され、動
的プログラミング手順により前記編集ディスタンスDws(S,P)が計算される
【0018】 本発明によれば、上述の諸目的と諸利点はまた、近似サーチ・エンジン内で本
発明によるサーチ・システムを使用することにより実現することができる。
【0019】 本発明によるサーチ・システムは本質的に3つの部分、すなわち、データ構造
、近似的な照合のためのメトリック、サーチ・アルゴリズムからなる。全文検索
がターゲットであるときは、本質的に本発明によるサーチ・システムである場合
と同様に、検索可能であるべきデータ・セット全体が、高い質問性能をサポート
するデータ構造内に記憶される。
【0020】 本発明の基礎にある基本的な概念を、最初にやや詳しく議論する。テキストT
の形式で記憶された情報はワードsとワードのシーケンスSへ分割される。ワー
ドは、ワード境界項により分離された全テキストのサブストリングである。境界
項のセットはBTwordと記される。ワード境界項の共通セットはセット であり得て、ここで\tはタブ・キャラクタを記し、\nは改行キャラクタを記
し、\0はドキュメント終了指示子を記す。本発明の下記の説明に関して、スト
リングとシーケンスに関するいくつかの定義が有用である。
【0021】 (定義1:ストリング) ストリングはASCIIキャラクタのような、アルファベットから取られた記
号のシーケンスである。次にストリングの長さは、そのストリングに含まれてい
る記号またはキャラクタのインスタンスの数であり、|x|と記される。もしx
が長さmを有するならば、このストリングはまたx12...i...mと記され、
ここでxiはストリング内のi番目の記号を表現する。
【0022】 xのサブストリングは、x内の記号の連続グループにより与えられるストリン
グである。こうして、ストリングの始めまたは終りから1つまたはそれ以上のキ
ャラクタを削除することにより、サブストリングが得られる。
【0023】 (定義2:サブストリング、接尾語、接頭語) xのサブストリングは、ある についてのストリング である。ストリング はストリングxの接尾語であり、また、ストリング はストリングxの接頭語である。
【0024】 ワード・シーケンスの観念も使用される。
【0025】 (定義3:ワード・シーケンス) ワード・シーケンスは独立した連続番号である。ワード・シーケンスS=s1,
2,...,nは、s1、s2からsnまでのn個の単一ワード(またはストリング)
からなる。
【0026】 ワード・シーケンスはシーケンス境界項により区切られる。セット・シーケン
ス境界項はBTseqと記される。シーケンス境界項の一般的なセットは、セット
{’0\’}であり得て、ここで0\はドキュメント終了マーカを指示する。
【0027】 近似ワード照合のコンセプトは下記の通りに記述される。
【0028】 ストリングS=s1,2,...,nと質問項q=q12...mが与えられる。その
ときタスクは、もとの質問項qから離れた最大k個のエラーであるs内のqの全
ての出現を発見することである。近接メトリックが、qと潜在的な照合si..
.sjの間のエラーをどのように計算するかを決定する。
【0029】 近接ワードマッチングのための一般的なメトリックは、Levenstein
ディスタンスすなわち編集ディスタンスである(V.I.Levenstein
、「訂正、削除、挿入、反転ができるバイナリ・コード」、(ロシアの)Dok
lady Akademii nauk SSSR、第163巻、第4号、84
5−8頁、(1965年);またサイバネティクスと制御理論、第10巻、第8
号、707−10頁、(1966年))。このメトリックは、1つのストリング
を他へ変換するのに必要な編集オペレーションの最小数として定義される。編集
オペレーションはいずれかの書換え規則で与えられ、例えば、 ・(a→ε),削除 ・(ε→a),挿入 ・(a→b),変更
【0030】 pとmをそれぞれサイズiとjの2つのワードであるとする。そのとき、D(
i,j)はpのi番目の接頭語とmのj番目の接頭語の間の編集ディスタンスを
記す。そのとき編集ディスタンスは下記のように再帰的に定義される。
【0031】 ワード・シーケンス内のワードのレベル上で近似的な照合を定義することも可
能であり、これは下記のように定義される。
【0032】 各ワードがキャラクタのストリングであるn個のワードw1,w2...wn
らなるテキストTを与えられる。シーケンス・パターンPは、m個のワードp1
,p2,...,pmからなる。1≦i≦j≦nであるようなi,jについてシー
ケンスwi,wi+1...,wjから最大でk個のエラーまでp1,p2,...,
mが異なるならば、シーケンス・パターンPはTにおいて近似的な出現を有す
ると言われる。ここでも、近接メトリックが2つのシーケンスの間のエラーの数
を計算する仕方を決定する。
【0033】 サーチ・システム内の検索すべきテキストに、データのサーチを容易にするよ
うな仕方で、索引をつけなければならない。したがって、データ構造は本発明に
よるサーチ・システムのカーネル・データ構造であって、いわゆる接尾語ツリー
、特に疎接尾語ツリーに基づく。これら2つの構造を下記に定義する。接尾語ツ
リーS(T)はテキストT内のあり得る全ての接尾語のツリー表現である。接尾
語ツリーS(T)内の全ての単項ノードはその子と連結されて1つのコンパクト
・バリアント(compact variant)を生成する。
【0034】 図1はテキストT=“構造”(“structure”)のための接尾語ツリ
ーを示す。
【0035】 更に一層特殊には、本発明は疎接尾語ツリーに基づいている。これらは により、「疎接尾語ツリー」、第2回国際計算組み合わせ論年次大会(COCO
ON’96)集録、Springer出版社、219頁−230頁に紹介されて
いて、これもまた、D.R.Morrison「PATRICIA−英数字コー
ド化情報を検索するための実用アルゴリズム」、ジャーナル・オブ・ジ・ACM
、15、514−534頁(1968年)に基づいている。疎接尾語ツリーは下
記のように定義される。
【0036】 (定義4:疎接尾語ツリー) テキストTの疎接尾語ツリーSST(T)は接尾語ツリーであって、テキスト
の接尾語ツリーST(T)内に存在する接尾語のサブセットを1つだけ含むもの
である。
【0037】 本発明によるサーチ・システムを使用して全てのワードをサーチするときに、
ワード境界のみで開始して接尾語を記憶することにより、非均一的に間隔を取っ
た疎接尾語ツリーが有利に生成され得る。ワード・スペースト(word−sp
aced)疎接尾語ツリーのコンセプトは下記のように定義される。
【0038】 (定義5:ワード・スペースト疎接尾語ツリー) テキストTの疎接尾語ツリーSSTws(T)は、テキスト内のワード・セパレ
ータ・キャラクタで開始する接尾語のみを含む疎接尾語ツリーSST(T)であ
る。
【0039】 図2は、ワード・スペースト疎接尾語ツリーの2つの例を示す。読みやすくす
るために、接尾語の一部分を省略してある。T=“to be the bes
t”のためのワード・スペースト疎接尾語ツリーは図2の左側の構造であり、ま
たT=“to make the only major modificat
ion”のためのワード・スペースト疎接尾語ツリーは図2の右側の構造である
【0040】 本発明のサーチ・システムにおいて、テキストは、ワード・スペースト疎接尾
語ツリー内に独立して記憶される複数のワードに自然に分割される。サーチング
のためのアトミック・サーチ項がワード自体であるので、有利なことに各接尾語
がワードの末尾で終結する。これは、この疎接尾語ツリーをいわゆるパトリシア
・トリー(PATRICIA trie)(Morrison、前掲書中に)へ
縮小する。この文献中に定義されるトリーはルート付きのツリーであって、その
性質は、ルート以外の各ノードがアルファベットの記号を含み、また同一のツリ
ーからの2つの子が同一記号を有することがない。注意すべきは、ワード・トリ
ーがワード“検索”から出ていることであり、したがって、トリーがデータの検
索に適したツリー構造であることである。パトリシア・トリーは、葉ノード内に
記憶される接尾語がキーワード区切り文字に限定されるキーワード・スペースト
疎接尾語ツリー(KWSツリー)として定義される。キーワード{“avoid
”,“abuse”,“be”,“become”,“brease”,“sa
y”}のセットが図3に示されている。本発明のサーチ・システムに使用される
構造は、このサーチ・システムがワードのシーケンス情報を明示的に記憶するの
で、パトリシア・トリーと異なる。接尾語の長さを減少させるためには、葉ノー
ドの表現を変更する必要がある。オリジナル・テキストへのポインタは接尾語自
体により置きかえられる。図2に示したのと同じ2つのストリングについて、こ
の種の接尾語長さ縮小を図4に示す。言い換えれば図4はワード境界で切り取ら
れた接尾語を有するワード・スペースト疎接尾語ツリーを示す。T=“to b
e the best”のためのワード・スペースト疎接尾語ツリーは図の左側
に示され、またT=“to make the only major mod
ification”のためのワード・スペースト疎接尾語ツリーは図の右側に
示されている。葉ノードは、その葉ノードにより表現されるワードが生起する全
ての位置のリストを含む。
【0041】 オリジナル・テキストに見出される情報の明示的なシーケンスを使用する代わ
りに、本発明は、ワード・スペースト疎接尾語ツリー内に、シーケンス情報を明
示的に記憶する。これは、オリジナル・テキスト内の連続する語を表現する葉ノ
ードの間にポインタを使用することにより実行される。少なくとも特定の葉ノー
ドにより表現されるワードの全ての生起が利用できるように、次の連続する葉へ
ポインタが付加されなければならない。
【0042】 葉ノードはそれが表現するワードの接尾語のみを含むので、生起リスト内にシ
ーケンス・ポインターズを横断するときに各連続ワードの接尾語だけが現れる。
これは、接尾語だけでなく葉ノード内のワード全体を記憶することにより処理さ
れ、こうして本発明のデータ構造もまた、この点でパトリシアと異なる。明示的
に記憶されたワード・シーケンス情報のデータ構造は、次の連続ワードとその生
起へのポインタを有する生起リストと共に、図5に示されている。
【0043】 本発明によるサーチ・システムは、生起リストを組織するためにパトリシア・
トリーを使用する(Morrison、前掲書中に)。パトリシア・トリーは、
サーチ・システムが、時間O(|p2|)で、ストリングp2を照合する全ての連
続ワードのリストにアクセスできるようにし、ここで|p2|はもちろんp2の長
さである。生起リストを組織するためにパトリシア・トリーを使用することによ
り、テキストからワードを記憶してシーケンス情報を維持するための完全に定義
されたツリー構造が得られる。組織された生起リストのためのパトリシア・トリ
ーと特別な未ソート生起リストの両方を有する典型的な葉ノードが、図6に示さ
れている。本発明のサーチ・システムに使用されるような生起リストのためのメ
モリ要件の例として、約742538のドキュメントがあるデータベースは、合
計333 856 744語と538 244のディスティンクト・ワードの辞
典を有する。このデータベースの全体のサイズは2054.52MBである。そ
の平均ワード長は、こうして6.45バイトである。疎接尾語ツリーは各内部ノ
ードに8バイトを使用し、32ビットのポインタを使用する。各ワードについて
、平均3個の内部ノードが使用されているとみなされる。そのとき葉ノードは生
起リストへのポインタのためのワード全体プラス32ビットを記憶するために、
6.45バイトを必要とする。34.45バイト/ワードの全体が全サイズの1
8.108MBを与える。その上、生起リストは入力ごとの4バイトと、フル・
バージョンを使用する場合の12バイトを有する。したがって、生起リストの全
体のメモリ要件は1273MBから3820MBまで変化する。疎接尾語ツリー
を使用するデータ構造は、オリジナル・テキストの60%から200%の間のサ
イズを有する。これは逆ファイルの要件に比較し得るが、しかし本発明によるサ
ーチ・システムに使用される疎接尾語ツリーは、遥かに迅速なサーチを供給して
、近似照合を可能にし、シーケンス照合を遂行しやすくする。
【0044】 近似サーチにおいては、あり得る照合にエラー測度を与えるためにメトリック
が使用される。本発明によるサーチ・システムはいくつかのメトリックを採用し
、特にメトリックの独自な組合せを採用する。これらのメトリックはメトリック
の組合せとともに、以下に議論される。
【0045】 キャラクタと同様にワードに直観的に適用される削除、挿入、変更のオペレー
ションを、上に定義した編集ディスタンス・メトリックが可能にする。フレーズ
の照合における一般的なエラーは、ワードの脱落、追加、変更である。従って、
近似ワードシーケンス照合問題に適用するために、以前に定義した編集ディスタ
ンス・メトリックを適合させて拡張すべきである。シーケンスの編集オペレーシ
ョンは下記に定義される。
【0046】 (定義6:シーケンスの編集オペレーション) ワードの1つのシーケンスSをワードの他のシーケンスPに変換するために、
シーケンス内のワードに許される編集オペレーションを、下記の書換え規則によ
り書きこむことができる。 ・(a→ε),シーケンスからのワードaの削除 ・(ε→a),シーケンスへのワードaの挿入 ・(a→b),ワードaからワードbへの変更 ・(ab→ba),隣接するワードaとワードbの置換え
【0047】 アトムとしてのキャラクタの代わりに、本発明によるサーチ・システムは、ワ
ードへ編集オペレーションを適用し、そのときワードはオペレーショナル・アト
ムとみなされる。
【0048】 コスト関数 は下記のように定義される定数である。 ここで は下記のように定義される。
【0049】 上記の編集オペレーションを使用することにより、今やシーケンスの編集ディ
スタンスを定義できる。
【0050】 (定義7:シーケンスの編集ディスタンス) シーケンスのための編集ディスタンス・メトリックは、シーケンスS=s1, 2,...,nおよびシーケンスP=p1,2,...,mの間のディスタンスDseq(S,
P)を、シーケンスSをシーケンスPへ変換する編集オペレーションのシーケン
スのためのコストc(x→y)の最小額として定義する。
【0051】 本発明によるサーチ・システムはシーケンスのための編集ディスタンス・メト
リックを強化して、その上で作動されるワードのサイズによる編集オペレーショ
ンのコストの重みを付ける。
【0052】 (定義8:シーケンスのためのワード・サイズ依存編集ディスタンス) シーケンスのためのワード・サイズ依存編集ディスタンスは、1つのシーケン
スを他へ変換するのに必要な編集オペレーションのためのコストの最小額として
定義される。これらのコスト関数はそのオペランドのワード・サイズによって決
まる。
【0053】 本発明によるサーチ・アルゴリズムにおいて、コスト関数の定義は下記の方程
式により与えられる。 ここでlは比較される2つのシーケンスの中の1つのワードの平均長さを記す。
各編集オペレーションのコストは、シーケンスの全体長さの変化に比例するサイ
ズにより、またはカレントのワード長さと考察するシーケンス内の平均ワード長
さとの比率により、重み付けられる。
【0054】 さてこのディスタンス・メトリックは、ワード長さとワード・シーケンスの意
味文脈へのそのワードの重要性との間のある関係の仮定を反映する。その上、本
発明によるサーチ・システムは、変更編集オペレーション(a→b)が使用され
るとき、キャラクタ・レベルの近接が採用される。あるワードaを他のワードb
で置換えることは、これら2つのワードの間の類似性に関係する。従って変更編
集オペレーションの新しいコスト関数は下記のように与えられる。 D(a,b)が、語の正規編集ディスタンス測定関数であるとき、0は完全な類
似性を意味し、1は類似性が全くないことを示す。
【0055】 本発明によるサーチ・システムは、式(4)、(5)、(6)により与えられ
るコスト関数を有するシーケンスの編集ディスタンス・メトリックと、式(1)
により与えられるワードの編集ディスタンス・メトリックを組合せる。これは、
照合されたワードがお互いからk個のエラーよりも離れているときにのみ、シー
ケンス編集オペレーションが使用されることを意味する。
【0056】 本発明によるサーチ・システムに使用されるアルゴリズムは、これらの説明さ
れた構造の効率的なサーチを遂行する。上記のメトリックにより照合が発見され
る。
【0057】 ワード・スペースト疎接尾語ツリー内の近似ワード照合が、編集ディスタンス
マトリクスの計算と接尾語ツリーの横断の組合せにより実行される。このための
アルゴリズムを擬似コードで書いたものが表Iに与えられる。
【0058】 このアルゴリズムは、H.Shang & T.H.Merrettal、「
近似ストリング・マッチングの試み」、知識・データ工学についてのIEEEト
ランザクション、第5巻、第4号、540頁−547頁(1996年)により提
案されたトリー照合アルゴリズムから適合されたものである。このアルゴリズム
の走行時間の予想される最悪の場合は、Shang & Merrettalに
よれば、O(k|Σ|k)である(前掲書に)。
【0059】 近似ワード・シーケンス照合は、全ての可能な照合についてワード・シーケン
ス編集ディスタンスを計算することを必要とする。しかしながら、可能な照合の
数は、可能なワード上にのみ編集ディスタンスの計算を開始することにより制限
できる。シーケンスから1つのワードを削除するコストが可能な開始ワードの数
を決定する。1つの質問シーケンスPQ内のi個のファースト・ワードを削除す
るコストの蓄積が与えられたエラー・スレッショルドの上にあがれば、質問のi
番目のワードにより開始する候補シーケンスは、恐らく照合ではあり得ない。従
ってi個のワードの質問シーケンスPQについて、最大i個の開始ワードが試み
られる。ツリーのシーケンス構造内にバックポインタが1つもないので、全ての
可能な照合が得られることは保証されない。バックポインタを追加することが、
この問題を解決する。本発明によるサーチ・システムに使用されるような近似ワ
ード・シーケンス照合のためのアルゴリズムは、下記の表IIに擬似コードで与え
られる。このアルゴリズムは、p1,2...により逐次的にファースト・キーワー
ドを照合して、全ての可能な開始位置をテストすることを試みる。
【0060】 表IIのApproxSequenceMatchアルゴリズムにおいて、Ap
proxMatchRest関数は、下記の表IIIのアルゴリズムにより定義さ
れる。この関数は、初期エラー値を使用して、残りのシーケンスを照合する。
【0061】 表IIと表IIIのアルゴリズムは、表Iのアルゴリズムと同一の擬似コードで書
かれている。
【0062】 シーケンス内のファースト・ワードに一致する葉ノードを発見するために使用
されるFindExact関数は、ツリーの単一の横断を遂行し、その走行時間
はO|p1|であり、ここでp1は質問シーケンスPQ内のファースト・ワードを
記する。編集ディスタンスの計算は、直接の動的プログラミングを使用して|P
2時間内に実行できるし、またはこの計算アルゴリズムの改良バージョンを使
用してO(k)時間(ここでkはエラー・スレッショルドを記す)内に実行でき
るが、E.Ukkonen、「ストリング内の近似パターンの発見」、ジャーナ
ル・オブ・アルゴリズム、第6巻、132頁−137頁(1985年)を参照さ
れたい。
【0063】 Σnocc(pi)が、ワード・シーケンス内の各ワードpiの生起の数の総合計
を記すならば、そのとき最悪の場合、走行時間は、O(kΣnocc(pi))であ
る。
【0064】 最後に、本発明によるサーチ・システムに基づくサーチ・エンジンのインプリ
メンテーションを簡単に議論する。特に、本発明によるサーチ・システムに基づ
くサーチ・エンジンは、近似サーチ・エンジン(ASE)としてインプリメント
され、大きなドキュメント・コレクションに索引をつけて、これらのドキュメン
ト・コレクションの厳密サーチと近似サーチのためのアルゴリズムを供給するこ
とを意図している。ASEは大きなテキストまたはドキュメントのコレクション
を記憶するデータ構造を供給する。理解すべきは、データ構造が画像、ビデオ、
音響、のような付加的な情報を含むドキュメントから生成されるかも知れず、ま
たテキストはフォーマットまたは注釈されているかもしれないことである。デー
タ構造は上に議論したワード・スペースト疎接尾語ツリーと同一であり、もちろ
ん、ワードはサーチ・システムのキーワードであると理解すべきであり、従って
このワード・スペースト疎接尾語ツリーを代わりにキーワード・スペースト疎接
尾語ツリー(KWSツリー)と名付けることができる。ASEは、KWSツリー
内のドキュメントに索引をつけるアルゴリズムを含む。もちろんこれらのアルゴ
リズムは本発明によるサーチ・システムの一部分を形成しないが、しかしそれら
は当業者によく知られていて文献にも記載されているので、たとえば D.R.Morrison(前掲書)を参照されたい。
【0065】 本発明によりASEの中で使用されるサーチ・システムは、KWSツリー内の
パターンの正確な照合と近似照合の両方のためのアルゴリズムを採用する。上記
の表Iと表IIに与えられるアルゴリズムは、メトリックのようなノン・ユニフォ
ーム編集ディスタンスを有する近似ワードとワードのシーケンスについて使用さ
れる。KWSツリー内の長さmを有するキーワードpの正確な一致を発見するこ
とは、当分野で知られており、ツリー構造の単一の横断として容易にインプリメ
ントされる。擬似コードで書かれた正確なキーワード照合のために適当なアルゴ
リズムを表IVに示す。本発明によるサーチ・システムは正確なシーケンス照合の
ためのアルゴリズムをもサポートできる。正確なキーワード・シーケンス照合の
アルゴリズムは当分野で知られており、下記の表Vに擬似コードで示されるよう
に容易にインプリメントされる。ここに与えられるアルゴリズムは第1キーワー
ドがあれば、その厳密な照合を発見する。次にそれは、第1キーワードの全ての
生起について、第2キーワードが質問の第2キーワードに照合するかどうかをチ
ェックする。もし照合すれば、表VのMatchRest手順が使用されて、2
つの第1キーワードの生起が全シーケンスにおいて照合するかどうかを決定する
。KWSツリー内の近似キーワード照合のために、サーチシステムは上記の表I
のアルゴリズムをインプリメントする。適当なキーワード・シーケンス照合のた
めに、サーチ・システムは上記の表IIのアルゴリズムをインプリメントして、p 1,2...により逐次的にファースト・キーワードを照合して、全ての可能な
開始位置をテストして、表IIIに示すApproxMatchRest機能を適
用して、ある特定の位置で開始するシーケンスを照合して、初期エラー値を処理
する。
【0066】 最後にASEは、ドキュメント・コレクションの索引付けと質問の制御をユー
ザに与える1つの単純なフロント・エンドを必要とする。このフロント・エンド
はまた、ドキュメント・コレクションの統計を備えて、WWW経由などのリモー
ト・アクセスと、ローカル・サーバ・ユーザ・インターフェイスの両方を供給す
ることができる。
【0067】 本発明によるサーチ・システムを有するASEは、新しい索引付けとサーチの
アルゴリズムを容易に追加できるようにする仕方であるので一般的である。また
、各ドキュメントまたはキーワードについて特別な情報を記憶しているので、容
易な仕方でインプリメントできる。特に、フロント・エンドはデータ・構造とサ
ーチ・アルゴリズムから独立しているので、これらにおける内部変更が前者の設
計に何の影響もしない。
【0068】 本発明によるサーチ・システムを使用することにより、ASEがデータ・構造
内で可能な限り少ないメモリのオーバーヘッドを有するように設計できる。また
、サーチができるだけ速くなるように設計できる。しかしながら、これら2つの
要素の間には、通常トレード・オフが存在する。
【0069】 要約すると、本発明によるサーチ・システムを有するASEは、4つの大きな
モジュールを有する。
【0070】 1. KWSツリー構造内のドキュメントを索引付けするためのドキュメント
・インデクシング・モジュールDIM。このモジュールはまた、いくつかのドキ
ュメントのタイプをサポートするための全ての拡張を含む。
【0071】 2. キーワード・スペースト疎接尾語ツリー(KWSツリー)に基づくデー
タ・記憶装置モジュール。
【0072】 3. KWSツリーをサーチするためのサーチ・アルゴリズム・モジュールS
AMであって、ワードおよびワード・シーケンスをそれぞれ正確整合および/ま
たは近似整合するアルゴリズムを含んでいるもの。
【0073】 4. ローカル・サーバ・ユーザ・インターフェイスとリモート質問のための
ネットワーク・インターフェイスの両方を含んでいる、ユーザ・インターフェイ
ス・フロント・エンド・モジュール。
【0074】 ASEの4つのモジュールは共に作用して、完全なサーチ・エンジンの機能性
を供給する。異なったモジュールの間のデータの流れを図7に示す。あるドキュ
メントのコレクションの索引付けが、インデクシング・アルゴリズムを含んでい
るドキュメント・インデクシング・モジュールDIM内で実行される。もちろん
このモジュールは本発明によるサーチ・システムの1つではなく、使用できるイ
ンデクシング・アルゴリズムは当分野でよく知られている。ドキュメント内に見
出されるテキストが、記憶のためにデータ記憶装置モジュールDSMへ渡される
。もちろん、データ記憶装置モジュールは、本発明によるサーチ・システムの一
部分であり、KWSツリー構造に基づいて示されているとおりである。サーチ・
アルゴリズム・モジュールSAMは、データ記憶装置モジュール内に配置された
サーチ用のアルゴリズムを含む。このモジュールは本発明によるサーチ・システ
ムをインプリメントして、ツリーとノード情報についてデータ構造に質問してサ
ーチ処理ができるようにし、同時に状態変数を維持する。フロント・エンド・モ
ジュールがたとえばワーク・ステーション上またはパーソナル・コンピュータ上
などにインプリメントされて、上述の機能性を供給する。
【0075】 既に導入部で述べたように、本発明によるサーチ・システムは、ワークステー
ションを含む商用のコンピュータ・システム上で、適当な高水準言語で書かれた
ソフトウェアとしてインプリメントできることを理解すべきである。それはまた
前述のように専用プロセッサの形式でもインプリメントでき、それは、多数の質
問ワード・シーケンスを有する近似照合のために、大きなワード・シーケンスを
並列に処理できる多数の並列プロセッサを有利に含み得る。プロセッサの固定オ
ペレーショナル・パラメータは、それから低レベル・コードに入力され、一方K
WSツリー構造からのキーワード・シーケンス入力が、巨大な量のデータへの質
問の極度に迅速な処理を可能にするので、本発明によるサーチ・システムは、従
ってワールド・ワイド・ウェブなどにおけるサーチの遂行に高度に適しており、
KWSツリー構造内でさえ現在ワールド・ワイド・ウェブ上に提供されている全
てのドキュメントを索引付けることができ、将来のワールド・ワイド・ウェブに
予想されるデータ量の増加をも処理できる。
【図面の簡単な説明】 本発明によるサーチ・システムと方法を、添付図面を参照しながら、前記に詳
細に説明してきた。
【図1】 接尾語ツリーの一例を示す。
【図2】 本発明に使用されるワード・スペースト疎接尾語ツリーの例である。
【図3】 先行技術として知られるいわゆるパトリシア・トリーの例である。
【図4】 本発明に使用されるワード・スペースト疎接尾語ツリーの更なる例である。
【図5】 本発明に使用される明示的に記憶されたワード・シーケンス情報である。
【図6】 本発明に使用される葉ノード構造である。
【図7】 本発明によるサーチ・システムを有するサーチ・エンジンの構造を図式的に示
す。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),OA(BF,BJ ,CF,CG,CI,CM,GA,GN,GW,ML, MR,NE,SN,TD,TG),AP(GH,GM,K E,LS,MW,SD,SL,SZ,UG,ZW),E A(AM,AZ,BY,KG,KZ,MD,RU,TJ ,TM),AE,AL,AM,AT,AU,AZ,BA ,BB,BG,BR,BY,CA,CH,CN,CU, CZ,DE,DK,EE,ES,FI,GB,GD,G E,GH,HR,HU,ID,IL,IN,IS,JP ,KE,KG,KP,KR,KZ,LC,LK,LR, LS,LT,LU,LV,MD,MG,MK,MN,M W,MX,NO,NZ,PL,PT,RO,RU,SD ,SE,SG,SI,SK,SL,TJ,TM,TR, TT,UA,UG,US,UZ,VN,YU,ZA,Z W 【要約の続き】 PQとの間で、全ての照合についての編集ディスタンス を計算することにより、照合を決定する。近似サーチ・ エンジンにおける使用。

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 情報検索、特にテキストTの形で記憶された情報のためのサ
    ーチシステムであって、前記情報検索は質問Qと検索される情報Rの間の照合の
    所定または変動の次数で実現し、テキストTを記憶するためのデータ構造と、質
    問Qと検索される情報Rの間の照合の次数を測定するメトリックMと、サーチ、
    特にキーワードに基づいて全文サーチを実行するサーチ・アルゴリズムを含んで
    いる前記サーチ・システムであって、 前記データ構造は、テキストTにおけるワードの接尾語とワード・シーケンス
    と記号シーケンスを記憶する接尾語ツリーST(T)の形式におけるツリー構造
    を含んでいることと、テキストTにおけるワードまたは記号と質問Qの間の照合
    の近似的な次数についての編集ディスタンス・メトリック、およびテキストTに
    おけるワードまたは記号のシーケンスSと質問シーケンスPの間の照合の近似的
    な次数についての編集ディスタンス・メトリックの組合せを前記メトリックMが
    含んでいて、後者の編集ディスタンス・メトリックがワードと記号の1つのシー
    ケンスSを他のワードと記号のシーケンスPへ変換する編集オペレーションのた
    めの加重コスト関数を含むことと、テキストTと質問Qの各々の接尾語ツリー表
    現内のワードの間の照合の次数を決定する第1アルゴリズムおよび/またはテキ
    ストTと質問Qの各々の接尾語ツリー表現内のワードのシーケンスの間の照合の
    次数を決定する第2アルゴリズムを前記サーチ・アルゴリズムが含んでいて、前
    記第1および/または第2のアルゴリズムは、ワード、ワードのシーケンス、ま
    たは記号のシーケンスまたはこれらの組合せの形式の質問Qで、データ構造をサ
    ーチして、これにより前者と後者の間の照合の規定された次数による質問Qに基
    づいて情報Rが検索されるようになっていることを特徴とする前記サーチシステ
    ム。
  2. 【請求項2】 前記接尾語ツリーST(T)が、テキストT内に接尾語の1
    つのサブセットのみを含んでいるワード・スペースト疎接尾語ツリーSSTWS
    T)であることを特徴とする請求項1記載のサーチ・システム。
  3. 【請求項3】 情報検索のためのサーチ・システムにおける方法であって、
    特に、テキストTの形式で情報が記憶され、テキストTがワードとワードのシー
    ケンスへ分割され、ワードは記号のシーケンスである、各ワードは1つまたはそ
    れ以上の接尾語として構成され、これらの接尾語はシーケンスを構成する語にお
    ける記号のサブセットであって、 テキストT内のワード・セパレータ記号で開始する全ての接尾語を表現するテ
    キストTのワード・スペースト疎接尾語ツリーSSTWS(T)を生成し、ワード
    ・スペースト疎接尾語ツリーSSTWS(T)内のテキストT内のワードのシーケ
    ンス情報を記憶し、前記シーケンスSを前記シーケンスPへ変換する編集オペレ
    ーションのためのコストの最小額としてワード・シーケンスSと同Pのために編
    集ディスタンス・メトリックD(S,P)を生成し、コストの合計は各編集オペ
    レーションのコスト関数の合計であり、シーケンスSをシーケンスPへ変換する
    ためのコストの最小額としてワード・シーケンスSと同Pのためにワード・サイ
    ズ依存編集ディスタンス・メトリックDWS(S,P)を生成し、コストの合計は
    この編集オペレーションの含まれるワード・サイズのためのパラメータにより重
    みをつけられた各編集オペレーションのコスト関数の合計であり、全ての照合に
    ついて編集ディスタンスD(SR,PQ)をそれぞれ計算することにより、検索さ
    れた情報Rと質問Qのワード・シーケンスSRと同PQの間の照合を決定すること
    を特徴とする前記方法。
  4. 【請求項4】 シーケンスSとシーケンスPの間の近接のついてのパラメー
    タによりシーケンスSを他のシーケンスPへ変更する編集オペレーションを追加
    的に重み付けることにより、問題の編集オペレーションのコストを決定するとき
    にシーケンスSとシーケンスPの類似性を考慮に入れることを特徴とする請求項
    3記載の方法。
  5. 【請求項5】 質問ワード・シーケンスPQ内の制限されたワードの数につ
    いての編集ディスタンスD(SR,PQ)を計算することにより、照合の数を制限
    することを特徴とする請求項3記載の方法。
  6. 【請求項6】 近似サーチ・エンジンにおける請求項1または請求項2記載
    のサーチ・システムの使用。
JP2000559494A 1998-07-10 1999-07-09 データ検索システムと方法およびサーチ・エンジンにおけるその使用 Expired - Lifetime JP3581652B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
NO19983175 1998-07-10
NO983175A NO983175L (no) 1998-07-10 1998-07-10 Soekesystem for gjenfinning av data
PCT/NO1999/000233 WO2000003315A2 (en) 1998-07-10 1999-07-09 A search system and method for retrieval of data, and the use thereof in a search engine

Publications (2)

Publication Number Publication Date
JP2002520712A true JP2002520712A (ja) 2002-07-09
JP3581652B2 JP3581652B2 (ja) 2004-10-27

Family

ID=19902243

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000559494A Expired - Lifetime JP3581652B2 (ja) 1998-07-10 1999-07-09 データ検索システムと方法およびサーチ・エンジンにおけるその使用

Country Status (20)

Country Link
US (1) US6377945B1 (ja)
EP (1) EP1095326B1 (ja)
JP (1) JP3581652B2 (ja)
KR (1) KR100414236B1 (ja)
CN (1) CN1317114A (ja)
AT (1) ATE212736T1 (ja)
AU (2) AU772525B2 (ja)
BR (1) BR9912015B1 (ja)
CA (1) CA2337079C (ja)
DE (1) DE69900854T2 (ja)
DK (1) DK1095326T3 (ja)
ES (1) ES2173752T3 (ja)
HK (1) HK1040784A1 (ja)
HU (1) HUP0201630A2 (ja)
IL (1) IL140606A0 (ja)
IS (1) IS5796A (ja)
NO (1) NO983175L (ja)
PL (1) PL345714A1 (ja)
PT (1) PT1095326E (ja)
WO (1) WO2000003315A2 (ja)

Families Citing this family (123)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6564206B1 (en) * 1998-10-05 2003-05-13 Canon Kabushiki Kaisha Information search apparatus and method, and storage medium
US6584465B1 (en) * 2000-02-25 2003-06-24 Eastman Kodak Company Method and system for search and retrieval of similar patterns
US6704728B1 (en) 2000-05-02 2004-03-09 Iphase.Com, Inc. Accessing information from a collection of data
US8478732B1 (en) 2000-05-02 2013-07-02 International Business Machines Corporation Database aliasing in information access system
US6711561B1 (en) * 2000-05-02 2004-03-23 Iphrase.Com, Inc. Prose feedback in information access system
US6745181B1 (en) * 2000-05-02 2004-06-01 Iphrase.Com, Inc. Information access method
US7127450B1 (en) * 2000-05-02 2006-10-24 International Business Machines Corporation Intelligent discard in information access system
US6718325B1 (en) * 2000-06-14 2004-04-06 Sun Microsystems, Inc. Approximate string matcher for delimited strings
US8290768B1 (en) 2000-06-21 2012-10-16 International Business Machines Corporation System and method for determining a set of attributes based on content of communications
US9699129B1 (en) 2000-06-21 2017-07-04 International Business Machines Corporation System and method for increasing email productivity
US6408277B1 (en) 2000-06-21 2002-06-18 Banter Limited System and method for automatic task prioritization
US6915294B1 (en) 2000-08-18 2005-07-05 Firstrain, Inc. Method and apparatus for searching network resources
US7080073B1 (en) 2000-08-18 2006-07-18 Firstrain, Inc. Method and apparatus for focused crawling
US7103838B1 (en) * 2000-08-18 2006-09-05 Firstrain, Inc. Method and apparatus for extracting relevant data
US20020152202A1 (en) * 2000-08-30 2002-10-17 Perro David J. Method and system for retrieving information using natural language queries
GB2368414B (en) * 2000-10-27 2002-09-11 One Stop To Ltd Searching procedures
US7644057B2 (en) 2001-01-03 2010-01-05 International Business Machines Corporation System and method for electronic communication management
US6681219B2 (en) * 2001-03-29 2004-01-20 Matsushita Electric Industrial Co., Ltd. Method for keyword proximity searching in a document database
US6976016B2 (en) * 2001-04-02 2005-12-13 Vima Technologies, Inc. Maximizing expected generalization for learning complex query concepts
US7136846B2 (en) 2001-04-06 2006-11-14 2005 Keel Company, Inc. Wireless information retrieval
US7054855B2 (en) * 2001-07-03 2006-05-30 International Business Machines Corporation Method and system for performing a pattern match search for text strings
US7209913B2 (en) * 2001-12-28 2007-04-24 International Business Machines Corporation Method and system for searching and retrieving documents
US7343372B2 (en) * 2002-02-22 2008-03-11 International Business Machines Corporation Direct navigation for information retrieval
US7287026B2 (en) * 2002-04-05 2007-10-23 Oommen John B Method of comparing the closeness of a target tree to other trees using noisy sub-sequence tree processing
US6928445B2 (en) * 2002-06-25 2005-08-09 International Business Machines Corporation Cost conversant classification of objects
FI121583B (fi) * 2002-07-05 2011-01-14 Syslore Oy Symbolijonon etsintä
US6983280B2 (en) * 2002-09-13 2006-01-03 Overture Services Inc. Automated processing of appropriateness determination of content for search listings in wide area network searches
US7970621B2 (en) * 2002-10-18 2011-06-28 Cerner Innovation, Inc. Automated order entry system and method
US20050187913A1 (en) 2003-05-06 2005-08-25 Yoram Nelken Web-based customer service interface
US8495002B2 (en) * 2003-05-06 2013-07-23 International Business Machines Corporation Software tool for training and testing a knowledge base
CA2429909A1 (en) * 2003-05-27 2004-11-27 Cognos Incorporated Transformation of tabular and cross-tabulated queries based upon e/r schema into multi-dimensional expression queries
CN1567303A (zh) * 2003-07-03 2005-01-19 富士通株式会社 结构文档信息块的自动分割方法和装置
US7165119B2 (en) 2003-10-14 2007-01-16 America Online, Inc. Search enhancement system and method having rankings, explicitly specified by the user, based upon applicability and validity of search parameters in regard to a subject matter
US7640232B2 (en) 2003-10-14 2009-12-29 Aol Llc Search enhancement system with information from a selected source
US7657423B1 (en) * 2003-10-31 2010-02-02 Google Inc. Automatic completion of fragments of text
US7418455B2 (en) * 2003-11-26 2008-08-26 International Business Machines Corporation System and method for indexing weighted-sequences in large databases
US7343378B2 (en) * 2004-03-29 2008-03-11 Microsoft Corporation Generation of meaningful names in flattened hierarchical structures
IL161874A (en) * 2004-05-07 2012-09-24 Yves Villaret System and method for searching strings of records
US20080077570A1 (en) * 2004-10-25 2008-03-27 Infovell, Inc. Full Text Query and Search Systems and Method of Use
EP1825395A4 (en) * 2004-10-25 2010-07-07 Yuanhua Tang FULL TEXT INTERROGATION AND RESEARCH SYSTEMS AND METHODS OF USE
US20060101504A1 (en) * 2004-11-09 2006-05-11 Veveo.Tv, Inc. Method and system for performing searches for television content and channels using a non-intrusive television interface and with reduced text input
US20070266406A1 (en) * 2004-11-09 2007-11-15 Murali Aravamudan Method and system for performing actions using a non-intrusive television with reduced text input
US7895218B2 (en) 2004-11-09 2011-02-22 Veveo, Inc. Method and system for performing searches for television content using reduced text input
CN1614607B (zh) * 2004-11-25 2011-08-31 中国科学院计算技术研究所 垃圾邮件过滤的方法和系统
CA2509496A1 (en) * 2005-06-06 2006-12-06 3618633 Canada Inc. Search-enhanced trie-based syntactic pattern recognition of sequences
US9041744B2 (en) * 2005-07-14 2015-05-26 Telecommunication Systems, Inc. Tiled map display on a wireless device
US7779011B2 (en) * 2005-08-26 2010-08-17 Veveo, Inc. Method and system for dynamically processing ambiguous, reduced text search queries and highlighting results thereof
US7788266B2 (en) * 2005-08-26 2010-08-31 Veveo, Inc. Method and system for processing ambiguous, multi-term search queries
US7644054B2 (en) * 2005-11-23 2010-01-05 Veveo, Inc. System and method for finding desired results by incremental search using an ambiguous keypad with the input containing orthographic and typographic errors
US7882119B2 (en) * 2005-12-22 2011-02-01 Xerox Corporation Document alignment systems for legacy document conversions
US7664343B2 (en) * 2006-01-23 2010-02-16 Lockheed Martin Corporation Modified Levenshtein distance algorithm for coding
US7792815B2 (en) 2006-03-06 2010-09-07 Veveo, Inc. Methods and systems for selecting and presenting content based on context sensitive user preferences
US8073860B2 (en) 2006-03-30 2011-12-06 Veveo, Inc. Method and system for incrementally selecting and providing relevant search engines in response to a user query
WO2007124436A2 (en) * 2006-04-20 2007-11-01 Veveo, Inc. User interface methods and systems for selecting and presenting content based on relationships between the user and other members of an organization
CN100401300C (zh) * 2006-04-29 2008-07-09 上海世纪互联信息系统有限公司 具有自动分类功能的搜索引擎
US20070260595A1 (en) * 2006-05-02 2007-11-08 Microsoft Corporation Fuzzy string matching using tree data structure
US7849078B2 (en) * 2006-06-07 2010-12-07 Sap Ag Generating searchable keywords
US8577328B2 (en) 2006-08-21 2013-11-05 Telecommunication Systems, Inc. Associating metro street address guide (MSAG) validated addresses with geographic map data
EP2062171A4 (en) * 2006-09-14 2010-10-06 Veveo Inc METHOD AND SYSTEMS FOR THE DYNAMIC REORGANIZATION OF SEARCH RESULTS IN HIERARCHICALLY ORGANIZED CLAUSE CLUSTERS
JP4274221B2 (ja) * 2006-10-02 2009-06-03 ソニー株式会社 情報処理装置および方法、プログラム、並びに記録媒体
US7925986B2 (en) 2006-10-06 2011-04-12 Veveo, Inc. Methods and systems for a linear character selection display interface for ambiguous text input
WO2008063987A2 (en) 2006-11-13 2008-05-29 Veveo, Inc. Method of and system for selecting and presenting content based on user identification
US8131722B2 (en) * 2006-11-20 2012-03-06 Ebay Inc. Search clustering
US20080172380A1 (en) * 2007-01-17 2008-07-17 Wojciech Czyz Information retrieval based on information location in the information space.
WO2008104621A1 (es) * 2007-02-28 2008-09-04 Classe Qsl, S.L. Sistema para la recuperación de unidades de información
US8549424B2 (en) 2007-05-25 2013-10-01 Veveo, Inc. System and method for text disambiguation and context designation in incremental search
US20090055436A1 (en) * 2007-08-20 2009-02-26 Olakunle Olaniyi Ayeni System and Method for Integrating on Demand/Pull and Push Flow of Goods-and-Services Meta-Data, Including Coupon and Advertising, with Mobile and Wireless Applications
US20090055242A1 (en) * 2007-08-24 2009-02-26 Gaurav Rewari Content identification and classification apparatus, systems, and methods
WO2009035592A1 (en) * 2007-09-11 2009-03-19 Telecommunication Systems, Inc. Wireless device location alerts on battery notification events
US7716228B2 (en) * 2007-09-25 2010-05-11 Firstrain, Inc. Content quality apparatus, systems, and methods
US7904433B2 (en) * 2007-10-09 2011-03-08 O2Micro International Limited Apparatus and methods for performing a rule matching
WO2009061501A1 (en) * 2007-11-09 2009-05-14 Telecommunication Systems, Inc. Points-of-interest panning on a displayed map with a persistent search on a wireless phone
CN101246501B (zh) * 2008-03-27 2010-06-23 腾讯科技(深圳)有限公司 一种聚合相同主题网络文档的方法及系统
WO2009126231A1 (en) * 2008-04-07 2009-10-15 Telecommunication Systems, Inc Proximity search for point-of-interest names combining inexact string match with an expanding radius search
US8027990B1 (en) * 2008-07-09 2011-09-27 Google Inc. Dynamic query suggestion
US8027973B2 (en) * 2008-08-04 2011-09-27 Microsoft Corporation Searching questions based on topic and focus
US9424339B2 (en) 2008-08-15 2016-08-23 Athena A. Smyros Systems and methods utilizing a search engine
US7882143B2 (en) * 2008-08-15 2011-02-01 Athena Ann Smyros Systems and methods for indexing information for a search engine
US9092517B2 (en) * 2008-09-23 2015-07-28 Microsoft Technology Licensing, Llc Generating synonyms based on query log data
WO2010042172A1 (en) 2008-10-06 2010-04-15 Telecommunication Systems, Inc. Probabilistic reverse geocoding
US8594627B2 (en) 2008-10-06 2013-11-26 Telecommunications Systems, Inc. Remotely provisioned wirelessly proxy
DE102008062830B3 (de) * 2008-12-23 2010-07-22 Cerebrix Gmbh Vorrichtung und Verfahren zum Speichern, Suchen und Darstellen von Informationen
US20100287177A1 (en) * 2009-05-06 2010-11-11 Foundationip, Llc Method, System, and Apparatus for Searching an Electronic Document Collection
US20100287148A1 (en) * 2009-05-08 2010-11-11 Cpa Global Patent Research Limited Method, System, and Apparatus for Targeted Searching of Multi-Sectional Documents within an Electronic Document Collection
US20100293179A1 (en) * 2009-05-14 2010-11-18 Microsoft Corporation Identifying synonyms of entities using web search
US8533203B2 (en) * 2009-06-04 2013-09-10 Microsoft Corporation Identifying synonyms of entities using a document collection
US9166714B2 (en) 2009-09-11 2015-10-20 Veveo, Inc. Method of and system for presenting enriched video viewing analytics
US8364679B2 (en) * 2009-09-17 2013-01-29 Cpa Global Patent Research Limited Method, system, and apparatus for delivering query results from an electronic document collection
US20110082839A1 (en) * 2009-10-02 2011-04-07 Foundationip, Llc Generating intellectual property intelligence using a patent search engine
WO2011056086A2 (en) * 2009-11-05 2011-05-12 Google Inc. Statistical stemming
US20110119250A1 (en) * 2009-11-16 2011-05-19 Cpa Global Patent Research Limited Forward Progress Search Platform
US8244754B2 (en) * 2010-02-01 2012-08-14 International Business Machines Corporation System and method for object searching in virtual worlds
US20110191330A1 (en) 2010-02-04 2011-08-04 Veveo, Inc. Method of and System for Enhanced Content Discovery Based on Network and Device Access Behavior
US8339094B2 (en) * 2010-03-11 2012-12-25 GM Global Technology Operations LLC Methods, systems and apparatus for overmodulation of a five-phase machine
US8463790B1 (en) 2010-03-23 2013-06-11 Firstrain, Inc. Event naming
US9760634B1 (en) 2010-03-23 2017-09-12 Firstrain, Inc. Models for classifying documents
US10546311B1 (en) 2010-03-23 2020-01-28 Aurea Software, Inc. Identifying competitors of companies
US10643227B1 (en) 2010-03-23 2020-05-05 Aurea Software, Inc. Business lines
US9600566B2 (en) 2010-05-14 2017-03-21 Microsoft Technology Licensing, Llc Identifying entity synonyms
EP2423830A1 (de) 2010-08-25 2012-02-29 Omikron Data Quality GmbH Verfahren zum Suchen in einer Vielzahl von Datensätzen und Suchmaschine
US8745061B2 (en) * 2010-11-09 2014-06-03 Tibco Software Inc. Suffix array candidate selection and index data structure
WO2012082859A1 (en) * 2010-12-14 2012-06-21 The Regents Of The University Of California High efficiency prefix search algorithm supporting interactive, fuzzy search on geographical structured data
US9846688B1 (en) 2010-12-28 2017-12-19 Amazon Technologies, Inc. Book version mapping
US8798366B1 (en) 2010-12-28 2014-08-05 Amazon Technologies, Inc. Electronic book pagination
US9069767B1 (en) 2010-12-28 2015-06-30 Amazon Technologies, Inc. Aligning content items to identify differences
US9881009B1 (en) 2011-03-15 2018-01-30 Amazon Technologies, Inc. Identifying book title sets
US8782042B1 (en) 2011-10-14 2014-07-15 Firstrain, Inc. Method and system for identifying entities
US8745019B2 (en) 2012-03-05 2014-06-03 Microsoft Corporation Robust discovery of entity synonyms using query logs
US9292505B1 (en) 2012-06-12 2016-03-22 Firstrain, Inc. Graphical user interface for recurring searches
US10032131B2 (en) 2012-06-20 2018-07-24 Microsoft Technology Licensing, Llc Data services for enterprises leveraging search system data assets
US9594831B2 (en) 2012-06-22 2017-03-14 Microsoft Technology Licensing, Llc Targeted disambiguation of named entities
US9229924B2 (en) 2012-08-24 2016-01-05 Microsoft Technology Licensing, Llc Word detection and domain dictionary recommendation
KR101355254B1 (ko) * 2012-10-22 2014-01-28 인하대학교 산학협력단 접미사 트리의 병렬 생성을 위한 트라이 자료구조 기반 접미사 병렬 분할 방법
US9256593B2 (en) 2012-11-28 2016-02-09 Wal-Mart Stores, Inc. Identifying product references in user-generated content
US10592480B1 (en) 2012-12-30 2020-03-17 Aurea Software, Inc. Affinity scoring
US8996559B2 (en) 2013-03-17 2015-03-31 Alation, Inc. Assisted query formation, validation, and result previewing in a database having a complex schema
US9589074B2 (en) 2014-08-20 2017-03-07 Oracle International Corporation Multidimensional spatial searching for identifying duplicate crash dumps
CN105446957B (zh) 2015-12-03 2018-07-20 小米科技有限责任公司 相似性确定方法、装置及终端
CN108595584B (zh) * 2018-04-18 2022-06-07 卓望数码技术(深圳)有限公司 一种基于数字标记的汉字输出方法和系统
US10761965B2 (en) * 2018-09-28 2020-09-01 Atlassian Pty Ltd. Detecting method calls based on stack trace data
CN110517050A (zh) * 2019-08-12 2019-11-29 太平洋医疗健康管理有限公司 一种医保反欺诈串换编码挖掘系统及方法
CN111415708B (zh) * 2020-03-24 2023-05-05 山东大学 双缓冲模型实现大规模数据库聚类方法及系统
CN111860443A (zh) * 2020-07-31 2020-10-30 上海掌学教育科技有限公司 语文作业题目文字识别方法、搜索方法、服务器及系统

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU620994B2 (en) * 1989-07-12 1992-02-27 Digital Equipment Corporation Compressed prefix matching database searching
WO1992015954A1 (en) 1991-03-08 1992-09-17 Red Brick System Compaction of a querying in relational databases
US5953006A (en) * 1992-03-18 1999-09-14 Lucent Technologies Inc. Methods and apparatus for detecting and displaying similarities in large data sets
US5511159A (en) 1992-03-18 1996-04-23 At&T Corp. Method of identifying parameterized matches in a string
US5412807A (en) * 1992-08-20 1995-05-02 Microsoft Corporation System and method for text searching using an n-ary search tree
JPH07210569A (ja) * 1994-01-19 1995-08-11 Oki Electric Ind Co Ltd 情報検索方法および情報検索装置
US5787430A (en) 1994-06-30 1998-07-28 International Business Machines Corporation Variable length data sequence backtracking a trie structure
JP2829259B2 (ja) * 1994-09-14 1998-11-25 株式会社東芝 データ処理装置、データ検索装置、データ処理方法及びデータ検索方法
US5724571A (en) * 1995-07-07 1998-03-03 Sun Microsystems, Inc. Method and apparatus for generating query responses in a computer-based document retrieval system
KR980004154A (ko) * 1996-06-29 1998-03-30 김광호 접두어를 이용한 전자 사전 및 그에 접합한 압축 및 검색 방법
KR100284777B1 (ko) * 1997-11-19 2001-03-15 정선종 지도 용어 사전을 위한 트라이 사전과 그 등록 및 검색 방법

Also Published As

Publication number Publication date
WO2000003315A2 (en) 2000-01-20
CA2337079A1 (en) 2000-01-20
CN1317114A (zh) 2001-10-10
BR9912015B1 (pt) 2011-12-13
DE69900854D1 (de) 2002-03-14
DK1095326T3 (da) 2002-05-13
EP1095326A1 (en) 2001-05-02
ATE212736T1 (de) 2002-02-15
CA2337079C (en) 2006-07-04
NO983175L (no) 2000-01-11
AU4937099A (en) 2000-02-01
WO2000003315A3 (en) 2000-02-24
AU2004203480A1 (en) 2004-08-26
US6377945B1 (en) 2002-04-23
AU772525B2 (en) 2004-04-29
PT1095326E (pt) 2002-07-31
IS5796A (is) 2000-12-29
IL140606A0 (en) 2002-02-10
JP3581652B2 (ja) 2004-10-27
PL345714A1 (en) 2002-01-02
BR9912015A (pt) 2001-04-10
ES2173752T3 (es) 2002-10-16
KR20010071841A (ko) 2001-07-31
HK1040784A1 (zh) 2002-06-21
KR100414236B1 (ko) 2004-01-07
DE69900854T2 (de) 2002-08-22
HUP0201630A2 (en) 2002-08-28
EP1095326B1 (en) 2002-01-30

Similar Documents

Publication Publication Date Title
JP3581652B2 (ja) データ検索システムと方法およびサーチ・エンジンにおけるその使用
Blumer et al. Complete inverted files for efficient text retrieval and analysis
Bollacker et al. CiteSeer: An autonomous web agent for automatic retrieval and identification of interesting publications
Stonebraker et al. Document processing in a relational database system
US8775410B2 (en) Method for using dual indices to support query expansion, relevance/non-relevance models, blind/relevance feedback and an intelligent search interface
CN102142038B (zh) 用于记号空间资料库的多级查询处理系统与方法
US7010522B1 (en) Method of performing approximate substring indexing
US6792414B2 (en) Generalized keyword matching for keyword based searching over relational databases
US7860853B2 (en) Document matching engine using asymmetric signature generation
US7103536B1 (en) Symbol dictionary compiling method and symbol dictionary retrieving method
Krishnan et al. Estimating alphanumeric selectivity in the presence of wildcards
CN107153647B (zh) 进行数据压缩的方法、装置、系统和计算机程序产品
US8266150B1 (en) Scalable document signature search engine
US20040015909A1 (en) System and method for regular expression matching using index
Croft et al. Implementing ranking strategies using text signatures
Sadakane et al. Indexing huge genome sequences for solving various problems
US7693824B1 (en) Number-range search system and method
CN112100500A (zh) 范例学习驱动的内容关联网站发掘方法
Aoe A fast digital search algorithm using a double‐array structure
Kanlayanawat et al. Automatic indexing for Thai text with unknown words using trie structure
Gupta A keyword searching algorithm for search engines
JPH09212523A (ja) 全文検索方法
KR100440906B1 (ko) 문서 색인 시스템 및 그 방법
CA2524207A1 (en) A search system and method for retrieval of data, and the use thereof in a search engine
Gloor A Brief Introduction to Information Retrieval

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040121

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20040121

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040618

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040723

R150 Certificate of patent or registration of utility model

Ref document number: 3581652

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080730

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080730

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090730

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090730

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100730

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110730

Year of fee payment: 7

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110730

Year of fee payment: 7

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D02

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110730

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120730

Year of fee payment: 8

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120730

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130730

Year of fee payment: 9

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term