JP3428630B2 - 複数の細分度のインデックス付けとクエリー処理を効果的に用いてクエリーの拡張を支援する方法、及び装置 - Google Patents

複数の細分度のインデックス付けとクエリー処理を効果的に用いてクエリーの拡張を支援する方法、及び装置

Info

Publication number
JP3428630B2
JP3428630B2 JP14069599A JP14069599A JP3428630B2 JP 3428630 B2 JP3428630 B2 JP 3428630B2 JP 14069599 A JP14069599 A JP 14069599A JP 14069599 A JP14069599 A JP 14069599A JP 3428630 B2 JP3428630 B2 JP 3428630B2
Authority
JP
Japan
Prior art keywords
query
words
word
concept
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP14069599A
Other languages
English (en)
Other versions
JP2000137738A (ja
Inventor
シャン リー ウェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JP2000137738A publication Critical patent/JP2000137738A/ja
Application granted granted Critical
Publication of JP3428630B2 publication Critical patent/JP3428630B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、一般的に、データ
ベース内の文書を収集するのに適用されるインデックス
とクエリーの分野に関する。より詳しくは、クエリーの
効果的な拡張と処理、クエリーの拡張を実施するのに使
用されるインデックスのサイズの縮小、及び連続的なク
エリーの処理に関する。
【0002】
【従来の技術】クエリーを適用することによって文書を
検索する従来の検索システムは、文書を分類する共通の
原理と方法論に基づいている。文書は通常、熟練者又は
司書により、事前に指定され、調整された用語を用い
て、手作業でインデックス付けされる。文書はまた、そ
の文書に含まれる語(ワード)に基づいてインデックス
付けされることもある。ユーザは、指定可能な用語から
選択したワードと、それらの間を適当なブーリアン演算
子で連結して文書の検索を行う。このようなタイプのシ
ステムでは、厳密なマッチング戦略が用いられる。この
アプローチは、単純で高精度といった多くの利点を有す
るものの、ワード・ミスマッチの問題が生じる。
【0003】情報検索におけるワード・ミスマッチの問
題は、作者がその文書で、ある概念を表すのに、あるワ
ードを使用している場合に、ユーザが、それと同じ概念
をクエリーにおいて指定する際、別のワードを使用して
しまうことによって生じる。図1は、「car(乗用
車)」及び「dealer(販売店)」に関連付けられ
た、ハイパーテキスト・マークアップ言語(HTML)
の文書において使用されるワードが、様々な文書の間で
異なることがあることを示している。拡張可能なマーク
アップ言語(XML)や標準一般化マークアップ言語
(SGML)のような、HTML以外の言語も用いられ
る。ユーザが、「automobile(自動車)」と
「dealer(販売店)」というワードをクエリーに
用いる場合、ワード・ミスマッチの問題で、対象となる
文書を1つも検索できない結果になる。
【0004】尚、本明細書では、検索の対象が、主に英
語を含むものと仮定しているため、検索に使用するクエ
リーの各要素は、英語で記述されている。しかし、これ
らは、ユーザの要求に応じて、どの国の言語で表現する
ことも可能である。ここでは、前記英語で記述された要
素に続いて(必要に応じ)括弧内に、その要素の日本語
における意味を表すことにする。従って、当該括弧内の
日本語は、単にクエリーの要素の意味を説明するための
ものに過ぎず、クエリーの結果には影響を及ぼさない。
【0005】クエリーの拡張は、このような問題を解決
する技法として示唆されている。このアプローチは、意
味の類似したワード(例えば、類義語や他の関連する意
味を有するワード)及び構文的に関連するワード(例え
ば、一定の頻度以上で同じ文書内に同時に現れるワード
群は、構文的共起ワードである)をクエリー内のワード
として用いることによってクエリーを拡張するものであ
る。こうしてクエリーが拡張されると、関連する文書内
のワードにマッチする可能性が高まる。クエリーの拡張
が使用されると、「car dealer(乗用車の販
売店)」というワードを含むクエリーは、以下のように
同様の意味の用語を含むように拡張される。
【0006】行1. [(「car(乗用車)」OR
「automobile(自動車)」OR「auto
(車)」OR「sedan(セダン)」)OR 行2. (「Ford(フォード車)」OR「Buic
k(ビュイック車)」)]AND 行3. (「dealer(販売店)」OR「Show
room(ショールーム)」OR「SalesOffi
ce(販売所)」)。
【0007】上記例に含まれるクエリーの拡張には、2
つのタイプがある。行1と行3のクエリーの拡張は、用
語の意味において「car」と「dealer」に関連
する追加ワードを追加するものである。即ち、意味的に
類似するワードを追加するものである。「automo
bile」、「auto」、及び「sedan」は、
「car」というワードに類似する意味を有するワード
である。同様に、「Showroom」と「Sales
Office」は、「dealer」というワードに類
似する意味を有するワードである。他のタイプのクエリ
ーの拡張は、行2に示すものであり、これは例えば、構
文的共起関係によるものである。ワールドワイドウエブ
(単にウエブとも言う)で用いられる多くのワードは、
実際には固有名詞であり、用語辞書には見つからない。
例えば、固有名詞は、Ford、Buick、NBA、
及びNFL(National Football League)といったもの
である。前述したように、構文的共起関係は、2つのワ
ードが、同じ文書に同時に現れる頻度を分析することに
よって導出される。これは、2つのワードが頻繁に同じ
文書内に現れる場合には、それらのワードが関連してい
る可能性が高いという仮定に基づくものである。例え
ば、「Ford」と共に発生するワードとして、「de
aler(販売店)」、「body shop(車体工
場」、「Mustang(マスタング:フォード社製の
車の名前)」、「Escort(エスコート:フォード
社製の車の名前)」等が考えられる。
【0008】クエリーの拡張を支援するために、用語の
意味によって関連付けられたワードのインデックスと、
共起情報のような構文的関係が適切に維持されなければ
ならない。用語の意味によってワードに関連付けられた
インデックスは、階層構造、意味ネットワーク、又は関
連ワードの階層クラスタとして構成される。前記階層構
造については、1997年8月、ギリシャのアテネで行
われた、the 23rd International Conference on Very
Large Data Basesの予稿集のページ538-547、W. Li他の
「Facilitating Multimedia Database Exploration thr
ough Visual Interfaces and Perpetual Query Reformu
lations」を参照されたい。また、前記意味ネットワー
クについては、1990年、International Journal of
Lexicography 3(4)、ページ245-264における、G. A. M
illerの「Nouns in WordNet: A Lexical Inheritance S
ystem」を参照のこと。また、関連ワードの階層クラス
タについては、1983年、ニューヨーク、McGraw-Hil
l、ページ118-155の、G. Salton他による「The SMART a
nd SIRE Experimental Retrieval Systems」を参照のこ
と。構文的共起関係のような構文的関係は、2項関係で
表されるので、構文的関係のインデックスのサイズは非
常に大きい。この問題を解決するため、いくつかの技法
が提案されている。これらの技法については、1992
年、デンマークにおけるthe Fifteenth annual Interna
tional ACM SIGIR Conferenceの予稿集の、G. Grefenst
etteによる「Use of syntactic context to produce te
rm association lists for text retrieval」、199
6年、スイスのチューリッヒにおけるthe 19th Annual
International ACM SIGIR Conferenceの予稿集の、J. X
u他による「Query Expantion Using Local and Global
Document Analysis」、1997年、アメリカ合衆国ペ
ンシルバニア州フィラデルフィアにおける、the20th An
nual International ACM SIGIR Conferenceの予稿集
の、C. Jacqueminによる「Guessing Morphology from T
erms and Corpora」を参照のこと。こうした技法は、発
生頻度の分析、及び形態素規則(例えば、全てのワード
をその起源となる形態に変換する)や用語辞書の使用を
含むものである。
【0009】ワード・ミスマッチの問題に関しては、情
報検索(IR)の分野において、かなりの研究がされて
きている。これについては、1983年、McGraw-Hill
BookCompany発行の、G. Salton他による「Introduction
to Modern Information Retrieval」、1989年、Ad
dison-Wesley Publishing Company, Inc発行の、G.Salt
onによる「Automatic Text Processing: The Transform
ation, Analysis, and Retrieval of Information by C
omputer」、及び1997年、アメリカ合衆国カリフォ
ルニア州サンフランシスコ、Morgan Kaufmannの、K. Sp
arck Jones他による「Readings in Information Retrie
val」を参照のこと。
【0010】しかし、この研究の殆どが、適合率と再現
率といった、検索の基準に関する点を指向したものであ
る。クエリーの拡張を効果的に支援する方法(1993
年、メリーランド州Gaithersburgで行われたthe 3rd Te
xt Retrieval Conferenceの予稿集の、C. Buckley他に
よる「Automatic Query Expansion Using SMART」参
照)やインデックス付けのメカニズムを示唆した研究が
いくつか有るが、満足する解決法のない問題が依然とし
て2つ残っている。第1の問題は、ある文書の集合(例
えば、ウエブ)内の多くのワードが別個の固有名詞であ
り、各ワードが意味的に同じワード及び構文的に関連し
たワードを多く有するので、インデックスのサイズが極
めて大きくなってしまうことである。第2の問題は、ク
エリーが追加ワードによって拡張されるので、クエリー
の処理コストが高くなってしまうことである。
【0011】ウエブから収集された文書情報を取り扱う
際には、文書の数が非常に多くなり、使用されているワ
ードが極めて多様で、一貫性がなく、時には間違ってい
る(例えば、タイプエラー)ため、これらの問題は、ま
すます顕著になる。ある研究では、ウエブに関する殆ど
のユーザ・クエリーは、通常、ワードを2つ有してい
る。これについては、1995年、Digital Libraries
(DL '95)の予稿集で、B.Croft他の「Providing Governm
ent Information on the Internet: Experienceswith T
HOMAS」を参照されたい。しかし、クエリー拡張を用い
れば、クエリーの長さは実質的に長くなる。結果的に、
ウエブ上の既存のサーチエンジンのほとんどは、クエリ
ー拡張機能を提供できないことになる。
【0012】ここで、クエリー拡張の分野における既存
の研究を概説する。クエリー拡張は、IRの分野におい
て、かなりの注目を集めた。しかし、いままで注目され
てきた部分は、クエリーの拡張によって、改善される検
索の基準(即ち、適合率及び再現率)の程度を評価する
ことであった。別の研究では、与えられたクエリーのワ
ードに関して、1組の類似する用語を識別するために、
辞書を構築することに焦点があてられてきた。しかし、
今までの研究は、クエリーが拡張された場合のクエリー
の効率的な処理の問題や、クエリーの拡張及び処理を行
うのに用いられるインデックスのサイズを小さくすると
いった点に取り組んでいない。更に、厳密なマッチング
及び類似的なマッチングに基づいて文書をランク付けす
る問題は、困難なものとして残されたままである。
【0013】SMARTは、よく知られた先進の情報検
索システムの1つである。これに関しては、1971
年、アメリカ合衆国ニュージャージー州Englewood Clif
fsのPrentice-Hallから発行されたGerard Salton編集の
The SMART Retrieval System -Experiments in Automat
ic Document Processing、第12章の、R. T. Dattola
による「Experiments with a fast algorithm for auto
matic classification」、及び上記文献の、G. Salton
他による「The SMART and SIRE Experimental Retrieva
l Systems」を参照のこと。SMARTでは、各文書が
用語のベクトルで表される。ベクトルのそれぞれの位置
は、文書内の対応する用語の重み(重要性)を表してい
る。N個の異なる用語を有するM個の文書の集合は、M
×Nの行列で表される。クエリーもまた用語のベクトル
として表される。文書の検索は、クエリー・ベクトルと
各文書のベクトルとの余弦に対応する類似性の計算に基
づく。他の、よく知られたシステムには、INQUER
Yがある。これについては、1995年、Information
Processing and Managementの3:327-332で、J. Callan
他による「Trec and tipster experiments with inquer
y」を参照のこと。
【0014】潜在的意味インデックス(LSI)は、辞
書的なマッチングによる個別の用語検索の替わりに、統
計的に導出された概念インデックスに依存する技法であ
る。これについては、1990年、Journal of the Ame
rica Society of Information Science、41:391-407
の、R. Harshman他による「Indexing by latent semant
ic analysis」、及び1995年、the 1995 ACM Confer
ence on Supercomputingの予稿集で、M. W. Berry他に
よる「Computational Method for Intelligent Informa
tion Access」を参照されたい。LSIは、ワードの使
用法に、いくつかの見えない構造、即ち潜在的な構造が
あることを仮定し、その構造は、文書におけるワードの
発生を分析することによって外部化される必要がある。
従って文書は、非常に大きな範囲の用語空間におけるベ
クトルとして考えられ、そのベクトルの個々の要素は与
えられた文書における特定の用語の発生頻度を表してい
る。全体及び局所的重み付けに基づく、より洗練された
基準も使用されうる。短縮された特異値分解(SVD)
が、文書に亘るワード使用の構造を評価する。これにつ
いては、1989年、アメリカ合衆国メリーランド州ボ
ルチモアのJohns-Hopkinsの、G. Golub他による「Matri
x Computations」第2版を参照されたい。ここでは、検
索が、特異値を有するデータベース、及び短縮されたS
VDから得られたベクトルを使用して実行される。LS
Iの予備的評価では、この情報検索のアプローチは、個
々の用語に基づくものより粗い基準とされている。
【0015】自動化されたクエリー拡張は、ワード・ミ
スマッチ問題を取り扱う技法として長い間示唆されてき
た。これについては、1994年、アイルランド共和国
ダブリンで行われたthe 17th Annual International AC
M SIGIR Conferenceの予稿集で、E. Voorheesによる「Q
uery Expansion Using Lexical-Semantic Relations」
を参照されたい。あるアプローチでは、類語辞典を用い
てクエリーを拡張し、関連する文書内でワードがマッチ
する可能性を高めている。研究では、単に一般的な類語
辞典を用いるだけでは、改善に限界があることが分かっ
ている。多くの革新的技法も提案されている。1994
年、the 3rd International Conferenceon Information
and Knowledge Managementの予稿集の、O. Kwon他によ
る「Query Expansion Using Domain Adapted, Weighted
Thesaurus in an Extended Boolean Model」、199
3年、アメリカ合衆国ペンシルバニア州ピッツバーグで
行われたthe 16th Annual International ACM SIGIR Co
nferenceの予稿集の、E. Voorheesによる「Concept Bas
ed Query Expansion」、同予稿集の、E. Voorheesによ
る「Query Expansion Using Lexical-Semantic Relatio
ns」、及び同予稿集の、M. W. Berry他による「Computa
tional Methods for Intelligent Information Acces
s」を参照されたい。実験の結果、自動化されたクエリ
ー拡張では、平均で7%から25%の検索の効率化がは
かられている。これについては、同予稿集の、C. Buckl
ey他による「Automatic Query Expansion Using SMAR
T」を参照されたい。
【0016】クエリーの改良は、構文的に関連するワー
ドを含めることによっても達成される。このアプローチ
は、ワードを、文書内での共起情報に基づいてクラスタ
化し、これらのクラスタを用いてクエリーを拡張する。
この共起情報は、2項関係であるため、こうしたインデ
ックスのサイズは常に、極めて大きなものになる。ま
た、あるグループは、ワードの変形に関する共起統計の
集大成を用いてステマ(stemmer)を変更又は生成し、
形態素規則のみを用いたアプローチに較べてどれだけ有
利かを実証した。これについては、1994年、the Fo
urth Annual Symposiumの予稿集の、W. B. Croft他の
「Corpus-Specific stemming Using Word Form Co-occu
rrence」を参照されたい。クエリーの用語を1組の意味
的に関連する用語に拡張する上記各技法は、全体(globa
l)分析と呼ばれる。クエリー拡張では、関連フィードバ
ックからの用語もクエリーに追加され、検索の効率を改
善する。1990年6月、Journal of the American So
ciety for Information Scienceの41(4):288-297、G. S
alton他の「Improving retrieval performance by rele
vance feedback」を参照のこと。これは、局所(local)
分析と呼ばれる。これまでの研究では、ワードの前後関
係及び語句の構造を用いた全体分析技法を文書の一部分
の組に適用することによって、単純な局部的フィードバ
ックより効果的でより確実な検索結果が得られることを
示している。詳細については、上記文献の、J. Xu他に
よる「Query Expansion Using Local and Global Docum
ent Analysis」を参照のこと。
【0017】しかし、前述したように、いままでの研究
は、クエリーが拡張された場合のクエリーの効率的な処
理の問題を解決したり、クエリー拡張とクエリー処理を
実行するのに用いられるインデックスのサイズを小さく
することを目指すものではなかった。
【0018】
【発明が解決しようとする課題】本発明の目的は、ワー
ド・ミスマッチの問題と、結果的に生じるクエリー処理
の非効率さを解決するために、小さなサイズのインデッ
クスを使用して効率的なクエリー拡張を行い、連続的な
クエリーの処理を行う方法及び装置を提供することであ
る。より詳しくは、クエリー内に指定されたワードと意
味的に類似し、構文的に関連のあるワードを用いて、そ
のクエリーを、物理的ではなく概念的に拡張し、結果的
に関連する文書を逃すことを少なくする。
【0019】また、クエリーの拡張を支援するために、
用語の意味について関連するワード、及び構文的共起関
係にあるワードのインデックスが維持される必要があ
り、こうしたクエリー拡張の支援に関しては、以下の2
つの問題が重要になる。1つ目はインデックス・テーブ
ルのサイズの問題であり、2つ目はクエリー処理のオー
バーヘッドの問題である。本発明は、これらの問題を解
決することも目的とする。
【0020】
【課題を解決するための手段】本発明によれば、複数の
細分度からなる情報の概念と処理構造が、クエリーの拡
張を支援するために使用される。本発明は、インデック
ス付けフェーズ、クエリー処理フェーズ、及びランク付
けフェーズを含む。インデックス付けフェーズでは、意
味的に類似したワードが1つの概念としてグループ化さ
れ、こうして、より粗く細分化された意味概念のため
に、結果的に実際の1つのインデックス・サイズが小さ
くなる。クエリー処理の間、クエリー内のワードが、辞
書と実際のデータの内容を使用して、対応する意味概念
及び構文的拡張にマッピングされ、結果的に元のクエリ
ーに対して論理的な拡張が行われる。更に、処理に関す
るオーバーヘッドが回避される。次に、最初のクエリー
のワードは、検索結果として得られた文書を、厳密なマ
ッチング、意味的なマッチング、及び構文的マッチング
に基づいてランク付けするのに用いられ、連続的なクエ
リーの処理を実行するのにも用いられる。
【0021】
【発明の実施の形態】本発明による、効率的にクエリー
の拡張を行うための方法及び装置の好適実施形態が、添
付図面と共に以下で詳細に説明される。以下の説明は、
NECのPERICOオブジェクト指向データベース管
理システム(OODBMS)に関してなされるが、本発
明はこれに限られるものではないことに注意すべきであ
る。本発明は、様々なデータベース・システム及び文書
の集合体に適用されうる。
【0022】本発明は、複数の細分度の概念を導入する
ことによって、クエリーの拡張に関して、効果的なイン
デックス付けと処理支援を提供する。本発明のアプロー
チは、ワードのステミング(stemming)の後で、利用可
能な技法を用いて、意味的に類似するワードと構文的に
関連するワードについて、インデックスを設定する。前
記技法については、1996年、スイス、チューリッヒ
でのthe 19th AnnualInternational ACM SIGIR Confere
nceの予稿集の、J. Xu他の「Query ExpansionUsing Loc
al and Global Document Analysis」、及び1997
年、アメリカ合衆国ペンシルバニア州フィラデルフィア
でのthe 20th Annual International ACM SIGIR Confer
enceの予稿集の、C. Jacqueminの「Guessing Morpholog
y from Terms and Corpora」を参照のこと。更に本発明
のアプローチは、いくつかのエントリ(タプル)を、よ
り高レベルの細分度で1つのエントリにマージすること
により、インデックスのサイズを小さくする。クエリー
処理の間、より高いレベルの細分度での情報を有した、
そのタプルが、関連文書を検索するのに用いられる。そ
の後、クエリーの元のワードは、より細かい細分度で、
厳密なマッチング、意味的に類似するマッチング、及び
構文的に関連するマッチングに基づいてクエリー処理の
間に結果として得られる文書をランク付けするために用
いられる。複数の細分度を有するインデックスとクエリ
ー処理技法を使用することによって、検索メカニズムに
おける全体の精度を維持したまま、インデックスのサイ
ズを小さくすることができ、かつ、より速いクエリー処
理を実現できる。
【0023】最初に、複数の細分度の表記と、それが、
どのように、ほとんどのIRシステムによって使用され
ている従来のインデックス付けに関連して適応されるの
かについて説明する。次に、所定の文書の集合に関し
て、複数の細分度を有するインデックス付けを行う場合
の、記憶域に対するオーバーヘッドについての見積りを
行う。
【0024】従来のIRシステムは、文書リストから所
与のワードを容易に検索するために、インデックスを保
持し、同時に、得られた文書に関連付けられたワードの
組を抽出する。この場合、「文書」という用語は、テキ
スト、イメージ、又はテキストとイメージの組み合わせ
に関連することに注意すべきである。
【0025】図2は、インデックスの例を示している。
図2の(b)に示すテーブルは、図2の(a)に示すテ
ーブルを転置したインデックスである。図2では、説明
を容易にするため、これらのインデックスがテーブルの
形で示されている。しかし、実際の環境では、例えばN
ECのPERCIO OODBMSの上位層のクラスが
用いられる。1つのクエリーの例をとると、ユーザが最
初に、ワード「car(乗用車)」かつ「dealer
(販売店)」を用いてクエリーを作成すると、IRシス
テムは、図2の(b)のテーブルの対応する行から文書
リストを取り出す。この場合、クエリーの解答は、2つ
の行から得られた文書リストの共通部分となる。このI
Rに対するアプローチは、明らかに、厳密なマッチング
のみを支援するものであり、「automobile
dealer(自動車の販売店)」、「car sho
wroom(乗用車のショールーム)」、又は「aut
omobile showroom(自動車のショール
ーム)」といった類似の意味を有する用語を含む関連文
書を得ることができない。クエリー拡張は、クエリーを
「car」かつ「dealer」という記述から、
(「car」又は「automobile」)かつ
(「dealer」又は「showroom」)という
記述に拡張する特別のユーティリティと関連して使用さ
れる。このアプローチは実現可能ではあるが、クエリー
処理にかなりのオーバーヘッドを招くことになる。特
に、図2の(b)のインデックス・テーブルについての
2回のルックアップの代わりに、元のクエリー内のワー
ドと意味的に類似するワードのそれぞれについて、何回
かのルックアップが必要になる。また、オンライン辞書
のような類語辞書的ツールが、クエリーの用語を、それ
らと意味的に類似する用語に拡張するのに必要である。
これらの観察から、本発明は、文書の集合を検索する際
に、クエリーの拡張を支援する、より効果的な方法を提
供する。
【0026】先に述べたように、ユーザの語彙と作者の
語彙とのミスマッチを避けるために、意味の類似するワ
ード、及び構文的関係を有するワードを用いてクエリー
を拡張する方法に基づいたクエリーの拡張が必要とされ
る。
【0027】図3は、従来のIRシステムにおいて、ク
エリーの拡張を容易にするのに追加が必要となるデータ
構造を示している。特に、図3は、各ワードが意味的に
類似する概念にグループ化される、用語の意味を含むオ
ンライン辞書から導出されたテーブルを示している。な
お、図3に示されたテーブルは、説明のため簡略化され
ている。例えば、類似する用語の組「car(乗用
車)」、「auto(車)」、「automobile
(自動車)」、及び「sedan(セダン)」は、1つ
の象徴的エンティティ、sem1として表されている。
辞書や類語辞書に基づく意味的な類似とは違って、IR
における構文的関係は、文書の収集そのものによって決
定される。特に、ワードの共起情報は、2つのワードを
構文的に関連付けるのに使用される。図3(b)は、こ
の情報を表したインデックスを例示している。図3の補
助インデックスと共に、図2の従来のIRインデックス
を用いることによって、基本的なクエリー拡張技法が、
IRシステムにおいて支援される。基本的には、ユーザ
のクエリーが与えられると、クエリーのワード・リスト
が、意味的に類似するワード及び構文的に関連するワー
ドを含むように拡張される。
【0028】クエリーの拡張を用いたクエリーの処理に
は、上述の方法が使用されるが、このアプローチでは、
処理に関するオーバーヘッドが高くなってしまう。本発
明によれば、クエリーをより効率的に処理することがで
きる追加のインデックス構造が使用される。本発明のア
プローチの基本的発想は、図2及び図3のインデックス
を、クエリーが概念的に拡張されるように変換するもの
である。即ち、意味的に類似するワード及び構文的に関
連するワードをリスト内に含ませることによって、クエ
リーのワードのリストを物理的に拡張するのではなく、
クエリーのワードを、その関連する、より上位レベルの
意味概念と構文的関係(例えば、共起関係)のワードと
入れ替えることによって、クエリーを概念的に拡張す
る。このことは、追加のインデックス構造による容量オ
ーバーヘッドの追加をもたらす。しかし、ユーザのクエ
リーがより効率的に処理されるので、全体としては節約
を達成できる。
【0029】前述したように拡張されたクエリーを処理
するために、図4に示すように、インデックス・テーブ
ルが変更される。特に、図4の(a)に示すインデック
ス・テーブルは、各ワード(固有の名称でない)を、よ
り上位レベルの意味概念のワードに置き換えることによ
って、図2の(a)から導出される。図4の(b)に示
すインデックス・テーブルは、図2の(b)に示された
ワードを、それらが対応する、より上位レベルの意味概
念のワードと組み合わせ、それぞれの文書リストのエン
トリをマージすることによって得られる。従って、「c
ar」、「auto」、「automobile」、及
び「sedan」に対応する行エントリは、図4の
(b)では単一のエントリSem1として表されてい
る。同様に、図2(b)の、「dealer」、「sh
owroom」、及び「SalesOffice」に対
応する行は、Sem2というラベルの1行に纏められて
いる。
【0030】構文的に関連するワードに対するインデッ
クスは通常、いくつかの理由から、意味的に関連するワ
ードに対するインデックスよりかなり大きい。ウエブ上
の多くのワードは、固有の名称であり、辞書には見つか
らない。実験では、2,904の文書を分析した場合、キー
ワードの42%だけがWordNetで見つかった。W
ordNetは60,000以上のワードを有するオンライン
辞書である。これについては、1990年、Internatio
nal Journal of Lexicography 3(4)、ページ245-264
の、G. A. Millerによる「Nouns in WordNet: A Lexica
l Inheritance System」を参照されたい。残りの58%
のワードは固有名詞やタイプエラーを含んでおり、これ
がインデックスのサイズを肥大化させる元となってい
る。従来のIRシステムにおいては、構文的な関連付け
は、通常、共起関係によって把握されていた。同じ文書
内でのワードの共起関係は、1対1関係であるため、n
個のワードが識別された場合、インデックスのサイズ
は、最悪のケースでは、(n×(n−1))/2とな
る。巨大な記憶域とインデックス付けのオーバーヘッド
のために、3個以上のワードの共起関係をインデックス
付けするのは、非常にコストがかかる。
【0031】辞書に見つかったワード(意味的に意義の
あるもの)をSとし、他の全てのワード(固有名詞)を
Pとする。辞書にあるワードと辞書にないワードとい
う、上記分類に基づいて、ワードの間の共起関係が3つ
の異なるカテゴリに分類される。
【0032】・P−P型:例えば(Toyota(トヨ
タ)、Avalon(トヨタ車の名前))、(Acur
a(アキュラ)、Legend(アキュラ車の名
前))、(Nissan(日産)、Maxima(日産
車の名前))。
【0033】・S−P型、又はP−S型:例えば(Bu
ick(フォード車の名前)、car(乗用車))、B
uick、dealer(販売店))、(car、Fo
rd(フォード社))、(Ford、auto
(車))、(Ford、dealer)。
【0034】・S−S型:例えば(car、garag
e(ガレージ))、(auto、garage)。
【0035】通常、図3の(b)に示す、より粗い細分
度に変換できないP−P型のエントリを変換することは
困難である。しかし、他の全てのエントリは、対応す
る、より高いレベルの意味概念に置換できるSワードを
有する。これによって、共起インデックスのサイズが減
少し、クエリー処理のスピードアップが実現される。イ
ンデックスのサイズの減少は、以下のように生じる。S
−P型(wi、X)の各エントリに対し、wiが意味概念
Semiに対応するように、図3の(b)に示された全
ての(wi、X)のエントリを、図4の(c)の(Se
i、X)に置換する。ここで、対応する文書のリスト
もマージされる。同様の手順がP−S型のエントリにも
適用される。図4の(c)に示すように、エントリ(F
ord、car)と(Ford、auto)は、(Fo
rd、Sem1)に置換される。同様に、エントリ(F
ord、dealer)と(Ford、showroo
m)は、(Ford、Sem2)に置換される。こうし
たマージ・メカニズムについて、図5の(a)(b)を
用いて説明する。
【0036】S−S型のエントリは、以下の2つの方法
でマージされる。
【0037】・単一マージ:図5の(a)(b)に示す
ような、1対多/多対1のタイプのマージ。例えば、エ
ントリ(car、dealer)、(automobi
le、dealer)、及び(auto、deale
r)は、(Sem1、dealer)に置換される。こ
こで使用されるアルゴリズムは、S−P型及びP−S型
で使用されるものと同じである。
【0038】・複合マージ:図5の(c)に示すよう
な、多対多のタイプのマージ。例えば、エントリ(ca
r、dealer)、(automobile、sho
wroom)、及び(auto、SalesOffic
e)は、(Sem1、Sem2)に置換される。このタ
イプのマージのアルゴリズムは、以下のようなものであ
る。
【0039】1.S−S型の各エントリ(wi、X)に
対して、wiが、意味概念Semiに対応するように、図
3の(b)の(wi、X)のエントリ全てを、図4の
(c)に示すような(Semi、X)に置換する。
【0040】2.(Semi、wj)のタイプの各エント
リに対して、wjが、意味概念Semjに対応するよう
に、こうした全ての(Semi、wj)を、(Semi
Sem j)に置換する。
【0041】上記ステップ2は、上記ステップ1の前に
実行することもできることに注意すべきである。更に、
このアルゴリズムのステップ1とステップ2は、マージ
するものがなくなるまで繰り返し行われうる。
【0042】複数のエントリがマージされると、それに
応じて、各エントリの構文的ワードリストも、合併(U
NION)演算によってマージされる。
【0043】複数の細分度を有するインデックス付け技
法は、OODBMSの上位層に実装されうる。こうした
実装では、図2の(a)、図3の(a)、及び図4の
(c)に示すテーブルは、内容を有するクラスである。
他のテーブルは、ポインタのみを有するクラスである。
インデックスに対する更新、削除、及び挿入操作は、自
動監視維持やクラスの間で伝達を行うプログラムを介し
て、OODBMSによって実行される。複数の細分度を
有するインデックスの維持は累積的に行われ、再編成は
必要とされない。
【0044】次に、従来のワードに基づくインデックス
の他に、意味概念に基づくインデックス・テーブルを支
援するのに必要なために追加される記憶域のオーバーヘ
ッドを考慮に入れて、本発明による実施例の見積りを計
算する。前述したように、図4に示すテーブルが、効率
的なクエリー処理のために導入される。最初に、従来の
IRシステムで使用されるインデックス、即ち、図2に
示すテーブルに関する記憶域の見積りに関する計算を行
う。所定の集合体における文書の数はDであるとする。
更に、その所定の文書の集合体における、辞書にあるワ
ード数(ワード・ステミングを用いて、ストップ・ワー
ドとグルーピング・ワードを取り除いた後の数)はWで
あり、辞書にないワードの数はVとする。また、文書毎
の、辞書にあるワード数の平均をwとし、辞書にないワ
ード数の平均をvとし、ワード毎の文書数の平均をdと
する。エントリ数(即ち、行数)とテーブルの全体のサ
イズ(即ち、ポインタの数)に基づいて、インデックス
のサイズが計算される。テーブルの各エントリが、ポイ
ンタ・データとして表されることに注意すべきである。
これらのパラメータが与えられると、図2の(a)に示
されたテーブルのサイズは、以下の式(2)で表され
る。
【0045】 行数[2(a)] =D ...(1) 全体サイズ[2(a)] =(1+v+w)D ...(2)。
【0046】各行において、文書の識別のために1つの
ポインタが必要とされ、ワードのリストの中で辞書にな
いワードを表すのに、平均でv個のポインタが必要とさ
れ、更にワードのリストの中で辞書にあるワードを表す
のに、平均でw個のポインタが必要とされるので、(1
+v+w)の項が生じていることに注意すべきである。
同様に、図2の(b)に示すテーブルのサイズは、以下
の式(4)で表される。
【0047】 行数[2(b)] =W+V ...(3) 全体サイズ[2(b)] =(1+d)・(W+V) ...(4)。
【0048】このテーブルの各行は、平均で、文書リス
ト内で文書の識別子となるd個のポインタと、ワードそ
のものを指す1つのポインタを必要とする。
【0049】次に、基本的なクエリー拡張を支援するの
に必要な、オンライン辞書と構文的共起テーブルの記憶
域オーバーヘッドを見積る。fを、辞書にあるワードを
意味概念にグループ化することによって得られる圧縮要
素とする。従って、fは、1つの概念にグループ化され
たワードの数の平均と見ることができる。図3の(a)
に示すテーブルのサイズは、以下の式(6)のように表
すことができる。
【0050】 行数[3(a)] =W/f ...(5) 全体サイズ[3(a)] =W+W/f ...(6)。
【0051】式(5)は、辞書にあるワードの記憶域
が、圧縮要素fに基づいて圧縮されるので、このように
表される。式(6)は、W個のポインタが、ワードのリ
スト内のワードを表すのに必要で、W/f個のポインタ
が意味的な識別子を表すのに必要であることを示してい
る。図3の(b)で示されるテーブルのサイズは、最悪
の場合、以下の式(8)で表される。
【0052】 行数[3(b)] =V(V−1)/2+VW+W(W−1)/2 ...( 7) 全体サイズ[3(b)]=(1+2+q)・(V(V−1)/2+VW+W(W−1 )/2) ...(8)。
【0053】式(7)では、第1項がP−P型のワード
の共起関係に対応し、第2項がS−P型又はP−S型に
対応し、最後の項はS−S型の共起関係に対応する。q
は、共起関係を表す項毎の、文書リスト内のエントリの
平均数を表している。更に、構文的用語識別子を表すた
めに3つのポインタが必要とされ、2つのワードが各行
の共起関係に含まれる。
【0054】次に、意味的に類似する用語の組を1つの
ユニークな意味概念にグループ化する、本発明による複
数の細分度を有するインデックス付けに関する記憶域オ
ーバーヘッドについて見積りを行う。前述したように、
図4に示すインデックス・テーブルのサイズを計算する
ために、意味概念毎の平均文書数と、文書毎の意味概念
の平均数を見積る必要がある。複数の用語が1つの意味
概念に縮減されるので、意味概念毎の文書の平均数は、
dより大きくなり、この拡張は、f・dにはならないこ
とを示すことができる。他方、文書毎の概念の平均数
は、wを越えることはない。実際に、この数がwと似た
ものになることを示すことができる。これらのパラメー
タに基づいて、複数の細分度を有するインデックス付け
の追加の記憶域オーバーヘッドを計算することができ
る。図4の(a)に示すテーブルに関する計算は以下の
通りである。
【0055】 行数[4(a)] =D ...(9) 全体サイズ[4(a)] =(1+v+w)D ...(10)。
【0056】即ち、サイズは図2の(a)に示すテーブ
ルと同じである。一方、図4の(b)に示すテーブルの
サイズは、以下の通りである。
【0057】 行数[4(b)] =W/f ...(11) 全体サイズ[4(b)] =(1+df)・W/f ...(12)。
【0058】辞書にあるワードのエントリの数は、ワー
ドが意味概念に統合されるために、要素fに基づいて減
少する。しかし、意味概念毎の文書の数は、その要素と
ほぼ同じ分だけ増加する。結果的に、このテーブルのサ
イズは、図2の(b)に示すテーブルと同じようなもの
になる。より高いレベルの細分度においては、図4の
(a)と(b)に示すテーブルは、それぞれ図2の
(a)と(b)に示すテーブルであることに注意すべき
である。最後に、図4の(c)に示すテーブルの記憶域
の見積りは、以下の式(13)、(14)のように計算
される。
【0059】 行数[3(b)] =V(V−1)/2+V・(W/f)+(W(W−1)/2f2 ) ...(13) 全体サイズ[3(b)] =(1+2+q)・V(V−1)/2+(1+2+qf) ・V・(W/f)+(1+2+qf)(W(W−1)/2f2) ...(14) 。
【0060】基本的に、S−S型、S−P型、又はP−
S型の共起用語の全ては、要素fに基づいて圧縮され、
図3の(b)に示すテーブルと較べて実質的に小さな容
量になる。
【0061】最終的に、本発明によれば、図3の(b)
に示すテーブル以外が必要とされる。一方、基本的なク
エリー拡張技法は、図2及び図3に示すテーブルを全て
必要とする。従って、本発明の方法を採用した場合の記
憶域に関するコストは、図4の(a)と(b)に示すテ
ーブルの記憶域の増加分だけ大きくなるが、図4の
(c)に示すテーブルのサイズが小さくなるので、前記
コストの増加分は部分的に埋め合わせられる。節約の正
確な数値は、前述した種々のパラメータの値に依存す
る。最悪の場合でも、追加の記憶域は、基本的なクエリ
ー拡張技法を使用した場合の記憶域の2倍よりかなり小
さい。
【0062】前述のインデックス付け技法は、ワードが
単一の意味のみを有することを仮定して議論されてい
る。しかし、ワードは、通常複数の意味を有している。
例えば、「bank」というワードは、金融機関(銀
行)、または川岸として解釈される。複数の意味を有す
るワードについて考慮するため、意味的ワードリストの
ワード(図3で示されている)が、図4の(a)に示す
複数の概念番号に属するものとする。例えば、「ban
k」は、Sem10とSem20に関連付けられるもの
とする。こうした複数の意味を考慮して、クエリーの拡
張を実行するために、クエリーが、複数の異なる概念番
号に属する1つのワードを含む場合、その異なる概念番
号のそれぞれが、クエリーの処理の際に考慮されるべき
である。
【0063】上記説明においては、インデックス技法
は、NECのOODBMSの上位層に実装されており、
意味的ワードリスト内のワードが、ポインタによって概
念番号に関連付けられている。また、冗長なデータは記
憶されておらず、ポインタに関する記憶域のコストも非
常に低いものである。WordNetは、あるワードに
対する類義語を様々な意味の解釈で提供し、その意味が
使用される頻度に応じてランク付けする。例えば、「b
ank」は、川岸よりも金融機関として、より多く解釈
される。最も一般的な意味解釈が、現在の実行に用いら
れる。しかし、データ構造を拡張することもできる。
【0064】前で述べられた以外の、意味のグループ化
を考慮に入れることができる。図4では、類義語による
クエリーの拡張だけが考慮されている。ISA、IS_
PART_OF等の、他の型の意味の緩和を考慮するこ
ともできる。図4の(a)に示す形態のテーブルを、様
々な意味のグループ化(例えば、1つはISAに関し
て、1つはIS_PART_OFに関して)に関して複
数生成することができる。また、1つのテーブルを様々
な意味のグループ化に関して使用することもできる。類
義語及び上位概念語の両方によってクエリーの拡張を行
う場合、複数のテーブルに対してルックアップが行われ
る。
【0065】ワード・ミスマッチの問題に対処するた
め、クエリー処理技法は、関連ワードを用いてクエリー
のワードを拡張する必要がある。結果的に、元のクエリ
ーのワードに対する関連性によって文書をランク付けす
る、追加タスクが実行されうる。次に、拡張されたクエ
リーの処理が、本発明による3つのタスク、即ち、クエ
リーの拡張、クエリーの処理、及び結果のランク付けと
して提供される。
【0066】まず、クエリーの拡張について説明する。
図6は、従来のクエリー拡張技法の元でのクエリーの拡
張の例を示している。「carとdealerというワ
ードを含む文書を検索する」というクエリーが修正さ
れ、carとdealerに関連するワードが追加され
ている。意味的に類似する関連ワードと、構文的な共起
関係を有する関連ワードは、図3に示すテーブルを用い
て決定される。本発明による、複数の細分度を有するク
エリー拡張技法の元でのクエリー拡張の例は、図7に示
されている。複数の細分度を有するクエリーの拡張技法
は、carとdealerというワードを、図3の
(a)に示すテーブルを用いて概念Sem1とSem2
に変換する。ワードを、そのワードに対応する、より上
位レベルの意味概念に変換した後、図4の(c)に示す
テーブルを用いて、その意味概念が、構文的関係を含む
ように拡張され、元のクエリーにある固有名詞が、共起
テーブルからの関連ワードを含むように拡張される。
【0067】辞書にあるワードと辞書にないワードの両
方を含むクエリーQが与えられた場合、Qは、以下の式
(15)で表現される。
【0068】 Q=(s1∧...∧sm)∧(p1∧...∧pn) ...(15) 式(15)では、siは辞書にあるワードを表し、pj
辞書にないワードを表す。更に、クエリーQには、辞書
にあるワードがm個あり、辞書にないワードがn個あ
る。こうしたクエリーが与えられると、複数の細分度を
有するクエリー拡張技法が、以下のように実行される。
【0069】1.Qにある各si(i=1,...、
m)を、図3の(a)に示すテーブルから得られた、そ
のsiに対応する、より上位レベルの意味概念に置換す
る。このように置き換えられた概念のそれぞれをCi
表記する。
【0070】2.ステップ1で得られた各Ci(i=
1,...、m)に対して構文的関連を有するワード
を、図4の(c)に示すテーブルを用いて求め、追加す
ることによってQを拡張する。S−S型のエントリは、
概念の追加に寄与し、S−P型のエントリは、固有名詞
に寄与する。
【0071】3.各pj(j=1,...,n)と共に
生じる、構文的関連を有するワードを、図4の(c)に
示すテーブルを用いて求め、追加することによってQを
拡張する。P−S型のエントリは、概念の追加に寄与
し、P−P型のエントリは、固有名詞に寄与する。
【0072】4.冗長なクエリーのワード又は概念をQ
から除去する。
【0073】本発明によって拡張されたクエリーは、従
来の技法によって拡張されたクエリーと較べて、よりコ
ンパクトで、チェックすべき項目が少ない。それは、ク
エリーのワードが、より粗い細分度におけるエンティテ
ィに変換されているからである。結果的に、本発明によ
り拡張されたクエリーのクエリー処理のコストは、一層
小さいものになる。次に、従来の技術のクエリー拡張、
及び本発明の、複数の細分度を有するクエリー拡張にお
いて導入されるエンティティ(ワード又は概念)の数が
見積られる。前述のように、より上位レベルの意味概念
の元でグループ化された、辞書にあるワードの平均数
は、fで表される。ここで、ワードに意味的に関連付け
られた、より上位レベルの概念の平均数をgとし、ワー
ドに関連付けられた、構文的関連を有する固有名詞の平
均数をhとする。そこで、基本的なクエリーの拡張(B
Q)の元でのQにおけるワードの数は、以下の式(1
6)に示すように、ステップ1、2、及び3で発生する
拡張の合計である。
【0074】 ワード数[BQ]=(mf)+m(g+h)+n(g+h) ...(16) ここで、第1項は、辞書にあるm個のワードのそれぞれ
が意味的に類似するf個のワードに置換されるために生
じる。第2項は、辞書にあるm個のワードのそれぞれに
対し、辞書にある共起ワード、及び辞書にない共起ワー
ドが(g+h)個追加されるために生じる。第3項は、
(g+h)個の共起ワードを追加したn個の固有名詞の
それぞれに対応する。同様に、複数の細分度を有するク
エリー拡張(MGQ)の元でのQにおけるワードと概念
の数は、以下の式(17)で表される。
【0075】 ワード数[MGQ]=m+m(g/f+h)+n(g/f+h) ...( 17) ここでは、使用されている類似のワードの組に関して、
より上位レベルの意味表現を用いているので、圧縮要素
fが現れることが、実質的に大きく異なる点である。従
って、複数の細分度を有するクエリー拡張技法によっ
て、クエリーに含まれるワード/概念の数は、基本的な
クエリー拡張技法によるものよりも厳密な意味で少なく
なっている。図4の(c)のテーブルにおいて、ワード
毎の固有名詞の数が小さければ、本発明の技法によるク
エリーの複雑さは、要素fに基づいて軽減される。
【0076】今度は、クエリー処理について説明する。
従来の厳密なマッチングに基づくクエリー処理では、ク
エリーに関連する検索の述語に関する条件を満たさない
ことが分かるとすぐに、検索処理を終了する。検索は類
似性に基づいているので、実際のIRにおいては、そう
ではない。特にユーザは、ユーザの検索基準に、部分的
にでもマッチした結果を見ようとするものである。従っ
て、N個のワードを有するクエリーに対して、N回のル
ックアップが必要であり、これは、検索の述語における
ブール条件には依存しない。更に、部分的なマッチング
が支援されているので、クエリー処理の後に、ランク付
け処理を追加する必要がある。ランク付け技法は、文書
の内のどのワードがクエリーにマッチするかということ
と、そのワードの文書内での頻度に関する情報を必要と
する。
【0077】ここで、2つの技法において、クエリーを
処理する際のルックアップのコストについて分析する。
2つの要因のために、処理コストには基本的な違いがあ
る。この2つの要因は、以下に示すものである。
【0078】・基本的なクエリー拡張におけるワード数
が、複数の細分度を有するクエリー拡張におけるワード
数より多いこと。
【0079】・ルックアップが行われる、それぞれのテ
ーブルのエントリ数が2つの技法で異なること。
【0080】ここで、前述したクエリーQのルックアッ
プ・コストの見積りを行う。テーブルは、平衡探索構造
で組織化されており、テーブルのルックアップ操作は、
テーブルの行数に応じて対数的に変化するものと仮定す
る。従って、前述の見積り式を用いた、基本的なクエリ
ー拡張においてQを実行する際のルックアップ・コスト
は、以下の式(18)、(19)のようになる。
【0081】 ルックアップ・コスト(Q,BQ) = mf・log(行数[2(b)]+(m+n)・(g+h)・log(行数[3( b)]) ...(18) = mf・log(W+V)+(m+n)・(g+h)・log(V(V-1)/2+VW+W (W-1)/2) ...(19)。
【0082】同様に、複数の細分度を有するクエリー拡
張においてQを実行する際のルックアップ・コストは、
以下の式(20)、(21)のようになる。
【0083】 ルックアップ・コスト(Q,MGQ) = m・log(行数[4(b)]+(m+n)・(g/f+h)・log(行数[ 4(c)]) ...(20) = m・log(W/f+V)+(m+n)・(g/f+h)・log(V(V-1)/2+ V・W/f+(W(W-1))/2f2) ...(21)。
【0084】辞書に有るワードのルックアップの回数
が、MGQ内の要素fによって少なくなり、ルックアッ
プの実行対象となる2つのテーブルのサイズが小さくな
るので、MGQにおけるクエリー処理のコストがBQに
おけるコストより小さくなるのは明らかである。
【0085】次に、本発明のランク付け方法について説
明する。クエリー処理段階において、より粗い細分度で
のワードの表現が、関係のない文書を除去するのに用い
られる。しかし、候補となる文書は、それらが2つの条
件、即ち、より粗い細分度レベルにおいて「car」と
「dealer」を含むという条件を満たすので、同じ
ランクを有する。これは、クエリー処理の結果として好
ましいものではない。従って、ランク付けの段階では、
候補となる文書内にある元のワードがアクセスされ、そ
れがランク付けに使われる。
【0086】図8では、以下の条件を満たすキーワード
を有する、4つの、候補となる文書が示されている。
【0087】条件:(Sem1 ∨ Ford ∨ B
uick)∧(Sem2 ∨ Ford ∨ BUIC
K)。
【0088】最初のマッチング・キーワードがランク付
けのために検索される。従って、(「car」、「de
aler」)、(「auto」、「dealer」)、
(「auto」、「sales office」)、及
び(「Ford」、「showroom」)が、関連性
の程度をランク付けするのに用いられる。
【0089】候補となる文書は、クエリー内のワードを
有する文書内においてマッチしたワードについての緩和
の程度に基づいてランク付けされる。
【0090】例えば、緩和の程度は、E<Se<Sy<
X(即ち、厳密なマッチング<意味的緩和<構文的緩和
<マッチングなし)の順で定義される。ここで、クエリ
ーのワードに関し、より高いレベルで緩和がされたワー
ドを用いたクエリーの結果は、ユーザに対して、より関
連のないものを含むことになる。しかし、緩和の程度の
順と定義は、アプリケーションの要件によって任意であ
る。候補となる文書を探すのに、より小さな緩和が用い
られるほど、候補となる文書のランクは、より高くな
る。図8の下部に、「car」と「dealer」とい
うワードを有する文書に最も高いランクが与えられてい
る。これは、候補のワードがクエリーのワードに厳密に
マッチしたからである。「auto」と「deale
r」というワードを有する文書は2番目に高いランクが
与えられている。これは、クエリーのワード「car」
とマッチさせるため、1つのワードのみに、意味的な緩
和(即ち、クエリーの用語を、意味的に関連する用語と
入れ替える)が必要とされるからである。他のランク付
けに関しては、図8に示すように行われる。
【0091】ランク付け技法は、以下の2つの基準に基
づいて行われる。
【0092】・与えられたクエリーQのキーワードに関
して、Qと文書Doc1にあるキーワードWord1、
Doc2にあるWord2、Doc3にあるWord
3、Doc4にあるWord4との間の関係がそれぞ
れ、厳密なマッチング、意味的なクエリー緩和によるマ
ッチング、構文的なクエリー緩和によるマッチング、及
びマッチングなしである場合、文書は、Doc1>Do
c2>Doc3>Doc4の順にランク付けされる。
【0093】・M個の文書、Doci(i=
1,...,M)と、文書Dociにそれぞれ対応す
る、クエリーにマッチするキーワード数、Matchi
(i=1,...,M)に関するランク付け(スコア)
は、Match1>Match2>Match 3...M
atchM-1>MatchMである場合、Doc1>Do
2>Doc3...DocM-1>DocM0となる。
【0094】2つのキーワードを備えたクエリーを使用
する、前述したランク付け技法に基づけば、図9に示す
ような、2つのワードを有するクエリーで文書を検索す
る場合の2次元ランク付けグラフが生成される。クエリ
ーの拡張をしないと、スロット(E,E)内の文書だけ
が検索される。クエリーの意味的拡張と構文的拡張の両
方を用いると、文書がスロット(X,X)にない限り、
関連する全ての文書が検索される。
【0095】このランク付けグラフは、行列として表さ
れている。N個の用語を有するクエリーに関して、ラン
ク付けグラフは、N×4の行列、M(i,j)(i=
0...N、j=0...3)によって表される。例え
ば、図9のランク付けグラフは、行列M(i,j)(i
=0...2、j=0...3)として表されている。
例えば、スロット(E,E)、(Se,E)、(Se,
Sy)、及び(X,X)は、行列内で、それぞれスロッ
ト(3,3)、(2,3)、(2,1)、及び(0,
0)として表されている。この表現によれば、各文書は
以下のように簡単にランク付けできる。
【0096】・スロット(n,m)内の文書に対して、
mが0から3の間である場合、これらの文書のランク
は、スロット(i,j)(i=0...n、j=
0...3)内の文書より高いスコアになる。
【0097】・スロット(n1,m1)内の文書のラン
クのスコアは、n1≧n2かつm1≧m2である場合、
スロット(n2,m2)内の文書のスコア以上になる。
【0098】このランク付けグラフの表現は、市販の視
覚化ツールによって実現される。例えば、Cone T
reesと呼ばれる視覚化方法は、3次元のランク付け
表現に関する奥行きを追加することによって変更されう
る。詳細については、1993年4月、Communications
of the ACM, Vol. 36, No. 4, ページ57-71の、G. G.
Robertson他による「Information Visualization Using
3D Interactive Animation」を参照のこと。
【0099】このランク付け技法に基づけば、図9の上
部のスロット内の結果は、下部における結果よりも高い
スコアでランク付けされる。しかし、図9において同じ
クラスに属するスロットの結果をランク付けするのは困
難である。図10は、そのようなランク付けがどのよう
に行われるかを示している。結果的に示されたスロット
は、更にクラスに分類され、そこで、同じクラスのスロ
ットが同じランクを有するようにされる。
【0100】本発明によるクエリー処理は、図10に示
すクラス構造を用いて、クラス毎に連続して行われる。
ユーザが2つのキーワードを持つクエリーを発行し、上
位50個の結果が検索されるように要求した場合につい
て考える。図10を参照すると、クエリー・プロセッサ
は最初に、クラス0に検索結果を生成する可能性があ
る。検索結果が50より多い場合、クエリー・プロセッ
サは、クエリー拡張タスクを実行することなく処理を終
了することができる。クラス0における検索結果の数が
50に満たない場合、クエリー・プロセッサはクラス1
(例えば、スロット(2,3)及び(3,2))にその
結果を生成することができる。検索結果(例えば、クラ
ス0及びクラス1における)の総数が50より多い場
合、クエリー・プロセッサは、更にクエリー処理をする
ことなく、処理を終了する。クエリー・プロセッサは、
スロット(2,3)及び(3,2)内の結果も連続的に
生成することができることに注意すべきである。つま
り、クエリー・プロセッサは、スロット(2,3)の結
果を最初に生成することができる。検索結果の総数が5
0を越える場合、クエリー・プロセッサは、スロット
(3,2)内に結果を生成することなく、処理を終了す
ることができる。クエリー・プロセッサは、検索結果の
総数が50を越えるまで、又は最後のクラスに達するま
で、前述のように、残りのスロット及びクラスから、更
なる結果の生成を続けることができる。
【0101】上記の例が、1つのキーワードが他のキー
ワードより重要であるとして、ユーザによって変更され
る場合、クエリー・プロセッサが検索結果のスロットを
検索する順序は、その変更に応じて修正される。例え
ば、ユーザが、キーワード1はキーワード2より重要で
あると指定した場合、クラス内の水平的なクエリー処理
の順序は、図11に示すように導出される。即ち、この
例では、クエリー・プロセッサが、最初にスロット
(3,2)に検索結果を生成する。次に、検索結果の総
数が50に満たない場合、クエリー・プロセッサはその
後、スロット(2,3)に結果を生成する。
【0102】図12は、本発明が実行されるシステムの
物理的構成を示している。こうしたシステムは、文書の
集合体を記憶するデータベース1206を含んでいる。
このデータベースは、概念(例えば、意味的又は構文的
概念)及び、文書の集合体に対するそれらの関係を記憶
するためのインデックス1208を含んでいる。システ
ムは更に、インデックス1208を生成し、より上位の
細分度を有する概念と文書の集合体に対するそれらの関
係を含むインデックス1208を生成するためのインデ
クサ1210を含む。プロセッサ1204は、ユーザ・
インタフェース1202を介してユーザから指定された
クエリーを受信するのに使用される。プロセッサ120
4は、次に、クエリーを処理し、ランク付け機能を実行
する。クエリーの結果とランク付け機能は、ユーザ・イ
ンタフェース1202を介して再びユーザに表示され
る。
【0103】当業者は、本発明の実施が、図12で例示
された実施例に限られるものではないことを理解するこ
とができる。実際、当業者は、本発明の範囲から逸脱す
ることなく、他の代替ハードウエア環境を使用して同様
の効果を得ることができる。例えば、上述の、様々な機
能が別個の要素によって実行され(例えば、クエリー処
理とランク付け機能が、別の構成要素で行われる)、又
は単一の要素によって行われる(例えば、単一のプロセ
ッサが、インデックス付け、クエリー処理、及びランク
付け機能を実行する)。
【0104】要するに、本発明は、入力された文書に関
するキーワードの組の元の有効性(適合率、及び再現
率)、用語の意味を含む辞書、及びクエリーを保持した
まま、効果的に複数の細分度に亘るインデックス付け
(インデックス領域の節約)と、クエリー処理(処理時
間の節約)を用いてクエリーの拡張を支援するための新
しい技法を提供する。
【0105】本発明による複数の細分度に亘るインデッ
クス付け技法とクエリー処理技法によって、クエリーが
単純化されるため、ワードの関連を示すインデックスの
サイズがより小さくなり、クエリーの処理時間が短くな
る。また、本発明のランク付け技法が、文書内に最初か
らあるワードに基づくため、ランク付けの結果に一貫性
が保たれる。
【0106】ここまでの開示及び教示から、当業者が、
本発明に対して様々な、他の変更及び修正をすることが
できることは明らかである。従って、本明細書では本発
明のいくつかの実施例についてのみ述べているが、本発
明の意図及び範囲を逸脱することなく、本発明に対して
様々な変更を考えることができる。
【0107】
【発明の効果】本発明によれば、ワード・ミスマッチの
問題と、結果的に生じるクエリー処理の非効率さを解決
するために、小さなサイズのインデックスを使用して、
効率的なクエリー拡張が行われる。具体的には、クエリ
ー内に指定されたワードと意味的に類似し、構文的に関
連のあるワードを用いて、そのクエリーを、物理的では
なく概念的に拡張し、結果的に、関連する文書を逃すこ
とを少なくすることができる。
【図面の簡単な説明】
【図1】情報検索に関するワード・ミスマッチの問題を
示す図である。
【図2】厳密なマッチングの情報検索システムで、従来
より使用されているインデックスの例を示す図である。
【図3】従来の情報検索システムで使用するために、ワ
ードを意味的に類似した概念、及び構文的に関連する拡
張にグループ化することによって得られたインデックス
の例を示す図である。
【図4】本発明において、より効率的にクエリー処理を
行うために必要なインデックス構造を示す図である。
【図5】共起ワードのインデックスのエントリをマージ
する処理を示す図である。
【図6】従来の情報検索システムにおけるクエリー拡張
処理を示す図である。
【図7】本発明による、複数の細分度を有するクエリー
拡張技法を用いたクエリー拡張処理を示す図である。
【図8】本発明による、ランク付け処理を示す図であ
る。
【図9】2つのワードを有するクエリーのランク付けを
表す2次元グラフである。
【図10】連続的なクエリー処理の順序を示す図であ
る。
【図11】キーワードがあるレベルの重要度に割り当て
られている場合の、連続的なクエリー処理の順序を示す
図である。
【図12】本発明が実施可能な一実施形態の物理的構成
を示す図である。
【符号の説明】
1202 ユーザ・インタフェース 1204 プロセッサ 1206 データベース 1208 インデックス 1210 インデクサ
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平6−44309(JP,A) 特開 平7−262217(JP,A) 特開 平8−255163(JP,A) 特開 平4−96177(JP,A) 特開 平9−120401(JP,A) 特開 平2−189680(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 JICSTファイル(JOIS)

Claims (40)

    (57)【特許請求の範囲】
  1. 【請求項1】 文書の予備的インデックス、文書内に含
    まれるワード、及び前記インデックスと前記ワードとの
    間の関係を含み、前記インデックス内のワードが元の細
    分度である、文書のデータベースを検索する方法であっ
    て、前記方法が、 a)小さなサイズの、より粗い細分度のインデックスを
    生成するために、前記予備的インデックスの中のワード
    を、対応する、より上位の概念に置き換えるステップ
    と、 b)元の細分度を有するクエリーのワードを、対応す
    る、より上位の概念に置き換えることによって、文書の
    データベースに適用される前記クエリーを論理的に拡張
    するステップと、 c)より粗い細分度の前記インデックスを用いて、前記
    論理的に拡張されたクエリーを実行し、対応する、より
    上位の概念に関連する文書を検索するステップとを有す
    ることを特徴とする検索方法。
  2. 【請求項2】 請求項1において、 d)関連性の順序に基づいて、検索された文書をランク
    付けするステップを、更に含むことを特徴とする検索方
    法。
  3. 【請求項3】 請求項2において、前記ランク付けステ
    ップで、検索された文書が、元の細分度を有するクエリ
    ーのワードを用いてランク付けされることを特徴とする
    検索方法。
  4. 【請求項4】 請求項3において、関連性の順序は、ク
    エリーのワードと検索された文書に含まれるワードが、
    厳密にマッチする場合を始めとし、以降、意味的にマッ
    チする場合、構文的にマッチする場合、マッチしない場
    合の順であることを特徴とする検索方法。
  5. 【請求項5】 請求項1において、前記置き換えステッ
    プで、より上位の概念が、より上位の意味的概念である
    ことを特徴とする検索方法。
  6. 【請求項6】 請求項5において、より上位の意味的概
    念のそれぞれが、類義語を含むことを特徴とする検索方
    法。
  7. 【請求項7】 請求項1において、前記置き換えステッ
    プで、所定の基準を満たす予備的インデックス内のワー
    ドの一部だけが、より上位概念の対応するワードに置き
    換えられることを特徴とする検索方法。
  8. 【請求項8】 請求項7において、前記所定の基準は、
    前記ワードが用語辞書にあるかどうかに基づくことを特
    徴とする検索方法。
  9. 【請求項9】 請求項1において、前記置き換えステッ
    プで、より上位の前記概念が、より上位の構文的概念で
    あることを特徴とする検索方法。
  10. 【請求項10】 請求項9において、より上位の前記構
    文的概念のそれぞれが、あるレベルの頻度を越えて、文
    書内で共に発生するワードを含むことを特徴とする検索
    方法。
  11. 【請求項11】 請求項1において、論理的にクエリー
    を拡張する前記ステップが更に、 b)(i)所定の基準を満たす、クエリーのワードのみ
    を、より上位の意味的概念を有する、より上位の対応す
    る概念に置き換えるステップを有することを特徴とする
    検索方法。
  12. 【請求項12】 請求項11において、論理的にクエリ
    ーを拡張する前記ステップが更に、 b)(ii)対応する、より上位の前記概念のそれぞれ
    に対して、構文的に関連するワードを付加することによ
    って、前記クエリーを更に論理的に拡張するステップ
    と、 b)(iii)前記所定の基準を満たしていない、クエ
    リー内のワードのそれぞれに対して、構文的に関連する
    ワードを付加することによって、前記クエリーを更に論
    理的に拡張するステップとを有することを特徴とする検
    索方法。
  13. 【請求項13】 請求項12において、論理的にクエリ
    ーを拡張する前記ステップが更に、 a)(iv)所定の基準を満たす、構文的に関連する前
    記ワードを、関連する、より上位の概念に置き換えるス
    テップと、 a)(v)構文的に関連する前記ワード及び、より上位
    の前記概念のうち冗長となる部分を拡張後のクエリーか
    ら除去するステップとを有することを特徴とする検索方
    法。
  14. 【請求項14】 請求項13において、前記所定の基準
    は、前記ワードが用語辞書にあるかどうかに基づくこと
    を特徴とする検索方法。
  15. 【請求項15】 請求項1において、前記置き換えステ
    ップで、前記予備的インデックス内の、複数の意味を持
    つワードが、対応する、より上位の複数の概念によって
    置き換えられることを特徴とする検索方法。
  16. 【請求項16】 請求項12において、前記所定の基準
    を満たさないワードが固有名詞であることを特徴とする
    検索方法。
  17. 【請求項17】 請求項1において、対応する、より上
    位の概念に関連する文書が、所定の数だけ検索されるま
    で、前記実行ステップが、連続する段階において続けら
    れることを特徴とする検索方法。
  18. 【請求項18】 請求項17において、前記各段階が、
    1つの拡張クラスを表すことを特徴とする検索方法。
  19. 【請求項19】 請求項17において、前記各段階が、
    1つの拡張クラス内の1スロットを表すことを特徴とす
    る検索方法。
  20. 【請求項20】 請求項17において、各段階で、文書
    が、少なくともクエリー内の1つのワードに割り当てら
    れた重要度のレベルを反映した順序で検索されることを
    特徴とする検索方法。
  21. 【請求項21】 文書の予備的インデックス、文書内に
    含まれるワード、及び前記インデックスと前記ワードと
    の間の関係を含み、前記インデックス内のワードが元の
    細分度である、文書のデータベースを検索するシステム
    であって、前記システムが、 a)より粗い細分度の小さなサイズのインデックスを生
    成するために、前記予備的インデックスの中のワード
    を、対応する、より上位の概念に置き換えるインデクサ
    と、 b)前記文書のデータベースに適用されるクエリーを提
    供するためのユーザ・インタフェースと、 c)元の細分度を有する、クエリーのワードを、対応す
    る、より上位の概念に置き換えることによって、前記ク
    エリーを論理的に拡張し、論理的に拡張された前記クエ
    リーを、より粗い細分度のインデックスを使用して実行
    し、対応する、より上位の概念に関連する文書を検索す
    るプロセッサとを有することを特徴とする検索システ
    ム。
  22. 【請求項22】 請求項21において、前記プロセッサ
    が、関連性の順に、検索された文書をランク付けするこ
    とを特徴とする検索システム。
  23. 【請求項23】 請求項22において、前記プロセッサ
    が、元の細分度を有する、クエリーのワードを使用し
    て、検索された文書をランク付けすることを特徴とする
    検索システム。
  24. 【請求項24】 請求項23において、関連性の順序
    は、クエリーのワードと検索された文書に含まれるワー
    ドが、厳密にマッチする場合を始めとし、以降、意味的
    にマッチする場合、構文的にマッチする場合、マッチし
    ない場合の順であることを特徴とする検索システム。
  25. 【請求項25】 請求項21において、より上位の前記
    概念は、より上位の意味的概念であることを特徴とする
    検索システム。
  26. 【請求項26】 請求項25において、より上位の前記
    意味的概念のそれぞれが、類義語を含むことを特徴とす
    る検索システム。
  27. 【請求項27】 請求項21において、前記インデクサ
    が、所定の基準を満たす予備的インデックス内のワード
    のみを、対応する、より上位の概念で置き換えることを
    特徴とする検索システム。
  28. 【請求項28】 請求項27において、前記所定の基準
    は、前記ワードが用語辞書にあるかどうかに基づいてい
    ることを特徴とする検索システム。
  29. 【請求項29】 請求項21において、より上位の前記
    概念が、より上位の構文的概念であることを特徴とする
    検索システム。
  30. 【請求項30】 請求項29において、より上位の前記
    構文的概念のそれぞれが、あるレベルの頻度を越えて文
    書内に共に発生するワードを含むことを特徴とする検索
    システム。
  31. 【請求項31】 請求項21において、前記プロセッサ
    が更に、 c)(i)所定の基準を満たす、クエリーのワードのみ
    を、より上位の意味的概念である、対応する、より上位
    の概念に置き換えることによって、論理的にクエリーを
    拡張することを特徴とする検索システム。
  32. 【請求項32】 請求項31において、前記プロセッサ
    が更に、 c)(ii)対応する、より上位の前記概念のそれぞれ
    に対して、構文的に関連するワードを付加し、 c)(iii)前記所定の基準を満たしていない、クエ
    リー内のワードのそれぞれに対して、構文的に関連する
    ワードを付加することによって、前記クエリーを論理的
    に拡張することを特徴とする検索システム。
  33. 【請求項33】 請求項32において、前記プロセッサ
    が更に、 c)(iv)所定の基準を満たす、構文的に関連する前
    記ワードを、関連する、より上位の概念に置き換え、 c)(v)構文的に関連する前記ワード及び、より上位
    の前記概念のうち冗長となる部分を拡張後のクエリーか
    ら除去することによって、前記クエリーを論理的に拡張
    することを特徴とする検索システム。
  34. 【請求項34】 請求項33において、前記所定の基準
    は、前記ワードが用語辞書にあるかどうかに基づいてい
    ることを特徴とする検索システム。
  35. 【請求項35】 請求項21において、複数の意味を有
    する、前記予備的インデックス内のワードが、対応す
    る、より上位の複数の概念に置き換えられることを特徴
    とする検索システム。
  36. 【請求項36】 請求項32において、前記所定の基準
    を満たさないワードが固有名詞であることを特徴とする
    検索システム。
  37. 【請求項37】 請求項21において、対応する、より
    上位の概念に関連する文書が、所定の数だけ検索される
    まで、前記クエリーの実行が、連続する段階において続
    けられることを特徴とする検索システム。
  38. 【請求項38】 請求項37において、前記各段階が、
    1つの拡張クラスを表していることを特徴とする検索シ
    ステム。
  39. 【請求項39】 請求項37において、前記各段階は、
    1つの拡張クラス内の1スロットを表すことを特徴とす
    る検索システム。
  40. 【請求項40】 請求項37において、各段階で、文書
    が、少なくともクエリー内の1つのワードに割り当てら
    れた重要度のレベルを反映した順序で検索されることを
    特徴とする検索システム。
JP14069599A 1998-11-03 1999-05-20 複数の細分度のインデックス付けとクエリー処理を効果的に用いてクエリーの拡張を支援する方法、及び装置 Expired - Fee Related JP3428630B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/185323 1998-11-03
US09/185,323 US6480843B2 (en) 1998-11-03 1998-11-03 Supporting web-query expansion efficiently using multi-granularity indexing and query processing

Publications (2)

Publication Number Publication Date
JP2000137738A JP2000137738A (ja) 2000-05-16
JP3428630B2 true JP3428630B2 (ja) 2003-07-22

Family

ID=22680518

Family Applications (1)

Application Number Title Priority Date Filing Date
JP14069599A Expired - Fee Related JP3428630B2 (ja) 1998-11-03 1999-05-20 複数の細分度のインデックス付けとクエリー処理を効果的に用いてクエリーの拡張を支援する方法、及び装置

Country Status (2)

Country Link
US (1) US6480843B2 (ja)
JP (1) JP3428630B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106547864A (zh) * 2016-10-24 2017-03-29 湖南科技大学 一种基于查询扩展的个性化信息检索方法

Families Citing this family (211)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6760746B1 (en) * 1999-09-01 2004-07-06 Eric Schneider Method, product, and apparatus for processing a data request
JP3760057B2 (ja) * 1998-11-19 2006-03-29 株式会社日立製作所 複数文書データベースを対象とした文書検索方法および文書検索サービス
US6584458B1 (en) * 1999-02-19 2003-06-24 Novell, Inc. Method and apparatuses for creating a full text index accommodating child words
US6338082B1 (en) 1999-03-22 2002-01-08 Eric Schneider Method, product, and apparatus for requesting a network resource
US9141717B2 (en) 1999-03-22 2015-09-22 Esdr Network Solutions Llc Methods, systems, products, and devices for processing DNS friendly identifiers
USRE43690E1 (en) 1999-03-22 2012-09-25 Esdr Network Solutions Llc Search engine request method, product, and apparatus
US7188138B1 (en) 1999-03-22 2007-03-06 Eric Schneider Method, product, and apparatus for resource identifier registration and aftermarket services
US8037168B2 (en) 1999-07-15 2011-10-11 Esdr Network Solutions Llc Method, product, and apparatus for enhancing resolution services, registration services, and search services
US6510406B1 (en) * 1999-03-23 2003-01-21 Mathsoft, Inc. Inverse inference engine for high performance web search
US6670973B1 (en) * 1999-06-29 2003-12-30 Electronic Data Systems Corporation System and method for representing the information technology infrastructure of an organization
JP3897494B2 (ja) * 1999-08-31 2007-03-22 キヤノン株式会社 画像管理検索装置、画像管理検索方法及び記憶媒体
USRE44207E1 (en) * 1999-09-01 2013-05-07 Esdr Network Solutions Llc Network resource access method, product, and apparatus
US7268791B1 (en) * 1999-10-29 2007-09-11 Napster, Inc. Systems and methods for visualization of data sets containing interrelated objects
US7392185B2 (en) * 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US10002167B2 (en) 2000-02-25 2018-06-19 Vilox Technologies, Llc Search-on-the-fly/sort-on-the-fly by a search engine directed to a plurality of disparate data sources
AUPQ599700A0 (en) * 2000-03-03 2000-03-23 Super Internet Site System Pty Ltd On-line geographical directory
US6757646B2 (en) * 2000-03-22 2004-06-29 Insightful Corporation Extended functionality for an inverse inference engine based web search
US6704728B1 (en) * 2000-05-02 2004-03-09 Iphase.Com, Inc. Accessing information from a collection of data
US8478732B1 (en) 2000-05-02 2013-07-02 International Business Machines Corporation Database aliasing in information access system
US6711561B1 (en) * 2000-05-02 2004-03-23 Iphrase.Com, Inc. Prose feedback in information access system
US7035864B1 (en) 2000-05-18 2006-04-25 Endeca Technologies, Inc. Hierarchical data-driven navigation system and method for information retrieval
US7617184B2 (en) * 2000-05-18 2009-11-10 Endeca Technologies, Inc. Scalable hierarchical data-driven navigation system and method for information retrieval
US7062483B2 (en) * 2000-05-18 2006-06-13 Endeca Technologies, Inc. Hierarchical data-driven search and navigation system and method for information retrieval
US20010049596A1 (en) * 2000-05-30 2001-12-06 Adam Lavine Text to animation process
US8290768B1 (en) 2000-06-21 2012-10-16 International Business Machines Corporation System and method for determining a set of attributes based on content of communications
US6408277B1 (en) 2000-06-21 2002-06-18 Banter Limited System and method for automatic task prioritization
US9699129B1 (en) 2000-06-21 2017-07-04 International Business Machines Corporation System and method for increasing email productivity
AU2000268162A1 (en) * 2000-08-23 2002-04-08 Intel Corporation A method and apparatus for concept-based searching across a network
AUPR033800A0 (en) * 2000-09-25 2000-10-19 Telstra R & D Management Pty Ltd A document categorisation system
AU2001293596A1 (en) * 2000-09-29 2002-04-08 Gavagai Technology Incorporated A method and system for adapting synonym resources to specific domains
US7249121B1 (en) * 2000-10-04 2007-07-24 Google Inc. Identification of semantic units from within a search query
US7113943B2 (en) * 2000-12-06 2006-09-26 Content Analyst Company, Llc Method for document comparison and selection
KR100426994B1 (ko) * 2000-12-20 2004-04-13 전석진 컨셉 랭킹 기법을 이용한 문서 색인 시스템 및 방법
US7644057B2 (en) 2001-01-03 2010-01-05 International Business Machines Corporation System and method for electronic communication management
US6721728B2 (en) * 2001-03-02 2004-04-13 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration System, method and apparatus for discovering phrases in a database
US7231381B2 (en) * 2001-03-13 2007-06-12 Microsoft Corporation Media content search engine incorporating text content and user log mining
JP2002288214A (ja) * 2001-03-28 2002-10-04 Hitachi Ltd 検索システムおよび検索サービス
US7269545B2 (en) * 2001-03-30 2007-09-11 Nec Laboratories America, Inc. Method for retrieving answers from an information retrieval system
US6748398B2 (en) * 2001-03-30 2004-06-08 Microsoft Corporation Relevance maximizing, iteration minimizing, relevance-feedback, content-based image retrieval (CBIR)
CA2373568C (en) * 2001-04-26 2008-06-17 Hitachi, Ltd. Method of searching similar document, system for performing the same and program for processing the same
US7272594B1 (en) * 2001-05-31 2007-09-18 Autonomy Corporation Ltd. Method and apparatus to link to a related document
US7283951B2 (en) * 2001-08-14 2007-10-16 Insightful Corporation Method and system for enhanced data searching
US7398201B2 (en) * 2001-08-14 2008-07-08 Evri Inc. Method and system for enhanced data searching
US7526425B2 (en) * 2001-08-14 2009-04-28 Evri Inc. Method and system for extending keyword searching to syntactically and semantically annotated data
US6888548B1 (en) * 2001-08-31 2005-05-03 Attenex Corporation System and method for generating a visualized data representation preserving independent variable geometric relationships
US6778995B1 (en) 2001-08-31 2004-08-17 Attenex Corporation System and method for efficiently generating cluster groupings in a multi-dimensional concept space
US6978274B1 (en) 2001-08-31 2005-12-20 Attenex Corporation System and method for dynamically evaluating latent concepts in unstructured documents
US6789084B2 (en) * 2001-11-21 2004-09-07 University Of North Texas Method for generating numerical values indicative of frequencies of selected features in objects, and a computer system implementing the method
US7283992B2 (en) * 2001-11-30 2007-10-16 Microsoft Corporation Media agent to suggest contextually related media content
US20070156665A1 (en) * 2001-12-05 2007-07-05 Janusz Wnek Taxonomy discovery
US7356527B2 (en) * 2001-12-19 2008-04-08 International Business Machines Corporation Lossy index compression
US7587381B1 (en) * 2002-01-25 2009-09-08 Sphere Source, Inc. Method for extracting a compact representation of the topical content of an electronic text
US7165024B2 (en) * 2002-02-22 2007-01-16 Nec Laboratories America, Inc. Inferring hierarchical descriptions of a set of documents
US7343372B2 (en) 2002-02-22 2008-03-11 International Business Machines Corporation Direct navigation for information retrieval
US7271804B2 (en) * 2002-02-25 2007-09-18 Attenex Corporation System and method for arranging concept clusters in thematic relationships in a two-dimensional visual display area
US20030220913A1 (en) * 2002-05-24 2003-11-27 International Business Machines Corporation Techniques for personalized and adaptive search services
US7657598B2 (en) * 2002-09-17 2010-02-02 At&T Intellectual Property I, L.P. Address book for integrating email and instant messaging (IM)
EP1411448A3 (en) * 2002-10-17 2007-12-05 Matsushita Electric Industrial Co., Ltd. Data searching apparatus
US7155427B1 (en) * 2002-10-30 2006-12-26 Oracle International Corporation Configurable search tool for finding and scoring non-exact matches in a relational database
WO2004046854A2 (en) * 2002-11-15 2004-06-03 Erick Von Schweber A method and apparatus for information surveying
US20050038781A1 (en) * 2002-12-12 2005-02-17 Endeca Technologies, Inc. Method and system for interpreting multiple-term queries
US20040117366A1 (en) * 2002-12-12 2004-06-17 Ferrari Adam J. Method and system for interpreting multiple-term queries
TW591437B (en) * 2003-01-20 2004-06-11 Tornado Technologies Co Ltd Search method implemented with a search system
US8055669B1 (en) * 2003-03-03 2011-11-08 Google Inc. Search queries improved based on query semantic information
US6947930B2 (en) * 2003-03-21 2005-09-20 Overture Services, Inc. Systems and methods for interactive search query refinement
FR2854259B1 (fr) * 2003-04-28 2005-10-21 France Telecom Systeme d'aide a la generation de requetes et procede correspondant
US8495002B2 (en) 2003-05-06 2013-07-23 International Business Machines Corporation Software tool for training and testing a knowledge base
US20050187913A1 (en) 2003-05-06 2005-08-25 Yoram Nelken Web-based customer service interface
US7299221B2 (en) * 2003-05-08 2007-11-20 Oracle International Corporation Progressive relaxation of search criteria
EP1625516A1 (en) * 2003-05-16 2006-02-15 NTT DoCoMo, Inc. Personalized service selection
US7647299B2 (en) * 2003-06-30 2010-01-12 Google, Inc. Serving advertisements using a search of advertiser web information
US7610313B2 (en) 2003-07-25 2009-10-27 Attenex Corporation System and method for performing efficient document scoring and clustering
US8856163B2 (en) * 2003-07-28 2014-10-07 Google Inc. System and method for providing a user interface with search query broadening
US7533245B2 (en) 2003-08-01 2009-05-12 Illinois Institute Of Technology Hardware assisted pruned inverted index component
CN1871603B (zh) * 2003-08-21 2010-04-28 伊迪利亚公司 处理查询的系统和方法
EP1510940A1 (en) 2003-08-29 2005-03-02 Sap Ag A method of providing a visualisation graph on a computer and a computer for providing a visualisation graph
EP1510938B1 (en) * 2003-08-29 2014-06-18 Sap Ag A method of providing a visualisation graph on a computer and a computer for providing a visualisation graph
EP1510939A1 (en) * 2003-08-29 2005-03-02 Sap Ag A method of providing a visualisation graph on a computer and a computer for providing a visualisation graph
US8321400B2 (en) 2003-08-29 2012-11-27 Vortaloptics, Inc. Method, device and software for querying and presenting search results
EP1510941A1 (en) * 2003-08-29 2005-03-02 Sap Ag A method of providing a visualisation graph on a computer and a computer for providing a visualisation graph
US7454417B2 (en) 2003-09-12 2008-11-18 Google Inc. Methods and systems for improving a search ranking using population information
US7505964B2 (en) 2003-09-12 2009-03-17 Google Inc. Methods and systems for improving a search ranking using related queries
US20050076015A1 (en) * 2003-10-02 2005-04-07 International Business Machines Corporation Dynamic query building based on the desired number of results
US7657423B1 (en) * 2003-10-31 2010-02-02 Google Inc. Automatic completion of fragments of text
US7383246B2 (en) * 2003-10-31 2008-06-03 International Business Machines Corporation System, method, and computer program product for progressive query processing
US20060230040A1 (en) * 2003-12-08 2006-10-12 Andy Curtis Methods and systems for providing a response to a query
US7451131B2 (en) * 2003-12-08 2008-11-11 Iac Search & Media, Inc. Methods and systems for providing a response to a query
US7181447B2 (en) * 2003-12-08 2007-02-20 Iac Search And Media, Inc. Methods and systems for conceptually organizing and presenting information
US20050131872A1 (en) * 2003-12-16 2005-06-16 Microsoft Corporation Query recognizer
GB2411014A (en) * 2004-02-11 2005-08-17 Autonomy Corp Ltd Automatic searching for relevant information
US7191175B2 (en) 2004-02-13 2007-03-13 Attenex Corporation System and method for arranging concept clusters in thematic neighborhood relationships in a two-dimensional visual display space
US7747601B2 (en) * 2006-08-14 2010-06-29 Inquira, Inc. Method and apparatus for identifying and classifying query intent
US8612208B2 (en) 2004-04-07 2013-12-17 Oracle Otc Subsidiary Llc Ontology for use with a system, method, and computer readable medium for retrieving information and response to a query
US8082264B2 (en) 2004-04-07 2011-12-20 Inquira, Inc. Automated scheme for identifying user intent in real-time
US20050267872A1 (en) * 2004-06-01 2005-12-01 Yaron Galai System and method for automated mapping of items to documents
US7809548B2 (en) * 2004-06-14 2010-10-05 University Of North Texas Graph-based ranking algorithms for text processing
US20050283473A1 (en) * 2004-06-17 2005-12-22 Armand Rousso Apparatus, method and system of artificial intelligence for data searching applications
JP4587163B2 (ja) * 2004-07-13 2010-11-24 インターナショナル・ビジネス・マシーンズ・コーポレーション 検索システム、検索方法、報告システム、報告方法、及びプログラム
US7685118B2 (en) 2004-08-12 2010-03-23 Iwint International Holdings Inc. Method using ontology and user query processing to solve inventor problems and user problems
US7440947B2 (en) * 2004-11-12 2008-10-21 Fuji Xerox Co., Ltd. System and method for identifying query-relevant keywords in documents with latent semantic analysis
US7620628B2 (en) * 2004-12-06 2009-11-17 Yahoo! Inc. Search processing with automatic categorization of queries
US7356777B2 (en) 2005-01-26 2008-04-08 Attenex Corporation System and method for providing a dynamic user interface for a dense three-dimensional scene
US7404151B2 (en) 2005-01-26 2008-07-22 Attenex Corporation System and method for providing a dynamic user interface for a dense three-dimensional scene
EP1851616A2 (en) * 2005-01-31 2007-11-07 Musgrove Technology Enterprises, LLC System and method for generating an interlinked taxonomy structure
JP2008529173A (ja) * 2005-01-31 2008-07-31 テキストディガー,インコーポレイテッド 電子文書の意味検索および取り込みのための方法およびシステム
US7574436B2 (en) * 2005-03-10 2009-08-11 Yahoo! Inc. Reranking and increasing the relevance of the results of Internet searches
JP4825544B2 (ja) * 2005-04-01 2011-11-30 株式会社リコー 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体
JP2008537225A (ja) * 2005-04-11 2008-09-11 テキストディガー,インコーポレイテッド クエリについての検索システムおよび方法
US7844566B2 (en) * 2005-04-26 2010-11-30 Content Analyst Company, Llc Latent semantic clustering
US20060242190A1 (en) * 2005-04-26 2006-10-26 Content Analyst Comapny, Llc Latent semantic taxonomy generation
US7877383B2 (en) * 2005-04-27 2011-01-25 Microsoft Corporation Ranking and accessing definitions of terms
FI20055274L (fi) * 2005-06-01 2006-12-02 Opasmedia Oy Tiedonhakujärjestelmän muodostaminen, tiedonhakujärjestelmästä hakeminen, sekä tiedonhakujärjestelmä
US20070006129A1 (en) * 2005-06-01 2007-01-04 Opasmedia Oy Forming of a data retrieval, searching from a data retrieval system, and a data retrieval system
US7689411B2 (en) * 2005-07-01 2010-03-30 Xerox Corporation Concept matching
US7725485B1 (en) * 2005-08-01 2010-05-25 Google Inc. Generating query suggestions using contextual information
US20080215614A1 (en) * 2005-09-08 2008-09-04 Slattery Michael J Pyramid Information Quantification or PIQ or Pyramid Database or Pyramided Database or Pyramided or Selective Pressure Database Management System
US8019752B2 (en) 2005-11-10 2011-09-13 Endeca Technologies, Inc. System and method for information retrieval from object collections with complex interrelationships
NZ569107A (en) * 2005-11-16 2011-09-30 Evri Inc Extending keyword searching to syntactically and semantically annotated data
US7668887B2 (en) * 2005-12-01 2010-02-23 Object Positive Pty Ltd Method, system and software product for locating documents of interest
US8694530B2 (en) 2006-01-03 2014-04-08 Textdigger, Inc. Search system with query refinement and search method
US7933764B2 (en) * 2006-01-05 2011-04-26 The United States Of America As Represented By The Secretary Of The Navy System and method for adding semantic support to existing syntactic infrastructure
US20070179940A1 (en) * 2006-01-27 2007-08-02 Robinson Eric M System and method for formulating data search queries
US8862573B2 (en) 2006-04-04 2014-10-14 Textdigger, Inc. Search system and method with text function tagging
US7921099B2 (en) 2006-05-10 2011-04-05 Inquira, Inc. Guided navigation system
EP1883020B1 (en) * 2006-07-28 2013-05-22 Dassault Systèmes Method and system for navigating in a database of a computer system
US8781813B2 (en) 2006-08-14 2014-07-15 Oracle Otc Subsidiary Llc Intent management tool for identifying concepts associated with a plurality of users' queries
US7801901B2 (en) * 2006-09-15 2010-09-21 Microsoft Corporation Tracking storylines around a query
JP2008084070A (ja) * 2006-09-28 2008-04-10 Toshiba Corp 構造化文書検索装置およびプログラム
US20160004766A1 (en) * 2006-10-10 2016-01-07 Abbyy Infopoisk Llc Search technology using synonims and paraphrasing
US9110975B1 (en) * 2006-11-02 2015-08-18 Google Inc. Search result inputs using variant generalized queries
US8661029B1 (en) 2006-11-02 2014-02-25 Google Inc. Modifying search result ranking based on implicit user feedback
US8095476B2 (en) * 2006-11-27 2012-01-10 Inquira, Inc. Automated support scheme for electronic forms
US8676802B2 (en) 2006-11-30 2014-03-18 Oracle Otc Subsidiary Llc Method and system for information retrieval with clustering
US7996410B2 (en) * 2007-02-01 2011-08-09 Yahoo! Inc. Word pluralization handling in query for web search
US8938463B1 (en) 2007-03-12 2015-01-20 Google Inc. Modifying search result ranking based on implicit user feedback and a model of presentation bias
US8694374B1 (en) 2007-03-14 2014-04-08 Google Inc. Detecting click spam
WO2008113045A1 (en) 2007-03-14 2008-09-18 Evri Inc. Query templates and labeled search tip system, methods, and techniques
US9092510B1 (en) 2007-04-30 2015-07-28 Google Inc. Modifying search result ranking based on a temporal element of user feedback
US8359309B1 (en) 2007-05-23 2013-01-22 Google Inc. Modifying search result ranking based on corpus search statistics
US8694511B1 (en) 2007-08-20 2014-04-08 Google Inc. Modifying search result ranking based on populations
US7788276B2 (en) * 2007-08-22 2010-08-31 Yahoo! Inc. Predictive stemming for web search with statistical machine translation models
US20090083214A1 (en) * 2007-09-21 2009-03-26 Microsoft Corporation Keyword search over heavy-tailed data and multi-keyword queries
US8909655B1 (en) 2007-10-11 2014-12-09 Google Inc. Time based ranking
US8655862B1 (en) * 2007-10-17 2014-02-18 Google Inc. System and method for query re-issue in search engines
US8594996B2 (en) 2007-10-17 2013-11-26 Evri Inc. NLP-based entity recognition and disambiguation
EP2212772A4 (en) * 2007-10-17 2017-04-05 VCVC lll LLC Nlp-based content recommender
WO2009059297A1 (en) * 2007-11-01 2009-05-07 Textdigger, Inc. Method and apparatus for automated tag generation for digital content
US7856434B2 (en) 2007-11-12 2010-12-21 Endeca Technologies, Inc. System and method for filtering rules for manipulating search results in a hierarchical search and navigation system
CN101971198A (zh) * 2008-02-07 2011-02-09 品牌亲和度技术有限公司 利用关键词定性和定量评价品牌的方法
US8392436B2 (en) * 2008-02-07 2013-03-05 Nec Laboratories America, Inc. Semantic search via role labeling
KR100931025B1 (ko) * 2008-03-18 2009-12-10 한국과학기술원 재현율의 저하 없이 정확도를 향상시키기 위한 추가 용어를이용한 질의 확장 방법
US8180771B2 (en) 2008-07-18 2012-05-15 Iac Search & Media, Inc. Search activity eraser
US8332400B2 (en) 2008-09-23 2012-12-11 Sage Inventions, Llc System and method for managing web search information in navigation hierarchy
US20100094835A1 (en) * 2008-10-15 2010-04-15 Yumao Lu Automatic query concepts identification and drifting for web search
US20100114878A1 (en) * 2008-10-22 2010-05-06 Yumao Lu Selective term weighting for web search based on automatic semantic parsing
US7949647B2 (en) 2008-11-26 2011-05-24 Yahoo! Inc. Navigation assistance for search engines
US8396865B1 (en) 2008-12-10 2013-03-12 Google Inc. Sharing search engine relevance data between corpora
US8504582B2 (en) * 2008-12-31 2013-08-06 Ebay, Inc. System and methods for unit of measurement conversion and search query expansion
US8156129B2 (en) 2009-01-15 2012-04-10 Microsoft Corporation Substantially similar queries
US8463806B2 (en) 2009-01-30 2013-06-11 Lexisnexis Methods and systems for creating and using an adaptive thesaurus
US8041729B2 (en) * 2009-02-20 2011-10-18 Yahoo! Inc. Categorizing queries and expanding keywords with a coreference graph
US9009146B1 (en) 2009-04-08 2015-04-14 Google Inc. Ranking search results based on similar queries
WO2010120699A2 (en) * 2009-04-16 2010-10-21 Evri Inc. Enhanced advertisement targeting
US20100299342A1 (en) * 2009-05-22 2010-11-25 Nbc Universal, Inc. System and method for modification in computerized searching
US8447760B1 (en) 2009-07-20 2013-05-21 Google Inc. Generating a related set of documents for an initial set of documents
US8515957B2 (en) 2009-07-28 2013-08-20 Fti Consulting, Inc. System and method for displaying relationships between electronically stored information to provide classification suggestions via injection
US8612446B2 (en) 2009-08-24 2013-12-17 Fti Consulting, Inc. System and method for generating a reference set for use during document review
US8498974B1 (en) 2009-08-31 2013-07-30 Google Inc. Refining search results
US8260779B2 (en) * 2009-09-17 2012-09-04 General Electric Company Systems, methods, and apparatus for automated mapping and integrated workflow of a controlled medical vocabulary
US8972391B1 (en) 2009-10-02 2015-03-03 Google Inc. Recent interest based relevance scoring
FR2951846A1 (fr) * 2009-10-28 2011-04-29 Itinsell Procede de controle du suivi d'articles expedies
WO2011053755A1 (en) * 2009-10-30 2011-05-05 Evri, Inc. Improving keyword-based search engine results using enhanced query strategies
US8874555B1 (en) 2009-11-20 2014-10-28 Google Inc. Modifying scoring data based on historical changes
US8682900B2 (en) * 2009-12-08 2014-03-25 International Business Machines Corporation System, method and computer program product for documents retrieval
US20110179002A1 (en) * 2010-01-19 2011-07-21 Dell Products L.P. System and Method for a Vector-Space Search Engine
US8615514B1 (en) 2010-02-03 2013-12-24 Google Inc. Evaluating website properties by partitioning user feedback
US9684683B2 (en) * 2010-02-09 2017-06-20 Siemens Aktiengesellschaft Semantic search tool for document tagging, indexing and search
US9710556B2 (en) 2010-03-01 2017-07-18 Vcvc Iii Llc Content recommendation based on collections of entities
US8924379B1 (en) 2010-03-05 2014-12-30 Google Inc. Temporal-based score adjustments
US8959093B1 (en) 2010-03-15 2015-02-17 Google Inc. Ranking search results based on anchors
US8645125B2 (en) 2010-03-30 2014-02-04 Evri, Inc. NLP-based systems and methods for providing quotations
US8838587B1 (en) 2010-04-19 2014-09-16 Google Inc. Propagating query classifications
US9623119B1 (en) 2010-06-29 2017-04-18 Google Inc. Accentuating search results
US8832083B1 (en) 2010-07-23 2014-09-09 Google Inc. Combining user feedback
US8838633B2 (en) 2010-08-11 2014-09-16 Vcvc Iii Llc NLP-based sentiment analysis
US9147039B2 (en) * 2010-09-15 2015-09-29 Epic Systems Corporation Hybrid query system for electronic medical records
US9405848B2 (en) 2010-09-15 2016-08-02 Vcvc Iii Llc Recommending mobile device activities
US8359292B2 (en) 2010-09-20 2013-01-22 Microsoft Corporation Semantic grouping for program performance data analysis
JP5688754B2 (ja) * 2010-10-04 2015-03-25 独立行政法人情報通信研究機構 情報検索装置及びコンピュータプログラム
US8725739B2 (en) 2010-11-01 2014-05-13 Evri, Inc. Category-based content recommendation
US11423029B1 (en) * 2010-11-09 2022-08-23 Google Llc Index-side stem-based variant generation
US9002867B1 (en) 2010-12-30 2015-04-07 Google Inc. Modifying ranking data based on document changes
JP5969502B2 (ja) * 2011-01-05 2016-08-17 プライマル フュージョン インコーポレイテッド 1人以上のユーザに関心ある情報を提供する方法及び装置
US9116995B2 (en) 2011-03-30 2015-08-25 Vcvc Iii Llc Cluster-based identification of news stories
US9256595B2 (en) * 2011-10-28 2016-02-09 Sap Se Calculating term similarity using a meta-model semantic network
US8719025B2 (en) * 2012-05-14 2014-05-06 International Business Machines Corporation Contextual voice query dilation to improve spoken web searching
US9323767B2 (en) 2012-10-01 2016-04-26 Longsand Limited Performance and scalability in an intelligent data operating layer system
CN103020188A (zh) * 2012-11-30 2013-04-03 北京网秦天下科技有限公司 多平台应用搜索方法和服务器
US9223853B2 (en) 2012-12-19 2015-12-29 Microsoft Technology Licensing, Llc Query expansion using add-on terms with assigned classifications
US9292537B1 (en) 2013-02-23 2016-03-22 Bryant Christopher Lee Autocompletion of filename based on text in a file to be saved
US9183499B1 (en) 2013-04-19 2015-11-10 Google Inc. Evaluating quality based on neighbor features
US20140358945A1 (en) 2013-06-03 2014-12-04 Tencent Technology (Shenzhen) Company Limited Systems and Methods for Matching Users
KR101485940B1 (ko) * 2013-08-23 2015-01-27 네이버 주식회사 시멘틱 뎁스 구조 기반의 검색어 제시 시스템 및 방법
CN104462084B (zh) 2013-09-13 2019-08-16 Sap欧洲公司 基于多个查询提供搜索细化建议
US9514098B1 (en) * 2013-12-09 2016-12-06 Google Inc. Iteratively learning coreference embeddings of noun phrases using feature representations that include distributed word representations of the noun phrases
US10262062B2 (en) * 2015-12-21 2019-04-16 Adobe Inc. Natural language system question classifier, semantic representations, and logical form templates
US11068546B2 (en) 2016-06-02 2021-07-20 Nuix North America Inc. Computer-implemented system and method for analyzing clusters of coded documents
US10888271B2 (en) * 2016-12-08 2021-01-12 Louise M. Falevsky Systems, apparatus and methods for using biofeedback to facilitate a discussion
CN108664515B (zh) * 2017-03-31 2019-09-17 北京三快在线科技有限公司 一种搜索方法及装置,电子设备
US11163811B2 (en) 2017-10-30 2021-11-02 International Business Machines Corporation Ranking of documents based on their semantic richness
US11194849B2 (en) 2018-09-11 2021-12-07 International Business Machines Corporation Logic-based relationship graph expansion and extraction

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02189680A (ja) * 1989-01-18 1990-07-25 Nec Corp 情報検索方式
JPH0496177A (ja) * 1990-08-08 1992-03-27 Ricoh Co Ltd 文書検索方法及びそのキーワード関連度表作成装置
US5325298A (en) * 1990-11-07 1994-06-28 Hnc, Inc. Methods for generating or revising context vectors for a plurality of word stems
US5278980A (en) * 1991-08-16 1994-01-11 Xerox Corporation Iterative technique for phrase query formation and an information retrieval system employing same
JPH0644309A (ja) * 1992-07-01 1994-02-18 Nec Corp データベース管理方式
US5619709A (en) * 1993-09-20 1997-04-08 Hnc, Inc. System and method of context vector generation and retrieval
US5576954A (en) * 1993-11-05 1996-11-19 University Of Central Florida Process for determination of text relevancy
JPH07262217A (ja) * 1994-03-24 1995-10-13 Fuji Xerox Co Ltd テキスト検索装置
US5675819A (en) * 1994-06-16 1997-10-07 Xerox Corporation Document information retrieval using global word co-occurrence patterns
US5642502A (en) * 1994-12-06 1997-06-24 University Of Central Florida Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text
JPH08255163A (ja) * 1995-03-16 1996-10-01 Fuji Xerox Co Ltd 文書検索装置
US5724571A (en) 1995-07-07 1998-03-03 Sun Microsystems, Inc. Method and apparatus for generating query responses in a computer-based document retrieval system
JPH09120401A (ja) * 1995-10-24 1997-05-06 Oki Electric Ind Co Ltd シソーラス作成装置
US5930783A (en) * 1997-02-21 1999-07-27 Nec Usa, Inc. Semantic and cognition based image retrieval
US5819258A (en) * 1997-03-07 1998-10-06 Digital Equipment Corporation Method and apparatus for automatically generating hierarchical categories from large document collections
US6038560A (en) * 1997-05-21 2000-03-14 Oracle Corporation Concept knowledge base search and retrieval system
US6175829B1 (en) * 1998-04-22 2001-01-16 Nec Usa, Inc. Method and apparatus for facilitating query reformulation
US6101492A (en) * 1998-07-02 2000-08-08 Lucent Technologies Inc. Methods and apparatus for information indexing and retrieval as well as query expansion using morpho-syntactic analysis

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106547864A (zh) * 2016-10-24 2017-03-29 湖南科技大学 一种基于查询扩展的个性化信息检索方法
CN106547864B (zh) * 2016-10-24 2019-07-16 湖南科技大学 一种基于查询扩展的个性化信息检索方法

Also Published As

Publication number Publication date
JP2000137738A (ja) 2000-05-16
US6480843B2 (en) 2002-11-12
US20020059161A1 (en) 2002-05-16

Similar Documents

Publication Publication Date Title
JP3428630B2 (ja) 複数の細分度のインデックス付けとクエリー処理を効果的に用いてクエリーの拡張を支援する方法、及び装置
US6587848B1 (en) Methods and apparatus for performing an affinity based similarity search
Wan et al. Single document keyphrase extraction using neighborhood knowledge.
EP0996899B1 (en) Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
Xu et al. Corpus-based stemming using cooccurrence of word variants
Liu et al. Mining topic-specific concepts and definitions on the web
US7895221B2 (en) Internet searching using semantic disambiguation and expansion
US7266553B1 (en) Content data indexing
JP3771299B2 (ja) シソーラス作成方法
US20070192293A1 (en) Method for presenting search results
US20080288442A1 (en) Ontology Based Text Indexing
Liu et al. Information retrieval and Web search
Kang Keyword-based document clustering
Li et al. Supporting web query expansion efficiently using multi-granularity indexing and query processing
Wade et al. INSTRUCT: a teaching package for experimental methods in information retrieval. Part III. Browsing, clustering and query expansion
Ding et al. IR and AI: Using co-occurrence theory to generate lightweight ontologies
Li et al. Complex query recognition based on dynamic learning mechanism
Liu et al. Deriving taxonomy from documents at sentence level
Gupta et al. A review on important aspects of information retrieval
Azad et al. Query expansion for improving web search
Sembok et al. Experiments with n-gram string-similarity measure on malay texts
Aggarwal et al. Ranking of Web Documents for Domain Specific Database
Meng et al. Semantic feature reduction in chinese document clustering
Tseng Fast co-occurrence thesaurus construction for Chinese news
Negi et al. Index based information retrieval system

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20030416

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090516

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100516

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110516

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110516

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120516

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120516

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130516

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140516

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees