JP3428630B2

JP3428630B2 - 複数の細分度のインデックス付けとクエリー処理を効果的に用いてクエリーの拡張を支援する方法、及び装置

Info

Publication number: JP3428630B2
Application number: JP14069599A
Authority: JP
Inventors: シャンリーウェン
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1998-11-03
Filing date: 1999-05-20
Publication date: 2003-07-22
Anticipated expiration: 2019-05-20
Also published as: JP2000137738A; US6480843B2; US20020059161A1

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、一般的に、データ
ベース内の文書を収集するのに適用されるインデックス
とクエリーの分野に関する。より詳しくは、クエリーの
効果的な拡張と処理、クエリーの拡張を実施するのに使
用されるインデックスのサイズの縮小、及び連続的なク
エリーの処理に関する。

【０００２】

【従来の技術】クエリーを適用することによって文書を
検索する従来の検索システムは、文書を分類する共通の
原理と方法論に基づいている。文書は通常、熟練者又は
司書により、事前に指定され、調整された用語を用い
て、手作業でインデックス付けされる。文書はまた、そ
の文書に含まれる語（ワード）に基づいてインデックス
付けされることもある。ユーザは、指定可能な用語から
選択したワードと、それらの間を適当なブーリアン演算
子で連結して文書の検索を行う。このようなタイプのシ
ステムでは、厳密なマッチング戦略が用いられる。この
アプローチは、単純で高精度といった多くの利点を有す
るものの、ワード・ミスマッチの問題が生じる。

【０００３】情報検索におけるワード・ミスマッチの問
題は、作者がその文書で、ある概念を表すのに、あるワ
ードを使用している場合に、ユーザが、それと同じ概念
をクエリーにおいて指定する際、別のワードを使用して
しまうことによって生じる。図１は、「ｃａｒ（乗用
車）」及び「ｄｅａｌｅｒ（販売店）」に関連付けられ
た、ハイパーテキスト・マークアップ言語（ＨＴＭＬ）
の文書において使用されるワードが、様々な文書の間で
異なることがあることを示している。拡張可能なマーク
アップ言語（ＸＭＬ）や標準一般化マークアップ言語
（ＳＧＭＬ）のような、ＨＴＭＬ以外の言語も用いられ
る。ユーザが、「ａｕｔｏｍｏｂｉｌｅ（自動車）」と
「ｄｅａｌｅｒ（販売店）」というワードをクエリーに
用いる場合、ワード・ミスマッチの問題で、対象となる
文書を１つも検索できない結果になる。

【０００４】尚、本明細書では、検索の対象が、主に英
語を含むものと仮定しているため、検索に使用するクエ
リーの各要素は、英語で記述されている。しかし、これ
らは、ユーザの要求に応じて、どの国の言語で表現する
ことも可能である。ここでは、前記英語で記述された要
素に続いて（必要に応じ）括弧内に、その要素の日本語
における意味を表すことにする。従って、当該括弧内の
日本語は、単にクエリーの要素の意味を説明するための
ものに過ぎず、クエリーの結果には影響を及ぼさない。

【０００５】クエリーの拡張は、このような問題を解決
する技法として示唆されている。このアプローチは、意
味の類似したワード（例えば、類義語や他の関連する意
味を有するワード）及び構文的に関連するワード（例え
ば、一定の頻度以上で同じ文書内に同時に現れるワード
群は、構文的共起ワードである）をクエリー内のワード
として用いることによってクエリーを拡張するものであ
る。こうしてクエリーが拡張されると、関連する文書内
のワードにマッチする可能性が高まる。クエリーの拡張
が使用されると、「ｃａｒｄｅａｌｅｒ（乗用車の販
売店）」というワードを含むクエリーは、以下のように
同様の意味の用語を含むように拡張される。

【０００６】行１．［（「ｃａｒ（乗用車）」ＯＲ
「ａｕｔｏｍｏｂｉｌｅ（自動車）」ＯＲ「ａｕｔｏ
（車）」ＯＲ「ｓｅｄａｎ（セダン）」）ＯＲ行２．（「Ｆｏｒｄ（フォード車）」ＯＲ「Ｂｕｉｃ
ｋ（ビュイック車）」）］ＡＮＤ行３．（「ｄｅａｌｅｒ（販売店）」ＯＲ「Ｓｈｏｗ
ｒｏｏｍ（ショールーム）」ＯＲ「ＳａｌｅｓＯｆｆｉ
ｃｅ（販売所）」）。

【０００７】上記例に含まれるクエリーの拡張には、２
つのタイプがある。行１と行３のクエリーの拡張は、用
語の意味において「ｃａｒ」と「ｄｅａｌｅｒ」に関連
する追加ワードを追加するものである。即ち、意味的に
類似するワードを追加するものである。「ａｕｔｏｍｏ
ｂｉｌｅ」、「ａｕｔｏ」、及び「ｓｅｄａｎ」は、
「ｃａｒ」というワードに類似する意味を有するワード
である。同様に、「Ｓｈｏｗｒｏｏｍ」と「Ｓａｌｅｓ
Ｏｆｆｉｃｅ」は、「ｄｅａｌｅｒ」というワードに類
似する意味を有するワードである。他のタイプのクエリ
ーの拡張は、行２に示すものであり、これは例えば、構
文的共起関係によるものである。ワールドワイドウエブ
（単にウエブとも言う）で用いられる多くのワードは、
実際には固有名詞であり、用語辞書には見つからない。
例えば、固有名詞は、Ｆｏｒｄ、Ｂｕｉｃｋ、ＮＢＡ、
及びＮＦＬ（National Football League）といったもの
である。前述したように、構文的共起関係は、２つのワ
ードが、同じ文書に同時に現れる頻度を分析することに
よって導出される。これは、２つのワードが頻繁に同じ
文書内に現れる場合には、それらのワードが関連してい
る可能性が高いという仮定に基づくものである。例え
ば、「Ｆｏｒｄ」と共に発生するワードとして、「ｄｅ
ａｌｅｒ（販売店）」、「ｂｏｄｙｓｈｏｐ（車体工
場」、「Ｍｕｓｔａｎｇ（マスタング：フォード社製の
車の名前）」、「Ｅｓｃｏｒｔ（エスコート：フォード
社製の車の名前）」等が考えられる。

【０００８】クエリーの拡張を支援するために、用語の
意味によって関連付けられたワードのインデックスと、
共起情報のような構文的関係が適切に維持されなければ
ならない。用語の意味によってワードに関連付けられた
インデックスは、階層構造、意味ネットワーク、又は関
連ワードの階層クラスタとして構成される。前記階層構
造については、１９９７年８月、ギリシャのアテネで行
われた、the 23rd International Conference on Very
Large Data Basesの予稿集のページ538-547、W. Li他の
「Facilitating Multimedia Database Exploration thr
ough Visual Interfaces and Perpetual Query Reformu
lations」を参照されたい。また、前記意味ネットワー
クについては、１９９０年、International Journal of
Lexicography 3(4)、ページ245-264における、G. A. M
illerの「Nouns in WordNet: A Lexical Inheritance S
ystem」を参照のこと。また、関連ワードの階層クラス
タについては、１９８３年、ニューヨーク、McGraw-Hil
l、ページ118-155の、G. Salton他による「The SMART a
nd SIRE Experimental Retrieval Systems」を参照のこ
と。構文的共起関係のような構文的関係は、２項関係で
表されるので、構文的関係のインデックスのサイズは非
常に大きい。この問題を解決するため、いくつかの技法
が提案されている。これらの技法については、１９９２
年、デンマークにおけるthe Fifteenth annual Interna
tional ACM SIGIR Conferenceの予稿集の、G. Grefenst
etteによる「Use of syntactic context to produce te
rm association lists for text retrieval」、１９９
６年、スイスのチューリッヒにおけるthe 19th Annual
International ACM SIGIR Conferenceの予稿集の、J. X
u他による「Query Expantion Using Local and Global
Document Analysis」、１９９７年、アメリカ合衆国ペ
ンシルバニア州フィラデルフィアにおける、the20th An
nual International ACM SIGIR Conferenceの予稿集
の、C. Jacqueminによる「Guessing Morphology from T
erms and Corpora」を参照のこと。こうした技法は、発
生頻度の分析、及び形態素規則（例えば、全てのワード
をその起源となる形態に変換する）や用語辞書の使用を
含むものである。

【０００９】ワード・ミスマッチの問題に関しては、情
報検索（ＩＲ）の分野において、かなりの研究がされて
きている。これについては、１９８３年、McGraw-Hill
BookCompany発行の、G. Salton他による「Introduction
to Modern Information Retrieval」、１９８９年、Ad
dison-Wesley Publishing Company, Inc発行の、G.Salt
onによる「Automatic Text Processing: The Transform
ation, Analysis, and Retrieval of Information by C
omputer」、及び１９９７年、アメリカ合衆国カリフォ
ルニア州サンフランシスコ、Morgan Kaufmannの、K. Sp
arck Jones他による「Readings in Information Retrie
val」を参照のこと。

【００１０】しかし、この研究の殆どが、適合率と再現
率といった、検索の基準に関する点を指向したものであ
る。クエリーの拡張を効果的に支援する方法（１９９３
年、メリーランド州Gaithersburgで行われたthe 3rd Te
xt Retrieval Conferenceの予稿集の、C. Buckley他に
よる「Automatic Query Expansion Using SMART」参
照）やインデックス付けのメカニズムを示唆した研究が
いくつか有るが、満足する解決法のない問題が依然とし
て２つ残っている。第１の問題は、ある文書の集合（例
えば、ウエブ）内の多くのワードが別個の固有名詞であ
り、各ワードが意味的に同じワード及び構文的に関連し
たワードを多く有するので、インデックスのサイズが極
めて大きくなってしまうことである。第２の問題は、ク
エリーが追加ワードによって拡張されるので、クエリー
の処理コストが高くなってしまうことである。

【００１１】ウエブから収集された文書情報を取り扱う
際には、文書の数が非常に多くなり、使用されているワ
ードが極めて多様で、一貫性がなく、時には間違ってい
る（例えば、タイプエラー）ため、これらの問題は、ま
すます顕著になる。ある研究では、ウエブに関する殆ど
のユーザ・クエリーは、通常、ワードを２つ有してい
る。これについては、１９９５年、Digital Libraries
(DL '95)の予稿集で、B.Croft他の「Providing Governm
ent Information on the Internet: Experienceswith T
HOMAS」を参照されたい。しかし、クエリー拡張を用い
れば、クエリーの長さは実質的に長くなる。結果的に、
ウエブ上の既存のサーチエンジンのほとんどは、クエリ
ー拡張機能を提供できないことになる。

【００１２】ここで、クエリー拡張の分野における既存
の研究を概説する。クエリー拡張は、ＩＲの分野におい
て、かなりの注目を集めた。しかし、いままで注目され
てきた部分は、クエリーの拡張によって、改善される検
索の基準（即ち、適合率及び再現率）の程度を評価する
ことであった。別の研究では、与えられたクエリーのワ
ードに関して、１組の類似する用語を識別するために、
辞書を構築することに焦点があてられてきた。しかし、
今までの研究は、クエリーが拡張された場合のクエリー
の効率的な処理の問題や、クエリーの拡張及び処理を行
うのに用いられるインデックスのサイズを小さくすると
いった点に取り組んでいない。更に、厳密なマッチング
及び類似的なマッチングに基づいて文書をランク付けす
る問題は、困難なものとして残されたままである。

【００１３】ＳＭＡＲＴは、よく知られた先進の情報検
索システムの１つである。これに関しては、１９７１
年、アメリカ合衆国ニュージャージー州Englewood Clif
fsのPrentice-Hallから発行されたGerard Salton編集の
The SMART Retrieval System -Experiments in Automat
ic Document Processing、第１２章の、R. T. Dattola
による「Experiments with a fast algorithm for auto
matic classification」、及び上記文献の、G. Salton
他による「The SMART and SIRE Experimental Retrieva
l Systems」を参照のこと。ＳＭＡＲＴでは、各文書が
用語のベクトルで表される。ベクトルのそれぞれの位置
は、文書内の対応する用語の重み（重要性）を表してい
る。Ｎ個の異なる用語を有するＭ個の文書の集合は、Ｍ
×Ｎの行列で表される。クエリーもまた用語のベクトル
として表される。文書の検索は、クエリー・ベクトルと
各文書のベクトルとの余弦に対応する類似性の計算に基
づく。他の、よく知られたシステムには、ＩＮＱＵＥＲ
Ｙがある。これについては、１９９５年、Information
Processing and Managementの3:327-332で、J. Callan
他による「Trec and tipster experiments with inquer
y」を参照のこと。

【００１４】潜在的意味インデックス（ＬＳＩ）は、辞
書的なマッチングによる個別の用語検索の替わりに、統
計的に導出された概念インデックスに依存する技法であ
る。これについては、１９９０年、Journal of the Ame
rica Society of Information Science、41:391-407
の、R. Harshman他による「Indexing by latent semant
ic analysis」、及び１９９５年、the 1995 ACM Confer
ence on Supercomputingの予稿集で、M. W. Berry他に
よる「Computational Method for Intelligent Informa
tion Access」を参照されたい。ＬＳＩは、ワードの使
用法に、いくつかの見えない構造、即ち潜在的な構造が
あることを仮定し、その構造は、文書におけるワードの
発生を分析することによって外部化される必要がある。
従って文書は、非常に大きな範囲の用語空間におけるベ
クトルとして考えられ、そのベクトルの個々の要素は与
えられた文書における特定の用語の発生頻度を表してい
る。全体及び局所的重み付けに基づく、より洗練された
基準も使用されうる。短縮された特異値分解（ＳＶＤ）
が、文書に亘るワード使用の構造を評価する。これにつ
いては、１９８９年、アメリカ合衆国メリーランド州ボ
ルチモアのJohns-Hopkinsの、G. Golub他による「Matri
x Computations」第２版を参照されたい。ここでは、検
索が、特異値を有するデータベース、及び短縮されたＳ
ＶＤから得られたベクトルを使用して実行される。ＬＳ
Ｉの予備的評価では、この情報検索のアプローチは、個
々の用語に基づくものより粗い基準とされている。

【００１５】自動化されたクエリー拡張は、ワード・ミ
スマッチ問題を取り扱う技法として長い間示唆されてき
た。これについては、１９９４年、アイルランド共和国
ダブリンで行われたthe 17th Annual International AC
M SIGIR Conferenceの予稿集で、E. Voorheesによる「Q
uery Expansion Using Lexical-Semantic Relations」
を参照されたい。あるアプローチでは、類語辞典を用い
てクエリーを拡張し、関連する文書内でワードがマッチ
する可能性を高めている。研究では、単に一般的な類語
辞典を用いるだけでは、改善に限界があることが分かっ
ている。多くの革新的技法も提案されている。１９９４
年、the 3rd International Conferenceon Information
and Knowledge Managementの予稿集の、O. Kwon他によ
る「Query Expansion Using Domain Adapted, Weighted
Thesaurus in an Extended Boolean Model」、１９９
３年、アメリカ合衆国ペンシルバニア州ピッツバーグで
行われたthe 16th Annual International ACM SIGIR Co
nferenceの予稿集の、E. Voorheesによる「Concept Bas
ed Query Expansion」、同予稿集の、E. Voorheesによ
る「Query Expansion Using Lexical-Semantic Relatio
ns」、及び同予稿集の、M. W. Berry他による「Computa
tional Methods for Intelligent Information Acces
s」を参照されたい。実験の結果、自動化されたクエリ
ー拡張では、平均で７％から２５％の検索の効率化がは
かられている。これについては、同予稿集の、C. Buckl
ey他による「Automatic Query Expansion Using SMAR
T」を参照されたい。

【００１６】クエリーの改良は、構文的に関連するワー
ドを含めることによっても達成される。このアプローチ
は、ワードを、文書内での共起情報に基づいてクラスタ
化し、これらのクラスタを用いてクエリーを拡張する。
この共起情報は、２項関係であるため、こうしたインデ
ックスのサイズは常に、極めて大きなものになる。ま
た、あるグループは、ワードの変形に関する共起統計の
集大成を用いてステマ（stemmer）を変更又は生成し、
形態素規則のみを用いたアプローチに較べてどれだけ有
利かを実証した。これについては、１９９４年、the Fo
urth Annual Symposiumの予稿集の、W. B. Croft他の
「Corpus-Specific stemming Using Word Form Co-occu
rrence」を参照されたい。クエリーの用語を１組の意味
的に関連する用語に拡張する上記各技法は、全体(globa
l)分析と呼ばれる。クエリー拡張では、関連フィードバ
ックからの用語もクエリーに追加され、検索の効率を改
善する。１９９０年６月、Journal of the American So
ciety for Information Scienceの41(4):288-297、G. S
alton他の「Improving retrieval performance by rele
vance feedback」を参照のこと。これは、局所(local)
分析と呼ばれる。これまでの研究では、ワードの前後関
係及び語句の構造を用いた全体分析技法を文書の一部分
の組に適用することによって、単純な局部的フィードバ
ックより効果的でより確実な検索結果が得られることを
示している。詳細については、上記文献の、J. Xu他に
よる「Query Expansion Using Local and Global Docum
ent Analysis」を参照のこと。

【００１７】しかし、前述したように、いままでの研究
は、クエリーが拡張された場合のクエリーの効率的な処
理の問題を解決したり、クエリー拡張とクエリー処理を
実行するのに用いられるインデックスのサイズを小さく
することを目指すものではなかった。

【００１８】

【発明が解決しようとする課題】本発明の目的は、ワー
ド・ミスマッチの問題と、結果的に生じるクエリー処理
の非効率さを解決するために、小さなサイズのインデッ
クスを使用して効率的なクエリー拡張を行い、連続的な
クエリーの処理を行う方法及び装置を提供することであ
る。より詳しくは、クエリー内に指定されたワードと意
味的に類似し、構文的に関連のあるワードを用いて、そ
のクエリーを、物理的ではなく概念的に拡張し、結果的
に関連する文書を逃すことを少なくする。

【００１９】また、クエリーの拡張を支援するために、
用語の意味について関連するワード、及び構文的共起関
係にあるワードのインデックスが維持される必要があ
り、こうしたクエリー拡張の支援に関しては、以下の２
つの問題が重要になる。１つ目はインデックス・テーブ
ルのサイズの問題であり、２つ目はクエリー処理のオー
バーヘッドの問題である。本発明は、これらの問題を解
決することも目的とする。

【００２０】

【課題を解決するための手段】本発明によれば、複数の
細分度からなる情報の概念と処理構造が、クエリーの拡
張を支援するために使用される。本発明は、インデック
ス付けフェーズ、クエリー処理フェーズ、及びランク付
けフェーズを含む。インデックス付けフェーズでは、意
味的に類似したワードが１つの概念としてグループ化さ
れ、こうして、より粗く細分化された意味概念のため
に、結果的に実際の１つのインデックス・サイズが小さ
くなる。クエリー処理の間、クエリー内のワードが、辞
書と実際のデータの内容を使用して、対応する意味概念
及び構文的拡張にマッピングされ、結果的に元のクエリ
ーに対して論理的な拡張が行われる。更に、処理に関す
るオーバーヘッドが回避される。次に、最初のクエリー
のワードは、検索結果として得られた文書を、厳密なマ
ッチング、意味的なマッチング、及び構文的マッチング
に基づいてランク付けするのに用いられ、連続的なクエ
リーの処理を実行するのにも用いられる。

【００２１】

【発明の実施の形態】本発明による、効率的にクエリー
の拡張を行うための方法及び装置の好適実施形態が、添
付図面と共に以下で詳細に説明される。以下の説明は、
ＮＥＣのＰＥＲＩＣＯオブジェクト指向データベース管
理システム（ＯＯＤＢＭＳ）に関してなされるが、本発
明はこれに限られるものではないことに注意すべきであ
る。本発明は、様々なデータベース・システム及び文書
の集合体に適用されうる。

【００２２】本発明は、複数の細分度の概念を導入する
ことによって、クエリーの拡張に関して、効果的なイン
デックス付けと処理支援を提供する。本発明のアプロー
チは、ワードのステミング（stemming）の後で、利用可
能な技法を用いて、意味的に類似するワードと構文的に
関連するワードについて、インデックスを設定する。前
記技法については、１９９６年、スイス、チューリッヒ
でのthe 19th AnnualInternational ACM SIGIR Confere
nceの予稿集の、J. Xu他の「Query ExpansionUsing Loc
al and Global Document Analysis」、及び１９９７
年、アメリカ合衆国ペンシルバニア州フィラデルフィア
でのthe 20th Annual International ACM SIGIR Confer
enceの予稿集の、C. Jacqueminの「Guessing Morpholog
y from Terms and Corpora」を参照のこと。更に本発明
のアプローチは、いくつかのエントリ（タプル）を、よ
り高レベルの細分度で１つのエントリにマージすること
により、インデックスのサイズを小さくする。クエリー
処理の間、より高いレベルの細分度での情報を有した、
そのタプルが、関連文書を検索するのに用いられる。そ
の後、クエリーの元のワードは、より細かい細分度で、
厳密なマッチング、意味的に類似するマッチング、及び
構文的に関連するマッチングに基づいてクエリー処理の
間に結果として得られる文書をランク付けするために用
いられる。複数の細分度を有するインデックスとクエリ
ー処理技法を使用することによって、検索メカニズムに
おける全体の精度を維持したまま、インデックスのサイ
ズを小さくすることができ、かつ、より速いクエリー処
理を実現できる。

【００２３】最初に、複数の細分度の表記と、それが、
どのように、ほとんどのＩＲシステムによって使用され
ている従来のインデックス付けに関連して適応されるの
かについて説明する。次に、所定の文書の集合に関し
て、複数の細分度を有するインデックス付けを行う場合
の、記憶域に対するオーバーヘッドについての見積りを
行う。

【００２４】従来のＩＲシステムは、文書リストから所
与のワードを容易に検索するために、インデックスを保
持し、同時に、得られた文書に関連付けられたワードの
組を抽出する。この場合、「文書」という用語は、テキ
スト、イメージ、又はテキストとイメージの組み合わせ
に関連することに注意すべきである。

【００２５】図２は、インデックスの例を示している。
図２の（ｂ）に示すテーブルは、図２の（ａ）に示すテ
ーブルを転置したインデックスである。図２では、説明
を容易にするため、これらのインデックスがテーブルの
形で示されている。しかし、実際の環境では、例えばＮ
ＥＣのＰＥＲＣＩＯＯＯＤＢＭＳの上位層のクラスが
用いられる。１つのクエリーの例をとると、ユーザが最
初に、ワード「ｃａｒ（乗用車）」かつ「ｄｅａｌｅｒ
（販売店）」を用いてクエリーを作成すると、ＩＲシス
テムは、図２の（ｂ）のテーブルの対応する行から文書
リストを取り出す。この場合、クエリーの解答は、２つ
の行から得られた文書リストの共通部分となる。このＩ
Ｒに対するアプローチは、明らかに、厳密なマッチング
のみを支援するものであり、「ａｕｔｏｍｏｂｉｌｅ
ｄｅａｌｅｒ（自動車の販売店）」、「ｃａｒｓｈｏ
ｗｒｏｏｍ（乗用車のショールーム）」、又は「ａｕｔ
ｏｍｏｂｉｌｅｓｈｏｗｒｏｏｍ（自動車のショール
ーム）」といった類似の意味を有する用語を含む関連文
書を得ることができない。クエリー拡張は、クエリーを
「ｃａｒ」かつ「ｄｅａｌｅｒ」という記述から、
（「ｃａｒ」又は「ａｕｔｏｍｏｂｉｌｅ」）かつ
（「ｄｅａｌｅｒ」又は「ｓｈｏｗｒｏｏｍ」）という
記述に拡張する特別のユーティリティと関連して使用さ
れる。このアプローチは実現可能ではあるが、クエリー
処理にかなりのオーバーヘッドを招くことになる。特
に、図２の（ｂ）のインデックス・テーブルについての
２回のルックアップの代わりに、元のクエリー内のワー
ドと意味的に類似するワードのそれぞれについて、何回
かのルックアップが必要になる。また、オンライン辞書
のような類語辞書的ツールが、クエリーの用語を、それ
らと意味的に類似する用語に拡張するのに必要である。
これらの観察から、本発明は、文書の集合を検索する際
に、クエリーの拡張を支援する、より効果的な方法を提
供する。

【００２６】先に述べたように、ユーザの語彙と作者の
語彙とのミスマッチを避けるために、意味の類似するワ
ード、及び構文的関係を有するワードを用いてクエリー
を拡張する方法に基づいたクエリーの拡張が必要とされ
る。

【００２７】図３は、従来のＩＲシステムにおいて、ク
エリーの拡張を容易にするのに追加が必要となるデータ
構造を示している。特に、図３は、各ワードが意味的に
類似する概念にグループ化される、用語の意味を含むオ
ンライン辞書から導出されたテーブルを示している。な
お、図３に示されたテーブルは、説明のため簡略化され
ている。例えば、類似する用語の組「ｃａｒ（乗用
車）」、「ａｕｔｏ（車）」、「ａｕｔｏｍｏｂｉｌｅ
（自動車）」、及び「ｓｅｄａｎ（セダン）」は、１つ
の象徴的エンティティ、ｓｅｍ１として表されている。
辞書や類語辞書に基づく意味的な類似とは違って、ＩＲ
における構文的関係は、文書の収集そのものによって決
定される。特に、ワードの共起情報は、２つのワードを
構文的に関連付けるのに使用される。図３（ｂ）は、こ
の情報を表したインデックスを例示している。図３の補
助インデックスと共に、図２の従来のＩＲインデックス
を用いることによって、基本的なクエリー拡張技法が、
ＩＲシステムにおいて支援される。基本的には、ユーザ
のクエリーが与えられると、クエリーのワード・リスト
が、意味的に類似するワード及び構文的に関連するワー
ドを含むように拡張される。

【００２８】クエリーの拡張を用いたクエリーの処理に
は、上述の方法が使用されるが、このアプローチでは、
処理に関するオーバーヘッドが高くなってしまう。本発
明によれば、クエリーをより効率的に処理することがで
きる追加のインデックス構造が使用される。本発明のア
プローチの基本的発想は、図２及び図３のインデックス
を、クエリーが概念的に拡張されるように変換するもの
である。即ち、意味的に類似するワード及び構文的に関
連するワードをリスト内に含ませることによって、クエ
リーのワードのリストを物理的に拡張するのではなく、
クエリーのワードを、その関連する、より上位レベルの
意味概念と構文的関係（例えば、共起関係）のワードと
入れ替えることによって、クエリーを概念的に拡張す
る。このことは、追加のインデックス構造による容量オ
ーバーヘッドの追加をもたらす。しかし、ユーザのクエ
リーがより効率的に処理されるので、全体としては節約
を達成できる。

【００２９】前述したように拡張されたクエリーを処理
するために、図４に示すように、インデックス・テーブ
ルが変更される。特に、図４の（ａ）に示すインデック
ス・テーブルは、各ワード（固有の名称でない）を、よ
り上位レベルの意味概念のワードに置き換えることによ
って、図２の（ａ）から導出される。図４の（ｂ）に示
すインデックス・テーブルは、図２の（ｂ）に示された
ワードを、それらが対応する、より上位レベルの意味概
念のワードと組み合わせ、それぞれの文書リストのエン
トリをマージすることによって得られる。従って、「ｃ
ａｒ」、「ａｕｔｏ」、「ａｕｔｏｍｏｂｉｌｅ」、及
び「ｓｅｄａｎ」に対応する行エントリは、図４の
（ｂ）では単一のエントリＳｅｍ１として表されてい
る。同様に、図２（ｂ）の、「ｄｅａｌｅｒ」、「ｓｈ
ｏｗｒｏｏｍ」、及び「ＳａｌｅｓＯｆｆｉｃｅ」に対
応する行は、Ｓｅｍ２というラベルの１行に纏められて
いる。

【００３０】構文的に関連するワードに対するインデッ
クスは通常、いくつかの理由から、意味的に関連するワ
ードに対するインデックスよりかなり大きい。ウエブ上
の多くのワードは、固有の名称であり、辞書には見つか
らない。実験では、2,904の文書を分析した場合、キー
ワードの４２％だけがＷｏｒｄＮｅｔで見つかった。Ｗ
ｏｒｄＮｅｔは60,000以上のワードを有するオンライン
辞書である。これについては、１９９０年、Internatio
nal Journal of Lexicography 3(4)、ページ245-264
の、G. A. Millerによる「Nouns in WordNet: A Lexica
l Inheritance System」を参照されたい。残りの５８％
のワードは固有名詞やタイプエラーを含んでおり、これ
がインデックスのサイズを肥大化させる元となってい
る。従来のＩＲシステムにおいては、構文的な関連付け
は、通常、共起関係によって把握されていた。同じ文書
内でのワードの共起関係は、１対１関係であるため、ｎ
個のワードが識別された場合、インデックスのサイズ
は、最悪のケースでは、（ｎ×（ｎ−１））／２とな
る。巨大な記憶域とインデックス付けのオーバーヘッド
のために、３個以上のワードの共起関係をインデックス
付けするのは、非常にコストがかかる。

【００３１】辞書に見つかったワード（意味的に意義の
あるもの）をＳとし、他の全てのワード（固有名詞）を
Ｐとする。辞書にあるワードと辞書にないワードとい
う、上記分類に基づいて、ワードの間の共起関係が３つ
の異なるカテゴリに分類される。

【００３２】・Ｐ−Ｐ型：例えば（Ｔｏｙｏｔａ（トヨ
タ）、Ａｖａｌｏｎ（トヨタ車の名前））、（Ａｃｕｒ
ａ（アキュラ）、Ｌｅｇｅｎｄ（アキュラ車の名
前））、（Ｎｉｓｓａｎ（日産）、Ｍａｘｉｍａ（日産
車の名前））。

【００３３】・Ｓ−Ｐ型、又はＰ−Ｓ型：例えば（Ｂｕ
ｉｃｋ（フォード車の名前）、ｃａｒ（乗用車））、Ｂ
ｕｉｃｋ、ｄｅａｌｅｒ（販売店））、（ｃａｒ、Ｆｏ
ｒｄ（フォード社））、（Ｆｏｒｄ、ａｕｔｏ
（車））、（Ｆｏｒｄ、ｄｅａｌｅｒ）。

【００３４】・Ｓ−Ｓ型：例えば（ｃａｒ、ｇａｒａｇ
ｅ（ガレージ））、（ａｕｔｏ、ｇａｒａｇｅ）。

【００３５】通常、図３の（ｂ）に示す、より粗い細分
度に変換できないＰ−Ｐ型のエントリを変換することは
困難である。しかし、他の全てのエントリは、対応す
る、より高いレベルの意味概念に置換できるＳワードを
有する。これによって、共起インデックスのサイズが減
少し、クエリー処理のスピードアップが実現される。イ
ンデックスのサイズの減少は、以下のように生じる。Ｓ
−Ｐ型（ｗ_i、Ｘ）の各エントリに対し、ｗ_iが意味概念
Ｓｅｍ_iに対応するように、図３の（ｂ）に示された全
ての（ｗ_i、Ｘ）のエントリを、図４の（ｃ）の（Ｓｅ
ｍ_i、Ｘ）に置換する。ここで、対応する文書のリスト
もマージされる。同様の手順がＰ−Ｓ型のエントリにも
適用される。図４の（ｃ）に示すように、エントリ（Ｆ
ｏｒｄ、ｃａｒ）と（Ｆｏｒｄ、ａｕｔｏ）は、（Ｆｏ
ｒｄ、Ｓｅｍ１）に置換される。同様に、エントリ（Ｆ
ｏｒｄ、ｄｅａｌｅｒ）と（Ｆｏｒｄ、ｓｈｏｗｒｏｏ
ｍ）は、（Ｆｏｒｄ、Ｓｅｍ２）に置換される。こうし
たマージ・メカニズムについて、図５の（ａ）（ｂ）を
用いて説明する。

【００３６】Ｓ−Ｓ型のエントリは、以下の２つの方法
でマージされる。

【００３７】・単一マージ：図５の（ａ）（ｂ）に示す
ような、１対多／多対１のタイプのマージ。例えば、エ
ントリ（ｃａｒ、ｄｅａｌｅｒ）、（ａｕｔｏｍｏｂｉ
ｌｅ、ｄｅａｌｅｒ）、及び（ａｕｔｏ、ｄｅａｌｅ
ｒ）は、（Ｓｅｍ１、ｄｅａｌｅｒ）に置換される。こ
こで使用されるアルゴリズムは、Ｓ−Ｐ型及びＰ−Ｓ型
で使用されるものと同じである。

【００３８】・複合マージ：図５の（ｃ）に示すよう
な、多対多のタイプのマージ。例えば、エントリ（ｃａ
ｒ、ｄｅａｌｅｒ）、（ａｕｔｏｍｏｂｉｌｅ、ｓｈｏ
ｗｒｏｏｍ）、及び（ａｕｔｏ、ＳａｌｅｓＯｆｆｉｃ
ｅ）は、（Ｓｅｍ１、Ｓｅｍ２）に置換される。このタ
イプのマージのアルゴリズムは、以下のようなものであ
る。

【００３９】１．Ｓ−Ｓ型の各エントリ（ｗ_i、Ｘ）に
対して、ｗ_iが、意味概念Ｓｅｍ_iに対応するように、図
３の（ｂ）の（ｗ_i、Ｘ）のエントリ全てを、図４の
（ｃ）に示すような（Ｓｅｍ_i、Ｘ）に置換する。

【００４０】２．（Ｓｅｍ_i、ｗ_j）のタイプの各エント
リに対して、ｗ_jが、意味概念Ｓｅｍ_jに対応するよう
に、こうした全ての（Ｓｅｍ_i、ｗ_j）を、（Ｓｅｍ_i、
Ｓｅｍ _j）に置換する。

【００４１】上記ステップ２は、上記ステップ１の前に
実行することもできることに注意すべきである。更に、
このアルゴリズムのステップ１とステップ２は、マージ
するものがなくなるまで繰り返し行われうる。

【００４２】複数のエントリがマージされると、それに
応じて、各エントリの構文的ワードリストも、合併（Ｕ
ＮＩＯＮ）演算によってマージされる。

【００４３】複数の細分度を有するインデックス付け技
法は、ＯＯＤＢＭＳの上位層に実装されうる。こうした
実装では、図２の（ａ）、図３の（ａ）、及び図４の
（ｃ）に示すテーブルは、内容を有するクラスである。
他のテーブルは、ポインタのみを有するクラスである。
インデックスに対する更新、削除、及び挿入操作は、自
動監視維持やクラスの間で伝達を行うプログラムを介し
て、ＯＯＤＢＭＳによって実行される。複数の細分度を
有するインデックスの維持は累積的に行われ、再編成は
必要とされない。

【００４４】次に、従来のワードに基づくインデックス
の他に、意味概念に基づくインデックス・テーブルを支
援するのに必要なために追加される記憶域のオーバーヘ
ッドを考慮に入れて、本発明による実施例の見積りを計
算する。前述したように、図４に示すテーブルが、効率
的なクエリー処理のために導入される。最初に、従来の
ＩＲシステムで使用されるインデックス、即ち、図２に
示すテーブルに関する記憶域の見積りに関する計算を行
う。所定の集合体における文書の数はＤであるとする。
更に、その所定の文書の集合体における、辞書にあるワ
ード数（ワード・ステミングを用いて、ストップ・ワー
ドとグルーピング・ワードを取り除いた後の数）はＷで
あり、辞書にないワードの数はＶとする。また、文書毎
の、辞書にあるワード数の平均をｗとし、辞書にないワ
ード数の平均をｖとし、ワード毎の文書数の平均をｄと
する。エントリ数（即ち、行数）とテーブルの全体のサ
イズ（即ち、ポインタの数）に基づいて、インデックス
のサイズが計算される。テーブルの各エントリが、ポイ
ンタ・データとして表されることに注意すべきである。
これらのパラメータが与えられると、図２の（ａ）に示
されたテーブルのサイズは、以下の式（２）で表され
る。

【００４５】行数[2(a)] ＝Ｄ．．．（１）全体サイズ[2(a)] ＝（１＋ｖ＋ｗ）Ｄ ...（２）。

【００４６】各行において、文書の識別のために１つの
ポインタが必要とされ、ワードのリストの中で辞書にな
いワードを表すのに、平均でｖ個のポインタが必要とさ
れ、更にワードのリストの中で辞書にあるワードを表す
のに、平均でｗ個のポインタが必要とされるので、（１
＋ｖ＋ｗ）の項が生じていることに注意すべきである。
同様に、図２の（ｂ）に示すテーブルのサイズは、以下
の式（４）で表される。

【００４７】行数[2(b)] ＝Ｗ＋Ｖ．．．（３）全体サイズ[2(b)] ＝（１＋ｄ）・（Ｗ＋Ｖ）．．．（４）。

【００４８】このテーブルの各行は、平均で、文書リス
ト内で文書の識別子となるｄ個のポインタと、ワードそ
のものを指す１つのポインタを必要とする。

【００４９】次に、基本的なクエリー拡張を支援するの
に必要な、オンライン辞書と構文的共起テーブルの記憶
域オーバーヘッドを見積る。ｆを、辞書にあるワードを
意味概念にグループ化することによって得られる圧縮要
素とする。従って、ｆは、１つの概念にグループ化され
たワードの数の平均と見ることができる。図３の（ａ）
に示すテーブルのサイズは、以下の式（６）のように表
すことができる。

【００５０】行数[3(a)] ＝Ｗ／ｆ．．．（５）全体サイズ[3(a)] ＝Ｗ＋Ｗ／ｆ．．．（６）。

【００５１】式（５）は、辞書にあるワードの記憶域
が、圧縮要素ｆに基づいて圧縮されるので、このように
表される。式（６）は、Ｗ個のポインタが、ワードのリ
スト内のワードを表すのに必要で、Ｗ／ｆ個のポインタ
が意味的な識別子を表すのに必要であることを示してい
る。図３の（ｂ）で示されるテーブルのサイズは、最悪
の場合、以下の式（８）で表される。

【００５２】行数[3(b)] ＝Ｖ（Ｖ−１）／２＋ＶＷ＋Ｗ（Ｗ−１）／２．．．（７）全体サイズ[3(b)]＝（１＋２＋ｑ）・（Ｖ（Ｖ−１）／２＋ＶＷ＋Ｗ（Ｗ−１）／２）．．．（８）。

【００５３】式（７）では、第１項がＰ−Ｐ型のワード
の共起関係に対応し、第２項がＳ−Ｐ型又はＰ−Ｓ型に
対応し、最後の項はＳ−Ｓ型の共起関係に対応する。ｑ
は、共起関係を表す項毎の、文書リスト内のエントリの
平均数を表している。更に、構文的用語識別子を表すた
めに３つのポインタが必要とされ、２つのワードが各行
の共起関係に含まれる。

【００５４】次に、意味的に類似する用語の組を１つの
ユニークな意味概念にグループ化する、本発明による複
数の細分度を有するインデックス付けに関する記憶域オ
ーバーヘッドについて見積りを行う。前述したように、
図４に示すインデックス・テーブルのサイズを計算する
ために、意味概念毎の平均文書数と、文書毎の意味概念
の平均数を見積る必要がある。複数の用語が１つの意味
概念に縮減されるので、意味概念毎の文書の平均数は、
ｄより大きくなり、この拡張は、ｆ・ｄにはならないこ
とを示すことができる。他方、文書毎の概念の平均数
は、ｗを越えることはない。実際に、この数がｗと似た
ものになることを示すことができる。これらのパラメー
タに基づいて、複数の細分度を有するインデックス付け
の追加の記憶域オーバーヘッドを計算することができ
る。図４の（ａ）に示すテーブルに関する計算は以下の
通りである。

【００５５】行数[4(a)] ＝Ｄ．．．（９）全体サイズ[4(a)] ＝（１＋ｖ＋ｗ）Ｄ．．．（１０）。

【００５６】即ち、サイズは図２の（ａ）に示すテーブ
ルと同じである。一方、図４の（ｂ）に示すテーブルの
サイズは、以下の通りである。

【００５７】行数[4(b)] ＝Ｗ／ｆ．．．（１１）全体サイズ[4(b)] ＝（１＋ｄｆ）・Ｗ／ｆ．．．（１２）。

【００５８】辞書にあるワードのエントリの数は、ワー
ドが意味概念に統合されるために、要素ｆに基づいて減
少する。しかし、意味概念毎の文書の数は、その要素と
ほぼ同じ分だけ増加する。結果的に、このテーブルのサ
イズは、図２の（ｂ）に示すテーブルと同じようなもの
になる。より高いレベルの細分度においては、図４の
（ａ）と（ｂ）に示すテーブルは、それぞれ図２の
（ａ）と（ｂ）に示すテーブルであることに注意すべき
である。最後に、図４の（ｃ）に示すテーブルの記憶域
の見積りは、以下の式（１３）、（１４）のように計算
される。

【００５９】行数[3(b)] ＝Ｖ（Ｖ−１）／２＋Ｖ・（Ｗ／ｆ）＋（Ｗ（Ｗ−１）／２ｆ² ）．．．（１３）全体サイズ[3(b)] ＝（１＋２＋ｑ）・Ｖ（Ｖ−１）／２＋（１＋２＋ｑｆ）・Ｖ・（Ｗ／ｆ）＋（１＋２＋ｑｆ）（Ｗ（Ｗ−１）／２ｆ²） ...（１４）。

【００６０】基本的に、Ｓ−Ｓ型、Ｓ−Ｐ型、又はＰ−
Ｓ型の共起用語の全ては、要素ｆに基づいて圧縮され、
図３の（ｂ）に示すテーブルと較べて実質的に小さな容
量になる。

【００６１】最終的に、本発明によれば、図３の（ｂ）
に示すテーブル以外が必要とされる。一方、基本的なク
エリー拡張技法は、図２及び図３に示すテーブルを全て
必要とする。従って、本発明の方法を採用した場合の記
憶域に関するコストは、図４の（ａ）と（ｂ）に示すテ
ーブルの記憶域の増加分だけ大きくなるが、図４の
（ｃ）に示すテーブルのサイズが小さくなるので、前記
コストの増加分は部分的に埋め合わせられる。節約の正
確な数値は、前述した種々のパラメータの値に依存す
る。最悪の場合でも、追加の記憶域は、基本的なクエリ
ー拡張技法を使用した場合の記憶域の２倍よりかなり小
さい。

【００６２】前述のインデックス付け技法は、ワードが
単一の意味のみを有することを仮定して議論されてい
る。しかし、ワードは、通常複数の意味を有している。
例えば、「ｂａｎｋ」というワードは、金融機関（銀
行）、または川岸として解釈される。複数の意味を有す
るワードについて考慮するため、意味的ワードリストの
ワード（図３で示されている）が、図４の（ａ）に示す
複数の概念番号に属するものとする。例えば、「ｂａｎ
ｋ」は、Ｓｅｍ１０とＳｅｍ２０に関連付けられるもの
とする。こうした複数の意味を考慮して、クエリーの拡
張を実行するために、クエリーが、複数の異なる概念番
号に属する１つのワードを含む場合、その異なる概念番
号のそれぞれが、クエリーの処理の際に考慮されるべき
である。

【００６３】上記説明においては、インデックス技法
は、ＮＥＣのＯＯＤＢＭＳの上位層に実装されており、
意味的ワードリスト内のワードが、ポインタによって概
念番号に関連付けられている。また、冗長なデータは記
憶されておらず、ポインタに関する記憶域のコストも非
常に低いものである。ＷｏｒｄＮｅｔは、あるワードに
対する類義語を様々な意味の解釈で提供し、その意味が
使用される頻度に応じてランク付けする。例えば、「ｂ
ａｎｋ」は、川岸よりも金融機関として、より多く解釈
される。最も一般的な意味解釈が、現在の実行に用いら
れる。しかし、データ構造を拡張することもできる。

【００６４】前で述べられた以外の、意味のグループ化
を考慮に入れることができる。図４では、類義語による
クエリーの拡張だけが考慮されている。ＩＳＡ、ＩＳ＿
ＰＡＲＴ＿ＯＦ等の、他の型の意味の緩和を考慮するこ
ともできる。図４の（ａ）に示す形態のテーブルを、様
々な意味のグループ化（例えば、１つはＩＳＡに関し
て、１つはＩＳ＿ＰＡＲＴ＿ＯＦに関して）に関して複
数生成することができる。また、１つのテーブルを様々
な意味のグループ化に関して使用することもできる。類
義語及び上位概念語の両方によってクエリーの拡張を行
う場合、複数のテーブルに対してルックアップが行われ
る。

【００６５】ワード・ミスマッチの問題に対処するた
め、クエリー処理技法は、関連ワードを用いてクエリー
のワードを拡張する必要がある。結果的に、元のクエリ
ーのワードに対する関連性によって文書をランク付けす
る、追加タスクが実行されうる。次に、拡張されたクエ
リーの処理が、本発明による３つのタスク、即ち、クエ
リーの拡張、クエリーの処理、及び結果のランク付けと
して提供される。

【００６６】まず、クエリーの拡張について説明する。
図６は、従来のクエリー拡張技法の元でのクエリーの拡
張の例を示している。「ｃａｒとｄｅａｌｅｒというワ
ードを含む文書を検索する」というクエリーが修正さ
れ、ｃａｒとｄｅａｌｅｒに関連するワードが追加され
ている。意味的に類似する関連ワードと、構文的な共起
関係を有する関連ワードは、図３に示すテーブルを用い
て決定される。本発明による、複数の細分度を有するク
エリー拡張技法の元でのクエリー拡張の例は、図７に示
されている。複数の細分度を有するクエリーの拡張技法
は、ｃａｒとｄｅａｌｅｒというワードを、図３の
（ａ）に示すテーブルを用いて概念Ｓｅｍ１とＳｅｍ２
に変換する。ワードを、そのワードに対応する、より上
位レベルの意味概念に変換した後、図４の（ｃ）に示す
テーブルを用いて、その意味概念が、構文的関係を含む
ように拡張され、元のクエリーにある固有名詞が、共起
テーブルからの関連ワードを含むように拡張される。

【００６７】辞書にあるワードと辞書にないワードの両
方を含むクエリーＱが与えられた場合、Ｑは、以下の式
（１５）で表現される。

【００６８】Ｑ＝（ｓ₁∧．．．∧ｓ_m）∧（ｐ₁∧．．．∧ｐ_n）．．．（１５）式（１５）では、ｓ_iは辞書にあるワードを表し、ｐ_jは
辞書にないワードを表す。更に、クエリーＱには、辞書
にあるワードがｍ個あり、辞書にないワードがｎ個あ
る。こうしたクエリーが与えられると、複数の細分度を
有するクエリー拡張技法が、以下のように実行される。

【００６９】１．Ｑにある各ｓ_i（ｉ＝１，．．．、
ｍ）を、図３の（ａ）に示すテーブルから得られた、そ
のｓ_iに対応する、より上位レベルの意味概念に置換す
る。このように置き換えられた概念のそれぞれをＣ_iと
表記する。

【００７０】２．ステップ１で得られた各Ｃ_i（ｉ＝
１，．．．、ｍ）に対して構文的関連を有するワード
を、図４の（ｃ）に示すテーブルを用いて求め、追加す
ることによってＱを拡張する。Ｓ−Ｓ型のエントリは、
概念の追加に寄与し、Ｓ−Ｐ型のエントリは、固有名詞
に寄与する。

【００７１】３．各ｐ_j（ｊ＝１，．．．，ｎ）と共に
生じる、構文的関連を有するワードを、図４の（ｃ）に
示すテーブルを用いて求め、追加することによってＱを
拡張する。Ｐ−Ｓ型のエントリは、概念の追加に寄与
し、Ｐ−Ｐ型のエントリは、固有名詞に寄与する。

【００７２】４．冗長なクエリーのワード又は概念をＱ
から除去する。

【００７３】本発明によって拡張されたクエリーは、従
来の技法によって拡張されたクエリーと較べて、よりコ
ンパクトで、チェックすべき項目が少ない。それは、ク
エリーのワードが、より粗い細分度におけるエンティテ
ィに変換されているからである。結果的に、本発明によ
り拡張されたクエリーのクエリー処理のコストは、一層
小さいものになる。次に、従来の技術のクエリー拡張、
及び本発明の、複数の細分度を有するクエリー拡張にお
いて導入されるエンティティ（ワード又は概念）の数が
見積られる。前述のように、より上位レベルの意味概念
の元でグループ化された、辞書にあるワードの平均数
は、ｆで表される。ここで、ワードに意味的に関連付け
られた、より上位レベルの概念の平均数をｇとし、ワー
ドに関連付けられた、構文的関連を有する固有名詞の平
均数をｈとする。そこで、基本的なクエリーの拡張（Ｂ
Ｑ）の元でのＱにおけるワードの数は、以下の式（１
６）に示すように、ステップ１、２、及び３で発生する
拡張の合計である。

【００７４】ワード数［ＢＱ］＝（ｍｆ）＋ｍ（ｇ＋ｈ）＋ｎ（ｇ＋ｈ） ...（１６）ここで、第１項は、辞書にあるｍ個のワードのそれぞれ
が意味的に類似するｆ個のワードに置換されるために生
じる。第２項は、辞書にあるｍ個のワードのそれぞれに
対し、辞書にある共起ワード、及び辞書にない共起ワー
ドが（ｇ＋ｈ）個追加されるために生じる。第３項は、
（ｇ＋ｈ）個の共起ワードを追加したｎ個の固有名詞の
それぞれに対応する。同様に、複数の細分度を有するク
エリー拡張（ＭＧＱ）の元でのＱにおけるワードと概念
の数は、以下の式（１７）で表される。

【００７５】ワード数［ＭＧＱ］＝ｍ＋ｍ（ｇ／ｆ＋ｈ）＋ｎ（ｇ／ｆ＋ｈ）．．．（１７）ここでは、使用されている類似のワードの組に関して、
より上位レベルの意味表現を用いているので、圧縮要素
ｆが現れることが、実質的に大きく異なる点である。従
って、複数の細分度を有するクエリー拡張技法によっ
て、クエリーに含まれるワード／概念の数は、基本的な
クエリー拡張技法によるものよりも厳密な意味で少なく
なっている。図４の（ｃ）のテーブルにおいて、ワード
毎の固有名詞の数が小さければ、本発明の技法によるク
エリーの複雑さは、要素ｆに基づいて軽減される。

【００７６】今度は、クエリー処理について説明する。
従来の厳密なマッチングに基づくクエリー処理では、ク
エリーに関連する検索の述語に関する条件を満たさない
ことが分かるとすぐに、検索処理を終了する。検索は類
似性に基づいているので、実際のＩＲにおいては、そう
ではない。特にユーザは、ユーザの検索基準に、部分的
にでもマッチした結果を見ようとするものである。従っ
て、Ｎ個のワードを有するクエリーに対して、Ｎ回のル
ックアップが必要であり、これは、検索の述語における
ブール条件には依存しない。更に、部分的なマッチング
が支援されているので、クエリー処理の後に、ランク付
け処理を追加する必要がある。ランク付け技法は、文書
の内のどのワードがクエリーにマッチするかということ
と、そのワードの文書内での頻度に関する情報を必要と
する。

【００７７】ここで、２つの技法において、クエリーを
処理する際のルックアップのコストについて分析する。
２つの要因のために、処理コストには基本的な違いがあ
る。この２つの要因は、以下に示すものである。

【００７８】・基本的なクエリー拡張におけるワード数
が、複数の細分度を有するクエリー拡張におけるワード
数より多いこと。

【００７９】・ルックアップが行われる、それぞれのテ
ーブルのエントリ数が２つの技法で異なること。

【００８０】ここで、前述したクエリーＱのルックアッ
プ・コストの見積りを行う。テーブルは、平衡探索構造
で組織化されており、テーブルのルックアップ操作は、
テーブルの行数に応じて対数的に変化するものと仮定す
る。従って、前述の見積り式を用いた、基本的なクエリ
ー拡張においてＱを実行する際のルックアップ・コスト
は、以下の式（１８）、（１９）のようになる。

【００８１】ルックアップ・コスト(Q,BQ) = mf・log(行数[2(b)]+(m+n)・(g+h)・log(行数[3( b)]) ...(１８) = mf・log(W+V)+(m+n)・(g+h)・log(V(V-1)/2+VW+W (W-1)/2) ...(１９)。

【００８２】同様に、複数の細分度を有するクエリー拡
張においてＱを実行する際のルックアップ・コストは、
以下の式（２０）、（２１）のようになる。

【００８３】ルックアップ・コスト(Q,MGQ) = m・log(行数[4(b)]+(m+n)・(g/f+h)・log(行数[ 4(c)]) ...(２０) = m・log(W/f+V)+(m+n)・(g/f+h)・log(V(V-1)/2+ V・W/f+(W(W-1))/2f²) ...(２１)。

【００８４】辞書に有るワードのルックアップの回数
が、ＭＧＱ内の要素ｆによって少なくなり、ルックアッ
プの実行対象となる２つのテーブルのサイズが小さくな
るので、ＭＧＱにおけるクエリー処理のコストがＢＱに
おけるコストより小さくなるのは明らかである。

【００８５】次に、本発明のランク付け方法について説
明する。クエリー処理段階において、より粗い細分度で
のワードの表現が、関係のない文書を除去するのに用い
られる。しかし、候補となる文書は、それらが２つの条
件、即ち、より粗い細分度レベルにおいて「ｃａｒ」と
「ｄｅａｌｅｒ」を含むという条件を満たすので、同じ
ランクを有する。これは、クエリー処理の結果として好
ましいものではない。従って、ランク付けの段階では、
候補となる文書内にある元のワードがアクセスされ、そ
れがランク付けに使われる。

【００８６】図８では、以下の条件を満たすキーワード
を有する、４つの、候補となる文書が示されている。

【００８７】条件：（Ｓｅｍ１ ∨ Ｆｏｒｄ ∨ Ｂ
ｕｉｃｋ）∧（Ｓｅｍ２ ∨ Ｆｏｒｄ ∨ ＢＵＩＣ
Ｋ）。

【００８８】最初のマッチング・キーワードがランク付
けのために検索される。従って、（「ｃａｒ」、「ｄｅ
ａｌｅｒ」）、（「ａｕｔｏ」、「ｄｅａｌｅｒ」）、
（「ａｕｔｏ」、「ｓａｌｅｓｏｆｆｉｃｅ」）、及
び（「Ｆｏｒｄ」、「ｓｈｏｗｒｏｏｍ」）が、関連性
の程度をランク付けするのに用いられる。

【００８９】候補となる文書は、クエリー内のワードを
有する文書内においてマッチしたワードについての緩和
の程度に基づいてランク付けされる。

【００９０】例えば、緩和の程度は、Ｅ＜Ｓｅ＜Ｓｙ＜
Ｘ（即ち、厳密なマッチング＜意味的緩和＜構文的緩和
＜マッチングなし）の順で定義される。ここで、クエリ
ーのワードに関し、より高いレベルで緩和がされたワー
ドを用いたクエリーの結果は、ユーザに対して、より関
連のないものを含むことになる。しかし、緩和の程度の
順と定義は、アプリケーションの要件によって任意であ
る。候補となる文書を探すのに、より小さな緩和が用い
られるほど、候補となる文書のランクは、より高くな
る。図８の下部に、「ｃａｒ」と「ｄｅａｌｅｒ」とい
うワードを有する文書に最も高いランクが与えられてい
る。これは、候補のワードがクエリーのワードに厳密に
マッチしたからである。「ａｕｔｏ」と「ｄｅａｌｅ
ｒ」というワードを有する文書は２番目に高いランクが
与えられている。これは、クエリーのワード「ｃａｒ」
とマッチさせるため、１つのワードのみに、意味的な緩
和（即ち、クエリーの用語を、意味的に関連する用語と
入れ替える）が必要とされるからである。他のランク付
けに関しては、図８に示すように行われる。

【００９１】ランク付け技法は、以下の２つの基準に基
づいて行われる。

【００９２】・与えられたクエリーＱのキーワードに関
して、Ｑと文書Ｄｏｃ１にあるキーワードＷｏｒｄ１、
Ｄｏｃ２にあるＷｏｒｄ２、Ｄｏｃ３にあるＷｏｒｄ
３、Ｄｏｃ４にあるＷｏｒｄ４との間の関係がそれぞ
れ、厳密なマッチング、意味的なクエリー緩和によるマ
ッチング、構文的なクエリー緩和によるマッチング、及
びマッチングなしである場合、文書は、Ｄｏｃ１＞Ｄｏ
ｃ２＞Ｄｏｃ３＞Ｄｏｃ４の順にランク付けされる。

【００９３】・Ｍ個の文書、Ｄｏｃ_i（ｉ＝
１，．．．，Ｍ）と、文書Ｄｏｃ_iにそれぞれ対応す
る、クエリーにマッチするキーワード数、Ｍａｔｃｈ_i
（ｉ＝１，．．．，Ｍ）に関するランク付け（スコア）
は、Ｍａｔｃｈ₁＞Ｍａｔｃｈ₂＞Ｍａｔｃｈ ₃．．．Ｍ
ａｔｃｈ_M-1＞Ｍａｔｃｈ_Mである場合、Ｄｏｃ₁＞Ｄｏ
ｃ₂＞Ｄｏｃ₃．．．Ｄｏｃ_M-1＞Ｄｏｃ_M０となる。

【００９４】２つのキーワードを備えたクエリーを使用
する、前述したランク付け技法に基づけば、図９に示す
ような、２つのワードを有するクエリーで文書を検索す
る場合の２次元ランク付けグラフが生成される。クエリ
ーの拡張をしないと、スロット（Ｅ，Ｅ）内の文書だけ
が検索される。クエリーの意味的拡張と構文的拡張の両
方を用いると、文書がスロット（Ｘ，Ｘ）にない限り、
関連する全ての文書が検索される。

【００９５】このランク付けグラフは、行列として表さ
れている。Ｎ個の用語を有するクエリーに関して、ラン
ク付けグラフは、Ｎ×４の行列、Ｍ（ｉ，ｊ）（ｉ＝
０．．．Ｎ、ｊ＝０．．．３）によって表される。例え
ば、図９のランク付けグラフは、行列Ｍ（ｉ，ｊ）（ｉ
＝０．．．２、ｊ＝０．．．３）として表されている。
例えば、スロット（Ｅ，Ｅ）、（Ｓｅ，Ｅ）、（Ｓｅ，
Ｓｙ）、及び（Ｘ，Ｘ）は、行列内で、それぞれスロッ
ト（３，３）、（２，３）、（２，１）、及び（０，
０）として表されている。この表現によれば、各文書は
以下のように簡単にランク付けできる。

【００９６】・スロット（ｎ，ｍ）内の文書に対して、
ｍが０から３の間である場合、これらの文書のランク
は、スロット（ｉ，ｊ）（ｉ＝０．．．ｎ、ｊ＝
０．．．３）内の文書より高いスコアになる。

【００９７】・スロット（ｎ１，ｍ１）内の文書のラン
クのスコアは、ｎ１≧ｎ２かつｍ１≧ｍ２である場合、
スロット（ｎ２，ｍ２）内の文書のスコア以上になる。

【００９８】このランク付けグラフの表現は、市販の視
覚化ツールによって実現される。例えば、ＣｏｎｅＴ
ｒｅｅｓと呼ばれる視覚化方法は、３次元のランク付け
表現に関する奥行きを追加することによって変更されう
る。詳細については、１９９３年４月、Communications
of the ACM, Vol. 36, No. 4, ページ57-71の、G. G.
Robertson他による「Information Visualization Using
3D Interactive Animation」を参照のこと。

【００９９】このランク付け技法に基づけば、図９の上
部のスロット内の結果は、下部における結果よりも高い
スコアでランク付けされる。しかし、図９において同じ
クラスに属するスロットの結果をランク付けするのは困
難である。図１０は、そのようなランク付けがどのよう
に行われるかを示している。結果的に示されたスロット
は、更にクラスに分類され、そこで、同じクラスのスロ
ットが同じランクを有するようにされる。

【０１００】本発明によるクエリー処理は、図１０に示
すクラス構造を用いて、クラス毎に連続して行われる。
ユーザが２つのキーワードを持つクエリーを発行し、上
位５０個の結果が検索されるように要求した場合につい
て考える。図１０を参照すると、クエリー・プロセッサ
は最初に、クラス０に検索結果を生成する可能性があ
る。検索結果が５０より多い場合、クエリー・プロセッ
サは、クエリー拡張タスクを実行することなく処理を終
了することができる。クラス０における検索結果の数が
５０に満たない場合、クエリー・プロセッサはクラス１
（例えば、スロット（２，３）及び（３，２））にその
結果を生成することができる。検索結果（例えば、クラ
ス０及びクラス１における）の総数が５０より多い場
合、クエリー・プロセッサは、更にクエリー処理をする
ことなく、処理を終了する。クエリー・プロセッサは、
スロット（２，３）及び（３，２）内の結果も連続的に
生成することができることに注意すべきである。つま
り、クエリー・プロセッサは、スロット（２，３）の結
果を最初に生成することができる。検索結果の総数が５
０を越える場合、クエリー・プロセッサは、スロット
（３，２）内に結果を生成することなく、処理を終了す
ることができる。クエリー・プロセッサは、検索結果の
総数が５０を越えるまで、又は最後のクラスに達するま
で、前述のように、残りのスロット及びクラスから、更
なる結果の生成を続けることができる。

【０１０１】上記の例が、１つのキーワードが他のキー
ワードより重要であるとして、ユーザによって変更され
る場合、クエリー・プロセッサが検索結果のスロットを
検索する順序は、その変更に応じて修正される。例え
ば、ユーザが、キーワード１はキーワード２より重要で
あると指定した場合、クラス内の水平的なクエリー処理
の順序は、図１１に示すように導出される。即ち、この
例では、クエリー・プロセッサが、最初にスロット
（３，２）に検索結果を生成する。次に、検索結果の総
数が５０に満たない場合、クエリー・プロセッサはその
後、スロット（２，３）に結果を生成する。

【０１０２】図１２は、本発明が実行されるシステムの
物理的構成を示している。こうしたシステムは、文書の
集合体を記憶するデータベース１２０６を含んでいる。
このデータベースは、概念（例えば、意味的又は構文的
概念）及び、文書の集合体に対するそれらの関係を記憶
するためのインデックス１２０８を含んでいる。システ
ムは更に、インデックス１２０８を生成し、より上位の
細分度を有する概念と文書の集合体に対するそれらの関
係を含むインデックス１２０８を生成するためのインデ
クサ１２１０を含む。プロセッサ１２０４は、ユーザ・
インタフェース１２０２を介してユーザから指定された
クエリーを受信するのに使用される。プロセッサ１２０
４は、次に、クエリーを処理し、ランク付け機能を実行
する。クエリーの結果とランク付け機能は、ユーザ・イ
ンタフェース１２０２を介して再びユーザに表示され
る。

【０１０３】当業者は、本発明の実施が、図１２で例示
された実施例に限られるものではないことを理解するこ
とができる。実際、当業者は、本発明の範囲から逸脱す
ることなく、他の代替ハードウエア環境を使用して同様
の効果を得ることができる。例えば、上述の、様々な機
能が別個の要素によって実行され（例えば、クエリー処
理とランク付け機能が、別の構成要素で行われる）、又
は単一の要素によって行われる（例えば、単一のプロセ
ッサが、インデックス付け、クエリー処理、及びランク
付け機能を実行する）。

【０１０４】要するに、本発明は、入力された文書に関
するキーワードの組の元の有効性（適合率、及び再現
率）、用語の意味を含む辞書、及びクエリーを保持した
まま、効果的に複数の細分度に亘るインデックス付け
（インデックス領域の節約）と、クエリー処理（処理時
間の節約）を用いてクエリーの拡張を支援するための新
しい技法を提供する。

【０１０５】本発明による複数の細分度に亘るインデッ
クス付け技法とクエリー処理技法によって、クエリーが
単純化されるため、ワードの関連を示すインデックスの
サイズがより小さくなり、クエリーの処理時間が短くな
る。また、本発明のランク付け技法が、文書内に最初か
らあるワードに基づくため、ランク付けの結果に一貫性
が保たれる。

【０１０６】ここまでの開示及び教示から、当業者が、
本発明に対して様々な、他の変更及び修正をすることが
できることは明らかである。従って、本明細書では本発
明のいくつかの実施例についてのみ述べているが、本発
明の意図及び範囲を逸脱することなく、本発明に対して
様々な変更を考えることができる。

【０１０７】

【発明の効果】本発明によれば、ワード・ミスマッチの
問題と、結果的に生じるクエリー処理の非効率さを解決
するために、小さなサイズのインデックスを使用して、
効率的なクエリー拡張が行われる。具体的には、クエリ
ー内に指定されたワードと意味的に類似し、構文的に関
連のあるワードを用いて、そのクエリーを、物理的では
なく概念的に拡張し、結果的に、関連する文書を逃すこ
とを少なくすることができる。

【図面の簡単な説明】

【図１】情報検索に関するワード・ミスマッチの問題を
示す図である。

【図２】厳密なマッチングの情報検索システムで、従来
より使用されているインデックスの例を示す図である。

【図３】従来の情報検索システムで使用するために、ワ
ードを意味的に類似した概念、及び構文的に関連する拡
張にグループ化することによって得られたインデックス
の例を示す図である。

【図４】本発明において、より効率的にクエリー処理を
行うために必要なインデックス構造を示す図である。

【図５】共起ワードのインデックスのエントリをマージ
する処理を示す図である。

【図６】従来の情報検索システムにおけるクエリー拡張
処理を示す図である。

【図７】本発明による、複数の細分度を有するクエリー
拡張技法を用いたクエリー拡張処理を示す図である。

【図８】本発明による、ランク付け処理を示す図であ
る。

【図９】２つのワードを有するクエリーのランク付けを
表す２次元グラフである。

【図１０】連続的なクエリー処理の順序を示す図であ
る。

【図１１】キーワードがあるレベルの重要度に割り当て
られている場合の、連続的なクエリー処理の順序を示す
図である。

【図１２】本発明が実施可能な一実施形態の物理的構成
を示す図である。

【符号の説明】

１２０２ユーザ・インタフェース１２０４プロセッサ１２０６データベース１２０８インデックス１２１０インデクサ

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開平６−44309（ＪＰ，Ａ) 特開平７−262217（ＪＰ，Ａ) 特開平８−255163（ＪＰ，Ａ) 特開平４−96177（ＪＰ，Ａ) 特開平９−120401（ＪＰ，Ａ) 特開平２−189680（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 17/30 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】文書の予備的インデックス、文書内に含
まれるワード、及び前記インデックスと前記ワードとの
間の関係を含み、前記インデックス内のワードが元の細
分度である、文書のデータベースを検索する方法であっ
て、前記方法が、ａ）小さなサイズの、より粗い細分度のインデックスを
生成するために、前記予備的インデックスの中のワード
を、対応する、より上位の概念に置き換えるステップ
と、ｂ）元の細分度を有するクエリーのワードを、対応す
る、より上位の概念に置き換えることによって、文書の
データベースに適用される前記クエリーを論理的に拡張
するステップと、ｃ）より粗い細分度の前記インデックスを用いて、前記
論理的に拡張されたクエリーを実行し、対応する、より
上位の概念に関連する文書を検索するステップとを有す
ることを特徴とする検索方法。
【請求項２】請求項１において、ｄ）関連性の順序に基づいて、検索された文書をランク
付けするステップを、更に含むことを特徴とする検索方
法。
【請求項３】請求項２において、前記ランク付けステ
ップで、検索された文書が、元の細分度を有するクエリ
ーのワードを用いてランク付けされることを特徴とする
検索方法。
【請求項４】請求項３において、関連性の順序は、ク
エリーのワードと検索された文書に含まれるワードが、
厳密にマッチする場合を始めとし、以降、意味的にマッ
チする場合、構文的にマッチする場合、マッチしない場
合の順であることを特徴とする検索方法。
【請求項５】請求項１において、前記置き換えステッ
プで、より上位の概念が、より上位の意味的概念である
ことを特徴とする検索方法。
【請求項６】請求項５において、より上位の意味的概
念のそれぞれが、類義語を含むことを特徴とする検索方
法。
【請求項７】請求項１において、前記置き換えステッ
プで、所定の基準を満たす予備的インデックス内のワー
ドの一部だけが、より上位概念の対応するワードに置き
換えられることを特徴とする検索方法。
【請求項８】請求項７において、前記所定の基準は、
前記ワードが用語辞書にあるかどうかに基づくことを特
徴とする検索方法。
【請求項９】請求項１において、前記置き換えステッ
プで、より上位の前記概念が、より上位の構文的概念で
あることを特徴とする検索方法。
【請求項１０】請求項９において、より上位の前記構
文的概念のそれぞれが、あるレベルの頻度を越えて、文
書内で共に発生するワードを含むことを特徴とする検索
方法。
【請求項１１】請求項１において、論理的にクエリー
を拡張する前記ステップが更に、ｂ）（ｉ）所定の基準を満たす、クエリーのワードのみ
を、より上位の意味的概念を有する、より上位の対応す
る概念に置き換えるステップを有することを特徴とする
検索方法。
【請求項１２】請求項１１において、論理的にクエリ
ーを拡張する前記ステップが更に、ｂ）（ｉｉ）対応する、より上位の前記概念のそれぞれ
に対して、構文的に関連するワードを付加することによ
って、前記クエリーを更に論理的に拡張するステップ
と、ｂ）（ｉｉｉ）前記所定の基準を満たしていない、クエ
リー内のワードのそれぞれに対して、構文的に関連する
ワードを付加することによって、前記クエリーを更に論
理的に拡張するステップとを有することを特徴とする検
索方法。
【請求項１３】請求項１２において、論理的にクエリ
ーを拡張する前記ステップが更に、ａ）（ｉｖ）所定の基準を満たす、構文的に関連する前
記ワードを、関連する、より上位の概念に置き換えるス
テップと、ａ）（ｖ）構文的に関連する前記ワード及び、より上位
の前記概念のうち冗長となる部分を拡張後のクエリーか
ら除去するステップとを有することを特徴とする検索方
法。
【請求項１４】請求項１３において、前記所定の基準
は、前記ワードが用語辞書にあるかどうかに基づくこと
を特徴とする検索方法。
【請求項１５】請求項１において、前記置き換えステ
ップで、前記予備的インデックス内の、複数の意味を持
つワードが、対応する、より上位の複数の概念によって
置き換えられることを特徴とする検索方法。
【請求項１６】請求項１２において、前記所定の基準
を満たさないワードが固有名詞であることを特徴とする
検索方法。
【請求項１７】請求項１において、対応する、より上
位の概念に関連する文書が、所定の数だけ検索されるま
で、前記実行ステップが、連続する段階において続けら
れることを特徴とする検索方法。
【請求項１８】請求項１７において、前記各段階が、
１つの拡張クラスを表すことを特徴とする検索方法。
【請求項１９】請求項１７において、前記各段階が、
１つの拡張クラス内の１スロットを表すことを特徴とす
る検索方法。
【請求項２０】請求項１７において、各段階で、文書
が、少なくともクエリー内の１つのワードに割り当てら
れた重要度のレベルを反映した順序で検索されることを
特徴とする検索方法。
【請求項２１】文書の予備的インデックス、文書内に
含まれるワード、及び前記インデックスと前記ワードと
の間の関係を含み、前記インデックス内のワードが元の
細分度である、文書のデータベースを検索するシステム
であって、前記システムが、ａ）より粗い細分度の小さなサイズのインデックスを生
成するために、前記予備的インデックスの中のワード
を、対応する、より上位の概念に置き換えるインデクサ
と、ｂ）前記文書のデータベースに適用されるクエリーを提
供するためのユーザ・インタフェースと、ｃ）元の細分度を有する、クエリーのワードを、対応す
る、より上位の概念に置き換えることによって、前記ク
エリーを論理的に拡張し、論理的に拡張された前記クエ
リーを、より粗い細分度のインデックスを使用して実行
し、対応する、より上位の概念に関連する文書を検索す
るプロセッサとを有することを特徴とする検索システ
ム。
【請求項２２】請求項２１において、前記プロセッサ
が、関連性の順に、検索された文書をランク付けするこ
とを特徴とする検索システム。
【請求項２３】請求項２２において、前記プロセッサ
が、元の細分度を有する、クエリーのワードを使用し
て、検索された文書をランク付けすることを特徴とする
検索システム。
【請求項２４】請求項２３において、関連性の順序
は、クエリーのワードと検索された文書に含まれるワー
ドが、厳密にマッチする場合を始めとし、以降、意味的
にマッチする場合、構文的にマッチする場合、マッチし
ない場合の順であることを特徴とする検索システム。
【請求項２５】請求項２１において、より上位の前記
概念は、より上位の意味的概念であることを特徴とする
検索システム。
【請求項２６】請求項２５において、より上位の前記
意味的概念のそれぞれが、類義語を含むことを特徴とす
る検索システム。
【請求項２７】請求項２１において、前記インデクサ
が、所定の基準を満たす予備的インデックス内のワード
のみを、対応する、より上位の概念で置き換えることを
特徴とする検索システム。
【請求項２８】請求項２７において、前記所定の基準
は、前記ワードが用語辞書にあるかどうかに基づいてい
ることを特徴とする検索システム。
【請求項２９】請求項２１において、より上位の前記
概念が、より上位の構文的概念であることを特徴とする
検索システム。
【請求項３０】請求項２９において、より上位の前記
構文的概念のそれぞれが、あるレベルの頻度を越えて文
書内に共に発生するワードを含むことを特徴とする検索
システム。
【請求項３１】請求項２１において、前記プロセッサ
が更に、ｃ）（ｉ）所定の基準を満たす、クエリーのワードのみ
を、より上位の意味的概念である、対応する、より上位
の概念に置き換えることによって、論理的にクエリーを
拡張することを特徴とする検索システム。
【請求項３２】請求項３１において、前記プロセッサ
が更に、ｃ）（ｉｉ）対応する、より上位の前記概念のそれぞれ
に対して、構文的に関連するワードを付加し、ｃ）（ｉｉｉ）前記所定の基準を満たしていない、クエ
リー内のワードのそれぞれに対して、構文的に関連する
ワードを付加することによって、前記クエリーを論理的
に拡張することを特徴とする検索システム。
【請求項３３】請求項３２において、前記プロセッサ
が更に、ｃ）（ｉｖ）所定の基準を満たす、構文的に関連する前
記ワードを、関連する、より上位の概念に置き換え、ｃ）（ｖ）構文的に関連する前記ワード及び、より上位
の前記概念のうち冗長となる部分を拡張後のクエリーか
ら除去することによって、前記クエリーを論理的に拡張
することを特徴とする検索システム。
【請求項３４】請求項３３において、前記所定の基準
は、前記ワードが用語辞書にあるかどうかに基づいてい
ることを特徴とする検索システム。
【請求項３５】請求項２１において、複数の意味を有
する、前記予備的インデックス内のワードが、対応す
る、より上位の複数の概念に置き換えられることを特徴
とする検索システム。
【請求項３６】請求項３２において、前記所定の基準
を満たさないワードが固有名詞であることを特徴とする
検索システム。
【請求項３７】請求項２１において、対応する、より
上位の概念に関連する文書が、所定の数だけ検索される
まで、前記クエリーの実行が、連続する段階において続
けられることを特徴とする検索システム。
【請求項３８】請求項３７において、前記各段階が、
１つの拡張クラスを表していることを特徴とする検索シ
ステム。
【請求項３９】請求項３７において、前記各段階は、
１つの拡張クラス内の１スロットを表すことを特徴とす
る検索システム。
【請求項４０】請求項３７において、各段階で、文書
が、少なくともクエリー内の１つのワードに割り当てら
れた重要度のレベルを反映した順序で検索されることを
特徴とする検索システム。