JPH03108064A - 情報検索方法及びシステム - Google Patents

情報検索方法及びシステム

Info

Publication number
JPH03108064A
JPH03108064A JP1242421A JP24242189A JPH03108064A JP H03108064 A JPH03108064 A JP H03108064A JP 1242421 A JP1242421 A JP 1242421A JP 24242189 A JP24242189 A JP 24242189A JP H03108064 A JPH03108064 A JP H03108064A
Authority
JP
Japan
Prior art keywords
search target
access key
file
score value
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP1242421A
Other languages
English (en)
Other versions
JPH0675265B2 (ja
Inventor
Kinichi Mitsui
欽一 三ツ井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP1242421A priority Critical patent/JPH0675265B2/ja
Priority to DE69031772T priority patent/DE69031772T2/de
Priority to EP90309707A priority patent/EP0420424B1/en
Priority to US07/584,305 priority patent/US5263159A/en
Publication of JPH03108064A publication Critical patent/JPH03108064A/ja
Publication of JPH0675265B2 publication Critical patent/JPH0675265B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 A、産業上の利用分野 本発明は、情報検索の分野において、特に検索結果に得
点を与えて順位づけを行う定量的検索を。
時間のかかる外部メモリのアクセス回数を減らすことに
より高速化する方法およびシステムに関する。なお、本
発明の手法は文献検索のようなキーワードに基づいた検
索のみでなく一般の数値量を扱うようなデータベースの
問い合わせを定量化する際の高速化にも有効である。
B、従来の技術 定量的検索とは、情報検索において検索質問を与えたと
きに各検索対象に対して得点を計算し、高得点類に検索
対象を出力するものである。検索対象とは、例えば文献
や特許情報などをさす。また、順序づけを行うのは検索
条件の満たし具合いを定量的に扱うことにより、あいま
いであったり不完全であったりする問い合わせに柔軟に
対処するためである。定量的検索の例を第5図に示す。
ここでは検索対象として文献を例に説明する。各文献に
は検索に使われる索引用語(キーワード)とか発行年度
のような数値量による属性が与えられているとする。い
ま検索条件として、キーワードとしてに1かに2を持ち
発行年C1の値ができるだけ大きいものという条件があ
たえられたとする。文献かに1を含んでいる場合に得点
v1をに2を含んでいる場合に得点v2をまたclの値
に応じてv3を与え総合点をその和とすれば各文献に得
点を与えることができる。
この得点計算を数式で表現すると、vl*に1十v2*
に2+f (C1)となり、ある文献がキーワードに1
、K2を含めばそれぞれ1を、含まなければ0をに1、
K2に代入し、fは例えば発行年が最も最近の場合に1
になり発行年が古くなるほど値が小さくなる関数とすれ
ば得点が計算できる。全ての文献についてこの得点を計
算し順序づければ条件を最も良く満たす文献から順に結
果を出力することができる。
得点の計算式は、このような和を計算するものに限度し
なくても、例えばmax (vl*に1゜v2宰に2)
のように二つの値の大きいほうを選ぶようなものであっ
てもよい。このように検索要求には様々な得点計算方法
が考えられる。
一般に文献検索等における検索対象の数は非常に大きな
ものであり、検索対象の全てを質問ごとにアクセスする
のは大量の外部メモリのアクセスを必要とするので現実
的でない。5alton。
G、らの文献FExtended  Boolian 
 Information   Retrieval、
Communications  ofthe  AC
M、Vol、26  No、12,1983」で紹介さ
れているように、この種の情報検索では高速に検索を行
うために転置ファイルを用いる。この様子を第2図に示
す。転置ファイル(21)はキーワードや数値量を索引
としてそれらの値を持つような検索対象を逆にたどれる
ようにするものである。これに対して元の文献が順序よ
く並べられたファイルを順ファイル(24)と呼ぶ。文
献内容は順ファイルに含まれていてもよいし、順ファイ
ルの外に記憶されていてもよい。
後者の場合には、順ファイル中に文献内容の記憶場所の
情報が含まれる。この転置ファイルを用い。
まず得点を計算するのに必要なキーワードや数値量を一
つでも持つ文献識別子を全て求める。これは、各キーワ
ードや数値量に対する文献識別子の集合の和をとること
で得られる(22)、得られた各文献識別子について順
ファイルにアクセスしキーワードの集合を得、得点を計
算して順序づけて出力する(23)、このように転置フ
ァイルを用いると、一般に全ての文献にアクセスし得点
を計算する必要がなくなるのでより高速に検索ができる
。転置ファイルも外部記憶のアクセスを必要とするが、
同じ索引をもつ情報が物理的に近くに記憶されており、
索引を通して少ないアクセス回数で必要な内容を取り出
すことができる。
C0発明が解決しようとする問題点 情報検索においては、J@ファイルも転置ファイルも非
常に大きくなるので、外部記憶に保存され検索条件の判
定や得点の計算などの光めにその一部が内部記憶に移さ
れる。外部記憶のアクセスには比較的長い時間を要する
ので検索の速度を高めるにはできるだけ外部記憶のアク
セスをしないほうが良い、上述した従来の方法では、最
初に転置ファイルにより関連する検索対象を絞ることで
外部記憶のアクセスを減らした。しかし、定量的検索で
は一般に高得点の対象を出力することが要求され得点の
低いものは不要である。このことを考慮したとき、上述
の方法は順ファイル中の順位の低い対象へアクセスして
いるがこれは不要である。
また、数値量の場合多くの対象が得点に関係する場合が
あり、関係するものをすべてアクセスすると絞り込みの
効果がすくなくなる。そのための工夫が必要である。
本発明の目的は、より外部ファイルへのアクセスを減ら
す定量的検索のための方法およびシステムをあたえるこ
とである。
D0問題点を解決する手段 問題点を解決する手段は次の4点にまとめることができ
る。
(1)転置ファイルのみの情報により順位づけを行う。
(2)転置ファイルのなかでも、より順位づけに有効な
部分からアクセスを行い、不要な部分にはできるだけア
クセスしない。
(3)数値量に関しても転置ファイルと同様の構造を考
え順位付けに不要な部分にはできるだけアクセスしない
(4)順位づけの条件を緩め、完全な順位づけをしない
かわりに、転置ファイルのアクセスを減らす6E、実施
例 (1)基本アルゴリズム ここでは本発明について第1図の例を用いて説明する。
順ファイルには文献識別子に対する付属するキーワード
の集合が記憶される。転置ファイルには、キーワードと
そのキーワードを含む文献識別子の集合が記憶される(
11)。まず問い合わせが与えられ得点の計算に関係あ
るキーワードが得られる。問い合わせの入力は適宜端末
装置を通じて行えばよい。問い合わせを1.O*に1+
0.6*に2+0.3*に3とすると関係あるキーワー
ドはK1.に2、K3である。外部記憶にある転置ファ
イルにアクセスし主記憶上に転置表を作成する(12)
。この転置表は転置ファイルの一部になっていることが
わかる。この転置表の行と列を入れ換えると類火(13
)ができる。これは外部記憶の順ファイルのうち得点計
算に必要な部分になっていることがわかる。類火のそれ
ぞれの行について得点を計算することができる。得点の
高いものから順ファイル(15)にアクセスしその文献
内容を取り出し検索が完了する。従来の方式では、主記
憶上で転置表の行と列を入れ換える操作は行わず、転置
表の各行の和集合により関連する文献識別子を求めてか
ら順ファイルにアクセスしそれぞれの文献のキーワード
を新たに取り出し得点をもとめているので得点の低い文
献についても順ファイルのアクセスをともなう。上位n
位までのように高得点のもののみ検索すれば十分な場合
、従来の方法は余分な外部記憶のアクセスをしている。
本発明法と従来法による外部記憶装置へのアクセスを、
第1図と第2図の場合について比較してみよう6 ■、第1図の本発明法の場合 (1)転置ファイルへのアクセス。
キーワードに1、K2、K3について転置ファイルへの
アクセスが行われる。
(2)順ファイルへのアクセス。
文献識別子D1とD2について順ファイルへのアクセス
が行われる。
■、第2図の従来法の場合 (1)転置ファイルへのアクセス。
キーワードに1、K2、K3について転置ファイルへの
アクセスが行われる。
(2)順ファイルへのアクセス。
文献識別子D1、D2、D3について順ファイルへのア
クセスが行われる。
IとHを比較してわかるように、本発明によれば文献識
別子D3について順ファイルへアクセスしないですむの
で、その分アクセス時間が減少することが理解できよう
。次に、本発明法と従来法のそれぞれについて、外部記
憶装置のアクセスに要する時間を一般的に評価してみる
。まず、次のような定義をする。
N qkey    間合せに使われたキーワードの数
N keydoc   転置ファイル上での一つのキー
ワードに対する平均文献識別子数 N related  問合せに関するキーワードを少
なくともひとつ含む関連文献数 N output   要求された出力文献の数T i
nv     転置ファイルのルーコードを取り出すの
に必要な平均時間 T trans   転置表の転置表をつくるのに要す
る時間 T union   各キーワードに対する文献識別子
の集合の和集合を求める時間 T seq    順ファイルのルーコードを取り出す
のに必要な平均時間 T query   問合せ関数値の平均的計算時間T
 5ort    問合せ関数値のソーティングに必要
な時間 本発明の手法で必要とする時間は、 TinvX Nqkey+ Ttrans+ Tque
ryX Nrelated+T 5ort + T s
eq X N outputである。ここで、第一項は
、転置ファイルのアクセスに必要な時間、第二項は転置
表の転置表を作るだめの時間、第三項は間合せ関数値の
計算に必要な時間、第四項はソーティングに必要な時間
、第五項は上位定数個について順ファイルのアクセスに
要する時間である。
これに対して、従来の方式で必要とする時間は、Tin
vX Nqkey+ Tunion+ TseqX N
related+TqueryX Nrelated+
Tsortである。ここで、本発明の方法のものと違う
のは、第二項が関連する文献を和集合により求める時間
、第三項が関連文献について順ファイルをアクセスする
のに要する時間である。という点である。
後者の方式の所要時間から前者の方式の所要時間を引く
と、 (Tunion−Ttrans) +TseqX  (
Nrelated −Noutput) となる。(T union −T trans )の部
分は、後者の方式が単純な和集合の計算であるのに対し
て、本発明の方法は、転置表を転置する操作なのでTt
ransのほうが少し大きな値をとる。しかし、これら
の操作はハツシュ技法を用いることができるし、計算は
主記憶上で行われるので、比較的高速な処理ができる。
従って、第一項はそれほど大きな値は取らない。これに
対して、T seqは、ディスクアクセスに要する平均
時間であった。これは、システムに依存する値であり、
一般値は議論しにくいが、主記憶上の計算に比べるとか
なり遅いのが普通である。従って、関連する文献より出
力すべき文献の数が少なければすくないほと、本発明の
方式が有効であることがわかる。
−回のディスクアクセスに要する時間は、例えば、中大
型機の場合で平均数m s e cから数十m5ec程
度かかる。これに対して、主記憶での計算の部分をLi
5pによりプログラミングして実験した結果によると、
−検素対象あたり1ms ec以下であった。Li5p
は、非常に関数呼出しが多い等、通常のプログラミング
言語に比べて処理速度は遅い。従って、一般に、通常の
手続き型言語を用いて同じ計算を行なった場合、さらに
−桁はど高速になると期待される。また、大型機では、
ディスクアクセスの高速化が非常に工夫されているが、
ひり低レベルの機種では、主記憶上での計算とディスク
アクセスとのギャップは更に高いと考えられる。
以上、結論としていえることは、本発明の方法は、順フ
ァイルについて本当に出力に必要な部分のみアクセスす
るような工夫をして高速化をはかっているので、演算速
度に対してディスクアクセスが非常に遅い状況で、関連
文献のうち出力すべきものが少数であるような場合に従
来方法よりも有効であるということである。
T transとT unionの計算のオーダーにつ
いて。
簡単にふれておく。転置表の転置は、まず、文献識別子
をキーとするハツシュ表を作成しておき、転置ファイル
から集められたそれぞれの文献識別子について、対応す
るキーワードをハツシュ表の対応する場所に追加してい
けばよい。あるキーワードを含む文献の平均数が一定個
であることを仮定すると、この計算は、キーワードの数
に対して線型オーダーである。また、関連文献を和集合
で求める部分も同じようにして線型オーダーで計算でき
る。文献の数に対しては、文献の数が増えると、あるキ
ーワードを含む文献の数が線型オーダーで増える。上の
議論より9文献の数に対しても線型オーダーであること
がわかる。これらより、上で比較した両方式とも、問合
せの長さやデータベースの大きさに対して、T tra
nsとT unionの計算量が線型オーダーで押えら
れるという良い性質を持っていることがわかる。
なお、従来方式では、順ファイルに文献識別子と当該文
献に含まれるキーワードの対照表が含まれている必要が
あるけれども、この基本アルゴリズムではそのような表
は必須ではない。
(2)改良アルゴリズム 上で述べた方法を基本とし、更に転置ファイルのアクセ
スの回数を減らすための改良について述べる。この様子
を第3図に示す。得点の計算に関係のあるキーワードを
もとに転置ファイルをアクセスする際に、最も順位に影
響を与えるキーワードから先にアクセスするようにする
。第3図の例ではに1の重みが最も大きく、このキーワ
ードを含む文献と含まない文献では大きな差がでる。K
1について転置ファイル(31)をアクセスし主記憶上
に転置表を作る(32)。さらに行と列を入れ換える(
33)。ここで各文献について得点の最小確定値と最大
期待値を求めることができる。
最小確定値は、ここまでで調べたキーワードのみから計
算される得点の下限であり、最大期待値は残りのキーワ
ードが間合せ条件を全て満たしているとしたときの得点
の上限である。第3図のDxは残りの文献全てを代表す
るものである。この時点で最小確定値の順に仮の順位を
つける。もしも最終結果は第2位までで十分であるとす
ると、第3位以下の最大期待値が第2位の最小確定値よ
り小さいので第3位以下の文献は残りのキーワードを調
べなくても順位は2位より上がらないことがわかる。こ
こで2位までの文献を順ファイルにアクセスしキーワー
ドを調べて正確な得点を調べればよい。したがって、本
発明の基本アルゴリズムによったならば、キーワードに
1、K2、K3について転置ファイルへのアクセスを要
したところ、この改良アルゴリズムによればキーワード
に1についてだけ転置ファイルへアクセスすればよいの
で、アクセス時間が短縮される。
もしもこの例で上位第1位までという条件なら第2位の
最大期待値が第1位の最小確定値よりも大きいので別の
キーワードを調べなければ第1位は決定できない。次に
調べるキーワードを選ぶ場合、第n位の最小確定値を最
も増やすか第(n+1)位以下の最大期待値を最も減ら
すものを選ぶ。
例の場合に2が選ばれ(34)、再度得点が計算される
(35)。ここで第1位の最小確定値が第2位の最大期
待値を上回ったので、その文献識別子(36)について
順ファイルをアクセスし検索を終了する。この方式では
問い合わせに含まれる全てのキーワードに関して転置フ
ァイルをアクセスする必要が必ずしもないので、高速化
に効果がある。
さて、第3図の例では、問い合わせがアクセス・キーの
線型結合として表現されており、したがって問い合わせ
得点値(確実値)が第(n+1)位の文献の得点期待値
のみを考慮すれば、第n位までの文献を確定することが
できた。しかしながら、問い合わせがmaxやminと
いった計算を含んでいたり、数量値属性を持つアクセス
・キーを含んでいたりするときには、確実値第(n+1
)位の文献の期待値よりも、確実値第(n+2)位以降
の文献の期待値の方が大きくなる可能性がある。
そこで、このような場合を考慮した処理手順を形式的に
記述しておく。
1、最初に、最も順位に差をつけるようなキーワードを
選び、転置ファイルにアクセスし、そのキーワードを含
む文献識別子の集合を主記憶に取り込む。キーワードの
選び方は、そのキーワードを含む文献と含まない文献の
得点差が最も大きくなるようなものを選ぶ。
2、主記憶中に類火に新しく取り込まれた情報を加え、
類火中の文献の得点(最小確定値)を(再)計算し順位
をつける。このときの検索された文献の数がnに満たな
い場合は次のキーワードについてこの1.2.の手続き
を繰り返す。順位の並べ換えは、毎回全部の文献の並べ
換えをしなくても、変更のあった文献のみ得点を再計算
して入れ替えればよい。これはバランス木のようなデー
タ構造の工夫により可能である。
3、初めて文献の数がnを越えたとき、最下位としてこ
れまでのキーワードを全て含まないような仮想的な文献
を表に加えておく。当然このような文献が最も確定値が
低い。
4、最下位を第(n+s)位としよう。第(n+S)位
の文献が今後理想的にキーワードを含んでいた場合の得
点の最大期待値が計算できる。もし第(n+s)位の最
大期待値が第n位の最小確定値に満たない場合は第(n
+s)位の文献は、もっというと第(n+s)位以下の
文献は第n位以上にはなりえないことがわかる。ここで
第(n+S)位の情報を類火から削除し、第(n+5−
1)位の文献を新しく最下位とする。
5、もし最下位が第n位に一致していればここで第n位
までが確定したことになるので手続きを止める。そうで
なければ最下位の繰り上がりがなくなるまで4.5.の
手続きを繰り返す。
6、第n位までが確定しなかった場合は、次のキーワー
ドを選んで転置ファイルを調べる。すなわち、1.の手
続きから繰り返す。このとき最下位の文献が2.で想定
した仮想的な文献でなければ、すなわち途中でこの仮想
的な文献が削除されたあとでは、既に類火中にないよう
な文献が新しく検索されてもそれは無視してよい。なぜ
なら、これらは既に第n位以上になりえないことが確定
しているからである。次のキーワードの選び方は、それ
が含まれているとき第n位の最小確定値を最も上げるも
のか、またはそれが含まれていないとき第(n+s)位
の最大期待値を最も下げるものを選ぶようにする。
この方式の利点としては、第n位の最小確定値と第(n
+1)位以下の最大期待値の比較を、将来第n位以上に
なりうる限界としての最下位を考えることにより、効率
的に行っていることがあげられる。丁度、将来第n位以
上になりうる限界点が次第にせり上がっていきその時点
の第n位と重なった時に手続きをやめるようなものであ
る。類火中の第(n+1)位以下の全ての文献について
最大期待値を求める必要はない。また、最下位をせり上
げる時に元の最下位の文献の情報を削除し、最下位がせ
り上がり始めて以降新しく検索される文献を無視するこ
とにより、不必要な情報を類火中に残さないことも効率
上有利である。
(3)数値属性の扱い 次に発行年のような数値量属性を定量検索に利用すると
きの方法について述べる。この様子を第4図にしめす。
数値属性に関する得点を計算する場合には属性値に対し
て適当な得点を与える関数を決めておけばよい(48)
。前述の例ではf(C1)のように記述した。ここでこ
の関数は属性値の変化に対して単調に変化するものでな
ければならない。例えば、属性値が大きいほど得点が高
いもの、属性値がある値に近いほど得点が高いものなど
である。
数値属性に関しても、キーワードの場合と同様に属性値
から逆にもとの検索対象を対応づける転置ファイルを作
成することができる。第4図ではに3が発行年を表す数
値属性である(41)、転置ファイル上で検索対象が、
属性値の昇順あるいは降順に並べられており、昇順ある
いは降順に高速にアクセスできるものとする。これはB
−木のような既存の技術を使って実現できる。
さて、一般に数値属性を検索条件に使う場合。
得点に影響する値の範囲は広範囲におよび、転置ファイ
ル上の得点に影響する値の範囲全てにアクセスするのは
やはり多くの外部記憶のアクセスを必要とする。高得点
のもののみの出力が必要とされる場合には、数値属性の
レコードに関しては高得点を与える部分のみアクセスす
れば十分である可能性がある。数値属性のアクセス・キ
ーに関しては検索対象識別子が予め属性順にソートされ
ている転置ファイルを用いることにより高得点を得られ
る部分から外部記憶にアクセスしく2)で説明した方式
と同様に最小確定値および最大期待値を計算しながら高
順位が確定した時点で検索を終了すればよい。
これまで説明してきたアルゴリズムでは、キーを一度使
うとそれは二度と使われなかったが、数値属性のキーを
扱う場合に、転置ファイルに関数値が0以上になる、ま
だアクセスしていない文献識別子が残っている限り、キ
ーを再使用する可能性がある。但し、キーを使用した後
で、当該キーから期待される最大の重みは、残された文
献の関数値の最大期待値に更新される。したがって、そ
の値によっては、つぎのキーとして、別のキーが使用さ
れる可能性がある。
例を用いて説明する。第4図の例では、問い合わせ式の
3つの項の中で最大値をとりうるのは0゜5に3なので
1発行年(F3)が得点に最も影響を与えるものとして
選ばれる。得点は最近の文献はど高いとする。転置ファ
イルに1回アクセスすると得点の高い文献識別子が幾つ
か得られる(42)。(2)の方法と同様に主記憶に類
火を作成し、最小確定値と最大期待値を計算する(43
)。第n位までが確定しなければ、発行年も含めて次に
調べるキーワードや属性を選び同様の手続きを繰り返す
(44,45)。なお最大期待値を計算する場合、数値
量に関する以降の得点はそれまでの得点よりも必ず低く
なることを利用する。例えば、(45)のDxの期待値
は、発行年に関して最大0.5X0.5=0.25が期
待でき、F2を含むとすると0.2が加算され全体で最
大0.45までの得点であることになる。このようにし
て転置ファイルに関してより得点に影響を与える部分か
らアクセスすることにより不要な転置ファイルのアクセ
スを避けることができる。
また、この方式は数値属性のための工夫として説明した
が、キーワード属性でも個々の検索対象が含むキーワー
ドに得点の重みが付けられている場合、例えばキーワー
ドKxは文献D1では1゜0の重みを持つが文献D2で
は0.5の重みしか持たないといった場合に、転置ファ
イル上で各キーワードに対する検索対象の識別子をあら
かじめ重み順に並べておけば、ここでの議論が全く同様
に使えることに注意されたい。
(4)緩い順位付けで更に外部記憶のアクセスを減らす
方法 (2)および(3)の説明では、転置ファイルのアクセ
スを停止するか続行するかの判断において、第n位の最
小確定値と第n+1位以降の最大期待値を比較した。こ
れに対して、第n位の最小確定値と第n+m位(m≧2
)以下の最大期待値の比較によって上記判断を行うなら
、第n位と第(n+m)位以下との差は第n位と第(n
+1)位以下との差より大きいことが期待できるので早
く順位の決定が完了する可能性がある。具体的な処理手
順としては、最下位が第(n+m)位と一致した時点で
手続きを止める点を除いて、”(2)改良アルゴリズム
″のセクションで述べた手順1゜〜6.と同様のものを
採用すればよい。
ただし、このときの順位の意味は、第n位までが手続終
了時点での第(n十m)位以内に入っていることがいえ
るのみである。逆にその時点での第(n+m)位以内、
もっと言えば第n位以内には最終的に第(n十m)位以
下になるものも含まれている可能性がある。このように
して確定した第(n+m)位以内の文献の中から真に第
n位以内の文献を見つけるためには、第(n +m)位
以内の文献について順ファイルにアクセスし、従来方法
のようにして厳密に得点を計算してもよいし、あるいは
文献内容を出力してしまって人間が選択してもよい。
極端な例としてはmを検索対象の総数とすると検索条件
を調べなくても第n位までが第n位までに含まれている
ことが言える。このように大きなmをとることは余計な
結果が多く含まれるので意味がないが、適当な大きさの
mを考えると一般には第n位までがより早く見つかる。
本来、定量的検索は曖昧な問い合オ)せを処理するもの
であった。このことを考えると得点の高い検索対象があ
る程度までしぼり込まれた段階で検索処理を終了し結果
を出力するのは検索の高速化が得られるならば妥当な方
針であると考えられる。
F2発明の詳細 な説明したように本発明は、 定量検索での得点計算において転置ファイルのみを用い
て得点計算を行ない、また得点の期待値により転置ファ
イルの必要な部分のみをアクセスするような機構により
順ファイルおよび転置ファイルのアクセスを必要最低限
におさえることにより検索処理速度が向上するという効
果がある。
【図面の簡単な説明】
第1図は本発明の基本的な動作を示す説明図、第2図は
従来の技術における方式の説明図、第3図は本発明の要
点の2番目の改良アルゴリズムの例を示す説明図、第4
図は本発明の要点の3番目の数値量属性を含む場合の例
を示す説明図、第5図は定量的検索を説明する概念図で
ある。

Claims (16)

    【特許請求の範囲】
  1. (1)検索対象識別子を入力して当該検索対象に関する
    データを出力するための、外部記憶装置に保持される順
    ファイルと、アクセス・キーを入力して当該アクセス・
    キーを含む検索対象識別子の集合を出力するための、外
    部記憶装置に保持される転置ファイルと、重み付係数を
    与えたアクセス・キーの組合せとして表現される問い合
    わせと検索対象の出力数nを指定するための問い合わせ
    入力装置とを用いる情報検索方法であって、 問い合わせの入力に応答して、転置ファイルにアクセス
    し、入力された問い合わせに含まれるアクセス・キーに
    関連する転置ファイル中のデータを主記憶装置に複写す
    るステップと、 複写された転置ファイルのデータと入力された問い合わ
    せの内容に基づいて、検索対象毎に問い合わせ得点値を
    計算するステップと、 問い合わせ得点値の上位のものから順に上記n個の検索
    対象を確定するステップと、 上記n個の検索対象の識別子に基づいて上記順ファイル
    をアクセスするステップ を有する情報検索方法。
  2. (2)検索対象識別子を入力して当該検索対象に関する
    データを出力するための、外部記憶装置に保持される順
    ファイルと、アクセス・キーを入力して当該アクセス・
    キーを含む検索対象識別子の集合を出力するための、外
    部記憶装置に保持される転置ファイルと、重み付係数を
    与えたアクセス・キーの組合せとして表現される問い合
    わせと検索対象の出力数nを指定するための問い合わせ
    入力装置とを用いる情報検索方法であって、 問い合わせの入力に応答して、転置ファイルにアクセス
    し、入力された問い合わせに含まれるすべてのアクセス
    ・キーに関連する転置ファイル中のデータを主記憶装置
    に複写して、転置ファイルの一部を成す転置表を作成す
    るステップと、転置表の行と列を入れ替えて主記憶装置
    中に順表を作成するステップと、 順表のデータと入力された問い合わせの内容に基づいて
    、検索対象毎に問い合わせ得点値を計算するステップと
    、 問い合わせ得点値の上位のものから順に上記n個の検索
    対象を確定するステップと、 上記n個の検索対象の識別子に基づいて上記順ファイル
    をアクセスするステップ を有する情報検索方法。
  3. (3)検索対象識別子を入力して当該検索対象に関する
    データを出力するための、外部記憶装置に保持される順
    ファイルと、アクセス・キーを入力して当該アクセス・
    キーを含む検索対象識別子の集合を出力するための、外
    部記憶装置に保持される転置ファイルと、重み付係数を
    与えたアクセス・キーの組合せとして表現される問い合
    わせと検索対象の出力数nを指定するための問い合わせ
    入力装置とを用いる情報検索方法であって、 入力された問い合わせを分析し、与えられた重み付係数
    の大きさに基づいて問い合わせ中のアクセス・キーを選
    択するステップと、 アクセス・キーの選択に応答して、転置ファイルにアク
    セスして選択されたアクセス・キーに関するデータを主
    記憶装置に複写するステップと、転置ファイルのデータ
    の複写に応答して、新しく複写されたものも含めて主記
    憶装置に複写されている転置ファイルのデータと入力さ
    れた問い合わせの内容に基づいて、検索対象毎に問い合
    わせ得点値と得点期待値を計算するステップと、第n位
    の問い合わせ得点値と第(n+1)位以下の問い合わせ
    得点値を持つ検索対象の得点期待値を比較し、前者が後
    者を上回る時に、アクセス・キーの選択を中止するステ
    ップと、 問い合わせ得点値が第n位までの検索対象の識別子に基
    づいて、上記順ファイルをアクセスするステップ を有する情報検索方法。
  4. (4)検索対象識別子を入力して当該検索対象に関する
    データを出力するための、外部記憶装置に保持される順
    ファイルと、アクセス・キーを入力して当該アクセス・
    キーを含む検索対象識別子の集合を出力するための、外
    部記憶装置に保持される転置ファイルと、重み付係数を
    与えたアクセス・キーの組合せとして表現される問い合
    わせと検索対象の出力数nを指定するための問い合わせ
    入力装置とを用いる情報検索方法において、 アクセス・キーの中には、検索対象によって重みの異な
    るアクセス・キーが含まれており、入力された問い合わ
    せを分析し、アクセス・キーの重みと当該アクセス・キ
    ーに与えられた重み付係数の積の大きさに基づいて、問
    い合わせ中のアクセス・キーを選択するステップと、 アクセス・キーの選択に応答して、転置ファイルにアク
    セスして選択されたアクセス・キーに関するデータを主
    記憶装置に複写するステップと、転置ファイルのデータ
    の複写に応答して、新しく複写されたものも含めて主記
    憶装置に複写されている転置ファイルのデータと入力さ
    れた問い合わせの内容に基づいて、検索対象毎に問い合
    わせ得点値と得点期待値を計算するステップと、第n位
    の問い合わせ得点値と第(n+1)位以下の問い合わせ
    得点値を持つ検索対象の得点期待値を比較し、前者が後
    者を上回る時に、アクセス・キーの選択を中止するステ
    ップと、 問い合わせ得点値が第n位までの検索対象の識別子に基
    づいて、上記順ファイルをアクセスするステップ を有する情報検索方法。
  5. (5)検索対象によって重みの異なるアクセス・キーに
    関しては、転置ファイル上で検索対象識別子が当該アク
    セス・キーに与えられた重み順に予め並べられているこ
    とを特徴とする特許請求の範囲第4項記載の情報検索方
    法。
  6. (6)検索対象識別子を入力して当該検索対象に関する
    データを出力するための、外部記憶装置に保持される順
    ファイルと、アクセス・キーを入力して当該アクセス・
    キーを含む検索対象識別子の集合を出力するための、外
    部記憶装置に保持される転置ファイルと、重み付係数を
    与えたアクセス・キーの組合せとして表現される問い合
    わせと検索対象の出力希望数nを指定するための問い合
    わせ入力装置とを用いる情報検索方法であって、入力さ
    れた問い合わせを分析し、与えられた重み付係数の大き
    さに基づいて、問い合わせ中のアクセス・キーを選択す
    るステップと、 アクセス・キーの選択に応答して、転置ファイルにアク
    セスして選択されたアクセス・キーに関するデータを主
    記憶装置に複写するステップと、転置ファイルのデータ
    の複写に応答して、新しく複写されたものも含めて主記
    憶装置に複写されている転置ファイルのデータと入力さ
    れた問い合わせの内容に基づいて、検索対象毎に問い合
    わせ得点値と得点期待値を計算するステップと、第n位
    の問い合わせ得点値と第(n+m)位以下の問い合わせ
    得点値を持つ検索対象の得点期待値を比較し、前者が後
    者を上回る時に、アクセス・キーの選択を中止するステ
    ップと(mは2以上の整数)、 問い合わせ得点値が第(n+m)位までの検索対象の識
    別子に基づいて、上記順ファイルをアクセスするステッ
    プ を有する情報検索方法。
  7. (7)検索対象識別子を入力して当該検索対象に関する
    データを出力するための、外部記憶装置に保持される順
    ファイルと、アクセス・キーを入力して当該アクセス・
    キーを含む検索対象識別子の集合を出力するための、外
    部記憶装置に保持される転置ファイルと、重み付係数を
    与えたアクセス・キーの組合せとして表現される問い合
    わせと検索対象の出力希望数nを指定するための問い合
    わせ入力装置とを用いる情報検索方法において、アクセ
    ス・キーの中には、検索対象によって重みの異なるアク
    セス・キーが含まれており、入力された問い合わせを分
    析し、アクセス・キーの重みと当該アクセス・キーに与
    えられた重み付係数の積の大きさに基づいて、問い合わ
    せ中のアクセス・キーを選択するステップと、 アクセス・キーの選択に応答して、転置ファイルにアク
    セスして選択されたアクセス・キーに関するデータを主
    記憶装置に複写するステップと、転置ファイルのデータ
    の複写に応答して、新しく複写されたものも含めて主記
    憶装置に複写されている転置ファイルのデータと入力さ
    れた問い合わせの内容に基づいて、検索対象毎に問い合
    わせ得点値と得点期待値を計算するステップと、第n位
    の問い合わせ得点値と第(n+m)位以下の問い合わせ
    得点値を持つ検索対象の得点期待値を比較し、前者が後
    者を上回る時に、アクセス・キーの選択を中止するステ
    ップと(mは2以上の整数)、 問い合わせ得点値が第(n+m)位までの検索対象の識
    別子に基づいて、上記順ファイルをアクセスするステッ
    プ を有する情報検索方法。
  8. (8)検索対象によって重みの異なるアクセス・キーに
    関しては、転置ファイル上で検索対象識別子が当該アク
    セス・キーに与えられた重み順に予め並べられているこ
    とを特徴とする特許請求の範囲第7項記載の情報検索方
    法。
  9. (9)検索対象識別子を入力して当該検索対象に関する
    データを出力するための、外部記憶装置に保持される順
    ファイルと、アクセス・キーを入力して当該アクセス・
    キーを含む検索対象識別子の集合を出力するための、外
    部記憶装置に保持される転置ファイルと、重み付係数を
    与えたアクセス・キーの組合せとして表現される問い合
    わせと検索対象の出力数nを指定するための問い合わせ
    入力装置とを具備する情報検索システムであって、問い
    合わせの入力に応答して、転置ファイルにアクセスし、
    入力された問い合わせに含まれるアクセス・キーに関連
    する転置ファイル中のデータを主記憶装置に複写する手
    段と、 複写された転置ファイルのデータと入力された問い合わ
    せの内容に基づいて、検索対象毎に問い合わせ得点値を
    計算する手段と、 問い合わせ得点値の上位のものから順に上記n個の検索
    対象を確定する手段と、 上記n個の検索対象の識別子に基づいて上記順ファイル
    をアクセスする手段 を有する情報検索システム。
  10. (10)検索対象識別子を入力して当該検索対象に関す
    るデータを出力するための、外部記憶装置に保持される
    順ファイルと、アクセス・キーを入力して当該アクセス
    ・キーを含む検索対象識別子の集合を出力するための、
    外部記憶装置に保持される転置ファイルと、重み付係数
    を与えたアクセス・キーの組合せとして表現される問い
    合わせと検索対象の出力数nを指定するための問い合わ
    せ入力装置とを具備する情報検索システムであって、問
    い合わせの入力に応答して、転置ファイルにアクセスし
    、入力された問い合わせに含まれるすべてのアクセス・
    キーに関連する転置ファイル中のデータを主記憶装置に
    複写して、転置ファイルの一部を成す転置表を作成する
    手段と、 転置表の行と列を入れ替えて主記憶装置中に順表を作成
    する手段と、 順表のデータと入力された問い合わせの内容に基づいて
    、検索対象毎に問い合わせ得点値を計算する手段と、 問い合わせ得点値の上位のものから順に上記n個の検索
    対象を確定する手段と、 上記n個の検索対象の識別子に基づいて上記順ファイル
    をアクセスする手段 を有する情報検索システム。
  11. (11)検索対象識別子を入力して当該検索対象に関す
    るデータを出力するための、外部記憶装置に保持される
    順ファイルと、アクセス・キーを入力して当該アクセス
    ・キーを含む検索対象識別子の集合を出力するための、
    外部記憶装置に保持される転置ファイルと、重み付係数
    を与えたアクセス・キーの組合せとして表現される問い
    合わせと検索対象の出力数nを指定するための問い合わ
    せ入力装置とを具備する情報検索システムであって、入
    力された問い合わせを分析し、与えられた重み付係数の
    大きさに基づいて問い合わせ中のアクセス・キーを選択
    する手段と、 アクセス・キーの選択に応答して、転置ファイルにアク
    セスして選択されたアクセス・キーに関するデータを主
    記憶装置に複写する手段と、転置ファイルのデータの複
    写に応答して、新しく複写されたものも含めて主記憶装
    置に複写されている転置ファイルのデータと入力された
    問い合わせの内容に基づいて、検索対象毎に問い合わせ
    得点値と得点期待値を計算する手段と、 第n位の問い合わせ得点値と第(n+1)位以下の問い
    合わせ得点値を持つ検索対象の得点期待値を比較し、前
    者が後者を上回る時に、アクセス・キーの選択を中止す
    る手段と、問い合わせ得点値が第n位までの検索対象の
    識別子に基づいて、上記順ファイルをアクセスする手段 を有する情報検索システム。
  12. (12)検索対象識別子を入力して当該検索対象に関す
    るデータを出力するための、外部記憶装置に保持される
    順ファイルと、アクセス・キーを入力して当該アクセス
    ・キーを含む検索対象識別子の集合を出力するための、
    外部記憶装置に保持される転置ファイルと、重み付係数
    を与えたアクセス・キーの組合せとして表現される問い
    合わせと検索対象の出力数nを指定するための問い合わ
    せ入力装置とを具備する情報検索システムにおいて、ア
    クセス・キーの中には、検索対象によって重みの異なる
    アクセス・キーが含まれており、入力された問い合わせ
    を分析し、アクセス・キーの重みと当該アクセス・キー
    に与えられた重み付係数の積の大きさに基づいて、問い
    合わせ中のアクセス・キーを選択する手段と、 アクセス・キーの選択に応答して、転置ファイルにアク
    セスして選択されたアクセス・キーに関するデータを主
    記憶装置に複写する手段と、転置ファイルのデータの複
    写に応答して、新しく複写されたものも含めて主記憶装
    置に複写されている転置ファイルのデータと入力された
    問い合わせの内容に基づいて、検索対象毎に問い合わせ
    得点値と得点期待値を計算する手段と、 第n位の問い合わせ得点値と第(n+1)位以下の問い
    合わせ得点値を持つ検索対象の得点期待値を比較し、前
    者が後者を上回る時に、アクセス・キーの選択を中止す
    る手段と、問い合わせ得点値が第n位までの検索対象の
    識別子に基づいて、上記順ファイルをアクセスする手段 を有する情報検索システム。
  13. (13)検索対象によって重みの異なるアクセス・キー
    に関しては、転置ファイル上で検索対象識別子が当該ア
    クセス・キーに与えられた重み順に予め並べられている
    ことを特徴とする特許請求の範囲第12項記載の情報検
    索システム。
  14. (14)検索対象識別子を入力して当該検索対象に関す
    るデータを出力するための、外部記憶装置に保持される
    順ファイルと、アクセス・キーを入力して当該アクセス
    ・キーを含む検索対象識別子の集合を出力するための、
    外部記憶装置に保持される転置ファイルと、重み付係数
    を与えたアクセス・キーの組合せとして表現される問い
    合わせと検索対象の出力希望数nを指定するための問い
    合わせ入力装置とを具備する情報検索システムであって
    、入力された問い合わせを分析し、与えられた重み付係
    数の大きさに基づいて、問い合わせ中のアクセス・キー
    を選択する手段と、 アクセス・キーの選択に応答して、転置ファイルにアク
    セスして選択されたアクセス・キーに関するデータを主
    記憶装置に複写する手段と、転置ファイルのデータの複
    写に応答して、新しく複写されたものも含めて主記憶装
    置に複写されている転置ファイルのデータと入力された
    問い合わせの内容に基づいて、検索対象毎に問い合わせ
    得点値と得点期待値を計算する手段と、 第n位の問い合わせ得点値と第(n+m)位以下の問い
    合わせ得点値を持つ検索対象の得点期待値を比較し、前
    者が後者を上回る時に、アクセス・キーの選択を中止す
    る手段と(mは2以上の整数)、 問い合わせ得点値が第(n+m)位までの検索対象の識
    別子に基づいて、上記順ファイルをアクセスする手段 を有する情報検索システム。
  15. (15)検索対象識別子を入力して当該検索対象に関す
    るデータを出力するための、外部記憶装置に保持される
    順ファイルと、アクセス・キーを入力して当該アクセス
    ・キーを含む検索対象識別子の集合を出力するための、
    外部記憶装置に保持される転置ファイルと、重み付係数
    を与えたアクセス・キーの組合せとして表現される問い
    合わせと検索対象の出力希望数nを指定するための問い
    合わせ入力装置とを具備する情報検索システムにおいて
    、アクセス・キーの中には、検索対象によって重みの異
    なるアクセス・キーが含まれており、 入力された問い合わせを分析し、アクセス・キーの重み
    と当該アクセス・キーに与えられた重み付係数の積の大
    きさに基づいて、問い合わせ中のアクセス・キーを選択
    する手段と、 アクセス・キーの選択に応答して、転置ファイルにアク
    セスして選択されたアクセス・キーに関するデータを主
    記憶装置に複写する手段と、転置ファイルのデータの複
    写に応答して、新しく複写されたものも含めて主記憶装
    置に複写されている転置ファイルのデータと入力された
    問い合わせの内容に基づいて、検索対象毎に問い合わせ
    得点値と得点期待値を計算する手段と、 第n位の問い合わせ得点値と第(n+m)位以下の問い
    合わせ得点値を持つ検索対象の得点期待値を比較し、前
    者が後者を上回る時に、アクセス・キーの選択を中止す
    る手段と(mは2以上の整数)、 問い合わせ得点値が第(n+m)位までの検索対象の識
    別子に基づいて、上記順ファイルをアクセスする手段 を有する情報検索システム。
  16. (16)検索対象によって重みの異なるアクセス・キー
    に関しては、転置ファイル上で検索対象識別子が当該ア
    クセス・キーに与えられた重み順に予め並べられている
    ことを特徴とする特許請求の範囲第15項記載の情報検
    索システム。
JP1242421A 1989-09-20 1989-09-20 情報検索方法及びシステム Expired - Fee Related JPH0675265B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP1242421A JPH0675265B2 (ja) 1989-09-20 1989-09-20 情報検索方法及びシステム
DE69031772T DE69031772T2 (de) 1989-09-20 1990-09-05 Verfahren zur Informations-Wiedergewinnung für ein Datenbanksystem
EP90309707A EP0420424B1 (en) 1989-09-20 1990-09-05 A method of information retrieval for a database system
US07/584,305 US5263159A (en) 1989-09-20 1990-09-18 Information retrieval based on rank-ordered cumulative query scores calculated from weights of all keywords in an inverted index file for minimizing access to a main database

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1242421A JPH0675265B2 (ja) 1989-09-20 1989-09-20 情報検索方法及びシステム

Publications (2)

Publication Number Publication Date
JPH03108064A true JPH03108064A (ja) 1991-05-08
JPH0675265B2 JPH0675265B2 (ja) 1994-09-21

Family

ID=17088865

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1242421A Expired - Fee Related JPH0675265B2 (ja) 1989-09-20 1989-09-20 情報検索方法及びシステム

Country Status (4)

Country Link
US (1) US5263159A (ja)
EP (1) EP0420424B1 (ja)
JP (1) JPH0675265B2 (ja)
DE (1) DE69031772T2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000172698A (ja) * 1998-12-04 2000-06-23 Ricoh Co Ltd 文書検索システム、文書検索方法およびその方法を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2005250980A (ja) * 2004-03-05 2005-09-15 Oki Electric Ind Co Ltd 文書検索システム、検索条件入力装置、検索実行装置、文書検索方法、および文書検索プログラム

Families Citing this family (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5404514A (en) * 1989-12-26 1995-04-04 Kageneck; Karl-Erbo G. Method of indexing and retrieval of electronically-stored documents
JPH04115360A (ja) * 1990-09-06 1992-04-16 Nec Corp 配列モチーフ評価方式
US5488725A (en) * 1991-10-08 1996-01-30 West Publishing Company System of document representation retrieval by successive iterated probability sampling
US6370479B1 (en) * 1992-02-06 2002-04-09 Fujitsu Limited Method and apparatus for extracting and evaluating mutually similar portions in one-dimensional sequences in molecules and/or three-dimensional structures of molecules
US5428778A (en) * 1992-02-13 1995-06-27 Office Express Pty. Ltd. Selective dissemination of information
US5598557A (en) * 1992-09-22 1997-01-28 Caere Corporation Apparatus and method for retrieving and grouping images representing text files based on the relevance of key words extracted from a selected file to the text files
JP3270783B2 (ja) * 1992-09-29 2002-04-02 ゼロックス・コーポレーション 複数の文書検索方法
US5377314A (en) * 1992-12-21 1994-12-27 International Business Machines Corporation Method and system for selective display of overlapping graphic objects in a data processing system
US5519608A (en) * 1993-06-24 1996-05-21 Xerox Corporation Method for extracting from a text corpus answers to questions stated in natural language by using linguistic analysis and hypothesis generation
US5541986A (en) * 1993-07-27 1996-07-30 Bell Communications Research, Inc. Method and system for automated telecommunications service script consolidation and downloading
US5504887A (en) * 1993-09-10 1996-04-02 International Business Machines Corporation Storage clustering and packing of objects on the basis of query workload ranking
WO1995011487A1 (en) * 1993-10-22 1995-04-27 Fdc, Inc. Database using table rotation and bimapped queries
US5576954A (en) * 1993-11-05 1996-11-19 University Of Central Florida Process for determination of text relevancy
CA2120447C (en) * 1994-03-31 1998-08-25 Robert Lizee Automatically relaxable query for information retrieval
US5493677A (en) * 1994-06-08 1996-02-20 Systems Research & Applications Corporation Generation, archiving, and retrieval of digital images with evoked suggestion-set captions and natural language interface
SE505844C2 (sv) 1994-09-21 1997-10-13 Qliktech International Ab Metod för extrahering av information från en databas
JPH08115334A (ja) * 1994-10-18 1996-05-07 Canon Inc 検索装置
US5812882A (en) * 1994-10-18 1998-09-22 Lanier Worldwide, Inc. Digital dictation system having a central station that includes component cards for interfacing to dictation stations and transcription stations and for processing and storing digitized dictation segments
JP3282937B2 (ja) * 1995-01-12 2002-05-20 日本アイ・ビー・エム株式会社 情報検索方法及びシステム
US5911140A (en) * 1995-12-14 1999-06-08 Xerox Corporation Method of ordering document clusters given some knowledge of user interests
US6023694A (en) * 1996-01-02 2000-02-08 Timeline, Inc. Data retrieval method and apparatus with multiple source capability
US5802511A (en) * 1996-01-02 1998-09-01 Timeline, Inc. Data retrieval method and apparatus with multiple source capability
US6631382B1 (en) 1996-01-02 2003-10-07 Timeline, Inc. Data retrieval method and apparatus with multiple source capability
US6625617B2 (en) 1996-01-02 2003-09-23 Timeline, Inc. Modularized data retrieval method and apparatus with multiple source capability
US6081798A (en) * 1996-04-24 2000-06-27 International Business Machines Corp. Object oriented case-based reasoning framework mechanism
JPH1049549A (ja) * 1996-05-29 1998-02-20 Matsushita Electric Ind Co Ltd 文書検索装置
US5915249A (en) * 1996-06-14 1999-06-22 Excite, Inc. System and method for accelerated query evaluation of very large full-text databases
US6173298B1 (en) 1996-09-17 2001-01-09 Asap, Ltd. Method and apparatus for implementing a dynamic collocation dictionary
US6119114A (en) * 1996-09-17 2000-09-12 Smadja; Frank Method and apparatus for dynamic relevance ranking
US5870740A (en) * 1996-09-30 1999-02-09 Apple Computer, Inc. System and method for improving the ranking of information retrieval results for short queries
US6057839A (en) * 1996-11-26 2000-05-02 International Business Machines Corporation Visualization tool for graphically displaying trace data produced by a parallel processing computer
US6185559B1 (en) 1997-05-09 2001-02-06 Hitachi America, Ltd. Method and apparatus for dynamically counting large itemsets
US5926808A (en) * 1997-07-25 1999-07-20 Claritech Corporation Displaying portions of text from multiple documents over multiple databases related to a search query in a computer network
US6073122A (en) * 1997-08-15 2000-06-06 Lucent Technologies Inc. Cryptographic method and apparatus for restricting access to transmitted programming content using extended headers
US6373948B1 (en) * 1997-08-15 2002-04-16 Lucent Technologies Inc. Cryptographic method and apparatus for restricting access to transmitted programming content using program identifiers
US5987457A (en) * 1997-11-25 1999-11-16 Acceleration Software International Corporation Query refinement method for searching documents
US6037938A (en) * 1997-12-01 2000-03-14 Qliktech International Ab Method and a device for displaying information about a large number of independent data elements
JP3571201B2 (ja) * 1997-12-12 2004-09-29 富士通株式会社 データベース検索装置及びデータベース検索プログラムを記録したコンピュータ読み取り可能な記録媒体
US6608895B1 (en) 1998-11-04 2003-08-19 Tadiran Telecom Business Systems, Ltd. Method of anticipatory dialing
NZ508695A (en) * 2000-12-07 2003-04-29 Compudigm Int Ltd Method and system of searching a database of records
US20040205454A1 (en) * 2001-08-28 2004-10-14 Simon Gansky System, method and computer program product for creating a description for a document of a remote network data source for later identification of the document and identifying the document utilizing a description
US7587381B1 (en) * 2002-01-25 2009-09-08 Sphere Source, Inc. Method for extracting a compact representation of the topical content of an electronic text
US20040024776A1 (en) * 2002-07-30 2004-02-05 Qld Learning, Llc Teaching and learning information retrieval and analysis system and method
US7254587B2 (en) * 2004-01-12 2007-08-07 International Business Machines Corporation Method and apparatus for determining relative relevance between portions of large electronic documents
US8285739B2 (en) * 2005-07-28 2012-10-09 International Business Machines Corporation System and method for identifying qualifying data records from underlying databases
EP1835418A1 (en) * 2006-03-14 2007-09-19 Hewlett-Packard Development Company, L.P. Improvements in or relating to document retrieval
US7739255B2 (en) * 2006-09-01 2010-06-15 Ma Capital Lllp System for and method of visual representation and review of media files
US20080109845A1 (en) * 2006-11-08 2008-05-08 Ma Capital Lllp System and method for generating advertisements for use in broadcast media
US20080109305A1 (en) * 2006-11-08 2008-05-08 Ma Capital Lllp Using internet advertising as a test bed for radio advertisements
US20080109409A1 (en) * 2006-11-08 2008-05-08 Ma Capital Lllp Brokering keywords in radio broadcasts
US7925644B2 (en) * 2007-03-01 2011-04-12 Microsoft Corporation Efficient retrieval algorithm by query term discrimination
US7809714B1 (en) 2007-04-30 2010-10-05 Lawrence Richard Smith Process for enhancing queries for information retrieval
US7822752B2 (en) * 2007-05-18 2010-10-26 Microsoft Corporation Efficient retrieval algorithm by query term discrimination
EP2146292B8 (en) * 2008-07-18 2019-03-20 QlikTech International AB Method and apparatus for extracting information from a database
US7730061B2 (en) * 2008-09-12 2010-06-01 International Business Machines Corporation Fast-approximate TFIDF
US8205025B2 (en) * 2009-08-12 2012-06-19 Globalspec, Inc. Efficient buffered reading with a plug-in for input buffer size determination

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3670310A (en) * 1970-09-16 1972-06-13 Infodata Systems Inc Method for information storage and retrieval
US4318184A (en) * 1978-09-05 1982-03-02 Millett Ronald P Information storage and retrieval system and method
US4358824A (en) * 1979-12-28 1982-11-09 International Business Machines Corporation Office correspondence storage and retrieval system
US4817036A (en) * 1985-03-15 1989-03-28 Brigham Young University Computer system and method for data base indexing and information retrieval
US4823306A (en) * 1987-08-14 1989-04-18 International Business Machines Corporation Text search system
JPH021057A (ja) * 1988-01-20 1990-01-05 Ricoh Co Ltd 文書検索装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000172698A (ja) * 1998-12-04 2000-06-23 Ricoh Co Ltd 文書検索システム、文書検索方法およびその方法を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2005250980A (ja) * 2004-03-05 2005-09-15 Oki Electric Ind Co Ltd 文書検索システム、検索条件入力装置、検索実行装置、文書検索方法、および文書検索プログラム

Also Published As

Publication number Publication date
EP0420424A3 (en) 1992-12-02
DE69031772T2 (de) 1998-06-25
JPH0675265B2 (ja) 1994-09-21
DE69031772D1 (de) 1998-01-15
US5263159A (en) 1993-11-16
EP0420424B1 (en) 1997-12-03
EP0420424A2 (en) 1991-04-03

Similar Documents

Publication Publication Date Title
JPH03108064A (ja) 情報検索方法及びシステム
US9817825B2 (en) Multiple index based information retrieval system
AU2005203239B2 (en) Phrase-based indexing in an information retrieval system
CA2232938C (en) Method and apparatus for performing a join query in a database system
US6944609B2 (en) Search results using editor feedback
US6523030B1 (en) Sort system for merging database entries
JP4944406B2 (ja) フレーズに基づく文書説明の生成方法
US6507839B1 (en) Generalized term frequency scores in information retrieval systems
CA2513852C (en) Phrase-based searching in an information retrieval system
US5907840A (en) Overlapping subdocuments in a vector space search process
Vellucci Bibliographic relationships
US9477729B2 (en) Domain based keyword search
Li et al. ASLM: Adaptive single layer model for learned index
US6353819B1 (en) Method and system for using dynamically generated code to perform record management layer functions in a relational database manager
JP2010061420A (ja) 商品情報検索装置、方法及びシステム
JP2008165622A (ja) マルチオペレーション・プロセッシングを用いたデータベースのクエリー処理システム
Ashford Information storage and retrieval systems on mainframes and minicomputers: a comparison of text retrieval packages available in the UK
JP3275813B2 (ja) 文書検索装置、方法及び記録媒体
US7054872B1 (en) Online tracking and fixing of invalid guess-DBAs in secondary indexes and mapping tables on primary B+tree structures
Hickey Searching linear files on‐line
Olken Scientific and statistical data management research at LBL
JP2639804B2 (ja) データベース検索装置
RU2266560C1 (ru) Способ поиска информации в политематических массивах неструктурированных текстов
CN111353022A (zh) 一种自动扩充关键词进行专利数据库检索的信息处理方法和装置
Hammoud Asrs: automatic search and retrieval system.

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees