JPH0675265B2 - 情報検索方法及びシステム - Google Patents

情報検索方法及びシステム

Info

Publication number
JPH0675265B2
JPH0675265B2 JP1242421A JP24242189A JPH0675265B2 JP H0675265 B2 JPH0675265 B2 JP H0675265B2 JP 1242421 A JP1242421 A JP 1242421A JP 24242189 A JP24242189 A JP 24242189A JP H0675265 B2 JPH0675265 B2 JP H0675265B2
Authority
JP
Japan
Prior art keywords
search target
access key
query
file
transposed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP1242421A
Other languages
English (en)
Other versions
JPH03108064A (ja
Inventor
欽一 三ツ井
Original Assignee
インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン filed Critical インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン
Priority to JP1242421A priority Critical patent/JPH0675265B2/ja
Priority to DE69031772T priority patent/DE69031772T2/de
Priority to EP90309707A priority patent/EP0420424B1/en
Priority to US07/584,305 priority patent/US5263159A/en
Publication of JPH03108064A publication Critical patent/JPH03108064A/ja
Publication of JPH0675265B2 publication Critical patent/JPH0675265B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】 A.産業上の利用分野 本発明は、情報検索の分野において、特に検索結果に得
点を与えて順位づけを行う定量的検索を、時間のかかる
外部メモリのアクセス回数を減らすことにより高速化す
る方法およびシステムに関する。なお、本発明の手法は
文献検索のようなキーワードに基づいた検索のみでなく
一般の数値量を扱うようなデータベースの問い合わせを
定量化する際の高速化にも有効である。
B.従来の技術 定量的検索とは、情報検索において検索質問を与えたと
きに各検索対象に対して得点を計算し、高得点順に検索
対象を出力するものである。検索対象とは、例えば文献
や特許情報などをさす。また、順序づけを行うのは検索
条件の満たし具合いを定量的に扱うことにより、あいま
いであったり不完全であったりする問い合わせに柔軟に
対処するためである。定量的検索の例を第5図に示す。
ここでは検索対象として文献を例に説明する。各文献に
は検索に使われる索引用語(キーワード)とか発行年度
のような数値量による属性が与えられているとする。い
ま検索条件として、キーワードとしてK1かK2を持ち発行
年C1の値ができるだけ大きいものという条件があたえら
れたとする。文献がK1を含んでいる場合に得点v1をK2を
含んでいる場合に得点v2をまたC1の値に応じてv3を与え
総合点をその和とすれば各文献に得点を与えることがで
きる。
この得点計算を数式で表現すると、v1*K1+v2*K2+f
(C1)となり、ある文献がキーワードK1、K2をめばそれ
ぞれ1を、含まなければ0をK1、K2に代入し、fは例え
ば発行年が最も最近の場合に1になり発行年が古くなる
ほど値が小さくなる関数とすれば得点が計算できる。全
ての文献についてこの得点を計算し順序づければ条件を
最も良く満たす文献から順に結果を出力することができ
る。
得点の計算式は、このような和を計算するものに限度し
なくても、例えばmax(v1*K1、v2*K2)のように二つ
の値の大きいほうを選ぶようなものであってもよい。こ
のように検索要求には様々な得点計算方法が考えられ
る。
一般に文献検索等における検索対象の数は非常に大きな
ものであり、検索対象の全てを質問ごとにアクセスする
のは大量の外部メモリのアクセスを必要とするので現実
的でない。Salton,G.ら文献『Extended Booli an Infor
mation Retrieval,Communications of the ACM,Vol.26
No.12,1983』で紹介されているように、この種の情報
検索では高速に検索を行うために転置ファイルを用い
る。この様子を第2図に示す。転置ファイル(21)はキ
ーワードや数値量を索引としてそれらの値を持つような
検索対象を逆にたどれるようにするものである。これに
対して元の文献が順序よく並べられたファイルを順ファ
イル(24)と呼ぶ。文献内容は順ファイルに含まれてい
てもよいし、順ファイルの外に記憶されていてもよい。
後者の場合には、順ファイル中に文献内容の記憶場所の
情報が含まれる。この転置ファイルを用い、まず得点を
計算するのに必要なキーワードヤ数値量を一つでも持つ
文献識別子を全て求める。これは、各キーワードや数値
量に対する文献識別子の集合の和をとることで得られる
(22)。得られた各文献識別子について順ファイルにア
クセスしキーワードの集合を得、得点を計算して順序づ
けて出力する(23)。このように転置ファイルを用いる
と、一般に全ての文献にアクセスし得点を計算する必要
がなくなるのでより高速に検索ができる。転置ファイル
も外部記憶のアクセスを必要とするが、同じ索引をもつ
情報が物理的に近くに記憶されており、索引を通して少
ないアクセス回数で必要な内容を取り出すことができ
る。
C.発明が解決しようとする問題点 情報検索においては、順ファイルも転置ファイルも非常
に大きくなるので、外部記憶に保存され検索条件の判定
や得点の計算などのためにその一部が内部記憶に移され
る。外部記憶のアクセスには比較的長い時間を要するの
で検索の速度を高めるにはできるだけ外部記憶のアクセ
スをしないほうが良い。上述した従来の方法で、最初に
転置ファイルにより関連する検索対象を絞ることで外部
記憶のアクセスを減らした。しかし、定量的検索では一
般に高得点の対象を出力することが要求され得点の低い
ものは不要である。このことを考慮したとき、上述の方
法は順ファイル中の順位の低い対象へアクセスしている
がこれは不要である。また、数値量の場合多くの対象が
得点に関係する場合があり、関係するものをすべてアク
セスすると絞り込みの効果がすくなくなる。そのための
工夫が必要である。
本発明の目的は、より外部ファイルのアクセスを減らす
定量的検索のための方法およびシステムをあたえること
である。
D.問題点を解決する手段 問題点を解決する手段は次の4点にまとめることができ
る。
(1)転置ファイルのみの情報により順位づけを行う。
(2)転置ファイルのなかでも、より順位づけに有効な
部分からアクセスを行い、不要な部分にはできるだけア
クセスしない。
(3)数値量に関しても転置ファイルと同様の構造を考
え順位付けに不要な部分にはできるだけアクセスしな
い。
(4)順位づけの条件を緩め、完全な順位づけをしない
かわりに、転置ファイルのアクセスを減らす。
E.実施例 (1)基本アルゴリズム ここでは本発明について第1図の例を用いて説明する。
順ファイルには文献識別子に対する付属するキーワード
の集合が記憶される。転置ファイルには、キーワードと
そのキーワードを含む文献識別子の集合が記憶される
(11)。まず問い合わせが与えられ得点の計算に関係あ
るキーワードが得られる。問い合わせの入力は適宜端末
装置を通じて行えばよい。問い合わせを1.0*K1+0.6*
K2+0.3*K3とすると関係あるキーワードはK1、K2、K3
である。外部記憶にある転置ファイルにアクセスし主記
憶上に転置表を作成する(12)。この転置表は転置ファ
イルの一部になっていることがわかる。この転置表の行
と列を入れ換えると順表(13)ができる。これは外部記
憶の順ファイルのうち得点計算に必要な部分になってい
ることがわかる。順表のそれぞれの行について得点を計
算することができる。得点の高いものから順ファイル
(15)にアクセスしその文献内容を取り出し検索が完了
する。従来の方式では、主記憶上で転置表の行と列を入
れ換える操作は行わず、転置表の各行の和集合により関
連する文献識別子を求めてから順ファイルにアクセスし
それぞれの文献のキーワードを新たに取り出し得点をも
とめているので得点の低い文献についても順ファイルの
アクセスをともなう。上位n位までのように高得点のも
ののみを検索すれば十分な場合、従来の方法は余分な外
部記憶のアクセスをしている。本発明法と従来法による
外部記憶装置へのアクセスを、第1図と第2図の場合に
ついて比較してみよう。
I.第1図の本発明法の場合 (1)転置ファイルへのアクセス。
キーワードK1、K2、K3について転置ファイルへのアクセ
スが行われる。
(2)順ファイルへのアクセス。
文献識別子D1とD2について順ファイルへのアクセスが行
われる。
II.第2図の従来法の場合 (1)転置ファイルへのアクセス。
キーワードK1、K2、K3について転置ファイルへのアクセ
スが行われる。
(2)順ファイルへのアクセス。
文献識別子D1、D2、D3について順ファイルへのアクセス
が行われる。
IとIIを比較してわかるように、本発明によれば文献識
別子D3について順ファイルへアクセスしないですむの
で、その分アクセス時間が減少することが理解できよ
う。次に、本発明法と従来法のそれぞれについて、外部
記憶装置のアクセスに要する時間を一般的に評価してみ
る。まず、次のような定義をする。
Nqkey 問合わせ使われたキーワードの数 Nkeydoc 転置ファイル上での一つのキーワードに対す
る平均文献識別子数 Nrelated 問合せに関するキーワードを少なくともひと
つ含む関連文献数 Noutput 要求された出力文献の数 Tinv 転置ファイルの1レコードを取り出すのに必要な
平均時間 Ttrans 転置表の転置表をつくるのに要する時間 Tunion 各キーワードに対する文献識別子の集合の和集
合を求める時間 Tseq 順ファイルの1レコードを取り出すのに必要な平
均時間 Tquery 問合せ関数値の平均的計算時間 Tsort 問合せ関数値のソーティングに必要な時間 本発明の手法で必要とする時間は、 Tinv×Nqkey+Ttrans+Tquery×Nrelated+Tsort+Tseq ×Noutput である。ここで、第一項は、転置ファイルのアクセスに
必要な時間、第二項は転置表の転置表を作るための時
間、第三項は問合せ関数値の計算に必要な時間、第四項
はソーティングに必要な時間、第五項は上位定数個につ
いて順ファイルのアクセスに要する時間である。
これに対して、従来の方式で必要とする時間は、 Tinv×Nqkey+Tunion+Tseq×Nrelated+Tquery ×Nrelated+Tsort である。ここで、本発明の方法のものと違うのは、第二
項が関連する文献を和集合により求める時間、第三項が
関連文献について順ファイルをアクセスするのに要する
時間である、という点である。後者の方式の所要時間か
ら前者の方式の所要時間を引くと、 (Tunion−Ttrans)+Tseq×(Nrelated−Noutput) となる。(Tunion−Ttrans)の部分は、後者の方式が単
純な和集合の計算であるのに対して、本発明の方法は、
転置表を転置する操作なのでTtransのほうが少し大きな
値をとる。しかし、これらの操作はハッシュ技法を用い
ることができるし、計算は主記憶上で行われるので、比
較的高速な処理ができる。従って、第一項はそれほど大
きな値は取らない。これに対して、Tseqは、ディスクア
クセスに要する平均時間であった。これは、システムに
依存する値であり、一般値は議論しにくいが、主記憶上
の計算に比べるとかなり遅いのが普通である。従って、
関連する文献より出力すべき文献の数が少なければすく
ないほど、本発明の方式が有効であることがわかる。
一回のディスクアクセスに要する時間は、例えば、中大
型機の場合で平均数msecから数十msec程度かかる。これ
に対して、主記憶での計算の部分をLispによりプログラ
ミングして実験した結果によると、一検索対象あたり1m
sec以下であった。Lispは、非常に関数呼出しが多い
等、通常のプログラミング言語に比べて処理速度は遅
い。従って、一般に、通常の手続き型言語を用いて同じ
計算を行なった場合、さらに一桁ほど高速になると期待
される。また、大型機では、ディスクアクセスの高速化
が非常に工夫されているが、ひり低レベルの機種では、
主記憶上での計算とディスクアクセスとのギャップは更
に高いと考えられる。
以上、結論としていえることは、本発明の方法は、順フ
ァイルについて本当に出力に必要な部分のみアクセスす
るような工夫をして高速化をはかっているので、演算速
度に対してディスクアクセスが非常に遅い状況で、関連
文献のうち出力すべきものが少数であるような場合に従
来方法よりも有効であるということである。
TtransとTunionの計算のオーダーについて、簡単にふれ
ておく。転置表の転置は、まず、文献識別子をキーとす
るハッシュ表を作成しておき、転置ファイルから集めら
れたそれぞれの文献識別子について、対応するキーワー
ドをハッシュ表の対応する場所に追加していなければよ
い。あるキーワードを含む文献の平均数が一定個である
ことを仮定すると、この計算は、キーワードの数に対し
て線型オーダーである。また、関連文献を和集合で求め
る部分も同じようにして線型オーダーで計算できる。文
献の数に対しては、文献の数が増えると、あるキーワー
ドを含む文献の数が線型オーダーで増える。上の議論よ
り、文献の数に対しても線型オーダーであることがわか
る。これらより、上で比較した両方式とも、問合せの長
さやデータベースの大きさに対して、TtransとTunionの
計算量が線型オーダーで押えられるという良い性質を持
っていることがわかる。
なお、従来方式では、順ファイルに文献識別子と当該文
献にまれるキーワードの対照表が含まれている必要があ
るけれども、この基本アルゴリズムではそのような表は
必須ではない。
(2)改良アルゴリズム 上で述べた方法を基本とし、更に転置ファイルのアクセ
スの回数を減らすための改良について述べる。この様子
を第3図に示す。得点の計算に関係のあるキーワードを
もとに転置ファイルをアクセスする際に、最も順位に影
響を与えるキーワードから先にアクセスするようにす
る。第3図の例ではK1の重みが最も大きく、このキーワ
ードを含む文献と含まない文献では大きな差がでる。K1
について転置ファイル(31)をアクセスし主記憶上に転
置表を作る(32)。さらに行と列を入れ換える(33)。
ここで各文献ついて得点の最小確定値と最大期待値を求
めることができる。最小確定値は、ここまでで調べたキ
ーワードのみから計算される得点の下限であり、最大期
待値は残りのキーワードが問合せ条件を全て満たしてい
るとしたときの得点の上限である。第3図のDxは残りの
文献全てを代表するものである。この時点で最小確定値
の順に仮の順位をつける。もしも最終結果は第2位まで
で十分であるとすると、第3位以下の最大期待値が第2
位の最小確定値より小さいので第3位以下の文献は残り
のキーワードを調べなくても順位は2位より上がらない
ことがわかる。ここで2位までのアクセスを順ファイル
にアクセスしキーワードを調べて正確な得点を調べれば
よい。したがって、本発明の基本アルゴリズムによった
ならば、キーワードK1、K2、K3について転置ファイルへ
のアクセスを要したところ、この改良アルゴリズムによ
ればキーワードK1についてだけ転置ファイルへアクセス
ればよいので、アクセス時間が短縮される。
もしもこの例で上位第1位までという条件なら第2位の
最大期待値が第1位の最小確定値よりも大きいので別の
キーワードを調べなければ第1位は決定できない。次に
調べるキーワードを選ぶ場合、第n位の最小確定値を最
も増やすか第(n+1)位以下の最大期待値を最も減ら
すものを選ぶ。例の場合K2が選ばれ(34)、再度得点が
計算される(35)。ここで第1位の最小確定値が第2位
の最大期待値を上回ったので、その文献識別子(36)に
ついて順ファイルをアクセスし検索を終了する。この方
式では問い合わせに含まれる全てのキーワードに関して
転置ファイルをアクセスする必要が必ずしもないので、
高速化に効果がある。
さて、第3図の例では、問い合わせがアクセス・キーの
線型結合として表現されており、したがって問い合わせ
得点値(確実値)が第(n+1)位の文献の得点期待値
のみを考慮すれば、第n位までの文献を確定することが
できた。しかしながら、問い合わせがmaxやminといった
計算を含んでいたり、数量値属性を持つアクセス・キー
を含んでいたりするときには、確実値第(n+1)位の
文献の期待値よりも、確実値第(n+2)位以降の文献
の期待値の方が大きくなる可能性がある。そこで、この
ような場合を考慮した処理手順を形式的に記述してお
く。
1.最初に、最も順位に差をつけるようなキーワードを選
び、転置ファイルにアクセスし、そのキーワードを含む
文献識別子の集合を主記憶に取り込む。キーワードの選
び方は、そのキーワードを含む文献と含まない文献の得
点差が最も大きくなるようなものを選ぶ。
2.主記憶中に順表に新しく取り込まれた情報を加え、順
表中の文献の得点(最小確定値)を(再)計算し順位を
つける。このときの検索された文献の数がnに満たない
場合は次のキーワードついてこの1.2.の手続きを繰り返
す。順位の並べ換えは、毎回全部の文献の並べ換えをし
なくても、変更のあった文献のみ得点を再計算して入れ
替えればよい。これはバランス木のようなデータ構造の
工夫により可能である。
3.初めて文献の数がnを越えたとき、最下位としてこれ
までのキーワードを全て含まないような仮想的な文献を
表に加えておく。当然このような文献が最も確定値が低
い。
4.最下位を第(n+s)位としよう。第(n+s)位の
文献が今後理想的にキーワードを含んでいた場合の得点
の最大期待値が計算できる。もし第(n+s)の位の最
大期待値が第n位の最小確定値に満たない場合は第(n
+s)位の文献は、もっというと第(n+s)位以下の
文献は第n位以上にはなりえないことがわかる。ここで
第(n+s)位の情報を順表から削除し、第(n+s−
1)位の文献を新しく最下位とする。
5.もし最下位が第n位に一致していればここで第n位ま
でが確定したことになるので手続きを止める。そうでな
ければ最下位の繰り上がりがなくなるまで4.5.の手続き
を繰り返す。
6.第n位までが確定しなはった場合は、次のキーワード
を選んで転置ファイルを調べる。すなわち、1.の手続き
から繰り返す。このとき最下位の文献が2.で想定した仮
想的な文献でなければ、すなわち途中でこの仮想的な文
献が削除されたあとでは、既に順表中にないような文献
が新しく検索されてもそれは無視してよい。なぜなら、
これらは既に第n位以上になりえなことが確定している
からである。次のキーワードの選び方は、それが含まれ
ているとき第n位の最小確定値を最も上げるものか、ま
たはそれが含まれていないとき第(n+s)位の最大期
待値を最も下げるものを選ぶようにする。
この方式の利点としては、第n位の最小確定値と第(n
+1)位以下の最大期待値の比較を、将来第n位以上に
なりうる限界としての最下位を考えることにより、効率
的に行っていることがあげられる。丁度、将来第n位以
上になりうる限界点が次第にせり上がっていきその時点
の第n位と重なった時に手続きをやめるようなものであ
る。順表中の第(n+1)位以下の全ての文献について
最大期待値を求める必要ない。また、最下位をせり上げ
る時に元の最下位の文献の情報を削除し、最下位がせり
上がり始めて以降新しく検索される文献を無視すること
により、不必要な情報を順表中に残さないことも効率上
有利である。
(3)数値属性の扱い 次に発行年のような数値量属性を定量検索に利用すると
きの方法について述べる。この様子を第4図にしめす。
数値属性に関する得点を計算する場合には属性値に対し
て適な得点を与える関数を決めておけばよい(48)。前
述の例ではf(C1)のように記述した。ここでこの関数
は属性値の変化に対して単調に変化するものでなければ
ならない。例えば、属性値が大きいほど得点が高いも
の、属性値がある値に近いほど得点が高いものなどであ
る。
数値属性に関しても、キーワードの場合と同様に属性値
から逆にもとの検索対象を対応づける転置ファイルを作
成することができる。第4図ではK3が発行年を表す数値
属性である(41)。転置ファイル上で検索対象が、属性
値の昇順あるいは降順に並べられており、昇順あるいは
降順に高速にアクセスできるものとする。これはB−木
のような既存の技術を使って実現できる。
さて、一般に数値属性を検索条件に使う場合、得点に影
響する値の範囲は広範囲におよび、転置ファイル上の得
点に影響する値の範囲全てのアクセスするのはやはり多
くの外部記憶のアクセスを必要とする。高得点のものの
み出力が必要とされる場合には、数値属性のレコードに
関しては高得点を与える部分のみアクセスすれば十分で
ある可能性がある。数値属性のアクセス・キーに関して
は検索対象識別子が予め属性順にソートされている転置
ファイルを用いることにより高得点を得られる部分から
外部記憶にアクセスし(2)で説明した方式と同様に最
小確定値および最大期待値を計算しながら高順位が確定
した時点で検索を終了すればよい。
これまで説明してきたアルゴリズムでは、キーを一度使
うとそれは二度と使われなかったが、数値属性のキーを
扱う場合に、転置ファイルに関数値が0以上になる、ま
だアクセスしていない文献識別子が残っている限り、キ
ーを再使用する可能性がある。但し、キーを使用した後
で、当該キーから期待される最大の重みは、残された文
献の関数値の最大期待値に更新される。したがって、そ
の値によっては、つぎのキーとして、別のキーが使用さ
れる可能性がある。
例を用いて説明する。第4図の例では、問い合わせ式の
3つの項の中で最大値をとりうるのは0.5K3なので、発
行年(K3)が得点に最も影響を与えるものとして選ばれ
る。得点は最近の文献ほど高いとする。転置ファイルに
1回アクセスすると得点の高い文献識別子が幾つか得ら
れる(42)。(2)の方法と同様に主記憶に順表を作成
し、最小確定値と最大期待値を計算する(43)。第n位
までが確定しなければ、発行年も含めて次に調べるキー
ワードや属性を選び同様の手続きを繰り返す(44、4
5)。なお最大期待値を計算する場合、数値量に関する
以降の得点はそれまでの得点よりも必ず低くなることを
利用する。例えば、(4))のDxの期待値は、発行年に
関して最大0.5×0.5=0.25が期待でき、K2を含むとする
と0.2が加算され全体で最大0.45までの得点であること
になる。このようにして転置ファイルに関してより得点
に影響を与える部分からアクセスすることにより不要な
転置ファイルのアクセスを避けることができる。
また、この方式は数値属性のための工夫として説明した
が、キーワード属性でも個々の検索対象が含むキーワー
ドに得点の重みが付けられている場合、例えばキーワー
ドKxは文献D1では1.0の重みを持つが文献D2では0.5の重
みしか持たないといった場合に、転置ファイル上で各キ
ーワードに対する検索対象の識別子をあらかじめ重み順
に並べておけば、ここでの議論が全く同様に使えること
に注意されたい。
(4)緩い順位付けで更に外部記憶のアクセスを減らす
方法 (2)および(3)の説明では、転置ファイルのアクセ
スを停止するか続行するかの判断において、第n位の最
小確定値と第n+1位以降の最大期待値を比較した。こ
れに対して、第n位の最小確定値と第n+m位(m≧
2)以下の最大期待値の比較によって上記判断を行うな
ら、第2位と第(n+m)位以下との差は第n位と第
(n+1)位以下との差より大きいことが期待できるの
で早く順位の決定が完了する可能性がある。具体的な処
理手順としては、最下位が第(n+m)位と一致した時
点で手続きを止める点を除いて、“(2)改良アルゴリ
ズム”のセクションで述べた手順1.〜6.と同様のものを
採用すればよい。
ただし、このときの順位の意味は、第n位までが手続終
了時点での第(n+m)位以内に入っていることがいえ
るのみである。逆にその時点での第(n+m)位以内、
もっと言えば第n位以内には最終的に第(n+m)位以
下になるものも含まれている可能性がある。このように
して確定した第(n+m)位以内の文献の中から真に第
n位以内の文献を見つけるためには、第(n+m)位以
内の文献について順ファイルにアクセスし、従来方法の
ようにして厳密に得点を計算してもよいし、あるいは文
献内容を出力してしまって人間が選択してもよい。
極端な例としてはmを検索対象の総数とすると検索条件
を調べなくても第n位までが第m位までに含まれている
ことが言える。このように大きなmをとることは余計な
結果が多く含まれるので意味がないが、適当な大きさの
mを考えると一般には第n位までがより早く見つかる。
本来、定量的検索は曖昧な問い合わせを処理するもので
あった。このことを考えると得点の高い検索対象がある
程度までしぼり込まれた段階で検索処理を終了し結果を
出力するのは検索の高速化が得られるならば妥当な方針
であると考えられる。
F.発明の効果 以上説明したように本発明は、 定量検索での得点計算において転置ファイルのみを用い
て得点計算を行ない、また得点の期待値により転置ファ
イルの必要な部分のみをアクセスするような機構により
順ファイルおよび転置ファイルのアクセスを必要最低限
におさえることにより検索処理速度が向上するという効
果がある。
【図面の簡単な説明】
第1図は本発明の基本的な動作を示す説明図、第2図は
従来の技術における方式の説明図、第3図は本発明の要
点の2番目の改良アルゴリズムの例を示す説明図、第4
図は本発明の要点の3番目の数値量属性を含む場合の例
を示す説明図、第5図は定量的検索を説明する概念図で
ある。

Claims (16)

    【特許請求の範囲】
  1. 【請求項1】検索対象識別子を入力して当該検索対象に
    関するデータを出力するための、外部記憶装置に保持さ
    れる順ファイルと、アクセス・キーを入力して当該アク
    セス・キーを含む検索対象識別子の集合を出力するため
    の、外部記憶装置に保持される転置ファイルと、重み付
    係数を与えたアクセス・キーの組合せとして表現される
    問い合わせと検索対象の出力数nを指定するための問い
    合わせ入力装置とを用いる情報検索方法であって、 問い合わせの入力に応答して、転置ファイルにアクセス
    し、入力された問い合わせに含まれるアクセス・キーに
    関連する転置ファイル中のデータを主記憶装置に複写す
    るステップと、 複写された転置ファイルのデータと入力された問い合わ
    せの内容に基づいて、検索対象毎に問い合わせ得点値を
    計算するステップと、 問い合わせ得点値の上位のものから順に上記n個の検索
    対象を確定するステップと、 上記n個の検索対象の識別子に基づいて上記順ファイル
    をアクセスするステップ を有する情報検索方法。
  2. 【請求項2】検索対象識別子を入力して当該検索対象に
    関するデータを出力するための、外部記憶装置に保持さ
    れる順ファイルと、アクセス・キーを入力して当該アク
    セス・キーを含む検索対象識別子の集合を出力するため
    の、外部記憶装置に保持される転置ファイルと、重み付
    係数を与えたアクセス・キーの組合せとして表現される
    問い合わせと検索対象の出力数nを指定するための問い
    合わせ入力装置とを用いる情報検索方法であって、 問い合わせの入力に応答して、転置ファイルにアクセス
    し、入力された問い合わせに含まれるすべてのアクセス
    ・キーに関連する転置ファイル中のデータを主記憶装置
    に複写して、転置ファイルの一部を成す転置表を作成す
    るステップと、 転置表の行と列を入れ替えて主記憶装置中に順表を作成
    するステップと、 順表のデータと入力された問い合わせの内容に基づい
    て、検索対象毎に問い合わせ得点値を計算するステップ
    と、 問い合わせ得点値の上位のものから順に上記n個の検索
    対象を確定するステップと、 上記n個の検索対象の識別子に基づいて上記順ファイル
    をアクセスするステップ を有する情報検索方法。
  3. 【請求項3】検索対象識別子を入力して当該検索対象に
    関するデータを出力するための、外部記憶装置に保持さ
    れる順ファイルと、アクセス・キーを入力して当該アク
    セス・キーを含む検索対象識別子の集合を出力するため
    の、外部記憶装置に保持される転置ファイルと、重み付
    係数を与えたアクセス・キーの組合せとして表現される
    問い合わせと検索対象の出力数nを指定するための問い
    合わせ入力装置とを用いる情報検索方法であって、 入力された問い合わせを分析し、与えられた重み付係数
    の大きさに基づいて問い合わせ中のアクセス・キーを選
    択するステップと、 アクセス・キーの選択に応答して、転置ファイルにアク
    セスして選択されたアクセス・キーに関するデータを主
    記憶装置に複写するステップと、 転置ファイルのデータの複写に応答して、新しく複写さ
    れたものも含めて主記憶装置に複写されている転置ファ
    イルのデータと入力された問い合わせの内容に基づい
    て、検索対象毎に問い合わせ得点値と得点期待値を計算
    するステップと、 第n位の問い合わせ得点値と第(n+1)位以下の問い
    合わせ得点値を持つ検索対象の得点期待値を比較し、前
    者が後者を上回る時に、アクセス・キーの選択を中止す
    るステップと、 問い合わせ得点値が第n位までの検索対象の識別子に基
    づいて、上記順ファイルをアクセスするステップ を有する情報検索方法。
  4. 【請求項4】検索対象識別子を入力して当該検索対象に
    関するデータを出力するための、外部記憶装置に保持さ
    れる順ファイルと、アクセス・キーを入力して当該アク
    セス・キーを含む検索対象識別子の集合を出力するため
    の、外部記憶装置に保持される転置ファイルと、重み付
    係数を与えたアクセス・キーの組合せとして表現される
    問い合わせと検索対象の出力数nを指定するための問い
    合わせ入力装置とを用いる情報検索方法において、 アクセス・キーの中には、検索対象によって重みの異な
    るアクセス・キーが含まれており、 入力された問い合わせを分析し、アクセス・キーの重み
    と当該アクセス・キーに与えられた重み付係数の積の大
    きさに基づいて、問い合わせ中のアクセス・キーを選択
    するステップと、 アクセス・キーの選択に応答して、転置ファイルにアク
    セスして選択されたアクセス・キーに関するデータを主
    記憶装置に複写するステップと、 転置ファイルのデータの複写に応答して、新しく複写さ
    れたものも含めて主記憶装置に複写されている転置ファ
    イルのデータと入力された問い合わせの内容に基づい
    て、検索対象毎に問い合わせ得点値と得点期待値を計算
    するステップと、 第n位の問い合わせ得点値と第(n+1)位以下の問い
    合わせ得点値を持つ検索対象の得点期待値を比較し、前
    者が後者を上回る時に、アクセス・キーの選択を中止す
    るステップと、 問い合わせ得点値が第n位までの検索対象の識別子に基
    づいて、上記順ファイルをアクセスするステップ を有する情報検索方法。
  5. 【請求項5】検索対象によって重みの異なるアクセス・
    キーに関しては、転置ファイル上で検索対象識別子が当
    該アクセス・キーに与えられた重み順に予め並べられて
    いることを特徴とする特許請求の範囲第4項記載の情報
    検索方法。
  6. 【請求項6】検索対象識別子を入力して当該検索対象に
    関するデータを出力するための、外部記憶装置に保持さ
    れる順ファイルと、アクセス・キーを入力して当該アク
    セス・キーを含む検索対象識別子の集合を出力するため
    の、外部記憶装置に保持される転置ファイルと、重み付
    係数を与えたアクセス・キーの組合せとして表現される
    問い合わせと検索対象の出力希望数nを指定するための
    問い合わせ入力装置とを用いる情報検索方法であって、 入力された問い合わせを分析し、与えられた重み付係数
    の大きさに基づいて、問い合わせ中のアクセス・キーを
    選択するステップと、 アクセス・キーの選択に応答して、転置ファイルにアク
    セスして選択されたアクセス・キーに関するデータを主
    記憶装置に複写するステップと、 転置ファイルのデータの複写に応答して、新しく複写さ
    れたものも含めて主記憶装置に複写されている転置ファ
    イルのデータと入力された問い合わせの内容に基づい
    て、検索対象毎に問い合わせ得点値と得点期待値を計算
    するステップと、 第n位の問い合わせ得点値と第(n+m)以下の問い合
    わせ得点値を持つ検索対象の得点期待値を比較し、前者
    が後者を上回る時に、アクセス・キーの選択を中止する
    ステップと(mは2以上の整数)、 問い合わせ得点値が第(n+m)位までの検索対象の識
    別子に基づいて、上記順ファイルをアクセスするステッ
    プ を有する情報検索方法。
  7. 【請求項7】検索対象識別子を入力して当該検索対象に
    関するデータを出力するための、外部記憶装置に保持さ
    れる順ファイルと、アクセス・キーを入力して当該アク
    セス・キーを含む検索対象識別子の集合を出力するため
    の、外部記憶装置に保持される転置ファイルと、重み付
    係数を与えたアクセス・キーの組合せとして表現される
    間い合わせと検索対象の出力希望数nを指定するための
    問い合わせ入力装置とを用いる情報検索方法において、 アクセス・キーの中には、検索対象によって重みの異な
    るアクセス・キーが含まれており、 入力された問い合わせを分析し、アクセス・キーの重み
    と当該アクセス・キーに与えられた重み付係数の積の大
    きさに基づいて、問い合わせ中のアクセス・キーを選択
    するステップと、 アクセス・キーの選択に応答して、転置ファイルにアク
    セスして選択されたアクセス・キーに関するデータを主
    記憶装置に複写するステップと、 転置ファイルのデータの複写に応答して、新しく複写さ
    れたものも含めて主記憶装置に複写されている転置ファ
    イルのデータと入力された問い合わせの内容に基づい
    て、検索対象毎に問い合わせ得点値と得点期待値を計算
    するステップと、 第n位の問い合わせ得点値と第(n+m)位以下の問い
    合わせ得点値を持つ検索対象の得点期待値を比較し、前
    者が後者を上回る時に、アクセス・キーの選択を中止す
    るステップと(mは2以上の整数)、 問い合わせ得点値が第(n+m)位までの検索対象の識
    別子に基づいて、上記順ファイルをアクセスするステッ
    プ を有する情報検索方法。
  8. 【請求項8】検索対象によって重みの異なるアクセス・
    キーに関しては、転置ファイル上で検索対象識別子が当
    該アクセス・キーに与えられた重み順に予め並べられて
    いることを特徴とする特許請求の範囲第7項記載の情報
    検索方法。
  9. 【請求項9】検索対象識別子を入力して当該検索対象に
    関するデータを出力するための、外部記憶装置に保持さ
    れる順ファイルと、アクセス・キーを入力して当該アク
    セス・キーを含む検索対象識別子の集合を出力するため
    の、外部記憶装置に保持される転置ファイルと、重み付
    係数を与えたアクセス・キーの組合せとして表現される
    問い合わせと検索対象の出力数nを指定するための問い
    合わせ入力装置とを具備する情報検索システムであっ
    て、 問い合わせの入力に応答して、転置ファイルにアクセス
    し、入力された問い合わせに含まれるアクセス・キーに
    関連する転置ファイル中のデータを主記憶装置に複写す
    る手段と、 複写された転置ファイルのデータと入力された問い合わ
    せの内容に基づいて、検索対象毎に問い合わせ得点値を
    計算する手段と、 問い合わせ得点値の上位のものから順に上記n個の検索
    対象を確定する手段と、 上記n個の検索対象の識別子に基づいて上記順ファイル
    をアクセスする手段 を有する情報検索システム。
  10. 【請求項10】検索対象識別子を入力して当該検索対象
    に関するデータを出力するための、外部記憶装置に保持
    される順ファイルと、アクセス・キーを入力して当該ア
    クセス・キーを含む検索対象識別子の集合を出力するた
    めの、外部記憶装置に保持される転置ファイルと、重み
    付係数を与えたアクセス・キーの組合せとして表現され
    る問い合わせと検索対象の出力数nを指定するための問
    い合わせ入力装置とを具備する情報検索システムであっ
    て、 問い合わせの入力に応答して、転置ファイルにアクセス
    し、入力された問い合わせに含まれるすべてのアクセス
    ・キーに関連する転置ファイル中のデータを主記憶装置
    に複写して、転置ファイルの一部を成す転置表を作成す
    る手段と、 転置表の行と列を入れ替えて主記憶装置中に順表を作成
    する手段と、 順表のデータと入力された問い合わせの内容に基づい
    て、検索対象毎に問い合わせ得点値を計算する手段と、 問い合わせ得点値の上位のものから順に上記n個の検索
    対象を確定する手段と、 上記n個の検索対象の識別子に基づいて上記順ファイル
    をアクセスする手段 を有する情報検索システム。
  11. 【請求項11】検索対象識別子を入力して当該検索対象
    に関するデータを出力するための、外部記憶装置に保持
    される順ファイルと、アクセス・キーを入力して当該ア
    クセス・キーを含む検索対象識別子の集合を出力するた
    めの、外部記憶装置に保持される転置ファイルと、重み
    付係数を与えたアクセス・キーの組合せとして表現され
    る問い合わせと検索対象の出力数nを指定するための問
    い合わせ入力装置とを具備する情報検索システムであっ
    て、 入力された問い合わせを分析し、与えられた重み付係数
    の大きさに基づいて問い合わせ中のアクセス・キーを選
    択する手段と、 アクセス・キーの選択に応答して、転置ファイルにアク
    セスして選択されたアクセス・キーに関するデータを主
    記憶装置に複写する手段と、 転置ファイルのデータの複写に応答して、新しく複写さ
    れたものも含めて主記憶装置に複写されている転置ファ
    イルのデータと入力された問い合わせの内容に基づい
    て、検索対象毎に問い合わせ得点値と得点期待値を計算
    する手段と、 第n位の問い合わせ得点値と第(n+1)位以下の問い
    合わせ得点値を持つ検索対象の得点期待値を比較し、前
    者が後者を上回る時に、アクセス・キーの選択を中止す
    る手段と、 問い合わせ得点値が第n位までの検索対象の識別子に基
    づいて、上記順ファイルをアクセスする手段 を有する情報検索システム。
  12. 【請求項12】検索対象識別子を入力して当該検索対象
    に関するデータを出力するための、外部記憶装置に保持
    される順ファイルと、アクセス・キーを入力して当該ア
    クセス・キーを含む検索対象識別子の集合を出力するた
    めの、外部記憶装置に保持される転置ファイルと、重み
    付係数を与えたアクセス・キーの組合せとして表現され
    る問い合わせと検索対象の出力数nを指定するための問
    い合わせ入力装置とを具備する情報検索システムにおい
    て、 アクセス・キーの中には、検索対象によって重みの異な
    るアクセス・キーが含まれており、 入力された問い合わせを分析し、アクセス・キーの重み
    と当該アクセス・キーに与えられた重み付係数の積の大
    きさに基づいて、問い合わせ中のアクセス・キーを選択
    する手段と、 アクセス・キーの選択に応答して、転置ファイルにアク
    セスして選択されたアクセス・キーに関するデータを主
    記憶装置に複写する手段と、 転置ファイルのデータの複写に応答して、新しく複写さ
    れたものも含めて主記憶装置に複写されている転置ファ
    イルのデータと入力された問い合わせの内容に基づい
    て、検索対象毎に問い合わせ得点値と得点期待値を計算
    する手段と、 第n位の問い合わせ得点値と第(n+1)位以下の問い
    合わせ得点値を持つ検索対象の得点期待値を比較し、前
    者が後者を上回る時に、アクセス・キーの選択を中止す
    る手段と、 問い合わせ得点値が第n位までの検索対象の識別子に基
    づいて、上記順ファイルをアクセスする手段 を有する情報検索システム。
  13. 【請求項13】検索対象によって重みの異なるアクセス
    ・キーに関しては、転置ファイル上で検索対象識別子が
    当該アクセス・キーに与えられた重み順に予め並べられ
    ていることを特徴とする特許請求の範囲第12項記載の情
    報検索システム。
  14. 【請求項14】検索対象識別子を入力して当該検索対象
    に関するデータを出力するための、外部記憶装置に保持
    される順ファイルと、アクセス・キーを入力して当該ア
    クセス・キーを含む検索対象識別子の集合を出力するた
    めの、外部記憶装置に保持される転置ファイルと、重み
    付係数を与えたアクセス・キーの組合せとして表現され
    る問い合わせと検索対象の出力希望数nを指定するため
    の問い合わせ入力装置とを具備する情報検索システムで
    あって、入力された問い合わせを分析し、与えられた重
    み付係数の大きさに基づいて、問い合わせ中のアクセス
    ・キーを選択する手段と、 アクセス・キーの選択に応答して、転置ファイルにアク
    セスして選択されたアクセス・キーに関するデータを主
    記憶装置に複写する手段と、 転置ファイルのデータの複写に応答して、新しく複写さ
    れたものも含めて主記憶装置に複写されている転置ファ
    イルのデータと入力された問い合わせの内容に基づい
    て、検索対象毎に問い合わせ得点値と得点期待値を計算
    する手段と、 第n位の問い合わせ得点値と第(n+m)位以下の問い
    合わせ得点値を持つ検索対象の得点期待値を比較し、前
    者が後者を上回る時に、アクセス・キーの選択を中止す
    る手段と(mは2以上の整数)、 問い合わせ得点値が第(n+m)位までの検索対象の識
    別子に基づいて、上記順ファイルをアクセスする手段 を有する情報検索システム。
  15. 【請求項15】検索対象識別子を入力して当該検索対象
    に関するデータを出力するための、外部記憶装置に保持
    される順ファイルと、アクセス・キーを入力して当該ア
    クセス・キーを含む検索対象識別子の集合を出力するた
    めの、外部記憶装置に保持される転置ファイルと、重み
    付係数を与えたアクセス・キーの組合せとして表現され
    る問い合わせと検索対象の出力希望数nを指定するため
    の問い合わせ入力装置とを具備する情報検索システムに
    おいて、アクセス・キーの中には、検索対象によって重
    みの異なるアクセス・キーが含まれており、 入力された問い合わせを分析し、アクセス・キーの重み
    と当該アクセス・キーに与えられた重み付係数の積の大
    きさに基づいて、問い合わせ中のアクセス・キーを選択
    する手段と、 アクセス・キーの選択に応答して、転置ファイルにアク
    セスして選択されたアクセス・キーに関するデータを主
    記憶装置に複写する手段と、 転置ファイルのデータの複写に応答して、新しく複写さ
    れたものも含めて主記憶装置に複写されている転置ファ
    イルのデータと入力された問い合わせの内容に基づい
    て、検索対象毎に問い合わせ得点値と得点期待値を計算
    する手段と、 第n位の問い合わせ得点値と第(n+m)位以下の問い
    合わせ得点値を持つ検索対象の得点期待値を比較し、前
    者が後者を上回る時に、アクセス・キーの選択を中止す
    る手段と(mは2以上の整数)、 問い合わせ得点値が第(n+m)位までの検索対象の識
    別子に基づいて、上記順ファイルをアクセスする手段 を有する情報検索システム。
  16. 【請求項16】検索対象によって重みの異なるアクセス
    ・キーに関しては、転置ファイル上で検索対象識別子が
    当該アクセス・キーに与えられた重み順に予め並べられ
    ていることを特徴とする特許請求の範囲第15項記載の情
    報検索システム。
JP1242421A 1989-09-20 1989-09-20 情報検索方法及びシステム Expired - Fee Related JPH0675265B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP1242421A JPH0675265B2 (ja) 1989-09-20 1989-09-20 情報検索方法及びシステム
DE69031772T DE69031772T2 (de) 1989-09-20 1990-09-05 Verfahren zur Informations-Wiedergewinnung für ein Datenbanksystem
EP90309707A EP0420424B1 (en) 1989-09-20 1990-09-05 A method of information retrieval for a database system
US07/584,305 US5263159A (en) 1989-09-20 1990-09-18 Information retrieval based on rank-ordered cumulative query scores calculated from weights of all keywords in an inverted index file for minimizing access to a main database

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1242421A JPH0675265B2 (ja) 1989-09-20 1989-09-20 情報検索方法及びシステム

Publications (2)

Publication Number Publication Date
JPH03108064A JPH03108064A (ja) 1991-05-08
JPH0675265B2 true JPH0675265B2 (ja) 1994-09-21

Family

ID=17088865

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1242421A Expired - Fee Related JPH0675265B2 (ja) 1989-09-20 1989-09-20 情報検索方法及びシステム

Country Status (4)

Country Link
US (1) US5263159A (ja)
EP (1) EP0420424B1 (ja)
JP (1) JPH0675265B2 (ja)
DE (1) DE69031772T2 (ja)

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5404514A (en) * 1989-12-26 1995-04-04 Kageneck; Karl-Erbo G. Method of indexing and retrieval of electronically-stored documents
JPH04115360A (ja) * 1990-09-06 1992-04-16 Nec Corp 配列モチーフ評価方式
US5488725A (en) * 1991-10-08 1996-01-30 West Publishing Company System of document representation retrieval by successive iterated probability sampling
US6370479B1 (en) * 1992-02-06 2002-04-09 Fujitsu Limited Method and apparatus for extracting and evaluating mutually similar portions in one-dimensional sequences in molecules and/or three-dimensional structures of molecules
US5428778A (en) * 1992-02-13 1995-06-27 Office Express Pty. Ltd. Selective dissemination of information
US5598557A (en) * 1992-09-22 1997-01-28 Caere Corporation Apparatus and method for retrieving and grouping images representing text files based on the relevance of key words extracted from a selected file to the text files
JP3270783B2 (ja) * 1992-09-29 2002-04-02 ゼロックス・コーポレーション 複数の文書検索方法
US5377314A (en) * 1992-12-21 1994-12-27 International Business Machines Corporation Method and system for selective display of overlapping graphic objects in a data processing system
US5519608A (en) * 1993-06-24 1996-05-21 Xerox Corporation Method for extracting from a text corpus answers to questions stated in natural language by using linguistic analysis and hypothesis generation
US5541986A (en) * 1993-07-27 1996-07-30 Bell Communications Research, Inc. Method and system for automated telecommunications service script consolidation and downloading
US5504887A (en) * 1993-09-10 1996-04-02 International Business Machines Corporation Storage clustering and packing of objects on the basis of query workload ranking
GB2298941B (en) * 1993-10-22 1998-02-04 Fdc Inc Database using table rotation and bimapped queries
US5576954A (en) * 1993-11-05 1996-11-19 University Of Central Florida Process for determination of text relevancy
CA2120447C (en) * 1994-03-31 1998-08-25 Robert Lizee Automatically relaxable query for information retrieval
US5493677A (en) * 1994-06-08 1996-02-20 Systems Research & Applications Corporation Generation, archiving, and retrieval of digital images with evoked suggestion-set captions and natural language interface
SE505844C2 (sv) 1994-09-21 1997-10-13 Qliktech International Ab Metod för extrahering av information från en databas
JPH08115334A (ja) * 1994-10-18 1996-05-07 Canon Inc 検索装置
US5812882A (en) * 1994-10-18 1998-09-22 Lanier Worldwide, Inc. Digital dictation system having a central station that includes component cards for interfacing to dictation stations and transcription stations and for processing and storing digitized dictation segments
JP3282937B2 (ja) * 1995-01-12 2002-05-20 日本アイ・ビー・エム株式会社 情報検索方法及びシステム
US5911140A (en) * 1995-12-14 1999-06-08 Xerox Corporation Method of ordering document clusters given some knowledge of user interests
US6023694A (en) * 1996-01-02 2000-02-08 Timeline, Inc. Data retrieval method and apparatus with multiple source capability
US5802511A (en) * 1996-01-02 1998-09-01 Timeline, Inc. Data retrieval method and apparatus with multiple source capability
US6625617B2 (en) 1996-01-02 2003-09-23 Timeline, Inc. Modularized data retrieval method and apparatus with multiple source capability
US6631382B1 (en) 1996-01-02 2003-10-07 Timeline, Inc. Data retrieval method and apparatus with multiple source capability
US6081798A (en) * 1996-04-24 2000-06-27 International Business Machines Corp. Object oriented case-based reasoning framework mechanism
JPH1049549A (ja) * 1996-05-29 1998-02-20 Matsushita Electric Ind Co Ltd 文書検索装置
US5915249A (en) * 1996-06-14 1999-06-22 Excite, Inc. System and method for accelerated query evaluation of very large full-text databases
US6173298B1 (en) 1996-09-17 2001-01-09 Asap, Ltd. Method and apparatus for implementing a dynamic collocation dictionary
US6119114A (en) * 1996-09-17 2000-09-12 Smadja; Frank Method and apparatus for dynamic relevance ranking
US5870740A (en) * 1996-09-30 1999-02-09 Apple Computer, Inc. System and method for improving the ranking of information retrieval results for short queries
US6057839A (en) * 1996-11-26 2000-05-02 International Business Machines Corporation Visualization tool for graphically displaying trace data produced by a parallel processing computer
US6185559B1 (en) 1997-05-09 2001-02-06 Hitachi America, Ltd. Method and apparatus for dynamically counting large itemsets
US5926808A (en) * 1997-07-25 1999-07-20 Claritech Corporation Displaying portions of text from multiple documents over multiple databases related to a search query in a computer network
US6373948B1 (en) * 1997-08-15 2002-04-16 Lucent Technologies Inc. Cryptographic method and apparatus for restricting access to transmitted programming content using program identifiers
US6073122A (en) * 1997-08-15 2000-06-06 Lucent Technologies Inc. Cryptographic method and apparatus for restricting access to transmitted programming content using extended headers
US5987457A (en) * 1997-11-25 1999-11-16 Acceleration Software International Corporation Query refinement method for searching documents
US6037938A (en) * 1997-12-01 2000-03-14 Qliktech International Ab Method and a device for displaying information about a large number of independent data elements
JP3571201B2 (ja) * 1997-12-12 2004-09-29 富士通株式会社 データベース検索装置及びデータベース検索プログラムを記録したコンピュータ読み取り可能な記録媒体
US6608895B1 (en) 1998-11-04 2003-08-19 Tadiran Telecom Business Systems, Ltd. Method of anticipatory dialing
JP3578651B2 (ja) * 1998-12-04 2004-10-20 株式会社リコー 文書検索システム、文書検索方法およびその方法を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
NZ508695A (en) * 2000-12-07 2003-04-29 Compudigm Int Ltd Method and system of searching a database of records
US20040205454A1 (en) * 2001-08-28 2004-10-14 Simon Gansky System, method and computer program product for creating a description for a document of a remote network data source for later identification of the document and identifying the document utilizing a description
US7587381B1 (en) * 2002-01-25 2009-09-08 Sphere Source, Inc. Method for extracting a compact representation of the topical content of an electronic text
US20040024776A1 (en) * 2002-07-30 2004-02-05 Qld Learning, Llc Teaching and learning information retrieval and analysis system and method
US7254587B2 (en) * 2004-01-12 2007-08-07 International Business Machines Corporation Method and apparatus for determining relative relevance between portions of large electronic documents
JP2005250980A (ja) * 2004-03-05 2005-09-15 Oki Electric Ind Co Ltd 文書検索システム、検索条件入力装置、検索実行装置、文書検索方法、および文書検索プログラム
US8285739B2 (en) * 2005-07-28 2012-10-09 International Business Machines Corporation System and method for identifying qualifying data records from underlying databases
EP1835418A1 (en) * 2006-03-14 2007-09-19 Hewlett-Packard Development Company, L.P. Improvements in or relating to document retrieval
US7739255B2 (en) * 2006-09-01 2010-06-15 Ma Capital Lllp System for and method of visual representation and review of media files
US20080109409A1 (en) * 2006-11-08 2008-05-08 Ma Capital Lllp Brokering keywords in radio broadcasts
US20080109305A1 (en) * 2006-11-08 2008-05-08 Ma Capital Lllp Using internet advertising as a test bed for radio advertisements
US20080109845A1 (en) * 2006-11-08 2008-05-08 Ma Capital Lllp System and method for generating advertisements for use in broadcast media
US7925644B2 (en) * 2007-03-01 2011-04-12 Microsoft Corporation Efficient retrieval algorithm by query term discrimination
US7809714B1 (en) 2007-04-30 2010-10-05 Lawrence Richard Smith Process for enhancing queries for information retrieval
US7822752B2 (en) * 2007-05-18 2010-10-26 Microsoft Corporation Efficient retrieval algorithm by query term discrimination
EP2146292B8 (en) * 2008-07-18 2019-03-20 QlikTech International AB Method and apparatus for extracting information from a database
US7730061B2 (en) * 2008-09-12 2010-06-01 International Business Machines Corporation Fast-approximate TFIDF
US20110040762A1 (en) * 2009-08-12 2011-02-17 Globalspec, Inc. Segmenting postings list reader

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3670310A (en) * 1970-09-16 1972-06-13 Infodata Systems Inc Method for information storage and retrieval
US4318184A (en) * 1978-09-05 1982-03-02 Millett Ronald P Information storage and retrieval system and method
US4358824A (en) * 1979-12-28 1982-11-09 International Business Machines Corporation Office correspondence storage and retrieval system
US4817036A (en) * 1985-03-15 1989-03-28 Brigham Young University Computer system and method for data base indexing and information retrieval
US4823306A (en) * 1987-08-14 1989-04-18 International Business Machines Corporation Text search system
JPH021057A (ja) * 1988-01-20 1990-01-05 Ricoh Co Ltd 文書検索装置

Also Published As

Publication number Publication date
DE69031772T2 (de) 1998-06-25
DE69031772D1 (de) 1998-01-15
EP0420424B1 (en) 1997-12-03
EP0420424A3 (en) 1992-12-02
JPH03108064A (ja) 1991-05-08
US5263159A (en) 1993-11-16
EP0420424A2 (en) 1991-04-03

Similar Documents

Publication Publication Date Title
JPH0675265B2 (ja) 情報検索方法及びシステム
US6944609B2 (en) Search results using editor feedback
US9817825B2 (en) Multiple index based information retrieval system
US8620900B2 (en) Method for using dual indices to support query expansion, relevance/non-relevance models, blind/relevance feedback and an intelligent search interface
USRE36727E (en) Method of indexing and retrieval of electronically-stored documents
US7158996B2 (en) Method, system, and program for managing database operations with respect to a database table
US5761496A (en) Similar information retrieval system and its method
US5926812A (en) Document extraction and comparison method with applications to automatic personalized database searching
Raman et al. Online dynamic reordering for interactive data processing
US5907840A (en) Overlapping subdocuments in a vector space search process
US20010016846A1 (en) Method for interactively creating an information database including preferred information elements, such as, preferred-authority, world wide web pages
Fox et al. Coefficients of combining concept classes in a collection
Chen et al. Websail: From on-line learning to web search
US6353819B1 (en) Method and system for using dynamically generated code to perform record management layer functions in a relational database manager
US6269359B1 (en) Relational data base system and method for rapidly realizing a query to a database
JP2829745B2 (ja) 文書検索装置
JP2008165622A (ja) マルチオペレーション・プロセッシングを用いたデータベースのクエリー処理システム
Rupley Jr Introduction to query processing and optimization
JPH07192010A (ja) 文書処理装置
JP3275813B2 (ja) 文書検索装置、方法及び記録媒体
JPH0227478A (ja) 文書管理装置
JPH08329101A (ja) データベースシステム
US7730074B1 (en) Accelerated large scale optimization
Gyorodi et al. Full-text search engine using mySQL
Olken Scientific and statistical data management research at LBL

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees