JPH03108064A

JPH03108064A - 情報検索方法及びシステム

Info

Publication number: JPH03108064A
Application number: JP1242421A
Authority: JP
Inventors: Kinichi Mitsui; 欽一三ツ井
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1989-09-20
Filing date: 1989-09-20
Publication date: 1991-05-08
Anticipated expiration: 2009-09-21
Also published as: EP0420424A3; DE69031772T2; JPH0675265B2; DE69031772D1; US5263159A; EP0420424B1; EP0420424A2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】Ａ、産業上の利用分野本発明は、情報検索の分野において、特に検索結果に得
点を与えて順位づけを行う定量的検索を。

時間のかかる外部メモリのアクセス回数を減らすことに
より高速化する方法およびシステムに関する。なお、本
発明の手法は文献検索のようなキーワードに基づいた検
索のみでなく一般の数値量を扱うようなデータベースの
問い合わせを定量化する際の高速化にも有効である。

Ｂ、従来の技術定量的検索とは、情報検索において検索質問を与えたと
きに各検索対象に対して得点を計算し、高得点類に検索
対象を出力するものである。検索対象とは、例えば文献
や特許情報などをさす。また、順序づけを行うのは検索
条件の満たし具合いを定量的に扱うことにより、あいま
いであったり不完全であったりする問い合わせに柔軟に
対処するためである。定量的検索の例を第５図に示す。

ここでは検索対象として文献を例に説明する。各文献に
は検索に使われる索引用語（キーワード）とか発行年度
のような数値量による属性が与えられているとする。い
ま検索条件として、キーワードとしてに１かに２を持ち
発行年Ｃ１の値ができるだけ大きいものという条件があ
たえられたとする。文献かに１を含んでいる場合に得点
ｖ１をに２を含んでいる場合に得点ｖ２をまたｃｌの値
に応じてｖ３を与え総合点をその和とすれば各文献に得
点を与えることができる。

この得点計算を数式で表現すると、ｖｌ＊に１十ｖ２＊
に２＋ｆ　（Ｃ１）となり、ある文献がキーワードに１
、Ｋ２を含めばそれぞれ１を、含まなければ０をに１、
Ｋ２に代入し、ｆは例えば発行年が最も最近の場合に１
になり発行年が古くなるほど値が小さくなる関数とすれ
ば得点が計算できる。全ての文献についてこの得点を計
算し順序づければ条件を最も良く満たす文献から順に結
果を出力することができる。

得点の計算式は、このような和を計算するものに限度し
なくても、例えばｍａｘ　（ｖｌ＊に１゜ｖ２宰に２）
のように二つの値の大きいほうを選ぶようなものであっ
てもよい。このように検索要求には様々な得点計算方法
が考えられる。

一般に文献検索等における検索対象の数は非常に大きな
ものであり、検索対象の全てを質問ごとにアクセスする
のは大量の外部メモリのアクセスを必要とするので現実
的でない。５ａｌｔｏｎ。

Ｇ、らの文献ＦＥｘｔｅｎｄｅｄ　　Ｂｏｏｌｉａｎ　
　Ｉｎｆｏｒｍａｔｉｏｎ　　　Ｒｅｔｒｉｅｖａｌ、
Ｃｏｍｍｕｎｉｃａｔｉｏｎｓ　　ｏｆｔｈｅ　　ＡＣ
Ｍ、Ｖｏｌ、２６　　Ｎｏ、１２，１９８３」で紹介さ
れているように、この種の情報検索では高速に検索を行
うために転置ファイルを用いる。この様子を第２図に示
す。転置ファイル（２１）はキーワードや数値量を索引
としてそれらの値を持つような検索対象を逆にたどれる
ようにするものである。これに対して元の文献が順序よ
く並べられたファイルを順ファイル（２４）と呼ぶ。文
献内容は順ファイルに含まれていてもよいし、順ファイ
ルの外に記憶されていてもよい。

後者の場合には、順ファイル中に文献内容の記憶場所の
情報が含まれる。この転置ファイルを用い。

まず得点を計算するのに必要なキーワードや数値量を一
つでも持つ文献識別子を全て求める。これは、各キーワ
ードや数値量に対する文献識別子の集合の和をとること
で得られる（２２）、得られた各文献識別子について順
ファイルにアクセスしキーワードの集合を得、得点を計
算して順序づけて出力する（２３）、このように転置フ
ァイルを用いると、一般に全ての文献にアクセスし得点
を計算する必要がなくなるのでより高速に検索ができる
。転置ファイルも外部記憶のアクセスを必要とするが、
同じ索引をもつ情報が物理的に近くに記憶されており、
索引を通して少ないアクセス回数で必要な内容を取り出
すことができる。

Ｃ０発明が解決しようとする問題点情報検索においては、Ｊ＠ファイルも転置ファイルも非
常に大きくなるので、外部記憶に保存され検索条件の判
定や得点の計算などの光めにその一部が内部記憶に移さ
れる。外部記憶のアクセスには比較的長い時間を要する
ので検索の速度を高めるにはできるだけ外部記憶のアク
セスをしないほうが良い、上述した従来の方法では、最
初に転置ファイルにより関連する検索対象を絞ることで
外部記憶のアクセスを減らした。しかし、定量的検索で
は一般に高得点の対象を出力することが要求され得点の
低いものは不要である。このことを考慮したとき、上述
の方法は順ファイル中の順位の低い対象へアクセスして
いるがこれは不要である。

また、数値量の場合多くの対象が得点に関係する場合が
あり、関係するものをすべてアクセスすると絞り込みの
効果がすくなくなる。そのための工夫が必要である。

本発明の目的は、より外部ファイルへのアクセスを減ら
す定量的検索のための方法およびシステムをあたえるこ
とである。

Ｄ０問題点を解決する手段問題点を解決する手段は次の４点にまとめることができ
る。

（１）転置ファイルのみの情報により順位づけを行う。

（２）転置ファイルのなかでも、より順位づけに有効な
部分からアクセスを行い、不要な部分にはできるだけア
クセスしない。

（３）数値量に関しても転置ファイルと同様の構造を考
え順位付けに不要な部分にはできるだけアクセスしない
。

（４）順位づけの条件を緩め、完全な順位づけをしない
かわりに、転置ファイルのアクセスを減らす６Ｅ、実施
例（１）基本アルゴリズムここでは本発明について第１図の例を用いて説明する。

順ファイルには文献識別子に対する付属するキーワード
の集合が記憶される。転置ファイルには、キーワードと
そのキーワードを含む文献識別子の集合が記憶される（
１１）。まず問い合わせが与えられ得点の計算に関係あ
るキーワードが得られる。問い合わせの入力は適宜端末
装置を通じて行えばよい。問い合わせを１．Ｏ＊に１＋
０．６＊に２＋０．３＊に３とすると関係あるキーワー
ドはＫ１．に２、Ｋ３である。外部記憶にある転置ファ
イルにアクセスし主記憶上に転置表を作成する（１２）
。この転置表は転置ファイルの一部になっていることが
わかる。この転置表の行と列を入れ換えると類火（１３
）ができる。これは外部記憶の順ファイルのうち得点計
算に必要な部分になっていることがわかる。類火のそれ
ぞれの行について得点を計算することができる。得点の
高いものから順ファイル（１５）にアクセスしその文献
内容を取り出し検索が完了する。従来の方式では、主記
憶上で転置表の行と列を入れ換える操作は行わず、転置
表の各行の和集合により関連する文献識別子を求めてか
ら順ファイルにアクセスしそれぞれの文献のキーワード
を新たに取り出し得点をもとめているので得点の低い文
献についても順ファイルのアクセスをともなう。上位ｎ
位までのように高得点のもののみ検索すれば十分な場合
、従来の方法は余分な外部記憶のアクセスをしている。

本発明法と従来法による外部記憶装置へのアクセスを、
第１図と第２図の場合について比較してみよう６ ■、第１図の本発明法の場合（１）転置ファイルへのアクセス。

キーワードに１、Ｋ２、Ｋ３について転置ファイルへの
アクセスが行われる。

（２）順ファイルへのアクセス。

文献識別子Ｄ１とＤ２について順ファイルへのアクセス
が行われる。

■、第２図の従来法の場合（１）転置ファイルへのアクセス。

（２）順ファイルへのアクセス。

文献識別子Ｄ１、Ｄ２、Ｄ３について順ファイルへのア
クセスが行われる。

ＩとＨを比較してわかるように、本発明によれば文献識
別子Ｄ３について順ファイルへアクセスしないですむの
で、その分アクセス時間が減少することが理解できよう
。次に、本発明法と従来法のそれぞれについて、外部記
憶装置のアクセスに要する時間を一般的に評価してみる
。まず、次のような定義をする。

Ｎ　ｑｋｅｙ　　　　間合せに使われたキーワードの数
Ｎ　ｋｅｙｄｏｃ　　　転置ファイル上での一つのキー
ワードに対する平均文献識別子数Ｎ　ｒｅｌａｔｅｄ　　問合せに関するキーワードを少
なくともひとつ含む関連文献数Ｎ　ｏｕｔｐｕｔ　　　要求された出力文献の数Ｔ　ｉ
ｎｖ　　　　　転置ファイルのルーコードを取り出すの
に必要な平均時間Ｔ　ｔｒａｎｓ　　　転置表の転置表をつくるのに要す
る時間Ｔ　ｕｎｉｏｎ　　　各キーワードに対する文献識別子
の集合の和集合を求める時間Ｔ　ｓｅｑ　　　　順ファイルのルーコードを取り出す
のに必要な平均時間Ｔ　ｑｕｅｒｙ　　　問合せ関数値の平均的計算時間Ｔ
　５ｏｒｔ　　　　問合せ関数値のソーティングに必要
な時間本発明の手法で必要とする時間は、ＴｉｎｖＸ　Ｎｑｋｅｙ＋　Ｔｔｒａｎｓ＋　Ｔｑｕｅ
ｒｙＸ　Ｎｒｅｌａｔｅｄ＋Ｔ　５ｏｒｔ　＋　Ｔ　ｓ
ｅｑ　Ｘ　Ｎ　ｏｕｔｐｕｔである。ここで、第一項は
、転置ファイルのアクセスに必要な時間、第二項は転置
表の転置表を作るだめの時間、第三項は間合せ関数値の
計算に必要な時間、第四項はソーティングに必要な時間
、第五項は上位定数個について順ファイルのアクセスに
要する時間である。

これに対して、従来の方式で必要とする時間は、Ｔｉｎ
ｖＸ　Ｎｑｋｅｙ＋　Ｔｕｎｉｏｎ＋　ＴｓｅｑＸ　Ｎ
ｒｅｌａｔｅｄ＋ＴｑｕｅｒｙＸ　Ｎｒｅｌａｔｅｄ＋
Ｔｓｏｒｔである。ここで、本発明の方法のものと違う
のは、第二項が関連する文献を和集合により求める時間
、第三項が関連文献について順ファイルをアクセスする
のに要する時間である。という点である。

後者の方式の所要時間から前者の方式の所要時間を引く
と、（Ｔｕｎｉｏｎ−Ｔｔｒａｎｓ）　＋ＴｓｅｑＸ　　（
Ｎｒｅｌａｔｅｄ　−Ｎｏｕｔｐｕｔ）となる。（Ｔ　ｕｎｉｏｎ　−Ｔ　ｔｒａｎｓ　）の部
分は、後者の方式が単純な和集合の計算であるのに対し
て、本発明の方法は、転置表を転置する操作なのでＴｔ
ｒａｎｓのほうが少し大きな値をとる。しかし、これら
の操作はハツシュ技法を用いることができるし、計算は
主記憶上で行われるので、比較的高速な処理ができる。

従って、第一項はそれほど大きな値は取らない。これに
対して、Ｔ　ｓｅｑは、ディスクアクセスに要する平均
時間であった。これは、システムに依存する値であり、
一般値は議論しにくいが、主記憶上の計算に比べるとか
なり遅いのが普通である。従って、関連する文献より出
力すべき文献の数が少なければすくないほと、本発明の
方式が有効であることがわかる。

−回のディスクアクセスに要する時間は、例えば、中大
型機の場合で平均数ｍ　ｓ　ｅ　ｃから数十ｍ５ｅｃ程
度かかる。これに対して、主記憶での計算の部分をＬｉ
５ｐによりプログラミングして実験した結果によると、
−検素対象あたり１ｍｓ　ｅｃ以下であった。Ｌｉ５ｐ
は、非常に関数呼出しが多い等、通常のプログラミング
言語に比べて処理速度は遅い。従って、一般に、通常の
手続き型言語を用いて同じ計算を行なった場合、さらに
−桁はど高速になると期待される。また、大型機では、
ディスクアクセスの高速化が非常に工夫されているが、
ひり低レベルの機種では、主記憶上での計算とディスク
アクセスとのギャップは更に高いと考えられる。

以上、結論としていえることは、本発明の方法は、順フ
ァイルについて本当に出力に必要な部分のみアクセスす
るような工夫をして高速化をはかっているので、演算速
度に対してディスクアクセスが非常に遅い状況で、関連
文献のうち出力すべきものが少数であるような場合に従
来方法よりも有効であるということである。

Ｔ　ｔｒａｎｓとＴ　ｕｎｉｏｎの計算のオーダーにつ
いて。

簡単にふれておく。転置表の転置は、まず、文献識別子
をキーとするハツシュ表を作成しておき、転置ファイル
から集められたそれぞれの文献識別子について、対応す
るキーワードをハツシュ表の対応する場所に追加してい
けばよい。あるキーワードを含む文献の平均数が一定個
であることを仮定すると、この計算は、キーワードの数
に対して線型オーダーである。また、関連文献を和集合
で求める部分も同じようにして線型オーダーで計算でき
る。文献の数に対しては、文献の数が増えると、あるキ
ーワードを含む文献の数が線型オーダーで増える。上の
議論より９文献の数に対しても線型オーダーであること
がわかる。これらより、上で比較した両方式とも、問合
せの長さやデータベースの大きさに対して、Ｔ　ｔｒａ
ｎｓとＴ　ｕｎｉｏｎの計算量が線型オーダーで押えら
れるという良い性質を持っていることがわかる。

なお、従来方式では、順ファイルに文献識別子と当該文
献に含まれるキーワードの対照表が含まれている必要が
あるけれども、この基本アルゴリズムではそのような表
は必須ではない。

（２）改良アルゴリズム上で述べた方法を基本とし、更に転置ファイルのアクセ
スの回数を減らすための改良について述べる。この様子
を第３図に示す。得点の計算に関係のあるキーワードを
もとに転置ファイルをアクセスする際に、最も順位に影
響を与えるキーワードから先にアクセスするようにする
。第３図の例ではに１の重みが最も大きく、このキーワ
ードを含む文献と含まない文献では大きな差がでる。Ｋ
１について転置ファイル（３１）をアクセスし主記憶上
に転置表を作る（３２）。さらに行と列を入れ換える（
３３）。ここで各文献について得点の最小確定値と最大
期待値を求めることができる。

最小確定値は、ここまでで調べたキーワードのみから計
算される得点の下限であり、最大期待値は残りのキーワ
ードが間合せ条件を全て満たしているとしたときの得点
の上限である。第３図のＤｘは残りの文献全てを代表す
るものである。この時点で最小確定値の順に仮の順位を
つける。もしも最終結果は第２位までで十分であるとす
ると、第３位以下の最大期待値が第２位の最小確定値よ
り小さいので第３位以下の文献は残りのキーワードを調
べなくても順位は２位より上がらないことがわかる。こ
こで２位までの文献を順ファイルにアクセスしキーワー
ドを調べて正確な得点を調べればよい。したがって、本
発明の基本アルゴリズムによったならば、キーワードに
１、Ｋ２、Ｋ３について転置ファイルへのアクセスを要
したところ、この改良アルゴリズムによればキーワード
に１についてだけ転置ファイルへアクセスすればよいの
で、アクセス時間が短縮される。

もしもこの例で上位第１位までという条件なら第２位の
最大期待値が第１位の最小確定値よりも大きいので別の
キーワードを調べなければ第１位は決定できない。次に
調べるキーワードを選ぶ場合、第ｎ位の最小確定値を最
も増やすか第（ｎ＋１）位以下の最大期待値を最も減ら
すものを選ぶ。

例の場合に２が選ばれ（３４）、再度得点が計算される
（３５）。ここで第１位の最小確定値が第２位の最大期
待値を上回ったので、その文献識別子（３６）について
順ファイルをアクセスし検索を終了する。この方式では
問い合わせに含まれる全てのキーワードに関して転置フ
ァイルをアクセスする必要が必ずしもないので、高速化
に効果がある。

さて、第３図の例では、問い合わせがアクセス・キーの
線型結合として表現されており、したがって問い合わせ
得点値（確実値）が第（ｎ＋１）位の文献の得点期待値
のみを考慮すれば、第ｎ位までの文献を確定することが
できた。しかしながら、問い合わせがｍａｘやｍｉｎと
いった計算を含んでいたり、数量値属性を持つアクセス
・キーを含んでいたりするときには、確実値第（ｎ＋１
）位の文献の期待値よりも、確実値第（ｎ＋２）位以降
の文献の期待値の方が大きくなる可能性がある。

そこで、このような場合を考慮した処理手順を形式的に
記述しておく。

１、最初に、最も順位に差をつけるようなキーワードを
選び、転置ファイルにアクセスし、そのキーワードを含
む文献識別子の集合を主記憶に取り込む。キーワードの
選び方は、そのキーワードを含む文献と含まない文献の
得点差が最も大きくなるようなものを選ぶ。

２、主記憶中に類火に新しく取り込まれた情報を加え、
類火中の文献の得点（最小確定値）を（再）計算し順位
をつける。このときの検索された文献の数がｎに満たな
い場合は次のキーワードについてこの１．２．の手続き
を繰り返す。順位の並べ換えは、毎回全部の文献の並べ
換えをしなくても、変更のあった文献のみ得点を再計算
して入れ替えればよい。これはバランス木のようなデー
タ構造の工夫により可能である。

３、初めて文献の数がｎを越えたとき、最下位としてこ
れまでのキーワードを全て含まないような仮想的な文献
を表に加えておく。当然このような文献が最も確定値が
低い。

４、最下位を第（ｎ＋ｓ）位としよう。第（ｎ＋Ｓ）位
の文献が今後理想的にキーワードを含んでいた場合の得
点の最大期待値が計算できる。もし第（ｎ＋ｓ）位の最
大期待値が第ｎ位の最小確定値に満たない場合は第（ｎ
＋ｓ）位の文献は、もっというと第（ｎ＋ｓ）位以下の
文献は第ｎ位以上にはなりえないことがわかる。ここで
第（ｎ＋Ｓ）位の情報を類火から削除し、第（ｎ＋５−
１）位の文献を新しく最下位とする。

５、もし最下位が第ｎ位に一致していればここで第ｎ位
までが確定したことになるので手続きを止める。そうで
なければ最下位の繰り上がりがなくなるまで４．５．の
手続きを繰り返す。

６、第ｎ位までが確定しなかった場合は、次のキーワー
ドを選んで転置ファイルを調べる。すなわち、１．の手
続きから繰り返す。このとき最下位の文献が２．で想定
した仮想的な文献でなければ、すなわち途中でこの仮想
的な文献が削除されたあとでは、既に類火中にないよう
な文献が新しく検索されてもそれは無視してよい。なぜ
なら、これらは既に第ｎ位以上になりえないことが確定
しているからである。次のキーワードの選び方は、それ
が含まれているとき第ｎ位の最小確定値を最も上げるも
のか、またはそれが含まれていないとき第（ｎ＋ｓ）位
の最大期待値を最も下げるものを選ぶようにする。

この方式の利点としては、第ｎ位の最小確定値と第（ｎ
＋１）位以下の最大期待値の比較を、将来第ｎ位以上に
なりうる限界としての最下位を考えることにより、効率
的に行っていることがあげられる。丁度、将来第ｎ位以
上になりうる限界点が次第にせり上がっていきその時点
の第ｎ位と重なった時に手続きをやめるようなものであ
る。類火中の第（ｎ＋１）位以下の全ての文献について
最大期待値を求める必要はない。また、最下位をせり上
げる時に元の最下位の文献の情報を削除し、最下位がせ
り上がり始めて以降新しく検索される文献を無視するこ
とにより、不必要な情報を類火中に残さないことも効率
上有利である。

（３）数値属性の扱い次に発行年のような数値量属性を定量検索に利用すると
きの方法について述べる。この様子を第４図にしめす。

数値属性に関する得点を計算する場合には属性値に対し
て適当な得点を与える関数を決めておけばよい（４８）
。前述の例ではｆ（Ｃ１）のように記述した。ここでこ
の関数は属性値の変化に対して単調に変化するものでな
ければならない。例えば、属性値が大きいほど得点が高
いもの、属性値がある値に近いほど得点が高いものなど
である。

数値属性に関しても、キーワードの場合と同様に属性値
から逆にもとの検索対象を対応づける転置ファイルを作
成することができる。第４図ではに３が発行年を表す数
値属性である（４１）、転置ファイル上で検索対象が、
属性値の昇順あるいは降順に並べられており、昇順ある
いは降順に高速にアクセスできるものとする。これはＢ
−木のような既存の技術を使って実現できる。

さて、一般に数値属性を検索条件に使う場合。

得点に影響する値の範囲は広範囲におよび、転置ファイ
ル上の得点に影響する値の範囲全てにアクセスするのは
やはり多くの外部記憶のアクセスを必要とする。高得点
のもののみの出力が必要とされる場合には、数値属性の
レコードに関しては高得点を与える部分のみアクセスす
れば十分である可能性がある。数値属性のアクセス・キ
ーに関しては検索対象識別子が予め属性順にソートされ
ている転置ファイルを用いることにより高得点を得られ
る部分から外部記憶にアクセスしく２）で説明した方式
と同様に最小確定値および最大期待値を計算しながら高
順位が確定した時点で検索を終了すればよい。

これまで説明してきたアルゴリズムでは、キーを一度使
うとそれは二度と使われなかったが、数値属性のキーを
扱う場合に、転置ファイルに関数値が０以上になる、ま
だアクセスしていない文献識別子が残っている限り、キ
ーを再使用する可能性がある。但し、キーを使用した後
で、当該キーから期待される最大の重みは、残された文
献の関数値の最大期待値に更新される。したがって、そ
の値によっては、つぎのキーとして、別のキーが使用さ
れる可能性がある。

例を用いて説明する。第４図の例では、問い合わせ式の
３つの項の中で最大値をとりうるのは０゜５に３なので
１発行年（Ｆ３）が得点に最も影響を与えるものとして
選ばれる。得点は最近の文献はど高いとする。転置ファ
イルに１回アクセスすると得点の高い文献識別子が幾つ
か得られる（４２）。（２）の方法と同様に主記憶に類
火を作成し、最小確定値と最大期待値を計算する（４３
）。第ｎ位までが確定しなければ、発行年も含めて次に
調べるキーワードや属性を選び同様の手続きを繰り返す
（４４，４５）。なお最大期待値を計算する場合、数値
量に関する以降の得点はそれまでの得点よりも必ず低く
なることを利用する。例えば、（４５）のＤｘの期待値
は、発行年に関して最大０．５Ｘ０．５＝０．２５が期
待でき、Ｆ２を含むとすると０．２が加算され全体で最
大０．４５までの得点であることになる。このようにし
て転置ファイルに関してより得点に影響を与える部分か
らアクセスすることにより不要な転置ファイルのアクセ
スを避けることができる。

また、この方式は数値属性のための工夫として説明した
が、キーワード属性でも個々の検索対象が含むキーワー
ドに得点の重みが付けられている場合、例えばキーワー
ドＫｘは文献Ｄ１では１゜０の重みを持つが文献Ｄ２で
は０．５の重みしか持たないといった場合に、転置ファ
イル上で各キーワードに対する検索対象の識別子をあら
かじめ重み順に並べておけば、ここでの議論が全く同様
に使えることに注意されたい。

（４）緩い順位付けで更に外部記憶のアクセスを減らす
方法（２）および（３）の説明では、転置ファイルのアクセ
スを停止するか続行するかの判断において、第ｎ位の最
小確定値と第ｎ＋１位以降の最大期待値を比較した。こ
れに対して、第ｎ位の最小確定値と第ｎ＋ｍ位（ｍ≧２
）以下の最大期待値の比較によって上記判断を行うなら
、第ｎ位と第（ｎ＋ｍ）位以下との差は第ｎ位と第（ｎ
＋１）位以下との差より大きいことが期待できるので早
く順位の決定が完了する可能性がある。具体的な処理手
順としては、最下位が第（ｎ＋ｍ）位と一致した時点で
手続きを止める点を除いて、”（２）改良アルゴリズム
″のセクションで述べた手順１゜〜６．と同様のものを
採用すればよい。

ただし、このときの順位の意味は、第ｎ位までが手続終
了時点での第（ｎ十ｍ）位以内に入っていることがいえ
るのみである。逆にその時点での第（ｎ＋ｍ）位以内、
もっと言えば第ｎ位以内には最終的に第（ｎ十ｍ）位以
下になるものも含まれている可能性がある。このように
して確定した第（ｎ＋ｍ）位以内の文献の中から真に第
ｎ位以内の文献を見つけるためには、第（ｎ　＋ｍ）位
以内の文献について順ファイルにアクセスし、従来方法
のようにして厳密に得点を計算してもよいし、あるいは
文献内容を出力してしまって人間が選択してもよい。

極端な例としてはｍを検索対象の総数とすると検索条件
を調べなくても第ｎ位までが第ｎ位までに含まれている
ことが言える。このように大きなｍをとることは余計な
結果が多く含まれるので意味がないが、適当な大きさの
ｍを考えると一般には第ｎ位までがより早く見つかる。

本来、定量的検索は曖昧な問い合オ）せを処理するもの
であった。このことを考えると得点の高い検索対象があ
る程度までしぼり込まれた段階で検索処理を終了し結果
を出力するのは検索の高速化が得られるならば妥当な方
針であると考えられる。

Ｆ２発明の詳細な説明したように本発明は、定量検索での得点計算において転置ファイルのみを用い
て得点計算を行ない、また得点の期待値により転置ファ
イルの必要な部分のみをアクセスするような機構により
順ファイルおよび転置ファイルのアクセスを必要最低限
におさえることにより検索処理速度が向上するという効
果がある。

【図面の簡単な説明】

第１図は本発明の基本的な動作を示す説明図、第２図は
従来の技術における方式の説明図、第３図は本発明の要
点の２番目の改良アルゴリズムの例を示す説明図、第４
図は本発明の要点の３番目の数値量属性を含む場合の例
を示す説明図、第５図は定量的検索を説明する概念図で
ある。

Claims

【特許請求の範囲】

（１）検索対象識別子を入力して当該検索対象に関する
データを出力するための、外部記憶装置に保持される順
ファイルと、アクセス・キーを入力して当該アクセス・
キーを含む検索対象識別子の集合を出力するための、外
部記憶装置に保持される転置ファイルと、重み付係数を
与えたアクセス・キーの組合せとして表現される問い合
わせと検索対象の出力数ｎを指定するための問い合わせ
入力装置とを用いる情報検索方法であって、問い合わせの入力に応答して、転置ファイルにアクセス
し、入力された問い合わせに含まれるアクセス・キーに
関連する転置ファイル中のデータを主記憶装置に複写す
るステップと、複写された転置ファイルのデータと入力された問い合わ
せの内容に基づいて、検索対象毎に問い合わせ得点値を
計算するステップと、問い合わせ得点値の上位のものから順に上記ｎ個の検索
対象を確定するステップと、上記ｎ個の検索対象の識別子に基づいて上記順ファイル
をアクセスするステップを有する情報検索方法。
（２）検索対象識別子を入力して当該検索対象に関する
データを出力するための、外部記憶装置に保持される順
ファイルと、アクセス・キーを入力して当該アクセス・
キーを含む検索対象識別子の集合を出力するための、外
部記憶装置に保持される転置ファイルと、重み付係数を
与えたアクセス・キーの組合せとして表現される問い合
わせと検索対象の出力数ｎを指定するための問い合わせ
入力装置とを用いる情報検索方法であって、問い合わせの入力に応答して、転置ファイルにアクセス
し、入力された問い合わせに含まれるすべてのアクセス
・キーに関連する転置ファイル中のデータを主記憶装置
に複写して、転置ファイルの一部を成す転置表を作成す
るステップと、転置表の行と列を入れ替えて主記憶装置
中に順表を作成するステップと、順表のデータと入力された問い合わせの内容に基づいて
、検索対象毎に問い合わせ得点値を計算するステップと
、問い合わせ得点値の上位のものから順に上記ｎ個の検索
対象を確定するステップと、上記ｎ個の検索対象の識別子に基づいて上記順ファイル
をアクセスするステップを有する情報検索方法。
（３）検索対象識別子を入力して当該検索対象に関する
データを出力するための、外部記憶装置に保持される順
ファイルと、アクセス・キーを入力して当該アクセス・
キーを含む検索対象識別子の集合を出力するための、外
部記憶装置に保持される転置ファイルと、重み付係数を
与えたアクセス・キーの組合せとして表現される問い合
わせと検索対象の出力数ｎを指定するための問い合わせ
入力装置とを用いる情報検索方法であって、入力された問い合わせを分析し、与えられた重み付係数
の大きさに基づいて問い合わせ中のアクセス・キーを選
択するステップと、アクセス・キーの選択に応答して、転置ファイルにアク
セスして選択されたアクセス・キーに関するデータを主
記憶装置に複写するステップと、転置ファイルのデータ
の複写に応答して、新しく複写されたものも含めて主記
憶装置に複写されている転置ファイルのデータと入力さ
れた問い合わせの内容に基づいて、検索対象毎に問い合
わせ得点値と得点期待値を計算するステップと、第ｎ位
の問い合わせ得点値と第（ｎ＋１）位以下の問い合わせ
得点値を持つ検索対象の得点期待値を比較し、前者が後
者を上回る時に、アクセス・キーの選択を中止するステ
ップと、問い合わせ得点値が第ｎ位までの検索対象の識別子に基
づいて、上記順ファイルをアクセスするステップを有する情報検索方法。
（４）検索対象識別子を入力して当該検索対象に関する
データを出力するための、外部記憶装置に保持される順
ファイルと、アクセス・キーを入力して当該アクセス・
キーを含む検索対象識別子の集合を出力するための、外
部記憶装置に保持される転置ファイルと、重み付係数を
与えたアクセス・キーの組合せとして表現される問い合
わせと検索対象の出力数ｎを指定するための問い合わせ
入力装置とを用いる情報検索方法において、アクセス・キーの中には、検索対象によって重みの異な
るアクセス・キーが含まれており、入力された問い合わ
せを分析し、アクセス・キーの重みと当該アクセス・キ
ーに与えられた重み付係数の積の大きさに基づいて、問
い合わせ中のアクセス・キーを選択するステップと、アクセス・キーの選択に応答して、転置ファイルにアク
セスして選択されたアクセス・キーに関するデータを主
記憶装置に複写するステップと、転置ファイルのデータ
の複写に応答して、新しく複写されたものも含めて主記
憶装置に複写されている転置ファイルのデータと入力さ
れた問い合わせの内容に基づいて、検索対象毎に問い合
わせ得点値と得点期待値を計算するステップと、第ｎ位
の問い合わせ得点値と第（ｎ＋１）位以下の問い合わせ
得点値を持つ検索対象の得点期待値を比較し、前者が後
者を上回る時に、アクセス・キーの選択を中止するステ
ップと、問い合わせ得点値が第ｎ位までの検索対象の識別子に基
づいて、上記順ファイルをアクセスするステップを有する情報検索方法。
（５）検索対象によって重みの異なるアクセス・キーに
関しては、転置ファイル上で検索対象識別子が当該アク
セス・キーに与えられた重み順に予め並べられているこ
とを特徴とする特許請求の範囲第４項記載の情報検索方
法。
（６）検索対象識別子を入力して当該検索対象に関する
データを出力するための、外部記憶装置に保持される順
ファイルと、アクセス・キーを入力して当該アクセス・
キーを含む検索対象識別子の集合を出力するための、外
部記憶装置に保持される転置ファイルと、重み付係数を
与えたアクセス・キーの組合せとして表現される問い合
わせと検索対象の出力希望数ｎを指定するための問い合
わせ入力装置とを用いる情報検索方法であって、入力さ
れた問い合わせを分析し、与えられた重み付係数の大き
さに基づいて、問い合わせ中のアクセス・キーを選択す
るステップと、アクセス・キーの選択に応答して、転置ファイルにアク
セスして選択されたアクセス・キーに関するデータを主
記憶装置に複写するステップと、転置ファイルのデータ
の複写に応答して、新しく複写されたものも含めて主記
憶装置に複写されている転置ファイルのデータと入力さ
れた問い合わせの内容に基づいて、検索対象毎に問い合
わせ得点値と得点期待値を計算するステップと、第ｎ位
の問い合わせ得点値と第（ｎ＋ｍ）位以下の問い合わせ
得点値を持つ検索対象の得点期待値を比較し、前者が後
者を上回る時に、アクセス・キーの選択を中止するステ
ップと（ｍは２以上の整数）、問い合わせ得点値が第（ｎ＋ｍ）位までの検索対象の識
別子に基づいて、上記順ファイルをアクセスするステッ
プを有する情報検索方法。
（７）検索対象識別子を入力して当該検索対象に関する
データを出力するための、外部記憶装置に保持される順
ファイルと、アクセス・キーを入力して当該アクセス・
キーを含む検索対象識別子の集合を出力するための、外
部記憶装置に保持される転置ファイルと、重み付係数を
与えたアクセス・キーの組合せとして表現される問い合
わせと検索対象の出力希望数ｎを指定するための問い合
わせ入力装置とを用いる情報検索方法において、アクセ
ス・キーの中には、検索対象によって重みの異なるアク
セス・キーが含まれており、入力された問い合わせを分
析し、アクセス・キーの重みと当該アクセス・キーに与
えられた重み付係数の積の大きさに基づいて、問い合わ
せ中のアクセス・キーを選択するステップと、アクセス・キーの選択に応答して、転置ファイルにアク
セスして選択されたアクセス・キーに関するデータを主
記憶装置に複写するステップと、転置ファイルのデータ
の複写に応答して、新しく複写されたものも含めて主記
憶装置に複写されている転置ファイルのデータと入力さ
れた問い合わせの内容に基づいて、検索対象毎に問い合
わせ得点値と得点期待値を計算するステップと、第ｎ位
の問い合わせ得点値と第（ｎ＋ｍ）位以下の問い合わせ
得点値を持つ検索対象の得点期待値を比較し、前者が後
者を上回る時に、アクセス・キーの選択を中止するステ
ップと（ｍは２以上の整数）、問い合わせ得点値が第（ｎ＋ｍ）位までの検索対象の識
別子に基づいて、上記順ファイルをアクセスするステッ
プを有する情報検索方法。
（８）検索対象によって重みの異なるアクセス・キーに
関しては、転置ファイル上で検索対象識別子が当該アク
セス・キーに与えられた重み順に予め並べられているこ
とを特徴とする特許請求の範囲第７項記載の情報検索方
法。
（９）検索対象識別子を入力して当該検索対象に関する
データを出力するための、外部記憶装置に保持される順
ファイルと、アクセス・キーを入力して当該アクセス・
キーを含む検索対象識別子の集合を出力するための、外
部記憶装置に保持される転置ファイルと、重み付係数を
与えたアクセス・キーの組合せとして表現される問い合
わせと検索対象の出力数ｎを指定するための問い合わせ
入力装置とを具備する情報検索システムであって、問い
合わせの入力に応答して、転置ファイルにアクセスし、
入力された問い合わせに含まれるアクセス・キーに関連
する転置ファイル中のデータを主記憶装置に複写する手
段と、複写された転置ファイルのデータと入力された問い合わ
せの内容に基づいて、検索対象毎に問い合わせ得点値を
計算する手段と、問い合わせ得点値の上位のものから順に上記ｎ個の検索
対象を確定する手段と、上記ｎ個の検索対象の識別子に基づいて上記順ファイル
をアクセスする手段を有する情報検索システム。
（１０）検索対象識別子を入力して当該検索対象に関す
るデータを出力するための、外部記憶装置に保持される
順ファイルと、アクセス・キーを入力して当該アクセス
・キーを含む検索対象識別子の集合を出力するための、
外部記憶装置に保持される転置ファイルと、重み付係数
を与えたアクセス・キーの組合せとして表現される問い
合わせと検索対象の出力数ｎを指定するための問い合わ
せ入力装置とを具備する情報検索システムであって、問
い合わせの入力に応答して、転置ファイルにアクセスし
、入力された問い合わせに含まれるすべてのアクセス・
キーに関連する転置ファイル中のデータを主記憶装置に
複写して、転置ファイルの一部を成す転置表を作成する
手段と、転置表の行と列を入れ替えて主記憶装置中に順表を作成
する手段と、順表のデータと入力された問い合わせの内容に基づいて
、検索対象毎に問い合わせ得点値を計算する手段と、問い合わせ得点値の上位のものから順に上記ｎ個の検索
対象を確定する手段と、上記ｎ個の検索対象の識別子に基づいて上記順ファイル
をアクセスする手段を有する情報検索システム。
（１１）検索対象識別子を入力して当該検索対象に関す
るデータを出力するための、外部記憶装置に保持される
順ファイルと、アクセス・キーを入力して当該アクセス
・キーを含む検索対象識別子の集合を出力するための、
外部記憶装置に保持される転置ファイルと、重み付係数
を与えたアクセス・キーの組合せとして表現される問い
合わせと検索対象の出力数ｎを指定するための問い合わ
せ入力装置とを具備する情報検索システムであって、入
力された問い合わせを分析し、与えられた重み付係数の
大きさに基づいて問い合わせ中のアクセス・キーを選択
する手段と、アクセス・キーの選択に応答して、転置ファイルにアク
セスして選択されたアクセス・キーに関するデータを主
記憶装置に複写する手段と、転置ファイルのデータの複
写に応答して、新しく複写されたものも含めて主記憶装
置に複写されている転置ファイルのデータと入力された
問い合わせの内容に基づいて、検索対象毎に問い合わせ
得点値と得点期待値を計算する手段と、第ｎ位の問い合わせ得点値と第（ｎ＋１）位以下の問い
合わせ得点値を持つ検索対象の得点期待値を比較し、前
者が後者を上回る時に、アクセス・キーの選択を中止す
る手段と、問い合わせ得点値が第ｎ位までの検索対象の
識別子に基づいて、上記順ファイルをアクセスする手段を有する情報検索システム。
（１２）検索対象識別子を入力して当該検索対象に関す
るデータを出力するための、外部記憶装置に保持される
順ファイルと、アクセス・キーを入力して当該アクセス
・キーを含む検索対象識別子の集合を出力するための、
外部記憶装置に保持される転置ファイルと、重み付係数
を与えたアクセス・キーの組合せとして表現される問い
合わせと検索対象の出力数ｎを指定するための問い合わ
せ入力装置とを具備する情報検索システムにおいて、ア
クセス・キーの中には、検索対象によって重みの異なる
アクセス・キーが含まれており、入力された問い合わせ
を分析し、アクセス・キーの重みと当該アクセス・キー
に与えられた重み付係数の積の大きさに基づいて、問い
合わせ中のアクセス・キーを選択する手段と、アクセス・キーの選択に応答して、転置ファイルにアク
セスして選択されたアクセス・キーに関するデータを主
記憶装置に複写する手段と、転置ファイルのデータの複
写に応答して、新しく複写されたものも含めて主記憶装
置に複写されている転置ファイルのデータと入力された
問い合わせの内容に基づいて、検索対象毎に問い合わせ
得点値と得点期待値を計算する手段と、第ｎ位の問い合わせ得点値と第（ｎ＋１）位以下の問い
合わせ得点値を持つ検索対象の得点期待値を比較し、前
者が後者を上回る時に、アクセス・キーの選択を中止す
る手段と、問い合わせ得点値が第ｎ位までの検索対象の
識別子に基づいて、上記順ファイルをアクセスする手段を有する情報検索システム。
（１３）検索対象によって重みの異なるアクセス・キー
に関しては、転置ファイル上で検索対象識別子が当該ア
クセス・キーに与えられた重み順に予め並べられている
ことを特徴とする特許請求の範囲第１２項記載の情報検
索システム。
（１４）検索対象識別子を入力して当該検索対象に関す
るデータを出力するための、外部記憶装置に保持される
順ファイルと、アクセス・キーを入力して当該アクセス
・キーを含む検索対象識別子の集合を出力するための、
外部記憶装置に保持される転置ファイルと、重み付係数
を与えたアクセス・キーの組合せとして表現される問い
合わせと検索対象の出力希望数ｎを指定するための問い
合わせ入力装置とを具備する情報検索システムであって
、入力された問い合わせを分析し、与えられた重み付係
数の大きさに基づいて、問い合わせ中のアクセス・キー
を選択する手段と、アクセス・キーの選択に応答して、転置ファイルにアク
セスして選択されたアクセス・キーに関するデータを主
記憶装置に複写する手段と、転置ファイルのデータの複
写に応答して、新しく複写されたものも含めて主記憶装
置に複写されている転置ファイルのデータと入力された
問い合わせの内容に基づいて、検索対象毎に問い合わせ
得点値と得点期待値を計算する手段と、第ｎ位の問い合わせ得点値と第（ｎ＋ｍ）位以下の問い
合わせ得点値を持つ検索対象の得点期待値を比較し、前
者が後者を上回る時に、アクセス・キーの選択を中止す
る手段と（ｍは２以上の整数）、問い合わせ得点値が第（ｎ＋ｍ）位までの検索対象の識
別子に基づいて、上記順ファイルをアクセスする手段を有する情報検索システム。
（１５）検索対象識別子を入力して当該検索対象に関す
るデータを出力するための、外部記憶装置に保持される
順ファイルと、アクセス・キーを入力して当該アクセス
・キーを含む検索対象識別子の集合を出力するための、
外部記憶装置に保持される転置ファイルと、重み付係数
を与えたアクセス・キーの組合せとして表現される問い
合わせと検索対象の出力希望数ｎを指定するための問い
合わせ入力装置とを具備する情報検索システムにおいて
、アクセス・キーの中には、検索対象によって重みの異
なるアクセス・キーが含まれており、入力された問い合わせを分析し、アクセス・キーの重み
と当該アクセス・キーに与えられた重み付係数の積の大
きさに基づいて、問い合わせ中のアクセス・キーを選択
する手段と、アクセス・キーの選択に応答して、転置ファイルにアク
セスして選択されたアクセス・キーに関するデータを主
記憶装置に複写する手段と、転置ファイルのデータの複
写に応答して、新しく複写されたものも含めて主記憶装
置に複写されている転置ファイルのデータと入力された
問い合わせの内容に基づいて、検索対象毎に問い合わせ
得点値と得点期待値を計算する手段と、第ｎ位の問い合わせ得点値と第（ｎ＋ｍ）位以下の問い
合わせ得点値を持つ検索対象の得点期待値を比較し、前
者が後者を上回る時に、アクセス・キーの選択を中止す
る手段と（ｍは２以上の整数）、問い合わせ得点値が第（ｎ＋ｍ）位までの検索対象の識
別子に基づいて、上記順ファイルをアクセスする手段を有する情報検索システム。
（１６）検索対象によって重みの異なるアクセス・キー
に関しては、転置ファイル上で検索対象識別子が当該ア
クセス・キーに与えられた重み順に予め並べられている
ことを特徴とする特許請求の範囲第１５項記載の情報検
索システム。