JPH06325088A - 情報検索システム - Google Patents
情報検索システムInfo
- Publication number
- JPH06325088A JPH06325088A JP5111889A JP11188993A JPH06325088A JP H06325088 A JPH06325088 A JP H06325088A JP 5111889 A JP5111889 A JP 5111889A JP 11188993 A JP11188993 A JP 11188993A JP H06325088 A JPH06325088 A JP H06325088A
- Authority
- JP
- Japan
- Prior art keywords
- file
- search
- original information
- generation time
- retrieving
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
ルを生成して高速な検索を行うキーワード検索等の高速
検索方法と、原情報ファイルを直接アクセスして検索を
行う通常検索方法とを有する情報検索システムにおい
て、どちらの検索方法を用いたらよいかを操作者が判断
できるようにすることを目的とする。 【構成】高速検索方法のための検索用ファイルの生成に
要する時間を求める生成時間算出手段と、求めた検索用
ファイルの生成時間を通知して高速検索方法あるいは通
常検索方法のいずれかを操作者に選択させ、その検索方
法を起動させる検索方法制御手段を備えることで、操作
者自身がそれ以降に行う作業内容に適した方法で、検索
を行えるようにした。
Description
検索用ファイルを生成して高速な検索を行うキーワード
検索等の高速検索方法と、原情報ファイルを直接アクセ
スして検索を行う通常検索方法とを有する情報検索シス
テムに関する。
法には、大きく分けると、検索対象の原情報ファイルを
直接アクセスして検索する方法と、原情報ファイルから
キーワード検索のために検索用ファイルを予め生成して
おき、その検索用ファイルを検索する方法とがある。当
然、検索用ファイルを検索した方が、原情報を直接アク
セスする検索方法よりも検索速度が早い。しかし、検索
用ファイルを生成するには、原情報ファイルの内容にパ
ターン抽出処理等を施して、検索に使用されるキーワー
ドである言葉を抽出して、検索用ファイルを生成する
か、あるいは、キーワードの集合を格納したキーワード
辞書を予め用意しておき、このキーワード辞書に基づい
て、原情報のファイルとからキーワードの抽出を行っ
て、検索用ファイルを生成する方法があるが、いずれの
場合であっても、検索用ファイルの生成にはかなりの時
間を要する。一般に、この検索用ファイルの生成時間
は、原情報のファイルが大きくなるほど時間がかかり。
さらに、原情報ファイルやキーワード辞書を更新した場
合には、この検索用ファイルを作りなおす必要がある。
っても、検索用ファイルの生成時間に多大な時間を要す
るのでは、検索用ファイルを生成せずに、原情報を直接
アクセスして検索する方が、操作者に取って都合の良い
場合がある。
検索をするのであれば、検索用ファイルを生成した方が
良いが、一回しか検索をしない場合には、検索用ファイ
ルを生成せずに、原情報ファイルを直接アクセスして検
索する方が良い。しかし、必ずしもこのように単純なケ
ースばかりではない。検索を2、3回する場合、どの検
索方法がよいかは、実際に検索してみなければわからな
かった。
成図である。1は入力装置、2は表示装置、3はディス
ク装置、4は処理装置である。31は検索の対象となる
原情報ファイル、32は高速検索に使用する検索用ファ
イル、33は検索用ファイル生成時間の算出に使用され
る算出テーブルである。41は算出テーブル更新手段で
あり、検索用ファイルが生成される度に起動され、検索
用ファイル32の生成時間に関するデータを用いて、算
出テーブル33を更新する処理手段である。42は検索
方法制御手段、43は検索用ファイル32の生成時間を
算出する生成時間算出手段、44は検索用ファイル生成
手段、45は検索用ファイル32を用いて検索を行う高
速検索手段、46は原情報を直接アクセスして検索を行
う通常検索手段である。
2の生成に要する時間を求める生成時間算出手段43
と、この生成時間算出手段43で得られる検索用ファイ
ル32の生成に要する時間を表示装置2に出力させ、入
力装置1から入力に従い、検索用ファイル32を生成し
その検索用ファイル32を用いた高速検索手段45か原
情報ファイル31に直接アクセスする通常検索手段46
かのいずれかを実行させる検索方法制御手段42とを備
えた。
イル32の生成に要する時間と、操作者自身が以降行う
作業を考慮して、検索用ファイル32を用いた高速検索
手段45か原情報を直接アクセスする通常検索手段46
かのいずれかを選択し、情報検索システムはその操作者
が選択した検索方法で情報の検索を行うようにした。
る。図中、図1で示したものと同一のものは同一の記号
で示してある。34はキーワード辞書であり、検索に使
用するキーワードを格納しており、原情報ファイル31
より検索用ファイル32を生成する時に使用される。3
5は検索情報管理テーブルであり、原情報ファイル31
に対応する検索用ファイル32の名称と、その検索用フ
ァイル32がキーワード辞書34に基づいて生成された
ものであるか、全文検索のためにキーワード辞書34を
使用せずに原情報ファイル31よりキーワードを抽出し
て生成されたものであるかの情報とを格納している。図
3は、検索情報管理テーブル35の内容を示したもので
ある。
ら検索用ファイル生成手段44にて検索用ファイル32
を生成した時に、検索用ファイル32の生成時間に関す
る情報を生成時間算出テーブル33に格納する。具体的
には、原情報ファイル31のサイズ、原情報ファイル3
1と検索用ファイル32の大きさの比率、検索用ファイ
ル32の生成に要した時間とを格納する。
更新するかについて、図4、図5、図6を用いて説明す
る。図4は、(1)〜(15)の原情報ファイル31の
各々について、原情報ファイル31のサイズ、検索用フ
ァイル32の大きさ、原情報ファイル31と検索用ファ
イル32の大きさの比率、検索用ファイル32の生成に
要した時間を実測した結果である。但し、これは、キー
ワード辞書34を用いずに生成した、全文検索用の検索
用ファイル32である。
という原情報ファイル31は481KBであり、検索用
ファイル生成手段44を起動すると1164KBの検索
用ファイル32が10分で生成され、原情報ファイル3
1と検索用ファイル32の大きさの比率が2.4であっ
たことを示している。また、この図より、類似した内容
の原情報ファイル31については、原情報ファイル31
と検索用ファイル32の大きさの比率がほぼ等しくなる
ことを示している。
検索用ファイル生成に関する情報を格納した、生成時間
算出テーブル33である。上述したように、これは、キ
ーワード辞書34を用いずに生成した、全文検索用の検
索用ファイル32であり、図5で示されている生成時間
算出テーブル33は、全文検索用の検索用ファイル32
用のものである。キーワード辞書34を用いて検索用フ
ァイル32を生成する場合と、キーワード辞書34を使
用しない場合とでは、検索用ファイル32の生成時間が
異なることより、キーワード辞書を用いた検索用ファイ
ル32の生成時間を求めるためには、もう一つ別の生成
時間算出テーブル33を用意する必要がある。
の更新について、図4の例を用いて説明する。例えば、
図4の(1)の原情報ファイル31は、ファイルサイズ
が481KBで、原情報ファイル31と検索用ファイル
32の大きさの比率が2.4であったことより、縦軸が
481KB〜500KB、ファイルの大きさの比率が
2.3〜2.4の欄(d)に、検索用ファイル32の生
成に要した時間10分を格納している。この欄(d)に
は、要した時間の最大値と最小値を格納することになっ
ているが、この場合は、一つの例だけなので、最大値、
最小値ともに10分を格納している。図5の生成時間算
出テーブル33の(a)〜(j)の各欄の更新は、それ
ぞれ、欄(a)は図4の(4)、欄(b)は(11)、
欄(c)は(7)、欄(d)は(1)、欄(e)は
(2)と(12)と(14)、欄(f)は(6)、欄
(g)は(5)、欄(h)は(13)、欄(i)は(1
5)、欄(j)は(3)に基づいて行われたものであ
る。この検索用ファイル32の生成に要した時間の、生
成時間算出テーブル33への格納は、以下の規則に従っ
て行う。
ル33を更新する際、更新すべき欄に全く値が格納され
ていない場合には、得られた生成時間を最小値および最
大値として格納する。 得られた生成時間がその欄における最小値ならば、最
小値を更新する。 得られた生成時間がその欄における最大値ならば、最
大値を更新する。
値と最小値の範囲にあるならば、更新の処理を行わな
い。
ファイル32の生成処理のフローである。検索用ファイ
ル生成手段44による検索用ファイル32の生成と同期
して、検索用ファイル32の生成時間に関するデータを
求める処理、そのデータに基づいて生成時間算出テーブ
ル33を更新する処理が行われる。
に生成処理の開始時間を求める処理が行われ、そして、
検索用ファイル32の生成処理の後に、検索用ファイル
32の生成処理の終了時間を求める処理が行われる。こ
の生成処理の開始時間と終了時間の差により、その検索
用ファイルの生成に要した時間が求められる。検索用フ
ァイル32の生成について、キーワード検索方式の場合
は、キーワード辞書に基づいて原情報ファイル31の検
索用ファイル32が生成される。全文検索方式の場合
は、原情報ファイル31に格納されているデータについ
てパターン抽出等を経てキーワードが抽出されて検索用
ファイル32が生成される。
2の生成時間が3分に満たないものについては、この後
の処理である生成時間算出テーブル33の更新処理は行
わないようにしている。
報ファイル31、検索用ファイル32のサイズと、その
比率(検索用ファイルサイズ÷原情報ファイルサイズ)
を求める処理が行われる。そして、原情報ファイル31
のサイズと上記比率より、生成時間算出テーブル33の
該当する欄が特定される。この欄は、検索用ファイル3
2の生成時間の最小値と最大値のデータを格納する領域
を有している。上記で求めた欄に全くデータが格納され
ていない場合には、求めた生成時間が最小値および、最
大値の欄に格納される。また、求めた生成時間が既に格
納されている最小値よりも小さい場合は最小値が更新さ
れ、格納されている最大値よりも大きい場合は最大値が
更新される。
出処理のフローを示すものである。検索用ファイル32
の生成時間算出処理の前に、操作者が指定した検索対象
である原情報ファイル31が、検索情報管理テーブル3
5に登録されているかをのチェックが行われる。登録さ
れていないということは、原情報ファイル31に対応す
る検索用ファイル32は生成されていないことを意味す
る。検索用ファイル32が登録されている場合には、原
情報ファイル31と検索用ファイル32の作成日時の比
較が行われる。もし、原情報ファイル31の方が検索用
ファイル32の作成日時よりも新しければ、検索用ファ
イル32の生成後に原情報ファイル31が更新されてい
るため、検索用ファイル32を再生成しなければ、正し
い検索が行うことができないことになる。また、キーワ
ード辞書34に基づいて生成される検索用ファイル32
については、検索用ファイル32とキーワード辞書34
の作成日時の比較も行い、キーワード辞書34の方が検
索用ファイル32の作成日時よりも新しければ、検索用
ファイル32の生成後にキーワード辞書34が更新され
ているため、検索用ファイル32を再生成しなければな
らないことになる。
判明すると、まず、生成時間算出テーブル33を読み込
む。そして、原情報ファイル31のファイルサイズを読
み取り、それが100KBより大きいかを調べる。10
0KBより小さい場合には、検索用ファイル32の生成
にそれほど時間を要しないため、生成時間の算出処理を
行わずに、操作者に検索用ファイル32の生成に時間が
かからないことを通知する。例えば、図4にあるよう
に、約100KBの原情報ファイル(9)「雑誌文献リ
スト(その3)」の場合には、検索用ファイル32の生
成時間は1分であり、いつ終わるのだろうという不安を
それほど操作者に与えない時間である。
00KBを越える場合には、原情報ファイル31のうち
先頭100KBだけをサンプリングデータとして、検索
用ファイル32の生成処理が行われる。そして、生成さ
れた検索用ファイル32のファイルサイズと100KB
(原情報ファイル31のサンプリングデータ)との比率
である比較用比率を求める処理が行われる。
31のファイルサイズに基づいて、生成時間算出テーブ
ル33の該当する欄が決定され、その欄に生成時間のデ
ータが格納されていれば、そのデータが、検索用ファイ
ル32の生成時間として操作者に通知される。もし、求
めた欄に生成時間に関するデータが格納されていない場
合には、生成時間算出テーブル33のうち、同じ比較用
比率で原情報ファイル31のファイルサイズと比較して
±100KBの範囲の欄で、生成時間に関するデータが
格納されているものがあるかがチェックされ、もしあれ
ば、その値が、検索用ファイル32の生成時間として操
作者に通知される。それでも該当するデータが無い場合
には、比較用比率を±0.5の範囲に広げて、生成時間
に関するデータが格納されている欄があるかがチェック
され、あればその値が生成時間として操作者に通知され
る。もしなければ、データ不足のための算出不可能であ
ることが操作者に通知される。
の一部分をサンプリングして、生成される検索用ファイ
ル32と原情報ファイル31のファイルサイズの比率で
ある比較用比率を求めるようにしたが、類似した内容の
原情報ファイル31からはほぼ同じ比率の検索用ファイ
ル32が生成されることから、原情報ファイル31の種
別を予め定義しておくことで、サンプリングして比較用
比率を求める処理を省略することも可能である。
用いて上記のフローを説明する。 (1)生成時間算出テーブル33に該当する欄がある場
合 例1:原情報ファイル31のファイルサイズ=500K
B、比較用比率=2.4 (d)欄が該当する欄となり、最小値、最大値とも10
分であるので、通知するのは、『10分』となる。
る欄がない場合 同じ比較用比率で原情報ファイル31のファイルサイ
ズの±100KBの範囲の欄がチェックされる。 例2:原情報ファイル31のファイルサイズ=700K
B、比較用比率=2.4 −100KBの範囲:17〜18分〔ファイルサイズ=
621〜640KB〕 +100KBの範囲:24〜24分〔ファイルサイズ=
741〜760KB〕 以上より、操作者に通知される情報は『18〜24分』
となる。 例3:原情報ファイル31のファイルサイズ=430K
B、比較用比率=2.3 −100KBの範囲:なし +100KBの範囲:10〜10分〔ファイルサイズ=
481〜500KB〕 以上より、操作者に通知される情報は『10分以下』と
なる。 例4:原情報ファイル31のファイルサイズ=350K
B、比較用比率=2.4 −100KBの範囲:5〜5分 〔ファイルサイズ=
301〜320KB〕 +100KBの範囲:なし 以上より、操作者に通知される情報は『5分以上』とな
る。
当するデータがなく、+100KBの範囲に該当するデ
ータがある場合は『10分』ではなく、『10分以下』
と言えるのは、ファイルのサイズが大きいほど検索用フ
ァイル32の生成に時間がかかるからである。
B:比較用比率=3.0 −0.5の範囲:なし +0.5の範囲:9〜9分 〔比較用比率=3.
3〜3.4KB〕 以上より、操作者に通知される情報は『9分以下』とな
る。
るデータはなく、+0.5の範囲に該当するデータがあ
る場合、『9分』ではなく、『9分以下』と言えるの
は、比較用比率が大きいということは、原情報ファイル
に含まれている単語数が多いことであり、それだけ検索
用ファイル32の生成に時間がかかるということであ
る。
の通知処理の後は、検索用ファイル32を生成して高速
検索を行うか、それとも検索用ファイル32を生成せず
に原情報ファイル31に直接アクセスする通常検索を行
うかについて、操作者に問い合わせの処理が行われる。
そして、この問い合わせに対する操作者の入力に従っ
て、検索方法が選択される。
ルが生成されるまでの時間が通知されるので、操作者が
一度だけ検索を行おうとしているのか、それとも何度も
キーワードを変更したりして検索をするかにより、検索
用ファイルを生成すべきかを判断することができる。ま
た、検索用ファイルの生成が終了する時間が分かるの
で、それまでに別の作業を行うことができるという効果
がある。
Claims (4)
- 【請求項1】検索対象の原情報ファイル(31)から検
索用ファイル生成手段(44)にて検索用ファイル(3
2)を生成しその検索用ファイル(32)を用いて原情
報ファイル(31)の検索を行う高速検索手段(45)
と、原情報ファイル(31)に直接アクセスして検索を
行う通常検索手段(46)とを備えた情報検索システム
において、 原情報ファイル(31)から検索用ファイル(32)の
生成する時間に関する情報を記憶した生成時間算出テー
ブル(33)と、 上記生成時間算出テーブル(33)に基づいて任意の原
情報ファイル(31)の検索用ファイル(32)の生成
に要する時間を算出する生成時間算出手段(43)と、 上記生成時間算出手段(43)で得られる検索用ファイ
ル(32)の生成に要する時間を表示装置(2)に出力
させ、入力装置(1)から入力に従い、通常検索手段
(46)を実行させるか、あるいは検索用ファイル生成
手段(44)にて検索用ファイル(32)を生成して高
速検索手段(45)を実行させるかの制御を行う検索方
法制御手段(42)とを備えたことを特徴とした情報検
索システム。 - 【請求項2】請求項1記載の情報検索システムにおい
て、検索用ファイル生成手段(44)で検索用ファイル
(32)を生成する際に、その検索用ファイル(32)
の生成時間に関するデータを用いて、生成時間算出テー
ブル(33)を更新する算出テーブル更新手段(41)
を備えたことを特徴とする情報検索システム。 - 【請求項3】請求項1または請求項2記載の情報検索シ
ステムにおいて、 生成時間算出テーブル(33)は、その原情報ファイル
(31)の大きさと、その検索用ファイル(32)の生
成に要した時間より構成され、 生成時間算出手段(43)は、任意の原情報ファイル
(31)の大きさと、生成時間算出テーブルに基づい
て、上記原情報ファイル(31)の検索用ファイル(3
2)の生成時間を算出することを特徴とする情報検索シ
ステム。 - 【請求項4】請求項1または請求項2記載の情報検索シ
ステムにおいて、 生成時間算出テーブル(33)は、複数個の原情報ファ
イル(31)とその検索用ファイル(32)の大きさの
比率と、その原情報ファイル(31)の大きさと、その
検索用ファイル(32)の生成に要した時間より構成さ
れ、 生成時間算出手段(43)は、任意の原情報ファイル
(31)の一部について検索用ファイル(32)を生成
し、原情報ファイル(31)の一部と生成された検索用
ファイル(32)の大きさの比率を求め、上記求めた比
率と原情報ファイル(31)の大きさと生成時間算出テ
ーブルに基づいて、上記原情報ファイル(31)の検索
用ファイル(32)の生成時間を算出することを特徴と
する情報検索システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11188993A JP3328995B2 (ja) | 1993-05-13 | 1993-05-13 | 情報検索システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11188993A JP3328995B2 (ja) | 1993-05-13 | 1993-05-13 | 情報検索システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH06325088A true JPH06325088A (ja) | 1994-11-25 |
JP3328995B2 JP3328995B2 (ja) | 2002-09-30 |
Family
ID=14572690
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP11188993A Expired - Fee Related JP3328995B2 (ja) | 1993-05-13 | 1993-05-13 | 情報検索システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3328995B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010134720A (ja) * | 2008-12-04 | 2010-06-17 | Nippon Telegr & Teleph Corp <Ntt> | 文書検索装置および文書検索プログラム |
JP2010277542A (ja) * | 2009-06-01 | 2010-12-09 | Nippon Telegr & Teleph Corp <Ntt> | 文書検索装置および文書検索プログラム |
-
1993
- 1993-05-13 JP JP11188993A patent/JP3328995B2/ja not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010134720A (ja) * | 2008-12-04 | 2010-06-17 | Nippon Telegr & Teleph Corp <Ntt> | 文書検索装置および文書検索プログラム |
JP2010277542A (ja) * | 2009-06-01 | 2010-12-09 | Nippon Telegr & Teleph Corp <Ntt> | 文書検索装置および文書検索プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP3328995B2 (ja) | 2002-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3691844B2 (ja) | 文書処理方法 | |
JP4091146B2 (ja) | 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2000357115A (ja) | ファイル検索装置及びファイル検索方法 | |
JPH05324728A (ja) | 情報検索装置 | |
JP3328995B2 (ja) | 情報検索システム | |
JPH02297290A (ja) | 検索装置 | |
JPH0561910A (ja) | 全文インデツクス検索方法 | |
JP2812357B2 (ja) | データベース検索システム | |
JPH04311263A (ja) | 電子辞書検索装置 | |
JPH0773187A (ja) | 検索システム | |
JP2000227921A (ja) | デ―タ検索方法、装置および記録媒体 | |
JPH1145238A (ja) | 文書管理システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP3225735B2 (ja) | 情報検索装置 | |
JP2007011438A (ja) | 絞り込み検索用インデクス構造及び情報検索装置 | |
JPH07182370A (ja) | テキスト検索装置 | |
JPH03129570A (ja) | データベース検索方式 | |
JPH07244667A (ja) | 情報検索方法 | |
JPH11250070A (ja) | 類似文書検索装置、類似文書検索方法、および類似文書検索のためのプログラムが記録された記録媒体 | |
JPH08287087A (ja) | 文書処理装置 | |
JPH0736916A (ja) | 画像検索装置 | |
JPS63150724A (ja) | デ−タアクセス処理方式 | |
JPH04175844A (ja) | 文章データ索引生成方式 | |
JPH0668160A (ja) | 情報検索方式 | |
JPH06230952A (ja) | プログラム編集装置 | |
JPH06168272A (ja) | 関連語作成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20020618 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080719 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090719 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100719 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100719 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110719 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |