JPH05257774A - インデックス・レコード番号を圧縮・格納した情報検索装置 - Google Patents

インデックス・レコード番号を圧縮・格納した情報検索装置

Info

Publication number
JPH05257774A
JPH05257774A JP4051946A JP5194692A JPH05257774A JP H05257774 A JPH05257774 A JP H05257774A JP 4051946 A JP4051946 A JP 4051946A JP 5194692 A JP5194692 A JP 5194692A JP H05257774 A JPH05257774 A JP H05257774A
Authority
JP
Japan
Prior art keywords
irn
data
file
inverted file
record number
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP4051946A
Other languages
English (en)
Inventor
Koji Morino
幸司 森野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP4051946A priority Critical patent/JPH05257774A/ja
Publication of JPH05257774A publication Critical patent/JPH05257774A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 検索処理を高速化するとともに、インバーテ
ッド・ファイルの容量を小さくすることができる情報検
索装置を提供すること。 【構成】 インバーテッド・ファイル3aには、検索キ
ー値と圧縮されたIRN(インデックス・レコード番
号)が格納されている。入力部1より検索条件が与えら
れると、検索処理部2は検索条件に基づき、インバーテ
ッド・ファイル3aよりIRNを抽出して復元し、マス
ター・ファイル3bより該当する登録情報本体を取り出
す。検索処理部において検索された検索結果は出力部4
において出力される。インバーテッド・ファイル3aに
IRNを圧縮して格納しているため、IRNをインバー
テッド・ファイル3aからメモリ上への取り出すための
入出力回数を削減することができ、検索処理を高速化す
ることができるとともに、インバーテッド・ファイルの
容量を小さくすることができる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、入力部で与えられた検
索条件に従いインバーテッド・ファイルからインデック
ス・レコード番号(以下、IRNと略す)を抽出して、
マスター・ファイルの該当データを取り出す情報検索装
置に関し、特に、IRNデータを圧縮・格納することに
より、検索時間の高速化と、インバーテッド・ファイル
の小容量化を図った情報検索装置に関するものである。
【0002】
【従来の技術】図6は従来のインバーテッド・ファイル
の構成図である。同図において、101はインバーテッ
ド・ファイル、102はインバーテッド・ファイルにお
ける1ブロック内のIRNデータの格納形式、103は
マスター・ファイルである。同図において、インバーテ
ッド・ファイル101のIRNデータ部の1ブロック内
には102に示すように、次のIRNデータの格納位置
を示す次ブロック・ポインタ102a、先頭のIRNデ
ータを示す基準IRNデータ102b、1ブロック内の
IRNの格納個数102c、IRN(1)ないしIRN
(n)のn個のIRNデータ102dが格納されてい
る。
【0003】また、マスター・ファイル103にはIR
N部103a、データ部103bが設けられており、I
RN部103aのIRNデータに対応づけてデータ部1
03bにレコードが格納されている。図6において、情
報の検索を行う場合には、検索コマンドの検索条件から
検索キー値を取り出し、検索キーに該当するインバーテ
ッド・ファイルのエントリを取り出す。ついで、インバ
ーテッド・ファイル101のIRNデータ部を参照して
検索キーに該当するIRNデータの1ブロックを取り出
し、検索条件に基づきIRNデータの集合演算を行い、
その結果に基づきマスター・ファイル103からレコー
ドを取り出す。
【0004】ところで、上記した従来の情報検索装置に
おいては、インバーテッド・ファイル内に検索キー値ご
とに固定長のIRNデータを格納しているため、IRN
データの個数が多い(登録件数が多い)検索キーでは、
インバーテッド・ファイル内でのファイルの使用ブロッ
ク数が多くなる。このため、該当するIRNデータをイ
ンバーテッド・ファイルからメモリ上に取り出すための
インバーテッド・ファイルの入出力回数が多くなり、イ
ンバーテッド・ファイルの入出力にかなりの時間を費や
していた。
【0005】その結果、検索処理時間もインバーテッド
・ファイルの入出力回数に比例して長くなっていた。ま
た、登録情報が増えるに従い、インバーテッド・ファイ
ルの容量も増大していった。
【0006】
【発明が解決しようとする課題】本発明は上記した従来
技術の欠点を改善するためになされたものであって、検
索キー値ごとにインバーテッド・ファイルに格納するI
RNデータの復元時間が短時間ですむように、圧縮して
格納することにより、インバーテッド・ファイル内での
IRNデータの使用ブロック数を少なくし、該当するI
RNデータをインバーテッド・ファイルからメモリ上へ
の取り出すための入出力回数を削減し、検索処理を高速
化するとともに、インバーテッド・ファイルの容量を小
さくすることができる情報検索装置を提供することを目
的とする。
【0007】
【課題を解決するための手段】図1は本発明の基本構成
を示す図である。本発明は、上記課題を解決するため、
検索キー値とそれに対応したIRNデータを格納したイ
ンバーテッド・ファイル3aと、IRNデータとそれに
対応した登録情報本体を格納したマスター・ファイル3
bとから構成されるファイル部3と、検索条件を入力す
る入力部1と、入力部より与えられる検索条件に基づ
き、インバーテッド・ファイル3aよりIRNデータを
抽出して、マスター・ファイル3bより該当する登録情
報本体を取り出す検索処理部2と、検索処理部において
検索された検索結果を出力する出力部4とを備えた情報
検索装置において、インバーテッド・ファイル3aにI
RNデータを圧縮して格納する。
【0008】そして、インバーテッド・ファイル3aよ
りIRNデータを抽出する際、圧縮されたIRNデータ
を復元し、復元されたIRNデータに基づきマスター・
ファイル3bより該当する登録情報本体を取り出すよう
に構成したものである。また、上記構成に加え、IRN
データをインバーテッド・ファイルに登録する際、登録
時のIRNデータの統計情報に基づき定められた圧縮方
式によりIRNデータを圧縮し、インバーテッド・ファ
イルに格納するように構成することができる。
【0009】
【作用】インバーテッド・ファイル3a内でのファイル
の使用ブロック数が多くなると、該当するIRNデータ
をインバーテッド・ファイル3aからメモリ上に取り出
すためのインバーテッド・ファイル3aの入出力回数が
多くなり、インバーテッド・ファイル3aの入出力にか
なりの時間を費やす。
【0010】本発明においては、インバーテッド・ファ
イル3aにIRNデータを圧縮して格納しているため、
該当するIRNデータをインバーテッド・ファイル3a
からメモリ上への取り出すための入出力回数を削減する
ことができ、検索処理を高速化するとともに、インバー
テッド・ファイル3aの容量を小さくすることができ
る。
【0011】
【実施例】図2は本発明の1実施例を示す図である。同
図において、11はキーボード、12は検索処理部、1
3はインバーテッド・ファイル、14はマスター・ファ
イル、15は出力部である。同図において、検索処理部
12は、キーボード11による検索条件の指定に基づき
検索条件を設定する検索条件設定部12a、設定された
検索条件を判定する検索条件判定部12b、検索条件の
判定結果に基づきインバーテッド・ファイル13よりエ
ントリを取り出すエントリ取り出し部12c、インバー
テッド・ファイル13より取り出した圧縮されたIRN
データを復元する復元部12d、検索条件に基づき復元
したIRNデータを集合演算する集合演算部12e、集
合演算結果のIRNデータを記録するIRN記録部12
f、記録されたIRNデータに基づきマスター・ファイ
ル14をアクセスするマスター・ファイル・アクセス部
12g、マスター・ファイル14をアクセスした結果取
り出されたデータを記録する検索結果記録部12hから
構成される。
【0012】また、インバーテッド・ファイル13に
は、検索キー値とポインタを格納したエントリ部13a
およびIRNデータを格納したIRNデータ部13bが
あり、IRNデータ部13bには、IRNデータが、短
時間で復元できる圧縮方式で、圧縮して格納されてい
る。マスター・ファイル14には、図6の従来例と同
様、IRNデータ14aとデータ部14bがあり、IR
Nデータに対応付けてレコードが格納されている。
【0013】図3はインバーテッド・ファイル13にお
けるIRNデータの格納構造を示す図であり、図2に示
したものと同一のものには同一の符号が付されている。
図3のインバーテッド・ファイル13において、エント
リ部13aには「検索」、「情報」、「システム」など
の検索キー値a1 とその検索キー値に対応したIRNデ
ータの格納位置を示すポインタa2 が格納されている。
【0014】IRNデータ部13bには、IRNデータ
の各ブロック13b−1ないし13b−nが格納されて
おり、各ブロック13b−1ないし13b−nには、次
ブロック・ポインタb1 、IRN圧縮方式b2 、IRN
の格納個数b3 、基準IRNデータb4 、圧縮したIR
Nデータb5 が同図Aに示した格納形式で格納されてい
る。また、IRNデータが1ブロックに入りきらない場
合には、次ブロック・ポインタb1 により次のブロック
が指示される。
【0015】IRNデータの圧縮方式は種々の方式が採
用できるが、図3に示した実施例においては、1バイト
差分方式および2バイト差分方式が用いられている。例
えば、図3のブロック13b−1においては、1バイト
差分方式によりIRNデータが圧縮されて格納されてい
る。すなわち、基準IRNデータb4 の「00000001」を
基準として、その基準データに対する1バイトの差分
が、圧縮したIRNデータb5 として基準IRNデータ
b4 以降に格納されている。
【0016】また、ブロック13b−2においては、2
バイト差分方式によりIRNデータが圧縮されて格納さ
れている。すなわち、基準IRNデータb4 の「000234
56」を基準として、その基準データに対する2バイトの
差分が、圧縮したIRNデータb5 として基準IRNデ
ータb4 以降に格納されている。上記IRNデータの圧
縮方式は、IRNデータをインバーテッド・ファイルに
登録する際、登録時のIRNデータの統計情報から定め
られる。なお、一般にインバーテッド・ファイルにおけ
るIRNデータは連続していることが多いので、1バイ
ト差分でよいことが多い。
【0017】図4は図2に示した実施例の処理手順を示
すフローチャートであり、図4のフローチャートによ
り、図2における検索処理を説明する。入力部のキーボ
ード11などから指定された検索コマンドを読み込み検
索条件設定部12aに設定する(図4のステップS
1)。ついで、検索条件判定部12bにおいて、検索コ
マンドの検索条件を解析し、検索キー値を取り出す(ス
テップS2)。
【0018】エントリ取り出し部12cは、検索条件判
定部12bにおいて取り出された検索キー値に基づき、
インバーテッド・ファイル13のエントリ部13aよ
り、検索キー値に該当するエントリを取り出し、取り出
されたエントリからポイントされているIRNデータの
先頭ブロックを取り出す(ステップS3)。IRN復元
部12dは、取り出されたブロックのIRNデータの圧
縮形式を判定して、IRNデータを復元する(ステップ
S4)。
【0019】ブロックの次ポインタがある場合には、次
ブロックの次ポインタがなくなるまで以上の処理を繰り
返す(ステップS5)。すべてのIRNデータが取り出
されると、集合演算部12eにおいて、取り出されたI
RN群に対して、検索条件式で指示された集合演算を行
い(ステップS6)、その結果をIRN記録部12fに
記録する(ステップS7)。
【0020】以上の処理を検索コマンドに指定された検
索条件が終わるまで繰り返す(ステップS8)。すべて
の検索条件について上記処理が終わると、マスター・フ
ァイル・アクセス部12gにおいて、IRN記録部12
fに記録されたIRNに基づきマスター・ファイル14
よりレコードを取り出し(ステップS9)、取り出され
たレコード群を検索結果記録部12hに記録する(ステ
ップS10)。
【0021】検索結果記録部12hに記録されたレコー
ド群は出力部15に出力される。図5はIRNデータを
インバーテッド・ファイル13に格納する際の処理手順
の1例を示す図であり、同図によりIRNデータをイン
バーテッド・ファイル13に格納する処理手順について
説明する。ステップT1において、マスター・ファイル
14の各レコードからキー・ワードを抽出し、ステップ
T2において、抽出したキー・ワード別にIRNデータ
群をまとめる。ステップT3において、IRNデータ群
を昇順でソートする。
【0022】ついで、ステップT4において、ソートさ
れた各IRNデータの差分を求め、その差分が「1バイ
トで表現できるもの」、「2バイトで表現できるも
の」、「3バイトで表現できるもの」、「4バイトで表
現できるもの」の区分に分け、各々の区分に属するIR
Nデータの個数を求める。ステップT5において、ステ
ップT4において求めた各区分に属するIRNデータの
個数から、IRNデータの差分による圧縮格納域の大き
さを決定する。
【0023】ついで、ステップT6において、ソートし
たIRNデータについて、先頭からIRNデータ間の差
分を求め、その差分値をインバーテッド・ファイルに格
納する。なお、上記実施例においては、IRNデータを
差分により圧縮する例を示したが、本発明は上記圧縮方
式に限定されるものではなく、短時間で復元できる圧縮
方式であれば、その他の種々の圧縮方式を採用すること
ができる。
【0024】
【発明の効果】以上の説明から明らかなように、本発明
においては、インバーテッド・ファイルにIRNデータ
を圧縮して格納しているので、インバーテッド・ファイ
ルの入出力回数を大幅に削減することができ、情報検索
処理を高速化することができる。また、インバーテッド
・ファイルのファイル容量を小さくすることが可能とな
る。
【図面の簡単な説明】
【図1】本発明の基本構成を示す図である。
【図2】本発明の実施例を示す図である。
【図3】インバーテッド・ファイル内のIRNデータの
格納構造を示す図である。
【図4】本発明の実施例のフローチャートである。
【図5】IRNデータの格納処理のフローチャートであ
る。
【図6】従来のインバーテッド・ファイルの構成図であ
る。
【符号の説明】
1 入力部 11 キーボード 2,12 検索処理部 3a,13 インバーテッド・ファイル 3b,14 マスター・ファイル 4,15 出力部。 12a 検索条件設定部 12b 検索条件判定部 12c エントリ取り出し部 12d 復元部 12e 集合演算部 12f IRN記録部 12g マスター・ファイル・アクセ
ス部 12h 検索結果記録部

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 検索キー値とそれに対応したインデック
    ス・レコード番号を格納したインバーテッド・ファイル
    (3a)と、インデックス・レコード番号とそれに対応した
    登録情報本体を格納したマスター・ファイル(3b)とから
    構成されるファイル部(3) と、 検索条件を入力する入力部(1) と、 入力部(1) より与えられる検索条件に基づき、インバー
    テッド・ファイル(3a)よりインデックス・レコード番号
    を抽出して、マスター・ファイル(3b)より該当する登録
    情報本体を取り出す検索処理部(2) と、 検索処理部において検索された検索結果を出力する出力
    部(4) とを備えた情報検索装置において、 インバーテッド・ファイル(3a)にインデックス・レコー
    ド番号を圧縮して格納し、インバーテッド・ファイル(3
    a)よりインデックス・レコード番号を抽出する際、圧縮
    されたインデックス・レコード番号を復元し、復元され
    たインデックス・レコード番号に基づきマスター・ファ
    イル(3b)より該当する登録情報本体を取り出すことを特
    徴とするインデックス・レコード番号を圧縮・格納した
    情報検索装置
  2. 【請求項2】 インデックス・レコード番号をインバー
    テッド・ファイル(3a)に登録する際、登録時のインデッ
    クス・レコード番号の統計情報に基づいて定められた圧
    縮方式によりインデックス・レコード番号を圧縮し、圧
    縮されたインデックス・レコード番号をインバーテッド
    ・ファイル(3a)に格納することを特徴とする請求項1の
    インデックス・レコード番号を圧縮・格納した情報検索
    装置
JP4051946A 1992-03-10 1992-03-10 インデックス・レコード番号を圧縮・格納した情報検索装置 Withdrawn JPH05257774A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4051946A JPH05257774A (ja) 1992-03-10 1992-03-10 インデックス・レコード番号を圧縮・格納した情報検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4051946A JPH05257774A (ja) 1992-03-10 1992-03-10 インデックス・レコード番号を圧縮・格納した情報検索装置

Publications (1)

Publication Number Publication Date
JPH05257774A true JPH05257774A (ja) 1993-10-08

Family

ID=12901043

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4051946A Withdrawn JPH05257774A (ja) 1992-03-10 1992-03-10 インデックス・レコード番号を圧縮・格納した情報検索装置

Country Status (1)

Country Link
JP (1) JPH05257774A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06243009A (ja) * 1992-12-08 1994-09-02 Microsoft Corp 全テキストインデックスを圧縮する方法
JPH08287105A (ja) * 1995-04-18 1996-11-01 Fuji Xerox Co Ltd 文書登録検索装置
JPH0991304A (ja) * 1995-09-26 1997-04-04 Nippon Steel Corp 情報検索方法、情報検索システム及び情報検索用記憶媒体
JPH10301959A (ja) * 1997-02-28 1998-11-13 Fujitsu Ltd データ圧縮/復元装置およびデータ圧縮/復元方法
JP2001282829A (ja) * 2000-03-29 2001-10-12 Mitsubishi Electric Corp データベース検索装置及びデータベース検索方法
JP2008117407A (ja) * 2000-12-29 2008-05-22 Internatl Business Mach Corp <Ibm> 有損失インデックス圧縮装置
JP2010508606A (ja) * 2006-11-01 2010-03-18 アビニシオ テクノロジー エルエルシー 個別にアクセス可能なデータユニットの格納管理
US8489553B2 (en) 2006-11-01 2013-07-16 Ab Initio Technology Llc Managing storage of individually accessible data units
US9811570B2 (en) 2011-07-08 2017-11-07 Ab Initio Technology Llc Managing storage of data for range-based searching

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06243009A (ja) * 1992-12-08 1994-09-02 Microsoft Corp 全テキストインデックスを圧縮する方法
JPH08287105A (ja) * 1995-04-18 1996-11-01 Fuji Xerox Co Ltd 文書登録検索装置
JPH0991304A (ja) * 1995-09-26 1997-04-04 Nippon Steel Corp 情報検索方法、情報検索システム及び情報検索用記憶媒体
JPH10301959A (ja) * 1997-02-28 1998-11-13 Fujitsu Ltd データ圧縮/復元装置およびデータ圧縮/復元方法
JP2001282829A (ja) * 2000-03-29 2001-10-12 Mitsubishi Electric Corp データベース検索装置及びデータベース検索方法
JP2008117407A (ja) * 2000-12-29 2008-05-22 Internatl Business Mach Corp <Ibm> 有損失インデックス圧縮装置
JP2010508606A (ja) * 2006-11-01 2010-03-18 アビニシオ テクノロジー エルエルシー 個別にアクセス可能なデータユニットの格納管理
US8489553B2 (en) 2006-11-01 2013-07-16 Ab Initio Technology Llc Managing storage of individually accessible data units
US8639674B2 (en) 2006-11-01 2014-01-28 Ab Initio Technology Llc Managing storage of individually accessible data units
US8949189B2 (en) 2006-11-01 2015-02-03 Ab Initio Technology Llc Managing storage of individually accessible data units
US9811570B2 (en) 2011-07-08 2017-11-07 Ab Initio Technology Llc Managing storage of data for range-based searching

Similar Documents

Publication Publication Date Title
EP0293161B1 (en) Character processing system with spelling check function
US7051048B2 (en) Data management system, data management method, and program
US5740445A (en) Information processing apparatus for generating directory information to manage a file using directories
JPH05257774A (ja) インデックス・レコード番号を圧縮・格納した情報検索装置
JP3531281B2 (ja) 文書登録検索装置
JPH04245789A (ja) データ管理方法
JP3647940B2 (ja) データ管理装置
JPH0561758A (ja) 情報リンク装置
JP4298138B2 (ja) 情報検索方法及びその実施装置並びにその処理プログラムを記録した記録媒体
JPH0660120A (ja) 可変長データの格納方法及び検索装置
JPH0695337B2 (ja) 情報ファイル装置
JPS62221047A (ja) 情報フアイル装置の複数ペ−ジ登録方法
JPH05298368A (ja) 電子ファイリングシステムの検索語入力方法
JP2586172B2 (ja) 学習機能付テーブル検索装置
JPS6024631A (ja) 情報登録および検索方式
JPS6027018A (ja) 音声入力方式
JP2852253B2 (ja) データ検索装置
JPH06162096A (ja) レコード検索方法
JPH10143404A (ja) 情報記録媒体及びそのデータ記録方式
JP2621853B2 (ja) 文書検索装置及び文書検索方法
JP2003030017A (ja) データ格納方法およびその方法によったプログラムを記憶した記憶媒体
JPH0991300A (ja) ファイル管理方法
JPH0833899B2 (ja) 索引更新方式
JPH0451362A (ja) 索引検索処理方式
JPS60126767A (ja) 情報フアイル装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 19990518