JPH04245563A - Preparation of retrieving table - Google Patents

Preparation of retrieving table

Info

Publication number
JPH04245563A
JPH04245563A JP3010743A JP1074391A JPH04245563A JP H04245563 A JPH04245563 A JP H04245563A JP 3010743 A JP3010743 A JP 3010743A JP 1074391 A JP1074391 A JP 1074391A JP H04245563 A JPH04245563 A JP H04245563A
Authority
JP
Japan
Prior art keywords
index
search
keyword
keywords
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3010743A
Other languages
Japanese (ja)
Inventor
Shinji Hasunuma
蓮沼 信二
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic System Solutions Japan Co Ltd
Original Assignee
Matsushita Graphic Communication Systems Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Graphic Communication Systems Inc filed Critical Matsushita Graphic Communication Systems Inc
Priority to JP3010743A priority Critical patent/JPH04245563A/en
Publication of JPH04245563A publication Critical patent/JPH04245563A/en
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PURPOSE:To prepare a retrieving table which can secure the approximately equal time required for retrieval of the key words included in each index. CONSTITUTION:A key word that shows the contents of the document stored in a storage medium is provided with a pointer for the document number that can be derived from the key word. Then the key words are divided into groups that are shown in the indexes. These indexes contain the pointers that can derive the key words from these indexes, and the number of key words included in indexes are approximately equal to each other through a retrieving table.

Description

【発明の詳細な説明】[Detailed description of the invention]

【0001】0001

【産業上の利用分野】本発明は、記憶媒体上に記憶され
た文書を検索する検索テーブルの作成方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method for creating a search table for searching documents stored on a storage medium.

【0002】0002

【従来の技術】近来光ディスクがかなり普及している。 光ディスクの特徴は莫大なメモリ容量を有する点である
。このため1個の光ディスクに多数の文書(情報の記憶
単位)が記憶されることになり、この中から所望の文書
を迅速に取り出す必要が生じる。このため各文書を検索
するのに必要な検索情報も記憶媒体に記憶しておき、こ
の検索情報を用いて所望の文書にアクセスするようにし
ている。
2. Description of the Related Art Optical disks have become quite popular in recent years. A feature of optical discs is that they have a huge memory capacity. Therefore, a large number of documents (units of information storage) are stored on one optical disk, and it is necessary to quickly retrieve a desired document from among the documents. For this reason, the search information necessary to search each document is also stored in the storage medium, and this search information is used to access the desired document.

【0003】このような検索情報の一例を図5を用いて
説明する。図5は文書の内容を表すキーワードを所定の
グループに分け、このグループをインデックスとして表
し、インデックスごとにキーワードを分類した検索テー
ブルを表す。キーワードはそのキーワードが表す内容を
有する文書の番号である文書番号を引き出せるポインタ
を有しており、インデックスはそのインデックスに属す
るキーワードを引き出せるポインタを有する。この検索
テーブルを用いて所望の文書を検索するには、まず所望
の文書の内容を表すキーワードが含まれると思われるイ
ンデックスを取り出しそのインデックスに属するキーワ
ードを検索してゆく。目的とするキーワードが見つかれ
ばそのキーワードのポインタからそのキーワードが表す
1つまたは複数の文書番号を得て、この中から目的の文
書にアクセスする。このインデックス内に目的のキーワ
ードが含まれていない場合は、別のインデックスのキー
ワードを検索してゆく。
An example of such search information will be explained using FIG. 5. FIG. 5 shows a search table in which keywords representing the contents of a document are divided into predetermined groups, and the groups are represented as indexes, and the keywords are classified for each index. A keyword has a pointer from which a document number, which is the number of a document having the content represented by the keyword, can be retrieved, and an index has a pointer from which a keyword belonging to the index can be retrieved. To search for a desired document using this search table, first, an index that is thought to include a keyword representing the content of the desired document is retrieved, and keywords belonging to that index are searched. If a target keyword is found, one or more document numbers represented by the keyword are obtained from the keyword pointer, and the target document is accessed from among these. If the desired keyword is not included in this index, the keyword in another index is searched.

【0004】0004

【発明が解決しようとする課題】上述した図5の検索テ
ーブルを作成するに当たっては、1つのインデックスに
属するキーワードの数(図5ではKm個)を固定の値と
する場合が多い。つまり1つの記憶媒体に格納される文
書の内容を表す全てのキーワード数をIとするとインデ
ックスの数SをI/Kmとして上述の検索テーブルを作
成する。しかるにその後キーワードの数がS×Kmを越
えて登録された場合、最終インデックス(つまりS個目
のインデックス)に属するキーワードの数はKmを大き
く上回る数となる。このため(S−1)個までのインデ
ックスの検索は、各インデックスともほぼ同じ時間で検
索できるが最終インデックスに属するキーワードの検索
には検索時間が他のインデックスより長くなってしまう
In creating the above-described search table shown in FIG. 5, the number of keywords belonging to one index (Km in FIG. 5) is often set to a fixed value. That is, if the total number of keywords representing the contents of a document stored in one storage medium is I, the above-mentioned search table is created by setting the number S of indexes to I/Km. However, if the number of keywords exceeds S×Km and is subsequently registered, the number of keywords belonging to the final index (that is, the S-th index) greatly exceeds Km. Therefore, up to (S-1) indexes can be searched in approximately the same amount of time for each index, but the search time for a keyword belonging to the final index is longer than for other indexes.

【0005】本発明は、上述の問題点に鑑みてなされた
もので、各インデックス内のキーワードの検索に要する
時間がほぼ等しくなるような検索テーブルの作成方法を
提供することを目的とする。
The present invention has been made in view of the above-mentioned problems, and it is an object of the present invention to provide a method for creating a search table in which the time required to search for keywords in each index is approximately equal.

【0006】[0006]

【課題を解決するための手段】上記目的を達成するため
、本発明の検索テーブル作成方法は、記憶媒体に記憶さ
れた文書の内容を表すキーワードにそのキーワードより
引き出すことのできる文書番号のポインタを設け、前記
キーワードをグリープに分けこのグループをインデック
スで表し、このインデックスにはそこに含まれる前記キ
ーワードが引き出させるポインタを設け、このインデッ
クスとこのインデックスに属するキーワードからなる検
索テーブルを作成するに際し、各前記インデックスに属
する前記キーワード数をほぼ均等になるようにする。
[Means for Solving the Problems] In order to achieve the above object, the search table creation method of the present invention provides a pointer to a document number that can be derived from a keyword that represents the content of a document stored in a storage medium. The keywords are divided into groups, and this group is represented by an index. This index is provided with a pointer to which the keywords contained therein are retrieved. When creating a search table consisting of this index and the keywords belonging to this index, each group is represented by an index. The number of keywords belonging to the index is made approximately equal.

【0007】[0007]

【作用】上記構成により、各インデックスに属するキー
ワードの数はほぼ均一になるので全体として検索時間の
高速化を図ることができる。
[Operation] With the above configuration, the number of keywords belonging to each index is almost uniform, so that the search time can be speeded up as a whole.

【0008】[0008]

【実施例】以下、本発明の実施例を図面を参照して説明
する。図1は本発明の実施例により作成された検索テー
ブルを示す。この検索テーブルを説明するに先立ち、こ
の検索テーブルを用いて検索するシステムについて説明
する。
Embodiments Hereinafter, embodiments of the present invention will be described with reference to the drawings. FIG. 1 shows a search table created according to an embodiment of the invention. Before explaining this search table, a system for searching using this search table will be explained.

【0009】図2は光ディスク検索システムを示し、1
は光ディスクを内蔵する光ディスク制御装置、2は検索
するのに必要なキーワードや文書の入力、検索結果や読
み出した文書の表示や記録をする入出力装置、3は入出
力装置2からの指示により光ディスクから検索情報を引
き出し検索装置4で行う検索を制御するシステム制御装
置である。検索装置4では光ディスクより読み出した検
索情報を展開し検索が行われる。
FIG. 2 shows an optical disc search system, in which 1
is an optical disk control device that has a built-in optical disk, 2 is an input/output device that inputs keywords and documents necessary for searching, and displays and records search results and read documents; 3 is an optical disk controller that uses instructions from input/output device 2. This is a system control device that extracts search information from the search device 4 and controls the search performed by the search device 4. The search device 4 expands the search information read from the optical disc and performs a search.

【0010】図3は、図2に示した検索装置4の構成図
である。検索装置4はシステム制御装置3とのインタフ
ェースをとるシステムインタフェース部41と、光ディ
スクに記憶された検索情報を読み出し、これを後述する
主記憶43上に展開して検索を行う検索制御部42と、
検索のワークエリアとなる主記憶43とから構成される
FIG. 3 is a block diagram of the search device 4 shown in FIG. 2. The search device 4 includes a system interface unit 41 that interfaces with the system control device 3, a search control unit 42 that reads search information stored on an optical disk, expands it on a main memory 43 (described later), and performs a search.
It is composed of a main memory 43 that serves as a search work area.

【0011】図4は、図3に示した主記憶43に検索情
報を展開した状態を示す図である。主記憶43の領域は
インデックス領域431 と各インデックスに属するキ
ーワードを記載するキーワード領域432 および各キ
ーワードが指し示す文書を表す文書番号領域433 と
で構成される。
FIG. 4 is a diagram showing a state in which search information is expanded in the main memory 43 shown in FIG. The area of the main memory 43 is composed of an index area 431, a keyword area 432 in which keywords belonging to each index are written, and a document number area 433 representing the document pointed to by each keyword.

【0012】次に動作を説明する。検索装置4はシステ
ムインタフェース部41を介して索引情報を光ディスク
にアクセスして主記憶43上に図4に示した各領域に展
開する。次に登録されている全てのキーワード数をイン
デックス領域431 に作成可能なインデックス数Sで
割ることにより各インデックスが管理するキーワード数
Aを算出し、キーワード領域432 に大きい順( ま
たは小さい順) にソートされたキーワードの先頭から
算出したインデックス毎のキーワード数A毎にインデッ
クスを作成し、インデックス領域431 にセットする
。なお、このインデックスはその属するキーワードにア
クセスするポインタを有する。このようにして、図1に
示す検索テーブルが作成される。
Next, the operation will be explained. The search device 4 accesses the index information through the system interface section 41 to the optical disk and expands it into each area shown in FIG. 4 on the main memory 43. Next, calculate the number of keywords A managed by each index by dividing the number of all registered keywords by the number S of indexes that can be created in the index area 431, and sort them in the keyword area 432 in ascending order (or descending order). An index is created for each keyword number A for each index calculated from the beginning of the keyword, and is set in the index area 431. Note that this index has a pointer for accessing the keyword to which it belongs. In this way, the search table shown in FIG. 1 is created.

【0013】次にこの検索テーブルを用いて所望の文書
を検索する動作を説明する。入出力装置2よりあるキー
ワードが入力され、このキーワードに関する文書番号の
検索指示があった場合には、この検索指定キーワードを
システムインタフェース部41で受信した後、インデッ
クス領域431 のバイナリーサーチを行い検索指定キ
ーワードの属するキーワードリストを検出し、このキー
ワードリストの中から検索指定キーワードを検出する。 各インデックスの管理するキーワード数は平均化されて
いるので検索指定キーワードを検索する検索時間は各イ
ンデックスとも平均化される。このため従来技術で説明
した検索テーブルと異なり、各インデックスに属するキ
ーワード数はインデックスの数と全キーワード数によっ
て決まるので、あるインデックスにキーワードの数が集
中するということがなく全体として検索時間の高速化が
図れる。
Next, the operation of searching for a desired document using this search table will be explained. When a certain keyword is input from the input/output device 2 and there is an instruction to search for a document number related to this keyword, the system interface unit 41 receives this search specified keyword, performs a binary search of the index area 431, and then specifies the search specification. A keyword list to which the keyword belongs is detected, and a search specified keyword is detected from this keyword list. Since the number of keywords managed by each index is averaged, the search time for searching the specified search keyword is averaged for each index. Therefore, unlike the search table described in the conventional technology, the number of keywords belonging to each index is determined by the number of indexes and the total number of keywords, so the number of keywords is not concentrated in a certain index, and the search time is faster overall. can be achieved.

【0014】なお、バイナリーサーチとは二分探索法と
言われ、データが一定の順序、例えば、整数の間の大小
関係や文字列の間の辞書式順序に基づいて並べている場
合効果的な探索方法で、まず全体を二分して目的データ
がいずれにあるか調べ、ある方を更に二分して目的デー
タが存在する方を調べるということを次々繰り返すこと
により目的のデータを探索する方法である。
[0014] Binary search is called a binary search method, and is an effective search method when data is arranged in a certain order, for example, based on the magnitude relationship between integers or the lexicographical order between character strings. In this method, the target data is searched for by first dividing the whole into two parts and checking which part contains the target data, and then dividing the first part into two parts and checking which part contains the target data one after another.

【0015】[0015]

【発明の効果】以上の説明から明らかなように、本発明
は各インデックスの管理するキーワードの数をほぼ等し
くするように作成した検索テーブルを用いることにより
、どのキーワードの検索も平均して同じ程度の時間で行
うことができ、検索効率を向上することができる。
Effects of the Invention As is clear from the above description, the present invention uses a search table created so that the number of keywords managed by each index is approximately equal, so that searches for all keywords are performed to the same extent on average. This can be done in a short amount of time, improving search efficiency.

【図面の簡単な説明】[Brief explanation of the drawing]

【図1】本実施例により構成した検索テーブルを示す図
[Figure 1] Diagram showing a search table configured according to this embodiment

【図2】本実施例を実行するシステム構成図[Figure 2] System configuration diagram for executing this embodiment

【図3】図
2に示す検索装置の構成図
[Figure 3] Configuration diagram of the search device shown in Figure 2

【図4】図3に示す主記憶上に検索情報を展開する領域
を示す図
[Fig. 4] A diagram showing an area in which search information is expanded on the main memory shown in Fig. 3.

【図5】従来の検索テーブルの一例を示す図[Figure 5] Diagram showing an example of a conventional search table

【符号の説明】[Explanation of symbols]

1  光ディスク制御装置 2  入出力装置 3  システム制御装置 4  検索装置 41  システムインタフェース部 42  検索制御部 43  主記憶 1 Optical disc control device 2 Input/output device 3 System control device 4 Search device 41 System interface section 42 Search control section 43 Main memory

Claims (1)

【特許請求の範囲】[Claims] 【請求項1】  記憶媒体に記憶された文書の内容を表
すキーワードにそのキーワードより引き出すことのでき
る文書番号のポインタを設け、前記キーワードをグリー
プに分けこのグループをインデックスで表し、このイン
デックスにはそこに含まれる前記キーワードが引き出さ
せるポインタを設け、このインデックスとこのインデッ
クスに属するキーワードからなる検索テーブルを作成す
るに際し、各前記インデックスに属する前記キーワード
数をほぼ均等になるようにすることを特徴とする検索テ
ーブル作成方法。
Claim 1: A pointer to a document number that can be retrieved from a keyword is provided for a keyword representing the content of a document stored in a storage medium, the keywords are divided into groups, and this group is represented by an index, and this index includes A pointer is provided to retrieve the keyword contained in the index, and when creating a search table consisting of this index and the keywords belonging to this index, the number of keywords belonging to each index is made to be approximately equal. How to create a search table.
JP3010743A 1991-01-31 1991-01-31 Preparation of retrieving table Pending JPH04245563A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3010743A JPH04245563A (en) 1991-01-31 1991-01-31 Preparation of retrieving table

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3010743A JPH04245563A (en) 1991-01-31 1991-01-31 Preparation of retrieving table

Publications (1)

Publication Number Publication Date
JPH04245563A true JPH04245563A (en) 1992-09-02

Family

ID=11758790

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3010743A Pending JPH04245563A (en) 1991-01-31 1991-01-31 Preparation of retrieving table

Country Status (1)

Country Link
JP (1) JPH04245563A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08147328A (en) * 1994-11-15 1996-06-07 Hitachi Ltd Method and device for retrieving document

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08147328A (en) * 1994-11-15 1996-06-07 Hitachi Ltd Method and device for retrieving document

Similar Documents

Publication Publication Date Title
Faloutsos et al. Fast text access methods for optical and large magnetic disks: Designs and performance comparison
Baeza-Yates et al. Hierarchies of indices for text searching
JP3251138B2 (en) Hash method
US7870138B2 (en) File storage and retrieval method
JPH04245563A (en) Preparation of retrieving table
JPS5851348A (en) High-speed access system for variable-length record
JP3145727B2 (en) Data retrieval device
JPH1185585A (en) Method and device for complete memory resident index
JPH0267648A (en) Record adding system for data base with tree structure
JPH02222044A (en) Data processor
Cooper et al. Inverted signature trees and text searching on CD-ROMs
JPS61103242A (en) High-speed retrieval system
JPH03121566A (en) Retrieval system
JPH03225412A (en) File data read system
JPH03137772A (en) Data base utilizing system
Shemer Access methods: a brief overview for the 1971 ACM SIGFIDET Workshop
Cooper et al. Multi-character tries for text searching
JPH05274196A (en) Secondary storage managing method by multiple file
JPS60225938A (en) Information retrieving system
JPH05334362A (en) Processor controlling message
JPS62189530A (en) Data control system
JPH04299772A (en) Data retrieving device
JPH05204993A (en) Retrieving device
JPS63128426A (en) Retrieving system for character string of variable length
JPH02252061A (en) Image filing device