JPH08161357A - Document control system - Google Patents

Document control system

Info

Publication number
JPH08161357A
JPH08161357A JP7121370A JP12137095A JPH08161357A JP H08161357 A JPH08161357 A JP H08161357A JP 7121370 A JP7121370 A JP 7121370A JP 12137095 A JP12137095 A JP 12137095A JP H08161357 A JPH08161357 A JP H08161357A
Authority
JP
Japan
Prior art keywords
character
document
search
component table
registered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7121370A
Other languages
Japanese (ja)
Other versions
JP3563823B2 (en
Inventor
Masajirou Iwasaki
雅二郎 岩崎
Yasutsugu Ogawa
泰嗣 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP12137095A priority Critical patent/JP3563823B2/en
Publication of JPH08161357A publication Critical patent/JPH08161357A/en
Application granted granted Critical
Publication of JP3563823B2 publication Critical patent/JP3563823B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PURPOSE: To construct an efficient document control system by changing the constitution of a character component table depending on the purpose. CONSTITUTION: A document register means 2 register-operates a registering document 1 to a document data base 9. The document data base 9 includes document main sentence data 8, the character component table 7 and a character component table entry designation 6. The character component table 7 is a table recording the presence/absence of information extracted from each character and a character string included in the registering document 1 for each document. The document register means 2 stored the registering document 1 and registers/records a value calculated from each character and consecutive two characters included in the registering document 1 in the character component table 7. A document retrieving means 4 quickly finds out a document 5 corresponding to a retrieving condition 3 through the use of the character component table 7. Then, the character component table entry designation 6 is capable of changing the constitution of the character component table 7.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、文書管理装置に関し、
より詳細には、文字成分表を利用し、全文書に対して文
字列を検索する文書管理装置に関するもので、例えば、
文書管理システムや画像管理システム,データベース管
理システム等に適用し得るものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a document management apparatus,
More specifically, the present invention relates to a document management device that searches for character strings in all documents using a character component table.
It can be applied to a document management system, an image management system, a database management system, and the like.

【0002】[0002]

【従来の技術】従来の文書管理装置について記載した公
知文献としては、例えば、特開平5−324722号公
報がある。この公報のものは、文字列検索において、利
用する文字成分表を小さく抑え、かつ、検索程度を上
げ、高速な文書登録を可能とするために、入力部に入力
された検索文字列は、処理部の文字列入力処理で処理
し、文書検索処理部において、データ部の文字成分表を
利用して文字列を含むと思われる文書を検索する。検索
した文書に対応する文書データを文書出力処理により出
力部に出力し、文書登録処理では、登録する文書を文書
データに登録し、文書データより文字成分を抽出して文
字成分表に登録する。検索文字列を文書から検索する場
合、文字成分表として、文字成分が文書中に存在するか
否かを示す1文字成分表及び隣接する文字から抽出した
あるビット列が文書中に存在するか否かを示す隣接文字
成分表を利用して文書を検索する。すなわち、文書ごと
に出現した文字を記録した文字成分表を用いて文書を高
速に検索するシステムである。
2. Description of the Related Art A known document describing a conventional document management apparatus is, for example, Japanese Patent Laid-Open No. 5-324722. According to this publication, in order to reduce the size of the character component table to be used in the character string search, increase the degree of search, and enable high-speed document registration, the search character string input to the input unit is processed. The document search processing unit searches for a document that is considered to include a character string by using the character component table of the data unit. The document data corresponding to the retrieved document is output to the output unit by the document output process. In the document registration process, the document to be registered is registered in the document data, the character component is extracted from the document data, and registered in the character component table. When searching for a search character string from a document, the character component table indicates whether or not a character component exists in the document, and whether or not a certain bit string extracted from an adjacent character exists in the document. A document is searched by using the adjacent character component table indicating. That is, it is a system that searches documents at high speed using a character component table that records characters that have appeared for each document.

【0003】また、前述した特開平5−324722号
公報や、先に提案した特願平5−298433号に記載
のものは、文字成分が文書中に存在するか否かを示す単
一文字成分表、及び隣接する文字から抽出したある文字
成分が文書中に存在するか否かを示す隣接文字成分表を
利用して文書を検索するもので、さらに、文字成分表は
可変長の文字エントリを固定長ブロックに分割して二次
記憶に格納し、検索処理を高速にするために、小さいブ
ロックを大きなブロックにまとめ上げる処理を行うもの
である。
Further, the above-mentioned Japanese Patent Laid-Open No. 5-324722 and the previously proposed Japanese Patent Application No. 5-298433 propose a single character component table which indicates whether or not a character component is present in a document. , And a document is searched by using the adjacent character component table that indicates whether or not a certain character component extracted from the adjacent character exists in the document. Furthermore, the character component table fixes variable-length character entries. It divides into long blocks, stores them in secondary storage, and performs processing to combine small blocks into large blocks in order to speed up search processing.

【0004】[0004]

【発明が解決しようとする課題】しかし、前記公報等に
記載の方式には、以下に示すような問題点がある。 .文字成分表の構成が固定的だった。 .検索文字列が長くなるのに応じて検索時間がかか
る。 .単一の文字列しか検索条件として指定できない。そ
のため、複数の文字列を論理演算子(AND,OR)で
組み合わせた条件を満たす文書を検索することができな
い。 .文字成分表のビットマップデータを格納するブロッ
クの大きさ(ブロックサイズ)が固定的であるため、ブ
ロックサイズを小さくすると検索速度が低下し、ブロッ
クサイズを大きくすると登録速度が低下してしまう。 .複数の文書を一括して登録する機能がなく、多量の
文書を登録するのに処理時間がかかる。 .文書のデータがシステム内にあるので、ユーザにと
って参照するのに手間がかかったり、文書の登録,削
除,更新などの処理が面倒である。
However, the methods described in the above publications have the following problems. . The composition of the character composition table was fixed. . Search time increases as the search string lengthens. . Only a single character string can be specified as a search condition. Therefore, it is not possible to search for a document that satisfies a condition in which a plurality of character strings are combined by logical operators (AND, OR). . Since the size (block size) of the block storing the bitmap data of the character component table is fixed, the search speed decreases when the block size is reduced, and the registration speed decreases when the block size is increased. . There is no function to register multiple documents at once, and it takes processing time to register a large number of documents. . Since the document data is stored in the system, it is troublesome for the user to refer to it, and the processes such as document registration, deletion, and update are troublesome.

【0005】本発明は、このような実情に鑑みてなされ
たもので、文字成分表の構成を目的に合わせて変更で
きるようにすること、重複エントリを単一化して最適
化すること、また、文字成分表のエントリに3文字以上
のものを含めること、論理演算子に対応すること、ま
た、論理演算子に合わせた最適化すること、ブロック
サイズに大小2種類用意すること、従来の文字成分表
ではデータブロックが小さく二次記憶上で分散し、広範
囲の二次記憶をアクセスすることになり、検索速度が遅
いので、それを改善すること、従来では文字エントリ
へのアクセス、つまり二次記憶へのアクセスが多く、検
索速度の低下を招いていたので、それを改善すること、
多数の文書の登録処理の速度を改善すること、ユー
ザや他のアプリケーションによる登録文書の参照を容易
にすること、複数の文書の登録時の文書指定を容易に
すること、また、文書の登録,更新,削除があった場合
に当該装置の文書管理の自動化を行うようにした文書管
理装置を提供することを目的としている。
The present invention has been made in view of the above circumstances, and it is possible to change the structure of the character component table according to the purpose, unify and optimize duplicate entries, and Include three or more characters in the entry of the character component table, support logical operators, optimize according to logical operators, prepare two types of block sizes, conventional character components In the table, the data blocks are small and distributed over the secondary storage, which means that a wide range of secondary storage is accessed, and the search speed is slow. There was a lot of access to the site, which caused a slowdown in search speed. To improve it,
Improving the registration processing speed of a large number of documents, facilitating the reference of registered documents by users and other applications, facilitating the document designation when registering a plurality of documents, and document registration, It is an object of the present invention to provide a document management device that automates the document management of the device when it is updated or deleted.

【0006】[0006]

【課題を解決するための手段】本発明は、上記目的を達
成するために、(1)登録文書を保存するとともに、該
登録文書に含まれる各文字あるいは連続する2文字から
算出される値(文字成分)を文字成分表に登録し記録す
る文書登録手段と、前記文字成分表を用いて検索条件に
該当する文書を高速に探し出す文書検索手段とを有する
文書管理装置において、文字成分表エントリ指定により
前記文字成分表の構成を変更可能とすること、或いは、
(2)前記(1)において、前記登録文書を複数のフォ
ルダに分割して管理可能で、かつフォルダごとに文字成
分表エントリ指定のできること、或いは、(3)前記
(1)において、文書検索手段で単一の文字列から抽出
される文字成分に同一のものが二個以上ある場合、前記
文字成分表の文字成分に対するアクセスを一回しか行わ
ないこと、或いは、(4)前記(1)において、文字成
分の算出値として、連続する3文字以上の文字列から算
出される値をも用いること、或いは、(5)前記(4)
において、文書登録時の文字成分の算出において、連続
する3文字以上の文字列から算出される値を用いる場合
には、該文字列から1文字あるいは連続する2文字から
算出される値を文字成分表に登録しないこと、或いは、
(6)前記(1)において、前記文書検索手段におい
て、単一の文字列あるいは複数の文字列をAND論理演
算子あるいはOR論理演算子で組み合わせた検索条件を
処理可能とすること、或いは、(7)前記(6)におい
て、前記文書検索手段でAND論理演算子で結合される
2つの文字列から抽出される文字成分に同一のものが2
個以上ある場合、文字成分表の文字成分に対するアクセ
スを一回しか行わないこと、或いは、(8)前記(6)
において、前記文書検索手段でOR論理演算子で結合さ
れる2つの文字列から抽出される文字成分に同一のもの
が2個以上ある場合、文字成分表の文字成分に対するア
クセスを一回しか行わないこと、或いは、(9)前記
(1)において、前記文字成分表を、該文字成分表を保
存する大小2種類のブロックから構成されるデータファ
イルと、文字成分ごとのブロック位置を記録するインデ
ックスファイルによって記憶し、複数の小さいブロック
を大きいブロックにまとめるブロック融合手段を有する
こと、或いは、(10)前記(9)において、前記ブロ
ック融合手段において、データファイルの前方に大きい
ブロックをまとめ、後方に小さいブロックをまとめるこ
と、或いは、(11)前記(10)において、前記ブロ
ック融合手段において、データファイルの小さいブロッ
クが存在する領域のみをブロック融合の対象とするこ
と、或いは、(12)前記(9)において、前記ブロッ
ク融合手段において、検索時に高速に文字成分表エント
リを二次記憶から読み出すために、複数の固定長ブロッ
クに分割された各文字成分表エントリを大きな固定長ブ
ロックにまとめあげる時に大きな固定長ブロックをアロ
ケートの単位とし、まとめ上げられた大きな固定長ブロ
ック及びまとめあげられなかった残りの小さな固定長ブ
ロックを詰め込んだ大きな固定長ブロックを順時書き出
すことによって、文字成分表のデータを一回のスキャン
で処理し、高速にかつ処理時に必要な二次記憶領域を最
小限に抑えること、或いは、(13)大量の文書データ
を保持し、入力装置から入力された検索文字列を含む文
書を検索し、出力装置により検索した文書を出力する文
書管理装置であって、文書登録時に文書より各文字コー
ド成分(単一文字成分)及び2文字以上の隣接文字から
抽出したビット列成分(隣接文字成分)を抽出し、各文
書がそれぞれの成分を含むか否かを示す単一文字成分表
及び一つ以上の隣接文字成分表を生成し、該文字成分表
の可変長の各文字成分のエントルを複数の固定長ブロッ
クに分割して二次記憶に登録し、検索時には検索文字列
から登録時と同様に単一文字成分及び2文字以上の隣接
文字成分を抽出し、該隣接文字成分に対応する二次記憶
上の固定長ブロックを統合し、各文字エントリを生成し
て文書を検索する文書管理装置において、仮に文字エン
トリで文字成分が出現するビットを1とし、出現しない
ビットを0とした場合に、検索時に複数の文字エントリ
のビットマップのAND処理を行う時に対象となる文字
エントリを一つ適当に選択し、ビット列をスキャンして
値が1である時だけ他のエントリの対応するビットを調
べ、全てのエントリの対応するビットの値が1である文
書を検索結果とすることにより、文字エントリのビット
マップへのアクセスを最小限に全文検索を行うこと、或
いは、(14)前記(13)において、文字エントリご
とに該文字エントリに出現する1のビットの個数(ビッ
ト出現数)をあらかじめ二次記憶に記録しておき、検索
時に複数の文字エントリのビットマップのAND処理を
行う時に対象となる文字エントリのうち、該ビット出現
数の最も少ない文字エントリを選択し、ビット列をスキ
ャンして値が1である時だけビット出現数の少ない順に
他の文字エントリの対応するビットを調べ、全ての文字
エントリの対応するビットの値が1である文書を検索結
果とすることにより、文字エントリのビットマップへの
アクセスを最小限に抑え全文検索を行うこと、或いは、
(15)前記(13)において、文字エントリの一部へ
のアクセスの場合に、文字エントリの全ブロックを読み
出す必要がないように、可変長の文字エントリのビット
マップデータを複数の固定長のブロックに分割して二次
記憶に格納し、各固定長のブロックを管理するブロック
テーブルを二次記憶上に有し、該ブロックテーブルから
任意の固定長ブロックをアクセスできるようにすること
によって、必要のない二次記憶上のブロックへのアクセ
スを減らして全文検索を行うこと、或いは、(16)登
録文書を保存するとともに、該登録文書に含まれる各文
字あるいは連続する2文字から算出される値(文字成
分)を文字成分表に登録し記録する文書登録手段と、前
記文字成分表を用いて検索条件に該当する文書を高速に
探し出す文書検索手段とを有し、前記文字成分表エント
リ指定により文字成分表の構成を変更可能とし、前記文
字成分表の構成を文書の各文字および連続する2文字か
ら算出される値を記録するものとした場合、前記文字検
索手段が検索文字列から連続する2文字から算出される
値のみを抽出すること、或いは、(17)前記(16)
において、前記文書検索手段が、検索文字列からの連続
する2文字から算出される値と、該検索文字列の末尾の
1文字から算出される値を抽出すること、或いは、(1
8)前記(16)において、前記文書検索手段が、検索
文字列からの連続する2文字から算出される値と、該検
索文字列の先頭の1文字から算出される値を抽出するこ
と、或いは、(19)前記(18)において、前記文字
成分表の構成を連続する3文字以上の文字列から算出さ
れる値(文字列エントリ)をも用いる場合、前記文書検
索手段が、検索文字列から前記文字エントリが抽出され
る時には、該文字列エントリに対応する文字列に含まれ
る1文字あるいは前記文字列にその前後の文字を含めた
文字列に含まれる2文字から算出される値を抽出しない
こと、或いは、(20)前記(16)において、前記文
書検索手段が単一の文字列あるいは複数の文字列を「論
理積」,「論理和」あるいは「論理差」論理演算子で組
み合わせた検索条件を処理可能なこと、或いは、(2
1)前記(20)において、前記文書検索手段で「論理
差」で結合される2つの文字列の処理において、後側の
文字列を処理しないこと、或いは、(22)前記(1)
において、前記文書登録手段が、多数の文書を一括して
登録する場合に、一文書を登録するごとに生成された文
字成分表データを直接二次記憶上の文字成分表に書き込
むのではなく一旦メモリ上に登録し、その後、一括して
メモリ上の文字成分表データを二次記憶の文字成分表に
書き出すことによって、高速に文書の一括登録を行うこ
と、或いは、(23)前記(1)において、前記文書登
録手段により登録されたファイルシステム上の登録文書
のディレクトリパス名を二次記憶上で管理し、文書内容
を参照する場合には、登録したディレクトリパス名を基
に直接ファイルシステム上のオリジナルデータを参照す
ることによって、文書管理システムが内部にオリジナル
データを持つ必要がないだけでなく、ユーザや他のアプ
リケーションによる登録文書の参照を容易にすること、
或いは、(24)前記(1)において、前記文書登録手
段により登録されたファイルシステム上の登録文書のオ
リジナルデータのディレクトリパス名を管理し、文書内
容を参照する場合には、登録したディレクトリパス名を
基に直接ファイルシステム上のオリジナルデータを参照
するようにし、文書の登録時にディレクトリを指定し、
そのディレクトリ内およびその下位ディレクトリの文書
をすべて登録することにより、複数の文書の登録時の文
書指定を容易にすること、或いは、(25)前記(1)
において、前記文書登録手段により登録されたファイル
システム上の登録文書のオリジナルデータのディレクト
リパス名を管理し、文書内容を参照する時には、登録し
たディレクトリパス名を基に直接ファイルシステム上の
オリジナルデータを参照するようにし、あらかじめ登録
対象とするディレクトリを指定しておき、そのディレク
トリ上での文書の登録,更新,削除を常に監視し、文書
の登録,更新,削除があった場合には、自動的に当該の
文書について文字成分表に登録,更新,削除を行うこと
によって、ユーザの文書管理の手間を削減することを特
徴としたものである。
In order to achieve the above-mentioned object, the present invention (1) stores a registered document, and a value calculated from each character or two consecutive characters contained in the registered document ( In a document management device having a document registration unit for registering and recording (character component) in a character component table and a document searching unit for rapidly searching for a document satisfying a search condition using the character component table, a character component table entry designation is made. To change the composition of the character component table by
(2) In (1), the registered document can be divided into a plurality of folders and managed, and a character component table entry can be designated for each folder; or (3) In (1), the document search means. When there are two or more identical character components extracted from a single character string, the character component in the character component table is accessed only once, or (4) In (1) above. As the calculated value of the character component, a value calculated from a continuous character string of three characters or more is also used, or (5) above (4)
In the case of using the value calculated from a continuous character string of three or more characters in the calculation of the character component at the time of document registration, the value calculated from one character or two continuous characters from the character string is used as the character component. Do not register in the table, or
(6) In the above (1), the document search means can process a search condition in which a single character string or a plurality of character strings are combined by an AND logical operator or an OR logical operator, or ( 7) In (6), the same character component extracted from the two character strings combined by the AND logical operator in the document search means is 2
If there are more than one, the character component in the character component table is accessed only once, or (8) above (6)
In the above, if there are two or more identical character components extracted from the two character strings combined by the OR logical operator in the document search means, the character component in the character component table is accessed only once. Or (9) In (1), the character component table is a data file composed of two types of blocks, large and small, for storing the character component table, and an index file for recording the block position for each character component. Or a block merging means for storing a plurality of small blocks into a large block, or (10) in (9), the block merging means groups a large block in front of the data file and a small block in the rear. Grouping blocks, or (11) in the block merging means in (10) above. , Subjecting only the area of the data file having a small block to the block fusion, or (12) in the above (9), the block fusion means rapidly stores the character component table entry from the secondary storage at the time of retrieval. When reading each character component table entry divided into multiple fixed-length blocks into a large fixed-length block for reading, the large fixed-length block is used as the unit of allocation, and the combined large fixed-length block and the rest that cannot be combined By writing out large fixed-length blocks packed with small fixed-length blocks in sequence, the data of the character component table can be processed in one scan, and the secondary storage area required at high speed can be minimized. Or, (13) Retrieval input from the input device, which holds a large amount of document data A document management device for searching a document including a character string and outputting the searched document by an output device, wherein a bit string extracted from each character code component (single character component) and two or more adjacent characters from the document at the time of document registration A component (adjacent character component) is extracted, a single character component table indicating whether or not each document includes each component, and one or more adjacent character component tables are generated, and each variable-length character of the character component table is generated. The entropy of the component is divided into a plurality of fixed-length blocks and registered in the secondary memory. At the time of search, a single character component and two or more adjacent character components are extracted from the search character string, and the adjacent character components are extracted. In a document management device that integrates fixed-length blocks in secondary storage corresponding to the above, generates each character entry, and retrieves a document, the bit in which a character component appears in a character entry is set to 1 and the bit that does not appear is If 0 is set to 0, a target character entry is appropriately selected when AND processing of the bitmaps of a plurality of character entries is performed at the time of search, and the bit string is scanned to change other By performing a full-text search with a minimum access to the bitmap of character entries, by checking the corresponding bits of the entries, and by using the document in which the value of the corresponding bits of all the entries is 1 as the search result, or (14) In the above (13), the number of 1 bits appearing in each character entry (the number of appearances of bits) is recorded in the secondary storage in advance for each character entry, and the bitmap of a plurality of character entries is searched at the time of retrieval. When the AND process is performed, the character entry with the smallest number of occurrences of the bit is selected from the target character entries, the bit string is scanned, and the value is 1. By checking the corresponding bits of other character entries in the ascending order of the number of bit appearances, and finding the documents in which the value of the corresponding bit of all character entries is 1, the access to the bitmap of character entries can be performed. Do a full-text search with a minimum, or
(15) In (13), the bitmap data of a variable-length character entry is converted into a plurality of fixed-length blocks so that it is not necessary to read all blocks of the character entry when accessing a part of the character entry. It is divided into two parts and stored in the secondary storage, and a block table that manages each fixed-length block is provided in the secondary storage, and an arbitrary fixed-length block can be accessed from the block table. A full-text search is performed by reducing access to a block on the secondary storage that is not present, or (16) a value calculated from each character or two consecutive characters included in the registered document while saving the registered document ( A document registration unit for registering and recording (character component) in the character component table, and a document search unit for quickly searching for a document satisfying the search condition using the character component table. And the configuration of the character component table can be changed by designating the character component table entry, and the configuration of the character component table records each character of the document and a value calculated from two consecutive characters. The character search means extracts only a value calculated from two consecutive characters from the search character string, or (17) the above (16)
In the above, the document search means extracts a value calculated from two consecutive characters from the search character string and a value calculated from one character at the end of the search character string, or (1
8) In (16), the document search means extracts a value calculated from two consecutive characters from the search character string and a value calculated from the first character of the search character string, or (19) In the case of (18), in the case where a value (character string entry) calculated from a character string of three or more consecutive characters is also used in the configuration of the character component table, the document search means uses the search character string. When the character entry is extracted, a value calculated from one character included in the character string corresponding to the character string entry or two characters included in the character string including the characters before and after the character string is not extracted. Or (20) In (16), the document retrieval means combines a single character string or a plurality of character strings with a "logical product", a "logical sum", or a "logical difference" logical operator. conditions Can be processed, or (2
1) In the above (20), in the processing of the two character strings combined by the "logical difference" by the document search means, the character string on the rear side is not processed, or (22) The above (1)
In the case of registering a large number of documents at once, the document registration means does not directly write the character component table data generated each time one document is registered to the character component table on the secondary storage, but once. The document is registered in the memory, and then the character component table data in the memory is collectively written in the character component table of the secondary storage to perform the batch registration of documents at high speed, or (23) (1) above. When the directory path name of the registered document on the file system registered by the document registration means is managed on the secondary storage and the document contents are referred to, the file path directly on the file system is registered based on the registered directory path name. Not only does the document management system not need to have the original data internally by referencing the original data of To facilitate the reference of the registration document,
Alternatively, (24) in (1), the directory path name of the original data of the registered document on the file system registered by the document registration means is managed, and when referring to the document contents, the registered directory path name Directly refer to the original data on the file system based on, specify the directory when registering the document,
By registering all the documents in the directory and its subordinate directories, the document designation at the time of registering a plurality of documents can be facilitated, or (25) above (1)
In managing the directory path name of the original data of the registered document on the file system registered by the document registration means, and referring to the document contents, the original data on the file system is directly copied based on the registered directory path name. The directory to be registered is specified in advance so that the registration, update, and deletion of documents in that directory are always monitored, and when a document is registered, updated, or deleted, it is automatically In addition, by registering, updating, and deleting the document with respect to the character component table, the user's time and effort for document management is reduced.

【0007】[0007]

【作用】本発明の文書管理装置は、(1)登録文書を保
存するとともに、該登録文書に含まれる各文字あるいは
連続する2文字から算出される値を文字成分表に登録し
記録する文書登録手段と、前記文字成分表を用いて検索
条件に該当する文書を高速に探し出す文書検索手段とを
有しており、前記文字成分表エントリ指定により文字成
分表の構成を変更可能とし、前記登録文書を複数のフォ
ルダに分割して管理可能で、かつフォルダごとに文字成
分表エントリ指定できるようにし、文字成分表の構成を
目的に合わせて変更できるようにしたため、効率的な文
書管理システムを構築できる。
The document management apparatus according to the present invention includes (1) document registration in which a registered document is stored and a value calculated from each character or two consecutive characters included in the registered document is registered and recorded in the character component table. And a document search unit that searches for a document that meets the search condition at high speed using the character component table, and makes it possible to change the configuration of the character component table by specifying the character component table entry. Can be managed by dividing it into multiple folders, and the character component table entry can be specified for each folder, and the structure of the character component table can be changed according to the purpose, so an efficient document management system can be constructed. .

【0008】(2)前記文書検索手段で単一の文字列か
ら抽出される文字成分に同一のものが2個以上ある場
合、前記文字成分表の文字成分に対するアクセスを一回
しか行わないようにし、また、文字成分の算出におい
て、連続する3文字以上の文字列から算出される値をも
用いるようにし、さらに、文書登録時の文字成分の算出
において、連続する3文字以上の文字列から算出される
値を用いる場合には、該文字列から1文字あるいは連続
する2文字から算出される値を文字成分表に登録しない
ようにしたので、検索文字列が長い場合でも、高速に文
書検索できる。
(2) When there are two or more identical character components extracted from a single character string by the document retrieval means, the character component in the character component table is accessed only once. In addition, a value calculated from a continuous character string of three or more characters is used in the calculation of the character component, and further, a value calculated from the continuous character string of three or more characters is calculated in the calculation of the character component at the time of document registration. When a value that is used is used, the value calculated from one character or two consecutive characters from the character string is not registered in the character component table, so that even if the search character string is long, the document can be searched at high speed. .

【0009】(3)前記文書検索手段において、単一の
文字列あるいは複数の文字列をANDあるいはOR論理
演算子で組み合わせた検索条件を処理可能とし、また、
前記文書検索手段でAND論理演算子で結合される2つ
の文字列から抽出される文字成分に同一のものが2個以
上ある場合、文字成分表の文字成分に対するアクセスを
一回しか行わないようにし、さらに、前記文書検索手段
でOR論理演算子で結合される2つの文字列から抽出さ
れる文字成分に同一のものが2個以上ある場合、文字成
分表の文字成分に対するアクセスを一回しか行わないよ
うにしたので、検索条件を複数の文字列を論理演算子
(AND,OR)で組み合わせで表現できるので、複雑
な検索要求を表現することが可能となる。また、論理演
算子に合わせた最適化を行うので、高速に文書検索でき
る。
(3) The document searching means can process a search condition in which a single character string or a plurality of character strings are combined by AND or OR logical operators, and
When there are two or more identical character components extracted from the two character strings combined by the AND logical operator in the document retrieval means, the character component in the character component table is accessed only once. Further, when there are two or more identical character components extracted from the two character strings combined by the OR logical operator in the document retrieval means, the character component in the character component table is accessed only once. Since the search condition is not included, a plurality of character strings can be expressed as a combination by logical operators (AND, OR), so that a complicated search request can be expressed. In addition, since optimization is performed according to the logical operator, documents can be searched at high speed.

【0010】(4)前記文字成分表を、該文字成分表を
保存する大小2種類のブロックから構成されるデータフ
ァイルと、文字成分ごとのブロック位置を記録するイン
デックスファイルによって記憶し、複数の小さいブロッ
クを大きいブロックにまとめるブロック融合手段を有
し、また、前記ブロック融合手段において、データファ
イルの前方に大きいブロックをまとめ、後方に小さいブ
ロックをまとめるようにし、さらに、前記ブロック融合
手段において、データファイルの小さいブロックが存在
する領域のみをブロック融合の対象とするようにし、文
字成分表のビットマップデータを格納するブロックの大
きさに大小2種類用意したため、登録/検索速度をとも
に高速化できる。
(4) The character component table is stored by a data file composed of two types of blocks, large and small, for storing the character component table and an index file for recording the block position for each character component. A block merging unit for merging blocks into a large block, wherein the block merging unit assembles large blocks in front of the data file and assembles small blocks rearward of the data file; Since only the area having a small block is targeted for block fusion, and two sizes, large and small, are prepared for the size of the block that stores the bitmap data of the character component table, both the registration / search speed can be increased.

【0011】(5)前記ブロック融合手段において、検
索時に高速に文字成分表エントリを二次記憶から読み出
すために、複数の固定長ブロックに分割された各文字成
分表エントリを大きな固定長ブロックにまとめあげる時
に大きな固定長ブロックをアロケートの単位とし、まと
め上げられた大きな固定長ブロック及びまとめあげられ
なかった残りの小さな固定長ブロックを詰め込んだ大き
な固定長ブロックを順時書き出すことによって、文字成
分表のデータを一回のスキャンで処理し、高速にかつ処
理時に必要な二次記憶領域を最小限に抑えるようにし、
文字エントリの小さなブロックを大きなブロックにまと
め上げることにより、検索速度が向上する。
(5) In the block merging means, the character component table entries divided into a plurality of fixed length blocks are grouped into a large fixed length block in order to read the character component table entries from the secondary storage at high speed during retrieval. Sometimes a large fixed-length block is used as a unit of allocation, and a large fixed-length block packed together and a large fixed-length block packed with the remaining small fixed-length blocks that could not be combined are written out in sequence, thereby writing the data of the character component table. Process in a single scan, speedily and minimize the secondary storage area required during processing,
Search speed is improved by combining small blocks of character entries into large blocks.

【0012】(6)特定のビットマップのビットを横方
向に順時調べ、ビットが1の場合には、他のビットマッ
プエントリの対応するビットを調べる。つまり、縦方向
にビットを調べ、すべてのビットが1の場合は、ビット
に対応する文書が検索結果の文書となるようにする。ま
た、各文字エントリ中に出現するビット1の出現数を予
めカウントしておき、前述のビットを調べる処理の時に
ビット出現数が小さい順に並び代え、同様の処理を行う
ことによって、さらに参照するデータ量を減らすことが
可能となる。さらに、文字エントリの一部しか必要でな
い場合には、全ブロックをアクセスすることなしにブロ
ックテーブルから直接該当するブロックを得られ、高速
に検索することができる。このように従来技術では文字
エントリのアクセスが多く、検索速度の低下を招いてい
たが、検索時の処理のアルゴリズム及びデータ構成を変
えることによって検索速度が向上する。
(6) A bit of a specific bitmap is sequentially examined in the horizontal direction, and when the bit is 1, the corresponding bit of another bitmap entry is examined. That is, the bits are examined in the vertical direction, and if all the bits are 1, the document corresponding to the bits is the document as the search result. Further, the number of appearances of bit 1 appearing in each character entry is counted in advance, the bits are rearranged in the ascending order of the number of appearances of the bits at the time of the above-described processing for checking the bits, and the same processing is performed, so that the data to be referred to further. It is possible to reduce the amount. Further, when only a part of the character entry is required, the corresponding block can be directly obtained from the block table without accessing the entire block, and the high speed search can be performed. As described above, in the related art, the character entry is frequently accessed and the search speed is lowered. However, the search speed is improved by changing the algorithm and the data structure of the processing at the time of search.

【0013】(7)前記文字成分表の構成を文書の各文
字および連続する2文字から算出される値を記録するも
のとした場合、前記文字検索手段が検索文字列から連続
する2文字から算出される値のみを抽出し、また、前記
文書検索手段が検索文字列から連続する2文字から算出
される値と、該検索文字列の末尾の1文字から算出され
る値を抽出し、また、検索文字列から連続する2文字か
ら算出される値と、該検索文字列の先頭の1文字から算
出される値を抽出し、さらに、前記文字成分表の構成を
連続する3文字以上の文字列から算出される値をも用い
る場合、前記文書検索手段が検索文字列から前記文字エ
ントリが抽出される時には、該文字列エントリに対応す
る文字列に含まれる1文字あるいは前記文字列にその前
後の文字を含めた文字列に含まれる2文字から算出され
る値を抽出しないようにしたので、検索処理において検
索文字列から抽出するエントリ数を削減し、検索処理を
高速化できる。
(7) When the composition of the character component table is such that each character of the document and a value calculated from two consecutive characters are recorded, the character searching means calculates from two consecutive characters from the search character string. And a value calculated from two consecutive characters from the search character string and a value calculated from one character at the end of the search character string, and A value calculated from two consecutive characters from the search character string and a value calculated from one character at the beginning of the search character string are extracted, and further the character string of the character component table is composed of three or more consecutive character strings. When using the value calculated from, when the document search unit extracts the character entry from the search character string, one character included in the character string corresponding to the character string entry or the character before and after the character is included in the character string. Including characters Since so as not to extract the value calculated from the 2 characters in string, reducing the number of entries to be extracted from the search string in the search process can speed up the search process.

【0014】(8)前記文書検索手段が単一の文字列あ
るいは複数の文字列を「論理積」,「論理和」あるいは
「論理差」論理演算子で組み合わせた検索条件を処理可
能とし、また、前記文書検索手段で「論理差」で結合さ
れる2つの文字列の処理において、後側の文字列を処理
しないことにしたので、検索条件を複数の文字列を論理
演算子(AND,OR,NOT)で組み合わせで表現で
きるので、複雑な検索要求を表現することが可能とな
る。また、論理演算子に合わせた最適化を行うので、高
速に文書検索できる。
(8) The document search means can process a search condition in which a single character string or a plurality of character strings are combined by "logical product", "logical sum" or "logical difference" logical operators, and In the processing of two character strings combined by "logical difference" in the document search means, the latter character string is not processed, so that the search condition is a logical operator (AND, OR) of a plurality of character strings. , NOT) can be expressed as a combination, so that a complicated search request can be expressed. In addition, since optimization is performed according to the logical operator, documents can be searched at high speed.

【0015】(9)多数の文書を一括して登録する場合
に、一文書を登録するごとに生成された文字成分表デー
タを直接二次記憶上の文字成分表に書き込むのではな
く、多数の文書を一括して登録するには、従来の方法で
は文字成分表データが二次記憶上にある場合には、一文
書を登録するごとに二次記憶にアクセスすることにな
り、速度が遅い。そこで、一括登録する文書について
は、一旦メモリ上に文字成分表を一時的に生成登録し、
その後、処理の最後にメモリ上の文字成分表データを二
次記憶上の文書成分表データにアペンドする。こうする
ことによって、二次記憶へのアクセスが減り、高速に複
数文書の一括登録が可能となる。
(9) When a large number of documents are registered at once, the character component table data generated every time one document is registered is not directly written in the character component table on the secondary storage, but a large number of documents are registered. In the conventional method, when the document is stored in the secondary storage, the secondary storage is accessed every time one document is registered, and the speed of the document registration is low. Therefore, for documents to be registered in batch, temporarily generate and register the character component table in the memory,
After that, at the end of the processing, the character component table data on the memory is appended to the document component table data on the secondary storage. By doing so, the access to the secondary storage is reduced, and the batch registration of a plurality of documents can be performed at high speed.

【0016】(10)当該文書管理装置のシステム内に
は、文書データを持たず、その代わりに文書の情報の一
つとして、オリジナル文書のファイルシステム上での位
置を示すディレクトリパス名を管理する。参照には、デ
ィレクトリパス名を基にファイルシステム上のオリジナ
ル文書を直接参照することになるので、当該装置のシス
テムが内部にオリジナルデータを持つ必要がなく、二次
記憶を無駄に利用しないだけでなく、システムを介する
ことなくユーザや他のアプリケーションによる登録文書
の参照が可能となる。
(10) There is no document data in the system of the document management device, and instead, as one of the document information, a directory path name indicating the position of the original document on the file system is managed. . For reference, since the original document on the file system is directly referenced based on the directory path name, the system of the device does not need to have the original data internally, and the secondary storage is not wasted. In addition, the registered document can be referred to by the user or another application without going through the system.

【0017】(11)文書の登録時にディレクトリを指
定し、そのディレクトリ内およびその下位ディレクトリ
の文書をすべて登録することにより、文書管理装置にお
いてファイルシステム上の登録文書のオリジナルデータ
の該ディレクトリパス名を管理する。文書内容を参照す
る場合には、登録したディレクトリパス名を基に直接フ
ァイルシステム上のオリジナルデータを参照するように
なし得る。この様なことで、オリジナル文書をユーザが
普段利用するファイルシステム上に置く場合には、一つ
のディレクトリ階層に存在する文書をそのまま文書管理
装置で管理するシステムとすることが可能となる。ま
た、ディレクトリを指定することによって、そのディレ
クトリ中に含まれる文書または下位のディレクトリ中に
含まれる全文書を自動的に登録することができるように
することで、ディレクトリ上の全文書を一つ一つユーザ
が指定する必要があった従来のユーザの負担を軽減する
ことができる。
(11) When a document is registered, a directory is designated, and all the documents in the directory and its subordinate directories are registered, so that the directory path name of the original data of the registered document on the file system is registered in the document management apparatus. to manage. When referring to the document contents, the original data on the file system may be directly referred to based on the registered directory path name. In this way, when the original document is placed on the file system that the user usually uses, it becomes possible to manage the document existing in one directory hierarchy as it is by the document management device. In addition, by specifying a directory, you can automatically register all the documents included in that directory or the subordinate directories, so that all the documents in the directory can be registered individually. It is possible to reduce the burden on the conventional user, which had to be designated by one user.

【0018】(12)当該文書管理装置では、ファイル
システム上の登録文書のオリジナルデータのディレクト
リパス名を管理する。文書内容を参照する時には、登録
したディレクトリパス名を基に直接ファイルシステム上
のオリジナルデータを参照することになり、また、事前
に当該文書管理装置に登録したい文書を置くディレクト
リをユーザが指定しておくと、当該装置のシステムは、
そのディレクトリ上での文書の登録,更新,削除を常に
監視し、文書の登録,更新,削除が行われた場合には、
同じ操作を自動的に文字成分表に反映させ、登録,更
新,削除を行う。このようにすることで、ユーザの文書
操作の負担を軽減することができる。
(12) The document management device manages the directory path name of the original data of the registered document on the file system. When referring to the document contents, the original data on the file system is directly referenced based on the registered directory path name, and the user specifies in advance the directory in which the document to be registered in the relevant document management device is placed. Then, the system of the device is
The registration, update, and deletion of documents in that directory are constantly monitored, and when registration, update, and deletion of documents are performed,
The same operation is automatically reflected in the character component table, and registration, update and deletion are performed. By doing so, it is possible to reduce the burden of the document operation on the user.

【0019】[0019]

【実施例】実施例について、図面を参照して以下に説明
する。図1は、本発明による文書管理装置の一実施例
(請求項1)を説明するための構成図で、図中、1は登
録文書、2は文書登録手段、3は検索条件、4は文書検
索手段、5は該当文書、6は文字成分表エントリ指定、
7は文字成分表、8は文書本文データ、9は文書データ
ベースである。
Embodiments will be described below with reference to the drawings. FIG. 1 is a block diagram for explaining an embodiment (claim 1) of a document management apparatus according to the present invention. In the figure, 1 is a registered document, 2 is a document registration means, 3 is a search condition, and 4 is a document. Search means, 5 is the relevant document, 6 is a character component table entry designation,
Reference numeral 7 is a character component table, 8 is document text data, and 9 is a document database.

【0020】文書登録手段2は、登録文書1を文書デー
タベース9に登録操作を行う。該文書データベース9に
は、文書本文データ8と文字成分表7と文字成分表エン
トリ指定6とが含まれる。文字成分表7とは、登録文書
1に含まれる各文字あるいは文字列から抽出された情報
の存在の有無を文書ごとに記録した表である。文書登録
手段2は、登録文書1を保存するとともに、該登録文書
1に含まれる各文字あるいは連続する2文字から算出さ
れる値を文字成分表7に登録し記録する。文書検索手段
4は、前記文字成分表7を用いて検索条件3に該当する
文書5を高速に探し出す。文字成分表エントリ指定6に
より文字成分表7の構成を変更可能とする。
The document registration means 2 performs the registration operation of the registered document 1 in the document database 9. The document database 9 includes document body data 8, a character component table 7, and a character component table entry designation 6. The character component table 7 is a table in which the presence or absence of information extracted from each character or character string included in the registered document 1 is recorded for each document. The document registration means 2 stores the registered document 1 and also registers and records a value calculated from each character or two consecutive characters included in the registered document 1 in the character component table 7. The document search means 4 uses the character component table 7 to quickly find the document 5 that satisfies the search condition 3. The configuration of the character component table 7 can be changed by the character component table entry designation 6.

【0021】図2は、文字成分表の一例を示す図であ
る。ここで示した文字成分表では、各文字の出現のみを
記録した構成である。これは、各文字のコードに関数を
作用させ、算出される値をエントリとするものである
(各文字の出現をそのまま記録する図2の方式は、関数
としてf(x)=xとしたものである)。このような1文
字から算出されるエントリを単一文字エントリと呼ぶ。
FIG. 2 is a diagram showing an example of the character component table. In the character component table shown here, only the appearance of each character is recorded. In this method, a function is applied to the code of each character, and the calculated value is used as an entry. Is). An entry calculated from such one character is called a single character entry.

【0022】図3は、文字成分表の他の例を示す図であ
る。ここで示した文字成分表では、各文字と連続する2
文字からそれぞれの文字コードの下位4ビットをビット
連結して得られる値をエントリとしている。例えば、
「ぐ」,「だ」,「ば」のJISコードは、各々 0x2430,0x
2440,0x2450 であり、下位4ビットを連結して得られ
る8ビットを文字成分表のエントリとした場合、「ぐ
ぐ」,「ぐだ」,「ぐば」…は全て同じ 0x00 のエントリ
にまとめられる。すなわち、連続する2文字のコードに
関数を作用させ、算出される値をエントリとすることが
できる(前側の文字x,後側の文字yに対して、関数g
(x,y)の値をエントリとする)。このような連続する
2文字から算出されるエントリ(文字成分)を隣接文字
エントリと呼ぶ。図3の文字成分表は、単一文字エント
リと隣接文字エントリを組み合わせたものである。
FIG. 3 is a diagram showing another example of the character component table. In the character component table shown here, two consecutive characters
An entry is a value obtained by bit-connecting the lower 4 bits of each character code from a character. For example,
The JIS codes for "gu", "da", and "ba" are 0x2430 and 0x, respectively.
2440, 0x2450, and if 8 bits obtained by concatenating the lower 4 bits are used as an entry in the character component table, "gugu", "guda", "guba" ... Are all grouped into the same 0x00 entry. That is, it is possible to apply a function to a code of two consecutive characters and use the calculated value as an entry (for the character x on the front side and the character y on the rear side, the function g
The value of (x, y) is an entry). An entry (character component) calculated from two consecutive characters is called an adjacent character entry. The character component table of FIG. 3 is a combination of single character entries and adjacent character entries.

【0023】このように、文字成分表には様々な構成が
可能であり、本発明では、図1の文字成分表エントリ指
定6によって文字成分表7の構成を指定できるものとす
る。以下の説明では、簡単のため、図2のような各文字
の出現のみを記録した文字成分表を使用するものとす
る。
As described above, the character component table can have various configurations, and in the present invention, the configuration of the character component table 7 can be designated by the character component table entry designation 6 in FIG. In the following description, for the sake of simplicity, a character component table in which only the appearance of each character is recorded as shown in FIG. 2 is used.

【0024】文書登録手順は、次の通りである。 .登録文書1を文書本文データ8に登録する。 .登録文書1の内容を文字成分表7に登録する。 文書本文から文字成分表エントリ指定6で規定されるエ
ントリを抽出する。登録文書番号をi,抽出されたエン
トリ番号をjとした場合、すべてのjについて文字成分
表の点(i,j)の値を“1”にする。
The document registration procedure is as follows. . The registered document 1 is registered in the document body data 8. . The contents of the registration document 1 are registered in the character component table 7. The entry specified by the character component table entry designation 6 is extracted from the document body. When the registered document number is i and the extracted entry number is j, the value of point (i, j) in the character component table is set to "1" for all j.

【0025】また、文書検索手順は、次の通りである。 .文字成分表7を用いて検索文字列を含む可能性のあ
る文書番号を求める。 (a)検索文字列から文字成分表エントリ指定6で規定さ
れるエントリを抽出する。 (b)抽出されたエントリのビットマップ(図2の横一
列)を文字成分表から抜きだし、ビットANDをとる。 .前記で求まった文書番号の文書本文を文書本文デ
ータ8から読みだし、検索文字列が含まれているか調
べ、含まれている文書集合を検索結果とする。
The document search procedure is as follows. . A document number that may include a search character string is obtained using the character component table 7. (a) The entry defined by the character component table entry designation 6 is extracted from the search character string. (b) The extracted entry bitmap (one horizontal row in FIG. 2) is extracted from the character component table, and bit AND is performed. . The document body of the document number obtained above is read from the document body data 8 and it is checked whether or not the search character string is included, and the included document set is used as the search result.

【0026】文字成分表の検索精度(文字成分表を用い
て得られる文書に検索文字列が含まれている割合)は文
字成分表の構成に依存する。本発明では、文字成分表エ
ントリ指定により、文字成分表の構成を任意に変更でき
る。そのため、登録される文書に合わせて効率的な文書
管理システムを構築できる。
The retrieval accuracy of the character component table (the ratio of the retrieval character string included in the document obtained by using the character component table) depends on the structure of the character component table. In the present invention, the configuration of the character component table can be arbitrarily changed by designating the character component table entry. Therefore, an efficient document management system can be constructed according to the registered document.

【0027】次に、請求項2に記載の発明について説明
する。図4は、本発明による文書管理装置の他の実施例
(請求項2)を説明するための構成図で、図中、9-1〜
9-nは文書データベースで、その他、図1と同じ作用を
する部分は同一の符号を付してある。なお、図1の構成
と異なる点は、文書データベース9-1〜9-nが多数存在
している点である。文書には様々な用途のものがあるた
め、異なる文書集合は異なる文書データベースに保存す
ることが望まれる。その際、異なる文書集合は、文書の
長さや文字の出現頻度なども違う。そこで、本発明の文
書管理装置では、文書データベース9ごとに文字成分表
エントリ指定6を異なったものを用いることができるた
め、効率的な文書管理を行える。
Next, the invention described in claim 2 will be described. FIG. 4 is a block diagram for explaining another embodiment (claim 2) of the document management apparatus according to the present invention.
Reference numeral 9-n is a document database, and other parts having the same functions as those in FIG. The difference from the configuration of FIG. 1 is that there are many document databases 9-1 to 9-n. Since documents have various uses, it is desirable to store different document sets in different document databases. At that time, different document sets have different document lengths, character appearance frequencies, and the like. Therefore, in the document management apparatus of the present invention, since different character component table entry designations 6 can be used for each document database 9, efficient document management can be performed.

【0028】次に、請求項3に記載の発明について説明
する。これまでの方式だと、検索文字列が長くなるに従
い、文字成分表でアクセスすべきエントリが増加するた
め、検索速度が低下する。実際には、検索語から算出さ
れる文字成分表エントリにも同一のものが含まれること
がある。その場合、そのエントリに複数回アクセスする
必要はないため、検索語に複数個出現したエントリへの
アクセスを一回に押えることで、検索に必要な文字成分
表へのアクセス回数を減らし、検索を高速化できる。
Next, the invention described in claim 3 will be described. With the conventional method, as the search character string becomes longer, the number of entries to be accessed in the character component table increases, so the search speed decreases. In fact, the same character component table entry calculated from the search word may include the same item. In that case, it is not necessary to access that entry multiple times, so by suppressing the access to the entry that appears multiple times in the search term at one time, the number of accesses to the character component table required for the search can be reduced and the search can be performed. Can speed up.

【0029】例えば、検索語「マンマシンシステム」は
9文字から構成されているため、文字成分表には「マ」
「ン」「マ」「シ」「ン」「シ」「ス」「テ」「ム」の9回の
アクセスが必要になる。しかし、実際には、「マ」「ン」
「シ」は2回ずつ出現しているため、これらエントリへ
のアクセスは1回にまとめることができる。すなわち、
文字成分表への実際のアクセスは、「マ」「ン」「シ」
「ス」「テ」「ム」の6回ですむ。
For example, since the search word "man-machine system" is composed of 9 characters, "ma" is displayed in the character component table.
You need to access 9 times, "n", "ma", "shi", "n", "shi", "su", "te" and "mu". However, in reality, "ma" and "n"
Since “shi” appears twice each, access to these entries can be combined into one. That is,
The actual access to the character composition table is "ma""n""shi"
You only need 6 times of "su", "te" and "mu".

【0030】次に、請求項4に記載の発明について説明
する。これまでの方式だと、文字成分表のエントリは最
大2文字からのみ構成される。これに対し、3文字以上
の長い文字列(から算出される値)をエントリに用いる
こととすれば、文字成分表へのアクセス回数を減らし、
検索を大幅に高速化できる。図5は、長い文字列をエン
トリとして持つ文字成分表を示す図である。「システ
ム」「パターン」などが文字列エントリである。文字列
エントリは、文書における出現頻度の高い文字列を選出
すれば良い。
Next, the invention described in claim 4 will be described. With the conventional method, the entry of the character component table is composed of only a maximum of two characters. On the other hand, if a long character string of 3 characters or more (a value calculated from) is used for the entry, the number of accesses to the character component table is reduced,
Search can be significantly speeded up. FIG. 5 is a diagram showing a character component table having a long character string as an entry. "System", "pattern", etc. are character string entries. As the character string entry, a character string having a high appearance frequency in the document may be selected.

【0031】登録時には、「…あのマンマシンシステム
は…」からは、文字として「あ」「の」「マ」「ン」「シ」
「ス」「テ」「ム」「は」、文字列として「システム」が
抽出され、文字成分表に記録される。検索時には、検索
語「マンマシンシステム」からは、文字として「マ」
「ン」「マ」「シ」「ン」、文字列として「システム」が
抽出し、さらに「システム」に含まれる「シ」および単
一文字の重複を削除する。結局、「マ」「ン」「システ
ム」の3つのエントリにアクセスするだけでよく、検索
時間は大幅に短縮できる。
At the time of registration, from "... that man-machine system ...", characters "a", "no", "ma", "n", "shi" are displayed as characters.
“Su”, “Te”, “Mu”, “Ha” and “System” are extracted as a character string and recorded in the character component table. At the time of search, the search word "man-machine system" begins with "ma" as a character.
"N", "ma", "shi", "n", "system" is extracted as a character string, and "shi" and single character duplicates included in "system" are deleted. After all, it is only necessary to access the three entries of "ma", "n", and "system", and the search time can be greatly reduced.

【0032】次に、請求項5に記載の発明について説明
する。前記請求項4に記載した方式では、文書登録時に
文字列エントリに含まれる文字エントリも抽出し、文字
成分表に記録する。しかし、その部分は、通常検索文字
列でも文字列として含まれる場合が多いので、文字成分
表に記録する必要は必ずしもない。このような文字エン
トリを登録しないことにより、文字成分表を小型化する
ことができる。
Next, the invention described in claim 5 will be described. In the method described in claim 4, the character entry included in the character string entry is also extracted at the time of document registration and is recorded in the character component table. However, since that part is often included as a character string even in a normal search character string, it is not always necessary to record it in the character component table. By not registering such a character entry, the character component table can be downsized.

【0033】例えば、前項の例文「…あのマンマシンシ
ステムは…」の登録時には、文字として登録するのは
「あ」「の」「マ」「ン」「は」だけでよい(文字列として
「システムが抽出され、文字成分表に記録される)。た
だし、検索文字列に文字列エントリの部分文字列が含ま
れている場合、この方式では、検索洩れが起こり得る。
例えば、検索文字列が「システ」の場合(「システム」
の部分文字列)、この方式では検索できないことにな
る。
For example, when registering the example sentence "... that man-machine system ..." in the preceding paragraph, only "a", "no", "ma", "n" and "ha" need to be registered as characters (as a character string " The system is extracted and recorded in the character component table.) However, if the search string contains a substring of the string entry, this method may cause a missed search.
For example, if the search string is "system"("system"
Substring), this method cannot be searched.

【0034】次に、請求項6に記載の発明について説明
する。本実施例では、検索条件として複数の文字列を論
理演算子(AND,OR)で組み合わせたものを受け付
ける(単一の文字列もこの検索条件に含める)。ここ
で、“AND”は前後の文字列をともに含む文書を検索
すること、“OR”は前後の文字列を少なくとも一つ含
む文書を検索することを意味する。さらに、必要に応じ
て、演算子の作用順序を明示するために、“(”,“)”
を用いることができるものとする。論理演算子を検索条
件に用いることができるようにすることで、複雑な検索
要求を表現することが可能となる。例えば、「マンマシ
ンシステム」,「文書検索AND文書登録」,「文書検索
OR情報検索」,「(新聞OR雑誌)ANDカラー」など
が上記の検索条件になる。
Next, the invention according to claim 6 will be described. In this embodiment, a combination of a plurality of character strings by logical operators (AND, OR) is accepted as a search condition (a single character string is also included in this search condition). Here, “AND” means to search for a document that includes both the character strings before and after, and “OR” means to search for a document that includes at least one character string before and after. Furthermore, if necessary, in order to clarify the order of operation of operators, use “(”, “)”
Can be used. By allowing a logical operator to be used as a search condition, a complicated search request can be expressed. For example, "man-machine system", "document search AND document registration", "document search OR information search", "(newspaper OR magazine) AND color" are the above-mentioned search conditions.

【0035】次に、請求項7に記載の発明について説明
する。前記請求項3に記載の発明では、単一の検索文字
列内のアクセスの単一化を提案したが、ここでは、論理
演算子ANDで結合される2つないしはそれ以上の検索
文字列にまたがったアクセスの単一化を導入する。例え
ば、検索条件「文書検索AND文書登録」から、従来方
式では、「文」「書」「検」「索」「文」「書」「登」「録」
の8つのエントリにアクセスする。一方、本項目の単一
化(最適化)により「文」「書」の重複が削除され、文
字成分表へのアクセスは6回に減らすことができる。
Next, the invention according to claim 7 will be described. The invention according to claim 3 proposes unification of access within a single search character string, but here, two or more search character strings connected by a logical operator AND are combined. Introduce unification of straddled access. For example, from the search condition “document search AND document registration”, in the conventional method, “sentence”, “writing”, “inspection”, “search”, “sentence”, “writing”, “registration”, “record”
Access the 8 entries. On the other hand, by unifying (optimizing) this item, duplication of “sentence” and “writing” is deleted, and the access to the character component table can be reduced to 6 times.

【0036】次に、請求項8に記載の発明について説明
する。前記請求項3に記載の発明では、単一の検索文字
列内のアクセスの単一化を提案したが、ここでは、論理
演算子ORで結合される2つないしはそれ以上の検索文
字列にまたがったアクセスの単一化を導入する。例え
ば、検索条件「文書検索OR情報検索」から、従来方式
では、「文」「書」「検」「索」「情」「報」「検」「索」の
8つのエントリにアクセスする。一方、本項目の単一化
(最適化)により「検」「索」の重複が削除され、文字
成分表へのアクセスは6回に減らすことができる。
Next, the invention described in claim 8 will be described. The invention according to claim 3 proposes unification of access within a single search character string. However, here, two or more search character strings connected by a logical operator OR are combined. Introduce unification of straddled access. For example, from the search condition “document search OR information search”, in the conventional method, eight entries of “sentence”, “writing”, “check”, “search”, “information”, “report”, “check”, and “search” are accessed. On the other hand, by unifying (optimizing) this item, the duplication of “check” and “search” is deleted, and the access to the character component table can be reduced to 6 times.

【0037】次に、請求項9に記載の発明について説明
する。文字成分表は、ファイルとして保存される。文字
成分表ファイルの構成は、文字成分表のエントリに対応
するビットマップデータに簡単にアクセスできることが
望まれるが、それを実現するために、例えば、インデッ
クスファイルと固定長ブロックから構成されるビットマ
ップデータファイルの2つのファイルで構成することが
できる。この場合、インデックスファイルは、次の2つ
のフィールドを含むブロックから構成することができ
る。 ・先頭ブロックオフセットフィールド ・末尾ブロックオフセットフィールド
Next, the invention described in claim 9 will be described. The character component table is saved as a file. The composition of the character component table file is desired to be able to easily access the bitmap data corresponding to the entries of the character component table. To realize this, for example, a bitmap composed of an index file and fixed length blocks is used. It can consist of two files, a data file. In this case, the index file can consist of blocks containing the following two fields:・ Start block offset field ・ End block offset field

【0038】ファイルに含まれるブロック数は、文字成
分表エントリ指定によって決まる。ビットマップデータ
ファイルは、次の2つのフィールドを含むブロックから
構成される。 ・次ブロックオフセットフィールド ・データフィールド
The number of blocks included in the file is determined by the character component table entry designation. The bitmap data file is composed of blocks including the following two fields.・ Next block offset field ・ Data field

【0039】ブロックサイズは、性能要求に合わせて数
十から数キロバイトの範囲に設定すれば良い。図6
(a)は、文字成分表のためのファイル構成の一例を示
す図である。なお、インデックスファイルを半導体メモ
リ上にロードしておくことは、高速化に有効である。
The block size may be set in the range of several tens to several kilobytes according to the performance requirement. Figure 6
(A) is a figure which shows an example of the file structure for a character component table. Note that loading the index file on the semiconductor memory is effective for speeding up.

【0040】ビットマップデータファイルのブロックサ
イズは、登録・検索性能等に与える影響が大きい。ブロ
ックサイズが大きい場合、検索は高速だが登録が遅く、
小さい場合、登録は高速だが検索は遅くなる。また、デ
ータファイルのうち、ビットマップデータの記録に使用
されていない領域の割合は、そこで、ブロックを大きい
ものと小さいものの2種類を用意する。以下では、小さ
いブロックを「バケット」、大きいブロックを「コンテ
ナ」と呼び、コンテナとバケットの大きさの比を「M」
と書くこととする。コンテナの大きさは、バケットの数
倍から十数倍程度とする(M=数倍〜十数)。
The block size of the bitmap data file has a great influence on the registration / search performance. If the block size is large, the search is fast but the registration is slow,
If small, registration is fast but search is slow. In addition, there are two types of areas of the data file that are not used for recording bitmap data, namely, a large block and a small block. Below, a small block is called a "bucket" and a large block is called a "container", and the size ratio between the container and the bucket is "M".
Will be written. The size of the container is about several times to several tens of times that of the bucket (M = several times to several tens).

【0041】図6(b)は、2種類の大きさのブロック
を導入した場合の文字成分表のファイル構成の一例を示
す図である。ここでは、ブロックオフセットの最上位ビ
ットが“1”,“0”によって、そのオフセット位置の
ブロックがコンテナかバケットかを示すようにしてい
る。
FIG. 6B is a diagram showing an example of the file structure of the character component table when blocks of two different sizes are introduced. Here, the most significant bit of the block offset is "1" or "0" to indicate whether the block at the offset position is a container or a bucket.

【0042】文書検索システム利用開始時点では、ブロ
ックサイズを小さいものとして、登録速度を優先する
(登録文書数が少ない間は、検索速度が多少遅くても検
索時間が小さいので、ほとんど問題とならない)。多数
の文書が登録され、ビットマップデータファイルに含ま
れるブロック数が増大した段階で、複数のバケットをコ
ンテナにまとめあげるブロック融合処理を行う。通常の
オペレーティングシステムでは、データを小さいブロッ
クに分割しておくよりも大きいブロックにまとめておく
方が高速だからである。その結果、ブロック融合処理に
より検索速度が向上され、登録文書数が多い場合でも検
索時間を小さくできる。
At the start of using the document search system, the block size is set to be small and the registration speed is prioritized. (While the number of registered documents is small, the search time is small even if the search speed is a little slow, so there is almost no problem.) . When a large number of documents are registered and the number of blocks included in the bitmap data file increases, block fusion processing is performed to collect a plurality of buckets in a container. This is because, in a normal operating system, it is faster to group data into larger blocks than to divide the data into smaller blocks. As a result, the block merging process improves the search speed, and the search time can be shortened even when the number of registered documents is large.

【0043】ブロック融合処理手順 .書き出し用の一時ファイルを作成する。 .文字成分表を構成する全てのエントリのビットマッ
プデータに対して、次の処理を行う。 (a)コンテナはそのまま一時ファイルに書き出す。 (b)コンテナにまとめ上げられる(M個の)バケット
は、1個のコンテナとし、一時ファイルに書き出す。 (c)残りのコンテナにまとめ上げられない(M個未満
の)バケットは、一時ファイルに書き出す。 .これまでのビットマップデータファイルを削除す
る。 .一時ファイルを新たなビットマップデータファイル
とする。
Block fusion processing procedure . Create a temporary file for writing. . The following processing is performed on the bitmap data of all entries that make up the character component table. (a) Write the container as it is to a temporary file. (b) The (M) buckets that are put together in a container are set as one container and written to a temporary file. (c) Buckets that cannot be collected in the remaining containers (less than M) are written to a temporary file. . Delete the existing bitmap data file. . Use the temporary file as a new bitmap data file.

【0044】図7(a),(b)は、ブロック融合処理
の概要を示す図である。網掛けによって各バケット/コ
ンテナがどのエントリ(ここでは文字ごとにエントリを
立てている)に対応しているかを示す。ここでは、コン
テナはバケットの8倍の大きさとしている。例えば、
「あ」は、融合処理前にバケット17個なので、融合処
理後はコンテナ2個とバケット1個になる。「い」は、
同様にしてバケット11個がコンテナ1個とバケット3
個になる。「う」は、バケットが7個しかないので、コ
ンテナには1個も生成されず、バケット7個のままであ
る(ただし、この場合でもバケットがお互いに隣接する
位置に配置されるため、アクセスが高速化され、検索速
度が向上する)。
FIGS. 7A and 7B are diagrams showing an outline of the block merging process. The hatching indicates which entry (here, each character stands for each character) each bucket / container corresponds to. Here, the size of the container is eight times the size of the bucket. For example,
Since “a” has 17 buckets before the fusion processing, there are 2 containers and 1 bucket after the fusion processing. "I" means
Similarly, 11 buckets are 1 container and 3 buckets.
Become individual. Since there are only 7 buckets, no “u” is generated in the container, and there are still 7 buckets. Will be faster and search speed will be improved).

【0045】次に、請求項10に記載の発明について説
明する。前述の方式では、データファイル中にバケット
とコンテナが混在する。2次記憶装置上のデータへのア
クセスは、オペレーティングシステムの最適化などによ
りページ単位に行われるため、バケットとコンテナが混
在していると、コンテナのような大きいブロックを導入
しても、コンテナの配置が2次記憶装置のページ境界と
一致せず、期待通りの性能向上が行われないことがあ
る。そこで、本発明の方法では、データファイルの前方
にコンテナをまとめ、後方にブロックをまとめること
で、コンテナを必ずページ境界に配置し、性能向上を図
る。
Next, the invention according to claim 10 will be described. In the above method, buckets and containers are mixed in the data file. Data on the secondary storage device is accessed in page units due to optimization of the operating system, etc. Therefore, if buckets and containers are mixed, even if a large block like a container is introduced, The layout may not match the page boundary of the secondary storage device, and the performance may not be improved as expected. Therefore, according to the method of the present invention, the containers are arranged at the front of the data file and the blocks are arranged at the rear of the data file, so that the containers are always arranged at the page boundaries to improve the performance.

【0046】ブロック融合処理手順 .書き出し用の一時ファイルを2つ作成する。1つを
「コンテナ用一時ファイル」、もう1つを「バケット用
一時ファイル」と呼ぶ。 .文字成分表を構成する全てのエントリのビットマッ
プデータに対して、次の処理を行う。 (a)コンテナはそのままコンテナ用一時ファイルに書き
出す。 (b)コンテナにまとめ上げられる(M個の)バケットは
1個のコンテナとし、コンテナ用一時ファイルに書き出
す。 (c)残りのコンテナにまとめ上げられない(M個未満
の)バケットは、バケット用一時ファイルに書き出す。 .これまでのビットマップデータファイルを削除す
る。 .コンテナ用一時ファイルにバケット用一時ファイル
を連結し、新たなビットマップデータファイルとする。
Block fusion processing procedure . Create two temporary files for writing. One is called a "temporary file for container" and the other is called "temporary file for bucket". . The following processing is performed on the bitmap data of all entries that make up the character component table. (a) Write the container as it is to the temporary file for container. (b) The (M) buckets that are put together in a container are set as one container and are written to the temporary file for container. (c) Buckets that cannot be collected in the remaining containers (less than M) are written to a temporary bucket file. . Delete the existing bitmap data file. . The temporary file for bucket is connected to the temporary file for container to make a new bitmap data file.

【0047】図7(a),(c)は、上記アルゴリズム
によるブロック融合処理の概要を示す図である。このア
ルゴリズムでは、ブロック融合処理後(図7(c)の状
態)は、データファイルの先頭部分にコンテナが集ま
り、A点以降はバケットが集合した状態となる。
FIGS. 7A and 7C are diagrams showing the outline of the block merging process by the above algorithm. In this algorithm, after the block merging process (state of FIG. 7C), containers are gathered at the beginning of the data file, and buckets are gathered after point A.

【0048】次に、請求項11に記載の発明について説
明する。ブロック融合処理後にも文書は追加登録され
る。追加登録後のブロックタイプはバケットなので、追
加登録文書数が増大すると、再び検索速度が低下してし
まう。その場合、再びブロック融合処理手順によりブ
ロック融合処理を行えばよい。しかし、ブロック融合処
理手順では、2つの一時ファイルの大きさの合計は、
データファイルとほぼ等しくなってしまう。多量の文書
が登録された場合、データファイルの大きさが膨大とな
るため、これは極めて望ましくない。次に示すブロック
融合処理手順はこの点を改良し、一時ファイルの大き
さの合計をデータファイルのバケット部分の大きさ程度
で済むようにした。
Next, the invention according to claim 11 will be described. The document is additionally registered even after the block merging process. Since the block type after additional registration is a bucket, if the number of additionally registered documents increases, the search speed will decrease again. In that case, the block merging process may be performed again according to the block merging process procedure. However, in the block fusion procedure, the total size of the two temporary files is
It becomes almost equal to the data file. This is highly undesirable because the size of the data file becomes huge if a large number of documents are registered. The block merging process procedure shown below improves this point so that the total size of the temporary files is about the size of the bucket portion of the data file.

【0049】ブロック融合処理手順 .書き出し用の一時ファイルを2つ作成する。1つを
「コンテナ用一時ファイル」、もう1つを「バケット用
一時ファイル」と呼ぶ。 .文字成分表を構成する全てのエントリのビットマッ
プデータに対して、次の処理を行う。 (a)コンテナは無視する。 (b)コンテナにまとめ上げられる(M個の)バケット
は、1個のコンテナとし、コンテナ用一時ファイルに書
き出す。 (c)残りのコンテナにまとめ上げられない(M個未満
の)バケットは、バケット用一時ファイルに書き出す。 .ビットマップデータファイルのバケット部分を削除
する。 .ビットマップデータファイルにコンテナ用一時ファ
イル、さらにバケット用一時ファイルを連結する。
Block fusion processing procedure . Create two temporary files for writing. One is called a "temporary file for container" and the other is called "temporary file for bucket". . The following processing is performed on the bitmap data of all entries that make up the character component table. (a) Ignore the container. (b) The (M) buckets that are put together in a container are set as one container and written to a temporary file for container. (c) Buckets that cannot be collected in the remaining containers (less than M) are written to a temporary bucket file. . Delete the bucket part of the bitmap data file. . Connect the container temporary file and the bucket temporary file to the bitmap data file.

【0050】前記請求項10及び請求項11に記載の方
式の相違を図8(a)〜(c)に示す。図8(a)に示
すように、バケット融合処理後に再び文書が登録された
場合、データファイルの末尾(図8(a)のB点)から
バケットが順次挿入された状態になる。ブロック融合処
理手順では、図8(b)のように、データファイルの
ブロックが整理され、検索速度が向上する。しかし、2
つの一時ファイルの合計の大きさは、データファイルの
大きさと等しい。これに対し、本項で提案するブロック
融合処理手順では、データファイルのA点以降の部分
のみを処理の対象とする。ブロック融合処理結果を示し
たものが図8(c)である。新たに作成されたコンテナ
は、融合前にバケットが存在していたA点以降に配置さ
れる。同一エントリに対するコンテナが必ずしも連続す
る位置に配置されるわけではないが(例えば、「い」の
コンテナ)、そのことにより速度低下は極めて小さい。
Differences between the methods described in claims 10 and 11 are shown in FIGS. 8 (a) to 8 (c). As shown in FIG. 8A, when the document is registered again after the bucket merging process, the buckets are sequentially inserted from the end of the data file (point B in FIG. 8A). In the block merging processing procedure, as shown in FIG. 8B, the blocks of the data file are arranged, and the search speed is improved. But 2
The total size of one temporary file is equal to the size of the data file. On the other hand, in the block fusion processing procedure proposed in this section, only the portion after the point A of the data file is processed. FIG. 8C shows the result of the block merging process. The newly created container is placed after point A where the bucket existed before the fusion. Although the containers for the same entry are not necessarily arranged at consecutive positions (for example, the “yes” container), the speed reduction is extremely small.

【0051】図9は、本発明による文書管理装置の更に
他の実施例(請求項12)を説明するための構成図で、
図中、11は入力部、12は処理部、13は文字列入力
処理部、14は文書検索処理部、15は文書出力処理
部、16は文書登録処理部、17はデータ部、18は文
字成分表、19は出力部、20は文書データである。
FIG. 9 is a block diagram for explaining still another embodiment (claim 12) of the document management apparatus according to the present invention.
In the figure, 11 is an input unit, 12 is a processing unit, 13 is a character string input processing unit, 14 is a document search processing unit, 15 is a document output processing unit, 16 is a document registration processing unit, 17 is a data unit, and 18 is a character. The component table, 19 is an output unit, and 20 is document data.

【0052】入力部11に入力された検索文字列は、処
理部12の文字列入力処理13で処理する。文書検索処
理部14においてデータ部17の文字成分表18を利用
して文字列を含むと思われる文書を検索する。そして、
検索した文書に対応する文書データ20を文書出力装置
15により出力部19に出力する。文書登録処理部16
では、登録する文書を文書データ20に登録し、該文書
データ20より文字成分を抽出して文字成分表18に登
録する。以下の説明では、対象文書は1バイト文字コー
ド(例えば、ASCII)及び2バイト文字コード(E
UC:Extended UNIX CODE)からなるテキス
トデータとする。しかし、対象とする文字コードはEU
C以外にも容易に適用可能である。
The search character string input to the input unit 11 is processed by the character string input processing 13 of the processing unit 12. The document search processing unit 14 uses the character component table 18 of the data unit 17 to search for a document that is considered to include a character string. And
The document data 20 corresponding to the retrieved document is output to the output unit 19 by the document output device 15. Document registration processing unit 16
Then, the document to be registered is registered in the document data 20, the character components are extracted from the document data 20 and registered in the character component table 18. In the following description, the target document is a 1-byte character code (for example, ASCII) and a 2-byte character code (E
The text data is composed of UC: Extended UNIX CODE. However, the target character code is EU
Other than C, it can be easily applied.

【0053】文書をデータ部に登録する時には、単一文
字成分及び隣接文字成分を抽出し、文字成分表を作成す
る。単一文字成分は各内部文字コードの2バイトコード
とし、隣接文字成分は隣接する内部文字コードから変換
したコードである。本実施例では内部文字コードのビッ
ト成分を適当に抽出したビット列を隣接文字成分とす
る。上記方法で得られた文字成分及び隣接文字成分に対
して、図10に示すように、それぞれ単一文字成分表及
び図11に示す隣接文字成分表を生成する。図11では
隣接する文字の下位1バイトを合わせて2バイトとして
いる。各文字成分表は、各単一文字成分または隣接文字
成分が各文書に存在するか否かを0と1で示す。図11
の隣接文字成分表を例とすると、a0a0(16進)のビッ
ト列は文書1、2、3、nには存在せず、文書4、5に
は存在することを意味する。文書登録時に上記方法によ
り文書から文字成分を抽出し、各文字成分テーブルに加
える。
When a document is registered in the data section, a single character component and an adjacent character component are extracted and a character component table is created. The single character component is a 2-byte code of each internal character code, and the adjacent character component is a code converted from the adjacent internal character code. In this embodiment, a bit string obtained by appropriately extracting the bit component of the internal character code is used as the adjacent character component. As shown in FIG. 10, a single character component table and an adjacent character component table shown in FIG. 11 are generated for the character component and the adjacent character component obtained by the above method, respectively. In FIG. 11, the lower 1 bytes of adjacent characters are combined into 2 bytes. Each character component table indicates with 0 and 1 whether each single character component or an adjacent character component is present in each document. Figure 11
In the example of the adjacent character component table of, the bit string of a0a0 (hexadecimal) does not exist in documents 1, 2, 3 and n, but exists in documents 4 and 5. At the time of document registration, character components are extracted from the document by the above method and added to each character component table.

【0054】仮に、隣接文字成分表として各文字成分の
下位1バイトのみを利用した場合には、検索文字列とは
異なる隣接文字でも下位バイトが一致する隣接文字を含
む文書を検索する場合がある。ひらがな及びカタカナは
頻繁に出現するので、検索の精度が低くなる。また漢字
は文書中の出現頻度が低いので、本来検索精度が高い文
字種であるにも関わらず、検索精度が低い他の文字種の
影響を受けて検索精度が低くなってしまう。そこで、文
字種ごとに異なる隣接文字成分表を作成し、検索時に検
索文字列の文字種ごとに異なる隣接文字成分表を利用す
ることによって、ひらがななどの頻繁に文書に出現する
文字種の影響を受けず、検索精度を上げることができ
る。以下、単一文字成分表、隣接文字成分表について説
明する。
If only the lower 1 byte of each character component is used as the adjacent character component table, there may be a case where a document including an adjacent character which is different from the search character string but has a matching lower byte is searched. . Hiragana and katakana frequently appear, which reduces the accuracy of search. Further, since the kanji character has a low frequency of appearance in the document, the search accuracy will be low due to the influence of other character types with low search accuracy, even though the character type is originally high in search accuracy. Therefore, by creating a different adjacent character component table for each character type and using a different adjacent character component table for each character type of the search character string at the time of search, it is not affected by the character types that frequently appear in documents such as hiragana, Search accuracy can be improved. The single character component table and the adjacent character component table will be described below.

【0055】・単一文字成分表:文字がどの文書に出現
するか否かを示す表 ・隣接文字成分表 −同種隣接文字成分表:隣接する同種の文字のペアがど
の文書に出現するか否かを示す表 *記号 *英数時 *ひらがな *カタカナ *ギリシャ文字、グラフィック文字など *1バイト文字コード *第一水準漢字 *第二水準漢字 −異種隣接文字成分表:隣接する異種の文字のペアがど
の文書に出現するか否かを示す表
Single character component table: table indicating in which document a character appears. Adjacent character component table-same type adjacent character component table: in which document a pair of adjacent same type characters appears. * Symbol * Alphanumeric time * Hiragana * Katakana * Greek letters, graphic characters, etc. * 1-byte character code * 1st level Kanji * 2nd level Kanji-Different adjacent character composition table: Table showing which document appears

【0056】検索時には登録時と同様に検索文字列から
単一文字成分と隣接文字成分を抽出し、それぞれ文字成
分表から各成分を含む文書を検索する。図12は、従来
の検索方法を説明するための図である。図12におい
て、ビットの1は文字成分が出現することを示し、0は
文字成分が出現しないことを意味する。従来の検索方法
では検索文字列から文字種を判別して単一文字成分、隣
接文字成分を登録時と同様に抽出し、各文字成分に対応
する単一文字成分表及び隣接文字成分表から文字エント
リのビットマップを抽出してAND演算を行う。したが
って、対象となるすべての文字エントリのデータを参照
することになる。
At the time of search, as in the case of registration, a single character component and an adjacent character component are extracted from the search character string, and a document containing each component is searched from the character component table. FIG. 12 is a diagram for explaining a conventional search method. In FIG. 12, a bit 1 indicates that a character component appears, and a bit 0 indicates that a character component does not appear. In the conventional search method, the character type is discriminated from the search character string, the single character component and the adjacent character component are extracted in the same manner as at the time of registration, and the bit of the character entry corresponding to each character component is extracted from the single character component table and the adjacent character component table. The map is extracted and the AND operation is performed. Therefore, the data of all target character entries will be referred to.

【0057】次に、請求項13に記載の発明について説
明する。本実施例では、図13に示すように、特定のビ
ットマップのビットを横方向に順時調べ、ビットが1の
場合には、他のビットマップエントリの対応するビット
を調べる。つまり、図13で縦方向にビットを調べ、す
べてのビットが1の場合は、ビットに対応する文書が検
索結果の文書となる。ビットが0の時には、図13の一
番上の文字エントリに戻り、順時同様に繰り返す。こう
することによって、矢印で示されるビットのみを参照す
ることになり、従来の検索方法に比較して参照するデー
タ量が格段に減少する。
Next, the invention according to claim 13 will be described. In the present embodiment, as shown in FIG. 13, the bits of a specific bitmap are sequentially examined in the horizontal direction, and when the bit is 1, the corresponding bits of other bitmap entries are examined. That is, the bits are checked in the vertical direction in FIG. 13, and when all the bits are 1, the document corresponding to the bits becomes the document of the search result. When the bit is 0, the process returns to the uppermost character entry in FIG. 13 and is repeated in the same manner as the above. By doing so, only the bit indicated by the arrow is referred to, and the amount of data to be referred to is significantly reduced as compared with the conventional search method.

【0058】次に、請求項14に記載の発明について説
明する。さらに、図14に示すように、各文字エントリ
中に出現するビット1の出現数を予めカウントしてお
き、前述のビットを調べる処理の時に、図14に示すよ
うに、ビット出現数が小さい順に並び代え、同様の処理
を行うことによって、さらに参照するデータ量を減らす
ことが可能となる。
Next, the invention according to claim 14 will be described. Further, as shown in FIG. 14, the number of appearances of bit 1 appearing in each character entry is counted in advance, and at the time of processing for examining the above-mentioned bits, as shown in FIG. By rearranging and performing similar processing, it is possible to further reduce the amount of data to be referred to.

【0059】従来の検索方法では、各文字エントリのビ
ットマップデータである可変長ビットマップデータは、
複数の固定長ブロックに分割され、二次記憶に格納され
ている。したがって、前述の検索処理時に再度複数の固
定長ブロックを可変長のビットマップに結合復元する。
また、各文字エントリの一部のデータしかアクセスしな
い場合でも、文字エントリの全固定長データブロックを
読み込み結合し、可変長ビットマップデータに復元する
処理が必要となる。
In the conventional search method, the variable length bitmap data, which is the bitmap data of each character entry, is
It is divided into a plurality of fixed-length blocks and stored in secondary storage. Therefore, at the time of the above-mentioned search processing, a plurality of fixed-length blocks are combined and restored to the variable-length bitmap again.
Further, even when only a part of the data of each character entry is accessed, it is necessary to read and combine all the fixed length data blocks of the character entry and restore the variable length bitmap data.

【0060】次に、請求項15に記載の発明について説
明する。本実施例では、前述の文字エントリは二次記憶
上で、図15に示すように、インデックスとブロックテ
ーブルとブロックとから構成される。インデックスは各
内部文字コードに対してブロックテーブルポインタとビ
ット出現数(エントリ内に出現するビット1の数)のペ
アからなる。ブロックテーブルは先頭に次のブロックテ
ーブルへのポインタを有し、ブロックポインタとブロッ
ク最終登録文書ID(ブロック内の最後に登録されてい
る文書のID)からなる。したがって、内部文字コード
「あ」に対応する全ブロックは、図15に示すように、
ブロックテーブルから示されるブロックとなる。
Next, the invention according to claim 15 will be described. In the present embodiment, the aforementioned character entry is composed of an index, a block table and a block on the secondary storage as shown in FIG. The index is composed of a block table pointer and a bit appearance number (the number of bit 1 appearing in the entry) pair for each internal character code. The block table has a pointer to the next block table at the head, and is composed of the block pointer and the block final registration document ID (the ID of the document registered last in the block). Therefore, all the blocks corresponding to the internal character code "A" are as shown in FIG.
It becomes the block indicated from the block table.

【0061】文書IDが4000の文書内に文部文字コ
ードが「あ」の文字が出現する否かを調べる場合を例
に、以下に説明する。 ・インデックスの「あ」に対応するブロックテーブルポ
インタからブロックテーブルを得る。 ・ブロック最終登録文書IDから文書ID4000を含
むブロック(ブロックポインタ5120)を得る。 ・ブロック(5120)のデータが圧縮されている場合
には伸長し、文書ID4000該当するビットを得る。 このように、文字エントリの一部しか必要でない場合に
は、全ブロックをアクセスすることなしにブロックテー
ブルから直接該当するブロックを得られ、高速に検索す
ることができる。
An example will be described below in which it is checked whether or not the character having the character code “A” appears in the document with the document ID 4000. -Get the block table from the block table pointer corresponding to the index "A". Obtain a block (block pointer 5120) including the document ID 4000 from the block final registration document ID. If the data of the block (5120) is compressed, decompress it to obtain the corresponding bits of the document ID 4000. In this way, when only a part of the character entry is required, the corresponding block can be directly obtained from the block table without accessing the entire block, and the search can be performed at high speed.

【0062】検索の時間で最も多く占めるのがディスク
からデータのREAD時間である。READするページ
(物理的なディスク読み書きの単位)が多ければ多いほ
ど検索処理は遅くなる。文書登録を行なうと、図16
(a)のように、文字エントリのブロックは複数のペー
ジに分散する。したがって、検索処理では分散している
ブロックを含むページをすべてREADすることにより
処理が遅くなる。本実施例では、図16(b)のよう
に、分散したブロックをページ単位にまとめ上げること
で検索処理時にREADするページを減らし、処理を速
くすることができる。図16に示す例では、まとめ上げ
前には6ページ以上をREADしなければならなかった
が、まとめ上げ後には3ページとなり、READの時間
が半分以下になる。このようにブロックをページ単位に
まとめ上げる処理をまとめ上げ処理と呼ぶ。
The READ time of data from the disk occupies the largest part of the search time. The more pages to be read (units of physical disk read / write), the slower the search process. When the document is registered,
As in (a), the block of character entries is distributed over a plurality of pages. Therefore, in the search processing, the processing becomes slow by reading all the pages including the dispersed blocks. In the present embodiment, as shown in FIG. 16B, the dispersed blocks are grouped into page units to reduce the number of pages to be READ during the search process and to speed up the process. In the example shown in FIG. 16, 6 or more pages had to be READ before grouping, but after grouping, there are 3 pages, and the READ time becomes half or less. The process of grouping blocks in this way is called a grouping process.

【0063】まとめ上げ処理では、図16(b)のよう
に、ブロックをページにまとめ上げるが、ページにまと
め上げられなかった、ブロックについてはまとめ上げら
れなかったブロックを格納するためのページ(残ブロッ
クページと呼ぶ)に集められる。したがって、図17に
示すように、残ブロックページには、様々な文字エント
リの残ブロックが格納される。また、まとめ上げられた
ページはファイル中で混在することになる。
In the grouping process, as shown in FIG. 16B, the blocks are grouped into pages, but the pages that could not be grouped into pages and the blocks that were not grouped (the remaining pages Called the block page). Therefore, as shown in FIG. 17, the remaining blocks of various character entries are stored in the remaining block page. Also, the collected pages will be mixed in the file.

【0064】まとめ上げの処理手順を以下に示す。な
お、説明中のバッファはメモリ上の領域を意味する。 前処理 (a)文字成分表をオープンする。 (b)まとめ上げ用文字成分表を作成しオープンする。 (c)残ブロックページをアロケートする。
The processing procedure for grouping is shown below. The buffer in the description means an area on the memory. Pre-processing (a) Open the character component table. (B) Create and open a grouping character component table. (C) Allocate the remaining block page.

【0065】文字エントリ単位のまとめ上げ処理 (a)ページへのまとめ上げ処理 i.1ランレングスを読みページバッファに詰める。 ii.ページバッファにデータが満たされたらページバッ
ファを書き出し、ページバッファをクリアする。 iii.ランレングスをすべて読み終るまで前記i.に戻
る。 (b)ページにまとめ上げられなかったブロック(残ブ
ロック)の書き出し処理 i.まとめ上げられなかったランレングスから再度1ラ
ンレングスを読み、残ブロックバッファに詰める。 ii.残ブロックバッファにデータが満たされたら残ブロ
ックページに書き出す。 iii.残ブロックページの領域をすべて使い果たしたら
新たに残ブロックページをアロケートする。 iv.ランレングスをすべて読み終るまで前記i.に戻
る。
Grouping processing in character entry units (a) Grouping processing into pages i. Read one run length and fill the page buffer. ii. When the page buffer is full of data, write the page buffer and clear the page buffer. iii. I. Until the run length is read completely. Return to (B) Writing processing of blocks (remaining blocks) that cannot be put together on a page i. One run length is read again from the run lengths that could not be put together, and the remaining block buffer is filled. ii. When the remaining block buffer is filled with data, it is written to the remaining block page. iii. When the remaining block page area is completely used up, a new remaining block page is allocated. iv. I. Until the run length is read completely. Return to

【0066】後処理 (a)書き出されていない残ブロックページを書き出
す。 (b)文字成分表及びまとめ上げ文字成分表をクローズ
する。 こうすることによって、文字成分表を1回スキャンする
だけまとめ上げ処理が可能となり、処理が高速であるだ
けでなく、処理時に必要な二次記憶の領域を最小限に抑
えられる。
Post-processing (a) Write out the remaining block pages that have not been written out. (B) Close the character component table and the combined character component table. By doing so, the character component table can be grouped by scanning once, and not only the processing is fast, but also the secondary storage area required at the time of processing can be minimized.

【0067】次に、請求項16に記載の発明について説
明する。本実施例の検索処理では、検索文字列から抽出
されるエントリ数が少なければ、文字成分表へのアクセ
スが少なくなり、検索が高速になる。文字成分表エント
リ指定において、単一文字エントリと隣接文字エントリ
を定義した場合、検索文字列がn文字の時、n個の単一
文字エントリとn−1個の隣接文字エントリが抽出され
るので、トータルでは2n−1個のエントリが抽出さ
れ、検索が遅い。
Next, the invention according to claim 16 will be described. In the search process of the present embodiment, if the number of entries extracted from the search character string is small, the character component table is less accessed, and the search becomes faster. When the single character entry and the adjacent character entry are defined in the character component table entry specification, when the search character string is n characters, n single character entries and n-1 adjacent character entries are extracted. Then, 2n-1 entries are extracted, and the search is slow.

【0068】例えば、検索文字列が「パターンマッチ」
である時、次のエントリが抽出される。 ・単一文字エントリ:以下の文字に関数f(x)を作用
させる。 パ,タ,ー,ン,マ,ッ,チ ・隣接文字エントリ:以下の2文字に関数g(x,y)
を作用させる。 パタ,ター,ーン,ンマ,マッ,ッチ
For example, the search character string is "pattern match".
, The next entry is extracted. • Single character entry: Operate the function f (x) on the following characters. Pa, ta,-, n, ma, tsu, chi ・ Adjacent character entry: Function g (x, y) for the following two characters
To act. Pata, Tar, Nun, Ma

【0069】しかし、f(x)=x,g(x,y)=x
+αy(ここで、αは文字コードの取り得る最大値)の
ような場合を考える。この時、検索文字列からg(X,
Y)が抽出される時には、必ずf(X),f(Y)も抽
出される(例えば、g(パ,タ)が抽出される時は、必
ずf(パ),f(タ)も抽出される)。したがって、検
索文字列を含む文書を特定する上で、単一文字エントリ
は意味をなさない。そこで、検索文字列からは単一文字
エントリを抽出せず、隣接文字エントリのみを抽出す
る。その結果、n文字の検索文字列からn−1個の隣接
文字エントリのみが抽出されるので、検索が高速化でき
る。
However, f (x) = x, g (x, y) = x
Consider a case such as + αy (where α is the maximum value that the character code can take). At this time, g (X,
When Y) is extracted, f (X) and f (Y) are always extracted (for example, when g (pa, ta) is extracted, f (pa) and f (ta) are always extracted. Be done). Therefore, the single character entry does not make sense in identifying the document containing the search string. Therefore, the single character entry is not extracted from the search character string, and only the adjacent character entry is extracted. As a result, only n-1 adjacent character entries are extracted from the n-character search character string, so that the search can be speeded up.

【0070】例えば、検索文字列が「パターンマッチ」
である時、次のエントリが抽出される。 ・単一文字エントリ:抽出しない。 ・隣接文字エントリ:以下の2文字に関数g(x,y)
を作用させる。 パタ,ター,ーン,ンマ,マッ,ッチ なお、この方式が有効なのは、f(x)=x,g(x,
y)=x+αyに限らない。
For example, if the search character string is "pattern match"
, The next entry is extracted. -Single character entry: Do not extract.・ Adjacent character entry: Function g (x, y) for the following two characters
To act. Pattern, tar, neon, nmma, mach, ch
It is not limited to y) = x + αy.

【0071】次に、請求項17に記載の発明について説
明する。本実施例も、請求項16に記載の発明と同様の
効果を狙ったものであり、文字成分表エントリ定義がf
(x)=x,g(x,y)=x+α(y mod β)(ここ
で、αは文字コードの取り得る最大値、βは適当な定
数)のような場合を扱う。この時、検索文字列からg
(X,Y)が抽出される時には、必ずf(X)は抽出さ
れる(例えば、g(パ,タ)が抽出される時は、必ずf
(パ)も抽出される)。したがって、検索文字列を含む
文書を特定する上で、末尾の1文字を除いては単一文字
エントリは意味をなさない。そこで、検索文字列からは
末尾の1文字から算出される単一文字エントリと、隣接
文字エントリを抽出する。その結果、n文字の検索文字
列から1個の単一文字エントリとn−1個の隣接文字エ
ントリのトータルn個のエントリが抽出されるので、検
索が高速化できる。
Next, the invention according to claim 17 will be described. This embodiment also aims at the same effect as the invention described in claim 16, and the character component table entry definition is f
A case such as (x) = x, g (x, y) = x + α (y mod β) (where α is the maximum value that the character code can take and β is an appropriate constant) is handled. At this time, g from the search character string
When (X, Y) is extracted, f (X) is always extracted (for example, when g (pa, ta) is extracted, f (X) is always
(Pa) is also extracted). Therefore, a single character entry does not make sense except for the last one character in identifying the document containing the search string. Therefore, a single character entry calculated from the last one character and an adjacent character entry are extracted from the search character string. As a result, a total of n entries of one single character entry and n-1 adjacent character entries are extracted from the n character search character string, so that the search can be speeded up.

【0072】例えば、検索文字列が「パターンマッチ」
である時、次のエントリが抽出される。 ・単一文字エントリ:以下の文字に関数f(x)を作用
させる。 チ ・隣接文字エントリ:以下の2文字に関数g(x,y)
を作用させる。 パタ,ター,ーン,ンマ,マッ,ッチ なお、この方式が有効なのは、f(x)=x,g(x,
y)=x+α(y modβ)に限らない。
For example, the search character string is "pattern match".
, The next entry is extracted. • Single character entry: Operate the function f (x) on the following characters. J ・ Adjacent character entry: Function g (x, y) for the following two characters
To act. Pattern, tar, neon, nmma, mach, ch
It is not limited to y) = x + α (y mod β).

【0073】次に、請求項18に記載の発明について説
明する。本実施例も請求項17に記載の発明と同様の効
果を狙ったものであり、文字成分表エントリ定義がf
(x)=x,g(x,y)=y+α(x mod β)のよう
な場合を扱う。この時、検索文字列からg(X,Y)が
抽出される時には、必ずf(Y)は抽出される(例え
ば、g(パ,タ)が抽出される時は、必ずf(タ)も抽
出される)。したがって、検索文字列を含む文書を特定
する上で、先頭の1文字を除いては単一文字エントリは
意味をなさない。そこで、検索文字列からは先頭の1文
字から算出される単一文字エントリと、隣接文字エント
リを抽出する。その結果、n文字の検索文字列から1個
の単一文字エントリとn−1個の隣接文字エントリのト
ータルn個のエントリが抽出されるので、検索が高速化
できる。
Next, the invention according to claim 18 will be described. This embodiment also aims at the same effect as the invention described in claim 17, and the character component table entry definition is f
The case where (x) = x, g (x, y) = y + α (x mod β) is handled. At this time, when g (X, Y) is extracted from the search character string, f (Y) is always extracted (for example, when g (pa, ta) is extracted, f (ta) is always extracted. Extracted). Therefore, in specifying the document containing the search character string, the single character entry does not make sense except for the first character. Therefore, the single character entry calculated from the first character and the adjacent character entry are extracted from the search character string. As a result, a total of n entries of one single character entry and n-1 adjacent character entries are extracted from the n character search character string, so that the search can be speeded up.

【0074】例えば、検索文字列が「パターンマッチ」
である時、次のエントリが抽出される。 ・単一文字エントリ:以下の文字に関数f(x)を作用
させる。 パ ・隣接文字エントリ:以下の2文字に関数g(x,y)
を作用させる。 パタ,ター,ーン,ンマ,マッ,ッチ なお、この方式が有効なのは、f(x)=x,g(x,
y)=y+α(x modβ)に限らない。
For example, the search character string is "pattern match".
, The next entry is extracted. • Single character entry: Operate the function f (x) on the following characters. Par-Adjacent character entry: Function g (x, y) for the following two characters
To act. Pattern, tar, neon, nmma, mach, ch
It is not limited to y) = y + α (x mod β).

【0075】次に、請求項19に記載の発明について説
明する。前述した請求項4に記載の発明では、文字成分
表のエントリに3文字以上の長い文字列(から算出され
る値)をエントリに用いることで、文字成分表へのアク
セス回数を減らし、検索を大幅に高速化できることを示
した。図5に長い文字列をエントリとして持つ文字成分
表を示す。「システム」「パターン」などが文字列エン
トリである。
Next, the invention according to claim 19 will be described. In the invention according to claim 4 described above, by using a long character string (a value calculated from) of three or more characters for the entry of the character component table, the number of accesses to the character component table is reduced and the search is performed. It was shown that the speed can be significantly increased. FIG. 5 shows a character component table having a long character string as an entry. "System", "pattern", etc. are character string entries.

【0076】文字成分表エントリ指定において、単一文
字エントリと隣接文字エントリを定義し、さらに、文字
列エントリを導入した場合の検索処理を考える。請求項
4に記載の発明では、検索文字列中に含まれる文字列エ
ントリに対応する文字列から抽出される単一/隣接文字
エントリは、検索処理に用いないとしていた。
Consider a search process when a single character entry and an adjacent character entry are defined in the character component table entry designation and a character string entry is introduced. According to the fourth aspect of the invention, the single / adjacent character entry extracted from the character string corresponding to the character string entry included in the search character string is not used in the search process.

【0077】例えば、検索文字列が「パターンマッチ」
で「パターン」が文字列エントリとして定義されている
時、次のエントリが抽出される。 ・単一文字エントリ:以下の文字に関数f(x)を作用
させる。 マ,ッ,チ ・隣接文字エントリ:以下の2文字に関数g(x,y)
を作用させる。 ンマ,マッ,ッチ ・文字列エントリ: パターン
For example, if the search character string is "pattern match"
When the "pattern" is defined as a character string entry in, the next entry is extracted. • Single character entry: Operate the function f (x) on the following characters. Ma, tsu, chi ・ Adjacent character entry: Function g (x, y) for the following two characters
To act. Comma, match, switch ・ Character string entry: pattern

【0078】もちろん、請求項4記載の発明に本発明の
請求項16〜18に記載の発明を組み合わせることも可
能である。一方、本発明では、隣接文字エントリについ
ては該当する文字列エントリに前後の文字を加えた文字
列から抽出されるエントリを抽出しないことで、検索文
字列から抽出エントリ数を削減し、検索を高速化する
(単一文字エントリについては、これまで通り、該当す
る文字列エントリから抽出されるエントリを抽出しない
こととする)。
Of course, it is possible to combine the invention described in claim 4 with the invention described in claims 16 to 18 of the present invention. On the other hand, in the present invention, for the adjacent character entry, the number of extracted entries is reduced from the search character string by not extracting the entry extracted from the character string obtained by adding the preceding and succeeding characters to the corresponding character string entry, and the search speed is increased. (For the single character entry, the entry extracted from the corresponding character string entry is not extracted as before).

【0079】例えば、「パターンマッチ」から抽出され
るエントリは、以下のようになり、エントリ数を一つ減
らすことができる。 ・単一文字エントリ:以下の文字に関数f(x)を作用
させる。 マ,ッ,チ ・隣接文字エントリ:以下の2文字に関数g(x,y)
を作用させる。 マッ,ッチ ・文字列エントリ: パターン
For example, the entries extracted from “pattern matching” are as follows, and the number of entries can be reduced by one. • Single character entry: Operate the function f (x) on the following characters. Ma, tsu, chi ・ Adjacent character entry: Function g (x, y) for the following two characters
To act. Match, character string entry: pattern

【0080】次に、請求項20に記載の発明について説
明する。前述した請求項6に記載の発明では、検索条件
として複数の文字列を論理演算子(AND,OR)で組
み合わせたもの(単一の文字列もこの検索条件に含め
る)を受け付けるとしていた。ここで、“AND”は前
後の文字列をともに含む文書を検索すること、“OR”
は前後の文字列を少なくとも一つ含む文書を検索するこ
とを意味する。さらに、必要に応じて、演算子の作用順
序を明示するために、“(”,“)”を用いることができ
るものとする。論理演算子を検索条件に用いることがで
きるようにすることで、複雑な検索要求を表現すること
が可能となった。
Next, the invention according to claim 20 will be described. In the invention described in claim 6, the search condition is a combination of a plurality of character strings by logical operators (AND, OR) (a single character string is also included in the search condition). Here, "AND" means searching for a document that includes both the preceding and following character strings, and "OR"
Means to search for documents that include at least one of the preceding and following character strings. Furthermore, "(", ")" can be used to clearly indicate the order of operation of operators, if necessary. By enabling logical operators to be used as search conditions, complex search requests can be expressed.

【0081】しかし、AND,ORだけでは「「文書検
索」を含むが「画像検索」を含んでいないこと」のよう
な否定を含む検索要求を表現することはできない。そこ
で、本実施例では、検索条件として複数の文字列を論理
演算子(AND,OR,NOT)で組み合わせたものを
受け付ける。ここで、“NOT”は前の文字列を含む
が、後の文字列は含まない文書を検索することを意味す
る。
However, it is not possible to express a search request including a negation such as "including" document search "but not including" image search "" only by AND and OR. Therefore, in this embodiment, a combination of a plurality of character strings by logical operators (AND, OR, NOT) is accepted as a search condition. Here, “NOT” means to search for a document that includes the preceding character string but does not include the following character string.

【0082】次に、請求項21に記載の発明について説
明する。AND,ORの処理では、演算子の前後の検索
文字列に対するビット列を計算し(検索手順のステップ
1)、それらのビットANDあるいはビットORを取れ
ば良かった。しかし、NOTでは、同様の処理(前後の
検索文字列に対するビット列を計算し、後側のビット列
のビット反転して前側のビット列とビットANDを取
る)では、検索洩れの可能性がある。これは、文字成分
表を用いて得られる各検索文字列に対するビット列は、
正確にその文字列を含む文書番号の表現ではなく、実際
には、その文字列を含んでいない誤検索も含んでいるた
めである。その結果、ビット反転したビット列には、そ
の文字列を含んでいない文書(番号)の一部は含まれな
いことになり、検索洩れが発生する。
Next, the invention according to claim 21 will be described. In the AND and OR processing, it suffices to calculate the bit string for the search character string before and after the operator (step 1 of the search procedure) and take the bit AND or the bit OR. However, in NOT, a similar process (a bit string for the preceding and following search character strings is calculated, bit inversion of the bit string on the rear side is performed, and bit AND is performed with the bit string on the front side) may result in omission of search. This is because the bit string for each search character string obtained using the character component table is
This is because it is not an expression of the document number that includes the character string exactly, but actually includes an erroneous search that does not include the character string. As a result, the bit-inverted bit string does not include a part of the document (number) that does not include the character string, and search omission occurs.

【0083】そこで、本実施例では、NOTについては
前側の検索文字列に対するビット列をNOTの処理結果
のビット列とする。その結果、NOTの処理結果には、
後側の検索文字列を含む文書が含まれ、誤検索が発生す
る(誤検索は検索処理のステップ2で排除できるので、
実用上は問題ない)。しかし、後側の検索文字列を含ま
ない文書が含まれないことはなくなり、検索洩れを完全
に防ぐことができる(検索洩れは検索処理のステップ2
で救うことができないので、実用上の問題となる)。ま
た、この方式では、後側の検索文字列を処理する必要が
ないので、文字成分表検索の高速化にも効果がある。
Therefore, in this embodiment, for NOT, the bit string for the search character string on the front side is set as the bit string of the NOT processing result. As a result, the NOT processing result is
A document including the search character string on the rear side is included, and an erroneous search occurs (the erroneous search can be eliminated in step 2 of the search process.
There is no problem in practice). However, the document that does not include the search character string on the rear side is not included, and the omission of the search can be completely prevented.
Because it cannot be saved in, it becomes a practical problem). Further, in this method, since it is not necessary to process the search character string on the rear side, it is effective in speeding up the character component table search.

【0084】次に、請求項22に記載の発明について説
明する。文書から文字成分を抽出し、文字成分表を生成
するまでの過程は、図9〜図11に従って記述された請
求項12の発明の実施例と同様に行われる。これにより
得られる文字成分表の構成は、図18に示されるように
インデックスとビットマップデータから成る。インデッ
クス部は、文字成分とビットマップデータへのポインタ
の対応表である。ビットマップデータは文字成分表の文
書中に文字成分が出現するか否かを示す0,1のデータ
である。大量の文書を登録する場合に、ビットマップデ
ータは巨大になることから、メモリ上には置かず二次記
憶に置く。
Next, the invention according to claim 22 will be described. The process of extracting the character component from the document and generating the character component table is the same as that of the embodiment of the invention of claim 12 described according to FIGS. The structure of the character component table obtained by this is composed of indexes and bitmap data, as shown in FIG. The index part is a correspondence table of pointers to character components and bitmap data. The bitmap data is data of 0 and 1 indicating whether or not a character component appears in the document of the character component table. When registering a large number of documents, since the bitmap data becomes huge, it is placed in the secondary storage instead of being placed in the memory.

【0085】二次記憶への登録の手法を特徴とするこの
発明の実施例によると、一文書を登録するごとに文字成
分表が生成され、その都度、直接二次記憶上の文字成分
表に書き込むのではなく、一旦メモリ上に登録し、その
後一括してメモリ上のデータを二次記憶の文字成分表に
書き出す。図18に一括登録時のデータ構成を示す。こ
の例では、簡便のために二次記憶上のデータ構成とメモ
リ上の構成を同じにしている。一括文書登録時にはメモ
リ上のテーブルに一時的に登録したデータ(図中の網か
け)を処理の最後に二次記憶のビットマップテーブルに
コピーし、登録処理を完了する。
According to the embodiment of the present invention characterized by the method of registration in the secondary memory, a character component table is generated each time one document is registered, and the character component table is directly generated in the secondary memory each time. Instead of writing, the data is once registered in the memory and then the data in the memory is collectively written in the character component table of the secondary storage. FIG. 18 shows the data structure at the time of batch registration. In this example, the data structure on the secondary storage and the memory structure are the same for the sake of simplicity. At the time of batch document registration, the data temporarily registered in the table on the memory (shaded in the figure) is copied to the bitmap table of the secondary storage at the end of the processing, and the registration processing is completed.

【0086】次に、請求項23に記載の発明について説
明する。当該文書管理装置のシステム内には、文書デー
タを持たず、その代わりに文書の情報の一つとしてオリ
ジナル文書のファイルシステム上での位置を示すディレ
クトリパス名を二次記憶上で管理し、参照にはディレク
トリパス名を基に外部のファイルシステム上のオリジナ
ル文書を直接参照するようになされている。したがっ
て、当該装置のシステム内部にオリジナルの文書データ
を持つ必要がなく、内部の二次記憶を無駄に利用しない
だけではなく、該システムを介する煩わしさがなく、ユ
ーザや他のアプリケーションによる登録文書の参照が可
能となる。
Next, the invention according to claim 23 will be described. The document management apparatus does not have document data in the system, but instead manages a directory path name indicating the position of the original document on the file system as one of the document information on the secondary storage and refers to it. Is designed to directly refer to the original document on the external file system based on the directory path name. Therefore, it is not necessary to have the original document data inside the system of the device, not only uselessly utilizing the internal secondary storage, but also the trouble of using the system, and the registration of documents registered by the user or other applications. Can be referenced.

【0087】次に、請求項24に記載の発明について説
明する。文書の登録時にファイルシステム上の登録文書
のオリジナルデータのディレクトリを指定し、そのディ
レクトリ内或いはその下位ディレクトリの文書をすべて
登録しておき、当該文書管理装置において、該ディレク
トリパス名を管理し、文書内容を参照する場合には、登
録したディレクトリパス名を基に直接外部のファイルシ
ステム上のオリジナルデータを参照するようになされて
いる。したがって、オリジナル文書をユーザが普段利用
するファイルシステム上に置く場合には、一つのディレ
クトリ階層に存在する文書をそのまま当該文書管理装置
で管理するシステムとすることが可能となる。また、デ
ィレクトリを指定することによって、そのディレクトリ
中に含まれる文書および下位のディレクトリ中に含まれ
る全文書を自動的に登録することができるようにするこ
とで、ディレクトリ上の全文書を一つ一つユーザが指定
する必要があったところの従来のユーザの負担を軽減す
ることになる。
Next, the invention according to claim 24 will be described. When registering a document, specify the directory of the original data of the registered document on the file system, register all the documents in that directory or its subordinate directories, manage the directory path name in the document management device, and When referring to the contents, the original data on the external file system is directly referred to based on the registered directory path name. Therefore, when the original document is placed on the file system that the user normally uses, it is possible to provide a system in which the document existing in one directory hierarchy is directly managed by the document management apparatus. Also, by specifying a directory, it is possible to automatically register the documents contained in that directory and all the documents contained in subordinate directories, so that all the documents in the directory can be individually registered. The burden on the conventional user, which had to be specified by one user, is reduced.

【0088】次に、請求項25に記載の発明について説
明する。上述したと同様に、ディレクトリパス名を基に
直接外部のファイルシステム上のオリジナルデータを参
照するようにした文書管理装置において、事前に当該装
置に登録したい文書を置くディレクトリをューザが指定
しておくと、当該装置は、そのディレクトリを常に監視
し、文書の登録,更新,削除が行われた場合には、同じ
操作を自動的に文字成分表に反映させ、登録,更新,削
除を行う。このようにすることで、ユーザの文書操作の
負担を軽減することができる。ディレクトリを監視する
方法としては、一定時間ごとに指定されたディレクトリ
の変化を調べる方法やOSなどの基本システムのファイ
ル操作のシステムコールの処理を変更し、ファイル操作
があった場合に文書管理システムに通知する方法などを
採用し得る。
Next, the invention according to claim 25 will be described. Similarly to the above, in the document management device that directly references the original data on the external file system based on the directory path name, the user specifies the directory in which the document to be registered in the device is placed in advance. Then, the device constantly monitors the directory, and when a document is registered, updated, or deleted, the same operation is automatically reflected in the character component table to perform registration, update, or deletion. By doing so, it is possible to reduce the burden of the document operation on the user. As a method of monitoring a directory, a method of checking a change in a specified directory at regular time intervals or a system operation process of a file operation of a basic system such as an OS is changed so that a document management system can be used when a file operation occurs. A method of notifying can be adopted.

【0089】[0089]

【発明の効果】以上の説明から明らかなように、本発明
によると、以下のような効果がある。 (1)請求項1,2に対応する効果:登録文書を保存す
るとともに、該登録文書に含まれる各文字あるいは連続
する2文字から算出される値を文字成分表に登録し記録
する文書登録手段と、前記文字成分表を用いて検索条件
に該当する文書を高速に探し出す文書検索手段とを有
し、前記文字成分表エントリ指定により文字成分表の構
成を変更可能とし、前記登録文書を複数のフォルダに分
割して管理可能で、かつフォルダごとに文字成分表エン
トリ指定できるようにし、文字成分表の構成を目的に合
わせて変更できるようにしたため、効率的な文書管理シ
ステムを構築できる。 (2)請求項3,4,5に対応する効果:前記文書検索手
段で単一の文字列から抽出される文字成分に同一のもの
が2個以上ある場合、前記文字成分表の文字成分に対す
るアクセスを一回しか行わないようにし、また、文字成
分の算出において、連続する3文字以上の文字列から算
出される値をも用いるようにし、さらに、文書登録時の
文字成分の算出において、連続する3文字以上の文字列
から算出される値を用いる場合には、該文字列から1文
字あるいは連続する2文字から算出される値を文字成分
表に登録しないようにしたので、検索文字列が長い場合
でも、高速に文書検索できる。 (3)請求項6,7,8に対応する効果:前記文書検索手
段において、単一の文字列あるいは複数の文字列をAN
DあるいはOR論理演算子で組み合わせた検索条件を処
理可能とし、また、前記文書検索手段でAND論理演算
子で結合される2つの文字列から抽出される文字成分に
同一のものが2個以上ある場合、文字成分表の文字成分
に対するアクセスを一回しか行わないようにし、さら
に、前記文書検索手段でOR論理演算子で結合される2
つの文字列から抽出される文字成分に同一のものが2個
以上ある場合、文字成分表の文字成分に対するアクセス
を一回しか行わないようにしたので、検索条件を複数の
文字列を論理演算子(AND,OR)で組み合わせで表
現できるので、複雑な検索要求を表現することが可能と
なる。また、論理演算子に合わせた最適化を行うので、
高速に文書検索できる。 (4)請求項9,10,11に対応する効果:前記文字成
分表を、該文字成分表を保存する大小2種類のブロック
から構成されるデータファイルと、文字成分ごとのブロ
ック位置を記録するインデックスファイルによって記憶
し、複数の小さいブロックを大きいブロックにまとめる
ブロック融合手段を有し、また、前記ブロック融合手段
において、データファイルの前方に大きいブロックをま
とめ、後方に小さいブロックをまとめるようにし、さら
に、前記ブロック融合手段において、データファイルの
小さいブロックが存在する領域のみをブロック融合の対
象とするようにし、文字成分表のビットマップデータを
格納するブロックの大きさに大小2種類用意したため、
登録/検索速度をともに高速化できる。 (5)請求項12に対応する効果:前記ブロック融合手
段において、検索時に高速に文字成分表エントリを二次
記憶から読み出すために、複数の固定長ブロックに分割
された各文字成分表エントリを大きな固定長ブロックに
まとめあげる時に大きな固定長ブロックをアロケートの
単位とし、まとめ上げられた大きな固定長ブロック及び
まとめあげられなかった残りの小さな固定長ブロックを
詰め込んだ大きな固定長ブロックを順時書き出すことに
よって、文字成分表のデータを一回のスキャンで処理
し、高速にかつ処理時に必要な二次記憶領域を最小限に
抑えるようにし、文字エントリの小さなブロックを大き
なブロックにまとめ上げることにより、検索速度が向上
する。 (6)請求項13〜15に対応する効果:特定のビット
マップのビットを横方向に順時調べ、ビットが1の場合
には、他のビットマップエントリの対応するビットを調
べる。つまり、縦方向にビットを調べ、すべてのビット
が1の場合は、ビットに対応する文書が検索結果の文書
となるようにする。また、各文字エントリ中に出現する
ビット1の出現数を予めカウントしておき、前述のビッ
トを調べる処理の時にビット出現数が小さい順に並び代
え、同様の処理を行うことによって、さらに参照するデ
ータ量を減らすことが可能となる。さらに、文字エント
リの一部しか必要でない場合には、全ブロックをアクセ
スすることなしにブロックテーブルから直接該当するブ
ロックを得られ、高速に検索することができる。このよ
うに従来技術では文字エントリのアクセスが多く、検索
速度の低下を招いていたが、検索時の処理のアルゴリズ
ム及びデータ構成を変えることによって検索速度が向上
する。 (7)請求項16〜19に対応する効果:前記文字成分
表の構成を文書の各文字および連続する2文字から算出
される値を記録するものとした場合、前記文字検索手段
が検索文字列から連続する2文字から算出される値のみ
を抽出し、また、前記文書検索手段が検索文字列から連
続する2文字から算出される値と、該検索文字列の末尾
の1文字から算出される値を抽出し、また、検索文字列
から連続する2文字から算出される値と、該検索文字列
の先頭の1文字から算出される値を抽出し、さらに、前
記文字成分表の構成を連続する3文字以上の文字列から
算出される値をも用いる場合、前記文書検索手段が検索
文字列から前記文字エントリが抽出される時には、該文
字列エントリに対応する文字列に含まれる1文字あるい
は前記文字列にその前後の文字を含めた文字列に含まれ
る2文字から算出される値を抽出しないようにしたの
で、検索処理において検索文字列から抽出するエントリ
数を削減し、検索処理を高速化できる。 (8)請求項20,21に対応する効果:前記文書検索
手段が単一の文字列あるいは複数の文字列を「論理
積」,「論理和」あるいは「論理差」論理演算子で組み
合わせた検索条件を処理可能とし、また、前記文書検索
手段で「論理差」で結合される2つの文字列の処理にお
いて、後側の文字列を処理しないことにしたので、検索
条件を複数の文字列を論理演算子(AND,OR,NO
T)で組み合わせで表現できるので、複雑な検索要求を
表現することが可能となる。また、論理演算子に合わせ
た最適化を行うので、高速に文書検索できる。 (9)請求項22に対応する効果:従来の方法では、文
字成分表データが二次記憶上にある場合には、一文書を
登録するごとに二次記憶にアクセスすることになり、速
度が遅くなってしまうが、本発明によると、一括登録す
る文書については、一旦メモリ上に文字成分表を一時的
に生成登録し、その後、処理の最後にメモリ上の文字成
分表データを二次記憶上の文書成分表データにアペンド
する。こうすることによって、二次記憶へのアクセスが
減り、高速に複数文書の一括登録が可能となる。 (10)請求項23に対応する効果:外部にあるオリジ
ナル文書のファイルシステム上でのディレクトリパス名
を当該文書管理装置で管理し、参照には、ディレクトリ
パス名を基に外部の該ファイルを直接参照することにな
るので、当該装置のシステムが内部にオリジナルデータ
を持つ必要がなく、二次記憶を無駄に利用しないだけで
なく、システムを介することなくユーザや他のアプリケ
ーションによる登録文書の参照が可能となる。 (11)請求項24に対応する効果:上述と同様に、デ
ィレクトリパス名を管理する場合に、ディレクトリ内お
よびその下位ディレクトリの文書をすべて登録するよう
になっているので、オリジナル文書をユーザが普段利用
するファイルシステム上に置く場合には、一つのディレ
クトリ階層に存在する文書をそのまま文書管理装置で管
理するシステムとすることが可能となる。また、ディレ
クトリを指定することによって、そのディレクトリ中に
含まれる文書または下位のディレクトリ中に含まれる全
文書を自動的に登録することができるようにすること
で、ディレクトリ上の全文書を一つ一つユーザが指定す
る必要があった従来のユーザの負担を軽減することがで
きる。 (12)請求項25に対応する効果:登録したい文書を
置くディレクトリをユーザがあらかじめ指定しておく
と、当該文書管理装置は、そのディレクトリ上での文書
の登録,更新,削除を常に監視し、文書の登録,更新,
削除が行われた場合には、同じ操作を自動的に文字成分
表に反映させ、登録,更新,削除を行う。このようにす
ることで、ユーザの文書操作の負担を軽減することがで
きる。
As is apparent from the above description, the present invention has the following effects. (1) Effects corresponding to claims 1 and 2: Document registration means for storing a registered document and registering and recording a value calculated from each character or two consecutive characters contained in the registered document in a character component table. And a document search means for quickly searching for a document satisfying the search condition using the character component table, the configuration of the character component table can be changed by designating the character component table entry, and a plurality of registered documents can be stored. Since it is possible to manage by dividing into folders and the character component table entry can be specified for each folder and the structure of the character component table can be changed according to the purpose, an efficient document management system can be constructed. (2) Effects corresponding to claims 3, 4, and 5: When there are two or more identical character components extracted from a single character string by the document retrieval means, the character components in the character component table are Access is performed only once, and a value calculated from a continuous character string of three or more characters is also used in the calculation of the character component. When a value calculated from a character string of three or more characters is used, the value calculated from one character or two consecutive characters from the character string is not registered in the character component table. Even if it is long, you can search documents quickly. (3) Effects corresponding to claims 6, 7, and 8: In the document retrieval means, a single character string or a plurality of character strings is AN.
It is possible to process search conditions combined with a D or OR logical operator, and there are two or more identical character components extracted from two character strings combined by an AND logical operator in the document searching means. In this case, the character components of the character component table are accessed only once, and further, they are connected by the OR logical operator in the document search means 2
When there are two or more identical character components extracted from one character string, the character components in the character component table are accessed only once. Therefore, the search condition is set to the logical operator of multiple character strings. Since it can be expressed by a combination of (AND, OR), it is possible to express a complicated search request. Also, since optimization is performed according to the logical operator,
Documents can be searched at high speed. (4) Effects corresponding to claims 9, 10 and 11: The character component table is recorded with a data file composed of two types of blocks, large and small, for storing the character component table, and a block position for each character component. It has a block merging means for storing a plurality of small blocks into a large block, which is stored by an index file, and in the block merging means, a large block is grouped in front of the data file and a small block is grouped in the rear, In the block merging means, only the area where a small block of the data file exists is targeted for block merging, and two sizes, large and small, are prepared for the size of the block for storing the bitmap data of the character component table.
Both registration / search speed can be increased. (5) Effect corresponding to claim 12: In the block merging means, each character component table entry divided into a plurality of fixed length blocks is large in order to read the character component table entry from the secondary storage at high speed at the time of retrieval. When a large fixed-length block is used as a unit of allocation when it is grouped into fixed-length blocks, a large fixed-length block that has been put together and a large fixed-length block that is packed with the remaining small fixed-length blocks that have not been put together can be written out in order. Processes the data of the composition table in one scan, speeds up and minimizes the secondary storage area required at the time of processing, and improves the search speed by combining blocks with small character entries into large blocks. To do. (6) Effects corresponding to claims 13 to 15: A bit of a specific bitmap is sequentially examined in the horizontal direction, and when the bit is 1, the corresponding bit of another bitmap entry is examined. That is, the bits are examined in the vertical direction, and if all the bits are 1, the document corresponding to the bits is the document as the search result. Further, the number of appearances of bit 1 appearing in each character entry is counted in advance, the bits are rearranged in the ascending order of the number of appearances of the bits at the time of the above-described processing for checking the bits, and the same processing is performed, so that the data to be referred to further. It is possible to reduce the amount. Further, when only a part of the character entry is required, the corresponding block can be directly obtained from the block table without accessing the entire block, and the high speed search can be performed. As described above, in the related art, the character entry is frequently accessed and the search speed is lowered. However, the search speed is improved by changing the algorithm and the data structure of the processing at the time of search. (7) Effects corresponding to claims 16 to 19: When the composition of the character component table is to record a value calculated from each character and two consecutive characters of the document, the character retrieving means retrieves the retrieval character string. Only a value calculated from two consecutive characters is extracted, and the value calculated by the document search means from two consecutive characters from the search character string and one value at the end of the search character string are calculated. A value is extracted, and a value calculated from two consecutive characters from the search character string and a value calculated from one character at the beginning of the search character string are extracted. When a value calculated from a character string of three or more characters is also used, when the document search unit extracts the character entry from the search character string, one character included in the character string corresponding to the character string entry or The character string Since so as not to extract the value calculated from the two characters in the string, including the front and rear of the characters, to reduce the number of entries to be extracted from the search string in the search process can speed up the search process. (8) Effects corresponding to claims 20 and 21: A search in which the document search means combines a single character string or a plurality of character strings with a "logical product", "logical sum" or "logical difference" logical operator Since the condition can be processed and the character string on the rear side is not processed in the processing of the two character strings that are combined by the "logical difference" in the document search means, the search condition is set to a plurality of character strings. Logical operators (AND, OR, NO
Since it can be expressed as a combination in T), it is possible to express a complicated search request. In addition, since optimization is performed according to the logical operator, documents can be searched at high speed. (9) Effect corresponding to claim 22: In the conventional method, when the character component table data is in the secondary storage, the secondary storage is accessed every time one document is registered, and the speed is increased. Although it will be late, according to the present invention, for the document to be collectively registered, the character component table is temporarily generated and registered in the memory, and then the character component table data in the memory is secondarily stored at the end of the process. Append to the above document composition table data. By doing so, the access to the secondary storage is reduced, and the batch registration of a plurality of documents can be performed at high speed. (10) Effect corresponding to claim 23: The directory path name on the file system of the external original document is managed by the document management device, and the external file is directly referenced based on the directory path name. Since it is referred to, the system of the device does not need to have the original data inside, the secondary storage is not wastefully used, and the registered document can be referred to by the user or other application without going through the system. It will be possible. (11) Effect corresponding to claim 24: Similar to the above, when managing the directory path name, all the documents in the directory and its subordinate directories are registered, so that the user usually writes the original document. When it is placed on the file system to be used, it becomes possible to make a system in which the documents existing in one directory hierarchy are managed by the document management device as they are. In addition, by specifying a directory, you can automatically register all the documents included in that directory or the subordinate directories, so that all the documents in the directory can be registered individually. It is possible to reduce the burden on the conventional user, which had to be designated by one user. (12) Effect corresponding to claim 25: When a user previously designates a directory in which a document to be registered is placed, the document management apparatus constantly monitors the registration, update, and deletion of the document in the directory, Document registration, update,
When deletion is performed, the same operation is automatically reflected in the character component table, and registration, update and deletion are performed. By doing so, it is possible to reduce the burden of the document operation on the user.

【図面の簡単な説明】[Brief description of drawings]

【図1】 本発明による文書管理装置の一実施例を説明
するための構成図である。
FIG. 1 is a configuration diagram for explaining an embodiment of a document management device according to the present invention.

【図2】 本発明における文字成分表の一例を示す図で
ある。
FIG. 2 is a diagram showing an example of a character component table according to the present invention.

【図3】 本発明における文字成分表の他の例を示す図
である。
FIG. 3 is a diagram showing another example of a character component table according to the present invention.

【図4】 本発明による文書管理装置の他の実施例を説
明するための構成図である。
FIG. 4 is a configuration diagram for explaining another embodiment of the document management apparatus according to the present invention.

【図5】 本発明における長い文字列をエントリとして
持つ文字成分表の例を示す図である。
FIG. 5 is a diagram showing an example of a character component table having a long character string as an entry according to the present invention.

【図6】 本発明における文字成分表のためのファイル
構成の一例を示す図である。
FIG. 6 is a diagram showing an example of a file structure for a character component table in the present invention.

【図7】 本発明における文字成分表ファイルのブロッ
ク融合処理の概要(その1)を示す図である。
FIG. 7 is a diagram showing an outline (No. 1) of block fusion processing of a character component table file according to the present invention.

【図8】 本発明における文字成分表ファイルのブロッ
ク融合処理の概要(その2)を示す図である。
FIG. 8 is a diagram showing an outline (No. 2) of the block fusion processing of the character component table file according to the present invention.

【図9】 本発明による文書管理装置の更に他の実施例
を説明するための構成図である。
FIG. 9 is a configuration diagram for explaining still another embodiment of the document management apparatus according to the present invention.

【図10】 本発明における単一文字成分表を示す図で
ある。
FIG. 10 is a diagram showing a single character component table in the present invention.

【図11】 本発明における隣接文字成分表を示す図で
ある。
FIG. 11 is a diagram showing an adjacent character component table in the present invention.

【図12】 従来の検索方式を説明するための図であ
る。
FIG. 12 is a diagram for explaining a conventional search method.

【図13】 本発明における検索方式(その1)を説明
するための図である。
FIG. 13 is a diagram illustrating a search method (No. 1) according to the present invention.

【図14】 本発明における検索方式(その2)を説明
するための図である。
FIG. 14 is a diagram for explaining a search method (2) in the present invention.

【図15】 本発明におけるデータ構成を示す図であ
る。
FIG. 15 is a diagram showing a data structure in the present invention.

【図16】 本発明におけるまとめ上げ処理(その1)
を説明するための図である。
FIG. 16: Grouping processing (1) in the present invention
It is a figure for explaining.

【図17】 本発明におけるまとめ上げ処理(その2)
を説明するための図である。
FIG. 17: Grouping processing in the present invention (part 2)
It is a figure for explaining.

【図18】 本発明における一括登録処理の例を説明す
るための図である。
FIG. 18 is a diagram for explaining an example of collective registration processing in the present invention.

【符号の説明】[Explanation of symbols]

1…登録文書、2…文書登録手段、3…検索条件、4…
文書検索手段、5…該当文書、6…文字成分表エントリ
指定、7…文字成分表、8…文書本文データ、9…文書
データベース、9-1〜9-n…文書データベース、11…
入力部、12…処理部、13…文字列入力処理部、14
…文書検索処理部、15…文書出力処理部、16…文書
登録処理部、17…データ部、18…文字成分表、19
…出力部、20…文書データ。
1 ... Registered document, 2 ... Document registration means, 3 ... Search condition, 4 ...
Document search means, 5 ... Corresponding document, 6 ... Character component table entry designation, 7 ... Character component table, 8 ... Document body data, 9 ... Document database, 9-1 to 9-n ... Document database, 11 ...
Input unit, 12 ... Processing unit, 13 ... Character string input processing unit, 14
... document search processing section, 15 ... document output processing section, 16 ... document registration processing section, 17 ... data section, 18 ... character component table, 19
... Output unit, 20 ... Document data.

─────────────────────────────────────────────────────
─────────────────────────────────────────────────── ───

【手続補正書】[Procedure amendment]

【提出日】平成7年6月30日[Submission date] June 30, 1995

【手続補正1】[Procedure Amendment 1]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】請求項13[Name of item to be corrected] Claim 13

【補正方法】変更[Correction method] Change

【補正内容】[Correction content]

【手続補正2】[Procedure Amendment 2]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】請求項16[Name of item to be corrected] Claim 16

【補正方法】変更[Correction method] Change

【補正内容】[Correction content]

【手続補正3】[Procedure 3]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0002[Name of item to be corrected] 0002

【補正方法】変更[Correction method] Change

【補正内容】[Correction content]

【0002】[0002]

【従来の技術】従来の文書管理装置について記載した公
知文献としては、例えば、特開平5−324722号公
報がある。この公報のものは、文字列検索において、利
用する文字成分表を小さく抑え、かつ、検索程度を上
げ、高速な文書登録を可能とするために、入力部に入力
された検索文字列は、処理部の文字列入力処理で処理
し、文書検索処理部において、データ部の文字成分表を
利用して文字列を含むと思われる文書を検索する。検索
した文書に対応する文書データを文書出力処理により出
力部に出力し、文書登録処理では、登録する文書を文書
データに登録し、文書データより文字成分を抽出して文
字成分表に登録する。検索文字列を文書から検索する場
合、文字成分表として、文字から算出される値が文書中
に存在するか否かを示す1文字成分表及び隣接する文字
から算出される値が文書中に存在するか否かを示す隣接
文字成分表を利用して文書を検索する。すなわち、文書
ごとに出現した文字を記録した文字成分表を用いて文書
を高速に検索するシステムである。
2. Description of the Related Art A known document describing a conventional document management apparatus is, for example, Japanese Patent Laid-Open No. 5-324722. According to this publication, in order to reduce the size of the character component table to be used in the character string search, increase the degree of search, and enable high-speed document registration, the search character string input to the input unit is processed. The document search processing unit searches for a document that is considered to include a character string by using the character component table of the data unit. The document data corresponding to the retrieved document is output to the output unit by the document output process. In the document registration process, the document to be registered is registered in the document data, the character component is extracted from the document data, and registered in the character component table. When searching a search string from the document, present as character component table, in the value value calculated from the character is calculated from the 1 character component table and the adjacent character indicating whether present in the document a document A document is searched using the adjacent character component table that indicates whether or not to do it. That is, it is a system that searches documents at high speed using a character component table that records characters that have appeared for each document.

【手続補正4】[Procedure amendment 4]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0003[Name of item to be corrected] 0003

【補正方法】変更[Correction method] Change

【補正内容】[Correction content]

【0003】また、前述した特開平5−324722号
公報や、先に提案した特願平5−298433号に記載
のものは、文字成分が文書中に存在するか否かを示す単
一文字成分表、及び隣接する文字から抽出したある文字
成分が文書中に存在するか否かを示す隣接文字成分表を
利用して文書を検索するものである
Further, the above-mentioned Japanese Patent Laid-Open No. 5-324722 and the previously proposed Japanese Patent Application No. 5-298433 propose a single character component table showing whether or not a character component exists in a document. , and a character component extracted from adjacent characters is to find a document by using the adjacent character component table indicating whether present in the document.

【手続補正5】[Procedure Amendment 5]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0006[Correction target item name] 0006

【補正方法】変更[Correction method] Change

【補正内容】[Correction content]

【0006】[0006]

【課題を解決するための手段】本発明は、上記目的を達
成するために、(1)登録文書を保存するとともに、該
登録文書に含まれる各文字あるいは連続する2文字から
算出される値(文字成分)を文字成分表に登録し記録す
る文書登録手段と、前記文字成分表を用いて検索条件に
該当する文書を高速に探し出す文書検索手段とを有する
文書管理装置において、文字成分表エントリ指定により
前記文字成分表の構成を変更可能とすること、或いは、
(2)前記(1)において、前記登録文書を複数のフォ
ルダに分割して管理可能で、かつフォルダごとに文字成
分表エントリ指定のできること、或いは、(3)前記
(1)において、文書検索手段で単一の文字列から抽出
される文字成分に同一のものが二個以上ある場合、前記
文字成分表の文字成分に対するアクセスを一回しか行わ
ないこと、或いは、(4)前記(1)において、文字成
分の算出値として、連続する3文字以上の文字列から算
出される値をも用いること、或いは、(5)前記(4)
において、文書登録時の文字成分の算出において、連続
する3文字以上の文字列から算出される値を用いる場合
には、該文字列から1文字あるいは連続する2文字から
算出される値を文字成分表に登録しないこと、或いは、
(6)前記(1)において、前記文書検索手段におい
て、単一の文字列あるいは複数の文字列をAND論理演
算子あるいはOR論理演算子で組み合わせた検索条件を
処理可能とすること、或いは、(7)前記(6)におい
て、前記文書検索手段でAND論理演算子で結合される
2つの文字列から抽出される文字成分に同一のものが2
個以上ある場合、文字成分表の文字成分に対するアクセ
スを一回しか行わないこと、或いは、(8)前記(6)
において、前記文書検索手段でOR論理演算子で結合さ
れる2つの文字列から抽出される文字成分に同一のもの
が2個以上ある場合、文字成分表の文字成分に対するア
クセスを一回しか行わないこと、或いは、(9)前記
(1)において、前記文字成分表を、該文字成分表を保
存する大小2種類のブロックから構成されるデータファ
イルと、文字成分ごとのブロック位置を記録するインデ
ックスファイルによって記憶し、複数の小さいブロック
を大きいブロックにまとめるブロック融合手段を有する
こと、或いは、(10)前記(9)において、前記ブロ
ック融合手段において、データファイルの前方に大きい
ブロックをまとめ、後方に小さいブロックをまとめるこ
と、或いは、(11)前記(10)において、前記ブロ
ック融合手段において、データファイルの小さいブロッ
クが存在する領域のみをブロック融合の対象とするこ
と、或いは、(12)前記(9)において、前記ブロッ
ク融合手段において、検索時に高速に文字成分表エント
リを二次記憶から読み出すために、複数の固定長ブロッ
クに分割された各文字成分表エントリを大きな固定長ブ
ロックにまとめあげる時に大きな固定長ブロックをアロ
ケートの単位とし、まとめ上げられた大きな固定長ブロ
ック及びまとめあげられなかった残りの小さな固定長ブ
ロックを詰め込んだ大きな固定長ブロックを順時書き出
すことによつて、文字成分表のデータを一回のスキャン
で処理し、高速にかつ処理時に必要な二次記憶領域を最
小限に抑えること、或いは、(13)大量の文書データ
を保持し、入力装置から入力された検索文字列を含む文
書を検索し、出力装置により検索した文書を出力する文
書管理装置であって、文書登録時に文書より各文字コー
ド成分(単一文字成分)及び2文字以上の隣接文字か
ット列成分(隣接文字成分)を出し、各文書がそれ
ぞれの成分を含むか否かを示す単一文字成分表及び一つ
以上の隣接文字成分表を生成し、該文字成分表の可変長
の各文字成分のエントを複数の固定長ブロックに分割
して二次記憶に登録し、検索時には検索文字列から登録
時と同様に単一文字成分及び2文字以上の隣接文字成分
を抽出し、該隣接文字成分に対応する二次記憶上の固定
長ブロックを統合し、各文字エントリを生成して文書を
検索する文書管理装置において、仮に文字エントリで文
字成分が出現するビットを1とし、出現しないビットを
0とした場合に、検索時に複数の文字エントリのビット
マップのAND処理を行う時に対象となる文字エントリ
を一つ適当に選択し、ビット列をスキャンして値が1で
ある時だけ他のエントリの対応するビットを調べ、全て
のエントリの対応するビットの値が1である文書を検索
結果とすることにより、文字エントリのビットマップへ
のアクセスを最小限に抑え全文検索を行うこと、或い
は、(14)前記(13)において、文字エントリごと
に該文字エントリに出現する1のビットの個数(ビット
出現数)をあらかじめ二次記憶に記録しておき、検索時
に複数の文字エントリのビットマップのAND処理を行
う時に対象となる文字エントリのうち、該ビット出現数
の最も少ない文字エントリを選択し、ビット列をスキャ
ンして値が1である時だけビット出現数の少ない順に他
の文字エントリの対応するビットを調べ、全ての文字エ
ントリの対応するビットの値が1である文書を検索結果
とすることにより、文字エントリのビットマップへのア
クセスを最小限に抑え全文検索を行うこと、或いは、
(15)前記(13)において、文字エントリの一部へ
のアクセスの場合に、文字エントリの全ブロックを読み
出す必要がないように、可変長の文字エントリのビット
マップデータを複数の固定長のブロックに分割して二次
記憶に格納し、各固定長のブロックを管理するブロック
テーブルを二次記憶上に有し、該ブロックテーブルから
任意の固定長ブロックをアクセスできるようにすること
によって、必要のない二次記憶上のブロックへのアクセ
スを減らして全文検索を行うこと、或いは、(16)登
録文書を保存するとともに、該登録文書に含まれる各文
字あるいは連続する2文字から算出される値(文字成
分)を文字成分表に登録し記録する文書登録手段と、前
記文字成分表を用いて検索条件に該当する文書を高速に
探し出す文書検索手段とを有し、前記文字成分表エント
リ指定により文字成分表の構成を変更可能とし、前記文
字成分表の構成を文書の各文字および連続する2文字か
ら算出される値を記録するものとした場合、前記文
索手段が検索文字列から連続する2文字から算出される
値のみを抽出すること、或いは、(17)前記(16)
において、前記文書検索手段が、検索文字列からの連続
する2文字から算出される値と、該検索文字列の末尾の
1文字から算出される値を抽出すること、或いは、(1
8)前記(16)において、前記文書検索手段が、検索
文字列からの連続する2文字から算出される値と、該検
索文字列の先頭の1文字から算出される値を抽出するこ
と、或いは、(19)前記(18)において、前記文字
成分表の構成を連続する3文字以上の文字列から算出さ
れる値(文字列エントリ)をも用いる場合、前記文書検
索手段が、検索文字列から前記文字エントリが抽出され
る時には、該文字列エントリに対応する文字列に含まれ
る1文字あるいは前記文字列にその前後の文字を含めた
文字列に含まれる2文字から算出される値を抽出しない
こと、或いは、(20)前記(16)において、前記文
書検索手段が単一の文字列あるいは複数の文字列を「論
理積」,「論理和」あるいは「論理差」論理演算子で組
み合わせた検索条件を処理可能なこと、或いは、(2
1)前記(20)において、前記文書検索手段で「論理
差」で結合される2つの文字列の処理において、後側の
文字列を処理しないこと、或いは、(22)前記(1)
において、前記文書登録手段が、多数の文書を一括して
登録する場合に、一文書を登録するごとに生成された文
字成分表データを直接二次記憶上の文字成分表に書き込
むのではなく一旦メモリ上に登録し、その後、一括して
メモリ上の文字成分表データを二次記憶の文字成分表に
書き出すことによって、高速に文書の一括登録を行うこ
と、或いは、(23)前記(1)において、前記文書登
録手段により登録されたファイルシステム上の登録文書
のディレクトリパス名を二次記憶上で管理し、文書内容
を参照する場合には、登録したディレクトリパス名を基
に直接ファイルシステム上のオリジナルデータを参照す
ることによって、文書管理システムが内部にオリジナル
データを持つ必要がないだけでなく、ユーザや他のアプ
リケーションによる登録文書の参照を容易にすること、
或いは、(24)前記(1)において、前記文書登録手
段により登録されたファイルシステム上の登録文書のオ
リジナルデータのディレクトリパス名を管理し、文書内
容を参照する場合には、登録したディレクトリパス名を
基に直接ファイルシステム上のオリジナルデータを参照
するようにし、文書の登録時にディレクトリを指定し、
そのディレクトリ内およびその下位ディレクトリの文書
をすべて登録することにより、複数の文書の登録時の文
書指定を容易にすること、或いは、(25)前記(1)
において、前記文書登録手段により登録されたファイル
システム上の登録文書のオリジナルデータのディレクト
リパス名を管理し、文書内容を参照する時には、登録し
たディレクトリパス名を基に直接ファイルシステム上の
オリジナルデータを参照するようにし、あらかじめ登録
対象とするディレクトリを指定しておき、そのディレク
トリ上での文書の登録,更新,削除を常に監視し、文書
の登録,更新,削除があった場合には、自動的に当該の
文書について文字成分表に登録,更新,削除を行うこと
によって、ユーザの文書管理の手間を削減することを特
徴としたものである。
In order to achieve the above-mentioned object, the present invention (1) stores a registered document, and a value calculated from each character or two consecutive characters contained in the registered document ( In a document management device having a document registration unit for registering and recording (character component) in a character component table and a document searching unit for rapidly searching for a document satisfying a search condition using the character component table, a character component table entry designation is made. To change the composition of the character component table by
(2) In (1), the registered document can be divided into a plurality of folders and managed, and a character component table entry can be designated for each folder; or (3) In (1), the document search means. When there are two or more identical character components extracted from a single character string, the character component in the character component table is accessed only once, or (4) In (1) above. As the calculated value of the character component, a value calculated from a continuous character string of three characters or more is also used, or (5) above (4)
In the case of using the value calculated from a continuous character string of three or more characters in the calculation of the character component at the time of document registration, the value calculated from one character or two continuous characters from the character string is used as the character component. Do not register in the table, or
(6) In the above (1), the document search means can process a search condition in which a single character string or a plurality of character strings are combined by an AND logical operator or an OR logical operator, or ( 7) In (6), the same character component extracted from the two character strings combined by the AND logical operator in the document search means is 2
If there are more than one, the character component in the character component table is accessed only once, or (8) above (6)
In the above, if there are two or more identical character components extracted from the two character strings combined by the OR logical operator in the document search means, the character component in the character component table is accessed only once. Or (9) In (1), the character component table is a data file composed of two types of blocks, large and small, for storing the character component table, and an index file for recording the block position for each character component. Or a block merging means for storing a plurality of small blocks into a large block, or (10) in (9), the block merging means groups a large block in front of the data file and a small block in the rear. Grouping blocks, or (11) in the block merging means in (10) above. , Subjecting only the area of the data file having a small block to the block fusion, or (12) in the above (9), the block fusion means rapidly stores the character component table entry from the secondary storage at the time of retrieval. When reading each character component table entry divided into multiple fixed-length blocks into a large fixed-length block for reading, the large fixed-length block is used as the unit of allocation, and the combined large fixed-length block and the rest that cannot be combined By writing out large fixed-length blocks packed with small fixed-length blocks in sequence, the data of the character component table can be processed in one scan, and the secondary storage area required at high speed can be minimized. Suppressing, or (13) Retrieval input from the input device while holding a large amount of document data Finds documents containing strings, a document management apparatus for outputting a document retrieved by the output device, the character code component from the document at the document registration (single character component) and two or more characters adjacent characters or al
Bit string out calculate the component (adjacent character components), each document to produce a single character component table and one or more adjacent character component table indicating whether containing the respective components, the variable of the character component table dividing the entry of each character component length into a plurality of fixed length blocks registered in the secondary storage, like the time of registration from the search string to extract a single character component and two or more characters adjacent characters component when searching In a document management apparatus that integrates fixed-length blocks on secondary storage corresponding to the adjacent character components to generate each character entry and retrieves a document, the bit at which the character component appears in the character entry is set to 1 When the bit that does not appear is set to 0, only one target character entry is appropriately selected when ANDing the bitmaps of a plurality of character entries at the time of search, and the bit string is scanned, and only when the value is 1 Other d Examining the corresponding bit in birds by the corresponding bit values of all entries and search results document 1, to perform a full-text search fewer accesses to the bit map of the character entry to a minimum, or (14) In the above (13), the number of 1 bits appearing in each character entry (the number of appearances) is recorded in the secondary storage in advance for each character entry, and a bit map of a plurality of character entries is searched at the time of retrieval. Of the target character entries when performing the AND process of, the character entry with the smallest number of occurrences of the bit is selected, and the bit string is scanned, and when the value is 1, the other character entries are sorted in ascending order of the number of occurrences of the bit. By checking the corresponding bit and finding the document in which the value of the corresponding bit of all character entries is 1, the character entry Minimum to suppress possible to perform a full-text search and access to the bitmap, or,
(15) In (13), the bitmap data of a variable-length character entry is converted into a plurality of fixed-length blocks so that it is not necessary to read all blocks of the character entry when accessing a part of the character entry. It is divided into two parts and stored in the secondary storage, and a block table that manages each fixed-length block is provided in the secondary storage, and an arbitrary fixed-length block can be accessed from the block table. A full-text search is performed by reducing access to a block on the secondary storage that is not present, or (16) a value calculated from each character or two consecutive characters included in the registered document while saving the registered document ( A document registration unit for registering and recording (character component) in the character component table, and a document search unit for quickly searching for a document satisfying the search condition using the character component table. And the configuration of the character component table can be changed by designating the character component table entry, and the configuration of the character component table records each character of the document and a value calculated from two consecutive characters. , extracting only values the document search <br/> search means is calculated from the 2 consecutive characters from the search string, or (17) (16)
In the above, the document search means extracts a value calculated from two consecutive characters from the search character string and a value calculated from one character at the end of the search character string, or (1
8) In (16), the document search means extracts a value calculated from two consecutive characters from the search character string and a value calculated from the first character of the search character string, or (19) In the case of (18), in the case where a value (character string entry) calculated from a character string of three or more consecutive characters is also used in the configuration of the character component table, the document search means uses the search character string. When the character entry is extracted, a value calculated from one character included in the character string corresponding to the character string entry or two characters included in the character string including the characters before and after the character string is not extracted. Or (20) In the above (16), the document searching means combines a single character string or a plurality of character strings with a "logical product", a "logical sum", or a "logical difference" logical operator. Article It can handle a, or (2
1) In the above (20), in the processing of the two character strings combined by the "logical difference" by the document search means, the character string on the rear side is not processed, or (22) The above (1)
In the case of registering a large number of documents at once, the document registration means does not directly write the character component table data generated each time one document is registered to the character component table on the secondary storage, but once. The document is registered in the memory, and then the character component table data in the memory is collectively written in the character component table of the secondary storage to perform the batch registration of documents at high speed, or (23) (1) above. When the directory path name of the registered document on the file system registered by the document registration means is managed on the secondary storage and the document contents are referred to, the file path directly on the file system is registered based on the registered directory path name. Not only does the document management system not need to have the original data internally by referencing the original data of To facilitate the reference of the registration document,
Alternatively, (24) in (1), the directory path name of the original data of the registered document on the file system registered by the document registration means is managed, and when referring to the document contents, the registered directory path name Directly refer to the original data on the file system based on, specify the directory when registering the document,
By registering all the documents in the directory and its subordinate directories, the document designation at the time of registering a plurality of documents can be facilitated, or (25) above (1)
In managing the directory path name of the original data of the registered document on the file system registered by the document registration means, and referring to the document contents, the original data on the file system is directly copied based on the registered directory path name. The directory to be registered is specified in advance so that the registration, update, and deletion of documents in that directory are always monitored, and when a document is registered, updated, or deleted, it is automatically In addition, by registering, updating, and deleting the document with respect to the character component table, the user's time and effort for document management is reduced.

【手続補正6】[Procedure correction 6]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0009[Correction target item name] 0009

【補正方法】変更[Correction method] Change

【補正内容】[Correction content]

【0009】(3)前記文書検索手段において、単一の
文字列あるいは複数の文字列をANDあるいはOR論理
演算子で組み合わせた検索条件を処理可能とし、また、
前記文書検索手段でAND論理演算子で結合される2つ
の文字列から抽出される文字成分に同一のものが2個以
上ある場合、文字成分表の文字成分に対するアクセスを
一回しか行わないようにし、さらに、前記文書検索手段
でOR論理演算子で結合される2つの文字列から抽出さ
れる文字成分に同一のものが2個以上ある場合、文字成
分表の文字成分に対するアクセスを一回しか行わないよ
うにした。検索条件を複数の文字列を論理演算子(AN
D,OR)で組み合わせで表現できるので、複雑な検索
要求を表現することが可能となる。また、論理演算子に
合わせた最適化を行うので、高速に文書検索できる。
(3) The document searching means can process a search condition in which a single character string or a plurality of character strings are combined by AND or OR logical operators, and
When there are two or more identical character components extracted from the two character strings combined by the AND logical operator in the document retrieval means, the character component in the character component table is accessed only once. Further, when there are two or more identical character components extracted from the two character strings combined by the OR logical operator in the document retrieval means, the character component in the character component table is accessed only once. I tried not to . Use multiple operators as search conditions for logical operators (AN
Since it can be expressed as a combination of (D, OR), it is possible to express a complicated search request. In addition, since optimization is performed according to the logical operator, documents can be searched at high speed.

【手続補正7】[Procedure Amendment 7]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0012[Correction target item name] 0012

【補正方法】変更[Correction method] Change

【補正内容】[Correction content]

【0012】(6)特定のビットマップのビットを横方
向に順時調べ、ビットが1の場合には、他のビットマッ
プエントリの対応するビットを調べる。つまり、縦方向
にビットを調べ、すべてのビットが1の場合は、ビット
に対応する文書が検索結果の文書となるようにする。ま
た、各文字エントリ中に出現するビット1の出現数を予
めカウントしておき、前述のビットを調べる処理の時に
ビット出現数が小さい順に並び代え、同様の処理を行う
ことによって、さらに参照するデータ量を減らすことが
可能となる。さらに、文字エントリの一部しか参照し
い場合には、全ブロックをアクセスすることなしにブロ
ックテーブルから直接該当するブロックを得られ、高速
に検索することができる。このように従来技術では文字
エントリのアクセスが多く、検索速度の低下を招いてい
たが、検索時の処理のアルゴリズム及びデータ構成を変
えることによって検索速度が向上する。
(6) A bit of a specific bitmap is sequentially examined in the horizontal direction, and when the bit is 1, the corresponding bit of another bitmap entry is examined. That is, the bits are examined in the vertical direction, and if all the bits are 1, the document corresponding to the bits is the document as the search result. Further, the number of appearances of bit 1 appearing in each character entry is counted in advance, the bits are rearranged in the ascending order of the number of appearances of the bits at the time of the above-described processing for checking the bits, and the same processing is performed, so that the data to be referred to further. It is possible to reduce the amount. Further, when only a part of the character entry is referred to , the corresponding block can be directly obtained from the block table without accessing all the blocks, and the high speed search can be performed. As described above, in the related art, the character entry is frequently accessed and the search speed is lowered. However, the search speed is improved by changing the algorithm and the data structure of the processing at the time of search.

【手続補正8】[Procedure Amendment 8]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0013[Correction target item name] 0013

【補正方法】変更[Correction method] Change

【補正内容】[Correction content]

【0013】(7)前記文字成分表の構成を文書の各文
字および連続する2文字から算出される値を記録するも
のとした場合、前記文検索手段が検索文字列から連続
する2文字から算出される値のみを抽出し、また、前記
文書検索手段が検索文字列から連続する2文字から算出
される値と、該検索文字列の末尾の1文字から算出され
る値を抽出し、また、検索文字列から連続する2文字か
ら算出される値と、該検索文字列の先頭の1文字から算
出される値を抽出し、さらに、前記文字成分表の構成を
連続する3文字以上の文字列から算出される値をも用い
る場合、前記文書検索手段が検索文字列から前記文字エ
ントリが抽出される時には、該文字列エントリに対応す
る文字列に含まれる1文字あるいは前記文字列にその前
後の文字を含めた文字列に含まれる2文字から算出され
る値を抽出しないようにしたので、検索処理において検
索文字列から抽出するエントリ数が削減され、検索処理
を高速化できる。
[0013] (7) When the records the value calculated from the character component table documents the configuration of each character and two consecutive characters, the two characters the document retrieval means is continuous from the search string Only the calculated value is extracted, and the document search means extracts a value calculated from two consecutive characters from the search character string and a value calculated from one character at the end of the search character string, and , A value calculated from two consecutive characters from the search character string and a value calculated from one character at the beginning of the search character string are extracted, and the composition of the character component table further includes three or more consecutive characters. When a value calculated from a string is also used, when the document search unit extracts the character entry from the search character string, one character included in the character string corresponding to the character string entry or the character before and after the character string is included in the character string. Including the character Since so as not to extract the value calculated from the 2 characters in string, the number of entries to be extracted from the search string in the search process is reduced, thereby speeding up the search process.

【手続補正9】[Procedure Amendment 9]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0025[Name of item to be corrected] 0025

【補正方法】変更[Correction method] Change

【補正内容】[Correction content]

【0025】また、文書検索手順は、次の通りである。 .文字成分表7を用いて検索文字列を含む可能性のあ
る文書番号を求める。 (a)検索文字列から文字成分表エントリ指定6で規定
されるエントリを抽出する。 (b)抽出された全てのエントリのビットマップ(図2
の横一列)を文字成分表から抜きだし、ビットANDを
とる。 .前記で求まった文書番号の文書本文を文書本文デ
ータ8から読みだし、検索文字列が含まれているか調
べ、含まれている文書集合を検索結果とする。
The document search procedure is as follows. . A document number that may include a search character string is obtained using the character component table 7. (A) An entry defined by the character component table entry designation 6 is extracted from the search character string. (B) Bitmaps of all the extracted entries (see FIG. 2).
(One horizontal row of) is extracted from the character component table, and bit AND is performed. . The document body of the document number obtained above is read from the document body data 8 and it is checked whether or not the search character string is included, and the included document set is used as the search result.

【手続補正10】[Procedure Amendment 10]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0029[Name of item to be corrected] 0029

【補正方法】変更[Correction method] Change

【補正内容】[Correction content]

【0029】例えば、図2の文字成分表を用いた場合、
検索語「マンマシンシステム」は9文字から構成されて
いるため、文字成分表には「マ」「ン」「マ」「シ」
「ン」「シ」「ス」「テ」「ム」の9回のアクセスが必
要になる。しかし、実際には、「マ」「ン」「シ」は2
回ずつ出現しているため、これらエントリへのアクセス
は1回にまとめることができる。すなわち、文字成分表
への実際のアクセスは、「マ」「ン」「シ」「ス」
「テ」「ム」の6回ですむ。
For example, when the character component table of FIG. 2 is used,
Since the search term "Man Machine System" consists of 9 characters, the character component table shows
You need to access "n", "shi", "su", "te" and "mu" 9 times. However, in reality, “ma”, “n”, and “shi” are 2
Since they appear once, the access to these entries can be combined into one. That is, the actual access to the character component table is "ma""n""shi""su"
You only need 6 times of "te" and "mu".

【手続補正11】[Procedure Amendment 11]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0031[Correction target item name] 0031

【補正方法】変更[Correction method] Change

【補正内容】[Correction content]

【0031】登録時には、「…あのマンマシンシステム
は…」からは、文字として「あ」「の」「マ」「ン」
「シ」「ス」「テ」「ム」「は」、文字列として「シス
テム」が抽出され、文字成分表に記録される。検索時に
は、検索語「マンマシンシステム」からは、文字として
「マ」「ン」「マ」「シ」「ン」、文字列として「シス
テム」が抽出されるが、「システム」に含まれる「シ」
および単一文字の重複を削除する。結局、「マ」「ン」
「システム」の3つのエントリにアクセスするだけでよ
く、検索時間は大幅に短縮できる。
At the time of registration, from "... that man-machine system ...", characters "a", "no", "ma", "n" are displayed as characters.
“Si”, “su”, “te”, “mu”, “ha” and “system” are extracted as a character string and recorded in the character component table. During the search, the search word from the "man-machine system", "ma,""down,""ma""death,""down" as a character, but "the system" is extracted as a character string, is included in the "system", " Shi "
And remove single character duplicates. After all, "ma""n"
The search time can be greatly reduced by simply accessing the three entries of "system".

【手続補正12】[Procedure Amendment 12]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0038[Correction target item name] 0038

【補正方法】変更[Correction method] Change

【補正内容】[Correction content]

【0038】インデックスファイルに含まれるブロック
数は、文字成分表エントリ指定によって決まる。ビット
マップデータファイルは、次の2つのフィールドを含む
ブロックから構成される。 ・次ブロックオフセットフィールド ・データフィールド
The number of blocks included in the index file is determined by the character component table entry designation. The bitmap data file is composed of blocks including the following two fields.・ Next block offset field ・ Data field

【手続補正13】[Procedure Amendment 13]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0039[Correction target item name] 0039

【補正方法】変更[Correction method] Change

【補正内容】[Correction content]

【0039】ブロックサイズは、性能要求に合わせて数
バイトから数キロバイトの範囲に設定すれば良い。図
6(a)は、文字成分表のためのファイル構成の一例を
示す図である。なお、インデックスファイルを半導体メ
モリ上にロードしておくことは、高速化に有効である。
The block size may be set in the range of several tens of bytes to several kilobytes according to the performance requirement. FIG. 6A is a diagram showing an example of a file structure for the character component table. Note that loading the index file on the semiconductor memory is effective for speeding up.

【手続補正14】[Procedure Amendment 14]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0042[Correction target item name] 0042

【補正方法】変更[Correction method] Change

【補正内容】[Correction content]

【0042】文書検索システム利用開始時点では、ブロ
ックサイズを小さいものとして、登録速度を優先する
(登録文書数が少ない間は、検索速度が多少遅くても検
索時間が小さいので、ほとんど問題とならない)。多数
の文書が登録され、ビットマップデータファイルに含ま
れるブロック数が増大した段階で、複数のバケットをコ
ンテナにまとめあげるブロック融合処理を行う。通常の
オペレーティングシステムでは、データを小さいブロッ
クに分割しておくよりも大きいブロックにまとめておく
方がアクセスが高速だからである。その結果、ブロック
融合処理により検索速度が向上され、登録文書数が多い
場合でも検索時間を小さくできる。
At the start of using the document search system, the block size is set to be small and the registration speed is prioritized. (While the number of registered documents is small, the search time is small even if the search speed is a little slow, so there is almost no problem.) . When a large number of documents are registered and the number of blocks included in the bitmap data file increases, block fusion processing is performed to collect a plurality of buckets in a container. In a typical operating system, who are summarized in large blocks than previously divided data into small blocks access is because high speed. As a result, the block merging process improves the search speed, and the search time can be shortened even when the number of registered documents is large.

【手続補正15】[Procedure Amendment 15]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0061[Correction target item name] 0061

【補正方法】変更[Correction method] Change

【補正内容】[Correction content]

【0061】文書IDが4000の文書内に部文字コ
ードが「あ」の文字が出現する否かを調べる場合を例
に、以下に説明する。 ・インデックスの「あ」に対応するブロックテーブルポ
インタからブロックテーブルを得る。 ・ブロック最終登録文書IDから文書ID4000を含
むブロック(ブロックポインタ5120)を得る。 ・ブロック(5120)のデータが圧縮されている場合
には伸長し、文書ID4000該当するビットを得
る。 このように、文字エントリの一部しか参照しない場合に
は、全ブロックをアクセスすることなしにブロックテー
ブルから直接該当するブロックを得られ、高速に検索す
ることができる。
[0061] document ID as an example the case to determine whether or not the internal character code character of "A" appears in the document of 4000, will be described below. -Get the block table from the block table pointer corresponding to the index "A". Obtain a block (block pointer 5120) including the document ID 4000 from the block final registration document ID. · If the data block (5120) is compressed and stretched to obtain the bit corresponding to the document ID4000. As described above, when only a part of the character entry is referred to, the corresponding block can be directly obtained from the block table without accessing all the blocks, and the search can be performed at high speed.

【手続補正16】[Procedure Amendment 16]

【補正対象書類名】明細書[Document name to be amended] Statement

【補正対象項目名】0089[Correction target item name] 0089

【補正方法】変更[Correction method] Change

【補正内容】[Correction content]

【0089】[0089]

【発明の効果】以上の説明から明らかなように、本発明
によると、以下のような効果がある。 (1)請求項1,2に対応する効果:登録文書を保存す
るとともに、該登録文書に含まれる各文字あるいは連続
する2文字から算出される値を文字成分表に登録し記録
する文書登録手段と、前記文字成分表を用いて検索条件
に該当する文書を高速に探し出す文書検索手段とを有
し、前記文字成分表エントリ指定により文字成分表の構
成を変更可能とし、前記登録文書を複数のフォルダに分
割して管理可能で、かつフォルダごとに文字成分表エン
トリ指定できるようにし、文字成分表の構成を目的に合
わせて変更できるようにしたため、効率的な文書管理シ
ステムを構築できる。 (2)請求項3,4,5に対応する効果:前記文書検索
手段で単一の文字列から抽出される文字成分に同一のも
のが2個以上ある場合、前記文字成分表の文字成分に対
するアクセスを一回しか行わないようにし、また、文字
成分の算出において、連続する3文字以上の文字列から
算出される値をも用いるようにし、さらに、文書登録時
の文字成分の算出において、連続する3文字以上の文字
列から算出される値を用いる場合には、該文字列から1
文字あるいは連続する2文字から算出される値を文字成
分表に登録しないようにしたので、検索文字列が長い場
合でも、高速に文書検索できる。 (3)請求項6,7,8に対応する効果:前記文書検索
手段において、単一の文字列あるいは複数の文字列をA
NDあるいはOR論理演算子で組み合わせた検索条件を
処理可能とし、また、前記文書検索手段でAND論理演
算子で結合される2つの文字列から抽出される文字成分
に同一のものが2個以上ある場合、文字成分表の文字成
分に対するアクセスを一回しか行わないようにし、さら
に、前記文書検索手段でOR論理演算子で結合される2
つの文字列から抽出される文字成分に同一のものが2個
以上ある場合、文字成分表の文字成分に対するアクセス
を一回しか行わないようにした。検索条件を複数の文字
列を論理演算子(AND,OR)で組み合わせで表現で
きるので、複雑な検索要求を表現することが可能とな
る。また、論理演算子に合わせた最適化を行うので、高
速に文書検索できる。 (4)請求項9,10,11に対応する効果:前記文字
成分表を、該文字成分表を保存する大小2種類のブロッ
クから構成されるデータファイルと、文字成分ごとのブ
ロック位置を記録するインデックスファイルによって記
憶し、複数の小さいブロックを大きいブロックにまとめ
るブロック融合手段を有し、また、前記ブロック融合手
段において、データファイルの前方に大きいブロックを
まとめ、後方に小さいブロックをまとめるようにし、さ
らに、前記ブロック融合手段において、データファイル
の小さいブロックが存在する領域のみをブロック融合の
対象とするようにし、文字成分表のビットマップデータ
を格納するブロックの大きさに大小2種類用意したた
め、登録/検索速度をともに高速化できる。 (5)請求項12に対応する効果:前記ブロック融合手
段において、検索時に高速に文字成分表エントリを二次
記憶から読み出すために、複数の固定長ブロックに分割
された各文字成分表エントリを大きな固定長ブロックに
まとめあげる時に大きな固定長ブロックをアロケートの
単位とし、まとめ上げられた大きな固定長ブロック及び
まとめあげられなかった残りの小さな固定長ブロックを
詰め込んだ大きな固定長ブロックを順時書き出すことに
よって、文字成分表のデータを一回のスキャンで処理
し、高速にかつ処理時に必要な二次記憶領域を最小限に
抑えるようにし、文字エントリの小さなブロックを大き
なブロックにまとめ上げることにより、検索速度が向上
する。 (6)請求項13〜15に対応する効果:特定のビット
マップのビットを横方向に順時調べ、ビットが1の場合
には、他のビットマップエントリの対応するビットを調
べる。つまり、縦方向にビットを調べ、すべてのビット
が1の場合は、ビットに対応する文書が検索結果の文書
となるようにする。また、各文字エントリ中に出現する
ビット1の出現数を予めカウントしておき、前述のビッ
トを調べる処理の時にビット出現数が小さい順に並び代
え、同様の処理を行うことによって、さらに参照するデ
ータ量を減らすことが可能となる。さらに、文字エント
リの一部しか参照しない場合には、全ブロックをアクセ
スすることなしにブロックテーブルから直接該当するブ
ロックを得られ、高速に検索することができる。このよ
うに従来技術では文字エントリのアクセスが多く、検索
速度の低下を招いていたが、検索時の処理のアルゴリズ
ム及びデータ構成を変えることによって検索速度が向上
する。 (7)請求項16〜19に対応する効果:前記文字成分
表の構成を文書の各文字および連続する2文字から算出
される値を記録するものとした場合、前記文字検索手段
が検索文字列から連続する2文字から算出される値のみ
を抽出し、また、前記文書検索手段が検索文字列から連
続する2文字から算出される値と、該検索文字列の末尾
の1文字から算出される値を抽出し、また、検索文字列
から連続する2文字から算出される値と、該検索文字列
の先頭の1文字から算出される値を抽出し、さらに、前
記文字成分表の構成を連続する3文字以上の文字列から
算出される値をも用いる場合、前記文書検索手段が検索
文字列から前記文字エントリが抽出される時には、該文
字列エントリに対応する文字列に含まれる1文字あるい
は前記文字列にその前後の文字を含めた文字列に含まれ
る2文字から算出される値を抽出しないようにしたの
で、検索処理において検索文字列から抽出するエントリ
数を削減し、検索処理を高速化できる。 (8)請求項20,21に対応する効果:前記文書検索
手段が単一の文字列あるいは複数の文字列を「論理
積」,「論理和」あるいは「論理差」論理演算子で組み
合わせた検索条件を処理可能とし、また、前記文書検索
手段で「論理差」で結合される2つの文字列の処理にお
いて、後側の文字列を処理しないことにしたので、検索
条件を複数の文字列を論理演算子(AND,OR,NO
T)で組み合わせで表現できるので、複雑な検索要求を
表現することが可能となる。また、論理演算子に合わせ
た最適化を行うので、高速に文書検索できる。 (9)請求項22に対応する効果:従来の方法では、文
字成分表データが二次記憶上にある場合には、一文書を
登録するごとに二次記憶にアクセスすることになり、速
度が遅くなってしまうが、本発明によると、一括登録す
る文書については、一旦メモリ上に文字成分表を一時的
に生成登録し、その後、処理の最後にメモリ上の文字成
分表データを二次記憶上の文書成分表データにアペンド
する。こうすることによって、二次記憶へのアクセスが
減り、高速に複数文書の一括登録が可能となる。 (10)請求項23に対応する効果:外部にあるオリジ
ナル文書のファイルシステム上でのディレクトリパス名
を当該文書管理装置で管理し、参照には、ディレクトリ
パス名を基に外部の該ファイルを直接参照することにな
るので、当該装置のシステムが内部にオリジナルデータ
を持つ必要がなく、二次記憶を無駄に利用しないだけで
なく、システムを介することなくユーザや他のアプリケ
ーションによる登録文書の参照が可能となる。 (11)請求項24に対応する効果:上述と同様に、デ
ィレクトリパス名を管理する場合に、ディレクトリ内お
よびその下位ディレクトリの文書をすべて登録するよう
になっているので、オリジナル文書をユーザが普段利用
するファイルシステム上に置く場合には、一つのディレ
クトリ階層に存在する文書をそのまま文書管理装置で管
理するシステムとすることが可能となる。また、ディレ
クトリを指定することによって、そのディレクトリ中に
含まれる文書または下位のディレクトリ中に含まれる全
文書を自動的に登録することができるようにすること
で、ディレクトリ上の全文書を一つ一つユーザが指定す
る必要があった従来のユーザの負担を軽減することがで
きる。 (12)請求項25に対応する効果:登録したい文書を
置くディレクトリをユーザがあらかじめ指定しておく
と、当該文書管理装置は、そのディレクトリ上での文書
の登録,更新,削除を常に監視し、文書の登録,更新,
削除が行われた場合には、同じ操作を自動的に文字成分
表に反映させ、登録,更新,削除を行う。このようにす
ることで、ユーザの文書操作の負担を軽減することがで
きる。
As is apparent from the above description, the present invention has the following effects. (1) Effects corresponding to claims 1 and 2: Document registration means for storing a registered document and registering and recording a value calculated from each character or two consecutive characters included in the registered document in a character component table. And a document search means for quickly searching for a document satisfying the search condition using the character component table, the configuration of the character component table can be changed by designating the character component table entry, and a plurality of registered documents can be stored. Since it is possible to manage by dividing into folders and the character component table entry can be specified for each folder and the structure of the character component table can be changed according to the purpose, an efficient document management system can be constructed. (2) Effects corresponding to claims 3, 4 and 5: When there are two or more identical character components extracted from a single character string by the document search means, for the character components in the character component table Access is performed only once, and a value calculated from a continuous character string of three or more characters is also used in the calculation of the character component. When using a value calculated from a character string of three or more characters,
Since a value calculated from a character or two consecutive characters is not registered in the character component table, even if the search character string is long, the document can be searched at high speed. (3) Effects corresponding to claims 6, 7 and 8: In the document searching means, a single character string or a plurality of character strings is A
It is possible to process search conditions combined with an ND or OR logical operator, and there are two or more identical character components extracted from two character strings combined by an AND logical operator in the document searching means. In this case, the character components in the character component table are accessed only once, and the document retrieval means further combine them by OR logical operators.
When there are two or more identical character components extracted from one character string, the character component in the character component table is accessed only once . Since the search condition can be expressed by combining a plurality of character strings with logical operators (AND, OR), it is possible to express a complicated search request. In addition, since optimization is performed according to the logical operator, documents can be searched at high speed. (4) Effects corresponding to claims 9, 10, and 11: The character component table is recorded with a data file composed of two types of blocks, large and small, for storing the character component table, and a block position for each character component. It has a block merging means for storing a plurality of small blocks into a large block, which is stored by an index file, and in the block merging means, a large block is grouped in front of the data file and a small block is grouped in the rear, In the block merging means, only the area where a small block of the data file exists is targeted for block merging, and two sizes, large and small, are prepared for the size of the block for storing the bitmap data of the character component table. Both search speed can be increased. (5) Effect corresponding to claim 12: In the block merging means, each character component table entry divided into a plurality of fixed length blocks is large in order to read the character component table entry from the secondary storage at high speed at the time of retrieval. When a large fixed-length block is used as a unit of allocation when it is grouped into fixed-length blocks, a large fixed-length block that has been put together and a large fixed-length block that is packed with the remaining small fixed-length blocks that have not been put together can be written out in order. Processes the data of the composition table in one scan, speeds up and minimizes the secondary storage area required at the time of processing, and improves the search speed by combining blocks with small character entries into large blocks. To do. (6) Effects corresponding to claims 13 to 15: A bit of a specific bitmap is sequentially examined in the horizontal direction, and when the bit is 1, the corresponding bit of another bitmap entry is examined. That is, the bits are examined in the vertical direction, and if all the bits are 1, the document corresponding to the bits is the document as the search result. Further, the number of appearances of bit 1 appearing in each character entry is counted in advance, the bits are rearranged in the ascending order of the number of appearances of the bits at the time of the above-described processing for checking the bits, and the same processing is performed, so that the data to be referred to further. It is possible to reduce the amount. Further, when only a part of the character entry is referred to, the corresponding block can be directly obtained from the block table without accessing all the blocks, and the search can be performed at high speed. As described above, in the related art, the character entry is frequently accessed and the search speed is lowered. However, the search speed is improved by changing the algorithm and the data structure of the processing at the time of search. (7) Effects corresponding to claims 16 to 19: When the composition of the character component table is to record a value calculated from each character and two consecutive characters of the document, the character retrieving means retrieves the retrieval character string. Only a value calculated from two consecutive characters is extracted, and the value calculated by the document search means from two consecutive characters from the search character string and one value at the end of the search character string are calculated. A value is extracted, and a value calculated from two consecutive characters from the search character string and a value calculated from one character at the beginning of the search character string are extracted. When a value calculated from a character string of three or more characters is also used, when the document search unit extracts the character entry from the search character string, one character included in the character string corresponding to the character string entry or The character string Since so as not to extract the value calculated from the two characters in the string, including the front and rear of the characters, to reduce the number of entries to be extracted from the search string in the search process can speed up the search process. (8) Effects corresponding to claims 20 and 21: A search in which the document search means combines a single character string or a plurality of character strings with "logical product", "logical sum" or "logical difference" logical operators Since the condition can be processed and the character string on the rear side is not processed in the processing of the two character strings that are combined by the "logical difference" in the document search means, the search condition is set to a plurality of character strings. Logical operators (AND, OR, NO
Since it can be expressed as a combination in T), it is possible to express a complicated search request. In addition, since optimization is performed according to the logical operator, documents can be searched at high speed. (9) Effect corresponding to claim 22: In the conventional method, when the character component table data is in the secondary storage, the secondary storage is accessed every time one document is registered, and the speed is increased. Although it will be late, according to the present invention, for the document to be collectively registered, the character component table is temporarily generated and registered in the memory, and then the character component table data in the memory is secondarily stored at the end of the process. Append to the above document composition table data. By doing so, the access to the secondary storage is reduced, and the batch registration of a plurality of documents can be performed at high speed. (10) Effect corresponding to claim 23: The directory path name on the file system of the external original document is managed by the document management device, and the external file is directly referenced based on the directory path name. Since it is referred to, the system of the device does not need to have the original data inside, the secondary storage is not wastefully used, and the registered document can be referred to by the user or other application without going through the system. It will be possible. (11) Effect corresponding to claim 24: Similar to the above, when managing the directory path name, all the documents in the directory and its subordinate directories are registered, so that the user usually writes the original document. When it is placed on the file system to be used, it becomes possible to make a system in which the documents existing in one directory hierarchy are managed by the document management device as they are. In addition, by specifying a directory, you can automatically register all the documents included in that directory or the subordinate directories, so that all the documents in the directory can be registered individually. It is possible to reduce the burden on the conventional user, which had to be designated by one user. (12) Effect corresponding to claim 25: When a user previously designates a directory in which a document to be registered is placed, the document management apparatus constantly monitors the registration, update, and deletion of the document in the directory, Document registration, update,
When deletion is performed, the same operation is automatically reflected in the character component table, and registration, update and deletion are performed. By doing so, it is possible to reduce the burden of the document operation on the user.

Claims (25)

【特許請求の範囲】[Claims] 【請求項1】 登録文書を保存するとともに、該登録文
書に含まれる各文字あるいは連続する2文字から算出さ
れる値を文字成分表に登録し記録する文書登録手段と、
前記文字成分表を用いて検索条件に該当する文書を高速
に探し出す文書検索手段とを有し、文字成分表エントリ
指定により前記文字成分表の構成を変更可能とすること
を特徴とする文書管理装置。
1. A document registration means for storing a registered document and for registering and recording a value calculated from each character or two consecutive characters contained in the registered document in a character component table.
A document management device comprising: a document search unit that searches for a document satisfying a search condition at high speed by using the character component table, and is capable of changing the configuration of the character component table by designating a character component table entry. .
【請求項2】 前記登録文書を複数のフォルダに分割し
て管理可能で、かつフォルダごとに文字成分表エントリ
指定のできることを特徴とする請求項1記載の文書管理
装置。
2. The document management apparatus according to claim 1, wherein the registered document can be managed by being divided into a plurality of folders, and a character component table entry can be designated for each folder.
【請求項3】 前記文書検索手段で単一の文字列から抽
出される文字成分に同一のものが2個以上ある場合、前
記文字成分表の文字成分に対するアクセスを一回しか行
わないことを特徴とする請求項1記載の文書管理装置。
3. When the document retrieval means extracts two or more identical character components extracted from a single character string, the character component of the character component table is accessed only once. The document management device according to claim 1.
【請求項4】 文字成分の算出値として、連続する3文
字以上の文字列から算出される値をも用いることを特徴
とする請求項1記載の文書管理装置。
4. The document management apparatus according to claim 1, wherein a value calculated from a continuous character string of three or more characters is also used as the calculated value of the character component.
【請求項5】 文書登録時の文字成分の算出において、
連続する3文字以上の文字列から算出される値を用いる
場合には、該文字列から1文字あるいは連続する2文字
から算出される値を文字成分表に登録しないことを特徴
とする請求項4記載の文書管理装置。
5. When calculating a character component at the time of document registration,
5. When using a value calculated from a continuous character string of three or more characters, the value calculated from one character or two continuous characters from the character string is not registered in the character component table. Document management device described.
【請求項6】 前記文書検索手段において、単一の文字
列あるいは複数の文字列をAND論理演算子あるいはO
R論理演算子で組み合わせた検索条件を処理可能とする
ことを特徴とする請求項1記載の文書管理装置。
6. The document search means uses an AND logical operator or O for a single character string or a plurality of character strings.
2. The document management device according to claim 1, wherein the search conditions combined by the R logical operator can be processed.
【請求項7】 前記文書検索手段でAND論理演算子で
結合される2つの文字列から抽出される文字成分に同一
のものが2個以上ある場合、文字成分表の文字成分に対
するアクセスを一回しか行わないことを特徴とする請求
項6記載の文書管理装置。
7. When the document retrieval means has two or more identical character components extracted from two character strings combined by an AND logical operator, the character component of the character component table is accessed once. The document management apparatus according to claim 6, wherein the document management apparatus performs only that.
【請求項8】 前記文書検索手段でOR論理演算子で結
合される2つの文字列から抽出される文字成分に同一の
ものが2個以上ある場合、文字成分表の文字成分に対す
るアクセスを一回しか行わないことを特徴とする請求項
6記載の文書管理装置。
8. When the document retrieval means has two or more identical character components extracted from two character strings combined by an OR logical operator, the character component of the character component table is accessed once. The document management apparatus according to claim 6, wherein the document management apparatus performs only that.
【請求項9】 前記文字成分表を、該文字成分表を保存
する大小2種類のブロックから構成されるデータファイ
ルと、文字成分ごとのブロック位置を記録するインデッ
クスファイルによって記憶し、複数の小さいブロックを
大きいブロックにまとめるブロック融合手段を有するこ
とを特徴とする請求項1記載の文書管理装置。
9. The character component table is stored by a data file composed of two types of blocks, large and small, for storing the character component table and an index file for recording block positions for each character component, and a plurality of small blocks are stored. 2. The document management apparatus according to claim 1, further comprising a block merging unit that collects blocks into large blocks.
【請求項10】 前記ブロック融合手段において、デー
タファイルの前方に大きいブロックをまとめ、後方に小
さいブロックをまとめることを特徴とする請求項9記載
の文書管理装置。
10. The document management apparatus according to claim 9, wherein the block merging unit collects large blocks in front of the data file and small blocks in rear of the data file.
【請求項11】 前記ブロック融合手段において、デー
タファイルの小さいブロックが存在する領域のみをブロ
ック融合の対象とすることを特徴とする請求項10記載
の文書管理装置。
11. The document management apparatus according to claim 10, wherein in the block merging means, only a region of a data file in which a small block exists is an object of block merging.
【請求項12】 前記ブロック融合手段において、検索
時に高速に文字成分表エントリを二次記憶から読み出す
ために、複数の固定長ブロックに分割された各文字成分
表エントリを大きな固定長ブロックにまとめあげる時に
大きな固定長ブロックをアロケートの単位とし、まとめ
上げられた大きな固定長ブロック及びまとめあげられな
かった残りの小さな固定長ブロックを詰め込んだ大きな
固定長ブロックを順時書き出すことによって、文字成分
表のデータを一回のスキャンで処理し、高速にかつ処理
時に必要な二次記憶領域を最小限に抑えることを特徴と
する請求項9記載の文書管理装置。
12. The block merging means combines each of the character component table entries divided into a plurality of fixed length blocks into a large fixed length block in order to read the character component table entry from the secondary storage at a high speed at the time of retrieval. The large fixed-length block is used as the unit of allocation, and the large fixed-length blocks that are grouped together and the remaining small fixed-length blocks that cannot be combined are packed into the large fixed-length block. 10. The document management apparatus according to claim 9, wherein processing is performed by scanning once, and the secondary storage area required at the time of processing is minimized at high speed.
【請求項13】 大量の文書データを保持し、入力装置
から入力された検索文字列を含む文書を検索し、出力装
置により検索した文書を出力する文書管理装置であっ
て、文書登録時に文書より各文字コード成分及び2文字
以上の隣接文字から抽出したビット列成分を抽出し、各
文書がそれぞれの成分を含むか否かを示す単一文字成分
表及び一つ以上の隣接文字成分表を生成し、該文字成分
表の可変長の各文字成分のエントルを複数の固定長ブロ
ックに分割して二次記憶に登録し、検索時には検索文字
列から登録時と同様に単一文字成分及び2文字以上の隣
接文字成分を抽出し、該隣接文字成分に対応する二次記
憶上の固定長ブロックを統合し、各文字エントリを生成
して文書を検索する文書管理装置において、仮に文字エ
ントリで文字成分が出現するビットを1とし、出現しな
いビットを0とした場合に、検索時に複数の文字エント
リのビットマップのAND処理を行う時に対象となる文
字エントリを一つ適当に選択し、ビット列をスキャンし
て値が1である時だけ他のエントリの対応するビットを
調べ、全てのエントリの対応するビットの値が1である
文書を検索結果とすることにより、文字エントリのビッ
トマップへのアクセスを最小限に全文検索を行うことを
特徴とする文書管理装置。
13. A document management device that holds a large amount of document data, searches for a document including a search character string input from an input device, and outputs the document searched by the output device, the document management device storing the document when the document is registered. A bit string component extracted from each character code component and two or more adjacent characters is generated, and a single character component table and one or more adjacent character component tables indicating whether or not each document includes each component are generated. The entropy of each variable-length character component of the character component table is divided into a plurality of fixed-length blocks and registered in the secondary memory, and a single character component and two or more adjacent characters are searched for from the search character string when searching. In a document management device that extracts character components, integrates fixed-length blocks in secondary storage corresponding to the adjacent character components, generates each character entry, and retrieves a document, the character component is temporarily output by the character entry. When the presenting bit is set to 1 and the non-appearing bit is set to 0, when the AND process of the bit maps of a plurality of character entries is performed at the time of searching, one target character entry is appropriately selected and the bit string is scanned. Only when the value is 1, the corresponding bits of other entries are checked, and the documents whose corresponding bits of all entries have a value of 1 are set as the search result, so that the access to the bitmap of the character entry is minimized. A document management device characterized by performing full-text search.
【請求項14】 文字エントリごとに該文字エントリに
出現する1のビットの個数をあらかじめ二次記憶に記録
しておき、検索時に複数の文字エントリのビットマップ
のAND処理を行う時に対象となる文字エントリのう
ち、該ビット出現数の最も少ない文字エントリを選択
し、ビット列をスキャンして値が1である時だけビット
出現数の少ない順に他の文字エントリの対応するビット
を調べ、全ての文字エントリの対応するビットの値が1
である文書を検索結果とすることにより、文字エントリ
のビットマップへのアクセスを最小限に抑え全文検索を
行うことを特徴とする請求項13記載の文書管理装置。
14. The number of 1-bits appearing in each character entry is recorded in a secondary storage in advance for each character entry, and the target character is used when ANDing bit maps of a plurality of character entries at the time of retrieval. Of the entries, the character entry with the smallest number of occurrences of the bit is selected, and when the bit string is scanned, the corresponding bits of other character entries are checked in the order of the smallest number of occurrences of the bit only, and all character entries The value of the corresponding bit of is 1
14. The document management apparatus according to claim 13, wherein the full text search is performed by minimizing the access to the bitmap of the character entry by using the document that is the search result as the search result.
【請求項15】 文字エントリの一部へのアクセスの場
合に、文字エントリの全ブロックを読み出す必要がない
ように、可変長の文字エントリのビットマップデータを
複数の固定長のブロックに分割して二次記憶に格納し、
各固定長のブロックを管理するブロックテーブルを二次
記憶上に有し、該ブロックテーブルから任意の固定長ブ
ロックをアクセスできるようにすることによって、必要
のない二次記憶上のブロックへのアクセスを減らして全
文検索を行うことを特徴とする請求項13記載の文書管
理装置。
15. The variable-length character entry bitmap data is divided into a plurality of fixed-length blocks so that it is not necessary to read the entire block of the character entry when accessing a part of the character entry. Stored in secondary memory,
By having a block table that manages each fixed-length block on the secondary storage, and making it possible to access any fixed-length block from the block table, it is possible to access unnecessary blocks on the secondary storage. 14. The document management device according to claim 13, wherein the full-text search is performed with a reduced number.
【請求項16】 登録文書を保存するとともに、該登録
文書に含まれる各文字あるいは連続する2文字から算出
される値を文字成分表に登録し記録する文書登録手段
と、前記文字成分表を用いて検索条件に該当する文書を
高速に探し出す文書検索手段とを有し、前記文字成分表
エントリ指定により文字成分表の構成を変更可能とし、
前記文字成分表の構成を文書の各文字および連続する2
文字から算出される値を記録するものとした場合、前記
文字検索手段が検索文字列から連続する2文字から算出
される値のみを抽出することを特徴とする文書管理装
置。
16. A document registration means for storing a registered document and registering and recording a value calculated from each character or two consecutive characters contained in the registered document in a character component table, and the character component table. And a document search means for quickly searching for a document corresponding to the search condition, and the structure of the character component table can be changed by designating the character component table entry.
The composition of the character component table is set for each character of the document and two consecutive characters.
A document management apparatus, wherein when a value calculated from a character is recorded, the character search means extracts only a value calculated from two consecutive characters from a search character string.
【請求項17】 前記文書検索手段が、検索文字列から
の連続する2文字から算出される値と、該検索文字列の
末尾の1文字から算出される値を抽出することを特徴と
する請求項16記載の文書管理装置。
17. The document search means extracts a value calculated from two consecutive characters from the search character string and a value calculated from one character at the end of the search character string. Item 16. The document management device according to item 16.
【請求項18】 前記文書検索手段が、検索文字列から
の連続する2文字から算出される値と、該検索文字列の
先頭の1文字から算出される値を抽出することを特徴と
する請求項16記載の文書管理装置。
18. The document search means extracts a value calculated from two consecutive characters from a search character string and a value calculated from one character at the beginning of the search character string. Item 16. The document management device according to item 16.
【請求項19】 前記文字成分表の構成を連続する3文
字以上の文字列から算出される値をも用いる場合、前記
文書検索手段が、検索文字列から前記文字エントリが抽
出される時には、該文字列エントリに対応する文字列に
含まれる1文字あるいは前記文字列にその前後の文字を
含めた文字列に含まれる2文字から算出される値を抽出
しないことを特徴とする請求項18記載の文書管理装
置。
19. When using a value calculated from a continuous character string of three or more characters in the structure of the character component table, when the character search unit extracts the character entry from the search character string, 19. The value calculated from one character included in a character string corresponding to a character string entry or two characters included in a character string including characters before and after the character string is not extracted. Document management device.
【請求項20】 前記文書検索手段が、単一の文字列あ
るいは複数の文字列を「論理積」,「論理和」あるいは
「論理差」論理演算子で組み合わせた検索条件を処理可
能なことを特徴とする請求項16記載の文書管理装置。
20. The document search means is capable of processing a search condition in which a single character string or a plurality of character strings are combined by “logical product”, “logical sum” or “logical difference” logical operators. The document management apparatus according to claim 16, wherein the document management apparatus is a document management apparatus.
【請求項21】 前記文書検索手段で「論理差」で結合
される2つの文字列の処理において、後側の文字列を処
理しないことを特徴とする請求項20記載の文書管理装
置。
21. The document management apparatus according to claim 20, wherein when processing two character strings that are combined by "logical difference" in the document search means, a character string on the rear side is not processed.
【請求項22】 前記文書登録手段が、多数の文書を一
括して登録する場合に、一文書を登録するごとに生成さ
れた文字成分表データを直接二次記憶上の文字成分表に
書き込むのではなく一旦メモリ上に登録し、その後、一
括してメモリ上の文字成分表データを二次記憶の文字成
分表に書き出すことによって、高速に文書の一括登録を
行うことを特徴とする請求項1記載の文書管理装置。
22. The document registration means, when registering a large number of documents at once, writes the character component table data generated each time one document is registered, directly into the character component table on the secondary storage. 2. The document is collectively registered at high speed by temporarily registering it in the memory, and then writing out the character component table data in the memory to the character component table of the secondary storage collectively. Document management device described.
【請求項23】 前記文書登録手段により登録されたフ
ァイルシステム上の登録文書のディレクトリパス名を二
次記憶上で管理し、文書内容を参照する場合には、登録
したディレクトリパス名を基に直接ファイルシステム上
のオリジナルデータを参照することによって、文書管理
システムが内部にオリジナルデータを持つ必要がないだ
けでなく、ユーザや他のアプリケーションによる登録文
書の参照を容易にすることを特徴とする請求項1記載の
文書管理装置。
23. A directory path name of a registered document on a file system registered by the document registration means is managed on a secondary storage, and when referring to document contents, the directory path name is directly based on the registered directory path name. By referring to the original data on the file system, not only the document management system does not need to have the original data in the document management system, but also the user or other application can easily refer to the registered document. 1. The document management device according to 1.
【請求項24】 前記文書登録手段により登録されたフ
ァイルシステム上の登録文書のオリジナルデータのディ
レクトリパス名を管理し、文書内容を参照する場合に
は、登録したディレクトリパス名を基に直接ファイルシ
ステム上のオリジナルデータを参照するようにし、文書
の登録時にディレクトリを指定し、そのディレクトリ内
およびその下位ディレクトリの文書をすべて登録するこ
とにより、複数の文書の登録時の文書指定を容易にする
ことを特徴とする請求項1記載の文書管理装置。
24. When managing the directory path name of the original data of the registered document on the file system registered by the document registration means and referring to the document contents, the file system is directly based on the registered directory path name. By making reference to the original data above, specifying a directory when registering a document, and registering all documents in that directory and its subordinate directories, it is possible to easily specify a document when registering multiple documents. The document management apparatus according to claim 1, wherein the document management apparatus is a document management apparatus.
【請求項25】 前記文書登録手段により登録されたフ
ァイルシステム上の登録文書のオリジナルデータのディ
レクトリパス名を管理し、文書内容を参照する時には、
登録したディレクトリパス名を基に直接ファイルシステ
ム上のオリジナルデータを参照するようにし、あらかじ
め登録対象とするディレクトリを指定しておき、そのデ
ィレクトリ上での文書の登録,更新,削除を常に監視
し、文書の登録,更新,削除があった場合には、自動的
に当該の文書について文字成分表に登録,更新,削除を
行うことによって、ユーザの文書管理の手間を削減する
ことを特徴とする請求項1記載の文書管理装置。
25. When the directory path name of the original data of the registered document on the file system registered by the document registration means is managed and the document contents are referred to,
Directly refer to the original data on the file system based on the registered directory path name, specify the directory to be registered in advance, always monitor the registration, update, and deletion of documents in that directory, When a document is registered, updated or deleted, the document is automatically registered, updated or deleted in the character component table to reduce the user's time and effort for managing the document. The document management device according to item 1.
JP12137095A 1994-06-02 1995-05-19 Document management device Expired - Fee Related JP3563823B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP12137095A JP3563823B2 (en) 1994-06-02 1995-05-19 Document management device

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP12138594 1994-06-02
JP6-121385 1994-10-05
JP6-241658 1994-10-05
JP24165894 1994-10-05
JP12137095A JP3563823B2 (en) 1994-06-02 1995-05-19 Document management device

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2004010938A Division JP3565840B2 (en) 1994-06-02 2004-01-19 Document management method and document management device

Publications (2)

Publication Number Publication Date
JPH08161357A true JPH08161357A (en) 1996-06-21
JP3563823B2 JP3563823B2 (en) 2004-09-08

Family

ID=27314232

Family Applications (1)

Application Number Title Priority Date Filing Date
JP12137095A Expired - Fee Related JP3563823B2 (en) 1994-06-02 1995-05-19 Document management device

Country Status (1)

Country Link
JP (1) JP3563823B2 (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1040256A (en) * 1996-07-19 1998-02-13 Ricoh Co Ltd Document managing system
JPH11110413A (en) * 1997-07-25 1999-04-23 Kuraritec Corp Method and device for generating data base retrieved result
JP2006179019A (en) * 2006-01-16 2006-07-06 Ricoh Co Ltd Document retrieval device
JP2012216088A (en) * 2011-03-31 2012-11-08 Fujitsu Ltd Extraction method, extraction program, extraction system, information generation method, information generation program, and information content
WO2016001991A1 (en) * 2014-06-30 2016-01-07 株式会社日立製作所 Search method
JP2018067264A (en) * 2016-10-21 2018-04-26 富士通株式会社 Data search program, data search device, and data search method

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05174064A (en) * 1991-12-25 1993-07-13 Hitachi Ltd Method and device for document retrieval
JPH06290217A (en) * 1993-03-31 1994-10-18 Ricoh Co Ltd Document retrieval system
JPH06309360A (en) * 1993-04-21 1994-11-04 Hitachi Ltd Full-text searching method matching process of negation condition

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05174064A (en) * 1991-12-25 1993-07-13 Hitachi Ltd Method and device for document retrieval
JPH06290217A (en) * 1993-03-31 1994-10-18 Ricoh Co Ltd Document retrieval system
JPH06309360A (en) * 1993-04-21 1994-11-04 Hitachi Ltd Full-text searching method matching process of negation condition

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1040256A (en) * 1996-07-19 1998-02-13 Ricoh Co Ltd Document managing system
JPH11110413A (en) * 1997-07-25 1999-04-23 Kuraritec Corp Method and device for generating data base retrieved result
JP2006179019A (en) * 2006-01-16 2006-07-06 Ricoh Co Ltd Document retrieval device
JP2012216088A (en) * 2011-03-31 2012-11-08 Fujitsu Ltd Extraction method, extraction program, extraction system, information generation method, information generation program, and information content
WO2016001991A1 (en) * 2014-06-30 2016-01-07 株式会社日立製作所 Search method
JPWO2016001991A1 (en) * 2014-06-30 2017-04-27 株式会社日立製作所 retrieval method
JP2018067264A (en) * 2016-10-21 2018-04-26 富士通株式会社 Data search program, data search device, and data search method

Also Published As

Publication number Publication date
JP3563823B2 (en) 2004-09-08

Similar Documents

Publication Publication Date Title
US11899641B2 (en) Trie-based indices for databases
US5732402A (en) System and method for data space management using buddy system space allocation
US5548751A (en) Dynamic data storage system allowing variable size records and fields by using linked record segments
US6658437B1 (en) System and method for data space allocation using optimized bit representation
US5799184A (en) System and method for identifying data records using solution bitmasks
KR100337216B1 (en) Virtual uncompressed cache for compressed main memory
US7783855B2 (en) Keymap order compression
JP3771271B2 (en) Apparatus and method for storing and retrieving ordered collections of keys in a compact zero complete tree
US4991087A (en) Method of using signature subsets for indexing a textual database
US5274805A (en) Method of sorting and compressing data
US5201048A (en) High speed computer system for search and retrieval of data within text and record oriented files
EP0702310B1 (en) Data retrieval system, data processing system, data retrieval method, and data processing method
US8037035B2 (en) Apparatus for searching and managing compressed files
EP1866776B1 (en) Method for detecting the presence of subblocks in a reduced-redundancy storage system
JP4646624B2 (en) Store and query relational data in a compressed storage format
US5613110A (en) Indexing method and apparatus facilitating a binary search of digital data
US5913209A (en) Full text index reference compression
EP0627697B1 (en) Indexing/compression scheme for supporting graphics and data selection
Lomet A simple bounded disorder file organization with good performance
US5481704A (en) Indexing/compression scheme for supporting graphics and data selection
JPH08161357A (en) Document control system
JP3565840B2 (en) Document management method and document management device
JP6006740B2 (en) Index management device
JP2007048318A (en) Relational database processing method and relational database processor
Zobel et al. Storage Management for Files of Dynamic Records.

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040601

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040604

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080611

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090611

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090611

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100611

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees