JPH09114854A - 文書検索システム - Google Patents

文書検索システム

Info

Publication number
JPH09114854A
JPH09114854A JP7273010A JP27301095A JPH09114854A JP H09114854 A JPH09114854 A JP H09114854A JP 7273010 A JP7273010 A JP 7273010A JP 27301095 A JP27301095 A JP 27301095A JP H09114854 A JPH09114854 A JP H09114854A
Authority
JP
Japan
Prior art keywords
bitmap
document
keyword
unit
bit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7273010A
Other languages
English (en)
Inventor
Tadahiko Kadowaki
忠彦 門脇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
D I S KK
Original Assignee
D I S KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by D I S KK filed Critical D I S KK
Priority to JP7273010A priority Critical patent/JPH09114854A/ja
Publication of JPH09114854A publication Critical patent/JPH09114854A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】本発明は、文書検索用のインデックスファイル
の作成時間の短縮とインデックスファイルの縮小化とを
図ると共に、検索時間の短縮化を図り、作業効率の向上
を図ることを課題とする。 【解決手段】新規の文書を登録する際に、この文書から
キーワードを検出するキーワード検出手段と、キーワー
ド検出手段によって検出された各キーワードの文字コー
ド値に2つの異なる演算処理を行い、2つのビット値を
算出する演算処理手段と、演算処理手段が算出した2つ
のビット値を列値と行値とする位置にフラグをセットし
たビットマップを作成するビットマップ作成手段と、演
算処理手段が作成したビットマップを格納するビットマ
ップ格納手段と、ビットマップ格納手段における各ビッ
トマップのアドドレスの個々の文書を特定する文書識別
情報毎に格納する文書位置登録手段とを備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、複数の文書の中か
ら任意のキーワードを含む文書を検索する文書検索シス
テムに関する。
【0002】
【従来の技術】家庭やオフィス等におけるOA機器の普
及率は顕著であり、特にオフィス内では、社員一人に一
台のコンピュータ端末が分配されるようになっている。
しかし、ビジネス情報を、個々の端末で独立に管理した
のでは、データ量の増加に対してメモり容量が不足する
虞があると共に、各端末間におけるデータ内容の整合性
をとるのが困難であり、端末毎にデータ内容が異なって
しまう虞があった。そこで、最近では、オフィス内の端
末をLAN(Local Area New-work)等の通信網により統
合したシステムを利用するようになってきている。この
ようなシステムでは、ビジネス情報を統合した社員共有
のデータベースを、ネットワークに接続することによ
り、各端末からデータベースに対して、自由にアクセス
することができるようになっている。従って、個々の端
末のメモリに大量のデータを格納する必要がなくなると
共に、端末間でデータの整合性をとる手間を省くことが
でき、作業の高効率化を図ることができる。
【0003】一方、上記のようなシステムを利用した場
合には、各社員は、データベース内に格納された大量の
文書群の中から目的の文書を探し出さなければならな
い。このような場合に、従来では目的の文書に含まれる
キーワードによって、データベースを検索する方法が取
られている。この検索方法では、キーワードと、キーワ
ードを含む文書の文書名と、アドレスとを登録したイン
デックスファイルを設け、このインデックスファイル
を、キーワードで検索することにより、キーワードを含
む全ての文書の文書名を検出する。さらに、検出された
文書名のリストを、端末のCRT等から画面表示する。
【0004】ところで、上記のようなフリーワード検索
システムでは、新規の文書を登録する際にインデックス
ファイルの作成に時間がかかるという問題がある。特
に、複数のユーザが同時に文書を登録する場合には、多
大な時間がかかってしまう。また、キーワードによる文
書の検索についても複数のユーザが同時に検索を行う場
合には、多大な時間がかかるという問題がある。さら
に、文書数の増加にともないインデックスファイルも大
きくなるため、インデックスファイルがメモリ領域を占
有してしまい、新規文書の登録が難しくなる。
【0005】
【発明が解決しようとする課題】そこで、本発明は、前
記問題点に鑑みてなされたものであり、文書検索用のイ
ンデックスファイルの作成時間の短縮化、インデックス
ファイルの小型化、及び検索時間の短縮化を図ることに
より、作業効率を向上させることを課題とする。
【0006】
【課題を解決するための手段】本発明は、上記課題を解
決するために以下のような手段を採用している。まず、
本発明では、インデックスファイルに相当するデータを
ビットマップ形式で作成し、インデックスファイルの縮
小化とインデックスファイル作成の高速化を図るように
している。すなわち、本発明の文書検索システムは、キ
ーワード検出手段、演算処理手段、ビットマップ作成手
段、ビットマップ格納手段、及び文書位置登録手段を備
えている。
【0007】キーワード検出手段は、新規の文書を登録
する際に、この文書からキーワードとなる文字列を検出
する。演算処理手段は、キーワード検出手段によって検
出された各文字列のデータ値に対して、少なくとも2つ
の異なる演算処理を施して、少なくとも2つの数値を算
出する。具体的には、演算処理としては、例えば、少な
くとも2つのハッシュ関数に、文字列のデータ値を代入
して、少なくとも2つの数値を算出する。
【0008】ビットマップ作成手段は、演算処理手段に
より算出された数値によって決定される位置にフラグが
セットされたビットマップを作成する。このビットマッ
プは、各文書毎に作成される。従って、各ビットマップ
には、文書内から検出された全てのキーワードについ
て、フラグがセットされることになる。フラグの位置を
決定する方法としては、各キーワードのデータ値に対し
て、異なる2つの演算処理を施すことにより、2つの数
値を算出する。そして、算出された2つの数値のうち、
一方の数値をビットマップの列数とし、他方の数値をビ
ットマップの行数とすることにより、ビットマップ上で
唯一つのビット位置を特定することができる。
【0009】ビットマップ格納手段は、ビットマップ作
成手段によって作成されたビットマップを格納するもの
である。このビットマップ格納手段は、例えば、所定の
大きさを有するメモリ領域を1ページとして管理するよ
うにし、各ページには複数のビットマップを格納するよ
うにしてもよい。この場合、ビットマップ格納手段は、
1ページ分のメモリ領域が一杯になると、同じ大きさの
メモリ領域を新たに確保し、この領域に新規のビットマ
ップを書き込むようにする。
【0010】次に、本発明の文書検索システムは、検索
処理を行うために以下のような構成要素を備えるように
しても良い。すなわち、文書検索システムは、上記の構
成要素に加え、ビット値演算手段、マップ位置検出手
段、文書検出手段とを備える。
【0011】ビット値演算手段は、ユーザが入力したキ
ーワードについて演算処理手段と同一の演算処理を施
し、少なくとも2つの数値を算出する。ビットマップ位
置検出手段は、ビットマップ格納手段を検索して、ビッ
ト値算出手段によって算出された2つの数値により決定
されるビット位置にフラグがセットされているビットマ
ップを判別し、そのビットマップが格納されている位置
を検出する。尚、ビットマップ格納手段が所定の大きさ
を有するメモリ領域を1ページとして管理する場合に
は、各ページ毎にフラグの検索を行うものとする。
【0012】文書検出手段は、文書位置登録手段を検索
して、ビットマップ検出手段によって検出された位置情
報に対応して登録されている文書識別情報を検出する。
ここで、ビットマップ格納手段は、各ビットマップを圧
縮して格納するようにしてもよい。圧縮方法は、例え
ば、ビットマップの列数のみを2のべき乗で圧縮する方
法がある。圧縮率は、圧縮後のビットマップにおいて、
フラグがセットされたビットの数が全体のビット数の1
0%を超えない程度にすることが好ましい。但し、圧縮
後のビットマップの大きさは、各文書毎に異なっていて
も構わないものとする。さらに、この方法を用いる場合
には、ビットマップ格納手段のメモリ領域の行数(1行
のビット数)と、ビットマップの行数とを同一にするこ
とが前提となる。そして、各メモリ領域の0列から順に
圧縮後のビットマップを格納していき、領域が一杯にな
ると次ページの領域の0列からビットマップを格納して
いく。
【0013】さらに、キーワード検出手段は、文書内か
らひらがな、スペース、句読点以外の二文字以上連続し
た文字列をキーワードとして検出するようにしてもよ
い。また、演算処理手段は、文字列分割部と演算部とを
具備するようにしてもよい。
【0014】文字列分割部は、キーワード検出手段によ
って検出された文字列を、特定文字数の単語に分解す
る。具体的には、例えば、キーワード検出手段によって
文字列「全文検索」が検出された場合には、文字列分解
部は、「全文検索」を2文字(4バイト)単位に区切
り、「全文」、「文検」、「検索」に分解する。
【0015】演算部は、文字列分解部によって分解され
た各単語のデータ値に対して、少なくとも2つの異なる
演算処理を施して、少なくとも2つの数値を算出する。
具体的には、例えば、文字列分解部によってキーワード
が2文字単位に分解された場合には、演算部は、2つの
ハッシュ関数Aとハッシュ関数Bとを有し、2文字から
なる単語の先頭の1文字(2バイト)と後尾の1文字
(2バイト)とをハッシュ関数Aに代入して一つ目の数
値を算出する。さらに、演算部は、単語の先頭の1文字
(2バイト)と後尾の1文字(2バイト)とをハッシュ
関数Bに代入して2つ目の数値を算出する。これによ
り、異なる2つの数値が得られることになる。
【0016】以下、本発明の作用について述べる。先
ず、新規の文書を本システム内に登録する場合には、キ
ーワード検出手段が文書内からキーワードとしての文字
列を検出し、検出された文字列を演算処理手段に通知す
る。
【0017】演算処理手段は、各文字列のデータ値に対
して、演算処理を施して、少なくとも2つの数値を算出
する。ビットマップ作成手段は、前記文書に割り当てら
れたビットマップにおいて、演算処理手段によって算出
された数値により決定される位置に、フラグをセットす
る。そして、ビットマップ作成手段は、前記文書の全て
のキーワードについてフラグをセットし終わると、その
ビットマップをビットマップ格納手段に格納する。
【0018】ここで、ビットマップ格納手段において、
前記ビットマップが格納されている位置と、前記文書の
文書識別情報とを文書位置登録手段に登録する。このよ
うに、従来のインデックスファイルに相当するビットマ
ップ格納手段と文書位置登録手段とをビットマップ形式
で構成することにより、登録内容を縮小かすることがで
きる。さらに、圧縮手段によりビットマップを圧縮する
ことにより、登録データはより縮小化されることにな
る。
【0019】次に、任意のキーワードにより文書検索を
行う場合には、ビット値算出手段は、キーワードのデー
タ値に対して、演算処理手段の演算部と同一の演算処理
を施して、少なくとも2つの数値を算出する。算出され
た数値は、ビットマップ位置検出手段へ通知される。
【0020】ビットマップ位置検出手段は、ビットマッ
プ格納手段を検索して、ビット値算出手段によって算出
された数値によって決定される位置にフラグがセットさ
れているビットマップを判別する。さらに、ビットマッ
プ位置検出手段は、判別されたビットマップが格納され
ている位置を検出する。
【0021】文書検出手段は、ビットマップ位置検出手
段によって検出された位置情報に基づいて、文書位置登
録手段を検索し、前記位置に対応して格納されている文
書識別情報を読み出す。
【0022】このシステムによれば、従来では膨大な大
きさのインデックスファイルを検索しなければならなか
ったのに対し、縮小化されたビットマップ格納手段を検
索すればよくなり、検索時間を大幅に短縮することがで
きる。
【0023】
【発明の実施の形態】以下、本発明の実施形態について
図面に沿って説明する。図1は、本発明の文書検索シス
テムを適用するシステムの概略構成を示している。同図
に示すように、本実施形態では、複数の端末1をLAN
で接続したシステムを例に挙げて説明する。このシステ
ムでは、LANに全端末1が共有するデータベース2が
接続されている。このデータベース2にはデータベース
の保守を行う保守用端末3が接続されている。この保守
用端末3の内部構成を図2に示す。
【0024】保守用端末3は、CPU30、主記憶装置
(MM)31、キーボード32、CRT33、及びマウ
ス34をバスで接続して構成されている。尚、キーボー
ド32、キーボード33、及びマウス34は、各々入出
力装置I/Oを介してバスに接続されているものとす
る。さらに、バスには、インタフェースI/Fを介して
通信モデムが接続されており、この通信モデムはLAN
に接続されている。
【0025】主記憶装置(MM)31には、CPU30
が実行すべきアプリケーションプログラムと種々のデー
タが格納されている。この具体例を図3に示す。同図に
示すように、主記憶装置(MM)31には、アプリケー
ションプログラム300と、ビットマップ格納部301
と、ビットマップ格納位置登録テーブル302とが登録
されている。
【0026】ビットマップ格納部301には、データベ
ースに格納されている文書のインデックス情報をビット
マップ形式で表したものを格納している。ここで、ビッ
トマップは、各文書毎に割り当てられるものとし、その
大きさは、図4に示すように、1024行のビット数×
(1〜1024列のビット数)からなる。そして、この
ビットマップにインデックスデータが登録されることに
なる。尚、ビットマップの列数は、各文書毎に1〜10
24ビットの範囲で変動する。そして、文書内の全ての
キーワードについてインデックスデータが登録されたビ
ットマップは、列数を圧縮されてビットマップ格納部3
01へ格納されることになる。ここで、ビットマップ格
納部301の構成を図5に示す。ビットマップ格納部3
01は、1024行のビット数と1024列のバイト数
とからなる領域を1ページとし、各ページには、圧縮さ
れたビットマップを複数格納している。ここで、ビット
マップは列数のみを圧縮されるので、ビットマップの行
数とビットマップ格納部301の行数とは同値になる。
そして、各文書のビットマップは先頭の列(0列)から
順に格納していく。ビットマップ格納部301は、1ペ
ージ目の領域が一杯になると、2ページ目の領域を確保
し、2頁目の先頭列から順にビットマップを格納してい
く。
【0027】ビットマップ位置登録テーブル302は、
本発明の文書位置登録手段の一実施例であり、個々の文
書を特定する文書ID毎に、ビットマップ格納部301
において各文書のビットマップが格納されているアドレ
スを登録している。具体的には、図6に示すように、ビ
ットマップ位置登録テーブル302は、ビットマップ格
納部301の各ページ毎に設けられ、各テーブルは、ビ
ットマップ格納部301の列数(1024)と同数のエ
ントリから構成されており、各エントリには、各エント
リに対応する列に格納されているビットマップの文書I
D(8バイト)と、各ビットマップの先頭列のビット値
(4バイト)と、各ビットマップが占有している列数
(以下、列サイズと記す)(4バイト)とを格納してい
る。さらに、各ページのビットマップ位置登録テーブル
302の先頭部分には、各ページの空き領域の列数を登
録したヘッダ領域が設けられている。例えば、図5にお
いて、1ページの第1列目から第3列目には、文書1の
ビットマップが格納されているので、ビットマップ位置
登録テーブル302の第1行目のエントリから第3行目
のエントリには、文書1の文書IDと先頭ビット列と列
サイズとが格納されている。ここで、文書1の先頭ビッ
ト列は“0ビット列”であるから、先頭ビット列情報と
して“00000000”が格納されている。また、文
書1の列サイズは、“3列”であるから、列サイズ情報
として“00000003”が格納されている。
【0028】次に、CPU30が主記憶装置(MM)3
1のアプリケーションプログラム300を実行すること
により実現される本発明の文書検索システムの機能別構
成について図7に沿って説明する。
【0029】本システムは、キーワード検出部4、演算
処理部5、ビットマップ作成部6、ビット値算出部7、
ビットマップ位置検出部8、及び文書検索部9を備えて
いる。
【0030】キーワード検出部4は、データベース2に
新規の文書を登録するときに、この文書内からキーワー
ドを検出する。尚、本実施形態では、キーワード検出部
4は、以下の規則に従ってキーワードの検出を行うもの
とする。
【0031】ひらがな、スペース、句読点以外の2文
字以上続く文字列を検出する。 英数字やカタカナ等の半角文字(1バイトコードで表
される文字)は、全て全角文字(2バイトコードで表さ
れる文字)に変換し、全角文字と半角文字とを同一視す
る。
【0032】濁音と半濁音付のカタカナを全角に変換
する場合には、2文字を全角1文字に変換する。 英大文字と英小文字とは別の文字として扱う。
【0033】上記の規則に従って検出された全てのキー
ワードは、演算処理部5へ通知される。演算処理部5
は、各キーワードの文字コード値に対して、異なる2つ
の演算処理を施し、2つのビット値を算出する。詳細に
は、演算処理部5は、文字列分解部と演算部(図示せ
ず)を有し、文字列分解部は、各キーワードを2文字
(4バイトコード)毎に区切る。例えば、キーワードが
「全文検索」である場合には、文字列分解部は、キーワ
ードを「全文」と「文検」と「検索」との3つの単語に
分解する。そして、演算部は、文字列分解部によって分
解された各単語について、異なる2つの演算処理を行
い、2つのビット値を算出する。そして、2つのビット
のうち一方のビット値をビットマップ上の行値とし、他
方のビット値をビットマップ上の列値としてビット位置
情報を生成する。
【0034】尚、本実施形態では、検索時のヒット率を
向上させるために、演算部は、各単語について二組のビ
ット位置情報を生成するようにしている。具体的には、
演算部は、先ず各単語の文字コード値について、以下の
数式1に従って演算処理を行う。
【0035】
【数1】mod([{(「単語の前の2ハ゛イトのコート゛値」
×1123)+(「単語の後ろの2ハ゛イトのコート゛値」×771
7)}×99999773],[1024×2048]) そして、演算部は、数式1の演算処理結果について特定
値(1024)で剰余演算を行い、その算出結果をビッ
トマップ上の行アドレスとする。そして、演算処理部5
は、数式1の演算処理結果について上記の特定値(10
24)で除算処理を行い、その算出結果をビットマップ
上の列アドレスとする。これらの行アドレスと列アドレ
スとにより、ビットマップ上の唯一つのビットが特定さ
れることになる。この行アドレスと列アドレスとを一組
目のビット位置情報とする。
【0036】続いて、演算部は、各単語について以下の
数式2に従って演算処理を行う。
【0037】
【数2】mod([{(「単語の前の2ハ゛イトのコート゛値」
×3347)+(「単語の後ろの2ハ゛イトのコート゛値」×557
3)}×99999773],[1024×2048]) そして、演算部は、数式2の演算処理結果について特定
値(1024)で剰余演算を行い、その算出結果をビッ
トマップ上の行アドレスとする。そして、演算処理部5
は、数式1の演算処理結果について上記の特定値(10
24)で除算処理を行い、その算出結果をビットマップ
上の列アドレスとする。これらの行アドレスと列アドレ
スとにより、ビットマップ上の唯一つのビットが特定さ
れることになる。これらの行アドレスと列アドレスとを
二組目のビット位置情報とする。
【0038】演算処理部5で生成された二組のビット位
置情報は、ビットマップ作成部6へ通知される。ビット
マップ作成部6は、演算処理部5から各単語について二
組のビット位置情報を受け取ると、主記憶装置(MM)
31上にビットマップのフォーマットを展開する。そし
て、ビットマップ作成部6は、展開されたフォーマット
上の、前記ビット位置情報により決定される2箇所のビ
ットにフラグ“1”をセットする。ビットマップ作成部
6は、ビットマップ上に、文書中の全てのキーワードに
ついて二組のフラグをセットし終わると、このビットマ
ップの列数のみを圧縮する。圧縮は、圧縮後のビットマ
ップのおいて、フラグがセットされているビットの数が
全体のビット数の10%程度になるように行う。例え
ば、200ビットにフラグがセットされた場合には、圧
縮後のビットマップの総ビット数が2000程度になれ
ばよい。そして、ビットマップの行値は1024ビット
数であるから、圧縮後のビットマップは列値は2ビット
あればよい(1024×2=2048)。ビットマップ
作成部6は、ビットマップの圧縮処理を終了すると、主
記憶装置(MM)31のビットマップ格納部301へビ
ットマップを格納する。このとき、ビットマップ作成部
6は、ビットマップ位置登録テーブル302のヘッダ情
報(空き情報)を参照し、ビットマップの大きさが空き
領域以下であるか否かを判別する。そして、ビットマッ
プが空き領域以下ならば、直前のビットマップが格納さ
れている最終列から本ビットマップを格納する。一方、
ビットマップが空き領域より大きい場合には、ビットマ
ップ作成部6は、新たに1ページ分のメモリ領域を確保
し、このメモリ領域の先頭部分から上記ビットマップを
格納する。
【0039】さらに、ビットマップ作成部6は、主記憶
装置(MM)31のビットマップ位置登録テーブル30
2に、登録した文書の文書IDと、ビットマップのアド
レスとを登録する。尚、新規のページを作成した場合に
は、このページに対応するビットマップ登録テーブル3
02を作成し、このテーブルに文書IDとアドレスとを
登録する。
【0040】ビット値算出部7は、キーワード検索を行
う際に起動される。つまり、任意の端末1からLANを
介してキーワード検索要求とキーワードとを受信したと
きに、受信されたキーワードについて、前述の演算処理
部5の演算部と同一の処理を実行し、二組のビット位置
情報を算出する。
【0041】ビットマップ位置検出部8は、ビット値算
出部7によって算出された二組のビット位置情報に基づ
いて、ビットマップ格納部301の各ページを検索し、
前記ビットマップ位置情報により決定される2箇所のビ
ットにフラグ“1”がセットされているビットマップを
判別する。そして、ビットマップ位置検出部8は、判別
されたビットマップのアドレスを検出する。
【0042】文書検索部9は、ビットマップ位置検出部
8によって検出された全てのアドレスについて、主記憶
装置(MM)31のビットマップ位置登録テーブル9を
参照し、各アドレスに対応して格納されている文書ID
を読み出す。そして、文書検索部9は、読み出された文
書IDのリストを通信モデム35を介して検索要求元の
端末1へ送信する。
【0043】以下、本実施形態における文書検索システ
ムの作用について述べる。まず、新規の文書をデータベ
ース2へ登録する場合のビットマップ作成処理について
図8に沿って説明する。
【0044】保守用端末3は、任意の端末1から文書登
録要求を受信すると(ステップ801)、キーワード検
出部4を起動する。キーワード検出部4は、登録すべき
文書からキーワードとなる文字列を検出し(ステップ8
02)、演算処理部5へ通知する。
【0045】演算処理部5の文字列分解部は、各キーワ
ードを2文字(4バイトコード)の単語に分割する(ス
テップ803)。演算処理部5の演算部は、文字列分解
部によって分解された各単語のコード値について二組の
ビット位置情報を算出し(ステップ804)、ビットマ
ップ作成部6へ通知する。
【0046】ビットマップ生成部6は、主記憶装置(M
M)31上にビットマップのフォーマットを展開し、こ
のフォーマット上の、前記ビットマップ位置情報により
決定される2箇所のビットにフラグ“1”をセットする
(ステップ805)。そして、文書内の全てのキーワー
ドについて二組のフラグをセットし終わると(ステップ
806)、フラグがセットされているビット数に応じて
ビットマップの列数を圧縮する(ステップ807)。
【0047】次に、ビットマップ作成部6は、主記憶装
置(MM)31のビットマップ位置登録テーブル302
を参照し、最終ページの空き領域の列数がビットマップ
の列サイズ以上の大きさを有しているか否かを判別する
(ステップ808)。ここで、空き領域の列数がビット
マップの列サイズ以上の大きさを有していれば、ビット
マップ作成部6は、上記ビットマップをビットマップ格
納部301に格納する。このとき、ビットマップは、空
き領域の先頭列を開始列として格納される(ステップ8
09)。
【0048】さらに、ビットマップ作成部6は、上記ビ
ットマップの開始列のビット値と、列サイズとを、文書
IDと共にビットマップ位置登録テーブル302に登録
する(ステップ810)。
【0049】一方、上記ステップ808において、最終
ページの空き領域の列数がビットマップの列サイズ未満
の大きさの場合には、ビットマップ作成部6は、ビット
マップ格納部301に、新たなページを確保し、確保さ
れたページの先頭列を開始列として、ビットマップを格
納する(ステップ811)。これに伴い、ビットマップ
作成部6は、ビットマップ格納部301の新たなページ
に対応するビットマップ位置登録テーブル302を作成
し、このテーブルに前記ビットマップの文書IDと開始
列のビット値と列サイズとを登録する(ステップ81
2)。
【0050】次に、キーワード検索を行う場合の本シス
テムの動作過程について図9に沿って説明する。先ず、
保守用端末3は、任意の端末1からキーワード検索要求
とキーワードとを受信すると(ステップ901)、ビッ
ト値算出部7を起動する。
【0051】ビット値算出部7は、先ずキーワードとな
る文字列を2文字(4バイトコード)の単語に分解し
(ステップ902)、各単語について演算処理部5の演
算部と同一の手順で二組のビット位置情報を算出する
(ステップ903)。
【0052】ビットマップ位置検出部8は、ビット値算
出部7によって算出された二組のビット位置情報に基づ
いて、ビットマップ格納部301の各ページを検索し
(ステップ904)、前記ビット位置情報により決定さ
れる2箇所のビットに、フラグ“1”がセットされてい
るビットマップを判別する。さらに、ビットマップ位置
検出部8は、判別されたビットマップのアドレスを検出
する(ステップ905)。
【0053】文書検索部9は、ビットマップ位置検出部
8によって検出されたアドレスに基づいて、ビットマッ
プ位置登録テーブル302を参照し、前記アドレスに対
応して登録されている文書IDを読み出す(ステップ9
08)。さらに、文書検索部9は、ビットマップ位置検
出部8によって検出された全てのアドレスについて、文
書IDの読み出しを終了すると、読み出された文書ID
のリストを作成して、要求元の端末1へ送信する(ステ
ップ909)。
【0054】以上、本実施形態によれば、文書検索にお
けるインデックス情報をビットマップ形式で登録するこ
とにより、インデックス情報を縮小化することができ
る。これに伴い、インデックス情報の作成時間と文書検
索時間とを大幅に短縮することができる。
【0055】
【発明の効果】本発明の文書検索システムによれば、文
書検索用のインデックス情報をビットマップ形式で作成
することにより、作成時間の短縮化と情報の小型化を図
ることができる。従って、文書の検索に要する時間を大
幅に短縮することができ、作業効率の向上を図ることが
できる。
【図面の簡単な説明】
【図1】本発明の適用するシステムの概略構成図
【図2】保守用端末の内部構成図
【図3】主記憶装置の内部構成図
【図4】ビットマップのイメージを示す図
【図5】ビットマップ格納部の構成図
【図6】ビットマップ位置登録テーブルの構成図
【図7】文書検索システムの機能別構成図
【図8】ビットマップの作成過程を示すフローチャート
【図9】文書検索過程を示すフローチャート図
【符号の説明】
1・・端末 2・・データベース 3・・保守用端末 4・・キーワード検出部 5・・演算処理部 6・・ビットマップ作成部 7・・ビット値算出部 8・・ビットマップ位置検出部 9・・文書検索部 30・・CPU 31・・主記憶装置(MM) 32・・キーボード 33・・CRT 34・・マウス 35・・通信モデム 300・・アプリケーションプログラム 301・・ビットマップ格納部 302・・ビットマップ位置登録テーブル

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 複数の文書の中から、ユーザが入力した
    キーワードを含む文書を検出する文書検索システムであ
    り、 新規の文書を登録する際に、 前記文書からキーワードとなる文字列を検出するキーワ
    ード検出手段と、 前記キーワード検出手段によって検出された文字列のデ
    ータ値に対して、少なくとも2つの異なる演算処理を施
    して、少なくとも2つの数値を算出する演算処理手段
    と、 前記演算処理手段により算出された数値によって決定さ
    れる位置にフラグをセットされたビットマップを、各文
    書毎に作成するビットマップ作成手段と、 前記ビットマップ作成手段によって作成されたビットマ
    ップを格納するビットマップ格納手段と、 前記ビットマップ格納手段において各ビットマップが格
    納されている位置と、各ビットマップに対応する文書を
    特定する文書識別情報とを登録する文書位置登録手段
    と、 を備える文書検索システム。
  2. 【請求項2】 任意のキーワードが入力された場合に、 前記キーワードのデータ値に対して、前記演算処理手段
    と同一の演算処理を施して、少なくとも2つの数値を算
    出するビット値算出手段と、 前記ビットマップ格納手段を検索して、前記ビット値算
    出手段によって算出された数値により決定される位置に
    フラグがセットされているビットマップを判別し、前記
    ビットマップ格納手段における格納位置を検出するビッ
    トマップ位置検出手段と、 前記文書位置登録手段を検索し、前記ビットマップ位置
    検出手段によって検出された位置に対応する文書識別情
    報を読み出す文書検出手段と、 を備える請求項1記載の文書検索システム。
  3. 【請求項3】 前記ビットマップ格納手段は、各ビット
    マップを圧縮して格納する請求項1記載の文書検索シス
    テム。
  4. 【請求項4】 前記キーワード検出手段は、文書内から
    ひらがな、スペース、句読点以外の二文字以上連続した
    文字列をキーワードとして検出する請求項1記載の文書
    検索システム。
  5. 【請求項5】 前記演算処理手段は、前記キーワード検
    出手段によって検出された文字列を特定文字数の単語に
    分解する文字列分解部と、 前記文字列分解部によって分解された各単語について、
    異なる2つの演算処理を行い、前記ビットマップ上の行
    値と列値とを算出する演算部とを有する請求項4記載の
    文書検索システム。
JP7273010A 1995-10-20 1995-10-20 文書検索システム Pending JPH09114854A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7273010A JPH09114854A (ja) 1995-10-20 1995-10-20 文書検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7273010A JPH09114854A (ja) 1995-10-20 1995-10-20 文書検索システム

Publications (1)

Publication Number Publication Date
JPH09114854A true JPH09114854A (ja) 1997-05-02

Family

ID=17521902

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7273010A Pending JPH09114854A (ja) 1995-10-20 1995-10-20 文書検索システム

Country Status (1)

Country Link
JP (1) JPH09114854A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11110413A (ja) * 1997-07-25 1999-04-23 Kuraritec Corp データベース検索結果を生成するための方法および装置
JPH11272707A (ja) * 1998-03-26 1999-10-08 Sharp Corp 情報処理システム
JP2017194762A (ja) * 2016-04-18 2017-10-26 富士通株式会社 インデックス生成プログラム、インデックス生成装置、インデックス生成方法、検索プログラム、検索装置および検索方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59112339A (ja) * 1982-12-20 1984-06-28 Fujitsu Ltd 文書検索高速化方式
JPH056398A (ja) * 1991-06-28 1993-01-14 Ricoh Co Ltd 文書登録装置及び文書検索装置
JPH05324722A (ja) * 1992-03-24 1993-12-07 Ricoh Co Ltd 文書検索方式
JPH06301722A (ja) * 1993-04-13 1994-10-28 Matsushita Electric Ind Co Ltd 形態素解析装置及びキーワード抽出装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59112339A (ja) * 1982-12-20 1984-06-28 Fujitsu Ltd 文書検索高速化方式
JPH056398A (ja) * 1991-06-28 1993-01-14 Ricoh Co Ltd 文書登録装置及び文書検索装置
JPH05324722A (ja) * 1992-03-24 1993-12-07 Ricoh Co Ltd 文書検索方式
JPH06301722A (ja) * 1993-04-13 1994-10-28 Matsushita Electric Ind Co Ltd 形態素解析装置及びキーワード抽出装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11110413A (ja) * 1997-07-25 1999-04-23 Kuraritec Corp データベース検索結果を生成するための方法および装置
JPH11272707A (ja) * 1998-03-26 1999-10-08 Sharp Corp 情報処理システム
JP2017194762A (ja) * 2016-04-18 2017-10-26 富士通株式会社 インデックス生成プログラム、インデックス生成装置、インデックス生成方法、検索プログラム、検索装置および検索方法

Similar Documents

Publication Publication Date Title
EP0510634B1 (en) Data base retrieval system
US5680612A (en) Document retrieval apparatus retrieving document data using calculated record identifier
US7290001B2 (en) Identification and enumeration of data components in a trie
JP3234104B2 (ja) 圧縮データをサーチする方法及びシステム
JP3152868B2 (ja) 検索装置および辞書/テキスト検索方法
US20020038319A1 (en) Apparatus converting a structured document having a hierarchy
US5383121A (en) Method of providing computer generated dictionary and for retrieving natural language phrases therefrom
WO2010047286A1 (ja) 検索システム、検索方法およびプログラム
EP0764305A1 (en) System and method for portable document indexing using n-gram word decomposition
US5960449A (en) Database system shared by multiple client apparatuses, data renewal method, and application to character processors
JPH05174064A (ja) 文書検索方法及び装置
JPH0793310A (ja) データ処理システムにおけるフォント導出の方法
JP3333549B2 (ja) 文書検索方式
US20030023584A1 (en) Universal information base system
JPH08329116A (ja) 構造化文書検索方法
JPH05225238A (ja) データベース検索システム
JPH09114854A (ja) 文書検索システム
US6886161B1 (en) Method and data structure for compressing file-reference information
JP3728264B2 (ja) インデックス作成装置、検索システム、及び制御方法
JP3288063B2 (ja) 可変長データの格納および参照システム
JP2001312517A (ja) インデクス生成装置及び文書検索装置
JP3896683B2 (ja) 使用者定義文字管理装置および記憶媒体
JPH08115330A (ja) 類似文書検索方法および装置
JP2988304B2 (ja) 文字列管理装置
JP3202341B2 (ja) データベースシステム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050419

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050617

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050712