JPH06149897A - 電子ファイル装置の文書画像検索方法 - Google Patents

電子ファイル装置の文書画像検索方法

Info

Publication number
JPH06149897A
JPH06149897A JP4300131A JP30013192A JPH06149897A JP H06149897 A JPH06149897 A JP H06149897A JP 4300131 A JP4300131 A JP 4300131A JP 30013192 A JP30013192 A JP 30013192A JP H06149897 A JPH06149897 A JP H06149897A
Authority
JP
Japan
Prior art keywords
keyword
file
section
search
document image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4300131A
Other languages
English (en)
Inventor
Kazuyuki Kodama
和行 児玉
Masaaki Fujinawa
雅章 藤縄
Hiromichi Fujisawa
浩道 藤澤
Yoshinori Okami
吉規 岡見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP4300131A priority Critical patent/JPH06149897A/ja
Publication of JPH06149897A publication Critical patent/JPH06149897A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 文書画像ファイリングおよび検索装置に関
し、特に高速に文書検索が可能な方法を提供する。 【構成】 蓄積された文書のキーワードをソートして磁
気ディスクにキーワードファイルを作成する。次に、ソ
ートされたキーワードを一定件数毎に区切り、それぞれ
の区間の代表キーワードを抜き出し、メインメモリに代
表キーワードファイルを作成する。代表キーワードファ
イルを検索して、磁気ディスクキーワードファイルの検
索範囲を絞り込みながら検索を行う。 【効果】 メインメモリの代表キーワードを検索するこ
とにより、磁気ディスクの読出し回数を低減できるの
で、従来に比べ1/8乃至1/32程度の時間で高速に
検索できる。また、ネットワーク形態で使用するとき、
トラフィックを低減できる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書画像ファイリング
および検索装置に関し、特に蓄積された大量の文書を高
速に検索する方法に関する。
【0002】
【従来の技術】多数のデータの中から目的のデータを見
つけだす検索には、順次検索法、2分探索法(バイナリ
サーチ)等がある。
【0003】順次検索法は、すべてのデータを一つ一つ
調べていく最も基本的な検索法である。この検索法は、
データ量が少ない場合にも有効であるが、大量のデータ
に対しては検索時間がかかりすぎて現実的でない。
【0004】これに対して、バイナリサーチ法は、デー
タがソートされて並んでいるときに、その中から目的の
データに一致するものを効率的に見つけだす方法であ
る。この方法の要点は、データが昇順(または降順)に
ならんでいることを利用して、区間の中央のデータと目
的のデータとを比較することにより、目的のデータがそ
の区間の前半にあるか後半にあるかが分かることであ
る。これにより、中央のデータのとの1回の比較により
検索範囲を半分に削減することが可能になる。
【0005】これらの検索手法については、例えば、イ
ンターフェース誌1990年4月号第195頁〜197
頁に詳述されている。
【0006】
【発明が解決しようとする課題】しかしながら、文書フ
ァイリングにおいては、扱う文書数が大量なため(数十
万件にもなる)、バイナリサーチ法であっても次のよう
な問題が生じた。すなわち、文書ファイリングでは、検
索の対象となる、ソートしたキーワードの量も大量とな
るので、これを磁気ディスクに蓄える必要がある。しか
しながら、磁気ディスクのアクセスは、メインメモリ
(半導体メモリ)に比較して遅いため、検索に時間がか
かる。
【0007】本発明は、上記事情に鑑みてなされたもの
で、その目的とするところは、大量の文書を高速に検索
できる方法を提供することにある。
【0008】
【課題を解決するための手段】本発明による文書画像検
索方法は、電子ファイル装置に格納された文書画像を検
索装置により検索する方法であって、文書画像の検索前
に、a)多数の文書画像のキーワードをソートしたキー
ワードファイルを作成し、b)前記キーワードファイル
から、一定の間隔でキーワードを抜き出した代表キーワ
ードファイルを作成し、文書画像の検索時には、c)前
記代表キーワードファイルを前記一定の間隔で定める区
間ごとにサーチして、検索条件に一致するキーワードが
存在する可能性のある前記キーワードファイルの区間を
求め、d)該求められた区間について前記キーワードフ
ァイル内のキーワードをサーチして前記検索条件に一致
するキーワードを求め、e)該一致するキーワードの文
書画像データの、前記電子ファイル装置における格納ア
ドレスを求めることを特徴とする。
【0009】
【作用】本発明による文書画像の代表的な作用は、以下
の通りである。まず、蓄積された文書のキーワードをソ
ートして磁気ディスクにキーワードファイルを作成す
る。次に、該キーワードファイルを一定件数毎に区切
り、それぞれの区間の代表キーワードを抜き出して、メ
インメモリに代表キーワードファイルを作成する。さら
に、該代表キーワードファイルを検索して磁気ディスク
のキーワードファイルの検索範囲を絞り込む。絞りこま
れた区間のキーワードについて検索条件と一致するもの
があるかをサーチする。サーチの方法として、好ましく
は、バイナリサーチ法を用いる。
【0010】この方法により、磁気ディスクのアクセス
回数を1ファイル(例えば光ディスク1枚)当たり1回
に低減できる。
【0011】
【実施例】以下、本発明の実施例を図面により詳細に説
明する。
【0012】まず、図2を用いて、本発明が適用される
文書画像ファイリングおよび検索装置の構成を説明す
る。
【0013】同図中、SCNは、文書を1インチ当たり
200または400ドットの画素数で光学的に読み取っ
て、1画素当たり8ビットの階調の画像データを得るイ
メージスキャナを示す。PRNは、逆に、1画素8ビッ
トの画像データを文書イメージに変換して紙に出力する
プリンタである。IOCは、後述するマイクロプロセッ
サμPの命令により、スキャナSCNとプリンタPRN
の入出力とバスとを接続するI/O制御部を示す。IP
Uは、画像処理プロセッサを示し、スキャナSCNか
ら入力された8ビットの階調を持つ画像を1画素当たり
1ビットに2値化し、さらにMMR符号化方式を用いて
圧縮する、逆に、圧縮した画像を復号し、その上で1
画素1ビットの画像から階調を復元して8ビットの画像
を得る、画像の縮小・拡大、回転などのアフィン変換
(画像編集)を行なう、と言う機能を有する。
【0014】ODは、1枚当たり600MB(メガバイ
ト)の記憶容量を持つ光ディスクとその駆動装置を示
し、スキャナSCNから入力され、画像処理プロセッサ
IPUで圧縮された画像データと、キーボードKBから
入力された文書タイトル、すなわち文書検索用のキーワ
ードが蓄積される。OLUは、最大100枚の光ディス
クを格納できる大容量の光ディスクライブラリで、その
中に2乃至4台の駆動装置を備えている。光ディスクラ
イブラリOLUには、上記光ディスクODと同様に画像
データとキーワードが蓄積される。ODCは、マイクロ
プロセッサμPの命令に応じて、光ディスクODあるい
は光ディスクライブラリOLUとバスとを接続する光デ
ィスク制御部である。DKは、記憶容量が80MBの磁
気ディスクで、ソーティングされたキーワードが蓄えら
れる。DKCは磁気ディスク制御部を示す。
【0015】なお、本実施例では大量の光ディスクを同
時に扱うために光ディスクODと、光ディスクライブラ
リOLUとを備えているが、本発明自体は、いずれか一
方のみを有するシステムに適用することができる。
【0016】マイクロプロセッサμPは、キーボードK
Bから入力されるユーザの処理要求に応じて、スキャナ
SCN、画像処理プロセッサIPU、光ディスクOD等
々の動作を制御する。MMは、μPのプログラムを蓄え
るとともにワークエリアとして利用されるメインメモリ
を示し、4MBの半導体メモリで構成されている。BU
Sは、32ビット幅のデータバスである。CRTは、操
作ガイダンス、文書タイトル、および文書画像を表示す
る高精細ディスプレイである。BMは、ビットマップメ
モリで、CRTに表示する1画素当たり8ビットのデー
タが蓄えられる。DCは、マイクロプロセッサμPの表
示データと画像処理プロセッサIPUから出力される画
像データとを合成してビットマップメモリBMへ書き込
む表示制御部を示す。キーボードKBは、装置への処理
要求、文書タイトル、および検索条件を入力する。KB
Cはキーボード制御部を示す。
【0017】次に、図2の文書画像ファイリングおよび
検索装置の動作について、文書登録、ステージング、お
よび文書検索に即して説明する。ステージングとは、光
ディスク上に格納された文書画像データの文書タイトル
および番地をソートしたものをキーワード情報ファイル
として磁気ディスク上に書き込むことをいう。
【0018】(1)文書登録 キーボードKBから「文書登録」要求が入力されると、
マイクロプロセッサμPは、スキャナSCNを起動す
る。SCNで光学的に読み取った文書画像データを、
I/O制御部IOC、およびバスBUSを介して、画像
処理プロセッサIPUに入力する。並行して、該文書
画像データをビットマップメモリBMに転送してディス
プレイCRTに表示する。画像プロセッサIPUの2
値化およびMMR符号化処理を動作させて画像を圧縮す
る。
【0019】ユーザは、CRT上の画像を見て、適正な
画像ならばキーボードKBから登録先の光ディスク番号
(光ディスクODに蓄積する場合は0、光ディスクライ
ブラリOLUに在る光ディスクに蓄積する場合は1〜1
00のいづれかの番号)を指定し、文書タイトルを入力
する。マイクロプロセッサμPは、画像処理プロセッ
サIPUで圧縮された画像を、指定された番号の光ディ
スクに蓄積する。文書タイトルと、画像の蓄積番地を
指定された番号の光ディスクに書込み、文書登録を終え
る。
【0020】なお、スキャナSCNで読み取った文書画
像データは効率良く圧縮されるので、1枚の光ディスク
に4000件程度の文書を登録することが可能である。
【0021】(2)ステージング キーボードKBから「ステージング」要求が入力される
と、マイクロプロセッサμPは、光ディスク1枚(すな
わち1ファイル)毎に、蓄積された文書タイトルを読
出し、値の小さい順に並べ直して(ソートして)、
画像データの蓄積番地とともに磁気ディスクDKに書込
む。このようにして磁気ディスクDK上にソートされた
文書タイトルを、以下、キーワード情報ファイルと呼
ぶ。ステージング処理は、光ディスク上の文書画像デー
タの更新(登録、削除等)がない限り、一度行っておけ
ばよい。
【0022】(3)文書検索 キーボードKBから「文書検索」要求と検索条件(検索
タームと言う)とが入力されると、マイクロプロセッサ
μPは、光ディスクOD、または光ディスクライブラリ
OLUに蓄積された文書を検索する。その結果、検索タ
ームに一致するタイトル(キーワード)を有する文書が
存在した場合は、その文書タイトルと画像をディスプレ
イに表示する。本発明は、この文書検索に係わり、キー
ワード情報ファイルと、後述する代表キーワードファイ
ルを用いることにより、検索の高速化を図ったものであ
る。
【0023】文書登録時に、指定された光ディスクの所
定のセクタに書込まれるキーワード情報の構成を図4に
示す。図は、1文書当たりのキーワード情報を示したも
ので、情報の長さFは512B(バイト)である。文書
タイトル(キーワードK)は、いくつかの項目(項目
1、項目2、…、項目J)について付与することができ
る。これらの項目の例としては、例えば、学会論文のデ
ータベースの場合には、発表者名、学会名、分野等が挙
げられる。キーワード構成情報フィールドPには、項目
数、各項目名、各項目のデータ長が書かれ、各項目フィ
ールドQにはキーワードKが書込まれる。光ディスク管
理情報フィールドRには、文書画像データが蓄積された
番地と画像データ長が書かれる。
【0024】ステージングにより、磁気ディスクDKに
作成されたキーワード情報ファイルを図5に示す。図4
で示したキーワード情報のうち、ユーザが指定した項目
(例えば、項目1)についてキーワードを小さい順にソ
ートした結果、磁気ディスクDKの1番地(ADR=1)
には、項目1の最小のキーワードK(n,1)と、そのキ
ーワード情報(指定した項目以外の内容)が、2番地に
は、第2番目に小さいキーワードK(n,2)とキーワー
ド情報が、以下、同様にして、M×L番地には、項目1
の最大のキーワードK(n,M×L)とそのキーワード情
報が蓄えられている。K(n,1)のnはファイル番
号、1は小さい順の通し番号である。なお、Lの意味に
ついては後述する。
【0025】文書検索を高速に行なうために利用する代
表キーワードファイルの作成方法を図3に示す。まず、
図5で説明したように、ファイル番号#1の光ディスク
に蓄積された文書のキーワード情報を読出してソート
し、磁気ディスクDK上にキーワード情報ファイルを作
成する。次に、ソートされたキーワードをL件毎に区切
り、それぞれの区間の最初のキーワードKs(i,j)と最
後のキーワードKe(i,j)を抜き出し(これらを代表キ
ーワードと言う)、メインメモリMMに蓄える。ここ
で、iはファイル番号、jは区間番号を表わす。すなわ
ち、第1の区間の最初のキーワードK(1,1)と最後の
キーワードK(1,L)を、それぞれKs(1,1)、Ke(1,
1)としてメインメモリMMに書込む。L件隔たった第
2の区間の最初のキーワードK(1,L+1)はKs(1,
2)として書込む。以下、同様にして、ファイル#1の
最終区間の最後のキーワードK(1,ML)をKe(1,M)
としてメインメモリMMに書込む。
【0026】本実施例では、1枚の光ディスクに蓄積さ
れる文書は4096件であり、Lは磁気ディスクを1シ
ークでアクセスできる容量の64件(32KB程度)に
設定する。したがって、区間数Mは64になる。
【0027】以上のソート、代表キーワードの抽出、お
よびメインメモリMMへの書込みをN枚の光ディスク
(本実施例では、OD,OLUの双方)について繰り返
し、N個の代表キーワードファイルをメインメモリMM
上に作成する。
【0028】このようにして作成した、メインメモリM
M上の代表キーワードファイルの構成を図6に示す。1
番地(ADR=1)には、光ディスクファイル番号#1の
第1の区間の最初のキーワードKs(1,1)と最後のキー
ワードKe(1,1)が、2番地には、第2の区間のKs
(1,2)とKe(1,2)が、以下、同様にして、M番地に
は、光ディスクファイル番号#1の第Mの区間の最初の
キーワードKs(1,M)と最後のキーワードKe(1,M)が
蓄えられる。
【0029】M+1番地から2×M番地までは光ディス
クファイル番号#2の代表キーワードファイルである。
同様に、(N−1)×M+1番地からN×M番地は光ディ
スクファイル番号#Nの代表キーワードファイルであ
る。
【0030】次に、図1を用いて、本発明の第1の実施
例における、代表キーワードファイルを利用した検索の
手順を説明する。
【0031】(1)まず、操作手順TMINで、図2で
説明した文書画像ファイリングおよび検索装置に付属す
るキーボードから検索条件、すなわち検索ターム(T
M)が入力される。
【0032】(2)手順INITで、検索するファイル
の番号nに初期値1を設定する。
【0033】(3)次に、手順SGaで、図2のマイク
ロプロセッサμPはメインメモリMM上に作成した代表
キーワードファイルから、ファイル番号1(n=1)の最
小キーワードKs(1,1)と最大キーワードKe(1,M)を
読出し、手順SGbで、検索タームとの比較演算 Ks(1,1)≦TM≦Ke(1,M) … (数1) を行なう。その結果、数1が成立すれば、検索タームT
Mと一致するキーワードを有する文書がファイル1に存
在する可能性があるので次手順BS1aに進む。TMが
Ks(1,1)未満か、またはKe(1,M)を越える場合に
は、ファイル1にはTMに一致する文書が存在しないの
で、手順ENDにブランチする。なお、このSGaおよ
びSGbの手順を便宜上、範囲検索と呼ぶ。
【0034】(4)手順BS1aとBS1bで、図6で
説明したファイル1の代表キーワードファイルをバイナ
リサーチ(2分探索)する。すなわち、 (4.1)代表キーワードファイル探索範囲の先頭番地
をADRF、最終番地をADRLとして、 ADRF=1 … (数2) ADRL=M … (数3) にセットする。
【0035】(4.2)区間の中心 ADR=(ADRF+ADRL)/2 … (数4) を得る。
【0036】(4.3)代表キーワードファイル1のA
DR番地からKs(1,m)とKe(1,m)を読出す。mは、
ADR番地に該当する区間番号を表わす。そこで、 Ks(1,m)≦TM≦Ke(1,m) … (数5) なる比較演算を行なう。その結果、 (4.3.1)数5が成立すれば、検索タームTMと一
致するキーワードが図5に示した磁気ディスクキーワー
ド情報ファイルのADRに対応する区間mのL件、すな
わち((ADR−1)×L+1)番地から(ADR×L)番地
までのL件の中に存在する可能性があるので、次の手順
の磁気ディスク読出しDKRに進む。
【0037】(4.3.2)TMがKs(1,m)未満の場
合は、 ADRL=ADR−1 … (数6) として(4.2)から繰り返す。
【0038】(4.3.3)TMがKe(1,m)を越える
場合は、 ADRF=ADR+1 … (数7) として(4.2)から繰り返す。
【0039】(4.4)上記(4.2)および(4.
3)の演算を繰り返し、 ADRF>ADRL … (数8) になった場合は、ファイル1にはTMに一致するキーワ
ードを有する文書は存在しないので、手順ENDにブラ
ンチする。
【0040】(5)手順DKRで、磁気ディスク中のキ
ーワード情報ファイルからL件のキーワード情報を一括
してメインメモリMMに読出す。例えば、L=64(件)
のとき読出しデータ量は32KB(512B×64)な
ので、磁気ディスクアクセスの1シークで読出すことが
できる。読出し番地は(4.3.1)で得られたADR
に対応するL件、すなわち((ADR−1)×L+1)番地
から(ADR×L)番地までのL件である。
【0041】(6)手順BS2aとBS2bで、磁気デ
ィスクDKからメインメモリMM上に読出されたファイ
ル1のL個のキーワードKをバイナリサーチする。手順
は前記BS1aとBS1bと相似して、 (6.1)キーワード探索範囲の先頭番地をADRF、
最終番地をADRLとして、ADRF=1、ADRL=
Mにセットする。
【0042】(6.2)区間の中心、ADR=(ADR
F+ADRL)/2を計算する。
【0043】(6.3)ADR番地からK(1,m)を読
出して、検索タームTMと比較する。その結果、 (6.3.1)TM=K(1,m)なら、検索タームと一
致するキーワードが存在したので、次の手順の検索結果
出力OUTを行なう。
【0044】(6.3.2)TM<K(1,m)なら、A
DRL=ADR−1として(6.2)から繰り返す。
【0045】(6.3.3)TM>K(1,m)なら、A
DRF=ADR+1として(6.2)から繰り返す。
【0046】(6.4)上記(6.2)および(6.
3)を繰り返し、ADRF>ADRLになった場合は、
ファイル1にはTMに一致するキーワードを有する文書
は存在しないので、手順ENDにブランチする。
【0047】(7)手順OUTでは、検索タームと一致
したキーワード情報を図2で説明したディスプレイCR
Tに表示する。
【0048】(8)手順ENDでは、1〜Nのすべての
ファイルについて検索が終了したかどうか判定する。
【0049】(9)手順REPでは、ファイル番号nに
1を加えて手順SGaにもどり、次のファイルの検索を
繰り返す。
【0050】以上の実施例による検索時間を、図9によ
り評価する。図9のグラフは、横軸を検索対象文書数
(万件)、縦軸を検査時間(秒)として、従来例と本発
明との検索時間を対比したものである。
【0051】まず、従来技術によれば、キーワード情報
ファイルをメインメモリに蓄えることは容量の面で実現
が困難(100ファイルで210MBの容量が必要)な
ので、磁気ディスクに作成されたキーワード情報ファイ
ル(図5)をバイナリサーチする。このときの検索時間T
は、 T=Nf×Ta×log2(ML) … (数9) であり、Nfは、検索するファイル数(100ファイ
ル)、Taは、磁気ディスクを1回アクセスする時間
(0.1秒)である。MLは、1ファイルのキーワード数
(4096)で、log2MLは、1ファイル当たりのバ
イナリサーチでのアクセス回数である。それぞれの数値
を数9に代入して、 T=100×0.1×log24096=83(sec) 必要とした。
【0052】一方、本実施例によれば、図1に示したよ
うに、メインメモリ上の代表キーワードファイル(図
6)をバイナリサーチし、磁気ディスクからL件のキ
ーワードを読出し、メインメモリ上のL件のキーワー
ドをバイナリサーチする。この検索時間Tは、 T=Nf×(Ts1+Ta+Ts2) … (数10) ここで、 Ts1=Ts×log2M … (数11) Ts2=Ts×log2L … (数12) であり、Nfは、検索するファイル数(100ファイ
ル)、Taは、磁気ディスクを1回アクセスする時間
(0.1秒)、Tsは、1回のバイナリサーチに要するマイ
クロプロセッサμPの処理時間(100μs)、Ts
1は、上記の処理に要する時間、Ts2は、上記に要
する時間である。それぞれの数値を数11、数12、お
よび数10に代入して、 T=100×(0.1/103×log264+0.1+0.1/103×log264) =10(sec) になる。
【0053】メモリ容量を評価すると、従来技術では、
キーワード情報ファイル用に、磁気ディスクが210M
B必要である。一方、本実施例では磁気ディスク210
MBと、新たに640KBのメインメモリが必要になる
(図4に示した1項目のキーワードを50Bとした場
合)。現状ハードウェア技術では、16〜32MB程度
の半導体メモリを装置に実装することが容易なので、こ
の容量は適切である。
【0054】次に、本発明の第2の実施例を図7、およ
び図8を用いて説明する。
【0055】第1の実施例で示した代表キーワードファ
イル(図6)とは別な代表キーワードファイルの構成を
図7に示す。この代表キーワードファイルを作成するに
は、まず、第1の実施例について図3で説明したよう
に、光ディスクに蓄積された文書のキーワード情報を読
出してソートし、磁気ディスク上にキーワード情報ファ
イルを作成する。そこで、ソートされたキーワードをL
件毎に区切り、それぞれの区間の最初のキーワードKs
(n,m)と、最終区間のみの最後のキーワードKe(n,
M)とを抜き出し(これらを代表キーワードと言う)、
メインメモリMMに蓄える。この結果、図7に示すよう
に、MMの1番地(ADR=1)には、光ディスクファ
イル番号#1の第1の区間の最初のキーワードKs(1,
1)が、2番地には、第2の区間のKs(1,2)が、以
下、同様にして、M番地には、光ディスクファイル番号
#1の最終区間(第Mの区間)の最初のキーワードKs
(1,M)が蓄えられる。メインメモリMMのM+1番地
には、最終区間の最後のキーワードKe(1,M)が蓄えら
れる。
【0056】M+2番地から2×(M+1)番地までは、
光ディスクファイル番号#2の代表キーワードファイル
である。同様に、(N−1)×(M+1)+1番地からN×(M
+1)番地は光ディスクファイル番号#Nの代表キーワー
ドファイルである。
【0057】図7に示した代表キーワードファイルを利
用した検索の手順を、図8を用いて説明する。
【0058】手順TMIN(検索タームの入力)、INI
T(ファイル番号の初期化)、SGaおよびSGb(範囲
検索)は、図1により説明した第1の実施例と同様であ
る。
【0059】(1)手順BS1では、図7で説明したフ
ァイル1の代表キーワードファイルをバイナリサーチ
(2分探索)する。すなわち、 (1.1)代表キーワードファイル探索範囲の先頭番地
をADRF、最終番地をADRLとして ADRF=1 … (数13) ADRL=M … (数14) にセットする。
【0060】(1.2)区間の中心 ADR=(ADRF+ADRL)/2 … (数15) を得る。
【0061】(1.3)代表キーワードファイル1のA
DR番地、ADR+1番地から、それぞれKs(1,m)と
Ks(1,m+1)を読出し、 Ks(1,m)≦TM<Ks(1,m+1) … (数16) なる比較演算を行なう。その結果、 (1.3.1)数16が成立すれば、検索タームTMと
一致するキーワードが図5に示した磁気ディスクキーワ
ード情報ファイルのADRに対応するL件、すなわち
((ADR−1)×L+1)番地から(ADR×L)番地まで
のL件の中に存在する可能性があるので、次の手順の磁
気ディスク読出しDKRに進む。
【0062】(1.3.2)TMがKs(1,m)未満の場
合は、 ADRL=ADR−1 … (数17) として(1.2)から繰り返す。
【0063】(1.3.3)TMがKs(1,m+1)を越
える場合は、 ADRF=ADR+1 … (数18) として(1.2)から繰り返す。この実施例では、上記
(1.2)および(1.3)の演算を繰り返すうちに、必
ず、数16が成立する。
【0064】手順DKR(磁気ディスク中のキーワード
の読出し)、BS2aおよびBS2b(キーワードのバイ
ナリサーチ)、OUT(キーワード情報表示)、END、
およびREPは、図1により説明した第1の実施例と同
様である。
【0065】このように、第2の実施例では、代表キー
ワードファイルのためにメインメモリMM上に必要とす
る記憶領域をほぼ半減することができる。但し、隣合う
区間と区間の隙間(例えば、図6におけるKe(1,
1)とKs(1,2)との間)に位置する検索タームT
Mについては、第1の実施例では、BS1bの処理によ
り該当なしとして磁気ディスクへのアクセスが省略され
るが、本実施例では省略されない。この点では、第1の
実施例が優る。
【0066】代表キーワードファイルの作成方法に係わ
る第3の実施例を図10により説明する。
【0067】図3で説明した例では、メインメモリがR
AM(ランダムアクセスメモリ)の場合、装置の電源を
投入する度に、磁気ディスクからステージングされた
キーワードを読出して、L件毎に代表キーワード抜き
出し、メインメモリに蓄えるという処理を必要とす
る。図10の実施例によれば、ステージング時に代表キ
ーワードファイルを磁気ディスク上に作成しておくの
で、電源再投入時には、磁気ディスクからN個の代表キ
ーワードファイルをメインメモリにロードする(読出
す)処理だけでよい。
【0068】なお、図10では代表キーワードファイル
として、第1の実施例のもの(図6)を使用している
が、第2の実施例のもの(図7)を使用してもよい。
【0069】さらに、代表キーワードファイルの作成方
法に係わる第4の実施例を図11により説明する。
【0070】以上の実施例では、光ディスク1枚毎に代
表キーワードファイルを作成した。これに対し、本実施
例では、複数枚の光ディスク毎に代表キーワードファイ
ルを用意する。例えば、図11のように、ステージング
時に一度に4枚の光ディスク(ファイル#1〜4)に蓄
積された文書のキーワード情報を読出してソートし、磁
気ディスク上にキーワード情報ファイルを作成する。次
に、ソートされたキーワードをL件毎に区切り、代表キ
ーワードを抜き出してメインメモリに蓄える。以上のソ
ート、代表キーワードの抽出、およびメインメモリへの
書込みをN/4回繰り返し、N/4個の代表キーワード
ファイルを作成する。検索手順は、図1と同様である
が、手順ENDの全ファイル数はN/4になる。本実施
例は、第2、第3の実施例と組み合わせることができ
る。すなわち、代表キーワードファイルは第2の実施例
のものを用いてもよく、また、作成された代表キーワー
ドファイルを磁気ディスク上に保持しておくこともでき
る。
【0071】第4の実施例によれば、検索時間Tは、数
11、数12、および数10を用いて、 T=Nf×(Ts1+Ta+Ts2)=(100/4)×(0.1/103
×log2(64×4)+0.1+0.1/103×log264)=2.5(sec) になる。
【0072】さらに第5の実施例を図12を用いて説明
する。本実施例においても、第1の実施例の代表キーワ
ードファイルを用いて説明するが、他の実施例のいずれ
とも組み合わせて実施することが可能である。
【0073】本実施例では、ネットワーク形態での文書
検索方法を示す。図で、FSは電子ファイル装置であ
り、図2の文書画像ファイリングおよび検索装置をロー
カルエリアネットワークLAN1に接続したものであ
る。磁気ディスクDKには、図5と同様のキーワード情
報(DKF)が蓄えられている。WS1は、LAN1に接
続された検索用のワークステーションを示し、SG1
は、WS1のメインメモリに蓄えられた、図6と同様の
代表キーワードファイルを示す。
【0074】この実施例の文書検索の動作を説明する。
ワークステーションWS1は、代表キーワードファイ
ルSG1を使用して図1の手順TMIN〜BS1bを処
理し、L件のキーワード読出し番地を電子ファイル装置
FSに転送する。電子ファイル装置FSはディスクD
KからL件のキーワードを読出し、LAN1を経由して
ワークステーションWS1に転送する。ワークステー
ションWS1は、図1の手順BS2a〜REPを処理し
て検索結果(検索条件と一致する文書名)を得る。この
実施例によれば、検索用のワークステーションWS1か
ら電子ファイル装置FSに蓄積された文書を検索する場
合、WS1で代表キーワードファイルを検索して、ディ
スクDKの検索範囲を絞り込むことができるので、ディ
スクDKのキーワード情報を直接バイナリサーチする方
法と比較して、LAN1のトラフィック(データ転送
量)を、1/Mに低減することができる。
【0075】さらに、図12で、WS2は別な検索用の
ワークステーション、SG2はWS2のメインメモリに
蓄えられている代表キーワードファイル、LAN2はロ
ーカルエリアネットワークを示し、NTは電話網、企業
内通信網などの通信回線を示す。ワークステーションW
S2は、上記と同様の手順で電子ファイル装置FSに蓄
積された文書を検索することができ、通信回線NT、L
AN1およびLAN2のトラフィックを1/Mに低減す
ることができる。
【0076】なお、以上のいくつかの実施例において
は、代表キーワードファイル、および磁気ディスクから
読出したL件のキーワードはバイナリサーチするものと
したが、替わりに、すべてのデータを一つ一つ調べてい
く順次検索を行なってもよい。
【0077】
【発明の効果】以上述べた如く、本発明によれば、スキ
ャナから読み取った文書画像データを、タイトル(キー
ワード)を付与して光ディスクに蓄積し、文書検索時に
は、検索タームに一致するタイトルを有する文書を検索
して出力する文書画像ファイリングおよび検索装置にお
いて、メインメモリに作成した代表キーワードファイル
を検索することにより、磁気ディスクの読出し回数を低
減できるので、従来に比べ1/8乃至1/32程度の時
間で高速に検索できるという効果を奏するものである。
【図面の簡単な説明】
【図1】本発明の第1の実施例における、代表キーワー
ドファイルを用いた検索手順を示す図。
【図2】本発明が適用される文書画像ファイリングおよ
び検索装置の構成図。
【図3】実施例における代表キーワードファイルの作成
方法を示す図。
【図4】実施例における、光ディスクに蓄えられたキー
ワード情報の構成を示す図。
【図5】実施例における、磁気ディスクに蓄えられたキ
ーワード情報ファイルの構成を示す図。
【図6】実施例における、メインメモリに蓄えられた代
表キーワードファイルの構成を示す図。
【図7】本発明の第2の実施例における代表キーワード
ファイルの構成を示す図。
【図8】図7の代表キーワードファイルを用いた検索手
順を示す図。
【図9】第1の実施例における代表キーワードファイル
を用いた文書検索の所要時間を示す図。
【図10】本発明の第3の実施例における代表キーワー
ドファイルの別な作成方法を示す図。
【図11】本発明の第4の実施例における代表キーワー
ドファイルの、さらに別な作成方法を示す図。
【図12】本発明の第5の実施例における、ネットワー
ク形態での文書検索方法を示す図。
【符号の説明】
μP…マイクロプロセッサ、 MM…メインメモリ、 DK…磁気ディスク、 OD…光ディスク、 OLU…光ディスクライブラリ、 TM…検索ターム、 K…キーワード、 KsおよびKe…代表キーワード、 DKF…キーワード情報ファイル、 SG1およびSG2…代表キーワードファイル、 FS…電子ファイル装置。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 岡見 吉規 神奈川県小田原市国府津2880番地 株式会 社日立製作所ストレージシステム事業部内

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】電子ファイル装置に格納された文書画像を
    検索装置により検索する方法であって、 文書画像の検索前に、 a)多数の文書画像のキーワードをソートしたキーワー
    ドファイルを作成し、 b)前記キーワードファイルから、一定の間隔でキーワ
    ードを抜き出した代表キーワードファイルを作成し、 文書画像の検索時には、 c)前記代表キーワードファイルを前記一定の間隔で定
    める区間ごとにサーチして、検索条件に一致するキーワ
    ードが存在する可能性のある前記キーワードファイルの
    区間を求め、 d)該求められた区間について前記キーワードファイル
    内のキーワードをサーチして前記検索条件に一致するキ
    ーワードを求め、 e)該一致するキーワードの文書画像データの、前記電
    子ファイル装置における格納アドレスを求める、 ことを特徴とする電子ファイル装置の文書画像検索方
    法。
  2. 【請求項2】前記文書画像データは電子ファイル装置の
    光ディスクに格納し、前記ステップa)において、前記
    キーワードファイルは磁気ディスク上に作成し、前記ス
    テップb)およびc)において、前記磁気ディスク上の
    キーワードファイルに基づいて前記代表キーワードファ
    イルを前記検索装置のメインメモリ上に作成してサーチ
    し、前記検索条件に一致するキーワードが存在する可能
    性のある前記キーワードファイルの区間のアドレス情報
    を求め、前記ステップd)において、前記キーワードフ
    ァイルの当該区間内のキーワードを前記磁気ディスク上
    のキーワードファイルから前記メインメモリ上に読み出
    してサーチし、前記検索条件に一致するキーワードを求
    めることを特徴とする請求項1記載の電子ファイル装置
    の文書画像検索方法。
  3. 【請求項3】前記ステップc)およびd)のサーチには
    バイナリサーチを採用したことを特徴とする請求項1ま
    たは2記載の電子ファイル装置の文書画像検索方法。
  4. 【請求項4】前記一定の間隔は、その間隔内のすべての
    キーワードが前記磁気ディスクを1シークでアクセスで
    きる容量に収まるように決定することを特徴とする請求
    項2記載の電子ファイル装置の文書画像検索方法。
  5. 【請求項5】前記代表キーワードファイルは、各区間の
    最初のキーワードと各区間の最後のキーワードとを対に
    して作成し、前記ステップc)の区間ごとのサーチで
    は、ある区間内に検索条件に一致するキーワードが存在
    する可能性があるか否かは、当該区間の最初のキーワー
    ドと最後のキーワードとの間に検索条件に一致するキー
    ワードが存在する可能性があるか否かによって判断する
    ことを特徴とする請求項1記載の電子ファイル装置の文
    書画像検索方法。
  6. 【請求項6】前記代表キーワードファイルは、各区間の
    最初のキーワードと、最後の区間の最後のキーワードと
    により作成し、前記ステップc)の区間ごとのサーチで
    は、ある区間内に検索条件に一致するキーワードが存在
    する可能性があるか否かは、当該区間の最初のキーワー
    ドと次の区間の最初のキーワードとの間に検索条件に一
    致するキーワードが存在する可能性があるか否かによっ
    て判断することを特徴とする請求項1記載の電子ファイ
    ル装置の文書画像検索方法。
  7. 【請求項7】前記メインメモリ上に作成した代表キーワ
    ードファイルを磁気ディスク上に格納しておき、再度検
    索時には当該磁気ディスク上に格納されている代表キー
    ワードファイルを用いることを特徴とする請求項2記載
    の電子ファイル装置の文書画像検索方法。
  8. 【請求項8】複数枚の光ディスクごとに前記ソートした
    キーワードファイルおよび代表キーワードファイルの作
    成を行うことを特徴とする請求項2記載の電子ファイル
    装置の文書画像検索方法。
  9. 【請求項9】前記検索装置は、ネットワークを介して前
    記磁気ディスクおよび光ディスクをアクセスすることを
    特徴とする請求項2記載の電子ファイル装置の文書画像
    検索方法。
JP4300131A 1992-11-10 1992-11-10 電子ファイル装置の文書画像検索方法 Pending JPH06149897A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4300131A JPH06149897A (ja) 1992-11-10 1992-11-10 電子ファイル装置の文書画像検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4300131A JPH06149897A (ja) 1992-11-10 1992-11-10 電子ファイル装置の文書画像検索方法

Publications (1)

Publication Number Publication Date
JPH06149897A true JPH06149897A (ja) 1994-05-31

Family

ID=17881112

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4300131A Pending JPH06149897A (ja) 1992-11-10 1992-11-10 電子ファイル装置の文書画像検索方法

Country Status (1)

Country Link
JP (1) JPH06149897A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7778990B2 (en) 2005-03-18 2010-08-17 Fujitsu Limited Data presentation device, computer readable medium and data presentation method
WO2013061680A1 (ja) * 2011-10-26 2013-05-02 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報処理装置、データ・アクセス方法およびプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7778990B2 (en) 2005-03-18 2010-08-17 Fujitsu Limited Data presentation device, computer readable medium and data presentation method
WO2013061680A1 (ja) * 2011-10-26 2013-05-02 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報処理装置、データ・アクセス方法およびプログラム
US9043660B2 (en) 2011-10-26 2015-05-26 International Business Machines Corporation Data store capable of efficient storing of keys

Similar Documents

Publication Publication Date Title
US6954759B2 (en) Data processing method using record division storing scheme and apparatus therefor
US5870756A (en) Interchangeable storage medium containing program for processing data files thereupon to match a data file format to a computer system
AU9463998A (en) File processing method, data processing apparatus and storage medium
JPH06149897A (ja) 電子ファイル装置の文書画像検索方法
JP2925042B2 (ja) 情報リンク生成方法
JPS59105141A (ja) 電子的文書の管理方法
JP2002140218A (ja) データ処理方法、コンピュータ読み取り可能な記録媒体及びデータ処理装置
JPS63177266A (ja) 画像フアイル装置
JPS6129936A (ja) 検索方法
JP3103209B2 (ja) 画像ファイル装置
JP2938047B1 (ja) データのバッファリングシステム
JPS62229475A (ja) 画像フアイルシステム
JP3325326B2 (ja) 電子ファイリング装置
JPS61160133A (ja) デ−タの入力管理方法
JPH04250568A (ja) レコード検索装置
JPS60142416A (ja) 画像情報記憶検索装置
JPS6379287A (ja) 記録媒体コピ−方法
JPH04230576A (ja) 項目選択装置
JPH05307578A (ja) 画像検索装置
JPH04359372A (ja) 電子ファイリング装置の検索方法
JPH05274373A (ja) 電子ファイリング装置
JPS6282467A (ja) 画像情報記憶検索装置
JPH11353212A (ja) 領域共用ファイル内のメンバ管理方法および装置
JPH08190501A (ja) データベースのデータ格納方法
JPH06332947A (ja) データ記憶再生方法及びその装置