JP2003337822A

JP2003337822A - 圧縮検索アーカイブ処理方法，圧縮検索アーカイブ処理プログラムおよびそのプログラムの記録媒体

Info

Publication number: JP2003337822A
Application number: JP2002145757A
Authority: JP
Inventors: Shigeru Yoshida; 茂吉田; Hironori Yahagi; 裕紀矢作
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2002-05-21
Filing date: 2002-05-21
Publication date: 2003-11-28

Abstract

(57)【要約】【課題】圧縮検索アーカイブ処理方法に関し，圧縮率
優先または検索速度優先またはそれらをバランスさせた
圧縮検索書庫の作成を可能にすることを目的とする。【解決手段】圧縮率と検索速度のトレードオフに応じ
て複数の圧縮検索ソフトウェア２４０，２５０を用意
し，指定された圧縮率優先モード，検索速度優先モード
またはバランスモードによって，使用する圧縮検索ソフ
トウェア２４０，２５０を選択する。バランスモードが
選択された場合には，各圧縮対象ファイルのサイズによ
って，圧縮率優先の圧縮検索ソフトウェア２４０を用い
るか，検索速度優先の圧縮検索ソフトウェア２５０を用
いるかを決める。またはバランスモードのときには小容
量のファイルを連結した複合ファイルを作成し，検索速
度優先の圧縮検索ソフトウェア２５０を用いて書庫ファ
イルを作成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は，圧縮して保管，ま
たは，圧縮してバックアップした多数の計算機ファイル
の中から，任意の文字列を含むファイルと，その文字列
のファイル内出現位置を検索することが可能な書庫ファ
イルを作成する圧縮検索アーカイブ処理方法，圧縮検索
アーカイブ処理プログラムおよびそのプログラムの記録
媒体に関する。

【０００２】

【従来の技術】近年，計算機と，インターネット・パソ
コン通信を中心とするコンピュータネットワークが広く
普及するに伴い，計算機で扱う電子データの量が増加し
てきている。データは，新旧などにより，使用頻度が少
なくなったファイルは，ハードディスク（ＨＤ）や光磁
気ディスク（ＭＯ），磁気テープ（ＭＴ）等に保管され
る。保管したファイルの中から必要なデータを取り出す
ときには，検索が用いられる。保管データは再利用がで
きなければ意味がなく，再利用できなければ膨大な保管
データは存在しないのと同じことになるため，検索機能
は非常に重要になる。検索には大別して，「インデック
ス（索引）検索法」と「文字列サーチ法」の二つの方法
がある。

【０００３】インデックス検索法によれば，高速な検索
が可能であるが，予めインデックス（索引）を作らなけ
ればならず，索引の作成に時間がかかる上に，索引に元
ファイルと同程度の容量が必要となり，検索頻度が低い
保管データに対しては，コストが高いという欠点があっ
た。

【０００４】一方，文字列サーチ法は，索引等の余分な
容量は取らないものの，検索に長時間要するという欠点
があった。文字列サーチ・ソフトウェアとしては，例え
ばＵＮＩＸ（登録商標）システムのｚｇｒｅｐ，ｂｇｒ
ｅｐおよびｇｒｅｐ等が知られている。

【０００５】したがって，保管データの検索には，余分
な資源を消費せず，かつ上記文字列サーチ法より高速で
相当な検索速度が得られる方法，ツールが必要とされ
る。

【０００６】上記の検索方式に対し，圧縮したまま全文
検索を行う「ＦＭ−ｉｎｄｅｘ」方式と呼ばれる圧縮検
索方式が，イタリアのピサ大学から最近発表された。Ｆ
Ｍ−ｉｎｄｅｘ方式は，データ圧縮にＢｌｏｃｋ−Ｓｏ
ｒｔ，検索にＳｕｆｆｉｘＡｒｒａｙ（接尾辞配列）と
呼ばれる方式を組み合わせたものである。Ｂｌｏｃｋ−
Ｓｏｒｔ圧縮法とＳｕｆｆｉｘＡｒｒａｙ検索法は，
ともに圧縮／検索の過程で，入力データを１文字ずつシ
フトした巡回文字列を用いるため，組み合わせの相性が
いいのである。

【０００７】ＦＭ−ｉｎｄｅｘ方式の検索速度は，Ｓｕ
ｆｆｉｘＡｒｒａｙ検索法を単独で用いた場合の１／
５程度であるが，ＵＮＩＸ用の代表的な文字列サーチ・
コマンド「ｇｒｅｐ」に比べれば，５〜１０倍高速であ
る。

【０００８】圧縮率と検索速度とがトレードオフ関係に
なることから，ＦＭ−ｉｎｄｅｘ方式では，（ａ）対象
ファイル内の検索すべき文字列の有無のみを検出できる
「ＦＭ−ｉｎｄｅｘ（ｔｉｎｙ版）」と，（ｂ）対象フ
ァイル内の検索すべき文字列の位置検出ができる「ＦＭ
−ｉｎｄｅｘ（ｆａｔ版）」の２種類のタイプが作られ
ている。

【０００９】圧縮検索法は，過去にも幾つか発表されて
いるが，ほとんどはインデックス検索に圧縮を付けた方
法である。インデックス検索・圧縮方式としては，メル
ボルン大学のＭａｎａｇｉｎｇＧｉｇａ−ｂｙｔｅシ
ステムが著名である。このインデックス検索・圧縮方式
は，アクセス頻度が高いデータの検索方式であり，索引
データの容量を削減するところに視点がある。これに対
して，ＦＭ−ｉｎｄｅｘ方式は，アクセス頻度が低い保
管データに適する方法である。

【００１０】以下では，本発明に関連する書庫管理ソフ
トウェア（アーカイバ）と，ＦＭ−ｉｎｄｅｘ方式につ
いて説明する。

【００１１】書庫管理ソフトウェア（アーカイバ）と
は，計算機上の複数個のファイルを束ね，１個のファイ
ル（これを書庫という）にする機能を持つ。書庫機能と
圧縮機能を組み合わせると，多数のファイルをコンパク
トに扱えるので，双方の機能を組み合わせて用いること
が多い。著名なものとして，ＵＮＩＸシステムの圧縮用
のｃｏｍｐｒｅｓｓコマンドと書庫用のｔａｒコマンド
の組み合わせや，フリーソフトのＬＨＡがある。圧縮方
式としては，データの種類を選ばずに圧縮できるユニバ
ーサル符号化方式が用いられる。ユニバーサル符号化方
式の圧縮データは，検索するには一度復元する必要があ
り，圧縮符号のままで検索はできない。

【００１２】次に，ＦＭ−ｉｎｄｅｘ方式の原理を説明
する。

【００１３】（１）圧縮検索に用いる圧縮データ図１１（Ａ）に，圧縮検索に用いる圧縮データの元の文
書データの例を示す。元の文書データは「くれにさくら
いくらさく＃」であり，ブロック整列を適用するため，
データの末尾に「＃」が付けられている。

【００１４】次に，図１１（Ｂ）に従って，ブロック整
列をもとに圧縮と検索に用いる５種類のデータ（データ
Ｄ１〜Ｄ５）を説明する。

【００１５】まず，図１１（Ａ）に示す文書データの文
字列を，１バイトずつ巡回させた文字列である巡回行列
を作り，それを辞書順に整列する。その左端の列（Ｆ列
という）と右端の列（Ｌ列という）が，圧縮と検索を行
うための元データであり，処理の対象となる。

【００１６】元データを復元するための圧縮データ
（２種類：Ｄ１，Ｄ２）「Ｌ列」が，元のデータを復元するために圧縮すべき列
である。Ｌ列を同じ文字数のブロックごとに分割し，ブ
ロック単位に復元できる形で圧縮し，圧縮データとして
持つ（データＤ１）。各ブロックは，ＭＴＦ(Move to F
ront) ，連長 (run length) ，可変長符号化（ハフマン
符号化）等の圧縮方式を組み合わせて圧縮する。そし
て，Ｌ列をブロック単位圧縮したデータを，ブロックご
とに復元できるように「各ブロックの圧縮符号の開始位
置」をデータとして持つ（データＤ２）。

【００１７】検索用の圧縮データ（３種類：Ｄ３，
Ｄ４，Ｄ５）［文字列の位置を割り出すデータＤ３］図１１（Ｂ）の
左端から２列目が，Ｆ列の各文字の「元文書における位
置」である。これから検索時に文字列の存在する位置を
把握できる。これを，図１１（Ｂ）の左端列の「間引き
した位置」のように，「元文書における位置」中を等間
隔に間引き（図では，１，５，９，…）してデータ量を
減らす。これを検索用文字列位置データ（データＤ３）
として持つ。

【００１８】［文字列の有無を探すデータＤ４］Ｆ列は
元文書を辞書順に並べたため，各先頭文字が塊りで出現
することになる。各先頭文字の範囲を，「各文字の開始
点」で表す。例えば，「い２」は，文字「い」がＦ列の
２番目の要素から始まることを示す。次に出る「く３」
を見れば，「い」の範囲は１文字であることが分かる。
この「Ｆ列の各文字の開始点」を，検索用データ（デー
タＤ４）として持つ。

【００１９】［Ｌ列に関する検索用データＤ５］次にＬ
列に関する検索用データとして，「ブロック境界での各
文字の累積頻度」（データＤ５）を算出して持つ。「ブ
ロック境界での各文字の累積頻度」は，Ｌ列の先頭から
任意のブロックの境界までの，各文字の累積頻度を示
す。ブロック末尾と直前ブロック末尾との「各文字の累
積頻度」間の差分を取れば，そのブロック内で各文字の
出現の有無，何回出現したかを知ることができる。

【００２０】（２）検索の手順（２−１）検索文字列の出現回数の検出図１２を用いて，与えられた検索文字列「さくら」の出
現回数を検出する手順を説明する。文字列の照合は，方
式上の制約から後ろ向き（ら→く→さ）の順に行い，次
の性質を用いて行う。

【００２１】図１２から，ブロック整列データでは，各
行でＦ列の左隣の文字はＬ列に出ており，各行のＦ列と
Ｌ列との関係から２文字間の繋がりを逐次探すようにす
る。「さくら」を後ろ向きに照合すると，Ｆ列の「ら」
の行で，かつ，Ｌ列に「く」を持つ行は２行分であるた
め，「くら」の出現回数は２回であることを知ることが
できる。

【００２２】同様にして，後ろから，Ｌ列「ら」の範囲
→Ｆ列「ら・く」の範囲→Ｌ列「くら」の範囲→Ｆ列
「くら・さ」の範囲と検出する。Ｆ列「ら・く」の２行
分から，Ｌ列「くら」の範囲を見つけるには，Ｆ列に現
れる文字と，Ｌ列に現れる同じ文字とは，各列で上から
数えた「順番」が保たれる性質を利用する。以下に具体
的に説明する。

【００２３】「ら」で始まる範囲を調べる。「Ｆ列
の各文字の開始点」の情報である「ら１０」「れ１２」
から，「ら」の範囲は１０行〜１１行目に渡って，２個
あることが分かる。

【００２４】各行で，「ら」の左隣にある「く」は
Ｌ列に出現する。「ら」の各行は，Ｌ列の第４ブロック
にあり，第４ブロックを「開始位置」の情報を用いて部
分復元する。復元したＬ列の部分を調べ，Ｆ列「ら」の
行に「く」が出ていることを検出する。

【００２５】次に，Ｆ列「くら」の範囲を知るため
に，ブロックの「累積頻度」情報から，Ｆ列「ら」−Ｌ
列「く」の行について，Ｌ列の「く」が現れる順番を数
える。第３ブロック末尾の「く」の累積頻度は１である
ので，Ｆ列「ら」−Ｌ列「く」の行の「く」の順番は２
番，３番であることが分かる。

【００２６】Ｆ列「くら」の範囲を割り出す。Ｆ列
「く」は，「Ｆ列の各文字の開始点」情報「く３」「さ
７」から，３行〜６行目に渡って，４個あることが分か
る。このうち，で調べた「く」の順番から，２番目，
３番目にある４行，５行目がＦ列「くら」の範囲であ
る。

【００２７】Ｆ列「くら」の範囲で，上記と同様
の作業を繰り返す。Ｆ列「くら」行がある第２ブロック
を部分復元して，Ｆ列「くら」行のＬ列に「さ」が現れ
ていることを知る。「さくら」は１回出現していること
が分かる。と同様にＬ列での「さ」の順番を調べ，最
終的にＦ列で「さくら」が現れる行を求める。

【００２８】（２−２）検索文字列の出現位置の検出図１３を用いて，検索文字列「さくら」の出現位置を検
出（locate）する手順を説明する。上記（２−１）の手
順により「さくら」で始まる行が検出される。「元文書
における（対応する文字）位置」は，「間引きした位
置」になっているため，検索文字列検出の手順を続け，
後ろ向きに，「間引きした位置」がある場所まで遡って
対応を付ける。「さくら」の「さ」の１文字前は，同じ
行のＬ列にある「に」である。この「に」がＦ列で何番
目かは，上述のように部分復元データと「累積頻度」か
ら割り出す。Ｆ列の「にさくら」を求め，さらに同様の
作業を繰り返して，「間引きした位置」のある文字まで
遡って，位置情報を得る。元の「さくら」の位置は，
（間引き位置の値）＋（遡った文字数）によって求めら
れる。

【００２９】図１３の例では，「さ」→「に」→「れ」
→「く」の順で先行文字を遡って探索し，「く」には
「間引きした位置」の値として「１」が設定されている
ので，「さ」の位置，すなわち検索文字列の出現位置
は，１（間引き位置の値）＋３（遡った文字数）＝４と
求められる。

【００３０】次に，上述したピサ大学のＦＭ−ｉｎｄｅ
ｘ方式の圧縮検索の実装・評価について説明する。

【００３１】（１）方式ソフトのバリエーションピサ大学の圧縮検索方式は，ＦＭ−ｉｎｄｅｘとして実
装されており，機能が異なるＦＭ−ｉｎｄｅｘ・ｔｉｎ
ｙ版と，ＦＭ−ｉｎｄｅｘ・ｆａｔ版がある。ｔｉｎｙ
版は，８ＫＢのブロック単位に部分復元を行う。元文書
での各文字位置を持たず，検索文字列の有無検出機能だ
けを持つ。ｆａｔ版は，１ＫＢのブロック単位に部分復
元し，検索文字列の有無および位置検出の機能を持つ。

【００３２】（２）圧縮・検索性能についてＦＭ−ｉｎｄｅｘ方式の圧縮率は，ｇｚｉｐよりやや勝
る。接尾辞配列は元データを要するので１００％を超え
る。圧縮時間は，ｇｚｉｐより３倍遅い。復元時間は，
ｇｚｉｐより８倍遅い。検索速度は，ｇｚｉｐより５倍
速く，ＳｕｆｆｉｘＡｒｒａｙ検索よりは遅い。

【００３３】（２ａ）ｔｉｎｙ版の性能ｔｉｎｙ版はブロックが大きく，Ｌ列分割の個数が少な
いため，「各ブロックの圧縮符号の開始位置」，「ブロ
ック境界での各文字の累積頻度」の情報の個数が少な
い。圧縮率は，ｂｚｉｐ２並みであり，ｇｚｉｐより勝
る。

【００３４】（２ｂ）ｆａｔ版の評価ｆａｔ版は，ブロックを小さく取り，Ｌ列分割の個数が
多くなるため，「各ブロックの圧縮符号の開始位置」，
「ブロック境界での各文字の累積頻度」の情報の個数が
多い。ｆａｔ版の圧縮率はｔｉｎｙ版より１０％悪化
し，ｂｚｉｐ２より３０〜６０％悪化するが，ｚｉｐと
同等であり，ｇｒｅｐより高速である。

【００３５】［参考文献］１）Ferragina & G. Manzini "Opportunistic data str
uctures with applications"， IEEE FOCS 2000. ２）Ferragina & G. Manzini "An experimental study
of an opportunistic index"， ACM-SIAM SODA 2001. ３）http://butirro.di.unipi.it/FM-index/index.html

【００３６】

【発明が解決しようとする課題】ここで，ＦＭ−ｉｎｄ
ｅｘ方式のように圧縮と検索とが同時にできる実用的な
方式を用いることによって，圧縮検索アーカイバを構成
することを考える。アーカイバとは，計算機上の複数個
のファイルを束ね，１個のファイル（書庫）にする機能
を持つ書庫管理ソフトウェアである。圧縮検索アーカイ
バにおいて，多数のファイルを書庫に格納するときに，
圧縮と検索とが両立できて，通常の圧縮アーカイバと比
べて，優位な性能が得られるべきである。

【００３７】しかしながら，従来技術では，ＦＭ−ｉｎ
ｄｅｘ方式でｔｉｎｙ版を用いると，通常の圧縮アーカ
イバと同様の圧縮率が得られるが，検索してもファイル
内の文字列の位置までは分からないという欠点があっ
た。一方，ＦＭ−ｉｎｄｅｘ方式のｆａｔ版を用いる
と，圧縮データ中の検索文字列位置まで分かるが，圧縮
率が３０〜６０％悪化して，通常の圧縮アーカイバに比
べて圧縮性能が見劣りするという欠点があった。

【００３８】このように，従来技術では，圧縮と検索の
双方を行う検索方式を用いて圧縮検索アーカイバを構成
し，多数のファイルを書庫に格納する場合に，ファイル
の圧縮率と検索速度とがトレードオフの関係にあり，格
納対象となるすべてのファイルについて，圧縮率と検索
速度とが一律に決まってしまうという問題点があった。

【００３９】本発明は，上記従来技術の問題点を解決
し，圧縮と検索の機能を持つ圧縮検索書庫を作成する際
に，圧縮率優先の方式か，検索速度優先の方式か，また
は双方をバランスさせる方式かを選択して用いることが
できる書庫ファイルの作成手段を提供することを目的と
する。

【００４０】

【課題を解決するための手段】上記課題を達成するた
め，本発明は，電子データを圧縮し，圧縮データ上で指
定した任意の文字列の検索を容易にする機能を持つ圧縮
検索ソフトウェアをエンジンとして用いて，複数のファ
イルを束ねた書庫ファイルを作成する圧縮検索アーカイ
ブ処理方法であって，圧縮率と検索速度のトレードオフ
に応じて用意した複数の方式を，選択して圧縮するよう
に構成される。

【００４１】上記構成を採る場合において，前記圧縮率
と検索速度のトレードオフに応じて用意した複数の圧縮
検索方式は，圧縮率を優先する方式と，検索速度を優先
する方式と，圧縮率と検索速度をバランスさせる方式で
あり，これらのいずれかを選択して用いることができる
ようにする。例えば，圧縮率優先で検索時には検索文字
の出現の有無のみ求める方法と，検索速度優先で検索時
に検索文字列の出現位置も求める方法とを選択できるよ
うにする。

【００４２】また，上記構成を採る場合において，書庫
ファイルの圧縮ファイルのファイルヘッダに選択した圧
縮方式の情報を書いておき，読み取った圧縮方式に応じ
て，圧縮ファイルの復元，および，文字列の検索を行
う。

【００４３】また，上記構成を採る場合において，前記
圧縮率と検索速度をバランスさせる方法は，所定の小容
量ファイルは圧縮率を優先し，大容量ファイルは検索速
度を優先する方式を用いる方法，または，同種の小容量
ファイルを繋いだ複合ファイルを圧縮し書庫に格納する
とともに，検索時，復元分離時に識別可能な情報をファ
イルヘッダに記述する方法を用いる。

【００４４】前者の方式においては，例えば，所定の小
容量ファイルは検索文字列の有無だけの検出であるが高
圧縮の方式を用い，大容量ファイルは検索文字列の文字
位置まで検出できる方式を用いる。また，後者の方式に
おいては，例えば，所定の小容量ファイルは同種のファ
イルを繋いで，検索文字位置まで検出できる圧縮検索方
式を用い，大容量ファイルも同様に検索文字列の文字位
置まで検出できる方式を用いる。すなわち，所定の小容
量ファイルについては，同種のファイルを繋いだファイ
ルを圧縮し書庫に格納するとともに，そのファイルヘッ
ダに該繋いだ各ファイルのファイル名，ファイルサイズ
を書いておき，該繋いだファイル中のファイルをファイ
ル単位に復元する。

【００４５】本発明は，より具体的には，例えば，ＦＭ
−ｉｎｄｅｘ方式のように圧縮と検索が同時にできる検
索方式を用いて圧縮・検索アーカイバを構成し，多数の
ファイルを書庫に格納する際に，（１）ｔｉｎｙ版を用
いて圧縮率優先で圧縮するか，（２）ｆａｔ版を用いて
検索速度優先で圧縮するか，または（３）圧縮率と検索
速度とのバランスを取るバランスモードで圧縮するか
を，事前に選択できる機構を設ける。上記の（１）圧縮
率優先，（２）検索速度優先では，それぞれ，ｔｉｎｙ
版と，ｆａｔ版を単独に用いて，圧縮・復元・検索を行
うが，バランスモードでは以下の方法を用いる。

【００４６】第一の方法は，アーカイブするファイルの
うち，小さい容量のファイル（例えば，５ＫＢ以下）は
ｔｉｎｙ版で圧縮し，大きい容量のファイルはｆａｔ版
で圧縮して格納する。ハードディスク（ＨＤ）記憶媒体
へのバックアップの用途では，小さいファイルが多数
で，大きいファイルが少数になる傾向がある（例えば特
開平１１−５３２４０号公報の「計算機のデータバック
アップ装置及びデータバックアップ方法並びにデータバ
ックアッププログラムを記録したコンピュータ読み取り
可能な記録媒体」では，バックアップする前に，多数の
小さいファイルを一つのファイルにアーカイブしておく
ことにより，バックアップ処理を高速化できることが述
べられている）。

【００４７】バックアップした圧縮ファイルを検索する
場合，小さいファイルは対象文字列があるファイルさえ
特定できれば，後は復元して周知のｇｒｅｐで探しても
いい。小さいファイルは，圧縮時の学習効果が不十分
で，圧縮率をよくすることができないので，できるだけ
高圧縮を得るようにする。一方で，大きいファイルは，
高圧縮が得やすく速い検索が必要となる。

【００４８】第二の方法は，例えば，Ｗｉｎｄｏｗｓ
（米国マイクロソフト社のＯＳ）のようなオペレーティ
ング・システムの場合，ファイル拡張子が同じ同種のフ
ァイルで，容量の小さいものを集めて一本のファイルに
繋いで，圧縮をかける。ＳｕｆｆｉｘＡｒｒａｙのｐ
ｏｉｎｔｅｒにファイル順番を入れ，書庫ファイルのヘ
ッダに，繋いだ各ファイルの「ディレクトリ位置」「長
さ」「繋いだ順番」を持ち，検索時，復元分離時に識別
できるようにしておく。小さいファイルは圧縮時の学習
効果が不十分であるが，同種のファイルを集めれば，圧
縮率を高めることができる。このため，同種のファイル
を拡張子で識別して集める。圧縮率が高まれば，ｆａｔ
版にして，位置検出までできるようにしてもよい。

【００４９】

【発明の実施の形態】以下，本発明の実施の形態を，図
を用いて説明する。図１は，本発明を実現する計算機シ
ステムの構成例を示す図である。ＣＰＵ１は，主記憶２
を用いて，諸々の演算処理を行う。キーボード４は，圧
縮／復元／検索するファイル／フォルダや，検索文字列
の指定情報を入力する。ディスプレイ３は，検索文字列
が検索対象のどのファイル／フォルダの，どの文字位置
に検出されたかを表示する。

【００５０】主記憶２は，本発明を実行するための圧縮
検索アーカイブ処理プログラム２０を格納し，圧縮復元
処理の作業領域２１を用いて圧縮復元を行うとともに，
圧縮を指定されたファイルがすべて処理し終えたかを検
査するファイル名リスト２２と，書庫ファイル１６中の
ファイルヘッダを作るための作業領域２３などに使われ
る。ハードディスク装置５は，圧縮すべきファイル１
７，１８，１９，…を格納するとともに，本発明で作成
する書庫ファイル１６およびバランスモードの第二の方
法で小容量のファイルを一つのファイルに繋ぐＷｏｒｋ
ファイル１５を格納する。ＣＰＵバス６は，ＣＰＵ１，
主記憶２および各周辺機器等を結ぶ信号線である。

【００５１】図２は，本発明に係る圧縮検索アーカイブ
処理プログラムの構成例を示す。指示情報入出力部２０
０は，ディスプレイ３，キーボード４その他の入出力機
器からユーザの指示情報を入力し，また結果を表示する
部分である。ファイル圧縮部２１０は，指定されたファ
イルを圧縮して書庫ファイル１６を作成するモジュー
ル，ファイル検索部２２０は，書庫ファイル１６中のフ
ァイルの文字列を検索するモジュール，ファイル復元部
２３０は，書庫ファイル１６から元のファイルを復元す
るモジュールである。

【００５２】圧縮検索ソフトウェア２４０，２５０は，
書庫ファイル１６の作成，検索および圧縮ファイルの復
元機能を持つソフトウェア・プログラムである。圧縮検
索ソフトウェア２４０は，圧縮検索ソフトウェア２５０
に比べて圧縮率は高いが検索速度は低い。圧縮検索ソフ
トウェア２４０は，例えばＦＭ−ｉｎｄｅｘ方式による
圧縮検索アーカイバのｔｉｎｙ版であり，圧縮検索ソフ
トウェア２５０は，例えばＦＭ−ｉｎｄｅｘ方式による
圧縮検索アーカイバのｆａｔ版である。

【００５３】圧縮検索ソフトウェア２４０，２５０は，
本発明に係る圧縮検索アーカイブ処理プログラム２０内
に組み込まれていてもよく，または既存のプログラムを
利用する場合には，外部のプログラムモジュールとして
構成されていてもよい。

【００５４】ファイル圧縮部２１０は，指示情報入出力
部２００からの指示によって，圧縮率優先モードか，検
索速度優先モードか，圧縮率と検索速度とをバランスさ
せるバランスモードかを選択するモード選択部２１１
と，圧縮率優先モードが選択された場合に，圧縮検索ソ
フトウェア２４０を呼び出して指定されたファイルを圧
縮する圧縮率優先モード処理部２１２と，検索速度優先
モードが選択された場合に，圧縮検索ソフトウェア２５
０を呼び出して指定されたファイルを圧縮する検索速度
優先モード処理部２１３と，バランスモードが選択され
た場合に，ファイルのサイズ（容量）や種類等の属性に
応じて圧縮検索ソフトウェア２４０または圧縮検索ソフ
トウェア２５０のいずれかを適宜呼び出してファイルを
圧縮するバランスモード処理部２１４とを有する。

【００５５】圧縮検索ソフトウェア２４０は，圧縮率優
先で圧縮を行い，検索時には検索文字の出現の有無のみ
を求めることができるアーカイブ・ソフトウェアであ
り，圧縮検索ソフトウェア２５０は，検索速度優先で圧
縮を行い，検索時には検索文字の出現位置も求めること
ができるアーカイブ・ソフトウェアである。

【００５６】図３および図４は，本実施の形態で作成さ
れる書庫ファイル１６のファイル形式の例を示す。

【００５７】本発明により作成される圧縮検索書庫のフ
ァイル形式は，例えば図３に示すようになっており，通
常の圧縮アーカイバで用いる書庫形式と変わらない形式
である。書庫に格納された各ファイルは，圧縮データ１
６０とファイルヘッダ１６１とから構成され，それらの
全体に書庫ヘッダ１６２が付加される。

【００５８】書庫ヘッダ１６２には，書庫ファイル名や
書庫作成日時，作成者名，バージョンＮｏ．等の情報が
格納される。ファイルヘッダ１６１には，ファイル名，
ディレクトリ位置，ファイルサイズ，圧縮データサイズ
の情報が格納され，さらに圧縮データの圧縮方式がｆａ
ｔ版か，ｔｉｎｙ版かの情報，更新日時，エラー検出訂
正用の符号（ＣＲＣ）が格納される。

【００５９】圧縮率優先，検索速度優先およびバランス
モードの第一の方法では，ファイルヘッダ１６１内に書
かれているｆａｔ版か，ｔｉｎｙ版かの圧縮方式の情報
に合わせて，復元および検索を行う。

【００６０】図４は，バランスモードの第二の方法を用
いて作成した書庫ファイル１６の形式の例を示す。図３
の例と同様であるが，この書庫ファイル１６は，Ｗｏｒ
ｋファイル１５を圧縮した複合ファイル圧縮データ１６
３を持つ。すなわち，複合ファイル圧縮データ１６３
は，小容量のファイルを繋いだＷｏｒｋファイル１５を
圧縮したものである。複合ファイルのファイルヘッダ１
６４には，複合ファイル識別子，Ｗｏｒｋファイルサイ
ズ，圧縮データサイズ等の他，Ｗｏｒｋファイル１５を
構成する各小容量のファイルのファイル名，ディレクト
リ位置，ファイルサイズ，更新日時等の情報が格納され
る。これらの情報から繋いであるファイルを復元，分離
することにより，通常のファイルと同様に復元すること
ができる。

【００６１】また，この複合ファイル圧縮データ１６３
は，ｆａｔ版で圧縮されているため，検索時に検索文字
列があれば，その文字位置から繋いであるどのファイル
のどの位置にあったかを算出して出力することができ
る。

【００６２】図５に，圧縮率優先方式の圧縮率優先モー
ドと，検索速度優先方式の検索速度優先モードと，圧縮
と検索をバランスさせたバランスモードとを選択，切替
えて用いる方式の処理フローを示す。

【００６３】まず，圧縮検索アーカイブ処理プログラム
２０の指示情報入出力部２００は，ユーザから圧縮する
モードを指定する情報を入力する（ステップＳ１）。モ
ード選択部２１１は，圧縮率優先モードの指定か，検索
速度優先モードの指定か，圧縮と検索とをバランスさせ
たバランスモードの指定かを判断する（ステップＳ２，
Ｓ３）。圧縮率優先モードの指定である場合には，圧縮
率優先モード処理部２１２がｔｉｎｙ版の圧縮検索ソフ
トウェア２４０を用いて圧縮対象ファイルを圧縮し，書
庫ファイル１６を作成する（ステップＳ４）。検索速度
優先モードの指定である場合には，検索速度優先モード
処理部２１３がｆａｔ版の圧縮検索ソフトウェア２５０
を用いて圧縮対象ファイルを圧縮し，書庫ファイル１６
を作成する（ステップＳ５）。検索速度優先の指定でな
い場合には，バランスモードであり，バランスモード処
理部２１４が，圧縮率・検索速度をバランスさせるバラ
ンスモードで書庫ファイル１６を作成する（ステップＳ
６）。

【００６４】図６および図７に，バランスモードの第一
の方法による圧縮，復元，検索のフローを示す。図６
（Ａ）は，バランスモードの第一の方法による圧縮処理
のフローを示す。まず，ユーザが指定した圧縮するファ
イルまたはフォルダの情報を入力する（ステップＳ１
０）。次に，指定されたファイルをすべて圧縮したかど
うかを判断する（ステップＳ１１）。圧縮していない指
定ファイルがある場合には，次に圧縮するファイルのサ
イズを取得し，書庫のファイルヘッダに書き込む（ステ
ップＳ１２）。

【００６５】続いて，ファイルサイズが所定の閾値を超
えているかを判断する（ステップＳ１３）。ファイルサ
イズが閾値を超えていない場合には，ｔｉｎｙ版ファイ
ル圧縮を選択し，ｔｉｎｙ版でファイル圧縮を行う（ス
テップＳ１４）。ファイルサイズが閾値を超えている場
合には，ｆａｔ版ファイル圧縮を選択し，ｆａｔ版でフ
ァイル圧縮を行う（ステップＳ１５）。以上のステップ
Ｓ１２〜Ｓ１５を，指定されたファイルをすべて圧縮す
るまで繰り返し（ステップＳ１１），すべて圧縮したな
ら処理を終了する。

【００６６】図６（Ｂ）は，バランスモードの第一の方
法による復元処理のフローを示す図である。まず，ユー
ザが指定した復元するファイルまたはフォルダの情報を
入力する（ステップＳ２０）。次に，指定されたファイ
ルをすべて復元したかどうかを判断し（ステップＳ２
１），復元していない指定ファイルがある場合には，復
元するファイルの情報を書庫のファイルヘッダから読み
出す（ステップＳ２２）。

【００６７】次に，読み出したファイルヘッダの情報に
基づき，ｆａｔ版かどうかを識別する（ステップＳ２
３）。圧縮方式がｆａｔ版でない場合には，ｔｉｎｙ版
でファイル復元する（ステップＳ２４）。圧縮方式がｆ
ａｔ版である場合には，ｆａｔ版でファイル復元する
（ステップＳ２５）。以上のステップＳ２２〜Ｓ２５
を，指定されたすべてのファイルを復元するまで繰り返
し（ステップＳ２１），すべて復元したなら処理を終了
する。

【００６８】図７は，バランスモードの第一の方法によ
る検索処理のフローを示す図である。まず，ユーザから
検索すべき文字列と，走査するファイル／フォルダの指
定情報を入力する（ステップＳ３０）。次に，指定され
たファイルをすべて走査したかどうかを判断し（ステッ
プＳ３１），走査していない指定ファイルがある場合に
は，検索するファイルの情報を書庫のファイルヘッダか
ら読み出す（ステップＳ３２）。

【００６９】次に，ファイルヘッダから読み出した圧縮
方式の情報に基づき，圧縮方式がｆａｔ版かｔｉｎｙ版
かを判断する（ステップＳ３３）。圧縮方式がｔｉｎｙ
版である場合には，ｔｉｎｙ版のファイル検索を行い
（ステップＳ３４），検索結果からファイル中に検索す
べき文字列が存在したかどうかを判断する（ステップＳ
３５）。存在しなかったならば，ステップＳ３１へ戻
る。検索すべき文字列が存在した場合には，そのファイ
ルを復元し，通常の文字列サーチで出現位置を検出し，
ファイル名と出現位置とを出力する（ステップＳ３
６）。その後，ステップＳ３１へ戻る。

【００７０】圧縮方式がｆａｔ版である場合には，ｆａ
ｔ版のファイル検索を行う（ステップＳ３７）。検索す
べき文字列があった場合，ファイル名と出現位置を出力
する（ステップＳ３８）。その後，ステップＳ３１へ戻
る。すべての指定ファイルを走査した場合には（ステッ
プＳ３１），処理を終了する。

【００７１】図８ないし図１０に，バランスモードの第
二の方法による圧縮，復元，検索のフローを示す。

【００７２】図８は，バランスモードの第二の方法によ
る圧縮処理のフローを示す図である。まず，ユーザから
圧縮するファイルまたはフォルダを指定する情報を入力
する（ステップＳ４０）。次に，圧縮するすべてのファ
イルのファイル名とサイズを取得し，リストを作る（ス
テップＳ４１）。

【００７３】次に，指定されたファイルをすべて圧縮し
たかどうかを判断する（ステップＳ４２）。まだ，圧縮
していない指定ファイルがある場合には，未圧縮ファイ
ルを一つ読み取る（ステップＳ４３）。読み取った未圧
縮ファイルのファイルサイズが，所定の閾値１を超えて
いるかどうかを判断し（ステップＳ４４），ファイルサ
イズが閾値１を超えている場合には，ステップＳ５２へ
進む。

【００７４】ファイルサイズが閾値１を超えていない場
合には，そのファイル名の拡張子を変数ｅｘｔに設定
し，Ｗｏｒｋファイル１５にコピーする（ステップＳ４
５）。続いて，リスト中に同じ拡張子を持つファイルが
あるかをどうかを判断し（ステップＳ４６），同じ拡張
子を持つファイルがない場合には，後述するステップＳ
５０へ進み，同じ拡張子を持つファイルがある場合に
は，そのファイルのサイズが閾値１を超えているかどう
かを判断する（ステップＳ４７）。ファイルのサイズが
閾値１を超えていない場合には，そのファイルをＷｏｒ
ｋファイル１５に繋いで，マージした上で（ステップＳ
４８），Ｗｏｒｋファイル１５のサイズが所定の閾値２
を超えるかどうかを判断する（ステップＳ４９）。Ｗｏ
ｒｋファイル１５のサイズが閾値２を超える場合には，
ステップＳ５０へ進む。

【００７５】ステップＳ４７の判定で，ファイルのサイ
ズが閾値１を超えている場合，またはステップＳ４９の
判定で，Ｗｏｒｋファイル１５のサイズが閾値２を超え
ない場合には，ステップＳ４６へ戻って，同様に処理を
繰り返す。

【００７６】ステップＳ５０では，Ｗｏｒｋファイル１
５用の特別なファイルヘッダを作り，マージしたファイ
ル名，ファイルサイズのリストをファイルヘッダに書き
出す。そして，Ｗｏｒｋファイル１５をｆａｔ版で圧縮
し（ステップＳ５１），リスト中で圧縮したファイルに
圧縮済の印を付ける（ステップＳ５３）。その後，ステ
ップＳ４２へ戻って，同様に処理を繰り返す。

【００７７】ステップＳ４４の判定において，ファイル
サイズが閾値１を超えている場合には，ステップＳ５２
へ進み，対象ファイルをｆａｔ版で圧縮し（ステップＳ
５２），リスト中で圧縮したファイルに圧縮済の印を付
ける（ステップＳ５３）。すべての指定されたファイル
を圧縮した場合には，処理を終了する。

【００７８】図９は，バランスモードの第二の方法によ
る復元処理フローを示す図である。まず，ユーザから復
元するファイルまたはフォルダを指定する情報を入力す
る（ステップＳ６０）。次に，指定されたファイルをす
べて復元したかを判断する（ステップＳ６１）。復元し
ていない指定ファイルがある場合には，指定されたファ
イルのファイルヘッダを書庫内から一つ読み出す（ステ
ップＳ６２）。

【００７９】次に，対象ファイルが複合ファイル内にあ
るかを判断する（ステップＳ６３）。対象ファイルが複
合ファイル内になかった場合，その対象ファイルをｆａ
ｔ版で復元する（ステップＳ６４）。

【００８０】対象ファイルが複合ファイル内にある場合
には，対象ファイルを含むＷｏｒｋファイル１５を復元
済かを判断し（ステップＳ６５），Ｗｏｒｋファイルが
復元済でない場合には，複合ファイルのＷｏｒｋファイ
ル１５をｆａｔ版で復元する（ステップＳ６６）。復元
したＷｏｒｋファイルから対象ファイルを取り出す（ス
テップＳ６７）。指定されたファイルをすべて復元した
場合には，処理を終了する。

【００８１】Ｗｏｒｋファイルの復元について，別の方
法として，Ｗｏｒｋファイルを図１１の圧縮データのブ
ロック分割（Ｄ１）において，ブロックを各格納ファイ
ルごとに分ければ，対象ファイルのみ部分復元すること
もできる。

【００８２】図１０は，バランスモードの第二の方法に
よる検索処理のフローを示す図である。まず，ユーザか
ら，検索すべき文字列と，走査するファイル／フォルダ
を指定する情報を入力する（ステップＳ７０）。次に，
指定されたファイルをすべて走査したかを判断する（ス
テップＳ７１）。走査していない指定ファイルがある場
合には，指定されたファイルのファイルヘッダを書庫内
から一つ読み出す（ステップＳ７２）。次に，対象ファ
イルが複合ファイル内にあるかを判断する（ステップＳ
７３）。

【００８３】対象ファイルが複合ファイル内にない場合
には，そのファイルについて検索すべき文字列を検索
し，検索すべき文字列がある場合には，そのファイル名
と出現位置を出力する（ステップＳ７７）。

【００８４】対象ファイルが複合ファイル内にある場合
には，対象ファイルを含むＷｏｒｋファイル１５を復元
済かどうかを判断し（ステップＳ７４），Ｗｏｒｋファ
イルを復元済でない場合には，複合ファイルのＷｏｒｋ
ファイル１５をｆａｔ版で復元する（ステップＳ７
５）。その後，復元したＷｏｒｋファイル１５を検索
し，検索すべき文字列がある場合，各ファイルのサイズ
より，検出したファイル名とファイル内の出現位置を算
出して出力する（ステップＳ７６）。指定されたファイ
ルをすべて走査した場合には，処理を終了する。

【００８５】本発明の変形例として，本実施の形態で
は，圧縮率と検索速度のトレードオフから，ｔｉｎｙ版
とｆａｔ版の２種類のタイプを用いたが，これは必ずし
も２種類に限る必要はなく，検索文字の位置まで検出す
るｆａｔ版は，さらに検索速度が速いものと，遅いもの
等に分けて用意することができる。その場合，本実施の
形態のように，圧縮率と検索速度をユーザの要求に応じ
て，より細かく選択してもらうことができるし，バラン
スモードにおいて，より細かく自動的に選択することが
できる。

【００８６】以上の処理は，コンピュータとソフトウェ
アプログラムとによって実現することができ，そのプロ
グラムは，コンピュータが読み取り可能な可搬媒体メモ
リ，半導体メモリ，ハードディスク等の適当な記録媒体
に格納して，そこから読み出すことによりコンピュータ
に実行させることができる。また，そのプログラムは通
信回線を経由して他のコンピュータからダウンロードす
ることができ，それをインストールして実行させること
もできる。

【００８７】以下に，本実施の形態の特徴を列挙する。

【００８８】（付記１）電子データを圧縮し，圧縮デ
ータ上で指定された任意の文字列の検索を容易にする機
能を持つ圧縮検索ソフトウェアを用いて，複数のファイ
ルを束ねた書庫ファイルを作成する圧縮検索アーカイブ
処理方法であって，圧縮率と検索速度のトレードオフに
応じて用意された複数の異なる圧縮検索方式を，ユーザ
の指定により，または圧縮対象ファイルの属性により選
択する過程と，前記選択された圧縮検索方式に応じた圧
縮検索ソフトウェアを用いて圧縮対象ファイルを圧縮す
る過程とを有することを特徴とする圧縮検索アーカイブ
処理方法。

【００８９】（付記２）付記１記載の圧縮検索アーカ
イブ処理方法において，前記複数の異なる圧縮検索方式
は，圧縮率優先で検索時には検索文字の出現の有無のみ
求める方式と，検索速度優先で検索時に検索文字例の出
現位置も求める方式とを含むことを特徴とする圧縮検索
アーカイブ処理方法。

【００９０】（付記３）電子データを圧縮し，圧縮デ
ータ上で指定された任意の文字列の検索を容易にする機
能を持つ圧縮検索ソフトウェアを用いて，複数のファイ
ルを束ねた書庫ファイルを作成する圧縮検索アーカイブ
処理方法であって，圧縮対象ファイルのファイルサイズ
が所定の閾値より大きいか小さいかを判定する過程と，
圧縮対象ファイルのサイズが所定の閾値より小さい場合
に，圧縮率と検索速度のトレードオフに応じて用意され
た複数の異なる圧縮検索方式のうち，圧縮率のよいほう
の圧縮検索方式に応じた圧縮検索ソフトウェアを用いて
圧縮対象ファイルを圧縮し，圧縮対象ファイルのサイズ
が所定の閾値より大きい場合に，前記複数の異なる圧縮
検索方式のうち，検索速度のよいほうの圧縮検索方式に
応じた圧縮検索ソフトウェアを用いて圧縮対象ファイル
を圧縮する過程とを有することを特徴とする圧縮検索ア
ーカイブ処理方法。

【００９１】（付記４）電子データを圧縮し，圧縮デ
ータ上で指定された任意の文字列の検索を容易にする機
能を持つ圧縮検索ソフトウェアを用いて，複数のファイ
ルを束ねた書庫ファイルを作成する圧縮検索アーカイブ
処理方法であって，圧縮率優先モードと検索速度優先モ
ードとバランスモードのいずれかを選択する過程と，圧
縮率優先モードが選択された場合に，圧縮率と検索速度
のトレードオフに応じて用意された複数の異なる圧縮検
索方式のうち，圧縮率のよいほうの圧縮検索方式に応じ
た圧縮検索ソフトウェアを用いて圧縮対象ファイルを圧
縮する過程と，検索速度優先モードが選択された場合
に，前記複数の異なる圧縮検索方式のうち，検索速度の
よいほうの圧縮検索方式に応じた圧縮検索ソフトウェア
を用いて圧縮対象ファイルを圧縮する過程と，バランス
モードが選択された場合に，圧縮対象ファイルのファイ
ルサイズが所定の閾値より大きいか小さいかを判定し，
圧縮対象ファイルのサイズが所定の閾値より小さい圧縮
対象ファイルについては，前記複数の異なる圧縮検索方
式のうち圧縮率のよいほうの圧縮検索方式に応じた圧縮
検索ソフトウェアを用いて圧縮し，圧縮対象ファイルの
サイズが所定の閾値より大きい圧縮対象ファイルについ
ては，前記複数の異なる圧縮検索方式のうち検索速度の
よいほうの圧縮検索方式に応じた圧縮検索ソフトウェア
を用いて圧縮する過程とを有することを特徴とする圧縮
検索アーカイブ処理方法。

【００９２】（付記５）付記１から付記４までのいず
れかに記載の圧縮検索アーカイブ処理方法において，前
記書庫ファイル中の各圧縮ファイルのファイルヘッダに
前記選択された圧縮検索方式の種別を記録する過程をさ
らに有し，記録された圧縮検索方式の種別に応じて圧縮
ファイルの復元または文字列の検索を行うことを特徴と
する圧縮検索アーカイブ処理方法。

【００９３】（付記６）電子データを圧縮し，圧縮デ
ータ上で指定された任意の文字列の検索を容易にする機
能を持つ圧縮検索ソフトウェアを用いて，複数のファイ
ルを束ねた書庫ファイルを作成する圧縮検索アーカイブ
処理方法であって，圧縮対象ファイルのファイルサイズ
が所定の閾値より大きいか小さいかを判定する過程と，
圧縮対象ファイルのサイズが所定の閾値より小さい場合
に，それらのサイズが小さい同種の圧縮対象ファイルを
複数繋いだ複合ファイルを作り，圧縮対象ファイルのサ
イズが所定の閾値より大きい圧縮対象ファイルと前記複
合ファイルとを，前記圧縮検索ソフトウェアを用いて圧
縮する過程とを有することを特徴とする圧縮検索アーカ
イブ処理方法。

【００９４】（付記７）電子データを圧縮し，圧縮デ
ータ上で指定された任意の文字列の検索を容易にする機
能を持つ圧縮検索ソフトウェアを用いて，複数のファイ
ルを束ねた書庫ファイルを作成する圧縮検索アーカイブ
処理方法であって，圧縮率優先モードと検索速度優先モ
ードとバランスモードのいずれかを選択する過程と，圧
縮率優先モードが選択された場合に，圧縮率と検索速度
のトレードオフに応じて用意された複数の異なる圧縮検
索方式のうち，圧縮率のよいほうの圧縮検索方式に応じ
た圧縮検索ソフトウェアを用いて圧縮対象ファイルを圧
縮する過程と，検索速度優先モードが選択された場合
に，前記複数の異なる圧縮検索方式のうち，検索速度の
よいほうの圧縮検索方式に応じた圧縮検索ソフトウェア
を用いて圧縮対象ファイルを圧縮する過程と，バランス
モードが選択された場合に，圧縮対象ファイルのファイ
ルサイズが所定の閾値より大きいか小さいかを判定し，
圧縮対象ファイルのサイズが所定の閾値より小さい場
合，それらの同種の圧縮対象ファイルを複数繋いだ複合
ファイルを作り，前記複数の異なる圧縮検索方式のう
ち，圧縮率のよいほうの圧縮検索方式に応じた圧縮検索
ソフトウェアを用いて圧縮対象ファイルを圧縮する過程
とを有することを特徴とする圧縮検索アーカイブ処理方
法。

【００９５】（付記８）付記６または付記７記載の圧
縮検索アーカイブ処理方法において，前記書庫ファイル
中の前記複合ファイルを圧縮したファイルのファイルヘ
ッダに，その複合ファイルを作成する各ファイルのファ
イル名，ファイルサイズを書き込む過程をさらに有し，
そのファイルヘッダを参照することにより複合ファイル
中のファイルをファイル単位に復元することを特徴とす
る圧縮検索アーカイブ処理方法。

【００９６】（付記９）付記１から付記８までのいず
れか１項に記載の圧縮検索アーカイブ処理方法を，コン
ピュータに実行させるための圧縮検索アーカイブ処理プ
ログラム。

【００９７】（付記１０）付記１から付記８までのい
ずれか１項に記載の圧縮検索アーカイブ処理方法を，コ
ンピュータに実行させるためのプログラムを記録したこ
とを特徴とする圧縮検索アーカイブ処理プログラムの記
録媒体。

【００９８】

【発明の効果】本発明によれば，書庫内のファイル群に
対して，圧縮率と検索速度のどちらを重視するか，ま
た，圧縮率と検索速度をバランスさせるか，ユーザの要
求によって選択して，圧縮格納することができる。

【００９９】また，技術・ビジネス上の意義としては，
圧縮検索機能の本格実用化に備え，効果的な使い方，有
効な用途の開拓に資する。例えば，何度も高速に検索し
たい場合には，一般にインデックス（索引）検索が取ら
れるが，ウィルスチェックのスキャンのように１回限り
で，データの更新が伴うときには文字列サーチに頼るこ
とになる。これに対し，ＦＭ−ｉｎｄｅｘ方式の圧縮・
検索は，インデックス（索引）の容量が不要で，しかも
文字列サーチより５〜１０倍高速である。従って，ＦＭ
−ｉｎｄｅｘ方式のような圧縮・検索をさらに有効に活
用できるようにした本発明は，メーラー等，インデック
ス検索するほどでもない検索頻度が小さい文書ファイル
の検索に有効である。本発明の仕組みを例えばウィルス
・チェック機構に組み込み，応用することにより，バッ
クアップと同時にウィルス・チェックができて効果的で
ある。また，本発明の圧縮検索書庫格納データは，高速
にウィルス・スキャンすることができる。

【図面の簡単な説明】

【図１】本発明を実現する計算機システムの構成例を示
す図である。

【図２】本発明に係る圧縮検索アーカイブ処理プログラ
ムの構成例を示す図である。

【図３】書庫ファイルの形式を示す図である。

【図４】書庫ファイルの形式を示す図である。

【図５】本発明の実施の形態における圧縮処理の概略フ
ローを示す図である。

【図６】本発明の実施の形態におけるバランスモードの
第１の方法による圧縮，復元処理フローを示す図であ
る。

【図７】本発明の実施の形態におけるバランスモードの
第１の方法による検索処理フローを示す図である。

【図８】本発明の実施の形態におけるバランスモードの
第２の方法による圧縮処理フローを示す図である。

【図９】本発明の実施の形態におけるバランスモードの
第２の方法による復元処理フローを示す図である。

【図１０】本発明の実施の形態におけるバランスモード
の第２の方法による検索処理フローを示す図である。

【図１１】ＦＭ−ｉｎｄｅｘ方式の原理説明図である。

【図１２】ＦＭ−ｉｎｄｅｘ方式の原理説明図である。

【図１３】ＦＭ−ｉｎｄｅｘ方式の原理説明図である。

【符号の説明】

１ＣＰＵ２主記憶３ディスプレイ４キーボード５ハードディスク装置６ＣＰＵバス１５Ｗｏｒｋファイル１６書庫ファイル１７，１８，１９ファイル２０圧縮検索アーカイブ処理プログラム２１圧縮復元処理の作業領域２２ファイル名リスト２３ファイルヘッダ作成の作業領域１６０圧縮データ１６１ファイルヘッダ１６２書庫ヘッダ１６３複合ファイル圧縮データ１６４ファイルヘッダ２００指示情報入出力部２１０ファイル圧縮部２１１モード選択部２１２圧縮率優先モード処理部２１３検索速度優先モード処理部２１４バランスモード処理部２２０ファイル検索部２３０ファイル復元部２４０圧縮検索ソフトウェア（ｔｉｎｙ版）２５０圧縮検索ソフトウェア（ｆａｔ版）

───────────────────────────────────────────────────── フロントページの続きＦターム(参考） 5B075 ND03 NR02 NR03 NR16 NR20 QS01 5B082 GA01 GC04

Claims

【特許請求の範囲】

【請求項１】電子データを圧縮し，圧縮データ上で指
定された任意の文字列の検索を容易にする機能を持つ圧
縮検索ソフトウェアを用いて，複数のファイルを束ねた
書庫ファイルを作成する圧縮検索アーカイブ処理方法で
あって，圧縮率と検索速度のトレードオフに応じて用意
された複数の異なる圧縮検索方式を，ユーザの指定によ
り，または圧縮対象ファイルの属性により選択する過程
と，前記選択された圧縮検索方式に応じた圧縮検索ソフ
トウェアを用いて圧縮対象ファイルを圧縮する過程とを
有することを特徴とする圧縮検索アーカイブ処理方法。
【請求項２】電子データを圧縮し，圧縮データ上で指
定された任意の文字列の検索を容易にする機能を持つ圧
縮検索ソフトウェアを用いて，複数のファイルを束ねた
書庫ファイルを作成する圧縮検索アーカイブ処理方法で
あって，圧縮対象ファイルのファイルサイズが所定の閾
値より大きいか小さいかを判定する過程と，圧縮対象フ
ァイルのサイズが所定の閾値より小さい場合に，圧縮率
と検索速度のトレードオフに応じて用意された複数の異
なる圧縮検索方式のうち，圧縮率のよいほうの圧縮検索
方式に応じた圧縮検索ソフトウェアを用いて圧縮対象フ
ァイルを圧縮し，圧縮対象ファイルのサイズが所定の閾
値より大きい場合に，前記複数の異なる圧縮検索方式の
うち，検索速度のよいほうの圧縮検索方式に応じた圧縮
検索ソフトウェアを用いて圧縮対象ファイルを圧縮する
過程とを有することを特徴とする圧縮検索アーカイブ処
理方法。
【請求項３】電子データを圧縮し，圧縮データ上で指
定された任意の文字列の検索を容易にする機能を持つ圧
縮検索ソフトウェアを用いて，複数のファイルを束ねた
書庫ファイルを作成する圧縮検索アーカイブ処理方法で
あって，圧縮対象ファイルのファイルサイズが所定の閾
値より大きいか小さいかを判定する過程と，圧縮対象フ
ァイルのサイズが所定の閾値より小さい場合に，それら
のサイズが小さい同種の圧縮対象ファイルを複数繋いだ
複合ファイルを作り，圧縮対象ファイルのサイズが所定
の閾値より大きい圧縮対象ファイルと前記複合ファイル
とを，前記圧縮検索ソフトウェアを用いて圧縮する過程
とを有することを特徴とする圧縮検索アーカイブ処理方
法。
【請求項４】請求項１，請求項２または請求項３記載
の圧縮検索アーカイブ処理方法を，コンピュータに実行
させるための圧縮検索アーカイブ処理プログラム。
【請求項５】請求項１，請求項２または請求項３記載
の圧縮検索アーカイブ処理方法を，コンピュータに実行
させるためのプログラムを記録したことを特徴とする圧
縮検索アーカイブ処理プログラムの記録媒体。