JP2003337822A - 圧縮検索アーカイブ処理方法,圧縮検索アーカイブ処理プログラムおよびそのプログラムの記録媒体 - Google Patents

圧縮検索アーカイブ処理方法,圧縮検索アーカイブ処理プログラムおよびそのプログラムの記録媒体

Info

Publication number
JP2003337822A
JP2003337822A JP2002145757A JP2002145757A JP2003337822A JP 2003337822 A JP2003337822 A JP 2003337822A JP 2002145757 A JP2002145757 A JP 2002145757A JP 2002145757 A JP2002145757 A JP 2002145757A JP 2003337822 A JP2003337822 A JP 2003337822A
Authority
JP
Japan
Prior art keywords
compression
search
file
compressed
archive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2002145757A
Other languages
English (en)
Inventor
Shigeru Yoshida
茂 吉田
Hironori Yahagi
裕紀 矢作
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2002145757A priority Critical patent/JP2003337822A/ja
Publication of JP2003337822A publication Critical patent/JP2003337822A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 圧縮検索アーカイブ処理方法に関し,圧縮率
優先または検索速度優先またはそれらをバランスさせた
圧縮検索書庫の作成を可能にすることを目的とする。 【解決手段】 圧縮率と検索速度のトレードオフに応じ
て複数の圧縮検索ソフトウェア240,250を用意
し,指定された圧縮率優先モード,検索速度優先モード
またはバランスモードによって,使用する圧縮検索ソフ
トウェア240,250を選択する。バランスモードが
選択された場合には,各圧縮対象ファイルのサイズによ
って,圧縮率優先の圧縮検索ソフトウェア240を用い
るか,検索速度優先の圧縮検索ソフトウェア250を用
いるかを決める。またはバランスモードのときには小容
量のファイルを連結した複合ファイルを作成し,検索速
度優先の圧縮検索ソフトウェア250を用いて書庫ファ
イルを作成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は,圧縮して保管,ま
たは,圧縮してバックアップした多数の計算機ファイル
の中から,任意の文字列を含むファイルと,その文字列
のファイル内出現位置を検索することが可能な書庫ファ
イルを作成する圧縮検索アーカイブ処理方法,圧縮検索
アーカイブ処理プログラムおよびそのプログラムの記録
媒体に関する。
【0002】
【従来の技術】近年,計算機と,インターネット・パソ
コン通信を中心とするコンピュータネットワークが広く
普及するに伴い,計算機で扱う電子データの量が増加し
てきている。データは,新旧などにより,使用頻度が少
なくなったファイルは,ハードディスク(HD)や光磁
気ディスク(MO),磁気テープ(MT)等に保管され
る。保管したファイルの中から必要なデータを取り出す
ときには,検索が用いられる。保管データは再利用がで
きなければ意味がなく,再利用できなければ膨大な保管
データは存在しないのと同じことになるため,検索機能
は非常に重要になる。検索には大別して,「インデック
ス(索引)検索法」と「文字列サーチ法」の二つの方法
がある。
【0003】インデックス検索法によれば,高速な検索
が可能であるが,予めインデックス(索引)を作らなけ
ればならず,索引の作成に時間がかかる上に,索引に元
ファイルと同程度の容量が必要となり,検索頻度が低い
保管データに対しては,コストが高いという欠点があっ
た。
【0004】一方,文字列サーチ法は,索引等の余分な
容量は取らないものの,検索に長時間要するという欠点
があった。文字列サーチ・ソフトウェアとしては,例え
ばUNIX(登録商標)システムのzgrep,bgr
epおよびgrep等が知られている。
【0005】したがって,保管データの検索には,余分
な資源を消費せず,かつ上記文字列サーチ法より高速で
相当な検索速度が得られる方法,ツールが必要とされ
る。
【0006】上記の検索方式に対し,圧縮したまま全文
検索を行う「FM−index」方式と呼ばれる圧縮検
索方式が,イタリアのピサ大学から最近発表された。F
M−index方式は,データ圧縮にBlock−So
rt,検索にSuffixArray(接尾辞配列)と
呼ばれる方式を組み合わせたものである。Block−
Sort圧縮法とSuffix Array検索法は,
ともに圧縮/検索の過程で,入力データを1文字ずつシ
フトした巡回文字列を用いるため,組み合わせの相性が
いいのである。
【0007】FM−index方式の検索速度は,Su
ffix Array検索法を単独で用いた場合の1/
5程度であるが,UNIX用の代表的な文字列サーチ・
コマンド「grep」に比べれば,5〜10倍高速であ
る。
【0008】圧縮率と検索速度とがトレードオフ関係に
なることから,FM−index方式では,(a)対象
ファイル内の検索すべき文字列の有無のみを検出できる
「FM−index(tiny版)」と,(b)対象フ
ァイル内の検索すべき文字列の位置検出ができる「FM
−index(fat版)」の2種類のタイプが作られ
ている。
【0009】圧縮検索法は,過去にも幾つか発表されて
いるが,ほとんどはインデックス検索に圧縮を付けた方
法である。インデックス検索・圧縮方式としては,メル
ボルン大学のManaging Giga−byteシ
ステムが著名である。このインデックス検索・圧縮方式
は,アクセス頻度が高いデータの検索方式であり,索引
データの容量を削減するところに視点がある。これに対
して,FM−index方式は,アクセス頻度が低い保
管データに適する方法である。
【0010】以下では,本発明に関連する書庫管理ソフ
トウェア(アーカイバ)と,FM−index方式につ
いて説明する。
【0011】書庫管理ソフトウェア(アーカイバ)と
は,計算機上の複数個のファイルを束ね,1個のファイ
ル(これを書庫という)にする機能を持つ。書庫機能と
圧縮機能を組み合わせると,多数のファイルをコンパク
トに扱えるので,双方の機能を組み合わせて用いること
が多い。著名なものとして,UNIXシステムの圧縮用
のcompressコマンドと書庫用のtarコマンド
の組み合わせや,フリーソフトのLHAがある。圧縮方
式としては,データの種類を選ばずに圧縮できるユニバ
ーサル符号化方式が用いられる。ユニバーサル符号化方
式の圧縮データは,検索するには一度復元する必要があ
り,圧縮符号のままで検索はできない。
【0012】次に,FM−index方式の原理を説明
する。
【0013】(1)圧縮検索に用いる圧縮データ 図11(A)に,圧縮検索に用いる圧縮データの元の文
書データの例を示す。元の文書データは「くれにさくら
いくらさく#」であり,ブロック整列を適用するため,
データの末尾に「#」が付けられている。
【0014】次に,図11(B)に従って,ブロック整
列をもとに圧縮と検索に用いる5種類のデータ(データ
D1〜D5)を説明する。
【0015】まず,図11(A)に示す文書データの文
字列を,1バイトずつ巡回させた文字列である巡回行列
を作り,それを辞書順に整列する。その左端の列(F列
という)と右端の列(L列という)が,圧縮と検索を行
うための元データであり,処理の対象となる。
【0016】 元データを復元するための圧縮データ
(2種類:D1,D2) 「L列」が,元のデータを復元するために圧縮すべき列
である。L列を同じ文字数のブロックごとに分割し,ブ
ロック単位に復元できる形で圧縮し,圧縮データとして
持つ(データD1)。各ブロックは,MTF(Move to F
ront) ,連長 (run length) ,可変長符号化(ハフマン
符号化)等の圧縮方式を組み合わせて圧縮する。そし
て,L列をブロック単位圧縮したデータを,ブロックご
とに復元できるように「各ブロックの圧縮符号の開始位
置」をデータとして持つ(データD2)。
【0017】 検索用の圧縮データ(3種類:D3,
D4,D5) [文字列の位置を割り出すデータD3]図11(B)の
左端から2列目が,F列の各文字の「元文書における位
置」である。これから検索時に文字列の存在する位置を
把握できる。これを,図11(B)の左端列の「間引き
した位置」のように,「元文書における位置」中を等間
隔に間引き(図では,1,5,9,…)してデータ量を
減らす。これを検索用文字列位置データ(データD3)
として持つ。
【0018】[文字列の有無を探すデータD4]F列は
元文書を辞書順に並べたため,各先頭文字が塊りで出現
することになる。各先頭文字の範囲を,「各文字の開始
点」で表す。例えば,「い2」は,文字「い」がF列の
2番目の要素から始まることを示す。次に出る「く3」
を見れば,「い」の範囲は1文字であることが分かる。
この「F列の各文字の開始点」を,検索用データ(デー
タD4)として持つ。
【0019】[L列に関する検索用データD5]次にL
列に関する検索用データとして,「ブロック境界での各
文字の累積頻度」(データD5)を算出して持つ。「ブ
ロック境界での各文字の累積頻度」は,L列の先頭から
任意のブロックの境界までの,各文字の累積頻度を示
す。ブロック末尾と直前ブロック末尾との「各文字の累
積頻度」間の差分を取れば,そのブロック内で各文字の
出現の有無,何回出現したかを知ることができる。
【0020】(2)検索の手順 (2−1)検索文字列の出現回数の検出 図12を用いて,与えられた検索文字列「さくら」の出
現回数を検出する手順を説明する。文字列の照合は,方
式上の制約から後ろ向き(ら→く→さ)の順に行い,次
の性質を用いて行う。
【0021】図12から,ブロック整列データでは,各
行でF列の左隣の文字はL列に出ており,各行のF列と
L列との関係から2文字間の繋がりを逐次探すようにす
る。「さくら」を後ろ向きに照合すると,F列の「ら」
の行で,かつ,L列に「く」を持つ行は2行分であるた
め,「くら」の出現回数は2回であることを知ることが
できる。
【0022】同様にして,後ろから,L列「ら」の範囲
→F列「ら・く」の範囲→L列「くら」の範囲→F列
「くら・さ」の範囲と検出する。F列「ら・く」の2行
分から,L列「くら」の範囲を見つけるには,F列に現
れる文字と,L列に現れる同じ文字とは,各列で上から
数えた「順番」が保たれる性質を利用する。以下に具体
的に説明する。
【0023】 「ら」で始まる範囲を調べる。「F列
の各文字の開始点」の情報である「ら10」「れ12」
から,「ら」の範囲は10行〜11行目に渡って,2個
あることが分かる。
【0024】 各行で,「ら」の左隣にある「く」は
L列に出現する。「ら」の各行は,L列の第4ブロック
にあり,第4ブロックを「開始位置」の情報を用いて部
分復元する。復元したL列の部分を調べ,F列「ら」の
行に「く」が出ていることを検出する。
【0025】 次に,F列「くら」の範囲を知るため
に,ブロックの「累積頻度」情報から,F列「ら」−L
列「く」の行について,L列の「く」が現れる順番を数
える。第3ブロック末尾の「く」の累積頻度は1である
ので,F列「ら」−L列「く」の行の「く」の順番は2
番,3番であることが分かる。
【0026】 F列「くら」の範囲を割り出す。F列
「く」は,「F列の各文字の開始点」情報「く3」「さ
7」から,3行〜6行目に渡って,4個あることが分か
る。このうち,で調べた「く」の順番から,2番目,
3番目にある4行,5行目がF列「くら」の範囲であ
る。
【0027】 F列「くら」の範囲で,上記と同様
の作業を繰り返す。F列「くら」行がある第2ブロック
を部分復元して,F列「くら」行のL列に「さ」が現れ
ていることを知る。「さくら」は1回出現していること
が分かる。と同様にL列での「さ」の順番を調べ,最
終的にF列で「さくら」が現れる行を求める。
【0028】(2−2)検索文字列の出現位置の検出 図13を用いて,検索文字列「さくら」の出現位置を検
出(locate)する手順を説明する。上記(2−1)の手
順により「さくら」で始まる行が検出される。「元文書
における(対応する文字)位置」は,「間引きした位
置」になっているため,検索文字列検出の手順を続け,
後ろ向きに,「間引きした位置」がある場所まで遡って
対応を付ける。「さくら」の「さ」の1文字前は,同じ
行のL列にある「に」である。この「に」がF列で何番
目かは,上述のように部分復元データと「累積頻度」か
ら割り出す。F列の「にさくら」を求め,さらに同様の
作業を繰り返して,「間引きした位置」のある文字まで
遡って,位置情報を得る。元の「さくら」の位置は,
(間引き位置の値)+(遡った文字数)によって求めら
れる。
【0029】図13の例では,「さ」→「に」→「れ」
→「く」の順で先行文字を遡って探索し,「く」には
「間引きした位置」の値として「1」が設定されている
ので,「さ」の位置,すなわち検索文字列の出現位置
は,1(間引き位置の値)+3(遡った文字数)=4と
求められる。
【0030】次に,上述したピサ大学のFM−inde
x方式の圧縮検索の実装・評価について説明する。
【0031】(1)方式ソフトのバリエーション ピサ大学の圧縮検索方式は,FM−indexとして実
装されており,機能が異なるFM−index・tin
y版と,FM−index・fat版がある。tiny
版は,8KBのブロック単位に部分復元を行う。元文書
での各文字位置を持たず,検索文字列の有無検出機能だ
けを持つ。fat版は,1KBのブロック単位に部分復
元し,検索文字列の有無および位置検出の機能を持つ。
【0032】(2)圧縮・検索性能について FM−index方式の圧縮率は,gzipよりやや勝
る。接尾辞配列は元データを要するので100%を超え
る。圧縮時間は,gzipより3倍遅い。復元時間は,
gzipより8倍遅い。検索速度は,gzipより5倍
速く,Suffix Array検索よりは遅い。
【0033】(2a)tiny版の性能 tiny版はブロックが大きく,L列分割の個数が少な
いため,「各ブロックの圧縮符号の開始位置」,「ブロ
ック境界での各文字の累積頻度」の情報の個数が少な
い。圧縮率は,bzip2並みであり,gzipより勝
る。
【0034】(2b)fat版の評価 fat版は,ブロックを小さく取り,L列分割の個数が
多くなるため,「各ブロックの圧縮符号の開始位置」,
「ブロック境界での各文字の累積頻度」の情報の個数が
多い。fat版の圧縮率はtiny版より10%悪化
し,bzip2より30〜60%悪化するが,zipと
同等であり,grepより高速である。
【0035】[参考文献] 1)Ferragina & G. Manzini "Opportunistic data str
uctures with applications", IEEE FOCS 2000. 2)Ferragina & G. Manzini "An experimental study
of an opportunistic index", ACM-SIAM SODA 2001. 3)http://butirro.di.unipi.it/FM-index/index.html
【0036】
【発明が解決しようとする課題】ここで,FM−ind
ex方式のように圧縮と検索とが同時にできる実用的な
方式を用いることによって,圧縮検索アーカイバを構成
することを考える。アーカイバとは,計算機上の複数個
のファイルを束ね,1個のファイル(書庫)にする機能
を持つ書庫管理ソフトウェアである。圧縮検索アーカイ
バにおいて,多数のファイルを書庫に格納するときに,
圧縮と検索とが両立できて,通常の圧縮アーカイバと比
べて,優位な性能が得られるべきである。
【0037】しかしながら,従来技術では,FM−in
dex方式でtiny版を用いると,通常の圧縮アーカ
イバと同様の圧縮率が得られるが,検索してもファイル
内の文字列の位置までは分からないという欠点があっ
た。一方,FM−index方式のfat版を用いる
と,圧縮データ中の検索文字列位置まで分かるが,圧縮
率が30〜60%悪化して,通常の圧縮アーカイバに比
べて圧縮性能が見劣りするという欠点があった。
【0038】このように,従来技術では,圧縮と検索の
双方を行う検索方式を用いて圧縮検索アーカイバを構成
し,多数のファイルを書庫に格納する場合に,ファイル
の圧縮率と検索速度とがトレードオフの関係にあり,格
納対象となるすべてのファイルについて,圧縮率と検索
速度とが一律に決まってしまうという問題点があった。
【0039】本発明は,上記従来技術の問題点を解決
し,圧縮と検索の機能を持つ圧縮検索書庫を作成する際
に,圧縮率優先の方式か,検索速度優先の方式か,また
は双方をバランスさせる方式かを選択して用いることが
できる書庫ファイルの作成手段を提供することを目的と
する。
【0040】
【課題を解決するための手段】上記課題を達成するた
め,本発明は,電子データを圧縮し,圧縮データ上で指
定した任意の文字列の検索を容易にする機能を持つ圧縮
検索ソフトウェアをエンジンとして用いて,複数のファ
イルを束ねた書庫ファイルを作成する圧縮検索アーカイ
ブ処理方法であって,圧縮率と検索速度のトレードオフ
に応じて用意した複数の方式を,選択して圧縮するよう
に構成される。
【0041】上記構成を採る場合において,前記圧縮率
と検索速度のトレードオフに応じて用意した複数の圧縮
検索方式は,圧縮率を優先する方式と,検索速度を優先
する方式と,圧縮率と検索速度をバランスさせる方式で
あり,これらのいずれかを選択して用いることができる
ようにする。例えば,圧縮率優先で検索時には検索文字
の出現の有無のみ求める方法と,検索速度優先で検索時
に検索文字列の出現位置も求める方法とを選択できるよ
うにする。
【0042】また,上記構成を採る場合において,書庫
ファイルの圧縮ファイルのファイルヘッダに選択した圧
縮方式の情報を書いておき,読み取った圧縮方式に応じ
て,圧縮ファイルの復元,および,文字列の検索を行
う。
【0043】また,上記構成を採る場合において,前記
圧縮率と検索速度をバランスさせる方法は,所定の小容
量ファイルは圧縮率を優先し,大容量ファイルは検索速
度を優先する方式を用いる方法,または,同種の小容量
ファイルを繋いだ複合ファイルを圧縮し書庫に格納する
とともに,検索時,復元分離時に識別可能な情報をファ
イルヘッダに記述する方法を用いる。
【0044】前者の方式においては,例えば,所定の小
容量ファイルは検索文字列の有無だけの検出であるが高
圧縮の方式を用い,大容量ファイルは検索文字列の文字
位置まで検出できる方式を用いる。また,後者の方式に
おいては,例えば,所定の小容量ファイルは同種のファ
イルを繋いで,検索文字位置まで検出できる圧縮検索方
式を用い,大容量ファイルも同様に検索文字列の文字位
置まで検出できる方式を用いる。すなわち,所定の小容
量ファイルについては,同種のファイルを繋いだファイ
ルを圧縮し書庫に格納するとともに,そのファイルヘッ
ダに該繋いだ各ファイルのファイル名,ファイルサイズ
を書いておき,該繋いだファイル中のファイルをファイ
ル単位に復元する。
【0045】本発明は,より具体的には,例えば,FM
−index方式のように圧縮と検索が同時にできる検
索方式を用いて圧縮・検索アーカイバを構成し,多数の
ファイルを書庫に格納する際に,(1)tiny版を用
いて圧縮率優先で圧縮するか,(2)fat版を用いて
検索速度優先で圧縮するか,または(3)圧縮率と検索
速度とのバランスを取るバランスモードで圧縮するか
を,事前に選択できる機構を設ける。上記の(1)圧縮
率優先,(2)検索速度優先では,それぞれ,tiny
版と,fat版を単独に用いて,圧縮・復元・検索を行
うが,バランスモードでは以下の方法を用いる。
【0046】第一の方法は,アーカイブするファイルの
うち,小さい容量のファイル(例えば,5KB以下)は
tiny版で圧縮し,大きい容量のファイルはfat版
で圧縮して格納する。ハードディスク(HD)記憶媒体
へのバックアップの用途では,小さいファイルが多数
で,大きいファイルが少数になる傾向がある(例えば特
開平11−53240号公報の「計算機のデータバック
アップ装置及びデータバックアップ方法並びにデータバ
ックアッププログラムを記録したコンピュータ読み取り
可能な記録媒体」では,バックアップする前に,多数の
小さいファイルを一つのファイルにアーカイブしておく
ことにより,バックアップ処理を高速化できることが述
べられている)。
【0047】バックアップした圧縮ファイルを検索する
場合,小さいファイルは対象文字列があるファイルさえ
特定できれば,後は復元して周知のgrepで探しても
いい。小さいファイルは,圧縮時の学習効果が不十分
で,圧縮率をよくすることができないので,できるだけ
高圧縮を得るようにする。一方で,大きいファイルは,
高圧縮が得やすく速い検索が必要となる。
【0048】第二の方法は,例えば,Windows
(米国マイクロソフト社のOS)のようなオペレーティ
ング・システムの場合,ファイル拡張子が同じ同種のフ
ァイルで,容量の小さいものを集めて一本のファイルに
繋いで,圧縮をかける。Suffix Arrayのp
ointerにファイル順番を入れ,書庫ファイルのヘ
ッダに,繋いだ各ファイルの「ディレクトリ位置」「長
さ」「繋いだ順番」を持ち,検索時,復元分離時に識別
できるようにしておく。小さいファイルは圧縮時の学習
効果が不十分であるが,同種のファイルを集めれば,圧
縮率を高めることができる。このため,同種のファイル
を拡張子で識別して集める。圧縮率が高まれば,fat
版にして,位置検出までできるようにしてもよい。
【0049】
【発明の実施の形態】以下,本発明の実施の形態を,図
を用いて説明する。図1は,本発明を実現する計算機シ
ステムの構成例を示す図である。CPU1は,主記憶2
を用いて,諸々の演算処理を行う。キーボード4は,圧
縮/復元/検索するファイル/フォルダや,検索文字列
の指定情報を入力する。ディスプレイ3は,検索文字列
が検索対象のどのファイル/フォルダの,どの文字位置
に検出されたかを表示する。
【0050】主記憶2は,本発明を実行するための圧縮
検索アーカイブ処理プログラム20を格納し,圧縮復元
処理の作業領域21を用いて圧縮復元を行うとともに,
圧縮を指定されたファイルがすべて処理し終えたかを検
査するファイル名リスト22と,書庫ファイル16中の
ファイルヘッダを作るための作業領域23などに使われ
る。ハードディスク装置5は,圧縮すべきファイル1
7,18,19,…を格納するとともに,本発明で作成
する書庫ファイル16およびバランスモードの第二の方
法で小容量のファイルを一つのファイルに繋ぐWork
ファイル15を格納する。CPUバス6は,CPU1,
主記憶2および各周辺機器等を結ぶ信号線である。
【0051】図2は,本発明に係る圧縮検索アーカイブ
処理プログラムの構成例を示す。指示情報入出力部20
0は,ディスプレイ3,キーボード4その他の入出力機
器からユーザの指示情報を入力し,また結果を表示する
部分である。ファイル圧縮部210は,指定されたファ
イルを圧縮して書庫ファイル16を作成するモジュー
ル,ファイル検索部220は,書庫ファイル16中のフ
ァイルの文字列を検索するモジュール,ファイル復元部
230は,書庫ファイル16から元のファイルを復元す
るモジュールである。
【0052】圧縮検索ソフトウェア240,250は,
書庫ファイル16の作成,検索および圧縮ファイルの復
元機能を持つソフトウェア・プログラムである。圧縮検
索ソフトウェア240は,圧縮検索ソフトウェア250
に比べて圧縮率は高いが検索速度は低い。圧縮検索ソフ
トウェア240は,例えばFM−index方式による
圧縮検索アーカイバのtiny版であり,圧縮検索ソフ
トウェア250は,例えばFM−index方式による
圧縮検索アーカイバのfat版である。
【0053】圧縮検索ソフトウェア240,250は,
本発明に係る圧縮検索アーカイブ処理プログラム20内
に組み込まれていてもよく,または既存のプログラムを
利用する場合には,外部のプログラムモジュールとして
構成されていてもよい。
【0054】ファイル圧縮部210は,指示情報入出力
部200からの指示によって,圧縮率優先モードか,検
索速度優先モードか,圧縮率と検索速度とをバランスさ
せるバランスモードかを選択するモード選択部211
と,圧縮率優先モードが選択された場合に,圧縮検索ソ
フトウェア240を呼び出して指定されたファイルを圧
縮する圧縮率優先モード処理部212と,検索速度優先
モードが選択された場合に,圧縮検索ソフトウェア25
0を呼び出して指定されたファイルを圧縮する検索速度
優先モード処理部213と,バランスモードが選択され
た場合に,ファイルのサイズ(容量)や種類等の属性に
応じて圧縮検索ソフトウェア240または圧縮検索ソフ
トウェア250のいずれかを適宜呼び出してファイルを
圧縮するバランスモード処理部214とを有する。
【0055】圧縮検索ソフトウェア240は,圧縮率優
先で圧縮を行い,検索時には検索文字の出現の有無のみ
を求めることができるアーカイブ・ソフトウェアであ
り,圧縮検索ソフトウェア250は,検索速度優先で圧
縮を行い,検索時には検索文字の出現位置も求めること
ができるアーカイブ・ソフトウェアである。
【0056】図3および図4は,本実施の形態で作成さ
れる書庫ファイル16のファイル形式の例を示す。
【0057】本発明により作成される圧縮検索書庫のフ
ァイル形式は,例えば図3に示すようになっており,通
常の圧縮アーカイバで用いる書庫形式と変わらない形式
である。書庫に格納された各ファイルは,圧縮データ1
60とファイルヘッダ161とから構成され,それらの
全体に書庫ヘッダ162が付加される。
【0058】書庫ヘッダ162には,書庫ファイル名や
書庫作成日時,作成者名,バージョンNo.等の情報が
格納される。ファイルヘッダ161には,ファイル名,
ディレクトリ位置,ファイルサイズ,圧縮データサイズ
の情報が格納され,さらに圧縮データの圧縮方式がfa
t版か,tiny版かの情報,更新日時,エラー検出訂
正用の符号(CRC)が格納される。
【0059】圧縮率優先,検索速度優先およびバランス
モードの第一の方法では,ファイルヘッダ161内に書
かれているfat版か,tiny版かの圧縮方式の情報
に合わせて,復元および検索を行う。
【0060】図4は,バランスモードの第二の方法を用
いて作成した書庫ファイル16の形式の例を示す。図3
の例と同様であるが,この書庫ファイル16は,Wor
kファイル15を圧縮した複合ファイル圧縮データ16
3を持つ。すなわち,複合ファイル圧縮データ163
は,小容量のファイルを繋いだWorkファイル15を
圧縮したものである。複合ファイルのファイルヘッダ1
64には,複合ファイル識別子,Workファイルサイ
ズ,圧縮データサイズ等の他,Workファイル15を
構成する各小容量のファイルのファイル名,ディレクト
リ位置,ファイルサイズ,更新日時等の情報が格納され
る。これらの情報から繋いであるファイルを復元,分離
することにより,通常のファイルと同様に復元すること
ができる。
【0061】また,この複合ファイル圧縮データ163
は,fat版で圧縮されているため,検索時に検索文字
列があれば,その文字位置から繋いであるどのファイル
のどの位置にあったかを算出して出力することができ
る。
【0062】図5に,圧縮率優先方式の圧縮率優先モー
ドと,検索速度優先方式の検索速度優先モードと,圧縮
と検索をバランスさせたバランスモードとを選択,切替
えて用いる方式の処理フローを示す。
【0063】まず,圧縮検索アーカイブ処理プログラム
20の指示情報入出力部200は,ユーザから圧縮する
モードを指定する情報を入力する(ステップS1)。モ
ード選択部211は,圧縮率優先モードの指定か,検索
速度優先モードの指定か,圧縮と検索とをバランスさせ
たバランスモードの指定かを判断する(ステップS2,
S3)。圧縮率優先モードの指定である場合には,圧縮
率優先モード処理部212がtiny版の圧縮検索ソフ
トウェア240を用いて圧縮対象ファイルを圧縮し,書
庫ファイル16を作成する(ステップS4)。検索速度
優先モードの指定である場合には,検索速度優先モード
処理部213がfat版の圧縮検索ソフトウェア250
を用いて圧縮対象ファイルを圧縮し,書庫ファイル16
を作成する(ステップS5)。検索速度優先の指定でな
い場合には,バランスモードであり,バランスモード処
理部214が,圧縮率・検索速度をバランスさせるバラ
ンスモードで書庫ファイル16を作成する(ステップS
6)。
【0064】図6および図7に,バランスモードの第一
の方法による圧縮,復元,検索のフローを示す。図6
(A)は,バランスモードの第一の方法による圧縮処理
のフローを示す。まず,ユーザが指定した圧縮するファ
イルまたはフォルダの情報を入力する(ステップS1
0)。次に,指定されたファイルをすべて圧縮したかど
うかを判断する(ステップS11)。圧縮していない指
定ファイルがある場合には,次に圧縮するファイルのサ
イズを取得し,書庫のファイルヘッダに書き込む(ステ
ップS12)。
【0065】続いて,ファイルサイズが所定の閾値を超
えているかを判断する(ステップS13)。ファイルサ
イズが閾値を超えていない場合には,tiny版ファイ
ル圧縮を選択し,tiny版でファイル圧縮を行う(ス
テップS14)。ファイルサイズが閾値を超えている場
合には,fat版ファイル圧縮を選択し,fat版でフ
ァイル圧縮を行う(ステップS15)。以上のステップ
S12〜S15を,指定されたファイルをすべて圧縮す
るまで繰り返し(ステップS11),すべて圧縮したな
ら処理を終了する。
【0066】図6(B)は,バランスモードの第一の方
法による復元処理のフローを示す図である。まず,ユー
ザが指定した復元するファイルまたはフォルダの情報を
入力する(ステップS20)。次に,指定されたファイ
ルをすべて復元したかどうかを判断し(ステップS2
1),復元していない指定ファイルがある場合には,復
元するファイルの情報を書庫のファイルヘッダから読み
出す(ステップS22)。
【0067】次に,読み出したファイルヘッダの情報に
基づき,fat版かどうかを識別する(ステップS2
3)。圧縮方式がfat版でない場合には,tiny版
でファイル復元する(ステップS24)。圧縮方式がf
at版である場合には,fat版でファイル復元する
(ステップS25)。以上のステップS22〜S25
を,指定されたすべてのファイルを復元するまで繰り返
し(ステップS21),すべて復元したなら処理を終了
する。
【0068】図7は,バランスモードの第一の方法によ
る検索処理のフローを示す図である。まず,ユーザから
検索すべき文字列と,走査するファイル/フォルダの指
定情報を入力する(ステップS30)。次に,指定され
たファイルをすべて走査したかどうかを判断し(ステッ
プS31),走査していない指定ファイルがある場合に
は,検索するファイルの情報を書庫のファイルヘッダか
ら読み出す(ステップS32)。
【0069】次に,ファイルヘッダから読み出した圧縮
方式の情報に基づき,圧縮方式がfat版かtiny版
かを判断する(ステップS33)。圧縮方式がtiny
版である場合には,tiny版のファイル検索を行い
(ステップS34),検索結果からファイル中に検索す
べき文字列が存在したかどうかを判断する(ステップS
35)。存在しなかったならば,ステップS31へ戻
る。検索すべき文字列が存在した場合には,そのファイ
ルを復元し,通常の文字列サーチで出現位置を検出し,
ファイル名と出現位置とを出力する(ステップS3
6)。その後,ステップS31へ戻る。
【0070】圧縮方式がfat版である場合には,fa
t版のファイル検索を行う(ステップS37)。検索す
べき文字列があった場合,ファイル名と出現位置を出力
する(ステップS38)。その後,ステップS31へ戻
る。すべての指定ファイルを走査した場合には(ステッ
プS31),処理を終了する。
【0071】図8ないし図10に,バランスモードの第
二の方法による圧縮,復元,検索のフローを示す。
【0072】図8は,バランスモードの第二の方法によ
る圧縮処理のフローを示す図である。まず,ユーザから
圧縮するファイルまたはフォルダを指定する情報を入力
する(ステップS40)。次に,圧縮するすべてのファ
イルのファイル名とサイズを取得し,リストを作る(ス
テップS41)。
【0073】次に,指定されたファイルをすべて圧縮し
たかどうかを判断する(ステップS42)。まだ,圧縮
していない指定ファイルがある場合には,未圧縮ファイ
ルを一つ読み取る(ステップS43)。読み取った未圧
縮ファイルのファイルサイズが,所定の閾値1を超えて
いるかどうかを判断し(ステップS44),ファイルサ
イズが閾値1を超えている場合には,ステップS52へ
進む。
【0074】ファイルサイズが閾値1を超えていない場
合には,そのファイル名の拡張子を変数extに設定
し,Workファイル15にコピーする(ステップS4
5)。続いて,リスト中に同じ拡張子を持つファイルが
あるかをどうかを判断し(ステップS46),同じ拡張
子を持つファイルがない場合には,後述するステップS
50へ進み,同じ拡張子を持つファイルがある場合に
は,そのファイルのサイズが閾値1を超えているかどう
かを判断する(ステップS47)。ファイルのサイズが
閾値1を超えていない場合には,そのファイルをWor
kファイル15に繋いで,マージした上で(ステップS
48),Workファイル15のサイズが所定の閾値2
を超えるかどうかを判断する(ステップS49)。Wo
rkファイル15のサイズが閾値2を超える場合には,
ステップS50へ進む。
【0075】ステップS47の判定で,ファイルのサイ
ズが閾値1を超えている場合,またはステップS49の
判定で,Workファイル15のサイズが閾値2を超え
ない場合には,ステップS46へ戻って,同様に処理を
繰り返す。
【0076】ステップS50では,Workファイル1
5用の特別なファイルヘッダを作り,マージしたファイ
ル名,ファイルサイズのリストをファイルヘッダに書き
出す。そして,Workファイル15をfat版で圧縮
し(ステップS51),リスト中で圧縮したファイルに
圧縮済の印を付ける(ステップS53)。その後,ステ
ップS42へ戻って,同様に処理を繰り返す。
【0077】ステップS44の判定において,ファイル
サイズが閾値1を超えている場合には,ステップS52
へ進み,対象ファイルをfat版で圧縮し(ステップS
52),リスト中で圧縮したファイルに圧縮済の印を付
ける(ステップS53)。すべての指定されたファイル
を圧縮した場合には,処理を終了する。
【0078】図9は,バランスモードの第二の方法によ
る復元処理フローを示す図である。まず,ユーザから復
元するファイルまたはフォルダを指定する情報を入力す
る(ステップS60)。次に,指定されたファイルをす
べて復元したかを判断する(ステップS61)。復元し
ていない指定ファイルがある場合には,指定されたファ
イルのファイルヘッダを書庫内から一つ読み出す(ステ
ップS62)。
【0079】次に,対象ファイルが複合ファイル内にあ
るかを判断する(ステップS63)。対象ファイルが複
合ファイル内になかった場合,その対象ファイルをfa
t版で復元する(ステップS64)。
【0080】対象ファイルが複合ファイル内にある場合
には,対象ファイルを含むWorkファイル15を復元
済かを判断し(ステップS65),Workファイルが
復元済でない場合には,複合ファイルのWorkファイ
ル15をfat版で復元する(ステップS66)。復元
したWorkファイルから対象ファイルを取り出す(ス
テップS67)。指定されたファイルをすべて復元した
場合には,処理を終了する。
【0081】Workファイルの復元について,別の方
法として,Workファイルを図11の圧縮データのブ
ロック分割(D1)において,ブロックを各格納ファイ
ルごとに分ければ,対象ファイルのみ部分復元すること
もできる。
【0082】図10は,バランスモードの第二の方法に
よる検索処理のフローを示す図である。まず,ユーザか
ら,検索すべき文字列と,走査するファイル/フォルダ
を指定する情報を入力する(ステップS70)。次に,
指定されたファイルをすべて走査したかを判断する(ス
テップS71)。走査していない指定ファイルがある場
合には,指定されたファイルのファイルヘッダを書庫内
から一つ読み出す(ステップS72)。次に,対象ファ
イルが複合ファイル内にあるかを判断する(ステップS
73)。
【0083】対象ファイルが複合ファイル内にない場合
には,そのファイルについて検索すべき文字列を検索
し,検索すべき文字列がある場合には,そのファイル名
と出現位置を出力する(ステップS77)。
【0084】対象ファイルが複合ファイル内にある場合
には,対象ファイルを含むWorkファイル15を復元
済かどうかを判断し(ステップS74),Workファ
イルを復元済でない場合には,複合ファイルのWork
ファイル15をfat版で復元する(ステップS7
5)。その後,復元したWorkファイル15を検索
し,検索すべき文字列がある場合,各ファイルのサイズ
より,検出したファイル名とファイル内の出現位置を算
出して出力する(ステップS76)。指定されたファイ
ルをすべて走査した場合には,処理を終了する。
【0085】本発明の変形例として,本実施の形態で
は,圧縮率と検索速度のトレードオフから,tiny版
とfat版の2種類のタイプを用いたが,これは必ずし
も2種類に限る必要はなく,検索文字の位置まで検出す
るfat版は,さらに検索速度が速いものと,遅いもの
等に分けて用意することができる。その場合,本実施の
形態のように,圧縮率と検索速度をユーザの要求に応じ
て,より細かく選択してもらうことができるし,バラン
スモードにおいて,より細かく自動的に選択することが
できる。
【0086】以上の処理は,コンピュータとソフトウェ
アプログラムとによって実現することができ,そのプロ
グラムは,コンピュータが読み取り可能な可搬媒体メモ
リ,半導体メモリ,ハードディスク等の適当な記録媒体
に格納して,そこから読み出すことによりコンピュータ
に実行させることができる。また,そのプログラムは通
信回線を経由して他のコンピュータからダウンロードす
ることができ,それをインストールして実行させること
もできる。
【0087】以下に,本実施の形態の特徴を列挙する。
【0088】(付記1) 電子データを圧縮し,圧縮デ
ータ上で指定された任意の文字列の検索を容易にする機
能を持つ圧縮検索ソフトウェアを用いて,複数のファイ
ルを束ねた書庫ファイルを作成する圧縮検索アーカイブ
処理方法であって,圧縮率と検索速度のトレードオフに
応じて用意された複数の異なる圧縮検索方式を,ユーザ
の指定により,または圧縮対象ファイルの属性により選
択する過程と,前記選択された圧縮検索方式に応じた圧
縮検索ソフトウェアを用いて圧縮対象ファイルを圧縮す
る過程とを有することを特徴とする圧縮検索アーカイブ
処理方法。
【0089】(付記2) 付記1記載の圧縮検索アーカ
イブ処理方法において,前記複数の異なる圧縮検索方式
は,圧縮率優先で検索時には検索文字の出現の有無のみ
求める方式と,検索速度優先で検索時に検索文字例の出
現位置も求める方式とを含むことを特徴とする圧縮検索
アーカイブ処理方法。
【0090】(付記3) 電子データを圧縮し,圧縮デ
ータ上で指定された任意の文字列の検索を容易にする機
能を持つ圧縮検索ソフトウェアを用いて,複数のファイ
ルを束ねた書庫ファイルを作成する圧縮検索アーカイブ
処理方法であって,圧縮対象ファイルのファイルサイズ
が所定の閾値より大きいか小さいかを判定する過程と,
圧縮対象ファイルのサイズが所定の閾値より小さい場合
に,圧縮率と検索速度のトレードオフに応じて用意され
た複数の異なる圧縮検索方式のうち,圧縮率のよいほう
の圧縮検索方式に応じた圧縮検索ソフトウェアを用いて
圧縮対象ファイルを圧縮し,圧縮対象ファイルのサイズ
が所定の閾値より大きい場合に,前記複数の異なる圧縮
検索方式のうち,検索速度のよいほうの圧縮検索方式に
応じた圧縮検索ソフトウェアを用いて圧縮対象ファイル
を圧縮する過程とを有することを特徴とする圧縮検索ア
ーカイブ処理方法。
【0091】(付記4) 電子データを圧縮し,圧縮デ
ータ上で指定された任意の文字列の検索を容易にする機
能を持つ圧縮検索ソフトウェアを用いて,複数のファイ
ルを束ねた書庫ファイルを作成する圧縮検索アーカイブ
処理方法であって,圧縮率優先モードと検索速度優先モ
ードとバランスモードのいずれかを選択する過程と,圧
縮率優先モードが選択された場合に,圧縮率と検索速度
のトレードオフに応じて用意された複数の異なる圧縮検
索方式のうち,圧縮率のよいほうの圧縮検索方式に応じ
た圧縮検索ソフトウェアを用いて圧縮対象ファイルを圧
縮する過程と,検索速度優先モードが選択された場合
に,前記複数の異なる圧縮検索方式のうち,検索速度の
よいほうの圧縮検索方式に応じた圧縮検索ソフトウェア
を用いて圧縮対象ファイルを圧縮する過程と,バランス
モードが選択された場合に,圧縮対象ファイルのファイ
ルサイズが所定の閾値より大きいか小さいかを判定し,
圧縮対象ファイルのサイズが所定の閾値より小さい圧縮
対象ファイルについては,前記複数の異なる圧縮検索方
式のうち圧縮率のよいほうの圧縮検索方式に応じた圧縮
検索ソフトウェアを用いて圧縮し,圧縮対象ファイルの
サイズが所定の閾値より大きい圧縮対象ファイルについ
ては,前記複数の異なる圧縮検索方式のうち検索速度の
よいほうの圧縮検索方式に応じた圧縮検索ソフトウェア
を用いて圧縮する過程とを有することを特徴とする圧縮
検索アーカイブ処理方法。
【0092】(付記5) 付記1から付記4までのいず
れかに記載の圧縮検索アーカイブ処理方法において,前
記書庫ファイル中の各圧縮ファイルのファイルヘッダに
前記選択された圧縮検索方式の種別を記録する過程をさ
らに有し,記録された圧縮検索方式の種別に応じて圧縮
ファイルの復元または文字列の検索を行うことを特徴と
する圧縮検索アーカイブ処理方法。
【0093】(付記6) 電子データを圧縮し,圧縮デ
ータ上で指定された任意の文字列の検索を容易にする機
能を持つ圧縮検索ソフトウェアを用いて,複数のファイ
ルを束ねた書庫ファイルを作成する圧縮検索アーカイブ
処理方法であって,圧縮対象ファイルのファイルサイズ
が所定の閾値より大きいか小さいかを判定する過程と,
圧縮対象ファイルのサイズが所定の閾値より小さい場合
に,それらのサイズが小さい同種の圧縮対象ファイルを
複数繋いだ複合ファイルを作り,圧縮対象ファイルのサ
イズが所定の閾値より大きい圧縮対象ファイルと前記複
合ファイルとを,前記圧縮検索ソフトウェアを用いて圧
縮する過程とを有することを特徴とする圧縮検索アーカ
イブ処理方法。
【0094】(付記7) 電子データを圧縮し,圧縮デ
ータ上で指定された任意の文字列の検索を容易にする機
能を持つ圧縮検索ソフトウェアを用いて,複数のファイ
ルを束ねた書庫ファイルを作成する圧縮検索アーカイブ
処理方法であって,圧縮率優先モードと検索速度優先モ
ードとバランスモードのいずれかを選択する過程と,圧
縮率優先モードが選択された場合に,圧縮率と検索速度
のトレードオフに応じて用意された複数の異なる圧縮検
索方式のうち,圧縮率のよいほうの圧縮検索方式に応じ
た圧縮検索ソフトウェアを用いて圧縮対象ファイルを圧
縮する過程と,検索速度優先モードが選択された場合
に,前記複数の異なる圧縮検索方式のうち,検索速度の
よいほうの圧縮検索方式に応じた圧縮検索ソフトウェア
を用いて圧縮対象ファイルを圧縮する過程と,バランス
モードが選択された場合に,圧縮対象ファイルのファイ
ルサイズが所定の閾値より大きいか小さいかを判定し,
圧縮対象ファイルのサイズが所定の閾値より小さい場
合,それらの同種の圧縮対象ファイルを複数繋いだ複合
ファイルを作り,前記複数の異なる圧縮検索方式のう
ち,圧縮率のよいほうの圧縮検索方式に応じた圧縮検索
ソフトウェアを用いて圧縮対象ファイルを圧縮する過程
とを有することを特徴とする圧縮検索アーカイブ処理方
法。
【0095】(付記8) 付記6または付記7記載の圧
縮検索アーカイブ処理方法において,前記書庫ファイル
中の前記複合ファイルを圧縮したファイルのファイルヘ
ッダに,その複合ファイルを作成する各ファイルのファ
イル名,ファイルサイズを書き込む過程をさらに有し,
そのファイルヘッダを参照することにより複合ファイル
中のファイルをファイル単位に復元することを特徴とす
る圧縮検索アーカイブ処理方法。
【0096】(付記9) 付記1から付記8までのいず
れか1項に記載の圧縮検索アーカイブ処理方法を,コン
ピュータに実行させるための圧縮検索アーカイブ処理プ
ログラム。
【0097】(付記10) 付記1から付記8までのい
ずれか1項に記載の圧縮検索アーカイブ処理方法を,コ
ンピュータに実行させるためのプログラムを記録したこ
とを特徴とする圧縮検索アーカイブ処理プログラムの記
録媒体。
【0098】
【発明の効果】本発明によれば,書庫内のファイル群に
対して,圧縮率と検索速度のどちらを重視するか,ま
た,圧縮率と検索速度をバランスさせるか,ユーザの要
求によって選択して,圧縮格納することができる。
【0099】また,技術・ビジネス上の意義としては,
圧縮検索機能の本格実用化に備え,効果的な使い方,有
効な用途の開拓に資する。例えば,何度も高速に検索し
たい場合には,一般にインデックス(索引)検索が取ら
れるが,ウィルスチェックのスキャンのように1回限り
で,データの更新が伴うときには文字列サーチに頼るこ
とになる。これに対し,FM−index方式の圧縮・
検索は,インデックス(索引)の容量が不要で,しかも
文字列サーチより5〜10倍高速である。従って,FM
−index方式のような圧縮・検索をさらに有効に活
用できるようにした本発明は,メーラー等,インデック
ス検索するほどでもない検索頻度が小さい文書ファイル
の検索に有効である。本発明の仕組みを例えばウィルス
・チェック機構に組み込み,応用することにより,バッ
クアップと同時にウィルス・チェックができて効果的で
ある。また,本発明の圧縮検索書庫格納データは,高速
にウィルス・スキャンすることができる。
【図面の簡単な説明】
【図1】本発明を実現する計算機システムの構成例を示
す図である。
【図2】本発明に係る圧縮検索アーカイブ処理プログラ
ムの構成例を示す図である。
【図3】書庫ファイルの形式を示す図である。
【図4】書庫ファイルの形式を示す図である。
【図5】本発明の実施の形態における圧縮処理の概略フ
ローを示す図である。
【図6】本発明の実施の形態におけるバランスモードの
第1の方法による圧縮,復元処理フローを示す図であ
る。
【図7】本発明の実施の形態におけるバランスモードの
第1の方法による検索処理フローを示す図である。
【図8】本発明の実施の形態におけるバランスモードの
第2の方法による圧縮処理フローを示す図である。
【図9】本発明の実施の形態におけるバランスモードの
第2の方法による復元処理フローを示す図である。
【図10】本発明の実施の形態におけるバランスモード
の第2の方法による検索処理フローを示す図である。
【図11】FM−index方式の原理説明図である。
【図12】FM−index方式の原理説明図である。
【図13】FM−index方式の原理説明図である。
【符号の説明】
1 CPU 2 主記憶 3 ディスプレイ 4 キーボード 5 ハードディスク装置 6 CPUバス 15 Workファイル 16 書庫ファイル 17,18,19 ファイル 20 圧縮検索アーカイブ処理プログラム 21 圧縮復元処理の作業領域 22 ファイル名リスト 23 ファイルヘッダ作成の作業領域 160 圧縮データ 161 ファイルヘッダ 162 書庫ヘッダ 163 複合ファイル圧縮データ 164 ファイルヘッダ 200 指示情報入出力部 210 ファイル圧縮部 211 モード選択部 212 圧縮率優先モード処理部 213 検索速度優先モード処理部 214 バランスモード処理部 220 ファイル検索部 230 ファイル復元部 240 圧縮検索ソフトウェア(tiny版) 250 圧縮検索ソフトウェア(fat版)
───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 5B075 ND03 NR02 NR03 NR16 NR20 QS01 5B082 GA01 GC04

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 電子データを圧縮し,圧縮データ上で指
    定された任意の文字列の検索を容易にする機能を持つ圧
    縮検索ソフトウェアを用いて,複数のファイルを束ねた
    書庫ファイルを作成する圧縮検索アーカイブ処理方法で
    あって,圧縮率と検索速度のトレードオフに応じて用意
    された複数の異なる圧縮検索方式を,ユーザの指定によ
    り,または圧縮対象ファイルの属性により選択する過程
    と,前記選択された圧縮検索方式に応じた圧縮検索ソフ
    トウェアを用いて圧縮対象ファイルを圧縮する過程とを
    有することを特徴とする圧縮検索アーカイブ処理方法。
  2. 【請求項2】 電子データを圧縮し,圧縮データ上で指
    定された任意の文字列の検索を容易にする機能を持つ圧
    縮検索ソフトウェアを用いて,複数のファイルを束ねた
    書庫ファイルを作成する圧縮検索アーカイブ処理方法で
    あって,圧縮対象ファイルのファイルサイズが所定の閾
    値より大きいか小さいかを判定する過程と,圧縮対象フ
    ァイルのサイズが所定の閾値より小さい場合に,圧縮率
    と検索速度のトレードオフに応じて用意された複数の異
    なる圧縮検索方式のうち,圧縮率のよいほうの圧縮検索
    方式に応じた圧縮検索ソフトウェアを用いて圧縮対象フ
    ァイルを圧縮し,圧縮対象ファイルのサイズが所定の閾
    値より大きい場合に,前記複数の異なる圧縮検索方式の
    うち,検索速度のよいほうの圧縮検索方式に応じた圧縮
    検索ソフトウェアを用いて圧縮対象ファイルを圧縮する
    過程とを有することを特徴とする圧縮検索アーカイブ処
    理方法。
  3. 【請求項3】 電子データを圧縮し,圧縮データ上で指
    定された任意の文字列の検索を容易にする機能を持つ圧
    縮検索ソフトウェアを用いて,複数のファイルを束ねた
    書庫ファイルを作成する圧縮検索アーカイブ処理方法で
    あって,圧縮対象ファイルのファイルサイズが所定の閾
    値より大きいか小さいかを判定する過程と,圧縮対象フ
    ァイルのサイズが所定の閾値より小さい場合に,それら
    のサイズが小さい同種の圧縮対象ファイルを複数繋いだ
    複合ファイルを作り,圧縮対象ファイルのサイズが所定
    の閾値より大きい圧縮対象ファイルと前記複合ファイル
    とを,前記圧縮検索ソフトウェアを用いて圧縮する過程
    とを有することを特徴とする圧縮検索アーカイブ処理方
    法。
  4. 【請求項4】 請求項1,請求項2または請求項3記載
    の圧縮検索アーカイブ処理方法を,コンピュータに実行
    させるための圧縮検索アーカイブ処理プログラム。
  5. 【請求項5】 請求項1,請求項2または請求項3記載
    の圧縮検索アーカイブ処理方法を,コンピュータに実行
    させるためのプログラムを記録したことを特徴とする圧
    縮検索アーカイブ処理プログラムの記録媒体。
JP2002145757A 2002-05-21 2002-05-21 圧縮検索アーカイブ処理方法,圧縮検索アーカイブ処理プログラムおよびそのプログラムの記録媒体 Withdrawn JP2003337822A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002145757A JP2003337822A (ja) 2002-05-21 2002-05-21 圧縮検索アーカイブ処理方法,圧縮検索アーカイブ処理プログラムおよびそのプログラムの記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002145757A JP2003337822A (ja) 2002-05-21 2002-05-21 圧縮検索アーカイブ処理方法,圧縮検索アーカイブ処理プログラムおよびそのプログラムの記録媒体

Publications (1)

Publication Number Publication Date
JP2003337822A true JP2003337822A (ja) 2003-11-28

Family

ID=29704940

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002145757A Withdrawn JP2003337822A (ja) 2002-05-21 2002-05-21 圧縮検索アーカイブ処理方法,圧縮検索アーカイブ処理プログラムおよびそのプログラムの記録媒体

Country Status (1)

Country Link
JP (1) JP2003337822A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005293224A (ja) * 2004-03-31 2005-10-20 Hitachi Computer Peripherals Co Ltd バックアップシステム及びバックアップ方法
JP2007058594A (ja) * 2005-08-24 2007-03-08 D & M Holdings Inc データ加工装置
JP2007066007A (ja) * 2005-08-31 2007-03-15 Mitsubishi Electric Corp データ生成装置及びデータ生成方法及びデータ生成プログラム
JP2007525759A (ja) * 2004-03-10 2007-09-06 ノキア コーポレイション コンテンツロケーション情報の格納
JP2009289196A (ja) * 2008-05-30 2009-12-10 Fujitsu Ltd 情報検索プログラム、情報管理プログラム、情報検索装置、情報管理装置、情報検索方法、および情報管理方法
JP2011037219A (ja) * 2009-08-18 2011-02-24 Canon Inc 画像処理装置、画像処理装置の制御方法、及びコンピュータプログラム
JP2011048679A (ja) * 2009-08-27 2011-03-10 Nec Corp ストレージシステム、管理方法及びプログラム
JP2011215931A (ja) * 2010-03-31 2011-10-27 Brother Industries Ltd 情報処理装置、情報処理プログラム、情報処理方法、及び配信システム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007525759A (ja) * 2004-03-10 2007-09-06 ノキア コーポレイション コンテンツロケーション情報の格納
JP2005293224A (ja) * 2004-03-31 2005-10-20 Hitachi Computer Peripherals Co Ltd バックアップシステム及びバックアップ方法
JP2007058594A (ja) * 2005-08-24 2007-03-08 D & M Holdings Inc データ加工装置
JP2007066007A (ja) * 2005-08-31 2007-03-15 Mitsubishi Electric Corp データ生成装置及びデータ生成方法及びデータ生成プログラム
JP2009289196A (ja) * 2008-05-30 2009-12-10 Fujitsu Ltd 情報検索プログラム、情報管理プログラム、情報検索装置、情報管理装置、情報検索方法、および情報管理方法
US9858282B2 (en) 2008-05-30 2018-01-02 Fujitsu Limited Information searching apparatus, information managing apparatus, information searching method, information managing method, and computer product
JP2011037219A (ja) * 2009-08-18 2011-02-24 Canon Inc 画像処理装置、画像処理装置の制御方法、及びコンピュータプログラム
JP2011048679A (ja) * 2009-08-27 2011-03-10 Nec Corp ストレージシステム、管理方法及びプログラム
JP2011215931A (ja) * 2010-03-31 2011-10-27 Brother Industries Ltd 情報処理装置、情報処理プログラム、情報処理方法、及び配信システム

Similar Documents

Publication Publication Date Title
US10614032B2 (en) Quick filename lookup using name hash
US6598051B1 (en) Web page connectivity server
US6701317B1 (en) Web page connectivity server construction
US7552130B2 (en) Optimal data storage and access for clustered data in a relational database
US7539685B2 (en) Index key normalization
US7240069B2 (en) System and method for building a large index
US7548939B2 (en) Generating storage reports using volume snapshots
CN101178726B (zh) 数据文件解归档的方法和系统
JPH1153240A (ja) 計算機のデータバックアップ装置及びデータバックアップ方法並びにデータバックアッププログラムを記録したコンピュータ読み取り可能な記録媒体
CN106980665B (zh) 数据字典实现方法、装置及数据字典管理系统
KR20080097196A (ko) Fat 볼륨 상의 개별적인 파일들은 압축하고, 그 외의 파일들은 비압축 상태로 유지하기 위한 컴퓨터 구현 방법, 시스템 및 컴퓨터 판독 가능 매체
US7647291B2 (en) B-tree compression using normalized index keys
US11886401B2 (en) Database key compression
US8190614B2 (en) Index compression
JP2003337822A (ja) 圧縮検索アーカイブ処理方法,圧縮検索アーカイブ処理プログラムおよびそのプログラムの記録媒体
EP2531939B1 (en) Method and system for compressing data records and for processing compressed data records
KR100597411B1 (ko) 파일의 효율적인 데이터 관리를 위한 방법 및 장치
US6697813B1 (en) Data structures and methods for imaging computer readable media
US6510499B1 (en) Method, apparatus, and article of manufacture for providing access to data stored in compressed files
US6625614B1 (en) Implementation for efficient access of extended attribute data
CN112835858A (zh) 非连续存储文件的恢复方法、装置、设备及存储介质
WO2019119336A1 (zh) 一种通用数据gz格式的多线程压缩与解压方法及装置
CN113282592B (zh) 对mssql数据库进行恢复的方法、系统及存储介质
US11436108B1 (en) File system agnostic content retrieval from backups using disk extents
JP7377915B2 (ja) 個別データ検索サービスを提供する方法、コンピュータ装置、およびコンピュータプログラム

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20050802