JP2005202443A - ファイルシステムイメージの圧縮方法及びプログラム - Google Patents

ファイルシステムイメージの圧縮方法及びプログラム Download PDF

Info

Publication number
JP2005202443A
JP2005202443A JP2004004913A JP2004004913A JP2005202443A JP 2005202443 A JP2005202443 A JP 2005202443A JP 2004004913 A JP2004004913 A JP 2004004913A JP 2004004913 A JP2004004913 A JP 2004004913A JP 2005202443 A JP2005202443 A JP 2005202443A
Authority
JP
Japan
Prior art keywords
file
file system
processed
files
fsi
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004004913A
Other languages
English (en)
Other versions
JP3713666B2 (ja
Inventor
Masaaki Nakagawa
理明 中川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP2004004913A priority Critical patent/JP3713666B2/ja
Publication of JP2005202443A publication Critical patent/JP2005202443A/ja
Application granted granted Critical
Publication of JP3713666B2 publication Critical patent/JP3713666B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract


【課題】 バックアップなどのために採取される、サイズの大きなファイルシステムイメージを圧縮する。
【解決手段】
ファイルシステムイメージ中のファイルを可能な限り認識して、第一に、ファイル単位で汎用の圧縮法を用いて圧縮し、第二に、複数のファイルシステムイメージがあるときは、他方(基準ファイルシステムイメージ)と同じファイルが含まれている場合に、そのファイルのデータの代わりに、基準ファイルシステムイメージ上でのファイル名と、被処理ファイルシステムイメージ上のクラスタ位置のみを記録することにより、一方(被処理ファイルシステムイメージ)を差分圧縮する。残りの領域は位置を添えてそのまま出力する。

【選択図】 図1



Description

本発明は、コンピュータの記憶装置上に格納される、ディスクイメージその他のファイルシステムイメージの、主としてバックアップのための、圧縮と復元の方法及びプログラムに関する。
コンピュータの記憶装置上に展開されるファイルシステムのデータバックアップないしデータコピーの方法としては、大きく分けて、ファイルシステム上に存在するファイルを、OSの提供するファイルシステムの操作手段を使うなどして各々ファイル単位でコピーする方法(本書ではファイル単位バックアップ法と呼ぶ)と、個々のファイルを意識せずに、ファイルシステムのビットイメージをコピーする方法(本書ではイメージバックアップ法と呼ぶ)とが存在する。
ファイル単位バックアップ法は、もっとも広く用いられている方法で、個々のファイルを認識してバックアップするため、ユーザが指定したファイル、あるいは更新のあったファイルというように、特定のデータに限ってバックアップすることが容易である。また、複数のバックアップの間で、重複するファイルがあったときは、それらを1コピーのみ格納することによって、格納効率を向上させることが比較的容易に可能である(例えば、特許文献1・2・3参照)。しかし、ファイル単位バックアップ法では、読み取り・書き出し能力がOSのファイルシステム操作手段に依存するため、ブートセクタ・隠しファイル・ファイル属性などの、バックアップまたは復元できない特殊なデータが生じることもある。また、ファイルシステム内部のデータ配置は認識されない。これらの理由により、バックアップが不完全となって、利用するプログラムによっては、それらのバックアップを復元しても、正常に動作しないか、元通りの性能を得られない可能性がある。また、OSのファイルシステム操作手段による支援が得られない状況では、バックアップや復元が行えないこともある。
イメージバックアップ法は、個々のファイルなどのファイルシステム内部の構造を意識せず、ファイルシステムのビットイメージ(本出願ではファイルシステムイメージという)をコピーするため、ファイル単位バックアップ法と異なり、完全なバックアップを作ることができる利点がある。また、ファイルシステム内部の構造を意識しないので、読み書きの機構が単純で、OSのファイルシステム操作手段による支援も必ずしも必要とされない。しかし通常、ファイルシステム単位でバックアップし、そのまま保存することとなるので、バックアップを繰り返すと、ファイルシステム全体と等しい大きさのバックアップがその回数分作成されることとなり、データの総量が大きくなる。それを小さくする方法として、全体を汎用の圧縮法で圧縮する方法や、空き領域について出力を省略する方法などが公知であるが、必ずしも十分に効率の良いものではない。
また、比較的類似した複数のファイルシステムイメージを効率よく取り扱う方法として、非特許文献1ないし特許文献3で示唆されるように、単にファイルシステムイメージのビットイメージを比較して差分を取る方法も公知であるが、含まれるファイルが比較される複数のファイルシステムイメージの間で大体同じであったとしても、通常、ファイルシステムイメージ内にファイルの内容が配置されるときの位置は、時と場合によって(例えば、ソフトウェアをインストールした順番や、いわゆる“デフラグ”を掛けたかどうかなどで)大きく異なりうるため、満足のいく結果が得られるのは、あるひとつのファイルシステムイメージに対して、多少ファイルの追加や削除を行った程度の関係にあるファイルシステムイメージを扱うような場合に限られる。
特願平11−102167号公報 米国特許出願公開第20020107877号明細書 特表2002−517816号公報 PowerQuest(R) V2i Protector(TM) 2.0 Server Edition User Guide、p.37-38、[online]、2003年5月、PowerQuest Corporation、[平成16年1月12日検索]、インターネット<URL:http://www.powerquest.com/documentation/guides/V2PS20ENug.pdf>
以上のように、ファイル単位バックアップ法では、バックアップや復元が不完全となる可能性があり、またそれらを行える状況にも制限がある。これを回避するために、イメージバックアップ法を採りたいが、イメージバックアップ法では、常にファイルシステム全体がバックアップされるので、そのバックアップを格納する場合には、記憶装置に大きな容量が必要となり、また、通信網経由でバックアップを取る場合には、通信量が大きくなる、という問題を生じる。とくに、格納されたデータに変更が生じる度にバックアップを取る場合や、企業などで類似した環境のコンピュータを多く利用していて、夫々についてバックアップを取る場合などには、コストや時間の無駄が大きくなる。ファイル単位バックアップ法では重複するファイルを1コピーのみ保持するようにして容量を節約することが比較的容易であったが、イメージバックアップ法ではそれは実現されていなかった。その原因の一つには、ファイルシステムイメージの操作、とりわけ書き出しにあたっては、当該ファイルシステムについての詳細で正確な知識が必要とされ、それなしではデータの損失を生じるおそれがあったことが挙げられる。
本発明は、イメージバックアップ法を採りつつも、重複するファイルの内容を1コピーのみ保持して、ファイルシステムイメージを差分圧縮することを可能とする。
請求項1の方法では、ファイルシステムイメージに含まれるファイルの存在とその位置を認識できる程度にファイルシステムが解析されており、かつ既に少なくとも他に1つファイルシステムイメージ(基準ファイルシステムイメージ)が存在する場合に、被処理ファイルシステムイメージに、基準ファイルシステムイメージ上にあるファイルと同一の内容を持つファイルが存在する場合には、内容の代わりに、そのファイル名等(一致基準参照情報)と位置を出力するようにして、データ長を削減した圧縮済ファイルシステムイメージを出力する。被処理ファイルシステムイメージ上の残りの領域はその位置とともにそのまま出力する。
請求項2の方法は、請求項1の方法で、基準ファイルシステムイメージと被処理ファイルシステムイメージとが、通信網で結ばれた互いに別の記憶装置上にある場合に、基準ファイルシステムイメージを有する装置(親局)が、基準ファイルシステムイメージ上にあるファイル類のファイル名等と内容のハッシュ値等とからなる一覧を、被処理ファイルシステムイメージを有する装置(子局)に送信することにより、このような状況において、通信量を削減しつつ、子局においてデータ長を削減した圧縮済ファイルシステムイメージを出力する。
請求項3の方法は、請求項2の方法で、子局が複数存在する場合に、1対多の通信方法を用いて、通信量を削減しつつ、各子局においてデータ長を削減した圧縮済ファイルシステムイメージを出力する。
請求項4と5の方法は、従来の技術と同様に汎用の圧縮方法を用いて圧縮するが、ファイルシステムイメージ全体をそのまま圧縮するのではなく、ファイル類単位で圧縮することにより圧縮率の向上を図る(これは差分圧縮ではない)。請求項4は請求項1などの方法と併用する方法、請求項5は単独で用いる方法である。
請求項6の方法は、請求項1〜5の方法で圧縮されたファイルシステムイメージを復元する方法である。
請求項7のプログラムは、コンピュータに請求項1〜6の方法を実行させる。
本発明により、イメージバックアップ法を採りつつも、重複するファイルの内容を1コピーのみ保持して、ファイルシステムイメージを差分圧縮することが可能となるので、多数のファイルシステムの保存や伝送にかかる時間やコストを節約することができ、ファイルシステムのバックアップを確実かつ効率的に行うことも可能になる。
本出願における用語の定義は次の通りである。
ファイル類:ファイルシステムが当該ファイル類の識別子を以って識別することのできる、データの単位をいい、ファイル、ストリーム等を含む。
ファイル類の識別子:ファイルシステムがファイル類を識別するための名前、ファイル名、パス名、ストリーム名、URL、番号、GUIDその他の情報。
FSI:ファイルシステムイメージの略称。
基準ファイル類:基準FSI上のある特定のファイル類。
基準参照情報:基準ファイル類の内容を参照する(指し示す)情報。例えば基準ファイル類のファイル名など。
一致基準ファイル類:判定手段が、内容が一致すると判定した基準ファイル類。
一致基準参照情報:一致基準ファイル類に対する基準参照情報。
被処理上ファイル類:被処理FSI上のある特定のファイル類。
被処理上領域:被処理FSI上の、1以上の領域のリスト。
被処理上参照位置:被処理上ファイル類の内容の格納されている被処理上領域の位置を表す、1以上の情報からなるリスト。
一致被処理上ファイル類:判定手段が内容が一致すると判定した被処理上ファイル類。
一致被処理上領域:一致被処理上ファイル類の内容の格納される被処理上領域。単に一致領域ともいう。
一致被処理上参照位置:一致被処理上領域の被処理上参照位置。単に一致位置ともいう。
残存被処理上領域:判定手段が、いずれかの一致基準ファイル類と内容が一致すると判定しないで残る、被処理FSI上の領域、又は、読取手段や圧縮手段が読取圧縮しないで残る、被処理FSI上の領域。単に残存領域ともいう。
残存被処理上ファイル類:残存被処理上領域上に存在する被処理上ファイル類。単に残存ファイル類ともいう。
内容識別情報:ファイル類の内容を表す値で、ファイル類の内容が同じであればその値も同じになるもの。ファイルの内容そのもの、その(可逆又は非可逆の)圧縮形、SHA-1・MD5その他のハッシュ値、チェックサム、CRC等を含む。
汎用の圧縮法:一般のデータに対して適用可能なデータ圧縮法。ハフマン圧縮、算術圧縮、LZW圧縮、ZIP圧縮、GZIP圧縮、BZIP2圧縮等を含む。
また、本出願において、リストは順序を持つ。
請求項1の方法においては、まず、既になんらかの方法によって記憶装置上に複数のFSIが存在することを前提に、ある1つ以上のFSIを基準FSIとして、また、圧縮の対象とするもう一つのFSIを被処理FSIとして、それぞれ任意に選ぶ。これは、ユーザの指示によっても、コンピュータ等がなんらかのアルゴリズムで自動的に選んでも良い。FSIは、ハードディスクのパーティションのように記憶装置上に直接格納されたものの他、POSIXのddコマンド等を利用するなどしてファイルシステム上にファイルの形で存在しているものであっても良い。また、一つの記憶装置の上に全てのFSIが格納されている必要はなく、それぞれのFSIが別々の記憶装置上にあっても良い。
まず、便宜のため、出力手段が基準FSIや被処理FSIの大きさや位置(FSIがそれ自体ファイルであった場合はファイル名など)、圧縮の方法等をヘッダ等として出力することが望ましい。
次に、FSI中のファイルシステム中の構造を可及的に解釈することのできる判定手段が、被処理FSIと、各基準FSIの中にあるファイル類を、それぞれからできるだけ多くの組み合わせで一つずつ読み出して、内容が同じものがあるか調べる。内容が同じものがあったと判定された場合には、出力手段が、一致基準参照情報と一致被処理上参照位置(一致位置)を含む情報を出力するようにする。一致基準参照情報は、通常、当該ファイル類の内容より短いから、これによって圧縮が達成できる(一致置換処理)。
この一致位置は、例えば、ハードディスク装置におけるセクタないしクラスタ番号といったものであらわされるが、データの位置を正確に記述できる能力を有するものでなければならない。例えば、FATファイルシステムにおいては、ファイルデータは必ずクラスタの先頭から始まるから、クラスタ番号を利用することができるが、ファイルのデータがクラスタの途中から始まることを許すようなファイルシステムでは、ディスク先頭からのバイトオフセット値を利用するか、あるいはクラスタ番号にオプションとして相対バイトオフセットを付加することができるようにする(拡張オフセット形式)必要があるかもしれない。ただ、一般に、位置を表すのに必要な符号長を小さくするため、また処理を単純にするためという観点から、バイトオフセット値よりは拡張オフセット形式、拡張オフセット形式よりはセクタ番号、セクタ番号よりはクラスタ番号というように、可能な限りでなるべく粗い単位を採用するのが望ましい。各ファイル類の内容データは、大抵、記憶装置上でいくつかの塊に断片化され複数の位置に飛び飛びに配置される。したがって、一致位置はリストの形をとり、具体的にこれを出力するには、例えば、位置を開始位置と終了位置により範囲で表し、内容データと一致する順番に順次出力すれば良い。例えば、セクタ番号100〜102及び211〜225、あるいはバイトオフセット値40156〜52367及び68763〜98423というようにである。
また、ここでいう一致基準参照情報は、上述のように、一致基準ファイル類の内容を参照する(指し示す)情報のことであり、一致位置を表すのと同様に、基準FSI上の一致したファイル類の内容が格納されているバイトオフセット値、セクタ番号、クラスタ番号(あるいはこれらの範囲や、そのリスト)を利用することができる他、当該ファイル類の基準FSI上での識別子などを利用することもできる。基準FSIが複数ある場合は、通常、これらに加えて当該基準FSIに対する識別子も必要であろう。
被処理FSIのうち、一致領域としては出力されない部分(残存被処理上領域、残存領域)については、出力手段はその内容をそのまま出力する(残存領域拾上処理)。残存領域も一般にFSI上で飛び飛びの位置に分布するから、例えば、開始・終了位置と内容データの組の集合の形で出力するのが望ましい(しかし、一致置換処理で書き出されなかった位置が残存領域の位置となるから、通常これは必須ではない)。内容データは汎用の圧縮法により圧縮するとより望ましい。なお、残存領域の出力は、一致領域の出力がすべて終わった後にするのが便利であろうが、必ずそうしなければならないわけではない。
本方法では、判定手段は、必ずしも、ファイルシステムの構造について完全に解釈できる必要がなく、両FSI上のすべてのファイル類の組み合わせについて比較する必要もない。すなわち、内容が同じものがあるにも関わらずそれを見落とすことが多少あっても、その分圧縮効率が悪化するのみで、データが欠損することはない。というのは、そのようにして見逃された部分は、残存領域として出力されるからである。また、本来のファイル類の内容データの位置とは無関係な領域をそれと誤解した場合で、たまたま内容が一致してしまった場合でも、出力データが異常となることはない。出力された位置に当該データが配置されていること自体は確かだからである。したがって、詳細まで正確に解析できていない種類のファイルシステムであっても、それはそれなりに圧縮を行うことができる。また、両FSI上のファイル類の比較にあたって、すべての組み合わせについてではなく、例えばファイル名の一致するもののみ内容の比較を行うといった省力による高速化を行うこともできる。
残存領域であっても、出力手段により、出力する必要がないと判断できる部分(不要領域)については、出力しないことにより圧縮効率を高めることができる。特に、空き領域であると判定できる領域があるときは、その領域を出力しないようにすることが望ましい。もっとも、ファイルシステムの詳細について明らかでなく、空き領域かどうかはっきりしない領域があるときは、その領域は出力しておくのが無難である。その他不要領域と判断しうる領域の候補としては、一時データ用の領域、仮想記憶用領域(スワップファイル)などが考えられる。
なお、本方法の出力は、FSIが存在しているのと同じまたはそれと異なる記憶装置上に格納されるか、通信装置により送信されるのが通常であろう。
ところで、基準FSIは、既に出力手段によって出力(圧縮)された結果(圧縮済FSI)であっても良い。これをもっとも単純に実現するには、復元手段を設け、前処理としてその圧縮済FSIの復元処理を行い、それによって出来たFSIを基準FSIとして、それ以降は通常どおり処理すれば良い。しかしこれでは多くの記憶領域を必要とするなど効率が悪いので、判定手段が直接圧縮済FSIを取り扱えるようにすることが望ましい。このためには、例えば、あらかじめ、判定手段が、圧縮済FSIのもととなった被処理FSI上の各位置単位(例えばクラスタ)のデータが、実際にはどこに存在しているかの対応表を作成しておけば良い。まず、圧縮済FSIを調べて、一致位置に対応する対応表の項目に、対応する基準FSI上の位置を記入する。次に、請求項4の方法に係る残存領域については、圧縮済FSIにその内容が含まれているから、その場所を対応表に記入する。対応表が出来た後、圧縮済FSIの内容を基準FSIとして読み取るときは、その対応表の指し示す場所を読み取るようにする。なお、圧縮済FSIにデータが存在しない領域(請求項4の方法に係る不要領域を含む)については、対応表上は、不明領域である旨の印をつけておけば良い。この印がある位置のデータは、判定手段はいかなるデータとも一致しないと判定し、出力手段は不要領域と判断する。
ファイルシステムによっては、一つのファイルの実体に対して複数の名前を付けることができるようになっていることがある(リンク)。このような場合でも、ここまでに述べた方法で特に処理に不都合は生じないが、効率の面からは、一つの実体に対して一回だけ比較を行うようにすることが望ましい。
また、ファイルシステムの中には、ファイル類の中に記憶容量を消費しない穴を有する、いわゆるスパースファイルに対応するものがある。スパースファイルは、穴の前後のデータがそれぞれ別のファイル類であるとみなせば(みなしファイル類)、通常のファイル類と同様に処理することができる。ただしこの場合、みなしファイル類を一致領域として出力する場合には、ファイル類の識別子に、ファイル類内でのみなしファイル類の内容データの開始位置を表すオフセット値を付加する必要がある。この方法は、穴が複数ある場合にも適用することができる。
さらに、いくつかのファイルシステムは、ファイル類毎に、その内容を圧縮ないし暗号化するなど、表す内容はそのままにビット表現を違えて格納すること(ここでは内容変換と呼ぶ)ができるような機能を持っている。このような場合、内容変換されたファイル類については、内容変換後のファイル類のビットイメージを比較することが考えられるが、そうすると、例えば、基準ファイル類の内容は内容変換されているが被処理ファイル類はそうでないという場合、判定手段は、元の内容は同じでも両者の内容が異なると判定することになる。これは必ずしも望ましくないので、判定手段が、基準ファイル類の内容が内容変換されているときはそれを元に戻してから比較する、あるいは、被処理ファイル類の内容が内容変換されて被処理FSIに格納されている場合には、基準ファイル類の内容も同一の方法で内容変換してから比較する、などというように、両者の元の内容によって比較することもできることが望まれる。このような場合、出力手段では、一致基準参照情報や一致被処理上参照位置とともに、被処理ファイル類の内容変換の種類を出力するなどの対応が必要となろう。
請求項2の方法は、請求項1の方法と類似しているが、基準FSIを持っている装置(親局)と、被処理FSIを持っている装置(子局)が別であって、それらが通信網で結ばれている場合に、効率的な処理を行うものである。このような状況では、単純には、いったん通信網経由で、親局から子局に基準FSIをコピーするか、子局から親局に被処理FSIをコピーすれば、後は請求項1記載の方法により処理が可能となる。しかし通常、FSIは大きく、通信網経由でのコピーには時間がかかる。基準FSIや被処理FSIをネットワーク対応の分散ファイルシステムを用いて共有し、請求項1の方法を適用しても同様である。本方法は、これらを行わないで済ますものである。
本方法は、請求項1の方法と次の点を除いて同一である。請求項1の方法では、判定手段が両FSIを直接読み出して比較を行っていた。本方法では、親局(複数であり得る)の識別情報送出手段が、基準FSIを読み出して、そこに含まれる各ファイル類の、基準参照情報と内容識別情報などから構成される組の集合(一覧)を、通信網を介して子局に送信する。内容識別情報は、上述のようにファイル類の内容を表す値で、ファイル類の内容が同じであればその値も同じになるもの(ファイル類の内容の関数)のことである。内容識別情報の長さはもとのファイル類の内容の長さ以下であり、望ましくは、それよりかなり短い。判定手段は、その一覧を受信した後、被処理FSI上の各ファイル類を読み出してこの値を計算し、一覧の中の内容識別情報と突き合わせる。そして、同じものがあったときは、そのファイル類と、その一覧上で対応する基準参照情報で示される基準ファイル類の内容とが同じであったものと判定する。その他の処理は、子局上で、請求項1記載の方法と同様に行われる。なお、親局が複数のときは、一致基準参照情報に、さらに当該親局の識別子を含むのが望ましい。
内容識別情報については、ファイル類の内容が異なっている場合にその値が異なることは厳密には要求されないが、できるだけ高い確率でそのような性質を持つことが望ましい。内容が異なっているのに値が一致(衝突)すると、誤判定が生じるからである。誤判定を防ぐためには、内容識別情報の算出に、十分な長さを持ち高いユニーク性を持つ値を算出する方法を採用することが望ましいが、一方で、効率を高めるためには、内容識別情報の長さが可能な限り短いことも望まれる。ファイル類の内容を可逆の汎用の圧縮法により圧縮した結果を採用すれば、衝突回避という点では理想的であるが、これでは基準FSIを参照する意味がなく、もっと短いことが望まれる。短い値で衝突を防ぐ方法としては、SHA-1などの、性質がよいことが知られているハッシュ法を利用することの他、ファイル類の長さや識別子、作成日時等を内容識別情報と組み合わせて「みなし内容識別情報」とし、これを内容識別情報とみなして処理することも考えられる(識別子や作成日時などは、そのファイル類の内容が同じであっても異なることがあるから、ハッシュ値などの本来の意味での内容識別情報にこれらを組み合わせると、その組み合わせたものは厳密には内容識別情報にならなくなるが、同一のものを多少見逃すことが許容されるならば、内容識別情報とみなして処理しても実用上差し支えない)。いずれにせよ、内容識別情報の算出方法は、衝突の確率が相当低いように選ぶべきであり、かつ実用的にはそれで足りると考えられる。例えば、SHA-1の値と、ディレクトリ名部分を除いたファイル名を組み合わせた「みなし内容識別情報」を利用するのは、望ましい例である。ただ、ファイル類の長さが十分に小さいときは、その内容そのものないし汎用の圧縮法による圧縮結果を採用することも考えられる。
なお、本方法により得られる出力は請求項1記載の方法と同様に、記憶装置や通信装置に向けられるのが通常であろうが、その格納先ないし送信先は、親局及び子局に限られず、それら以外の装置であっても良い。ただし、復元には基準FSIが必要となるから、それを有する親局に送信され格納されることが多いであろう。
請求項3の方法は、請求項2の方法において、多数の子局たりうる装置が存在する場合に、親局からの一覧の送信に、ブロードキャスト等の1対多の通信方法を用いる方法である。これにより、子局の数だけ一覧を送信する必要がなくなるため、通信網の利用効率を向上させ、また、通信にかかる時間を節約することができる。ここでも、ある子局が受信する一覧の送信元たる親局は複数であり得る。
請求項4の方法は、ここまでに述べた方法で、残存領域の全体をそのまま出力するのではなく、残存ファイル類の少なくとも一部については、それらの内容を汎用の圧縮法を用いて圧縮して出力する方法である。一般に、汎用の圧縮法では、圧縮の対象となるデータ全体が、同一のある偏った統計的性質を持っている場合にもっとも効率よく圧縮することができる。単に残存領域全体を始めから終わりまで圧縮する場合、その領域上にあるさまざまなファイル類の内容データが入り乱れて渾然一体となっているため、統計的性質がバラけてしまい(ランダムに近くなり)、圧縮率がいくぶん悪化する。本発明では、出力手段が、当該領域上のファイル類の内容データを可及的に読み取り各々を圧縮する(残存ファイル類圧縮処理)。一般に、一のファイル類に含まれるデータは、相対的に一定の統計的性質を持つと期待されるため、圧縮率の向上が望める。出力手段は、この圧縮結果に、当該ファイル類の位置のリストを付け加えて出力する。この位置は、請求項1記載の発明等と同様に表現することができる。
なお、残存ファイル類でも、極めて小さいものなどは圧縮効率が悪いので、圧縮しないようにすることも考えられる。また、残存ファイル類のうち、統計的性質が類似すると期待されるもの、例えば、いわゆるファイル名の拡張子が共通のもの、あるいは同一のディレクトリに格納されるもの、などをまとめて一つの単位(アーカイブ)とし、それを圧縮することも考えられる。
これらの過程を経ても出力されないで残る残存領域の内容については、ここまでに述べた他の発明における残存領域に対する方法と同様に出力される。不要領域の扱い等も同様である。
判定手段がファイル類の内容を比較する場合と同様に、出力手段は、必ずしも正確にファイル類の位置を読み取ることができる必要はない。つまり、不正確に読み取った場合、その限りで圧縮率の向上が見込めなくなるが、データの異常が生じることはないし、圧縮されずに残る部分は、そのまま出力されるから、データの取りこぼしが発生する心配もない。したがって、詳細まで正確に解析できていない種類のファイルシステムであっても、それなりには圧縮を行うことができる。
請求項5の方法は、請求項4の方法で残存ファイル類を対象としていたのを、被処理上ファイル類全般に広げたものである。本方法は、通常、基準FSIを必要としない。すなわち、本方法では、読取手段が被処理FSI上のファイル類を可及的に読み取って、それを圧縮手段が汎用の圧縮方法で圧縮したものを、出力手段がその位置のリストとともに出力することによって、圧縮済FSIを出力し、以って被処理FSIを圧縮するものである。残りの領域については、請求項6の方法と同様に、出力手段は、(不要領域を除き)残存領域としてそのままの内容(望ましくはそれを汎用の圧縮法で圧縮したもの)(及び望ましくはその位置のリスト)を出力する。この方法の、従来の方法に対する利点は、請求項6の方法におけるのと同じである。
本方法は、請求項4の方法で、基準FSIとして被処理上ファイル類と一致する基準ファイル類をまったく含まないものだけが与えられたと仮定して処理するのと同じである。請求項4までの方法は、一番最初のFSIなど、基準FSIがない状況では適用できないから、そのような場合には本方法を利用するのが望ましい。
請求項6の方法は、ここまでに述べた方法の出力である圧縮済FSIを、元の被処理FSIの形に復元する方法である。圧縮済FSI及びその作成にあたって利用した基準FSI(請求項5に係る方法による圧縮済FSIを処理する場合を除く)が読取可能であることを前提とする。
復元手段はまず、ユーザから入力を受け取るか、より望ましくはヘッダ等を読み取って、基準FSIのある場所(請求項5に係る方法による圧縮済FSIを処理する場合を除く)並びに復元結果(復元FSI)の書き出し先及び大きさ(通常元の被処理FSIの大きさと同じであるが、ユーザの指示等により増減することもありうる)を特定する。
次に復元手段は、当該圧縮済FSIを読み取って、そこに一致基準参照情報を含むデータがあるときは、一致基準参照情報で示される基準ファイル類を読み取り、その内容を復元FSI上の当該一致位置と同じ位置に書き出す(一致領域復元処理)。
また、当該圧縮済FSIに圧縮されたファイル類の圧縮データが含まれているときは、復元手段は、その圧縮データを復元し、それに付加されているファイル類の位置の情報と同じ位置に書き出す(ファイル類復元処理)。
また、当該圧縮済FSIに残存領域のデータが含まれているときは、それに位置の情報が付加されているときはその位置に、それがないならば一致領域復元処理及び残存ファイル類復元処理で書き出されなかった領域に順に、そのデータを(それが汎用の圧縮法で圧縮されていれば復元して)書き出す(残存領域復元処理)。
以上の処理で書き出されない復元FSI上の領域は、不要領域であるから、復元手段は、任意のデータで初期化する。
請求項7のプログラムは、ここまで述べた方法をコンピュータに実行させるためのものである。これらの方法をプログラムとして実装することは、ここまで述べたことを前提とすれば、当業者にとって容易である。
(前提)
図1は、本発明の原理を説明するために、主として請求項1及び4に係る方法による圧縮の実施の一例を示した図である。装置(1)に判定手段(11)、出力手段(12)、圧縮手段(13)と、記憶装置(14)が含まれている。記憶装置(14)には、基準FSI(141)及び被圧縮FSI(142)が格納されており、また、本実施例の実施により、出力手段(12)が圧縮済FSI(143)を出力する。これらFSIの上部に振られている数字はそれらの中での位置、例えばクラスタ番号を表す。なお、説明を単純にするため、ここでは基準FSIが一つの場合で説明するが、本来本発明においては複数とすることも可能である。
基準FSI(141)には、ファイルAの内容(1441)、ファイルBの内容(1442)、ファイルDの内容(1444)、その他の内容(1445)及び明らかな空き領域(1446)が含まれている。ファイルAの内容(1441)は基準FSI(141)上で位置6〜9、17〜19及び28〜32を占めており、また基準FSI(141)のファイルシステム上でAというファイル名が付けられている。同様に、基準FSI(141)上で、ファイルBの内容(1442)は位置9〜11、23〜24及び37〜39を占めファイル名はBであり、ファイルDの内容(1444)は位置2〜4を占めファイル名はDである。ファイルAの内容(1441)、ファイルBの内容(1442)及びファイルDの内容(1444)は、判定手段(11)がファイルとして認識できるとする。出力手段(12)が明らかな空き領域(1446)として認識する領域は、位置1〜2、4〜6、11〜13、15〜17、19〜23、24〜28、32〜37及び39以降である。その余の部分は基準FSIのその他の内容(1445a)として示される。その他の内容(1445a)には、ファイルシステムの管理情報などが含まれることが多い。ある内容に対するファイル名がAとかBとかDとかであるという情報は、この管理情報の方に含まれ、内容自体には含まれない。なお、この基準FSI(141)には、ファイルcの内容(1443)は含まれないことに注意されたい。また、基準FSI(141)の大きさは通常被処理FSI(142)のそれと等しいことが多いであろうが、それは特に必要な条件ではないから、ここでは基準FSI(141)の大きさは明示しない。
大きさが50の被処理FSI(142)には、ファイルAの内容(1441)、ファイルcの内容(1443)、ファイルDの内容(1444)、その他の内容(1445)及び明らかな空き領域(1446)が含まれる。ファイルAの内容(1441)は被処理FSI(142)上では位置7〜10、15〜17、23〜25及び29〜31を占めており、その内容は基準FSI(141)上のファイルAの内容(1441)と等しい。同様に、ファイルDの内容(1444)は位置39〜41を占めその内容は基準FSI(141)上のそれと等しい。また、ファイルcの内容(1442)は位置2〜5、及び19〜20を占める。ファイルAの内容(1441)、ファイルcの内容(1443)及びファイルDの内容(1444)は、判定手段(11)がファイルとして認識できるとする。出力手段(12)が明らかな空き領域(1446)として認識する領域は、位置1〜2、5〜7、10〜15、17〜19、20〜23、25〜29、31〜33、37〜39及び41〜50である。その余の部分は被処理FSIのその他の内容(1445b)として示されるが、その内容は基準FSIのその他の内容(1445a)とは通常異なっている。なお、この被処理FSI(142)には、ファイルBの内容(1442)は含まれないことに注意されたい。また、ファイルAの内容(1441)、cの内容(1443)、Dの内容(1444)に対して被処理FSI(142)上ではどのようなファイル名が付けられていても良い。ここではそれぞれa、c、dというファイル名を持っているものとする。
(方法)
まず、出力手段(12)が被処理FSI(142)の大きさである50を圧縮済FSI(143)のヘッダとして書き出す。
次に、判定手段(11)が、被処理FSI(142)上からファイルaの内容、基準FSI(141)上からファイルAの内容(1441)を読み出し、それらを比較する。これらは一致しているから、判定手段(11)は出力手段(12)にその旨を通知する。それを受けて出力手段(12)は、被処理FSI(142)からファイルaの位置を読み出し、基準FSI(141)上でファイル名Aを持つファイルの内容(1441)が被処理FSI上では位置7〜10、15〜17、23〜25及び29〜31に位置している旨を「基準,A:7-10,15-17,23-25,29-31」のような形式で、圧縮済FSI(143)に書き出し追加する。
次に、判定手段(11)が、被処理FSI上からファイルcの内容、基準FSI(141)上からファイルAの内容(1441)を読み出し、それらを比較する。これらは一致していていないから、次に、基準FSI(141)上からファイルBの内容(1441)を読み出し、ファイルcの内容(1443)と比較するが、これらも一致しない。さらに基準FSI(141)上からファイルDの内容(1444)を読み出し、ファイルcの内容(1443)と比較するが、これらも一致しない。いずれとも一致しなかったので、判定手段(11)は、ファイルcは残存ファイル類である旨出力手段に通知する。出力手段(12)はそれを受けて、まず、ファイルcの位置を読み出して、残存ファイル類がありその位置が2〜5及び19〜20である旨を、「残フ:2-5,19-20」のような形式で、圧縮済FSI(143)に書き出し追加する。ここでcというファイル名を書き出していないことに注意されたい(もっとも、後の便宜のために書き出しても良い)。次に出力手段(12)は、ファイルcの内容(1443)を読み出して圧縮手段(13)に渡す。圧縮手段(13)はそれを汎用の圧縮法で圧縮して出力手段(12)に返す。それを受けて出力手段(12)は、その圧縮された内容を圧縮済FSI(143)に書き出し追加する。図1においては、ファイルcの内容(1443)が汎用の圧縮法で圧縮されていることを示すために、圧縮済FSI(143)上には、その領域の角を丸く、また被処理FSI(142)におけるファイルcの内容(1443)の幅の合計より狭く表示してある。
次に、判定手段(11)が、被処理FSI上からファイルdの内容、基準FSI(141)上からファイルAの内容(1441)を読み出し、それらを比較する。これらは一致していていないから、次に、基準FSI(141)上からファイルBの内容(1441)を読み出し、ファイルdの内容と比較するが、これらも一致しない。さらに基準FSI(141)上からファイルDの内容(1444)を読み出し、ファイルdの内容(1443)と比較する。これらは一致しているから、判定手段(11)は出力手段(12)にその旨を通知する。それを受けて出力手段(12)は、被処理FSI(142)からファイルdの位置を読み出し、基準FSI(141)上でファイル名Dを持つファイルの内容が被処理FSI(142)上では位置39〜41に位置している旨を「基準,D:39-41」のような形式で、圧縮済FSI(143)に書き出し追加する。
以上で判定手段(11)による比較は終わったので、判定手段(11)はその旨を通知する。それを受けて、出力手段(12)は、被処理FSI(142)を調べて、その中の明らかな空き領域(1446)がどこかを調べ、いままで出力した領域でもその領域(1446)でもない位置を、被処理FSI上のその他の内容(1445b)の位置(0〜1及び33〜37)として、「残域:0-1,33-37」のような形式で、圧縮済FSIに書き出し追加する。次に、当該内容(1445b)を圧縮手段(13)に渡す。圧縮手段(13)はそれを汎用の圧縮法で圧縮して出力手段(12)に返す。それを受けて出力手段(12)は、その圧縮された内容を圧縮済FSI(143)に書き出し追加する。図1においては、その他の内容(1445b)が汎用の圧縮法で圧縮されていることを示すために、圧縮済FSI(143)上には、その領域の角を丸く、また被処理FSI(142)におけるその他の内容(1445b)の幅の合計より狭く表示してある。
図1の圧縮済FSIにおいては、作図の都合上、ヘッダ、ファイルA及び残存ファイル類を出力した部分が、基準FSI(141)や被処理FSI(142)での表示と比較して、実際に占有する領域の大きさの割に横幅が広くなっている。実際には、これらは単に位置等の情報を含んでいるだけであるからかなり小さく、占有量は例えば1クラスタ未満であろう。このことを示すため、右上に「<1」と表示してある。この後に圧縮されたファイルcの内容(1443)が続くが、これは圧縮されてはいるが実際のデータを含むから、例えば2クラスタ程度を占有すると仮定してその右上に「≒3」と表示してある。その余の位置の表示も同様の趣旨である。また、圧縮済FSIの個々の要素の開始ないし終了位置は、クラスタ境界などに整合させる必要はない。
(前提)
図2は、主として請求項2、3及び4に係る方法、すなわち基準FSIと被処理FSIが別の装置上にある場合の圧縮の、実施の一例を示した図である。通信網(24)に親局(21)と子局α(22)と子局β(23)が接続されている。親局(21)には記憶装置(211)、識別情報送出手段(212)及び受信格納手段(213)が含まれている。記憶装置(211)には、基準FSI(2111)が格納され、また、本実施例の実施により受信格納手段(213)が圧縮済FSIα(2112)と圧縮済FSIβ(2113)を出力する。基準FSI(2111)は、実施例1を説明した図1の基準FSI(141)と同じ内容を持つものとする。また、本図における網掛けの意味は図1に示すもの(1441〜1446)と同じとする。なお、説明を単純にするため、ここでは親局が一つの場合で説明するが、本来本発明においては一の子局に対応する親局を複数とすることも可能である。
子局α(22)には記憶装置α(221)、判定手段(222)及び出力手段(223)が含まれる。また作図の都合で図示していないが、図1の出力手段(12)と同様に出力手段(223)に圧縮手段が接続される。記憶装置α(221)には被処理FSIα(2211)が格納されている。この被処理FSIα(2211)は、図1における被処理FSI(142)と同じ内容を持つものとする。
同様に、子局β(23)にも被処理FSIβ(2311)、記憶装置β(231)、判定手段(232)、出力手段(233)、圧縮手段が含まれる。ただし、被処理FSIβ(2311)の内容は被処理FSIα(2211)のそれとは異なり、基準FSI(2111)におけるファイルBと同じ内容を持つファイルb、及び、ファイルDと同じ内容を持つファイルd、被処理FSIα(221)におけるファイルcと同じ内容を持つファイルc、並びに、その他の内容(23111)を含む。また、被処理FSIβ(2311)の大きさは30とする。

通信網(24)はデータを伝送する設備で、本実施例においては1対多の通信にも対応するものであり、IPによるインターネット、IEEE802.3によるLAN、ISDNなどがその例である(ただし、請求項3に係る方法を用いないならば、1対多の通信に対応する必要はなく、USBやRS232Cなどのように、1対1の通信ができるもので十分である)。なお、本図では作図の便宜上、送信と受信のための通信線がそれぞれ引き込まれ、別々の手段に接続されているように表示してあるが、これは必須ではなく、例えば1本だけを引き込み適宜振り分ける構成としても良い。
(方法)
(親局・識別情報送出)

まず、親局(21)の識別情報送出手段(212)が、基準FSI(2111)を読み取って、そこに含まれる各ファイルのハッシュ値をなんらかの既知の方法(例えばSHA-1など)により計算する。ここでは、ファイルA、B及びDについて、それぞれハッシュ値が0x1a3c84、0xc6a87f及び0x7ed910と算出されたものとする。識別情報送出手段(212)は、それらファイル名とハッシュ値の組の集合を1対多の通信方法、例えばIEEE802.3におけるブロードキャストにより通信網(24)に送信する。
(子局α)
子局α(22)の判定手段(222)はそれを受信する。それと前後して判定手段(222)は、被処理FSIα(2211)を読み出し、そこに含まれる各ファイルのハッシュ値を、親局(21)の識別情報送出手段(212)と同じ方法により計算する。ここでは、ファイルa、c及びdについて、それぞれハッシュ値が0x1a3c84、0xb9786d及び0x7ed910と算出されたものとする。
まず、子局α(22)の出力手段(223)が被処理FSIα(2211)の大きさである50を、通信網(24)を介して親局(21)の受信格納手段(213)へ送信する。
次に、判定手段(222)は、ファイルaのハッシュ値0x1a3c84に一致するものが、親局(21)から通信網(24)を介して受信した集合にないか調べる。これはファイルAのそれに一致するから、判定手段(222)はファイルaの内容がファイルAのそれと一致するものと判定し、出力手段(223)にその旨通知する。出力手段(223)は、実施例1におけると同様に、被処理FSIα(2211)からファイルaの位置を読み出し、基準FSI(2111)上でファイル名Aを持つファイルの内容が被処理FSIα(2211)上にある旨及びその(2211)上でのその位置を実施例1と同様な形式で、通信網(24)を介して親局(21)の受信格納手段(213)へ送信する。
判定手段(222)はまた、ファイルcのハッシュ値0xb9786dに一致するものが、親局(21)から通信網(24)を介して受信した集合にないか調べる。これは存在しないから、判定手段(222)はファイルcが残存ファイル類である旨出力手段(223)に通知する。出力手段(223)はそれを受けて、まず、ファイルcの位置を読み出して、残存ファイル類がある旨及びその位置を、実施例1と同様な形式で、通信網(24)を介して親局(21)の受信格納手段(213)へ送信する。次に出力手段(223)は、ファイルcの内容(1443)を読み出して圧縮手段に渡す。圧縮手段はそれを汎用の圧縮法で圧縮して出力手段(223)に返す。それを受けて出力手段(223)は、その圧縮された内容を、通信網(24)を介して親局(21)の受信格納手段(213)へ送信する。
判定手段(222)はまた、ファイルdのハッシュ値0x7ed910に一致するものが、親局(21)から通信網(24)を介して受信した集合にないか調べる。これはファイルDのそれに一致するから、判定手段(222)はファイルdの内容がファイルDのそれと一致するものと判定し、出力手段(223)にその旨通知する。出力手段(223)は、実施例1におけると同様に、被処理FSIα(2211)からファイルdの位置を読み出し、基準FSI(2111)上でファイル名Dを持つファイルの内容が被処理FSIα(2211)上にある旨及びその(2211)上でのその位置を実施例1と同様な形式で、通信網(24)を介して親局(21)の受信格納手段(213)へ送信する。
以上で判定手段(222)による比較は終わったので、判定手段(222)はその旨を通知する。それを受けて、出力手段(223)は、被処理FSIα(2211)を調べて、その中の明らかな空き領域(1446)がどこかを調べ、いままで出力した領域でもその領域(1446)でもない位置を、被処理FSIα(2211)上のその他の内容(1445b)の位置として、実施例1と同様な形式で、通信網(24)を介して親局(21)の受信格納手段(213)へ送信する。次に、当該内容(1445b)を圧縮手段に渡す。圧縮手段はそれを汎用の圧縮法で圧縮して出力手段(223)に返す。それを受けて出力手段(223)は、その圧縮された内容を、通信網(24)を介して親局(21)の受信格納手段(213)へ送信する。
(子局β)
一方、子局β(23)の判定手段(232)も親局から同じ集合を受信する。それと前後して判定手段(232)は、被処理FSIβ(2311)を読み出し、そこに含まれる各ファイルのハッシュ値を、親局(21)の識別情報送出手段(212)と同じ方法により計算する。ここでは、ファイルb、c及びdについて、それぞれハッシュ値が0xc6a87f、0xb9786d及び0x7ed910と算出されたものとする。
まず、子局β(23)の出力手段(233)が被処理FSIβ(2311)の大きさである30を、通信網(24)を介して親局(21)の受信格納手段(213)へ送信する。
次に、判定手段(232)は、ファイルbのハッシュ値0xc6a87fに一致するものが、親局(21)から通信網(24)を介して受信した集合にないか調べる。これはファイルBのそれに一致するから、判定手段(232)はファイルbの内容がファイルBのそれと一致するものと判定し、出力手段(233)にその旨通知する。出力手段(233)は、実施例1におけると同様に、被処理FSIβ(2311)からファイルbの位置を読み出し、基準FSI(2111)上でファイル名Bを持つファイルの内容が被処理FSIβ(2311)上にある旨及びその(2311)上でのその位置を実施例1と同様な形式で、通信網(24)を介して親局(21)の受信格納手段(213)へ送信する。
判定手段(232)はまた、ファイルcのハッシュ値0xb9786dに一致するものが、親局(21)から通信網(24)を介して受信した集合にないか調べる。これは存在しないから、判定手段(232)はファイルcが残存ファイル類である旨出力手段(233)に通知する。出力手段(233)はそれを受けて、まず、ファイルcの位置を読み出して、残存ファイル類がある旨及びその位置を、実施例1と同様な形式で、通信網(24)を介して親局(21)の受信格納手段(213)へ送信する。次に出力手段(233)は、ファイルcの内容(1443)を読み出して圧縮手段に渡す。圧縮手段はそれを汎用の圧縮法で圧縮して出力手段(233)に返す。それを受けて出力手段(233)は、その圧縮された内容を、通信網(24)を介して親局(21)の受信格納手段(213)へ送信する。
判定手段(232)はまた、ファイルdのハッシュ値0x7ed910に一致するものが、親局(21)から通信網(24)を介して受信した集合にないか調べる。これはファイルDのそれに一致するから、判定手段(232)はファイルdの内容がファイルDのそれと一致するものと判定し、出力手段(233)にその旨通知する。出力手段(233)は、実施例1におけると同様に、被処理FSIβ(2311)からファイルdの位置を読み出し、基準FSI(2111)上でファイル名Dを持つファイルの内容が被処理FSIβ(2311)上にある旨及びその(2311)上でのその位置を実施例1と同様な形式で、通信網(24)を介して親局(21)の受信格納手段(213)へ送信する。
以上で判定手段(232)による比較は終わったので、判定手段(232)はその旨を通知する。それを受けて、出力手段(233)は、被処理FSIβ(2311)を調べて、その中の明らかな空き領域(1446)がどこかを調べ、いままで出力した領域でもその領域(1446)でもない位置を、被処理FSIβ(2211)上のその他の内容(1445b)の位置として、実施例1と同様な形式で、通信網(24)を介して親局(21)の受信格納手段(213)へ送信する。次に、当該内容(1445b)を圧縮手段に渡す。圧縮手段はそれを汎用の圧縮法で圧縮して出力手段(233)に返す。それを受けて出力手段(233)は、その圧縮された内容を、通信網(24)を介して親局(21)の受信格納手段(213)へ送信する。
(親局・受信格納)
以上の処理で子局α(22)及び子局β(23)より送信された情報を、親局(21)の受信格納手段(213)が受信し、記憶装置(211)上に、それぞれを別にして順に書き込む。子局α(22)より受信したものが圧縮済FSIα(2112)、子局β(23)より受信したものが圧縮済FSIβ(2113)となる。
圧縮方法の原理についての説明図である。(実施例1) 基準FSIと被処理FSIとが別の装置上にある場合の圧縮方法についての説明図である。(実施例2)
符号の説明
1 装置
11 判定手段
12 出力手段
13 圧縮手段
14 記憶装置
141 基準FSI
142 被処理FSI
143 圧縮済FSI
1441 ファイルAの内容
1442 ファイルBの内容
1443 ファイルcの内容
1444 ファイルDの内容
1445a 基準FSI上のその他の内容
1445b 被処理FSI上のその他の内容
1446 明らかな空き領域
21 親局
211 記憶装置
2111 基準FSI
2112 圧縮済FSIα
2113 圧縮済FSIβ
212 識別情報送出手段
213 受信格納手段
22 子局α
221 記憶装置α
2211 被処理FSIα
222 判定手段
223 出力手段
23 子局β
231 記憶装置β
2311 被処理FSIβ
232 判定手段
233 出力手段
24 通信網

Claims (7)

  1. 判定手段が、1以上の基準ファイルシステムイメージ上に存在するファイル類と、被処理ファイルシステムイメージ上に存在するファイル類の中に、内容が同じものがあるかどうかを、夫々のファイルシステムイメージ上の少なくとも一部のファイル類を各々読み出して比較することによって判定し、
    一致すると判定されたときは、出力手段が、一致基準参照情報と一致被処理上参照位置を少なくとも出力し、
    残存被処理上領域の少なくとも一部については、出力手段が、当該残存被処理上領域の内容を少なくとも出力して、
    被処理ファイルシステムイメージを圧縮する方法。
  2. 1以上の基準ファイルシステムイメージを有する、通信網に接続された親局の、識別情報送出手段が、当該基準ファイルシステムイメージを読み出し、当該基準ファイルシステムイメージ上に存在する少なくとも一部のファイル類ごとに、基準参照情報と内容識別情報から少なくとも構成される組を、当該通信網を介して送信し、
    子局の判定手段が、当該通信網を介して1以上の親局から少なくとも前記の組を受け取るとともに、自局の記憶装置上に存在する被処理ファイルシステムイメージ上の少なくとも一部のファイル類を各々読み出して、当該ファイル類の内容と、受け取った前記内容識別情報のうち少なくとも一つ以上との比較結果を参酌して一致するかどうかを判定し、
    一致すると判定されたときは、子局の出力手段が、受け取った一致基準参照情報と、一致被処理上参照位置とを少なくとも出力し、
    残存被処理上領域の少なくとも一部については、出力手段が、当該残存被処理上領域の内容を少なくとも出力して、
    親局のファイルシステムイメージを基準ファイルシステムイメージとして子局の被処理ファイルシステムイメージを圧縮する方法。
  3. 一の親局から複数の子局に対し、親局の識別情報送出手段が、1対多の通信方法を用いて、基準参照情報と内容識別情報からなる組を送信する請求項2記載の方法。
  4. 請求項1、2又は3記載の方法から、残存被処理上ファイル類の少なくとも一部について、出力手段が、少なくとも次の各号の組を含むデータを出力するようにした方法。
    1. 1以上の当該残存被処理上ファイル類の被処理ファイルシステムイメージ上の位置を表す1以上の情報からなるリスト
    2. 1以上の当該残存被処理上ファイル類の内容からなるデータを、圧縮手段が、汎用の圧縮法で圧縮した結果
  5. 読取手段が、被処理ファイルシステムイメージ上の少なくとも一部のファイル類の内容を各々読み取り、
    圧縮手段が、1以上の当該ファイル類の内容からなるデータを可逆な汎用の圧縮法を用いて圧縮し、
    出力手段が、1以上の当該ファイル類の位置と当該圧縮された結果を少なくとも出力するとともに、
    残存領域の少なくとも一部については、出力手段が当該残存領域の内容を少なくとも出力して、
    被処理ファイルシステムイメージを圧縮する方法。
  6. 復元手段が、圧縮済ファイルシステムイメージを読み取って、
    一致基準参照情報を含むデータが含まれているときは、一致領域復元処理を行い、
    圧縮されたファイル類の圧縮データが含まれているときは、ファイル類復元処理を行い、
    残存被処理上領域のデータが含まれているときは、残存領域復元処理を行って、
    請求項1、2、3、4又は5記載の方法によって出力された当該圧縮済ファイルシステムイメージから、基準ファイルシステムイメージを復元して出力する方法。
  7. 請求項1、2、3、4、5又は6記載の方法に従ってコンピュータを動作させるためのプログラム。
JP2004004913A 2004-01-13 2004-01-13 ファイルシステムイメージの圧縮方法及びプログラム Expired - Fee Related JP3713666B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004004913A JP3713666B2 (ja) 2004-01-13 2004-01-13 ファイルシステムイメージの圧縮方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004004913A JP3713666B2 (ja) 2004-01-13 2004-01-13 ファイルシステムイメージの圧縮方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2005202443A true JP2005202443A (ja) 2005-07-28
JP3713666B2 JP3713666B2 (ja) 2005-11-09

Family

ID=34819385

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004004913A Expired - Fee Related JP3713666B2 (ja) 2004-01-13 2004-01-13 ファイルシステムイメージの圧縮方法及びプログラム

Country Status (1)

Country Link
JP (1) JP3713666B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011048679A (ja) * 2009-08-27 2011-03-10 Nec Corp ストレージシステム、管理方法及びプログラム
JP2012525633A (ja) * 2009-04-30 2012-10-22 ネットアップ,インコーポレイテッド フラッシュベースのデータ保存ストレージシステム
JP2013178614A (ja) * 2012-02-28 2013-09-09 Toshiba Corp バックアップデータストレージ及びデータバックアップシステム
JP2014500536A (ja) * 2010-10-11 2014-01-09 イーストソフト コーポレーション クラウドシステム、クラウドシステムにおけるファイルの圧縮及び転送方法
JP2016517065A (ja) * 2013-03-06 2016-06-09 アビニシオ テクノロジー エルエルシー 記憶されたデータユニットに対する操作の管理
JP2016519795A (ja) * 2013-03-06 2016-07-07 アビニシオ テクノロジー エルエルシー 記憶されたデータユニットに対する操作の管理

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06309209A (ja) * 1993-04-26 1994-11-04 Hitachi Ltd ファイルバックアップ方式
JP2000200208A (ja) * 1999-01-06 2000-07-18 Fujitsu Ltd ファイルバックアップ方法,装置およびそのプログラム記録媒体
JP2000293420A (ja) * 1999-04-09 2000-10-20 Hitachi Ltd データバックアップシステム
JP2002517816A (ja) * 1998-06-04 2002-06-18 ゲートウェイ,インコーポレイテッド イメージビルダーを使用するソフトウェア配布

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06309209A (ja) * 1993-04-26 1994-11-04 Hitachi Ltd ファイルバックアップ方式
JP2002517816A (ja) * 1998-06-04 2002-06-18 ゲートウェイ,インコーポレイテッド イメージビルダーを使用するソフトウェア配布
JP2000200208A (ja) * 1999-01-06 2000-07-18 Fujitsu Ltd ファイルバックアップ方法,装置およびそのプログラム記録媒体
JP2000293420A (ja) * 1999-04-09 2000-10-20 Hitachi Ltd データバックアップシステム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012525633A (ja) * 2009-04-30 2012-10-22 ネットアップ,インコーポレイテッド フラッシュベースのデータ保存ストレージシステム
JP2011048679A (ja) * 2009-08-27 2011-03-10 Nec Corp ストレージシステム、管理方法及びプログラム
JP2014500536A (ja) * 2010-10-11 2014-01-09 イーストソフト コーポレーション クラウドシステム、クラウドシステムにおけるファイルの圧縮及び転送方法
JP2013178614A (ja) * 2012-02-28 2013-09-09 Toshiba Corp バックアップデータストレージ及びデータバックアップシステム
JP2016517065A (ja) * 2013-03-06 2016-06-09 アビニシオ テクノロジー エルエルシー 記憶されたデータユニットに対する操作の管理
JP2016519795A (ja) * 2013-03-06 2016-07-07 アビニシオ テクノロジー エルエルシー 記憶されたデータユニットに対する操作の管理
US9959070B2 (en) 2013-03-06 2018-05-01 Ab Initio Technology Llc Managing operations on stored data units
US10133500B2 (en) 2013-03-06 2018-11-20 Ab Initio Technology Llc Managing operations on stored data units

Also Published As

Publication number Publication date
JP3713666B2 (ja) 2005-11-09

Similar Documents

Publication Publication Date Title
KR102007070B1 (ko) 메모리 관리 시의 중복 제거를 위해서 기준 세트로 기준 블록을 취합하는 기법
US7886120B1 (en) System and method for efficient backup using hashes
US11132338B1 (en) Sharing services between deduplication systems
CA2670400C (en) Methods and systems for quick and efficient data management and/or processing
US7640354B2 (en) Scalable differential compression of network data
US7478113B1 (en) Boundaries
US8650162B1 (en) Method and apparatus for integrating data duplication with block level incremental data backup
US10409777B2 (en) Storing data in a file system
TWI554893B (zh) 資料傳輸方法及系統
MX2012014730A (es) Optimizacion de almacenamiento y transmision de datos.
US11567902B2 (en) Systems and methods for document search and aggregation with reduced bandwidth and storage demand
US20110004601A1 (en) Multi-streamed method for optimizing data transfer through parallelized interlacing of data based upon sorted characteristics to minimize latencies inherent in the system
CN109947730B (zh) 元数据恢复方法、装置、分布式文件系统及可读存储介质
JP3713666B2 (ja) ファイルシステムイメージの圧縮方法及びプログラム
JP5094487B2 (ja) 情報漏洩検査装置及びコンピュータプログラム及び情報漏洩検査方法
US10162832B1 (en) Data aware deduplication
JP5494817B2 (ja) ストレージシステム、データ管理装置、方法及びプログラム
EP4160951A1 (en) Data transmission method, system, apparatus, device, and medium
US20170048303A1 (en) On the fly statistical delta differencing engine
CN111104787A (zh) 用于比较文件的方法、设备和计算机程序产品
US20240211133A1 (en) Medical imaging data compression utilizing codebooks
WO2013136584A1 (ja) データ転送システム
KR101426382B1 (ko) 분산 파일 시스템에서 파이프라인을 이용한 자료 복구 방법
JP2005189962A (ja) 情報処理方法、情報処理装置、制御プログラムおよび聞く媒体
JP2006338319A (ja) メールデータ管理システム

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050809

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050811

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110902

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120902

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees