JP2006065424A - Data storage system, data storage device, similar file recording method to be used for the same and program therefor - Google Patents
Data storage system, data storage device, similar file recording method to be used for the same and program therefor Download PDFInfo
- Publication number
- JP2006065424A JP2006065424A JP2004244517A JP2004244517A JP2006065424A JP 2006065424 A JP2006065424 A JP 2006065424A JP 2004244517 A JP2004244517 A JP 2004244517A JP 2004244517 A JP2004244517 A JP 2004244517A JP 2006065424 A JP2006065424 A JP 2006065424A
- Authority
- JP
- Japan
- Prior art keywords
- data
- difference
- name
- compression
- dissimilarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明はデータ記憶システム、データ記憶装置及びそれに用いる類似ファイル記録方法並びにそのプログラムに関し、特に情報処理システムにおける類似ファイルの記録方法に関する。 The present invention relates to a data storage system, a data storage device, a similar file recording method used therefor, and a program therefor, and more particularly to a similar file recording method in an information processing system.
従来、情報処理システムにおいては、OS(Operating System:オペレーティングシステム)等を含む場合、そのバックアップとしてシステムイメージを保存することが多い。しかしながら、保存するシステムイメージのデータサイズは非常に大きなものとなるため、データ記録装置の容量を圧迫しやすい。 Conventionally, in an information processing system, when an OS (Operating System) is included, a system image is often stored as a backup. However, since the data size of the system image to be stored becomes very large, the capacity of the data recording apparatus is easily pressed.
これを解決するために、上記のシステムイメージを圧縮して保存するという方法があるが(例えば、特許文献1,2参照)、システムイメージは保存するデータ毎に独立しているため、データ同士の類似部分を利用した圧縮を行うことができない、また、データサイズの圧縮、解凍時間に時間がかかるという問題がある。
In order to solve this, there is a method of compressing and storing the above system image (for example, see
上述した従来の情報処理システムでは、任意のデータをデータ記録装置に記録する際に、記録するデータのサイズを少なくするのに入力データを圧縮する手法があるが、データによっては圧縮後のサイズ減少率が低いデータが存在し、圧縮処理及び解凍処理の時間に見合わない場合がある。 In the conventional information processing system described above, there is a method of compressing input data to reduce the size of data to be recorded when recording arbitrary data on a data recording apparatus, but depending on the data, the size is reduced after compression. There are cases where data with a low rate exists and the time for the compression process and the decompression process is not suitable.
そこで、本発明の目的は上記の問題点を解消し、データサイズの削減とデータ処理時間の短縮とを両立させることができるデータ記憶システム、データ記憶装置及びそれに用いる類似ファイル記録方法並びにそのプログラムを提供することにある。 Accordingly, an object of the present invention is to provide a data storage system, a data storage device, a similar file recording method used therefor, and a program thereof that can solve the above-described problems and achieve both reduction in data size and reduction in data processing time. It is to provide.
本発明によるデータ記憶システムは、データの読み書き可能なデータ記録装置を含む計算機から構成されるデータ記憶システムであって、前記データ記録装置に複数のデータを記録する際に前記データ同士の類似部分を利用した圧縮を行う手段を前記データ記録装置に備え、当該圧縮によって前記複数のデータの総サイズを減少させている。 A data storage system according to the present invention is a data storage system including a computer including a data recording device capable of reading and writing data, and when a plurality of data is recorded on the data recording device, a similar part between the data is recorded. The data recording apparatus is provided with means for performing compression using the compression, and the total size of the plurality of data is reduced by the compression.
本発明による他のデータ記憶システムは、データの読み書き可能なデータ記録装置を含む計算機から構成されるデータ記憶システムであって、
入力されたデータと予め蓄積されたモデルデータ群に属するデータとについて非類似度を計算する類似度判定手段と、前記入力データと前記モデルデータとの差分データを生成する差分生成手段と、前記差分生成手段から受け取った差分データを圧縮するデータ圧縮手段と、圧縮した差分データ名と前記類似度判定手段から受け取った入力データ名及びモデルデータ名と類似度とに関連を持たせて保存するデータテーブルを含むデータ管理手段とを前記データ記録装置に備えている。
Another data storage system according to the present invention is a data storage system comprising a computer including a data recording device capable of reading and writing data,
Similarity determination means for calculating dissimilarity between input data and data belonging to a previously accumulated model data group, difference generation means for generating difference data between the input data and the model data, and the difference Data compression means for compressing the difference data received from the generation means, and a data table for storing the compressed difference data name in association with the input data name and model data name and similarity received from the similarity determination means The data recording device includes data management means including
本発明によるデータ記憶装置は、データの読み書き可能なデータ記録装置であって、複数のデータを記録する際に前記データ同士の類似部分を利用した圧縮を行う手段を備え、当該圧縮によって前記複数のデータの総サイズを減少させている。 A data storage device according to the present invention is a data recording device capable of reading and writing data, and includes a means for performing compression using a similar portion between the data when recording a plurality of data, and the plurality of the data by the compression. The total size of the data is reduced.
本発明による他のデータ記憶装置は、データの読み書き可能なデータ記録装置であって、
入力されたデータと予め蓄積されたモデルデータ群に属するデータとについて非類似度を計算する類似度判定手段と、前記入力データと前記モデルデータとの差分データを生成する差分生成手段と、前記差分生成手段から受け取った差分データを圧縮するデータ圧縮手段と、圧縮した差分データ名と前記類似度判定手段から受け取った入力データ名及びモデルデータ名と類似度とに関連を持たせて保存するデータテーブルを含むデータ管理手段とを備えている。
Another data storage device according to the present invention is a data recording device capable of reading and writing data,
Similarity determination means for calculating dissimilarity between input data and data belonging to a previously accumulated model data group, difference generation means for generating difference data between the input data and the model data, and the difference Data compression means for compressing the difference data received from the generation means, and a data table for storing the compressed difference data name in association with the input data name and model data name and similarity received from the similarity determination means Including data management means.
本発明による類似ファイル記録方法は、データの読み書き可能なデータ記録装置に用いられる類似ファイル記録方法であって、前記データ記録装置側に、複数のデータを記録する際に前記データ同士の類似部分を利用した圧縮を行うステップを備え、当該圧縮によって前記複数のデータの総サイズを減少させている。 A similar file recording method according to the present invention is a similar file recording method used in a data recording device capable of reading and writing data, and when recording a plurality of data on the data recording device side, similar portions between the data are recorded. And a step of performing compression using the data, and the total size of the plurality of data is reduced by the compression.
本発明による他の類似ファイル記録方法は、データの読み書き可能なデータ記録装置に用いられる類似ファイル記録方法であって、
前記データ記録装置側に、入力されたデータと予め蓄積されたモデルデータ群に属するデータとについて非類似度を計算するステップと、前記入力データと前記モデルデータとの差分データを生成するステップと、前記差分データを圧縮するステップと、圧縮した差分データ名と入力データ名及びモデルデータ名と類似度とに関連を持たせてデータテーブルに保存するステップとを備えている。
Another similar file recording method according to the present invention is a similar file recording method used in a data recording device capable of reading and writing data,
On the data recording device side, calculating the dissimilarity between the input data and data belonging to the model data group accumulated in advance, generating difference data between the input data and the model data, Compressing the difference data, and storing the compressed difference data name, the input data name, the model data name, and the similarity in a data table in association with each other.
本発明による類似ファイル記録方法のプログラムは、データの読み書き可能なデータ記録装置に用いられる類似ファイル記録方法のプログラムであって、前記データ記録装置側のコンピュータに、複数のデータを記録する際に前記データ同士の類似部分を利用した圧縮を行う処理を実行させ、当該圧縮によって前記複数のデータの総サイズを減少させている。 A program of a similar file recording method according to the present invention is a program of a similar file recording method used in a data recording device capable of reading and writing data, and when recording a plurality of data on a computer on the data recording device side, A process of performing compression using similar parts between data is executed, and the total size of the plurality of data is reduced by the compression.
本発明による他の類似ファイル記録方法のプログラムは、データの読み書き可能なデータ記録装置に用いられる類似ファイル記録方法のプログラムであって、前記データ記録装置側のコンピュータに、入力されたデータと予め蓄積されたモデルデータ群に属するデータとについて非類似度を計算する処理と、前記入力データと前記モデルデータとの差分データを生成する処理と、前記差分データを圧縮する処理と、圧縮した差分データ名と入力データ名及びモデルデータ名と類似度とに関連を持たせてデータテーブルに保存する処理とを実行させている。 Another similar file recording method program according to the present invention is a similar file recording method program used in a data recording device capable of reading and writing data, and the input data is stored in advance in the computer on the data recording device side. Processing for calculating dissimilarity with respect to data belonging to the model data group, processing for generating difference data between the input data and the model data, processing for compressing the difference data, and compressed difference data name And a process of storing the data in the data table in association with the input data name, the model data name, and the similarity.
すなわち、本発明のデータ記憶装置は、データの読み書き可能なデータ記録装置を備えた計算機から構成されるシステムにおいて、そのデータ記録装置に複数のデータを記録する際に、類似したデータ群の総データサイズを少なくすることを特徴とする。 That is, the data storage device of the present invention is a system composed of a computer equipped with a data recording device capable of reading and writing data. When recording a plurality of data in the data recording device, the total data of similar data groups It is characterized by reducing the size.
本発明のデータ記憶装置では、データ同士の類似部分を利用した圧縮によって、複数のデータの総サイズを減少させると同時に、データ同士の類似度を判断することによって、圧縮、解凍に必要な時間に対する圧縮、解凍効果が伴わない場合に圧縮、解凍時間を省略している。 In the data storage device of the present invention, the total size of a plurality of data is reduced by compression using a similar portion between the data, and at the same time, the degree of time required for compression and decompression is determined by determining the similarity between the data. When there is no compression / decompression effect, the compression / decompression time is omitted.
より具体的に説明すると、本発明のデータ記憶装置では、データ記憶装置が入力されたデータと自身の持つモデルデータ群に属するデータとについて類似度判定部によって非類似度を計算すると同時に、差分生成部が入力データとモデルデータとの差分データを生成する。 More specifically, in the data storage device of the present invention, the similarity determination unit calculates the dissimilarity between the data input to the data storage device and the data belonging to the model data group of the data storage device, and at the same time generates a difference. The unit generates difference data between the input data and the model data.
本発明のデータ記憶装置では、上記の計算の結果、非類似度が非類似度閾値を超えた場合、入力データ名、モデルデータ名、計算された類似度、計算中に生成された差分データをデータ管理部に渡す。 In the data storage device of the present invention, when the dissimilarity exceeds the dissimilarity threshold as a result of the above calculation, the input data name, the model data name, the calculated similarity, and the difference data generated during the calculation are Pass to the data management department.
データ管理部はデータ圧縮手段で類似度判定部より受け取った差分データを圧縮し、圧縮差分データ群に加えて保存する。また、データ管理部は圧縮した差分データ名、類似度判定部より受け取った入力データ名、モデルデータ名と類似度とに関連を持たせてデータテーブルに保存する。これによって、本発明の情報処理装置では、データをサイズを少なくして保存することが可能となる。 The data management unit compresses the difference data received from the similarity determination unit by the data compression unit, and stores it in addition to the compressed difference data group. Further, the data management unit stores the compressed difference data name, the input data name received from the similarity determination unit, the model data name and the similarity in association with each other in the data table. As a result, the information processing apparatus of the present invention can store data with a reduced size.
さらに、本発明のデータ記憶装置では、2個以上の類似したデータについて、差分生成部で排他的論理和をとることで差分をとり、データの論理的連続性を高め、その差分のみを圧縮記録することによってサイズを少なくする。 Further, in the data storage device of the present invention, two or more similar data are subjected to exclusive OR operation in the difference generation unit to obtain a difference, improve the logical continuity of the data, and compress and record only the difference. By reducing the size.
さらにまた、本発明のデータ記憶装置では、類似度判定部でファイル同士の非類似度が閾値設定手段で設定された非類似度閾値に満たない場合、差分生成処理及び圧縮処理の効果が低いと判断し、処理を行わずに処理時間を費やすことなく、データを記録することが可能となる。 Furthermore, in the data storage device of the present invention, when the dissimilarity between files in the similarity determination unit is less than the dissimilarity threshold set by the threshold setting means, the effect of the difference generation process and the compression process is low. It is possible to record data without making a decision and consuming processing time without performing processing.
これによって、本発明のデータ記憶装置では、記録データの圧縮条件を付加することで、データサイズの削減とデータ処理時間の短縮とを両立させることが可能となる。 Thereby, in the data storage device of the present invention, it is possible to achieve both reduction in data size and reduction in data processing time by adding a compression condition for recording data.
本発明は、以下に述べるような構成及び動作とすることで、データサイズの削減とデータ処理時間の短縮とを両立させることができるという効果が得られる。 According to the present invention, it is possible to achieve both the reduction in data size and the reduction in data processing time by adopting the configuration and operation described below.
次に、本発明の実施例について図面を参照して説明する。図1は本発明の一実施例によるデータ記憶装置の構成を示すブロック図である。図1において、データ記憶装置1はデータ管理部11と、類似度判定部12と、データ入力手段13と、データ復元部14と、データ出力手段15と、記録媒体16とを含んで構成されている。
Next, embodiments of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing the configuration of a data storage device according to an embodiment of the present invention. In FIG. 1, the
データ管理部11はモデルデータ群111と、データテーブル112と、圧縮差分データ群113と、データ圧縮部114と、データ解凍部115とから構成されている。
The data management unit 11 includes a
類似度判定部12は差分データと非類似度121とを生成する差分生成部122と、非類似度閾値123を設定する閾値設定手段124とを含み、非類似度121が非類似度閾値123を超えるかどうかを判定する。
The
モデルデータ群111は類似度を判定する際のモデルとなるデータで、入力データは装置内に類似するデータがないと判断された場合に、このモデルデータとして非圧縮で記録される。圧縮差分データ群113は装置内に類似するモデルデータがあると判断された場合に、モデルデータと入力データとの差分を圧縮したデータである。データテーブル112はモデルデータ名と、圧縮差分データ名と、これら二つのデータの類似度とを入力データ名の要素として管理する。
The
データ圧縮部114は差分生成部122から渡された差分データを圧縮し、圧縮差分データ群113に加えて記録する。データ解凍部115は圧縮差分データ群113に含まれるデータを解凍し、データ復元部14に渡す。
The
差分生成部122は入力されたデータとモデルデータ群111に含まれるデータとの排他的論理和を差分として生成しながら、差分の累積和から非類似度121を計算する。
The
データ復元部14はデータ解凍部115によって解凍された差分データと、その差分に対応したモデルデータ群111に含まれるデータとの排他的論理和を復元データとして出力する。
The
記録媒体16はデータ記憶装置1のデータ管理部11と、類似度判定部12と、データ入力手段13と、データ復元部14と、データ出力手段15とが実行するプログラムを格納しており、このプログラムは後述するデータ記憶装置1の各部の処理を実現するためのものである。
The
データ記憶装置1は入力されたデータと自身の持つモデルデータ群111に属するデータとについて類似度判定部12によって非類似度121を計算する。同時に、差分生成部122は入力データとモデルデータとの差分データを生成する。類似度判定部12は計算の結果、非類似度が非類似度閾値123を超えた場合、入力データ名、モデルデータ名、計算された類似度、計算中に生成された差分データをデータ管理部11に渡す。
The
データ管理部11はデータ圧縮部114で類似度判定部12から受け取った差分データを圧縮し、圧縮差分データ群113に加え保存する。また、データ管理部11は圧縮した差分データ名、類似度判定部12から受け取った入力データ名、モデルデータ名と、類似度とに関連を持たせてデータテーブル112に保存する。これにより、本実施例では、データをサイズを少なくして保存することができる。
In the data management unit 11, the
図1において、本実施例では、2個以上の類似したデータについて、差分生成部121で排他的論理和をとることで差分をとり、データの論理的連続性を高め、その差分のみを圧縮記録することによって、データサイズを少なくしている。また、本実施例では、類似度判定部12でファイル同士の非類似度121が閾値設定手段124で設定された非類似度閾値123に満たない場合、差分生成処理及び圧縮処理の効果が低いと判断し、処理を行わずに、処理時間を費やすことなく、データを記録することが可能となる。
In FIG. 1, in the present embodiment, two or more similar data are subjected to exclusive OR in the
図2は図1のデータテーブル112の構成を示すブロック図である。図2において、データテーブル112は入力データ名群1121と、圧縮差分データ名群1122と、モデルデータ名群1123と、非類似度群1124とから構成されている。
FIG. 2 is a block diagram showing the configuration of the data table 112 of FIG. In FIG. 2, the data table 112 includes an input data name group 1121, a compressed difference
入力データ名群1121は装置に記録されている全ての入力データ名を含み、特に圧縮差分データとして装置に記録された入力データの入力データ名は、その圧縮差分データ名を圧縮差分データ名群1122に、差分データを生成する際に使用したモデルデータ名をモデルデータ名群1123に、非類似度を非類似度群1124にそれぞれ要素としてを持つ。
The input data name group 1121 includes all input data names recorded in the apparatus. In particular, the input data name of the input data recorded in the apparatus as compressed differential data is obtained by converting the compressed differential data name into the compressed differential
図3〜図7は本発明の一実施例によるデータ記憶装置1の動作を示すフローチャートである。これら図1〜図7を参照して本発明の一実施例によるデータ記憶装置1の動作について説明する。尚、図3〜図7に示す処理はデータ記憶装置1の各部が記録媒体16のプログラムを実行することで実現される。
3 to 7 are flowcharts showing the operation of the
データ記録装置1はデータ記録前に非類似度閾値を設定する必要があり、図3に示すように、閾値設定手段124によって非類似度閾値123を設定する(図3ステップS1)。
The
データ記録装置1の入力データ記録時の動作を図4に示す。データ記録装置1はデータ入力手段13によって外部からデータが入力され、その入力データは類似度判定部12に渡される(図4ステップS11)。
The operation of the
データ管理部11はモデルデータ群111にモデルデータが一つ以上存在するかをチェックし、さらに非類似度をチェックしていないモデルデータがあるかをチェックする(図4ステップS12)。もし、モデルデータが一つもなければ、または非類似度をチェックしていないモデルデータが一つもなくなったら、入力データは類似度判定部12からデータ管理部11に渡され、モデルデータとしてモデルデータ群111に含められる(図4ステップS13)。
The data management unit 11 checks whether there is one or more model data in the
一方、非類似度をチェックすることができるモデルデータが一つ以上あれば、データ管理部11はモデルデータ群111から記録順に一つのモデルデータを読込み、類似度判定部12に渡す(図4ステップS14)。類似度判定部12は差分生成部122で入力データの先頭1bitと、データ管理部11から渡されたモデルデータの先頭1bitとで排他的論理和を計算し、差分データとする。
On the other hand, if there is one or more model data whose dissimilarity can be checked, the data management unit 11 reads one model data in the recording order from the
また、差分生成部122はデータの差分を計算する毎に排他的論理和の累積和を計算し、その累積和を入力データサイズまたはモデルデータサイズのうちの大きい方のbitサイズで割った値を計算し、非類似度121とする(図4ステップS15)。
Further, every time the
類似度判定部12は非類似度121が非類似度閾値123を超えないかどうかをチェックし(図4ステップS16)、超えていれば、読込んであったモデルデータの使用を止め、再度、異なるモデルデータでチェック可能なデータがあるかをチェックする(図4ステップS12)。
The
類似度判定部12は非類似度121が非類似度閾値123を超えていなければ、モデルデータと入力データとに次の差分を生成するのに必要な次のbitがあるかをチェックする(図4ステップS17)。類似度判定部12は次のbitがあれば、次のbitによって差分を生成し、非類似度121を計算する(図4ステップS15)。
If the
次のbitがない場合、類似度判定部12はモデルデータまたは入力データのどちらかに次のbitがあるかをチェックする(図4ステップS17,S18)。類似度判定部12はどちらかにbitがある場合、不足しているデータの次のbitを0とする(図4ステップS19)。そして、類似度判定部12は不足していないデータの次のbitとの差分とを生成し、非類似度121を計算する(図4ステップS15)。
When there is no next bit, the
モデルデータと入力データとの両方に次のbitがない場合、類似度判定部12は生成されていた差分bit列をデータ管理部11に渡し、データ圧縮部114によって圧縮する(図4ステップS20)。
When there is no next bit in both the model data and the input data, the
この後、データ管理部11は入力データ名を参照タグとし、データ圧縮部114によって圧縮された差分データのデータ名、入力データとの差分をとったモデルデータのデータ名、計算された非類似度をその要素としてデータテーブル112に記録する(図4ステップS21)。データ圧縮部114によって圧縮された差分データは、圧縮差分データとして圧縮差分データ群113に含められる(図4ステップS22)。
Thereafter, the data management unit 11 uses the input data name as a reference tag, the data name of the difference data compressed by the
データ記録装置1の記録データの読出し時の動作を図5に示す。データ記録装置1のデータ管理部11は読出し要求を受けたデータ名を持つデータがモデルデータ群111にあるかをチェックする(図5ステップS31)。データ管理部11はデータがあれば、該当するモデルデータをデータ出力手段15に渡し、外部へ出力する(図5ステップS37)。
The operation at the time of reading the recording data of the
データ管理部11は読出し要求を受けたデータがモデルデータとしてなければ、読出し要求を受けたデータ名がデータテーブル112の入力データ名群1121にあるかをチェックし(図5ステップS32)、データ名がなければ、処理を終了する。 If the data that received the read request is not model data, the data management unit 11 checks whether the data name that received the read request is in the input data name group 1121 of the data table 112 (step S32 in FIG. 5). If there is not, the process is terminated.
データ管理部11は読出し要求を受けたデータ名が入力データ名群1121にあれば、圧縮差分データ名群1122とモデルデータ名群1123とからその入力データの要素を参照する(図5ステップS33)。データ管理部11は参照した圧縮差分データ名を持つデータを、圧縮差分データ群113から読出し、データ解凍部115にて解凍し、差分データとしてデータ復元部14に渡す(図5ステップS34)。
If the data name that has received the read request is in the input data name group 1121, the data management unit 11 refers to the element of the input data from the compressed difference
データ管理部11は参照したモデルデータ名を持つデータを、モデルデータ群111から読出し、データ復元部14に渡す(図5ステップS35)。データ復元部14ではデータ管理部11から渡された差分データとモデルデータとの排他的論理和を復元データとしてデータ出力手段15へ渡し、外部へ出力する(図5ステップS36)。
The data management unit 11 reads the data having the referenced model data name from the
データ記録装置1の記録データの削除時の動作を図6及び図7に示す。データ記録装置1のデータ管理部11は削除要求を受けたデータ名がデータテーブル112の入力データ名群1121にあるかをチェックする(図6ステップS41)。データ管理部11は削除要求を受けたデータ名を持つ入力データ名があれば、その要素である圧縮差分データ名を参照し、参照したデータ名を持つ圧縮差分データを削除し(図6ステップS42)、削除要求を受けたデータ名を持つ入力データ名とその要素とをデータテーブル112から削除し(図6ステップS43)、処理を終了する。
The operation of the
データ管理部11は削除要求を受けたデータ名を持つデータが入力データ名群1121になければ、削除要求を受けたデータ名を持つモデルデータがモデルデータ群111にあるかをチェックし(図6ステップS44)、削除要求を受けたデータ名を持つモデルデータがなければ、処理を終了する。 If the data having the data name for which the deletion request has been received is not in the input data name group 1121, the data management unit 11 checks whether the model data having the data name for which the deletion request has been received is in the model data group 111 (FIG. 6). In step S44), if there is no model data having the data name for which the deletion request has been received, the process is terminated.
データ管理部11は削除要求を受けたデータ名を持つモデルデータがあれば、データテーブル112の入力データ名群1121のうち、要素であるモデルデータ名群1123に削除要求を受けたデータ名がないかをチェックし(図6ステップS45)、削除要求を受けたデータ名がなければ、削除要求を受けたデータ名を持つモデルデータをモデルデータ群111より削除し(図7ステップS53)、処理を終了する。 If there is model data having the data name that has received the deletion request, the data management unit 11 does not have the data name that has received the deletion request in the model data name group 1123 that is an element in the input data name group 1121 of the data table 112. If there is no data name for which the deletion request has been received, the model data having the data name for which the deletion request has been received is deleted from the model data group 111 (step S53 in FIG. 7). finish.
データ管理部11はモデルデータ名群1123に削除要求を受けたデータ名がある場合、削除するモデルデータ名を要素として持つ入力データについて非類似度群1124を参照し、最小の非類似度を持つ入力データの圧縮差分データ名とモデルデータ名とを参照する(図6ステップS46)。
When there is a data name for which a deletion request is received in the model data name group 1123, the data management unit 11 refers to the
さらに、データ管理部11は参照したモデルデータ名を持つデータをモデルデータ群111から読出してデータ復元部14に渡し、参照した圧縮差分データ名を持つデータを圧縮差分データ群113から読出してデータ解凍部115によって差分データとした上で、データ復元部14に渡す(図6ステップS47)。
Further, the data management unit 11 reads data having the referenced model data name from the
データ復元部14はデータ管理部11から渡された差分データとモデルデータとの排他的論理和を復元データとし、そのデータをデータ管理部11に渡す。データ管理部11はデータ復元部14から渡されたデータを新たにモデルデータとしてモデルデータ群111に加える(図6ステップS48)。
The
データ管理部11は復元した入力データのデータ名とその要素とをデータテーブル112から削除し、復元に使用した圧縮差分データを圧縮差分データ群113から削除する(図6ステップS49)。 The data management unit 11 deletes the data name of the restored input data and its elements from the data table 112, and deletes the compressed differential data used for the restoration from the compressed differential data group 113 (step S49 in FIG. 6).
次に、データ管理部11はデータテーブル112に削除するモデル名を要素に持つ入力データが他にあるかをチェックし(図7ステップS50)、入力データが他になければ、削除要求を受けたデータ名を持つモデルデータをモデルデータ群111から削除し(図7ステップS53)、処理を終了する。 Next, the data management unit 11 checks whether there is any other input data having the model name to be deleted in the data table 112 (step S50 in FIG. 7). If there is no other input data, the data management unit 11 receives a deletion request. The model data having the data name is deleted from the model data group 111 (step S53 in FIG. 7), and the process ends.
データ管理部11は入力データが他にあれば、その入力データを、上述した処理と同様に、データ復元部14で復元し、入力データ名とその要素とをデータテーブル112から削除し、復元に使用した圧縮差分データを圧縮差分データ群113から削除する。データ復元部14は復元したデータを類似度判定部12に渡す(図6ステップS51)。
If there is other input data, the data management unit 11 restores the input data by the
類似度判定部12ではデータ復元部14から渡されたデータと、最小の非類似度を持ち復元された新たなモデルデータとで、外部から入力されたデータと同様に、類似度を判定して記録する(図6ステップS52)。データ管理部11は、再度、データテーブル112に削除するモデル名を要素に持つ入力データが他にあるかをチェックする(図6ステップS50)。
The
このように、本実施例では、記録データの圧縮条件を付加することで、データサイズの削減とデータ処理時間の短縮とを両立させることができる。 As described above, in this embodiment, it is possible to achieve both reduction in data size and reduction in data processing time by adding recording data compression conditions.
図8は本発明の他の実施例によるデータ記憶システムの構成を示すブロック図である。図8において、本発明の他の実施例によるデータ記憶システムは計算機2と、データ記録媒体3と、記録媒体4と、計算機2とデータ記録媒体3とを接続する媒体搬送経路100とから構成されている。搬媒体送経路100は、特にデータ記録媒体3がネットワーク上の記録装置の場合のネットワークである。
FIG. 8 is a block diagram showing the configuration of a data storage system according to another embodiment of the present invention. In FIG. 8, a data storage system according to another embodiment of the present invention comprises a
計算機2はデータ記録媒体3のデータを読み取るためのデータ記録媒体読み取り手段22と、データ記録媒体3の仮想データ出力部31を実行する仮想データ出力部実行手段21とを含んで構成されている。記録媒体4は計算機2が実行するプログラムを格納しており、計算機2がそのプログラムを実行することで、各手段の処理動作が実現される。
The
データ記録媒体3は仮想データ出力部31を備えたCD−ROM(Compact Disc−Read Only Memory)やDVD−ROM(Digital Versatile Disc−Read Only Memory)等の記録媒体からなり、ネットワーク上の記録装置を含む。
The
仮想データ出力部31は、図1に示す構成のうち、データを出力するために必要な部分のみを抜き出した構成を含んでいる。つまり、仮想データ出力部31はデータ管理部311と、データ復元部312と、データ出力手段313とを含んでおり、データ管理部311はモデルデータ群3111と、データテーブル3112と、圧縮差分データ群3113と、データ解凍手段3114とからなっている。
The virtual
データ記録媒体3の生成時は、仮想データ出力部31のモデルデータ群3111、データテーブル3112、圧縮差分データ群3113が、上述した図1に示す構成でデータを記録した状態を複製する。
When the
図9は図8の計算機2がデータ記録媒体3からデータを読出す時の動作を示すフローチャートである。これら図8及び図9を参照して本発明の他の実施例による計算機2がデータ記録媒体3からデータを読出す時の動作について説明する。尚、図9に示す処理は計算機2が記録媒体4のプログラムを実行することで実現される。
FIG. 9 is a flowchart showing an operation when the
計算機2ではデータ記録媒体読み取り手段22によってデータ記録媒体3の仮想データ出力部31を読取り、仮想データ出力部実行手段21へ渡す(図9ステップS61)。
The
仮想データ出力部実行手段21はデータ記録媒体読み取り手段22から渡された仮想データ出力部31を、図1に示す構成の読出し時と同じ動作(図5ステップS31〜S37に示す動作)を実行し、目的のデータ(要求データ)を取出す(図9ステップS62)。
The virtual data output unit executing means 21 executes the same operation (the operation shown in steps S31 to S37 in FIG. 5) as the virtual
本実施例では、データ記録媒体3に記録するデータサイズを縮小しながら、モデルデータ群3111に含まれるデータを読出す際に、全てのデータを圧縮している媒体に比べて高速に読出すことができる。
In the present embodiment, when data included in the
本発明は、情報処理産業の情報記録分野において、情報システムのバックアップ用途や、異なるプラットフォームへの情報記録媒体による情報システムの配布等への利用が考えられる。 In the information recording field of the information processing industry, the present invention can be used for backup of information systems, distribution of information systems using information recording media to different platforms, and the like.
1 データ記憶装置
2 計算機
3 データ記録媒体
4,16 記録媒体
11 データ管理部
12 類似度判定部
13 データ入力手段
14,312 データ復元部
15,313 データ出力手段
21 仮想データ出力部実行手段
22 データ記録媒体読取り手段
31 仮想データ出力部
111,3111 モデルデータ群
112,3112 データテーブル
113,3113 圧縮差分データ群
114 データ圧縮部
115 データ解凍部
121 非類似度
122 差分生成部
123 非類似度閾値
124 閾値設定手段
1121 入力データ名群
1122 圧縮差分データ名群
1123 モデルデータ名群
1124 非類似度群
3114 データ解凍手段
1 Data storage device
2 computers
3 Data recording media
4,16 Recording medium
11 Data management department
12 Similarity determination unit
13 Data input means 14, 312 Data restoration section 15,313 Data output means
21 Virtual data output unit execution means
22 Data recording medium reading means
31 Virtual
114 Data compression unit
115 Data decompression unit
121 Dissimilarity
122 Difference generator
123 Dissimilarity threshold
124 threshold setting means
1121 Input data name group
1122 Compression difference data name group
1123 Model data name group
1124 Dissimilarity group
3114 Data decompression means
Claims (20)
前記データの圧縮及び解凍の少なくとも一方に必要な時間に対する前記圧縮の効果及び前記解凍の効果のいずれかが伴わない場合に当該圧縮及び解凍を省略することを特徴とする請求項1記載のデータ記憶システム。 Means for determining the similarity between the data in the data recording device;
2. The data storage according to claim 1, wherein the compression and the decompression are omitted when any of the compression effect and the decompression effect with respect to a time required for at least one of the compression and decompression of the data is not accompanied. system.
入力されたデータと予め蓄積されたモデルデータ群に属するデータとについて非類似度を計算する類似度判定手段と、前記入力データと前記モデルデータとの差分データを生成する差分生成手段と、前記差分生成手段から受け取った差分データを圧縮するデータ圧縮手段と、圧縮した差分データ名と前記類似度判定手段から受け取った入力データ名及びモデルデータ名と類似度とに関連を持たせて保存するデータテーブルを含むデータ管理手段とを前記データ記録装置に有することを特徴とするデータ記憶システム。 A data storage system comprising a computer including a data recording device capable of reading and writing data,
Similarity determination means for calculating dissimilarity between input data and data belonging to a previously accumulated model data group, difference generation means for generating difference data between the input data and the model data, and the difference Data compression means for compressing the difference data received from the generation means, and a data table for storing the compressed difference data name in association with the input data name and model data name and similarity received from the similarity determination means A data storage system comprising: a data management means including: the data recording device.
当該差分データのみを圧縮記録することによって前記複数のデータの総サイズを減少させることを特徴とする請求項3から請求項5のいずれか記載のデータ記憶システム。 The difference generation means generates the difference data by taking an exclusive OR of two or more similar data,
The data storage system according to any one of claims 3 to 5, wherein the total size of the plurality of data is reduced by compressing and recording only the difference data.
前記データの圧縮及び解凍の少なくとも一方に必要な時間に対する前記圧縮の効果及び前記解凍の効果のいずれかが伴わない場合に当該圧縮及び解凍を省略することを特徴とする請求項7記載のデータ記憶装置。 Means for determining the degree of similarity between the data;
8. The data storage according to claim 7, wherein the compression and the decompression are omitted when either the compression effect or the decompression effect with respect to the time required for at least one of the compression and decompression of the data is not accompanied. apparatus.
入力されたデータと予め蓄積されたモデルデータ群に属するデータとについて非類似度を計算する類似度判定手段と、前記入力データと前記モデルデータとの差分データを生成する差分生成手段と、前記差分生成手段から受け取った差分データを圧縮するデータ圧縮手段と、圧縮した差分データ名と前記類似度判定手段から受け取った入力データ名及びモデルデータ名と類似度とに関連を持たせて保存するデータテーブルを含むデータ管理手段とを有することを特徴とするデータ記憶装置。 A data recording device capable of reading and writing data,
Similarity determination means for calculating dissimilarity between input data and data belonging to a previously accumulated model data group, difference generation means for generating difference data between the input data and the model data, and the difference Data compression means for compressing the difference data received from the generation means, and a data table for storing the compressed difference data name in association with the input data name and model data name and similarity received from the similarity determination means And a data management unit including the data management means.
当該差分データのみを圧縮記録することによって前記複数のデータの総サイズを減少させることを特徴とする請求項9から請求項11のいずれか記載のデータ記憶装置。 The difference generation means generates the difference data by taking an exclusive OR of two or more similar data,
The data storage device according to any one of claims 9 to 11, wherein the total size of the plurality of data is reduced by compressing and recording only the difference data.
前記データの圧縮及び解凍の少なくとも一方に必要な時間に対する前記圧縮の効果及び前記解凍の効果のいずれかが伴わない場合に当該圧縮及び解凍を省略することを特徴とする請求項13記載の類似ファイル記録方法。 The data recording device side includes a step of determining the degree of similarity between the data,
14. The similar file according to claim 13, wherein the compression and the decompression are omitted when either the compression effect or the decompression effect on the time required for at least one of the data compression and decompression is not accompanied. Recording method.
前記データ記録装置側に、入力されたデータと予め蓄積されたモデルデータ群に属するデータとについて非類似度を計算するステップと、前記入力データと前記モデルデータとの差分データを生成するステップと、前記差分データを圧縮するステップと、圧縮した差分データ名と入力データ名及びモデルデータ名と類似度とに関連を持たせてデータテーブルに保存するステップとを有することを特徴とする類似ファイル記録方法。 A similar file recording method used in a data recording device capable of reading and writing data,
On the data recording device side, calculating the dissimilarity between the input data and data belonging to the model data group accumulated in advance, generating difference data between the input data and the model data, A method of recording a similar file, comprising: compressing the difference data; and storing the compressed difference data name, the input data name, the model data name, and the similarity in a data table. .
当該差分データのみを圧縮記録することによって前記複数のデータの総サイズを減少させることを特徴とする請求項15から請求項16のいずれか記載の類似ファイル記録方法。 The step of generating the difference data generates the difference data by taking an exclusive OR of two or more similar data,
17. The similar file recording method according to claim 15, wherein the total size of the plurality of data is reduced by compressing and recording only the difference data.
A program of a similar file recording method used in a data recording device capable of reading and writing data, wherein the degree of dissimilarity between data input to a computer on the data recording device side and data belonging to a model data group stored in advance A process for calculating the difference data between the input data and the model data, a process for compressing the difference data, and the compressed difference data name, the input data name, the model data name, and the similarity A program for executing a process of storing data in a data table with association.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004244517A JP2006065424A (en) | 2004-08-25 | 2004-08-25 | Data storage system, data storage device, similar file recording method to be used for the same and program therefor |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004244517A JP2006065424A (en) | 2004-08-25 | 2004-08-25 | Data storage system, data storage device, similar file recording method to be used for the same and program therefor |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006065424A true JP2006065424A (en) | 2006-03-09 |
Family
ID=36111899
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004244517A Pending JP2006065424A (en) | 2004-08-25 | 2004-08-25 | Data storage system, data storage device, similar file recording method to be used for the same and program therefor |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006065424A (en) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009533731A (en) * | 2006-04-07 | 2009-09-17 | データ ストレージ グループ | Data compression technology and data storage technology |
WO2015128955A1 (en) * | 2014-02-26 | 2015-09-03 | 株式会社日立製作所 | Storage device, device having storage device, and storage control method |
CN107665093A (en) * | 2016-07-29 | 2018-02-06 | 深圳市深信服电子科技有限公司 | Date storage method and device |
JP2019095913A (en) * | 2017-11-20 | 2019-06-20 | 株式会社日立製作所 | Storage system |
JP2019175373A (en) * | 2018-03-29 | 2019-10-10 | Necソリューションイノベータ株式会社 | File management device, file management method, and program |
JP2021068471A (en) * | 2021-01-14 | 2021-04-30 | 株式会社日立製作所 | Storage system |
JP2022051792A (en) * | 2021-01-14 | 2022-04-01 | 株式会社日立製作所 | Storage system |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0877333A (en) * | 1994-09-09 | 1996-03-22 | Toshiba Corp | Electronic filing device |
JPH10105036A (en) * | 1996-09-26 | 1998-04-24 | Nec Corp | Teaching material data base device |
JP2002244950A (en) * | 2001-02-15 | 2002-08-30 | Nec Corp | Method and program for increasing efficiency of file transfer |
-
2004
- 2004-08-25 JP JP2004244517A patent/JP2006065424A/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0877333A (en) * | 1994-09-09 | 1996-03-22 | Toshiba Corp | Electronic filing device |
JPH10105036A (en) * | 1996-09-26 | 1998-04-24 | Nec Corp | Teaching material data base device |
JP2002244950A (en) * | 2001-02-15 | 2002-08-30 | Nec Corp | Method and program for increasing efficiency of file transfer |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009533731A (en) * | 2006-04-07 | 2009-09-17 | データ ストレージ グループ | Data compression technology and data storage technology |
WO2015128955A1 (en) * | 2014-02-26 | 2015-09-03 | 株式会社日立製作所 | Storage device, device having storage device, and storage control method |
JPWO2015128955A1 (en) * | 2014-02-26 | 2017-03-30 | 株式会社日立製作所 | Storage device, apparatus having storage device, and storage control method |
US10444992B2 (en) | 2014-02-26 | 2019-10-15 | Hitachi, Ltd. | Storage device, apparatus having storage device, and storage control method |
CN107665093A (en) * | 2016-07-29 | 2018-02-06 | 深圳市深信服电子科技有限公司 | Date storage method and device |
JP2019095913A (en) * | 2017-11-20 | 2019-06-20 | 株式会社日立製作所 | Storage system |
JP2019175373A (en) * | 2018-03-29 | 2019-10-10 | Necソリューションイノベータ株式会社 | File management device, file management method, and program |
JP7010538B2 (en) | 2018-03-29 | 2022-01-26 | Necソリューションイノベータ株式会社 | File management device, file management method, and program |
JP2021068471A (en) * | 2021-01-14 | 2021-04-30 | 株式会社日立製作所 | Storage system |
JP2022051792A (en) * | 2021-01-14 | 2022-04-01 | 株式会社日立製作所 | Storage system |
JP7225445B2 (en) | 2021-01-14 | 2023-02-20 | 株式会社日立製作所 | storage system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100512409C (en) | Data processing apparatus and data processing method | |
KR101074010B1 (en) | Block unit data compression and decompression method and apparatus thereof | |
JPH1153240A (en) | Data backup device and method for computer, and computer-readable recording medium recurred with data backup program | |
US7818579B2 (en) | Information processor having information dispersing function | |
US20130179413A1 (en) | Compressed Distributed Storage Systems And Methods For Providing Same | |
JPH02228879A (en) | Method of compacting data | |
JP2006065424A (en) | Data storage system, data storage device, similar file recording method to be used for the same and program therefor | |
CN113468118B (en) | File increment storage method, device and storage medium based on blockchain | |
JP2010061518A (en) | Apparatus and method for storing data and program | |
JP2005050073A (en) | Data restoration method, and data recorder | |
US20050262033A1 (en) | Data recording apparatus, data recording method, program for implementing the method, and program recording medium | |
JP5483405B2 (en) | Log file management system, log file management method and program | |
US10162832B1 (en) | Data aware deduplication | |
JP2005293224A (en) | Backup system and backup method | |
JP5492103B2 (en) | Backup apparatus, backup method, data compression method, backup program, and data compression program | |
US11018691B2 (en) | Increasing storage capacity and data transfer speed in genome data backup | |
JP2587417B2 (en) | File backup and restoration method | |
JP2004258865A (en) | Method of processing information | |
US7664763B1 (en) | System and method for determining whether performing a particular process on a file will be useful | |
JP3717858B2 (en) | Image encoding apparatus, image encoding method, program, and computer-readable recording medium | |
JP2008310889A (en) | Recording and reproducing device | |
JP7010538B2 (en) | File management device, file management method, and program | |
JP2006295656A (en) | Vide sound recording/reproducing device and video sound recording/reproducing method | |
CN115168105A (en) | Method for recovering thumbnail of Windows deleted picture and related device | |
JP4203960B2 (en) | Video / audio file generation device and non-linear video editing device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080924 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090203 |