JP2006065424A - Data storage system, data storage device, similar file recording method to be used for the same and program therefor - Google Patents

Data storage system, data storage device, similar file recording method to be used for the same and program therefor Download PDF

Info

Publication number
JP2006065424A
JP2006065424A JP2004244517A JP2004244517A JP2006065424A JP 2006065424 A JP2006065424 A JP 2006065424A JP 2004244517 A JP2004244517 A JP 2004244517A JP 2004244517 A JP2004244517 A JP 2004244517A JP 2006065424 A JP2006065424 A JP 2006065424A
Authority
JP
Japan
Prior art keywords
data
difference
name
compression
dissimilarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004244517A
Other languages
Japanese (ja)
Inventor
Naoshi Ochimaru
直詩 落丸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2004244517A priority Critical patent/JP2006065424A/en
Publication of JP2006065424A publication Critical patent/JP2006065424A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a data storage device for reconciling the reduction of a data size and the shortening of a data processing time. <P>SOLUTION: A data storage device 1 calculates the dissimilarity of inputted data and data belonging to a model data group 111 by a similarity deciding part 12, and generates difference data between the input data and model data by a difference generating part 122. When dissimilarity exceeds a dissimilarity threshold, the data storage device 1 transfers the input data name, the model data name, the calculated similarity and the difference data generated during calculation to a data managing part 11. The data managing part 11 compresses the difference data received from the similarity deciding part 12 by a data compressing part 114, and adds the difference data to a compression difference data group 113 for storage. The data managing part 11 associates the compressed difference data name, the input data name received from the similarity deciding part 12 and the model data name and the similarity with each other, and stores the data in a data table. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

本発明はデータ記憶システム、データ記憶装置及びそれに用いる類似ファイル記録方法並びにそのプログラムに関し、特に情報処理システムにおける類似ファイルの記録方法に関する。   The present invention relates to a data storage system, a data storage device, a similar file recording method used therefor, and a program therefor, and more particularly to a similar file recording method in an information processing system.

従来、情報処理システムにおいては、OS(Operating System:オペレーティングシステム)等を含む場合、そのバックアップとしてシステムイメージを保存することが多い。しかしながら、保存するシステムイメージのデータサイズは非常に大きなものとなるため、データ記録装置の容量を圧迫しやすい。   Conventionally, in an information processing system, when an OS (Operating System) is included, a system image is often stored as a backup. However, since the data size of the system image to be stored becomes very large, the capacity of the data recording apparatus is easily pressed.

これを解決するために、上記のシステムイメージを圧縮して保存するという方法があるが(例えば、特許文献1,2参照)、システムイメージは保存するデータ毎に独立しているため、データ同士の類似部分を利用した圧縮を行うことができない、また、データサイズの圧縮、解凍時間に時間がかかるという問題がある。   In order to solve this, there is a method of compressing and storing the above system image (for example, see Patent Documents 1 and 2), but the system image is independent for each data to be stored. There is a problem that compression using a similar part cannot be performed, and it takes time to compress and decompress the data size.

特開2003−67232号公報JP 2003-67232 A 特開2003−99308号公報JP 2003-99308 A

上述した従来の情報処理システムでは、任意のデータをデータ記録装置に記録する際に、記録するデータのサイズを少なくするのに入力データを圧縮する手法があるが、データによっては圧縮後のサイズ減少率が低いデータが存在し、圧縮処理及び解凍処理の時間に見合わない場合がある。   In the conventional information processing system described above, there is a method of compressing input data to reduce the size of data to be recorded when recording arbitrary data on a data recording apparatus, but depending on the data, the size is reduced after compression. There are cases where data with a low rate exists and the time for the compression process and the decompression process is not suitable.

そこで、本発明の目的は上記の問題点を解消し、データサイズの削減とデータ処理時間の短縮とを両立させることができるデータ記憶システム、データ記憶装置及びそれに用いる類似ファイル記録方法並びにそのプログラムを提供することにある。   Accordingly, an object of the present invention is to provide a data storage system, a data storage device, a similar file recording method used therefor, and a program thereof that can solve the above-described problems and achieve both reduction in data size and reduction in data processing time. It is to provide.

本発明によるデータ記憶システムは、データの読み書き可能なデータ記録装置を含む計算機から構成されるデータ記憶システムであって、前記データ記録装置に複数のデータを記録する際に前記データ同士の類似部分を利用した圧縮を行う手段を前記データ記録装置に備え、当該圧縮によって前記複数のデータの総サイズを減少させている。   A data storage system according to the present invention is a data storage system including a computer including a data recording device capable of reading and writing data, and when a plurality of data is recorded on the data recording device, a similar part between the data is recorded. The data recording apparatus is provided with means for performing compression using the compression, and the total size of the plurality of data is reduced by the compression.

本発明による他のデータ記憶システムは、データの読み書き可能なデータ記録装置を含む計算機から構成されるデータ記憶システムであって、
入力されたデータと予め蓄積されたモデルデータ群に属するデータとについて非類似度を計算する類似度判定手段と、前記入力データと前記モデルデータとの差分データを生成する差分生成手段と、前記差分生成手段から受け取った差分データを圧縮するデータ圧縮手段と、圧縮した差分データ名と前記類似度判定手段から受け取った入力データ名及びモデルデータ名と類似度とに関連を持たせて保存するデータテーブルを含むデータ管理手段とを前記データ記録装置に備えている。
Another data storage system according to the present invention is a data storage system comprising a computer including a data recording device capable of reading and writing data,
Similarity determination means for calculating dissimilarity between input data and data belonging to a previously accumulated model data group, difference generation means for generating difference data between the input data and the model data, and the difference Data compression means for compressing the difference data received from the generation means, and a data table for storing the compressed difference data name in association with the input data name and model data name and similarity received from the similarity determination means The data recording device includes data management means including

本発明によるデータ記憶装置は、データの読み書き可能なデータ記録装置であって、複数のデータを記録する際に前記データ同士の類似部分を利用した圧縮を行う手段を備え、当該圧縮によって前記複数のデータの総サイズを減少させている。   A data storage device according to the present invention is a data recording device capable of reading and writing data, and includes a means for performing compression using a similar portion between the data when recording a plurality of data, and the plurality of the data by the compression. The total size of the data is reduced.

本発明による他のデータ記憶装置は、データの読み書き可能なデータ記録装置であって、
入力されたデータと予め蓄積されたモデルデータ群に属するデータとについて非類似度を計算する類似度判定手段と、前記入力データと前記モデルデータとの差分データを生成する差分生成手段と、前記差分生成手段から受け取った差分データを圧縮するデータ圧縮手段と、圧縮した差分データ名と前記類似度判定手段から受け取った入力データ名及びモデルデータ名と類似度とに関連を持たせて保存するデータテーブルを含むデータ管理手段とを備えている。
Another data storage device according to the present invention is a data recording device capable of reading and writing data,
Similarity determination means for calculating dissimilarity between input data and data belonging to a previously accumulated model data group, difference generation means for generating difference data between the input data and the model data, and the difference Data compression means for compressing the difference data received from the generation means, and a data table for storing the compressed difference data name in association with the input data name and model data name and similarity received from the similarity determination means Including data management means.

本発明による類似ファイル記録方法は、データの読み書き可能なデータ記録装置に用いられる類似ファイル記録方法であって、前記データ記録装置側に、複数のデータを記録する際に前記データ同士の類似部分を利用した圧縮を行うステップを備え、当該圧縮によって前記複数のデータの総サイズを減少させている。   A similar file recording method according to the present invention is a similar file recording method used in a data recording device capable of reading and writing data, and when recording a plurality of data on the data recording device side, similar portions between the data are recorded. And a step of performing compression using the data, and the total size of the plurality of data is reduced by the compression.

本発明による他の類似ファイル記録方法は、データの読み書き可能なデータ記録装置に用いられる類似ファイル記録方法であって、
前記データ記録装置側に、入力されたデータと予め蓄積されたモデルデータ群に属するデータとについて非類似度を計算するステップと、前記入力データと前記モデルデータとの差分データを生成するステップと、前記差分データを圧縮するステップと、圧縮した差分データ名と入力データ名及びモデルデータ名と類似度とに関連を持たせてデータテーブルに保存するステップとを備えている。
Another similar file recording method according to the present invention is a similar file recording method used in a data recording device capable of reading and writing data,
On the data recording device side, calculating the dissimilarity between the input data and data belonging to the model data group accumulated in advance, generating difference data between the input data and the model data, Compressing the difference data, and storing the compressed difference data name, the input data name, the model data name, and the similarity in a data table in association with each other.

本発明による類似ファイル記録方法のプログラムは、データの読み書き可能なデータ記録装置に用いられる類似ファイル記録方法のプログラムであって、前記データ記録装置側のコンピュータに、複数のデータを記録する際に前記データ同士の類似部分を利用した圧縮を行う処理を実行させ、当該圧縮によって前記複数のデータの総サイズを減少させている。   A program of a similar file recording method according to the present invention is a program of a similar file recording method used in a data recording device capable of reading and writing data, and when recording a plurality of data on a computer on the data recording device side, A process of performing compression using similar parts between data is executed, and the total size of the plurality of data is reduced by the compression.

本発明による他の類似ファイル記録方法のプログラムは、データの読み書き可能なデータ記録装置に用いられる類似ファイル記録方法のプログラムであって、前記データ記録装置側のコンピュータに、入力されたデータと予め蓄積されたモデルデータ群に属するデータとについて非類似度を計算する処理と、前記入力データと前記モデルデータとの差分データを生成する処理と、前記差分データを圧縮する処理と、圧縮した差分データ名と入力データ名及びモデルデータ名と類似度とに関連を持たせてデータテーブルに保存する処理とを実行させている。   Another similar file recording method program according to the present invention is a similar file recording method program used in a data recording device capable of reading and writing data, and the input data is stored in advance in the computer on the data recording device side. Processing for calculating dissimilarity with respect to data belonging to the model data group, processing for generating difference data between the input data and the model data, processing for compressing the difference data, and compressed difference data name And a process of storing the data in the data table in association with the input data name, the model data name, and the similarity.

すなわち、本発明のデータ記憶装置は、データの読み書き可能なデータ記録装置を備えた計算機から構成されるシステムにおいて、そのデータ記録装置に複数のデータを記録する際に、類似したデータ群の総データサイズを少なくすることを特徴とする。   That is, the data storage device of the present invention is a system composed of a computer equipped with a data recording device capable of reading and writing data. When recording a plurality of data in the data recording device, the total data of similar data groups It is characterized by reducing the size.

本発明のデータ記憶装置では、データ同士の類似部分を利用した圧縮によって、複数のデータの総サイズを減少させると同時に、データ同士の類似度を判断することによって、圧縮、解凍に必要な時間に対する圧縮、解凍効果が伴わない場合に圧縮、解凍時間を省略している。   In the data storage device of the present invention, the total size of a plurality of data is reduced by compression using a similar portion between the data, and at the same time, the degree of time required for compression and decompression is determined by determining the similarity between the data. When there is no compression / decompression effect, the compression / decompression time is omitted.

より具体的に説明すると、本発明のデータ記憶装置では、データ記憶装置が入力されたデータと自身の持つモデルデータ群に属するデータとについて類似度判定部によって非類似度を計算すると同時に、差分生成部が入力データとモデルデータとの差分データを生成する。   More specifically, in the data storage device of the present invention, the similarity determination unit calculates the dissimilarity between the data input to the data storage device and the data belonging to the model data group of the data storage device, and at the same time generates a difference. The unit generates difference data between the input data and the model data.

本発明のデータ記憶装置では、上記の計算の結果、非類似度が非類似度閾値を超えた場合、入力データ名、モデルデータ名、計算された類似度、計算中に生成された差分データをデータ管理部に渡す。   In the data storage device of the present invention, when the dissimilarity exceeds the dissimilarity threshold as a result of the above calculation, the input data name, the model data name, the calculated similarity, and the difference data generated during the calculation are Pass to the data management department.

データ管理部はデータ圧縮手段で類似度判定部より受け取った差分データを圧縮し、圧縮差分データ群に加えて保存する。また、データ管理部は圧縮した差分データ名、類似度判定部より受け取った入力データ名、モデルデータ名と類似度とに関連を持たせてデータテーブルに保存する。これによって、本発明の情報処理装置では、データをサイズを少なくして保存することが可能となる。   The data management unit compresses the difference data received from the similarity determination unit by the data compression unit, and stores it in addition to the compressed difference data group. Further, the data management unit stores the compressed difference data name, the input data name received from the similarity determination unit, the model data name and the similarity in association with each other in the data table. As a result, the information processing apparatus of the present invention can store data with a reduced size.

さらに、本発明のデータ記憶装置では、2個以上の類似したデータについて、差分生成部で排他的論理和をとることで差分をとり、データの論理的連続性を高め、その差分のみを圧縮記録することによってサイズを少なくする。   Further, in the data storage device of the present invention, two or more similar data are subjected to exclusive OR operation in the difference generation unit to obtain a difference, improve the logical continuity of the data, and compress and record only the difference. By reducing the size.

さらにまた、本発明のデータ記憶装置では、類似度判定部でファイル同士の非類似度が閾値設定手段で設定された非類似度閾値に満たない場合、差分生成処理及び圧縮処理の効果が低いと判断し、処理を行わずに処理時間を費やすことなく、データを記録することが可能となる。   Furthermore, in the data storage device of the present invention, when the dissimilarity between files in the similarity determination unit is less than the dissimilarity threshold set by the threshold setting means, the effect of the difference generation process and the compression process is low. It is possible to record data without making a decision and consuming processing time without performing processing.

これによって、本発明のデータ記憶装置では、記録データの圧縮条件を付加することで、データサイズの削減とデータ処理時間の短縮とを両立させることが可能となる。   Thereby, in the data storage device of the present invention, it is possible to achieve both reduction in data size and reduction in data processing time by adding a compression condition for recording data.

本発明は、以下に述べるような構成及び動作とすることで、データサイズの削減とデータ処理時間の短縮とを両立させることができるという効果が得られる。   According to the present invention, it is possible to achieve both the reduction in data size and the reduction in data processing time by adopting the configuration and operation described below.

次に、本発明の実施例について図面を参照して説明する。図1は本発明の一実施例によるデータ記憶装置の構成を示すブロック図である。図1において、データ記憶装置1はデータ管理部11と、類似度判定部12と、データ入力手段13と、データ復元部14と、データ出力手段15と、記録媒体16とを含んで構成されている。   Next, embodiments of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing the configuration of a data storage device according to an embodiment of the present invention. In FIG. 1, the data storage device 1 includes a data management unit 11, a similarity determination unit 12, a data input unit 13, a data restoration unit 14, a data output unit 15, and a recording medium 16. Yes.

データ管理部11はモデルデータ群111と、データテーブル112と、圧縮差分データ群113と、データ圧縮部114と、データ解凍部115とから構成されている。   The data management unit 11 includes a model data group 111, a data table 112, a compression difference data group 113, a data compression unit 114, and a data decompression unit 115.

類似度判定部12は差分データと非類似度121とを生成する差分生成部122と、非類似度閾値123を設定する閾値設定手段124とを含み、非類似度121が非類似度閾値123を超えるかどうかを判定する。   The similarity determination unit 12 includes a difference generation unit 122 that generates difference data and a dissimilarity 121, and a threshold setting unit 124 that sets a dissimilarity threshold 123. The dissimilarity 121 sets the dissimilarity threshold 123. Determine if it exceeds.

モデルデータ群111は類似度を判定する際のモデルとなるデータで、入力データは装置内に類似するデータがないと判断された場合に、このモデルデータとして非圧縮で記録される。圧縮差分データ群113は装置内に類似するモデルデータがあると判断された場合に、モデルデータと入力データとの差分を圧縮したデータである。データテーブル112はモデルデータ名と、圧縮差分データ名と、これら二つのデータの類似度とを入力データ名の要素として管理する。   The model data group 111 is data serving as a model for determining the similarity. When it is determined that there is no similar data in the apparatus, the input data is recorded as uncompressed data as model data. The compressed difference data group 113 is data obtained by compressing the difference between the model data and the input data when it is determined that there is similar model data in the apparatus. The data table 112 manages the model data name, the compressed difference data name, and the similarity between these two data as elements of the input data name.

データ圧縮部114は差分生成部122から渡された差分データを圧縮し、圧縮差分データ群113に加えて記録する。データ解凍部115は圧縮差分データ群113に含まれるデータを解凍し、データ復元部14に渡す。   The data compression unit 114 compresses the difference data passed from the difference generation unit 122 and records it in addition to the compressed difference data group 113. The data decompression unit 115 decompresses the data included in the compressed differential data group 113 and passes it to the data decompression unit 14.

差分生成部122は入力されたデータとモデルデータ群111に含まれるデータとの排他的論理和を差分として生成しながら、差分の累積和から非類似度121を計算する。   The difference generation unit 122 calculates the dissimilarity 121 from the cumulative sum of the differences while generating an exclusive OR of the input data and the data included in the model data group 111 as a difference.

データ復元部14はデータ解凍部115によって解凍された差分データと、その差分に対応したモデルデータ群111に含まれるデータとの排他的論理和を復元データとして出力する。   The data restoration unit 14 outputs an exclusive OR of the difference data decompressed by the data decompression unit 115 and the data included in the model data group 111 corresponding to the difference as restoration data.

記録媒体16はデータ記憶装置1のデータ管理部11と、類似度判定部12と、データ入力手段13と、データ復元部14と、データ出力手段15とが実行するプログラムを格納しており、このプログラムは後述するデータ記憶装置1の各部の処理を実現するためのものである。   The recording medium 16 stores programs executed by the data management unit 11, the similarity determination unit 12, the data input unit 13, the data restoration unit 14, and the data output unit 15 of the data storage device 1. The program is for realizing processing of each unit of the data storage device 1 described later.

データ記憶装置1は入力されたデータと自身の持つモデルデータ群111に属するデータとについて類似度判定部12によって非類似度121を計算する。同時に、差分生成部122は入力データとモデルデータとの差分データを生成する。類似度判定部12は計算の結果、非類似度が非類似度閾値123を超えた場合、入力データ名、モデルデータ名、計算された類似度、計算中に生成された差分データをデータ管理部11に渡す。   The data storage device 1 calculates the dissimilarity 121 for the input data and the data belonging to the model data group 111 possessed by the similarity determination unit 12. At the same time, the difference generation unit 122 generates difference data between the input data and the model data. When the dissimilarity exceeds the dissimilarity threshold 123 as a result of the calculation, the similarity determination unit 12 uses the input data name, the model data name, the calculated similarity, and the difference data generated during the calculation as a data management unit. 11

データ管理部11はデータ圧縮部114で類似度判定部12から受け取った差分データを圧縮し、圧縮差分データ群113に加え保存する。また、データ管理部11は圧縮した差分データ名、類似度判定部12から受け取った入力データ名、モデルデータ名と、類似度とに関連を持たせてデータテーブル112に保存する。これにより、本実施例では、データをサイズを少なくして保存することができる。   In the data management unit 11, the data compression unit 114 compresses the difference data received from the similarity determination unit 12 and stores it in addition to the compressed difference data group 113. In addition, the data management unit 11 stores the compressed difference data name, the input data name received from the similarity determination unit 12, the model data name, and the similarity in association with each other in the data table 112. Thereby, in this embodiment, the data can be stored with a reduced size.

図1において、本実施例では、2個以上の類似したデータについて、差分生成部121で排他的論理和をとることで差分をとり、データの論理的連続性を高め、その差分のみを圧縮記録することによって、データサイズを少なくしている。また、本実施例では、類似度判定部12でファイル同士の非類似度121が閾値設定手段124で設定された非類似度閾値123に満たない場合、差分生成処理及び圧縮処理の効果が低いと判断し、処理を行わずに、処理時間を費やすことなく、データを記録することが可能となる。   In FIG. 1, in the present embodiment, two or more similar data are subjected to exclusive OR in the difference generation unit 121 to obtain a difference, to increase the logical continuity of the data, and only the difference is compressed and recorded. By doing so, the data size is reduced. Further, in this embodiment, when the dissimilarity 121 between files is less than the dissimilarity threshold 123 set by the threshold setting unit 124 in the similarity determination unit 12, the effect of the difference generation process and the compression process is low. It is possible to record data without determining and performing processing and without consuming processing time.

図2は図1のデータテーブル112の構成を示すブロック図である。図2において、データテーブル112は入力データ名群1121と、圧縮差分データ名群1122と、モデルデータ名群1123と、非類似度群1124とから構成されている。   FIG. 2 is a block diagram showing the configuration of the data table 112 of FIG. In FIG. 2, the data table 112 includes an input data name group 1121, a compressed difference data name group 1122, a model data name group 1123, and a dissimilarity group 1124.

入力データ名群1121は装置に記録されている全ての入力データ名を含み、特に圧縮差分データとして装置に記録された入力データの入力データ名は、その圧縮差分データ名を圧縮差分データ名群1122に、差分データを生成する際に使用したモデルデータ名をモデルデータ名群1123に、非類似度を非類似度群1124にそれぞれ要素としてを持つ。   The input data name group 1121 includes all input data names recorded in the apparatus. In particular, the input data name of the input data recorded in the apparatus as compressed differential data is obtained by converting the compressed differential data name into the compressed differential data name group 1122. In addition, the model data name used when generating the difference data is included in the model data name group 1123, and the dissimilarity is included in the dissimilarity group 1124 as an element.

図3〜図7は本発明の一実施例によるデータ記憶装置1の動作を示すフローチャートである。これら図1〜図7を参照して本発明の一実施例によるデータ記憶装置1の動作について説明する。尚、図3〜図7に示す処理はデータ記憶装置1の各部が記録媒体16のプログラムを実行することで実現される。   3 to 7 are flowcharts showing the operation of the data storage device 1 according to one embodiment of the present invention. The operation of the data storage device 1 according to one embodiment of the present invention will be described with reference to FIGS. The processing shown in FIGS. 3 to 7 is realized by each part of the data storage device 1 executing the program of the recording medium 16.

データ記録装置1はデータ記録前に非類似度閾値を設定する必要があり、図3に示すように、閾値設定手段124によって非類似度閾値123を設定する(図3ステップS1)。   The data recording apparatus 1 needs to set a dissimilarity threshold before data recording, and as shown in FIG. 3, the dissimilarity threshold 123 is set by the threshold setting means 124 (step S1 in FIG. 3).

データ記録装置1の入力データ記録時の動作を図4に示す。データ記録装置1はデータ入力手段13によって外部からデータが入力され、その入力データは類似度判定部12に渡される(図4ステップS11)。   The operation of the data recording apparatus 1 when recording input data is shown in FIG. In the data recording apparatus 1, data is input from the outside by the data input means 13, and the input data is passed to the similarity determination unit 12 (step S11 in FIG. 4).

データ管理部11はモデルデータ群111にモデルデータが一つ以上存在するかをチェックし、さらに非類似度をチェックしていないモデルデータがあるかをチェックする(図4ステップS12)。もし、モデルデータが一つもなければ、または非類似度をチェックしていないモデルデータが一つもなくなったら、入力データは類似度判定部12からデータ管理部11に渡され、モデルデータとしてモデルデータ群111に含められる(図4ステップS13)。   The data management unit 11 checks whether there is one or more model data in the model data group 111, and further checks whether there is model data whose dissimilarity is not checked (step S12 in FIG. 4). If there is no model data, or if there is no model data whose dissimilarity is not checked, the input data is transferred from the similarity determination unit 12 to the data management unit 11 and model data group as model data 111 (step S13 in FIG. 4).

一方、非類似度をチェックすることができるモデルデータが一つ以上あれば、データ管理部11はモデルデータ群111から記録順に一つのモデルデータを読込み、類似度判定部12に渡す(図4ステップS14)。類似度判定部12は差分生成部122で入力データの先頭1bitと、データ管理部11から渡されたモデルデータの先頭1bitとで排他的論理和を計算し、差分データとする。   On the other hand, if there is one or more model data whose dissimilarity can be checked, the data management unit 11 reads one model data in the recording order from the model data group 111 and passes it to the similarity determination unit 12 (step in FIG. 4). S14). The similarity determination unit 12 calculates an exclusive OR between the top 1 bit of the input data and the top 1 bit of the model data passed from the data management unit 11 by the difference generation unit 122 to obtain difference data.

また、差分生成部122はデータの差分を計算する毎に排他的論理和の累積和を計算し、その累積和を入力データサイズまたはモデルデータサイズのうちの大きい方のbitサイズで割った値を計算し、非類似度121とする(図4ステップS15)。   Further, every time the difference generation unit 122 calculates the difference of data, the difference generation unit 122 calculates the cumulative sum of the exclusive OR, and the value obtained by dividing the cumulative sum by the larger bit size of the input data size or the model data size is obtained. The dissimilarity is calculated as 121 (step S15 in FIG. 4).

類似度判定部12は非類似度121が非類似度閾値123を超えないかどうかをチェックし(図4ステップS16)、超えていれば、読込んであったモデルデータの使用を止め、再度、異なるモデルデータでチェック可能なデータがあるかをチェックする(図4ステップS12)。   The similarity determination unit 12 checks whether or not the dissimilarity 121 does not exceed the dissimilarity threshold 123 (step S16 in FIG. 4). It is checked whether there is data that can be checked in the model data (step S12 in FIG. 4).

類似度判定部12は非類似度121が非類似度閾値123を超えていなければ、モデルデータと入力データとに次の差分を生成するのに必要な次のbitがあるかをチェックする(図4ステップS17)。類似度判定部12は次のbitがあれば、次のbitによって差分を生成し、非類似度121を計算する(図4ステップS15)。   If the dissimilarity 121 does not exceed the dissimilarity threshold 123, the similarity determination unit 12 checks whether there is a next bit necessary for generating the next difference between the model data and the input data (see FIG. 4 step S17). If there is the next bit, the similarity determination unit 12 generates a difference based on the next bit and calculates the dissimilarity 121 (step S15 in FIG. 4).

次のbitがない場合、類似度判定部12はモデルデータまたは入力データのどちらかに次のbitがあるかをチェックする(図4ステップS17,S18)。類似度判定部12はどちらかにbitがある場合、不足しているデータの次のbitを0とする(図4ステップS19)。そして、類似度判定部12は不足していないデータの次のbitとの差分とを生成し、非類似度121を計算する(図4ステップS15)。   When there is no next bit, the similarity determination unit 12 checks whether there is a next bit in either the model data or the input data (steps S17 and S18 in FIG. 4). When there is a bit in either one, the similarity determination unit 12 sets the next bit of the missing data to 0 (step S19 in FIG. 4). And the similarity determination part 12 produces | generates the difference with the next bit of the data which is not insufficient, and calculates the dissimilarity 121 (FIG. 4, step S15).

モデルデータと入力データとの両方に次のbitがない場合、類似度判定部12は生成されていた差分bit列をデータ管理部11に渡し、データ圧縮部114によって圧縮する(図4ステップS20)。   When there is no next bit in both the model data and the input data, the similarity determination unit 12 passes the generated difference bit string to the data management unit 11 and is compressed by the data compression unit 114 (step S20 in FIG. 4). .

この後、データ管理部11は入力データ名を参照タグとし、データ圧縮部114によって圧縮された差分データのデータ名、入力データとの差分をとったモデルデータのデータ名、計算された非類似度をその要素としてデータテーブル112に記録する(図4ステップS21)。データ圧縮部114によって圧縮された差分データは、圧縮差分データとして圧縮差分データ群113に含められる(図4ステップS22)。   Thereafter, the data management unit 11 uses the input data name as a reference tag, the data name of the difference data compressed by the data compression unit 114, the data name of the model data obtained by taking the difference from the input data, and the calculated dissimilarity Is recorded in the data table 112 as an element thereof (step S21 in FIG. 4). The differential data compressed by the data compression unit 114 is included in the compressed differential data group 113 as compressed differential data (step S22 in FIG. 4).

データ記録装置1の記録データの読出し時の動作を図5に示す。データ記録装置1のデータ管理部11は読出し要求を受けたデータ名を持つデータがモデルデータ群111にあるかをチェックする(図5ステップS31)。データ管理部11はデータがあれば、該当するモデルデータをデータ出力手段15に渡し、外部へ出力する(図5ステップS37)。   The operation at the time of reading the recording data of the data recording apparatus 1 is shown in FIG. The data management unit 11 of the data recording apparatus 1 checks whether there is data having the data name for which the read request has been received in the model data group 111 (step S31 in FIG. 5). If there is data, the data management unit 11 passes the corresponding model data to the data output means 15 and outputs it to the outside (step S37 in FIG. 5).

データ管理部11は読出し要求を受けたデータがモデルデータとしてなければ、読出し要求を受けたデータ名がデータテーブル112の入力データ名群1121にあるかをチェックし(図5ステップS32)、データ名がなければ、処理を終了する。   If the data that received the read request is not model data, the data management unit 11 checks whether the data name that received the read request is in the input data name group 1121 of the data table 112 (step S32 in FIG. 5). If there is not, the process is terminated.

データ管理部11は読出し要求を受けたデータ名が入力データ名群1121にあれば、圧縮差分データ名群1122とモデルデータ名群1123とからその入力データの要素を参照する(図5ステップS33)。データ管理部11は参照した圧縮差分データ名を持つデータを、圧縮差分データ群113から読出し、データ解凍部115にて解凍し、差分データとしてデータ復元部14に渡す(図5ステップS34)。   If the data name that has received the read request is in the input data name group 1121, the data management unit 11 refers to the element of the input data from the compressed difference data name group 1122 and the model data name group 1123 (step S33 in FIG. 5). . The data management unit 11 reads the data having the referenced compressed differential data name from the compressed differential data group 113, decompresses it with the data decompression unit 115, and passes it to the data restoration unit 14 as differential data (step S34 in FIG. 5).

データ管理部11は参照したモデルデータ名を持つデータを、モデルデータ群111から読出し、データ復元部14に渡す(図5ステップS35)。データ復元部14ではデータ管理部11から渡された差分データとモデルデータとの排他的論理和を復元データとしてデータ出力手段15へ渡し、外部へ出力する(図5ステップS36)。   The data management unit 11 reads the data having the referenced model data name from the model data group 111 and passes it to the data restoration unit 14 (step S35 in FIG. 5). In the data restoration unit 14, the exclusive OR of the difference data and the model data delivered from the data management unit 11 is delivered to the data output unit 15 as restoration data, and is output to the outside (step S36 in FIG. 5).

データ記録装置1の記録データの削除時の動作を図6及び図7に示す。データ記録装置1のデータ管理部11は削除要求を受けたデータ名がデータテーブル112の入力データ名群1121にあるかをチェックする(図6ステップS41)。データ管理部11は削除要求を受けたデータ名を持つ入力データ名があれば、その要素である圧縮差分データ名を参照し、参照したデータ名を持つ圧縮差分データを削除し(図6ステップS42)、削除要求を受けたデータ名を持つ入力データ名とその要素とをデータテーブル112から削除し(図6ステップS43)、処理を終了する。   The operation of the data recording apparatus 1 when deleting the recording data is shown in FIGS. The data management unit 11 of the data recording apparatus 1 checks whether or not the data name that has received the deletion request is in the input data name group 1121 of the data table 112 (step S41 in FIG. 6). If there is an input data name having the data name for which the deletion request has been received, the data management unit 11 refers to the compressed differential data name as the element, and deletes the compressed differential data having the referenced data name (step S42 in FIG. 6). ), The input data name having the data name for which the deletion request has been received and its elements are deleted from the data table 112 (step S43 in FIG. 6), and the process ends.

データ管理部11は削除要求を受けたデータ名を持つデータが入力データ名群1121になければ、削除要求を受けたデータ名を持つモデルデータがモデルデータ群111にあるかをチェックし(図6ステップS44)、削除要求を受けたデータ名を持つモデルデータがなければ、処理を終了する。   If the data having the data name for which the deletion request has been received is not in the input data name group 1121, the data management unit 11 checks whether the model data having the data name for which the deletion request has been received is in the model data group 111 (FIG. 6). In step S44), if there is no model data having the data name for which the deletion request has been received, the process is terminated.

データ管理部11は削除要求を受けたデータ名を持つモデルデータがあれば、データテーブル112の入力データ名群1121のうち、要素であるモデルデータ名群1123に削除要求を受けたデータ名がないかをチェックし(図6ステップS45)、削除要求を受けたデータ名がなければ、削除要求を受けたデータ名を持つモデルデータをモデルデータ群111より削除し(図7ステップS53)、処理を終了する。   If there is model data having the data name that has received the deletion request, the data management unit 11 does not have the data name that has received the deletion request in the model data name group 1123 that is an element in the input data name group 1121 of the data table 112. If there is no data name for which the deletion request has been received, the model data having the data name for which the deletion request has been received is deleted from the model data group 111 (step S53 in FIG. 7). finish.

データ管理部11はモデルデータ名群1123に削除要求を受けたデータ名がある場合、削除するモデルデータ名を要素として持つ入力データについて非類似度群1124を参照し、最小の非類似度を持つ入力データの圧縮差分データ名とモデルデータ名とを参照する(図6ステップS46)。   When there is a data name for which a deletion request is received in the model data name group 1123, the data management unit 11 refers to the dissimilarity group 1124 for input data having the model data name to be deleted as an element, and has the minimum dissimilarity. Reference is made to the compression difference data name and model data name of the input data (step S46 in FIG. 6).

さらに、データ管理部11は参照したモデルデータ名を持つデータをモデルデータ群111から読出してデータ復元部14に渡し、参照した圧縮差分データ名を持つデータを圧縮差分データ群113から読出してデータ解凍部115によって差分データとした上で、データ復元部14に渡す(図6ステップS47)。   Further, the data management unit 11 reads data having the referenced model data name from the model data group 111 and passes it to the data restoring unit 14, and reads data having the referenced compressed difference data name from the compressed difference data group 113 to decompress the data. The difference data is converted into differential data by the unit 115 and then transferred to the data restoration unit 14 (step S47 in FIG. 6).

データ復元部14はデータ管理部11から渡された差分データとモデルデータとの排他的論理和を復元データとし、そのデータをデータ管理部11に渡す。データ管理部11はデータ復元部14から渡されたデータを新たにモデルデータとしてモデルデータ群111に加える(図6ステップS48)。   The data restoration unit 14 uses the exclusive OR of the difference data and model data delivered from the data management unit 11 as restoration data, and passes the data to the data management unit 11. The data management unit 11 adds the data passed from the data restoration unit 14 as new model data to the model data group 111 (step S48 in FIG. 6).

データ管理部11は復元した入力データのデータ名とその要素とをデータテーブル112から削除し、復元に使用した圧縮差分データを圧縮差分データ群113から削除する(図6ステップS49)。   The data management unit 11 deletes the data name of the restored input data and its elements from the data table 112, and deletes the compressed differential data used for the restoration from the compressed differential data group 113 (step S49 in FIG. 6).

次に、データ管理部11はデータテーブル112に削除するモデル名を要素に持つ入力データが他にあるかをチェックし(図7ステップS50)、入力データが他になければ、削除要求を受けたデータ名を持つモデルデータをモデルデータ群111から削除し(図7ステップS53)、処理を終了する。   Next, the data management unit 11 checks whether there is any other input data having the model name to be deleted in the data table 112 (step S50 in FIG. 7). If there is no other input data, the data management unit 11 receives a deletion request. The model data having the data name is deleted from the model data group 111 (step S53 in FIG. 7), and the process ends.

データ管理部11は入力データが他にあれば、その入力データを、上述した処理と同様に、データ復元部14で復元し、入力データ名とその要素とをデータテーブル112から削除し、復元に使用した圧縮差分データを圧縮差分データ群113から削除する。データ復元部14は復元したデータを類似度判定部12に渡す(図6ステップS51)。   If there is other input data, the data management unit 11 restores the input data by the data restoration unit 14 in the same manner as the processing described above, deletes the input data name and its elements from the data table 112, and restores them. The used compression difference data is deleted from the compression difference data group 113. The data restoration unit 14 passes the restored data to the similarity determination unit 12 (step S51 in FIG. 6).

類似度判定部12ではデータ復元部14から渡されたデータと、最小の非類似度を持ち復元された新たなモデルデータとで、外部から入力されたデータと同様に、類似度を判定して記録する(図6ステップS52)。データ管理部11は、再度、データテーブル112に削除するモデル名を要素に持つ入力データが他にあるかをチェックする(図6ステップS50)。   The similarity determination unit 12 determines the similarity between the data passed from the data restoration unit 14 and the new model data restored with the minimum dissimilarity, in the same manner as the data input from the outside. Recording is performed (step S52 in FIG. 6). The data management unit 11 checks again whether there is any other input data having the model name to be deleted in the data table 112 (step S50 in FIG. 6).

このように、本実施例では、記録データの圧縮条件を付加することで、データサイズの削減とデータ処理時間の短縮とを両立させることができる。   As described above, in this embodiment, it is possible to achieve both reduction in data size and reduction in data processing time by adding recording data compression conditions.

図8は本発明の他の実施例によるデータ記憶システムの構成を示すブロック図である。図8において、本発明の他の実施例によるデータ記憶システムは計算機2と、データ記録媒体3と、記録媒体4と、計算機2とデータ記録媒体3とを接続する媒体搬送経路100とから構成されている。搬媒体送経路100は、特にデータ記録媒体3がネットワーク上の記録装置の場合のネットワークである。   FIG. 8 is a block diagram showing the configuration of a data storage system according to another embodiment of the present invention. In FIG. 8, a data storage system according to another embodiment of the present invention comprises a computer 2, a data recording medium 3, a recording medium 4, and a medium transport path 100 connecting the computer 2 and the data recording medium 3. ing. The transport medium transport path 100 is a network particularly when the data recording medium 3 is a recording device on the network.

計算機2はデータ記録媒体3のデータを読み取るためのデータ記録媒体読み取り手段22と、データ記録媒体3の仮想データ出力部31を実行する仮想データ出力部実行手段21とを含んで構成されている。記録媒体4は計算機2が実行するプログラムを格納しており、計算機2がそのプログラムを実行することで、各手段の処理動作が実現される。   The computer 2 includes a data recording medium reading unit 22 for reading data on the data recording medium 3 and a virtual data output unit executing unit 21 for executing the virtual data output unit 31 of the data recording medium 3. The recording medium 4 stores a program executed by the computer 2, and the processing operation of each unit is realized by the computer 2 executing the program.

データ記録媒体3は仮想データ出力部31を備えたCD−ROM(Compact Disc−Read Only Memory)やDVD−ROM(Digital Versatile Disc−Read Only Memory)等の記録媒体からなり、ネットワーク上の記録装置を含む。   The data recording medium 3 includes a recording medium such as a CD-ROM (Compact Disc-Read Only Memory) and a DVD-ROM (Digital Versatile Disc-Read Only Memory) having a virtual data output unit 31. Including.

仮想データ出力部31は、図1に示す構成のうち、データを出力するために必要な部分のみを抜き出した構成を含んでいる。つまり、仮想データ出力部31はデータ管理部311と、データ復元部312と、データ出力手段313とを含んでおり、データ管理部311はモデルデータ群3111と、データテーブル3112と、圧縮差分データ群3113と、データ解凍手段3114とからなっている。   The virtual data output unit 31 includes a configuration in which only a portion necessary for outputting data is extracted from the configuration illustrated in FIG. That is, the virtual data output unit 31 includes a data management unit 311, a data restoration unit 312, and a data output unit 313, and the data management unit 311 includes a model data group 3111, a data table 3112, and a compressed difference data group. 3113 and data decompression means 3114.

データ記録媒体3の生成時は、仮想データ出力部31のモデルデータ群3111、データテーブル3112、圧縮差分データ群3113が、上述した図1に示す構成でデータを記録した状態を複製する。   When the data recording medium 3 is generated, the model data group 3111, the data table 3112, and the compression difference data group 3113 of the virtual data output unit 31 replicate the state in which data is recorded with the configuration shown in FIG.

図9は図8の計算機2がデータ記録媒体3からデータを読出す時の動作を示すフローチャートである。これら図8及び図9を参照して本発明の他の実施例による計算機2がデータ記録媒体3からデータを読出す時の動作について説明する。尚、図9に示す処理は計算機2が記録媒体4のプログラムを実行することで実現される。   FIG. 9 is a flowchart showing an operation when the computer 2 of FIG. 8 reads data from the data recording medium 3. The operation when the computer 2 according to another embodiment of the present invention reads data from the data recording medium 3 will be described with reference to FIGS. Note that the processing shown in FIG. 9 is realized by the computer 2 executing the program of the recording medium 4.

計算機2ではデータ記録媒体読み取り手段22によってデータ記録媒体3の仮想データ出力部31を読取り、仮想データ出力部実行手段21へ渡す(図9ステップS61)。   The computer 2 reads the virtual data output unit 31 of the data recording medium 3 by the data recording medium reading unit 22 and passes it to the virtual data output unit executing unit 21 (step S61 in FIG. 9).

仮想データ出力部実行手段21はデータ記録媒体読み取り手段22から渡された仮想データ出力部31を、図1に示す構成の読出し時と同じ動作(図5ステップS31〜S37に示す動作)を実行し、目的のデータ(要求データ)を取出す(図9ステップS62)。   The virtual data output unit executing means 21 executes the same operation (the operation shown in steps S31 to S37 in FIG. 5) as the virtual data output unit 31 delivered from the data recording medium reading means 22 when reading the configuration shown in FIG. The target data (request data) is taken out (step S62 in FIG. 9).

本実施例では、データ記録媒体3に記録するデータサイズを縮小しながら、モデルデータ群3111に含まれるデータを読出す際に、全てのデータを圧縮している媒体に比べて高速に読出すことができる。   In the present embodiment, when data included in the model data group 3111 is read while reducing the data size to be recorded on the data recording medium 3, all the data is read at a higher speed than the compressed medium. Can do.

本発明は、情報処理産業の情報記録分野において、情報システムのバックアップ用途や、異なるプラットフォームへの情報記録媒体による情報システムの配布等への利用が考えられる。   In the information recording field of the information processing industry, the present invention can be used for backup of information systems, distribution of information systems using information recording media to different platforms, and the like.

本発明の一実施例によるデータ記憶装置の構成を示すブロック図である。It is a block diagram which shows the structure of the data storage device by one Example of this invention. 図1のデータテーブルの構成を示すブロック図である。It is a block diagram which shows the structure of the data table of FIG. 本発明の一実施例によるデータ記憶装置の動作を示すフローチャートである。4 is a flowchart illustrating an operation of the data storage device according to the embodiment of the present invention. 本発明の一実施例によるデータ記憶装置の動作を示すフローチャートである。4 is a flowchart illustrating an operation of the data storage device according to the embodiment of the present invention. 本発明の一実施例によるデータ記憶装置の動作を示すフローチャートである。4 is a flowchart illustrating an operation of the data storage device according to the embodiment of the present invention. 本発明の一実施例によるデータ記憶装置の動作を示すフローチャートである。4 is a flowchart illustrating an operation of the data storage device according to the embodiment of the present invention. 本発明の一実施例によるデータ記憶装置の動作を示すフローチャートである。4 is a flowchart illustrating an operation of the data storage device according to the embodiment of the present invention. 本発明の他の実施例によるデータ記憶システムの構成を示すブロック図である。It is a block diagram which shows the structure of the data storage system by the other Example of this invention. 図8の計算機がデータ記録媒体からデータを読出す時の動作を示すフローチャートである。It is a flowchart which shows operation | movement when the computer of FIG. 8 reads data from a data recording medium.

符号の説明Explanation of symbols

1 データ記憶装置
2 計算機
3 データ記録媒体
4,16 記録媒体
11 データ管理部
12 類似度判定部
13 データ入力手段
14,312 データ復元部
15,313 データ出力手段
21 仮想データ出力部実行手段
22 データ記録媒体読取り手段
31 仮想データ出力部
111,3111 モデルデータ群
112,3112 データテーブル
113,3113 圧縮差分データ群
114 データ圧縮部
115 データ解凍部
121 非類似度
122 差分生成部
123 非類似度閾値
124 閾値設定手段
1121 入力データ名群
1122 圧縮差分データ名群
1123 モデルデータ名群
1124 非類似度群
3114 データ解凍手段
1 Data storage device
2 computers
3 Data recording media
4,16 Recording medium
11 Data management department
12 Similarity determination unit
13 Data input means 14, 312 Data restoration section 15,313 Data output means
21 Virtual data output unit execution means
22 Data recording medium reading means
31 Virtual data output unit 111, 3111 Model data group 112, 3112 Data table 113, 3113 Compression difference data group
114 Data compression unit
115 Data decompression unit
121 Dissimilarity
122 Difference generator
123 Dissimilarity threshold
124 threshold setting means
1121 Input data name group
1122 Compression difference data name group
1123 Model data name group
1124 Dissimilarity group
3114 Data decompression means

Claims (20)

データの読み書き可能なデータ記録装置を含む計算機から構成されるデータ記憶システムであって、前記データ記録装置に複数のデータを記録する際に前記データ同士の類似部分を利用した圧縮を行う手段を前記データ記録装置に有し、当該圧縮によって前記複数のデータの総サイズを減少させることを特徴とするデータ記憶システム。   A data storage system comprising a computer including a data recording device capable of reading and writing data, wherein the means for performing compression using a similar portion between the data when recording a plurality of data in the data recording device A data storage system comprising a data recording device, wherein the total size of the plurality of data is reduced by the compression. 前記データ同士の類似度を判断する手段を前記データ記録装置に含み、
前記データの圧縮及び解凍の少なくとも一方に必要な時間に対する前記圧縮の効果及び前記解凍の効果のいずれかが伴わない場合に当該圧縮及び解凍を省略することを特徴とする請求項1記載のデータ記憶システム。
Means for determining the similarity between the data in the data recording device;
2. The data storage according to claim 1, wherein the compression and the decompression are omitted when any of the compression effect and the decompression effect with respect to a time required for at least one of the compression and decompression of the data is not accompanied. system.
データの読み書き可能なデータ記録装置を含む計算機から構成されるデータ記憶システムであって、
入力されたデータと予め蓄積されたモデルデータ群に属するデータとについて非類似度を計算する類似度判定手段と、前記入力データと前記モデルデータとの差分データを生成する差分生成手段と、前記差分生成手段から受け取った差分データを圧縮するデータ圧縮手段と、圧縮した差分データ名と前記類似度判定手段から受け取った入力データ名及びモデルデータ名と類似度とに関連を持たせて保存するデータテーブルを含むデータ管理手段とを前記データ記録装置に有することを特徴とするデータ記憶システム。
A data storage system comprising a computer including a data recording device capable of reading and writing data,
Similarity determination means for calculating dissimilarity between input data and data belonging to a previously accumulated model data group, difference generation means for generating difference data between the input data and the model data, and the difference Data compression means for compressing the difference data received from the generation means, and a data table for storing the compressed difference data name in association with the input data name and model data name and similarity received from the similarity determination means A data storage system comprising: a data management means including: the data recording device.
前記類似度判定手段の計算結果において前記非類似度が非類似度閾値を超えた場合に前記入力データ名と前記モデルデータ名と前記計算された類似度と計算中に生成された差分データとを前記データ管理手段に渡すことを特徴とする請求項3記載のデータ記憶システム。   When the dissimilarity exceeds the dissimilarity threshold in the calculation result of the similarity determination means, the input data name, the model data name, the calculated similarity, and the difference data generated during the calculation 4. The data storage system according to claim 3, wherein the data storage system is passed to the data management means. 前記非類似度が前記非類似度閾値に満たない場合に前記データの差分生成処理及び圧縮処理を抑止することを特徴とする請求項4記載のデータ記憶システム。   5. The data storage system according to claim 4, wherein when the dissimilarity is less than the dissimilarity threshold, the difference generation process and the compression process of the data are suppressed. 前記差分生成手段は、2個以上の類似したデータについて排他的論理和をとることで前記差分データを生成し、
当該差分データのみを圧縮記録することによって前記複数のデータの総サイズを減少させることを特徴とする請求項3から請求項5のいずれか記載のデータ記憶システム。
The difference generation means generates the difference data by taking an exclusive OR of two or more similar data,
The data storage system according to any one of claims 3 to 5, wherein the total size of the plurality of data is reduced by compressing and recording only the difference data.
データの読み書き可能なデータ記録装置であって、複数のデータを記録する際に前記データ同士の類似部分を利用した圧縮を行う手段を有し、当該圧縮によって前記複数のデータの総サイズを減少させることを特徴とするデータ記録装置。   A data recording apparatus capable of reading and writing data, and having means for performing compression using a similar portion between the data when recording a plurality of data, and reducing the total size of the plurality of data by the compression A data recording apparatus. 前記データ同士の類似度を判断する手段を含み、
前記データの圧縮及び解凍の少なくとも一方に必要な時間に対する前記圧縮の効果及び前記解凍の効果のいずれかが伴わない場合に当該圧縮及び解凍を省略することを特徴とする請求項7記載のデータ記憶装置。
Means for determining the degree of similarity between the data;
8. The data storage according to claim 7, wherein the compression and the decompression are omitted when either the compression effect or the decompression effect with respect to the time required for at least one of the compression and decompression of the data is not accompanied. apparatus.
データの読み書き可能なデータ記録装置であって、
入力されたデータと予め蓄積されたモデルデータ群に属するデータとについて非類似度を計算する類似度判定手段と、前記入力データと前記モデルデータとの差分データを生成する差分生成手段と、前記差分生成手段から受け取った差分データを圧縮するデータ圧縮手段と、圧縮した差分データ名と前記類似度判定手段から受け取った入力データ名及びモデルデータ名と類似度とに関連を持たせて保存するデータテーブルを含むデータ管理手段とを有することを特徴とするデータ記憶装置。
A data recording device capable of reading and writing data,
Similarity determination means for calculating dissimilarity between input data and data belonging to a previously accumulated model data group, difference generation means for generating difference data between the input data and the model data, and the difference Data compression means for compressing the difference data received from the generation means, and a data table for storing the compressed difference data name in association with the input data name and model data name and similarity received from the similarity determination means And a data management unit including the data management means.
前記類似度判定手段の計算結果において前記非類似度が非類似度閾値を超えた場合に前記入力データ名と前記モデルデータ名と前記計算された類似度と計算中に生成された差分データとを前記データ管理手段に渡すことを特徴とする請求項9記載のデータ記憶装置。   When the dissimilarity exceeds the dissimilarity threshold in the calculation result of the similarity determination means, the input data name, the model data name, the calculated similarity, and the difference data generated during the calculation The data storage device according to claim 9, wherein the data storage device passes the data management means. 前記非類似度が前記非類似度閾値に満たない場合に前記データの差分生成処理及び圧縮処理を抑止することを特徴とする請求項10記載のデータ記憶装置。   11. The data storage device according to claim 10, wherein when the dissimilarity is less than the dissimilarity threshold, the data difference generation processing and compression processing are suppressed. 前記差分生成手段は、2個以上の類似したデータについて排他的論理和をとることで前記差分データを生成し、
当該差分データのみを圧縮記録することによって前記複数のデータの総サイズを減少させることを特徴とする請求項9から請求項11のいずれか記載のデータ記憶装置。
The difference generation means generates the difference data by taking an exclusive OR of two or more similar data,
The data storage device according to any one of claims 9 to 11, wherein the total size of the plurality of data is reduced by compressing and recording only the difference data.
データの読み書き可能なデータ記録装置に用いられる類似ファイル記録方法であって、前記データ記録装置側に、複数のデータを記録する際に前記データ同士の類似部分を利用した圧縮を行うステップを有し、当該圧縮によって前記複数のデータの総サイズを減少させることを特徴とする類似ファイル記録方法。   A similar file recording method used in a data recording device capable of reading and writing data, comprising: a step of performing compression using a similar portion between the data when recording a plurality of data on the data recording device side A similar file recording method, wherein the compression reduces the total size of the plurality of data. 前記データ記録装置側に、前記データ同士の類似度を判断するステップを含み、
前記データの圧縮及び解凍の少なくとも一方に必要な時間に対する前記圧縮の効果及び前記解凍の効果のいずれかが伴わない場合に当該圧縮及び解凍を省略することを特徴とする請求項13記載の類似ファイル記録方法。
The data recording device side includes a step of determining the degree of similarity between the data,
14. The similar file according to claim 13, wherein the compression and the decompression are omitted when either the compression effect or the decompression effect on the time required for at least one of the data compression and decompression is not accompanied. Recording method.
データの読み書き可能なデータ記録装置に用いられる類似ファイル記録方法であって、
前記データ記録装置側に、入力されたデータと予め蓄積されたモデルデータ群に属するデータとについて非類似度を計算するステップと、前記入力データと前記モデルデータとの差分データを生成するステップと、前記差分データを圧縮するステップと、圧縮した差分データ名と入力データ名及びモデルデータ名と類似度とに関連を持たせてデータテーブルに保存するステップとを有することを特徴とする類似ファイル記録方法。
A similar file recording method used in a data recording device capable of reading and writing data,
On the data recording device side, calculating the dissimilarity between the input data and data belonging to the model data group accumulated in advance, generating difference data between the input data and the model data, A method of recording a similar file, comprising: compressing the difference data; and storing the compressed difference data name, the input data name, the model data name, and the similarity in a data table. .
前記非類似度を計算するステップの計算結果において前記非類似度が非類似度閾値を超えた場合に前記入力データ名と前記モデルデータ名と前記計算された類似度と計算中に生成された差分データとを前記データテーブルに保存するステップに渡すことを特徴とする請求項15記載の類似ファイル記録方法。   In the calculation result of the step of calculating the dissimilarity, when the dissimilarity exceeds a dissimilarity threshold, the input data name, the model data name, the calculated similarity, and the difference generated during the calculation 16. The similar file recording method according to claim 15, wherein the data is transferred to the step of storing the data in the data table. 前記非類似度が前記非類似度閾値に満たない場合に前記データの差分生成処理及び圧縮処理を抑止することを特徴とする請求項16記載の類似ファイル記録方法。   17. The similar file recording method according to claim 16, wherein when the dissimilarity is less than the dissimilarity threshold, the difference generation process and the compression process of the data are suppressed. 前記差分データを生成するステップは、2個以上の類似したデータについて排他的論理和をとることで前記差分データを生成し、
当該差分データのみを圧縮記録することによって前記複数のデータの総サイズを減少させることを特徴とする請求項15から請求項16のいずれか記載の類似ファイル記録方法。
The step of generating the difference data generates the difference data by taking an exclusive OR of two or more similar data,
17. The similar file recording method according to claim 15, wherein the total size of the plurality of data is reduced by compressing and recording only the difference data.
データの読み書き可能なデータ記録装置に用いられる類似ファイル記録方法のプログラムであって、前記データ記録装置側のコンピュータに、複数のデータを記録する際に前記データ同士の類似部分を利用した圧縮を行う処理を実行させ、当該圧縮によって前記複数のデータの総サイズを減少させるためのプログラム。   A program of a similar file recording method used in a data recording device capable of reading and writing data, and compressing using a similar portion between the data when recording a plurality of data in a computer on the data recording device side A program for executing processing and reducing the total size of the plurality of data by the compression. データの読み書き可能なデータ記録装置に用いられる類似ファイル記録方法のプログラムであって、前記データ記録装置側のコンピュータに、入力されたデータと予め蓄積されたモデルデータ群に属するデータとについて非類似度を計算する処理と、前記入力データと前記モデルデータとの差分データを生成する処理と、前記差分データを圧縮する処理と、圧縮した差分データ名と入力データ名及びモデルデータ名と類似度とに関連を持たせてデータテーブルに保存する処理とを実行させるためのプログラム。
A program of a similar file recording method used in a data recording device capable of reading and writing data, wherein the degree of dissimilarity between data input to a computer on the data recording device side and data belonging to a model data group stored in advance A process for calculating the difference data between the input data and the model data, a process for compressing the difference data, and the compressed difference data name, the input data name, the model data name, and the similarity A program for executing a process of storing data in a data table with association.
JP2004244517A 2004-08-25 2004-08-25 Data storage system, data storage device, similar file recording method to be used for the same and program therefor Pending JP2006065424A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004244517A JP2006065424A (en) 2004-08-25 2004-08-25 Data storage system, data storage device, similar file recording method to be used for the same and program therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004244517A JP2006065424A (en) 2004-08-25 2004-08-25 Data storage system, data storage device, similar file recording method to be used for the same and program therefor

Publications (1)

Publication Number Publication Date
JP2006065424A true JP2006065424A (en) 2006-03-09

Family

ID=36111899

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004244517A Pending JP2006065424A (en) 2004-08-25 2004-08-25 Data storage system, data storage device, similar file recording method to be used for the same and program therefor

Country Status (1)

Country Link
JP (1) JP2006065424A (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009533731A (en) * 2006-04-07 2009-09-17 データ ストレージ グループ Data compression technology and data storage technology
WO2015128955A1 (en) * 2014-02-26 2015-09-03 株式会社日立製作所 Storage device, device having storage device, and storage control method
CN107665093A (en) * 2016-07-29 2018-02-06 深圳市深信服电子科技有限公司 Date storage method and device
JP2019095913A (en) * 2017-11-20 2019-06-20 株式会社日立製作所 Storage system
JP2019175373A (en) * 2018-03-29 2019-10-10 Necソリューションイノベータ株式会社 File management device, file management method, and program
JP2021068471A (en) * 2021-01-14 2021-04-30 株式会社日立製作所 Storage system
JP2022051792A (en) * 2021-01-14 2022-04-01 株式会社日立製作所 Storage system

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0877333A (en) * 1994-09-09 1996-03-22 Toshiba Corp Electronic filing device
JPH10105036A (en) * 1996-09-26 1998-04-24 Nec Corp Teaching material data base device
JP2002244950A (en) * 2001-02-15 2002-08-30 Nec Corp Method and program for increasing efficiency of file transfer

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0877333A (en) * 1994-09-09 1996-03-22 Toshiba Corp Electronic filing device
JPH10105036A (en) * 1996-09-26 1998-04-24 Nec Corp Teaching material data base device
JP2002244950A (en) * 2001-02-15 2002-08-30 Nec Corp Method and program for increasing efficiency of file transfer

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009533731A (en) * 2006-04-07 2009-09-17 データ ストレージ グループ Data compression technology and data storage technology
WO2015128955A1 (en) * 2014-02-26 2015-09-03 株式会社日立製作所 Storage device, device having storage device, and storage control method
JPWO2015128955A1 (en) * 2014-02-26 2017-03-30 株式会社日立製作所 Storage device, apparatus having storage device, and storage control method
US10444992B2 (en) 2014-02-26 2019-10-15 Hitachi, Ltd. Storage device, apparatus having storage device, and storage control method
CN107665093A (en) * 2016-07-29 2018-02-06 深圳市深信服电子科技有限公司 Date storage method and device
JP2019095913A (en) * 2017-11-20 2019-06-20 株式会社日立製作所 Storage system
JP2019175373A (en) * 2018-03-29 2019-10-10 Necソリューションイノベータ株式会社 File management device, file management method, and program
JP7010538B2 (en) 2018-03-29 2022-01-26 Necソリューションイノベータ株式会社 File management device, file management method, and program
JP2021068471A (en) * 2021-01-14 2021-04-30 株式会社日立製作所 Storage system
JP2022051792A (en) * 2021-01-14 2022-04-01 株式会社日立製作所 Storage system
JP7225445B2 (en) 2021-01-14 2023-02-20 株式会社日立製作所 storage system

Similar Documents

Publication Publication Date Title
CN100512409C (en) Data processing apparatus and data processing method
KR101074010B1 (en) Block unit data compression and decompression method and apparatus thereof
JPH1153240A (en) Data backup device and method for computer, and computer-readable recording medium recurred with data backup program
US7818579B2 (en) Information processor having information dispersing function
US20130179413A1 (en) Compressed Distributed Storage Systems And Methods For Providing Same
JPH02228879A (en) Method of compacting data
JP2006065424A (en) Data storage system, data storage device, similar file recording method to be used for the same and program therefor
CN113468118B (en) File increment storage method, device and storage medium based on blockchain
JP2010061518A (en) Apparatus and method for storing data and program
JP2005050073A (en) Data restoration method, and data recorder
US20050262033A1 (en) Data recording apparatus, data recording method, program for implementing the method, and program recording medium
JP5483405B2 (en) Log file management system, log file management method and program
US10162832B1 (en) Data aware deduplication
JP2005293224A (en) Backup system and backup method
JP5492103B2 (en) Backup apparatus, backup method, data compression method, backup program, and data compression program
US11018691B2 (en) Increasing storage capacity and data transfer speed in genome data backup
JP2587417B2 (en) File backup and restoration method
JP2004258865A (en) Method of processing information
US7664763B1 (en) System and method for determining whether performing a particular process on a file will be useful
JP3717858B2 (en) Image encoding apparatus, image encoding method, program, and computer-readable recording medium
JP2008310889A (en) Recording and reproducing device
JP7010538B2 (en) File management device, file management method, and program
JP2006295656A (en) Vide sound recording/reproducing device and video sound recording/reproducing method
CN115168105A (en) Method for recovering thumbnail of Windows deleted picture and related device
JP4203960B2 (en) Video / audio file generation device and non-linear video editing device

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080924

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090203