CN101320372B

CN101320372B - 一种重复数据的压缩方法

Info

Publication number: CN101320372B
Application number: CN2008100378698A
Authority: CN
Inventors: 贺鸿富
Original assignee: Shanghai Eisoo Software Co Ltd
Current assignee: Shanghai Eisoo Information Technology Co Ltd
Priority date: 2008-05-22
Filing date: 2008-05-22
Publication date: 2012-07-04
Anticipated expiration: 2028-05-22
Also published as: CN101320372A

Abstract

本发明公开了一种计算机重复数据的压缩方法，利用本方法可在较短时间内较大程度地提高重复数据的压缩比率。本发明通过如下步骤实现：首先，比较程序比较相同类型的同名文件发生变化时的异同情况，并获得相应的数据块变化表；然后，分析程序分析同类型文件的所有数据块变化表，求得该类型文件的最佳分割方式，并将其保存于类型分割信息库；最后，当需要压缩某类型文件的重复数据时，调用类型分割信息库中该类型文件的最佳分割方式压缩待处理文件中的重复数据，即可实现最大程度的压缩率。

Description

一种重复数据的压缩方法

技术领域

本发明涉及一种计算机重复数据的压缩方法，尤其是涉及一种在计算机数据存储、归档及备份中提高重复数据压缩率的方法。

背景技术

目前，随着我国信息化程度的提高，越来越多的企事业单位和组织利用建立本单位计算机局域网络来使其工作人员更好地共享信息与协同工作，然而，利用网络办公环境，常常会使内容相同的一份电子数据或以相同或以不同的文件名或文件形式(如邮件、工作文档等)在多台计算机中保存，且一个局域网内的所有客户端的数据通常会定期地在服务器中集中归档、存储或备份。这样在归档、存储或备份操作时就可能产生大量完全重复的数据。

为了解决计算机重复数据的压缩问题，现有技术通常为以下两种：

一种是基于LZ系列的压缩算法。LZ系列压缩算法首先使用字典法对相同短语进行压缩，压缩后，再使用哈夫曼编码将压缩的内容以最短字节表示。基于LZ系列的压缩算法为通用无损压缩。对于大部分未压缩的数据，可以获得2至8倍的压缩比，但该算法由于采用字典法对短语进行压缩，短语取用长度较短，如LZ系列中的LZ77仅采用23个位来表示短语距离和短语长度，其能够判断的重复数据的长度是非常有限的，因而，较短的短语对于网络系统中的相同或相似文件的重复数据压缩性能并不佳。

另一种是将待处理数据的内容分割为很多长度固定的数据块，并为每一数据块生成一个相应的标识符，在保存数据块内容的同时保存每一块数据的标识符。在判断待处理数据是否为重复数据时，解决方法是通过在服务器的标识符数据库中搜索是否存在相同的标识符：如果存在，则判断其为重复的数据；如果不存在，则判断其为不重复的数据。然而，这种技术的不足之处在于，由于不同类型文件的储存结构是完全不同的，例如文本文件的存储结构是以原内容方式保存，字处理器软件生成的文件则是以对象的半结构化方式保存，而数据库系统生成的数据库文件则以块状的结构化方式保存，如果一律采用固定的长度分割待处理数据，而不考虑不同类型数据的存储结构差异，则在判断分割后的数据块是否为重复数据时，常常会出现识别率不高的问题，从而导致重复数据的压缩率不甚理想。

发明内容

为了在更短的时间内提高计算机重复数据的压缩率问题，本发明的技术方案要点通过以下步骤实现：

首先通过比较相同类型的同名文件发生变化时的异同情况，以获得能体现变化规律的数据块变化表；随后通过分析程序分析同类型文件的所有数据块变化表获得该类型文件的最佳分割方式，并将其保存到类型分割信息库；最后，在进行数据压缩时，本发明将首先判断待压缩文件的类型，然后根据该文件类型从类型分割信息库中调出该类型文件的最佳分割方式，并将待压缩文件按上述最佳分割方式分割为若干数据块，并在存储器中查找是否存在与分割后的数据块相同的数据块：存在相同数据块，则该数据块为重复数据；不存在相同数据块，则该数据块为不重复的数据。对于重复数据，不将其保存到储存器中，而是采用指针方式指向原已保存的相同数据块；对于不重复数据，则将其保存到存储器中。

与现有技术相比，本发明通过比较同类型数据中的同名文件的变化规律而获得体现该变化规律的相应数据块变化表，并通过分析数据块变化表求得该类型文件的最佳分割方式，利用该最佳分割方式能极大地提高重复数据的识别率及压缩率；此外，由于最佳分割方式是已经存储在类型分割信息库中的数据，所以，在进行重复数据压缩时，只需要调用该最佳分割方式分割数据，并按照分割后的数据块与存储器中的数据块作比较来判断其是否为重复数据，这样，每一数据块只需要判断一次就能得到其是否为重复数据，并据此进行压缩操作，因而该技术能最大限度地缩短重复数据的压缩时间。

附图说明

图1为比较某类型同名文件差异的流程图

图2为某类型文件的一个数据块变化表的示意图

图3为求得某类型文件的最佳分割方式的流程图

图4为求得某类型文件已知长度部分的最佳分割方式的示意图

图5为求得某类型文件未知长度部分的最佳分割方式的示意图

图6为更新某类型文件的最佳分割方式的示意图

图7为调用某类型文件的最佳分割方式压缩该类型文件的重复数据的流程图

具体实施例

下面结合附图对本发明作进一步的描述。

图1是一个比较某类型同名文件差异的流程图，简称比较程序流程图。图中所示的步骤用于比较某类型的同名文件发生变化时的变化规律，即哪些部分发生了变化，哪些部分没有发生变化，且将这样的变化规律表现为一个数据块变化表，同时在目标计算机的存储器上指定一个存储区域，用于保存被比较的文件及相应的数据块变化表。

图1所示的比较程序的具体步骤如下：

对于待比较的文件，首先获得该文件的文件类型，文件类型可通过文件扩展名或文件中的文件控制信息来判断；

然后，在目标计算机的存储区域中查找是否存在与待比较文件同名的文件：如果不存在同名文件，直接复制文件到目标计算机上的存储区域内并返回；

如果存在同名文件，则在源计算机获得待比较文件的文件属性，通过文件长度、最后修改时间、归档位等文件属性与目标计算机存储区域内已保存的同名文件进行比较，若比较的结果相同，表示该文件没有变化，在此情况下直接返回；

若比较结果不相同，表示该文件发生了变化，在此情况下，则比较待比较文件与其同名文件的差异，比较差异的算法可以是Rabin指纹算法、Delta差异算法、TTTD算法等。

比较差异后的结果保存为一个如图2所示的数据块变化表，同时将待比较文件复制到目标计算机存储区域内，替换已存在的与其同名的文件。

由于比较程序定期运行，故当其运行时，若待比较文件再次发生变化时，则按照图1所述的方法再次比较其变化规律并生成相应的新的数据块变化表。

图2为按照图1所述的方法比较某类型文件的两个同名文件之异同后产生的一个数据块变化表的示意图。

图2中，0表示两个同名文件的开始位置，其后的数值表示待比较文件与其同名文件产生差异的起点与终点位置；矩形图中的内容表示就两个相临数值之间得部分，待比较文件与其同名文件是否相同，例如，在[0，1024)之间的这部分，待处理文件与其同名文件是相同的；而[1024，2048)之间的这部分，二者是不相同的，即有差异的，这种差异可能是由于修改了文件内容或者新增了内容。这样，在比较任意两个同名文件时，其异同部分都可以用如图2所示的数据块变化表来描述，且由于每比较一次某类型文件的两个同名文件都会产生一个数据块变化表。这样，在目标计算机的存储区域内将会保存若干个某类型文件的数据库变化表，这些数据块变化表将在随后的分析程序中被用来求得该类型文件的最佳分割方式。

图3为通过分析某类型文件的所有数据块变化表求得该类型文件的最佳分割方式的流程图，简称分析程序流程图。最佳分割方式，是指将某类型的文件按某种方式分割为若干数据块，且利用分割后的数据块可最大程度地识别同类型文件中与其相同的数据块(即重复数据)，从而达到在更短的时间内提高重复数据压缩率的效果。

分析程序可在比较程序保存某类型文件的数据块变化表达到一定数量或在某个设定的时间启动。

分析程序的执行步骤如图3所示：

首先，收集某类型文件的所有数据块变化表；

然后，求得该类型文件所有数据块变化表的一个最佳分割方式，这个最佳分割方式我们称之为某类型文件长度已知部分的最佳分割方式；

随后，通过上述该类型文件长度已知部分的最佳分割方式来求得长度值大于该类型文件所有数据块变化表中文件长度值的该类型文件的最佳分割方式，此为某类型文件长度未知部分的最佳分割方式。

这样，某类型文件的最佳分割方式就包含了以下两种情况：

当某类型文件的文件长度值在该类型文件所有数据块变化表所涉的文件长度值之内时，使用该类型文件长度已知部分的最佳分割方式对其进行分割；

当某类型文件的长度大于该类型文件所有数据块变化表所涉的文件长度值，则在其所有数据块变化表所涉的文件长度值之内的部分使用该类型文件长度已知部分的最佳分割方式分割它，而其超过所有数据块变化表所涉的文件长度值的部分则使用该类型文件长度未知部分的最佳分割方式对其进行分割。

在分析程序中，本发明采用最小上限法在若干某类型文件的数据块变化表中求其最佳分割方式，也即求某类型文件长度已知部分的最佳分割方式的算法为最小上限法，且在最小上限法中，本发明约定了每一数据块的最小长度为512字节，最大长度为32768字节。

最小上限法的具体算法流程为：

第一步，取上限值。从某类型文件的所有数据块变化表中的每一数据块变化表的0字节开始，将各自的第一个数据块作为当前块，并取出各当前块的上限值。在取各当前块的上限值时，如果各当前块的上限值中有大于32768字节的，则将大于32768字节的当前块分割为等于或小于32768字节的数据块，并将前述的32768字节或小于32768字节的数值作为该当前块上限值。

第二步，取最小上限值。当各数据块变化表的当前块的上限值均大于512字节，选择其中一个最小值作为最小上限值；当各当前块的上限值都小于512字节时，则将各当前块与其下一临近块合并为一个新的当前块，当各合并后的新当前块的上限值均大于512字节时，取其中一个最小值作为最小上限值。

根据上述最小上限法的算法流程，设某类型文件的所有数据块变化表为2个时，则求其长度已知部分的最佳分割方式的步骤如图4所示：

首先，分别取出该类型文件的数据块变化表1的第一个块[0，1024)，数据块变化表2的第一个块[0，806)作为各自的当前块，则其各自当前块的上限值分别为：1024与806，由比较可知，数据块变化表1与数据块变化表2的当前块的最小上限值为806，则该二表当前块的最佳分割方式为[0，806)，据此，最佳分割方式的第二个块即从806开始，且数据块变化表1和数据块变化表2的第二个块的结束位置都在2048，则第二个数据块的最佳分割方式为[806，2048)，那么，第三个块就从2048开始，此时，数据块变化表1和数据块变化表的下一结束位置分别为3000和3550，根据最小上限法取二者最小值，所以第三个数据块的最佳分割方式为[2048，3000)，依次类推，可以得到每一个块的最佳分割方式。所有块的最佳分割方式的组合即为该类型文件已知长度部分的最佳分割方式。

在获得某类型文件长度已知部分的最佳分割方式后，分析程序将根据该部分的最佳分割方式来求取其长度未知部分的最佳分割方式。其处理流程为：

将某类型文件的所有数据块变化表中最大的一个文件长度值除以该类型文件长度已知部分的最佳分割方式的总块数，得出该类型文件长度已知部分的数据块平均间距值；

利用该数据块平均间距值求得最接近1024倍数的数值作为该类型文件长度未知部分的数据块固定分割长度，按此固定长度分割该类型文件长度未知部分即为该类型文件长度未知部分的其最佳分割方式。

图5为如何利用某类型文件已知长度部分的最佳分割方式来求得其未知长度部分的最佳分割方式的示意图。例如，利用图4中的两个数据块变化表中的一个最大文件长度值8400与其长度已知部分的最佳分割方式中的文件总块数7相除，可以得出该类型文件长度已知部分的数据块平均间距值为1200。当数据块平均间距值为1200时，其最接近1024倍数的数值为1024，那么，我们就将1024的固定分割长度作为该类型文件长度未知部分的该类型文件的最佳分割方式。由此，我们称在某类型文件的所有数据块变化表中的一个最大文件长度值以内的部分为该类型文件的长度已知部分；超过前述最大值的部分为该类型文件长度未知部分。在图4所示的情况下，当某类型的文件长度在8400字节以上时，超过8400字节的文件部分即被视为某类型文件的长度未知部分；8400字节以内的部分为该类型文件的长度已知部分。该文件类型的最佳分割方式为：其长度已知部分按图4的最佳分割方式分割，长度未知的部分则按图5求得的1024的固定分割长度分割。

在求得某类型文件的长度已知部分和其长度未知部分的最佳分割方式后，用于求得该最佳分割方式的所有数据块变化表将被删除，且该类型文件的最佳分割方式将被保存在类型分割数据库中。

如前所述，分析程序可在比较程序保存某类型文件的数据块变化表达到一定数量或在某个设定的时间启动，这就意味着，分析程序在经过一定的时期后将会被再次启动。当分析程序再次启动时，若发现存在比较程序在比较新的同名文件后得到的新的数据块变化表时，就会执行如图6所示的更新某类型文件的最佳分割方式的步骤。

图6中，我们设分析程序仅收集到一个某类型文件的新的数据库变化表，那么更新的具体步骤为：

将原来储存在类型信息库中的某类型文件的最佳分割方式视为一个数据块变化表；

利用前述分析程序求得其与新产生的数据块变化表的最佳分割方式，此即为更新后的某类型文件的最佳分割方式。

某类型文件的最佳分割方式的更新可以按上述操作重复进行。

图7为调用类型信息库中的某类型文件的最佳分割方式实现重复数据压缩的流程图，简称压缩程序流程图，其详细步骤如下：

对于待压缩文件，压缩程序首先获得其文件名，并根据文件名的扩展名或者文件中的文件控制信息来判断文件的类型；

得到待压缩文件的文件类型后，从类型分割信息库中调用该类型文件的最佳分割方式将待压缩文件内容按该最佳分割方式分割为若干数据块，并依次将这些数据块从硬盘装载到内存；

将加载到内存的数据块逐一按如下方式处理：

首先，使用散列算法为每一数据块生成一个标识符(散列算法可为MD5或SHA1、SHA2等)，该标识符与数据块的关系为唯一对应关系。

其次，数据压缩程序将根据数据块的标识符在存储器的关系数据库中或自行实现的数据结构中查找是否已经存在相同的标识符，如果不存在相同的标识符，数据压缩程序将数据块保存在存储器上，并将数据块的保存位置和与其对应的标识符存储在关系数据库或自行实现的数据结构中，以便将来再次查找；

如果存在相同标识符，则表明该数据块已经保存在存储器上，数据压缩程序在目标计算机上获得该标识符对应的数据块在存储器上的位置信息，并仅保存该位置信息，这样可以避免相同内容的数据块的再次传输及存储，从而节约压缩时间。

Claims

1.一种重复数据的压缩方法，该方法包括一个比较过程、一个分析过程和一个压缩过程，其特征为以下步骤：

a)所述比较过程比较相同类型的同名文件发生变化时的异同情况，并将能体现所述变化时的异同情况的差异结果保存为一个数据块变化表；

b)所述分析过程分析同类型文件的所有数据块变化表以获得该类型文件的最佳分割方式，并将其保存于类型分割信息库；

其中，所述最佳分割方式是指将某类型文件按某种方式分割为若干数据块，且利用分割后的数据块可最大程度地识别同类型文件中与其相同的数据块的分割方式，包括：该类型文件长度已知部分的最佳分割方式，以及该类型文件长度未知部分的最佳分割方式；

所述该类型文件长度已知部分的最佳分割方式为：从该类型文件的所有数据块变化表中的每一数据块变化表的0字节开始，将各数据块变化表的第一个数据块作为当前块，并取出当前块的上限值，选择各数据块变化表的当前块中一个最小值作为上限值，以该上限值作为第一个数据块的结束位置，以及第二个数据块的开始位置，依次类推，所得到的所有数据块的最佳分割方式的组合；

所述该类型文件长度未知部分的最佳分割方式为：以该类型文件长度已知部分最佳分割方式分割的数据块的平均间距值以内，最接近1024的倍数的值，作为该类型文件长度未知部分的数据块固定分割长度的分割方式；

c)在进行数据压缩时，所述压缩过程首先判断待压缩文件的类型，然后根据该文件类型从类型分割信息库中调用该类型文件的最佳分割方式，并将待压缩文件按该最佳分割方式分割为若干数据块，查找是否存在与分割后的数据块相同的数据块，若存在相同的数据块，则该数据块为重复数据，对于重复数据，不将其保存到存储器中，而是采用指针方式指向原已保存的相同数据块，对于不重复数据，则保存到存储器中。

2.根据权利要求1所述的方法，其中所述的类型分割信息库是指保存所有类型文件的最佳分割方式的一个数据库。

3.根据权利要求1所述的方法，其特征为，步骤a)所述的比较过程的步骤为：

对于待比较的文件，首先获得该文件的文件类型；

如果存在同名文件，则比较二者的差异，并将差异结果保存为一个数据块变化表，同时将待比较文件复制到目标计算机的存储区域内，替换已存在的与其同名的文件。

4.根据权利要求3所述的方法，若比较过程再次运行时，待比较文件再次发生变化，则再次比较两个同名文件的变化规律并生成相应的新的数据块变化表。

5.根据权利要求1所述的方法，其特征为，步骤b)所述的分析过程的步骤为：

首先，收集某类型文件的所有数据块变化表；

然后，根据该类型文件所有数据块变化表求得该类型文件长度已知部分的最佳分割方式；

随后，通过上述该类型文件长度已知部分的最佳分割方式来求得长度值大于该类型文件所有数据块变化表中文件长度值的该类型文件长度未知部分的最佳分割方式。

6.根据权利要求1或者权利要求5所述的方法，其中，当某类型文件的文件长度值在该类型文件所有数据块变化表所涉的文件长度值之内，则使用该类型文件长度已知部分的最佳分割方式分割；

当某类型文件的长度大于该类型文件所有数据块变化表所涉的文件长度值，则在其所有数据块变化表所涉的文件长度值之内的部分使用该类型文件长度已知部分的最佳分割方式分割，而超过所有数据块变化表所涉的文件长度值的部分则使用该类型文件长度未知部分的最佳分割方式分割。

7.根据权利要求5所述的方法，其特征为，分析过程可以在比较程序保存某类型文件的数据块变化表达到一定数量或者在某个设定的时间启动，且分析过程可以重复启动。

8.根据权利要求7所述的方法，其特征为，当分析过程重复启动时，若发现存在新的数据块变化表，则执行更新某类型文件的最佳分割方式的步骤。

9.根据权利要求8所述的方法，当执行更新某类型文件的最佳分割方式的步骤时，其技术要点为：将已存在的某类文件的最佳分割方式作为一个数据块变化表，并将其与新的数据块变化表按分析过程的步骤求得新的最佳分割方式，此即为更新后的某类型文件的最佳分割方式。

10.根据权利要求9所述的方法，其特征为，某类型文件的最佳分割方式的更新操作可重复进行。

11.根据权利要求5所述的方法，其特征为，其中利用该类型文件长度已知部分的最佳分割方式求其长度未知部分的最佳分割方式的步骤为：

将该类型文件的所有数据块变化表中最大的一个文件长度值除以该类型文件长度已知部分的最佳分割方式的总块数，得出该类型文件长度已知部分的数据块平均间距值；

利用该数据块平均间距值求得最接近某一数值倍数的值作为该类型文件长度未知部分的数据块固定分割长度；

按该固定长度分割该类型文件长度未知部分即为该类型文件长度未知部分的其最佳分割方式。

12.根据权利要求5所述的方法，其特征为，在求得该类型文件的长度已知部分和其长度未知部分的最佳分割方式后，用于求得该最佳分割方式的所有数据块变化表被删除，且该类型文件的最佳分割方式被保存于类型分割信息库。

13.根据权利要求1所述的一种重复数据压缩方法，其特征为，步骤c)所述的压缩过程的步骤为：

对于待压缩文件，首先获得其文件名，并判断其文件类型；

在获得文件类型后，从类型分割信息库中调用该类型文件的最佳分割方式将待压缩文件按该最佳分割方式分割为若干数据块，并依次将这些数据块从硬盘装载到内存；

将加载到内存的数据块逐一按如下方式处理：

首先，使用散列算法为每一数据块生成一个标识符，该标识符与数据块的关系为唯一对应关系；

其次，根据数据块的标识符在存储器上查找是否已经存在相同标识符，如果不存在相同的标识符，则将数据块和及其存储位置和与其对应的标识符保存在存储器上；

如果存在相同标识符，则在目标计算机上获得该标识符对应的数据块在存储器上的位置信息，并仅保存该位置信息。

14.根据权利要求13所述的方法，其特征为，所述压缩过程中，根据文件名的扩展名或者文件中的文件控制信息来判断文件的类型。