CN109408288A

CN109408288A - 一种打包文件备份过程中数据去重碎片消除方法

Info

Publication number: CN109408288A
Application number: CN201811148083.3A
Authority: CN
Inventors: 王芳; 左春雪; 胡燏翀; 冯丹; 张宇成
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2018-09-29
Filing date: 2018-09-29
Publication date: 2019-03-01
Anticipated expiration: 2038-09-29
Also published as: CN109408288B

Abstract

本发明公开了一种打包文件备份过程中数据去重碎片消除方法，由于打包数据集的特性，导致大量被重写的碎片块在之后的备份过程中，仍然被识别为碎片块，因此被重写算法不断地重复重写，这种被反复重写的碎片块，我们称为持久性碎片块，它会严重降低系统的恢复性能。因此我们首先识别持久性碎片块，然后构建了碎片容器用于存储持久性碎片块、正常容器用于存储非持久性碎片块。大量持久性碎片块不是碎片块，写入碎片块数量会减小，容器的平均利用率会增加，重复重写率得到下降；容器包含了更多的有效块，需要读取的容器数量减少了，恢复性能得到显著提高。

Description

一种打包文件备份过程中数据去重碎片消除方法

技术领域

本发明属于计算机存储技术领域，更具体地，涉及一种打包文件备份过程中数据去重碎片消除方法。

背景技术

重复数据删除技术(去重技术)是在现代备份系统中消除冗余数据节省空间最为有效的方法，它是一种无损压缩技术，可以有效的节省系统的存储空间。去重技术首先将文件分成等长或者变长的数据块，然后使用哈希算法来计算每个数据块的指纹，通过比对指纹值来确定数据块是否重复。近年来，备份系统正在越来越广泛地应用于恢复损坏的数据，备份系统将文件切分成可变长度的块，使用哈希算法(例如，MD5、SHA1、SHA256)计算每个块的指纹，并通过在指纹索引中查找相同的指纹来识别重复的块。在备份过程中，只有唯一块(不是重复的块)会被写入容器中。当容器已经写满时，系统会将写满的容器刷新到存储设备中。在恢复的过程中，容器根据备份流的指纹序列提供备份流所需的数据块。由于重复的数据块被移除，文件中唯一块在经过多次备份之后会分散在不同容器中，本文称这种现象为碎片化现象，其中影响该现象产生的数据块称为碎片块。在恢复文件的时候，碎片块会产生大量的磁盘查询(寻道)操作。由于磁盘的随机读写，因此碎片会严重影响系统的恢复性能。

因此，为了提高备份系统的恢复性能，重写算法CBR、CAP和HAR识别和重写碎片块来解决碎片问题。然而，对于典型的备份存储负载，现有的重写算法无法实现减少碎片块的目标。比如，在备份系统中，大约60％的文件都小于10KB。为了减少元数据开销并实现高吞吐量，一些备份软件例如EMC NetWorker或Symantec NetBackup备份软件通常将一个备份系统中很多小文件聚集成大文件，再将这些大文件存储在磁盘中。这种聚集类似于UNIX系统中对文件进行打包操作。

然而，在打包文件中，由于文件头的时间戳一项被经常修改，使得在备份过程中会出现一种现象，重复的数据块总是被夹在两个修改的区域之间。因此，重复块总会被认为是碎片块并且重复地被重写到容器中。这些重复重写的块被称为持久性碎片块，它们不但会严重干扰碎片块的识别，从而降低恢复性能，而且，大量的持久性碎片块也使得现有的HAR重写算法无法实现恢复性能的提高。

发明内容

针对现有技术的缺陷，本发明的目的在于解决现有的重写算法会产生大量的持久性碎片块、恢复性能过低的技术问题。

为实现上述目的，第一方面，本发明实施例提供了一种打包文件备份过程中数据去重碎片消除方法，该方法包括以下步骤：

S1.打包文件分块后，计算每个数据块的指纹；

S2.基于指纹比对判断数据块为重复块还是唯一块并标记，将标记后的数据块写入同一队列；

S3.判断所述队列中数据块为重复块还是唯一块，若为重复块，进入步骤S4，若为唯一块，将其写入正常容器；

S4.判断所述重复块为碎片块还是非碎片块，若为碎片块，进入步骤S5；若为非碎片块，不做任何处理；

S5.判断所述碎片块为持久性碎片块还是非持久性碎片块，若为持久性碎片块，将其写入碎片容器，若为非持久性碎片块，将其写入正常容器；

S6.如果碎片容器的大小达到容器的预设值，将所述碎片容器缓冲区中的数据将被直接刷新到磁盘中；如果正常容器的大小达到容器的预设值，将所述正常容器缓冲区中的数据将被直接刷新到磁盘中；

S7.重复步骤S3-S6直至所述队列中的数据块均处理。

更具体地，步骤S1具体如下：

将打包数据集中的打包文件分成定长或者变长的数据块，计算每个数据块的指纹。

更具体地，步骤S2具体如下：

将每个数据块的指纹与存储系统中已存储的数据块的指纹进行对比，指纹相同的数据块即为重复块，标记为1；指纹不同的数据块即为唯一块，标记为0；将标记后的重复块和唯一块写入同一队列中。

更具体地，重写算法将需要重写的重复块标记为碎片块。

更具体地，重写算法包括CBR、CAP或HAR。

更具体地，步骤S4还包括将识别出的碎片块的指纹同时加入到碎片哈希表Htable_fragment_all和Htable_fragment_current中，其中，碎片哈希表Htable_fragment_all用来存储所有已经备份完成的数据流的碎片信息，碎片哈希表Htable_fragment_current用来存储当前备份的碎片信息。

更具体地，所述判断所述碎片块为持久性碎片块还是非持久性碎片块，具体如下：

在写入数据块之前，对比Htable_fragment_current哈希表中当前数据块的指纹和Htable_fragment_all哈希表中所有数据块指纹，若当前数据块的指纹存在于Htable_fragment_all哈希表中，则所述碎片块即为持久性碎片块，否则，所述碎片块为非持久性碎片块。

更具体地，唯一块写入正常容器的写入信息包括：唯一块的指纹、其在正常容器的偏移量以及唯一块的大小；持久性碎片块写入碎片容器的写入信息包括：持久性碎片块的指纹、其在碎片容器的偏移量以及持久性碎片块的大小；非持久性碎片块写入正常容器的写入信息包括：非持久性碎片块的指纹、其在正常容器的偏移量以及非持久性碎片块的大小。

更具体地，步骤S1-S7对应一个打包文件的备份，打包数据集中的每个打包文件的备份均采用步骤S1-S7。

第二方面，本发明实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述第一方面所述的数据去重碎片消除方法。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

本发明利用打包数据集的特性，将数据块划分为重复块和唯一块，将重复块划分为碎片块和非碎片块，将碎片块划分为持久性碎片块和非持久性碎片块，并构建了碎片容器用于存储永久性碎片块、正常容器用于存储唯一块和非永久性碎片块，非碎片块的重复块不做任何处理。大量持久性碎片块不是碎片块，写入碎片块数量会减小，容器的平均利用率会增加，重复重写率得到下降；容器包含了更多的有效块，需要读取的容器数量减少了，恢复性能得到显著提高；与此同时，与现有重写算的去重率保持相当的水平。

附图说明

图1为本发明提供的一种打包文件备份过程中数据去重碎片消除方法流程图；

图2为本发明提供的整个去重系统结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

概念解释如下：

打包数据集：备份负载通常使用打包工具将很多小文件打包成大文件，从而减少元数据开销和提高系统吞吐量，因此，打包文件普遍存在于备份系统中，打包数据集包括多个按时间备份的打包文件。一个打包文件是由一系列文件单元组成，每个文件单元都包含文件头和数据块，文件头，即文件元数据，放置在数据块之前，包含文件名，文件大小，文件路径，文件所有者和文件修改时间等。然而每个文件元数据会频繁的改变，不可避免地导致在对数据文件分块后，使得没有改变数据部分，即重复块，总是夹在两个改变的数据块，即唯一块之间，这种特性导致重复块总是被当成碎片块，因此被重写算法不断地重复重写。

碎片哈希表Htable_fragment_all：用来存储所有已经备份完成的数据流的碎片信息，其存在于整个打包数据集的备份过程中。

碎片哈希表Htable_fragment_current：用来存储当前备份的碎片信息，其在当前打包文件备份后销毁，下一个打包文件备份时再重新创建。

碎片容器：用来存储持久性碎片块。

正常容器：用来存储非持久性碎片块和唯一块。

图1为本发明提供的一种打包文件备份过程中数据去重碎片消除方法流程图。如图1所示，该方法包括以下步骤：

S1.打包文件分块后，计算每个数据块的指纹；

S7.重复步骤S3-S6直至所述队列中的数据块均处理。

步骤S1.打包文件分块后，计算每个数据块的指纹。

将打包数据集中的打包文件分成定长或者变长的数据块，计算每个数据块的指纹，例如使用哈希算法MD5。

步骤S2.基于指纹比对判断数据块为重复块还是唯一块并标记，将标记后的数据块写入同一队列；

将每个数据块的指纹与存储系统中已存储的数据块的指纹进行对比，具体如下：假定在第1个打包文件备份之前，存储系统未存储任何数据。第1个打包文件备份后，其数据块的指纹被保存在存储系统中。然后对第2个打包文件进行备份，将第2个打包文件的数据块指纹与存储系统中已存储的数据块的指纹进行对比，即第1个打包文件的数据块指纹。指纹相同的数据块即为重复块，标记为1；指纹不同的数据块即为唯一块，标记为0；将标记后的重复块和唯一块写入同一队列中。

步骤S3.判断所述队列中数据块为重复块还是唯一块，若为重复块，进入步骤S4，若为唯一块，将其写入正常容器。

根据标记为1还是0判断所述队列中将被写入的数据块为重复块还是唯一块。唯一块写入正常容器时，写入信息包括：唯一块的指纹、其在正常容器的偏移量以及唯一块的大小。

步骤S4.判断所述重复块为碎片块还是非碎片块，若为碎片块，进入步骤S5；若为非碎片块，不做任何处理。

图2为本发明提供的整个去重系统结构示意图。如图2所示，重写算法将需要重写的重复块标记为碎片块，例如，Context-based Rewriting(CBR)、Capping(CAP)还是History-Aware Rewriting(HAR)。其原理为：判断所述重复块所在容器的使用率是否小于50％，若是，则所述重复块为碎片块；否则，所述重复块为非碎片块。将识别出的碎片块的指纹同时加入到碎片哈希表Htable_fragment_all和Htable_fragment_current中。

步骤S5.判断所述碎片块为持久性碎片块还是非持久性碎片块，若为持久性碎片块，将其写入碎片容器，若为非持久性碎片块，将其写入正常容器。

持久性碎片块写入碎片容器时，写入信息包括：持久性碎片块的指纹、其在碎片容器的偏移量以及持久性碎片块的大小。

非持久性碎片块写入正常容器时，写入信息包括：非持久性碎片块的指纹、其在正常容器的偏移量以及非持久性碎片块的大小。

步骤6.如果碎片容器的大小达到容器的预设值，将所述碎片容器缓冲区中的数据将被直接刷新到磁盘中；如果正常容器的大小达到容器的预设值，将所述正常容器缓冲区中的数据将被直接刷新到磁盘中。

碎片容器或正常容器的容器预设值的取值范围均为4MB-8MB，优选为4MB。

步骤S7.重复步骤S3-S6直至所述队列中的数据块均处理。

所述队列中的数据块均处理之时，当前打包文件备份完成。步骤S1-S7对应一个打包文件的备份，打包数据集中的每个打包文件的备份均采用步骤S1-S7。

本发明采用两种评价指标：去重率De和重复重写率p，计算公式如下：

De＝打包文件去重后的数据块总大小/打包文件原始数据块的总大小；

p＝当前备份中持久性碎片块总大小/当前备份中所有碎片块总大小。

在本实施例中，使用现有重写算法方法中和本发明提出的方法对打包数据集进行备份。在本实施例中，本发明实施例是在开源去重系统Destor上实现的，使用Rabin指纹分块算法将文件分割成可变长度的块，平均大小为8KB。假设指纹索引默认存储在内存中，默认容器大小为4MB，缓存的大小设置为256MB，默认缓存算法为OPT。为了更好地评估本发明的效率，在去重系统Destor上实现了本发明方法，本方法与现有重写算法方法CBR、CAP和HAR进入比较。本发明方法测试都在Ubuntu 12.04.2操作系统上进入，该操作系统具有16GB内存、3.4GHz的四核Intel i7-4770处理器。本发明方法与现有重写算法方法针对三个典型数据集Linux、WEBS和GCC对进入测试比较，实验结果如表1所示。这里以使用HAR重写算法为例

表1

本发明方法与现有重写算法方法CBR、CAP和HAR针对上述典型数据集进入测试，试验结果表明：

1.本发明方法与现有重写算法方法在去重率方面进入对比，去重率几乎相同；

2.本发明方法与现有重写算法方法在重复重写率方面进入对比，使用本发明方法导致大量持久性碎片块不是碎片块，容器的平均利用率会增加，重复重写率得到明显降低；

3.本发明方法与现有重写算法方法在恢复性能方面进入对比，本发明方法恢复性能得到了显著地提升。

以上，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化还是替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种打包文件备份过程中数据去重碎片消除方法，其特征在于，该方法包括以下步骤：

S1.打包文件分块后，计算每个数据块的指纹；

S3.判断所述队列中的数据块为重复块还是唯一块，若为重复块，进入步骤S4，若为唯一块，将其写入正常容器；

S7.重复步骤S3-S6直至所述队列中的数据块均处理。

2.如权利要求1所述的数据去重碎片消除方法，其特征在于，步骤S1具体如下：

3.如权利要求1所述的数据去重碎片消除方法，其特征在于，步骤S2具体如下：

4.如权利要求1所述的数据去重碎片消除方法，其特征在于，重写算法将需要重写的重复块标记为碎片块。

5.如权利要求4所述的数据去重碎片消除方法，其特征在于，重写算法包括CBR、CAP或HAR。

6.如权利要求1所述的数据去重碎片消除方法，其特征在于，步骤S4还包括将识别出的碎片块的指纹同时加入到碎片哈希表Htable_fragment_all和Htable_fragment_current中，其中，碎片哈希表Htable_fragment_all用来存储所有已经备份完成的数据流的碎片信息，碎片哈希表Htable_fragment_current用来存储当前备份的碎片信息。

7.如权利要求6所述的数据去重碎片消除方法，其特征在于，所述判断所述碎片块为持久性碎片块还是非持久性碎片块，具体如下：

8.如权利要求1所述的数据去重碎片消除方法，其特征在于，唯一块写入正常容器的写入信息包括：唯一块的指纹、其在正常容器的偏移量以及唯一块的大小；持久性碎片块写入碎片容器的写入信息包括：持久性碎片块的指纹、其在碎片容器的偏移量以及持久性碎片块的大小；非持久性碎片块写入正常容器的写入信息包括：非持久性碎片块的指纹、其在正常容器的偏移量以及非持久性碎片块的大小。

9.如权利要求1所述的数据去重碎片消除方法，其特征在于，步骤S1-S7对应一个打包文件的备份，打包数据集中的每个打包文件的备份均采用步骤S1-S7。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至9任一项所述的数据去重碎片消除方法。