CN104361068B

CN104361068B - 一种数据去重过程中的并行分块方法与系统

Info

Publication number: CN104361068B
Application number: CN201410621223.XA
Authority: CN
Inventors: 冯丹; 夏文; 张宇成; 付忞
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2014-11-06
Filing date: 2014-11-06
Publication date: 2017-06-16
Anticipated expiration: 2034-11-06
Also published as: CN104361068A

Abstract

本发明公开了一种数据去重过程中的并行分块方法，其特征在于，包括：(1)将数据流中的文件分成多个定长的数据段，所述数据段的长度大于数据分块的最大块长；(2)利用计算机多核处理器并行对每个数据段进行分块，每个数据段都通过分块获得多个数据块；(3)将最后一个数据段除外的每个数据段的最后一个数据块与后一个数据段的第一个数据块进行边界衔接处理。本发明提出的并行分块方法，采用一种新颖的边界衔接方法解决了传统分块方法的依赖性问题，以极小的去重率损失为代价，使得数据分块能并行进行，突破了数据去重计算的性能瓶颈。

Description

一种数据去重过程中的并行分块方法与系统

技术领域

本发明属于计算机存储技术领域，更具体地，涉及一种数据去重过程中的并行分块方法与系统。

背景技术

近年来，随着互联网的普及和发展，数据信息存储量呈爆炸式增长。据IDC权威统计，预计到2020年，全球的信息总量将达到44ZB。传输和存储如此大量的数据给研究人员提出了挑战。IDC分析表明，75％的信息是冗余的重复数据。因此，数据去重(或者称重复数据删除，Data Deduplication)作为一种能够有效地消除冗余数据的技术，成为了近年来存储领域的研究热点。数据去重技术不仅能够节省存储空间，而且避免了冗余数据的重复传输而节省网络带宽。由于其有效性，数据去重技术已被EMC、IBM、HP、Microsoft、NEC等知名计算机公司应用于存储产品当中。

数据去重技术是一种已经广泛应用于数据备份和归档产品的智能高效的无损数据压缩技术。该技术首先对文件进行分块(平均块长为约8KB)，然后计算这些数据块的指纹(比如计算SHA-1哈希摘要)，通过匹配指纹值来确定数据块是否重复。

虽然数据去重技术已发展多年，但是仍然面临着诸多挑战，特别是在对吞吐率要求严格的高性能存储系统中。一般来说，数据去重技术可以分为四个阶段：数据分块、指纹计算、指纹索引和存储。其中前两个过程(数据分块和指纹计算)需要占用大量的CPU，因此吞吐率较低。相对来说，分块的吞吐率又比指纹计算的更低，是整个数据去重系统写入过程的性能瓶颈。现有的解决方案是流水化并行处理数据去重的四个阶段。这样可以并行化处理数据分块和指纹计算，加速数据去重计算速度。但是这样数据分块操作仍然是数据去重流水线操作后的性能瓶颈，如何进一步内部并行数据去重的分块操作，成为了现在的研究热点。

虽然现代计算机系统的处理器都是多核心，并行处理能力强，但是数据分块是有前后切点的依赖关系的。尤其是现在主流的数据去重系统在分块过程中添加了最小和最大块长限制，这样使得数据分块的前后依赖关系更加明显。如何在并行分块的过程中遵循这些依赖关系，而且保证并行分块的效果与传统线性执行分块的效果一致，是并行分块算法的关键。

由此可见，研究数据去重技术中的无损的并行分块，对于提高数据去重系统吞吐率从而进一步改进存储系统性能具有重要意义。

发明内容

本发明的目的在于提供一种数据去重过程中的并行分块方法，这种方法适用于分块过程中有最大值和最小值限制的数据去重系统。该发明使得数据去重的分块操作能并行进行，从而获得数据去重系统吞吐率的提升。同时该发明获得与线性分块近似相同的数据分块效果，从而仅损失极少量的去重率。

为了实现上述目的，按照本发明的一个方面，提供了一种数据去重过程中的并行分块方法，包括以下步骤：

(1)将数据流中的文件分成多个定长的数据段，数据段的长度大于数据分块的最大块长；

(2)利用计算机多核处理器并行对每个数据段进行分块，每个数据段都通过分块获得多个数据块；

(3)将除最后一个数据段之外的每个数据段的最后一个数据块与后一个数据段的第一个数据块进行边界衔接处理(即重新分块和拼接)，以获得与传统的线性分块相近的分块效果，从而减少数据去重率的损失。这里假定需要衔接的前后数据段是A_n和B_n，那么并行分块后数据段A_n的最后一个切点为X，Y是数据段A_n和B_n的边界点，数据段B_n的前两个分块切点为Z和N。其中本发明提出的重新分块的区域为数据段B_n的开始的L_min个字节，数据块的最小和最大块长限制分别为L_min和L_max个字节。数据段边界衔接处理可分为五种情况：

(3-1)若在从B_n开始的L_min区域内找到满足分块要求的切点O，而且OZ大于等于最小块长L_min，则将Z作为下一个分块切点；

(3-2)若在从B_n开始的L_min区域内找到满足分块要求的切点O，而且OZ小于最小块长L_min，则将N作为下一个分块切点；

(3-3)若没有在B_n开始的L_min区域内找到分块的切点，而且XZ小于最大块长L_max，则将Z作为下一个分块切点；

(3-4)若没有在B_n开始的L_min区域内找到分块的切点，而且XZ大于最大块长L_max且小于L_min+L_max(最大块长加最小块长)，则将离X点距离为L_max的O(XO＝L_max)作为分块切点，且认为O的下一个分块点为N；

(3-5)若没有在B_n开始的L_min区域内找到分块的切点，而且XZ大于L_min+L_max(最大块长加最小块长)，则将离X点距离为L_max的O(XO＝L_max)作为分块切点，且认为O的下一个分块点为Z。

这五种情况中，情况(3-1)、(3-3)、(3-5)将获得与传统线性分块算法相同的分块效果，情况(3-2)和(3-4)将可能获得不同的分块效果，这两种情况根据我们的理论分析和实验观察，发生的概率很小(约为5％)，影响的数据范围也很小(只是每个数据段的边界部分)，因此最终对数据去重率影响小于0.01％，可以忽略。

所以本发明的并行分块算法通过有效的数据段并行分块计算，然后对数据段边界两个数据块衔接(重新分块然后拼接)，在保证充分并行化分块计算的同时，获得了与传统的线性分块算法近似相同的分块效果，最后对数据去重系统损失的去重率极少。

在本发明的一个实施例中，所述步骤(3-3)中判断是否在B_n开始的L_min区域内找到满足分块要求的切点具体为：使用一个滑动窗口对B_n开始的L_min区域进行滑动分块判断：分块算法计算滑动窗口内容的哈希值，如果该哈希值满足分块的预定义要求，则认为这是一个满足要求的分块切点；如果不满足，则认为这不是一个满足要求的分块切点。

在本发明的一个实施例中，所述数据段的长度为2MB，所述数据块的分块平均块长为8KB，最小块长和最大块长限制分别为2KB和64KB。

按照本发明的另一方面，还提供了一种数据去重过程中的并行分块系统，所述系统包括数据分段模块、数据并行分块模块以及边界衔接处理模块，其中：

所述数据分段模块，用于将数据流中的文件分成多个定长的数据段，所述数据段的长度大于数据分块的最大块长；

所述数据并行分块模块，用于利用计算机多核处理器并行对每个数据段进行分块，每个数据段都通过分块获得多个数据块；

所述边界衔接处理模块，用于将除最后一个数据段之外的每个数据段的最后一个数据块与后一个数据段的第一个数据块进行边界衔接处理，其中A_n和B_n是需要衔接的前后数据段，X为数据段A_n的最后一个切点，Y为数据段A_n和B_n的边界点，Z和N为数据段B_n的前两个分块切点，数据块的最小和最大块长限制分别为L_min和L_max个字节，边界衔接处理分为下述五种情况：

若在从B_n开始的L_min区域内找到满足分块要求的切点O，而且OZ大于等于最小块长L_min，则将Z作为下一个分块切点；

若在从B_n开始的L_min区域内找到满足分块要求的切点O，而且OZ小于最小块长L_min，则将N作为下一个分块切点；

若没有在B_n开始的L_min区域内找到满足分块要求的切点，而且XZ小于最大块长L_max，则将Z作为下一个分块切点；

若没有在B_n开始的L_min区域内找到满足分块要求的切点，而且XZ大于最大块长L_max且小于L_min+L_max，则将离X点距离为L_max的点O作为分块切点，且认为O的下一个分块点为N；

若没有在B_n开始的L_min区域内找到满足分块要求的切点，而且XZ大于L_min+L_max，则将离X点距离为L_max的点O作为分块切点，且认为O的下一个分块点为Z。

与现有技术相比，本发明具有如下有益效果：

1、本发明提出的并行分块方法，采用一种新颖的边界衔接方法解决了传统分块方法的依赖性问题，以极小的去重率损失为代价，使得数据分块能并行进行，突破了数据去重计算的性能瓶颈；

2、本发明提出的并行分块方法，可以和传统的数据去重流水线技术结合起来，使得数据去重系统吞吐率随着计算机处理器核数而线性增加。

附图说明

图1为本发明的数据去重流水线图；

图2为基于内容分块的示意图；

图3为本发明的并行分块流程图；

图4为本发明的并行分块衔接的工作原理图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明所述的方法适用于带有多核处理器的数据去重系统。数据去重技术的性能瓶颈在数据分块和指纹计算环节，尤其是数据分块的速度慢。为了提高系统的整体吞吐率，可以将分块操作和指纹计算并行处理。如图1所示，用户申请备份的文件被并行分块、并行计算指纹。不仅如此，系统还将四个阶段(即数据分块、指纹计算、指纹索引和存储)流水化处理，这样可以最大化系统的整体性能。图2给出了数据分块的示意图，数据去重系统使用一个滑动窗口进行分块操作：具体而言：分块算法计算滑动窗口内容的哈希值，如果该哈希值满足分块的预定义要求，则认为这是一个分块切点；如果不满足，则认为这不是一个分块切点。

为了进一步消除数据去重的计算瓶颈，本发明提出进一步并行化分块计算，然后再衔接边界上的两个数据块，从而获得与传统的线性分块近似的数据分块效果。为了避免分块的过程中出现个别的数据块过长或过短，现在主流的数据去重系统会在分块的过程中加上最小和最大块长限制(目前主流的去重系统，采用平均分块大小8KB，最小块长和最大块长限制分别为2KB和64KB)。而这两个限制的存在使得并行数据去重系统的数据分块环节成为了难点，因为数据分块的切点判断是有依赖性的，后一个切点的判断要依赖于前一个切点的位置。本发明也在于解决这一过程的并行计算实现问题。

本发明所用的方法先将数据流中的各个文件分割成定长的段，之后让各个段并行进行分块；因为分块的各个切点间具有依赖性，在未确定前面的切点位置的情况下对后面的数据进行分块会有很大的去重率损失，为了解决这个问题，该分块算法在各个数据段并行分块后，对前一个数据段的最后一个块和后一个数据段的第一个块进行边界衔接。如图3所示，A和B是由同一文件分割出来的两个相邻的数据段。A和B被并行分块处理产生了数据块A₁,A₂,……,A_n以及B₁,B₂,……,B_n。接下来要对A_n和B₁进行边界衔接(即重分块和拼接)。

本发明将边界衔接的情况划分成5类，对于不同的分类采取不同的衔接操作，以求能最大限度地减少去重率损失。这里假设采用普遍使用的数据去重分块配置：平均块长为8KB，最小块长和最大块长限制分别为2KB和64KB。

如图4所示，节点Y为两个并行分块计算的数据段的边界点，则因为最小块长的原因，并行分块在数据段B的前2KB大小区域[Y,Y¹]内不会有切点(即分块的点)；然而传统线性分块的起点是X点而不是Y点，所以在此区间内可能有切点Q。所以本发明提出对区域[Y,Y¹]进行重新分块计算，然后基于这个分块结果进行并行分块之后的衔接。

从数据段B_n开始重新分块的第一个切点用O表示(这里O等于Q)，第二个可能的切点是O¹，而Z和N是并行分块的前两个切点；如果O¹与Z或者N重合的话就表示并行分块获得了传统线性分块一样的分块效果，即没有数据去重率的损失。本发明把边界衔接分为以下五类：

(1)切点O∈[Y,Y¹]，OZ≥2KB。这种情况，O¹与Z重合。所以A_n和B₁的边界(即XY和YZ)衔接后生成的新数据块为XO和OZ。

(2)切点O∈[Y,Y¹]，OZ<2KB。这种情况，O¹肯定不与Z重合，而可能与N重合。所以A_n和B₁的边界(即XY和YZ)衔接后生成的新数据块为XO和ON，允许分块出错。

(3)切点XZ≤64KB。这种情况，O¹与Z重合。A_n和B₁的边界(即XY和YZ)衔接后生成的新块为XZ。

(4)切点64KB<XZ<66KB。这种情况，XO＝64KB,OZ<2KB，O¹肯定不与Z重合，而可能与N重合。所以A_n和B₁的边界(即XY和YZ)衔接后生成的新数据块为XO和ON，允许分块出错。

(5)切点XZ≥66KB。这种情况，XO＝64KB,OZ>2KB,O¹与Z重合。所以A_n和B₁的边界(即XY和YZ)衔接后生成的新数据块为XO和OZ。

在情况(1)、(3)和(5)中，本发明可以通过重新计算分块2KB的区域(即图3的[Y,Y¹])，然后衔接获得与传统分块相同的切点，在情况(2)和(4)中，允许出错的情况发生，在我们的理论推导和实践测试中，情况(2)和(4)发生的概率为5％，情况(2)和(4)仍然有80％的概率获得与传统的线性分块系统的分块效果。而且由于影响的数据块仅仅为数据段的边界的数据块，这样并行分块影响的去重率损失将小于0.01％。

本发明还提供了一种数据去重过程中的并行分块系统，所述系统包括数据分段模块、数据并行分块模块以及边界衔接处理模块，其中：

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据去重过程中的并行分块方法，其特征在于，所述方法包括如下步骤：

(1)将数据流中的文件分成多个定长的数据段，所述数据段的长度大于数据分块的最大块长；

(3)将除最后一个数据段之外的每个数据段的最后一个数据块与后一个数据段的第一个数据块进行边界衔接处理，其中A_n和B_n是需要衔接的前后数据段，X为数据段A_n的最后一个切点，Y为数据段A_n和B_n的边界点，Z和N为数据段B_n的前两个分块切点，XZ表示切分出的数据块，其内容为从切点X到分块切点Z之间的数据内容，假设数据块的最小和最大块长限制分别为L_min和L_max个字节，边界衔接处理分为下述五种情况：

(3-1)若在从B_n开始的L_min区域内找到满足分块要求的切点O，而且OZ的长度大于等于最小块长L_min，则将Z作为下一个分块切点，OZ表示从切点O到分块切点Z之间的数据块；

(3-2)若在从B_n开始的L_min区域内找到满足分块要求的切点O，而且OZ的长度小于最小块长L_min，则将N作为下一个分块切点；

(3-3)若没有在B_n开始的L_min区域内找到满足分块要求的切点，而且XZ的长度小于最大块长L_max，则将Z作为下一个分块切点；

(3-4)若没有在B_n开始的L_min区域内找到满足分块要求的切点，而且XZ的长度大于最大块长L_max且小于L_min+L_max，则将离X点距离为L_max的点O作为分块切点，且认为O的下一个分块点为N；

(3-5)若没有在B_n开始的L_min区域内找到满足分块要求的切点，而且XZ的长度大于L_min+L_max，则将离X点距离为L_max的点O作为分块切点，且认为O的下一个分块点为Z。

2.如权利要求1所述的数据去重过程中的并行分块方法，其特征在于，所述步骤(3)中判断是否在B_n开始的L_min区域内找到满足分块要求的切点具体为：

使用一个滑动窗口对B_n开始的L_min区域进行滑动分块判断：分块算法计算滑动窗口内容的哈希值，如果该哈希值满足分块的预定义要求，则认为这是一个满足要求的分块切点；如果不满足，则认为这不是一个满足要求的分块切点。

3.如权利要求1或2所述的数据去重过程中的并行分块方法，其特征在于，所述数据段的长度为2MB，所述数据块的分块平均块长为8KB，最小块长和最大块长限制分别为2KB和64KB。

4.一种数据去重过程中的并行分块系统，其特征在于，所述系统包括数据分段模块、数据并行分块模块以及边界衔接处理模块，其中：

所述边界衔接处理模块，用于将除最后一个数据段之外的每个数据段的最后一个数据块与后一个数据段的第一个数据块进行边界衔接处理，其中A_n和B_n是需要衔接的前后数据段，X为数据段A_n的最后一个切点，Y为数据段A_n和B_n的边界点，Z和N为数据段B_n的前两个分块切点，XZ表示切分出的数据块，其内容为从切点X到分块切点Z之间的数据内容，假设数据块的最小和最大块长限制分别为L_min和L_max个字节，边界衔接处理分为下述五种情况：

若在从B_n开始的L_min区域内找到满足分块要求的切点O，而且OZ的长度大于等于最小块长L_min，则将Z作为下一个分块切点，OZ表示从切点O到分块切点Z之间的数据块；

若在从B_n开始的L_min区域内找到满足分块要求的切点O，而且OZ的长度小于最小块长L_min，则将N作为下一个分块切点；

若没有在B_n开始的L_min区域内找到满足分块要求的切点，而且XZ的长度小于最大块长L_max，则将Z作为下一个分块切点；

若没有在B_n开始的L_min区域内找到满足分块要求的切点，而且XZ的长度大于最大块长L_max且小于L_min+L_max，则将离X点距离为L_max的点O作为分块切点，且认为O的下一个分块点为N；

若没有在B_n开始的L_min区域内找到满足分块要求的切点，而且XZ的长度大于L_min+L_max，则将离X点距离为L_max的点O作为分块切点，且认为O的下一个分块点为Z。