CN102222085B

CN102222085B - 一种基于相似性与局部性结合的重复数据删除方法

Info

Publication number: CN102222085B
Application number: CN2011101276956A
Authority: CN
Inventors: 冯丹; 夏文; 华宇
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2011-05-17
Filing date: 2011-05-17
Publication date: 2012-08-22
Anticipated expiration: 2031-05-17
Also published as: CN102222085A

Abstract

本发明提供了一种重复数删除方法，该方法将数据的相似性与局部性相结合，系统内存开销少且重复数据删除效率高。该方法首先对数据流中的文件进行分块、分组，确定每个数据组的相似性单元及代表指纹，并将代表指纹保存在内存中；然后遍历所有数据组，进行相似性判断，确定哪些数据组完全为重复数据，哪些数据组存在非重复数据。若数据组中存在非重复数据，还可以继续进行局部性判断，进一步确定该数据组内哪些数据为重复数据。该方法只保存代表指纹到内存，大大减少了内存开销；通过对数据流局部性的挖掘并缓存数据的局部性到内存中，可以在相似性判断后进行补充，能够找到更多的重复数据，同时可以避免频繁的访问磁盘索引，提高内存的利用率。

Description

一种基于相似性与局部性结合的重复数据删除方法

技术领域

本发明属于计算机存储领域，具体涉及一种基于相似性与局部性结合的重复数据删除方法。

背景技术

近年来，随着计算机技术和网络的发展普及，全球的数据信息存储量呈爆炸式增长的趋势。虽然存储设备的售价一直在不停的下降，但也远远赶不上数据扩张增长的速度。重复数据删除(Data Deduplication)作为一种通过大规模地有效地消除冗余数据的技术，成为了近年来存储系统研究的热点。重复数据删除不仅能够大量的节省了存储空间提供存储系统性能，而且通过避免冗余数据传输而节省了网络带宽。重复数据删除的兴起源于存储市场中的大量数据备份和归档的需求，而需求带动了研发与产品化，IBM、HP、EMC这些存储大公司都瞄准了重复数据删除市场，开发出了一系列的重复数据删除产品。尤其在2009年，EMC以21亿美元重金收购了重复数据删除企业Data Domain，这更是体现了重复数据删除在存储系统中的重要性和热点关注度，并以此为标志拉开了重复数据删除进入存储领域主流技术的大幕。

简单来讲，目前新兴的重复数据删除就是一种通过大规模地有效地消除冗余数据，从而降低数据存储成本的重要技术。举例来说：现在某核心部门有20GB的数据需要每天备份，那么一年就需要备份7300GB，事实上每天修改的数据不到1GB，每天备份的数据都存在着大量的重复的冗余的数据。而传统的备份存储技术不能识别备份数据中的冗余数据，因而会备份大量的重复数据，无端浪费了网络带宽和存储空间，降低了数据备份和归档的存储效率率。随着备份次数的增多和备份数据量的迅猛增长，存储系统中的冗余数据越来越多，消耗在冗余数据上的存储和管理资源会成倍增长。而重复数据删除技术正好迎合了这一需求，通过抑制数据存储的增长速度从而降低了数据存储管理开销和提高了存储资源利用率。

但是随着重复数据删除技术的发展，重复数据删除技术也面临诸多的挑战。在小规模的重复数据删除系统中，所有的指纹索引信息可以存储在内存里，可使用普通的Hash表进行处理。但是，在海量信息存储系统中，这些指纹的数据量会变得异常庞大，所以只能放在磁盘上，这也就成为重复数据删除的潜在的巨大的性能瓶颈。我们假设存在这样一个重复数据删除系统，它采用了平均8KB的块大小和SHA-1哈希指纹算法，16TB的备份数据则产生了40GB的数据指纹。内存中显然装不下这40GB的指纹，这写指纹需要放入磁盘中存储并索引。众所周知，磁盘访问速度远远低于内存访问速度，这使得重复数据删除中的指纹查找非常缓慢。也就是说，每输入一个数据块，都需要遍历整个磁盘指纹索引，这严重影响了重复数据删除的吞吐率。近几年来，重复数据删除的研究工作都围绕于这方面的问题展开，以期可以寻求更好的解决方案，减少重复数据删除索引的内存开销，提高重复数据删除的可扩展性。

由此可见，研究高效的重复数据删除机制，对于提高数据存储效率，降低企业的数据存储成本，提高企业经济效益具有重要意义。

发明内容

本发明的目的在于提供一种基于相似性与局部性结合的重复数据删除方法，该方法通过将数据的相似性与局部性的结合来进行重复数据删除，系统内存开销少且重复数据删除效率高。

本发明提供的基于相似性与局部性结合的重复数据删除方法，包括以下步骤：

(1)对数据流中的文件进行分块，得到多个数据块；

(2)计算每个数据块的数据块指纹；

(3)对所有数据块进行分组，得到多个数据组；确定每个数据组的相似性单元及代表指纹，在内存中保存代表指纹；其中，将连续的数据块集合作为一个数据组，每个数据组的大小与标准文件的大小相同，所述相似性单元是指数据组中所有数据块的指纹集合，代表指纹是指相似性单元中前缀最小的数据块指纹；

(4)选取一个数据组，判断内存中是否存在与该数据组的代表指纹相同的已有指纹，若有，则该数据组的相似性单元与已有指纹所代表的相似性单元相似，进入(5)；若没有，转入(6)；

(5)判断该数据组的相似性单元与已有指纹所代表的相似性单元是否完全相同，如果是，则该数据组的所有数据均为重复数据，转入(7)；如果否，则将与已有指纹所代表的相似性单元所在的局部性单元读入内存，其中局部性单元是指多个连续相似性单元的集合，进入(6)；

(6)对所述数据组进行局部性判断，局部性判断包括下述子步骤：

(a)选择所述数据组中的一个数据块，判断该数据块的指纹是否在内存中有记录，若有，则该数据块为重复数据块，进入(c)；若没有，则该数据块为新数据块，进入(b)；

(b)将新数据块写入磁盘；

(c)重复步骤(a)-(b)，遍历所述数据组中的所有数据块；

(7)重复步骤(4)-(6)，遍历步骤(3)中划分的所有数据组。

本发明具有如下有益效果：

1、本发明提出的重复数据删除方法，采用一种新颖的相似性判断方法，避免了相似性单元的所有指纹都放入内存中，而仅仅只需要保存代表指纹到内存即可，大大减少了内存开销；比如系统设定一个相似性单元平均2MB大小，发置重复数据删除平均分块大小8KB，每个指纹的索引开销60B，那么重复数据删除1TB的数据，就只需要30MB的内存开销，仅仅使用了以前的全局内存索引表方案1/250的内存开销。

2、本发明提出的重复数据删除方法，在进行相似性判断后，还可以采用一种局部性判断方法，通过对存储系统中的备份数据流局部性的挖掘并缓存数据的局部性到内存中，可以在相似性判断后进行补充和加强，从而能够找到更多的重复数据；而且因为数据流的局部性缓存到了内存中，可以避免频繁的访问磁盘索引，提高内存的利用率。

3、本发明提出的重复数据删除方法内存开销少、重复数据删除效率高并且吞吐率高，还可以应用在除备份领域之外的场合，比如主存储系统中等。

附图说明

图1为本发明的系统结构图；

图2为本发明的重复数据删除服务器结构图；

图3为本发明的相似性判断方法结构图；

图4为本发明的局部性工作原理图；

图5为本发明的系统运行流程图。

具体实施方式

下面结合附图及实施例进一步说明本发明的重复数据删除方法。

本发明所述的数据删除方法将待备份数据流分块、分组后，利用每组数据块的指纹集合构建相似性单元，选择相似性单元的代表指纹，即选择相似性单元中指纹值前缀最小的指纹，将代表指纹放入内存中，作为重复数据删除的关键值索引，进行相似性判断。

因为如果两个相似性单元所代表的数据块集合有很多重复数据块，其代表指纹相等的概率等于他们拥有共同指纹的比例，所以本发明所述的相似性判断方法是基于相似性概率的，数据的相似性程度越大，相似指纹越有效。

本发明数据分组的依据可以是预先设定的标准文件大小，标准文件的大小可以由用户自己根据应用场合设计。设M为本发明中标准文件的大小，若M值越大，则重复数据删除的相似性粒度越大，那么相似性索引的内存开销越小，但是删除的重复数据也会随之变小，反之亦然。设定标准文件大小M之后将待备份数据流中的文件分成三部分，即大文件、小文件和中间文件。其中小文件是指小于或者等于M/4大小的文件；大文件是指大于或者等于3M/2大小的文件；介于M/4～3M/2大小区间的文件认为是中间文件。

对于小文件，选取多个连续的小文件的数据块集合，构成一个数据组，该集合的大小与M近似相等，该数据组包含的指纹集合为相似性单元；

对于大文件，截取M值大小的数据块集合，构成一个数据组，该数据组包含的指纹集合为相似性单元；对于大文件末尾的数据块大小不足M值的，可以与其他数据块组合，构成一个数据组；

对于中间文件，可截取M值大小的数据块集合或选择多个连续的数据块集合构成一个数据组，只要该集合的大小与M近似相等，该数据组包含的指纹集合为相似性单元。

存储系统中的数据流的局部性是指，当文件A、B、C曾经序列出现时，那么下次出现文件A时，文件B和C很有可能会紧随后面。本发明采用局部性来补充相似性判断的不足，例如对于前后备份的文件序列A₁、B₁、C₁和A₂、B₂、C₂，采用相似性判断方法确定出文件B₁和B₂相似，那么A₁和A₂潜在相似(即使相似性判断方法认为这两个文件不相似)，C₁和C₂也潜在相似，这样就有可能发现更多潜在的重复数据。

本发明将多个连续的相似性单元称为局部性单元，并保存在磁盘外存中。这样对于两个局部性单元只要他们中有一个相似性单元是相似的，就可以认定这两个局部性单元是相似的，这样避免了相似性判断方法大量遗漏重复数据的可能性。局部性单元包含的相似性单元个数可以设置为128个，也可以根据重复数据删除的应用场合适当的调整个数，个数越多，挖掘的局部性越多，发现的重复数据也就越多，但是随着相似性单元个数的增加也会导致重复数据删除吞吐率下降。

下面结合备份系统加以说明本发明的重复数据删除方法，备份系统如图1所示，主要包括四个功能组件，即文件代理、存储服务器、备份服务器和重复数据删除服务器。

文件代理安装在系统客户端，提供用户备份一与恢复的接口，同时也提供了重复数据删除的预处理过程：数据分块、计算哈希指纹、数据分组，构建相似性单元等。

备份服务器负责协调全局的数据备份和恢复操作，集中管理和指挥文件代理端和存储服务器；备份服务器维护了一个备份文件元数据的数据库信息库，以便于单个文件的检索。

存储服务器主要负责存储和管理备份数据，存储服务器可以部署在多个存储节点上而且提供快速、可靠和安全的备份恢复数据服务。

重复数据删除服务器主要负责存储和查找所有的数据块指纹，存储服务器主要包括了相似性处理模块、局部性处理模块、相似性哈希表、局部性缓存和局部性哈希表等，如图2所示。相似性处理模块将数据块指纹分成相对平等而且独立的集合，从每个数据块指纹中提取相似性特征，即相似性单元的代表指纹。局部性处理模块将多个连续相似性单元保存到一个局部性单元中，以便于局部性判断方法读取和缓存数据流局部信息到内存的读缓存中，如图3所示。相似性哈希表是将所有的相似性单元的关键值信息存储到内存的哈希表，相似性单元的关键值信息一般包括相似性单元ID、局部性单元ID、相似性单元代表指纹和相似性单元哈希摘要值等。局部性缓存是当输入数据流的相似性单元S₁通过哈希表查找到相似的相似性单元S₂的时候，系统会缓存相似性单元S₂所在的局部性单元到内存读缓存中，这样内存就缓存了相似性单元S₂的局部性信息。局部性缓存又包括了内存读缓存和内存写缓存。如图4所示，对于相似性算法执行结束后，局部性算法就是对于那些没有找到与其相似的相似性单元的数据组，查找潜在的可能被漏掉的重复数据。局部性哈希表，是针对读入缓存的局部性单元的数据块指纹建立索引，便于快速查询具体的数据块指纹是否重复。在该备份系统中，采用本发明所述的重复数据删除方法，包括以下步骤：

(1)对数据流中的文件进行分块，得到多个数据块；

在文件分块过程中，本发明适用于定长分块和变长分块，对分块算法没有要求，对分块大小也不做要求，2KB～256KB都可以，本实施例采用平均分块大小8KB。

(2)计算每个数据块的数据块指纹；

数据块指纹的计算可以采用各种哈希摘要算法，本实施例采用SHA-1，也可以采用其他抗冲突能力更强的哈希摘要算法。

(3)对多个数据块进行分组，该分组大小的区间可以为512KB～16MB，本实施例采用的分组的大小为2MB，即将连续的多个数据块作为一个数据组，且该数据组的大小为2MB，得到多个数据组；确定每个数据组的相似性单元及代表指纹，在内存中保存该代表指纹；

(4)选取一个数据组，判断内存中是否存在与该数据组的代表指纹相同的已有指纹，即在内存的相似性哈希表中查找，若有，则该数据组的相似性单元与已有指纹所代表的相似性单元相似，进入(5)；若没有，则该数据组没有找到与其相似性单元相似的已有相似性单元，该数据组中存在非重复数据，转入(6)；

(5)判断该数据组对应的相似性单元与已有指纹所对应的相似性单元是否完全相同，如果是，则该数据组的所有数据为重复数据，转入(7)；如果否，则该数据组没有找到与其相似性单元相似的已有相似性单元，该数据组中存在非重复数据，则将与已有指纹所代表的相似性单元所在的局部性单元读入内存，即将该局部性单元从磁盘中读取到内存读缓存中，并且将该局部性单元的指纹建立一个哈希表来建立指纹索引查找，这个哈希表即为局部性哈希表；如果内存已满，则以先进先出算法(FIFO)淘汰旧的局部性单元，进入(6)；

(6)进一步采用局部性判断方法对所述数据组进行重复数据删除，局部性判断方法包含以下子步骤：

(a)选择该数据组中的一个数据块，判断该数据块的指纹是否在内存中有记录，即在局部性哈希表中查找，若有，则该数据块为重复数据块，读取与该数据块重复的数据块的位置信息，进入(c)；若没有，则该数据块为新数据块，进入(b)；

(b)将新数据块写入磁盘，保存该数据块的存储位置信息，并且更新输入的相似性单元的关键值信息到内存的相似性哈希表中；如果写缓存已经满，则将写缓存从内存写入磁盘；

(c)重复步骤(a)-(b)，遍历该数据组中的所有数据块；

在步骤(c)之后或者在步骤(5)中判断出数据组中的所有数据为重复数据之后，还可以将该数据组的相似性单元，组装成新的局部性单元到内存的写缓存中，并且更新该相似性单元的关键值信息到内存的相似性哈希表中；如果新的局部性单元已经写满，则写入写缓存中，这里局部性单元可以设定为容纳16～1024个相似性单元不等，本实施例采用局部性单元容纳128个相似性单元。这样在步骤(5)中判断出数据组中存在非重复数据后，再首先判断内存中是否有与已有指纹所代表的相似性单元所在的局部性单元，如果没有，则读取局部性单元；如果有，则不需要读取。

(7)重复步骤(4)-(6)，遍历步骤(3)中划分的所有数据组。

本发明不仅局限于上述具体实施方式，本领域一般技术人员根据本发明公开的内容，可以采用其它多种具体实施方式实施本发明，因此，凡是采用本发明的设计结构和思路，做一些简单的变化或更改的设计，都落入本发明保护的范围。

Claims

1.一种基于相似性与局部性结合的重复数据查找方法，包括以下步骤：

（1）对数据流中的文件进行分块，得到多个数据块；

（2）计算每个数据块的数据块指纹；

（3）对所有数据块进行分组，得到多个数据组；确定每个数据组的相似性单元及代表指纹，在内存中保存代表指纹；其中，将连续的数据块集合作为一个数据组，每个数据组的大小与标准文件的大小相同，所述相似性单元是指数据组中所有数据块的指纹集合，代表指纹是指相似性单元中前缀最小的数据块指纹；所述标准文件的大小由用户自己根据应用场合设计；

（4）选取一个数据组，判断内存中是否存在与该数据组的代表指纹相同的已有指纹，若有，则该数据组的相似性单元与已有指纹所代表的相似性单元相似，进入（5）；若没有，转入（6）；

（5）判断该数据组的相似性单元与已有指纹所代表的相似性单元是否完全相同，如果是，则该数据组的所有数据均为重复数据，转入（7）；如果否，则将已有指纹所代表的相似性单元所在的局部性单元读入内存，其中局部性单元是指多个连续相似性单元的集合，进入（6）；

（6）对所述数据组进行局部性判断，局部性判断包括下述子步骤：

（a）选择所述数据组中的一个数据块，判断该数据块的指纹是否在内存中有记录，若有，则该数据块为重复数据块，进入（c）；若没有，则该数据块为新数据块，进入（b）；

（b）将新数据块写入磁盘；

（c）重复步骤（a）-（b），遍历所述数据组中的所有数据块；

（7）重复步骤（4）-（6），遍历步骤（3）中划分的所有数据组。