CN106293525B

CN106293525B - 一种提高缓存使用效率的方法及系统

Info

Publication number: CN106293525B
Application number: CN201610637529.3A
Authority: CN
Inventors: 吴晨涛; 过敏意; 高鸿源; 冯博; 谭超
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2016-08-05
Filing date: 2016-08-05
Publication date: 2019-06-28
Anticipated expiration: 2036-08-05
Also published as: CN106293525A

Abstract

本发明公开了一种提高缓存使用效率的方法及系统，该方法包括：给定一个数值作为分块长度的大小；读取写入的数据流，每读到一个分块长度大小的数据，将其截断，做成一个数据块；计算获得每个数据块的指纹；检查数据块的指纹，当指纹符合某一个指定的特征时，把该数据块作为索引块，对于每一个索引块，检查内存中是否已经存在与其指纹完全相同的数据块，若不存在，将其指纹保存在内存中，赋予其初始热度，并建立一个其所属的容器，若已存在，则增加其热度，而减小其他不相同的数据块的热度，通过本发明，能够用较少的内存尽可能多地节约磁盘空间，减少数据的冗余。

Description

一种提高缓存使用效率的方法及系统

技术领域

本发明涉及一种提高缓存使用效率的方法及系统，特别是涉及一种提高备份系统中重复数据删除缓存使用效率的方法。

背景技术

重复数据删除是一种将重复数据仅存储一份、从而节约磁盘空间的技术。它的方法是在重复分块的索引和其在磁盘中实际位置之间创造一种映射，可以分为以下几类：

1.文件重删和块重删

对于每一个文件，我们使用某个哈希函数计算它的指纹(fingerprint)。当发生哈希冲突时，意味着存在相同的文件。这种方法易于实施，但缺点是重删率相对较低。当两个大文件之间只有一个比特不同时，这两个文件就会被认为是不相同的，从而存储两份，造成大量的空间浪费。

为了解决上述问题，块重删技术应运而生。它弱化了文件的概念，把一个数据块作为重删的基本单位。根据方法的不同，分块可以是定长也可以是变长。定长分块基本为几个KB，很容易处理和管理。但另一方面，如果在块的头部插入或删除一个比特，后续所有的分块都会改变。利用Rabin Fingerprints的变长分块可以解决这个问题。在分块时，只有当遇到匹配的数据样式时才对分块进行截断。这样头部的改变就不会影响后续的分块。然而变长的分块由于在管理上有一定困难，实际情况中采用的并不多。

2.实时重删和后处理重删

实时重删需要处理器在遇到写入操作的时候就进行分块和计算指纹的操作，有一定的时间开销，对写入性能会产生一定影响。有时候我们可以借助外部装置来辅助计算，以适应诸如在固态硬盘这样的高速写入环境。

目前在备份系统领域已经存在一些重删方法，包括Zhu的布隆过滤器(BloomFilter)方法、Extreme Binning和Sparse Indexing等，但是它们在重删效率和内存占用方面存在一些问题。布隆过滤器方法可以让之前排除没有出现过的分块，从而免去检查它们重复性的开销；但是如果重删率较高或分块较多时，布隆过滤器将很容易被通过，丧失其意义。Extreme Binning利用文件来组织容器，把文件头部的分块作为索引。但是如果文件的头部分块不同，文件将会被归为不同的容器，大大减少重删的效率。Sparse Indexing方法根据指纹结尾的余数来对指纹进行分组，并选取一些最可能被重删的容器到内存中进行重删操作。然而在容器重删效率低时，这些大量的容器会占用较高的内存。

发明内容

为克服上述现有技术存在的不足，本发明之目的在于提供一种提高备份系统中重复数据删除缓存使用效率的方法，其能够用较少的内存尽可能多地节约磁盘空间，减少数据的冗余。

为达上述及其它目的，本发明提出一种提高缓存使用效率的方法，包括如下步骤：

步骤一，给定一个数值作为分块长度的大小；

步骤二，读取写入的数据流，每读到一个分块长度大小的数据，将其截断，做成一个数据块；

步骤三，计算获得每个数据块的指纹；

步骤四，检查数据块的指纹，当指纹符合某一个指定的特征时，把该数据块作为索引块，对于每一个索引块，检查内存中是否已经存在与其指纹完全相同的数据块，若不存在，将其指纹保存在内存中，赋予其初始热度，并建立一个其所属的容器，若已存在，则增加其热度，而减小其他不相同的索引块的热度；

其中，所述索引块的指纹符合指定的最后N位为零的特征。

进一步地，若数据块的指纹不符合指定的特征，把该数据块作为一般块，对于每一个一般块，检查目前在内存中的容器中的所有一般块，是否存在一个数据块与该一般块相同，若不存在，令该一般块取代一个原本存在于容器中且热度较低的数据块，或附加到容器尾部，并赋予其初始热度，若存在，增加那个相同的数据块的热度，而减小其他不相同的一般块的热度。

进一步地，于步骤三中，使用MD5哈希算法计算数据块的128位哈希值，作为该数据块的指纹。

进一步地，于步骤四中，可根据指纹的余数确定索引块，通过设定余数的大小，控制索引块的比例。

进一步地，于步骤四中，选取一个取样参数N，检查每个数据块的指纹，当指纹的末尾N位皆为零时，把该数据块作为索引块。

进一步地，于步骤四中，若该索引块和上一次读取到的索引块不同，且该索引块的容器已经含有内容，将原索引块的容器写回磁盘，把新的索引块的容器读入内存，若找不到新的索引块的容器，则为其创建一个新的容器。

进一步地，若发现存在索引块的热度低于阈值，将其标记为冷块，若冷索引块的数量高于阈值，清理内存中所有的冷索引块。

进一步地，取代或更新热度的操作完成后，若发现容器中存在热度低于阈值的一般块，将其标记为冷块，若冷一般块数量高于阈值，清理该容器中所有的冷一般块。

为达到上述目的，本发明还提供一种提高缓存使用效率的系统，包括：

分块模块，给定一个数值作为分块长度的大小，读取写入的数据流，每读到一个分块长度大小的数据，将其截断，做成一个数据块；

指纹计算模块，用于计算获得每个数据块的指纹；

判断模块，用于检查数据块的指纹，当指纹符合某一个指定的特征时，把该数据块作为索引块，若数据块的指纹不符合指定的特征，把该数据块作为一般块；

索引块重删模块，对于每一个索引块，检查内存中是否已经存在与其指纹完全相同的数据块，若不存在，将其指纹保存在内存中，赋予其初始热度，并建立一个其所属的容器，若已存在，增加其热度，而减小其他不相同的数据块的热度；

一般块重删模块，对于每一个一般块，检查目前在内存中的容器中的所有一般块，是否存在一个数据块与该一般块相同，若不存在，令该一般块取代一个原本存在于容器中且热度较低的数据块，或附加到容器尾部，并赋予其初始热度，若存在，增加那个相同的数据块的热度，而减小其他不相同的数据块的热度；

其中，所述索引块的指纹符合指定的最后N位为零的特征。

进一步地，该系统还包括除冷模块，若发现存在索引块的热度低于阈值，将其标记为冷块，若冷索引块的数量高于阈值，清理内存中所有的冷索引块，取代或更新热度的操作完成后，若发现容器中存在热度低于阈值的一般块，将其标记为冷块，若冷一般块数量高于阈值，清理该容器中所有的冷一般块。

与现有技术相比，本发明一种提高缓存使用效率的方法及系统利用数据块的指纹特征建立索引，并对冷数据块进行实时清理，通过局部性增加了重复数据删除率，去除了冷数据对内存的不必要占用，增加了搜索效率，通过线性构建索引块表和容器，提高了磁盘的I/O性能。

附图说明

图1为本发明一种提高缓存使用效率的方法的步骤流程图；

图2为一典型的实时块重复数据删除系统的流程图；

图3为本发明具体实施例在进行重复数据删除时的流程图；

图4(a)为LRU算法示意图；

图4(b)为本发明具体例子的示意图；

图5为本发明一种提高缓存使用效率的系统的系统架构图。

具体实施方式

以下通过特定的具体实例并结合附图说明本发明的实施方式，本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用，本说明书中的各项细节亦可基于不同观点与应用，在不背离本发明的精神下进行各种修饰与变更。

图1为本发明一种提高缓存使用效率的方法的步骤流程图。如图1所示，本发明一种提高缓存使用效率的方法，用于提高备份系统中重复数据删除缓存的使用效率，包括如下步骤：

步骤101，给定一个数值作为分块长度的大小，一般为几KB到几MB不等。

步骤102，读取写入的数据流，每读到一个分块长度大小的数据，将其截断，做成一个数据块。

步骤103，使用MD5哈希算法计算数据块的128位哈希值，作为该数据块的指纹。

步骤104，检查数据块的指纹，当指纹符合某一个指定的特征时，把该数据块作为索引块，对于每一个索引块，检查内存中是否已经存在与其指纹完全相同的数据块，若不存在，将其指纹保存在内存中，赋予其初始热度，并建立一个其所属的容器，若已存在，增加其热度，而减小其他不相同索引块块的热度。在本发明中，可根据指纹的余数确定索引块的分块，通过设定余数的大小，控制被索引块的比例。

较佳地，若该索引块和上一次读取到的索引块不同，且该索引块的容器已经含有内容，将原索引块的容器写回磁盘，把新的索引块的容器读入内存，若找不到新的索引块的容器，则为其创建一个新的容器。

步骤105，若数据块的指纹不符合指定的特征，把该数据块作为一般块，对于每一个一般块，检查目前在内存中的容器中的所有一般块，是否存在一个数据块与该一般块相同，若不存在，令该一般块取代一个原本存在于容器中且热度较低的数据块，或附加到容器尾部，并赋予其初始热度，若存在，增加那个相同的数据块的热度，而减小其他不相同的一般块的热度。

较佳地，若发现存在索引块的热度低于阈值，将其标记为冷块，若冷索引块的数量高于阈值，清理内存中所有的冷索引块。

取代或更新热度的操作完成后，若发现容器中存在热度低于阈值的一般块，将其标记为冷块，若冷一般块数量高于阈值，清理该容器中所有的冷一般块。

图2为一典型的实时块重复数据删除系统的流程图，图3为本发明具体实施例在进行重复数据删除时的流程图。以下将配合图2及图3进一步说明本发明：

步骤S1，指纹分块：如同图2的「分块模块」所显示的，给定一个数值作为分块长度的大小，一般为几KB到几MB不等，且一般为2的幂次，比如4KB、64KB等。读取写入的数据流，每读到一个分块长度大小的数据，将其截断，做成一个数据块；使用MD5哈希算法计算数据块的128位哈希值，作为该数据块的指纹；

步骤S2，判断零块：如同图3的「判零模块」所显示的，选取一个取样参数N，检查数据块的指纹，当指纹的末尾N位皆为零时，称该数据块为零块，把该数据块作为索引块；

步骤S3，重删索引块：如同图3的「零块表」所显示的，对于每一个索引块，检查内存中的零块表中是否已经存在与其指纹完全相同的数据块，若不存在，将其指纹保存在内存中，赋予其初始热度，并建立一个其所属的容器，若已存在，增加其热度，而减小其他不相同的数据块的热度；

进一步地，若该索引块和上一次读取到的索引块不同，且该索引块的容器已经含有内容，将原索引块的容器写回磁盘，把新的索引块的容器读入内存，若找不到新的索引块的容器，则为其创建一个新的容器；

步骤S4，重删一般块：若数据块的指纹不符合后N为全为零的特征，把该数据块成为非零块，作为一般块处理。如同图3中的「容器」所显示的，对于每一个一般块，检查目前在内存中的容器中的所有一般块，是否存在一个数据块与该一般块相同，若不存在，令该一般块取代一个原本存在于容器中且热度较低的数据块，或附加到容器尾部，并赋予其初始热度，若存在，增加那个相同的数据块的热度，而减小其他不相同的数据块的热度；

步骤S5，去除冷块：若处理的数据块为索引块，且发现存在索引块的热度低于阈值，将其标记为冷块，若冷索引块的数量高于阈值，清理内存中所有的冷索引块；若处理的数据块是一般块，则在取代或更新热度的操作完成后，若发现容器中存在热度低于阈值的一般块，将其标记为冷块，若冷一般块数量高于阈值，清理该容器中所有的冷一般块。如同图3中的「除冷模块」所显示的，先前容器中指纹为「0x764A」的数据块被发现重复，其热度由3变成11，增加了8(一个可变更的预先设定值)；而指纹为「0x5B21」数据块原先热度为1，由于未被命中，其热度降为0，被标记为冷块，将不会在下次重删操作中被比较。

图4(a)为LRU算法示意图，图4(b)为本发明具体例子的示意图。图4(a)和图4(b)提供了一个例子，说明本发明利用指纹特征和传统LRU方法进行重删时的优越性。新数据块中的数值为数据块的指纹，这里选取取样参数为2，则指纹后两位为0时，该数据块为索引块。于是，图中指纹为0和4的块成为索引块。

当第(1)个数据块「4」作为索引块被读取时，它对应的容器被创建，将后续第(2)和第(3)个数据块「3」放入容器；

第(4)个数据块依然为「4」，和上一个索引块相同，于是容器不变，继续读取第(5)个数据块「2」，放入容器中；

第(6)个数据块「0」也为索引块，且不在零块表中出现，于是将其放入缓存，并新建一个其对应的容器，将原来的容器写回磁盘，而第(7)个数据块「1」将被放在「0」的容器中；

第(8)个数据块「4」为索引块，且在零块表中存在，则将「0」的容器写入，读入「4」的容器(已含有「2」和「3」)；

第(9)和第(10)个数据块到来时，在容器中已经存在它们的重复块，从而原本未命中的缓存被命中了。

根据局部性原理，上述例子在实际应用中经常出现。

图5为本发明一种提高缓存使用效率的系统的系统架构图。如图5所示，本发明一种提高缓存使用效率的系统，包括：分块模块501、指纹计算模块502、判断模块503、索引块重删模块504以及一般块重删模块505。

分块模块501，给定一个数值作为分块长度的大小，一般为几KB到几MB不等，读取写入的数据流，每读到一个分块长度大小的数据，将其截断，做成一个数据块；指纹计算模块502，使用MD5哈希算法计算每个数据块的128位哈希值，作为该数据块的指纹；判断模块503，用于检查数据块的指纹，当指纹符合某一个指定的特征时，把该数据块作为索引块，若数据块的指纹不符合指定的特征，把该数据块作为一般块；索引块重删模块504，对于每一个索引块，检查内存中是否已经存在与其指纹完全相同的数据块，若不存在，将其指纹保存在内存中，赋予其初始热度，并建立一个其所属的容器，若已存在，增加其热度，而减小其他不相同的数据块的热度，较佳地，若该索引块和上一次读取到的索引块不同，且该索引块的容器已经含有内容，将原索引块的容器写回磁盘，把新的索引块的容器读入内存，若找不到新的索引块的容器，则为其创建一个新的容器；一般块重删模块505，对于每一个一般块，检查目前在内存中的容器中的所有一般块，是否存在一个数据块与该一般块相同，若不存在，令该一般块取代一个原本存在于容器中且热度较低的数据块，或附加到容器尾部，并赋予其初始热度，若存在，增加那个相同的数据块的热度，而减小其他不相同的数据块的热度。

较佳地，本发明一种提高缓存使用效率的系统还包括除冷模块，若发现存在索引块的热度低于阈值，将其标记为冷块，若冷索引块的数量高于阈值，清理内存中所有的冷索引块，取代或更新热度的操作完成后，若发现容器中存在热度低于阈值的一般块，将其标记为冷块，若冷一般块数量高于阈值，清理该容器中所有的冷一般块。

综上所述，本发明一种提高缓存使用效率的方法及系统利用数据块的指纹特征建立索引，并对冷数据块进行实时清理，通过局部性增加了重复数据删除率，去除了冷数据对内存的不必要占用，增加了搜索效率，通过线性构建索引块表和容器，提高了磁盘的I/O性能。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下，对上述实施例进行修饰与改变。因此，本发明的权利保护范围，应如权利要求书所列。

Claims

1.一种提高缓存使用效率的方法，包括如下步骤：

步骤一，给定一个数值作为分块长度的大小；

步骤三，计算获得每个数据块的指纹；

其中，所述索引块的指纹符合指定的最后N位为零的特征。

2.如权利要求1所述的一种提高缓存使用效率的方法，其特征在于：若数据块的指纹不符合指定的特征，把该数据块作为一般块，对于每一个一般块，检查目前在内存中的容器中的所有一般块，是否存在一个数据块与该一般块相同，若不存在，令该一般块取代一个原本存在于容器中且热度较低的数据块，或附加到容器尾部，并赋予其初始热度，若存在，增加那个相同的数据块的热度，而减小其他一般块的热度。

3.如权利要求2所述的一种提高缓存使用效率的方法，其特征在于：于步骤三中，使用MD5哈希算法计算数据块的128位哈希值，作为该数据块的指纹。

4.如权利要求3所述的一种提高缓存使用效率的方法，其特征在于：于步骤四中，可根据指纹的余数确定索引块，通过设定余数的大小，控制索引块比例。

5.如权利要求4所述的一种提高缓存使用效率的方法，其特征在于：于步骤四中，选取一个取样参数N，检查每个数据块的指纹，当指纹的末尾N位皆为零时，把该数据块作为索引块。

6.如权利要求5所述的一种提高缓存使用效率的方法，其特征在于：于步骤四中，若该索引块和上一次读取到的索引块不同，且该索引块的容器已经含有内容，将原索引块的容器写回磁盘，把新的索引块的容器读入内存，若找不到新的索引块的容器，则为其创建一个新的容器。

7.如权利要求6所述的一种提高缓存使用效率的方法，其特征在于：若发现存在索引块的热度低于阈值，将其标记为冷块，若冷索引块的数量高于阈值，清理内存中所有的冷索引块。

8.如权利要求7所述的一种提高缓存使用效率的方法，其特征在于：取代或更新热度的操作完成后，若发现容器中存在热度低于阈值的一般块，将其标记为冷块，若冷一般块数量高于阈值，清理该容器中所有的冷一般块。

9.一种提高缓存使用效率的系统，包括：

指纹计算模块，用于计算获得每个数据块的指纹；

其中，所述索引块的指纹符合指定的最后N位为零的特征。

10.如权利要求9所述的一种提高缓存使用效率的系统，其特征在于：该系统还包括除冷模块，若发现存在索引块的热度低于阈值，将其标记为冷块，若冷索引块的数量高于阈值，清理内存中所有的冷索引块，取代或更新热度的操作完成后，若发现容器中存在热度低于阈值的一般块，将其标记为冷块，若冷一般块数量高于阈值，清理该容器中所有的冷一般块。