CN110083743B

CN110083743B - 一种基于统一采样的快速相似数据检测方法

Info

Publication number: CN110083743B
Application number: CN201910243356.0A
Authority: CN
Inventors: 夏文; 王轩
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2019-03-28
Filing date: 2019-03-28
Publication date: 2021-11-16
Anticipated expiration: 2039-03-28
Also published as: CN110083743A

Abstract

本发明提供了一种基于统一采样的快速相似数据检测方法，包括以下步骤：A、基于滑动窗口算法快速计算哈希集合；B、对计算得出的哈希集合进行快速统一采样；C基于采样后的哈希集合，再提取相似性特征值和超级特征值用于相似性匹配查找。本发明的有益效果是：在保持原有的相似性检测效率的前提下，通过快速滑动哈希计算，以及通过统一采样方法大幅度地减少了需要线性变换的指纹数量，从而简化了后面的提取特征值和超级特征值的计算，最终大幅度提升相似数据检测速度，以实现面向大规模存储系统的快速高效的相似数据检测效果。

Description

一种基于统一采样的快速相似数据检测方法

技术领域

本发明涉及相似数据检测方法，尤其涉及一种基于统一采样的快速相似数据检测方法。

背景技术

近年来，随着计算机技术和网络的发展普及，全球的数据信息存储量呈爆炸式增长的趋势。虽然存储设备的售价一直在不停地下降，但也远远赶不上数据扩张增长的速度。数据消冗(或称冗余数据消除)作为一种通过大规模地有效地消除冗余数据的技术，成为了近年来存储系统研究的热点。冗余数据消除不仅能够大量地节省了存储空间以及提高存储系统性能，而且通过避免冗余数据传输而节省了网络带宽。冗余数据消除技术的兴起源于存储市场中的大量数据备份和归档的需求，而需求带动了研发与产品化，IBM、HP、EMC、NEC、Microsoft这些存储大公司都瞄准了数据消冗市场，开发出了一系列的数据消冗产品。一般而言，通过有效地检测并消除存储系统中的冗余数据，可以实现数倍甚至是数十倍地节省存储空间的效果。

面向存储系统的数据消冗技术包括数据去重和差量压缩，其中差量压缩主要负责处理相似数据消冗。比如两个数据块A1和A2仅几个字节不同的情况，差量压缩技术通过计算数据块A1和A2的差量，实现节省存储空间的目的。具体而言，差量压缩是一项高效的数据压缩技术，它能够根据引用数据块A_r对其相似数据块A_i进行高度压缩。数据块的相似度越高，则压缩效率越高。如公式所示，把A_r和A_i输入Delta算法器，Delta算法器会输出一个差量数据△_r,i代表文件A_i的压缩版本。如需要解压数据A_i，则读取差量数据和引用数据块A_r即可以计算得出数据A_i。

但是把差量压缩技术结合到存储系统中不那么简单，主要的挑战是需要先确定对哪些数据进行差量压缩，即如何查找相似的数据。现有的相似数据查找方法具有计算速度慢，可扩展性差等缺点，现在常用的相似性特征值提取方法计算带宽只有几十MB/s，这严重限制了差量压缩算法的推广和发展。

原始的方案基于全局扫描数据块的特征值(假设数据块的长度为N)，具体采用基于滑动窗口的技术，针对每个窗口算法Rabin哈希值，这样就产生了N个Rabin值，同时对着N个Rabin值进行M次线性变换，获得M维Rabin值，然后对这M维的数据进行特征值提取(一般来说是提取最大值)，这样就获得了M个特征值，然后对这M个特征值进行组合就获得了超级特征值。

如下公式给出了具体计算案例：

SuperFearture_k＝Rabin(Feature₁,Feature₂,...) (4)

这里Feature_i指的就是相似性特征值，SuperFeature_k指的是超级特征值，Rabin(W_j)表示滑动窗口W_j的Rabin指纹，m_i和a_i表示预定的随机数；在这里数据块的长度为N，所以该数据块有N个滑动窗口，相似性特征值Feature就是在这N个滑动窗口的Rabin指纹中取哈希最大值。不同预定值m_i和a_i就会产生不同相似性特征值。

而超级特征值算法就是采用了多个m_i和a_i组合产生多个维度的相似性特征值，然后采用三个或者是三个以上Feature组成超级特征值。目前主流相似数据检测方案推荐计算多个超级特征值SuperFeature来提高相似查找的效率：即只要有一个超级特征值匹配就认定两个数据块很相似，从而可以进入下一步的差量压缩编码，最终实现节省存储空间的目的。

需要对数据块全局扫描内容计算Rabin指纹值(Rabin计算很费时)，同时需要对这所有的Rabin指纹值进行M次线性变换计算(线性变换计算很费时)，以获得M个特征值，从而进一步组装获得多个超级特征值，整体计算速度很慢。

因此，如何提升相似数据的检测速度是本领域技术人员所亟待解决的技术问题。

发明内容

为了解决现有技术中的问题，本发明提供了一种基于统一采样的快速相似数据检测方法。

本发明提供了一种基于统一采样的快速相似数据检测方法，包括以下步骤：

A、基于滑动窗口算法快速计算哈希集合；

B、对计算得出的哈希集合进行快速统一采样。

作为本发明的进一步改进，在步骤B后，进行以下过程：基于采样后的哈希集合，再提取特征值和超级特征值用于相似性匹配查找。

作为本发明的进一步改进，还包括以下步骤：

C、对采样后的哈希集合，进行M次线性变换，获得M个新的集合，并基于计算最大值原则，每个集合提取出一个特征值；

D、对特征值进行超级特征值打包，并向已经存在的超级特征值索引库里面进行查找匹配；

E、如果有一个超级特征值匹配，则认为数据块相似，进一步差量压缩编码处理以及存储；对于未匹配的数据块，则将相应的数据块存入存储系统，同时将对应的超级特征值写入超级特征值索引库。

作为本发明的进一步改进，在步骤A中，基于快速滑动哈希算法，计算出得滑动指纹集{F₁,F₂,……,F_N}。

作为本发明的进一步改进，在步骤C中，采样得出新的集合{Z₁,Z₂,……,Z_X}，该集合的成员数远远小于原始滑动指纹集大小N。

作为本发明的进一步改进，在步骤A中，快速滑动哈希算法为：通过一个32/64位的整形数数组放大数据字节内容，实现哈希散列的效果，同时满足滑动哈希算法要求，即当前窗口的哈希值可以基于上个窗口哈希值快速算出。

作为本发明的进一步改进，快速滑动哈希算法的核心计算策略如下：fp_i＝(fp_i-1＜＜1)^G[b]，其中，G指一个预先算好的固定随机数组，可以对每个字节映射到一个很大随机数；fp_i就是FastHash算出来的当前滑动窗口的指纹值；fp_i-1就是当前滑动窗口的上一个窗口的指纹值；b就是当前滑动窗口的最后一个字节的内容。

作为本发明的进一步改进，步骤B中的快速统一采样为：统一判断fp_i的前X1个比特位(或者是后X1个比特位，或者是中间X1个比特位)是否为零(或者统一判断为一；或者统一判断为设定值X2，比如X1＝5的情况：01011；或者其他类似的采样方法)，如果为零，则进入采样集合，X1为设定值。

作为本发明的进一步改进，X1可以等于1，2，3，4等，而且采样的比例也对应为1/(2^X1)。

作为本发明的进一步改进，在步骤C中，每个集合提取出一个特征值，即最大值或者最小值，特征值的计算公式如下，

其中，特征值又称相似性特征值，Feature_i指的就是相似性特征值，FastHash W_j)表示滑动窗口W_j的FastHash指纹，m_i和a_i表示预定的随机数；在这里数据块的长度为N，所以该数据块有N个滑动窗口，相似性特征值Feature_i就是在这N个滑动窗口的FastHash指纹中取哈希最大值，不同预定值m_i和a_i会产生不同相似性特征值。

作为本发明的进一步改进，在步骤D中，超级特征值的计算公式如下，

SuperFearture_k＝Hash(Feature₁,Feature₂,...)，

其中，SuperFeature_k指的是超级特征值，将用于最终的相似数据匹配，在上面这条计算超级特征值的公式中的Hash算法不做具体要求(因为这里涉及到的数据量很少)，可以取SHA1，Rabin等指纹算法。

本发明的有益效果是：通过上述方案，在保持原有的相似性检测效率的前提下，通过快速滑动哈希计算，以及通过统一采样方法大幅度地减少了需要线性变换的指纹数量，从而简化了后面的提取特征值和超级特征值的计算，最终大幅度提升相似数据检测速度，以实现面向大规模存储系统的快速高效的相似数据检测效果。

附图说明

图1是本发明一种基于统一采样的快速相似数据检测方法的相似数据差量压缩的整理过程图。

图2是本发明一种基于统一采样的快速相似数据检测方法的快速滑动哈希算法的示意图。

图3是本发明一种基于统一采样的快速相似数据检测方法的流程图。

具体实施方式

下面结合附图说明及具体实施方式对本发明作进一步说明。

如图1至图3所示，一种基于统一采样的快速相似数据检测方法，包括以下步骤：

A、基于滑动窗口算法快速计算哈希集合，确保尽可能多的覆盖重复或者相似内容，即如果两个数据块相似，那其所对应的哈希集合也很有很多重复值；

B、对计算得出的哈希集合进行快速统一采样，如果两个数据集很相似，那么对这个数据集进行统一采样后的数据集也很相似；

C、对采样后的哈希集合，进行M次线性变换，获得M个新的集合，并基于计算最大值原则，每个集合提取出一个特征值(最大值或者最小值)，特征值的计算公式如下，

其中，特征值又称相似性特征值，Feature_i指的就是相似性特征值，FastHash(W_j)表示滑动窗口W_j的FastHash指纹，m_i和a_i表示预定的随机数；在这里数据块的长度为N，所以该数据块有N个滑动窗口，相似性特征值Feature_i就是在这N个滑动窗口的FastHash指纹中取哈希最大值，不同预定值m_i和a_i会产生不同相似性特征值；

D、对特征值进行超级特征值打包，并向已经存在的超级特征值索引库里面进行查找匹配，超级特征值的计算公式如下，

SuperFearture_k＝Hash(Feature₁,Feature₂,...)，

其中，SuperFeature_k指的是超级特征值；

在步骤A中，基于快速滑动哈希算法，计算出得滑动指纹集{F₁,F₂,……,F_N}。

在步骤C中，采样得出新的集合{Z₁,Z₂,……,Z_X}，该集合的成员数远远小于原始滑动指纹集大小N。

在步骤A中，快速滑动哈希算法(FastHash)为：通过一个32/64位的整形数数组放大数据字节内容，实现哈希散列的效果，同时满足滑动哈希算法要求，即当前窗口的哈希值可以基于上个窗口哈希值快速算出。

快速滑动哈希算法的核心计算策略如下：fp_i＝(fp_i-1＜＜1)^G[b]，其中，G指一个预先算好的固定随机数组，可以对每个字节映射到一个很大随机数；fp_i就是FastHash算出来的当前滑动窗口的指纹值；fp_i-1就是当前滑动窗口的上一个窗口的指纹值；b就是当前滑动窗口的最后一个字节的内容。

总的来说，FastHash实现类似传统Rabin滑动哈希计算的效果，但是这里的计算只需要一次移位以及一次异或运算即可完成。同时注意到这里的异或运算也可以变更为加法运算。

本发明提出一种快速哈希采样方法，可以将需要提取特征值的集合缩小到很小的规模。这里可采样方法必须要求是固定统一的采样的方法，这样才能保障对原始相似的数据指纹集，经过采样后的指纹集仍然能保持很高的相似度。这里建议可能的采样方法例如：判断fpi的前2个比特位是否为零，如果为零，则进入采样集合；那么按照上述采样策略的缩小规模比就是4:1；如果需要进一步缩小规模，则可以扩大需要判断的比特位。

本发明提供的一种基于统一采样的快速相似数据检测方法，如果两个数据块很相似，那么有很多滑动窗口内容就是相同的，这就意味着很多滑动窗口指纹值也是相同的；进一步推导：如果采用统一的采样方法，那么意味着采样后的指纹值也还是相同的；换而言之，相同的指纹会被相同的采样方法选中，输出到后续的采样指纹集合中。

本发明提供的一种基于统一采样的快速相似数据检测方法，步骤A简化了滑动窗口指纹计算，相对于传统的Rabin计算数倍地提升了速度；步骤B的运算操作，通过统一采样操作，快速选择符合要求的哈希值即可以大幅度减少后续的线性变换、特征值判断、超级特征值打包等计算；步骤A和步骤B的结合大大地加速了超级特征值计算的过程，消除了传统相似性计算里面的主要瓶颈。

本发明提供的一种基于统一采样的快速相似数据检测方法，在保持原有的相似性检测效率的前提下，通过快速滑动哈希计算，以及通过统一采样方法大幅度地减少了需要线性变换的指纹数量，从而简化了后面的提取特征值和超级特征值的计算，最终大幅度提升相似数据检测速度，以实现面向大规模存储系统的快速高效的相似数据检测效果。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于统一采样的快速相似数据检测方法，其特征在于，包括以下步骤：

A、基于滑动窗口算法快速计算哈希集合；在步骤A中，基于快速滑动哈希算法，计算出得滑动指纹集{F₁,F₂,……,F_N}；

B、对计算得出的哈希集合进行快速统一采样；步骤B中的快速统一采样为：统一判断步骤A计算出来的当前滑动窗口的指纹值fp_i的前X1个比特位或者是后X1个比特位或者是中间X1个比特位是否为X2，如果为X2，则进入采样集合，X1、X2均为设定值；采样得出新的哈希集合{Z₁,Z₂,……,Z_X}，该集合的成员数远远小于原始滑动指纹集大小N；

其中，

在步骤B后，进行以下过程：基于采样后的哈希集合，再提取特征值和超级特征值用于相似性匹配查找；

还包括以下步骤：

2.根据权利要求1所述的基于统一采样的快速相似数据检测方法，其特征在于：在步骤A中，快速滑动哈希算法为：通过一个32/64位的整形数数组放大数据字节内容，实现哈希散列的效果，同时满足滑动哈希算法要求，即当前窗口的哈希值可以基于上个窗口哈希值快速算出。

3.根据权利要求2所述的基于统一采样的快速相似数据检测方法，其特征在于：快速滑动哈希算法的核心计算策略如下：fp_i＝(fp_i-1＜＜1)^G[b]，其中，G指一个预先算好的固定随机数组，可以对每个字节映射到一个很大随机数；fp_i-1就是当前滑动窗口的上一个窗口的指纹值；b就是当前滑动窗口的最后一个字节的内容。

4.根据权利要求1所述的基于统一采样的快速相似数据检测方法，其特征在于：X1设定为1或者2或者3或者4。

5.根据权利要求1所述的基于统一采样的快速相似数据检测方法，其特征在于：在步骤C中，每个集合提取出一个特征值，即最大值或者最小值，特征值的计算公式如下，

在步骤D中，超级特征值的计算公式如下，

SuperFearture_k＝Hash(Feature₁,Feature₂,...)，

其中，SuperFeature_k指的是超级特征值。