CN109716658A

CN109716658A - 一种基于相似性的重复数据删除方法和系统

Info

Publication number: CN109716658A
Application number: CN201680087037.XA
Authority: CN
Inventors: 斯坦尼斯拉夫·弗拉基米罗维奇·莫伊谢耶夫; 丹尼斯·瓦西里耶维奇·帕弗芬诺夫; 丹尼斯·弗拉基米罗维奇·帕尔霍缅科; 德米特里·尼古拉耶维奇·巴宾; 关坤
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2016-12-15
Filing date: 2016-12-15
Publication date: 2019-05-03
Anticipated expiration: 2036-12-15
Also published as: EP3539218B1; US11514666B2; WO2018111133A1; CN109716658B; US20190294589A1; EP3539218A1

Abstract

公开了一种基于相似性的重复数据删除方法，包括以下步骤：接收输入数据块；根据所述输入数据块计算离散小波变换(discrete wavelet transform，简称DWT)系数；从计算得到的DWT系数中提取特征相关的DWT数据；对所述提取的特征相关的DWT数据进行量化以获得密钥作为量化结果；根据所述密钥构建所述输入数据块的局部敏感指纹；计算所述输入数据块的所述局部敏感指纹和超速缓存内存中多个数据块中的每个数据块的局部敏感指纹之间的相似度；选择最优参考数据块，例如在所述超速缓存内存中的所有数据块中与所述输入数据块具有最大相似度的数据块；根据所述输入数据块与所述最优参考数据块之间的相似度确定是否需要差分压缩；如果需要差分压缩，则对所述输入数据块和所述最优参考数据块进行差分压缩。还提供一种基于相似性的重复数据删除系统。

Description

一种基于相似性的重复数据删除方法和系统

技术领域

本发明涉及一种基于相似性的重复数据删除方法和一种基于相似性的重复数据删除系统。本发明还涉及一种存储程序代码的计算机可读存储介质，所述程序代码包括用于执行该方法的指令。

背景技术

传统的基于身份的重复数据删除是一种用于删除重复数据的重复副本的技术，可以应用于存储系统以提高存储利用率，也可应用于网络数据传输以提高吞吐量。典型的重复数据删除过程需要搜索重复的数据块。就存储系统而言，传统的重复数据删除技术可以通过用系统中已存储数据的相同部分的硬链接替换数据的重复部分来节省空间。处理小块数据时，硬链接等技术可以提供良好的空间增益。

传统的基于身份的重复数据删除技术的缺点之一是只能搜索到精确匹配的数据块。对于备份应用程序，这意味着，如果数据块稍加修改，那么重复数据删除系统将无法找到该数据块的匹配数据。因此，对于某些数据来说，即使数据块之间存在许多相似性，基于身份的重复数据删除的优势也可能并不十分显著。

重复数据删除系统的另一个典型要求是动态的重复数据删除，即能够实时为给定的输入数据块找到相似的数据块。只有在确定输入数据块是否类似于之前备份的另一个数据块(通常保存在高速缓存中)后才能够足够迅速地实现实时的重复数据删除。为了实现实时的重复数据删除，传统的基于身份的重复数据删除方法通常需要大容量的内存缓存来提供良好的压缩率，因此并不适用于内存有限的情况。

发明内容

本发明的目的在于提供一种基于相似性的重复数据删除方法和一种基于相似性的重复数据删除系统，用于解决适用于基于相似性的重复数据删除的局部敏感哈希(locality-sensitive hashing，简称LSH)方法的选择问题。所述基于相似性的重复数据删除方法和所述基于相似性的重复数据删除系统克服了现有技术中的一个或多个上述提到的问题。局部敏感哈希方法具有高速计算和高相似性检测速率的优点，且需要少量内存用于高速缓存。

以上和其他目的通过独立权利要求的特征来实现。进一步的实现形式从独立权利要求、说明书和附图中显而易见。

本发明第一方面提供一种基于相似性的重复数据删除方法，其特征在于，包括以下步骤：接收输入数据块；根据所述输入数据块计算离散小波变换(discrete wavelettransform，简称DWT)系数；从计算得到的DWT系数中提取特征相关的DWT数据；对所述提取的特征相关的DWT数据进行量化以获得密钥作为量化结果；根据所述密钥构建所述输入数据块的局部敏感指纹；计算所述输入数据块的所述局部敏感指纹和超速缓存内存中多个数据块中的每个数据块的局部敏感指纹之间的相似度；选择最优参考数据块，例如在所述超速缓存内存中的所有数据块中与所述输入数据块具有最大相似度的数据块；根据所述输入数据块与所述最优参考数据块之间的相似度确定是否需要差分压缩；如果需要差分压缩，则对所述输入数据块和所述最优参考数据块进行差分压缩。差分压缩代表一种允许两个文件的内容仅通过传达其差异进行同步的算法。具体而言，差分压缩是计算两个二进制数据块之间的差值的无损压缩方法。与使用精确匹配搜索的传统的基于身份的重复数据删除相比，差分压缩的压缩率更高。

第一方面的基于相似性的重复数据删除方法允许在平衡时间复杂度和相似性检测质量的同时降低内存消耗。

本发明第一方面的方法可以由本发明第二方面的计算机可读存储介质执行。本发明第一方面的方法的其他特征或实现方式可以用于实现本发明第三方面及其不同实施方式的基于相似性的重复数据删除系统的功能。

根据第一方面的所述基于相似性的重复数据删除方法，在第一种实现方式中，所述方法还包括：如果不需要差分压缩，则根据所述输入数据块与所述最优参考数据块之间的相似度确定是否需要传统单块压缩；如果需要传统单块压缩，对所述输入数据块进行传统单块压缩。所述传统单块压缩表示使用本领域技术人员已知的任何传统压缩过程对单个输入数据块进行数据压缩。对不需要差分压缩的那些数据块进行单块压缩提高了总压缩比，减少了由重复数据删除系统产生的数据，进而减少了数据消耗。

根据第一方面或第一方面的第一种实现方式中的所述基于相似性的重复数据删除方法，在第二种实现方式中，计算局部敏感指纹之间的相似度，包括：从所述局部敏感指纹中重建DWT系数；计算一系列重建的DWT系数之间的距离，其中，所述重建的DWT系数的每个系列由向量表示；所述相似度与所述计算得到的距离相反。该实现方式计算局部敏感指纹之间的相似度，而非计算数据块本身之间的相似性。计算局部敏感指纹之间的相似度比估计大型数据块之间的相似性要容易计算得多。此外，基于局部敏感指纹的相似度已证明与通过数据块的直接比较(不首先进行指纹比较)计算得出的相似性度量具有稳定的相关性。这使得在许多场景中接近最佳压缩比成为可能。

根据第一方面的第二种实现方式中的所述基于相似性的重复数据删除方法，在第三种实现方式中，所述计算局部敏感指纹之间的相似度还包括对所述重建的DWT系数进行反向离散小波变换以重建数据，计算一系列重建数据之间的距离。该步骤不是必须的，可以省略。反向离散小波变换的应用增加了基于局部敏感指纹的相似度与通过数据块的直接比较计算得到的相似性度量之间的相关准确度。

根据第一方面或第一方面的上述实现方式中的任意一种的所述基于相似性的重复数据删除方法，在第四种实现方式中，预先计算所述超速缓存内存中的多个数据块的局部敏感指纹。将预先计算得到的局部敏感指纹存储在超速缓存内存，在基于相似性的重复数据删除时就不必再进行计算。因此处理速度提高，处理时间相应减少。

根据第一方面或第一方面的上述实现方式中的任意一种的所述基于相似性的重复数据删除方法的，在第五种实现方式中，确定是否需要差分压缩，包括：接收所述输入数据块与所述最优参考数据块之间的之前已计算的相似度；将所述相似度与阈值进行比较；如果所述相似度高于所述阈值，则确定需要差分压缩。将所述相似度与阈值相比较是确定可能用于差分压缩的两个数据块之间相似性的最有效方式。

根据第一方面的第五种实现方式中的所述基于相似性的重复数据删除方法的，在第六种实现方式中，所述阈值是预定义的或者是动态定义的，以调节要进行压缩的数据块的数量。通过阈值的动态调节，可以调节要进行压缩的数据块的数量，且可以获得期望的压缩比。

根据第一方面或第一方面的上述实现方式中的任意一种中的所述基于相似性的重复数据删除方法，在第七种实现方式中，所述方法还包括：在计算所述DWT系数之前对所述输入数据块进行预处理，并对所述预处理得到的输入数据块小波变换以计算所述DWT系数，其中，对所述输入数据块进行预处理包括以下任意一种：计算所述输入数据块的n-gram的直方图、计算所述输入数据块的n-gram的缩减直方图、计算所述输入数据块的n-gram散列的直方图，或者计算所述输入数据块的n-gram散列的缩减直方图，其中，n-gram表示所述输入数据块的长度为n的连续序列，n≥1。对数据块进行预处理，提高了局部敏感指纹的质量，并相应地提高了重复数据删除系统的整体质量。预处理的目的是通过提取一些可以提高相似性检测质量的重要特征来转换初始数据。

根据第一方面的第七种实现方式中的所述基于相似性的重复数据删除方法，在第八种实现方式中，将预处理的结果重新排序或分拣，并对重新排序或分拣后的预处理得到的输入数据块进行小波变换以计算所述DWT系数。对数据进行分拣可以提高小波变换的质量。

根据第一方面或第一方面的上述实现方式中的任意一种中的所述基于相似性的重复数据删除方法的，在第九种实现方式中，所述特征相关的DWT数据至少根据以下之一进行提取：前N个系数的值、N个最大系数的值、N个最大系数的位置、N个最大系数的值和位置。N是针对整个重复数据删除系统预先确定的。所有这些替代方法都提供了可在未来相似性分析中有效使用的提取信息，例如，对数据中最常见的子序列进行编码的信息。不同的产品可以选择不同的N值。可以在重复数据删除系统的开发或测试阶段选择N的值，并且在系统的生命周期内保持不变。N的值越大，相似性检测越好(即压缩率更好)。N的数量越少，运算速度越快。实验表明，在很多情况下，N＝8可以在速度和压缩率之间取得良好的平衡。

根据第一方面或第一方面的上述实现方式中的任意一种中的所述基于相似性的重复数据删除方法，在第十种实现方式中，所述方法还包括：根据所述差分压缩中数据块的使用统计，确定所述输入数据块是否应该存储在所述超速缓存内存中和/或是否应该从所述超速缓存内存中移除任何数据块；将所述输入数据块添加到所述超速缓存内存中和/或从所述超速缓存内存中移除数据块。该实现可以避免在超速缓存内存中维持过多的数据块，且平衡了所需的高速缓存容量和以便在基于相似性的重复数据删除中进一步使用的数据块存储数量。

本发明第二方面涉及一种存储程序代码的计算机可读存储介质，其中，所述程序代码包括指令，以执行根据第一方面、或第一方面实现方式中的任意一种所述的方法。

本发明第三方面涉及一种基于相似性的重复数据删除系统，包括：输入模块，用于接收输入数据块；超速缓存内存，用于存储数据块；计算模块，用于根据所述输入数据块计算离散小波变换(discrete wavelet transform，简称DWT)系数；从计算得到的DWT系数中提取特征相关的DWT数据；对所述提取的特征相关的DWT数据进行量化以获得密钥作为量化结果；根据所述密钥构建所述输入数据块的局部敏感指纹；确定模块，用于计算所述输入数据块的所述局部敏感指纹和所述超速缓存内存中多个数据块中的每个数据块的局部敏感指纹之间的相似度；选择最优参考数据块，例如在所述超速缓存内存中的多个数据块中的所有块中具有最大相似度的数据块；根据所述输入数据块与所述最优参考数据块确定是否需要差分压缩；压缩模块，用于对所述输入数据块和所述最优参考数据块进行差分压缩。

根据第三方面的所述基于相似性的重复数据删除系统，在第一种实现方式中，所述确定模块还用于，如果不需要差分压缩，则：根据所述相似度确定是否需要传统单块压缩；所述压缩模块还用于：如果需要传统单块压缩，对所述输入数据块进行传统单块压缩。

根据第三方面或第三方面的第一种实现方式的所述基于相似性的重复数据删除系统，在第二种实现方式中，所述确定模块还用于根据所述差分压缩中数据块的使用统计，确定所述输入数据块是否应该存储在所述超速缓存内存中和/或是否应该从所述超速缓存内存中移除任何数据块。

第一方面的所有实现方式可以轻易地组合并与第三方面的所有实现方式一起使用。

根据下面描述的实施例，本发明的上述和其他方面将变得显而易见。

附图说明

为了更清楚地说明本发明实施例中的技术特征，下面将对实施例描述中所需要使用的附图作简单地介绍。下面描述中的附图仅仅是本发明的一些实施例，这些实施例在不违背本发明如权力要求书中所定义的保护范围的情况下，可以进行修改。

图1是根据本发明实施例的基于相似性的重复数据删除方法的流程图；

图2是根据本发明另一实施例的使用局部敏感指纹的重复数据删除过程的流程图；

图3是根据本发明另一实施例的决定进行何种压缩的方法的流程图；

图4是根据本发明另一实施例的如图2所示的数据块的局部敏感指纹的计算过程的流程图；

图5示出了根据本发明另一个实施例的用于预处理数据块并计算DWT系数的一些选项；

图6示出了作为图5预处理结果而接收的缩减直方图；

图7A–7D示出了根据本发明实施例的计算LSH指纹的方法；

图8是根据本发明实施例的计算两个指纹之间的相似性度量的过程的流程图；

图9A–9B示出了根据本发明另一实施例的相似性估计过程；

图10是根据本发明另一实施例的计算两个LSH指纹之间的相似性的方法的流程图；

图11示出了根据本发明的方法的测试结果；

图12是根据本发明实施例的基于相似性的重复数据删除系统的框图。

具体实施方式

上文描述仅仅为本发明的实施方式，本发明的范围并不仅限于此。本领域技术人员可以容易地做出任何变化或替换。因此，本发明的保护范围应以所附权利要求的保护范围为准。

图1示出了根据本发明第一方面的基于相似性的重复数据删除方法100。该方法开始于步骤101，接收输入数据块。在步骤102中，根据所述输入数据块计算离散小波变换(discrete wavelet transform，简称DWT)系数。在步骤103中，从所述计算得到的DWT系数中提取特征相关的DWT数据，并量化(步骤104)所述提取的特征相关的DWT数据以获得密钥作为量化结果。根据所述获取到的密钥在步骤105中构建所述输入数据块的局部敏感指纹，且在步骤106中，计算所述输入数据块的所述局部敏感指纹和超速缓存内存多个数据块中的每个数据块的局部敏感指纹之间的相似度。所述相似度可以在搜索阶段存储在临时存储器中，并且在搜索完成时从存储器中移除。在步骤107中，根据计算得到的相似度选择最优参考数据块。选择所述超速缓存内存中所有数据块中与所述输入数据块具有最大相似度的数据块作为最优参考数据块。根据输入数据块与最优参考数据块之间的相似度，在步骤108中进一步确定是否需要差分压缩。如果需要差分压缩，则对所述输入数据块和所述最优参考数据块进行差分压缩(步骤109)。

图2示出了本发明提出的使用局部敏感指纹进行的重复数据删除过程200。重复数据删除用于删除重复数据的重复副本。基于相似性的重复数据删除用于利用数据相似性进行压缩。在步骤201中读取输入数据块A。然后计算(步骤202)输入数据块A的局部敏感指纹LSH_A。在步骤203中检查高速缓存是否为空。如果高速缓存不为空，则从所述高速缓存中选择参考数据块B以便可能用于差分压缩。然后决定压缩类型：差分压缩、传统单块压缩或不压缩。如果需要，则进行差分压缩(步骤205)。差分压缩是计算两个二进制数据块之间差值的无损压缩方法。如果在步骤203中确定所述高速缓存为空，则对数据块A进行传统单块压缩或不进行压缩(步骤206)。在步骤207通过输出压缩结果结束该过程。

如图2中步骤204所示，选择参考数据块的一种方法是在高速缓存中搜索参考数据块B，使得LSH_A和LSH_B之间的相似度的相反值在高速缓存中的所有数据块B中是最小的。相似度或相似性度量是显示两个数据块相似程度的数值。相似性检测过程是检测两部分数据是否相似的一种过程。该搜索可以通过遍历高速缓存中的所有数据块B并计算LSH_A和LSH_B之间的相似度的相反值来实现。高速缓存中数据块的LSH指纹通常是预先计算的。或者，可以使用类似散列表的数据结构来加快搜索时间。具体的搜索方法与本发明无关。

整个说明书中，指纹是小的具有固定大小的数据。局部敏感哈希(locality-sensitive hashing，简称LSH)是保留数据局部性的散列方法，即，如果两个数据块A和B具有相似的LSH指纹，则A和B是相似的。在处理LSH散列时，必须定义两种相似性度量：一种用于数据块，另一种用于LSH指纹，尽管散列通常使用一种方法来根据任意长度的数据块计算固定大小的指纹。

图3示出了决定压缩类型的方法300。在步骤301中，计算输入数据块A的局部敏感指纹LSH_A与候选数据块B的局部敏感指纹LSH_B之间的相似度。在步骤302中，将输入数据块A与候选数据块B之间的相似度与某个阈值threshold进行比较。所述阈值可以预定义或动态定义，以调节要进行压缩的数据块的数量。如果相似度高于阈值，则对数据块A和数据块B进行差分压缩(步骤303)。如果相似度低于阈值，则对数据块A和数据块B中的一个或两个进行传统单块压缩或不进行压缩(步骤304)。该方法通过输出压缩结果在步骤305结束。

图4示出了图2步骤202中执行的数据块的局部敏感指纹的计算过程400。该过程始于在步骤402中计算DWT系数。DWT系数表示离散小波变换的结果(一系列实数)。离散小波变换(discrete wavelet transform，简称DWT)是小波变换的一种变体，可应用于离散时间序列，其中，所述小波变换是一种使用小波的数据序列变换，将初始数据块转换为一系列系数(实数)。可以在计算DWT系数之前对数据块进行预处理(步骤401)，这一步骤是可选非必须的。在计算DWT系数之后，从计算得到的DWT系数中选择(提取)(步骤403)特征相关的项(数据、信息)。在步骤404中量化所选出的特征相关的项，并从量化值中构建(步骤405)数据块的局部敏感哈希(locality-sensitive hashing，简称LSH)指纹。

所提出的局部敏感指纹的想法是对数据块应用信号处理方法以提取与相似性分析相关的信息。局部敏感哈希基于离散小波变换。小波变换是一种线性数据序列变换，不仅在频域中定位特征，而且在时域中也定位特征。小波变换可以认为是最先进的特征提取技术之一。

离散小波变换(discrete wavelet transform，简称DWT)是普通小波变换的离散版本，可以应用于任意性质、任意长度的离散时间序列。对于给定的数据序列，DWT提供了一个分解系数向量。每个系数携带了有关特征强度的信息。其索引携带了原始数据向量中特征位置和比例的信息。这样，DWT系数就可以提供关于数据特征的信息。DWT的最佳选择之一是使用哈尔变换，其他选项包括使用多贝西变换、傅里叶变换或者其算法变体。

计算DWT系数最直接的方法如下所述：初始数据块可以视为一个由N个整数构成的序列(例如，每个字节可以视为从0到255的整数，或者将每对连续字节视为0到65535之间的整数)。然后将离散小波变换应用于该N个整数的序列。这种变换将产生一系列N个实数值(DWT系数)。这些系数稍后将用于从中构建LSH指纹。

预处理是一个可选步骤，可以提高重复数据删除系统的整体质量，在进行离散小波变换之前执行。预处理的目的是通过提取一些可以提高相似性检测质量的重要特征来转换初始数据。预处理的一个优选方法是计算初始数据块的n-gram的直方图或者n-gram散列的直方图。图5示出了预处理数据块和计算DWT系数的一些选项(包括上述已经讨论过的“无预处理”选项)。

用n-gram表示一些数据块B的长度为n的连续子序列，可以使用不同的n值：n＝1、n＝2、n＝3、n＝4、n＝5都是很好的选择；n也可以取更大的值。如果n＝1，那么1-gram称为unigram；如果n＝2，那么2-gram称为bigram。如果一个数据块的长度为N个字节，则有(N–n+1)个长度为n的子序列，其中一些可能重合。所有可能的n字节序列的总数为256^n。如果对所有256^n个n字节序列都进行排序，则可以计算n-gram上的直方图。

n-gram的直方图为非负整数的向量a(1)、a(2)、……、a(256^n)，称为频率，其中，a(k)是在初始数据块B中作为子序列的编号为k的n-gram的出现次数。如果初始数据块B的长度N足够大，则a(k)中的大部分将等于零。因此，所有256^n个频点号都不保存在存储器中。相反，作为初始N字节数据块(1≤S≤N–n+1)的子序列出现的n-gram的频率b(1)、b(2)、……、b(S)可以保存在内存中。序列b(1)、b(2)、……、b(s)称为缩减直方图。S＝10的n-gram缩减直方图的示例显示在图6中。

缩减直方图b(1)、b(2)、……、b(S)可以作为预处理步骤的结果来对待。计算完成后，该过程进入下一步：将离散小波变换应用于序列b(1)、b(2)、……、b(S)。结果，获得了一系列S个实数值(DWT系数)。也可以将DWT应用于直方图a(1)、a(2)、……、a(256^n)本身。

预处理数据块的另一种方法是首先计算n-gram(对于某个n来说)的缩减直方图b(1)、b(2)、……、b(S)，然后对预处理的直方图重新排序(例如按照升序排列)，制作另一个直方图b'(1)、b'(2)、……、b'(S)，其中，b'(1)≤b'(2)≤……≤b'(S)。然后对重新排序后的缩减直方图b'(1)、b'(2)、……、b'(S)进行离散小波变换。

预处理数据块的另一种方法是使用n-gram散列的直方图。n-gram散列的直方图为具有固定大小S的向量a(1)、a(2)、……、a(S)，其中，S通常是2的幂，即，S＝2^K(对于某个K来说)。不同于n-gram的普通直方图，散列的直方图首先计算n-gram的散列函数并计算给定散列值的出现次数。n-gram散列的直方图具有可变固定大小的优点，而缺点则是有可能发生散列碰撞，进而降低了相似性检测质量。计算n-gram散列的直方图时可以使用任何类型的散列函数。

另外，在预处理数据块之后，可以对预处理的结果进行重新排序(可以使用固定的重新排序或可以使用分拣)。有时，对数据进行分拣可以提高小波变换的质量。

图4步骤403中选择特征相关的信息的目的在于，从上述步骤计算得到的DWT系数中提取最有价值的信息。此时，最有价值的信息是指可以在将来的相似性分析中有效使用的信息，例如，对数据中最常见的子序列进行编码的信息。

如果在上述步骤中计算得到DWT系数的序列为c(1)、c(2)、……、c(S)，可以使用以下方法提取特征相关的信息：

1、选择前M个系数的值，即，c(1)、c(2)、……、c(M)，其中，M≤S。M＝8可为很好的选择，M也可以取其他值；

2、选择具有最大绝对值的前M个系数的值，即，c(pos_1)、c(pos_2)、……、c(pos_M)，其中，pos_1、pos_2、……、pos_M是具有最大绝对值的前M个系数的位置；

3、选择绝对值最大的M个系数的位置pos_1、pos_2、……、pos_M；

4、选择具有最大绝对值的M个系数的值和位置，即，pos_1、c(pos_1)、pos_2、c(pos_2)、……、pos_M、c(pos_M)。

在使用上述方法之一(或这些方法的组合)选择了一些特征相关的DWT系数c_1、c_2、……、c_M之后，如图4中步骤405所示，指纹可以从这些系数中建构出来。如何建构有多种选择。首先，c_1、c_2、……、c_M是实数，可选地，为了得到较短的指纹，可以使用量化技术减少存储在实数c_1、c_2、……、c_M中的信息，如图4中步骤404所示。

量化是一种以有限精度将实数映射为整数或实数的方法。量化的目的是将实数映射为固定精度的值。精度通常是预先确定的，可以定义为可用于映射整数或实数的比特数量。量化的例子是四舍五入和截断。

对DWT系数和位置进行量化，量化的结果称为密钥。量化的例子如下：

1、用一些因子对系数值进行量化：Coeff＝＝>key＝truncate(Coeff/Factor)；

2、浮点尾数的截断：X*10^a＝＝>key＝(X/Factor)*10^a；

3、系数位置的量化：Pos＝＝>key＝round(Pos/Factor)。

每个密钥都与信息容量相关联，即，可用于存储在密钥中的比特的数量：

Key_1with capacity＝Cap_1bits

Key_2with capacity＝Cap_2bits

…

Key_M with capacity＝Cap_M bits

在计算出所有密钥Key_1、Key_2、……、Key_M之后，可以从中构建指纹。指纹的大小等于所有密钥的容量之和，即Size_of_fingerprint＝Cap_1+Cap_2+……+Cap_M。指纹是通过级联所有密钥到一个较大的比特阵列中获得的。

进一步描述LSH指纹的计算示例，作为以下步骤的结果：

1、如果数据块A为8KB的数据块A，则可以认为是8192个数字构成的序列X1、X2、……、X8192，其中，每个数字可以取0至255之间的值，如图7A中表格所示；

2、对图7A所示的数字序列进行离散小波变换。所述小波变换将产生8192个实数值系数，如图7B中表格所示；

3、使用上述方法，从DWT系数中选择特征相关的信息。在此例中，选择6个绝对值最大的系数及其位置，结果如图7C中表格所示；

4、此例旨在将每个系数拟合成8位有符号整数CoeffKey。因此，对系数进行量化，可以使用下面的公式作为例子：

CoeffKey＝127若round(Coeff/16)>127；

CoeffKey＝round(Coeff/16)若–128<＝round(Coeff/16)<＝127；

CoeffKey＝–128若round(Coeff/16)<-128；

在此例中，对位置不进行量化，但是如果希望指纹变小，也可以量化位置。只要每个位置的值的取值范围都是从0到8191，就需要13位来存储位置编号：

PosKey＝Key

最后，将所有6个8位密钥(有符号整数)和6个用于编码位置的13位无符号整数收集在一起，以创建一个126位指纹。密钥和位置的收集顺序不相关，但应预先定义并固定下来，以便进行反向转换。在此例中，密钥和位置是交织的，如图7D中表格所示。

可能需要测量两个数据块之间的相似性。给定两个数据块A和B，如图1中步骤106所示，计算A和B之间的相似性度量(或相似度)Similarity(A,B)。在计算了相似性度量后，重复数据删除系统可以决定对两个数据块进行压缩的类型：不压缩、差分压缩或传统压缩。如果两个数据块之间的相似性足够高(根据下面讨论的某个预定义标准)，那么对两个数据块进行差分压缩是有益的。如果两个数据块之间的相似性较低，则进行差分压缩可能没有好处。此时，重复数据删除系统可以执行传统单块压缩算法，例如，DEFLATE、LZF、LZMA、bzip2等。

因为在实际应用中数据块可能较大，可以计算相应LSH指纹LSH_A和LSH_B之间的相似性Similarity(LSH_A,LSH_B)，而不是计算A和B之间的相似性。用于计算LSH指纹之间的相似性的方法当然不同于用于计算数据块本身之间的相似性的方法。在计算出两个LSH指纹之间的相似性之后，可以根据LSH指纹之间的相似性来决定压缩类型。当且仅当在Similarity(A,B)和Similarity(LSH_A,LSH_B)之间存在良好的相关性时，才有积极的结果。本发明提议的特征之一是指纹之间的相似性确实是对数据块本身之间的相似性的良好估计，即，如果使用上述方法计算LSH指纹，则可以基于LSH指纹的相似性(远比估计大数据块之间的相似性更容易计算)做出判定。

图8示出了计算两个指纹之间的相似性度量的过程。该过程包括以下步骤：

1、从指纹LSH_A和LSH_B中重建(步骤801)DWT系数；

2、计算(步骤802)在上述步骤获得的重建DWT系数之间的距离；

3、基于DWT系数，决定压缩类型：不压缩、差分压缩或传统压缩。

应该注意到，LSH指纹的来源并不重要。一个或两个数据块可以来自输入流(立即计算LSH指纹)，或者一个或两个LSH指纹可以预先计算并存储在RAM缓存、磁盘缓存或其他存储器中。相似性估计的过程从两个LSH指纹开始。

进一步描述这个过程的示例。给出了两个指纹LSH_A和LSH_B，每个指纹大小为126位。首先，需要将指纹截断成密钥(位置和/或系数)。重建过程可以认为是建立LSH指纹的逆向过程。因此，重建必须与指纹构建时使用的封装规则一致。在此例中，提取了用于编码系数的6个8位密钥(有符号整数)和用于编码位置的6个13位无符号整数，如图9A中表格所示。

下一步，解码提取的密钥的位置和系数。只要位置已封装而未截断，就不需要对编码位置的整数进行额外的操作：Pos＝PosKey。然而，可能需要使用以下公式将密钥逆向转换为系数：Coeff＝16*CoeffKey(密钥可以视为有符号整数。)

因此，原始8192DWT的6个位置和系数可以重建。只要没有关于其他DWT系数的信息存储在LSH指纹中，就可以假定所有其他DWT系数都等于零，如图9B中表格所示。

当接收到两个指纹的所有8192个DWT系数(该系数已经从指纹中重建或配置为零)时，可以计算一系列DWT系数之间的距离。为此，将8192个系数视为8192个实数的向量。计算两个实数向量之间的距离可以使用几个度量，例如，曼哈顿度量、欧几里得度量、p度量、最大度量或其他度量。如果LSH指纹存储了DWT系数的位置作为密钥，可选地，两个LSH指纹之间的相似性可以计算为两个指纹处存在的密钥的数量(并且指纹之间的距离可以定义为与相似性相反)。实验表明，大多数度量的重复数据删除效率类似。

计算两个LSH指纹之间的相似性的替代方法如图10所示。该方法另外对在步骤1001中重建的DWT系数(的位置和值)进行反向离散小波变换(步骤1002)，以重建n-gram的直方图、n-gram散列的直方图或原始数据(取决于使用的预处理方法)。之后，计算(步骤1003)重建的直方图或原始数据之间的距离，而非重建的DWT系数之间的距离，结果在步骤1004中输出。

本发明的测试结果如图11所示。总压缩比显示了重复数据删除系统产生的数据缩减，定义为以下比例：

压缩率＝(未压缩数据的大小)/(压缩数据的大小)。

只要典型的基于相似性的重复数据删除系统支持三种压缩(即差分压缩、单块压缩和不压缩)，压缩数据的大小可以进一步分为：

压缩数据的大小＝diff_compr_size+single_block_compr_size+no_compr_size；

其中，

-diff_compr_size为使用差分压缩进行压缩的压缩数据的总的大小；

-single_block_compr_size为使用单块压缩进行压缩的压缩数据的总的大小；

-no_compr_size为没有压缩的数据的总的大小。

计算本发明提出的LSH指纹的方法具有以下优点：

1、已经显示基于LSH指纹且用上述方法计算得到的相似性度量与通过数据块的直接比较(不首先进行指纹比较)而计算得到的相似性度量具有稳定的相关性。这使得在许多场景中接近最佳压缩比成为可能；

2、指纹大小可以定制。较大的指纹尺寸会提高压缩比，但会降低速度。实验表明，少量(≤32)的DWT系数足以实现良好压缩比。如果需要非常快的速度，那么可以使用指纹大小＝8；

3、内存占用空间小。如果重复数据删除系统使用内置RAM，则其大小可以定制。实验表明，对于许多重复数据删除场景，如果使用本发明提出的方法，超速缓存大小＝300时足以接近理论的最优压缩比。

图12示出了一种基于相似性的重复数据删除系统(1200)，包括：输入模块1201、超速缓存内存1202、计算模块1203、确定模块1204、压缩模块1205。所述输入模块1201用于接收输入数据块。所述超速缓存内存1202用于存储数据块。所述计算模块1203用于：根据所述输入数据块计算DWT系数；从计算得到的DWT系数中提取特征相关的DWT数据；对所述提取的特征相关的DWT数据进行量化以获得密钥作为量化结果；根据所述密钥构建所述输入数据块的局部敏感指纹。所述确定模块1204用于计算所述输入数据块的所述局部敏感指纹和所述超速缓存内存中多个数据块中的每个数据块的局部敏感指纹之间的相似度；选择最优参考数据块，例如在所述超速缓存内存中的多个数据块中的所有块中具有最大相似度的数据块；根据所述输入数据块与所述最优参考数据块确定是否需要差分压缩。所述压缩模块1205用于对所述输入数据块和所述最优参考数据块进行差分压缩。

Claims

1.一种基于相似性的重复数据删除方法(100)，其特征在于，包括以下步骤：

接收(102)输入数据块；

根据所述输入数据块计算(103)离散小波变换(discrete wavelet transform，简称DWT)系数；

从计算得到的DWT系数中提取(104)特征相关的DWT数据；

对所述提取的特征相关的DWT数据进行量化(105)以获得密钥作为量化结果；

根据所述密钥构建(106)所述输入数据块的局部敏感指纹；

计算(107)所述输入数据块的所述局部敏感指纹和超速缓存内存中多个数据块中的每个数据块的局部敏感指纹之间的相似度；

选择(108)最优参考数据块，例如在所述超速缓存内存中的所有数据块中与所述输入数据块具有最大相似度的数据块；

根据所述输入数据块与所述最优参考数据块之间的相似度确定(109)是否需要差分压缩；

如果需要差分压缩，则对所述输入数据块和所述最优参考数据块进行差分压缩(110)。

2.根据权利要求1所述的方法，其特征在于，还包括，如果不需要差分压缩，则

根据所述输入数据块与所述最优参考数据块之间的相似度确定是否需要传统单块压缩；

如果需要传统单块压缩，对所述输入数据块进行传统单块压缩。

3.根据权利要求1至2任一项所述的方法，其特征在于，计算局部敏感指纹之间的相似度，包括：

从所述局部敏感指纹中重建DWT系数；

计算一系列重建的DWT系数之间的距离，其中，所述重建的DWT系数的每个系列由向量表示；

所述相似度与所述计算得到的距离相反。

4.根据权利要求3所述的方法，其特征在于，所述计算局部敏感指纹之间的相似度还包括对所述重建的DWT系数进行反向离散小波变换以重建数据，计算一系列重建数据之间的距离。

5.根据权利要求1至4任一项所述的方法，其特征在于，预先计算所述超速缓存内存中的多个数据块的局部敏感指纹。

6.根据权利要求1至5任一项所述的方法，其特征在于，确定是否需要差分压缩，包括：

接收所述输入数据块与所述最优参考数据块之间的之前已计算的相似度；

将所述相似度与阈值进行比较；

如果所述相似度高于所述阈值，则确定需要差分压缩。

7.根据权利要求6所述的方法，其特征在于，所述阈值是预定义的或者是动态定义的，以调节要进行压缩的数据块的数量。

8.根据权利要求1至7任一项所述的方法，还包括，在计算所述DWT系数之前对所述输入数据块进行预处理，并对所述预处理得到的输入数据块进行小波变换以计算所述DWT系数，其中，对所述输入数据块进行预处理包括以下任意一种：计算所述输入数据块的n-gram的直方图、计算所述输入数据块的n-gram的缩减直方图、计算所述输入数据块的n-gram散列的直方图，或者计算所述输入数据块的n-gram散列的缩减直方图，其中，n-gram表示所述输入数据块的长度为n的连续序列，n≥1。

9.根据权利要求8所述的方法，其特征在于，将预处理的结果重新排序或分拣，并对重新排序或分拣后的预处理得到的输入数据块进行小波变换以计算所述DWT系数。

10.根据权利要求1至9任一项所述的方法，其特征在于，所述特征相关的DWT数据至少根据以下之一进行提取：前N个系数的值、N个最大系数的值、N个最大系数的位置、N个最大系数的值和位置。

11.根据权利要求1至10任一项所述的方法，还包括：

根据所述差分压缩中数据块的使用统计，确定所述输入数据块是否应该存储在所述超速缓存内存中和/或是否应该从所述超速缓存内存中移除任何数据块；

将所述输入数据块添加到所述超速缓存内存中和/或从所述超速缓存内存中移除数据块。

12.一种存储程序代码的计算机可读存储介质，其中，所述程序代码包括指令，所述指令在计算机上执行时使所述计算机执行根据权利要求1至11中任一项所述的方法。

13.一种基于相似性的重复数据删除系统(1200)，其特征在于，包括：

输入模块(1201)，用于接收输入数据块；

超速缓存内存(1202)，用于存储数据块；

计算模块(1203)，用于

根据所述输入数据块计算离散小波变换(discrete wavelet transform，简称DWT)系数；

从计算得到的DWT系数中提取特征相关的DWT数据；

对所述提取的特征相关的DWT数据进行量化以获得密钥作为量化结果；

根据所述密钥构建所述输入数据块的局部敏感指纹；

确定模块(1204)，用于

计算所述输入数据块的所述局部敏感指纹和所述超速缓存内存中多个数据块中的每个数据块的局部敏感指纹之间的相似度；

选择最优参考数据块，例如在所述超速缓存内存中的多个数据块中的所有块中具有最大相似度的数据块；

根据所述输入数据块与所述最优参考数据块确定是否需要差分压缩；

压缩模块，用于对所述输入数据块和所述最优参考数据块进行差分压缩。

14.根据权利要求13所述的系统，其特征在于，

所述确定模块还用于，如果不需要差分压缩，则：

根据所述相似度确定是否需要传统单块压缩；

所述压缩模块还用于：如果需要传统单块压缩，对所述输入数据块进行传统单块压缩。

15.根据权利要求13至14任一项所述的系统，其特征在于，所述确定模块还用于根据所述差分压缩中数据块的使用统计，确定所述输入数据块是否应该存储在所述超速缓存内存中和/或是否应该从所述超速缓存内存中移除任何数据块。