CN114625315A

CN114625315A - 一种基于元语义嵌入的云存储相似数据检测方法和系统

Info

Publication number: CN114625315A
Application number: CN202210068769.1A
Authority: CN
Inventors: 田纹龙; 李柏松; 李宇圣; 万亚平; 欧阳纯萍; 刘永彬; 李跃
Original assignee: University of South China
Current assignee: University of South China
Priority date: 2022-01-21
Filing date: 2022-01-21
Publication date: 2022-06-14
Anticipated expiration: 2042-01-21

Abstract

本发明提供了一种基于元语义嵌入的云存储相似数据检测方法和系统，其中方法包括：对云存储数据域中的全部数据进行CDC分块；采用MinHash算法提取全部CDC块的特征向量；基于Mask算法对任一CDC块的上下文特征向量进行处理，将处理后的所有上下文特征向量输入神经网络模型进行训练，获得云存储数据域的元语义模型；提取上传至云存储数据域的新数据的语义特征向量；将新数据的语义特征向量输入被元语义模型初始化后的新神经网络模型进行相似性检测。本发明基于元语义嵌入的方法嵌入了全文的语义，增强了提取数据特征的可靠性，同时避免重复训练神经网络，从而减少计算开销。

Description

一种基于元语义嵌入的云存储相似数据检测方法和系统

技术领域

本发明涉及人工智能技术领域，具体涉及一种基于元语义嵌入的云存储相似数据检测方法和系统。

背景技术

随着云存储越来越普及，数据中心的数据量也随之越来越大。跨用户的重复数据删除对于降低云服务商的存储成本来说至关重要。其中数据的相似性检测在重复数据删除中起着至关重要的作用。

目前在重复数据删除中广泛使用的数据相似性检测技术有固定分块检测技术(fixed-sized partition,简称FSP)和可变分块检测技术(content-defined chunking,简称CDC)，上述这些技术使得共享数据块的文件之间产生了依赖性,几个关键数据块的丢失或错误可能导致多个文件的丢失和错误发生,因此会降低存储系统的可靠性。为此,一些研究者又引入了冗余复制技术和纠删码技术等来提高重复数据删除系统的可靠性。但是这些方法在检测对比等过程中会导致大量的计算开销,对存储系统的性能影响很大。也有一些研究者利用了相似数据块周围的数据块也大多相似这一特性提出了CARD这一结合数据块上下文语义的相似性检测技术，但是这种方法没有考虑全文的语义，健壮性不够。而且每一次检测都要重新训练神经网络，计算开销较大。

发明内容

本发明解决的一个主要问题是现有云存储的重复数据删除方案计算量大、特征值提取不稳定、检测效率低的问题。

本发明提供一种基于元语义嵌入的云存储相似数据检测方法，所述云存储相似数据检测方法包括：

对云存储数据域中的全部数据进行CDC分块；

采用MinHash算法提取划分后全部CDC块的特征向量；

基于Mask算法对任一CDC块的上下文特征向量进行处理，将处理后的所有上下文特征向量输入神经网络模型进行训练，获得云存储数据域的元语义模型；

利用所述元语义模型初始化新构建的神经网络模型，获得初始化模型；

提取用户上传的新数据的语义特征向量；

将新数据的语义特征向量输入所述初始化模型进行相似性检测。

优选地，提取所有CDC块的特征向量包括：

将CDC块分成固定大小的数据块；

使用局部敏感Hash将所有数据块映射为长度为K的Hash数组；

初始化一个空集合，遍历Hash数组中的每一个元素，将每一个元素与周围的元素相结合生成一个新的元素，将所述新元素放入所述空集合中，得到新集合；

遍历所述空集合中的每一个元素，通过指定的Hash方法集合，把所述新集合中的每一个元素映射为对应的Hash向量；

将对应的Hash向量矩阵标准化后取平均值得到一个CDC块的特征向量。

优选地，基于Mask算法对任一CDC块的上下文特征向量进行处理包括：

基于Mask算法对任一CDC块的上下文特征向量进行随机缺省或替换。

优选地，提取用户上传的新数据的语义特征向量，包括：

对新数据进行CDC分块，获得新的CDC块；

遍历每一个新的CDC块，为每一个新的CDC块生成对应的语义特征向量。

优选地，将新数据的语义特征向量输入所述初始化模型进行相似性检测，包括：

遍历每一个语义特征向量，将所述语义特征向量的上下文特征向量作为所述初始化模型的输入，将所述语义特征向量作为目标值，迭代训练后生成与所述语义特征向量对应的新的语义模型；

使用新的语义模型中的参数矩阵进行相似性比较。

优选地，将新数据的语义特征向量输入所述初始化模型进行相似性检测之后还包括：

删除检测出的相似特征后，堆输出的比较结果进行差分压缩。

还提供一种基于元语义嵌入的云存储相似数据检测系统，包括存储器和处理器，所述存储器中存储有计算机程序；所述处理器，用于在运行所述计算机程序时，执行前述的任一一种基于元语义嵌入的云存储相似数据检测方法。

本发明采用以云存储服务提供商已有数据为基础，自动训练用于相似数据块检测的模型；根据训练好的嵌入块级语义的神经网络模型，能够更快更稳定地生成相似数据块的特征；通过与嵌入块级语义的数据块特征进行对比，能够更加精准的识别相似数据块。

总之，本发明突破依赖于哈希值提取的传统相似块识别技术的思维，结合数据块的上下文，将语义嵌入到数据块的特征集合中，减少了计算开销，提高和相似数据块检测的精准度，此外还提高了数据存储利用率与用户体验，并能够进一步解决当前相似数据检测技术存在的特征值提取不稳定的问题。

附图说明

本发明构成说明书的一部分附图描述了本发明的实施例，并且连同说明书一起用于解释本发明的原理。

图1为本发明实施例中将全局的语义嵌入到BP神经网络的流程示意图。

图2为本发明实施例中相似语义检测方法示意图。

具体实施方式

下面将结合附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

实施例一，本方法的相似数据检测去重方法包括特征提取和相似查找，并在完成相似查找后还进行差分压缩。

为了处理的简便以及提高语义嵌入的效果，本方法结合神经网络，针对特征提取和相似查找两个阶段，充分利用数据块的上下文语义信息，提高相似数据检测的效果。

具体工作流程如下：

元语义模型的生成：

(1)将服务器中存储的数据域中的全部数据进行CDC分块(CDC分块是一种根据数据内容对数据进行分块的分块技术)。

(2)对步骤(1)中获得的CDC块生成特征向量：

步骤一:将数据块分成固定大小的K块；

步骤二:使用局部敏感Hash将所有数据块映射为长度为K的Hash数组；

步骤三:初始化一个空集合S，遍历Hash数组中的每一个元素，将其与周围的元素相结合生成一个新的元素，并将其放入S集合中；

步骤四:遍历放入新元素的S集合中的每一个元素，通过指定的Hash方法集合，把该S集合中的每一个元素映射为一个Hash向量；

步骤五:最后把S对应的Hash向量矩阵标准化后取平均值就生成了一个CDC块的特征向量；

按照步骤一至步骤五的方法生成所有CDC块的特征向量。

(3)随机生成一个神经网络模型，如BP神经网络，作为初始化的元语义模型。

(4)遍历当前数据域的每一个CDC块的特征向量，如图1所示，将当前CDC块的特征向量作为BP神经网络的目标值，将其上下文的特征向量作为BP神经网络的输入值。

在将CDC块的特征向量输入BP神经网络之前，对输入的特征向量进行Mask操作，Mask是一种对输入数据进行随机缺省或替换的方法。Mask的策略为：选择输入数据的20％为Mask目标，其中Mask目标中的70％替换为未知[mask]，15％不变，15％替换为随机特征向量。

将经过Mask策略处理后的数据输入到BP神经网络模型中后，通过不断的调节BP神经网络模型中的参数，使得目标值和BP神经网络的输出的差值越来越小，这样就把全局的语义嵌入到了BP神经网络中。

(5)按照步骤(4)的方法处理完当前数据域中的每一个CDC块的特征向量后，就生成了当前数据域的元语义模型。

用户数据元语义的嵌入：

(1)将用户上传的数据进行CDC分块。

(2)遍历每一个CDC块，按照元语义模型的生成部分中的特征向量生成方法为每一个CDC块生成特征向量。

(3)随机生成一个BP神经网络模型，作为当前语义的载体。

(4)使用第一部分内容中得到的元语义模型对当前BP神经网络模型进行初始化。

(5)遍历用户上传数据的所有CDC块的特征向量，并将任一CDC块的上下文的特征向量作为BP神经网络模型的输入，而将CDC块的特征向量作为目标值。通过调节神经网络模型的内部参数，减少CDC块的特征向量和输出值的距离，这样就把当前用户上传的数据的语义和全局的元语义嵌入到了神经网络中去，生成了新的语义模型。该新的语义模型中的参数矩阵作为后续相似性检测的凭证。例如，若两个CDC块对应的新的语义模型中的参数矩阵距离相近，那么就说明这两个CDC块很相似，从而得到检测结果。

对数据进行压缩：

(1)获取用户上传数据的CDC分块和对应的语义模型，并设定压缩阈值g。

(2)生成空白的Base文件和Delta文件。

(3)将所有CDC块对应的语义模型中的参数提取出来，作为其的压缩特征矩阵。

(4)选择10％的CDC块作为基础块，将基础块放入Base文件中，其余90％作为压缩块。

(5)遍历所有的CDC块进行如下的操作：

步骤一、获取当前CDC块的压缩特征矩阵。

步骤二、遍历所有的基础块压缩特征矩阵，寻找与当前压缩特征矩阵距离最小的压缩特征矩阵所对应的基础块。

步骤三、如两个压缩特征矩阵的距离仍然大于设定的阈值g，则证明当前CDC块不适合进行压缩，则将当前CDC块原封不动的保存下来。

步骤四、如两个压缩特征矩阵的距离仍然小于设定的阈值g，则对当前CDC块进行压缩，利用压缩算法生成一个delta数据块,将找到的最相似的CDC块的索引和delta数据块添加到Delta文件中。

(6)通过步骤(5)就把用户上传的数据压缩成为了一个Base文件和一个Delta文件，其中Base文件和Delta文件的体积和小于原来上传的数据文件的体积。

根据另一实施例，一种基于元语义嵌入的云存储相似数据检测系统，包括存储器和处理器，存储器中存储有计算机程序；

处理器，用于在运行计算机程序时，执行如前所述的任一实施例中的一种基于元语义嵌入的云存储相似数据检测方法。

所述一种基于元语义嵌入的云存储相似数据检测系统可以运行于桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备中。所述基于元语义嵌入的云存储相似数据检测系统，可运行的装置可包括，但不仅限于，处理器、存储器。

本领域技术人员可以理解，所述例子仅仅是基于元语义嵌入的云存储相似数据检测系统的示例，并不构成对基于元语义嵌入的云存储相似数据检测系统的限定，可以包括比例子更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述基于元语义嵌入的云存储相似数据检测系统还可以包括输入输出设备、网络接入设备、总线等。所称处理器可以是中央处理单元(Central-Pro cessing-Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital-Signa l-Processor，DSP)、专用集成电路(Application-Specific-Integrated-Circuit，ASIC)、现场可编程门阵列(Field-Programmable-Gate-Arr ay，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述基于元语义嵌入的云存储相似数据检测系统的控制中心，利用各种接口和线路连接整个基于元语义嵌入的云存储相似数据检测系统可运行系统的各个部分。所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述基于元语义嵌入的云存储相似数据检测系统的各种功能。所述存储器可主要包括存储程序区和存储数据区。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Sma rt-Media-Card，SMC)，安全数字(Secure-Digital，SD)卡，闪存卡(Flash-Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

以上所述仅为本发明的较佳实施例而已，并不用于限制本发明，凡在本发明的精神和原则范围之内所作的任何修改、等同替换以及改进等，均应包含在本发明的保护范围之内。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

Claims

1.一种基于元语义嵌入的云存储相似数据检测方法，其中，所述云存储相似数据检测方法包括：

对云存储数据域中的全部数据进行CDC分块；

采用MinHash算法提取划分后全部CDC块的特征向量；

提取用户上传的新数据的语义特征向量；

2.如权利要求1所述的一种基于元语义嵌入的云存储相似数据检测方法，其中，提取所有CDC块的特征向量包括：

将CDC块分成固定大小的数据块；

使用局部敏感Hash将所有数据块映射为长度为K的Hash数组；

3.如权利要求1所述的一种基于元语义嵌入的云存储相似数据检测方法，其中基于Mask算法对任一CDC块的上下文特征向量进行处理包括：

4.如权利要求1所述的一种基于元语义嵌入的云存储相似数据检测方法，提取用户上传的新数据的语义特征向量，包括：

对新数据进行CDC分块，获得新的CDC块；

5.如权利要求1所述的一种基于元语义嵌入的云存储相似数据检测方法，其中将新数据的语义特征向量输入所述初始化模型进行相似性检测，包括：

使用新的语义模型中的参数矩阵进行相似性比较。

6.如权利要求1所述的一种基于元语义嵌入的云存储相似数据检测方法，其中，将新数据的语义特征向量输入所述初始化模型进行相似性检测之后还包括：

删除检测出的相似特征后，对输出的比较结果进行差分压缩。

7.一种基于元语义嵌入的云存储相似数据检测系统，包括存储器和处理器，所述存储器中存储有计算机程序；

所述处理器，用于在运行所述计算机程序时，执行如权利要求1-6中任一项所述的一种基于元语义嵌入的云存储相似数据检测方法。