CN105868305B

CN105868305B - 一种支持模糊匹配的云存储数据去重复方法

Info

Publication number: CN105868305B
Application number: CN201610176892.XA
Authority: CN
Inventors: 张跃宇; 庞婷; 李晖; 陈杰; 王勇; 张云鹏
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2016-03-25
Filing date: 2016-03-25
Publication date: 2019-03-26
Anticipated expiration: 2036-03-25
Also published as: CN105868305A

Abstract

本发明公开了一种支持模糊匹配的云存储数据去重复方法。其步骤为：1、读取文件内容，2、计算文件元数据，3、判断是否满足分块条件，4、计算模糊哈希值，5、压缩模糊哈希值，6、计算索引相似度，7、比对模糊哈希值，8、判断是否存在重复的数据块哈希值，9、进行块级的文件所有权证明，10、发送不重复的数据块序号，10、上传不重复的数据块。本发明克服了现有技术中上传和存储完整文件、按比特串长度对文件进行等长划分，内容相似但首尾未对齐的文件无法被识别出重复数据带来的缺陷，降低了网络上传带宽和服务器存储空间的开销，提高了重复数据删除率。

Description

一种支持模糊匹配的云存储数据去重复方法

技术领域

本发明属于计算机技术领域，进一步涉及信息安全技术领域中的一种支持模糊匹配的云存储数据去重复方法。本发明用于支持相似文件去重复数据的云存储系统，不仅可提高重复数据删除率，降低网络上传带宽，同时还节省云存储服务器存储空间开销。

背景技术

随着云存储服务的普及，用户存储的数据量呈现出爆炸性的增长。为了能够最大地利用网络上传带宽，降低服务器端存储空间开销，云存储服务提供商需要尽力避免重复数据的上传。重复数据删除是目前云存储系统广泛采用的技术手段，对于相同内容的文件或数据块，云存储服务器只保留一个拷贝。该技术一般将文件的密码学哈希值作为该文件的压缩表示，云存储服务器通过比对哈希值来确定文件是否重复，而用户只需要向云存储服务器上传非重复的文件。

华为技术有限公司在其拥有的专利技术“重复数据删除方法及装置”(申请号：201280000863.8，公开号：CN 103154950A)中公开了一种重复数据删除的方法。该方法包括：查询数据块文件中是否存在与修改后的数据块相同的数据块，生成查询结果；根据查询结果识别到数据块文件中存在与修改后的数据块相同的数据块时，根据数据块文件对修改后的数据块的索引进行更新；根据查询结果识别到数据块文件中不存在与修改后的数据块相同的数据块时，将修改后的数据块添加到数据块文件中，并根据添加后的数据块文件对修改后的数据块的索引进行更新，从而实现对修改后的重复数据的删除，提高了重复数据的删除效果。但是，该方法仍然存在的不足之处：超大文件的数据块级去重复效率低下，内容相似但首尾未对齐的两个文件无法识别出相互之间重复的数据区块。

Bellare M,Keelveedhi S and Ristenpart T在其发表的论文“Message-LockedEncryption and Secure Deduplication”(In Proceedings of 32nd AnnualInternational Conference on the Theory and Applications of CryptographicTechniques,Athens,2013:296-312.)中提出了一种方法。该方法将收敛加密(CE)作为锁定消息加密(MLE)框架中的一个特例应用在重复数据删除技术中，极大的提升了数据的保密性，但是，方法仍然存在的不足之处是，服务器仅根据不重复的哈希值就要求用户上传整个文件，增加了网络上传带宽和存储空间开销，同时产生了大量的收敛密钥，增加了密钥管理成本。随后，又有一部分方案基于该思想设计了加密文件的重复数据删除方法。这类方法的缺点是利用传统密码学哈希函数(如MD5，SHA-1)对文件内容进行处理，按比特串长度对文件数据进行等长划分，即使只改变文件的一个比特，输出结果也有可能完全不同，使得修改后的文件与原文件之间的重复数据无法被识别出来，导致去重复率严重下降。

发明内容

本发明的目的是针对上述现有技术的不足，提出一种支持模糊匹配的云存储数据去重复方法。

为了实现本发明目的的具体思路是：采用内存映射文件方法，逐字节地读取任意大小的文件，提高了计算效率。利用模糊哈希方法，根据文件的实际内容逐字节地进行分块哈希，得到文件的模糊哈希值，克服对等长划分的文件进行传统的密码学哈希函数处理带来的缺陷。通过模糊匹配方式，尽可能识别相似文件数据块的重复数据，从而提高了重复数据删除率。通过块级的文件所有权证明协议，验证用户是否真的拥有重复的文件数据块，增强了用户数据的安全性。最后，用户只需上传不重复的文件数据块到云存储服务器中，降低了上传带宽和存储空间开销。

本发明的具体步骤包括如下：

(1)采用内存映射文件方法，逐字节地读取待模糊匹配文件的内容；

(1a)计算机操作系统在待模糊匹配文件中创建映射内核对象，读取文件的字节数，设置操作系统的分页粒度；

(1b)计算机操作系统将待模糊匹配文件的映射内核对象全部映射到计算机的进程地址空间；

(1c)判断是否读取完待模糊匹配文件的所有字节数，若是，则执行步骤(1d)，否则，执行步骤(1a)；

(1d)计算机操作系统释放待模糊匹配文件的映射内核对象；

(2)计算文件元数据：

(2a)采用滚动哈希算法，计算待模糊匹配文件的字节，得到待模糊匹配文件字节的校验和：

s＝x+y+w

其中，s表示待模糊匹配文件字节的校验和，x表示在一个长度为7的滚动窗口内的待模糊匹配文件的所有字节数之和，y表示待模糊匹配文件的字节数与滚动窗口长度的乘积，w表示待模糊匹配文件的字节数与常数32的乘积；

(2b)按照下式，计算待模糊匹配文件的分块长度：

b＝b_min*2^k

其中，b表示待模糊匹配文件的分块长度，b_min表示待模糊匹配文件的分块长度b的最小值，缺省情况下b_min＝3，*表示乘法操作，k表示待模糊匹配文件的分块长度的扩大系数，0≤k≤14；

(3)判断当前待模糊匹配文件字节的校验和是否满足分块条件，若是，则执行步骤(4)，否则，执行步骤(2)；

(4)计算模糊哈希值：

(4a)将满足分块条件的待模糊匹配文件的字节作为文件的分割点，记录该分割点在待模糊匹配文件中的位置；

(4b)使用哈希函数FNV hash计算待模糊匹配文件的分块内容，得到模糊哈希值h₁||h₂||…||h_i||…||h_n，i∈{1,2,…,n}，其中，h_i表示待模糊匹配文件的第i个分块哈希值，i表示待模糊匹配文件的分块序号，n表示待模糊匹配文件的分块个数，||表示拼接操作；

(5)压缩模糊哈希值：

采用Base64编码处理模糊哈希值，得到由32～64个字符组成的字符串，将该字符串作为模糊哈希值的索引；

(6)按照下式，计算用户上传的索引和云存储数据库中索引之间的相似度；

其中，M表示用户上传的索引与云存储数据库中索引之间的相似度，D_min表示用户上传的索引与云存储数据库中索引之间的最小编辑距离，Max表示作最大值操作，L1表示用户上传索引的长度，L2表示云存储数据库中的索引长度，*表示乘法操作；

(7)比对模糊哈希值：

(7a)服务器从云存储数据库中，选取与用户上传索引的相似度最高的目标索引；

(7b)服务器在云存储数据库中查找出目标索引对应的目标模糊哈希值h₁′||h₂′||…||h_i′||…||h_n′′，i∈{1,2,…,n′}，其中，h_i′表示目标文件的第i个分块哈希值，i表示目标文件的分块序号，n′表示目标文件的分块个数，||表示拼接操作；

(7c)服务器将用户上传的模糊哈希值与云存储数据库中的目标模糊哈希值进行比对；

(8)判断在目标模糊哈希值中是否存在与用户上传的模糊哈希值重复的数据块哈希值，若是，则执行步骤(9)，否则，执行步骤(10)；

(9)进行块级的文件所有权证明：

(9a)按照下式，计算重复数据块哈希值的询问信息：

c＝f_τ(H₁||H₂||…||H_j||…||H_m)

其中，c表示重复数据块哈希值的询问信息，f_τ表示伪随机函数，τ表示伪随机函数f_τ的安全参数，H_j表示第j个重复的数据块哈希值，j表示重复的数据块序号，j∈{1,2,…,m}，m表示重复的数据块个数；

(9b)服务器将重复数据块哈希值的询问信息发送给用户；

(9c)用户接收重复数据块哈希值的询问信息，从待模糊匹配文件中查找对应的重复文件数据块；

(9d)按照下式，计算重复文件数据块的证明信息：

p＝f_τ(b₁||b₂||…||b_j||…||b_m)

其中，p表示重复文件数据块的证明信息，f_τ表示伪随机函数，τ表示伪随机函数f_τ的安全参数，b_j表示第j个重复的文件数据块，j表示重复数据块的序号，j∈{1,2,…,m}，m表示重复数据块的个数；

(9e)用户将重复文件数据块的证明信息发送给服务器；

(9f)服务器接收重复文件数据块的证明信息，利用重复数据块哈希值的询问信息对重复文件数据块的证明信息进行验证，证明用户确实拥有这些文件内容；

(10)服务器将不重复的数据块序号发送给用户；

(11)上传不重复的数据块：

用户接收不重复的数据块序号，利用不重复的数据块序号以及分割点在待模糊匹配文件中的位置，从待模糊匹配文件中查找不重复的文件数据块，将不重复的文件数据块、用户保存的文件元数据，以及索引一起上传给服务器。

本发明与现有技术相比具有以下优点：

第一，由于本发明采用了模糊哈希方法，根据文件的实际内容逐字节地进行分块哈希，得到文件的模糊哈希值，以便对文件数据块进行模糊匹配，查找每个数据块的重复数据，克服了现有技术中仅按照比特串长度对文件进行数据块的等长划分，导致首尾未对齐的文件无法被识别出重复数据的缺陷，使得本发明具有识别相似文件重复数据，提高重复数据删除效率的优点。

第二，由于本发明只需上传和存储未重复的文件数据块及其元数据，克服了现有技术中仅根据不重复的哈希值就上传和存储完整文件而浪费上传带宽和存储空间的不足，使得本发明具有降低网络上传带宽，减少存储空间开销的优点。

第三，由于本发明采用内存映射文件技术，逐字节读取任意大小的文件，克服了现有技术中对超大文件去重复效率低的不足，使得本发明具有快速进行大规模计算，降低用户计算时间的优点。

附图说明

图1为本发明的流程图。

具体实施方式

下面结合附图1对本发明作进一步的详细描述。

步骤1，采用内存映射文件方法，逐字节地读取待模糊匹配文件的内容。

计算机操作系统在待模糊匹配文件中创建映射内核对象，读取文件的字节数，设置操作系统的分页粒度；

计算机操作系统将待模糊匹配文件的映射内核对象全部映射到计算机的进程地址空间；

如果计算机操作系统读取完待模糊匹配文件的所有字节数，则释放待模糊匹配文件的映射内核对象，否则，继续读取文件字节数。

步骤2，计算待模糊匹配文件的元数据。

采用滚动哈希算法，计算待模糊匹配文件的字节，得到待模糊匹配文件字节的校验和：

s＝x+y+w

其中，s表示待模糊匹配文件字节的校验和，x表示在一个长度为7的滚动窗口内的待模糊匹配文件的所有字节数之和，y表示待模糊匹配文件的字节数与滚动窗口长度的乘积，w表示待模糊匹配文件的字节数与常数32的乘积。

按照下式，计算待模糊匹配文件的分块长度：

b＝b_min*2^k

其中，b表示待模糊匹配文件的分块长度，b_min表示待模糊匹配文件的分块长度b的最小值，缺省情况下b_min＝3，*表示乘法操作，k表示待模糊匹配文件的分块长度的扩大系数，0≤k≤14。

本发明实施例中的文件分块长度b是由待模糊匹配文件的字节数来决定，如果待模糊匹配文件总共只有少数几个字节，或者文件中的字节没有满足分块条件，那么对待模糊匹配文件的处理就退化成了传统的全文哈希，为了避免这个问题，设置了一个最小的分块长度b_min＝3，使得本发明能够对任何情况下的文件都能进行分片哈希，同时为了最优地对待模糊匹配文件的进行分片哈希，设置分块长度b不大于49152，由待模糊匹配文件字节的校验和s与待模糊匹配文件的分块长度b做取模操作来控制待模糊匹配文件的分块条件。

步骤3，判断当前待模糊匹配文件字节的校验和是否满足分块条件，若是，则执行步骤4；否则，执行步骤2。

本发明分块条件是指满足以下条件之一的情形：

条件1，s mod b＝b-1

条件2，s mod(2*b)＝2*b-1

其中，s表示当前待模糊匹配文件字节的校验和，mod表示取余操作，b表示待模糊匹配文件的分块长度，*表示乘法操作。

步骤4，计算待模糊匹配文件的模糊哈希值。

将满足分块条件的待模糊匹配文件的字节作为文件的分割点，记录该分割点在待模糊匹配的文件中的位置。

根据分割点的位置对待模糊匹配文件进行分块。

使用哈希函数FNV hash计算每个数据块，得到每个数据块的哈希值。

将每个文件数据块的哈希值拼接在一起构成待模糊匹配文件的模糊哈希值，h₁||h₂||…||h_i||…||h_n，i∈{1,2,…,n}，其中，h_i表示待模糊匹配文件的第i个分块哈希值，i表示待模糊匹配文件的分块序号，n表示待模糊匹配文件的分块个数，||表示拼接操作。

步骤5，压缩待模糊匹配文件的模糊哈希值。

用户只取每个数据块哈希值的后6位，用Base64编码分别对数据块哈希值的后6位进行压缩，得到对应的字符。

将每个数据块哈希值经过压缩后得到的字符拼接在一起，构成一个由32～64个字符组成的字符串，将该字符串作为待模糊匹配的文件模糊哈希值的索引。

本发明实施例中的Base64编码是由64个ASCII码构成的字符集。

步骤6，计算索引相似度。

按照下式，计算用户上传的索引和云存储数据库中索引之间的相似度：

其中，M表示用户上传的索引与云存储数据库中索引之间的相似度，D_min表示用户上传的索引与云存储数据库中索引之间的最小编辑距离，Max表示作最大值操作，L1表示用户上传索引的长度，L2表示云存储数据库中的索引长度，*表示乘法操作。

步骤7，比对模糊哈希值。

服务器从云存储数据库中，选取与用户上传索引的相似度最高的目标索引。

服务器在云存储数据库中查找出目标索引对应的目标模糊哈希值h₁′||h₂′||…||h_i′||…||h_n′′，i∈{1,2,…,n′}，其中，h_i′表示目标文件的第i个分块哈希值，i表示目标文件的分块序号，n′表示目标文件的分块个数，||表示拼接操作。

服务器将用户上传的模糊哈希值与云存储数据库中的目标模糊哈希值进行比对。

步骤8，判断在目标模糊哈希值中是否存在与用户上传的模糊哈希值重复的数据块哈希值，若是，则执行步骤9，否则，执行步骤10。

步骤9，进行块级的文件所有权证明。

按照下式，计算重复数据块哈希值的询问信息：

c＝f_τ(H₁||H₂||…||H_j||…||H_m)

其中，c表示重复数据块哈希值的询问信息，f_τ表示伪随机函数，τ表示伪随机函数f_τ的安全参数，H_j表示第j个重复的数据块哈希值，j表示重复的数据块序号，j∈{1,2,…,m}，m表示重复的数据块个数。

服务器将重复数据块哈希值的询问信息发送给用户。

用户接收重复数据块哈希值的询问信息，从待模糊匹配文件中查找对应的重复文件数据块。

按照下式，计算重复文件数据块的证明信息：

p＝f_τ(b₁||b₂||…||b_j||…||b_m)

其中，p表示重复文件数据块的证明信息，f_τ表示伪随机函数，τ表示伪随机函数f_τ的安全参数，b_j表示第j个重复的文件数据块，j表示重复数据块的序号，j∈{1,2,…,m}，m表示重复数据块的个数。

用户将重复文件数据块的证明信息发送给服务器。

服务器接收重复文件数据块的证明信息，利用重复数据块哈希值的询问信息对重复文件数据块的证明信息进行验证，证明用户确实拥有这些文件内容。

步骤10，服务器将不重复的数据块序号发送给用户。

步骤11，上传不重复的待模糊匹配的文件数据块。

用户接收不重复的数据块序号，利用不重复的数据块序号以及分割点在待模糊匹配的文件中的位置，从待模糊匹配的文件中查找不重复的文件数据块。

用户将不重复的文件数据块、保存的文件元数据，以及索引一起上传给服务器。

云存储服务器将用户上传的数据保存在数据库中。

Claims

1.一种支持模糊匹配的云存储数据去重复方法，包括以下具体步骤：

(1d)计算机操作系统释放待模糊匹配文件的映射内核对象；

(2)计算文件元数据：

s＝x+y+w

(2b)按照下式，计算待模糊匹配文件的分块长度：

b＝b_min*2^k

(4)计算模糊哈希值：

(5)压缩模糊哈希值：

所述Base64编码处理模糊哈希值是指，只取每个数据块哈希值的后6位，用Base64编码分别对数据块哈希值的后6位进行处理，得到一个由32～64个字符组成的字符串，其中，Base64编码是由64个ASCII码构成的字符集；

(6)按照下式，计算用户上传的索引和云存储数据库中索引之间的相似度：

(7)比对模糊哈希值：

(7b)服务器在云存储数据库中查找出目标索引对应的目标模糊哈希值h₁′||h₂′||…||h_i′||…||h_n′′，i∈{1,2,…,n′}，其中，h′_i表示目标文件的第i个分块哈希值，i表示目标文件的分块序号，n′表示目标文件的分块个数，||表示拼接操作；

(9)进行块级的文件所有权证明：

(9a)按照下式，计算重复数据块哈希值的询问信息：

c＝f_τ(H₁||H₂||…||H_j||…||H_m)

(9b)服务器将重复数据块哈希值的询问信息发送给用户；

(9d)按照下式，计算重复文件数据块的证明信息：

p＝f_τ(b₁||b₂||…||b_j||…||b_m)

(9e)用户将重复文件数据块的证明信息发送给服务器；

(10)服务器将不重复的数据块序号发送给用户；

(11)上传不重复的数据块：

2.根据权利要求1所述的一种支持模糊匹配的云存储数据去重复方法，其特征在于，步骤(3)中所述的分块条件是指满足以下条件之一的情形：

条件1，s mod b＝b-1

条件2，s mod(2*b)＝2*b-1

其中，s表示待模糊匹配文件字节的校验和，mod表示取余操作，b表示待模糊匹配文件的分块长度，*表示乘法操作。