CN105868305A - 一种支持模糊匹配的云存储数据去重复方法 - Google Patents

一种支持模糊匹配的云存储数据去重复方法 Download PDF

Info

Publication number
CN105868305A
CN105868305A CN201610176892.XA CN201610176892A CN105868305A CN 105868305 A CN105868305 A CN 105868305A CN 201610176892 A CN201610176892 A CN 201610176892A CN 105868305 A CN105868305 A CN 105868305A
Authority
CN
China
Prior art keywords
file
fuzzy
fuzzy matching
data block
treating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610176892.XA
Other languages
English (en)
Other versions
CN105868305B (zh
Inventor
张跃宇
庞婷
李晖
陈杰
王勇
张云鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201610176892.XA priority Critical patent/CN105868305B/zh
Publication of CN105868305A publication Critical patent/CN105868305A/zh
Application granted granted Critical
Publication of CN105868305B publication Critical patent/CN105868305B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments
    • G06F16/1752De-duplication implemented within the file system, e.g. based on file segments based on file chunks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种支持模糊匹配的云存储数据去重复方法。其步骤为:1、读取文件内容,2、计算文件元数据,3、判断是否满足分块条件,4、计算模糊哈希值,5、压缩模糊哈希值,6、计算索引相似度,7、比对模糊哈希值,8、判断是否存在重复的数据块哈希值,9、进行块级的文件所有权证明,10、发送不重复的数据块序号,10、上传不重复的数据块。本发明克服了现有技术中上传和存储完整文件、按比特串长度对文件进行等长划分,内容相似但首尾未对齐的文件无法被识别出重复数据带来的缺陷,降低了网络上传带宽和服务器存储空间的开销,提高了重复数据删除率。

Description

一种支持模糊匹配的云存储数据去重复方法
技术领域
本发明属于计算机技术领域,进一步涉及信息安全技术领域中的一种支持模糊匹配的云存储数据去重复方法。本发明用于支持相似文件去重复数据的云存储系统,不仅可提高重复数据删除率,降低网络上传带宽,同时还节省云存储服务器存储空间开销。
背景技术
随着云存储服务的普及,用户存储的数据量呈现出爆炸性的增长。为了能够最大地利用网络上传带宽,降低服务器端存储空间开销,云存储服务提供商需要尽力避免重复数据的上传。重复数据删除是目前云存储系统广泛采用的技术手段,对于相同内容的文件或数据块,云存储服务器只保留一个拷贝。该技术一般将文件的密码学哈希值作为该文件的压缩表示,云存储服务器通过比对哈希值来确定文件是否重复,而用户只需要向云存储服务器上传非重复的文件。
华为技术有限公司在其拥有的专利技术“重复数据删除方法及装置”(申请号:201280000863.8,公开号:CN 103154950A)中公开了一种重复数据删除的方法。该方法包括:查询数据块文件中是否存在与修改后的数据块相同的数据块,生成查询结果;根据查询结果识别到数据块文件中存在与修改后的数据块相同的数据块时,根据数据块文件对修改后的数据块的索引进行更新;根据查询结果识别到数据块文件中不存在与修改后的数据块相同的数据块时,将修改后的数据块添加到数据块文件中,并根据添加后的数据块文件对修改后的数据块的索引进行更新,从而实现对修改后的重复数据的删除,提高了重复数据的删除效果。但是,该方法仍然存在的不足之处:超大文件的数据块级去重复效率低下,内容相似但首尾未对齐的两个文件无法识别出相互之间重复的数据区块。
Bellare M,Keelveedhi S and Ristenpart T在其发表的论文“Message-LockedEncryption and Secure Deduplication”(In Proceedings of 32nd Annual InternationalConference on the Theory and Applications of Cryptographic Techniques,Athens,2013:296-312.)中提出了一种方法。该方法将收敛加密(CE)作为锁定消息加密(MLE)框架中的一个特例应用在重复数据删除技术中,极大的提升了数据的保密性,但是,方法仍然存在的不足之处是,服务器仅根据不重复的哈希值就要求用户上传整个文件,增加了网络上传带宽和存储空间开销,同时产生了大量的收敛密钥,增加了密钥管理成本。随后,又有一部分方案基于该思想设计了加密文件的重复数据删除方法。这类方法的缺点是利用传统密码学哈希函数(如MD5,SHA-1)对文件内容进行处理,按比特串长度对文件数据进行等长划分,即使只改变文件的一个比特,输出结果也有可能完全不同,使得修改后的文件与原文件之间的重复数据无法被识别出来,导致去重复率严重下降。
发明内容
本发明的目的是针对上述现有技术的不足,提出一种支持模糊匹配的云存储数据去重复方法。
为了实现本发明目的的具体思路是:采用内存映射文件方法,逐字节地读取任意大小的文件,提高了计算效率。利用模糊哈希方法,根据文件的实际内容逐字节地进行分块哈希,得到文件的模糊哈希值,克服对等长划分的文件进行传统的密码学哈希函数处理带来的缺陷。通过模糊匹配方式,尽可能识别相似文件数据块的重复数据,从而提高了重复数据删除率。通过块级的文件所有权证明协议,验证用户是否真的拥有重复的文件数据块,增强了用户数据的安全性。最后,用户只需上传不重复的文件数据块到云存储服务器中,降低了上传带宽和存储空间开销。
本发明的具体步骤包括如下:
(1)采用内存映射文件方法,逐字节地读取待模糊匹配文件的内容;
(1a)计算机操作系统在待模糊匹配文件中创建映射内核对象,读取文件的字节数,设置操作系统的分页粒度;
(1b)计算机操作系统将待模糊匹配文件的映射内核对象全部映射到计算机的进程地址空间;
(1c)判断是否读取完待模糊匹配文件的所有字节数,若是,则执行步骤(1d),否则,执行步骤(1a);
(1d)计算机操作系统释放待模糊匹配文件的映射内核对象;
(2)计算文件元数据:
(2a)采用滚动哈希算法,计算待模糊匹配文件的字节,得到待模糊匹配文件字节的校验和:
s=x+y+w
其中,s表示待模糊匹配文件字节的校验和,x表示在一个长度为7的滚动窗口内的待模糊匹配文件的所有字节数之和,y表示待模糊匹配文件的字节数与滚动窗口长度的乘积,w表示待模糊匹配文件的字节数与常数32的乘积;
(2b)按照下式,计算待模糊匹配文件的分块长度:
b=bmin*2k
其中,b表示待模糊匹配文件的分块长度,bmin表示待模糊匹配文件的分块长度b的最小值,缺省情况下bmin=3,*表示乘法操作,k表示待模糊匹配文件的分块长度的扩大系数,0≤k≤14;
(3)判断当前待模糊匹配文件字节的校验和是否满足分块条件,若是,则执行步骤(4),否则,执行步骤(2);
(4)计算模糊哈希值:
(4a)将满足分块条件的待模糊匹配文件的字节作为文件的分割点,记录该分割点在待模糊匹配文件中的位置;
(4b)使用哈希函数FNV hash计算待模糊匹配文件的分块内容,得到模糊哈希值h1||h2||…||hi||…||hn,i∈{1,2,…,n},其中,hi表示待模糊匹配文件的第i个分块哈希值,i表示待模糊匹配文件的分块序号,n表示待模糊匹配文件的分块个数,||表示拼接操作;
(5)压缩模糊哈希值:
采用Base64编码处理模糊哈希值,得到由32~64个字符组成的字符串,将该字符串作为模糊哈希值的索引;
(6)按照下式,计算用户上传的索引和云存储数据库中索引之间的相似度;
M = ( 1 - D min M a x ( L 1 , L 2 ) ) * 100 %
其中,M表示用户上传的索引与云存储数据库中索引之间的相似度,Dmin表示用户上传的索引与云存储数据库中索引之间的最小编辑距离,Max表示作最大值操作,L1表示用户上传索引的长度,L2表示云存储数据库中的索引长度,*表示乘法操作;
(7)比对模糊哈希值:
(7a)服务器从云存储数据库中,选取与用户上传索引的相似度最高的目标索引;
(7b)服务器在云存储数据库中查找出目标索引对应的目标模糊哈希值h1′||h2′||…||hi′||…||hn′′,i∈{1,2,…,n′},其中,hi′表示目标文件的第i个分块哈希值,i表示目标文件的分块序号,n′表示目标文件的分块个数,||表示拼接操作;
(7c)服务器将用户上传的模糊哈希值与云存储数据库中的目标模糊哈希值进行比对;
(8)判断在目标模糊哈希值中是否存在与用户上传的模糊哈希值重复的数据块哈希值,若是,则执行步骤(9),否则,执行步骤(10);
(9)进行块级的文件所有权证明:
(9a)按照下式,计算重复数据块哈希值的询问信息:
c=fτ(H1||H2||…||Hj||…||Hm)
其中,c表示重复数据块哈希值的询问信息,fτ表示伪随机函数,τ表示伪随机函数fτ的安全参数,Hj表示第j个重复的数据块哈希值,j表示重复的数据块序号,j∈{1,2,…,m},m表示重复的数据块个数;
(9b)服务器将重复数据块哈希值的询问信息发送给用户;
(9c)用户接收重复数据块哈希值的询问信息,从待模糊匹配文件中查找对应的重复文件数据块;
(9d)按照下式,计算重复文件数据块的证明信息:
p=fτ(b1||b2||…||bj||…||bm)
其中,p表示重复文件数据块的证明信息,fτ表示伪随机函数,τ表示伪随机函数fτ的安全参数,bj表示第j个重复的文件数据块,j表示重复数据块的序号,j∈{1,2,…,m},m表示重复数据块的个数;
(9e)用户将重复文件数据块的证明信息发送给服务器;
(9f)服务器接收重复文件数据块的证明信息,利用重复数据块哈希值的询问信息对重复文件数据块的证明信息进行验证,证明用户确实拥有这些文件内容;
(10)服务器将不重复的数据块序号发送给用户;
(11)上传不重复的数据块:
用户接收不重复的数据块序号,利用不重复的数据块序号以及分割点在待模糊匹配文件中的位置,从待模糊匹配文件中查找不重复的文件数据块,将不重复的文件数据块、用户保存的文件元数据,以及索引一起上传给服务器。
本发明与现有技术相比具有以下优点:
第一,由于本发明采用了模糊哈希方法,根据文件的实际内容逐字节地进行分块哈希,得到文件的模糊哈希值,以便对文件数据块进行模糊匹配,查找每个数据块的重复数据,克服了现有技术中仅按照比特串长度对文件进行数据块的等长划分,导致首尾未对齐的文件无法被识别出重复数据的缺陷,使得本发明具有识别相似文件重复数据,提高重复数据删除效率的优点。
第二,由于本发明只需上传和存储未重复的文件数据块及其元数据,克服了现有技术中仅根据不重复的哈希值就上传和存储完整文件而浪费上传带宽和存储空间的不足,使得本发明具有降低网络上传带宽,减少存储空间开销的优点。
第三,由于本发明采用内存映射文件技术,逐字节读取任意大小的文件,克服了现有技术中对超大文件去重复效率低的不足,使得本发明具有快速进行大规模计算,降低用户计算时间的优点。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合附图1对本发明作进一步的详细描述。
步骤1,采用内存映射文件方法,逐字节地读取待模糊匹配文件的内容。
计算机操作系统在待模糊匹配文件中创建映射内核对象,读取文件的字节数,设置操作系统的分页粒度;
计算机操作系统将待模糊匹配文件的映射内核对象全部映射到计算机的进程地址空间;
如果计算机操作系统读取完待模糊匹配文件的所有字节数,则释放待模糊匹配文件的映射内核对象,否则,继续读取文件字节数。
步骤2,计算待模糊匹配文件的元数据。
采用滚动哈希算法,计算待模糊匹配文件的字节,得到待模糊匹配文件字节的校验和:
s=x+y+w
其中,s表示待模糊匹配文件字节的校验和,x表示在一个长度为7的滚动窗口内的待模糊匹配文件的所有字节数之和,y表示待模糊匹配文件的字节数与滚动窗口长度的乘积,w表示待模糊匹配文件的字节数与常数32的乘积。
按照下式,计算待模糊匹配文件的分块长度:
b=bmin*2k
其中,b表示待模糊匹配文件的分块长度,bmin表示待模糊匹配文件的分块长度b的最小值,缺省情况下bmin=3,*表示乘法操作,k表示待模糊匹配文件的分块长度的扩大系数,0≤k≤14。
本发明实施例中的文件分块长度b是由待模糊匹配文件的字节数来决定,如果待模糊匹配文件总共只有少数几个字节,或者文件中的字节没有满足分块条件,那么对待模糊匹配文件的处理就退化成了传统的全文哈希,为了避免这个问题,设置了一个最小的分块长度bmin=3,使得本发明能够对任何情况下的文件都能进行分片哈希,同时为了最优地对待模糊匹配文件的进行分片哈希,设置分块长度b不大于49152,由待模糊匹配文件字节的校验和s与待模糊匹配文件的分块长度b做取模操作来控制待模糊匹配文件的分块条件。
步骤3,判断当前待模糊匹配文件字节的校验和是否满足分块条件,若是,则执行步骤4;否则,执行步骤2。
本发明分块条件是指满足以下条件之一的情形:
条件1,s mod b=b-1
条件2,s mod(2*b)=2*b-1
其中,s表示当前待模糊匹配文件字节的校验和,mod表示取余操作,b表示待模糊匹配文件的分块长度,*表示乘法操作。
步骤4,计算待模糊匹配文件的模糊哈希值。
将满足分块条件的待模糊匹配文件的字节作为文件的分割点,记录该分割点在待模糊匹配的文件中的位置。
根据分割点的位置对待模糊匹配文件进行分块。
使用哈希函数FNV hash计算每个数据块,得到每个数据块的哈希值。
将每个文件数据块的哈希值拼接在一起构成待模糊匹配文件的模糊哈希值,h1||h2||…||hi||…||hn,i∈{1,2,…,n},其中,hi表示待模糊匹配文件的第i个分块哈希值,i表示待模糊匹配文件的分块序号,n表示待模糊匹配文件的分块个数,||表示拼接操作。
步骤5,压缩待模糊匹配文件的模糊哈希值。
用户只取每个数据块哈希值的后6位,用Base64编码分别对数据块哈希值的后6位进行压缩,得到对应的字符。
将每个数据块哈希值经过压缩后得到的字符拼接在一起,构成一个由32~64个字符组成的字符串,将该字符串作为待模糊匹配的文件模糊哈希值的索引。
本发明实施例中的Base64编码是由64个ASCII码构成的字符集。
步骤6,计算索引相似度。
按照下式,计算用户上传的索引和云存储数据库中索引之间的相似度:
M = ( 1 - D min M a x ( L 1 , L 2 ) ) * 100 %
其中,M表示用户上传的索引与云存储数据库中索引之间的相似度,Dmin表示用户上传的索引与云存储数据库中索引之间的最小编辑距离,Max表示作最大值操作,L1表示用户上传索引的长度,L2表示云存储数据库中的索引长度,*表示乘法操作。
步骤7,比对模糊哈希值。
服务器从云存储数据库中,选取与用户上传索引的相似度最高的目标索引。
服务器在云存储数据库中查找出目标索引对应的目标模糊哈希值h1′||h2′||…||hi′||…||hn′′,i∈{1,2,…,n′},其中,hi′表示目标文件的第i个分块哈希值,i表示目标文件的分块序号,n′表示目标文件的分块个数,||表示拼接操作。
服务器将用户上传的模糊哈希值与云存储数据库中的目标模糊哈希值进行比对。
步骤8,判断在目标模糊哈希值中是否存在与用户上传的模糊哈希值重复的数据块哈希值,若是,则执行步骤9,否则,执行步骤10。
步骤9,进行块级的文件所有权证明。
按照下式,计算重复数据块哈希值的询问信息:
c=fτ(H1||H2||…||Hj||…||Hm)
其中,c表示重复数据块哈希值的询问信息,fτ表示伪随机函数,τ表示伪随机函数fτ的安全参数,Hj表示第j个重复的数据块哈希值,j表示重复的数据块序号,j∈{1,2,…,m},m表示重复的数据块个数。
服务器将重复数据块哈希值的询问信息发送给用户。
用户接收重复数据块哈希值的询问信息,从待模糊匹配文件中查找对应的重复文件数据块。
按照下式,计算重复文件数据块的证明信息:
p=fτ(b1||b2||…||bj||…||bm)
其中,p表示重复文件数据块的证明信息,fτ表示伪随机函数,τ表示伪随机函数fτ的安全参数,bj表示第j个重复的文件数据块,j表示重复数据块的序号,j∈{1,2,…,m},m表示重复数据块的个数。
用户将重复文件数据块的证明信息发送给服务器。
服务器接收重复文件数据块的证明信息,利用重复数据块哈希值的询问信息对重复文件数据块的证明信息进行验证,证明用户确实拥有这些文件内容。
步骤10,服务器将不重复的数据块序号发送给用户。
步骤11,上传不重复的待模糊匹配的文件数据块。
用户接收不重复的数据块序号,利用不重复的数据块序号以及分割点在待模糊匹配的文件中的位置,从待模糊匹配的文件中查找不重复的文件数据块。
用户将不重复的文件数据块、保存的文件元数据,以及索引一起上传给服务器。
云存储服务器将用户上传的数据保存在数据库中。

Claims (3)

1.一种支持模糊匹配的云存储数据去重复方法,包括以下具体步骤:
(1)采用内存映射文件方法,逐字节地读取待模糊匹配文件的内容;
(1a)计算机操作系统在待模糊匹配文件中创建映射内核对象,读取文件的字节数,设置操作系统的分页粒度;
(1b)计算机操作系统将待模糊匹配文件的映射内核对象全部映射到计算机的进程地址空间;
(1c)判断是否读取完待模糊匹配文件的所有字节数,若是,则执行步骤(1d),否则,执行步骤(1a);
(1d)计算机操作系统释放待模糊匹配文件的映射内核对象;
(2)计算文件元数据:
(2a)采用滚动哈希算法,计算待模糊匹配文件的字节,得到待模糊匹配文件字节的校验和:
s=x+y+w
其中,s表示待模糊匹配文件字节的校验和,x表示在一个长度为7的滚动窗口内的待模糊匹配文件的所有字节数之和,y表示待模糊匹配文件的字节数与滚动窗口长度的乘积,w表示待模糊匹配文件的字节数与常数32的乘积;
(2b)按照下式,计算待模糊匹配文件的分块长度:
b=bmin*2k
其中,b表示待模糊匹配文件的分块长度,bmin表示待模糊匹配文件的分块长度b的最小值,缺省情况下bmin=3,*表示乘法操作,k表示待模糊匹配文件的分块长度的扩大系数,0≤k≤14;
(3)判断当前待模糊匹配文件字节的校验和是否满足分块条件,若是,则执行步骤(4),否则,执行步骤(2);
(4)计算模糊哈希值:
(4a)将满足分块条件的待模糊匹配文件的字节作为文件的分割点,记录该分割点在待模糊匹配文件中的位置;
(4b)使用哈希函数FNV hash计算待模糊匹配文件的分块内容,得到模糊哈希值h1||h2||…||hi||…||hn,i∈{1,2,…,n},其中,hi表示待模糊匹配文件的第i个分块哈希值,i表示待模糊匹配文件的分块序号,n表示待模糊匹配文件的分块个数,||表示拼接操作;
(5)压缩模糊哈希值:
采用Base64编码处理模糊哈希值,得到由32~64个字符组成的字符串,将该字符串作为模糊哈希值的索引;
(6)按照下式,计算用户上传的索引和云存储数据库中索引之间的相似度:
M = ( 1 - D min M a x ( L 1 , L 2 ) ) * 100 %
其中,M表示用户上传的索引与云存储数据库中索引之间的相似度,Dmin表示用户上传的索引与云存储数据库中索引之间的最小编辑距离,Max表示作最大值操作,L1表示用户上传索引的长度,L2表示云存储数据库中的索引长度,*表示乘法操作;
(7)比对模糊哈希值:
(7a)服务器从云存储数据库中,选取与用户上传索引的相似度最高的目标索引;
(7b)服务器在云存储数据库中查找出目标索引对应的目标模糊哈希值h1′||h2′||…||hi′||…||hn′′,i∈{1,2,…,n′},其中,h′i表示目标文件的第i个分块哈希值,i表示目标文件的分块序号,n′表示目标文件的分块个数,||表示拼接操作;
(7c)服务器将用户上传的模糊哈希值与云存储数据库中的目标模糊哈希值进行比对;
(8)判断在目标模糊哈希值中是否存在与用户上传的模糊哈希值重复的数据块哈希值,若是,则执行步骤(9),否则,执行步骤(10);
(9)进行块级的文件所有权证明:
(9a)按照下式,计算重复数据块哈希值的询问信息:
c=fτ(H1||H2||…||Hj||…||Hm)
其中,c表示重复数据块哈希值的询问信息,fτ表示伪随机函数,τ表示伪随机函数fτ的安全参数,Hj表示第j个重复的数据块哈希值,j表示重复的数据块序号,j∈{1,2,…,m},m表示重复的数据块个数;
(9b)服务器将重复数据块哈希值的询问信息发送给用户;
(9c)用户接收重复数据块哈希值的询问信息,从待模糊匹配文件中查找对应的重复文件数据块;
(9d)按照下式,计算重复文件数据块的证明信息:
p=fτ(b1||b2||…||bj||…||bm)
其中,p表示重复文件数据块的证明信息,fτ表示伪随机函数,τ表示伪随机函数fτ的安全参数,bj表示第j个重复的文件数据块,j表示重复数据块的序号,j∈{1,2,…,m},m表示重复数据块的个数;
(9e)用户将重复文件数据块的证明信息发送给服务器;
(9f)服务器接收重复文件数据块的证明信息,利用重复数据块哈希值的询问信息对重复文件数据块的证明信息进行验证,证明用户确实拥有这些文件内容;
(10)服务器将不重复的数据块序号发送给用户;
(11)上传不重复的数据块:
用户接收不重复的数据块序号,利用不重复的数据块序号以及分割点在待模糊匹配文件中的位置,从待模糊匹配文件中查找不重复的文件数据块,将不重复的文件数据块、用户保存的文件元数据,以及索引一起上传给服务器。
2.根据权利要求1所述的一种支持模糊匹配的云存储数据去重复方法,其特征在于,步骤(3)中所述的分块条件是指满足以下条件之一的情形:
条件1,s mod b=b-1
条件2,s mod(2*b)=2*b-1
其中,s表示待模糊匹配文件字节的校验和,mod表示取余操作,b表示待模糊匹配文件的分块长度,*表示乘法操作。
3.根据权利要求1所述的一种支持模糊匹配的云存储数据去重复方法,其特征在于,步骤(5)中所述Base64编码处理模糊哈希值的方法是指,只取每个数据块哈希值的后6位,用Base64编码分别对数据块哈希值的后6位进行处理,得到一个由32~64个字符组成的字符串,其中,Base64编码是由64个ASCII码构成的字符集。
CN201610176892.XA 2016-03-25 2016-03-25 一种支持模糊匹配的云存储数据去重复方法 Active CN105868305B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610176892.XA CN105868305B (zh) 2016-03-25 2016-03-25 一种支持模糊匹配的云存储数据去重复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610176892.XA CN105868305B (zh) 2016-03-25 2016-03-25 一种支持模糊匹配的云存储数据去重复方法

Publications (2)

Publication Number Publication Date
CN105868305A true CN105868305A (zh) 2016-08-17
CN105868305B CN105868305B (zh) 2019-03-26

Family

ID=56625799

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610176892.XA Active CN105868305B (zh) 2016-03-25 2016-03-25 一种支持模糊匹配的云存储数据去重复方法

Country Status (1)

Country Link
CN (1) CN105868305B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106487937A (zh) * 2016-12-30 2017-03-08 郑州云海信息技术有限公司 一种云存储系统文件去重方法及系统
CN106503970A (zh) * 2016-11-04 2017-03-15 东软集团股份有限公司 流程实例的编辑方法及装置
CN107295002A (zh) * 2017-07-12 2017-10-24 联动优势科技有限公司 一种云端存储数据的方法及服务器
CN107465676A (zh) * 2017-07-31 2017-12-12 广州视源电子科技股份有限公司 一种向海量数据文件存储系统中上传文件的方法及其装置
CN108052609A (zh) * 2017-12-13 2018-05-18 武汉烽火普天信息技术有限公司 一种基于词典和机器学习的地址匹配方法
CN108073642A (zh) * 2016-11-18 2018-05-25 阿里巴巴集团控股有限公司 数据写入和读取的方法、装置及系统、数据交互系统
CN108304469A (zh) * 2017-12-27 2018-07-20 中国银联股份有限公司 用于字符串模糊匹配的方法和装置
CN109460386A (zh) * 2018-10-29 2019-03-12 杭州安恒信息技术股份有限公司 基于多维度模糊哈希匹配的恶意文件同源性分析方法及装置
CN110175155A (zh) * 2019-06-03 2019-08-27 武汉纺织大学 一种文件去重处理的方法和系统
CN111338572A (zh) * 2020-02-18 2020-06-26 电子科技大学 一种可调节加密重复数据删除方法
CN111586094A (zh) * 2020-03-26 2020-08-25 平安养老保险股份有限公司 一种文件上传方法、装置及计算机设备
CN111782591A (zh) * 2020-06-22 2020-10-16 北京计算机技术及应用研究所 一种计算文件相似哈希的方法
CN111881211A (zh) * 2020-07-24 2020-11-03 北京浪潮数据技术有限公司 一种存储数据同步方法、系统、设备及计算机存储介质
CN112380196A (zh) * 2020-10-28 2021-02-19 安擎(天津)计算机有限公司 一种用于数据压缩传输的服务器
CN112597345A (zh) * 2020-10-30 2021-04-02 深圳市检验检疫科学研究院 一种实验室数据自动采集与匹配方法
CN113961549A (zh) * 2021-09-22 2022-01-21 李凤杰 基于数据仓库的医疗数据整合方法及系统
US20220156399A1 (en) * 2018-04-13 2022-05-19 Sophos Limited Chain of custody for enterprise documents
CN115016330A (zh) * 2022-08-10 2022-09-06 深圳市虎一科技有限公司 一种菜谱与智能厨电自动匹配方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324552A (zh) * 2013-06-06 2013-09-25 西安交通大学 两阶段单实例去重数据备份方法
US8589406B2 (en) * 2011-03-03 2013-11-19 Hewlett-Packard Development Company, L.P. Deduplication while rebuilding indexes
CN103530201A (zh) * 2013-07-17 2014-01-22 华中科技大学 一种适用于备份系统的安全数据去重方法和系统
CN104268247A (zh) * 2014-09-30 2015-01-07 北京首钢自动化信息技术有限公司 一种基于模糊层次分析的主数据归集方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8589406B2 (en) * 2011-03-03 2013-11-19 Hewlett-Packard Development Company, L.P. Deduplication while rebuilding indexes
CN103324552A (zh) * 2013-06-06 2013-09-25 西安交通大学 两阶段单实例去重数据备份方法
CN103530201A (zh) * 2013-07-17 2014-01-22 华中科技大学 一种适用于备份系统的安全数据去重方法和系统
CN104268247A (zh) * 2014-09-30 2015-01-07 北京首钢自动化信息技术有限公司 一种基于模糊层次分析的主数据归集方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李纲: "基于语义指纹的中文文本快速去重", 《现代图书情报技术》 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503970A (zh) * 2016-11-04 2017-03-15 东软集团股份有限公司 流程实例的编辑方法及装置
CN108073642A (zh) * 2016-11-18 2018-05-25 阿里巴巴集团控股有限公司 数据写入和读取的方法、装置及系统、数据交互系统
CN106487937A (zh) * 2016-12-30 2017-03-08 郑州云海信息技术有限公司 一种云存储系统文件去重方法及系统
CN107295002B (zh) * 2017-07-12 2020-06-19 联动优势科技有限公司 一种云端存储数据的方法及服务器
CN107295002A (zh) * 2017-07-12 2017-10-24 联动优势科技有限公司 一种云端存储数据的方法及服务器
CN107465676A (zh) * 2017-07-31 2017-12-12 广州视源电子科技股份有限公司 一种向海量数据文件存储系统中上传文件的方法及其装置
CN108052609A (zh) * 2017-12-13 2018-05-18 武汉烽火普天信息技术有限公司 一种基于词典和机器学习的地址匹配方法
CN108304469A (zh) * 2017-12-27 2018-07-20 中国银联股份有限公司 用于字符串模糊匹配的方法和装置
CN108304469B (zh) * 2017-12-27 2021-12-07 中国银联股份有限公司 用于字符串模糊匹配的方法和装置
US20220156399A1 (en) * 2018-04-13 2022-05-19 Sophos Limited Chain of custody for enterprise documents
CN109460386A (zh) * 2018-10-29 2019-03-12 杭州安恒信息技术股份有限公司 基于多维度模糊哈希匹配的恶意文件同源性分析方法及装置
CN109460386B (zh) * 2018-10-29 2021-01-22 杭州安恒信息技术股份有限公司 基于多维模糊哈希匹配的恶意文件同源性分析方法及装置
CN110175155A (zh) * 2019-06-03 2019-08-27 武汉纺织大学 一种文件去重处理的方法和系统
CN110175155B (zh) * 2019-06-03 2023-06-13 武汉纺织大学 一种文件去重处理的方法和系统
CN111338572A (zh) * 2020-02-18 2020-06-26 电子科技大学 一种可调节加密重复数据删除方法
CN111586094A (zh) * 2020-03-26 2020-08-25 平安养老保险股份有限公司 一种文件上传方法、装置及计算机设备
CN111782591A (zh) * 2020-06-22 2020-10-16 北京计算机技术及应用研究所 一种计算文件相似哈希的方法
CN111782591B (zh) * 2020-06-22 2023-05-16 北京计算机技术及应用研究所 一种计算文件相似哈希的方法
CN111881211B (zh) * 2020-07-24 2022-06-10 北京浪潮数据技术有限公司 一种存储数据同步方法、系统、设备及计算机存储介质
CN111881211A (zh) * 2020-07-24 2020-11-03 北京浪潮数据技术有限公司 一种存储数据同步方法、系统、设备及计算机存储介质
CN112380196A (zh) * 2020-10-28 2021-02-19 安擎(天津)计算机有限公司 一种用于数据压缩传输的服务器
CN112380196B (zh) * 2020-10-28 2023-03-21 安擎(天津)计算机有限公司 一种用于数据压缩传输的服务器
CN112597345A (zh) * 2020-10-30 2021-04-02 深圳市检验检疫科学研究院 一种实验室数据自动采集与匹配方法
CN112597345B (zh) * 2020-10-30 2023-05-12 深圳市检验检疫科学研究院 一种实验室数据自动采集与匹配方法
CN113961549A (zh) * 2021-09-22 2022-01-21 李凤杰 基于数据仓库的医疗数据整合方法及系统
CN115016330A (zh) * 2022-08-10 2022-09-06 深圳市虎一科技有限公司 一种菜谱与智能厨电自动匹配方法及系统

Also Published As

Publication number Publication date
CN105868305B (zh) 2019-03-26

Similar Documents

Publication Publication Date Title
CN105868305A (zh) 一种支持模糊匹配的云存储数据去重复方法
US7478113B1 (en) Boundaries
CN105069111B (zh) 云存储中基于相似性的数据块级数据去重方法
CN106612172A (zh) 云存储中一种可验证还原数据真实性的数据篡改恢复算法
Nadiya et al. Block summarization and compression in bitcoin blockchain
CN106874348A (zh) 文件存储和索引方法、装置及读取文件的方法
CN106649360B (zh) 数据重复性校验方法及装置
US11609882B2 (en) System and method for random-access manipulation of compacted data files
US20230409533A1 (en) System and method for error-resilient data compression using codebooks
CN109101504A (zh) 一种高效的日志压缩和索引方法
CN113360501A (zh) 一种基于区块链的分布式数据存储方法及系统
CN111966654A (zh) 一种基于Trie字典树的混合过滤器
CN107241417A (zh) 一种文件传输的方法、系统、发送端及接收端
CN115225409A (zh) 基于多备份联合验证的云数据安全去重方法
CN112559462A (zh) 一种数据压缩方法、装置、计算机设备和存储介质
CN113468571A (zh) 基于区块链的溯源方法
Tutuncu et al. New approach in E-mail based text steganography
CN115269585A (zh) 搜索方法及装置
CN111866134A (zh) 区块链交易哈希值和地址的生成方法、系统及存储介质
CN114065269B (zh) 无绑定型非同质化代币的生成方法和解析方法和存储介质
CN110019056B (zh) 用于云层的容器元数据分离
CN109150537A (zh) 一种基于动态Bloom Filter的文件所有权证明方法
CN115168336A (zh) 一种基于多个客户端的跨机构哈希检索方法及装置
CN111400624A (zh) 一种多功能排序系统
CN103326731B (zh) 一种基于分布式算术编码的隐马尔科夫相关信源编码方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant