CN107306274A - 基于数字摘要的重复数据删除方法 - Google Patents

基于数字摘要的重复数据删除方法 Download PDF

Info

Publication number
CN107306274A
CN107306274A CN201610235459.9A CN201610235459A CN107306274A CN 107306274 A CN107306274 A CN 107306274A CN 201610235459 A CN201610235459 A CN 201610235459A CN 107306274 A CN107306274 A CN 107306274A
Authority
CN
China
Prior art keywords
digital digest
server
client
file data
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610235459.9A
Other languages
English (en)
Inventor
莫雪峰
辛跃华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shenzhou Acrobatics Culture Industry Co
Original Assignee
Beijing Shenzhou Acrobatics Culture Industry Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shenzhou Acrobatics Culture Industry Co filed Critical Beijing Shenzhou Acrobatics Culture Industry Co
Priority to CN201610235459.9A priority Critical patent/CN107306274A/zh
Publication of CN107306274A publication Critical patent/CN107306274A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • G06F16/137Hash-based
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • G06F16/152File search processing using file content signatures, e.g. hash values
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明提供了一种基于数字摘要的重复数据删除方法,该方法使用于服务器的重复数据删除,具体包括:服务器接收文件数据之前,客户端首先根据文件数据的内容计算数字摘要,并发送给服务器,服务器接收到数字摘要后进行匹配搜索,判断是否存在与该数字摘要具有相同实质内容的数据信息,如果匹配成功,则删除该数字摘要,通知客户端无需上传该数字摘要对应的文件数据,并关闭该上传通道。本发明通过搜索匹配数据文件对应的数字摘要信息,避免内容一致的文件数据重复存储,节约了服务器存储空间,提升了服务器存储空间的利用率,提高了接入带宽的传输利用率。

Description

基于数字摘要的重复数据删除方法
技术领域
本发明属于计算机数据存储技术领域,尤其是一种基于数字摘要的重复数据删除方法。
背景技术
数字摘要本质上是一串固定长度(128位)的密文消息,其核心部分在于一个安全编码的Hash函数。数字摘要的生成过程其实就是运行该Hash函数,单向的将数据内容编码成固定长度(128位)的一串密文,该密文也叫做数字指纹。Hash函数的设计应当确保输入不同的数据内容,对应产生不同的密文串,这样可以用该密文串代表对应的数据内容,进行网络传输和内容验证。
一个Hash函数的好坏是由发生碰撞的概率决定的。如果攻击者能够轻易地构造出两个消息具有相同的Hash值,那么这样的Hash函数是很危险的。一般来说,安全Hash标准的输出长度为160位,这样才能保证它足够的安全。这一加密方法亦称安全Hash编码法(SHA:Secure Hash Algorithm)或MD5(MD Standards for Message Digest)。该编码法采用单向Hash函数将需加密的明文“摘要”成一串128bit的密文,这一串密文亦称为数字指纹(Finger Print),它有固定的长度,且不同的明文摘要成密文,其结果总是不同的,而同样的明文其摘要必定一致。这样摘要便可成为验证明文是否是“真身”的“指纹”了。
重复数据删除是数据存储领域重要的技术手段,通过删除内容相同的文件或者数据块,达到解决存储系统空间容量的目的。在目前多用户存储系统中,涉及到个体用户命名空间的限制,服务器较少采用重复数据删除技术,只是在接收文件时对同一客户端的文件进行过滤。不同客户端对同一文件数据采用不同的命名时,服务器将建立两份拷贝,这样不仅占用了存储空间,造成空间浪费和冗余数据,而且客户端发送已存数据也会占据接入带宽,造成带宽拥堵。
发明内容
本发明的目的在于提供一种重复数据删除方法,提供存储空间利用率,同时减少接入带宽的浪费。
本发明采用数字摘要匹配搜索的方式,实现上述重复数据删除方法,服务器在接收存储文件数据之前,具体执行以下步骤:
客户端首先根据文件数据的内容计算数字摘要,并发送给服务器。
服务器接收到数字摘要后进行匹配搜索,判断是否存在与该数字摘要具有相同实质内容的数据信息,如果匹配成功,则删除该数字摘要,通知客户端无需上传该数字摘要对应的文件数据,并关闭该上传通道。
本发明通过搜索匹配数据文件对应的数字摘要信息,避免内容一致的文件数据重复存储,节约了服务器存储空间,提升了服务器存储空间的利用率,提高了接入带宽的传输利用率。
附图说明
图1是本申请的重复数据删除方法的流程图;
图2是本申请的服务器接收文件数据后的关系映射图;
图3是本申请的多个客户端发送文件数据后的关系映射图。
具体实施方式
本发明提供了一种基于数字摘要的重复数据删除方法,该方法适用于多客户端的存储空间重复数据删除,能够有效的节约服务器存储空间,提高存储空间利用率,以及接入带宽的网络资源使用效率。
本发明通过搜索匹配数据文件对应的数字摘要信息,避免内容一致的文件数据重复存储,服务器使用该重复数据删除方法流程如图1所示,主要包括以下步骤:
步骤1,客户端首先根据文件数据的内容计算数字摘要,具体过程为,客户端C1进入命名空间,对新产生的文件数据拷贝进行命名为1.doc,并保存在“目录1”下,将1.doc文件数据内容作为Hash函数的输入,运行Hash函数,生成1.doc对应的数字摘要。
Hash函数是生成数字摘要的核心环节,不同的文件数据内容应当生成不同的数字摘要,是有效进行重复数据删除的关键,同时Hash函数的保密性也决定着数字摘要传输的保密性,并最终影响到服务器存储系统的安全性。
实际应用的Hash函数多种多样,实现原理各不相同,保密性和安全性也存在差异,其中SHA-1和MD5算法是应用最广泛、最著名的Hash函数,它们都是基于MD4算法发展而来。MD4算法是基于32位操作数的位操作来实现的,适用于32位字长的处理器,其摘要长度为128位,一般128位长的MD4散列被表示为32位的十六进制数字。MD5算法在MD4算法基础上增加了位数用于处理文件数据内容,由128位增加到512位,并划分了16个子分组,每个子分组包含32位。MD5算法输出的数字摘要包括4个分组,每个分组包含32位,在输出的同时级联4个分组,最终组合成一个128位固定长度的hash值。SHA-1算法在MD4算法的基础上提升了逻辑运算的数学复杂度,在具体实现中以MD4为基础,增加附加轮、扩展轮换,以及更加优化的雪崩效应。SHA-1算法所生成的数字摘要包含160位,要长于MD5算法所产生的数字摘要,因此对于穷举模式攻击具备更好的防范效果。
但是已知任意Hash函数都存在漏洞,有其局限性,在某些针对性环境下,都会产生碰撞,也就是输入两个不同的文件数据内容,却生成了相同的数字摘要。这种情况只能采用二次Hash的方式进行补救。
步骤2,客户端C1生成1.doc对应的数字摘要,请求服务器建立上传链接通道,首先将“目录1/1.doc”的文件信息发送给服务器,然后将1.doc对应的数字摘要发送给服务器。
为了保障信息传输的安全性,客户端与服务器之间建立的上传连接通道采用加密通道方式进行信息传输,在数字摘要的基础上结合对称加密方式。具体方式为,利用一对互相匹配的密钥进行加密和解密,服务器设定一把特定的仅为自己所知的私有密钥(私钥),用它进行解密和签名,同时设定一把公共密钥(公钥)并公开,为客户端和服务器共享,用于加密和验证签名。当发送加密数字摘要时,客户端使用公钥对数据加密,而服务器使用自己的私钥解密,确保整个传输过程的安全性。
通过数字的手段保证加密过程是一个不可逆过程,即只有用私有密钥才能解密.在公开密钥密码体制中,常用的一种是RSA算法。RSA算法基于一个十分简单的数论事实:将两个大素数相乘十分容易,但是想要对其乘积进行因式分解却极其困难,因此可以将乘积公开作为加密密钥。在RSA算法中,加密密钥(即公开密钥)PK是公开信息,而解密密钥(即秘密密钥)SK是需要保密的。加密算法E和解密算法D也都是公开的。虽然解密密钥SK是由公开密钥PK决定的,但却不能根据PK计算出SK。RSA是目前最有影响力的公钥加密算法,它能够抵抗到目前为止已知的绝大多数密码攻击,已被ISO推荐为公钥数据加密标准。
步骤3,服务器接收客户端C1的请求,并接收发来的1.doc对应的文件信息和数字摘要,在该客户端的用户空间中记录该文件信息并创建对应文件句柄。
以数字摘要为关键字,在服务器存储空间的数字摘要索引表上进行匹配搜索,查找是否存在相同的数字摘要。如果匹配到相同的数字摘要,则存在相同的文件数据内容,通知客户端已存在相同的文件数据内容,建立该客户端对该文件数据内容的共享指针,并结束此上传操作,中断链接通道。
如果无法匹配到相同的数字摘要,则执行步骤4。
步骤4,服务器通知客户端C1发送文件数据内容1.doc,客户端C1接收发送消息,启动传输步骤5。
步骤5,客户端C1将1.doc的文件数据内容发送给服务器,发送过程中采用步骤3相同的加密方式对1.doc的文件数据内容进行加密后传输。
服务器接收到1.doc文件数据内容,首先生成1.doc对应的元数据信息,具体包括文件名称、文件大小、文件数据内容数字摘要、创建日期、文件所有者、存储地址、共享指针数目。然后创建1.doc存储地址、目录1/1.doc、数字摘要hash值(1.doc)三者之间的关系映射。在本发明中使用Location ID描述存储空间地址,这种关系映射如图2所示,表述为目录1/1.doc文件信息与Location ID的关系映射,1.doc对应的数字摘要hash与Location ID的关系映射。
一旦关系映射建立后,如果客户端C1需要删除文件1.doc,应当发送“目录1/1.doc”的删除消息给服务器,解除该关系映射,并将共享计数器减1。一旦共享计数器变为0,则彻底删除Location ID对应的文件数据内容。
上述步骤1至步骤5是客户端C1向服务器发起文件数据内容传输的流程。通过该流程所述之方法能够在不同的客户端的用户空间中避免相同的文件数据内容重复发送,有效节约了存储空间。同时,在启动文件数据内容传输连接通道后,首先发送对应的数字摘要进行匹配搜索,共计128位Hash值,提高传输效率和网络带宽的利用率。
在步骤3中,利用文件数据内容对应的数字摘要进行匹配搜索,如果匹配到相同的数字摘要,在特殊情况下,其对应的文件数据内容有可能不相同。因为产生数字摘要的Hash函数存在碰撞的可能性,即输入不同的文件数据内容,却产生了相同的数字摘要。尽管这一事件发生的概率极小,但是会对整个存储系统致命后果。例如,客户端C1通过验证数字摘要,测试出客户端C2的用户空间具有相同的数字摘要,尽管所对应的文件数据内容不相同,服务器却通知客户端C1结束此次上传动作,导致客户端C1文件数据内容丢失,这是第一个严重错误。当客户端C1请求下载该文件数据内容,服务器将把客户端C2拥有的文件数据内容发送给客户端C1,造成用户数据泄露,这是第二个严重错误。
本发明提供了一种措施用以避免发生这种情况,即通过二次Hash验证的方法,通知服务器和客户端对文件数据内容进行近一步的匹配搜索,具体检验方法包括:服务器通知客户端匹配到相同的数字摘要,请求客户端重新计算文件数据内容对应的数字摘要;客户端接收请求后,采用其他Hash函数重新对文件数据内容进行计算,并产生新的数字摘要;客户端将新的数字摘要发送给服务器;服务器对新接收的数字摘要进行二次匹配搜索,并根据匹配结果通知客户端发生不同的动作。通过二次匹配的方式,几乎可以避免二次碰撞的发生。
以上所述仅为本发明的较佳实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (7)

1.一种基于数字摘要的重复数据删除方法,其特征在于,所述方法用于服务器重复数据删除,所述方法包括:
服务器接收文件数据之前,客户端首先根据文件数据的内容计算数字摘要,并发送给服务器,服务器接收到数字摘要后进行匹配搜索,判断是否存在与该数字摘要具有相同实质内容的数据信息,如果匹配成功,则删除该数字摘要,通知客户端无需上传该数字摘要对应的文件数据,并关闭该上传通道。
2.根据权利要求1所述的方法,其特征在于,所述客户端根据文件数据的内容计算数字摘要并发送给服务器具体包括:
客户端读取文件数据内容,计算数字摘要,请求服务器建立传输通道链接,并将上述数据摘要发送给服务器。
3.根据权利要求2所述的方法,其特征在于,在传输通道建立后,采用加密方式进行数据传输。
4.根据权利要求2或3所述的方法,其特征在于,服务器接收数字摘要信息进一步包括:
服务器同意客户端建立传输通道链接;
建立传输通道链接后,服务器接收客户端发送的数字摘要信息,匹配搜索该数字摘要,寻找服务器存储器中是否保存与该数字摘要一致的文件数据内容,根据匹配结果,通知客户端发生不同动作。
5.根据权利要求4所述的方法,其特征在于,如果不存在一致的数字摘要,通知客户端将该数字摘要对应的文件数据内容发送给服务器,进一步包括:
服务器将同意上传文件数据内容消息发送给客户端;
客户端启动发送进程,发送文件数据内容;
服务器接收客户端发送的文件数据内容,生成该文件所对应的元数据信息,具体包括文件名称、文件大小、文件数据内容数字摘要、创建期、文件所有者、存储地址、共享指针数目;
服务器将文件数据内容进行保存;
服务器通知客户端释放链接通道。
6.根据权利要求4所述的方法,其特征在于,如果存在一致的数字摘要,通知客户端无需上传该数字摘要对应的文件数据,进一步包括:
匹配到一致的数字摘要信息,则存在相同的文件数据内容,通知客户端已存在相同的文件数据内容,建立该客户端对该文件数据内容的共享指针;
或者进一步的对文件数据内容进行验证,由客户端发送第二次验证数字摘要,校验文件数据内容是否完全一致,如果一致,释放此次传输通道链接,如果不一致,重新发起文件数据传输请求。
7.根据权利要求6所述的方法,其特征在于,如果存在一致的数字摘要,需要进行第二次验证,进一步包括:
服务器匹配到一致的数据摘要信息,在多个客户端之间建立共享指针,指向该数字摘要所对应的文件数据内容,并通知客户端,对文件数据内容进行重新计算,对计算结果生成的第二次数字摘要进行高强度匹配。
CN201610235459.9A 2016-04-18 2016-04-18 基于数字摘要的重复数据删除方法 Pending CN107306274A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610235459.9A CN107306274A (zh) 2016-04-18 2016-04-18 基于数字摘要的重复数据删除方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610235459.9A CN107306274A (zh) 2016-04-18 2016-04-18 基于数字摘要的重复数据删除方法

Publications (1)

Publication Number Publication Date
CN107306274A true CN107306274A (zh) 2017-10-31

Family

ID=60151357

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610235459.9A Pending CN107306274A (zh) 2016-04-18 2016-04-18 基于数字摘要的重复数据删除方法

Country Status (1)

Country Link
CN (1) CN107306274A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516477A (zh) * 2019-07-29 2019-11-29 浪潮电子信息产业股份有限公司 文件处理方法及装置
CN111291207A (zh) * 2020-01-22 2020-06-16 奇安信科技集团股份有限公司 图片存储方法、装置及服务器
CN111309689A (zh) * 2018-12-12 2020-06-19 杭州海康存储科技有限公司 文件查重方法及装置
CN113362046A (zh) * 2021-08-10 2021-09-07 北京开科唯识技术股份有限公司 预防工资代发失误的控制方法及装置
CN114546280A (zh) * 2022-02-25 2022-05-27 创新奇智(重庆)科技有限公司 文件存储方法、装置、电子设备及计算机可读取存储介质
US20230035158A1 (en) * 2021-07-27 2023-02-02 Rovi Guides, Inc. Methods and systems for populating data for content item

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111309689A (zh) * 2018-12-12 2020-06-19 杭州海康存储科技有限公司 文件查重方法及装置
CN110516477A (zh) * 2019-07-29 2019-11-29 浪潮电子信息产业股份有限公司 文件处理方法及装置
CN111291207A (zh) * 2020-01-22 2020-06-16 奇安信科技集团股份有限公司 图片存储方法、装置及服务器
CN111291207B (zh) * 2020-01-22 2024-02-06 奇安信科技集团股份有限公司 图片存储方法、装置及服务器
US20230035158A1 (en) * 2021-07-27 2023-02-02 Rovi Guides, Inc. Methods and systems for populating data for content item
US11921999B2 (en) * 2021-07-27 2024-03-05 Rovi Guides, Inc. Methods and systems for populating data for content item
CN113362046A (zh) * 2021-08-10 2021-09-07 北京开科唯识技术股份有限公司 预防工资代发失误的控制方法及装置
CN114546280A (zh) * 2022-02-25 2022-05-27 创新奇智(重庆)科技有限公司 文件存储方法、装置、电子设备及计算机可读取存储介质

Similar Documents

Publication Publication Date Title
CN110213042B (zh) 一种基于无证书代理重加密的云数据去重方法
EP3356988B1 (en) Method and system for verifiable searchable symmetric encryption
CN107306274A (zh) 基于数字摘要的重复数据删除方法
CN105939191B (zh) 一种云存储中密文数据的客户端安全去重方法
Zheng et al. A cloud data deduplication scheme based on certificateless proxy re-encryption
WO2021109756A1 (zh) 一种基于同态加密方案的代理型匿名通信方法
CN107659401B (zh) 一种相似性感知的安全数据去重加密方法
CN112800445B (zh) 一种用于密文数据的前后向安全和可验证的布尔查询方法
CN110096901B (zh) 电子合同数据加密存储方法及签约客户端
CN102780698A (zh) 物联网平台中用户终端安全通信的方法
JP2011135464A (ja) 認証システム、認証装置、端末装置、認証方法、及びプログラム
CN110069946A (zh) 一种基于sgx的安全索引系统
CN113225318B (zh) 一种政务大数据加密传输及安全存储的方法及系统
CN111431705A (zh) 一种适用于可搜索加密的密码逆向防火墙方法
Huang et al. Efficiently secure data privacy on hybrid cloud
KR20120069387A (ko) 공개키 기반의 키워드 검색 방법
Backendal et al. Puncturable key wrapping and its applications
KR101232385B1 (ko) 대칭키 기반의 암호 생성 및 검색 방법과 그 시스템
Yang et al. Provable Ownership of Encrypted Files in De-duplication Cloud Storage.
KR100951034B1 (ko) 암호문 크기를 줄이기 위한 공개키 기반의 검색가능암호문생성 방법과, 그에 따른 공개키 기반의 데이터 검색 방법
Mata et al. Enhanced secure data storage in cloud computing using hybrid cryptographic techniques (AES and Blowfish)
CN115941155A (zh) 一种基于全同态加密的公钥可搜索加密方法
Zhao et al. Searchable ciphertext-policy attribute-based encryption with multi-keywords for secure cloud storage
Joseph et al. Design a hybrid Optimization and Homomorphic Encryption for Securing Data in a Cloud Environment
CN113065146A (zh) 一种用于区块链数据保护的同态加密方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
DD01 Delivery of document by public notice

Addressee: Beijing Shenzhou acrobatics Culture Industry Co.

Document name: Notification that Application Deemed to be Withdrawn

DD01 Delivery of document by public notice
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20171031

WD01 Invention patent application deemed withdrawn after publication