CN102915325A - 基于md5哈希列表的文件分解与组合技术 - Google Patents

基于md5哈希列表的文件分解与组合技术 Download PDF

Info

Publication number
CN102915325A
CN102915325A CN2012102972808A CN201210297280A CN102915325A CN 102915325 A CN102915325 A CN 102915325A CN 2012102972808 A CN2012102972808 A CN 2012102972808A CN 201210297280 A CN201210297280 A CN 201210297280A CN 102915325 A CN102915325 A CN 102915325A
Authority
CN
China
Prior art keywords
hash
file
data
files
local
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012102972808A
Other languages
English (en)
Inventor
赖洪昌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHENZHEN LIMIT NETWORK TECHNOLOGY CO LTD
Original Assignee
SHENZHEN LIMIT NETWORK TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHENZHEN LIMIT NETWORK TECHNOLOGY CO LTD filed Critical SHENZHEN LIMIT NETWORK TECHNOLOGY CO LTD
Priority to CN2012102972808A priority Critical patent/CN102915325A/zh
Publication of CN102915325A publication Critical patent/CN102915325A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明为文件分解与组合技术。它是基于md5哈希列表的分解与组合技术。应了互联网大数据传输带宽占用尽量小和保持数据完整性的要求,本发明利用对本地数据文件与远程数据文件切割成等大小块文件的md5值的不同,只请求不同块文件的传输,并对所有块文件进行有序组合成最终数据文件,能有效地满足实际应用中的需求。

Description

基于md5哈希列表的文件分解与组合技术
技术领域
本发明是属于计算机信息处理技术领域,具体涉及一种基于md5哈希列表的文件分解与组合技术。 
背景技术
随着近几年WEB技术的飞速发展,特别是WEB2.0具有交互式时代的崛起,不管对于哪一种网络应用来说,用户的数据是无价的,所以数据的迁移与备份显得尤为重要。在进行大文件传输的过程中,带宽的占用势必会影响用户的体验,进而对用户的利益产生影响。对于不断增大的数据,我们也需要不断地定期备份,但是不可能每次都去重新请求需要备份的数据,我们只需要请求远程数据与本地数据当中不同的部分就可以了。在数据的完整性要求上,我们可以采用md5哈希列表来对照。所以,针对网站部署与维护方面需要进行大文件传输怎样才能节省带宽与保证文件的完整性上,我们提出了一种基于md5哈希列表的文件分解与组合技术。 
本发明所实现的基于md5哈希列表的文件分解与组合技术,可以有效的解决带宽占用大的影响以及保证了传输文件的完整性。 
发明内容
本发明旨在提供一种基于md5哈希列表的文件分解与组合技术,本发明主要实现的功能有:(1)对大文件(比如数据库、打包的邮件、日志文件)以一定大小(4KB)进行切割,并生成对应于各个小段文件的基于md5的哈希列表。(2)根据本地生成的哈希与远程主机生成的哈希列表进行比对,得到不同的块文件。(3)传输不同的块文件,并与本地的块文件按照哈希列表进行排列,组合成最终的大文件。 
具体实施方式:
基于md5哈希列表的文件分解与组合技术,包括以下步骤: 
1.对本地和远程的相关数据文件以一定大小(4KB)进行切割,并对各自切割后的小段文件计算其md5值及对其命名,各个小块文件对应其md5值为一条记录,然后按照切割的顺序排列记录写入哈希列表。(分解并不是以恒定的4KB大小进行切割,而是按照远程数据文件的大小而定。比如文件大小为1GB,则以128KB切割;文件大小为2GB,则已256KB切割;文件大小为4G,则已512KB切割;文件大小为8GB,则已1024KB切割。最大的切割大小为4096KB。其特征在于提高了下载文件的精确度,减少很些不必要的传输。 
2.假设本地数据文件要与远程数据文件同步。本地向远程推送生成的本地数据哈希列表(local), 远程主机接收local并与自身生成的数据哈希列表(remote)进行比对各条hash记录。不同的记录则记下来其在远程哈希列表中(remote)的文件名与位置。 
3.远程主机向本地推送不同的文件分块与一份remote的拷贝。 
4.把本地已有的小块文件与下载的不同小块文件按照远程数据哈希列表(remote)的顺序进行组合,形成最终的数据文件,从而实现与远程数据的同步。 
附图说明
图1为对本地与远程数据文件进行切割,生成各自的哈希列表。 
图2为假设本地要与远程数据进行同步。远程主机对比remtoe与local哈希列表的不同,并记录下与之对应的块文件。然后远程主机向本地推送一份remote的拷贝与传输不同的各个小块。 
图3为本地按照远程数据哈希列表的顺序进行组合成最终的数据文件。 

Claims (2)

1.本发明涉及一种基于md5哈希列表的文件分解与组合技术的实现方法。具体实现为,在数据同步的需求下。第一次同步时,远程主机对自身的数据文件R以一定大小进行分解,分解成不同的块文件并计算其md5值,生成一份块文件与块自身md5一一对应的hash列表R_HASH,并向本地推送这些块与R_HASH,本地接收块与R_HASH,最后根据R_HASH的排布进行组合成最终文件。第二次或以后的同步时,本地与远程主机对自身的数据文件进行分解,远程分解后产生R与R_HASH,本地分解后产生L与L_HASH。本地向远程推送L_HASH,远程主机用R_HASH与L_HASH进行对比,得出不同的块文件,向本地推送不同的块文件与R_HASH。最后根据R_HASH的排布进行组合成最终文件。
2.本发明重点突出的技术点是:
(1)文件分解:在对大数据文件进行切割时,需要支持多线程地对其进行计算md5值,各个小块文件以唯一标识符命名(或者利用本身的md5值命名),其特征在于:提高了块文件对比的精确性与减少不必要的传输带宽。
(2)文件组合:在对比本地哈希列表与远程哈希列表的时候,需要快速查找到不同的记录,并请求不同的块文件,最后在按照远程哈希列表顺序组合各个小块文件,最终实现与远程数据同步,其特征在与保证了数据的完整性。 
CN2012102972808A 2012-08-11 2012-08-11 基于md5哈希列表的文件分解与组合技术 Pending CN102915325A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012102972808A CN102915325A (zh) 2012-08-11 2012-08-11 基于md5哈希列表的文件分解与组合技术

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012102972808A CN102915325A (zh) 2012-08-11 2012-08-11 基于md5哈希列表的文件分解与组合技术

Publications (1)

Publication Number Publication Date
CN102915325A true CN102915325A (zh) 2013-02-06

Family

ID=47613692

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012102972808A Pending CN102915325A (zh) 2012-08-11 2012-08-11 基于md5哈希列表的文件分解与组合技术

Country Status (1)

Country Link
CN (1) CN102915325A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103354560A (zh) * 2013-06-28 2013-10-16 广州菁英信息技术有限公司 数据的分解同步方法及系统
CN104184602A (zh) * 2013-05-23 2014-12-03 中兴通讯股份有限公司 增量数据同步方法、网元管理系统及网络管理系统
CN105721526A (zh) * 2014-12-04 2016-06-29 清华大学 一种终端、服务器文件同步的方法及装置
CN105790928A (zh) * 2016-04-18 2016-07-20 电子科技大学 一种基于数字摘要的文件分割方法
CN106411656A (zh) * 2016-11-07 2017-02-15 清华大学 一种数据包顺序识别方法及设备
CN107809423A (zh) * 2017-10-20 2018-03-16 国信嘉宁数据技术有限公司 一种电子证据数据传输方法、系统和设备
CN105338059B (zh) * 2015-09-24 2018-09-04 广东欧珀移动通信有限公司 一种数据同步方法及移动终端
CN108733843A (zh) * 2018-05-29 2018-11-02 厦门市美亚柏科信息股份有限公司 基于哈希算法的文件检测方法和样本哈希库生成方法
CN109388918A (zh) * 2018-11-02 2019-02-26 深圳市小牛普惠投资管理有限公司 资源包加密方法、装置、计算机设备及存储介质
CN110806949A (zh) * 2019-11-05 2020-02-18 广东紫晶信息存储技术股份有限公司 一种校验数据生成方法及系统、数据校验方法及系统
CN111787074A (zh) * 2020-06-18 2020-10-16 杭州美创科技有限公司 一种文件同步方法及终端

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010037323A1 (en) * 2000-02-18 2001-11-01 Moulton Gregory Hagan Hash file system and method for use in a commonality factoring system
CN101183323A (zh) * 2007-12-10 2008-05-21 华中科技大学 一种基于指纹的数据备份系统
CN101216791A (zh) * 2008-01-04 2008-07-09 华中科技大学 基于指纹的文件备份方法
CN101770515A (zh) * 2010-01-18 2010-07-07 杭州顺网科技股份有限公司 一种基于数据块比较的数据更新方法
CN101814045A (zh) * 2010-04-22 2010-08-25 华中科技大学 一种用于备份服务的数据组织方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010037323A1 (en) * 2000-02-18 2001-11-01 Moulton Gregory Hagan Hash file system and method for use in a commonality factoring system
US20040148306A1 (en) * 2000-02-18 2004-07-29 Moulton Gregory Hagan Hash file system and method for use in a commonality factoring system
CN101183323A (zh) * 2007-12-10 2008-05-21 华中科技大学 一种基于指纹的数据备份系统
CN101216791A (zh) * 2008-01-04 2008-07-09 华中科技大学 基于指纹的文件备份方法
CN101770515A (zh) * 2010-01-18 2010-07-07 杭州顺网科技股份有限公司 一种基于数据块比较的数据更新方法
CN101814045A (zh) * 2010-04-22 2010-08-25 华中科技大学 一种用于备份服务的数据组织方法

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104184602A (zh) * 2013-05-23 2014-12-03 中兴通讯股份有限公司 增量数据同步方法、网元管理系统及网络管理系统
CN104184602B (zh) * 2013-05-23 2019-01-04 中兴通讯股份有限公司 增量数据同步方法、网元管理系统及网络管理系统
WO2014206034A1 (zh) * 2013-06-28 2014-12-31 广州市动景计算机科技有限公司 数据的分解同步方法及系统
CN103354560A (zh) * 2013-06-28 2013-10-16 广州菁英信息技术有限公司 数据的分解同步方法及系统
CN103354560B (zh) * 2013-06-28 2017-05-17 广州市动景计算机科技有限公司 数据的分解同步方法及系统
US10021182B2 (en) 2013-06-28 2018-07-10 Guangzhou Ucweb Computer Technology Co., Ltd. Method and apparatus for data synchronization
CN105721526A (zh) * 2014-12-04 2016-06-29 清华大学 一种终端、服务器文件同步的方法及装置
CN105721526B (zh) * 2014-12-04 2019-05-14 清华大学 一种终端、服务器文件同步的方法及装置
CN105338059B (zh) * 2015-09-24 2018-09-04 广东欧珀移动通信有限公司 一种数据同步方法及移动终端
CN105790928B (zh) * 2016-04-18 2018-12-18 电子科技大学 一种基于数字摘要的文件分割方法
CN105790928A (zh) * 2016-04-18 2016-07-20 电子科技大学 一种基于数字摘要的文件分割方法
CN106411656B (zh) * 2016-11-07 2019-09-20 清华大学 一种数据包顺序识别方法及设备
CN106411656A (zh) * 2016-11-07 2017-02-15 清华大学 一种数据包顺序识别方法及设备
CN107809423A (zh) * 2017-10-20 2018-03-16 国信嘉宁数据技术有限公司 一种电子证据数据传输方法、系统和设备
CN108733843A (zh) * 2018-05-29 2018-11-02 厦门市美亚柏科信息股份有限公司 基于哈希算法的文件检测方法和样本哈希库生成方法
CN108733843B (zh) * 2018-05-29 2021-01-12 厦门市美亚柏科信息股份有限公司 基于哈希算法的文件检测方法和样本哈希库生成方法
CN109388918A (zh) * 2018-11-02 2019-02-26 深圳市小牛普惠投资管理有限公司 资源包加密方法、装置、计算机设备及存储介质
CN109388918B (zh) * 2018-11-02 2020-07-28 深圳市小牛普惠投资管理有限公司 一种资源包加密方法、装置、计算机设备及存储介质
CN110806949A (zh) * 2019-11-05 2020-02-18 广东紫晶信息存储技术股份有限公司 一种校验数据生成方法及系统、数据校验方法及系统
CN111787074A (zh) * 2020-06-18 2020-10-16 杭州美创科技有限公司 一种文件同步方法及终端
CN111787074B (zh) * 2020-06-18 2023-04-21 杭州美创科技股份有限公司 一种文件同步方法及终端

Similar Documents

Publication Publication Date Title
CN102915325A (zh) 基于md5哈希列表的文件分解与组合技术
WO2010080591A3 (en) Methods and apparatus for content-aware data partitioning and data de-duplication
CN102946410A (zh) 网络同步方法和装置
CN102946411A (zh) 网络同步系统
GB2500160A (en) Replicating data
WO2008094594A3 (en) Method and apparatus to map and transfer data and properties between content-addressed objects and data files
Fronda Imitation (mimesis, imitatio)
Ermini Leaf Unified Method for Markov Chain Transition Model Estimation Using Incomplete Survey Data
Oristaglio SEAM update
Puente et al. Multi-year encoding of daily rainfall and streamflow via the fractal-multifractal method
Radhakrishnan et al. Deploying ESGF Node as Docker containers on Google Cloud: A GFDL experience
Yue et al. Low cloud feedback from A-Train sensors using the observation-based cloud radiative kernels
Harbeck et al. The Operation IceBridge Sea Ice Freeboard, Snow Septh and Thickness Product: An In-Depth Look at Past, Current and Future Versions
Puente et al. Mining air temperature records employing the fractal-multifractal method
Samadi Application of Clustering Algorithms in Hydroclimatic Classification of the Southeastern USA
Crawford et al. Capturing the Petermann Ice Island Flux With the CI2D3 Database
Golpayegani et al. Uncoupling File System Components for Bridging Legacy and Modern Storage Architectures
Gudmundsson et al. Modeling the Impacts of Thinning Ice Shelves on Upstream-Flow of the Antarctic Ice Sheet
Reis et al. VizieR Online Data Catalog: Outliers and similarity in APOGEE (Reis+, 2018)
Bonina et al. New business models for open data in the digital economy: a preliminary assessment of the literature
Chuang et al. A robust relation between interannual variations of ice water content and that of large-scale circulation over the tropical Pacific basin
Murphy et al. Integrating thematic web portal capabilities into the NASA Earthdata website
Hosoyama et al. Outline and On-line Service of Expanded JICST File on Medical Science in Japan
Dozier et al. Space-time series of MODIS snow cover products
Hong et al. Semi-automatic method for 2D/3D modeling building interiors

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20130206

RJ01 Rejection of invention patent application after publication