CN103605768A - 一种提高存储系统间海量文件同步速度的方法 - Google Patents

一种提高存储系统间海量文件同步速度的方法 Download PDF

Info

Publication number
CN103605768A
CN103605768A CN201310612349.6A CN201310612349A CN103605768A CN 103605768 A CN103605768 A CN 103605768A CN 201310612349 A CN201310612349 A CN 201310612349A CN 103605768 A CN103605768 A CN 103605768A
Authority
CN
China
Prior art keywords
file
destination
source
data block
verification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310612349.6A
Other languages
English (en)
Inventor
孟令斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201310612349.6A priority Critical patent/CN103605768A/zh
Publication of CN103605768A publication Critical patent/CN103605768A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种提高存储系统间海量文件同步速度的方法,涉及计算机存储领域,该方法涉及如下几个主要步骤:比较源端和目的端对应文件的大小和修改时间;目的端文件分块,计算校验和。该步骤首先对目的端的文件进行分块,之后对每个块分别计算校验和;将目的端文件的校验和列表传输到同步源;在源端进行文件的数据块比对;将步骤4中得到的结果数组传输到目的端;目的端根据从源端接收到的结果数组,重新生成文件。本发明能够有效的提高的存储系统中的海量文件的同步速度,提升网络利用率。

Description

一种提高存储系统间海量文件同步速度的方法
 
技术领域   
    本发明涉及计算机存储领域,具体涉及集群存储中,海量文件备份加速的技术,具体地说是一种提高存储系统间海量文件同步速度的方法。
背景技术
    随着信息时代的到来网络应用的高速发展,网络信息数据量越来越大,海量存储系统中所保存的数据量也越来越大,越来越多的存储系统中保存的数据量都已经达到了PB级。数据规模的快速增长无疑给文件同步、数据备份带来了新的问题。在海量数据的新环境下,传统的文件同步方法的性能已经无法满足业务需求。
由于现有的文件同步方法大都没有针对海量数据的环境进行专门的设计和优化,因此同步海量文件的性能较低。
发明内容
    本专利设计了一种提高存储系统间海量文件同步速度的方法。其特征在于通过利用文件对比算法以及多线程技术,减少了需要在网络中传输的数据量,并且充分利用了网络的带宽,进而提高了文件同步的速度,减少了文件同步所需要的时间。
    该方法涉及如下几个主要步骤:
1)、比较源端和目的端对应文件的大小和修改时间;如果源端文件和目的端文件的大小和修改时间中有一项不同,则启动一个线程,在新线程中开始执行步骤2。之后重复步骤1,比较下一个文件的大小和修改时间;
2)、目的端文件分块,计算校验和;该步骤首先对目的端的文件进行分块,之后对每个块分别计算校验和;
3)、将目的端文件的校验和列表传输到同步源;校验和列表中包括数据块的编号和校验和;
4)、在源端进行文件的数据块比对。在同步的源端,计算文件中的第一个数据块的校验和,并在从目的端得到的校验和列表中,查找该校验和是否存在;如果存在,则将该校验和对应的目的端文件数据块编号记录到结果数组中的对应位置,并将数据块窗口向后移动一个数据块的长度;如果不存在,则将该数据块的第一个字节保存到结果数组的对应位置,并将数据块窗口向后移动一个字节。重复以上过程,直至整个文件比对完毕;
5)、将步骤4中得到的结果数组传输到目的端;
6)、目的端根据从源端接收到的结果数组,重新生成文件。
    对文件的对比和传输过程进行优化,通过算法得出文件中被修改的部分,减少传输过程中需要传输的数据量,并对文件比较和数据传输进行并行处理的优化,从而大大提高文件的同步速度。
    该方法主要用于在不同的海量存储系统之间同步文件,通过在文件同步的源端和目的端进行软件优化,减少文件同步过程中需要传输的数据量,实现海量文件同步速度的提升。
    本发明与现有技术相比,所产生的有益效果是:
    该方法通过使用文件对比算法,查找出了同步源端文件和同步目的端文件中相同的数据块,减少了需要在网络中传输的数据量,同时使用了多线程技术,实现多个文件的同时传输,提高了海量文件同步的速度。
附图说明
    附图1为文件数据块对比算法的流程图;
    附图2为使用文件数据块对比算法后生成的结果数组示意图。
    图2中标识为灰色的数据块表示该数据块在目的端的文件中存在,数据块下方给出的是其在目的端文件中的编号;图2中标识为白色的数据块为本次同步需要传输的数据块。
具体实施方式
    参照具体实施例对本发明的提高存储系统间海量文件同步速度的方法作以下详细地说明。
    本发明体系结构包括:同步客户端模块(1)、同步服务端模块(2)。
    在一个典型的配置环境里,同步客户端模块(1)和同步服务端模块(2)作为一般的应用软件分别被安装到同步的目的端和同步的源端。当发起同步操作时,同步服务端模块(2)将同步源端目录中所有文件的文件名、文件大小和修改时间发送到同步客户端模块(1),同步客户端模块(1)依次比较源端和目的端对应文件的文件大小和修改时间,如果发现存在文件大小或修改时间不同的文件,则创建一个线程,在新线程中,使用数据块比对算法,查找出源端和目的端不同的数据块并进行传输,并最终在同步客户端模块(1)中利用这些数据块生成文件,完成文件的同步。
    至此,通过多文件的并行传输以及减少需要传输的数据量这两个方法,实现了一种海量文件环境中,提高文件同步速度的方法。

Claims (1)

1.一种提高存储系统间海量文件同步速度的方法,其特征在于该方法涉及如下几个主要步骤:
1)、比较源端和目的端对应文件的大小和修改时间;如果源端文件和目的端文件的大小和修改时间中有一项不同,则启动一个线程,在新线程中开始执行步骤2;之后重复步骤1,比较下一个文件的大小和修改时间;
2)、目的端文件分块,计算校验和;该步骤首先对目的端的文件进行分块,之后对每个块分别计算校验和;
3)、将目的端文件的校验和列表传输到同步源;校验和列表中包括数据块的编号和校验和;
4)、在源端进行文件的数据块比对;在同步的源端,计算文件中的第一个数据块的校验和,并在从目的端得到的校验和列表中,查找该校验和是否存在;如果存在,则将该校验和对应的目的端文件数据块编号记录到结果数组中的对应位置,并将数据块窗口向后移动一个数据块的长度;如果不存在,则将该数据块的第一个字节保存到结果数组的对应位置,并将数据块窗口向后移动一个字节;重复以上过程,直至整个文件比对完毕;
5)、将步骤4中得到的结果数组传输到目的端;
6)、目的端根据从源端接收到的结果数组,重新生成文件。
CN201310612349.6A 2013-11-27 2013-11-27 一种提高存储系统间海量文件同步速度的方法 Pending CN103605768A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310612349.6A CN103605768A (zh) 2013-11-27 2013-11-27 一种提高存储系统间海量文件同步速度的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310612349.6A CN103605768A (zh) 2013-11-27 2013-11-27 一种提高存储系统间海量文件同步速度的方法

Publications (1)

Publication Number Publication Date
CN103605768A true CN103605768A (zh) 2014-02-26

Family

ID=50123990

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310612349.6A Pending CN103605768A (zh) 2013-11-27 2013-11-27 一种提高存储系统间海量文件同步速度的方法

Country Status (1)

Country Link
CN (1) CN103605768A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104219027A (zh) * 2014-09-05 2014-12-17 四川长虹电器股份有限公司 纠正文件传输错误的分布式文件安全存储系统及其方法
CN104965845A (zh) * 2014-12-30 2015-10-07 浙江大华技术股份有限公司 一种小文件的定位方法及系统
CN106469219A (zh) * 2016-09-09 2017-03-01 武汉长光科技有限公司 一种嵌入式设备配置文件同步比较的方法
CN111581030A (zh) * 2020-05-13 2020-08-25 上海英方软件股份有限公司 一种基于差异数据的数据同步系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1549130A (zh) * 2003-05-06 2004-11-24 联想(北京)有限公司 一种文件同步的方法
US6847983B2 (en) * 2001-02-28 2005-01-25 Kiran Somalwar Application independent write monitoring method for fast backup and synchronization of open files
CN101833486A (zh) * 2010-04-07 2010-09-15 山东高效能服务器和存储研究院 一种远程备份和恢复系统设计方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6847983B2 (en) * 2001-02-28 2005-01-25 Kiran Somalwar Application independent write monitoring method for fast backup and synchronization of open files
CN1549130A (zh) * 2003-05-06 2004-11-24 联想(北京)有限公司 一种文件同步的方法
CN101833486A (zh) * 2010-04-07 2010-09-15 山东高效能服务器和存储研究院 一种远程备份和恢复系统设计方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张海峰: "基于Rsync的异构环境数据同步机制研究", 《万方数据》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104219027A (zh) * 2014-09-05 2014-12-17 四川长虹电器股份有限公司 纠正文件传输错误的分布式文件安全存储系统及其方法
CN104965845A (zh) * 2014-12-30 2015-10-07 浙江大华技术股份有限公司 一种小文件的定位方法及系统
CN106469219A (zh) * 2016-09-09 2017-03-01 武汉长光科技有限公司 一种嵌入式设备配置文件同步比较的方法
CN111581030A (zh) * 2020-05-13 2020-08-25 上海英方软件股份有限公司 一种基于差异数据的数据同步系统及方法

Similar Documents

Publication Publication Date Title
CN110798509B (zh) 区块数据同步方法、装置、介质、电子设备
CN106534273B (zh) 区块链元数据存储系统及其存储方法与检索方法
US10162552B2 (en) System and method for quasi-compacting garbage collection
CN111445236B (zh) 一种区块链交易验证方法、设备及存储介质
US20190034465A1 (en) Blockchain logging of data from multiple systems
CN103106068B (zh) 物联网大数据快速校验方法
CN105205154B (zh) 数据迁移方法以及装置
US20120011101A1 (en) Integrating client and server deduplication systems
US10366072B2 (en) De-duplication data bank
CN105162855A (zh) 增量数据同步方法和装置
CN103605768A (zh) 一种提高存储系统间海量文件同步速度的方法
CN103778136A (zh) 一种跨机房数据库同步方法及系统
CN104573064A (zh) 一种大数据环境下的数据处理方法
CN104348859B (zh) 文件同步方法、装置、服务器、终端及系统
CN112544038B (zh) 存储系统数据压缩的方法、装置、设备及可读存储介质
CN105550222A (zh) 一种基于分布式存储的图像服务系统及方法
CN111078672B (zh) 数据库的数据对比方法及装置
CN105445792A (zh) 一种叠前多次波逆时偏移地震数据处理方法及系统
CN112785408A (zh) 基于哈希的对账方法及装置
KR20200070116A (ko) 대형 그래프 처리를 위한 그래프 데이터 분할
CN103995827B (zh) MapReduce计算框架中的高性能排序方法
CN105721520B (zh) 一种文件同步方法及装置
CN110175155B (zh) 一种文件去重处理的方法和系统
CN102375886A (zh) 一种多通道高速数据比对方法
CN110472972B (zh) 一种区块链存储数据同步快照方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140226

WD01 Invention patent application deemed withdrawn after publication