CN115640170B - 一种大数据同步备份及校验方法 - Google Patents

一种大数据同步备份及校验方法 Download PDF

Info

Publication number
CN115640170B
CN115640170B CN202211670704.0A CN202211670704A CN115640170B CN 115640170 B CN115640170 B CN 115640170B CN 202211670704 A CN202211670704 A CN 202211670704A CN 115640170 B CN115640170 B CN 115640170B
Authority
CN
China
Prior art keywords
data
storage server
backup
characteristic information
target storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211670704.0A
Other languages
English (en)
Other versions
CN115640170A (zh
Inventor
汪旗航
刘应吉
魏鑫磊
贾红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Research Institute of Highway Ministry of Transport
Original Assignee
Research Institute of Highway Ministry of Transport
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Research Institute of Highway Ministry of Transport filed Critical Research Institute of Highway Ministry of Transport
Priority to CN202211670704.0A priority Critical patent/CN115640170B/zh
Publication of CN115640170A publication Critical patent/CN115640170A/zh
Application granted granted Critical
Publication of CN115640170B publication Critical patent/CN115640170B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种大数据同步备份及校验方法,可由多个跨域跨平台服务器作为源存储服务器和目标存储服务器,利用网络通过合适的文件传输协议将源存储服务器中的数据同步备份至目标存储服务器当中;然后利用计算机通过遍历算法获取两类存储服务器中所有数据的完整路径信息、特征信息以及校验编码;然后通过比对算法对比源存储服务器和目标存储服务器中数据的特征信息和校验编码,当特征信息和校验编码完全相同时,才表示数据备份成功,否则不成功。该发明设计了基于跨域跨平台存储服务器的大数据备份系统,利用多渠道备份方法和数据校验一致性方法,保证了备份数据的完整性和安全性。

Description

一种大数据同步备份及校验方法
技术领域
本发明属于计算机信息技术领域,具体涉及一种大数据备份及校验方法。
背景技术
随着计算机技术的快速发展和大数据时代的到来,人们可通过对大样本数据的分析来实现生产生活上的便利性,数据已然成为了当今社会不可缺少的一部分。与此同时,考虑如何正确地存储和管理数据也是十分必要的,硬件损坏、病毒入侵等各种因素都会造成数据安全隐患。现如今各种行业的企事业单位都拥有海量的实验和测试数据,一般都会达到TB、PB级以上的数据量,因此提出一种安全高效的数据备份系统,对于存储数据、保证数据安全具有十分重要的意义。
对象存储作为目前主流的云存储技术,是一种新型的网络存储架构,它支持用户在任何时间、任何地点上传和下载数据,而且允许多个客户端同时访问存储空间,具有很好的便利性和很强的安全性。除此之外,对象存储采用虚拟化技术来解决存储空间的浪费问题,提高了存储空间的利用率,并且具有数据自动冗余、故障自动恢复的功能。目前主流的对象存储产品有阿里云OSS、华为云、Amazon Simple Storage Service等等。而传统的存储方式主要有块存储和文件存储两种方式。块存储是一种高效可靠的数据存储方式,可实现快速检索,当存储的数据越多时,就越适用块存储。文件存储的典型代表就是NAS(NetworkAttached Storage),NAS设备易于部署,能够即插即用,并且NAS是基于TCP/IP协议进行网络连接的,适于采用内网搭建本地存储系统。
数据完整性校验的目的主要是检测备份过程中由服务器硬件错误等因素所造成的数据是否存在损坏、丢包等问题,有利于管理者掌握备份数据的完整性信息,数据的完整性校验可通过一些数据校验算法来实现,比如:循环冗余校验(CRC)算法。CRC算法是一种经典的纠错编码方法,其在计算机和通信领域具有非常广泛的应用,具有很强的检纠错能力,与其他校验算法相比,编码规则简单且易实现。并且由于CRC校验码的位数少,不会占用太多的内存空间。
目前很多科研单位、企业公司以及高校等机构都十分重视网络及数据安全工作,因此每年会花费大量资金去购置第三方的存储服务,这就提高了存储成本,并且如果要采取多备份形式存储数据的话,成本不可估量。
因此,如果能够一种适用于大样本数据存储的多备份系统,并结合多种校验算法实现备份数据的完整性验证,这对于有存储需求的机构,安全存储数据资源、降低数据存储成本具有很高的经济价值。
发明内容
针对现有技术问题及社会机构安全存储的需要,本发明目的在于提供一种大数据同步备份及校验方法,其基于跨域跨平台的存储服务技术搭建大样本数据多备份系统,以此来拓宽数据的存储渠道,以及利用FTP、SFTP等文件传输协议实现大规模数据的备份,保证数据备份的安全性;并利用字段匹配算法提取特征信息,数据校验编码一致性原则等方法,保证大规模数据备份的完整性。该方法有利于各行业公司及机构安全、简单、高效地管理海量数据资源。
为了实现上述发明目的,本发明所采用的技术方案是:
一种大数据同步备份及校验方法,其特征在于,是采用源存储服务器和目标存储服务器,利用网络通过合适的文件传输协议将源存储服务器中的数据同步备份至目标存储服务器当中;
然后利用计算机通过遍历算法获取两类存储服务器中所有数据的完整路径信息、特征信息以及校验编码;
然后通过比对算法对比源存储服务器和目标存储服务器中数据的特征信息和校验编码,获取校验结果。
其中,一个源存储服务器可以同时对应多个目标存储服务器,利用网络通过合适的文件传输协议将源存储服务器中的数据同步备份至多个目标存储服务器中。
具体实施步骤为:
步骤1):利用FTP或SFTP文件传输协议将数据在源存储服务器和目标存储服务器中同步备份;
步骤2):遍历源存储服务器和目标存储服务器中所有数据,获取每个数据的完整路径信息,同时利用哈希算法计算获得每个数据的校验编码;
步骤3):根据每个数据的完整路径信息,采用字符串匹配算法,提取数据的特征信息;
步骤4):创建源存储服务器数据列表和目标存储服务器数据列表,分别用于存放源存储服务器和目标存储服务器中数据的特征信息及校验编码;
步骤5):利用比对算法对比源存储服务器数据列表和目标存储服务器数据列表中的数据,分别获取备份成功、备份失败和未备份这三种校验结果。
其中,所述源存储服务器和目标存储服务器均支持跨域跨平台操作。
其中,所述数据的校验编码为CRC码或MD5码等能保证数据完整一致性的校验编码。
其中,数据的特征信息包括文件名称、唯一标识码、格式类型等能保证备份前后数据相对应的信息。
其中,所述源存储服务器数据列表和目标存储服务器数据列表,均为n行m列的列表,其中行数n为所需备份的数据数量,列数m为所提取的每一数据的特征信息种类和使用到的校验编码种类之和。
在步骤5)中,比对及校验方法如下:
a)创建一个数据数量的变量i,为整数,令其初始值为1;
b)从i=1开始,在目标存储服务器数据列表中遍历查找与源存储服务器数据列表中第i个数据特征信息是否有完全相同的数据,并比较它们之间的校验编码是否相同;
b1)若目标存储服务器数据列表中存在与源存储服务器数据列表中特征信息完全相同的数据,且它们之间的校验编码相同,则视为该数据备份成功,则删除目标存储服务器数据列表中该数据,将变量i加1继续比对;
b2)若目标存储服务器数据列表中存在与源存储服务器数据列表中特征信息完全相同的数据,但它们之间的校验编码不相同,则视为该数据备份失败,则保留目标存储服务器数据列表中该数据,将变量i加1继续比对;
b3)若目标存储服务器数据列表中不存在与源存储服务器数据列表中特征信息完全相同的数据,则视为该数据未备份,将该数据另存至其他列表中,并删除源存储服务器数据列表中该数据,将变量i加1继续比对;
c)直至遍历完源存储服务器数据列表中所有数据,校验结束,将源存储服务器数据列表中存储的备份成功和备份失败的数据,减去目标存储服务器列表中备份失败的数据,即得到备份成功的数据。
本发明的有益效果是:本发明提出了基于跨域跨平台操作的存储服务器的数据备份系统,易实现,且备份数据的完整性校验方法不存在复杂计算,所以校验速度快。同时,该方法可采用内网部署存储服务器的方法,既可显著降低备份成本,亦能降低来自外网恶意攻击的可能性。依据以上特点,该数据备份及校验方法有利于后续推广应用,为掌握海量数据资源的公司或机构提供了一种安全、简单、成本低的数据管理模式,具有很高的应用价值。
附图说明
为了更清楚地说明本发明的实施例,下面对实施例描述中所使用的附图作简单地介绍,如下:
图1是本发明实施例中所提供的一种大数据备份系统的架构示意图;
图2是本发明实施例中所提供的一种数据校验方法的整体流程示意图。
具体实施方式
下面将结合本发明实施例和附图,对本发明的技术方案进行清楚、完整地描述。
本发明提供一种大数据备份及校验方法,其总体原理如下:如图1所示,采用跨域跨平台的云存储服务器1和本地存储服务器2搭建大数据备份系统,一个作为源存储服务器,另一个作为目标存储服务器,利用网络通过合适的文件传输协议将源存储服务器中的数据同步备份至目标存储服务器当中;然后利用计算机3通过遍历算法获取各存储服务器中所有文件的完整路径信息,并提取文件中数据的特征信息,以及利用哈希算法计算数据的校验编码,经过比对算法对比源存储服务器和目标存储服务器中特征信息相同文件的校验编码,获取校验结果。
其中,一个源存储服务器可以同时对应多个目标存储服务器,利用网络通过合适的文件传输协议将源存储服务器中的数据同步备份至多个目标存储服务器中。
具体流程如下,图2所示:
步骤1):利用FTP、SFTP等文件传输协议实现数据在源存储服务器和目标存储服务器中的同步备份,比如无论云存储服务器1和本地存储服务器2中哪一个为源存储服务器,则另一个相对成为目标存储服务器;
步骤2):遍历源存储服务器和目标存储服务器中所有数据,获取每个数据的完整路径,同时利用哈希算法计算获得每个数据的校验编码。比如:在window系统中,可以通过调用命令行“ossutil64.exe hash+文件路径+校验类型”的方法实现;
步骤3):然后根据每个数据的字符串内容,利用字符串匹配算法,提取数据的特征信息;
步骤4):创建源存储服务器数据列表和目标存储服务器数据列表,如表1所示,分别用于存放源存储服务器和目标存储服务器中数据的特征信息及校验编码;
步骤5):利用比对算法对比源存储服务器数据列表和目标存储服务器数据列表中的数据,分别获取备份成功、备份失败和未备份这三种校验结果,并决定是否备份于目标存储服务器中。
进一步地,数据的校验编码可采用CRC码、MD5码等能保证数据完整一致性的校验编码。
进一步地,数据的特征信息包括文件名称、唯一标识码、格式类型等能保证备份前后数据相对应的信息。
进一步地,创建的服务器数据列表为n行m列的列表,其中行数n为所需备份的数据数量,列数m为所需备份的每一数据的特征信息种类数量和使用到的校验码种类数量之和。
进一步地,上述步骤3)中利用字符串匹配算法提取数据特征的方法如下:
通过上述步骤2)所获取的数据路径信息的形式一般为“主机地址\其他文件夹名称\项目名\唯一标识码\文件名称.文件类型”,因此只需要识别符号“\”出现的次数和位置即可分割出数据的特征信息。比如:按照上述形式,截取“\”第三和第四次出现的位置之间的字符串,即为唯一识别码;而要从“文件名称.文件类型”中分割出文件名称和文件类型时,则可通过判断“.”最后一次出现的位置实现,截取“\”最后一次出现的位置和“.”最后一次出现的位置之间的字符串即为文件名称,截取“.”最后一次出现的位置之后的字符串则为“文件类型”。对于其他形式的数据路径信息也可采用此方法。
进一步地,上述步骤5)中比对及校验方法如下:
a)创建一个数据数量的变量i,为整数,令其初始值为1;
b)从i=1开始,在目标存储服务器数据列表中遍历查找与源存储服务器数据列表中第i个数据特征信息完全相同的数据,然后比较它们之间的校验编码是否相同;
b1)若目标存储服务器数据列表中存在与源存储服务器数据列表中特征信息完全相同的数据,且它们之间的校验编码相同,则视为该数据备份成功,则将该数据删除于目标存储服务器数据列表,然后将变量i加1继续比对;
b2)若目标存储服务器数据列表中存在与源存储服务器数据列表中特征信息完全相同的数据,但它们之间的校验编码不相同,则视为该数据备份失败,则将该数据保留于目标存储服务器数据列表,然后将变量i加1继续比对;
b3)若目标存储服务器数据列表中不存在与源存储服务器数据列表中特征信息完全相同的数据,则也无需比对校验编码,视为该数据未备份,将该数据的特征信息和校验编码另存至其他另建列表中,并删除源存储服务器数据列表中该数据的特征信息及校验编码,然后将变量i加1继续比对;
c)直至遍历完源存储服务器数据列表中所有数据,此时目标存储服务器数据列表中存储的全部为备份失败的数据,而源存储服务器数据列表中存储了备份成功和备份失败的数据,从源存储服务器数据列表中剔除目标存储服务器数据列表中备份失败的数据,即等到备份成功的数据,而未备份的数据及其相关信息则存储于其他列表当中。
下面以部分数据的备份及校验过程为示例,说明该方法提取数据特征信息、校验编码,以及完成比对校验的全过程。
首先获取源存储服务器中数据的完整路径信息以及CRC编码如下(8种数据):
(1)D:\ossutil64>(ossutil64.exe hash D:\Security_store\********检验中心\**Z7C-LXB1MC5282**\基本信息.avi --type=crc64 ) CRC64-ECMA :7994116628121140648
(2)D:\ossutil64>(ossutil64.exe hash D:\Security_store\********检验中心\**Z7C-LXB1MC5282**\底盘结构.avi --type=crc64 ) CRC64-ECMA :2471226763881301478
(3)D:\ossutil64>(ossutil64.exe hash D:\Security_store\********检验中心\**Z7C-LXB1MC5282**\弯道制动稳定性(牵引车).avi --type=crc64 ) CRC64-ECMA :371478-1099588341347
(4)D:\ossutil64>(ossutil64.exe hash D:\Security_store\********检验中心\**Z7C-LXB1MC5282**\弯道制动稳定性(牵引车).bin --type=crc64 ) CRC64-ECMA :386344-4610805190288
(5)D:\ossutil64>(ossutil64.exe hash D:\Security_store\********检验中心\**Z7C-LXB1MC5282**\电子稳定性控制系统性能(牵引车).avi --type=crc64 )CRC64-ECMA : 253083845843747949
(6)D:\ossutil64>(ossutil64.exe hash D:\Security_store\********检验中心\**Z7C-LXB1MC5282**\电子稳定性控制系统性能(牵引车).bin --type=crc64 )CRC64-ECMA : 9803232019504659022
(7)D:\ossutil64>(ossutil64.exe hash D:\Security_store\********检验中心\**Z7C-LXB1MC5282**\车外结构.avi --type=crc64 ) CRC64-ECMA :13141171207489147509
(8)D:\ossutil64>(ossutil64.exe hash D:\Security_store\********检验中心\**Z7C-LXB1MC5282**\驾驶室内.avi --type=crc64 ) CRC64-ECMA :8257159463912270354
其次获取目标存储服务器中备份数据的完整路径信息以及其对应CRC编码如下(对应于源存储服务器中的数据):
(1)\\172.16**\mywork\********检验中心\**Z7CLXB1MC5282**\基本信息.aviCRC64-ECMA : 7994116628121140648
(2)\\172.16**\mywork\********检验中心\**Z7CLXB1MC5282**\底盘结构.aviCRC64-ECMA : 13394241696248567873
(3)\\172.16**\mywork\********检验中心\**Z7CLXB1MC5282**\弯道制动稳定性(牵引车).avi CRC64-ECMA : 3714781099588341347
(4)\\172.16**\mywork\********检验中心\**Z7CLXB1MC5282**\弯道制动稳定性(牵引车).bin CRC64-ECMA : 3863444610805190288
(5)\\172.16**\mywork\********检验中心\**Z7CLXB1MC5282**\电子稳定性控制系统性能(牵引车).avi CRC64-ECMA : 253083845843747949
(6)\\172.16**\mywork\********检验中心\**Z7CLXB1MC5282**\电子稳定性控制系统性能(牵引车).bin CRC64-ECMA : 9803232019504659022
(7)\\172.16**\mywork\********检验中心\**Z7CLXB1MC5282**\车外结构.aviCRC64-ECMA : 13141171207489147509
参见表1,是云存储服务器和本地存储服务器中备份文件的特征信息及其对应的CRC编码。参见表2,是备份文件的数据校验结果。
表1:
Figure DEST_PATH_IMAGE002
表2:
Figure DEST_PATH_IMAGE004
以上应用了具体个例对本发明大数据备份及校验方法进行了详细介绍,上述的具体实施例仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护范围之内。

Claims (5)

1.一种大数据同步备份及校验方法,其特征在于,
采用源存储服务器和目标存储服务器,利用网络通过FTP或SFTP文件传输协议将源存储服务器中的数据同步备份至目标存储服务器当中;
然后利用计算机通过遍历算法获取两类存储服务器中所有数据的完整路径信息、通过字符串匹配算法获取所有数据的特征信息以及通过哈希算法获取所有数据的校验编码;
创建源存储服务器数据列表和目标存储服务器数据列表,均为n行m列的列表,分别用于存放源存储服务器和目标存储服务器中数据的特征信息和校验编码,其中行数n为所存储的数据数量,列数m为所存储的每一数据的特征信息种类和使用到的校验编码种类之和;
然后通过比对算法对比源存储服务器和目标存储服务器中数据的特征信息和校验编码,获取校验结果,校验结果包括备份成功、备份失败和未备份;
其中,比对及获取校验结果的方法如下:
a)创建一个数据数量的变量i,为整数,令其初始值为1;
b)从i=1开始,在目标存储服务器数据列表中遍历查找与源存储服务器数据列表中第i个数据特征信息是否有完全相同的数据,并比较它们之间的校验编码是否相同;
b1)若目标存储服务器数据列表中存在与源存储服务器数据列表中特征信息完全相同的数据,且它们之间的校验编码相同,则视为该数据备份成功,则删除目标存储服务器数据列表中该数据,将变量i加1继续比对;
b2)若目标存储服务器数据列表中存在与源存储服务器数据列表中特征信息完全相同的数据,但它们之间的校验编码不相同,则视为该数据备份失败,则保留目标存储服务器数据列表中该数据,将变量i加1继续比对;
b3)若目标存储服务器数据列表中不存在与源存储服务器数据列表中特征信息完全相同的数据,则视为该数据未备份,将该数据另存至其他列表中,并删除源存储服务器数据列表中该数据,将变量i加1继续比对;
c)直至遍历完源存储服务器数据列表中所有数据,校验结束,将源存储服务器数据列表中存储的备份成功和备份失败的数据,减去目标存储服务器数据列表中备份失败的数据,即得到备份成功的数据。
2.根据权利要求1所述的大数据同步备份及校验方法,其特征在于,所述源存储服务器和目标存储服务器均支持跨域跨平台操作。
3.根据权利要求1所述的大数据同步备份及校验方法,其特征在于,所述数据的校验编码为CRC码或MD5码。
4.根据权利要求1所述的大数据同步备份及校验方法,其特征在于,所述数据的特征信息包括文件名称、唯一标识码、格式类型。
5.根据权利要求1所述的大数据同步备份及校验方法,其特征在于,一个所述源存储服务器同时对应多个所述目标存储服务器。
CN202211670704.0A 2022-12-26 2022-12-26 一种大数据同步备份及校验方法 Active CN115640170B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211670704.0A CN115640170B (zh) 2022-12-26 2022-12-26 一种大数据同步备份及校验方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211670704.0A CN115640170B (zh) 2022-12-26 2022-12-26 一种大数据同步备份及校验方法

Publications (2)

Publication Number Publication Date
CN115640170A CN115640170A (zh) 2023-01-24
CN115640170B true CN115640170B (zh) 2023-03-21

Family

ID=84949992

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211670704.0A Active CN115640170B (zh) 2022-12-26 2022-12-26 一种大数据同步备份及校验方法

Country Status (1)

Country Link
CN (1) CN115640170B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0105646D0 (en) * 2001-03-07 2001-04-25 Matchtip Ltd Data backup system
CN104410683B (zh) * 2014-11-21 2017-10-17 四川神琥科技有限公司 一种数据备份方法
CN108255647B (zh) * 2018-01-18 2021-03-23 湖南麒麟信安科技股份有限公司 一种samba服务器集群下的高速数据备份方法
CN110134694B (zh) * 2019-05-20 2020-04-17 上海英方软件股份有限公司 一种双活数据库中表数据的快速比对装置及方法
CN111984465A (zh) * 2020-07-28 2020-11-24 北京人大金仓信息技术股份有限公司 数据库远程备份方法、装置、介质和电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
韩莹 ; 王茂发 ; 张艳霞 ; .一种在去重备份系统中数据完整性校验算法.(第06期), *

Also Published As

Publication number Publication date
CN115640170A (zh) 2023-01-24

Similar Documents

Publication Publication Date Title
US11321291B2 (en) Persistent version control for data transfer between heterogeneous data stores
US9727273B1 (en) Scalable clusterwide de-duplication
US8495027B2 (en) Processing archive content based on hierarchical classification levels
US12111794B2 (en) Replication barriers for dependent data transfers between data stores
US11221785B2 (en) Managing replication state for deleted objects
CN111614733B (zh) 一种分布式多分片集群的部署方法、装置及存储介质
CN109325016B (zh) 数据迁移方法、装置、介质及电子设备
US11409711B2 (en) Barriers for dependent operations among sharded data stores
US9817834B1 (en) Techniques for performing an incremental backup
CN111858146B (zh) 用于恢复数据的方法、设备和计算机程序产品
US11934674B2 (en) Method, electronic device, and computer program product for storing and accessing data across multiple servers utilizing metadata of a distributed hash table
US10223205B2 (en) Disaster recovery data sync
CN114416665B (zh) 一种数据一致性检测和修复的方法、装置及介质
CN109902070B (zh) 一种面向WiFi日志数据的解析存储搜索方法
CN113610527A (zh) 联盟链的交易方法、装置、系统、终端设备及存储介质
CN115640170B (zh) 一种大数据同步备份及校验方法
US9436697B1 (en) Techniques for managing deduplication of data
US10291700B2 (en) Network optimized scan with dynamic fallback recovery
US11074002B2 (en) Object storage system with meta object replication
CN105765908A (zh) 一种多站点自动更新方法、客户端和系统
US20230401125A1 (en) Self-healing recovery of files using a cyber recovery vault for deduplication file systems
US20240146748A1 (en) Malware identity identification
CN113704176B (zh) 文件扫描方法、装置、电子设备及存储介质
CN117221105A (zh) 一种高效的云网络配置信息处理方法
CN114238270A (zh) 数据库操作方法、装置、计算机设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant