CN112882866A - 一种适用于海量文件的备份方法 - Google Patents

一种适用于海量文件的备份方法 Download PDF

Info

Publication number
CN112882866A
CN112882866A CN202110208242.XA CN202110208242A CN112882866A CN 112882866 A CN112882866 A CN 112882866A CN 202110208242 A CN202110208242 A CN 202110208242A CN 112882866 A CN112882866 A CN 112882866A
Authority
CN
China
Prior art keywords
file
backup
data
characteristic information
filedicts
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110208242.XA
Other languages
English (en)
Other versions
CN112882866B (zh
Inventor
陈继杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Taiyu Information Technology Co ltd
Original Assignee
Shanghai Taiyu Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Taiyu Information Technology Co ltd filed Critical Shanghai Taiyu Information Technology Co ltd
Priority to CN202110208242.XA priority Critical patent/CN112882866B/zh
Publication of CN112882866A publication Critical patent/CN112882866A/zh
Application granted granted Critical
Publication of CN112882866B publication Critical patent/CN112882866B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1464Management of the backup or restore process for networked environments
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明涉及数据安全领域,具体涉及一种适用于海量文件的备份方法,包括文件分析阶段:从数据库中读取历史备份的特征信息,同时获取目标磁盘文件,进行高效比对并筛选出待备份的文件信息;文件备份阶段:根据文件分析比对所得到的待备份文件信息,对相应的文件进行备份;数据特征信息存储阶段:结合此次文件备份的情况,生成并更新特征信息至数据库中。本发明针对大文件和小文件,采用不同的处理方式计算文件改变特征;采用全新的字典模型方式,可以极快速的完成待备份文件的分析和比对。

Description

一种适用于海量文件的备份方法
技术领域
本发明涉及数据安全领域,具体涉及一种适用于海量文件的备份方法。
背景技术
传统海量文件增量/差异备份时,通常会将目标文件和已存储文件进行单条比对,针对千万级数据量的文件,速度非常慢,甚至会出现内存溢出、系统无响应等未知问题。
传统备份方式大多采用文件HASH值的比对方式,因此在进行超大文件和海量文件比对时,对硬件内存要求较高,处理效率低下,且容易出现内存分配错误、内存溢出、系统异常、程序崩溃、程序无响应等异常情况发生。
发明内容
本发明的目的,是为了解决背景技术中的问题,提供一种适用于海量文件的备份方法。
本发明的上述技术目的是通过以下技术方案得以实现的:
一种适用于海量文件的备份方法,包括以下阶段:
文件分析阶段:从数据库中读取历史备份的特征信息,同时获取目标磁盘文件,进行高效比对并筛选出待备份的文件信息;
文件备份阶段:根据文件分析比对所得到的待备份文件信息,对相应的文件进行备份;
数据特征信息存储阶段:结合此次文件备份的情况,生成并更新特征信息至数据库中。
作为优选,所述文件分析阶段的具体步骤为:
一、遍历获取目标磁盘中待备份文件的特征信息,所述特征信息包括文件路径、文件名称、文件类型、文件字节、文件HASH、修改时间和创建时间;
二、对目标磁盘中待备份文件的特征信息进行分析比对:
(1)生成待备份文件的数据特征字典表FileDicts,所述数据特征字典表FileDicts中包含备份文件的Key值、Value值和变更状态以及备份状态,为保证数据处理速度,根据步骤一中获取到的特征信息,将文件按字节大小划分为大文件和小文件,并采用不同的分析方法进行比对,具体如下:
1)采用Md5加密文件名称、文件路径作为数据特征字典表FileDicts的Key值;
2)将小于或等于4M的单文件归类为小文件,对小文件进行标准的文件HASH运算,采用文件的HASH值作为数据特征字典表FileDicts中的Value值;
3)将大于4M的单文件归类为大文件,对大文件进行采用Md5加密该文件名称、文件路径、文件大小、文件类型、修改时间和创建时间作为数据特征字典表FileDicts中的Value值;
(2)将待备份文件的变更状态设置为False,表示该待备份文件无需备份;
(3)将备份状态设置为False,表示备份失败;
三、读取数据库中历史备份文件的特征信息,按步骤二中的文件分析机制,生成历史备份文件数据特征字典表HistoryFileDicts;
四、对数据特征字典表FileDicts与历史备份文件数据特征字典表HistoryFileDicts进行高效比对:
(1)当Key值一致的情况下,保持当前状态;
(2)当Key值不一致的情况下,将数据特征字典表FileDicts中相应的文件的变更状态置为True,表示需要备份。
作为优选,所述文件备份阶段的具体步骤为:
一、筛选出数据特征字典表FileDicts中变更状态为True的数据,根据其特征信息中的文件路径进行文件定位;
二、结合备份方式,对文件进行相应备份操作:
(1)完整备份,备份目标磁盘全部的文件和文件夹,备份完成后将数据特征字典表FileDicts中相应的文件的变更状态置为False;
(2)差异备份,只备份文件的变更状态为True的文件,备份完成后不改变数据特征字典表FileDicts中相应文件的变更状态;
(3)增量备份,只备份文件的变更状态为True的文件,备份完成后将数据特征字典表FileDicts中相应的文件的变更状态置为False;
三、备份成功后,将数据特征字典表FileDicts中备份状态置为True(备份成功)。
作为优选,所述数据特征信息存储阶段的具体步骤为:
一、遍历数据特征字典表FileDicts表中的数据,结合文件备份的方式,采取相应的数据特征信息存储操作:
(1)备份方式为完整备份时,跳过数据特征信息数据库存储步骤;
(2)备份方式为差异或增量备份时,逐一比对数据库中是否已经存在该文件信息:
1)若存在且文件特征信息一致,则跳过数据特征信息存储步骤;
2)若存在且文件特征信息不一致,则执行步骤(二)更新此文件数据特征信息;
3)若不存在,则执行步骤(二)新增此文件数据特征信息;
二、生成数据库批量(Batch)处理指令,对数据库进行批处理操作,快速将海量特征信息记录至数据库:
(1)文件数据特征信息新增:在数据库中执行Insert插入指令,新增一条文件数据特征信息;
(2)文件数据特征信息更新:在数据库中执行Update修改指令,更新对应记录的数据特征信息。
综上所述,本发明的有益效果:针对大文件和小文件,采用不同的处理方式计算文件改变特征;采用全新的字典模型方式,可以极快速的完成待备份文件的分析和比对。
具体实施方式
以下具体实施例仅仅是对本发明的解释,其并不是对本发明的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本发明的权利要求范围内都受到专利法的保护。
下面实施例对本发明进行详细说明。
实施例1:
一种适用于海量文件的备份方法,包括以下阶段:
文件分析阶段:从数据库中读取历史备份的特征信息,同时获取目标磁盘文件,进行高效比对并筛选出待备份的文件信息。其具体步骤为:
一、遍历获取目标磁盘中待备份文件的特征信息,所述特征信息包括文件路径、文件名称、文件类型、文件字节、文件HASH、修改时间和创建时间;
二、对目标磁盘中待备份文件的特征信息进行分析比对:
(1)生成待备份文件的数据特征字典表FileDicts,所述数据特征字典表FileDicts中包含备份文件的Key值、Value值和变更状态以及备份状态,为保证数据处理速度,根据步骤一中获取到的特征信息,将文件按字节大小划分为大文件和小文件,并采用不同的分析方法进行比对,具体如下:
1)采用Md5加密文件名称、文件路径作为数据特征字典表FileDicts的Key值;
2)将小于或等于4M的单文件归类为小文件,对小文件进行标准的文件HASH运算,采用文件的HASH值作为数据特征字典表FileDicts中的Value值;
3)将大于4M的单文件归类为大文件,对大文件进行采用Md5加密该文件名称、文件路径、文件大小、文件类型、修改时间和创建时间作为数据特征字典表FileDicts中的Value值;
(2)将待备份文件的变更状态设置为False,表示该待备份文件无需备份;
(3)将备份状态设置为False,表示备份失败;
三、读取数据库中历史备份文件的特征信息,按步骤二中的文件分析机制,生成历史备份文件数据特征字典表HistoryFileDicts;
四、对数据特征字典表FileDicts与历史备份文件数据特征字典表HistoryFileDicts进行高效比对:
(1)当Key值一致的情况下,保持当前状态;
(2)当Key值不一致的情况下,将数据特征字典表FileDicts中相应的文件的变更状态置为True,表示需要备份。
文件备份阶段:根据文件分析比对所得到的待备份文件信息,对相应的文件进行备份。其具体步骤为:
一、筛选出数据特征字典表FileDicts中变更状态为True的数据,根据其特征信息中的文件路径进行文件定位;
二、结合备份方式,对文件进行相应备份操作:
(1)完整备份,备份目标磁盘全部的文件和文件夹,备份完成后将数据特征字典表FileDicts中相应的文件的变更状态置为False;
(2)差异备份,只备份文件的变更状态为True的文件,备份完成后不改变数据特征字典表FileDicts中相应文件的变更状态;
(3)增量备份,只备份文件的变更状态为True的文件,备份完成后将数据特征字典表FileDicts中相应的文件的变更状态置为False;
三、备份成功后,将数据特征字典表FileDicts中备份状态置为True(备份成功)。
数据特征信息存储阶段:结合此次文件备份的情况,生成并更新特征信息至数据库中。其具体步骤为:
一、遍历数据特征字典表FileDicts表中的数据,结合文件备份的方式,采取相应的数据特征信息存储操作:
(1)备份方式为完整备份时,跳过数据特征信息数据库存储步骤;
(2)备份方式为差异或增量备份时,逐一比对数据库中是否已经存在该文件信息:
1)若存在且文件特征信息一致,则跳过数据特征信息存储步骤;
2)若存在且文件特征信息不一致,则执行步骤(二)数据库批量(Batch)处理指令,更新此文件数据特征信息;
3)若不存在,则执行步骤(二)数据库批量(Batch)处理指令,新增此文件数据特征信息;
二、生成数据库批量(Batch)处理指令,对数据库进行批处理操作,快速将海量特征信息记录至数据库:
(1)文件数据特征信息新增:在数据库中执行Insert插入指令,新增一条文件数据特征信息;
(2)文件数据特征信息更新:在数据库中执行Update修改指令,更新对应记录的数据特征信息。

Claims (4)

1.一种适用于海量文件的备份方法,其特征在于,包括以下阶段:
文件分析阶段:从数据库中读取历史备份的特征信息,同时获取目标磁盘文件,进行高效比对并筛选出待备份的文件信息;
文件备份阶段:根据文件分析比对所得到的待备份文件信息,对相应的文件进行备份;
数据特征信息存储阶段:结合此次文件备份的情况,生成并更新特征信息至数据库中。
2.根据权利要求1所述的一种适用于海量文件的备份方法,其特征在于,所述文件分析阶段的具体步骤为:
一、遍历获取目标磁盘中待备份文件的特征信息,所述特征信息包括文件路径、文件名称、文件类型、文件字节、文件HASH、修改时间和创建时间;
二、对目标磁盘中待备份文件的特征信息进行分析比对:
(1)生成待备份文件的数据特征字典表FileDicts,所述数据特征字典表FileDicts中包含备份文件的Key值、Value值和变更状态以及备份状态,为保证数据处理速度,根据步骤一中获取到的特征信息,将文件按字节大小划分为大文件和小文件,并采用不同的分析方法进行比对,具体如下:
1)采用Md5加密文件名称、文件路径作为数据特征字典表FileDicts的Key值;
2)将小于或等于4M的单文件归类为小文件,对小文件进行标准的文件HASH运算,采用文件的HASH值作为数据特征字典表FileDicts中的Value值;
3)将大于4M的单文件归类为大文件,对大文件进行采用Md5加密该文件名称、文件路径、文件大小、文件类型、修改时间和创建时间作为数据特征字典表FileDicts中的Value值;
(2)将待备份文件的变更状态设置为False,表示该待备份文件无需备份;
(3)将备份状态设置为False,表示备份失败;
三、读取数据库中历史备份文件的特征信息,按步骤二中的文件分析机制,生成历史备份文件数据特征字典表HistoryFileDicts;
四、对数据特征字典表FileDicts与历史备份文件数据特征字典表HistoryFileDicts进行高效比对:
(1)当Key值一致的情况下,保持当前状态;
(2)当Key值不一致的情况下,将数据特征字典表FileDicts中相应的文件的变更状态置为True,表示需要备份。
3.根据权利要求1所述的一种适用于海量文件的备份方法,其特征在于,所述文件备份阶段的具体步骤为:
一、筛选出数据特征字典表FileDicts中变更状态为True的数据,根据其特征信息中的文件路径进行文件定位;
二、结合备份方式,对文件进行相应备份操作:
(1)完整备份,备份目标磁盘全部的文件和文件夹,备份完成后将数据特征字典表FileDicts中相应的文件的变更状态置为False;
(2)差异备份,只备份文件的变更状态为True的文件,备份完成后不改变数据特征字典表FileDicts中相应文件的变更状态;
(3)增量备份,只备份文件的变更状态为True的文件,备份完成后将数据特征字典表FileDicts中相应的文件的变更状态置为False;
三、备份成功后,将数据特征字典表FileDicts中备份状态置为True(备份成功)。
4.根据权利要求1所述的一种适用于海量文件的备份方法,其特征在于,所述数据特征信息存储阶段的具体步骤为:
一、遍历数据特征字典表FileDicts表中的数据,结合文件备份的方式,采取相应的数据特征信息存储操作:
(1)备份方式为完整备份时,跳过数据特征信息数据库存储步骤;
(2)备份方式为差异或增量备份时,逐一比对数据库中是否已经存在该文件信息:
1)若存在且文件特征信息一致,则跳过数据特征信息存储步骤;
2)若存在且文件特征信息不一致,则执行步骤(二)更新此文件数据特征信息;
3)若不存在,则执行步骤(二)新增此文件数据特征信息;
二、生成数据库批量(Batch)处理指令,对数据库进行批处理操作,快速将海量特征信息记录至数据库:
(1)文件数据特征信息新增:在数据库中执行Insert插入指令,新增一条文件数据特征信息;
(2)文件数据特征信息更新:在数据库中执行Update修改指令,更新对应记录的数据特征信息。
CN202110208242.XA 2021-02-24 2021-02-24 一种适用于海量文件的备份方法 Active CN112882866B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110208242.XA CN112882866B (zh) 2021-02-24 2021-02-24 一种适用于海量文件的备份方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110208242.XA CN112882866B (zh) 2021-02-24 2021-02-24 一种适用于海量文件的备份方法

Publications (2)

Publication Number Publication Date
CN112882866A true CN112882866A (zh) 2021-06-01
CN112882866B CN112882866B (zh) 2023-12-15

Family

ID=76054394

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110208242.XA Active CN112882866B (zh) 2021-02-24 2021-02-24 一种适用于海量文件的备份方法

Country Status (1)

Country Link
CN (1) CN112882866B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040153761A1 (en) * 2002-11-26 2004-08-05 Samsung Electronics Co., Ltd. Method of data backup and recovery
CN101051285A (zh) * 2006-09-21 2007-10-10 上海交通大学 计算机网络数据备份中文件匹配的方法
CN102073560A (zh) * 2011-01-17 2011-05-25 北京深思洛克软件技术股份有限公司 一种数据备份方法和装置
CN102385637A (zh) * 2011-12-22 2012-03-21 山东中创软件商用中间件股份有限公司 一种数据库信息的备份方法及系统
CN104714859A (zh) * 2013-12-17 2015-06-17 南京壹进制信息技术有限公司 一种海量文件的快速备份与恢复的方法
CN105302675A (zh) * 2015-11-25 2016-02-03 上海爱数信息技术股份有限公司 数据备份的方法和装置
CN106326035A (zh) * 2016-08-13 2017-01-11 南京叱咤信息科技有限公司 一种基于文件元数据的增量备份方法
CN107247541A (zh) * 2017-06-30 2017-10-13 联想(北京)有限公司 一种信息处理方法及电子设备
CN107391306A (zh) * 2017-07-27 2017-11-24 国家电网公司 一种异构数据库备份文件恢复方法
CN108733515A (zh) * 2018-05-24 2018-11-02 广州酷狗计算机科技有限公司 文件备份的调度方法、文件备份方法、装置及存储介质
CN111880967A (zh) * 2020-07-28 2020-11-03 平安科技(深圳)有限公司 云场景下的文件备份方法、装置、介质和电子设备
CN112181756A (zh) * 2019-07-04 2021-01-05 上海泰宇信息技术股份有限公司 一种数据监测保全方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040153761A1 (en) * 2002-11-26 2004-08-05 Samsung Electronics Co., Ltd. Method of data backup and recovery
CN101051285A (zh) * 2006-09-21 2007-10-10 上海交通大学 计算机网络数据备份中文件匹配的方法
CN102073560A (zh) * 2011-01-17 2011-05-25 北京深思洛克软件技术股份有限公司 一种数据备份方法和装置
CN102385637A (zh) * 2011-12-22 2012-03-21 山东中创软件商用中间件股份有限公司 一种数据库信息的备份方法及系统
CN104714859A (zh) * 2013-12-17 2015-06-17 南京壹进制信息技术有限公司 一种海量文件的快速备份与恢复的方法
CN105302675A (zh) * 2015-11-25 2016-02-03 上海爱数信息技术股份有限公司 数据备份的方法和装置
CN106326035A (zh) * 2016-08-13 2017-01-11 南京叱咤信息科技有限公司 一种基于文件元数据的增量备份方法
CN107247541A (zh) * 2017-06-30 2017-10-13 联想(北京)有限公司 一种信息处理方法及电子设备
CN107391306A (zh) * 2017-07-27 2017-11-24 国家电网公司 一种异构数据库备份文件恢复方法
CN108733515A (zh) * 2018-05-24 2018-11-02 广州酷狗计算机科技有限公司 文件备份的调度方法、文件备份方法、装置及存储介质
CN112181756A (zh) * 2019-07-04 2021-01-05 上海泰宇信息技术股份有限公司 一种数据监测保全方法
CN111880967A (zh) * 2020-07-28 2020-11-03 平安科技(深圳)有限公司 云场景下的文件备份方法、装置、介质和电子设备

Also Published As

Publication number Publication date
CN112882866B (zh) 2023-12-15

Similar Documents

Publication Publication Date Title
US20170277599A1 (en) Data boundary identification for identifying variable size data chunks
US8817584B1 (en) Defect record search
US9195691B2 (en) Managing test data in large scale performance environment
CN109213817B (zh) 增量数据抽取方法、装置及服务器
CN109408589B (zh) 数据同步方法及装置
US20100082636A1 (en) Methods and Apparatus for Content-Defined Node Splitting
CN113918658A (zh) 恢复数据的方法及装置
CN108073595B (zh) 一种在olap数据库实现数据更新和快照的方法及装置
AU2018345147B2 (en) Database processing device, group map file production method, and recording medium
US20160342508A1 (en) Identifying memory regions that contain remapped memory locations
US10747447B1 (en) Storing de-duplicated data with minimal reference counts
CN113253932A (zh) 一种分布式存储系统的读写控制方法和系统
CN112882866A (zh) 一种适用于海量文件的备份方法
CN113010477A (zh) 持久内存文件系统元数据的检索方法和装置、存储结构
CN102495838B (zh) 数据处理方法及装置
US20230237048A1 (en) Journal groups for metadata housekeeping operation
CN113360495B (zh) 一种数据库查询中断的恢复方法、装置、设备及可读介质
CN111752909B (zh) 一种多版本文件的操作方法、系统及装置
US20070239794A1 (en) Method and system for updating logical information in databases
CN115269553A (zh) 一种数据库迁移的方法、装置及存储介质
Tomazic et al. Fast file existence checking in archiving systems
CN110716929B (zh) 一种布控处理方法、装置及设备
CN110019507B (zh) 数据同步的方法及装置
KR102139578B1 (ko) 디스크 블록 패턴 분석을 통한 데이터베이스 파일 복구 방법
CN114442917B (zh) 用于存储系统的方法、可读介质以及存储系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant