CN112882866B - 一种适用于海量文件的备份方法 - Google Patents

一种适用于海量文件的备份方法 Download PDF

Info

Publication number
CN112882866B
CN112882866B CN202110208242.XA CN202110208242A CN112882866B CN 112882866 B CN112882866 B CN 112882866B CN 202110208242 A CN202110208242 A CN 202110208242A CN 112882866 B CN112882866 B CN 112882866B
Authority
CN
China
Prior art keywords
file
backup
files
characteristic information
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110208242.XA
Other languages
English (en)
Other versions
CN112882866A (zh
Inventor
陈继杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Taiyu Information Technology Co ltd
Original Assignee
Shanghai Taiyu Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Taiyu Information Technology Co ltd filed Critical Shanghai Taiyu Information Technology Co ltd
Priority to CN202110208242.XA priority Critical patent/CN112882866B/zh
Publication of CN112882866A publication Critical patent/CN112882866A/zh
Application granted granted Critical
Publication of CN112882866B publication Critical patent/CN112882866B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1464Management of the backup or restore process for networked environments
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明涉及数据安全领域,具体涉及一种适用于海量文件的备份方法,包括文件分析阶段:从数据库中读取历史备份的特征信息,同时获取目标磁盘文件,进行高效比对并筛选出待备份的文件信息;文件备份阶段:根据文件分析比对所得到的待备份文件信息,对相应的文件进行备份;数据特征信息存储阶段:结合此次文件备份的情况,生成并更新特征信息至数据库中。本发明针对大文件和小文件,采用不同的处理方式计算文件改变特征;采用全新的字典模型方式,可以极快速的完成待备份文件的分析和比对。

Description

一种适用于海量文件的备份方法
技术领域
本发明涉及数据安全领域,具体涉及一种适用于海量文件的备份方法。
背景技术
传统海量文件增量/差异备份时,通常会将目标文件和已存储文件进行单条比对,针对千万级数据量的文件,速度非常慢,甚至会出现内存溢出、系统无响应等未知问题。
传统备份方式大多采用文件HASH值的比对方式,因此在进行超大文件和海量文件比对时,对硬件内存要求较高,处理效率低下,且容易出现内存分配错误、内存溢出、系统异常、程序崩溃、程序无响应等异常情况发生。
发明内容
本发明的目的,是为了解决背景技术中的问题,提供一种适用于海量文件的备份方法。
本发明的上述技术目的是通过以下技术方案得以实现的:
一种适用于海量文件的备份方法,包括以下阶段:
文件分析阶段:从数据库中读取历史备份的特征信息,同时获取目标磁盘文件,进行高效比对并筛选出待备份的文件信息;
文件备份阶段:根据文件分析比对所得到的待备份文件信息,对相应的文件进行备份;
数据特征信息存储阶段:结合此次文件备份的情况,生成并更新特征信息至数据库中。
作为优选,所述文件分析阶段的具体步骤为:
步骤一、遍历获取目标磁盘中待备份文件的特征信息,所述特征信息包括文件路径、文件名称、文件类型、文件字节、文件HASH、修改时间和创建时间;
步骤二、对目标磁盘中待备份文件的特征信息进行分析比对:
2-1、生成待备份文件的数据特征字典表FileDicts,所述数据特征字典表FileDicts中包含备份文件的Key值、Value值和变更状态以及备份状态,为保证数据处理速度,根据步骤一中获取到的特征信息,将文件按字节大小划分为大文件和小文件,并采用不同的分析方法进行比对,具体如下:
2-1-1、采用Md5加密文件名称、文件路径作为数据特征字典表FileDicts的Key值;
2-1-2、将小于或等于4M的单文件归类为小文件,对小文件进行标准的文件HASH运算,采用文件的HASH值作为数据特征字典表FileDicts中的Value值;
2-1-3、将大于4M的单文件归类为大文件,对大文件进行采用Md5加密该文件名称、文件路径、文件大小、文件类型、修改时间和创建时间作为数据特征字典表FileDicts中的Value值;
2-2、将待备份文件的变更状态设置为False,表示该待备份文件无需备份;
2-3、将备份状态设置为False,表示备份失败;
步骤三、读取数据库中历史备份文件的特征信息,按步骤二中的文件分析机制,生成历史备份文件数据特征字典表HistoryFileDicts;
步骤四、对数据特征字典表FileDicts与历史备份文件数据特征字典表HistoryFileDicts进行高效比对:
4-1、当Key值一致的情况下,保持当前状态;
4-2、当Key值不一致的情况下,将数据特征字典表FileDicts中相应的文件的变更状态置为True,表示需要备份。
作为优选,所述文件备份阶段的具体步骤为:
步骤一、筛选出数据特征字典表FileDicts中变更状态为True的数据,根据其特征信息中的文件路径进行文件定位;
步骤二、结合备份方式,对文件进行相应备份操作:
2-1、完整备份,备份目标磁盘全部的文件和文件夹,备份完成后将数据特征字典表FileDicts中相应的文件的变更状态置为False;
2-2、差异备份,只备份文件的变更状态为True的文件,备份完成后不改变数据特征字典表FileDicts中相应文件的变更状态;
2-3、增量备份,只备份文件的变更状态为True的文件,备份完成后将数据特征字典表FileDicts中相应的文件的变更状态置为False;
步骤三、备份成功后,将数据特征字典表FileDicts中备份状态置为True,即备份成功。
作为优选,所述数据特征信息存储阶段的具体步骤为:
步骤一、遍历数据特征字典表FileDicts表中的数据,结合文件备份的方式,采取相应的数据特征信息存储操作:
1-1、备份方式为完整备份时,跳过数据特征信息数据库存储步骤;
1-1、备份方式为差异或增量备份时,逐一比对数据库中是否已经存在该文件信息:
1-1-1、若存在且文件特征信息一致,则跳过数据特征信息存储步骤;
1-1-2、若存在且文件特征信息不一致,则执行所述文件分析阶段的步骤二,更新此文件数据特征信息;
1-1-3、若不存在,则执行所述文件分析阶段的步骤二,新增此文件数据特征信息;
步骤二、生成数据库批量(Batch)处理指令,对数据库进行批处理操作,快速将海量特征信息记录至数据库:
2-1、文件数据特征信息新增:在数据库中执行Insert插入指令,新增一条文件数据特征信息;
2-2、文件数据特征信息更新:在数据库中执行Update修改指令,更新对应记录的数据特征信息。
综上所述,本发明的有益效果:针对大文件和小文件,采用不同的处理方式计算文件改变特征;采用全新的字典模型方式,可以极快速的完成待备份文件的分析和比对。
具体实施方式
以下具体实施例仅仅是对本发明的解释,其并不是对本发明的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本发明的权利要求范围内都受到专利法的保护。
下面实施例对本发明进行详细说明。
实施例
一种适用于海量文件的备份方法,包括以下阶段:
文件分析阶段:从数据库中读取历史备份的特征信息,同时获取目标磁盘文件,进行高效比对并筛选出待备份的文件信息。其具体步骤为:
步骤一、遍历获取目标磁盘中待备份文件的特征信息,所述特征信息包括文件路径、文件名称、文件类型、文件字节、文件HASH、修改时间和创建时间;
步骤二、对目标磁盘中待备份文件的特征信息进行分析比对:
2-1、生成待备份文件的数据特征字典表FileDicts,所述数据特征字典表FileDicts中包含备份文件的Key值、Value值和变更状态以及备份状态,为保证数据处理速度,根据步骤一中获取到的特征信息,将文件按字节大小划分为大文件和小文件,并采用不同的分析方法进行比对,具体如下:
2-1-1、采用Md5加密文件名称、文件路径作为数据特征字典表FileDicts的Key值;
2-1-2、将小于或等于4M的单文件归类为小文件,对小文件进行标准的文件HASH运算,采用文件的HASH值作为数据特征字典表FileDicts中的Value值;
2-1-3、将大于4M的单文件归类为大文件,对大文件进行采用Md5加密该文件名称、文件路径、文件大小、文件类型、修改时间和创建时间作为数据特征字典表FileDicts中的Value值;
2-2、将待备份文件的变更状态设置为False,表示该待备份文件无需备份;
2-3、将备份状态设置为False,表示备份失败;
步骤三、读取数据库中历史备份文件的特征信息,按步骤二中的文件分析机制,生成历史备份文件数据特征字典表HistoryFileDicts;
步骤四、对数据特征字典表FileDicts与历史备份文件数据特征字典表HistoryFileDicts进行高效比对:
4-1、当Key值一致的情况下,保持当前状态;
4-2、当Key值不一致的情况下,将数据特征字典表FileDicts中相应的文件的变更状态置为True,表示需要备份。
文件备份阶段:根据文件分析比对所得到的待备份文件信息,对相应的文件进行备份。其具体步骤为:
步骤一、筛选出数据特征字典表FileDicts中变更状态为True的数据,根据其特征信息中的文件路径进行文件定位;
步骤二、结合备份方式,对文件进行相应备份操作:
2-1、完整备份,备份目标磁盘全部的文件和文件夹,备份完成后将数据特征字典表FileDicts中相应的文件的变更状态置为False;
2-2、差异备份,只备份文件的变更状态为True的文件,备份完成后不改变数据特征字典表FileDicts中相应文件的变更状态;
2-3、增量备份,只备份文件的变更状态为True的文件,备份完成后将数据特征字典表FileDicts中相应的文件的变更状态置为False;
步骤三、备份成功后,将数据特征字典表FileDicts中备份状态置为True,即备份成功。
数据特征信息存储阶段:结合此次文件备份的情况,生成并更新特征信息至数据库中。其具体步骤为:
步骤一、遍历数据特征字典表FileDicts表中的数据,结合文件备份的方式,采取相应的数据特征信息存储操作:
1-1、备份方式为完整备份时,跳过数据特征信息数据库存储步骤;
1-2、备份方式为差异或增量备份时,逐一比对数据库中是否已经存在该文件信息:
1-2-1、若存在且文件特征信息一致,则跳过数据特征信息存储步骤;
1-2-2、若存在且文件特征信息不一致,则执行所述文件分析阶段的步骤二,数据库批量(Batch)处理指令,更新此文件数据特征信息;
1-2-3、若不存在,则执行所述文件分析阶段的步骤二,数据库批量(Batch)处理指令,新增此文件数据特征信息;
步骤二、生成数据库批量(Batch)处理指令,对数据库进行批处理操作,快速将海量特征信息记录至数据库:
2-1、文件数据特征信息新增:在数据库中执行Insert插入指令,新增一条文件数据特征信息;
2-2、文件数据特征信息更新:在数据库中执行Update修改指令,更新对应记录的数据特征信息。

Claims (3)

1.一种适用于海量文件的备份方法,其特征在于,包括以下阶段:
文件分析阶段:从数据库中读取历史备份的特征信息,同时获取目标磁盘文件,进行高效比对并筛选出待备份的文件信息;
文件分析阶段的具体步骤为:
步骤一、遍历获取目标磁盘中待备份文件的特征信息,所述特征信息包括文件路径、文件名称、文件类型、文件字节、文件HASH、修改时间和创建时间;
步骤二、对目标磁盘中待备份文件的特征信息进行分析比对:
2-1、生成待备份文件的数据特征字典表FileDicts,所述数据特征字典表FileDicts中包含备份文件的Key值、Value值和变更状态以及备份状态,为保证数据处理速度,根据步骤一中获取到的特征信息,将文件按字节大小划分为大文件和小文件,并采用不同的分析方法进行比对,具体如下:
2-1-1、采用Md5加密文件名称、文件路径作为数据特征字典表FileDicts的Key值;
2-1-2、将小于或等于4M的单文件归类为小文件,对小文件进行标准的文件HASH运算,采用文件的HASH值作为数据特征字典表FileDicts中的Value值;
2-1-3、将大于4M的单文件归类为大文件,对大文件进行采用Md5加密该文件名称、文件路径、文件大小、文件类型、修改时间和创建时间作为数据特征字典表FileDicts中的Value值;
2-2、将待备份文件的变更状态设置为False,表示该待备份文件无需备份;
2-3、将备份状态设置为False,表示备份失败;
步骤三、读取数据库中历史备份文件的特征信息,按步骤二中的文件分析机制,生成历史备份文件数据特征字典表HistoryFileDicts;
步骤四、对数据特征字典表FileDicts与历史备份文件数据特征字典表HistoryFileDicts进行高效比对:
4-1、当Key值一致的情况下,保持当前状态;
4-2、当Key值不一致的情况下,将数据特征字典表FileDicts中相应的文件的变更状态置为True,表示需要备份;
文件备份阶段:根据文件分析比对所得到的待备份文件信息,对相应的文件进行备份;
数据特征信息存储阶段:结合此次文件备份的情况,生成并更新特征信息至数据库中。
2.根据权利要求1所述的一种适用于海量文件的备份方法,其特征在于,所述文件备份阶段的具体步骤为:
步骤一、筛选出数据特征字典表FileDicts中变更状态为True的数据,根据其特征信息中的文件路径进行文件定位;
步骤二、结合备份方式,对文件进行相应备份操作:
2-1、完整备份,备份目标磁盘全部的文件和文件夹,备份完成后将数据特征字典表FileDicts中相应的文件的变更状态置为False;
2-2、差异备份,只备份文件的变更状态为True的文件,备份完成后不改变数据特征字典表FileDicts中相应文件的变更状态;
2-3、增量备份,只备份文件的变更状态为True的文件,备份完成后将数据特征字典表FileDicts中相应的文件的变更状态置为False;
步骤三、备份成功后,将数据特征字典表FileDicts中备份状态置为True,即备份成功。
3.根据权利要求1所述的一种适用于海量文件的备份方法,其特征在于,所述数据特征信息存储阶段的具体步骤为:
步骤一、遍历数据特征字典表FileDicts表中的数据,结合文件备份的方式,采取相应的数据特征信息存储操作:
1-1、备份方式为完整备份时,跳过数据特征信息数据库存储步骤;
1-2、备份方式为差异或增量备份时,逐一比对数据库中是否已经存在该文件信息:
1-2-1、若存在且文件特征信息一致,则跳过数据特征信息存储步骤;
1-2-2、若存在且文件特征信息不一致,则执行所述文件分析阶段的步骤二,更新此文件数据特征信息;
1-2-3、若不存在,则执行所述文件分析阶段的步骤二,新增此文件数据特征信息;
步骤二、生成数据库批量(Batch)处理指令,对数据库进行批处理操作,快速将海量特征信息记录至数据库:
2-1、文件数据特征信息新增:在数据库中执行Insert插入指令,新增一条文件数据特征信息;
2-2、文件数据特征信息更新:在数据库中执行Update修改指令,更新对应记录的数据特征信息。
CN202110208242.XA 2021-02-24 2021-02-24 一种适用于海量文件的备份方法 Active CN112882866B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110208242.XA CN112882866B (zh) 2021-02-24 2021-02-24 一种适用于海量文件的备份方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110208242.XA CN112882866B (zh) 2021-02-24 2021-02-24 一种适用于海量文件的备份方法

Publications (2)

Publication Number Publication Date
CN112882866A CN112882866A (zh) 2021-06-01
CN112882866B true CN112882866B (zh) 2023-12-15

Family

ID=76054394

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110208242.XA Active CN112882866B (zh) 2021-02-24 2021-02-24 一种适用于海量文件的备份方法

Country Status (1)

Country Link
CN (1) CN112882866B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101051285A (zh) * 2006-09-21 2007-10-10 上海交通大学 计算机网络数据备份中文件匹配的方法
CN102073560A (zh) * 2011-01-17 2011-05-25 北京深思洛克软件技术股份有限公司 一种数据备份方法和装置
CN102385637A (zh) * 2011-12-22 2012-03-21 山东中创软件商用中间件股份有限公司 一种数据库信息的备份方法及系统
CN104714859A (zh) * 2013-12-17 2015-06-17 南京壹进制信息技术有限公司 一种海量文件的快速备份与恢复的方法
CN105302675A (zh) * 2015-11-25 2016-02-03 上海爱数信息技术股份有限公司 数据备份的方法和装置
CN106326035A (zh) * 2016-08-13 2017-01-11 南京叱咤信息科技有限公司 一种基于文件元数据的增量备份方法
CN107247541A (zh) * 2017-06-30 2017-10-13 联想(北京)有限公司 一种信息处理方法及电子设备
CN107391306A (zh) * 2017-07-27 2017-11-24 国家电网公司 一种异构数据库备份文件恢复方法
CN108733515A (zh) * 2018-05-24 2018-11-02 广州酷狗计算机科技有限公司 文件备份的调度方法、文件备份方法、装置及存储介质
CN111880967A (zh) * 2020-07-28 2020-11-03 平安科技(深圳)有限公司 云场景下的文件备份方法、装置、介质和电子设备
CN112181756A (zh) * 2019-07-04 2021-01-05 上海泰宇信息技术股份有限公司 一种数据监测保全方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100936390B1 (ko) * 2002-11-26 2010-01-14 삼성전자주식회사 데이터 백업 및 복원 방법

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101051285A (zh) * 2006-09-21 2007-10-10 上海交通大学 计算机网络数据备份中文件匹配的方法
CN102073560A (zh) * 2011-01-17 2011-05-25 北京深思洛克软件技术股份有限公司 一种数据备份方法和装置
CN102385637A (zh) * 2011-12-22 2012-03-21 山东中创软件商用中间件股份有限公司 一种数据库信息的备份方法及系统
CN104714859A (zh) * 2013-12-17 2015-06-17 南京壹进制信息技术有限公司 一种海量文件的快速备份与恢复的方法
CN105302675A (zh) * 2015-11-25 2016-02-03 上海爱数信息技术股份有限公司 数据备份的方法和装置
CN106326035A (zh) * 2016-08-13 2017-01-11 南京叱咤信息科技有限公司 一种基于文件元数据的增量备份方法
CN107247541A (zh) * 2017-06-30 2017-10-13 联想(北京)有限公司 一种信息处理方法及电子设备
CN107391306A (zh) * 2017-07-27 2017-11-24 国家电网公司 一种异构数据库备份文件恢复方法
CN108733515A (zh) * 2018-05-24 2018-11-02 广州酷狗计算机科技有限公司 文件备份的调度方法、文件备份方法、装置及存储介质
CN112181756A (zh) * 2019-07-04 2021-01-05 上海泰宇信息技术股份有限公司 一种数据监测保全方法
CN111880967A (zh) * 2020-07-28 2020-11-03 平安科技(深圳)有限公司 云场景下的文件备份方法、装置、介质和电子设备

Also Published As

Publication number Publication date
CN112882866A (zh) 2021-06-01

Similar Documents

Publication Publication Date Title
US8478951B1 (en) Method and apparatus for block level data de-duplication
US20110113013A1 (en) Duplicate backup data identification and consolidation
CN110555770B (zh) 一种基于增量哈希的区块链世界状态校验和恢复方法
CN103034659A (zh) 一种重复数据删除的方法和系统
CN107168868B (zh) 一种基于采样和集成学习的软件更改缺陷预测方法
CN111367994A (zh) 数据库增量数据同步备份方法及系统
JPH11134235A (ja) 外部記憶装置故障時の回復支援方法
US6718466B1 (en) Data medium with restorable original base data content, and method for its production
CN113918658A (zh) 恢复数据的方法及装置
AU2018345147B2 (en) Database processing device, group map file production method, and recording medium
CN108073595B (zh) 一种在olap数据库实现数据更新和快照的方法及装置
CN112882866B (zh) 一种适用于海量文件的备份方法
CN114860745A (zh) 基于人工智能的数据库扩展方法及相关设备
US20160342508A1 (en) Identifying memory regions that contain remapped memory locations
CN102495838B (zh) 数据处理方法及装置
CN106909484B (zh) 一种用于存储环境下模拟坏盘测试的系统及方法
US20230237048A1 (en) Journal groups for metadata housekeeping operation
US20070239794A1 (en) Method and system for updating logical information in databases
CN115269553A (zh) 一种数据库迁移的方法、装置及存储介质
CN111752909B (zh) 一种多版本文件的操作方法、系统及装置
US20030204516A1 (en) Determination of relevant figures for database recovery processes
CN110716929B (zh) 一种布控处理方法、装置及设备
CN109791541B (zh) 日志序列号生成方法、装置及可读存储介质
Tomazic et al. Fast file existence checking in archiving systems
US10922301B1 (en) Apparatus, computer program, and method for trigger-based tracking of database modifications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant