CN112882866B - 一种适用于海量文件的备份方法 - Google Patents
一种适用于海量文件的备份方法 Download PDFInfo
- Publication number
- CN112882866B CN112882866B CN202110208242.XA CN202110208242A CN112882866B CN 112882866 B CN112882866 B CN 112882866B CN 202110208242 A CN202110208242 A CN 202110208242A CN 112882866 B CN112882866 B CN 112882866B
- Authority
- CN
- China
- Prior art keywords
- file
- backup
- files
- characteristic information
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 17
- 238000004458 analytical method Methods 0.000 claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 14
- 238000012216 screening Methods 0.000 claims abstract description 7
- 238000012986 modification Methods 0.000 claims description 10
- 230000004048 modification Effects 0.000 claims description 10
- 238000003780 insertion Methods 0.000 claims description 3
- 230000037431 insertion Effects 0.000 claims description 3
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1446—Point-in-time backing up or restoration of persistent data
- G06F11/1448—Management of the data involved in backup or backup restore
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1446—Point-in-time backing up or restoration of persistent data
- G06F11/1458—Management of the backup or restore process
- G06F11/1464—Management of the backup or restore process for networked environments
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明涉及数据安全领域,具体涉及一种适用于海量文件的备份方法,包括文件分析阶段:从数据库中读取历史备份的特征信息,同时获取目标磁盘文件,进行高效比对并筛选出待备份的文件信息;文件备份阶段:根据文件分析比对所得到的待备份文件信息,对相应的文件进行备份;数据特征信息存储阶段:结合此次文件备份的情况,生成并更新特征信息至数据库中。本发明针对大文件和小文件,采用不同的处理方式计算文件改变特征;采用全新的字典模型方式,可以极快速的完成待备份文件的分析和比对。
Description
技术领域
本发明涉及数据安全领域,具体涉及一种适用于海量文件的备份方法。
背景技术
传统海量文件增量/差异备份时,通常会将目标文件和已存储文件进行单条比对,针对千万级数据量的文件,速度非常慢,甚至会出现内存溢出、系统无响应等未知问题。
传统备份方式大多采用文件HASH值的比对方式,因此在进行超大文件和海量文件比对时,对硬件内存要求较高,处理效率低下,且容易出现内存分配错误、内存溢出、系统异常、程序崩溃、程序无响应等异常情况发生。
发明内容
本发明的目的,是为了解决背景技术中的问题,提供一种适用于海量文件的备份方法。
本发明的上述技术目的是通过以下技术方案得以实现的:
一种适用于海量文件的备份方法,包括以下阶段:
文件分析阶段:从数据库中读取历史备份的特征信息,同时获取目标磁盘文件,进行高效比对并筛选出待备份的文件信息;
文件备份阶段:根据文件分析比对所得到的待备份文件信息,对相应的文件进行备份;
数据特征信息存储阶段:结合此次文件备份的情况,生成并更新特征信息至数据库中。
作为优选,所述文件分析阶段的具体步骤为:
步骤一、遍历获取目标磁盘中待备份文件的特征信息,所述特征信息包括文件路径、文件名称、文件类型、文件字节、文件HASH、修改时间和创建时间;
步骤二、对目标磁盘中待备份文件的特征信息进行分析比对:
2-1、生成待备份文件的数据特征字典表FileDicts,所述数据特征字典表FileDicts中包含备份文件的Key值、Value值和变更状态以及备份状态,为保证数据处理速度,根据步骤一中获取到的特征信息,将文件按字节大小划分为大文件和小文件,并采用不同的分析方法进行比对,具体如下:
2-1-1、采用Md5加密文件名称、文件路径作为数据特征字典表FileDicts的Key值;
2-1-2、将小于或等于4M的单文件归类为小文件,对小文件进行标准的文件HASH运算,采用文件的HASH值作为数据特征字典表FileDicts中的Value值;
2-1-3、将大于4M的单文件归类为大文件,对大文件进行采用Md5加密该文件名称、文件路径、文件大小、文件类型、修改时间和创建时间作为数据特征字典表FileDicts中的Value值;
2-2、将待备份文件的变更状态设置为False,表示该待备份文件无需备份;
2-3、将备份状态设置为False,表示备份失败;
步骤三、读取数据库中历史备份文件的特征信息,按步骤二中的文件分析机制,生成历史备份文件数据特征字典表HistoryFileDicts;
步骤四、对数据特征字典表FileDicts与历史备份文件数据特征字典表HistoryFileDicts进行高效比对:
4-1、当Key值一致的情况下,保持当前状态;
4-2、当Key值不一致的情况下,将数据特征字典表FileDicts中相应的文件的变更状态置为True,表示需要备份。
作为优选,所述文件备份阶段的具体步骤为:
步骤一、筛选出数据特征字典表FileDicts中变更状态为True的数据,根据其特征信息中的文件路径进行文件定位;
步骤二、结合备份方式,对文件进行相应备份操作:
2-1、完整备份,备份目标磁盘全部的文件和文件夹,备份完成后将数据特征字典表FileDicts中相应的文件的变更状态置为False;
2-2、差异备份,只备份文件的变更状态为True的文件,备份完成后不改变数据特征字典表FileDicts中相应文件的变更状态;
2-3、增量备份,只备份文件的变更状态为True的文件,备份完成后将数据特征字典表FileDicts中相应的文件的变更状态置为False;
步骤三、备份成功后,将数据特征字典表FileDicts中备份状态置为True,即备份成功。
作为优选,所述数据特征信息存储阶段的具体步骤为:
步骤一、遍历数据特征字典表FileDicts表中的数据,结合文件备份的方式,采取相应的数据特征信息存储操作:
1-1、备份方式为完整备份时,跳过数据特征信息数据库存储步骤;
1-1、备份方式为差异或增量备份时,逐一比对数据库中是否已经存在该文件信息:
1-1-1、若存在且文件特征信息一致,则跳过数据特征信息存储步骤;
1-1-2、若存在且文件特征信息不一致,则执行所述文件分析阶段的步骤二,更新此文件数据特征信息;
1-1-3、若不存在,则执行所述文件分析阶段的步骤二,新增此文件数据特征信息;
步骤二、生成数据库批量(Batch)处理指令,对数据库进行批处理操作,快速将海量特征信息记录至数据库:
2-1、文件数据特征信息新增:在数据库中执行Insert插入指令,新增一条文件数据特征信息;
2-2、文件数据特征信息更新:在数据库中执行Update修改指令,更新对应记录的数据特征信息。
综上所述,本发明的有益效果:针对大文件和小文件,采用不同的处理方式计算文件改变特征;采用全新的字典模型方式,可以极快速的完成待备份文件的分析和比对。
具体实施方式
以下具体实施例仅仅是对本发明的解释,其并不是对本发明的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本发明的权利要求范围内都受到专利法的保护。
下面实施例对本发明进行详细说明。
实施例
一种适用于海量文件的备份方法,包括以下阶段:
文件分析阶段:从数据库中读取历史备份的特征信息,同时获取目标磁盘文件,进行高效比对并筛选出待备份的文件信息。其具体步骤为:
步骤一、遍历获取目标磁盘中待备份文件的特征信息,所述特征信息包括文件路径、文件名称、文件类型、文件字节、文件HASH、修改时间和创建时间;
步骤二、对目标磁盘中待备份文件的特征信息进行分析比对:
2-1、生成待备份文件的数据特征字典表FileDicts,所述数据特征字典表FileDicts中包含备份文件的Key值、Value值和变更状态以及备份状态,为保证数据处理速度,根据步骤一中获取到的特征信息,将文件按字节大小划分为大文件和小文件,并采用不同的分析方法进行比对,具体如下:
2-1-1、采用Md5加密文件名称、文件路径作为数据特征字典表FileDicts的Key值;
2-1-2、将小于或等于4M的单文件归类为小文件,对小文件进行标准的文件HASH运算,采用文件的HASH值作为数据特征字典表FileDicts中的Value值;
2-1-3、将大于4M的单文件归类为大文件,对大文件进行采用Md5加密该文件名称、文件路径、文件大小、文件类型、修改时间和创建时间作为数据特征字典表FileDicts中的Value值;
2-2、将待备份文件的变更状态设置为False,表示该待备份文件无需备份;
2-3、将备份状态设置为False,表示备份失败;
步骤三、读取数据库中历史备份文件的特征信息,按步骤二中的文件分析机制,生成历史备份文件数据特征字典表HistoryFileDicts;
步骤四、对数据特征字典表FileDicts与历史备份文件数据特征字典表HistoryFileDicts进行高效比对:
4-1、当Key值一致的情况下,保持当前状态;
4-2、当Key值不一致的情况下,将数据特征字典表FileDicts中相应的文件的变更状态置为True,表示需要备份。
文件备份阶段:根据文件分析比对所得到的待备份文件信息,对相应的文件进行备份。其具体步骤为:
步骤一、筛选出数据特征字典表FileDicts中变更状态为True的数据,根据其特征信息中的文件路径进行文件定位;
步骤二、结合备份方式,对文件进行相应备份操作:
2-1、完整备份,备份目标磁盘全部的文件和文件夹,备份完成后将数据特征字典表FileDicts中相应的文件的变更状态置为False;
2-2、差异备份,只备份文件的变更状态为True的文件,备份完成后不改变数据特征字典表FileDicts中相应文件的变更状态;
2-3、增量备份,只备份文件的变更状态为True的文件,备份完成后将数据特征字典表FileDicts中相应的文件的变更状态置为False;
步骤三、备份成功后,将数据特征字典表FileDicts中备份状态置为True,即备份成功。
数据特征信息存储阶段:结合此次文件备份的情况,生成并更新特征信息至数据库中。其具体步骤为:
步骤一、遍历数据特征字典表FileDicts表中的数据,结合文件备份的方式,采取相应的数据特征信息存储操作:
1-1、备份方式为完整备份时,跳过数据特征信息数据库存储步骤;
1-2、备份方式为差异或增量备份时,逐一比对数据库中是否已经存在该文件信息:
1-2-1、若存在且文件特征信息一致,则跳过数据特征信息存储步骤;
1-2-2、若存在且文件特征信息不一致,则执行所述文件分析阶段的步骤二,数据库批量(Batch)处理指令,更新此文件数据特征信息;
1-2-3、若不存在,则执行所述文件分析阶段的步骤二,数据库批量(Batch)处理指令,新增此文件数据特征信息;
步骤二、生成数据库批量(Batch)处理指令,对数据库进行批处理操作,快速将海量特征信息记录至数据库:
2-1、文件数据特征信息新增:在数据库中执行Insert插入指令,新增一条文件数据特征信息;
2-2、文件数据特征信息更新:在数据库中执行Update修改指令,更新对应记录的数据特征信息。
Claims (3)
1.一种适用于海量文件的备份方法,其特征在于,包括以下阶段:
文件分析阶段:从数据库中读取历史备份的特征信息,同时获取目标磁盘文件,进行高效比对并筛选出待备份的文件信息;
文件分析阶段的具体步骤为:
步骤一、遍历获取目标磁盘中待备份文件的特征信息,所述特征信息包括文件路径、文件名称、文件类型、文件字节、文件HASH、修改时间和创建时间;
步骤二、对目标磁盘中待备份文件的特征信息进行分析比对:
2-1、生成待备份文件的数据特征字典表FileDicts,所述数据特征字典表FileDicts中包含备份文件的Key值、Value值和变更状态以及备份状态,为保证数据处理速度,根据步骤一中获取到的特征信息,将文件按字节大小划分为大文件和小文件,并采用不同的分析方法进行比对,具体如下:
2-1-1、采用Md5加密文件名称、文件路径作为数据特征字典表FileDicts的Key值;
2-1-2、将小于或等于4M的单文件归类为小文件,对小文件进行标准的文件HASH运算,采用文件的HASH值作为数据特征字典表FileDicts中的Value值;
2-1-3、将大于4M的单文件归类为大文件,对大文件进行采用Md5加密该文件名称、文件路径、文件大小、文件类型、修改时间和创建时间作为数据特征字典表FileDicts中的Value值;
2-2、将待备份文件的变更状态设置为False,表示该待备份文件无需备份;
2-3、将备份状态设置为False,表示备份失败;
步骤三、读取数据库中历史备份文件的特征信息,按步骤二中的文件分析机制,生成历史备份文件数据特征字典表HistoryFileDicts;
步骤四、对数据特征字典表FileDicts与历史备份文件数据特征字典表HistoryFileDicts进行高效比对:
4-1、当Key值一致的情况下,保持当前状态;
4-2、当Key值不一致的情况下,将数据特征字典表FileDicts中相应的文件的变更状态置为True,表示需要备份;
文件备份阶段:根据文件分析比对所得到的待备份文件信息,对相应的文件进行备份;
数据特征信息存储阶段:结合此次文件备份的情况,生成并更新特征信息至数据库中。
2.根据权利要求1所述的一种适用于海量文件的备份方法,其特征在于,所述文件备份阶段的具体步骤为:
步骤一、筛选出数据特征字典表FileDicts中变更状态为True的数据,根据其特征信息中的文件路径进行文件定位;
步骤二、结合备份方式,对文件进行相应备份操作:
2-1、完整备份,备份目标磁盘全部的文件和文件夹,备份完成后将数据特征字典表FileDicts中相应的文件的变更状态置为False;
2-2、差异备份,只备份文件的变更状态为True的文件,备份完成后不改变数据特征字典表FileDicts中相应文件的变更状态;
2-3、增量备份,只备份文件的变更状态为True的文件,备份完成后将数据特征字典表FileDicts中相应的文件的变更状态置为False;
步骤三、备份成功后,将数据特征字典表FileDicts中备份状态置为True,即备份成功。
3.根据权利要求1所述的一种适用于海量文件的备份方法,其特征在于,所述数据特征信息存储阶段的具体步骤为:
步骤一、遍历数据特征字典表FileDicts表中的数据,结合文件备份的方式,采取相应的数据特征信息存储操作:
1-1、备份方式为完整备份时,跳过数据特征信息数据库存储步骤;
1-2、备份方式为差异或增量备份时,逐一比对数据库中是否已经存在该文件信息:
1-2-1、若存在且文件特征信息一致,则跳过数据特征信息存储步骤;
1-2-2、若存在且文件特征信息不一致,则执行所述文件分析阶段的步骤二,更新此文件数据特征信息;
1-2-3、若不存在,则执行所述文件分析阶段的步骤二,新增此文件数据特征信息;
步骤二、生成数据库批量(Batch)处理指令,对数据库进行批处理操作,快速将海量特征信息记录至数据库:
2-1、文件数据特征信息新增:在数据库中执行Insert插入指令,新增一条文件数据特征信息;
2-2、文件数据特征信息更新:在数据库中执行Update修改指令,更新对应记录的数据特征信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110208242.XA CN112882866B (zh) | 2021-02-24 | 2021-02-24 | 一种适用于海量文件的备份方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110208242.XA CN112882866B (zh) | 2021-02-24 | 2021-02-24 | 一种适用于海量文件的备份方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112882866A CN112882866A (zh) | 2021-06-01 |
CN112882866B true CN112882866B (zh) | 2023-12-15 |
Family
ID=76054394
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110208242.XA Active CN112882866B (zh) | 2021-02-24 | 2021-02-24 | 一种适用于海量文件的备份方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112882866B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101051285A (zh) * | 2006-09-21 | 2007-10-10 | 上海交通大学 | 计算机网络数据备份中文件匹配的方法 |
CN102073560A (zh) * | 2011-01-17 | 2011-05-25 | 北京深思洛克软件技术股份有限公司 | 一种数据备份方法和装置 |
CN102385637A (zh) * | 2011-12-22 | 2012-03-21 | 山东中创软件商用中间件股份有限公司 | 一种数据库信息的备份方法及系统 |
CN104714859A (zh) * | 2013-12-17 | 2015-06-17 | 南京壹进制信息技术有限公司 | 一种海量文件的快速备份与恢复的方法 |
CN105302675A (zh) * | 2015-11-25 | 2016-02-03 | 上海爱数信息技术股份有限公司 | 数据备份的方法和装置 |
CN106326035A (zh) * | 2016-08-13 | 2017-01-11 | 南京叱咤信息科技有限公司 | 一种基于文件元数据的增量备份方法 |
CN107247541A (zh) * | 2017-06-30 | 2017-10-13 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN107391306A (zh) * | 2017-07-27 | 2017-11-24 | 国家电网公司 | 一种异构数据库备份文件恢复方法 |
CN108733515A (zh) * | 2018-05-24 | 2018-11-02 | 广州酷狗计算机科技有限公司 | 文件备份的调度方法、文件备份方法、装置及存储介质 |
CN111880967A (zh) * | 2020-07-28 | 2020-11-03 | 平安科技(深圳)有限公司 | 云场景下的文件备份方法、装置、介质和电子设备 |
CN112181756A (zh) * | 2019-07-04 | 2021-01-05 | 上海泰宇信息技术股份有限公司 | 一种数据监测保全方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100936390B1 (ko) * | 2002-11-26 | 2010-01-14 | 삼성전자주식회사 | 데이터 백업 및 복원 방법 |
-
2021
- 2021-02-24 CN CN202110208242.XA patent/CN112882866B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101051285A (zh) * | 2006-09-21 | 2007-10-10 | 上海交通大学 | 计算机网络数据备份中文件匹配的方法 |
CN102073560A (zh) * | 2011-01-17 | 2011-05-25 | 北京深思洛克软件技术股份有限公司 | 一种数据备份方法和装置 |
CN102385637A (zh) * | 2011-12-22 | 2012-03-21 | 山东中创软件商用中间件股份有限公司 | 一种数据库信息的备份方法及系统 |
CN104714859A (zh) * | 2013-12-17 | 2015-06-17 | 南京壹进制信息技术有限公司 | 一种海量文件的快速备份与恢复的方法 |
CN105302675A (zh) * | 2015-11-25 | 2016-02-03 | 上海爱数信息技术股份有限公司 | 数据备份的方法和装置 |
CN106326035A (zh) * | 2016-08-13 | 2017-01-11 | 南京叱咤信息科技有限公司 | 一种基于文件元数据的增量备份方法 |
CN107247541A (zh) * | 2017-06-30 | 2017-10-13 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN107391306A (zh) * | 2017-07-27 | 2017-11-24 | 国家电网公司 | 一种异构数据库备份文件恢复方法 |
CN108733515A (zh) * | 2018-05-24 | 2018-11-02 | 广州酷狗计算机科技有限公司 | 文件备份的调度方法、文件备份方法、装置及存储介质 |
CN112181756A (zh) * | 2019-07-04 | 2021-01-05 | 上海泰宇信息技术股份有限公司 | 一种数据监测保全方法 |
CN111880967A (zh) * | 2020-07-28 | 2020-11-03 | 平安科技(深圳)有限公司 | 云场景下的文件备份方法、装置、介质和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112882866A (zh) | 2021-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8478951B1 (en) | Method and apparatus for block level data de-duplication | |
US20110113013A1 (en) | Duplicate backup data identification and consolidation | |
CN110555770B (zh) | 一种基于增量哈希的区块链世界状态校验和恢复方法 | |
CN103034659A (zh) | 一种重复数据删除的方法和系统 | |
CN107168868B (zh) | 一种基于采样和集成学习的软件更改缺陷预测方法 | |
CN111367994A (zh) | 数据库增量数据同步备份方法及系统 | |
JPH11134235A (ja) | 外部記憶装置故障時の回復支援方法 | |
US6718466B1 (en) | Data medium with restorable original base data content, and method for its production | |
CN113918658A (zh) | 恢复数据的方法及装置 | |
AU2018345147B2 (en) | Database processing device, group map file production method, and recording medium | |
CN108073595B (zh) | 一种在olap数据库实现数据更新和快照的方法及装置 | |
CN112882866B (zh) | 一种适用于海量文件的备份方法 | |
CN114860745A (zh) | 基于人工智能的数据库扩展方法及相关设备 | |
US20160342508A1 (en) | Identifying memory regions that contain remapped memory locations | |
CN102495838B (zh) | 数据处理方法及装置 | |
CN106909484B (zh) | 一种用于存储环境下模拟坏盘测试的系统及方法 | |
US20230237048A1 (en) | Journal groups for metadata housekeeping operation | |
US20070239794A1 (en) | Method and system for updating logical information in databases | |
CN115269553A (zh) | 一种数据库迁移的方法、装置及存储介质 | |
CN111752909B (zh) | 一种多版本文件的操作方法、系统及装置 | |
US20030204516A1 (en) | Determination of relevant figures for database recovery processes | |
CN110716929B (zh) | 一种布控处理方法、装置及设备 | |
CN109791541B (zh) | 日志序列号生成方法、装置及可读存储介质 | |
Tomazic et al. | Fast file existence checking in archiving systems | |
US10922301B1 (en) | Apparatus, computer program, and method for trigger-based tracking of database modifications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |