CN112882866A

CN112882866A - 一种适用于海量文件的备份方法

Info

Publication number: CN112882866A
Application number: CN202110208242.XA
Authority: CN
Inventors: 陈继杰
Original assignee: Shanghai Taiyu Information Technology Co ltd
Current assignee: Shanghai Taiyu Information Technology Co ltd
Priority date: 2021-02-24
Filing date: 2021-02-24
Publication date: 2021-06-01
Anticipated expiration: 2041-02-24
Also published as: CN112882866B

Abstract

本发明涉及数据安全领域，具体涉及一种适用于海量文件的备份方法，包括文件分析阶段：从数据库中读取历史备份的特征信息，同时获取目标磁盘文件，进行高效比对并筛选出待备份的文件信息；文件备份阶段：根据文件分析比对所得到的待备份文件信息，对相应的文件进行备份；数据特征信息存储阶段：结合此次文件备份的情况，生成并更新特征信息至数据库中。本发明针对大文件和小文件，采用不同的处理方式计算文件改变特征；采用全新的字典模型方式，可以极快速的完成待备份文件的分析和比对。

Description

一种适用于海量文件的备份方法

技术领域

本发明涉及数据安全领域，具体涉及一种适用于海量文件的备份方法。

背景技术

传统海量文件增量/差异备份时，通常会将目标文件和已存储文件进行单条比对，针对千万级数据量的文件，速度非常慢，甚至会出现内存溢出、系统无响应等未知问题。

传统备份方式大多采用文件HASH值的比对方式，因此在进行超大文件和海量文件比对时，对硬件内存要求较高，处理效率低下，且容易出现内存分配错误、内存溢出、系统异常、程序崩溃、程序无响应等异常情况发生。

发明内容

本发明的目的，是为了解决背景技术中的问题，提供一种适用于海量文件的备份方法。

本发明的上述技术目的是通过以下技术方案得以实现的：

一种适用于海量文件的备份方法，包括以下阶段：

文件分析阶段：从数据库中读取历史备份的特征信息，同时获取目标磁盘文件，进行高效比对并筛选出待备份的文件信息；

文件备份阶段：根据文件分析比对所得到的待备份文件信息，对相应的文件进行备份；

数据特征信息存储阶段：结合此次文件备份的情况，生成并更新特征信息至数据库中。

作为优选，所述文件分析阶段的具体步骤为：

一、遍历获取目标磁盘中待备份文件的特征信息，所述特征信息包括文件路径、文件名称、文件类型、文件字节、文件HASH、修改时间和创建时间；

二、对目标磁盘中待备份文件的特征信息进行分析比对：

(1)生成待备份文件的数据特征字典表FileDicts，所述数据特征字典表FileDicts中包含备份文件的Key值、Value值和变更状态以及备份状态，为保证数据处理速度，根据步骤一中获取到的特征信息，将文件按字节大小划分为大文件和小文件，并采用不同的分析方法进行比对，具体如下：

1)采用Md5加密文件名称、文件路径作为数据特征字典表FileDicts的Key值；

2)将小于或等于4M的单文件归类为小文件，对小文件进行标准的文件HASH运算，采用文件的HASH值作为数据特征字典表FileDicts中的Value值；

3)将大于4M的单文件归类为大文件，对大文件进行采用Md5加密该文件名称、文件路径、文件大小、文件类型、修改时间和创建时间作为数据特征字典表FileDicts中的Value值；

(2)将待备份文件的变更状态设置为False，表示该待备份文件无需备份；

(3)将备份状态设置为False，表示备份失败；

三、读取数据库中历史备份文件的特征信息，按步骤二中的文件分析机制，生成历史备份文件数据特征字典表HistoryFileDicts；

四、对数据特征字典表FileDicts与历史备份文件数据特征字典表HistoryFileDicts进行高效比对：

(1)当Key值一致的情况下，保持当前状态；

(2)当Key值不一致的情况下，将数据特征字典表FileDicts中相应的文件的变更状态置为True，表示需要备份。

作为优选，所述文件备份阶段的具体步骤为：

一、筛选出数据特征字典表FileDicts中变更状态为True的数据，根据其特征信息中的文件路径进行文件定位；

二、结合备份方式，对文件进行相应备份操作：

(1)完整备份，备份目标磁盘全部的文件和文件夹，备份完成后将数据特征字典表FileDicts中相应的文件的变更状态置为False；

(2)差异备份，只备份文件的变更状态为True的文件，备份完成后不改变数据特征字典表FileDicts中相应文件的变更状态；

(3)增量备份，只备份文件的变更状态为True的文件，备份完成后将数据特征字典表FileDicts中相应的文件的变更状态置为False；

三、备份成功后，将数据特征字典表FileDicts中备份状态置为True(备份成功)。

作为优选，所述数据特征信息存储阶段的具体步骤为：

一、遍历数据特征字典表FileDicts表中的数据，结合文件备份的方式，采取相应的数据特征信息存储操作：

(1)备份方式为完整备份时，跳过数据特征信息数据库存储步骤；

(2)备份方式为差异或增量备份时，逐一比对数据库中是否已经存在该文件信息：

1)若存在且文件特征信息一致，则跳过数据特征信息存储步骤；

2)若存在且文件特征信息不一致，则执行步骤(二)更新此文件数据特征信息；

3)若不存在，则执行步骤(二)新增此文件数据特征信息；

二、生成数据库批量(Batch)处理指令，对数据库进行批处理操作，快速将海量特征信息记录至数据库：

(1)文件数据特征信息新增：在数据库中执行Insert插入指令，新增一条文件数据特征信息；

(2)文件数据特征信息更新：在数据库中执行Update修改指令，更新对应记录的数据特征信息。

综上所述，本发明的有益效果：针对大文件和小文件，采用不同的处理方式计算文件改变特征；采用全新的字典模型方式，可以极快速的完成待备份文件的分析和比对。

具体实施方式

以下具体实施例仅仅是对本发明的解释，其并不是对本发明的限制，本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改，但只要在本发明的权利要求范围内都受到专利法的保护。

下面实施例对本发明进行详细说明。

实施例1：

一种适用于海量文件的备份方法，包括以下阶段：

文件分析阶段：从数据库中读取历史备份的特征信息，同时获取目标磁盘文件，进行高效比对并筛选出待备份的文件信息。其具体步骤为：

二、对目标磁盘中待备份文件的特征信息进行分析比对：

(3)将备份状态设置为False，表示备份失败；

(1)当Key值一致的情况下，保持当前状态；

文件备份阶段：根据文件分析比对所得到的待备份文件信息，对相应的文件进行备份。其具体步骤为：

二、结合备份方式，对文件进行相应备份操作：

数据特征信息存储阶段：结合此次文件备份的情况，生成并更新特征信息至数据库中。其具体步骤为：

2)若存在且文件特征信息不一致，则执行步骤(二)数据库批量(Batch)处理指令，更新此文件数据特征信息；

3)若不存在，则执行步骤(二)数据库批量(Batch)处理指令，新增此文件数据特征信息；

Claims

1.一种适用于海量文件的备份方法，其特征在于，包括以下阶段：

2.根据权利要求1所述的一种适用于海量文件的备份方法，其特征在于，所述文件分析阶段的具体步骤为：

二、对目标磁盘中待备份文件的特征信息进行分析比对：

(3)将备份状态设置为False，表示备份失败；

(1)当Key值一致的情况下，保持当前状态；

3.根据权利要求1所述的一种适用于海量文件的备份方法，其特征在于，所述文件备份阶段的具体步骤为：

二、结合备份方式，对文件进行相应备份操作：

4.根据权利要求1所述的一种适用于海量文件的备份方法，其特征在于，所述数据特征信息存储阶段的具体步骤为：

3)若不存在，则执行步骤(二)新增此文件数据特征信息；