CN104714859B - 一种海量文件的快速备份与恢复的方法 - Google Patents

一种海量文件的快速备份与恢复的方法 Download PDF

Info

Publication number
CN104714859B
CN104714859B CN201310688991.2A CN201310688991A CN104714859B CN 104714859 B CN104714859 B CN 104714859B CN 201310688991 A CN201310688991 A CN 201310688991A CN 104714859 B CN104714859 B CN 104714859B
Authority
CN
China
Prior art keywords
file
backup
time point
newest
directories
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310688991.2A
Other languages
English (en)
Other versions
CN104714859A (zh
Inventor
俞训峰
许萍萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aerospace One System Jiangsu Information Technology Co ltd
Original Assignee
Nanjing Basic Information Technology Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Basic Information Technology Ltd By Share Ltd filed Critical Nanjing Basic Information Technology Ltd By Share Ltd
Priority to CN201310688991.2A priority Critical patent/CN104714859B/zh
Publication of CN104714859A publication Critical patent/CN104714859A/zh
Application granted granted Critical
Publication of CN104714859B publication Critical patent/CN104714859B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开一种海量文件的快速备份与恢复的方法,包括:先生成最新备份文件目录,增量备份时创建增量备份时间点目录,本发明不在数据库或类似数据库技术的文件中记录备份文件元数据信息,判断增量文件时系统资源消耗少,速度快;恢复时可以快速的找到需要恢复的文件版本,避免了恢复到离完整备份近的备份点速度快,恢复到离当前时间近的备份点速度慢的问题,同时在最新备份文件目录中总是与需要备份的文件保持一致,在用户需要恢复或验证最新备份数据时,可以直接使用最新备份文件目录,满足海量文件数据快速恢复验证和临时接管的需求。

Description

一种海量文件的快速备份与恢复的方法
技术领域
本发明属于数据存储和备份技术领域,具体支持海量文件的快速备份与恢复的方法。
背景技术
在互联网快速发展与云计算时代到来的背景下,基于以文件为中心的存储基础架构而运行的应用(Web服务器、电子邮件、电子记录、电子档案、数字媒体)在企业数据中正占据越来越高的比例。IDC认为,全球存储市场总出货量80%将用来存储非结构化数据,即文件数据。随着这些海量文件数据的增长,其数据备份也成为一个难题。
传统海量文件备份恢复的方法,首先要进行完整备份,将所有要备份的文件打包到一个压缩文件中,并保存备份的文件元数据信息(源位置、源文件名、修改时间、源大小)到数据库或类似数据库技术的文件中;接着进行增量备份时,将现有文件信息与保存的备份文件元数据信息进行比较,找到已经改变的文件进行打包到压缩文件中,并再次保留增量文件的元数据信息。在进行恢复时,首先要恢复完整备份,再恢复要恢复时间点之前的所有增量备份,获得相应时间点的文件。
传统海量文件备份恢复存在如下问题:
(1)需要备份的文件数量越多,存放备份文件元数据信息的文件过大,如果采用小型数据库存放元数据,可能效率太低,采用大型数据库会有版权问题。自行设计结构存放,则备份时需要耗费很大系统资源,并且设计数据结构时容易存在瓶颈。
(2)判断增量文件时需要结合完整备份与所有增量备份的元数据信息,随着增量备份的数量增多,越来越慢。
(3)恢复时需要先恢复完整备份,再恢复增量备份,所以恢复到离完整备份近的备份点速度快,恢复到离当前时间近的备份点速度慢。
(4)备份的数据格式不透明,必须通过恢复操作才能使用。
发明内容
本发明的目的在于克服上述现有技术中的不足,提出了支持海量文件的快速备份与恢复的方法。
本发明所涉及的支持海量文件的快速备份与恢复的方法,其主要技术步骤包括:
备份步骤:
(1)先创建一个空的最新备份文件目录,进行完整备份,完整备份操作过程与一次增量备份操作过程一致。
(2)增量备份时,创建一个空的增量备份时间点目录,在增量备份时间点目录存放备份文件元数据信息(源位置、文件名、修改时间、文件大小)列表,此文件仅在恢复时需要读取。
(3)枚举要备份的文件,通过对需要备份的文件和最新备份文件目录中直接定位的备份文件进行对比(修改时间、文件大小),发现文件增加、修改、删除时进行增量备份操作。在文件元数据信息列表中记录要备份文件的元数据信息。
(4)增量备份操作过程如下:
文件增加,拷贝到最新备份文件目录,在最新备份文件目录中保持文件的目录结构不变;
文件删除,移动文件到上一个增量备份时间点目录,在增量备份时间点目录中保持文件的目录结构不变;
文件修改,移动文件到上一个增量备份时间点目录,拷贝当前文件到最新备份文件目录,在最新备份文件目录和增量备份时间点目录中保持文件的目录结构不变;
更新当前增量备份时间点目录中的元数据信息列表,同时记录已经备份的文件数与文件总数据量;
当备份版本数已经到限制数量时,将最早的增量备份时间点目录进行删除。
恢复步骤:
(1)读取指定增量备份时间点中的文件元数据信息列表;
(2)根据文件元数据信息列表中的文件恢复指定的文件;
(3)先从当前增量备份时间点目录中找文件,如果找不到,则到后一个增量备份时间点目录中寻找,最后是最新备份文件目录。
与现有技术相比,本发明具有以下优点:
1.不在数据库或类似数据库技术的文件中记录备份文件元数据信息,减少系统资源消耗。在可以备份的文件数量上不会存在设计瓶颈。理论上文件系统可以存放多少文件,就可以备份多少文件。
2.随着增量备份的数量增多,在查找本次备份改变的文件上速度不会变慢。因为每次查找改变的文件都只是需要备份源文件与最新备份文件目录中的文件之间的比较。
3.通过要恢复的时间点中的元数据信息列表就可以快速找到需要恢复的文件,恢复到最新时间点近的备份点速度快,更加符合实际的使用需求。
4.可以快速的获取最新备份时间点的数据,对于某些特定应用(如PACS数据服务器、电子档案服务器),将其数据存储路径指定为最新备份文件所在目录,就可以方便的进行数据恢复验证或数据临时接替。
附图说明
图1是海量文件备份与恢复的方法结构图
图2是备份原理图
图3是恢复原理图
图4是备份实施示意图
具体实施方法
下面结合附图对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
下面结合附图对本发明的技术方案进行详细说明。
1.海量文件备份与恢复的方法结构如图1所示,整个备份集由最新备份文件目录,增量备份时间点目录组成。
2.备份原理如图2所示,
首先,创建一个空的最新备份文件目录,然后进行完整备份,完整备份的过程与增量备份过程是一致的。
当增量备份的时间点到来时,创建空的增量备份时间点目录,枚举要备份的文件,通过对需要备份的文件和最新备份文件目录中直接定位的备份文件进行对比(修改时间、文件大小),发现文件增加、修改、删除时进行增量备份操作。在文件元数据信息列表中记录要备份文件的元数据信息。
增量备份操作过程如下:
文件增加,拷贝到最新备份文件目录,在最新备份文件目录中保持文件的目录结构不变;
文件删除,移动文件到上一个增量备份时间点目录,在增量备份时间点目录中保持文件的目录结构不变;
文件修改,移动文件到上一个增量备份时间点目录,拷贝当前文件到最新备份文件目录,在最新备份文件目录和增量备份时间点目录中保持文件的目录结构不变;
3.恢复原理如图3所示,
当用户需要对备份文件进行恢复时,首先读取指定增量备份时间点目录中的备份文件元数据信息列表,所述元数据信息包括源位置、文件名、修改时间、文件大小。
根据所述元数据信息列表中的文件信息,先从当前增量备份时间点目录中查找文件,如果未找到文件,则到后一个增量备份时间点目录中寻找,最后是最新备份文件目录。
优选的,对于某些特定应用(如PACS数据服务器、电子档案服务器),将其数据存储路径指定为最新备份文件所在目录,就可以方便的进行数据恢复验证或数据临时接替,大大节省了用户时间。
为便于理解,现结合图4,举例进一步对本发明进行说明。
如,现有当前磁盘文件ABC(此处不考虑文件的目录结构信息)需要进行备份,首先对所述文件ABC进行完全备份,并创建最新备份文件目录和增量备份时间点目录201309290801,完全备份后最新备份文件目录中为ABC文件,增量备份时间点目录为空,当文件发生变化后,进行增量备份。
在下一次增量备份时,通过对需要备份的文件和最新备份文件目录中直接定位的备份文件进行对比(修改时间、文件大小)判断当前文件有没有修改,同时记录当前备份文件的元数据信息到增量备份时间点目录中的备份文件元数据信息列表中。
如图所示:
在201309290901这个增量备份时间点,删除了文件C,修改了文件A,将发生修改的A文件标记为A(1)文件,第二次修改A文件标记为A(2)文件,以此类推。
删除C文件,则移动最新备份文件目录中的源文件C到上一个增量备份时间点目录201309290801中,则此时增量备份时间点目录中201309290801这个时间点的文件中为删除了的C文件。
修改了A文件,则移动最新备份文件目录中的源文件A到上一个增量备份时间点目录201309290801中,则此时增量备份时间点目录中201309290801这个时间点的文件中为AC文件,同时拷贝修改后的A(1)文件到最新备份文件目录中。
此时最新备份文件目录中为A(1)B文件,与当前磁盘要备份的文件一致。
在201309291001这个增量备份时间点,修改了文件B,增加了文件D。
修改了B文件,则移动最新备份文件目录中的源文件A到上一个增量备份时间点目录201309290901中,则此时增量备份时间点目录中201309290901这个时间点的文件中为B文件,同时拷贝修改后的B(1)文件到最新备份文件目录中。
增加了文件D,则直接拷贝文件D到最新备份文件目录中。
此时最新备份文件目录中为A(1)B(1)D文件,与当前磁盘要备份的文件一致。
在接下来的时间点的增量备份时间点的操作中,与上面两次增量备份类似。
经过以上一系列操作,在恢复文件时,若需要恢复某一时间点的数据,则在增量备份时间点目录中根据备份文件元数据信息列表可以快速查找到用于恢复的文件版本,若需要恢复到最新时间点目录,甚至可以不需要进行数据恢复,直接使用备份后的数据进行数据验证与临时接管。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所做的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种海量文件的快速备份与恢复的方法,其特征在于,包括以下步骤:
文件备份步骤:
(1)首先,为当前备份任务创建一个空的最新备份文件目录,将备份任务第一次的完整备份按增量备份操作过程来处理;
(2)在执行增量备份时,创建一个空的增量备份时间点目录,通过对需要备份文件和最新备份文件目录中直接定位的备份文件进行对比,当所述备份文件进行修改或文件增加、删除时进行增量备份操作,同时在增量备份时间点目录中记录当前时间点备份文件元数据信息列表;
所述增量备份操作过程如下;
文件增加,拷贝到最新备份文件目录,在最新备份文件目录中保持文件的目录结构不变;
文件删除,移动文件到上一个增量备份时间点目录,在增量备份时间点目录中保持文件的目录结构不变;
文件修改,移动文件到上一个增量备份时间点目录,拷贝当前文件到最新备份文件目录,在最新备份文件目录和增量备份时间点目录中保持文件的目录结构不变;
所述增量备份时间点目录的备份文件元数据信息列表包括源位置、文件名、修改时间、文件大小;
文件恢复步骤:
(1)读取指定增量备份时间点中的文件元数据信息列表;
(2)根据文件元数据信息中的文件恢复指定的文件;
(3)先从当前增量备份时间点目录中找文件,如果找不到,则到后一个增量备份时间点目录中寻找,最后是最新备份文件目录。
2.如权利要求1所述的方法,其特征在于,在最新备份文件目录中总是与需要备份的文件保持一致,在用户需要恢复或验证最新备份数据时,可以直接使用最新备份文件目录。
CN201310688991.2A 2013-12-17 2013-12-17 一种海量文件的快速备份与恢复的方法 Active CN104714859B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310688991.2A CN104714859B (zh) 2013-12-17 2013-12-17 一种海量文件的快速备份与恢复的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310688991.2A CN104714859B (zh) 2013-12-17 2013-12-17 一种海量文件的快速备份与恢复的方法

Publications (2)

Publication Number Publication Date
CN104714859A CN104714859A (zh) 2015-06-17
CN104714859B true CN104714859B (zh) 2017-10-03

Family

ID=53414222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310688991.2A Active CN104714859B (zh) 2013-12-17 2013-12-17 一种海量文件的快速备份与恢复的方法

Country Status (1)

Country Link
CN (1) CN104714859B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11847031B2 (en) 2022-03-04 2023-12-19 Insight Direct Usa, Inc. Database recovery and database recovery testing

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105607968B (zh) * 2015-12-17 2018-12-07 浙江大华技术股份有限公司 一种增量备份方法及设备
CN105516349A (zh) * 2016-01-04 2016-04-20 陈华锋 一种文件传输方法和系统
CN106227621B (zh) * 2016-07-25 2019-03-01 北京飞杰信息技术有限公司 基于逻辑卷管理精简卷的数据备份方法及系统
CN106341485A (zh) * 2016-09-27 2017-01-18 珠海市魅族科技有限公司 一种云存储的方法及装置
CN107885616A (zh) * 2017-09-29 2018-04-06 上海爱数信息技术股份有限公司 一种基于文件系统解析的海量小文件备份恢复方法
CN109753379B (zh) * 2017-11-08 2022-12-02 阿里巴巴集团控股有限公司 快照数据备份、删除方法、装置及系统
CN108459927B (zh) * 2018-02-28 2021-11-26 北京奇艺世纪科技有限公司 一种数据备份方法、装置和服务器
CN110442474B (zh) * 2018-05-02 2023-07-11 深信服科技股份有限公司 一种数据一致性验证方法、系统及数据验证端
CN109144786B (zh) * 2018-08-28 2021-05-28 天阳宏业科技股份有限公司 打包文件内小文件的恢复方法及恢复系统
CN110309020A (zh) * 2019-07-09 2019-10-08 中国工商银行股份有限公司 备份作业处理方法及装置
CN110515767A (zh) * 2019-08-09 2019-11-29 济南浪潮数据技术有限公司 快照数据备份方法、装置、设备及可读存储介质
CN110471796B (zh) * 2019-08-20 2024-01-23 同方知网数字出版技术股份有限公司 一种面向文件目录的完全和增量的备份恢复方法
CN112445650B (zh) * 2019-09-03 2024-04-30 智微科技股份有限公司 用来提升增量备份的速度的方法、桥接装置以及储存系统
CN111159313B (zh) * 2019-12-31 2020-11-13 广州鼎甲计算机科技有限公司 一种数据库快速合成备份方法、系统、装置及存储介质
CN111290882B (zh) * 2020-02-11 2024-02-09 北京小米松果电子有限公司 数据文件备份方法、数据文件备份装置及电子设备
CN111782619A (zh) * 2020-07-28 2020-10-16 上海爱数信息技术股份有限公司 一种服务端间文档增量同步方法、同步装置及存储介质
CN112882866B (zh) * 2021-02-24 2023-12-15 上海泰宇信息技术股份有限公司 一种适用于海量文件的备份方法
CN115269276A (zh) * 2022-08-10 2022-11-01 广州鼎甲计算机科技有限公司 增量备份方法、装置、计算机设备及其存储介质
CN116361071B (zh) * 2023-03-31 2024-04-05 摩尔线程智能科技(北京)有限责任公司 备份文件生成方法、装置、设备及存储介质
CN116361076B (zh) * 2023-06-01 2023-11-14 杭州费尔斯通科技有限公司 一种国产数据库备份方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101017453A (zh) * 2006-02-07 2007-08-15 国际商业机器公司 用于管理备份集中的删除的方法和系统
CN101751478A (zh) * 2010-02-20 2010-06-23 浪潮(北京)电子信息产业有限公司 一种文件备份方法及系统
US8041679B1 (en) * 2008-06-04 2011-10-18 Symantec Operating Corporation Synthetic differential backups creation for a database using binary log conversion
CN102339321A (zh) * 2011-11-09 2012-02-01 上海盛霄云计算技术有限公司 具有版本控制的网络文件系统及方法
CN103229147A (zh) * 2010-12-01 2013-07-31 国际商业机器公司 去重存储系统内的合成备份

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101017453A (zh) * 2006-02-07 2007-08-15 国际商业机器公司 用于管理备份集中的删除的方法和系统
US8041679B1 (en) * 2008-06-04 2011-10-18 Symantec Operating Corporation Synthetic differential backups creation for a database using binary log conversion
CN101751478A (zh) * 2010-02-20 2010-06-23 浪潮(北京)电子信息产业有限公司 一种文件备份方法及系统
CN103229147A (zh) * 2010-12-01 2013-07-31 国际商业机器公司 去重存储系统内的合成备份
CN102339321A (zh) * 2011-11-09 2012-02-01 上海盛霄云计算技术有限公司 具有版本控制的网络文件系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Optimal backup interval of database by incremental backupmethod;S.Nakamura;K.Nakayama;T.Nakagawa;《2009 IEEE International Conference on Industrial Engineering and Engineering Management》;20091231;218-222 *
文件系统增量备份策略的形式化描述及实现;肖克辉,倪德明;《计算机工程与设计》;20070531;第28卷(第10期);2455-2457 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11847031B2 (en) 2022-03-04 2023-12-19 Insight Direct Usa, Inc. Database recovery and database recovery testing

Also Published As

Publication number Publication date
CN104714859A (zh) 2015-06-17

Similar Documents

Publication Publication Date Title
CN104714859B (zh) 一种海量文件的快速备份与恢复的方法
US20210263888A1 (en) User-centric interfaces for information management systems
US9235580B2 (en) Techniques for virtual archiving
US10318648B2 (en) Main-memory database checkpointing
CN104850598B (zh) 一种实时数据库备份恢复方法
US9858156B2 (en) Dedicated client-side signature generator in a networked storage system
US20190188188A1 (en) Smart archiving and data previewing for mobile devices
US8856080B2 (en) Backup using metadata virtual hard drive and differential virtual hard drive
US8250033B1 (en) Replication of a data set using differential snapshots
US7873601B1 (en) Backup of incremental metadata in block based backup systems
US9411821B1 (en) Block-based backups for sub-file modifications
US10146631B1 (en) Incremental forever backups for exchange
US20140052689A1 (en) Applying an action on a data item according to a classification and a data management policy
US8117165B1 (en) Disk-to-disk backup of database archive logs
US20150363271A1 (en) Restoring data in a hierarchical storage management system
US20180314454A1 (en) Deduplicating snapshots associated with a backup operation
CN104932841A (zh) 一种云存储系统中节约型重复数据删除方法
GB2502403A (en) Hybrid Backup of Very Large File System Using Metadata Image Backup and Identification, Selection & Backup of Files Not Stored Off-line
CN107256182A (zh) 一种数据库还原的方法及设备
CN102339321A (zh) 具有版本控制的网络文件系统及方法
CN107544873A (zh) 一种存放备份数据的备份系统和方法
EP2347383A1 (en) Aggregating media content from multiple clients to a server
CN105593829A (zh) 从原始映像备份中排除文件系统对象
CN103838645B (zh) 一种基于哈希的远程差异合成备份实现方法
US8583662B2 (en) Managing data across a plurality of data storage devices based upon collaboration relevance

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Guanghua Road Qinhuai District of Nanjing City, Jiangsu province 210014 (No. 1 Baixia High-tech Park) stenden networking tower 8

Applicant after: NANJING UNARY INFORMATION TECHNOLOGY Inc.,Ltd.

Address before: Guanghua Road Qinhuai District of Nanjing City, Jiangsu province 210014 (No. 1 Baixia High-tech Park) stenden networking tower 8

Applicant before: Nanjing Unary Information Technology Co.,Ltd.

COR Change of bibliographic data
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 210014, 8 floor, South Tower, stander Internet of things, 1 Guanghua Road, Qinhuai District, Nanjing, Jiangsu.

Patentee after: NANJING UNARY INFORMATION TECHNOLOGY Co.,Ltd.

Address before: 210014, 8 floor, South Tower, stander Internet of things, 1 Guanghua Road, Qinhuai District, Nanjing, Jiangsu.

Patentee before: NANJING UNARY INFORMATION TECHNOLOGY Inc.,Ltd.

CP01 Change in the name or title of a patent holder
CP03 Change of name, title or address

Address after: Building 1, 6th Floor, Changfeng Building, No.14 Xinghuo Road, Research and Innovation Park, Jiangbei New District, Nanjing City, Jiangsu Province, 210000

Patentee after: Aerospace One System (Jiangsu) Information Technology Co.,Ltd.

Address before: 210014, 8 floor, South Tower, stander Internet of things, 1 Guanghua Road, Qinhuai District, Nanjing, Jiangsu.

Patentee before: NANJING UNARY INFORMATION TECHNOLOGY Co.,Ltd.

CP03 Change of name, title or address