CN107783863A - 一种海量文件快速合成备份方法 - Google Patents

一种海量文件快速合成备份方法 Download PDF

Info

Publication number
CN107783863A
CN107783863A CN201711019105.1A CN201711019105A CN107783863A CN 107783863 A CN107783863 A CN 107783863A CN 201711019105 A CN201711019105 A CN 201711019105A CN 107783863 A CN107783863 A CN 107783863A
Authority
CN
China
Prior art keywords
backup
file
data
index
concordance list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711019105.1A
Other languages
English (en)
Inventor
王仁杰
张有成
许萍萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Basic Information Technology Ltd By Share Ltd
Original Assignee
Nanjing Basic Information Technology Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Basic Information Technology Ltd By Share Ltd filed Critical Nanjing Basic Information Technology Ltd By Share Ltd
Priority to CN201711019105.1A priority Critical patent/CN107783863A/zh
Publication of CN107783863A publication Critical patent/CN107783863A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • G06F11/1453Management of the data involved in backup or backup restore using de-duplication of the data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1469Backup restoration techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种海量文件快速合成备份方法,通过单独构建索引库与存储介质上的备份文件数据分离开,将备份过程中的文件数据偏移写入索引库,无需将数据实际移动操作来重新组织备份集数据,从逻辑上完成数据的“移动”操作,生成新的合成备份数据对应的索引记录,从而避免备份数据移动,只需少量的索引数据的记录;恢复时根据索引库内对应于存储介质上备份文件数据的偏移进行恢复操作;有效提升备份速度,以同时达到对海量数据环境的业务支撑。

Description

一种海量文件快速合成备份方法
技术领域
本发明涉及计算机技术领域,具体涉及一种海量文件快速合成备份方法。
背景技术
合成备份是指将存储介质中完全备份数据和增量备份数据通过某种算法合并,生成一个新的完全备份数据,但这种合成备份消耗时间与需要合并的数据量成正比,占用大量存储器资源,当遇到海量备份数据时,备份速度低。
增量备份是指在一次文件全备份或上一次文件增量备份后,以后每次的备份只需备份与前一次相比增加或者被修改的文件。这就意味着,第一次增量备份的对象是进行完全备份后所产生的增加或修改的文件;第二次增量备份的对象是进行第一次增量备份后所产生的增加或修改的文件,如此类推。因此,在第二次增量备份后,第一次增量备份后所产生的备份文件就成为了过期数据,第二次增量备份后所产生的备份文件是最新未过期数据。
举例说明:对一个文件集完全备份数据中的文件1,进行了3次增量备份:
第一次文件1未变化,此时的增量备份数据是0,即不进行增量备份;
第二次文件1变化,此时的增量备份数据标记为文件1-1;
第三次文件1变化,此时的增量备份数据标记为文件1-2;
此时如果进行合成备份,将会获取文件1最新记录,文件1-1就是这个增量备份链中的过期数据;文件1-2就是这个增量备份链中的未过期数据。
通过将存储介质上待合成的增量备份数据中的未过期数据追加到完全备份数据中,以减少完全备份数据的移动,加快备份速度,同时节省存储介质空间;将存储介质中增量备份数据移动写入到完全备份数据中,以生成最新合成备份数据;在这种合成备份过程中,增量备份数据的“追加写入”移动操作,如果在海量数据应用环境下,随着增量数据量的增长,虽只涉及增量数据的移动,也将会对备份的整体备份速度造成影响。
发明内容
为解决现有技术中的不足,本发明提供一种基于索引库的海量数据快速合成备份方法,解决了海量数据下增量备份文件数据的写移动操作导致备份速度低的问题。
为了实现上述目标,本发明采用如下技术方案:一种海量文件快速合成备份方法,包括步骤:
1)利用数据库技术搭建索引库,将索引库与存储介质中的完全备份、增量备份数据对应起来;
2)触发指定的备份源数据进行完全或增量备份:
一次完全备份开始时,在索引库中新建完全备份时间戳索引表;将文件数据备份至存储介质服务器中的同时,将文件数据备份存储信息记录到索引库的完全备份时间戳索引表中;
一次增量备份开始时,在索引库中查询最新时间戳索引表,找到当前需要备份文件在索引表中的未过期文件记录,如果当前需要备份文件的修改时间比索引表中该文件的未过期文件记录的时间较新,表明当前需要备份文件已经修改,则将文件数据备份至介质服务器对应备份集数据中,并将文件相关索引信息,记录到索引库的最新时间戳索引表中;
3)触发指定的备份源数据合成备份:
一次合成备份开始时,查询索引库,找到最新时间戳索引表组成当前时间前最新备份链,将每个文件对应的最新未过期备份记录集合生成合成备份时间戳索引表;合成备份后,除非再次执行完全备份,否则执行的增量备份记录记载在最新合成备份时间戳索引表中;
4)备份恢复时通过查询索引库,找到需要恢复备份时间对应的索引表,根据索引表中文件数据在存储介质服务器备份集中信息,直接从存储介质服务器中对应的备份集读取数据恢复。
前述的一种海量文件快速合成备份方法,其特征是:所述时间戳索引表包括记录:文件名、文件大小、文件修改时间、文件数据在存储介质服务器备份集中的偏移地址、文件数据在存储介质服务器备份集中的长度、备份时间点。
前述的一种海量文件快速合成备份方法,其特征是:所述触发方式包括定时触发方式和人为触发方式。
前述的一种海量文件快速合成备份方法,其特征是:所述最新备份链为最近一次完全或合成备份到当前时间期间的所有最新未过期备份记录集合。
前述的一种海量文件快速合成备份方法,其特征是:所述时间戳索引表以当前时间生成备份时间戳,并以备份时间戳命名。
前述的一种海量文件快速合成备份方法,其特征是:所述文件数据在存储介质服务器备份集中信息包括文件数据在存储介质服务器备份集中的偏移地址、文件数据在存储介质服务器备份集中的长度。
本发明所达到的有益效果:本发明通过单独构建索引库与存储介质上的备份文件数据分离开,将备份过程中的文件数据偏移写入索引库,无需将数据实际移动操作来重新组织备份集数据,从逻辑上完成数据的“移动”操作,生成新的合成备份数据对应的索引记录,从而避免备份数据移动,只需少量的索引数据的记录;恢复时根据索引库内对应于存储介质上备份文件数据的偏移进行恢复操作;有效提升备份速度,以同时达到对海量数据环境的业务支撑。
索引库与存储介质上的备份文件数据分离,进一步提高了海量数据环境的扩展性和灵活性:如索引库中除了核心内容文件数据偏移外,还可以扩展其他属性,用于如海量数据环境下的数据挖掘,数据分析、全文搜索等相关应用,提升业务环境需求可塑性;降低了数据属性与实际数据的耦合性;提高业务系统健壮性。
附图说明
图1是本发明基于索引库的合成备份方法示意图;
图2是本发明基于索引库的合成备份方法架构示意图;
图3是本发明基于索引库的合成备份方法流程图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
如图2-3所示,一种海量文件快速合成备份方法,步骤包括:
1)利用现有数据库技术搭建索引库,将索引库与存储介质中的完全备份、增量备份数据对应起来;索引数据库包括若干完全备份索引表,完全备份索引表以当前备份时间戳命名,如20170917121212,每次完全备份新增一张完全备份索引表,增量备份数据索引记录存放于对应的完全备份索引表中;
以时间戳命名的完全备份索引表记录包括:文件名、文件大小、文件修改时间、文件数据在存储介质服务器备份集中的偏移地址、文件数据在存储介质服务器备份集中的长度、备份时间点;这些记录构成了文件数据备份存储信息。
2)通过定时方式或人为设定的备份时间触发指定的备份源数据进行完全或增量备份;增量备份前,需要进行至少一次完全备份;一次完全备份开始时,以当前时间生成备份时间戳,并以备份时间戳为名在索引库中新建完全备份时间戳索引表;将文件数据备份至存储介质服务器中的同时,将文件数据备份存储信息记录到索引库的完全备份时间戳索引表中;
一次增量备份开始时,在索引库中查询最近一次备份时间戳索引表(由于增量备份依赖于上一次完全备份或合成备份,因此最新的备份时间戳索引表可能是完全备份时间戳索引表也可能是合成备份时间戳索引表),找到当前需要备份文件在索引表中的未过期文件记录,比对当前需要备份文件的修改时间,如果当前需要备份文件的修改时间相比未过期文件记录的时间较新,表明当前需要备份文件已经修改,则将文件数据备份至介质服务器中,并将文件相关索引信息,记录到索引库的最新备份时间戳索引表中;
3)通过定时方式或人为设定的备份时间触发指定的备份源数据合成备份;
一次合成备份开始时,查询索引库,找到最新时间戳索引表组成当前时间前最新备份链,最新备份链为最近一次完全或合成备份到当前时间期间的所有最新未过期备份记录集合;将每个文件对应的最新未过期备份记录集合整合生成合成备份文件索引记录集,并以当前合成备份时间命名,生成当前合成备份时间戳索引表;合成备份后,后面除非再次执行完全备份,否则执行的增量备份记录都会依赖于(记载在)最新合成备份索引记录集中。此处的合成备份不移动已有备份数据,只是修正最新备份数据对应的索引记录,大大的缩短了备份时间。
4)备份恢复时通过查询索引库,找到需要恢复备份时间对应的索引表,根据索引表中“文件数据在存储介质服务器备份集中的偏移地址”、“文件数据在存储介质服务器备份集中的长度”,直接从存储介质服务器中对应的备份集读取数据恢复;
具体实施例:
如图1所示,最近完全备份时间戳索引表包括完全备份文件索引记录1、完全备份文件索引记录2、完全备份文件索引记录3;以及增量备份文件索引记录11、增量备份文件索引记录31;通过比对完全、增量备份文件索引记录,获取最新未过期备份文件索引记录,即增量备份文件索引记录11、完全备份文件索引记录2、增量备份文件索引记录31,组成合成备份文件索引记录集合;最新的合成备份文件索引记录集合中的文件索引记录,记录了对应于存储介质备份对象数据的位置偏移,因此在整个合成备份过程中只需要对备份文件索引记录集做修正,无需对存储介质数据进行移动操作,提高了备份效率,缩短了备份时间。
通过只增加索引库对应于备份对象的索引记录来进行合成备份数据的逻辑备份,不实际操作数据,避免复杂的数据移动操作;通过将索引库与备份数据的分离,整个合成备份过程不对已备份数据进行操作,只对索引记录进行修正操作;加快合成备份速度;加快用于合成备份的增量数据解析时间(数据库支撑下的索引记录查询操作,无实际数据比对操作);扩展型好,合理支撑海量数据业务环境。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (6)

1.一种海量文件快速合成备份方法,其特征在于:包括步骤:
1)利用数据库技术搭建索引库,将索引库与存储介质中的完全备份、增量备份数据对应起来;
2)触发指定的备份源数据进行完全或增量备份:
一次完全备份开始时,在索引库中新建完全备份时间戳索引表;将文件数据备份至存储介质服务器中的同时,将文件数据备份存储信息记录到索引库的完全备份时间戳索引表中;
一次增量备份开始时,在索引库中查询最新时间戳索引表,找到当前需要备份文件在索引表中的未过期文件记录,如果当前需要备份文件的修改时间比索引表中该文件的未过期文件记录的时间较新,表明当前需要备份文件已经修改,则将文件数据备份至介质服务器对应备份集数据中,并将文件相关索引信息,记录到索引库的最新时间戳索引表中;
3)触发指定的备份源数据合成备份:
一次合成备份开始时,查询索引库,找到最新时间戳索引表组成当前时间前最新备份链,将每个文件对应的最新未过期备份记录集合生成合成备份时间戳索引表;合成备份后,除非再次执行完全备份,否则执行的增量备份记录记载在最新合成备份时间戳索引表中;
4)备份恢复时通过查询索引库,找到需要恢复备份时间对应的索引表,根据索引表中文件数据在存储介质服务器备份集中信息,直接从存储介质服务器中对应的备份集读取数据恢复。
2.根据权利要求1所述的一种海量文件快速合成备份方法,其特征是:所述时间戳索引表包括记录:文件名、文件大小、文件修改时间、文件数据在存储介质服务器备份集中的偏移地址、文件数据在存储介质服务器备份集中的长度、备份时间点。
3.根据权利要求1所述的一种海量文件快速合成备份方法,其特征是:所述触发方式包括定时触发方式和人为触发方式。
4.根据权利要求1所述的一种海量文件快速合成备份方法,其特征是:所述最新备份链为最近一次完全或合成备份到当前时间期间的所有最新未过期备份记录集合。
5.根据权利要求1所述的一种海量文件快速合成备份方法,其特征是:所述时间戳索引表以当前时间生成备份时间戳,并以备份时间戳命名。
6.根据权利要求1所述的一种海量文件快速合成备份方法,其特征是:所述文件数据在存储介质服务器备份集中信息包括文件数据在存储介质服务器备份集中的偏移地址、文件数据在存储介质服务器备份集中的长度。
CN201711019105.1A 2017-10-26 2017-10-26 一种海量文件快速合成备份方法 Pending CN107783863A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711019105.1A CN107783863A (zh) 2017-10-26 2017-10-26 一种海量文件快速合成备份方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711019105.1A CN107783863A (zh) 2017-10-26 2017-10-26 一种海量文件快速合成备份方法

Publications (1)

Publication Number Publication Date
CN107783863A true CN107783863A (zh) 2018-03-09

Family

ID=61435408

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711019105.1A Pending CN107783863A (zh) 2017-10-26 2017-10-26 一种海量文件快速合成备份方法

Country Status (1)

Country Link
CN (1) CN107783863A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271461A (zh) * 2018-09-30 2019-01-25 广州鼎甲计算机科技有限公司 SQL Server数据库的增量合成备份方法和装置
CN111290882A (zh) * 2020-02-11 2020-06-16 北京松果电子有限公司 数据文件备份方法、数据文件备份装置及电子设备
CN113722152A (zh) * 2021-08-05 2021-11-30 四川大学 一种数据增量备份方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101149694A (zh) * 2007-11-02 2008-03-26 西安三茗科技有限责任公司 基于块级的增量备份和整卷恢复的方法
CN102955861A (zh) * 2012-11-30 2013-03-06 华为技术有限公司 一种基于备份文件的索引文件生成方法和装置
US9558077B1 (en) * 2016-06-16 2017-01-31 International Business Machines Corporation Relational database recovery
CN107229538A (zh) * 2017-05-31 2017-10-03 广州鼎甲计算机科技有限公司 一种文件合成备份的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101149694A (zh) * 2007-11-02 2008-03-26 西安三茗科技有限责任公司 基于块级的增量备份和整卷恢复的方法
CN102955861A (zh) * 2012-11-30 2013-03-06 华为技术有限公司 一种基于备份文件的索引文件生成方法和装置
US9558077B1 (en) * 2016-06-16 2017-01-31 International Business Machines Corporation Relational database recovery
CN107229538A (zh) * 2017-05-31 2017-10-03 广州鼎甲计算机科技有限公司 一种文件合成备份的方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271461A (zh) * 2018-09-30 2019-01-25 广州鼎甲计算机科技有限公司 SQL Server数据库的增量合成备份方法和装置
CN111290882A (zh) * 2020-02-11 2020-06-16 北京松果电子有限公司 数据文件备份方法、数据文件备份装置及电子设备
CN111290882B (zh) * 2020-02-11 2024-02-09 北京小米松果电子有限公司 数据文件备份方法、数据文件备份装置及电子设备
CN113722152A (zh) * 2021-08-05 2021-11-30 四川大学 一种数据增量备份方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
US9141630B2 (en) Fat directory structure for use in transaction safe file system
CN102591982B (zh) 执行增量sql服务器数据库备份的方法和系统
CN102508835B (zh) 基于日志管理包的增量数据实时同步装置和方法
US7917472B2 (en) Method, system and computer-readable media for backing up information contained in a database
US7197520B1 (en) Two-tier backup mechanism
CN100583050C (zh) 基于时间戳日志存储的连续数据保护和恢复方法
CN102521269B (zh) 一种基于索引的计算机连续数据保护方法
CN102750317B (zh) 数据持久化处理方法、装置及数据库系统
CN107783863A (zh) 一种海量文件快速合成备份方法
EP1952283A2 (en) Apparatus and method for creating a real time database replica
CN101697169A (zh) 源数据库和目的数据库之间数据同步的方法、装置及系统
CN107544873A (zh) 一种存放备份数据的备份系统和方法
CN102609337A (zh) 一种内存数据库快速数据恢复方法
CN101944114A (zh) 内存数据库和物理数据库间的数据同步方法
CN105843702A (zh) 一种用于数据备份的方法以及装置
JP2006268829A (ja) ストレージシステム間でオブジェクトをミラー化する方法と装置
CN105988723A (zh) 一种快照处理方法及装置
CN103412803A (zh) 数据恢复的方法及装置
CN102541691B (zh) 面向内存数据库oltp应用的日志检查点恢复方法
CN102541757A (zh) 写缓存方法、缓存同步方法和装置
CN102033930A (zh) 分布式内存数据库系统
CN105447168B (zh) Mp4格式的碎片文件恢复与重组的方法
CN102467525A (zh) 单据关联方法及系统
CN104461773A (zh) 一种虚拟机备份去重的方法
CN103106200A (zh) 非关系型数据库同步系统及双写同步方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 210014 Building B, Building C, Building 3, No. 5 Yongzhi Road, Baixia High-tech Industrial Park, Nanjing, Jiangsu Province

Applicant after: Nanjing Yicheng Information Technology Co., Ltd.

Address before: 210014 Building B, Building C, Building 3, No. 5 Yongzhi Road, Baixia High-tech Industrial Park, Nanjing, Jiangsu Province

Applicant before: Nanjing basic information technology Limited by Share Ltd

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180309