CN117435403B - 永久增备中处理索引合并方法、系统及无效数据处理方法 - Google Patents

永久增备中处理索引合并方法、系统及无效数据处理方法 Download PDF

Info

Publication number
CN117435403B
CN117435403B CN202311763600.9A CN202311763600A CN117435403B CN 117435403 B CN117435403 B CN 117435403B CN 202311763600 A CN202311763600 A CN 202311763600A CN 117435403 B CN117435403 B CN 117435403B
Authority
CN
China
Prior art keywords
data
file
slice
index
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311763600.9A
Other languages
English (en)
Other versions
CN117435403A (zh
Inventor
谢俊峰
赵文辉
许丛林
黄传波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Vinchin Science And Technology Co
Original Assignee
Chengdu Vinchin Science And Technology Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Vinchin Science And Technology Co filed Critical Chengdu Vinchin Science And Technology Co
Priority to CN202311763600.9A priority Critical patent/CN117435403B/zh
Publication of CN117435403A publication Critical patent/CN117435403A/zh
Application granted granted Critical
Publication of CN117435403B publication Critical patent/CN117435403B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种永久增备中处理索引合并方法、系统及无效数据处理方法,属于数据备份与恢复领域。所述方法,包括步骤:创建切片文件步骤;创建索引文件步骤;创建切片文件地图步骤;判断处理步骤。所述系统,包括:创建切片文件模块;创建索引文件模块;创建切片文件地图模块;判断处理模块。发生数据合并时,本技术方案仅需要处理目标索引文件,不需要再处理整条备份链上目标时间点后的其他索引文件,有效节省了计算和存储资源。

Description

永久增备中处理索引合并方法、系统及无效数据处理方法
技术领域
本发明属于数据备份与恢复领域,涉及一种永久增备中处理索引合并方法、系统及无效数据处理方法。
背景技术
在数据备份和恢复领域,永久增量备份和增量备份是常用的技术手段,用于有效管理和保护大量数据。永久增量备份是一种备份策略,它在初始完整备份之后,只备份源数据中发生更改的部分,以减少备份存储空间和备份时间。这种备份方式创建了一个备份链,其中每个时间点都包含了一系列增量备份的信息。
备份链的维护包括合并数据块和合并索引的操作,其中在备份链的某个特定时间点上进行数据块合并和索引合并。数据块合并释放了数据存储量,索引合并提高备份链在恢复时的效率和可靠性。但是,在备份链上合并索引后,需要更新整条备份链上的其他时间点索引,这种更新操作需要大量的计算和存储资源,并对系统性能产生了负面影响。目前尚无现有技术可以有效解决这个技术问题。
因此,如何在合并数据块的时间点,仅更新当前时间点的索引,不更新整条备份链上的其他时间时间点索引,是当前需解决的重要技术问题。
发明内容
本发明为了解决上述背景技术中的技术问题,提供一种永久增备中处理索引合并方法、系统及无效数据处理方法。
本发明解决上述技术问题的技术方案如下:
第一个方面,提供了一种永久增备中处理索引合并方法,所述方法,包括步骤:
创建切片文件步骤,按时间点依次将备份数据进行切片处理,并创建若干切片文件用于储存所形成的切片数据;
创建索引文件步骤,按时间点依次创建若干索引文件,索引文件与备份链上的磁盘一一对应,索引文件根据磁盘数据块大小生成对应的索引列表,索引列表记录每个数据块的元素包括:数据块有效数据情况标识、数据块数据存在于当前时间点情况标识、数据块偏移、数据块长度和数据块数据所在切片文件位置;
创建切片文件地图步骤,为每个切片文件创建切片文件地图,每个切片文件地图结构包括该切片文件内各切片数据的有效数据大小和各切片数据关联的索引文件;
判断处理步骤,获取合并处理时间点Tn,在当前备份链上获得时间点Tn时的目标索引文件Bn和时间点Tn下一时间点的目标索引文件Bn+1,根据目标索引文件Bn+1中目标数据块有效数据情况标识和目标数据块数据存在于当前时间点情况标识,判断合并后使用目标索引文件Bn或合并后使用目标索引文件Bn+1,同时更新该合并索引文件关联切片文件的切片文件地图。
在其中一个实施例中,所述创建切片文件步骤,还包括:
获取备份数据M0步骤,获取时间点T0,再获取时间点T0时的备份数据M0
创建初始切片文件步骤,将备份数据M0进行切片处理,并创建初始切片文件用于储存备份数据M0所形成的切片数据,所述初始切片文件预设有储存阈值;
获取备份数据M1步骤,获取时间点T1,再获取时间点T1时的备份数据M1
处理备份数据M1步骤,将备份数据M1进行切片处理;
判断存入切片数据步骤,判断初始切片文件的总数据量在存入备份数据M1所形成的切片数据后是否小于储存阈值,若是,将备份数据M1所形成的切片数据存入初始切片文件;若否,创建第二切片文件用于储存备份数据M1所形成的切片数据,所述第二切片文件预设有储存阈值;
第一重复步骤,重复获取备份数据M1步骤至判断存入切片数据步骤,依次生成全部时间点的切片文件。
在其中一个实施例中,在所述创建初始切片文件步骤和所述判断存入切片数据步骤中,所述储存阈值为切片文件存储上限的50%-80%,且所述储存阈值大于等于备份数据M0的数据量。
在其中一个实施例中,所述创建索引文件步骤,还包括:
创建快照步骤,获取时间点T0,创建时间点T0时的磁盘D0快照,生成一份全量数据文件;
创建索引文件B0步骤,创建磁盘D0的索引文件B0,索引文件B0根据磁盘D0的数据块大小生成对应的索引列表,索引列表记录每个数据块的元素包括:数据块有效数据情况标识、数据块数据存在于当前时间点情况标识、数据块偏移、数据块长度和数据块数据所在切片文件位置;
生成增量数据文件步骤,获取时间点T1,生成时间点T1时的与全量数据文件形成依赖关系的增量数据文件;
生成索引文件B1步骤,拷贝索引文件B0,再遍历时间点T1时的磁盘D1后,结合索引文件B0生成索引文件B1,索引文件B1中索引列表得到更新;
第二重复步骤,重复生成增量数据文件步骤和生成索引文件B1步骤,依次生成全部时间点的索引文件。
在其中一个实施例中,所述判断处理步骤,还包括:
获取目标索引文件步骤,获取合并索引时间点Tn,在当前备份链上获得时间点Tn时的目标索引文件Bn和时间点Tn下一时间点的目标索引文件Bn+1
判断合并处理步骤,获取目标索引文件Bn+1中目标数据块有效数据情况标识和目标数据块数据存在于当前时间点情况标识,再根据两种情况标识判断,若目标数据块不存在有效数据,或者目标数据块存在有效数据但数据块数据不存在于当前时间点,则判断合并后使用目标索引文件Bn;若目标数据块存在有效数据且目标数据块数据存在于当前时间点,则合并后使用目标索引文件Bn+1
更新切片文件地图步骤,用于更新该合并索引文件所关联切片文件的切片文件地图。
第二个方面,提供了一种永久增备中处理索引合并的系统,所述系统,包括:
创建切片文件模块,用于按时间点依次将备份数据进行切片处理,并创建若干切片文件用于储存所形成的切片数据;
创建索引文件模块,用于按时间点依次创建若干索引文件,索引文件与备份链上的磁盘一一对应,索引文件根据磁盘数据块大小生成对应的索引列表,索引列表记录每个数据块的元素包括:数据块有效数据情况标识、数据块数据存在于当前时间点情况标识、数据块偏移、数据块长度和数据块数据所在切片文件位置;
创建切片文件地图模块,用于为每个切片文件创建切片文件地图,每个切片文件地图结构包括该切片文件内各切片数据的有效数据大小和各切片数据关联的索引文件;
判断处理模块,用于获取合并处理时间点Tn,在当前备份链上获得时间点Tn时的目标索引文件Bn和时间点Tn下一时间点的目标索引文件Bn+1,根据目标索引文件Bn+1中目标数据块有效数据情况标识和目标数据块数据存在于当前时间点情况标识,判断合并后使用目标索引文件Bn或合并后使用目标索引文件Bn+1,同时更新该合并索引文件关联切片文件的切片文件地图。
在其中一个实施例中,所述创建切片文件模块,还包括:
获取备份数据M0单元,用于获取时间点T0,再获取时间点T0时的备份数据M0
创建初始切片文件单元,用于将备份数据M0进行切片处理,并创建初始切片文件用于储存备份数据M0所形成的切片数据,所述初始切片文件预设有储存阈值;
获取备份数据M1单元,用于获取时间点T1,再获取时间点T1时的备份数据M1
处理备份数据M1步骤,将备份数据M1进行切片处理;
判断存入切片数据单元,用于判断初始切片文件的总数据量在存入备份数据M1所形成的切片数据后是否小于储存阈值,若是,将备份数据M1所形成的切片数据存入初始切片文件;若否,创建第二切片文件用于储存备份数据M1所形成的切片数据,所述第二切片文件预设有储存阈值;
第一重复单元,用于重复获取备份数据M1单元至判断存入切片数据单元,依次生成全部时间点的切片文件。
在其中一个实施例中,所述创建索引文件模块,还包括:
创建快照单元,用于获取时间点T0,创建时间点T0时的磁盘D0快照,生成一份全量数据文件;
创建索引文件B0单元,用于创建磁盘D0的索引文件B0,索引文件B0根据磁盘D0的数据块大小生成对应的索引列表,索引列表记录每个数据块的元素包括:数据块有效数据情况标识、数据块数据存在于当前时间点情况标识、数据块偏移、数据块长度和数据块数据所在切片文件位置;
生成增量数据文件单元,用于获取时间点T1,生成时间点T1时的与全量数据文件形成依赖关系的增量数据文件;
生成索引文件B1单元,用于拷贝索引文件B0,再遍历时间点T1时的磁盘D1后,结合索引文件B0生成索引文件B1,索引文件B1中索引列表得到更新;
第二重复单元,用于重复生成增量数据文件单元和生成索引文件B1单元,依次生成全部时间点的索引文件。
所述判断处理模块,还包括:
获取目标索引文件单元,用于获取合并索引时间点Tn,在当前备份链上获得时间点Tn的目标索引文件Bn和时间点Tn下一时间点的目标索引文件Bn+1
判断合并处理单元,用于获取目标索引文件Bn+1中目标数据块有效数据情况标识和目标数据块数据存在于当前时间点情况标识,再根据两种情况标识判断,若目标数据块不存在有效数据,或者目标数据块存在有效数据但数据块数据不存在于当前时间点,则判断合并后使用目标索引文件Bn;若目标数据块存在有效数据且目标数据块数据存在于当前时间点,则合并后使用目标索引文件Bn+1
更新切片文件地图单元,用于更新该合并索引文件所关联切片文件的切片文件地图。
第三个方面,提供了一种增量备份中无效数据处理方法,利用上述永久增备中处理索引合并方法,还包括步骤:
更新有效数据步骤,当索引合并发生后,获得切片文件合并时间点Tg,通过遍历时间点Tg时的目标索引文件Bg解析出目标索引文件Bg关联的全部关联目标切片文件,再在各关联目标切片文件的切片文件地图中计算更新各切片数据的有效数据;
判断基础目标切片文件存在步骤,判断更新后的各关联目标切片文件中是否存在切片有效数据值小于合并下限值的基础目标切片文件,若是,进行判断合并切片文件步骤;若否,结束任务;
判断合并切片文件步骤,遍历合并时间点Tg时的全部切片文件地图,判断是否存在与基础目标切片文件组合后切片有效数据累加值小于合并上限值的合并目标切片文件,若存在,将合并目标切片文件与基础目标切片文件合并,并更新合并后切片文件对应的索引文件;若不存在,结束任务。
本发明的有益效果是:
(1)本发明中,由于切片文件和切片文件地图的设置,备份链上的索引文件之间不再是依赖关系,发生数据合并时,仅需要处理索引文件Bn和索引文件Bn+1,不需要再处理整条备份链上目标时间点后的其他索引文件,有效节省了计算和存储资源;
(2)本发明通过索引文件、切片文件和切片文件地图,在发生数据合并后,可以准确找到没有被引用的数据块,为处理无效数据奠定了基础;
(3)本发明不需要周期性地执行完全备份,一条备份链即可还原完整数据,这样不仅能够提高备份效率,也有助于减少备份存储空间。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明 的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1中永久增备中处理索引合并方法的流程示意图。
图2为本发明实施例1中处理结构布置情况图。
图3为本发明实施例2中永久增备中处理索引合并的系统结构示意图。
图4为本发明实施例2中创建切片文件模块结构示意图。
图5为本发明实施例2中创建索引文件模块结构示意图。
图6为本发明实施例2中判断处理模块结构示意图。
图7为本发明实施例3中增量备份中无效数据处理方法的流程示意图。
附图中,各标号所代表的部件列表如下:
2001、创建切片文件模块;2002、创建索引文件模块;2003、创建切片文件地图模块;2004、判断处理模块;20011、获取备份数据M0单元;20012、创建初始切片文件单元;20013、获取备份数据M1单元;20014、处理备份数据M1单元;20015、判断存入切片数据单元;20016、第一重复单元;20021、创建快照单元;20022、创建索引文件B0单元;20023、生成增量数据文件单元;20024、生成索引文件B1单元;20025、第二重复单元;20041、获取目标索引文件单元;20042、判断合并处理单元;20043、更新切片文件地图单元。
实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1
在本实施例中,如图1所示,提供一种永久增备中处理索引合并方法,该方法包括:
S101.按时间点依次将备份数据进行切片处理,并创建若干切片文件用于储存所形成的切片数据。
进一步的,所述步骤S101,还包括:
S1011.获取时间点T0,再获取时间点T0时的备份数据M0
S1012.将备份数据M0进行切片处理,并创建初始切片文件用于储存备份数据M0所形成的切片数据,所述初始切片文件预设有储存阈值;
S1013.获取时间点T1,再获取时间点T1时的备份数据M1
S1014.将备份数据M1进行切片处理;
S1015.判断初始切片文件的总数据量在存入备份数据M1所形成的切片数据后是否小于储存阈值,若是,将备份数据M1所形成的切片数据存入初始切片文件;若否,创建第二切片文件用于储存备份数据M1所形成的切片数据,所述第二切片文件预设有储存阈值;
S1016.重复步骤S1013至步骤S1015,依次生成全部时间点的切片文件。
更进一步的,在步骤S1012和步骤S1015中,所述储存阈值为切片文件存储上限的50%-80%,且所述储存阈值大于等于备份数据M0的数据量。具体的,在本实施例中,切片文件的存储上限为1GB,切片文件的储存阈值为600M。一般来说,切片文件的储存阈值不宜设置太大,太大会影响处理速度。
S102.按时间点依次创建若干索引文件,索引文件与备份链上的磁盘一一对应,索引文件根据磁盘数据块大小生成对应的索引列表,索引列表记录每个数据块的元素包括:数据块有效数据情况标识、数据块数据存在于当前时间点情况标识、数据块偏移、数据块长度和数据块数据所在切片文件位置。
进一步的,所述步骤S102,还包括:
S1021.获取时间点T0,创建时间点T0时的磁盘D0快照,生成一份全量数据文件;
S1022.创建磁盘D0的索引文件B0,索引文件B0根据磁盘D0的数据块大小生成对应的索引列表,索引列表记录每个数据块的元素包括:数据块有效数据情况标识、数据块数据存在于当前时间点情况标识、保留标识、数据块偏移、数据块长度和数据块数据所在切片文件位置;
S1023.获取时间点T1,生成时间点T1时的与全量数据文件形成依赖关系的增量数据文件;
S1024.拷贝索引文件B0,再遍历时间点T1时的磁盘D1后,结合索引文件B0生成索引文件B1,索引文件B1中索引列表得到更新;
S1025.重复步骤S1023和步骤S1024,依次生成全部时间点的索引文件。
为了便于理解,我们进一步解释索引结构中各部分的具体含义:
a.数据块有效数据情况标识:用于表示对应数据块是否为有效数据,一般的,可以用0代表该数据块不存在有效数据;用1则代表该数据块存在有效数据;
b.数据块数据存在于当前时间点情况标识:用于标记对应数据块数据是否存在于当前时间点的数据文件中,数据文件也可以理解为磁盘文件;
c.保留标识:用于表示保留位,可以后续用于重删;
d.数据块偏移:用于表示对应数据块在备份数据文件中的偏移,用于恢复时定位数据块的具体位置;
e.数据块长度:用于表示对应数据块长度;
f.数据块数据所在切片文件位置:用于确定数据块数据所储存在的切片文件位置。
值得说明的是,本实施例索引文件和切片文件的布置方式,一个索引是可以指向多个切片文件的切片数据的,多个索引也可以指向一个切片文件的切片数据。
S103.为每个切片文件创建切片文件地图,每个切片文件地图结构包括该切片文件内各切片数据的有效数据大小和各切片数据关联的索引文件。
S104.获取合并处理时间点Tn,在当前备份链上获得时间点Tn时的目标索引文件Bn和时间点Tn下一时间点的目标索引文件Bn+1,根据目标索引文件Bn+1中目标数据块有效数据情况标识和目标数据块数据存在于当前时间点情况标识,判断合并后使用目标索引文件Bn或合并后使用目标索引文件Bn+1,同时更新该合并索引文件关联切片文件的切片文件地图。
进一步的,所述步骤S104,还包括:
S1041.获取合并处理时间点Tn,并在当前备份链上获得时间点Tn时的目标索引文件Bn和时间点Tn下一时间点的目标索引文件Bn+1
S1042.获取目标索引文件Bn+1中目标数据块有效数据情况标识和目标数据块数据存在于当前时间点情况标识,再根据两种情况标识判断,若目标数据块不存在有效数据,或者目标数据块存在有效数据但数据块数据不存在于当前时间点,则判断合并后使用目标索引文件Bn;若目标数据块存在有效数据且目标数据块数据存在于当前时间点,则合并后使用目标索引文件Bn+1
S1043.更新该合并索引文件关联切片文件的切片文件地图。
可以理解的是,“该合并索引文件”应该理解为合并后的索引文件。
在步骤S1042的实现过程中,若目标索引文件Bn+1中目标数据块没有数据,该情况下,在合并后可以按照目标索引文件Bn直接使用。
若目标索引文件Bn+1中目标数据块没有数据,但目标数据块数据不存在于当前时间点,说明目标数据块在备份链上有数据的,只是不在时间点Tn+1,目标索引文件Bn+1是依赖目标索引文件Bn或时间点更早的索引文件,该情况合并后也可以按照目标索引文件Bn直接使用。
若目标索引文件Bn+1中目标数据块有数据且就在时间点Tn+1,该情况合并后也可以按照目标索引文件Bn+1直接使用,即将目标索引文件Bn+1覆盖目标索引文件Bn
为了便于理解本实施例处理结构布置情况,下面我们提供一个示例进行说明,具体如下:
如图2所示,由于备份链通常由一个完全备份和多个增量备份组成,即存在多个时间点,因此我们示例中生成的备份链上有T0时刻的完全备份点,T1时刻的增量备份点,T2时刻的增量备份点。
在T0时刻,索引文件B0具有0、1、2、3四个索引(也即表示索引0、索引1、索引2、索引3分别对应有四个数据块)。索引1指向切片数据B,索引2指向切片数据C,索引3指向切片数据D,其中索引0没有指向,则说明该时间点数据块不存在有效数据。
在T1时刻,T1时刻索引文件B1的索引1变为索引1’(也即表示索引1对应数据块有变化);其中索引1’指向切片数据B’,切片数据B’在初始切片文件中,则说明了存储切片数据B’后没有超过初始切片文件的存储阈值。
在T2时刻,T2时刻索引文件B2的索引3变为索引3’(也即表示索引3对应数据块有变化);其中索引3’指向切片数据D’,切片数据D’在第二切片文件中,则说明了存储切片数据D’后超过初始切片文件的存储阈值,故创建第二切片文件存储切片数据D’。
本实施例的技术方案,由于切片文件和切片文件地图的设置,备份链上的索引文件之间不再是依赖关系,发生数据合并时,仅需要处理索引文件Bn和索引文件Bn+1,不需要处理整条备份链上的其他时间点索引文件,节省了计算和存储资源。通过索引文件、切片文件和切片文件地图,在发生数据合并后,还可以准确找到没有被引用的数据块,为处理无效数据奠定了基础。
实施例2
如图3所示,在一个实施例中,提供了一种永久增备中处理索引合并的系统,该系统包括:
2001、 创建切片文件模块,用于按时间点依次将备份数据进行切片处理,并创建若干切片文件用于储存所形成的切片数据;
2002、创建索引文件模块,用于按时间点依次创建若干索引文件,索引文件与备份链上的磁盘一一对应,索引文件根据磁盘数据块大小生成对应的索引列表,索引列表记录每个数据块的元素包括:数据块有效数据情况标识、数据块数据存在于当前时间点情况标识、数据块偏移、数据块长度和数据块数据所在切片文件位置;
2003、创建切片文件地图模块,用于为每个切片文件创建切片文件地图,每个切片文件地图结构包括该切片文件内各切片数据的有效数据大小和各切片数据关联的索引文件;
2004、判断处理模块,用于获取合并处理时间点Tn,在当前备份链上获得时间点Tn时的目标索引文件Bn和时间点Tn下一时间点的目标索引文件Bn+1,根据目标索引文件Bn+1中目标数据块有效数据情况标识和目标数据块数据存在于当前时间点情况标识,判断合并后使用目标索引文件Bn或合并后使用目标索引文件Bn+1,同时更新该合并索引文件关联切片文件的切片文件地图。
其中,如图4所示,所述2001创建切片文件模块,还包括:
20011、获取备份数据M0单元,用于获取时间点T0,再获取时间点T0时的备份数据M0
20012、创建初始切片文件单元,用于将备份数据M0进行切片处理,并创建初始切片文件用于储存备份数据M0所形成的切片数据,所述初始切片文件预设有储存阈值;
20013、获取备份数据M1单元,用于获取时间点T1,再获取时间点T1时的备份数据M1
20014、处理备份数据M1单元,用于将备份数据M1进行切片处理;
20015、判断存入切片数据单元,用于判断初始切片文件的总数据量在存入备份数据M1所形成的切片数据后是否小于储存阈值,若是,将备份数据M1所形成的切片数据存入初始切片文件;若否,创建第二切片文件用于储存备份数据M1所形成的切片数据,所述第二切片文件预设有储存阈值;
20016、 第一重复单元,用于重复20013获取备份数据M1单元至20015判断存入切片数据单元,依次生成全部时间点的切片文件。
其中,如图5所示,所述2002创建索引文件模块,还包括:
20021、创建快照单元,用于获取时间点T0,创建时间点T0时的磁盘D0快照,生成一份全量数据文件;
20022、创建索引文件B0单元,用于创建时间点T0时磁盘D0的索引文件B0,索引文件B0根据磁盘D0的数据块大小生成对应的索引列表,索引列表记录每个数据块的元素包括:数据块有效数据情况标识、数据块数据存在于当前时间点情况标识、数据块偏移、数据块长度和数据块数据所在切片文件位置;
20023、 生成增量数据文件单元,用于获取时间点T1,生成时间点T1时的与全量数据文件形成依赖关系的增量数据文件;
20024、生成索引文件B1单元,用于拷贝索引文件B0,再遍历时间点T1时的磁盘D1后,结合索引文件B0生成索引文件B1,索引文件B1中索引列表得到更新;
20025、第二重复单元,用于重复20023生成增量数据文件单元和20024生成索引文件B1单元,依次生成全部时间点的索引文件。
其中,如图6所示,所述2004判断处理模块,还包括:
20041、获取目标索引文件单元,用于获取合并索引时间点Tn,在当前备份链上获得时间点Tn的目标索引文件Bn和时间点Tn下一时间点的目标索引文件Bn+1
20042、判断合并处理单元,用于获取目标索引文件Bn+1中目标数据块有效数据情况标识和目标数据块数据存在于当前时间点情况标识,若目标数据块不存在有效数据,或者目标数据块存在有效数据但数据块数据不存在于当前时间点,则判断合并后使用目标索引文件Bn;若目标数据块存在有效数据且目标数据块数据存在于当前时间点,则合并后使用目标索引文件Bn+1
20043、更新切片文件地图单元,用于更新该合并索引文件所关联切片文件的切片文件地图。
本实施例的技术方案,2001创建切片文件模块,用于按时间点依次将备份数据进行切片处理,并创建若干切片文件用于储存所形成的切片数据;2002创建索引文件模块,用于按时间点依次创建若干索引文件,索引文件与备份链上的磁盘一一对应,索引文件根据磁盘数据块大小生成对应的索引列表;2003创建切片文件地图模块,用于为每个切片文件创建切片文件地图,每个切片文件地图结构包括该切片文件内各切片数据的有效数据大小和各切片数据关联的索引文件;2004判断处理模块,用于获取合并处理时间点Tn,在当前备份链上获得目标索引文件Bn和时间点Tn下一时间点的目标索引文件Bn+1,根据目标索引文件Bn+1中目标数据块有效数据情况标识和目标数据块数据存在于当前时间点情况标识,判断合并后使用目标索引文件Bn或合并后使用目标索引文件Bn+1,同时更新该合并索引文件关联切片文件的切片文件地图。本技术方案不需要周期性地执行完全备份,一条备份链即可还原完整数据,这样不仅能够提高备份效率,也有助于减少备份存储空间。
实施例3
在本实施例中,如图7所示,提供一种增量备份中无效数据处理方法,利用实施例1所述永久增备中处理索引合并方法,还包括步骤:
S301.按时间点依次将备份数据进行切片处理,并创建若干切片文件用于储存所形成的切片数据;
S302.按时间点依次创建若干索引文件,索引文件与备份链上的磁盘一一对应,索引文件根据磁盘数据块大小生成对应的索引列表,索引列表记录每个数据块的元素包括:数据块有效数据情况标识、数据块数据存在于当前时间点情况标识、数据块偏移、数据块长度和数据块数据所在切片文件位置;
S303.为每个切片文件创建切片文件地图,每个切片文件地图结构包括该切片文件内各切片数据的有效数据大小和各切片数据关联的索引文件;
S304.获取合并处理时间点Tn,在当前备份链上获得时间点Tn时的目标索引文件Bn和时间点Tn下一时间点的目标索引文件Bn+1,根据目标索引文件Bn+1中目标数据块有效数据情况标识和目标数据块数据存在于当前时间点情况标识,判断合并后使用目标索引文件Bn或合并后使用目标索引文件Bn+1,同时更新该合并索引文件关联切片文件的切片文件地图;
S305.当索引合并发生后,获得切片文件合并时间点Tg,通过遍历时间点Tg时的目标索引文件Bg,解析出目标索引文件Bg关联的全部关联目标切片文件,再在各关联目标切片文件的切片文件地图中计算更新各切片数据的有效数据;
S306.判断更新后的各关联目标切片文件中是否存在切片有效数据值小于合并下限值的基础目标切片文件,若是,进行步骤S307;若否,结束任务;
S307.遍历合并时间点Tg的全部切片文件地图,判断是否存在与基础目标切片文件组合后切片有效数据累加值小于合并上限值的合并目标切片文件,若存在,将合并目标切片文件与基础目标切片文件合并,并更新合并后切片文件对应的索引文件;若不存在,结束任务。
可以理解的是,储存阈值是根据切片文件存储上限预设的,主要用于帮助管理切片数据的存储,其中需要使用到切片数据的有效数据。合并下限值和合并上限值均是根据合并要求预设的,主要用于帮助实现切片文件的合并,其中需要使用到切片有效数据。
值得说明的是 ,在将合并目标切片文件 与基础目标切片文件的合并选择中,可以采用到01背包算法。
本实施例的技术方案,解决了合并索引后,存在无效过期数据,导致储存空间不足的技术问题。该方案通过遍历目标索引文件可以解析出全部目标切片文件,并结合切片文件地图更新切片文件有效数据和查询到其他切片文件,这样可以在对其他时间点的索引不产生影响的条件下,完成切片文件合并,实现无效过期数据的回收。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++、Ruby、Go,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种永久增备中处理索引合并方法,其特征在于,所述方法,包括步骤:
创建切片文件步骤,按时间点依次将备份数据进行切片处理,并创建若干切片文件用于储存所形成的切片数据;
创建索引文件步骤,按时间点依次创建若干索引文件,索引文件与备份链上的磁盘一一对应,索引文件根据磁盘数据块大小生成对应的索引列表,索引列表记录每个数据块的元素包括:数据块有效数据情况标识、数据块数据存在于当前时间点情况标识、数据块偏移、数据块长度和数据块数据所在切片文件位置;
创建切片文件地图步骤,为每个切片文件创建切片文件地图,每个切片文件地图结构包括该切片文件内各切片数据的有效数据大小和各切片数据关联的索引文件;
判断处理步骤,获取合并处理时间点Tn,在当前备份链上获得时间点Tn时的目标索引文件Bn和时间点Tn下一时间点时的目标索引文件Bn+1,根据目标索引文件Bn+1中目标数据块有效数据情况标识和目标数据块数据存在于当前时间点情况标识,判断合并后使用目标索引文件Bn或合并后使用目标索引文件Bn+1,同时更新该合并索引文件关联切片文件的切片文件地图;
其中,所述创建切片文件步骤,包括:
获取备份数据M0步骤,获取时间点T0,再获取时间点T0时的备份数据M0
创建初始切片文件步骤,将备份数据M0进行切片处理,并创建初始切片文件用于储存备份数据M0所形成的切片数据,所述初始切片文件预设有储存阈值;
获取备份数据M1步骤,获取时间点T1,再获取时间点T1时的备份数据M1
处理备份数据M1步骤,将备份数据M1进行切片处理;
判断存入切片数据步骤,判断初始切片文件的总数据量在存入备份数据M1所形成的切片数据后是否小于储存阈值,若是,将备份数据M1所形成的切片数据存入初始切片文件;若否,创建第二切片文件用于储存备份数据M1所形成的切片数据,所述第二切片文件预设有储存阈值;
第一重复步骤,重复获取备份数据M1步骤至判断存入切片数据步骤,依次生成全部时间点的切片文件。
2.根据权利要求1所述的永久增备中处理索引合并方法,其特征在于,在所述创建初始切片文件步骤和所述判断存入切片数据步骤中,所述储存阈值为切片文件存储上限的50%-80%,且所述储存阈值大于等于备份数据M0的数据量。
3.根据权利要求1所述的永久增备中处理索引合并方法,其特征在于,所述创建索引文件步骤,还包括:
创建快照步骤,获取时间点T0,创建时间点T0时的磁盘D0快照,生成一份全量数据文件;
创建索引文件B0步骤,创建时间点T0时磁盘D0的索引文件B0,索引文件B0根据磁盘D0的数据块大小生成对应的索引列表,索引列表记录每个数据块的元素包括:数据块有效数据情况标识、数据块数据存在于当前时间点情况标识、数据块偏移、数据块长度和数据块数据所在切片文件位置;
生成增量数据文件步骤,获取时间点T1,生成时间点T1时的与全量数据文件形成依赖关系的增量数据文件;
生成索引文件B1步骤,拷贝索引文件B0,再遍历时间点T1时的磁盘D1后,结合索引文件B0生成索引文件B1,索引文件B1中索引列表得到更新;
第二重复步骤,重复生成增量数据文件步骤和生成索引文件B1步骤,依次生成全部时间点的索引文件。
4.根据权利要求1所述的永久增备中处理索引合并方法,其特征在于,所述判断处理步骤,还包括:
获取目标索引文件步骤,获取合并索引时间点Tn,在当前备份链上获得时间点Tn时的目标索引文件Bn和时间点Tn下一时间点时的目标索引文件Bn+1
判断合并处理步骤,获取目标索引文件Bn+1中目标数据块有效数据情况标识和目标数据块数据存在于当前时间点情况标识,再根据两种情况标识判断,若目标数据块不存在有效数据,或者目标数据块存在有效数据但数据块数据不存在于当前时间点,则判断合并后使用目标索引文件Bn;若目标数据块存在有效数据且目标数据块数据存在于当前时间点,则合并后使用目标索引文件Bn+1
更新切片文件地图步骤,更新该合并索引文件所关联切片文件的切片文件地图。
5.一种永久增备中处理索引合并的系统,其特征在于,所述系统,包括:
创建切片文件模块,用于按时间点依次将备份数据进行切片处理,并创建若干切片文件用于储存所形成的切片数据;
创建索引文件模块,用于按时间点依次创建若干索引文件,索引文件与备份链上的磁盘一一对应,索引文件根据磁盘数据块大小生成对应的索引列表,索引列表记录每个数据块的元素包括:数据块有效数据情况标识、数据块数据存在于当前时间点情况标识、数据块偏移、数据块长度和数据块数据所在切片文件位置;
创建切片文件地图模块,用于为每个切片文件创建切片文件地图,每个切片文件地图结构包括该切片文件内各切片数据的有效数据大小和各切片数据关联的索引文件;
判断处理模块,用于获取合并处理时间点Tn,在当前备份链上获得时间点Tn时的目标索引文件Bn和时间点Tn下一时间点时的目标索引文件Bn+1,根据目标索引文件Bn+1中目标数据块有效数据情况标识和目标数据块数据存在于当前时间点情况标识,判断合并后使用目标索引文件Bn或合并后使用目标索引文件Bn+1,同时更新该合并索引文件关联切片文件的切片文件地图;
其中,所述创建切片文件模块,包括:
获取备份数据M0单元,用于获取时间点T0,再获取时间点T0时的备份数据M0
创建初始切片文件单元,用于将备份数据M0进行切片处理,并创建初始切片文件用于储存备份数据M0所形成的切片数据,所述初始切片文件预设有储存阈值;
获取备份数据M1单元,用于获取时间点T1,再获取时间点T1时的备份数据M1
处理备份数据M1单元,用于将备份数据M1进行切片处理;
判断存入切片数据单元,用于判断初始切片文件的总数据量在存入备份数据M1所形成的切片数据后是否小于储存阈值,若是,将备份数据M1所形成的切片数据存入初始切片文件;若否,创建第二切片文件用于储存备份数据M1所形成的切片数据,所述第二切片文件预设有储存阈值;
第一重复单元,用于重复获取备份数据M1单元至判断存入切片数据单元,依次生成全部时间点的切片文件。
6.根据权利要求5所述的永久增备中处理索引合并的系统,其特征在于,所述创建索引文件模块,还包括:
创建快照单元,用于获取时间点T0,创建时间点T0时的磁盘D0快照,生成一份全量数据文件;
创建索引文件B0单元,用于创建时间点T0时的磁盘D0的索引文件B0,索引文件B0根据磁盘D0的数据块大小生成对应的索引列表,索引列表记录每个数据块的元素包括:数据块有效数据情况标识、数据块数据存在于当前时间点情况标识、数据块偏移、数据块长度和数据块数据所在切片文件位置;
生成增量数据文件单元,用于获取时间点T1,生成时间点T1时的与全量数据文件形成依赖关系的增量数据文件;
生成索引文件B1单元,用于拷贝索引文件B0,再遍历时间点T1时的磁盘D1后,结合索引文件B0生成索引文件B1,索引文件B1中索引列表得到更新;
第二重复单元,用于重复生成增量数据文件单元和生成索引文件B1单元,依次生成全部时间点的索引文件。
7.根据权利要求5所述的永久增备中处理索引合并的系统,其特征在于,所述判断处理模块,还包括:
获取目标索引文件单元,用于获取合并索引时间点Tn,在当前备份链上获得时间点Tn时的目标索引文件Bn和时间点Tn下一时间点时的目标索引文件Bn+1
判断合并处理单元,用于获取目标索引文件Bn+1中目标数据块有效数据情况标识和目标数据块数据存在于当前时间点情况标识,再根据两种情况标识判断,若目标数据块不存在有效数据,或者目标数据块存在有效数据但数据块数据不存在于当前时间点,则判断合并后使用目标索引文件Bn;若目标数据块存在有效数据且目标数据块数据存在于当前时间点,则合并后使用目标索引文件Bn+1
更新切片文件地图单元,用于更新该合并索引文件所关联切片文件的切片文件地图。
8.一种增量备份中无效数据处理方法,其特征在于,利用权利要求1至4任一项所述永久增备中处理索引合并方法,还包括步骤:
更新有效数据步骤,当索引合并发生后,获得切片文件合并时间点Tg,通过遍历时间点Tg时的目标索引文件Bg,解析出与目标索引文件Bg相关的全部关联目标切片文件,再在各关联目标切片文件的切片文件地图中计算更新各切片数据的有效数据;
判断基础目标切片文件存在步骤,判断更新后的各关联目标切片文件中是否存在切片有效数据值小于合并下限值的基础目标切片文件,若是,进行判断合并切片文件步骤;若否,结束任务;
判断合并切片文件步骤,遍历合并时间点Tg时的全部切片文件地图,判断是否存在与基础目标切片文件组合后切片有效数据累加值小于合并上限值的合并目标切片文件,若存在,将合并目标切片文件与基础目标切片文件合并,并更新合并后切片文件对应的索引文件;若不存在,结束任务。
CN202311763600.9A 2023-12-21 2023-12-21 永久增备中处理索引合并方法、系统及无效数据处理方法 Active CN117435403B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311763600.9A CN117435403B (zh) 2023-12-21 2023-12-21 永久增备中处理索引合并方法、系统及无效数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311763600.9A CN117435403B (zh) 2023-12-21 2023-12-21 永久增备中处理索引合并方法、系统及无效数据处理方法

Publications (2)

Publication Number Publication Date
CN117435403A CN117435403A (zh) 2024-01-23
CN117435403B true CN117435403B (zh) 2024-03-12

Family

ID=89558647

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311763600.9A Active CN117435403B (zh) 2023-12-21 2023-12-21 永久增备中处理索引合并方法、系统及无效数据处理方法

Country Status (1)

Country Link
CN (1) CN117435403B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102236586A (zh) * 2010-04-21 2011-11-09 雷州 一种计算机本地及网络多次增量的数据备份、恢复方法
US9251151B1 (en) * 2013-07-02 2016-02-02 Ca, Inc. System and method for merging continuous volume snapshots
CN109426585A (zh) * 2017-08-22 2019-03-05 阿里巴巴集团控股有限公司 一种备份、恢复数据库数据的方法和装置
CN113535482A (zh) * 2021-07-22 2021-10-22 华云数据控股集团有限公司 云备份链数据备份、管理方法及装置、设备、可读介质
CN114461456A (zh) * 2022-04-11 2022-05-10 成都云祺科技有限公司 基于连续写cdp备份方法、系统、存储介质及恢复方法
CN114780298A (zh) * 2022-06-16 2022-07-22 深圳市慧为智能科技股份有限公司 文件数据处理方法、装置、计算机终端及存储介质
CN116204356A (zh) * 2023-01-31 2023-06-02 苏州浪潮智能科技有限公司 基于索引重定向的数据合成方法、装置、设备和存储介质
CN116560914A (zh) * 2023-07-10 2023-08-08 成都云祺科技有限公司 虚拟机cbt失效下的增量备份方法、系统及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102236586A (zh) * 2010-04-21 2011-11-09 雷州 一种计算机本地及网络多次增量的数据备份、恢复方法
US9251151B1 (en) * 2013-07-02 2016-02-02 Ca, Inc. System and method for merging continuous volume snapshots
CN109426585A (zh) * 2017-08-22 2019-03-05 阿里巴巴集团控股有限公司 一种备份、恢复数据库数据的方法和装置
CN113535482A (zh) * 2021-07-22 2021-10-22 华云数据控股集团有限公司 云备份链数据备份、管理方法及装置、设备、可读介质
CN114461456A (zh) * 2022-04-11 2022-05-10 成都云祺科技有限公司 基于连续写cdp备份方法、系统、存储介质及恢复方法
CN114780298A (zh) * 2022-06-16 2022-07-22 深圳市慧为智能科技股份有限公司 文件数据处理方法、装置、计算机终端及存储介质
CN116204356A (zh) * 2023-01-31 2023-06-02 苏州浪潮智能科技有限公司 基于索引重定向的数据合成方法、装置、设备和存储介质
CN116560914A (zh) * 2023-07-10 2023-08-08 成都云祺科技有限公司 虚拟机cbt失效下的增量备份方法、系统及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Design and Implementation of Multi-Version Disk Backup Data Merging Algorithm;Guangjun Wu;《2008 The Ninth International Conference on Web-Age Information Management》;20080812;526-531 *
基于Hadoop的数据备份技术的研究与实现;李超越;《中国优秀硕士学位论文全文数据库 信息科技辑》;20150815;I138-54 *
基于磁盘的数据备份与恢复管理系统的研究;王文珍等;《物探装备》;20071225(第04期);276-279 *
数据远程灾难备份系统的研究与实现;程宇凤;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160315;I138-242 *

Also Published As

Publication number Publication date
CN117435403A (zh) 2024-01-23

Similar Documents

Publication Publication Date Title
US10055216B2 (en) Minimizing image copying during partition updates
US9575983B2 (en) Calculating deduplication digests for a synthetic backup by a deduplication storage system
CN105607960A (zh) 文件系统目录树修复方法和装置
CN104239443B (zh) 一种序列化数据操作日志的存储方法
CN108959359B (zh) 一种统一资源定位符语义去重方法、装置、设备和介质
US11210003B2 (en) Method, device and computer program product for restoring data based on replacing child node identifiers with parent node identifier
CN110618974A (zh) 一种数据存储方法、装置、设备及存储介质
CN104965835B (zh) 一种分布式文件系统的文件读写方法及装置
US11281623B2 (en) Method, device and computer program product for data migration
CN117435403B (zh) 永久增备中处理索引合并方法、系统及无效数据处理方法
CN113468118B (zh) 一种基于区块链的文件增量存储方法、装置及存储介质
CN112579364B (zh) 一种基于qnx6fs文件系统的删除文件深度恢复方法和装置
CN111488117B (zh) 用于管理元数据的方法、电子设备和计算机可读介质
US20200310652A1 (en) Method and system for secure distributed data management of dynamic data
CN117435404B (zh) 永久增量备份数据储存的处理方法、系统及数据恢复方法
US11226739B2 (en) Method, device and computer program product for storage management
CN115048401B (zh) 模拟机管理系统的多区块链数据处理方法、系统及设备
CN111291126B (zh) 数据回收方法、装置、设备及存储介质
CN114691686B (zh) 生成区块状态承诺的方法
US8655929B2 (en) Modification of data within a file
CN108804671B (zh) 物理文件重组的方法和装置
JP5998517B2 (ja) ストレージシステム
US20210117275A1 (en) Method, device and computer readalbe medium for garbage collection
JP6648567B2 (ja) データ更新制御装置、データ更新制御方法、及び、データ更新制御プログラム
CN117171251A (zh) 数据集成方法、介质、装置和计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant