CN111124750A - 一种基于源端重删的数据快速删除方法 - Google Patents

一种基于源端重删的数据快速删除方法 Download PDF

Info

Publication number
CN111124750A
CN111124750A CN201911069232.1A CN201911069232A CN111124750A CN 111124750 A CN111124750 A CN 111124750A CN 201911069232 A CN201911069232 A CN 201911069232A CN 111124750 A CN111124750 A CN 111124750A
Authority
CN
China
Prior art keywords
deleting
data
files
deduplication
backup
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911069232.1A
Other languages
English (en)
Other versions
CN111124750B (zh
Inventor
佟芳
周建华
李晖
秦浩
徐铁军
张文飞
李国栋
王婷
王忠花
马文珍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Qinghai Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Qinghai Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Qinghai Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Qinghai Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Qinghai Electric Power Co Ltd, Information and Telecommunication Branch of State Grid Qinghai Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201911069232.1A priority Critical patent/CN111124750B/zh
Publication of CN111124750A publication Critical patent/CN111124750A/zh
Application granted granted Critical
Publication of CN111124750B publication Critical patent/CN111124750B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/162Delete operations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供的一种基于源端重删的数据快速删除方法,包括删除备份集和清理介质两个步骤,该方法对于数据块引用次数不再使用记录具体每一块的具体次数,由备份集对象记录所引用的数据块存在的数据文件,删除功能使用延迟删除策略,分删除备份集及清理介质两个步骤,简化删除操作提升删除性能,尽可能延长数据块存在重删库中的时间,避免频繁备份删除造成的资源浪费。

Description

一种基于源端重删的数据快速删除方法
技术领域
本发明属于数据重删技术领域,具体涉及一种基于源端重删的数据快速删除方法。
背景技术
备份设备中总是充斥着大量的冗余数据。为了解决这个问题,节省更多空间,重复删除技术便顺理成章地成了人们关注的焦点。采用重复删除技术可以将存储的数据量大幅降低,从而让出更多的备份空间,使得备份数据可以更长久的保留在磁盘上,并且源端重删技术还可以在备份时节约大量的带宽。作为数据保护的备份设备要具备备份、恢复和删除这些基本功能。
重删功能的特点是存放数据的重删库中只保留一份数据块,每份数据块都是不同且唯一的。使用重删功能备份的数据不同于非重删的,非重删的备份集的数据是相互独立的,删除时直接删掉就可以了不会影响到其他备份集的数据。而使用重删功能后,很自然的会出现以下这样的现象:多个备份源执行备份,使用重删功能分块后,有一部分数据是相同的,即重删库里存放的数据块可能被多个备份集引用,根据重删的特点,只保留一份数据供多个备份源来引用。删除功能的一般做法是记录重删库里的每个数据块的引用次数,删除备份集时就把备份集中所用到的每个数据块找到并引用次数减去对应的用到的次数,当引用次数为0的时候表示该块已经不再有备份集用到了,可以彻底删除了。这样的做法有以下不足的地方:首先要记录每个块的索引的次数时,这样的粒度比较细,每次执行备份任务时,无论数据块是不是新块都需要访问数据库(对于新的块要插入新的指纹记录,对于已存在的块要更新它的引用次数),这样会影响备份的性能,即使可能删除操作完实际重删库的空间并没有释放(引用次数不为0就不能真正的清理磁盘上的数据块);其次,在做删除备份集操作时,由于要遍历备份集用到的所有的重删块并调整用到所有块对应的指纹表,这样删除任务就会耗时比较久。因此,现有的删除方案在性能上比较低,并且不适合备份和删除都比较频繁的场景。
发明内容
为了解决现有技术中存在的不足,本发明提供了一种基于源端重删的数据快速删除方法,把数据块的引用次数记录扩大到数据文件,不再记录具体某一个数据块被引用了多少次,而只关心哪些备份集用到了哪些数据文件,删除功能使用延迟删除策略,分删除备份集及清理介质两个步骤,简化删除操作提升删除性能,尽可能延长数据块存在重删库中的时间,避免频繁备份删除造成的资源浪费。
为解决上述问题,本发明具体采用以下技术方案:
一种基于源端重删的数据快速删除方法,其特征在于,包括以下步骤:
步骤1:删除备份集实现初步删除操作;
步骤2:清理介质从而彻底删除不需要的数据块。
前述的一种基于源端重删的数据快速删除方法,其特征在于,步骤1中的删除备份集具体包括以下步骤:
步骤1a:获取备份集下所有的对象;
步骤1b:删除objdb数据库中的对象记录及其objfile文件;
步骤1c:删除dedupdb数据库中的guiddb表中对应的对象记录。
前述的一种基于源端重删的数据快速删除方法,其特征在于,步骤2中的清理介质具体包括以下步骤:
步骤2a:遍历dedupdb数据库中的guiddb表;
步骤2b:汇总所有guiddb表中现有对象用到的dedupfile文件;
步骤2c:将步骤2b汇总出来的文件与filedb中的所有记录对比,记录不再引用的dedupfile文件;
步骤2d:删除fingerdb表中属于不再引用的数据文件的指纹;
步骤2e:删除filedb表中不再引用的数据文件记录及dedupfile文件。
本发明的有益效果:
本发明提供的一种基于源端重删的数据快速删除方法,通过调整删除逻辑可以更高效的执行删除任务,在需要释放空间的时候再集中释放,这种延迟删除的策略可以使得重删库中的数据块尽可能久的存放在重删库中,这样可以使得备份时获得更高的重删率,达到更好的重删效果,同时简化备份过程中的数据库操作,对备份流程也有一定的优化。该种数据快速删除方法,对于数据块引用次数不再使用记录具体每一块的具体次数,由备份集对象记录所引用的数据块存在的数据文件,简化删除操作提升删除性能,尽可能延长数据块存在重删库中的时间,避免频繁备份删除造成的资源浪费。
附图说明
图1是使用了重删功能的备份集在备份设备中的存放结构示意图;
图2是删除备份集的流程图;
图3是清理介质的流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步描述。
如图1所示为使用了重删功能的备份集在备份设备中的存放结构。源数据备份到备份设备上后产生对应的备份集,备份集的数据会存放到如图1所示的两个数据库中,以及两种类型文件中。其中objdb数据库里的guiddb表记录备份集中所有的对象信息,每个对象指向一个objfile文件,对象文件中顺序存放了每个数据块的指纹索引;dedupdb数据库中包含fingerdb表、filedb表、guiddb表,其中fingerdb表是记录重删库所有指纹的指纹表,指纹表里记录块指纹及对应的数据块所在数据文件位置,filedb表是记录数据文件信息的数据文件表,guiddb表是对象表,这个表和objdb数据库里的表不一样,这个表记录该对象引用的数据块存放在哪些数据文件里,数据文件就是存放在磁盘上的dedupfile,每个数据文件大小为1G。
本发明提供的一种基于源端重删的数据快速删除方法,包括删除备份集和清理介质两个步骤,如图2所示,删除备份集的步骤为:
步骤1a:获取备份集下所有的对象;
步骤1b:删除objdb数据库中的对象记录及其objfile文件;
步骤1c:删除dedupdb数据库中的guiddb表中对应的对象记录。
总体上看只删除两个表里的对象记录就可以了。
对应普通的删除操作只执行删除备份集就可以了,此时相当于只是删除了备份集的索引信息,相比较现有的方案,操作的数据量很小,速度很快。在没有迫切需要释放磁盘空间时,那些可能已经不再被引用的数据块继续保存在重删库中。避免删除时数据块刚被删除,然后备份时又作为新块写入重删库这种行为,一般在备份设备中备份任务会隔一定的时间段定时执行,然后根据保留的时间又定时清理,所以这种备份和删除是比较频繁的,这种延时删除的策略有利于数据块的重复利用,降低数据块频繁的被删除后又重新插入这种行为。
如图3所示,清理介质的步骤如下:
步骤2a:遍历dedupdb数据库中的guiddb表;
步骤2b:汇总所有guiddb表中现有对象用到的dedupfile文件;
步骤2c:将步骤2b汇总出来的文件与filedb中的所有记录对比,记录不再引用的dedupfile文件;
步骤2d:删除fingerdb表中属于不再引用的数据文件的指纹;
步骤2e:删除filedb表中不再引用的数据文件记录及dedupfile文件。
这样备份设备中不再被引用的数据文件就被彻底的删除了,同时释放了对应占用的磁盘空间。且清理介质的步骤一般只有在确实需要删除备份设备上的文件,有迫切释放磁盘空间的需求时才去执行。
清理介质的操作可以理解为批量删除,一般在需要执行清理介质时可以先分析下重删库是否确实存在大量的数据文件已经不再被引用了。如果确实存在再去执行清理介质的任务。这样的清理任务是以数据文件为单位的,这种集中处理的方式相比较现有的对每一个数据块指纹都去查询引用次数后再确定是否删除是比较高效的,总体效果是删除备份集和清理介质两个操作使用的时间也比现有的删除方案用时少,所以无论是在性能上,还是对备份设备场景的适应性上,都具有良好的优势。
本发明提供的一种延迟删除的策略方式,在执行删除操作时快速的删除备份集使用的块索引,实际的数据块并不立即删除,等到确实需要释放空间时再通过清理操作去清理掉,尽可能晚的删除不再引用的数据块,既可以提高删除的效率又可以降低相同的数据块频繁的从重删库中删除和加入,避免资源浪费。
以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (6)

1.一种基于源端重删的数据快速删除方法,其特征在于,包括以下步骤:
步骤1:删除备份集实现初步删除操作;
步骤2:清理介质从而彻底删除不需要的数据块。
2.根据权利要求1所述的一种基于源端重删的数据快速删除方法,其特征在于,步骤1中的删除备份集具体包括以下步骤:
步骤1a:获取备份集下所有的对象;
步骤1b:删除objdb数据库中的对象记录及其objfile文件;
步骤1c:删除dedupdb数据库中的guiddb表中对应的对象记录。
3.根据权利要求2所述的一种基于源端重删的数据快速删除方法,其特征在于,步骤2中的清理介质具体包括以下步骤:
步骤2a:遍历dedupdb数据库中的guiddb表;
步骤2b:汇总所有guiddb表中现有对象用到的dedupfile文件;
步骤2c:将步骤2b汇总出来的文件与filedb中的所有记录对比,记录不再引用的dedupfile文件;
步骤2d:删除fingerdb表中属于不再引用的数据文件的指纹;
步骤2e:删除filedb表中不再引用的数据文件记录及dedupfile文件。
4.根据权利要求2所述的一种基于源端重删的数据快速删除方法,其特征在于,objdb数据库里的guiddb表记录备份集中所有的对象信息,每个对象指向一个objfile文件,对象文件中顺序存放了每个数据块的指纹索引。
5.根据权利要求2所述的一种基于源端重删的数据快速删除方法,其特征在于,dedupdb数据库中包含fingerdb表、filedb表、guiddb表,其中fingerdb表是记录重删库所有指纹的指纹表,指纹表里记录块指纹及对应的数据块所在数据文件位置,filedb表是记录数据文件信息的数据文件表,guiddb表是对象表,用于记录该对象引用的数据块存放在哪些数据文件里,数据文件为存放在磁盘上的dedupfile。
6.根据权利要求5所述的一种基于源端重删的数据快速删除方法,其特征在于,每个数据文件大小为1G。
CN201911069232.1A 2019-11-05 2019-11-05 一种基于源端重删的数据快速删除方法 Active CN111124750B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911069232.1A CN111124750B (zh) 2019-11-05 2019-11-05 一种基于源端重删的数据快速删除方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911069232.1A CN111124750B (zh) 2019-11-05 2019-11-05 一种基于源端重删的数据快速删除方法

Publications (2)

Publication Number Publication Date
CN111124750A true CN111124750A (zh) 2020-05-08
CN111124750B CN111124750B (zh) 2024-04-30

Family

ID=70495528

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911069232.1A Active CN111124750B (zh) 2019-11-05 2019-11-05 一种基于源端重删的数据快速删除方法

Country Status (1)

Country Link
CN (1) CN111124750B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982180A (zh) * 2012-12-18 2013-03-20 华为技术有限公司 数据存储方法及设备
US20160232177A1 (en) * 2015-02-06 2016-08-11 Ashish Govind Khurange Methods and systems of a dedupe file-system garbage collection
CN110018883A (zh) * 2019-04-11 2019-07-16 苏州浪潮智能科技有限公司 一种虚拟机删除方法、装置、设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982180A (zh) * 2012-12-18 2013-03-20 华为技术有限公司 数据存储方法及设备
US20160232177A1 (en) * 2015-02-06 2016-08-11 Ashish Govind Khurange Methods and systems of a dedupe file-system garbage collection
CN110018883A (zh) * 2019-04-11 2019-07-16 苏州浪潮智能科技有限公司 一种虚拟机删除方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111124750B (zh) 2024-04-30

Similar Documents

Publication Publication Date Title
CN108319654B (zh) 计算系统、冷热数据分离方法及装置、计算机可读存储介质
US7072916B1 (en) Instant snapshot
CN101419828B (zh) 一种模拟磁带串行模式的硬盘视频记录及检索方法
CN103020255B (zh) 分级存储方法和装置
US8082388B2 (en) Optimizing operational requests of logical volumes
US8578112B2 (en) Data management system and data management method
CN102136290A (zh) 一种嵌入式实时视频文件存储方法
CN102999605A (zh) 一种通过优化数据放置来减少数据碎片的方法和装置
Zou et al. The dilemma between deduplication and locality: Can both be achieved?
KR20150122533A (ko) 세컨더리 인덱스 생성 방법 및 세컨더리 인덱스 저장 장치
CN107066349A (zh) 一种集群文件系统数据保护的方法及系统
CN102024034A (zh) 一种面向高清媒体的嵌入式文件系统的碎片处理方法
CN103034592A (zh) 数据处理方法和装置
CN111475508A (zh) 一种优化叶子节点合并操作的高效索引方法
CN111651127A (zh) 一种基于叠瓦式磁记录盘的监控数据存储方法及装置
RU2665272C1 (ru) Способ и устройство для восстановления дедуплицированных данных
CN108563586B (zh) 一种分离固态盘中垃圾回收数据与用户数据的方法
CN105095418A (zh) 一种处理写请求的方法和装置
CN111124750B (zh) 一种基于源端重删的数据快速删除方法
KR20020081696A (ko) 단편화를 감소시키기 위한 방법 및 장치
CN102708107A (zh) 一种追加式文件存储的方法及系统
US9032169B2 (en) Method for high performance dump data set creation
CN111143343B (zh) 一种基于源端重删的数据高效删除方法及系统
CN110795034B (zh) 存储系统的数据迁移方法、装置、设备及可读存储介质
CN108153805A (zh) 一种高效清理Hbase时序数据的方法、系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant