CN112685378A - 用于垃圾回收的方法、设备和计算机可读存储介质 - Google Patents

用于垃圾回收的方法、设备和计算机可读存储介质 Download PDF

Info

Publication number
CN112685378A
CN112685378A CN201910989992.8A CN201910989992A CN112685378A CN 112685378 A CN112685378 A CN 112685378A CN 201910989992 A CN201910989992 A CN 201910989992A CN 112685378 A CN112685378 A CN 112685378A
Authority
CN
China
Prior art keywords
node
backup
hash value
hash
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910989992.8A
Other languages
English (en)
Inventor
赵靖荣
郑庆霄
王毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
EMC Corp
Original Assignee
EMC IP Holding Co LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by EMC IP Holding Co LLC filed Critical EMC IP Holding Co LLC
Priority to CN201910989992.8A priority Critical patent/CN112685378A/zh
Priority to US16/792,773 priority patent/US20210117275A1/en
Publication of CN112685378A publication Critical patent/CN112685378A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/80Database-specific techniques

Abstract

本公开的实施例涉及用于垃圾回收的方法、设备和计算机可读存储介质。该方法包括:基于与所述备份系统的树表示中的至少部分节点相关联的标记,确定所述树表示中的节点与有效备份相关联还是与无效备份相关联;响应于确定所述节点与有效备份相关联,保留所述节点以及所述节点引用的节点;以及响应于确定所述节点与无效备份相关联,删除所述节点。

Description

用于垃圾回收的方法、设备和计算机可读存储介质
技术领域
本公开的实施例一般地涉及存储系统,并且更具体地涉及用于备份系统的垃圾回收的方法、设备和计算机可读存储介质。
背景技术
目前的垃圾回收方案针对数据块维护引用数目的数组来表示该数据块被多少备份所引用。通常,至少使用8位来记录真实的引用数目。对于大型备份系统而言,这将占据非常大的系统存储空间,严重影响系统性能,因而限制最大支持容量大小。
在垃圾回收时,目前的垃圾回收方案需要遍历所有的备份,而不管该备份是否有效或者是否是垃圾回收的目标。因此,这种垃圾回收方案具有较高的复杂度。引用数目数组的初始化一旦完成,将需要周期性地检测数组中的每个数据,删除零引用的数据块,如果需要再更新其他值。时间复杂度为O(nn)。
发明内容
本公开的实施例提供了一种用于管理存储系统的方法、设备、计算机可读存储介质和计算机程序产品。
在第一方面,提供了一种用于备份系统的垃圾回收的方法。该方法包括:基于与所述备份系统的树表示中的至少部分节点相关联的标记,确定所述树表示中的节点与有效备份相关联还是与无效备份相关联;响应于确定所述节点与有效备份相关联,保留所述节点以及所述节点引用的节点;以及响应于确定所述节点与无效备份相关联,删除所述节点。
在第二方面,提供了一种用于备份系统的垃圾回收的方法。该方法包括:基于所述备份系统的元数据,确定表示所述备份系统的哈希树中的第一哈希值与有效备份还是无效备份相关联;响应于确定所述第一哈希值与有效备份相关联,保留所述第一哈希值以及所述第一哈希值引用的哈希值或数据块;响应于确定所述第一哈希值与无效备份相关联,确定所述第一哈希值是否引用第二哈希值;响应于确定所述第一哈希值引用第二哈希值,遍历所述第二哈希值并在遍历所述第二哈希值之后删除所述第一哈希值;以及响应于确定所述第一哈希值不引用第二哈希值,删除所述第一哈希值。
在第三方面,提供了一种用于管理存储系统的设备。该设备包括:处理单元;存储器,耦合至所述处理单元并且包括存储于其上的指令,所述指令在由所述处理单元执行时使所述设备执行动作,所述动作包括:基于与所述备份系统的树表示中的至少部分节点相关联的标记,确定所述树表示中的节点与有效备份相关联还是与无效备份相关联;响应于确定所述节点与有效备份相关联,保留所述节点以及所述节点引用的节点;以及响应于确定所述节点与无效备份相关联,删除所述节点。
在第四方面,提供了一种用于管理存储系统的设备。该设备包括:处理单元;存储器,耦合至所述处理单元并且包括存储于其上的指令,所述指令在由所述处理单元执行时使所述设备执行动作,所述动作包括:基于所述备份系统的元数据,确定表示所述备份系统的哈希树中的第一哈希值与有效备份还是无效备份相关联;响应于确定所述第一哈希值与有效备份相关联,保留所述第一哈希值以及所述第一哈希值引用的哈希值;响应于确定所述第一哈希值与无效备份相关联,确定所述第一哈希值是否引用第二哈希值;响应于确定所述第一哈希值引用第二哈希值,遍历所述第二哈希值并在遍历所述第二哈希值之后删除所述第一哈希值;以及响应于确定所述第一哈希值不引用第二哈希值,删除所述第一哈希值。
在第五方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有机器可执行指令,当所述机器可执行指令在被至少一个处理器执行时,使得所述至少一个处理器实现根据第一方面所述的方法。
在第六方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有机器可执行指令,当所述机器可执行指令在被至少一个处理器执行时,使得所述至少一个处理器实现根据第二方面所述的方法。
在第七方面,提供了一种计算机程序产品,所述计算机程序产品被存储在计算机可读介质上并且包括机器可执行指令,所述机器可执行指令在被执行时使机器执行根据第一方面所述的方法。
在第八方面,提供了一种计算机程序产品,所述计算机程序产品被存储在计算机可读介质上并且包括机器可执行指令,所述机器可执行指令在被执行时使机器执行根据第二方面所述的方法。
提供发明内容部分是为了以简化的形式来介绍对概念的选择,它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或主要特征,也无意限制本公开的范围。
附图说明
通过结合附图对本公开示例性实施例进行更详细的描述,本公开的上述以及其他目的、特征和优势将变得更加明显,其中,在本公开示例性实施例中,相同的参考标号通常代表相同部件。
图1示出了根据本公开的一些实施例的备份系统的示意图;
图2示出了根据本公开的一些实施例的备份系统的元数据的示意图;
图3示出了根据本公开的一些实施例的备份系统的有效备份的示意图;
图4示出了根据本公开的一些实施例的备份系统的交互图;
图5示出了根据本公开的一些实施例的用于垃圾回收的方法的流程图;
图6示出了根据本公开的一些实施例的用于垃圾回收的方法的流程图;以及
图7示出了根据本公开的一些实施例的可以用来实施本公开的实施例的示例设备的示意性框图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
在支持去重的备份系统中,一份数据块仅被保存一次,但是可以被引用很多次。因此,可以节省系统的存储空间。例如,可以将备份数据分为多个数据块,然后对每个数据块执行哈希算法来获取唯一的哈希值。利用这些数据块和哈希值,可以使用哈希树或默克尔树来表示备份。
图1示出了根据本公开的一些实施例的备份系统100的示意图。备份系统100是以哈希树的形式呈现的备份,并通过索引的方式支持去重。如图1所示,备份系统100包括两个备份,分别由根哈希#1和根哈希#2来表示。应当理解,备份系统100仅仅作为示例来提供,备份的数目可以远大于两个,并且哈希树的结构也可以更加复杂。
如图1所示,根哈希#1引用哈希#3、哈希#4和哈希#5,其中哈希#3引用数据块#1,哈希#4引用数据块#2,并且哈希#5引用数据块#3。根哈希#2引用哈希#5、哈希#4和哈希#6,其中哈希#5引用数据块#3,哈希#4引用数据块#2,并且哈希#6引用数据块#4。例如,哈希#3可以是数据块#1或其一部分的哈希值,并且根哈希#1是将哈希#3至哈希#5串联起来的数据块的哈希值。其他哈希也以类似的方式来建立。
在现有的垃圾回收方案中,在垃圾回收开始时,可以在存储器中生成数组,以用于记录每个节点的引用数目。然后,将遍历所有的备份来确定每个节点的引用数目,并且更新对应的引用数组中的值。例如,通常使用8位以上的比特数来表示引用数目,以满足备份系统的需要。
例如,对于图1所示的备份系统,索引文件或数组中的原始引用数目值可以是:
reference_count_array[hash#1]=1;
reference_count_array[hash#2]=1;
reference_count_array[hash#3]=1;
reference_count_array[hash#4]=2;
reference_count_array[hash#5]=2;
reference_count_array[hash#6]=1。
假设备份#1过期,那么引用数组将变化为:
reference_count_array[hash#1]=0;
reference_count_array[hash#2]=1;
reference_count_array[hash#3]=1;
reference_count_array[hash#4]=2;
reference_count_array[hash#5]=2;
reference_count_array[hash#6]=1。
在第一轮的垃圾回收过程中,由于根哈希#1的引用数目为零,由根哈希#1表示的数据块将被删除。哈希#3、哈希#4和哈希#5被根哈希#1引用,因此在删除由根哈希#1表示的数据块之后,哈希#3、哈希#4和哈希#5的引用数目减一。因此,引用数目数组更新如下:
reference_count_array[hash#2]=1;
reference_count_array[hash#3]=0;
reference_count_array[hash#4]=1;
reference_count_array[hash#5]=1;
reference_count_array[hash#6]=1。
在第二轮的垃圾回收过程中,将删除由哈希#3表示的数据块#3,因为哈希#3的引用数目为零。然后,垃圾回收停止,因为不再有引用数目为零的数据块。
最终的引用数目数组如下:
reference_count_array[hash#2]=1;
reference_count_array[hash#4]=1;
reference_count_array[hash#5]=1;
reference_count_array[hash#6]=1。
在真实的备份系统中,数据量非常大。引用数组将占用非常大的存储空间,使用大量的系统资源来创建引用数目数组,而不管引用的是有效数据还是无效数据。由于使用数组来记录引用数目,导致中间存在大量的没有使用的空槽。另外,不停地访问该数组来去除零引用的数据块,并更新其他相关数据块的引用数目也非常复杂。现有垃圾回收方案的时间复杂度是O(nn)。因此,这将严重影响系统性能。
例如,如果引用数目的长度是8位,并系统的整个存储空间是16TB,每个数据块的平均大小是24KB,那么将具有约10亿个哈希值。因此,引用数目数组中的有效记录所需的存储空间将至少为1GB。随着数据的增加,垃圾回收方案更加成为系统的瓶颈。由于垃圾回收消耗的资源可能导致整个系统挂机,因此限制系统能够支持的最大容量。
为此,本公开的实施例提供了一种改进的垃圾回收方案。以下将结合图2-图4介绍根据本公开的一些实施例的改进的垃圾回收方案。
图2示出了根据本公开的一些实施例的备份系统的元数据202的示意图。如图2所示,可以遍历元数据202的数据库,以将元数据202划分为集合204和集合206,其中集合204包含所有的有效备份,并且集合206包含所有的无效备份。
图3示出了根据本公开的一些实施例的备份系统的有效备份的示意图。如图3所示,仅对集合204中的有效备份引用的数据块生成标记、引用映射或记录。例如,可以使用单比特标记来指示该数据块被引用。例如,对于集合204中的每个备份,可以遍历该备份的哈希树中的每个节点,并将该哈希值作为索引将该节点的标记赋值为1。由于哈希值较为复杂,也可以基于哈希值来计算索引,并将该索引对应的标记赋值为1。
如图3所示,有效备份#1由根哈希#1来表示,其中根哈希#1引用哈希#2和哈希#3,其分别引用数据块#1和数据块#2。对于该示例,可以通过根哈希#1来确定其标记,并将该标记赋值为1。类似地,可以通过哈希#2和哈希#3来确定相应的标记,并赋值为1。
由于仅需将标记赋值为1,标记可以是单比特标记,因此,可以节省大量的存储空间。备选地,也可以将标记赋值为0。作为一个示例,可以以类似的方式仅对集合206中的无效备份来生成标记。作为另一示例,也可以对集合204和206中的备份都生成标记,其中有效备份的标记为1,无效备份的标记为0。为了方便起见,以下结合对集合204中的备份生成标记来进行描述,可以理解下述方案可以非常容易应用于其他实施方式。
除了针对集合204中的有效备份生成记录之外,还可以对集合206中的无效备份中进行处理。例如,可以与生成结合204中的标记的过程并行地执行该处理。例如,从无效备份的哈希树的顶部开始遍历哈希树,对于每个节点可以确定该节点是否存在对应的标记。如果存在,则表明该节点仍然被其他有效备份引用,无法删除该节点(或者该节点所在的数据块)。另外,如果一个节点被其他节点引用,那么其底层的节点也仍然被引用。因此,无需进一步向下遍历该哈希树的节点,从而可以跳过大量的不必要的标记检查。
图4示出了根据本公开的一些实施例的哈希树400的示意图。如图4所示,由根哈希#2表示的备份因过期而无效。然而,哈希#5仍然被由根哈希#1表示的有效备份引用,因此,可以跳过哈希#8和哈希#9及其下方引用的数据块。以这种方式,可以跳过很多不必要的引用映射的检查。
如果不存在对应的标记,那么可以安全删除该节点。例如,可以删除根哈希#2代表的数据块,其中的内容是哈希#5、哈希#6和哈希#7的拼接。可以重复上述操作,直到集合206中的备份被处理,以完成垃圾回收操作。
根据以上实施例,垃圾回收可以由无效备份来触发,例如,垃圾回收可以从属于无效备份的数据块开始。这是一种按需的垃圾回收方案,而不需要定期进行引用数组的检查和更新。
与现有的垃圾处理方案相比,由引用映射占据的空间显著降低,因为该方法仅对于由仍然有效的备份引用的数据块创建记录或标记,引用数目的大小也从至少8比特到1比特。最坏的情况是所有的数据块都仍然有效,由引用映射占据的空间仍然是现有方案的1/8。此外,由于垃圾回收过程的逻辑复杂度,不需要遍历引用映射来去除零引用数据块,并一轮一轮减小由删除的数据块引用的其他数据块的引用数据。可以同时开始多个线程来检查多个备份的数据块的引用,从而时间复杂度是O(n)。
由于该方案的低资源消耗,采用该方案来进行垃圾回收的系统可以扩展其最大支持的容量大小,而不需要考虑垃圾回收的挂起。
图5示出了根据本公开的一些实施例的垃圾回收方法500的流程图。方法500中的一个或多个步骤可以结合图1-图4所示的示例中的一个或多个特征相结合。
在502,基于与备份系统的树表示中的至少部分节点相关联的标记,确定树表示中的一个节点与有效备份相关联还是与无效备份相关联。例如,树表示可以是表示备份系统的哈希树,并且树表示中的节点可以是哈希树中的节点。应当理解,尽管这里使用哈希树作为示例,本公开的示例也可以应用于哈希树之外的任何其他合适的树表示。例如,标记可以是单比特标记,从而节省存储空间。
在一些实施例中,可以基于备份系统的元数据,确定备份系统中的有效备份,并生成指示与有效备份相关联的节点有效的标记。在这种情况下,如果能够找到与一个节点对应的标记,那么该节点属于有效备份。如果不能找到与一个节点对应的标记,那么该节点属于无效备份。
备选地,可以基于备份系统的元数据,确定备份系统中的无效备份,并生成指示与无效备份相关联的节点无效的标记。在这种情况下,如果能够找到与一个节点对应的标记,那么该节点属于无效备份。如果不能找到与一个节点对应的标记,那么该节点属于有效备份。
或者,也可以针对有效备份和无效备份均生成具有不同值的标记,例如,有效备份为1,无效备份为0。在这种情况下,如果与一个节点对应的标记的值为1,那么该节点属于有效备份。如果与一个节点对应的标记的值为0,那么该节点属于无效备份。
如果在502确定该节点是有效备份,则方法500前进至504,保留该节点以及该节点引用的节点。以这种方式,可以不需要再进一步确定该节点下方的任何节点,以提升效率。
如果在502确定该节点是无效备份,则方法500前进至506,删除该节点。如果该节点不是叶节点,则可以进一步向下进行遍历该节点的子节点,并且在遍历所有子节点之后删除该节点。如果该节点是叶节点,则直接删除该节点所表示的数据块。
图6示出了根据本公开的一些实施例的垃圾收集方法600的流程图。方法600中的一个或多个步骤可以结合图1-图4所示的示例中的一个或多个特征相结合,并且可以与方法500中的一个或多个步骤相结合。
在602,基于备份系统的元数据,确定表示备份系统的哈希树中的第一哈希值与有效备份还是无效备份相关联。
在一些实施例中,可以基于备份系统的元数据来确定备份系统中的有效备份和无效备份,并生成指示所述哈希树中的哈希值与有效备份相关联的标记,和/或指示所述哈希树中的哈希值与无效备份相关联的标记。然后,基于第一哈希值的标记来确定第一哈希值与有效备份相关联还是与无效备份相关联。该标记可以是单比特标记,以节省存储空间。
如果在602确定第一哈希值有效,则方法600前进至604,保留第一哈希值以及第一哈希值引用的哈希值。以这种方式,无需再进一步向下遍历哈希树,从而提升计算效率。
如果在602确定第一哈希值无效,则方法前进至606,确定第一哈希值是否引用第二哈希值。
如果在606确定第一哈希值引用第二哈希值,则方法600前进至608,遍历第二哈希值并在遍历第二哈希值之后删除第一哈希值。
如果在606确定第一哈希值不引用第二哈希值,则方法600前进至610,删除第一哈希值。
在方法600中,由于无需对每个节点都判断是否为有效备份,备份系统可以进行高效的垃圾回收。
图7示出了一个可以用来实施本公开的实施例的设备700的示意性框图。如图7所示,设备700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的计算机程序指令或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序指令,来执行各种适当的动作和处理。在RAM 703中,还可存储设备700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
上文所描述的各个过程和处理,例如方法500-600,可由处理单元701执行。例如,在一些实施例中,方法500-600可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序被加载到RAM 703并由CPU701执行时,可以执行上文描述的方法500-600的一个或多个步骤。
本公开可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (16)

1.一种用于备份系统的垃圾回收的方法,包括:
基于与所述备份系统的树表示中的至少部分节点相关联的标记,确定所述树表示中的节点与有效备份相关联还是与无效备份相关联;
响应于确定所述节点与有效备份相关联,保留所述节点以及所述节点引用的节点;以及
响应于确定所述节点与无效备份相关联,删除所述节点。
2.根据权利要求1所述的方法,其中删除所述节点包括:
确定所述节点是否包括子节点;
响应于确定所述节点包括子节点,遍历所述节点的子节点并在遍历所述节点的子节点之后删除所述节点;以及
响应于确定所述节点不包括子节点,删除所述节点。
3.根据权利要求1所述的方法,还包括:
基于所述备份系统的元数据,确定所述备份系统中的有效备份;以及
生成指示所述树表示中与有效备份相关联的节点有效的标记。
4.根据权利要求1所述的方法,还包括:
基于所述备份系统的元数据,确定所述备份系统中的无效备份;以及
生成指示所述树表示中与无效备份相关联的节点无效的标记。
5.根据权利要求1-4中任一项所述的方法,其中所述标记为单比特标记。
6.根据权利要求1所述的方法,其中所述备份系统的树表示包括表示所述备份系统的哈希树,并且所述树表示中的节点包括所述哈希树中的节点。
7.一种用于备份系统的垃圾回收的方法,包括:
基于所述备份系统的元数据,确定表示所述备份系统的哈希树中的第一哈希值与有效备份还是无效备份相关联;
响应于确定所述第一哈希值与有效备份相关联,保留所述第一哈希值以及所述第一哈希值引用的哈希值;
响应于确定所述第一哈希值与无效备份相关联,确定所述第一哈希值是否引用第二哈希值;
响应于确定所述第一哈希值引用第二哈希值,遍历所述第二哈希值并在遍历所述第二哈希值之后删除所述第一哈希值;以及
响应于确定所述第一哈希值不引用第二哈希值,删除所述第一哈希值。
8.根据权利要求7所述的方法,其中确定所述第一哈希值与有效备份还是无效备份相关联包括:
基于所述备份系统的元数据,确定所述备份系统中的有效备份和无效备份;
生成以下至少一项:
指示所述哈希树中的哈希值与有效备份相关联的标记;或
指示所述哈希树中的哈希值与无效备份相关联的标记;以及
基于所述第一哈希值的标记来确定所述第一哈希值与有效备份相关联还是与无效备份相关联。
9.根据权利要求8所述的方法,其中所述标记为单比特标记。
10.一种用于备份系统的垃圾回收的设备,包括:
处理单元;
存储器,耦合至所述处理单元并且包括存储于其上的指令,所述指令在由所述处理单元执行时使所述设备执行动作,所述动作包括:
基于与所述备份系统的树表示中的至少部分节点相关联的标记,确定所述树表示中的节点与有效备份相关联还是与无效备份相关联;
响应于确定所述节点与有效备份相关联,保留所述节点以及所述节点引用的节点;以及
响应于确定所述节点与无效备份相关联,删除所述节点。
11.根据权利要求10所述的设备,其中删除所述节点包括:
确定所述节点是否包括子节点;
响应于确定所述节点包括子节点,遍历所述节点的子节点并在遍历所述节点的子节点之后删除所述节点;以及
响应于确定所述节点不包括子节点,删除所述节点。
12.根据权利要求10所述的设备,其中所述动作还包括:
基于所述备份系统的元数据,确定所述备份系统中的有效备份;以及
生成指示所述树表示中与有效备份相关联的节点有效的标记。
13.根据权利要求10所述的设备,其中所述动作还包括:
基于所述备份系统的元数据,确定所述备份系统中的无效备份;以及
生成指示所述树表示中与无效备份相关联的节点无效的标记。
14.根据权利要求10-13中任一项所述的设备,其中所述标记为单比特标记。
15.根据权利要求10所述的设备,其中所述备份系统的树表示包括表示所述备份系统的哈希树,并且所述树表示中的节点包括所述哈希树中的节点。
16.一种计算机可读存储介质,所述计算机可读存储介质上存储有机器可执行指令,当所述机器可执行指令在被至少一个处理器执行时,使得所述至少一个处理器实现根据权利要求1-9中任一项所述的方法。
CN201910989992.8A 2019-10-17 2019-10-17 用于垃圾回收的方法、设备和计算机可读存储介质 Pending CN112685378A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910989992.8A CN112685378A (zh) 2019-10-17 2019-10-17 用于垃圾回收的方法、设备和计算机可读存储介质
US16/792,773 US20210117275A1 (en) 2019-10-17 2020-02-17 Method, device and computer readalbe medium for garbage collection

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910989992.8A CN112685378A (zh) 2019-10-17 2019-10-17 用于垃圾回收的方法、设备和计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN112685378A true CN112685378A (zh) 2021-04-20

Family

ID=75444544

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910989992.8A Pending CN112685378A (zh) 2019-10-17 2019-10-17 用于垃圾回收的方法、设备和计算机可读存储介质

Country Status (2)

Country Link
US (1) US20210117275A1 (zh)
CN (1) CN112685378A (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7451168B1 (en) * 2003-06-30 2008-11-11 Data Domain, Inc. Incremental garbage collection of data in a secondary storage
CN102024018A (zh) * 2010-11-04 2011-04-20 曙光信息产业(北京)有限公司 一种分布式文件系统中垃圾元数据的在线回收方法
US20130013874A1 (en) * 2011-07-08 2013-01-10 Goetz Graefe Data store page recovery
US20140281307A1 (en) * 2013-03-14 2014-09-18 Fusion-Io, Inc. Handling snapshot information for a storage device
US20150244795A1 (en) * 2014-02-21 2015-08-27 Solidfire, Inc. Data syncing in a distributed system
US20170371889A1 (en) * 2016-06-28 2017-12-28 Plexistor Ltd. Data cloning in memory-based file systems
US20180089033A1 (en) * 2016-09-23 2018-03-29 Apple Inc. Performing data backups using snapshots
US10019323B1 (en) * 2014-03-25 2018-07-10 EMC IP Holding Company LLC Method and system for container data recovery in a storage system
CN109614051A (zh) * 2018-12-13 2019-04-12 北京金山云网络技术有限公司 一种备份数据的清理方法、装置、电子设备及存储介质
US10409692B1 (en) * 2017-07-14 2019-09-10 EMC IP Holding Company LLC Garbage collection: timestamp entries and remove reference counts

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11169889B1 (en) * 2017-05-05 2021-11-09 Open Invention Network Llc Systems, devices and methods for determining and reclaiming snapshot storage consumption in data storage systems
SG11202002308RA (en) * 2017-11-01 2020-04-29 Swirlds Inc Methods and apparatus for efficiently implementing a fast-copyable database

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7451168B1 (en) * 2003-06-30 2008-11-11 Data Domain, Inc. Incremental garbage collection of data in a secondary storage
CN102024018A (zh) * 2010-11-04 2011-04-20 曙光信息产业(北京)有限公司 一种分布式文件系统中垃圾元数据的在线回收方法
US20130013874A1 (en) * 2011-07-08 2013-01-10 Goetz Graefe Data store page recovery
US20140281307A1 (en) * 2013-03-14 2014-09-18 Fusion-Io, Inc. Handling snapshot information for a storage device
US20150244795A1 (en) * 2014-02-21 2015-08-27 Solidfire, Inc. Data syncing in a distributed system
US10019323B1 (en) * 2014-03-25 2018-07-10 EMC IP Holding Company LLC Method and system for container data recovery in a storage system
US20170371889A1 (en) * 2016-06-28 2017-12-28 Plexistor Ltd. Data cloning in memory-based file systems
US20180089033A1 (en) * 2016-09-23 2018-03-29 Apple Inc. Performing data backups using snapshots
US10409692B1 (en) * 2017-07-14 2019-09-10 EMC IP Holding Company LLC Garbage collection: timestamp entries and remove reference counts
CN109614051A (zh) * 2018-12-13 2019-04-12 北京金山云网络技术有限公司 一种备份数据的清理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
US20210117275A1 (en) 2021-04-22

Similar Documents

Publication Publication Date Title
KR102240557B1 (ko) 데이터 저장 방법, 장치 및 시스템
US10705735B2 (en) Method and device for managing hash table, and computer program product
CN107870728B (zh) 用于移动数据的方法和设备
US8849876B2 (en) Methods and apparatuses to optimize updates in a file system based on birth time
CN108228649B (zh) 用于数据访问的方法和设备
US10795579B2 (en) Methods, apparatuses, system and computer program products for reclaiming storage units
US11604808B2 (en) Methods, electronic devices and computer program product for replicating metadata
CN107526746B (zh) 管理文档索引的方法和设备
CN111857539A (zh) 用于管理存储系统的方法、设备和计算机程序产品
CN111104249A (zh) 用于数据备份的方法、设备和计算机程序产品
US11294880B2 (en) Method, device and computer program product for data processing
CN110807028A (zh) 用于管理存储系统的方法、设备和计算机程序产品
US11093389B2 (en) Method, apparatus, and computer program product for managing storage system
US11520818B2 (en) Method, apparatus and computer program product for managing metadata of storage object
CN111858393A (zh) 内存页面管理方法、内存页面管理装置、介质与电子设备
CN112764662A (zh) 用于存储管理的方法、设备和计算机程序产品
US11226739B2 (en) Method, device and computer program product for storage management
CN112685378A (zh) 用于垃圾回收的方法、设备和计算机可读存储介质
US20190384825A1 (en) Method and device for data protection and computer readable storage medium
CN113297003A (zh) 管理备份数据的方法、电子设备和计算机程序产品
CN110968649A (zh) 用于管理数据集的方法、设备和计算机程序产品
US11281719B2 (en) Existence checks on rows within a database
US20210303538A1 (en) Method, device, and computer program product for managing index in storage system
CN112925671A (zh) 用于管理应用系统的方法、设备和计算机程序产品
CN114816218A (zh) 管理存储块的方法、电子设备和计算机程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination