CN101393532A - 从单实例数据归档和/或备份环境中去除数据的系统和方法 - Google Patents

从单实例数据归档和/或备份环境中去除数据的系统和方法 Download PDF

Info

Publication number
CN101393532A
CN101393532A CNA2008101686840A CN200810168684A CN101393532A CN 101393532 A CN101393532 A CN 101393532A CN A2008101686840 A CNA2008101686840 A CN A2008101686840A CN 200810168684 A CN200810168684 A CN 200810168684A CN 101393532 A CN101393532 A CN 101393532A
Authority
CN
China
Prior art keywords
file
fragment
data object
subclauses
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2008101686840A
Other languages
English (en)
Inventor
克里斯托弗·德斯皮格尔
N·克雷梅里尔
K·德弘特
B·斯图吉
M·威尔汤根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NortonLifeLock Inc
Original Assignee
Symantec Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Symantec Corp filed Critical Symantec Corp
Publication of CN101393532A publication Critical patent/CN101393532A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/162Delete operations

Abstract

本发明提供一种从单实例数据对象存储器中去除数据对象的系统、方法和装置,以确保仅当对于数据对象的所有引用被去除后,从存储器中实际去除数据对象。因此,当真正需要被删除的数据对象从存储器中去除时,可保持存储的一致性和可靠性。

Description

从单实例数据归档和/或备份环境中去除数据的系统和方法
技术领域
本发明涉及去除技术,尤其但不局限于从单实例数据归档和/或备份环境中去除数据。
背景技术
在数据归档和/或备份环境中,经常需要将很多数据对象存储到归档/备份系统中。这种数据对象可能需要保留特定的时间段,或直到某个事件完成。有时,管理规定要求在某个最小时间段内保留所有文档。这种管理规定的一个示例是美国2002 Sarbanes-Oxley法案中规定的数据保存需求。
在一些数据归档和/或备份系统中,文件可能从属于单个实例过程,以防止系统存储同一文档的多个副本而造成浪费。因此在文档/备份系统中,单个存储文档的编号由许多不同时期的不同资源生成。
在一些数据归档和/或备份系统中,大文件被分割成许多同等大小的单元,通常被称为片段。这种方式下,当数据附加到已经归档/备份的文件时,后来的归档/备份操作仅需要创建相应于新数据的片段。
本发明已经至少部分地考虑到传统系统中的缺陷和限制。
发明内容
因此,本发明提供一种从单实例数据对象存储器中删除数据对象的系统、方法和装置,以确保仅当对于数据对象的所有引用被删除后,从存储器中实际去除数据对象。因此,当真正需要被删除的数据对象从存储器中去除时,可保持存储的一致性和可靠性。
根据第一个方面,本发明提供了一种备份系统,可操作的利用单个实例存储方案来存储文件或文件片段。备份系统包括元数据存储器,可操作的存储关于文件的元数据,其中每个元数据存储条目包括从与条目有关的文件计算出的特征,而且此特征相对该文件的内容是唯一的。备份系统还包括内容存储器,可操作的存储属于在元数据存储条目中识别的文件的文件片段,片段可被由片段计算出来的特征识别,而且此特征相对该片段的内容是唯一的;存储数据对象,所述数据对象描述在元数据存储器中识别的文件,可利用数据对象描述的文件的唯一特征识别该数据对象。数据对象包括列表,列表中包含文件的每个片段的片段特征。内容存储器按照时间顺序或者接收到的指令,对存储于其中的片段和数据对象执行操作,以通过内容存储动作队列执行所述动作。备份系统能够可操作的识别要删除的文件,为要删除的文件标记元数据存储条目,从数据对象中为文件删除对于元数据存储条目的引用,以及从元数据存储器中删除标记的元数据存储条目。因此,当数据不再需要保存而删除时,单实例存储器可操作可靠和安全的数据保存策略以保护存储的数据,
在一些示例中,每个数据对象可描述不止一个文件,并且采用它所描述的每个文件的特征来标识。因此,单个实体可用于在单个实例文件系统中追踪与文件片段的多个源文件的连续相关性。
在一些示例中,如果从数据对象中去除对于元数据存储条目的引用,导致所述数据对象不再描述任何文件时,系统也可删除所述数据对象。因此,可将不再需要的文件的标识符完全地从存储器中去除。在一些示例中,系统可通过在内容存储动作队列的队尾添加数据对象删除指令执行数据对象的删除;隐藏数据对象;当删除指令到达内容存储动作队列的前端时,进行核对以确定自删除指令被加入指令队列后数据对象是否是写入动作主体;如果没有发生写入动作,则删除数据对象。因此,可以这样的方式来执行数据对象的删除,即在数据对象被标识为删除后,但在被排入删除队列之前确保与数据对象相关的指令,可防止数据对象的删除以保持全部数据的一致性。
在一些示例中,为文件从数据对象中去除对于元数据存储条目的引用后,系统可从数据对象中删除到任何片段的链接,不再与任何在数据对象中描述的文件关联。因此,任何在数据对象中被标识的文件不再需要片段,片段从数据对象中解除链接,以表明该片段与数据对象之间缺乏关联性。
在一些示例中,从数据对象中去除片段的链接后,如果此刻没有数据对象链接到片段上,则系统可以去除片段。因此,片段不再与任何数据对象关联,不再与存储器中的任何文件存在继续的关联性,可完全被删除。在一些示例中,片段的去除可以这样执行:将删除片段的指令增加到内容存储动作队列的尾部;隐藏片段;当删除指令到达内容存储动作队列的前端时,进行核实以确定自删除指令被加入指令队列后数据对象是否是写入动作主体;如果没有发生写入动作,则删除数据对象。因此,可以这样的方式来执行数据对象的删除,即在片段被标识为删除后,但在被排入删除队列之前,确定与该片段相关的指令可防止数据对象的删除以保持全部数据的一致性。
根据第二个方面,本发明提供了一种从存储器系统中利用单个实例存储方案删除文件或文件片段的方法。所述方法包括:在元数据存储器中存储与文件有关的元数据,其中每个元数据存储条目包括从与条目有关的文件计算出的相对文件唯一的特征;在内容存储器中存储属于在元数据存储条目中标识的文件的文件片段,片段可被由所述片段计算出来的并且相对片段内容唯一的特征来标识;在内容存储器中存储描述元数据存储器中标识的文件的数据对象,数据对象可利用它所描述的文件的唯一的特征来标识,数据对象包括包含所述文件的每个片段的片段特征的列表。所述方法进一步包括:对存储在所述内容存储器中的片段和数据对象产生将按照时间顺序或者接收到的指令执行的动作指令,以执行所述动作;识别要删除的文件;为要删除的文件标记元数据存储条目;从数据对象中为文件删除对于所述元数据存储条目的引用;从元数据存储器中删除标记的元数据存储条目。
通过以下各种具体示例的描述,本发明的更多的方面和实施例是显而易见的。
附图说明
下面仅通过示例的方式,根据附图中附图标记标记的部分,描述本发明的详细实施例。
图1是使用数据备份过程的分布式计算环境的示意图;
图2是另一使用数据备份过程的分布式计算环境的示意图;
图3是说明在两个时间点之间如何修改数据文件的示意图;
图4是说明单个实例备份系统的示意图;
图5是说明数据对象的示意图;
图6是说明删除文件流程图;
图7是说明删除数据对象的流程图;和
图8是说明删除文件片段的流程图。
虽然本发明易受各种修改和替换方式的影响,但具体的实施例可通过图中示例显示,而且在这里进行详细描述。然而,应该明白,附图和在次详细的描述并不是将本发明局限于已公开的特定形式,恰恰相反,本发明覆盖了所有改进了的型式,以及落在通过所附权利要求定义的本发明的精神和范围之内的等同方式和可替换方式。
具体实施方式
如图1所示,分布式计算环境10可以包括中央办公室12,还可以包括一个或多个远程办公室14和/或一个或多个远程用户16。中央办公室12可以包括数据将被备份到的存储池20。代表一个或多个本地工作站24的备份客户机22执行备份过程的管理。通过LAN(局域网)25可以将备份数据传送到存储池20。
远程办公室14包括一个或多个备份客户机26,所述备份客户机26可以是专用备份协调器,或者由工作站提供备份客户机。通过备份客户机26,可将数据备份到远程办公室备份设备28。然后,备份设备28通过WAN(广域网)链接29将备份数据传送到中央办公室的存储池20。
配备有备份客户机30的移动用户16在远程终端上运行。备份客户机30可以通过WAN链接29将备份数据发送到中央办公室12的存储池20。
当前示例中,通过LAN 25和WAN 29传送的备份数据的数量,由确保仅仅将唯一的数据发送到备份存储池20中而受到限制。实现技术将在下文中详细说明。
图2是说明另一分布式计算环境的示例。此示例中,一些工作站和移动用户与各自的本地备份服务器相连,每个服务器可与执行备份存储的数据中心通信。
如图2所示,当前示例中,每个包含在备份系统中的计算机系统40运行备份客户机,备份客户机也可被看作代理。当文件或文件片段被创建时,每个本地代理识别新的和改变后的文件或文件片段,以及为每个文件或文件片段计算特征。代理可被配置为忽略不需备份的文件,例如打印池文件、操作系统文件或临时文件。
当前示例中,比预定阈值长的文件被分割为多个片段。这样可允许更有效的备份大文件。例如,如MSOutlookTM.pst文件典型地包括大量的数据,这些数据保持不变,并且例如当用户发送或接收邮件或执行日程条目时,附加新的数据。因此,当在片段模式下执行备份操作时,在未改变的文件起始处,所有片段都不需要重新备份。此过程如图3所示。
如图3所示,最后备份的文件70被备份为多个备份片段72。当执行下一备份操作,文件增加大小到新文件74。在备份操作中,备份代理再一次将文件看作是多个片段,因此每个片段具有为其计算的特征。通过将这些特征与包括在前面备份中的特征进行比较,可确定全部片段76已经预先被备份,因此不需重新存储在备份系统中。另一方面,新片段78并没有预先被备份,因此可以发送到备份存储器中。通过采用这种技术,每当系统中所有改变的文件被发送以进行备份时,在备份操作中用于备份存储而被发送的数据量可以大大减少。
下面的说明中,字文件和片段用于相互交换以引用备份数据单元。可以理解,当文件小于预定片段大小时,可考虑将文件分段成为单个片段。当前示例中,可以使用各种片段大小。可理解的是,越小的片段,越是提高备份过程的效率,但通过备份代理又增加了处理负荷。在一些示例中,可以使用的32k字节,64k字节或128k字节的片段大小。
代理确定的特征根据其内容唯一地识别文件或文件片段。此特征相对文件或文件片段的内容唯一,也就是说,相对于文件或文件片段中的数据唯一。两篇不同名字的文件通常被认为是同一用户的两篇不同的文件,但两篇这样的文件可具有极其相同的内容(或者在文件片段的情况下的部分内容)。这种情况下,它们具有同样的特征。因此,没有两篇不同的文件或片段具有同样的特征,同样的文件或片段通常具有同样的特征。当前示例中,特征利用哈希函数(hashfunction)计算出来。哈希函数是数学函数,用于从许多差不多大小的数据项中确定固定长度信息摘要或特征。哈希函数是单向函数-它不能从特征中反向此过程以重新产生原始数据。从需要的处理能力上考虑,与其他校验和技术,如CRC(循环冗余码校验)方法相比较,哈希函数相对较慢,而且花费高。然而与CRC方法相比,哈希函数具有为每一个独特的数据集生成唯一特征的优点,而CRC方法从多种不同数据集中生成同样结果。采用哈希函数计算当前示例的特征的示例包括MD5,SHA1和SHA256。
每个工作站40的代理识别新的和独特于工作站的文件或片段。因此,如果在工作站上新生成的文件或片段事实上是预先备份的文件或片段的精确复制,代理就不需再发送片段用于备份。
一旦代理在工作站40中识别独特的片段,片段的特征可被发送到备份服务器42,以再次验证其唯一性。执行重新测试可以确定相对特定工作站40唯一的文件是否同样相对于所有服务于备份服务器42的工作站唯一。备份服务器可以是如远程办公室46内所示的本地备份服务器,或者在中央网络48内所示的位于中央网络48内的工作站40。可选的,备份服务器可以是远程备份服务器,如在中央网络48内所示的位于远程办公室44内的工作站40。工作站40是移动工作站,例如便携式电脑,移动工作站上的备份代理被配置为连接到同一备份服务器上,或者连接到在给定时间内物理上距移动工作站最近的备份服务器上。
在备份结构内,发送特征到更高层权限这一过程可以一直持续,直到达到最高层权限。在大型系统内,可以是与许多本地备份服务器连接的中央备份服务器。在小型系统内,可以仅仅是服务于所有工作站的单个备份服务器。如果在备份系统中片段被确定为是唯一的,可指示初始的工作站代理发送用于备份的实际数据片段。
不是唯一的片段也可以具有通过备份代理发送到备份服务器的自身特征。这也许是在定义了数据保存策略的系统内的一种情况,以确保在备份环境中,在文件或片段出现在任何工作站上的最近时间之后,在备份存储中保持最小周期的时间。在一些示例中,也需要确保给定文件的全部片段出现在备份系统中,直到文件的数据保存需求终止。因此,文件的全部片段需要保存直到数据保存策略周期的结束,而不只是它的最后修改的片段。
很容易理解,当前示例中的工作站40可以包括文件或应用服务器,其中存储需要备份的数据。例如,可以是这种情况,文件服务器用于存储许多数据文件,因此数据文件的内容需要备份。应用服务器的示例例如MSExchangeTM服务器,应用服务器存储与应用相关的数据,因此需要备份。应用文件也是如此。无论位于工作站还是服务器都需要备份覆盖,例如提供一种直接方法来恢复客户设置,或者在系统错误之后,重构工作站或服务器。
如上面所提到的,在计算机系统内数据可应用数据保存策略。这种策略可以通过公司确定,或者通过管理权限强制。管理强制此策略应用,例如在金融信息和法律信息方面。为此,需要工作站备份代理包括在备份操作中删除文件,以确保在小于一次备份时间间隔内,存在于工作站上的文件仍旧包含在备份过程中。
应当理解的是,根据典型的采用数十位大小顺序的特征,执行备份过程来决定真正需要被备份的片段,与在决定数据存储器是否实际需要之前,在系统中为发送以进行存储而标识的备份数据相比较,通过在工作站和备份服务器之间连接的网络中传送的数据的数量大大减少。
返回到图2中,备份服务器42可以将备份数据存储到存储设备,如存储服务器50中。存储服务器50可以是独立的存储服务器,或者是存储基础设施,例如SAN(存储区域网络)52的一部分。可替换的示例中备份服务器42包括用于备份数据的存储器。
为备份数据提供冗余性、更加安全性和可利用性,存储服务器42由一对镜像的存储服务器组成,其中一个处于有效状态,另一个作为热备份,在运行状态的备份服务器出现故障时准备接管。例如可以在远程站点56上提供远程镜像54,以提供对于影响有效备份服务器位置的故障的弹性。这种远程站点也可用于产生和/或保持备份数据的备份副本,例如,在备份磁性设备中或采用常规备份技术如磁带保险库(tape vault)58。
这里已经描述了备份环境的多个示例,以采用数据特征来识别要备份的文件和/或片段,并且仅备份唯一的文件和片段,以实现备份存储卷使用的最高效率。
为了提供一种在备份系统中访问文件和片段的方法,文件和片段可以存储到索引的文件系统或数据库结构中,其允许通过搜索各自特征来识别和恢复文件或片段。特征也被看作是文件或片段的“签名”。因此,简单的文件系统或数据库结构可以用于文件和片段中,以允许迅速搜索和恢复的过程。
为了搜索上述类型的备份存储器的内容,评估存储器的内容,以及从存储器中恢复数据,可以提供元数据的数据库。元数据的数据库或者“元数据库”可以存储描述在备份系统中存储的文件的数据。这种数据可以包括信息,例如文件名,最后编辑日期,创建日期,作者,文件大小和表示文件内容的关键词。在元数据库也存储了文件(或文件的每个片段)的特征(或多个特征)。因此,用户可在元数据库中运行查询指令,以在元数据库中搜索在特定日期编辑的文件,任何的返回结果能够使备份系统中的文件通过唯一的识别特征而被恢复。由于与实际备份文件的大小相比,数据库规模比较小,以及允许文件/片段数据库中采用简单的搜索过程,此方法构成的系统使元数据库具有高速搜索性能。
在另一个示例中,文件/片段和元数据数据库合并为单个数据库。在某种意义上说,这种系统提供了一种仅需要单个数据库的简化结构。
返回到独立的元数据库和文件/片段的存储器示例中,通过允许在元数据库中多于一个的条目以包括相同特征,该系统可以作为单个实例性存储器运行。这如图4所示。
三个计算机设备:终端90,文件服务器92和移动终端94中每个都存储了相同的电子表格文件“Budget2005.xls”。在终端90上,文件96于2005年3月19日存储在“C:\My Documents\SalesDocs\”文件夹下,大小为293kB。在文件服务器92上,文件98于2005年3月22日存储在“X:\Public\Fiance\”文件夹下,大小为293kB。在移动终端94上,文件100于2005年4月14日存储在“C:\MyDocuments\”文件夹下,大小为293kB。文件96、98、100是相同的,因而它们具有同样大小,具有同样内容(分别是102A、102B、102C),在备份操作时间产生同样的特征FP(104A、104B、104C)。
在终端90、文件服务器92和移动终端94上,执行备份操作的时间不同,因而每个计算机设备的备份加入到备份系统中的时间也不相同。例如,在终端90和文件服务器92的预定的备份操作发生期间,如果移动终端94一直不与备份系统相连接,则移动终端94的备份操作执行时间与终端90或文件服务器92的备份操作时间均不同。
对于终端90的备份操作性能来说,为文件96计算出特征104A,特征104A与备份系统的内容存储器部分116比较。如果在备份系统中特征是唯一的,文件96的内容102A需要存储在内容存储器116中,如与特征104相关联的内容102所示的。如果在内容存储器中特征不是唯一的(例如,如果文件已预先被备份),则内容不需重新存储。在决定内容104A是否需要存储的同时,如果文件96没有被预先备份的话,文件96的元数据106存储到元数据库114中。与特征104相关联地存储元数据106,其中特征104识别存储在内容存储器116中的内容102。
当文件服务器92上的文件98以及移动终端100上的文件100被选择用于备份时,执行类似的过程。因此,一旦文件96、98、100都已经包括在备份过程中,元数据库包含并且输入每个文件,因为每个文件都具有不同的元数据,但内容存储器仅有文件的单个副本。在另一可选择的实施例中,元数据库可以具有每个特征的单个记录,所述记录为生成特征的文件的全部原始实例存储元数据。
因此,可以提供包括文件的所有初始实例的元数据的元数据库,以提供搜索环境用以检索在内容存储器中存储的文件/片段。同时,内容存储器仅包括每个文件/片段的单个实例,以限制内容存储器需要的存储空间。通过每个对应的内容记录的特征,元数据库记录与内容存储器中的内容记录相联系。
在内容存储器中,为辅助文件和片段的管理,引入了数据对象实体。数据对象可以便于文件内片段的管理,这里文件不需要为每个元数据库条目建立大量片段联系。同样,数据对象可允许在备份系统内分类文件。
参考图5,示出了数据对象110。通过提供组成文件的所有片段的列表112,数据对象将原始文件与其所有片段连接起来。数据对象110可以与片段一起存储在内容存储器中。为了能在存储器中识别和访问数据对象,可与原始文件的特征联系起来作为一个整体。在单个片段文件的情况下,当前示例中的系统为片段(因为其他的多个片段文件可以包括这个片段,作为自身特征的其中之一)创建片段对象。所述系统也创建数据对象,但在这种情况下,文件对象的片段列表仅包括一个片段。文件和片段对象都具有同一特征(而且在同一特征之下存储)。借助于数据对象110,通过检索在数据对象110中引用的片段112,并且按照它们在所述数据对象中出现的顺序依次附加它们,可以重构原始文件。
对每个片段来说,相关的数据对象列表可与片段一起存储到内容存储器中。数据对象列表以附录或元数据的形式存储到片段中,数据对象列表没有被看作是片段的一部分。因此,片段特征是不能被数据对象列表更改的。片段的数据对象列表是片段的有效簿记信息,并且不是片段数据的一部分。既然片段特征是通过片段数据单独被计算出来的,片段特征独立于任何片段薄记信息,例如数据对象列表。
这提供了片段到文件的链接。上面已经描述了,独特的片段仅被存储在内容存储器中一次,以避免在文件存储器中不必要的片段的复制。如上面所描述的,实际上有效地执行这种单个实例处理过程,例如两个文件可以不同,但是仍共有一个或多个片段是必要的。此共有片段仅存储一次,但两个文件将具有都被存储到内容存储器中的不同数据对象。两个数据对象均涉及共同的片段。提供一种方法将片段与所有数据对象链接,数据对象引用片段(因此引用包含片段的所有文件),为每个片段记录这种数据对象列表。此列表因此包含引用片段的数据对象。
因此,在备份操作期间,当备份客户机需要备份片段(作为文件备份的一部分)时,将查询内容存储器来验证此片段是否已经存在于内容存储器中。如果内容存储器对此查询做出肯定响应,则客户机请求内容存储器增加从片段到与客户机正备份的文件相对应的数据对象的链接,而不是发送实际片段到内容存储器中。
为了完成在文件各部分和描述符之间关系的循环,在元数据库中的文件元数据记录与内容存储器中的数据对象之间提供了链接。在最简单的形式中,可通过包含元数据记录中的文件特征来实现,反之亦然,通过包含到数据对象中元数据记录的链接来实现。在一些示例中,需要根据特定标准来归档文件。归档标准的实例为:备份日期(例如,归档在同一天备份的所有文件),或者备份源(例如,从相同的计算机设备归档所有备份的文件,或属于特定用户或用户组的所有文件)。在该描述的其余部分假设采用通用示例,文件的用户定义的组被称为文件组。在这种假设下,从元数据记录到相应数据对象的链接仍然通过文件特征提供。然而,另外,通过与数据对象一起记录保持一个或多个所述元数据记录的文件组,可以将所述数据对象链接到引用所述数据对象的元数据记录。例如,假设存在三个文件组,其中文件组1保持引用数据对象X的两个元数据记录,文件组2保持引用数据对象X的1个元数据记录,文件组3不保持引用数据对象X的元数据记录,则记录在内容存储器中的用于数据对象X的文件组的列表包含组标识1和2。采用链接到文件组,而不是链接到各个元数据记录,提供了可以被限制的对数据对象记录的链接数目。在备份操作期间,当客户机为文件组1的备份文件时,客户机将请求内容存储器将每个备份数据对象链接到文件组1,不管数据对象是否已经存储在内容存储器中,或由客户机有效存储。
因此,已经描述了一种系统,用于为数据网络提供内容优选的备份和/或归档解决方案。该系统确保所有独特的数据存储的同时,避免不必要的非独特数据的存储。通过分析片段中的大型数据对象,这种优选方式会进一步提高。
如图4所示,给定的内容项可以链接到元数据存储器(或元数据库)上的多个条目。在一些示例中,很明显,任何给定的内容项会链接到一个、一些或多个元数据库项。例如,文档在提供到其被创建的实体之外的接收者之前由个人完成。因此,这使得每个内容存储器条目仅有单个元数据库条目。在另一个示例中,文档是由一个小的团队共同完成,或者由一个人创建并且通过电子邮件发送到其他团队成员中。这种情况下,期望内容项具有对于每个内容存储器条目的多个元数据库条目。在其他示例中,文档由单个人创建,复制给一个组织或部门内的许多人或所有人。这个示例中,对每个内容存储器条目来说,每个内容项可以具有数百或甚至数千个元数据库条目。
如果这里应用分段方案,情形会变得更加极端。如果文档是包含许多片段的大型文档,考虑文档将被分布到一个整体组织或部门内的示例。下一步,假设文档是从一些接收者转送到组织外的个人。同样,原始文档包含一些拼写错误。一些接收者并没有在转发前将纠正拼写错误,一些接收者将纠正一部分错误,一些接收者将纠正所有的错误,其余的将纠正将纠正另一部分错误。这将导致一些用户中的副本与原始文件一致,其余用户保存的副本以各种方式修改了原始文件。因此,修改的文件的分段可能生成也需要存储的新片段。根据不同用户做出的修改的性质,多个用户独立地创建同一文件或具有同样片段的文件。因此,从原始文档可能形成了多个相似或相关的片段,每个片段通过许多不同元数据库条目链接到不同的用户组。如果通过不同用户经过几个月或几年的时间形成不同的变化,片段和元数据库条目的网络会变得更加复杂。
因此,如果需要从内容存储器中去除数据,例如,在根据数据保存策略定义的数据保存期终止后,很难决定内容存储器条目和元数据库条目哪一个可以安全地被删除,同时留下完整和可恢复的文档的最新版本。
同样,在任何给定时间都很难确定数据库的确定性状态。例如,给定内容存储器项作为最后识别的通过归档/备份系统服务的计算机资源,已经达到预定阈值时间就被删除。因此,此项被删除。然而,此项被立即删除之前,备份代理询问片段是否具有与当前存储器中正被删除的项的特征匹配。此时,此项仍旧存在,备份代理接收到肯定答复后,不再发送片段用于存储。然而,响应询问指令后,此项立即根据数据保存方案被删除。因此,意外地造成数据丢失。
这种情况通过执行数据删除策略可以被解决,所述策略是用于避免此情况发生的可能性而设计。现在将更详细地描述这种系统。
下面描述中,假设在备份系统中实现如上述参考图5所描述的数据对象实体。同样,假设内容存储器采用连续的动作队列接收动作指令。可利用备份系统的这两个特征来去除数据,而没有意外的数据丢失。
当前示例中,实现队列机制使得在内容存储器中执行的操作连续化。内容存储器中的所有动作被添加到此队列中,并以先进先服务的方式执行,不允许任何动作绕过此队列。可能的动作例如:存储新片段,存储新的数据对象,增加已有的片段到新的数据对象的链接,增加从已有的数据对象到文件组的链接,去除从数据对象到文件组的链接,去除从片段到数据对象的链接,去除数据对象,去除片段。需要注意的是,来自备份客户机的特定询问和随后动作必须是自动的动作。例如,当备份客户机询问内容存储器特定的片段是否已经在内容存储器中,随后(在接收到肯定应答之后)为此片段请求链接动作,必须确保在询问和动作请求之间没有其他动作进入到队列中。否则,如上文所述的,数据可能会意外丢失。
如上文所述的,随着数据对象的提供和序列化动作队列的采用,数据去除过程可如下执行。该过程包括两个主要阶段,在元数据库执行的第一阶段和在内容存储器中发生的第二阶段。
在元数据库中初始化该过程,以从将被去除的文件列表开始。该列表包含在存储器中从单文件到所有文件的范围内的任何数量的文件。该列表可根据数据保存和终止策略来确定,例如,所有超过了特定期限(期限是法规或数据保持管理规定制定的)的数据被标识为去除。
如图6所示的方法。首先,在步骤S6-1中,在元数据库中,识别为将被去除文件记录的元数据记录,并且标记为过期。一旦记录被标记为过期,备份客户机就不再使用此记录作为条目点,而恢复该记录所引用的文件。接下来,在步骤S6-3中,元数据库请求内容存储器解除从标记为过期的元数据库记录到数据对象的链接。在每个数据对象引用单个文件的示例中,在这些记录之间执行一对一地解除链接。在如上文所述的常规示例中,此步骤中,由于数据对象是连接到文件组,而不是直接到元数据记录,该步骤会更为复杂,在元数据记录和数据对象之间不存在一对一关系。因此,当属于文件组1的文件A(的元数据记录)到期时,并不立刻指示去除相应的数据对象到文件组1的链接。实际上,可以想到的是,在文件组1中,称为文件B的第二文件可能与文件A具有至少一个相同特征,因此在内容存储器中与文件A引用同一数据对象。在这种情况下,不能去除在所述数据对象上到文件组1的链接。常规来说,当且仅当在文件组中的所有元数据记录引用标识为过期的同一数据对象,则允许元数据库解除文件组到特定数据对象的链接。一旦发生这种情况,文件组不再具有到所述数据对象的引用,则可有效去除此链接。
步骤S6-5中,一旦数据对象根据需要而被更新,从元数据库中可安全地去除过期的元数据记录。在一个示例中,可以立即完成此类去除。另一个示例中,过期的记录将在元数据库中保存一段时间。这个示例中,这可以允许保存历史或允许跟踪,并且会在预定的一段时间过后执行去除。
步骤S6-3中,内容存储器处理元数据库请求的解除链接的动作请求。解除数据对象链接的动作放置在内容存储器队列中,按进入队列的顺序处理。每一个解除链接动作从附加于数据对象的文件组列表中去除文件组。结果是,数据对象不再是文件组的一部分。
特定情况下,解除链接的动作会去除从数据对象到最近文件组的链接。这指示数据对象不再被任何文件组需要,因而可以被删除,除非动作队列仍包含客户机对特定数据对象的链接请求。如果这种动作存在,立即去除数据对象则会发生数据丢失。避免数据丢失的过程在图7中有更详细的描述。因此,在当前示例中,步骤S7-1中数据对象不是被立即去除,而是将去除数据对象的动作增加到内容存储器队列中。同时,内容存储器使得数据对象不可访问,或在步骤S7-3中隐藏数据对象的存在。因此,内容存储器队列中的先进先出动作确保在去除动作被处理之前,已经执行任何增加到特定数据对象的链接的动作。而且,既然队列中已增加了去除动作,当数据对象不可用时,对于该数据对象的新的链接请求将不再被增加到该队列。实际上,当备份客户机请求存储器增加到数据对象的链接时,内容存储器将响应为不再保持数据对象,然后客户机强制要求内容存储器创建新的数据对象。
因此,当内容存储器准备执行去除动作时,已经处理增加到数据对象链接的任何动作,而且在队列中没有新动作等待。因此,在执行去除动作之前,步骤S7-5中,内容存储器验证是否增加了到数据对象的任何链接。如果是,在步骤S7-7(既然数据对象仍在使用)取消去除动作,否则,在步骤S7-9执行去除动作。
当执行数据对象删除动作时(步骤S7-9中),内容存储器去除数据对象。当已去除了数据对象,不再需要从此数据对象的片段到数据对象的链接,可以在步骤S7-11中去除。因此,对每个片段来讲,内容存储器在其队列中增加解除链接的动作。这些动作增加到队列中(与立即执行相反),以允许执行为首先处理的有关片段之一的任何已预定的动作。当处理这种解除链接的动作时,片段不再链接到数据对象上。
与数据对象解除链接动作类似,片段解除链接动作去除了从片段到最后数据对象的链接。指示片段不再被任何数据对象需要,可被删除,除非动作队列仍旧包含客户机对该特定片段的链接请求。如果这种动作存在,立即去除片段会导致数据丢失。链接动作的存在事实上意味着客户机打算备份片段,但是通过内容存储器被告知该片段仍旧存在,以便在队列中放置链接动作。一旦动作存在队列中,客户机相信片段已经被有效地存储和保存。因此,返回到先前状态,在去除片段上的最后链接后立即去除片段会导致数据丢失。避免这种数据丢失的过程在图8中详细地描述。因此,不能立即去除片段,而是如步骤S8-1在内容存储器队列中增加片段去除动作,以及在步骤S8-3中内容存储器对于外部(事实上是对备份客户机)隐藏片段。当这种片段去除动作到达队列尾部、准备执行时,任何其它有关片段的动作已被增加到队列中,不再在队列中为片段增加新的动作。因此,当内容存储器准备处理片段去除动作时,步骤S8-5验证是否增加了到片段的任何链接。如果是,当片段仍旧需要时,步骤S8-7取消去除动作,否则步骤S8-9执行去除动作。
如上面所述的删除过程,除非不再被任何文件组引用,从文件组去除的数据对象实际上不是从内容存储器中删除。同样地,除非不再链接到任何数据对象上,存储的片段实际上不是从内容存储器中删除。这就是内容存储器采用单个实例来保持有效的存储规模的结果。
因此,实现文件片段的单个实例存储以达到有效存储空间利用的备份系统,可配置为根据数据保存方案允许文件和片段的删除,而不会由于删除和写指令的即时重叠导致数据丢失。
对于阅读本说明书的本领域技术人员很显然的是,可以对于上述实例作出多种修改、替换、补充以及等同方式,并且这些修改、替换、补充以及等同方式的实现并没有脱离本发明的精神和范围。

Claims (14)

1、一种采用单实例存储方案的可操作用于存储文件或文件片段的备份系统,所述备份系统包括:
元数据存储器,可操作用于存储涉及文件的元数据,其中每个元数据存储条目包括从与条目有关的所述文件计算出的、并相对所述文件唯一的特征;和
内容存储器,可操作用于:
存储属于在元数据存储条目中标识的文件的文件片段,其中片段可利用由所述片段计算出来的、并相对此片段唯一的特征来标识;
存储描述在元数据存储器中标识的文件的数据对象,其中数据对象可利用它所引用的文件的唯一特征来标识,数据对象包括包含所述文件的每个片段的片段特征的列表;和
按照时间顺序或者接收到的指令,对存储于其中的片段和数据对象执行操作,以通过内容存储动作队列执行所述动作;
其中所述备份系统可操作用于识别要删除的文件,为所述要删除的文件标记所述元数据存储条目,从所述数据对象中为所述文件去除对于所述元数据存储条目的引用,并且从所述元数据存储器中删除所述标记的元数据存储条目。
2、根据权利要求1所述的系统,其中每个数据对象可以描述不止一个文件,并且可以采用它所描述的每个文件的特征来标识。
3、根据权利要求2所述的系统,其中所述系统可操作用于在从数据对象中去除对于元数据存储条目的引用,导致所述数据对象不再描述任何文件时,删除所述数据对象。
4、根据权利要求3所述的系统,其中所述系统可操作用于将删除所述数据对象的指令增加到所述内容存储动作队列的尾部;隐藏所述数据对象;当所述删除指令到达所述内容存储动作队列的前端时,进行核对以确定自删除指令被加入所述指令队列后数据对象是否是写动作的主体;如果没有发生写动作,则删除所述数据对象。
5、根据前述任何一个权利要求所述的系统,其中所述系统可操作用于从所述数据对象中去除对于元数据存储条目的引用后,从所述数据对象中去除与所述数据对象描述的任何文件不再关联的任何片段的链接。
6、根据权利要求5所述的系统,其中所述系统可操作用于从所述数据对象去除片段链接后,如果没有数据对象链接到所述片段,则所述系统可去除所述片段。
7、根据权利要求6所述的系统,其中所述系统可操作用于将删除片段的指令增加到所述内容存储动作队列的尾部;隐藏所述片段;当所述删除指令到达所述内容存储动作队列的前端时,进行核对以确定自删除指令被加入所述指令队列后所述片段是否是写动作的主体;如果没有发生写动作,则删除所述片段。
8、一种从具有单实例存储方案的存储系统中删除文件或文件片段的方法,所述方法包括:
在元数据存储器中存储与文件有关的元数据,其中每个元数据存储条目包括从与条目有关的文件计算出的、并相对于所述文件唯一的特征;
在内容存储器中存储属于在元数据存储条目中标识的文件的文件片段,片段可利用由所述片段计算出的、并相对于所述片段唯一的特征来标识;
在内容存储器中存储描述在元数据存储器中标识的文件的数据对象,数据对象可利用它所描述的文件的唯一特征来标识,数据对象包括包含所述文件的每个片段的片段特征的列表;
对存储在所述内容存储器中的片段和数据对象产生将按照时间顺序或者接收到的指令执行的动作指令,以执行所述动作;和
识别要删除的文件;
为所述要删除的文件标记所述元数据存储条目;
从所述数据对象中为所述文件去除对于所述元数据存储条目的引用;
从所述元数据存储器中删除所述标记的元数据存储条目。
9、根据权利要求8所述的方法,其中每个数据对象可以描述不止一个文件,并且可以采用它所描述的每个文件的特征来标识。
10、根据权利要求9所述的方法,进一步包括:
如果从数据对象中删除对于元数据存储条目的引用,导致所述数据对象不再描述任何文件时,则删除所述数据对象。
11、根据权利要求10所述的方法,其中所述数据对象的删除包括:
将删除所述数据对象的指令增加到所述内容存储动作队列的尾部;
隐藏所述数据对象;
当所述删除指令到达所述内容存储动作队列的前端时,进行核对以确定自删除指令被加入指令队列后所述数据对象是否是写动作的主体;
如果没有发生写动作,则删除所述数据对象。
12、根据权利要求8到11中任何一个所述的方法,进一步包括:
为所述文件从所述数据对象中去除对于所述元数据存储条目的引用后,从所述数据对象中去除与在所述数据对象中引用的任何文件不再关联的任何片段的链接。
13、根据权利要求12所述的方法,进一步包括:
从所述数据对象去除片段链接后,如果没有数据对象链接到所述片段,则去除所述片段。
14、根据权利要求13所述的方法,其中去除片段包括:
将删除所述片段的指令增加到所述内容存储动作队列的尾部;
隐藏所述片段;
当所述删除指令到达所述内容存储动作队列的前端时,进行核对以确定自删除指令被加入指令队列后所述片段是否是写动作的主体;
如果没有发生写动作,则删除所述片段。
CNA2008101686840A 2007-03-29 2008-03-28 从单实例数据归档和/或备份环境中去除数据的系统和方法 Pending CN101393532A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/731,572 US20080243878A1 (en) 2007-03-29 2007-03-29 Removal
US11/731,572 2007-03-29

Publications (1)

Publication Number Publication Date
CN101393532A true CN101393532A (zh) 2009-03-25

Family

ID=39386788

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2008101686840A Pending CN101393532A (zh) 2007-03-29 2008-03-28 从单实例数据归档和/或备份环境中去除数据的系统和方法

Country Status (6)

Country Link
US (1) US20080243878A1 (zh)
JP (1) JP2008251010A (zh)
CN (1) CN101393532A (zh)
AU (1) AU2008201421A1 (zh)
DE (1) DE102008015662B4 (zh)
GB (1) GB2448065B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102147711A (zh) * 2010-12-31 2011-08-10 成都市华为赛门铁克科技有限公司 一种基于数据内容识别的存储方法及装置
CN102985911A (zh) * 2010-03-16 2013-03-20 科派恩股份有限公司 高度可伸缩和分布式重复数据删除
WO2013088298A1 (en) * 2011-12-15 2013-06-20 International Business Machines Corporation Data selection for data storage backup
CN107667351A (zh) * 2015-05-27 2018-02-06 谷歌公司 用于移动设备上的自动基于云的全数据备份和恢复的系统和方法
CN109710615A (zh) * 2018-12-29 2019-05-03 江苏满运软件科技有限公司 数据库的访问管理方法、系统、电子设备和存储介质
CN110874182A (zh) * 2018-08-31 2020-03-10 杭州海康威视系统技术有限公司 一种条带索引的处理方法、装置及设备
CN114489483A (zh) * 2021-12-24 2022-05-13 深圳市捷顺科技实业股份有限公司 一种基于对象储存的磁盘管理方法及对象存储模组

Families Citing this family (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080250085A1 (en) * 2007-04-09 2008-10-09 Microsoft Corporation Backup system having preinstalled backup data
US8266430B1 (en) * 2007-11-29 2012-09-11 Emc Corporation Selective shredding in a deduplication system
JP2009239855A (ja) * 2008-03-28 2009-10-15 Mitsubishi Electric Corp メタデータ管理装置
US8086502B2 (en) 2008-03-31 2011-12-27 Ebay Inc. Method and system for mobile publication
US20090319570A1 (en) * 2008-06-24 2009-12-24 Mahesh Subramanian Consolidating duplicate item images using an image identifier
US9098495B2 (en) * 2008-06-24 2015-08-04 Commvault Systems, Inc. Application-aware and remote single instance data management
US9483743B1 (en) * 2008-06-30 2016-11-01 Sprint Communications Company L.P. System and method for improving recovery of a telecommunications network from an unscheduled loss of service using repeatable requirements for applications by design criticality classification
US8818978B2 (en) 2008-08-15 2014-08-26 Ebay Inc. Sharing item images using a similarity score
US7991646B2 (en) 2008-10-30 2011-08-02 Ebay Inc. Systems and methods for marketplace listings using a camera enabled mobile device
US8055614B1 (en) * 2008-12-23 2011-11-08 Symantec Corporation Method and apparatus for providing single instance restoration of data files
US9483486B1 (en) * 2008-12-30 2016-11-01 Veritas Technologies Llc Data encryption for a segment-based single instance file storage system
US8397051B2 (en) * 2009-02-23 2013-03-12 Autonomy, Inc. Hybrid hash tables
US8090683B2 (en) * 2009-02-23 2012-01-03 Iron Mountain Incorporated Managing workflow communication in a distributed storage system
US20100215175A1 (en) * 2009-02-23 2010-08-26 Iron Mountain Incorporated Methods and systems for stripe blind encryption
US8145598B2 (en) * 2009-02-23 2012-03-27 Iron Mountain Incorporated Methods and systems for single instance storage of asset parts
US8825660B2 (en) 2009-03-17 2014-09-02 Ebay Inc. Image-based indexing in a network-based marketplace
US8255366B1 (en) 2009-03-25 2012-08-28 Symantec Corporation Segment-based method for efficient file restoration
US8762348B2 (en) * 2009-06-09 2014-06-24 Emc Corporation Segment deduplication system with compression of segments
US8401181B2 (en) * 2009-06-09 2013-03-19 Emc Corporation Segment deduplication system with encryption of segments
US8731190B2 (en) * 2009-06-09 2014-05-20 Emc Corporation Segment deduplication system with encryption and compression of segments
US8615498B1 (en) * 2009-06-19 2013-12-24 Symantec Corporation Systems and methods for migrating an object from a deduplication store to an external domain
JP2012531674A (ja) * 2009-06-26 2012-12-10 シンプリヴィティ・コーポレーション ノンユニフォームアクセスメモリにおけるスケーラブルなインデックス付け
US8478799B2 (en) 2009-06-26 2013-07-02 Simplivity Corporation Namespace file system accessing an object store
JP5254141B2 (ja) * 2009-07-14 2013-08-07 富士通株式会社 アーカイブ装置、データ格納プログラムおよびデータ格納方法
JP5500932B2 (ja) * 2009-09-30 2014-05-21 富士フイルム株式会社 内視鏡検査情報管理システム、内視鏡検査情報管理方法、内視鏡検査情報管理プログラム
US8762338B2 (en) 2009-10-07 2014-06-24 Symantec Corporation Analyzing backup objects maintained by a de-duplication storage system
US20110093439A1 (en) * 2009-10-16 2011-04-21 Fanglu Guo De-duplication Storage System with Multiple Indices for Efficient File Storage
US8914324B1 (en) 2009-10-16 2014-12-16 Symantec Corporation De-duplication storage system with improved reference update efficiency
US8121993B2 (en) * 2009-10-28 2012-02-21 Oracle America, Inc. Data sharing and recovery within a network of untrusted storage devices using data object fingerprinting
US8650159B1 (en) * 2010-08-26 2014-02-11 Symantec Corporation Systems and methods for managing data in cloud storage using deduplication techniques
CN102098339A (zh) * 2011-01-26 2011-06-15 广州酷狗计算机科技有限公司 一种音频文件传输方法及其系统
US20120271823A1 (en) * 2011-04-25 2012-10-25 Rovi Technologies Corporation Automated discovery of content and metadata
CN102368268B (zh) * 2011-10-25 2013-06-12 无锡城市云计算中心有限公司 一种实现多元数据一致性的方法
US8914338B1 (en) 2011-12-22 2014-12-16 Emc Corporation Out-of-core similarity matching
US8667032B1 (en) * 2011-12-22 2014-03-04 Emc Corporation Efficient content meta-data collection and trace generation from deduplicated storage
US8868520B1 (en) * 2012-03-01 2014-10-21 Netapp, Inc. System and method for removing overlapping ranges from a flat sorted data structure
US9934522B2 (en) 2012-03-22 2018-04-03 Ebay Inc. Systems and methods for batch- listing items stored offline on a mobile device
US10275397B2 (en) 2013-02-22 2019-04-30 Veritas Technologies Llc Deduplication storage system with efficient reference updating and space reclamation
US20140310385A1 (en) * 2013-04-16 2014-10-16 Tencent Technology (Shenzhen) Company Limited Method and server for pushing media file
CN103559106B (zh) * 2013-10-14 2016-03-02 华为技术有限公司 一种数据的备份方法、装置及系统
US9575680B1 (en) 2014-08-22 2017-02-21 Veritas Technologies Llc Deduplication rehydration
US10423495B1 (en) 2014-09-08 2019-09-24 Veritas Technologies Llc Deduplication grouping
US9866634B1 (en) * 2014-09-26 2018-01-09 Western Digital Technologies, Inc. Managing and accessing data storage systems
WO2017024288A1 (en) * 2015-08-05 2017-02-09 Chita Inc. Managing regulated content items stored on non-regulated storage platforms
US10616266B1 (en) 2016-03-25 2020-04-07 Fireeye, Inc. Distributed malware detection system and submission workflow thereof
US10671721B1 (en) * 2016-03-25 2020-06-02 Fireeye, Inc. Timeout management services
US10601863B1 (en) 2016-03-25 2020-03-24 Fireeye, Inc. System and method for managing sensor enrollment
US10785255B1 (en) 2016-03-25 2020-09-22 Fireeye, Inc. Cluster configuration within a scalable malware detection system
CN106407040B (zh) * 2016-09-05 2019-05-24 华为技术有限公司 一种远程数据复制方法及系统
US11301419B2 (en) * 2018-03-02 2022-04-12 Salesforce.Com, Inc. Data retention handling for data object stores
CN109787835B (zh) * 2019-01-30 2021-11-19 新华三技术有限公司 一种会话备份方法及装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5644698A (en) * 1996-05-30 1997-07-01 International Business Machines Corporation Configurable reuse delay criterion for storage volumes
US6038639A (en) * 1997-09-09 2000-03-14 Storage Technology Corporation Data file storage management system for snapshot copy operations
US7010554B2 (en) * 2002-04-04 2006-03-07 Emc Corporation Delegation of metadata management in a storage system by leasing of free file system blocks and i-nodes from a file system owner
US6782389B1 (en) * 2000-09-12 2004-08-24 Ibrix, Inc. Distributing files across multiple, permissibly heterogeneous, storage devices
US6865655B1 (en) * 2002-07-30 2005-03-08 Sun Microsystems, Inc. Methods and apparatus for backing up and restoring data portions stored in client computer systems
US7430570B1 (en) * 2003-04-28 2008-09-30 Ibrix, Inc. Shadow directory structure in a distributed segmented file system
US20070067332A1 (en) * 2005-03-14 2007-03-22 Gridiron Software, Inc. Distributed, secure digital file storage and retrieval
US7685175B2 (en) * 2005-08-12 2010-03-23 Michael Lee Carroll Content manager
US20070198659A1 (en) * 2006-01-25 2007-08-23 Lam Wai T Method and system for storing data

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102985911A (zh) * 2010-03-16 2013-03-20 科派恩股份有限公司 高度可伸缩和分布式重复数据删除
CN102985911B (zh) * 2010-03-16 2016-07-06 科派恩股份有限公司 高度可伸缩和分布式重复数据删除
CN102147711A (zh) * 2010-12-31 2011-08-10 成都市华为赛门铁克科技有限公司 一种基于数据内容识别的存储方法及装置
WO2013088298A1 (en) * 2011-12-15 2013-06-20 International Business Machines Corporation Data selection for data storage backup
US9087010B2 (en) 2011-12-15 2015-07-21 International Business Machines Corporation Data selection for movement from a source to a target
US9087011B2 (en) 2011-12-15 2015-07-21 International Business Machines Corporation Data selection for movement from a source to a target
CN107667351A (zh) * 2015-05-27 2018-02-06 谷歌公司 用于移动设备上的自动基于云的全数据备份和恢复的系统和方法
CN107667351B (zh) * 2015-05-27 2021-12-21 谷歌有限责任公司 用于移动设备上的自动基于云的全数据备份和恢复的系统和方法
CN110874182A (zh) * 2018-08-31 2020-03-10 杭州海康威视系统技术有限公司 一种条带索引的处理方法、装置及设备
CN110874182B (zh) * 2018-08-31 2023-12-26 杭州海康威视系统技术有限公司 一种条带索引的处理方法、装置及设备
CN109710615A (zh) * 2018-12-29 2019-05-03 江苏满运软件科技有限公司 数据库的访问管理方法、系统、电子设备和存储介质
CN114489483A (zh) * 2021-12-24 2022-05-13 深圳市捷顺科技实业股份有限公司 一种基于对象储存的磁盘管理方法及对象存储模组

Also Published As

Publication number Publication date
DE102008015662B4 (de) 2010-06-24
US20080243878A1 (en) 2008-10-02
GB2448065B (en) 2009-03-04
GB2448065A (en) 2008-10-01
JP2008251010A (ja) 2008-10-16
DE102008015662A1 (de) 2008-10-02
GB0805503D0 (en) 2008-04-30
AU2008201421A1 (en) 2008-10-16

Similar Documents

Publication Publication Date Title
CN101393532A (zh) 从单实例数据归档和/或备份环境中去除数据的系统和方法
US9639289B2 (en) Systems and methods for retaining and using data block signatures in data protection operations
US7685459B1 (en) Parallel backup
US8285689B2 (en) Distributed file system and data block consistency managing method thereof
CN104584006B (zh) 对消息传递上的附件的去重复以及对附件的自动修复
US8909881B2 (en) Systems and methods for creating copies of data, such as archive copies
US8140599B1 (en) Garbage collection for merged collections
US7689764B1 (en) Network routing of data based on content thereof
CN106021016A (zh) 在快照之间的虚拟时间点访问
CN102985911A (zh) 高度可伸缩和分布式重复数据删除
US20040139127A1 (en) Backup system and method of generating a checkpoint for a database
US20180225051A1 (en) Managing data replication in a data grid
CN104932841A (zh) 一种云存储系统中节约型重复数据删除方法
CN105144158A (zh) 使用拆毁写检测的恢复处理
US8090683B2 (en) Managing workflow communication in a distributed storage system
CN111258815B (zh) 适用于基于哈希的多节点备份系统的数据备份方法及装置
CN104679897A (zh) 一种大数据环境下的数据检索方法
CN104679896A (zh) 一种大数据环境下的智能检索方法
CN104679893A (zh) 一种基于大数据的信息检索方法
US8126852B1 (en) Merged collections
CN114003662A (zh) 基于缓存策略的区块链性能优化机制
US8312237B2 (en) Automated relocation of in-use multi-site protected data storage
CN108241556A (zh) Hdfs中数据异地备份的方法及装置
CN111400302B (zh) 连续存储数据的修改方法、装置和系统
Ou et al. Symmetric active/active metadata service for highly available cluster storage systems

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20090325