CN105493080B

CN105493080B - 基于上下文感知的重复数据删除的方法和装置

Info

Publication number: CN105493080B
Application number: CN201380078408.4A
Authority: CN
Inventors: 阿里尔·库利克; 吉尔·赛森
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2013-12-23
Filing date: 2013-12-23
Publication date: 2019-08-16
Anticipated expiration: 2033-12-23
Also published as: CN105493080A; WO2015096847A1

Abstract

本发明提供一种基于上下文感知的重复数据删除的装置和方法，所述方法包括以下步骤：通过将已写入数据的至少一个元数据加载到元数据存储器缓存(40)中以及将所述待写入数据分成数据片，分配(S1)重复数据删除模块；通过扫描所述元数据存储器缓存(40)中的所述已缓存元数据，计算(S2)每个数据分段中所述待写入数据和所述已写入数据的所述数据片的数目，所述片的数目表示所述数据分段的得分；以及调用(S3)数据分段选择进程，从而基于所述数据分段的所述得分提供数据分段集以对所述待写入数据和所述已写入数据进行重复数据删除。

Description

基于上下文感知的重复数据删除的方法和装置

技术领域

本发明涉及用于重复数据删除的上下文感知数据分段选择领域，尤其涉及一种基于上下文感知的重复数据删除的方法和装置。

背景技术

重复数据删除是一种用于删除重复数据或片(chunk)的副本的专用数据压缩技术，对于备份很有用。重复数据删除机制大多数都有要求过多的资源或低的吞吐量的问题，因此为了在商业产品中实现重复数据删除，需要更成熟的机制。

实现重复数据删除的常见技术之一是将数据片保存容器/分段中,维护接收到的数据的局部性特征。

常见技术通常结合缓存利用若干索引技术来解决上述问题。在现有技术系统中，一个索引已经维护了存储在系统中的片的指纹的全部或部分(稀疏)索引。这些系统通过在索引对传入的块(block)中的片的部分或所有指纹的查找操作找到用于对块中的数据进行重复数据删除的容器或分段。

不同技术在索引的实施方式(基于RAM或基于RAM和磁盘的组合)、索引中的指纹数目和为索引选择指纹的方式、在索引中查询的片集或其它变量方面有所不同。

发明内容

本发明的目的是提供一种用于重复数据删除系统的一种改进技术，用以存储备份数据。

该目的由独立权利要求的特征来实现。其它实施方式从从属权利要求、描述内容和附图中可直接获得。

根据第一方面，提供了一种基于上下文感知的重复数据删除的方法，所述方法包括以下步骤：通过将已写入数据的至少一个结构元数据加载到元数据存储器缓存中以及将所述已缓存的待写入数据分成数据片，将重复数据删除模块分配给写操作；通过扫描所述元数据存储器中的所述已缓存的结构元数据，计算每个数据分段中所述待写入数据的所述数据片的数目，所述数据片的数目表示所述数据分段的得分；以及调用数据分段选择进程，从而基于所述数据分段的所述得分提供数据分段集以对所述待写入数据进行重复数据删除。

在这种技术中，为了执行重复数据删除，接收到的数据片序列被合并到块中，在块的第一位置处给出所述传入数据。以有限数目的分段中的片对片进行重复数据删除。

对于每个块，重复数据删除机制需要确定对块进行重复数据删除的分段集，该过程被称为分段选择。需要选择机制满足高性能约束，而且选择机制对获得的重复数据删除率具有显著影响。

备份系统被用来创建、存储和恢复卷或文件系统的快照集合，即一个卷或多个卷，或者一个或多个文件系统。所述备份系统的工作原理是生成初始全量备份，即一个快照，以及多个增量备份或多个快照，初始全量备份包含所有相关数据。

在计算机系统中，一个快照是系统在特定时间点的状态。所述术语作为摄影技术中的类比而被创造。它可以指代系统状态的实际副本或者指代某个系统，例如文件系统提供的能力。

增量备份只包含快照内容的子集。为了访问全部快照的内容，要使用快照和先前快照中的数据。在两种技术中，正在备份的块/区域/文件在先前快照生成的备份系统中存在先前版本。

本发明解决用于存储备份数据的重复数据删除系统中的分段选择问题。本发明还可以用于主存储系统的重复数据删除。

本发明包括结合专用接口的一系列步骤。通过将不同技术与备份系统和重复数据删除部件之间的上下文感知接口结合解决该问题。

本发明旨在具有固定大小的块的基本IO范围的重复数据删除系统的环境中实施，其中单个块大小的范围是1MB至10MB。然而，本发明的基本理念可以在不同设置中通过合适调整来实现。

根据本发明，为了存储块，所述系统维护元数据对象，对于块中的每个数据片，其包含片的哈希值、和片的数据所在的分段的ID，或类似信息。这些对象被称为块元数据对象。实际上，本发明将在重复数据删除系统中实现或在任何其它读/写或数据存储系统中实现。

本发明的接口组件用于备份系统以逻辑块位置和版本等上下文感知的方式或通过逻辑块处理重复数据删除引擎中的块，其中所述操作覆盖所述数据的所述先前版本。

所述一系列步骤可以是以下内容：在写命令时，重复数据删除引擎将所述逻辑块和相邻逻辑块的所述先前版本中的所述块元数据文件加载至存储器。

从磁盘加载的所述数据称为本地元数据。对于所述本地元数据中的每个分段ID，计算所述待写入块和与所述分段ID关联的所述本地元数据中的片的数目。为每个分段ID计算的值是它的得分。调用分段选择机制，同样产生分段集合。

本发明有利于使用两种工具带来的信息以确定进行重复数据删除的分段集。

在增量和全量备份两种情况下，块的新版本与相同块或相邻块的先前版本具有极大相似性的可能性很高。一种好的示例就是在具有4MB粒度的增量备份中，4k的变化将导致4MB数据写入到重复数据删除引擎进行去重。当以块的先前版本进行重复数据删除时，这种写入几乎可以全部删除。

重复数据删除技术没有感知到重复数据删除时涉及的上下文，因此很难定位先前版本和使用相关进行重复数据删除。

本发明提供一种资源节省机制，其确保使用先前版本逻辑块和相邻逻辑块中的数据对新块中的数据进行重复数据删除。因此，本发明以较小的资源开销获得了重复数据删除率的显著提升。

本发明的实施方式有利地揭示使用备份组件到重复数据删除组件之间的特定接口以及使用来自接口的信息进行重复数据删除处理。

在根据所述第一方面的所述方法的第一可能实现方式中，所述分配所述重复数据删除模块的步骤包括利用所述已写入数据的上下文感知处理或利用所述已写入数据的逻辑块寻址生成所述元数据。

这有效地提高了在线重复数据删除效率。

在根据如上所述第一方面或根据所述第一方面的所述第一实现方式的所述方法的第二可能实现方式中，所述通过加载所述已写入数据的所述至少一个元数据分配所述重复数据删除模块的步骤包括加载所述已写入数据的先前版本和/或加载所述已写入数据的多个先前版本中的任何版本和/或加载所述已写入数据的相邻数据块。

因此，通过重复数据删除实现了高存储效率。

在根据如上所述第一方面或根据所述第一方面的任意前述实现方式的所述方法的第三可能实现方式中，在所述将所述已缓存的待写入数据分成所述数据片的步骤过程中，对所述已写入数据和所述待写入数据的至少一个哈希值进行计算。

在根据如上所述第一方面或根据所述第一方面的任意前述实现方式的所述方法的第四可能实现方式中，所述已写入数据是一个数据块。

这有利地提供了一种有效存储数据的方法，在备份期间识别和删除重复的数据块。

在根据所述第一方面的所述方法的所述第四可能实现方式的所述方法的第五可能实现方式中，所述数据块是字节序列，具有1兆字节至10兆字节之间的块大小或任何其它块大小。

在根据所述第一方面的所述方法的所述第四可能实现方式或根据所述第一方面的所述方法的所述第五可能实现方式的所述方法的第六可能实现方式中，所述数据块的大小不是固定的。

这允许将所述数据块大小优化调整到满足所述重复数据删除方法的要求。

在根据如上所述第一方面或根据所述第一方面的任意前述实现方式的所述方法的第七可能实现方式中，每个数据片是字节序列，具有1千字节、2千字节、4千字节、8千字节的平均片大小或者1千字节至512千字节之间的任意大小。

这有利地提高了在线重复数据删除效率。

在根据如上所述第一方面的所述装置的所述第七可能实现方式的所述方法的第八可能实现方式中，所述数据片的大小是可变的。

根据第二方面，本发明涉及一种基于上下文感知的重复数据删除的装置，所述装置包括：重复数据删除模块，用于将已写入数据的至少一个结构元数据加载到元数据存储器缓存中以及将所述已缓存的待写入数据分成数据片；处理模块，用于通过扫描所述元数据存储器中的所述已缓存结构元数据，计算每个数据分段中所述待写入数据中现有的片的数目，所述数据片的数目表示所述数据分段的得分；以及数据选择模块，用于基于所述数据分段的所述得分提供数据分段集以对所述待写入数据进行重复数据删除。

根据第三方面，本发明涉及一种包括文件系统和根据所述第二方面的装置的备份系统。

本文所述的方法、系统和设备可以作为数字信号处理器(DSP)、微处理器或任何其它边处理器中的软件或者作为专用集成电路(ASIC)或现场可编程门阵列内的硬件电路实施，该现场可编程门阵列是一种设计由客户或设计者在制造后配置的集成电路，因此是“现场可编程的”。

本发明可以在数字电子电路，或计算机硬件、固件、软件，或其组合中实施，例如，在传统移动设备的可用硬件或专用于处理本文所述方法的新硬件中实施。

附图说明

本发明的其它实施方式将结合以下附图进行描述，其中：

图1所示为本发明一项实施例包括文件系统和基于上下文感知的重复数据删除的装置的备份系统的示意图；

图2所示为根据本发明一实施例的核心数据布局的示意图；

图3所示为根据本发明又一实施例的基于上下文感知的重复数据删除的方法的方框图；以及

图4所示为根据本发明又一实施例的基于上下文感知的重复数据删除的方法的方框图。

具体实施方式

在相关附图中，相同参考标号表示相同或至少等效元件、组件、单元或步骤。另外，需要说明的是，相关附图并不是本发明的所有附图。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

显然，所描述的实施例只是本发明一些实施例，而不是全部的实施例。基于本发明所描述的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

图1所示为根据本发明一项实施例包括文件系统和基于上下文感知的重复数据删除的装置的备份系统的示意图。

图1所示为本发明一实施例，其中示出了重复数据删除装置100及其写入路径。重复数据删除装置100利用稀疏索引的概念作为定义机制的一部分。本发明所示出的实施例关于重复数据删除部件或装置100，其从备份系统BS接收写、读和删除命令。装置100可以在备份系统BS和文件系统FS之间耦合。

用于基于上下文感知的重复数据删除的装置100可以包括重复数据删除模块10、处理模块20、数据选择模块30和元数据存储器缓存40。

重复数据删除模块10可以用于将已写入数据的至少一个结构元数据加载到元数据存储器缓存中以及将已缓存的待写入数据分为数据片。

处理模块20可以用于通过扫描元数据存储器中的已缓存的结构元数据计算每个数据分段中待写入数据中现有的片的数目，片的数目表示数据分段的得分。

数据选择模块30可以用于基于数据分段的得分提供数据分段集以对待写入数据进行重复数据删除。

元数据存储器缓存40可以用于接收和存储待写入数据的至少一个元数据和已写入数据的至少一个元数据。

一系列步骤可以是以下内容：在写命令时，重复数据删除引擎将逻辑块和相邻逻辑块的先前版本中的块元数据文件加载至存储器。

例如，重复数据删除系统接口可以是：

写(块逻辑位置(字符串)、版本ID(整数)、数据(缓冲器))

读(块逻辑位置(字符串)、版本ID(整数)、数据(缓冲器))

删除(块逻辑位置(字符串)、版本ID(整数))，然而备份系统将使用逻辑块位置作为数据源的唯一标识符，以及获取数据块的位置，例如“storage array name/lun id/offset”。

主机节点HN将待保存数据，即待写入数据，提供给备份系统BS。待保存数据或待写入数据可以以从主机节点HN发给备份系统BS的4MB的数据块而存在。备份系统BS可以将从主机节点HN读取的数据块发送给重复数据删除系统，即装置100。

本发明中，主机节点HN(拉丁文nodus，‘结点’)可以是一个连接点、重分布点或通信端点(某个终端设备)。

网络主机节点HN可以是连接到计算机网络的计算机。网络主机节点HN可以提供信息资源、业务和应用给用户或网络上的其它节点。网络主机节点HN可以是分配有网络层主机地址的网络节点。

根据本发明，文件系统FS用于控制信息如何存储和获取。

文件系统FS可以在多种不同种类的存储设备上使用。每个存储设备可以使用不同种类的介质。使用的介质可以是磁带、光盘和闪存。在某些情况下，计算机的主存储器、随机存取存储器、RAM或任何其它形式的计算机数据存储器用于创建供短期使用的临时文件系统。

术语“文件系统”可以指用于定义文件的抽象数据结构，或实现抽象概念的实际软件或固件组件。

由于文件系统、任何系统可以在本地数据存储设备上使用，所以其它系统将通过网络协议(例如，网络文件系统(NFS)、服务器消息块(SMB)或计划9(9P)客户端)提供文件访问。文件系统可以是“虚拟的”，因为提供的“文件”根据请求(例如，进程文件系统)计算，或者仅仅是到用作常备存储的不同文件系统的映射。文件系统FS管理到文件内容和关于这些文件的元数据的访问。

备份系统BS可以包括多个客户端计算机和一个备份服务器计算机，该备份服务器计算机包括自动执行客户端计算机中数据的常规备份的构件。

可选地，在本发明的一项实施例中，每个命令涉及从正在备份的驱动器中读取的4MB数据块。重复数据删除装置100通过写入重复数据删除的数据块将数据存储在文件系统FS上。

写操作或基于上下文感知的重复数据删除的方法可以根据以下内容进行：

在写操作的第一步骤中，写命令到达重复数据删除系统。

在写操作的第二步骤中，指定待写入和待保存的数据块被划分成片，即，计算数据块的哈希值。

在写操作的第三步骤中，执行：读取块和附近块的先前版本的块元数据文件。对于这些块元数据文件中的每个分段，执行：计算相同块元数据文件中的片的数目，其中基于指纹处理块元数据文件，块元数据文件属于特定分段并且还出现在写命令的内容中。随后，该数目被设置为分段的得分。

例如，当系统接收命令“写(磁盘7/块8，版本5，【某一数据缓冲器】)”时，系统将加载“磁盘7/块8”和“版本4”的块元数据。另一示例是由例如Microsoft HyperV的VMware ESX等虚拟机管理程序创建的虚拟机的快照。

在写操作的第四步骤中，执行：将查找命令发送给写命令中的每个片的索引。

在写操作的第五步骤中，执行：选择以下分段进行重复数据删除：

a)如果存在四个以上分段的得分高于待写入数据中的片数目的0.1倍，则选择四个具有最高得分的分段。

b)如果少于四个分段的得分大于待写入数据中的片数目的0.1倍，则选择所有这些分段，并且还选择在写操作的步骤4的查找中找到的分段，所以所选择分段的总数目不超过4。

在写操作的第六步骤中，所选分段从磁盘中加载，而且以所选分段中的片进行重复数据删除。将非重复数据删除的片被写入新的分段中。

在写操作的第七步骤中，将新的块元数据文件保存到文件系统FS。

图2所示为根据本发明一实施例的核心数据布局的示意图。

系统的如图2所示的核心数据布局在下文进行描述：

以少量分段中的数据片对单个块进行重复数据删除。两种机制用于选择进行重复数据删除的分段：

首先，使用稀疏索引技术，其拥有每个分段的几个代表性形式。索引用于确定传入块到任意分段之间的相似性。

其次，当接收写命令到某个块时使用上下文感知的重复数据删除方法，前端加载块和附近块的先前版本的块元数据文件。块元数据文件中的信息被用来识别与新写入中数据共享片的分段。

可选地，在本发明的一项实施例中，每个操作涉及一个数据块，其中每个数据块的大小是4MB。系统支持三种基本I/O操作：写、读和删除操作。下文将描述用于写操作的写命令：

可选地，在本发明的一项实施例中，块寻址的形式为逻辑块ID。

可选地，在本发明的一项实施例中，块通过可变大小分片被划分为片，平均大小为8kb。

可选地，在本发明的一项实施例中，数据片由其数据的哈希值表示，哈希值通常被称为指纹，即，通过从数据中提取称为指纹的小密钥来唯一地标识数据。

可选地，在本发明的一项实施例中，引擎将数据保存在分段中，其中每个分段持续存储片集。

可选地，在本发明的一项实施例中，为了表示块，使用块元数据文件BMD。该文件包含片或哈希值的列表，其包括块数据。对于每个片，文件还包括分段的分段ID，可以在分段中找到片的数据。

可选地，在本发明的一项实施例中，利用数据分段的元数据创建分段中的片的哈希值。

图3所示为根据本发明一项实施例的基于上下文感知的重复数据删除的方法的方框图。

作为该方法的第一步骤，分配S10关于逻辑块或另一版本的写命令。

作为基于上下文感知的重复数据删除的方法的第二步骤，执行：将块划分S11为片并计算哈希值。

作为该方法的第三步骤，执行：加载S12块的先前版本或仅块的一个先前版本的元数据对象，或/和相邻块的先前或当前版本的元数据对象。

作为基于上下文感知的重复数据删除的方法的第四步骤，执行：使用S13一般技术或常规技术进行分段选择。

作为该方法的第五步骤，执行：计算S14每个分段ID的得分。

作为该方法的第六步骤，执行：使用S15两种技术中的信息，第二和第四步骤以及第三和第五步骤，来确定进行重复数据删除的分段集。

第二和第四步骤S11、S13以及第三和第五步骤S12、S14可以通过并行处理或同时执行多个计算的任何其它形式的计算来实施。

这些步骤随后同时(“并行”)被解决。存在使用过的若干不同形式的并行计算：位级、指令级、数据和任务并行操作。

图4所示为根据本发明一项实施例的基于上下文感知的重复数据删除的方法的方框图。

一种基于上下文感知的重复数据删除的方法，该方法包括以下步骤：

作为该方法的第一步骤，通过将已写入数据的至少一个结构元数据加载到元数据存储器缓存中和将已缓存的待写入数据分成数据片将重复数据删除模块分配S1给写操作。

作为该方法的第二步骤，通过扫描元数据存储器40中的已缓存的结构元数据计算S2每个数据分段中的待写入数据的数据片的数目，片的数目表示数据分段的得分。

作为该方法的第三步骤，执行：调用S3数据分段选择流程，从而基于数据分段的得分提供数据分段集以对待写入数据进行重复数据删除。

通过阅读以上内容，所属领域的技术人员将清楚地了解，可提供多种方法、系统、记录媒体上的计算机程序及其类似者等等。

本发明还支持包含计算机可执行代码或计算机可执行指令的计算机程序产品，这些计算机可执行代码或计算机可执行指令在执行时使得至少一台计算机执行本文所述的执行及计算步骤。

通过以上启示，对于本领域技术人员来说，许多替代产品、修改及变体是显而易见的。当然，所属领域的技术人员容易意识到除本文所述的应用之外，还存在本发明的众多其它应用。

虽然已参考一个或多个特定实施例描述了本发明，但所属领域的技术人员将认识到在不偏离本发明的范围的前提下，仍可对本发明做出许多改变。

因此，应理解，只要是在所附权利要求书及其等同的范围内，可以用不同于本文具体描述的方式来实施本发明。

在权利要求书中，词语“包括”不排除其它元素或步骤，不定冠词“一”不排除多个。单个处理器或其它单元可以实现权利要求中列举的若干项目的功能。

在仅凭某些措施被记载在相互不同的从属权利要求书中这个单纯的事实并不意味着这些措施的结合不能被有效地使用。计算机程序可存储或分发到合适的介质上，例如与其它硬件一起或者作为其它硬件的部分提供的光存储介质或者固态介质，还可以以其它形式例如通过因特网或者其它有线或无线电信系统分发。

Claims

1.一种基于上下文感知的数据重复数据删除的方法，其特征在于，包括：

通过将已写入数据的至少一个结构元数据加载到元数据存储器缓存(40)中以及将已缓存的待写入数据分成数据片，将重复数据删除模块分配(S1)给写操作；

通过扫描所述元数据存储器缓存(40)中的所述已缓存的结构元数据，计算(S2)每个数据分段中所述待写入数据的所述数据片的数目，所述片的数目表示所述数据分段的得分；以及

调用(S3)数据分段选择进程，从而基于所述数据分段的所述得分提供数据分段集以对所述待写入数据进行重复数据删除。

2.根据权利要求1所述的方法，其特征在于，分配(S1)所述重复数据删除模块包括利用所述已写入数据的上下文感知处理或利用所述已写入数据的逻辑块寻址生成所述元数据。

3.根据权利要求1或2所述的方法，其特征在于，

通过加载所述已写入数据的所述至少一个元数据分配(S1)所述重复数据删除模块包括加载所述已写入数据的先前版本和/或加载所述已写入数据的多个先前版本中的任何版本和/或加载所述已写入数据的相邻数据块。

4.根据前述权利要求1或2所述的方法，其特征在于，

在将已缓存的所述待写入数据分成所述数据片过程中，对所述已写入数据和所述待写入数据的至少一个哈希值进行计算。

5.根据前述权利要求1或2所述的方法，其特征在于，

所述已写入数据是一个数据块。

6.根据权利要求5所述的方法，其特征在于，

所述数据块是一个字节序列，具有在1兆字节至10兆字节之间的块大小或任何其它块大小。

7.根据权利要求5所述的方法，其特征在于，

所述数据块的大小不是固定的。

8.根据前述权利要求1或2所述的方法，其特征在于，

每个数据片是一个字节序列，具有1千字节、2千字节、4千字节、8千字节的平均片大小或1至512千字节之间的任何大小。

9.根据权利要求8所述的方法，其特征在于，

所述数据片的大小是可变的。

10.一种基于上下文感知的重复数据删除的装置(100)，其特征在于，所述装置包括：

重复数据删除模块(10)，用于将已写入数据的至少一个结构元数据加载到元数据存储器缓存(40)中以及将已缓存的待写入数据分成数据片；

处理模块(20)，用于通过扫描所述元数据存储器缓存(40)中的所述已缓存的结构元数据计算每个数据分段中所述待写入数据的所述数据片的数目，所述片的数目表示所述数据分段的得分；以及

数据选择模块(30)，用于基于所述数据分段的所述得分提供数据分段集以对所述待写入数据进行重复数据删除。

11.一种主机节点HN的备份系统BS，其特征在于，包括文件系统FS和根据权利要求10所述的基于上下文感知的重复数据删除的装置(100)。

12.一种带有程序代码的计算机介质，其特征在于，当所述程序代码在计算机上运行时，所述程序代码用于执行权利要求1至9中的任一权利要求所述的方法。