CN111857550B

CN111857550B - 用于数据去重的方法、设备以及计算机可读介质

Info

Publication number: CN111857550B
Application number: CN201910355283.4A
Authority: CN
Inventors: 张明; 吕烁; 宫晨
Original assignee: EMC IP Holding Co LLC
Current assignee: EMC Corp
Priority date: 2019-04-29
Filing date: 2019-04-29
Publication date: 2024-03-22
Anticipated expiration: 2039-04-29
Also published as: US11829624B2; US20200341670A1; CN111857550A

Abstract

本公开的实施例提供了用于数据去重的方法、设备以及计算机可读介质。该方法包括：在存储装置中分配存储区域，该存储区域包括用于存储不可压缩的数据块的第一存储段和用于存储经压缩的数据块的第二存储段，该第一存储段具有的第一尺寸大于该第二存储段具有的第二尺寸；响应于接收到写请求，确定该写请求涉及的数据块是否可压缩；响应于确定该数据块不可压缩，向该数据块添加报头信息以生成具有该第一尺寸的第一数据段；以及通过去重操作将该第一数据段存储在该第一存储段中。本发明的实施例能够提高数据去重的灵活性和效率。

Description

用于数据去重的方法、设备以及计算机可读介质

技术领域

本公开的实施例涉及数据存储领域，并且更具体地，涉及用于数据去重的方法、设备以及计算机可读介质。

背景技术

目前，数据存储中通常采用各种虚拟化技术来提供数据冗余，以提升安全性。然而，这种方式的一个缺点在于，备份设备中往往存储着大量的冗余数据。已经提出了数据去重技术(又称重复数据删除技术)以减少存储系统中使用的存储容量。数据去重技术基于与待存储的数据相对应的逻辑块到物理存储空间的映射。响应于确定待存储的数据已经被存储在物理存储空间中，数据去重操作仅仅将该数据的逻辑块映射到物理存储空间；在相反的情形下，数据去重操作在物理存储空间中存储该数据。然而，常规的数据去重操作需要对数据进行压缩后进行，以将经压缩的数据存储在压缩数据专用的存储空间中。对于不可压缩的数据，则直接进行存储操作而不进行数据去重操作。这对于数据需要被去重但是不可压缩的情况是不利的。因此，需要一种改进的用于数据去重的方案，使得针对不可压缩数据同样能够进行数据去重操作，从而显著提高了数据去重的灵活性和效率。

发明内容

本公开的实施例提供一种改进的用于数据去重的方案。

在本公开的第一方面中，提供了一种用于数据去重的方法。该方法包括：在存储装置中分配存储区域，该存储区域包括用于存储不可压缩的数据块的第一存储段和用于存储经压缩的数据块的第二存储段，该第一存储段具有的第一尺寸大于该第二存储段具有的第二尺寸；响应于接收到写请求，确定该写请求涉及的数据块是否可压缩；响应于确定该数据块不可压缩，向该数据块添加报头信息以生成具有该第一尺寸的第一数据段；以及通过去重操作将该第一数据段存储在该第一存储段中。

在本公开的第二方面中，提供了一种电子设备。该设备包括：一个或多个处理器；以及存储装置，用于存储一个或多个程序，当该一个或多个程序被该一个或多个处理器执行时，使得该一个或多个处理器执行动作，该动作包括：在存储装置中分配存储区域，该存储区域包括用于存储不可压缩的数据块的第一存储段和用于存储经压缩的数据块的第二存储段，该第一存储段具有的第一尺寸大于该第二存储段具有的第二尺寸；响应于接收到写请求，确定该写请求涉及的数据块是否可压缩；响应于确定该数据块不可压缩，向该数据块添加报头信息以生成具有该第一尺寸的第一数据段；以及通过去重操作将该第一数据段存储在该第一存储段中。

在本公开的第三方面中，提供了一种计算机存储介质。该计算机存储计算介质上存储有计算机可读指令，该计算机可读指令在被执行时使设备执行根据第一方面的方法。

提供发明内容部分是为了以简化的形式来介绍对概念的选择，它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或必要特征，也无意限制本公开的范围。

附图说明

通过结合附图对本公开示例性实施例进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施例中，相同的参考标号通常代表相同部件。

图1示出了常规的用于数据去重的系统的示意图；

图2示出了本公开的实施例可以在其中被实现的系统的示意图；

图3示出了根据本公开的实施例的用于数据去重的方法的流程图；

图4示出了根据本公开的实施例的确定数据块是否可压缩的方法的流程图；

图5示出了根据本公开的实施例的通过去重操作将第一数据段存储在第一存储段中的方法的流程图；

图6A至图6D示出了根据本公开的实施例的在图5所示方法中的逻辑块、存储区域和特征值组的状态变化的示意图；

图7示出了根据本公开的实施例的在已经确定数据块可压缩时的用于数据去重的方法；

图8示出了根据本公开的实施例的通过去重操作将第二数据段存储在第二存储段中的方法的流程图；以及

图9示出了可以用来实施本公开的实施例的示例设备的示意性框图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。除非特别申明，术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

如以上讨论的，本公开的实施例提供了一种针对不可压缩的数据同样能够进行数据去重操作的改进方案。在数据存储当中，存在大量的不可压缩的文件或数据，诸如镜像文件、安装包文件、视频流等。在常规的数据去重方案中，并不对这些不可压缩的文件或数据执行数据去重操作，而是将这些文件或数据直接存储到存储装置中，由此造成存储装置的存储区域的浪费。为了解决上述问题，本公开提出了改进的用于数据去重的方法、设备以及计算机存储介质，通过在存储装置中分配存储区域、其中存储区域包括用于存储不可压缩的数据块的第一存储段和用于存储经压缩的数据块的第二存储段，使得针对可压缩数据和不可压缩数据均能够进行数据去重操作，从而提高了数据去重的灵活性和效率。

图1示出了常规的用于数据去重的系统100的示意图。系统100包括多个客户端110、网络120、高速缓存130、处理器140和存储装置150。

客户端110经由网络120从存储装置150读取数据或者向存储装置150写入数据。在一些实现中，客户端110经由网络120向处理器140发出读请求或写请求，处理器140响应于该读请求和/或写请求而在存储装置150中读写数据。客户端110包括但不限于移动电话、台式计算机、膝上型计算机、平板电脑、智能手表以及其他形式的人机交互终端。网络120包括有线和/或无线的形式。

在下文中，将基于客户端110向存储装置150写入数据、即客户端110向处理器140发出写请求的情况来描述用于数据去重的系统和操作。

当处理器140从客户端110接收到写请求时，该写请求涉及的待写入数据将首先被存储在与网络120连接的高速缓存130中。高速缓存130用于临时地存储待写入数据，并且对待写入数据进行预处理。在一些实现中，预处理包括对待写入数据进行压缩，以确定该待写入数据是否可压缩。在一些实现中，待写入数据包括多个数据块，每个数据块具有固定尺寸。在一些实现中，经压缩的每个数据块被添加报头信息后生成数据段，以用于去重操作。经高速缓存130预处理的待写入数据由处理器140进一步存储在存储装置150中。

处理器140耦合到高速缓存130和存储装置150，并且被配置为执行常规的数据去重操作。在一些实现中，处理器140响应于接收到写请求而在存储装置150中创建下文将要描述的逻辑块到存储区域的映射。在一些实现中，处理器140在存储装置150中创建与不同的数据块相对应的逻辑块152、154和156。在一些实现中，处理器140根据在高速缓存130中确定的待写入数据是否可压缩，将不同的逻辑块经由映射器158映射到存储装置150中不同的存储区域160和166。在一些实现中，处理器140还更新存储装置150中的元数据168。

存储装置150包括多个动态分配的存储区域，以用于存储写入数据。在图1中示出了两个存储区域160和166，其中存储区域160用于存储可压缩的数据块，并且存储区域166用于存储不可压缩的数据块。存储区域160包括多个存储段，在图1中被例示为存储段162和164。由于每个存储段具有的最大尺寸等于单次去重操作所涉及的数据块的固定尺寸，因此每个存储段的尺寸仅允许存储经压缩的数据块，并且无法存储不可压缩的数据块。存储装置150中其他的存储区域并未在图1中示出。

存储装置150还存储逻辑块152和154到存储区域160的映射。逻辑块152和154是与由处理器140确定的可压缩的数据块相对应的逻辑块，并且因此经由映射器158映射到存储区域160。映射器158用于建立逻辑块152和154到存储区域160的映射，并且特别地包括分别指向存储区域160中的两个存储段162和164的指针，该指针分别指向存储与逻辑块152和154相对应的经压缩的数据块(包括报头信息)的存储段162和164。逻辑块——映射器——存储区域的映射关系用于实现可压缩的数据块的数据去重操作。

在图1中，逻辑块156是与由处理器140确定的不可压缩的数据块相对应的逻辑块，并且因此不经由映射器158映射到存储区域160，而是直接映射到存储区域166。由此，该不可压缩的数据块(包括报头信息)的内容被直接存储在存储区域160中，并且无法参与数据去重操作。

存储装置150还存储有元数据168，元数据168包括用于数据去重的特征值组(图1中未示出)。该特征值组包括分别与不同经压缩的数据块相对应的不同特征值，每个特征值用于标识相应的经压缩的数据块的唯一性。在图1的数据去重操作中，当判断特征值未存在于特征值组中时，将该特征值对应的经压缩的数据块存储在存储区域160中可用的存储段中，并且更新映射关系。反之，仅更新映射关系，以指示该特征值对应的经压缩的数据块已被存储在存储区域160中。由此，实现了经压缩的数据块的去重操作。在一些实现中，元数据168还包括其他数据，诸如事务日志等。

由此，基于图1中的系统100，处理器140仅能够对经压缩的数据块执行数据去重操作，而无法对不可压缩的数据块执行数据去重操作。在处理器140确定数据块不可压缩时，仅将该数据块不经去重操作而直接存储在存储装置150的存储区域166中。当存在大量的不可压缩的数据块时，这可能造成存储区域的显著占用，并且由此显著地影响数据去重的效率。

本公开的实施例提出了一种改进的用于数据去重的方法。该改进方法在存储区域中分别设置用于存储不可压缩的数据块的第一存储段和用于存储经压缩的数据块的第二存储段，并且通过去重操作来分别存储不可压缩的数据块和经压缩的数据块。该改进方法实现了针对可压缩数据和不可压缩数据两者的数据去重操作，并且由此提高了数据去重的灵活性和效率。

图2示出了本公开的实施例可以在其中被实现的系统200的示意图。图2的系统200与图1的系统100的不同之处在于，在系统200中，存储装置150’包括多个动态分配的存储区域，但是每个存储区域包括用于存储不可压缩的数据块的第一存储段和用于存储经压缩的数据块的第二存储段。在图2中示出了一个这样的存储区域210，存储区域210包括第一存储段216以及第二存储段212和214。在一些实施例中，第一存储段216具有的第一尺寸大于第二存储段212和214具有的第二尺寸，以允许不可压缩的数据块被存储在第一存储段216中。

此外，在系统200中，当与逻辑块156对应的数据块由处理器140’确定为不可压缩时，逻辑块156也经由映射器158映射到存储装置150’中分配的存储区域，该存储区域在图2中示出为存储区域210。进一步地，存储装置150’中存储的元数据168’包括用于数据去重的特征值组，该特征值组包括分别与不同数据块相对应的不同特征值，使得该特征值组既包括与经压缩的数据块相对应的不同特征值，也包括与不可压缩的数据块相对应的不同特征值。

由此，基于图2中的系统200，处理器140’能够对经压缩的数据块和不可压缩的数据块两者执行数据去重操作。数据去重操作与上文参照图1的数据去重操作相类似，并且在这里省略具体描述。在处理器140’确定数据块不可压缩时，通过去重操作将与该数据块对应的逻辑块156经由映射器158映射到存储区域210中的第一存储段216。在处理器140’确定数据块可压缩时，通过去重操作将与该数据块对应的逻辑块152和154经由映射器158映射到存储区域210中的第二存储段212和214。在存储装置150’中分配的存储区域210包括具有不同尺寸的第一存储段和第二存储段，提供了将具有不同压缩率的数据块构建在映射关系中的可能性，并且能够对具有不同压缩率的数据块实现去重操作。

为了简化的目的，存储装置150’中的逻辑块、映射器和存储区域的数目仅作为示例。在实际情况中，存在比图2中示出的多得多的逻辑块、映射器和存储区域。

另外，在一些实施例中，每个存储区域具有多个第一存储段和多个第二存储段。在一些实施例中，不同的第二存储段具有不同的第二尺寸，以用于存储具有不同压缩率的数据块。

下文将参照流程图来对本公开的实施例作进一步描述。图3示出了根据本公开的实施例的用于数据去重的方法300的流程图。方法300可以由图2中的处理器140’来执行。

参见图3，在框302，处理器140’在存储装置中分配存储区域，存储区域包括用于存储不可压缩的数据块的第一存储段和用于存储经压缩的数据块的第二存储段，第一存储段具有的第一尺寸大于第二存储段具有的第二尺寸。

如上所述，每个数据块具有固定尺寸。作为示例，每个数据块具有的尺寸为8KB。当数据块被确定为不可压缩时，添加了报头信息的该数据块(下文将被称为“数据段”)具有大于8KB的尺寸。在图1所示的常规系统100中，由于每个存储段具有8KB的最大尺寸，因此基于不可压缩的数据块生成的数据段将无法存储在存储段中。在本公开的实施例中，在存储区域中专门分配用于存储不可压缩的数据块的第一存储段。在该示例的情况下，第一存储段具有大于8KB的第一尺寸，而第二存储段具有的第二尺寸小于第一尺寸。由此，通过在存储区域中分配具有不同尺寸的第一存储段和第二存储段，使得具有不同压缩率的数据块均通过去重操作而被存储在存储装置中，提高了数据去重的灵活性和效率。

在框304，响应于接收到写请求，确定写请求涉及的数据块是否可压缩。在一些实施例中，针对一次写请求涉及的数据文件包括的多个数据块来单独地确定每个数据块是否可压缩。确定数据块是否可压缩的目的在于判断该数据块应当存储在第一存储段中还是第二存储段中。

下面转向图4，图4示出了根据本公开的实施例的确定数据块是否可压缩的方法400的流程图。方法400是框304处的操作的一个实施例。

方法400开始于框402，对数据块进行压缩。在一些实施例中，数据块在图2的高速缓存130中由处理器140’进行压缩。在一些实施例中，对数据块的压缩采用已有的有损压缩算法和无损压缩算法，诸如霍夫曼编码、字典方法、哥伦布指数编码、算术编码、行程长度编码(RLE)等。

在框404，确定压缩的压缩率。在一些实施例中，压缩率被定义为数据块压缩后的尺寸与压缩前的尺寸的比率。随后，在框406，确定压缩率是否大于阈值。

在框406确定压缩率大于阈值的情况下，方法400前进到框408，其中确定该数据块不可压缩。在框406确定压缩率不大于阈值的情况下，方法400前进到框410，其中确定该数据块可压缩。

现在回到图3，在框304处确定数据块不可压缩的情况下，方法300前进到框306，其中处理器140’向数据块添加报头信息以生成具有第一尺寸的第一数据段。生成第一数据段，以用于后续通过去重操作而被存储在可用的第一存储段中。在一些实施例中，报头信息是用于标识数据块的长度、存储位置和数据唯一性等的元数据。在一些实施例中，可以基于第一数据段的报头信息来生成用于标识该第一数据段的特征值。

随后，在框308，通过去重操作将第一数据段存储在第一存储段中。由此，实现了对不可压缩的数据块的去重操作。

为了进一步说明去重操作的具体实现方式，图5示出了根据本公开的实施例的通过去重操作将第一数据段存储在第一存储段中的方法500的流程图。方法500是框308处的操作的一个实施例。

此外，为了进一步说明方法500的示例步骤，图6A至图6D示出了根据本公开的实施例的在图5所示方法500中的逻辑块、存储区域和特征值组的状态变化的示意图。图6A至图6D中的高速缓存130、处理器140’和存储装置150’与图2的系统200中的相应部件一致，并且为了简化的目的而省略了系统200中的其他部件。进一步地，图6A至图6D进一步示出了系统200中的高速缓存130和存储装置150’的更多细节。

首先，图6A示出了在执行方法500之前的初始状态。在存储装置150’中，逻辑块152、154和156已经经由映射器158而被映射到存储区域210(具体地，分别映射到第二存储段212和214以及第一存储段216)。图6A中还示出了逻辑块152、154和156分别利用其中的指针610、612和614而被映射到映射器158，并且进一步利用映射器158中的指针620而被映射到存储段212、214和216。在一些实施例中，映射器158是映射关系中的虚拟节点，该虚拟节点中包括映射信息，映射信息包括该映射器158指向的各个存储段(包括第一存储段和第二存储段)的起始位置和尺寸。

从图6A中还可以看出，与逻辑块152、154和156相对应的数据段652、654和656已经被分别存储在存储段212、214和216中，其中数据段652和654是具有第二尺寸的第二数据段，并且数据段656是具有第一尺寸的第一数据段。第二数据段652包括报头信息632和经压缩的数据块642，第二数据段654包括报头信息634和经压缩的数据块644，并且第一数据段656包括报头信息636和经压缩的数据块646。存储段212、214和216不可用，因为其中已经被存储有数据。存储区域210还被示出有包括可用的第一存储段690，第一存储段690具有第一尺寸。此外，元数据168’被示出为包括用于数据去重的特征值组660，特征值组660包括分别与不同数据块相对应的不同特征值。

在图6A中，还示出已经在高速缓存130中生成了具有第一尺寸的第一数据段658。第一数据段658由报头信息638和数据块648组成，其中数据块648已经由处理器140’确定为不可压缩。

图5中的方法500开始于框502，创建与第一数据段相对应的逻辑块。随后，在框504，基于报头信息，生成用于标识第一数据段的特征值。

这种情况在图6B中示出。在图6B中，创建与第一数据块658相对应的逻辑块670，逻辑块670包括初始值为空的指针672。此外，基于报头信息638，生成用于标识第一数据段658的特征值680。

在一些实施例中，处理器140’使用安全散列算法(SHA)来从报头信息638生成特征值680。据此生成的特征值与数据块的内容唯一地对应，由此可以用来标识数据段。

随后，在图5中的框506，处理器140’确定特征值是否已经存在于特征值组中。

如果在框506处确定特征值已经存在于特征值组中，这表明该数据块的内容已经被存储在存储装置中，并且无需将该数据块存储在可用的存储段中。在这种情况下，方法500前进到框508，其中将逻辑块经由映射器映射到与特征值相对应的数据块所在的第一存储段。

这种情况在图6C中示出。在图6C中，确定了图6B中生成的特征值680已经存在于特征值组660中，并且确定了存储区域210的第一存储段216存储有与特征值680相对应的数据块646。由此，处理器140’将逻辑块670经由映射器158映射到数据块646所在的第一存储段216。此时，逻辑块670的指针672和逻辑块156的指针614两者均指向映射器158，这表示逻辑块670和逻辑块156对应于相同的数据块。在完成存储后，在高速缓存130中释放相关存储空间。

如果在图5中的框506处确定特征值未存在于特征值组中，这表明该数据块的内容尚未被存储在存储装置中，并且需要将该数据块存储在可用的存储段中。在这种情况下，方法500前进到框510，其中将特征值添加到特征值组，以表示该数据块的内容要被存储在存储装置中。随后，在框512，将第一数据段存储在存储区域中可用的第一存储段中。

这种情况在图6D中示出。在图6D中，确定了图6B中生成的特征值680未存在于特征值组660中。此时，处理器140’将特征值680添加到特征值组660，并且将第一数据段658存储在存储区域210中可用的第一存储段690中。图6D还示出了逻辑块670已经经由映射器620而被映射到第一存储段690。在完成存储后，在高速缓存130中释放相关存储空间。

从图6C和图6D中可以看出，去重操作保证了同一数据块在存储装置中仅物理地存储一次。在后一写请求涉及已经存储的数据块的情况下，去重操作仅简单地更新逻辑块到存储区域的映射关系，而不将该数据块重复地进行存储。

在一些实施例中，图6A至图6D中的逻辑块152、154、156和670可以经由不同的映射器而被映射到不同的存储区域。

综上所述，图5中的方法500实现了通过去重操作将第一数据段存储在第一存储段中。

现在回到图3，在框304处确定数据块可压缩的情况下，方法300可以进行各种操作，其中的一种示例将在下文参考图7和图8来描述。

图7示出了根据本公开的实施例的在已经确定数据块可压缩时的用于数据去重的方法700。

方法700开始于框702。在框702，处理器140’向数据块添加报头信息以生成具有第二尺寸的第二数据段。生成第二数据段，以用于后续通过去重操作而被存储在可用的第二存储段中。在一些实施例中，报头信息是用于标识数据块的长度、存储位置和数据唯一性等的元数据。在一些实施例中，可以基于第二数据段的报头信息来生成用于标识该第二数据段的特征值。

随后，在框704，通过去重操作将第二数据段存储在第二存储段中。由此，实现了对经压缩的数据块的去重操作。

转向图8，图8示出了根据本公开的实施例的通过去重操作将第二数据段存储在第二存储段中的方法800的流程图。方法800是框704处的操作的一个实施例。方法800与图5所示的方法500采用类似的原理，因此在这里仅对方法800的步骤进行简要说明。

方法800开始于框802，创建与第二数据段相对应的逻辑块。随后，在框804，基于报头信息，生成用于标识第二数据段的特征值。

在一些实施例中，处理器140’使用SHA来从报头信息生成特征值。据此生成的特征值与经压缩的数据块的内容唯一地对应，由此可以用来标识第二数据段。

随后，在框806，处理器140’确定特征值是否已经存在于特征值组中。如果在框806处确定特征值已经存在于特征值组中，方法800前进到框808，其中将逻辑块经由映射器映射到与特征值相对应的数据块所在的第二存储段。如果在框806处确定特征值未存在于特征值组中，方法800前进到框810，其中将特征值添加到特征值组。随后，在框812，将第二数据段存储在存储区域中可用的第二存储段中。

综上所述，方法800实现了通过去重操作将第二数据段存储在第二存储段中。

现在回到图3，在框304处确定数据块可压缩的情况下，方法300除了前进到图7描述的方法700之外，还可以进行其他操作。作为示例，可以在除了向经压缩的数据块添加报头信息之外，进一步向经压缩的数据块添加填充信息，以生成具有第二尺寸或其他期望尺寸的数据段。在该示例中，填充信息被用于使数据段对齐相应的存储区域。

由此，已经描述了根据本公开的实施例的用于数据去重的方法300。

在一些实施例中，方法300进一步包括：响应于确定存储区域中的所有第一存储段均不可用，在存储装置中分配新的存储区域。在一些实施例中，方法300进一步包括：响应于确定存储区域中的所有第二存储段均不可用，在存储装置中分配新的存储区域。

通过本公开的改进的用于数据去重的方案，实现了针对可压缩数据和不可压缩数据两者进行数据去重操作，从而提高了数据去重的灵活性和效率。此外，本公开的方案相对于常规的数据去重方案能够有效地节省存储空间，特别是当存在大量不可压缩数据的情况下能够有效地节省存储空间。再者，本公开的方案相对于常规的数据去重方案也不会带来任何显著的处理性能影响。

图9图示了可以用来实施本公开内容的实施例的示例设备900的示意性框图。例如，如图2所示的系统200中的处理器140’可以由设备900来实施。如图所示，设备900包括中央处理单元(CPU)901，其可以根据存储在只读存储器(ROM)902中的计算机程序指令或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序指令，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。CPU 901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

上文所描述的各个过程和处理，例如方法300、方法400、方法500、方法700和/或方法800，可由处理单元901执行。例如，在一些实施例中，方法300、方法400、方法500、方法700和/或方法800可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序被加载到RAM 903并由CPU 901执行时，可以执行上文描述的方法300、方法400、方法500、方法700和/或方法800的一个或多个动作。

本公开可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是——但不限于——电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施方式，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施方式。在不偏离所说明的各实施方式的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施方式的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其他普通技术人员能理解本文披露的各实施方式。

Claims

1.一种用于数据去重的方法，包括：

响应于接收到第一写请求，确定所述第一写请求涉及的第一数据块是可压缩还是不可压缩，所述第一数据块具有预定块尺寸；

响应于确定所述第一数据块不可压缩，向不可压缩的所述第一数据块添加第一报头信息以生成第一数据段，所述第一数据段具有大于所述预定块尺寸的第一尺寸，其中第一存储段已经被分配在存储装置的存储区域中，所述第一存储段具有大于所述预定块尺寸的所述第一尺寸；以及

针对不可压缩的所述第一数据块执行第一去重操作，所述执行所述第一去重操作包括：

创建与所述第一数据段相对应的第一逻辑块；

通过所述第一报头信息识别不可压缩的所述第一数据块的唯一性，其中所述识别不可压缩的所述第一数据块的所述唯一性包括根据所述第一报头信息生成第一特征值，所述第一特征值是第一哈希值，所述第一报头信息是标识不可压缩的所述第一数据块的长度、不可压缩的所述第一数据块的存储位置以及不可压缩的所述第一数据块的所述唯一性的元数据；

确定特征值组是否包括所述第一特征值，所述特征值组包括针对不同数据块的不同特征值；

响应于确定所述特征值组包括所述第一特征值，通过映射器将所述第一逻辑块映射到先前已经存储不可压缩的所述第一数据块的所述第一存储段；以及

响应于确定所述特征值组不包括所述第一特征值，将所述第一特征值添加到所述特征值组，将不可压缩的所述第一数据块存储在所述第一存储段中，并且通过所述映射器将所述第一逻辑块映射到所述第一存储段。

2.根据权利要求1所述的方法，进一步包括：

响应于确定所述第一数据块可压缩，向经压缩的第二数据块添加第二报头信息以生成具有第二尺寸的第二数据段；以及

针对经压缩的所述第二数据块执行第二去重操作。

3.根据权利要求2所述的方法，其中执行所述第二去重操作包括：

创建与所述第二数据段相对应的第二逻辑块；

通过所述第二报头信息识别可压缩的所述第二数据块的唯一性，其中所述识别可压缩的所述第二数据块的所述唯一性包括根据所述第二报头信息生成第二特征值，所述第二特征值是第二哈希值，所述第二报头信息是标识可压缩的所述第二数据块的长度、可压缩的所述第二数据块的存储位置以及可压缩的所述第二数据块的所述唯一性的元数据；以及

响应于确定所述特征值组包括所述第二特征值，通过所述映射器将所述第二逻辑块经由映射器映射到先前已经存储可压缩的所述第二数据块的第二存储段。

4.根据权利要求3所述的方法，其中执行所述第二去重操作进一步包括：

响应于确定所述特征值组不包括所述第二特征值，将所述第二特征值添加到所述特征值组，将可压缩的所述第二数据块存储在所述第二存储段中，并且通过所述映射器将所述第二逻辑块映射到所述第二存储段。

5.根据权利要求1所述的方法，其中确定所述第一数据块是可压缩还是不可压缩包括：

压缩第一数据块；

确定所述压缩所述第一数据块的压缩率；以及

响应于确定所述压缩率大于阈值，确定所述第一数据块不可压缩。

6.根据权利要求1所述的方法，进一步包括：

响应于确定所述存储区域中的所有第一存储段均不可用，在所述存储装置中分配新的存储区域。

7.根据权利要求4所述的方法，进一步包括：

响应于确定所述存储区域中的所有第二存储段均不可用，在所述存储装置中分配新的存储区域。

8.一种电子设备，包括：

一个或多个处理器；以及

存储装置，用于存储一个或多个程序，所述一个或多个程序当被所述一个或多个处理器执行时，使得所述一个或多个处理器执行动作，所述动作包括：

创建与所述第一数据段相对应的第一逻辑块；

确定特征值组是否包括所述第一特征值，所述特征值组包括针对不同数据块不同特征值；

9.根据权利要求8所述的设备，进一步包括：

针对经压缩的所述第二数据块执行第二去重操作。

10.根据权利要求9所述的设备，其中执行所述第二去重操作包括：

创建与所述第二数据段相对应的第二逻辑块；

响应于确定所述特征值组包括所述第二特征值，通过所述映射器将所述第二逻辑块映射到先前已经存储可压缩的所述第二数据块的第二存储段。

11.根据权利要求10所述的设备，其中执行所述第二去重操作进一步包括：

12.根据权利要求8所述的设备，其中确定所述第一数据块是可压缩还是不可压缩包括：

压缩第一数据块；

确定所述压缩所述第一数据块的压缩率；以及

13.根据权利要求8所述的设备，其中所述动作进一步包括：

14.根据权利要求9所述的设备，其中所述动作进一步包括：

15.一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令在被执行时使设备执行根据权利要求1-7中任一项所述的方法。