CN111522502A

CN111522502A - 数据去重方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN111522502A
Application number: CN201910105729.8A
Authority: CN
Inventors: 佘海斌
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Cloud Computing Ltd
Priority date: 2019-02-01
Filing date: 2019-02-01
Publication date: 2020-08-11
Anticipated expiration: 2039-02-01
Also published as: CN111522502B

Abstract

本发明实施例公开了一种数据去重方法、装置、电子设备及计算机可读存储介质，所述方法包括：获取待处理数据容器；在已有数据容器中搜索与所述待处理数据容器的数据相似度满足预设条件的数据容器，并将其作为目标数据容器；比对所述待处理数据容器与目标数据容器，确认重复数据并将其在后处理流程中删除。该技术方案能够实现全局范围内的海量数据去重，并且在不降低用户IO性能的前提下达到节省存储空间的目的。

Description

数据去重方法、装置、电子设备及计算机可读存储介质

技术领域

本发明实施例涉及数据处理技术领域，具体涉及一种可在后处理流程中执行的数据去重方法、装置、电子设备及计算机可读存储介质。

背景技术

随着数据技术的发展，用户对于高性能存储的要求越来越高，尤其在云计算的块设备存储中，比如要求更高的每秒读写次数(IOPS)和更小的延迟(Latency)，正因为如此，高性能存储的成本也大幅提高，比如全闪存存储阵列、非易失性内存主机控制器接口规范固态硬盘存储(NVME SSD，Non-Volatile Memory Express Solid State Disk)等等。在这种情况下如果能够实现在不降低用户输入输出(IO，Input Output)性能的前提下，节省存储所占用的空间，就变得非常有意义。目前，Windows 2012在新技术文件系统(NTFS，NewTechnology File System)上实现了单盘内的数据去重，但该实现方式存在以下缺陷：1、只能在单盘内部实现数据去重，不能实现全局范围的数据去重；2、不支持在海量数据中查找重复数据；3、重复数据的查找会造成IO性能的下降。

发明内容

本发明实施例提供一种数据去重方法、装置、电子设备及计算机可读存储介质。

第一方面，本发明实施例中提供了一种数据去重方法。

具体的，所述数据去重方法，包括：

获取待处理数据容器；

在已有数据容器中搜索与所述待处理数据容器的数据相似度满足预设条件的数据容器，并将其作为目标数据容器；

比对所述待处理数据容器与目标数据容器，确认重复数据并将其在后处理流程中删除。

结合第一方面，本发明实施例在第一方面的第一种实现方式中，所述数据容器至少包括以下数据：数据块、数据块指纹和指纹散列值。

结合第一方面和第一方面的第一种实现方式，本发明实施例在第一方面的第二种实现方式中，所述在已有数据容器中搜索与所述待处理数据容器的数据相似度满足预设条件的数据容器，并将其作为目标数据容器，包括：

获取所述待处理数据容器和已有数据容器的指纹散列值；

比对所述待处理数据容器和已有数据容器的指纹散列值，确认与所述待处理数据容器的数据相似度满足预设条件的已有数据容器，并将其作为目标数据容器。

结合第一方面、第一方面的第一种实现方式和第一方面的第二种实现方式，本公开在第一方面的第三种实现方式中，所述比对所述待处理数据容器和已有数据容器的指纹散列值，确认与所述待处理数据容器的数据相似度满足预设条件的已有数据容器，并将其作为目标数据容器，包括：

设置数据相似度评价初始值；

比对所述待处理数据容器某一指纹散列值与所述已有数据容器的指纹散列值；

当所述已有数据容器的指纹散列值中存在与所述待处理数据容器的指纹散列值相同的指纹散列值时，增加所述已有数据容器的数据相似度评价值；

遍历所述待处理数据容器的指纹散列值，当所述数据相似度评价值高于预设阈值时，将相应的已有数据容器确认为目标数据容器。

结合第一方面的第一种实现方式、第一方面的第二种实现方式和第一方面的第三种实现方式，本公开在第一方面的第四种实现方式中，所述比对所述待处理数据容器与目标数据容器，确认重复数据并将其在后处理流程中删除，包括：

获取所述待处理数据容器和目标数据容器的数据块指纹；

比对所述待处理数据容器和目标数据容器的数据块指纹，并当所述待处理数据容器和目标数据容器的数据块指纹相同时，确认对应的数据为重复数据；

在后处理流程中删除所述重复数据。

结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式和第一方面的第四种实现方式，本公开在第一方面的第五种实现方式中，所述比对所述待处理数据容器和目标数据容器的数据块指纹，并当所述待处理数据容器和目标数据容器的数据块指纹相同时，确认对应的数据为重复数据，包括：

将所述目标数据容器中存储的数据硬链接至预设位置；

将所述预设位置上所述目标数据容器中的数据块指纹加载至内存，生成指纹缓存文件；

比对所述待处理数据容器的数据块指纹与所述指纹缓存文件；

当所述指纹缓存文件中存在与所述待处理数据容器的数据块指纹相同的指纹数据时，将所述待处理数据容器中对应的数据确认为重复数据。

结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式和第一方面的第五种实现方式，本公开在第一方面的第六种实现方式中，所述比对所述待处理数据容器的数据块指纹与所述指纹缓存文件，包括：

响应于接收到比对操作开始指令，确认所述指纹缓存文件中比对操作发生节点；

对所述比对操作发生节点数据设置读写加锁；

比对所述待处理数据容器的数据块指纹与所述比对操作发生节点数据；

响应于比对操作结束指令，对所述比对操作发生节点数据设置读写去锁。

结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式、第一方面的第五种实现方式和第一方面的第六种实现方式，本公开在第一方面的第七种实现方式中，还包括：

将所述待处理数据容器中重复数据对应的索引地址更新为所述目标数据容器中与所述重复数据重复的数据的索引地址。

第二方面，本发明实施例中提供了一种数据去重装置。

具体的，所述数据去重装置，包括：

获取模块，被配置为获取待处理数据容器；

搜索模块，被配置为在已有数据容器中搜索与所述待处理数据容器的数据相似度满足预设条件的数据容器，并将其作为目标数据容器；

删除模块，被配置为比对所述待处理数据容器与目标数据容器，确认重复数据并将其在后处理流程中删除。

结合第二方面，本发明实施例在第二方面的第一种实现方式中，所述数据容器至少包括以下数据：数据块、数据块指纹和指纹散列值。

结合第二方面和第二方面的第一种实现方式，本发明实施例在第二方面的第二种实现方式中，所述搜索模块包括：

第一获取子模块，被配置为获取所述待处理数据容器和已有数据容器的指纹散列值；

第一确认子模块，被配置为比对所述待处理数据容器和已有数据容器的指纹散列值，确认与所述待处理数据容器的数据相似度满足预设条件的已有数据容器，并将其作为目标数据容器。

结合第二方面、第二方面的第一种实现方式和第二方面的第二种实现方式，本公开在第二方面的第三种实现方式中，所述第一确认子模块包括：

第一设置子模块，被配置为设置数据相似度评价初始值；

第一比对子模块，被配置为比对所述待处理数据容器某一指纹散列值与所述已有数据容器的指纹散列值；

增加子模块，被配置为当所述已有数据容器的指纹散列值中存在与所述待处理数据容器的指纹散列值相同的指纹散列值时，增加所述已有数据容器的数据相似度评价值；

第二确认子模块，被配置为遍历所述待处理数据容器的指纹散列值，当所述数据相似度评价值高于预设阈值时，将相应的已有数据容器确认为目标数据容器。

结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式和第二方面的第三种实现方式，本公开在第二方面的第四种实现方式中，所述删除模块包括：

第二获取子模块，被配置为获取所述待处理数据容器和目标数据容器的数据块指纹；

第二比对子模块，被配置为比对所述待处理数据容器和目标数据容器的数据块指纹，并当所述待处理数据容器和目标数据容器的数据块指纹相同时，确认对应的数据为重复数据；

删除子模块，被配置为在后处理流程中删除所述重复数据。

结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式、第二方面的第三种实现方式和第二方面的第四种实现方式，本公开在第二方面的第五种实现方式中，所述第二比对子模块包括：

链接子模块，被配置为将所述目标数据容器中存储的数据硬链接至预设位置；

加载子模块，被配置为将所述预设位置上所述目标数据容器中的数据块指纹加载至内存，生成指纹缓存文件；

第三比对子模块，被配置为比对所述待处理数据容器的数据块指纹与所述指纹缓存文件；

第三确认子模块，被配置为当所述指纹缓存文件中存在与所述待处理数据容器的数据块指纹相同的指纹数据时，将所述待处理数据容器中对应的数据确认为重复数据。

结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式、第二方面的第三种实现方式、第二方面的第四种实现方式和第二方面的第五种实现方式，本公开在第二方面的第六种实现方式中，所述第三比对子模块包括：

第四确认子模块，被配置为响应于接收到比对操作开始指令，确认所述指纹缓存文件中比对操作发生节点；

第二设置子模块，被配置为对所述比对操作发生节点数据设置读写加锁；

第四比对子模块，被配置为比对所述待处理数据容器的数据块指纹与所述比对操作发生节点数据；

第三设置子模块，被配置为响应于比对操作结束指令，对所述比对操作发生节点数据设置读写去锁。

结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式、第二方面的第三种实现方式、第二方面的第四种实现方式、第二方面的第五种实现方式和第二方面的第六种实现方式，本公开在第二方面的第七种实现方式中，还包括：

更新模块，被配置为将所述待处理数据容器中重复数据对应的索引地址更新为所述目标数据容器中与所述重复数据重复的数据的索引地址。

第三方面，本发明实施例提供了一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条支持数据去重装置执行上述第一方面中数据去重方法的计算机指令，所述处理器被配置为用于执行所述存储器中存储的计算机指令。所述数据去重装置还可以包括通信接口，用于数据去重装置与其他设备或通信网络通信。

第四方面，本发明实施例提供了一种计算机可读存储介质，用于存储数据去重装置所用的计算机指令，其包含用于执行上述第一方面中数据去重方法为数据去重装置所涉及的计算机指令。

本发明实施例提供的技术方案可包括以下有益效果：

上述技术方案首先从已有数据容器中确认与待处理数据容器较为相似的数据容器，然后再判断该数据容器中是否存在与待处理数据容器重复的数据，而对于检测出来的重复数据，在后处理流程中予以删除。该技术方案由于以数据容器的形式存储数据，以数据容器为首次比对单位进行首次比对，然后再对容器中存储的数据进行再次比对，因此能够实现全局范围内的海量数据去重；另外，由于该技术方案可以在垃圾回收等后处理流程中实施，执行重复数据的查找和删除，因此可以实现在不降低用户IO性能的前提下节省存储空间的目的。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明实施例。

附图说明

结合附图，通过以下非限制性实施方式的详细描述，本发明实施例的其它特征、目的和优点将变得更加明显。在附图中：

图1示出根据本发明一实施方式的数据去重方法的流程图；

图2示出根据本发明一实施方式的云计算系统架构图；

图3示出根据本发明一实施方式的基于分布式文件系统的LSBD设备架构图；

图4示出根据本发明一实施方式的设备分段垃圾回收实现架构图；

图5示出根据本发明一实施方式的在垃圾回收流程中实现数据去重的原理示意图；

图6示出根据图1所示实施方式的数据去重方法的步骤S102的流程图；

图7示出根据图6所示实施方式的数据去重方法的步骤S602的流程图；

图8示出根据图1所示实施方式的数据去重方法的步骤S103的流程图；

图9示出根据图8所示实施方式的数据去重方法的步骤S802的流程图；

图10示出根据图9所示实施方式的数据去重方法的步骤S903的流程图；

图11示出根据本发明另一实施方式的数据去重方法的流程图；

图12示出根据本发明一实施方式的数据去重装置的结构框图；

图13示出根据图12所示实施方式的数据去重装置的搜索模块1202的结构框图；

图14示出根据图13所示实施方式的数据去重装置的第一确认子模块1302的结构框图；

图15示出根据图12所示实施方式的数据去重装置的删除模块1203的结构框图；

图16示出根据图15所示实施方式的数据去重装置的第二比对子模块1502的结构框图；

图17示出根据图16所示实施方式的数据去重装置的第三比对子模块1603的结构框图；

图18示出根据本发明另一实施方式的数据去重装置的结构框图；

图19示出根据本发明一实施方式的电子设备的结构框图；

图20是适于用来实现根据本发明一实施方式的数据去重方法的计算机系统的结构示意图。

具体实施方式

下文中，将参考附图详细描述本发明实施例的示例性实施方式，以使本领域技术人员可容易地实现它们。此外，为了清楚起见，在附图中省略了与描述示例性实施方式无关的部分。

在本发明实施例中，应理解，诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在，并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。

另外还需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明实施例。

本发明实施例提供的技术方案首先从已有数据容器中确认与待处理数据容器较为相似的数据容器，然后再判断该数据容器中是否存在与待处理数据容器重复的数据，而对于检测出来的重复数据，在后处理流程中予以删除。该技术方案由于以数据容器的形式存储数据，以数据容器为首次比对单位进行首次比对，然后再对容器中存储的数据进行再次比对，因此能够实现全局范围内的海量数据去重；另外，由于该技术方案可以在垃圾回收等后处理流程中实施，执行重复数据的查找和删除，因此可以实现在不降低用户IO性能的前提下节省存储空间的目的。

图1示出根据本发明一实施方式的数据去重方法的流程图，如图1所示，所述数据去重方法包括以下步骤S101-S103：

在步骤S101中，获取待处理数据容器；

在步骤S102中，在已有数据容器中搜索与所述待处理数据容器的数据相似度满足预设条件的数据容器，并将其作为目标数据容器；

在步骤S103中，比对所述待处理数据容器与目标数据容器，确认重复数据并将其在后处理流程中删除。

上文提及，随着数据技术的发展，用户对于高性能存储的要求越来越高，尤其在云计算的块设备存储中，比如要求更高的每秒读写次数和更小的延迟，正因为如此，高性能存储的成本也大幅提高，比如全闪存存储阵列、非易失性内存主机控制器接口规范固态硬盘存储等等。在这种情况下如果能够实现在不降低用户输入输出性能的前提下，节省存储所占用的空间，就变得非常有意义。目前，Windows 2012在新技术文件系统上实现了单盘内的数据去重，但该实现方式存在以下缺陷：1、只能在单盘内部实现数据去重，不能实现全局范围的数据去重；2、不支持在海量数据中查找重复数据；3、重复数据的查找会造成IO性能的下降。

考虑到上述问题，在该实施方式中，提出一种数据去重方法，该方法首先从已有数据容器中确认与待处理数据容器较为相似的数据容器，然后再判断该数据容器中是否存在与待处理数据容器重复的数据，而对于检测出来的重复数据，在后处理流程中予以删除。该技术方案由于以数据容器的形式存储数据，以数据容器为首次比对单位进行首次比对，然后再对容器中存储的数据进行再次比对，因此能够实现全局范围内的海量数据去重；另外，由于该技术方案可以在垃圾回收等后处理流程中实施，执行重复数据的查找和删除，因此可以实现在不降低用户IO性能的前提下节省存储空间的目的。

其中，所述数据容器用于存储数据，可以认为是一种存储数据的结构。

所述数据去重方法可用于多种数据存储系统中，比如云计算块存储系统，只要数据能够以数据容器等单元存储的形式实现存储即可。接下来以云计算块存储系统为例，对于本公开技术方案进行详细说明。

首先，先介绍一下云计算系统的基本架构，如图2所示，在云计算系统中，存储和计算是相互分离的，块设备存储集群(EBS)和镜像中心存储集群负责提供磁盘块设备的存储资源，所述EBS包括多个存储节点；计算集群负责提供虚拟机(VM)资源，所述计算集群包括多个计算节点；块设备存储集群、镜像中心存储集群和计算集群通过交换机交换和传输需要处理的数据。

其中，所述块设备存储集群、镜像中心存储集群是基于日志结构块设备(LSBD，logstructured block device)块存储技术实现的，LSBD采用日志文件(log file)来构建磁盘块设备，其中，日志文件是一种只能追加写，不能覆盖写的分布式文件，而设备都是基于日志文件构造的。图3示出根据本发明一实施方式的基于分布式文件系统的LSBD设备架构图，如图3所示，LSBD设备是基于分布式文件系统的日志文件实现的，多个设备和快照可能会通过硬链接(Hardlink)共享同一个日志文件，其中，分布式文件系统通过多副本(Replica)的方式来保证数据的安全性和可用性。

进一步地，LSBD设备可切分成由多个设备分段(Device Segment)组成的多个设备分段组(Device Segment Group)，其中，每个设备分段都由一个块服务器(BlockServer)负责处理，这样就可以使LSBD块设备系统容易达到负载均衡。设备分段由索引文件(Indexfile)，数据文件(data file)和Txn文件(Txn file)组成，这些文件均是分布式文件中的日志文件，只能追加写，不能覆盖写。其中，索引文件负责记录设备逻辑地址区间(LBA Range)和数据文件的物理地址区间之间的对应关系，数据文件负责存储设备分段的数据，Txn文件负责记录修改设备分段的事务日志(Transaction Log)。更为具体地，对于设备分段来说，写入数据的过程可以描述为：首先在数据文件中写入数据，然后在Txn文件中写入事务日志，最后更新索引文件。

基于以上，再介绍一下设备分段的垃圾回收(Garbage Collection)流程，图4示出根据本发明一实施方式的设备分段垃圾回收实现架构图，如图4所示，在设备分段垃圾回收中，存在三种组件：BlockMaster、BlockServer和GCWorker，其中，BlockMaster负责管理LSBD元数据(LSBD metadata)，BlockServer负责处理LSBD设备分段IO，GCWorker负责处理LSBD设备分段的垃圾回收，具体的垃圾回收工作流程可以描述为：1、BlockServer向BlockMaster汇报垃圾数据统计信息；2、BlockMaster向GCWorker发出垃圾回收请求，GCWorker把设备分段中的垃圾数据去除，生成新的索引文件和数据文件；3、BlockMaster向BlockServer发出请求，导入垃圾回收后的数据，在GCWorker的垃圾回收工作完成以后，BlockMaster向BlockServer发出导入请求，BlockServer接受GCWorker经过垃圾回收后的数据，删除之前的索引文件和数据文件。

在本发明一实施方式中，所述数据去重方法可在垃圾回收等后处理流程中被实施，接下来以垃圾回收流程为例，对于可在后处理流程中执行的数据去重方法进行说明。

图5示出根据本发明一实施方式的在垃圾回收流程中实现数据去重的原理示意图，如图5所示，假设设备中待处理的数据容器为数据文件(data file)2和数据文件(datafile)3，共包括8个块(Block)数据，其相应的指纹数据为指纹文件(Fingerprint file)2和指纹文件3，设备的索引文件中的LBA映射表(LBA map)显示，8个数据块中只有Block1、Block2、Block3、Block4、Block5和Block6这6个数据块是有效数据，其余2个数据块均为垃圾数据。在垃圾回收的过程中，通过指纹数据比对，在该设备以外的其他数据文件中搜索到与Block3和Block4重复的数据，因此，可只将2个将要被废弃的数据文件(Obsolete datafile)中的Block1、Block2、Block5和Block6四个数据块复制到压缩数据文件(Compacteddata file)中，舍弃Block3和Block4，然后修改索引文件，使Block1、Block2、Block5和Block6这4个数据块不再指向之前的2个废弃数据文件，改为指向压缩数据文件，而对于Block3和Block4对应的索引文件，可将其直接改为指向搜索到的其他数据文件中的重复数据，然后删除2个废弃数据文件，替换为压缩数据文件。这样，数据所占用的存储空间就从8个数据块减少为4个数据块，其中，通过垃圾回收减少了2个数据块的存储空间，通过数据去重又进一步减少了2个数据块的存储空间。

在该实施方式中，所述待处理数据容器指的是垃圾回收过程中待进行垃圾回收处理的数据容器，这样在垃圾回收的过程中同时检查是否存在重复数据，实施数据去重，能够最大限度地保障用户IO性能，提高处理效率，节省计算量。

当然，所述数据去重的各个执行步骤也可贯穿在其他处理机制类似的数据后处理流程中，比如，将在数据后处理流程1中产生的待处理数据容器作为数据去重中的待处理数据，在数据后处理流程2中进行重复数据的查找，在数据后处理流程3中进行重复数据的删除等等，此时，所述待处理数据容器指代的是在其他数据后处理流程中产生的数据容器。在另一种实施方式中，所述待处理数据容器也可指代一个新产生的数据容器，而后续的数据比对和重复数据删除可在垃圾回收等其他后处理流程中进行。

进一步地，为了提高数据去重尤其是海量数据去重的处理效率，在本实施例的一个可选实现方式中，在获取待处理数据容器之后，首先在已有数据容器中确认与待处理数据容器较为相似的数据容器，然后再判断该数据容器中是否存在与待处理数据容器重复的数据，即进行两步判断机制，而对于检测出来的重复数据，则在后处理流程中予以删除。该判断机制在均衡数据处理量和处理时间两个因素的前提下，能够大大提高处理效率，实现海量数据的高效数据去重。

在该实现方式中，所述数据容器至少包括以下数据：数据块、数据块指纹和指纹散列值。其中，所述数据块用于存储数据；所述数据块指纹是基于数据块中的数据产生的、对于相应数据具有唯一标识性的数据，比如，可通过散列函数或其他函数等算法得到；所述指纹散列值是基于所述数据块指纹产生的、对于相应指纹数据具有唯一标识性的数据，也可通过散列函数算法得到。

在本实施例的一个可选实现方式中，所述指纹散列值为Bloom Filter数据，所述Bloom Filter是一种二进制向量数据结构，被用来检测一个元素是不是某一集合中的一个成员，如果检测结果为是，该元素不一定在该集合中，但如果检测结果为否，则该元素一定不在该集合中，由此，Bloom Filter可以快速判断出一个指纹数据是否存在于某一数据容器中。

在该实现方式中，如图6所示，所述步骤S102，即在已有数据容器中搜索与所述待处理数据容器的数据相似度满足预设条件的数据容器，并将其作为目标数据容器的步骤，包括以下步骤S601-S602：

在步骤S601中，获取所述待处理数据容器和已有数据容器的指纹散列值；

在步骤S602中，比对所述待处理数据容器和已有数据容器的指纹散列值，确认与所述待处理数据容器的数据相似度满足预设条件的已有数据容器，并将其作为目标数据容器。

为了提高数据去重尤其是海量数据去重的处理效率，在该实施方式中，搜索与待处理数据容器较为相似的目标数据容器时，首先获取所述待处理数据容器和已有数据容器的指纹散列值；然后比对所述待处理数据容器和已有数据容器的指纹散列值，确认与所述待处理数据容器的数据相似度满足预设条件的已有数据容器，并将其作为目标数据容器。其中，所述预设条件可根据实际应用的需要进行设置，比如，可设置为一相似度阈值，当所述待处理数据容器与某一已有数据容器的数据相似度高于该相似度阈值，就可认为该已有数据容器满足所述预设条件。

在本实施例的一个可选实现方式中，如图7所示，所述步骤S602，即比对所述待处理数据容器和已有数据容器的指纹散列值，确认与所述待处理数据容器的数据相似度满足预设条件的已有数据容器，并将其作为目标数据容器的步骤，包括以下步骤S701-S704：

在步骤S701中，设置数据相似度评价初始值；

在步骤S702中，比对所述待处理数据容器某一指纹散列值与所述已有数据容器的指纹散列值；

在步骤S703中，当所述已有数据容器的指纹散列值中存在与所述待处理数据容器的指纹散列值相同的指纹散列值时，增加所述已有数据容器的数据相似度评价值；

在步骤S704中，遍历所述待处理数据容器的指纹散列值，当所述数据相似度评价值高于预设阈值时，将相应的已有数据容器作为目标数据容器。

为了快速、有效地搜索到与所述待处理数据容器更为相似的已有数据容器，在该实施方式中，采用相似度评价机制来实现目标数据容器的搜索，更为具体地，首先设置数据相似度评价初始值，比如可以设置为0；然后将所述待处理数据容器中的某一指纹散列值与所述已有数据容器中的指纹散列值进行比对；若经比对发现所述已有数据容器的指纹散列值中存在与所述待处理数据容器的指纹散列值相同的指纹散列值，则按照预设规则增加所述已有数据容器对应的数据相似度评价值；遍历完所述待处理数据容器的指纹散列值之后，若该已有数据容器的数据相似度评价值高于预设阈值，就将该已有数据容器认为是目标数据容器。其中，所述预设规则可根据实际应用的需要进行设置，比如若所述已有数据容器的指纹散列值中存在与所述待处理数据容器的指纹散列值相同的指纹散列值，则将所述已有数据容器对应的数据相似度评价值加一。其中，所述预设阈值可根据实际应用的需要，比如目标数据容器的数量、相似度检测精度开进行设置，比如，若相似度检测精度要求较高，目标数据容器的寻找数量较多，就可将所述预设阈值设置得低一些，以增加目标数据容器的命中数量，提高相似度判断准确性。

在本实施例的一个可选实现方式中，所述目标数据容器可选为相似度评价值最高的一个或几个数据容器，具体可根据实际应用的需要，比如数据处理量与数据处理时间进行选择。例如，若所述目标数据容器选为相似度评价值最高的那个数据容器，则后续进行指纹数据比对时，仅将所述待处理数据容器与该目标数据容器的指纹数据进行一一比对即可确认这两个数据容器中的重复数据；若所述目标数据容器选为相似度评价值最高的几个数据容器，则后续进行指纹数据比对时，需要将所述待处理数据容器与所有目标数据容器的指纹数据进行一一比对才可确认存在的重复数据，相比而言，前者所花费的时间较少，但后者所取得的准确性较高。

在本实施例的一个可选实现方式中，所述待处理数据容器的指纹散列值与将要与其进行比对的已有数据容器的指纹散列值通过同一散列函数计算得到，以保障相似度检测的有效性。

在本实施例的一个可选实现方式中，如图8所示，所述步骤S103，即比对所述待处理数据容器与目标数据容器，确认重复数据并将其在后处理流程中删除的步骤，包括以下步骤S801-S803：

在步骤S801中，获取所述待处理数据容器和目标数据容器的数据块指纹；

在步骤S802中，比对所述待处理数据容器和目标数据容器的数据块指纹，并当所述待处理数据容器和目标数据容器的数据块指纹相同时，确认对应的数据为重复数据；

在步骤S803中，在后处理流程中删除所述重复数据。

在该实施方式中，在获取目标数据容器之后，通过比对指纹数据来判断目标数据容器中是否存在与待处理数据容器相同、重复的数据，具体地，首先获取所述待处理数据容器和目标数据容器中的数据块指纹；然后再依次比对所述待处理数据容器和目标数据容器中的数据块指纹，当所述待处理数据容器和目标数据容器的数据块指纹相同时，就确认对应的数据为重复数据；对于检测出的重复数据，为了不影响用户IO性能，可将其在后处理流程中删除。

在本实施例的一个可选实现方式中，如图9所示，所述步骤S802，即比对所述待处理数据容器和目标数据容器的数据块指纹，并当所述待处理数据容器和目标数据容器的数据块指纹相同时，确认对应的数据为重复数据的步骤，包括以下步骤S901-S904：

在步骤S901中，将所述目标数据容器中存储的数据硬链接至预设位置；

在步骤S902中，将所述预设位置上所述目标数据容器中的数据块指纹加载至内存，生成指纹缓存文件；

在步骤S903中，比对所述待处理数据容器的数据块指纹与所述指纹缓存文件；

在步骤S904中，当所述指纹缓存文件中存在与所述待处理数据容器的数据块指纹相同的指纹数据时，将所述待处理数据容器中对应的数据确认为重复数据。

在该实施方式中，为了最大限度地保障用户IO性能，使其不受重复数据检测的影响，在检测待处理数据容器与目标数据容器中的重复数据时，首先将所述目标数据容器中存储的数据硬链接至预设位置，比如设备分段数据(device segment data)目录；将所述预设位置上所述目标数据容器中的数据块指纹加载至内存，生成指纹缓存文件，其中，所述指纹缓存文件可采用哈希桶(hash bucket)的形式存储；然后再比对所述待处理数据容器的数据块指纹与所述指纹缓存文件；当所述指纹缓存文件中存在与所述待处理数据容器的数据块指纹相同的指纹数据时，将所述待处理数据容器中对应的数据确认为重复数据。

在本实施例的一个可选实现方式中，如图10所示，所述步骤S903，即比对所述待处理数据容器的数据块指纹与所述指纹缓存文件的步骤，包括以下步骤S1001-S1004：

在步骤S1001中，响应于接收到比对操作开始指令，确认所述指纹缓存文件中比对操作发生节点；

在步骤S1002中，对所述比对操作发生节点数据设置读写加锁；

在步骤S1003中，比对所述待处理数据容器的数据块指纹与所述比对操作发生节点数据；

在步骤S1004中，响应于比对操作结束指令，对所述比对操作发生节点数据设置读写去锁。

为了避免发生数据读写访问冲突，在该实施方式中，还对于比对操作发生节点的数据进行枷锁控制，具体地，响应于接收到比对操作开始指令，首先确认所述指纹缓存文件中比对操作发生的节点；然后对所述比对操作发生节点数据设置读写加锁，暂时禁止进行其他数据访问操作；之后对于所述待处理数据容器的数据块指纹与所述比对操作发生节点的数据进行比对；比对操作完成之后，响应于比对操作结束指令，再对所述比对操作发生节点数据设置读写去锁。

在本实施例的一个可选实现方式中，如图11所示，所述方法还包括更新相应数据的索引地址的步骤，即所述方法包括以下步骤S1101-S1104：

在步骤S1101中，获取待处理数据容器；

在步骤S1102中，在已有数据容器中搜索与所述待处理数据容器的数据相似度满足预设条件的数据容器，并将其作为目标数据容器；

在步骤S1103中，比对所述待处理数据容器与目标数据容器，确认重复数据并将其在后处理流程中删除；

在步骤S1104中，将所述待处理数据容器中重复数据对应的索引地址更新为所述目标数据容器中与所述重复数据重复的数据的索引地址。

在该实施方式中，考虑到所述重复数据只是重复数据，并不是无效数据，后续还有可能会被调用，所以在删除重复数据释放存储空间之后，还应将所述待处理数据容器中被删除的重复数据所对应的索引地址更新为所述目标数据容器中与所述重复数据重复的数据的索引地址，这样就可以在节省存储空间的前提下，保证数据的正常调用。

下述为本发明装置实施例，可以用于执行本发明方法实施例。

图12示出根据本发明一实施方式的数据去重装置的结构框图，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图12所示，所述数据去重装置包括：

获取模块1201，被配置为获取待处理数据容器；

搜索模块1202，被配置为在已有数据容器中搜索与所述待处理数据容器的数据相似度满足预设条件的数据容器，并将其作为目标数据容器；

删除模块1203，被配置为比对所述待处理数据容器与目标数据容器，确认重复数据并将其在后处理流程中删除。

考虑到上述问题，在该实施方式中，提出一种数据去重装置，该装置首先从已有数据容器中确认与待处理数据容器较为相似的数据容器，然后再判断该数据容器中是否存在与待处理数据容器重复的数据，而对于检测出来的重复数据，在后处理流程中予以删除。该技术方案由于以数据容器的形式存储数据，以数据容器为首次比对单位进行首次比对，然后再对容器中存储的数据进行再次比对，因此能够实现全局范围内的海量数据去重；另外，由于该技术方案可以在垃圾回收等后处理流程中实施，执行重复数据的查找和删除，因此可以实现在不降低用户IO性能的前提下节省存储空间的目的。

所述数据去重装置可实现于多种数据存储系统中，比如云计算块存储系统，只要数据能够以数据容器等单元存储的形式实现存储即可。接下来以云计算块存储系统为例，对于本公开技术方案进行详细说明。

上文提及，在云计算系统中，存储和计算是相互分离的，块设备存储集群(EBS)和镜像中心存储集群负责提供磁盘块设备的存储资源，所述EBS包括多个存储节点；计算集群负责提供虚拟机(VM)资源，所述计算集群包括多个计算节点；块设备存储集群、镜像中心存储集群和计算集群通过交换机交换和传输需要处理的数据。其中，所述块设备存储集群、镜像中心存储集群是基于日志结构块设备(LSBD，log structured block device)块存储技术实现的，LSBD采用日志文件(log file)来构建磁盘块设备，日志文件是一种只能追加写，不能覆盖写的分布式文件。进一步地，LSBD设备可切分成由多个设备分段(DeviceSegment)组成的多个设备分段组(Device Segment Group)，其中，每个设备分段都由一个块服务器(BlockServer)负责处理，设备分段由索引文件(Index file)，数据文件(datafile)和Txn文件(Txn file)组成。更为具体地，对于设备分段来说，写入数据的过程可以描述为：首先在数据文件中写入数据，然后在Txn文件中写入事务日志，最后更新索引文件。

在本发明一实施方式中，所述数据去重装置可实现在垃圾回收等后处理流程中，接下来以垃圾回收流程为例，对于所述数据去重装置进行说明。

当然，所述数据去重装置也配置在其他处理机制类似的数据后处理流程中，比如，将在数据后处理流程1中产生的待处理数据容器作为数据去重中的待处理数据，在数据后处理流程2中进行重复数据的查找，在数据后处理流程3中进行重复数据的删除等等，此时，所述待处理数据容器指代的是在其他数据后处理流程中产生的数据容器。在另一种实施方式中，所述待处理数据容器也可指代一个新产生的数据容器，而后续的数据比对和重复数据删除可在垃圾回收等其他后处理流程中进行。

在该实现方式中，如图13所示，所述搜索模块1202包括：

第一获取子模块1301，被配置为获取所述待处理数据容器和已有数据容器的指纹散列值；

第一确认子模块1302，被配置为比对所述待处理数据容器和已有数据容器的指纹散列值，确认与所述待处理数据容器的数据相似度满足预设条件的已有数据容器，并将其作为目标数据容器。

为了提高数据去重尤其是海量数据去重的处理效率，在该实施方式中，搜索模块1202搜索与待处理数据容器较为相似的目标数据容器时，第一获取子模块1301先获取所述待处理数据容器和已有数据容器的指纹散列值；第一确认子模块1302再比对所述待处理数据容器和已有数据容器的指纹散列值，确认与所述待处理数据容器的数据相似度满足预设条件的已有数据容器，并将其作为目标数据容器。其中，所述预设条件可根据实际应用的需要进行设置，比如，可设置为一相似度阈值，当所述待处理数据容器与某一已有数据容器的数据相似度高于该相似度阈值，就可认为该已有数据容器满足所述预设条件。

在本实施例的一个可选实现方式中，如图14所示，所述第一确认子模块1302包括：

第一设置子模块1401，被配置为设置数据相似度评价初始值；

第一比对子模块1402，被配置为比对所述待处理数据容器某一指纹散列值与所述已有数据容器的指纹散列值；

增加子模块1403，被配置为当所述已有数据容器的指纹散列值中存在与所述待处理数据容器的指纹散列值相同的指纹散列值时，增加所述已有数据容器的数据相似度评价值；

第二确认子模块1404，被配置为遍历所述待处理数据容器的指纹散列值，当所述数据相似度评价值高于预设阈值时，将相应的已有数据容器确认为目标数据容器。

为了快速、有效地搜索到与所述待处理数据容器更为相似的已有数据容器，在该实施方式中，采用相似度评价机制来实现目标数据容器的搜索，更为具体地，第一设置子模块1401设置数据相似度评价初始值，比如可以设置为0；第一比对子模块1402将所述待处理数据容器中的某一指纹散列值与所述已有数据容器中的指纹散列值进行比对；若经比对发现所述已有数据容器的指纹散列值中存在与所述待处理数据容器的指纹散列值相同的指纹散列值，则增加子模块1403按照预设规则增加所述已有数据容器对应的数据相似度评价值；遍历完所述待处理数据容器的指纹散列值之后，若该已有数据容器的数据相似度评价值高于预设阈值，第二确认子模块1404就将该已有数据容器确认为是目标数据容器。其中，所述预设规则可根据实际应用的需要进行设置，比如若所述已有数据容器的指纹散列值中存在与所述待处理数据容器的指纹散列值相同的指纹散列值，则将所述已有数据容器对应的数据相似度评价值加一。其中，所述预设阈值可根据实际应用的需要，比如目标数据容器的数量、相似度检测精度开进行设置，比如，若相似度检测精度要求较高，目标数据容器的寻找数量较多，就可将所述预设阈值设置得低一些，以增加目标数据容器的命中数量，提高相似度判断准确性。

在本实施例的一个可选实现方式中，如图15所示，所述删除模块1203包括：

第二获取子模块1501，被配置为获取所述待处理数据容器和目标数据容器的数据块指纹；

第二比对子模块1502，被配置为比对所述待处理数据容器和目标数据容器的数据块指纹，并当所述待处理数据容器和目标数据容器的数据块指纹相同时，确认对应的数据为重复数据；

删除子模块1503，被配置为在后处理流程中删除所述重复数据。

在该实施方式中，在获取目标数据容器之后，通过比对指纹数据来判断目标数据容器中是否存在与待处理数据容器相同、重复的数据，具体地，第二获取子模块1501获取所述待处理数据容器和目标数据容器中的数据块指纹；第二比对子模块1502再依次比对所述待处理数据容器和目标数据容器中的数据块指纹，当所述待处理数据容器和目标数据容器的数据块指纹相同时，删除子模块1503就确认对应的数据为重复数据；对于检测出的重复数据，为了不影响用户IO性能，可将其在后处理流程中删除。

在本实施例的一个可选实现方式中，如图16所示，所述第二比对子模块1502包括：

链接子模块1601，被配置为将所述目标数据容器中存储的数据硬链接至预设位置；

加载子模块1602，被配置为将所述预设位置上所述目标数据容器中的数据块指纹加载至内存，生成指纹缓存文件；

第三比对子模块1603，被配置为比对所述待处理数据容器的数据块指纹与所述指纹缓存文件；

第三确认子模块1604，被配置为当所述指纹缓存文件中存在与所述待处理数据容器的数据块指纹相同的指纹数据时，将所述待处理数据容器中对应的数据确认为重复数据。

在该实施方式中，为了最大限度地保障用户IO性能，使其不受重复数据检测的影响，在检测待处理数据容器与目标数据容器中的重复数据时，链接子模块1601将所述目标数据容器中存储的数据硬链接至预设位置，比如设备分段数据(device segment data)目录；加载子模块1602将所述预设位置上所述目标数据容器中的数据块指纹加载至内存，生成指纹缓存文件，其中，所述指纹缓存文件可采用哈希桶(hash bucket)的形式存储；第三比对子模块1603再比对所述待处理数据容器的数据块指纹与所述指纹缓存文件；当所述指纹缓存文件中存在与所述待处理数据容器的数据块指纹相同的指纹数据时，第三确认子模块1604将所述待处理数据容器中对应的数据确认为重复数据。

在本实施例的一个可选实现方式中，如图17所示，所述第三比对子模块1603包括：

第四确认子模块1701，被配置为响应于接收到比对操作开始指令，确认所述指纹缓存文件中比对操作发生节点；

第二设置子模块1702，被配置为对所述比对操作发生节点数据设置读写加锁；

第四比对子模块1703，被配置为比对所述待处理数据容器的数据块指纹与所述比对操作发生节点数据；

第三设置子模块1704，被配置为响应于比对操作结束指令，对所述比对操作发生节点数据设置读写去锁。

为了避免发生数据读写访问冲突，在该实施方式中，还对于比对操作发生节点的数据进行枷锁控制，具体地，响应于接收到比对操作开始指令，第四确认子模块1701确认所述指纹缓存文件中比对操作发生的节点；然后第二设置子模块1702对所述比对操作发生节点数据设置读写加锁，暂时禁止进行其他数据访问操作；之后第四比对子模块1703对于所述待处理数据容器的数据块指纹与所述比对操作发生节点的数据进行比对；比对操作完成之后，响应于比对操作结束指令，第三设置子模块1704再对所述比对操作发生节点数据设置读写去锁。

在本实施例的一个可选实现方式中，如图18所示，所述装置还包括更新相应数据的索引地址的部分，即所述装置包括：

获取模块1801，被配置为获取待处理数据容器；

搜索模块1802，被配置为在已有数据容器中搜索与所述待处理数据容器的数据相似度满足预设条件的数据容器，并将其作为目标数据容器；

删除模块1803，被配置为比对所述待处理数据容器与目标数据容器，确认重复数据并将其在后处理流程中删除；

更新模块1804，被配置为将所述待处理数据容器中重复数据对应的索引地址更新为所述目标数据容器中与所述重复数据重复的数据的索引地址。

在该实施方式中，考虑到所述重复数据只是重复数据，并不是无效数据，后续还有可能会被调用，所以在删除重复数据释放存储空间之后，更新模块1804还将所述待处理数据容器中被删除的重复数据所对应的索引地址更新为所述目标数据容器中与所述重复数据重复的数据的索引地址，这样就可以在节省存储空间的前提下，保证数据的正常调用。

本发明实施例还公开了一种电子设备，图19示出根据本发明一实施方式的电子设备的结构框图，如图19所示，所述电子设备1900包括存储器1901和处理器1902；其中，

所述存储器1901用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器1902执行以实现上述任一方法步骤。

图20适于用来实现根据本发明实施方式的数据去重方法的计算机系统的结构示意图。

如图20所示，计算机系统2000包括中央处理单元(CPU)2001，其可以根据存储在只读存储器(ROM)2002中的程序或者从存储部分2008加载到随机访问存储器(RAM)2003中的程序而执行上述实施方式中的各种处理。在RAM2003中，还存储有系统2000操作所需的各种程序和数据。CPU2001、ROM2002以及RAM2003通过总线2004彼此相连。输入/输出(I/O)接口2005也连接至总线2004。

以下部件连接至I/O接口2005：包括键盘、鼠标等的输入部分2006；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分2007；包括硬盘等的存储部分2008；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分2009。通信部分2009经由诸如因特网的网络执行通信处理。驱动器2010也根据需要连接至I/O接口2005。可拆卸介质2011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器2010上，以便于从其上读出的计算机程序根据需要被安装入存储部分2008。

特别地，根据本发明的实施方式，上文描述的方法可以被实现为计算机软件程序。例如，本发明的实施方式包括一种计算机程序产品，其包括有形地包含在及其可读介质上的计算机程序，所述计算机程序包含用于执行所述数据去重方法的程序代码。在这样的实施方式中，该计算机程序可以通过通信部分2009从网络上被下载和安装，和/或从可拆卸介质2011被安装。

附图中的流程图和框图，图示了按照本发明各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施方式中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

作为另一方面，本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本发明实施例的方法。

以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本发明实施例中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种数据去重方法，其特征在于，包括：

获取待处理数据容器；

2.根据权利要求1所述的方法，其特征在于，所述数据容器至少包括以下数据：数据块、数据块指纹和指纹散列值。

3.根据权利要求2所述的方法，其特征在于，所述在已有数据容器中搜索与所述待处理数据容器的数据相似度满足预设条件的数据容器，并将其作为目标数据容器，包括：

获取所述待处理数据容器和已有数据容器的指纹散列值；

4.根据权利要求3所述的方法，其特征在于，所述比对所述待处理数据容器和已有数据容器的指纹散列值，确认与所述待处理数据容器的数据相似度满足预设条件的已有数据容器，并将其作为目标数据容器，包括：

设置数据相似度评价初始值；

5.根据权利要求1-4任一所述的方法，其特征在于，所述比对所述待处理数据容器与目标数据容器，确认重复数据并将其在后处理流程中删除，包括：

获取所述待处理数据容器和目标数据容器的数据块指纹；

在后处理流程中删除所述重复数据。

6.根据权利要求5所述的方法，其特征在于，所述比对所述待处理数据容器和目标数据容器的数据块指纹，并当所述待处理数据容器和目标数据容器的数据块指纹相同时，确认对应的数据为重复数据，包括：

将所述目标数据容器中存储的数据硬链接至预设位置；

7.根据权利要求6所述的方法，其特征在于，所述比对所述待处理数据容器的数据块指纹与所述指纹缓存文件，包括：

对所述比对操作发生节点数据设置读写加锁；

8.根据权利要求1-7任一所述的方法，其特征在于，还包括：

9.一种数据去重装置，其特征在于，包括：

获取模块，被配置为获取待处理数据容器；

10.根据权利要求9所述的装置，其特征在于，所述数据容器至少包括以下数据：数据块、数据块指纹和指纹散列值。

11.根据权利要求10所述的装置，其特征在于，所述搜索模块包括：

12.根据权利要求11所述的装置，其特征在于，所述第一确认子模块包括：

第一设置子模块，被配置为设置数据相似度评价初始值；

13.根据权利要求9-12任一所述的装置，其特征在于，所述删除模块包括：

删除子模块，被配置为在后处理流程中删除所述重复数据。

14.根据权利要求13所述的装置，其特征在于，所述第二比对子模块包括：

15.根据权利要求14所述的装置，其特征在于，所述第三比对子模块包括：

16.根据权利要求9-15任一所述的装置，其特征在于，还包括：

17.一种电子设备，其特征在于，包括存储器和处理器；其中，

所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现权利要求1-8任一项所述的方法步骤。

18.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该计算机指令被处理器执行时实现权利要求1-8任一项所述的方法步骤。