CN107273536A

CN107273536A - 一种重复数据确定方法、系统及分布式存储系统

Info

Publication number: CN107273536A
Application number: CN201710521604.4A
Authority: CN
Inventors: 张子奇
Original assignee: Zhengzhou Yunhai Information Technology Co Ltd
Current assignee: Zhengzhou Yunhai Information Technology Co Ltd
Priority date: 2017-06-30
Filing date: 2017-06-30
Publication date: 2017-10-20

Abstract

本申请公开了一种重复数据确定方法，应用于分布式存储系统，包括：判断目标写入数据的数据指纹是否存在于预设的数据指纹字典中；其中，数据指纹字典为用于存储特定数据指纹的数据库，特定数据指纹为分布式存储系统中满足预设数据筛选条件的数据的指纹；若目标写入数据的数据指纹存在于数据指纹字典中，则将目标写入数据确定为重复数据。本申请的数据指纹字典中所存储的数据指纹是经过预设数据筛选条件筛选的数据的指纹，也即，上述数据指纹字典中保存的数据指纹仅仅是存储系统中经过筛选后的部分数据的指纹，从而使得在指纹比对过程中，只需将目标写入数据的数据指纹与部分数据的指纹进行比对，从而大幅提升了重复数据的确定速度。

Description

一种重复数据确定方法、系统及分布式存储系统

技术领域

本发明涉及数据优化领域，特别涉及一种重复数据确定方法、系统及分布式存储系统。

背景技术

在数据备份领域，存储系统中不可避免的存在着大量的冗余数据，为了解决这个问题，节省更多空间，重复数据删除(data deduplication)技术是该领域的一种常用手段，它的目的是旨在减少存储系统中使用的存储容量。它的工作方式是在某个时间周期内查找不同文件中不同位置的重复可变大小数据块，重复的数据块用指示符取代。高度冗余的数据集从数据重复删除技术的获益极大，用户可以实现10：1至50：1的缩减比。在目前常见的重复数据删除技术当中，一般是先对数据块进行哈希(hash)运算得到存储系统中数据块的数据指纹，然后与预设的数据指纹库进行对比，由于上述数据指纹库中保存的数据指纹是存储系统中所有数据的数据指纹，所以导致上述指纹比对过程中通常需要展开大量的数据指纹作对比，从而导致存储系统中重复数据的确定速度非常慢，效率较低，由此进一步导致数据读写时间较长。

综上所述可以看出，如何进一步提升重复数据的确定速度是目前亟待解决的问题。

发明内容

有鉴于此，本发明的目的在于提供一种重复数据确定方法、系统及分布式存储系统，可以快速确定存储系统当中的重复数据。其具体方案如下：

一种重复数据确定方法，应用于分布式存储系统，包括：

判断目标写入数据的数据指纹是否存在于预设的数据指纹字典中；其中，所述数据指纹字典为用于存储特定数据指纹的数据库，所述特定数据指纹为所述分布式存储系统中满足预设数据筛选条件的数据的指纹；

若所述目标写入数据的数据指纹存在于所述数据指纹字典中，则将所述目标写入数据确定为重复数据。

优选的，所述预设数据筛选条件为用于对所述分布式存储系统中数据类型与预设类型相一致的数据进行筛选的筛选条件。

优选的，所述预设数据筛选条件为用于从所述分布式存储系统中对被访问频率大于预设频率阈值的数据进行筛选的筛选条件。

优选的，所述预设数据筛选条件为用于从所述分布式存储系统中对数据安全系数大于预设系数阈值的数据进行筛选的筛选条件。

优选的，还包括：

将所述数据指纹字典预先存储于所述分布式存储系统的内存中。

相应的，本发明还公开了一种重复数据确定系统，应用于分布式存储系统，包括：

数据判断模块，用于判断目标写入数据的数据指纹是否存在于预设的数据指纹字典中；其中，所述数据指纹字典为用于存储特定数据指纹的数据库，所述特定数据指纹为所述分布式存储系统中满足预设数据筛选条件的数据的指纹；

数据确定模块，用于若所述目标写入数据的数据指纹存在于所述数据指纹字典中，则将所述目标写入数据确定为重复数据。

优选的，还包括：

第一字典创建模块，用于创建存储第一类特定数据指纹的数据指纹字典；

其中，所述第一类特定数据指纹为所述分布式存储系统中满足第一预设数据筛选条件的数据指纹，并且，所述第一预设数据筛选条件为用于对所述分布式存储系统中数据类型与预设类型相一致的数据进行筛选的筛选条件；

第一筛选单元，用于对所述分布式存储系统中数据类型与预设类型相一致的数据进行筛选。

优选的，还包括：

第二字典创建模块，用于创建存储第二类特定数据指纹的数据指纹字典；

其中，所述第二类特定数据指纹为所述分布式存储系统中满足第二预设数据筛选条件的数据指纹，并且，所述第二预设数据筛选条件为用于对所述分布式存储系统中对被访问频率大于预设频率阈值的数据进行筛选的筛选条件。

第二筛选单元，用于对所述分布式存储系统中对被访问频率大于预设频率阈值的数据进行筛选。

优选的，还包括：

第三字典创建模块，用于创建存储第三类特定数据指纹的数据指纹字典；

其中，所述第三类特定数据指纹为所述分布式存储系统中满足第三预设数据筛选条件的数据指纹，并且，所述第三预设数据筛选条件为用于对所述分布式存储系统中对数据安全系数大于预设系数阈值的数据进行筛选的筛选条件。

第三筛选单元，用于对所述分布式存储系统中对数据安全系数大于预设系数阈值的数据进行筛选。

优选的，还包括：

数据存储模块，用于将所述数据指纹字典预先存储于所述分布式存储系统的内存中。

进一步的，本发明还公开了一种分布式存储系统，包括前述公开的重复数据确定系统。

本发明中，重复数据确定方法，应用于分布式存储系统，包括：判断目标写入数据的数据指纹是否存在于预设的数据指纹字典中；其中，数据指纹字典为用于存储特定数据指纹的数据库，特定数据指纹为分布式存储系统中满足预设数据筛选条件的数据的指纹；若目标写入数据的数据指纹存在于数据指纹字典中，则将目标写入数据确定为重复数据。由上可知，上述预设的数据指纹字典中所存储的数据指纹是经过预设数据筛选条件筛选的数据的指纹，也即，上述数据指纹字典中保存的数据指纹仅仅是存储系统中经过筛选后的部分数据的指纹，从而使得在上述指纹比对过程中，只需将目标写入数据的数据指纹与部分数据的指纹进行比对，而无需与存储系统中的全部数据的指纹进行比对，从而大幅提升了重复数据的确定速度，提高了重复数据的确定效率，有利于提升对数据读写请求的响应速度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例一公开的一种重复数据确定方法流程图；

图2为本发明实施例二公开的一种重复数据确定方法流程图；

图3为本发明实施例公开的一种重复数据确定系统流程图；

图4为本发明中数据指纹字典应用示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例一公开了一种重复数据确定方法，参见图1所示，该方法包括：

步骤S11：判断目标写入数据的数据指纹是否存在于预设的数据指纹字典中；其中，数据指纹字典为用于存储特定数据指纹的数据库，特定数据指纹为分布式存储系统中满足预设数据筛选条件的数据的指纹；

在本实施例中，预设的数据指纹字典为存储特定数据指纹的数据库，可以理解的是，特定数据指纹中的数据指纹是通过预设的筛选条件筛选出来的数据，包括但不限于，形如全0、全1、全A的带有固定属性的数据；也可以是根据用户的被访问频率或者是数据的安全性能筛选出来的数据。

而且，在本实施例中，预设的数据指纹字典中的数据可以是上述特定数据中的任意一类或者是几类，此处不作限定。

步骤S12：若目标写入数据的数据指纹存在于数据指纹字典中，则将目标写入数据确定为重复数据。

可以理解的是，通过将目标写入数据的数据指纹与数据指纹字典中的数据指纹作对比，可以确定出目标写入数据的数据指纹是否存在于数据指纹字典中，如果存在，则说明目标写入数据为重复数据。

可见，本发明首先在存储系统当中预设数据指纹字典，在预设的数据指纹字典中存储特定数据指纹，当目标写入数据写入系统当中时，将目标写入数据对应的数据指纹与数据指纹字典中的数据指纹作对比，如果目标写入数据对应的数据指纹存在于数据指纹字典中，然后将该目标写入数据确定为重复数据。由上可知，上述预设的数据指纹字典中所存储的数据指纹是经过预设数据筛选条件筛选的数据的指纹，也即，上述数据指纹字典中保存的数据指纹仅仅是存储系统中经过筛选后的部分数据的指纹，从而使得在上述指纹比对过程中，只需将目标写入数据的数据指纹与部分数据的指纹进行比对，而无需与存储系统中的全部数据的指纹进行比对，从而大幅提升了重复数据的确定速度，提高了重复数据的确定效率，有利于提升对数据读写请求的响应速度。

本发明实施例二公开了一种具体的重复数据确定方法，参见图2所示，相对于上一实施例，本实施例对技术方案作了进一步的说明和优化。具体的：

步骤S21：在分布式存储系统当中创建预设的数据指纹字典；

在本实施例中，首先在分布式存储系统当中创建预设的数据指纹字典，是为了在数据指纹字典中存储特定数据的数据指纹。

步骤S22：判断目标写入数据的数据指纹是否存在于预设的数据指纹字典中；其中，数据指纹字典为用于存储特定数据指纹的数据库，特定数据指纹为分布式存储系统中满足预设数据筛选条件的数据的指纹；

需要说明的是，数据指纹字典是预设的一个用户存储特定数据指纹的数据库，并且该数据库是根据预设的数据筛选条件筛选出来的数据的数据库。

可以理解的是，这样的数据筛选条件可以为一个或若干，也即，通过一个或若干个数据筛选条件可以筛选出具有一类或者是几类的数据集合。也即通过这样的方法，所建立的数据指纹字典可以对应的包括有一种类型的数据集合，也可以包括有几种类型的数据集合。

具体的，数据筛选条件可以是对分布式存储系统当中的数据类型做限定，通过这样的方式来筛选数据；例如：通过与预设类型相一致的数据进行筛选，其中，预设数据类型，包括但不限于，形如全0、全1、全A的具有特殊形式的数据，或者是根据用户的习惯设置一些用户常用数据的数据指纹存储于数据指纹字典中；

进一步的，数据筛选条件还可以是对分布式存储系统中数据的被访问频率作限定，来相应的得到预设的数据指纹字典，也即：当数据的被访问频率大于预设频率阈值时，可以把数据被访问频率大于预设频率阈值的数据筛选出来，然后将该类数据的数据指纹存储在数据指纹字典中。

更进一步的，数据筛选条件还可以是对分布式存储系统中数据的安全数作限定，来得到预设的数据指纹字典，也即：当数据的安全系数大于预设系数阈值时，可以把数据安全系数大于预设系数阈值的数据筛选出来，然后将该类数据的数据指纹存储在数据指纹字典中。

当然，更进一步的，预设的数据指纹字典可以是根据上述的任意一条数据筛选条件，筛选出来的数据的数据指纹字典。也可以是根据上述几条数据筛选条件对应筛选出来的数据的数据指纹字典，此处不作限定。

步骤S23：若目标写入数据的数据指纹存在于数据指纹字典中，则将目标写入数据确定为重复数据。

优选的，将数据指纹字典预先存储于分布式存储系统的内存中。

可以理解的是，将数据指纹字典预先存储于分布式存储系统的内存中，将会比将数据指纹字典预先存储于分布式存储系统中的其他位置，提高数据的读写速度，从而更进一步的提升重复数据的确定速度。

优选的，还可以将数据指纹字典预先存储于分布式存储系统中的各个节点上。

可以理解的是，通过这样的方法，可以保证分布式存储系统中各个节点数据的一致性，这样可以避免因某些异常因素，导致分布式存储系统中单一节点出现问题，而出现一些用户体验不良好情况的发生。

相应的，本发明实施例还公开了一种重复数据确定系统，参见图3所示，该系统包括：

数据判断模块31，用于判断目标写入数据的数据指纹是否存在于预设的数据指纹字典中；其中，数据指纹字典为用于存储特定数据指纹的数据库，特定数据指纹为分布式存储系统中满足预设数据筛选条件的数据的指纹；

数据确定模块32，用于当目标写入数据的数据指纹存在于数据指纹字典中，则将目标写入数据确定为重复数据。

优选的，该重复数据确定系统，还包括：

其中，第一类特定数据指纹为分布式存储系统中满足第一预设数据筛选条件的数据指纹，并且，第一预设数据筛选条件为用于对分布式存储系统中数据类型与预设类型相一致的数据进行筛选的筛选条件；

具体的，第一字典创建模块包括第一筛选单元；其中，

第一筛选单元，用于对分布式存储系统中数据类型与预设类型相一致的数据进行筛选。

优选的，该重复数据确定系统，还包括：

第二字典创建模，用于创建存储第二类特定数据指纹的数据指纹字典；

其中，第二类特定数据指纹为分布式存储系统中满足第二预设数据筛选条件的数据指纹，并且，第二预设数据筛选条件为用于对分布式存储系统中对被访问频率大于预设频率阈值的数据进行筛选的筛选条件。

具体的，第二字典创建模块包括第二筛选单元；其中，

第二筛选单元，用于对分布式存储系统中对被访问频率大于预设频率阈值的数据进行筛选。

优选的，该重复数据确定系统，还包括：

其中，第三类特定数据指纹为分布式存储系统中满足第三预设数据筛选条件的数据指纹，并且，第三预设数据筛选条件为用于对分布式存储系统中对数据安全系统大于预设系数阈值的数据进行筛选的筛选条件。

具体的，第三字典创建模块包括第三筛选单元；其中，

第三筛选单元，用于对分布式存储系统中对数据安全系数大于预设系数阈值的数据进行筛选。

优选的，该重复数据确定系统，还包括：

数据存储模块，用于将数据指纹字典预先存储于分布式存储系统的内存中。

关于上述各个模块和各个单元更加详细的工作过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

相应的，本发明实施例还公开一种分布式存储系统，包括上述的重复数据确定系统。

可以理解的是，本申请实施例所提供的分布式存储系统，会加快分布式存储系统中重复数据的确定过程，提高系统存储空间的利用率，进而提高用户体验。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的一种重复数据确定方法、系统及分布式存储系统.进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种重复数据确定方法，其特征在于，应用于分布式存储系统，包括：

2.根据权利要求1所述的方法，其特征在于，所述预设数据筛选条件为用于对所述分布式存储系统中数据类型与预设类型相一致的数据进行筛选的筛选条件。

3.根据权利要求1所述的方法，其特征在于，所述预设数据筛选条件为用于从所述分布式存储系统中对被访问频率大于预设频率阈值的数据进行筛选的筛选条件。

4.根据权利要求1所述的方法，其特征在于，所述预设数据筛选条件为用于从所述分布式存储系统中对数据安全系数大于预设系数阈值的数据进行筛选的筛选条件。

5.根据权利要求1至4任一项所述的方法，其特征在于，还包括：

6.一种重复数据确定系统，其特征在于，应用于分布式存储系统，包括：

数据判断模块，用于判断目标写入数据的数据指纹是否存在于预设的数据指纹字典中；其中，所述数据指纹字典为用于存储特定数据指纹的数据库，所述特定数据指纹为所述分布式存储系统中满足预设数据筛选条件的数据的指纹。

7.根据权利要求6所述的系统，其特征在于，还包括：

8.根据权利要求6所述的系统，其特征在于，还包括：

9.根据权利要求6所述的系统，其特征在于，还包括：

10.根据权利要求6至9任一项所述的系统，其特征在于，还包括：

11.一种分布式存储系统，其特征在于，包括如权利要求6至10任一项所述的重复数据确定系统。