CN105511812A

CN105511812A - 一种存储系统大数据优化方法及装置

Info

Publication number: CN105511812A
Application number: CN201510916919.XA
Authority: CN
Inventors: 王鑫; 杨文浩
Original assignee: Inspur Beijing Electronic Information Industry Co Ltd
Current assignee: Inspur Beijing Electronic Information Industry Co Ltd
Priority date: 2015-12-10
Filing date: 2015-12-10
Publication date: 2016-04-20
Anticipated expiration: 2035-12-10
Also published as: CN105511812B

Abstract

本发明实施例公开了一种存储系统大数据优化方法及装置，包括：根据待处理数据的第一数据信息，选择相应的冗余数据识别方法识别所述待处理数据中的冗余数据；分析所述待处理数据中冗余数据的第二数据信息，选择相对应的冗余数据去除规则；根据所述冗余数据的去除规则，去除所述冗余数据，可见，在本实施例中通过识别冗余数据并去除冗余数据的方法，节约了大量的存储空间，提高存储空间的利用率，降低存储和维护成本，满足数据爆发式增长的需求。

Description

一种存储系统大数据优化方法及装置

技术领域

本发明涉及计算机软件领域，更具体地说，涉及一种存储系统大数据优化方法及装置。

背景技术

目前随着计算机技术的快速发展，人类已经进入了信息时代，信息和数据存储成为人们日常生活中很重要的一部分。企业和个人用户的数据存储量大量增长，数据的存储能力也越来越高，在数据存储为人类提供服务的同时，也出现了大量的冗余数据。统计显示，最少有六成以上的数据都是冗余数据，某些情况下，数据冗余率甚至达到了惊人的几百倍比。

因此，如何减少随着数据量爆发所带来的大量的冗余数据，是现在需要解决的问题。

发明内容

本发明的目的在于提供一种存储系统大数据优化方法及装置，以减少随着数据量爆发所带来的大量的冗余数据。

为实现上述目的，本发明实施例提供了如下技术方案：

一种存储系统大数据优化方法，包括：

根据待处理数据的第一数据信息，选择相应的冗余数据识别方法识别所述待处理数据中的冗余数据；

分析所述待处理数据中冗余数据的第二数据信息，选择相对应的冗余数据去除规则；

根据所述冗余数据的去除规则，去除所述冗余数据。

优选的，所述根据待处理数据的第一数据信息，选择相应的冗余数据识别方法识别所述待处理数据中的冗余数据，包括：

当所述第一数据信息为存在提取元数据的设备时，选择基于重复内容识别方法识别所述待处理数据中的冗余数据；

当所述第一数据信息为需要从文件级、块级、字节级去除冗余数据时，选择基于去重粒度识别方法识别所述待处理数据中的冗余数据。

优选的，分析所述待处理数据中冗余数据的第二数据信息，选择相对应的冗余数据去除规则，包括：

判断当前进行的其他业务数量是否大于第一预定阈值，并且预留的存储空间大于第二预定阈值；

若是，选择离线式冗余数据去除方式；若否，选择在线式冗余数据去除方式。

若所述待处理数据在数据的发送端，则选择源端冗余数据去除方式；

若所述待处理数据在数据的接收端，则选择目标端冗余数据去除方式。

一种存储系统大数据优化装置，包括：

冗余数据识别模块，用于根据待处理数据的第一数据信息，选择相应的冗余数据识别方法识别所述待处理数据中的冗余数据；

去除规则选择模块，用于分析所述待处理数据中冗余数据的第二数据信息，选择相对应的冗余数据去除规则；

冗余数据去除模块，用于根据所述冗余数据的去除规则，去除所述冗余数据。

优选的，所述冗余数据识别模块包括：

第一冗余数据识别单元，用于当所述第一数据信息为存在提取元数据的设备时，选择基于重复内容识别方法识别所述待处理数据中的冗余数据；

第二冗余数据识别单元，用于当所述第一数据信息为需要从文件级、块级、字节级去除冗余数据时，选择基于去重粒度识别方法识别所述待处理数据中的冗余数据。

优选的，所述去除规则选择模块，包括：

判断单元，用于判断当前进行的其他业务数量是否大于第一预定阈值，并且预留的存储空间大于第二预定阈值；

优选的，所述去除规则选择模块，包括：

第三去除规则选择单元，用于当所述待处理数据在数据的发送端时，选择源端冗余数据去除方式；

第四去除规则选择单元，用于当所述待处理数据在数据的接收端时，选择目标端冗余数据去除方式。

通过以上方案可知，本发明实施例提供的一种存储系统大数据优化方法及装置，包括：根据待处理数据的第一数据信息，选择相应的冗余数据识别方法识别所述待处理数据中的冗余数据；分析所述待处理数据中冗余数据的第二数据信息，选择相对应的冗余数据去除规则；根据所述冗余数据的去除规则，去除所述冗余数据，可见，在本实施例中通过识别冗余数据并去除冗余数据的方法，节约了大量的存储空间，提高存储空间的利用率，降低存储和维护成本，满足数据爆发式增长的需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例公开的一种存储系统大数据优化方法流程示意图；

图2为本发明实施例公开的一种存储系统大数据优化装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种存储系统大数据优化方法及装置，以减少随着数据量爆发所带来的大量的冗余数据。

参见图1，本发明实施例提供的一种存储系统大数据优化方法，包括：

S101、根据待处理数据的第一数据信息，选择相应的冗余数据识别方法识别所述待处理数据中的冗余数据；

其中，所述根据待处理数据的第一数据信息，选择相应的冗余数据识别方法识别所述待处理数据中的冗余数据，包括：

具体的，冗余包括很多类型，如硬件冗余、信息冗余、软件冗余、时间冗余等。在本实施例中的冗余数据为信息冗余，也可称为数据冗余。数据冗余是数据库的一个重要特征之一，数据是应用的核心，数据库是一种重要的、高效的数据管理和保存系统。数据冗余是数据、文件的重复存储，在数据库中，当文件被多次备份在一个数据文件或多个数据文件中，数据冗余就会发生。数据存储系统被要求具有高可靠性和高容错性，因此一些数据冗余是为了数据安全、防止数据丢失必要的备份冗余。但是在海量数据时代，其中大部分的数据冗余都是没有价值的、可去除的。因此，增加数据的独立性、减少数据冗余是当今信息资源管理必须要解决的问题。

想要进行冗余去除就先要对数据进行分类，即从数据中识别出冗余数据，以方便去除冗余数据。在本实施例中，通过分析第一数据信息选择合适的识别方法。基于不同的策略，具有不同的去除冗余的方法，因此当第一数据信息为可以找到一种能够有效提取元数据设备的时候，选择基于重复内容识别方法，当第一数据信息为需要从文件级、块级、字节级等去去除冗余时候可以选择基于去重粒度识别方法，从而可以从待处理数据中分辨出哪些数据是冗余数据，然后进行冗余处理，通过压缩重复数据，以此确保存储中心中存储的是独一无二的文件，减少数据容量，是数据存储中智能压缩的数据处理技术。

下面对基于重复内容识别方法和基于去重粒度识别方法进行介绍：

1、基于重复内容识别方法

基于重复内容识别方法可以分为基于散列识别和基于内容识别。

其中基于散列识别包括：数据分割操作、数据指纹计算操作以及重复数据检测操作。其中，数据分割操作包括：将数据分割成独立的块，这些数据块是完成数据冗余去除以及数据压缩的基本单位。数据指纹计算操作包括：在每个数据块内都生成一个散列，计算其散列键值，并将其作为数据指纹。重复数据检测操作包括：在重复数据检测过程中，若不考虑哈希值冲突的情况下，如果数据指纹相同，则认为这是相同的数据，进而对重复数据进行压缩。基于内容识别方法是通过元数据的信息，以此来识别文件。通过逐一字节的比对，将不同的字节存储在另一个增量文件中，该方法很好的解决了散列冲突的问题，而且能够有效的去除数据冗余。

2、基于去重粒度识别方法

基于去重粒度识别方法根据去重粒度不同，可以分为文件级去冗余、数据块级去冗余、字节级去冗余甚至位级去冗余。其中文件级去冗余是以文件为单位进行检查和删除冗余数据的，先计算文件的哈希值，然后根据哈希值查找是否有相同的文件。这种方法具有计算快的优点，但是相似文件的重复数据很难去除，能够达到的压缩效果也是有限的。

数据块级冗余是以数据块为单位进行查找数据冗余的，通过删除内容相同的数据块达到去除冗余的目的。这种去除冗余的方法计算速度相对较快,是使用较多的去冗余方法，但是受数据变化的影响较大。字节级别的去除冗余是以字节为基本单位查找和删除冗余数据的。其优点是可以具有很高的去重率，但是字节级去冗余速度比较慢，开销非常大。可以将基于文件级和字节级的去重技术相结合去除冗余，如ExGdd技术。

S102、分析所述待处理数据中冗余数据的第二数据信息，选择相对应的冗余数据去除规则；

其中，分析所述待处理数据中冗余数据的第二数据信息，选择相对应的冗余数据去除规则，包括：

具体的，在本实施例中可以基于消除冗余执行次序去除冗余数据。其中，冗余具有不同的去冗余的时间，根据时间不同可以分为离线式去冗以及在线式去冗。其中，这里的第二数据信息可以为其他业务的进行信息，存储空间预留信息等等，根据第二数据信息的具体内容，可以自动选择合适的去除方式。例如：

如果进行的其他业务数量很多，并且可以预留很大的存储空间时，为了保证去除冗余数据不影响其他业务的进行，可以选择离线式去冗余，离线式去冗余将要处理的数据存储在存储设备的磁盘缓冲区中，在系统的空闲时段，再根据一定的处理机制进行去除冗余。

如果进行的其他业务数量少，并且没有预留的存储空间时，可以选择在线式去冗余，在线式去冗余是在数据存储之前处理数据，因此不需要预留很大的空间，也不需要保存原有数据，但是同离线式去冗余相比其吞吐量不够高，会影响存储器的性能。

具体的，在本实施例中的第二数据信息可以为待处理数据的保存位置信息及发送端的带宽信息，因此可以根据第二数据信息，选择基于消除冗余执行地点的方法去除冗余数据，其中冗余具有不同的冗余去除地点，可以根据源端和目标端进行划分为源端去重和目标端去重。其中源端是数据的发送端，一般是指客户端。目标端是数据的接收端和存储端,一般是指服务器端。

其中，若待处理数据在源端，且源端去重所占用的发送端资源的影响不大时，可以选择源端冗余数据去除方式，源端冗余数据去除方式是指在源端就对重复数据进行查找以及去除工作，可以大大减少数据传输的传输量，在带宽较低的情况下使用。

若待处理数据在源端，且避免源端去重所占用发送端资源，使得发送端的程序性能受到影响时，可以选择目标端冗余数据去除方式，目标端冗余数据去除方式是指在数据的接收端进行查找以及去重的操作，这样不会影响源端的性能，在带宽比较高的情况下使用。

S103、根据所述冗余数据的去除规则，去除所述冗余数据。

因此，在本实施例中，根据待处理数据的第一数据信息和第二数据信息，可以选择合适的冗余数据识别方法和冗余数据去除方法，从而以最合理的方式去除冗余数据，从而减小消耗，提高存储空间的利用率，让数据中心存储更多的数据，也使得数据和文件保存更久。

本发明实施例提供的一种存储系统大数据优化方法，包括：根据待处理数据的第一数据信息，选择相应的冗余数据识别方法识别所述待处理数据中的冗余数据；分析所述待处理数据中冗余数据的第二数据信息，选择相对应的冗余数据去除规则；根据所述冗余数据的去除规则，去除所述冗余数据，可见，在本实施例中通过识别冗余数据并去除冗余数据的方法，节约了大量的存储空间，提高存储空间的利用率，降低存储和维护成本，满足数据爆发式增长的需求。

下面对本发明实施例提供的一种存储系统大数据优化装置进行介绍，下文描述的一种存储系统大数据优化装置与上文描述的一种存储系统大数据优化方法可以相互参照。

参见图2，本发明实施例提供的一种存储系统大数据优化装置，包括：

冗余数据识别模块100，用于根据待处理数据的第一数据信息，选择相应的冗余数据识别方法识别所述待处理数据中的冗余数据；

去除规则选择模块200，用于分析所述待处理数据中冗余数据的第二数据信息，选择相对应的冗余数据去除规则；

冗余数据去除模块300，用于根据所述冗余数据的去除规则，去除所述冗余数据。

本发明实施例提供的一种存储系统大数据优化装置，包括：冗余数据识别模块100，用于根据待处理数据的第一数据信息，选择相应的冗余数据识别方法识别所述待处理数据中的冗余数据；去除规则选择模块200，用于分析所述待处理数据中冗余数据的第二数据信息，选择相对应的冗余数据去除规则；冗余数据去除模块300，用于根据所述冗余数据的去除规则，去除所述冗余数据，可见，在本实施例中通过识别冗余数据并去除冗余数据的方法，节约了大量的存储空间，提高存储空间的利用率，降低存储和维护成本，满足数据爆发式增长的需求

优选的，在本发明提供的另一实施例中，所述冗余数据识别模块100包括：

优选的，在本发明提供的另一实施例中，所述去除规则选择模块200，包括：

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种存储系统大数据优化方法，其特征在于，包括：

根据所述冗余数据的去除规则，去除所述冗余数据。

2.根据权利要求1所述的存储系统大数据优化方法，其特征在于，所述根据待处理数据的第一数据信息，选择相应的冗余数据识别方法识别所述待处理数据中的冗余数据，包括：

3.根据权利要求2所述的存储系统大数据优化方法，其特征在于，分析所述待处理数据中冗余数据的第二数据信息，选择相对应的冗余数据去除规则，包括：

4.根据权利要求2所述的存储系统大数据优化方法，其特征在于，分析所述待处理数据中冗余数据的第二数据信息，选择相对应的冗余数据去除规则，包括：

5.一种存储系统大数据优化装置，其特征在于，包括：

6.根据权利要求5所述的存储系统大数据优化装置，其特征在于，所述冗余数据识别模块包括：

7.根据权利要求6所述的存储系统大数据优化装置，其特征在于，所述去除规则选择模块，包括：

8.根据权利要求6所述的存储系统大数据优化装置，其特征在于，所述去除规则选择模块，包括：