CN105511812A - 一种存储系统大数据优化方法及装置 - Google Patents

一种存储系统大数据优化方法及装置 Download PDF

Info

Publication number
CN105511812A
CN105511812A CN201510916919.XA CN201510916919A CN105511812A CN 105511812 A CN105511812 A CN 105511812A CN 201510916919 A CN201510916919 A CN 201510916919A CN 105511812 A CN105511812 A CN 105511812A
Authority
CN
China
Prior art keywords
data
redundant data
redundant
pending
message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510916919.XA
Other languages
English (en)
Other versions
CN105511812B (zh
Inventor
王鑫
杨文浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN201510916919.XA priority Critical patent/CN105511812B/zh
Publication of CN105511812A publication Critical patent/CN105511812A/zh
Application granted granted Critical
Publication of CN105511812B publication Critical patent/CN105511812B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0608Saving storage space on storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/064Management of blocks
    • G06F3/0641De-duplication techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种存储系统大数据优化方法及装置,包括:根据待处理数据的第一数据信息,选择相应的冗余数据识别方法识别所述待处理数据中的冗余数据;分析所述待处理数据中冗余数据的第二数据信息,选择相对应的冗余数据去除规则;根据所述冗余数据的去除规则,去除所述冗余数据,可见,在本实施例中通过识别冗余数据并去除冗余数据的方法,节约了大量的存储空间,提高存储空间的利用率,降低存储和维护成本,满足数据爆发式增长的需求。

Description

一种存储系统大数据优化方法及装置
技术领域
本发明涉及计算机软件领域,更具体地说,涉及一种存储系统大数据优化方法及装置。
背景技术
目前随着计算机技术的快速发展,人类已经进入了信息时代,信息和数据存储成为人们日常生活中很重要的一部分。企业和个人用户的数据存储量大量增长,数据的存储能力也越来越高,在数据存储为人类提供服务的同时,也出现了大量的冗余数据。统计显示,最少有六成以上的数据都是冗余数据,某些情况下,数据冗余率甚至达到了惊人的几百倍比。
因此,如何减少随着数据量爆发所带来的大量的冗余数据,是现在需要解决的问题。
发明内容
本发明的目的在于提供一种存储系统大数据优化方法及装置,以减少随着数据量爆发所带来的大量的冗余数据。
为实现上述目的,本发明实施例提供了如下技术方案:
一种存储系统大数据优化方法,包括:
根据待处理数据的第一数据信息,选择相应的冗余数据识别方法识别所述待处理数据中的冗余数据;
分析所述待处理数据中冗余数据的第二数据信息,选择相对应的冗余数据去除规则;
根据所述冗余数据的去除规则,去除所述冗余数据。
优选的,所述根据待处理数据的第一数据信息,选择相应的冗余数据识别方法识别所述待处理数据中的冗余数据,包括:
当所述第一数据信息为存在提取元数据的设备时,选择基于重复内容识别方法识别所述待处理数据中的冗余数据;
当所述第一数据信息为需要从文件级、块级、字节级去除冗余数据时,选择基于去重粒度识别方法识别所述待处理数据中的冗余数据。
优选的,分析所述待处理数据中冗余数据的第二数据信息,选择相对应的冗余数据去除规则,包括:
判断当前进行的其他业务数量是否大于第一预定阈值,并且预留的存储空间大于第二预定阈值;
若是,选择离线式冗余数据去除方式;若否,选择在线式冗余数据去除方式。
优选的,分析所述待处理数据中冗余数据的第二数据信息,选择相对应的冗余数据去除规则,包括:
若所述待处理数据在数据的发送端,则选择源端冗余数据去除方式;
若所述待处理数据在数据的接收端,则选择目标端冗余数据去除方式。
一种存储系统大数据优化装置,包括:
冗余数据识别模块,用于根据待处理数据的第一数据信息,选择相应的冗余数据识别方法识别所述待处理数据中的冗余数据;
去除规则选择模块,用于分析所述待处理数据中冗余数据的第二数据信息,选择相对应的冗余数据去除规则;
冗余数据去除模块,用于根据所述冗余数据的去除规则,去除所述冗余数据。
优选的,所述冗余数据识别模块包括:
第一冗余数据识别单元,用于当所述第一数据信息为存在提取元数据的设备时,选择基于重复内容识别方法识别所述待处理数据中的冗余数据;
第二冗余数据识别单元,用于当所述第一数据信息为需要从文件级、块级、字节级去除冗余数据时,选择基于去重粒度识别方法识别所述待处理数据中的冗余数据。
优选的,所述去除规则选择模块,包括:
判断单元,用于判断当前进行的其他业务数量是否大于第一预定阈值,并且预留的存储空间大于第二预定阈值;
若是,选择离线式冗余数据去除方式;若否,选择在线式冗余数据去除方式。
优选的,所述去除规则选择模块,包括:
第三去除规则选择单元,用于当所述待处理数据在数据的发送端时,选择源端冗余数据去除方式;
第四去除规则选择单元,用于当所述待处理数据在数据的接收端时,选择目标端冗余数据去除方式。
通过以上方案可知,本发明实施例提供的一种存储系统大数据优化方法及装置,包括:根据待处理数据的第一数据信息,选择相应的冗余数据识别方法识别所述待处理数据中的冗余数据;分析所述待处理数据中冗余数据的第二数据信息,选择相对应的冗余数据去除规则;根据所述冗余数据的去除规则,去除所述冗余数据,可见,在本实施例中通过识别冗余数据并去除冗余数据的方法,节约了大量的存储空间,提高存储空间的利用率,降低存储和维护成本,满足数据爆发式增长的需求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例公开的一种存储系统大数据优化方法流程示意图;
图2为本发明实施例公开的一种存储系统大数据优化装置结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种存储系统大数据优化方法及装置,以减少随着数据量爆发所带来的大量的冗余数据。
参见图1,本发明实施例提供的一种存储系统大数据优化方法,包括:
S101、根据待处理数据的第一数据信息,选择相应的冗余数据识别方法识别所述待处理数据中的冗余数据;
其中,所述根据待处理数据的第一数据信息,选择相应的冗余数据识别方法识别所述待处理数据中的冗余数据,包括:
当所述第一数据信息为存在提取元数据的设备时,选择基于重复内容识别方法识别所述待处理数据中的冗余数据;
当所述第一数据信息为需要从文件级、块级、字节级去除冗余数据时,选择基于去重粒度识别方法识别所述待处理数据中的冗余数据。
具体的,冗余包括很多类型,如硬件冗余、信息冗余、软件冗余、时间冗余等。在本实施例中的冗余数据为信息冗余,也可称为数据冗余。数据冗余是数据库的一个重要特征之一,数据是应用的核心,数据库是一种重要的、高效的数据管理和保存系统。数据冗余是数据、文件的重复存储,在数据库中,当文件被多次备份在一个数据文件或多个数据文件中,数据冗余就会发生。数据存储系统被要求具有高可靠性和高容错性,因此一些数据冗余是为了数据安全、防止数据丢失必要的备份冗余。但是在海量数据时代,其中大部分的数据冗余都是没有价值的、可去除的。因此,增加数据的独立性、减少数据冗余是当今信息资源管理必须要解决的问题。
想要进行冗余去除就先要对数据进行分类,即从数据中识别出冗余数据,以方便去除冗余数据。在本实施例中,通过分析第一数据信息选择合适的识别方法。基于不同的策略,具有不同的去除冗余的方法,因此当第一数据信息为可以找到一种能够有效提取元数据设备的时候,选择基于重复内容识别方法,当第一数据信息为需要从文件级、块级、字节级等去去除冗余时候可以选择基于去重粒度识别方法,从而可以从待处理数据中分辨出哪些数据是冗余数据,然后进行冗余处理,通过压缩重复数据,以此确保存储中心中存储的是独一无二的文件,减少数据容量,是数据存储中智能压缩的数据处理技术。
下面对基于重复内容识别方法和基于去重粒度识别方法进行介绍:
1、基于重复内容识别方法
基于重复内容识别方法可以分为基于散列识别和基于内容识别。
其中基于散列识别包括:数据分割操作、数据指纹计算操作以及重复数据检测操作。其中,数据分割操作包括:将数据分割成独立的块,这些数据块是完成数据冗余去除以及数据压缩的基本单位。数据指纹计算操作包括:在每个数据块内都生成一个散列,计算其散列键值,并将其作为数据指纹。重复数据检测操作包括:在重复数据检测过程中,若不考虑哈希值冲突的情况下,如果数据指纹相同,则认为这是相同的数据,进而对重复数据进行压缩。基于内容识别方法是通过元数据的信息,以此来识别文件。通过逐一字节的比对,将不同的字节存储在另一个增量文件中,该方法很好的解决了散列冲突的问题,而且能够有效的去除数据冗余。
2、基于去重粒度识别方法
基于去重粒度识别方法根据去重粒度不同,可以分为文件级去冗余、数据块级去冗余、字节级去冗余甚至位级去冗余。其中文件级去冗余是以文件为单位进行检查和删除冗余数据的,先计算文件的哈希值,然后根据哈希值查找是否有相同的文件。这种方法具有计算快的优点,但是相似文件的重复数据很难去除,能够达到的压缩效果也是有限的。
数据块级冗余是以数据块为单位进行查找数据冗余的,通过删除内容相同的数据块达到去除冗余的目的。这种去除冗余的方法计算速度相对较快,是使用较多的去冗余方法,但是受数据变化的影响较大。字节级别的去除冗余是以字节为基本单位查找和删除冗余数据的。其优点是可以具有很高的去重率,但是字节级去冗余速度比较慢,开销非常大。可以将基于文件级和字节级的去重技术相结合去除冗余,如ExGdd技术。
S102、分析所述待处理数据中冗余数据的第二数据信息,选择相对应的冗余数据去除规则;
其中,分析所述待处理数据中冗余数据的第二数据信息,选择相对应的冗余数据去除规则,包括:
判断当前进行的其他业务数量是否大于第一预定阈值,并且预留的存储空间大于第二预定阈值;
若是,选择离线式冗余数据去除方式;若否,选择在线式冗余数据去除方式。
具体的,在本实施例中可以基于消除冗余执行次序去除冗余数据。其中,冗余具有不同的去冗余的时间,根据时间不同可以分为离线式去冗以及在线式去冗。其中,这里的第二数据信息可以为其他业务的进行信息,存储空间预留信息等等,根据第二数据信息的具体内容,可以自动选择合适的去除方式。例如:
如果进行的其他业务数量很多,并且可以预留很大的存储空间时,为了保证去除冗余数据不影响其他业务的进行,可以选择离线式去冗余,离线式去冗余将要处理的数据存储在存储设备的磁盘缓冲区中,在系统的空闲时段,再根据一定的处理机制进行去除冗余。
如果进行的其他业务数量少,并且没有预留的存储空间时,可以选择在线式去冗余,在线式去冗余是在数据存储之前处理数据,因此不需要预留很大的空间,也不需要保存原有数据,但是同离线式去冗余相比其吞吐量不够高,会影响存储器的性能。
其中,分析所述待处理数据中冗余数据的第二数据信息,选择相对应的冗余数据去除规则,包括:
若所述待处理数据在数据的发送端,则选择源端冗余数据去除方式;
若所述待处理数据在数据的接收端,则选择目标端冗余数据去除方式。
具体的,在本实施例中的第二数据信息可以为待处理数据的保存位置信息及发送端的带宽信息,因此可以根据第二数据信息,选择基于消除冗余执行地点的方法去除冗余数据,其中冗余具有不同的冗余去除地点,可以根据源端和目标端进行划分为源端去重和目标端去重。其中源端是数据的发送端,一般是指客户端。目标端是数据的接收端和存储端,一般是指服务器端。
其中,若待处理数据在源端,且源端去重所占用的发送端资源的影响不大时,可以选择源端冗余数据去除方式,源端冗余数据去除方式是指在源端就对重复数据进行查找以及去除工作,可以大大减少数据传输的传输量,在带宽较低的情况下使用。
若待处理数据在源端,且避免源端去重所占用发送端资源,使得发送端的程序性能受到影响时,可以选择目标端冗余数据去除方式,目标端冗余数据去除方式是指在数据的接收端进行查找以及去重的操作,这样不会影响源端的性能,在带宽比较高的情况下使用。
S103、根据所述冗余数据的去除规则,去除所述冗余数据。
因此,在本实施例中,根据待处理数据的第一数据信息和第二数据信息,可以选择合适的冗余数据识别方法和冗余数据去除方法,从而以最合理的方式去除冗余数据,从而减小消耗,提高存储空间的利用率,让数据中心存储更多的数据,也使得数据和文件保存更久。
本发明实施例提供的一种存储系统大数据优化方法,包括:根据待处理数据的第一数据信息,选择相应的冗余数据识别方法识别所述待处理数据中的冗余数据;分析所述待处理数据中冗余数据的第二数据信息,选择相对应的冗余数据去除规则;根据所述冗余数据的去除规则,去除所述冗余数据,可见,在本实施例中通过识别冗余数据并去除冗余数据的方法,节约了大量的存储空间,提高存储空间的利用率,降低存储和维护成本,满足数据爆发式增长的需求。
下面对本发明实施例提供的一种存储系统大数据优化装置进行介绍,下文描述的一种存储系统大数据优化装置与上文描述的一种存储系统大数据优化方法可以相互参照。
参见图2,本发明实施例提供的一种存储系统大数据优化装置,包括:
冗余数据识别模块100,用于根据待处理数据的第一数据信息,选择相应的冗余数据识别方法识别所述待处理数据中的冗余数据;
去除规则选择模块200,用于分析所述待处理数据中冗余数据的第二数据信息,选择相对应的冗余数据去除规则;
冗余数据去除模块300,用于根据所述冗余数据的去除规则,去除所述冗余数据。
本发明实施例提供的一种存储系统大数据优化装置,包括:冗余数据识别模块100,用于根据待处理数据的第一数据信息,选择相应的冗余数据识别方法识别所述待处理数据中的冗余数据;去除规则选择模块200,用于分析所述待处理数据中冗余数据的第二数据信息,选择相对应的冗余数据去除规则;冗余数据去除模块300,用于根据所述冗余数据的去除规则,去除所述冗余数据,可见,在本实施例中通过识别冗余数据并去除冗余数据的方法,节约了大量的存储空间,提高存储空间的利用率,降低存储和维护成本,满足数据爆发式增长的需求
优选的,在本发明提供的另一实施例中,所述冗余数据识别模块100包括:
第一冗余数据识别单元,用于当所述第一数据信息为存在提取元数据的设备时,选择基于重复内容识别方法识别所述待处理数据中的冗余数据;
第二冗余数据识别单元,用于当所述第一数据信息为需要从文件级、块级、字节级去除冗余数据时,选择基于去重粒度识别方法识别所述待处理数据中的冗余数据。
优选的,在本发明提供的另一实施例中,所述去除规则选择模块200,包括:
判断单元,用于判断当前进行的其他业务数量是否大于第一预定阈值,并且预留的存储空间大于第二预定阈值;
若是,选择离线式冗余数据去除方式;若否,选择在线式冗余数据去除方式。
优选的,在本发明提供的另一实施例中,所述去除规则选择模块200,包括:
第三去除规则选择单元,用于当所述待处理数据在数据的发送端时,选择源端冗余数据去除方式;
第四去除规则选择单元,用于当所述待处理数据在数据的接收端时,选择目标端冗余数据去除方式。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种存储系统大数据优化方法,其特征在于,包括:
根据待处理数据的第一数据信息,选择相应的冗余数据识别方法识别所述待处理数据中的冗余数据;
分析所述待处理数据中冗余数据的第二数据信息,选择相对应的冗余数据去除规则;
根据所述冗余数据的去除规则,去除所述冗余数据。
2.根据权利要求1所述的存储系统大数据优化方法,其特征在于,所述根据待处理数据的第一数据信息,选择相应的冗余数据识别方法识别所述待处理数据中的冗余数据,包括:
当所述第一数据信息为存在提取元数据的设备时,选择基于重复内容识别方法识别所述待处理数据中的冗余数据;
当所述第一数据信息为需要从文件级、块级、字节级去除冗余数据时,选择基于去重粒度识别方法识别所述待处理数据中的冗余数据。
3.根据权利要求2所述的存储系统大数据优化方法,其特征在于,分析所述待处理数据中冗余数据的第二数据信息,选择相对应的冗余数据去除规则,包括:
判断当前进行的其他业务数量是否大于第一预定阈值,并且预留的存储空间大于第二预定阈值;
若是,选择离线式冗余数据去除方式;若否,选择在线式冗余数据去除方式。
4.根据权利要求2所述的存储系统大数据优化方法,其特征在于,分析所述待处理数据中冗余数据的第二数据信息,选择相对应的冗余数据去除规则,包括:
若所述待处理数据在数据的发送端,则选择源端冗余数据去除方式;
若所述待处理数据在数据的接收端,则选择目标端冗余数据去除方式。
5.一种存储系统大数据优化装置,其特征在于,包括:
冗余数据识别模块,用于根据待处理数据的第一数据信息,选择相应的冗余数据识别方法识别所述待处理数据中的冗余数据;
去除规则选择模块,用于分析所述待处理数据中冗余数据的第二数据信息,选择相对应的冗余数据去除规则;
冗余数据去除模块,用于根据所述冗余数据的去除规则,去除所述冗余数据。
6.根据权利要求5所述的存储系统大数据优化装置,其特征在于,所述冗余数据识别模块包括:
第一冗余数据识别单元,用于当所述第一数据信息为存在提取元数据的设备时,选择基于重复内容识别方法识别所述待处理数据中的冗余数据;
第二冗余数据识别单元,用于当所述第一数据信息为需要从文件级、块级、字节级去除冗余数据时,选择基于去重粒度识别方法识别所述待处理数据中的冗余数据。
7.根据权利要求6所述的存储系统大数据优化装置,其特征在于,所述去除规则选择模块,包括:
判断单元,用于判断当前进行的其他业务数量是否大于第一预定阈值,并且预留的存储空间大于第二预定阈值;
若是,选择离线式冗余数据去除方式;若否,选择在线式冗余数据去除方式。
8.根据权利要求6所述的存储系统大数据优化装置,其特征在于,所述去除规则选择模块,包括:
第三去除规则选择单元,用于当所述待处理数据在数据的发送端时,选择源端冗余数据去除方式;
第四去除规则选择单元,用于当所述待处理数据在数据的接收端时,选择目标端冗余数据去除方式。
CN201510916919.XA 2015-12-10 2015-12-10 一种存储系统大数据优化方法及装置 Active CN105511812B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510916919.XA CN105511812B (zh) 2015-12-10 2015-12-10 一种存储系统大数据优化方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510916919.XA CN105511812B (zh) 2015-12-10 2015-12-10 一种存储系统大数据优化方法及装置

Publications (2)

Publication Number Publication Date
CN105511812A true CN105511812A (zh) 2016-04-20
CN105511812B CN105511812B (zh) 2018-12-18

Family

ID=55719832

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510916919.XA Active CN105511812B (zh) 2015-12-10 2015-12-10 一种存储系统大数据优化方法及装置

Country Status (1)

Country Link
CN (1) CN105511812B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106020722A (zh) * 2016-05-19 2016-10-12 浪潮(北京)电子信息产业有限公司 一种云存储系统的重复数据去重方法、装置及系统
CN106055271A (zh) * 2016-05-17 2016-10-26 浪潮(北京)电子信息产业有限公司 一种基于云计算的重复数据去重选择方法及装置
CN107463340A (zh) * 2017-08-23 2017-12-12 合肥伟语信息科技有限公司 计算机的数据存储系统
CN107579960A (zh) * 2017-08-22 2018-01-12 深圳市盛路物联通讯技术有限公司 一种数据过滤方法及装置
CN108037895A (zh) * 2017-12-06 2018-05-15 Tcl移动通信科技(宁波)有限公司 一种移动终端及数据信息存储控制方法、及存储介质
CN108153771A (zh) * 2016-12-05 2018-06-12 天脉聚源(北京)科技有限公司 一种提高大数据队列处理效率的方法和系统
CN110945792A (zh) * 2018-10-31 2020-03-31 华为技术有限公司 压缩数据、解压缩数据的方法和相关装置
US10901951B2 (en) 2018-07-17 2021-01-26 International Business Machines Corporation Memory compaction for append-only formatted data in a distributed storage network
CN112749137A (zh) * 2019-10-31 2021-05-04 阿里巴巴集团控股有限公司 数据处理方法、装置、设备及存储介质
US20210322019A1 (en) * 2017-12-28 2021-10-21 Cilag Gmbh International Method of hub communication
US11411577B2 (en) 2018-10-31 2022-08-09 Huawei Technologies Co., Ltd. Data compression method, data decompression method, and related apparatus

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000286716A (ja) * 1999-03-29 2000-10-13 Sanyo Electric Co Ltd データ符号化装置及び方法
CN101706825A (zh) * 2009-12-10 2010-05-12 华中科技大学 一种基于文件内容类型的重复数据删除方法
CN102323958A (zh) * 2011-10-27 2012-01-18 上海文广互动电视有限公司 重复数据删除方法
CN102646069A (zh) * 2012-02-23 2012-08-22 华中科技大学 一种延长固态盘使用寿命的方法
CN103049508A (zh) * 2012-12-13 2013-04-17 华为技术有限公司 一种数据处理方法及装置
CN103186652A (zh) * 2011-12-28 2013-07-03 英业达股份有限公司 分布式的重复数据删除系统及其方法
CN103309975A (zh) * 2013-06-09 2013-09-18 华为技术有限公司 一种重复数据删除方法和设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000286716A (ja) * 1999-03-29 2000-10-13 Sanyo Electric Co Ltd データ符号化装置及び方法
CN101706825A (zh) * 2009-12-10 2010-05-12 华中科技大学 一种基于文件内容类型的重复数据删除方法
CN102323958A (zh) * 2011-10-27 2012-01-18 上海文广互动电视有限公司 重复数据删除方法
CN103186652A (zh) * 2011-12-28 2013-07-03 英业达股份有限公司 分布式的重复数据删除系统及其方法
CN102646069A (zh) * 2012-02-23 2012-08-22 华中科技大学 一种延长固态盘使用寿命的方法
CN103049508A (zh) * 2012-12-13 2013-04-17 华为技术有限公司 一种数据处理方法及装置
CN103309975A (zh) * 2013-06-09 2013-09-18 华为技术有限公司 一种重复数据删除方法和设备

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055271A (zh) * 2016-05-17 2016-10-26 浪潮(北京)电子信息产业有限公司 一种基于云计算的重复数据去重选择方法及装置
CN106055271B (zh) * 2016-05-17 2019-01-25 浪潮(北京)电子信息产业有限公司 一种基于云计算的重复数据去重选择方法及装置
CN106020722A (zh) * 2016-05-19 2016-10-12 浪潮(北京)电子信息产业有限公司 一种云存储系统的重复数据去重方法、装置及系统
CN108153771A (zh) * 2016-12-05 2018-06-12 天脉聚源(北京)科技有限公司 一种提高大数据队列处理效率的方法和系统
CN107579960A (zh) * 2017-08-22 2018-01-12 深圳市盛路物联通讯技术有限公司 一种数据过滤方法及装置
CN107463340A (zh) * 2017-08-23 2017-12-12 合肥伟语信息科技有限公司 计算机的数据存储系统
CN108037895A (zh) * 2017-12-06 2018-05-15 Tcl移动通信科技(宁波)有限公司 一种移动终端及数据信息存储控制方法、及存储介质
CN108037895B (zh) * 2017-12-06 2021-06-22 Tcl移动通信科技(宁波)有限公司 一种移动终端及数据信息存储控制方法、及存储介质
US20210322019A1 (en) * 2017-12-28 2021-10-21 Cilag Gmbh International Method of hub communication
US10901951B2 (en) 2018-07-17 2021-01-26 International Business Machines Corporation Memory compaction for append-only formatted data in a distributed storage network
CN110945792A (zh) * 2018-10-31 2020-03-31 华为技术有限公司 压缩数据、解压缩数据的方法和相关装置
US11411577B2 (en) 2018-10-31 2022-08-09 Huawei Technologies Co., Ltd. Data compression method, data decompression method, and related apparatus
CN110945792B (zh) * 2018-10-31 2024-07-16 华为技术有限公司 压缩数据、解压缩数据的方法和相关装置
CN112749137A (zh) * 2019-10-31 2021-05-04 阿里巴巴集团控股有限公司 数据处理方法、装置、设备及存储介质
CN112749137B (zh) * 2019-10-31 2024-05-24 阿里巴巴集团控股有限公司 数据处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN105511812B (zh) 2018-12-18

Similar Documents

Publication Publication Date Title
CN105511812A (zh) 一种存储系统大数据优化方法及装置
CN109034993B (zh) 对账方法、设备、系统及计算机可读存储介质
WO2020233212A1 (zh) 一种日志记录的处理方法、服务器及存储介质
US10452691B2 (en) Method and apparatus for generating search results using inverted index
CN101595459B (zh) 用于快速且有效数据管理和/或处理的方法和系统
US20180196609A1 (en) Data Deduplication Using Multi-Chunk Predictive Encoding
US20220229812A1 (en) Systems and computer implemented methods for semantic data compression
WO2012174268A1 (en) Processing repetitive data
CN105159604A (zh) 一种磁盘数据读写方法和系统
WO2015016821A1 (en) Determining topic relevance of an email thread
CN103942292A (zh) 虚拟机镜像文件处理方法、装置及系统
CN106815254A (zh) 一种数据处理方法和装置
CN103150260A (zh) 重复数据删除方法和装置
Xu et al. A lightweight virtual machine image deduplication backup approach in cloud environment
CN106020722A (zh) 一种云存储系统的重复数据去重方法、装置及系统
CN109145040A (zh) 一种基于双消息队列的数据治理方法
CN106990914B (zh) 数据删除方法及装置
CN109710502B (zh) 日志传输方法、装置及存储介质
CN108897890B (zh) 一种基于时空双重压缩的分布式大数据日志汇聚方法
CN109901978A (zh) 一种Hadoop日志无损压缩方法和系统
CN105159820A (zh) 一种系统日志数据传输方法及装置
US10552419B2 (en) Method and system for performing an operation using map reduce
CN110032432B (zh) 实例的压缩方法和装置、实例的解压方法和装置
CN105302669A (zh) 一种云备份过程中数据去重的方法和系统
CN104298614A (zh) 数据块在存储设备中存储方法和存储设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant