CN114816251A - 数据处理方法、装置及计算机存储可读存储介质 - Google Patents

数据处理方法、装置及计算机存储可读存储介质 Download PDF

Info

Publication number
CN114816251A
CN114816251A CN202210400441.5A CN202210400441A CN114816251A CN 114816251 A CN114816251 A CN 114816251A CN 202210400441 A CN202210400441 A CN 202210400441A CN 114816251 A CN114816251 A CN 114816251A
Authority
CN
China
Prior art keywords
data
fingerprint
data block
load
storage system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210400441.5A
Other languages
English (en)
Inventor
任仁
王晨
代海军
朱芳芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202210400441.5A priority Critical patent/CN114816251A/zh
Publication of CN114816251A publication Critical patent/CN114816251A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/064Management of blocks
    • G06F3/0641De-duplication techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0608Saving storage space on storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0629Configuration or reconfiguration of storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0673Single storage device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0683Plurality of storage devices
    • G06F3/0685Hybrid storage combining heterogeneous device types, e.g. hierarchical storage, hybrid arrays

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

提供了存储系统中的数据处理方法,包括:当存储系统处于第一负载时,进行在线重删操作;当存储系统处于第二负载时,直接存储收到的据块而不进行在线重复数据删除操作,其中,所述第一负载小于所述第二负载。

Description

数据处理方法、装置及计算机存储可读存储介质
技术领域
本发明涉及信息技术领域,并且更具体地,涉及存储系统中数据处理方法、装置及计算机存储可读存储介质。
背景技术
重复数据删除已作为存储系统中一种节约数据存储空间的技术迅速普及,并且具有极高的市场价值。在线重复数据删除是指数据写入硬盘之前进行重复数据删除,达成数据缩减的目的。优点是可以减少硬盘的写入次数。但是在线重复数据删除需要在指纹表中查询是否存在与数据块相同的指纹查询,指纹查询会造成大量的资源开销,影响存储系统的性能。
发明内容
本发明提供一种存储系统中数据处理方法,能够减少存储系统资源开销,提高存储系统的存储性能。
第一方面,提供了一种存储系统中数据处理方法,计算第一数据块的第一指纹,在所述存储系统处于第一负载时,基于第一指纹查询指纹表对所述第一数据块进行在线重复数据删除操作;计算第二数据块的第二指纹,在所述存储系统处于第二负载时,直接存储所述第二数据块而不进行所述在线重复数据删除操作,记录所述第二指纹与所述第二数据块的第一存储地址的映射项;所述映射项用于记录所述第二指纹与所述第二数据块的第一存储地址的映射。其中,所述第一负载小于所述第二负载。在本方案中,存储系统根据存储系统的负载决定对未存储的数据块是否执行在线重复数据删除操作,能够减少存储系统的资源开销,提高存储系统的性能。
作为一种可选的实现方式,所述方法还包括:基于所述第二指纹查询所述指纹表是否已经包含第一指纹表项;所述第一指纹表项包含所述第二指纹与第二存储地址的映射;其中,所述第二存储地址存储有与所述第二数据块相同内容的数据块;当所述指纹表包含所述第一指纹表项,建立所述第二数据块的逻辑地址与所述第一指纹表项中的所述第二指纹的映射;当所述指纹表不包含所述第一指纹表项,在所述指纹表增加第二指纹表项,所述第二指纹表项包含所述第二指纹与第三存储地址的映射;其中,所述第三存储地址用于存储所述存储系统从所述第一存储地址搬移的第二数据块的存储地址;建立所述第二数据块的逻辑地址与所述第二指纹的映射。在本方案中,对已经存储的未进行在线重复数据删除的数据块进一步进行重复数据删除,可以释放和节省存储空间。
作为一种可选的实现方式,当对已经存储的未进行在线重复数据删除操作的数据块进一步进行重复数据删除操作后,删除所述第二指纹与所述第二数据块的第一存储地址的映射项,从而释放存储空间。
作为一种可选的实现方式,所述记录所述第二指纹与所述第二数据块的第一存储地址的映射项,具体包括:在日志中记录所述第二指纹与所述第二数据块的第一存储地址的映射项。在日志中持久化记录所述第二指纹与所述第二数据块的第一存储地址的映射项,可以防止指纹信息丢失,方便进一步进行重复数据删除操作。
进一步的,作为一种可选的实现方式,所述方法还包括:判断所述日志是否有多个映射项包含所述第二指纹;其中所述多个映射项均包含所述第二指纹,但所述多个映射项中的存储地址均不同;建立所述多个映射项中除所述第一存储地址外的其他存储地址存储的数据块的逻辑地址与所述指纹表中的所述第二指纹的映射。
进一步的,作为一种可选的实现方式,所述方法还包括:基于迁移策略从多个映射项中的存储地址中选择所述第一存储地址;将所述第一存储地址中的所述第二数据块搬移到所述第三存储地址。
作为一种可选的实现方式,迁移策略包含数据块是否压缩、数据块压缩所使用的压缩算法的压缩率、多个映射项中的存储地址与第三存储地址所在的存储空间的距离中的至少一项。
作为一种可选的实现方式,当该第一存储地址中的数据块是压缩的数据块时,将该第一存储地址中的数据块搬移到第三存储地址不需要解压缩该数据块。进一步的,作为一种可选的实现方式,也不需要再次压缩该数据块。
在日志中记录具有相同指纹的多个映射项,例如第二指纹。多个映射项中的存储地址均不同。这些存储地址可以位于分布式存储的多个存储节点。这些存储地址中的数据块可以是经过压缩后存储的数据块。这些数据块可以使用不同的压缩算法压缩。即每一个数据块使用的压缩算法的压缩率和压缩性能不同。
在本发明实施例所提供的指纹表的指纹表项中的存储地址,是由存储系统分配专用存储空间,用于存储经过重复数据删除操作(在线重复数据删除和后重复数据删除)的数据块。因此,直接存储而没有进行在线重复数据删除操作的数据块,在后重复数据删除操作后在指纹表中没有查找到相应的指纹,需要将该数据块搬移到专用于存储经过重复数据删除操作的存储空间。,当指纹表不包含第一指纹表项,在指纹表增加第二指纹表项,第二指纹表项包含第二指纹与第三存储地址的映射;其中,第三存储地址用于存储存储系统从第一存储地址搬移的第二数据块的存储地址。
在日志中记录具有相同指纹的多个映射项的场景下,当确定这些相同指纹是存储系统中新的指纹时,将这些多个映射项中的多个存储地址中选择一个存储地址,将选择的存储地址中的数据块搬移到专用于存储经过重复数据删除操作的存储空间,例如当所述指纹表不包含所述第一指纹表项,在所述指纹表增加第二指纹表项中的第三存储空间。在指纹表中建立新的指纹表项,在多个相同指纹的数据块中选择作为需要搬移的数据块时,可以基于数据块是否经过压缩,数据块的压缩率、数据块与搬移到专用于存储经过重复数据删除操作的存储空间的距离等因素选择搬移的数据块,也就是经后重复数据删除操作后需要保留的数据块。压缩的数据块优先未压缩的数据块作为搬移的数据块,使用高压缩率压缩算法压缩的数据块优先使用低压缩率压缩算法压缩的数据块,与搬移到专用于存储经过重复数据删除操作的存储空间的距离近的数据块优先与搬移到专用于存储经过重复数据删除操作的存储空间的距离远的数据块。当结合上述至少两种因素选择搬移的数据块时,优先级从高到低依次为:搬移到专用于存储经过重复数据删除操作的存储空间的距离近并且使用高压缩率压缩算法压缩的数据块、搬移到专用于存储经过重复数据删除操作的存储空间的距离远但使用高压缩率压缩算法压缩的数据块、搬移到专用于存储经过重复数据删除操作的存储空间的距离近但使用低压缩率压缩算法压缩的数据块、搬移到专用于存储经过重复数据删除操作的存储空间的距离远但使用低压缩率压缩算法压缩的数据块、搬移到专用于存储经过重复数据删除操作的存储空间的距离近但无压缩的数据块、搬移到专用于存储经过重复数据删除操作的存储空间的距离远但无压缩的数据块。本发明实施例在搬移压缩的数据块的过程中,不需要对数据块解压缩。
进一步的,作为一种可选的实现方式,所述方法还包括删除所述多个映射项。
第二方面,提供一种数据处理装置,包括用于执行第一方面或第一方面的任一可能的实现方式中的方法的模块。
第三方面,提供一种数据处理装置,数据处理装置包括接口和处理器,接口和处理器通信,处理器还用于执行第一方面或第一方面的任一可能的实现方式中的方法。
第五方面,提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当计算机的处理器执行所述指令时,用于执行第一方面或第一方面的任一可能的实现方式中的方法。
第六方面,提供一种包含指令的计算机程序产品,当计算机的处理器执行所述计算机程序产品中的指令时,用于执行第一方面或第一方面的任一可能的实现方式中的方法。
第七方面,提供了一种数据处理方法,包括:判断指纹表中不包含多个映射项中的指纹;其中,多个映射项包含相同的指纹,但多个映射项中的存储地址均不同;所述多个映射项中的存储地址用于存储该指纹对应的数据块;基于迁移策略从多个映射项中的存储地址中选择第一存储地址;将该第一存储地址中的数据块搬移到第二存储地址;其中,第二存储地址用于存储重复数据删除操作后的数据块的存储空间中的存储地址;在指纹表中建立包含该指纹与第二存储地址的映射的指纹表项。本方案中的上述搬移数据块的策略可以减少数据搬移过程中存储系统的资源消耗,提高存储系统的性能。
作为一种可选的实现方式,迁移策略包含数据块是否压缩、数据块压缩所使用的压缩算法的压缩率、多个映射项中的存储地址与第二存储地址所在的存储空间的距离中的至少一项。
作为一种可选的实现方式,当该第一存储地址中的数据块是压缩的数据块时,将该第一存储地址中的数据块搬移到第二存储地址不需要解压缩该数据块。进一步的,作为一种可选的实现方式,也不需要再次压缩该数据块。
第八方面,提供一种数据处理装置,包括用于执行第七方面或第七方面的任一可能的实现方式中的方法的模块。
第九方面,提供一种数据处理装置,数据处理装置包括接口和处理器,接口和处理器通信,处理器还用于执行第七方面或第七方面的任一可能的实现方式中的方法。
第十方面,提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当计算机的处理器执行所述指令时,用于执行第七方面或第七方面的任一可能的实现方式中的方法。
第十一方面,提供一种包含指令的计算机程序产品,当计算机的处理器执行所述计算机程序产品中的指令时,用于执行第七方面或第七方面的任一可能的实现方式中的方法。
附图说明
图1为本发明实施例存储系统架构示意图;
图2为本发明实施例存储控制器结构示意图;
图3为本发明实施例分布式存储系统架构示意图;
图4为本发明实施例分布式存储系统中的服务器结构示意图;
图5为本发明实施例指纹表的指纹表项结构示意图;
图6为本发明实施例重复数据删除流程示意图;
图7为本发明实施例重复数据删除流程示意图;
图8为本发明实施例数据处理设备的结构示意图。
具体实施方式
下面将结合附图,对本发明实施例中的技术方案进行描述。
首先对适用于本发明实施例的存储系统进行介绍。
如图1所示,本发明实施例中的存储系统,可以为存储阵列(如
Figure BDA0003599801320000041
Figure BDA0003599801320000042
系列,
Figure BDA0003599801320000043
系列)。存储阵列包括存储控制器101和多块硬盘,其中,硬盘包含固态硬盘(Solid State Disk,SSD)或者磁盘等。如图2所示,存储控制器101包含中央处理单元(Central Processing Unit,CPU)201、存储器202和接口203,存储器202中存储计算机指令,CPU201执行存储器202中的计算机指令对存储系统进行管理及数据访问操作。另外,处理器201可以为中央处理单元(Central Processing Unit,CPU),也可以是现场可编程门阵列(Field Programmable Gate Array,FPGA)或其他硬件也可以作为处理器,或者,FPGA或其他硬件与CPU共同作为处理器,处理器与接口203通信。本发明实施例中的存储器202可以为CPU提供内存。接口203可以为网络接口卡(Networking InterfaceCard,NIC)、主机总线适配器(Host Bus Adaptor,HBA)等。
如图1和图2所描述的存储阵列,控制器101用于执行本发明实施例中的数据处理方法。
进一步的,本发明实施例的存储系统还可以为分布式存储系统(如
Figure BDA0003599801320000044
Figure BDA0003599801320000046
系列)等。以
Figure BDA0003599801320000047
Figure BDA0003599801320000045
系列。示例性的如图3所示,分布式存储系统包括多台服务器,如服务器1、服务器2、服务器3,……,服务器6,服务器间通过无限带宽(InfiniBand)或以太网络等互相通信。在实际应用当中,分布式存储系统中服务器的数量可以根据实际需求增加或减少,本发明实施例对此不作限定。分布式存储系统中的服务器又称为存储节点。
分布式存储系统的服务器中包含如图4所示的结构。如图4所示,分布式存储系统中的每台服务器包含中央处理单元(Central Processing Unit,CPU)401、存储器402、接口403、硬盘1、硬盘2和硬盘3,存储器402中存储计算机指令,CPU401执行存储器402中的程序指令执行相应的操作。接口403可以为硬件接口,如网络接口卡(Network Interface Card,NIC)或主机总线适配器(Host Bus Adaptor,HBA)等,也可以为程序接口模块等。硬盘包含固态硬盘(Solid State Disk,SSD)或者磁盘等。另外,处理器401可以为中央处理单元(Central Processing Unit,CPU),也可以是现场可编程门阵列(Field ProgrammableGate Array,FPGA)或其他硬件也可以作为处理器,或者,FPGA(或其他硬件)与CPU的组合共同作为处理器。本发明实施例中的存储器402可以为CPU401提供内存。接口303可以为网络接口卡(Networking Interface Card,NIC)、主机总线适配器(Host Bus Adaptor,HBA)。
存储系统接收数据,将数据划分为数据块,根据使用的划分方法不同,可以把数据划分为固定长度的数据块或变化长度的数据块。获得数据块的指纹(例如:对数据块进行哈希运算,把运算得到的哈希值作为数据块的指纹);根据数据块的指纹执行重复数据删除操作,具体而言,重删数据删除包括:查询指纹表中是否包含相同的指纹(意味着在存储系统中已经存在了这个指纹所代表的数据块),如果指纹表中不包含该指纹(意味着在存储系统中尚未存在这个指纹所代表的数据块),则在存储系统中分配存储地址,并将该数据块存储到该存储地址,在指纹表中增加新的指纹表项,即建立该指纹与该存储地址的映射,并且建立数据块的元数据,即该数据块的逻辑块地址到指纹的映射。当有相同指纹的数据块再次写入所述存储系统时,所述存储系统只需要建立再次写入的数据块的逻辑块地址与指纹表中该指纹的映射,而不需要重新存储再次写入的数据块,从而避免了相同数据块的重复存储。指纹表的指纹表项如图5所示,包含指纹A以及存储该指纹对应的数据的存储地址SD。指纹表项还可以包含引用计数,用于表示指向该指纹数据块的数量。例如,当存储系统首次存储该数据块,则引用计数为1;第二次存储该数据块时,引用计数更新为2。
在存储系统中,为查询指纹表,需要将指纹表存储到内存中。为减少指纹表对内存的占用,通常不会将所有指纹表都加载到内存中。因此,在重复数据删除过程中,根据指纹分布与指纹表的关系,存储系统查询、加载相应的指纹表。在上述操作过程会增加存储系统的开销,例如跨网络查询等,会增加网络开销。在查询指纹的过程中,也会增加存储系统中的资源开销,增加存储系统的负载。本发明实施例中的资源开销包括例如:处理器的开销,内存的开销。开销的增加会影响存储系统的性能。
本发明实施例,为减少存储系统资源开销,提高存储系统的存储性能,根据存储系统的负载决定是否执行在线重复数据删除操作或减少在线重复数据删除操作。本发明实施例可以设定一个负载阈值。存储系统计算数据块的指纹,当存储系统的负载小于该负载阈值时,查询指纹表对数据块进行在线重复数据删除操作。具体实现过程包括查询指纹表中是否包含该指纹,当指纹表中包含该指纹,则不再存储该数据块,并且建立该数据块的逻辑地址到指纹表中该指纹的映射。当指纹表中不包含该指纹,则存储该数据块,在指纹表中增加新的指纹表项,建立该数据块的逻辑地址到新的指纹表项中的该指纹的映射。其中,新的指纹表项包含该指纹与存储该数据块的存储地址的映射。
当存储系统负载大于该负载阈值,则不进行在线重复数据删除操作,直接存储该数据块,建立数据块的逻辑地址与存储地址的映射。在日志中记录该数据块的指纹与该数据块的存储地址的映射项。该映射项包含该数据块的指纹与该数据块的存储地址的映射。本发明实施例中,存储地址是指数据块在存储系统中的位置。数据块的逻辑地址是指供主机访问的地址,例如,逻辑块地址(Logical Block Address,LBA)。本发明实施例将存储系统存储数据块之前的重复数据删除操作称为在线重复数据删除操作。将对存储在存储系统后的数据块执行的重复数据删除操作称为后重复数据删除操作。
本发明实施例,根据存储系统的负载确定是否执行在线重复数据删除操作,具体流程如图6所示:
步骤601:计算第一数据块的第一指纹;
步骤602:在存储系统处于第一负载时,基于第一指纹查询指纹表对第一数据块进行在线重复数据删除操作;
步骤603:计算第二数据块的第二指纹;
步骤604:在存储系统处于第二负载时,直接存储第二数据块而不进行在线重复数据删除操作;
步骤605:记录第二指纹与第二数据块的第一存储地址的映射项。
在本发明实施例中,为防止指纹丢失,在不进行在线重复数据删除操作时,将第二数据块的指纹与第一存储地址的映射项在日志中进行持久化存储。在本发明实施例中,第一负载小于第二负载,例如,第二负载大于负载阈值,第一负载小于负载阈值。第二指纹与第二数据块的第一存储地址的映射项包括第二指纹与第二数据块的第一存储地址的映射。
根据存储系统的负载确定是否进行在线重复数据删除操作,可以减少在线重复数据删除的资源开销,减少存储系统的负载,提高存储系统性能。
本发明实施例的另外一种实现方式,可以设置多个负载阈值,这样在不同的负载范围中执行不同的操作,例如在存储系统处于最高的负载范围时,对所有数据块均不执行在线重复数据删除操作,而是直接存储到存储系统中,其中一种实现方式可以是关闭在线重复数据删除功能。在存储系统处于最低的负载范围时,对所有数据块执行在线重复数据删除操作,然后存储在线重复数据删除操作后确定存储的唯一数据块,也就是内容唯一的数据块。在存储系统的负载介于最高负载范围和最低负载范围之间的负载范围时,可以减少在线重复数据删除操作。在具体实现中,例如,可以只设定一个负载阈值,例如50%。当负载大于50%,存储系统对数据块不执行在线重复数据删除操作操作;当负载不大于50%,存储系统对数据块执行在线重复数据删除操作。本发明实施例另一种实现方式中存在多个负载阈值时,例如,70%和40%,则可以划分三个负载范围,例如,负载范围1包含大于70%的负载,则负载范围1记为(70%-100%);负载范围2包含大于40%但不大于70%的负载,记为(40%-70%];负载范围3包含不大于40%的负载,记为(0-40%]。本发明实施例中负载也可以以其他形式表示。
本发明实施例中的负载具体可以存储系统中的CPU占用率、内存占用率或网络性能等,也可以是这些参数中的一个或多个,本发明实施例对此不作限定。
本发明实施例中,步骤605记录所述第二指纹与所述第二数据块的第一存储地址的映射项,具体实现可以是以日志的形式持久化存储,可以防止指纹信息丢失,方便进一步进行重复数据删除。另外一种实现方式也可以用索引表的形式进行存储。
本发明实施例基于存储系统的负载确定对数据块是否执行在线重复数据删除操作。因此,存在数据块直接存储而未进行在线重复数据删除操作的情况。为进一步节省和释放存储空间,本发明实施例对这一部分数据块进一步执行后重复数据删除操作。后重复数据删除操作是指对存储系统已经存储的数据块进行的重复数据删除操作。结合图6所示的实施例,本发明实施例如图7,包括:
步骤701:基于第二指纹查询指纹表是否有第一指纹表项包含第二指纹。
该第一指纹表项包含第二指纹与第二存储地址的映射;其中,第二存储地址存储有与第二数据块相同内容的数据块;
步骤702:当指纹表已经包含该第一指纹表项,建立第二数据块的逻辑地址与第一指纹表项中第二指纹的映射;
步骤703:当指纹表不包含第一指纹表项,在指纹表增加第二指纹表项,第二指纹表项包含第二指纹与第三存储地址的映射;其中,第三存储地址用于存储存储系统从第一存储地址搬移的第二数据块的存储地址。
另外一种实现,第二指纹表项包含第二指纹表项包含第二指纹与第一存储地址的映射。
步骤704:建立第二数据块的逻辑地址与第二指纹的映射。
其中,该第二数据块的逻辑地址与第二指纹的映射中的第二指纹为第一指纹表项中的第二指纹或第二指纹表项中的第二指纹。
进一步的,图7所示的实施例还包括删除第二指纹与第一存储地址的映射项。在执行完后重复数据删除后,将记录第二指纹与第一存储地址的映射项删除。在本发明实施例中,以日志的形式持久化记录第二指纹与第一存储地址的映射项。在日志中可能存在多个映射项均包含第二指纹,但每一个第二指纹对应的数据块在存储系统中存储的位置不同,即多个映射项中的存储地址均不同。日志中存在多个映射项均包含第二指纹意味着有多个数据块未进行在线重复数据删除操作,直接存储在存储系统中。日志中的映射项可以根据指纹进行聚类,即将相同指纹的映射项排列在一起,这样即可确定具有相同内容的未进行在线重复数据删除操作的数据块。然后执行步骤701至步骤704。因为存在多个具有相同指纹的映射项,例如第二指纹,也即有多个相同的数据块,如果这些数据块均为有效的数据块,则分别建立这些数据块的逻辑地址与指纹表中的第二指纹的映射。有效数据块是指未发生修改的数据块,或者未进行后重复数据删除操作前,数据块的逻辑地址到该数据块的存储地址的映射有效的数据块。进一步的,在执行完后重复数据删除操作后,删除日志中的该多个映射项。本发明实施例另一种实现方式,在执行后重复数据删除操作前,删除日志中的该多个映射项。
在日志中记录具有相同指纹的多个映射项,例如第二指纹。多个映射项中的存储地址均不同。这些存储地址可以位于分布式存储的多个存储节点。这些存储地址中的数据块可以是经过压缩后存储的数据块。这些数据块可以使用不同的压缩算法压缩。即每一个数据块使用的压缩算法的压缩率和压缩性能不同。
在本发明实施例所提供的指纹表的指纹表项中的存储地址,是由存储系统分配专用存储空间,用于存储经过重复数据删除操作(在线重复数据删除和后重复数据删除)的数据块。因此,直接存储而没有进行在线重复数据删除操作的数据块,在后重复数据删除操作后在指纹表中没有查找到相应的指纹,需要将该数据块搬移到专用于存储经过重复数据删除操作的存储空间。例如,在图7所示的实施例的步骤703,当指纹表不包含第一指纹表项,在指纹表增加第二指纹表项,第二指纹表项包含第二指纹与第三存储地址的映射;其中,第三存储地址用于存储存储系统从第一存储地址搬移的第二数据块的存储地址。
在日志中记录具有相同指纹的多个映射项的场景下,当确定这些相同指纹是存储系统中新的指纹时,将这些多个映射项中的多个存储地址中选择一个存储地址,将选择的存储地址中的数据块搬移到专用于存储经过重复数据删除操作的存储空间,例如步骤703中的第三存储空间。在指纹表中建立新的指纹表项,例如步骤703中指纹表项包含第二指纹与第三存储地址的映射。在多个相同指纹的数据块中选择作为需要搬移的数据块时,可以基于数据块是否经过压缩,数据块的压缩率、数据块与搬移到专用于存储经过重复数据删除操作的存储空间的距离等因素选择搬移的数据块,也就是经后重复数据删除操作后需要保留的数据块。压缩的数据块优先未压缩的数据块作为搬移的数据块,使用高压缩率压缩算法压缩的数据块优先使用低压缩率压缩算法压缩的数据块,与搬移到专用于存储经过重复数据删除操作的存储空间的距离近的数据块优先与搬移到专用于存储经过重复数据删除操作的存储空间的距离远的数据块。当结合上述至少两种因素选择搬移的数据块时,优先级从高到低依次为:搬移到专用于存储经过重复数据删除操作的存储空间的距离近并且使用高压缩率压缩算法压缩的数据块、搬移到专用于存储经过重复数据删除操作的存储空间的距离远但使用高压缩率压缩算法压缩的数据块、搬移到专用于存储经过重复数据删除操作的存储空间的距离近但使用低压缩率压缩算法压缩的数据块、搬移到专用于存储经过重复数据删除操作的存储空间的距离远但使用低压缩率压缩算法压缩的数据块、搬移到专用于存储经过重复数据删除操作的存储空间的距离近但无压缩的数据块、搬移到专用于存储经过重复数据删除操作的存储空间的距离远但无压缩的数据块。本发明实施例在搬移压缩的数据块的过程中,不需要对数据块解压缩。在本发明实施例中,搬移到专用于存储经过重复数据删除操作的存储空间的距离是指当前存储数据块的存储地址所在的存储节点与搬移到专用于存储经过重复数据删除操作的存储空间所在的存储节点的距离,例如,是否需要跨网络(例如,是否位于同一个存储节点),经过网络的跳数等。本发明实施例上述搬移数据块的策略可以减少数据搬移过程中存储系统的资源消耗,提高存储系统的性能。
本发明实施例中选择搬移的数据块的方案也可以应用到不使用日志的方案中,本发明实施例对此不作限定。
本发明实施例也可以基于存储系统的负载来启动后重复数据删除操作,从而提高存储系统性能。
基于上述实施例,本发明实施例提供了一种数据处理设备,包括计算单元801、重复数据删除单元802、存储单元803和记录单元804;其中,计算单元801,用于计算第一数据块的第一指纹;在线重复数据删除单元802,用于在所述存储系统处于第一负载时,基于第一指纹查询指纹表对所述第一数据块进行在线重复数据删除操作;计算单元801,还用于计算第二数据块的第二指纹;存储单元803,用于在所述存储系统处于第二负载时,直接存储所述第二数据块而不进行在线重复数据删除操作;其中,所述第一负载小于所述第二负载;记录单元804,用于记录所述第二指纹与所述第二数据块的第一存储地址的映射项;所述映射项用于记录所述第二指纹与所述第二数据块的第一存储地址的映射。
进一步的,图8所示的数据处理设备,还包括:
查询单元,用于基于所述第二指纹查询所述指纹表是否已经包含第一指纹表项;所述第一指纹表项包含所述第二指纹与第二存储地址的映射;其中,所述第二存储地址存储有与所述第二数据块相同内容的数据块;
建立单元,用于当所述指纹表包含所述第一指纹表项,建立所述第二数据块的逻辑地址与所述第一指纹表项中的所述第二指纹的映射;
增加单元,用于当所述指纹表不包含所述第一指纹表项,在所述指纹表增加第二指纹表项,所述第二指纹表项包含所述第二指纹与第三存储地址的映射;其中,所述第三存储地址用于存储所述存储系统从所述第一存储地址搬移的第二数据块的存储地址;
所述建立单元,还用于建立所述第二数据块的逻辑地址与所述第二指纹的映射。
进一步的,数据处理设备还包括:
删除单元,用于删除所述第二指纹与所述第二数据块的第一存储地址的映射项。
进一步的,记录单元804具体用于在日志中记录所述第二指纹与所述第二数据块的第一存储地址的映射项。
进一步的,数据处理设备还包括:
判断单元,用于判断所述日志是否有多个映射项包含所述第二指纹;其中所述多个映射项均包含所述第二指纹,但所述多个映射项中的存储地址均不同;
所述建立单元,还用于建立所述多个映射项中除所述第一存储地址外的其他存储地址存储的数据块的逻辑地址与所述指纹表中的所述第二指纹的映射。
进一步的,数据处理设备还包括:删除单元,用于删除所述多个映射项。
进一步的,数据处理设备还包括:选择单元,用于基于迁移策略从多个映射项中的存储地址中选择所述第一存储地址;将所述第一存储地址中的所述第二数据块搬移到所述第三存储地址。
本发明提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当处理器运行所述指令时,用于执行本发明实施例中数据处理设备的各项功能。
本发明提供了一种包含指令的计算机程序产品,当处理器运行计算机程序产品中的指令时,用于执行本发明实施例中数据处理设备的各项功能。
本发明实施例提供的数据处理设备、计算机可读存储介质以及计算机程序产品的具体实现,可以参考本发明实施例前面的描述,在此不再赘述。
还应理解,本发明实施例中提及的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DR RAM)。
需要说明的是,当处理器为通用处理器、DSP、ASIC、FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件时,存储器(存储模块)可以集成在处理器中。
应注意,本文描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (21)

1.一种存储系统中的数据处理方法,其特征在于,包括:
获取第一数据块;
在所述存储系统处于第一负载时,对所述第一数据块进行在线重复数据删除操作;
获取第二数据块;
在所述存储系统处于第二负载时,对所述第二数据块不进行在线重复数据删除操作,其中,所述第二负载大于所述第一负载。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
存储所述第二数据块;
对存储后的所述第二数据块执行后重复数据删除操作。
3.根据权利要求2所述的方法,其特征在于,其中:
所述后重复数据删除操作是基于所述存储系统的负载来启动。
4.根据权利要求1所述的方法,其特征在于,不进行所述在线重复数据删除操作,具体包括:
暂时不进行重复数据删除操作。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述负载包括下述至少一种:
处理器的开销,内存的开销以及网络开销。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述重复数据删除操作,具体包括:
查询指纹表中是否包含与被执行重复数据删除的数据块相同的指纹,如果指纹表中不包含相同的指纹,则存储被执行重复数据删除的数据块,在指纹表中增加新的指纹表项;
如果指纹表中包含相同的指纹,则不存储被执行重复数据删除的数据块。
7.根据权利要求6所述的方法,其特征在于,如果指纹表中不包含相同的指纹,还包括:
把被执行重复数据删除的数据块搬移到专用于存储经过重复数据删除操作的存储空间。
8.根据权利要求6所述的方法,其特征在于,还包括:
将所述指纹表加载到所述存储系统的内存中。
9.根据权利要求1-3任一项所述的方法,其特征在于,还包括:
压缩所述第一数据块和所述第二数据块。
10.一种数据处理设备,其特征在于,包括:
用于获取第一数据块的单元;
在线重复数据删除单元,用于在存储系统处于第一负载时,对所述第一数据块进行在线重复数据删除操作;
用于获取第二数据块的单元;
所述在线重复数据删除单元,还用于在所述存储系统处于第二负载时,对所述第二数据块不进行在线重复数据删除操作的单元;其中,所述第二负载大于所述第一负载。
11.根据权利要求10所述的数据处理设备,其特征在于,所述数据处理设备还包括:
存储单元,用于存储所述第二数据块;
用于对存储后的所述第二数据块执行后重复数据删除操作的单元。
12.根据权利要求11所述的数据处理设备,其特征在于,其中:
所述后重复数据删除操作是基于所述存储系统的负载启动。
13.根据权利要求10-12任一项所述的数据处理设备,其特征在于,所述负载包括下述至少一种:
处理器的开销,内存的开销以及网络开销。
14.根据权利要求10所述的数据处理设备,其特征在于,不进行所述在线重复数据删除操作,具体包括:
暂时不进行重复数据删除操作。
15.根据权利要求10-12任一项所述的数据处理设备,其特征在于,所述重复数据删除操作,具体包括:
查询指纹表中是否包含与被执行重复数据删除的数据块相同的指纹,如果指纹表中不包含相同的指纹,则存储被执行重复数据删除的数据块,在指纹表中增加新的指纹表项;
如果指纹表中包含相同的指纹,则不存储被执行重复数据删除的数据块。
16.根据权利要求15所述的数据处理设备,其特征在于,当指纹表中不包含相同的指纹,所述数据处理设备还包括:
把被执行重复数据删除的数据块搬移到专用于存储经过重复数据删除操作的存储空间的单元。
17.根据权利要求15所述的数据处理设备,其特征在于,还包括:
将所述指纹表加载到所述存储系统的内存中的模块。
18.根据权利要求10-12任一项所述的数据处理设备,其特征在于,还包括:
压缩所述第一数据块和所述第二数据块的模块。
19.一种数据处理设备,其特征在于,包括接口和处理器,所述接口和处理器通信,所述处理器用于执行权利要求1-9任一项所述的方法。
20.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储指令,当计算机的处理器执行所述指令用于执行权利要求1-9任一所述的方法。
21.一种计算机程序产品,其特征在于,所述计算机程序产品包含指令,当计算机的处理器执行所述指令用于执行权利要求1-9任一所述的方法。
CN202210400441.5A 2019-07-26 2019-07-26 数据处理方法、装置及计算机存储可读存储介质 Pending CN114816251A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210400441.5A CN114816251A (zh) 2019-07-26 2019-07-26 数据处理方法、装置及计算机存储可读存储介质

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202210400441.5A CN114816251A (zh) 2019-07-26 2019-07-26 数据处理方法、装置及计算机存储可读存储介质
CN201980028810.9A CN114072759A (zh) 2019-07-26 2019-07-26 存储系统中数据处理方法、装置及计算机存储可读存储介质
PCT/CN2019/097804 WO2021016728A1 (zh) 2019-07-26 2019-07-26 存储系统中数据处理方法、装置及计算机存储可读存储介质

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201980028810.9A Division CN114072759A (zh) 2019-07-26 2019-07-26 存储系统中数据处理方法、装置及计算机存储可读存储介质

Publications (1)

Publication Number Publication Date
CN114816251A true CN114816251A (zh) 2022-07-29

Family

ID=74228197

Family Applications (3)

Application Number Title Priority Date Filing Date
CN202210400497.0A Pending CN114968090A (zh) 2019-07-26 2019-07-26 数据处理方法、装置及计算机存储可读存储介质
CN201980028810.9A Pending CN114072759A (zh) 2019-07-26 2019-07-26 存储系统中数据处理方法、装置及计算机存储可读存储介质
CN202210400441.5A Pending CN114816251A (zh) 2019-07-26 2019-07-26 数据处理方法、装置及计算机存储可读存储介质

Family Applications Before (2)

Application Number Title Priority Date Filing Date
CN202210400497.0A Pending CN114968090A (zh) 2019-07-26 2019-07-26 数据处理方法、装置及计算机存储可读存储介质
CN201980028810.9A Pending CN114072759A (zh) 2019-07-26 2019-07-26 存储系统中数据处理方法、装置及计算机存储可读存储介质

Country Status (4)

Country Link
US (2) US20220147256A1 (zh)
EP (2) EP3971700A4 (zh)
CN (3) CN114968090A (zh)
WO (1) WO2021016728A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113986891B (zh) * 2021-09-09 2024-03-12 新华三大数据技术有限公司 一种重复数据删除方法及装置
CN117631957A (zh) * 2022-08-15 2024-03-01 华为技术有限公司 一种数据的缩减方法、装置、设备、存储介质及处理器

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049508A (zh) * 2012-12-13 2013-04-17 华为技术有限公司 一种数据处理方法及装置
US20150127919A1 (en) * 2013-11-06 2015-05-07 International Business Machines Corporation Management of a secure delete operation

Family Cites Families (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8635194B2 (en) * 2006-10-19 2014-01-21 Oracle International Corporation System and method for data compression
US10642794B2 (en) * 2008-09-11 2020-05-05 Vmware, Inc. Computer storage deduplication
US20100088296A1 (en) * 2008-10-03 2010-04-08 Netapp, Inc. System and method for organizing data to facilitate data deduplication
US8751462B2 (en) * 2008-11-14 2014-06-10 Emc Corporation Delta compression after identity deduplication
US8161255B2 (en) * 2009-01-06 2012-04-17 International Business Machines Corporation Optimized simultaneous storing of data into deduplicated and non-deduplicated storage pools
US8195636B2 (en) * 2009-04-29 2012-06-05 Netapp, Inc. Predicting space reclamation in deduplicated datasets
US20100333116A1 (en) * 2009-06-30 2010-12-30 Anand Prahlad Cloud gateway system for managing data storage to cloud storage sites
US8930307B2 (en) * 2011-09-30 2015-01-06 Pure Storage, Inc. Method for removing duplicate data from a storage array
US8589640B2 (en) * 2011-10-14 2013-11-19 Pure Storage, Inc. Method for maintaining multiple fingerprint tables in a deduplicating storage system
US9715434B1 (en) * 2011-09-30 2017-07-25 EMC IP Holding Company LLC System and method for estimating storage space needed to store data migrated from a source storage to a target storage
US8732403B1 (en) * 2012-03-14 2014-05-20 Netapp, Inc. Deduplication of data blocks on storage devices
US9348538B2 (en) * 2012-10-18 2016-05-24 Netapp, Inc. Selective deduplication
US9311359B2 (en) * 2013-01-30 2016-04-12 International Business Machines Corporation Join operation partitioning
KR20140114515A (ko) * 2013-03-15 2014-09-29 삼성전자주식회사 불휘발성 메모리 장치 및 그것의 중복 데이터 제거 방법
WO2014155668A1 (ja) * 2013-03-29 2014-10-02 株式会社 東芝 データの重複をハッシュテーブルに基づいて排除するためのストレージシステム、ストレージコントローラ及び方法
US9384145B2 (en) * 2013-08-26 2016-07-05 Oracle International Corporation Systems and methods for implementing dynamically configurable perfect hash tables
WO2015067382A1 (en) * 2013-11-08 2015-05-14 Fujitsu Technology Solutions Intellectual Property Gmbh Storage appliance and method thereof for inline deduplication with segmentation
US9384205B1 (en) * 2013-12-18 2016-07-05 Veritas Technologies Llc Auto adaptive deduplication to cloud based storage
US10380072B2 (en) * 2014-03-17 2019-08-13 Commvault Systems, Inc. Managing deletions from a deduplication database
KR101716264B1 (ko) * 2014-09-15 2017-03-14 후아웨이 테크놀러지 컴퍼니 리미티드 데이터 중복제거 방법 및 스토리지 어레이
WO2016041128A1 (zh) * 2014-09-15 2016-03-24 华为技术有限公司 数据写请求处理方法和存储阵列
US9792069B2 (en) * 2014-09-29 2017-10-17 Western Digital Technologies, Inc. Offline deduplication for solid-state storage devices
US9569114B2 (en) * 2014-11-14 2017-02-14 Sk Hynix Memory Solutions Inc. Deduplication using a master and a slave
US10228858B1 (en) * 2015-02-11 2019-03-12 Violin Systems Llc System and method for granular deduplication
US9733836B1 (en) * 2015-02-11 2017-08-15 Violin Memory Inc. System and method for granular deduplication
US10346075B2 (en) * 2015-03-16 2019-07-09 Hitachi, Ltd. Distributed storage system and control method for distributed storage system
US9940337B2 (en) * 2015-05-31 2018-04-10 Vmware, Inc. Predictive probabilistic deduplication of storage
US20170038978A1 (en) * 2015-08-05 2017-02-09 HGST Netherlands B.V. Delta Compression Engine for Similarity Based Data Deduplication
CN106610790B (zh) * 2015-10-26 2020-01-03 华为技术有限公司 一种重复数据删除方法及装置
US10031937B2 (en) * 2015-11-25 2018-07-24 International Business Machines Corporation Similarity based data deduplication of initial snapshots of data sets
SG10201610516RA (en) * 2015-12-17 2017-07-28 Agency Science Tech & Res Encrypted data deduplication in cloud storage
US9575681B1 (en) * 2016-04-29 2017-02-21 International Business Machines Corporation Data deduplication with reduced hash computations
JP2018041248A (ja) * 2016-09-07 2018-03-15 富士通株式会社 ストレージ制御装置、ストレージシステム、ストレージ制御方法およびストレージ制御プログラム
US10572475B2 (en) * 2016-09-23 2020-02-25 Oracle International Corporation Leveraging columnar encoding for query operations
US10108543B1 (en) * 2016-09-26 2018-10-23 EMC IP Holding Company LLC Efficient physical garbage collection using a perfect hash vector
CN111427855B (zh) * 2016-09-28 2024-04-12 华为技术有限公司 一种存储系统中重复数据删除方法、存储系统及控制器
US10565205B2 (en) * 2016-11-14 2020-02-18 Sap Se Incrementally building hash collision tables
US10565204B2 (en) * 2016-11-14 2020-02-18 Sap Se Hash collision tables for relational join operations
JP6781377B2 (ja) * 2016-11-21 2020-11-04 富士通株式会社 情報処理装置、情報処理方法およびプログラム
US10001942B1 (en) * 2016-12-21 2018-06-19 Netapp Inc. Asynchronous semi-inline deduplication
US10282125B2 (en) * 2017-04-17 2019-05-07 International Business Machines Corporation Distributed content deduplication using hash-trees with adaptive resource utilization in distributed file systems
US10558646B2 (en) * 2017-04-30 2020-02-11 International Business Machines Corporation Cognitive deduplication-aware data placement in large scale storage systems
CN107329692B (zh) * 2017-06-07 2020-02-28 杭州宏杉科技股份有限公司 一种数据重删的方法及存储设备
US10715177B2 (en) * 2017-06-20 2020-07-14 Samsung Electronics Co., Ltd. Lossy compression drive
US10795812B1 (en) * 2017-06-30 2020-10-06 EMC IP Holding Company LLC Virtual copy forward method and system for garbage collection in cloud computing networks
US10346076B1 (en) * 2017-07-03 2019-07-09 EMC IP Holding Company LLC Method and system for data deduplication based on load information associated with different phases in a data deduplication pipeline
CN107391761B (zh) * 2017-08-28 2020-03-06 苏州浪潮智能科技有限公司 一种基于重复数据删除技术的数据管理方法及装置
US10754557B2 (en) * 2017-09-26 2020-08-25 Seagate Technology Llc Data storage system with asynchronous data replication
CN108762679B (zh) * 2018-05-30 2021-06-29 郑州云海信息技术有限公司 一种在线ddp与离线ddp相结合的方法及其相关装置
CN109542360A (zh) * 2018-12-03 2019-03-29 郑州云海信息技术有限公司 数据重删方法、装置、设备、系统及计算机可读存储介质
US11507305B2 (en) * 2019-03-29 2022-11-22 EMC IP Holding Company LLC Concurrently performing normal system operations and garbage collection
US10664165B1 (en) * 2019-05-10 2020-05-26 EMC IP Holding Company LLC Managing inline data compression and deduplication in storage systems
US11687424B2 (en) * 2020-05-28 2023-06-27 Commvault Systems, Inc. Automated media agent state management

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049508A (zh) * 2012-12-13 2013-04-17 华为技术有限公司 一种数据处理方法及装置
US20150127919A1 (en) * 2013-11-06 2015-05-07 International Business Machines Corporation Management of a secure delete operation

Also Published As

Publication number Publication date
US20220147256A1 (en) 2022-05-12
CN114072759A (zh) 2022-02-18
EP3971700A1 (en) 2022-03-23
CN114968090A (zh) 2022-08-30
WO2021016728A1 (zh) 2021-02-04
US20220300180A1 (en) 2022-09-22
EP4130970A1 (en) 2023-02-08
EP3971700A4 (en) 2022-05-25

Similar Documents

Publication Publication Date Title
CN108427538B (zh) 全闪存阵列的存储数据压缩方法、装置、及可读存储介质
US10613976B2 (en) Method and storage device for reducing data duplication
US10042855B2 (en) Efficient storage tiering
CN108427539B (zh) 缓存设备数据的离线去重压缩方法、装置及可读存储介质
RU2626334C2 (ru) Способ и устройство обработки объекта данных
US11531641B2 (en) Storage system deduplication with service level agreements
US9569357B1 (en) Managing compressed data in a storage system
US20220300180A1 (en) Data Deduplication Method and Apparatus, and Computer Program Product
US8886901B1 (en) Policy based storage tiering
CN109074226A (zh) 一种存储系统中重复数据删除方法、存储系统及控制器
WO2021073635A1 (zh) 一种数据存储方法及装置
US10116329B1 (en) Method and system for compression based tiering
US20180253251A1 (en) Computer system, storage apparatus, and method of managing data
CN110908589A (zh) 数据文件的处理方法、装置、系统和存储介质
CN113227958B (zh) 用于重复数据删除中优化的设备、系统和方法
US11327929B2 (en) Method and system for reduced data movement compression using in-storage computing and a customized file system
US11593312B2 (en) File layer to block layer communication for selective data reduction
US10776052B2 (en) Information processing apparatus, data compressing method, and computer-readable recording medium
CN106383670B (zh) 一种数据处理方法及存储设备
CN103885859A (zh) 一种基于全局统计的去碎片方法及系统
JP6733214B2 (ja) 制御装置、ストレージシステム、制御方法及びプログラム
US20230367477A1 (en) Storage system, data management program, and data management method
CN111611179B (zh) 元数据命中率提升方法、装置、存储介质及电子设备
CN115145467A (zh) 数据压缩方法、控制器、设备、介质及程序产品
CN115809013A (zh) 一种数据重删方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination