CN110678837A - 用于对数据块执行全局重复数据删除的方法及其装置 - Google Patents

用于对数据块执行全局重复数据删除的方法及其装置 Download PDF

Info

Publication number
CN110678837A
CN110678837A CN201880035226.1A CN201880035226A CN110678837A CN 110678837 A CN110678837 A CN 110678837A CN 201880035226 A CN201880035226 A CN 201880035226A CN 110678837 A CN110678837 A CN 110678837A
Authority
CN
China
Prior art keywords
data
computing device
file
processor
shared
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201880035226.1A
Other languages
English (en)
Inventor
M·凯蒂亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NetApp Inc
Original Assignee
NetApp Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NetApp Inc filed Critical NetApp Inc
Publication of CN110678837A publication Critical patent/CN110678837A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/064Management of blocks
    • G06F3/0641De-duplication techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0608Saving storage space on storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种协助对跨不同卷的数据块执行全局重复数据删除的方法、非暂时性计算机可读介质和装置,所述方法包括识别存储在两个或更多个存储卷中的至少两个数据块。确定所述至少两个数据块是否被分类为共享数据块。当所述至少两个数据块被确定成共享时,创建新数据卷签名。删除被确定成共享的所述至少两个数据块中的一个,并且存储所述至少两个数据块中的另一个和所述两个或更多个存储卷中的一个的所述创建的签名。

Description

用于对数据块执行全局重复数据删除的方法及其装置
本申请要求2017年4月28日提交的美国临时专利申请序列号15/581,512的优先权权益,并且在此通过引用整体并入。
技术领域
这项技术通常涉及数据存储管理,并且更具体地涉及用于执行全局重复数据删除的方法及其装置。
背景技术
存储驱动器或磁盘为备份或存储数据提供了一种轻松、快速且便捷的方式。当进行另外的备份时,需要另外的磁盘和磁盘空间。然而,磁盘或存储驱动器增加了任何备份解决方案的成本,包括磁盘本身的成本、与磁盘供电和冷却相关联的成本以及与物理上将磁盘存储在数据中心中相关联的成本。因此,期望使每个磁盘上可用的磁盘存储的使用最大化。
使磁盘上的存储最大化的一种方法是使用某种形式的重复数据删除技术。重复数据删除是一种用于消除冗余数据的数据压缩技术。在现有的重复数据删除过程中,将第一数据与存储数据进行比较以检测重复数据,即识别或确定第一数据是否唯一。接着,当第一数据被识别为不是唯一的时,将冗余的第一数据消除并且用指向存储数据的小参考替代。然而,现有技术仅通过比较相同存储卷中存在的数据来执行重复数据删除。遗憾的是,现有技术无法跨不同存储卷执行重复数据删除。
附图说明
图1是具有存储管理计算装置的环境的框图,所述存储管理计算装置跨不同存储卷执行重复数据删除;
图2是图1所示的示例性存储管理计算装置的框图;
图3是用于跨不同存储卷执行重复数据删除的方法的实例的示例性流程图;并且
图4是用于在执行重复数据删除之后执行读取请求的方法的实例的示例性流程图。
具体实施方式
在图1中示出环境10,所述环境10具有多个客户端计算装置12(1)-12(n)、示例性存储管理计算装置14、多个存储驱动器16(1)-16(n)。在这个具体实例中,图1中的环境10包括多个客户端计算装置12(1)-12(n)、存储管理计算装置14和通过一个或多个通信网络30耦接的多个存储驱动器16(1)-16(n),但是环境可包括其他类型和数量的系统、装置、部件和/或其他元件。用于对存储在多个存储驱动器16(1)-16(n)中的不同存储卷中的数据块执行全局重复数据删除的方法的实例由存储管理计算装置14执行,但是本文示出且描述的方法可由其他类型和/或数量的其他计算系统和装置执行。环境10可包括其他类型和数量的其他网络元件和装置,如本领域中通常已知的并且本文将不示出或描述。这种技术提供了许多优点,包括提供用于对存储在不同存储卷中的数据块执行全局重复数据删除的方法、非暂时性计算机可读介质和装置。
参照图2,在这个实例中,存储管理计算装置14包括通过总线26耦接在一起的处理器18、存储器20和通信接口24,但是存储管理计算装置14可包括呈其他配置的其他类型和数量的元件。
存储管理计算装置14的处理器18可执行存储在存储器20中的一个或多个编程指令,以用于对存储在不同存储卷中的数据块进行如本文实例中所示出且描述的全局重复数据删除,但是可执行其他类型和数量的功能和/或其他操作。存储管理计算装置14的处理器18可包括一个或多个中央处理单元(“CPU”)或者具有一个或多个处理核心的通用处理器(诸如一个或多个
Figure BDA0002292256280000031
处理器),但是也可使用其他类型的一个或多个处理器(例如,
Figure BDA0002292256280000032
)。
存储管理计算装置14的存储器20存储用于如本文所描述且示出的本发明技术的一个或多个方面的编程指令和其他数据,但是还可在其他地方存储和执行编程指令中的一些或全部。系统中的多种不同类型的存储器存储装置(诸如非易失性存储器、随机存取存储器(RAM)或只读存储器(ROM))或软盘、硬盘、CD ROM、DVD ROM、闪存盘或通过耦接到处理器18的磁性系统、光学系统或其他读取和写入系统读取和写入的其他计算机可读介质可用于存储器20。
存储管理计算装置14的通信接口24与通过通信网络30全部耦接在一起的多个客户端计算装置12(1)-12(n)和多个存储装置16(1)-16(n)可操作地耦接和通信,但是其他类型和数量的通信网络或系统具有与其他装置和元件的其他类型和数量的连接和配置。仅以举例的方式,通信网络30可使用通过以太网的TCP/IP和工业标准协议,包括NFS、CIFS、SOAP、XML、LDAP和SNMP,但是可使用其他类型和数量的通信网络。在这个实例中,通信网络30可采用任何合适的接口机构和网络通信技术,包括例如任何局域网、任何广域网(例如,互联网)、呈任何合适形式的电信业务(例如,语音、调制解调器等)、公共交换电话网(PSTN)、基于以太网的分组数据网(PDN)及其任意组合等。在这个实例中,总线26是通用串行总线,但是可使用其他总线类型和链路,诸如PCI-Express或超传输总线。
多个客户端计算装置12(1)-12(n)中的每一个包括通过总线或其他链路耦接在一起的中央处理单元(CPU)或处理器、存储器和I/O系统,但是可使用其他数量和类型的网络装置。多个客户端计算装置12(1)-12(n)与存储管理计算装置14通信以进行存储管理,但是客户端计算装置12(1)-12(n)可与存储管理计算装置14交互以用于其他目的。以举例的方式,多个客户端计算装置12(1)-12(n)可运行可提供接口以通过通信网络30在存储管理计算装置14或多个存储驱动器16(1)-16(n)内作出访问、修改、删除、编辑、读取或写入数据的请求的一个或多个应用程序。
多个存储驱动器16(1)-16(n)中的每一个包括通过总线或其他链路耦接在一起的中央处理单元(CPU)或处理器和I/O系统,但是可使用其他数量和类型的网络装置。每个多个存储驱动器16(1)-16(n)协助存储数据,但是多个存储驱动器16(1)-16(n)可协助其他类型的操作,诸如存储文件或数据。各种网络处理应用程序(诸如CIFS应用程序、NFS应用程序、HTTP Web数据存储装置应用程序和/或FTP应用程序)可响应于来自存储管理计算装置14和多个客户端计算装置12(1)-12(n)的请求而在多个存储驱动器16(1)-16(n)上操作并且传输数据(例如,文件或网页)。应当理解,多个存储驱动器16(1)-16(n)可以是包括硬盘、固态装置(SSD)、闪存盘、磁带的硬件(诸如存储装置)或软件,或者可表示具有多个外部资源服务器的系统,所述多个外部资源服务器可包括内部或外部网络。
尽管示例性网络环境10包括本文描述且示出的多个客户端计算装置12(1)-12(n)、存储管理计算装置14和多个存储驱动器16(1)-16(n),但是可使用其他类型和数量的呈其他拓扑的系统、装置、部件和/或其他元件。应当理解,本文所述的实例的系统用于示例性目的,因为用于实现实例的特定硬件和软件的许多变体是可能的,如本领域技术人员将了解。
此外,在任何实例中,两个或更多个计算系统或装置可以取代系统或装置中的任一个。因此,也可根据需要实施分布式处理的诸如冗余和重复的原理和优点,以便增加实例的装置和系统的稳健性和性能。也可使用任何合适的接口机构和业务技术在跨任何合适的网络延伸的一个或多个计算机系统上实现这些实例,所述电信技术包括(仅以举例的方式):呈任何合适形式的电信业务(例如,声音和调制解调器)、无线业务介质、无线业务网络、蜂窝式业务网络、G3业务网络、公共交换电话网(PSTN)、分组数据网(PDN)、互联网、内联网及其组合。
实例也可体现为非暂时性计算机可读介质,所述非暂时性计算机可读介质上存储有用于如通过本文的实例描述且示出的本发明技术的一个或多个方面的指令,所述指令在由处理器执行时致使所述处理器执行实现这种技术的方法所必需的步骤,如利用本文的实例所描述且示出。
现将参考图1至图4在本文描述用于对存储在不同存储卷中的数据块执行全局重复数据删除的方法的实例。示例性方法开始于步骤305,在步骤305处,存储管理计算装置14识别存储在多个存储驱动器16(1)-16(n)的相同集合中的不同存储卷中的两个数据块,但是存储管理计算装置14可从其他存储器位置识别任何其他数量的数据块。
接着在步骤310中,存储管理计算装置14计算识别出的两个数据块的校验和。在这个实例中,存储管理计算装置14可使用通用算法来计算校验和,所述校验和可被本领域普通技术人员容易地辨识,并且因此将不更详细地示出。
在步骤315中,存储管理计算装置14比较数据块的计算出的校验和,以识别是否精确匹配。在这个实例中,当两个数据块的校验和精确匹配时,确定数据块中的数据类似,但是存储管理计算装置14可使用其他技术来确定使用其他技术。因此,当存储管理计算装置14确定校验和不精确匹配时,否分支进行至步骤320。
在步骤320中,存储管理计算装置14识别出两个数据块不匹配,并且示例性流程返回至步骤305。
然而,如果返回到步骤315,那么当存储管理计算装置14确定校验和是精确匹配时,是分支进行至步骤325。在步骤325中,存储管理计算装置14执行逐位比较以确定两个数据块中的数据是否精确匹配,但是可使用其他技术来确定两个数据块中的数据是否精确相同。因此,当确定两个数据块中的数据不精确匹配时,否分支进行至如上所述的步骤320。然而当确定数据块中的数据精确匹配时,是分支进行至步骤330。
在步骤330中,存储管理计算装置14确定两个数据块是否已经共享。在这个实例中,存储管理计算装置14基于元数据文件中存在的数据来确定两个数据块是否共享,但是存储管理计算装置14可使用其他技术来确定它们是否共享。另外,在这个实例中,元数据文件包括关于数据块中的每一个被共享的次数的数据,但是元数据文件可包括其他类型或数量的信息。因此,当存储管理计算装置14确定数据块不共享时,否分支进行至步骤335。
在步骤335中,存储管理计算装置14创建新签名来指示数据块共享。在这个实例中,存储管理计算装置14基于元数据文件中数据块的位置、元文件和将存储新数据块的新地址来创建新签名,但是存储管理计算装置14可使用其他参数来创建新签名。示例性流程前进至步骤340。
然而,如果返回到步骤330,那么当存储管理计算装置14确定块已经共享时,是分支进行至步骤340。在步骤340中,存储管理计算装置14增加了元数据文件中数据块中的一个的参考计数,所述参考计数指示数据块正在被共享,但是存储管理计算装置14可修改元数据文件中其他类型或数量的数据。
接着在步骤345中,存储管理计算装置14移除存储在多个存储驱动器16(1)-16(n)中的一个卷中的数据块之一,使得可将存储器空间用于存储其他数据块,并且示例性流程前进至步骤305。
现将参考图4来示出协助对共享数据块的读取操作的示例性说明。在步骤405中,存储管理计算装置14从多个客户端计算装置12(1)-12(n)中的一个接收读取文件的请求,但是存储管理计算装置14可接收其他类型或数量的请求。在这个实例中,接收到的请求包括文件名和与文件名相关联的偏移地址,但是接收到的请求可包括其他类型或数量的信息。
接着在步骤410中,存储管理计算装置14确定与接收到的请求相关联的唯一签名,但是存储管理计算装置14可使用其他技术来确定唯一签名。在这个实例中,存储管理计算装置14使用接收到的文件名并在元数据文件中识别与文件名相关联的数据。另外,存储管理计算装置14还检查是否存在与存储在元数据文件中的文件名相关联的唯一签名,但是存储管理计算装置14可使用其他技术来确定是否存在与接收到的请求相关联的唯一签名。可替代地,在其他实例中,存储管理计算装置14可使用元数据来确定唯一签名。
接着在步骤415中,存储管理计算装置14基于对存储在元数据文件中的唯一签名和/或另外的信息的确定来确定所请求的文件是否具有作为共享数据块存储的数据,但是存储管理计算装置14可使用其他技术来确定所请求的文件是否具有共享数据块。因此,当存储管理计算装置14确定其是共享数据块时,是分支进行至步骤420。
在步骤420中,存储管理计算装置14使用唯一签名来从多个存储驱动器16(1)-16(n)获得文件,并且将所述文件提供给多个客户端计算装置12(1)-12(n)中请求客户端计算装置,并且示例性方法在步骤430处结束。
然而,如果返回到步骤415,那么当存储管理计算装置14确定不是共享块时,否分支进行至步骤425。在步骤425中,存储管理计算装置14使用与接收到的请求一起提供的文件偏移地址从多个存储驱动器16(1)-16(n)获得所请求的文件,并且将所请求的文件提供给多个客户端计算装置12(1)-12(n)中的请求客户端计算装置;但是存储管理计算装置14可使用其他参数来获得文件。示例性方法在步骤430处结束。
因此,如在本文以举例的方式所示出且描述,这种技术提供了许多优点,包括提供用于对跨相同集合中不同卷存储的数据块执行全局重复数据删除的方法、非暂时性计算机可读介质和装置。使用上文示出的实例,所公开的技术能够显著地减小存储驱动器中存在的不同卷中的数据块的存储空间,从而以更有效的方式管理存储器空间。
在已如此描述本技术的基本概念的情况下,对于本领域技术人员来说相当明显的是,先前详述的公开意图仅以举例的方式来呈现,并且是非限制性的。尽管本文没有明确说明,但不同的更改、改进以及修改将出现,并且意图针对本领域技术人员。这些更改、改进以及修改意图特此提出,并且是在本技术的精神和范围内。此外,处理元件或序列的所列举顺序或为此数字、字母或其它标号的使用并不意图将所要求的过程限制为任何顺序,除非在所附权利要求书中进行指定。因此,本发明仅由所附权利要求书及其等效物来限制。

Claims (16)

1.一种方法,其包括:
由计算装置识别存储在两个或更多个存储卷中的至少两个数据块;
由所述计算装置确定所述至少两个数据块何时被分类为共享数据块;
当所述至少两个数据块被确定成共享时,由所述计算装置创建新数据卷签名;以及
由所述计算装置删除被确定成共享的所述至少两个数据块中的一个,并且存储所述至少两个数据块中的另一个和所述两个或更多个存储卷中的一个的所述创建的签名。
2.如权利要求1所述的方法,其还包括:由所述计算装置确定所述识别出的至少两个数据块中的每一个的检验和值。
3.如权利要求2所述的方法,其还包括:在确定所述校验和值时,由所述计算装置将所述至少两个块中的每一个彼此进行比较。
4.如权利要求3所述的方法,其还包括:当所述比较的结果为精确匹配时,由所述计算装置将所述识别出的至少两个数据块分类为所述共享数据块。
5.如任一前述权利要求所述的方法,其还包括:
由所述计算装置接收读取文件的请求;
由所述计算装置确定所述接收到的请求的所述文件中的数据何时被分类为共享数据块;
当所述文件中的所述数据被分类为所述共享数据块时,由所述计算装置识别与所述接收到的请求中的所述文件相关联的数据卷签名;
由所述计算装置使用来自所述两个或更多个数据块的所述识别出的数据卷签名来获得所述接收到的请求中的所述文件;以及
由所述计算装置提供所述获得的文件作为对所述接收到的请求的响应。
6.一种非暂时性计算机可读介质,其上存储有用于跨不同数据卷执行全局重复数据删除的包括可执行代码的指令,所述可执行代码在由处理器执行时致使所述处理器执行如任一前述权利要求所述的步骤。
7.一种非暂时性计算机可读介质,其上存储有用于跨不同数据卷执行全局重复数据删除的包括可执行代码的指令,所述可执行代码在由处理器执行时致使所述处理器执行包括以下项的步骤:
识别存储在两个或更多个存储卷中的至少两个数据块;
确定所述至少两个数据块何时被分类为共享数据块;
当所述至少两个数据块被确定成共享时,创建新数据卷签名;以及
删除被确定成共享的所述至少两个数据块中的一个,并且存储所述至少两个数据块中的另一个和所述两个或更多个存储卷中的一个的所述创建的签名。
8.如权利要求7所述的介质,其还包括可执行代码,所述可执行代码在由处理器执行时致使所述处理器确定所述识别出的至少两个数据块中的每一个的检验和值。
9.如权利要求8所述的介质,其还包括可执行代码,所述可执行代码在由处理器执行时致使所述处理器在确定所述校验和值时将所述至少两个块中的每一个彼此进行比较。
10.如权利要求9所述的介质,其还包括可执行代码,所述可执行代码在由处理器执行时致使当所述比较的结果为精确匹配时,所述处理器将所述识别出的至少两个数据块分类为所述共享数据块。
11.如权利要求7至10中任一项所述的介质,其还包括可执行代码,所述可执行代码在由处理器执行时致使所述处理器:
接收读取文件的请求;
确定所述接收到的请求的所述文件中的数据何时被分类为共享数据块;
当所述文件中的所述数据被分类为所述共享数据块时,识别与所述接收到的请求中的所述文件相关联的数据卷签名;
使用来自所述两个或更多个数据块的所述识别出的数据卷签名来获得所述接收到的请求中的所述文件;并且
提供所述获得的文件作为对所述接收到的请求的响应。
12.一种存储管理计算装置,其包括:
处理器;
耦接到所述处理器的存储器,所述处理器被配置成能够执行包括以下项并存储在所述存储器中的编程指令:
识别存储在两个或更多个存储卷中的至少两个数据块;
确定所述至少两个数据块何时被分类为共享数据块;
当所述至少两个数据块被确定成共享时,创建新数据卷签名;以及
删除被确定成共享的所述至少两个数据块中的一个,并且存储所述至少两个数据块中的另一个和所述两个或更多个存储卷中的一个的所述创建的签名。
13.如权利要求12所述的装置,其中耦接到所述存储器的所述处理器进一步被配置成能够执行包括以下项并存储在所述存储器中的至少一个另外的编程指令:确定所述识别出的至少两个数据块中的每一个的校验和值。
14.如权利要求13所述的装置,其中耦接到所述存储器的所述处理器进一步被配置成能够执行包括以下项并存储在所述存储器中的至少一个另外的编程指令:在确定所述校验和值时将所述至少两个块中的每一个彼此进行比较。
15.如权利要求14所述的装置,其中耦接到所述存储器的所述处理器进一步被配置成能够执行包括以下项并存储在所述存储器中的至少一个另外的编程指令:当所述比较的结果为精确匹配时将所述识别出的至少两个数据块分类为所述共享数据块。
16.如权利要求12至15中任一项所述的装置,其中耦接到所述存储器的所述处理器进一步被配置成能够执行包括以下项并存储在所述存储器中的至少一个另外的编程指令:
接收读取文件的请求;
确定所述接收到的请求的所述文件中的数据何时被分类为共享数据块;
当所述文件中的所述数据被分类为所述共享数据块时,识别与所述接收到的请求中的所述文件相关联的数据卷签名;
使用来自所述两个或更多个数据块的所述识别出的数据卷签名来获得所述接收到的请求中的所述文件;以及
提供所述获得的文件作为对所述接收到的请求的响应。
CN201880035226.1A 2017-04-28 2018-03-23 用于对数据块执行全局重复数据删除的方法及其装置 Pending CN110678837A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/581,512 2017-04-28
US15/581,512 US10684786B2 (en) 2017-04-28 2017-04-28 Methods for performing global deduplication on data blocks and devices thereof
PCT/US2018/023950 WO2018200105A1 (en) 2017-04-28 2018-03-23 Methods for performing global deduplication on data blocks and devices thereof

Publications (1)

Publication Number Publication Date
CN110678837A true CN110678837A (zh) 2020-01-10

Family

ID=62028098

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880035226.1A Pending CN110678837A (zh) 2017-04-28 2018-03-23 用于对数据块执行全局重复数据删除的方法及其装置

Country Status (4)

Country Link
US (1) US10684786B2 (zh)
EP (1) EP3616044B1 (zh)
CN (1) CN110678837A (zh)
WO (1) WO2018200105A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021185109A1 (zh) * 2020-03-19 2021-09-23 中山大学 Kubernetes用户态应用中基于虚拟文件系统的小文件存储优化系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100094817A1 (en) * 2008-10-14 2010-04-15 Israel Zvi Ben-Shaul Storage-network de-duplication
US8156306B1 (en) * 2009-12-18 2012-04-10 Emc Corporation Systems and methods for using thin provisioning to reclaim space identified by data reduction processes
US20120136841A1 (en) * 2010-11-27 2012-05-31 Gopakumar Ambat System and method for application aware de-duplication of data blocks on a virtualized storage array
US8612702B1 (en) * 2009-03-31 2013-12-17 Symantec Corporation Systems and methods for performing optimized backups of multiple volumes
CN103763362A (zh) * 2014-01-13 2014-04-30 西安电子科技大学 一种安全的分布式重复数据删除方法
US20150193169A1 (en) * 2014-01-08 2015-07-09 Netapp, Inc. Global in-line extent-based deduplication
US9460102B1 (en) * 2013-12-26 2016-10-04 Emc Corporation Managing data deduplication in storage systems based on I/O activities

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8849767B1 (en) * 2005-04-13 2014-09-30 Netapp, Inc. Method and apparatus for identifying and eliminating duplicate data blocks and sharing data blocks in a storage system
US8898119B2 (en) * 2010-12-15 2014-11-25 Netapp, Inc. Fingerprints datastore and stale fingerprint removal in de-duplication environments
US8600949B2 (en) * 2011-06-21 2013-12-03 Netapp, Inc. Deduplication in an extent-based architecture
US8521704B2 (en) * 2011-09-30 2013-08-27 Symantec Corporation System and method for filesystem deduplication using variable length sharing
WO2013085519A1 (en) * 2011-12-08 2013-06-13 Empire Technology Development, Llc Storage discounts for allowing cross-user deduplication
US9348538B2 (en) * 2012-10-18 2016-05-24 Netapp, Inc. Selective deduplication
US9262430B2 (en) * 2012-11-22 2016-02-16 Kaminario Technologies Ltd. Deduplication in a storage system
US9449011B1 (en) * 2012-12-28 2016-09-20 Emc Corporation Managing data deduplication in storage systems
US9377953B2 (en) * 2014-04-23 2016-06-28 Netapp, Inc. Efficiency sets in a distributed system
WO2016046911A1 (ja) * 2014-09-24 2016-03-31 株式会社日立製作所 ストレージシステム及びストレージシステムの管理方法
US10496626B2 (en) * 2015-06-11 2019-12-03 EB Storage Systems Ltd. Deduplication in a highly-distributed shared topology with direct-memory-access capable interconnect
US10983732B2 (en) * 2015-07-13 2021-04-20 Pure Storage, Inc. Method and system for accessing a file
JP6708948B2 (ja) * 2016-01-21 2020-06-10 日本電気株式会社 ブロックストレージ
US10169365B2 (en) * 2016-03-02 2019-01-01 Hewlett Packard Enterprise Development Lp Multiple deduplication domains in network storage system
US11182344B2 (en) * 2016-03-14 2021-11-23 Vmware, Inc. File granular data de-duplication effectiveness metric for data de-duplication
US20180074745A1 (en) * 2016-09-12 2018-03-15 International Business Machines Corporation Managing Volumes with Deduplication using Volume Sketches
US10001942B1 (en) * 2016-12-21 2018-06-19 Netapp Inc. Asynchronous semi-inline deduplication
US10417202B2 (en) * 2016-12-21 2019-09-17 Hewlett Packard Enterprise Development Lp Storage system deduplication

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100094817A1 (en) * 2008-10-14 2010-04-15 Israel Zvi Ben-Shaul Storage-network de-duplication
US8612702B1 (en) * 2009-03-31 2013-12-17 Symantec Corporation Systems and methods for performing optimized backups of multiple volumes
US8156306B1 (en) * 2009-12-18 2012-04-10 Emc Corporation Systems and methods for using thin provisioning to reclaim space identified by data reduction processes
US20120136841A1 (en) * 2010-11-27 2012-05-31 Gopakumar Ambat System and method for application aware de-duplication of data blocks on a virtualized storage array
US9460102B1 (en) * 2013-12-26 2016-10-04 Emc Corporation Managing data deduplication in storage systems based on I/O activities
US20150193169A1 (en) * 2014-01-08 2015-07-09 Netapp, Inc. Global in-line extent-based deduplication
CN103763362A (zh) * 2014-01-13 2014-04-30 西安电子科技大学 一种安全的分布式重复数据删除方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021185109A1 (zh) * 2020-03-19 2021-09-23 中山大学 Kubernetes用户态应用中基于虚拟文件系统的小文件存储优化系统

Also Published As

Publication number Publication date
WO2018200105A1 (en) 2018-11-01
EP3616044A1 (en) 2020-03-04
US20180314452A1 (en) 2018-11-01
EP3616044B1 (en) 2023-05-24
US10684786B2 (en) 2020-06-16

Similar Documents

Publication Publication Date Title
US10909110B1 (en) Data retrieval from a distributed data storage system
KR102007070B1 (ko) 메모리 관리 시의 중복 제거를 위해서 기준 세트로 기준 블록을 취합하는 기법
US10620852B2 (en) Push-based piggyback system for source-driven logical replication in a storage environment
US9792306B1 (en) Data transfer between dissimilar deduplication systems
US9182921B2 (en) Method and system for providing substantially constant-time execution of a copy operation
US8402250B1 (en) Distributed file system with client-side deduplication capacity
US7685459B1 (en) Parallel backup
US7478113B1 (en) Boundaries
JP4263477B2 (ja) 共通デジタルシーケンスを識別するシステム
US8112463B2 (en) File management method and storage system
US8874520B2 (en) Processes and methods for client-side fingerprint caching to improve deduplication system backup performance
US10459886B2 (en) Client-side deduplication with local chunk caching
US9917894B2 (en) Accelerating transfer protocols
US8768901B1 (en) Method and apparatus for selectively storing blocks of data on a server
US10558547B2 (en) Methods for proactive prediction of disk failure in a RAID group and devices thereof
CN110389859B (zh) 用于复制数据块的方法、设备和计算机程序产品
WO2013152057A1 (en) Cache management
US20160012070A1 (en) Methods for managing a request to list previous versions of an object and devices thereof
US20160139996A1 (en) Methods for providing unified storage for backup and disaster recovery and devices thereof
US20160044077A1 (en) Policy use in a data mover employing different channel protocols
WO2013058747A1 (en) Index for deduplication
US9342524B1 (en) Method and apparatus for single instance indexing of backups
CN110678837A (zh) 用于对数据块执行全局重复数据删除的方法及其装置
US8464097B1 (en) Method and apparatus for efficiently creating backup files with less redundancy
US20180246666A1 (en) Methods for performing data deduplication on data blocks at granularity level and devices thereof

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200110