CN110678837A - 用于对数据块执行全局重复数据删除的方法及其装置 - Google Patents
用于对数据块执行全局重复数据删除的方法及其装置 Download PDFInfo
- Publication number
- CN110678837A CN110678837A CN201880035226.1A CN201880035226A CN110678837A CN 110678837 A CN110678837 A CN 110678837A CN 201880035226 A CN201880035226 A CN 201880035226A CN 110678837 A CN110678837 A CN 110678837A
- Authority
- CN
- China
- Prior art keywords
- data
- computing device
- file
- processor
- shared
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0638—Organizing or formatting or addressing of data
- G06F3/064—Management of blocks
- G06F3/0641—De-duplication techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/0608—Saving storage space on storage systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0668—Interfaces specially adapted for storage systems adopting a particular infrastructure
- G06F3/067—Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种协助对跨不同卷的数据块执行全局重复数据删除的方法、非暂时性计算机可读介质和装置,所述方法包括识别存储在两个或更多个存储卷中的至少两个数据块。确定所述至少两个数据块是否被分类为共享数据块。当所述至少两个数据块被确定成共享时,创建新数据卷签名。删除被确定成共享的所述至少两个数据块中的一个,并且存储所述至少两个数据块中的另一个和所述两个或更多个存储卷中的一个的所述创建的签名。
Description
本申请要求2017年4月28日提交的美国临时专利申请序列号15/581,512的优先权权益,并且在此通过引用整体并入。
技术领域
这项技术通常涉及数据存储管理,并且更具体地涉及用于执行全局重复数据删除的方法及其装置。
背景技术
存储驱动器或磁盘为备份或存储数据提供了一种轻松、快速且便捷的方式。当进行另外的备份时,需要另外的磁盘和磁盘空间。然而,磁盘或存储驱动器增加了任何备份解决方案的成本,包括磁盘本身的成本、与磁盘供电和冷却相关联的成本以及与物理上将磁盘存储在数据中心中相关联的成本。因此,期望使每个磁盘上可用的磁盘存储的使用最大化。
使磁盘上的存储最大化的一种方法是使用某种形式的重复数据删除技术。重复数据删除是一种用于消除冗余数据的数据压缩技术。在现有的重复数据删除过程中,将第一数据与存储数据进行比较以检测重复数据,即识别或确定第一数据是否唯一。接着,当第一数据被识别为不是唯一的时,将冗余的第一数据消除并且用指向存储数据的小参考替代。然而,现有技术仅通过比较相同存储卷中存在的数据来执行重复数据删除。遗憾的是,现有技术无法跨不同存储卷执行重复数据删除。
附图说明
图1是具有存储管理计算装置的环境的框图,所述存储管理计算装置跨不同存储卷执行重复数据删除;
图2是图1所示的示例性存储管理计算装置的框图;
图3是用于跨不同存储卷执行重复数据删除的方法的实例的示例性流程图;并且
图4是用于在执行重复数据删除之后执行读取请求的方法的实例的示例性流程图。
具体实施方式
在图1中示出环境10,所述环境10具有多个客户端计算装置12(1)-12(n)、示例性存储管理计算装置14、多个存储驱动器16(1)-16(n)。在这个具体实例中,图1中的环境10包括多个客户端计算装置12(1)-12(n)、存储管理计算装置14和通过一个或多个通信网络30耦接的多个存储驱动器16(1)-16(n),但是环境可包括其他类型和数量的系统、装置、部件和/或其他元件。用于对存储在多个存储驱动器16(1)-16(n)中的不同存储卷中的数据块执行全局重复数据删除的方法的实例由存储管理计算装置14执行,但是本文示出且描述的方法可由其他类型和/或数量的其他计算系统和装置执行。环境10可包括其他类型和数量的其他网络元件和装置,如本领域中通常已知的并且本文将不示出或描述。这种技术提供了许多优点,包括提供用于对存储在不同存储卷中的数据块执行全局重复数据删除的方法、非暂时性计算机可读介质和装置。
参照图2,在这个实例中,存储管理计算装置14包括通过总线26耦接在一起的处理器18、存储器20和通信接口24,但是存储管理计算装置14可包括呈其他配置的其他类型和数量的元件。
存储管理计算装置14的处理器18可执行存储在存储器20中的一个或多个编程指令,以用于对存储在不同存储卷中的数据块进行如本文实例中所示出且描述的全局重复数据删除,但是可执行其他类型和数量的功能和/或其他操作。存储管理计算装置14的处理器18可包括一个或多个中央处理单元(“CPU”)或者具有一个或多个处理核心的通用处理器(诸如一个或多个处理器),但是也可使用其他类型的一个或多个处理器(例如,)。
存储管理计算装置14的存储器20存储用于如本文所描述且示出的本发明技术的一个或多个方面的编程指令和其他数据,但是还可在其他地方存储和执行编程指令中的一些或全部。系统中的多种不同类型的存储器存储装置(诸如非易失性存储器、随机存取存储器(RAM)或只读存储器(ROM))或软盘、硬盘、CD ROM、DVD ROM、闪存盘或通过耦接到处理器18的磁性系统、光学系统或其他读取和写入系统读取和写入的其他计算机可读介质可用于存储器20。
存储管理计算装置14的通信接口24与通过通信网络30全部耦接在一起的多个客户端计算装置12(1)-12(n)和多个存储装置16(1)-16(n)可操作地耦接和通信,但是其他类型和数量的通信网络或系统具有与其他装置和元件的其他类型和数量的连接和配置。仅以举例的方式,通信网络30可使用通过以太网的TCP/IP和工业标准协议,包括NFS、CIFS、SOAP、XML、LDAP和SNMP,但是可使用其他类型和数量的通信网络。在这个实例中,通信网络30可采用任何合适的接口机构和网络通信技术,包括例如任何局域网、任何广域网(例如,互联网)、呈任何合适形式的电信业务(例如,语音、调制解调器等)、公共交换电话网(PSTN)、基于以太网的分组数据网(PDN)及其任意组合等。在这个实例中,总线26是通用串行总线,但是可使用其他总线类型和链路,诸如PCI-Express或超传输总线。
多个客户端计算装置12(1)-12(n)中的每一个包括通过总线或其他链路耦接在一起的中央处理单元(CPU)或处理器、存储器和I/O系统,但是可使用其他数量和类型的网络装置。多个客户端计算装置12(1)-12(n)与存储管理计算装置14通信以进行存储管理,但是客户端计算装置12(1)-12(n)可与存储管理计算装置14交互以用于其他目的。以举例的方式,多个客户端计算装置12(1)-12(n)可运行可提供接口以通过通信网络30在存储管理计算装置14或多个存储驱动器16(1)-16(n)内作出访问、修改、删除、编辑、读取或写入数据的请求的一个或多个应用程序。
多个存储驱动器16(1)-16(n)中的每一个包括通过总线或其他链路耦接在一起的中央处理单元(CPU)或处理器和I/O系统,但是可使用其他数量和类型的网络装置。每个多个存储驱动器16(1)-16(n)协助存储数据,但是多个存储驱动器16(1)-16(n)可协助其他类型的操作,诸如存储文件或数据。各种网络处理应用程序(诸如CIFS应用程序、NFS应用程序、HTTP Web数据存储装置应用程序和/或FTP应用程序)可响应于来自存储管理计算装置14和多个客户端计算装置12(1)-12(n)的请求而在多个存储驱动器16(1)-16(n)上操作并且传输数据(例如,文件或网页)。应当理解,多个存储驱动器16(1)-16(n)可以是包括硬盘、固态装置(SSD)、闪存盘、磁带的硬件(诸如存储装置)或软件,或者可表示具有多个外部资源服务器的系统,所述多个外部资源服务器可包括内部或外部网络。
尽管示例性网络环境10包括本文描述且示出的多个客户端计算装置12(1)-12(n)、存储管理计算装置14和多个存储驱动器16(1)-16(n),但是可使用其他类型和数量的呈其他拓扑的系统、装置、部件和/或其他元件。应当理解,本文所述的实例的系统用于示例性目的,因为用于实现实例的特定硬件和软件的许多变体是可能的,如本领域技术人员将了解。
此外,在任何实例中,两个或更多个计算系统或装置可以取代系统或装置中的任一个。因此,也可根据需要实施分布式处理的诸如冗余和重复的原理和优点,以便增加实例的装置和系统的稳健性和性能。也可使用任何合适的接口机构和业务技术在跨任何合适的网络延伸的一个或多个计算机系统上实现这些实例,所述电信技术包括(仅以举例的方式):呈任何合适形式的电信业务(例如,声音和调制解调器)、无线业务介质、无线业务网络、蜂窝式业务网络、G3业务网络、公共交换电话网(PSTN)、分组数据网(PDN)、互联网、内联网及其组合。
实例也可体现为非暂时性计算机可读介质,所述非暂时性计算机可读介质上存储有用于如通过本文的实例描述且示出的本发明技术的一个或多个方面的指令,所述指令在由处理器执行时致使所述处理器执行实现这种技术的方法所必需的步骤,如利用本文的实例所描述且示出。
现将参考图1至图4在本文描述用于对存储在不同存储卷中的数据块执行全局重复数据删除的方法的实例。示例性方法开始于步骤305,在步骤305处,存储管理计算装置14识别存储在多个存储驱动器16(1)-16(n)的相同集合中的不同存储卷中的两个数据块,但是存储管理计算装置14可从其他存储器位置识别任何其他数量的数据块。
接着在步骤310中,存储管理计算装置14计算识别出的两个数据块的校验和。在这个实例中,存储管理计算装置14可使用通用算法来计算校验和,所述校验和可被本领域普通技术人员容易地辨识,并且因此将不更详细地示出。
在步骤315中,存储管理计算装置14比较数据块的计算出的校验和,以识别是否精确匹配。在这个实例中,当两个数据块的校验和精确匹配时,确定数据块中的数据类似,但是存储管理计算装置14可使用其他技术来确定使用其他技术。因此,当存储管理计算装置14确定校验和不精确匹配时,否分支进行至步骤320。
在步骤320中,存储管理计算装置14识别出两个数据块不匹配,并且示例性流程返回至步骤305。
然而,如果返回到步骤315,那么当存储管理计算装置14确定校验和是精确匹配时,是分支进行至步骤325。在步骤325中,存储管理计算装置14执行逐位比较以确定两个数据块中的数据是否精确匹配,但是可使用其他技术来确定两个数据块中的数据是否精确相同。因此,当确定两个数据块中的数据不精确匹配时,否分支进行至如上所述的步骤320。然而当确定数据块中的数据精确匹配时,是分支进行至步骤330。
在步骤330中,存储管理计算装置14确定两个数据块是否已经共享。在这个实例中,存储管理计算装置14基于元数据文件中存在的数据来确定两个数据块是否共享,但是存储管理计算装置14可使用其他技术来确定它们是否共享。另外,在这个实例中,元数据文件包括关于数据块中的每一个被共享的次数的数据,但是元数据文件可包括其他类型或数量的信息。因此,当存储管理计算装置14确定数据块不共享时,否分支进行至步骤335。
在步骤335中,存储管理计算装置14创建新签名来指示数据块共享。在这个实例中,存储管理计算装置14基于元数据文件中数据块的位置、元文件和将存储新数据块的新地址来创建新签名,但是存储管理计算装置14可使用其他参数来创建新签名。示例性流程前进至步骤340。
然而,如果返回到步骤330,那么当存储管理计算装置14确定块已经共享时,是分支进行至步骤340。在步骤340中,存储管理计算装置14增加了元数据文件中数据块中的一个的参考计数,所述参考计数指示数据块正在被共享,但是存储管理计算装置14可修改元数据文件中其他类型或数量的数据。
接着在步骤345中,存储管理计算装置14移除存储在多个存储驱动器16(1)-16(n)中的一个卷中的数据块之一,使得可将存储器空间用于存储其他数据块,并且示例性流程前进至步骤305。
现将参考图4来示出协助对共享数据块的读取操作的示例性说明。在步骤405中,存储管理计算装置14从多个客户端计算装置12(1)-12(n)中的一个接收读取文件的请求,但是存储管理计算装置14可接收其他类型或数量的请求。在这个实例中,接收到的请求包括文件名和与文件名相关联的偏移地址,但是接收到的请求可包括其他类型或数量的信息。
接着在步骤410中,存储管理计算装置14确定与接收到的请求相关联的唯一签名,但是存储管理计算装置14可使用其他技术来确定唯一签名。在这个实例中,存储管理计算装置14使用接收到的文件名并在元数据文件中识别与文件名相关联的数据。另外,存储管理计算装置14还检查是否存在与存储在元数据文件中的文件名相关联的唯一签名,但是存储管理计算装置14可使用其他技术来确定是否存在与接收到的请求相关联的唯一签名。可替代地,在其他实例中,存储管理计算装置14可使用元数据来确定唯一签名。
接着在步骤415中,存储管理计算装置14基于对存储在元数据文件中的唯一签名和/或另外的信息的确定来确定所请求的文件是否具有作为共享数据块存储的数据,但是存储管理计算装置14可使用其他技术来确定所请求的文件是否具有共享数据块。因此,当存储管理计算装置14确定其是共享数据块时,是分支进行至步骤420。
在步骤420中,存储管理计算装置14使用唯一签名来从多个存储驱动器16(1)-16(n)获得文件,并且将所述文件提供给多个客户端计算装置12(1)-12(n)中请求客户端计算装置,并且示例性方法在步骤430处结束。
然而,如果返回到步骤415,那么当存储管理计算装置14确定不是共享块时,否分支进行至步骤425。在步骤425中,存储管理计算装置14使用与接收到的请求一起提供的文件偏移地址从多个存储驱动器16(1)-16(n)获得所请求的文件,并且将所请求的文件提供给多个客户端计算装置12(1)-12(n)中的请求客户端计算装置;但是存储管理计算装置14可使用其他参数来获得文件。示例性方法在步骤430处结束。
因此,如在本文以举例的方式所示出且描述,这种技术提供了许多优点,包括提供用于对跨相同集合中不同卷存储的数据块执行全局重复数据删除的方法、非暂时性计算机可读介质和装置。使用上文示出的实例,所公开的技术能够显著地减小存储驱动器中存在的不同卷中的数据块的存储空间,从而以更有效的方式管理存储器空间。
在已如此描述本技术的基本概念的情况下,对于本领域技术人员来说相当明显的是,先前详述的公开意图仅以举例的方式来呈现,并且是非限制性的。尽管本文没有明确说明,但不同的更改、改进以及修改将出现,并且意图针对本领域技术人员。这些更改、改进以及修改意图特此提出,并且是在本技术的精神和范围内。此外,处理元件或序列的所列举顺序或为此数字、字母或其它标号的使用并不意图将所要求的过程限制为任何顺序,除非在所附权利要求书中进行指定。因此,本发明仅由所附权利要求书及其等效物来限制。
Claims (16)
1.一种方法,其包括:
由计算装置识别存储在两个或更多个存储卷中的至少两个数据块;
由所述计算装置确定所述至少两个数据块何时被分类为共享数据块;
当所述至少两个数据块被确定成共享时,由所述计算装置创建新数据卷签名;以及
由所述计算装置删除被确定成共享的所述至少两个数据块中的一个,并且存储所述至少两个数据块中的另一个和所述两个或更多个存储卷中的一个的所述创建的签名。
2.如权利要求1所述的方法,其还包括:由所述计算装置确定所述识别出的至少两个数据块中的每一个的检验和值。
3.如权利要求2所述的方法,其还包括:在确定所述校验和值时,由所述计算装置将所述至少两个块中的每一个彼此进行比较。
4.如权利要求3所述的方法,其还包括:当所述比较的结果为精确匹配时,由所述计算装置将所述识别出的至少两个数据块分类为所述共享数据块。
5.如任一前述权利要求所述的方法,其还包括:
由所述计算装置接收读取文件的请求;
由所述计算装置确定所述接收到的请求的所述文件中的数据何时被分类为共享数据块;
当所述文件中的所述数据被分类为所述共享数据块时,由所述计算装置识别与所述接收到的请求中的所述文件相关联的数据卷签名;
由所述计算装置使用来自所述两个或更多个数据块的所述识别出的数据卷签名来获得所述接收到的请求中的所述文件;以及
由所述计算装置提供所述获得的文件作为对所述接收到的请求的响应。
6.一种非暂时性计算机可读介质,其上存储有用于跨不同数据卷执行全局重复数据删除的包括可执行代码的指令,所述可执行代码在由处理器执行时致使所述处理器执行如任一前述权利要求所述的步骤。
7.一种非暂时性计算机可读介质,其上存储有用于跨不同数据卷执行全局重复数据删除的包括可执行代码的指令,所述可执行代码在由处理器执行时致使所述处理器执行包括以下项的步骤:
识别存储在两个或更多个存储卷中的至少两个数据块;
确定所述至少两个数据块何时被分类为共享数据块;
当所述至少两个数据块被确定成共享时,创建新数据卷签名;以及
删除被确定成共享的所述至少两个数据块中的一个,并且存储所述至少两个数据块中的另一个和所述两个或更多个存储卷中的一个的所述创建的签名。
8.如权利要求7所述的介质,其还包括可执行代码,所述可执行代码在由处理器执行时致使所述处理器确定所述识别出的至少两个数据块中的每一个的检验和值。
9.如权利要求8所述的介质,其还包括可执行代码,所述可执行代码在由处理器执行时致使所述处理器在确定所述校验和值时将所述至少两个块中的每一个彼此进行比较。
10.如权利要求9所述的介质,其还包括可执行代码,所述可执行代码在由处理器执行时致使当所述比较的结果为精确匹配时,所述处理器将所述识别出的至少两个数据块分类为所述共享数据块。
11.如权利要求7至10中任一项所述的介质,其还包括可执行代码,所述可执行代码在由处理器执行时致使所述处理器:
接收读取文件的请求;
确定所述接收到的请求的所述文件中的数据何时被分类为共享数据块;
当所述文件中的所述数据被分类为所述共享数据块时,识别与所述接收到的请求中的所述文件相关联的数据卷签名;
使用来自所述两个或更多个数据块的所述识别出的数据卷签名来获得所述接收到的请求中的所述文件;并且
提供所述获得的文件作为对所述接收到的请求的响应。
12.一种存储管理计算装置,其包括:
处理器;
耦接到所述处理器的存储器,所述处理器被配置成能够执行包括以下项并存储在所述存储器中的编程指令:
识别存储在两个或更多个存储卷中的至少两个数据块;
确定所述至少两个数据块何时被分类为共享数据块;
当所述至少两个数据块被确定成共享时,创建新数据卷签名;以及
删除被确定成共享的所述至少两个数据块中的一个,并且存储所述至少两个数据块中的另一个和所述两个或更多个存储卷中的一个的所述创建的签名。
13.如权利要求12所述的装置,其中耦接到所述存储器的所述处理器进一步被配置成能够执行包括以下项并存储在所述存储器中的至少一个另外的编程指令:确定所述识别出的至少两个数据块中的每一个的校验和值。
14.如权利要求13所述的装置,其中耦接到所述存储器的所述处理器进一步被配置成能够执行包括以下项并存储在所述存储器中的至少一个另外的编程指令:在确定所述校验和值时将所述至少两个块中的每一个彼此进行比较。
15.如权利要求14所述的装置,其中耦接到所述存储器的所述处理器进一步被配置成能够执行包括以下项并存储在所述存储器中的至少一个另外的编程指令:当所述比较的结果为精确匹配时将所述识别出的至少两个数据块分类为所述共享数据块。
16.如权利要求12至15中任一项所述的装置,其中耦接到所述存储器的所述处理器进一步被配置成能够执行包括以下项并存储在所述存储器中的至少一个另外的编程指令:
接收读取文件的请求;
确定所述接收到的请求的所述文件中的数据何时被分类为共享数据块;
当所述文件中的所述数据被分类为所述共享数据块时,识别与所述接收到的请求中的所述文件相关联的数据卷签名;
使用来自所述两个或更多个数据块的所述识别出的数据卷签名来获得所述接收到的请求中的所述文件;以及
提供所述获得的文件作为对所述接收到的请求的响应。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/581,512 | 2017-04-28 | ||
US15/581,512 US10684786B2 (en) | 2017-04-28 | 2017-04-28 | Methods for performing global deduplication on data blocks and devices thereof |
PCT/US2018/023950 WO2018200105A1 (en) | 2017-04-28 | 2018-03-23 | Methods for performing global deduplication on data blocks and devices thereof |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110678837A true CN110678837A (zh) | 2020-01-10 |
Family
ID=62028098
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880035226.1A Pending CN110678837A (zh) | 2017-04-28 | 2018-03-23 | 用于对数据块执行全局重复数据删除的方法及其装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10684786B2 (zh) |
EP (1) | EP3616044B1 (zh) |
CN (1) | CN110678837A (zh) |
WO (1) | WO2018200105A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021185109A1 (zh) * | 2020-03-19 | 2021-09-23 | 中山大学 | Kubernetes用户态应用中基于虚拟文件系统的小文件存储优化系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100094817A1 (en) * | 2008-10-14 | 2010-04-15 | Israel Zvi Ben-Shaul | Storage-network de-duplication |
US8156306B1 (en) * | 2009-12-18 | 2012-04-10 | Emc Corporation | Systems and methods for using thin provisioning to reclaim space identified by data reduction processes |
US20120136841A1 (en) * | 2010-11-27 | 2012-05-31 | Gopakumar Ambat | System and method for application aware de-duplication of data blocks on a virtualized storage array |
US8612702B1 (en) * | 2009-03-31 | 2013-12-17 | Symantec Corporation | Systems and methods for performing optimized backups of multiple volumes |
CN103763362A (zh) * | 2014-01-13 | 2014-04-30 | 西安电子科技大学 | 一种安全的分布式重复数据删除方法 |
US20150193169A1 (en) * | 2014-01-08 | 2015-07-09 | Netapp, Inc. | Global in-line extent-based deduplication |
US9460102B1 (en) * | 2013-12-26 | 2016-10-04 | Emc Corporation | Managing data deduplication in storage systems based on I/O activities |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8849767B1 (en) * | 2005-04-13 | 2014-09-30 | Netapp, Inc. | Method and apparatus for identifying and eliminating duplicate data blocks and sharing data blocks in a storage system |
US8898119B2 (en) * | 2010-12-15 | 2014-11-25 | Netapp, Inc. | Fingerprints datastore and stale fingerprint removal in de-duplication environments |
US8600949B2 (en) * | 2011-06-21 | 2013-12-03 | Netapp, Inc. | Deduplication in an extent-based architecture |
US8521704B2 (en) * | 2011-09-30 | 2013-08-27 | Symantec Corporation | System and method for filesystem deduplication using variable length sharing |
WO2013085519A1 (en) * | 2011-12-08 | 2013-06-13 | Empire Technology Development, Llc | Storage discounts for allowing cross-user deduplication |
US9348538B2 (en) * | 2012-10-18 | 2016-05-24 | Netapp, Inc. | Selective deduplication |
US9262430B2 (en) * | 2012-11-22 | 2016-02-16 | Kaminario Technologies Ltd. | Deduplication in a storage system |
US9449011B1 (en) * | 2012-12-28 | 2016-09-20 | Emc Corporation | Managing data deduplication in storage systems |
US9377953B2 (en) * | 2014-04-23 | 2016-06-28 | Netapp, Inc. | Efficiency sets in a distributed system |
WO2016046911A1 (ja) * | 2014-09-24 | 2016-03-31 | 株式会社日立製作所 | ストレージシステム及びストレージシステムの管理方法 |
US10496626B2 (en) * | 2015-06-11 | 2019-12-03 | EB Storage Systems Ltd. | Deduplication in a highly-distributed shared topology with direct-memory-access capable interconnect |
US10983732B2 (en) * | 2015-07-13 | 2021-04-20 | Pure Storage, Inc. | Method and system for accessing a file |
JP6708948B2 (ja) * | 2016-01-21 | 2020-06-10 | 日本電気株式会社 | ブロックストレージ |
US10169365B2 (en) * | 2016-03-02 | 2019-01-01 | Hewlett Packard Enterprise Development Lp | Multiple deduplication domains in network storage system |
US11182344B2 (en) * | 2016-03-14 | 2021-11-23 | Vmware, Inc. | File granular data de-duplication effectiveness metric for data de-duplication |
US20180074745A1 (en) * | 2016-09-12 | 2018-03-15 | International Business Machines Corporation | Managing Volumes with Deduplication using Volume Sketches |
US10001942B1 (en) * | 2016-12-21 | 2018-06-19 | Netapp Inc. | Asynchronous semi-inline deduplication |
US10417202B2 (en) * | 2016-12-21 | 2019-09-17 | Hewlett Packard Enterprise Development Lp | Storage system deduplication |
-
2017
- 2017-04-28 US US15/581,512 patent/US10684786B2/en active Active
-
2018
- 2018-03-23 WO PCT/US2018/023950 patent/WO2018200105A1/en active Application Filing
- 2018-03-23 EP EP18719337.0A patent/EP3616044B1/en active Active
- 2018-03-23 CN CN201880035226.1A patent/CN110678837A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100094817A1 (en) * | 2008-10-14 | 2010-04-15 | Israel Zvi Ben-Shaul | Storage-network de-duplication |
US8612702B1 (en) * | 2009-03-31 | 2013-12-17 | Symantec Corporation | Systems and methods for performing optimized backups of multiple volumes |
US8156306B1 (en) * | 2009-12-18 | 2012-04-10 | Emc Corporation | Systems and methods for using thin provisioning to reclaim space identified by data reduction processes |
US20120136841A1 (en) * | 2010-11-27 | 2012-05-31 | Gopakumar Ambat | System and method for application aware de-duplication of data blocks on a virtualized storage array |
US9460102B1 (en) * | 2013-12-26 | 2016-10-04 | Emc Corporation | Managing data deduplication in storage systems based on I/O activities |
US20150193169A1 (en) * | 2014-01-08 | 2015-07-09 | Netapp, Inc. | Global in-line extent-based deduplication |
CN103763362A (zh) * | 2014-01-13 | 2014-04-30 | 西安电子科技大学 | 一种安全的分布式重复数据删除方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021185109A1 (zh) * | 2020-03-19 | 2021-09-23 | 中山大学 | Kubernetes用户态应用中基于虚拟文件系统的小文件存储优化系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2018200105A1 (en) | 2018-11-01 |
EP3616044A1 (en) | 2020-03-04 |
US20180314452A1 (en) | 2018-11-01 |
EP3616044B1 (en) | 2023-05-24 |
US10684786B2 (en) | 2020-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10909110B1 (en) | Data retrieval from a distributed data storage system | |
KR102007070B1 (ko) | 메모리 관리 시의 중복 제거를 위해서 기준 세트로 기준 블록을 취합하는 기법 | |
US10620852B2 (en) | Push-based piggyback system for source-driven logical replication in a storage environment | |
US9792306B1 (en) | Data transfer between dissimilar deduplication systems | |
US9182921B2 (en) | Method and system for providing substantially constant-time execution of a copy operation | |
US8402250B1 (en) | Distributed file system with client-side deduplication capacity | |
US7685459B1 (en) | Parallel backup | |
US7478113B1 (en) | Boundaries | |
JP4263477B2 (ja) | 共通デジタルシーケンスを識別するシステム | |
US8112463B2 (en) | File management method and storage system | |
US8874520B2 (en) | Processes and methods for client-side fingerprint caching to improve deduplication system backup performance | |
US10459886B2 (en) | Client-side deduplication with local chunk caching | |
US9917894B2 (en) | Accelerating transfer protocols | |
US8768901B1 (en) | Method and apparatus for selectively storing blocks of data on a server | |
US10558547B2 (en) | Methods for proactive prediction of disk failure in a RAID group and devices thereof | |
CN110389859B (zh) | 用于复制数据块的方法、设备和计算机程序产品 | |
WO2013152057A1 (en) | Cache management | |
US20160012070A1 (en) | Methods for managing a request to list previous versions of an object and devices thereof | |
US20160139996A1 (en) | Methods for providing unified storage for backup and disaster recovery and devices thereof | |
US20160044077A1 (en) | Policy use in a data mover employing different channel protocols | |
WO2013058747A1 (en) | Index for deduplication | |
US9342524B1 (en) | Method and apparatus for single instance indexing of backups | |
CN110678837A (zh) | 用于对数据块执行全局重复数据删除的方法及其装置 | |
US8464097B1 (en) | Method and apparatus for efficiently creating backup files with less redundancy | |
US20180246666A1 (en) | Methods for performing data deduplication on data blocks at granularity level and devices thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200110 |