CN103262066B - 有效存储分层 - Google Patents

有效存储分层 Download PDF

Info

Publication number
CN103262066B
CN103262066B CN201180063279.2A CN201180063279A CN103262066B CN 103262066 B CN103262066 B CN 103262066B CN 201180063279 A CN201180063279 A CN 201180063279A CN 103262066 B CN103262066 B CN 103262066B
Authority
CN
China
Prior art keywords
target tier
active layer
section
layer level
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201180063279.2A
Other languages
English (en)
Other versions
CN103262066A (zh
Inventor
W.W.苏
T.徐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
EMC Corp
Original Assignee
EMC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by EMC Corp filed Critical EMC Corp
Publication of CN103262066A publication Critical patent/CN103262066A/zh
Application granted granted Critical
Publication of CN103262066B publication Critical patent/CN103262066B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • G06F11/1453Management of the data involved in backup or backup restore using de-duplication of the data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1744Redundancy elimination performed by the file system using compression, e.g. sparse files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/185Hierarchical storage management [HSM] systems, e.g. file migration or policies thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0608Saving storage space on storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/064Management of blocks
    • G06F3/0641De-duplication techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0646Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
    • G06F3/0647Migration mechanisms
    • G06F3/0649Lifecycle management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0683Plurality of storage devices
    • G06F3/0685Hybrid storage combining heterogeneous device types, e.g. hierarchical storage, hybrid arrays

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

用于将数据从源层级转移到目标层级的方法、制造产品和设备。在一些实施例中,这可包括将源层级中存储的对象分为多个段、确定目标层级是否缺失至少一个段、将缺失段写入目标层级以及从源层级中删除对象。在一些实施例中,更新对象的元数据以指示该对象在目标层级中。

Description

有效存储分层
相关申请的交叉引用
本申请要求2010年12月31提交的共同待决的美国专利申请No.12/983281“EFFICIENT STORAGE TIERING”的优先权,为了所有目的,通过引用将其结合到本文中。本申请还涉及:共同待决美国专利申请No.12/983282“STORAGE TIERING WITH SIMILARSEGMENTS”,2010年12月31日提交,为了所有目的,通过引用将其结合到本文中;以及共同待决美国专利申请No.12/983285“POLICY BASED STORAGE TIERING”,2010年12月31日提交,为了所有目的,通过引用将其结合到本文中。
技术领域
一般来说,本发明涉及数据系统,以及更具体来说,涉及存储数据的系统和方法。
背景技术
典型数据系统可具有多层级存储。高层级存储装置可包括提供更快访问时间和其它有益效果的高性能盘。低层级存储装置可包括能够廉价存储数据的普通盘。
分层存储一般增强数据系统的效率。例如,并非频繁地访问所有文件。频繁访问的文件可存储在较高层级存储上,以便允许快速访问。不频繁访问的文件因经济原因而可存储在较低层级存储。
去重复可进一步增强数据系统的效率。去重复一般涉及仅存储数据的单个实例或者数据的一段。由于许多文件可共享公共数据段,所以对存储的一个或多个层级执行去重复可潜在地产生大量盘节省。
文件通常不会在同一层级停留延长的时间段。一些文件可失去重要性,从而使它们被移动到较低层级存储。类似地,一些文件可获得重要性,从而使它们被移动到较高层级存储。遗憾地是,在不同层级之间移动文件或数据涉及移动整个文件或数据。这引起通过去重复所提供的效率的损失。
因此,需要用于保护和访问数据系统中的数据的改进方法、制造产品和设备。
附图说明
通过以下结合附图的详细描述,将易于理解本发明,附图中,相似参考标号表示相似结构元件,以及附图包括:
图1是按照一些实施例的数据系统的简图。
图2是按照一些实施例、将数据从源层级转移到目标层级的方法的流程图。
图3是按照一些实施例、将数据从源层级转移到目标层级的方法的流程图。
图4是按照一些实施例、将数据从源层级转移到目标层级的方法的流程图。
具体实施方式
下面连同附图一起提供本发明的一个或多个实施例的详细描述,附图示出本发明的原理。虽然结合这样实施例来描述本发明,但是应当理解,本发明并不局限于任一个实施例。相反,本发明的范围仅由权利要求书来限制,并且本发明包含许多备选、修改和等效方案。为了举例说明,在以下描述中提出大量具体细节,以便提供对本发明的透彻理解。为了便于举例而提供这些细节,以及本发明可在没有这些具体细节的部分或全部的情况下按照权利要求书来实施。为了清楚起见,没有详细描述与本发明相关的技术领域中已知的技术资料,以免不必要地混淆本发明。
应当理解,本发明能够通过许多方式来实现,包括作为过程、设备、系统、装置、方法或者诸如包含计算机可读指令或计算机程序代码的计算机可读存储介质之类的计算机可读介质,或者作为计算机程序产品(包括其中包含计算机可读程序代码的计算机可用介质)来实现。在本公开的上下文中,计算机可用介质或计算机可读介质可以是能够包含或存储供指令执行系统、设备或装置使用的或者与其结合使用的程序的任何介质。例如,计算机可读存储介质或计算机可用介质非限制性地可以是随机存取存储器(RAM)、只读存储器(ROM)或者永久存储,例如大容量存储装置、硬盘驱动器、CDROM、DVDROM、带、可擦可编程只读存储器(EPROM或闪速存储器),或者用于存储信息的任何磁、电磁、红外线、光或电部件系统、设备或装置。作为替代或补充,计算机可读存储介质或计算机可用介质可以是这些装置的任意组合或者甚至是可在其上打印程序代码的纸张或者另一种适当介质,因为程序代码能够经由例如对纸张或其它介质的光学扫描而以电子方式来捕捉,然后编辑、解释或者根据需要以适当方式另外来处理,并且然后存储在计算机存储器中。应用、软件程序或计算机可读指令可称作组件或模块。应用可通过硬件来硬连线或硬编码或者采取运行于通用计算机的软件的形式,或者通过硬件来硬连线或硬编码,使得当软件加载到计算机中和/或由计算机运行时,计算机成为用于实施本发明的设备。应用还可通过使用实现本发明的创建和实现的软件开发包或工具包整体或部分下载。在本说明书中,这些实现或者本发明可采取的任何其它形式可称作技术。一般来说,所公开过程的步骤的顺序在本发明的范围之内可以改变。
将参照配置成存储文件的数据系统来描述本发明的实施例,但是应当理解,本发明的原理并不局限于数据系统。它们而是可适用于能够存储和处理采取模拟、数字或者其它形式的各种类型的对象的任何系统。虽然作为举例可使用诸如“文档”、“文件”、“对象”等的术语,但是本发明的原理并不局限于表示和存储数据或其它信息的任何具体形式;它们而是同样可适用于能够表示信息的任何对象。
常规数据系统通常基于诸如性能和可用性等等的存储要求,使用分层来区分数据。数据存储在适当的并且最小费用的层级上。通常通过使用空间约简、例如去重复和压缩等等,来降低存储成本。在常规数据系统中移动文件通常是昂贵的操作。这通常涉及从第一层级读取数据,并且将文件写在第二层级上。这些移动通常失去了空间约简技术的有益效果,并且根据文件的大小,可花费大量资源,例如网络带宽和服务器处理容量等等。本文所述的增强技术允许数据从一个层级移动到另一层级,同时保持空间约简技术的有益效果。
图1示出按照一些实施例的数据系统。数据系统10包含客户端100、云102、性能层级104和归档层级106。客户端100经由云102访问性能层级104或归档层级106上存储的数据。性能层级104包含对性能和可用性经过优化的设备(例如盘驱动器、网络设备、处理器等)。归档层级106包含对经济地存储数据经过优化的设备。云102是客户端100连接到性能层级104和归档层级106所借助的介质(例如因特网、公司内联网等)。
虽然图1示出一个客户端、云和两个层级,但是应当注意,本文所述的增强技术同样可适用于大量数据系统。例如,多个客户端可直接连接到单个存储层级(例如没有因特网或网络)。多个客户端还可连接到若干存储层级。在一些实施例中,第一存储层级可直接连接到第二存储层级,以及客户端可以不知道第二存储层级。
在一些实施例中,性能层级104和归档层级106各可经过去重复。为了说明,假定文件A由段1、2和3组成,文件B由段3、4和5组成,以及文件C由段1、3和5组成。还假定文件A和B存储在性能层级104上,以及文件C存储在归档层级106上。性能层级104仅具有段1、2、3、4和5的一个副本而不是段1、2、3、3(重复)、4和5,同时归档层级106具有段1、3和5。如果文件A将要移动到归档层级106(可能由于失去重要性、不活动性等),则可能确定归档层级106已经具有段1和3。这样,只有段2需要从性能层级104转移到归档层级106而不是段1、2、3需要从性能层级104转移到归档层级106。在将文件A移动到归档层级106的同时,保持去重复的有益效果。
图2示出按照一些实施例、将数据从源层级转移到目标层级的方法。步骤200中,源层级中存储的对象分为多个段。在步骤202,确定目标层级是否缺失至少一个段。应当注意,全部多个段可以不是都在目标层级中,多个段的至少一个可在目标层级中,或者全部多个段可在目标层级中。在步骤204,将缺失段发送到或写入目标层级。这可以是0段、多个段的每个或者多个段的至少一个。在步骤206,从源层级中删除对象。可更新元数据以指示文件从源层级已经移动到目标层级。在一些实施例中,更新元数据可包括检查文件自其写入目标层级以来在源层级中是否已经改变(例如删除、更新等),并且仅当文件尚未改变时才更新元数据。
段索引可用于确定段是否已经存在于目标中。例如,如果归档层级106具有文件C,则其段索引指示段1、3和5。在将文件移动到归档层级106时,将索引与移动文件所需的段进行比较。如果移动文件所需的段出现在段索引上,则可能忽略该段的转移。
在一些实施例中,标识符或指纹可基于段的内容(例如哈希值)来指配给段。段索引还可使用指纹来对指纹的关联段进行索引。在一些实施例中,可通过向目标层级发送段的指纹,并且查找每个指纹的目标层级的段索引,来实现检查目标层级是否已经包含段。
在一些实施例中,检验文件被正确写入目标层级会是优选的。例如,检验可包括读取文件,计算校验和,并且将它与源层级中存储的文件的校验和进行比较。一旦已经检验文件,则可从源层级中删除该文件。
策略可用于选择哪些文件需要移动到不同层级以及在要求这种移动时要将文件移动到哪一层级。例如,策略可规定,在某个时间量期间尚未修改或访问的某种类型的文件应当移动到较低层级。类似地,策略可规定,频繁访问的某个用户的文件应当移动到较高层级。
文件可按照多种方式来分段。例如,在一些实施例中,文件可基于文件的内容通过对文件应用哈希函数来分为段。
在一些实施例中,与源层级中的段相似的段可驻留在目标层级中。确定目标层级是否包含源层级中的段可包括识别目标层级中的相似段,添加对相似段的引用,并且将该段与相似段之间的差存储在目标层级中。
在一些实施例中,源层级和目标层级可利用不同的去重复技术或压缩方法。例如,源层级可将文件分为1 MB段,而目标层级可将文件分为2 MB段。在这些情况下,源层级中的文件可使用目标层级所利用的技术来再分段。然后可将源层级与目标层级进行比较,以及如果源层级上的任一段(通过目标层级利用的技术所创建的段)不在目标层级中,则将那些段转移到目标层级。源层级无需存储通过目标层级利用的技术所创建的段。
在一些实施例中,段可压缩地存储在源层级中,并且可按照压缩格式发送给目标层级。可使用各种压缩算法,例如Lempel-Ziv算法等等。与以上所述相似,源层级和目标层级可利用不同的压缩算法。在这类情况下,向目标层级发送段可包括使用源层级压缩算法来对段进行解压缩,并且使用目标层级压缩算法再压缩该段。
图3示出按照一些实施例、将数据从源层级转移到目标层级的方法。步骤300中,源层级中存储的对象分为多个段。在步骤302,确定目标层级是否具有与多个段相似的段。在步骤304,添加对相似段的引用。在步骤306,将相似段与多个段之间的差写入目标中。
图4示出按照一些实施例、将数据从源层级转移到目标层级的方法。在步骤400,将策略应用于源层级中的对象。在步骤402,基于策略来确定目标层级。在步骤404,对象基于策略来移动到目标。
为了清楚起见,采用特定流程说明了本文的过程和方法,但是应当理解,其它序列可以是可能的,并且一部分可并行执行,而没有背离本发明的精神。另外,步骤可经过细分或组合。如本文所述,按照本发明所编写的软件可存储在诸如存储器或CD-ROM之类的某种形式的计算机可读介质中,或者通过网络来传送,并且由处理器运行。
预计本文所述的所有参考文献通过引用来结合。虽然以上根据具体实施例描述了本发明,但是预计对本发明的变更和修改将无疑是本领域的技术人员显而易见的,可在所附权利要求书的范围和等效方面之内实施。例如通过采用并行或者负荷共享布置使用多个计算机,或者将任务分布于多个计算机,使得它们作为整体执行本文所确认的组件的功能、即它们代替单个计算机而可使用一个以上计算机。以上所述的各种功能可通过单个过程或者成组的过程在单个计算机上执行或者分布于若干计算机。过程可调用其它过程以处理某些任务。可使用单个存储装置,或者若干存储装置可用于代替单个存储装置。本实施例将被理解为说明性而不是限制性的,并且本发明并不局限于本文所述细节。因此,本公开和以下权利要求书预计被理解为涵盖落入本发明的真正精神和范围之内的所有这类变更和修改。

Claims (18)

1.一种用于将数据从源层级转移到目标层级的方法,包括:
将所述源层级中存储的对象分为多个段;
确定所述目标层级是否缺失所述段中的至少一个;
将缺失段写入所述目标层级并防止未被确定将在所述目标层级处缺失的一个或多个段被写入所述目标层级;以及
从所述源层级中删除所述对象,
其中与存储在所述源层级中的数据相比,较不频繁地访问存储在所述目标层级中的数据,以及
其中所述源层级和所述目标层级使用去重复。
2.如权利要求1所述的方法,还包括更新所述对象的元数据以指示所述对象在所述目标层级中。
3.如权利要求1所述的方法,还包括检验所述对象被写入所述目标层级。
4.如权利要求1所述的方法,其中,所述源层级使用第一段技术,以及所述目标层级使用第二段技术。
5.如权利要求4所述的方法,还包括使用所述第一段技术来重组所述对象,并且使用所述第二段技术来划分重组的对象。
6.如权利要求1所述的方法,还包括按照目标层级压缩技术来压缩写入的段。
7.一种用于转移数据的系统,包括源层级、目标层级和处理器,配置成用于:
将所述源层级中存储的对象分为段;
确定所述目标层级是否缺失所述段中的至少一个;
将缺失段写入所述目标层级并防止未被确定将在所述目标层级处缺失的一个或多个段被写入所述目标层级;以及
从所述源层级中删除所述对象,
其中与存储在所述源层级中的数据相比,较不频繁地访问存储在所述目标层级中的数据,以及
其中所述源层级和所述目标层级使用去重复。
8.如权利要求7所述的系统,所述处理器还配置成更新所述对象的元数据以指示所述对象在所述目标层级中。
9.如权利要求7所述的系统,所述处理器还配置成检验所述对象被写入所述目标层级。
10.如权利要求7所述的系统,其中,所述源层级使用第一段技术,以及所述目标层级使用第二段技术。
11.如权利要求10所述的系统,所述处理器还配置成使用所述第一段技术来重组所述对象,并且使用所述第二段技术来划分重组的对象。
12.如权利要求7所述的系统,所述处理器还配置成按照目标层级压缩技术来压缩写入的段。
13.一种设备,包括:
用于将源层级中存储的对象分为段的装置;
用于确定目标层级是否缺失所述段中的至少一个的装置;
用于将缺失段写入所述目标层级并防止未被确定将在所述目标层级处缺失的一个或多个段被写入所述目标层级的装置;以及
用于从所述源层级中删除所述对象的装置,
其中与存储在所述源层级中的数据相比,较不频繁地访问存储在所述目标层级中的数据,以及
其中所述源层级和所述目标层级使用去重复。
14.如权利要求13所述的设备,还包括用于更新所述对象的元数据以指示所述对象在所述目标层级中的装置。
15.如权利要求13所述的设备,还包括用于检验所述对象被写入所述目标层级的装置。
16.如权利要求13所述的设备,其中,所述源层级使用第一段技术,以及所述目标层级使用第二段技术。
17.如权利要求16所述的设备,还包括用于使用所述第一段技术来重组所述对象的装置,以及用于使用所述第二段技术来划分重组的对象的装置。
18.如权利要求13所述的设备,还包括用于按照目标层级压缩技术来压缩写入的段的装置。
CN201180063279.2A 2010-12-31 2011-12-23 有效存储分层 Active CN103262066B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/983281 2010-12-31
US12/983,281 US9280550B1 (en) 2010-12-31 2010-12-31 Efficient storage tiering
PCT/US2011/067145 WO2012092179A2 (en) 2010-12-31 2011-12-23 Efficient storage tiering

Publications (2)

Publication Number Publication Date
CN103262066A CN103262066A (zh) 2013-08-21
CN103262066B true CN103262066B (zh) 2018-01-02

Family

ID=46383822

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180063279.2A Active CN103262066B (zh) 2010-12-31 2011-12-23 有效存储分层

Country Status (4)

Country Link
US (2) US9280550B1 (zh)
EP (1) EP2659391A4 (zh)
CN (1) CN103262066B (zh)
WO (1) WO2012092179A2 (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101943988B1 (ko) 2012-07-27 2019-01-31 삼성전자주식회사 컨텐트 전송 방법 및 시스템, 기기와 그 기록 매체
WO2015017147A1 (en) 2013-07-29 2015-02-05 Silicon Graphics International Corp. I/o acceleration in hybrid storage
US10795859B1 (en) 2017-04-13 2020-10-06 EMC IP Holding Company LLC Micro-service based deduplication
US10795860B1 (en) 2017-04-13 2020-10-06 EMC IP Holding Company LLC WAN optimized micro-service based deduplication
US10359960B1 (en) * 2017-07-14 2019-07-23 EMC IP Holding Company LLC Allocating storage volumes between compressed and uncompressed storage tiers
US11461269B2 (en) 2017-07-21 2022-10-04 EMC IP Holding Company Metadata separated container format
US10949088B1 (en) 2017-07-21 2021-03-16 EMC IP Holding Company LLC Method or an apparatus for having perfect deduplication, adapted for saving space in a deduplication file system
US10936543B1 (en) 2017-07-21 2021-03-02 EMC IP Holding Company LLC Metadata protected sparse block set for SSD cache space management
US10459633B1 (en) 2017-07-21 2019-10-29 EMC IP Holding Company LLC Method for efficient load balancing in virtual storage systems
US10860212B1 (en) 2017-07-21 2020-12-08 EMC IP Holding Company LLC Method or an apparatus to move perfect de-duplicated unique data from a source to destination storage tier
US11113153B2 (en) 2017-07-27 2021-09-07 EMC IP Holding Company LLC Method and system for sharing pre-calculated fingerprints and data chunks amongst storage systems on a cloud local area network
US10481813B1 (en) 2017-07-28 2019-11-19 EMC IP Holding Company LLC Device and method for extending cache operational lifetime
US10929382B1 (en) 2017-07-31 2021-02-23 EMC IP Holding Company LLC Method and system to verify integrity of a portion of replicated data
US10783119B2 (en) 2017-08-08 2020-09-22 Seagate Technology Llc Fixed record media conversion with data compression and encryption
US11093453B1 (en) 2017-08-31 2021-08-17 EMC IP Holding Company LLC System and method for asynchronous cleaning of data objects on cloud partition in a file system with deduplication
US11269850B2 (en) * 2017-09-29 2022-03-08 Comcast Cable Communications, Llc Methods and systems for repairing recorded content
US10795825B2 (en) * 2018-12-26 2020-10-06 Advanced Micro Devices, Inc. Compressing data for storage in cache memories in a hierarchy of cache memories
US10936233B2 (en) * 2019-01-31 2021-03-02 EMC IP Holding Company, LLC System and method for optimal order migration into a cache based deduplicated storage array
US11681454B2 (en) 2020-09-04 2023-06-20 Cohesity, Inc. Efficiently storing data in a cloud storage
US11842060B2 (en) * 2020-09-04 2023-12-12 Cohesity, Inc. Efficiently storing data in a cloud storage
US20220283911A1 (en) * 2021-03-05 2022-09-08 EMC IP Holding Company LLC Method or apparatus to reconstruct lost data and metadata

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5915252A (en) * 1996-09-30 1999-06-22 International Business Machines Corporation Object oriented framework mechanism for data transfer between a data source and a data target
US6574657B1 (en) * 1999-05-03 2003-06-03 Symantec Corporation Methods and apparatuses for file synchronization and updating using a signature list
CN101233515A (zh) * 2005-08-17 2008-07-30 国际商业机器公司 把包括工作文件的集合保持在随机访问介质的存储池中

Family Cites Families (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0706686B1 (en) * 1993-07-01 1998-10-14 Legent Corporation System and method for distributed storage management on networked computer systems
US7092956B2 (en) * 2001-11-02 2006-08-15 General Electric Capital Corporation Deduplication system
US6928526B1 (en) * 2002-12-20 2005-08-09 Datadomain, Inc. Efficient data storage system
US20050004954A1 (en) * 2003-07-01 2005-01-06 Hand Held Products, Inc. Systems and methods for expedited data transfer in a communication system using hash segmentation
GB0325626D0 (en) * 2003-11-03 2003-12-10 Infoshare Ltd Data aggregation
US7627619B1 (en) * 2003-12-29 2009-12-01 Emc Corporation Data verification following database write
US20070055583A1 (en) * 2005-07-12 2007-03-08 Davis Barbara N Media package system
US7584338B1 (en) * 2005-09-27 2009-09-01 Data Domain, Inc. Replication of deduplicated storage system
US7949824B2 (en) * 2006-04-11 2011-05-24 Emc Corporation Efficient data storage using two level delta resemblance
JP5082310B2 (ja) 2006-07-10 2012-11-28 日本電気株式会社 データ移行装置及びプログラム
US7417570B2 (en) * 2006-07-31 2008-08-26 Sap Ag Lossless comparative compression and transmission method and system
US7701945B2 (en) * 2006-08-10 2010-04-20 Sourcefire, Inc. Device, system and method for analysis of segments in a transmission control protocol (TCP) session
US8392603B2 (en) * 2006-08-14 2013-03-05 International Business Machines Corporation File transfer
US7516287B2 (en) * 2006-09-28 2009-04-07 Emc Israel Development Center, Ltd. Methods and apparatus for optimal journaling for continuous data replication
US7995759B1 (en) * 2006-09-28 2011-08-09 Netapp, Inc. System and method for parallel compression of a single data stream
JP4951331B2 (ja) * 2006-12-26 2012-06-13 株式会社日立製作所 ストレージシステム
US7672981B1 (en) * 2007-02-28 2010-03-02 Emc Corporation Object classification and indexing of very large name spaces using grid technology
US8768895B2 (en) * 2007-04-11 2014-07-01 Emc Corporation Subsegmenting for efficient storage, resemblance determination, and transmission
US7870409B2 (en) 2007-09-26 2011-01-11 Hitachi, Ltd. Power efficient data storage with data de-duplication
US20090132616A1 (en) * 2007-10-02 2009-05-21 Richard Winter Archival backup integration
US8782368B2 (en) * 2007-10-25 2014-07-15 Hewlett-Packard Development Company, L.P. Storing chunks in containers
US8548953B2 (en) * 2007-11-12 2013-10-01 F5 Networks, Inc. File deduplication using storage tiers
US20090204650A1 (en) 2007-11-15 2009-08-13 Attune Systems, Inc. File Deduplication using Copy-on-Write Storage Tiers
US8126852B1 (en) * 2007-12-07 2012-02-28 Emc Corporation Merged collections
US7814074B2 (en) * 2008-03-14 2010-10-12 International Business Machines Corporation Method and system for assuring integrity of deduplicated data
US7567188B1 (en) * 2008-04-10 2009-07-28 International Business Machines Corporation Policy based tiered data deduplication strategy
US20090276647A1 (en) * 2008-04-30 2009-11-05 Intel Corporation Storage device power consumption state
JP5075761B2 (ja) 2008-05-14 2012-11-21 株式会社日立製作所 フラッシュメモリを用いたストレージ装置
US8108353B2 (en) * 2008-06-11 2012-01-31 International Business Machines Corporation Method and apparatus for block size optimization in de-duplication
US20100082700A1 (en) * 2008-09-22 2010-04-01 Riverbed Technology, Inc. Storage system for data virtualization and deduplication
US8626723B2 (en) * 2008-10-14 2014-01-07 Vmware, Inc. Storage-network de-duplication
US8447740B1 (en) * 2008-11-14 2013-05-21 Emc Corporation Stream locality delta compression
US8751462B2 (en) * 2008-11-14 2014-06-10 Emc Corporation Delta compression after identity deduplication
CA2747661A1 (en) * 2008-12-18 2010-07-15 Copiun, Inc. Methods and apparatus for content-aware data partitioning and data de-duplication
US20100306283A1 (en) 2009-01-28 2010-12-02 Digitiliti, Inc. Information object creation for a distributed computing system
US20100199065A1 (en) * 2009-02-04 2010-08-05 Hitachi, Ltd. Methods and apparatus for performing efficient data deduplication by metadata grouping
US8650545B2 (en) * 2009-02-11 2014-02-11 International Business Machines Corporation File creation utility for deduplication testing
US8805953B2 (en) * 2009-04-03 2014-08-12 Microsoft Corporation Differential file and system restores from peers and the cloud
US8412848B2 (en) 2009-05-29 2013-04-02 Exagrid Systems, Inc. Method and apparatus for content-aware and adaptive deduplication
US8635184B2 (en) 2009-06-25 2014-01-21 Emc Corporation System and method for providing long-term storage for data
US20100332401A1 (en) 2009-06-30 2010-12-30 Anand Prahlad Performing data storage operations with a cloud storage environment, including automatically selecting among multiple cloud storage sites
US9058298B2 (en) * 2009-07-16 2015-06-16 International Business Machines Corporation Integrated approach for deduplicating data in a distributed environment that involves a source and a target
US9141300B2 (en) * 2009-09-22 2015-09-22 Emc Corporation Performance improvement of a capacity optimized storage system using a performance segment storage system and a segment storage system
JP5427533B2 (ja) * 2009-09-30 2014-02-26 株式会社日立製作所 階層ストレージ管理システムにおける重複ファイルの転送方法及びシステム
US9239843B2 (en) * 2009-12-15 2016-01-19 Symantec Corporation Scalable de-duplication for storage systems
US8423737B2 (en) 2009-12-17 2013-04-16 International Business Machines Corporation Systems and methods for virtualizing storage systems and managing data independently
US8370297B2 (en) * 2010-03-08 2013-02-05 International Business Machines Corporation Approach for optimizing restores of deduplicated data
JP5079841B2 (ja) * 2010-04-15 2012-11-21 株式会社日立製作所 ThinProvisioningに従う仮想的な論理ボリュームに対するデータのライトを制御する方法及びストレージ装置
US8463825B1 (en) 2010-04-27 2013-06-11 Tintri Inc. Hybrid file system for virtual machine storage
US8380949B2 (en) 2010-05-20 2013-02-19 International Business Machines Corporation Managing write operations to an extent of tracks migrated between storage devices
US8694703B2 (en) 2010-06-09 2014-04-08 Brocade Communications Systems, Inc. Hardware-accelerated lossless data compression
US8396843B2 (en) * 2010-06-14 2013-03-12 Dell Products L.P. Active file instant cloning
US8396839B1 (en) * 2010-06-25 2013-03-12 Emc Corporation Representing de-duplicated file data
WO2012011153A1 (en) 2010-07-22 2012-01-26 Hitachi, Ltd. Data storage apparatus and data storage control method for the same
US8578108B2 (en) 2010-08-03 2013-11-05 International Business Machines Corporation Dynamic look-ahead extent migration for tiered storage architectures
WO2012030383A1 (en) * 2010-08-31 2012-03-08 Falconstor, Inc. Data deduplication
US8345489B2 (en) 2010-09-02 2013-01-01 International Business Machines Corporation Caching scheme synergy for extent migration between tiers of a storage system
US8555019B2 (en) 2010-09-08 2013-10-08 International Business Machines Corporation Using a migration cache to cache tracks during migration
US9201890B2 (en) 2010-10-04 2015-12-01 Dell Products L.P. Storage optimization manager
US20120095968A1 (en) 2010-10-17 2012-04-19 Stephen Gold Storage tiers for different backup types
US8438139B2 (en) * 2010-12-01 2013-05-07 International Business Machines Corporation Dynamic rewrite of files within deduplication system
US8463981B2 (en) 2010-12-08 2013-06-11 Hitachi, Ltd. Storage apparatus having deduplication unit

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5915252A (en) * 1996-09-30 1999-06-22 International Business Machines Corporation Object oriented framework mechanism for data transfer between a data source and a data target
US6574657B1 (en) * 1999-05-03 2003-06-03 Symantec Corporation Methods and apparatuses for file synchronization and updating using a signature list
CN101233515A (zh) * 2005-08-17 2008-07-30 国际商业机器公司 把包括工作文件的集合保持在随机访问介质的存储池中

Also Published As

Publication number Publication date
US10042855B2 (en) 2018-08-07
US9280550B1 (en) 2016-03-08
WO2012092179A3 (en) 2013-01-10
CN103262066A (zh) 2013-08-21
EP2659391A4 (en) 2017-06-28
EP2659391A2 (en) 2013-11-06
WO2012092179A2 (en) 2012-07-05
US20160202911A1 (en) 2016-07-14

Similar Documents

Publication Publication Date Title
CN103262066B (zh) 有效存储分层
US9317218B1 (en) Memory efficient sanitization of a deduplicated storage system using a perfect hash function
US9767154B1 (en) System and method for improving data compression of a storage system in an online manner
US9430164B1 (en) Memory efficient sanitization of a deduplicated storage system
KR102007070B1 (ko) 메모리 관리 시의 중복 제거를 위해서 기준 세트로 기준 블록을 취합하는 기법
US10310737B1 (en) Size-targeted database I/O compression
US20170177266A1 (en) Data aware deduplication object storage (dados)
US9430156B1 (en) Method to increase random I/O performance with low memory overheads
US9367448B1 (en) Method and system for determining data integrity for garbage collection of data storage systems
US9367557B1 (en) System and method for improving data compression
US9141633B1 (en) Special markers to optimize access control list (ACL) data for deduplication
US20190171624A1 (en) System and method for balancing compression and read performance in a storage system
JP5735654B2 (ja) 格納データの重複排除方法、格納データの重複排除装置、及び重複排除プログラム
US8631052B1 (en) Efficient content meta-data collection and trace generation from deduplicated storage
US9424185B1 (en) Method and system for garbage collection of data storage systems
CN103279532B (zh) 多集合元素去重并标识所属集合的过滤系统及其方法
US8886901B1 (en) Policy based storage tiering
US8667032B1 (en) Efficient content meta-data collection and trace generation from deduplicated storage
US8489555B2 (en) Method of managing storage and retrieval of data objects
US10614038B1 (en) Inline deduplication of compressed data
US9405761B1 (en) Technique to determine data integrity for physical garbage collection with limited memory
JP6807395B2 (ja) プロセッサ・グリッド内の分散データ重複排除
CN105824881A (zh) 一种基于负载均衡的重复数据删除数据放置方法器
US9189408B1 (en) System and method of offline annotation of future accesses for improving performance of backup storage system
US9087086B1 (en) Method and system for handling object boundaries of a data stream to optimize deduplication

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant