CN110019056B - 用于云层的容器元数据分离 - Google Patents

用于云层的容器元数据分离 Download PDF

Info

Publication number
CN110019056B
CN110019056B CN201810803384.9A CN201810803384A CN110019056B CN 110019056 B CN110019056 B CN 110019056B CN 201810803384 A CN201810803384 A CN 201810803384A CN 110019056 B CN110019056 B CN 110019056B
Authority
CN
China
Prior art keywords
file
remote
metadata
data management
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810803384.9A
Other languages
English (en)
Other versions
CN110019056A (zh
Inventor
F·A·詹金斯
M·卡马特
S·维斯瓦纳森
X·吴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
EMC Corp
Original Assignee
EMC IP Holding Co LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by EMC IP Holding Co LLC filed Critical EMC IP Holding Co LLC
Publication of CN110019056A publication Critical patent/CN110019056A/zh
Application granted granted Critical
Publication of CN110019056B publication Critical patent/CN110019056B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • G06F16/137Hash-based
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/162Delete operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/164File meta data generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments
    • G06F16/1752De-duplication implemented within the file system, e.g. based on file segments based on file chunks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

数据管理设备包括持久存储装置和处理器。持久存储装置包括本地对象存储装置。本地对象存储装置包括本地数据对象、本地元数据对象和远程元数据对象。处理器将文件分割为文件段,对文件段进行重复删除,将经重复删除的文件段存储在远程对象存储装置的远程数据对象中,并将经重复删除的文件段的元数据存储在远程元数据对象的一远程元数据对象中。

Description

用于云层的容器元数据分离
技术领域
本公开的各实施例涉及数据管理领域。
背景技术
计算设备生成、使用和存储数据。数据例如可以是与任何文件相关联的图像、文档、网页或元数据。数据可以本地存储在计算设备的持久存储装置上和/或可以远程存储在另一计算设备的持久存储装置上。
发明内容
在一个方面,根据本发明的一个或多个实施例的数据管理设备包括持久存储装置,其包括本地对象存储装置和处理器。本地对象存储装置包括本地数据对象、本地元数据对象和远程元数据对象。处理器将文件分割为文件段,对文件段进行重复删除(deduplicate),将经重复删除的文件段存储在远程对象存储装置的远程数据对象中,并将经重复删除的文件段的元数据存储在多个远程元数据对象的一远程元数据对象中。
在一个方面,一种操作数据管理设备的方法包括:通过数据管理设备将文件分割为文件段;通过数据管理设备对文件段进行重复删除;通过数据管理设备将经重复删除的文件段存储在另一计算设备的远程对象存储装置的数据对象中;以及通过数据管理设备将经重复删除的文件段的元数据存储在数据管理设备的本地对象存储装置的元数据对象中。
在一个方面,根据本发明的一个或多个实施例的非暂时性计算机可读介质包括计算机可读程序代码,该计算机可读程序代码在由计算机处理器执行时使计算机处理器能够执行用于操作数据管理设备的方法,该方法包括:通过数据管理设备将文件分割为文件段;通过数据管理设备对文件段进行重复删除;通过数据管理设备将经重复删除的文件段存储在另一计算设备的远程对象存储装置的数据对象中;以及通过数据管理设备将经重复删除的文件段的元数据存储在数据管理设备的本地对象存储装置的元数据对象中。
附图说明
将参考附图描述本发明的某些实施例。然而,附图仅通过示例的方式示出了本发明的某些方面或实施方式,而并不意味着对权利要求的范围加以限制。
图1A示出了根据本发明的一个或多个实施例的系统的图。
图1B示出了根据本发明的一个或多个实施例的本地对象存储装置的图。
图1C示出了根据本发明的一个或多个实施例的远程对象存储装置的图。
图2A示出了根据本发明的一个或多个实施例的示例本地数据对象的图。
图2B示出了根据本发明的一个或多个实施例的示例本地元数据对象的图。
图2C示出了根据本发明的一个或多个实施例的元数据的示例的图。
图2D示出了根据本发明的一个或多个实施例的数据关系的图。
图3A示出了根据本发明的一个或多个实施例的文件的图。
图3B示出了根据本发明的一个或多个实施例的文件的文件段与文件之间的关系的图。
图4A示出了根据本发明的一个或多个实施例的将数据存储在对象存储装置中的方法的流程图。
图4B示出了根据本发明的一个或多个实施例的对文件进行分割的方法的流程图。
图4C示出了根据本发明的一个或多个实施例的对文件段进行重复删除的方法的流程图。
图4D示出了根据本发明的一个或多个实施例的将经重复删除的文件段存储在远程对象存储装置的远程数据对象中的方法的流程图。
图4E示出了根据本发明的一个或多个实施例的将远程对象存储装置的远程元数据对象中的经重复删除的文件段的元数据以及远程元数据对象的副本存储在本地对象存储装置中的方法的流程图。
图5A示出了将数据存储在远程对象存储装置中的示例的第一部分。
图5B示出了将数据存储在远程对象存储装置中的示例的第二部分。
图5C示出了将数据存储在远程对象存储装置中的示例的第三部分。
具体实施方式
现在将参照附图详细说明本发明的具体实施例。在以下描述中,会给出众多细节作为本发明的实例。本领域技术人员应理解,可以在没有这些细节的情况下实施本发明的一个或多个实施例,在不脱离本发明范围的前提下,可以做出众多变化或修改。某些细节对于本领域技术人员是熟知的,因此将它们省略以避免使描述模糊。
在以下对附图的说明中,在本发明的多种实施例中参照某个附图说明的任何部件可以等同于参照任何其他附图说明的一个或多个以类似方式命名的部件。为了简洁起见,不会参照每个附图重复说明这些部件。因此,每个附图的部件的每种实施例通过引用结合在此,并假定其可选地存在于具有一个或多个以类似方式命名的部件的每个其他附图中。此外,根据本发明的多种实施例,对附图部件的任何说明应理解为可选的实施例,这种可选的实施例可以是除相对于任何其他附图中以类似方式命名的相应部件说明的实施例之外的实施例,与这些实施例结合实施,或者代替这些实施例。
一般来说,本发明的实施例涉及用于管理数据的系统、设备和方法。更具体来说,所述系统、设备和方法可以减少存储数据所需的存储量。
在本发明的一个或多个实施例中,数据管理设备可以包括对象存储装置。对象存储装置可以存储两种不同类型的对象。第一种类型是存储文件各部分的数据对象。第二种类型是存储关于在数据对象中存储的文件的各部分的信息的元数据对象。关于在对象中存储的文件的部分的信息可以包括文件的各部分的指纹以及在数据对象中存储的文件各部分的大小。
在本发明的一个或多个实施例中,对象存储装置可以是是重复删除存储装置。待存储在对象存储装置中的数据可以在存储之前被重复删除,方式为将待存储的数据分割成文件段,识别出是原先在对象存储装置中存储的文件段的副本的文件段,删除所识别出的副本文件段并将其余的文件段存储在对象存储装置的数据对象中。对应于现在存储的文件段的元数据可以存储在对象存储装置的元数据对象中。在与没有经过重复删除的存储待存储数据所需的存储空间量相比时,移除副本文件段可以减少存储待存储数据所需的存储量。
在本发明的一个或多个实施例中,该对象存储装置可以利用数据管理设备(110)的物理存储装置以及远程存储装置的物理存储装置。该数据管理设备可以可操作地连接至远程存储装置。
在本发明的一个或多个实施例中,数据对象和元数据对象都可以存储在远程存储装置中。另外,在远程存储装置中存储的任何元数据对象的副本可以存在于数据管理设备中。在数据管理设备中存储元数据对象的副本可以减少在执行重复删除或垃圾收集操作时经由在数据管理设备与远程存储装置之间的可操作连接所传输的数据量。
图1示出了根据本发明的一个或多个实施例的系统。该系统可以包括客户端(100),客户端将数据存储在数据管理设备(110)。客户端(100)和数据管理设备(110)可以可操作地彼此连接。数据管理设备(110)可以将来自客户端(100)的数据的一些存储在数据管理设备(110)的本地对象存储装置(130)中并将另一部分数据存储在远程存储装置(170)中。下文将论述系统的每一个组件。
客户端(100)可以是计算设备。计算设备例如可以是移动电话、平板电脑、笔记本电脑、台式电脑、服务器或云资源。计算设备可以包括一个或多个处理器、存储器(例如随机存取存储器)以及持久存储装置(例如,硬盘、固态硬盘等)。持久存储装置可以存储计算机指令例如计算机代码,所述计算机代码在由计算设备的处理器执行时,使得计算设备执行本申请所描述的功能。在不偏离本发明的前提下,客户端(100)可以是其他类型的计算设备。
客户端(100)可以经编程以将数据存储在数据管理设备(110)中。更具体来说,客户端(100)可以将数据发送至数据管理设备(110)进行存储,并且可以请求由数据管理设备(110)所管理的数据。数据管理设备(110)可以存储数据或响应于此类请求而提供所请求的数据。
远程存储装置(170)可以是计算设备。该计算设备例如可以是移动电话、平板电脑、笔记本电脑、台式电脑、服务器或云资源。计算设备可以包括一个或多个处理器、存储器(例如随机存取存储器)以及持久存储装置(例如,硬盘、固态硬盘等)。持久存储装置可以存储计算机指令例如计算机代码,所述计算机代码在由计算设备的处理器执行时,使得计算设备执行本申请所描述的功能。在不脱离本发明的前提下,远程存储装置(170)可以是其他类型的计算设备。
远程存储装置(170)可以经编程以将数据存储在包括远程对象存储装置(172)的持久存储装置(171)中。远程对象存储装置(172)可以与本地对象存储装置(130)相似,下文将详细论述。远程存储装置(170)可以是从存储装置,即由数据管理设备(110)的本地对象存储装置(130)所控制。
在本发明的一个或多个实施例中,远程对象存储装置(172)可以是与本地对象存储装置(130)相同的存储装置。换言之,远程对象存储装置(172)可以是在数据管理设备(110)的持久存储设备和远程存储装置(170)上分布的本地对象存储装置(130)的一部分。
在本发明的一个或多个实施例中,远程对象存储装置(172)可以是由数据管理设备(110)利用的对象存储装置。例如,数据管理设备(110)可以将数据发送至远程存储装置进行存储,远程存储装置可以将数据存储在远程对象存储装置(172)中。
数据管理设备(110)可以是计算设备。该计算设备例如可以是移动电话、平板电脑、笔记本电脑、台式电脑、服务器或云资源。计算设备可以包括一个或多个处理器、存储器(例如随机存取存储器)以及持久存储装置(例如,硬盘、固态硬盘等)。持久存储装置可以存储计算机指令例如计算机代码,所述计算机代码在由计算设备的处理器执行时,使得计算设备执行本申请所描述和至少图4A至图4E中所图示的功能。在不脱离本发明的前提下,数据管理设备(110)可以是其他类型的计算设备。
数据管理设备(110)可以包括持久存储装置(120)和对象生成器(150)。数据管理设备(110)的每一个组件在下文论述。
数据管理设备(110)可以包括持久存储装置(120)。持久存储装置(120)可以包括物理存储设备。物理存储设备例如可以是硬盘、固态硬盘、支持随机存取的磁带或任何其他类型的持久存储介质。持久存储装置(120)可以包括任何数量和/或组合的物理存储设备。
持久存储装置(120)可以包括用于存储来自客户端(100)的数据的本地对象存储装置(130)。如此处所使用,对象存储装置是将数据作为对象管理的数据存储架构。每一个对象可以包括用于在该对象中存储数据的数个字节。在本发明的一个或多个实施例中,对象存储装置不包括文件系统。而是,可以使用命名空间(125)来组织在对象存储装置中存储的数据。关于本地对象存储装置(130)的其他细节,见图1B。
持久存储装置(120)可以包括命名空间(125)。命名空间(125)可以是存储在持久存储装置(120)的物理存储设备上的数据结构,用于组织物理存储设备的数据存储资源。
在本发明的一个或多个实施例中,命名空间(125)可以将文件与在持久存储装置中存储的文件菜单(file recipe)相关联。文件菜单可以用于使用在本地对象存储装置(130)中存储的文件段来生成在本地对象存储装置(130)中存储的文件。每一个文件菜单可以包括使得数个文件段从对象存储装置中被提取的信息。然后所提取的文件段可以用于生成在对象存储装置中存储的文件。关于文件段的其他细节,请见图2A、图3A和图3B。
尽管图示为对象存储装置,在不脱离本发明的前提下,持久存储装置(120)可以主控其他存储架构。例如,持久存储装置(120)可以主控包括组织持久存储装置(120)的物理存储资源的模块集的文件系统。该模块集可以使用任何方法组织持久存储装置(120)的物理存储资源。
该数据管理设备可以包括对象生成器(150)。对象生成器(150)可以生成在本地对象存储装置(130)中存储的对象。对象生成器(150)可以生成不同类型的对象。更具体来说,对象生成器(150)可以生成存储文件段的数据对象以及存储关于在数据对象中存储的文件段的元数据对象。关于在数据对象和元数据对象的其他细节,请见图2A至图2D。
此外,在本发明的一个或多个实施例中,可以使用不同的存储架构来组织数据管理设备(110)的持久存储装置(120)和远程存储装置的持久存储装置(171)。例如,远程存储装置(170)的持久存储装置(171)可以主控对象存储装置,同时数据管理设备(110)的持久存储装置(120)可以主控不同的文件系统诸如NSTF、HPFS、FAT或组织持久存储装置(120)的物理资源的任何其他类型的文件系统。
在本发明的一个或多个实施例中,对象生成器(150)可以是物理设备。所述物理设备可以包括电路。所述物理设备例如可以是场可编程门阵列、特殊应用集成电路、可编程处理器、微控制器、数字信号处理器或其他硬件处理器。所述物理设备可以调试以提供在本申请中所描述的功能并执行在图4A至图4E中所示的方法。
在本发明的一个或多个实施例中,对象生成器(150)可以实施为存储在持久存储装置上的计算机指令例如计算机代码,所述计算机指令在由数据管理设备(110)的处理器执行时使得数据管理设备(110)提供本申请所描述的功能并执行在图4A至图4E中所示的方法。
如上所论述,对象生成器(150)可以生成对象。对象可以存储在本地对象存储装置(130)或远程对象存储装置(172)中。图1B示出了根据本发明的一个或多个实施例的本地对象存储装置(130)的图示。本地对象存储装置(130)可以是将所存储的数据组织成对象的数据结构。
在本发明的一个或多个实施例中,本地对象存储装置(130)可以包括对象(131),对象(131)包括本地数据对象(132A)、本地元数据对象(133A)以及远程元数据对象(134A)的副本。本地数据对象(132A),其包括本地数据对象A(132B)至本地数据对象N(132N),可以包括在数据管理设备的持久存储装置中存储的文件段。本地元数据对象(133A),其包括本地元数据对象A(133B)至本地元数据对象N(133N),可以包括关于在本地数据对象(132A)中存储的文件段的元数据。远程元数据对象(134A)的副本,其包括远程元数据对象A(134B)的副本至远程元数据对象N(134N)的副本,可以包括关于在远程对象存储装置的远程数据对象中存储的文件段的元数据。
图1C示出了根据本发明的一个或多个实施例的远程对象存储装置(172)的图示。远程对象存储装置(172)可以存储在对象(173)中包括的远程数据对象(174A)中的文件段以及在远程元数据对象(175A)中的前述文件段的元数据,远程数据对象(174A)包括远程数据对象A(174B)至远程数据对象N(174N),远程元数据对象(175A)包括远程元数据对象A(175B)至远程元数据对象N(175N)。
如上所论述,文件段和与文件段关联的元数据可以存储成不同类型的对象。图2A和图2B示出了根据本发明实施例的对象的图示。尽管图2A和图2B是参照本地数据对象和本地元数据对象做出的,但远程数据对象和远程元数据对象可以是相同的结构。
图2A示出了根据本发明的一个或多个实施例的数据对象的实例。本地数据对象A(132B)可以包括识别符(200)、压缩区域描述(205)以及压缩区域(210A)。
识别符(200)可以是名称、位序列或用于识别该数据对象的其他信息。识别符(200)可以独一地将数据与来自本地对象存储装置的其他对象区别开来。
压缩区域描述(205)可以包括关于压缩区域(210A)的描述信息。压缩区域描述(205)可以包括使得在压缩区域(210A)中存储的文件段被读取的信息。压缩区域描述(205)可以包括例如说明在压缩区域中存储的每一个文件段的开头、每一个文件段的长度和/或每一个文件段的末尾的信息。在不脱离本发明的前提下,压缩区域描述(205)可以包括其他信息。
压缩区域(210A)可以包括任何数目的文件段(210B至210N)。压缩区域(210A)的文件段可以集合在一起。压缩区域(210A)可以被压缩。压缩区域(210A)的压缩可以是无损耗压缩。
图2B示出了根据本发明的一个或多个实施例的元数据对象的实例。本地元数据对象A(133B)可以包括识别符(220)、元数据区域描述(225)以及元数据区域(230A)。
识别符(220)可以是名称、位序列或用于识别该数据对象的其他信息。识别符(220)可以独一地识别来自对象存储装置的其他对象的数据。
元数据区域描述(225)可以包括关于元数据区域(230A)的描述信息。元数据区域描述(225)可以包括使得在元数据区域(230A)中存储的文件段元数据被读取的信息。元数据区域描述(225)可以包括例如说明在元数据区域(230A)中存储的每一个文件段元数据的开头、每一个文件段元数据的长度和/或每一个文件段元数据的末尾的信息。在不脱离本发明的前提下,元数据区域描述(225)可以包括其他信息。
元数据区域(230A)可以包括在对象存储装置的一个或多个数据对象中存储的文件段的文件段元数据(230B至230N)。在元数据区域(230A)中存储的文件段元数据可以集成在一起。在本发明的一个或多个实施例中,元数据区域(230A)没有被压缩。
尽管未示出,远程数据对象和远程元数据对象可以是与在图2A和图2B中所示的本地数据对象和本地元数据对象相同的结构。图2A和图2B。更具体而言,远程数据对象可以包括在远程对象存储装置中存储的文件段,远程元数据对象可以包括与在远程对象存储装置中存储的文件段相关联的元数据。
如此处所使用,文件段的元数据指代与该文件段相关联的数据。该数据可以从该文件段导出或可以与该文件段相关联。
图2C示出了根据本发明的一个或多个实施例的文件段元数据的实例。文件段A元数据(230B)包括关于在对象存储装置的数据对象中存储的关联文件段的元数据。文件段A元数据(230B)包括文件段A指纹(250)和文件段A(255)的大小。文件段A元数据(230B)可以包括关联文件段的指纹。文件段A(255)的大小可以说明关联文件段的大小。
如此处所使用,文件段的指纹可以是实质上独一地从在对象存储装置中存储的其他文件段识别出该文件段的位序列。如在此处所使用,实质上独一地意味着,与导致致命失误的其他不可避免的缘由相比,在包括不同数据的两个文件段的各个指纹之间发生碰撞的概率可以忽略不计。在本发明的一个或多个实施例中,概率是10的-20次方(10^-20)或更低。在本发明的一个或多个实施例中,不可避免的致命失误可能由自然力诸如例如飓风所导致。换言之,说明不同数据的任何两个文件段的指纹实质上将是永远不会相同的。
在对象存储装置中存储的文件段的指纹可以用于对文件进行重复删除以便存储在对象存储装置中。为了进一步厘清文件、文件段和指纹之间的关系,图2D、图3A和图3B包括这些关系的图形表示。
更具体来说,图2D示出根据本发明的一个或多个实施例的在元数据的文件段、文件段的元数据和元数据的指纹之间的关系图示。
如从图中可见,在关于在对象存储装置中存储的文件段的元数据与在对象存储装置中存储的文件段之间存在一对一关系。换言之,对于在对象存储装置的数据对象中存储的实例文件段A(271)来说,关联文件段A元数据(270)将会被存储在元数据对象存储装置中。文件段A(271)的单一副本和文件段A元数据(270)将会被存储在对象存储装置中。
此外,如从图2D中所见,在文件段与指纹之间存在一对多关系。更具体来说,不同文件的文件段或同一文件的不同段可以具有相同的指纹。例如,如果第一文件的文件段A(271)和第二文件的文件段B(272)包括相同数据的话,两者可以具有相同的指纹A(275)。
图3A示出了根据本发明的一个或多个实施例的文件(300)的图示。该文件(300)可以包括数据。该数据可以是任何类型的数据,可以是任何格式,可以是任何长度。
图3B设计出该数据的文件(300)的文件段(310-318)的图示。每一个文件段可以包括该文件(300)的独立的相异的部分。所述文件段中的每一个可以是不同但相似的长度。例如,每一个文件段可以包括大约8千字节的数据,例如,第一文件段可以包括8.03千字节的数据,第二文件段可以包括7.96千字节的数据,等。在本发明的一个或多个实施例中,每一个文件段的平均数据量在7.95千字节与8.05千字节之间。可以使用在图4B中所示的方法来将文件分解成文件段。
如上文所论述,数据管理设备(110,图1A)可以从客户端(100,图1A)接收数据来存储。数据管理设备(110,图1A)可以将数据存储在本地对象存储装置(130,图1A)中或远程对象存储装置(172,图1A)中。图4A至图4E示出将数据存储在远程对象存储装置(172,图1A)中的方法的流程图1A。
图4A示出了根据本发明的一个或多个实施例的方法的流程图。可以用于根据本发明一个或多个实施例在远程对象存储装置中存储数据。图4A中所示的方法例如可以通过对象生成器(150,图1A)来执行。在不脱离本发明的前提下,数据管理设备(110)的其他组件或所示系统可以执行在图4A中所示的方法。
在步骤400中,获取文件进行存储。可以通过从客户端接收说明该文件的文件存储请求来获取该文件。
在步骤410中,将该文件分割以获取文件段。可以通过执行在图4B中所示的方法分割该文件来获取文件段。在不脱离本发明的前提下,可以使用不同于在图4B中所示方法的方法来分割该文件获取文件段。
在步骤420中,对所述文件段重复删除。可以使用图4C中所示的方法来对文件段重复删除。在不脱离本发明的前提下,可以使用不同于在图4C中所示的方法来对文件段重复删除。
在步骤430中,经重复删除的文件段被存储在远程对象存储装置的远程数据对象中。可以使用在图4D中所示的方法来将所述文件段存储在远程数据对象中。在不脱离本发明的前提下,可以使用不同于在图4D中所示的方法来将文件段存储在远程数据对象中。
在步骤440中,将经重复删除的文件段的元数据存储在远程对象存储装置的远程元数据对象中,并将远程元数据对象的副本存储在本地对象存储装置中。可以使用在图4E中所示的方法来将经重复删除的文件段的元数据存储在远程元数据对象中,可以将远程元数据对象的副本存储在本地存储装置中。在不脱离本发明的前提下,可以使用不同于在图4C中所示的方法来将经重复删除的文件段的元数据存储在远程元数据对象中并可将远程元数据对象的副本存储在本地存储装置中。
方法可在步骤440之后结束。
图4B示出了根据本发明的一种或多种实施例的方法的流程图。根据本发明一个或多个实施例,图4B中所示的方法可以用于将文件分割成文件段。图4B中所示的方法例如可以通过对象生成器(150,图1A)来执行。在不脱离本发明的前提下,数据管理设备(110)的其他组件或所示系统可以执行在图4B中所示的方法。
在步骤401中,选择文件的未处理窗口。如此处所使用,该文件的一部分的窗口是该文件的预定数目的位。例如,第一窗口可以是文件的前1024个位,第二窗口可以是该文件的从该文件的第二位开始的1024个位,第三窗口可以是从第三位开始的1024个位,等等。该文件的每一个窗口可以看成是处于图4B所示方法的开始阶段,未经处理。
在步骤402中,获取由未处理窗口规定的文件的一部分的散列(hash)。在本发明的一个或多个实施例中,该散列可以是加密散列。在本发明的一个或多个实施例中,加密散列是安全散列算法1(SHA-1)散列。在本发明的一个或多个实施例中,该加密散列是安全散列算法2(SHA-2)或安全散列算法3(SHA-3)散列。在不脱离本发明的前提下,也可以使用其他散列。
在步骤403中,将散列与预定位序列进行比较。如果散列匹配该预定位序列,方法前进至步骤404。如果散列不匹配该预定位序列,方法前进至步骤405。
在本发明一个或多个实施例中,该预定位序列包括与散列相同数目的位。该预定位序列可以是任何位图案。每当将散列与在图4B中所示方法中的位序列进行比较时,可以使用相同的位图案。
在步骤404中,可以基于所选择的未处理窗口来生成分段断点。该分段断点可以规定该文件的一个位。该文件的所述位可以是由该未处理窗口所规定的该文件的第一位。
在步骤405中,所选的未处理窗口被标记为已处理。通过例如将规定该文件的一个位的书签递增至该文件的下一个位,可以将所选的未处理窗口标记为未处理。
在步骤406中,确定是否该文件的所有窗口都为已处理的。如果该文件的所有窗口都为已处理的,方法前进至步骤407。如果并不是该文件的所有窗口都为已处理的,方法前进至步骤401。
在本发明的一个或多个实施例中,可以使用窗口长度和规定该文件的位的书签来确定是否所有窗口都为已处理的。具体来说,可以使用书签和窗口长度来确定是否窗口超过了文件的长度。
在步骤407中,使用分段断点将文件分割成文件段。如上所论述,分段断点可以规定文件的位。可以将文件分割成在断点的每一个处开始和结束的文件段。
方法可在步骤407之后结束。
在本发明的一个或多个实施例中,图4B中所示的方法可以描述为执行该文件的轮转散列(rolling hash)。执行该轮转散列可以生成对应于该文件的部分的散列即位序列。该文件的每一个部分可以在该文件的不同位开始,并且包括相同数目的位。可以将所生成的散列中的每一个与预定的位序列比较,从而生成分段断点。每当使用在图4B中所示方法来分割文件时,可以在步骤403中使用相同的预定位序列。在步骤403中使用相同的位序列将增加每次分割同一文件的副本时文件被以相似方式分割的机会。
图4C示出了根据本发明的一个或多个实施例的方法的流程图。根据本发明一个或多个实施例,图4C中所示的方法可以用于对文件的文件段重复删除。图4C中所示的方法例如可以通过对象生成器(150,图1A)来执行。在不脱离本发明的前提下,数据管理设备(110)的其他组件或所示系统可以执行在图4C中所示的方法。
在步骤411中,选择文件的未处理文件段。在图4C中所示方法的开始处,文件的所有文件段可以被认为是未处理的。
在步骤412中,生成所选的未处理文件段的指纹。在本发明的一个或多个实施例中,使用拉宾(Rabin)指纹算法来生成未处理的文件段的指纹。在本发明的一个或多个实施例中,使用加密散列函数来生成未处理的文件段的指纹。该加密散列函数例如可以是信息摘要(MD)或安全散列算法(SHA)。信息MD算法可以是MD5。SHA可以是SHA-0、SHA-1、SHA-2或SHA-3。在不脱离本发明的前提下,也可以使用其他指纹算法。
在步骤413中,确定所生成的指纹是否匹配在本地对象存储装置中存储的远程元数据对象的副本的现有的指纹。如果所生成的指纹匹配现有的指纹,方法前进至步骤414。如果所生成的指纹不匹配现有的指纹,方法前进至步骤405。
在本发明的一个或多个实施例中,所生成的指纹仅匹配到在本地对象存储装置中存储的远程元数据对象的副本中存储的指纹的一部分。例如,可以仅将本地对象存储装置的远程元数据对象的副本的一部分中存储的指纹载入到存储器中,并将其用作与所生成的指纹进行比较的基础。
在步骤414中,将所选的未处理文件段标记为副本。
在步骤415中,将所选的未处理文件段标记为已处理。
在步骤416中,确定是否该文件的所有文件段都为已处理的。如果该文件的文件段的所有窗口为已处理的,方法可前进至步骤417。如果该文件的文件段的所有窗口为未处理的,方法可前进至步骤411。
在步骤417中,所有被标记为副本的文件段被删除。其余文件段,即在步骤417中没有被删除的文件段,为重复删除的文件段。
方法可在步骤417之后结束。
图4D示出了根据本发明的一个或多个实施例的方法的流程图。根据本发明一个或多个实施例,图4D中所示的方法可以用于将重复删除的文件段存储在远程对象存储装置中。图4D中所示的方法例如可以通过对象生成器(150,图1A)来执行。图1A。在不脱离本发明的前提下,数据管理设备(110)的其他组件或所示系统可以执行在图4D中所示的方法。
在步骤421中,选择未处理的重复删除的文件段。在图4D中所示的方法的开始处,可以将所有的文件段被认为是未处理的。
在步骤422中,将所选的未处理的重复删除的文件段添加到远程对象存储装置的远程数据对象中。
在本发明的一个或多个实施例中,可以将所选的未处理的重复删除的文件段添加到远程数据对象的压缩区域中。未处理的重复删除的文件段可以先被压缩,然后再被添加到压缩区域。该远程数据对象的压缩区域描述可以基于添加而更新。更具体来说,在该数据对象内的重复删除的文件段的开始、长度和/或末尾可以被添加到压缩区域描述中。在不脱离本发明的前提下,可以将不同的信息添加到压缩区域描述中以更新压缩区域描述。
在步骤423中,确定该远程数据对象是否已满。如果该远程数据对象已满,方法前进至步骤424。如果该远程数据对象未满,方法前进至步骤425。
可以基于在压缩区域中存储的数据的量来确定远程数据对象已满。更具体来说,可以基于存储压缩区域的被压缩的文件段所需的字节数来进行该确定。位的数目可以是预定数量的位,诸如5兆字节。
在步骤424中,将该远程数据对象存储在远程对象存储装置中
在本发明的一个或多个实施例中,可以先将压缩区域的文件段压缩然后再将数据对象存储在对象存储装置中。
在步骤425中,所选的未处理的重复删除的文件段被标记为已处理的。
在步骤426中,确定是否所有的重复删除文件段都为已处理的。如果所有的重复删除文件段都为已处理的,方法可以在步骤426之后结束。如果不是所有的重复删除文件段都为已处理的,方法可前进至步骤421。
图4E示出了根据本发明的一个或多个实施例的方法的流程图。图4E所示的方法可以用于根据本发明一个或多个实施例将元数据存储在远程对象存储装置中。图4E中所示的方法例如可以通过对象生成器(150,图1A)来执行。在不脱离本发明的前提下,数据管理设备(110)的其他组件或所示系统可以执行在图4E中所示的方法。
在步骤431中,选择未处理的重复删除的文件段。在图4E中所示方法的开始处,所有的重复删除的文件段可以被认为是未处理的。
在步骤432中,将所选择的未处理的重复删除的文件段的指纹添加到元数据对象。该元数据对象可以是远程元数据对象。
在本发明的一个或多个实施例中,所选的未处理的重复删除的文件段的指纹可以被添加到远程元数据对象的元数据区域。该远程元数据对象的元数据区域描述可以基于所述添加来更新。更具体来说,在该远程数据对象内的指纹的开始、长度和/或末尾可以被添加到元数据区域描述中。在不脱离本发明的前提下,可以将不同的信息添加到元数据区域描述中以更新该元数据区域描述。例如,在不脱离本发明的前提下,除指纹以外,可以将所选择的未处理的重复删除的文件段的大小添加到元数据区域。
在步骤433中,确定元数据对象是否已满。如果元数据对象已满,方法前进至步骤434。如果元数据对象未满,方法前进至步骤435。
可以基于在元数据区域中存储的数据的量来将该元数据对象确定为已满。更具体来说,可以基于存储该元数据区域的元数据所需的字节数来做出该确定。位的数目可以是预定数量的位,诸如5兆字节。
在步骤434中,该元数据对象被作为远程元数据对象存储在远程对象存储装置中,并且该远程元数据对象的副本被存储在本地对象存储装置中。
在步骤435中,将所选择的未处理的重复删除的文件段标记为已处理的。
在步骤436中,确定是否所有的重复删除的文件段都是已处理的。如果所有的重复删除的文件段都是已处理的,方法可以在步骤436之后结束。如果不是所有的重复删除的文件段是已处理的,方法可以在步骤431之后结束。
尽管在图4D和图4E中示为独立的方法,本发明的实施例不限于独立执行的方法。例如,两种方法可以同时执行。步骤432-435可以同图4D中的步骤422-425协调执行。
以下为一解释性实例。包括该解释性实例,是出于解释性目的而非限制性。
实例
客户端将数据存储请求发送至数据管理设备。如图5A所示,该数据存储请求规定文本文档(500)。图5A。基于该请求,该数据管理设备选择将该文本文档(500)存储在远程对象存储装置中而不是本地对象存储装置中。
响应于该数据存储请求,数据管理设备获取所请求的文本文档(500)。该文本文档例如可以是包括记录项目状态的报告的最终草稿的词语文档。记录项目状态的报告的之前的草稿已经存储在远程对象存储装置中。
该数据管理设备将该文件分割成第一文件段(501)、第二文件段(502)以及第三文件段(503)。该数据管理设备生成第一文件段(501)的第一指纹(511)、第二文件段(502)的第二指纹(512)以及第三文件段(503)的第三指纹(513)。第一文件段包括相对于报告的草稿没有变化的该报告的介绍性部分。第二文件段包括相对于报告的草稿发生变化的该报告的所要求的材料部分。第三文件段包括相对于报告的草稿发生变化的项目完成时间线。
然后将文件段(501-503)重复删除。在图5B所示的重复删除期间,该数据管理设备将第一指纹(511)匹配到在远程对象存储装置中存储的该草稿报告的包括报告的介绍性部分的第一段所对应的在远程元数据(515)的副本中存储的指纹。第二指纹(512)和第三指纹(513)不匹配在对象存储装置中的任何指纹。
基于该匹配,只有第二文件段(502)和第三文件段(503)被添加到远程数据对象(520)中以存储在远程对象存储装置中,远程数据对象(520)包括标识符(525)、压缩区域描述(530)和压缩区域(535),如图5C所示。第一文件段(501)被删除。相似地,只有第二指纹(512)和第三指纹(513)被添加到在本地对象存储装置中存储的远程元数据对象(550)的副本中,远程元数据对象(550)包括标识符(555)、元数据区域描述(560)和元数据区域(565)。
在远程数据对象(520)和远程元数据对象(550)的副本存储在本地对象存储装置中并且远程元数据对象(550)存储在远程对象存储装置之后,该实例结束。
因此,如图5A至图5C所示,可以仅使用在本地对象存储装置中存储的数据例如远程元数据对象的副本,相对于在远程对象存储装置中存储的数据来将文件重复删除。
可以使用由在数据存储设备中的一个或多个处理器执行的指令来实施本发明的一个或多个实施例。另外,此类指令可以对应于在一个或多个非暂时性计算机可读介质上存储的计算机可读指令。
本发明的一个或多个实施例可以实现以下中的一种或多种:1)减少在相对于远程对象存储装置将文件重复删除时的带宽成本;2)通过使用在本地对象存储装置中存储的在远程对象存储装置中存储的文件段的元数据的副本,来改善相对于远程对象存储装置将文件重复删除的速率;3)使用元数据的中央化的存储使得相对于远程存储装置的量级能实现文件的全局重复删除。
虽然本发明是参照有限数量的实施例说明的,但是受益于本公开的本领域技术人员能理解,可以设计出不脱离本文中所公开的本发明范围的其他实施方式。因此,本发明的范围仅由所附权利要求限定。

Claims (12)

1.一种数据管理设备,其存储来自客户端的多个文件用于长期保留,包括:
持久存储装置,包括本地对象存储装置,所述本地对象存储装置包括:
多个本地数据对象,
多个本地元数据对象,以及
多个第一远程元数据对象,其中存储在所述本地对象存储装置中的所述多个第一远程元数据对象是存储在能操作地连接到所述数据管理设备的计算设备的远程对象存储装置中的对应的第二远程元数据对象的副本,其中包括所述远程对象存储装置的所述计算设备与所述数据管理设备和所述客户端是分离的并且不同;和
处理器,被编程为:
将所述多个文件的文件分割为多个文件段;
对所述多个文件段进行重复删除以得到经重复删除的多个文件段;
将经重复删除的多个文件段存储在所述远程对象存储装置的远程数据对象中;
经由从所述数据管理设备到所述远程对象存储装置的数据传输,启动对所述经重复删除的多个文件段的元数据的存储,作为所述远程对象存储装置的所述多个第二远程元数据对象中的一个第二远程元数据对象;和
将经重复删除的多个文件段的元数据进一步存储作为存储在本地存储装置中的所述多个第一远程元数据对象中的一个第一远程元数据对象。
2.根据权利要求1所述的数据管理设备,其中所述多个本地数据对象包括所述多个文件的一部分的段,其中存储在所述本地数据对象中的所述多个文件的一部分的段从不存储在所述远程对象存储装置中。
3.根据权利要求2所述的数据管理设备,其中所述多个本地元数据对象包括所述多个文件的一部分的段的元数据。
4.根据权利要求1所述的数据管理设备,其中所述远程数据对象包括:
与所述文件相关联的第一多个段;和
与第二文件相关联的第二多个段。
5.根据权利要求4所述的数据管理设备,其中所述远程数据对象还包括:
压缩区域描述符,其指定包括所述第一多个段和所述第二多个段的压缩区域的内容。
6.根据权利要求1所述的数据管理设备,其中与所述文件相关联的所述经重复删除的多个文件段的所述元数据包括存储在所述远程对象存储装置中的所述经重复删除的多个文件段的经重复删除的文件段的指纹,并且其中与所述文件相关联的所述经重复删除的多个文件段的所述元数据指定存储在所述远程对象存储装置中的所述经重复删除的文件段的大小。
7.根据权利要求1所述的数据管理设备,其中所述第一远程元数据对象中的每一个包括:
元数据区域描述符,其指定所述第一远程元数据对象中的每一个的元数据区域的内容,其中所述元数据区域包括与所述文件相关联的所述经重复删除的多个文件段的所述元数据。
8.根据权利要求7所述的数据管理设备,其中所述元数据区域不被压缩。
9.根据权利要求1所述的数据管理设备,其中将所述文件分割为多个文件段包括:
生成所述文件的滚动散列;
基于所述滚动散列来选择多个分段断点;和
基于所述分段断点来将所述文件划分为所述多个文件段。
10.根据权利要求1所述的数据管理设备,其中对所述多个文件段进行重复删除包括:
生成所述多个文件段中的第一文件段的指纹;
将所述指纹与存储在所述本地对象存储装置中的多个指纹进行匹配;
做出所述指纹与所述多个指纹的指纹相匹配的确定;和
基于所述确定来删除所述第一文件段。
11.一种操作数据管理设备的方法,所述数据管理设备存储来自客户端的多个文件用于长期保留,包括:
通过所述数据管理设备,将所述多个文件的文件分割为多个文件段,其中所述数据管理设备包括持久存储装置,所述持久存储装置包括本地对象存储装置,所述本地对象存储装置包括:
多个本地数据对象,
多个本地元数据对象,以及
多个第一远程元数据对象,其中存储在所述本地对象存储装置中的所述多个第一远程元数据对象是存储在能操作地连接到所述数据管理设备的计算设备的远程对象存储装置中的对应的第二远程元数据对象的副本,其中包括所述远程对象存储装置的所述计算设备与所述数据管理设备和所述客户端是分离的并且不同;
通过所述数据管理设备,对所述多个文件段进行重复删除;
通过所述数据管理设备,将经重复删除的多个文件段存储在所述远程对象存储装置的数据对象中;
通过所述数据管理设备且经由到所述远程对象存储装置的数据传输,启动对所述经重复删除的多个文件段的元数据的存储,作为所述远程对象存储装置的所述多个第二远程元数据对象中的一个第二远程元数据对象;和
通过所述数据管理设备,将经重复删除的多个文件段的元数据存储作为存储在所述本地对象存储装置中的多个第一远程元数据对象的一个第一远程元数据对象。
12.一种包括计算机可读程序代码的非暂时性计算机可读介质,所述计算机可读程序代码在由计算机处理器执行时使所述计算机处理器能够执行用于操作数据管理设备的方法,所述数据管理设备存储来自客户端的多个文件用于长期保留,所述方法包括:
通过所述数据管理设备,将所述多个文件的文件分割为多个文件段,其中所述数据管理设备包括持久存储装置,所述持久存储装置包括本地对象存储装置,所述本地对象存储装置包括:
多个本地数据对象,
多个本地元数据对象,以及
多个第一远程元数据对象,其中存储在所述本地对象存储装置中的所述多个第一远程元数据对象是存储在能操作地连接到所述数据管理设备的计算设备的远程对象存储装置中的对应的第二远程元数据对象的副本,其中包括所述远程对象存储装置的所述计算设备与所述数据管理设备和所述客户端是分离的并且不同;
通过所述数据管理设备,对所述多个文件段进行重复删除以得到经重复删除的多个文件段;
通过所述数据管理设备,将经重复删除的多个文件段存储在所述远程对象存储装置的数据对象中;
通过所述数据管理设备且经由到所述远程对象存储装置的数据传输,启动对所述经重复删除的多个文件段的元数据的存储,作为所述远程对象存储装置的所述多个第二远程元数据对象中的一个第二远程元数据对象;和
通过所述数据管理设备,将经重复删除的多个文件段的元数据进一步存储作为存储在所述本地对象存储装置中的多个第一远程元数据对象的一个第一远程元数据对象。
CN201810803384.9A 2017-07-21 2018-07-20 用于云层的容器元数据分离 Active CN110019056B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/656,713 2017-07-21
US15/656,713 US20190026304A1 (en) 2017-07-21 2017-07-21 Container metadata separation for cloud tier

Publications (2)

Publication Number Publication Date
CN110019056A CN110019056A (zh) 2019-07-16
CN110019056B true CN110019056B (zh) 2024-01-23

Family

ID=65018646

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810803384.9A Active CN110019056B (zh) 2017-07-21 2018-07-20 用于云层的容器元数据分离

Country Status (2)

Country Link
US (1) US20190026304A1 (zh)
CN (1) CN110019056B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10802915B2 (en) * 2015-01-30 2020-10-13 Pure Storage, Inc. Time based storage of encoded data slices
US20220237176A1 (en) * 2021-01-27 2022-07-28 EMC IP Holding Company LLC Method and system for managing changes of records on hosts

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8204868B1 (en) * 2008-06-30 2012-06-19 Symantec Operating Corporation Method and system for improving performance with single-instance-storage volumes by leveraging data locality
CN104199815A (zh) * 2013-03-15 2014-12-10 国际商业机器公司 在重复数据删除系统中减少摘要存储消耗的方法和系统
CN105917304A (zh) * 2014-12-09 2016-08-31 华为技术有限公司 重复数据删除的装置和方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8204868B1 (en) * 2008-06-30 2012-06-19 Symantec Operating Corporation Method and system for improving performance with single-instance-storage volumes by leveraging data locality
CN104199815A (zh) * 2013-03-15 2014-12-10 国际商业机器公司 在重复数据删除系统中减少摘要存储消耗的方法和系统
CN105917304A (zh) * 2014-12-09 2016-08-31 华为技术有限公司 重复数据删除的装置和方法

Also Published As

Publication number Publication date
CN110019056A (zh) 2019-07-16
US20190026304A1 (en) 2019-01-24

Similar Documents

Publication Publication Date Title
US7478113B1 (en) Boundaries
US9792306B1 (en) Data transfer between dissimilar deduplication systems
US11182256B2 (en) Backup item metadata including range information
US9367448B1 (en) Method and system for determining data integrity for garbage collection of data storage systems
US9430156B1 (en) Method to increase random I/O performance with low memory overheads
US9141633B1 (en) Special markers to optimize access control list (ACL) data for deduplication
US10365974B2 (en) Acquisition of object names for portion index objects
CN102246137B (zh) 身份副本删除之后的delta压缩
US10339112B1 (en) Restoring data in deduplicated storage
US9785646B2 (en) Data file handling in a network environment and independent file server
US10366072B2 (en) De-duplication data bank
US20130067237A1 (en) Providing random access to archives with block maps
KR102187127B1 (ko) 데이터 연관정보를 이용한 중복제거 방법 및 시스템
EP3610392B1 (en) Micro-service based deduplication
US10795860B1 (en) WAN optimized micro-service based deduplication
US10972569B2 (en) Apparatus, method, and computer program product for heterogenous compression of data streams
CN110019039B (zh) 元数据分离的容器格式
CN104281533A (zh) 一种存储数据的方法及装置
US11409766B2 (en) Container reclamation using probabilistic data structures
TW201621696A (zh) 資料傳輸方法及系統
US11093453B1 (en) System and method for asynchronous cleaning of data objects on cloud partition in a file system with deduplication
CN110019056B (zh) 用于云层的容器元数据分离
CN104965835A (zh) 一种分布式文件系统的文件读写方法及装置
CN104023070A (zh) 基于云存储的文件压缩方法
US10949088B1 (en) Method or an apparatus for having perfect deduplication, adapted for saving space in a deduplication file system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant