CN105447071B - 用于分布式文件系统的内容构造 - Google Patents

用于分布式文件系统的内容构造 Download PDF

Info

Publication number
CN105447071B
CN105447071B CN201510353628.4A CN201510353628A CN105447071B CN 105447071 B CN105447071 B CN 105447071B CN 201510353628 A CN201510353628 A CN 201510353628A CN 105447071 B CN105447071 B CN 105447071B
Authority
CN
China
Prior art keywords
strategy
content conversion
described piece
content
file system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510353628.4A
Other languages
English (en)
Other versions
CN105447071A (zh
Inventor
S·J·托德
J·M·范罗特丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
EMC Corp
Original Assignee
EMC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by EMC Corp filed Critical EMC Corp
Publication of CN105447071A publication Critical patent/CN105447071A/zh
Application granted granted Critical
Publication of CN105447071B publication Critical patent/CN105447071B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/122File system administration, e.g. details of archiving or snapshots using management policies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/122File system administration, e.g. details of archiving or snapshots using management policies
    • G06F16/125File system administration, e.g. details of archiving or snapshots using management policies characterised by the use of retention policies

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

讨论了一种用于在分布式文件系统上提供内容服务的方法、制品、以及装置。这些服务可以被应用到文件、数据块、和/或元数据。位于分布式文件系统内或者与分布式文件系统并排的内容构造可以应用这些服务。

Description

用于分布式文件系统的内容构造
相关申请的交叉引用
本申请涉及与其在同一日期提交的美国专利申请系列号Nos.___________名称为“DYNAMICALLY COMPOSED COMPUTE NODES COMPRISING DISAGGREGATED COMPONENTS”(EMC案卷号No.EMC-14-0279)、___________名称为“SOFTWARE OVERLAYS FOR DISAGGREGATEDCOMPONENTS”(EMC案卷号No.EMC-14-0280)、___________名称为“APPLICATION ANDINFORMATION MOVEMENT IN A CLOUD ENVIRONMENT”(EMC案卷号No.EMC-14-0264)、___________名称为“CLOUDBOOK”(EMC案卷号No.EMC-14-0265)、以及___________名称为“MIGRATING PRIVATE INFRASTRUCTURE SERVICES TO A CLOUD”(EMC案卷号No.EMC-14-0281),它们由此通过引用它们的整体并入本文。
技术领域
本发明一般性地涉及分布式文件系统,并且更特别地涉及用于在分布式文件系统上提供内容服务的系统和方法。
背景技术
数据中心和云基础设施正在开始部署主导性地基于分布式文件系统的“数据湖(Data Lake)”架构。分布式文件系统的一个示例是Hadoop分布式文件系统(“HDFS”)。分布式文件系统经常是高度可伸缩的,能够操作在低成本硬件上,并且支持分析算法。然而,它们缺少在更为传统的系统上找到的内容服务。
因此,存在对于一种用于在分布式文件系统上提供内容服务的系统、方法、以及过程的需求。
附图说明
通过以下的详细描述结合附图,将容易地理解本发明,在附图中,相似的参考标号指示相似的结构元件,并且其中:
图1描绘了符合于本公开内容的一个实施例的解决方案堆栈。
图2描绘了用于提供符合于本公开内容的一个实施例的内容服务的过程。
图3描绘了用于同步地应用以及异步地应用符合于本公开内容的一个实施例的文件策略的流程图。
图4描绘了用于同步地应用以及异步地应用符合于本公开内容的一个实施例的块策略的流程图。
图5描绘了用于应用符合于本公开内容的一个实施例的元数据策略的流程图。
具体实施方式
下面与图示出本发明的原理的附图一起,提供了本发明的一个或多个实施例的详细描述。尽管结合这些实施例描述了本发明,但是应当理解,本发明不被限制于任何一个实施例。相反地,本发明的范围仅由权利要求来限定,并且本发明涵盖许多替换物、修改、以及等价物。为了示例的目的,以下的描述中阐述了许多具体细节,以便于提供对本发明的彻底理解。这些细节被提供是为了示例的目的,并且本发明可以根据不具有这些具体细节中的一些或者全部细节的权利要求来实行。为了清楚的目的,没有详细地描述在涉及本发明的技术领域中已知的技术材料,从而不会不必要地使本发明晦涩难懂。
应当意识到,能够以许多方式来实施本发明,包括作为过程、装置、系统、设备、方法、或者计算机可读介质,诸如计算机可读存储介质或者在其中通过光学或电子通信链路来发送计算机程序指令的计算机网络。应用可以采取在一般目的计算机上执行或者在硬件中被硬接线或硬编码的软件的形式。在这个说明书中,这些实施方式、或者本发明可以采取的任何其他形式,可以被称为技术。一般而言,在本发明的范围内,可以更改所公开的过程的步骤的顺序。
将参考采用被配置为存储文件的存储系统的形式的数据存储系统来描述本发明的一个实施例,但是应当理解,本发明的原理不限制于这种配置。确切地说,它们可应用到能够存储和处置采用模拟、数字、或者其他形式的各种类型的对象的任何系统。尽管可能通过示例的方式使用了诸如文档、文件、对象等术语,但是本发明的原理不限制于表示和存储数据或其他信息的任何特定形式;确切地说,它们等同地可应用到能够表示信息的任何对象。
本公开内容描述了用于在包括分布式文件系统(诸如Hadoop文件系统(“HDFS”))的环境中提供内容构造(content fabric)的系统和方法。这个内容构造可以将策略(诸如管制或者合规功能)应用或者施行到该文件系统上存储的二进制对象、文件、或者其他数据。在一个实施例中,内容构造可以位于应用堆栈中并且同步地和/或异步地将这些策略应用到文件和/或数据块。这些策略可以基于文件它自身和/或文件元数据,并且可以因此在文件达到时动态地被应用。这些策略由此提供了传统地不在分布式文件系统上供应的数据服务。
图1描绘了符合于本公开内容的一个实施例的解决方案堆栈。该解决方案堆栈可以包括全部都操作在平台即服务(“Paas”)层106上的应用构造100、数据构造102、以及内容构造104。Paas层106进而可以操作在物理基础设施108上,物理基础设施108可以包括一个或多个包括处理器、存贮器、和/或存储器的物理机。
在一个实施例中,应用构造100可以包括向被具体化在Paas 106中的虚拟基础设施进行写入或者从其进行读取的应用。可以经由数据构造102来访问这个虚拟基础设施,数据构造102可以包括分布式文件系统,诸如HDFS。在一些实施例中,数据构造102包括数据分析工具,这些数据分析工具用于将数据摄入分布式文件系统中、从分布式文件系统查询并且导出数据。这些工具可以包括查询接口,诸如Pivotal HD、SQL到HDFS转换接口(诸如Pivotal HAWQ)、存储器中的数据网格分析(诸如Pivotal GemFire)、或者非结构化的模式识别工具(诸如Pivotal Analytics)。
内容构造104可以包括传统上不可用于分布式文件系统的内容服务。这些内容服务可以包括响应于给定的文件、文件类型、和/或内容而被执行的策略或者其他逻辑。例如,内容服务可以是将一种文件格式变换到另一种文件格式(例如,bmp到jpeg)的内容变换服务。下面详细地讨论不同的内容服务。
分布式文件系统(诸如HDFS)可以在将文件写入到物理或虚拟存贮器之前处理它们。例如,分布式文件系统可以将文件拆分为块,并且将这些块存储在分布式系统中的不同位置。作为结果,内容构造104可以将内容服务既应用到文件它们自身并且又应用到系统上所存储的成分块(constituent block)。例如,在文件级别,策略可以确定视频文件应当从AVI格式变换为MPEG格式。类似地,在块级别,策略可以确定这些块应当被存储在特定的地理位置,因为它们包含敏感信息。内容构造104可以做出这些确定并且将适当的策略应用到文件它自身或者文件的成分块。
在一些实施例中,内容构造104可以直接地并入分布式文件系统中。例如,HDFS的实例可以被修改以包括内容构造。另外地或者替换地,内容构造可以被实施在处于与分布式文件系统的通信中的分离模块中。
现在转向图2,讨论了一种用于使用内容构造来处理文件的方法。这个方法可以被使用例如来提供在分布式文件系统的上方、与分布式文件系统并排、或者被嵌入在分布式文件系统中的内容服务。
在框200处,接收将被存储在分布式文件系统上的文件。可以例如从应用构造100接收这个文件。在一些实施例中,该文件被传输给数据构造并且由内容构造拦截。将该文件摄入内容构造中的任何方法都符合于本公开内容。
在框204处,内容构造可以确定策略是否存在并且是否应当被应用到该文件。这个策略可以例如基于文件内容它自身。另外地或者替换地,该策略可以基于文件类型、格式、元数据、或者与该文件相关联的任何其他信息。以下是可以被应用到该文件的示例策略、逻辑、和/或内容服务。
复制因子策略。一些分布式文件系统(诸如HDFS)使用数据复制和冗余来防范数据丢失。一旦文件被划分为块,每个块就可以在不同的位置被存储多次。例如,一个块可以被存储在相同数据中心的两个驱动器上。如果一个驱动器数据中心毁坏或者不可用,则该数据块仍然存在于第二驱动器上。数据块的冗余副本的数目被称为复制因子。在一些实施例中,内容构造可以基于文件内容针对文件而动态地改变复制因子。包含重要内容的文件可以接收到比包含较不重要内容的文件更高的复制因子。如下面详细讨论的,在将策略应用到数据块或者文件分区时,复制因子策略可以是特别有益的。
保留管理策略。该内容可以将保留管理策略应用到该文件。例如,保留管理策略可以确定该文件受制于法律持有(legal hold)并且应当从不删除。这可以从文件的内容或者元数据(诸如文件作者/创建者)来确定。如果针对该文件接收到任何更新和/或删除指令,则它们可以被忽视并且由保留策略取代。
访问控制策略。内容构造可以提供各种访问控制策略。例如,内容构造可以提供情境感知访问控制策略。一个文件可以基于该文件或者访问请求的起源、设备类型、操作系统、激活的安全应用等而不同地被存储或者访问。另外地或者替换地,这些访问控制策略可以基于文件内容而动态地向用户或者组准予对文件的不同权限。例如,法律部门组可以动态地接收对合同文档的读取/写入访问。任何其他类型的访问控制,诸如基于角色的访问控制、访问控制列表、风险自适应访问控制、或者基于属性的访问控制,也符合于本公开内容的实施例。
地理分区。当文件需要被存储在某些地理边界内或者特定位置处时,可以应用地理分区策略。例如,一个文件可能包含来源于欧洲的个人可识别信息。欧洲法律可能规定所有这样的文件都被存储在欧洲或者在满足欧洲隐私标准的国家。地理分区策略可以动态地将该文件路由到满足这些要求的存储基础设施。如下面详细讨论的,当处理文件分区和块时,这个策略可以是特别有益的。
内容变换策略。内容构造也可以应用内容变换服务(“CTS”)策略。这些策略可以将内容从一种格式转换到另一种格式。例如,AVI文件可以被转换为MPEG格式。如下面详细讨论的,在一些实施例中,内容变换过程异步地发生。
元数据抽取策略。内容构造可以处理文件以抽取元数据,元数据可以然后被存储在分布式文件系统的本机元数据结构中。例如,HDFS包含唯一的、增强型元数据注册表(registry)。元数据可以从文件中抽取出并且存储在这个注册表中。例如,关闭字幕可以从视频文件中抽取出并且存储在元数据注册表中。如下面所讨论的,在一些实施例中,元数据抽取是异步过程。
版本控制策略。内容构造也可以将版本化策略实施并且应用到该文件。该文件的第一次接收的副本可以是初始版本。下一次应用尝试更新该文件,所接收的改变可以被存储作为第二版本。在一个实施例中,这些改变被应用到该文件的新副本。替换地,可以仅将差量(即,所接收的改变)保存到分布式文件系统。
元数据合成(composition)策略。内容构造可以将新的元数据特性添加到元数据注册表。这些特性可以从该文件它自身抽取,或者它们可以由元数据合成策略来确定。例如,内容构造可以扫描一个文档并且确定它是法律文档。内容构造然后可以设置与该文件相关联的元数据属性,以将它标记为法律文档。这些特性可以动态地被添加、更新、或者从注册表删除,并且这些行为可以由该策略来确定。在一些实施例中,可以使用这些元数据特性来维护监管链或者路由工作流程活动。随着工作流程中的不同步骤被执行,相关联的元数据特性可以适当地被创建、删除、或者更新。
在一些实施例中,多个策略可以被归组在一起以形成工作流程。例如,元数据合成策略可以被应用以自动地将文件与元数据特性相关联(例如,将该文件标记为法律文档)。基于这个特性,访问控制策略可以被应用以向给定的组(例如,法律部门)准予适当的权限。取决于接收到权限的组,不同的地理分区策略可以被施行(例如,法律文档仅被存储在高安全性数据中心中)。这些策略中的任何策略可以结合其他策略地进行混合和使用。
返回到图2,在框206处,任何所识别的文件级别策略可以被应用到该文件。例如,内容构造可以将CTS策略应用到文件。这个应用可以同步地发生,意味着在该文件被保存之前发生,或者异步地发生,意味着在保存过程之后或者与保存过程并行地发生。下面详细地讨论同步的和异步的策略应用。
在框208处,该文件可以被划分为多个数据块。在一些实施例中,块的数目可以由内容构造所应用的策略来确定。替换地,分布式文件系统的本机逻辑可以处置该划分。
在框210处,内容构造可以搜索找寻相关的块级别策略。不像作为整体被应用到的文件它自身的文件策略,块策略可以被应用到个体的数据块。例如,个体的块可以基于地理分区策略而被存储在不同的地理位置。另外地或者替换地,不同的块可以基于相关联的文件的内容而接收到不同的复制因子。
在框212处,任何所识别的块级别策略可以被应用到这些块,并且这些块可以根据这些策略而被处理。
最后,在块214处,这些文件块可以被存储在分布式文件系统上。
现在转向图3,讨论了用于异步地和/或同步地应用一个或多个文件策略的过程。在框302处,文件策略可以被识别。在一个实施例中,这大体上类似于上面所讨论的框204。
在304处,内容构造可以确定是否同步地和/或异步地应用该策略。如果该策略是同步的,则它可以在该文件被存储到分布式文件系统之前被应用。如果该策略是异步的,则它可以在该文件被保存到分布式文件系统之后或者当该文件被保存到分布式文件系统时被应用。在一些实施例中,同步的策略可以是特别重要的策略并且影响在何处/如何保存该文件。例如,地理分区策略可以是同步的。异步的策略可以是较不关键的,或者可能具有大的处理要求。例如,大的视频文件的CTS可以是异步的,因为这些服务可能消耗大的资源并且花费长时间来完成。类似地,元数据抽取可以是同步的。
尽管提供了同步的和异步的策略的多个示例,但是应当意识到,任何策略都可以同步地或者异步地被应用。类似地,处理类型可以动态地改变。一个策略可以同步地被应用到一个文件并且异步地被应用到另一文件。这个动态应用它自身可以基于一个策略,该策略可以考虑到文件类型、内容、大小等。
如果304确定该策略是同步的,则在框308处将该文件存储在分布式文件系统上之前,在框306处该策略可以被应用到该文件。如贯穿本说明书所讨论的,将该文件存储到该系统可能牵涉到将该文件拆分为数据块以用于进一步处理。
如果304确定该策略是异步的,则在308处该文件可以立即被存储到分布式文件系统,并且在310处与该文件相关联的触发器可以被放置在处理队列上。在一些实施例中,该触发器可以包括指向该文件的指针以及用于所识别的策略的描述或标识符。
在框312处,可以从处理队列中移除该触发器。在一些实施例中,该处理队列包括用于不同文件和策略的多个触发器。根据该触发器中所定义的策略,这些文件可以按FIFO方式一次被处理一个。这可以允许处理器繁重操作(诸如CTS)以受控制的方式被执行。
最后,在框314处,可以从分布式文件系统读取该文件并且可以应用该策略。如果异步策略是工作流程中的一个步骤,则其他策略可以被应用。这些其他策略可以立即被应用,或者新触发器可以被放置在队列上并且这些策略可以在稍后的时间被应用。
现在转向图4,讨论了用于同步地和/或异步地将策略应用到数据块的过程。在400处,文件可以被划分为多个数据块并且块策略可以被识别。这个过程可以大体上类似于参考图2所讨论的框208和210。
在404处,内容构造可以确定是同步地还是异步地应用该策略。如果该策略将同步地被应用,则在框406处它可以被应用并且在408处这些数据块可以被存储。
如果该策略是异步的,则在410处触发器可以被放置在处理队列上并且在408处这些块可以被存储在分布式文件系统上。在一些实施例中,该处理队列是被使用用于异步文件处理的相同队列。替换地,它可以是不同的、特定于块的队列。该触发器可以包括指向特定块的指针,或者可以指向给定文件的所有的成分块。
在412处,从该处理队列中移除触发器并且在414处根据该策略来处理相关联的块。
同步的/异步的块处理可以大体上类似于文件处理,并且所讨论的用于文件处理的技术也可以被应用到块处理。
策略也可以基于元数据而被应用到文件和块。例如,给定的文件可以包括识别拥有者或作者的元数据属性。如果内容构造确定该拥有者或作者是重要的,则特定策略可以被应用。图5描绘了用于将元数据策略应用到分布式文件系统上所存储的文件的过程。
在500处,内容构造可以接收或者拦截将被保存在分布式文件系统上的文件。
在502处,可以从该文件抽取元数据。这个元数据对该文件而言可以是本机的,诸如Microsoft Word文档中的属性,或者可以使用上面所讨论的技术中的任何技术来抽取它,或者它可以被供应给具有该文件的系统。一旦被抽取,该元数据就可以被存储在分布式文件系统的本机元数据注册表中。
在框504处,该内容可以确定针对所抽取的元数据是否元数据策略存在。这些元数据策略可以大体上类似于文件策略和/或块策略。例如,访问控制元数据策略可以与给定的拥有者或作者相关联。
在506处,可以根据该策略来处理该文件、块、和/或元数据。这可以包括同步的和/或异步的策略。
为了清楚的缘故,本文已经以具体的流程说明了过程和方法,但是应当理解,不偏离本发明的精神,其他的次序也是可能的并且一些可以并行地被执行。另外,步骤可以被细分或者组合。如本文所公开的,根据本发明所编写的软件可以被存储在某种形式的计算机可读介质(诸如存储器或者CD-ROM)中,或者通过网络来传输,并且由处理器来执行。
本文所引用的所有参考文件意图为通过参考而被并入。尽管上面已经按照具体实施例描述了本发明,但是预期到的是,对本发明的变更和修改对本领域的技术人员将无疑变得明显并且可以在所附权利要求的范围和等价物内被实行。多于一个计算机可以被使用,诸如通过使用并行的或者共享负载的布置中的多个计算机或者横跨多个计算机来分布任务,使得作为一个整体,它们执行本文所识别的组件的功能;即它们代替单个计算机。上面所描述的各种功能可以由单个计算机上的或者分布在若干计算机上的单个过程或者过程组来执行。过程可以调用其他过程来处置某些任务。单个存储设备可以被使用,或者可以使用若干存储设备来代替单个存储设备。所公开的实施例是说明性的而不是局限性的,并且本发明将不限制于本文所给出的细节。存在许多实施本发明的替换方式。因此所意图的是,本公开内容和以下权利要求被解读为覆盖落在本发明的真实精神和范围内的所有这样的变更和修改。

Claims (6)

1.一种用于在分布式文件系统上提供内容管理服务的方法,所述方法包括:
接收要存储在所述分布式文件系统上的对象;
确定针对所述对象是否存在内容变换策略,其中所述内容变换策略将所述对象从第一格式转换到第二格式;
从所述内容变换策略和第二对象策略形成工作流程,其中所述第二对象策略基于来自所述内容变换策略的结果;
将所述内容变换策略应用到所述对象;
确定是同步地还是异步地应用所述内容变换策略;
当所述内容变换策略将异步地被应用时,将与所述对象相关联的对象触发器放置在处理队列上;
从所述队列移除所述对象触发器并且根据所述内容变换策略来处理所述对象;
将所述对象划分为多个数据块;
确定针对所述对象是否存在块策略;
当所述内容变换策略将同步地被应用时,在将所述数据块存储在所述分布式文件系统上之前,根据所述内容变换策略来处理所述对象;
当所述块策略存在时,应用所述块策略;
确定是同步地还是异步地应用所述块策略;
当所述块策略将异步地被应用时,将与所述块相关联的块触发器放置在队列上;
从所述队列移除所述块触发器并且根据所述块策略来处理至少一个块;
当所述块策略将同步地被应用时,在将所述块存储在所述分布式文件系统上之前,将所述块策略应用到至少一个块;以及
将所述数据块存储在所述分布式文件系统中。
2.根据权利要求1所述的方法,其中以下至少一项:
从包括保留管理策略、访问控制策略、地理分区策略、以及版本控制策略的策略组中选择所述第二对象策略,以及
从包括保留管理策略、访问控制策略、地理分区策略、内容变换策略、以及版本控制策略的策略组中选择所述块策略。
3.根据权利要求1所述的方法,进一步包括:
从所述对象抽取元数据;
确定针对所述元数据的元数据策略;以及
根据所述元数据策略来处理所述对象和所述元数据中的一项。
4.根据权利要求3所述的方法,其中抽取所述元数据与存储所述对象异步地发生。
5.一种用于在分布式文件系统上提供内容管理服务的计算机程序产品,所述计算机程序产品包括以计算机可执行程序编码的非瞬态计算机可读存储介质,所述计算机可执行程序使得能够:
接收要存储在所述分布式文件系统上的对象;
确定针对所述对象是否存在内容变换策略,其中所述内容变换策略将所述对象从第一格式转换到第二格式;
从所述内容变换策略和第二对象策略形成工作流程,其中所述第二对象策略基于来自所述内容变换策略的结果;
将所述内容变换策略应用到所述对象;
确定是同步地还是异步地应用所述内容变换策略;
当所述内容变换策略将异步地被应用时,将与所述对象相关联的对象触发器放置在处理队列上;
从所述队列移除所述对象触发器并且根据所述内容变换策略来处理所述对象;
将所述对象划分为多个数据块;
确定针对所述对象是否存在块策略;
当所述内容变换策略将同步地被应用时,在将所述数据块存储在所述分布式文件系统上之前,根据所述内容变换策略来处理所述对象;
当所述块策略存在时,应用所述块策略;
确定是同步地还是异步地应用所述块策略;
当所述块策略将异步地被应用时,将与所述块相关联的块触发器放置在队列上;
从所述队列移除所述块触发器并且根据所述块策略来处理至少一个块;
当所述块策略将同步地被应用时,在将所述块存储在所述分布式文件系统上之前,将所述块策略应用到至少一个块;以及
将所述数据块存储在所述分布式文件系统中。
6.一种用于在分布式文件系统上提供内容管理服务的系统,所述计算机系统包括被配置为执行指令的计算机处理器,所述指令包括:
接收要存储在所述分布式文件系统上的对象;
确定针对所述对象是否存在内容变换策略,其中所述内容变换策略将所述对象从第一格式转换到第二格式;
从所述内容变换策略和第二对象策略形成工作流程,其中所述第二对象策略基于来自所述内容变换策略的结果;
将所述内容变换策略应用到所述对象;
确定是同步地还是异步地应用所述内容变换策略;
当所述内容变换策略将异步地被应用时,将与所述对象相关联的对象触发器放置在处理队列上;
从所述队列移除所述对象触发器并且根据所述内容变换策略来处理所述对象;
将所述对象划分为多个数据块;
确定针对所述对象是否存在块策略;
当所述内容变换策略将同步地被应用时,在将所述数据块存储在所述分布式文件系统上之前,根据所述内容变换策略来处理所述对象;
当所述块策略存在时,应用所述块策略;
确定是同步地还是异步地应用所述块策略;
当所述块策略将异步地被应用时,将与所述块相关联的块触发器放置在队列上;
从所述队列移除所述块触发器并且根据所述块策略来处理至少一个块;
当所述块策略将同步地被应用时,在将所述块存储在所述分布式文件系统上之前,将所述块策略应用到至少一个块;以及
将所述数据块存储在所述分布式文件系统中。
CN201510353628.4A 2014-06-30 2015-06-24 用于分布式文件系统的内容构造 Active CN105447071B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/320,001 2014-06-30
US14/320,001 US9852138B2 (en) 2014-06-30 2014-06-30 Content fabric for a distributed file system

Publications (2)

Publication Number Publication Date
CN105447071A CN105447071A (zh) 2016-03-30
CN105447071B true CN105447071B (zh) 2019-05-17

Family

ID=54930724

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510353628.4A Active CN105447071B (zh) 2014-06-30 2015-06-24 用于分布式文件系统的内容构造

Country Status (2)

Country Link
US (1) US9852138B2 (zh)
CN (1) CN105447071B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11474874B2 (en) 2014-08-14 2022-10-18 Qubole, Inc. Systems and methods for auto-scaling a big data system
WO2016044267A1 (en) * 2014-09-15 2016-03-24 Qubole, Inc. Systems and methods for providing metadata-aware background caching in data analysis
US11436667B2 (en) 2015-06-08 2022-09-06 Qubole, Inc. Pure-spot and dynamically rebalanced auto-scaling clusters
US10140267B1 (en) * 2015-12-28 2018-11-27 EMC IP Holding Company LLC Efficient operation of GRC processing platforms
US11080207B2 (en) 2016-06-07 2021-08-03 Qubole, Inc. Caching framework for big-data engines in the cloud
US10606664B2 (en) 2016-09-07 2020-03-31 Qubole Inc. Heterogeneous auto-scaling big-data clusters in the cloud
CN106484139B (zh) * 2016-10-19 2019-01-29 北京新美互通科技有限公司 表情符号推荐方法及装置
US10296880B2 (en) * 2016-11-21 2019-05-21 Lisa Therese Miller Invoice analytics system
US10733024B2 (en) 2017-05-24 2020-08-04 Qubole Inc. Task packing scheduling process for long running applications
US11228489B2 (en) 2018-01-23 2022-01-18 Qubole, Inc. System and methods for auto-tuning big data workloads on cloud platforms
US11250017B2 (en) 2018-04-06 2022-02-15 Matchcraft Llc Object transformation based on object groupings
US11144360B2 (en) 2019-05-31 2021-10-12 Qubole, Inc. System and method for scheduling and running interactive database queries with service level agreements in a multi-tenant processing system
US11704316B2 (en) 2019-05-31 2023-07-18 Qubole, Inc. Systems and methods for determining peak memory requirements in SQL processing engines with concurrent subtasks
US20230138827A1 (en) * 2021-10-30 2023-05-04 Jpmorgan Chase Bank, N.A. Method and system for interaction artifact management

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1547714A (zh) * 2001-08-03 2004-11-17 易斯龙系统公司 提供用于在存储设备的分布式文件系统中进行信息追踪的元数据的系统和方法
CN1771495A (zh) * 2003-05-07 2006-05-10 国际商业机器公司 分布式文件服务体系结构系统
CN1828530A (zh) * 2005-02-28 2006-09-06 微软公司 自动化数据组织
CN103186554A (zh) * 2011-12-28 2013-07-03 阿里巴巴集团控股有限公司 分布式数据镜像方法及存储数据节点

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6397381B1 (en) 1998-09-21 2002-05-28 Microsoft Corporation System and method for repairing a damaged application program
AU2001233111A1 (en) 2000-02-04 2001-08-14 America Online Incorporated Optimized delivery of web application code
US7305418B2 (en) 2003-11-05 2007-12-04 International Business Machines Corporation Selecting and showing copy pairs in a storage subsystem copy services graphical user interface
US7810090B2 (en) 2003-12-17 2010-10-05 Sap Ag Grid compute node software application deployment
CA2563786A1 (en) 2004-04-28 2005-11-10 Openlogic, Inc. Tools for stacking uncoordinated software projects
US7512944B2 (en) 2004-07-15 2009-03-31 Sap Aktiengesellschaft Brokers for managing computer-implemented installations
US7590623B2 (en) 2005-01-06 2009-09-15 International Business Machines Corporation Automated management of software images for efficient resource node building within a grid environment
US20060294515A1 (en) 2005-06-23 2006-12-28 International Business Machines Corporation Common operating system install method
JP4994909B2 (ja) 2007-03-26 2012-08-08 キヤノン株式会社 プログラム管理装置及び方法
TWI352931B (en) 2007-06-20 2011-11-21 Ind Tech Res Inst Resource management device and method
US20110103391A1 (en) 2009-10-30 2011-05-05 Smooth-Stone, Inc. C/O Barry Evans System and method for high-performance, low-power data center interconnect fabric
US8700611B2 (en) 2010-01-12 2014-04-15 Vmware, Inc. Extensible tree views for managing datacenter resources
US20120144219A1 (en) 2010-12-06 2012-06-07 International Business Machines Corporation Method of Making Power Saving Recommendations in a Server Pool
JP2013171305A (ja) 2012-02-17 2013-09-02 Fujitsu Ltd ストレージ装置、ストレージシステム、ストレージ管理方法及びストレージ管理プログラム
US9218376B2 (en) * 2012-06-13 2015-12-22 Commvault Systems, Inc. Intelligent data sourcing in a networked storage system
US20140007097A1 (en) 2012-06-29 2014-01-02 Brocade Communications Systems, Inc. Dynamic resource allocation for virtual machines
US9251103B2 (en) 2012-08-08 2016-02-02 Vmware, Inc. Memory-access-resource management
JP2014063356A (ja) 2012-09-21 2014-04-10 Fujitsu Ltd 情報処理方法、プログラム、情報処理装置、及び情報処理システム。
US9268808B2 (en) * 2012-12-31 2016-02-23 Facebook, Inc. Placement policy
JP2015090692A (ja) 2013-11-07 2015-05-11 富士通株式会社 仮想マシン配備方法、仮想マシン配備プログラム及び情報処理装置
US10530837B2 (en) 2014-04-10 2020-01-07 International Business Machines Corporation Always-on monitoring in the cloud
JP2016009276A (ja) 2014-06-23 2016-01-18 富士通株式会社 システム、認証装置、認証プログラム、及び、認証方法
US11228637B2 (en) * 2014-06-26 2022-01-18 Vmware, Inc. Cloud computing abstraction layer for integrating mobile platforms

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1547714A (zh) * 2001-08-03 2004-11-17 易斯龙系统公司 提供用于在存储设备的分布式文件系统中进行信息追踪的元数据的系统和方法
CN1771495A (zh) * 2003-05-07 2006-05-10 国际商业机器公司 分布式文件服务体系结构系统
CN1828530A (zh) * 2005-02-28 2006-09-06 微软公司 自动化数据组织
CN103186554A (zh) * 2011-12-28 2013-07-03 阿里巴巴集团控股有限公司 分布式数据镜像方法及存储数据节点

Also Published As

Publication number Publication date
US20150379026A1 (en) 2015-12-31
CN105447071A (zh) 2016-03-30
US9852138B2 (en) 2017-12-26

Similar Documents

Publication Publication Date Title
CN105447071B (zh) 用于分布式文件系统的内容构造
US11443061B2 (en) Data protection within an unsecured storage environment
KR102025934B1 (ko) 분산형 시스템에서의 범위들의 분할 및 이동
CA2923068C (en) Method and system for metadata synchronization
US10129264B2 (en) Method and apparatus for implementing document sharing between user groups
JP2024038272A (ja) ファイル共有のための技術
US10990288B2 (en) Systems and/or methods for leveraging in-memory storage in connection with the shuffle phase of MapReduce
CN107515776A (zh) 业务不间断升级方法、待升级节点和可读存储介质
CN109791594A (zh) 为了在多个不可变数据结构上持续存储而对数据进行分段
CN103198090A (zh) 用于优化虚拟桌面环境中的存储分配的方法和系统
WO2020225604A1 (en) Method and devices for enabling data governance using policies triggered by metadata in multi-cloud environments
CN106293490A (zh) 数据存储、读取的方法、装置及系统
CN111201763B (zh) 基于文件系统内容的安全性
CN101840471B (zh) 文档权限控制方法和装置
CN105471989A (zh) 一种数据存储方法
CN104281414A (zh) 分布式文件系统及其小文件访问方法
JP2015180991A (ja) 画像形成装置、画像形成装置の制御方法およびプログラム
CN102609448A (zh) 一种多用户版本文件递阶式映射方法
CN116414801A (zh) 数据迁移方法、装置、计算机设备和存储介质
Webster et al. SKALD: a scalable architecture for feature extraction, multi-user analysis, and real-time information sharing
CN104951475A (zh) 分布式文件系统和实现方法
US11436359B2 (en) System and method for managing permissions of users for a single data type column-oriented data structure
CN110471906A (zh) 数据库切换方法、装置及设备
US10346422B2 (en) Use of proxy objects for integration between a content management system and a case management system
US11748511B2 (en) Protecting data based on context of data movement operation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200413

Address after: Massachusetts, USA

Patentee after: EMC IP Holding Company LLC

Address before: Ma Sazhusaizhou

Patentee before: EMC Corp.