CN103778148A - Hadoop分布式文件系统数据文件的生命周期管理方法和设备 - Google Patents

Hadoop分布式文件系统数据文件的生命周期管理方法和设备 Download PDF

Info

Publication number
CN103778148A
CN103778148A CN201210406635.2A CN201210406635A CN103778148A CN 103778148 A CN103778148 A CN 103778148A CN 201210406635 A CN201210406635 A CN 201210406635A CN 103778148 A CN103778148 A CN 103778148A
Authority
CN
China
Prior art keywords
catalogue
data
normalization
leaf
business hours
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210406635.2A
Other languages
English (en)
Other versions
CN103778148B (zh
Inventor
熊佳树
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taobao China Software Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201210406635.2A priority Critical patent/CN103778148B/zh
Publication of CN103778148A publication Critical patent/CN103778148A/zh
Application granted granted Critical
Publication of CN103778148B publication Critical patent/CN103778148B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems

Abstract

本申请实施例公开了一种Hadoop分布式文件系统数据文件的生命周期管理方法和设备,在当前所存储的元数据中分离叶子目录,将相应文件大小的属性赋予叶子目录,并根据各叶子目录的业务时间进行归一化处理,得到归一化目录,然后,根据各归一化目录中所包含的业务时间数据和文件大小数据,确定各所述归一化目录所属的类型,并根据预设的生命周期管理策略,对各类型的归一化目录进行相应的数据处理,从而将数据的业务时间的概念引入数据存储和管理过程中,解决了在现有的生命周期管理过程中需要针对不同类型和级别的数据进行大规模数据标识,所带来的巨大数据处理量,同时有效的利用了数据文件自身的时间属性提升了数据处理的效率,最终解决了分布式文件系统的数据文件属性标识以及生命周期管理问题。

Description

Hadoop分布式文件系统数据文件的生命周期管理方法和设备
技术领域
本申请实施例涉及数据存储技术领域,特别涉及一种Hadoop分布式文件系统数据文件的生命周期管理方法和设备。
背景技术
由于Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)有着高容错性的特点,因此常被用来部署在低廉的硬件上。该文件系统可提供高吞吐量的数据访问,适合那些有着超大数据集的应用程序的数据访问。Hadoop分布式文件系统放宽了POSIX(Portable Operating System Interface,可移植操作系统接口)的要求,可以实现以流的形式访问文件系统中的数据。
Hadoop分布式文件系统中的命名节点(namenode)会将Hadoop分布式文件系统文件及目录的元数据存储在下载镜像(fsimage)的二进制文件中, 通过解析Hadoop分布式文件系统的元数据,可以得到文件系统上所有文件及目录的元数据。
目前业务数据及各种日志的存储都遵循一定格式,即99%以上数据量带有时间分区的概念,通过对路径时间分区的归一化,可以对一批具有不同业务时间但为同一业务数据的路径进行统一管理,并可以取出归一化路径对应的业务时间列表及对应的文件大小数据。
目前现存的文件系统的生命周期管理方案为,定义文件的服务等级,根据定义的文件的服务等级进行转储的操作。
在实现本申请实施例的过程中,本申请的发明人发现,现有技术至少存在以下问题:
目前文件系统的生命周期管理技术主要是集中不同类型、级别的数据进行分级存储,对于大规模数据来说,标识数据的服务级别是一个难题,而且这种管理的方式并不能标识出数据本身的特性,在不同的应用场景下,需要对数据本身的不同特性进行辨识,比如,在需要保证数据完整性的应用场景中,需要标识数据是否是连续的,在存在数据缓存的场景下,需要标识数据是否是临时数据,而在需要优化数据存储空间的场景下,需要标识数据是否可以根据数据量大小做其他压缩处理等,因此,现有的技术方案不能很好地体现数据自身的特性,无法针对性的优化数据的生命周期管理,导致数据处理效率低下。
发明内容
本申请实施例提供一种Hadoop分布式文件系统数据文件的生命周期管理方法和设备,以解决现有技术方案中不能很好地根据数据自身的特性进行数据的生命周期管理,导致数据处理效率低下的问题。
本申请实施例提供一种Hadoop分布式文件系统数据文件的生命周期管理方法,包括以下步骤:
通过解析当前所存储的元数据,确定其中所包含的叶子目录,以及归属于叶子目录的文件;
将所述归属于叶子目录的文件的文件大小信息合并至相应的叶子目录上;
根据各叶子目录的业务时间,对各所述叶子目录进行归一化处理,得到归一化目录;
根据各归一化目录中所包含的业务时间数据和文件大小数据,确定各所述归一化目录所属的类型,其中,所述业务时间数据和文件大小数据具体为根据所述归一化目录中的各叶子目录上所包含的业务时间和文件大小信息得到的;
根据预设的生命周期管理策略,对各类型的归一化目录进行相应的数据处理。
另一方面,本申请实施例还提出了一种Hadoop分布式文件系统管理设备,包括:
解析模块,用于通过解析当前Hadoop分布式文件系统中所存储的元数据,确定其中所包含的叶子目录,以及归属于叶子目录的文件;
合并模块,用于将所述解析模块所确定的归属于叶子目录的文件的文件大小信息合并至相应的叶子目录上;
归一化模块,用于根据各叶子目录的业务时间,对各所述叶子目录进行归一化处理,得到归一化目录;
分析模块,用于根据所述归一化模块所得到的各归一化目录中所包含的业务时间数据和文件大小数据,确定各所述归一化目录所属的类型,其中,所述业务时间数据和文件大小数据具体为根据所述归一化目录中的各叶子目录上所包含的业务时间和文件大小信息得到的;
处理模块,用于根据预设的生命周期管理策略,对所述分析模块所确定的各类型的归一化目录进行相应的数据处理。
与现有技术相比,本申请实施例所提出的技术方案具有以下优点:
通过应用本申请实施例所提出的技术方案,在当前所存储的元数据中分离叶子目录,将相应文件大小的属性赋予叶子目录,并根据各叶子目录的业务时间进行归一化处理,得到归一化目录,然后,根据各归一化目录中所包含的业务时间数据和文件大小数据,确定各所述归一化目录所属的类型,并根据预设的生命周期管理策略,对各类型的归一化目录进行相应的数据处理,从而将数据的业务时间的概念引入数据存储和管理过程中,解决了在现有的生命周期管理过程中需要针对不同类型和级别的数据进行大规模数据标识,所带来的巨大数据处理量,同时有效的利用了数据文件自身的时间属性提升了数据处理的效率,最终解决了分布式文件系统的数据文件属性标识以及生命周期管理问题。
附图说明
为了更清楚地说明本申请实施例或现有技术的技术方案,下面将对本申请实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例所提出的一种Hadoop分布式文件系统数据文件的生命周期管理方法的流程示意图;
图2为本申请实施例所提出的一种具体应用场景下的Hadoop分布式文件系统数据文件的生命周期管理方法的流程示意图;
图3为本申请实施例所提出的一种Hadoop分布式文件系统管理设备的结构示意图。
具体实施方式
如图1所示,为本申请实施例一中的一种Hadoop分布式文件系统数据文件的生命周期管理方法的流程示意图,该方法包括以下步骤:
步骤S101、通过解析当前所存储的元数据,确定其中所包含的叶子目录,以及归属于叶子目录的文件。
需要说明的是,本申请实施例所提出的技术方案中所提及的元数据,特别适合于Hadoop分布式文件系统等大型文件存储系统中所存储的大规模数据,这样的数据具有规模大,来源多,数据层级复杂等特点,因此,通过本申请实施例所提出的生命周期管理方法可以细化的根据数据特性进行生命周期管理,提高数据管理效率。
在实际的应用场景中,本步骤的处理过程具体包括:
首先,对Hadoop分布式文件系统的元数据进行解析,分拣为目录和文件。
如前所述,Hadoop分布式文件系统中的namenode会将所有的文件及目录的元数据存储在二进制文件中, 通过解析元数据可以得到Hadoop分布式文件系统上所有文件及目录的元数据。
因此,本步骤通过对Hadoop分布式文件系统的元数据的解析,将所有的数据分为目录和文件两种类型,然后,分别对两种类型的数据执行以下的处理:
一方面,在分拣出的目录中,确定其中所包含的叶子目录。
具体的,在本申请文件中,将所有不包含目录的目录,称为叶子目录,下文中的描述与此类似,不再重复说明。
另一方面,在分拣出的文件中,确定归属于各叶子目录的文件。
步骤S102、将所述归属于叶子目录的文件的文件大小信息合并至相应的叶子目录上。
通过本步骤的操作,叶子目录本身附带了自身所对应的文件大小的属性,这样,在后续操作中,可以直接根据叶子目录本身所附带的文件大小信息,进行相应的操作,尤其是,可以方便的将文件大小信息作为数据类型识别的重要依据。
步骤S103、根据各叶子目录的业务时间,对各所述叶子目录进行归一化处理,得到归一化目录。
在具体的处理场景中,本步骤的处理过程具体包括:
(1)抽取各叶子目录所包含的业务时间。
业务时间是Hadoop分布式文件系统中的数据所特有的属性信息,将该属性信息抽取,以作为后续归一化处理的依据。
(2)按照预设的策略,将所抽取的各业务时间划分到一个或多个归一化业务时间区间。
归一化业务时间区间的划分可以根据实际需要进行设置,如果划分了多个归一化业务时间区间,那么,各归一化业务时间区间的大小可以相同,也可以不同,其只是作为归一化处理一项参考指标,其大小的变化并不是用于对本申请的保护范围的限定。
(3)根据处于同一个归一化业务时间区间的各叶子目录,确定一个归一化目录。
在上述的归一化业务时间区间划分完成后,每个归一化业务时间区间中均包括一定数量的叶子目录,并通过归一化处理,将归属于同一个归一化业务时间区间内的各叶子目录生成一个归一化目录。
在上述的归一化处理完成后,各归一化目录中包含归属于相应的归一化目录的各叶子目录所对应的业务时间和文件大小信息。
具体的归一化为:先对多个叶子目录进行业务时间抽取,如果其中的部分或全部业务时间可以按照一定的规则转换为同一个业务时间。即基于归一化业务时间区间的特定进行约减,则将相应的几个叶子目录生成一个归一化目录,并将约减后的业务时间作为该归一化目录所对应的业务时间。一种具体的处理方法可以为,通过将位于同一个时间范围区间内的业务时间,通过该时间范围区间的表征值进行表征,例如:对于发生于1月1日中的不同时间1:57、2:59、5:00、10:03和21:05,这些业务时间虽然不同,但都是同处于1月1日当天的业务时间值,即可以将1月1日作为这个以天为单位的时间范围的表征值,因此,可以将上述的这些不同的业务时间时间归一为同一个业务时间1月1日,通过这样的处理,将较小的时间点,通过较大的时间区间进行表征,实现了业务时间的归一化处理。
通过上述的处理,本申请利用归一化业务时间区间的划分,将具有相似的业务时间的叶子目录进行了归一化处理,从而,将分散的叶子目录进行了集中处理,减少了后续处理的数据量。
进一步的,为了表示的方便,进行对具体的业务信息表示值进行简单的抽象处理。
例如:对于具体的业务信息表示值/group/tbads/lark/final_info/*/type=*,根据路径的特点,保留相同的部分,不同的使用*代替。
那么,根据路径的语义及hdfs的语义 基本可以满足表达这些路径的要求。
上述的处理即为路径归一化,借助于路径归一化,可以把这批路径所具有的信息表达到归一化路径上来。
除了前述的业务时间的归一化处理之外,对于叶子目录所对应的其他信息,包括:所有目录的大小、对应的最大/最小的业务日期、连续的业务日期数据及最早访问业务日期数据等,均可以通过类似的处理进行表示。
这就使得路径变得生动、可视化起来。借助于归一化的技术,对于数据平台中的几十亿个文件/目录,用几万个归一化路径基本可以表示,大大提高了数据表征的效率,节约了系统的处理资源。
需要说明的是,对于本申请实施例所提出的技术方案所应用的Hadoop的技术场景来说,Hive是建立在 Hadoop 上的数据仓库基础构架,其可以用来进行数据提取转化加载,这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive元数据库就是这样的具体数据结构设置,其定义了简单的类 SQL 查询语言,允许熟悉 SQL的用户查询数据。基于这样的结构,在完成上述的归一化目录的生成处理之后,为了使Hadoop分布式文件系统中的数据得到同步的归一化处理,还可将Hadoop分布式文件系统关联的Hive元数据库中的存储目录进行与各叶子目录相同的归一化处理,将表数据合并至相应的归一化目录。
另一方面,考虑到数据存储空间的问题,在完成上述的归一化目录的生成处理之后,还可将所产生的数据,由Hadoop分布式文件系统导入到关系型数据库中。
当然,上述的进一步处理可以根据实际需要进行调整,是否执行上述的操作处理并不会影响本申请的保护范围。
步骤S104、根据各归一化目录中所包含的业务时间数据和文件大小数据,确定各所述归一化目录所属的类型。
其中,所述业务时间数据和文件大小数据具体为根据所述归一化目录中的各叶子目录上所包含的业务时间和文件大小信息得到的。
在实际的应用场景中,得到上述信息的过程,首先可进行相应参数的获取,具体说明如下:
(1)根据一个归一化目录中的各叶子目录上所包含的业务时间,确定所述归一化目录所对应的最大业务日期和最小业务日期。
(2)根据所述归一化目录所对应的最大业务日期和最小业务日期,确定所述归一化目录的业务时间间隔。
(3)根据当前系统业务时间和所述归一化目录所对应的最小业务日期,确定当前系统的系统时间间隔。
(4)根据所述归一化目录中的各叶子目录上所包含的文件大小信息,确定所述归一化目录在预设时间区间内的总数据量和数据增量。
在上述参数的基础上,为了分别满足不同应用场景下的数据特性辨识需要,步骤S104中对于各归一化目录所属的类型的确定方式,至少包括以下几种方式中的一种或多种:
方式一、连续性判定。
在需要保证数据完整性的应用场景中,可以根据一个归一化目录的业务时间间隔和所述归一化目录所对应的叶子目录总数,确定所述归一化目录在自身的业务时间间隔内,所缺失的叶子目录数量(具体的叶子目录的缺失原因在于数据传输、存储以及转存过程中所造成的数据丢失等),并据此判断所述归一化目录所对应的数据是否属于连续性数据。
例如,通过前述的叶子目录归一化处理后,叶子目录数量归一化为以天为单位的目录,其相应的业务时间间隔为1天,如果确定最大的业务日期是1月9日,最小的业务日期是1月1日,那么,包括这两天的叶子目录本身,在数据连续的情况下,应该有9个叶子目录,但如果实际存在的叶子目录数量不足9个,则确定数据不连续。
方式二、临时数据判定。
在存在数据缓存的场景下,可以根据一个归一化目录的系统时间间隔和业务时间间隔,确定所述归一化目录在当前业务日期下,所缺失的叶子目录数量,并根据所缺失业务目录数量是否达到预设的缺失阈值,判断所述归一化目录所对应的数据是否属于临时数据。
需要说明的是,在实际的应用中,通过相应的计算简化,具体的临时数据的判定实际上是通过当前系统时间与归一化目录最大的业务时间来判定的,这样的变化并不影响本申请的保护范围。
例如,预设缺失阈值为31,则如果当前时间与该归一化目录最大的业务日期之间的差值大于31,则说明在该归一化目录最大的业务日期之后,已经由31天没有新的叶子目录产生,因此,可以判定该归一化目录是临时数据。
方式三、数据量判定。
在需要优化数据存储空间的场景下,根据一个归一化目录在预设时间区间内的总数据量和数据增量的大小,判断所述归一化目录所对应的数据是否属于需要进行压缩的数据。
需要说明的是,上述三种方式主要是针对现有的几种重点的生命周期管理对象数据的特性进行的判定,在实际应用中,凡是可以应用于生命周期管理过程的特性,在可以应用本申请的相应判定处理过程进行判定的基础上,均属于本申请的保护范围。
并且,上述各种特性的判定过程可以独立进行,也可以同时进行,具体执行哪种特性的判定过程可以根据实际需要进行设置和调整,这样的变化并不影响本申请的保护范围。
步骤S105、根据预设的生命周期管理策略,对各类型的归一化目录进行相应的数据处理。
针对于步骤S104中的几种特性的判定结果,本步骤的处理具体分为以下几种情况:
情况一、当确定所述归一化目录所对应的数据不属于连续性数据时,如果所缺失的数据需要补充,则对所述归一化目录所缺失的数据进行补数据处理。
情况二、当确定所述归一化目录所对应的数据属于临时数据时,如果所述临时数据满足删除触发条件,对所述归一化目录所对应的数据进行删除。
情况三、当确定所述归一化目录所对应的数据属于需要进行压缩的数据时,对所述归一化目录所对应的数据进行数据压缩。
具体的处理过程与前述的特性判定过程相匹配,具体的处理方式也可以根据实际需要进行调整,这样的变化并不影响本申请的保护范围。
与现有技术相比,本申请实施例所提出的技术方案具有以下优点:
通过应用本申请实施例所提出的技术方案,在当前所存储的元数据中分离叶子目录,将相应文件大小的属性赋予叶子目录,并根据各叶子目录的业务时间进行归一化处理,得到归一化目录,然后,根据各归一化目录中所包含的业务时间数据和文件大小数据,确定各所述归一化目录所属的类型,并根据预设的生命周期管理策略,对各类型的归一化目录进行相应的数据处理,从而将数据的业务时间的概念引入数据存储和管理过程中,解决了在现有的生命周期管理过程中需要针对不同类型和级别的数据进行大规模数据标识,所带来的巨大数据处理量,同时有效的利用了数据文件自身的时间属性提升了数据处理的效率,最终解决了分布式文件系统的数据文件属性标识以及生命周期管理问题。
为了进一步说明本申请实施例所提出的技术方案,下面结合具体的实施场景,对本申请实施例所提出的技术方案进行说明。
本申请所提出的生命周期管理方法,通过将叶子目录按业务时间进行归一化处理,生成归一化目录之后,可以对归一化目录进行统一管理。
在实际的应用场景中,通过对归一化目录所处的业务时间以及相应的数据量进行分析,可以轻易的分析出临时数据、连续的数据、正常的数据及需进行压缩优化的数据,从而,可以根据相应的分析结果,对不同的类型的数据应用生命周期管理的动作。
如图2所示,为本申请实施例所提出的一种具体应用场景下的Hadoop分布式文件系统上数据文件的生命周期管理方法的流程示意图,相应的处理过程包括以下步骤:
步骤S201、使用解析程序,解析Hadoop分布式文件系统存储的元数据信息,将元数据信息分拣为目录及文件,并在所分拣出的目录中进一步分离出叶子目录。
步骤S202、将归属于叶子目录的文件大小信息合并至叶子目录之上,使之具有目录大小等属性。
步骤S203、将叶子目录根据业务时间进行归一化得到归一化目录。
此时,归一化目录同时具备所有属于该归一化目录的各叶子目录的业务时间及所属文件大小(即目录大小)的信息。
与此同时,还可以进一步将Hadoop分布式文件系统关联的Hive元数据库中存储的目录进行相同的归一化处理,将表数据合并至归一化目录,此时,业务也可以根据Hive表对归一化目录进行生命周期管理。
其中,所得的归一化路径,以及对应表即为生命周期管理的对象。
另一方面,还可以进一步将步骤S204所产生的数据,从Hadoop分布式文件系统上导入到关系型数据库中,便于进行数据的进一步分析和数据的展现。
步骤S204、对归一化目录所具备的业务时间数据及文件大小数据进行分析,标识出该归一化目录的所属类型。
例如:具体的分析过程中,首先需要进行相应参数的确定:
系统通过叶子目录的归一化,确定最大业务时间(maxbizdate)、最小业务时间(minbizdate),以及该归一化目录所对应的叶子目录总数(actualinterval)。
在此基础上,进一步确定其他参数:
该归一化目录的业务时间间隔(bizinterval)= maxbizdate-minbizdate;
系统间隔(sysinterval)= 当前系统业务时间(bizdate)-minbizdate。
(1)判断数据的连续性。
通过bizinterval-actualinterval,可以得知在该归一化目录中实际缺失的叶子目录的个数,从而,用于判断数据的连续性。
如果该归一化目录所对应的数据中存在不连续的数据(既缺失了叶子目录),则该归一化目录所对应的数据为不连续数据,反之则为连续数据。
(2)判断临时数据的情况。
通过sysinterval-bizinterval,可以得知现在的业务时间与该归一化目录最大的业务时间相比,缺失了多少叶子目录,从而,用于判断临时数据。
具体的,如果缺失的叶子目录数量超过了阈值(例如,设置该阈值为31),则确定该归一化目录所对应的数据为临时数据。
(3)判断数据的大小。
计算该归一化目录在一段时间内的总数据量及数据增量,根据总数据量的大小及数据增量的大小,确定该归一化目录所对应的数据是否需要压缩/优化管理。
如果该归一化目录所对应的数据的数据总量超出了预设的数据量阈值,则该归一化目录所对应的数据位需进行压缩/优化管理的数据,即数据量较大的数据。
当然,上述的类型判断和标识的过程还可以包括其他的情况,在此不再一一列举,这样的变化并不影响本申请的保护范围。
步骤S205、根据分析结果,将底层的数据进行展现,便于路径所有者配置或选择相应的生命周期管理策略。
例如:可以进行临时数据的删除,如果核心数据缺失则可以进行补数据,而对于超量数据则可以根据压缩算法进行压缩数据等。
步骤S206、执行相应生命周期管理策略。
需要说明的是,如果在步骤S204中,也已经将Hadoop分布式文件系统关联的Hive元数据库中存储的目录进行相同的归一化处理,则本步骤中的处理,同样需要对Hive元数据库中存储的目录执行相应的操作。
需要说明的是,上述的步骤S205和步骤S206的处理过程,相当与前述的步骤S105的处理过程,是生命周期管理策略的具体实现方式,这样的形式变化同样属于本申请的保护范围。
与现有技术相比,本申请实施例所提出的技术方案具有以下优点:
通过应用本申请实施例所提出的技术方案,在当前所存储的元数据中分离叶子目录,将相应文件大小的属性赋予叶子目录,并根据各叶子目录的业务时间进行归一化处理,得到归一化目录,然后,根据各归一化目录中所包含的业务时间数据和文件大小数据,确定各所述归一化目录所属的类型,并根据预设的生命周期管理策略,对各类型的归一化目录进行相应的数据处理,从而将数据的业务时间的概念引入数据存储和管理过程中,解决了在现有的生命周期管理过程中需要针对不同类型和级别的数据进行大规模数据标识,所带来的巨大数据处理量,同时有效的利用了数据文件自身的时间属性提升了数据处理的效率,最终解决了分布式文件系统的数据文件属性标识以及生命周期管理问题。
另一方面,本申请实施例还提供了一种Hadoop分布式文件系统管理设备,其结构示意图如图3所示,包括:
解析模块31,用于通过解析当前Hadoop分布式文件系统中所存储的元数据,确定其中所包含的叶子目录,以及归属于叶子目录的文件;
合并模块32,用于将所述解析模块31所确定的归属于叶子目录的文件的文件大小信息合并至相应的叶子目录上;
归一化模块33,用于根据各叶子目录的业务时间,对各所述叶子目录进行归一化处理,得到归一化目录;
分析模块34,用于根据所述归一化模块33所得到的各归一化目录中所包含的业务时间数据和文件大小数据,确定各所述归一化目录所属的类型,其中,所述业务时间数据和文件大小数据具体为根据所述归一化目录中的各叶子目录上所包含的业务时间和文件大小信息得到的;
处理模块35,用于根据预设的生命周期管理策略,对所述分析模块34所确定的各类型的归一化目录进行相应的数据处理。
其中,所述解析模块31,具体用于:
对Hadoop分布式文件系统的元数据进行解析,分拣为目录和文件;
在分拣出的目录中,确定其中所包含的叶子目录;
在分拣出的文件中,确定归属于各叶子目录的文件。
在具体的处理场景中,所述归一化模块33,具体用于:
抽取各叶子目录所包含的业务时间;
按照预设的策略,将所抽取的各业务时间划分到一个或多个归一化业务时间区间;
根据处于同一个归一化业务时间区间的各叶子目录,确定一个归一化目录;
其中,各归一化目录中包含归属于相应的归一化目录的各叶子目录所对应的业务时间和文件大小信息。
进一步的,所述归一化模块33,还用于:
将Hadoop分布式文件系统关联的Hive元数据库中的存储目录进行与各叶子目录相同的归一化处理,将表数据合并至相应的归一化目录。
需要说明的是,所述Hadoop分布式文件系统管理设备,还包括:
转存模块36,用于将所述归一化模块33所产生的数据,由Hadoop分布式文件系统导入到关系型数据库中。
在具体的处理场景中,所述分析模块34,具体用于:
根据一个归一化目录中的各叶子目录上所包含的业务时间,确定所述归一化目录所对应的最大业务时间和最小业务时间;
根据所述归一化目录所对应的最大业务时间和最小业务时间,确定所述归一化目录的业务时间间隔;
根据当前系统业务时间和所述归一化目录所对应的最小业务时间,确定当前系统的系统时间间隔;
根据所述归一化目录中的各叶子目录上所包含的文件大小信息,确定所述归一化目录在预设时间区间内的总数据量和数据增量。
进一步的,所述分析模块34,还用于:
根据一个归一化目录的业务时间间隔和所述归一化目录所对应的叶子目录总数,确定所述归一化目录在自身的业务时间间隔内,所缺失的叶子目录数量,并据此判断所述归一化目录所对应的数据是否属于连续性数据;和/或,
根据一个归一化目录的系统时间间隔和业务时间间隔,确定所述归一化目录在当前业务时间下,所缺失的叶子目录数量,并根据所缺失业务目录数量是否达到预设的缺失阈值,判断所述归一化目录所对应的数据是否属于临时数据;和/或,
根据一个归一化目录在预设时间区间内的总数据量和数据增量的大小,判断所述归一化目录所对应的数据是否属于需要进行压缩的数据。
相应的,所述处理模块35,具体用于:
当所述分析模块34确定所述归一化目录所对应的数据不属于连续性数据时,如果所缺失的数据需要补充,则对所述归一化目录所缺失的数据进行补数据处理;和/或,
当所述分析模块34确定所述归一化目录所对应的数据属于临时数据时,如果所述临时数据满足删除触发条件,对所述归一化目录所对应的数据进行删除;和/或,
当所述分析模块34确定所述归一化目录所对应的数据属于需要进行压缩的数据时,对所述归一化目录所对应的数据进行数据压缩。
与现有技术相比,本申请实施例所提出的技术方案具有以下优点:
通过应用本申请实施例所提出的技术方案,在当前所存储的元数据中分离叶子目录,将相应文件大小的属性赋予叶子目录,并根据各叶子目录的业务时间进行归一化处理,得到归一化目录,然后,根据各归一化目录中所包含的业务时间数据和文件大小数据,确定各所述归一化目录所属的类型,并根据预设的生命周期管理策略,对各类型的归一化目录进行相应的数据处理,从而将数据的业务时间的概念引入数据存储和管理过程中,解决了在现有的生命周期管理过程中需要针对不同类型和级别的数据进行大规模数据标识,所带来的巨大数据处理量,同时有效的利用了数据文件自身的时间属性提升了数据处理的效率,最终解决了分布式文件系统的数据文件属性标识以及生命周期管理问题。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请实施例可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,本申请实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请实施例各个实施例所述的方法。
本领域技术人员可以理解附图只是一个优选实施例的示意图,附图中的模块或流程并不一定是实施本申请实施例所必须的。
本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
以上公开的仅为本申请实施例的几个具体实施例,但是,本申请实施例并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请实施例的保护范围。

Claims (10)

1.一种Hadoop分布式文件系统数据文件的生命周期管理方法,其特征在于,包括以下步骤:
通过解析当前所存储的元数据,确定其中所包含的叶子目录,以及归属于叶子目录的文件;
将所述归属于叶子目录的文件的文件大小信息合并至相应的叶子目录上;
根据各叶子目录的业务时间,对各所述叶子目录进行归一化处理,得到归一化目录;
根据各归一化目录中所包含的业务时间数据和文件大小数据,确定归一化目录所属的类型,其中,所述业务时间数据和文件大小数据具体为根据所述归一化目录中的各叶子目录上所包含的业务时间和文件大小信息得到的;
根据预设的生命周期管理策略,对各类型的归一化目录进行相应的数据处理。
2.如权利要求1所述的方法,其特征在于,所述通过解析当前所存储的元数据,确定其中所包含的叶子目录,以及归属于叶子目录的文件,具体包括:
对Hadoop分布式文件系统的元数据进行解析,分拣为目录和文件;
在分拣出的目录中,确定其中所包含的叶子目录;
在分拣出的文件中,确定归属于各叶子目录的文件。
3.如权利要求1所述的方法,其特征在于,所述根据各叶子目录的业务时间,对各所述叶子目录进行归一化处理,得到归一化目录,具体包括:
抽取各叶子目录所包含的业务时间;
按照预设的策略,将所抽取的各业务时间划分到一个或多个归一化业务时间区间;
根据处于同一个归一化业务时间区间的各叶子目录,确定一个归一化目录;
其中,各归一化目录中包含归属于相应的归一化目录的各叶子目录所对应的业务时间和文件大小信息。
4.如权利要求3所述的方法,其特征在于,所述根据各叶子目录的业务时间,对各所述叶子目录进行归一化处理,得到归一化目录之后,还包括:
将Hadoop分布式文件系统关联的Hive元数据库中的存储目录进行与各叶子目录相同的归一化处理,将表数据合并至相应的归一化目录。
5.如权利要求3所述的方法,其特征在于,所述根据各叶子目录的业务时间,对各所述叶子目录进行归一化处理,得到归一化目录之后,还包括:
将所产生的数据,由Hadoop分布式文件系统导入到关系型数据库中。
6.如权利要求1所述的方法,其特征在于,所述业务时间数据和文件大小数据具体为根据所述归一化目录中的各叶子目录上所包含的业务时间和文件大小信息得到的,具体包括:
根据一个归一化目录中的各叶子目录上所包含的业务时间,确定所述归一化目录所对应的最大业务时间和最小业务时间;
根据所述归一化目录所对应的最大业务时间和最小业务时间,确定所述归一化目录的业务时间间隔;
根据当前系统业务时间和所述归一化目录所对应的最小业务时间,确定当前系统的系统时间间隔;
根据所述归一化目录中的各叶子目录上所包含的文件大小信息,确定所述归一化目录在预设时间区间内的总数据量和数据增量。
7.如权利要求6所述的方法,其特征在于,所述根据各归一化目录中所包含的业务时间数据和文件大小数据,确定各所述归一化目录所属的类型,至少包括:
根据一个归一化目录的业务时间间隔和所述归一化目录所对应的叶子目录总数,确定所述归一化目录在自身的业务时间间隔内,所缺失的叶子目录数量,并据此判断所述归一化目录所对应的数据是否属于连续性数据;和/或,
根据一个归一化目录的系统时间间隔和业务时间间隔,确定所述归一化目录在当前业务时间下,所缺失的叶子目录数量,并根据所缺失业务目录数量是否达到预设的缺失阈值,判断所述归一化目录所对应的数据是否属于临时数据;和/或,
根据一个归一化目录在预设时间区间内的总数据量和数据增量的大小,判断所述归一化目录所对应的数据是否属于需要进行压缩的数据。
8.如权利要求7所述的方法,其特征在于,所述根据预设的生命周期管理策略,对各类型的归一化目录进行相应的数据处理,至少包括:
当确定所述归一化目录所对应的数据不属于连续性数据时,如果所缺失的数据需要补充,则对所述归一化目录所缺失的数据进行补数据处理;和/或,
当确定所述归一化目录所对应的数据属于临时数据时,如果所述临时数据满足删除触发条件,对所述归一化目录所对应的数据进行删除;和/或,
当确定所述归一化目录所对应的数据属于需要进行压缩的数据时,对所述归一化目录所对应的数据进行数据压缩。
 
9.一种Hadoop分布式文件系统管理设备,其特征在于,包括以下步骤:
解析模块,用于通过解析当前Hadoop分布式文件系统中所存储的元数据,确定其中所包含的叶子目录,以及归属于叶子目录的文件;
合并模块,用于将所述解析模块所确定的归属于叶子目录的文件的文件大小信息合并至相应的叶子目录上;
归一化模块,用于根据各叶子目录的业务时间,对各所述叶子目录进行归一化处理,得到归一化目录;
分析模块,用于根据所述归一化模块所得到的各归一化目录中所包含的业务时间数据和文件大小数据,确定各所述归一化目录所属的类型,其中,所述业务时间数据和文件大小数据具体为根据所述归一化目录中的各叶子目录上所包含的业务时间和文件大小信息得到的;
处理模块,用于根据预设的生命周期管理策略,对所述分析模块所确定的各类型的归一化目录进行相应的数据处理。
10.如权利要求9所述的Hadoop分布式文件系统管理设备,其特征在于,所述解析模块,具体用于:
对Hadoop分布式文件系统的元数据进行解析,分拣为目录和文件;
在分拣出的目录中,确定其中所包含的叶子目录;
在分拣出的文件中,确定归属于各叶子目录的文件。
CN201210406635.2A 2012-10-23 2012-10-23 Hadoop分布式文件系统数据文件的生命周期管理方法和设备 Active CN103778148B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210406635.2A CN103778148B (zh) 2012-10-23 2012-10-23 Hadoop分布式文件系统数据文件的生命周期管理方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210406635.2A CN103778148B (zh) 2012-10-23 2012-10-23 Hadoop分布式文件系统数据文件的生命周期管理方法和设备

Publications (2)

Publication Number Publication Date
CN103778148A true CN103778148A (zh) 2014-05-07
CN103778148B CN103778148B (zh) 2017-04-12

Family

ID=50570391

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210406635.2A Active CN103778148B (zh) 2012-10-23 2012-10-23 Hadoop分布式文件系统数据文件的生命周期管理方法和设备

Country Status (1)

Country Link
CN (1) CN103778148B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104166951A (zh) * 2014-05-09 2014-11-26 深圳中科金证科技有限公司 一种为医疗机构双向转诊提供数据支撑的方法及系统
CN104615736A (zh) * 2015-02-10 2015-05-13 上海创景计算机系统有限公司 基于数据库的大数据快速解析存储方法
CN105468699A (zh) * 2015-11-18 2016-04-06 珠海多玩信息技术有限公司 去重数据统计方法及设备
CN105589958A (zh) * 2015-12-22 2016-05-18 浪潮软件股份有限公司 一种分布式的大数据规划方法
CN108427684A (zh) * 2017-02-14 2018-08-21 华为技术有限公司 数据查询方法、装置及计算设备
CN108647228A (zh) * 2018-03-28 2018-10-12 中国电力科学研究院有限公司 可见光通信大数据实时处理方法和系统
CN108959302A (zh) * 2017-05-19 2018-12-07 北京京东尚科信息技术有限公司 用于数据处理的方法及其设备
CN111124645A (zh) * 2019-12-20 2020-05-08 网易(杭州)网络有限公司 非连续周期的文件数据处理方法及装置
CN111125047A (zh) * 2019-12-06 2020-05-08 中盈优创资讯科技有限公司 冷热数据目录识别方法及装置
CN111459900A (zh) * 2020-04-22 2020-07-28 广州虎牙科技有限公司 大数据生命周期设置方法、装置、存储介质及服务器
CN112269781A (zh) * 2020-11-13 2021-01-26 网易(杭州)网络有限公司 数据生命周期管理方法、装置、介质及电子设备
CN112395366A (zh) * 2019-08-19 2021-02-23 阿里巴巴集团控股有限公司 分布式数据库的数据处理及创建方法、装置及电子设备
CN112817912A (zh) * 2021-02-20 2021-05-18 平安科技(深圳)有限公司 文件管理方法、装置、计算机设备和存储介质
CN113806451A (zh) * 2021-09-17 2021-12-17 平安普惠企业管理有限公司 数据划分处理方法、装置、电子设备及存储介质
CN113918651A (zh) * 2021-10-13 2022-01-11 广东利通科技投资有限公司 业务数据、资金流水处理方法、装置、设备和介质
WO2022258022A1 (zh) * 2021-06-10 2022-12-15 华为技术有限公司 一种文件管理的方法、装置、设备和系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1892921A2 (en) * 2000-10-26 2008-02-27 Intel Corporation Method and sytem for managing distributed content and related metadata
CN102332029A (zh) * 2011-10-15 2012-01-25 西安交通大学 一种基于Hadoop的海量可归类小文件关联存储方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1892921A2 (en) * 2000-10-26 2008-02-27 Intel Corporation Method and sytem for managing distributed content and related metadata
CN102332029A (zh) * 2011-10-15 2012-01-25 西安交通大学 一种基于Hadoop的海量可归类小文件关联存储方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
栾亚建: "分布式文件系统元数据管理研究与优化", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104166951A (zh) * 2014-05-09 2014-11-26 深圳中科金证科技有限公司 一种为医疗机构双向转诊提供数据支撑的方法及系统
CN104166951B (zh) * 2014-05-09 2017-10-27 深圳中科金证科技有限公司 一种为医疗机构双向转诊提供数据支撑的方法及系统
CN104615736B (zh) * 2015-02-10 2017-10-27 上海创景计算机系统有限公司 基于数据库的大数据快速解析存储方法
CN104615736A (zh) * 2015-02-10 2015-05-13 上海创景计算机系统有限公司 基于数据库的大数据快速解析存储方法
CN105468699A (zh) * 2015-11-18 2016-04-06 珠海多玩信息技术有限公司 去重数据统计方法及设备
CN105468699B (zh) * 2015-11-18 2019-06-18 珠海多玩信息技术有限公司 去重数据统计方法及设备
CN105589958A (zh) * 2015-12-22 2016-05-18 浪潮软件股份有限公司 一种分布式的大数据规划方法
CN108427684A (zh) * 2017-02-14 2018-08-21 华为技术有限公司 数据查询方法、装置及计算设备
CN108959302B (zh) * 2017-05-19 2021-06-29 北京京东尚科信息技术有限公司 用于数据处理的方法及其设备
CN108959302A (zh) * 2017-05-19 2018-12-07 北京京东尚科信息技术有限公司 用于数据处理的方法及其设备
CN108647228A (zh) * 2018-03-28 2018-10-12 中国电力科学研究院有限公司 可见光通信大数据实时处理方法和系统
CN108647228B (zh) * 2018-03-28 2021-08-24 中国电力科学研究院有限公司 可见光通信大数据实时处理方法和系统
CN112395366A (zh) * 2019-08-19 2021-02-23 阿里巴巴集团控股有限公司 分布式数据库的数据处理及创建方法、装置及电子设备
CN111125047A (zh) * 2019-12-06 2020-05-08 中盈优创资讯科技有限公司 冷热数据目录识别方法及装置
CN111125047B (zh) * 2019-12-06 2024-03-12 中盈优创资讯科技有限公司 冷热数据目录识别方法及装置
CN111124645B (zh) * 2019-12-20 2023-09-15 网易(杭州)网络有限公司 非连续周期的文件数据处理方法及装置
CN111124645A (zh) * 2019-12-20 2020-05-08 网易(杭州)网络有限公司 非连续周期的文件数据处理方法及装置
CN111459900A (zh) * 2020-04-22 2020-07-28 广州虎牙科技有限公司 大数据生命周期设置方法、装置、存储介质及服务器
CN112269781B (zh) * 2020-11-13 2023-07-25 网易(杭州)网络有限公司 数据生命周期管理方法、装置、介质及电子设备
CN112269781A (zh) * 2020-11-13 2021-01-26 网易(杭州)网络有限公司 数据生命周期管理方法、装置、介质及电子设备
CN112817912B (zh) * 2021-02-20 2023-05-26 平安科技(深圳)有限公司 文件管理方法、装置、计算机设备和存储介质
CN112817912A (zh) * 2021-02-20 2021-05-18 平安科技(深圳)有限公司 文件管理方法、装置、计算机设备和存储介质
WO2022258022A1 (zh) * 2021-06-10 2022-12-15 华为技术有限公司 一种文件管理的方法、装置、设备和系统
CN113806451A (zh) * 2021-09-17 2021-12-17 平安普惠企业管理有限公司 数据划分处理方法、装置、电子设备及存储介质
CN113918651A (zh) * 2021-10-13 2022-01-11 广东利通科技投资有限公司 业务数据、资金流水处理方法、装置、设备和介质

Also Published As

Publication number Publication date
CN103778148B (zh) 2017-04-12

Similar Documents

Publication Publication Date Title
CN103778148A (zh) Hadoop分布式文件系统数据文件的生命周期管理方法和设备
US9582759B2 (en) Computer implemented system for automating the generation of a business decision analytic model
CN105956123A (zh) 基于局部更新软件的数据处理方法及装置
CN102193917A (zh) 一种数据处理和查询方法和装置
CN102906751A (zh) 一种数据存储、数据查询的方法及装置
CN104239377A (zh) 跨平台的数据检索方法及装置
CN105653592A (zh) 一种基于hdfs的小文件合并工具和方法
US20130191328A1 (en) Standardized framework for reporting archived legacy system data
CN111159180A (zh) 一种基于数据资源目录构建的数据处理方法及系统
CN105429784A (zh) 中央收集服务器、日志文件处理方法及系统
CN111552899A (zh) 提升前端报表显示性能的方法及系统
CN105760505A (zh) 基于hive的历史数据分析及存档方法
CN107391769B (zh) 一种索引查询方法及装置
CN103559224A (zh) 一种对元数据对象进行散列的方法及装置
US20160203032A1 (en) Series data parallel analysis infrastructure and parallel distributed processing method therefor
CN103778223A (zh) 一种基于云平台的普适背单词系统及其构建方法
CN110968555B (zh) 维度数据处理方法和装置
CN104636397A (zh) 用于分布式计算的资源分配方法、计算加速方法以及装置
CN107734534B (zh) 一种网络负荷评估方法及装置
CN107315806B (zh) 一种基于文件系统的嵌入式存储方法和装置
CN115658785A (zh) 一种针对政务数据的金融主题仓构建方法、设备及介质
Lu et al. Research on Cassandra data compaction strategies for time-series data
CN103778268A (zh) 文件自动分类方法及系统
CN107577690B (zh) 海量信息数据的推荐方法及推荐装置
CN102609419B (zh) 相似数据排重方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20211110

Address after: Room 554, floor 5, building 3, No. 969, Wenyi West Road, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province

Patentee after: Taobao (China) Software Co., Ltd

Address before: P.O. Box 847, 4th floor, Grand Cayman capital building, British Cayman Islands

Patentee before: Alibaba Group Holdings Limited