CN106503198A - 一种基于hadoop元数据的冷数据识别方法及系统 - Google Patents

一种基于hadoop元数据的冷数据识别方法及系统 Download PDF

Info

Publication number
CN106503198A
CN106503198A CN201610944210.5A CN201610944210A CN106503198A CN 106503198 A CN106503198 A CN 106503198A CN 201610944210 A CN201610944210 A CN 201610944210A CN 106503198 A CN106503198 A CN 106503198A
Authority
CN
China
Prior art keywords
catalogue
file
hadoop
cold data
metadata
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610944210.5A
Other languages
English (en)
Inventor
何良均
张翼
温宗臣
冯森林
李冰
张书凡
范卫卫
赵志华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING GEO POLYMERIZATION TECHNOLOGY Co Ltd
Original Assignee
BEIJING GEO POLYMERIZATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING GEO POLYMERIZATION TECHNOLOGY Co Ltd filed Critical BEIJING GEO POLYMERIZATION TECHNOLOGY Co Ltd
Priority to CN201610944210.5A priority Critical patent/CN106503198A/zh
Publication of CN106503198A publication Critical patent/CN106503198A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1737Details of further file system functions for reducing power consumption or coping with limited storage space, e.g. in mobile devices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries

Abstract

一种基于hadoop元数据的冷数据识别方法,其可以很明确地知道hadoop集群文件系统中哪些是冷数据,根据元数据统计分析,然后推进集群用户删除冷数据,有效地识别冷数据,从而使得集群存储空间得到高效的利用。该方法包括:(1)准备镜像文件;(2)解析镜像文件;(3)根据步骤(2)解析出来的信息,将hadoop文件系统的所有文件和目录的元数据信息存储到关系型数据库mysql中;(4)根据目录最近一次的访问时间,识别出没有被用户访问的目录和对应未访问的时间,再根据目录所属的用户和组,确定并通知存在冷数据目录的用户。还有系统。

Description

一种基于hadoop元数据的冷数据识别方法及系统
技术领域
本发明涉及大数据处理的技术领域,尤其涉及一种基于hadoop元数据的冷数据识别方法,以及基于hadoop元数据的冷数据识别系统。
背景技术
目前在使用hadoop集群时,如果集群存储空间不够时,只能通知集群用户自己去识别hadoop集群上各自hdfs目录下的冷数据,然后进行删除。
中国专利申请(申请号:CN201310621705.0)提供了一种基于Hadoop框架的分布式文件监控系统,涉及图像数据处理技术领域,包括Hadoop集群和Client端,所述Hadoop集群中包括一个NameNode节点模块、一个NameNode代理模块、至少一个DataNode节点模块、一个含有配置文件和调度算法的匹配模块以及响应算法模块;所述NameNode代理模块接收Client端发来的HadoopClientProcotol接口中的函数信息,并转发该函数信息给NameNode节点模块,同时获取配置文件中配置的信息;本发明中的NameNode代理模块可获取所有的请求和消息,实现了对分布式文件系统的完全监控,并通过后续响应算法支持监控的同时做出处理。
但是,这种方式严重依赖于集群用户的积极性,而且用户在删除数据时很难做出决策来判断哪些是冷数据,哪些数据应该删除,这就导致了让用户识别冷数据并删除数据的效果大大折扣。所以随着公司业务的发展,当集群存储的数据越来越多,存储空间越来越少时,怎么去识别集群中的冷数据,以及按怎样的策略去删除这些冷数据成为各个公司在使用hadoop集群时头疼的问题。
发明内容
为克服现有技术的缺陷,本发明要解决的技术问题是提供了一种基于hadoop元数据的冷数据识别方法,其可以很明确地知道hadoop集群文件系统中哪些是冷数据,根据元数据统计分析,然后推进集群用户删除冷数据,有效地识别冷数据,从而使得集群存储空间得到高效的利用。
本发明的技术方案是:这种基于hadoop元数据的冷数据识别方法,该方法包括以下步骤:
(1)准备镜像文件:在NameNode节点的${dfs.namenode.name.dir}/current/目录下找到镜像文件;
(2)解析镜像文件;
(3)根据步骤(2)解析出来的信息,将hadoop文件系统的所有文件和目录的元数据信息存储到关系型数据库mysql中;
(4)根据目录最近一次的访问时间,识别出没有被用户访问的目录和对应未访问的时间,再根据目录所属的用户和组,确定并通知存在冷数据目录的用户。
本发明解析hadoop的元数据,也即hadoop集群的镜像文件(镜像文件中包含了集群文件系统所有的文件和目录的inode信息),对hadoop集群hdfs的目录和文件进行解析分析,获取文件和目录的大小,最近访问时间,最近修改时间等详细信息,然后通过统计分析,再根据数据删除策略,对集群冷数据做删除处理,有效地识别冷数据,从而释放了集群存储空间,使得集群存储空间得到高效的利用。
还提供了一种基于hadoop元数据的冷数据识别系统,该系统包括:
准备镜像文件模块,其配置来在NameNode节点的${dfs.namenode.name.dir}/current/目录下找到镜像文件;
解析镜像文件模块,其配置来对镜像文件进行解析;
数据存储模块,其配置来根据解析镜像文件模块解析出来的信息,将hadoop文件系统的所有文件和目录的元数据信息存储到关系型数据库mysql中;
冷数据识别模块,其配置来根据目录最近一次的访问时间,识别出没有被用户访问的目录和对应未访问的时间,再根据目录所属的用户和组,确定并通知存在冷数据目录的用户。
附图说明
图1所示为根据本发明的基于hadoop元数据的冷数据识别方法的流程图。
具体实施方式
如图1所示,这种基于hadoop元数据的冷数据识别方法,该方法包括以下步骤:
(1)准备镜像文件:在NameNode节点的${dfs.namenode.name.dir}/current/目录下找到镜像文件;
(2)解析镜像文件;
(3)根据步骤(2)解析出来的信息,将hadoop文件系统的所有文件和目录的元数据信息存储到关系型数据库mysql中;
(4)根据目录最近一次的访问时间,识别出没有被用户访问的目录和对应未访问的时间,再根据目录所属的用户和组,确定并通知存在冷数据目录的用户。
本发明解析hadoop的元数据,也即hadoop集群的镜像文件(镜像文件中包含了集群文件系统所有的文件和目录的inode信息),对hadoop集群hdfs的目录和文件进行解析分析,获取文件和目录的大小,最近访问时间,最近修改时间等详细信息,然后通过统计分析,再根据数据删除策略,对集群冷数据做删除处理,有效地识别冷数据,从而释放了集群存储空间,使得集群存储空间得到高效的利用。
另外,所述步骤(1)中,在该目录下找到类似fsimage_0000000000019372521的文件即为hadoop的镜像文件,也就是咱们将要解析的hadoop元数据文件,镜像文件包含hadoop集群文件系统文件和目录的inode信息,inode信息包括:文件名称、目录名称、文件大小(file size)、文件和目录最近访问时间(access time)、文件和目录最近修改时间(modification time)、文件和目录所属的用户以及组信息、文件和目录权限信息等。fsimage文件格式是二进制的,不能直接识别,需要进一步解析。
另外,所述步骤(2)的解析包括:hadoop命令行解析和java api解析。
(1):hadoop命令行解析
命令行解析如下:
hdfs oiv-i fsimage_0000000000019372521-o fsimage.txt
-i:表示指定需要解析的镜像文件
-o:表示对镜像文件进行解析后,输出的文本文件
fsimage.txt文件包含了所有可以识别冷数据的元数据信息。
(2):java api解析
hadoop除了提供了命令行的方式解析fsimage文件,也提供了java api的方式来解析,java api的方式比命令行要复杂很多,需要对hadoop相关的源代码深入的理解。
另外,所述步骤(3)中,元数据信息包括:文件名称、目录名称、文件和目录大小(file/dir size)、文件和目录最近访问时间(access time)、文件和目录最近修改时间(modification time)、文件和目录所属的用户以及组信息。
另外,所述步骤(4)中,根据元数据信息,统计出各个目录的所有文件总大小(filesize)、目录最近访问时间(access time)、目录最近修改时间、目录所属用户和组(user/group)。
另外,所述步骤(4)之后,督促用户做更进一步的决策,更进一步的决策包括:删除、提供数据保存时间。
本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,包括上述实施例方法的各步骤,而所述的存储介质可以是:ROM/RAM、磁碟、光盘、存储卡等。因此,与本发明的方法相对应的,本发明还同时包括一种基于hadoop元数据的冷数据识别系统,该系统通常以与方法各步骤相对应的功能模块的形式表示。使用该方法的系统包括:
准备镜像文件模块,其配置来在NameNode节点的${dfs.namenode.name.dir}/current/目录下找到镜像文件;
解析镜像文件模块,其配置来对镜像文件进行解析;
数据存储模块,其配置来根据解析镜像文件模块解析出来的信息,将hadoop文件系统的所有文件和目录的元数据信息存储到关系型数据库mysql中;
冷数据识别模块,其配置来根据目录最近一次的访问时间,识别出没有被用户访问的目录和对应未访问的时间,再根据目录所属的用户和组,确定并通知存在冷数据目录的用户。
另外,所述准备镜像文件模块中,镜像文件包含hadoop集群文件系统文件和目录的inode信息,inode信息包括:文件名称、目录名称、文件大小、文件和目录最近访问时间、文件和目录最近修改时间、文件和目录所属的用户以及组信息、文件和目录权限信息。
另外,所述解析镜像文件模块包括hadoop命令行解析和java api解析。
另外,所述数据存储模块中,元数据信息包括:文件名称、目录名称、文件和目录大小、文件和目录最近访问时间、文件和目录最近修改时间、文件和目录所属的用户以及组信息。
本发明实现方案的具体过程如下:
(1)、准备镜像文件;
(2)、解析hadoop镜像文件;
(3)、保存解析后的文件数据到mysql;
(4)、对元数据进行统计分析;
(5)、识别出冷数据;
(6)、推进用户删除冷数据。
以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案的保护范围。

Claims (10)

1.一种基于hadoop元数据的冷数据识别方法,其特征在于:该方法包括以下步骤:
(1)准备镜像文件:在NameNode节点的${dfs.namenode.name.dir}/current/目录下找到镜像文件;
(2)解析镜像文件;
(3)根据步骤(2)解析出来的信息,将hadoop文件系统的所有文件和目录的元数据信息存储到关系型数据库mysql中;
(4)根据目录最近一次的访问时间,识别出没有被用户访问的目录和对应未访问的时间,再根据目录所属的用户和组,确定并通知存在冷数据目录的用户。
2.根据权利要求1所述的基于hadoop元数据的冷数据识别方法,其特征在于:所述步骤(1)中,镜像文件包含hadoop集群文件系统文件和目录的inode信息,inode信息包括:文件名称、目录名称、文件大小、文件和目录最近访问时间、文件和目录最近修改时间、文件和目录所属的用户以及组信息、文件和目录权限信息。
3.根据权利要求2所述的基于hadoop元数据的冷数据识别方法,其特征在于:所述步骤(2)的解析包括:hadoop命令行解析和java api解析。
4.根据权利要求3所述的基于hadoop元数据的冷数据识别方法,其特征在于:所述步骤(3)中,元数据信息包括:文件名称、目录名称、文件和目录大小、文件和目录最近访问时间、文件和目录最近修改时间、文件和目录所属的用户以及组信息。
5.根据权利要求4所述的基于hadoop元数据的冷数据识别方法,其特征在于:所述步骤(4)中,根据元数据信息,统计出各个目录的所有文件总大小、目录最近访问时间、目录最近修改时间、目录所属用户和组。
6.根据权利要求5所述的基于hadoop元数据的冷数据识别方法,其特征在于:所述步骤(4)之后,督促用户做更进一步的决策,更进一步的决策包括:删除、提供数据保存时间。
7.一种基于hadoop元数据的冷数据识别系统,其特征在于:该系统包括:
准备镜像文件模块,其配置来在NameNode节点的${dfs.namenode.name.dir}/current/目录下找到镜像文件;
解析镜像文件模块,其配置来对镜像文件进行解析;
数据存储模块,其配置来根据解析镜像文件模块解析出来的信息,将hadoop文件系统的所有文件和目录的元数据信息存储到关系型数据库mysql中;
冷数据识别模块,其配置来根据目录最近一次的访问时间,识别出没有被用户访问的目录和对应未访问的时间,再根据目录所属的用户和组,确定并通知存在冷数据目录的用户。
8.根据权利要求7所述的基于hadoop元数据的冷数据识别系统,其特征在于:所述准备镜像文件模块中,镜像文件包含hadoop集群文件系统文件和目录的inode信息,inode信息包括:文件名称、目录名称、文件大小、文件和目录最近访问时间、文件和目录最近修改时间、文件和目录所属的用户以及组信息、文件和目录权限信息。
9.根据权利要求8所述的基于hadoop元数据的冷数据识别系统,其特征在于:所述解析镜像文件模块包括hadoop命令行解析和java api解析。
10.根据权利要求9所述的基于hadoop元数据的冷数据识别系统,其特征在于:所述数据存储模块中,元数据信息包括:文件名称、目录名称、文件和目录大小、文件和目录最近访问时间、文件和目录最近修改时间、文件和目录所属的用户以及组信息。
CN201610944210.5A 2016-11-02 2016-11-02 一种基于hadoop元数据的冷数据识别方法及系统 Pending CN106503198A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610944210.5A CN106503198A (zh) 2016-11-02 2016-11-02 一种基于hadoop元数据的冷数据识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610944210.5A CN106503198A (zh) 2016-11-02 2016-11-02 一种基于hadoop元数据的冷数据识别方法及系统

Publications (1)

Publication Number Publication Date
CN106503198A true CN106503198A (zh) 2017-03-15

Family

ID=58321869

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610944210.5A Pending CN106503198A (zh) 2016-11-02 2016-11-02 一种基于hadoop元数据的冷数据识别方法及系统

Country Status (1)

Country Link
CN (1) CN106503198A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107861999A (zh) * 2017-10-20 2018-03-30 北京集奥聚合科技有限公司 一种hdfs中冷数据的处理方法及系统
CN111966293A (zh) * 2020-08-18 2020-11-20 北京明略昭辉科技有限公司 一种冷热数据分析方法及系统
CN112231292A (zh) * 2019-02-15 2021-01-15 杭州数梦工场科技有限公司 文件处理方法、装置、存储介质及计算机设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1904889A (zh) * 2006-08-11 2007-01-31 中国科学院计算技术研究所 用附着属性存储逻辑文件系统元数据的方法
CN101645920A (zh) * 2009-04-07 2010-02-10 中国科学院声学研究所 一种基于时间参数的副本等级衰减方法
CN103365740A (zh) * 2012-04-06 2013-10-23 腾讯科技(深圳)有限公司 一种数据冷备方法及装置
CN103678521A (zh) * 2013-11-30 2014-03-26 电子科技大学 一种基于Hadoop框架的分布式文件监控系统
CN103688259A (zh) * 2011-05-19 2014-03-26 甲骨文国际公司 用于通过压缩和纵列存储进行自动数据放置的技术
CN104462577A (zh) * 2014-12-29 2015-03-25 北京奇艺世纪科技有限公司 一种数据存储方法及装置
CN104536904A (zh) * 2014-12-29 2015-04-22 杭州华为数字技术有限公司 一种数据管理的方法、设备与系统
CN104598459A (zh) * 2013-10-30 2015-05-06 阿里巴巴集团控股有限公司 数据库处理、数据访问方法及系统
CN105824867A (zh) * 2015-12-14 2016-08-03 广东亿迅科技有限公司 一种基于多级分布化元数据的海量文件管理系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1904889A (zh) * 2006-08-11 2007-01-31 中国科学院计算技术研究所 用附着属性存储逻辑文件系统元数据的方法
CN101645920A (zh) * 2009-04-07 2010-02-10 中国科学院声学研究所 一种基于时间参数的副本等级衰减方法
CN103688259A (zh) * 2011-05-19 2014-03-26 甲骨文国际公司 用于通过压缩和纵列存储进行自动数据放置的技术
CN103365740A (zh) * 2012-04-06 2013-10-23 腾讯科技(深圳)有限公司 一种数据冷备方法及装置
CN104598459A (zh) * 2013-10-30 2015-05-06 阿里巴巴集团控股有限公司 数据库处理、数据访问方法及系统
CN103678521A (zh) * 2013-11-30 2014-03-26 电子科技大学 一种基于Hadoop框架的分布式文件监控系统
CN104462577A (zh) * 2014-12-29 2015-03-25 北京奇艺世纪科技有限公司 一种数据存储方法及装置
CN104536904A (zh) * 2014-12-29 2015-04-22 杭州华为数字技术有限公司 一种数据管理的方法、设备与系统
CN105824867A (zh) * 2015-12-14 2016-08-03 广东亿迅科技有限公司 一种基于多级分布化元数据的海量文件管理系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
曹卉: "Hadoop分布式文件系统原理", 《软件导刊》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107861999A (zh) * 2017-10-20 2018-03-30 北京集奥聚合科技有限公司 一种hdfs中冷数据的处理方法及系统
CN112231292A (zh) * 2019-02-15 2021-01-15 杭州数梦工场科技有限公司 文件处理方法、装置、存储介质及计算机设备
CN111966293A (zh) * 2020-08-18 2020-11-20 北京明略昭辉科技有限公司 一种冷热数据分析方法及系统

Similar Documents

Publication Publication Date Title
CN111008321B (zh) 基于逻辑回归推荐方法、装置、计算设备、可读存储介质
JP5626733B2 (ja) 個人情報匿名化装置及び方法
WO2017097231A1 (zh) 话题处理方法及装置
CN105224560B (zh) 缓存数据的查找方法和装置
US20150120708A1 (en) Information aggregation, classification and display method and system
CN104462096B (zh) 舆情监测分析方法和装置
CN111026961A (zh) 标引多重数据元素内的感兴趣的数据的方法及系统
US10250550B2 (en) Social message monitoring method and apparatus
CN106503198A (zh) 一种基于hadoop元数据的冷数据识别方法及系统
CN106161193B (zh) 一种邮件处理方法、装置和系统
CN112307318B (zh) 一种内容发布方法、系统及装置
CN108876314B (zh) 一种职业生涯专业能力可追溯方法及平台
CN109947759A (zh) 一种数据索引建立方法、索引检索方法及装置
CN111026709A (zh) 基于集群访问的数据处理方法及装置
CN105843809B (zh) 数据处理方法和装置
CN103020189B (zh) 数据处理装置和数据处理方法
CN112052259A (zh) 数据处理方法、装置、设备及计算机存储介质
CN111045994A (zh) 一种基于kv数据库的文件分类检索方法及系统
JP6145064B2 (ja) 文書集合分析装置、文書集合分析方法、文書集合分析プログラム
US9824140B2 (en) Method of creating classification pattern, apparatus, and recording medium
CN107992538B (zh) 报文日志生成方法、装置、查询方法及信息处理系统
KR101752259B1 (ko) 고부가 가치화 콘텐츠 관리 장치 및 방법, 이를 구현하기 위한 프로그램이 저장된 기록매체 및 이를 구현하기 위해 매체에 저장된 컴퓨터프로그램
CN107169065B (zh) 一种特定内容的去除方法和装置
CN107122381B (zh) 文件生成方法及装置和数据分析方法及装置
CN105955680A (zh) 一种支持动态附加扩展信息的单据打印方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170315

RJ01 Rejection of invention patent application after publication