CN112667149B - 一种数据热度感知方法、装置、设备及介质 - Google Patents
一种数据热度感知方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN112667149B CN112667149B CN202011403129.9A CN202011403129A CN112667149B CN 112667149 B CN112667149 B CN 112667149B CN 202011403129 A CN202011403129 A CN 202011403129A CN 112667149 B CN112667149 B CN 112667149B
- Authority
- CN
- China
- Prior art keywords
- metadata
- event
- information
- check point
- metadata information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012544 monitoring process Methods 0.000 claims abstract description 19
- 238000004590 computer program Methods 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 7
- 230000009467 reduction Effects 0.000 abstract description 2
- 230000008859 change Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000015556 catabolic process Effects 0.000 description 4
- 238000006731 degradation reaction Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 235000019633 pungent taste Nutrition 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Abstract
本申请公开了一种数据热度感知方法、装置、设备及介质,包括:监测Hadoop分布式文件系统的元数据状态,实时获取增量元数据信息;基于元数据事件类型对所述增量元数据信息进行分类;统计每个事件对象的每个所述元数据事件类型的事件操作数量,以确定所述事件对象的数据热度,其中,所述事件对象包括文件和目录。这样,基于增量元数据信息统计每个事件对象的每个元数据事件类型的事件操作数量,客户端在进行读写操作时无需执行特定的逻辑去记录热度信息,能够避免分布式文件系统读写性能的下降,同时丰富热度信息种类。
Description
技术领域
本申请涉及数据存储技术领域,特别涉及一种数据热度感知方法、装置、设备及介质。
背景技术
在大规模生产环境中,数据热度是衡量和优化数据存储策略的重要指标。HDFS(即Hadoop Distributed File System,Hadoop分布式文件系统)通常可根据数据热度实现数据分层,最大化利用不同硬件的IO(即Input/Output,输入/输出)性能。理想的存储状态是,将热数据存储在访问速度最快的设备中,而将冷数据存储在访问速度最慢的存储设备中,例如,可以将热数据迁移到固态硬盘以提升数据的读写性能。实现数据冷热分层的前提就需要收集存储数据的热度指标,利用该指标即可评估数据的IO特性以匹配最佳的存储策略。
目前,已有技术主要通过文件的最近修改时间或统计文件的访问次数以实现数据热度指标的统计,但是仍存在以下缺点:(1)统计的热度信息种类过于单一,仅通过文件的创建时长或访问次数难以满足IO特性评估的需求;(2)已有感知方式通过拦截HDFS客户端请求实现,客户端进行读写操作时需执行特定的逻辑去记录热度信息,导致HDFS读写性能下降。
发明内容
有鉴于此,本申请的目的在于提供一种数据热度感知方法、装置、设备及介质,能够避免分布式文件系统读写性能的下降,同时丰富热度信息种类。其具体方案如下:
第一方面,本申请公开了一种数据热度感知方法,包括:
监测Hadoop分布式文件系统的元数据状态,实时获取增量元数据信息;
基于元数据事件类型对所述增量元数据信息进行分类;
统计每个事件对象的每个所述元数据事件类型的事件操作数量,以确定所述事件对象的数据热度,其中,所述事件对象包括文件和目录。
可选的,所述监测Hadoop分布式文件系统的元数据状态,实时获取增量元数据信息,包括:
实时获取命名空间镜像中最新的检查点标识以得到第一检查点标识;其中,所述检查点标识为所述命名空间镜像中编辑日志中的事件标识;
对比所述第一检查标识与预设数据库中的第二检查点标识,其中,所述第二检查点标识为所述预设数据库中存储的最新检查点标识;
若所述第一检查点标识与所述第二检查点标识不一致,则利用所述第一检查点标识对应的元数据时间信息以及所述第二检查点标识对应的元数据时间信息确定元数据增量期间;
从所述命名镜像空间中提取所述元数据增量期间内所有的元数据信息,以得到所述增量元数据信息。
可选的,所述从所述命名镜像空间中提取所述元数据增量期间内所有的元数据信息,以得到所述增量元数据信息之后,还包括:
将所述第一检查点标识以及所述第一检查点标识对应的所述元数据时间信息添加至所述预设数据库。
可选的,所述从所述命名镜像空间中提取所述元数据增量期间内所有的元数据信息,以得到所述增量元数据信息,包括:
从所述命名镜像空间中提取所述元数据增量期间内所有的编辑日志,解析所述编辑日志,以得到所述增量元数据信息。
可选的,所述方法还包括:
根据预设白名单和/或预设黑名单对所述增量元数据信息进行过滤,得到目标增量元数据信息;其中,所述预设白名单或所述预设黑名单包括预设事件对象的路径信息。
可选的,所述实时获取增量元数据信息之后,还包括:
将所述增量元数据信息存放至缓存;
周期性的从所述缓存中拉取所述增量元数据信息,以进行所述基于元数据事件类型对所述增量元数据信息进行分类;统计每个事件对象的每个所述元数据事件类型的事件操作数量,以确定所述事件对象的数据热度的步骤。
可选的,所述方法还包括:
根据数据热度显示级别实时显示所述事件操作数量,其中,所述数据热度显示级别包括文件级别、目录级别以及集群级别。
第二方面,本申请公开了一种数据热度感知装置,包括:
文件系统监控模块,用于监测Hadoop分布式文件系统的元数据状态,实时获取增量元数据信息;
事件分析模块,用于基于元数据事件类型对所述增量元数据信息进行分类;统计每个事件对象的每个所述元数据事件类型的事件操作数量,以确定所述事件对象的数据热度,其中,所述事件对象包括文件和目录。
第三方面,本申请公开了一种电子设备,包括处理器和存储器;其中,
所述存储器,用于保存计算机程序;
所述处理器,用于执行所述计算机程序,以实现前述的数据热度感知方法。
第四方面,本申请公开了一种计算机可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现前述的数据热度感知方法。
可见,本申请监测Hadoop分布式文件系统的元数据状态,实时获取增量元数据信息,然后基于元数据事件类型对所述增量元数据信息进行分类,之后统计每个事件对象的每个所述元数据事件类型的事件操作数量,以确定所述事件对象的数据热度,其中,所述事件对象包括文件和目录。也即,本申请可以获取Hadoop分布式文件系统的增量元数据信息,然后基于增量元数据信息统计每个事件对象的每个元数据事件类型的事件操作数量,这样,客户端在进行读写操作时无需执行特定的逻辑去记录热度信息,能够避免分布式文件系统读写性能的下降,同时丰富热度信息种类。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请公开的一种数据热度感知方法流程图;
图2为本申请公开的一种事件对象的事件操作数量统计示意图;
图3为本申请公开的一种具体的元数据信息分析流程图;
图4为本申请公开的一种具体的数据热度感知方法流程图;
图5为本申请公开的一种数据热度感知装置结构示意图;
图6为本申请公开的一种具体的数据热度感知装置结构示意图;
图7为本申请公开的一种具体的数据热度感知装置结构示意图;
图8为本申请公开的一种电子设备结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前,已有技术主要通过文件的最近修改时间或统计文件的访问次数以实现数据热度指标的统计,但是仍存在以下缺点:(1)统计的热度信息种类过于单一,仅通过文件的创建时长或访问次数难以满足IO特性评估的需求;(2)已有感知方式通过拦截HDFS客户端请求实现,客户端进行读写操作时需执行特定的逻辑去记录热度信息,导致HDFS读写性能下降。为此,本申请提供了一种数据热度感知方案,能够避免分布式文件系统读写性能的下降,同时丰富热度信息种类。
参见图1所示,本申请实施例公开了一种数据热度感知方法,包括:
步骤S11:监测Hadoop分布式文件系统的元数据状态,实时获取增量元数据信息。
在具体的实施方式中,本实施例可以实时获取命名空间镜像(FsImage)中最新的检查点标识以得到第一检查点标识;其中,所述检查点标识为所述命名空间镜像中编辑日志中的事件标识;对比所述第一检查标识与预设数据库中的第二检查点标识,其中,所述第二检查点标识为所述预设数据库中存储的最新检查点标识;若所述第一检查点标识与所述第二检查点标识不一致,则利用所述第一检查点标识对应的元数据时间信息以及所述第二检查点标识对应的元数据时间信息确定元数据增量期间;从所述命名镜像空间中提取所述元数据增量期间内所有的元数据信息,以得到所述增量元数据信息。
并且,在得到所述增量元数据信息之后,还可以将所述第一检查点标识以及所述第一检查点标识对应的所述元数据时间信息添加至所述预设数据库。
进一步的,本实施例可以周期性的获取命名空间镜像中最新的检查点标识以得到第一检查点标识。
其中,检查点标识为所述命名空间镜像中编辑日志中的事件ID。也即,本申请实施例可以将编辑日志中的事件ID作为检查点标识。
并且,所述从所述命名镜像空间中提取所述元数据增量期间内所有的元数据信息,以得到所述增量元数据信息的具体过程为从所述命名镜像空间中提取所述元数据增量期间内所有的编辑日志(editlog),解析所述编辑日志,以得到所述增量元数据信息。
其中,所述增量元数据信息包括元数据检查点信息,元数据事件信息和元数据时间信息。
具体的,本实施例可以基于Linux inotify技术获取最新编辑日志的事件ID。
另外,若初次获取增量元数据信息,拉取所述命名镜像空间中所有已保存的编辑日志,以得到增量元数据信息,该增量元数据信息为全量的历史元数据。也即,本实施例可以对集群中的历史数据进行热度感知,对于集群中已存数据,旧editlog未设立检查点,在初次启动时将会拉取已存数据editlog,以提供给后续分析。而传统热度感知服务在部署后,仅能感知服务部署后的文件热度信息变化,对集群中已存数据无法分析其热度信息。
其中,inotify是linux系统从内核态到用户态的一套消息通知机制,能够将系统层面的变化通知到用户,可用于监督用户空间程序文件系统的变化;FsImage为HDFS命名空间由NameNode存储,FsImage存储了整个文件系统命名空间,包括块到文件的映射和文件系统属性;NameNode使用名为editlog的事务日志来记录对文件系统元数据所做的每个更改,包含事务的事件类型、时间戳、路径等信息。
步骤S12:基于元数据事件类型对所述增量元数据信息进行分类。
步骤S13:统计每个事件对象的每个所述元数据事件类型的事件操作数量,以确定所述事件对象的数据热度,其中,所述事件对象包括文件和目录。
在具体的实施方式中,可以根据事件对象对所述增量元数据信息进行分类,具体的,可以根据文件和目录对增量元数据信息进行分类,然后基于元数据事件类型对所述增量元数据信息进行分类,之后统计每个事件对象的每个所述元数据事件类型的事件操作数量。
进一步的,本实施例可以将事件操作数量保存至数据库,也即,将统计数据持久化至数据库中。并且,文件和目录可以分别建立两个表,file和directory,其表结构如图2所示,图2为本申请实施例公开的一种事件对象的事件操作数量统计示意图。
例如,参见图3所示,图3为本申请实施例公开的一种具体的元数据信息分析流程图。
元数据事件类型可以包括CREATE(创建事件)、APPEND(修改事件)、READ(读取事件)、RENAME(重命名事件)、METADATA(元数据变更事件)、DELETE(删除事件)六种,涵盖了主要的文件/目录操作类型,通过分析元数据事件信息,可按照上述六种事件进行分类;其中,CREATE事件为文件/目录的创建事件,APPEND事件为已存文件的修改事件,READ事件为文件的读取事件,RENAME事件为文件/目录的重命名事件,METADATA事件为文件/目录的权限变更/修改时间变更/归属用户组变更事件,DELETE事件为已存文件/目录的删除事件;完成事件分类后将根据事件对象对不同事件类型进行统计,将统计某目录或某文件在不同事件上的操作数,完成统计后持久化至数据库中。
需要指出的是,现有技术中,统计的热度信息种类过于单一,仅通过文件的创建时长或访问次数难以满足IO特性评估的需求,本实施例可以统计多类型事件的操作数量,从而多元化热度信息。
另外,本申请实施例可以在获取增量元数据信息之后,将所述增量元数据信息存放至缓存;周期性的从所述缓存中拉取所述增量元数据信息,以进行所述基于元数据事件类型对所述增量元数据信息进行分类;统计每个事件对象的每个所述元数据事件类型的事件操作数量,以确定所述事件对象的数据热度的步骤。
在具体的实施方式中可以多线程从所述缓存中拉取所述增量元数据信息。
并且,可以采用TCP/IP协议周期性的从所述缓存中拉取所述增量元数据信息。
进一步的,本实施例可以以客户端代理的形式监测Hadoop分布式文件系统的元数据状态,实时获取增量元数据信息。
可见,本申请实施例监测Hadoop分布式文件系统的元数据状态,实时获取增量元数据信息,然后基于元数据事件类型对所述增量元数据信息进行分类,之后统计每个事件对象的每个所述元数据事件类型的事件操作数量,以确定所述事件对象的数据热度,其中,所述事件对象包括文件和目录。也即,本申请可以获取Hadoop分布式文件系统的增量元数据信息,然后基于增量元数据信息统计每个事件对象的每个元数据事件类型的事件操作数量,这样,客户端在进行读写操作时无需执行特定的逻辑去记录热度信息,能够避免分布式文件系统读写性能的下降,同时丰富热度信息种类。
参见图4所示,本申请实施例公开了一种具体的数据热度感知方法,包括:
步骤S21:监测Hadoop分布式文件系统的元数据状态,实时获取增量元数据信息。
步骤S22:根据预设白名单和/或预设黑名单对所述增量元数据信息进行过滤,得到目标增量元数据信息;其中,所述预设白名单或所述预设黑名单包括预设事件对象的路径信息。
需要指出的是,编辑日志中包含文件或目录的路径信息,解析编辑日志,可以得到对应的路径信息,可根据路径信息进行过滤,过滤完毕后将数据存放至缓存中等待拉取。预设白名单中可以设定需要监督的文件或目录的路径信息,当设置生效后,将只监督白名单内路径的数据热度,即过滤白名单外的元数据信息。黑名单功能可设定需要忽略监督的文件或目录路径,当设置生效后,监督数据热度时将排除黑名单内路径的元数据信息。
步骤S23:基于元数据事件类型对所述目标增量元数据信息进行分类。
步骤S24:统计每个事件对象的每个所述元数据事件类型的事件操作数量,以确定所述事件对象的数据热度,其中,所述事件对象包括文件和目录。
可见,本申请可以通过预设白名单和/或预设黑名单细粒度化数据的热度感知。
另外,本实施例可以根据数据热度显示级别实时显示所述事件操作数量,其中,所述数据热度显示级别包括文件级别、目录级别以及集群级别。
具体的,文件级别将实时显示每一监督文件的每一元数据事件类型的事件操作数量;目录级别实时显示每一目录的每一元数据事件类型的事件操作数量,即该目录下所有文件每一元数据事件类型上的操作数总和;集群级别实时显示集群中所有文件每一元数据事件类型的操作数总和。即,对于任一元数据事件类型,将集群中所有文件该元数据事件类型的事件操作数量相加,得到对应的操作数总和
也即,可以根据事件对象对数据库中的事件操作数量进行汇总,显示不同级别的统计结果。
参见图5所示,本申请实施例公开了一种数据热度感知装置,包括:
文件系统监控模块11,用于监测Hadoop分布式文件系统的元数据状态,实时获取增量元数据信息;
事件分析模块12,用于基于元数据事件类型对所述增量元数据信息进行分类;统计每个事件对象的每个所述元数据事件类型的事件操作数量,以确定所述事件对象的数据热度,其中,所述事件对象包括文件和目录。
可见,本申请实施例监测Hadoop分布式文件系统的元数据状态,实时获取增量元数据信息,然后基于元数据事件类型对所述增量元数据信息进行分类,之后统计每个事件对象的每个所述元数据事件类型的事件操作数量,以确定所述事件对象的数据热度,其中,所述事件对象包括文件和目录。也即,本申请可以获取Hadoop分布式文件系统的增量元数据信息,然后基于增量元数据信息统计每个事件对象的每个元数据事件类型的事件操作数量,这样,客户端在进行读写操作时无需执行特定的逻辑去记录热度信息,能够避免分布式文件系统读写性能的下降,同时丰富热度信息种类。
所述文件系统监控模块11,具体包括:
检查点标识获取单元,用于实时获取命名空间镜像中最新的检查点标识以得到第一检查点标识;其中,所述检查点标识为所述命名空间镜像中编辑日志中的事件标识;
检查点标识比对单元,用于对比所述第一检查标识与预设数据库中的第二检查点标识,其中,所述第二检查点标识为所述预设数据库中存储的最新检查点标识;
数据增量期间确定单元,用于若所述第一检查点标识与所述第二检查点标识不一致,则利用所述第一检查点标识对应的元数据时间信息以及所述第二检查点标识对应的元数据时间信息确定元数据增量期间;
增量元数据获取单元,用于从所述命名镜像空间中提取所述元数据增量期间内所有的元数据信息,以得到所述增量元数据信息。
所述文件系统监控模块11,还包括:
检查点管理单元,用于在得到所述增量元数据信息之后,将所述第一检查点标识以及所述第一检查点标识对应的所述元数据时间信息添加至所述预设数据库。
其中,所述增量元数据获取单元,具体用于从所述命名镜像空间中提取所述元数据增量期间内所有的编辑日志,解析所述编辑日志,以得到所述增量元数据信息。
所述文件系统监控模块11,还包括:
数据过滤单元,用于根据预设白名单和/或预设黑名单对所述增量元数据信息进行过滤,得到目标增量元数据信息;其中,所述预设白名单或所述预设黑名单包括预设事件对象的路径信息。
所述文件系统监控模块,还包括:
数据存储单元,用于将所述增量元数据信息存放至缓存;
相应的,所述装置还包括:
数据拉取模块,周期性的从所述缓存中拉取所述增量元数据信息,以便事件分析模块12,基于元数据事件类型对所述增量元数据信息进行分类;统计每个事件对象的每个所述元数据事件类型的事件操作数量,以确定所述事件对象的数据热度。
在事件拉取模块中维护与文件系统监控模块的连接,采用TCP/IP协议构建传输通道,周期性拉取缓存区中的元数据信息。拉取为多线程批处理形式,拉取后由事件分析模块对元数据信息进一步处理。
所述装置还包括:
数据热度显示模块,用于根据数据热度显示级别实时显示所述事件操作数量,其中,所述数据热度显示级别包括文件级别、目录级别以及集群级别。
例如,参见图6所示,图6为本申请实施例公开的一种具体的数据热度感知装置结构示意图。参见图7所示,图7为本申请实施例公开的一种具体的数据热度感知装置结构示意图。检查点1即第一检查点标识对应检查点,检查点2即为第二检查点标识在命名空间镜像文件中对应的检查点。
参见图8所示,本申请实施例公开了一种电子设备,包括处理器21和存储器22;其中,所述存储器22,用于保存计算机程序;所述处理器21,用于执行所述计算机程序,以实现前述实施例公开的数据热度感知方法。
关于上述数据热度感知方法的具体过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
进一步的,本申请实施例还公开了一种计算机可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现前述实施例公开的数据热度感知方法。
关于上述数据热度感知方法的具体过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的一种数据热度感知方法、装置、设备及介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (8)
1.一种数据热度感知方法,其特征在于,包括:
监测Hadoop分布式文件系统的元数据状态,实时获取增量元数据信息;
基于元数据事件类型对所述增量元数据信息进行分类;
统计每个事件对象的每个所述元数据事件类型的事件操作数量,以确定所述事件对象的数据热度,其中,所述事件对象包括文件和目录;
所述监测Hadoop分布式文件系统的元数据状态,实时获取增量元数据信息,包括:
实时获取命名空间镜像中最新的检查点标识以得到第一检查点标识;其中,所述检查点标识为所述命名空间镜像中编辑日志中的事件标识;
对比所述第一检查点标识与预设数据库中的第二检查点标识,其中,所述第二检查点标识为所述预设数据库中存储的最新检查点标识;
若所述第一检查点标识与所述第二检查点标识不一致,则利用所述第一检查点标识对应的元数据时间信息以及所述第二检查点标识对应的元数据时间信息确定元数据增量期间;
从所述命名空间镜像中提取所述元数据增量期间内所有的元数据信息,以得到所述增量元数据信息;
所述从所述命名空间镜像中提取所述元数据增量期间内所有的元数据信息,以得到所述增量元数据信息,包括:
从所述命名空间镜像中提取所述元数据增量期间内所有的编辑日志,解析所述编辑日志,以得到所述增量元数据信息。
2.根据权利要求1所述的数据热度感知方法,其特征在于,所述从所述命名空间镜像中提取所述元数据增量期间内所有的元数据信息,以得到所述增量元数据信息之后,还包括:
将所述第一检查点标识以及所述第一检查点标识对应的所述元数据时间信息添加至所述预设数据库。
3.根据权利要求1所述的数据热度感知方法,其特征在于,所述方法还包括:
根据预设白名单和/或预设黑名单对所述增量元数据信息进行过滤,得到目标增量元数据信息;其中,所述预设白名单或所述预设黑名单包括预设事件对象的路径信息。
4.根据权利要求1所述的数据热度感知方法,其特征在于,所述实时获取增量元数据信息之后,还包括:
将所述增量元数据信息存放至缓存;
周期性的从所述缓存中拉取所述增量元数据信息,以进行所述基于元数据事件类型对所述增量元数据信息进行分类;统计每个事件对象的每个所述元数据事件类型的事件操作数量,以确定所述事件对象的数据热度的步骤。
5.根据权利要求1至4任一项所述的数据热度感知方法,其特征在于,还包括:
根据数据热度显示级别实时显示所述事件操作数量,其中,所述数据热度显示级别包括文件级别、目录级别以及集群级别。
6.一种数据热度感知装置,其特征在于,包括:
文件系统监控模块,用于监测Hadoop分布式文件系统的元数据状态,实时获取增量元数据信息;
事件分析模块,用于基于元数据事件类型对所述增量元数据信息进行分类;统计每个事件对象的每个所述元数据事件类型的事件操作数量,以确定所述事件对象的数据热度,其中,所述事件对象包括文件和目录;
所述文件系统监控模块11,具体包括:
检查点标识获取单元,用于实时获取命名空间镜像中最新的检查点标识以得到第一检查点标识;其中,所述检查点标识为所述命名空间镜像中编辑日志中的事件标识;
检查点标识比对单元,用于对比所述第一检查点标识与预设数据库中的第二检查点标识,其中,所述第二检查点标识为所述预设数据库中存储的最新检查点标识;
数据增量期间确定单元,用于若所述第一检查点标识与所述第二检查点标识不一致,则利用所述第一检查点标识对应的元数据时间信息以及所述第二检查点标识对应的元数据时间信息确定元数据增量期间;
增量元数据获取单元,用于从所述命名空间镜像中提取所述元数据增量期间内所有的元数据信息,以得到所述增量元数据信息;
所述增量元数据获取单元,具体用于从所述命名空间镜像中提取所述元数据增量期间内所有的编辑日志,解析所述编辑日志,以得到所述增量元数据信息。
7.一种电子设备,其特征在于,包括处理器和存储器;其中,
所述存储器,用于保存计算机程序;
所述处理器,用于执行所述计算机程序,以实现如权利要求1至5任一项所述的数据热度感知方法。
8.一种计算机可读存储介质,其特征在于,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的数据热度感知方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011403129.9A CN112667149B (zh) | 2020-12-04 | 2020-12-04 | 一种数据热度感知方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011403129.9A CN112667149B (zh) | 2020-12-04 | 2020-12-04 | 一种数据热度感知方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112667149A CN112667149A (zh) | 2021-04-16 |
CN112667149B true CN112667149B (zh) | 2023-12-29 |
Family
ID=75400907
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011403129.9A Active CN112667149B (zh) | 2020-12-04 | 2020-12-04 | 一种数据热度感知方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112667149B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116841978A (zh) * | 2023-08-31 | 2023-10-03 | 北京趋动智能科技有限公司 | 基于分布式文件系统的路径解析方法、装置及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103902479A (zh) * | 2014-03-27 | 2014-07-02 | 浪潮电子信息产业股份有限公司 | 一种基于元数据日志的元数据缓存快速重建机制 |
CN104484460A (zh) * | 2014-12-29 | 2015-04-01 | 浪潮(北京)电子信息产业有限公司 | 一种分布式文件系统元数据热度统计方法 |
WO2015072925A1 (en) * | 2013-11-14 | 2015-05-21 | Agency For Science, Technology And Research | Method for hot i/o selective placement and metadata replacement for non-volatile memory cache on hybrid drive or system |
CN107239569A (zh) * | 2017-06-27 | 2017-10-10 | 郑州云海信息技术有限公司 | 一种分布式文件系统子树存储方法及装置 |
CN107315547A (zh) * | 2017-07-18 | 2017-11-03 | 郑州云海信息技术有限公司 | 一种读取分布式元数据文件的方法及装置 |
CN107679193A (zh) * | 2017-10-09 | 2018-02-09 | 郑州云海信息技术有限公司 | 一种用于分布式文件系统的热度统计方法和系统 |
CN111506253A (zh) * | 2019-01-31 | 2020-08-07 | 阿里巴巴集团控股有限公司 | 一种分布式存储系统及其存储方法 |
CN111859038A (zh) * | 2020-06-19 | 2020-10-30 | 苏州浪潮智能科技有限公司 | 一种分布式存储系统数据热度统计方法、装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111857559A (zh) * | 2019-04-30 | 2020-10-30 | 伊姆西Ip控股有限责任公司 | 用于管理元数据的方法、装置和计算机程序产品 |
-
2020
- 2020-12-04 CN CN202011403129.9A patent/CN112667149B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015072925A1 (en) * | 2013-11-14 | 2015-05-21 | Agency For Science, Technology And Research | Method for hot i/o selective placement and metadata replacement for non-volatile memory cache on hybrid drive or system |
CN103902479A (zh) * | 2014-03-27 | 2014-07-02 | 浪潮电子信息产业股份有限公司 | 一种基于元数据日志的元数据缓存快速重建机制 |
CN104484460A (zh) * | 2014-12-29 | 2015-04-01 | 浪潮(北京)电子信息产业有限公司 | 一种分布式文件系统元数据热度统计方法 |
CN107239569A (zh) * | 2017-06-27 | 2017-10-10 | 郑州云海信息技术有限公司 | 一种分布式文件系统子树存储方法及装置 |
CN107315547A (zh) * | 2017-07-18 | 2017-11-03 | 郑州云海信息技术有限公司 | 一种读取分布式元数据文件的方法及装置 |
CN107679193A (zh) * | 2017-10-09 | 2018-02-09 | 郑州云海信息技术有限公司 | 一种用于分布式文件系统的热度统计方法和系统 |
CN111506253A (zh) * | 2019-01-31 | 2020-08-07 | 阿里巴巴集团控股有限公司 | 一种分布式存储系统及其存储方法 |
CN111859038A (zh) * | 2020-06-19 | 2020-10-30 | 苏州浪潮智能科技有限公司 | 一种分布式存储系统数据热度统计方法、装置 |
Non-Patent Citations (2)
Title |
---|
一种HDFS元数据分级存储策略;马东;邵维专;;现代计算机(专业版)(第08期);全文 * |
薛伟 ; 朱明 ; .一种分布式元数据的动态管理系统.计算机工程.2012,全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN112667149A (zh) | 2021-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7483918B2 (en) | Dynamic physical database design | |
US9317539B2 (en) | Time-series database setup automatic generation method, setup automatic generation system and monitoring server | |
US8321479B2 (en) | Efficient processing of time series data | |
US20100153431A1 (en) | Alert triggered statistics collections | |
US10031829B2 (en) | Method and system for it resources performance analysis | |
US6804627B1 (en) | System and method for gathering and analyzing database performance statistics | |
CN102946319B (zh) | 网络用户行为信息分析系统及其分析方法 | |
US20120023221A1 (en) | Event correlation in cloud computing | |
CN111881011A (zh) | 日志管理方法、平台、服务器及存储介质 | |
US11201802B2 (en) | Systems and methods for providing infrastructure metrics | |
CN111241122B (zh) | 任务监测方法、装置、电子设备和可读存储介质 | |
US8140919B2 (en) | Display of data used for system performance analysis | |
CN112667149B (zh) | 一种数据热度感知方法、装置、设备及介质 | |
CN111414410A (zh) | 数据处理方法、装置、设备和存储介质 | |
CN113761013A (zh) | 时序数据预统计方法、装置及存储介质 | |
CN109947730A (zh) | 元数据恢复方法、装置、分布式文件系统及可读存储介质 | |
CN114003568A (zh) | 数据处理的方法及相关装置 | |
CN111083008A (zh) | 一种基于nginx的流量采集分析方法 | |
US5559726A (en) | Method and system for detecting whether a parameter is set appropriately in a computer system | |
CN107729206A (zh) | 告警日志的实时分析方法、系统和计算机处理设备 | |
CN114531361A (zh) | 一种分布式系统的服务拓扑分析方法、装置及存储介质 | |
CN110941536B (zh) | 监控方法及系统、第一服务器集群 | |
CN112527887A (zh) | 一种应用于Gbase数据库的可视化运维方法及装置 | |
JP2009134535A (ja) | ソフトウェア開発支援装置、ソフトウェア開発支援方法及びソフトウェア開発支援プログラム | |
CN116127149B (zh) | 图数据库集群健康度的量化方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |