CN109951313A - 一种Hadoop云平台的监控装置及方法 - Google Patents

一种Hadoop云平台的监控装置及方法 Download PDF

Info

Publication number
CN109951313A
CN109951313A CN201910046468.7A CN201910046468A CN109951313A CN 109951313 A CN109951313 A CN 109951313A CN 201910046468 A CN201910046468 A CN 201910046468A CN 109951313 A CN109951313 A CN 109951313A
Authority
CN
China
Prior art keywords
hadoop
data
real
time monitoring
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910046468.7A
Other languages
English (en)
Other versions
CN109951313B (zh
Inventor
邹学玉
喻维明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yangtze University
Original Assignee
Yangtze University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yangtze University filed Critical Yangtze University
Priority to CN201910046468.7A priority Critical patent/CN109951313B/zh
Publication of CN109951313A publication Critical patent/CN109951313A/zh
Application granted granted Critical
Publication of CN109951313B publication Critical patent/CN109951313B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明提出一种Hadoop云平台的监控装置及方法,所述装置包括数据采集模块、数据传输模块、数据处理模块;所述数据采集模块用于采集节点上的基础设备和Hadoop组件的实时监控数据;所述数据传输模块用于将各个节点上的实时监控数据发送至所述数据处理模块;所述数据处理模块用于对所述实时监控数据进行筛选、转换、计算和对比,实现数据可视化、报警和数据存储功能。本发明可以实时监控Hadoop平台的运行情况,以提高Hadoop云平台的可靠性和稳定性,并在Hadoop平台出现问题时通知管理人员,方便管理人员及时地解决问题,对实时监控数据进行保存,方便管理人员随时对历史数据进行分析。本发明属于分布式监控技术领域。

Description

一种Hadoop云平台的监控装置及方法
技术领域
本发明属于分布式监控技术领域,特别涉及一种Hadoop云平台的监控装置及方法。
背景技术
Hadoop框架因为其自身的特点成为构建云平台的热门之一,它所搭建的Hadoop平台需要每个节点的进程都能正常工作。随着Hadoop平台节点数量日益增多,平台管理维护难度增加,这就需要一个监控方法实时监控集群各个节点的性能状况,并能将出现的问题及时通知管理人员。完善的云平台监控方法可以提高云计算的可靠性、安全性和稳定性。随着云计算技术的飞速发展,集群监控已经成为云平台搭建不可缺少的一部分,它对云平台稳定性的监控有着重要作用,云平台的监控也将成为研究热点之一。
目前,适用于云平台的开源监控系统有MRTG(Multi Router Traffic Grapher)、Cacti、Nagios、Ganglia、Zabbix等。其中,MRTG、Cacti和Ganglia无告警机制,平台故障无法及时通知管理人员;Nagios无采集流量数据功能,且告警方式单一;Zabbix随着监控数据的增大会使数据库的写入成为瓶颈,后期开发要求高;由此说明现有的监控系统均存在一些不足之处。
专利号CN 108848174 A的专利文献公开了一种云平台网络监控系统,该发明通过数据库和手持监控终端可以将各种监控信息存储在云平台的数据库中,而且进行分类存储,云平台可以自由调度数据库的信息。但是该技术方案存在无法直观查看监控数据和无法报警等缺点。
专利号为CN105376100A的专利文献公开了一种适用于云平台资源监控的分布式告警规则评估方法,首先定期收集监控数据;然后设置监控规则;接着启动所有分布式告警规则评估服务;下一步每个告警规则评估服务广播自身的服务状态信息,每个判断自己的服务启动时间是否最早,若启动时间最早则为主服务并执行告警规则评估主服务的流程,若启动时间不是最早则执行告警规则评估非主服务。但是该技术方案存在自动化程度不高、告警处理的灵活性不够等缺点。
专利号为CN108880943A的专利文献公开了一种异构云平台的监控系统,该发明利用信息采集设备获取所述云平台上的设备数据,并将数据发送到监控服务器。但是该技术方案没有存储监控数据,缺少历史数据分析和缺少报警等缺点。
发明内容
本发明提出一种Hadoop云平台的监控装置及方法,以解决Hadoop云平台的监控告警方式单一、开发和维护难度高、可扩展性差、监控不全面等问题,提高了运维的质量和效率。
本发明提出一种Hadoop云平台的监控装置,在搭建Hadoop云平台时设定一个主节点,其余节点为从节点,所述装置包括数据采集模块、数据传输模块、数据处理模块;所述数据采集模块、数据传输模块分布在Hadoop云平台的每个节点上,所述数据处理模块位于Hadoop云平台的主节点上;
所述数据采集模块用于利用SNMP协议、日志文件和JMX接口采集节点上的基础设备和Hadoop组件的实时监控数据;
所述数据传输模块用于利用Nagios组件NRPE将各个节点上的实时监控数据发送至所述数据处理模块;
所述数据处理模块用于对所述实时监控数据进行筛选、转换、计算和对比,实现数据可视化、报警和数据存储功能;
可选的,所述基础设备包括Hadoop云平台中的每个Linux主机;所述Hadoop组件包括HDFS、MapReduce、HBase;所述实时监控数据包括:Linux主机资源情况、Hadoop集群的情况、HDFS使用的情况、MapReduce的运行情况、HBase的使用情况。
可选的,所述NRPE包括check_nrpe插件和NRPE守护进程,所述check_nrpe插件位于Hadoop主节点上,所述NRPE守护进程位于其它从节点上。
可选的,所述数据处理模块具体包括:
数据可视化单元:将所述实时监控数据与预设的门限阈值进行比较,来判定监控状态;借助PNP4Nagios插件,以前一次检测时间为起点、本次检测时间为终点的方式绘制检测曲线,以图形的方式展示所述实时监控数据和监控状态;使用Nagios框架对整个Hadoop云平台的监控进行管理与维护;
报警单元:根据所述监控状态判定是否报警,若报警,则生成报警信息;通过包括短信、QQ或微信的方式将报警信息发送给预先设定的联系人;当处理完问题,监控状态恢复正常时,发送报警取消信息;
数据存储单元:根据监控对象名称在HBase中创建对应表,将所述实时监控数据转换为HBase中表的数据格式,并按照监控时间保存在所述对应表中。
可选的,所述预设的门限阈值包括第一阈值t1、第二阈值t2,且t1<t2;若所述实时监控数据小于第一阈值t1,则判定监控状态为正常“OK”,若所述实时监控数据大于第一阈值t1且小于第二阈值t2,则判定监控状态为异常“WARNING”,若所述实时监控数据大于第二阈值t2,则判定监控状态为严重错误“CRITICAL”,若出现未知错误或无法获取监控数据,则判定监控状态为未知错误或监控停止“UNKNOWN”;当监控状态为“WARNING”、“CRITICAL”、“UNKNOWN”均报警。
本发明还提供一种一种Hadoop云平台的监控方法,所述方法包括:
S1、搭建一个拥有多个节点的Hadoop云平台,设定一个主节点,其余节点为从节点,在Hadoop平台上安装HBase数据库;
S2、在各个节点上编写脚本,按预设监控周期采集基础设备和Hadoop组件的实时监控数据;
S3、在所述主节点上先后安装Nagios框架和NRPE,在Nagios安装目录配置Nagios文件,设置Nagios检测策略;在所述从节点上配置NRPE的守护进程NRPE Daemon;将各个节点的实时监控数据传输至所述主节点上。
S4、在所述主节点上安装并配置可视化插件PNP4Nagios,将所述实时监控数据与预设的门限阈值进行比较,来判定监控状态,按所述预设检测周期绘制检测曲线,以图形的方式展示所述实时监控数据和监控状态;
S5、在所述主节点上配置报警模块,根据所述监控状态判定是否报警,若报警,则通过短信、QQ或微信的方式发送报警信息给预先设定的联系人;当监控状态恢复正常时,发送报警取消信息;
S6、根据监控对象名称在HBase数据库中创建对应表,将所述实时监控数据按照监控时间保存至HBase数据库中所述对应表中;
S7、查看Hadoop平台的监控情况。
可选的,所述步骤S2的具体过程为:
通过Python处理Linux系统主机的资源日志来获取所需系统资源的实时监控数据;利用SNMP协议,通过snmpwalk命令获取网络流量的实时监控数据;利用JMX接口查看Hadoop组件的数据并通过Python获取所需的实时监控数据;所述Hadoop组件包括HDFS、MapReduce、HBase。
可选的,所述步骤S4中,所述将所述实时监控数据与预设的门限阈值进行比较,来判定监控状态的具体过程为:
为每一项实时监控数据分别预设门限阈值,所述预设门限阈值包括第一阈值t1和第二阈值t2,且t1<t2;若所述实时监控数据小于第一阈值t1,则判定监控状态为正常“OK”,若所述实时监控数据大于第一阈值t1且小于第二阈值t2,则判定监控状态为异常“WARNING”,若所述实时监控数据大于第二阈值t2,则判定监控状态为严重错误“CRITICAL”,若出现未知错误或无法获取监控数据,则判定监控状态为未知错误或监控停止“UNKNOWN”。
可选的,所述步骤S5中,所述在所述主节点上配置报警模块的具体实现方式为:
通过OneAlert创建Nagios应用并获取key值,在所述主机上安装onealert-agent,在安装目录配置所述key值并添加联系人,实现短信报警;
下载Python的第三方库wxpy或qqbot编写Python脚本实现QQ或微信报警。
可选的,所述步骤S7的具体方式包括:
在Hadoop平台的主节点上,通过访问Nagios框架自带的Web界面,查看Hadoop平台的监控情况;
在Hadoop平台的其它从节点上,通过Hadoop平台每台主机之间配置的SSH登录所述主节点,查看Hadoop平台的监控情况;
在其它计算机上,使用TeamViewer连接所述主节点,查看Hadoop平台的监控情况。
本发明的有益效果如下:本发明不仅有效地解决了告警方式单一、开发和维护难度高、可扩展性差、监控不全面等问题,还提高了运维的质量,操作简单、易扩展、维护方便、可多方式报警,为云平台高效的工作提供了极大的保障。监控数据可视化不仅方便了管理人员对异常状态的分析,还可以预测监控对象未来的工作状态;报警信息方便管理人员随时掌握Hadoop云平台的运行情况,在平台出现问题后能及时得到解决;监控数据存储使数据持久化,方便管理人员随时查看、分析和处理以评估平台性能。
附图说明
为了更清楚地说明本发明的技术方案,下面将对本发明技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明Hadoop云平台监控装置的功能架构示意图;
图2是本发明所述监控装置中数据处理模块的结构示意图;
图3是本发明所述监控装置中数据传输模块的原理示意图;
图4是本发明的提供的Hadoop云平台监控方法流程示意图。
具体实施方式
本发明提供一种Hadoop云平台的监控装置及方法,在使用Nagios框架的基础上,通过解决Nagios自身的不足,实现对Hadoop云平台的全面监控,具有实时性监控、操作简单、易扩展、维护方便和多方式报警的特点。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,本发明Hadoop云平台监控装置的功能架构示意图,该Hadoop云平台拥有多个节点,其中一个节点设置为为主节点,每个Hadoop主机即为一个节点。
所述装置包括数据采集模块110、数据传输模块120、数据处理模块130;所述数据采集模块110、数据传输模块120分布在Hadoop云平台的每个节点上,所述数据处理模块130位于Hadoop云平台的主节点上;
具体的,假设Hadoop1主机为主节点,其他节点Hadoop2主机,Hadoop3主机,…,Hadoop n主机均为从节点,各个节点上的数据采集模块110采集各自主机上的实时监控数据,然后通过数据传输模块120将实时监控数据发送到主节点Hadoop1的数据处理模块130。
所述数据采集模块110用于利用SNMP(Simple Network Management Protocol)协议、日志文件和JMX(Java Management Extensions)采集节点上的基础设备和Hadoop组件的实时监控数据。
各个节点上基础设备包括Hadoop云平台中的每个Linux主机;所述Hadoop组件包括HDFS、MapReduce、HBase;所述实时监控数据包括Linux主机资源情况(CPU平均负载、内存使用量、磁盘使用量、进程数、网络带宽、网卡输入输出流量、磁盘读写速度等),HDFS(Hadoop Distributed File System)的情况(HDFS的总容量、HDFS使用量、HDFS可用量、DataNode数量、Block数量、Block读写次数、RPC次数等),Hadoop平台的情况(平台节点总个数、存活个数、死亡个数、MemNonHeapUsedM大小、MemHeapUsedM大小、GC次数、线程数量等),MapReduce的任务情况(记录任务ID、任务状态,监控任务时间、任务数据量等),HBase的情况(RegionServer个数、Region个数、Store个数、GC次数、线程数量等)。
所述数据传输模块120用于利用Nagios组件NRPE(Nagios Remote PluginExecutor)将各个节点上的实时监控数据发送至所述数据处理模块;
Nagios是一个可以运行在Linux、Unix和Windows操作系统上的开源监控框架,用户可根据需求编写插件来完成监控;所述NRPE由check_nrpe插件和NRPE守护进程两部分组成,check_nrpe插件位于主节点Hadoop1上,NRPE的守护进程位于其它节点上;
所述数据处理模块130用于对所述实时监控数据进行筛选、转换、计算和对比,实现数据可视化、报警和数据存储功能。
请参阅图2,数据处理模块的结构示意图,所述数据处理模块130具体包括:
数据可视化单元1301:将所述实时监控数据与预设的门限阈值进行比较,来判定监控状态;借助PNP4Nagios插件,以前一次检测时间为起点、本次检测时间为终点的方式绘制检测曲线,以图形的方式展示所述实时监控数据和监控状态;使用Nagios框架对整个Hadoop云平台的监控进行管理与维护;
所述监控状态有正常“OK”、异常“WARNING”、严重错误“CRITICAL”、未知错误或监控停止“UNKNOWN”;所述预设的门限阈值包括第一阈值t1、第二阈值t2,且t1<t2;若所述实时监控数据小于第一阈值t1,则判定监控状态为正常“OK”,若所述实时监控数据大于第一阈值t1且小于第二阈值t2,则判定监控状态为“WARNING”,若所述实时监控数据大于第二阈值t2,则判定监控状态为“CRITICAL”,若出现未知错误或无法获取监控数据,则判定监控状态为“UNKNOWN”。
报警单元1302:根据所述监控状态判定是否报警,若报警,则生成报警信息;通过包括短信、QQ或微信的方式将报警信息发送给预先设定的联系人;当处理完问题,监控状态恢复正常时,发送报警取消信息;当监控状态为“WARNING”、“CRITICAL”、“UNKNOWN”均报警;
数据存储单元1303:根据监控对象名称在HBase中创建对应表,将所述实时监控数据转换为HBase中表的数据格式,并按照监控时间保存在所述对应表中。
请参阅图3,图3为本发明所述装置中数据传输模块的原理图。其中hadoop1为主节点,Hadoop2,…,Hadoop n为从节点,在主节点Hadoop1上安装Nagios框架和NRPE,并在主节点上安装check_nrpe插件,在从节点上配置NRPE的守护进程NRPE Daemon。
主节点收集自身及从节点的实时监控数据,当主节点Hadoop1收集其它节点(Hadoop2,…,Hadoop n)的实时监控数据时,需要进行以下步骤:
1)Nagios执行Hadoop1上的check_nrpe插件;
2)插件check_nrpe将会联系其它节点上的NRPE Daemon;
3)NRPE Daemon调用相应节点上的数据采集模块采集实时监控数据;
4)其它节点将采集的实时监控数据通过SSL传递到相应的NRPE Daemon;
5)RPE Daemon将实时监控数据传到Hadoop1的Nagios上;
请参阅图4,本发明还提供本发明还提供一种Hadoop云平台的监控方法,所述方法包括:
S1、搭建一个拥有多个节点的Hadoop云平台,设定一个主节点,其余节点为从节点,在Hadoop平台上安装HBase数据库;
首先选择多台计算机配置Hadoop安装环境,安装Hadoop,设定Hadoop平台的主节点名称为Hadoop1,其它节点名称依次为Hadoop2,…,Hadoop n,然后在Hadoop平台上安装HBase。
S2、在各个节点上编写脚本,按预设监控周期采集基础设备和Hadoop组件的实时监控数据;
Hadoop云平台的每个节点均是Linux系统的主机,该系统资源均实时记录在系统资源日志中,通过Python处理系统资源日志来获取所需系统资源的实时监控数据;利用SNMP协议,通过snmpwalk命令获取网络流量的实时监控数据;Hadoop组件(HDFS、MapReduce、HBase)均提供JMX接口,利用JMX接口查看Hadoop组件的数据并通过Python获取所需的实时监控数据。
S3、在所述主节点上先后安装Nagios框架和NRPE,在Nagios安装目录配置Nagios文件,设置Nagios检测策略;在所述从节点上配置NRPE的守护进程NRPE Daemon;将各个节点的实时监控数据传输至所述主节点上。
S4、在所述主节点上安装并配置可视化插件PNP4Nagios,将所述实时监控数据与预设的门限阈值进行比较,来判定监控状态,按所述预设检测周期绘制检测曲线,以图形的方式展示所述实时监控数据和监控状态;
判定监控状态时,为每一项实时监控数据分别预设门限阈值,所述预设门限阈值包括第一阈值t1和第二阈值t2,且t1<t2;若所述实时监控数据小于第一阈值t1,则判定监控状态为正常“OK”,若所述实时监控数据大于第一阈值t1且小于第二阈值t2,则判定监控状态为异常“WARNING”,若所述实时监控数据大于第二阈值t2,则判定监控状态为严重错误“CRITICAL”,若出现未知错误或无法获取监控数据,则判定监控状态为未知错误或监控停止“UNKNOWN”。
S5、在所述主节点上配置报警模块,根据所述监控状态判定是否报警,若报警,则通过短信、QQ或微信的方式发送报警信息给预先设定的联系人;当监控状态恢复正常时,发送报警取消信息;
监控状态为“WARNING”、“CRITICAL”、“UNKNOWN”均发送报警信息,所述步骤S5中,所述在所述主节点上配置报警模块的具体实现方式为:
通过OneAlert创建Nagios应用并获取key值,在所述主机上安装onealert-agent,在安装目录配置所述key值并添加联系人,实现短信报警;
具体的,在OneAlert官网注册一个账号,登陆后按以下步骤配置:选择N agios标签页进入其配置界面,然后创建Nagios应用,设置告警时间间隔30mi n,获取Nagios应用的key值。在Hadoop1上安装onealert-agent,在安装目录配置110monitor.cfg中pager为Nagios应用的key值;在contacts.cfg中添加联系人比如“110monitor;”在nagios.cfg的最后一行添加cfg_file=/usr/local/nagios/et c/objects/110monitor.cfg。
下载Python的第三方库wxpy或qqbot编写Python脚本实现QQ或微信报警。在此思想的基础上,还可以根据平台或监控需要自由定义其他报警方式。
S6、根据监控对象名称在HBase数据库中创建对应表,将所述实时监控数据按照监控时间保存至HBase数据库中所述对应表中;
S7、查看Hadoop平台的监控情况。
查看Hadoop平台的监控情况的方式有多种:
在Hadoop平台的主节点上,通过访问Nagios框架自带的Web界面,查看Hadoop平台的监控情况;
在Hadoop平台的其它从节点上,通过Hadoop平台每台主机之间配置的SSH登录所述主节点,查看Hadoop平台的监控情况;
在其它计算机上,使用TeamViewer连接所述主节点,查看Hadoop平台的监控情况。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种Hadoop云平台的监控装置,其特征在于,在搭建Hadoop云平台时设定一个主节点,其余节点为从节点,所述装置包括数据采集模块、数据传输模块、数据处理模块;所述数据采集模块、数据传输模块分布在Hadoop云平台的每个节点上,所述数据处理模块位于Hadoop云平台的主节点上;
所述数据采集模块用于利用SNMP协议、日志文件和JMX接口采集节点上的基础设备和Hadoop组件的实时监控数据;
所述数据传输模块用于利用Nagios组件NRPE将各个节点上的实时监控数据发送至所述数据处理模块;
所述数据处理模块用于对所述实时监控数据进行筛选、转换、计算和对比,实现数据可视化、报警和数据存储功能。
2.根据权利要求1所述Hadoop云平台的监控装置,其特征在于,所述数据采集模块中,所述基础设备包括Hadoop云平台中的每个Linux主机;所述Hadoop组件包括HDFS、MapReduce、HBase;所述实时监控数据包括:Linux主机资源情况、Hadoop集群的情况、HDFS使用的情况、MapReduce的运行情况、HBase的使用情况。
3.根据权利要求1所述Hadoop云平台的监控装置,其特征在于,所述数据传输模块中,所述NRPE包括check_nrpe插件和NRPE守护进程,所述check_nrpe插件位于Hadoop主节点上,所述NRPE守护进程位于其它从节点上。
4.根据权利要求1所述Hadoop云平台的监控装置,其特征在于,所述数据处理模块具体包括:
数据可视化单元:将所述实时监控数据与预设的门限阈值进行比较,来判定监控状态;借助PNP4Nagios插件,以前一次检测时间为起点、本次检测时间为终点的方式绘制检测曲线,以图形的方式展示所述实时监控数据和监控状态;使用Nagios框架对整个Hadoop云平台的监控进行管理与维护;
报警单元:根据所述监控状态判定是否报警,若报警,则生成报警信息;通过包括短信、QQ或微信的方式将报警信息发送给预先设定的联系人;当处理完问题,监控状态恢复正常时,发送报警取消信息;
数据存储单元:根据监控对象名称在HBase中创建对应表,将所述实时监控数据转换为HBase中表的数据格式,并按照监控时间保存在所述对应表中。
5.根据权利要求4所述Hadoop云平台的监控装置,其特征在于,所述预设的门限阈值包括第一阈值t1、第二阈值t2,且t1<t2;若所述实时监控数据小于第一阈值t1,则判定监控状态为正常“OK”,若所述实时监控数据大于第一阈值t1且小于第二阈值t2,则判定监控状态为异常“WARNING”,若所述实时监控数据大于第二阈值t2,则判定监控状态为严重错误“CRITICAL”,若出现未知错误或无法获取监控数据,则判定监控状态为未知错误或监控停止“UNKNOWN”;当监控状态为“WARNING”、“CRITICAL”、“UNKNOWN”均报警。
6.一种Hadoop云平台的监控方法,其特征在于,所述方法包括:
S1、搭建一个拥有多个节点的Hadoop云平台,设定一个主节点,其余节点为从节点,在Hadoop平台上安装HBase数据库;
S2、在各个节点上编写脚本,按预设监控周期采集基础设备和Hadoop组件的实时监控数据;
S3、在所述主节点上先后安装Nagios框架和NRPE,在Nagios安装目录配置Nagios文件,设置Nagios检测策略;在所述从节点上配置NRPE的守护进程NRPE Daemon;将各个节点的实时监控数据传输至所述主节点上。
S4、在所述主节点上安装并配置可视化插件PNP4Nagios,将所述实时监控数据与预设的门限阈值进行比较,来判定监控状态,按所述预设检测周期绘制检测曲线,以图形的方式展示所述实时监控数据和监控状态;
S5、在所述主节点上配置报警模块,根据所述监控状态判定是否报警,若报警,则通过短信、QQ或微信的方式发送报警信息给预先设定的联系人;当监控状态恢复正常时,发送报警取消信息;
S6、根据监控对象名称在HBase数据库中创建对应表,将所述实时监控数据按照监控时间保存至HBase数据库中所述对应表中;
S7、查看Hadoop平台的监控情况。
7.根据权利要求6所述Hadoop云平台的监控方法,其特征在于,所述步骤S2的具体过程为:
通过Python处理Linux系统主机的资源日志来获取所需系统资源的实时监控数据;利用SNMP协议,通过snmpwalk命令获取网络流量的实时监控数据;利用JMX接口查看Hadoop组件的数据并通过Python获取所需的实时监控数据;所述Hadoop组件包括HDFS、MapReduce、HBase。
8.根据权利要求6所述Hadoop云平台的监控方法,其特征在于,所述步骤S4中,所述将所述实时监控数据与预设的门限阈值进行比较,来判定监控状态的具体过程为:
为每一项实时监控数据分别预设门限阈值,所述预设门限阈值包括第一阈值t1和第二阈值t2,且t1<t2;若所述实时监控数据小于第一阈值t1,则判定监控状态为正常“OK”,若所述实时监控数据大于第一阈值t1且小于第二阈值t2,则判定监控状态为异常“WARNING”,若所述实时监控数据大于第二阈值t2,则判定监控状态为严重错误“CRITICAL”,若出现未知错误或无法获取监控数据,则判定监控状态为未知错误或监控停止“UNKNOWN”。
9.根据权利要求6所述Hadoop云平台的监控方法,其特征在于,所述步骤S5中,所述在所述主节点上配置报警模块的具体实现方式为:
通过OneAlert创建Nagios应用并获取key值,在所述主机上安装onealert-agent,在安装目录配置所述key值并添加联系人,实现短信报警;
下载Python的第三方库wxpy或qqbot编写Python脚本实现QQ或微信报警。
10.根据权利要求6所述Hadoop云平台的监控方法,其特征在于,所述步骤S7的具体方式包括:
在Hadoop平台的主节点上,通过访问Nagios框架自带的Web界面,查看Hadoop平台的监控情况;
在Hadoop平台的其它从节点上,通过Hadoop平台每台主机之间配置的SSH登录所述主节点,查看Hadoop平台的监控情况;
在其它计算机上,使用TeamViewer连接所述主节点,查看Hadoop平台的监控情况。
CN201910046468.7A 2019-01-18 2019-01-18 一种Hadoop云平台的监控装置及方法 Active CN109951313B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910046468.7A CN109951313B (zh) 2019-01-18 2019-01-18 一种Hadoop云平台的监控装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910046468.7A CN109951313B (zh) 2019-01-18 2019-01-18 一种Hadoop云平台的监控装置及方法

Publications (2)

Publication Number Publication Date
CN109951313A true CN109951313A (zh) 2019-06-28
CN109951313B CN109951313B (zh) 2022-04-19

Family

ID=67006672

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910046468.7A Active CN109951313B (zh) 2019-01-18 2019-01-18 一种Hadoop云平台的监控装置及方法

Country Status (1)

Country Link
CN (1) CN109951313B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110611603A (zh) * 2019-09-09 2019-12-24 苏州浪潮智能科技有限公司 一种集群网卡监控方法及装置
CN110971483A (zh) * 2019-11-08 2020-04-07 苏宁云计算有限公司 一种压力测试的方法、装置及计算机系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104539689A (zh) * 2014-12-23 2015-04-22 西安电子科技大学 一种云平台下的资源监控方法
CN105718351A (zh) * 2016-01-08 2016-06-29 北京汇商融通信息技术有限公司 一种面向Hadoop集群的分布式监控管理系统
CN106375721A (zh) * 2016-09-14 2017-02-01 重庆邮电大学 一种基于云平台的智能视频监控系统
CN106533792A (zh) * 2016-12-12 2017-03-22 北京锐安科技有限公司 一种监控和配置资源的方法及装置
CN107066511A (zh) * 2017-01-20 2017-08-18 龚杰 一种分布式时间序列地理信息服务系统及方法
CN108763310A (zh) * 2018-04-25 2018-11-06 江苏鸣鹤云科技有限公司 一种高可用的大数据平台

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104539689A (zh) * 2014-12-23 2015-04-22 西安电子科技大学 一种云平台下的资源监控方法
CN105718351A (zh) * 2016-01-08 2016-06-29 北京汇商融通信息技术有限公司 一种面向Hadoop集群的分布式监控管理系统
CN106375721A (zh) * 2016-09-14 2017-02-01 重庆邮电大学 一种基于云平台的智能视频监控系统
CN106533792A (zh) * 2016-12-12 2017-03-22 北京锐安科技有限公司 一种监控和配置资源的方法及装置
CN107066511A (zh) * 2017-01-20 2017-08-18 龚杰 一种分布式时间序列地理信息服务系统及方法
CN108763310A (zh) * 2018-04-25 2018-11-06 江苏鸣鹤云科技有限公司 一种高可用的大数据平台

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
钱涛,李建元: "基于Nagios的Hadoop集群性能监控", 《杭州电子科技大学学报(自然科学版)》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110611603A (zh) * 2019-09-09 2019-12-24 苏州浪潮智能科技有限公司 一种集群网卡监控方法及装置
CN110971483A (zh) * 2019-11-08 2020-04-07 苏宁云计算有限公司 一种压力测试的方法、装置及计算机系统
CN110971483B (zh) * 2019-11-08 2021-11-09 苏宁云计算有限公司 一种压力测试的方法、装置及计算机系统

Also Published As

Publication number Publication date
CN109951313B (zh) 2022-04-19

Similar Documents

Publication Publication Date Title
CN104506393B (zh) 一种基于云平台的系统监控方法
CN105718351B (zh) 一种面向Hadoop集群的分布式监控管理系统
CN105282772B (zh) 无线网数通设备监控系统及设备监控方法
CN102447570B (zh) 一种基于健康度分析的监控装置及方法
CN110493348A (zh) 一种基于物联网的智能监控报警系统
CN106487574A (zh) 自动化运行维护监测系统
CN103295155B (zh) 证券核心业务系统监控方法
JP2004021549A (ja) ネットワーク監視システムおよびプログラム
CN102014020A (zh) 一种用于对网络设备进行网络监控的设备及其方法
CN105045700A (zh) 一种实时监控应用系统用户体验指标的方法
CN107124315A (zh) 基于snmp及ipmi协议的多服务器监测系统及监测方法
CN103716173A (zh) 一种存储监控系统及监控告警发布的方法
CN112698915A (zh) 多集群统一监控告警方法、系统、设备及存储介质
CN106789239A (zh) 面向电力业务的信息应用系统故障趋势预测方法及装置
CN114244676A (zh) 一种智能it综合网关系统
CN109905262A (zh) 一种cdn设备服务的监控系统及监控方法
CN109951313A (zh) 一种Hadoop云平台的监控装置及方法
CN109714222A (zh) 高可用的分布式计算机监控系统及其监控方法
CN108599978B (zh) 一种云监控方法和装置
CN109347684A (zh) 一种网络服务器监测系统
CN110798660B (zh) 基于云联邦音视频融合平台的一体化运维系统
CN110677293B (zh) 一种基于机房运维管理平台的告警系统
Rathore et al. Maintaining SmartX multi‐view visibility for OF@ TEIN+ distributed cloud‐native edge boxes
CN206147331U (zh) It运维管理系统
CN102104490B (zh) 用于铁路通信网的综合网络管理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant