CN114301904A - 大数据集群的监控方法、装置、监控系统及可读存储介质 - Google Patents

大数据集群的监控方法、装置、监控系统及可读存储介质 Download PDF

Info

Publication number
CN114301904A
CN114301904A CN202010998282.4A CN202010998282A CN114301904A CN 114301904 A CN114301904 A CN 114301904A CN 202010998282 A CN202010998282 A CN 202010998282A CN 114301904 A CN114301904 A CN 114301904A
Authority
CN
China
Prior art keywords
abnormal
node
monitoring
big data
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010998282.4A
Other languages
English (en)
Inventor
李宏伟
常兴亮
刘镯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Hongxiang Technical Service Co Ltd
Original Assignee
Beijing Hongxiang Technical Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Hongxiang Technical Service Co Ltd filed Critical Beijing Hongxiang Technical Service Co Ltd
Priority to CN202010998282.4A priority Critical patent/CN114301904A/zh
Publication of CN114301904A publication Critical patent/CN114301904A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种大数据集群的监控方法、装置、监控系统及可读存储介质,所述方法包括:获取大数据集群中各节点的运行数据,并对各所述节点的运行数据进行分析,确定各所述节点中是否存在异常节点;若各所述节点中存在异常节点,则确定各所述异常节点的异常等级;根据各所述异常节点的所述异常等级和各所述异常节点的运行数据,对所述大数据集群进行异常监控。本发明由各节点的运行数据分析出潜在故障的异常节点,并根据其异常等级和运行数据,对大数据集群进行异常监控,及时对异常节点进行运维处理,有利于大数据集群的有效运行。

Description

大数据集群的监控方法、装置、监控系统及可读存储介质
技术领域
本发明涉及大数据技术领域,尤其涉及一种大数据集群的监控方法、装置、监控系统及可读存储介质。
背景技术
随着大数据技术的发展,大数据集群为越来越多的行业、领域所应用。大数据集群中所接入的节点设备众多,且各节点设备的功能各异,运行状态也千差万别。一旦某一节点出现故障,需要花费大量的时间逐一排查异常所在的节点,故障排查效率低,影响大数据集群的有效运行。
发明内容
本发明的主要目的在于提供一种大数据集群的监控方法、装置、监控系统及可读存储介质,旨在解决现有技术中因大数据集群的故障排查效率低,而导致大数据集群有效运行的技术问题。
为实现上述目的,本发明提供一种大数据集群的监控方法,所述大数据集群的监控方法包括以下步骤:
获取大数据集群中各节点的运行数据,并对各所述节点的运行数据进行分析,确定各所述节点中是否存在异常节点;
若各所述节点中存在异常节点,则确定各所述异常节点的异常等级;
根据各所述异常节点的所述异常等级和各所述异常节点的运行数据,对所述大数据集群进行异常监控。
可选地,所述根据各所述异常节点的所述异常等级和各所述异常节点的运行数据,对所述大数据集群进行异常监控的步骤包括:
根据各所述异常节点的异常等级,对各所述异常节点进行分类,得到多个异常组类;
根据多个所异常组类,将各所述异常节点的运行数据生成为异常数据报表,将所述异常数据报表输出到运维终端显示,以基于显示的所述异常数据报表,对所述大数据集群进行异常监控。
可选地,所述根据各所述异常节点的异常等级,对各所述异常节点进行分类,得到多个异常组类的步骤之前包括:
统计各所述异常节点的节点数量,并根据所述节点数量生成异常率;
判断所述异常率是否大于或等于预设阈值,若大于或等于所述预设阈值,则执行根据各所述异常节点异常等级,对各所述异常节点进行分类,得到多个异常组类的步骤。
可选地,所述将所述异常数据报表输出到运维终端显示的步骤之后包括:
生成运维提示信息,并将所述运维提示信息输出到与所述运维终端关联的移动终端。
可选地,所述获取大数据集群中各节点的运行数据的步骤包括:
检测与各所述节点之间的通信连接是否均处于正常状态,若各所述通信连接均处于正常状态,则基于预设周期,接收各所述节点推送的运行数据。
可选地,所述检测与各所述节点之间的通信连接是否均处于正常状态的步骤之后包括:
若各所述通信连接中存在任意通信连接处于非正常状态,则查找与所述非正常状态对应的目标节点;
向所述目标节点发送管理登录请求,并在接收到登录成功的反馈信息后,从所述目标节点中读取运行数据。
可选地,所述对各所述节点的运行数据进行分析,确定各所述节点中是否存在异常节点的步骤包括:
获取与每一所述节点的运行数据对应的参考运行标识,以及对应的实际运行标识,并将所述实际运行标识与所述参考运行标识对比,生成对比结果;
判断与各所述节点分别对应的对比结果中是否存在异常对比结果,若存在异常对比结果,则判定各所述节点中存在异常节点;
若不存在异常对比结果,则判定各所述节点中不存在异常节点。
可选地,所述确定各所述异常节点的异常等级的步骤包括:
根据各所述异常节点的实际运行标识,从各所述异常节点的运行数据中分离出各所述异常节点的异常数据;
获取各所述异常节点的异常量等级区间和异常度等级区间;
根据各所述异常节点的异常数据,各所述异常节点的异常量等级区间,以及各所述异常节点的异常度等级区间,确定各所述异常节点的异常等级。
可选地,所述根据各所述异常节点的异常数据,各所述异常节点的异常量等级区间,以及各所述异常节点的异常度等级区间,确定各所述异常节点的异常等级的步骤包括:
统计各所述异常节点的异常数据的数据量,并针对每一所述异常节点执行以下步骤:
将所述异常节点的异常数据的数据量和所述异常节点的异常量等级区间匹配,生成第一匹配结果,并将与所述异常节点的异常数据对应的异常系数最大值和所述异常节点的异常度等级区间匹配,生成第二匹配结果;
根据所述第一匹配结果和所述第二匹配结果,确定所述异常节点的异常等级,直到各所述异常节点均确定异常等级。
可选地,所述根据所述第一匹配结果和所述第二匹配结果,确定所述异常节点的异常等级的步骤包括:
确定与所述第一匹配结果对应的第一等级,以及与所述第二匹配结果对应的第二等级;
确定所述第一等级和所述第二等级中的高等级,并将所述高等级设为所述异常节点的异常等级。
可选地,所述获取大数据集群中各节点的运行数据的步骤之前包括:
接收节点绑定请求,并查找与所述节点绑定请求对应的待绑定节点;
对所述待绑定节点进行验证,并在验证通过后,对所述待绑架节点进行绑定,将所述待绑定节点绑定为运行节点进行运行。
可选地,所述将所述待绑定节点绑定为运行节点进行运行的步骤之后包括:
在所述运行节点运行过程中,监控所述运行节点的运行状态,获得运行状态信息,并将所述运行状态信息生成为运行状态报表。
可选地,所述所述运行状态信息包括节点角色信息、服务版本信息、节点配置信息、过保信息、存储信息、存活信息、丢块信息、故障信息、报修信息、重启信息。
可选地,所述大数据集群的数量为多个,所述大数据集群的监控方法还包括:
当接收服务查询请求时,将所述服务查询请求中的服务标识和多个所述大数据集群的集群标识对比,确定各所述集群标识中与所述服务标识对应的目标集群标识;
确定与所述目标集群标识对应的目标大数据集群,并将所述目标大数据集群推送至所述服务查询请求对应的查询终端。
进一步地,为实现上述目的,本发明还提供一种大数据集群的监控装置,所述大数据集群的监控装置包括:
获取模块,用于获取大数据集群中各节点的运行数据,并对各所述节点的运行数据进行分析,确定各所述节点中是否存在异常节点;
确定模块,用于若各所述节点中存在异常节点,则确定各所述异常节点的异常等级;
监控模块,用于根据各所述异常节点的所述异常等级和各所述异常节点的运行数据,对所述大数据集群进行异常监控。
可选地,所述监控模块还包括:
分类单元,用于根据各所述异常节点的异常等级,对各所述异常节点进行分类,得到多个异常组类;
输出单元,用于根据多个所异常组类,将各所述异常节点的运行数据生成为异常数据报表,将所述异常数据报表输出到运维终端显示,以基于显示的所述异常数据报表,对所述大数据集群进行异常监控。
可选地,所述分类单元还用于:
统计各所述异常节点的节点数量,并根据所述节点数量生成异常率;
判断所述异常率是否大于或等于预设阈值,若大于或等于所述预设阈值,则执行根据各所述异常节点异常等级,对各所述异常节点进行分类,得到多个异常组类的步骤。
可选地,所述监控模块还包括:
生成单元,用于生成运维提示信息,并将所述运维提示信息输出到与所述运维终端关联的移动终端。
进一步地,为实现上述目的,本发明还提供一种监控系统,所述监控系统包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的大数据集群的监控程序,所述大数据集群的监控程序被所述处理器执行时实现如上述所述的大数据集群的监控方法的步骤。
进一步地,为实现上述目的,本发明还提供一种可读存储介质,所述可读存储介质上存储有大数据集群的监控程序,所述大数据集群的监控程序被处理器执行时实现如上所述的大数据集群的监控方法的步骤。
本发明的大数据集群的监控方法、装置、监控系统和可读存储介质,通过获取大数据集群中各节点的运行数据,并对各节点的运行数据进行分析,确定各节点中是否存在异常节点;若存在异常节点,则确定各异常节点的异常等级,进而根据各异常节点的异常等级和各异常节点的运行数据,对大数据集群进行异常监控。以此,实现在大数据集群中节点出现故障前,由各节点的运行数据分析出潜在故障的异常节点,并根据其异常等级和运行数据,对大数据集群进行异常监控,及时对异常节点进行运维处理,避免节点出现故障后的逐一排查,有利于大数据集群的有效运行。
附图说明
图1为本发明监控系统实施例方案涉及的硬件运行环境的结构示意图;
图2为本发明大数据集群的监控方法第一实施例的流程示意图;
图3为本发明大数据集群的监控装置较佳实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明提供一种监控系统,参照图1,图1为本发明监控系统实施例方案涉及的硬件运行环境的结构示意图。
如图1所示,该监控系统可以包括:处理器1001,例如CPU,通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储监控系统。
本领域技术人员可以理解,图1中示出的监控系统的硬件结构并不构成对监控系统的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及大数据集群的监控程序。其中,操作系统是管理和控制监控系统的硬件与软件资源的程序,支持网络通信模块、用户接口模块、大数据集群的监控程序以及其他程序或软件的运行;网络通信模块用于管理和控制网络接口1004;用户接口模块用于管理和控制用户接口1003。
在图1所示的监控系统硬件结构中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;处理器1001可以调用存储器1005中存储的大数据集群的监控程序,并执行以下操作:
获取大数据集群中各节点的运行数据,并对各所述节点的运行数据进行分析,确定各所述节点中是否存在异常节点;
若各所述节点中存在异常节点,则确定各所述异常节点的异常等级;
根据各所述异常节点的所述异常等级和各所述异常节点的运行数据,对所述大数据集群进行异常监控。
进一步地,所述根据各所述异常节点的所述异常等级和各所述异常节点的运行数据,对所述大数据集群进行异常监控的步骤包括:
根据各所述异常节点的异常等级,对各所述异常节点进行分类,得到多个异常组类;
根据多个所异常组类,将各所述异常节点的运行数据生成为异常数据报表,将所述异常数据报表输出到运维终端显示,以基于显示的所述异常数据报表,对所述大数据集群进行异常监控。
进一步地,所述根据各所述异常节点的异常等级,对各所述异常节点进行分类,得到多个异常组类的步骤之前,处理器1001可以调用存储器1005中存储的大数据集群的监控程序,并执行以下操作:
统计各所述异常节点的节点数量,并根据所述节点数量生成异常率;
判断所述异常率是否大于或等于预设阈值,若大于或等于所述预设阈值,则执行根据各所述异常节点异常等级,对各所述异常节点进行分类,得到多个异常组类的步骤。
进一步地,所述将所述异常数据报表输出到运维终端显示的步骤之后,处理器1001可以调用存储器1005中存储的大数据集群的监控程序,并执行以下操作:
生成运维提示信息,并将所述运维提示信息输出到与所述运维终端关联的移动终端。
进一步地,所述获取大数据集群中各节点的运行数据的步骤包括:
检测与各所述节点之间的通信连接是否均处于正常状态,若各所述通信连接均处于正常状态,则基于预设周期,接收各所述节点推送的运行数据。
进一步地,所述检测与各所述节点之间的通信连接是否均处于正常状态的步骤之后,处理器1001可以调用存储器1005中存储的大数据集群的监控程序,并执行以下操作:
若各所述通信连接中存在任意通信连接处于非正常状态,则查找与所述非正常状态对应的目标节点;
向所述目标节点发送管理登录请求,并在接收到登录成功的反馈信息后,从所述目标节点中读取运行数据。
进一步地,所述对各所述节点的运行数据进行分析,确定各所述节点中是否存在异常节点的步骤包括:
获取与每一所述节点的运行数据对应的参考运行标识,以及对应的实际运行标识,并将所述实际运行标识与所述参考运行标识对比,生成对比结果;
判断与各所述节点分别对应的对比结果中是否存在异常对比结果,若存在异常对比结果,则判定各所述节点中存在异常节点;
若不存在异常对比结果,则判定各所述节点中不存在异常节点。
进一步地,所述确定各所述异常节点的异常等级的步骤包括:
根据各所述异常节点的实际运行标识,从各所述异常节点的运行数据中分离出各所述异常节点的异常数据;
获取各所述异常节点的异常量等级区间和异常度等级区间;
根据各所述异常节点的异常数据,各所述异常节点的异常量等级区间,以及各所述异常节点的异常度等级区间,确定各所述异常节点的异常等级。
进一步地,所述根据各所述异常节点的异常数据,各所述异常节点的异常量等级区间,以及各所述异常节点的异常度等级区间,确定各所述异常节点的异常等级的步骤包括:
统计各所述异常节点的异常数据的数据量,并针对每一所述异常节点执行以下步骤:
将所述异常节点的异常数据的数据量和所述异常节点的异常量等级区间匹配,生成第一匹配结果,并将与所述异常节点的异常数据对应的异常系数最大值和所述异常节点的异常度等级区间匹配,生成第二匹配结果;
根据所述第一匹配结果和所述第二匹配结果,确定所述异常节点的异常等级,直到各所述异常节点均确定异常等级。
进一步地,所述根据所述第一匹配结果和所述第二匹配结果,确定所述异常节点的异常等级的步骤包括:
确定与所述第一匹配结果对应的第一等级,以及与所述第二匹配结果对应的第二等级;
确定所述第一等级和所述第二等级中的高等级,并将所述高等级设为所述异常节点的异常等级。
进一步地,所述获取大数据集群中各节点的运行数据的步骤之前,处理器1001可以调用存储器1005中存储的大数据集群的监控程序,并执行以下操作:
接收节点绑定请求,并查找与所述节点绑定请求对应的待绑定节点;
对所述待绑定节点进行验证,并在验证通过后,对所述待绑架节点进行绑定,将所述待绑定节点绑定为运行节点进行运行。
进一步地,所述将所述待绑定节点绑定为运行节点进行运行的步骤之后,处理器1001可以调用存储器1005中存储的大数据集群的监控程序,并执行以下操作:
在所述运行节点运行过程中,监控所述运行节点的运行状态,获得运行状态信息,并将所述运行状态信息生成为运行状态报表。
进一步地,所述所述运行状态信息包括节点角色信息、服务版本信息、节点配置信息、过保信息、存储信息、存活信息、丢块信息、故障信息、报修信息、重启信息。
进一步地,所述大数据集群的数量为多个,处理器1001可以调用存储器1005中存储的大数据集群的监控程序,并执行以下操作:
当接收服务查询请求时,将所述服务查询请求中的服务标识和多个所述大数据集群的集群标识对比,确定各所述集群标识中与所述服务标识对应的目标集群标识;
确定与所述目标集群标识对应的目标大数据集群,并将所述目标大数据集群推送至所述服务查询请求对应的查询终端。
本发明监控系统的具体实施方式与下述大数据集群的监控方法各实施例基本相同,在此不再赘述。
本发明还提供一种大数据集群的监控方法。
参照图2,图2为本发明大数据集群的监控方法第一实施例的流程示意图。
本发明实施例提供了大数据集群的监控方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。具体地,本实施例大数据集群的监控方法包括:
步骤S10,获取大数据集群中各节点的运行数据,并对各所述节点的运行数据进行分析,确定各所述节点中是否存在异常节点;
本实施例中大数据集群的监控方法适用于监控系统,监控系统接入于大数据集群中,对大数据集群中各节点的运行状态进行监控,监控的内容包含对正常运行状态的正常监控,以及对存在异常的异常监控。具体地,用于提供各种服务功能的设备作为节点接入到大数据集群中,先对大数据集群中该类节点的运行数据进行获取,运行数据表征节点的运行状况,如运行版本号、运行进程、运行对硬盘存储空间的占用大小等。再对各节点的运行数据进行分析,通过分析确定各节点的运行数据是否处于正常状态,由此判断各节点中是否存在异常节点。
可理解地,在对大数据集群中各节点进行监控前,先将各节点接入到大数据集群运行。具体地,获取大数据集群中各节点的运行数据的步骤之前包括:
步骤a1,接收节点绑定请求,并查找与所述节点绑定请求对应的待绑定节点;
步骤a2,对所述待绑定节点进行验证,并在验证通过后,对所述待绑架节点进行绑定,将所述待绑定节点绑定为运行节点进行运行。
进一步地,当具有将某一节点接入到大数据集群的需求时,发起节点绑定请求。监控系统对节点绑定请求进行接收,并查找其中携带的表征所需要绑定节点的节点标识。通过节点标识进行节点查找,得到与节点绑定请求对应的待绑定节点。此后对待绑定那个节点进行验证,验证该待绑定节点是否真实存在且满足绑定条件。若真实存在且满足绑定条件,则判定验证通过。进而对待绑定节点进行绑定,将表征其唯一性的信息写入到大数据集群,实现将待绑定节点绑定为大数据集群中的运行节点。在对运行节点进行初始化、部署服务和组件后,控制其运行,并对运行后的状态后行监控。具体地,将待绑定节点绑定为运行节点进行运行的步骤之后包括:
步骤a3,在所述运行节点运行过程中,监控所述运行节点的运行状态,获得运行状态信息,并将所述运行状态信息生成为运行状态报表。
更进一步地,在运行节点运行过程中,对运行节点的运行状态进行监控,获得运行状态信息,并将运行状态信息生成为运行状态报表。其中,运行状态信息至少包括节点角色信息、服务版本信息、节点配置信息、过保信息、存储信息、存活信息、丢块信息、故障信息、报修信息、重启信息,Quota使用情况等。运行状态报表可以针对运行状态信息中随时间变化的各项信息单独生成,如将存储信息单独生成一份状态报表,将存活信息生成另一份状态报表;也可以将随时间变化的各项信息生成到一份数据报表中,对此不作限制。
步骤S20,若各所述节点中存在异常节点,则确定各所述异常节点的异常等级;
进一步地,若各节点的运行数据中存在处于异常状态的运行数据,则判定各节点中存在异常节点,进而对异常节点的异常等级进行确定。异常等级表征异常节点的异常危害程度,如包含低、中、高三个等级,其异常危害程度逐级升高;异常等级为低的异常节点,其危害程度较小,异常对其所提供的服务影响不大;异常等级为高的异常节点,其危害程度较大,异常对其所提供的服务影响较大。
步骤S30,根据各所述异常节点的所述异常等级和各所述异常节点的运行数据,对所述大数据集群进行异常监控。
更进一步地,在确定各异常节点的异常等级后,结合各异常节点的运行数据,对大数据集群进行异常监控。监控异常节点的异常变化情况,形成提醒信息进行运维,以预防大数据集群出现节点故障,影响大数据集群的服务功能实现。
本发明的大数据集群的监控方法,通过获取大数据集群中各节点的运行数据,并对各节点的运行数据进行分析,确定各节点中是否存在异常节点;若存在异常节点,则确定各异常节点的异常等级,进而根据各异常节点的异常等级和各异常节点的运行数据,对大数据集群进行异常监控。以此,实现在大数据集群中节点出现故障前,由各节点的运行数据分析出潜在故障的异常节点,并根据其异常等级和运行数据,对大数据集群进行异常监控,及时对异常节点进行运维处理,避免节点出现故障后的逐一排查,有利于大数据集群的有效运行。
进一步地,基于本发明大数据集群的监控方法的第一实施例,提出本发明大数据集群的监控方法第二实施例。
所述大数据集群的监控方法第二实施例与所述大数据集群的监控方法第一实施例的区别在于,所述根据各所述异常节点的所述异常等级和各所述异常节点的运行数据,对所述大数据集群进行异常监控的步骤包括:
步骤S31,根据各所述异常节点的异常等级,对各所述异常节点进行分类,得到多个异常组类;
步骤S32,根据多个所异常组类,将各所述异常节点的运行数据生成为异常数据报表,将所述异常数据报表输出到运维终端显示,以基于显示的所述异常数据报表,对所述大数据集群进行异常监控。
本实施例在结合异常节点的异常等级和运行数据,对大数据集群进行异常监控的过程中,先根据各异常节点的异常等级,对各异常节点进行分类。将异常等级相同的异常节点划分到同一类,将异常等级不同的异常节点划分到不同类,以此形成多个异常组类。此后,依据各个异常组类,将各个异常节点的运行数据生成为异常数据报表;同一异常组类包含的各异常节点的运行数据生成为一份异常数据报表,以展现相同异常等级的各异常节点的异常情况。
进一步地,统计大数据集群所具有的异常节点数量,以及各个等级异常节点数量,并依据两者分别计算异常节点占比,以及各等级异常节点占比。进而将异常节点数量、各个等级异常节点数量、异常节点占比和各等级异常节点占比,生成为大数据集群的异常数据报表。将生成的各种异常数据报表输出到运维终端显示,不同异常组类所生成的异常数据报表,以不同的显示颜色显示,以便于快速区分。以此,通过对各类异常数据报表的显示,实现大数据集群异常监控的可视化。
此外,考虑到监控系统的监控资源有限,而大数据集群中包含的节点众多;并且,大数据集群中少量的异常节点并不会对大数据集群的整体功能实现产生影响。因此,为了避免对监控资源的浪费,确保监控系统的有效监控,本实施例设置有在异常节点达到一定量之后才对异常节点进行分类监控的机制。具体地,根据各异常节点的异常等级,对各异常节点进行分类,得到多个异常组类的步骤之前包括:
步骤b1,统计各所述异常节点的节点数量,并根据所述节点数量生成异常率;
步骤b2,判断所述异常率是否大于或等于预设阈值,若大于或等于所述预设阈值,则执行根据各所述异常节点异常等级,对各所述异常节点进行分类,得到多个异常组类的步骤。
进一步地,对各异常节点的节点数量进行统计,并在统计得到的节点数量和大数据集群所具有节点的数量之间进行比值计算。将比值计算所得到的结果作为异常率,表征大数据集群中所具有异常节点在所有节点中的占比。为了表征占比的大小,预先设置有预设阈值,将生成的异常率和该预设阈值进行对比,判断异常率是否大于或等于预设阈值。若大于或等于预设阈值,则说明大数据集群中的异常节点数量过多,可能影响大数据集群整体功能的实现。此时,对各异常节点依据各自的异常等级进行分类,以生成各个异常组类的异常数据报表进行异常监控。反之,若经对比确定异常率小于预设阈值,大数据集群中的异常节点数量较少,此时继续监控大数据集群中各个节点的运行情况,确定是否产生新的异常节点,使得异常节点的占比高于预设阈值而进行异常监控。
更进一步地,所述将所述异常数据报表输出到运维终端显示的步骤之后包括:
步骤b3,生成运维提示信息,并将所述运维提示信息输出到与所述运维终端关联的移动终端。
进一步地,在将各类异常数据报表输出到运维终端显示之后,还生成运维提示信息,并且针对不同类型的异常数据报表所生成的运维提示信息不同。对于由异常等级高的异常节点的运行数据所生成的异常数据报表,所生成的运维提示信息表征的紧急程度高。将所生成的运维提示信息输出到与运维终端关联的移动终端,该移动终端为对大数据集群进行运维的运维人员所持有的终端。移动终端在接收到运维提示信息后,通过访问关联的运维终端,从其中获取异常数据报表。运维人员通过查看异常数据报表快速查找异常节点并处理,实现异常节点的快速定位和运维。
本实施例在大数据集群中异常节点的数量占比较高时,将各异常节点依据各自的异常等级进行分类,得到多个异常组类生成为异常数据报表进行显示,实现大数据集群异常监控的可视化,并且,便于依据异常数据报表快速查找异常节点进行运维,提高异常节点的运维效率。
进一步地,基于本发明大数据集群的监控方法的第一或第二实施例,提出本发明大数据集群的监控方法第三实施例。
所述大数据集群的监控方法第三实施例与所述大数据集群的监控方法第一或第二实施例的区别在于,所述获取大数据集群中各节点的运行数据的步骤包括:
步骤S11,检测与各所述节点之间的通信连接是否均处于正常状态,若各所述通信连接均处于正常状态,则基于预设周期,接收各所述节点推送的运行数据。
本实施例对各节点的运行数据的获取,依据监控系统与大数据集群中各节点之间的通信是否正常连接,而具有不同的方式。具体地,检测监控系统与各节点之间的通信连接是否处于正常状态,该正常状态可通过监控系统与各节点之间的接口支持正常调用,或者心跳正常体现。若经确定接口支持正常调用或者心跳正常,则判定与各节点之间的通信连接处于正常状态。各节点根据预设设定的预设周期,向监控系统发送运行数据;监控系统则按照改预设周期,接收各节点推送的运行数据。
进一步地,所述检测与各所述节点之间的通信连接是否均处于正常状态的步骤之后包括:
步骤S12,若各所述通信连接中存在任意通信连接处于非正常状态,则查找与所述非正常状态对应的目标节点;
步骤S13,向所述目标节点发送管理登录请求,并在接收到登录成功的反馈信息后,从所述目标节点中读取运行数据。
更进一步地,若经确定各节点的接口中存在不支持正常调用或者存在心跳异常的节点,则判定各节点中的通信连接中处于非正常状态的通信连接。进而查找处于该非正常状态的通信连接的节点,并将查找得到的节点作为目标节点。此后,向目标节点发送管理登录请求,通过管理IP登录到目标节点。目标节点对管理登录请求中的登录账户和登录密码进行验证,若验证通过则返回登录成功的信息,若验证未通过则返回登录失败的信息。监控系统在接收到登录成功的反馈信息后,则从目标节点中读取出运行数据。以此,获取各个节点的运行数据,对各节点进行判断,确定其中是否包含异常节点。
本实施例针对与各节点之间的通信连接是否正常,设置对运行数据获取的不同方式。确保无论通信连接是否正常,均可获取到各节点的运行数据,以使得依据各节点的运行数据,确定的异常节点更为全面准确。
进一步地,基于本发明大数据集群的监控方法的第一、第二或第三实施例,提出本发明大数据集群的监控方法第四实施例。
所述大数据集群的监控方法第四实施例与所述大数据集群的监控方法第一、第二或第三实施例的区别在于,所述对各所述节点的运行数据进行分析,确定各所述节点中是否存在异常节点的步骤包括:
步骤S14,获取与每一所述节点的运行数据对应的参考运行标识,以及对应的实际运行标识,并将所述实际运行标识与所述参考运行标识对比,生成对比结果;
步骤S15,判断与各所述节点分别对应的对比结果中是否存在异常对比结果,若存在异常对比结果,则判定各所述节点中存在异常节点;
步骤S16,若不存在异常对比结果,则判定各所述节点中不存在异常节点。
本实施例在从各节点中确定出异常节点的过程中,先对每个节点的运行数据所对应的参考运行标识进行获取。不同节点所提供的功能服务可能不同,具有的运行数据也不同;因此预先针对不同节点间运行数据的正常状态设定不同的参考运行标识进行表征,即通过各自的参考运行标识体现各节点运行数据的正常状态。并且,对于同一个节点,具有多项运行数据,各项运行数据之间的正常状态也不同,因此,可将参考运行标识设定为与运行数据一一对应,即每一节点的每项运行数据均对应一项参考运行标识。在获取到与每一节点的运行数据对应的参考运行标识后,还对与每一节点的运行数据对应的实际运行标识进行获取。实际运行标识表征每一运行数据的实际运行状态,可能为正常状态,也可能为异常状态。
进一步地,将实际运行标识和参考运行标识对比,该对比基于每一节点的每一项运行数据进行。将每一节点的每一项运行数据的实际运行标识和其参考运行标识对比,生成对比结果。在每一节点的每项运行数据均生成各自的对比结果后,检测各节点的对比结果,判断各对比结果中是否存在异常对比结果。其中,异常对比结果为实际运行标识和参考运行标识不一致的对比结果,并且,每一节点的每一运行数据均会生成一项对比结果,故而对于每一节点,若其各项运行数据的多项对比结果中存在任意一项对比结果为异常对比结果,则判定该节点的对比结果为异常对比结果。反之,若节点各项运行数据的多项对比结果均正常,则判定该节点的对比结果正常。
更进一步地,若经确定各对比结果中存在异常对比结果,则判定各节点中存在异常运行的异常节点,该异常节点的参考运行标识和实际运行标识不一致。反之,若各对比结果中不存在异常对比结果,则判定各节点中不存在异常结果。以此,实现依据运行数据,确定各节点中是否存在异常节点。
进一步地,所述确定各所述异常节点的异常等级的步骤包括:
步骤S21,根据各所述异常节点的实际运行标识,从各所述异常节点的运行数据中分离出各所述异常节点的异常数据;
步骤S22,获取各所述异常节点的异常量等级区间和异常度等级区间;
步骤S23,根据各所述异常节点的异常数据,各所述异常节点的异常量等级区间,以及各所述异常节点的异常度等级区间,确定各所述异常节点的异常等级。
更进一步地,对于异常节点,依据各自的实际运行标识,从各异常节点的运行数据中分离出各自的异常数据。异常节点的实际运行标识包含中反映异常的标识,从运行数据中查找出生成该类标识的数据作为异常数据。
进一步地,针对各节点预先设置有异常量等级区间和异常度等级区间,其中异常量等级区间表征不同的异常数量具有不同的等级。如节点的异常数量占比为10%以内,则为低等级,占比为10%~20%之间,则为中等级。异常度等级区间表征节点的各项异常中程度最为严重的异常匹配的等级,如节点室某一异常的严重程度在系数0.1~0.3之间,则为低等级,若在系数0.3~0.5之间,则为中等级。对各个异常节点各自的异常量等级区间和异常度等级区间进行获取,并依据各异常节点的异常数据与各自异常量等级区间,以及各自的异常度等级区间之间匹配关系,确定各异常节点的异常等级。具体地,根据各异常节点的异常数据,各异常节点的异常量等级区间,以及各异常节点的异常度等级区间,确定各异常节点的异常等级的步骤包括:
步骤S231,统计各所述异常节点的异常数据的数据量,并针对每一所述异常节点执行以下步骤:
步骤S232,将所述异常节点的异常数据的数据量和所述异常节点的异常量等级区间匹配,生成第一匹配结果,并将与所述异常节点的异常数据对应的异常系数最大值和所述异常节点的异常度等级区间匹配,生成第二匹配结果;
步骤S233,根据所述第一匹配结果和所述第二匹配结果,确定所述异常节点的异常等级,直到各所述异常节点均确定异常等级。
更进一步地,对各异常节点所具有异常数据的数据量进行统计,并针对各个异常节点的异常数据进行统一处理,本实施例以一个异常节点的异常数据的处理过程为例进行说明,其他异常节点的处理过程类似,对此不做赘述。具体地,针对任一异常节点的异常数据,将其统计得到的数据量和异常量等级区间匹配,确定该数据量所匹配的异常量等级区间,并查找该匹配的异常量等级区间所具有的等级,生成为第一匹配结果。同时,针对该异常节点的异常数据进行严重程度系数确定,并从严重程序系数中查找出表征严重程度最高的系数,作为与异常数据对应的异常系数最大值。进而将异常系数最大值和异常度等级区间匹配,确定该异常系数最大值所匹配的异常度等级区间。查找该匹配的异常度等级区间所具有的等级,生成为第二匹配结果。
进一步地,根据第一匹配结果所表征等级和第二匹配结果所表征等级之间的等级高低关系,确定异常节点的异常等级。在各异常节点的异常数据均经处理,生成各自的异常等级后,即可依据各节点的异常等级,对大数据集群进行异常监控。其中,根据第一匹配结果和第二匹配结果,确定异常节点的异常等级的步骤包括:
步骤c1,确定与所述第一匹配结果对应的第一等级,以及与所述第二匹配结果对应的第二等级;
步骤c2,确定所述第一等级和所述第二等级中的高等级,并将所述高等级设为所述异常节点的异常等级。
更进一步地,将第一匹配结果中包含的等级确定为与第一匹配结果对应的第一匹配结果,同时将第二匹配结果中包含的等级确定为与第二匹配结果对应的第二匹配结果。在第一等级和第二等级之间对比,确定两者中等级级别较高的高等级,进而将该高等级确定为与异常节点的异常等级,用以表征异常节点的异常程度。
本实施例针对各节点的运行数据预先设定参考运行标识,用以和各节点运行数据的实际运行标识对比,确定各节点中的异常节点,使得各异常节点的确定便捷准确。对于每个异常节点,依据其异常数据分别与其异常量等级区间以及异常度等级区间的匹配关系,确定异常等级。通过异常数量和异常程度两方面结合,确定异常等级,提高了所确定的异常等级的准确性。
进一步地,基于本发明大数据集群的监控方法的第一、第二、第三或第四实施例,提出本发明大数据集群的监控方法第五实施例。
所述大数据集群的监控方法第五实施例与所述大数据集群的监控方法第一、第二、第三或第四实施例的区别在于,所述大数据集群的数量为多个,所述大数据集群的监控方法还包括:
步骤S40,当接收服务查询请求时,将所述服务查询请求中的服务标识和多个所述大数据集群的集群标识对比,确定各所述集群标识中与所述服务标识对应的目标集群标识;
步骤S50,确定与所述目标集群标识对应的目标大数据集群,并将所述目标大数据集群推送至所述服务查询请求对应的查询终端。
可理解地,对于某些情况,具有部署多个大数据集群的需求,通过不同的大数据集群实现不同的服务功能。此时,监控系统同时对多大大数据集群进行监控,监控各大数据集群下的节点数量,节点运行状态、组件数量等。并且,多个大数据集群的不同服务功能支持按照服务查询。具体地,当监控系统接收到服务查询请求时,对其中携带的服务标识进行读取。同时从预设存储单元中读取出各个大数据集群的集群标识进行读取,服务标识表征所需要查询的大数据集群,集群标识则用于对各大数据集群进行区分。
进一步地,将服务标识和多个大数据集群的集群标识进行对比,确定各集群标识中与服务标识匹配的集群标识,并将该匹配的集群标识设定为与服务标识对应的目标集群标识。进而查找具有该目标集群标识的大数据集群,并将查找得到的大数据集群标识作为目标大数据集群。此后,将目标大数据集群生成为推送信息,推送到发送服务查询请求的查询终端。推送信息可以以二维码的形式存在,也可以以网络链接的形式存在,查询终端通过识别二维码或访问网络链接,即可实现对目标大数据集群的访问,以此,满足服务查询请求的查询需求。
本实施例针对多个大数据集群设置查询机制,通过服务查询请求,从其中查找出目标大数据集群,实现目标大数据集群的快速查找,满足对不同服务功能的大数据集群的查询需求。
本发明还提供一种大数据集群的监控装置。请参照图3,所述大数据集群的监控装置包括:
获取模块10,用于获取大数据集群中各节点的运行数据,并对各所述节点的运行数据进行分析,确定各所述节点中是否存在异常节点;
确定模块20,用于若各所述节点中存在异常节点,则确定各所述异常节点的异常等级;
监控模块30,用于根据各所述异常节点的所述异常等级和各所述异常节点的运行数据,对所述大数据集群进行异常监控。
进一步地,所述监控模块还包括:
分类单元,用于根据各所述异常节点的异常等级,对各所述异常节点进行分类,得到多个异常组类;
输出单元,用于根据多个所异常组类,将各所述异常节点的运行数据生成为异常数据报表,将所述异常数据报表输出到运维终端显示,以基于显示的所述异常数据报表,对所述大数据集群进行异常监控。
进一步地,所述分类单元还用于:
统计各所述异常节点的节点数量,并根据所述节点数量生成异常率;
判断所述异常率是否大于或等于预设阈值,若大于或等于所述预设阈值,则执行根据各所述异常节点异常等级,对各所述异常节点进行分类,得到多个异常组类的步骤。
进一步地,所述监控模块还包括:
生成单元,用于生成运维提示信息,并将所述运维提示信息输出到与所述运维终端关联的移动终端。
本发明大数据集群的监控装置具体实施方式与上述大数据集群的监控方法各实施例基本相同,在此不再赘述。
此外,本发明实施例还提出一种可读存储介质。
可读存储介质上存储有大数据集群的监控程序,大数据集群的监控程序被处理器执行时实现如上所述的大数据集群的监控方法的步骤。
本发明可读存储介质可以为计算机可读存储介质,其具体实施方式与上述大数据集群的监控方法各实施例基本相同,在此不再赘述。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,这些均属于本发明的保护之内。

Claims (10)

1.一种大数据集群的监控方法,其特征在于,所述大数据集群的监控方法包括以下步骤:
获取大数据集群中各节点的运行数据,并对各所述节点的运行数据进行分析,确定各所述节点中是否存在异常节点;
若各所述节点中存在异常节点,则确定各所述异常节点的异常等级;
根据各所述异常节点的所述异常等级和各所述异常节点的运行数据,对所述大数据集群进行异常监控。
2.如权利要求1所述的大数据集群的监控方法,其特征在于,所述根据各所述异常节点的所述异常等级和各所述异常节点的运行数据,对所述大数据集群进行异常监控的步骤包括:
根据各所述异常节点的异常等级,对各所述异常节点进行分类,得到多个异常组类;
根据多个所异常组类,将各所述异常节点的运行数据生成为异常数据报表,将所述异常数据报表输出到运维终端显示,以基于显示的所述异常数据报表,对所述大数据集群进行异常监控。
3.如权利要求2所述的大数据集群的监控方法,其特征在于,所述根据各所述异常节点的异常等级,对各所述异常节点进行分类,得到多个异常组类的步骤之前包括:
统计各所述异常节点的节点数量,并根据所述节点数量生成异常率;
判断所述异常率是否大于或等于预设阈值,若大于或等于所述预设阈值,则执行根据各所述异常节点异常等级,对各所述异常节点进行分类,得到多个异常组类的步骤。
4.如权利要求2所述的大数据集群的监控方法,其特征在于,所述将所述异常数据报表输出到运维终端显示的步骤之后包括:
生成运维提示信息,并将所述运维提示信息输出到与所述运维终端关联的移动终端。
5.如权利要求1所述的大数据集群的监控方法,其特征在于,所述获取大数据集群中各节点的运行数据的步骤包括:
检测与各所述节点之间的通信连接是否均处于正常状态,若各所述通信连接均处于正常状态,则基于预设周期,接收各所述节点推送的运行数据。
6.如权利要求5所述的大数据集群的监控方法,其特征在于,所述检测与各所述节点之间的通信连接是否均处于正常状态的步骤之后包括:
若各所述通信连接中存在任意通信连接处于非正常状态,则查找与所述非正常状态对应的目标节点;
向所述目标节点发送管理登录请求,并在接收到登录成功的反馈信息后,从所述目标节点中读取运行数据。
7.如权利要求1-6任一项所述的大数据集群的监控方法,其特征在于,所述对各所述节点的运行数据进行分析,确定各所述节点中是否存在异常节点的步骤包括:
获取与每一所述节点的运行数据对应的参考运行标识,以及对应的实际运行标识,并将所述实际运行标识与所述参考运行标识对比,生成对比结果;
判断与各所述节点分别对应的对比结果中是否存在异常对比结果,若存在异常对比结果,则判定各所述节点中存在异常节点;
若不存在异常对比结果,则判定各所述节点中不存在异常节点。
8.一种大数据集群的监控装置,其特征在于,所述大数据集群的监控装置包括:
获取模块,用于获取大数据集群中各节点的运行数据,并对各所述节点的运行数据进行分析,确定各所述节点中是否存在异常节点;
确定模块,用于若各所述节点中存在异常节点,则确定各所述异常节点的异常等级;
监控模块,用于根据各所述异常节点的所述异常等级和各所述异常节点的运行数据,对所述大数据集群进行异常监控。
9.一种监控系统,其特征在于,所述监控系统包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的大数据集群的监控程序,所述大数据集群的监控程序被所述处理器执行时实现如权利要求1-7中任一项所述的大数据集群的监控方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有大数据集群的监控程序,所述大数据集群的监控程序被处理器执行时实现如权利要求1-7中任一项所述的大数据集群的监控方法的步骤。
CN202010998282.4A 2020-09-21 2020-09-21 大数据集群的监控方法、装置、监控系统及可读存储介质 Pending CN114301904A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010998282.4A CN114301904A (zh) 2020-09-21 2020-09-21 大数据集群的监控方法、装置、监控系统及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010998282.4A CN114301904A (zh) 2020-09-21 2020-09-21 大数据集群的监控方法、装置、监控系统及可读存储介质

Publications (1)

Publication Number Publication Date
CN114301904A true CN114301904A (zh) 2022-04-08

Family

ID=80964094

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010998282.4A Pending CN114301904A (zh) 2020-09-21 2020-09-21 大数据集群的监控方法、装置、监控系统及可读存储介质

Country Status (1)

Country Link
CN (1) CN114301904A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114970546A (zh) * 2022-05-30 2022-08-30 北京声智科技有限公司 信息输出方法、装置及电子设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114970546A (zh) * 2022-05-30 2022-08-30 北京声智科技有限公司 信息输出方法、装置及电子设备

Similar Documents

Publication Publication Date Title
US8543988B2 (en) Trace processing program, method and system
US7664986B2 (en) System and method for determining fault isolation in an enterprise computing system
US8024617B2 (en) Method and apparatus for cause analysis involving configuration changes
CN110362473B (zh) 测试环境的优化方法及装置、存储介质、终端
US20070130330A1 (en) System for inventing computer systems and alerting users of faults to systems for monitoring
US20150332147A1 (en) Technique For Determining The Root Cause Of Web Site Performance Or Availability Problems
CN111045879B (zh) 压力测试报告的生成方法、装置及存储介质
US9626123B2 (en) Ensuring health and compliance of devices
US20170126530A1 (en) Mechanism for analysing correlation during performance degradation of an application chain
CN113672456A (zh) 应用平台的模块化自监听方法、系统、终端及存储介质
CN113127356A (zh) 压测方法、装置、电子设备及存储介质
US20060129664A1 (en) Method and apparatus for diagnosing a network
US9021078B2 (en) Management method and management system
CN114490375A (zh) 应用程序的性能测试方法、装置、设备及存储介质
US9405657B2 (en) Application architecture assessment system
CN111209153A (zh) 异常检测处理方法、装置及电子设备
CN114301904A (zh) 大数据集群的监控方法、装置、监控系统及可读存储介质
CN112612679A (zh) 系统运行状态监控方法、装置、计算机设备和存储介质
CN112817869A (zh) 测试方法、装置、介质及电子设备
CN116405412A (zh) 服务端集群的有效性验证方法和系统
US9354962B1 (en) Memory dump file collection and analysis using analysis server and cloud knowledge base
CN112818204B (zh) 一种业务的处理方法、装置、设备及存储介质
CN115033639A (zh) 一种生成集群间数据共享的关系图的方法和相关装置
CN114385498A (zh) 性能测试方法、系统、计算机设备及可读存储介质
CN110362464B (zh) 软件分析方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination