CN112202617B - 资源管理系统监控方法、装置、计算机设备和存储介质 - Google Patents
资源管理系统监控方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN112202617B CN112202617B CN202011072180.6A CN202011072180A CN112202617B CN 112202617 B CN112202617 B CN 112202617B CN 202011072180 A CN202011072180 A CN 202011072180A CN 112202617 B CN112202617 B CN 112202617B
- Authority
- CN
- China
- Prior art keywords
- node
- cluster
- nodes
- resource management
- system state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000012544 monitoring process Methods 0.000 title claims abstract description 35
- 238000010586 diagram Methods 0.000 claims abstract description 117
- 230000002159 abnormal effect Effects 0.000 claims abstract description 70
- 238000012545 processing Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 16
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 3
- 230000005856 abnormality Effects 0.000 abstract 1
- 238000004458 analytical method Methods 0.000 description 9
- 238000012806 monitoring device Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 206010033799 Paralysis Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003862 health status Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0677—Localisation of faults
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/50—Testing arrangements
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请涉及一种资源管理系统监控方法、装置、计算机设备和存储介质。所述方法包括:获取系统状态参数;根据系统状态参数更新预设系统有向图中各系统节点的节点值,得到系统状态图;根据系统状态图中各集群节点的集群节点值,确定异常集群节点;根据异常集群节点,确定与系统状态图对应的故障节点信息。采用本方法能够通过有向图结构来描述和度量资源管理系统的状态,实现对资源管理系统的实时监控,利用系统状态图来分析系统异常原因,实现快速故障定位。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种资源管理系统监控方法、装置、计算机设备和存储介质。
背景技术
随着大数据技术的发展,基于通用硬件构建的Hadoop(Hadoop Distributed FileSystem,分布式文件系统)大数据平台越来越流行,作为解决海量数据计算的资源管理系统,如YARN(Yet Another Resource Negotiator,另一种资源协调者),在Hadoop生态系统中占据着非常重要的位置,因此需要对资源管理系统进行实时监控。
传统技术中,在对资源管理系统进行实时监控时,采用的方式主要包括以资源管理(ResourceManager)和节点管理(NodeManager)所在服务器节点为维度的基础监控、以资源管理和节点管理进程状态为维度的健康状态检查以及以资源队列调度状态为维度的资源状态监控。
然而,传统方法,只能够根据分散的监控状态来推测资源管理系统的服务状态,当服务能力下降时,无法快速定位问题出现的原因。
发明内容
基于此,有必要针对上述技术问题,提供一种能够在资源管理系统的服务能力下降时,实现快速定位问题出现的原因的资源管理系统监控方法、装置、计算机设备和存储介质。
一种资源管理系统监控方法,所述方法包括:
获取系统状态参数;
根据系统状态参数更新预设系统有向图中各系统节点的节点值,得到系统状态图;
根据系统状态图中各集群节点的集群节点值,确定异常集群节点;
根据异常集群节点,确定与系统状态图对应的故障节点信息。
一种资源管理系统监控装置,所述装置包括:
获取模块,用于获取系统状态参数;
更新模块,用于根据系统状态参数更新预设系统有向图中各系统节点的节点值,得到系统状态图;
处理模块,用于根据系统状态图中各集群节点的集群节点值,确定异常集群节点;
查询模块,用于根据异常集群节点,确定与系统状态图对应的故障节点信息。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取系统状态参数;
根据系统状态参数更新预设系统有向图中各系统节点的节点值,得到系统状态图;
根据系统状态图中各集群节点的集群节点值,确定异常集群节点;
根据异常集群节点,确定与系统状态图对应的故障节点信息。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取系统状态参数;
根据系统状态参数更新预设系统有向图中各系统节点的节点值,得到系统状态图;
根据系统状态图中各集群节点的集群节点值,确定异常集群节点;
根据异常集群节点,确定与系统状态图对应的故障节点信息。
上述资源管理系统监控方法、装置、计算机设备和存储介质,通过获取系统状态参数,根据系统状态参数更新预设系统有向图中各系统节点的节点值,得到系统状态图,根据系统状态图中各集群节点的集群节点值,确定异常集群节点,根据异常集群节点,确定与系统状态图对应的故障节点信息,整个过程,能够通过有向图结构来描述和度量资源管理系统的状态,实现对资源管理系统的实时监控,利用系统状态图来分析系统异常原因,实现快速故障定位。
附图说明
图1为一个实施例中资源管理系统监控方法的应用环境图;
图2为一个实施例中资源管理系统监控方法的流程示意图;
图3为一个实施例中系统有向图的示意图;
图4为一个实施例中系统状态图的示意图;
图5为另一个实施例中资源管理系统监控方法的流程示意图;
图6为一个实施例中资源管理系统监控装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的资源管理系统监控方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。服务器104获取终端102的系统状态参数,根据系统状态参数更新预设系统有向图中各系统节点的节点值,得到系统状态图,根据系统状态图中各集群节点的集群节点值,确定异常集群节点,根据异常集群节点,确定与系统状态图对应的故障节点信息。其中,服务器104可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端102可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
在一个实施例中,如图2所示,提供了一种资源管理系统监控方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,获取系统状态参数。
其中,系统状态参数是指用于表征资源管理系统中各系统设备的状态的参数。比如,系统状态参数具体可以是指CPU(central processing unit,中央处理器)使用率、内存占用率、磁盘剩余空间、磁盘IO(Input/Output,输入/输出)能力、网络能力等。
具体的,服务器会监控资源管理系统中各系统设备,获取系统设备的系统状态参数。
步骤204,根据系统状态参数更新预设系统有向图中各系统节点的节点值,得到系统状态图。
其中,系统有向图是指描述资源管理系统中各子系统之间关系的有向图。在实际应用中,通过系统有向图能够可视化资源管理系统中各子系统之间的逻辑结构,使运维工程师通过查看系统有向图即可了解复杂系统的逻辑结构,降低了运维工程师能力要求,并加快了运维工程师对资源管理系统的理解。节点值用于表征各子系统的可服务度,与各子系统对应,利用节点值来描述系统的服务能力,能够为服务调用者提供调用建议参考,避免任务风暴引起服务超载,甚至引起系统瘫痪。系统状态图是指更新节点值后的系统有向图,利用系统状态图可实现可服务性度量化,系统状态图中的可服务性度量值可根据资源管理系统的资源状态与作业状态实时更新,能够显著提升对资源管理系统的服务能力监控。比如,假设CPU使用率的采样周期为1次/s,则获取到CPU使用率发生变化后直接对系统有向图中各节点值进行更新,得到系统状态图。
举例说明,系统有向图的结构具体可以如图3所示。其中,YARN是指资源管理系统,中间层代表可抽象的独立子系统,比如,ZK代表代表YARN资源框架依赖的zookeeper集群(分布式的、开放源码的分布式应用程序协调服务,是Hadoop的重要组件),对于zookeeper集群本身,也可以建立类似YARN的可服务型描述系统来直接反映zookeeper集群对外的服务能力。RM代表ResourceManager集群(资源管理集群),NM1和NM2是指不同的NodeManager集群(节点管理集群)。同理,对于ResourceManager集群和NodeManager集群也可以建立类似YARN的可服务型描述系统来直接反映zookeeper集群对外的服务能力。
进一步的,在图3中,节点(YARN、ZK、RM、NM1、NM2、C1、D1…)用于指代系统的可服务性,作为特例,仅有出度无入度的节点代表YARN整个系统,仅有入度没有出度的节点(C1、D1…),代表最底层子系统,如CPU、内存、磁盘等最基础的子系统,通常代表了对服务器的基础监控,但仅限于与YARN服务相关的基础监控,如CPU使用率、内存占用率、磁盘剩余空间、磁盘IO能力、网络能力等,中间层代表可抽象的独立子系统。节点值用于表征各子系统的可服务度。举例说明,节点值通常定义为闭区间[0,1],其中0表示该子系统完全不可用,1代表该子系统的原始状态,即无任何负载时的服务能力。有向边用于表征系统之间的依赖关系,如果一个子系统a依赖于b才能运行,则定义边:a--->b。
其中,在图3中,权重(r01、r02、r03、r04、r11…r43)代表了子系统间的依赖关系的紧密程度,具体的,权重值定义为左开右闭区间[0,1],也可以定义为一系列枚举值,如:{0,0.5,…,1},其中值0代表不存在依赖关系,即当权重为0时,表示两个顶点间无边相连。进一步的,权重之间是存在约束关系的,举例说明,权重约束关系具体可以是:以某一确定节点为尾的所有边的权重和等于1,如在图3中,sum(r01,r02,r03)=1,sum(r11,r12,r13)=1,…需要注意的是在YARN框架下,NodeManager节点与其他依赖子系统存在一定的差异,NodeManager一般有3+节点,只要有一个NodeManager仍处于可服务状态,则整个YARN系统均可提供服务,但是对于YARN依赖的zookeeper子系统、ResourceManager子系统无服务能力,则会直接导致整个YARN服务能力为0。举例说明,在图3所示的结构中,当ZK或RM的节点值为0时,无论NM1和NM2的节点值为多少,YARN的节点值都为0,表示此时YARN服务能力为0。当ZM且RM的节点值不为0时,只要NM1或NM2中有一个节点值不为0,YARN的节点值就不会为0,表示此时YARN服务能力不为0。
具体的,服务器会从系统状态参数中获取与各底层节点对应的底层节点参数,根据底层节点参数,计算各底层节点的底层节点值,再根据底层节点值实现逐级计算,计算各中间节点的中间节点值,最后根据中间节点值中的集群节点值,计算资源管理系统节点的资源管理系统节点值,根据底层节点值、中间节点值、资源管理系统节点值,更新预设系统有向图中各系统节点的节点值,得到系统状态图。
举例说明,如图3所示,在图3的结构中,底层节点是指C1、D1、B1、B2等,图3中仅为三层结构,此时中间节点即是集群节点,即ZK、RM、NM1、NM2等,资源管理系统节点是指YARN,对图3中的系统有向图中各系统节点的节点值进行更新之后,得到的系统状态图可以如图4所示。
步骤206,根据系统状态图中各集群节点的集群节点值,确定异常集群节点。
其中,集群节点是指与资源管理系统节点对应的下一级节点,属于可抽象的独立子系统。异常集群节点是指集群节点值较小的集群节点。比如,异常集群节点具体可以是指集群节点值最小的集群节点。
具体的,在得到系统状态图之后,服务器会对系统状态图中各集群节点的集群节点值进行排序,根据集群节点值的排序结果,确定异常集群节点。举例说明,如图4所示,集群节点ZK的集群节点值为1,集群节点RM的集群节点值为1,集群节点NM1的集群节点值为0.3,集群节点NM2的集群节点值为0.5,通过对集群节点的集群节点值排序,可以确定异常集群节点为NM1。
步骤208,根据异常集群节点,确定与系统状态图对应的故障节点信息。
具体的,在确定异常集群节点以后,服务器会进一步的,根据系统状态图中异常集群节点的节点之间关系,以及与异常集群节点相关的下级节点的节点值,确定与异常集群节点对应的故障节点,根据与异常集群节点对应的故障节点,得到与系统状态图对应的故障节点信息。举例说明,在图4中,异常集群节点是指NM1,与NM1相关的下级节点包括B3、B4、B5(此处的B3、B4、B5均为节点标识,用于指代实际系统节点),由系统状态图中B3、B4、B5的节点值,可以确定异常集群节点对应的故障节点为B3(因为它的节点值最小),在确定故障节点为B3后,进一步确定与B3对应的实际系统节点,就可以得到系统状态图对应的故障节点信息。进一步举例说明,B3一般为基础资源项,例如为磁盘服务能力,此时可直接判断出NM1所在节点服务器磁盘存在性能故障,或者相对配置较弱。
进一步的,对于大集群场景,即资源管理系统的系统状态图中包括多层系统节点时,可以借助图数据库实现快速故障定位。具体方式可以为,服务器将系统状态图存储至图数据库中,在确定异常集群节点之后,根据异常集群节点的节点标识,调用图数据库,以使图数据库反馈与异常集群节点对应的故障节点信息。
上述资源管理系统监控方法,通过获取系统状态参数,根据系统状态参数更新预设系统有向图中各系统节点的节点值,得到系统状态图,根据系统状态图中各集群节点的集群节点值,确定异常集群节点,根据异常集群节点,确定与系统状态图对应的故障节点信息,整个过程,能够通过有向图结构来描述和度量资源管理系统的状态,实现对资源管理系统的实时监控,利用系统状态图来分析系统异常原因,实现快速故障定位。
在一个实施例中,在获取系统状态参数之前,还包括:
获取资源管理系统的逻辑结构图;
根据逻辑结构图和预设节点约束信息,生成系统有向图,系统有向图为描述资源管理系统中各子系统之间关系的有向图;
将系统有向图存储至预设图数据库中。
其中,逻辑结构图是指表征资源管理系统中各子系统之间的逻辑关系的结构图。比如,逻辑结构图具体可以是用户根据实际部署架构和系统间逻辑结构设置的逻辑结构图。预设节点约束信息是指预先设置的节点之间的约束关系,主要是指各系统节点之间的权重约束关系和节点值约束关系。比如,预设节点约束信息可以是用户根据各子系统关系以及重要程度确定的权重计算规则以及节点值计算规则。权重计算规则只要满足权重约束关系即可,本实施在此处不做具体限定,权重约束关系具体可以如上述举例说明所述。节点值计算规则也只需要满足节点约束关系即可,本实施在此处也不做具体限定,节点约束关系由系统有向图中各节点的关系确定。预设图数据库具体可以是Neo4j(非关系型图形数据库)、GraphDB(Graph Database,图形数据库)等。此外,当系统结构不复杂时,也可以采用传统的图结构存储模式,如邻接矩阵法、邻接表法等实现对系统有向图的存储。
举例说明,节点约束关系具体可以是:1)对于出度等于0的节点(如图4中的C1、D1…),其表示最基础的资源服务状态,比如磁盘子系统等,以磁盘子系统为例,可以根据磁盘空间、读写速度、readops(读取操作数)、writeops(写入操作数)、readtime(读取时间)、writetime(写入时间)等系统状态参数中的磁盘关键参数来计算其动态值:V=F(readops,writeops,readtime,writetime,…)。需要说明的是,如果集群中无异构设备,则在系统有向图中各系统节点无负载的初始状态的值为1,若存在异构设备,则定义最优设备的初始值为1,其他设备参考最优设备进行服务能力折算,例如最优设备采用了SSD(Solid StateDisk,固态驱动器)磁盘,异构设备使用的是普通的机械硬盘,异构设备总体磁盘读写效率只能达到SSD磁盘设备的80%,则异构设备在无负载的初始状态值为0.8。2)对于出入度均不为0的中间节点,其中间节点值可根据系统状态参数中自身节点参数以及出度节点的节点值进行计算,例如对于图3中的RM集群节点来说,VRM=f(VRM进程状态,Vdisk(V磁盘),Vnetwork(V网络),…),其中的VRM进程状态是指系统状态参数中的RM集群节点的节点参数,Vdisk,Vnetwork是指出度节点(B1、B2)的节点值。进一步的,不同的子系统可采用不同的度量算法。3)对于无入度节点(如图3中的YARN),即资源管理系统节点,其度量计算具体可以为:V=F(Vzk,VRM,f(VNM1,VNM2,VNM3,…)),其中V代表集群节点的节点值,对于资源管理系统节点的度量,定义是其各子系统的函数,作为特例子系统,f(VNM1,VNM2,VNM3,…)表示对所有NodeManager的状态进行分组计算。
具体的,服务器会获取资源管理系统的逻辑结构图,根据逻辑结构图和预设节点约束信息,生成系统有向图,系统有向图为描述资源管理系统中各子系统之间关系的有向图,将系统有向图存储至预设图数据库中。
本实施例中,通过获取资源管理系统的逻辑结构图,根据逻辑结构图和预设节点约束信息,生成系统有向图,将系统有向图存储至预设图数据库中,能够实现对系统有向图的获取和存储。
在一个实施例中,在根据逻辑结构图和预设节点约束信息,生成系统有向图之后,还包括:
将系统有向图拆分为多个故障树,采用故障树分析法进行监控。
具体的,服务器也可以将系统有向图按照系统逻辑结构拆分为多个故障树,每个故障树标识一个可抽象的独立子系统,然后采用故障树分析法进行监控,来监控各系统节点的状态和实现问题定位。
在一个实施例中,预设系统有向图包括底层节点、中间节点和资源管理系统节点;
根据系统状态参数更新预设系统有向图中各系统节点的节点值,得到系统状态图包括:
从系统状态参数中获取与各底层节点对应的底层节点参数,根据底层节点参数,计算各底层节点的底层节点值;
从系统状态参数中获取与各中间节点对应的中间节点参数,根据中间节点参数和底层节点值,计算各中间节点的中间节点值;
根据中间节点值中的集群节点值,计算资源管理系统节点的资源管理系统节点值;
根据底层节点值、中间节点值、资源管理系统节点值,更新预设系统有向图中各系统节点的节点值,得到系统状态图。
其中,举例说明,在如图3所示的系统有向图中,底层节点是指C1、D1等、中间节点是指ZK、RM、NM1、NM2,资源管理系统节点是指YARN。
具体的,根据系统状态参数更新预设系统有向图中各系统节点的节点值,得到系统状态图是一个逐级计算的过程,服务器首先会从系统状态参数中获取与各底层节点对应的底层节点参数,根据底层节点参数以及预设节点约束信息中的节点值约束关系,计算各底层节点的底层节点值,再从系统状态参数中获取与各中间节点对应的中间节点参数,根据中间节点参数、底层节点值以及预设节点约束信息中的权重约束关系和节点值约束关系,计算各中间节点的中间节点值,根据中间节点值中的集群节点值以及预设节点约束信息中的权重约束关系和节点值约束关系,计算资源管理系统节点的资源管理系统节点值,根据底层节点值、中间节点值、资源管理系统节点值,更新预设系统有向图中各系统节点的节点值,得到系统状态图。
具体的,以根据图3的系统有向图得到图4的系统状态图为例进行说明,服务器首先从系统状态参数中获取与各底层节点(C1、D1、B1、B2、B3、B4、B5、B6、B7、B8)对应的底层节点参数,根据底层节点参数以及预设节点约束信息中的节点值约束关系,计算各底层节点的底层节点值,再从系统状态参数中获取与各中间节点(ZK、RM、NM1、NM2)对应的中间节点参数,根据中间节点参数、底层节点值以及预设节点约束信息中的权重约束关系和节点值约束关系,计算各中间节点的中间节点值,具体的为,根据ZK节点的参数、C1、D1、r11以及r12计算ZK节点的节点值,根据RM节点的参数、B1、B2、r21、r22计算RM节点的节点值等,再根据中间节点值中的集群节点值以及预设节点约束信息中的权重约束关系和节点值约束关系,计算资源管理系统节点的资源管理系统节点值,具体的为根据ZK节点、RM节点、NM1节点、NM2节点的节点值以及r01、r02、r03、r04,计算YARN节点的节点值,最后根据底层节点值、中间节点值、资源管理系统节点值,更新预设系统有向图中各系统节点的节点值,得到系统状态图。
本实施例中,通过根据底层节点参数,计算各底层节点的底层节点值,根据中间节点参数和底层节点值,计算各中间节点的中间节点值,根据中间节点值中的集群节点值,计算资源管理系统节点的资源管理系统节点值,根据底层节点值、中间节点值、资源管理系统节点值,更新预设系统有向图中各系统节点的节点值,得到系统状态图,能够实现对系统有向图中各系统节点的节点值的逐级计算,以及对系统有向图的更新,得到系统状态图。
在一个实施例中,在根据系统状态参数更新预设系统有向图中各系统节点的节点值,得到系统状态图之后,还包括:
显示系统状态图。
具体的,在得到系统状态图后,服务器会通过与其连接的显示设备显示系统状态图,用户通过显示设备上显示的系统状态图,即可直观的获取到资源管理系统的服务能力,并实现快速故障定位分析。通过显示系统状态图,本申请提供了可视化展示能力,直观展示系统以及子系统可服务性度量指标、系统瓶颈点、系统异常点等,为高效问题定位与问题解决提供指引。
举例说明,当资源管理系统为小集群场景时,如图4所示,用户通过查看系统状态图,即可直观的得到当前资源管理系统的服务能力值为0.4,服务能力较弱的原因为其中的一个NodeManager的服务能力较弱,进一步的也可以定位到影响整个资源管理系统服务能力下降是B3。当资源管理系统为大集群场景时,其系统状态图通常包括多个中间节点,可能无法直观的快速定位问题所在,服务器会先对与资源管理系统节点对应的下一级节点(即集群节点)进行分析,确定异常集群节点,再根据异常集群节点借助图数据库等工具实现快速故障定位分析。举例说明,如图4所示,当为大集群场景时,在集群节点(ZK、RM、NM1、NM2)与底层节点(C1、D1、B1、B2…)之间还包括多层未画出的中间节点,服务器需要先确定集群节点中的异常集群节点,再根据异常集群节点借助图数据库等工具实现快速故障定位分析。
本实施例中,通过显示系统状态图,能够直观的获取到资源管理系统的服务能力,并实现快速故障定位分析。
在一个实施例中,在根据系统状态参数更新预设系统有向图中各系统节点的节点值,得到系统状态图之后,还包括:
将系统状态图存储至预设图数据库;根据异常集群节点,确定与系统状态图对应的故障节点信息包括:
根据异常集群节点,调用预设图数据库,得到预设图数据库反馈的故障节点信息。
具体的,在得到系统状态图后,服务器会将系统状态图存储至预设图数据库中,在确定异常集群节点后,服务器会根据异常集群节点的节点标识,调用预设图数据库进行查询,以使图数据库根据节点标识反馈对应的故障节点信息。其中,图数据库提供了易于使用、类SQL(Structured Query Language,结构化查询语言)的查询功能,可创建复杂的问题分析模型,如关键节点识别、系统故障时子系统排查顺序排序、子系统故障影响范围分析等,可快速获取节点值、节点间关系,以及快速构建包含某一节点的子图,以图4为例,图数据库可快速获取到影响到整个资源管理系统的可服务性的子树,并直接定位到影响整个资源管理系统服务能力下降是B3。
本实施例中,通过将系统状态图存储至预设图数据库,根据异常集群节点,调用预设图数据库,得到预设图数据库反馈的故障节点信息,能够利用预设图数据库实现快速故障定位分析。
在一个实施例中,根据系统状态图中各集群节点的集群节点值,确定异常集群节点包括:
对系统状态图中各集群节点的集群节点值进行排序;
根据排序结果确定异常集群节点。
具体的,服务器会对系统状态图中各集群节点的集群节点值进行排序,根据排序结果确定异常集群节点。以图4的系统状态图为例进行说明,对集群节点值进行排序后,可确定集群节点值最小为0.3,则对应的异常集群节点即为NM1。进一步的,可能存在同时存在多个异常集群节点的场景,此时可根据排序结果以及预设异常集群节点数,确定异常集群节点。
本实施例中,通过对系统状态图中各集群节点的集群节点值进行排序,根据排序结果确定异常集群节点,能够实现对异常集群节点的获取。
在一个实施例中,在接收预设图数据库根据系统状态图反馈的故障节点信息之后,还包括:
根据故障节点信息,确定故障集群数;
当故障集群数不为预设值时,向预设图数据库获取关键集群数据;
根据关键集群数据,确定故障集群处理优先级。
其中,关键集群数据是指用于表征集群处理优先级的数据。比如,关键集群数据具体可以是指用于表征集群处理优先级的序列,在序列中各系统节点出现的顺序即为优先级。
具体的,在得到故障节点信息之后,服务器会根据故障节点信息,确定故障集群数,当故障集群数不为预设值时,服务器会调用预设图数据库,向预设图数据库获取关键集群数据,根据关键集群数据中的各系统节点出现的顺序以及故障节点信息,确定故障集群处理优先级。其中,向预设图数据库获取关键集群数据是指基于图数据库可采用类似PageRank(网页排名)算法对系统状态图进行分析,得到资源管理系统的关键节点,通过这种方式,当多个子系统发生故障时,可优先解决核心节点所代表的子系统。其中,预设值可按照需要自行设置。
本实施例中,通过根据故障节点信息,确定故障集群数,当故障集群数不为预设值时,向预设图数据库获取关键集群数据,根据关键集群数据,确定故障集群处理优先级,能够实现对故障集群处理优先级的获取。
如图5所示,通过一个实施例来说明本申请的资源管理系统监控方法,该资源管理系统监控方法具体包括以下步骤:
步骤502,获取资源管理系统的逻辑结构图;
步骤504,根据逻辑结构图和预设节点约束信息,生成系统有向图,系统有向图包括底层节点、中间节点和资源管理系统节点;
步骤506,将系统有向图存储至预设图数据库中;
步骤508,获取系统状态参数;
步骤510,从系统状态参数中获取与各底层节点对应的底层节点参数,根据底层节点参数,计算各底层节点的底层节点值;
步骤512,从系统状态参数中获取与各中间节点对应的中间节点参数,根据中间节点参数和底层节点值,计算各中间节点的中间节点值;
步骤514,根据中间节点值中的集群节点值,计算资源管理系统节点的资源管理系统节点值;
步骤516,根据底层节点值、中间节点值、资源管理系统节点值,更新系统有向图中各系统节点的节点值,得到系统状态图;
步骤518,显示系统状态图;
步骤520,将系统状态图存储至预设图数据库;
步骤522,对系统状态图中各集群节点的集群节点值进行排序;
步骤524,根据排序结果确定异常集群节点;
步骤526,根据异常集群节点,调用预设图数据库,得到预设图数据库反馈的故障节点信息;
步骤528,根据故障节点信息,确定故障集群数;
步骤530,当故障集群数不为预设值时,向预设图数据库获取关键集群数据;
步骤532,根据关键集群数据,确定故障集群处理优先级。
应该理解的是,虽然图2和图5的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2和图5中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图6所示,提供了一种资源管理系统监控装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:获取模块602、更新模块604、处理模块606、和查询模块608,其中:
获取模块602,用于获取系统状态参数;
更新模块604,用于根据系统状态参数更新预设系统有向图中各系统节点的节点值,得到系统状态图;
处理模块606,用于根据系统状态图中各集群节点的集群节点值,确定异常集群节点;
查询模块608,用于根据异常集群节点,确定与系统状态图对应的故障节点信息。
上述资源管理系统监控装置,通过获取系统状态参数,根据系统状态参数更新预设系统有向图中各系统节点的节点值,得到系统状态图,根据系统状态图中各集群节点的集群节点值,确定异常集群节点,根据异常集群节点,确定与系统状态图对应的故障节点信息,整个过程,能够通过有向图结构来描述和度量资源管理系统的状态,实现对资源管理系统的实时监控,利用系统状态图来分析系统异常原因,实现快速故障定位。
在一个实施例中,资源管理系统监控装置还包括构建模块,构建模块用于获取资源管理系统的逻辑结构图,根据逻辑结构图和预设节点约束信息,生成系统有向图,系统有向图为描述资源管理系统中各子系统之间关系的有向图,将系统有向图存储至预设图数据库中。
在一个实施例中,资源管理系统监控装置还包括监控模块,监控模块用于将系统有向图拆分为多个故障树,采用故障树分析法进行监控。
在一个实施例中,预设系统有向图包括底层节点、中间节点和资源管理系统节点,更新模块还用于从系统状态参数中获取与各底层节点对应的底层节点参数,根据底层节点参数,计算各底层节点的底层节点值,从系统状态参数中获取与各中间节点对应的中间节点参数,根据中间节点参数和底层节点值,计算各中间节点的中间节点值,根据中间节点值中的集群节点值,计算资源管理系统节点的资源管理系统节点值,根据底层节点值、中间节点值、资源管理系统节点值,更新预设系统有向图中各系统节点的节点值,得到系统状态图。
在一个实施例中,资源管理系统监控装置还包括显示模块,显示模块用于显示系统状态图。
在一个实施例中,更新模块还用于将系统状态图存储至预设图数据库,资源管理系统监控装置还包括调用模块,调用模块用于根据异常集群节点,调用预设图数据库,得到预设图数据库反馈的故障节点信息。
在一个实施例中,处理模块还用于对系统状态图中各集群节点的集群节点值进行排序,根据排序结果确定异常集群节点。
在一个实施例中,资源管理系统监控装置还包括排序模块,排序模块用于根据故障节点信息,确定故障集群数,当故障集群数不为预设值时,向预设图数据库获取关键集群数据,根据关键集群数据,确定故障集群处理优先级。
关于资源管理系统监控装置的具体限定可以参见上文中对于资源管理系统监控方法的限定,在此不再赘述。上述资源管理系统监控装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储系统有向图和系统状态图数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种资源管理系统监控方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (12)
1.一种资源管理系统监控方法,其特征在于,所述方法包括:
获取资源管理系统的逻辑结构图;
根据所述逻辑结构图和预设节点约束信息,生成系统有向图,所述系统有向图为描述所述资源管理系统中各子系统之间关系的有向图;所述系统有向图包括底层节点、中间节点和资源管理系统节点;
将所述系统有向图存储至预设图数据库中;
获取系统状态参数;
从所述系统状态参数中获取与各底层节点对应的底层节点参数,根据所述底层节点参数,计算各所述底层节点的底层节点值;
从所述系统状态参数中获取与各中间节点对应的中间节点参数,根据所述中间节点参数和所述底层节点值,计算各所述中间节点的中间节点值;
根据所述中间节点值中的集群节点值,计算资源管理系统节点的资源管理系统节点值;
根据所述底层节点值、所述中间节点值、所述资源管理系统节点值,更新所述系统有向图中各系统节点的节点值,得到系统状态图;所述节点值用于表征系统节点的可服务度;
根据所述系统状态图中各集群节点的集群节点值,确定异常集群节点;
根据所述异常集群节点,确定与所述系统状态图对应的故障节点信息。
2.根据权利要求1所述的方法,其特征在于,在所述根据所述底层节点值、所述中间节点值、所述资源管理系统节点值,更新所述系统有向图中各系统节点的节点值,得到系统状态图之后,还包括:
显示所述系统状态图。
3.根据权利要求1所述的方法,其特征在于,在所述根据所述底层节点值、所述中间节点值、所述资源管理系统节点值,更新所述系统有向图中各系统节点的节点值,得到系统状态图之后,还包括:
将所述系统状态图存储至预设图数据库;
所述根据所述异常集群节点,确定与所述系统状态图对应的故障节点信息包括:
根据所述异常集群节点,调用所述预设图数据库,得到所述预设图数据库反馈的故障节点信息。
4.根据权利要求1所述的方法,其特征在于,所述根据所述系统状态图中各集群节点的集群节点值,确定异常集群节点包括:
对所述系统状态图中各集群节点的集群节点值进行排序;
根据排序结果确定异常集群节点。
5.根据权利要求3所述的方法,其特征在于,在所述得到所述预设图数据库反馈的故障节点信息之后,还包括:
根据所述故障节点信息,确定故障集群数;
当所述故障集群数不为预设值时,向所述预设图数据库获取关键集群数据;
根据所述关键集群数据,确定故障集群处理优先级。
6.一种资源管理系统监控装置,其特征在于,所述装置包括:
构建模块,构建模块用于获取资源管理系统的逻辑结构图,根据所述逻辑结构图和预设节点约束信息,生成系统有向图,所述系统有向图为描述所述资源管理系统中各子系统之间关系的有向图;所述系统有向图包括底层节点、中间节点和资源管理系统节点,将所述系统有向图存储至预设图数据库中;
获取模块,用于获取系统状态参数;
更新模块,用于从所述系统状态参数中获取与各底层节点对应的底层节点参数,根据所述底层节点参数,计算各所述底层节点的底层节点值,从所述系统状态参数中获取与各中间节点对应的中间节点参数,根据所述中间节点参数和所述底层节点值,计算各所述中间节点的中间节点值,根据所述中间节点值中的集群节点值,计算资源管理系统节点的资源管理系统节点值,根据所述底层节点值、所述中间节点值、所述资源管理系统节点值,更新所述系统有向图中各系统节点的节点值,得到系统状态图;所述节点值用于表征系统节点的可服务度;
处理模块,用于根据所述系统状态图中各集群节点的集群节点值,确定异常集群节点;
查询模块,用于根据所述异常集群节点,确定与所述系统状态图对应的故障节点信息。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括显示模块,所述显示模块用于显示所述系统状态图。
8.根据权利要求6所述的装置,其特征在于,所述更新模块还用于将所述系统状态图存储至预设图数据库;所述装置还包括调用模块,所述调用模块用于根据所述异常集群节点,调用所述预设图数据库,得到所述预设图数据库反馈的故障节点信息。
9.根据权利要求6所述的装置,其特征在于,所述处理模块还用于对所述系统状态图中各集群节点的集群节点值进行排序,根据排序结果确定异常集群节点。
10.根据权利要求8所述的装置,其特征在于,所述装置还包括排序模块,所述排序模块用于根据所述故障节点信息,确定故障集群数,当所述故障集群数不为预设值时,向所述预设图数据库获取关键集群数据,根据所述关键集群数据,确定故障集群处理优先级。
11.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的方法的步骤。
12.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011072180.6A CN112202617B (zh) | 2020-10-09 | 2020-10-09 | 资源管理系统监控方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011072180.6A CN112202617B (zh) | 2020-10-09 | 2020-10-09 | 资源管理系统监控方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112202617A CN112202617A (zh) | 2021-01-08 |
CN112202617B true CN112202617B (zh) | 2024-02-23 |
Family
ID=74014150
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011072180.6A Active CN112202617B (zh) | 2020-10-09 | 2020-10-09 | 资源管理系统监控方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112202617B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112925693B (zh) * | 2021-02-25 | 2023-11-03 | 新疆北斗同创信息科技有限公司 | 系统监控方法、装置、计算机设备及存储介质 |
CN115248826B (zh) * | 2022-09-21 | 2023-04-11 | 杭州悦数科技有限公司 | 一种大规模分布式图数据库集群运维管理的方法和系统 |
CN117349128B (zh) * | 2023-12-05 | 2024-03-22 | 杭州沃趣科技股份有限公司 | 一种服务器集群的故障监控方法、装置、设备及存储介质 |
CN118090356A (zh) * | 2024-04-23 | 2024-05-28 | 杭州湘亭科技有限公司 | 一种放射性流出物氪-85废气浓缩采集系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6151688A (en) * | 1997-02-21 | 2000-11-21 | Novell, Inc. | Resource management in a clustered computer system |
US8595262B1 (en) * | 2012-03-29 | 2013-11-26 | Amazon Technologies, Inc. | Resource resolution in computing environments using directed graphs |
US8862743B1 (en) * | 2011-01-13 | 2014-10-14 | Google Inc. | Resource management |
CN111901156A (zh) * | 2020-07-09 | 2020-11-06 | 腾讯科技(深圳)有限公司 | 一种监控故障的方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7137040B2 (en) * | 2003-02-12 | 2006-11-14 | International Business Machines Corporation | Scalable method of continuous monitoring the remotely accessible resources against the node failures for very large clusters |
US20200104222A1 (en) * | 2018-09-28 | 2020-04-02 | Hewlett Packard Enterprise Development Lp | Systems and methods for managing server cluster environments and providing failure recovery therein |
-
2020
- 2020-10-09 CN CN202011072180.6A patent/CN112202617B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6151688A (en) * | 1997-02-21 | 2000-11-21 | Novell, Inc. | Resource management in a clustered computer system |
US8862743B1 (en) * | 2011-01-13 | 2014-10-14 | Google Inc. | Resource management |
US8595262B1 (en) * | 2012-03-29 | 2013-11-26 | Amazon Technologies, Inc. | Resource resolution in computing environments using directed graphs |
CN111901156A (zh) * | 2020-07-09 | 2020-11-06 | 腾讯科技(深圳)有限公司 | 一种监控故障的方法及装置 |
Non-Patent Citations (1)
Title |
---|
基于集群的电力系统公式分布式计算方法;高原;顾文杰;;江苏科技信息(第25期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112202617A (zh) | 2021-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112202617B (zh) | 资源管理系统监控方法、装置、计算机设备和存储介质 | |
US11240117B2 (en) | Intelligent analytic cloud provisioning | |
US10831633B2 (en) | Methods, apparatuses, and systems for workflow run-time prediction in a distributed computing system | |
Chan et al. | Modeling and testing of cloud applications | |
US9112777B1 (en) | Tag-based resource configuration control | |
US20150150020A1 (en) | System and method facilitating performance prediction of multi-threaded application in presence of resource bottlenecks | |
CN105556499B (zh) | 智能自动缩放 | |
US20130212155A1 (en) | Processing event instance data in a client-server architecture | |
CN112783720B (zh) | 拓扑结构图生成方法、装置、计算机设备和展示系统 | |
CN111124830B (zh) | 一种微服务的监控方法及装置 | |
US20140245305A1 (en) | Systems and Methods for Multi-Tenancy Data Processing | |
Dadashi Gavaber et al. | BADEP: bandwidth and delay efficient application placement in fog‐based IoT systems | |
US10664525B2 (en) | Data partioning based on end user behavior | |
CN113158435A (zh) | 基于集成学习的复杂系统仿真运行时间预测方法与设备 | |
Lammel et al. | Sonar: Automated communication characterization for hpc applications | |
CN117435335A (zh) | 算力调度方法、装置、计算机设备和存储介质 | |
Torres et al. | Storage services in private clouds: Analysis, performance and availability modeling | |
CN113722141B (zh) | 数据任务的延迟原因确定方法、装置、电子设备及介质 | |
Mormul et al. | Dear: Distributed evaluation of alerting rules | |
CN114971180A (zh) | 网络系统风险评估方法、装置、计算机设备和存储介质 | |
CN114281549A (zh) | 数据的处理方法及装置 | |
CN113835953A (zh) | 作业信息的统计方法、装置、计算机设备和存储介质 | |
CN114428704A (zh) | 全链路分布式监控的方法、装置、计算机设备和存储介质 | |
Evangelista | Performance modelling of NoSQL DBMS | |
Ochei et al. | A framework for achieving the required degree of multitenancy isolation for deploying components of a cloud-hosted service |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230920 Address after: 100089 Beijing Haidian District Zhichun Road 49 No. 3 West 309 Applicant after: TENCENT CLOUD COMPUTING (BEIJING) Co.,Ltd. Address before: 518000 Tencent Building, No. 1 High-tech Zone, Nanshan District, Shenzhen City, Guangdong Province, 35 Floors Applicant before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |