CN115277370A - 一种运维系统的根因节点的确定方法、装置及设备 - Google Patents

一种运维系统的根因节点的确定方法、装置及设备 Download PDF

Info

Publication number
CN115277370A
CN115277370A CN202211161292.8A CN202211161292A CN115277370A CN 115277370 A CN115277370 A CN 115277370A CN 202211161292 A CN202211161292 A CN 202211161292A CN 115277370 A CN115277370 A CN 115277370A
Authority
CN
China
Prior art keywords
node
determining
abnormal
maintenance system
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211161292.8A
Other languages
English (en)
Other versions
CN115277370B (zh
Inventor
牛群
严川
张博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cloudwise Beijing Technology Co Ltd
Original Assignee
Cloudwise Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cloudwise Beijing Technology Co Ltd filed Critical Cloudwise Beijing Technology Co Ltd
Priority to CN202211161292.8A priority Critical patent/CN115277370B/zh
Publication of CN115277370A publication Critical patent/CN115277370A/zh
Application granted granted Critical
Publication of CN115277370B publication Critical patent/CN115277370B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/065Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving logical or physical relationship, e.g. grouping and hierarchies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/12Discovery or management of network topologies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0811Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking connectivity

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种运维系统的根因节点的确定方法、装置及设备,其中,所述方法包括:根据至少一个目标数据指标,确定运维系统的各节点的拓扑关系中的起始节点;获取所述各节点在所述目标数据指标下的权重;根据所述各节点的拓扑关系,获取所述各节点到所述起始节点的距离;根据所述各节点的权重以及所述各节点到所述起始节点的距离,确定所述各节点中的故障根因节点。本发明的方案可以提升故障根因定位的准确性,加快响应异常时间、降低故障的平均修复时间。

Description

一种运维系统的根因节点的确定方法、装置及设备
技术领域
本发明涉及运维系统数据处理技术领域,特别是指一种运维系统的根因节点的确定方法、装置及设备。
背景技术
随着信息技术的不断发展,软件系统的设计和实现变得越来越复杂,微服务的出现使得软件系统的支持和维护成本爆发式增加。在微服务系统中发生异常并演变为故障甚至事故的过程中,开发工程师和维护工程师往往疲于应对这些突如其来并且高度复杂的事件,使得异常事件长时间不能得到有效解决,服务中断时间可能被无限制的拉长,最终使得用户体验下降。为了降低故障的平均修复时间,采用自动化的根因定位方法是一种值得推荐的做法。
当前存在很多对运维系统进行根因定位的算法。这些根因定位算法大都依赖于复杂的基础指标数据体系,比如各业务服务的可用性指标以及KPI指标,响应时间指标以及成功率指标。这使得整个算法体系变得复杂难用,算法结果也多变、难以预测。在这样的指标数据体系下,算法往往过分追求更广泛的指标数据类型,而忽略了对相关指标数据的更多特征的深入分析。更为严重的是,这些复杂的算法由于过分追求算法的通用性,会使用各种评分手段和多种算法融合在一起定位根因,削弱了对特定场景微服务的运维系统下可解释性的应用,造成运维系统中的根因节点的定位不准确。
发明内容
本发明目的在于提供一种运维系统的根因节点的确定方法、装置及设备。可以提高运维系统根因节点定位的准确性。
为解决上述技术问题,本发明的技术方案如下:
一种运维系统的根因节点的确定方法,包括:
根据至少一个目标数据指标,确定运维系统的各节点的拓扑关系中的起始节点;
获取所述各节点在所述目标数据指标下的权重;
根据所述各节点的拓扑关系,获取所述各节点到所述起始节点的距离;
根据所述各节点的权重以及所述各节点到所述起始节点的距离,确定所述各节点中的故障根因节点。
可选的,根据至少一个目标数据指标,确定运维系统的各节点的拓扑关系中的起始节点,包括:
根据用于表达节点处理效率的延迟和/或响应时间类的至少一个目标数据指标,确定运维系统的各节点的拓扑关系中的起始节点。
可选的,获取所述各节点在所述目标数据指标下的权重,包括:
对所述各节点的所述目标数据指标进行特征提取,得到至少一个目标特征值;
根据所述至少一个目标特征值,获取所述各节点在所述目标数据指标下的权重。
可选的,根据所述至少一个目标特征值,获取所述各节点在所述目标数据指标下的权重,包括:
通过
Figure 568386DEST_PATH_IMAGE001
获取所述各节点在所述目标数据指标下的权重;
其中,
Figure 626472DEST_PATH_IMAGE002
表示节点的第i个目标数据指标的第j个目标特征的权重系数,
Figure 547155DEST_PATH_IMAGE003
表示节点的第i个目标数据指标的第j个目标特征值,
Figure 348889DEST_PATH_IMAGE004
表示节点的第j个目标特征值的最大值,
Figure 569786DEST_PATH_IMAGE005
;max表示取最大值。
可选的,根据所述各节点的拓扑关系,获取所述各节点到所述起始节点的距离,包括:
确定所述拓扑关系中,除所述起始节点外的其余各节点的连通情况,确定故障区域;
获取所述故障区域中,各节点到所述起始节点的距离,所述距离为各节点到所述起始节点之间的通路上的节点总数减1。
可选的,根据所述各节点的权重以及所述各节点到所述起始节点的距离,确定所述各节点中的故障根因节点,包括:
根据所述各节点的权重,确定出至少一个异常节点;
在所述至少一个异常节点中,根据所述异常节点到所述起始节点的距离,确定故障根因节点。
可选的,在所述至少一个异常节点中,根据所述异常节点到所述起始节点的距离,确定故障根因节点,包括:
在所述至少一个异常节点中,若只有一个异常节点,确定该异常节点为故障根因节点;
在所述至少一个异常节点中,若存在两个以上异常节点,且各异常节点之间存在调用关系,确定到所述起始节点的距离最大的异常节点为故障根因节点;
在所述至少一个异常节点中,若存在两个以上异常节点,且各异常节点之间不存在调用关系,确定各异常节点均为故障根因节点。
本发明还提供一种运维系统的根因节点的确定装置,包括:
获取模块,用于根据至少一个目标数据指标,确定运维系统的各节点的拓扑关系中的起始节点;获取所述各节点在所述目标数据指标下的权重;
处理模块,用于根据所述各节点的拓扑关系,获取所述各节点到所述起始节点的距离;根据所述各节点的权重以及所述各节点到所述起始节点的距离,确定所述各节点中的故障根因节点。
本发明还提供一种计算设备,包括:处理器、存储有计算机程序的存储器,所述计算机程序被处理器运行时,执行如上所述的运维系统的根因分析方法。
本发明还提供一种计算机可读存储介质,包括:存储指令,当所述指令在计算机上运行时,使得计算机执行如上所述的运维系统的根因分析方法。
本发明的上述方案至少包括以下有益效果:
本发明的上述方案,通过根据至少一个目标数据指标,确定运维系统的各节点的拓扑关系中的起始节点;获取所述各节点在所述目标数据指标下的权重;根据所述各节点的拓扑关系,获取所述各节点到所述起始节点的距离;根据所述各节点的权重以及所述各节点到所述起始节点的距离,确定所述各节点中的故障根因节点,使得运维系统基于目标数据指标实现了根因节点的定位,提升了运维系统故障根因节点定位的准确性,加快了响应异常的速度、降低了故障的平均修复时间。
附图说明
图1为本发明实施例提供的运维系统的根因节点的确定方法的流程示意图;
图2为本发明实施例提供的运维系统的节点调用关系示意图;
图3为本发明实施例提供的运维系统中的节点出现故障的第一场景示意图;
图4为本发明实施例提供的运维系统中的节点出现故障的第二场景示意图;
图5为本发明实施例提供的运维系统中的节点出现故障的第三场景示意图;
图6为本发明实施例提供的运维系统中的节点出现故障的第四场景示意图;
图7为本发明实施例提供的运维系统的根因节点的确定方法的又一具体流程示意图;
图8为本发明实施例提供的运维系统的根因节点的确定装置的模块示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明的实施例中,运维系统是指运维对象实体集合的统称,例如某互联网公司在某地的机房,银行业务系统等。
节点:运维系统中实现单一功能的实体模块或抽象模块,例如微服务、服务器、中间件、业务应用、业务模块等。
如图1所示,本发明的实施例提供一种运维系统的根因节点的确定方法,包括:
步骤11,根据至少一个目标数据指标,确定运维系统的各节点的拓扑关系中的起始节点;
步骤12,获取所述各节点在所述目标数据指标下的权重;
步骤13,根据所述各节点的拓扑关系,获取所述各节点到所述起始节点的距离;
步骤14,根据所述各节点的权重以及所述各节点到所述起始节点的距离,确定所述各节点中的故障根因节点。
本发明的该实施例中,通过确定所述运维系统的各节点的拓扑关系中的起始节点,获取所述各节点的拓扑关系,获取所述各节点到所述起始节点的距离,根据所述各节点的权重以及所述各节点到所述起始节点的距离,确定所述各节点中的故障根因节点,使得运维系统基于目标数据指标实现根因节点的定位,提升运维系统故障根因节点定位的准确性,加快响应异常时间、降低故障的平均修复时间。
如图2所示,本发明一可选的具体实施例中,运维系统的节点调用关系图中可以包括9个节点,3层拓扑结构;箭头方向为节点之间的调用关系,例如:节点1到节点2的箭头方向,表示节点1调用节点2,节点调用的先后顺序包括:深度调用和/或广度调用;
其中,深度调用可以包括:先按照某一条调用通路输出,然后不断递归调用;比如:从节点1开始调用,即节点1为起始节点,并按照1、2、5、6、3、7、4、8、9的顺序依次进行计算;
广度调用可以包括:先按照最近调用关系输出,然后递归到下层调用;比如:从节点开始1调用,并按照1、2、3、4、5、6、7、8、9的顺序依次进行计算。
本发明一可选的实施例中,所述步骤11,可以包括:
步骤111,根据用于表达节点处理效率的延迟和/或响应时间类的至少一个目标数据指标,确定运维系统的各节点的拓扑关系中的起始节点。
本实施例中,所述目标数据指标优选为能够表达对象处理效率的时间类指标,可以包括但不限于:延迟类指标、响应时间类指标,所述延迟类指标和响应时间类指标,能够表达对象处理效率,借此可以表现出更高效的根因定位能力,因此本实施例中优选根据延迟类指标和/或响应时间类指标,确定运维系统的各结点的拓扑关系中的起始节点。
本发明又一可选的实施例中,所述步骤12,可以包括:
步骤121,对所述各节点的所述目标数据指标进行特征提取,得到至少一个目标特征值;
步骤122,根据所述至少一个目标特征值,获取所述各节点在所述目标数据指标下的权重。
该优选实施例中,通过对指标数据类型进行特征分析,使得时间类指标在微服务运维系统环境下能够具有更好的表现张力,即可解释性和准确性更佳。进一步的,这些张力还能够通过将指标数据在数据层面不同方面的特征映射到微服务运维系统环境下对不同异常事件场景下的根因定位获得更佳的效果提升。比如,通过将延迟类数据特征分为:描述延迟波动情况的标准差、描述不同延迟时长的数据密度的时间百分位数等。
具体的,所述步骤122,可以包括:
步骤1221,通过
Figure 2035DEST_PATH_IMAGE001
获取所述各节点在所述目标数据指标下的权重;
其中,
Figure 82118DEST_PATH_IMAGE002
表示节点的第i个目标数据指标的第j个目标特征的权重系数,
Figure 156384DEST_PATH_IMAGE003
表示节点的第i个目标数据指标的第j个目标特征值,
Figure 966208DEST_PATH_IMAGE004
表示节点的第j个目标特征值的最大值,
Figure 366097DEST_PATH_IMAGE005
;max表示取最大值。
其中,节点的所述目标数据指标可以包括多个,例如:平均每分钟响应时长和/或平均每分钟请求时长;
所述目标特征值可以包括以下至少一项:平均每分钟响应时长的标准差、皮尔逊相关系数,平均每分钟请求时长的标准差、皮尔逊相关系数。
本实施例中,所述各节点在所述目标数据指标下的权重,可以根据运维系统环境下每个数据节点的各项目标特征值,评估出该节点的归一化之后的分数作为该节点的权重。这样能够使得响应时间类指标在运维系统环境下具有更好的表现张力,即可解释性和准确性,这些张力能够通过将目标数据指标在数据层面不同方面的特征映射到运维系统环境下实现不同异常事件场景下的根因定位。
本发明又一可选的实施例中,所述步骤13,可以包括:
步骤131,确定所述拓扑关系中,除所述起始节点外的其余各节点的连通情况,确定故障区域;
步骤132,获取所述故障区域中,各节点到所述起始节点的距离,所述距离为各节点到所述起始节点之间的通路上的节点总数减1。
这里,先根据节点的拓扑关系,将正常调用的节点排除,优选为全部排除,剩余非连通的节点形成的区域,确定为故障区域,在故障区域中进行故障根因节点的定位,不需要全局搜索和遍历,可以大大提高根因节点定位的效率。
本实施例中,所述各节点到所述起始节点的距离,是同一通路故障区域下的节点按照距离起始节点的长度。这样可以通过所述距离和权重确定同一故障区域中的故障根因节点。
本发明又一可选的实施例中,所述步骤14,可以包括:
步骤141,根据所述各节点的权重,确定出至少一个异常节点;
步骤142,在所述至少一个异常节点中,根据所述异常节点到所述起始节点的距离,确定故障根因节点。
其中,将所述权重与预设阈值进行对比,将权重大于所述预设阈值的节点作为异常节点,这里,预设阈值优选为0.5,但不限于0.5,可根据具体经验进行调整。
该实施例在具体实现时,所述步骤142,可以包括:
步骤1421,在所述至少一个异常节点中,若只有一个异常节点,确定该异常节点为故障根因节点;
步骤1422,在所述至少一个异常节点中,若存在两个以上异常节点,且各异常节点之间存在调用关系,确定到所述起始节点的距离最大的异常节点为故障根因节点;
步骤1423,在所述至少一个异常节点中,若存在两个以上异常节点,且各异常节点之间不存在调用关系,确定各异常节点均为故障根因节点。
本实施例中,在所述至少一个异常节点中,根据所述异常节点到所述起始节点的距离,确定故障根因节点。从而提升故障根因定位的可解释性和准确性,并缩短响应异常的时间、降低故障的平均修复时间。
如图3至图6所示,本发明又一可选的具体实施例中,所述运维系统的根因节点的确定过程,具体可以包括:
图3至图6分别对应不同的延迟异常场景,节点里面的数字表示节点编号,节点左上角或者右边的数字从左到右分别表示该节点对应的距离和权重,斜线底纹的节点代表起始节点,交叉线底纹的节点代表异常节点,其中,所述预设阈值优选为0.5,将权重大于该预设阈值的节点确定为异常节点;
如图3所示,该第一场景描述了单个节点出现异常的情况,异常导致该节点2出现较大的平均延迟,该节点2的权重为0.92,和其他节点的权重相比,显然节点2是从节点1开始调用的最大瓶颈,那么该场景下的根因就定位到节点2上,因此,在所述至少一个异常节点中,若只有一个异常节点,确定该异常节点为故障根因节点;
如图4所示,该第二场景描述了单条调用通路上多个节点出现异常的情况,从权重上看显然节点2要大于节点3,并且节点2调用了节点3,根据距离起始节点最大距离,节点3距离为2,节点2距离为1,因此定位节点3是故障根因节点;
如图5所示,该第三场景描述了三条通路上多个节点出现异常的情况,从权重上看,节点2、节点5和节点6都是异常节点,并且节点2和节点5同时调用了节点6,节点6距离为2,节点5距离为1,节点2距离为1,因此可以推断出此次故障的根因为节点6,因此,在所述至少一个异常节点中,若各异常节点之间存在调用关系,确定到所述起始节点的距离最大的目标异常节点为故障根因节点;
如图6所示,该第四场景描述了两条独立通路上多个节点出现异常的情况,从评分上看显然节点2要大于节点3,并且节点2和节点7不存在直接或者间接的调用关系,因此可以判断节点2和节点7都是导致这个场景异常的根因,因此,在所述至少一个异常节点中,若各异常节点之间不存在调用关系,确定各异常节点均为故障根因节点。
如图7所示,本发明又一可选的具体实施例中,所述运维系统的根因节点的确定方法的过程,具体可以包括:
步骤71,选取延迟类指标作为节点的目标数据指标,确定运维系统的节点的拓扑关系中的起始节点;
步骤72,选取一段时间,挖掘这段时间内的节点的至少一个目标数据指标下的至少一个目标特征值;
步骤73,根据至少一个目标特征值计算特征权重,并归一化特征权重;
步骤74,选取最大特征权重作为本节点的权重;
步骤75,计算本节点到起始节点的距离;
步骤76,剔除起始节点后,根据节点是否连通划分故障区域;
步骤77,针对每个故障区域,按照节点拓扑结构、选择深度或者广度定位算法,并根据预设阈值判定节点是否异常进行根因定位,得到至少一个故障根因节点;
步骤78,根据至少一个故障根因节点,生成故障根因节点集合。
本发明的上述实施例中,所述运维系统可以是基于微服务的运维系统,该运维系统的根因节点的确定方法,选取目标数据指标进行根因节点定位,降低复杂指标体系的维护,通过节点权重和节点到入口节点的距离,定位故障根因节点,提升根因定位的算法对异常时间的可解释性和准确性,以及运行维护人员对根因定位算法的理解,进而快速响应异常事件、降低故障的平均修复时间;有效地提高运维效率。
本发明基于延迟类指标的异常特征检测方法和根因定位方法,尤其适用于微服务场景下的根因定位。
如图8所示,本发明的实施例还提供一种运维系统的根因节点的确定装置80,所述装置80包括:
获取模块81,用于根据至少一个目标数据指标,确定运维系统的各节点的拓扑关系中的起始节点;获取所述各节点在所述目标数据指标下的权重;
处理模块82,用于根据所述各节点的拓扑关系,获取所述各节点到所述起始节点的距离;根据所述各节点的权重以及所述各节点到所述起始节点的距离,确定所述各节点中的故障根因节点。
可选的,根据至少一个目标数据指标,确定运维系统的各节点的拓扑关系中的起始节点,包括:
根据用于表达节点处理效率的延迟和/或响应时间类的至少一个目标数据指标,确定运维系统的各节点的拓扑关系中的起始节点。
可选的,获取所述各节点在所述目标数据指标下的权重,包括:
对所述各节点的所述目标数据指标进行特征提取,得到至少一个目标特征值;
根据所述至少一个目标特征值,获取所述各节点在所述目标数据指标下的权重。
可选的,根据所述至少一个目标特征值,获取所述各节点在所述目标数据指标下的权重,包括:
通过
Figure 261371DEST_PATH_IMAGE001
获取所述各节点在所述目标数据指标下的权重;
其中,
Figure 139329DEST_PATH_IMAGE002
表示节点的第i个目标数据指标的第j个目标特征的权重系数,
Figure 69239DEST_PATH_IMAGE003
表示节点的第i个目标数据指标的第j个目标特征值,
Figure 640028DEST_PATH_IMAGE004
表示节点的第j个目标特征值的最大值,
Figure 780458DEST_PATH_IMAGE005
;max表示取最大值。
可选的,根据所述各节点的拓扑关系,获取所述各节点到所述起始节点的距离,包括:
确定所述拓扑关系中,除所述起始节点外的其余各节点的连通情况,确定故障区域;
获取所述故障区域中,各节点到所述起始节点的距离,所述距离为各节点到所述起始节点之间的通路上的节点总数减1。
可选的,根据所述各节点的权重以及所述各节点到所述起始节点的距离,确定所述各节点中的故障根因节点,包括:
根据所述各节点的权重,确定出至少一个异常节点;
在所述至少一个异常节点中,根据所述异常节点到所述起始节点的距离,确定故障根因节点。
可选的,在所述至少一个异常节点中,根据所述异常节点到所述起始节点的距离,确定故障根因节点,包括:
在所述至少一个异常节点中,若只有一个异常节点,确定该异常节点为故障根因节点;
在所述至少一个异常节点中,若存在两个以上异常节点,且各异常节点之间存在调用关系,确定到所述起始节点的距离最大的异常节点为故障根因节点;
在所述至少一个异常节点中,若存在两个以上异常节点,且各异常节点之间不存在调用关系,确定各异常节点均为故障根因节点。
需要说明的是,该实施例是与上述方法实施例对应的装置实施例,上述方法实施例中的所有实现方式均适用于该装置的实施例中,也能达到相同的技术效果。
本发明实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的运维系统的根因节点的确定方法。
本发明的实施例还提供一种计算设备,包括:处理器、存储有计算机程序的存储器,所述计算机程序被处理器运行时,执行如上所述的运维系统的根因节点的确定方法。
该计算设备可以包括:处理器(processor)、通信接口(CommunicationsInterface)、存储器(memory)、以及通信总线。
其中:处理器、通信接口、以及存储器通过通信总线完成相互间的通信。通信接口,用于与其它设备比如客户端或其它服务器等的网元通信。处理器,用于执行程序,具体可以执行上述用于计算设备的运维系统的根因节点的确定方法实施例中的相关步骤。
具体地,程序可以包括程序代码,该程序代码包括计算机操作指令。
处理器可能是中央处理器CPU,或者是特定集成电路ASIC(Application SpecificIntegrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器,用于存放程序。存储器可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序具体可以用于使得处理器执行上述任意方法实施例中的运维系统的根因节点的确定方法。程序中各步骤的具体实现可以参见上述运维系统的根因节点的确定方法实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明实施例的内容,并且上面对特定语言所做的描述是为了披露本发明实施例的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明实施例并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者系统程序(例如,计算机程序和计算机程序产品)。这样的实现本发明实施例的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明实施例进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明实施例可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干系统的单元权利要求中,这些系统中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。

Claims (10)

1.一种运维系统的根因节点的确定方法,其特征在于,包括:
根据至少一个目标数据指标,确定运维系统的各节点的拓扑关系中的起始节点;
获取所述各节点在所述目标数据指标下的权重;
根据所述各节点的拓扑关系,获取所述各节点到所述起始节点的距离;
根据所述各节点的权重以及所述各节点到所述起始节点的距离,确定所述各节点中的故障根因节点。
2.根据权利要求1所述的运维系统的根因节点的确定方法,其特征在于,根据至少一个目标数据指标,确定运维系统的各节点的拓扑关系中的起始节点,包括:
根据用于表达节点处理效率的延迟和/或响应时间类的至少一个目标数据指标,确定运维系统的各节点的拓扑关系中的起始节点。
3.根据权利要求1所述的运维系统的根因节点的确定方法,其特征在于,获取所述各节点在所述目标数据指标下的权重,包括:
对所述各节点的所述目标数据指标进行特征提取,得到至少一个目标特征值;
根据所述至少一个目标特征值,获取所述各节点在所述目标数据指标下的权重。
4.根据权利要求3所述的运维系统的根因节点的确定方法,其特征在于,根据所述至少一个目标特征值,获取所述各节点在所述目标数据指标下的权重,包括:
通过
Figure DEST_PATH_IMAGE001
获取所述各节点在所述目标数据指标下的权重;
其中,
Figure DEST_PATH_IMAGE002
表示节点的第i个目标数据指标的第j个目标特征的权重系数,
Figure DEST_PATH_IMAGE003
表示节点的第i个目标数据指标的第j个目标特征值,
Figure DEST_PATH_IMAGE004
表示节点的第j个目标特征值的最大值,
Figure DEST_PATH_IMAGE005
;max表示取最大值。
5.根据权利要求1所述的运维系统的根因节点的确定方法,其特征在于,根据所述各节点的拓扑关系,获取所述各节点到所述起始节点的距离,包括:
确定所述拓扑关系中,除所述起始节点外的其余各节点的连通情况,确定故障区域;
获取所述故障区域中,各节点到所述起始节点的距离,所述距离为各节点到所述起始节点之间的通路上的节点总数减1。
6.根据权利要求1所述的运维系统的根因节点的确定方法,其特征在于,根据所述各节点的权重以及所述各节点到所述起始节点的距离,确定所述各节点中的故障根因节点,包括:
根据所述各节点的权重,确定出至少一个异常节点;
在所述至少一个异常节点中,根据所述异常节点到所述起始节点的距离,确定故障根因节点。
7.根据权利要求1所述的运维系统的根因节点的确定方法,其特征在于,在所述至少一个异常节点中,根据所述异常节点到所述起始节点的距离,确定故障根因节点,包括:
在所述至少一个异常节点中,若只有一个异常节点,确定该异常节点为故障根因节点;
在所述至少一个异常节点中,若存在两个以上异常节点,且各异常节点之间存在调用关系,确定到所述起始节点的距离最大的异常节点为故障根因节点;
在所述至少一个异常节点中,若存在两个以上异常节点,且各异常节点之间不存在调用关系,确定各异常节点均为故障根因节点。
8.一种运维系统的根因节点的确定装置,其特征在于,包括:
获取模块,用于根据至少一个目标数据指标,确定运维系统的各节点的拓扑关系中的起始节点;获取所述各节点在所述目标数据指标下的权重;
处理模块,用于根据所述各节点的拓扑关系,获取所述各节点到所述起始节点的距离;根据所述各节点的权重以及所述各节点到所述起始节点的距离,确定所述各节点中的故障根因节点。
9.一种计算设备,其特征在于,包括:处理器、存储有计算机程序的存储器,所述计算机程序被处理器运行时,执行如权利要求1至7任一项所述的运维系统的根因节点的确定方法。
10.一种计算机可读存储介质,其特征在于,包括:存储指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1至7任一项所述的运维系统的根因节点的确定方法。
CN202211161292.8A 2022-09-23 2022-09-23 一种运维系统的根因节点的确定方法、装置及设备 Active CN115277370B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211161292.8A CN115277370B (zh) 2022-09-23 2022-09-23 一种运维系统的根因节点的确定方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211161292.8A CN115277370B (zh) 2022-09-23 2022-09-23 一种运维系统的根因节点的确定方法、装置及设备

Publications (2)

Publication Number Publication Date
CN115277370A true CN115277370A (zh) 2022-11-01
CN115277370B CN115277370B (zh) 2023-02-03

Family

ID=83756518

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211161292.8A Active CN115277370B (zh) 2022-09-23 2022-09-23 一种运维系统的根因节点的确定方法、装置及设备

Country Status (1)

Country Link
CN (1) CN115277370B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103973496A (zh) * 2014-05-21 2014-08-06 华为技术有限公司 故障诊断方法及装置
CN112346936A (zh) * 2020-11-27 2021-02-09 中国工商银行股份有限公司 应用故障根因定位方法及系统
CN113869609A (zh) * 2021-10-29 2021-12-31 北京宝兰德软件股份有限公司 一种根因分析频繁子图置信度预测方法及系统
CN113918374A (zh) * 2021-12-08 2022-01-11 云智慧(北京)科技有限公司 一种运维系统的根因分析方法、装置及设备
WO2022028120A1 (zh) * 2020-08-06 2022-02-10 中兴通讯股份有限公司 指标检测模型获取及故障定位方法、装置、设备及存储介质
CN114090326A (zh) * 2022-01-14 2022-02-25 云智慧(北京)科技有限公司 一种告警的根因确定方法、装置及设备
CN114595788A (zh) * 2022-05-09 2022-06-07 云智慧(北京)科技有限公司 一种变压器故障诊断方法、装置及设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103973496A (zh) * 2014-05-21 2014-08-06 华为技术有限公司 故障诊断方法及装置
WO2022028120A1 (zh) * 2020-08-06 2022-02-10 中兴通讯股份有限公司 指标检测模型获取及故障定位方法、装置、设备及存储介质
CN112346936A (zh) * 2020-11-27 2021-02-09 中国工商银行股份有限公司 应用故障根因定位方法及系统
CN113869609A (zh) * 2021-10-29 2021-12-31 北京宝兰德软件股份有限公司 一种根因分析频繁子图置信度预测方法及系统
CN113918374A (zh) * 2021-12-08 2022-01-11 云智慧(北京)科技有限公司 一种运维系统的根因分析方法、装置及设备
CN114090326A (zh) * 2022-01-14 2022-02-25 云智慧(北京)科技有限公司 一种告警的根因确定方法、装置及设备
CN114595788A (zh) * 2022-05-09 2022-06-07 云智慧(北京)科技有限公司 一种变压器故障诊断方法、装置及设备

Also Published As

Publication number Publication date
CN115277370B (zh) 2023-02-03

Similar Documents

Publication Publication Date Title
US10616268B2 (en) Anomaly detection method for the virtual machines in a cloud system
CN106682906B (zh) 一种风险识别、业务处理方法和设备
CN108664222B (zh) 一种区块链系统及其应用方法
CN109189758B (zh) 运维流程设计方法、装置和设备、运行方法、装置和主机
CN116166405B (zh) 异构场景下的神经网络任务调度策略确定方法及装置
CN112532455B (zh) 一种异常根因定位方法及装置
US20160077860A1 (en) Virtual machine placement determination device, virtual machine placement determination method, and virtual machine placement determination program
CN115373888A (zh) 故障定位方法、装置、电子设备和存储介质
CN116974874A (zh) 数据库的测试方法、装置、电子设备及可读存储介质
CN111628878A (zh) 基于多级网络节点的故障定位方法、装置及系统
CN114257493A (zh) 网络节点的故障预警方法、装置、介质及电子设备
CN111144720B (zh) 运维场景的关联分析方法、装置及计算机可读存储介质
CN117729576A (zh) 告警监控方法、装置、设备及存储介质
CN115277370B (zh) 一种运维系统的根因节点的确定方法、装置及设备
CN111324518B (zh) 一种应用关联的方法及装置
CN115361295B (zh) 基于topsis的资源备份方法、装置、设备及介质
US8281006B2 (en) Connection state estimating device, connection state estimating method and storage medium
CN112783673A (zh) 一种调用链的确定方法、装置、计算机设备及存储介质
CN114237981A (zh) 数据恢复方法、装置、设备及存储介质
CN113691403A (zh) 拓扑节点配置方法、相关装置及计算机程序产品
CN113421105A (zh) 基于大数据防欺诈的信息处理方法及人工智能监测系统
CN113806092A (zh) 一种存储设备管理方法、系统、设备以及介质
CN115408182A (zh) 业务系统故障定位方法及装置
US9158871B2 (en) Graph modeling systems and methods
CN107342942B (zh) 一种多节点控制器集群的信息传输方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant