CN115664928A - 一种可解释的基于图的根因定位方法及装置 - Google Patents

一种可解释的基于图的根因定位方法及装置 Download PDF

Info

Publication number
CN115664928A
CN115664928A CN202211136516.XA CN202211136516A CN115664928A CN 115664928 A CN115664928 A CN 115664928A CN 202211136516 A CN202211136516 A CN 202211136516A CN 115664928 A CN115664928 A CN 115664928A
Authority
CN
China
Prior art keywords
fault
historical
index
monitoring
root cause
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211136516.XA
Other languages
English (en)
Inventor
裴丹
李则言
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202211136516.XA priority Critical patent/CN115664928A/zh
Publication of CN115664928A publication Critical patent/CN115664928A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种可解释的基于图的根因定位方法及装置,该方法包括:获取在线服务系统组件中监控指标和对应的指标依赖图;对当前故障时刻的监控指标和每个历史故障时刻的监控指标进行多异常模式的异常检测,得到监控指标是否异常的检测结果;对于当前故障和每个历史故障计算每对同类组件的指标匹配距离和图匹配距离,并得到每对同类组件的距离;计算最优组件分配,根据每对组件的组件距离的分配结果计算当前故障和每个历史故障之间的故障距离;基于当前故障和每个历史故障的故障距离得到最相似的历史故障,并基于最相似的历史故障定位当前故障的根因。本发明可准确查找相似历史故障并进行根因定位,可以解决海量指标带来的挑战。

Description

一种可解释的基于图的根因定位方法及装置
技术领域
本发明涉及计算机应用技术领域,尤其涉及一种可解释的基于图的根因定位方法及装置。
背景技术
大规模在线服务系统(例如,搜索引擎和在线购物平台)在我们的日常生活中已经有着至关重要的作用。这样的系统会包含成百上千的分布式的组件(例如,服务、容器和服务器),支持海量的并发用户。然而,由于在线服务系统的巨大规模和组件间复杂的依赖关系,导致故障难以避免,造成巨大的经济损失。因此,当在线服务系统中发生故障时,快速、准确地定位根因是非常重要的。
为了快速诊断故障,需要在细粒度上定位根因,也就是根因的具体位置和类型。为此,我们可以使用监控指标作为最直接、最细粒度的根因线索。为了密切地监控系统状态,运维人员往往会24*7地采集多种多样的监控指标(例如,CPU使用率,内存使用率,每秒请求量等等)。例如,发生在一个服务器上的高内存使用率和高请求量的组合,就表示这个服务器遇到了爆发性的请求带来的内存不足的问题。
现有的技术方案可以分成三类:通过启发式规则进行无监督的根因定位。例如,MonitorRank(Kim et al.2013)算法认为一个异常服务的邻居中,最有可能导致它异常的邻居应该是那个具有最大指标相似度的。CRD(Cheng et al.2016)算法假设故障会导致Granger因果关系消失,通过比较正常时刻的因果图,和故障时刻的因果图,基于相邻节点具有相似状态(正常或者异常)的假设,计算图上最可能的根因节点。使用有监督机器学习模型从历史故障数据中学习故障根因和故障特征之间的关系。例如,DejaVu(Li etal.2022)算法通过图神经网络,将系统中不同组件的监控指标作为输入,输出每个可能的故障位置和类型的根因分数。MEPFL(Zhou et al.2019)将调用轨迹数据的特征作为输入,输出故障服务和故障类型。基于无监督相似历史故障查找的根因定位。这类方法通过查找历史上相似的故障,并基于相似历史故障的根因定位当前故障的根因。都通过总结系统中的告警的特征进行相似故障的匹配。iSQUAD(Ma et al.2020)和Fingerprint(Brandon etal.2020)对系统中所有的指标的状态进行匹配。以上的方法都不是基于在线服务系统的,无法处理在线服务系统中组件之间的复杂依赖关系。Brandom et al.提出通过图表示系统中组件间的关系,并且通过计算图相似度查找相似故障。但是一方面,它不是基于指标数据而是特定的组件属性的;另一方面,它只能用于定位历史上在同一位置发生过的相同类型的故障,局限性比较大。
现有技术的缺点:通过启发式规则进行无监督的根因定位方法的主要缺点是,它们使用的启发式规则往往缺乏普适性,无法在各种各样的系统、各种各样的故障中普遍适用,因此根因定位准确率比较低。有监督方法的缺点是,依赖大量人工根因标注进行模型训练,在实际系统中难以应用。只能匹配发生在相同位置的相同类型的历史故障。但是由于系统的规模往往非常庞大,我们不可能期待一种类型的故障在每个组件上都发生过。进行相似故障匹配的时候没有考虑不同组件在系统中的互相依赖关系。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的目的在于提出一种可解释的基于图的根因定位方法、装置、设备及存储介质,将在线服务系统中组件的依赖关系表示为图,并通过图上每个组件的指标的异常模式,匹配相似历史故障和根因定位,通过组件分配的方式,匹配发生在不同位置的相似故障,通过进行多模式异常检测,可准确查找相似历史故障并进行根因定位,可以解决海量指标带来的挑战。
为达上述目的,本发明一方面提出了一种可解释的基于图的根因定位方法,包括:
获取在线服务系统组件中监控指标和对应的指标依赖图;其中,所述监控指标包括当前故障时刻和历史故障时刻的监控指标;
对当前故障时刻的监控指标和每个历史故障时刻的监控指标进行多异常模式的异常检测,得到监控指标是否异常的检测结果;
基于所述检测结果对于当前故障和每个历史故障计算每对同类组件的指标匹配距离和图匹配距离,并得到每对同类组件的距离;基于所述每对同类组件的距计算最优组件分配,根据每对组件的组件距离的分配结果计算当前故障和每个历史故障之间的故障距离;
基于所述当前故障和每个历史故障的故障距离得到最相似的历史故障,并基于所述最相似的历史故障定位当前故障的根因。
根据本发明实施例的可解释的基于图的根因定位方法还可以具有以下附加技术特征:
进一步地,在本发明的一个实施例中,所述组件中监控指标包括:服务器监控指标和容器监控指标,其中,所述服务器监控指标包括以下至少一种指标:CPU相关指标、内存相关指标和网络相关指标。
进一步地,在本发明的一个实施例中,所述得到监控指标是否异常的检测结果,包括:根据预设故障时刻的监控指标和预设的时间窗口长度参数,确定所述预设故障时刻的监控指标的异常分数;根据所述异常分数和预设阈值确定尖峰和低谷异常模式的异常检测结果;以及,计算预设故障时刻的监控指标对应的指标取值,根据指标取值的计算结果确定持续上升和持续下降异常模式的异常检测结果。
进一步地,在本发明的一个实施例中,所述基于当前故障和每个历史故障的故障距离得到最相似的历史故障,并基于所述最相似的历史故障定位当前故障的根因,包括:根据故障位置所在的组件和故障类别确定每个历史故障的根因,以及根据对所述当前故障和每个历史故障之间的故障距离计算得到最优映射函数;基于所述每个历史故障的根因和所述最优映射函数得到最相似的历史故障,并计算最相似的历史故障对应的推荐根因和对应的推荐权重;根据推荐权重的大小对所述推荐根因进行排序,根据排序结果定位当前故障的根因。
为达到上述目的,本发明另一方面提出了一种可解释的基于图的根因定位装置,包括:
指标获取模块,用于获取在线服务系统组件中监控指标和对应的指标依赖图;其中,所述监控指标包括当前故障时刻和历史故障时刻的监控指标;
异常检测模块,用于对当前故障时刻的监控指标和每个历史故障时刻的监控指标进行多异常模式的异常检测,得到监控指标是否异常的检测结果;
距离计算模块,用于基于所述检测结果对于当前故障和每个历史故障计算每对同类组件的指标匹配距离和图匹配距离,并得到每对同类组件的距离;基于所述每对同类组件的距计算最优组件分配,根据每对组件的组件距离的分配结果计算当前故障和每个历史故障之间的故障距离;
根因定位模块,用于基于所述当前故障和每个历史故障的故障距离得到最相似的历史故障,并基于所述最相似的历史故障定位当前故障的根因。
本发明第三方面提出了一种计算机设备,包括处理器和存储器;
其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现可解释的基于图的根因定位方法。
本发明第四方面提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现可解释的基于图的根因定位方法。
本发明实施例的可解释的基于图的根因定位方法、装置、设备及存储介质,可以利用海量的监控指标和历史故障数据,在复杂、大规模的在线服务系统中通过图表示系统中的复杂依赖关系,从而准确查找相似历史故障并进行根因定位,还可以匹配发生在不同位置的故障,从而提高了方法的泛化性,并且可以有效处理每个组件上的海量监控指标,准确匹配相似的组件。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的可解释的基于图的根因定位方法的流程图;
图2为根据本发明实施例的可解释的基于图的根因定位架构图;
图3为根据本发明实施例的可解释的基于图的根因定位装置结构示意图;
图4为根据本发明实施例的计算机设备。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
下面参照附图描述根据本发明实施例提出的可解释的基于图的根因定位方法、装置、设备及存储介质。
图1是本发明一个实施例的可解释的基于图的根因定位方法的流程图。
如图1所示,该方法包括但不限于以下步骤:
S1,获取在线服务系统组件中监控指标和对应的指标依赖图;其中,监控指标包括当前故障时刻和历史故障时刻的监控指标;
S2,对当前故障时刻的监控指标和每个历史故障时刻的监控指标进行多异常模式的异常检测,得到监控指标是否异常的检测结果;
S3,基于检测结果对于当前故障和每个历史故障计算每对同类组件的指标匹配距离和图匹配距离,并得到每对同类组件的距离;基于每对同类组件的距计算最优组件分配,根据每对组件的组件距离的分配结果计算当前故障和每个历史故障之间的故障距离;
S4,基于当前故障和每个历史故障的故障距离得到最相似的历史故障,并基于最相似的历史故障定位当前故障的根因。
具体的,如图2所示,当故障发生时,触发本发明的故障定位方法。将使用所有组件上的监控指标和组件间的依赖关系作为输入,然后输出推荐的根因。本发明的方法分为相似历史故障查找和根因推荐两个部分。在相似故障查找部分,会计算当前故障和每一个历史故障的距离。距离越小,表示该历史故障和当前故障越相似。在根因推荐部分,会根据所有相似历史故障的距离,对对应的推荐根因加权,最后得到所有推荐根因的排序。
下面对本发明实施例的可解释的基于图的根因定位方法进行详细阐述。
首先,对于当前故障(记为t1)和任意一个历史故障(记为t2),本发明需要计算它们两个之间的距离(记为D(t1,t2))。为此,本发明将首先计算单个组件和单个组件之间的距离,然后基于该距离,将相似的组件分配为一对,最后计算每对相似组件的总距离。
对于t1和t2,本发明分别用两个图表示它们对应时刻的系统中的组件的依赖关系,记为
Figure BDA0003852319380000051
Figure BDA0003852319380000052
其中
Figure BDA0003852319380000053
Figure BDA0003852319380000054
是两个节点集合,分别表示t1和t2对应的时刻,系统中所有的组件。
Figure BDA0003852319380000055
Figure BDA0003852319380000056
是两个边集合,分别表示t1和t2对应的时刻,系统中所有组件之间的依赖关系。例如,若在t1时刻,组件c1和组件c2之间有依赖关系,则
Figure BDA0003852319380000057
所有的组件可以被划分到不同的组件类别中去。例如,服务器A,服务器B,同属于服务器类别。本发明假定同一类别的服务器上有相同的监控指标。因此,相同类别的组件之间是可以比较的。而不同类别的组件,显然执行的是完全不同的功能,因此是不可以比较的。因此,本发明只需要计算,相同类别中单个组件与单个组件之间的距离,也只需要把一个组件分配到相同类别的组件上去。
本发明将
Figure BDA0003852319380000058
中的组件划分为不同的集合,每一个集合对应一个组件类别。对于其中任意一个组件类别,本发明记为Co。本发明考虑它在t1和t2时刻对应的组件,分别记为
Figure BDA0003852319380000059
Figure BDA00038523193800000510
不失一般性,本发明可以假设|C1|≥|C2|,即对应该组件类别的组件,在t1时刻的数量不少于在t2时刻的数量。对于C1和C2中任意一对组件(记为c1和c2),本发明计算它们之间的组件距离(记为DC(c1,c2;t1,t2),稍后讲解如何计算它),其中的参数t1,t2代表这两个组件分别是对应故障t1和t2)。然后,本发明使用Jonker-Volgement算法求解下述分配问题:
Figure BDA0003852319380000061
其中m是一个映射函数,它把C1中的每一个组件无重复地映射到C2中的每一个组件上,然后剩下多余的组件被映射到一个虚拟的组件null,它的指标全部假设为正常的。然后本发明对C1中的每一个组件(即公式中的c)和映射后的组件(即公式中的m(c))的组件距离求和。本发明求解这样一个m,使得该总和组件距离最小。它的含义是尽可能把相似的组件无重复地分配为一对,剩下无法分配的就认为应该是正常的,应该和一个正常组件匹配。
本发明计算所有的故障类别中,上述的最小的总和组件距离,它们的和就是本发明要求的D(t1,t2)。
进一步地,本发明描述如何计算上述的组件距离DC(c1,c2;t1,t2),其中c1和c2分别是故障t1和t2时刻的两个相同类别的组件。本发明对组件距离的计算分为两部分。首先,本发明匹配组件c1和c2分别在故障t1和t2时刻对应的监控指标是否相似;其次,本发明匹配组件c1和c2在故障依赖图上是否有这相似的位置。通过这两部分得到的距离相加就是本发明要计算的组件距离:
DC(c1,c2;t1,t2)=DM(c1,c2;t1,t2)+λ·DG(c1,c2;t1,t2)
其中DM(c1,c2;t1,t2)表示指标匹配距离,DG(c1,c2;t1,t2)表示图匹配距离,λ为给定的参数(一般设为0.125)。
具体地,分别对组件c1在故障t1时刻的指标,和组件c2在故障t2时刻的指标进行多异常模式的异常检测。基于对实际数据的观察,本发明总结了四种异常模式:尖峰,低谷,持续上升,持续下降。
作为一种示例,对于尖峰和低谷类型的异常,本发明使用滑动平均法检测。记任意一个指标为
Figure BDA0003852319380000062
(即一个从时间映射为指标值的函数),给定待检测的故障时间t和一个时间窗口长度参数W。本发明计算如下异常分数CDFM(t):
Figure BDA0003852319380000063
其中,
Figure BDA0003852319380000064
Figure BDA0003852319380000065
分别代表指标在t时刻前的W个时刻的取值的平均值和标准差。如果CDFM(t)大于给定的阈值δMA(一般设为0.05),则本发明认为发生了尖峰型异常;如果CDFM(t)小于1-δMA,则本发明认为发生了低谷型异常。
作为一种示例,对于持续上升和下降的异常,本发明使用t-test进行检测。本发明在待检测指标的t时刻前后各取W个最近时刻的取值,使用t-test计算p-value。如果p-value小于0.05,那么就发生了持续上升或者下降的异常。然后本发明计算前后W个取值各自的均值,如果后面的均值更大。那么为持续上升型异常;否则,为持续下降型异常。
如果以上四种异常都没有,那么待检测指标为正常的。
具体地,本发明按照监控指标表示的组件子功能,将每个组件类别中的监控指标分成不同的指标类别。比如,对于服务器上的监控指标,本发明可以分成CPU相关指标(包括CPU使用率,CPU I/O wait等),内存相关指标(内存总字节数,可用内存字节数等),和网络相关指标(接收和发送的总字节数,失败字节数等)等。组件c1在故障t1时刻的指标,和组件c2在故障t2时刻的指标,本发明分别匹配它们在每一类指标中的异常模式匹配的比例,然后再在类别间计算总的平均匹配率。总结来说,本发明使用如下的公式计算指标匹配距离:
Figure BDA0003852319380000071
其中Γ表示总的指标类别的数目,γ表示一个指标类别,
Figure BDA0003852319380000072
分别表示组件c1在故障t1时刻的指标,和组件c2在故障t2时刻的指标,属于指标类别γ的部分的异常模式。
Figure BDA0003852319380000073
表示两部分指标异常模式的之间的匹配率,由如下公式计算:
Figure BDA0003852319380000074
其中,COUNT_NONZERO表示计算一个向量中非零元素的个数。
然后,本发明通过图编辑距离计算图匹配距离:
DG(c1,c2;t1,t2)=GED(AG(c1,t1;k),AG(c2,t2;k))
其中,GED表示计算两个图的图编辑距离,AG(c1,t1;k)表示在故障时刻t1,在系统的组件依赖图
Figure BDA0003852319380000075
上,以c1为中心的k跳内的仅有异常组件组成的连通子图。AG(c2,t2;k)同理,表示在故障时刻t2,在系统的组件依赖图
Figure BDA0003852319380000076
上,以c2为中心的k跳内的仅有异常组件组成的连通子图。
进一步地,本发明根据计算好的,当前故障和每个历史故障的距离,和这些历史故障对应的根因,推荐当前故障的根因。对于每个历史故障,本发明把它的根因记为(c,φ),其中c表示故障位置所在的组件,φ表示故障类别。根据在计算故障距离时计算得到的对应的最优映射函数m,本发明把它映射为(m(c),φ),这就是该历史故障对应的推荐根因。它对应的推荐权重本发明设置为
Figure BDA0003852319380000081
其中i表示该历史故障在全部历史故障中,按照距离从小到大的排名,frequency(c)表示c在全部历史故障的根因位置中出现的频率。据此本发明计算出所有的推荐根因和对应的权重,本发明按照总的权重从大到小为所有的推荐根因排序,这就是本发明需要的输出结果。
根据本发明实施例的可解释的基于图的根因定位方法,可以利用海量的监控指标和历史故障数据,在复杂、大规模的在线服务系统中通过图表示系统中的复杂依赖关系,从而准确查找相似历史故障并进行根因定位,还可以匹配发生在不同位置的故障,从而提高了方法的泛化性,并且可以有效处理每个组件上的海量监控指标,准确匹配相似的组件。
为了实现上述实施例,如图3所示,本实施例中还提供了可解释的基于图的根因定位装置10,该装置10包括:指标获取模块100、异常检测模块200、距离计算模块300和根因定位模块400。
指标获取模块100,用于获取在线服务系统组件中监控指标和对应的指标依赖图;其中,监控指标包括当前故障时刻和历史故障时刻的监控指标;
异常检测模块200,用于对当前故障时刻的监控指标和每个历史故障时刻的监控指标进行多异常模式的异常检测,得到监控指标是否异常的检测结果;
距离计算模块300,用于基于检测结果对于当前故障和每个历史故障计算每对同类组件的指标匹配距离和图匹配距离,并得到每对同类组件的距离;基于每对同类组件的距计算最优组件分配,根据每对组件的组件距离的分配结果计算当前故障和每个历史故障之间的故障距离;
根因定位模块400,用于基于当前故障和每个历史故障的故障距离得到最相似的历史故障,并基于最相似的历史故障定位当前故障的根因。
进一步的,组件中监控指标包括:服务器监控指标和容器监控指标,其中,服务器监控指标包括以下至少一种指标:CPU相关指标、内存相关指标和网络相关指标。
进一步的,上述异常检测模块200,还用于:
根据预设故障时刻的监控指标和预设的时间窗口长度参数,确定预设故障时刻的监控指标的异常分数;
根据异常分数和预设阈值确定尖峰和低谷异常模式的异常检测结果;以及,
计算预设故障时刻的监控指标对应的指标取值,根据指标取值的计算结果确定持续上升和持续下降异常模式的异常检测结果。
进一步的,上述根因定位模块400,还用于:
根据故障位置所在的组件和故障类别确定每个历史故障的根因,以及根据对所述当前故障和每个历史故障之间的故障距离计算得到最优映射函数;
基于所述每个历史故障的根因和所述最优映射函数得到最相似的历史故障,并计算最相似的历史故障对应的推荐根因和对应的推荐权重;
根据推荐权重的大小对所述推荐根因进行排序,根据排序结果定位当前故障的根因。
根据本发明实施例的可解释的基于图的根因定位装置,可以利用海量的监控指标和历史故障数据,在复杂、大规模的在线服务系统中通过图表示系统中的复杂依赖关系,从而准确查找相似历史故障并进行根因定位,还可以匹配发生在不同位置的故障,从而提高了方法的泛化性,并且可以有效处理每个组件上的海量监控指标,准确匹配相似的组件。
为了实现上述实施例的方法,本发明还提供了一种计算机设备,如图4所示,该计算机设备600包括存储器601、处理器602;其中,所述处理器602通过读取所述存储器601中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现上文所述可解释的基于图的根因定位方法的各个步骤。
为了实现上述实施例的方法,本发明还提供了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现可解释的基于图的根因定位方法。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种可解释的基于图的根因定位方法,其特征在于,包括以下步骤:
获取在线服务系统组件中监控指标和对应的指标依赖图;其中,所述监控指标包括当前故障时刻和历史故障时刻的监控指标;
对当前故障时刻的监控指标和每个历史故障时刻的监控指标进行多异常模式的异常检测,得到监控指标是否异常的检测结果;
基于所述检测结果对于当前故障和每个历史故障计算每对同类组件的指标匹配距离和图匹配距离,并得到每对同类组件的距离;基于所述每对同类组件的距计算最优组件分配,根据每对组件的组件距离的分配结果计算当前故障和每个历史故障之间的故障距离;
基于所述当前故障和每个历史故障的故障距离得到最相似的历史故障,并基于所述最相似的历史故障定位当前故障的根因。
2.根据权利要求1所述的方法,其特征在于,所述组件中监控指标包括:服务器监控指标和容器监控指标,其中,所述服务器监控指标包括以下至少一种指标:CPU相关指标、内存相关指标和网络相关指标。
3.根据权利要求1所述的方法,其特征在于,所述得到监控指标是否异常的检测结果,包括:
根据预设故障时刻的监控指标和预设的时间窗口长度参数,确定所述预设故障时刻的监控指标的异常分数;
根据所述异常分数和预设阈值确定尖峰和低谷异常模式的异常检测结果;以及,
计算预设故障时刻的监控指标对应的指标取值,根据指标取值的计算结果确定持续上升和持续下降异常模式的异常检测结果。
4.根据权利要求1所述的方法,其特征在于,所述基于当前故障和每个历史故障的故障距离得到最相似的历史故障,并基于所述最相似的历史故障定位当前故障的根因,包括:
根据故障位置所在的组件和故障类别确定每个历史故障的根因,以及根据对所述当前故障和每个历史故障之间的故障距离计算得到最优映射函数;
基于所述每个历史故障的根因和所述最优映射函数得到最相似的历史故障,并计算最相似的历史故障对应的推荐根因和对应的推荐权重;
根据推荐权重的大小对所述推荐根因进行排序,根据排序结果定位当前故障的根因。
5.一种可解释的基于图的根因定位装置,其特征在于,包括以下步骤:
指标获取模块,用于获取在线服务系统组件中监控指标和对应的指标依赖图;其中,所述监控指标包括当前故障时刻和历史故障时刻的监控指标;
异常检测模块,用于对当前故障时刻的监控指标和每个历史故障时刻的监控指标进行多异常模式的异常检测,得到监控指标是否异常的检测结果;
距离计算模块,用于基于所述检测结果对于当前故障和每个历史故障计算每对同类组件的指标匹配距离和图匹配距离,并得到每对同类组件的距离;基于所述每对同类组件的距计算最优组件分配,根据每对组件的组件距离的分配结果计算当前故障和每个历史故障之间的故障距离;
根因定位模块,用于基于所述当前故障和每个历史故障的故障距离得到最相似的历史故障,并基于所述最相似的历史故障定位当前故障的根因。
6.根据权利要求5所述的装置,其特征在于,所述组件中监控指标包括:服务器监控指标和容器监控指标,其中,所述服务器监控指标包括以下至少一种指标:CPU相关指标、内存相关指标和网络相关指标。
7.根据权利要求5所述的装置,其特征在于,所述异常检测模块,还用于:
根据预设故障时刻的监控指标和预设的时间窗口长度参数,确定所述预设故障时刻的监控指标的异常分数;
根据所述异常分数和预设阈值确定尖峰和低谷异常模式的异常检测结果;以及,
计算预设故障时刻的监控指标对应的指标取值,根据指标取值的计算结果确定持续上升和持续下降异常模式的异常检测结果。
8.根据权利要求5所述的装置,其特征在于,所述根因定位模块,还用于:
根据故障位置所在的组件和故障类别确定每个历史故障的根因,以及根据对所述当前故障和每个历史故障之间的故障距离计算得到最优映射函数;
基于所述每个历史故障的根因和所述最优映射函数得到最相似的历史故障,并计算最相似的历史故障对应的推荐根因和对应的推荐权重;
根据推荐权重的大小对所述推荐根因进行排序,根据排序结果定位当前故障的根因。
9.一种计算机设备,其特征在于,包括处理器和存储器;
其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如权利要求1-4中任一项所述的可解释的基于图的根因定位方法。
10.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一项所述的可解释的基于图的根因定位方法。
CN202211136516.XA 2022-09-19 2022-09-19 一种可解释的基于图的根因定位方法及装置 Pending CN115664928A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211136516.XA CN115664928A (zh) 2022-09-19 2022-09-19 一种可解释的基于图的根因定位方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211136516.XA CN115664928A (zh) 2022-09-19 2022-09-19 一种可解释的基于图的根因定位方法及装置

Publications (1)

Publication Number Publication Date
CN115664928A true CN115664928A (zh) 2023-01-31

Family

ID=84982902

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211136516.XA Pending CN115664928A (zh) 2022-09-19 2022-09-19 一种可解释的基于图的根因定位方法及装置

Country Status (1)

Country Link
CN (1) CN115664928A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116610906A (zh) * 2023-04-11 2023-08-18 深圳润世华软件和信息技术服务有限公司 设备故障诊断方法、装置、计算机设备及其存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116610906A (zh) * 2023-04-11 2023-08-18 深圳润世华软件和信息技术服务有限公司 设备故障诊断方法、装置、计算机设备及其存储介质
CN116610906B (zh) * 2023-04-11 2024-05-14 深圳润世华软件和信息技术服务有限公司 设备故障诊断方法、装置、计算机设备及其存储介质

Similar Documents

Publication Publication Date Title
CN112162878B (zh) 数据库故障发现方法、装置、电子设备及存储介质
JP6394726B2 (ja) 運用管理装置、運用管理方法、及びプログラム
CN106209432B (zh) 基于动态阈值的网络设备亚健康预警方法及装置
US9672085B2 (en) Adaptive fault diagnosis
CN107992410B (zh) 软件质量监测方法、装置、计算机设备和存储介质
CN111722952A (zh) 业务系统的故障分析方法、系统、设备和存储介质
CN108933694A (zh) 基于拨测数据的数据中心网络故障节点诊断方法及系统
CN113900845A (zh) 一种基于神经网络的微服务故障诊断的方法和存储介质
CN116914917A (zh) 一种基于大数据的配电柜运行状态监测管理系统
CN117034194A (zh) 基于人工智能的核电仪表设备运维管理系统、方法及设备
CN115664928A (zh) 一种可解释的基于图的根因定位方法及装置
CN117763449A (zh) 一种多源故障自主定位与分类方法
CN108334427A (zh) 存储系统中的故障诊断方法及装置
CN118174788A (zh) 一种光纤配线柜的故障检测方法、装置、设备及存储介质
CN114597886A (zh) 基于区间二型模糊聚类分析的配电网运行状态评估方法
CN113395182A (zh) 具有故障预测的智能网络设备管理系统及方法
JP6954379B2 (ja) 異常箇所特定装置、異常箇所特定方法及びプログラム
CN116541728A (zh) 一种基于密度聚类的故障诊断方法及装置
CN115690681A (zh) 异常判断依据的处理方法、异常判断方法及装置
CN109067598A (zh) 一种基于图中心度的云计算系统物理设备故障检测方法
CN109376959A (zh) 一种配电终端检修时间预估方法及装置
CN109558258B (zh) 一种分布式系统根源故障定位的方法及装置
CN112838962A (zh) 一种大数据集群的性能瓶颈检测方法及装置
CN109739210A (zh) 设备部件健康状态的评估方法及装置
CN117439899B (zh) 一种基于大数据的通信机房巡检方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination