CN111597070A - 一种故障定位方法、装置、电子设备及存储介质 - Google Patents

一种故障定位方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111597070A
CN111597070A CN202010727337.8A CN202010727337A CN111597070A CN 111597070 A CN111597070 A CN 111597070A CN 202010727337 A CN202010727337 A CN 202010727337A CN 111597070 A CN111597070 A CN 111597070A
Authority
CN
China
Prior art keywords
fault
node
root cause
degree
abnormality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010727337.8A
Other languages
English (en)
Other versions
CN111597070B (zh
Inventor
李则言
张文池
程博
黄成�
陈哲康
沈梦家
隋楷心
刘大鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Bishi Technology Co ltd
Original Assignee
Beijing Bishi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Bishi Technology Co ltd filed Critical Beijing Bishi Technology Co ltd
Priority to CN202010727337.8A priority Critical patent/CN111597070B/zh
Publication of CN111597070A publication Critical patent/CN111597070A/zh
Application granted granted Critical
Publication of CN111597070B publication Critical patent/CN111597070B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Navigation (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及计算机技术领域,公开了一种故障定位方法、装置、电子设备及存储介质,其中方法包括以下步骤:对任一相邻节点所在边进行异常检测;根据异常检测结果构建节点之间的故障传播图;在所述故障传播图上随机游走定位故障根因,其中,所述定位故障根因通过构建所述故障传播图的转移概率矩阵计算每个节点的根因疑似度,通过所述根因疑似度确认故障根因。本发明以无监督的方式,综合多个指标,通过服务之间指标异常对服务整体异常的影响力,定量分析故障在服务之间的传播关系,基于此通过随机游走算法判断根因,为一套有效的自动化定位故障根因服务的方案。

Description

一种故障定位方法、装置、电子设备及存储介质
技术领域
本发明涉及计算机技术领域,更具体地说,涉及一种故障定位方法、装置、电子设备及存储介质。
背景技术
因为在交付、扩容和自动化等方面的优势,基于服务的系统架构在大型服务的设计中被越来越多地采用。一个基于服务的系统通常可以具有几十个到几百个的服务,它们部署于成百上千的服务器上。虽然有很多技术应用于这类系统用来保证起质量,但是其中的错误依然是不可避免的。系统的故障会带来极其巨大的经济损失。
通常,在每个服务上会部署众多的指标收集器(例如CPU使用率,服务响应率,成功率等)和异常检测器,它们被用来检测服务的异常。但是,人工分析系统的故障依然是非常有挑战的。因为在基于服务的系统上,为了完成一个用户的请求,需要许多服务通过相互调用的形式配合实现。因此当一个服务发生故障的时候,会有众多的服务因为依赖关系而也产生异常,发出告警。此时运维人员必须手动逐个查看这些异常的服务,排除掉其中仅仅只是受影响而没有故障的服务,最终定位到根因服务。对于大型系统而言,不同的服务可能由不同的运维人员甚至不同的部门管理,所以一次故障会涉及到众多的运维人员和部门参与,定位成本极高。
为了快速定位故障根因,自动化的定位算法是非常必要的。本发明的发明人发现实现自动化定位有以下几个难点:首先,服务之间有复杂的依赖关系。其次,基于服务的系统迭代频率高,经常会进行变更。最后,这类系统上有着海量的指标,和故障有关的指标就会被淹没在海量的指标中。
现有方法,需要通过许多过去积累的故障数据和对应的根因,即需要人工标注的标注数据,从中学习才能得到模型,进而定位。
发明内容
本发明的目的是解决上述提出的问题,提出了一种快速、稳健的故障定位方法,本方案包括:
对任一相邻节点所在边进行异常检测;
根据异常检测结果构建节点之间的故障传播图;
在所述故障传播图上随机游走定位故障根因,其中,所述定位故障根因通过构建所述故障传播图的转移概率矩阵计算每个节点的根因疑似度,通过所述根因疑似度确认故障根因。
优选的,所述异常检测包括如下步骤:
对任一相邻节点所在边的所有指标进行异常度计算;
选择异常度最大值作为该边的异常度;
通过异常度的阈值判断每一边是否异常。
优选的,所述异常度计算基于3-sigma算法;
优选的,所述异常度计算通过指标的观测值、均值和标准差得到。
优选的,所述构建节点之间的故障传播图的规则为:
若节点关系仅为调用关系,根据当前的异常指标自动确定故障传播方向,所述故障传播方向与所述故障传播图的游走方向相反;
若节点关系存在资源共享关系,故障从一个节点转移到非调用关系的另一个节点;
优选的,所述随机游走的步骤包括:
为所述故障传播图的每个节点添加自环,所述自环的转移概率由该节点与异常度最大的后节点和异常度最大的前节点的异常度差值决定;
优选的,所述随机游走包括反向游走。
优选的,任一所述节点为故障根因的疑似度由转移概率矩阵和该节点的异常度向量决定。
优选的,所述故障定位方法包括:在异常检测之前通过数据预处理,去除离群点。
离群点指的是指标中的点,一个指标是很多个点组成的,我们使用指标历史数据(即故障发生前的数据点)检测异常,为避免影响异常检测,去除历史数据里的异常数据点(离群点)。
本发明的另一方面,提供一种故障定位装置,包括:
异常检测模块,用于对任一相邻节点所在边进行异常检测;
构建故障传播图模块,用于根据异常检测结果构建节点之间的故障传播图;以及
根因定位模块,在所述故障传播图上随机游走定位故障根因,其中,所述随机游走通过构建所述故障传播图的邻接矩阵计算每个节点的根因疑似度,通过所述根因疑似度确认故障根因。
优选的,所述异常检测模块包括:
异常计算子模块,用于对任一相邻节点所在边的所有指标进行异常计算;
选择子模块,用于选择异常度最大值作为该边的异常度;
异常确定子模块,通过异常度的阈值确定每一边是否异常。
优选的,所述异常计算基于3-sigma算法;
优选的,所述异常度计算基于指标的观测值、均值和标准差计算得到。
优选的,所述构建故障传播图模块的规则为:
若节点关系仅为调用关系,根据当前的异常指标自动确定故障传播方向,所述故障传播方向与所述故障传播图的游走方向相反;
若节点关系存在资源共享关系,故障从一个节点转移到非调用关系的另一个节点。
优选的,所述根因定位模块包括:
添加自环子模块,用于为所述故障传播图的每个节点添加自环,所述自环的转移概率由该节点的后节点和前节点的异常度差值决定。
优选的,所述随机游走包括反向游走。
优选的,任一所述节点为故障根因的疑似度由转移概率矩阵和该节点的异常度向量决定。
本发明的另一方面在于,提供一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器耦合连接的存储器;其中,
所述存储器存储有计算机程序,所述计算机程序能够被所述至少一个处理器执行,以实现本发明所述的方法。
本发明的另一方面在于,提供一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,当所述计算机程序被执行时,能够实现本发明所述的方法。
有益效果:
本发明使用基于随机游走的算法,成功建模了故障通过负载的依赖关系传导的过程,解决了现有技术中针对服务间依赖关系复杂的问题。
本发明是一个无参数化的定位算法,当故障发生、本算法被触发之后,只需要利用触发后获取的信息即可进行定位,不需要预训练的模型。针对任何故障,本发明的算法都是基于系统最新的状态直接定位的,而不基于(可能已过时的)预训练的模型。因此本发明可以应对快速迭代的系统。
本发明使用一种快速、稳健的业务指标分析方法,可以快速处理大量指标和正确处理多种类型的指标,作为根因定位的基础,归纳了不同情况下故障传播方向的定性规则;以无监督的方式,综合多个指标,针对一条边有很多指标的情况,我们综合多指标给出一条边的异常程度和故障传播的判断,通过服务之间指标异常对服务整体异常的影响力,定量分析故障在服务之间的传播关系,基于此通过随机游走算法判断根因,为一套有效的自动化定位故障根因服务的方案。
传统的基于阈值的检测方法不能自动适应监控指标在时间和空间上的剧烈变化,本方案通过采用较常用的高斯分布假设,通过3-sigma规则计算异常度,实现了一种稳健快速的异常检测方法。
针对传统方法不能对多指标进行综合定位的问题,本方案使用无监督的异常检测算法,未使用到任何预先人工方法标注出来的标注数据,综合多指标的异常检测和根因定位方法。在基于服务的系统中,故障在不同的微服务上可能表现在不同的指标上,因此基于多指标的定位是必要的。本方案通过多指标的综合定位解决了异常在不同指标间传递的问题。
附图说明
图1是本发明实施例1中故障定位方法的流程图;
图2是本发明实施例1中故障定位方法的步骤S1的步骤流程图;
图3是本发明实施例1中构建节点之间的故障传播图的规则图;
图4是本发明实施例1中故障定位装置的结构图;
图5是本发明实施例1中异常检测模块10的结构图;
图6是本发明实施例2中故障定位方法的3-sigma算法示意图;
图7是本发明实施例2中故障定位方法随机游走陷阱图。
具体实施方式
下面将参照附图更详细地描述本发明的具体实施例。虽然附图中显示了本发明的具体实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
本发明主要分为异常检测,构建故障传播图和随机游走三个步骤。首先,对故障时段的服务之间的KPI进行异常检测。然后,我们构建故障在服务之间的故障传播图。最后,在图上应用随机游走算法,在故障传播图上定位到根因。
实施例1本实施例提供一种故障定位方法
如图1所示,本实施例提供的方法包括:
S1对节点之间的KPI进行异常检测;
S2根据异常检测结果构建节点之间的故障传播图;
S3在所述故障传播图上随机游走定位故障根因,其中,所述定位故障根因通过构建所述故障传播图的转移概率矩阵计算每个节点的根因疑似度,通过根因疑似度确认故障根因。
如图2所示,S1中异常检测包括如下步骤:
S101任一相邻节点所在边的所有指标进行异常度计算;
S102选择异常度最大值作为该边的异常度;
S103通过异常度的阈值判断每一边是否异常。
所述异常度计算基于3-sigma算法,通过指标的观测值、均值和标准差得到。
随机游走的步骤包括:
为所述故障传播图的每个节点添加自环,所述自环的转移概率由该节点与异常度最大的后节点和异常度最大的前节点的异常度差值决定。
在优选的实施例中,随机游走包括反向游走。在一次随机游走中,如果算法落入了不可能是根因的分支,那么就没有机会退出,只能沿着错误的分支继续下去。因此算法为每条边都增加了反向边。
在优选的实施例中,如图3所示,构建节点之间的故障传播图的规则为:
若节点关系仅为调用关系,根据当前的异常指标自动确定故障传播方向,所述故障传播方向与所述故障传播图的游走方向相反;
若节点关系存在资源共享关系,故障从一个节点转移到非调用关系的另一个节点。
在优选的实施例中,任一所述节点为故障根因的疑似度由转移概率矩阵和该节点的异常度向量决定。
本实施例的另一方面,提供一种故障定位装置,如图4所示,包括:
异常检测模块10,用于对节点之间的KPI进行异常检测;
构建故障传播图模块20,用于根据异常检测结果构建节点之间的故障传播图;以及
根因定位模块30,在所述故障传播图上随机游走定位故障根因,其中,所述随机游走通过构建所述故障传播图的邻接矩阵计算每个节点的根因疑似度,通过根因疑似度的大小确认故障根因。
如图5所示,异常检测模块10包括:
异常计算子模块101,用于对每一节点的每一指标进行异常计算;
选择子模块102,用于选择异常度最大值作为每一节点的异常度;
异常确定子模块103,通过异常度的阈值确定每一节点是否异常。
异常计算基于3-sigma算法,通过指标的观测值、均值和标准差计算得到。
根因定位模块30包括:
添加自环子模块,用于为所述故障传播图的每个节点添加自环,所述自环的转移概率由该节点的后节点和前节点的异常度差值决定;
本实施例的另一方面提供一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器耦合连接的存储器;其中,
所述存储器存储有计算机程序,所述计算机程序能够被所述至少一个处理器执行,以实现本发明所述的方法。
本实施例的另一方面在于,提供一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,当所述计算机程序被执行时,能够实现本发明所述的方法。
传统的根因定位方法只是沿着调用关系,从调用方往服务方逐渐追溯,找到最底层的异常服务方即认为是根因。但是,在不同的情况下,调用的异常可能由发起方也可能是由服务方导致的。基于对实际情况的分析,本方案实现了一个基于规则的故障根因传播方向判断方法,帮助后续的根因定位从而能够定位到更多类型的异常的根因,更加普适。
实施例2 本实施例提供另一种故障定位方法
1. 异常检测
如图6所示,为3-sigma算法示意图,其中A,B,C,D,E是几个服务节点,箭头表示节点之间的调用关系,需要对图上每一条边进行异常检测,每一条边包含若干个指标,例如总交易量,成功率,响应率,平均响应时间等,对每一个指标分别进行异常检测。
本实施例使用了常用的3-sigma算法进行异常检测。具体做法是,对每一条边的每个指标,我们都计算其异常度,然后选择所有指标异常度的最大值作为一条边的异常度。最后我们通过异常度的阈值确定每一条边是否异常。3-sigma算法如下:
Figure 211331DEST_PATH_IMAGE001
其中A(ij, m)代表t时刻任一边的任一指标的异常度,ij指代任一边,i和j指代任一边的两节点,vt是t时刻任一指标的观测值,μt, σt分别是t时刻任一指标对应的均值和标准差,均值和标准差通过过去若干个周期同一相位的数据计算,例如当前时刻是周一13:00,那么取的数据就是过去3周每周周一的13:00附近的数据,或者过去7天每天13:00附近的数据。异常度的阈值为用户人工指定,默认为3。
我们使用历史数据计算均值和标准差,进而进行异常检测,但是历史数据中可能本身存在异常点(离群点),会影响异常检测的效果。
为了进一步提升算法的稳健型,避免在历史数据中的离群点,或者异常数据点影响异常检测,在计算μt, σt 之前,会事先去掉历史数据中的最小的5%和最大的5%的数据点。这样在一般情况下,留下的历史数据点将只包含正常的历史数据,因此本异常检测方法能够适应数据中的噪声和更早时刻的异常点,更加稳健。
2. 构建故障传播图
随机游走算法认为,在当前游走到于某个异常节点(即服务)的时候,继续根据相邻节点是根因的概率选择下一步游走的目标。这样最终多次游走最终收敛到的目标就是根因。而故障可能有不同的传播方向。
例如,如果故障是因为某服务所在的物理机硬件故障导致无响应,那么异常会从目的系统传播到源系统,此时响应率指标是异常的,但是总交易量是正常的或者变低。如果故障是由于某服务发出的请求过大导致后续被调用服务无响应,那么异常会从服务方传播到调用方,此时只有总交易量指标是异常升高的,但是其他指标比如响应时间可能是正常的。
算法根据当前的异常指标自动确定故障的传播方向,从而得到故障传播图。故障从源节点传播到目的节点的时候,故障传播图上的边的方向是从目的节点到源节点;故障从目的节点传播到源节点的时候,故障传播图上的边的方向是用源节点到目的节点。
另一方面,节点之间除了调用关系,还存在资源共享的关系。例如,可能多个服务共享一个物理机,那么当一个服务交易量过大引起CPU过载的时候,自然会影响到另一个服务。因此我们还在所有的共享资源的服务之间增加双向的边,变得权重不是异常度,而是服务之间的相关关系。即,如果两个服务共享资源,而且它们的指标之间相关性大,那么故障就可能从一个服务转移到另一个服务。
到这一步得到了一个故障传播图,形式化地描述为G=(V,E),其中V=s1, s2,…, sN为N个节点的集合;E=(Si, Sj, Aij),其中E指代边的集合,Si, Sj是任意两个相邻节点,Aij是边的异常度,这三个值描述了一条边。边的方向不表示调用关系,而是由上一步故障传播方向确定的。A(N×N)是故障传播图的邻接矩阵,带有权重的异常度矩阵。
根据算法的设计思路,若我们从一个节点游走到另一个节点,等价于认为新节点是当前节点的异常根因。但是,如果当前节点已经很可能是根因,传统的随机游走算法还是会强制选择一个邻居继续游走下去。为了避免这种情况,每个节点会加入一条自环,自环为图论中的术语,代表每个节点到自己节点的形成的封闭环,自环对应的转移概率由该节点的前驱和后继节点的异常度之差决定,其中前驱节点代表该节点与所有相邻的前节点,计算该节点与所有相邻的前节点的异常度,选择其中异常度最大的作为前驱节点异常度,后继节点代表该节点与所有相邻的后继节点,计算该节点与所有相邻的后节点的异常度,选择其中异常度最大的作为后继节点异常度,如果该节点的后继节点比前驱节点更异常,那么说明后继节点可能是根因,那么应该以更大的概率继续游走,否则不应该继续游走。因此通过自环表达自己就是根因的可能性。
在一次随机游走中,如果算法落入了不可能是根因的分支,那么就没有机会退出,如图7所示为随机游走陷阱图,当算法从v1游走到v3后,只能沿着错误的分支继续下去,再也没有机会访问v2,因此算法为每条边都增加了反向边。通过反向边实现算法的容错性。
因此,改进的故障传播图的邻接矩阵如下:
Figure 3837DEST_PATH_IMAGE002
式中j、l,k代表节点编号,Aki,Aij,Ajl分别代表节点所在边的异常度,如Aki代表节点Sk到节点Si的边的异常度,如果从Si到Sj的调用边的故障转移方向是从Sj到Si(从服务方到调用方),那么Aij是这条边的异常度。如果从Si到Sj的调用边的故障转移方向是从Si到Sj(从调用方到服务方),那么Aji是这条边的异常度。当i不等于j的时候,给每条边添加反向边,如上述公式中的
Figure 783574DEST_PATH_IMAGE003
, 为反向公式,反向边公式中的ρ表示反向边的权重,故障传播图越可靠,ρ相应设置得越小,一般取经验值0.1。当i等于j的时候,如上式中的
Figure 178784DEST_PATH_IMAGE004
,为自环公式,maxkAki表示节点i的所有入边的异常度的最大值,maxkAjl表示节点j的所有出边的转移概率的最大值。这两个值的差就是自环的异常度,自环的最小值被限制为0。在具体算法中,以转移概率的大小代表异常度大小,即以转移概率的大小判断本节点为根因的可能性。
对该矩阵做归一化,得到转移概率矩阵Qij,其表达式如下:
Figure 868522DEST_PATH_IMAGE005
记π∈(0,1](1×N)是PPV(personalized PageRank vector,个性化PageRank向量),u为每个节点的异常度向量,u=1/N*A1,其中A是异常度矩阵,1是向量1(每个元素都是1的向量),A1这里指的是矩阵A和向量1做矩阵乘法。具体的物理含义就是对A的每一行求和。那么PPV通过如下迭代得到:
πn =απ(n-1) Qij+(1-α)u
其中α为经验值,π(n-1)和π(n)分别代表n次迭代和n-1次迭代,取值范围控制随机游走和远距离随机游走的平衡。当故障传播图越可靠的时候,α可以设置得更大。一般取默认值α=0.85即可。只要Qij是合法的转移概率矩阵,上述迭代式就能收敛。实践中只需要迭代到前后两次迭代的结果变化小于给定的阈值即可。
每个节点是根因的疑似度为πi,因此算法最后输出reverersed(argsort(π))。πi是节点Si的根因疑似度,这里reversed(argsort)指的是按πi的降序对所有节点进行排序,输出排序靠前的节点编号作为根因。
通过定位算法中转移概率、自环和反向边的定义,通过随机游走的迭代方法完成对故障传播关系的分析,高效计算每个节点的根因疑似度。
在基于服务的系统中,故障在不同的微服务上可能表现在不同的指标上,因此基于多指标的定位是必要的。本方案通过多指标的综合定位解决了异常在不同指标间传递的问题。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的模块及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和设备的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例节能信号发送/接收的方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (10)

1.一种故障定位方法,其特征在于,所述方法包括:
对任一相邻节点所在边进行异常检测;
根据异常检测结果构建节点之间的故障传播图;
在所述故障传播图上随机游走定位故障根因,其中,所述定位故障根因通过构建所述故障传播图的转移概率矩阵计算每个节点的根因疑似度,通过所述根因疑似度确认故障根因。
2.如权利要求1所述的故障定位方法,其特征在于,所述异常检测包括如下步骤:
对任一相邻节点所在边的所有指标进行异常度计算;
选择异常度最大值作为该边的异常度;
通过所述异常度的阈值判断每一边是否异常。
3.如权利要求2所述的故障定位方法,其特征在于,所述异常度计算通过指标的观测值、均值和标准差计算得到。
4.如权利要求1所述的故障定位方法,其特征在于,所述构建节点之间的故障传播图的规则为:
若节点关系仅为调用关系,根据当前的异常指标自动确定故障传播方向,所述故障传播方向与所述故障传播图的游走方向相反;
若节点关系存在资源共享关系,故障从一个节点转移到非调用关系的另一个节点。
5.如权利要求2所述的故障定位方法,其特征在于,所述随机游走包括如下步骤:
为所述故障传播图的每个节点添加自环,所述自环的转移概率由该节点与异常度最大的后节点和异常度最大的前节点的异常度差值决定。
6.如权利要求5所述的故障定位方法,其特征在于,所述随机游走包括反向游走。
7.如权利要求1所述的故障定位方法,其特征在于,任一所述节点为故障根因的疑似度由转移概率矩阵和该节点的异常度向量决定。
8.一种故障定位装置,其特征在于,包括:
异常检测模块,用于对任一相邻节点所在边进行异常检测;
构建故障传播图模块,用于根据异常检测结果构建节点之间的故障传播图;以及
根因定位模块,在所述故障传播图上随机游走定位故障根因,其中,所述定位故障根因通过构建所述故障传播图的转移概率矩阵计算每个节点的根因疑似度,通过所述根因疑似度确认故障根因。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器耦合连接的存储器;其中,
所述存储器存储有计算机程序,所述计算机程序能够被所述至少一个处理器执行,以实现权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,当所述计算机程序被执行时,能够实现权利要求1-7任一项所述的方法。
CN202010727337.8A 2020-07-27 2020-07-27 一种故障定位方法、装置、电子设备及存储介质 Active CN111597070B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010727337.8A CN111597070B (zh) 2020-07-27 2020-07-27 一种故障定位方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010727337.8A CN111597070B (zh) 2020-07-27 2020-07-27 一种故障定位方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111597070A true CN111597070A (zh) 2020-08-28
CN111597070B CN111597070B (zh) 2020-11-27

Family

ID=72191782

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010727337.8A Active CN111597070B (zh) 2020-07-27 2020-07-27 一种故障定位方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111597070B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112035334A (zh) * 2020-09-15 2020-12-04 深圳市欢太科技有限公司 异常设备检测方法、装置、存储介质与电子设备
CN112532455A (zh) * 2020-12-01 2021-03-19 新华三人工智能科技有限公司 一种异常根因定位方法及装置
CN113590451A (zh) * 2021-09-29 2021-11-02 阿里云计算有限公司 一种根因定位方法、运维服务器及存储介质
CN113657715A (zh) * 2021-07-15 2021-11-16 福建新大陆软件工程有限公司 一种基于核密度估计调用链的根因定位方法及系统
CN113765698A (zh) * 2021-07-14 2021-12-07 江西鑫铂瑞科技有限公司 一种面向工业互联网的网络故障定位和根因检测方法及系统
CN113900844A (zh) * 2021-09-26 2022-01-07 北京必示科技有限公司 一种基于服务码级别的故障根因定位方法、系统及存储介质
CN114205222A (zh) * 2020-09-01 2022-03-18 中兴通讯股份有限公司 故障网元定位方法及其系统、计算机可读存储介质
CN115296978A (zh) * 2022-07-06 2022-11-04 北京三快在线科技有限公司 根因定位方法、装置、设备
CN115392812A (zh) * 2022-10-31 2022-11-25 成都飞机工业(集团)有限责任公司 一种异常根因定位方法、装置、设备及介质
CN115514627A (zh) * 2022-09-21 2022-12-23 深信服科技股份有限公司 一种故障根因定位方法、装置、电子设备及可读存储介质
CN116094955A (zh) * 2022-11-25 2023-05-09 上海天旦网络科技发展有限公司 基于自演化网络知识库的运维故障链标注系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109933452A (zh) * 2019-03-22 2019-06-25 中国科学院软件研究所 一种面向异常传播的微服务智能监测方法
CN110134539A (zh) * 2019-05-14 2019-08-16 极智(上海)企业管理咨询有限公司 一种分布式系统故障根源的诊断方法
CN111158977A (zh) * 2019-12-12 2020-05-15 深圳前海微众银行股份有限公司 一种异常事件根因定位方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109933452A (zh) * 2019-03-22 2019-06-25 中国科学院软件研究所 一种面向异常传播的微服务智能监测方法
CN110134539A (zh) * 2019-05-14 2019-08-16 极智(上海)企业管理咨询有限公司 一种分布式系统故障根源的诊断方法
CN111158977A (zh) * 2019-12-12 2020-05-15 深圳前海微众银行股份有限公司 一种异常事件根因定位方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIANGPING WENG 等: "Root Cause Analysis of Anomalies of Multitier Services in Public Clouds", 《2017 IEEE/ACM 25TH INTERNATIONAL SYMPOSIUM ON QUALITY OF SERVICE》 *
MYUNGHWAN KIM 等: "Root Cause Detection in a Service-Oriented Architecture", 《SIGMETRIS’13: PROCEEDINGS OF THE ACM SIGMETRICS/INTERNATIONAL CONFERENCE ON MEASUREMENT AND MODELING OF COMPUTER SYSTEMS》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114205222A (zh) * 2020-09-01 2022-03-18 中兴通讯股份有限公司 故障网元定位方法及其系统、计算机可读存储介质
CN112035334B (zh) * 2020-09-15 2023-01-31 深圳市欢太科技有限公司 异常设备检测方法、装置、存储介质与电子设备
CN112035334A (zh) * 2020-09-15 2020-12-04 深圳市欢太科技有限公司 异常设备检测方法、装置、存储介质与电子设备
CN112532455A (zh) * 2020-12-01 2021-03-19 新华三人工智能科技有限公司 一种异常根因定位方法及装置
CN112532455B (zh) * 2020-12-01 2022-07-29 新华三人工智能科技有限公司 一种异常根因定位方法及装置
CN113765698A (zh) * 2021-07-14 2021-12-07 江西鑫铂瑞科技有限公司 一种面向工业互联网的网络故障定位和根因检测方法及系统
CN113765698B (zh) * 2021-07-14 2023-08-01 江西鑫铂瑞科技有限公司 一种面向工业互联网的网络故障定位和根因检测方法及系统
CN113657715A (zh) * 2021-07-15 2021-11-16 福建新大陆软件工程有限公司 一种基于核密度估计调用链的根因定位方法及系统
CN113900844A (zh) * 2021-09-26 2022-01-07 北京必示科技有限公司 一种基于服务码级别的故障根因定位方法、系统及存储介质
CN113590451A (zh) * 2021-09-29 2021-11-02 阿里云计算有限公司 一种根因定位方法、运维服务器及存储介质
CN115296978A (zh) * 2022-07-06 2022-11-04 北京三快在线科技有限公司 根因定位方法、装置、设备
CN115296978B (zh) * 2022-07-06 2023-09-12 北京三快在线科技有限公司 根因定位方法、装置、设备
CN115514627A (zh) * 2022-09-21 2022-12-23 深信服科技股份有限公司 一种故障根因定位方法、装置、电子设备及可读存储介质
CN115392812A (zh) * 2022-10-31 2022-11-25 成都飞机工业(集团)有限责任公司 一种异常根因定位方法、装置、设备及介质
CN116094955A (zh) * 2022-11-25 2023-05-09 上海天旦网络科技发展有限公司 基于自演化网络知识库的运维故障链标注系统及方法
CN116094955B (zh) * 2022-11-25 2024-06-11 上海天旦网络科技发展有限公司 基于自演化网络知识库的运维故障链标注系统及方法

Also Published As

Publication number Publication date
CN111597070B (zh) 2020-11-27

Similar Documents

Publication Publication Date Title
CN111597070B (zh) 一种故障定位方法、装置、电子设备及存储介质
CN112162878B (zh) 数据库故障发现方法、装置、电子设备及存储介质
US9274869B2 (en) Apparatus, method and storage medium for fault cause extraction utilizing performance values
US20180006900A1 (en) Predictive anomaly detection in communication systems
CN112039695A (zh) 基于贝叶斯推理的传输网络故障定位方法及装置
CN113037575B (zh) 网元异常的根因定位方法、装置、电子设备及存储介质
CN111611517A (zh) 指标监控方法、装置、电子设备及存储介质
CN113687972B (zh) 业务系统异常数据的处理方法、装置、设备及存储介质
CN112532455B (zh) 一种异常根因定位方法及装置
CN115237717A (zh) 一种微服务异常检测方法和系统
CN112685207A (zh) 错误评估的方法、设备和计算机程序产品
CN114844768A (zh) 信息分析方法、装置及电子设备
CN115174353A (zh) 故障根因确定方法、装置、设备及介质
CN107579944B (zh) 基于人工智能和MapReduce安全攻击预测方法
Weiss Predicting telecommunication equipment failures from sequences of network alarms
CN114202206A (zh) 系统异常根因分析方法及装置
EP2266033B1 (en) Assisting failure diagnosis in a system using bayesian network
CN113835947B (zh) 一种基于异常识别结果确定异常原因的方法和系统
CN116737436A (zh) 面向混合部署场景的微服务系统根因定位方法及系统
CN116455725A (zh) 一种网络故障告警方法、系统、终端及存储介质
WO2020131052A1 (en) System and method of identifying event as root cause of data quality anomaly
Nam et al. Virtual machine failure prediction using log analysis
CN111935279B (zh) 基于区块链和大数据的物联网络维护方法及计算节点
CN114760190A (zh) 一种面向服务的融合网络性能异常检测方法
Afshinpour et al. Correlating test events with monitoring logs for test log reduction and anomaly prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant