CN111459695A - 根因定位方法、装置、计算机设备和存储介质 - Google Patents

根因定位方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN111459695A
CN111459695A CN202010170390.2A CN202010170390A CN111459695A CN 111459695 A CN111459695 A CN 111459695A CN 202010170390 A CN202010170390 A CN 202010170390A CN 111459695 A CN111459695 A CN 111459695A
Authority
CN
China
Prior art keywords
alarm
value
similarity
indexes
root cause
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010170390.2A
Other languages
English (en)
Inventor
陈桢博
徐亮
金戈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202010170390.2A priority Critical patent/CN111459695A/zh
Publication of CN111459695A publication Critical patent/CN111459695A/zh
Priority to PCT/CN2020/118332 priority patent/WO2021179574A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Abstract

本发明涉及一种根因定位方法、装置、计算机设备和存储介质,用于定位运维系统工作中故障的根因,在接收到异常信息并发出告警信息后,根据调用链查找所有与告警信息相关联的告警指标;对所有告警指标的数值进行平滑处理,并分别进行相似度计算以获取lag值较高的告警指标的相似度值;汇总所述lag值较高的告警指标的相似度值,结合调用链层级关系,对相似度值较高的告警指标进行排序后将排序靠前的告警指标对应的调用链设备作为根因输出。本发明根因的确定基于告警指标相似度、异常信息、告警时刻和调用关系等多种维度,保证了根因识别的完整性与准确性,能够挖掘到更加复杂的根因关系,运维人员能够根据告警指标快速排查,并进行故障修复工作。

Description

根因定位方法、装置、计算机设备和存储介质
技术领域
本发明涉及设备测试技术领域,特别是涉及一种根因定位方法、装置、计算机设备和存储介质。
背景技术
对于计算机信息系统的运行维护工作,设备故障的快速修复是首要目标。这一工作共分为两个主要部分,即异常检测与根因识别。异常检测是指根据设备的各个监控指标,对于指标采集异变发出告警,从而提示工作人员及时关注并处理。根因识别则是根据告警,为工作人员推荐根因故障或设备,省去人工进行逐一排查的耗时。异常检测与根因识别的准确性,能够有效帮助运维工作及时发现故障并快速修复。
传统的根因分析系统,仅仅基于运维设备的层级调用链与异常检测告警。这一方法属于静态规则,当设备层级发生多个告警后,系统会优先认定调用链下游的指标为根因。静态规则方法较为固定,当根因指标未产生告警,或者根因不符合调用链逻辑时,根因识别结果存在错误,无法真实反映设备故障的原因。
因此,现有技术还有待改进。
发明内容
基于此,有必要针对传统根因分析系统仅仅进行静态分析法则的缺陷,提供一种动态的根因定位方法、装置、计算机设备和存储介质。
一种根因定位方法,所述根因定位方法用于根因分析系统定位运维工作中故障的根因,包括如下步骤:
接收到异常信息并发出告警信息;
根据调用链查找所有与告警信息相关联的告警指标,并收集所述告警指标的数值;
对所有所述告警指标的数值进行平滑处理,并将所有告警指标结合预设的lag值分别进行相似度计算,以获取lag值较高的告警指标的相似度值;
汇总所述lag值较高的告警指标的相似度值,结合所述调用链层级关系,对相似度值较高的告警指标进行排序;
将所述相似度值排序靠前的告警指标作为根因告警指标输出。
在其中一个实施例中,所述收集与告警指标的数值是收集告警前1~2小时到告警后10分钟之间的告警指标的数值。
在其中一个实施例中,所述对所有所述告警指标的数值进行平滑处理,并将所有告警指标结合预设的lag值分别进行相似度计算,以获取lag值较高的告警指标的相似度值具体包括如下步骤:
通过LOESS算法进行局部加权回归得到回归值获取序列平滑值;
预设lag值为0~90分钟;
将所有告警指标在预设各lag值下与入口指标分别计算相似度,得到所有告警指标在各lag值下的lag值告警指标;
将相似度值大于0.65的lag值告警指标进行相似度值归并,以获取相似度值较高的告警指标。
在其中一个实施例中,所述对告警指标相似度值的计算还包括如下步骤:
采集告警指标通过LOESS算法获取的所述序列平滑值与历史STL周期分量的残差值;
对于存在STL周期分量残差值的告警指标分别进行相似度计算,以得到STL残差值告警指标的相似度值;
若STL残差值告警指标的相似度值及对应的lag值告警指标的相似度值均大于0.65,则对该告警指标的相似度值进行归并,以获取相似度值较高的告警指标。
一种根因定位装置,所述根因定位装置用于根因分析系统定位运维工作中故障的根因,所述根因定位装置包括:异常检测单元、告警指标数值计算单元、告警指标相似度计算单元和根因告警指标输出单元;
异常检测单元,用于接收到异常信息并发出告警信息;
告警指标数值计算单元,用于根据调用链查找所有与告警信息相关联的告警指标,并收集所述告警指标的数值;
告警指标相似度计算单元,用于对所有所述告警指标的数值进行平滑处理,并将所有告警指标结合预设的lag值分别进行相似度计算,以获取lag值较高的告警指标的相似度值;
根因告警指标输出单元,用于汇总所述lag值较高的告警指标的相似度值,结合所述调用链层级关系,对相似度值较高的告警指标进行排序,并将相似度值排序靠前的告警指标作为根因告警指标输出。
在其中一个实施例中,所述告警指标数值计算单元在收集与告警指标的数值时,是收集告警前1~2小时到告警后10分钟之间的告警指标的数值。
在其中一个实施例中,所述告警指标相似度计算单元用于计算告警指标的相似度值具体采用:首先通过LOESS算法进行局部加权回归得到回归值获取序列平滑值;预设lag值为0~90分钟;再将所有告警指标在预设各lag值下与入口指标分别计算相似度,得到所有告警指标在各lag值下的lag值告警指标;最后,将相似度值大于0.65的lag值告警指标进行相似度值归并,以获取相似度值较高的告警指标。
在其中一个实施例中,所述告警指标相似度计算单元用于计算告警指标的相似度值具体还采用:首先采集告警指标通过LOESS算法获取的所述序列平滑值与历史STL周期分量的残差值,对于存在STL周期分量残差值的告警指标分别进行相似度计算,以得到STL残差值告警指标的相似度值;若STL残差值告警指标的相似度值及对应的lag值告警指标的相似度值均大于0.65,则对该告警指标的相似度值进行归并,以获取相似度值较高的告警指标。
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述所述根因定位方法的步骤。
一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述所述根因定位方法的步骤。
与现有技术对运维系统仅仅基于运维设备的异常检测告警与层级调用链确定根因的静态规则方法相比较,上述根因定位方法在运维系统接收到异常告警信息后,根据LOESS算法计算对应各告警指标的相似度值进行平滑处理,进一步还可以通过历史STL周期分量的残差计算各告警指标的相似度值以准确反映告警指标的变化程度,还能够准确反映不同指标的影响程度;在获取相似度值较高的告警指标后,结合调用链层级信息对告警指标的相似度值进行权重排序,输出相似度值较高的告警指标对应的调用链设备作为根因输出,输出的是存在风险根因的设备而非告警指标,保证了输出根因的多样性;且根因的确定基于告警指标相似度、异常信息、告警时刻和调用关系等多种维度,保证了根因识别的完整性与准确性。相比现有技术的静态规则,本发明方法能够挖掘到更加复杂的根因关系,通过根因识别结果,运维工作人员能够根据告警指标快速排查,并进行故障的快速修复工作。
附图说明
图1为一个实施例中提供的根因定位方法的实施环境图;
图2为一个实施例中计算机设备的内部结构框图;
图3为一个实施例中根因定位方法的流程图;
图4为一个实施例中根据lag值对被告警指标计算获取相似度值较高的告警指标的流程图;
图5为一个实施例中根据lag值结合历史STL周期分量的残差值获取相似度值较高的告警指标的流程图;
图6为一个实施例中根因定位装置的结构框图;
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1为一个实施例中提供的根因定位方法的实施环境图,如图1所示,在该实施环境中,包括计算机设备110以及终端120。
计算机设备110为测试设备,例如为测试人员使用的电脑等计算机设备,计算机设备110上安装有自动化测试工具,例如可以为Appium。终端120上安装有需要进行根因定位的被测应用,当需要测试时,测试人员可以在计算机设备110发出根因定位请求,该根因定位请求中携带有定位请求标识,计算机设备110接收该根因定位请求,根据定位请求标识获取计算机设备110中与定位请求标识对应的根因定位脚本。然后利用自动化测试工具执行该根因定位脚本,对终端120上的被测应用进行测试,并获取根因定位脚本对应的根因定位结果。
需要说明的是,终端120以及计算机设备110可为智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此。计算机设备110以及终端110可以通过蓝牙、USB(Universal Serial Bus,通用串行总线)或者其他通讯连接方式进行连接,本发明在此不做限制。
图2为一个实施例中计算机设备的内部结构示意图。如图2所示,该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种手势测试方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种根因定位方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图2中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
如图3所示,在一个实施例中,提出了一种根因定位方法,该根因定位方法可以应用于上述的计算机设备110中,具体可以包括以下步骤302~310:
步骤302,接收到异常信息并发出告警信息;
在本实施例中,异常信息的检测是基于现有技术STL算法进行时序分解得到周期性分量并存储,当某采集值与对应周期性分量高于阈值时,即可发出告警信息。STL(Seasonal-Trend decomposition procedure based on loess)算法为时序分解中一种算法,基于LOESS将某时刻的数据分解为趋势分量(trend component)、周期分量(seasonalcomponent)和余项(remainder component):Yv=Tv+Sv+Rvv=1,…,NYv=Tv+Sv+Rvv=1,…,N
STL分为内循环(inner loop)与外循环(outer loop),其中内循环主要做了趋势拟合与周期分量的计算。假定T(k)vTv(k)、Sv(k)Sv(k)为内循环中第k-1次pass结束时的趋势分量、周期分量,初始时T(k)v=0Tv(k)=0;并有以下参数:
·n(i)n(i)内层循环数,
·n(o)n(o)外层循环数,
·n(p)n(p)为一个周期的样本数,
·n(s)n(s)为Step 2中LOESS平滑参数,
·n(l)n(l)为Step 3中LOESS平滑参数,
·n(t)n(t)为Step 6中LOESS平滑参数。
每个周期相同位置的样本点组成一个子序列(subseries),容易知道这样的子序列共有n(p)n(p)个,称其为cycle-subseries。内循环主要分为以下6个步骤:
·Step 1:去趋势(Detrending),减去上一轮结果的趋势分量,Yv-T(k)vYv-Tv(k);
·Step 2:周期子序列平滑(Cycle-subseries smoothing),用LOESS(q=nn(s)q=nn(s),d=1d=1)对每个子序列做回归,并向前向后各延展一个周期;平滑结果组成temporary seasonal series,记为C(k+1)v,v=-n(p)+1,…,-N+n(p)Cv(k+1),v=-n(p)+1,…,-N+n(p);
·Step 3:周期子序列的低通量过滤(Low-Pass Filtering),对上一个步骤的结果序列C(k+1)vCv(k+1)依次做长度为n(p)n(p)、n(p)n(p)、33的滑动平均(movingaverage),然后做LOESS(q=nn(l)q=nn(l),d=1d=1)回归,得到结果序列L(k+1)v,v=1,…,NLv(k+1),v=1,…,N;相当于提取周期子序列的低通量;
·Step 4:去除平滑周期子序列趋势(Detrending of Smoothed Cycle-subseries),S(k+1)v=C(k+1)v-L(k+1)vSv(k+1)=Cv(k+1)-Lv(k+1);
·Step 5:去周期(Deseasonalizing),减去周期分量,Yv-S(k+1)vYv-Sv(k+1);
·Step 6:趋势平滑(Trend Smoothing),对于去除周期之后的序列做LOESS(q=nn(t)q=nn(t),d=1d=1)回归,得到趋势分量T(k+1)vTv(k+1)。
步骤304,根据调用链查找所有与告警信息相关联的告警指标,并收集所述告警指标的数值;
在本发明实施例中,所述收集与告警指标的数值是收集告警前1~2小时到告警后10分钟之间的告警指标的数值。此处相关联的告警指标是指不同告警对象(每个对象存在多个监测指标)之间存在调用关系,因而能够相互影响。当系统中某个应用发出告警后,由于告警可能发生于多个指标,将查找到的多个指标依时刻顺序进行均值聚合以获得综合入口指标用于后续相似度值的计算,当告警指标为单个指标时,则将该单个指标作为入口指标用于后续相似度值的计算。以上收集告警前1~2小时到告警后10分钟之内的告警指标数值是保证告警触发后能够较快进行根因识别的优化时间区间。
在一些实施例中,如果需要扩大查找告警指标,也可以将上述时间区间设定为告警前1~6小时到告警后10分钟之内。
步骤306,对所有所述告警指标的数值进行平滑处理,并将所有告警指标结合预设的lag值分别进行相似度计算,以获取lag值较高的告警指标的相似度值;
在本实施例中,根据上述查找到的关联告警指标。需要对关联告警指标的数值进行相似度处理,如图4为一个实施例中根据lag值对被告警指标计算获取相似度值较高的告警指标的流程图,具体包括如下步骤402~408:
步骤402,通过LOESS算法进行局部加权回归得到回归值获取序列平滑值;采用LOESS算法对相关联告警指标的数值进行平滑计算去除噪点。
步骤404,预设lag值为0~90分钟;本实施例优选设置的LOESS算法中的lag值为0~90分钟,在需要扩大关联告警指标数值进行计算时,也可以将lag值预设为0~120分钟进行计算。
步骤406,将所有告警指标在预设各lag值下与入口指标分别计算相似度,得到所有告警指标在各lag值下的lag值告警指标;以预设lag值为60分钟为例,即入口指标为告警开始时刻前1小时到告警后10分钟区间,根据lag值的范围将告警指标区间以1分钟步长向前推移,再与入口指标原区间计算相似度,获得各lag值下的相似度值计算结果。其中,相似度值的计算采用皮尔逊关联系数计算,皮尔逊关联系数的计算公式为
Figure BDA0002408968640000081
皮尔逊关联系数的计算为现有技术,此处不赘述。
步骤408,将相似度值大于0.65的lag值告警指标进行相似度值归并,以获取相似度值较高的告警指标。如上步骤示例,预设lag值为60分钟,从告警前60分钟到告警后10分钟,以1分钟为步长,分别有70个区间的lag值,与入口指标原区间根据皮尔逊关联系数计算出各lag值下的相似度值结果,可能会存在多个大于0.65相似度阈值的相似度,部分相似度大于0.65阈值的lag可能聚集在邻近位置,按最大值进行归并,保留多个相似度最大的lag值,即获取相似度值较高的告警指标。上述计算过程的原因是根因指标异变可能不是与入口指标同时发生的,但基本要早于入口指标,如果异变在时间窗口中的位置不相同则会降低相似度,因此,将时间窗口往前推移与入口指标进行多次计算后,从而得出较高相似度。其中,时间窗口是指告警前的某个时刻到告警后10分钟的时间区段。
在一些实施例中,各告警指标之间可能存在反向关系,或者根因指标异变程度较小,导致不能直接进行相似度计算,例如,在实际运维场景下,2个指标可能存在相同变化但是变化幅度差异较大,导致相似度关联系数值较低,此外,部分告警指标与入口指标可能存在相同变化,但是这种变化是这些指标的正常情况,不能将这种变化作为故障根因。因此,相似度值的计算输入模型除了采用上述LOESS算法计算之外,还需要加入历史STL周期分量的残差值计算,对各个告警指标的残差进行相似度计算,以能够综合反映变化程度。如图5一个实施例中根据lag值结合历史STL周期分量的残差值获取相似度值较高的告警指标的流程图,具体包括步骤502~506:
步骤502,采集告警指标通过LOESS算法获取的所述序列平滑值与历史STL周期分量的残差值;
步骤504,对于存在STL周期分量残差值的告警指标分别进行相似度计算,以得到STL残差值告警指标的相似度值;
步骤506,若STL残差值告警指标的相似度值及对应的lag值告警指标的相似度值均大于0.65,则对该告警指标的相似度值进行归并,以获取相似度值较高的告警指标。
通过加入对告警指标进行STL值测算的手段,对于告警指标的平滑值与残差值分别计算相似度,如果两种情况下相似度均高于0.65的阈值,则该告警指标被纳入潜在的根因。残差更能体现和历史相比的异常变化,而减少了常态变化的影响。
步骤308,汇总所述lag值较高的告警指标的相似度值,结合所述调用链层级关系,对相似度值较高的告警指标进行排序;
本发明实施例中,一个告警指标可能对应多组结果,再结合调用链层级关系,对所有相关联的告警指标进行排序,保证了输出根因的多样性。这样获取的告警指标的相似度值能够得到数值最高的相似度均值与延迟量。对于调用链层级关系信息,越往下游的对象越会影响上游对象,根因的可能性就越大。按照相似度进行排序后,调用链中上游调用链数量相对应减少,如果某个对象存在下游对象潜在根因,则该对象可能是受影响的对象,则可直接排除这一对象,最终将排序靠前的告警指标输出作为根因指标。
步骤310,将所述相似度值排序靠前的告警指标对应的调用链设备作为根因输出。
在本发明实施例中,查找定位根因需要确定发生故障的根因设备,因此,根据上述步骤输出确认的作为根因指标的告警指标,在调用链层级关系中查找出其对应的调用链设备,即可确定其为发生故障的根因。
如图6所示,在一个实施例中,提供了一种根因定位装置的结构框图,该根因定位装置可以集成于上述的计算机设备110中,具体可以包括异常检测单元602、告警指标数值计算单元604、告警指标相似度计算单元606和根因告警指标输出单元608;
异常检测单元602,用于接收到异常信息并发出告警信息;
在本实施例中,异常信息的检测是基于现有技术STL算法进行时序分解得到周期性分量并存储,当某采集值与对应周期性分量高于阈值时,即可发出告警信息。STL(Seasonal-Trend decomposition procedure based on loess)算法为时序分解中一种算法,基于LOESS将某时刻的数据分解为趋势分量(trend component)、周期分量(seasonalcomponent)和余项(remainder component):Yv=Tv+Sv+Rvv=1,…,NYv=Tv+Sv+Rvv=1,…,N
STL分为内循环(inner loop)与外循环(outer loop),其中内循环主要做了趋势拟合与周期分量的计算。假定T(k)vTv(k)、Sv(k)Sv(k)为内循环中第k-1次pass结束时的趋势分量、周期分量,初始时T(k)v=0Tv(k)=0;并有以下参数:
·n(i)n(i)内层循环数,
·n(o)n(o)外层循环数,
·n(p)n(p)为一个周期的样本数,
·n(s)n(s)为Step 2中LOESS平滑参数,
·n(l)n(l)为Step 3中LOESS平滑参数,
·n(t)n(t)为Step 6中LOESS平滑参数。
每个周期相同位置的样本点组成一个子序列(subseries),容易知道这样的子序列共有n(p)n(p)个,称其为cycle-subseries。内循环主要分为以下6个步骤:
·Step 1:去趋势(Detrending),减去上一轮结果的趋势分量,Yv-T(k)vYv-Tv(k);
·Step 2:周期子序列平滑(Cycle-subseries smoothing),用LOESS(q=nn(s)q=nn(s),d=1d=1)对每个子序列做回归,并向前向后各延展一个周期;平滑结果组成temporary seasonal series,记为C(k+1)v,v=-n(p)+1,…,-N+n(p)Cv(k+1),v=-n(p)+1,…,-N+n(p);
·Step 3:周期子序列的低通量过滤(Low-Pass Filtering),对上一个步骤的结果序列C(k+1)vCv(k+1)依次做长度为n(p)n(p)、n(p)n(p)、33的滑动平均(movingaverage),然后做LOESS(q=nn(l)q=nn(l),d=1d=1)回归,得到结果序列L(k+1)v,v=1,…,NLv(k+1),v=1,…,N;相当于提取周期子序列的低通量;
·Step 4:去除平滑周期子序列趋势(Detrending of Smoothed Cycle-subseries),S(k+1)v=C(k+1)v-L(k+1)vSv(k+1)=Cv(k+1)-Lv(k+1);
·Step 5:去周期(Deseasonalizing),减去周期分量,Yv-S(k+1)vYv-Sv(k+1);
Step 6:趋势平滑(Trend Smoothing),对于去除周期之后的序列做LOESS(q=nn(t)q=nn(t),d=1d=1)回归,得到趋势分量T(k+1)vTv(k+1)。
告警指标数值计算单元604,用于根据调用链查找所有与告警信息相关联的告警指标,并收集所述告警指标的数值;
在本实施例中,所述告警指标数值计算单元604在收集与告警指标的数值时,是收集告警前1~2小时到告警后10分钟之间的告警指标的数值。此处相关联的告警指标是指不同告警对象(每个对象存在多个监测指标)之间存在调用关系,因而能够相互影响。当系统中某个应用发出告警后,由于告警可能发生于多个指标,将查找到的多个指标依时刻顺序进行均值聚合以获得综合入口指标用于后续相似度值的计算,当告警指标为单个指标时,则将该单个指标作为入口指标用于后续相似度值的计算。以上收集告警前1~2小时到告警后10分钟之内的告警指标数值是保证告警触发后能够较快进行根因识别的优化时间区间。
在一些实施例中,如果需要扩大查找告警指标,也可以将上述时间区间设定为告警前1~6小时到告警后10分钟之内。
告警指标相似度计算单元606,用于对所有所述告警指标的数值进行平滑处理,并将所有告警指标结合预设的lag值分别进行相似度计算,以获取lag值较高的告警指标的相似度值;
在本实施例中,所述告警指标相似度计算单元606用于计算告警指标的相似度值具体采用:首先通过LOESS算法进行局部加权回归得到回归值获取序列平滑值;预设lag值为0~90分钟;再将所有告警指标在预设各lag值下与入口指标分别计算相似度,得到所有告警指标在各lag值下的lag值告警指标;最后,将相似度值大于0.65的lag值告警指标进行相似度值归并,以获取相似度值较高的告警指标。其具体的计算过程与上述方法实施例中步骤306相同,此处不赘述。
在一些实施例中,各告警指标之间可能存在反向关系,或者根因指标异变程度较小,导致不能直接进行相似度计算,例如,在实际运维场景下,2个指标可能存在相同变化但是变化幅度差异较大,导致相似度关联系数值较低,此外,部分告警指标与入口指标可能存在相同变化,但是这种变化是这些指标的正常情况,不能将这种变化作为故障根因。因此,相似度值的计算输入模型除了采用上述LOESS算法计算之外,还需要加入历史STL周期分量的残差值计算,对各个告警指标的残差进行相似度计算,以能够综合反映变化程度。所述告警指标相似度计算单元606用于计算告警指标的相似度值具体还采用:首先采集告警指标通过LOESS算法获取的所述序列平滑值与历史STL周期分量的残差值,对于存在STL周期分量残差值的告警指标分别进行相似度计算,以得到STL残差值告警指标的相似度值;若STL残差值告警指标的相似度值及对应的lag值告警指标的相似度值均大于0.65,则对该告警指标的相似度值进行归并,以获取相似度值较高的告警指标。
根因告警指标输出单元608,用于汇总所述lag值较高的告警指标的相似度值,结合所述调用链层级关系,对相似度值较高的告警指标进行排序,并将相似度值排序靠前的告警指标对应的调用链设备作为根因输出。
在本实施例中,一个告警指标可能对应多组结果,再结合调用链层级关系,对所有相关联的告警指标进行排序,保证了输出根因的多样性。这样获取的告警指标的相似度值能够得到数值最高的相似度均值与延迟量。对于调用链层级关系信息,越往下游的对象越会影响上游对象,根因的可能性就越大。按照相似度进行排序后,调用链中上游调用链数量相对应减少,如果某个对象存在下游对象潜在根因,则该对象可能是受影响的对象,则可直接排除这一对象,最终将排序靠前的告警指标输出作为根因指标。查找定位根因需要确定发生故障的根因设备,因此,根据确认作为根因指标的告警指标后,在调用链层级关系中查找出其对应的调用链设备,即可确定其为发生故障的根因。
在一个实施例中,提出了一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
接收到异常信息并发出告警信息;
根据调用链查找所有与告警信息相关联的告警指标,并收集所述告警指标的数值;
对所有所述告警指标的数值进行平滑处理,并将所有告警指标结合预设的lag值分别进行相似度计算,以获取lag值较高的告警指标的相似度值;
汇总所述lag值较高的告警指标的相似度值,结合所述调用链层级关系,对相似度值较高的告警指标进行排序;
将所述相似度值排序靠前的告警指标对应的调用链设备作为根因输出。
在一个实施例中,处理器执行计算机程序时还执行以下步骤:所述收集与告警指标的数值是收集告警前1~2小时到告警后10分钟之间的告警指标的数值。
在一个实施例中,处理器执行计算机程序时还执行以下步骤:
通过LOESS算法进行局部加权回归得到回归值获取序列平滑值;
预设lag值为0~90分钟;
将所有告警指标在预设各lag值下与入口指标分别计算相似度,得到所有告警指标在各lag值下的lag值告警指标;
将相似度值大于0.65的lag值告警指标进行相似度值归并,以获取相似度值较高的告警指标。
在一个实施例中,处理器执行计算机程序时还执行以下步骤:
采集告警指标通过LOESS算法获取的所述序列平滑值与历史STL周期分量的残差值;
对于存在STL周期分量残差值的告警指标分别进行相似度计算,以得到STL残差值告警指标的相似度值;
若STL残差值告警指标的相似度值及对应的lag值告警指标的相似度值均大于0.65,则对该告警指标的相似度值进行归并,以获取相似度值较高的告警指标。
在一个实施例中,提出了一种存储有计算机可读指令的存储介质,该计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行以下步骤:
接收到异常信息并发出告警信息;
根据调用链查找所有与告警信息相关联的告警指标,并收集所述告警指标的数值;
对所有所述告警指标的数值进行平滑处理,并将所有告警指标结合预设的lag值分别进行相似度计算,以获取lag值较高的告警指标的相似度值;
汇总所述lag值较高的告警指标的相似度值,结合所述调用链层级关系,对相似度值较高的告警指标进行排序;
将所述相似度值排序靠前的告警指标对应的调用链设备作为根因输出。
在一个实施例中,处理器执行计算机可读指令时还执行以下步骤:
所述收集与告警指标的数值是收集告警前1~2小时到告警后10分钟之间的告警指标的数值。
在一个实施例中,处理器执行计算机可读指令时还执行以下步骤:
通过LOESS算法进行局部加权回归得到回归值获取序列平滑值;
预设lag值为0~90分钟;
将所有告警指标在预设各lag值下与入口指标分别计算相似度,得到所有告警指标在各lag值下的lag值告警指标;
将相似度值大于0.65的lag值告警指标进行相似度值归并,以获取相似度值较高的告警指标。
在一个实施例中,处理器执行计算机可读指令时还执行以下步骤:
采集告警指标通过LOESS算法获取的所述序列平滑值与历史STL周期分量的残差值;
对于存在STL周期分量残差值的告警指标分别进行相似度计算,以得到STL残差值告警指标的相似度值;
若STL残差值告警指标的相似度值及对应的lag值告警指标的相似度值均大于0.65,则对该告警指标的相似度值进行归并,以获取相似度值较高的告警指标。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种根因定位方法,其特征在于,所述根因定位方法用于根因分析系统定位运维工作中故障的根因,包括如下步骤:
接收到异常信息并发出告警信息;
根据调用链查找所有与告警信息相关联的告警指标,并收集所述告警指标的数值;
对所有所述告警指标的数值进行平滑处理,并将所有告警指标结合预设的lag值分别进行相似度计算,以获取lag值较高的告警指标的相似度值;
汇总所述lag值较高的告警指标的相似度值,结合所述调用链层级关系,对相似度值较高的告警指标进行排序;
将所述相似度值排序靠前的告警指标对应的调用链设备作为根因输出。
2.如权利要求1所述的根因定位方法,其特征在于,所述收集与告警指标的数值是收集告警前1~2小时到告警后10分钟之间的告警指标的数值。
3.如权利要求1或2所述的根因定位方法,其特征在于,所述对所有所述告警指标的数值进行平滑处理,并将所有告警指标结合预设的lag值分别进行相似度计算,以获取lag值较高的告警指标的相似度值具体包括如下步骤:
通过LOESS算法进行局部加权回归得到回归值获取序列平滑值;
预设lag值为0~90分钟;
将所有告警指标在预设各lag值下与入口指标分别计算相似度,得到所有告警指标在各lag值下的lag值告警指标;
将相似度值大于0.65的lag值告警指标进行相似度值归并,以获取相似度值较高的告警指标。
4.如权利要求3所述的根因定位方法,其特征在于,所述对告警指标相似度值的计算还包括如下步骤:
采集告警指标通过LOESS算法获取的所述序列平滑值与历史STL周期分量的残差值;
对于存在STL周期分量残差值的告警指标分别进行相似度计算,以得到STL残差值告警指标的相似度值;
若STL残差值告警指标的相似度值及对应的lag值告警指标的相似度值均大于0.65,则对该告警指标的相似度值进行归并,以获取相似度值较高的告警指标。
5.一种根因定位装置,其特征在于,所述根因定位装置用于根因分析系统定位运维工作中故障的根因,所述根因定位装置包括:异常检测单元、告警指标数值计算单元、告警指标相似度计算单元和根因告警指标输出单元;
异常检测单元,用于接收到异常信息并发出告警信息;
告警指标数值计算单元,用于根据调用链查找所有与告警信息相关联的告警指标,并收集所述告警指标的数值;
告警指标相似度计算单元,用于对所有所述告警指标的数值进行平滑处理,并将所有告警指标结合预设的lag值分别进行相似度计算,以获取lag值较高的告警指标的相似度值;
根因告警指标输出单元,用于汇总所述lag值较高的告警指标的相似度值,结合所述调用链层级关系,对相似度值较高的告警指标进行排序,并将相似度值排序靠前的告警指标对应的调用链设备作为根因输出。
6.如权利要求5所述的根因定位装置,其特征在于,所述告警指标数值计算单元在收集与告警指标的数值时,是收集告警前1~2小时到告警后10分钟之间的告警指标的数值。
7.如权利要求5或6所述的根因定位装置,其特征在于,所述告警指标相似度计算单元用于计算告警指标的相似度值具体采用:首先通过LOESS算法进行局部加权回归得到回归值获取序列平滑值;预设lag值为0~90分钟;再将所有告警指标在预设各lag值下与入口指标分别计算相似度,得到所有告警指标在各lag值下的lag值告警指标;最后,将相似度值大于0.65的lag值告警指标进行相似度值归并,以获取相似度值较高的告警指标。
8.如权利要求7所述的根因定位装置,其特征在于,所述告警指标相似度计算单元用于计算告警指标的相似度值具体还采用:首先采集告警指标通过LOESS算法获取的所述序列平滑值与历史STL周期分量的残差值,对于存在STL周期分量残差值的告警指标分别进行相似度计算,以得到STL残差值告警指标的相似度值;若STL残差值告警指标的相似度值及对应的lag值告警指标的相似度值均大于0.65,则对该告警指标的相似度值进行归并,以获取相似度值较高的告警指标。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至4中任一项权利要求所述根因定位方法的步骤。
10.一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至4中任一项权利要求所述根因定位方法的步骤。
CN202010170390.2A 2020-03-12 2020-03-12 根因定位方法、装置、计算机设备和存储介质 Pending CN111459695A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010170390.2A CN111459695A (zh) 2020-03-12 2020-03-12 根因定位方法、装置、计算机设备和存储介质
PCT/CN2020/118332 WO2021179574A1 (zh) 2020-03-12 2020-09-28 根因定位方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010170390.2A CN111459695A (zh) 2020-03-12 2020-03-12 根因定位方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN111459695A true CN111459695A (zh) 2020-07-28

Family

ID=71680757

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010170390.2A Pending CN111459695A (zh) 2020-03-12 2020-03-12 根因定位方法、装置、计算机设备和存储介质

Country Status (2)

Country Link
CN (1) CN111459695A (zh)
WO (1) WO2021179574A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112506763A (zh) * 2020-11-30 2021-03-16 清华大学 数据库系统故障根因自动定位方法和装置
WO2021179574A1 (zh) * 2020-03-12 2021-09-16 平安科技(深圳)有限公司 根因定位方法、装置、计算机设备和存储介质
CN113641526A (zh) * 2021-09-01 2021-11-12 京东科技信息技术有限公司 告警根因定位方法、装置、电子设备及计算机存储介质
CN113821413A (zh) * 2021-09-27 2021-12-21 中国建设银行股份有限公司 告警分析方法及装置
CN114978877A (zh) * 2022-05-13 2022-08-30 京东科技信息技术有限公司 一种异常处理方法、装置、电子设备及计算机可读介质
CN116244139A (zh) * 2022-12-24 2023-06-09 北京新数科技有限公司 一种基于时序数据的告警自愈方法及系统

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113535458B (zh) * 2021-09-17 2021-12-28 上海观安信息技术股份有限公司 异常误报的处理方法及装置、存储介质、终端
CN113793049B (zh) * 2021-09-18 2023-11-07 成都数之联科技股份有限公司 产品生产过程中的不良根因定位方法、装置、设备及介质
CN114338351B (zh) * 2021-12-31 2024-01-12 天翼物联科技有限公司 网络异常根因确定方法、装置、计算机设备及存储介质
CN115484150B (zh) * 2022-09-01 2024-02-23 中国电信股份有限公司 告警信息的处理方法、系统、设备及存储介质
CN115766402B (zh) * 2023-01-09 2023-04-28 苏州浪潮智能科技有限公司 服务器故障根因的过滤方法和装置、存储介质及电子装置
CN116225769B (zh) * 2023-05-04 2023-07-11 北京优特捷信息技术有限公司 一种系统故障根因的确定方法、装置、设备及介质
CN116846741B (zh) * 2023-08-31 2023-11-28 广州嘉为科技有限公司 一种告警收敛方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120250934A1 (en) * 2011-03-30 2012-10-04 Shiraishi Ayumi Information processing apparatus, playlist creation method, and playlist creation program
CN108009040A (zh) * 2017-12-12 2018-05-08 杭州时趣信息技术有限公司 一种确定故障根因的方法、系统和计算机可读存储介质
CN109753526A (zh) * 2018-12-28 2019-05-14 四川新网银行股份有限公司 一种基于时序相似度对告警信息分析查询的装置及方法
CN110413703A (zh) * 2019-06-21 2019-11-05 平安科技(深圳)有限公司 基于人工智能的监控指标数据的分类方法及相关设备
CN110493042A (zh) * 2019-08-16 2019-11-22 中国联合网络通信集团有限公司 故障诊断方法、装置及服务器

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106843111B (zh) * 2017-03-10 2019-04-05 中国石油大学(北京) 油气生产系统报警信号根原因精确溯源方法及装置
CN107588906B (zh) * 2017-09-11 2019-08-30 北京金风慧能技术有限公司 用于液冷循环系统的液体泄漏预警方法及装置
BR112019017301A2 (pt) * 2017-10-09 2020-04-22 Bl Technologies, Inc. métodos e sistemas inteligentes para diagnóstico de saúde de uma estação de tratamento de água, detecção e controle de anomalia
CN110166264B (zh) * 2018-02-11 2022-03-08 北京三快在线科技有限公司 一种故障定位方法、装置及电子设备
CN109634819B (zh) * 2018-10-26 2022-02-01 创新先进技术有限公司 告警根因定位方法和装置、电子设备
CN110309009B (zh) * 2019-05-21 2022-05-13 北京云集智造科技有限公司 基于情境的运维故障根因定位方法、装置、设备及介质
CN110837953A (zh) * 2019-10-24 2020-02-25 北京必示科技有限公司 一种自动化异常实体定位分析方法
CN111459695A (zh) * 2020-03-12 2020-07-28 平安科技(深圳)有限公司 根因定位方法、装置、计算机设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120250934A1 (en) * 2011-03-30 2012-10-04 Shiraishi Ayumi Information processing apparatus, playlist creation method, and playlist creation program
CN108009040A (zh) * 2017-12-12 2018-05-08 杭州时趣信息技术有限公司 一种确定故障根因的方法、系统和计算机可读存储介质
CN109753526A (zh) * 2018-12-28 2019-05-14 四川新网银行股份有限公司 一种基于时序相似度对告警信息分析查询的装置及方法
CN110413703A (zh) * 2019-06-21 2019-11-05 平安科技(深圳)有限公司 基于人工智能的监控指标数据的分类方法及相关设备
CN110493042A (zh) * 2019-08-16 2019-11-22 中国联合网络通信集团有限公司 故障诊断方法、装置及服务器

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021179574A1 (zh) * 2020-03-12 2021-09-16 平安科技(深圳)有限公司 根因定位方法、装置、计算机设备和存储介质
CN112506763A (zh) * 2020-11-30 2021-03-16 清华大学 数据库系统故障根因自动定位方法和装置
CN113641526A (zh) * 2021-09-01 2021-11-12 京东科技信息技术有限公司 告警根因定位方法、装置、电子设备及计算机存储介质
CN113641526B (zh) * 2021-09-01 2024-04-05 京东科技信息技术有限公司 告警根因定位方法、装置、电子设备及计算机存储介质
CN113821413A (zh) * 2021-09-27 2021-12-21 中国建设银行股份有限公司 告警分析方法及装置
CN114978877A (zh) * 2022-05-13 2022-08-30 京东科技信息技术有限公司 一种异常处理方法、装置、电子设备及计算机可读介质
CN114978877B (zh) * 2022-05-13 2024-04-05 京东科技信息技术有限公司 一种异常处理方法、装置、电子设备及计算机可读介质
CN116244139A (zh) * 2022-12-24 2023-06-09 北京新数科技有限公司 一种基于时序数据的告警自愈方法及系统

Also Published As

Publication number Publication date
WO2021179574A1 (zh) 2021-09-16

Similar Documents

Publication Publication Date Title
CN111459695A (zh) 根因定位方法、装置、计算机设备和存储介质
CN106780121B (zh) 一种基于用电负荷模式分析的用电异常识别方法
US10852357B2 (en) System and method for UPS battery monitoring and data analysis
US20150346066A1 (en) Asset Condition Monitoring
KR102141391B1 (ko) 군집 평가에 기반한 고장 데이터의 관리 방법
US20020183971A1 (en) Diagnostic systems and methods for predictive condition monitoring
KR102123522B1 (ko) 고장 데이터의 군집에 기반한 고장 진단 방법
CN112416643A (zh) 无监督异常检测方法与装置
JPH10510385A (ja) ソフトウエア品質のアーキテクチャに基づく分析のための方法およびシステム
CN101706749B (zh) 基于软件安全缺陷检测的综合处理方法
CN113282461A (zh) 传输网的告警识别方法和装置
CN111722952A (zh) 业务系统的故障分析方法、系统、设备和存储介质
CN112149860A (zh) 一种自动异常检测方法和系统
CN110543907A (zh) 一种基于微机监测功率曲线的故障分类方法
CN113592343A (zh) 二次系统的故障诊断方法、装置、设备和存储介质
KR20210017651A (ko) 반도체 제조 공정에서 고장 검출 및 불량 원인 진단을 위한 방법
CN110909826A (zh) 一种能源设备的诊断监测方法、装置及电子设备
CN113591393A (zh) 智能变电站的故障诊断方法、装置、设备和存储介质
Park et al. Transient diagnosis and prognosis for secondary system in nuclear power plants
Atzmueller et al. Anomaly detection and structural analysis in industrial production environments
KR20220132824A (ko) 배전설비 상태 이상 개소 감시 시스템 및 방법
CN111309584B (zh) 数据处理方法、装置、电子设备及存储介质
JP4763562B2 (ja) ディレイ不良解析方法およびその装置
CN115766402A (zh) 服务器故障根因的过滤方法和装置、存储介质及电子装置
CN114881112A (zh) 一种系统异常检测方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination