CN112532455B - 一种异常根因定位方法及装置 - Google Patents

一种异常根因定位方法及装置 Download PDF

Info

Publication number
CN112532455B
CN112532455B CN202011386756.6A CN202011386756A CN112532455B CN 112532455 B CN112532455 B CN 112532455B CN 202011386756 A CN202011386756 A CN 202011386756A CN 112532455 B CN112532455 B CN 112532455B
Authority
CN
China
Prior art keywords
abnormal
network element
checked
score
kpi
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011386756.6A
Other languages
English (en)
Other versions
CN112532455A (zh
Inventor
张闯
敖襄桥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinhuasan Artificial Intelligence Technology Co ltd
Original Assignee
Xinhuasan Artificial Intelligence Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinhuasan Artificial Intelligence Technology Co ltd filed Critical Xinhuasan Artificial Intelligence Technology Co ltd
Priority to CN202011386756.6A priority Critical patent/CN112532455B/zh
Publication of CN112532455A publication Critical patent/CN112532455A/zh
Application granted granted Critical
Publication of CN112532455B publication Critical patent/CN112532455B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种异常根因定位方法及装置,该方法包括:对目标业务指标进行监测,并确定监测到的所述目标业务指标是否满足异常条件;当确定监测到的所述目标业务指标满足异常条件时,依据trace数据确定各网元的异常分数;依据所述各网元的异常分数构建待查异常网元列表;分别对所述待查异常网元列表中各待查异常网元的KPI指标进行异常检测,以确定所述各待查异常网元的各KPI指标的异常分数;依据所述各待查异常网元的异常分数,以及所述各待查异常网元的各KPI指标的异常分数,定位异常根因。应用本发明实施例可以提高异常根因定位的效率和准确率。

Description

一种异常根因定位方法及装置
技术领域
本发明涉及云计算技术领域,尤其涉及一种异常根因定位方法及装置。
背景技术
随着云计算的快速发展,越来越多的系统转移到了云上,实现了软件和硬件资源共享,从而减少了系统部署的软硬件成本。
但随之而来的是,由大量的组件和复杂的交互带来的各种问题,特别是多租户的云平台,资源竞争会造成性能下降等问题。
通常云系统会有监控中心随时监控系统层面指标的异常,当发现系统层面的异常,会有管理人员对异常根因进行定位,而异常根因的手工定位耗时耗力。
目前,为了实现异常根因自动定位,常用的方法包括论文《Lightweight andAdaptive Service API Performance Monitoring in Highly Dynamic CloudEnvironment》中介绍的方法,通过流量关联的方法获取服务之间依赖关系,而后通过PC-Algorithm算法(一种因果分析算法)获取各KPI(Key Performance Indictaor,关键性监控数据)指标的因果关系,构建故障因果图,从而故障发生时,沿着故障因果图找到根因的指标。
然而实践发现,上述异常根因定位方案中,需要依据各个模块的流量数据实现异常根因定位,而很多场景中,各模块的流量数据通常无法采集,导致无法使用该方案实现异常根因定位;此外,上述方案中建立故障因果图时未考虑时序,故障因果图建立的准确性不足,导致异常根因定位准确性也较低。
发明内容
本发明提供一种异常根因定位方法及装置,以解决传统异常根因定位准确性低的问题。
根据本发明实施例的第一方面,提供一种异常根因定位方法,包括:
对目标业务指标进行监测,并确定监测到的所述目标业务指标是否满足异常条件;
当确定监测到的所述目标业务指标满足异常条件时,依据追踪trace数据确定各网元的异常分数;
依据所述各网元的异常分数构建待查异常网元列表;
分别对所述待查异常网元列表中各待查异常网元的关键性监控数据KPI指标进行异常检测,以确定所述各待查异常网元的各KPI指标的异常分数;
依据所述各待查异常网元的异常分数,以及所述各待查异常网元的各KPI指标的异常分数,定位异常根因。
根据本发明实施例的第二方面,提供一种异常根因定位装置,包括:
监测单元,用于对目标业务指标进行监测,并确定监测到的所述目标业务指标是否满足异常条件;
第一确定单元,用于当确定监测到的所述目标业务指标满足异常条件时,依据追踪trace数据确定各网元的异常分数;
构建单元,用于依据所述各网元的异常分数构建待查异常网元列表;
第二确定单元,用于分别对所述待查异常网元列表中各待查异常网元的关键性监控数据KPI指标进行异常检测,以确定所述各待查异常网元的各KPI指标的异常分数;
定位单元,用于依据所述各待查异常网元的异常分数,以及所述各待查异常网元的各KPI指标的异常分数,定位异常根因。
根据本发明实施例的第三方面,提供一种电子设备,该电子设备包括:
处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令;所述处理器用于执行机器可执行指令,以实现第一方面提供的异常根因定位方法。
应用本发明公开的技术方案,通过对目标业务指标进行监测,并确定监测到的目标业务指标是否满足异常条件,当确定监测到的所述目标业务指标满足异常条件时,依据trace数据确定各网元的异常分数,依据各网元的异常分数构建待查异常网元列表,分别对待查异常网元列表中各待查异常网元的关键性监控数据KPI指标进行异常检测,以确定各待查异常网元的各KPI指标的异常分数,进而,依据各待查异常网元的异常分数,以及各待查异常网元的各KPI指标的异常分数,定位异常根因,提高了异常根因定位的效率和准确率。
附图说明
图1是本发明实施例提供的一种异常根因定位方法的流程示意图;
图2是本发明实施例提供的一种调用拓扑的示意图;
图3是本发明实施例提供的一种trace数据的示意图;
图4是本发明实施例提供的一种网元调用异常分数的示意图;
图5是本发明实施例提供的一种肘部法则的示意图;
图6是本发明实施例提供的一种异常根因定位装置的结构示意图;
图7是本发明实施例提供的一种图6所示装置的硬件结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例中的技术方案,并使本发明实施例的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明实施例中技术方案作进一步详细的说明。
请参见图1,为本发明实施例提供的一种异常根因定位方法的流程示意图,如图1所示,该异常根因定位方法可以包括以下步骤:
需要说明的是,本发明实施例中各步骤的序号大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
步骤101、对目标业务指标进行监测,并确定监测到的目标业务指标是否满足异常条件。
本发明实施例中,目标业务指标可以包括黄金业务指标中的一个或多个。黄金业务指标可以包括但不限于服务响应时间(如打开某一网页的时间)、请求个数(预设单位时间内接收到的请求个数)以及请求成功率(成功响应的请求数量占请求总数的比例)等业务指标。
考虑到黄金业务指标可以很好地表征云系统(如微服务应用系统,下文中简称系统)的运行状态,通过对黄金业务指标进行监测可以及时发现系统异常(如故障)。
相应地,可以对目标业务指标进行监测,依据监测到的目标业务指标确定目标业务指标是否满足异常条件,以确定系统是否存在异常。
在一个示例中,目标业务指标包括服务响应时间和请求成功率。
步骤101中,异常条件,可以包括:
服务响应时间大于预设时间阈值,或/和,请求成功率低于预设成功率阈值。
示例性的,以目标业务指标包括服务响应时间和请求成功率为例。
考虑到系统正常运行时,服务响应时间通常会比较短(一般为毫秒级),请求成功率也会比较高(对于成功率要求较高的场景,会要求成功率为100%),而当服务响应时间变长或者请求成功率降低时,通常表明系统存在异常。
相应地,可以通过对服务响应时间和请求成功率进行监测,依据监测到的服务响应时间和请求成功率,确定服务器响应时间和请求成功率是否满足异常条件。
当服务响应时间大于预设时间阈值(可以根据具体场景设定),或/和,请求成功率低于预设成功率阈值(可以根据具体场景设定,如100%或99%等)时,确定目标业务指标满足异常条件。
步骤102、当确定监测到的目标业务指标满足异常条件时,依据trace数据确定各网元的异常分数。
本发明实施例中,当确定监测到的目标业务指标满足异常条件时,需要找到有问题的网元,以便进行异常根因定位。
为了找到存在问题的网元,可以依据trace数据,确定请求处理过程中,请求涉及的各网元的处理时间,并依据各网元的处理时间确定各网元的异常分数。
其中,网元的异常分数可以表征该网元存在问题的概率,网元的异常分数与该网元存在问题的概率正相关。
示例性的,对于任一网元,请求处理过程中,该网元的处理时间可以通过各网元对该网元进行调用的elapsedTime(响应时间)来表征。
其中,各网元对该网元进行调用的elapsedTime包括其它网元对该网元调用的elapsedTime和该网元对自身的调用的elapsedTime。
在一些实施例中,对于任一网元,可以依据预设统计周期(本文中称为目标统计周期)内的trace数据,分别确定各网元对该网元进行调用的elapsedTime,并依据各网元对该网元进行调用的elapsedTime,确定各网元对该网元进行调用的异常分数,进而,依据各网元对该网元进行调用的异常分数,确定该网元的异常分数。
示例性的,可以依据目标统计周期内的trace数据,分别确定各网元对该网元进行调用的elapsedTime的平均值(可以称为平均elapsedTime)或中值,并依据各网元对该网元进行调用的平均elapsedTime或elapsedTime的中值,确定各网元对该网元进行调用的异常分数,进而,依据各网元对该网元进行调用的异常分数,确定该网元的异常分数。
下文中以平均elapsedTime为例。
例如,以网元A调用网元B为例,假设在目标统计周期内网元A对网元B进行调用的elapsedTime包括T1、T2、…、Tm(即共m次调用),则目标统计周期内网元A对网元B进行调用的平均elapsedTime为(T1+T2+…+Tm)/m。
当确定了目标统计周期内网元A对网元B进行调用的平均elapsedTime时,可以依据该平均elapsedTime,确定网元A对网元B进行调用的异常分数。
示例性的,可以依据目标统计周期内网元A对网元B进行调用的平均elapsedTime,以及目标统计周期之前的预设数量的统计周期内的网元A对网元B进行调用的平均elapsedTime,确定网元A对网元B进行调用的异常分数。
例如,可以利用时间序列异常检测算法(S-H-ESD)确定网元A对网元B进行调用的异常分数,即将目标统计周期内网元A对网元B进行调用的平均elapsedTime,减去目标统计周期之前的预设数量的统计周期内的网元A对网元B进行调用的平均elapsedTime的中值,并将差的绝对值除以MAD(Median Absolute Deviation,绝对中位差),然后再除以临界值(可以称为λj),得到网元A对网元B进行调用的异常分数。
进而,可以基于各网元对网元B进行调用的异常分数,确定网元B的异常分数。
需要说明的是,对于按照上述方式确定的网元A对网元B进行调用的异常分数,当该异常分数大于1时,确定网元A对网元B的调用存在异常。
在一个示例中,网元的异常分数为各网元对该网元进行调用的异常分数的中位值。
示例性的,确定了各网元对该网元进行调用的异常分数时,可以对各网元对该网元进行调用的异常分数按照大小进行排序(如从大到小,或从小到大),并将各网元对该网元进行调用的异常分数的中位值作为该网元的异常分数。
例如,当各网元对该网元进行调用的异常分数包括2k+1(k为正整数)个值,则取按照大小顺序排序后的第k个异常分数作为该网元的异常分数。
当各网元对该网元进行调用的异常分数包括2k个值,则取按照大小顺序排序后的第k个异常分数和第k+1个异常分数的平均值,作为该网元的异常分数。
需要说明的是,在本发明实施例中,考虑到trace数据中记录的网元的elapsedTime包括了网元自身的处理时间以及下游调用的elapsedTime。
例如,对于调用链网元A→网元B→网元C,trace数据中记录的网元A对网元B调用的elapsedTime除了包括网元B的处理时间之外,还包括了网元B对网元C的调用的响应时间。
对于trace数据中的一条记录中的elapsedTime可能包括了该记录对应的网元自身的处理时间以及下游的调用时间,为了找到有问题的网元,可以将本条记录的elapsedTime减去下游调用的elaspsedTime,消除下游调用对本网元的影响。
步骤103、依据各网元的异常分数构建待查异常网元列表。
本发明实施例中,当确定了各网元的异常分数时,可以依据各网元的异常分数构建待查异常网元列表。
在一个示例中,可以依据各网元的异常分数从高到低的顺序对各网元进行排序,并将排序靠前的n个网元作为待查异常网元,构建待查异常网元列表。
需要说明的是,在本发明实施例中,考虑到当出现请求失败时,请求的响应时间也可能也很多,即发起的请求很快就得到了响应,但是响应结果是请求失败,此时,若仅以上述平均elapsedTime来确定异常网元,可能会导致无法定位到异常根因,因而,在构建待查异常网元列表时,还可以依据预设统计周期(本文中称为目标统计周期)内的trace数据,确定各网元在该目标统计周期内的请求失败率(即未成功响应的请求数量占请求总数的比例),并将请求失败率高于预设失败率阈值(可以根据实际场景设定,如0)的网元加入待查异常网元列表。
示例性的,在将请求失败率高于预设失败率阈值的网元加入待查异常网元列表时,可以为该网元设置缺省异常分数。
步骤104、分别对待查异常网元列表中各待查异常网元的KPI指标进行异常检测,以确定各待查异常网元的各KPI指标的异常分数。
本发明实施例中,当完成了待查异常网元列表的构建时,可以分别对待查异常网元列表中各待查异常网元的KPI指标进行异常检测,以确定各待查异常网元的各KPI指标的异常分数。
在一个示例中,对于任一待查异常网元的任一KPI指标,可以依据该KPI指标的Z-score(标准分数),以及该KPI指标的优先级对应的权重,确定该KPI指标的异常分数,其具体实现可以在下文中结合实例进行说明,本发明实施例在此不做赘述。
步骤105、依据各待查异常网元的异常分数,以及各待查异常网元的各KPI指标的异常分数,定位异常根因。
本发明实施例中,当按照上述步骤确定了各待查异常网元的异常分数,以及各待查异常网元的KPI指标的异常分数时,可以依据所确定的各待查异常网元的异常分数,以及各待查异常网元的各KPI指标的异常分数,定位异常根因。
示例性的,对于任一待查异常网元,可以将该网元的异常分数与该网元各KPI指标的异常分数的总和,确定为该网元最终的异常分数。
进而,可以依据各待查异常网元的最终异常分数进行异常根因定位。
在一个示例中,可以对各待查异常网元的最终的异常分数按照从高到低的顺序排序,并依据肘部法则,将突变点之前的待查异常网元作为根因输出。
为了使本领域技术人员更好地理解本发明实施例提供的技术方案,下面结合具体应用场景对本发明实施例提供的技术方案进行说明。
在该实施例中,以目标业务指标包括服务响应时间和请求成功率为例,通过对目标业务指标进行监测,确定是否满足异常条件。
当确定满足异常条件,例如,服务响应时间超过预设时间阈值,或/和,请求成功率低于预设成功率阈值时,依据trace数据查找存在问题的网元,并进行异常根因定位。
请参见图2,为本发明实施例提供的一种调用拓扑的示意图,如图2所示,在该调用拓扑中,一个网元可以调用多个其他网元(一个网元也可以调用自身,图中未示出),且一个网元也可以被多个其他网元调用,且一次调用可能包括3层或以上的调用。
基于图2所示调用拓扑,调用链数据(即上述trace数据)可以如图3所示(图中仅示出一个完整的trace数据中的部分数据),如图3所示,trace数据中可以包括startTime、elapsedTime、success、traceID、id、Pid、cmdb_id等;其中:
startTime用于标识调用起始时间;
elapsedTime用于标识响应时间;
success用于标识请求是否成功,值为true(真)表示成功,值为false(假)表示失败;
traceID用于唯一标识一条trace数据;
id为被调用的网元在此次调用中的编号,Pid为发起调用的网元在此次调用中的编号,例如,当某次os(操作系统)_022调用docker(容器)_002时,对应的id为docker_022在此次调用中的编号,Pid为os_022在此次调用中的编号;
cmdb_id为调用发起方的标识。
ServiceName为被调用方的标识。
需要说明的是,trace数据中记录的一行数据中的elapsedTime包括一次调用过程中本网元的处理时间以及本网元的下游调用的elapsedTime,因此,当需要确定调用过程中本网元的调用时间,需要基于trace数据中对应行的数据中的elapsedTime减去下游调用的elapsedTime。
例如,以第一行数据为例,id为40f7417263d801735495的网元为对应的调用链中最上层的网元(即不存在调用该网元的其它网元),该行数据中记录的elapsedTime(6136.0)包括调用过程中该网元的自身的处理以及下游的调用时间(即Pid为该网元的id的行中的数据包括的elapsedTime,如图3中第2行数据包括的elapsedTime),即调用过程中该网元自身的处理时间为3314.0(6136.0-2822.0=3314.0)。
通过对trace数据进行分析,可以看到发生异常时,elaspedTime明显增加,基于此可以找到存在问题的网元。
考虑到单位时间内(如1分钟)可能发生的调用的数量可能会很大,相应地,会产生很多条trace数据。例如,1分钟内docker001调用docker008可能还会有几百次。若分别基于每一次调用的trace数据进行异常定位,处理效率会较低。
为了提高处理效率,可以依据单位时间(即上述目标统计周期,如1分钟)的平均elaspedTime进行异常定位。
例如,1分钟内docker001调用docker008几百次,可以将这几百次调用的elaspedTime的平均值作为docker001调用docker008的平均elaspedTime,依据该平均elaspedTime进行异常定位。
对于任一网元,可以依据各网元对该网元进行调用的平均elaspedTime,确定各网元对该网元调用的异常分数。
示例性的,可以使用S-H-ESD(时间序列异常检测算法)算法进行异常检测,确定网元对网元进行调用的异常分数。
例如,对于网元A和网元B,当依据当前1分钟内的trace数据,确定了网元A对网元B进行调用的平均elaspedTime,可以依据该平均elaspedTime,以及前100个1分钟内网元A对网元B进行调用的平均elaspedTime,使用当前值减中值的差的绝对值除以MAD,然后再除以临界值(λj)的方式,确定网元A对网元B进行调用的异常分数。
按照上述方式可以得到网元对网元进行调用的异常分数,将此异常分数组成异常分数表,可以找到存在问题的调用,进而,找到存在问题的网元。
以使用竞赛数据集识别异常为例,如图4所示,可以快速定位到docker_006存在异常,其他两个docker(docker_003和docker_004)调用docker_006的时间过长,而docker_006调用自己的时间并没有明显增长,因此为docker_006网络异常的明显体现。
其中,当其他docker调用docker_006的时间没有明显增长,但是docker_006调用自己的时间明显增长时,为docker_006的CPU(Center Process Unit,中央处理单元)故障的特征。
需要说明的是,在本发明实施例中,考虑到可能会存在多个docker部署在同一个os(即同一主机)上的情况,当存在多个docker部署在同一个os上的情况,可以获取按照上述方式确定的该多个docker被其他网元调用的异常分数,以及该多个docker调用其他网元的异常分数,进而,依据该多个docker被其他网元调用的异常分数,以及该多个docker调用其他网元的异常分数,确定该os的异常分数,例如,将该多个docker被其他网元调用的异常分数,以及该多个docker调用其他网元的异常分数的中值,确定为该os的异常分数。
当确定了各网元的异常分数时,可以依据各网元的异常分数对各网元进行排序(如按照异常分数从高到低的顺序进行排序),并依据排序靠前的n个网元构造待查异常网元列表。
需要说明的是,在构造待查异常网元列表时,可以在排序靠前的n个网元的异常分数均大于预设阈值时,将该n个网元加入待查异常网元列表;否则,加入待查异常网元列表的网元的数量可以小于n个。
例如,按照上述描述可知,当按照上述方式确定的网元的异常分数大于1(即该预设阈值为1)时,表明该网元存在问题,此时,可以依据各网元的异常分数对各网元进行排序,并将排序靠前的n个网元中,异常分数大于1的网元加入到待查异常网元列表。
示例性的,在构造待查异常网元列表时,还可以将对应的trace数据中请求失败率超过预设失败率阈值的网元(通常为数据库异常)加入到待查异常网元列表。
其中,该请求失败率超过预设失败率阈值的网元加入待查异常网元列表时,可以插入列表尾部(请求失败率超过预设失败率阈值的网元之间可以按照请求失败率从高到低的顺序排序)。
在该实施例中,为了找到各个指标之间的因果关系,可以使用PCMCIplus,进行各个KPI指标的因果关系的挖掘,同时结合各KPI指标异常发生与特定种类的异常发生的相关性(单独取出异常分析),确定各KPI指标与特定种类的异常的相关性,相关性越高,优先级越高。
即若指标A异常导致某一特定种类的异常的概率高于指标B异常导致该特定种类的异常的概率,则在定位该特定种类异常的根因时,指标A的优先级高于指标B的优先级。
确定了各个KPI指标的优先级别后,可以使用通用方法,如Z-score(主要考虑能导致网元的异常发生,则本身的变化也就是差值会比较明显)法,确定各KPI指标的异常分数。
需要说明的是,对于个别指标,如CPU的指标,由于其与其他指标的物理意义不同,因此,可以使用定制的方法进行处理。
此外,各指标对应不同种类异常的优先级可以线下确定,并依据优先级为各指标分别设置对应的权重。
在该实施例中,异常根因定位流程如下:
1、对黄金指标进行监测,发现响应时间异常或/和出现成功率小于1(即成功率低于100%就确定满足异常条件)时启动根因定位;
2、依据trace数据构造异常分数表,得到异常分数最高的n个网元,并按异常分数从高到低的顺序加入待查异常网元列表中;
3、依据trace数据,将请求失败率大于0的网元(即trace数据中存在false)也加入待查异常网元列表;
4、依次取待查异常网元列表中的各网元,对其KPI指标进行异常检测,并且根据离线处理得到的先验知识(即优先级对应的权重),设置各KPI指标异常分数所乘的系数,即对于任一网元,将该网元的各KPI指标的异常分数的加权和确定为该网元的KPI指标的异常分数;
5、分别将各网元的异常分数和各网元的KPI指标的异常分数相加,得到各网元最终的异常分数(即总的异常分数);
6、对总的异常分数按照从高到低的顺序排序,根据总的异常分数决定根因输出:
按照肘部法则,若总的异常分数下降明显,则取突变点之前的作为根因输出。
例如,以图5为例,假设横坐标为网元(0、1、2…分别标识总的异常分数最高、第二高、第三高的网元),纵坐标为对应的网元的异常分数,由于第3个点(即网元2)的异常分数明显下降很大,依据肘部法则,可以选网元0和网元1作为根因。
通过以上描述可以看出,在本发明实施例提供的技术方案中,通过对目标业务指标进行监测,并确定监测到的目标业务指标是否满足异常条件,当确定监测到的所述目标业务指标满足异常条件时,依据trace数据确定各网元的异常分数,依据各网元的异常分数构建待查异常网元列表,分别对待查异常网元列表中各待查异常网元的关键性监控数据KPI指标进行异常检测,以确定各待查异常网元的各KPI指标的异常分数,进而,依据各待查异常网元的异常分数,以及各待查异常网元的各KPI指标的异常分数,定位异常根因,提高了异常根因定位的效率和准确率。
请参见图6,为本发明实施例提供的一种异常根因定位装置的结构示意图,如图6所示,该异常根因定位装置可以包括:
监测单元610,用于对目标业务指标进行监测,并确定监测到的所述目标业务指标是否满足异常条件;
第一确定单元620,用于当确定监测到的所述目标业务指标满足异常条件时,依据追踪trace数据确定各网元的异常分数;
构建单元630,用于依据所述各网元的异常分数构建待查异常网元列表;
第二确定单元640,用于分别对所述待查异常网元列表中各待查异常网元的关键性监控数据KPI指标进行异常检测,以确定所述各待查异常网元的各KPI指标的异常分数;
定位单元650,用于依据所述各待查异常网元的异常分数,以及所述各待查异常网元的各KPI指标的异常分数,定位异常根因。
在一些实施例中,所述目标业务指标包括服务响应时间和请求成功率;
所述异常条件,包括:
服务响应时间大于预设时间阈值,或/和,请求成功率低于预设成功率阈值。
在一些实施例中,所述第一确定单元620依据trace数据确定各网元的异常分数,包括:
对于任一网元,依据目标统计周期内的trace数据,分别确定各网元对该网元进行调用的elapsedTime;
依据各网元对该网元进行调用的elapsedTime,确定各网元对该网元进行调用的异常分数;
依据所述各网元对该网元进行调用的异常分数,确定该网元的异常分数。
在一些实施例中,该网元的异常分数为所述各网元对该网元进行调用的异常分数的中位值。
在一些实施例中,所述构建单元630依据所述各网元的异常分数构建待查异常网元列表,包括:
对所述各网元的异常分数按照从高到低的顺序排序;
以排序靠前的n个网元作为待查异常网元,构建待查异常网元列表,n为正整数。
在一些实施例中,所述构建单元630依据所述各网元的异常分数构建待查异常网元列表之后,还包括:
依据所述目标统计周期内的trace数据,确定各网元在所述目标统计周期内的请求失败率;
为请求失败率高于预设失败率阈值的网元设置缺省异常分数,并加入所述待查异常网元列表。
在一些实施例中,所述第二确定单元640分别对所述待查异常网元列表中各待查异常网元的KPI指标进行异常检测,以确定所述各待查异常网元的各KPI指标的异常分数,包括:
对于任一待查异常网元的任一KPI指标,依据该KPI指标的标准分数,以及该KPI指标的优先级对应的权重,确定该KPI指标的异常分数。
在一些实施例中,所述定位单元650依据所述各待查异常网元的异常分数,以及所述各待查异常网元的各KPI指标的异常分数,定位异常根因,包括:
对于任一待查异常网元,将该待查异常网元与该网元各KPI指标的异常分数的总和,确定为该异常网元的最终的异常分数;
依据各网元最终的异常分数,按照肘部法则,定位异常根因。
对应地,本发明还提供了图6所示装置的硬件结构。参见图7,该硬件结构可包括:处理器和机器可读存储介质,机器可读存储介质存储有能够被所述处理器执行的机器可执行指令;所述处理器用于执行机器可执行指令,以实现本发明上述示例公开的方法。
基于与上述方法同样的发明构思,本发明实施例还提供一种机器可读存储介质,所述机器可读存储介质上存储有若干计算机指令,所述计算机指令被处理器执行时,能够实现本发明上述示例公开的方法。
示例性的,上述机器可读存储介质可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,机器可读存储介质可以是:RAM(Radom Access Memory,随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等),或者类似的存储介质,或者它们的组合。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
由上述实施例可见,通过对目标业务指标进行监测,并确定监测到的目标业务指标是否满足异常条件,当确定监测到的所述目标业务指标满足异常条件时,依据trace数据确定各网元的异常分数,依据各网元的异常分数构建待查异常网元列表,分别对待查异常网元列表中各待查异常网元的关键性监控数据KPI指标进行异常检测,以确定各待查异常网元的各KPI指标的异常分数,进而,依据各待查异常网元的异常分数,以及各待查异常网元的各KPI指标的异常分数,定位异常根因,提高了异常根因定位的效率和准确率。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本公开旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (13)

1.一种异常根因定位方法,其特征在于,包括:
对目标业务指标进行监测,并确定监测到的所述目标业务指标是否满足异常条件;
当确定监测到的所述目标业务指标满足异常条件时,依据追踪trace数据确定各网元的异常分数;
依据所述各网元的异常分数构建待查异常网元列表;
分别对所述待查异常网元列表中各待查异常网元的关键性监控数据KPI指标进行异常检测,以确定所述各待查异常网元的各KPI指标的异常分数;
依据所述各待查异常网元的异常分数,以及所述各待查异常网元的各KPI指标的异常分数,定位异常根因。
2.根据权利要求1所述的方法,其特征在于,所述目标业务指标包括服务响应时间和请求成功率;
所述异常条件,包括:
服务响应时间大于预设时间阈值,或/和,请求成功率低于预设成功率阈值。
3.根据权利要求1所述的方法,其特征在于,所述依据trace数据确定各网元的异常分数,包括:
对于任一网元,依据目标统计周期内的trace数据,分别确定各网元对该网元进行调用的响应时间elapsedTime;
依据各网元对该网元进行调用的elapsedTime,确定各网元对该网元进行调用的异常分数;
依据所述各网元对该网元进行调用的异常分数,确定该网元的异常分数。
4.根据权利要求3所述的方法,其特征在于,该网元的异常分数为所述各网元对该网元进行调用的异常分数的中位值。
5.根据权利要求3所述的方法,其特征在于,所述依据所述各网元的异常分数构建待查异常网元列表,包括:
对所述各网元的异常分数按照从高到低的顺序排序;
以排序靠前的n个网元作为待查异常网元,构建待查异常网元列表,n为正整数。
6.根据权利要求3所述的方法,其特征在于,所述依据所述各网元的异常分数构建待查异常网元列表之后,还包括:
依据所述目标统计周期内的trace数据,确定各网元在所述目标统计周期内的请求失败率;
为请求失败率高于预设失败率阈值的网元设置缺省异常分数,并加入所述待查异常网元列表。
7.根据权利要求1所述的方法,其特征在于,所述分别对所述待查异常网元列表中各待查异常网元的KPI指标进行异常检测,以确定所述各待查异常网元的各KPI指标的异常分数,包括:
对于任一待查异常网元的任一KPI指标,依据该KPI指标的标准分数,以及该KPI指标的优先级对应的权重,确定该KPI指标的异常分数。
8.根据权利要求1所述的方法,其特征在于,所述依据所述各待查异常网元的异常分数,以及所述各待查异常网元的各KPI指标的异常分数,定位异常根因,包括:
对于任一待查异常网元,将该待查异常网元与该网元各KPI指标的异常分数的总和,确定为该异常网元的最终的异常分数;
依据各网元最终的异常分数,按照肘部法则,定位异常根因。
9.一种异常根因定位装置,其特征在于,包括:
监测单元,用于对目标业务指标进行监测,并确定监测到的所述目标业务指标是否满足异常条件;
第一确定单元,用于当确定监测到的所述目标业务指标满足异常条件时,依据追踪trace数据确定各网元的异常分数;
构建单元,用于依据所述各网元的异常分数构建待查异常网元列表;
第二确定单元,用于分别对所述待查异常网元列表中各待查异常网元的关键性监控数据KPI指标进行异常检测,以确定所述各待查异常网元的各KPI指标的异常分数;
定位单元,用于依据所述各待查异常网元的异常分数,以及所述各待查异常网元的各KPI指标的异常分数,定位异常根因。
10.根据权利要求9所述的装置,其特征在于,所述第一确定单元依据trace数据确定各网元的异常分数,包括:
对于任一网元,依据目标统计周期内的trace数据,分别确定各网元对该网元进行调用的响应时间elapsedTime;
依据各网元对该网元进行调用的elapsedTime,确定各网元对该网元进行调用的异常分数;
依据所述各网元对该网元进行调用的异常分数,确定该网元的异常分数。
11.根据权利要求10所述的装置,其特征在于,所述构建单元依据所述各网元的异常分数构建待查异常网元列表之后,还包括:
依据所述目标统计周期内的trace数据,确定各网元在所述目标统计周期内的请求失败率;
为请求失败率高于预设失败率阈值的网元设置缺省异常分数,并加入所述待查异常网元列表。
12.根据权利要求9所述的装置,其特征在于,所述第二确定单元分别对所述待查异常网元列表中各待查异常网元的KPI指标进行异常检测,以确定所述各待查异常网元的各KPI指标的异常分数,包括:
对于任一待查异常网元的任一KPI指标,依据该KPI指标的标准分数,以及该KPI指标的优先级对应的权重,确定该KPI指标的异常分数。
13.根据权利要求9所述的装置,其特征在于,所述定位单元依据所述各待查异常网元的异常分数,以及所述各待查异常网元的各KPI指标的异常分数,定位异常根因,包括:
对于任一待查异常网元,将该待查异常网元与该网元各KPI指标的异常分数的总和,确定为该异常网元的最终的异常分数;
依据各网元最终的异常分数,按照肘部法则,定位异常根因。
CN202011386756.6A 2020-12-01 2020-12-01 一种异常根因定位方法及装置 Active CN112532455B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011386756.6A CN112532455B (zh) 2020-12-01 2020-12-01 一种异常根因定位方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011386756.6A CN112532455B (zh) 2020-12-01 2020-12-01 一种异常根因定位方法及装置

Publications (2)

Publication Number Publication Date
CN112532455A CN112532455A (zh) 2021-03-19
CN112532455B true CN112532455B (zh) 2022-07-29

Family

ID=74996004

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011386756.6A Active CN112532455B (zh) 2020-12-01 2020-12-01 一种异常根因定位方法及装置

Country Status (1)

Country Link
CN (1) CN112532455B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113282635B (zh) * 2021-04-12 2023-11-24 国电南瑞科技股份有限公司 一种微服务系统故障根因定位方法及装置
CN113032227B (zh) * 2021-05-31 2021-12-07 北京宝兰德软件股份有限公司 一种异常网元检测方法、装置、电子设备及存储介质
CN115941545B (zh) * 2022-10-14 2023-06-23 华能信息技术有限公司 一种基于微服务的日志管理方法及平台

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103368776A (zh) * 2013-07-09 2013-10-23 杭州东方通信软件技术有限公司 一种通过标准化体检对设备状态进行评估的方法及系统
CN103580898A (zh) * 2012-08-01 2014-02-12 华为技术有限公司 网络协调方法和装置
CN108737206A (zh) * 2017-04-24 2018-11-02 中兴通讯股份有限公司 网络通道的选路方法、装置及其计算机设备
CN110955575A (zh) * 2019-11-14 2020-04-03 国网浙江省电力有限公司信息通信分公司 一种基于关联分析模型的业务系统故障定位方法
CN111565118A (zh) * 2020-04-17 2020-08-21 烽火通信科技股份有限公司 基于多观测维度hmm的虚拟化网元故障分析方法及系统
CN111597070A (zh) * 2020-07-27 2020-08-28 北京必示科技有限公司 一种故障定位方法、装置、电子设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106792864B (zh) * 2012-01-20 2020-03-31 华为技术有限公司 网元状态的处理方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103580898A (zh) * 2012-08-01 2014-02-12 华为技术有限公司 网络协调方法和装置
CN103368776A (zh) * 2013-07-09 2013-10-23 杭州东方通信软件技术有限公司 一种通过标准化体检对设备状态进行评估的方法及系统
CN108737206A (zh) * 2017-04-24 2018-11-02 中兴通讯股份有限公司 网络通道的选路方法、装置及其计算机设备
CN110955575A (zh) * 2019-11-14 2020-04-03 国网浙江省电力有限公司信息通信分公司 一种基于关联分析模型的业务系统故障定位方法
CN111565118A (zh) * 2020-04-17 2020-08-21 烽火通信科技股份有限公司 基于多观测维度hmm的虚拟化网元故障分析方法及系统
CN111597070A (zh) * 2020-07-27 2020-08-28 北京必示科技有限公司 一种故障定位方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN112532455A (zh) 2021-03-19

Similar Documents

Publication Publication Date Title
CN112532455B (zh) 一种异常根因定位方法及装置
US9298525B2 (en) Adaptive fault diagnosis
AU2017274576B2 (en) Classification of log data
US8516499B2 (en) Assistance in performing action responsive to detected event
US20160055044A1 (en) Fault analysis method, fault analysis system, and storage medium
CN110457175B (zh) 业务数据处理方法、装置、电子设备及介质
CN111078513A (zh) 日志处理方法、装置、设备、存储介质及日志告警系统
US11777982B1 (en) Multidimensional security situation real-time representation method and system and applicable to network security
CN112540887A (zh) 故障演练方法、装置、电子设备及存储介质
JP2019057139A (ja) 運用管理システム、監視サーバ、方法およびプログラム
CN112632609A (zh) 异常检测方法、装置、电子设备及存储介质
CN112685207A (zh) 错误评估的方法、设备和计算机程序产品
CN116010220A (zh) 一种告警诊断方法、装置、设备及存储介质
CN111367782B (zh) 回归测试数据自动生成的方法及装置
CN110543462A (zh) 微服务可靠性预测方法、预测装置、电子设备及存储介质
CN111258788B (zh) 磁盘故障预测方法、装置及计算机可读存储介质
CN111367781B (zh) 一种实例处理方法及其装置
US20180052728A1 (en) Root cause candidate determination in multiple process systems
AU2014200806B1 (en) Adaptive fault diagnosis
WO2024027127A1 (zh) 故障检测方法、装置、电子设备及可读存储介质
US11929867B1 (en) Degradation engine execution triggering alerts for outages
CN113239236B (zh) 视频处理方法、装置、电子设备及存储介质
EP4380122A1 (en) Monitoring service health statuses to raise alerts
CN110221971B (zh) 搜索引擎的测试方法及装置、电子设备、存储介质
CN109474445B (zh) 一种分布式系统根源故障定位方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant