CN112346936A - 应用故障根因定位方法及系统 - Google Patents
应用故障根因定位方法及系统 Download PDFInfo
- Publication number
- CN112346936A CN112346936A CN202011353855.4A CN202011353855A CN112346936A CN 112346936 A CN112346936 A CN 112346936A CN 202011353855 A CN202011353855 A CN 202011353855A CN 112346936 A CN112346936 A CN 112346936A
- Authority
- CN
- China
- Prior art keywords
- node
- root cause
- score
- application
- index data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000012549 training Methods 0.000 claims abstract description 17
- 238000012544 monitoring process Methods 0.000 claims description 56
- 238000003860 storage Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 230000004807 localization Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 17
- 238000004891 communication Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 10
- 230000004044 response Effects 0.000 description 8
- 230000036541 health Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 239000000872 buffer Substances 0.000 description 4
- 238000013500 data storage Methods 0.000 description 4
- 238000012827 research and development Methods 0.000 description 4
- YHXISWVBGDMDLQ-UHFFFAOYSA-N moclobemide Chemical compound C1=CC(Cl)=CC=C1C(=O)NCCN1CCOCC1 YHXISWVBGDMDLQ-UHFFFAOYSA-N 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000010223 real-time analysis Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 238000013024 troubleshooting Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3058—Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/32—Monitoring with visual or acoustical indication of the functioning of the machine
- G06F11/324—Display of status information
- G06F11/327—Alarm or error message display
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3447—Performance evaluation by modeling
Abstract
本申请提供了一种应用故障根因定位方法及系统,可用于金融领域或其他领域,该方法包括:获取目标应用对应的各个节点的指标数据组;应用预设的基线拟合模型、评分准则、权重值组和所述指标数据组,确定各个节点各自的根因定位评分,其中,所述基线拟合模型是基于整合移动平均自回归模型预先训练得到的;根据每个节点的根因定位评分,确定所述目标应用的故障根因节点。本申请能够提高应用故障根因定位的精度和效率,进而能够提高应用的可靠性。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种应用故障根因定位方法及系统。
背景技术
随着互联网技术和金融科技的发展,网上交易越来越频繁,交易的金额也在不断增大,网上交易给人民带来便利的同时,伴随而来的交易问题也越来越多,并且由于不同类型节点间的调用关系也变得更加错综复杂,一旦某一环节出现故障或性能瓶颈,对简单问题的排查通常要跨多个平台和团队,使得问题分析、定位的效率大大降低,故障影响大大增加,因此,互联网金融时代对故障定位提出了更高的要求。
当前故障根因定位主要还是以人为分析的方式,研发人员在故障发生后,从多个监控平台获取日志数据、监控信息和链路信息等应用运行数据,然后根据报警信息从大量的应用运行数据中比对分析出问题的可能节点。这种方式一方面需要从海量报警信息中筛选出有效报警,另一方面根据筛选出的有效报警从应用运行数据中找出导致问题的根因需要研发人员耗费大量的时间去分析和定位,导致问题定位、解决的效率低下。
发明内容
针对现有技术中的问题,本申请提出了一种应用故障根因定位方法及系统,能够提高应用故障根因定位的精度和效率,进而能够提高应用的可靠性。
为了解决上述技术问题,本申请提供以下技术方案:
第一方面,本申请提供一种应用故障根因定位方法,包括:
获取目标应用对应的各个节点的指标数据组;
应用预设的基线拟合模型、评分准则、权重值组和所述指标数据组,确定每个节点的根因定位评分,其中,所述基线拟合模型是基于整合移动平均自回归模型预先训练得到的;
根据每个节点的根因定位评分,确定所述目标应用的故障根因节点。
进一步地,所述根据每个节点的根因定位评分,确定所述目标应用的故障根因节点,包括:
将最终分数最低的节点确定为所述目标应用的故障根因节点;
其中,每个节点的最终分数为该节点和该节点的子节点的根因定位评分的总和。
进一步地,每组所述指标数据组包括:性能指标数据和监控指标数据;所述预设的评分准则包括:第一评分标准和第二评分标准;
相对应的,所述应用预设的基线拟合模型、评分准则、权重值组和所述指标数据组,确定每个节点的根因定位评分,包括:
应用所述预设的基线拟合模型、第一评分标准和每个节点的性能指标数据,得到该节点的性能指标分数;
应用所述第二评分标准和每个节点的监控指标数据,得到该节点的监控指标分数;
应用所述预设的权重值组、性能指标分数和监控指标分数,得到每个节点的根因定位评分。
进一步地,所述应用所述预设的基线拟合模型、第一评分标准和每个节点的性能指标数据,得到该节点的性能指标分数,包括:
应用所述预设的基线拟合模型和每个节点的性能指标数据,得到该节点的性能指标预测值;
根据所述第一评分标准和每个节点的性能指标预测值,得到该节点的性能指标分数。
进一步地,在所述根据所述第一评分标准和每个节点的性能指标预测值,得到该节点的性能指标分数之前,还包括:
根据所有节点的性能指标预测值对应的标准差和均值,确定所述第一评分标准。
进一步地,所述的应用故障根因定位方法,还包括:
应用多组历史指标数据组和多项式拟合算法,得到所述权重值组。
进一步地,在所述根据每个节点的根因定位评分,确定所述目标应用的故障根因节点之后,还包括:
将所述故障根因节点和对应的子节点以拓扑图的形式输出显示。
第二方面,本申请提供一种应用故障根因定位系统,包括:
获取模块,用于获取目标应用对应的各个节点的指标数据组;
加权求和模块,用于应用预设的基线拟合模型、评分准则、权重值组和所述指标数据组,确定每个节点的根因定位评分,其中,所述基线拟合模型是基于整合移动平均自回归模型预先训练得到的;
确定模块,用于根据每个节点的根因定位评分,确定所述目标应用的故障根因节点。
第三方面,本申请提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的应用故障根因定位方法。
第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现所述的应用故障根因定位方法。
由上述技术方案可知,本申请提供一种应用故障根因定位方法及系统。其中,该方法包括:获取目标应用对应的各个节点的指标数据组;应用预设的基线拟合模型、评分准则、权重值组和所述指标数据组,确定每个节点的根因定位评分,其中,所述基线拟合模型是基于整合移动平均自回归模型预先训练得到的;根据每个节点的根因定位评分,确定所述目标应用的故障根因节点,能够提高应用故障根因定位的精度和效率,进而能够提高应用的可靠性;能够解决目前应用故障根因定位依赖于研发人员人工分析的方法耗时长、效率低的问题,其优点具体如下:可以自动实时获取监控数据和性能指标数据,并基于这些数据进行智能根因定位,能够避免数据在不同团队中传递导致延时高,并且基于历史数据的智能模型提供多个候选故障根因点,根因定位准确度高;使用的模型复杂度低,根因定位时间快。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例中应用故障根因定位方法的流程示意图;
图2是本申请另一实施例中应用故障根因定位方法的流程示意图;
图3是本申请实施例中应用故障根因定位系统的结构示意图;
图4是本申请应用实例中应用故障根因定位方法的流程示意图;
图5为本申请实施例的电子设备的系统构成示意框图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了提高应用故障根因定位的精度和效率,进而提高应用的可靠性,本申请实施例提供一种应用故障根因定位系统,该装置可以是一服务器或客户端设备,所述客户端设备可以包括智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(PDA)、车载设备和智能穿戴设备等。其中,所述智能穿戴设备可以包括智能眼镜、智能手表和智能手环等。
在实际应用中,进行应用故障根因定位的部分可以在如上述内容所述的服务器侧执行,也可以所有的操作都在所述客户端设备中完成。具体可以根据所述客户端设备的处理能力,以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备中完成,所述客户端设备还可以包括处理器。
上述的客户端设备可以具有通信模块(即通信单元),可以与远程的服务器进行通信连接,实现与所述服务器的数据传输。所述服务器可以包括任务调度中心一侧的服务器,其他的实施场景中也可以包括中间平台的服务器,例如与任务调度中心服务器有通信链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备,也可以包括多个服务器组成的服务器集群,或者分布式装置的服务器结构。
所述服务器与所述客户端设备之间可以使用任何合适的网络协议进行通信,包括在本申请提交日尚未开发出的网络协议。所述网络协议例如可以包括TCP/IP协议、UDP/IP协议、HTTP协议、HTTPS协议等。当然,所述网络协议例如还可以包括在上述协议之上使用的RPC协议(Remote Procedure Call Protocol,远程过程调用协议)、REST协议(Representational State Transfer,表述性状态转移协议)等。
需要说明的是,本申请公开的应用故障根因定位方法及系统可用于金融技术领域,也可用于除金融技术领域之外的任意领域,本申请公开的应用故障根因定位方法及系统的应用领域不做限定。
具体通过下述各个实施例进行说明。
为了提高应用故障根因定位的精度和效率,进而提高应用的可靠性,本实施例提供一种执行主体是应用故障根因定位系统的应用故障根因定位方法,该应用故障根因定位系统包括但不限于服务器,如图1所示,该方法具体包含有如下内容:
步骤101:获取目标应用对应的各个节点的指标数据组。
具体地,可以在接收到前端发送的故障根因定位触发指令后,获取目标应用对应的各个节点的指标数据组;所述指标数据组可以包含有性能指标数据和监控指标数据;性能指标数据可以是一种或多种,例如,CPU使用率、内存使用率、磁盘使用率和响应时间等,监控指标数据可以是一种或多种,例如,监控有效报警数、监控报警级别、网络超时数和访问是否成功等;本申请中的节点可以是指部署链路的各个节点;所述目标应用可以是一种分布式应用。
步骤102:应用预设的基线拟合模型、评分准则、权重值组和所述指标数据组,确定每个节点的根因定位评分,其中,所述基线拟合模型是基于整合移动平均自回归模型预先训练得到的。
具体地,每个节点的根因定位评分可以是对应用预设的基线拟合模型、评分准则和该节点的指标数据组得到的性能指标分数和监控指标分数进行加权求和计算后得到的分数;整合移动平均自回归模型即ARIMA模型,用于对时间序列数据进行分析和预测。
步骤103:根据每个节点的根因定位评分,确定所述目标应用的故障根因节点。
由上述描述可知,本实施例提供的应用故障根因定位方法,通过获取目标应用对应的各个节点的指标数据组;应用预设的基线拟合模型、评分准则、权重值组和所述指标数据组,确定每个节点的根因定位评分,其中,所述基线拟合模型是基于整合移动平均自回归模型预先训练得到的;根据每个节点的根因定位评分,确定所述目标应用的故障根因节点,应用的基线拟合模型复杂度低,智能化程度高,能够提高应用故障根因定位的精度和效率,进而提高应用的可靠性。
为了进一步提高故障根因定位的准确性,在本申请一个实施例中,步骤103包括:
步骤201:将最终分数最低的节点确定为所述目标应用的故障根因节点;其中,每个节点的最终分数为该节点和该节点的子节点的根因定位评分的总和。
具体地,可以将最终分数最低的多个节点确定为故障根因节点;每个节点的最终分数可以为该节点的根因定位评分以及该节点的各个子节点各自的根因定位评分进行求和后的结果;所述最终分数可以相当于节点的健康度。
为了进一步降低故障根因定位的复杂度,提高故障根因定位的效率和准确性,在本申请一个实施例中,每组所述指标数据组包括:性能指标数据和监控指标数据;所述预设的评分准则包括:第一评分标准和第二评分标准;相对应的,参见图2,步骤102包括:
步骤301:应用所述预设的基线拟合模型、第一评分标准和每个节点的性能指标数据,得到该节点的性能指标分数。
具体地,所述第一评分标准用于确定每个节点的性能指标分数;每个节点可以有一种或多种性能指标数据,例如,当前的CPU使用率、内存使用率、磁盘使用率和响应时间等,或者预设时间窗口内CPU使用率、内存使用率、磁盘使用率和响应时间各自的平均值;每个节点的性能指标分数和性能指标数据的种类一一对应。
步骤302:应用所述第二评分标准和每个节点的监控指标数据,得到该节点的监控指标分数。
具体地,所述第二评分标准用于确定每个节点的监控指标分数,可以包含有预设的监控指标数据和监控指标分数之间的对应关系,可根据实际需要进行设置,本申请对比不作限制;每个节点可以有一种或多种监控指标数据,例如,预设时间窗口内的监控有效报警数、监控报警级别、网络超时数、访问是否成功等,可以是当前时间点前的一分钟内;每个节点的监控指标分数和监控指标数据的种类一一对应,由于一个节点可能有多个种类相同的监控指标数据,可以对同一节点中种类相同的监控指标数据对应的分数求平均值,作为该节点中该类监控指标数据对应的监控指标分数。
举例来说,第二评分标准可以包括:对监控有效报警数根据相同时间窗口不同的报警数量级赋予不同的分数即监控指标分数,0个100分,1个80分,2-5个60分,5-10个50分,10个以上0分;监控报警级别可以是应用预先设定的,正常的应用报警都是分级的,对不同的报警级别赋予不同的分数,轻微级别90分,较轻级别80分,一般级别70分,较严重50分,很严重0分,若相同时间窗口报警多次,则将监控报警级别分数的平均值作为对应的监控指标分数;网络超时数根据相同时间窗口超时数量级赋予不同的分数即监控指标分数,0个100分,1个90分,2-5个60分,5-10个50分,10个以上0分;访问是否成功,成功100分,不成功0分,若相同时间窗口内多次访问,则将分数平均值作为对应的监控指标分数。
步骤303:应用所述预设的权重值组、性能指标分数和监控指标分数,得到每个节点的根因定位评分。
具体地,可以应用所述预设的权重值组、每个节点的性能指标分数和监控指标分数进行加权求和,得到该节点的根因定位评分。
为了高效且准确性获取性能指标分数,进而应用可靠的性能指标分数确定故障根因节点,在本申请一个实施例中,步骤301包括:
步骤401:应用所述预设的基线拟合模型和每个节点的性能指标数据,得到该节点的性能指标预测值。
具体地,在步骤301之前还可以应用预设时间范围内的历史性能指标数据对整合移动平均自回归模型进行训练,得到所述基线拟合模型,预设时间范围可根据需要进行设定,如一个月内;可以将性能指标数据输入到所述预设的基线拟合模型,将该基线拟合模型的输出结果作为该节点的性能指标预测值;每个节点的性能指标预测值和性能指标数据的个数相同,并且一一对应。
步骤402:根据所述第一评分标准和每个节点的性能指标预测值,得到该节点的性能指标分数。
具体地,在步骤402之前,还包括:
步骤501:根据所有节点的性能指标预测值对应的标准差和均值,确定所述第一评分标准。
具体地,可以根据标准差sigma和均值Vpred,确定第一评分标准:性能指标预测值在Vpred-sigma到Vpred+sigma范围内为100分,在Vpred-2sigma到Vpred+2sigma范围内为80分,在Vpred-3sigma到Vpred+3sigma范围内为60分,在Vpred-3sigma到Vpred+3sigma范围外的为0分。若有每个节点有多种性能指标预测值,则可以分别计算每种性能指标预测值对应的标准差和均值,确定所述第一评分标准。
为了提高权重值组的准确性,进而提高故障根因定位的准确性,在本申请一个实施例中,在步骤102之前,还包括:
步骤601:应用多组历史指标数据组和多项式拟合算法,得到所述权重值组。
具体地,若有多类性能指标数据和监控指标数据,则权重值组可以包含有各类性能指标数据和监控指标数据各自的权重值。
为了提高故障根因定位的可视化程度,便于接下来故障根因节点处理,在本申请一个实施例中,在步骤103之后,还包括:
步骤701:将所述故障根因节点和对应的子节点以拓扑图的形式输出显示。
为了进一步说明本方案,本申请还提供一种应用故障根因定位方法的应用实例,具体描述如下:
步骤1:本发明节点指部署链路各节点,部署链路中的节点可以设有多层子节点关系,从云计算角度出发,节点包括应用、集群、模板、容器、虚拟机、物理机,应用服务包括操作数据库、和其他应用节点交互等,分析历史日志,历史日志包括很多指标数据,比如CPU使用率、监控有效报警数、监控报警级别、内存使用率、磁盘使用率、网络超时数、响应时间和访问是否成功,针对应用的各个节点和服务选取具有表征意义的字段作为特征值,节点的特征选取可以包括:CPU使用率、监控有效报警数、监控报警级别、内存使用率、磁盘使用率和网络超时数等,应用服务节点选取的特征可以包括:访问响应时间和访问是否成功等。
步骤2:利用人工智能算法ARIMA对CPU使用率、内存使用率、磁盘使用率、响应时间等特征进行训练,可以选用一个月数据作为训练数据,建立针对这些特征的基线拟合模型,该基线拟合模型可以用于对各个指标进行异常检测,用于将预测指标和实时指标进行比对。
步骤3:根据历史数据,对监控有效报警数、监控报警级别、网络超时数、访问是否成功等特征字段的分数进行拟合训练,应用多项式拟合,获取各个指标权重,即应用历史数据来拟合得到一个公式。
具体地,监控有效报警数根据相同时间窗口不同的报警数量级赋予不同的分数,0个100分,1个80分,2-5个60分,5-10个50分,10个以上0分;监控报警级别,报警级别是应用自己设置的,正常的应用报警都是分级的,轻微级别90分,较轻级别80分,一般级别70分,较严重50分,很严重0分;网络超时数根据相同时间窗口超时数量级赋予不同的分数,0个100分,1个90分,2-5个60分,5-10个50分,10个以上0分;访问是否成功,相同时间窗口多次访问,求平均值,成功100分,不成功0分。
步骤4:CPU使用率、内存使用率、磁盘使用率、响应时间等特征在ARIMA算法预测的基础上上溢和下浮一定数量的sigma值即标准差,来评价每个指标分数,在Vpred-sigma到Vpred+sigma范围内为100分,在Vpred-2sigma到Vpred+2sigma范围内为80分,在Vpred-3sigma到Vpred+3sigma范围内为60分,在Vpred-3sigma到Vpred+3sigma范围外的为0分。
步骤5:基于以上步骤和一个月的历史数据,利用多项式加权拟合各特征的权重,各节点的分值等于该节点各子节点及其涉及的服务(节点有子节点,也有调用其他服务)的加权和。
步骤6:基于以上步骤和一个月的历史数据,利用多项式算法拟合各节点特征的权重,当触发根因定位分析功能的时候,本研究建立的根因定位系统会接收报警,从而触发执行该定位系统,该系统会去获取该应用的实时监控和指标数据进行分析,分析该应用部署节点上各节点的加权和,分数越低表示越不健康,越异常,最后把最小加权分链路上各节点,和服务展示出来供应用参考。
由上述描述可知,为解决应用故障根因定位依赖于研发人员人工分析的方法耗时长、效率低的问题,本应用实例提供的应用故障根因定位方法,基于应用节点监控数据和日志数据,利用人工智能算法对应用各节点和服务进行健康度评价,并基于各节点和服务对应用整体贡献度实现每个节点和服务的权重的训练,利用加权健康度实现故障根因定位,能够提高应用故障根因定位的精度和效率,进而能够提高应用的可靠性。
从软件层面来说,为了提高应用故障根因定位的精度和效率,进而提高应用的可靠性,本申请提供一种用于实现所述应用故障根因定位方法中全部或部分内容的应用故障根因定位系统的实施例,参见图3,所述应用故障根因定位系统具体包含有如下内容:
获取模块10,用于获取目标应用对应的各个节点的指标数据组;
加权求和模块20,用于应用预设的基线拟合模型、评分准则、权重值组和所述指标数据组,确定每个节点的根因定位评分,其中,所述基线拟合模型是基于整合移动平均自回归模型预先训练得到的;
确定模块30,用于根据每个节点的根因定位评分,确定所述目标应用的故障根因节点。
本说明书提供的应用故障根因定位系统的实施例具体可以用于执行上述应用故障根因定位方法的实施例的处理流程,其功能在此不再赘述,可以参照上述应用故障根因定位方法实施例的详细描述。
为了进一步说明本方案,本申请还提供一种应用故障根因定位系统的应用实例,在该应用实例中,该应用故障根因定位系统包括:数据收集模块、离线建模分析模块、在线实时分析模块、数据存储模块、平台展示模块五个部分,具体描述如下:
数据收集模块和数据存储模块,可以应用SpringBoot工程开发,制作成镜像部署在一个K8s集群实时运行,用于从Kafka分布式发布订阅消息系统实时获取监控和指标数据,经过数据清洗和预处理后存入ElasticSearch搜索服务器中,同时该应用故障根因定位系统会实时从报警系统中获取报警数据,当获取到报警信息时会自动触发故障根因定位系统。
离线建模分析模块,主要基于机器学习算法,利用一个月的存量数据进行模型的训练和权重的训练,构建动态的智能故障定位模型,该智能故障定位模型实现的功能可以相当于上述应用多项式拟合得到的公式和基线拟合模型实现的功能。
在线实故障根因定位模块,在接收到报警信息时,会从ElasticSearch中获取模型需要的训练数据,该数据可以为一个月数据,包括监控数据、指标数据,将获取的数据经过预处理和特征处理后传到模型进行预测,同时从数据库中获取各特征值在离线训练时训练好的权重值,相当于上述应用多项式拟合得到的公式中的权重值,然后计算各特征值的加权和,利用加权和计算各父节点的健康度,并存入ElasticSearch中。
数据存储模块,用于实现元数据和各节点健康度值的存储,包括应用、集群、模板、容器、虚拟机、物理机,应用服务等节点,涉及到节点的特征包括CPU使用率、监控有效报警数、监控报警级别、内存使用率、磁盘使用率、网络超时数等,应用服务节点的特征包括:访问响应时间、访问是否成功等,元数据保留一个月,定位结果值可以保留一周。
平台展示模块,用于当应用进行前端展示时,在选取好查看的时间段(默认展示最新一条报警所在时间的值),后台代码实时从ElasticSearch中获取应用选择的时间段内的元数据和定位节点以拓扑图的形式展现,红色表示故障节点,绿色表示健康节点,并且用健康度分数标识各节点。
结合上述应用故障根因定位系统,本申请还提供一种应用故障根因定位的应用实例,如图4所示,具体描述如下:
S01:历史数据存储(ElasticSearch);即通过数据采集接口将历史数据存储在ElasticSearch。
S02:模型离线训练。
S03:离线参数存储。
S04:在线数据存储(ElasticSearch);即通过数据采集接口将在线数据存储在ElasticSearch。
S05:在线实时故障根因定位。
S06:报警数据获取。
S07:定位结果存储(ElasticSearch)。
S08:前台展示。
由上述描述可知,本申请提供的应用故障根因定位方法及系统,能够提高应用故障根因定位的精度和效率,进而能够提高应用的可靠性;能够解决目前应用故障根因定位依赖于研发人员人工分析的方法耗时长、效率低的问题,其优点具体如下:可以自动实时获取监控数据和性能指标数据,并基于这些数据进行智能根因定位,避免数据在不同团队中传递导致延时高,且基于历史数据的智能模型提供多个候选故障根因点,根因定位准确度高;使用的模型复杂度低,根因定位时间快。
从硬件层面来说,为了提高应用故障根因定位的精度和效率,进而提高应用的可靠性,本申请提供一种用于实现所述应用故障根因定位方法中的全部或部分内容的电子设备的实施例所述电子设备具体包含有如下内容:
处理器(processor)、存储器(memory)、通信接口(Communications Interface)和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述通信接口用于实现所述应用故障根因定位系统以及用户终端等相关设备之间的信息传输;该电子设备可以是台式计算机、平板电脑及移动终端等,本实施例不限于此。在本实施例中,该电子设备可以参照实施例用于实现所述应用故障根因定位方法的实施例及用于实现所述应用故障根因定位系统的实施例进行实施,其内容被合并于此,重复之处不再赘述。
图5为本申请实施例的电子设备9600的系统构成的示意框图。如图5所示,该电子设备9600可以包括中央处理器9100和存储器9140;存储器9140耦合到中央处理器9100。值得注意的是,该图5是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
在本申请一种或多种实施例中,应用故障根因定位功能可以被集成到中央处理器9100中。其中,中央处理器9100可以被配置为进行如下控制:
步骤101:获取目标应用对应的各个节点的指标数据组。
步骤102:应用预设的基线拟合模型、评分准则、权重值组和所述指标数据组,确定每个节点的根因定位评分,其中,所述基线拟合模型是基于整合移动平均自回归模型预先训练得到的。
步骤103:根据每个节点的根因定位评分,确定所述目标应用的故障根因节点。
从上述描述可知,本申请的实施例提供的电子设备,能够提高应用故障根因定位的精度和效率,进而提高应用的可靠性。
在另一个实施方式中,应用故障根因定位系统可以与中央处理器9100分开配置,例如可以将应用故障根因定位系统配置为与中央处理器9100连接的芯片,通过中央处理器的控制来实现应用故障根因定位功能。
如图5所示,该电子设备9600还可以包括:通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是,电子设备9600也并不是必须要包括图5中所示的所有部件;此外,电子设备9600还可以包括图5中没有示出的部件,可以参考现有技术。
如图5所示,中央处理器9100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。
其中,存储器9140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序,以实现信息存储或处理等。
输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器9140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142,该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。
存储器9140还可以包括数据存储部9143,该数据存储部9143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块9110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132,以经由扬声器9131提供音频输出,并接收来自麦克风9132的音频输入,从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器9130还耦合到中央处理器9100,从而使得可以通过麦克风9132能够在本机上录音,且使得可以通过扬声器9131来播放本机上存储的声音。
上述描述可知,本申请的实施例提供的电子设备,能够提高应用故障根因定位的精度和效率,进而提高应用的可靠性。
本申请的实施例还提供能够实现上述实施例中的应用故障根因定位方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的应用故障根因定位方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
步骤101:获取目标应用对应的各个节点的指标数据组。
步骤102:应用预设的基线拟合模型、评分准则、权重值组和所述指标数据组,确定每个节点的根因定位评分,其中,所述基线拟合模型是基于整合移动平均自回归模型预先训练得到的。
步骤103:根据每个节点的根因定位评分,确定所述目标应用的故障根因节点。
从上述描述可知,本申请实施例提供的计算机可读存储介质,能够提高应用故障根因定位的精度和效率,进而提高应用的可靠性。
本申请中上述方法的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。相关之处参见方法实施例的部分说明即可。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一种或多种其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本申请中应用了具体实施例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种应用故障根因定位方法,其特征在于,包括:
获取目标应用对应的各个节点的指标数据组;
应用预设的基线拟合模型、评分准则、权重值组和所述指标数据组,确定每个节点的根因定位评分,其中,所述基线拟合模型是基于整合移动平均自回归模型预先训练得到的;
根据每个节点的根因定位评分,确定所述目标应用的故障根因节点。
2.根据权利要求1所述的应用故障根因定位方法,其特征在于,所述根据每个节点的根因定位评分,确定所述目标应用的故障根因节点,包括:
将最终分数最低的节点确定为所述目标应用的故障根因节点;
其中,每个节点的最终分数为该节点和该节点的子节点的根因定位评分的总和。
3.根据权利要求1所述的应用故障根因定位方法,其特征在于,每组所述指标数据组包括:性能指标数据和监控指标数据;所述预设的评分准则包括:第一评分标准和第二评分标准;
相对应的,所述应用预设的基线拟合模型、评分准则、权重值组和所述指标数据组,确定每个节点的根因定位评分,包括:
应用所述预设的基线拟合模型、第一评分标准和每个节点的性能指标数据,得到该节点的性能指标分数;
应用所述第二评分标准和每个节点的监控指标数据,得到该节点的监控指标分数;
应用所述预设的权重值组、性能指标分数和监控指标分数,得到每个节点的根因定位评分。
4.根据权利要求3所述的应用故障根因定位方法,其特征在于,所述应用所述预设的基线拟合模型、第一评分标准和每个节点的性能指标数据,得到该节点的性能指标分数,包括:
应用所述预设的基线拟合模型和每个节点的性能指标数据,得到该节点的性能指标预测值;
根据所述第一评分标准和每个节点的性能指标预测值,得到该节点的性能指标分数。
5.根据权利要求4所述的应用故障根因定位方法,其特征在于,在所述根据所述第一评分标准和每个节点的性能指标预测值,得到该节点的性能指标分数之前,还包括:
根据所有节点的性能指标预测值对应的标准差和均值,确定所述第一评分标准。
6.根据权利要求1所述的应用故障根因定位方法,其特征在于,还包括:
应用多组历史指标数据组和多项式拟合算法,得到所述权重值组。
7.根据权利要求1所述的应用故障根因定位方法,其特征在于,在所述根据每个节点的根因定位评分,确定所述目标应用的故障根因节点之后,还包括:
将所述故障根因节点和对应的子节点以拓扑图的形式输出显示。
8.一种应用故障根因定位系统,其特征在于,包括:
获取模块,用于获取目标应用对应的各个节点的指标数据组;
加权求和模块,用于应用预设的基线拟合模型、评分准则、权重值组和所述指标数据组,确定每个节点的根因定位评分,其中,所述基线拟合模型是基于整合移动平均自回归模型预先训练得到的;
确定模块,用于根据每个节点的根因定位评分,确定所述目标应用的故障根因节点。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7任一项所述的应用故障根因定位方法。
10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述指令被执行时实现权利要求1至7任一项所述的应用故障根因定位方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011353855.4A CN112346936A (zh) | 2020-11-27 | 2020-11-27 | 应用故障根因定位方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011353855.4A CN112346936A (zh) | 2020-11-27 | 2020-11-27 | 应用故障根因定位方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112346936A true CN112346936A (zh) | 2021-02-09 |
Family
ID=74364883
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011353855.4A Pending CN112346936A (zh) | 2020-11-27 | 2020-11-27 | 应用故障根因定位方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112346936A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113094284A (zh) * | 2021-04-30 | 2021-07-09 | 中国工商银行股份有限公司 | 应用故障检测方法及装置 |
CN113254254A (zh) * | 2021-07-14 | 2021-08-13 | 南京中兴新软件有限责任公司 | 系统故障的根因定位方法、装置、存储介质及电子装置 |
CN114297172A (zh) * | 2022-01-04 | 2022-04-08 | 北京乐讯科技有限公司 | 一种基于云原生的分布式文件系统 |
CN115277370A (zh) * | 2022-09-23 | 2022-11-01 | 云智慧(北京)科技有限公司 | 一种运维系统的根因节点的确定方法、装置及设备 |
CN115941545A (zh) * | 2022-10-14 | 2023-04-07 | 华能信息技术有限公司 | 一种基于微服务的日志管理方法及平台 |
CN116016201A (zh) * | 2021-11-04 | 2023-04-25 | 贵州电网有限责任公司 | 一种基于业务回溯的异常预警方法 |
CN116701127A (zh) * | 2023-08-09 | 2023-09-05 | 睿至科技集团有限公司 | 一种基于大数据的应用性能监控方法及平台 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180113773A1 (en) * | 2016-10-21 | 2018-04-26 | Accenture Global Solutions Limited | Application monitoring and failure prediction |
CN110166264A (zh) * | 2018-02-11 | 2019-08-23 | 北京三快在线科技有限公司 | 一种故障定位方法、装置及电子设备 |
CN111064614A (zh) * | 2019-12-17 | 2020-04-24 | 腾讯科技(深圳)有限公司 | 一种故障根因定位方法、装置、设备及存储介质 |
-
2020
- 2020-11-27 CN CN202011353855.4A patent/CN112346936A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180113773A1 (en) * | 2016-10-21 | 2018-04-26 | Accenture Global Solutions Limited | Application monitoring and failure prediction |
CN110166264A (zh) * | 2018-02-11 | 2019-08-23 | 北京三快在线科技有限公司 | 一种故障定位方法、装置及电子设备 |
CN111064614A (zh) * | 2019-12-17 | 2020-04-24 | 腾讯科技(深圳)有限公司 | 一种故障根因定位方法、装置、设备及存储介质 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113094284A (zh) * | 2021-04-30 | 2021-07-09 | 中国工商银行股份有限公司 | 应用故障检测方法及装置 |
CN113254254A (zh) * | 2021-07-14 | 2021-08-13 | 南京中兴新软件有限责任公司 | 系统故障的根因定位方法、装置、存储介质及电子装置 |
CN116016201A (zh) * | 2021-11-04 | 2023-04-25 | 贵州电网有限责任公司 | 一种基于业务回溯的异常预警方法 |
CN114297172A (zh) * | 2022-01-04 | 2022-04-08 | 北京乐讯科技有限公司 | 一种基于云原生的分布式文件系统 |
CN114297172B (zh) * | 2022-01-04 | 2022-07-12 | 北京乐讯科技有限公司 | 一种基于云原生的分布式文件系统 |
CN115277370A (zh) * | 2022-09-23 | 2022-11-01 | 云智慧(北京)科技有限公司 | 一种运维系统的根因节点的确定方法、装置及设备 |
CN115277370B (zh) * | 2022-09-23 | 2023-02-03 | 云智慧(北京)科技有限公司 | 一种运维系统的根因节点的确定方法、装置及设备 |
CN115941545A (zh) * | 2022-10-14 | 2023-04-07 | 华能信息技术有限公司 | 一种基于微服务的日志管理方法及平台 |
CN115941545B (zh) * | 2022-10-14 | 2023-06-23 | 华能信息技术有限公司 | 一种基于微服务的日志管理方法及平台 |
CN116701127A (zh) * | 2023-08-09 | 2023-09-05 | 睿至科技集团有限公司 | 一种基于大数据的应用性能监控方法及平台 |
CN116701127B (zh) * | 2023-08-09 | 2023-12-19 | 睿至科技集团有限公司 | 一种基于大数据的应用性能监控方法及平台 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112346936A (zh) | 应用故障根因定位方法及系统 | |
US20170357910A1 (en) | System for iteratively training an artificial intelligence using cloud-based metrics | |
AU2013305922B2 (en) | Hierarchical based sequencing machine learning model | |
US20130111019A1 (en) | User behavior analyzer | |
CN104753985A (zh) | 会话列表显示方法和装置 | |
CN111861569A (zh) | 产品信息推荐方法及装置 | |
CN113094284A (zh) | 应用故障检测方法及装置 | |
CN112579909A (zh) | 对象推荐方法及装置、计算机设备和介质 | |
US20190139063A1 (en) | Methodology of analyzing incidence and behavior of customer personas among users of digital environments | |
US20150324844A1 (en) | Advertising marketplace systems and methods | |
CN111768305A (zh) | 反洗钱识别方法及装置 | |
CN112232947A (zh) | 贷中风险预测方法及装置 | |
CN113760674A (zh) | 信息生成方法、装置、电子设备和计算机可读介质 | |
CN114328132A (zh) | 外部数据源的状态监控方法、装置、设备和介质 | |
CN107256231B (zh) | 一种团队成员识别设备、方法及系统 | |
CN115202847A (zh) | 任务的调度方法和装置 | |
US11470167B2 (en) | Method and apparatus for generating information | |
CN113485993A (zh) | 数据识别方法以及装置 | |
CN111046156B (zh) | 奖励数据的确定方法、装置和服务器 | |
CN112927017A (zh) | 外呼营销流程的控制方法、装置及系统 | |
US10783449B2 (en) | Continual learning in slowly-varying environments | |
CN105610698B (zh) | 事件结果的处理方法和装置 | |
CN110399409B (zh) | 交易异常监测方法及装置 | |
CN112764957A (zh) | 应用故障定界方法及装置 | |
CN113742593A (zh) | 用于推送信息的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |