CN114356703A - 一种根因分析方法及装置 - Google Patents

一种根因分析方法及装置 Download PDF

Info

Publication number
CN114356703A
CN114356703A CN202111612126.0A CN202111612126A CN114356703A CN 114356703 A CN114356703 A CN 114356703A CN 202111612126 A CN202111612126 A CN 202111612126A CN 114356703 A CN114356703 A CN 114356703A
Authority
CN
China
Prior art keywords
server node
abnormal
data
root cause
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111612126.0A
Other languages
English (en)
Inventor
徐洪鸣
张俊卿
刘雨晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Travelsky Technology Co Ltd
Original Assignee
China Travelsky Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Travelsky Technology Co Ltd filed Critical China Travelsky Technology Co Ltd
Priority to CN202111612126.0A priority Critical patent/CN114356703A/zh
Publication of CN114356703A publication Critical patent/CN114356703A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种根因分析方法及装置,在启用单节点根因算法模式的情况下,计算异常服务器节点在报警时间段内的其它数据指标与异常数据指标之间的相关概率并将其进行展示。在启用多指标根因算法模式的情况下,利用异常服务器节点在报警时间段内的多个第一数据指标及其它服务器节点在报警时间段内的多个第二数据指标,对异常服务器节点对应的调用关系图进行随机游走,得到每个其它服务器节点的到达频率并将其进行展示。提供多种模式进行根因分析,且支持多数据指标溯因,提高确定故障的准确率以及满足多种业务场景。

Description

一种根因分析方法及装置
技术领域
本发明涉及数据分析技术领域,具体涉及一种根因分析方法及装置。
背景技术
目前越来越多的公司进行应用微服务的改造,将单个应用分解为若干个微服务。为保证业务的正常运行,当业务出现异常时需要及时确定故障。
目前主要依赖于公有云异常根因分析算法来确定故障。但是,公有云异常根因分析算法只支持单指标溯因,如仅利用内存使用率或CPU使用率来粗略判断异常,而服务器在调用时通常会用到不同的微服务,不同的微服务需要用不同的指标来衡量异常,公有云异常根因分析算法确定故障的准确率较低。
发明内容
有鉴于此,本发明实施例提供一种根因分析方法及装置,以解决公有云异常根因分析算法确定故障的准确率较低等问题。
为实现上述目的,本发明实施例提供如下技术方案:
本发明实施例第一方面公开一种根因分析方法,所述方法包括:
从报警平台至少获取异常服务器节点对应的异常数据指标和报警时间段;
在启用单节点根因算法模式的情况下,计算所述异常服务器节点在所述报警时间段内的其它数据指标与所述异常数据指标之间的相关概率;
将计算得到的所述相关概率发送至所述报警平台进行展示;
在启用多指标根因算法模式的情况下,确定所述异常服务器节点对应的调用关系图,所述调用关系图由所述异常服务器节点和其它服务器节点构成;
获取所述异常服务器节点在所述报警时间段内的多个第一数据指标,以及获取所述其它服务器节点在所述报警时间段内的多个第二数据指标;
根据所述第一数据指标和所述第二数据指标,确定所述异常服务器节点与所述其它服务器节点之间的数据关联系数;
根据所述数据关联系数,从所述异常服务器节点出发对所述关系调用图进行随机游走,得到每个所述其它服务器节点的到达频率;
将每个所述其它服务器节点的到达频率发送至所述报警平台进行展示。
优选的,在启用多指标根因算法模式的情况下,确定所述异常服务器节点对应的调用关系图,包括:
在启用多指标根因算法模式的情况下,从数据库中获取所述异常服务器节点对应的调用请求数据,以及扫描所述异常服务器节点的端口信息,所述端口信息指示所述异常服务器节点与其它服务器节点的连接关系;
根据所述调用请求数据和/或所述端口信息,构建所述异常服务器节点对应的调用关系图。
优选的,根据所述数据关联系数,从所述异常服务器节点出发对所述关系调用图进行随机游走,得到每个所述其它服务器节点的到达频率,包括:
对于所述关系调用图中任意一对相邻的服务器节点,根据所述数据关联系数,计算所述任意一对相邻的服务器节点之间的转移概率;
利用所有计算得到的所述转移概率构建转移概率矩阵;
根据所述转移概率矩阵,从所述异常服务器节点出发对所述关系调用图进行随机游走,得到每个所述其它服务器节点的到达频率。
优选的,获取所述异常服务器节点在所述报警时间段内的多个第一数据指标,以及获取所述其它服务器节点在所述报警时间段内的多个第二数据指标之后,还包括:
将所述多个第一数据指标和所述多个第二数据指标进行插值处理和筛选处理。
优选的,将每个所述其它服务器节点的到达频率发送至所述报警平台进行展示,包括:
对每个所述其它服务器节点的到达频率进行排序,并将排序结果发送至所述报警平台进行展示。
本发明实施例第二方面公开一种根因分析装置,所述装置包括:
第一获取单元,用于从报警平台至少获取异常服务器节点对应的异常数据指标和报警时间段;
第一处理单元,用于在启用单节点根因算法模式的情况下,计算所述异常服务器节点在所述报警时间段内的其它数据指标与所述异常数据指标之间的相关概率;
第一展示单元,用于将计算得到的所述相关概率发送至所述报警平台进行展示;
第二处理单元,用于在启用多指标根因算法模式的情况下,确定所述异常服务器节点对应的调用关系图,所述调用关系图由所述异常服务器节点和其它服务器节点构成;
第二获取单元,用于获取所述异常服务器节点在所述报警时间段内的多个第一数据指标,以及获取所述其它服务器节点在所述报警时间段内的多个第二数据指标;
确定单元,用于根据所述第一数据指标和所述第二数据指标,确定所述异常服务器节点与所述其它服务器节点之间的数据关联系数;
随机游走单元,用于根据所述数据关联系数,从所述异常服务器节点出发对所述关系调用图进行随机游走,得到每个所述其它服务器节点的到达频率;
第二展示单元,用于将每个所述其它服务器节点的到达频率发送至所述报警平台进行展示。
优选的,所述第二处理单元具体用于:在启用多指标根因算法模式的情况下,从数据库中获取所述异常服务器节点对应的调用请求数据,以及扫描所述异常服务器节点的端口信息,所述端口信息指示所述异常服务器节点与其它服务器节点的连接关系;根据所述调用请求数据和/或所述端口信息,构建所述异常服务器节点对应的调用关系图。
优选的,所述随机游走单元具体用于:对于所述关系调用图中任意一对相邻的服务器节点,根据所述数据关联系数,计算所述任意一对相邻的服务器节点之间的转移概率;利用所有计算得到的所述转移概率构建转移概率矩阵;根据所述转移概率矩阵,从所述异常服务器节点出发对所述关系调用图进行随机游走,得到每个所述其它服务器节点的到达频率。
本发明实施例第三方面公开一种电子设备,包括:处理器以及存储器,所述处理器以及存储器通过通信总线相连;其中,所述处理器,用于调用并执行所述存储器中存储的程序;所述存储器,用于存储程序,所述程序用于实现如本发明实施例第一方面公开的根因分析方法。
本发明实施例第四方面公开一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令用于执行本发明实施例第一方面公开的根因分析方法。
基于上述本发明实施例提供的一种根因分析方法及装置,该方法为:从报警平台至少获取异常服务器节点对应的异常数据指标和报警时间段;在启用单节点根因算法模式的情况下,计算异常服务器节点在所述报警时间段内的其它数据指标与异常数据指标之间的相关概率;将计算得到的相关概率发送至报警平台进行展示;在启用多指标根因算法模式的情况下,确定异常服务器节点对应的调用关系图;获取异常服务器节点在报警时间段内的多个第一数据指标,以及获取其它服务器节点在报警时间段内的多个第二数据指标;根据第一数据指标和第二数据指标,确定异常服务器节点与其它服务器节点之间的数据关联系数;根据数据关联系数,从异常服务器节点出发对关系调用图进行随机游走,得到每个其它服务器节点的到达频率;将每个其它服务器节点的到达频率发送至报警平台进行展示。本方案中,在启用单节点根因算法模式的情况下,计算异常服务器节点在报警时间段内的其它数据指标与异常数据指标之间的相关概率并将其进行展示。在启用多指标根因算法模式的情况下,利用异常服务器节点在报警时间段内的多个第一数据指标及其它服务器节点在报警时间段内的多个第二数据指标,对异常服务器节点对应的调用关系图进行随机游走,得到每个其它服务器节点的到达频率并将其进行展示。支持多种模式进行根因分析,且支持多数据指标溯因,提高确定故障的准确率以及满足多种业务场景。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的航信算法平台的架构示意图;
图2为本发明实施例提供的一种根因分析方法的流程图;
图3为本发明实施例提供的调用关系图的示例图;
图4为本发明实施例提供的一种根因分析装置的结构框图;
图5为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
由背景技术可知,目前主要依赖于公有云异常根因分析算法来确定故障,但由于公有云异常根因分析算法只支持单指标溯因,而服务器在调用时通常会用到不同的微服务,不同的微服务需要用不同的指标来衡量异常,公有云异常根因分析算法确定故障的准确率较低。
因此,本发明实施例提供一种根因分析方法及装置,在启用单节点根因算法模式的情况下,计算异常服务器节点在报警时间段内的其它数据指标与异常数据指标之间的相关概率并将其进行展示。在启用多指标根因算法模式的情况下,利用异常服务器节点在报警时间段内的多个第一数据指标及其它服务器节点在报警时间段内的多个第二数据指标,对异常服务器节点对应的调用关系图进行随机游走,得到每个其它服务器节点的到达频率并将其进行展示。支持多种模式进行根因分析,且支持多数据指标溯因,以提高确定故障的准确率以及满足多种业务场景。
需要说明的是,本发明实施例提供的一种根因分析方法及装置,可应用在相应的算法平台中,例如应用在航信算法平台;航信算法平台可提供多种算法模式,如图1示出的航信算法平台的架构示意图,航信算法平台至少包含了单节点根因算法模式、单指标根因算法模式、多指标根因算法模式和其它算法模式等。具体运行方式为:从数据库中获取相关数据,选择启用单节点根因算法模式(也称之为单节点多指标根因算法模式)、单指标根因算法模式或多指标根因算法模式对相关数据进行计算,并将计算结果存储至数据库中,以及将计算结果在报警平台中展示。
可以理解的是,以下本发明实施例所提及的根因分析方法,主要是针对单节点根因算法模式和多指标根因算法模式的数据处理流程的解释说明,详见以下各个实施例的内容。
参见图2,示出了本发明实施例提供的一种根因分析方法的流程图,该根因分析方法包括:
步骤S201:从报警平台至少获取异常服务器节点对应的异常数据指标和报警时间段。
需要说明的是,应用性能监控系统每分钟(仅举例,也可是其它时间粒度)采集各个服务器节点的各类数据指标并将其存储至数据库中,例如:采集内存使用率、CPU空闲数据和网络连接等数据指标。报警平台从数据库中获取各个服务器节点的各类数据指标,并启用预先设置的异常检测算法模式分析是否出现异常,并确定异常数据指标(或者说报警数据指标)。当在连续时间内出现多次异常,例如当在5分钟内出现两次及以上次异常,报警平台会向前端发送报警邮件。
在具体实现步骤S201的过程中,调用报警平台,从该报警平台中至少获取异常服务器节点对应的节点名、异常数据指标和报警时间段等,可以理解的是,还可从报警平台中获取异常服务器节点所在的集群名,关于能够从报警平台获取的内容,在此不一一举例说明。
需要说明的是,可通过gRPC(一款PRC框架)方式提供上述提及的单节点根因算法模式和多指标根因算法模式等算法模式,具体而言,算法平台可通过调用gRPC算法服务来调用单节点根因算法模式和多指标根因算法模式,进而根据从报警平台获取的内容进行根因分析,以及通过调用gRPC算法服务使报警平台处理和展示根因分析的结果。
在从报警平台获取异常服务器节点对应的节点名、异常数据指标和报警时间段之后,根据实际的应用场景,确定需要处理的服务器节点的数量;当需要处理的服务器节点的数量为1时,启用单节点根因算法模式;当需要处理的服务器节点的数量不为1时,启用多指标根因算法模式。可以理解的是,多指标根因算法模式也可用于处理多节点单指标的情况。
在启用单节点根因算法模式时,执行步骤S202至步骤S203;在启用多指标根因算法模式时,执行步骤S204至步骤S208。
步骤S202:在启用单节点根因算法模式的情况下,计算异常服务器节点在报警时间段内的其它数据指标与异常数据指标之间的相关概率。
可以理解的是,在启用单节点根因算法模式时,不需要使用调用关系图,在具体实现步骤S202的过程中,在启用单节点根因算法模式的情况下,获取异常服务器节点的异常数据指标和在报警时间段内的其它数据指标。
通过公式(1),计算异常数据指标与异常服务器节点的各个其它数据指标之间的相关概率(或者说相关性)。
Figure BDA0003435759280000071
在公式(1)中,abnormal为异常数据指标,metric为其它数据指标,时间ts到te为报警时间段,Cov为协方差,σ为方差,R(metric,abnormal,ts,te)表示其它数据指标与异常数据指标在报警时间段内的相关概率。
可以理解的是,对于任意一个其它数据指标,若该其它数据指标与异常数据指标的相关概率(即R的取值)越高,则表示该其它数据指标与异常数据指标在报警时间段内越紧密,进而该其它数据指标作为造成异常服务器节点异常的根本原因的可能性也就越大。
在一些具体实施例中,由于考虑所有的其它数据指标,在计算得到各个其它数据指标对应的相关概率之后,将计算得到的相关概率进行归一化,归一化后的值即为其它数据指标作为根因(造成异常服务器节点异常的根本原因)的概率。
步骤S203:将计算得到的相关概率发送至报警平台进行展示。
在具体实现步骤S203的过程中,计算得到各个其它数据指标与异常数据指标在报警时间段内的相关概率之后,将各个相关概率从高至低进行排序,并将排序结果发送至报警平台进行展示,即报警平台按高至低的顺序展示各个相关概率。用户可以从报警平台所展示的相关概率,对造成异常服务器节点异常的根本原因进行排查,进而帮助用户解决异常。
步骤S204:在启用多指标根因算法模式的情况下,确定异常服务器节点对应的调用关系图。
需要说明的是,调用关系图由异常服务器节点和其它服务器节点构成。
可以理解的是,应用性能监控系统可通过收集数据库里的服务器节点的调用请求数据和端口信息来构建服务器节点的调用关系图。
在具体实现步骤S204的过程中,在启用多指标根因算法模式的情况下,调用应用性能监控系统,从数据库中获取异常服务器节点对应的调用请求数据,以及扫描异常服务器节点的端口信息,该端口信息指示异常服务器节点与其它服务器节点的连接关系,该调用请求数据表示异常服务器节点的调用链路;根据调用请求数据和/或端口信息,构建异常服务器节点对应的调用关系图。
可以理解的是,如果异常服务器节点的所有调用请求数据都通过应用性能监控系统进行监控和记录的话,则可直接利用异常服务器节点的调用请求数据构建调用关系图;但如果异常服务器节点未被纳入监控,则可利用端口信息构建异常服务器节点对应的调用关系图(此时相当于无向图);如果异常服务器节点的调用请求数据发生丢失,则可结合调用请求数据和端口信息,构建异常服务器节点对应的调用关系图。
需要说明的是,异常服务器节点对应的调用关系图为无环图G=(V,E),V为异常服务器节点和其它服务器节点的集合,E为调用关系图中边的集合,其中,E中的每条边可能是有向边也可能是无向边,对于无向边可随机设置起点和终点,调用关系图的示例图如图3所示。
图3中,V为{A,B,C,D,E,F},E为{(A,B),(A,D),…,(C,F)}。对于连接两个服务器节点的边,有向边的箭头处的服务器节点受到无箭头处的服务器节点的影响,无向边则表示两个服务器节点互相影响或影响方向不确定。
需要说明的是,对于调用关系图中的两个服务器节点,若该两个服务器节点之间具有调用关系(即一个服务器节点为调用方,另一个服务器节点为被调用方),则调用关系图中该两个服务器节点之间的边为有向边;若该两个服务器节点之间没有调用关系但有端口连接关系,则调用关系图中该两个服务器节点之间的边为无向边。
步骤S205:获取异常服务器节点在报警时间段内的多个第一数据指标,以及获取其它服务器节点在报警时间段内的多个第二数据指标。
需要说明的是,应用性能监控系统会采集各个服务器节点的数据指标并将其存储在数据库中。其它服务器节点为调用关系图中除异常服务器节点以外的服务器节点。
在具体实现步骤S205的过程中,获取异常服务器节点在报警时间段内的多个(n个)第一数据指标,以及获取其它服务器节点在报警时间段内的多个(m个)第二数据指标。将所获取的第一数据指标和第二数据指标打包成字符串(如json字符串),在启用多指标根因算法模式的情况下,该字符串为multiindex多维矩阵,可直接将该字符串用于根因分析算法中进行分析。
优选的,将多个第一数据指标和多个第二数据指标进行插值处理和筛选处理。在具体实现中,将由第一数据指标和第二数据指标打包成的字符串代入多指标根因算法模式对应的根因分析算法中,由该根因分析算法解析该字符串,并对多个第一数据指标和多个第二数据指标进行插值处理和筛选处理。其中,插值处理为:对空值进行插值,并向后向前补全空值;筛选处理为:筛选出根因分析算法所需的变量。
可以理解的是,在对第一数据指标和第二数据指标进行插值处理后,删除依旧是空值的列。
步骤S206:根据第一数据指标和第二数据指标,确定异常服务器节点与其它服务器节点之间的数据关联系数。
在具体实现步骤S206的过程中,获取每个其它服务器节点在报警时间段内的m个第二数据指标之后,对于每个其它服务器节点,利用异常服务器节点的n个第一数据指标和该其它服务器节点的m个第二数据指标,计算异常服务器节点与该其它服务器节点之间的数据关联系数;具体而言,通过公式(2)计算异常服务器节点与该其它服务器节点之间的数据关联系数。
Figure BDA0003435759280000101
在公式(2)中,abnormalj为异常服务器节点(此处以abnormal指代)的第j个第一数据指标,metrici为某个其它服务器节点(此处以metric指代)的第i个第二数据指标,R(metric,abnormal,ts,te)表示异常服务器节点与某个其它服务器节点之间的数据关联系数,时间ts到te为报警时间段,Cov为协方差,σ为方差。
可以理解的是,对于某个其它服务器节点,在利用公式(2)计算异常服务器节点与该其它服务器节点之间的数据关联系数的过程中,能得到m*n个数值,将m*n个数值中的最大值作为异常服务器节点与该其它服务器节点之间的数据关联系数。
对于某个其它服务器节点,异常服务器节点与该其它服务器节点之间的数据关联系数越大,表示该其它服务器节点与异常服务器节点在报警时间段内越紧密,进而该其它服务器节点作为造成异常服务器节点异常的根本原因的可能性也就越大。通过上述方式,将计算调用关系图中每个其它服务器节点与异常服务器节点之间的数据关联系数。
值得说明的是,对于计算得到数据关联系数的某一其它服务器节点,该其它服务器节点可能在调用关系图中与异常服务器节点不相连,或者,该其它服务器节点与异常服务器节点在调用关系图中处于不同分支;因此,仅通过其它服务器节点与异常服务器节点之间的数据关联系数来进行异常分析并不准确,需通过调用关系图对各个其它服务器节点与异常服务器节点之间的数据关联系数进行筛选,详见步骤S207的内容。
步骤S207:根据数据关联系数,从异常服务器节点出发对关系调用图进行随机游走,得到每个其它服务器节点的到达频率。
需要说明的是,从异常服务器节点出发对关系调用图进行随机游走具体是指:从异常服务器节点出发,以给定概率分布在关系调用图上进行前向移动或后向移动,并统计到达关系调用图中各个其它服务器节点的到达次数;在针对关系调用图的一次随机游走中(通常需要游走上千步),其它服务器节点的到达次数越多则表示成为异常服务器节点的异常根本原因的概率越大。
在具体实现步骤S207的过程中,对于关系调用图中任意一对相邻的服务器节点,根据数据关联系数,计算该任意一对相邻的服务器节点之间的转移概率。具体而言,对于关系调用图中任意一对相邻的服务器节点,利用该对相邻的服务器节点与异常服务器节点之间的数据关联系数,计算该对相邻的服务器节点之间的转移概率。利用所有计算得到的转移概率构建转移概率矩阵;根据转移概率矩阵,从异常服务器节点出发对关系调用图进行随机游走,得到每个其它服务器节点的到达频率。
在一些具体实施例中,对于关系调用图中任意一对相邻的服务器节点i和服务器节点j,通过公式(3)计算服务器节点i和服务器节点j之间的转移概率Qij
Figure BDA0003435759280000111
在公式(3)中,R(i,abnormal)为由上述公式(2)计算得到的服务器节点i与异常服务器节点之间的数据关联系数,R(k,abnormal)为由上述公式(2)计算得到的服务器节点k与异常服务器节点之间的数据关联系数,服务器节点k为与服务器节点j相连的所有服务器节点,ρ为惩罚系数,(i,j)为服务器节点i和服务器节点j之间的边,E为关系调用图。
需要说明的是,由于被调用方(被调用的服务器节点)更可能是调用方(发起调用的服务器节点)的根因,因此需要一个惩罚系数ρ,使游走项在游走时回到被调用方的概率下降,即控制转移时调用关系带来的影响。
值得注意的是,经发明人反复研究和验证发现,对关系调用图进行随机游走时具有方向性,在惩罚系数ρ的取值较小时,随机游走倾向于提高单一方向上深层的服务器节点的到达概率,能够寻找到最深层次的根因,但此种情况存在以下弊端:随机游走可能错误陷入某一分支而无法兼顾其他分支,进而导致根因寻找失败。而在惩罚系数ρ的取值较大时,随机游走减弱了向深层次探究的趋势,难以找到导致异常服务器节点发生异常的深层次原因。因此需要通过多次调用根因分析算法来确定最优的惩罚系数ρ,优选的,惩罚系数ρ可以设置为0.3,惩罚系数ρ的具体取值可根据实际情况进行调整,在此不做限定。
上述公式(3)中,若服务器节点i和服务器节点j的边(i,j)为有向边,惩罚系数ρ可以为指定值,惩罚系数ρ可默认设置为0.3;若(i,j)为无向边,可将(i,j)视为ρ=1的有向边,从而使调用关系图转换为有向无环图。
需要说明的是,在计算得到转移概率Qij之后,需对其进行归一化,归一化后才可真正表示为转移概率。
在一些具体实施例中,利用所有计算得到的转移概率构建转移概率矩阵。根据转移概率矩阵,从异常服务器节点出发对关系调用图进行随机游走,在随机游走过程中,每次游走都会到达一个其它服务器节点。对于某个其它服务器节点,游走结束后,统计到达该其它服务器节点的到达次数。在统计得到各个其它服务器节点的到达次数以后,按等比例的计算方式,计算每个其它服务器节点的到达频率,计算得到的到达频率即可作为定位异常服务器节点发生异常的根本原因的依据。
步骤S208:将每个其它服务器节点的到达频率发送至报警平台进行展示。
在具体实现步骤S208的过程中,在计算得到各个其它服务器节点的到达频率之后,将各个其它服务器节点的到达频率存储在数据库中。当接收到用户发送的请求后,对每个其它服务器节点的到达频率进行排序(如按到达频率由高至低的顺序排序),并将排序结果发送至报警平台进行展示,用户可在报警平台中获悉排序后的各个其它服务器节点的到达频率,对造成异常服务器节点异常的根本原因进行排查,进而帮助用户解决异常。
在一些具体实施例中,存储到数据库的各个其它服务器节点的到达频率为一个json字符串,当接收到用户请求后,可将该json字符串解析成一个数据表格,该数据表格中包含各个其它服务器节点的到达频率,在展示之前需要对每个其它服务器节点的到达频率进行排序。
在本发明实施例中,在启用单节点根因算法模式的情况下,计算异常服务器节点在报警时间段内的其它数据指标与异常数据指标之间的相关概率并将其进行展示。在启用多指标根因算法模式的情况下,利用异常服务器节点在报警时间段内的多个第一数据指标及其它服务器节点在报警时间段内的多个第二数据指标,对异常服务器节点对应的调用关系图进行随机游走,得到每个其它服务器节点的到达频率并将其进行展示。支持多种模式进行根因分析,且支持多数据指标溯因,提高确定故障的准确率以及满足多种业务场景。
与上述本发明实施例提供的一种根因分析方法相对应,参见图4,本发明实施例还提供了一种根因分析装置的结构框图,该根因分析装置包括:第一获取单元401、第一处理单元402、第一展示单元403、第二处理单元404、第二获取单元405、确定单元406、随机游走单元407和第二展示单元408;
第一获取单元401,用于从报警平台至少获取异常服务器节点对应的异常数据指标和报警时间段。
第一处理单元402,用于在启用单节点根因算法模式的情况下,计算异常服务器节点在报警时间段内的其它数据指标与异常数据指标之间的相关概率。
第一展示单元403,用于将计算得到的相关概率发送至报警平台进行展示。
第二处理单元404,用于在启用多指标根因算法模式的情况下,确定异常服务器节点对应的调用关系图,调用关系图由异常服务器节点和其它服务器节点构成。
在具体实现中,第二处理单元具体用于:在启用多指标根因算法模式的情况下,从数据库中获取异常服务器节点对应的调用请求数据,以及扫描异常服务器节点的端口信息,端口信息指示异常服务器节点与其它服务器节点的连接关系;根据调用请求数据和/或端口信息,构建异常服务器节点对应的调用关系图。
第二获取单元405,用于获取异常服务器节点在报警时间段内的多个第一数据指标,以及获取其它服务器节点在报警时间段内的多个第二数据指标。
优选的,第二获取单元405还用于:将多个第一数据指标和多个第二数据指标进行插值处理和筛选处理。
确定单元406,用于根据第一数据指标和第二数据指标,确定异常服务器节点与其它服务器节点之间的数据关联系数。
随机游走单元407,用于根据数据关联系数,从异常服务器节点出发对关系调用图进行随机游走,得到每个其它服务器节点的到达频率。
在具体实现中,随机游走单元407具体用于:对于关系调用图中任意一对相邻的服务器节点,根据数据关联系数,计算任意一对相邻的服务器节点之间的转移概率;利用所有计算得到的转移概率构建转移概率矩阵;根据转移概率矩阵,从异常服务器节点出发对关系调用图进行随机游走,得到每个其它服务器节点的到达频率。
第二展示单元408,用于将每个其它服务器节点的到达频率发送至报警平台进行展示。
在具体实现中,第二展示单元408具体用于:对每个其它服务器节点的到达频率进行排序,并将排序结果发送至报警平台进行展示。
在本发明实施例中,在启用单节点根因算法模式的情况下,计算异常服务器节点在报警时间段内的其它数据指标与异常数据指标之间的相关概率并将其进行展示。在启用多指标根因算法模式的情况下,利用异常服务器节点在报警时间段内的多个第一数据指标及其它服务器节点在报警时间段内的多个第二数据指标,对异常服务器节点对应的调用关系图进行随机游走,得到每个其它服务器节点的到达频率并将其进行展示。支持多种模式进行根因分析,且支持多数据指标溯因,提高确定故障的准确率以及满足多种业务场景。
本发明实施例还提供一种电子设备,该电子设备包括:处理器以及存储器,处理器以及存储器通过通信总线相连;其中,处理器,用于调用并执行存储器中存储的程序;存储器,用于存储程序,该程序用于实现根因分析方法。
下面参考图5,其示出了适于用来实现本公开实施例的电子设备的结构示意图。本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图5示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图5所示,电子设备可以包括处理装置(例如中央处理器、图形处理器等)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储装置506加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM503中,还存储有电子设备操作所需的各种程序和数据。处理装置501、ROM502以及RAM503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
通常,以下装置可以连接至I/O接口505:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置506;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置507;包括例如磁带、硬盘等的存储装置508;以及通信装置509。通信装置509可以允许电子设备与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的电子设备,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置509从网络上被下载和安装,或者从存储装置508被安装,或者从ROM502被安装。在该计算机程序被处理装置501执行时,执行本公开实施例的方法中限定的上述功能。
更进一步的,本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机可执行指令,计算机可执行指令用于执行根因分析方法。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:在启用单节点根因算法模式的情况下,计算异常服务器节点在报警时间段内的其它数据指标与异常数据指标之间的相关概率并将其进行展示。在启用多指标根因算法模式的情况下,利用异常服务器节点在报警时间段内的多个第一数据指标及其它服务器节点在报警时间段内的多个第二数据指标,对异常服务器节点对应的调用关系图进行随机游走,得到每个其它服务器节点的到达频率并将其进行展示。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种根因分析方法,其特征在于,所述方法包括:
从报警平台至少获取异常服务器节点对应的异常数据指标和报警时间段;
在启用单节点根因算法模式的情况下,计算所述异常服务器节点在所述报警时间段内的其它数据指标与所述异常数据指标之间的相关概率;
将计算得到的所述相关概率发送至所述报警平台进行展示;
在启用多指标根因算法模式的情况下,确定所述异常服务器节点对应的调用关系图,所述调用关系图由所述异常服务器节点和其它服务器节点构成;
获取所述异常服务器节点在所述报警时间段内的多个第一数据指标,以及获取所述其它服务器节点在所述报警时间段内的多个第二数据指标;
根据所述第一数据指标和所述第二数据指标,确定所述异常服务器节点与所述其它服务器节点之间的数据关联系数;
根据所述数据关联系数,从所述异常服务器节点出发对所述关系调用图进行随机游走,得到每个所述其它服务器节点的到达频率;
将每个所述其它服务器节点的到达频率发送至所述报警平台进行展示。
2.根据权利要求1所述的方法,其特征在于,在启用多指标根因算法模式的情况下,确定所述异常服务器节点对应的调用关系图,包括:
在启用多指标根因算法模式的情况下,从数据库中获取所述异常服务器节点对应的调用请求数据,以及扫描所述异常服务器节点的端口信息,所述端口信息指示所述异常服务器节点与其它服务器节点的连接关系;
根据所述调用请求数据和/或所述端口信息,构建所述异常服务器节点对应的调用关系图。
3.根据权利要求1所述的方法,其特征在于,根据所述数据关联系数,从所述异常服务器节点出发对所述关系调用图进行随机游走,得到每个所述其它服务器节点的到达频率,包括:
对于所述关系调用图中任意一对相邻的服务器节点,根据所述数据关联系数,计算所述任意一对相邻的服务器节点之间的转移概率;
利用所有计算得到的所述转移概率构建转移概率矩阵;
根据所述转移概率矩阵,从所述异常服务器节点出发对所述关系调用图进行随机游走,得到每个所述其它服务器节点的到达频率。
4.根据权利要求1所述的方法,其特征在于,获取所述异常服务器节点在所述报警时间段内的多个第一数据指标,以及获取所述其它服务器节点在所述报警时间段内的多个第二数据指标之后,还包括:
将所述多个第一数据指标和所述多个第二数据指标进行插值处理和筛选处理。
5.根据权利要求1所述的方法,其特征在于,将每个所述其它服务器节点的到达频率发送至所述报警平台进行展示,包括:
对每个所述其它服务器节点的到达频率进行排序,并将排序结果发送至所述报警平台进行展示。
6.一种根因分析装置,其特征在于,所述装置包括:
第一获取单元,用于从报警平台至少获取异常服务器节点对应的异常数据指标和报警时间段;
第一处理单元,用于在启用单节点根因算法模式的情况下,计算所述异常服务器节点在所述报警时间段内的其它数据指标与所述异常数据指标之间的相关概率;
第一展示单元,用于将计算得到的所述相关概率发送至所述报警平台进行展示;
第二处理单元,用于在启用多指标根因算法模式的情况下,确定所述异常服务器节点对应的调用关系图,所述调用关系图由所述异常服务器节点和其它服务器节点构成;
第二获取单元,用于获取所述异常服务器节点在所述报警时间段内的多个第一数据指标,以及获取所述其它服务器节点在所述报警时间段内的多个第二数据指标;
确定单元,用于根据所述第一数据指标和所述第二数据指标,确定所述异常服务器节点与所述其它服务器节点之间的数据关联系数;
随机游走单元,用于根据所述数据关联系数,从所述异常服务器节点出发对所述关系调用图进行随机游走,得到每个所述其它服务器节点的到达频率;
第二展示单元,用于将每个所述其它服务器节点的到达频率发送至所述报警平台进行展示。
7.根据权利要求6所述的装置,其特征在于,所述第二处理单元具体用于:在启用多指标根因算法模式的情况下,从数据库中获取所述异常服务器节点对应的调用请求数据,以及扫描所述异常服务器节点的端口信息,所述端口信息指示所述异常服务器节点与其它服务器节点的连接关系;根据所述调用请求数据和/或所述端口信息,构建所述异常服务器节点对应的调用关系图。
8.根据权利要求6所述的装置,其特征在于,所述随机游走单元具体用于:对于所述关系调用图中任意一对相邻的服务器节点,根据所述数据关联系数,计算所述任意一对相邻的服务器节点之间的转移概率;利用所有计算得到的所述转移概率构建转移概率矩阵;根据所述转移概率矩阵,从所述异常服务器节点出发对所述关系调用图进行随机游走,得到每个所述其它服务器节点的到达频率。
9.一种电子设备,其特征在于,包括:处理器以及存储器,所述处理器以及存储器通过通信总线相连;其中,所述处理器,用于调用并执行所述存储器中存储的程序;所述存储器,用于存储程序,所述程序用于实现如权利要求1-5任意一所述的根因分析方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1-5任意一所述的根因分析方法。
CN202111612126.0A 2021-12-27 2021-12-27 一种根因分析方法及装置 Pending CN114356703A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111612126.0A CN114356703A (zh) 2021-12-27 2021-12-27 一种根因分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111612126.0A CN114356703A (zh) 2021-12-27 2021-12-27 一种根因分析方法及装置

Publications (1)

Publication Number Publication Date
CN114356703A true CN114356703A (zh) 2022-04-15

Family

ID=81102289

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111612126.0A Pending CN114356703A (zh) 2021-12-27 2021-12-27 一种根因分析方法及装置

Country Status (1)

Country Link
CN (1) CN114356703A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115204372A (zh) * 2022-07-20 2022-10-18 成都飞机工业(集团)有限责任公司 一种基于项游走图神经网络的前提选择方法及系统
CN115981711A (zh) * 2023-03-20 2023-04-18 花瓣云科技有限公司 一种代码处理方法及电子设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115204372A (zh) * 2022-07-20 2022-10-18 成都飞机工业(集团)有限责任公司 一种基于项游走图神经网络的前提选择方法及系统
CN115204372B (zh) * 2022-07-20 2023-10-10 成都飞机工业(集团)有限责任公司 一种基于项游走图神经网络的前提选择方法及系统
CN115981711A (zh) * 2023-03-20 2023-04-18 花瓣云科技有限公司 一种代码处理方法及电子设备

Similar Documents

Publication Publication Date Title
CN114356703A (zh) 一种根因分析方法及装置
CN110138745B (zh) 基于数据流序列的异常主机检测方法、装置、设备及介质
CN110865898B (zh) 崩溃调用栈聚合的方法、装置、介质和设备
CN109495513B (zh) 无监督的加密恶意流量检测方法、装置、设备及介质
CN114422267B (zh) 流量检测方法、装置、设备及介质
CN111813641B (zh) 崩溃信息收集的方法、装置、介质和设备
CN110263824A (zh) 模型的训练方法、装置、计算设备及计算机可读存储介质
CN111400126A (zh) 网络服务异常数据检测方法、装置、设备和介质
CN115904860A (zh) 微服务检测方法、装置、设备以及存储介质
CN110046179B (zh) 一种报警维度的挖掘方法、装置及设备
CN113746780B (zh) 基于主机画像的异常主机检测方法、装置、介质和设备
CN112291121A (zh) 一种数据处理方法及相关设备
CN112882948A (zh) 一种应用的稳定性测试方法、装置、系统及存储介质
CN110347973B (zh) 用于生成信息的方法和装置
CN111198853B (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
CN111273980A (zh) 界面线程可视化方法、装置、计算机设备及存储介质
CN110941549A (zh) 一种内存泄漏的检测方法、装置、介质和电子设备
CN112379967B (zh) 模拟器检测方法、装置、设备及介质
CN116416018A (zh) 内容输出方法、装置、计算机可读介质及电子设备
CN114708535A (zh) 测试事件检测算法的方法、装置、电子设备及存储介质
CN111444253A (zh) 数据导入方法、装置、计算机可读存储介质和计算机设备
CN112214387B (zh) 基于知识图谱的用户操作行为预测方法及装置
CN113572768B (zh) 一种僵尸网络家族传播源数量变化异常的分析方法
CN111930704B (zh) 业务报警设备控制方法、装置、设备和计算机可读介质
CN117057681B (zh) 软件质量评估方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination