CN114637649A - 一种基于oltp数据库系统的告警根因分析方法及装置 - Google Patents
一种基于oltp数据库系统的告警根因分析方法及装置 Download PDFInfo
- Publication number
- CN114637649A CN114637649A CN202210204822.6A CN202210204822A CN114637649A CN 114637649 A CN114637649 A CN 114637649A CN 202210204822 A CN202210204822 A CN 202210204822A CN 114637649 A CN114637649 A CN 114637649A
- Authority
- CN
- China
- Prior art keywords
- index group
- target
- alarm
- graph
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 19
- 230000001364 causal effect Effects 0.000 claims abstract description 95
- 238000000034 method Methods 0.000 claims abstract description 64
- 230000000694 effects Effects 0.000 claims description 28
- 230000002159 abnormal effect Effects 0.000 claims description 26
- 239000011159 matrix material Substances 0.000 claims description 23
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000010586 diagram Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3065—Monitoring arrangements determined by the means or processing involved in reporting the monitored data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提出的基于OLTP数据库系统的告警根因分析方法、装置及存储介质中,基于告警信息中的告警发生时间生成候选基础指标组,利用候选基础指标组和关键指标组构建目标因果图,计算目标因果图中的每个基础指标组对应节点的告警根因得分,然后按照告警根因得分从高到低进行排序,并根据排序结果输出对应的基础指标组。其中,本申请利用候选基础指标组和关键指标组构建目标因果图,将同一模块对应的指标换分为一个指标组,减少了大量的节点和边,从而降低了因果图的复杂度、提升了根因分析的可解释性,进而提高了计算效率,确保了准确度,且本申请采用无监督的方法实现根因定位,无需参考历史故障的数据和标注,能够更好地适用于真实场景,适用范围广。
Description
本申请要求2022年3月1日提交的中国优先权专利申请202210195866.7的权益,将其全部内容通过引用的方式合并在此。
技术领域
本申请涉及数据库及计算机网络技术领域,尤其涉及一种基于OLTP数据库系统的告警根因分析方法、装置及存储介质。
背景技术
OLTP(On-line Transaction Processing,在线事务处理)数据库系统以并发事务执行,保持高水平的数据完整性,因此被广泛用于在线应用处理工作负载。OLTP数据库系统必须随时可用,以便始终为工作负载做好准备。但是,由于OLTP数据库系统允许大量并发事务修改数据,可能会因为资源或其他外部原因而发生故障,造成OLTP数据库系统的中断或性能下降,从而影响服务的可用性并带来实质性的经济损失。因此,亟需一种告警根因定位方法,以帮助DBA(数据库管理员)快速诊断和缓解故障。
相关技术中,告警根因定位方法的方法主要包括:
方法一:采用有监督的方法通过学习历史故障的模式来定位根本原因。例如,将新故障与DBA标记的历史故障集群匹配,以识别根本原因。
方法二:采用无监督的方法基于异常程度的方法定位根因。
方法三:采用无监督的方法同时考虑了异常程度和因果关系分析来定位根因。例如,通过在并行化PC算法构建的因果图上遍历找到与故障相关的指标,并通过与关键指标的相似度作为排名分数。
其中,方法一中的有监督方法需要足够的标记数据,这在实际操作中很难获得,并且由于新型故障(例如历史上从未发生过的故障)的特征无法与历史故障的特征相匹配,因此有监督方法无法处理新型故障。方法二中由于复杂的依赖关系和故障传播,故障可能会引入大量具有相似异常行为的指标,因此这些指标也具有相似的异常程度,很难判断出具体根因,导致仅根据异常程度判断根因的方法产生偏差。方法三中忽略了领域知识,无法确保根因结果的高精度。并且该方法通常直接利用所有的指标构建一个因果图,每一个指标作为一个单独的节点,导致指标之间的关系模糊,从而形成具有大量密集边的复杂因果图,使得计算效率较低,根因定位的时间较长。
发明内容
本申请提供一种基于OLTP数据库系统的告警根因分析方法、装置及存储介质,以至少解决相关技术中出现的上述技术问题。
本申请第一方面实施例提出一种基于OLTP数据库系统的告警根因分析方法,包括:
获取告警信息,所述告警信息包括告警发生时间、以及告警的关键指标;
基于所述告警发生时间生成候选基础指标组,其中,将指示相同模块状态的基础指标划分为同一个基础指标组;
利用所述候选基础指标组和关键指标组构建目标因果图,其中,所述关键指标组由所有告警的关键指标构成,所述每个指标组对应目标因果图中的每个节点;
计算所述目标因果图中的每个基础指标组对应节点的告警根因得分;
按照所述告警根因得分从高到低进行排序,并根据排序结果输出对应的基础指标组。
本申请第二方面实施例提出一种基于OLTP数据库系统的告警根因分析装置,包括:
获取模块,用于获取告警信息,所述告警信息包括告警发生时间、以及告警的关键指标;
生成模块,用于基于所述告警发生时间生成候选基础指标组,其中,将指示相同模块状态的基础指标划分为同一个基础指标组;
构建模块,用于利用所述候选基础指标组和关键指标组构建目标因果图,其中,所述关键指标组由所有告警的关键指标构成,所述每个指标组对应目标因果图中的每个节点;
计算模块,用于计算所述目标因果图中的每个基础指标组对应节点的告警根因得分;
输出模块,用于按照所述告警根因得分从高到低进行排序,并根据排序结果输出对应的基础指标组。
本申请第三方面实施例提出的非临时性计算机可读存储介质,其中,所述非临时性计算机可读存储介质存储有计算机程序;所述计算机程序被处理器执行时实现如上第一方面所示的方法。
本申请的实施例提供的技术方案至少带来以下有益效果:
本申请提出的基于OLTP数据库系统的告警根因分析方法、装置及存储介质中,获取告警信息,基于告警信息中的告警发生时间生成候选基础指标组,利用候选基础指标组和关键指标组构建目标因果图,计算目标因果图中的每个基础指标组对应节点的告警根因得分,然后按照告警根因得分从高到低进行排序,并根据排序结果输出对应的基础指标组。其中,本申请利用候选基础指标组和关键指标组构建目标因果图,将同一模块对应的指标换分为一个指标组,减少了大量的节点和边,从而降低了因果图的复杂度、提升了根因分析的可解释性,进而提高了计算效率,确保了准确度。
此外,本申请构建目标因果图的过程中,还考虑了领域知识,减少了错误推理,使得DBA可以根据输出结果快速准确的排查故障,并且本申请采用无监督的方法实现系统的根因定位,无需参考历史故障的数据和标注,能够更好地适用于真实场景,适用范围广。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本申请一个实施例提供的基于OLTP数据库系统的告警根因分析方法的流程示意图;
图2为根据本申请一个实施例提供的基于OLTP数据库系统的告警根因分析装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的基于OLTP数据库系统的告警根因分析方法及装置。
实施例一
图1为根据本申请一个实施例提供的基于OLTP数据库系统的告警根因分析方法的流程示意图,如图1所示,可以包括:
步骤101、获取告警信息。
其中,在本发明的实施例中,告警信息可以包括告警发生时间、以及告警的关键指标。
以及,在本发明的实施例中,可以通过OLTP数据库中关键指标的告警(例如,OLTPDBMS(Database Management System,数据管理系统)监控产生的告警)获取告警信息。
需要说明的是,在本发明的实施例中,关键指标是指示系统整体可用性的指标,例如Oracle中的AAS(Average Active Sessions)指标。
步骤102、基于告警发生时间生成候选基础指标组。
其中,在本发明的实施例中,将指示相同模块状态的基础指标划分为同一个基础指标组,基于此,OLTP数据库系统可以包括多个基础指标组。示例的,在本发明的实施例中,将“CPU利用率”和“CPU空闲”等从不同的角度描述CPU特性的基础指标划分为CPU模块对应的基础指标组。
以及,在本发明的实施例中,基于告警发生时间生成候选基础指标组的方法可以包括:基于告警时间确定系统中每个基础指标组是否为候选基础指标组,以生成候选基础指标组。
进一步地,在本发明的实施例中,确定基础指标组是否为候选基础指标组,的方法可以包括以下步骤:
步骤a、计算基础指标组中的每个基础指标的异常程度。
其中,在本发明的实施例中,基于告警时间t,对基础指标组X中的每个基础指标对应的时序指标x计算异常程度sx的计算方法可以包括:
sx=maxt|x(t)-μx|/σx,
其中,μx为均值,σx为标准差,均可以根据历史正常数据中获取。以及,利用上述方法计算时,会基于告警时间t,取告警时间t之前的一段时间(例如,5分钟),以便向前排查故障,从而更好的确定根因。
步骤b、根据每个基础指标的异常程度,计算每个基础指标的异常分数。
其中,在本发明的实施例中,根据每个基础指标的异常程度,计算每个基础指标的异常分数的方法可以包括:
其中,k是人工设定的阈值,和整个系统的波动程度有关。
步骤c、根据每个基础指标的异常分数,确定基础指标组的异常分数。
其中,在本发明的实施例中,基础指标组的异常分数可以取最大的指标的异常分数作为该基础指标组的异常分数。
步骤d、若基础指标组的异常分数不为零,则确定基础指标组为候选基础指标组,且候选基础指标组中仅保留异常分数不为零的基础指标。
需要说明的是,在本发明的实施例中,一个基础指标组中的指标异常,则说明该基础指标组对应的模块可能发生故障。以及,当DBA(DataBase Administrator,数据库管理员)发现根本原因指标属于同一指标组时,可以执行相同的故障缓解操作,从而及时缓解故障,避免造成不必要的损失。
步骤103、利用候选基础指标组和关键指标组构建目标因果图。
其中,在本发明的实施例中,关键指标组由所有告警的关键指标构成。以及,在本发明的实施例中,每个指标组对应目标因果图中的每个节点。
以及,在本发明的实施例中,利用候选基础指标组和关键指标组构建目标因果图的方法可以包括以下步骤:
步骤1031、确定每对指标组中的相互具有最强因果关系的指标,每对指标组为候选基础指标组和关键指标组中任意两个不同的指标组。
其中,在本公开的实施例中,每对指标组中的相互具有最强因果关系的指标,最能够反应该两指标组的因果关系。示例的,假设存在指标组X指向指标组Y的边,则确定指标组X中对于指标组Y的具有最强因果关系的指标是找到X中对Y中任意一个指标因果关系最强的指标,并保留X中的该指标为MXY,此时由指标组X与指标组Y形成的边的指向关系为X->Y;假设存在指标组Y指向指标组X的边,则确定指标组Y中对于指标组X的具有最强因果关系的指标是找到Y中对X中任意一个指标因果关系最强的指标,并保留Y中该指标为MYX,此时由指标组Y与指标组X形成的边的指向关系为Y->X。
以及,在本发明的实施例中,确定指标组X中对于指标组Y具有最强因果关系指标的方法可以包括:
步骤1032、利用每对指标组确定的具有最强因果关系的指标,对因果图进行相应的操作,直至因果图评分不再提高,得到目标因果图。
其中,在本发明的实施例中,利用每对指标组确定的相互具有最强因果关系的指标,对因果图进行相应的操作,直至因果图评分不再提高,得到目标因果图的方法可以包括以下步骤:
步骤1、确定每对指标组对应的两个节点组成的边对因果图评分的第一影响值。
其中,在本发明的实施例中,因果图为有向图,并且因果图有评分标准S对该因果图进行整体评分S(G,D),以得到目标因果图。
以及,在本发明的实施例中,确定每对指标组对应的两个节点组成的边对因果图评分的第一影响值的方法可以包括:
其中,G是因果图,D是为指标组,在添加或删减边的过程中形成的因果图,为Y在的父节点集合,eXY为指标组X与指标组Y组成的边,为添加边eXY/删减eXY后因果图的评分值,为已存在的因果图的评分值,为添加边eXY/删减边eXY边对因果图的第一影响值。以及,对于不同的图用Pa(Y)简写σ是{MIY|I∈Pa(Y)}对y的线性回归的残差方差,且残差越大,拟合越差,分数越低。同时,上述惩罚项ω(|Pa(Y)|+1)限制了Pa(Y)的长度,并倾向于保留最重要的边并减少误报,从而获得更稀疏的因果图,进而提高了效率。
步骤2、确定每对指标组相互具有因果关系的指标是否有额外的领域知识。
其中,在本公开的一个实施例之中,额外的领域知识可以为已知某些指标之间的因果关系,从而将领域知识融入到因果图构建中,以提高算法的准确性。
步骤3、若存在额外的领域知识,则对第一影响值进行处理得到第二影响值,并基于第一影响值与第二影响值对因果图进行相应的操作,直至因果图评分不再提高,得到目标因果图;否则,基于第一影响值对因果图进行相应的操作,直至因果图评分不再提高,得到目标因果图。
其中,在本发明的一个实施例之中,若存在额外的领域知识,则将该第一影响值乘以一个>=1的系数β得到第二影响值,使得在领域知识中的因果关系更倾向于被加入到因果图中。
以及,基于第一影响值与第二影响值对因果图进行相应的操作,直至因果图评分不再提高,得到目标因果图的方法包括:
步骤一、采用GFS(Greedy Forward Search,贪心前向搜索法)利用第一影响值与第二影响值不断地在因果图中添加边,直至评分值S(G,D)不再提高。
其中,在本发明的实施例中,当采用GFS在因果图中添加边时,若添加的边具有领域知识,则利用第二影响值进行计算,否则利用第一影响值进行计算。
步骤二、采用GBS(Greedy Backward Search,贪心反向搜索法)利用第一影响值与第二影响值不断在因果图中删除边,直至评分值S(G,D)不再提高。
进一步地,在本发明的另一个实施例之中,若不存在额外的领域知识,则基于第一影响值对因果图进行相应的操作,直至因果图评分不再提高,得到目标因果图。
其中,基于第一影响值对因果图进行相应的操作,直至因果图评分不再提高,得到目标因果图的方法包括:
步骤1、采用GFS(Greedy Forward Search,贪心前向搜索法)利用第一影响值不断地在因果图中添加边,直至评分值S(G,D)不再提高。
步骤2、采用GBS(Greedy Backward Search,贪心反向搜索法)利用第一影响值不断地在因果图中删除边,直至评分值S(G,D)不再提高。
需要说明的是,在本发明的实施例中,利用基础指标组和关键指标组构建目标因果图的过程中,可以减少大量的节点和边,从而提高了计算效率。
步骤104、计算目标因果图中的每个基础指标组对应节点的告警根因得分。
其中,在本发明的实施例中,计算目标因果图中的每个基础指标组对应节点的告警根因得分可以包括以下步骤:
步骤1041、确定目标因果图对应的权重矩阵。
其中,在本发明的实施例中,确定目标因果图对应的权重矩阵的方法可以包括:
步骤41、计算目标因果图的每条边的权重。
其中,在本发明的实施例中,每条边的因果关系和相关关系并不等价,不能直接用相关性来衡量边的因果关系。因此,将计算每条边eXY被删掉后,整个因果图的分数变化的相反数,作为图上每条边的权重。
步骤42、将目标因果图中所有指向关系进行翻转得到根因排序图,并得到根因排序图对应带有权重的邻接矩阵A。
其中,在本发明的实施例中,目标因果图是由原因指向结果,但是本申请中需要确定根因以形成告警结果,基于此需要将目标因果图中所有指向关系进行翻转得到根因排序图。以及,在翻转过程中,每条边的权重没有发生变化,从而可以根据得到的根因排序图得出对应带有权重的邻接矩阵A。
步骤43、将邻接矩阵记A中对应的每个节点增加自环,得到目标因果图中节点的权重矩阵。
其中,在本发明的实施例之中,将邻接矩阵记A中对应的每个节点增加自环得到目标因果图中节点的权重矩阵的方法可以包括:
以及,在本发明的实施例之中,将邻接矩阵记A中对应的每个节点增加自环,避免了即使当前节点与其指向的节点之间的因果关系很弱,算法的查询也会被迫移动到另一个节点的情况。
步骤1042、将权重矩阵进行归一化处理,得到出边权重矩阵P。
其中,在本发明的实施例中,可以按照节点的出边归一化进行处理,得到出边权重矩阵P。
步骤1043、确定目标因果图中节点对应的偏好向量u。
其中,在本发明的实施例中,确定目标因果图中节点对应的偏好向量u的方法可以包括:确定每个基础指标组与关键指标组的最大Pearson相关系数,并利用最大Pearson相关系数,确定目标因果图对应的偏好向量u。
具体的,在本发明的实施例中,指标组X对应的节点偏好向量uX为:
其中,K为关键指标组,k为关键指标组K中的指标,x为基础指标组X中的指标。以及,在计算基础指标x与关键指标k的Pearson相关系数时,考虑到故障传播是有一定时延的,因此需要将基础指标的时间序列沿着时间线方向移动多个的时间窗口,同时Correlation(x,k)函数对每个时间窗口都确定基础指标x与关键指标k的Pearson相关系数,从而确定出基础指标组X与关键指标组K的最大Pearson相关系数。在本发明的实施例中,基础指标组的指标与关键指标组中的关键指标的波动相似度越高,其偏好值越大。
步骤1044、基于出边权重矩阵P和偏好向量u,通过Personalized PageRank算法计算得到每个节点是根因的排序分数。
在本发明的实施例中,基于出边权重矩阵P和偏好向量u,通过PersonalizedPageRank算法计算得到每个节点是根因的排序分数的方法包括:
υ=cPTυ+(1-c)u
其中,υ为所有节点的排序分数对应的矩阵,c为阻尼因子(通常设置为0.85),表示每一步都可能以概率c跳到一个随机节点。
步骤1045、基于每个基础指标组对应节点的异常分数和排序分数,得到每个基础指标组对应节点的告警根因得分。
其中,在本发明的实施中,关键指标组不会是告警的根因,基于此仅需要计算每个基础指标组对应节点的告警根因得分。
以及,在本发明的实施例中,可以将每个基础指标组对应节点的异常分数和排序分数进行加权,得到每个基础指标组对应节点的告警根因得分。
步骤105、按照告警根因得分从高到低进行排序,并根据排序结果输出对应的基础指标组。
其中,在本发明的实施例中,还可以基于目标因果图确定故障传播路径,并输出,以便DBA对告警可以快速诊断,并进行相应的操作对故障进行缓解。
以及,在本发明的实施例中,本申请对具体场景并不做明确限制,不仅仅局限于在数据库场景中使用,在有相关领域的专家知识的前提下(例如划分指标组的知识,和因果图构建的因果关系知识),能够支持其他组件(例如中间件、Web服务器等组件)的根因定位。
本申请提出的基于OLTP数据库系统的告警根因分析方法,获取告警信息,
基于告警信息中的告警发生时间生成候选基础指标组,利用候选基础指标组和关键指标组构建目标因果图,计算目标因果图中的每个基础指标组对应节点的告警根因得分,然后按照告警根因得分从高到低进行排序,并根据排序结果输出对应的基础指标组。其中,本申请利用候选基础指标组和关键指标组构建目标因果图,将同一模块对应的指标换分为一个指标组,减少了大量的节点和边,从而降低了因果图的复杂度、提升了根因分析的可解释性,进而提高了计算效率,确保了准确度。
此外,本申请构建目标因果图的过程中,还考虑了领域知识,减少了错误推理,使得DBA可以根据输出结果快速准确的排查故障,并且本申请采用无监督的方法实现系统的根因定位,无需参考历史故障的数据和标注,能够更好地适用于真实场景,适用范围广。
实施例二
进一步地,图2为根据本申请一个实施例提供的一种基于OLTP数据库系统的告警根因分析装置的结构示意图,如图2所示,可以包括:
获取模块201,用于获取告警信息,告警信息包括告警发生时间、以及告警的关键指标;
生成模块202,用于基于告警发生时间生成候选基础指标组,其中,将指示相同模块状态的基础指标划分为同一个基础指标组;
构建模块203,用于利用候选基础指标组和关键指标组构建目标因果图,其中,关键指标组由所有告警的关键指标构成,每个指标组对应目标因果图中的每个节点;
计算模块204,用于计算目标因果图中的每个基础指标组对应节点的告警根因得分;
输出模块205,用于按照告警根因得分从高到低进行排序,并根据排序结果输出对应的基础指标组。
为了实现上述实施例,本公开还提出一种非临时性计算机可读存储介质。
本公开实施例提供的非临时性计算机可读存储介质,存储有计算机程序;计算机程序被处理器执行时,能够实现如图1所示的方法。
本申请提出的基于OLTP数据库系统的告警根因分析方法、装置及存储介质中,获取告警信息,基于告警信息中的告警发生时间生成候选基础指标组,利用候选基础指标组和关键指标组构建目标因果图,计算目标因果图中的每个基础指标组对应节点的告警根因得分,然后按照告警根因得分从高到低进行排序,并根据排序结果输出对应的基础指标组。其中,本申请利用候选基础指标组和关键指标组构建目标因果图,将同一模块对应的指标换分为一个指标组,减少了大量的节点和边,从而降低了因果图的复杂度、提升了根因分析的可解释性,进而提高了计算效率,确保了准确度。
此外,本申请构建目标因果图的过程中,还考虑了领域知识,减少了错误推理,使得DBA可以根据输出结果快速准确的排查故障,并且本申请采用无监督的方法实现系统的根因定位,无需参考历史故障的数据和标注,能够更好地适用于真实场景,适用范围广。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种基于OLTP数据库系统的告警根因分析方法,其特征在于,所述方法包括:
获取告警信息,所述告警信息包括告警发生时间、以及告警的关键指标;
基于所述告警发生时间生成候选基础指标组,其中,将指示相同模块状态的基础指标划分为同一个基础指标组;
利用所述候选基础指标组和关键指标组构建目标因果图,其中,所述关键指标组由所有告警的关键指标构成,所述每个指标组对应目标因果图中的每个节点;
计算所述目标因果图中的每个基础指标组对应节点的告警根因得分;
按照所述告警根因得分从高到低进行排序,并根据排序结果输出对应的基础指标组。
2.如权利要求1中所述的方法,其特征在于,所述OLTP数据库系统包括多个基础指标组,所述基于所述告警发生时间生成候选基础指标组包括基于所述告警时间确定所述系统中每个基础指标组是否为候选基础指标组,
确定基础指标组是否为候选基础指标组,包括:
计算所述基础指标组中的每个基础指标的异常程度;
根据所述每个基础指标的异常程度,计算每个基础指标的异常分数;
根据所述每个基础指标的异常分数,确定所述基础指标组的异常分数;
若所述基础指标组的异常分数不为零,则确定所述基础指标组为候选基础指标组,且候选基础指标组中仅保留异常分数不为零的基础指标。
3.如权利要求1中所述的方法,其特征在于,所述利用所述候选基础指标组和关键指标组构建因果图,包括:
确定每对指标组中的相互具有最强因果关系的指标,所述每对指标组为所述候选基础指标组和所述关键指标组中任意两个不同的指标组;
利用每对指标组确定的相互具有最强因果关系的指标,对因果图进行相应的操作,直至因果图评分不再提高,得到目标因果图。
4.如权利要求3中所述的方法,其特征在于,所述利用每对指标组确定的相互具有最强因果关系的指标,对因果图进行相应的操作,直至因果图评分不再提高,得到目标因果图,包括:
确定每对指标组对应的两个节点组成的边对因果图评分的第一影响值;
确定每对指标组相互具有最强因果关系的指标是否有额外的领域知识;
若存在额外的领域知识,则对所述第一影响值进行处理得到第二影响值,并基于所述第一影响值和所述第二影响值对因果图进行相应的操作,直至因果图评分不再提高,得到目标因果图;否则,基于所述第一影响值对因果图进行相应的操作,直至因果图评分不再提高,得到目标因果图。
5.如权利要求1所述的方法,其特征在于,所述计算所述目标因果图中的每个基础指标组对应节点的告警根因得分,包括:
确定目标因果图对应的权重矩阵;
将所述权重矩阵进行归一化处理,得到出边权重矩阵P;
确定目标因果图中节点对应的偏好向量u;
基于所述矩阵P和所述偏好向量u,通过Personalized PageRank算法计算得到每个节点是根因的排序分数;
基于每个基础指标组对应节点的异常分数和排序分数,得到每个基础指标组对应节点的告警根因得分。
6.如权利要求5中所述的方法,其特征在于,所述确定目标因果图对应的权重矩阵,包括:
计算所述目标因果图的每条边的权重;
将所述目标因果图中所有指向关系进行翻转得到根因排序图,并得到所述根因排序图对应带有权重的邻接矩阵A;
将所述邻接矩阵记A中对应的每个节点增加自环,得到目标因果图中节点的权重矩阵。
7.如权利要求5中所述的方法,其特征在于,所述确定目标因果图中节点对应的偏好向量u,包括:
确定每个基础指标组与关键指标组的最大Pearson相关系数;
利用所述最大Pearson相关系数,确定目标因果图对应的偏好向量u。
8.如权利要求1中所述的方法,其特征在于,所述方法还包括基于所述目标因果图确定故障传播路径,并输出。
9.一种基于OLTP数据库系统的告警根因分析装置,其特征在于,包括以下模块:
获取模块,用于获取告警信息,所述告警信息包括告警发生时间、以及告警的关键指标;
生成模块,用于基于所述告警发生时间生成候选基础指标组,其中,将指示相同模块状态的基础指标划分为同一个基础指标组;
构建模块,用于利用所述候选基础指标组和关键指标组构建目标因果图,其中,所述关键指标组由所有告警的关键指标构成,所述每个指标组对应目标因果图中的每个节点;
计算模块,用于计算所述目标因果图中的每个基础指标组对应节点的告警根因得分;
输出模块,用于按照所述告警根因得分从高到低进行排序,并根据排序结果输出对应的基础指标组。
10.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-8中任一项所述方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2022101958667 | 2022-03-01 | ||
CN202210195866 | 2022-03-01 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114637649A true CN114637649A (zh) | 2022-06-17 |
Family
ID=81947780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210204822.6A Pending CN114637649A (zh) | 2022-03-01 | 2022-03-03 | 一种基于oltp数据库系统的告警根因分析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114637649A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115514627A (zh) * | 2022-09-21 | 2022-12-23 | 深信服科技股份有限公司 | 一种故障根因定位方法、装置、电子设备及可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112217674A (zh) * | 2020-10-12 | 2021-01-12 | 西安交通大学 | 基于因果网络挖掘和图注意力网络的告警根因识别方法 |
CN112507720A (zh) * | 2020-11-12 | 2021-03-16 | 西安交通大学 | 基于因果语义关系传递的图卷积网络根因识别方法 |
CN113098723A (zh) * | 2021-06-07 | 2021-07-09 | 新华三人工智能科技有限公司 | 一种故障根因定位方法、装置、存储介质及设备 |
CN113259168A (zh) * | 2021-05-28 | 2021-08-13 | 新华三人工智能科技有限公司 | 一种故障根因分析方法及装置 |
CN113901126A (zh) * | 2021-09-18 | 2022-01-07 | 中兴通讯股份有限公司 | 告警因果关系挖掘方法、告警因果挖掘装置及存储介质 |
WO2022007108A1 (zh) * | 2020-07-07 | 2022-01-13 | 南京邮电大学 | 一种基于深度学习的网络告警定位方法 |
-
2022
- 2022-03-03 CN CN202210204822.6A patent/CN114637649A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022007108A1 (zh) * | 2020-07-07 | 2022-01-13 | 南京邮电大学 | 一种基于深度学习的网络告警定位方法 |
CN112217674A (zh) * | 2020-10-12 | 2021-01-12 | 西安交通大学 | 基于因果网络挖掘和图注意力网络的告警根因识别方法 |
CN112507720A (zh) * | 2020-11-12 | 2021-03-16 | 西安交通大学 | 基于因果语义关系传递的图卷积网络根因识别方法 |
CN113259168A (zh) * | 2021-05-28 | 2021-08-13 | 新华三人工智能科技有限公司 | 一种故障根因分析方法及装置 |
CN113098723A (zh) * | 2021-06-07 | 2021-07-09 | 新华三人工智能科技有限公司 | 一种故障根因定位方法、装置、存储介质及设备 |
CN113901126A (zh) * | 2021-09-18 | 2022-01-07 | 中兴通讯股份有限公司 | 告警因果关系挖掘方法、告警因果挖掘装置及存储介质 |
Non-Patent Citations (1)
Title |
---|
万莹 等: "基于时间、空间和规则的无线网络告警关联方法", 计算机科学, vol. 45, no. 11, 30 November 2018 (2018-11-30), pages 287 - 291 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115514627A (zh) * | 2022-09-21 | 2022-12-23 | 深信服科技股份有限公司 | 一种故障根因定位方法、装置、电子设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gao et al. | Task failure prediction in cloud data centers using deep learning | |
CN110309009B (zh) | 基于情境的运维故障根因定位方法、装置、设备及介质 | |
Ma et al. | Diagnosing root causes of intermittent slow queries in cloud databases | |
CN103513983B (zh) | 用于预测性警报阈值确定工具的方法和系统 | |
US8098585B2 (en) | Ranking the importance of alerts for problem determination in large systems | |
US10983856B2 (en) | Identifying root causes of performance issues | |
US20080183855A1 (en) | System and method for performance problem localization | |
EP3323046A1 (en) | Apparatus and method of leveraging machine learning principals for root cause analysis and remediation in computer environments | |
US20170372212A1 (en) | Model based root cause analysis | |
US11625315B2 (en) | Software regression recovery via automated detection of problem change lists | |
US11860721B2 (en) | Utilizing automatic labelling, prioritizing, and root cause analysis machine learning models and dependency graphs to determine recommendations for software products | |
CN114785666B (zh) | 一种网络故障排查方法与系统 | |
Bogojeska et al. | Classifying server behavior and predicting impact of modernization actions | |
CN113590451B (zh) | 一种根因定位方法、运维服务器及存储介质 | |
Zhang et al. | Efficient and robust syslog parsing for network devices in datacenter networks | |
CN114036826A (zh) | 模型训练方法、根因确定方法、装置、设备及存储介质 | |
US11392577B2 (en) | Real-time anomaly detection | |
CN114327964A (zh) | 业务系统的故障原因处理方法、装置、设备及存储介质 | |
US20090187518A1 (en) | Automatically identifying an optimal set of attributes to facilitate generating best practices for configuring a networked system | |
CN115514627A (zh) | 一种故障根因定位方法、装置、电子设备及可读存储介质 | |
Nguyen et al. | Detecting rumours with latency guarantees using massive streaming data | |
Sharma et al. | Big data reliability: A critical review | |
CN114637649A (zh) | 一种基于oltp数据库系统的告警根因分析方法及装置 | |
Alharthi et al. | Sentiment analysis based error detection for large-scale systems | |
Zasadziński et al. | Next stop" noops": Enabling cross-system diagnostics through graph-based composition of logs and metrics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |