CN113918374B - 一种运维系统的根因分析方法、装置及设备 - Google Patents

一种运维系统的根因分析方法、装置及设备 Download PDF

Info

Publication number
CN113918374B
CN113918374B CN202111487019.XA CN202111487019A CN113918374B CN 113918374 B CN113918374 B CN 113918374B CN 202111487019 A CN202111487019 A CN 202111487019A CN 113918374 B CN113918374 B CN 113918374B
Authority
CN
China
Prior art keywords
node
nodes
root cause
list
state transition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111487019.XA
Other languages
English (en)
Other versions
CN113918374A (zh
Inventor
李美伦
严川
白朋
张博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cloudwise Beijing Technology Co Ltd
Original Assignee
Cloudwise Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cloudwise Beijing Technology Co Ltd filed Critical Cloudwise Beijing Technology Co Ltd
Priority to CN202111487019.XA priority Critical patent/CN113918374B/zh
Publication of CN113918374A publication Critical patent/CN113918374A/zh
Application granted granted Critical
Publication of CN113918374B publication Critical patent/CN113918374B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种运维系统的根因分析方法、装置及设备。方法包括:获取运维系统中节点的根因分析问题描述;根据所述根因分析问题描述,生成节点状态转移记录列表,所述节点状态转移记录列表包括:各节点之间的状态转移关系;对所述节点状态转移记录列表进行筛选,得到根因节点。本发明的方案可以快速高效地找到引发问题的根源事件,加速了运维人员发现故障根本原因的过程,减少故障的平均解决时间。

Description

一种运维系统的根因分析方法、装置及设备
技术领域
本发明涉及运维系统数据处理技术领域,特别是指一种运维系统的根因分析方法、装置及设备。
背景技术
随着运维系统的不断发展,运维系统的复杂程度逐渐增加,对运维系统的行为特征进行描述也越来越困难。对于简单的运维系统,可以很容易地推导出运维事件发生的前因后果,进而将这种逻辑关系描述为系统的特征。
对于大型运维系统,这种逻辑关系描述会变得异常复杂,因此运维人员利用其排查逻辑很难快速定位问题原因,也很难形成执行手册来对问题进行解决。例如,某大型服务器的某服务出现响应时间过长的问题,运维人员可能要看几十乃至几百的指标数据和上千条的日志数据才能最终定位问题。这种基于人工的故障定位方法是非常低效的,造成了对很多故障处理不及时。
发明内容
本发明要解决的技术问题是如何提供一种运维系统的根因分析方法、装置及设备。可以快速高效地找到引发问题的根源事件,加速了运维人员发现故障根本原因的过程,减少故障的平均解决时间。
为解决上述技术问题,本发明的技术方案如下:
一种运维系统的根因分析方法,包括:
获取运维系统中节点的根因分析问题描述;
根据所述根因分析问题描述,生成节点状态转移记录列表,所述节点状态转移记录列表包括:各节点之间的状态转移关系;
对所述节点状态转移记录列表进行筛选,得到根因节点。
可选的,所述根因分析问题描述为
Figure DEST_PATH_IMAGE001
其中,S表示运维系统G在其运行时间TG内的所有节点的状态集合;
Figure 779139DEST_PATH_IMAGE002
表示根因分析过程的初始状态;
TransG为根因分析所用到的经验知识集合。
可选的,
Figure DEST_PATH_IMAGE003
Figure 848858DEST_PATH_IMAGE004
其中,对于一个
Figure DEST_PATH_IMAGE005
和运维系统
Figure 377053DEST_PATH_IMAGE006
中的两个状态
Figure DEST_PATH_IMAGE007
Figure 409776DEST_PATH_IMAGE008
如果
Figure DEST_PATH_IMAGE009
,则
Figure 656212DEST_PATH_IMAGE007
Figure 529621DEST_PATH_IMAGE008
满足Knowledge;
如果
Figure 177902DEST_PATH_IMAGE010
,则
Figure 235988DEST_PATH_IMAGE007
Figure 563196DEST_PATH_IMAGE008
不满足Knowledge;
T表示“满足”,F表示“不满足”;
NG表示运维系统G的节点集合,EventG表示运维系统G上的事件运维集合,TG表示运维系统G的运行时间;
Figure DEST_PATH_IMAGE011
表示事件在节点上的发生情况;
Figure 256607DEST_PATH_IMAGE012
表示在运维系统G中运维事件a在i时刻发生在了节点n上。
可选的,根据所述根因分析问题描述,生成节点状态转移记录列表,包括:
初始化待扩展节点列表和一已关闭节点列表,所述待扩展节点列表中包括所述S;
从所述待扩展节点列表中取出第一状态
Figure DEST_PATH_IMAGE013
,将所述第一状态
Figure 505535DEST_PATH_IMAGE013
存入所述已关闭节点列表;
获得满足
Figure 101DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE015
;其中,
Figure 221129DEST_PATH_IMAGE008
为与
Figure 701920DEST_PATH_IMAGE013
满足Knowledge的第二状态;
将所述
Figure 511744DEST_PATH_IMAGE016
存入节点状态转移记录列表;
如果
Figure 459103DEST_PATH_IMAGE008
不在所述已关闭列表中,则将
Figure 823219DEST_PATH_IMAGE008
放入待扩展节点列表,直到所述待扩展节点列表中的所有状态遍历完毕,得到所述节点状态转移记录列表。
可选的,对所述节点状态转移记录列表进行筛选,得到根因节点,包括:
将所述状态转移记录列表的各元素形成有向图;
对所述有向图的节点进行遍历,得到根因节点。
可选的,对所述有向图的节点进行遍历,得到根因节点,包括:
对所述有向图的节点进行遍历得到的所有叶子节点,作为根因节点。
可选的,运维系统的根因分析方法,还包括:输出所述根因节点形成的根因节点集合和/或所述节点状态转移记录列表。
本发明的实施例还提供一种运维系统的根因分析装置,包括:
获取模块,用于获取运维系统中节点的根因分析问题描述;
处理模块,用于根据所述根因分析问题描述,生成节点状态转移记录列表,所述节点状态转移记录列表包括:各节点之间的状态转移关系;对所述节点状态转移记录列表进行筛选,得到根因节点。
本发明的实施例还提供一种计算设备,包括:处理器、存储有计算机程序的存储器,所述计算机程序被处理器运行时,执行如上所述的运维系统的根因分析方法。
本发明的实施例还提供一种计算机可读存储介质,存储指令,当所述指令在计算机上运行时,使得计算机执行如上所述的运维系统的根因分析方法。
本发明的上述方案至少包括以下有益效果:
通过获取运维系统中节点的根因分析问题描述;根据所述根因分析问题描述,生成节点状态转移记录列表,所述节点状态转移记录列表包括:各节点之间的状态转移关系;对所述节点状态转移记录列表进行筛选,得到根因节点;可以快速高效地找到引发问题的根源事件,加速了运维人员发现故障根本原因的过程,减少故障的平均解决时间。
附图说明
图1为本发明实施例提供的运维系统的根因分析方法流程图;
图2为本发明实施例提供的运维系统的根因分析方法的一具体流程图;
图3为本发明实施例提供的运维系统网络配置图;
图4为本发明实施例提供的运维系统的根因分析装置的模块示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明的实施例中,运维系统是指运维对象实体集合的统称,例如某互联网公司在某地的机房,银行业务系统等。
节点:运维系统中实现单一功能的实体模块或抽象模块,例如微服务、服务器、中间件、业务应用、业务模块等。
运维事件:某种与运维系统结构或性质改变相关的事件,例如某服务器的CPU使用率超过阈值,某业务的响应时间过长,某服务调用的失败率过高等。
形式逻辑:描述性质的形式化方法。
逻辑公式:满足给定形式语言语法的句子描述,通常以符号化的、具有特定含义的语法结构来表示,是组成形式逻辑的基本单元。
如图1所示,本发明的实施例提供一种运维系统的根因分析方法,包括:
步骤11,获取运维系统中节点的根因分析问题描述;
步骤12,根据所述根因分析问题描述,生成节点状态转移记录列表,所述节点状态转移记录列表包括:各节点之间的状态转移关系;
步骤13,对所述节点状态转移记录列表进行筛选,得到根因节点。
本发明的上述实施例通过获取运维系统中节点的根因分析问题描述;根据所述根因分析问题描述,生成节点状态转移记录列表,所述节点状态转移记录列表包括:各节点之间的状态转移关系;对所述节点状态转移记录列表进行筛选,得到根因节点;可以快速高效地找到引发问题的根源事件,加速了运维人员发现故障根本原因的过程,减少故障的平均解决时间。
本发明的一可选的实例中,所述根因分析问题描述为
Figure DEST_PATH_IMAGE017
其中,S表示运维系统G在其运行时间TG内的所有节点的状态集合;
Figure 248646DEST_PATH_IMAGE018
表示根因分析过程的初始状态;
TransG为根因分析所用到的经验知识集合。
其中,
Figure DEST_PATH_IMAGE019
Figure 386412DEST_PATH_IMAGE020
其中,对于一个
Figure DEST_PATH_IMAGE021
和运维系统G中的两个状态
Figure 770251DEST_PATH_IMAGE007
Figure 28188DEST_PATH_IMAGE008
如果
Figure 975415DEST_PATH_IMAGE009
,则
Figure 900777DEST_PATH_IMAGE007
Figure 642468DEST_PATH_IMAGE008
满足Knowledge;
如果
Figure 263068DEST_PATH_IMAGE022
,则
Figure DEST_PATH_IMAGE023
Figure 623773DEST_PATH_IMAGE008
不满足Knowledge;
T表示“满足”,F表示“不满足”;
NG表示运维系统G的节点集合,EventG表示运维系统G上的事件运维集合,TG表示运维系统G的运行时间;
Figure 200379DEST_PATH_IMAGE024
表示事件在节点上的发生情况;
Figure DEST_PATH_IMAGE025
表示在运维系统G中运维事件a在i时刻发生在了节点n上。
本发明一可选的实施例中,步骤12可以包括:
步骤121,初始化待扩展节点列表和一已关闭节点列表,所述待扩展节点列表中包括S;
步骤122,从所述待扩展节点列表中取出第一状态
Figure 16368DEST_PATH_IMAGE023
,将所述第一状态
Figure 514476DEST_PATH_IMAGE023
存入所述已关闭节点列表;
步骤123,获得满足
Figure 803506DEST_PATH_IMAGE026
Figure DEST_PATH_IMAGE027
;其中,
Figure 719772DEST_PATH_IMAGE008
为与
Figure 944211DEST_PATH_IMAGE023
满足Knowledge的第二状态;
步骤124,将所述
Figure 788670DEST_PATH_IMAGE028
存入节点状态转移记录列表;
步骤125,如果
Figure 163282DEST_PATH_IMAGE008
不在所述已关闭列表中,则将
Figure 245639DEST_PATH_IMAGE008
放入待扩展节点列表,直到所述待扩展节点列表中的所有状态遍历完毕,得到所述节点状态转移记录列表。
本发明一可选的实施例中,步骤13可以包括:
步骤131,将所述状态转移记录列表的各元素形成有向图;
步骤132,对所述有向图的节点进行遍历,得到根因节点。
具体的,对所述有向图的节点进行遍历得到的所有叶子节点,作为根因节点。
本发明一可选的实施例中,运维系统的根因分析方法,在上述步骤的基础上,还可以包括:
步骤14,输出所述根因节点形成的根因节点集合和/或所述节点状态转移记录列表。
一种具体的实现流程中,对于给定的根因分析问题
Figure DEST_PATH_IMAGE029
,首先对所需中间变量进行初始化,而后利用TransG构造出S中各系统状态之间的转移关系,最后通过筛选步骤,将非根因的节点删除,最终得到根因节点集合并输出。其具体工作步骤如图2所示:
步骤1,初始化待扩展节点列表、已关闭节点列表和状态转移记录列表,其中,状态转移记录列表为空,并将
Figure 770206DEST_PATH_IMAGE030
加入待扩展节点列表。
步骤2,从待扩展节点列表中取出某状态,设为
Figure 649431DEST_PATH_IMAGE013
步骤3,将
Figure 155630DEST_PATH_IMAGE013
放入已关闭节点列表。
步骤4,找到所有状态
Figure 92493DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE031
,满足
Figure 65260DEST_PATH_IMAGE032
步骤5,将
Figure DEST_PATH_IMAGE033
放入状态转移记录列表;如果
Figure 431781DEST_PATH_IMAGE008
不在已关闭列表中,则将
Figure 600725DEST_PATH_IMAGE008
放入待扩展节点列表。
步骤6,判断待扩展节点列表为空。如果是则顺序继续进行;否则跳转至步骤2。
步骤7,利用状态转移记录列表,构造状态转移有向图。
步骤8,根据状态转移有向图,提取其中所有的叶子节点的集合为根因节点集合。
步骤9,输出根因节点集合与状态转移记录列表。
下面结合具体的运维系统说明本发明的上述实施例的具体实现场景:
如图3所示,每一个服务分别运行在独立的虚拟机上。每一个虚拟机都部署在物理主机上。需要注意的是,
Figure 939565DEST_PATH_IMAGE034
Figure DEST_PATH_IMAGE035
上LVS类型的节点是负载均衡器,用于协调同一业务在分布式服务器上的执行以实现资源的高效利用。对于图中表示的每一个虚拟机,以其图中的名字
Figure 94952DEST_PATH_IMAGE036
来表示。对于图中的物理主机,用
Figure DEST_PATH_IMAGE037
表示,其中
Figure 292977DEST_PATH_IMAGE038
为部署
Figure 265612DEST_PATH_IMAGE034
Figure DEST_PATH_IMAGE039
的主机,
Figure 990117DEST_PATH_IMAGE040
为部署
Figure DEST_PATH_IMAGE041
的主机,
Figure 852156DEST_PATH_IMAGE042
为部署
Figure DEST_PATH_IMAGE043
的主机,
Figure 255586DEST_PATH_IMAGE044
为部署
Figure 302085DEST_PATH_IMAGE045
Figure DEST_PATH_IMAGE046
的主机,
Figure 615517DEST_PATH_IMAGE047
为部署
Figure DEST_PATH_IMAGE048
Figure 507511DEST_PATH_IMAGE049
的主机。
首先,用
Figure DEST_PATH_IMAGE050
表示主机的中央处理器(CPU)使用率过高这一运维事件,用
Figure 8025DEST_PATH_IMAGE051
表示服务响应时间过长。这两个事件均可以通过对相应指标数据进行异常检测而获得。另外,用
Figure DEST_PATH_IMAGE052
表示服务在服务器的部署。该事件不体现在指标数据上,而是记录在系统的维护日志当中。
本发明的上述实施例所述的方法可以定位到更深层次和更复杂的故障根源。对符号做如下约定:属性
Figure 869933DEST_PATH_IMAGE053
表示系统的层级,其中
Figure DEST_PATH_IMAGE054
表示节点为物理主机,
Figure 569030DEST_PATH_IMAGE055
表示节点为虚拟机。属性
Figure DEST_PATH_IMAGE056
表示服务层节点的类型,具体类型如图中所示有LVS,apache和mysql三种取值。
在该实施例中,利用线性时序逻辑(Linear-time Temporal Logic,LTL)公式来表示运维知识。在这里列举说明所用到的运维知识如下:
CPU_continuity(CPU异常连续性):
Figure 924986DEST_PATH_IMAGE057
Figure DEST_PATH_IMAGE058
Figure 975113DEST_PATH_IMAGE059
,表示在10个时间间隔以内,在同一个节点上出现的两个
Figure DEST_PATH_IMAGE060
,其根因认为可能是相同的。其中
Figure 109554DEST_PATH_IMAGE061
Figure DEST_PATH_IMAGE062
RT_continuity(响应时间异常连续性):
Figure 928736DEST_PATH_IMAGE063
Figure DEST_PATH_IMAGE064
Figure 365796DEST_PATH_IMAGE065
,表示在10个时间间隔以内,在同一个节点上出现的两个
Figure DEST_PATH_IMAGE066
,其根因认为可能是相同的。其中
Figure 903219DEST_PATH_IMAGE067
Figure DEST_PATH_IMAGE068
RT_spread(响应时间传播):
Figure DEST_PATH_IMAGE070
Figure DEST_PATH_IMAGE072
Figure DEST_PATH_IMAGE074
,表示在10个时间间隔之内,下游节点的响应时间问题可能会导致上游节点的响应时间问题。其中
Figure 268779DEST_PATH_IMAGE075
Figure 270364DEST_PATH_IMAGE076
RT_to_CPU(CPU异常引起响应时间异常):
Figure DEST_PATH_IMAGE077
Figure 534118DEST_PATH_IMAGE078
,表示在10个时间间隔之内,下游节点的CPU使用率过高可能会导致上游节点的响应时间问题。其中
Figure DEST_PATH_IMAGE079
Figure 168624DEST_PATH_IMAGE080
Deployment(主机服务部署):
Figure DEST_PATH_IMAGE081
Figure 656585DEST_PATH_IMAGE082
Figure DEST_PATH_IMAGE083
,表示在物理主机上的节点部署可能会引起其CPU使用率过高。其中
Figure 60147DEST_PATH_IMAGE084
Figure DEST_PATH_IMAGE085
现在,考虑图3的运维系统所发生的故障情况。主机ps5在92秒时部署了新的服务(假设其为vm9),并在100秒时发生了CPU使用率过高的状况,继而影响到了vm5和vm8上服务的运行,使得二者所运行服务的响应时间增加,并且均在102秒产生了响应时间过长的事件。由于vm4和vm7分别调用vm5和vm8,二者随后分别在104和105秒产生了响应时间过长的事件。随后该故障继续传播,于107秒在vm6、108秒在vm1触发了响应时间过长的事件。由于除vm5和vm8以外的响应时间均由响应时间的传播性造成,除ps5外,其他物理主机均无异常出现。各节点的异常状况均在持续80秒后结束。
在150秒时发现在vm1上出现了响应时间过高的异常<long_RT>。利用本发明的上述实施例所述的方法,以该事件为入口,进行根因分析。其运行结果如下:
运行时间:0.055665016174316406
输入初始状态:(vm1,150,long_RT)
输出根因列表:[[ps5,92,deployment]]
输出推理步骤列表:[[(vm4,104,long_RT),(vm5,104,long_RT),RT_spread],[(vm1,150,long_RT),(vm1,128,long_RT), RT_continuity],[(vm4,149,long_RT),(vm5,149,long_RT),RT_spread],[(vm5,104,long_RT),(ps5,104,high_CPU_usage),RT_to_CPU],[(vm5,128,long_RT),(ps5,128,high_CPU_usage),RT_to_CPU],[(vm4,149,long_RT),(vm4,128,long_RT),RT_continuity],[(vm5,104,long_RT),(vm4,104,long_RT),RT_spread],[(vm4,128,long_RT),(vm5,128,long_RT),RT_spread],[(vm5,104,long_RT),(vm5,102,long_RT),RT_continuity],[(vm1,128,long_RT),(vm4,128,long_RT),RT_spread],[(vm4,128,long_RT),(vm1,128,long_RT),RT_spread],[(vm4,128,long_RT),(vm4,104,long_RT),RT_continuity],[(ps5,149,high_CPU_usage),(ps5,128,high_CPU_usage),CPU_continuity],[(ps5,104,high_CPU_usage),(ps5,100,high_CPU_usage),CPU_continuity],[(ps5,128,high_CPU_usage),(ps5,100,high_CPU_usage),CPU_continuity],[(vm5,128,long_RT),(vm5,102,long_RT),RT_continuity],[(vm5,128,long_RT),(vm4,128,long_RT),RT_spread],[(vm5,149,long_RT),(ps5,149,high_CPU_usage),RT_to_CPU],[(vm5,102,long_RT),(ps5,100,high_CPU_usage),RT_to_CPU],[(vm1,128,long_RT),(vm1,108,long_RT),RT_continuity],[(vm5,149,long_RT),(vm5,128,long_RT),RT_continuity],[(vm1,150,long_RT),(vm4,149,long_RT),RT_spread],[(vm5,149,long_RT),(vm4,149,long_RT),RT_spread],[(ps5,100,high_CPU_usage),(ps5,92,deployment),Deployment],[(vm1,108,long_RT),(vm4,104,long_RT),RT_spread]]
执行结果:success
可以看出,本发明的实施例成功地找到了
Figure 698064DEST_PATH_IMAGE086
上的服务部署事件<deployment>作为根因。该事件来自于维护日志数据,这表明本发明的实施例所述的方法可以在更深层次上找到根因,而非仅仅是指标层面。同时,可以输出推理步骤列表,其中的每一条信息均是一个包含三个元素的列表,如[(ps5,100,high_CPU_usage),(ps5,92,deployment),Deployment],表示从第一个元素表示的节点可以通过第三个元素表示的运维知识推理到第二个元素表示的节点。如果需要,使用者可以从中找到一条或多条从入口到根因的推理路径。
本发明的上述实施例所述的方法能够进行后续的详细根因排查。由于该发明中算法的根因分析过程是基于逻辑推理的,保证了其结果的可解释性。另外,由于其排查过程是可回溯的,可以通过检查每一步推理来确认是否当前的运维知识在当前系统上是合适的,如果不合适则可以灵活地对运维知识进行增减和修改,以适应当前系统的特性。
本发明的上述实施例所述的方法通过推理对表示运维排障经验的逻辑公式进行验证,逐层排查运维事件,直到找到引发问题的根源事件,进一步加速了运维人员发现故障根本原因的过程,减少故障的平均解决时间。
本发明的上述实施例所述的方法中,基于运维知识的根因分析推理框架,将应用范围扩展到了以往基于指标相关性的根因分析方法无法涵盖的深层次根因定位领域,具有良好的通用型和推理能力。
图4示出了本发明实施例提供的运维知识的处理装置40的结构示意图。如图4所示,该装置40包括:
获取模块41,用于获取运维系统中节点的根因分析问题描述;
处理模块42,用于根据所述根因分析问题描述,生成节点状态转移记录列表,所述节点状态转移记录列表包括:各节点之间的状态转移关系;对所述节点状态转移记录列表进行筛选,得到根因节点。
可选的,所述根因分析问题描述为
Figure DEST_PATH_IMAGE087
其中,S表示运维系统G在其运行时间TG内的所有节点的状态集合;
Figure 678921DEST_PATH_IMAGE088
表示根因分析过程的初始状态;
TransG为根因分析所用到的经验知识集合。
可选的,
Figure DEST_PATH_IMAGE089
Figure 490013DEST_PATH_IMAGE090
其中,对于一个
Figure DEST_PATH_IMAGE091
和运维系统
Figure 75978DEST_PATH_IMAGE092
中的两个状态
Figure DEST_PATH_IMAGE093
Figure 669815DEST_PATH_IMAGE094
如果
Figure DEST_PATH_IMAGE095
,则
Figure 403547DEST_PATH_IMAGE093
Figure 408543DEST_PATH_IMAGE094
满足Knowledge;
如果
Figure 239227DEST_PATH_IMAGE096
,则
Figure 999372DEST_PATH_IMAGE093
Figure 158083DEST_PATH_IMAGE094
不满足Knowledge;
T表示“满足”,F表示“不满足”;
NG表示运维系统G的节点集合,EventG表示运维系统G上的事件运维集合,TG表示运维系统G的运行时间;
Figure DEST_PATH_IMAGE097
表示事件在节点上的发生情况;
Figure 920765DEST_PATH_IMAGE098
表示在运维系统G中运维事件a在i时刻发生在了节点n上。
可选的,根据所述根因分析问题描述,生成节点状态转移记录列表,包括:
初始化待扩展节点列表和一已关闭节点列表,所述待扩展节点列表中包括所述S;
从所述待扩展节点列表中取出第一状态
Figure DEST_PATH_IMAGE099
,将所述第一状态
Figure 165145DEST_PATH_IMAGE099
存入所述已关闭节点列表;
获得满足
Figure 830612DEST_PATH_IMAGE100
Figure DEST_PATH_IMAGE101
;其中,
Figure 211040DEST_PATH_IMAGE094
为与
Figure 620156DEST_PATH_IMAGE099
满足Knowledge的第二状态;
将所述
Figure 691011DEST_PATH_IMAGE102
存入节点状态转移记录列表;
如果
Figure 261801DEST_PATH_IMAGE094
不在所述已关闭列表中,则将
Figure 785317DEST_PATH_IMAGE094
放入待扩展节点列表,直到所述待扩展节点列表中的所有状态遍历完毕,得到所述节点状态转移记录列表。
可选的,对所述节点状态转移记录列表进行筛选,得到根因节点,包括:
将所述状态转移记录列表的各元素形成有向图;
对所述有向图的节点进行遍历,得到根因节点。
可选的,对所述有向图的节点进行遍历,得到根因节点,包括:
对所述有向图的节点进行遍历得到的所有叶子节点,作为根因节点。
可选的,运维系统的根因分析装置40,还包括:
输出模块43,用于输出所述根因节点形成的根因节点集合和/或所述节点状态转移记录列表。
需要说明的是,该实施例是与上述方法实施例对应的装置实施例,上述方法实施例中的所有实现方式均适用于该装置的实施例中,也能达到相同的技术效果。
本发明实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的运维知识的处理方法。
本发明的实施例还提供一种计算设备,其特征在于,包括:处理器、存储有计算机程序的存储器,所述计算机程序被处理器运行时,执行如上所述的运维系统的根因分析方法。
该计算设备可以包括:处理器(processor)、通信接口(CommunicationsInterface)、存储器(memory)、以及通信总线。
其中:处理器、通信接口、以及存储器通过通信总线完成相互间的通信。通信接口,用于与其它设备比如客户端或其它服务器等的网元通信。处理器,用于执行程序,具体可以执行上述用于计算设备的运维系统的根因分析方法实施例中的相关步骤。
具体地,程序可以包括程序代码,该程序代码包括计算机操作指令。
处理器可能是中央处理器CPU,或者是特定集成电路ASIC(Application SpecificIntegrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器,用于存放程序。存储器可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序具体可以用于使得处理器执行上述任意方法实施例中的运维系统的根因分析方法。程序中各步骤的具体实现可以参见上述运维系统的根因分析方法实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明实施例的内容,并且上面对特定语言所做的描述是为了披露本发明实施例的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明实施例并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明实施例要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者系统程序(例如,计算机程序和计算机程序产品)。这样的实现本发明实施例的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明实施例进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明实施例可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干系统的单元权利要求中,这些系统中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。

Claims (5)

1.一种运维系统的根因分析方法,其特征在于,包括:
获取运维系统中节点的根因分析问题描述;
根据所述根因分析问题描述,生成节点状态转移记录列表,所述节点状态转移记录列表包括:各节点之间的状态转移关系;
对所述节点状态转移记录列表进行筛选,得到根因节点;
其中,所述根因分析问题描述为
Figure 607476DEST_PATH_IMAGE001
其中,S表示运维系统G在其运行时间TG内的所有节点的状态集合;
Figure 906739DEST_PATH_IMAGE002
表示根因分析过程的初始状态;
TransG为根因分析所用到的经验知识集合;
Figure 868004DEST_PATH_IMAGE003
Figure 128084DEST_PATH_IMAGE004
其中,对于一个
Figure 830068DEST_PATH_IMAGE005
和运维系统G中的两个状态s1和s2,如果
Figure 187100DEST_PATH_IMAGE006
,则s1和s2满足Knowledge;如果
Figure 381583DEST_PATH_IMAGE007
,则s1和s2不满足Knowledge;
T表示“满足”,F表示“不满足”;
NG表示运维系统G的节点集合,EventG表示运维系统G上的事件运维集合,TG表示运维系统G的运行时间;
Figure 191276DEST_PATH_IMAGE008
表示事件在节点上的发生情况;
Figure 352743DEST_PATH_IMAGE009
表示在运维系统G中运维事件a在i时刻发生在了节点n上;
其中,根据所述根因分析问题描述,生成节点状态转移记录列表,包括:
初始化待扩展节点列表和一已关闭节点列表,所述待扩展节点列表中包括S;
从所述待扩展节点列表中取出第一状态s1,将所述第一状态s1存入所述已关闭节点列表;
获得满足
Figure 128063DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE010
;其中,s2为与s1满足Knowledge的第二状态;
将所述
Figure 564553DEST_PATH_IMAGE010
存入节点状态转移记录列表;
如果s2不在所述已关闭列表中,则将s2放入待扩展节点列表,直到所述待扩展节点列表中的所有状态遍历完毕,得到所述节点状态转移记录列表;
其中,对所述节点状态转移记录列表进行筛选,得到根因节点,包括:
将所述状态转移记录列表的各元素形成有向图;
对所述有向图的节点进行遍历,得到根因节点;
其中,对所述有向图的节点进行遍历,得到根因节点,包括:
对所述有向图的节点进行遍历得到的所有叶子节点,作为根因节点。
2.根据权利要求1所述的运维系统的根因分析方法,其特征在于,还包括:输出所述根因节点形成的根因节点集合和/或所述节点状态转移记录列表。
3.一种运维系统的根因分析装置,其特征在于,包括:
获取模块,用于获取运维系统中节点的根因分析问题描述;
处理模块,用于根据所述根因分析问题描述,生成节点状态转移记录列表,所述节点状态转移记录列表包括:各节点之间的状态转移关系;对所述节点状态转移记录列表进行筛选,得到根因节点;
其中,所述根因分析问题描述为
Figure 799226DEST_PATH_IMAGE001
其中,S表示运维系统G在其运行时间TG内的所有节点的状态集合;
Figure 580362DEST_PATH_IMAGE002
表示根因分析过程的初始状态;
TransG为根因分析所用到的经验知识集合;
Figure 974303DEST_PATH_IMAGE003
Figure 710922DEST_PATH_IMAGE004
其中,对于一个
Figure 495207DEST_PATH_IMAGE005
和运维系统G中的两个状态s1和s2,如果
Figure 266985DEST_PATH_IMAGE006
,则s1和s2满足Knowledge;如果
Figure 686072DEST_PATH_IMAGE007
,则s1和s2不满足Knowledge;
T表示“满足”,F表示“不满足”;
NG表示运维系统G的节点集合,EventG表示运维系统G上的事件运维集合,TG表示运维系统G的运行时间;
Figure 95056DEST_PATH_IMAGE008
表示事件在节点上的发生情况;
Figure 930419DEST_PATH_IMAGE009
表示在运维系统G中运维事件a在i时刻发生在了节点n上;
其中,根据所述根因分析问题描述,生成节点状态转移记录列表,包括:
初始化待扩展节点列表和一已关闭节点列表,所述待扩展节点列表中包括S;
从所述待扩展节点列表中取出第一状态s1,将所述第一状态s1存入所述已关闭节点列表;
获得满足
Figure 817473DEST_PATH_IMAGE006
Figure 294328DEST_PATH_IMAGE010
;其中,s2为与s1满足Knowledge的第二状态;
将所述
Figure 343056DEST_PATH_IMAGE010
存入节点状态转移记录列表;
如果s2不在所述已关闭列表中,则将s2放入待扩展节点列表,直到所述待扩展节点列表中的所有状态遍历完毕,得到所述节点状态转移记录列表;
其中,对所述节点状态转移记录列表进行筛选,得到根因节点,包括:
将所述状态转移记录列表的各元素形成有向图;
对所述有向图的节点进行遍历,得到根因节点;
其中,对所述有向图的节点进行遍历,得到根因节点,包括:
对所述有向图的节点进行遍历得到的所有叶子节点,作为根因节点。
4.一种计算设备,其特征在于,包括:处理器、存储有计算机程序的存储器,所述计算机程序被处理器运行时,执行如权利要求1至2任一项所述的运维系统的根因分析方法。
5.一种计算机可读存储介质,其特征在于,存储指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1至2任一项所述的运维系统的根因分析方法。
CN202111487019.XA 2021-12-08 2021-12-08 一种运维系统的根因分析方法、装置及设备 Active CN113918374B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111487019.XA CN113918374B (zh) 2021-12-08 2021-12-08 一种运维系统的根因分析方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111487019.XA CN113918374B (zh) 2021-12-08 2021-12-08 一种运维系统的根因分析方法、装置及设备

Publications (2)

Publication Number Publication Date
CN113918374A CN113918374A (zh) 2022-01-11
CN113918374B true CN113918374B (zh) 2022-03-08

Family

ID=79248656

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111487019.XA Active CN113918374B (zh) 2021-12-08 2021-12-08 一种运维系统的根因分析方法、装置及设备

Country Status (1)

Country Link
CN (1) CN113918374B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115277370B (zh) * 2022-09-23 2023-02-03 云智慧(北京)科技有限公司 一种运维系统的根因节点的确定方法、装置及设备
CN115357843A (zh) * 2022-10-20 2022-11-18 云智慧(北京)科技有限公司 一种运维经验的验证方法、装置及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110535686A (zh) * 2019-07-25 2019-12-03 深圳壹师城科技有限公司 异常事件处理方法和装置
CN110955575A (zh) * 2019-11-14 2020-04-03 国网浙江省电力有限公司信息通信分公司 一种基于关联分析模型的业务系统故障定位方法
CN112416645A (zh) * 2020-12-03 2021-02-26 广州云岫信息科技有限公司 一种基于人工智能的故障根因推断定位方法及装置
CN113190373A (zh) * 2021-05-31 2021-07-30 中国人民解放军国防科技大学 一种基于故障特征比较的微服务系统故障根因定位方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10798230B2 (en) * 2018-08-23 2020-10-06 Morgan Stanley Services Group Inc. Faulty distributed system component identification
US10915435B2 (en) * 2018-11-28 2021-02-09 International Business Machines Corporation Deep learning based problem advisor
CN111324643B (zh) * 2020-03-30 2023-08-29 北京百度网讯科技有限公司 知识图谱的生成方法、关系挖掘方法、装置、设备和介质
CN112784899B (zh) * 2021-01-20 2023-04-18 中国电力科学研究院有限公司 变电运维知识频繁模式挖掘方法、装置、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110535686A (zh) * 2019-07-25 2019-12-03 深圳壹师城科技有限公司 异常事件处理方法和装置
CN110955575A (zh) * 2019-11-14 2020-04-03 国网浙江省电力有限公司信息通信分公司 一种基于关联分析模型的业务系统故障定位方法
CN112416645A (zh) * 2020-12-03 2021-02-26 广州云岫信息科技有限公司 一种基于人工智能的故障根因推断定位方法及装置
CN113190373A (zh) * 2021-05-31 2021-07-30 中国人民解放军国防科技大学 一种基于故障特征比较的微服务系统故障根因定位方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
AIOps中异常检测及根因分析算法研究;张玲玉;《中国优秀硕士学位论文全文数据库》;20210215;全文 *
Machine Learning-based Approach to Detect Online Performance Problems in Distributed Systems;John Freddy Duitama;《IEEE》;20200116;全文 *

Also Published As

Publication number Publication date
CN113918374A (zh) 2022-01-11

Similar Documents

Publication Publication Date Title
CN113918374B (zh) 一种运维系统的根因分析方法、装置及设备
US10616044B1 (en) Event based service discovery and root cause analysis
US20200358780A1 (en) Security vulnerability assessment for users of a cloud computing environment
AU2015201161B2 (en) Event correlation
CN113315742B (zh) 攻击行为检测方法、装置及攻击检测设备
Könighofer et al. Debugging formal specifications using simple counterstrategies
CN107656864A (zh) 一种基于概率模型的移动应用自动化测试方法
US20200099570A1 (en) Cross-domain topological alarm suppression
US10635521B2 (en) Conversational problem determination based on bipartite graph
CN113590454A (zh) 测试方法、装置、计算机设备和存储介质
US11561850B1 (en) System and method for performing failure analysis on a computing system using a bayesian network
EP4010828A1 (en) Automatic generation of detection alerts
JP2018169693A (ja) 情報処理装置、情報処理方法および情報処理プログラム
Ding et al. TraceDiag: Adaptive, Interpretable, and Efficient Root Cause Analysis on Large-Scale Microservice Systems
CN112532625A (zh) 网络态势感知评估数据更新方法、装置及可读存储介质
CN114679295B (zh) 防火墙安全配置方法及装置
US10884773B2 (en) Abstraction of backtracking
US11360745B2 (en) Code generation for log-based mashups
CN114611743A (zh) 一种系统性能优化方法、装置、电子设备及其可读介质
Tomášek et al. Intrusion detection system based on system behavior
Rana et al. Nomenclature unification of software product measures
US10121008B1 (en) Method and process for automatic discovery of zero-day vulnerabilities and expoits without source code access
JP5836316B2 (ja) 障害監視システム、障害監視方法、及び障害監視プログラム
CN115357843A (zh) 一种运维经验的验证方法、装置及设备
Minz et al. Cyber Security Using Bayesian Attack Path Analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant