CN110609761A - 确定故障源的方法、装置、存储介质和电子设备 - Google Patents

确定故障源的方法、装置、存储介质和电子设备 Download PDF

Info

Publication number
CN110609761A
CN110609761A CN201910843559.3A CN201910843559A CN110609761A CN 110609761 A CN110609761 A CN 110609761A CN 201910843559 A CN201910843559 A CN 201910843559A CN 110609761 A CN110609761 A CN 110609761A
Authority
CN
China
Prior art keywords
module
fault
target
alarm
alarm module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910843559.3A
Other languages
English (en)
Other versions
CN110609761B (zh
Inventor
周航星
王天
田文博
宋斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN201910843559.3A priority Critical patent/CN110609761B/zh
Publication of CN110609761A publication Critical patent/CN110609761A/zh
Application granted granted Critical
Publication of CN110609761B publication Critical patent/CN110609761B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本公开涉及一种确定故障源的方法、装置、存储介质和电子设备,该方法包括:获取目标告警模块的调用关系,该目标告警模块为发出告警信息的告警模块中未在预设的故障源模块集合中确定对应的故障源模块的告警模块,该调用关系用于表征该目标告警模块发生故障时与该目标告警模块存在调用关系的模块;根据调用关系以及故障源模块集合,获取能够表征目标故障源模块到目标告警模块之间的调用关系的完备故障链,以确定导致该目标告警模块发出告警信息的目标故障源模块。能够根据告警模块发生故障时的调用关系和预先确定的故障源模块集合确定告警模块的故障链,进而确定告警模块的故障源,降低故障源确认过程中的人工成本,提高系统运维效率。

Description

确定故障源的方法、装置、存储介质和电子设备
技术领域
本公开涉及系统运维领域,具体地,涉及一种确定故障源的方法、装置、存储介质和移动终端。
背景技术
目前,随着计算机科学技术的飞速发展,通过集群通讯系统间计算机软件和/或硬件的配合来完成某项任务逐渐成为一种高效的任务处理手段。该集群通讯系统可以为提供在线服务的集群网络系统。当该集群网络系统发生大规模故障时,系统内位于不同子系统中的互相配合的各个计算机软件和/或硬件模块会发出大量的告警信息。在系统运维过程中,首先需要确定引发该故障的故障源(实际为系统内致使某一故障发生的故障源模块或称根因模块),并将故障源相同的告警信息收集到一起,以对故障进行综合分析、修复和预防,降低运维成本,提高运维效率。
发明内容
为克服相关技术中存在的问题,本公开提供一种确定故障源的方法、装置、存储介质和电子设备。
根据本公开实施例的第一方面,提供一种确定故障源的方法,所述方法包括:
获取目标告警模块的调用关系信息,所述目标告警模块为发出告警信息的多个告警模块中,未在预设的故障源模块集合中确定对应的故障源模块的告警模块,所述调用关系信息为用于表征所述目标告警模块发生故障时与该目标告警模块存在调用关系的模块的信息;
根据所述调用关系信息以及所述故障源模块集合,获取所述目标告警模块对应的完备故障链,以确定导致所述目标告警模块发出告警信息的目标故障源模块,所述完备故障链为用于表征所述目标故障源模块到所述目标告警模块之间的调用关系的信息。
可选的,在所述获取目标告警模块的调用关系信息之前,所述方法还包括:
获取系统内的所述告警信息;
根据所述告警信息确定发出所述告警信息的告警模块对应的故障链,所述故障链包含所述告警模块以及所述系统内与所述告警模块存在调用关系并且在所述告警模块发出告警信息时也发出告警信息的模块;
确定所述故障链是否为非完备故障链;其中,所述非完备故障链包含所述告警模块但不包含导致所述告警模块发出告警信息的故障源模块;
当确定所述故障链为非完备故障链时,将所述非完备故障链中的告警模块作为所述目标告警模块。
可选的,所述调用关系信息为以所述目标告警模块为根节点,以与所述目标告警模块存在调用关系的一个或多个调用关联模块为子节点的调用关系树,相应地,
所述根据所述调用关系信息以及所述故障源模块集合,获取所述目标告警模块对应的完备故障链,以确定导致所述目标告警模块发出告警信息的目标故障源模块,包括:
确定所述调用关系树中的目标模块,所述目标模块既包含于所述调用关系树中也包含于所述故障源模块集合中;
获取所述调用关系树中的包含所述目标告警模块和所述目标模块的调用关系分支;其中,所述目标告警模块处于所述调用关系分支的一端,所述目标模块处于所述调用关系分支的另一端;
若所述调用关系分支中包含所述目标告警模块所处的非完备故障链,将所述调用关系分支作为所述目标告警模块对应的完备故障链;
将所述目标模块作为所述目标故障源模块。
可选的,在所述根据所述调用关系信息以及所述故障源模块集合,获取所述目标告警模块对应的完备故障链之后,所述方法还包括:
根据每个所述告警模块所处的完备故障链,对每个所述告警模块发出的告警信息进行分类。
可选的,所述根据每个所述告警模块所处的完备故障链,对每个所述告警模块发出的告警信息进行分类,包括:所述方法还包括:
将包含相同故障源模块的完备故障链划分为同一故障组;
将处于同一故障组的完备故障链中的告警模块发出的告警信息划分为同一告警分类组,以将收集到的所述多个告警信息划分为多个所述告警分类组。
可选的,所述若所述调用关系分支中包含所述目标告警模块所处的非完备故障链,将所述调用关系分支作为所述目标告警模块对应的完备故障链,包括:
若确定所述调用关系树中存在一个第一调用关系分支,将所述第一调用关系分支作为所述目标告警模块对应的完备故障链,所述第一调用关系分支为包含所述非完备故障链的调用关系分支;或者,
若确定所述调用关系树中存在多个所述第一调用关系分支,将从多个所述第一调用关系分支中筛选出的第二调用关系分支作为所述目标告警模块对应的完备故障链。
可选的,所述将从多个所述第一调用关系分支中筛选出的第二调用关系分支作为所述目标告警模块对应的完备故障链,包括:
获取每个所述第一调用关系分支的权重和,所述权重和为所述第一调用关系分支中每两个节点之间的调用关系对应的权重的总和;
从多个所述第一调用关系分支中确定权重和最大的第二调用关系分支,作为所述目标告警模块对应的完备故障链。
根据本公开实施例的第二方面,提供一种确定故障源的装置,所述装置包括:
信息获取模块,用于获取目标告警模块的调用关系信息,所述目标告警模块为发出告警信息的多个告警模块中,未在预设的故障源模块集合中确定对应的故障源模块的告警模块,所述调用关系信息为用于表征所述目标告警模块发生故障时与该目标告警模块存在调用关系的模块的信息;
故障源确定模块,用于根据所述调用关系信息以及所述故障源模块集合,获取所述目标告警模块对应的完备故障链,以确定导致所述目标告警模块发出告警信息的目标故障源模块,所述完备故障链为用于表征所述目标故障源模块到所述目标告警模块之间的调用关系的信息。
可选的,所述装置还包括:
告警收集模块,用于获取系统内的所述告警信息;
故障链确定模块,用于根据所述告警信息确定发出所述告警信息的告警模块对应的故障链,所述故障链包含所述告警模块以及所述系统内与所述告警模块存在调用关系并且在所述告警模块发出告警信息时也发出告警信息的模块;
故障链判断模块,用于确定所述故障链是否为非完备故障链;其中,所述非完备故障链包含所述告警模块但不包含导致所述告警模块发出告警信息的故障源模块;
告警模块确定模块,用于当确定所述故障链为非完备故障链时,将所述非完备故障链中的告警模块作为所述目标告警模块。
可选的,所述调用关系信息为以所述目标告警模块为根节点,以与所述目标告警模块存在调用关系的一个或多个调用关联模块为子节点的调用关系树,相应地,
所述故障源确定模块,用于:
确定所述调用关系树中的目标模块,所述目标模块既包含于所述调用关系树中也包含于所述故障源模块集合中;
获取所述调用关系树中的包含所述目标告警模块和所述目标模块的调用关系分支;其中,所述目标告警模块处于所述调用关系分支的一端,所述目标模块处于所述调用关系分支的另一端;
若所述调用关系分支中包含所述目标告警模块所处的非完备故障链,将所述调用关系分支作为所述目标告警模块对应的完备故障链;
将所述目标模块作为所述目标故障源模块。
可选的,所述装置还包括:
告警分类模块,用于根据每个所述告警模块所处的完备故障链,对每个所述告警模块发出的告警信息进行分类。
可选的,所述告警分类模块,用于:
将包含相同故障源模块的完备故障链划分为同一故障组;
将处于同一故障组的完备故障链中的告警模块发出的告警信息划分为同一告警分类组,以将收集到的所述多个告警信息划分为多个所述告警分类组。
根据本公开实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开第一方面所提供的确定故障源的方法的步骤。
根据本公开实施例的第四方面,提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现本公开第一方面所提供的确定故障源的方法的步骤。
采用本公开提供的技术方案,至少可以达到如下技术效果:
通过获取目标告警模块的调用关系信息,该目标告警模块为发出告警信息的告警模块中,未在预设的故障源模块集合中确定对应的故障源模块的告警模块,该调用关系为用于表征该目标告警模块发生故障时与该目标告警模块存在调用关系的模块的信息;根据该调用关系信息以及该故障源模块集合,获取该目标告警模块对应的完备故障链,以确定导致该目标告警模块发出告警信息的目标故障源模块,该完备故障链为用于表征该目标故障源模块到该目标告警模块之间的调用关系的信息。能够根据告警模块发生故障时的调用关系和预先确定的故障源模块集合确定告警模块所处的故障链,进而确定告警模块的故障源模块,降低告警模块的故障源确认过程中的人工成本,提高系统运维效率。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据一示例性实施例示出的一种确定故障源的方法的流程图;
图2是根据图1示出的另一种确定故障源的方法的流程图;
图3是根据图2示出的一种故障源模块确定方法的流程图;
图4是根据图3示出的一种确定故障源的方法的示意图;
图5是根据图2示出的又一种确定故障源的方法的流程图;
图6是根据图5示出的一种告警信息分类方法的流程图;
图7是根据一示例性实施例示出的一种确定故障源的装置的框图;
图8是根据图7示出的另一种确定故障源的装置的框图;
图9是根据图8示出的又一种确定故障源的装置的框图;
图10是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
相关技术中,系统发生大规模故障时对发出告警信息模块的故障源进行定位的方法通常为,在故障发生时,收集和分析系统内各个模块的告警信息,通过分析告警信息中的状态指标确定引发告警的故障源,再对故障源相同的告警信息进行分类收敛。而对于未能正确定位到故障源的告警信息,需要运维人员介入进行分析和归类处理,系统运维效率低,人工成本高。
发明人注意到这一问题,提出了一种确定故障源的方法,具体如下:
首先,对本公开中各个实施例所涉及的目标应用场景进行介绍,该目标应用场景包括一集群网络系统,该集群网络系统为由多个网络节点组成的分布式网络集群,其中,该集群网络系统中的每个模块为分布式网络集群中的网络节点,该网络节点可以为服务器、交换机组或终端。根据实现的功能或所处的区域,该集群网络系统可以被分为不同的子系统,上述网络节点可以包含于不同的子系统中。
图1是根据一示例性实施例示出的一种确定故障源的方法的流程图,应用于上述的集群网络系统,该方法包括以下步骤:
在步骤101中,获取目标告警模块的调用关系信息。
其中,该目标告警模块为发出告警信息的多个告警模块中,未在预设的故障源模块集合中确定对应的故障源模块的告警模块,该调用关系信息为用于表征该目标告警模块发生故障时与该目标告警模块存在调用关系的模块的信息。该集群网络系统中发出告警信息的模块即为上述的告警模块。该故障源模块集合中包含的故障源模块为根据每个模块的业务功能、所处的子系统以及历史故障记录等预先确定的故障源,也就是说,该集群网络系统内的所有故障都可以认为是以该故障源模块集合中的故障源模块为源头的。
示例地,在该步骤101之前,可以通过相关技术中的故障分析方法,根据该告警信息确定告警模块所对应故障源模块(也可称为致使该告警模块发生故障的根因模块),进而将未能根据上述故障分析技术确定故障源模块的告警模块作为目标告警模块。此后,可以在该目标故障模块发生故障的时刻,记录该集群网络系统内与该目标告警模块存在调用行为(即调用该目标告警模块或者被该目标告警模块调用的行为)的其他模块的信息,以及该调用行为的信息,作为上述的调用关系信息。
在步骤102中,根据该调用关系信息以及该故障源模块集合,获取该目标告警模块对应的完备故障链,以确定导致该目标告警模块发出告警信息的目标故障源模块。
其中,该完备故障链为用于表征该目标故障源模块到该目标告警模块之间的调用关系的信息。
示例地,在步骤101之后,可以获取到目标告警模块的调用关系信息,以及包含该目标告警模块的一组告警模块。这组告警模块实际包含与目标告警模块具备故障相关关系的多个模块(即一个故障链),或者仅包含该目标告警模块。但是,这组告警模块组成的故障链不包括故障源模块,即,该故障链是一个残缺的、无法定位到故障源模块的非完备故障链。因此,在步骤102中需要根据该调用关系信息与该故障源模块集合将这个非完备故障链补齐为一个包含故障源模块的完备故障链,同时也就可以将该完备故障链中的故障源模块作为导致该目标告警模块发出告警信息的目标故障源模块。
综上所述,本公开的实施例所提供的技术方案,能够通过获取目标告警模块的调用关系信息,该目标告警模块为发出告警信息的告警模块中,未在预设的故障源模块集合中确定对应的故障源模块的告警模块,该调用关系信息为用于表征该目标告警模块发生故障时与该目标告警模块存在调用关系的模块的信息;根据该调用关系信息以及该故障源模块集合,获取该目标告警模块对应的完备故障链,以确定导致该目标告警模块发出告警信息的目标故障源模块,该完备故障链为用于表征该目标故障源模块到该目标告警模块之间的调用关系的信息。能够根据告警模块发生故障时的调用关系和预先确定的故障源模块集合确定告警模块所处的故障链,进而确定告警模块的故障源模块,降低告警模块的故障源确认过程中的人工成本,提高系统运维效率。
图2是根据图1示出的另一种确定故障源的方法的流程图,如图2所示,在上述步骤101之前,该方法还可以包括:
在步骤103中,获取系统内的该告警信息。
示例地,该系统可以为上述的网络集群系统。当某个故障源模块自身出现故障(可以称为该故障源模块的原生故障)时,该原生故障会基于该故障源模块出现故障时的调用行为在上述的集群网络系统中传播,即,该原生故障会影响与该故障源模块具备调用关系的其他模块的运行,导致其他模块也同时发生故障。无论故障源模块还是非故障源模块,在故障发生时都会发出相应的告警信息。该系统可以每隔预设时间(例如,5秒)收集各个模块的发出的告警信息。
在步骤104中,根据该告警信息确定发出该告警信息的告警模块对应的故障链。
其中,该故障链包含该告警模块以及该系统内与该告警模块存在调用关系并且在该告警模块发出告警信息时也发出告警信息的模块。
示例地,如上所述,由于故障源模块出现故障时的调用行为而被上述的原生故障影响进而发生故障的其他告警模块,可以和该故障源一起组成一个能够表示故障关联关系的故障链。可以通过上述的故障分析技术根据告警信息的内容确定该故障链。具体地,该告警信息中可以包含一项或多项用于表征故障症状的指标信息,包括:服务指标、机器指标、网络指标、业务指标等。其中,该服务指标可以包括网络耗时和数据传输错误率等;该机器指标可以包括CPU(Central Processing Unit,中央处理器)利用率和数据库I/O(Input/Output,输入/输出)异常状态等;该网络指标可以包括机房延迟时间和公网丢包率等;该业务指标可以包括每个模块对应的业务功能的业务KPI(Key Performance Indicator,关键绩效指标)等。基于上述一项或多项指标信息,该故障分析技术可以分析出致使该告警模块出现故障的故障源模块以及被该故障源模块影响而发出告警信息的其他告警模块,即确定该告警模块的故障链。
在步骤105中,确定该故障链是否为非完备故障链。
其中,该非完备故障链包含该告警模块但不包含导致该告警模块发出告警信息的故障源模块,而既包含该告警模块又包含导致该告警模块发出告警信息的故障源模块的故障链为完备故障链。
在步骤106中,当确定该故障链为非完备故障链时,将该非完备故障链中的告警模块作为该目标告警模块。
示例地,当确定该故障链为非完备故障链时,可以认为通过上述的故障分析技术根据告警信息的内容无法确定该非完备故障链中的告警模块对应的故障源模块。因此需要将该告警模块作为目标告警模块,以通过步骤101-102所述的方法确定该告警模块(即目标告警模块)的完备故障链,进而确定该目标告警模块对应的故障源模块。
图3是根据图2示出的一种故障源模块确定方法的流程图,如图3所示,该调用关系信息为以该目标告警模块为根节点,以与该目标告警模块存在调用关系的一个或多个调用关联模块为子节点的调用关系树,相应地,该步骤102,包括:
在步骤1021中,确定该调用关系树中的目标模块。
其中,该目标模块既包含于该调用关系树中也包含于该故障源模块集合中。
示例地,在不区分调用关系的具体调用方向(即将该目标告警模块调用模块A或者被模块A调用的行为视为同一调用关系)的情况下,该目标告警模块的调用关系信息可以通过上述的调用关系树表示。该步骤1021实际为寻找该调用关系树中包含的已被确定的故障源模块,作为目标模块。可以理解的是,该调用关系树中可以包含一个或多个该目标模块。
在步骤1022中,获取该调用关系树中的包含该目标告警模块和该目标模块的调用关系分支。
其中,该目标告警模块处于该调用关系分支的一端,该目标模块处于该调用关系分支的另一端。
示例地,每个调用关系分支实际为一个链状结构,因此,在调用关系树中,在确定了该链状结构的两端节点后,也就意味着确定了该链状结构的整体。同样地,该调用关系树中也可以包含一个或多个该调用关系分支。
在步骤1023中,若该调用关系分支中包含该目标告警模块所处的非完备故障链,将该调用关系分支作为该目标告警模块对应的完备故障链。
示例地,基于网络集群系统的特性和系统运维中故障源确认过程的需求,通常情况下上述每个告警模块对应于一个故障源模块。或者说,即使该告警模块是多个故障源模块共同影响的情况下出现故障的,基于网络集群系统的特性和系统运维的需求,该故障源确认过程也要将每个故障源模块和该告警模块的联系提取出来进行单独分析。因此,需要对上述步骤1021和1022中可能得到的多个调用关系分支进行筛选,该筛选过程可以为:确定每个调用关系分支中是否包含通过上述的故障分析技术确定的该目标告警模块所处的非完备故障链,并将包含该非完备故障链的调用关系分支作为该目标告警模块对应的完备故障链。
示例地,步骤1023包括:步骤A,若确定该调用关系树中存在一个第一调用关系分支,将该第一调用关系分支作为该目标告警模块对应的完备故障链,该第一调用关系分支为包含该非完备故障链的调用关系分支;或,步骤B,若确定该调用关系树中存在多个该第一调用关系分支,将从多个该第一调用关系分支中筛选出的第二调用关系分支作为该目标告警模块对应的完备故障链。
示例地,上述步骤B包括:获取上述每个第一调用关系分支的权重和,该权重和为该第一调用关系分支中每两个节点之间的调用关系对应的权重的总和;从多个该第一调用关系分支中确定权重和最大的第二调用关系分支,作为该目标告警模块对应的完备故障链。
示例地,由于模块(即调用关系树中的节点)之间的调用关系可以具备不同的权重,并且该目标告警模块对应的完备故障链为一条分支。因此,当确定该调用关系树中包含多个该第一调用关系分支时,可以通过每个分支的权重进行筛选。具体地,可以计算每个第一调用关系分支中的每两个节点之间的连接线(即每两个模块之间的调用关系)对应的权重的权重和,并将具备最大权重和的第二调用关系分支作为该目标告警模块对应的完备故障链。该步骤1023还可以包括多种筛选方式,以确定该目标告警模块对应的完备故障链。并且,当根据多种筛选方式都无法确定一个唯一的调用关系分支,或者,该调用关系树中没有任何一个分支能够满足上述的筛选条件时,可以将该调用关系树输出至运维人员进行人工筛选。
在步骤1024中,将该目标模块作为该目标故障源模块。
图4是根据图3示出的一种确定故障源的方法的示意图,如图4所示,该网络集群系统中包含多个模块,在进行故障源确定过程之前,可以根据每个模块的业务功能、所处的子系统以及历史故障记录等确定故障源模块R1、R2和R3,作为故障源模块集合。图中的实线表示故障发生时模块之间的调用关系,图中的虚线表示故障链。
示例地,在本公开实施例提供的故障源模块确定方法中,首先需要通过故障分析技术分析每个发出告警信息的告警模块对应的故障链。例如,针对于发出告警信息A的模块M2和发出告警信息B的模块M3,通过上述故障分析技术可以确定模块M2对应的故障链A为M2-M5-M8,模块M3对应的故障链B为M3-M6-M9-M12-R3。由于故障链B中包含故障源模块集合中的故障源模块R3,而故障链A中不包含故障源模块集合中的任何故障源模块,因此可以确定该故障链B为完备故障链,而该故障链A为非完备故障链。进一步地,可以确定该模块M2为目标告警模块。
示例地,在此之后,可以根据实线所表示的调用关系信息确定该模块M2的调用关系树,参见图4,该模块M2对应的调用关系树包含三个调用关系分支,这三个调用关系分支分别为分支1(M2-M5-M4-M7-M10-R1)、分支2(M2-M5-M8-M11-R2)和分支3(M2-M5-M8-M11-M12-R3)。在此情况下,需要从这三个调用关系分支中筛选出符合条件的调用关系分支,作为该模块M2的完备故障链。具体地,首先需要确定这三个调用关系分支中包含故障链A(非完备故障链)的分支,如此,该分支1被排除。进一步地,可以分别计算分支2和分支3中每两个节点之间的连接线(即每两个模块之间的调用关系)对应的权重的权重和,进而将具备较大权重和的调用关系分支(例如,分支2)作为该模块M2的完备故障链。在确定该模块M2的完备故障链为分支2后,也就可以确定该模块M2对应的故障源模块为故障源模块R2。
图5是根据图2示出的又一种确定故障源的方法的流程图,如图5所示,在步骤102之后,该方法还可以包括:
在步骤107中,根据上述每个告警模块所处的完备故障链,对上述每个告警模块发出的告警信息进行分类。
示例地,在确定系统中某一时段内的所有告警模块对应的所有完备故障链之后,可以根据每个完备故障链的组成成分(即包含的告警模块)对上述每个告警模块进行分类,同时也就实现了对每个告警模块在这一时段内发出的告警信息进行分类的目的。可以理解的是,这些完备故障链中包含通过上述步骤101-102确定的完备故障链,也包含根据相关技术中的故障分析技术确定的完备故障链。
图6是根据图5示出的一种告警信息分类方法的流程图,如图6所示,该步骤107,包括:
在步骤1071中,将包含相同故障源模块的完备故障链划分为同一故障组。
示例地,可以将包含相同故障源模块的(即故障根因相同的)一个或多个完备故障链划分为一个故障组。实际上,在此情况下,该故障组里的所有完备故障链中包含的告警模块也就被划分为同一组。
在步骤1072中,将处于同一故障组的完备故障链中的告警模块发出的告警信息划分为同一告警分类组,以将收集到的该多个告警信息划分为多个该告警分类组。
示例地,在通过上述步骤1071对所有告警模块进行分组后,同样可以将处于同一组的告警模块发出的告警信息作为一个告警分类组,以获取多个告警分类组。其中,每个告警分类组包含具备相同类型的一个或多个告警信息,进而实现对告警信息进行分类收集的目的。此后,可以保存已分类的告警信息,并且将已分类的告警信息输出给运维人员,以使得运维人员能够根据这些已分类的告警信息进行下一步的系统运维工作。
综上所述,本公开的实施例所提供的技术方案,能够通过获取目标告警模块的调用关系信息,该目标告警模块为发出告警信息的告警模块中,未在预设的故障源模块集合中确定对应的故障源模块的告警模块,该调用关系信息为用于表征该目标告警模块发生故障时与该目标告警模块存在调用关系的模块的信息;根据该调用关系信息以及该故障源模块集合,获取该目标告警模块对应的完备故障链,以确定导致该目标告警模块发出告警信息的目标故障源模块,该完备故障链为用于表征该目标故障源模块到该目标告警模块之间的调用关系的信息。能够根据告警模块发生故障时的调用关系和预先确定的故障源模块集合确定告警模块所处的故障链,进而确定告警模块的故障源模块,再根据该故障源模块对告警模块发出的告警信息进行分类,降低告警模块的故障源确认和告警信息分类过程中的人工成本,提高系统运维效率。
图7是根据一示例性实施例示出的一种确定故障源的装置的框图,如图7所示,应用于上述的集群网络系统,该装置700包括:
信息获取模块710,用于获取目标告警模块的调用关系信息,该目标告警模块为发出告警信息的多个告警模块中,未在预设的故障源模块集合中确定对应的故障源模块的告警模块,该调用关系信息为用于表征该目标告警模块发生故障时与该目标告警模块存在调用关系的模块的信息;
故障源确定模块720,用于根据该调用关系信息以及该故障源模块集合,获取该目标告警模块对应的完备故障链,以确定导致该目标告警模块发出告警信息的目标故障源模块,该完备故障链为用于表征该目标故障源模块到该目标告警模块之间的调用关系的信息。
可选的,该调用关系信息为以该目标告警模块为根节点,以与该目标告警模块存在调用关系的一个或多个调用关联模块为子节点的调用关系树,相应地,
该故障源确定模块720,用于:
确定该调用关系树中的目标模块,该目标模块既包含于该调用关系树中也包含于该故障源模块集合中;
获取该调用关系树中的包含该目标告警模块和该目标模块的调用关系分支;其中,该目标告警模块处于该调用关系分支的一端,该目标模块处于该调用关系分支的另一端;
若该调用关系分支中包含该目标告警模块所处的非完备故障链,将该调用关系分支作为该目标告警模块对应的完备故障链;
将该目标模块作为该目标故障源模块。
图8是根据图7示出的另一种确定故障源的装置的框图,如图8所示,该装置700还包括:
告警收集模块730,用于获取系统内的该告警信息;
故障链确定模块740,用于根据该告警信息确定发出该告警信息的告警模块对应的故障链,该故障链包含该告警模块以及该系统内与该告警模块存在调用关系并且在该告警模块发出告警信息时也发出告警信息的模块;
故障链判断模块750,用于确定该故障链是否为非完备故障链;其中,该非完备故障链包含该告警模块但不包含导致该告警模块发出告警信息的故障源模块;
告警模块确定模块760,用于当确定该故障链为非完备故障链时,将该非完备故障链中的告警模块作为该目标告警模块。
图9是根据图8示出的又一种确定故障源的装置的框图,如图9所示,该装置700还包括:
告警分类模块770,用于根据上述每个告警模块所处的完备故障链,对上述每个告警模块发出的告警信息进行分类。
可选地,该告警分类模块770,用于:
将包含相同故障源模块的完备故障链划分为同一故障组;
将处于同一故障组的完备故障链中的告警模块发出的告警信息划分为同一告警分类组,以将收集到的该多个告警信息划分为多个该告警分类组。
综上所述,本公开的实施例所提供的技术方案,能够通过获取目标告警模块的调用关系信息,该目标告警模块为发出告警信息的告警模块中,未在预设的故障源模块集合中确定对应的故障源模块的告警模块,该调用关系信息为用于表征该目标告警模块发生故障时与该目标告警模块存在调用关系的模块的信息;根据该调用关系信息以及该故障源模块集合,获取该目标告警模块对应的完备故障链,以确定导致该目标告警模块发出告警信息的目标故障源模块,该完备故障链为用于表征该目标故障源模块到该目标告警模块之间的调用关系的信息。能够根据告警模块发生故障时的调用关系和预先确定的故障源模块集合确定告警模块所处的故障链,进而确定告警模块的故障源模块,再根据该故障源模块对告警模块发出的告警信息进行分类,降低告警模块的故障源确认和告警信息分类过程中的人工成本,提高系统运维效率。
示例地,图10是根据一示例性实施例示出的一种电子设备1000的框图。例如,电子设备1000可以被提供为一集群网络系统中的服务器、交换机组或终端。参照图10,电子设备1000包括处理器1001,其数量可以为一个或多个,以及存储器1002,用于存储可由处理器1001执行的计算机程序。存储器1002中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理器1001可以被配置为执行该计算机程序,以执行上述的确定故障源的方法。
另外,电子设备1000还可以包括电源组件1003和通信组件1004,该电源组件1003可以被配置为执行电子设备1000的电源管理,该通信组件1004可以被配置为实现电子设备1000的通信,例如,有线或无线通信。此外,该电子设备1000还可以包括输入/输出(I/O)接口1005。电子设备1000可以操作基于存储在存储器1002的操作系统,例如WindowsServerTM,Mac OS XTM,UnixTM,LinuxTM等等。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的确定故障源的方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器1002,上述程序指令可由电子设备1000的处理器1001执行以完成上述的确定故障源的方法。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。

Claims (10)

1.一种确定故障源的方法,其特征在于,所述方法包括:
获取目标告警模块的调用关系信息,所述目标告警模块为发出告警信息的多个告警模块中,未在预设的故障源模块集合中确定对应的故障源模块的告警模块,所述调用关系信息为用于表征所述目标告警模块发生故障时与该目标告警模块存在调用关系的模块的信息;
根据所述调用关系信息以及所述故障源模块集合,获取所述目标告警模块对应的完备故障链,以确定导致所述目标告警模块发出告警信息的目标故障源模块,所述完备故障链为用于表征所述目标故障源模块到所述目标告警模块之间的调用关系的信息。
2.根据权利要求1所述的方法,其特征在于,在所述获取目标告警模块的调用关系信息之前,所述方法还包括:
获取系统内的所述告警信息;
根据所述告警信息确定发出所述告警信息的告警模块对应的故障链,所述故障链包含所述告警模块以及所述系统内与所述告警模块存在调用关系并且在所述告警模块发出告警信息时也发出告警信息的模块;
确定所述故障链是否为非完备故障链;其中,所述非完备故障链包含所述告警模块但不包含导致所述告警模块发出告警信息的故障源模块;
当确定所述故障链为非完备故障链时,将所述非完备故障链中的告警模块作为所述目标告警模块。
3.根据权利要求2所述的方法,其特征在于,所述调用关系信息为以所述目标告警模块为根节点,以与所述目标告警模块存在调用关系的一个或多个调用关联模块为子节点的调用关系树,相应地,
所述根据所述调用关系信息以及所述故障源模块集合,获取所述目标告警模块对应的完备故障链,以确定导致所述目标告警模块发出告警信息的目标故障源模块,包括:
确定所述调用关系树中的目标模块,所述目标模块既包含于所述调用关系树中也包含于所述故障源模块集合中;
获取所述调用关系树中的包含所述目标告警模块和所述目标模块的调用关系分支;其中,所述目标告警模块处于所述调用关系分支的一端,所述目标模块处于所述调用关系分支的另一端;
若所述调用关系分支中包含所述目标告警模块所处的非完备故障链,将所述调用关系分支作为所述目标告警模块对应的完备故障链;
将所述目标模块作为所述目标故障源模块。
4.根据权利要求2所述的方法,其特征在于,在所述根据所述调用关系信息以及所述故障源模块集合,获取所述目标告警模块对应的完备故障链之后,所述方法还包括:
根据每个所述告警模块所处的完备故障链,对每个所述告警模块发出的告警信息进行分类。
5.根据权利要求4所述的方法,其特征在于,所述根据每个所述告警模块所处的完备故障链,对每个所述告警模块发出的告警信息进行分类,所述方法还包括:
将包含相同故障源模块的完备故障链划分为同一故障组;
将处于同一故障组的完备故障链中的告警模块发出的告警信息划分为同一告警分类组,以将收集到的所述多个告警信息划分为多个所述告警分类组。
6.根据权利要求3所述的方法,其特征在于,所述若所述调用关系分支中包含所述目标告警模块所处的非完备故障链,将所述调用关系分支作为所述目标告警模块对应的完备故障链,包括:
若确定所述调用关系树中存在一个第一调用关系分支,将所述第一调用关系分支作为所述目标告警模块对应的完备故障链,所述第一调用关系分支为包含所述非完备故障链的调用关系分支;或者,
若确定所述调用关系树中存在多个所述第一调用关系分支,将从多个所述第一调用关系分支中筛选出的第二调用关系分支作为所述目标告警模块对应的完备故障链。
7.根据权利要求6所述的方法,其特征在于,所述将从多个所述第一调用关系分支中筛选出的第二调用关系分支作为所述目标告警模块对应的完备故障链,包括:
获取每个所述第一调用关系分支的权重和,所述权重和为所述第一调用关系分支中每两个节点之间的调用关系对应的权重的总和;
从多个所述第一调用关系分支中确定权重和最大的第二调用关系分支,作为所述目标告警模块对应的完备故障链。
8.一种确定故障源的装置,其特征在于,所述装置包括:
信息获取模块,用于获取目标告警模块的调用关系信息,所述目标告警模块为发出告警信息的多个告警模块中,未在预设的故障源模块集合中确定对应的故障源模块的告警模块,所述调用关系信息为用于表征所述目标告警模块发生故障时与该目标告警模块存在调用关系的模块的信息;
故障源确定模块,用于根据所述调用关系信息以及所述故障源模块集合,获取所述目标告警模块对应的完备故障链,以确定导致所述目标告警模块发出告警信息的目标故障源模块,所述完备故障链为用于表征所述目标故障源模块到所述目标告警模块之间的调用关系的信息。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
10.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1至7中任一项所述方法的步骤。
CN201910843559.3A 2019-09-06 2019-09-06 确定故障源的方法、装置、存储介质和电子设备 Active CN110609761B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910843559.3A CN110609761B (zh) 2019-09-06 2019-09-06 确定故障源的方法、装置、存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910843559.3A CN110609761B (zh) 2019-09-06 2019-09-06 确定故障源的方法、装置、存储介质和电子设备

Publications (2)

Publication Number Publication Date
CN110609761A true CN110609761A (zh) 2019-12-24
CN110609761B CN110609761B (zh) 2020-10-16

Family

ID=68892358

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910843559.3A Active CN110609761B (zh) 2019-09-06 2019-09-06 确定故障源的方法、装置、存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN110609761B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113868008A (zh) * 2021-10-14 2021-12-31 中国建设银行股份有限公司 一种异常处理方法及装置
CN113886119A (zh) * 2021-09-27 2022-01-04 北京三快在线科技有限公司 一种故障修复的方法及装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100318852A1 (en) * 2009-06-16 2010-12-16 Microsoft Corporation Visualization tool for system tracing infrastructure events
CN101945009A (zh) * 2010-09-14 2011-01-12 国网电力科学研究院 基于案例和模式匹配的电力通信网故障定位方法及装置
US20110083123A1 (en) * 2009-10-05 2011-04-07 Microsoft Corporation Automatically localizing root error through log analysis
CN103607295A (zh) * 2013-10-31 2014-02-26 南京中兴新软件有限责任公司 一种告警处理的方法及告警系统
CN107301125A (zh) * 2017-06-19 2017-10-27 广州华多网络科技有限公司 一种寻找根源错误的方法、装置及电子设备
CN107451045A (zh) * 2016-05-31 2017-12-08 北京信威通信技术股份有限公司 一种异常信息定位的方法及装置
CN108322351A (zh) * 2018-03-05 2018-07-24 北京奇艺世纪科技有限公司 生成拓扑图的方法和装置、故障确定方法和装置
CN109358602A (zh) * 2018-10-23 2019-02-19 山东中创软件商用中间件股份有限公司 一种故障分析方法、装置及相关设备
CN110008047A (zh) * 2019-02-19 2019-07-12 阿里巴巴集团控股有限公司 一种故障源系统排查方法、装置及设备
CN110134539A (zh) * 2019-05-14 2019-08-16 极智(上海)企业管理咨询有限公司 一种分布式系统故障根源的诊断方法
CN110175085A (zh) * 2019-04-19 2019-08-27 同济大学 一种利用图分析的Hadoop系统异常原因诊断方法及装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100318852A1 (en) * 2009-06-16 2010-12-16 Microsoft Corporation Visualization tool for system tracing infrastructure events
US20110083123A1 (en) * 2009-10-05 2011-04-07 Microsoft Corporation Automatically localizing root error through log analysis
CN101945009A (zh) * 2010-09-14 2011-01-12 国网电力科学研究院 基于案例和模式匹配的电力通信网故障定位方法及装置
CN103607295A (zh) * 2013-10-31 2014-02-26 南京中兴新软件有限责任公司 一种告警处理的方法及告警系统
CN107451045A (zh) * 2016-05-31 2017-12-08 北京信威通信技术股份有限公司 一种异常信息定位的方法及装置
CN107301125A (zh) * 2017-06-19 2017-10-27 广州华多网络科技有限公司 一种寻找根源错误的方法、装置及电子设备
CN108322351A (zh) * 2018-03-05 2018-07-24 北京奇艺世纪科技有限公司 生成拓扑图的方法和装置、故障确定方法和装置
CN109358602A (zh) * 2018-10-23 2019-02-19 山东中创软件商用中间件股份有限公司 一种故障分析方法、装置及相关设备
CN110008047A (zh) * 2019-02-19 2019-07-12 阿里巴巴集团控股有限公司 一种故障源系统排查方法、装置及设备
CN110175085A (zh) * 2019-04-19 2019-08-27 同济大学 一种利用图分析的Hadoop系统异常原因诊断方法及装置
CN110134539A (zh) * 2019-05-14 2019-08-16 极智(上海)企业管理咨询有限公司 一种分布式系统故障根源的诊断方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113886119A (zh) * 2021-09-27 2022-01-04 北京三快在线科技有限公司 一种故障修复的方法及装置
CN113886119B (zh) * 2021-09-27 2022-12-09 北京三快在线科技有限公司 一种故障修复的方法及装置
CN113868008A (zh) * 2021-10-14 2021-12-31 中国建设银行股份有限公司 一种异常处理方法及装置

Also Published As

Publication number Publication date
CN110609761B (zh) 2020-10-16

Similar Documents

Publication Publication Date Title
CN109787817B (zh) 网络故障诊断方法、装置和计算机可读存储介质
CN108989136B (zh) 业务端到端性能监控方法及装置
KR20210019564A (ko) 운영 유지 시스템 및 방법
CN111176879A (zh) 设备的故障修复方法及装置
CN107508722B (zh) 一种业务监控方法和装置
CN108521339B (zh) 一种基于集群日志的反馈式节点故障处理方法及系统
CN109150619B (zh) 一种基于网络流量数据的故障诊断方法及系统
CN105159964A (zh) 一种日志监控方法及系统
CN101997709B (zh) 一种根告警数据分析的方法及其系统
CN104796273A (zh) 一种网络故障根源诊断的方法和装置
CN113190423B (zh) 业务数据的监控方法、装置及系统
CN112769605B (zh) 一种异构多云的运维管理方法及混合云平台
CN112395156A (zh) 故障的告警方法和装置、存储介质和电子设备
CN110609761B (zh) 确定故障源的方法、装置、存储介质和电子设备
CN111240876A (zh) 微服务的故障定位方法、装置、存储介质及终端
CN111913824B (zh) 确定数据链路故障原因的方法及相关设备
CN114996090A (zh) 一种服务器异常检测方法、装置、电子设备及存储介质
CN113704018A (zh) 应用运维数据处理方法、装置、计算机设备及存储介质
CN105207797A (zh) 故障定位方法和装置
CN117041029A (zh) 网络设备故障处理方法、装置、电子设备及存储介质
CN116016123A (zh) 故障处理方法、装置、设备及介质
CN109818808A (zh) 故障诊断方法、装置和电子设备
CN106951360B (zh) 数据统计完整度计算方法和系统
CN113656252A (zh) 故障定位方法、装置、电子设备以及存储介质
CN113760634A (zh) 一种数据处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant