CN117891641A - 故障对象的定位方法、装置、存储介质及电子装置 - Google Patents

故障对象的定位方法、装置、存储介质及电子装置 Download PDF

Info

Publication number
CN117891641A
CN117891641A CN202410064794.1A CN202410064794A CN117891641A CN 117891641 A CN117891641 A CN 117891641A CN 202410064794 A CN202410064794 A CN 202410064794A CN 117891641 A CN117891641 A CN 117891641A
Authority
CN
China
Prior art keywords
fault
objects
determining
excitation
range
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410064794.1A
Other languages
English (en)
Inventor
刘威
李国莹
苑志云
梁晓东
张岩
陈倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202410064794.1A priority Critical patent/CN117891641A/zh
Publication of CN117891641A publication Critical patent/CN117891641A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请实施例提供了一种故障对象的定位方法和装置、存储介质及电子设备,该方法包括:在获取到的告警消息触发了预设排障条件的情况下,生成疑似故障数据,基于预先确定的配置管理数据库确定疑似故障数据的故障范围,根据疑似故障数据与故障范围确定一组故障对象,其中,一组故障对象中的各个故障对象具有对应的第一激励值,对一组故障对象中的各个故障对象进行异常检测,并基于异常检测的检测结果为第一激励值分配权重,确定与一组故障对象中的各个故障对象对应的第二激励值,根据第二激励值从一组故障对象中确定目标对象,通过本申请,解决了故障对象的定位准确性较差的技术问题。

Description

故障对象的定位方法、装置、存储介质及电子装置
技术领域
本申请实施例涉及计算机领域,具体而言,涉及一种故障对象的定位方法、装置、存储介质及电子装置。
背景技术
目前,在部分系统发生故障时,相关技术一般根据已经发生过的历史故障对当前故障进行根因分析,进而,在系统中定位至导致该故障发生的根因故障对象,即使是不同故障对象导致的故障,产生的故障现象可能存在极大的相似性,因此,仅依靠故障现象与历史故障进行匹配,会导致根因故障对象的定位误差较大,故障对象的定位准确性较差的技术问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种故障对象的定位方法、装置、存储介质及电子装置,以至少解决故障对象的定位准确性较差的技术问题。
根据本申请的一个方面,提供了一种故障对象的定位方法,包括:在获取到的告警消息触发了预设排障条件的情况下,生成疑似故障数据,其中,所述告警消息表示当前存在异常的业务数据,所述疑似故障数据用于查找发生故障的目标系统;基于预先确定的配置管理数据库确定所述疑似故障数据的故障范围,其中,所述故障范围表示造成所述目标系统发生故障的拓扑范围,所述目标系统由所述疑似故障数据确定;根据所述疑似故障数据与所述故障范围确定一组故障对象,其中,所述一组故障对象中的各个故障对象具有对应的第一激励值,所述第一激励值表示对应故障对象造成所述目标系统发生故障的概率;对所述一组故障对象中的各个故障对象进行异常检测,并基于所述异常检测的检测结果为所述第一激励值分配权重,确定与所述一组故障对象中的各个故障对象对应的第二激励值,其中,所述第二激励值是从时间和空间上进行约束后产生的激励值;根据所述第二激励值从所述一组故障对象中确定目标对象,其中,所述目标对象是按照所述第二激励值排序后,满足预设排序条件的故障对象。
根据本申请的另一个方面,提供了一种故障对象的定位装置,包括:生成模块,用于在获取到的告警消息触发了预设排障条件的情况下,生成疑似故障数据,其中,所述告警消息表示当前存在异常的业务数据,所述疑似故障数据用于查找发生故障的目标系统;第一确定模块,用于基于预先确定的配置管理数据库确定所述疑似故障数据的故障范围,其中,所述故障范围表示造成所述目标系统发生故障的拓扑范围,所述目标系统由所述疑似故障数据确定;第二确定模块,用于根据所述疑似故障数据与所述故障范围确定一组故障对象,其中,所述一组故障对象中的各个故障对象具有对应的第一激励值,所述第一激励值表示对应故障对象造成所述目标系统发生故障的概率;检测模块,用于对所述一组故障对象中的各个故障对象进行异常检测,并基于所述异常检测的检测结果为所述第一激励值分配权重,确定与所述一组故障对象中的各个故障对象对应的第二激励值,其中,所述第二激励值是从时间和空间上进行约束后产生的激励值;第三确定模块,用于根据所述第二激励值从所述一组故障对象中确定目标对象,其中,所述目标对象是按照所述第二激励值排序后,满足预设排序条件的故障对象。
可选地,所述装置用于通过如下方式基于预先确定的配置管理数据库确定所述疑似故障数据的故障范围:根据所述疑似故障数据确定第一告警消息,对所述第一告警消息执行链路分析,确定所述目标系统;根据所述目标系统和所述配置管理数据库确定与所述目标系统对应的目标拓扑关系;对所述目标拓扑关系中的各个对象进行物理范围上的异常检测,确定所述目标拓扑关系中发生故障的对象数量;对所述目标拓扑关系中的各个对象进行逻辑范围上的异常检测,确定所述目标拓扑关系中发生故障的对象区域;根据所述对象数量和所述对象区域确定所述故障范围。
可选地,所述装置用于通过如下方式根据所述疑似故障数据与所述故障范围确定一组故障对象:对所述故障范围内的服务器部署的应用软件和/或操作系统进行检测,确定第一异常对象;对所述故障范围内多个系统关联的公共对象进行检测,确定第二异常对象;根据所述第一异常对象和所述第二异常对象确定所述一组故障对象。
可选地,所述装置用于通过如下方式对所述故障范围内多个系统关联的公共对象进行检测,确定是否存在第二异常对象:根据所述配置管理数据库确定公共对象候选列表;获取所述公共对象候选列表中各个公共对象对应的所述第一激励值;按照所述第一激励值进行排序,确定所述第二异常对象。
可选地,所述装置用于通过如下方式获取所述公共对象候选列表中各个公共对象对应的所述第一激励值:获取所述各个公共对象对应的影响实例数占比和异常实例数占比,其中,所述影响实例数占比表示当前时间窗口内对应公共对象关联的告警实例数量占该公共对象实际相关的对象实例数量的比例,所述异常实例数占比表示所述当前时间窗口内对应公共对象关联的告警实例数量占所述当前时间窗口内所有告警实例数量的比例;对所述各个公共对象对应的所述影响实例数占比和所述异常实例数占比分别执行加权操作,得到所述各个公共对象对应的所述第一激励值。
可选地,所述装置用于通过如下方式对所述一组故障对象中的各个故障对象进行异常检测,并基于所述异常检测的检测结果为所述第一激励值分配权重,确定与所述一组故障对象中的各个故障对象对应的第二激励值:根据所述故障对象在所述故障范围的拓扑层级确定第一权重值;根据所述故障对象在所述故障范围中是否处于预设拓扑位置确定第二权重值;根据所述故障对象关联的告警消息的特征数据确定第三权重值;根据所述故障对象的历史数据确定第四权重值;根据所述第一权重值、所述第二权重值、所述第三权重值以及所述第四权重值为所述一组故障对象中的各个故障对象的所述第一激励值分配权重,确定所述一组故障对象中的各个故障对象的第二激励值。
可选地,所述装置还用于:根据所述一组故障对象中的各个故障对象的发生故障的时间,对所述第二激励值进行约束,得到约束后的所述第二激励值,其中,所述一组故障对象包括第一故障对象和第二故障对象,所述第一故障对象发生故障的时间晚于所述第二故障对象发生故障的时间,所述第一故障对象约束后的所述第二激励值小于所述第二故障对象约束后的所述第二激励值;根据所述一组故障对象中的各个故障对象的发生故障的拓扑位置,对所述第二激励值进行约束,得到约束后的所述第二激励值,其中,所述一组故障对象包括第三故障对象,所述第三故障对象在所述故障范围中允许影响第一对象集合中的对象,所述第一对象集合中的对象数量为第一数量,所述第一对象集合中发生故障的对象数量为第二数量,所述第三故障对象约束后的所述第二激励值的取值与所述第一数量和所述第二数量的取值呈正相关。
根据本申请的又一个实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本申请的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
在本申请实施例中,通过在获取到的告警消息触发了预设排障条件的情况下,生成疑似故障数据,其中,告警消息表示当前存在异常的业务数据,疑似故障数据用于查找发生故障的目标系统;基于预先确定的配置管理数据库确定疑似故障数据的故障范围,其中,故障范围表示造成目标系统发生故障的拓扑范围,目标系统由疑似故障数据确定;根据疑似故障数据与故障范围确定一组故障对象,其中,一组故障对象中的各个故障对象具有对应的第一激励值,第一激励值表示对应故障对象造成目标系统发生故障的概率;对一组故障对象中的各个故障对象进行异常检测,并基于异常检测的检测结果为第一激励值分配权重,确定与一组故障对象中的各个故障对象对应的第二激励值,其中,第二激励值是从时间和空间上进行约束后产生的激励值;根据第二激励值从一组故障对象中确定目标对象,其中,目标对象是按照第二激励值排序后,满足预设排序条件的故障对象,达到了简化故障对象的排查流程的目的,实现了提高故障对象的定位效率的技术效果,进而解决了故障对象的定位准确性较差的技术问题。
附图说明
图1是根据本申请实施例的一种故障对象的定位方法的移动终端的硬件结构框图;
图2是根据本申请实施例的一种故障对象的定位方法的流程图;
图3是根据本申请实施例的一种故障对象的定位方法的流程示意图;
图4是根据本申请实施例的一种故障对象的定位装置的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请的实施例。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本申请实施例的一种故障对象的定位方法的移动终端的硬件结构框图。如图1所示,移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,其中,上述移动终端还可以包括用于通信功能的传输设备106以及终端设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本申请实施例中的故障对象的定位方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
可选地,在本实施例中,上述故障对象的定位方法还可以通过服务器实现,或由终端设备和服务器共同实现。
上述仅是一种示例,本实施例不做具体的限定。
可选地,作为一种可选的实施方式,图2是根据本申请实施例的一种故障对象的定位方法的流程图,如图2所示,上述故障对象的定位方法包括:
S202,在获取到的告警消息触发了预设排障条件的情况下,生成疑似故障数据,其中,告警消息表示当前存在异常的业务数据,疑似故障数据用于查找发生故障的目标系统;
可选地,在本实施例中,通过上述告警消息可以得到上述目标系统中存在异常的业务子模块的相关数据,假设上述目标系统为银行内部系统,该告警信息可以是银行客户的交易耗时过长,交易成功率下降等,上述业务数据可以包括但不限于存款业务数据、贷款业务数据、风险管理数据、客户关系数据等。
具体而言,上述告警消息可以被封装成消息的形式存储在Kafka队列中,其中,Kafka是一个分布式的流处理平台,允许数据的持久化存储和高吞吐量的实时数据发布和订阅。
需要说明的是,预设排障条件可以人为设置,假设目标系统中的一个服务器用于提供实时交易业务功能,在该服务器的CPU利用率超过90%、内存利用率超过80%、丢包率超过5%时,自动触发排障流程,也即告警消息触发了预设排障条件,也可以人工手动触发排障,同样会根据告警消息生成疑似故障数据。
在一个示例性的实施例中,银行的交易层出现了某个特定交易的成功率下降的告警消息,可以从Kafka中拿到相关的告警消息,告警消息触发了预设排障条件,此时根据告警消息生成上述疑似故障数据,疑似故障数据可以包括但不限于交易时间、交易地点、交易金额等,也即通过疑似故障数据可以得知告警消息指示的目标系统中当前存在的故障现象。
S204,基于预先确定的配置管理数据库确定疑似故障数据的故障范围,其中,故障范围表示造成目标系统发生故障的拓扑范围,目标系统由疑似故障数据确定;
可选地,在本申请实施例中,上述配置管理数据库可以包括但不限于上述目标系统中的网络资源和配置信息的数据,例如:服务器和网络设备的硬件和软件配置信息,应用程序和服务的配置信息,数据库和存储设备的配置信息,虚拟化和云计算环境的配置信息,用户和权限管理信息,业务服务和流程的配置信息,安全策略和事件管理的配置信息等,上述配置管理数据库可以包括但不限于上述目标系统中的对象配置和对象之间的关系,与上述目标系统关联的其他系统中的对象配置和对象之间的关系等。
示例性地,在得到上述疑似故障数据之后,该故障数据存在与上述目标系统中,可以根据上述配置管理数据库中的数据构建目标系统中各个对象之间的关联关系,从而建立目标系统的拓扑关系图,其次,可以链路分析以定位目标系统,该目标系统包括系统中存在的网络访问请求和请求响应的流程、数据传输的路径等,使用链路分析得到的数据作为补充信息以完善目标系统的拓扑关系图,该目标系统中的对象可以包括但不限于服务器,数据库等。
进一步地,根据目标系统的拓扑关系图确定疑似故障数据的故障范围,也即,在目标系统中确定该疑似故障数据对应的故障现象出现的范围,被该疑似故障数据影响的系统中的对象的位置等。
S206,根据疑似故障数据与故障范围确定一组故障对象,其中,一组故障对象中的各个故障对象具有对应的第一激励值,第一激励值表示对应故障对象造成目标系统发生故障的概率;
可选地,在本申请实施例中,上述一组故障对象可以包括但不限于服务器,交换机,数据库等,上述一组故障对象可以包括多个故障对象,每一个故障对象都可以是导致该疑似故障数据所指示的该目标系统中出现故障现象的原因,并且,多个故障对象可以同时作用于一个疑似故障数据,也即,多个故障对象可以导致目标系统中出现同一个故障现象,上述一组故障对象均处于上述故障范围内。
示例性地,通过对故障范围内存在的多个对象进行排查,包括但不限于:
S1,对对象类型为服务器的对象通过排查该对象所部署的应用软件,操作系统,判断有无存在异常;
S2,对对象类型不是服务器的对象进行排查,包括但不限于数据库类对象、存储类对象、网络类对象、安全类对象、公共系统类对象、公共参数类对象等,判断有无存在异常,也即,排查对象运行中是否存在与疑似故障数据对应的故障现象。
S3,根据S1至S2的排查结果,从多个对象中确定出上述一组故障对象。
需要说明的是,通过排查上述故障范围内的对象,将部分对象确定为上述第一组故障对象,其中,故障范围还可以包括未被确定为故障对象的对象,也即,未被确定为故障对象的对象不会导致目标系统中出现疑似故障数据对应的故障现象。
进一步地,在确定出上述一组故障对象之后,可以通过如下方式计算一组故障对象中的每一个故障对象的第一激励值,上述第一激励值可以理解为,每一个故障对象被确定为导致目标系统中出现疑似故障数据对应的故障现象的原因的概率,第一激励值可以通过如下方式确定,包括但不限于确定故障对象的实例数占比和异常实例数占比,对故障对象预先设定的指标进行异常检测,通过对故障对象执行脚本进行异常检测等。
S208,对一组故障对象中的各个故障对象进行异常检测,并基于异常检测的检测结果为第一激励值分配权重,确定与一组故障对象中的各个故障对象对应的第二激励值,其中,第二激励值是从时间和空间上进行约束后产生的激励值;
可选地,在本申请实施例中,可以通过建立故障检测模型,执行脚本等方式对上述各个故障对象进行异常检测,以得到检测结果,并且,根据检测结果为各个故障对象分配权重,换言之,上述故障对象的检测结果中可以包括但不限于该故障对象用于生成上述疑似故障数据的概率,或者,该故障对象对上述疑似故障数据的影响程度。
示例性地,上述各个故障对象的权重值可以与该故障对象在上述故障范围的拓扑层级相关,与故障对象关联的告警消息相关等,例如,故障对象的A处于故障范围的拓扑层级的底层,故障对象的A处于故障范围的拓扑层级的中间层,即故障对象的A的权重值可以比故障对象的B的权重值大,再例如,预先设置处于故障范围的拓扑关系的关键节点位置,或者叶子节点位置的故障对象的权重值比处于故障范围的拓扑关系的其他位置的故障对象的权重值大。
在一个示例性的实施例中,通过设置上述一组故障对象中每一个故障对象的权重,接着对每一个故障对象的第一激励值进行加权处理,以得到每一个故障对象的第二激励值,并且,该第二激励值满足时间约束与空间约束,其中,时间约束可以理解为,假设故障对象A出现异常的时间早于故障对象B出现异常的时间,此时,故障对象A的第二激励值大于故障对象B的第二激励值,空间约束可以理解为,假设故障对象A在目标系统中出现异常时理论上可以影响10个对象,而当故障对象A实际出现故障时影响了5个对象,故障对象B在目标系统中出现异常时理论上可以影响10个对象,而当故障对象B实际出现故障时影响了2个对象,此时,故障对象A的第二激励值小于故障对象B的第二激励值。
S210,根据第二激励值从一组故障对象中确定目标对象,其中,目标对象是按照第二激励值排序后,满足预设排序条件的故障对象。
需要说明的是,上述目标对象即为导致上述目标系统出现疑似故障数据的对象,例如,告警消息为目标系统的交易成功率过低,通过故障排查确定数据库A为目标对象,也即,该目标统的交易成功率过低的原因是数据库A出现异常,上述一组故障对象中的一个故障对象将被确定为目标对象,该目标对象可以是一组故障对象中各个故障对象对应的各个第二激励值最大的一个故障对象,也即,上述预设排序条件可以包括但不限于,第二激励值是一组故障对象中各个故障对象对应的各个第二激励值中取值最大的一个第二激励值。
示例性地,图3是根据本申请实施例的一种故障对象的定位方法的流程示意图,本申请提出的故障对象的定位方法可以应用于银行内部系统运维的应用场景中,如图3所示,可以包括但不限于:
S302,获取目标系统产生的告警消息;
S304,判断告警消息是否触发了预设排障条件;
S306,若告警信息触发了预设排障条件,根据告警消息生成疑似故障数据,反之,告警信息未触发预设排障条件,继续获取新的告警消息,且根据疑似故障数据识别出与触发预设排障条件的告警消息关联的目标系统,并且聚合关联的目标系统的所有告警消息;
S308,按照配置管理数据库关系加载通过链路分析定位的目标系统的拓扑关系图,或者直接根据告警消息加载目标系统的拓扑关系图,确定所述疑似故障数据的故障范围;基于疑似故障数据与故障范围确定一组故障对象以及一组故障对象中每个故障对象的第一激励值,且对第一激励值进行加权,以得到第二激励值;
S310,对一组故障对象中每个故障对象的第二激励值按照取值大小依次排序,将第二激励值取值最大的一个故障对象作为目标对象;
S312,将故障分析结果在目标系统中进行通知,即定位到目标系统出现故障的对象是目标对象。
通过本申请实施例中,通过在获取到的告警消息触发了预设排障条件的情况下,生成疑似故障数据,其中,告警消息表示当前存在异常的业务数据,疑似故障数据用于查找发生故障的目标系统;基于预先确定的配置管理数据库确定疑似故障数据的故障范围,其中,故障范围表示造成由疑似故障数据确定的目标系统发生故障的拓扑范围;根据疑似故障数据与故障范围确定一组故障对象,其中,一组故障对象中的各个故障对象具有对应的第一激励值,第一激励值表示对应故障对象造成目标系统发生故障的概率;对一组故障对象中的各个故障对象进行异常检测,并基于异常检测的检测结果为第一激励值分配权重,确定与一组故障对象中的各个故障对象对应的第二激励值,其中,第二激励值是从时间和空间上进行约束后产生的激励值;根据第二激励值从一组故障对象中确定目标对象,其中,目标对象是按照第二激励值排序后,满足预设排序条件的故障对象,达到了简化故障对象的排查流程的目的,实现了提高故障对象的定位效率的技术效果,进而解决了故障对象的定位准确性较差的技术问题。
作为一种可选的方案,上述基于预先确定的配置管理数据库确定上述疑似故障数据的故障范围,包括:根据上述疑似故障数据确定第一告警消息,对上述第一告警消息执行链路分析,确定上述目标系统;根据上述目标系统和上述配置管理数据库确定与上述目标系统对应的目标拓扑关系;对上述目标拓扑关系中的各个对象进行物理范围上的异常检测,确定上述目标拓扑关系中发生故障的对象数量;对上述目标拓扑关系中的各个对象进行逻辑范围上的异常检测,确定上述目标拓扑关系中发生故障的对象区域;根据上述对象数量和上述对象区域确定上述故障范围。
可选地,在本申请实施例中,上述第一告警消息与上述第二报警消息均可以通过Kafka分布式流处理平台获取,上述链路分析可以通过在目标系统中发送数据包,通过跟踪数据包的传输路径实现,进一步地,在通过对第一告警消息执行链路分析之后,将确定出目标系统,从而,从上述配置管理数据库中获取目标系统包括的对象以及对象之间的关系,进而生成目标系统的目标拓扑关系,目标拓扑关系可以包括目标系统内不同对象之间的连接和交互方式,可以获取目标系统中的数据流动和数据处理的路径。
再例如,可以直接通过目标拓扑关系中的各个对象所处的物理位置进一步缩小上述故障范围,例如,目标拓扑关系表示楼栋A包括目标系统的10个对象,楼栋A包括目标系统的20个对象,通过对上述目标拓扑关系中的各个对象进行物理范围上的异常检测,楼栋A中的10个对象不存在异常,楼栋B中的对象出现异常,即可以得到目标拓扑关系中发生故障的对象数量有楼栋B中的20个对象,并且,通过对目标拓扑关系中的多个数据中心分别进行异常检测,发现数据中心C的数据库出现异常,即得到目标拓扑关系中发生故障的对象区域为数据中心C,结合数据中心C与发生故障的对象数量为楼栋B中的20个对象得到上述故障范围。
作为一种可选的方案,根据上述疑似故障数据与上述故障范围确定一组故障对象,包括:对上述故障范围内的服务器部署的应用软件和/或操作系统进行检测,确定第一异常对象;对上述故障范围内多个系统关联的公共对象进行检测,确定第二异常对象;根据上述第一异常对象和上述第二异常对象确定上述一组故障对象。
可选地,在本申请实施例中,上述故障范围内的对象可以包括但不限于服务器,交换机等,对故障范围内的服务器进行异常检测,可以包括但不限于检测部署在服务器上的应用软件,操作系统等,包括但不限于检测应用软件的当前版本,应用软件的上一次更新信息,操作系统的当前版本,操作系统的上一次更新信息等,在检测到服务器部署的应用软件和/或操作系统出现异常时,将该服务器确定为上述第一异常对象。
进一步地,上述公共对象可以理解为,多个系统共同关联的对象,例如,系统A,系统B均使用一个数据库C,数据库C为公共对象,上述第二异常对象可以包括但不限于数据库类对象、存储类对象、网络类对象、安全类对象、公共系统类对象、公共参数类对象等,在对公共对象进行异常检测之后,确定出现异常的公共对象,将出现异常的公共对象确定为上述第二异常对象,上述一组故障对象中可以包括但不限于上述第一异常对象,第二异常对象等。
作为一种可选的方案,对上述故障范围内多个系统关联的公共对象进行检测,确定是否存在第二异常对象,包括:根据上述配置管理数据库确定公共对象候选列表;获取上述公共对象候选列表中各个公共对象对应的上述第一激励值;按照上述第一激励值进行排序,确定上述第二异常对象。
示例性地,上述公共对象候选列表可以包括多个上述公共对象的信息,在得到上述公共对象之后,可以通过执行脚本的方式,为公共对象设置指标,通过判断公共对象是否满足指标条件的方式等从公共对象中确定出第二异常对象。
具体而言,上述公共对象候选列表中各个公共对象均存在一个第一激励值,可以对第一激励值按照取值大小进行排序,可以将大于或等于一个预设的激励值的第一激励值对应的公共对象确定为上述第二异常对象。
作为一种可选的方案,获取上述公共对象候选列表中各个公共对象对应的上述第一激励值,包括:获取上述各个公共对象对应的影响实例数占比和异常实例数占比,其中,上述影响实例数占比表示当前时间窗口内对应公共对象关联的告警实例数量占该公共对象实际相关的对象实例数量的比例,上述异常实例数占比表示上述当前时间窗口内对应公共对象关联的告警实例数量占上述当前时间窗口内所有告警实例数量的比例;对上述各个公共对象对应的上述影响实例数占比和上述异常实例数占比分别执行加权操作,得到上述各个公共对象对应的上述第一激励值。
在一个示例性的实施例中,可以通过如下方式获取上述公共对象对应的影响实例数占比,假设公共对象为一个数据库A:
S1,获取A时段内数据库A关联的告警消息的数量为4;
S2,获取A时段内该数据库A实际相关的对象数量为2;
S3,将S1与S2中得到的结果的比值确定为数据库A的影响实例数占比,即为2;
同理,可以通过如下方式获取该数据库A对应的影响实例数占比:
S3,获取A时段内的告警消息的数量为40;
S4,将S1与S3中得到的结果的比值确定为数据库A的异常实例数占比,即为0.1。
进一步地,在确定公共对象的影响实例数占比和异常实例数占比之后,可以为影响实例数占比和异常实例数占比分别分配权重,再进行加权操作,以得到公共对象对应的第一激励值,也即,第一激励值为影响实例数占比和异常实例数占比进行加权操作的结果。
作为一种可选的方案,对上述一组故障对象中的各个故障对象进行异常检测,并基于上述异常检测的检测结果为上述第一激励值分配权重,确定与上述一组故障对象中的各个故障对象对应的第二激励值,包括:根据上述故障对象在上述故障范围的拓扑层级确定第一权重值;根据上述故障对象在上述故障范围中是否处于预设拓扑位置确定第二权重值;根据上述故障对象关联的告警消息的特征数据确定第三权重值;根据上述故障对象的历史数据确定第四权重值;根据上述第一权重值、上述第二权重值、上述第三权重值以及上述第四权重值为上述一组故障对象中的各个故障对象的上述第一激励值分配权重,确定上述一组故障对象中的各个故障对象的第二激励值。
示例性地,处于上述故障范围的不同拓扑层级的故障对象分配到的第一激励值的第一权重值可以不同,例如,在目标拓扑关系中处于底层基础设施的故障对象的第一激励值的第一权重值较大,上述预设拓扑位置可以包括但不限于在目标拓扑关系中处于关键节点位置,叶子节点位置等,此处的关键节点位置可以理解为,能够与多个节点进行数据交互的节点位置,假设,故障对象A位于关键节点位置,故障对象B位于除了关键节点位置之外的节点位置,此时,故障对象A分配到的第二权重值大于故障对象B分配到的第二权重值。
可选地,在本申请实施例中,上述特征数据可以包括但不限于罕见、增多、周期、频繁等,也即,特征数据反映了告警消息发生的频率,越频繁发生的告警消息关联的故障对象的第三权重值越小,上述第四权重值与故障对象的历史数据相关,该历史数据可以理解为,假设故障对象是一个服务器,则历史数据包括该服务器部署的应用软件的最近登录信息,以及操作系统的变更记录等,第四权重值相较于第一权重值的取值,第二权重值的取值,第三权重值的取值较小,进一步地,综合上述第一权重值、上述第二权重值、上述第三权重值和上述第四权重值为第一激励值分配权重,对第一激励值执行加权操作得到上述第二激励值。
作为一种可选的方案,上述方法还包括:根据上述一组故障对象中的各个故障对象的发生故障的时间,对上述第二激励值进行约束,得到约束后的上述第二激励值,其中,上述一组故障对象包括第一故障对象和第二故障对象,上述第一故障对象发生故障的时间晚于上述第二故障对象发生故障的时间,上述第一故障对象约束后的上述第二激励值小于上述第二故障对象约束后的上述第二激励值;根据上述一组故障对象中的各个故障对象的发生故障的拓扑位置,对上述第二激励值进行约束,得到约束后的上述第二激励值,其中,上述一组故障对象包括第三故障对象,上述第三故障对象在上述故障范围中允许影响第一对象集合中的对象,上述第一对象集合中的对象数量为第一数量,上述第一对象集合中发生故障的对象数量为第二数量,上述第三故障对象约束后的上述第二激励值的取值与上述第一数量和上述第二数量的取值呈正相关。
可选地,在本申请实施例中,上述第一故障对象,第二故障对象和上述第三故障对象可以包括但不限于服务器,交换机,数据库等,第一故障对象比第二故障对象更早发生故障,也即,第一故障对象的第二激励值与第二故障对象的第二激励值满足时间约束,该第一故障对象的第二激励值大于第二故障对象的第二激励值,因此,第一故障对象被确定为上述目标对象的可能性大于第二故障对象被确定为上述目标对象的可能性。
进一步地,上述第一对象集合可以包括多个对象,第一对象集合包括的对象的数量为上述第一数量,处于第一对象集合中的对象均与第三故障对象存在关联,例如,可以与第三故障对象进行数据交互等,在第一对象集合中存在发生异常的部分对象,将这部分对象的数量确定为上述第二数量,也即,第一数量大于或等于第二数量,假设故障对象C在目标系统中出现异常时理论上可以影响10个对象,也即,故障对象C对应的第一对象集合包括10个对象,第一数量为10,而当故障对象C实际出现故障时影响了5个对象,故障对象D在目标系统中出现异常时理论上可以影响10个对象,而当故障对象D实际出现故障时影响了2个对象,也即,故障对象D对应的第一对象集合包括10个对象,第一数量为2,此时,故障对象C的第二激励值小于故障对象D的第二激励值,也即,故障对象D被确定为上述目标对象的可能性大于故障对象C被确定为上述目标对象的可能性。
上述仅是一种示例,本申请不做任何具体的限定。
显然,上述所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。
下面结合具体实施例对本申请进行具体说明:
示例性地,本申请可以包括但不限于将每一种在线业务涉及的系统及其相关联的服务器、数据库、存储、网络设备等基础设施信息在后台或者缓存中加载,形成一张拓扑关系图,接着配置标准和通用的故障决策与诊断流程,该流程考虑常见故障的分析判断规则,尽量简单,减少分析时间。在故障发生时,以拓扑关系图为依托尽可能通过主动和被动等方式自动排查与获取当前故障相关的各种异常,同时将相关异常不断更新到故障决策和诊断流程进行根因推理,在推理过程中不同的对象、异常发生的频率等因子会有不同的激励权重,得到每种异常是根因的初始结果,最后对初始结果进行约束,即考虑“根因应该先于结果发生”、“根因应该影响所有相关的结果”,得到根因的最终推理结果。
进一步地,如图3所示,故障根因定位可以分为故障发现、排障模型加载、故障排查、综合根因推荐几个模块:
S1,故障发现模块实时消费Kafka告警数据,并且设置自动触发排障规则,满足自动触发排障规则的告警会自动进行排障,生成一个疑似故障。也可以在系统界面通过自定义条件手工触发排障。
S2,排障模型加载模块首先会识别出与触发排障的告警关联的系统,并且聚合关联系统的所有告警,同时还会计算每一条告警的发生特征:罕见、增多、周期和频发等,其次是当满足交易层告警的一些条件时,调用专门的trace链路分析算法,定位目标系统。
S3,是按照配置管理数据库加载通过trace分析定位的系统的拓扑关系图,或者直接根据告警加载有问题的系统的拓扑关系图,拓扑关系图中每个节点表示一种对象,连线表示对象之间存在关系,同时获取该系统最近三天的变更记录,以及近期登录机器的信息,该排障拓扑是以数据驱动进行根因推理的主要依据,拓扑的对象范围决定了排障能够发现的异常范围,此外,配置管理数据库虽然不是根因传播的因果关系,在给定的异常范围下,处于配置管理数据库树底层的异常对象是根因的概率通常更大,最后加载和初始化故障决策与诊断流程,如每个节点的实例信息,方便后续快速排查。
S4,利用标准和通用的故障决策与诊断流程进行诊断,该流程是根据经验事先构建好的先粗定界再细定位,故障粗定界是故障发生后先根据现象判断故障的大概范围:交易层异常判断,对交易层对象的异常数量判断,比如是单系统还是多系统异常,单台机器还是多台机器异常,单个服务码异常还是多个服务码异常,如果是多个对象异常还需判断多个对象是否存在公共特征,比如所有异常的机器都是某一个操作系统版本的。以上对象都是实际存在的实体;异常范围判断,包括异常发生在单数据中心还是多数据中心、单个可用区还是多个可用区,交易是不是属于同一个第三方供应商等,这些属于逻辑对象,根据故障现象可以对故障根因进行大致的定界,在粗定界之后对可能的根因有了大致界定范围,后续有一些分支无需再排查,比如,如果是单台服务器异常,则不太可能是数据库本身异常导致的,因为数据库本身异常通常影响所连接的所有服务器;
S5,深入对系统的底层对象进行深入分析,进行细定位,可以包括但不限于:对服务器所部署的应用软件,操作系统进行分析,判断有无相关异常;公共点异常分析,包括数据库类对象、存储类对象、网络类对象、安全类对象、公共系统类对象、公共参数类对象,当同一类型的告警发生较多时判断是否是上述公共对象异常导致的,排查时首先会根据配置管理数据库生成公共点的候选列表,然后通过计算激励值(上述第一激励值)进行排序,其中,激励值包括影响实例数占比和异常实例数占比,影响实例数占比是当前窗口内公共点所关联的告警实例数量占该公共点实际相关的对象实例数量的比例,异常实例数占比是当前窗口内公共点所关联的告警实例数占窗口内所有告警实例数的比例,细定位不再依赖于告警,而是会对设定的指标进行异常检测,或者去相应的机器上执行脚本确认,能够发现的异常数量会大大增加,而且这些异常会更有针对性。
S6,通过S1至S5的排障已经基本确定异常的范围、异常的传播关系以及重点关注异常,接着对当前故障的原因进行全面的诊断和排名,其中,告警、异常检测或者执行脚本结果、公共点分析结果、机器登录、变更等异常都可以作为根因推荐,需要对其进行激励加权计算后排名,排名较高是根因的可能性更大。考虑的激励加权因素如下:
S6-1,经过故障决策与诊断流程在叶子结点或者关键节点判断出来的可能根因或者公共点的权重较高;
S6-2,在拓扑关系图中处于底层基础设施的对象权重较高;
S6-3,对象告警发生特征为罕见、增多、周期、频繁的权重依次降低;
S6-4,近期机器登录信息和变更信息权重较低;
除了故障决策与诊断流程还考虑其他因素是因为诊断流程可能并不完善,或者在某个故障中没有匹配生成。
进一步地,通过计算每个对象的激励加权可以得到每个对象是根因的可能性(上述第二激励值),但是还有两个约束因素需要考虑,一是时间约束,根因的异常发生时间一般比其他受影响的对象要靠前,因此异常发生的越晚,是根因的可能性越小;二是空间约束,根因对象理论上能够影响所有与其相关的应用,实际影响的越少,是根因的可能性越小,例如,初步定位根因是存储区域网络存储异常,那么该存储区域网络存储不会只影响一台接入设备,应该影响它所连接的多台接入设备。以上两个因素相当于是一个贝叶斯后验判断,即在初步判断一个对象可能是根因时,要对其做进一步的验证。
通过本申请实施例,基于数据驱动和知识驱动融合进行根因定位,在排障拓扑的基础上构建利用标准和通用的故障决策与诊断流程,该流程的理念是先粗定界再细定位,即通过故障范围的公共特诊的判断先对故障进行大致界定,调用具体对象的分析流程和公共点排查流程进行细定位,并且,基于激励与约束算法进行根因排序,综合考虑决策诊断流程排查结果、排障拓扑图中位置关系、告警发生频率等对所有获取的异常进行激励加权计算后排名,再考虑“根因应该先于结果发生”、“根因应该影响所有相关的结果”两个约束,得到根因的最终推理结果,充分利用配置管理数据库和专家排障经验抽象构建故障决策和诊断流程进行推理,并且利用通过粗定界和细定位可以减少排查分支,提高排查效率和准确性,对根因排序算法进行优化,既考虑诊断流程的结果与告警特征等正向激励因素,又考虑因果时序与因果影响范围等通用的约束因素,在不降低排障准确性上限的前提下,提高了排障准确性的下限,此外,本申请提出的故障对象的定位方法具有通用性,随着监控和故障发现能力的提升,可以接入日志监控等发现更多异常,通过调整激励权重可以直接使用本申请提出的故障对象的定位方法。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台前端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例的方法。
根据本申请实施例的另一个方面,还提供了一种系统访问的装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图4是根据本申请实施例的一种故障对象的定位装置的结构框图,如图4所示,该装置包括:
生成模块402,用于在获取到的告警消息触发了预设排障条件的情况下,生成疑似故障数据,其中,告警消息表示当前存在异常的业务数据,疑似故障数据用于查找发生故障的目标系统;
第一确定模块404,用于基于预先确定的配置管理数据库确定疑似故障数据的故障范围,其中,故障范围表示造成目标系统发生故障的拓扑范围,目标系统由疑似故障数据确定;
第二确定模块406,用于根据疑似故障数据与故障范围确定一组故障对象,其中,一组故障对象中的各个故障对象具有对应的第一激励值,第一激励值表示对应故障对象造成目标系统发生故障的概率;
检测模块408,用于对一组故障对象中的各个故障对象进行异常检测,并基于异常检测的检测结果为第一激励值分配权重,确定与一组故障对象中的各个故障对象对应的第二激励值,其中,第二激励值是从时间和空间上进行约束后产生的激励值;
第三确定模块410,用于根据第二激励值从一组故障对象中确定目标对象,其中,目标对象是按照第二激励值排序后,满足预设排序条件的故障对象。
作为一种可选的方案,上述装置用于通过如下方式基于预先确定的配置管理数据库确定上述疑似故障数据的故障范围:根据上述疑似故障数据确定第一告警消息,对上述第一告警消息执行链路分析,确定上述目标系统;根据上述目标系统和上述配置管理数据库确定与上述目标系统对应的目标拓扑关系;对上述目标拓扑关系中的各个对象进行物理范围上的异常检测,确定上述目标拓扑关系中发生故障的对象数量;对上述目标拓扑关系中的各个对象进行逻辑范围上的异常检测,确定上述目标拓扑关系中发生故障的对象区域;根据上述对象数量和上述对象区域确定上述故障范围。
作为一种可选的方案,上述装置用于通过如下方式根据上述疑似故障数据与上述故障范围确定一组故障对象:对上述故障范围内的服务器部署的应用软件和/或操作系统进行检测,确定第一异常对象;对上述故障范围内多个系统关联的公共对象进行检测,确定第二异常对象;根据上述第一异常对象和上述第二异常对象确定上述一组故障对象。
作为一种可选的方案,上述装置用于通过如下方式对上述故障范围内多个系统关联的公共对象进行检测,确定是否存在第二异常对象:根据上述配置管理数据库确定公共对象候选列表;获取上述公共对象候选列表中各个公共对象对应的上述第一激励值;按照上述第一激励值进行排序,确定上述第二异常对象。
作为一种可选的方案,上述装置用于通过如下方式获取上述公共对象候选列表中各个公共对象对应的上述第一激励值:获取上述各个公共对象对应的影响实例数占比和异常实例数占比,其中,上述影响实例数占比表示当前时间窗口内对应公共对象关联的告警实例数量占该公共对象实际相关的对象实例数量的比例,上述异常实例数占比表示上述当前时间窗口内对应公共对象关联的告警实例数量占上述当前时间窗口内所有告警实例数量的比例;对上述各个公共对象对应的上述影响实例数占比和上述异常实例数占比分别执行加权操作,得到上述各个公共对象对应的上述第一激励值。
作为一种可选的方案,上述装置用于通过如下方式对上述一组故障对象中的各个故障对象进行异常检测,并基于上述异常检测的检测结果为上述第一激励值分配权重,确定与上述一组故障对象中的各个故障对象对应的第二激励值:根据上述故障对象在上述故障范围的拓扑层级确定第一权重值;根据上述故障对象在上述故障范围中是否处于预设拓扑位置确定第二权重值;根据上述故障对象关联的告警消息的特征数据确定第三权重值;根据上述故障对象的历史数据确定第四权重值;根据上述第一权重值、上述第二权重值、上述第三权重值以及上述第四权重值为上述一组故障对象中的各个故障对象的上述第一激励值分配权重,确定上述一组故障对象中的各个故障对象的第二激励值。
作为一种可选的方案,上述装置还用于:根据上述一组故障对象中的各个故障对象的发生故障的时间,对上述第二激励值进行约束,得到约束后的上述第二激励值,其中,上述一组故障对象包括第一故障对象和第二故障对象,上述第一故障对象发生故障的时间晚于上述第二故障对象发生故障的时间,上述第一故障对象约束后的上述第二激励值小于上述第二故障对象约束后的上述第二激励值;根据上述一组故障对象中的各个故障对象的发生故障的拓扑位置,对上述第二激励值进行约束,得到约束后的上述第二激励值,其中,上述一组故障对象包括第三故障对象,上述第三故障对象在上述故障范围中允许影响第一对象集合中的对象,上述第一对象集合中的对象数量为第一数量,上述第一对象集合中发生故障的对象数量为第二数量,上述第三故障对象约束后的上述第二激励值的取值与上述第一数量和上述第二数量的取值呈正相关。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
本申请的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,上述计算机可读存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本申请的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种故障对象的定位方法,其特征在于,包括:
在获取到的告警消息触发了预设排障条件的情况下,生成疑似故障数据,其中,所述告警消息表示当前存在异常的业务数据,所述疑似故障数据用于查找发生故障的目标系统;
基于预先确定的配置管理数据库确定所述疑似故障数据的故障范围,其中,所述故障范围表示造成所述目标系统发生故障的拓扑范围,所述目标系统由所述疑似故障数据确定;
根据所述疑似故障数据与所述故障范围确定一组故障对象,其中,所述一组故障对象中的各个故障对象具有对应的第一激励值,所述第一激励值表示对应故障对象造成所述目标系统发生故障的概率;
对所述一组故障对象中的各个故障对象进行异常检测,并基于所述异常检测的检测结果为所述第一激励值分配权重,确定与所述一组故障对象中的各个故障对象对应的第二激励值,其中,所述第二激励值是从时间和空间上进行约束后产生的激励值;
根据所述第二激励值从所述一组故障对象中确定目标对象,其中,所述目标对象是按照所述第二激励值排序后,满足预设排序条件的故障对象。
2.根据权利要求1所述的方法,其特征在于,所述基于预先确定的配置管理数据库确定所述疑似故障数据的故障范围,包括:
根据所述疑似故障数据确定第一告警消息,对所述第一告警消息执行链路分析,确定所述目标系统;
根据所述目标系统和所述配置管理数据库确定与所述目标系统对应的目标拓扑关系;
对所述目标拓扑关系中的各个对象进行物理范围上的异常检测,确定所述目标拓扑关系中发生故障的对象数量;
对所述目标拓扑关系中的各个对象进行逻辑范围上的异常检测,确定所述目标拓扑关系中发生故障的对象区域;
根据所述对象数量和所述对象区域确定所述故障范围。
3.根据权利要求1所述的方法,其特征在于,根据所述疑似故障数据与所述故障范围确定一组故障对象,包括:
对所述故障范围内的服务器部署的应用软件和/或操作系统进行检测,确定第一异常对象;
对所述故障范围内多个系统关联的公共对象进行检测,确定第二异常对象;
根据所述第一异常对象和所述第二异常对象确定所述一组故障对象。
4.根据权利要求3所述的方法,其特征在于,对所述故障范围内多个系统关联的公共对象进行检测,确定是否存在第二异常对象,包括:
根据所述配置管理数据库确定公共对象候选列表;
获取所述公共对象候选列表中各个公共对象对应的所述第一激励值;
按照所述第一激励值进行排序,确定所述第二异常对象。
5.根据权利要求4所述的方法,其特征在于,获取所述公共对象候选列表中各个公共对象对应的所述第一激励值,包括:
获取所述各个公共对象对应的影响实例数占比和异常实例数占比,其中,所述影响实例数占比表示当前时间窗口内对应公共对象关联的告警实例数量占该公共对象实际相关的对象实例数量的比例,所述异常实例数占比表示所述当前时间窗口内对应公共对象关联的告警实例数量占所述当前时间窗口内所有告警实例数量的比例;
对所述各个公共对象对应的所述影响实例数占比和所述异常实例数占比分别执行加权操作,得到所述各个公共对象对应的所述第一激励值。
6.根据权利要求1所述的方法,其特征在于,对所述一组故障对象中的各个故障对象进行异常检测,并基于所述异常检测的检测结果为所述第一激励值分配权重,确定与所述一组故障对象中的各个故障对象对应的第二激励值,包括:
根据所述故障对象在所述故障范围的拓扑层级确定第一权重值;
根据所述故障对象在所述故障范围中是否处于预设拓扑位置确定第二权重值;
根据所述故障对象关联的告警消息的特征数据确定第三权重值;
根据所述故障对象的历史数据确定第四权重值;
根据所述第一权重值、所述第二权重值、所述第三权重值以及所述第四权重值为所述一组故障对象中的各个故障对象的所述第一激励值分配权重,确定所述一组故障对象中的各个故障对象的第二激励值。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述一组故障对象中的各个故障对象的发生故障的时间,对所述第二激励值进行约束,得到约束后的所述第二激励值,其中,所述一组故障对象包括第一故障对象和第二故障对象,所述第一故障对象发生故障的时间晚于所述第二故障对象发生故障的时间,所述第一故障对象约束后的所述第二激励值小于所述第二故障对象约束后的所述第二激励值;
根据所述一组故障对象中的各个故障对象的发生故障的拓扑位置,对所述第二激励值进行约束,得到约束后的所述第二激励值,其中,所述一组故障对象包括第三故障对象,所述第三故障对象在所述故障范围中允许影响第一对象集合中的对象,所述第一对象集合中的对象数量为第一数量,所述第一对象集合中发生故障的对象数量为第二数量,所述第三故障对象约束后的所述第二激励值的取值与所述第一数量和所述第二数量的取值呈正相关。
8.一种故障对象的定位装置,其特征在于,包括:
生成模块,用于在获取到的告警消息触发了预设排障条件的情况下,生成疑似故障数据,其中,所述告警消息表示当前存在异常的业务数据,所述疑似故障数据用于查找发生故障的目标系统;
第一确定模块,用于基于预先确定的配置管理数据库确定所述疑似故障数据的故障范围,其中,所述故障范围表示造成所述目标系统发生故障的拓扑范围,所述目标系统由所述疑似故障数据确定;
第二确定模块,用于根据所述疑似故障数据与所述故障范围确定一组故障对象,其中,所述一组故障对象中的各个故障对象具有对应的第一激励值,所述第一激励值表示对应故障对象造成所述目标系统发生故障的概率;
检测模块,用于对所述一组故障对象中的各个故障对象进行异常检测,并基于所述异常检测的检测结果为所述第一激励值分配权重,确定与所述一组故障对象中的各个故障对象对应的第二激励值,其中,所述第二激励值是从时间和空间上进行约束后产生的激励值;
第三确定模块,用于根据所述第二激励值从所述一组故障对象中确定目标对象,其中,所述目标对象是按照所述第二激励值排序后,满足预设排序条件的故障对象。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被处理器执行时实现所述权利要求1至7任一项中所述的方法的步骤。
10.一种电子装置,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现所述权利要求1至7任一项中所述的方法的步骤。
CN202410064794.1A 2024-01-16 2024-01-16 故障对象的定位方法、装置、存储介质及电子装置 Pending CN117891641A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410064794.1A CN117891641A (zh) 2024-01-16 2024-01-16 故障对象的定位方法、装置、存储介质及电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410064794.1A CN117891641A (zh) 2024-01-16 2024-01-16 故障对象的定位方法、装置、存储介质及电子装置

Publications (1)

Publication Number Publication Date
CN117891641A true CN117891641A (zh) 2024-04-16

Family

ID=90641033

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410064794.1A Pending CN117891641A (zh) 2024-01-16 2024-01-16 故障对象的定位方法、装置、存储介质及电子装置

Country Status (1)

Country Link
CN (1) CN117891641A (zh)

Similar Documents

Publication Publication Date Title
CN112162878B (zh) 数据库故障发现方法、装置、电子设备及存储介质
US9298525B2 (en) Adaptive fault diagnosis
US9413597B2 (en) Method and system for providing aggregated network alarms
US7500142B1 (en) Preliminary classification of events to facilitate cause-based analysis
CN110166264B (zh) 一种故障定位方法、装置及电子设备
CN102929773B (zh) 信息采集方法和装置
CN114978568B (zh) 使用机器学习进行数据中心管理
CN111355610A (zh) 一种基于边缘网络的异常处理方法及装置
CN113328872A (zh) 故障修复方法、装置和存储介质
EP2907085B1 (en) Autonomic network sentinels
CN112769605B (zh) 一种异构多云的运维管理方法及混合云平台
JP2014112400A (ja) アソシエーションルールマイニングを使用してコンピュータ環境内の計算エンティティ向けコンフィギュレーションルールを生成するための方法及び装置
CN112737800A (zh) 服务节点故障定位方法、调用链生成方法及服务器
CN113704018A (zh) 应用运维数据处理方法、装置、计算机设备及存储介质
CN116760655B (zh) Sd-wan应用中提供cpe最优接入的pop点方法
CN110609761B (zh) 确定故障源的方法、装置、存储介质和电子设备
CN117891641A (zh) 故障对象的定位方法、装置、存储介质及电子装置
CN115686381A (zh) 存储集群运行状态的预测方法及装置
CN115150289A (zh) 基于复合监控的异常处理方法及系统
CN115150253A (zh) 一种故障根因确定方法、装置及电子设备
AU2014200806B1 (en) Adaptive fault diagnosis
CN114531338A (zh) 一种基于调用链数据的监控告警和溯源方法及系统
CN118132325B (zh) 基于微服务的三方服务故障处理方法及系统
CA2843004C (en) Adaptive fault diagnosis
CN113037550B (zh) 一种服务故障监控方法、系统及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination