CN108964960B - 一种告警事件的处理方法及装置 - Google Patents

一种告警事件的处理方法及装置 Download PDF

Info

Publication number
CN108964960B
CN108964960B CN201710393688.8A CN201710393688A CN108964960B CN 108964960 B CN108964960 B CN 108964960B CN 201710393688 A CN201710393688 A CN 201710393688A CN 108964960 B CN108964960 B CN 108964960B
Authority
CN
China
Prior art keywords
alarm
alarm event
main body
target
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710393688.8A
Other languages
English (en)
Other versions
CN108964960A (zh
Inventor
刘雄浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201710393688.8A priority Critical patent/CN108964960B/zh
Publication of CN108964960A publication Critical patent/CN108964960A/zh
Application granted granted Critical
Publication of CN108964960B publication Critical patent/CN108964960B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0604Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time
    • H04L41/0609Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time based on severity or priority
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/065Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving logical or physical relationship, e.g. grouping and hierarchies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Alarm Systems (AREA)

Abstract

本申请涉及数据分析技术领域,尤其涉及一种告警事件的处理方法及装置,为了在海量告警事件中,及时准确地判定造成根源性故障的告警事件,该方法为,结合当前周期内产生的告警事件和历史周期内产生的未失效的告警事件,各个告警事件各自对应的主体,以及预设的各个主体之间的参考拓扑关系,确定主体事件拓扑关系,并将主体事件拓扑关系划分为若干连通子图,以及从获得的连通子图中筛选出符合预设条件的告警事件作为目标告警事件,这样,能充分考虑到具有关联关系的各个主体,因异步产生具有关联关系的各个故障而触发产生的各个告警事件,可直接确定导致异步触发产生的各个告警事件的根源性故障,减少了故障排除时间,提高了清障效率。

Description

一种告警事件的处理方法及装置
技术领域
本申请涉及数据分析技术领域,尤其涉及一种告警事件的处理方法及装置。
背景技术
为了更好的对网络业务系统、网络资源等进行管理,通常会在相应设备上部署监控点,一旦被监控的设备发生故障,设备对应的监控点就会产生相应的告警事件,以通知管理方进行相应处理,其中,监控点可以是硬件,也可以是软件,而且,监控点可以检测到相应设备发生的硬件故障,也可以检测到相应设备发生的软件故障。
然而,随着监控体系的扩大,监控点的增多,每个监控点又能产生多个告警事件,管理方可能会同时接收到大量的告警事件。
针对上述情形,相关技术下,仅能通过去除重复的告警事件,完成对告警事件的初步处理,例如,假设设备1发生故障而产生了告警事件A,而由于故障未能及时排除,导致设备1多次重复产生告警事件A,那么,相关技术下,仅能对重复产生的告警事件A进行去重处理。
当管理方接收到海量的告警事件时,仅靠去重处理是无法在海量告警事件中及时判定哪些告警事件是由根源性故障触发的,因此无法及时进行故障处理,进而导致故障处理耗时加长,故障处理效率降低。
有鉴于此,需要设计一种新的告警事件的处理方法以克服上述缺陷。
发明内容
本申请实施例提供一种告警事件的处理方法及装置,用以在海量告警事件中,及时准确地判定造成根源性故障的告警事件。
本申请实施例提供的具体技术方案如下:
第一方面,一种告警事件的处理方法,包括:
获取待处理告警事件集合,其中,所述待处理告警事件集合包含当前周期内产生的最新一批次的告警事件和历史周期内产生的未失效的告警事件;
基于所述待处理告警事件集合中包含的至少一个告警事件,所述至少一个告警事件各自对应的主体,以及预设的至少一个主体之间的参考拓扑关系,确定所述待处理告警事件集合对应的主体事件拓扑关系,并将所述主体事件拓扑关系划分为若干连通子图,其中,不同连通子图包含的节点之间不存在关联关系,一个节点表征一个主体以及所述一个主体对应的至少一个告警事件;
对获得的连通子图执行以下操作:从连通子图中筛选出符合预设条件的告警事件作为目标告警事件,并基于所述目标告警事件确定相应的根源性故障。
可选的,获取待处理告警事件集合,包括:
从预设的各个监控点收集当前周期内产生的最新一批次的告警事件,以及从指定存储区域中获取已缓存的历史周期内产生的未失效的告警事件,其中,一个告警事件未失效表征对应所述一个告警事件设置的存活期TTL未超时;
将获取的所述最新一批次的告警事件与所述未失效的告警事件进行合并,获得待处理告警事件集合。
可选的,基于所述待处理告警事件集合中包含的至少一个告警事件,所述至少一个告警事件各自对应的主体,以及预设的至少一个主体之间的参考拓扑关系,确定所述待处理告警事件集合对应的主体事件拓扑关系,包括:
确定所述待处理告警事件集合中包含的至少一个告警事件各自对应的主体,并基于预设的至少一个主体之间的参考拓扑关系,确定所述待处理告警事件集合中对应的至少一个主体之间的主体拓扑关系;
基于所述待处理告警事件集合中包含的至少一个告警事件,以及所述至少一个告警事件各自对应的主体,对所述待处理告警事件集合中对应的至少一个主体之间的主体拓扑关系进行调整,获得所述待处理告警事件集合的主体事件拓扑关系。
可选的,从连通子图中筛选出符合预设条件的告警事件作为目标告警事件,包括:
从所述连通子图中筛选出符合第一预设条件的主体作为目标主体;
从所述目标主体对应的至少一个告警事件中筛选出符合第二预设条件的告警事件作为目标告警事件。
可选的,从连通子图中筛选出符合第一预设条件的主体作为目标主体,包括:
基于网页排名算法,分别计算所述连通子图对应的至少一个主体的网页排名值,其中,一个主体的网页排名值与所述一个主体关联的其它主体的数目相关联;
从所述连通子图对应的至少一个主体中,筛选出最大网页排名值对应的主体作为目标主体。
可选的,进一步包括:
若所述最大网页排名值对应的主体存在至少两个,则从所述最大网页排名值对应的主体中,筛选出具有最高目标优先级的主体作为目标主体。
可选的,从最大网页排名值对应的主体中,筛选出具有最高目标优先级的主体作为目标主体,包括:
基于预设的至少一个告警事件的处理优先级,确定所述最大网页排名值对应的主体所关联的至少一个告警事件的处理优先级;
基于所述最大网页排名值对应的主体所关联的至少一个告警事件的处理优先级,确定所述最大网页排名值对应的主体各自对应的目标优先级;
从所述最大网页排名值对应的主体中筛选出具有最高目标优先级的主体作为目标主体。
可选的,进一步包括:
若具有最高目标优先级的主体存在至少两个,则从所述至少两个主体中随机选取一个主体作为目标主体。
可选的,从所述目标主体对应的至少一个告警事件中筛选出符合第二预设条件的告警事件作为目标告警事件,包括:
基于预设的至少一个告警事件的处理优先级,确定所述目标主体对应的至少一个告警事件的处理优先级;
基于所述目标主体对应的至少一个告警事件的处理优先级,从所述目标主体对应的至少一个告警事件中,筛选出具有最高处理优先级的告警事件作为目标告警事件。
第二方面,一种告警事件的处理方法,包括:
基于用户触发的获取指令,获取待处理告警事件集合,并将所述待处理告警事件集合呈现给用户,其中,所述待处理告警事件集合包含当前周期内产生的最新一批次的告警事件和历史周期内产生的未失效的告警事件;
接收到用户基于所述待处理告警事件集合触发的拓扑关系确认指令时,基于所述待处理告警事件集合中包含的至少一个告警事件,所述至少一个告警事件各自对应的主体,以及预设的至少一个主体之间的参考拓扑关系,确定所述待处理告警事件集合对应的主体事件拓扑关系,以及将所述主体事件拓扑关系划分为若干连通子图,并将所述若干连通子图呈现给用户,其中,不同连通子图包含的节点之间不存在关联关系,一个节点表征一个主体以及所述一个主体对应的至少一个告警事件;
接收到用户基于所述若干连通子图触发的目标告警事件确认指令时,对获得的连通子图执行以下操作:从连通子图中筛选出符合预设条件的告警事件作为目标告警事件,并将所述目标告警事件呈现给用户;
接收到用户基于至少一个目标告警事件触发的根源性故障确认指令时,针对获得的至少一个目标告警事件,分别确定相应的根源性故障并呈现给用户。
第三方面,一种故障源检测方法,包括:
获取告警事件集合,其中,所述告警事件集合中的告警事件分别与计算设备对应;
基于所述告警事件集合以及参考拓扑关系,获取目标告警事件;
基于所述目标告警事件确定相应的故障源。
可选的,所述告警事件集合包括当前周期内产生的告警事件和历史周期内产生的未失效的告警事件。
可选的,基于所述告警事件集合以及参考拓扑关系,获取目标告警事件包括:将所述告警事件集合中的告警事件映射到所述参考拓扑关系,得到目标拓扑关系,其中,所述目标拓扑关系中的计算设备包括告警事件;
获取目标拓扑关系中的连通子图,其中,不同连通子图包含的节点之间不存在关联关系,一个节点表征一个主体以及所述一个主体对应的至少一个告警事件;
从所述连通子图中筛选出符合预设条件的告警事件作为目标告警事件。
可选的,所述参考拓扑关系包括多个计算设备之间的故障拓扑关系,故障拓扑关系包括计算设备之间引起故障的关系。
可选的,其中,所述连通子图为有向连通子图;
其中,从所述连通子图中筛选出符合预设条件的告警事件作为目标告警事件包括:
选择连通子图中的起始节点上映射的告警事件作为目标告警事件。
第四方面,一种故障源检测设备,包括操作界面,其中,该操作界面包括:
第一交互对象,适于接受用户指令,获取告警事件集合,其中,所述告警事件集合中的告警事件分别与计算设备对应;和
第二交互对象,适于展示目标告警事件和故障源,其中,所述目标告警事件基于所述告警事件集合以及参考拓扑关系获取,所述故障源基于所述目标告警事件确定。
第五方面,一种告警事件的处理装置,包括:
获取单元,用于获取待处理告警事件集合,其中,所述待处理告警事件集合包含当前周期内产生的最新一批次的告警事件和历史周期内产生的未失效的告警事件;
确定单元,用于基于所述待处理告警事件集合中包含的至少一个告警事件,所述至少一个告警事件各自对应的主体,以及预设的至少一个主体之间的参考拓扑关系,确定所述待处理告警事件集合对应的主体事件拓扑关系,并将所述主体事件拓扑关系划分为若干连通子图,其中,不同连通子图包含的节点之间不存在关联关系,一个节点表征一个主体以及所述一个主体对应的至少一个告警事件;
处理单元,用于对获得的连通子图执行以下操作:从连通子图中筛选出符合预设条件的告警事件作为目标告警事件,并基于所述目标告警事件确定相应的根源性故障。
可选的,获取待处理告警事件集合时,所述获取单元用于:
从预设的各个监控点收集当前周期内产生的最新一批次的告警事件,以及从指定存储区域中获取已缓存的历史周期内产生的未失效的告警事件,其中,一个告警事件未失效表征对应所述一个告警事件设置的存活期TTL未超时;
将获取的所述最新一批次的告警事件与所述未失效的告警事件进行合并,获得待处理告警事件集合。
可选的,基于所述待处理告警事件集合中包含的至少一个告警事件,所述至少一个告警事件各自对应的主体,以及预设的至少一个主体之间的参考拓扑关系,确定所述待处理告警事件集合对应的主体事件拓扑关系时,所述确定单元用于:
确定所述待处理告警事件集合中包含的至少一个告警事件各自对应的主体,并基于预设的至少一个主体之间的参考拓扑关系,确定所述待处理告警事件集合中对应的至少一个主体之间的主体拓扑关系;
基于所述待处理告警事件集合中包含的至少一个告警事件,以及所述至少一个告警事件各自对应的主体,对所述待处理告警事件集合中对应的至少一个主体之间的主体拓扑关系进行调整,获得所述待处理告警事件集合的主体事件拓扑关系。
可选的,从连通子图中筛选出符合预设条件的告警事件作为目标告警事件时,所述处理单元用于:
从所述连通子图中筛选出符合第一预设条件的主体作为目标主体;
从所述目标主体对应的至少一个告警事件中筛选出符合第二预设条件的告警事件作为目标告警事件。
可选的,从连通子图中筛选出符合第一预设条件的主体作为目标主体时,所述处理单元用于:
基于网页排名算法,分别计算所述连通子图对应的至少一个主体的网页排名值,其中,一个主体的网页排名值与所述一个主体关联的其它主体的数目相关联;
从所述连通子图对应的至少一个主体中,筛选出最大网页排名值对应的主体作为目标主体。
可选的,所述处理单元还用于:
若所述最大网页排名值对应的主体存在至少两个,则从所述最大网页排名值对应的主体中,筛选出具有最高目标优先级的主体作为目标主体。
可选的,从最大网页排名值对应的主体中,筛选出具有最高目标优先级的主体作为目标主体时,所述处理单元用于:
基于预设的至少一个告警事件的处理优先级,确定所述最大网页排名值对应的主体所关联的至少一个告警事件的处理优先级;
基于所述最大网页排名值对应的主体所关联的至少一个告警事件的处理优先级,确定所述最大网页排名值对应的主体各自对应的目标优先级;
从所述最大网页排名值对应的主体中筛选出具有最高目标优先级的主体作为目标主体。
可选的,所述处理单元还用于:
若具有最高目标优先级的主体存在至少两个,则从所述至少两个主体中随机选取一个主体作为目标主体。
可选的,从所述目标主体对应的至少一个告警事件中筛选出符合第二预设条件的告警事件作为目标告警事件时,所述处理单元用于:
基于预设的至少一个告警事件的处理优先级,确定所述目标主体对应的至少一个告警事件的处理优先级;
基于所述目标主体对应的至少一个告警事件的处理优先级,从所述目标主体对应的至少一个告警事件中,筛选出具有最高处理优先级的告警事件作为目标告警事件。
第六方面,一种告警事件的处理装置,包括:
获取单元,用于基于用户触发的获取指令,获取待处理告警事件集合,并将所述待处理告警事件集合呈现给用户,其中,所述待处理告警事件集合包含当前周期内产生的最新一批次的告警事件和历史周期内产生的未失效的告警事件;
确定单元,用于接收到用户基于所述待处理告警事件集合触发的拓扑关系确认指令时,基于所述待处理告警事件集合中包含的至少一个告警事件,所述至少一个告警事件各自对应的主体,以及预设的至少一个主体之间的参考拓扑关系,确定所述待处理告警事件集合对应的主体事件拓扑关系,以及将所述主体事件拓扑关系划分为若干连通子图,并将所述若干连通子图呈现给用户,其中,不同连通子图包含的节点之间不存在关联关系,一个节点表征一个主体以及所述一个主体对应的至少一个告警事件;
筛选单元,用于接收到用户基于所述若干连通子图触发的目标告警事件确认指令时,对获得的连通子图执行以下操作:从连通子图中筛选出符合预设条件的告警事件作为目标告警事件,并将所述目标告警事件呈现给用户;
故障确认单元,用于接收到用户基于至少一个目标告警事件触发的根源性故障确认指令时,针对获得的至少一个目标告警事件,分别确定相应的根源性故障并呈现给用户。
第七方面,一种存储介质,存储有用于告警事件处理的程序,所述程序被处理器运行时,执行以下步骤:
获取待处理告警事件集合,其中,所述待处理告警事件集合包含当前周期内产生的最新一批次的告警事件和历史周期内产生的未失效的告警事件;
基于所述待处理告警事件集合中包含的至少一个告警事件,所述至少一个告警事件各自对应的主体,以及预设的至少一个主体之间的参考拓扑关系,确定所述待处理告警事件集合对应的主体事件拓扑关系,并将所述主体事件拓扑关系划分为若干连通子图,其中,不同连通子图包含的节点之间不存在关联关系,一个节点表征一个主体以及所述一个主体对应的至少一个告警事件;
对获得的连通子图执行以下操作:从连通子图中筛选出符合预设条件的告警事件作为目标告警事件,并基于所述目标告警事件确定相应的根源性故障。
第八方面,一种通信装置,包括一个或多个处理器;以及
一个或多个计算机可读介质,所述可读介质上存储有指令,所述指令被所述一个或多个处理器执行时,使得所述装置执行上述第一方面中任一项所述的方法。
第九方面,一个或多个计算机可读介质,所述可读介质上存储有指令,所述指令被一个或多个处理器执行时,使得通信设备执行上述第一方面中任一项所述的方法。
根据本申请一个实施例,先结合当前周期内产生的最新一批次的告警事件和历史周期内产生的未失效的告警事件,然后,基于各个告警事件,各个告警事件各自对应的主体,以及预设的各个主体之间的参考拓扑关系,确定上述各个告警事件对应的主体事件拓扑关系,并将确定的主体事件拓扑关系划分为若干连通子图,然后,从获得的连通子图中筛选出符合预设条件的告警事件作为目标告警事件,并基于各个目标告警事件,确定每一个连通子图对应的根源性故障,其中,不同连通子图包含的各个节点之间不存在关联关系,而一个节点又表征一个主体以及上述一个主体对应的各个告警事件。
这样,通过结合分析当前周期内产生的告警事件和历史周期内产生的告警事件,能充分考虑到具有关联关系的各个主体,因异步产生具有关联关系的各个故障而触发产生的各个告警事件,从而,可以直接确定导致异步触发产生的各个告警事件的根源性故障,进而,减少了故障排除时间,提高了清障效率。
附图说明
图1为本申请实施例中参考拓扑关系示例图;
图2a为本申请实施例中告警事件的处理方法流程图a;
图2b为本申请实施例中告警事件的处理方法流程图b;
图3为本申请实施例中参考拓扑关系转化为主体拓扑关系过程示例图;
图4为本申请实施例中主体拓扑关系转化为主体事件拓扑关系过程示例图;
图5为本申请实施例中连通子图的示例图;
图6为本申请实施例中缓存告警事件作用效果图;
图7为本申请实施例中告警事件的处理方法概括流程图;
图8为本申请实施例中一种故障源检测方法流程图;
图9为本申请实施例中一种故障源检测方法示例图;
图10为本申请实施例中告警事件的第一种处理装置结构示意图;
图11为本申请实施例中告警事件的第二种处理装置结构示意图。
具体实施方式
为了在海量告警事件中,及时准确地判定造成根源性故障的告警事件,根据本申请一个实施例,设计了一种告警事件的处理方法,该方法包括,结合当前周期内产生的告警事件和历史周期内产生的未失效的告警事件,各个告警事件各自对应的主体,以及预设的各个主体之间的参考拓扑关系,确定上述各个告警事件对应的主体事件拓扑关系,并将确定的主体事件拓扑关系划分为若干连通子图,然后,从获得的连通子图中筛选出符合预设条件的告警事件作为目标告警事件,并基于各个目标告警事件,确定每一个连通子图对应的根源性故障,其中,不同连通子图包含的各个节点之间不存在关联关系,而一个节点又表征一个主体以及上述一个主体对应的各个告警事件。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,并不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于理解本申请实施例介绍的技术方案,现给出部分术语的定义:
告警事件:监控系统产生的每一条基础告警均为一个告警事件,其中,一个告警事件包括如下基本属性:执行告警事件的主体、告警事件类型等等。
处理优先级:预先基于告警事件的轻重缓急而设置的处理紧急程度。
监控点:预先在监控系统中设置的具有监控设备的位置点。
存活期(Time To Live,TTL):预先为告警事件设置的可在监控系统中被保存的时长。
参考拓扑关系:监控系统中设置有监控点的各个主体之间的关联关系。
主体拓扑关系:待处理告警事件集合中各个主体之间的关联关系;其中,主体包括计算设备。
计算设备:包括但不限于:个人计算机PC、服务器、网关设备、路由器、智能终端(例如手机)等。
主体事件拓扑关系:待处理告警事件集合中各个告警事件,以及各个告警事件各自对应的主体之间的关联关系。
其中,主体拓扑关系是基于参考拓扑关系确定的,而主体事件拓扑关系是基于主体拓扑关系确定的。
一个连通子图:主体事件拓扑关系包含的若干分支关系中的任意一支关系。
PageRank算法:网页排名算法。
PageRank值:基于PageRank算法计算而获得的值。
目标优先级:一个主体的相关告警事件各自对应的处理优先级中的最高处理优先级。
下面将通过具体实施例对本申请的方案进行详细描述,当然,本申请并不限于以下实施例。
在处理告警事件之前,本申请实施例中,预先存储了系统中设置有监控点的各个主体之间的参考拓扑关系。以处理网络业务的系统为例,上述各个主体可以是机房、集群、设备、端口等等,而上述参考拓朴关系,用于表示各个主体之间的连接关系,其中,主体之间的连接关系可以是有向的。
例如,设备A能控制机房B,设备A也能影响集群C,集群C又能影响机房B,而端口D是设备A中的一个网络端口,显然,设备A、机房B、集群C和端口D之间是存在连接关系的,具体参阅图1所示。
而且,各个主体因不同故障而触发产生的告警事件,也会因轻重缓急而对应存在不同的处理优先级,本申请实施例中,预先定义了各个主体的不同故障触发产生的不同告警事件的处理优先级,并将各个告警事件的处理优先级进行保存。
例如,服务器a出现宕机,触发产生告警事件1,机房发生网络故障,触发产生告警事件2,服务器a遭受恶意攻击,触发产生告警事件3,具体参阅表1所示。
表1
主体类型 故障类型 告警事件类型 处理优先级
服务器a 宕机 告警事件1 B+
机房 网络故障 告警事件2 A+
服务器a 恶意攻击 告警事件3 C+
若预先定义机房出现网络故障最紧急,且个别服务器出现宕机的紧急程度高于遭受恶意攻击,则可确定告警事件2的处理优先级A+最高,告警事件1的处理优先级B+次高,告警事件3的处理优先级C+最低,具体上述3个告警事件之间的处理优先级关系为:告警事件2>告警事件1>告警事件3,并将上述获得的处理优先级关系进行保存。
参阅图2a-图2b所示,本申请实施例中,告警事件的处理方法流程如下:
步骤200:获取最新批次的告警事件。
具体的,从预设的各个监控点收集当前周期内产生的最新批次的告警事件,假设以一分钟为周期,则可将最近一分钟内产生的所有告警事件,作为最新批次的告警事件。
根据本申请一个实施例,监控点可以位于单独的服务器、单独的网络路由器、单独的客户端上;根据本申请另一个实施例,监控点也可以位于集群的某一个服务器、集群的某一个网络路由器上,具体位置不做限定。
其中,以“服务器”为例,监控点位于单独的服务器上,和位于集群的某一个服务器上的区别在于,若监控点位于单独的服务器上,则监控点监控的可能只是服务器自身的运作;若监控点位于集群的某一个服务器上,而这台服务器是整个集群的核心服务器,那么,此时监控点监控的就不止被设置有监控点的服务器自身的运作了,应是监控整个集群的运作。
本实施例中,例如,16点40分-16点41分之间产生了5个告警事件,并经查找,确定上述5个告警事件各自对应的处理优先级,如表2所示。
表2
主体类型 故障类型 告警事件类型 处理优先级
服务器a 宕机 告警事件1 B+
机房 网络故障 告警事件2 A+
服务器a 恶意攻击 告警事件3 C+
集群a的服务器c 死机 告警事件4 B-
集群a的路由器a 硬件损坏 告警事件5 D+
则获取的最新批次的告警信息为{告警事件1、告警事件2、告警事件3、告警事件4、告警事件5}。
步骤201:获取缓存告警事件集合,其中,缓存告警事件集合中包含的一个或多个告警事件设置有对应的存活期(Time To Live,TTL),且告警事件被保存的时长不超过对应的TTL。
具体的,由于告警事件与告警事件之间可能存在关联关系,且具有关联关系的告警事件不一定是同时产生的,因此,一般来说,处理当前批次的告警事件,还需借助当前批次之前已产生的告警事件。
因此,本申请实施例中,在指定存储区域内缓存了历史周期内产生的未失效的告警事件,其中,历史周期是指当前周期内之前,其中,一个告警事件未失效表征对应一个告警事件设置的TTL未超时,历史周期产生的,且未超时的各个告警事件,组成缓存告警事件集合。
因为,并不是历史周期内产生的所有告警事件均具有参考价值,以两个告警事件为例,一般来说,若两个告警事件之间存在关联关系,那么,一个告警事件的产生,在一定时长内可能会触发另一个告警事件的产生,若一个告警事件已确定跟其它任何告警事件不存在关联关系,则确定该告警事件不用缓存。总之,哪些告警事件需要被缓存并且对应设置相应的TTL,可以配置相应规则在此不再赘述。
所以,为了降低系统处理量,提高处理效率,根据本申请一个实施例,可以基于经验值或者实际需求,预先为缓存的一个或多个告警事件设定相应时长的TTL,一旦告警事件被保存的时长超过对应的TTL,则存储区域内不再对上述告警事件进行保存,而是将其进行移除,其中,缓存的各个告警事件之间的TTL可以相同,也可以不同,以配置决定。
表3
Figure BDA0001308092760000141
例如,参阅表3所示,对于告警事件6和告警事件7而言,其各自的已缓存时长均未达到相应的TTL,因此,这两个告警事件将被继续缓存,而对于告警事件8而言,由于其已缓存时长已达到5分钟,因此,系统将会从缓存告警事件集合中移除告警事件8。
步骤202:将获取的最新批次的告警事件和缓存告警事件集合内的一个或多个告警事件进行合并,作为待处理告警事件集合。
具体的,系统会对最新批次的告警事件和缓存告警事件集合中的一个或多个告警事件进行合并,作为当前需要处理的告警事件集合(以下简称为待处理告警事件集合),其中,待处理告警事件集合可表示为:E={e11,e12,…,eij…},eij表示第i个主体的第j个告警事件。
例如,针对步骤200和步骤201中的示例,合并后获得的待处理告警事件集合E={告警事件1、告警事件2、告警事件3、告警事件4、告警事件5、告警事件6、告警事件7},具体参阅表4所示。可以理解,以表格形式的数据是为了更清楚的展现,在实际应用中,用户可以以适合的数据结构来存储,,这里不再赘述。
表4
Figure BDA0001308092760000151
步骤203:确定待处理告警事件集合中一个或多个告警事件对应的主体。
具体的,不同的告警事件间之所以存在关联关系,是因故障而触发产生不同告警事件的主体之间存在关联关系,所以,在确定待处理告警事件集合之后,需先确定待处理告警事件集合中的一个或多个告警事件对应的主体。
进一步地,基于确定的待处理告警事件集合E={e11,e12,…,eij…},确定上述待处理告警事件集合E中一个或多个告警事件对应的主体,本实施例中,得到的各个主体用V={v1,v2,…,vi…}表示,其中,vi表示第i个主体。
例如,为了便于理解,将表4中的告警事件1-7作为待处理告警事件集合E1中的各个告警事件,由表4可知,告警事件1和告警事件3对应的主体均为服务器a,告警事件2对应的主体为机房,告警事件4和告警事件5对应的主体均为集群a,告警事件6和告警事件7对应的主体均为交换机v。
步骤204:基于预先保存的系统中设置有监控点的一个或多个主体之间的参考拓扑关系,确定待处理告警事件集合中一个或多个主体之间的主体拓扑关系。
具体的,由于系统中设置有监控点的一个或多个主体之间的参考拓扑关系已预先进行了保存,因此,可以直接从相应存储区域获取带有监控点的一个或多个主体之间的参考拓扑关系,然后,基于待处理告警事件集合中已确定的一个或多个主体,确定待处理告警事件集合中包含的一个或多个主体之间的主体拓扑关系。
例如,以步骤203中的示例继续进行说明,并假设带有监控点的一个或多个主体(机房、集群a、服务器a、交换机v和服务器a的网络端口)之间的参考拓扑关系,参阅图3中的①所示,由于已确定待处理告警事件集合E1中的各个主体为:机房、集群a、服务器a和交换机v,从图3中的①所示的参考拓扑关系中,提取机房、集群a、服务器a和交换机v之间的主体拓扑关系,参阅图3中的②所示。
步骤205:基于待处理告警集合中一个或多个告警事件,以及上述一个或多个告警事件各自对应的主体,对已确定的待处理告警事件集合中一个或多个主体之间的主体拓扑关系进行调整,获得待处理告警事件集合的主体事件拓扑关系。
具体的,确定待处理告警事件集合对应的主体拓扑关系后,基于上述待处理告警事件集合对应的一个或多个主体各自对应的告警事件,将上述一个或多个主体的主体拓扑关系调整为,上述一个或多个主体各自对应的告警事件之间的主体事件拓扑关系,其中,主体事件拓扑关系是,以主体为节点,以上述一个或多个主体间的关联关系为连接边,以告警事件为节点内记录的内容构建的,一个节点记录了一个主体对应的一个或多个告警事件。
例如,仍以步骤204中的示例继续进行说明,由于已确定待处理告警事件集合E1中机房、集群a、服务器a、和交换机v之间的主体拓扑关系,参阅图4中的①所示,则可确定机房对应的告警事件2、服务器a对应的告警事件1和告警事件3,集群a对应的告警事件4和告警事件5,以及交换机v对应的告警事件6和告警事件7之间的主体事件拓扑关系S,参阅图4中的②所示。
步骤206:基于待处理告警事件集合的主体事件拓扑关系,确定上述主体事件拓扑关系内存在的若干连通子图,其中,一个连通子图表示可以基于当前连通子图内的任意一个节点遍历当前连通子图包含的所有节点。
具体的,针对一个待处理告警事件集合,对于因无法通过直接或间接的关联关系连接为一个整体,而存在若干分支的主体事件拓扑关系,将任意一个分支定义为连通子图,即,主体事件拓扑关系可表示为:S={S1,S2,…,Sq…},Sq表示主体事件拓扑关系S中的第q个连通子图,其中,一个连通子图表示可以基于当前连通子图内的一个节点遍历当前连通子图包含的所有节点,不同连通子图包含的各个节点之间不存在关联关系,一个节点表征一个主体以及上述一个主体对应的各个告警事件。
进一步地,所谓直接的关联关系,是指两个主体之间能直接对双方造成影响,如主体A发生故障,也能导致主体B也发生故障,所谓间接的关联关系,是指两个主体之间能通过中间主体对双方造成影响,如主体C发生故障,导致了主体D发生故障,而主体D发生故障,才能导致主体E跟着发生故障。
例如,继续以待处理告警事件集合E1对应的主体事件拓扑关系S进行说明,具体参阅图5所示,主体事件拓扑关系S中存在两个连通子图,其中,连通子图S1对应机房、集群a和服务器a,连通子图S2对应交换机v。
步骤207:对获得的连通子图执行以下操作:基于网页排名(PageRank)算法,分别计算当前连通子图内至少一个主体的PageRank值,以及基于当前连通子图内至少一个主体对应的至少一个告警事件的处理优先级,确定上述至少一个主体的目标优先级,其中,一个主体的PageRank值与该主体连接的其它主体的数目相关联。
具体的,确定待处理告警事件集合的主体事件拓扑关系中存在的若干连通子图后,对获得的连通子图执行以下操作:基于PageRank算法,计算当前连通子图内一个或多个主体的PageRank值(以下简称PR值),以及分别基于当前连通子图内一个或多个主体对应的一个或多个告警事件的处理优先级,确定上述一个或多个主体的目标优先级,其中,一个主体的PageRank值与该主体连接的其它主体的数目具有强关联关系,一个主体的PageRank越高,说明与其关联的其他主体越多,那么,这个主体便有可能是触发根源性故障的关键,一个主体的目标优先级越高,说明这个主体的处理紧急程度较高,那么,这个主体便有可能是触发根源性故障的关键。
本申请实施例中,关于如何基于当前连通子图内任意一个主体对应的一个或多个告警事件的处理优先级,确定上述一个主体的目标优先级,具体的,可采用上述一个主体对应的一个或多个告警事件中,最高的处理优先级作为上述一个主体的目标优先级。
例如,假设待处理告警事件集合中各个主体的目标优先级表示为P={P1,P2,…,Pi…},其中,Pi表示第i个主体的目标优先级,以Pi为例:假设Pi对应存在m个告警事件,上述m个告警事件为{ei1,ei2,…,eim},且上述m个告警事件的处理优先级表示为{b1,b2,b3,…,bm},那么,Pi的目标优先级则表示为max{b1,b2,b3,…,bm}。
又例如,继续以待处理告警事件集合E1为说明,关于计算待处理告警事件集合E1内一个或多个主体的PR值,具体可参加表5所示:
针对连通子图S1内的服务器a、集群a和机房,获得PR值为:PR(S1)={PR1、PR2、PR3}={2、1、2},针对连通子图S2内的交换机v,获得PR值为:PR(S2)={PR4}={1}。
表5
Figure BDA0001308092760000191
关于计算待处理告警事件集合E1内一个或多个主体的目标优先级,由表4可知待处理告警事件集合E1内一个或多个主体,及一个或多个主体对应的告警事件的各项参数如表6所示:
表6
Figure BDA0001308092760000192
由表6可知,待处理告警事件集合E1中一个或多个主体的目标优先级。
至此,确定至少一个连通子图内一个或多个主体的目标优先级,以及上述一个或多个主体对应的PageRank值后,针对一个或多个连通子图,执行以下操作:从当前连通子图中筛选出符合第一预设条件的主体作为目标主体,并从目标主体对应的一个或多个告警事件中筛选出符合第二预设条件的告警事件作为目标告警事件,至少一个连通子图的具体筛选过程如下述步骤所示。
步骤208:针对获得的连通子图,执行以下操作:从当前连通子图对应的一个或多个主体的PageRank值中筛选出最大PageRank值,并判断筛选出的最大PageRank值对应的主体是否唯一,若是,则执行步骤209,否则,执行步骤210。
具体的,由于任意一个连通子图,均是由具有直接或间接的关联关系的一个或多个主体和上述一个或多个主体对应的各个告警事件构建的,因此,对于任意一个连通子图来说,均可基于自身对应的各个告警事件,获得触发当前连通子图对应的根源性故障的告警事件。
因此,为获得一个或多个连通子图内对应的根源性故障的告警事件,针对一个或多个连通子图执行以下操作:从当前连通子图对应的一个或多个主体的PageRank值中筛选出最大PageRank值,并判断筛选出的最大PageRank值在当前连通子图内对应的主体是否唯一,若是,则执行步骤209,否则,执行步骤210。
例如,仍以上述示例进行说明,具体参阅表7所示,对于待处理告警事件集合E1来说,连通子图S1对应的PageRank值为:{2、1、2},因此,筛选出的最大PageRank值为“2”,连通子图S2对应的PageRank值为:{1},因此,筛选出的最大PageRank值为“1”,显然,对于连通子图S1来说,筛选出的最大PageRank值“2”对应存在“服务器a”和“机房”,因此,筛选出的最大PageRank值“2”对应的主体并不唯一,相应的,后续执行步骤210,而对于连通子图S2来说,筛选出的最大PageRank值“1”对应存在“交换机v”,因此,筛选出的最大PageRank值“1”对应的主体是唯一的,相应的,后续执行步骤209。
表7
Figure BDA0001308092760000201
步骤209:将筛选出的最大PageRank值对应的主体作为目标主体,并从所述目标主体对应的一个或多个告警事件中,筛选出具有最高处理优先级的告警事件,作为目标告警事件。
具体的,确定筛选出的最大PageRank值对应的主体唯一时,将筛选出的最大PageRank值对应的主体作为目标主体,并从上述目标主体对应的一个或多个告警事件中,按照上述各个告警事件的处理优先级排序,筛选出具有最高处理优先级的告警事件,其中,目标主体表示该主体很有可能是触发根源性故障的关键主体。
例如,仍以上述示例中的待处理告警事件集合E1进行说明,具体参见表7,连通子图S2筛选出的最大PageRank值“1”对应的“交换机v”为唯一主体,可将PageRank值“1”对应的“交换机v”确定为目标主体,而“交换机v”对应存在“告警事件6”和“告警事件7”,由表6可知,“告警事件6”和“告警事件7”对应的处理优先级分别为“E+”和“F+”,显然,处理优先级“E+”要高于处理优先级“F+”,故可将“告警事件6”确定为目标告警事件。
步骤210:从已确定的最大PageRank值对应的一个或多个主体中,筛选出具有最高目标优先级的主体,并判断筛选出的具有最高目标优先级对应的主体是否唯一,若是,则执行步骤211,否则,执行步骤212。
具体的,由于最大PageRank值在当前连通子图中,对应存在不止一个主体,本申请实施例中,可基于目标优先级对上述最大PageRank值对应的一个或多个主体进行深层次的筛选,首先,从已确定的最大PageRank值对应的一个或多个主体的中,筛选出具有最高目标优先级的主体,并判断上述筛选出的具有最高目标优先级的主体是否唯一,若是,则执行步骤211,否则,执行步骤212,其中,一个主体具有最高目标优先级,则表示该主体极有可能包含了根源性故障的告警事件。
例如,仍以上述示例中待处理告警事件集合E1进行说明,具体参见表7,连通子图S1筛选出的最大PageRank值“2”对应存在“服务a”和“机房”,进一步地,从“服务a”和“机房”各自中筛选出具有最高目标优先级的主体,具体参见表6,由于“服务a”的目标优先级为“A+”,“机房”的目标优先级为“B+”,显然,目标优先级“A+”为最高目标优先级,又因目标优先级“A+”对应唯一的“服务a”,进而可确定“服务a”即为目标主体,后续可执行步骤211,否则,执行步骤212。
步骤211:将筛选出的具有最高目标优先级对应的主体作为目标主体,并从所述目标主体对应的一个或多个告警事件中,筛选出具有最高处理优先级的告警事件,作为目标告警事件。
具体的,确定筛选出的具有最高目标优先级的主体唯一时,将筛选出的具有最高目标优先级的主体作为目标主体,并从上述目标主体对应的一个或多个告警事件中,按照上述一个或多个告警事件的处理优先级排序,筛选出具有最高处理优先级的告警事件。
例如,仍以上述示例中的待处理告警事件集合E1进行说明,具体参见表7,连通子图S1筛选出的具体最高目标优先级“A+”的“服务a”,可将“服务a”确定为目标主体,而“主体A”对应存在“告警事件1”和“告警事件3”,由表6可知,“告警事件1”和“告警事件3”对应的处理优先级分别为“A+”和“C+”,显然,处理优先级“A+”要高于处理优先级“C+”,故可将“告警事件1”确定为目标告警事件。
步骤212:从已确定的最大PageRank值对应的一个或多个主体中任意选取一个主体作为目标主体,并从所述目标主体对应的一个或多个告警事件中,筛选出具有最高处理优先级的告警事件,作为目标告警事件。
具体的,倘若不能基于最大PageRank值对应的一个或多个主体各自的目标优先级,从上述一个或多个主体中筛选出唯一的主体作为目标主体,那么,可从上述一个或多个主体中,任意选取一个主体作为目标主体,然后,再从目标主体对应的一个或多个告警事件中,筛选出具有最高处理优先级的告警事件,作为目标告警事件。
例如,假设存在一个待处理告警事件集合E2,具体参见表8:
表8
Figure BDA0001308092760000231
表8中,连通子图S3筛选出的最高目标优先级“B-”对应存在“主体M”和“主体Y”,则可从“主体M”和“主体Y”中任意选取一个主体,作为目标主体,如,假设“主体Y”为目标主体,则“主体Y”对应的“告警事件12”为目标告警事件。
当然,本申请实施例中,系统结束对最新获取的待处理告警事件集合中一个或多个告警事件的处理后,会对已结束处理的上述待处理告警事件集合中最新批次的告警事件进行筛选,对满足指定条件(如,处理优先级大于设定阈值)的告警事件进行缓存,而在将上述满足指定条件的一个或多个告警事件进行缓存之前,会为一个或多个告警事件设置相应的TTL,TTL设置完毕后,上述一个或多个告警事件就会存入预设的存储区域,并且系统会重新获取下一最新批次的告警事件,并基于已缓存的一个或多个告警事件,重新组成待处理告警事件集合,然后,基于上述实施例提供的方式,对待处理告警事件集合中的一个或多个告警事件进行相关处理。
本申请实施例中,之所以在分析获得的最新批次告警事件时,还需结合已缓存的一个或多个告警事件进行处理,是因为,一般来说,具有关联性的多个主体并非同时发生关联性故障,很有可能由关键主体先发生故障,然后,在一定时长后才诱导相关的一个或多个边缘的主体发生故障。
针对这样的情况,若当前获取的一批次告警事件中只包含一个或多个边缘主体发生故障而触发的一个或多个告警事件,而不包含关键主体因发生根源性故障而产生的一个或多个告警事件,那么,在分析一个或多个边缘主体发生故障而触发的一个或多个告警事件时,若不结合早已发生的关键主体发生故障而触发产生的一个或多个告警事件,则可能无法判定导致一个或多个边缘主体发生故障的根源性故障。
例如,具体参阅图6所示,图中“A、B、C、D、E、F”分别为不同的主体,假设主体“A”为关键主体,且主体“A”先行发生故障并触发产生告警事件,主体“A”的告警事件已缓存在相应存储区域,系统当前获取的一批次告警事件为主体“B、C、D、E、F”发生故障而触发产生的各个告警事件。
若采用本申请实施例提供的方案,即,在处理最新获取的一批次告警事件中的一个或多个告警事件时,结合了已缓存的一个或多个告警事件,则可具体参阅图6中的(1)所示:主体“A、B、C、D、F”与其各自对应的告警事件组成连通子图1,主体“E”和其对应的告警事件组成连通子图2,且系统得到的处理结果如下:
主体“A”对应的“告警事件b”为连通子图1对应的目标告警事件;
主体“E”对应的“告警事件a”为连通子图2对应的目标告警事件。
若在处理最新获取的一批次告警事件时,并未参考已发生且仍缓存的一个或多个告警事件,则可具体参阅图6中的(2)所示:主体“B”与其对应的告警事件为连通子图1,主体“C和F”与其各自对应的告警事件组成连通子图2,主体“D”与其对应的告警事件为连通子图3,主体“E”与其对应的告警事件为连通子图4,系统得到的处理结果如下:
主体“B”对应的“告警事件a”为连通子图1对应的目标告警事件;
主体“C”对应的“告警事件b”为连通子图2对应的目标告警事件;
主体“D”对应的“告警事件c”为连通子图3对应的目标告警事件;
主体“E”对应的“告警事件a”为连通子图4对应的目标告警事件。
显然,在(2)方案中,并不能找到导致主体“B、C、D和F”发生故障的根源性故障来源主体“A”。
当然,本申请实施例中,若一个连通子图内只存在一个主体,则无需基于PageRank算法,以及主体的目标优先级进行主体的筛选操作,而是可以直接将上述一个连通子图内唯一的主体确定为目标主体,然后,按照前述提供的方式,从目标主体对应的一个或多个告警事件中筛选出目标告警事件。
例如,参阅图6(1)所示,主体“E”与其对应的一个或多个告警事件组成一个连通子图2,可直接确定主体“E”下的处理优先级最高的“告警事件a”为连通子图2的目标告警事件。
基于上述实施例,参阅图7所示,本申请实施例中,告警事件的处理方法流程可提炼如下:
步骤700:获取待处理告警事件集合,其中,上述待处理告警事件集合包含当前周期内产生的最新一批次的告警事件和历史周期内产生的未失效的告警事件。
具体的,所谓历史周期内产生的未失效的告警事件即是指缓存告警事件集合中的告警事件,也是指自身对应的TTL未超时的告警事件。
步骤710:基于上述待处理告警事件集合中包含的各个告警事件,上述各个告警事件各自对应的主体,以及预设的各个主体之间的参考拓扑关系,确定上述待处理告警事件集合对应的主体事件拓扑关系,并将上述主体事件拓扑关系内划分为若干连通子图,其中,不同连通子图包含的各个节点之间不存在关联关系,一个节点表征一个主体以及上述一个主体对应的各个告警事件。
步骤720:分别针对每一个连通子图执行以下操作:从一个连通子图中筛选出符合预设条件的告警事件作为目标告警事件,并基于上述目标告警事件确定相应的根源性故障。
具体的,之所以可以从连通子图中筛选出符合预设条件的告警事件作为目标告警事件,是结合了一个连通子图包含若干主体,以及一个连通子图只存在唯一主体的情形。
进一步地,若一个连通子图内存在若干主体,则需从上述一个连通子图包含的各个主体中筛选出符合第一预设条件的主体作为目标主体,然后,从目标主体对应的各个告警事件中筛选出符合第二预设条件的告警事件作为目标告警事件;若一个连通子图只存在唯一主体,则可直接将上述唯一主体确定为目标主体,并从目标主体对应的各个告警事件中筛选出符合第二预设条件的告警事件作为目标告警事件。
当然,上述实施例中,对于存在多个操作对象(如,每一个连通子图),系统也可以不用同时对多个操作对象中的每一个操作对象执行相关操作,而是可以针对部分操作对象执行相关操作,例如,步骤720中,“针对每一个连通子图执行以下操作”,也可以为“针对至少一个连通子图执行以下操作”,又例如,步骤710中,“基于上述待处理告警事件集合中包含的各个告警事件”,也可以为“基于上述待处理告警事件集合中包含的至少一个告警事件”。
下面将对本申请实施例在实际业务场景中的应用作进一步详细说明,具体的,本申请实施例中,系统对告警事件进行处理的详细流程如下:
首先,接收用户触发的获取指令,并基于用户触发的获取指令,获取待处理告警事件集合,以及将待处理告警事件集合呈现给用户,其中,待处理告警事件集合包含当前周期内产生的最新一批次的告警事件和历史周期内产生的未失效的告警事件。
其次,接收到用户基于待处理告警事件集合触发的拓扑关系确认指令时,基于待处理告警事件集合中包含的各个告警事件,各个告警事件各自对应的主体,以及预设的各个主体之间的参考拓扑关系,确定待处理告警事件集合对应的主体事件拓扑关系,以及将主体事件拓扑关系划分为若干连通子图,并将若干连通子图呈现给用户,其中,不同连通子图包含的各个节点之间不存在关联关系,一个节点表征一个主体以及一个主体对应的各个告警事件。
接着,接收到用户基于若干连通子图触发的目标告警事件确认指令时,分别针对每一个连通子图执行以下操作:从一个连通子图中筛选出符合预设条件的告警事件作为目标告警事件,并将目标告警事件呈现给用户。
最后,接收到用户基于各个目标告警事件触发的根源性故障确认指令时,针对获得的每一个目标告警事件,分别确定相应的根源性故障并呈现给用户。
上述实施例中,每一处理过程结束后,系统均会将每一处理过程获得的结果呈现给用户,这样,用户能自行进行选择性触发,当然,在具体实施时,也可以不必将每一处理过程产生的结果都呈现给用户,用户只需触发总指令,系统就会一次性执行全部处理过程,并将最后产生的结果直接呈现给用户。
基于上述实施例,参阅图8所示,本申请实施例中,还提供了一种故障源检测方法,故障检测方法流程如下:
步骤800:获取告警事件集合,其中,上述告警事件集合中的告警事件分别与计算设备对应。
具体的,告警事件集合包括当前周期内产生的告警事件和历史周期内产生的未失效的告警事件。
步骤810:基于获取的告警事件集合以及参考拓扑关系,获取目标告警事件。
具体的,将告警事件集合中的告警事件映射到参考拓扑关系,得到目标拓扑关系,其中,目标拓扑关系中的计算设备包括告警事件,参考拓扑关系包括多个计算设备之间的故障拓扑关系,故障拓扑关系包括计算设备之间引起故障的关系。
然后,获取目标拓扑关系中的连通子图,其中,连通子图为有向连通子图,不同连通子图包含的节点之间不存在关联关系,一个节点表征一个主体以及上述一个主体对应的至少一个告警事件。
最后,从连通子图中筛选出符合预设条件的告警事件作为目标告警事件,具体的,选择连通子图中的起始节点上映射的告警事件作为目标告警事件。
步骤820:基于目标告警事件确定相应的故障源。
基于上述故障检测方法,本申请实施例中,还提供一种故障源检测设备,上述故障检测设备包括操作界面,而该操作界面包括第一交互对象和第二交互对象,其中,
第一交互对象,适于接受用户指令,获取告警事件集合,其中,告警事件集合中的告警事件分别与计算设备对应;
第二交互对象,适于展示目标告警事件和故障源,其中,目标告警事件基于告警事件集合以及参考拓扑关系获取,上述故障源基于上述目标告警事件确定。
基于上述实施例,具体参阅图9所示,假设第一交互对象获取的告警事件集合E3为{告警事件1、告警事件2、告警事件3、告警事件4},其中,告警事件1对应服务器E,告警事件2对应交换机Q,告警事件3对应防火墙W,告警事件4对应路由器A;
若告警事件集合E3中各个告警事件各自对应的计算机设备(主体)的参考拓扑关系已知,将告警事件E3中的各个告警事件映射至已知参考拓扑关系后,得到图9中的①所示的目标拓扑关系(主体事件拓扑关系),进一步地,基于上述目标拓扑关系,获得图9中的②所示的主体事件拓扑关系S包含的连通子图S1和连通子图S2;
从连通子图S1中选定目标告警事件为“告警事件3”,以及从连通子图S2中选定目标告警事件为“告警事件1”,进一步地,确定“告警事件3”的故障源为“防火墙W”以及确定“告警事件1”的故障源为“服务器E”,并由第二交互对象展示给用户。
基于上述实施例,参阅图10所示,本申请实施例中,告警事件的第一种处理装置,至少包括获取单元100,确定单元101和处理单元102,其中,
获取单元100,用于获取待处理告警事件集合,其中,所述待处理告警事件集合包含当前周期内产生的最新一批次的告警事件和历史周期内产生的未失效的告警事件;
确定单元101,用于基于所述待处理告警事件集合中包含的至少一个告警事件,所述至少一个告警事件各自对应的主体,以及预设的至少一个主体之间的参考拓扑关系,确定所述待处理告警事件集合对应的主体事件拓扑关系,并将所述主体事件拓扑关系划分为若干连通子图,其中,不同连通子图包含的节点之间不存在关联关系,一个节点表征一个主体以及所述一个主体对应的至少一个告警事件;
处理单元102,用于对获得的连通子图执行以下操作:从连通子图中筛选出符合预设条件的告警事件作为目标告警事件,并基于所述目标告警事件确定相应的根源性故障。
可选的,获取待处理告警事件集合时,所述获取单元100用于:
从预设的各个监控点收集当前周期内产生的最新一批次的告警事件,以及从指定存储区域中获取已缓存的历史周期内产生的未失效的告警事件,其中,一个告警事件未失效表征对应所述一个告警事件设置的存活期TTL未超时;
将获取的所述最新一批次的告警事件与所述未失效的告警事件进行合并,获得待处理告警事件集合。
可选的,基于所述待处理告警事件集合中包含的至少一个告警事件,所述至少一个告警事件各自对应的主体,以及预设的至少一个主体之间的参考拓扑关系,确定所述待处理告警事件集合对应的主体事件拓扑关系时,所述确定单元101用于:
确定所述待处理告警事件集合中包含的至少一个告警事件各自对应的主体,并基于预设的至少一个主体之间的参考拓扑关系,确定所述待处理告警事件集合中对应的至少一个主体之间的主体拓扑关系;
基于所述待处理告警事件集合中包含的至少一个告警事件,以及所述至少一个告警事件各自对应的主体,对所述待处理告警事件集合中对应的至少一个主体之间的主体拓扑关系进行调整,获得所述待处理告警事件集合的主体事件拓扑关系。
可选的,从连通子图中筛选出符合预设条件的告警事件作为目标告警事件时,所述处理单元102用于:
从所述连通子图中筛选出符合第一预设条件的主体作为目标主体;
从所述目标主体对应的至少一个告警事件中筛选出符合第二预设条件的告警事件作为目标告警事件。
可选的,从连通子图中筛选出符合第一预设条件的主体作为目标主体时,所述处理单元102用于:
基于网页排名算法,分别计算所述连通子图对应的至少一个主体的网页排名值,其中,一个主体的网页排名值与所述一个主体关联的其它主体的数目相关联;
从所述连通子图对应的至少一个主体中,筛选出最大网页排名值对应的主体作为目标主体。
可选的,所述处理单元102还用于:
若所述最大网页排名值对应的主体存在至少两个,则从所述最大网页排名值对应的主体中,筛选出具有最高目标优先级的主体作为目标主体。
可选的,从最大网页排名值对应的主体中,筛选出具有最高目标优先级的主体作为目标主体时,所述处理单元102用于:
基于预设的至少一个告警事件的处理优先级,确定所述最大网页排名值对应的主体所关联的至少一个告警事件的处理优先级;
基于所述最大网页排名值对应的主体所关联的至少一个告警事件的处理优先级,确定所述最大网页排名值对应的主体各自对应的目标优先级;
从所述最大网页排名值对应的主体中筛选出具有最高目标优先级的主体作为目标主体。
可选的,所述处理单元102还用于:
若具有最高目标优先级的主体存在至少两个,则从所述至少两个主体中随机选取一个主体作为目标主体。
可选的,从所述目标主体对应的至少一个告警事件中筛选出符合第二预设条件的告警事件作为目标告警事件时,所述处理单元102用于:
基于预设的至少一个告警事件的处理优先级,确定所述目标主体对应的至少一个告警事件的处理优先级;
基于所述目标主体对应的至少一个告警事件的处理优先级,从所述目标主体对应的至少一个告警事件中,筛选出具有最高处理优先级的告警事件作为目标告警事件。
基于上述实施例,参阅图11所示,本申请实施例中,一种告警事件的第二处理装置,至少包括获取单元110,确定单元111、筛选单元112和故障确认单元113,其中,
获取单元110,用于基于用户触发的获取指令,获取待处理告警事件集合,并将所述待处理告警事件集合呈现给用户,其中,所述待处理告警事件集合包含当前周期内产生的最新一批次的告警事件和历史周期内产生的未失效的告警事件;
确定单元111,用于接收到用户基于所述待处理告警事件集合触发的拓扑关系确认指令时,基于所述待处理告警事件集合中包含的至少一个告警事件,所述至少一个告警事件各自对应的主体,以及预设的至少一个主体之间的参考拓扑关系,确定所述待处理告警事件集合对应的主体事件拓扑关系,以及将所述主体事件拓扑关系划分为若干连通子图,并将所述若干连通子图呈现给用户,其中,不同连通子图包含的节点之间不存在关联关系,一个节点表征一个主体以及所述一个主体对应的至少一个告警事件;
筛选单元112,用于接收到用户基于所述若干连通子图触发的目标告警事件确认指令时,对获得的连通子图执行以下操作:从连通子图中筛选出符合预设条件的告警事件作为目标告警事件,并将所述目标告警事件呈现给用户;
故障确认单元113,用于接收到用户基于至少一个目标告警事件触发的根源性故障确认指令时,针对获得的至少一个目标告警事件,分别确定相应的根源性故障并呈现给用户。
综上所述,根据本申请一个实施例,先结合当前周期内产生的最新一批次的告警事件和历史周期内产生的未失效的告警事件,然后,基于各个告警事件,各个告警事件各自对应的主体,以及预设的各个主体之间的参考拓扑关系,确定上述各个告警事件对应的主体事件拓扑关系,并将确定的主体事件拓扑关系划分为若干连通子图,然后,从获得的连通子图中筛选出符合预设条件的告警事件作为目标告警事件,并基于各个目标告警事件,确定每一个连通子图对应的根源性故障,其中,不同连通子图包含的各个节点之间不存在关联关系,而一个节点又表征一个主体以及上述一个主体对应的各个告警事件。
这样,通过结合分析当前周期内产生的告警事件和历史周期内产生的告警事件,能充分考虑到具有关联关系的各个主体,因异步产生具有关联关系的各个故障而触发产生的各个告警事件,从而,可以直接确定导致异步触发产生的各个告警事件的根源性故障,进而,减少了故障排除时间,提高了清障效率。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请实施例的精神和范围。这样,倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (20)

1.一种告警事件的处理方法,其特征在于,包括:
获取待处理告警事件集合,其中,所述待处理告警事件集合包含当前周期内产生的最新一批次的告警事件和历史周期内产生的未失效的告警事件;
基于所述待处理告警事件集合中包含的至少一个告警事件,所述至少一个告警事件各自对应的主体,以及预设的至少一个主体之间的参考拓扑关系,确定所述待处理告警事件集合对应的主体事件拓扑关系,并将所述主体事件拓扑关系划分为若干连通子图,其中,不同连通子图包含的节点之间不存在关联关系,一个节点表征一个主体以及所述一个主体对应的至少一个告警事件;
对获得的连通子图执行以下操作:从连通子图中筛选出符合预设条件的告警事件作为目标告警事件,并基于所述目标告警事件确定相应的根源性故障。
2.如权利要求1所述的方法,其特征在于,获取待处理告警事件集合,包括:
从预设的各个监控点收集当前周期内产生的最新一批次的告警事件,以及从指定存储区域中获取已缓存的历史周期内产生的未失效的告警事件,其中,一个告警事件未失效表征对应所述一个告警事件设置的存活期TTL未超时;
将获取的所述最新一批次的告警事件与所述未失效的告警事件进行合并,获得待处理告警事件集合。
3.如权利要求1或2所述的方法,其特征在于,基于所述待处理告警事件集合中包含的至少一个告警事件,所述至少一个告警事件各自对应的主体,以及预设的至少一个主体之间的参考拓扑关系,确定所述待处理告警事件集合对应的主体事件拓扑关系,包括:
确定所述待处理告警事件集合中包含的至少一个告警事件各自对应的主体,并基于预设的至少一个主体之间的参考拓扑关系,确定所述待处理告警事件集合中对应的至少一个主体之间的主体拓扑关系;
基于所述待处理告警事件集合中包含的至少一个告警事件,以及所述至少一个告警事件各自对应的主体,对所述待处理告警事件集合中对应的至少一个主体之间的主体拓扑关系进行调整,获得所述待处理告警事件集合的主体事件拓扑关系。
4.如权利要求1所述的方法,其特征在于,从连通子图中筛选出符合预设条件的告警事件作为目标告警事件,包括:
从所述连通子图中筛选出符合第一预设条件的主体作为目标主体;
从所述目标主体对应的至少一个告警事件中筛选出符合第二预设条件的告警事件作为目标告警事件。
5.如权利要求4所述的方法,其特征在于,从连通子图中筛选出符合第一预设条件的主体作为目标主体,包括:
基于网页排名算法,分别计算所述连通子图对应的至少一个主体的网页排名值,其中,一个主体的网页排名值与所述一个主体关联的其它主体的数目相关联;
从所述连通子图对应的至少一个主体中,筛选出最大网页排名值对应的主体作为目标主体。
6.如权利要求5所述的方法,其特征在于,进一步包括:
若所述最大网页排名值对应的主体存在至少两个,则从所述最大网页排名值对应的主体中,筛选出具有最高目标优先级的主体作为目标主体。
7.如权利要求6所述的方法,其特征在于,从最大网页排名值对应的主体中,筛选出具有最高目标优先级的主体作为目标主体,包括:
基于预设的至少一个告警事件的处理优先级,确定所述最大网页排名值对应的主体所关联的至少一个告警事件的处理优先级;
基于所述最大网页排名值对应的主体所关联的至少一个告警事件的处理优先级,确定所述最大网页排名值对应的主体各自对应的目标优先级;
从所述最大网页排名值对应的主体中筛选出具有最高目标优先级的主体作为目标主体。
8.如权利要求7所述的方法,其特征在于,进一步包括:
若具有最高目标优先级的主体存在至少两个,则从所述至少两个主体中随机选取一个主体作为目标主体。
9.如权利要求4-8任一项所述的方法,其特征在于,从所述目标主体对应的至少一个告警事件中筛选出符合第二预设条件的告警事件作为目标告警事件,包括:
基于预设的至少一个告警事件的处理优先级,确定所述目标主体对应的至少一个告警事件的处理优先级;
基于所述目标主体对应的至少一个告警事件的处理优先级,从所述目标主体对应的至少一个告警事件中,筛选出具有最高处理优先级的告警事件作为目标告警事件。
10.一种告警事件的处理方法,其特征在于,包括:
基于用户触发的获取指令,获取待处理告警事件集合,并将所述待处理告警事件集合呈现给用户,其中,所述待处理告警事件集合包含当前周期内产生的最新一批次的告警事件和历史周期内产生的未失效的告警事件;
接收到用户基于所述待处理告警事件集合触发的拓扑关系确认指令时,基于所述待处理告警事件集合中包含的至少一个告警事件,所述至少一个告警事件各自对应的主体,以及预设的至少一个主体之间的参考拓扑关系,确定所述待处理告警事件集合对应的主体事件拓扑关系,以及将所述主体事件拓扑关系划分为若干连通子图,并将所述若干连通子图呈现给用户,其中,不同连通子图包含的节点之间不存在关联关系,一个节点表征一个主体以及所述一个主体对应的至少一个告警事件;
接收到用户基于所述若干连通子图触发的目标告警事件确认指令时,对获得的连通子图执行以下操作:从连通子图中筛选出符合预设条件的告警事件作为目标告警事件,并将所述目标告警事件呈现给用户;
接收到用户基于至少一个目标告警事件触发的根源性故障确认指令时,针对获得的至少一个目标告警事件,分别确定相应的根源性故障并呈现给用户。
11.一种故障源检测方法,其特征在于,包括:
获取告警事件集合,其中,所述告警事件集合中的告警事件分别与计算设备对应;
将所述告警事件集合中的告警事件映射到参考拓扑关系,得到目标拓扑关系,其中,所述目标拓扑关系中的计算设备包括告警事件;
获取所述目标拓扑关系中的连通子图,并从所述连通子图中筛选出符合预设条件的告警事件作为目标告警事件,其中,不同连通子图包含的节点之间不存在关联关系,一个节点表征一个主体以及所述一个主体对应的至少一个告警事件;
基于所述目标告警事件确定相应的故障源。
12.如权利要求11所述的方法,其特征在于,所述告警事件集合包括当前周期内产生的告警事件和历史周期内产生的未失效的告警事件。
13.如权利要求11所述的方法,其特征在于,所述参考拓扑关系包括多个计算设备之间的故障拓扑关系,故障拓扑关系包括计算设备之间引起故障的关系。
14.如权利要求11所述的方法,其特征在于:
其中,所述连通子图为有向连通子图;
其中,从所述连通子图中筛选出符合预设条件的告警事件作为目标告警事件包括:
选择所述连通子图中的起始节点上映射的告警事件作为目标告警事件。
15.一种故障源检测设备,其特征在于,包括操作界面,其中,该操作界面包括:
第一交互对象,适于接受用户指令,获取告警事件集合,其中,所述告警事件集合中的告警事件分别与计算设备对应;和
第二交互对象,适于展示目标告警事件和故障源,其中,所述目标告警事件是基于所述告警事件集合以及参考拓扑关系,获取的目标拓扑关系中的连通子图符合预设条件的告警事件,不同连通子图包含的节点之间不存在关联关系,一个节点表征一个主体以及所述一个主体对应的至少一个告警事件;所述故障源是基于所述目标告警事件确定的。
16.一种告警事件的处理装置,其特征在于,包括:
获取单元,用于获取待处理告警事件集合,其中,所述待处理告警事件集合包含当前周期内产生的最新一批次的告警事件和历史周期内产生的未失效的告警事件;
确定单元,用于基于所述待处理告警事件集合中包含的至少一个告警事件,所述至少一个告警事件各自对应的主体,以及预设的至少一个主体之间的参考拓扑关系,确定所述待处理告警事件集合对应的主体事件拓扑关系,并将所述主体事件拓扑关系划分为若干连通子图,其中,不同连通子图包含的节点之间不存在关联关系,一个节点表征一个主体以及所述一个主体对应的至少一个告警事件;
处理单元,用于对获得的连通子图执行以下操作:从连通子图中筛选出符合预设条件的告警事件作为目标告警事件,并基于所述目标告警事件确定相应的根源性故障。
17.一种告警事件的处理装置,其特征在于,包括:
获取单元,用于基于用户触发的获取指令,获取待处理告警事件集合,并将所述待处理告警事件集合呈现给用户,其中,所述待处理告警事件集合包含当前周期内产生的最新一批次的告警事件和历史周期内产生的未失效的告警事件;
确定单元,用于接收到用户基于所述待处理告警事件集合触发的拓扑关系确认指令时,基于所述待处理告警事件集合中包含的至少一个告警事件,所述至少一个告警事件各自对应的主体,以及预设的至少一个主体之间的参考拓扑关系,确定所述待处理告警事件集合对应的主体事件拓扑关系,以及将所述主体事件拓扑关系划分为若干连通子图,并将所述若干连通子图呈现给用户,其中,不同连通子图包含的节点之间不存在关联关系,一个节点表征一个主体以及所述一个主体对应的至少一个告警事件;
筛选单元,用于接收到用户基于所述若干连通子图触发的目标告警事件确认指令时,对获得的连通子图执行以下操作:从连通子图中筛选出符合预设条件的告警事件作为目标告警事件,并将所述目标告警事件呈现给用户;
故障确认单元,用于接收到用户基于至少一个目标告警事件触发的根源性故障确认指令时,针对获得的至少一个目标告警事件,分别确定相应的根源性故障并呈现给用户。
18.一种存储介质,其特征在于,存储有用于告警事件处理的程序,所述程序被处理器运行时,执行以下步骤:
获取待处理告警事件集合,其中,所述待处理告警事件集合包含当前周期内产生的最新一批次的告警事件和历史周期内产生的未失效的告警事件;
基于所述待处理告警事件集合中包含的至少一个告警事件,所述至少一个告警事件各自对应的主体,以及预设的至少一个主体之间的参考拓扑关系,确定所述待处理告警事件集合对应的主体事件拓扑关系,并将所述主体事件拓扑关系划分为若干连通子图,其中,不同连通子图包含的节点之间不存在关联关系,一个节点表征一个主体以及所述一个主体对应的至少一个告警事件;
对获得的连通子图执行以下操作:从连通子图中筛选出符合预设条件的告警事件作为目标告警事件,并基于所述目标告警事件确定相应的根源性故障。
19.一种通信装置,其特征在于,包括一个或多个处理器;以及
一个或多个计算机可读介质,所述可读介质上存储有指令,所述指令被所述一个或多个处理器执行时,使得所述装置执行如权利要求1至9中任一项所述的方法。
20.一个或多个计算机可读介质,其特征在于,所述可读介质上存储有指令,所述指令被一个或多个处理器执行时,使得通信设备执行如权利要求1至9中任一项所述的方法。
CN201710393688.8A 2017-05-27 2017-05-27 一种告警事件的处理方法及装置 Active CN108964960B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710393688.8A CN108964960B (zh) 2017-05-27 2017-05-27 一种告警事件的处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710393688.8A CN108964960B (zh) 2017-05-27 2017-05-27 一种告警事件的处理方法及装置

Publications (2)

Publication Number Publication Date
CN108964960A CN108964960A (zh) 2018-12-07
CN108964960B true CN108964960B (zh) 2021-10-19

Family

ID=64494756

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710393688.8A Active CN108964960B (zh) 2017-05-27 2017-05-27 一种告警事件的处理方法及装置

Country Status (1)

Country Link
CN (1) CN108964960B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110149230B (zh) * 2019-05-20 2021-03-02 拉扎斯网络科技(上海)有限公司 服务维护方法、装置、电子设备及可读存储介质
CN110633165B (zh) * 2019-08-15 2022-08-23 平安普惠企业管理有限公司 故障处理方法、装置、系统服务器及计算机可读存储介质
CN112532408B (zh) * 2019-09-17 2022-05-24 华为技术有限公司 提取故障传播条件的方法、装置及存储介质
CN110661660B (zh) * 2019-09-25 2021-09-10 北京宝兰德软件股份有限公司 告警信息根源分析方法及装置
CN111865691B (zh) * 2020-07-22 2022-11-04 平安证券股份有限公司 基于人工智能的报警文件分发方法、装置、设备和介质
CN112039841A (zh) * 2020-07-23 2020-12-04 北京天融信网络安全技术有限公司 安全事件归并处理方法、装置、电子设备及存储介质
CN112118141B (zh) * 2020-09-21 2021-12-17 中山大学 面向通信网络的告警事件关联压缩方法及装置
CN112532431B (zh) * 2020-11-17 2022-04-15 武汉烽火技术服务有限公司 一种用于降低传输业务路由分析量的拓扑解耦方法及系统
CN112685247B (zh) * 2020-12-24 2024-01-12 京东方科技集团股份有限公司 基于Zabbix监控系统的告警抑制方法及监控系统
CN112866230B (zh) * 2021-01-13 2023-05-16 深信服科技股份有限公司 一种风险检测方法、装置及存储介质
CN114090393B (zh) * 2022-01-14 2022-06-03 云智慧(北京)科技有限公司 一种告警级别的确定方法、装置及设备
CN114760113B (zh) * 2022-03-30 2024-02-23 深信服科技股份有限公司 一种异常告警检测方法、装置及电子设备和存储介质
CN114996119B (zh) * 2022-04-20 2023-03-03 中国工商银行股份有限公司 故障诊断方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101345661A (zh) * 2007-07-09 2009-01-14 大唐移动通信设备有限公司 通信设备的故障诊断方法及装置
CN103001811A (zh) * 2012-12-31 2013-03-27 北京启明星辰信息技术股份有限公司 故障定位方法和装置
CN104219087A (zh) * 2014-08-08 2014-12-17 蓝盾信息安全技术有限公司 一种故障定位的方法
CN104796273A (zh) * 2014-01-20 2015-07-22 中国移动通信集团山西有限公司 一种网络故障根源诊断的方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102291247A (zh) * 2010-06-18 2011-12-21 中兴通讯股份有限公司 告警关联图生成方法、装置及关联告警确定方法、装置
US8867371B2 (en) * 2012-04-27 2014-10-21 Motorola Mobility Llc Estimating physical locations of network faults
US9571334B2 (en) * 2015-01-26 2017-02-14 CENX, Inc. Systems and methods for correlating alarms in a network
CN106330533B (zh) * 2016-01-21 2019-12-17 华南师范大学 一种大规模网络告警实时拓扑建立方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101345661A (zh) * 2007-07-09 2009-01-14 大唐移动通信设备有限公司 通信设备的故障诊断方法及装置
CN103001811A (zh) * 2012-12-31 2013-03-27 北京启明星辰信息技术股份有限公司 故障定位方法和装置
CN104796273A (zh) * 2014-01-20 2015-07-22 中国移动通信集团山西有限公司 一种网络故障根源诊断的方法和装置
CN104219087A (zh) * 2014-08-08 2014-12-17 蓝盾信息安全技术有限公司 一种故障定位的方法

Also Published As

Publication number Publication date
CN108964960A (zh) 2018-12-07

Similar Documents

Publication Publication Date Title
CN108964960B (zh) 一种告警事件的处理方法及装置
CN111885012B (zh) 基于多种网络设备信息采集的网络态势感知方法及系统
US20180183682A1 (en) Network monitoring system, network monitoring method, and computer-readable storage medium
EP3167571B1 (en) Network topology estimation based on event correlation
CN105812177B (zh) 一种网络故障处理方法和处理设备
US11294754B2 (en) System and method for contextual event sequence analysis
CN109362235B (zh) 对网络可访问存储装置处的事务进行分类的方法
CN102929773B (zh) 信息采集方法和装置
CN110851320A (zh) 一种服务器宕机监管方法、系统、终端及存储介质
CN113608964A (zh) 一种集群自动化监控方法、装置、电子设备及存储介质
CN112600719A (zh) 告警聚类方法、装置及存储介质
CN113660273A (zh) 超融合架构下基于深度学习的入侵检测方法及装置
CN114528350B (zh) 集群脑裂的处理方法、装置、设备及可读存储介质
CN111782432A (zh) 用于容器异常分析的数据的采集方法及装置
CN111224970A (zh) Sdn网络系统、网络攻击防御方法、设备及存储介质
CN115827363A (zh) 资源告警分析方法、装置、电子设备和存储介质
CN111062503B (zh) 一种电网监控告警处理方法、系统、终端及存储介质
CN107612755A (zh) 一种云资源的管理方法及其装置
CN110609761B (zh) 确定故障源的方法、装置、存储介质和电子设备
JP2017521802A (ja) スーパーコンピュータ監視用の相関イベントのためのアーキテクチャ
CN111162938A (zh) 数据处理系统及方法
CN110838940A (zh) 地下电缆巡检任务配置方法和装置
CN113285837B (zh) 一种基于拓扑感知的载波网络服务故障诊断方法及装置
CN115529219A (zh) 告警分析方法、装置、计算机可读存储介质及电子设备
JP5435225B2 (ja) 運用管理装置、運用管理方法、及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant