CN112769615A - 一种异常分析方法及装置 - Google Patents

一种异常分析方法及装置 Download PDF

Info

Publication number
CN112769615A
CN112769615A CN202110005571.4A CN202110005571A CN112769615A CN 112769615 A CN112769615 A CN 112769615A CN 202110005571 A CN202110005571 A CN 202110005571A CN 112769615 A CN112769615 A CN 112769615A
Authority
CN
China
Prior art keywords
node
association
alarm
monitoring item
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110005571.4A
Other languages
English (en)
Other versions
CN112769615B (zh
Inventor
张园园
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Unionpay Co Ltd
Original Assignee
China Unionpay Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Unionpay Co Ltd filed Critical China Unionpay Co Ltd
Priority to CN202110005571.4A priority Critical patent/CN112769615B/zh
Publication of CN112769615A publication Critical patent/CN112769615A/zh
Application granted granted Critical
Publication of CN112769615B publication Critical patent/CN112769615B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/12Discovery or management of network topologies

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明实施例提供一种异常分析方法及装置,该方法包括:确定告警事件集合对应的告警节点集合;所述告警事件集合中的任一告警事件是由所述告警节点集合中的节点的监控项异常产生的;根据拓扑图中节点和场景的关联关系,确定所述告警节点集合对应的各第一关联场景;针对任一第一关联场景,确定所述第一关联场景下的各节点的第二监控项集合;根据所述告警节点集合下各节点的第一监控项集合和所述第二监控项集合的相关度,确定所述告警事件集合与所述第一关联场景的关联度,所述第一监控项集合中的各监控项为异常监控项。上述方法,能够自动确定故障场景,快速定位告警事件根因,降低运维成本。

Description

一种异常分析方法及装置
技术领域
本申请涉及数据处理技术领域,尤其涉及一种异常分析方法及装置。
背景技术
在网络管理中,故障被定义为产生功能异常的原因,是产生告警事件的原因。告警事件是在特定事件发生时,被管对象发出的通报构成的一种事件报告,用于传递告警信息。其通常为生产厂商定义好的监测机制产生,例如,网站平台常常会受到许多入侵攻击,为了保护网站平台的数据安全,通常会对针对该网站平台的各类服务节点的对应进程进行监测。在监测过程中,根据监测告警规则,如果发现某些操作是针对网站平台的文件或者进程等数据对象存在攻击性的违规操作时,可以将该操作确定告警事件。进一步,将告警事件上报,最终被网络管理人员观察到,从而对上述告警事件逐一地进行具体处理。
理想的告警信息应包含有关故障设备名称、故障症状、发生部位、发生时间、发生原因、故障场景等信息。但绝大部分告警都只有有关经历故障的设备名称、故障症状、发生时间等数据,而没有提供识别故障必须的故障发生的场景和发生原因等数据域。因此,现有技术中网络管理人员并不能迅速定位告警事件的根因,以获取故障发生的详细地点和发生原因等数据域。且当大量告警事件产生时,会造成告警风暴,即大量告警事件同时推送,增加告警事件根因定位的难度。
因此,现在亟需一种异常分析方法及装置,能够自动确定故障场景,快速定位告警事件根因,降低运维成本。
发明内容
本发明实施例提供一种异常分析方法及装置,能够自动确定故障场景,快速定位告警事件根因,降低运维成本。
第一方面,本发明实施例提供一种异常分析方法,该方法包括:
确定告警事件集合对应的告警节点集合;所述告警事件集合中的任一告警事件是由所述告警节点集合中的节点的监控项异常产生的;
根据拓扑图中节点和场景的关联关系,确定所述告警节点集合对应的各第一关联场景;
针对任一第一关联场景,确定所述第一关联场景下的各节点的第二监控项集合;根据所述告警节点集合下各节点的第一监控项集合和所述第二监控项集合的相关度,确定所述告警事件集合与所述第一关联场景的关联度,所述第一监控项集合中的各监控项为异常监控项。
上述方法中,根据节点的监控项异常,确定告警事件集合,进一步得到告警节点集合,根据拓扑图中节点和场景的关联关系确定告警节点集合对应的各第一关联场景。如此,可以自动获取告警事件集合对应关联的第一关联场景,初步确定可能发生故障的第一关联场景。根据第一监控项集合(第一监控项集合中的各监控项可以为异常监控项)和第二监控项集合(第二监控项集合中的各监控项可以为第一关联场景中各节点中异常监控项和非异常监控项)的相关度,确定告警事件集合与第一关联场景的关联度。如此,可以确定可能发生故障的多个第一关联场景与告警事件集合的关联度,告警事件集合与第一关联场景的关联度越高,则该第一关联场景为发生故障的第一关联场景的可能性越高。一般来说,基于告警事件集合中告警事件数量的基数越大,发生故障的第一关联场景的确定则越加准确。
可选的,还包括:针对至少一个节点,根据所述拓扑图确定所述节点的各第二关联场景;针对任一第二关联场景,确定所述节点的第三监控项集合和所述第二关联场景下各节点的第四监控项集合之间的数量关系,确定所述节点对所述第二关联场景的影响度。
上述方法中,针对于至少一个节点,确定该至少一个节点对应的第二关联场景。如此,可以获取至少一个节点对应的第二关联场景,利于运维人员获取节点对应的场景信息,便于分析节点在节点对应场景中的地位影响,进一步确定该节点的维护方案等。且进一步的,确定节点的第三监控项集合和第二关联场景下各节点的第四监控项集合之间的数量关系,确定节点对第二关联场景的影响度。如此,可以准确获取节点对该节点对应场景的影响度;可以确定该节点发生故障或者业务变更、节点类型变更等情况时,对该节点对应场景的运行的影响程度,为运维人员做业务场景、节点之间联络关系等的变更提供依据,使得运维人员可以获得对场景影响最小变更方案。
可选的,根据拓扑图中节点和场景的关联关系,确定所述告警节点集合对应的各第一关联场景,包括:对所述拓扑图进行路径维度搜索,将包含所述告警节点集合中节点的业务路径,确定为所述第一关联场景;对所述拓扑图进行节点维度搜索,确定与所述告警节点集合中节点关联的子节点或父节点,将包含所述节点和所述节点关联的所述子节点或所述父节点,确定为所述第一关联场景。
上述方法中,通过对拓扑图进行路径维度搜索,将包含该告警节点集合中节点的业务路径,确定为告警节点集合对应的第一关联场景。如此,可以获取告警节点集合中节点对应的全面的业务路径信息,使得获取的该告警节点集合中节点对应的第一关联场景的信息更加全面,增加获取的告警节点集合与第一关联场景的关联度的准确性。将包含告警节点集合中节点和节点关联的子节点或父节点确定为第一关联场景。如此,还可以获取与该告警节点集合中节点具有直接关联的子节点或父节点,进一步增加第一关联场景的信息的全面性,以及提高确定告警节点集合中节点与第一关联场景的关联度的准确性。
可选的,确定告警事件集合对应的告警节点集合之前,还包括:获取配置管理数据库中历史管理数据,所述历史管理数据包括:节点类型、节点地址、节点名称、节点之间的依赖关系、节点所属业务名称;获取场景与所述历史管理数据的关联关系,并根据所述场景与所述历史管理数据的关联关系定义所述拓扑图。
上述方法中,根据场景与历史管理数据的关联关系定义所述拓扑图。如此,使得拓扑图中的节点可以包含节点的类型、地址、名称、场景信息,以及节点之间的依赖关系。如此,运维人员可以通过拓扑图快速获取节点类型,根据节点类型判断节点对场景的影响;例如,节点为负载均衡节点类型或独立节点类型;若节点为负载均衡节点,则该节点若出现故障,可能导致该节点连接的其它节点中的数据不准确,以及造成其它节点出现故障,需要对其他进行排查;若节点为独立节点,则该节点出现故障,可以只考虑该节点的故障,无需大规模排查该节点连接的其它节点。运维人员可以通过拓扑图快速获取对应节点地址,可以对该节点进行数据传输或远程控制等操作。运维人员可以通过拓扑图快速获取节点名称确定节点设备信息等,确定节点对应的设备基础信息,进一步对节点进行运维。运维人员可以通过拓扑图快速获取节点的场景信息以及节点之间的依赖关系,确定节点发生业务变更、节点之间的依赖关系变更所产生的影响。另外,还可以作为故障分析的基础,基于拓扑图和生产环境中的告警事件集合准确快速定位异常根因。
可选的,所述告警节点集合下各节点的第一监控项集合和所述第二监控项集合的相关度是根据第一监控项集合和第二监控项集合的交集确定的。
上述方法中,通过第一监控项集合和第二监控项集合的交集,可以准确体现告警节点集合与第一关联场景的关联度。
可选的,所述方法包括:通过如下公式确定所述相关度:
Figure BDA0002883196060000041
其中,所述Conv(a,b)为所述相关度;所述P(a)为所述第一监控项集合包含的监控项数量,所述P(b)为所述第二监控项集合包含的监控项数量,所述P(ab)为所述第一监控项集合与所述第二监控项集合包含相同监控项的监控项数量。
上述方法中,通过获取第一监控项集合与第二监控项集合的交集和并集的比值,可以准确确定相关度。
可选的,还包括:展示所述拓扑图;所述拓扑图中包括各节点、节点之间的依赖关系、各场景对应的节点及告警事件与各场景的关联度。
上述方法中,通过展示包括各节点、节点之间的依赖关系、各场景对应的节点及告警事件与各场景的关联度的拓扑图,可以使得运维人员直观的获取各节点、节点之间的依赖关系、各场景对应的节点及告警事件与各场景的关联度等信息,便于运维人员展开运维工作。
第二方面,本发明实施例提供一种异常分析装置,该装置包括:
确定模块,用于确定告警事件集合对应的告警节点集合;所述告警事件集合中的任一告警事件是由所述告警节点集合中的节点的监控项异常产生的;
处理模块,用于根据拓扑图中节点和场景的关联关系,确定所述告警节点集合对应的各第一关联场景;
所述处理模块还用于,针对任一第一关联场景,确定所述第一关联场景下的各节点的第二监控项集合;根据所述告警节点集合下各节点的第一监控项集合和所述第二监控项集合的相关度,确定所述告警事件集合与所述第一关联场景的关联度,所述第一监控项集合中的各监控项为异常监控项。
第三方面,本申请实施例还提供一种计算设备,包括:存储器,用于存储程序;处理器,用于调用所述存储器中存储的程序,按照获得的程序执行如第一方面的各种可能的设计中所述的方法。
第四方面,本申请实施例还提供一种计算机可读非易失性存储介质,包括计算机可读程序,当计算机读取并执行所述计算机可读程序时,使得计算机执行如第一方面的各种可能的设计中所述的方法。
本申请的这些实现方式或其他实现方式在以下实施例的描述中会更加简明易懂。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种异常分析的架构示意图;
图2为本发明实施例提供的一种异常分析方法的流程示意图;
图3为本发明实施例提供的一种拓扑图;
图4为本发明实施例提供的一种异常分析方法的流程示意图;
图5为本发明实施例提供的一种异常分析装置示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种异常分析的架构示意图,如图1所示,其中,配置管理数据库101中包含节点类型、节点地址、节点名称、节点之间的依赖关系、节点所属业务名称等节点的历史管理数据。场景数据库102中包含各场景的相关数据。结构定义104从配置管理数据库101中获取历史管理数据,以及从场景数据库102中获取各场景的相关数据,并获取场景与历史管理数据的关联关系,根据场景与历史管理数据的关联关系定义拓扑图。监控系统103对各节点中的各监控项进行监控,当监控项发生异常时产生告警事件。事件采集105获取监控系统103中的告警事件,生成告警事件集合。关联度计算106获取事件采集105中的告警事件集合,以及结构定义104中的拓扑图,根据告警事件集合中的各告警事件的IP地址等信息和拓扑图中节点对应的IP地址等信息,确定告警事件对应的告警节点,获取告警事件集合对应的告警节点集合;进一步,基于拓扑图中节点和场景的关联关系,根据告警节点集合确定告警节点集合对应的各第一关联场景;再进一步,基于拓扑图中的节点与场景的关联关系,以及节点包含的监控项信息;确定第一关联场景下的各节点的第二监控项集合,以及告警节点集合下包含各节点中异常监控项的第一监控项集合;根据第一监控项集合和第二监控项集合的相关度,确定告警事件集合与第一关联场景的关联度。如此,可以根据告警事件集合与各第一关联场景的关联度大小,确定故障的关联场景,快速定位异常根因。
基于此,本申请实施例提供了一种异常分析方法的流程,如图2所示,包括:
步骤201、确定告警事件集合对应的告警节点集合;所述告警事件集合中的任一告警事件是由所述告警节点集合中的节点的监控项异常产生的;
步骤202、根据拓扑图中节点和场景的关联关系,确定所述告警节点集合对应的各第一关联场景;
此处,第一关联场景可以是业务场景、节点的网络场景、节点的应用场景等等。
步骤203、针对任一第一关联场景,确定所述第一关联场景下的各节点的第二监控项集合;
步骤204、根据所述告警节点集合下各节点的第一监控项集合和所述第二监控项集合的相关度,确定所述告警事件集合与所述第一关联场景的关联度,所述第一监控项集合中的各监控项为异常监控项。
此处,告警节点集合下的各节点的第一监控项集合中的监控项可以为产生告警事件的异常监控项;第一关联场景下的各节点的第二监控项集合的监控项可以为各节点所包含的所有监控项。
上述方法中,根据节点的监控项异常,确定告警事件集合,进一步得到告警节点集合,根据拓扑图中节点和场景的关联关系确定告警节点集合对应的各第一关联场景。如此,可以自动获取告警事件集合对应关联的第一关联场景,初步确定可能发生故障的第一关联场景。根据第一监控项集合(第一监控项集合中的各监控项可以为异常监控项)和第二监控项集合(第二监控项集合中的各监控项可以为第一关联场景中各节点中异常监控项和非异常监控项)的相关度,确定告警事件集合与第一关联场景的关联度。如此,可以确定可能发生故障的多个第一关联场景与告警事件集合的关联度,告警事件集合与第一关联场景的关联度越高,则该第一关联场景为发生故障的第一关联场景的可能性越高。一般来说,基于告警事件集合中告警事件数量的基数越大,发生故障的第一关联场景的确定则越加准确。
本申请实施例提供了一种异常分析方法,还包括:
针对至少一个节点,根据所述拓扑图确定所述节点的各第二关联场景;
针对任一第二关联场景,确定所述节点的第三监控项集合和所述第二关联场景下各节点的第四监控项集合之间的数量关系,确定所述节点对所述第二关联场景的影响度。此处,第三监控项集合可以为该至少一个节点中的异常监控项的集合,第四监控项可以为该至少一个节点中的所有监控项集合;至少一个节点可以为运维人员根据模拟告警事件确定,或者根据模拟告警节点确定。基于模拟告警事件或者模拟告警节点确定至少一个节点,根据该至少一个节点和拓扑图确定各第二关联场景。进一步,确定节点的第三监控项集合和第二关联场景下各节点的第四监控项集合;再进一步根据第三监控项集合和第四监控项集合的数量关系确定节点对第二关联场景的影响度。如此,运维人员可以通过模拟告警事件和模拟告警节点获取模拟告警事件和模拟告警节点对应节点对第二关联场景的影响度,便于运维人员对节点变更等操作进行风险评估等。此处,第二关联场景可以是业务场景、节点的网络场景、节点的应用场景等等。以第二关联场景为业务场景为例,如图3所示,为本申请实施例提供的一种拓扑图,若以认证平台节点作为模拟告警节点或模拟告警事件对应的节点,则确定该认证平台节点对应的各第二关联场景,包括:业务路径1:认证平台节点-财政交警入口平台-交警122平台-交警缴费业务;父节点2:个性化前置节点-认证平台节点;业务路径3:财政交警入口平台-交警122平台-交警缴费业务;业务路径4:个性化前置节点-认证平台节点-财政交警入口平台-交警122平台-交警缴费业务。如此,在该示例中,根据认证平台节点的第三监控项集合和第二关联场景,业务路径1/父节点2/业务路径3/业务路径4下各节点的第四监控项集合的数量关系,确定节点对第二关联场景的影响度;得到:业务路径1的影响度为:70.00%、父节点2的影响度为:60.00%、业务路径3的影响度为:60.00%、业务路径4的影响度为:58.33%。如此,可以认为认证平台节点对第二关联场景-业务路径1的影响度最高。
本申请实施例提供了一种确定关联场景的方法,根据拓扑图中节点和场景的关联关系,确定所述告警节点集合对应的各第一关联场景,包括:对所述拓扑图进行路径维度搜索,将包含所述告警节点集合中节点的业务路径,确定为所述第一关联场景;对所述拓扑图进行节点维度搜索,确定与所述告警节点集合中节点关联的子节点或父节点,将包含所述节点和所述节点关联的所述子节点或所述父节点确定为所述第一关联场景。也就是说,可以根据拓扑图中节点和场景的关联关系,以节点为准,对该拓扑图进行路径维度搜索,将包含该告警节点集合中节点的业务路径,确定为第一关联场景;对拓扑图进行节点维度搜索,确定与该告警节点集合中节点关联的子节点或父节点,将包含该节点和与该节点关联的子节点或父节点,确定为第一关联场景。如此,可以通过业务维度和节点维度,两个维度的搜索确定第一关联场景,增加第一关联场景确定的全面性。
该方法也可以应用到第二关联场景的确定中,即,根据所述拓扑图确定所述节点的各第二关联场景,包括:对所述拓扑图进行路径维度搜索,将包含所述节点的业务路径,确定为第二关联场景;对所述拓扑图进行节点维度搜索,确定与所述节点关联的子节点或父节点,将包含所述节点和所述节点关联的所述子节点或所述父节点确定为第二关联场景。如,在上述示例中,根据认证平台节点对图3中所示的拓扑图进行路径维度搜索,获取业务路径1、业务路径3、业务路径4,确定业务路径1、业务路径3、业务路径4为第二关联场景;根据认证平台节点对图3中所示的拓扑图进行节点维度搜索,获取父节点2为第二关联场景。上述只是对第一关联场景和关联场景确定的一种示例,具体关联场景可以根据需求进行设定,例如,生成拓扑图时,可以依据业务逻辑关系生成节点对应的关联场景信息,后续根据节点对应的关联场景信息确定第二关联场景。也可以根据其他算法或逻辑获取,这里对关联场景确定具体不做限定。
本申请实施例提供了一种生成拓扑图的方法,确定告警事件集合对应的告警节点集合之前,还包括:获取配置管理数据库中历史管理数据,所述历史管理数据包括:节点类型、节点地址、节点名称、节点之间的依赖关系、节点所属业务名称;获取场景与所述历史管理数据的关联关系,并根据所述场景与所述历史管理数据的关联关系定义所述拓扑图。也就是说,获取配置管理数据库中已有的历史管理数据,和已有的场景信息以及场景与历史管理数据的关联关系生成拓扑图。如此,可使得拓扑图显示出节点之间的依赖关系,节点的类型、地址、名称、所属场景等信息;使得运维人员可以在拓扑图上直观获取节点与场景信息,便于运维人员可以准确快速获取各节点信息,有利于节点和场景的运行维护;以及可以根据拓扑图快速获取故障场景,加快异常根因的定位。其中,配置管理数据库中的历史管理数据和场景信息等,可以为Word、PPT、Visio等格式,具体不做限定。
本申请实施例提供了一种相关度确定方法,所述告警节点集合下各节点的第一监控项集合和所述第二监控项集合的相关度是根据第一监控项集合和第二监控项集合的交集确定的。也就是说,可以通过告警节点集合下各节点的第一监控项集合和第一关联场景下的各节点的第二监控项集合的交集,确定第一监控项集合和第二监控项集合的相关度。例如,交集中的监控项数量越高,第一监控项集合和第二监控项集合的相关度越高。
本申请实施例提供了又一种相关度确定方法,所述方法包括:
通过如下公式确定所述相关度:
Figure BDA0002883196060000111
其中,所述Conv(a,b)为所述相关度;所述P(a)为所述第一监控项集合包含的监控项数量,所述P(b)为所述第二监控项集合包含的监控项数量,所述P(ab)为所述第一监控项集合与所述第二监控项集合包含相同监控项的监控项数量。例如,若告警节点集合包含5个节点,每个节点包含10个告警事件,每个告警事件对应一个监控项,各节点的第一监控项集合的监控项数量为50;第一关联场景包含10个节点,每个节点包含10个监控项,各节点的第二监控项集合中的监控项数量为100,第一监控项集合与第二监控项集合包含相同监控项的监控项数量20,则相关度
Figure BDA0002883196060000112
本申请实施例中提供了一种拓扑图展示方法,其特征在于,还包括:
展示所述拓扑图;所述拓扑图中包括各节点、节点之间的依赖关系、各场景对应的节点及告警事件与各场景的关联度。也就是说,拓扑图不只可以展示各节点、节点之间的依赖关系、各场景对应的节点信息,还可以在获取告警事件后,展示告警事件与各场景的关联度。其中,拓扑图可以为SVG格式(一种基于XML的矢量图像格式)等具有搜索、索引、压缩等功能的格式。
基于上述流程,本申请实施例提供了一种异常分析方法的流程,如图4所示,包括:
步骤401、获取历史管理数据和场景相关数据。
步骤402、根据历史管理数据和场景相关数据,以及场景与历史管理数据的关联关系生成拓扑图,这里场景与历史管理数据的关联关系可以为提前设置的,也可以是历史管理数据和/或场景相关数据中包含的。
步骤403、获取告警事件,生成告警事件集合。
步骤404、根据告警事件集合中的各告警事件的IP地址和拓扑图中各节点的IP地址,生成告警事件集合对应的告警节点集合。
步骤405、根据告警节点集合和拓扑图确定告警事件集合对应的各第一关联场景。
步骤406、根据告警节点集合和拓扑图获取告警节点集合对应的第一监控项集合。
步骤407、根据各第一关联场景和拓扑图确定各第一关联场景的第二监控集合。
步骤408、确定第一监控项集合和第二监控项集合的相关度。
步骤409、根据第一监控项集合和第二监控项集合的相关度确定告警事件集合与第一关联场景的关联度。
这里需要说明的是,上述流程步骤并不唯一,例如,步骤401、步骤402用于生成拓扑图流程,因此,执行步骤403至步骤409的流程可以不与步骤401和步骤402同时进行;步骤407可以在步骤406之前执行。
基于同样的构思,本发明实施例提供一种异常分析装置,图5为本申请实施例提供的一种异常分析装置示意图,如图5示,包括:
确定模块501,用于确定告警事件集合对应的告警节点集合;所述告警事件集合中的任一告警事件是由所述告警节点集合中的节点的监控项异常产生的;
处理模块502,用于根据拓扑图中节点和场景的关联关系,确定所述告警节点集合对应的各第一关联场景;
所述处理模块502还用于,针对任一第一关联场景,确定所述第一关联场景下的各节点的第二监控项集合;根据所述告警节点集合下各节点的第一监控项集合和所述第二监控项集合的相关度,确定所述告警事件集合与所述第一关联场景的关联度,所述第一监控项集合中的各监控项为异常监控项。
可选的,所述处理模块502还用于,针对至少一个节点,根据所述拓扑图确定所述节点的各第二关联场景;针对任一第二关联场景,确定所述节点的第三监控项集合和所述第二关联场景下各节点的第四监控项集合之间的数量关系,确定所述节点对所述第二关联场景的影响度。
可选的,所述处理模块502具体用于,对所述拓扑图进行路径维度搜索,将包含所述告警节点集合中节点的业务路径,确定为所述第一关联场景;对所述拓扑图进行节点维度搜索,确定与所述告警节点集合中节点关联的子节点或父节点,将包含所述节点和所述节点关联的所述子节点或所述父节点,确定为所述第一关联场景。
可选的,所述处理模块502还用于,获取配置管理数据库中历史管理数据,所述历史管理数据包括:节点类型、节点地址、节点名称、节点之间的依赖关系、节点所属业务名称;获取场景与所述历史管理数据的关联关系,并根据所述场景与所述历史管理数据的关联关系定义所述拓扑图。
可选的,所述处理模块502具体用于,所述告警节点集合下各节点的第一监控项集合和所述第二监控项集合的相关度是根据第一监控项集合和第二监控项集合的交集确定的。
可选的,所述处理模块502具体用于,通过如下公式确定所述相关度:
Figure BDA0002883196060000131
其中,所述Conv(a,b)为所述相关度;所述P(a)为所述第一监控项集合包含的监控项数量,所述P(b)为所述第二监控项集合包含的监控项数量,所述P(ab)为所述第一监控项集合与所述第二监控项集合包含相同监控项的监控项数量。
可选的,所述处理模块502还用于,展示所述拓扑图;所述拓扑图中包括各节点、节点之间的依赖关系、各场景对应的节点及告警事件与各场景的关联度。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种异常分析方法,其特征在于,所述方法包括:
确定告警事件集合对应的告警节点集合;所述告警事件集合中的任一告警事件是由所述告警节点集合中的节点的监控项异常产生的;
根据拓扑图中节点和场景的关联关系,确定所述告警节点集合对应的各第一关联场景;
针对任一第一关联场景,确定所述第一关联场景下的各节点的第二监控项集合;根据所述告警节点集合下各节点的第一监控项集合和所述第二监控项集合的相关度,确定所述告警事件集合与所述第一关联场景的关联度,所述第一监控项集合中的各监控项为异常监控项。
2.如权利要求1中所述的方法,其特征在于,还包括:
针对至少一个节点,根据所述拓扑图确定所述节点的各第二关联场景;
针对任一第二关联场景,确定所述节点的第三监控项集合和所述第二关联场景下各节点的第四监控项集合之间的数量关系,确定所述节点对所述第二关联场景的影响度。
3.如权利要求1中所述的方法,其特征在于,根据拓扑图中节点和场景的关联关系,确定所述告警节点集合对应的各第一关联场景,包括:
对所述拓扑图进行路径维度搜索,将包含所述告警节点集合中节点的业务路径,确定为所述第一关联场景;
对所述拓扑图进行节点维度搜索,确定与所述告警节点集合中节点关联的子节点或父节点,将包含所述节点和所述节点关联的所述子节点或所述父节点,确定为所述第一关联场景。
4.如权利要求1中所述的方法,其特征在于,确定告警事件集合对应的告警节点集合之前,还包括:
获取配置管理数据库中历史管理数据,所述历史管理数据包括:节点类型、节点地址、节点名称、节点之间的依赖关系、节点所属业务名称;
获取场景与所述历史管理数据的关联关系,并根据所述场景与所述历史管理数据的关联关系定义所述拓扑图。
5.如权利要求1中所述的方法,其特征在于,所述告警节点集合下各节点的第一监控项集合和所述第二监控项集合的相关度是根据第一监控项集合和第二监控项集合的交集确定的。
6.如权利要求1中所述的方法,其特征在于,所述方法包括:
通过如下公式确定所述相关度:
Figure FDA0002883196050000021
其中,所述Conv(a,b)为所述相关度;所述P(a)为所述第一监控项集合包含的监控项数量,所述P(b)为所述第二监控项集合包含的监控项数量,所述P(ab)为所述第一监控项集合与所述第二监控项集合包含相同监控项的监控项数量。
7.如权利要求1-6中任一所述的方法,其特征在于,还包括:
展示所述拓扑图;所述拓扑图中包括各节点、节点之间的依赖关系、各场景对应的节点及告警事件与各场景的关联度。
8.一种异常分析装置,其特征在于,所述装置包括:
确定模块,用于确定告警事件集合对应的告警节点集合;所述告警事件集合中的任一告警事件是由所述告警节点集合中的节点的监控项异常产生的;
处理模块,用于根据拓扑图中节点和场景的关联关系,确定所述告警节点集合对应的各第一关联场景;
所述处理模块还用于,针对任一第一关联场景,确定所述第一关联场景下的各节点的第二监控项集合;根据所述告警节点集合下各节点的第一监控项集合和所述第二监控项集合的相关度,确定所述告警事件集合与所述第一关联场景的关联度,所述第一监控项集合中的各监控项为异常监控项。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有程序,当所述程序在计算机上运行时,使得计算机实现执行权利要求1至7中任一项所述的方法。
10.一种计算机设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于调用所述存储器中存储的计算机程序,按照获得的程序执行如权利要求1至7任一权利要求所述的方法。
CN202110005571.4A 2021-01-05 2021-01-05 一种异常分析方法及装置 Active CN112769615B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110005571.4A CN112769615B (zh) 2021-01-05 2021-01-05 一种异常分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110005571.4A CN112769615B (zh) 2021-01-05 2021-01-05 一种异常分析方法及装置

Publications (2)

Publication Number Publication Date
CN112769615A true CN112769615A (zh) 2021-05-07
CN112769615B CN112769615B (zh) 2023-04-18

Family

ID=75699171

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110005571.4A Active CN112769615B (zh) 2021-01-05 2021-01-05 一种异常分析方法及装置

Country Status (1)

Country Link
CN (1) CN112769615B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114513802A (zh) * 2022-01-04 2022-05-17 武汉烽火技术服务有限公司 一种基于事件流的承载网故障分析方法及装置
CN115001753A (zh) * 2022-05-11 2022-09-02 绿盟科技集团股份有限公司 一种关联告警的分析方法、装置、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105827422A (zh) * 2015-01-06 2016-08-03 中国移动通信集团上海有限公司 一种确定网元告警关联关系的方法及装置
WO2017036196A1 (zh) * 2015-09-02 2017-03-09 中兴通讯股份有限公司 基于网管系统的拓扑机架图展示方法、装置及网管系统
CN107707376A (zh) * 2017-06-09 2018-02-16 贵州白山云科技有限公司 一种监控和告警的方法和系统
CN108833184A (zh) * 2018-06-29 2018-11-16 腾讯科技(深圳)有限公司 服务故障定位方法、装置、计算机设备及存储介质
CN110321912A (zh) * 2018-03-30 2019-10-11 浙江华云信息科技有限公司 多计量异常事件关联度分析方法
CN110995482A (zh) * 2019-11-27 2020-04-10 深圳市商汤科技有限公司 告警分析方法、装置、计算机设备及计算机可读存储介质
CN111158977A (zh) * 2019-12-12 2020-05-15 深圳前海微众银行股份有限公司 一种异常事件根因定位方法及装置
CN111431736A (zh) * 2020-02-27 2020-07-17 华为技术有限公司 告警关联规则生成方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105827422A (zh) * 2015-01-06 2016-08-03 中国移动通信集团上海有限公司 一种确定网元告警关联关系的方法及装置
WO2017036196A1 (zh) * 2015-09-02 2017-03-09 中兴通讯股份有限公司 基于网管系统的拓扑机架图展示方法、装置及网管系统
CN107707376A (zh) * 2017-06-09 2018-02-16 贵州白山云科技有限公司 一种监控和告警的方法和系统
CN110321912A (zh) * 2018-03-30 2019-10-11 浙江华云信息科技有限公司 多计量异常事件关联度分析方法
CN108833184A (zh) * 2018-06-29 2018-11-16 腾讯科技(深圳)有限公司 服务故障定位方法、装置、计算机设备及存储介质
CN110995482A (zh) * 2019-11-27 2020-04-10 深圳市商汤科技有限公司 告警分析方法、装置、计算机设备及计算机可读存储介质
CN111158977A (zh) * 2019-12-12 2020-05-15 深圳前海微众银行股份有限公司 一种异常事件根因定位方法及装置
CN111431736A (zh) * 2020-02-27 2020-07-17 华为技术有限公司 告警关联规则生成方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李志青;: "农村信用社面向应用层的故障定位模型研究" *
董闯;李娜;: "夯实告警管理基础 拥抱智能运维明天――浅谈数据中心运维智能化的必由之路" *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114513802A (zh) * 2022-01-04 2022-05-17 武汉烽火技术服务有限公司 一种基于事件流的承载网故障分析方法及装置
CN114513802B (zh) * 2022-01-04 2023-06-09 武汉烽火技术服务有限公司 一种基于事件流的承载网故障分析方法及装置
CN115001753A (zh) * 2022-05-11 2022-09-02 绿盟科技集团股份有限公司 一种关联告警的分析方法、装置、电子设备及存储介质
CN115001753B (zh) * 2022-05-11 2023-06-09 绿盟科技集团股份有限公司 一种关联告警的分析方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN112769615B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
US9389946B2 (en) Operation management apparatus, operation management method, and program
CN111814999B (zh) 一种故障工单生成方法、装置、设备
EP3663919B1 (en) System and method of automated fault correction in a network environment
CN110912738B (zh) 一种业务异常的处理方法、装置、平台及电子设备
US9524223B2 (en) Performance metrics of a computer system
CN112769615B (zh) 一种异常分析方法及装置
CN110032463B (zh) 一种基于贝叶斯网络的系统故障定位方法和系统
CN109669844A (zh) 设备故障处理方法、装置、设备和存储介质
CN111858254B (zh) 数据的处理方法、装置、计算设备和介质
CN111539493B (zh) 一种告警预测方法、装置、电子设备及存储介质
CN109791401A (zh) 生成用于嵌入式分析和诊断/预测推理的故障模型
CN114567538A (zh) 告警信息处理方法及装置
CN116010456A (zh) 设备的处理方法、服务器和轨道交通系统
CN113392000A (zh) 测试用例执行结果分析方法、装置、设备及存储介质
JP2019049802A (ja) 障害解析支援装置、インシデント管理システム、障害解析支援方法及びプログラム
US11790249B1 (en) Automatically evaluating application architecture through architecture-as-code
CN111813872B (zh) 一种故障排查模型的生成方法、装置、设备
CN114500249B (zh) 一种根因定位方法和装置
CN112966056B (zh) 一种信息处理方法、装置、设备、系统及可读存储介质
CN112988444B (zh) 用于服务器集群故障诊断的处理方法、处理装置、及处理设备、用于服务器故障诊断的方法及计算机可读存储介质
CN111880959A (zh) 一种异常检测方法、装置及电子设备
CN113572628A (zh) 数据关联方法、装置、计算设备及计算机存储介质
Jin et al. Anomaly detection and health-status analysis in a core router system
CN113037550B (zh) 一种服务故障监控方法、系统及计算机可读存储介质
CN112559238B (zh) 用于Oracle数据库的排障策略生成方法装置、处理器和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant