CN111294217B - 告警分析方法、装置、系统及存储介质 - Google Patents

告警分析方法、装置、系统及存储介质 Download PDF

Info

Publication number
CN111294217B
CN111294217B CN201811483987.1A CN201811483987A CN111294217B CN 111294217 B CN111294217 B CN 111294217B CN 201811483987 A CN201811483987 A CN 201811483987A CN 111294217 B CN111294217 B CN 111294217B
Authority
CN
China
Prior art keywords
alarm
node
message
alarm message
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811483987.1A
Other languages
English (en)
Other versions
CN111294217A (zh
Inventor
陈泉伯
陆兴海
胡升跃
刘建坡
丁强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cloudwise Beijing Technology Co Ltd
Original Assignee
Cloudwise Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cloudwise Beijing Technology Co Ltd filed Critical Cloudwise Beijing Technology Co Ltd
Priority to CN201811483987.1A priority Critical patent/CN111294217B/zh
Publication of CN111294217A publication Critical patent/CN111294217A/zh
Application granted granted Critical
Publication of CN111294217B publication Critical patent/CN111294217B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/065Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving logical or physical relationship, e.g. grouping and hierarchies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/12Discovery or management of network topologies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/22Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks comprising specially adapted graphical user interfaces [GUI]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供的告警分析方法、装置、系统及存储介质,应用于运维监控领域,其中,告警分析方法,包括:导入业务系统拓扑图;获取节点匹配规则;在接收到告警消息后,根据所述告警消息以及节点匹配规则确定告警消息对应的目标节点,将所述告警消息以可视化的形式呈现在所述目标节点所在的业务系统拓扑图上。当出现大量的故障警报时,大部分的告警底层是具有逻辑关系的,而这种逻辑关系可以通过业务的拓扑关系来分析呈现,可以帮助运维人员明确故障的根本原因和影响范围,提升运维人员的工作效率。

Description

告警分析方法、装置、系统及存储介质
技术领域
本发明涉及一种运维监控领域,尤其涉及一种告警分析方法、装置、系统及存储介质。
背景技术
运维监控是一系列IT管理产品的统称,它所包含的产品功能强大、易于使用、解决方案齐全,可一站式满足用户的各种IT管理需求。
越来越多的客户都在考虑或采纳业务集中的方案。然而业务系统集中后,不仅增加运行维护的工作强度,而且会使集中的系统变得更加繁杂。有效的系统和应用监控体系成为了解业务资源的使用状况,及时发现可能导致系统故障的隐患,实现系统运营保障的关键。
在常规的运维工作中,当产生大量告警时,运维人员很难判断告警的分布范围以及各个告警之间的关系。
发明内容
针对现有技术中当产生大量告警时,运维人员很难判断告警的分布范围以及各个告警之间的关系的问题,本发明提供了一种告警分析方法装置、系统及存储介质。
第一方面,本发明实施例提供了一种告警分析方法,包括:导入业务系统拓扑图,所述业务系统拓扑图包括多个节点以及节点之间的关系,所述节点为业务系统内部调用链里的节点;获取节点匹配规则,所述节点匹配规则包括所述业务系统拓扑图中节点与告警消息之间的对应关系;在接收到告警消息后,根据所述告警消息以及节点匹配规则确定告警消息对应的目标节点,将所述告警消息以可视化的形式呈现在所述目标节点所在的业务系统拓扑图上。
在其中一个可选的实施方式中,所述方法还包括:以与所述目标节点对应的运维范围为单位,根据所述目标节点所在的业务系统拓扑图以及所述目标节点上携带的告警消息生成告警分析结果。
在其中一个可选的实施方式中,将所述告警消息以可视化的形式呈现在所述目标节点所在的业务系统拓扑图上,包括:将同一类告警消息进行压缩生成警报,所述警报为同一类告警消息压缩而成的消息列表;根据所述节点匹配规则,将所述警报合并到对应的目标节点上并在所述目标节点所在的业务系统拓扑图上显示与所述目标节点对应的警报个数、目标节点中警报告警状态最高的状态。
在其中一个可选的实施方式中,所述节点匹配规则包括节点标识与告警消息中关键字段之间的对应关系,所述关键字段为所述告警消息被压缩为警报时仍然保留的核心内容。
在其中一个可选的实施例中,所述关键字段包括用于表示对象的对象字段和/或用于表示监控指标的指标字段。
第二方面,本发明实施例还提供了一种告警分析装置,包括:
导入单元,用于导入业务系统拓扑图,所述业务系统拓扑图包括多个节点以及节点之间的关系,所述节点为业务系统内部调用链里的节点;
获取单元,用于获取节点匹配规则,所述节点匹配规则包括所述业务系统拓扑图中节点与告警消息之间的对应关系;
执行单元,用于在接收到告警消息后,根据所述告警消息以及所述获取单元获取的节点匹配规则确定告警消息对应的目标节点,将所述告警消息以可视化的形式呈现在所述目标节点所在的业务系统拓扑图上。
在其中一个可选的实施方式中,所述装置,还包括:
生成单元,用于以与所述目标节点对应的运维范围为单位,根据所述目标节点所在的业务系统拓扑图以及所述目标节点上携带的告警消息生成告警分析结果。
在其中一个可选的实施方式中,执行单元,包括:
压缩模块,用于将同一类告警消息进行压缩生成警报,所述警报为同一类告警消息压缩而成的消息列表;
呈现模块,用于根据所述获取单元获取的节点匹配规则,将所述压缩模块压缩得到的警报合并到对应的目标节点上并在所述目标节点所在的业务系统拓扑图上显示与所述目标节点对应的警报个数、目标节点中警报告警状态最高的状态。
在其中一个可选的实施方式中,所述节点匹配规则包括节点标识与告警消息中关键字段之间的对应关系,所述关键字段为所述告警消息被压缩为警报时仍然保留的核心内容。
第三方面,本发明实施例还提供了一种告警分析系统,包括有存储器,以及一个或者一个以上程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或一个以上处理器所述一个或者一个以上程序包含用于进行以下操作的指令:
导入业务系统拓扑图,所述业务系统拓扑图包括多个节点以及节点之间的关系,所述节点为业务系统内部调用链里的节点;
获取节点匹配规则,所述节点匹配规则包括所述业务系统拓扑图中节点与告警消息之间的对应关系;
在接收到告警消息后,根据所述告警消息以及节点匹配规则确定告警消息对应的目标节点,将所述告警消息以可视化的形式呈现在所述目标节点所在的业务系统拓扑图上。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现上述的告警分析方法。
本发明提供的告警分析方法、装置、系统及存储介质,通过导入梳业务系统拓扑关系图,迅速将杂乱的故障警报进行梳理和分类,并与拓扑关系图中的节点进行匹配,在实际的生产环境中,当出现大量的故障警报时,大部分的告警底层是具有逻辑关系的,而这种逻辑关系可以通过业务的拓扑关系来分析呈现,可以帮助运维人员明确故障的根本原因和影响范围,提升运维人员的工作效率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1为本发明实施例提供的一种告警分析方法的流程示意图;
图2为本发明又一实施例提供的一种告警分析方法的流程示意图;
图3为本发明实施例中示例性的业务系统拓扑图中携带有告警消息的节点关系示意图;
图4为本发明另一实施例提供的一种告警分析装置的结构示意图;
图5为本发明再一实施例提供的一种告警分析装置的结构示意图;
图6为信息处理装置中执行单元的结构示意图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
下面以具体地实施例对本发明的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明的实施例进行描述。
如图1所示,本发明实施例提供了一种告警分析方法,包括:
步骤101、导入业务系统拓扑图。
所述业务系统拓扑图包括多个节点以及节点之间的关系,所述节点为业务系统内部调用链里的节点。
步骤102、获取节点匹配规则,所述节点匹配规则包括所述业务系统拓扑图中节点与告警消息之间的对应关系。
在本实施例中,每一个节点可以匹配来自多个告警源的告警消息,支持按照与或者非进行告警消息的筛选。而对于同一告警源,可以按照告警源内的字段进行与筛选,字段的比较支持等于、不等于、在列表以及不在列表。
步骤103、在接收到告警消息后,根据所述告警消息以及节点匹配规则确定告警消息对应的目标节点,将所述告警消息以可视化的形式呈现在所述目标节点所在的业务系统拓扑图上。
在本实施例中,所述告警消息为告警源发出的原始告警消息。告警源是指向系统发送原始告警消息的系统,可以是app的形式,也可以是web应用比如网站。告警源可以通过API接入本方法的执行主体。所述告警消息包括多个字段,一般包括告警源名称、告警状态,对象信息,指标信息,其中告警状态表示告警消息的等级,可以包括多个等级,比如,分为4个等级,包括灾难、严重、警告、正常。也可以分为3个等级或5个等级,此处不作限定,但是告警消息中需要包括所述告警状态。对象信息用于标识告警源中发出警告的对象,比如告警源中的主机(host)、服务(service)、应用(application)以及业务(business)。指标信息可以为空,也可以是监控的指标,比如CPU平均利用率,内存利用率等。
在一可选的实施例中,所述告警消息可以为是符合JSON语法的JSON字符串。JSON(JavaScript Object Notation,JS对象简谱)是一种轻量级的数据交换格式。它基于ECMAScript(欧洲计算机协会制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得JSON成为理想的数据交换语言。易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。
在一可选的实施例中,告警源接入执行主体的API为REST API,REST API可以用任何支持发送HTTP请求的设备来与执行主体进行交互,可以使用REST API实现如下功能,比如:一个移动网站可以通过JavaScript来获取执行主体上的数据;一个网站可以展示来自执行主体的数据;可以上传大量的数据,之后可以被一个移动App读取;可以下载最近的数据来进行你自定义的分析统计;使用任何语言写的程序都可以操作执行主体上的数据;如果不再需要使用执行主体,你可以导出所有的数据。
本发明提供的告警分析方法,通过导入梳业务系统拓扑关系图,迅速将杂乱的故障警报进行梳理和分类,并与拓扑关系图中的节点进行匹配,在实际的生产环境中,当出现大量的故障警报时,大部分的告警底层是具有逻辑关系的,而这种逻辑关系可以通过业务的拓扑关系来分析呈现,可以帮助运维人员明确故障的根本原因和影响范围,提升运维人员的工作效率。
在上述实施例的基础上,为了进一步阐述本发明提供的告警分析方法,图2为本发明又一实施例提供的一种告警分析方法的流程示意图。如图2所示,该告警分析方法包括:
步骤201、导入业务系统拓扑图,所述业务系统拓扑图包括多个节点以及节点之间的关系,所述节点为业务系统内部调用链里的节点。
示例性的,以一个秒杀业务为例,其拓扑图可以包括节点1(终端APP)-节点2(应用入口PHP)-节点3(交易服务PHP)-节点4(秒杀服务java)-节点5(数据库MySQL)。值得说明的是,一个大型系统中有很多其他的业务,比如购物业务、网银转账业务,此处对于具体的业务不做限定,上述的秒杀业务仅为一个示例。
步骤202、获取节点匹配规则,所述节点匹配规则包括所述业务系统拓扑图中节点与告警消息之间的对应关系。
在本实施例中,所述节点匹配规则包括节点标识与告警消息中关键字段之间的对应关系,所述关键字段为所述告警消息被压缩为警报时仍然保留的核心内容。
在一可选的实施例中,所述关键字段包括用于表示对象的对象字段和/或用于表示监控指标的指标字段。
步骤203、在接收到告警消息后,将同一类告警消息进行压缩生成警报,所述警报为同一类告警消息压缩而成的消息列表。
在一可选的实施例中,所述步骤203可以包括根据所述告警消息提取分类关键字段;若当前运维的警报中存在以所述分类关键字段进行消息压缩的警报,确定存在与所述告警消息对应的警报,根据所述告警消息更新对应的警报;否则不存在,根据所述告警消息创建对应的警报。
例如将分类关键字段作为警报的标识或名称,那么可以提取告警消息的分类关键字与当前运维的警报的标识或名称进行匹配查询。
在一可选的实施例中,所述分类关键字段包括用于表示对象的对象字段和/或用于表示监控指标的指标字段。对象字段的具体表现形式可以是与本方法执行主体约定的应用程序密钥(APP Key)也可以是其他用来标识唯一身份的标识信息,此处不做限定。
在一可选的实施例中,所述警报运维的运维标准可以是警报中告警消息的告警状态,若所述告警状态为正常,那么警报可以脱离运维。所述警报运维的标准还可以是时间窗口,在达到时间窗口的终点时,警报可以脱离运维,当然,还可以以两个以上的维度进行运维标准的设定,此处不做限定。若是以时间窗口作为运维标准,当告警消息的产生或者接收落在时间窗口内时可以理解为告警消息找到了对应的警报,且该警报当前处于运维状态。
在一可选的实施例中,更新对应的警报,可以是根据所述告警消息将所述警报中相同的告警消息进行覆盖,仅在运维范围相关的维度上将最新的告警消息进行展示也可以是将所述告警消息加入到与之对应的警报中,此处不做限定。
值得说明的是,当存在所述告警消息对应的警报时,由于告警消息、警报以及告警事件之间的展示关系,当接收到告警消息且存在所述告警消息对应的警报时,说明该警报对应的告警事件处于运维范围内,否则所述警报会升级为对应的告警事件。故,当前存在告警消息对应的警报时,该警报对应的告警事件处于运维范围,根据所述告警消息更新完成后等待告警事件的运维范围到达阈值进行告警通知。当然在此过程中,警报会根据实时接收的告警消息进行实时更新直至告警事件的运维范围到达阈值。
在一可选的实施例中,根据所述告警消息创建对应的警报。具体包括,当告警消息没有对应的警报时,可以将分类关键字段作为所述告警消息的标识,将告警消息升级为警报,并在后续该警报的运维范围内实时更新同一类告警消息。
步骤204、根据所述节点匹配规则,将所述警报合并到对应的目标节点上并在所述目标节点所在的业务系统拓扑图上显示与所述目标节点对应的警报个数、目标节点中警报告警状态最高的状态。
在一可选的实施例中,节点匹配规则用于将同一个节点的多个警报进行合并。在本实施例中,告警消息、警报以及节点的展现层次是:节点中展示告警事件,告警事件中展示一条或者多条警报,每个警报下有一条或者多条告警消息。可以将以节点为单位的列表看作警报列表,警报看作告警消息列表。
示例性的,视图中节点上的数字代表节点关联的警报的个数。节点的颜色代表节点所关联的警报的最高级别。在单击节点,可以展示节点下关联的警报列表。
步骤205、以与所述目标节点对应的运维范围为单位,根据所述目标节点所在的业务系统拓扑图以及所述目标节点上携带的告警消息生成告警分析结果。
在本实施例中,所述运维范围可以是时间窗口,也可以是节点的更新频次,还可以是节点上的告警数量,此处不做限制。
示例性的,告警分析结果显示此事件匹配的关联分析规则、节点以及关联分析结果,分析结果中的包括影响分析节点以及根因分析节点,其中影响分析节点指,可以通过连线连接此节点,并依赖此节点的有故障的其他节点。根因分析节点指:可以通过连线连接此节点,并且此节点依赖的有故障的其他节点。示例性的,如图3所示,一个实际的关联分析拓扑图中每个节点均有1个关联的警报,节点A与节点B之间存在关联,B节点分别与C节点、D节点之间存在关联,C节点、D节点均与E节点存在关联,E节点与F节点之间存在关联,F节点与G节点之间存在关联,而A节点、B节点、C节点以及D节点均是同一级别的告警状态,而F节点与G节点在同一级别且高于A节点、B节点、C节点以及D节点告警状态。经过这个示例性的举例,可以分析得到:节点E的影响分析节点分别为:A、B、C、D。,节点E的根因分析节点为G。
本发明提供的告警分析方法,通过导入梳业务系统拓扑关系图,迅速将杂乱的故障警报进行梳理和分类,并与拓扑关系图中的节点进行匹配,在实际的生产环境中,当出现大量的故障警报时,大部分的告警底层是具有逻辑关系的,而这种逻辑关系可以通过业务的拓扑关系来分析呈现,可以帮助运维人员明确故障的根本原因和影响范围,提升运维人员的工作效率。
在一个示例性的实施例中,业务生产环境有基础硬件上千台,各个业务系统的依赖与调用关系非常复杂。通过梳理,整理出核心业务拓扑图十几个,分别将这些拓扑图导入本发明提供的方法的执行主体中,在为每个拓扑图中的节点设置告警匹配的条件,完成了告警消息与业务拓扑的配置工作。在实际的生产过程中,大规模故障的修复时间一般为几小时到一天不等。而使用本系统后,大规模故障的修复时间有效地减少到了一小时以内完成问题定位、止损以及故障修复的全部工作。
图4为本发明另一实施例提供的一种告警分析装置的结构示意图。如图3所示,该告警分析装置,包括:
导入单元41,用于导入业务系统拓扑图,所述业务系统拓扑图包括多个节点以及节点之间的关系,所述节点为业务系统内部调用链里的节点;
获取单元42,用于获取节点匹配规则,所述节点匹配规则包括所述业务系统拓扑图中节点与告警消息之间的对应关系;
执行单元43,用于在接收到告警消息后,根据所述告警消息以及所述获取单元获取的节点匹配规则确定告警消息对应的目标节点,将所述告警消息以可视化的形式呈现在所述目标节点所在的业务系统拓扑图上。
在其中一个可选的实施方式中,图4为本发明再一实施例提供的告警分析结构示意图,如图5所示,所述装置,还包括:
生成单元44,用于以与所述目标节点对应的运维范围为单位,根据所述目标节点所在的业务系统拓扑图以及所述目标节点上携带的告警消息生成告警分析结果。
在其中一个可选的实施方式中,如图6所示,执行单元33,包括:
压缩模块431,用于将同一类告警消息进行压缩生成警报,所述警报为同一类告警消息压缩而成的消息列表;
呈现模块432,用于根据所述获取单元获取的节点匹配规则,将所述压缩模块压缩得到的警报合并到对应的目标节点上并在所述目标节点所在的业务系统拓扑图上显示与所述目标节点对应的警报个数、目标节点中警报告警状态最高的状态。
在其中一个可选的实施方式中,所述节点匹配规则包括节点标识与告警消息中关键字段之间的对应关系,所述关键字段为所述告警消息被压缩为警报时仍然保留的核心内容。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程以及相应的有益效果,可以参考前述方法实施例中的对应过程,在此不再赘述。
本发明提供的告警分析方法,通过导入梳业务系统拓扑关系图,迅速将杂乱的故障警报进行梳理和分类,并与拓扑关系图中的节点进行匹配,在实际的生产环境中,当出现大量的故障警报时,大部分的告警底层是具有逻辑关系的,而这种逻辑关系可以通过业务的拓扑关系来分析呈现,可以帮助运维人员明确故障的根本原因和影响范围,提升运维人员的工作效率。
本发明实施例再一实施例还提供了一种信息处理系统,包括有存储器,以及一个或者一个以上程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或一个以上处理器所述一个或者一个以上程序包含用于进行以下操作的指令:
导入业务系统拓扑图,所述业务系统拓扑图包括多个节点以及节点之间的关系,所述节点为业务系统内部调用链里的节点;
获取节点匹配规则,所述节点匹配规则包括所述业务系统拓扑图中节点与告警消息之间的对应关系;
在接收到告警消息后,根据所述告警消息以及节点匹配规则确定告警消息对应的目标节点,将所述告警消息以可视化的形式呈现在所述目标节点所在的业务系统拓扑图上。
本发明另一实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现上述实施例所述的告警分析方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统及存储介质中程序的具体工作过程以及相应的有益效果,可以参考前述方法实施例中的对应过程,在此不再赘述。
本发明提供的告警分析系统及存储介质,通过导入梳业务系统拓扑关系图,迅速将杂乱的故障警报进行梳理和分类,并与拓扑关系图中的节点进行匹配,在实际的生产环境中,当出现大量的故障警报时,大部分的告警底层是具有逻辑关系的,而这种逻辑关系可以通过业务的拓扑关系来分析呈现,可以帮助运维人员明确故障的根本原因和影响范围,提升运维人员的工作效率。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本发明旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求书指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

Claims (9)

1.一种告警分析方法,其特征在于,包括:
导入业务系统拓扑图,所述业务系统拓扑图包括多个节点以及节点之间的关系,所述节点为业务系统内部调用链里的节点;
获取节点匹配规则,所述节点匹配规则包括所述业务系统拓扑图中节点与告警消息之间的对应关系,其中,每一个节点可以匹配来自多个告警源的告警消息,支持按照与或者非进行告警消息的筛选,而对于同一告警源,可以按照告警源内的字段进行与筛选,字段的比较支持等于、不等于、在列表以及不在列表;其中,所述节点匹配规则包括节点标识与告警消息中关键字段之间的对应关系,所述关键字段为所述告警消息被压缩为警报时仍然保留的核心内容,其中,所述关键字段包括用于表示对象的对象字段和/或用于表示监控指标的指标字段;
在接收到告警消息后,将同一类告警消息进行压缩生成警报,所述警报为同一类告警消息压缩而成的消息列表,包括根据所述告警消息提取分类关键字段;若当前运维的警报中存在以所述分类关键字段进行消息压缩的警报,确定存在与所述告警消息对应的警报,根据所述告警消息更新对应的警报;否则不存在,根据所述告警消息创建对应的警报,其中,根据所述告警消息创建对应的警报具体包括,当告警消息没有对应的警报时,将分类关键字段作为所述告警消息的标识,将告警消息升级为警报,并在后续该警报的运维范围内实时更新同一类告警消息;
根据所述告警消息以及节点匹配规则确定告警消息对应的目标节点,将所述告警消息以可视化的形式呈现在所述目标节点所在的业务系统拓扑图上,其中,节点匹配规则用于将同一个节点的多个警报进行合并,告警消息、警报以及节点的展现层次是:节点中展示告警事件,告警事件中展示一条或者多条警报,每个警报下有一条或者多条告警消息,即将以节点为单位的列表看作警报列表,警报看作告警消息列表。
2.根据权利要求1所述的方法,其特征在于,还包括:
以与所述目标节点对应的运维范围为单位,根据所述目标节点所在的业务系统拓扑图以及所述目标节点上携带的告警消息生成告警分析结果,所述运维范围是时间窗口、节点的更新频次或者节点上的告警数量。
3.根据权利要求1或2所述的方法,其特征在于,根据所述告警消息以及节点匹配规则确定告警消息对应的目标节点,将所述告警消息以可视化的形式呈现在所述目标节点所在的业务系统拓扑图上,包括:
根据所述节点匹配规则,将所述警报合并到对应的目标节点上并在所述目标节点所在的业务系统拓扑图上显示与所述目标节点对应的警报个数、目标节点中警报告警状态最高的状态,告警分析结果显示此事件匹配的关联分析规则、节点以及关联分析结果,分析结果中包括影响分析节点以及根因分析节点,其中影响分析节点指,可以通过连线连接此节点,并依赖此节点的有故障的其他节点,根因分析节点指:可以通过连线连接此节点,并且此节点依赖的有故障的其他节点。
4.根据权利要求1所述的方法,其特征在于,根据所述告警消息更新对应的警报过程中,警报会根据实时接收的告警消息进行实时更新直至告警事件的运维范围到达阈值,根据所述告警消息更新完成后等待告警事件的运维范围到达阈值进行告警通知。
5.一种告警分析装置,其特征在于,包括:
导入单元,用于导入业务系统拓扑图,所述业务系统拓扑图包括多个节点以及节点之间的关系,所述节点为业务系统内部调用链里的节点;
获取单元,用于获取节点匹配规则,所述节点匹配规则包括所述业务系统拓扑图中节点与告警消息之间的对应关系,其中,每一个节点可以匹配来自多个告警源的告警消息,支持按照与或者非进行告警消息的筛选,而对于同一告警源,可以按照告警源内的字段进行与筛选,字段的比较支持等于、不等于、在列表以及不在列表;其中,所述节点匹配规则包括节点标识与告警消息中关键字段之间的对应关系,所述关键字段为所述告警消息被压缩为警报时仍然保留的核心内容,其中,所述关键字段包括用于表示对象的对象字段和/或用于表示监控指标的指标字段;
压缩模块,用于将同一类告警消息进行压缩生成警报,所述警报为同一类告警消息压缩而成的消息列表,包括根据所述告警消息提取分类关键字段;若当前运维的警报中存在以所述分类关键字段进行消息压缩的警报,确定存在与所述告警消息对应的警报,根据所述告警消息更新对应的警报;否则不存在,根据所述告警消息创建对应的警报,其中,根据所述告警消息创建对应的警报具体包括,当告警消息没有对应的警报时,将分类关键字段作为所述告警消息的标识,将告警消息升级为警报,并在后续该警报的运维范围内实时更新同一类告警消息;
执行单元,用于在接收到告警消息后,根据所述告警消息以及所述获取单元获取的节点匹配规则确定告警消息对应的目标节点,将所述告警消息以可视化的形式呈现在所述目标节点所在的业务系统拓扑图上,其中,节点匹配规则用于将同一个节点的多个警报进行合并,告警消息、警报以及节点的展现层次是:节点中展示告警事件,告警事件中展示一条或者多条警报,每个警报下有一条或者多条告警消息,即将以节点为单位的列表看作警报列表,警报看作告警消息列表。
6.根据权利要求5所述的装置,其特征在于,还包括:
生成单元,用于以与所述目标节点对应的运维范围为单位,根据所述目标节点所在的业务系统拓扑图以及所述目标节点上携带的告警消息生成告警分析结果。
7.根据权利要求5或6所述的装置,其特征在于,执行单元,包括:
呈现模块,用于根据所述获取单元获取的节点匹配规则,将所述压缩模块压缩得到的警报合并到对应的目标节点上并在所述目标节点所在的业务系统拓扑图上显示与所述目标节点对应的警报个数、目标节点中警报告警状态最高的状态。
8.一种告警分析系统,其特征在于,包括有存储器,以及一个或者一个以上程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或一个以上处理器所述一个或者一个以上程序包含用于进行以下操作的指令:
导入业务系统拓扑图,所述业务系统拓扑图包括多个节点以及节点之间的关系,所述节点为业务系统内部调用链里的节点;
获取节点匹配规则,所述节点匹配规则包括所述业务系统拓扑图中节点与告警消息之间的对应关系,其中,每一个节点可以匹配来自多个告警源的告警消息,支持按照与或者非进行告警消息的筛选,而对于同一告警源,可以按照告警源内的字段进行与筛选,字段的比较支持等于、不等于、在列表以及不在列表;其中,所述节点匹配规则包括节点标识与告警消息中关键字段之间的对应关系,所述关键字段为所述告警消息被压缩为警报时仍然保留的核心内容,其中,所述关键字段包括用于表示对象的对象字段和/或用于表示监控指标的指标字段;
在接收到告警消息后,,将同一类告警消息进行压缩生成警报,所述警报为同一类告警消息压缩而成的消息列表,包括根据所述告警消息提取分类关键字段;若当前运维的警报中存在以所述分类关键字段进行消息压缩的警报,确定存在与所述告警消息对应的警报,根据所述告警消息更新对应的警报;否则不存在,根据所述告警消息创建对应的警报,其中,根据所述告警消息创建对应的警报具体包括,当告警消息没有对应的警报时,将分类关键字段作为所述告警消息的标识,将告警消息升级为警报,并在后续该警报的运维范围内实时更新同一类告警消息;
根据所述告警消息以及节点匹配规则确定告警消息对应的目标节点,将所述告警消息以可视化的形式呈现在所述目标节点所在的业务系统拓扑图上,其中,节点匹配规则用于将同一个节点的多个警报进行合并,告警消息、警报以及节点的展现层次是:节点中展示告警事件,告警事件中展示一条或者多条警报,每个警报下有一条或者多条告警消息,即将以节点为单位的列表看作警报列表,警报看作告警消息列表。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-4中任一项所述的信息处理方法。
CN201811483987.1A 2018-12-06 2018-12-06 告警分析方法、装置、系统及存储介质 Active CN111294217B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811483987.1A CN111294217B (zh) 2018-12-06 2018-12-06 告警分析方法、装置、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811483987.1A CN111294217B (zh) 2018-12-06 2018-12-06 告警分析方法、装置、系统及存储介质

Publications (2)

Publication Number Publication Date
CN111294217A CN111294217A (zh) 2020-06-16
CN111294217B true CN111294217B (zh) 2022-08-19

Family

ID=71027854

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811483987.1A Active CN111294217B (zh) 2018-12-06 2018-12-06 告警分析方法、装置、系统及存储介质

Country Status (1)

Country Link
CN (1) CN111294217B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113839804B (zh) * 2020-06-24 2023-03-10 华为技术有限公司 一种网络故障的确定方法及网络设备
CN111983947A (zh) * 2020-07-03 2020-11-24 上海趣蕴网络科技有限公司 一种监控系统的告警方法及系统
US11336504B2 (en) * 2020-08-24 2022-05-17 Juniper Networks, Inc. Intent-based distributed alarm service
CN114500227B (zh) * 2020-11-13 2023-11-21 中国移动通信集团安徽有限公司 一种告警分析方法、装置、设备及计算机存储介质
CN112583644B (zh) * 2020-12-14 2022-10-18 华为技术有限公司 告警处理方法、装置、设备及可读存储介质
CN112596887B (zh) * 2020-12-29 2024-06-25 中国建设银行股份有限公司 一种针对批量延迟的分析方法及相关装置
CN113010374B (zh) * 2021-02-26 2023-04-14 山东浪潮科学研究院有限公司 一种基于监控平台的量子设备监控的方法、系统
CN114327988B (zh) * 2021-12-31 2024-01-23 海南神州泰岳软件有限公司 一种可视化网络故障关系确定方法和装置
CN115118574B (zh) * 2022-06-07 2023-07-21 马上消费金融股份有限公司 一种数据处理方法、装置及存储介质
CN115102844A (zh) * 2022-06-09 2022-09-23 摩拜(北京)信息技术有限公司 一种故障监控与处理方法、装置和电子设备
CN115102828A (zh) * 2022-08-26 2022-09-23 歌尔股份有限公司 一种故障分析方法及装置
CN116820826B (zh) * 2023-08-28 2023-11-24 北京必示科技有限公司 一种基于调用链的根因定位方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102308522A (zh) * 2011-07-21 2012-01-04 华为技术有限公司 一种定位网络故障的方法、设备及系统
CN103295155A (zh) * 2012-11-30 2013-09-11 国泰君安证券股份有限公司 证券核心业务系统监控方法
CN106443345A (zh) * 2016-10-08 2017-02-22 国电南瑞科技股份有限公司 一种用于架空配电线路的故障定位系统及方法
CN106656568A (zh) * 2016-11-17 2017-05-10 上海斐讯数据通信技术有限公司 一种告警同步拓扑显示的方法及装置
CN107094086A (zh) * 2016-02-18 2017-08-25 中国移动通信集团江西有限公司 一种信息获取方法和装置
CN108234168A (zh) * 2016-12-15 2018-06-29 腾讯科技(深圳)有限公司 一种基于业务拓扑的数据展示方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102308522A (zh) * 2011-07-21 2012-01-04 华为技术有限公司 一种定位网络故障的方法、设备及系统
CN103295155A (zh) * 2012-11-30 2013-09-11 国泰君安证券股份有限公司 证券核心业务系统监控方法
CN107094086A (zh) * 2016-02-18 2017-08-25 中国移动通信集团江西有限公司 一种信息获取方法和装置
CN106443345A (zh) * 2016-10-08 2017-02-22 国电南瑞科技股份有限公司 一种用于架空配电线路的故障定位系统及方法
CN106656568A (zh) * 2016-11-17 2017-05-10 上海斐讯数据通信技术有限公司 一种告警同步拓扑显示的方法及装置
CN108234168A (zh) * 2016-12-15 2018-06-29 腾讯科技(深圳)有限公司 一种基于业务拓扑的数据展示方法及系统

Also Published As

Publication number Publication date
CN111294217A (zh) 2020-06-16

Similar Documents

Publication Publication Date Title
CN111294217B (zh) 告警分析方法、装置、系统及存储介质
US9996409B2 (en) Identification of distinguishable anomalies extracted from real time data streams
CN107809331B (zh) 识别异常流量的方法和装置
US10002144B2 (en) Identification of distinguishing compound features extracted from real time data streams
CN109344170B (zh) 流数据处理方法、系统、电子设备及可读存储介质
CN105573824B (zh) 分布式计算系统的监控方法及系统
US20170013003A1 (en) Log Analysis Based on User Activity Volume
CN109075991A (zh) 云验证和测试自动化
CN109684052B (zh) 事务分析方法、装置、设备及存储介质
US20210092160A1 (en) Data set creation with crowd-based reinforcement
CN112269718B (zh) 一种业务系统故障分析方法及装置
CN113157545A (zh) 业务日志的处理方法、装置、设备及存储介质
CN111190888A (zh) 一种管理图数据库集群的方法和装置
CN109120428B (zh) 一种用于风控分析的方法及系统
US10474954B2 (en) Feedback and customization in expert systems for anomaly prediction
WO2021072742A1 (en) Assessing an impact of an upgrade to computer software
US10372572B1 (en) Prediction model testing framework
CN111294218B (zh) 信息处理方法、装置、系统及存储介质
CN110928934A (zh) 一种用于业务分析的数据处理方法和装置
CN101989931A (zh) 一种运维告警处理方法和装置
CN113780329A (zh) 用于识别数据异常的方法、装置、服务器和介质
CN113360376A (zh) 埋点测试方法和装置
CN113760677A (zh) 异常链路分析方法、装置、设备及存储介质
US20170228680A1 (en) Improvement message based on element score
CN117271177A (zh) 基于链路数据的根因定位方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant