CN114422324B - 一种告警信息的处理方法、装置、电子设备及存储介质 - Google Patents

一种告警信息的处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114422324B
CN114422324B CN202111637189.1A CN202111637189A CN114422324B CN 114422324 B CN114422324 B CN 114422324B CN 202111637189 A CN202111637189 A CN 202111637189A CN 114422324 B CN114422324 B CN 114422324B
Authority
CN
China
Prior art keywords
alarm information
service
alarm
relation chain
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111637189.1A
Other languages
English (en)
Other versions
CN114422324A (zh
Inventor
孙亚尼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN202111637189.1A priority Critical patent/CN114422324B/zh
Publication of CN114422324A publication Critical patent/CN114422324A/zh
Application granted granted Critical
Publication of CN114422324B publication Critical patent/CN114422324B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/065Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving logical or physical relationship, e.g. grouping and hierarchies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0604Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明实施例提供了一种告警信息的处理方法、装置、电子设备及存储介质,方法包括:获取预设时间周期内的告警信息及其对应的业务访问拓扑关系;基于告警信息包括的业务标识、网络地址以及生成时间,将第一告警信息进行分组,得到第三告警信息;基于告警信息对应的业务场景,将第二告警信息按照业务场景进行分组,得到第四告警信息;对第三告警信息和第四告警信息,按照预设收敛算法进行收敛处理,得到收敛后的告警信息;基于根源分析模型和/或历史告警知识库对收敛后的告警信息进行根源分析,得到告警信息的根源告警信息;输出根源告警信息,以使工作人员对告警信息进行处理。告警信息的收敛效果好,提高了工作人员处理告警的效率。

Description

一种告警信息的处理方法、装置、电子设备及存储介质
技术领域
本发明涉及告警处理技术领域,特别是涉及一种告警信息的处理方法、装置、电子设备及存储介质。
背景技术
随着信息云化工作的推进和分布式架构的大量应用,业务系统中的系统节点、微服务数量呈几何级数增加,并且当业务系统中某个告警信息产生时,可能伴随着产生其它告警信息,从而导致业务系统中的告警信息量爆发式增长,运维人员的工作量急剧上升。
为了剔除不需要处理的告警信息,需要将大量告警信息进行收敛处理,因此亟需一种能够处理告警信息使其收敛的处理方法。
发明内容
本发明实施例的目的在于提供一种告警信息的处理方法、装置、电子设备及存储介质,以使告警信息收敛,从而提高工作人员处理告警的效率。具体技术方案如下:
第一方面,本发明实施例提供了一种告警信息的处理方法,所述方法包括:
获取预设时间周期内的告警信息及其对应的业务访问拓扑关系;
基于所述告警信息包括的业务标识、网络地址以及生成时间,将第一告警信息进行分组,得到第三告警信息,其中,所述第一告警信息为所述告警信息中的设备层级的告警数据;
基于所述告警信息对应的业务场景,将第二告警信息按照所述业务场景进行分组,得到第四告警信息,其中,所述第二告警信息为所述告警信息中的服务层级的告警数据;
对所述第三告警信息和所述第四告警信息,按照预设收敛算法进行收敛处理,得到收敛后的告警信息;
基于根源分析模型和/或历史告警知识库对所述收敛后的告警信息进行根源分析,得到所述告警信息的根源告警信息,其中,所述根源分析模型基于历史告警信息训练得到,所述历史告警知识库基于历史告警信息建立;
输出所述根源告警信息,以使工作人员对所述告警信息进行处理。
可选的,所述对所述第三告警信息和所述第四告警信息,按照预设收敛算法进行收敛处理,得到收敛后的告警信息的步骤,包括:
基于所述告警信息对应的业务数据传输关系,将所述业务访问拓扑关系进行降维处理,得到所述告警信息对应的业务访问关系链,其中,所述业务访问关系链包括多个业务节点及所述业务节点间的数据访问关系;
针对每个业务节点,按照该业务节点的设备层级之间的关系,对该业务节点对应的第三告警信息和第四告警信息进行纵向聚类处理,得到该业务节点对应的第一聚类信息;
针对每个访问关系链,按照该访问关系链包括的业务节点之间的数据访问关系,对该访问关系链包括的业务节点对应的第四告警信息进行横向聚类处理,得到该访问关系链对应的第二聚类信息;
针对每个访问关系链,对该访问关系链包括的业务节点对应的第一聚类信息和该访问关系链对应的第二聚类信息进行关联,得到该业务访问关系链对应的告警信息;
基于预设面积权重算法计算各个所述业务访问关系链的面积值,并从所述业务访问关系链中,选择面积值最大的业务访问关系链,作为目标业务访问关系链;
按照预设提取策略,提取所述目标业务访问关系链中业务节点的告警信息,作为收敛后的告警信息,其中,所述预设提取策略使得所述收敛后的告警信息为远离用户端的业务节点产生的告警信息和/或所述目标业务访问关系链中相邻告警业务节点产生的告警信息。
可选的,所述基于预设面积权重算法计算各个所述业务访问关系链的面积值的步骤,包括:
针对每个业务访问关系链,判断该业务访问关系链中告警业务节点的数量是否大于预设数量;
如果所述告警业务节点的数量不大于所述预设数量,按照以下公式计算得到该业务访问关系链的面积值S:
其中,n为所述预设数量,t为所述告警业务节点在该业务访问关系链中的业务节点序号,N为该业务访问关系链中的业务节点的总数量。
可选的,所述基于预设面积权重算法计算各个所述业务访问关系链的面积值的步骤,还包括:
如果所述告警业务节点的数量大于所述预设数量,判断该业务访问关系链中是否仅存在位于最后的一组相邻告警业务节点;
如果否,按照以下公式计算得到该业务访问关系链的面积值S:
其中,m为所述业务访问关系链中相邻的告警业务节点的最大数量,jn为所述业务访问关系链中第n组的告警业务节点后的未告警业务节点的数量,n为正整数;
如果是,按照以下公式计算得到该业务访问关系链的面积值:
S=l*r
其中,l为所述业务访问关系链中相邻告警业务节点的数量,r为预设权重值。
可选的,在所述基于所述告警信息对应的业务数据传输关系,将所述业务访问拓扑关系进行降维处理,得到所述告警信息对应的业务访问关系链的步骤之后,所述方法还包括:
根据目标告警信息的生成时间,确定所述目标告警信息中具有时间相关性的告警信息,其中,所述目标告警信息包括所述第三告警信息和所述第四告警信息;
剔除所述具有时间相关性的告警信息。
可选的,所述获取预设时间周期内的告警信息的步骤,包括:
获取所述预设时间周期内的原始告警信息;
对所述原始告警信息中的时间戳进行时间项归一化处理,得到生成时间;
对所述原始告警信息中的告警数据进行数据项归一化处理,得到归一化的告警数据;
对所述归一化的告警数据以及所述生成时间进行格式解析,得到键值对格式的告警信息。
可选的,所述对所述原始告警信息中的时间戳进行时间项归一化处理,得到生成时间的步骤,包括:
按照以下公式计算得到生成时间t:
Δt=tend-tstart
其中,t′为所述原始告警信息中的时间戳,tstart为采集所述原始告警信息的预设时间周期的起始时间戳,tend为采集所述原始告警信息的预设时间周期的结束时间戳,Δt为所述预设时间周期的大小。
可选的,在所述基于所述告警信息包括的业务标识、网络地址以及生成时间,将第一告警信息进行分组的步骤之前,所述方法还包括:
针对所述告警信息中的每条告警信息,基于该条告警信息包括的设备标识、网络地址、所基于的告警规则标识及告警标签,确定该条告警信息的指纹信息;
对指纹信息相同的各条告警信息进行去重处理。
第二方面,本发明实施例提供了一种告警信息的处理装置,所述装置包括:
告警信息获取模块,用于获取预设时间周期内的告警信息及其对应的业务访问拓扑关系;
第一分组模块,用于基于所述告警信息包括的业务标识、网络地址以及生成时间,将第一告警信息进行分组,得到第三告警信息,其中,所述第一告警信息为所述告警信息中的设备层级的告警数据;
第二分组模块,用于基于所述告警信息对应的业务场景,将第二告警信息按照所述业务场景进行分组,得到第四告警信息,其中,所述第二告警信息为所述告警信息中的服务层级的告警数据;
收敛处理模块,用于对所述第三告警信息和所述第四告警信息,按照预设收敛算法进行收敛处理,得到收敛后的告警信息;
根源分析模块,用于基于根源分析模型和/或历史告警知识库对所述收敛后的告警信息进行根源分析,得到所述告警信息的根源告警信息,其中,所述根源分析模型基于历史告警信息训练得到,所述历史告警知识库基于历史告警信息建立;
告警信息输出模块,用于输出所述根源告警信息,以使工作人员对所述告警信息进行处理。
可选的,所述收敛处理模块包括:
降维处理单元,用于基于所述告警信息对应的业务数据传输关系,将所述业务访问拓扑关系进行降维处理,得到所述告警信息对应的业务访问关系链,其中,所述业务访问关系链包括多个业务节点及所述业务节点间的数据访问关系;
纵向聚类处理单元,用于针对每个业务节点,按照该业务节点的设备层级之间的关系,对该业务节点对应的第三告警信息和第四告警信息进行纵向聚类处理,得到该业务节点对应的第一聚类信息;
横向聚类处理单元,用于针对每个访问关系链,按照该访问关系链包括的业务节点之间的数据访问关系,对该访问关系链包括的业务节点对应的第四告警信息进行横向聚类处理,得到该访问关系链对应的第二聚类信息;
信息关联单元,用于针对每个访问关系链,对该访问关系链包括的业务节点对应的第一聚类信息和该访问关系链对应的第二聚类信息进行关联,得到该业务访问关系链对应的告警信息;
面积值计算单元,用于基于预设面积权重算法计算各个所述业务访问关系链的面积值,并从所述业务访问关系链中,选择面积值最大的业务访问关系链,作为目标业务访问关系链;
告警信息提取单元,用于按照预设提取策略,提取所述目标业务访问关系链中业务节点的告警信息,作为收敛后的告警信息,其中,所述预设提取策略使得所述收敛后的告警信息为远离用户端的业务节点产生的告警信息和/或所述目标业务访问关系链中相邻告警业务节点产生的告警信息。
可选的,所述面积值计算单元包括:
第一判断子单元,用于针对每个业务访问关系链,判断该业务访问关系链中告警业务节点的数量是否大于预设数量;
第一面积值计算子单元,用于如果所述告警业务节点的数量不大于所述预设数量,按照以下公式计算得到该业务访问关系链的面积值S:
其中,n为所述预设数量,t为所述告警业务节点在该业务访问关系链中的业务节点序号,N为该业务访问关系链中的业务节点的总数量。
可选的,所述面积值计算单元还包括:
第二判断子单元,用于如果所述告警业务节点的数量大于所述预设数量,判断该业务访问关系链中是否仅存在位于最后的一组相邻告警业务节点;
第二面积值计算子单元,用于如果否,按照以下公式计算得到该业务访问关系链的面积值S:
其中,m为所述业务访问关系链中相邻的告警业务节点的最大数量,jn为所述业务访问关系链中第n组的告警业务节点后的未告警业务节点的数量,n为正整数;
第三面积值计算子单元,用于如果是,按照以下公式计算得到该业务访问关系链的面积值:
S=l*r
其中,l为所述业务访问关系链中相邻告警业务节点的数量,r为预设权重值。
可选的,所述装置还包括:
目标告警信息确定单元,用于在所述基于所述告警信息对应的业务数据传输关系,将所述业务访问拓扑关系进行降维处理,得到所述告警信息对应的业务访问关系链的步骤之后,根据目标告警信息的生成时间,确定所述目标告警信息中具有时间相关性的告警信息,其中,所述目标告警信息包括所述第三告警信息和所述第四告警信息;
告警信息剔除单元,用于剔除所述具有时间相关性的告警信息。
可选的,所述告警信息获取模块包括:
原始告警信息获取单元,用于获取所述预设时间周期内的原始告警信息;
时间项归一化单元,用于对所述原始告警信息中的时间戳进行时间项归一化处理,得到生成时间;
数据项归一化单元,用于对所述原始告警信息中的告警数据进行数据项归一化处理,得到归一化的告警数据;
格式解析单元,用于对所述归一化的告警数据以及所述生成时间进行格式解析,得到键值对格式的告警信息。
可选的,所述时间项归一化单元包括:
生成时间计算子单元,用于按照以下公式计算得到生成时间t:
Δt=tend-tstart
其中,t′为所述原始告警信息中的时间戳,tstart为采集所述原始告警信息的预设时间周期的起始时间戳,tend为采集所述原始告警信息的预设时间周期的结束时间戳,Δt为所述预设时间周期的大小。
可选的,所述装置还包括:
指纹信息确定模块,用于在所述基于所述告警信息包括的业务标识、网络地址以及生成时间,将第一告警信息进行分组的步骤之前,针对所述告警信息中的每条告警信息,基于该条告警信息包括的设备标识、网络地址、所基于的告警规则标识及告警标签,确定该条告警信息的指纹信息;
告警信息去重模块,用于对指纹信息相同的各条告警信息进行去重处理。
第三方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述第一方面任一所述的方法步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面任一所述的方法步骤。
本发明实施例有益效果:
本发明实施例提供的方案中,电子设备可以获取预设时间周期内的告警信息及其对应的业务访问拓扑关系;基于告警信息包括的业务标识、网络地址以及生成时间,将第一告警信息进行分组,得到第三告警信息,其中,第一告警信息为告警信息中的设备层级的告警数据;基于告警信息对应的业务场景,将第二告警信息按照业务场景进行分组,得到第四告警信息,其中,第二告警信息为告警信息中的服务层级的告警数据;对第三告警信息和第四告警信息,按照预设收敛算法进行收敛处理,得到收敛后的告警信息;基于根源分析模型和/或历史告警知识库对收敛后的告警信息进行根源分析,得到告警信息的根源告警信息,其中,根源分析模型基于历史告警信息训练得到,历史告警知识库基于历史告警信息建立;输出根源告警信息,以使工作人员对告警信息进行处理。由于将设备层级的告警数据基于业务标识、网络地址以及生成时间进行分组,并将服务层级的告警数据按照业务场景进行分组,告警信息的处理速度快、收敛效果好,进而对收敛后的告警信息进行根源分析,得到根源告警信息,运维人员可以根据根源告警信息快速处理告警,大大提高了工作人员处理告警的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的实施例。
图1为本发明实施例所提供的一种告警信息的处理方法的流程图;
图2为基于图1所示实施例的业务访问拓扑关系的一种示意图;
图3为基于图1所示实施例中步骤S104的一种具体流程图;
图4为基于图3所示实施例的业务访问关系链的一种示意图;
图5为基于图3所示实施例的充值业务场景的访问关系链的一种示意图;
图6为基于图3所示实施例的目标业务访问关系链的一种示意图;
图7为基于图3所示实施例的剔除时间相关性告警信息的一种具体流程图;
图8为基于图7所示实施例的时间相关性告警信息的一种示意图;
图9为基于图1所示实施例中步骤S101的一种具体流程图;
图10为基于图1所示实施例的基于指纹信息去重的一种具体流程图;
图11为基于图1所示实施例的告警信息的处理方法的过程示意图;
图12为本发明实施例所提供的一种告警信息的处理装置的结构示意图;
图13为基于图12所示实施例的收敛处理模块的一种结构示意图;
图14为本发明实施例所提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员基于本发明所获得的所有其他实施例,都属于本发明保护的范围。
为了使告警信息收敛,从而提高工作人员处理告警的效率,本发明实施例提供了一种告警信息的处理方法、装置、电子设备及存储介质,下面首先对本发明实施例所提供的一种告警信息的处理方法进行介绍。
本发明实施例所提供的告警信息的处理方法可以应用于信息系统中任意需要对告警信息进行处理的电子设备,例如,可以为业务系统中的告警信息处理服务器、运维服务器、云服务厂商为业务系统提供的告警处理设备等,在此不做具体限定。为了描述清楚,后续称为电子设备。
如图1所示,一种告警信息的处理方法,所述方法包括:
S101,获取预设时间周期内的告警信息及其对应的业务访问拓扑关系。
S102,基于所述告警信息包括的业务标识、网络地址以及生成时间,将第一告警信息进行分组,得到第三告警信息;
其中,所述第一告警信息为所述告警信息中的设备层级的告警数据。
S103,基于所述告警信息对应的业务场景,将第二告警信息按照所述业务场景进行分组,得到第四告警信息;
其中,所述第二告警信息为所述告警信息中的服务层级的告警数据。
S104,对所述第三告警信息和所述第四告警信息,按照预设收敛算法进行收敛处理,得到收敛后的告警信息。
S105,基于根源分析模型和/或历史告警知识库对所述收敛后的告警信息进行根源分析,得到所述告警信息的根源告警信息;
其中,所述根源分析模型基于历史告警信息训练得到,所述历史告警知识库基于历史告警信息建立。
S106,输出所述根源告警信息,以使工作人员对所述告警信息进行处理。
可见,本发明实施例提供的方案中,电子设备可以获取预设时间周期内的告警信息及其对应的业务访问拓扑关系;基于告警信息包括的业务标识、网络地址以及生成时间,将第一告警信息进行分组,得到第三告警信息,其中,第一告警信息为告警信息中的设备层级的告警数据;基于告警信息对应的业务场景,将第二告警信息按照业务场景进行分组,得到第四告警信息,其中,第二告警信息为告警信息中的服务层级的告警数据;对第三告警信息和第四告警信息,按照预设收敛算法进行收敛处理,得到收敛后的告警信息;基于根源分析模型和/或历史告警知识库对收敛后的告警信息进行根源分析,得到告警信息的根源告警信息,其中,根源分析模型基于历史告警信息训练得到,历史告警知识库基于历史告警信息建立;输出根源告警信息,以使工作人员对告警信息进行处理。由于将设备层级的告警数据基于业务标识、网络地址以及生成时间进行分组,并将服务层级的告警数据按照业务场景进行分组,告警信息的处理速度快、收敛效果好,进而对收敛后的告警信息进行根源分析,得到根源告警信息,运维人员可以根据根源告警信息快速处理告警,大大提高了工作人员处理告警的效率。
随着信息云化工作的推进和分布式架构的大量应用,越来越多的业务系统使用云计算的资源计算模式,云服务提供商可以根据云服务消费者的不同需求提供不同层级的云计算服务,分别为IaaS层级(Infrastructure as a Service,基础设施即服务),PaaS层级(Platform as a Service,平台即服务),SaaS层级(Software as a Service,软件即服务)。例如,云服务提供商提供的IaaS层级可以包括机房、计算机网络、磁盘柜、服务器、虚拟机等基础设施,PaaS层级可以为在IaaS层级的基础上添加的操作系统、数据库、中间件等平台组件,SaaS层级可以为在PaaS层级的基础上添加的应用软件。
使用云计算的业务系统中存在大量的系统节点、微服务,业务系统中的一台主机或组件产生告警信息时,很可能伴随此告警信息产生大量的其他告警信息,导致业务系统中的告警信息量爆发式增长。例如,在业务办理过程中,由于IaaS层级的主机状态异常,产生了一条主机状态告警信息,可能导致PaaS层级相应地产生数据库状态告警信息、数据库连接告警信息,最终在SaaS层级产生业务办理报错告警信息,业务办理失败。为了剔除不需要处理的告警信息,得到业务系统中的根源告警信息,需要将大量告警信息进行收敛处理。
在上述步骤S101中,电子设备可以获取预设时间周期内的告警信息及其对应的业务访问拓扑关系。业务系统中有告警信息产生时,电子设备可以获取预设时间周期内的告警信息,预设时间周期为预先设置的电子设备获取告警信息的时间周期,在一种实施方式中,预设时间周期可以基于实际运维中告警的重要程度和处理的紧急程度等属性,由工作人员自定义设置。如果预设时间周期太长,电子设备获取的告警信息数量可能很大,告警信息的收敛处理时间过长,导致告警信息处理不及时;如果预设时间周期太短,电子设备获取的告警信息数量可能较小,导致告警信息的收敛效果不明显。综合考虑处理告警信息的效率和告警信息的收敛效果,预设时间间隔可以为1分钟、2分钟、5分钟等,在此不做具体限定。
基于业务系统的不同层级,可以将告警信息分为IaaS层级和PaaS层级的告警信息、SaaS层级的告警信息,IaaS层级和PaaS层级的告警信息可以包括监控的主机告警信息、数据库告警信息、组件告警信息等,SaaS层级的告警信息可以包括业务日志告警信息等。不同的告警信息包含的维度字段等信息可能不相同,为了达到更好的告警信息收敛效果,电子设备可以将获取的告警信息转化为统一的格式,例如,可以转化为json格式,在此不做限定。
在一种实施方式中,电子设备可以通过社交网络事业群的通用路由组件L5获取各个业务节点间的业务日志告警信息,通过模块间服务调用和tcpdump抓包的方式获取监控的主机告警信息、数据库告警信息、组件告警信息等,获取的告警信息还可以用于确定业务访问拓扑关系。
业务日志告警信息通常是在某一个或多个具体的业务场景中产生的,电子设备获取的告警信息包括预设的业务场景的业务日志告警信息,预设的业务场景可以是一个业务场景,也可以是多个业务场景的组合。为了达到更好的收敛效果,电子设备可以基于业务日志告警信息对应的业务数据传输关系,得到预设的业务场景的业务日志告警信息对应的业务访问拓扑关系。例如,业务访问拓扑关系如图2所示,业务访问拓扑关系包括A、B、C、D、E业务节点,业务访问拓扑关系中的箭头表示业务节点间的业务数据传输关系。
电子设备获取预设时间周期内的告警信息及其对应的业务访问拓扑关系后,可以基于告警信息包括的业务标识、网络地址以及生成时间,将第一告警信息进行分组,得到第三告警信息,即执行上述步骤S102。
第一告警信息为告警信息中的设备层级的告警数据,包括IaaS层级和PaaS层级的告警信息,可以为主机告警信息、数据库告警信息、组件告警信息等。第一告警信息可以包括业务标识、网络地址以及生成时间等维度信息,电子设备可以基于告警信息包括的业务标识、网络地址或生成时间对第一告警信息进行统计分组,也可以基于业务标识、网络地址和生成时间的组合对第一告警信息进行统计分组,得到第三告警信息,对于不包括在业务标识、网络地址以及生成时间等维度信息内的第一告警信息,电子设备可以将其剔除。在一种实施方式中,电子设备可以基于业务标识、网络地址以及生成时间此三维信息,为每一条第一告警信息生成全局唯一的索引,并基于该索引、采集第一告警信息的时间以及采集的值生成第一告警信息的ID信息,ID信息可以用于针对性的告警或者告警的图形展示,可以更快地处理告警。
电子设备获取预设时间周期内的告警信息及其对应的业务访问拓扑关系后,可以基于告警信息对应的业务场景,将第二告警信息按照业务场景进行分组,得到第四告警信息,即执行上述步骤S103。
第二告警信息为告警信息中的服务层级的告警数据,包括SaaS层级的告警信息,可以为业务日志告警信息等。第二告警信息可以与业务场景相对应,例如,可以为充值场景的业务日志告警信息,可以为查询场景的业务日志告警信息等,在此不做具体限定。业务访问拓扑关系对应的每个业务节点,电子设备可以基于告警信息对应的业务场景,将第二告警信息按照业务场景进行统计分组,得到第四告警信息。在一种实施方式中,业务场景可以包括新装、开通、充值、缴费、查询等不同的服务场景,属于多维的场景。电子设备可以以场景维度作为分析,统一多个场景通用的多维协议,电子设备可以针对每类多维场景,定制多种AI流计算逻辑,将多维场景的告警信息做加工处理,得到多个维度的第四告警信息。
进而,在上述步骤S104中,电子设备可以对第三告警信息和第四告警信息,按照预设收敛算法进行收敛处理,得到收敛后的告警信息。由于第三告警信息已经基于业务标识、网络地址以及生成时间进行了分组,第四告警信息也基于业务场景进行了分组,电子设备可以按照预设收敛算法,结合业务系统的层级架构和业务访问拓扑关系的业务节点间的业务数据传输关系,对第三告警信息和第四告警信息进行收敛处理,进而得到收敛后的告警信息,预设收敛算法可以使得收敛后的告警信息为一条或多条,收敛后的告警信息可以用来确定告警信息的根源告警信息。
在上述步骤S105中,电子设备可以基于根源分析模型和/或历史告警知识库对收敛后的告警信息进行根源分析,得到告警信息的根源告警信息。
根源分析模型基于历史告警信息训练得到,在训练根源分析模型的过程中,可以将历史告警信息和历史告警信息的根源告警信息作为样本数据进行模型训练,根源分析模型可以学习历史告警信息地规律,从而输出预测的根源告警信息,进而,可以基于预测的根源告警信息与历史告警信息的根源告警信息之间的差异,调整根源分析模型的模型参数,来持续减小预测误差,直到迭代次数达到预设次数或预测准确率达到预设准确率,可以确定模型收敛,得到根源分析模型。这样,训练完成的根源分析模型具有基于告警信息确定告警信息的根源告警信息的能力,可以确定收敛后的告警信息对应的根源告警信息。历史告警知识库基于历史告警信息建立,工作人员处理历史告警信息后,可以记录历史告警信息和对应的根源告警信息,从而建立历史告警知识库。历史告警知识库可以确定收敛后的告警信息对应的根源告警信息。
电子设备得到收敛后的告警信息后,可以将收敛后的告警信息输入根源分析模型,得到告警信息对应的根源告警信息;可以将收敛后的告警信息与历史告警知识库中的告警信息进行比较,得到告警信息对应的根源告警信息;电子设备可以结合根源分析模型输出的根源告警信息和由历史告警知识库得到的根源告警信息,综合分析,得到告警信息的根源告警信息。根源告警信息可以包括告警信息的生成时间、具体的业务标识、告警的硬件设备标识、网络地址、告警规则标签等信息。
在上述步骤S106中,电子设备可以输出根源告警信息,以使工作人员对告警信息进行处理。
电子设备可以在确定告警信息的根源告警信息后,输出根源告警信息,以使工作人员对告警信息进行处理。例如,电子设备可以通过短信、电话、邮件、小程序等方式输出根源告警信息,或者通过预先设置的告警接口将根源告警信息传递到自动化运维系统,并对根源告警信息做统一展示,使得工作人员可以接收到根源告警信息,并根据根源告警信息包括的生成时间、具体的硬件设备标识、网络地址、告警规则标签等信息,对告警信息进行处理。
采用本发明实施例所提供的方案中,电子设备可以获取预设时间周期内的告警信息,并将告警信息进行分组,对分组后的告警信息进行收敛处理,得到收敛后的告警信息,基于根源分析模型和/或历史告警知识库对所述收敛后的告警信息进行根源分析,电子设备可以得到根源告警信息,并输出根源告警信息,以使工作人员对告警信息进行处理。预设时间周期和业务场景的维度,使得告警处理更加灵活方便,处理效率更高;对告警信息进行了分组和剔除,告警信息的收敛处理速度更快,准确度更高,收敛效果也更好;通过根源分析模型和/或历史告警知识库可以准确得到根源告警信息,大大提高了工作人员处理告警信息的效率。
作为本发明实施例的一种实施方式,如图3所示,上述对所述第三告警信息和所述第四告警信息,按照预设收敛算法进行收敛处理,得到收敛后的告警信息的步骤,可以包括:
S301,基于所述告警信息对应的业务数据传输关系,将所述业务访问拓扑关系进行降维处理,得到所述告警信息对应的业务访问关系链;
其中,所述业务访问关系链包括多个业务节点及所述业务节点间的数据访问关系。
电子设备获取预设时间周期内的告警信息后,可以基于大量的告警信息,结合AI分析技术,得到告警信息对应的业务数据传输关系,业务数据传输关系可以包括业务访问关系、逻辑访问关系、配置管理信息等业务数据传输相关的信息。基于业务数据传输关系,电子设备可以将业务访问拓扑关系进行降维处理,得到告警信息对应的业务访问关系链,业务访问关系链包括多个业务节点及业务节点间的数据访问关系。
例如,业务访问关系链的示意图如图4所示,其中,第一条业务访问关系链包括B、C、E、D业务节点,第一条业务访问关系链中的数据访问关系为业务节点B访问业务节点C,业务节点C访问业务节点E,业务节点E访问业务节点D。
在一种实施方式中,电子设备得到告警信息对应的业务访问关系链后,可以基于业务系统的层级架构和各个业务节点间数据访问关系,生成各个业务访问关系链之间相对应的链路关系,链路关系可以用于准确判断告警信息的根源告警信息。
S302,针对每个业务节点,按照该业务节点的设备层级之间的关系,对该业务节点对应的第三告警信息和第四告警信息进行纵向聚类处理,得到该业务节点对应的第一聚类信息。
由于第三告警信息已经基于业务标识、网络地址以及生成时间进行了分组,第四告警信息也基于业务场景进行了分组,那么针对每个业务节点,基于该业务节点的设备层级之间的关系,电子设备可以对该业务节点的第三告警信息和第四告警信息进行纵向聚类处理,得到该业务节点对应的第一聚类信息,第一聚类信息可以包括一个或多个告警信息,用于表示该业务节点的各个设备层级之间的告警信息产生的原因。
例如,针对业务节点B,第三告警信息为分组后的设备层级的告警数据,包括IaaS层级和PaaS层级的告警信息,具体可以为“地址为1221537的主机CPU使用率过高”、“数据库B15状态异常”等;第四告警信息为分组后的服务层级的告警数据,包括SaaS层级的告警信息,具体可以为“XX充值订单办理失败”等。那么基于该业务节点的IaaS层级、PaaS层级及SaaS层级的层级架构的关系,电子设备可以对IaaS层级、PaaS层级及SaaS层级的告警信息进行纵向收敛处理,得到业务节点B对应的第一聚类信息为“XX充值订单办理失败,对应数据库B15状态异常,涉及主机地址为1221537的主机CPU使用率过高”。相应地,针对业务节点D,电子设备可以得到业务节点D对应的第一聚类信息为“数据库D31连接异常”。
S303,针对每个访问关系链,按照该访问关系链包括的业务节点之间的数据访问关系,对该访问关系链包括的业务节点对应的第四告警信息进行横向聚类处理,得到该访问关系链对应的第二聚类信息。
由于第四告警信息基于业务场景进行了分组,那么针对每个访问关系链,该访问关系链包括的业务节点对应的第四告警信息也就基于业务场景进行了分组,电子设备可以基于预设的业务场景,按照该访问关系链包括的业务节点之间的数据访问关系,对该访问关系链包括的业务节点对应的第四告警信息进行横向聚类处理,得到该访问关系链对应的第二聚类信息,第二聚类信息可以包括一个或多个告警信息,用于表示该访问关系链的包括的各个业务节点之间的告警信息产生的原因。
例如,针对某一个访问关系链,该访问关系链包括B、C、E、D业务节点,该业务访问关系链中的数据访问关系为业务节点B访问业务节点C,业务节点C访问业务节点E,业务节点E访问业务节点D。第四告警信息为分组后的服务层级的告警数据,包括SaaS层级的告警信息,具体可以为充值场景的业务日志信息,包括“业务节点B:XX时间段内,业务节点B充值订单办理失败”、“业务节点C:XX时间段内,业务节点C充值业务日志异常,无串联信息”、“业务节点E:XX时间段内,业务节点E无订单信息”、“业务节点D:XX时间段内,业务节点D无订单信息”。电子设备可以对B、C、E、D业务节点的告警信息进行横向收敛处理,得到该访问关系链对应的第二聚类信息为“业务节点B:XX时间段内,业务节点B充值订单办理失败”。
针对上述步骤S302和步骤S303,其执行顺序不存在先后限制,可以先执行步骤S302,也可以先执行步骤S303,也可以同时执行步骤S302和步骤S303,这都是合理的。
S304,针对每个访问关系链,对该访问关系链包括的业务节点对应的第一聚类信息和该访问关系链对应的第二聚类信息进行关联,得到该业务访问关系链对应的告警信息。
针对每个访问关系链,电子设备得到该访问关系链包括的业务节点对应的第一聚类信息和该访问关系链对应的第二聚类信息后,可以将第一聚类信息和第二聚类信息进行关联,得到该业务访问关系链对应的告警信息。该业务访问关系链对应的告警信息可以包括一个或多个告警信息,用于表示该访问关系链的告警信息产生的原因。
例如,某一个访问关系链为充值业务场景的访问关系链,包括B、C、E、D业务节点,该业务访问关系链中的数据访问关系为业务节点B访问业务节点C,业务节点C访问业务节点E,业务节点E访问业务节点D。该访问关系链对应的第二聚类信息为“业务节点B:XX时间段内,业务节点B充值订单办理失败”;业务节点B对应的第一聚类信息为“XX充值订单办理失败,对应数据库B15状态异常,涉及主机地址为1221537的主机CPU使用率过高”;业务节点D对应的第一聚类信息为“数据库D31连接异常”。电子设备对该访问关系链包括的业务节点对应的第一聚类信息和该访问关系链对应的第二聚类信息进行关联,得到该业务访问关系链对应的告警信息为“XX时间段内,充值业务节点B对应数据库B15状态异常,涉及主机地址为1221537的主机CPU使用率过高”。
在一种实施方式中,充值业务场景的访问关系链的示意图如图5所示,访问关系链为充值业务场景的访问关系链,包括业务网关、服务路由器、路由转发、采预中心业务节点,该访问关系链中的告警信息包括IaaS层级资源告警、PaaS层级组件告警、SaaS层级服务告警、充值订单日志告警。电子设备基于每个业务节点的设备层级之间的关系,对该访问关系链包括的每个业务节点的IaaS层级资源告警、PaaS层级组件告警、SaaS层级服务告警、充值订单日志告警进行纵向聚类处理;基于该访问关系链包括的业务节点之间的数据访问关系,对该访问关系链包括的业务节点对应的充值订单日志告警进行横向聚类处理;并对纵向聚类处理得到的第一聚类信息和横向聚类处理得到的第二聚类信息进行关联后,可以得到该业务访问关系链对应的告警信息为“业务网关IaaS层级资源告警”。
S305,基于预设面积权重算法计算各个所述业务访问关系链的面积值,并从所述业务访问关系链中,选择面积值最大的业务访问关系链,作为目标业务访问关系链。
电子设备得到每条业务访问关系链对应的告警信息,为了达到更强的收敛效果,可以获取告警信息是告警根源的可能性高的业务访问关系链。电子设备可以基于预设面积权重算法计算各个业务访问关系链的面积值,面积值可以表示业务访问关系链对应的告警信息是告警根源的可能性,面积值越大,说明该业务访问关系链对应的告警信息是告警根源的可能性越高,因此,电子设备可以选择面积值最大的业务访问关系链,作为目标业务访问关系链。
S306,按照预设提取策略,提取所述目标业务访问关系链中业务节点的告警信息,作为收敛后的告警信息;
其中,所述预设提取策略使得所述收敛后的告警信息为远离用户端的业务节点产生的告警信息和/或所述目标业务访问关系链中相邻告警业务节点产生的告警信息。
电子设备得到目标业务访问关系链后,可以提取目标业务访问关系链中业务节点的最有可能是告警根源的告警信息,作为收敛后的告警信息,由于越远离用户端的业务节点产生的告警信息越可能是告警根源,相邻告警业务节点产生的告警信息越可能是告警根源,告警业务节点为产生告警信息的业务节点,因此,电子设备可以按照预设提取策略,提取目标业务访问关系链中业务节点的告警信息,作为收敛后的告警信息。
例如,目标业务访问关系链的示意图如图6所示,业务节点包括数据服务器、逻辑服务器、接入服务器、负载均衡设备、互联网服务提供商、用户端,如果数据服务器宕机,那么用户端、接入服务器、逻辑服务器、数据服务器都会有相应的告警信息产生,电子设备按照预设提取策略提取告警信息后,可以确定数据服务器的告警信息为收敛后的告警信息。
可见,在本实施例中,电子设备可以将业务访问拓扑关系进行降维处理,得到告警信息对应的业务访问关系链,将第三告警信息和第四告警信息进行纵向聚类处理,得到第一聚类信息,将第四告警信息进行横向聚类处理,得到第二聚类信息,并将第一聚类信息和第二聚类信息进行关联,得到业务访问关系链对应的告警信息;进而选择目标业务访问关系链并提取收敛后的告警信息。基于业务系统的层级架构进行纵向聚类,基于业务访问关系链的业务节点间的数据访问关系进行横向聚类,并将聚类结果进行关联,有效提升了告警收敛的效果,通过计算面积值的方式比较目标业务访问关系链对应的告警信息是告警根源的可能性,并按照预设提取策略提取告警信息,有利于准确获得收敛后的告警信息。
作为本发明实施例的一种实施方式,上述基于预设面积权重算法计算各个所述业务访问关系链的面积值的步骤,可以包括:
针对每个业务访问关系链,判断该业务访问关系链中告警业务节点的数量是否大于预设数量。
为了准确计算业务访问关系链的面积值,可以预设面积权重算法,业务访问关系链中,告警业务节点为产生告警信息的业务节点,未告警业务节点为未产生告警信息的业务节点。预设面积权重算法根据业务访问关系链中告警业务节点的数量是否大于预设数量,存在不同的计算方式,由于每个业务访问关系链都对应有告警信息,预设数量可以设置为1,那么,电子设备可以基于业务访问关系链中告警业务节点的数量是否大于1,使用不同的计算方式计算访问关系链的面积值。
如果所述告警业务节点的数量不大于所述预设数量,按照以下公式计算得到该业务访问关系链的面积值S:
其中,n为所述预设数量,t为所述告警业务节点在该业务访问关系链中的业务节点序号,N为该业务访问关系链中的业务节点的总数量。
如果告警业务节点的数量不大于预设数量,说明业务访问关系链中告警业务节点的数量较少,预设面积权重算法的规则包括:越靠后的告警业务节点对应的告警信息越有可能是告警根源,可以通过比较告警业务节点在业务访问关系链中的业务节点序号来比较业务访问关系链的面积值大小,告警业务节点序号越大,业务访问关系链的面积值也就越大,该业务访问关系链对应的告警信息是告警根源的可能性越大。
例如,预设数量为1,业务访问关系链中仅存在一个告警业务节点时,电子设备可以按照上述公式计算业务访问关系链的面积值。业务访问关系链A为0-1-0-0,其中,1代表告警业务节点,0代表未告警业务节点,首个业务节点为客户端,所以告警业务节点在业务访问关系链中的业务节点序号为1,该业务访问关系链中的业务节点的总数量为4,业务访问关系链A的面积值为业务访问关系链B为0-0-0-1,其中,1代表告警业务节点,0代表未告警业务节点,首个业务节点为客户端,所以告警业务节点在业务访问关系链中的业务节点序号为3,该业务访问关系链中的业务节点的总数量为4,业务访问关系链B的面积值为/>
可见,在本实施例中,电子设备可以判断业务访问关系链中告警业务节点的数量是否大于预设数量,如果告警业务节点的数量不大于预设数量,可以按照上述公式计算得到该业务访问关系链的面积,告警业务节点在业务访问关系链中的业务节点序号越大,业务访问关系链的面积值也就越大,通过上述公式,电子设备可以准确计算业务访问关系链的面积值并对面积值进行比较。
作为本发明实施例的一种实施方式,上述基于预设面积权重算法计算各个所述业务访问关系链的面积值的步骤,还可以包括:
如果所述告警业务节点的数量大于所述预设数量,判断该业务访问关系链中是否仅存在位于最后的一组相邻告警业务节点。
如果告警业务节点的数量大于预设数量,说明业务访问关系链中告警业务节点的数量较多,预设面积权重算法的规则包括:相邻的告警业务节点对应的告警信息越有可能是告警根源,可以通过比较相邻的告警业务节点的最大数量来比较业务访问关系链的面积值大小,告警业务节点的数量越大,业务访问关系链的面积值也就越大,该业务访问关系链对应的告警信息是告警根源的可能性越大。
一组相邻告警业务节点可以包括一个或多个相邻的告警业务节点,由于越靠后的告警业务节点对应的告警信息越有可能是告警根源,电子设备可以判断业务访问关系链中是否仅存在位于最后的一组相邻告警业务节点,如果业务访问关系链中仅存在位于最后的一组相邻告警业务节点,该位于最后的一组相邻告警业务节点对应的告警信息为告警根源的可能性较大,该业务访问关系链的面积值时应当较大。
如果否,按照以下公式计算得到该业务访问关系链的面积值S:
其中,m为所述业务访问关系链中相邻的告警业务节点的最大数量,jn为所述业务访问关系链中第n组的告警业务节点后的未告警业务节点的数量,n为正整数。
业务访问关系链中不存在位于最后的一组相邻告警业务节点,电子设备可以按照上述公式计算业务访问关系链的面积值,其中,业务访问关系链中相邻的告警业务节点的最大数量越大,该业务访问关系链的面积值也越大。例如,业务访问关系链C为1-0-0-0-1,业务访问关系链D为1-1-1-0-1-0-0-1-1,其中,1代表告警业务节点,0代表未告警业务节点,业务访问关系链C中相邻的告警业务节点的最大数量为1,业务访问关系链C的面积值为业务访问关系链D中相邻的告警业务节点的最大数量为3,业务访问关系链D的面积值为/>
如果是,按照以下公式计算得到该业务访问关系链的面积值:
S=l*r
其中,l为所述业务访问关系链中相邻告警业务节点的数量,r为预设权重值。
业务访问关系链中存在位于最后的一组相邻告警业务节点,说明可能该业务访问关系链所有业务节点均为告警业务节点,或者该业务访问关系链中的告警业务节点相邻且位于该业务访问关系链的最后。由于越靠后的告警业务节点对应的告警信息越有可能是告警根源,可以预设权重值r,使得电子设备按照上述公式计算得到的该业务访问关系链的面积值较大。
例如,业务访问关系链E为1-1-1-1-1,业务访问关系链F为0-0-0-1-1,其中,1代表告警业务节点,0代表未告警业务节点,预设权重值r为10,业务访问关系链E中相邻告警业务节点的数量为5,业务访问关系链E的面积值为5×10=50;业务访问关系链F中相邻告警业务节点的数量为2,业务访问关系链F的面积值为2×10=20。
可见,在本实施例中,告警业务节点的数量大于预设数量时,电子设备可以判断业务访问关系链中是否仅存在位于最后的一组相邻告警业务节点,并基于判断结果的不同按照对应两种不同计算方法来计算业务访问关系链的面积值。业务访问关系链中相邻的告警业务节点的最大数量越大,业务访问关系链的面积值也越大,业务访问关系链中存在位于最后的一组相邻告警业务节点,业务访问关系链的面积值也越大,通过上述公式,电子设备可以准确计算业务访问关系链的面积值并对面积值进行比较。
作为本发明实施例的一种实施方式,如图7所示,在上述基于所述告警信息对应的业务数据传输关系,将所述业务访问拓扑关系进行降维处理,得到所述告警信息对应的业务访问关系链的步骤之后,上述方法还可以包括:
S701,根据目标告警信息的生成时间,确定所述目标告警信息中具有时间相关性的告警信息,其中,所述目标告警信息包括所述第三告警信息和所述第四告警信息。
在业务系统中的告警信息中,除了当前产生的对业务系统的有影响的告警信息,业务系统中还存在持续出现且不影响业务系统正常运行的告警信息,或在业务系统中按照一定的时间周期出现且不影响业务系统正常运行的告警信息,这样的告警信息为具有时间相关性的告警信息,在告警信息的收敛处理过程中可以将其剔除。电子设备可以将第三告警信息和第四告警信息确定为目标告警信息,并根据目标告警信息的生成时间,确定目标告警信息中具有时间相关性的告警信息。
S702,剔除所述具有时间相关性的告警信息。
由于具有时间相关性的告警信息不影响业务系统的正常运行,为了减小告警信息收敛处理的计算量,可以剔除具有时间相关性的告警信息。
在一种实施方式中,如图8所示,电子设备可以将目标告警信息按照生成时间在一个坐标系中进行展示,坐标系中的点为一个业务访问关系链对应的告警信息,坐标轴的横轴为时间轴,坐标轴的纵轴表示该业务访问关系链中的业务节点,包括业务节点1、业务节点2、业务节点3、业务节点4、业务节点5及业务节点6。时间片表示一段时间内的告警信息,该时间片内的告警信息是在业务节点1、业务节点3、业务节点5及业务节点6内按照一定的时间周期出现的,在确定不影响业务系统正常运行时,电子设备可以确定该时间片内的告警信息为具有时间相关性的告警信息。时间相关性表示业务节点5对应的告警信息持续出现,在确定不影响业务系统正常运行时,电子设备可以确定该时间相关性对应的告警信息为具有时间相关性的告警信息。电子设备可以剔除具有时间相关性的告警信息,也即该时间片内的告警信息和该时间相关性对应的告警信息。
可见,在本实施例中,电子设备可以确定第三告警信息和第四告警信息中具有时间相关性的告警信息,并将其剔除。减小了告警信息收敛处理的计算量,提高了告警信息的收敛速度,方便工作人员更快地处理告警信息。
作为本发明实施例的一种实施方式,如图9所示,上述获取预设时间周期内的告警信息的步骤,可以包括:
S901,获取所述预设时间周期内的原始告警信息。
电子设备可以获取预设时间周期内的原始告警信息,原始告警信息可以包括IaaS层级和PaaS层级的监控的主机告警信息、数据库告警信息、组件告警信息等,也可以包括SaaS层级的业务日志告警信息等。不同的原始告警信息包含的维度字段等信息可能不相同,电子设备可以将获取的原始告警信息转化为统一的格式,例如,可以转化为json格式,在此不做限定。
S902,对所述原始告警信息中的时间戳进行时间项归一化处理,得到生成时间。
由于不同的原始告警信息可能来自不同的设备,原始告警信息的时间戳的格式可能不相同,导致告警信息无法收敛。为了能对告警信息进行收敛处理,电子设备可以对原始告警信息中的时间戳进行时间项归一化处理,得到各个原始告警信息的生成时间,生成时间可以用来判断告警信息的时间相关性和进行告警信息去重。
S903,对所述原始告警信息中的告警数据进行数据项归一化处理,得到归一化的告警数据。
由于不同的原始告警信息可能来自不同的设备,原始告警信息包含的数据的格式可能不相同,导致告警信息无法收敛。电子设备可以对原始告警信息中的告警数据进行数据项归一化处理,得到归一化的告警数据。在一种实施方式中,对于率值性指标,电子设备可以将其转化为百分比小数,对于非率值性指标,电子设备可以应按照业务系统的资源和应用设定的统一标准,将非率值性指标进行数据转换,得到统一格式的数据。
S904,对所述归一化的告警数据以及所述生成时间进行格式解析,得到键值对格式的告警信息。
由于告警信息中可能带有特殊字符,影响告警信息的收敛处理效果,由于原始告警信息的告警数据和生成时间已经过了归一化处理,电子设备可以对归一化的告警数据以及生成时间进行格式解析,将原始告警信息的特殊字符剔除,并将原始告警信息转换为键值对格式的告警信息。
在一种实施方式中,电子设备可以参照“固定部分+可变部分”的形式,根据原始告警信息对应的IaaS层级、PaaS层级及SaaS层级和监控指标的固定维度生成固定部分,根据网络地址和Value值等生成可变部分,将原始告警信息转化为维度key-value,即键值对的形式,得到告警信息。
可见,在本实施例中,电子设备可以获取预设时间周期内的原始告警信息,并对原始告警信息进行处理得到键值对格式的告警信息。得到的告警信息的生成时间和告警数据都进行了归一化处理,还进行格式解析,增强了告警信息的收敛效果,提高了工作人员处理告警的效率。
作为本发明实施例的一种实施方式,上述对所述原始告警信息中的时间戳进行时间项归一化处理,得到生成时间的步骤,可以包括:
按照以下公式计算得到生成时间t:
Δt=tend-tstart
其中,t′为所述原始告警信息中的时间戳,tstart为采集所述原始告警信息的预设时间周期的起始时间戳,tend为采集所述原始告警信息的预设时间周期的结束时间戳,Δt为所述预设时间周期的大小。
由于不同的原始告警信息可能来自不同的设备,原始告警信息的时间戳的格式可能不相同,导致告警信息无法收敛。电子设备可以按照上述公式将原始告警信息中的时间戳进行时间项归一化处理,通过比较原始告警信息中的时间戳和采集原始告警信息的预设时间周期的起始时间戳,得到的生成时间格式相同,可以用来判断告警信息的时间相关性和进行告警信息去重。
例如,原始告警信息中的时间为“2021-08-18 16:14:29”,其对应的时间戳可以为“1629274769000”;tstart为采集原始告警信息的预设时间周期的起始时间戳,可以为“1629274469000”;tend为采集原始告警信息的预设时间周期的结束时间戳,可以为“1629274769000”;Δt为预设时间周期的大小,可以为1629274769000-1629274469000=300000;原始告警信息的生成时间为
可见,在本实施例中,电子设备可以按照上述公式准确计算得到原始告警信息的生成时间,有利于准确地对原始告警信息中的时间戳进行时间项归一化处理,从而达到更好的告警信息收敛效果。
作为本发明实施例的一种实施方式,如图10所示,在上述基于所述告警信息包括的业务标识、网络地址以及生成时间,将第一告警信息进行分组的步骤之前,上述方法还可以包括:
S1001,针对所述告警信息中的每条告警信息,基于该条告警信息包括的设备标识、网络地址、所基于的告警规则标识及告警标签,确定该条告警信息的指纹信息。
在预设时间周期内,业务系统出现告警时,同一个告警规则可能产生了多条告警信息,同一个设备、网络地址等都可能产生多条告警信息,从而导致告警信息数量极大且冗杂。为了减少预设时间周期内的告警信息的数量,针对每条告警信息,电子设备可以基于该条告警信息包括的设备标识、网络地址、所基于的告警规则标识及告警标签,确定该条告警信息的指纹信息。指纹信息可以用于标识告警信息,拥有相同指纹信息的告警信息可以认为是相同的告警信息。
S1002,对指纹信息相同的各条告警信息进行去重处理。
电子设备确定每条告警信息的指纹信息后,可以对指纹信息相同的各条告警信息进行去重处理。例如,电子设备获取了三个告警信息Alert1、Alert2及Alert3,可以将告警信息写入Kafka缓存通道,对告警信息Alert1、Alert2及Alert3进行确定指纹信息和去重处理,其中,Alert1为:
“aliuid”:“12345”
“project”:“Project1”
“alert_id”:“alert-123”
“labels”:
“host”:“host-1”
“annotations”:
“title”:“CPU使用率过高”
“desc”:“CPU当前使用率为90%”
Alert2为:
“aliuid”:“12345”
“project”:“Project1”
“alert_id”:“alert-123”
“labels”:
“host”:“host-1”
“annotations”:
“title”:“CPU使用率过高”
“desc”:“CPU当前使用率为95%”
Alert3为:
“aliuid”:“12345”
“project”:“Project1”
“alert_id”:“alert-123”
“labels”:
“host”:“host-2”
“annotations”:
“title”:“CPU使用率过高”
“desc”:“CPU当前使用率为95%”
电子设备可以基于告警信息Alert1包括的设备标识aliuid为12345;网络地址project为Project1;所基于的告警规则标识alert_id为alert-123;以及告警标签labels为“host”:“host-1”,确定告警信息Alert1的指纹信息为指纹信息A。由于告警信息Alert2的设备标识、网络地址、所基于的告警规则标识及告警标签与Alert1均相同,电子设备可以确定告警信息Alert2的指纹信息为指纹信息A。由于告警信息Alert3的设备标识、网络地址、所基于的告警规则标识与Alert1和Alert2相同;但告警信息Alert3的告警标签labels为“host”:“host-2”,与Alert1或Alert2不相同,电子设备可以确定告警信息Alert3的指纹信息为指纹信息B。电子设备可以对指纹信息相同的Alert1和Alert2进行去重处理,剔除Alert2,保留Alert1。
可见,在本实施例中,电子设备可以基于告警信息包括的设备标识、网络地址、所基于的告警规则标识及告警标签,确定告警信息的指纹信息并对告警信息进行去重处理。去重处理减少了告警信息的数量,减少了告警信息的收敛处理的时间,提高了工作人员处理告警信息的效率。
下面结合图11所示的示意图对本发明实施例提供的告警信息的处理方法进行举例介绍。如图11所示,告警信息的处理方法可分为四个过程,分别为:获取告警信息、发送告警信息、告警信息收敛处理、输出并展示告警信息。
在获取告警信息过程中,电子设备可以获取多条告警信息,包括告警信息1、告警信息2、告警信息3、告警信息4等。
在发送告警信息过程中,电子设备获取的多条告警信息存储在实时告警列表中,电子设备可以获取实时告警列表中的预设时间周期内的告警信息,作为待收敛告警信息,并发送待收敛告警信息以对待收敛告警信息进行收敛处理。电子设备获取根源告警信息,并发送根源告警信息以输出根源告警信息和将根源告警信息进行展示。
在告警信息收敛处理过程中,电子设备可以获取待收敛告警信息对应的业务访问拓扑关系,并基于待收敛告警信息对应的业务数据传输关系,将业务访问拓扑关系进行降维处理,获取待收敛告警信息对应的业务访问关系链。电子设备可以基于预设面积权重算法计算业务访问关系链的面积值并选择面积值最大的业务访问关系链,作为目标业务访问关系链。电子设备可以根据待收敛告警信息的生成时间,确定待收敛告警信息中具有时间相关性的告警信息,并将其剔除,完成时间相关性过滤。电子设备可以按照预设提取策略,提取目标业务访问关系链中业务节点的告警信息,作为收敛后的告警信息,即完成告警信息的过滤筛选。电子设备可以基于根源分析模型和/或历史告警知识库对收敛后的告警信息进行根源分析,得到告警信息的根源告警信息。
在输出并展示告警信息过程中,电子设备可以将根源告警信息发送至工作人员,以使工作人员对告警信息进行处理,电子设备可以对输出的根源告警信息做统一的展示。电子设备可以不对告警信息进行收敛处理,直接输出实时告警信息,以使工作人员对实时告警信息进行处理。
可见,在本实施例中,电子设备可以对告警信息进行收敛处理,得到告警信息的根源告警信息,并将根源告警信息输出至工作人员,以使工作人员对告警信息进行处理。本方案可以在多重复杂业务及场景中使用,提高了告警信息归并能力及关键告警信息提取能力,减少了冗余告警信息,保障了告警信息收敛处理的准确性、有效性,大大提高了工作人员的工作效率。
相应于上述告警信息的处理方法,本发明实施例还提供了一种告警信息的处理装置,下面对本发明实施例所提供的一种告警信息的处理装置进行介绍。
如图12所示,一种告警信息的处理装置,所述装置包括:
告警信息获取模块1201,用于获取预设时间周期内的告警信息及其对应的业务访问拓扑关系。
第一分组模块1202,用于基于所述告警信息包括的业务标识、网络地址以及生成时间,将第一告警信息进行分组,得到第三告警信息;
其中,所述第一告警信息为所述告警信息中的设备层级的告警数据。
第二分组模块1203,用于基于所述告警信息对应的业务场景,将第二告警信息按照所述业务场景进行分组,得到第四告警信息;
其中,所述第二告警信息为所述告警信息中的服务层级的告警数据。
收敛处理模块1204,用于对所述第三告警信息和所述第四告警信息,按照预设收敛算法进行收敛处理,得到收敛后的告警信息。
根源分析模块1205,用于基于根源分析模型和/或历史告警知识库对所述收敛后的告警信息进行根源分析,得到所述告警信息的根源告警信息;
其中,所述根源分析模型基于历史告警信息训练得到,所述历史告警知识库基于历史告警信息建立。
告警信息输出模块1206,用于输出所述根源告警信息,以使工作人员对所述告警信息进行处理。
可见,本发明实施例提供的方案中,电子设备可以获取预设时间周期内的告警信息及其对应的业务访问拓扑关系;基于告警信息包括的业务标识、网络地址以及生成时间,将第一告警信息进行分组,得到第三告警信息,其中,第一告警信息为告警信息中的设备层级的告警数据;基于告警信息对应的业务场景,将第二告警信息按照业务场景进行分组,得到第四告警信息,其中,第二告警信息为告警信息中的服务层级的告警数据;对第三告警信息和第四告警信息,按照预设收敛算法进行收敛处理,得到收敛后的告警信息;基于根源分析模型和/或历史告警知识库对收敛后的告警信息进行根源分析,得到告警信息的根源告警信息,其中,根源分析模型基于历史告警信息训练得到,历史告警知识库基于历史告警信息建立;输出根源告警信息,以使工作人员对告警信息进行处理。由于将设备层级的告警数据基于业务标识、网络地址以及生成时间进行分组,并将服务层级的告警数据按照业务场景进行分组,告警信息的处理速度快、收敛效果好,进而对收敛后的告警信息进行根源分析,得到根源告警信息,运维人员可以根据根源告警信息快速处理告警,大大提高了工作人员处理告警的效率。
作为本发明实施例的一种实施方式,如图13所示,上述收敛处理模块1204可以包括:
降维处理单元1301,用于基于所述告警信息对应的业务数据传输关系,将所述业务访问拓扑关系进行降维处理,得到所述告警信息对应的业务访问关系链;
其中,所述业务访问关系链包括多个业务节点及所述业务节点间的数据访问关系。
纵向聚类处理单元1302,用于针对每个业务节点,按照该业务节点的设备层级之间的关系,对该业务节点对应的第三告警信息和第四告警信息进行纵向聚类处理,得到该业务节点对应的第一聚类信息。
横向聚类处理单元1303,用于针对每个访问关系链,按照该访问关系链包括的业务节点之间的数据访问关系,对该访问关系链包括的业务节点对应的第四告警信息进行横向聚类处理,得到该访问关系链对应的第二聚类信息。
信息关联单元1304,用于针对每个访问关系链,对该访问关系链包括的业务节点对应的第一聚类信息和该访问关系链对应的第二聚类信息进行关联,得到该业务访问关系链对应的告警信息。
面积值计算单元1305,用于基于预设面积权重算法计算各个所述业务访问关系链的面积值,并从所述业务访问关系链中,选择面积值最大的业务访问关系链,作为目标业务访问关系链。
告警信息提取单元1306,用于按照预设提取策略,提取所述目标业务访问关系链中业务节点的告警信息,作为收敛后的告警信息;
其中,所述预设提取策略使得所述收敛后的告警信息为远离用户端的业务节点产生的告警信息和/或所述目标业务访问关系链中相邻告警业务节点产生的告警信息。
作为本发明实施例的一种实施方式,上述面积值计算单元1305可以包括:
第一判断子单元,用于针对每个业务访问关系链,判断该业务访问关系链中告警业务节点的数量是否大于预设数量。
第一面积值计算子单元,用于如果所述告警业务节点的数量不大于所述预设数量,按照以下公式计算得到该业务访问关系链的面积值S:
其中,n为所述预设数量,t为所述告警业务节点在该业务访问关系链中的业务节点序号,N为该业务访问关系链中的业务节点的总数量。
作为本发明实施例的一种实施方式,上述面积值计算单元1305还可以包括:
第二判断子单元,用于如果所述告警业务节点的数量大于所述预设数量,判断该业务访问关系链中是否仅存在位于最后的一组相邻告警业务节点。
第二面积值计算子单元,用于如果否,按照以下公式计算得到该业务访问关系链的面积值S:
其中,m为所述业务访问关系链中相邻的告警业务节点的最大数量,jn为所述业务访问关系链中第n组的告警业务节点后的未告警业务节点的数量,n为正整数。
第三面积值计算子单元,用于如果是,按照以下公式计算得到该业务访问关系链的面积值:
S=l*r
其中,l为所述业务访问关系链中相邻告警业务节点的数量,r为预设权重值。
作为本发明实施例的一种实施方式,上述装置还可以包括:
目标告警信息确定单元,用于在所述基于所述告警信息对应的业务数据传输关系,将所述业务访问拓扑关系进行降维处理,得到所述告警信息对应的业务访问关系链的步骤之后,根据目标告警信息的生成时间,确定所述目标告警信息中具有时间相关性的告警信息;
其中,所述目标告警信息包括所述第三告警信息和所述第四告警信息。
告警信息剔除单元,用于剔除所述具有时间相关性的告警信息。
作为本发明实施例的一种实施方式,上述告警信息获取模块1201可以包括:
原始告警信息获取单元,用于获取所述预设时间周期内的原始告警信息。
时间项归一化单元,用于对所述原始告警信息中的时间戳进行时间项归一化处理,得到生成时间。
数据项归一化单元,用于对所述原始告警信息中的告警数据进行数据项归一化处理,得到归一化的告警数据。
格式解析单元,用于对所述归一化的告警数据以及所述生成时间进行格式解析,得到键值对格式的告警信息。
作为本发明实施例的一种实施方式,上述时间项归一化单元可以包括:
生成时间计算子单元,用于按照以下公式计算得到生成时间t:
Δt=tend-tstart
其中,t′为所述原始告警信息中的时间戳,tstart为采集所述原始告警信息的预设时间周期的起始时间戳,tend为采集所述原始告警信息的预设时间周期的结束时间戳,Δt为所述预设时间周期的大小。
作为本发明实施例的一种实施方式,上述装置还可以包括:
指纹信息确定模块,用于在所述基于所述告警信息包括的业务标识、网络地址以及生成时间,将第一告警信息进行分组的步骤之前,针对所述告警信息中的每条告警信息,基于该条告警信息包括的设备标识、网络地址、所基于的告警规则标识及告警标签,确定该条告警信息的指纹信息。
告警信息去重模块,用于对指纹信息相同的各条告警信息进行去重处理。
本发明实施例还提供了一种电子设备,如图14所示,包括处理器1401、通信接口1402、存储器1403和通信总线1404,其中,处理器1401,通信接口1402,存储器1403通过通信总线1404完成相互间的通信,
存储器1403,用于存放计算机程序;
处理器1401,用于执行存储器1403上所存放的程序时,实现上述任一实施例所述的方法步骤。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例所述的方法的步骤。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一实施例所述的方法的步骤。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的匹配要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间匹配相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不匹配之处。尤其,对于装置、电子设备、计算机可读存储介质以及计算机程序产品实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (18)

1.一种告警信息的处理方法,其特征在于,所述方法包括:
获取预设时间周期内的告警信息及其对应的业务访问拓扑关系;
基于所述告警信息包括的业务标识、网络地址以及生成时间,将第一告警信息进行分组,得到第三告警信息,其中,所述第一告警信息为所述告警信息中的设备层级的告警数据;
基于所述告警信息对应的业务场景,将第二告警信息按照所述业务场景进行分组,得到第四告警信息,其中,所述第二告警信息为所述告警信息中的服务层级的告警数据;
对所述第三告警信息和所述第四告警信息,按照预设收敛算法进行收敛处理,得到收敛后的告警信息;
基于根源分析模型和/或历史告警知识库对所述收敛后的告警信息进行根源分析,得到所述告警信息的根源告警信息,其中,所述根源分析模型基于历史告警信息训练得到,所述历史告警知识库基于历史告警信息建立;
输出所述根源告警信息,以使工作人员对所述告警信息进行处理。
2.根据权利要求1所述的方法,其特征在于,所述对所述第三告警信息和所述第四告警信息,按照预设收敛算法进行收敛处理,得到收敛后的告警信息的步骤,包括:
基于所述告警信息对应的业务数据传输关系,将所述业务访问拓扑关系进行降维处理,得到所述告警信息对应的业务访问关系链,其中,所述业务访问关系链包括多个业务节点及所述业务节点间的数据访问关系;
针对每个业务节点,按照该业务节点的设备层级之间的关系,对该业务节点对应的第三告警信息和第四告警信息进行纵向聚类处理,得到该业务节点对应的第一聚类信息;
针对每个访问关系链,按照该访问关系链包括的业务节点之间的数据访问关系,对该访问关系链包括的业务节点对应的第四告警信息进行横向聚类处理,得到该访问关系链对应的第二聚类信息;
针对每个访问关系链,对该访问关系链包括的业务节点对应的第一聚类信息和该访问关系链对应的第二聚类信息进行关联,得到该业务访问关系链对应的告警信息;
基于预设面积权重算法计算各个所述业务访问关系链的面积值,并从所述业务访问关系链中,选择面积值最大的业务访问关系链,作为目标业务访问关系链;
按照预设提取策略,提取所述目标业务访问关系链中业务节点的告警信息,作为收敛后的告警信息,其中,所述预设提取策略使得所述收敛后的告警信息为远离用户端的业务节点产生的告警信息和/或所述目标业务访问关系链中相邻告警业务节点产生的告警信息。
3.根据权利要求2所述的方法,其特征在于,所述基于预设面积权重算法计算各个所述业务访问关系链的面积值的步骤,包括:
针对每个业务访问关系链,判断该业务访问关系链中告警业务节点的数量是否大于预设数量;
如果所述告警业务节点的数量不大于所述预设数量,按照以下公式计算得到该业务访问关系链的面积值S:
其中,n为所述预设数量,t为所述告警业务节点在该业务访问关系链中的业务节点序号,N为该业务访问关系链中的业务节点的总数量。
4.根据权利要求3所述的方法,其特征在于,所述基于预设面积权重算法计算各个所述业务访问关系链的面积值的步骤,还包括:
如果所述告警业务节点的数量大于所述预设数量,判断该业务访问关系链中是否仅存在位于最后的一组相邻告警业务节点;
如果否,按照以下公式计算得到该业务访问关系链的面积值S:
其中,m为所述业务访问关系链中相邻的告警业务节点的最大数量,jn为所述业务访问关系链中第n组的告警业务节点后的未告警业务节点的数量,n为正整数;
如果是,按照以下公式计算得到该业务访问关系链的面积值:
S=l*r
其中,l为所述业务访问关系链中相邻告警业务节点的数量,r为预设权重值。
5.根据权利要求2所述的方法,其特征在于,在所述基于所述告警信息对应的业务数据传输关系,将所述业务访问拓扑关系进行降维处理,得到所述告警信息对应的业务访问关系链的步骤之后,所述方法还包括:
根据目标告警信息的生成时间,确定所述目标告警信息中具有时间相关性的告警信息,其中,所述目标告警信息包括所述第三告警信息和所述第四告警信息;
剔除所述具有时间相关性的告警信息。
6.根据权利要求1所述的方法,其特征在于,所述获取预设时间周期内的告警信息的步骤,包括:
获取所述预设时间周期内的原始告警信息;
对所述原始告警信息中的时间戳进行时间项归一化处理,得到生成时间;
对所述原始告警信息中的告警数据进行数据项归一化处理,得到归一化的告警数据;
对所述归一化的告警数据以及所述生成时间进行格式解析,得到键值对格式的告警信息。
7.根据权利要求6所述的方法,其特征在于,所述对所述原始告警信息中的时间戳进行时间项归一化处理,得到生成时间的步骤,包括:
按照以下公式计算得到生成时间t:
Δt=tend-tstart
其中,t′为所述原始告警信息中的时间戳,tstart为采集所述原始告警信息的预设时间周期的起始时间戳,tend为采集所述原始告警信息的预设时间周期的结束时间戳,Δt为所述预设时间周期的大小。
8.根据权利要求1-7任一项所述的方法,其特征在于,在所述基于所述告警信息包括的业务标识、网络地址以及生成时间,将第一告警信息进行分组的步骤之前,所述方法还包括:
针对所述告警信息中的每条告警信息,基于该条告警信息包括的设备标识、网络地址、所基于的告警规则标识及告警标签,确定该条告警信息的指纹信息;
对指纹信息相同的各条告警信息进行去重处理。
9.一种告警信息的处理装置,其特征在于,所述装置包括:
告警信息获取模块,用于获取预设时间周期内的告警信息及其对应的业务访问拓扑关系;
第一分组模块,用于基于所述告警信息包括的业务标识、网络地址以及生成时间,将第一告警信息进行分组,得到第三告警信息,其中,所述第一告警信息为所述告警信息中的设备层级的告警数据;
第二分组模块,用于基于所述告警信息对应的业务场景,将第二告警信息按照所述业务场景进行分组,得到第四告警信息,其中,所述第二告警信息为所述告警信息中的服务层级的告警数据;
收敛处理模块,用于对所述第三告警信息和所述第四告警信息,按照预设收敛算法进行收敛处理,得到收敛后的告警信息;
根源分析模块,用于基于根源分析模型和/或历史告警知识库对所述收敛后的告警信息进行根源分析,得到所述告警信息的根源告警信息,其中,所述根源分析模型基于历史告警信息训练得到,所述历史告警知识库基于历史告警信息建立;
告警信息输出模块,用于输出所述根源告警信息,以使工作人员对所述告警信息进行处理。
10.根据权利要求9所述的装置,其特征在于,所述收敛处理模块包括:
降维处理单元,用于基于所述告警信息对应的业务数据传输关系,将所述业务访问拓扑关系进行降维处理,得到所述告警信息对应的业务访问关系链,其中,所述业务访问关系链包括多个业务节点及所述业务节点间的数据访问关系;
纵向聚类处理单元,用于针对每个业务节点,按照该业务节点的设备层级之间的关系,对该业务节点对应的第三告警信息和第四告警信息进行纵向聚类处理,得到该业务节点对应的第一聚类信息;
横向聚类处理单元,用于针对每个访问关系链,按照该访问关系链包括的业务节点之间的数据访问关系,对该访问关系链包括的业务节点对应的第四告警信息进行横向聚类处理,得到该访问关系链对应的第二聚类信息;
信息关联单元,用于针对每个访问关系链,对该访问关系链包括的业务节点对应的第一聚类信息和该访问关系链对应的第二聚类信息进行关联,得到该业务访问关系链对应的告警信息;
面积值计算单元,用于基于预设面积权重算法计算各个所述业务访问关系链的面积值,并从所述业务访问关系链中,选择面积值最大的业务访问关系链,作为目标业务访问关系链;
告警信息提取单元,用于按照预设提取策略,提取所述目标业务访问关系链中业务节点的告警信息,作为收敛后的告警信息,其中,所述预设提取策略使得所述收敛后的告警信息为远离用户端的业务节点产生的告警信息和/或所述目标业务访问关系链中相邻告警业务节点产生的告警信息。
11.根据权利要求10所述的装置,其特征在于,所述面积值计算单元包括:
第一判断子单元,用于针对每个业务访问关系链,判断该业务访问关系链中告警业务节点的数量是否大于预设数量;
第一面积值计算子单元,用于如果所述告警业务节点的数量不大于所述预设数量,按照以下公式计算得到该业务访问关系链的面积值S:
其中,n为所述预设数量,t为所述告警业务节点在该业务访问关系链中的业务节点序号,N为该业务访问关系链中的业务节点的总数量。
12.根据权利要求11所述的装置,其特征在于,所述面积值计算单元还包括:
第二判断子单元,用于如果所述告警业务节点的数量大于所述预设数量,判断该业务访问关系链中是否仅存在位于最后的一组相邻告警业务节点;
第二面积值计算子单元,用于如果否,按照以下公式计算得到该业务访问关系链的面积值S:
其中,m为所述业务访问关系链中相邻的告警业务节点的最大数量,jn为所述业务访问关系链中第n组的告警业务节点后的未告警业务节点的数量,n为正整数;
第三面积值计算子单元,用于如果是,按照以下公式计算得到该业务访问关系链的面积值:
S=l*r
其中,l为所述业务访问关系链中相邻告警业务节点的数量,r为预设权重值。
13.根据权利要求10所述的装置,其特征在于,所述装置还包括:
目标告警信息确定单元,用于在所述基于所述告警信息对应的业务数据传输关系,将所述业务访问拓扑关系进行降维处理,得到所述告警信息对应的业务访问关系链的步骤之后,根据目标告警信息的生成时间,确定所述目标告警信息中具有时间相关性的告警信息,其中,所述目标告警信息包括所述第三告警信息和所述第四告警信息;
告警信息剔除单元,用于剔除所述具有时间相关性的告警信息。
14.根据权利要求9所述的装置,其特征在于,所述告警信息获取模块包括:
原始告警信息获取单元,用于获取所述预设时间周期内的原始告警信息;
时间项归一化单元,用于对所述原始告警信息中的时间戳进行时间项归一化处理,得到生成时间;
数据项归一化单元,用于对所述原始告警信息中的告警数据进行数据项归一化处理,得到归一化的告警数据;
格式解析单元,用于对所述归一化的告警数据以及所述生成时间进行格式解析,得到键值对格式的告警信息。
15.根据权利要求14所述的装置,其特征在于,所述时间项归一化单元包括:
生成时间计算子单元,用于按照以下公式计算得到生成时间t:
Δt=tend-tstart
其中,t′为所述原始告警信息中的时间戳,tstart为采集所述原始告警信息的预设时间周期的起始时间戳,tend为采集所述原始告警信息的预设时间周期的结束时间戳,Δt为所述预设时间周期的大小。
16.根据权利要求9-15任一项所述的装置,其特征在于,所述装置还包括:
指纹信息确定模块,用于在所述基于所述告警信息包括的业务标识、网络地址以及生成时间,将第一告警信息进行分组的步骤之前,针对所述告警信息中的每条告警信息,基于该条告警信息包括的设备标识、网络地址、所基于的告警规则标识及告警标签,确定该条告警信息的指纹信息;
告警信息去重模块,用于对指纹信息相同的各条告警信息进行去重处理。
17.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-8任一所述的方法步骤。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-8任一所述的方法步骤。
CN202111637189.1A 2021-12-29 2021-12-29 一种告警信息的处理方法、装置、电子设备及存储介质 Active CN114422324B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111637189.1A CN114422324B (zh) 2021-12-29 2021-12-29 一种告警信息的处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111637189.1A CN114422324B (zh) 2021-12-29 2021-12-29 一种告警信息的处理方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN114422324A CN114422324A (zh) 2022-04-29
CN114422324B true CN114422324B (zh) 2024-02-23

Family

ID=81270181

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111637189.1A Active CN114422324B (zh) 2021-12-29 2021-12-29 一种告警信息的处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114422324B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112148772A (zh) * 2020-09-24 2020-12-29 创新奇智(成都)科技有限公司 告警根因识别方法、装置、设备和存储介质
WO2021114977A1 (zh) * 2019-12-12 2021-06-17 深圳前海微众银行股份有限公司 一种异常事件根因定位方法及装置
CN113052225A (zh) * 2021-03-22 2021-06-29 中国工商银行股份有限公司 基于聚类算法和时序关联规则的报警收敛方法及装置
CN113740666A (zh) * 2021-08-27 2021-12-03 西安交通大学 一种数据中心电力系统告警风暴根源故障的定位方法
CN113791926A (zh) * 2021-09-18 2021-12-14 平安普惠企业管理有限公司 智能告警分析方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021114977A1 (zh) * 2019-12-12 2021-06-17 深圳前海微众银行股份有限公司 一种异常事件根因定位方法及装置
CN112148772A (zh) * 2020-09-24 2020-12-29 创新奇智(成都)科技有限公司 告警根因识别方法、装置、设备和存储介质
CN113052225A (zh) * 2021-03-22 2021-06-29 中国工商银行股份有限公司 基于聚类算法和时序关联规则的报警收敛方法及装置
CN113740666A (zh) * 2021-08-27 2021-12-03 西安交通大学 一种数据中心电力系统告警风暴根源故障的定位方法
CN113791926A (zh) * 2021-09-18 2021-12-14 平安普惠企业管理有限公司 智能告警分析方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN114422324A (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
CN109684181B (zh) 告警根因分析方法、装置、设备及存储介质
CN110351118B (zh) 根因告警决策网络构建方法、装置和存储介质
CN111885012B (zh) 基于多种网络设备信息采集的网络态势感知方法及系统
CN107171819B (zh) 一种网络故障诊断方法及装置
CN111176879A (zh) 设备的故障修复方法及装置
Lou et al. Mining dependency in distributed systems through unstructured logs analysis
CN111158977A (zh) 一种异常事件根因定位方法及装置
US11348023B2 (en) Identifying locations and causes of network faults
CN110750377A (zh) 一种故障定位方法及装置
JP2022118108A (ja) ログ監査方法、装置、電子機器、媒体およびコンピュータプログラム
US10884805B2 (en) Dynamically configurable operation information collection
CN113448812A (zh) 微服务场景下的监控告警方法及装置
US20210152454A1 (en) Network Flow Measurement Method, Network Measurement Device, and Control Plane Device
CN111338888B (zh) 一种数据统计方法、装置、电子设备及存储介质
CN116804957A (zh) 一种系统监控方法及装置
CN112600719A (zh) 告警聚类方法、装置及存储介质
Solmaz et al. ALACA: A platform for dynamic alarm collection and alert notification in network management systems
CN114153646B (zh) 一种运维故障处置方法、装置及存储介质、处理器
CN113328869A (zh) 一种告警聚合的方法和装置
CN112579552A (zh) 日志存储及调用方法、装置及系统
CN108248641A (zh) 一种城市轨道交通数据处理方法及装置
CN111427749B (zh) 一种openstack环境下针对ironic服务的监控工具及方法
CN114422324B (zh) 一种告警信息的处理方法、装置、电子设备及存储介质
CN116662127A (zh) 一种设备告警信息分类并预警的方法、系统、设备和介质
CN114205214B (zh) 一种电力通信网络故障识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant