CN107124298A - 告警聚合方法及系统 - Google Patents

告警聚合方法及系统 Download PDF

Info

Publication number
CN107124298A
CN107124298A CN201710208614.2A CN201710208614A CN107124298A CN 107124298 A CN107124298 A CN 107124298A CN 201710208614 A CN201710208614 A CN 201710208614A CN 107124298 A CN107124298 A CN 107124298A
Authority
CN
China
Prior art keywords
warning information
abnormal resource
key message
information
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710208614.2A
Other languages
English (en)
Inventor
倪海凌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201710208614.2A priority Critical patent/CN107124298A/zh
Publication of CN107124298A publication Critical patent/CN107124298A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/065Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving logical or physical relationship, e.g. grouping and hierarchies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • G06F11/3082Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting the data filtering being achieved by aggregating or compressing the monitored data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明实施例提供了告警聚合方法及系统,应用于数据处理技术领域,该方法包括:获取网络中至少两条告警信息,分别确定每条告警信息对应的异常资源;获取异常资源的关键信息,将关键信息分别标识到每条异常资源对应的告警信息上,得到至少两个告警标识;根据告警标识中标识的关键信息,将告警信息进行分组;将同一个分组中的多条告警信息进行聚合,得到并输出聚合后的告警信息。通过本发明的告警聚合方法,在方便运维人员分析异常来源的基础上,提高发现异常来源的成功率。

Description

告警聚合方法及系统
技术领域
本发明涉及数据处理技术领域,特别是涉及告警聚合方法及系统。
背景技术
告警系统用于对设备及服务的异常情况进行告警,并提供告警信息查看、处理和订阅功能,广泛应用于各类互联网公司的生产环境中。告警系统接收到由监控系统传入的各类原始的指标值,这些指标值数据经过触发器的一系列运算和判断,触发器如果被触发,就会产生一个告警。这个告警最终会通过查询其订阅信息,找到告警的订阅者,最终投递到订阅者的短息、邮件产生一条报警信息。
当资源出现异常时,告警系统会在一时间段内,产生大量的冗余告警,不方便运维人员分析异常来源。例如当网络发生拥塞,传输质量发生抖动的时候,通常一个机房的所有机器都会报出“Ping不可达”这样的告警。大量告警将运维人员淹没,使之很容易忽略了真正的有效告警,极端情况下会造成严重后果。
现有技术中,为了防止大量的冗余告警,方便运维人员分析异常来源,采用告警数量防洪策略,当告警数量超过预设的数值时,就会过滤掉部分告警信息。但是采用现有技术过滤掉部分告警信息,会导致有效告警信息被过滤掉,反而降低了发现异常来源的成功率。
发明内容
本发明实施例的目的在于提供一种告警聚合方法及系统,以实现在方便运维人员分析异常来源的基础上,提高发现异常来源的成功率。具体技术方案如下:
一种告警聚合方法,其特征在于,包括:
获取网络中至少两条告警信息,分别确定每条所述告警信息对应的异常资源;
获取所述异常资源的关键信息,将所述关键信息分别标识到每条所述异常资源对应的告警信息上,得到至少两个告警标识,其中,所述关键信息标识所述异常资源对应的类型或位置;
根据所述告警标识中标识的关键信息,将所述告警信息进行分组;
将同一个分组中的多条告警信息进行聚合,得到并输出聚合后的告警信息。
可选的,所述关键信息,包括:
所述关键信息标识所述异常资源对应的类型为应用、机房、集群和物理机中的一种,或所述关键信息标识所述异常资源对应的位置为所述异常资源所处的集群、所述异常资源所处的应用、所述异常资源所处的物理机和所述异常资源所处的机房中的一种。
可选的,所述获取所述异常资源的关键信息,将所述关键信息分别标识到每条所述异常资源对应的告警信息上,得到至少两个告警标识,包括:
根据每条所述告警信息对应的异常资源,查询配置管理数据库,确定所述异常资源的关键信息;
生成标识所述异常资源的关键信息及所述异常资源的名称的标签信息;
分别给每条所述告警信息标注对应的标签信息,得到至少两个告警标识。
可选的,在所述分别给每条所述告警信息标注对应的标签信息,得到至少两个告警标识之后,所述方法还包括:
在所述异常资源对应的关键信息和/或名称发生变更时,生成标识所述变更的变更消息;
根据所述变更消息,更新所述告警信息上标注的标签信息。
可选的,所述将所述同一个分组中的多条告警信息进行聚合,得到并输出聚合后的告警信息,包括:
分别获取每组所述同一个分组中的告警信息的数量;
将所述数量大于或等于预设数目阈值的分组中的告警信息进行聚合,得到聚合后的告警信息;
输出所述数量小于预设数目阈值的分组中的告警信息及所述聚合后的告警信息。
一种告警聚合系统,其特征在于,包括:
异常资源确定模块,用于获取网络中至少两条告警信息,分别确定每条所述告警信息对应的异常资源;
告警标识生成模块,用于获取所述异常资源的关键信息,将所述关键信息分别标识到每条所述异常资源对应的告警信息上,得到至少两个告警标识,其中,所述关键信息标识所述异常资源对应的类型或位置;
分组划分模块,用于根据所述告警标识中标识的关键信息,将所述告警信息进行分组;
告警聚合模块,用于将同一个分组中的多条告警信息进行聚合,得到并输出聚合后的告警信息。
可选的,所述告警标识生成模块中的所述关键信息,包括:
所述关键信息标识所述异常资源对应的类型为应用、机房、集群和物理机中的一种,或所述关键信息标识所述异常资源对应的位置为所述异常资源所处的集群、所述异常资源所处的应用、所述异常资源所处的物理机和所述异常资源所处的机房中的一种。
可选的,所述告警标识生成模块,包括:
关键信息确定子模块,用于根据每条所述告警信息对应的异常资源,查询配置管理数据库,确定所述异常资源的关键信息;
标签信息生成子模块,用于生成标识所述异常资源的关键信息及所述异常资源的名称的标签信息;
标签信息标注子模块,用于分别给每条所述告警信息标注对应的标签信息,得到至少两个告警标识。
可选的,所述告警聚合系统还包括:
变更消息生成模块,用于在所述异常资源对应的关键信息和/或名称发生变更时,生成标识所述变更的变更消息;
标签信息更新模块,用于根据所述变更消息,更新所述告警信息上标注的标签信息。
可选的,所述告警聚合模块,包括:
数量确定子模块,用于分别获取每组所述同一个分组中的告警信息的数量;
阈值判决子模块,用于将所述数量大于或等于预设数目阈值的分组中的告警信息进行聚合,得到聚合后的告警信息;
告警输出子模块,用于输出所述数量小于预设数目阈值的分组中的告警信息及所述聚合后的告警信息。
本发明实施例提供的告警聚合方法及系统,通过告警信息确定异常资源,查询异常资源的关键信息,并标识关键信息到告警信息上,利用关键信息将告警信息进行分组,聚合并输出同一分组中的告警信息,聚合后的告警信息的数量明显减少,根据关键信息聚合分析更加方便,可以在方便运维人员分析异常来源的基础上,提高发现异常来源的成功率。当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的告警聚合方法的一种流程示意图;
图2为本发明实施例的告警聚合系统的一种示意图;
图3为本发明实施例的标签信息的生成及维护流程示意图;
图4为本发明实施例的规则的示意图;
图5为本发明实施例的图2所示告警聚合系统的具体应用的示意图;
图6为本发明实施例的告警聚合系统的另一种示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
告警系统用于对设备及服务的异常情况进行告警,并提供告警信息查看、处理和订阅功能,广泛应用于各类互联网公司的生产环境中。告警系统接收到由监控系统传入的各类原始的指标值,这些指标值数据经过触发器的一系列运算和判断,触发器如果被触发,就会产生一个告警。
告警系统通常会在一段时间内,产生大量的告警信息。例如当网络发送拥塞,传输质量发送抖动时,一个机房中的所有机器都会发出“Ping不可达”这样的告警信息。大量的告警信息容易将运维人员淹没,不利于查找到症结所在。
为此本发明实施例提供了一种告警聚合方法,参见图1,图1为本发明实施例的告警聚合方法的流程示意图,包括:
S101,获取网络中至少两条告警信息,分别确定每条告警信息对应的异常资源。
当网络中的资源(设备或服务)出现异常时,告警系统会发出告警信息。告警聚合系统获取网络中的告警信息,告警信息的内容中标识了该告警信息告警的资源,根据告警信息的内容,告警聚合系统确定告警信息告警的资源,即为异常资源。
告警聚合系统可以为一种设备,包括:处理器、存储器、通信接口和总线;处理器、存储器和通信接口通过总线连接并完成相互间的通信;存储器存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于执行告警聚合方法。
告警聚合系统还可以为一种应用于告警系统或告警订阅者的应用程序,用于在运行时执行告警聚合方法。
告警聚合系统还可以为一种应用于告警系统或告警订阅者的存储介质,用于存储可执行代码,可执行代码用于执行告警聚合方法。
S102,获取异常资源的关键信息,将关键信息分别标识到每条异常资源对应的告警信息上,得到至少两个告警标识,其中,关键信息标识异常资源对应的类型或位置。
异常资源应用端的配置管理系统中包含了异常资源的关键信息,异常资源的关键信息标识了异常资源的部分或全部属性,如异常资源的类型或异常资源所在的位置。告警聚合系统通过查询异常资源应用端的配置管理系统确定异常资源的关键信息,例如通过CMDB(Configuration Management Database,配置管理数据库),查询所有异常资源的关键信息。将每条关键信息分别标识到该条关键信息对应的异常资源的告警信息上,得到告警标识,以便区分不同类型或位置的告警信息,方便后续分组。告警标识是指告警信息上标注的关键信息,标识了告警信息告警的异常资源的类型或位置,例如,告警标识标识告警信息的类型为APP1,或告警标识标识告警信息所在的位置为DC1(机房1)。
S103,根据告警标识中标识的关键信息,将告警信息进行分组。
告警信息的关键信息标识了该告警信息告警的异常资源对应的类型或位置,首先根据关键信息,通过预设的过滤规则,在所有的告警信息中过滤出符合要求的告警信息,然后根据关键信息,通过预设的分组规则,将过滤出的告警信息进行分组。
例如,若过滤规则为:过滤出类型为APP1(应用1)的告警信息时,则在所有的告警信息中过滤出关键信息标识的类型为APP1的告警信息。若过滤规则为:过滤DC1中的告警信息,则在所有的告警信息中过滤出关键信息标识的位置为DC1的告警信息。
若过滤出的告警信息分别为:告警标识标识的类型为APP1的告警信息A,告警标识标识的类型为APP1的告警信息B,告警标识标识的类型为APP2的告警信息C,告警标识标识的类型为Machine1(物理机1)的告警信息D,当分组规则为:将告警标识标识的类型为APP的告警信息划分为一组,关键信息标识的类型为Machine告警信息划分为一组时,则将告警信息A、告警信息B及告警信息C划分到同一个分组中,将告警信息D划分到另一个分组中。当分组规则为:将告警标识相同的告警信息划分为一组时,则将告警信息A及告警信息B划分到一个分组中,将告警信息C划分为一个分组,将告警信息D划分为一个分组。
若过滤出的告警信息分别为:告警标识标识的位置为DC1的告警信息A,告警标识标识的位置为DC1的告警信息B,告警标识标识的位置为DC2(机房2)的告警信息C,当分组规则为:将相同机房的告警信息划分为一组时,则将告警信息A及告警信息B划分为一组,将告警信息C划分为另一组。当分组规则为:将所有机房的告警信息划分为一组时,则将告警信息A、告警信息B及告警信息C划分到一个分组中。
S104,将同一个分组中的多条告警信息进行聚合,得到并输出聚合后的告警信息。
分别将每一分组中的告警信息进行聚合,聚合后的告警信息中标识了该聚合后的告警信息中的告警信息的关键信息,以方便对聚合后的告警信息进行查找及分析。
例如,当分组规则为:将告警标识相同的告警信息划分为一组,且同一个分组中包括:告警标识标识的类型为APP1的告警信息A及告警标识标识的类型为APP1的告警信息B两个告警信息时,告警聚合系统将告警信息A与告警信息B进行聚合,得到聚合后的告警信息,聚合后的告警信息可以表示为:APP1的告警信息共2条。当然该聚合后的告警信息还包含了告警信息A与告警信息B的全部内容,可以利用操作来显示或隐藏告警信息A与告警信息B的内容。
例如,当分组规则为:将相同机房的告警信息划分为一组,且同一个分组中包括:告警标识标识的位置为DC1的告警信息A,告警标识标识的位置为DC1的告警信息B时,告警聚合系统将告警信息A与告警信息B进行聚合,得到聚合后的告警信息,聚合后的告警信息可以表示为:DC1中的告警信息共2条。当然该聚合后的告警信息还包含了告警信息A与告警信息B的全部内容,可以利用操作来显示或隐藏告警信息A与告警信息B的内容。
在本发明实施例中,通过告警信息确定异常资源,查询异常资源的关键信息,并标识关键信息到告警信息上,利用关键信息将告警信息进行分组,聚合并输出同一分组中的告警信息。聚合后的告警信息的数量明显减少,根据关键信息查询聚合后的告警信息更加方便,可以在方便运维人员分析异常来源的基础上,提高发现异常来源的成功率。
关键信息标识了异常资源对应的类型或位置,关键信息标识的位置信息越具体,聚合后的告警信息的数量越多,例如,相比于根据标识异常资源所在的物理机的关键信息进行分组聚合,根据标识异常资源所在的机房的关键信息进行分组聚合,得到的聚合后的告警信息的总数量更少。在实际应用中,用户可以根据具体情况设定关键信息,以控制聚合后的告警信息的数量。
可选的,在本发明实施例的告警信息聚合方法中,关键信息包括:
关键信息标识异常资源对应的类型为应用、机房、集群和物理机中的一种,或关键信息标识异常资源对应的位置为异常资源所处的集群、异常资源所处的应用、异常资源所处的物理机和异常资源所处的机房中的一种。
在本发明实施例中,给出了关键信息的内容,利用不同的关键信息,可以控制聚合后的告警信息的数量。
为了方便后期运维人员对异常来源的分析,告警标识除了包括异常资源的关键信息外,还可以包括异常资源的名称。
可选的,获取异常资源的关键信息,将关键信息分别标识到每条异常资源对应的告警信息上,得到至少两个告警标识,包括:
步骤一,根据每条告警信息对应的异常资源,查询配置管理数据库,确定异常资源的关键信息。
CMDB(Configuration Management Database,配置管理数据库)用于存储与管理企业IT(Information Technology,信息技术)架构中设备的各种配置信息,CMDB与所有的服务支持和服务交付流程都紧密相连。告警聚合系统通过查询CMDB,获取异常资源的关键信息。
步骤二,生成标识异常资源的关键信息及异常资源的名称的标签信息。
标签信息通过预设的Tagger(标注者)生成,每个Tagger负责生成及标注一类标签信息。标签信息包括前缀和内容两部分,前缀部分标识异常资源的关键信息,内容部分标识异常资源的名称。例如,标识类型为APP的异常资源APP1的告警信息的标签信息为APP:APP1。标识类型为Cluster(集群)的异常资源mq-jylt-online001的告警信息的标签信息为Cluster:mq-jylt-online001。标识位置为DC1的异常资源Machine1的告警信息的标签信息为DC1:Machine1。
步骤三,分别给每条告警信息标注对应的标签信息,得到至少两个告警标识。
一条告警信息上可以标注多个标签信息,标签信息的数量是由Tagger的数量决定的。例如,若有Tagger1标识类型为APP和Tagger2标识类型为Type两个Tagger,则每条告警信息上应该标识两个标签信息,如APP:APP1,Type:Network。
相应的S103包括:根据告警标识中标识的关键信息及异常资源的名称,将告警信息进行分组。
告警聚合系统根据标签信息过滤出符合预设过滤规则的告警信息,并根据标签信息,通过预设的分组规则将过滤出的告警信息进行分组。
例如,在过滤规则为:过滤出标签信息为“APP:MySQL”的告警信息时,只筛选出标签信息的前缀是“APP”,内容是“MySQL”的告警信息。而在过滤规则为:过滤出标签信息同时标注“APP:MySQL”和“Type:Network”的告警信息时,筛选出既标注了APP:MySQL又标注了Type:Network的告警信息。
分组规则是为了对执行过滤规则之后筛选出的告警信息进行分组,分组依据标签信息,告警聚合系统把筛选出的告警信息进行分组。若过滤出的告警信息分别为:标签信息为APP:APP1的告警信息A,标签信息为APP:APP2的告警信息B,标签信息为APP:APP3的告警信息C,标签信息为Machine:Machine1的告警信息D,当分组规则为:将标签信息的前缀相同的告警信息划分为一组时,则将告警信息A、告警信息B及告警信息C划分到同一个分组中,将告警信息D划分到另一个分组中。
在将告警信息进行分组后,还需要将同一个分组中的多条告警信息进行聚合,得到并输出聚合后的告警信息。
例如,当分组规则为:将标签信息前缀相同的告警信息划分为一组,且同一个分组中包括:标签信息为APP:APP1的告警信息A、标签信息为APP:APP2的告警信息B及标签信息为APP:APP3的告警信息C时,告警聚合系统将告警信息A、告警信息B和告警信息C进行聚合,得到聚合后的告警信息,聚合后的告警信息可以表示为:APP类的告警信息共3条。当然该聚合后的告警信息还可以包含告警信息A、告警信息B及告警信息C的全部内容,可以利用操作来显示或隐藏告警信息A告警信息B及告警信息C的内容。
例如,当分组规则为:将Cluster1中CPU Load类的告警信息划分为一组,且同一个分组中包括:标签信息为Cluster:Cluster1及Type:CPU Load的告警信息A,标签信息为Cluster:Cluster1及Type:CPU Load的告警信息B时,告警聚合系统将告警信息A与告警信息B进行聚合,得到聚合后的告警信息,聚合后的告警信息可以表示为:Cluster1中的CPULoad类型告警信息共2条。当然该聚合后的告警信息还可以包含告警信息A与告警信息B的全部内容,可以利用操作来显示或隐藏告警信息A与告警信息B的内容。
在本发明实施例中,通过标签信息标识告警信息,标签信息中除了包括异常资源的关键信息外,还包括异常资源的名称。通过标签信息,方便告警信息的过滤及分组,并且方便后期对告警信息的查找及分析,有利于运维人员分析异常来源,提高发现异常来源的成功率。
可选的,在分别给每条告警信息标注对应的标签信息,得到至少两个告警标识之后,该方法还包括:
步骤四,在异常资源对应的关键信息和/或名称发生变更时,生成标识变更的变更消息。
步骤五,根据变更消息,更新告警信息上标注的标签信息。
例如,异常资源对应的关键信息从DC1,变更为DC2,则将该异常资源对应的标签信息中的DC1更改为DC2。
在本发明实施例中,通过变更消息,更新标签信息,保证了标签信息的正确性,从而提高了告警信息聚合的准确度。
将告警信息分组后,还需要将告警信息进行聚合。可以分别聚合每个分组中的全部告警信息,也可以聚合部分分组中的全部告警信息,还可以根据实际情况聚合部分分组中的部分告警信息。
可选的,S104,包括:
步骤一,分别获取每组同一个分组中的告警信息的数量。
步骤二,将数量大于或等于预设数目阈值的分组中的告警信息进行聚合,得到聚合后的告警信息。
此处的预设数目阈值为符合本发明实施例的任意数值,根据异常资源关键信息的范围的大小进行设定,且异常资源关键信息的范围的大小与预设数目阈值的大小正相关。例如,当异常资源的关键信息标识的类型为DC(机房)时,数目阈值可以设定为20。这是因为一方面告警信息的聚合需要消耗计算资源,若频繁聚合小数量的告警信息,会消耗大量的计算资源,降低了告警聚合系统、甚至告警聚合系统所在系统的整体性能;同时频繁聚合小数量的告警信息不利于运维人员分析问题来源。
步骤三,输出数量小于预设数目阈值的分组中的告警信息及聚合后的告警信息。
告警聚合是在一个时间窗口(例如,两分钟)内进行的,如果数目阈值太小,不仅会消耗大量的计算资源,降低告警聚合系统、甚至告警聚合系统所在系统的整体性能,并且起不到聚合的效果,不利于运维人员分析问题来源。例如聚合想要达到的效果是“把网络类型的告警信息按照机房分组聚合发送”,想反映出机房级别的网络问题,如果数目阈值设置的太小,会把一些正常的某个小范围的网络问题包含进来,而不能达到预期效果。所以数目阈值应该根据具体的规则进行设定,才能够达到预定的聚合效果,以方便对不同物理级别范围内的异常进行分析。
在本发明实施例中,仅聚合告警信息数量大于预设数目阈值的分组,相比于聚合所有分组中的告警信息,能够合理利用网络资源,增加告警信息聚合的效率。
在本发明实施例中,还提供了一种应用上述告警聚合方法的系统。参见图2,图2为本发明实施例的告警聚合系统的一种示意图,包括:
标签生成模块201、规则制定模块202及告警聚合引擎203。
标签生成模块201,用于从CMDB的接口中获取告警信息所关联的集群、机房及其他信息,并以标签的形式标注到该告警信息上,与该告警信息建立关联,同时负责标签的维护及存储。
标签生成模块201包含一系列的Tagger(标注者),每个Tagger负责一类标签信息的标注工作,获取异常资源对应的Hostname(主机名称),根据Hostname从CMDB中抽取出需要的关联的标签信息,将标签信息标注到对应的告警信息上,并且接受该异常资源的变更消息,用于维护此类标签信息的准确性。
如图3所示,图3为本发明实施例的标签信息的生成及维护流程示意图,包括:
S301,获取主机名称。
在告警系统中,一个Topic(话题)代表一个告警来源,当Topic对应的触发条件达到时,就会产生一条Event(告警信息)。确定Event对应Topic,在Topic中获取异常资源的Hostname(主机名称)。
S302,生成标签信息。
根据Hostname,查找CMDB,抽取异常资源的关键信息,生成Tag(标签信息)。Tag由前缀和内容两部分组成。前缀用来标识异常资源的类型,如“Cluster”,“DC”,“APP”及其他类型。内容用来标识异常资源的具体信息,如集群的名称。
S303,标注标签信息。
将Tag标注到对应的Event上。
S304,订阅变更消息。
在异常资源对应的关键信息和/或名称发生变更时,生成标识变更的变更消息。根据变更消息,更新Event上标注的Tag。
规则制定模块202,用于负责预设规则的表达、存储及查询接口的维护。
规则制定模块202中保存了各种预设规则,包括:过滤规则401、分组规则402及条目规则403。其中,过滤规则用于规定过滤条件,分组规则用于规定分组条件,条目规则规定告警信息聚合的最小数目。规则制定模块202还能够用于新规则的制定,及现有规则的修改。
过滤规则401是为了筛选出符合条件的Event,根据Tag的前缀和内容来制定。过滤规则包括至少一个Filter(过滤器),每个Filter过滤出一种Tag。例如在过滤规则仅包含一个Filter:APP:MySQL时,只筛选出前缀部分是APP,内容部分是MySQL的标签信息所标识的告警信息。在过滤规则包含两个Filter:APP:MySQL和Type:Network时,筛选出同时包含两个标签APP:MySQL和Type:Network的告警信息,和内容部分为Network,前缀部分为Type的标签信息所标识的告警信息。
分组规则402是为了对执行过滤规则之后筛选出的Event进行分组,分组依据Tag的前缀,将Event进行分组。分组规则包括至少一个Group(分组器),每个Group完成一类Tag的分组。比如:DC,把筛选出的Event按照DC类标签分组。
条目数规则403规定每个分组中聚合告警信息的Count(预设的数目阈值),只有当分组中的告警信息大于或等于Count时,才会聚合该分组中的告警信息。可以为根据Group的不同设置不同的Count,也可以为所有分组共享一个Count,例如Count设置为20。
告警聚合引擎203,用于解析及执行预设规则,将符合预设规则的告警信息进行聚合。
告警聚合引擎203过滤出符合过滤规则的Tag,根据分组规则将过滤出的Tag对应的Event划分到对应的分组中,在分组中的Event的数量满足条目规则时,将该分组中的告警信息进行聚合。输出聚合后的告警信息,产生聚合报警。
在本发明实施例中,标签生成模块201生成与告警信息对应的标签信息,告警聚合引擎203利用规则制定模块202中的规则,根据标签信息,将告警信息进行分组,聚合并输出同一分组中的告警信息。聚合后的告警信息的数量明显减少,根据聚合后告警信息的标签信息查找及分析异常原因效率更高,可以在方便运维人员分析异常来源的基础上,提高发现异常来源的成功率。
参见图5,图5为本发明实施例的应用图2所示告警聚合系统的示意图,包括:
标签生成模块201包含一系列的Tagger(标注者),每个Tagger负责一类标签信息的标注工作,一个Topic(话题)代表一个告警来源,获取Topic对应的Hostname,根据Hostname从CMDB中抽取出需要的关联的标签信息,将标签信息标注到对应的告警信息上,并且接受该异常资源的变更消息,用于维护此类标签信息的准确性。
告警聚合引擎203获取规则制定模块202中的过滤规则、分组规则及条目数规则。根据标签信息,筛选出符合过滤规则的告警信息,并利用分组规则,将筛选出的告警信息进行分组。最后,将符合条目数规则的分组中的告警信息进行聚合,输出聚合后的告警信息及未聚合的分组中的告警信息。运维人员对输出的告警信息进行统计与分析,以发现异常资源的症结所在。
在本发明实施例中,标签生成模块201将标签信息标注到对应的告警信息上,告警聚合引擎203利用规则制定模块202中的规则,根据标签信息,将告警信息进行分组和聚合,输出聚合后的告警信息。聚合后告警信息的数量相比于聚合前告警信息的数量明显减少,方便运维人员分析。且根据标签信息查询聚合的告警信息更加便利,可以在方便运维人员分析异常来源的基础上,提高发现异常来源的成功率。
参见图6,图6为本发明实施例的告警聚合系统的另一种示意图,包括:
异常资源确定模块601,用于获取网络中至少两条告警信息,分别确定每条告警信息对应的异常资源。
告警标识生成模块602,用于获取异常资源的关键信息,将关键信息分别标识到每条异常资源对应的告警信息上,得到至少两个告警标识,其中,关键信息标识异常资源对应的类型或位置。
分组划分模块603,用于根据告警标识中标识的关键信息,将告警信息进行分组。
告警聚合模块604,用于将同一个分组中的多条告警信息进行聚合,得到并输出聚合后的告警信息。
在本发明实施例中,通过告警信息确定异常资源,查询异常资源的关键信息,并标识关键信息到告警信息上,利用关键信息将告警信息进行分组,聚合并输出同一分组中的告警信息。聚合后的告警信息的数量明显减少,根据关键信息查询聚合后的告警信息更加方便,可以在方便运维人员分析异常来源的基础上,提高发现异常来源的成功率。
需要说明的是本发明实施例的系统是应用上述告警聚合方法的系统,则上述告警聚合方法的实施例均适用于该系统,且均能达到相同或相似的有益效果。
可选的,告警标识生成模块602中的关键信息,包括:
关键信息标识异常资源对应的类型为应用、机房、集群和物理机中的一种,或关键信息标识异常资源对应的位置为异常资源所处的集群、异常资源所处的应用、异常资源所处的物理机和异常资源所处的机房中的一种。
在本发明实施例中,给出了关键信息的内容,利用不同的关键信息,可以控制聚合后的告警信息的数量。
可选的,告警标识生成模块602,包括:
关键信息确定子模块,用于根据每条告警信息对应的异常资源,查询配置管理数据库,确定异常资源的关键信息。
标签信息生成子模块,用于生成标识异常资源的关键信息及异常资源的名称的标签信息。
标签信息标注子模块,用于分别给每条告警信息标注对应的标签信息,得到至少两个告警标识。
在本发明实施例中,告警标识除了包括异常资源的关键信息外,还包括异常资源的名称,以方便后期对告警信息的查找及分析,方便运维人员分析异常来源,提高发现异常来源的成功率。
可选的,本发明实施例的告警聚合系统还包括:
变更消息生成模块,用于在异常资源对应的关键信息和/或名称发生变更时,生成标识变更的变更消息。
标签信息更新模块,用于根据变更消息,更新告警信息上标注的标签信息。
在本发明实施例中,通过变更消息,更新标签信息,保证了标签信息的正确性,从而提高了告警信息聚合的准确度。
可选的,告警聚合模块604,包括:
数量确定子模块,用于分别获取每组同一个分组中的告警信息的数量。
阈值判决子模块,用于将数量大于或等于预设数目阈值的分组中的告警信息进行聚合,得到聚合后的告警信息。
告警输出子模块,用于输出数量小于预设数目阈值的分组中的告警信息及聚合后的告警信息。
在本发明实施例中,仅聚合告警信息数量大于预设数目阈值的分组,相比于聚合所有分组中的告警信息,能够合理利用网络资源,增加告警信息聚合的效率。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种告警聚合方法,其特征在于,包括:
获取网络中至少两条告警信息,分别确定每条所述告警信息对应的异常资源;
获取所述异常资源的关键信息,将所述关键信息分别标识到每条所述异常资源对应的告警信息上,得到至少两个告警标识,其中,所述关键信息标识所述异常资源对应的类型或位置;
根据所述告警标识中标识的关键信息,将所述告警信息进行分组;
将同一个分组中的多条告警信息进行聚合,得到并输出聚合后的告警信息。
2.根据权利要求1所述的方法,其特征在于,所述关键信息,包括:
所述关键信息标识所述异常资源对应的类型为应用、机房、集群和物理机中的一种,或所述关键信息标识所述异常资源对应的位置为所述异常资源所处的集群、所述异常资源所处的应用、所述异常资源所处的物理机和所述异常资源所处的机房中的一种。
3.根据权利要求1所述的方法,其特征在于,所述获取所述异常资源的关键信息,将所述关键信息分别标识到每条所述异常资源对应的告警信息上,得到至少两个告警标识,包括:
根据每条所述告警信息对应的异常资源,查询配置管理数据库,确定所述异常资源的关键信息;
生成标识所述异常资源的关键信息及所述异常资源的名称的标签信息;
分别给每条所述告警信息标注对应的标签信息,得到至少两个告警标识。
4.根据权利要求3所述的方法,其特征在于,在所述分别给每条所述告警信息标注对应的标签信息,得到至少两个告警标识之后,所述方法还包括:
在所述异常资源对应的关键信息和/或名称发生变更时,生成标识所述变更的变更消息;
根据所述变更消息,更新所述告警信息上标注的标签信息。
5.根据权利要求1所述的方法,其特征在于,所述将所述同一个分组中的多条告警信息进行聚合,得到并输出聚合后的告警信息,包括:
分别获取每组所述同一个分组中的告警信息的数量;
将所述数量大于或等于预设数目阈值的分组中的告警信息进行聚合,得到聚合后的告警信息;
输出所述数量小于预设数目阈值的分组中的告警信息及所述聚合后的告警信息。
6.一种告警聚合系统,其特征在于,包括:
异常资源确定模块,用于获取网络中至少两条告警信息,分别确定每条所述告警信息对应的异常资源;
告警标识生成模块,用于获取所述异常资源的关键信息,将所述关键信息分别标识到每条所述异常资源对应的告警信息上,得到至少两个告警标识,其中,所述关键信息标识所述异常资源对应的类型或位置;
分组划分模块,用于根据所述告警标识中标识的关键信息,将所述告警信息进行分组;
告警聚合模块,用于将同一个分组中的多条告警信息进行聚合,得到并输出聚合后的告警信息。
7.根据权利要求6所述的系统,其特征在于,所述告警标识生成模块中的所述关键信息,包括:
所述关键信息标识所述异常资源对应的类型为应用、机房、集群和物理机中的一种,或所述关键信息标识所述异常资源对应的位置为所述异常资源所处的集群、所述异常资源所处的应用、所述异常资源所处的物理机和所述异常资源所处的机房中的一种。
8.根据权利要求6所述的系统,其特征在于,所述告警标识生成模块,包括:
关键信息确定子模块,用于根据每条所述告警信息对应的异常资源,查询配置管理数据库,确定所述异常资源的关键信息;
标签信息生成子模块,用于生成标识所述异常资源的关键信息及所述异常资源的名称的标签信息;
标签信息标注子模块,用于分别给每条所述告警信息标注对应的标签信息,得到至少两个告警标识。
9.根据权利要求8所述的系统,其特征在于,所述系统还包括:
变更消息生成模块,用于在所述异常资源对应的关键信息和/或名称发生变更时,生成标识所述变更的变更消息;
标签信息更新模块,用于根据所述变更消息,更新所述告警信息上标注的标签信息。
10.根据权利要求6所述的系统,其特征在于,所述告警聚合模块,包括:
数量确定子模块,用于分别获取每组所述同一个分组中的告警信息的数量;
阈值判决子模块,用于将所述数量大于或等于预设数目阈值的分组中的告警信息进行聚合,得到聚合后的告警信息;
告警输出子模块,用于输出所述数量小于预设数目阈值的分组中的告警信息及所述聚合后的告警信息。
CN201710208614.2A 2017-03-31 2017-03-31 告警聚合方法及系统 Pending CN107124298A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710208614.2A CN107124298A (zh) 2017-03-31 2017-03-31 告警聚合方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710208614.2A CN107124298A (zh) 2017-03-31 2017-03-31 告警聚合方法及系统

Publications (1)

Publication Number Publication Date
CN107124298A true CN107124298A (zh) 2017-09-01

Family

ID=59724600

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710208614.2A Pending CN107124298A (zh) 2017-03-31 2017-03-31 告警聚合方法及系统

Country Status (1)

Country Link
CN (1) CN107124298A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108256896A (zh) * 2017-12-15 2018-07-06 微梦创科网络科技(中国)有限公司 一种业务报警聚合的方法及装置
CN109634814A (zh) * 2018-12-14 2019-04-16 平安城市建设科技(深圳)有限公司 基于日志流的故障预警方法、设备、存储介质及装置
CN110888754A (zh) * 2019-11-14 2020-03-17 北京金山云网络技术有限公司 一种消息获得方法及装置
CN110888985A (zh) * 2019-12-06 2020-03-17 北京奇艺世纪科技有限公司 一种报警信息处理方法、装置、电子设备及存储介质
CN111367777A (zh) * 2020-03-03 2020-07-03 腾讯科技(深圳)有限公司 告警处理的方法、装置、设备及计算机可读存储介质
CN111611137A (zh) * 2020-06-30 2020-09-01 平安银行股份有限公司 告警监控方法、装置、计算机设备及存储介质
CN111782487A (zh) * 2020-07-10 2020-10-16 中国建设银行股份有限公司 一种告警通知方法和装置
CN111786806A (zh) * 2019-04-04 2020-10-16 大唐移动通信设备有限公司 一种网元异常处理方法及网管系统
CN111953541A (zh) * 2020-08-10 2020-11-17 腾讯科技(深圳)有限公司 告警信息处理方法、装置、计算机设备及存储介质
CN112087465A (zh) * 2020-09-17 2020-12-15 北京微步在线科技有限公司 一种基于聚合信息确定威胁事件的方法及装置
CN113722184A (zh) * 2021-09-01 2021-11-30 中国建设银行股份有限公司 系统告警方法及装置、电子设备、存储介质
TWI789003B (zh) * 2021-09-10 2023-01-01 伊雲谷數位科技股份有限公司 服務異常偵測告警方法、使用此方法的設備、儲存此方法的儲存媒介及產生異常告警之電腦軟體程式
CN116112336A (zh) * 2023-01-29 2023-05-12 中国联合网络通信集团有限公司 一种告警数据处理方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102625349A (zh) * 2012-03-09 2012-08-01 浪潮通信信息系统有限公司 一种告警风暴下的数据处理方法
CN105049270A (zh) * 2015-08-31 2015-11-11 北京奇艺世纪科技有限公司 信息处理方法、装置及系统
CN105991337A (zh) * 2015-03-02 2016-10-05 中国移动通信集团广东有限公司 一种告警压缩方法及告警压缩装置
CN106507401A (zh) * 2015-09-08 2017-03-15 大唐移动通信设备有限公司 一种告警持久化方法和设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102625349A (zh) * 2012-03-09 2012-08-01 浪潮通信信息系统有限公司 一种告警风暴下的数据处理方法
CN105991337A (zh) * 2015-03-02 2016-10-05 中国移动通信集团广东有限公司 一种告警压缩方法及告警压缩装置
CN105049270A (zh) * 2015-08-31 2015-11-11 北京奇艺世纪科技有限公司 信息处理方法、装置及系统
CN106507401A (zh) * 2015-09-08 2017-03-15 大唐移动通信设备有限公司 一种告警持久化方法和设备

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108256896A (zh) * 2017-12-15 2018-07-06 微梦创科网络科技(中国)有限公司 一种业务报警聚合的方法及装置
CN109634814A (zh) * 2018-12-14 2019-04-16 平安城市建设科技(深圳)有限公司 基于日志流的故障预警方法、设备、存储介质及装置
CN111786806A (zh) * 2019-04-04 2020-10-16 大唐移动通信设备有限公司 一种网元异常处理方法及网管系统
CN110888754A (zh) * 2019-11-14 2020-03-17 北京金山云网络技术有限公司 一种消息获得方法及装置
CN110888985A (zh) * 2019-12-06 2020-03-17 北京奇艺世纪科技有限公司 一种报警信息处理方法、装置、电子设备及存储介质
CN111367777A (zh) * 2020-03-03 2020-07-03 腾讯科技(深圳)有限公司 告警处理的方法、装置、设备及计算机可读存储介质
CN111611137B (zh) * 2020-06-30 2024-05-10 平安银行股份有限公司 告警监控方法、装置、计算机设备及存储介质
CN111611137A (zh) * 2020-06-30 2020-09-01 平安银行股份有限公司 告警监控方法、装置、计算机设备及存储介质
CN111782487A (zh) * 2020-07-10 2020-10-16 中国建设银行股份有限公司 一种告警通知方法和装置
CN111953541B (zh) * 2020-08-10 2023-12-05 腾讯科技(深圳)有限公司 告警信息处理方法、装置、计算机设备及存储介质
CN111953541A (zh) * 2020-08-10 2020-11-17 腾讯科技(深圳)有限公司 告警信息处理方法、装置、计算机设备及存储介质
CN112087465A (zh) * 2020-09-17 2020-12-15 北京微步在线科技有限公司 一种基于聚合信息确定威胁事件的方法及装置
CN113722184A (zh) * 2021-09-01 2021-11-30 中国建设银行股份有限公司 系统告警方法及装置、电子设备、存储介质
TWI789003B (zh) * 2021-09-10 2023-01-01 伊雲谷數位科技股份有限公司 服務異常偵測告警方法、使用此方法的設備、儲存此方法的儲存媒介及產生異常告警之電腦軟體程式
CN116112336A (zh) * 2023-01-29 2023-05-12 中国联合网络通信集团有限公司 一种告警数据处理方法及装置

Similar Documents

Publication Publication Date Title
CN107124298A (zh) 告警聚合方法及系统
CN110096410A (zh) 告警信息处理方法、系统、计算机装置及可读存储介质
CN102340415B (zh) 一种服务器集群系统的监控方法和一种服务器集群系统
CN110851321B (zh) 一种业务告警方法、设备及存储介质
CN107547262B (zh) 告警级别的生成方法、装置和网管设备
CN102045347B (zh) 协议识别方法和装置
CN103220173A (zh) 一种报警监控方法及监控系统
WO2015039016A1 (en) Analysis of network traffic concurrent to transmission
CN102291247A (zh) 告警关联图生成方法、装置及关联告警确定方法、装置
CN107204894A (zh) 网络业务质量的监控方法及装置
CN101388794B (zh) 一种定位网络管理系统异常事件的方法和系统
CN111628941A (zh) 一种网络流量的分类处理方法、装置、设备及介质
CN109240876A (zh) 实例监控方法、计算机可读存储介质和终端设备
CN110661717A (zh) 一种限流方法、装置及电子设备
CN111258798A (zh) 监控数据的故障定位方法、装置、计算机设备及存储介质
CN101951623B (zh) 一种基于用户事件的用户行为统计方法及装置
Solmaz et al. ALACA: A platform for dynamic alarm collection and alert notification in network management systems
CN108170702A (zh) 一种基于统计分析的电力通信告警关联模型
CN115860912A (zh) 基于变量血缘的风控监控预警系统及方法
CN114443437A (zh) 告警根因输出方法、装置、设备、介质和程序产品
CN114153862A (zh) 业务数据处理方法、装置、设备及存储介质
CN114157679A (zh) 基于云原生分布式应用监控方法、装置、设备及介质
CN106713496A (zh) 物联网设备管理方法和服务器
CA3108870A1 (en) Generating real-time aggregates at scale for inclusion in one or more modified fields in a produced subset of data
CN105607983A (zh) 数据异常监控方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170901