CN117389590A - 告警升级处理方法及装置 - Google Patents
告警升级处理方法及装置 Download PDFInfo
- Publication number
- CN117389590A CN117389590A CN202311442578.8A CN202311442578A CN117389590A CN 117389590 A CN117389590 A CN 117389590A CN 202311442578 A CN202311442578 A CN 202311442578A CN 117389590 A CN117389590 A CN 117389590A
- Authority
- CN
- China
- Prior art keywords
- alarm
- target
- upgrading
- strategy
- upgrading strategy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 21
- 238000000034 method Methods 0.000 claims abstract description 46
- 238000012544 monitoring process Methods 0.000 claims abstract description 19
- 238000013515 script Methods 0.000 claims description 53
- 238000012545 processing Methods 0.000 claims description 40
- 238000004590 computer program Methods 0.000 claims description 27
- 230000014509 gene expression Effects 0.000 claims description 17
- 238000012360 testing method Methods 0.000 claims description 14
- 238000003860 storage Methods 0.000 claims description 11
- 238000011161 development Methods 0.000 claims description 10
- 238000012795 verification Methods 0.000 claims description 9
- 238000004891 communication Methods 0.000 claims description 8
- 238000012423 maintenance Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 10
- 230000008520 organization Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 238000004519 manufacturing process Methods 0.000 description 7
- 230000006872 improvement Effects 0.000 description 3
- 230000001186 cumulative effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000002071 nanotube Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/60—Software deployment
- G06F8/65—Updates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3065—Monitoring arrangements determined by the means or processing involved in reporting the monitored data
- G06F11/3072—Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3089—Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
- G06F11/3093—Configuration details thereof, e.g. installation, enabling, spatial arrangement of the probes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Computer Security & Cryptography (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Alarm Systems (AREA)
Abstract
本发明公开了一种告警升级处理方法及装置,涉及大数据技术领域,其中该方法包括:从监控平台获取告警,得到需处理的告警信息集合;遍历告警信息集合及告警升级策略集合;告警升级策略根据告警升级业务场景预先配置;若目标告警信息满足目标告警升级策略告警匹配要求,判断目标告警升级策略是否在指定时间段内匹配到指定条件的告警数;若目标告警信息不满足目标告警升级策略告警匹配要求,返回执行遍历告警升级策略集合的步骤,遍历执行下一条目标告警升级策略;若判断目标告警升级策略在指定时间段内匹配到指定条件的告警数,按照目标告警升级策略指定的方式将当前告警升级处理。本发明可以基于业务场景来预配置实现高效地进行告警升级处理。
Description
技术领域
本发明涉及大数据技术领域,尤其涉及一种告警升级处理方法及装置。
背景技术
本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
在大型银行中,随着电子化、数字化的不断发展,IT系统规模不断的扩大,纳管设备量持续的增长,监控的指标越来越多,直接导致了告警数量的持续增长。海量的告警导致运维人员无法及时应对和快速过滤有效告警信息;海量告警的出现往往会导致重要告警信息淹没在告警风暴里,耽误重要故障的应急处置。
当前的告警运维方式是:监控平台发生告警时短信通知监控人员,运维人员收到告警短信,人工判断故障问题大小,无法简单处置的告警,手工升级组织应急会议。当前这种告警通知、应急组织流程长、响应时间慢;导致应急处置效率低。已无法满足故障快速处置的监管要求,也对业务连续稳定造成了一定的隐患和冲击。
发明内容
本发明实施例提供一种告警升级处理方法,用以基于业务场景来预配置实现高效地进行告警升级处理,该方法包括:
实时从监控平台获取告警,得到需处理的告警信息集合;
遍历所述告警信息集合,将集合中的每条告警作为后续目标告警信息进行处理,获取预设的所有告警升级策略集合;其中,所述告警升级策略根据告警升级业务场景预先配置;
遍历所述告警升级策略集合,将集合中的每条告警升级策略作为后续目标告警升级策略处理;
基于所述目标告警信息,校验是否满足所述目标告警升级策略告警匹配要求;
若所述目标告警信息满足所述目标告警升级策略告警匹配要求,判断所述目标告警升级策略是否在指定时间段内匹配到指定条件的告警数;若所述目标告警信息不满足所述目标告警升级策略告警匹配要求,返回执行遍历所述告警升级策略集合的步骤,遍历执行下一条目标告警升级策略;
若判断所述目标告警升级策略在指定时间段内匹配到指定条件的告警数,按照所述目标告警升级策略指定的方式通知目标告警升级策略中指定的人员,将当前告警升级处理;返回执行遍历所述告警信息集合的步骤,遍历下一条目标告警信息,直至遍历完告警信息集合中所有目标告警信息;若判断所述目标告警升级策略在指定时间段内未匹配到指定条件的告警数,返回执行遍历所述告警升级策略集合的步骤,遍历执行下一条目标告警升级策略。
本发明实施例还提供一种告警升级处理装置,用以基于业务场景来预配置实现高效地进行告警升级处理,该装置包括:
告警信息获取模块,用于实时从监控平台获取告警,得到需处理的告警信息集合;
升级策略匹配模块,用于执行如下步骤:
遍历所述告警信息集合,将集合中的每条告警作为后续目标告警信息进行处理,获取预设的所有告警升级策略集合;其中,所述告警升级策略根据告警升级业务场景预先配置;
遍历所述告警升级策略集合,将集合中的每条告警升级策略作为后续目标告警升级策略处理;
基于所述目标告警信息,校验是否满足所述目标告警升级策略告警匹配要求;
若所述目标告警信息满足所述目标告警升级策略告警匹配要求,判断所述目标告警升级策略是否在指定时间段内匹配到指定条件的告警数;若所述目标告警信息不满足所述目标告警升级策略告警匹配要求,返回执行遍历所述告警升级策略集合的步骤,遍历执行下一条目标告警升级策略;
升级处理模块,用于若判断所述目标告警升级策略在指定时间段内匹配到指定条件的告警数,按照所述目标告警升级策略指定的方式通知目标告警升级策略中指定的人员,将当前告警升级处理;返回执行遍历所述告警信息集合的步骤,遍历下一条目标告警信息,直至遍历完告警信息集合中所有目标告警信息;若判断所述目标告警升级策略在指定时间段内未匹配到指定条件的告警数,返回执行遍历所述告警升级策略集合的步骤,遍历执行下一条目标告警升级策略。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述告警升级处理方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述告警升级处理方法。
本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述告警升级处理方法。
本发明实施例中,告警升级处理方案,通过:实时从监控平台获取告警,得到需处理的告警信息集合;遍历所述告警信息集合,将集合中的每条告警作为后续目标告警信息进行处理,获取预设的所有告警升级策略集合;其中,所述告警升级策略根据告警升级业务场景预先配置;遍历所述告警升级策略集合,将集合中的每条告警升级策略作为后续目标告警升级策略处理;基于所述目标告警信息,校验是否满足所述目标告警升级策略告警匹配要求;若所述目标告警信息满足所述目标告警升级策略告警匹配要求,判断所述目标告警升级策略是否在指定时间段内匹配到指定条件的告警数;若所述目标告警信息不满足所述目标告警升级策略告警匹配要求,返回执行遍历所述告警升级策略集合的步骤,遍历执行下一条目标告警升级策略;若判断所述目标告警升级策略在指定时间段内匹配到指定条件的告警数,按照所述目标告警升级策略指定的方式通知目标告警升级策略中指定的人员,将当前告警升级处理;返回执行遍历所述告警信息集合的步骤,遍历下一条目标告警信息,直至遍历完告警信息集合中所有目标告警信息;若判断所述目标告警升级策略在指定时间段内未匹配到指定条件的告警数,返回执行遍历所述告警升级策略集合的步骤,遍历执行下一条目标告警升级策略,可以基于业务场景来预配置实现高效地进行告警升级处理。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明实施例中告警升级处理方法的流程示意图;
图2为本发明实施例中基于目标告警信息进行升级策略匹配的流程示意图;
图3为本发明实施例中升级策略匹配的详细流程示意图;
图4为本发明实施例中告警升级处理装置的结构示意图;
图5为本发明另一实施例中告警升级处理装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
本申请技术方案中对数据的获取、存储、使用、处理等均符合法律法规的相关规定。
当前的运维方式是:监控平台发生告警时短信通知监控人员,或者由监控人员电话通知系统运维人员,运维人员收到告警短信或电话后开始接入,人工判断故障问题大小,无法简单处置的告警,手工升级组织应急会议。当前这种告警通知、应急组织流程长、时间慢;当发生多系统关联、复杂性场景故障和告警时,各系统运维人员之间,各领域运维人员之间无法快速的建立沟通渠道,导致应急处置效率低。已无法满足故障快速处置的监管要求,也对业务连续稳定造成了一定的隐患和冲击。
现有告警升级方法能提高一定的告警通知效率,但没能够减少告警发生发送数量及场景式的告警风暴,也不能在应急发生时快速建立各领域、多人员的沟通渠道。大多现有技术出发点在告警通知、告警聚合,尽量快速通知告警,或者减少告警通知数量,基本未有从告警通知与告警升级应急组织角度出发提出方案。
针对现有实际生产中的以上缺陷和改进需求,本发明实施例提供一种告警升级处理方案,该方案为一种可配置和扩展的告警升级方法和装置,能够基于场景来选择告警触发条件和告警升级方式、人员,将现有告警升级或者快速启动应急会议,提高应急组织效率。下面对该告警升级处理方案进行详细介绍。
图1为本发明实施例中告警升级处理方法的流程示意图,如图1所示,该方法包括如下步骤:
S100:实时从监控平台获取告警,得到需处理的告警信息集合;
S110:遍历所述告警信息集合,将集合中的每条告警作为后续目标告警信息进行处理,获取预设的所有告警升级策略集合;其中,所述告警升级策略根据告警升级业务场景预先配置;
S120:遍历所述告警升级策略集合,将集合中的每条告警升级策略作为后续目标告警升级策略处理;
S130:基于所述目标告警信息,校验是否满足所述目标告警升级策略告警匹配要求;
S140:若所述目标告警信息满足所述目标告警升级策略告警匹配要求,判断所述目标告警升级策略是否在指定时间段内匹配到指定条件的告警数;若所述目标告警信息不满足所述目标告警升级策略告警匹配要求,返回执行遍历所述告警升级策略集合的步骤,遍历执行下一条目标告警升级策略;
S150:若判断所述目标告警升级策略在指定时间段内匹配到指定条件的告警数,按照所述目标告警升级策略指定的方式通知目标告警升级策略中指定的人员,将当前告警升级处理;返回执行遍历所述告警信息集合的步骤,遍历下一条目标告警信息,直至遍历完告警信息集合中所有目标告警信息;若判断所述目标告警升级策略在指定时间段内未匹配到指定条件的告警数,返回执行遍历所述告警升级策略集合的步骤,遍历执行下一条目标告警升级策略。
本发明实施例提供的告警升级处理方法,工作时:实时从监控平台获取告警,得到需处理的告警信息集合;遍历所述告警信息集合,将集合中的每条告警作为后续目标告警信息进行处理,获取预设的所有告警升级策略集合;其中,所述告警升级策略根据告警升级业务场景预先配置;遍历所述告警升级策略集合,将集合中的每条告警升级策略作为后续目标告警升级策略处理;基于所述目标告警信息,校验是否满足所述目标告警升级策略告警匹配要求;若所述目标告警信息满足所述目标告警升级策略告警匹配要求,判断所述目标告警升级策略是否在指定时间段内匹配到指定条件的告警数;若所述目标告警信息不满足所述目标告警升级策略告警匹配要求,返回执行遍历所述告警升级策略集合的步骤,遍历执行下一条目标告警升级策略;若判断所述目标告警升级策略在指定时间段内匹配到指定条件的告警数,按照所述目标告警升级策略指定的方式通知目标告警升级策略中指定的人员,将当前告警升级处理;返回执行遍历所述告警信息集合的步骤,遍历下一条目标告警信息,直至遍历完告警信息集合中所有目标告警信息;若判断所述目标告警升级策略在指定时间段内未匹配到指定条件的告警数,返回执行遍历所述告警升级策略集合的步骤,遍历执行下一条目标告警升级策略,可以基于业务场景来预配置实现高效地进行告警升级处理。下面进行详细介绍。
针对现有实际生产中的以上缺陷和改进需求,本申请提供了一种可配置和扩展的告警升级方法和装置,能够基于场景来选择告警触发条件和告警升级方式、人员,将现有告警升级或者快速启动应急会议,提高应急组织效率。如当发生物理机宕机时,物理机上的所有虚机发生飘移,继而在短时间内发生多条虚拟机宕机指标类告警,该方法和装置能够快速判断相同指标的告警风暴,自动告警升级组织电话应急会议。下面结合附图1至图5进行详细介绍。
本申请提供了一种可配置的、可扩展的告警升级方法。具体实现步骤如图1所示:
S100,准实时从监控平台获取告警,得到需处理的告警信息集合。
S110,遍历所述告警信息集合,将集合中的每条告警作为后续目标告警信息进行处理。同时获取预设的所有告警升级策略集合。
S120,遍历所述告警升级策略集合,将集合中的每条告警升级策略作为后续目标告警升级策略处理。
S130,基于所述目标告警信息,校验是否满足所述目标告警升级策略告警匹配要求。
若S130执行结果为是,则继续执行S140,判断所述目标告警升级策略是否在指定时间段内匹配到指定条件的告警数。否则,即S130执行结果为否,则返回执行S120,遍历执行下一条升级策略。
若S140执行结果为是,则执行S150,按照所述目标告警升级策略指定的方式通知目标升级策略中指定的人员。否则,即S140执行结果为否,则返回执行S110,遍历下一条告警信息。
在S130中,又可细化为2步,如图2所示:
S131分成独立的2步主要由于:
1)步骤S131步骤S132是S131||S132的关系,其执行过程中具有短路特性,能够提高逻辑校验速度。
2)步骤S131对应所述的升级策略可配置,告警信息所有属性都可用于过滤,方便操作。S131生成的表达式执行效率高,且能够过滤掉较多不满足业务要求的数据,减轻S132步骤压力。
3)S132对应的所述可扩展groovy脚本能够极大的拓展该方法适用的业务场景。开发人员能根据需求快速在线开发、测试和上线,提高了业务影响速度。
S132中所述的可扩展groovy脚本是可选的,基于S131就可配置实现告警匹配需求的,无需编写groovy脚本。使得业务人员也可以简单使用该方法和功能实现告警匹配和升级,减轻了业务人员工作量。
通过上述可知,由于发明人发现了如下技术问题:当发生多系统关联、复杂性场景故障和告警时,各系统运维人员之间、各领域运维人员之间无法快速的建立沟通渠道,导致应急处置效率低,于是提出了如下可扩展的方案。
在一个实施例中,上述告警升级处理方法还可以包括:在检测到目前告警升级策略无法处理的告警升级业务场景时,通过可扩展groovy脚本拓展适用的业务场景。
结合图5所示的结构图进行阐述如下,可配置的、可扩展的告警升级装置,具体实现如图5所示:
该可配置的和扩展的告警升级装置包括:升级策略配置模块、升级策略扩展开发验证模块、告警信息获取模块、升级策略匹配模块、升级信息生成及外呼通知模块。
告警升级策略配置模块:该模块包括三部分:告警选择配置子模块、触发条件配置子模块、策略通知配置子模块。
告警选择配置子模块,用户可选择配置项或输入各告警属性满足的指定条件,同时能将上述指定条件进行与或非运算组合,以满足复杂场景告警选择要求。所述配置项和告警属性字段包括但不限于告警来源、告警系统、设备ip、告警指标、告警关键字。当一条或多条告警满足指定条件时,即表示该告警被策略匹配成功。即在一个实施例中,所述告警属性字段包括以下信息的其中之一或任意组合:告警来源、告警系统、设备ip、告警指标、告警关键字。
进一步地,该模块页面数据在新增或更新保存时即会生成可执行的策略规则表达式。该规则表达式是在所述目标告警升级策略设置生效时,依据所选配置项和告警信息字段默认生成的。该生成的表达式能够提高告警匹配效率。同时本装置中为在做告警匹配时,提高获取所有所述策略规则表达式的速度,减轻存储压力,所述所有策略规则表达式都会入缓存,在至少有一条所述策略规则表达式被修改时,所述缓存数据才会删除,即在一个实施例中,所有策略规则表达式都会入缓存,在至少有一条所述策略规则表达式被修改时,对应的缓存数据会被删除。
进一步可选地,在告警选择配置子模块可选择已发布的groovy脚本,以实现通过配置告警属性无法实现的复杂业务逻辑。
触发条件配置子模块,可配置满足告警选择配置子模块的告警在什么条件下触发升级策略,该所述升级策略包含唯一标识、时间段匹配命中条件(X秒内,Y维度,达到Z条)。如X秒内告警按照Y维度分类统计达到Z条即触发。在实际生产中,Y可选系统维度、错误码维度、监控指标等,或为空表示不区分维度统计。
策略通知配置子模块,指定了关联升级策略命中后如何升级及其升级范围。升级范围可按固定人员、值班岗位、系统运维责任人等多维度设置,以实现告警快速精准升级。如可设定当某系统发生告警满足策略升级条件时,直接拉该系统对应应用管理员、项目组负责人、告警发生时一线运维岗当日值班人员入电话会。
通过上述可知,在一个实施例中,上述告警升级处理方法还可以包括:按照如下方法预先配置所述告警升级策略:
根据用户将多个告警属性字段与多个指定条件之间的匹配操作,生成不同业务场景下的告警升级策略;
为每一业务场景下的告警升级策略配置告警升级触发条件;所述告警升级策略包括告警升级策略唯一标识和时间段匹配命中条件;所述时间段匹配命中条件包括:时间段信息、告警维度和告警条数;
为配置了告警升级触发条件的每一业务场景下的告警升级策略配置告警升级方式及告警升级范围,最终得到所述告警升级策略。
在一个实施例中,根据用户将多个告警属性字段与多个指定条件之间的匹配操作,生成不同业务场景下的告警升级策略,可以包括:根据用户将多个告警属性字段与多个指定条件之间的匹配操作,生成不同业务场景下的策略规则表达式,该生成的表达式能够提高告警匹配效率。
升级策略扩展开发验证模块:该模块基于groovy可热插拔的特点,可在线开发、测试和部署groovy脚本。其内部又分为脚本模板生成子模块、脚本在线测试验证子模块、脚本版本管理及发布子模块。该模块依赖告警信息获取模块和升级策略匹配模块,以实现在线实时开发和验证,但该模块不会造成生产态告警信息、升级策略遗漏或修改,也不会实际做告警升级通知。
脚本模板生成子模块,基于告警处置基类脚本、脚本名、脚本版本,生成只需开发人员在指定方法实现具体业务逻辑的模板脚本文件。告警处置过程中的常用工具类都通过告警处置基类脚本默认引用。进一步的,如果业务逻辑实现中需要引用告警处置基类脚本默认未引用的工具类,或自己开发的工具类,可通过Spring自行注入。
脚本在线测试验证子模块,可进行脚本的在线编辑开发、测试执行,以方便开发人员测试。
脚本版本管理及发布子模块,能进行脚本版本的默认管理和发布,已通过测试和发布的脚本能够被告警升级策略配置模块中告警选择配置子模块引用。
通过上述可知,在一个实施例中,上述告警升级处理方法还可以包括:按照如下方法配置可扩展groovy脚本:
基于告警处置基类脚本、脚本名及脚本版本,生成只需开发人员在指定方法实现具体业务逻辑的模板脚本文件;
基于所述模板脚本文件,进行脚本的在线编辑开发、测试执行,以方便开发人员测试;
已通过测试和发布的脚本作为所述可扩展groovy脚本拓展适用的业务场景。
告警信息获取模块:该模块用于从监控平台准实时获取告警信息,以满足告警及时性处理要求。由于告警是不断产生的,本装置也是实时不间断的从监控平台获取告警信息。
升级策略匹配模块:该模块负责遍历告警信息集合与告警升级策略集合,对每条告警信息对象和告警升级策略对象做匹配。
升级信息生成及外呼通知模块:该模块能集成每日各领域值班人员、系统各领域运维负责人等动态信息,同时也集成了内部和外部多种信息通知渠道,包括但不限于短信、电话、电话应急会议。即在一个实施例中,若判断所述目标告警升级策略在指定时间段内匹配到指定条件的告警数,按照所述目标告警升级策略指定的方式通知目标告警升级策略中指定的人员,将当前告警升级处理,包括:若判断所述目标告警升级策略在指定时间段内匹配到指定条件的告警数,按照所述目标告警升级策略指定的方式通知目标告警升级策略中指定的人员,建立各领域、多人员的沟通渠道,快速启动应急会议。例如,如当发生物理机宕机时,物理机上的所有虚机发生飘移,继而在短时间内发生多条虚拟机宕机指标类告警,该方法和装置能够快速判断相同指标的告警风暴,自动告警升级组织电话应急会议。
升级策略匹配模块详细业务逻辑如图3所示:
S300,所述升级策略匹配模块匹配到一个所述升级策略配置模块配置的告警升级策略。该所述升级策略必须包含唯一标识、时间段匹配命中条件(X秒内,Y维度,达到Z条)。
S310,根据所述告警升级策略的唯一标识及维度Y,唯一确定有无对应的匹配记录。
若无,则执行S320,新增上述告警升级策略的唯一标识及维度Y对应的匹配记录,设置所述匹配记录累计告警次数=1、过期时间=X+n。该n依据匹配时间精确度可调整,本方法和装置的实践经验值为x/2,且该值在[1,10]之间。当所述匹配记录缓存时间达到X+n秒时,自动丢弃该数据。
若有,则执行S330,将上述匹配记录对应的累计告警次数+1,记作T,并判断是否T>=Z。
若是,则执行S340,调用所述升级信息生成及维护通知模块,执行告警升级。清除所述告警升级策略的唯一标识及维度Y对应的所述匹配记录。
通过上述可知,在一个实施例中,若所述目标告警信息满足所述目标告警升级策略告警匹配要求,判断所述目标告警升级策略是否在指定时间段内匹配到指定条件的告警数,包括:
判断所述目标告警升级策略是否匹配到指定条件的告警;所述目标告警升级策略包括唯一标识、时间段匹配命中条件;所述时间段匹配命中条件包括:时间段信息、告警维度和告警条数;
在判断所述目标告警升级策略匹配到指定条件的告警时,根据目标告警升级策略的唯一标识、时间段匹配命中条件确定有无对应的告警记录;
若有,将匹配记录对应的累计告警次数加1,并判断累计告警次数是否大于或等于告警条数;
在判断累计告警次数大于或等于告警条数时,按照所述目标告警升级策略指定的方式通知目标告警升级策略中指定的人员。
通过上述可知,在一个实施例中,上述告警升级处理方法还可以包括:清除所述目标告警升级策略的唯一标识及维度对应的匹配记录。
综上,本发明实施例提供的告警升级处理方法的有益技术效果是:
1、本发明实施例提出了一种在实际运维场景下,可快速匹配告警、通知和组织应急的完整技术方案,能够解决目前复杂告警和应急场景发生时,无法快速建立沟通渠道的问题,能有效提高生产应急组织效率。
2、本发明实施例提出了一种告警升级方法,特别是告警匹配方法,能在X秒内告警按照Y维度分类统计达到Z条即触发升级,该方法可配置、可拓展,可用性和易用性高。
3、本发明实施例支持配置式的告警匹配升级策略维护方式,同时该匹配升级策略还能够在线拓展、开发和验证。既能够满足业务的灵活调整;也能够尽可能满足已有或潜在的告警应急场景,自由拓展业务功能。
本发明实施例中还提供了一种告警升级处理装置,如下面的实施例所述。由于该装置解决问题的原理与告警升级处理方法相似,因此该装置的实施可以参见告警升级处理方法的实施,重复之处不再赘述。
图4为本发明实施例中告警升级处理装置的结构示意图,如图4所示,该装置包括:
告警信息获取模块01,用于实时从监控平台获取告警,得到需处理的告警信息集合;
升级策略匹配模块02,用于执行如下步骤:
遍历所述告警信息集合,将集合中的每条告警作为后续目标告警信息进行处理,获取预设的所有告警升级策略集合;其中,所述告警升级策略根据告警升级业务场景预先配置;
遍历所述告警升级策略集合,将集合中的每条告警升级策略作为后续目标告警升级策略处理;
基于所述目标告警信息,校验是否满足所述目标告警升级策略告警匹配要求;
若所述目标告警信息满足所述目标告警升级策略告警匹配要求,判断所述目标告警升级策略是否在指定时间段内匹配到指定条件的告警数;若所述目标告警信息不满足所述目标告警升级策略告警匹配要求,返回执行遍历所述告警升级策略集合的步骤,遍历执行下一条目标告警升级策略;
升级处理模块03(是图5中的升级信息生成及外呼通知模块的上位概念),用于若判断所述目标告警升级策略在指定时间段内匹配到指定条件的告警数,按照所述目标告警升级策略指定的方式通知目标告警升级策略中指定的人员,将当前告警升级处理;返回执行遍历所述告警信息集合的步骤,遍历下一条目标告警信息,直至遍历完告警信息集合中所有目标告警信息;若判断所述目标告警升级策略在指定时间段内未匹配到指定条件的告警数,返回执行遍历所述告警升级策略集合的步骤,遍历执行下一条目标告警升级策略。
在一个实施例中,如图5所示,上述告警升级处理装置还可以包括:升级策略配置模块04,用于按照如下方法预先配置所述告警升级策略:
根据用户将多个告警属性字段与多个指定条件之间的匹配操作,生成不同业务场景下的告警升级策略;
为每一业务场景下的告警升级策略配置告警升级触发条件;所述告警升级策略包括告警升级策略唯一标识和时间段匹配命中条件;所述时间段匹配命中条件包括:时间段信息、告警维度和告警条数;
为配置了告警升级触发条件的每一业务场景下的告警升级策略配置告警升级方式及告警升级范围,最终得到所述告警升级策略。
在一个实施例中,根据用户将多个告警属性字段与多个指定条件之间的匹配操作,生成不同业务场景下的告警升级策略,可以包括:根据用户将多个告警属性字段与多个指定条件之间的匹配操作,生成不同业务场景下的策略规则表达式。
在一个实施例中,所有策略规则表达式都会入缓存,在至少有一条所述策略规则表达式被修改时,对应的缓存数据会被删除。
在一个实施例中,如图5所示,上述告警升级处理装置还可以包括:升级策略扩展开发验证模块05,用于在检测到目前告警升级策略无法处理的告警升级业务场景时,通过可扩展groovy脚本拓展适用的业务场景。
在一个实施例中,上述告警升级处理装置还可以包括:扩展配置单元,用于按照如下方法配置可扩展groovy脚本:
基于告警处置基类脚本、脚本名及脚本版本,生成只需开发人员在指定方法实现具体业务逻辑的模板脚本文件;
基于所述模板脚本文件,进行脚本的在线编辑开发、测试执行,以方便开发人员测试;
已通过测试和发布的脚本作为所述可扩展groovy脚本拓展适用的业务场景。
在一个实施例中,所述告警属性字段包括以下信息的其中之一或任意组合:告警来源、告警系统、设备ip、告警指标、告警关键字。
在一个实施例中,若所述目标告警信息满足所述目标告警升级策略告警匹配要求,判断所述目标告警升级策略是否在指定时间段内匹配到指定条件的告警数,包括:
判断所述目标告警升级策略是否匹配到指定条件的告警;所述目标告警升级策略包括唯一标识、时间段匹配命中条件;所述时间段匹配命中条件包括:时间段信息、告警维度和告警条数;
在判断所述目标告警升级策略匹配到指定条件的告警时,根据目标告警升级策略的唯一标识、时间段匹配命中条件确定有无对应的告警记录;
若有,将匹配记录对应的累计告警次数加1,并判断累计告警次数是否大于或等于告警条数;
在判断累计告警次数大于或等于告警条数时,按照所述目标告警升级策略指定的方式通知目标告警升级策略中指定的人员。
在一个实施例中,上述告警升级处理装置还可以包括:清除单元,用于清除所述目标告警升级策略的唯一标识及维度对应的匹配记录。
在一个实施例中,若判断所述目标告警升级策略在指定时间段内匹配到指定条件的告警数,按照所述目标告警升级策略指定的方式通知目标告警升级策略中指定的人员,将当前告警升级处理,包括:若判断所述目标告警升级策略在指定时间段内匹配到指定条件的告警数,按照所述目标告警升级策略指定的方式通知目标告警升级策略中指定的人员,建立各领域、多人员的沟通渠道,快速启动应急会议。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述告警升级处理方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述告警升级处理方法。
本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述告警升级处理方法。
本发明实施例中,告警升级处理方案,通过:实时从监控平台获取告警,得到需处理的告警信息集合;遍历所述告警信息集合,将集合中的每条告警作为后续目标告警信息进行处理,获取预设的所有告警升级策略集合;其中,所述告警升级策略根据告警升级业务场景预先配置;遍历所述告警升级策略集合,将集合中的每条告警升级策略作为后续目标告警升级策略处理;基于所述目标告警信息,校验是否满足所述目标告警升级策略告警匹配要求;若所述目标告警信息满足所述目标告警升级策略告警匹配要求,判断所述目标告警升级策略是否在指定时间段内匹配到指定条件的告警数;若所述目标告警信息不满足所述目标告警升级策略告警匹配要求,返回执行遍历所述告警升级策略集合的步骤,遍历执行下一条目标告警升级策略;若判断所述目标告警升级策略在指定时间段内匹配到指定条件的告警数,按照所述目标告警升级策略指定的方式通知目标告警升级策略中指定的人员,将当前告警升级处理;返回执行遍历所述告警信息集合的步骤,遍历下一条目标告警信息,直至遍历完告警信息集合中所有目标告警信息;若判断所述目标告警升级策略在指定时间段内未匹配到指定条件的告警数,返回执行遍历所述告警升级策略集合的步骤,遍历执行下一条目标告警升级策略,可以基于业务场景来预配置实现高效地进行告警升级处理。
综上,本申请提出了一种可配置和扩展的告警升级方案,该方案支持配置式的告警匹配升级策略维护方式,能够解决目前复杂告警和应急场景发生时,无法快速建立沟通渠道的问题,能有效提供生产应急组织效率。同时该匹配升级策略还能够在线拓展、开发和验证。既能够满足业务的灵活调整;也能够尽可能满足已有或潜在的告警应急场景,自由拓展业务功能。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (16)
1.一种告警升级处理方法,其特征在于,包括:
实时从监控平台获取告警,得到需处理的告警信息集合;
遍历所述告警信息集合,将集合中的每条告警作为后续目标告警信息进行处理,获取预设的所有告警升级策略集合;其中,所述告警升级策略根据告警升级业务场景预先配置;
遍历所述告警升级策略集合,将集合中的每条告警升级策略作为后续目标告警升级策略处理;
基于所述目标告警信息,校验是否满足所述目标告警升级策略告警匹配要求;
若所述目标告警信息满足所述目标告警升级策略告警匹配要求,判断所述目标告警升级策略是否在指定时间段内匹配到指定条件的告警数;若所述目标告警信息不满足所述目标告警升级策略告警匹配要求,返回执行遍历所述告警升级策略集合的步骤,遍历执行下一条目标告警升级策略;
若判断所述目标告警升级策略在指定时间段内匹配到指定条件的告警数,按照所述目标告警升级策略指定的方式通知目标告警升级策略中指定的人员,将当前告警升级处理;返回执行遍历所述告警信息集合的步骤,遍历下一条目标告警信息,直至遍历完告警信息集合中所有目标告警信息;若判断所述目标告警升级策略在指定时间段内未匹配到指定条件的告警数,返回执行遍历所述告警升级策略集合的步骤,遍历执行下一条目标告警升级策略。
2.如权利要求1所述的方法,其特征在于,还包括:按照如下方法预先配置所述告警升级策略:
根据用户将多个告警属性字段与多个指定条件之间的匹配操作,生成不同业务场景下的告警升级策略;
为每一业务场景下的告警升级策略配置告警升级触发条件;所述告警升级策略包括告警升级策略唯一标识和时间段匹配命中条件;所述时间段匹配命中条件包括:时间段信息、告警维度和告警条数;
为配置了告警升级触发条件的每一业务场景下的告警升级策略配置告警升级方式及告警升级范围,最终得到所述告警升级策略。
3.如权利要求2所述的方法,其特征在于,根据用户将多个告警属性字段与多个指定条件之间的匹配操作,生成不同业务场景下的告警升级策略,包括:根据用户将多个告警属性字段与多个指定条件之间的匹配操作,生成不同业务场景下的策略规则表达式。
4.如权利要求3所述的方法,其特征在于,所有策略规则表达式都会入缓存,在至少有一条所述策略规则表达式被修改时,对应的缓存数据会被删除。
5.如权利要求1所述的方法,其特征在于,还包括:在检测到目前告警升级策略无法处理的告警升级业务场景时,通过可扩展groovy脚本拓展适用的业务场景。
6.如权利要求5所述的方法,其特征在于,还包括:按照如下方法配置可扩展groovy脚本:
基于告警处置基类脚本、脚本名及脚本版本,生成只需开发人员在指定方法实现具体业务逻辑的模板脚本文件;
基于所述模板脚本文件,进行脚本的在线编辑开发、测试执行,以方便开发人员测试;
已通过测试和发布的脚本作为所述可扩展groovy脚本拓展适用的业务场景。
7.如权利要求2所述的方法,其特征在于,所述告警属性字段包括以下信息的其中之一或任意组合:告警来源、告警系统、设备ip、告警指标、告警关键字。
8.如权利要求1所述的方法,其特征在于,若所述目标告警信息满足所述目标告警升级策略告警匹配要求,判断所述目标告警升级策略是否在指定时间段内匹配到指定条件的告警数,包括:
判断所述目标告警升级策略是否匹配到指定条件的告警;所述目标告警升级策略包括唯一标识、时间段匹配命中条件;所述时间段匹配命中条件包括:时间段信息、告警维度和告警条数;
在判断所述目标告警升级策略匹配到指定条件的告警时,根据目标告警升级策略的唯一标识、时间段匹配命中条件确定有无对应的告警记录;
若有,将匹配记录对应的累计告警次数加1,并判断累计告警次数是否大于或等于告警条数;
在判断累计告警次数大于或等于告警条数时,按照所述目标告警升级策略指定的方式通知目标告警升级策略中指定的人员。
9.如权利要求8所述的方法,其特征在于,还包括:清除所述目标告警升级策略的唯一标识及维度对应的匹配记录。
10.如权利要求1所述的方法,其特征在于,若判断所述目标告警升级策略在指定时间段内匹配到指定条件的告警数,按照所述目标告警升级策略指定的方式通知目标告警升级策略中指定的人员,将当前告警升级处理,包括:若判断所述目标告警升级策略在指定时间段内匹配到指定条件的告警数,按照所述目标告警升级策略指定的方式通知目标告警升级策略中指定的人员,建立各领域、多人员的沟通渠道,快速启动应急会议。
11.一种告警升级处理装置,其特征在于,包括:
告警信息获取模块,用于实时从监控平台获取告警,得到需处理的告警信息集合;
升级策略匹配模块,用于执行如下步骤:
遍历所述告警信息集合,将集合中的每条告警作为后续目标告警信息进行处理,获取预设的所有告警升级策略集合;其中,所述告警升级策略根据告警升级业务场景预先配置;
遍历所述告警升级策略集合,将集合中的每条告警升级策略作为后续目标告警升级策略处理;
基于所述目标告警信息,校验是否满足所述目标告警升级策略告警匹配要求;
若所述目标告警信息满足所述目标告警升级策略告警匹配要求,判断所述目标告警升级策略是否在指定时间段内匹配到指定条件的告警数;若所述目标告警信息不满足所述目标告警升级策略告警匹配要求,返回执行遍历所述告警升级策略集合的步骤,遍历执行下一条目标告警升级策略;
升级处理模块,用于若判断所述目标告警升级策略在指定时间段内匹配到指定条件的告警数,按照所述目标告警升级策略指定的方式通知目标告警升级策略中指定的人员,将当前告警升级处理;返回执行遍历所述告警信息集合的步骤,遍历下一条目标告警信息,直至遍历完告警信息集合中所有目标告警信息;若判断所述目标告警升级策略在指定时间段内未匹配到指定条件的告警数,返回执行遍历所述告警升级策略集合的步骤,遍历执行下一条目标告警升级策略。
12.如权利要求11所述的装置,其特征在于,还包括:升级策略配置模块,用于按照如下方法预先配置所述告警升级策略:
根据用户将多个告警属性字段与多个指定条件之间的匹配操作,生成不同业务场景下的告警升级策略;
为每一业务场景下的告警升级策略配置告警升级触发条件;所述告警升级策略包括告警升级策略唯一标识和时间段匹配命中条件;所述时间段匹配命中条件包括:时间段信息、告警维度和告警条数;
为配置了告警升级触发条件的每一业务场景下的告警升级策略配置告警升级方式及告警升级范围,最终得到所述告警升级策略。
13.如权利要求11所述的装置,其特征在于,还包括:升级策略扩展开发验证模块,用于在检测到目前告警升级策略无法处理的告警升级业务场景时,通过可扩展groovy脚本拓展适用的业务场景。
14.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至10任一所述方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至10任一所述方法。
16.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现权利要求1至10任一所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311442578.8A CN117389590A (zh) | 2023-11-01 | 2023-11-01 | 告警升级处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311442578.8A CN117389590A (zh) | 2023-11-01 | 2023-11-01 | 告警升级处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117389590A true CN117389590A (zh) | 2024-01-12 |
Family
ID=89438983
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311442578.8A Pending CN117389590A (zh) | 2023-11-01 | 2023-11-01 | 告警升级处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117389590A (zh) |
-
2023
- 2023-11-01 CN CN202311442578.8A patent/CN117389590A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107085549B (zh) | 故障信息生成的方法和装置 | |
CN108459951B (zh) | 测试方法和装置 | |
CN112988525B (zh) | 一种告警关联规则的匹配方法及装置 | |
CN107168844B (zh) | 一种性能监控的方法及装置 | |
CN109284331B (zh) | 基于业务数据资源的制证信息获取方法、终端设备及介质 | |
CN110764894A (zh) | 一种定时任务管理方法、装置、设备及存储介质 | |
CN110245077A (zh) | 一种程序异常的响应方法及设备 | |
CN111130867B (zh) | 一种基于物联网的智能家居设备告警方法及装置 | |
CN110991871A (zh) | 风险监测方法、装置、设备与计算机可读存储介质 | |
CN111327466B (zh) | 一种告警分析方法、系统、设备以及介质 | |
CN112650688A (zh) | 自动化回归测试方法、关联设备以及计算机程序产品 | |
CN112948224A (zh) | 一种数据处理方法、装置、终端及存储介质 | |
CN110941632A (zh) | 一种数据库审计方法、装置及设备 | |
CN114172921A (zh) | 一种调度录音系统的日志审计方法及装置 | |
CN111597091A (zh) | 数据监控方法及系统、电子设备、计算机存储介质 | |
CN117389590A (zh) | 告警升级处理方法及装置 | |
WO2017117870A1 (zh) | 陷阱指令Trap的处理方法及装置 | |
CN113285824B (zh) | 一种监控网络配置命令安全性的方法及装置 | |
CN105607983A (zh) | 数据异常监控方法和装置 | |
CN112988776B (zh) | 文本解析规则的更新方法、装置、设备及可读存储介质 | |
CN112019546B (zh) | 一种防护策略调整方法、系统、设备及计算机存储介质 | |
CN114615036A (zh) | 异常行为检测方法、装置、设备和存储介质 | |
CN111080250B (zh) | 流程回退补偿方法、装置、存储介质及电子设备 | |
CN115599881A (zh) | 工作流创建方法、系统、电子设备和计算机可读存储介质 | |
CN109787802B (zh) | 一种资源操作方法及控制台 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |