CN112685247B - 基于Zabbix监控系统的告警抑制方法及监控系统 - Google Patents

基于Zabbix监控系统的告警抑制方法及监控系统 Download PDF

Info

Publication number
CN112685247B
CN112685247B CN202011546481.8A CN202011546481A CN112685247B CN 112685247 B CN112685247 B CN 112685247B CN 202011546481 A CN202011546481 A CN 202011546481A CN 112685247 B CN112685247 B CN 112685247B
Authority
CN
China
Prior art keywords
trigger
triggers
alarm
dependent
alarm events
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011546481.8A
Other languages
English (en)
Other versions
CN112685247A (zh
Inventor
张占耀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BOE Technology Group Co Ltd
Original Assignee
BOE Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BOE Technology Group Co Ltd filed Critical BOE Technology Group Co Ltd
Priority to CN202011546481.8A priority Critical patent/CN112685247B/zh
Publication of CN112685247A publication Critical patent/CN112685247A/zh
Application granted granted Critical
Publication of CN112685247B publication Critical patent/CN112685247B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种基于Zabbix监控系统的告警抑制方法、Zabbix监控系统、计算机可读存储介质和计算机设备。该方法包括:S1:获取该监控系统的触发器依赖图谱,触发器依赖图谱包括各触发器之间的依赖关系;S2:利用触发器实时监控各监控项;S3:采用轮询机制分别检测多个触发器是否产生告警事件,若产生告警事件则根据触发器依赖图谱判断是否抑制触发器的告警事件,若是则取消触发器的告警事件并循环执行S3,若否则执行触发器的告警事件并循环执行S3。本发明提供的告警抑制方法通过设置触发器依赖图谱来获取各触发器之间的依赖关系,并根据触发器依赖图谱判断是否抑制触发器的告警事件,从而能够避免监控系统的冗余告警。

Description

基于Zabbix监控系统的告警抑制方法及监控系统
技术领域
本发明涉及互联网技术领域,特别是涉及一种基于Zabbix监控系统的告警抑制方法及Zabbix监控系统。
背景技术
互联网应用的架构多采用分布式、微服务,这使得应用复杂度较过去大幅度提高。这对应用的告警、故障快速定位提出了更高要求。Zabbix是系统监控的一种主流方案,它在对故障进行告警时,由于服务的依赖关系导致了告警的泛滥,无法快速定位问题,存在大量的关联告警。
发明内容
为了解决上述问题至少之一,本发明第一方面供一种基于Zabbix监控系统的告警抑制方法,监控系统包括设置在分布式部署的多个监控项上的多个触发器,包括:
S1:根据监控系统中设置的多个触发器获取该监控系统的触发器依赖图谱,触发器依赖图谱包括各触发器之间的依赖关系;
S2:利用多个触发器实时监控各监控项;
S3:采用轮询机制分别检测多个触发器是否产生告警事件,若产生告警事件则根据触发器依赖图谱判断是否抑制触发器的告警事件,若是则取消触发器的告警事件并循环执行S3,若否则执行触发器的告警事件并循环执行S3。
在一些可选的实施例中,S1进一步包括:触发器依赖图谱包括按照各监控项的拓扑关系生成的各触发器的依赖触发器集合,每个触发器的依赖触发器集合包括与该触发器具有依赖关系的各触发器。
在一些可选的实施例中,S3进一步包括:
S31:采用轮询机制分别检测多个触发器是否产生告警事件,若产生告警事件则跳转至S32,否则循环执行S31;
S32:判断告警事件是否已经执行,若已经执行则跳转至S31,否则跳转至S33;
S33:根据触发器依赖图谱获取产生告警事件的触发器的依赖触发器集合,依次检测依赖触发器集合中的各依赖触发器的告警状态,若存在依赖触发器的告警状态为已执行则取消触发器的告警事件并跳转至S31,若否则执行触发器的告警事件并跳转至S31。
在一些可选的实施例中,S33进一步包括:
S331:对产生告警事件的触发器的告警抑制计数器初始化;
S332:根据触发器依赖图谱获取产生告警事件的触发器的依赖触发器集合;
S333:判断是否已检测依赖触发集合中的各依赖触发器,若是则跳转至S334,若否则依次检测依赖触发器集合中的各依赖触发器的告警状态,若依赖触发器的告警状态为未执行则告警抑制计数器计数并跳转至S333,否则取消触发器的告警事件并跳转至S31;
S334:判断告警抑制计数器的计数值是否等于依赖触发器集合中各依赖触发器的数量,若相等则执行触发器的告警事件并跳转至S31,否则取消触发器的告警事件并跳转至S31。
在一些可选的实施例中,
S31进一步包括获取告警事件的触发时间戳;
S333进一步包括:依次检测依赖触发器集合中的各依赖触发器的告警状态,若依赖触发器的告警状态的检测时间在告警事件的触发时间戳之前则等待该依赖触发器的告警状态更新并检测。
本发明第二方面提供一种实现以上第一方面所述的告警抑制方法的Zabbix监控系统,包括:
多个设置在分布式部署的多个监控项上的多个触发器,配置为实时监控各监控项;
控制器,配置为根据监控系统中设置的多个触发器获取该监控系统的触发器依赖图谱,触发器依赖图谱包括各触发器之间的依赖关系;采用轮询机制分别检测多个触发器是否产生告警事件,若产生告警事件则根据触发器依赖图谱判断是否抑制触发器的告警事件,若是则取消触发器的告警事件并循环检测各触发器是否产生告警事件,若否则执行触发器的告警事件并循环检测各触发器是否产生告警事件。
在一些可选的实施例中,触发器依赖图谱包括按照各监控项的拓扑关系生成的各触发器的依赖触发器集合,每个触发器的依赖触发器集合包括与该触发器具有依赖关系的各触发器。
在一些可选的实施例中,触发器包括告警抑制计数器,控制器进一步配置为:
根据触发器依赖图谱获取产生告警事件的触发器的依赖触发器集合,根据告警抑制计数器依次检测依赖触发器集合中的各依赖触发器的告警状态,若存在依赖触发器的告警状态为已执行则取消触发器的告警事件并循环检测各触发器是否产生告警事件,若否则执行触发器的告警事件并循环检测各触发器是否产生告警事件。
本发明的第三方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如以上第一方面所述的方法。
本发明的第四方面提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现如以上第一方面所述的方法。
本发明的有益效果如下:
本发明针对目前现有的问题,制定一种基于Zabbix监控系统的告警抑制方法、Zabbix监控系统、计算机可读存储介质和计算机设备,并通过设置Zabbix监控系统中的多个触发器的触发器依赖图谱来获取各触发器之间的依赖关系,根据触发器依赖图谱,当触发器发生告警事件后通过检测该触发器对应的依赖触发器判断是否抑制触发器的告警事件,从而能够避免监控系统的冗余告警,并快速定位,具有广泛的应用前景。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出根据本发明的实施例的基于Zabbix监控系统的告警抑制方法的示意性框图。
图2示出根据本发明的实施例的基于Zabbix监控系统中监控项拓扑图。
图3示出根据本发明的实施例的触发器依赖图谱的示意图。
图4示出根据本发明的实施例的基于Zabbix监控系统的告警抑制方法的步骤流程图。
图5示出根据本发明的实施例的步骤S3的具体示意性流程图。
图6示出根据本发明的实施例的Zabbix监控系统的示意性框图。
图7示出本发明的另一个实施例所述的一种计算机设备的结构示意图。
具体实施方式
为了更清楚地说明本发明,下面结合优选实施例和附图对本发明做进一步的说明。附图中相似的部件以相同的附图标记进行表示。本领域技术人员应当理解,下面所具体描述的内容是说明性的而非限制性的,不应以此限制本发明的保护范围。
现有技术中的Zabbix监控系统包括设置在分布式系统中的分布式部署的多个监控项,每个监控项设置有一个触发器,每个触发器用于定义一个告警规则,包括告警阈值、检测周期和达到告警阈值后通过何种方式发送告警。其中,当满足告警阈值时产生告警事件;对于不同的监控项设置相同或不同的检测周期,例如,按照第一预设时间检测第一预设时间检测第一监控项,按照第二预设时间检测第二监控项;发送告警的方式可以是电子邮件、电话、短信、语音、视频和网络即时消息,通过以上方式向告警发送目标发送告警的过程称为执行告警事件。对于现有技术的Zabbix监控系统,当各触发器满足告警阈值时即进行告警,容易导致告警泛滥,监控系统存在大量告警冗余,无法定位的问题。
基于以上问题之一,如图1所示,本发明的实施例提供了一种基于Zabbix监控系统的告警抑制方法,监控系统包括设置在分布式部署的多个监控项上的多个触发器,包括:
S1:根据监控系统中设置的多个触发器获取该监控系统的触发器依赖图谱,触发器依赖图谱包括各触发器之间的依赖关系;
S2:利用多个触发器实时监控各监控项;
S3:采用轮询机制分别检测多个触发器是否产生告警事件,若产生告警事件则根据触发器依赖图谱判断是否抑制触发器的告警事件,若是则取消触发器的告警事件并循环执行S3,若否则执行触发器的告警事件并循环执行S3。
在本实施例中,通过设置Zabbix监控系统中的多个触发器的触发器依赖图谱来获取各触发器之间的依赖关系,根据触发器依赖图谱,当触发器发生告警事件后通过检测该触发器对应的依赖触发器判断是否抑制触发器的告警事件,从而能够避免监控系统的冗余告警,并快速定位,具有广泛的应用前景。
在一个具体的示例中,参照图2和图3所示,根据本申请的Zabbix监控系统的告警方法,在步骤S1中,针对Zabbix监控系统中设置的多个触发器获取该监控系统的触发器依赖图谱,触发器依赖图谱包括各触发器之间的依赖关系。可以理解的是,在监控系统中每个节点设置一个触发器。
触发器依赖图谱包括按照各监控项的拓扑关系生成的各触发器的依赖触发器集合,每个触发器的依赖触发器集合包括与该触发器具有依赖关系的各触发器。例如,图2示出了在一个分布式Zabbix监控系统中包括12个监控项,拓扑图中以箭头给出了各个监控项之间的关系。图3为图2示出的监控系统中各个监控项处设置的触发器的触发器依赖图谱,为了便于描述,以节点编号对应设置触发器的编号。
监控项1的依赖触发器集合为自监控项1的触发器起每一条依赖关系线上的触发器;监控项11的依赖触发器集合为监控项12的触发器12;监控项2的依赖触发器集合为监控项3和监控项4的触发器起的两条关系线上的所有触发器;监控项4的依赖触发器集合为监控项6和监控项7的触发器6和7;监控项3的依赖触发器集合为监控项5、8、10、9、6和7的触发器5、8、10、9、6和7;监控项5的依赖触发器集合为监控项5、8、10的触发器5、8、10;监控项8的依赖触发器集合为监控项9的触发器9。本领域技术人员可以理解,图3仅示例性地示出了触发器依赖图谱的表示内容,触发器依赖图谱也可以呈现为关系表的形式,例如,针对每个触发器的触发器ID罗列与其存在依赖关系的依赖触发器ID。本申请对触发器依赖图谱并不作限制,只要能够表示出监控系统中所有的监控项的触发器之间的依赖关系即可。
在步骤S2中,多个触发器试试监控各监控项,具体地,可以监控各监控项的负载信息和运行状态。
在步骤S3中,采用轮询机制分别检测多个触发器是否产生告警事件,若产生告警事件则根据触发器依赖图谱判断是否抑制触发器的告警事件,若是则取消触发器的告警事件并循环执行S3,若否则执行触发器的告警事件并循环执行S3。在该步骤中,通过轮询的方式,循环检测是否有触发器产生告警事件,基于每个触发器的每个告警事件,通过触发器依赖图谱查询各依赖触发器的告警状态以确定是否需要抑制告警。
具体地,参照图2和图4所示,在步骤S31中,采用轮询机制分别检测多个触发器是否产生告警事件,若产生告警事件则跳转至S32,否则循环执行S1。
例如,对图2中的监控项拓扑中的12个监控项以轮询机制检测分别设置在12个节点处的12个触发器。假定以监控项1的触发器开始,当检测到监控项1的触发器1产生告警事件时,即触发器1满足其定义的告警规则,例如满足告警阈值时产生告警事件并继续进行下一步S32;若未产生告警事件,则继续检测下一个监控项的触发器,比如,检测监控项2的触发器2;循环往复轮询监控系统中的所有监控项的触发器。在步骤S32中,判断告警事件是否已经执行,若已经执行则跳转至S31,否则跳转至S33。
当判断告警时间已执行时,则表示该触发器针对该告警事件已告警,则不存在告警抑制,结束对该触发器的告警抑制判断,若未告警过,则跳至下一步S33。通过该步骤,确认是否对该触发器的告警事件进行抑制。
在步骤S33中,根据触发器依赖图谱获取产生告警事件的触发器的依赖触发器集合,依次检测依赖触发器集合中的各依赖触发器的告警状态,若存在依赖触发器的告警状态为已执行则取消触发器的告警事件并跳转至S31,若否则执行触发器的告警事件并跳转至S31。该步骤通过检测与产生告警事件的触发器有依赖关系的各依赖触发器的告警状态,能够有效抑制监控系统产生的告警冗余。
具体地,下面参照图5具体描述S33的流程。本领域技术人员可以理解,步骤S33为图5中是否已告警的判定为否之后的流程部分。
依然以监控项1的触发器1为例,触发器1产生告警事件并且未执行该告警事件。
在步骤S331中,首先对产生告警事件的触发器的告警抑制计数器初始化。
在本示例中,将监控项1的触发器的告警抑制计数器NoAlterTriggerCnt清零。
在步骤S332中,根据触发器依赖图谱获取产生告警事件的触发器的依赖触发器集合。参照图3所示的触发器依赖关系图谱,获取监控项1的触发器1的依赖触发集合,自监控项1的触发器1起每一条依赖关系线上的触发器。
在步骤S333中,判断是否已检测依赖触发集合中的各依赖触发器,若是则跳转至S334,若否则依次检测依赖触发器集合中的各依赖触发器的告警状态,若依赖触发器的告警状态为未执行则告警抑制计数器计数并跳转至S333,否则取消触发器的告警事件并跳转至S31。
对应触发器1而言,假定先检测依赖触发器2,若依赖触发器2的告警状态为执行告警,则取消触发器1的告警事件,并跳转至S31。若依赖触发器2的告警状态为未执行告警,则告警抑制计数器NoAlterTriggerCnt加1,并继续检测依赖触发器4,若依赖触发器4的告警状态为执行告警,则取消触发器4的告警事件,并跳转至S31;若依赖触发器4的告警状态为未执行告警,则告警抑制计数器NoAlterTriggerCnt继续加1,并继续检测依赖触发器6。以此方式类推,依次检测触发器1的所有依赖触发器。
在步骤S334中,当NoAlterTriggerCnt的值等于监控项1的依赖触发器个数时,完成对触发器1的依赖触发器的检测,也即表示针对当前告警事件,触发器1的所有依赖触发器均未执行告警,此时执行触发器1的告警,并标记告警状态。当执行完对触发器1的所有依赖触发器的检测结束后,NoAlterTriggerCnt的值不等于监控项1的依赖触发器个数,则取消触发器1的告警事件并跳转至S31。
通过以上方式,能够仅针对检测的监控项的触发器的依赖触发器进行告警状态的检测,并且当其所有依赖触发器均未执行告警时,才针对该监控项的触发器执行告警,从而保证针对一个告警事件仅告警一次,避免相关依赖触发器均产生告警,从而避免监控系统产生冗余告警。
需要说明的是,如图3所示的触发器依赖图谱,对于监控项1的触发器1而言,当根据该触发器依赖图谱检测过触发器4、6和7的触发状态后,检测以触发器3起的依赖触发器,因为触发器3与触发器6和7存在依赖关系,为避免重复检测,在依赖触发器集合中过滤重复出现的触发器。
在一些可选的实施例中,在步骤S31中进一步包括获取该触发器产生告警事件的触发时间戳TriggerTS-C,触发事件戳TriggerTS-C记录该触发器当前告警事件的触发时间点。本实施例,在步骤S333中,如图5所示,分别检测依赖触发器集合中的各依赖触发器的告警状态,若依赖触发器的告警状态的检测时间在当前告警事件的触发时间戳之前则等待该依赖触发器的告警状态再次更新并检测。可以理解,若依赖触发器的告警状态的检测时间在告警事件的触发时间戳之后则不必等待该依赖触发器的告警状态更新则进行触发器告警状态的检测。因为通常触发器的检测周期不同,不能依赖统一的间隔判断触发器是否完成检测过程。通过该设定,当依赖触发器的告警状态在告警事件的触发时间戳之前则表示该依赖触发器的告警状态与当前告警事件无关联,若检测时间在当前告警事件的触发时间戳之后则认为该依赖触发器的告警状态与当前告警事件有关联。通过该方式,对每个依赖触发器的告警状态的判断均在完成检测过程之后,从而确保各依赖触发器的告警状态均与当前告警事件有关,有效提高了告警抑制准确率。
本发明的实施例还提供一种实现上文所述的告警抑制方法的Zabbix监控系统,如图6所示,系统包括:
多个设置在分布式部署的多个监控项上的多个触发器A-D,配置为实时监控各监控项;
控制器,配置为根据监控系统中设置的多个触发器获取该监控系统的触发器依赖图谱,触发器依赖图谱包括各触发器之间的依赖关系;采用轮询机制分别检测多个触发器是否产生告警事件,若产生告警事件则根据触发器依赖图谱判断是否抑制触发器的告警事件,若是则取消触发器的告警事件并循环检测各触发器是否产生告警事件,若否则执行触发器的告警事件并循环检测各触发器是否产生告警事件。
在本实施例中,通过设置Zabbix监控系统中的多个触发器的触发器依赖图谱来获取各触发器之间的依赖关系,根据触发器依赖图谱,当触发器发生告警事件后通过检测该触发器对应的依赖触发器判断是否抑制触发器的告警事件,从而能够避免监控系统的冗余告警,并快速定位,具有广泛的应用前景。
具体地,如图3所示,触发器依赖图谱包括按照各监控项的拓扑关系生成的各触发器的依赖触发器集合,每个触发器的依赖触发器集合包括与该触发器具有依赖关系的各触发器。
具体地,控制器进一步配置为,根据触发器依赖图谱获取产生告警事件的触发器的依赖触发器集合,根据告警抑制计数器依次检测依赖触发器集合中的各依赖触发器的告警状态,若存在依赖触发器的告警状态为已执行则取消触发器的告警事件并循环检测各触发器是否产生告警事件,若否则执行触发器的告警事件并循环检测各触发器是否产生告警事件。
通过以上方式,能够仅针对检测的监控项的依赖触发器进行告警状态的检测,并且当其依赖触发器的所有触发器均未执行告警时,才针对该监控项执行告警,从而保证针对一个监控项仅告警一次,避免针对同一监控项,相关依赖触发器均执行告警,避免产生冗余告警。
本发明的另一个实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现:S1:根据监控系统中设置的多个触发器获取该监控系统的触发器依赖图谱,触发器依赖图谱包括各触发器之间的依赖关系;S2:利用多个触发器实时监控各监控项的负载信息和运行状态;S3:采用轮询机制分别检测多个触发器是否产生告警事件,若产生告警事件则根据触发器依赖图谱判断是否抑制触发器的告警事件,若是则取消触发器的告警事件并循环执行S3,若否则执行触发器的告警事件并循环执行S3。
在实际应用中,所述计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
如图7所示,本发明的另一个实施例提供的一种计算机设备的结构示意图。图7显示的计算机设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图7未显示,通常称为“硬盘驱动器”)。尽管图7中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图7所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图7中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的基于Zabbix监控系统的告警抑制方法。
本发明针对目前现有的问题,制定一种基于Zabbix监控系统的告警抑制方法、Zabbix监控系统、计算机可读存储介质和计算机设备,并通过设置Zabbix监控系统中的多个触发器的触发器依赖图谱来获取各触发器之间的依赖关系,根据触发器依赖图谱,当触发器发生告警事件后通过检测该触发器对应的依赖触发器判断是否抑制触发器的告警事件,从而能够避免监控系统的冗余告警,并快速定位,具有广泛的应用前景。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定,对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims (7)

1.一种基于Zabbix监控系统的告警抑制方法,所述监控系统包括设置在分布式部署的多个监控项上的多个触发器,其特征在于,包括:
S1:根据监控系统中设置的多个触发器获取该监控系统的触发器依赖图谱,所述触发器依赖图谱包括各触发器之间的依赖关系;
S2:利用所述多个触发器实时监控各监控项;
S3:采用轮询机制分别检测所述多个触发器是否产生告警事件,若产生告警事件则根据所述触发器依赖图谱判断是否抑制所述触发器的告警事件,若是则取消所述触发器的告警事件并循环执行S3,若否则执行所述触发器的告警事件并循环执行S3,
所述S1进一步包括:所述触发器依赖图谱包括按照各监控项的拓扑关系生成的各触发器的依赖触发器集合,每个触发器的依赖触发器集合包括与该触发器具有依赖关系的各触发器,
所述S3进一步包括:
S31:采用轮询机制分别检测所述多个触发器是否产生告警事件,若产生告警事件则跳转至S32,否则循环执行S31;
S32:判断所述告警事件是否已经执行,若已经执行则跳转至S31,否则跳转至S33;
S33:根据所述触发器依赖图谱获取产生告警事件的触发器的依赖触发器集合,依次检测所述依赖触发器集合中的各依赖触发器的告警状态,若存在所述依赖触发器的告警状态为已执行则取消所述触发器的告警事件并跳转至S31,若否则执行所述触发器的告警事件并跳转至S31,
所述S33进一步包括:
S331:对产生告警事件的触发器的告警抑制计数器初始化;
S332:根据所述触发器依赖图谱获取产生告警事件的触发器的依赖触发器集合;
S333:判断是否已检测所述依赖触发集合中的各依赖触发器,若是则跳转至S334,若否则依次检测所述依赖触发器集合中的各依赖触发器的告警状态,若所述依赖触发器的告警状态为未执行则所述告警抑制计数器计数并跳转至S333,否则取消所述触发器的告警事件并跳转至S31;
S334:判断所述告警抑制计数器的计数值是否等于所述依赖触发器集合中各依赖触发器的数量,若相等则执行所述触发器的告警事件并跳转至S31,否则取消所述触发器的告警事件并跳转至S31。
2.根据权利要求1所述的告警抑制方法,其特征在于,
所述S31进一步包括获取所述告警事件的触发时间戳;
所述S333进一步包括:依次检测所述依赖触发器集合中的各依赖触发器的告警状态,若所述依赖触发器的告警状态的检测时间在所述告警事件的触发时间戳之前则等待该依赖触发器的告警状态更新并检测。
3.一种实现权利要求1或2所述的告警抑制方法的Zabbix监控系统,其特征在于,包括:
多个设置在分布式部署的多个监控项上的多个触发器,配置为实时监控各监控项;
控制器,配置为根据监控系统中设置的多个触发器获取该监控系统的触发器依赖图谱,所述触发器依赖图谱包括各触发器之间的依赖关系;采用轮询机制分别检测所述多个触发器是否产生告警事件,若产生告警事件则根据所述触发器依赖图谱判断是否抑制所述触发器的告警事件,若是则取消所述触发器的告警事件并循环检测各触发器是否产生告警事件,若否则执行所述触发器的告警事件并循环检测各触发器是否产生告警事件。
4.根据权利要求3所述的Zabbix监控系统,其特征在于,所述触发器依赖图谱包括按照各监控项的拓扑关系生成的各触发器的依赖触发器集合,每个触发器的依赖触发器集合包括与该触发器具有依赖关系的各触发器。
5.根据权利要求3所述的Zabbix监控系统,其特征在于,所述触发器包括告警抑制计数器,所述控制器进一步配置为:
根据所述触发器依赖图谱获取产生告警事件的触发器的依赖触发器集合,根据所述告警抑制计数器依次检测所述依赖触发器集合中的各依赖触发器的告警状态,若存在所述依赖触发器的告警状态为已执行则取消所述触发器的告警事件并循环检测各触发器是否产生告警事件,若否则执行所述触发器的告警事件并循环检测各触发器是否产生告警事件。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1或2所述的方法。
7.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1或2所述的方法。
CN202011546481.8A 2020-12-24 2020-12-24 基于Zabbix监控系统的告警抑制方法及监控系统 Active CN112685247B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011546481.8A CN112685247B (zh) 2020-12-24 2020-12-24 基于Zabbix监控系统的告警抑制方法及监控系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011546481.8A CN112685247B (zh) 2020-12-24 2020-12-24 基于Zabbix监控系统的告警抑制方法及监控系统

Publications (2)

Publication Number Publication Date
CN112685247A CN112685247A (zh) 2021-04-20
CN112685247B true CN112685247B (zh) 2024-01-12

Family

ID=75451495

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011546481.8A Active CN112685247B (zh) 2020-12-24 2020-12-24 基于Zabbix监控系统的告警抑制方法及监控系统

Country Status (1)

Country Link
CN (1) CN112685247B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113687621B (zh) * 2021-10-26 2022-01-25 西安热工研究院有限公司 基于时序告警信息的告警抑制方法和系统、设备及存储介质
CN115118614B (zh) * 2022-06-27 2023-09-01 平安银行股份有限公司 作业异常检测方法、装置、电子设备及存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102404141A (zh) * 2011-11-04 2012-04-04 华为技术有限公司 一种告警抑制的方法及装置
WO2012139163A1 (en) * 2011-04-15 2012-10-18 Unimon Pty Ltd A system and method for monitoring movement in strata
CN103761688A (zh) * 2014-01-28 2014-04-30 国家电网公司 一种面向区域电网的电能质量问题预警方法
EP3001317A1 (en) * 2014-09-26 2016-03-30 Alcatel Lucent Alarm correlation according to dependencies between entities of the managed data processing system
CN106371974A (zh) * 2016-08-30 2017-02-01 中国民生银行股份有限公司 Docker容器内应用程序的监控方法和发布平台
CN107832200A (zh) * 2017-10-24 2018-03-23 平安科技(深圳)有限公司 告警处理方法、装置、计算机设备及存储介质
CN108847958A (zh) * 2018-05-24 2018-11-20 平安科技(深圳)有限公司 设备监控管理方法、装置、计算机设备及存储介质
CN108964960A (zh) * 2017-05-27 2018-12-07 阿里巴巴集团控股有限公司 一种告警事件的处理方法及装置
CN110232010A (zh) * 2019-06-18 2019-09-13 深圳前海微众银行股份有限公司 一种告警方法、告警服务器及监控服务器
CN111385148A (zh) * 2020-03-06 2020-07-07 深圳鼎盛电脑科技有限公司 业务告警方法、装置、计算机设备及存储介质
CN111427748A (zh) * 2020-03-31 2020-07-17 携程计算机技术(上海)有限公司 任务告警方法、系统、设备及存储介质
CN112074814A (zh) * 2018-06-27 2020-12-11 国际商业机器公司 服务器托管远程应用的安全性

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030101260A1 (en) * 2001-11-29 2003-05-29 International Business Machines Corporation Method, computer program element and system for processing alarms triggered by a monitoring system
US9314159B2 (en) * 2012-09-24 2016-04-19 Physio-Control, Inc. Patient monitoring device with remote alert

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012139163A1 (en) * 2011-04-15 2012-10-18 Unimon Pty Ltd A system and method for monitoring movement in strata
CN102404141A (zh) * 2011-11-04 2012-04-04 华为技术有限公司 一种告警抑制的方法及装置
CN103761688A (zh) * 2014-01-28 2014-04-30 国家电网公司 一种面向区域电网的电能质量问题预警方法
EP3001317A1 (en) * 2014-09-26 2016-03-30 Alcatel Lucent Alarm correlation according to dependencies between entities of the managed data processing system
CN106371974A (zh) * 2016-08-30 2017-02-01 中国民生银行股份有限公司 Docker容器内应用程序的监控方法和发布平台
CN108964960A (zh) * 2017-05-27 2018-12-07 阿里巴巴集团控股有限公司 一种告警事件的处理方法及装置
CN107832200A (zh) * 2017-10-24 2018-03-23 平安科技(深圳)有限公司 告警处理方法、装置、计算机设备及存储介质
CN108847958A (zh) * 2018-05-24 2018-11-20 平安科技(深圳)有限公司 设备监控管理方法、装置、计算机设备及存储介质
CN112074814A (zh) * 2018-06-27 2020-12-11 国际商业机器公司 服务器托管远程应用的安全性
CN110232010A (zh) * 2019-06-18 2019-09-13 深圳前海微众银行股份有限公司 一种告警方法、告警服务器及监控服务器
CN111385148A (zh) * 2020-03-06 2020-07-07 深圳鼎盛电脑科技有限公司 业务告警方法、装置、计算机设备及存储介质
CN111427748A (zh) * 2020-03-31 2020-07-17 携程计算机技术(上海)有限公司 任务告警方法、系统、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于电流滞环控制的逆变器开路故障诊断及容错控制;李凯迪;陈特放;成庶;于天剑;伍珣;乔海洋;;电工技术学报(第S2期);全文 *
电力应急管理中的综合预测预警技术;田超;沈沉;孙英云;;清华大学学报(自然科学版)网络.预览(04);全文 *

Also Published As

Publication number Publication date
CN112685247A (zh) 2021-04-20

Similar Documents

Publication Publication Date Title
US10860406B2 (en) Information processing device and monitoring method
JP5474177B2 (ja) 分散アプリケーションの監視
CN108900353B (zh) 故障告警方法及终端设备
US9246777B2 (en) Computer program and monitoring apparatus
EP2685380B1 (en) Operations management unit, operations management method, and program
CN112685247B (zh) 基于Zabbix监控系统的告警抑制方法及监控系统
CN111193605B (zh) 一种故障定位方法、装置及存储介质
CN109614290A (zh) 容器中的进程异常信息记录方法及系统
US10095599B2 (en) Optimization for application runtime monitoring
US8413105B2 (en) Device, method and computer program product for managing a software development process
US20180024874A1 (en) Anomaly detection using sequences of system calls
CN105074656B (zh) 管理并发谓词表达式的方法和装置
CN105549508A (zh) 一种基于信息合并的报警方法及装置
CN110502399B (zh) 故障检测方法及装置
CN113238815B (zh) 一种接口访问控制方法、装置、设备及存储介质
CN114564297A (zh) 一种任务执行顺序计算方法、装置、设备及可读存储介质
US9455940B2 (en) Information processing apparatus and information processing method
CN113656252A (zh) 故障定位方法、装置、电子设备以及存储介质
CN111597091A (zh) 数据监控方法及系统、电子设备、计算机存储介质
CN115102838B (zh) 服务器宕机风险的应急处理方法和装置、电子设备
CN108153654A (zh) 一种日志收集方法及装置
CN114595074A (zh) 一种基于分布式调度的编排中事务失败回滚方法及装置
CN115687026A (zh) 多节点服务器故障预警方法、装置、设备及介质
CN112860504A (zh) 监控方法及装置、计算机存储介质、电子设备
JP2019219755A (ja) 監視プログラム、監視方法、および並列処理装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant