CN104468224A - 一种双重过滤的数据中心监控系统故障告警方法 - Google Patents

一种双重过滤的数据中心监控系统故障告警方法 Download PDF

Info

Publication number
CN104468224A
CN104468224A CN201410785902.0A CN201410785902A CN104468224A CN 104468224 A CN104468224 A CN 104468224A CN 201410785902 A CN201410785902 A CN 201410785902A CN 104468224 A CN104468224 A CN 104468224A
Authority
CN
China
Prior art keywords
warning
fault
alarm
filter
resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410785902.0A
Other languages
English (en)
Other versions
CN104468224B (zh
Inventor
陆峰
刘成平
李锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201410785902.0A priority Critical patent/CN104468224B/zh
Publication of CN104468224A publication Critical patent/CN104468224A/zh
Application granted granted Critical
Publication of CN104468224B publication Critical patent/CN104468224B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Alarm Systems (AREA)

Abstract

本发明公开了一种双重过滤的数据中心监控系统故障告警方法,结合故障告警多种故障状态、多种通知方式和多个系统管理员的关联关系,采用以资源监控模块为基础,配合资源故障告警过滤器和告警通知方式过滤器的双重过滤设计方法,实现以通知处理引擎为连接点的双重过滤体系,由通知处理引擎产生告警通知,再通过由不同告警级别、不同告警方式及不同类型管理员构建的立体通知策略的过滤。该一种双重过滤的数据中心监控系统故障告警方法与现有技术相比,实现以通知处理引擎为连接点的双重过滤体系,大大提高了监控系统故障告警的合理性和准确性,避免了因告警产生不合理、通知发送不准确和管理员权限分配受限制等的问题,实用性强。

Description

一种双重过滤的数据中心监控系统故障告警方法
技术领域
本发明涉及数据中心监控告警技术领域,具体地说是一种实用性强、双重过滤的数据中心监控系统故障告警方法。
背景技术
随着数据中心的飞速发展,现代化的数据中心越来越庞大、容纳的设备资源越来越复杂、规模也越来越大。在数据中心的监控过程中,当产生故障告警时的通知策略则显得尤其重要,传统的故障告警方式如附图1所示,只是单一的将某种故障告警以不同的告警方式将通知发送给所有的系统管理员,其告警通知的合理性和准确性都存在很大的问题。例如,一个具有十万资源的现代化数据中心的监控,用传统的故障告警策略进行告警通知,会将一个普通的故障告警不分级别和严重程度,以所能支持的几种告警方式,同时发送给当前可以接收通知的各种角色的管理员,浪费告警资源的同时,也不同角色管理员之间的权限分配无法真正实现,往往造成有了故障不知道该哪些管理员去确认、去处理,严重影响了监控系统的可用性。以上挑战为大规模数据中心的故障告警级别划分、告警方式选择和管理员权限分配等均带了极大的局限性,严重影响大规模数据中心监控系统的发展,基于此,现提供一种可有效解决上述难题的双重过滤的数据中心监控系统故障告警方法。
发明内容
本发明的技术任务是针对以上不足之处,提供一种实用性强、双重过滤的数据中心监控系统故障告警方法。
一种双重过滤的数据中心监控系统故障告警方法,其具体实现过程为:
设计资源监控模块、资源故障告警过滤器、告警通知方式过滤器、通知处理引擎模块,基于上述四种模块,其具体告警过程为:
资源监控模块根据监测参数,经过细粒度的划分,生成以监测参数为单位的监测项,并以此监测项为单位进行数据采集,产生各自的故障告警状态并选择各自的告警方式;
然后,资源故障告警过滤器和告警通知方式过滤器模块根据资源下属各监测项进行轮询数据采集时的故障状态,将故障告警状态、故障告警方式组合生成的第一层过滤器,基于该第一层过滤器产生的故障推送到通知处理引擎模块进入下一层过滤;
最后,通知处理引擎模块接收到经过第一层过滤器过滤的故障告警,生成告警通知后,再经由以资源故障告警状态、故障告警方式和系统管理员的选择组合为依据的第二层过滤器,将故障告警通知发送到负责处理故障的管理员处。
所述故障告警状态包括故障恢复、一级警告、二级警告和无法连通四种,告警方式包括邮件、短信、窗口和声音四种;
相对应的,第一层过滤器的生成过程为:
以资源故障级别为依据的故障恢复、一级警告、二级警告和无法连通四种级别自由组合的告警策略,以告警方式为依据的邮件、短信、窗口和声音四种告警方式自由组合的告警策略,将两种告警策略进行组合后生成上述第一层过滤器。
所述系统管理员包括多种角色,该系统管理员包括数据库管理员、网络设备管理员和机房环境管理;相对应的,所述第二层过滤器则以上述四种资源故障告警状态、四种故障告警方式和多种系统管理员自由组合而成。本发明的一种双重过滤的数据中心监控系统故障告警方法,具有以下优点:
该发明的一种双重过滤的数据中心监控系统故障告警方法采用资源故障告警过滤器和告警通知方式过滤器的双重过滤器设计方法,实现以通知处理引擎为连接点的双重过滤体系,大大提高了监控系统故障告警的合理性和准确性,避免了因告警产生不合理、通知发送不准确和管理员权限分配受限制等的问题,实用性强,适用范围广泛,易于推广。
附图说明
附图1为传统的数据中心监控系统故障告警策略原理示意图。
附图2为资源故障告警过滤器与告警通知方式过滤器原理示意图。
附图3为通知处理引擎模块示意图。
附图4为双重过滤的数据中心监控系统故障告警策略原理示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明。
本发明提出一种双重过滤的数据中心监控系统故障告警方法,该方法充分发挥双重过滤机制在数据中心监控系统故障告警时的优势,考虑故障告警时多种故障状态、多种通知方式和多个系统管理员之间非常复杂的关联关系的特点,采用以资源监控模块为基础,配合资源故障告警过滤器和告警通知方式过滤器的双重过滤设计方法,实现以通知处理引擎为连接点的双重过滤体系,资源发生故障时可以触发由不同告警级别、不同告警方式组成的告警策略,经由通知处理引擎产生告警通知对象,再通过由不同告警级别、不同告警方式及各种类型管理员构建的立体通知策略的过滤,最终达到当一个资源产生告警后可以迅速地、准确地将告警通知发送到负责处理此故障的管理员处,从而大大提高了监控系统故障告警的合理性和准确性,避免了因告警产生不合理、通知发送不准确和管理员权限分配受限制等的问题。如附图2、图3、图4所示,其具体实现过程为:
设计资源监控模块、资源故障告警过滤器、告警通知方式过滤器、通知处理引擎模块,基于上述四种模块,其具体告警过程为:
资源监控模块设计按不同的监测参数,经过细粒度的划分,生成以每种监测参数为单位的监测项(如Windows操作系统的CPU利用率、Linux操作系统的CPU负载等),并以此监测项为单位进行数据采集,产生各自的故障告警状态(故障恢复、一级警告、二级警告和无法连通共四种),选择各自的告警方式(邮件、短信、窗口和声音共四种)。
资源故障告警过滤器和告警通知方式过滤器根据资源下属各监测项进行轮询数据采集时的故障状态,设计以资源故障级别为依据的故障恢复、一级警告、二级警告和无法连通四种级别自由组合的告警策略,设计以告警方式为依据的邮件、短信、窗口和声音四种告警方式自由组合的告警策略,并将两种告警策略再进行组合后生成第一层过滤器,基于此将产生的故障告警推送到通知处理引擎模块进入下一层过滤。
通知处理引擎模块接收到上述的经过第一层过滤器过滤的故障告警,启动通知处理引擎将故障告警转化为告警通知。告警通知生成后,开始进入第二层过滤器进行第二次过滤。其中,第二层过滤器在以四种资源故障级别为依据和以四种告警方式为依据的前提下,又增加了多种角色的系统管理员的选择和组合,也就是说,第二层过滤器是由四种资源故障级别(故障恢复、一级警告、二级警告和无法连通)、四种告警方式(邮件、短信、窗口和声音)和n种角色的系统管理员(如数据库管理员、网络设备管理员和机房环境管理等)自由组合而成。
实施例:
如附图4所示,所述Windows服务器资源共设置三个监测项,分别为服务器内存状态、服务器所在机房运行环境情况和服务器网卡状态,每个监测项进行各自的轮询数据采集,将采集到的数据与预设告警阀值对比后,产生各自的监测状态,当出现故障恢复、一级警告、二级警告或无法连通状态时则产生故障告警。例如,第一种情况服务器内存坏了,则需要通过双重过滤的故障告警策略进行过滤,当为一级警告或二级警告状态的故障告警时,以邮件、短信的方式将告警通知发送给负责服务器运行的管理员;当为无法连通状态的故障告警时,以声音或短信的方式将告警通知发送给负责服务器硬件维护的管理员。第二种情况服务器网卡出现故障时,当为一级警告或二级警告状态时,以邮件或窗口的方式将告警通知发送给负责服务器运行的管理员和负责网络运行的管理员;当为无法连通状态时,以短信、声音或窗口的方式将告警通知发送给负责服务器硬件维护的管理员、负责网络设备维护的管理员、负责网络运行的管理员等。
上述具体实施方式仅是本发明的具体个案,本发明的专利保护范围包括但不限于上述具体实施方式,任何符合本发明的一种双重过滤的数据中心监控系统故障告警方法的权利要求书的且任何所述技术领域的普通技术人员对其所做的适当变化或替换,皆应落入本发明的专利保护范围。

Claims (3)

1.一种双重过滤的数据中心监控系统故障告警方法,其特征在于,其具体实现过程为:
设计资源监控模块、资源故障告警过滤器、告警通知方式过滤器、通知处理引擎模块,基于上述四种模块,其具体告警过程为:
资源监控模块根据监测参数,经过细粒度的划分,生成以监测参数为单位的监测项,并以此监测项为单位进行数据采集,产生各自的故障告警状态并选择各自的告警方式;
然后,资源故障告警过滤器和告警通知方式过滤器模块根据资源下属各监测项进行轮询数据采集时的故障状态,将故障告警状态、故障告警方式组合生成的第一层过滤器,基于该第一层过滤器产生的故障推送到通知处理引擎模块进入下一层过滤;
最后,通知处理引擎模块接收到经过第一层过滤器过滤的故障告警,生成告警通知后,再经由以资源故障告警状态、故障告警方式和系统管理员的选择组合为依据的第二层过滤器,将故障告警通知发送到负责处理故障的管理员处。
2.根据权利要求1所述的一种双重过滤的数据中心监控系统故障告警方法,其特征在于,所述故障告警状态包括故障恢复、一级警告、二级警告和无法连通四种,告警方式包括邮件、短信、窗口和声音四种;
相对应的,第一层过滤器的生成过程为:
以资源故障级别为依据的故障恢复、一级警告、二级警告和无法连通四种级别自由组合的告警策略,以告警方式为依据的邮件、短信、窗口和声音四种告警方式自由组合的告警策略,将两种告警策略进行组合后生成上述第一层过滤器。
3.根据权利要求2所述的一种双重过滤的数据中心监控系统故障告警方法,其特征在于,所述系统管理员包括多种角色,该系统管理员包括数据库管理员、网络设备管理员和机房环境管理;相对应的,所述第二层过滤器则以上述四种资源故障告警状态、四种故障告警方式和多种系统管理员自由组合而成。
CN201410785902.0A 2014-12-18 2014-12-18 一种双重过滤的数据中心监控系统故障告警方法 Active CN104468224B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410785902.0A CN104468224B (zh) 2014-12-18 2014-12-18 一种双重过滤的数据中心监控系统故障告警方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410785902.0A CN104468224B (zh) 2014-12-18 2014-12-18 一种双重过滤的数据中心监控系统故障告警方法

Publications (2)

Publication Number Publication Date
CN104468224A true CN104468224A (zh) 2015-03-25
CN104468224B CN104468224B (zh) 2018-02-23

Family

ID=52913633

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410785902.0A Active CN104468224B (zh) 2014-12-18 2014-12-18 一种双重过滤的数据中心监控系统故障告警方法

Country Status (1)

Country Link
CN (1) CN104468224B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107102932A (zh) * 2017-04-20 2017-08-29 北京云控安创信息技术有限公司 一种数据中心综合报警系统和方法
CN108243061A (zh) * 2017-10-10 2018-07-03 北京车和家信息技术有限公司 基于Nagios的设备监控方法、装置及计算机设备
CN109284215A (zh) * 2018-09-20 2019-01-29 郑州云海信息技术有限公司 一种数据中心的监控平台的告警方法和装置
CN109802853A (zh) * 2018-12-13 2019-05-24 视联动力信息技术股份有限公司 一种业务质量分级的方法和装置
CN112688796A (zh) * 2020-12-11 2021-04-20 贵州电网有限责任公司 一种it资产自动预警、告警功能的监控方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060244585A1 (en) * 2005-04-14 2006-11-02 Bishop Reid J Method and system for providing alarm reporting in a managed network services environment
CN101136799A (zh) * 2007-09-20 2008-03-05 中兴通讯股份有限公司 一种实现通讯设备故障集中告警处理的方法
US20100052924A1 (en) * 2008-09-04 2010-03-04 AT&T Intellectual Property,I, LP Method and System for Detecting and Managing a Fault Alarm Storm
CN101989931A (zh) * 2010-12-15 2011-03-23 成都勤智数码科技有限公司 一种运维告警处理方法和装置
CN102314392A (zh) * 2011-08-09 2012-01-11 浪潮(北京)电子信息产业有限公司 一种计算机监控系统及监控告警的方法
CN102447570A (zh) * 2010-09-30 2012-05-09 中国移动通信集团福建有限公司 一种基于健康度分析的监控装置及方法
CN102546216A (zh) * 2010-12-30 2012-07-04 中国移动通信集团山东有限公司 网络管理系统中的告警消息处理方法及网络管理系统
CN103986612A (zh) * 2014-06-05 2014-08-13 浪潮电子信息产业股份有限公司 一种云数据中心中告警过滤方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060244585A1 (en) * 2005-04-14 2006-11-02 Bishop Reid J Method and system for providing alarm reporting in a managed network services environment
CN101136799A (zh) * 2007-09-20 2008-03-05 中兴通讯股份有限公司 一种实现通讯设备故障集中告警处理的方法
US20100052924A1 (en) * 2008-09-04 2010-03-04 AT&T Intellectual Property,I, LP Method and System for Detecting and Managing a Fault Alarm Storm
CN102447570A (zh) * 2010-09-30 2012-05-09 中国移动通信集团福建有限公司 一种基于健康度分析的监控装置及方法
CN101989931A (zh) * 2010-12-15 2011-03-23 成都勤智数码科技有限公司 一种运维告警处理方法和装置
CN102546216A (zh) * 2010-12-30 2012-07-04 中国移动通信集团山东有限公司 网络管理系统中的告警消息处理方法及网络管理系统
CN102314392A (zh) * 2011-08-09 2012-01-11 浪潮(北京)电子信息产业有限公司 一种计算机监控系统及监控告警的方法
CN103986612A (zh) * 2014-06-05 2014-08-13 浪潮电子信息产业股份有限公司 一种云数据中心中告警过滤方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王岳: ""网络设备故障实时告警系统设计与实现"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
钱枫: ""具有可配置告警过滤功能的网络故障管理系统研究"", 《万方数据》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107102932A (zh) * 2017-04-20 2017-08-29 北京云控安创信息技术有限公司 一种数据中心综合报警系统和方法
CN108243061A (zh) * 2017-10-10 2018-07-03 北京车和家信息技术有限公司 基于Nagios的设备监控方法、装置及计算机设备
CN109284215A (zh) * 2018-09-20 2019-01-29 郑州云海信息技术有限公司 一种数据中心的监控平台的告警方法和装置
CN109802853A (zh) * 2018-12-13 2019-05-24 视联动力信息技术股份有限公司 一种业务质量分级的方法和装置
CN109802853B (zh) * 2018-12-13 2022-04-12 视联动力信息技术股份有限公司 一种业务质量分级的方法和装置
CN112688796A (zh) * 2020-12-11 2021-04-20 贵州电网有限责任公司 一种it资产自动预警、告警功能的监控方法

Also Published As

Publication number Publication date
CN104468224B (zh) 2018-02-23

Similar Documents

Publication Publication Date Title
CN104468224A (zh) 一种双重过滤的数据中心监控系统故障告警方法
CN107995049B (zh) 电力安全区跨区同步故障监测方法、装置和系统
CN104268061B (zh) 一种适用于虚拟机的存储状态监控方法
CN104796273B (zh) 一种网络故障根源诊断的方法和装置
CN102111310B (zh) Cdn设备状态监控方法
CN104506357B (zh) 一种高可用集群节点管理方法
CN103473710A (zh) 一种集中运维系统的故障分级处理方法
CN103067209B (zh) 一种心跳模块自检测方法
CN109002031A (zh) 一种应用于监测系统设备故障诊断及智能预警的方法
CN103532738B (zh) 一种端口连接关系的确定方法及装置
CN102255764A (zh) 传输网故障诊断方法及装置
CN106685676A (zh) 一种节点切换方法及装置
CN103986604A (zh) 网络故障定位方法和装置
CN107658980A (zh) 一种用于复核电网监控告警信息的分析方法和系统
CN104091622A (zh) 一种核电站数字化控制系统可用率评估方法及系统
CN104283718B (zh) 网络设备及用于网络设备的硬件故障诊断方法
CN104104542B (zh) 一种基于rs485的实时智能排障方法
CN105807722A (zh) 具备内部寄存器自复位功能的数值控制系统
CN107992981A (zh) 一种电力故障信息的处理反馈方法和装置
CN106452952A (zh) 一种检测集群系统通信状态的方法及网关集群
CN103763127A (zh) 一种设备状态告警监控方法及系统
CN106453504A (zh) 一种基于nginx服务器集群的监控系统及方法
CN106383286A (zh) 电力线路故障报警装置
CN105915426A (zh) 环形网络的故障恢复方法及装置
CN109062184A (zh) 双机应急救援设备、故障切换方法和救援系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant