CN104486106A - 一种分级告警服务系统 - Google Patents

一种分级告警服务系统 Download PDF

Info

Publication number
CN104486106A
CN104486106A CN201410737863.7A CN201410737863A CN104486106A CN 104486106 A CN104486106 A CN 104486106A CN 201410737863 A CN201410737863 A CN 201410737863A CN 104486106 A CN104486106 A CN 104486106A
Authority
CN
China
Prior art keywords
fault
alerting service
level
proxy module
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410737863.7A
Other languages
English (en)
Inventor
彭达
邹涛
陈飞舟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Western Hills Residence Guangzhou Shi You Network Technology Co Ltd
Zhuhai Kingsoft Online Game Technology Co Ltd
Original Assignee
Western Hills Residence Guangzhou Shi You Network Technology Co Ltd
Zhuhai Kingsoft Online Game Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Western Hills Residence Guangzhou Shi You Network Technology Co Ltd, Zhuhai Kingsoft Online Game Technology Co Ltd filed Critical Western Hills Residence Guangzhou Shi You Network Technology Co Ltd
Priority to CN201410737863.7A priority Critical patent/CN104486106A/zh
Publication of CN104486106A publication Critical patent/CN104486106A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种分级告警服务系统,包括设置于业务服务器上的告警服务代理模块,所述告警服务代理模块主动注册至告警服务中心服务器;所述告警服务代理模块在检测到业务服务器发生业务故障时,首先判断该故障是否为新故障,若是新故障,则判断其故障级别,并根据级别对该故障进行报警;若非新故障,则判断该故障发生的时间点是否超出原故障对应级别的处理时间,若超出,则重新发出告警信息。本发明可极大缩减告警信息的数量,并且在有重复告警信息时,可以过滤掉重复的告警信息,提高告警信息的处理效率。

Description

一种分级告警服务系统
技术领域
本发明涉及互联网领域,特别是一种分级告警服务系统。
背景技术
互联网业务的更新迭代周期往往以周甚至天计,如此快速上线的业务在上线后经常暴露出相当多的问题,而这些业务对应的后台服务中,对业务故障会设置告警通知。当业务服务器规模较大时,一旦业务出现故障,业务服务器往往会下发大量的告警通知到相关人员。一方面,大量告警信息是一种资源浪费;另一方面,真正重要的信息会被淹没或延误。目前的做法是屏蔽和限制该业务的告警量的方式,但其过于简单粗暴,使业务相关人员不能及时掌握完整的有用信息。
发明内容
为解决上述问题,本发明的目的在于提供一种分级告警服务系统,减少大规模服务器故障时的报警量,获取有用的报警信息,提高故障报警的处理效率。
本发明解决其问题所采用的技术方案是:
一种分级告警服务系统,包括设置于业务服务器上的告警服务代理模块,所述告警服务代理模块主动注册至告警服务中心服务器;
所述告警服务代理模块在检测到业务服务器发生业务故障时,首先判断该故障是否为新故障,若是新故障,则判断其故障级别,并根据级别对该故障进行报警;若非新故障,则由告警服务中心服务器判断该故障发生的时间点是否超出原故障对应级别的处理时间,若超出,则重新发出告警信息。
进一步,所述告警服务代理模块在检测到业务服务器发生业务故障时,收集对应的故障信息进行本地缓存,同时将故障信息上传至告警服务中心服务器。
进一步,所述故障信息包括故障时间点、发生点、具体表现、业务进程文件的大小和md5值,以及log信息。
进一步,所述告警服务代理模块根据故障类型以及本地缓存的故障信息确定该故障是否为新故障。
进一步,所述故障级别根据业务的重要度和紧急度被划分为秒级、分钟级、小时级、天级和周级,所述秒级、分钟级、小时级、天级和周级分别规定了对应的故障恢复的时间段。
进一步,所述告警服务代理模块根据级别对故障进行报警时,若为秒级,则由告警服务代理模块直接发出告警信息。
进一步,所述告警服务代理模块在检测到业务服务器发生业务故障非新故障时,由告警服务中心服务器检测该故障所对应的级别,获取该级别所对应的恢复时间段,并检测原故障在此时间段内是否恢复,若恢复,则结束该告警服务,否则,检测该故障是否超出恢复时间段,若超出,则重新发出告警信息。
本发明的有益效果是:
本发明采用一种分级告警服务系统,在产生告警信息时,首先该故障是否为新故障,若为新故障,则判断故障的级别进行相应的处理,若非新故障,则检测该故障是否已经恢复,若未恢复,则判断该故障是否在限定的恢复时间段内,若超出规定时间段,则重新发出告警。由此,本发明可极大缩减告警信息的数量,并且在有重复告警信息时,可以过滤掉重复的告警信息,提高告警信息的处理效率。
附图说明
下面结合附图和实例对本发明作进一步说明。
图1是本发明所述分级系统的处理流程示意图。
具体实施方式
参照图1所示,本发明的一种分级告警服务系统,包括设置于业务服务器上的告警服务代理模块,所述告警服务代理模块主动注册至告警服务中心服务器;
所述告警服务代理模块在检测到业务服务器发生业务故障时,首先判断该故障是否为新故障,若是新故障,则判断其故障级别,并根据级别对该故障进行报警;若非新故障,则由告警服务中心服务器判断该故障发生的时间点是否超出原故障对应级别的处理时间,若超出,则重新发出告警信息。
本发明中,告警服务代理模块在检测到业务服务器发生业务故障时,收集对应的故障信息进行本地缓存,同时将故障信息上传至告警服务中心服务器。故障信息包括故障时间点、发生点、具体表现、业务进程文件的大小和md5值,以及log信息等,通过与本地缓存的故障信息进行对比,若与本地缓存的故障信息重合,则非新故障,否则,即为新故障。为了便于判断,在缓存故障信息时,可以对故障信息按照类型进行划分,在判断时,首先判断该故障的类型,然后与本地缓存中的故障信息进行对比。
为减少告警信息的数量,本发明对故障进行级别划分,所述故障级别根据业务的重要度和紧急度被划分为秒级、分钟级、小时级、天级和周级,所述秒级、分钟级、小时级、天级和周级分别规定了对应的故障恢复的时间段。当所述告警服务代理模块根据级别对故障进行报警时,若为秒级,则由告警服务代理模块直接发出告警信息。若所述告警服务代理模块在检测到业务服务器发生业务故障非新故障时,由告警服务中心服务器检测该故障所对应的级别,获取该级别所对应的恢复时间段,并检测原故障在此时间段内是否恢复,若恢复,则结束该告警服务,否则,检测该故障是否超出恢复时间段,若超出,则重新发出告警信息。
所述告警级别秒级、分钟级、小时级、天级和周级分别规定的故障恢复的时间段可以根据实际业务具体设置,包括业务处理的紧急程度、重要程度等,如可分别对应10秒内、5分钟内、1小时内(8小时内或24小时内)、3天内、7天内等。
以上所述,只是本发明的较佳实施例而已,本发明并不局限于上述实施方式,只要其以相同的手段达到本发明的技术效果,都应属于本发明的保护范围。

Claims (7)

1.一种分级告警服务系统,其特征在于,包括设置于业务服务器上的告警服务代理模块,所述告警服务代理模块主动注册至告警服务中心服务器;
所述告警服务代理模块在检测到业务服务器发生业务故障时,首先判断该故障是否为新故障,若是新故障,则判断其故障级别,并根据级别对该故障进行报警;若非新故障,则由告警服务中心服务器判断该故障发生的时间点是否超出原故障对应级别的处理时间,若超出,则重新发出告警信息。
2.根据权利要求1所述的分级告警服务系统,其特征在于,所述告警服务代理模块在检测到业务服务器发生业务故障时,收集对应的故障信息进行本地缓存,同时将故障信息上传至告警服务中心服务器。
3.根据权利要求2所述的分级告警服务系统,其特征在于,所述故障信息包括故障时间点、发生点、具体表现、业务进程文件的大小和md5值,以及log信息。
4.根据权利要求2或3所述的分级告警服务系统,其特征在于,所述告警服务代理模块根据故障类型以及本地缓存的故障信息确定该故障是否为新故障。
5.根据权利要求1所述的分级告警服务系统,其特征在于,所述故障级别根据业务的重要度和紧急度被划分为秒级、分钟级、小时级、天级和周级,所述秒级、分钟级、小时级、天级和周级分别规定了对应的故障恢复的时间段。
6.根据权利要求5所述的分级告警服务系统,其特征在于,所述告警服务代理模块根据级别对故障进行报警时,若为秒级,则由告警服务代理模块直接发出告警信息。
7.根据权利要求5所述的分级告警服务系统,其特征在于,所述告警服务代理模块在检测到业务服务器发生业务故障非新故障时,由告警服务中心服务器检测该故障所对应的级别,获取该级别所对应的恢复时间段,并检测原故障在此时间段内是否恢复,若恢复,则结束该告警服务,否则,检测该故障是否超出恢复时间段,若超出,则重新发出告警信息。
CN201410737863.7A 2014-12-04 2014-12-04 一种分级告警服务系统 Pending CN104486106A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410737863.7A CN104486106A (zh) 2014-12-04 2014-12-04 一种分级告警服务系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410737863.7A CN104486106A (zh) 2014-12-04 2014-12-04 一种分级告警服务系统

Publications (1)

Publication Number Publication Date
CN104486106A true CN104486106A (zh) 2015-04-01

Family

ID=52760614

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410737863.7A Pending CN104486106A (zh) 2014-12-04 2014-12-04 一种分级告警服务系统

Country Status (1)

Country Link
CN (1) CN104486106A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106161058A (zh) * 2015-04-02 2016-11-23 腾讯科技(深圳)有限公司 一种告警分级方法及装置
CN106649055A (zh) * 2017-01-10 2017-05-10 山东浪潮云服务信息科技有限公司 一种基于国产cpu和操作系统的软硬件故障告警系统及方法
CN107800553A (zh) * 2016-09-05 2018-03-13 中兴通讯股份有限公司 一种管理设备故障的方法和装置
CN112349073A (zh) * 2020-10-28 2021-02-09 广州鸿大智能科技有限公司 动力环境告警方法、装置和存储介质
CN114167784A (zh) * 2021-12-08 2022-03-11 齐鲁工业大学 一种机器人控制系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6925586B1 (en) * 2002-05-09 2005-08-02 Ronald Perrella Methods and systems for centrally-controlled client-side filtering
CN101201786A (zh) * 2006-12-13 2008-06-18 中兴通讯股份有限公司 一种故障日志监控方法及装置
CN101389112A (zh) * 2008-11-03 2009-03-18 华为技术有限公司 告警处理方法、装置和系统
CN102447570A (zh) * 2010-09-30 2012-05-09 中国移动通信集团福建有限公司 一种基于健康度分析的监控装置及方法
CN103473710A (zh) * 2013-08-20 2013-12-25 国家电网公司 一种集中运维系统的故障分级处理方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6925586B1 (en) * 2002-05-09 2005-08-02 Ronald Perrella Methods and systems for centrally-controlled client-side filtering
CN101201786A (zh) * 2006-12-13 2008-06-18 中兴通讯股份有限公司 一种故障日志监控方法及装置
CN101389112A (zh) * 2008-11-03 2009-03-18 华为技术有限公司 告警处理方法、装置和系统
CN102447570A (zh) * 2010-09-30 2012-05-09 中国移动通信集团福建有限公司 一种基于健康度分析的监控装置及方法
CN103473710A (zh) * 2013-08-20 2013-12-25 国家电网公司 一种集中运维系统的故障分级处理方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106161058A (zh) * 2015-04-02 2016-11-23 腾讯科技(深圳)有限公司 一种告警分级方法及装置
CN106161058B (zh) * 2015-04-02 2020-07-03 腾讯科技(深圳)有限公司 一种告警分级方法及装置
CN107800553A (zh) * 2016-09-05 2018-03-13 中兴通讯股份有限公司 一种管理设备故障的方法和装置
CN106649055A (zh) * 2017-01-10 2017-05-10 山东浪潮云服务信息科技有限公司 一种基于国产cpu和操作系统的软硬件故障告警系统及方法
CN112349073A (zh) * 2020-10-28 2021-02-09 广州鸿大智能科技有限公司 动力环境告警方法、装置和存储介质
CN114167784A (zh) * 2021-12-08 2022-03-11 齐鲁工业大学 一种机器人控制系统及方法
CN114167784B (zh) * 2021-12-08 2023-10-20 齐鲁工业大学 一种机器人控制系统及方法

Similar Documents

Publication Publication Date Title
CN104486106A (zh) 一种分级告警服务系统
CN107515796B (zh) 一种设备异常监控处理方法及装置
WO2017152763A1 (zh) 物理机故障分类处理方法、装置和虚拟机恢复方法、系统
CN104410067B (zh) 一种基于公变和用户采集大数据分析的台区停电分析方法
CN100344132C (zh) 一种保证以太网自动保护系统环正常工作的方法
CN102404141B (zh) 一种告警抑制的方法及装置
CN103856339A (zh) 一种对告警信息进行压缩的方法和设备
CN104753700A (zh) 告警风暴处理方法以及告警风暴处理系统
CN104038373A (zh) 信息预警与自修复系统及方法
CN104104542B (zh) 一种基于rs485的实时智能排障方法
CN102263670A (zh) 一种告警消息的上报处理方法及装置
CN104935456A (zh) 通信网络告警系统的告警消息传输和处理方法
CN105676077A (zh) 高压电缆局部放电在线监测的报警方法、装置及系统
CN104168137A (zh) 一种告警压缩的方法
CN102314392A (zh) 一种计算机监控系统及监控告警的方法
CN108204331B (zh) 风力发电机组的故障处理方法及装置
CN103378981A (zh) 网管系统中振荡告警的处理方法及装置
CN103905271A (zh) 一种告警风暴抑制方法
CN102567182A (zh) 远程主机的监控方法
CN104348653A (zh) 云管理平台的用户任务实现方法、系统与触发器
CN105958652A (zh) 基于大数据分析的无人值守变电站预警系统及方法
CN101247265A (zh) 一种告警处理方法、装置和系统
CN204241933U (zh) 一种危化品在途监控与事故应急救援系统
CN110809262A (zh) 一种基于coap协议的物联网设备运维管理方法
CN107612755A (zh) 一种云资源的管理方法及其装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150401

RJ01 Rejection of invention patent application after publication