CN103647662B - 一种故障监测报警方法及装置 - Google Patents

一种故障监测报警方法及装置 Download PDF

Info

Publication number
CN103647662B
CN103647662B CN201310656584.3A CN201310656584A CN103647662B CN 103647662 B CN103647662 B CN 103647662B CN 201310656584 A CN201310656584 A CN 201310656584A CN 103647662 B CN103647662 B CN 103647662B
Authority
CN
China
Prior art keywords
warning message
alarm
team
information
failure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310656584.3A
Other languages
English (en)
Other versions
CN103647662A (zh
Inventor
曾文杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201310656584.3A priority Critical patent/CN103647662B/zh
Publication of CN103647662A publication Critical patent/CN103647662A/zh
Application granted granted Critical
Publication of CN103647662B publication Critical patent/CN103647662B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Alarm Systems (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种故障监测报警方法,包括:获取系统报警信息;将报警信息插入预设的多个报警组队列中;随机选取预定数目的报警组队列,并将从中取出的报警信息插入发送队列;对所述发送队列中的报警信息进行合并;发送所述发送队列中的报警信息。本发明每个报警组的发送机会均等,且通过合并报警信息提高了发送效率,解决了突发状况下报警信息积压而得不到及时解决的问题。

Description

一种故障监测报警方法及装置
技术领域
本发明涉及设备故障检测领域,尤其涉及一种故障监测报警方法及装置。
背景技术
随着信息网络技术的不断发展,各类规模大小不等、设备种类、数量不同的网络设备机房广泛分布于各分支机构所在地域,由于欠缺与运行网络的规模体系相对称的运维系统,数量众多的无人值守机房的物理运行环境状况、设备运行状况、人员活动状况以及消防状况的变化包括可能出现的微机状况,均无法得到及时的发现和处理,也就很难被有效预见、防范和避免。因此一套完善的机房监控系统对于机房环境监控非常重要。
为保证组织的安全、稳定、高效运行,保证网络设备的良好运行状态和设备使用寿命与安全,实现用户的最大投资效益,就有必要对网络运行环境的电力供应、温度、湿度、漏水、空气含尘量等诸多环境变量,UPS、空调、新风、除尘、除湿等诸多设备运行状态变量,进行24小时实时监测与智能化调节控制,以保证网络运行环境的稳定与网络软硬件资源、设备的安全以及相关信息数据资产的安全。
目前的网络系统设备,通过网络与路由器、服务器、小型机等建立通讯联系,直接从这些网络设备中获取各种信息,通讯过程采用国际上通用的简单网络管理协议(SNMP),无需在网络设备上添加任何应用程序,即可监控机房内服务器、路由器、工作站及其他网络设备的工作状态;记录网络设备的启停时间、网络流量-时间曲线;统计通讯繁忙程度、通讯可靠性;对于服务器非法关机、通讯拥塞或通讯瘫痪等严重事件立即给出报警信息,并弹出该网络设备的相应画面和处理建议,保障网络系统的网络系统的安全可靠性。
在检测到设备故障后,可根据告警类型、等级、时间、位置、屏蔽等因素按照预定规则自动将告警通知相关人员,通知方式可包括现场声光报警、电话、手机短信或E-mail等。然而,随着目前机房系统规模的增大,需要监控的设备数量相应增多,所监控设备的功能也相应增多,在出现突发状况时,可能一台服务器的故障会引发上百条、甚至上千条的报警信息,这样容易积压报警信息,使得其他设备或组件的报警信息难以及时送达接收方,致使故障难以及时解决,降低了故障修复效率,甚至会引发大的经济损失。
发明内容
为解决现有技术中存在的上述问题,本发明提出了一种故障监测方法及装置。
根据本发明一方面,其提供了一种故障监测报警方法,包括:
获取系统报警信息;
将报警信息插入预设的多个报警组队列中;
随机选取预定数目的报警组队列,并将从中取出的第二预定数目的报警信息插入发送队列;
对所述发送队列中的报警信息进行合并;
发送所述发送队列中的报警信息。
可选地,所述将报警信息插入预设的多个报警组队列中包括:根据预设的对应关系,将报警信息插入对应的报警组队列中。
可选地,所述对所述发送队列中的报警信息进行合并包括:根据接收方信息对所述发送队列中的报警信息进行合并。
可选地,在对所述发送队列中的报警信息进行合并之前,还包括:判断所述报警信息是否为可合并信息,若所述报警信息为可合并信息则进行合并,若所述报警信息为不可合并信息则直接发送。
可选地,所述根据接收方信息对所述发送队列中的报警信息进行合并包括:获取针对指定接收方的信息的长度,若信息长度超过预设阈值则停止针对此接收方的信息的合并。
可选地,所述发送所述报警队列中的报警信息包括:通过邮件、短信和/或特定应用方式发送所述报警信息。
可选地,还包括:若监测到系统故障恢复,则从所述报警组队列中删除所述报警信息。
根据本发明的另一方面,其还提供了一种故障监测报警装置,包括:
获取模块,用于获取系统报警信息;
分组模块,用于将报警信息插入预设的多个报警组队列中;
队列模块,用于随机选取预定数目的报警组队列,并将从中取出的第二预定数目的报警信息插入发送队列;
合并模块,用于对所述发送队列中的报警信息进行合并;
发送模块,用于发送所述发送队列中的报警信息。
可选地,所述分组模块根据预设的对应关系,将报警信息插入对应的报警组队列中。
可选地,所述合并模块根据接收方信息对所述发送队列中的报警信息进行合并。
可选地,所述合并模块在对所述发送队列中的报警信息进行合并之前,判断所述报警信息是否为可合并信息,若所述报警信息为可合并信息则进行合并,否则不进行合并。
可选地,所述合并模块获取针对指定接收方的信息的长度,若信息长度超过预设阈值则停止针对此接收方的信息的合并。
可选地,所述发送所述报警队列中的报警信息包括:通过邮件、短信和/或特定应用方式发送所述报警信息。
可选地,还包括:
删除模块,其若监测到系统故障恢复,则从所述报警组队列中删除所述报警信息。
本发明提出的上述故障监测方法及装置,将报警信息分成不同的报警组队列,每次从随机选取的预定数量的报警组队列中取出一条报警信息,将其插入到发送队列,之后将所述发送队列中的信息合并后发送。本发明提出的这种方案使得每个报警组队列的报警信息能够均衡发送,通过控制发送队列的数量即每次只取预定数量的报警队列中的报警信息,使得每个报警组的发送机会均等,且通过合并报警信息提高了发送效率,解决了突发状况下报警信息积压而得不到及时解决的问题。本发明提出的上述方案不仅限于机房监控,本领域技术人员应当理解,其它大规模系统同样需要这样一种故障监测报警方法,以解决在突发状况下报警信息挤压的问题。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式加以说明。
附图说明
图1是本发明提出的一种故障监测报警方法的流程图;
图2是利用本发明提出的上述方案发送短信故障报警信息的流程图;
图3是本发明提出的一种故障监测报警装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
图1是本发明提出的一种故障监测报警方法的流程图。如图1所示,该方法包括:
步骤101:获取系统报警信息;
步骤102:将报警信息插入预设的多个报警组队列中;
步骤103:随机选取预定数目的报警组队列,并将从中取出的第二预定数目的报警信息插入发送队列;
步骤104:对所述发送队列中的报警信息进行合并;
步骤105:发送所述发送队列中的报警信息。
下面详细介绍本发明提出的上述故障监测报警方法的各个步骤。
系统故障检测的主要目的在于保护系统的正常、有效运行,在事故发生之前侦测出潜在危机,并通过各种方式将报警信息发送给相关人员及时进行处理。因此,系统监控的核心应该是对系统运行状态的监控,而最直接有效的监控应该是直接对系统中的设备运行状态进行监控。系统设备内部的运行环境,例如服务器内风扇转速与CPU温度等是最直接、最迅速影响系统设备正常运行的因素。此外,除了对系统设备的直接监控,还需要监控网络设备以及网络连接的正常运行。对网络设备以及网络连接的监控除了监控其硬件环境外,还可以通过上运行的网络平台来监控,如对于一网站设置其访问量的最小数目,若访问量低于所述最低阈值,则认为所述网络设备以及网络连接异常;而对于游戏网站、聊天工具等可以设置其当前在线人数的最低阈值,若在线人数少于最低阈值,则认为发生异常。
对于网络设备来说,故障的类型除了其设备内部的运行环境故障外,还包括网络物理连接如光线断了、交换机故障或网络堵塞等等。而系统监控主要实现的功能在于检测到故障后进行自动恢复,对于无法恢复的故障产生相应的系统报警信息,并按照一定的方式将报警信息发送给预定的接收方。
本发明提出的上述方法,获取到系统报警信息后,将系统报警信息插入预设的多个报警组队列中。所述系统报警信息包括故障id、故障类型、故障接收方和/或故障发送方式等。所述故障类型包括:产生故障的对象、具体故障描述以及故障等级等信息。本发明根据预设的对应关系将所述报警信息插入对应的报警组队列中。
可选地,本发明实施例中根据故障接收方和/或故障发送方式预先设置多个报警组队列,并根据故障接收方和/或故障发送方式与报警组队列的对应方式将报警信息插入到多个报警组队列中。所述故障接收方为负责相应故障维修的人员或人员组,所述故障发送方式包括短信、邮件或特定应用方式等。所述特定应用方式可以是专用或通用手机app等。可选地,对于不同的故障发送方式设置不同的报警队列,而对于同一种故障发送方式,可以根据故障接收方的不同设置不同的报警组队列。例如,为负责A设备维修的人员组设置了A报警组队列,则获取的系统报警信息为A设备的故障信息,则将该系统报警信息插入A报警组队列中。
例如,以邮件方式发送报警信息,由于其处理速度较快,所以可针对邮件发送方式设置一个报警组队列,而以短信发送方式发送报警信息,由于短线网关的处理速度较慢,所以为短信发送方式的报警信息设置多个报警组队列,每个报警组队列对应一个接收方,如一个或一组设备的故障维护人员等。不同的报警类型对应不同的报警组,例如网络故障对应报警组1、系统故障对应报警组2、机房故障对应报警组3……。
下面以邮件发送和短信发送两种方式举例说明。
首先,为邮件为发送方式的报警信息设置对应的邮件发送队列hermes_alarm_mail;
为短信为发送方式的报警信息设置对应的多个短信报警组队列:
hermes_balance_sms_报警组1;
hermes_balance_sms_报警组2;
……
hermes_balance_sms_报警组n;
若获取的报警信息的发送方式为邮件,则将该报警信息插入到邮件发送队列hermes_alarm_mail中;之后由邮件服务器将其发送给相应的接收方;
若获取的报警信息的发送方式为短信,则根据该报警信息对应的接收方插入至相应的短信报警组队列hermes_balance_sms_报警组i中。
本领域技术人员应当理解,上述仅是示例性说明,本发明的设置方式不限于此。例如,对于邮件发送方式的报警信息也可以设置多个报警组队列等。
对于多个报警组队列,按照其对应的发送方式将其交由相应的发送模块进行发送。所述发送模块包括邮件发送模块、短信发送模块和特定应发送模块等。所述发送模块从发送队列中逐条获取报警信息,并将报警信息发送至接收方。
由于本发明对于同一种发送方式可能设置有多个报警组队列,因此需要将多个报警组队列中的报警信息规整到一个最终发送队列中,交由发送模块发送。
众所周知,目前系统的规模越来越大,设备越来越复杂,需要监控的对象也越来越多。相应地,系统的故障也会随之增多。而像机房故障这类故障会产生大量的报警,有可能报警信息成千上万条,如果同时交由发送模块发送,最后的结果是无法处理。因此,为了避免上述情况的发生,本发明在将报警信息交友发送模块发送之前对其进行做进一步处理。
步骤103中,本发明通过随机选取对应同一种发送方式的预定数目的多个报警组队列,将从中取出的第二预定数目的报警信息插入到发送队列,并在步骤104中,将发送队列中的信息进行合并后发送。
所述预定数目和所述发送队列的大小相对应。由于发送模块与相应报警信息的发送网关如短信网关之间的交互是个瓶颈。例如,短信发送模块与移动网关之间的交互,由于短信发送模块的处理速度远远超出移动网关的处理速度,当有大量报警信息时,移动网关处就会造成拥堵。因此,本发明将发送队列的大小控制在预定数目之内,使得发送模块每次最多发送预定数目的报警信息给相应的发送网关。
因此,本发明在每次发送报警信息之前,随机选取与所述发送队列大小对应一致的预定数目个报警组队列,并从每个报警组队列对头取出第二预定数目(例如一条)的报警信息后将其插入到发送队列。
下面以与短信发送方式对应的多个报警组队列为例详细说明。假设短信发送方式对应的报警组队列为n个:
hermes_balance_sms_报警组1;
hermes_balance_sms_报警组2;
……
hermes_balance_sms_报警组n;
发送模块从中选取m个报警组队列,m也为发送队列的大小,队列是先进先出存取方式,因此从选取的m个报警组队列的队头分别取出一条报警信息,并将所取出的m条报警信息放入发送队列中。其中,从n个报警组队列随机选取m个报警组队列,可以通过随机抽取报警组队列的id号进行选取,也可以将报警组队列的排列顺序进行混乱之后,选取第1-m个报警组队列。
本发明通过随机选取报警组队列保证了每个报警组队列中的报警信息都有均等的发送机会。假如,n=100,m=20,如果不使用随机选取方式,且每次轮询时,第1-20个报警组队列中始终能够取出20条报警信息,则第21~100个报警组队列的报警信息就没有机会发送,这样延误报警时机,有可能造成严重后果。
本发明还对发送队列中的信息进行合并处理。可选地,本发明根据接收方信息对所述发送队列中的报警信息进行合并。如上所述,发送模块与相应网关的交互是个瓶颈,发送模块向相应网关发送的消息数目越多,网关的处理速度越慢。而如果将发送至同一接收方的报警信息进行合并压缩,就能相应提高网关的处理速度。以短信为例,在发送报警信息之前,遍历发送队列中的报警信息,如果有发往同一手机号的短信报警信息,则将其内容合并成一条短信后发往短信网关。
可选地,本发明还在合并报警信息之前判断所述报警信息是否为可合并信息,若所述报警信息为可合并信息则进行合并,若所述报警信息为不可合并信息则不对其进行合并。依然以短信为例说明。由于电信运营商规定每条短信字符数不能超出120个字符,因此如果合并后的短信内容超出120个字符,在短信网关处还需要将其拆分成多条短信,这样反而会降低短信网关的处理速度。
可选地,本发明在合并之前获取针对指定接收方的报警信息的长度,若信息长度超过预设阈值则不对其进行合并,而直接发送。以短信为例,假如合并过程中,发往接收人P的一条短信报警信息的长度超过预设阈值,如70,则可以确定其与其它信息进行合并的可能性不大,因此直接将该条报警信息发出,而不进行合并。
可选地,本发明还在监测到系统故障恢复后,则从所述报警组队列中删除所述报警信息。如果本发明检测到故障恢复消息后,检查所述报警组队列中相应的报警信息还未发出,则从报警组队列中删除。具体地,可以在将报警组队列中的报警信息插入发送队列的时候,通过故障id查看是否与故障恢复消息中的故障id相同,如果相同则直接丢弃该报警信息即可。
下面通过具体的示例详细说明从报警组队里发送报警信息的具体过程。
图2示出了利用本发明提出的上述方案发送短信故障报警信息的流程图。如图2所示,该方法包括:
步骤201:从n个短信报警组队列中随机选取m或小于m个短信报警组队列,并从中取出m条短信报警信息并插入发送队列;
步骤202:从发送队列逐条读取短信报警信息,并判断每条短信报警信息的长度是否大于等于70;
步骤203:若其长度大于等于70,则将其存储在发送队列的队尾,并读取下一条短信报警信息;
步骤204:若其长度小于70,则判断发送接收方是否存在于合并哈希数组中,其索引为短信报警信息的接收方手机号码,其值为短信报警信息内容;
步骤205:若不存在,则将其存储在合并哈希数组中,并读取下一条短息报警信息;
步骤206:若存在,且当前短信报警信息长度和合并哈希数组中所述接收方对应的哈希值长度之和小于120,则将合并哈希数组中所述接收方对应的哈希值修改为合并后的信息,并且合并后的信息长度大于等于70时,将其存储在发送队列的队尾,并从合并哈希数组中删除该值;
步骤207:将合并哈希数组中的所有值都存储在发送队列的队尾,并将发送队列中的报警信息发出,转步骤201进行下一轮处理。
下面通过具体实验说明本发明提出的上述方案中报警信息合并的具体效果,假设预设阈值为70,短信报警信息超高跟预设阈值70,则不进行合并。
假如发送队列中存储有下面三条短信报警信息:
[13900000000,test2]\\第一条短信报警信息的接收方手机号为“13900000000”,报警信息内容为“test2”,字数为5;
[13900000000,test3]\\第二条短信报警信息的接收方手机号为“13900000000”,报警信息内容为“test3”,字数为5;
[13900000000,test4]\\第三条短信报警信息的接收方手机号为“13900000000”,报警信息内容为“test4”,字数为5;
通过合并信息将发送队列中的报警信息发送完毕后,通过查看日志可以看出,最终发出去的短信报警信息为:
[13900000000,test2;test3;test4];\\所发出的短信报警信息的接收方为“13900000000”,短信报警信息内容为“test2;test3;test4”。可见,通过本发明的方案,上述发送队列中的三条短信报警信息由于接收方手机号相同,且报警信息内容字数未超70,故被合并成一条短信信息后发出,显然这种方式能够极大地提高报警效率。
假如发送队列中存储有下面两条短信报警信息:
[13900000000,test_send_msg3test_send_msg3test_send_msg3test_send_msg3test_send_msg3ffffxxxdddxxx];\\其接收方手机号为“13900000000”,报警信息内容为“test_send_msg3test_send_msg3test_send_msg3test_send_msg3test_send_msg3ffffxxxdddxxx”,其短信信息长度超过70;
[13900000000,test_send_msg3test_send_msg3test_send_msg3test_send_msg3test_send_msg3ffffxxxdddxxxddddd];\\其接收方手机号为“13900000000”,报警信息内容为“test_send_msg3test_send_msg3test_send_msg3test_send_msg3test_send_msg3ffffxxxdddxxxddddd”,其短信信息长度超70;
通过合并信息将发送队列中的报警信息发送完毕后,通过查看日志可以看出,最终发出的短信报警信息均为单独的:
[13900000000,test_send_msg3test_send_msg3test_send_msg3test_send_msg3test_send_msg3ffffxxxdddxxx]
[13900000000,test_send_msg3test_send_msg3test_send_msg3test_send_msg3test_send_msg3ffffxxxdddxxxddddd]
可见,这种情况下,由于发送队列中的两条短信报警信息的字数都超过预设阈值70,因此在实际发送时并为对其进行合并,而直接发出。
假如发送队列中存储有以下5条短信报警信息:
[13900000000,test2];\\其接收方手机号为“13900000000”,报警信息内容为“test2”,字数为5;
[13900000000,test3]
[13900000000,test4]
[13900000000,test_send_msg3test_send_msg3test_send_msg3test_send_msg3test_send_msg3ffffxxxdddxxx]\\其接收方手机号为“13900000000”,报警信息内容为“test_send_msg3test_send_msg3test_send_msg3test_send_msg3test_send_msg3ffffxxxdddxxx”,其短信信息长度超过70;
[13900000000,test_send_msg3test_send_msg3test_send_msg3test_send_msg3test_send_msg3ffffxxxdddxxxddddd]\\其接收方手机号为“13900000000”,报警信息内容为“test_send_msg3test_send_msg3test_send_msg3test_send_msg3test_send_msg3ffffxxxdddxxxddddd”,其短信信息长度超70;
通过合并信息将发送队列中的报警信息发送完毕后,通过查看日志可以看出,最终发出的短信报警信息为:
[13900000000,test_send_msg3test_send_msg3test_send_msg3test_send_msg3test_send_msg3ffffxxxdddxxx]
[13900000000,test_send_msg3test_send_msg3test_send_msg3test_send_msg3test_send_msg3ffffxxxdddxxxddddd]
[13900000000,test2;test3;test4;]
可见,前3条短信报警信息由于其内容字数未超70,且接收方手机号均相同,则被合并后发出,俄日后两条短信报警信息由于其内容字数超70,则被直接发出。
假如发送队列中存储有以下5条短信报警信息:
[13900000000,test_send_msg3test_send_msg3test_send_msg3test_send_msg3test_send_msg3ffffxxxdddxxxddddd]\\其接收方手机号为“13900000000”,报警信息内容为“test_send_msg3test_send_msg3test_send_msg3test_send_msg3test_send_msg3ffffxxxdddxxx”,其短信信息长度超过70;
[13900000000,test_send_msg3test_send_msg3test_send_msg3test_send_msg3test_send_msg3ffffxxxdddxxx]\\其接收方手机号为“13900000000”,报警信息内容为“test_send_msg3test_send_msg3test_send_msg3test_send_msg3test_send_msg3ffffxxxdddxxxddddd”,其短信信息长度超70;
[13900000000,test4]\\该短信报警信息的接收方手机号为“13900000000”,报警信息内容为“test4”,字数为5;
[13900000000,test3]\\该短信报警信息的接收方手机号为“13900000000”,报警信息内容为“test3”,字数为5;
[13900000000,test2]\\该短信报警信息的接收方手机号为“13900000000”,报警信息内容为“test2”,字数为5;
通过合并信息将发送队列中的报警信息发送完毕后,通过查看日志可以看出,最终发出的短信报警信息为:
[13900000000,test_send_msg3test_send_msg3test_send_msg3test_send_msg3test_send_msg3ffffxxxdddxxxddddd]
[13900000000,test_send_msg3test_send_msg3test_send_msg3test_send_msg3test_send_msg3ffffxxxdddxxx]
[13900000000,test4;test3;test2;]
可见,由于前两条发送队列中的短信报警信息由于字数超70,故直接发出,而后三条短信报警信息的接收方手机号相同,且字数未超70,故被合并后发出。
本领域技术人员应当理解,本发明提出的上述方案不限于对短信报警信息的发送,其适于任何发送方式的报警信息发送,也适用于多种发送方式混合的报警信息发送。
本发明提出的上述方案,通过将报警信息分组存储在报警组队列中,并在发送的时候通过随机取报警组队列中的报警信息,使得每个报警组队列中的报警信息都有均等的机会被发送出去,而且在发送之前,将同一接收方的信息进行合并发送,使得发送效率提高,避免了发送拥堵。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
图3示出了本发明提出的一种故障监测报警装置的结构示意图。如图3所示,该装置包括:
获取模块,用于获取系统报警信息;
分组模块,用于将报警信息插入预设的多个报警组队列中;
队列模块,用于随机选取预定数目的报警组队列,并将从中取出的第二预定数目的报警信息插入发送队列;
合并模块,用于对所述发送队列中的报警信息进行合并;
发送模块,用于发送所述发送队列中的报警信息。
其中,所述分组模块根据预设的对应关系,将报警信息插入对应的报警组队列中。所述系统报警信息包括故障id、故障类型、故障接收方和/或故障发送方式等。所述故障类型包括:产生故障的对象、具体故障描述以及故障等级等信息。本发明根据预设的对应关系将所述报警信息插入对应的报警组队列中。
可选地,本发明实施例中根据故障接收方和/或故障发送方式预先设置多个报警组队列,并根据故障接收方和/或故障发送方式与报警组队列的对应方式将报警信息插入到多个报警组队列中。所述故障接收方为负责相应故障维修的人员或人员组,所述故障发送方式包括短信、邮件或特定应用方式。所述特定应用方式可以是其他通讯工具、站内消息等。例如,对于不同的故障发送方式设置不同的报警队列,而对于同一种故障发送方式,可以根据故障接收方的不同设置不同的报警组队列。例如,为负责A设备维修的人员组设置了A报警组队列,则获取的系统报警信息为A设备的故障信息,则将该系统报警信息插入A报警组队列中。
由于本发明对于同一种发送方式可能设置有多个报警组队列,因此需要将多个报警组队列中的报警信息规整到一个最终发送队列中,交由发送模块发送。
所述队列模块通过随机选取对应同一种发送方式的预定数目的多个报警组队列,将从中取出的报警信息插入到发送队列,并由合并模块将发送队列中的信息进行合并后,由发送模块发送。
所述预定数目和所述发送队列的大小相对应。由于发送模块与相应的网关之间的交互是个瓶颈。例如,短信发送模块与移动网关之间的交互,由于短信发送模块的处理速度远远超出移动网关的处理速度,当有大量报警信息时,移动网关处就会造成拥堵。因此,本发明将发送队列的大小控制在预定数目之内,使得发送模块每次最多发送预定数目的报警信息给相应的网关。
因此,队列模块每次发送报警信息之前,随机选取与所述发送队列大小对应一致的预定数目个报警组队列,并从每个报警组队列对头取出第二预定数目的(例如一条)报警信息后将其插入到发送队列。
合并模块还对发送队列中的信息进行合并处理。可选地,本发明根据接收方信息对所述发送队列中的报警信息进行合并。如上所述,发送模块与相应网关的交互是个瓶颈,发送模块向相应网关发送的消息数目越多,网关的处理速度越慢。而如果将发送至同一接收方的报警信息进行合并压缩,就能相应提高网关的处理速度。
可选地,所述合并模块还在合并报警信息之前判断所述报警信息是否为可合并信息,若所述报警信息为可合并信息则进行合并,若所述报警信息为不可合并信息则不对其进行合并。
可选地,合并模块在合并之前获取针对指定接收方的报警信息的长度,若信息长度超过预设阈值则不对其进行合并,而直接发送。
可选地,删除模块还在监测到系统故障恢复消息后,则从所述报警组队列中删除所述报警信息。如果本发明检测到故障恢复消息后,检查所述报警组队列中相应的报警信息还未发出,则从报警组队列中删除。具体地,可以在将报警组队列中的报警信息插入发送队列的时候,通过故障id查看是否与故障恢复消息中的故障id相同,如果相同则直接丢弃该报警信息即可。
由于所述装置实施例基本相应于前述图1所示的方法实施例,故本实施例的描述中未详尽之处,可以参见前述实施例中的相关说明,在此就不赘述了。
本发明提出的上述方案可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种故障监测报警方法,包括:
获取系统报警信息;所述系统报警信息包括故障id、故障类型、故障接收方和/或故障发送方式;
根据故障接收方和/或故障发送方式预先设置多个报警组队列,根据故障接收方和/或故障发送方式与报警组队列的对应方式将报警信息插入预设的多个报警组队列中;
随机选取预定数目的报警组队列,并将从中取出的第二预定数目的报警信息插入发送队列;其中,所述预定数目与所述发送队列的大小相对应;
对所述发送队列中的报警信息进行合并;
发送所述发送队列中的报警信息。
2.如权利要求1所述的方法,其中,所述将报警信息插入预设的多个报警组队列中包括:根据预设的对应关系,将报警信息插入对应的报警组队列中。
3.如权利要求1所述的方法,其中,所述对所述发送队列中的报警信息进行合并包括:根据接收方信息对所述发送队列中的报警信息进行合并。
4.如权利要求1所述的方法,其中,在对所述发送队列中的报警信息进行合并之前,还包括:判断所述报警信息是否为可合并信息,若所述报警信息为可合并信息则进行合并,若所述报警信息为不可合并信息则直接发送。
5.如权利要求3所述的方法,其中,所述根据接收方信息对所述发送队列中的报警信息进行合并包括:获取针对指定接收方的信息的长度,若信息长度超过预设阈值则停止针对此接收方的信息的合并。
6.如权利要求1-4中任一项所述的方法,其中,所述发送所述报警队列中的报警信息包括:通过邮件、短信和/或特定应用方式发送所述报警信息。
7.如权利要求1-4中任一项所述的方法,还包括:若监测到系统故障恢复,则从所述报警组队列中删除所述报警信息。
8.一种故障监测报警装置,包括:
获取模块,用于获取系统报警信息;所述系统报警信息包括故障id、故障类型、故障接收方和/或故障发送方式;
分组模块,用于根据故障接收方和/或故障发送方式预先设置多个报警组队列,根据故障接收方和/或故障发送方式与报警组队列的对应方式将报警信息插入预设的多个报警组队列中;
队列模块,用于随机选取预定数目的报警组队列,并将从中取出的第二预定数目的报警信息插入发送队列;其中,所述预定数目与所述发送队列的大小相对应;
合并模块,用于对所述发送队列中的报警信息进行合并;
发送模块,用于发送所述发送队列中的报警信息。
9.如权利要求8所述的装置,其中,所述分组模块根据预设的对应关系,将报警信息插入对应的报警组队列中。
10.如权利要求8所述的装置,其中,所述合并模块根据接收方信息对所述发送队列中的报警信息进行合并。
11.如权利要求8所述的装置,其中,所述合并模块在对所述发送队列中的报警信息进行合并之前,判断所述报警信息是否为可合并信息,若所述报警信息为可合并信息则进行合并,否则不进行合并。
12.如权利要求10所述的装置,其中,所述合并模块获取针对指定接收方的信息的长度,若信息长度超过预设阈值则停止针对此接收方的信息的合并。
13.如权利要求8-11中任一项所述的装置,其中,所述发送所述报警队列中的报警信息包括:通过邮件、短信和/或特定应用方式发送所述报警信息。
14.如权利要求8-11中任一项所述的装置,还包括:
删除模块,其若监测到系统故障恢复,则从所述报警组队列中删除所述报警信息。
CN201310656584.3A 2013-12-06 2013-12-06 一种故障监测报警方法及装置 Expired - Fee Related CN103647662B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310656584.3A CN103647662B (zh) 2013-12-06 2013-12-06 一种故障监测报警方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310656584.3A CN103647662B (zh) 2013-12-06 2013-12-06 一种故障监测报警方法及装置

Publications (2)

Publication Number Publication Date
CN103647662A CN103647662A (zh) 2014-03-19
CN103647662B true CN103647662B (zh) 2017-08-11

Family

ID=50252823

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310656584.3A Expired - Fee Related CN103647662B (zh) 2013-12-06 2013-12-06 一种故障监测报警方法及装置

Country Status (1)

Country Link
CN (1) CN103647662B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105024863A (zh) * 2015-08-10 2015-11-04 上海斐讯数据通信技术有限公司 网络告警的处理方法、告警服务器和网络告警处理系统
CN106850391B (zh) * 2015-12-07 2020-07-14 天维尔信息科技股份有限公司 基于互联网的报警处置方法和系统
CN106294066B (zh) * 2016-08-01 2019-01-15 北京百度网讯科技有限公司 报警数据处理方法及装置
CN106411639A (zh) * 2016-09-18 2017-02-15 合网络技术(北京)有限公司 访问数据的监控方法及系统
CN110688085A (zh) * 2019-09-30 2020-01-14 东莞市李群自动化技术有限公司 一种分组数据提取方法、操作方法及相关装置
CN111844029A (zh) * 2020-07-09 2020-10-30 上海有个机器人有限公司 机器人预警监控方法及装置
CN117395198B (zh) * 2023-12-11 2024-02-20 国网浙江省电力有限公司 一种电力通信网络拥塞报警方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1735038A (zh) * 2004-08-02 2006-02-15 华为技术有限公司 网管系统中提高告警数据处理速度的方法
CN101192332A (zh) * 2006-11-23 2008-06-04 中兴通讯股份有限公司 告警系统和方法
CN101425924A (zh) * 2008-06-12 2009-05-06 广东高新兴通信股份有限公司 一种对集中监控系统的告警数据的处理方法
CN102118275A (zh) * 2009-12-30 2011-07-06 大唐移动通信设备有限公司 一种告警风暴的处理方法及处理装置
CN102625349A (zh) * 2012-03-09 2012-08-01 浪潮通信信息系统有限公司 一种告警风暴下的数据处理方法
CN103220173A (zh) * 2013-04-09 2013-07-24 北京搜狐新媒体信息技术有限公司 一种报警监控方法及监控系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1735038A (zh) * 2004-08-02 2006-02-15 华为技术有限公司 网管系统中提高告警数据处理速度的方法
CN101192332A (zh) * 2006-11-23 2008-06-04 中兴通讯股份有限公司 告警系统和方法
CN101425924A (zh) * 2008-06-12 2009-05-06 广东高新兴通信股份有限公司 一种对集中监控系统的告警数据的处理方法
CN102118275A (zh) * 2009-12-30 2011-07-06 大唐移动通信设备有限公司 一种告警风暴的处理方法及处理装置
CN102625349A (zh) * 2012-03-09 2012-08-01 浪潮通信信息系统有限公司 一种告警风暴下的数据处理方法
CN103220173A (zh) * 2013-04-09 2013-07-24 北京搜狐新媒体信息技术有限公司 一种报警监控方法及监控系统

Also Published As

Publication number Publication date
CN103647662A (zh) 2014-03-19

Similar Documents

Publication Publication Date Title
CN103647662B (zh) 一种故障监测报警方法及装置
CN111556083B (zh) 电网信息物理系统网络攻击物理侧与信息侧协同溯源装置
CN108063753A (zh) 一种信息安全监测方法及系统
KR101977731B1 (ko) 제어 시스템의 이상 징후 탐지 장치 및 방법
CN109150869B (zh) 一种交换机信息采集分析系统及方法
CN108092836A (zh) 一种服务器的监控方法及装置
CN102447707B (zh) 一种基于映射请求的DDoS检测与响应方法
KR20150037285A (ko) 침입 탐지 장치 및 방법
CN107508831A (zh) 一种基于总线的入侵检测方法
CN106209902A (zh) 一种应用于知识产权运营平台的网络安全系统及检测方法
CN108092847A (zh) 一种电力lte无线终端远程在线监控方法
CN107800783A (zh) 远程监控服务器的方法及装置
CN104065622A (zh) 网络设备的安全预警方法及装置
Rajesh et al. Detection and blocking of replay, false command, and false access injection commands in scada systems with modbus protocol
CN107995287A (zh) 一种通过ipmi远程监控数据中心节点健康状态的方法
CN111669371B (zh) 一种适用于电力网络的网络攻击还原系统及方法
CN110445694A (zh) 一种基于Zabbix监控触发通知的方法
CN108183884A (zh) 一种网络攻击判定方法及装置
CN113225342B (zh) 一种通信异常检测方法、装置、电子设备及存储介质
CN110516442A (zh) 一种配电网安全防御系统、方法、装置、设备及存储介质
CN106445789A (zh) 一种监控可视化方法及系统
CN112152895A (zh) 智能家居设备控制方法、装置、设备及计算机可读介质
CN105353713A (zh) 机房监控系统
CN113742124B (zh) 一种基于can总线的智能io出口自检方法及其系统
CN109547295A (zh) 一种通讯网络的在线修复平台及其修复方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170811

Termination date: 20211206