CN104601369A - It运维报警方法、装置和系统 - Google Patents

It运维报警方法、装置和系统 Download PDF

Info

Publication number
CN104601369A
CN104601369A CN201410778051.7A CN201410778051A CN104601369A CN 104601369 A CN104601369 A CN 104601369A CN 201410778051 A CN201410778051 A CN 201410778051A CN 104601369 A CN104601369 A CN 104601369A
Authority
CN
China
Prior art keywords
run case
event
alert event
alarm
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410778051.7A
Other languages
English (en)
Inventor
马洪军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CEC CYBERSPACE GREAT WALL Co Ltd
Original Assignee
CEC CYBERSPACE GREAT WALL Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CEC CYBERSPACE GREAT WALL Co Ltd filed Critical CEC CYBERSPACE GREAT WALL Co Ltd
Priority to CN201410778051.7A priority Critical patent/CN104601369A/zh
Publication of CN104601369A publication Critical patent/CN104601369A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Alarm Systems (AREA)

Abstract

本发明公开了一种IT运维报警方法、装置和系统。该方法包括:接收IT设备的运行事件;根据预先设置的事件关联规则,判断所述运行事件是否为报警事件;若判断出所述运行事件为报警事件时,输出所述报警事件。本发明提供的技术方案中,接收IT设备的运行事件,根据预先设置的事件关联规则判断运行事件是否为报警事件,若判断出运行事件为报警事件时输出报警事件,本发明避免了虚假报警和重复报警,从而降低了运维成本,减少了真正故障排除的时间以及提高了IT服务的可用性。

Description

IT运维报警方法、装置和系统
技术领域
本发明涉及IT运维服务领域,特别涉及一种IT运维报警方法、装置和系统。
背景技术
当前,在IT运维服务过程中,IT运维报警系统会收到每个设备的多个运行参数。通常IT运维报警系统会判断单个设备的单一运行参数是否超过阈值,若该设备的任意一个运行参数超过阈值时,IT运维报警系统均会报警。
上述方案会导致大量虚假报警和重复报警的出现,例如:网络带宽瞬间升高引起的报警,域名系统(Domain Name System,简称:DNS)不可用引起的网络故障报警、服务不可用报警、DNS故障报警等。上述虚假报警和重复报警,不但提升了运维成本,而且极大延长了真正故障排除的时间,降低了IT服务的可用性。
发明内容
本发明提供一种IT运维报警方法、装置和系统,用于降低运维成本、减少真正故障排除的时间以及提高IT服务的可用性。
为实现上述目的,本发明提供了一种IT运维报警方法,包括:
接收IT设备的运行事件;
根据预先设置的事件关联规则,判断所述运行事件是否为报警事件;
若判断出所述运行事件为报警事件时,输出所述报警事件。
可选地,所述事件关联规则包括大于设定阈值且持续接收时间大于或等于设定时间的运行事件为报警事件;
所述根据预先设置的事件关联规则,判断所述运行事件是否为报警事件包括:
统计持续接收到所述运行事件的持续接收时间;
判断所述运行事件是否大于设定阈值且所述持续接收时间是否大于或者等于设定时间;
若判断出所述运行事件大于设定阈值且所述持续接收时间大于或者等于设定时间时,确定出所述运行事件为报警事件。
可选地,所述事件关联规则还包括与所述报警事件对应的报警优先级;
所述方法还包括:
根据预先设置的事件关联规则,查询出与所述报警事件对应的报警优先级;
根据所述报警优先级输出所述报警事件。
可选地,所述接收IT设备的运行事件包括:
持续接收IT设备的多个同一所述运行事件。
为实现上述目的,本发明提供了一种IT运维报警装置,包括:
接收模块,用于接收IT设备的运行事件;
判断模块,用于根据预先设置的事件关联规则,判断所述运行事件是否为报警事件;
输出模块,用于若所述判断模块判断出所述运行事件为报警事件时,输出所述报警事件。
可选地,所述输出模块为显示模块;
所述显示模块用于若所述判断模块判断出所述运行事件为报警事件时,显示所述报警事件。
可选地,所述事件关联规则包括大于设定阈值且持续接收时间大于或等于设定时间的运行事件为报警事件;
所述判断模块包括:
统计子模块,用于统计持续接收到所述运行事件的持续接收时间;
判断子模块,用于判断所述运行事件是否大于设定阈值且所述持续接收时间是否大于或者等于设定时间;
确定子模块,用于若所述判断子模块判断出所述运行事件大于设定阈值且所述持续接收时间大于或者等于设定时间时,确定出所述运行事件为报警事件。
可选地,所述事件关联规则还包括与所述报警事件对应的报警优先级;
所述装置还包括:查询模块;
所述查询模块,用于根据预先设置的事件关联规则,查询出与所述报警事件对应的报警优先级;
所述输出模块具体用于根据所述报警优先级输出所述报警事件。
为实现上述目的,本发明提供了一种IT运维报警系统,包括:感知器和上述IT运维报警装置,所述感知器与所述IT运维报警装置连接;
所述感知器,用于检测出IT设备的运行事件,并将所述IT设备的运行事件发送至所述IT运维报警装置。
可选地,所述感知器设置于所述IT设备中。
本发明具有以下有益效果:
本发明提供的技术方案中,接收IT设备的运行事件,根据预先设置的事件关联规则判断运行事件是否为报警事件,若判断出运行事件为报警事件时输出报警事件,本发明避免了虚假报警和重复报警,从而降低了运维成本,减少了真正故障排除的时间以及提高了IT服务的可用性。
附图说明
图1为本发明实施例一提供的一种IT运维报警方法的流程图;
图2为本发明实施例二提供的一种IT运维报警方法的流程图;
图3为本发明实施例三提供的一种IT运维报警装置的结构示意图;
图4为本发明实施例四提供的一种IT运维报警系统的结构示意图。
具体实施方式
为使本领域的技术人员更好地理解本发明的技术方案,下面结合附图对本发明提供的IT运维报警方法、装置和系统进行详细描述。
图1为本发明实施例一提供的一种IT运维报警方法的流程图,如图1所示,该方法包括:
步骤101、接收IT设备的运行事件。
本实施例中的各步骤可以由IT运维报警装置执行。同一个IT设备具有多个运行事件。也就是说,IT运维报警装置可持续接收同一个IT设备的多个运行事件。例如:运行事件可以包括CPU利用率或者网络端口流量。并且本步骤具体可包括:持续接收IT设备的多个同一运行事件。对于同一个运行事件,IT运维报警装置可持续接收到多个该运行事件,并且后续会根据接收到的多个该运行事件进行判断,而并非根据单一的该运行事件进行判断。
步骤102、根据预先设置的事件关联规则,判断运行事件是否为报警事件,若是则执行步骤103,若否则继续执行步骤101。
本实施例中,事件关联规则可根据需要进行设置。例如:该事件关联规则包括大于设定阈值且持续接收时间大于或等于设定时间的运行事件为报警事件。
进一步地,该事件关联规则还可以包括与报警事件对应的报警优先级。
本步骤中,若判断出该运行事件不是报警事件,则继续执行步骤101,以实现继续对IT设备进行监测。
步骤103、输出报警事件。
具体地,可显示该报警事件。
本实施例提供的IT运维报警方法的技术方案中,接收IT设备的运行事件,根据预先设置的事件关联规则判断运行事件是否为报警事件,若判断出运行事件为报警事件时输出报警事件,本实施例避免了虚假报警和重复报警,从而降低了运维成本,减少了真正故障排除的时间以及提高了IT服务的可用性。并且本实施例极大的减少了运维工程师的工作量,从而提升了运维工程师的工作效率和最终用户满意度。
图2为本发明实施例二提供的一种IT运维报警方法的流程图,如图2所示,该方法包括:
步骤201、接收IT设备的运行事件。
本实施例中的各步骤可以由IT运维报警装置执行。IT运维报警装置可持续接收同一个IT设备的多个运行事件。
步骤202、统计持续接收到运行事件的持续接收时间。
例如:针对同一运行事件,IT运维报警装置会持续接收到IT设备的多个该运行事件,在接收到该IT设备的运行事件后,IT运维报警装置会统计出持续接收时间。
步骤203、判断运行事件是否大于设定阈值且持续接收时间是否大于或者等于设定时间,若是则执行步骤204,若否则继续执行步骤201。
本实施例中,判断运行事件是否大于设定阈值且持续接收时间是否大于或者等于设定时间,可有效滤掉虚假报警事件和重复事件。
下面通过三个实例对本实施例的技术方案进行详细描述。
第一个实例中,运行事件为CPU利用率,持续接收时间为t,设定时间为t,本步骤中判断出CPU大于设定阈值且持续接收时间等于设定时间,则执行步骤204。
第二个实例中,运行事件为CPU利用率,持续接收时间为2t,设定时间为t,本步骤中判断出CPU大于设定阈值且持续接收时间大于设定时间,则执行步骤204。
第三个实例中,运行事件为多个,该多个运行事件包括CPU利用率、内存利用率和网络端口流量,持续接收时间为t,设定时间为t,本步骤中判断出CPU利用率小于CPU利用率对应的设定阈值,判断出内存利用率小于内存利用率对应的设定阈值,判断出网络端口流量大于网络端口流量对应的设定阈值,则确定出CPU利用率和内存利用率不是报警事件,而网络端口流量为报警事件。
步骤204、确定出运行事件为报警事件。
第一个实例中,确定出CPU利用率为报警事件。
第二个实例中,确定出CPU利用率为报警事件。
第三个实例中,确定出网络端口流量为报警事件。
本步骤中,当确定某一运行事件为报警事件时,则该运行事件即为报警根源。也就是说,确定出报警事件后,即可定位出报警根源。
步骤205、根据预先设置的事件关联规则,查询出与报警事件对应的报警优先级。
本实施例中,该事件关联规则包括与报警事件对应的报警优先级。
第一个实例中,预先设置的与CPU利用率对应的报警优先级为1级。
第二个实例中,预先设置的与CPU利用率对应的报警优先级为2级。
第三个实例中,预先设置的与网络端口流量对应的报警优先级为3级。
步骤206、根据报警优先级输出报警事件。
例如:若确定出第一个实例中的CPU利用率为报警事件以及确定出第三个实例中的网络端口流量为报警事件,根据报警优先级优先输出CPU利用率这一报警事件,而后再输出网络端口流量这一报警事件。
根据报警优先级输出报警事件,使得运维工程师可以预先处理较为紧急的报警事件,从而进一步提升了工作效率和最终用户满意度。
本实施例提供的IT运维报警方法的技术方案中,接收IT设备的运行事件,根据预先设置的事件关联规则判断运行事件是否为报警事件,若判断出运行事件为报警事件时输出报警事件,本实施例避免了虚假报警和重复报警,从而降低了运维成本,减少了真正故障排除的时间以及提高了IT服务的可用性。并且本实施例极大的减少了运维工程师的工作量,从而提升了运维工程师的工作效率和最终用户满意度。
图3为本发明实施例三提供的一种IT运维报警装置的结构示意图,如图3所示,该装置包括:接收模块11、判断模块12和输出模块13。
接收模块11用于接收IT设备的运行事件。判断模块12用于根据预先设置的事件关联规则,判断运行事件是否为报警事件。输出模块13用于若判断模块12判断出运行事件为报警事件时,输出报警事件。
优选地,输出模块13为显示模块。显示模块用于若判断模块12判断出运行事件为报警事件时,显示报警事件。
可选地,事件关联规则包括大于设定阈值且持续接收时间大于或等于设定时间的运行事件为报警事件。则判断模块12包括:统计子模块121、判断子模块122和确定子模块123。统计子模块121用于统计持续接收到运行事件的持续接收时间;判断子模块122用于判断运行事件是否大于设定阈值且持续接收时间是否大于或者等于设定时间;确定子模块123用于若判断子模块122判断出运行事件大于设定阈值且持续接收时间大于或者等于设定时间时,确定出运行事件为报警事件。
可选地,事件关联规则还包括与报警事件对应的报警优先级。该装置还包括:查询模块14和输出模块15。查询模块14用于根据预先设置的事件关联规则,查询出与报警事件对应的报警优先级;输出模块15具体用于根据报警优先级输出报警事件。
本实施例提供的IT运维报警装置可用于实现上述实施例一或者实施例二提供的IT运维报警方法,此处不再赘述。
本实施例提供的IT运维报警装置的技术方案中,接收IT设备的运行事件,根据预先设置的事件关联规则判断运行事件是否为报警事件,若判断出运行事件为报警事件时输出报警事件,本实施例避免了虚假报警和重复报警,从而降低了运维成本,减少了真正故障排除的时间以及提高了IT服务的可用性。并且本实施例极大的减少了运维工程师的工作量,从而提升了运维工程师的工作效率和最终用户满意度。
图4为本发明实施例四提供的一种IT运维报警系统的结构示意图,如图4所示,该系统包括:感知器2和IT运维报警装置1,感知器2与IT运维报警装置1连接。其中,IT运维报警装置1可采用上述实施例一或者实施例二提供的IT运维报警装置1,此处不再赘述。
感知器2用于检测出IT设备3的运行事件,并将IT设备3的运行事件发送至IT运维报警装置1。
感知器2可单独设置或者设置于IT设备3中。本实施例中,优选地,感知器2设置于IT设备3中,每个IT设备3中可设置一个感知器2。
本实施例提供的IT运维报警系统的技术方案中,接收IT设备的运行事件,根据预先设置的事件关联规则判断运行事件是否为报警事件,若判断出运行事件为报警事件时输出报警事件,本实施例避免了虚假报警和重复报警,从而降低了运维成本,减少了真正故障排除的时间以及提高了IT服务的可用性。并且本实施例极大的减少了运维工程师的工作量,从而提升了运维工程师的工作效率和最终用户满意度。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。

Claims (10)

1.一种IT运维报警方法,其特征在于,包括:
接收IT设备的运行事件;
根据预先设置的事件关联规则,判断所述运行事件是否为报警事件;
若判断出所述运行事件为报警事件时,输出所述报警事件。
2.根据权利要求1所述的IT运维报警方法,其特征在于,所述事件关联规则包括大于设定阈值且持续接收时间大于或等于设定时间的运行事件为报警事件;
所述根据预先设置的事件关联规则,判断所述运行事件是否为报警事件包括:
统计持续接收到所述运行事件的持续接收时间;
判断所述运行事件是否大于设定阈值且所述持续接收时间是否大于或者等于设定时间;
若判断出所述运行事件大于设定阈值且所述持续接收时间大于或者等于设定时间时,确定出所述运行事件为报警事件。
3.根据权利要求2所述的IT运维报警方法,其特征在于,所述事件关联规则还包括与所述报警事件对应的报警优先级;
所述方法还包括:
根据预先设置的事件关联规则,查询出与所述报警事件对应的报警优先级;
根据所述报警优先级输出所述报警事件。
4.根据权利要求1所述的IT运维报警方法,其特征在于,所述接收IT设备的运行事件包括:
持续接收IT设备的多个同一所述运行事件。
5.一种IT运维报警装置,其特征在于,包括:
接收模块,用于接收IT设备的运行事件;
判断模块,用于根据预先设置的事件关联规则,判断所述运行事件是否为报警事件;
输出模块,用于若所述判断模块判断出所述运行事件为报警事件时,输出所述报警事件。
6.根据权利要求5所述的IT运维报警装置,其特征在于,所述输出模块为显示模块;
所述显示模块用于若所述判断模块判断出所述运行事件为报警事件时,显示所述报警事件。
7.根据权利要求5所述的IT运维报警装置,其特征在于,所述事件关联规则包括大于设定阈值且持续接收时间大于或等于设定时间的运行事件为报警事件;
所述判断模块包括:
统计子模块,用于统计持续接收到所述运行事件的持续接收时间;
判断子模块,用于判断所述运行事件是否大于设定阈值且所述持续接收时间是否大于或者等于设定时间;
确定子模块,用于若所述判断子模块判断出所述运行事件大于设定阈值且所述持续接收时间大于或者等于设定时间时,确定出所述运行事件为报警事件。
8.根据权利要求5所述的IT运维报警装置,其特征在于,所述事件关联规则还包括与所述报警事件对应的报警优先级;
所述装置还包括:查询模块;
所述查询模块,用于根据预先设置的事件关联规则,查询出与所述报警事件对应的报警优先级;
所述输出模块具体用于根据所述报警优先级输出所述报警事件。
9.一种IT运维报警系统,其特征在于,包括:感知器和上述权利要求1至8任一所述的IT运维报警装置,所述感知器与所述IT运维报警装置连接;
所述感知器,用于检测出IT设备的运行事件,并将所述IT设备的运行事件发送至所述IT运维报警装置。
10.根据权利要求9所述的IT运维报警系统,其特征在于,所述感知器设置于所述IT设备中。
CN201410778051.7A 2014-12-15 2014-12-15 It运维报警方法、装置和系统 Pending CN104601369A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410778051.7A CN104601369A (zh) 2014-12-15 2014-12-15 It运维报警方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410778051.7A CN104601369A (zh) 2014-12-15 2014-12-15 It运维报警方法、装置和系统

Publications (1)

Publication Number Publication Date
CN104601369A true CN104601369A (zh) 2015-05-06

Family

ID=53126894

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410778051.7A Pending CN104601369A (zh) 2014-12-15 2014-12-15 It运维报警方法、装置和系统

Country Status (1)

Country Link
CN (1) CN104601369A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104901964A (zh) * 2015-05-28 2015-09-09 北京邮电大学 一种用于保护云系统的安全监控方法
CN105957314A (zh) * 2016-04-29 2016-09-21 北京奇虎科技有限公司 一种监控报警方法和系统
CN106375134A (zh) * 2016-11-03 2017-02-01 福建新大陆软件工程有限公司 一种机房it设备运维方法及系统
CN113920767A (zh) * 2021-10-22 2022-01-11 南京智慧交通信息股份有限公司 运维报警的方法、系统、装置以及计算机可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101312405A (zh) * 2007-05-24 2008-11-26 杭州华三通信技术有限公司 一种告警处理方法及网管系统
CN102158355A (zh) * 2011-03-11 2011-08-17 广州蓝科科技股份有限公司 一种可并发和断续分析的日志事件关联分析方法和装置
CN102238023A (zh) * 2010-04-23 2011-11-09 中兴通讯股份有限公司 一种生成网络管理系统的告警数据的方法及装置
CN102523137A (zh) * 2011-12-22 2012-06-27 华为技术服务有限公司 一种故障监测方法、装置及系统
CN103839373A (zh) * 2013-03-11 2014-06-04 成都百威讯科技有限责任公司 一种突发异常事件智能识别报警装置及报警系统
CN104156297A (zh) * 2014-08-07 2014-11-19 浪潮(北京)电子信息产业有限公司 告警方法和装置
US20140361885A1 (en) * 2013-06-06 2014-12-11 General Electric Company Systems and Methods for Process Alarm Reduction

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101312405A (zh) * 2007-05-24 2008-11-26 杭州华三通信技术有限公司 一种告警处理方法及网管系统
CN102238023A (zh) * 2010-04-23 2011-11-09 中兴通讯股份有限公司 一种生成网络管理系统的告警数据的方法及装置
CN102158355A (zh) * 2011-03-11 2011-08-17 广州蓝科科技股份有限公司 一种可并发和断续分析的日志事件关联分析方法和装置
CN102523137A (zh) * 2011-12-22 2012-06-27 华为技术服务有限公司 一种故障监测方法、装置及系统
CN103839373A (zh) * 2013-03-11 2014-06-04 成都百威讯科技有限责任公司 一种突发异常事件智能识别报警装置及报警系统
US20140361885A1 (en) * 2013-06-06 2014-12-11 General Electric Company Systems and Methods for Process Alarm Reduction
CN104156297A (zh) * 2014-08-07 2014-11-19 浪潮(北京)电子信息产业有限公司 告警方法和装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104901964A (zh) * 2015-05-28 2015-09-09 北京邮电大学 一种用于保护云系统的安全监控方法
CN105957314A (zh) * 2016-04-29 2016-09-21 北京奇虎科技有限公司 一种监控报警方法和系统
CN105957314B (zh) * 2016-04-29 2018-07-10 北京奇虎科技有限公司 一种监控报警方法和系统
CN106375134A (zh) * 2016-11-03 2017-02-01 福建新大陆软件工程有限公司 一种机房it设备运维方法及系统
CN113920767A (zh) * 2021-10-22 2022-01-11 南京智慧交通信息股份有限公司 运维报警的方法、系统、装置以及计算机可读存储介质
CN113920767B (zh) * 2021-10-22 2023-02-24 南京智慧交通信息股份有限公司 运维报警的方法、系统、装置以及计算机可读存储介质

Similar Documents

Publication Publication Date Title
US10355959B2 (en) Techniques associated with server transaction latency information
CN104954178A (zh) 优化系统报警的方法及装置
EP3160081A1 (en) Alert data processing method and network management device
CN103532738B (zh) 一种端口连接关系的确定方法及装置
CN104601369A (zh) It运维报警方法、装置和系统
CN108092847B (zh) 一种电力lte无线终端远程在线监控方法
EP2741439B1 (en) Network failure detecting method and monitoring center
CN105468501A (zh) 一种Linux系统性能监测方法和装置
CN106487612A (zh) 一种服务器节点监控方法、监控服务器及系统
WO2016188187A1 (zh) 无源光网络告警检测方法及装置
CN107390533A (zh) 一种用电监控装置、系统及方法
CN105530115A (zh) 一种实现操作管理维护功能的方法及装置
CN104811324A (zh) 伪线保护方法、装置及节点
CN109412902B (zh) 一种电力调度数据网系统的智能监测方法、存储设备、终端和系统
CN109302323B (zh) 一种交换机动态监测系统
CN103036724B (zh) 状态信息传输方法、网络设备及组合设备
CN110113222B (zh) 一种链路带宽利用率获取方法和装置、及终端
CN105281824A (zh) 长发光光网络单元的检测方法、装置及网管设备
CN103905271A (zh) 一种告警风暴抑制方法
CN103067205B (zh) 同一主机管理下共用同一地址的rt与备份rt切换方法
CN100454846C (zh) 分布式系统中上报告警信息的方法和装置
CN107241359A (zh) 一种面向软件定义网络的轻量级网络流量异常检测方法
CN106535346B (zh) 一种网络连接的建立方法
CN204156609U (zh) 无人值班变电站遥控/遥信功能在线监测装置
CN104010010A (zh) 一种互联网资源的获取方法、装置及缓存系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150506

RJ01 Rejection of invention patent application after publication