CN104796283B - 一种监控报警的方法 - Google Patents
一种监控报警的方法 Download PDFInfo
- Publication number
- CN104796283B CN104796283B CN201510118078.8A CN201510118078A CN104796283B CN 104796283 B CN104796283 B CN 104796283B CN 201510118078 A CN201510118078 A CN 201510118078A CN 104796283 B CN104796283 B CN 104796283B
- Authority
- CN
- China
- Prior art keywords
- resource
- server
- alarm
- time
- record
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/069—Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/0803—Configuration setting
- H04L41/0823—Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability
- H04L41/0836—Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability to enhance reliability, e.g. reduce downtime
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
- Computer And Data Communications (AREA)
Abstract
本发明公开一种监控报警的方法,属于信息安全领域,所述方法包括:当服务器集群中的服务器启动后,A:查询数据库中的报警时间值,获取并判断当前系统时间与报警时间值的差值是否大于第一预设时间,是则执行B,否则执行C;B:将报警时间值更新为当前系统时间,判断是否更新成功,是则执行D,否则执行C;C:等待第二预设时间后返回A;D:每隔第三预设时间执行报警操作,并获取当前系统时间,将报警时间值更新为当前系统时间,判断是否更新成功,是则执行D,否则返回A。采用本发明的技术方案,能够实现在多台服务器工作时,只有一台服务器进行报警,其他服务器仍能够正常工作,保证监控报警的正确性。
Description
技术领域
本发明涉及信息安全领域,尤其涉及一种监控报警的方法。
背景技术
现有的报警方案无法保证报警的高可用性,当服务器或网络中断造成报警服务器不可用时,监控终端无法将采集到的数据完整的传送到报警服务器上。如果采用多台报警服务器的方式,则需要保证多服务器之间的通信来保证报警数据的同步,增加开发运维成本,而且当其中一台服务器报警时,其他服务器不能正常工作。
发明内容
为解决现有技术中提供的问题,本发明提供了一种监控报警的方法。
本发明采用的技术方案是:一种监控报警的方法,包括:服务器集群中的服务器访问同一数据库,当服务器集群中的服务器启动后,所述服务器执行以下操作:
步骤S1:所述服务器查询所述数据库中记录的报警时间值,并获取当前系统时间;
步骤S2:所述服务器判断当前系统时间与所述报警时间值的差值是否大于第一预设时间,如果是,则执行步骤S3,否则执行步骤S4;
步骤S3:所述服务器将所述报警时间值更新为当前系统时间,判断是否更新成功,如果是,则执行步骤S5,否则执行步骤S4;
步骤S4:所述服务器等待第二预设时间后,返回执行步骤S1;
步骤S5:所述服务器每隔第三预设时间执行报警操作,并获取当前系统时间,将所述报警时间值更新为当前系统时间,判断是否更新成功,如果是,则执行步骤S5,否则返回步骤S1;所述第三预设时间小于所述第一预设时间。
所述步骤S5具体包括:
步骤S5-1:所述服务器每隔所述第三预设时间执行报警操作;
步骤S5-2:所述服务器获取当前系统时间,将所述报警时间值更新为当前系统时间,返回步骤S5-1。
所述步骤S5具体包括:
所述服务器启动报警时间更新线程和报警线程;
所述报警线程每隔所述第三预设时间执行报警操作;
所述报警时间更新线程每隔第四预设时间更新所述报警时间值,判断是否更新成功,如果是,则所述报警时间更新线程继续执行每隔第四预设时间更新报警时间值操作,否则返回步骤S1。
所述执行报警操作,具体为:所述服务器从所述数据库中获取所有资源记录,对所述所有资源记录中的每一条当前资源记录执行以下操作:
步骤a1:所述服务器判断当前资源记录中的报警标识是否为未报警,如果是,则执行步骤a2,否则所述资源记录执行完毕;
步骤a2:所述服务器判断所述当前资源记录是否满足报警条件,如果是,则执行步骤a3,否则所述当前资源记录执行完毕;
步骤a3:所述服务器发送报警信息,并将所述当前资源记录的报警标识置为已报警,所述当前资源记录执行完毕。
所述执行报警操作,具体为:
步骤b1:所述服务器从数据库中获取所有资源记录,将所述所有资源记录中的第一条资源记录作为当前资源记录;
步骤b2:所述服务器判断当前资源记录中的报警标识是否为已报警,如果是,则执行步骤b5,否则执行步骤b3;
步骤b3:所述服务器判断当前资源记录是否满足报警条件,如果是,则执行步骤b4,否则执行步骤b5;
步骤b4:所述服务器发送报警信息,并将所述资源记录的报警标识置为已报警;
步骤b5:所述服务器判断当前资源记录之后是否存在下一条资源记录,如果是,则将当前资源记录的下一条资源记录作为当前资源状记录,返回步骤b2,否则执行步骤S5。
所述执行报警操作,具体为:
步骤c1:所述服务器从所述数据库中获取所有资源记录;
步骤c2:所述服务器从所述所有资源记录中获取报警标识为未报警的资源记录,将其作为当前资源记录;
步骤c3:所述服务器判断当前资源记录是否满足报警条件,如果是,则执行步骤c4,否则执行步骤c5;
步骤c4:所述服务器发送报警信息,并将当前资源记录的报警标识置为已报警;
步骤c5:所述服务器判断所述所有资源记录中是否还有报警标识为未报警的资源记录,是则返回步骤c2,否则继续执行步骤S5。
所述判断所述当前资源记录是否满足报警条件,具体为:
步骤a2-1:所述服务器获取当前资源记录中的资源更新时间,并获取当前系统时间;
步骤a2-2:所述服务器判断当前系统时间与所述资源更新时间的差值是否超过预设时长,如果是,则满足报警条件,否则执行步骤a2-3;
步骤a2-3:所述服务器获取当前资源记录中的资源错误次数,判断所述资源错误次数是否达到预设次数,如果是,则满足报警条件,否则不满足报警条件。
所述方法还包括:服务器对所述数据库中的资源记录进行更新,具体为:
步骤d1:主机的客户端启动,客户端根据主机IP地址生成获取监控信息的请求,获取并根据预设配置信息,将所述获取监控信息的请求发送至所述服务器集群中对应的服务器;
步骤d2:所述服务器接收到所述获取监控信息的请求后,从所述请求中获取主机IP地址,根据所述主机IP地址获取所述数据库中的监控信息,将所述监控信息返回给所述客户端;
步骤d3:所述客户端接收到所述监控信息后,根据所述监控信息,采集所述主机上对应的资源状态信息,将所述资源状态信息发送至所述服务器;
步骤d4:所述服务器获取到所述资源状态信息后,根据所述资源状态信息获取所述数据库中对应保存的资源记录;
步骤d5:所述服务器根据所述资源状态信息更新所述资源记录的资源错误次数和资源更新时间。
所述步骤d5,具体为:
步骤d5-1:所述服务器获取并判断所述资源状态信息中记录的运行状态,如果是正常运行,则执行步骤d5-2,如果是不正常运行,则执行步骤d5-3;
步骤d5-2:所述服务器将所述资源记录的资源错误次数清零,将所述资源记录的资源更新时间更新为所述资源状态信息中记录的客户端时间戳,并将所述资源记录的运行状态更新为正常运行;
步骤d5-3:所述服务器将所述资源记录的资源错误次数累加,将所述资源记录的资源更新时间更新为所述资源状态信息中记录的客户端时间戳,并将所述资源记录的运行状态更新为不正常运行。
所述不正常运行,具体包括:异常运行或停止运行;
当所述资源状态信息中记录的运行状态为异常运行时,所述将所述资源记录的运行状态更新为不正常运行,具体为:将所述资源记录的运行状态更新为异常运行;
当所述资源状态信息中记录的运行状态为异常运行时,所述将所述资源记录的运行状态更新为不正常运行,具体为:将所述资源记录的运行状态更新为停止运行。
所述步骤S1之前,还包括:所述服务器等待所述第二预设时间后执行步骤S1。
本发明取得的有益效果是:采用本发明的技术方案,能够实现在多台服务器工作时,只有一台服务器进行报警,其他服务器仍能够正常工作,保证监控报警的正确性。
附图说明
为了更清楚的说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为服务器集群访问同一数据库的示意图;
图2是本发明实施例1提供的一种监控报警的方法中服务器获取报警权限的操作流程图;
图3是本发明实施例2提供的一种监控报警的方法中获取报警权限的报警服务器处理报警流程的操作流程图;
图4是本发明实施例3提供的一种监控报警的方法中服务器的数据库中资源记录的处理及更新操作流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明中服务器集群中包括多台服务器(服务器A、服务器B、服务器C、服务器D……),每台服务器共同访问同一数据库。
实施例1
本发明实施例1提供了一种监控报警的方法中服务器获取报警权限的操作,如图2所示,包括:服务器集群中的服务器启动后,该启动的服务器执行以下操作:
步骤101:服务器查询数据库中的报警权限时间字段,获取该字段中记录的报警时间值;
本实施例中,优选的,当服务器启动时,先获取并处理报警时间值,处理完毕后,等待第二预设时间后再次查询该报警时间值,除此之外,还可以为:步骤101之前还包括,服务器启动后,先等待第二预设时间,然后再执行步骤101;优选的,该第二预设时间为20s;
步骤102:服务器获取当前系统时间,判断当前系统时间与报警时间值的差值是否大于第一预设时间,如果是,则执行步骤103,否则执行步骤104;
本实施例中,优选的,第一预设时间为3min;
例如,服务器集群中包括有4台服务器,具体为服务器A、服务器B、服务器C、服务器D;
其中,服务器A的启动时,获取的当前系统时间为2012.01.28 11:00:00,服务器B的启动时,获取的当前系统时间为2012.01.28 11:15:05,服务器C的启动时,获取的当前系统时间为2012.01.28 11:17:01,服务器D的启动时,获取的当前系统时间为2012.01.2811:28:09;
服务器A启动后或间隔第二预设时间20s时,获取报警权限时间字段中记录的报警时间值为2012.01.28 10:10:00,比较得知当前系统时间与报警时间值之差大于第一预设时间3min,则服务器A获取到报警权限,更新报警时间值为当前系统时间2012.01.28 11:00,然后每隔第三预设时间20s更新一次报警权限时间字段中记录的报警时间值;
服务器B启动后或间隔第二预设时间20s时,获取报警权限时间字段中记录的报警时间值为2012.01.28 11:11:00(该值是服务器A每隔20s更新的时间值),比较得知当前系统时间与报警时间值之差小于第一预设时间3min,则说明当前已有服务器获取到了报警权限,因此,服务器B继续返回执行步骤101;
服务器C启动后或间隔第二预设时间20s时,在2012.01.28 11:21:01获取报警权限时间字段中记录的报警时间值为2012.01.28 11:18:00(该值是服务器A每隔20s更新的时间值,但是由于某些原因导致服务器A在11:18:00后出错,因此,服务器A未在11:18:00之后更新该字段),比较得知当前系统时间与报警时间值之差大于第一预设时间3min,则说明当前没有服务器获取到报警权限,因此,服务器C获取到报警权限,更新报警时间值为当前系统时间2012.01.28 11:21:01,每隔第三预设时间20s更新一次报警权限时间字段中记录的报警时间值;
服务器D启动后或间隔第二预设时间20s时,获取报警权限时间字段中记录的报警时间值为2012.01.28 11:28:01(该值是服务器C每隔20s更新的时间值),比较得知当前系统时间与报警时间值之差小于第一预设时间3min,则说明当前已有服务器获取到了报警权限,因此,服务器D继续返回执行步骤101。
步骤103:服务器将报警时间值更新为当前系统时间,判断是否更新成功,如果是,则执行步骤105,否则执行步骤104;
本实施例中,判断是否更新成功,具体为:判断当前系统时间写入该报警权限时间字段是否成功,如果是,则更新成功,否则更新失败。
步骤104:服务器等待第二预设时间后,返回执行步骤101;
优选的,第二预设时间为20s。
步骤105:服务器每隔第三预设时间执行报警操作,并获取当前系统时间,将所述报警时间值更新为当前系统时间,判断是否更新成功,如果是,则继续执行步骤105,否则返回步骤101;
本实施例中,预先约定,第三预设时间小于第一预设时间,优选的,第一预设时间为第三预设时间的3到10倍;
本实施例中,步骤105具体包括以下两种执行方法:
方法一:
A:服务器每隔第三预设时间执行报警操作;
B:服务器获取当前系统时间,将报警权限时间字段记录的报警时间值更新为当前系统时间,判断是否更新成功,如果是,则返回步骤A,否则返回步骤101;
方法二:
服务器启动报警时间更新线程和报警线程;
1、报警线程每隔第三预设时间执行报警操作;
本实施例中,优选的,第三预设时间为20s;
进一步的,报警线程处理的报警流程如实施例2所示,在此不再赘述;
2、报警时间更新线程每隔第三预设时间更新报警权限时间字段中的报警时间值,判断是否更新成功,如果是,则继续执行每隔第三预设时间更新报警时间值操作,否则返回步骤101;
本实施例中,判断是否更新成功,具体为:判断当前系统时间写入该报警权限时间字段是否成功,如果是,则更新成功,否则更新失败。
实施例2
本发明实施例2提供了一种监控报警的方法中获取报警权限的服务器处理报警流程的操作,如图3所示,包括:获取报警权限的服务器的报警线程执行以下操作:
步骤201:服务器每隔第三预设时间从数据库中获取所有资源记录;
例如,如表1所示,报警服务器从数据库中获取到的所有资源记录为:
表1
步骤202:服务器将所有资源记录中的第一条记录作为当前资源记录;
例如,获取到的第一条资源记录为资源名称为otp1,由服务器C执行的更新操作,报警标识为未报警、资源更新时间为2012.01.28 11:25:00,资源错误次数为4次,IP地址为192.168.16.225,端口号为1915,运行状态为停止运行;
步骤203:服务器判断当前资源记录中的报警标识是否为已报警,如果是,则执行步骤209,否则执行步骤204;
例如,获取到的第一条资源记录的报警标识为未报警;
步骤204:服务器获取当前资源记录中的资源更新时间;
例如,报警服务器获取到的当前资源记录中的资源更新时间为2012.01.2811:25:00。
步骤205:服务器获取当前系统时间,判断当前系统时间与资源更新时间的差值是否超过预设时长,如果是,则执行步骤206,否则执行步骤207;
优选的,预设时长为5min;
例如,当前系统时间为2012.01.28 11:30:01,则当前系统时间与资源更新时间的差值大于预设时长5min,则说明该资源记录需要进行报警。
步骤206:服务器发送资源超时报警,并将当前资源记录的报警标识更新为已报警,执行步骤209;
本实施例中,发送资源超时报警,具体为:服务器将该资源记录超时的报警信息记录在报警日志中。
步骤207:服务器获取当前资源记录中的资源错误次数,判断资源错误次数是否达到预设次数,如果是,则执行步骤208,否则执行步骤209;
本实施例中,优选的,预设次数为5次;
例如,服务器获取到的当前资源记录的资源错误时间为4次,未达到预设次数5次。
步骤208:服务器发送资源异常运行报警,并将当前资源记录的报警标识更新为已报警状态,执行步骤209;
本实施例中,发送资源异常运行报警,具体为:服务器将该资源记录异常运行的报警信息记录在报警日志中;
本实施例中,步骤205、206和步骤207、208的顺序可以互换。
步骤209:服务器判断所有资源记录中当前资源记录之后是否存在下一条资源记录,如果是,则执行步骤210,否则返回步骤201;
步骤210:服务器将当前资源记录的下一条资源记录作为当前资源记录,返回步骤203。
本实施例中,步骤202和步骤203可以替换为:
步骤a:报警服务器从所有资源记录中获取一条报警标识为未报警的资源记录,将该条资源记录作为当前资源记录,执行步骤204;
对应的,步骤209和步骤210替换为:
步骤b:报警服务器判断所有资源记录中是否还存在报警标识为未报警的资源记录,如果是,则返回步骤a,否则返回步骤201。
本实施例中,报警操作还可以为:服务器从数据库中获取所有资源记录,对所有资源记录中的每一条资源记录执行以下操作:
步骤a1:服务器判断资源记录中的报警标识是否为未报警,如果是,则执行步骤a2,否则该资源记录执行完毕;
步骤a2:服务器判断资源记录是否满足报警条件,如果是,则执行步骤a3,否则该资源记录执行完毕;
步骤a3:服务器发送报警信息,并将资源记录的报警标识置为已报警,该资源记录执行完毕。
本实施例中,报警操作还可以为:
步骤c1:服务器每隔第三预设时间从数据库中获取所有资源记录;
步骤c2:服务器从所有资源记录中获取报警标识为未报警的资源记录,将其作为当前资源记录;
步骤c3:服务器判断当前资源记录是否满足报警条件,如果是,则执行步骤c4,否则执行步骤c5;
步骤c4:服务器发送报警信息,并将当前资源记录的报警标识置为已报警;
步骤c5:服务器判断所有资源记录中是否还有报警标识为未报警的资源记录,是则返回步骤c2,否则返回步骤c1。
实施例3
本发明实施例3提供了一种监控报警的方法中服务器的数据库中资源记录的处理及更新操作,如图4所示,包括:
步骤301:主机的客户端启动;
步骤302:客户端根据主机IP地址,生成获取监控信息的请求,获取并根据预设配置信息,将获取监控信息的请求发送至服务器;
例如,生成的获取监控信息的请求为:
<?xml version="1.0"encoding="UTF-8"?>
<NODEBatch>
<IP>192.168.16.225</IP>
</NODEBatch>
客户端程序根据主机IP地主,获取相应的预设配置信息,从预设配置信息中获取服务器列表,按照服务器列表顺序,将获取监控信息的请求发送至服务器列表中的第一台服务器,并等待接收第一台服务器返回的响应,如果是失败响应或未接收到响应,则客户端程序按照服务器列表顺序,将获取监控信息的请求发送至服务器列表中的第二台服务器,依次类推。
步骤303:服务器接收到获取监控信息的请求后,从该请求中获取主机IP地址,根据主机IP地址获取数据库中预先保存的监控信息,将监控信息发送至客户端;
本实施例中,数据库中保存的监控信息是预先配置好需要监控的信息,其中,监控信息可以由管理员进行配置修改;
优选的,监控信息包括监控项和采集周期等;
例如,服务器获取到的监控信息中的监控项为otp1、OTPrad1,采集周期为每30s采集一次数据;
获取到的监控信息为:
<?xml version="1.0"encoding="UTF-8"?>
<NODEBatch>
<NODEHEADER>
<NODENAME>node1</NODENAME>
<IP>192.168.16.225</IP>
<RESNUM>2</RESNUM>
<TIMEOUT>30</TIMEOUT>
</NODEHEADER>
<RES>
<RESNAME>otp1</RESNAME>
<RESTYPE>1</RESTYPE>
<RESPORT>1915</RESPORT>
</RES>
<RES>
<RESNAME>otprad1</RESNAME>
<RESTYPE>2</RESTYPE>
<RESPORT>1812</RESPORT>
</RES>
</NODEBatch>
其中,主机名称为node1,IP地址为192.168.16.225,监控项为2项,包括otp1和otprad1,端口号分别为1915和1812,采集周期为30s;
步骤304:客户端接收到服务器发送的监控信息后,根据监控信息,调用采集数据插件,采集主机上对应的资源状态信息,将采集到的资源状态信息组成资源包,并将资源包发送至服务器;
本实施例中,所述将采集到的资源状态信息组成资源包,具体包括:客户端根据主机名称、主机IP地址、采集到的资源状态信息和客户端时间戳,生成资源包;
例如,生成的资源包为:
<?xml version="1.0"encoding="UTF-8"?>
<NODEBatch>
<NODEHEADER>
<NODENAME>node1</NODENAME>
<IP>192.168.16.225</IP>
<RESNUM>2</RESNUM>
<TIMESTAMP>2012.01.28 11:30:04</TIMESTAMP>
</NODEHEADER>
<RES>
<RESNAME>otp1</RESNAME>
<RESTYPE>1</RESTYPE>
<STATUS>1</STATUS>
</RES>
<RES>
<RESNAME>otprad1</RESNAME>
<RESTYPE>2</RESTYPE>
<STATUS>0</STATAUS>
</RES>
</NODEBatch>
其中,主机名称为node1,主机IP地址为192.168.16.225,采集的监控项为2项,分别为otp1和otprad1,otp1的运行状态为1,表示为异常运行,otprad1的运行状态为0,表示为正常运行,客户端时间戳为2012.01.28 11:30:04;
本实施例中,主机的客户端组织完资源包后,客户端程序获取相应的配置文件,从配置文件中获取服务器列表,按照服务器列表顺序,将资源包发送至服务器列表中的第一台服务器,并等待接收第一台服务器返回的响应,如果为成功响应,则客户端程序继续采集下一次的主机资源状态信息,并组成资源包,如果是失败响应或未接收到响应,则客户端程序按照服务器列表顺序,将资源包发送至服务器列表中的第二台服务器,依次类推。
步骤305:服务器接收到客户端发送的资源包后,从资源包中获取客户端的资源状态信息;
例如,如表2所示,资源包中获取到的客户端的资源状态信息为:
表2
资源名称 | 客户端时间戳 | 运行状态 | 主机IP地址 | 端口号 |
otp1 | 2012.01.28 11:30:04 | 异常运行 | 192.168.16.225 | 1915 |
步骤306:服务器判断资源包的资源状态信息中的运行状态,如果是正常运行,则执行步骤307,如果是异常运行,则执行步骤311,如果是停止运行,则执行步骤315;
步骤307:服务器根据资源包的资源状态信息从服务器数据库中获取对应保存的资源记录;
优选的,服务器根据资源包中的主机IP地址,从服务器数据库中获取与该主机IP地址对应的资源记录。
步骤308:服务器判断保存的资源记录的运行状态,如果为正常运行,则执行步骤310,如果为异常运行或停止运行状态,则执行步骤309;
步骤309:服务器将数据库中的资源记录更新为正常运行状态,并记录资源恢复运行日志,执行步骤310;
步骤310:服务器将该资源记录的资源错误次数清零,并从资源包中获取客户端时间戳,将服务器数据库中的资源更新时间更新为客户端时间戳,并向客户端返回更新成功响应,返回步骤305;
步骤311:服务器根据资源包的资源记录从服务器数据库中获取对应保存的资源记录;
优选的,服务器根据资源包中的主机IP地址,从服务器数据库中获取与该主机IP地址对应的资源记录。
步骤312:服务器判断保存的资源记录的运行状态,如果为正常运行,则执行步骤314,如果为异常运行或停止运行,则执行步骤313;
例如,如表3所示,服务器从数据库中获取到对应保存的资源记录为:
表3
资源名称 | 服务器 | 报警标识 | 资源更新时间 | 资源错误次数 | 运行状态 |
otp1 | C | 未报警 | 2012.01.28 11:25:00 | 4 | 停止运行 |
客户端的资源状态信息中的运行状态为异常运行,数据库中对应保存的资源记录的运行状态为停止运行,则执行步骤313;
步骤313:服务器将数据库中的资源记录更新为异常运行状态,并记录资源异常运行日志,执行步骤314;
步骤314:服务器将该资源记录的资源错误次数累加,并从资源包中获取客户端时间戳,将服务器数据库中的资源更新时间更新为客户端时间戳,并向客户端返回更新成功响应,返回步骤305;
本实施例中,如表4所示,更新后的数据库中的资源记录为:
表4
相应的,实施例2中当报警服务器定时查询到资源名称为otp1的资源记录时,获取到资源错误次数为5,则进行报警。
步骤315:服务器根据资源包的资源状态信息从服务器数据库中获取对应保存的资源记录;
优选的,服务器根据资源包中的主机IP地址,从服务器数据库中获取与该主机IP地址对应的资源记录。
步骤316:服务器判断保存的资源记录的运行状态,如果为正常运行,则执行步骤318,如果为异常运行或停止运行,则执行步骤317。
步骤317:服务器将数据库中的资源记录更新为异常运行状态,并记录资源异常运行日志,执行步骤318;
步骤318:服务器将该资源记录的资源错误次数累加,并从资源包中获取客户端时间戳,将服务器数据库中的资源更新时间更新为客户端时间戳,并向客户端返回更新成功响应,返回步骤305。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明公开的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (11)
1.一种监控报警的方法,其特征在于,包括:服务器集群中的服务器访问同一数据库,当服务器集群中的服务器启动后,所述服务器执行以下操作:
步骤S1:所述服务器查询所述数据库中记录的报警时间值,并获取当前系统时间;
步骤S2:所述服务器判断当前系统时间与所述报警时间值的差值是否大于第一预设时间,如果是,则执行步骤S3,否则执行步骤S4;
步骤S3:所述服务器将所述报警时间值更新为当前系统时间,判断是否更新成功,如果是,则执行步骤S5,否则执行步骤S4;
步骤S4:所述服务器等待第二预设时间后,返回执行步骤S1;
步骤S5:所述服务器每隔第三预设时间执行报警操作,并获取当前系统时间,将所述报警时间值更新为当前系统时间,判断是否更新成功,如果是,则继续执行步骤S5,否则返回步骤S1;所述第三预设时间小于所述第一预设时间。
2.根据权利要求1所述的方法,其特征在于,所述步骤S5具体包括:
步骤S5-1:所述服务器每隔所述第三预设时间执行报警操作;
步骤S5-2:所述服务器获取当前系统时间,将报警权限时间字段记录的报警时间值更新为当前系统时间,判断是否更新成功,如果是,则返回步骤S5-1,否则返回步骤S1。
3.根据权利要求1所述的方法,其特征在于,所述步骤S5具体包括:
所述服务器启动报警时间更新线程和报警线程;
所述报警线程每隔所述第三预设时间执行报警操作;
所述报警时间更新线程每隔第四预设时间更新所述报警时间值,判断是否更新成功,如果是,则所述报警时间更新线程继续执行每隔第四预设时间更新报警时间值操作,否则返回步骤S1。
4.根据权利要求1所述的方法,其特征在于,所述执行报警操作,具体为:所述服务器从所述数据库中获取所有资源记录,对所述所有资源记录中的每一条当前资源记录执行以下操作:
步骤a1:所述服务器判断当前资源记录中的报警标识是否为未报警,如果是,则执行步骤a2,否则所述资源记录执行完毕;
步骤a2:所述服务器判断所述当前资源记录是否满足报警条件,如果是,则执行步骤a3,否则所述当前资源记录执行完毕;
步骤a3:所述服务器发送报警信息,并将所述当前资源记录的报警标识置为已报警,所述当前资源记录执行完毕。
5.根据权利要求1所述的方法,其特征在于,所述执行报警操作,具体为:
步骤b1:所述服务器从数据库中获取所有资源记录,将所述所有资源记录中的第一条资源记录作为当前资源记录;
步骤b2:所述服务器判断当前资源记录中的报警标识是否为已报警,如果是,则执行步骤b5,否则执行步骤b3;
步骤b3:所述服务器判断当前资源记录是否满足报警条件,如果是,则执行步骤b4,否则执行步骤b5;
步骤b4:所述服务器发送报警信息,并将所述资源记录的报警标识置为已报警;
步骤b5:所述服务器判断当前资源记录之后是否存在下一条资源记录,如果是,则将当前资源记录的下一条资源记录作为当前资源状记录,返回步骤b2,否则执行步骤S5。
6.根据权利要求1所述的方法,其特征在于,所述执行报警操作,具体为:
步骤c1:所述服务器从所述数据库中获取所有资源记录;
步骤c2:所述服务器从所述所有资源记录中获取报警标识为未报警的资源记录,将其作为当前资源记录;
步骤c3:所述服务器判断当前资源记录是否满足报警条件,如果是,则执行步骤c4,否则执行步骤c5;
步骤c4:所述服务器发送报警信息,并将当前资源记录的报警标识置为已报警;
步骤c5:所述服务器判断所述所有资源记录中是否还有报警标识为未报警的资源记录,是则返回步骤c2,否则继续执行步骤S5。
7.根据权利要求4或5或6中任意一项所述的方法,其特征在于,所述判断所述当前资源记录是否满足报警条件,具体为:
步骤a2-1:所述服务器获取当前资源记录中的资源更新时间,并获取当前系统时间;
步骤a2-2:所述服务器判断当前系统时间与所述资源更新时间的差值是否超过预设时长,如果是,则满足报警条件,否则执行步骤a2-3;
步骤a2-3:所述服务器获取当前资源记录中的资源错误次数,判断所述资源错误次数是否达到预设次数,如果是,则满足报警条件,否则不满足报警条件。
8.根据权利要求4或5或6中任意一项所述的方法,其特征在于,所述方法还包括:服务器对所述数据库中的资源记录进行更新,具体为:
步骤d1:主机的客户端启动,客户端根据主机IP地址生成获取监控信息的请求,获取并根据预设配置信息,将所述获取监控信息的请求发送至所述服务器集群中对应的服务器;
步骤d2:所述服务器接收到所述获取监控信息的请求后,从所述请求中获取主机IP地址,根据所述主机IP地址获取所述数据库中的监控信息,将所述监控信息返回给所述客户端;
步骤d3:所述客户端接收到所述监控信息后,根据所述监控信息,采集所述主机上对应的资源状态信息,将所述资源状态信息发送至所述服务器;
步骤d4:所述服务器获取到所述资源状态信息后,根据所述资源状态信息获取所述数据库中对应保存的资源记录;
步骤d5:所述服务器根据所述资源状态信息更新所述资源记录的资源错误次数和资源更新时间。
9.根据权利要求8所述的方法,其特征在于,所述步骤d5,具体为:
步骤d5-1:所述服务器获取并判断所述资源状态信息中记录的运行状态,如果是正常运行,则执行步骤d5-2,如果是不正常运行,则执行步骤d5-3;
步骤d5-2:所述服务器将所述资源记录的资源错误次数清零,将所述资源记录的资源更新时间更新为所述资源状态信息中记录的客户端时间戳,并将所述资源记录的运行状态更新为正常运行;
步骤d5-3:所述服务器将所述资源记录的资源错误次数累加,将所述资源记录的资源更新时间更新为所述资源状态信息中记录的客户端时间戳,并将所述资源记录的运行状态更新为不正常运行。
10.根据权利要求9所述的方法,其特征在于,所述不正常运行,具体包括:异常运行或停止运行;
当所述资源状态信息中记录的运行状态为异常运行时,所述将所述资源记录的运行状态更新为不正常运行,具体为:将所述资源记录的运行状态更新为异常运行;
当所述资源状态信息中记录的运行状态为异常运行时,所述将所述资源记录的运行状态更新为不正常运行,具体为:将所述资源记录的运行状态更新为停止运行。
11.根据权利要求1所述的方法,其特征在于,所述步骤S1之前,还包括:所述服务器等待所述第二预设时间后执行步骤S1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510118078.8A CN104796283B (zh) | 2015-03-18 | 2015-03-18 | 一种监控报警的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510118078.8A CN104796283B (zh) | 2015-03-18 | 2015-03-18 | 一种监控报警的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104796283A CN104796283A (zh) | 2015-07-22 |
CN104796283B true CN104796283B (zh) | 2018-05-11 |
Family
ID=53560811
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510118078.8A Active CN104796283B (zh) | 2015-03-18 | 2015-03-18 | 一种监控报警的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104796283B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105791027B (zh) * | 2016-04-25 | 2019-03-15 | 北京威努特技术有限公司 | 一种工业网络异常中断的检测方法 |
CN108549671B (zh) * | 2018-03-28 | 2022-07-08 | 微梦创科网络科技(中国)有限公司 | 数据实时采集并可视化的实现方法及装置 |
CN112530139B (zh) * | 2019-09-19 | 2022-05-24 | 维谛技术有限公司 | 一种监控系统、方法、装置、采集器及存储介质 |
CN113760628B (zh) * | 2020-06-05 | 2024-06-18 | 北京沃东天骏信息技术有限公司 | 用于监控数据处理的方法和装置 |
CN112947219A (zh) * | 2021-03-02 | 2021-06-11 | 阳城国际发电有限责任公司 | 煤场数字化控制方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6178529B1 (en) * | 1997-11-03 | 2001-01-23 | Microsoft Corporation | Method and system for resource monitoring of disparate resources in a server cluster |
CN1666462A (zh) * | 2002-05-03 | 2005-09-07 | 艾比斯有限公司 | 监控多个个体的方法和装置 |
CN101707632A (zh) * | 2009-10-28 | 2010-05-12 | 浪潮电子信息产业股份有限公司 | 一种动态监控服务器集群性能并实时报警的方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100956638B1 (ko) * | 2007-12-11 | 2010-05-11 | 한국전자통신연구원 | 대규모 클러스터 모니터링 시스템과 그의 자동 구축 및복구 방법 |
-
2015
- 2015-03-18 CN CN201510118078.8A patent/CN104796283B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6178529B1 (en) * | 1997-11-03 | 2001-01-23 | Microsoft Corporation | Method and system for resource monitoring of disparate resources in a server cluster |
CN1666462A (zh) * | 2002-05-03 | 2005-09-07 | 艾比斯有限公司 | 监控多个个体的方法和装置 |
CN101707632A (zh) * | 2009-10-28 | 2010-05-12 | 浪潮电子信息产业股份有限公司 | 一种动态监控服务器集群性能并实时报警的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104796283A (zh) | 2015-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104796283B (zh) | 一种监控报警的方法 | |
EP1635505B1 (en) | Distributed messaging system and method for sharing network status data | |
CN104252500B (zh) | 一种数据库管理平台的故障修复方法和装置 | |
CN101631053B (zh) | Eaps环网拓扑监控方法及系统 | |
JP5287402B2 (ja) | ネットワーク監視制御装置 | |
CN107147540A (zh) | 高可用性系统中的故障处理方法和故障处理集群 | |
CN108259215B (zh) | 一种设备管理方法及装置 | |
CN103236949A (zh) | 一种服务器集群的监控方法、装置与系统 | |
JP2004021549A (ja) | ネットワーク監視システムおよびプログラム | |
CN105095008B (zh) | 一种适用于集群系统的分布式任务故障冗余方法 | |
CN103810076B (zh) | 数据复制的监控方法及装置 | |
CN110445697B (zh) | 视频大数据云平台设备接入服务方法 | |
CN104052634A (zh) | 信息安全监控系统及方法 | |
WO2015007161A1 (zh) | 调度自动化系统iec104规约通讯状态的检测方法 | |
CN107276839A (zh) | 一种云平台的自监控方法和系统 | |
CN107947998A (zh) | 一种基于应用系统的实时监测系统 | |
CN112468592A (zh) | 一种基于电力信息采集的终端在线状态侦测方法及系统 | |
MX2010010616A (es) | Actualizacion de informacion de enrutamiento y apagon en una red de comunicacion. | |
EP1622310B1 (en) | Administration method and system for network management systems | |
CN113765717A (zh) | 一种基于涉密专用计算平台的运维管理系统 | |
CN106656584B (zh) | 一种分布式系统无效节点判定方法 | |
CN102377619A (zh) | Snmp代理通信异常自动检测及处理方法 | |
CN110557283B (zh) | 配电通信网管控方法、服务器、系统及可读存储介质 | |
JP6542538B2 (ja) | ネットワーク監視システム、監視装置および監視方法 | |
CN103957127B (zh) | 异构厂家传输网络接口适配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |