CN104394033A - 跨数据中心的监控系统、方法及装置 - Google Patents

跨数据中心的监控系统、方法及装置 Download PDF

Info

Publication number
CN104394033A
CN104394033A CN201410693552.5A CN201410693552A CN104394033A CN 104394033 A CN104394033 A CN 104394033A CN 201410693552 A CN201410693552 A CN 201410693552A CN 104394033 A CN104394033 A CN 104394033A
Authority
CN
China
Prior art keywords
monitoring node
node
target monitoring
target
monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410693552.5A
Other languages
English (en)
Other versions
CN104394033B (zh
Inventor
叶炜晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201410693552.5A priority Critical patent/CN104394033B/zh
Publication of CN104394033A publication Critical patent/CN104394033A/zh
Application granted granted Critical
Publication of CN104394033B publication Critical patent/CN104394033B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明实施例公开了一种跨数据中心的监控系统、方法及装置。其中,该跨数据中心的管理员节点接收主动监控节点发送的针对于目标监控节点的故障与否投票请求,判断故障与否投票请求是否满足预设响应条件,如果是,向除主动监控节点和目标监控节点以外的其他监控节点发送针对于目标监控节点的故障与否询问请求;接收其他监控节点发送的所述故障与否询问请求对应的故障与否应答结果;基于故障与否应答结果,确定目标监控节点的运行状态;当运行状态表明目标监控节点故障时,确定目标监控节点所对应的临时监控节点;指示临时监控节点对目标监控节点所监控的设备节点执行临时监控操作。可见,通过利用本方案,可以兼顾监控设备节点的准确性和有效性。

Description

跨数据中心的监控系统、方法及装置
技术领域
本发明涉及数据处理领域,特别涉及一种跨数据中心的监控系统、方法及装置。
背景技术
大型互联网公司为了保证承载有大量数据信息的设备节点(例如:业务服务器、数据服务器等)的有效运行,通常会对这些设备节点进行监控。现有的监控模式通常包括如下两种方式:
(1)同数据中心的监控:监控节点(负责监控的设备)和设备节点(被监控的设备)位于同一机房;
(2)跨数据中心的监控:监控节点和设备节点位于不同的机房。
但是,上述两种监控模式,在实际使用时具有如下的缺点:
对于同数据中心的监控模式而言,由于监控节点和设备节点位于同一机房内,如果机房发生灾难(断电、大规模宕机等),监控节点和设备节点将同时失效,业务负责人员不能及时接收到报警,也无法登陆到监控系统上去查看灾难的具体状况,严重影响灾后修复效率。
而对于跨数据中心的监控模式而言,监控节点和设备节点之间的通信需要经过跨数据中心的网络专线,大量消耗专线网络带宽;同时,监控的准确性受到网络状况的影响,例如:数据中心之间的网络抖动会引起大量的监控误报,严重降低了监控报警的准确性。
发明内容
基于上述问题,本发明实施例公开了一种跨数据中心的监控系统、方法及装置,以兼顾监控设备节点的准确性和有效性。技术方案如下:
第一方面,本发明实施例提供了一种跨数据中心的监控系统,包括:
管理员节点以及能够与所述管理员节点通信的且能够相互通信的至少一个监控节点,其中,所述至少一个监控节点中的任意两个监控节点位于同一数据中心或不同的数据中心,每一监控节点负责监控自身所在数据中心内的设备节点;
所述监控节点用于:定时对自身以外的监控节点执行ping操作,在对所述自身以外的任意一监控节点执行ping操作而满足预设请求条件时,将作为主动监控节点构造针对于作为目标监控节点的该任意一监控节点的故障与否投票请求,并发送给管理员节点,并且,在接收到管理员节点发送的针对于作为目标监控节点的任意一监控节点的故障与否询问请求后,将对所述目标监控节点的ping操作结果作为故障与否应答结果反馈给所述管理员节点;
所述管理员节点用于:接收主动监控节点发送的针对于目标监控节点的故障与否投票请求,其中,所述主动监控节点为所述跨数据中心的监控系统中的任意一个监控节点,所述故障与否投票请求为所述主动监控节点对所述目标监控节点执行ping操作而满足预设请求条件时构造并发送的;判断所述故障与否投票请求是否满足预设响应条件,如果是,向除所述主动监控节点和所述目标监控节点以外的其他监控节点发送针对于所述目标监控节点的故障与否询问请求,以使得所述其他监控节点在接收到所述故障与否询问请求后,将对所述目标监控节点的ping操作结果作为故障与否应答结果反馈给所述管理员节点;接收所述其他监控节点发送的所述故障与否询问请求对应的故障与否应答结果;基于所述故障与否应答结果,确定所述目标监控节点的运行状态;当所述运行状态表明所述目标监控节点故障时,确定所述目标监控节点所对应的临时监控节点;指示所述临时监控节点对所述目标监控节点所监控的设备节点执行临时监控操作。
第二方面,本发明实施例提供了一种跨数据中心的监控方法,应用于第一方面所提供的所述跨数据中心的监控系统的管理员节点;所述方法包括:
接收主动监控节点发送的针对于目标监控节点的故障与否投票请求,其中,所述主动监控节点为所述跨数据中心的监控系统中的任意一个监控节点,所述故障与否投票请求为所述主动监控节点对所述目标监控节点执行ping操作而满足预设请求条件时构造并发送的;
判断所述故障与否投票请求是否满足预设响应条件,如果是,向除所述主动监控节点和所述目标监控节点以外的其他监控节点发送针对于所述目标监控节点的故障与否询问请求,以使得所述其他监控节点在接收到所述故障与否询问请求后,将对所述目标监控节点的ping操作结果作为故障与否应答结果反馈给所述管理员节点;
接收所述其他监控节点发送的所述故障与否询问请求对应的故障与否应答结果;
基于所述故障与否应答结果,确定所述目标监控节点的运行状态;
当所述运行状态表明所述目标监控节点故障时,确定所述目标监控节点所对应的临时监控节点;
指示所述临时监控节点对所述目标监控节点所监控的设备节点执行临时监控操作。
可选的,本发明实施例所提供的跨数据中心的监控方法,还包括:
指示所述主动监控节点继续对所述目标监控节点执行ping操作,以及指示所述其他监控节点停止对所述目标监控节点执行ping操作;
接收所述主动监控节点发送的针对于所述目标监控节点的恢复与否投票请求,其中,所述恢复与否投票请求为所述主动监控节点ping通所述目标监控节点时构造并发送的;
向所述其他监控节点发送针对于所述目标监控节点的恢复与否询问请求,以使得所述其他监控节点在接收到所述恢复与否询问请求后对所述目标监控节点执行ping操作,并将ping操作结果作为恢复与否应答结果反馈给所述管理员节点;
接收所述其他监控节点发送的所述恢复与否询问请求对应的故障与否应答结果;
基于所述恢复与否应答结果,确定所述目标监控节点的运行状态;
当所述运行状态表明所述目标监控节点恢复时,指示该临时监控节点停止对所述目标监控节点所监控的设备节点的临时监控操作。
可选的,所述预设请求条件包括:
连续预定次数对所述目标监控节点执行ping操作而无法ping通;
或者,
在预定时间段内对所述目标监控节点执行ping操作而无法ping通。
可选的,所述判断所述故障与否投票请求是否满足预设响应条件,包括:
判断所述故障与否投票请求所对应的发送节点是否为预先为所述目标监控节点设置的监控节点,如果是,表明所述故障与否投票请求满足预设响应条件。
可选的,所述管理员节点记录有各个监控节点的当前的运行状态;
所述判断所述故障与否投票请求是否满足预设响应条件,包括:
判断所述故障与否投票请求是否为在所述目标监控节点当前的运行状态表明未故障时的第一个故障与否投票请求,如果是,表明所述故障与否投票请求满足预设响应条件。
可选的,基于所述故障与否应答结果,确定所述目标监控节点的运行状态,包括:
设定目标监控节点的起始分数为预定基准分数;
对与所述目标监控节点属于同一数据中心的每一其他监控节点执行如下操作:
如果当前监控节点的故障与否应答结果表明其ping通所述目标监控节点,则对所述目标监控节点执行加第一分数值的操作,否则,对所述目标监控节点执行减第二分数值的操作,其中,所述第一分数值小于所述第二分数值;
对与所述目标监控节点属于不同数据中心的每一其他监控节点执行如下操作:
如果当前监控节点的故障与否应答结果表明其ping通所述目标监控节点,则对所述目标监控节点执行加第二分数值的操作,否则,对所述目标监控节点执行减第一分数值的操作;
并且,在处理完毕所有的其他监控节点后,如果所述目标监控节点当前的分数小于所述预定基准分数,确定所述目标监控节点的运行状态为故障状态,否则,确定所述目标监控节点的运行状态为非故障状态。
可选的,基于所述故障与否应答结果,确定所述目标监控节点的运行状态,包括:
判断表明未ping通所述目标监控节点的故障与否应答结果的个数是否超过预设阈值,如果是,确定所述目标监控节点的运行状态为故障状态,否则,确定所述目标监控节点的运行状态为非故障状态。
可选的,所述确定所述目标监控节点所对应的临时监控节点,包括:
将所述主动监控节点确定为所述目标监控节点对应的临时监控节点;
或者,
将所述其他监控节点中设备节点负载最少的监控节点确定为所述目标监控节点对应的临时监控节点;
或者,
将与所述目标监控节点属于同一数据中心的其他监控节点中设备节点负载最少的监控节点确定为所述目标监控节点对应的临时监控节点。
第三方面,本发明实施例提供了一种跨数据中心的监控装置,应用于第一方面所提供的所述跨数据中心的监控系统中的管理员节点;所述装置包括:
故障与否投票请求接收模块,用于接收主动监控节点发送的针对于目标监控节点的故障与否投票请求,其中,所述主动监控节点为所述跨数据中心的监控系统中的任意一个监控节点,所述故障与否投票请求为所述主动监控节点对所述目标监控节点执行ping操作而满足预设请求条件时构造并发送的;
判断模块,用于判断所述故障与否投票请求是否满足预设响应条件,如果是,触发故障与否询问请求发送模块;
所述故障与否询问请求发送模块,用于向除所述主动监控节点和所述目标监控节点以外的其他监控节点发送针对于所述目标监控节点的故障与否询问请求,以使得所述其他监控节点在接收到所述故障与否询问请求后,将对所述目标监控节点的ping操作结果作为故障与否应答结果反馈给所述管理员节点;
第一故障与否应答结果接收模块,用于接收所述其他监控节点发送的所述故障与否询问请求对应的故障与否应答结果;
第一运行状态确定模块,用于基于所述故障与否应答结果,确定所述目标监控节点的运行状态;
临时监控节点确定模块,用于当所述运行状态表明所述目标监控节点故障时,确定所述目标监控节点所对应的临时监控节点;
第一指示模块,用于指示所述临时监控节点对所述目标监控节点所监控的设备节点执行临时监控操作。
可选的,本发明实施例所提供的跨数据中心的监控装置,还包括:
指示模块,用于指示所述主动监控节点继续对所述目标监控节点执行ping操作,以及指示所述其他监控节点停止对所述目标监控节点执行ping操作;
恢复与否投票请求接收模块,用于接收所述主动监控节点发送的针对于所述目标监控节点的恢复与否投票请求,其中,所述恢复与否投票请求为所述主动监控节点ping通所述目标监控节点时构造并发送的;
恢复与否询问请求发送模块,用于向所述其他监控节点发送针对于所述目标监控节点的恢复与否询问请求,以使得所述其他监控节点在接收到所述恢复与否询问请求后对所述目标监控节点执行ping操作,并将ping操作结果作为恢复与否应答结果反馈给所述管理员节点;
第二故障与否应答结果接收模块,用于接收所述其他监控节点发送的所述恢复与否询问请求对应的故障与否应答结果;
第二运行状态确定模块,用于基于所述恢复与否应答结果,确定所述目标监控节点的运行状态;
第二指示模块,用于当所述运行状态表明所述目标监控节点恢复时,指示所述临时监控节点停止对所述目标监控节点所监控的设备节点的临时监控操作。
可选的,所述预设请求条件包括:
连续预定次数对所述目标监控节点执行ping操作而无法ping通;
或者,
在预定时间段内对所述目标监控节点执行ping操作而无法ping通。
可选的,所述判断模块,包括:
第一判断单元,用于:
判断所述故障与否投票请求所对应的发送节点是否为预先为所述目标监控节点设置的监控节点,如果是,触发故障与否询问请求发送模块。
可选的,所述管理员节点记录有各个监控节点的当前的运行状态;
所述判断模块,包括:
第二判断单元,用于判断所述故障与否投票请求是否为在所述目标监控节点当前的运行状态表明未故障时的第一个故障与否投票请求,如果是,触发故障与否询问请求发送模块。
可选的,第一运行状态确定模块,包括:
起始分数设定单元,用于设定目标监控节点的起始分数为预定基准分数;
第一处理单元,用于对与所述目标监控节点属于同一数据中心的每一其他监控节点执行如下操作:
如果当前监控节点的故障与否应答结果表明其ping通所述目标监控节点,则对所述目标监控节点执行加第一分数值的操作,否则,对所述目标监控节点执行减第二分数值的操作,其中,所述第一分数值小于所述第二分数值;
第二处理单元,用于对与所述目标监控节点属于不同数据中心的每一其他监控节点执行如下操作:
如果当前监控节点的故障与否应答结果表明其ping通所述目标监控节点,则对所述目标监控节点执行加第二分数值的操作,否则,对所述目标监控节点执行减第一分数值的操作;
分数处理单元,用于在处理完毕所有的其他监控节点后,如果所述目标监控节点当前的分数小于所述预定基准分数,确定所述目标监控节点的运行状态为故障状态,否则,确定所述目标监控节点的运行状态为非故障状态。
可选的,所述第一运行状态确定模块,包括:
个数处理单元,用于判断表明未ping通所述目标监控节点的故障与否应答结果的个数是否超过预设阈值,如果是,确定所述目标监控节点的运行状态为故障状态,否则,确定所述目标监控节点的运行状态为非故障状态。
可选的,所述临时监控节点确定模块,包括:
第一临时监控节点确定单元,用于当所述运行状态表明所述目标监控节点故障时,将所述主动监控节点确定为所述目标监控节点对应的临时监控节点;
或者,
第二临时监控节点确定单元,用于当所述运行状态表明所述目标监控节点故障时,将所述其他监控节点中设备节点负载最少的监控节点确定为所述目标监控节点对应的临时监控节点;
或者,
第三临时监控节点确定单元,用于当所述运行状态表明所述目标监控节点故障时,将与所述目标监控节点属于同一数据中心的其他监控节点中设备节点负载最少的监控节点确定为所述目标监控节点对应的临时监控节点。
本方案中,设备节点由包括监控节点和管理员节点的跨数据中心的监控系统进行监控,并且,各个监控节点负责监控自身所在数据中心内的设备节点,各个监控节点能够相互通信以及与管理员节点通信;在监控过程中,如果任意一监控节点对自身外的任意一目标监控节点执行ping操作而满足预设请求条件时,将通知管理员节点进行关于该目标监控节点是否故障的投票,而管理员节点将询问这两个监控节点以外的监控节点,并基于所接收到的反馈结果,确定该目标监控节点是否故障,进而在判断出该目标监控节点故障时,指示所确定出的临时监控节点对该目标监控节点所监控的设备节点执行临时监控操作。可见,通过利用本方案,可以兼顾监控设备节点的准确性和有效性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所提供的一种跨数据中心的监控系统的结构示意图;
图2为本发明实施例所提供的一种跨数据中心的监控方法的第一种流程图;
图3为本发明实施例所提供的一种跨数据中心的监控方法的第二种流程图;
图4为本发明实施例所提供的一种跨数据中心的监控装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种跨数据中心的监控系统、方法及装置,以兼顾监控设备节点的准确性和有效性。
下面首先介绍本发明实施例所提供的一种跨数据中心的监控系统,具体的,该监控系统可以包括:
管理员节点以及能够与所述管理员节点通信的且能够相互通信的至少一个监控节点,其中,所述至少一个监控节点中的任意两个监控节点位于同一数据中心或不同的数据中心,每一监控节点负责监控自身所在数据中心内的设备节点;
所述监控节点用于:定时对自身以外的监控节点执行ping操作,在对所述自身以外的任意一监控节点执行ping操作而满足预设请求条件时,将作为主动监控节点构造针对于作为目标监控节点的该任意一监控节点的故障与否投票请求,并发送给管理员节点,并且,在接收到管理员节点发送的针对于作为目标监控节点的任意一监控节点的故障与否询问请求后,将对所述目标监控节点的ping操作结果作为故障与否应答结果反馈给所述管理员节点;
所述管理员节点用于:接收主动监控节点发送的针对于目标监控节点的故障与否投票请求,其中,所述主动监控节点为所述跨数据中心的监控系统中的任意一个监控节点,所述故障与否投票请求为所述主动监控节点对所述目标监控节点执行ping操作而满足预设请求条件时构造并发送的;判断所述故障与否投票请求是否满足预设响应条件,如果是,向除所述主动监控节点和所述目标监控节点以外的其他监控节点发送针对于所述目标监控节点的故障与否询问请求,以使得所述其他监控节点在接收到所述故障与否询问请求后,将对所述目标监控节点的ping操作结果作为故障与否应答结果反馈给所述管理员节点;接收所述其他监控节点发送的所述故障与否询问请求对应的故障与否应答结果;基于所述故障与否应答结果,确定所述目标监控节点的运行状态;当所述运行状态表明所述目标监控节点故障时,确定所述目标监控节点所对应的临时监控节点;指示所述临时监控节点对所述目标监控节点所监控的设备节点执行临时监控操作。
举例而言:如图1所示的跨数据中心的监控系统,其包括管理员节点110以及能够与所述管理员节点通信的且能够相互通信的3个监控节点,其中,所述3个监控节点中的任意两个监控节点120位于同一数据中心或不同的数据中心,每一监控节点120负责监控自身所在数据中心内的设备节点;在监控过程中,如果任意一监控节点120对自身外的任意一目标监控节点执行ping操作而满足预设请求条件时,将通知管理员节点110进行关于该目标监控节点是否故障的投票,而管理员节点110将询问这两个监控节点以外的监控节点,并基于所接收到的反馈结果,确定该目标监控节点是否故障,进而在判断出该目标监控节点故障时,指示所确定出的临时监控节点对该目标监控节点所监控的设备节点执行临时监控操作。
更进一步的,管理员节点还用于指示所述主动监控节点继续对所述目标监控节点执行ping操作,以及指示所述其他监控节点停止对所述目标监控节点执行ping操作;接收所述主动监控节点发送的针对于所述目标监控节点的恢复与否投票请求,其中,所述恢复与否投票请求为所述主动监控节点ping通所述目标监控节点时构造并发送的;向所述其他监控节点发送针对于所述目标监控节点的恢复与否询问请求,以使得所述其他监控节点在接收到所述恢复与否询问请求后对所述目标监控节点执行ping操作,并将ping操作结果作为恢复与否应答结果反馈给所述管理员节点;接收所述其他监控节点发送的所述恢复与否询问请求对应的故障与否应答结果;基于所述恢复与否应答结果,确定所述目标监控节点的运行状态;当所述运行状态表明所述目标监控节点恢复时,指示该临时监控节点停止对所述目标监控节点所监控的设备节点的临时监控操作。相应的,任意一监控节点作为主动监控节点时,继续对目标监控节点执行ping操作的指示后,将响应所接收到的指示,并且,在能够ping通该目标监控节点时,向管理员节点发送针对于该监控节点的恢复与否投票请求;任意一监控节点作为除主动监控节点和目标监控节点以外的其他监控节点时,在接收到管理员节点发送的停止对目标监控节点执行ping操作的指示后,将响应所接收到的指示,并且,如果接收到针对于该目标监控节点的恢复与否询问请求,则对该目标监控节点执行ping操作,并将ping操作结果作为恢复与否应答结果反馈给该管理员节点。
本发明实施例中,设备节点由包括监控节点和管理员节点的跨数据中心的监控系统进行监控,并且,各个监控节点负责监控自身所在数据中心内的设备节点,各个监控节点能够相互通信以及与管理员节点通信;在监控过程中,如果任意一监控节点对自身外的任意一目标监控节点执行ping操作而满足预设请求条件时,将通知管理员节点进行关于该目标监控节点是否故障的投票,而管理员节点将询问这两个监控节点以外的监控节点,并基于所接收到的反馈结果,确定该目标监控节点是否故障,进而在判断出该目标监控节点故障时,指示所确定出的临时监控节点对该目标监控节点所监控的设备节点执行临时监控操作。可见,通过利用本方案,可以兼顾监控设备节点的准确性和有效性。
基于上述所给出的跨数据中心的监控系统,下面对本发明实施例所提供的一种跨数据中心的监控方法进行介绍。
需要说明的是,本发明实施例所提供的一种跨数据中心的监控方法,应用于跨数据中心的监控系统中的管理员节点,其中,跨数据中心的监控系统还包括:能够与管理员节点通信的且能够相互通信的至少一个监控节点,其中,至少一个监控节点中的任意两个监控节点位于同一数据中心或不同的数据中心,每一监控节点负责监控自身所在数据中心内的设备节点,并且,每一监控节点定时对自身以外的监控节点执行ping操作。
并且,设备节点可以为承载数据信息的待监控的各类服务器,当然并不局限于此;监控节点可以为负责监控设备节点的服务器设备,当然并不局限与此;而管理员节点可以为负责监控所有监控节点的服务器设备,当然并不局限与此。
如图2所示,一种跨数据中心的监控方法,可以包括:
S201,接收主动监控节点发送的针对于目标监控节点的故障与否投票请求;
其中,该主动监控节点为该跨数据中心的监控系统中的任意一个监控节点,该故障与否投票请求为该主动监控节点对该目标监控节点执行ping操作而满足预设请求条件时构造并发送的。举例而言:该预设请求条件可以包括:连续预定次数对该目标监控节点执行ping操作而无法ping通;或者,在预定时间段内对该目标监控节点执行ping操作而无法ping通。
需要强调的是,为了引用方便与清楚,将发送故障与否投票请求的节点称为主动监控节点,将故障与否投票请求所针对的监控节点称为目标监控节;可以理解的是,该主动监控节点和目标监控节点可以为监控系统中的任意两个监控节点。
S202,判断故障与否投票请求是否满足预设响应条件,如果是,执行S203;否则,不作处理;
在接收到故障与否投票请求后,管理员节点可以判断故障与否投票请求是否满足预设响应条件,并根据不同的判断结果执行不同的操作。具体的,当判断出该故障与否投票请求满足预设响应条件,可以执行S203;而当判断出该故障与否投票请求不满足预设响应条件时,可以不作处理。
在一种具体实现方式中,预先为每个监控节点设置一个能够发送故障与否投票请求的主动监控节点,其中,所设置的一个能够发送故障与否投票请求的主动监控节点为从剩余的监控节点中所选择的;相应的,所述判断该故障与否投票请求是否满足预设响应条件,可以包括:
判断该故障与否投票请求所对应的发送节点是否为预先为该目标监控节点设置的监控节点,如果是,表明该故障与否投票请求满足预设响应条件。
在另一种具体实现方式中,该管理员节点记录有各个监控节点的当前的运行状态;相应的,
所述判断该故障与否投票请求是否满足预设响应条件,可以包括:
判断该故障与否投票请求是否为在该目标监控节点当前的运行状态表明未故障时的第一个故障与否投票请求,如果是,表明该故障与否投票请求满足预设响应条件。
可见,在另一种具体实现方式中,管理员节点仅仅响应首次的针对于未故障的监控节点的故障与否投票请求。
需要强调的是,上述的所述判断该故障与否投票请求是否满足预设响应条件的具体实现方式仅仅作为示例,并不应该构成对本发明实施例的限定。
S203,向除该主动监控节点和该目标监控节点以外的其他监控节点发送针对于该目标监控节点的故障与否询问请求;
其中,如果判断出故障与否投票请求满足预设响应条件,则向除该主动监控节点和该目标监控节点以外的其他监控节点发送针对于该目标监控节点的故障与否询问请求,以使得其他监控节点在接收到该故障与否询问请求后,将对该目标监控节点的ping操作结果作为故障与否应答结果反馈给该管理员节点。
S204,接收其他监控节点发送的该故障与否询问请求对应的故障与否应答结果;
S205,基于故障与否应答结果,确定该目标监控节点的运行状态;
其中,在接收到其他监控节点发送的该故障与否询问请求对应的故障与否应答结果后,可以基于故障与否应答结果,确定该目标监控节点的运行状态。
在一种实现方式中,基于故障与否应答结果,确定该目标监控节点的运行状态,可以包括:
设定目标监控节点的起始分数为预定基准分数;
对与该目标监控节点属于同一数据中心的每一其他监控节点执行如下操作;
如果当前监控节点的故障与否应答结果表明其ping通该目标监控节点,则对该目标监控节点执行加第一分数值的操作,否则,对该目标监控节点执行减第二分数值的操作,其中,第一分数值小于该第二分数值;
对与该目标监控节点属于不同数据中心的每一其他监控节点执行如下操作;
如果当前监控节点的故障与否应答结果表明其ping通该目标监控节点,则对该目标监控节点执行加第二分数值的操作,否则,对该目标监控节点执行减第一分数值的操作;
在处理完毕所有的其他监控节点后,如果该目标监控节点当前的分数小于该预定基准分数,确定该目标监控节点的运行状态为故障状态,否则,确定该目标监控节点的运行状态为非故障状态。
需要说明的是,该预定基准分数可以根据实际情况进行设定,例如:该预定基准分数可以为0分,也可以为100分。并且,对于与目标监控节点属于同一数据中心的任意一其他监控节点而言,由于受到网络环境因素的影响较小,如果该其他监控节点无法ping通该目标监控节点,表明该目标监控节点发生故障的可能性极大,因此,扣除的分值较大,而如果该其他监控节点能够ping通该目标监控节点,增加的分值较小;同样的,对于与目标监控节点属于不同的数据中心的任意一其他监控节点而言,由于受到网络环境因素的影响较大,如果该其他监控节点能够ping通该目标监控节点,表明该目标监控节点发生故障的可能性极小,因此,增加的分值较大,而如果该其他监控节点无法ping通该目标监控节点,则扣除的分值较小。
在另一种实现方式中,基于故障与否应答结果,确定目标监控节点的运行状态,可以包括:
判断表明未ping通该目标监控节点的故障与否应答结果的个数是否超过预设阈值,如果是,确定该目标监控节点的运行状态为故障状态,否则,确定该目标监控节点的运行状态为非故障状态。
其中,该预设阈值可以根据实际情况设定,例如:该预设阈值可以为监控节点总数的二分之一,也可以为监控节点总数的四分之三,等等。
S206,当该运行状态表明该目标监控节点故障时,确定该目标监控节点所对应的临时监控节点;
其中,当该运行状态表明该目标监控节点故障时,可以认定该目标监控节点故障,此时,可以确定该目标监控节点所对应的临时监控节点,以通过该临时监控节点代替该目标监控节点来对该目标监控节点所对应的设备节点进行监控;当然,当该运行状态表明该目标监控节点非故障时,可以认定该目标监控节点非故障,此时,可以结束本次流程。
具体的,所述确定所述目标监控节点所对应的临时监控节点,可以包括:
将该主动监控节点确定为该目标监控节点对应的临时监控节点;
或者,
将其他监控节点中设备节点负载最少的监控节点确定为该目标监控节点对应的临时监控节点;
或者,
将与该目标监控节点属于同一数据中心的其他监控节点中设备节点负载最少的监控节点确定为该目标监控节点对应的临时监控节点。
需要强调的是,上述的确定所述目标监控节点所对应的临时监控节点具体实现仅仅作为示例,并不应该构成对本发明实施例的限定。
S207,指示该临时监控节点对该目标监控节点所监控的设备节点执行临时监控操作。
可以理解的是,指示该临时监控节点对该目标监控节点所监控的设备节点执行临时监控操作的具体实现可以采用现有技术。
本发明实施例中,设备节点由包括监控节点和管理员节点的跨数据中心的监控系统进行监控,并且,各个监控节点负责监控自身所在数据中心内的设备节点,各个监控节点能够相互通信以及与管理员节点通信;在监控过程中,如果任意一监控节点对自身外的任意一目标监控节点执行ping操作而满足预设请求条件时,将通知管理员节点进行关于该目标监控节点是否故障的投票,而管理员节点将询问这两个监控节点以外的监控节点,并基于所接收到的反馈结果,确定该目标监控节点是否故障,进而在判断出该目标监控节点故障时,指示所确定出的临时监控节点对该目标监控节点所监控的设备节点执行临时监控操作。可见,通过利用本方案,可以兼顾监控设备节点的准确性和有效性。
更进一步的,在S201-S207的基础上,本发明另一实施例所提供一种跨数据中心的监控方法,还可以包括:
S208,指示该主动监控节点继续对该目标监控节点执行ping操作,以及指示其他监控节点停止对该目标监控节点执行ping操作;
其中,指示该主动监控节点继续对该目标监控节点执行ping操作的具体实现可以采用现有技术,以及指示其他监控节点停止对该目标监控节点执行ping操作的具体实现可以采用现有技术。
S209,接收该主动监控节点发送的针对于该目标监控节点的恢复与否投票请求;
其中,该恢复与否投票请求为该主动监控节点ping通该目标监控节点时构造并发送的。
S210,向其他监控节点发送针对于该目标监控节点的恢复与否询问请求;
其中,其他监控节点在接收到该恢复与否询问请求后对该目标监控节点执行ping操作,并将ping操作结果作为恢复与否应答结果反馈给所述管理员节点。
S211,接收其他监控节点发送的该恢复与否询问请求对应的故障与否应答结果;
S212,基于恢复与否应答结果,确定该目标监控节点的运行状态;
在一种实现方式中,基于恢复与否应答结果,确定该目标监控节点的运行状态,可以包括:
设定目标监控节点的起始分数为预定起始分数;
对与该目标监控节点属于同一数据中心的每一其他监控节点执行如下操作;
如果当前监控节点的故障与否应答结果表明其ping通该目标监控节点,则对该目标监控节点执行加第三分数值的操作,否则,对该目标监控节点执行减第四分数值的操作,其中,第三分数值小于该第四分数值;
对与该目标监控节点属于不同数据中心的每一其他监控节点执行如下操作;
如果当前监控节点的故障与否应答结果表明其ping通该目标监控节点,则对该目标监控节点执行加第四分数值的操作,否则,对该目标监控节点执行减第三分数值的操作;
在处理完毕所有的其他监控节点后,如果该目标监控节点当前的分数小于该预定起始分数,确定该目标监控节点的运行状态为已恢复状态,否则,确定该目标监控节点的运行状态为未恢复状态。
需要说明的是,该预定起始分数可以根据实际情况进行设定,例如:该预定起始分数可以为0分,也可以为100分。并且,对于与目标监控节点属于同一数据中心的任意一其他监控节点而言,由于受到网络环境因素的影响较小,如果该其他监控节点无法ping通该目标监控节点,表明该目标监控节点未恢复的可能性极大,因此,扣除的分值较大,而如果该其他监控节点能够ping通该目标监控节点,增加的分值较小;同样的,对于与目标监控节点属于不同的数据中心的任意一其他监控节点而言,由于受到网络环境因素的影响较大,如果该其他监控节点能够ping通该目标监控节点,表明该目标监控节点已恢复的可能性极达,因此,增加的分值较大,而如果该其他监控节点无法ping通该目标监控节点,则扣除的分值较小。
在另一种实现方式中,基于恢复与否应答结果,确定该目标监控节点的运行状态,可以包括:
判断表明未ping通该目标监控节点的恢复与否应答结果的个数是否超过特定阈值,如果是,确定该目标监控节点的运行状态为未恢复状态,否则,确定该目标监控节点的运行状态为已恢复状态。
其中,该特定阈值可以根据实际情况设定,例如:该特定阈值可以为监控节点总数的二分之一,也可以为监控节点总数的四分之三,等等。
S213,当运行状态表明该目标监控节点恢复时,指示该临时监控节点停止对该目标监控节点所监控的设备节点的临时监控操作。
其中,当运行状态表明该目标监控节点恢复时,可以指示该临时监控节点停止对该目标监控节点所监控的设备节点的临时监控操作,而由于目标监控节点已恢复,该目标监控节点所对应的设备节点可以由该目标监控节点继续监控。
本实施例中,可以兼顾监控设备节点的准确性和有效性;并且,在判断出目标监控节点恢复时,继续由目标监控节点对自身的设备节点进行监控,进一步有效保证了监控设备节点的准确性。
相应于上述方法实施例,本发明实施例还提供了一种跨数据中心的监控装置,应用于跨数据中心的监控系统中的管理员节点,其中,所述跨数据中心的监控系统还包括:能够与所述管理员节点通信的且能够相互通信的至少一个监控节点,其中,所述至少一个监控节点中的任意两个监控节点位于同一数据中心或不同的数据中心,每一监控节点负责监控自身所在数据中心内的设备节点,并且,每一监控节点定时对自身以外的监控节点执行ping操作;如图4所示,所述装置可以包括:
故障与否投票请求接收模块410,用于接收主动监控节点发送的针对于目标监控节点的故障与否投票请求,其中,所述主动监控节点为所述跨数据中心的监控系统中的任意一个监控节点,所述故障与否投票请求为所述主动监控节点对所述目标监控节点执行ping操作而满足预设请求条件时构造并发送的;
判断模块420,用于判断所述故障与否投票请求是否满足预设响应条件,如果是,触发故障与否询问请求发送模块;
所述故障与否询问请求发送模块430,用于向除所述主动监控节点和所述目标监控节点以外的其他监控节点发送针对于所述目标监控节点的故障与否询问请求,以使得所述其他监控节点在接收到所述故障与否询问请求后,将对所述目标监控节点的ping操作结果作为故障与否应答结果反馈给所述管理员节点;
第一故障与否应答结果接收模块440,用于接收所述其他监控节点发送的所述故障与否询问请求对应的故障与否应答结果;
第一运行状态确定模块450,用于基于所述故障与否应答结果,确定所述目标监控节点的运行状态;
临时监控节点确定模块460,用于当所述运行状态表明所述目标监控节点故障时,确定所述目标监控节点所对应的临时监控节点;
第一指示模块470,用于指示所述临时监控节点对所述目标监控节点所监控的设备节点执行临时监控操作。
本发明实施例中,设备节点由包括监控节点和管理员节点的跨数据中心的监控系统进行监控,并且,各个监控节点负责监控自身所在数据中心内的设备节点,各个监控节点能够相互通信以及与管理员节点通信;在监控过程中,如果任意一监控节点对自身外的任意一目标监控节点执行ping操作而满足预设请求条件时,将通知管理员节点进行关于该目标监控节点是否故障的投票,而管理员节点将询问这两个监控节点以外的监控节点,并基于所接收到的反馈结果,确定该目标监控节点是否故障,进而在判断出该目标监控节点故障时,指示所确定出的临时监控节点对该目标监控节点所监控的设备节点执行临时监控操作。可见,通过利用本方案,可以兼顾监控设备节点的准确性和有效性。
更进一步的,本发明实施例所提供的跨数据中心的监控装置,还可以包括:
指示模块,用于指示所述主动监控节点继续对所述目标监控节点执行ping操作,以及指示所述其他监控节点停止对所述目标监控节点执行ping操作;
恢复与否投票请求接收模块,用于接收所述主动监控节点发送的针对于所述目标监控节点的恢复与否投票请求,其中,所述恢复与否投票请求为所述主动监控节点ping通所述目标监控节点时构造并发送的;
恢复与否询问请求发送模块,用于向所述其他监控节点发送针对于所述目标监控节点的恢复与否询问请求,以使得所述其他监控节点在接收到所述恢复与否询问请求后对所述目标监控节点执行ping操作,并将ping操作结果作为恢复与否应答结果反馈给所述管理员节点;
第二故障与否应答结果接收模块,用于接收所述其他监控节点发送的所述恢复与否询问请求对应的故障与否应答结果;
第二运行状态确定模块,用于基于所述恢复与否应答结果,确定所述目标监控节点的运行状态;
第二指示模块,用于当所述运行状态表明所述目标监控节点恢复时,指示所述临时监控节点停止对所述目标监控节点所监控的设备节点的临时监控操作。
具体的,所述预设请求条件可以包括:
连续预定次数对所述目标监控节点执行ping操作而无法ping通;
或者,
在预定时间段内对所述目标监控节点执行ping操作而无法ping通。
具体的,所述判断模块420,可以包括:
第一判断单元,用于:
判断所述故障与否投票请求所对应的发送节点是否为预先为所述目标监控节点设置的监控节点,如果是,触发故障与否询问请求发送模块。
具体的,所述管理员节点记录有各个监控节点的当前的运行状态;
所述判断模块420,可以包括:
第二判断单元,用于判断所述故障与否投票请求是否为在所述目标监控节点当前的运行状态表明未故障时的第一个故障与否投票请求,如果是,触发故障与否询问请求发送模块。
具体的,第一运行状态确定模块450,可以包括:
起始分数设定单元,用于设定目标监控节点的起始分数为预定基准分数;
第一处理单元,用于对与所述目标监控节点属于同一数据中心的每一其他监控节点执行如下操作:
如果当前监控节点的故障与否应答结果表明其ping通所述目标监控节点,则对所述目标监控节点执行加第一分数值的操作,否则,对所述目标监控节点执行减第二分数值的操作,其中,所述第一分数值小于所述第二分数值;
第二处理单元,用于对与所述目标监控节点属于不同数据中心的每一其他监控节点执行如下操作:
如果当前监控节点的故障与否应答结果表明其ping通所述目标监控节点,则对所述目标监控节点执行加第二分数值的操作,否则,对所述目标监控节点执行减第一分数值的操作;
分数处理单元,用于在处理完毕所有的其他监控节点后,如果所述目标监控节点当前的分数小于所述预定基准分数,确定所述目标监控节点的运行状态为故障状态,否则,确定所述目标监控节点的运行状态为非故障状态。
具体的,所述第一运行状态确定模块450,可以包括:
个数处理单元,用于判断表明未ping通所述目标监控节点的故障与否应答结果的个数是否超过预设阈值,如果是,确定所述目标监控节点的运行状态为故障状态,否则,确定所述目标监控节点的运行状态为非故障状态。
具体的,所述临时监控节点确定模块460,可以包括:
第一临时监控节点确定单元,用于当所述运行状态表明所述目标监控节点故障时,将所述主动监控节点确定为所述目标监控节点对应的临时监控节点;
或者,
第二临时监控节点确定单元,用于当所述运行状态表明所述目标监控节点故障时,将所述其他监控节点中设备节点负载最少的监控节点确定为所述目标监控节点对应的临时监控节点;
或者,
第三临时监控节点确定单元,用于当所述运行状态表明所述目标监控节点故障时,将与所述目标监控节点属于同一数据中心的其他监控节点中设备节点负载最少的监控节点确定为所述目标监控节点对应的临时监控节点。
对于系统或装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读取存储介质中,这里所称得的存储介质,如:ROM/RAM、磁碟、光盘等。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (17)

1.一种跨数据中心的监控系统,其特征在于,包括:
管理员节点以及能够与所述管理员节点通信的且能够相互通信的至少一个监控节点,其中,所述至少一个监控节点中的任意两个监控节点位于同一数据中心或不同的数据中心,每一监控节点负责监控自身所在数据中心内的设备节点;
所述监控节点用于:定时对自身以外的监控节点执行ping操作,在对所述自身以外的任意一监控节点执行ping操作而满足预设请求条件时,将作为主动监控节点构造针对于作为目标监控节点的该任意一监控节点的故障与否投票请求,并发送给管理员节点,并且,在接收到管理员节点发送的针对于作为目标监控节点的任意一监控节点的故障与否询问请求后,将对所述目标监控节点的ping操作结果作为故障与否应答结果反馈给所述管理员节点;
所述管理员节点用于:接收主动监控节点发送的针对于目标监控节点的故障与否投票请求,其中,所述主动监控节点为所述跨数据中心的监控系统中的任意一个监控节点,所述故障与否投票请求为所述主动监控节点对所述目标监控节点执行ping操作而满足预设请求条件时构造并发送的;判断所述故障与否投票请求是否满足预设响应条件,如果是,向除所述主动监控节点和所述目标监控节点以外的其他监控节点发送针对于所述目标监控节点的故障与否询问请求,以使得所述其他监控节点在接收到所述故障与否询问请求后,将对所述目标监控节点的ping操作结果作为故障与否应答结果反馈给所述管理员节点;接收所述其他监控节点发送的所述故障与否询问请求对应的故障与否应答结果;基于所述故障与否应答结果,确定所述目标监控节点的运行状态;当所述运行状态表明所述目标监控节点故障时,确定所述目标监控节点所对应的临时监控节点;指示所述临时监控节点对所述目标监控节点所监控的设备节点执行临时监控操作。
2.一种跨数据中心的监控方法,其特征在于,应用于权利要求1所述跨数据中心的监控系统的管理员节点;所述方法包括:
接收主动监控节点发送的针对于目标监控节点的故障与否投票请求,其中,所述主动监控节点为所述跨数据中心的监控系统中的任意一个监控节点,所述故障与否投票请求为所述主动监控节点对所述目标监控节点执行ping操作而满足预设请求条件时构造并发送的;
判断所述故障与否投票请求是否满足预设响应条件,如果是,向除所述主动监控节点和所述目标监控节点以外的其他监控节点发送针对于所述目标监控节点的故障与否询问请求,以使得所述其他监控节点在接收到所述故障与否询问请求后,将对所述目标监控节点的ping操作结果作为故障与否应答结果反馈给所述管理员节点;
接收所述其他监控节点发送的所述故障与否询问请求对应的故障与否应答结果;
基于所述故障与否应答结果,确定所述目标监控节点的运行状态;
当所述运行状态表明所述目标监控节点故障时,确定所述目标监控节点所对应的临时监控节点;
指示所述临时监控节点对所述目标监控节点所监控的设备节点执行临时监控操作。
3.根据权利要求2所述的方法,其特征在于,还包括:
指示所述主动监控节点继续对所述目标监控节点执行ping操作,以及指示所述其他监控节点停止对所述目标监控节点执行ping操作;
接收所述主动监控节点发送的针对于所述目标监控节点的恢复与否投票请求,其中,所述恢复与否投票请求为所述主动监控节点ping通所述目标监控节点时构造并发送的;
向所述其他监控节点发送针对于所述目标监控节点的恢复与否询问请求,以使得所述其他监控节点在接收到所述恢复与否询问请求后对所述目标监控节点执行ping操作,并将ping操作结果作为恢复与否应答结果反馈给所述管理员节点;
接收所述其他监控节点发送的所述恢复与否询问请求对应的故障与否应答结果;
基于所述恢复与否应答结果,确定所述目标监控节点的运行状态;
当所述运行状态表明所述目标监控节点恢复时,指示该临时监控节点停止对所述目标监控节点所监控的设备节点的临时监控操作。
4.根据权利要求2或3所述的方法,其特征在于,所述预设请求条件包括:
连续预定次数对所述目标监控节点执行ping操作而无法ping通;
或者,
在预定时间段内对所述目标监控节点执行ping操作而无法ping通。
5.根据权利要求2或3所述的方法,其特征在于,所述判断所述故障与否投票请求是否满足预设响应条件,包括:
判断所述故障与否投票请求所对应的发送节点是否为预先为所述目标监控节点设置的监控节点,如果是,表明所述故障与否投票请求满足预设响应条件。
6.根据权利要求2或3所述的方法,其特征在于,所述管理员节点记录有各个监控节点的当前的运行状态;
所述判断所述故障与否投票请求是否满足预设响应条件,包括:
判断所述故障与否投票请求是否为在所述目标监控节点当前的运行状态表明未故障时的第一个故障与否投票请求,如果是,表明所述故障与否投票请求满足预设响应条件。
7.根据权利要求2或3所述的方法,其特征在于,基于所述故障与否应答结果,确定所述目标监控节点的运行状态,包括:
设定目标监控节点的起始分数为预定基准分数;
对与所述目标监控节点属于同一数据中心的每一其他监控节点执行如下操作:
如果当前监控节点的故障与否应答结果表明其ping通所述目标监控节点,则对所述目标监控节点执行加第一分数值的操作,否则,对所述目标监控节点执行减第二分数值的操作,其中,所述第一分数值小于所述第二分数值;
对与所述目标监控节点属于不同数据中心的每一其他监控节点执行如下操作:
如果当前监控节点的故障与否应答结果表明其ping通所述目标监控节点,则对所述目标监控节点执行加第二分数值的操作,否则,对所述目标监控节点执行减第一分数值的操作;
并且,在处理完毕所有的其他监控节点后,如果所述目标监控节点当前的分数小于所述预定基准分数,确定所述目标监控节点的运行状态为故障状态,否则,确定所述目标监控节点的运行状态为非故障状态。
8.根据权利要求2或3所述的方法,其特征在于,基于所述故障与否应答结果,确定所述目标监控节点的运行状态,包括:
判断表明未ping通所述目标监控节点的故障与否应答结果的个数是否超过预设阈值,如果是,确定所述目标监控节点的运行状态为故障状态,否则,确定所述目标监控节点的运行状态为非故障状态。
9.根据权利要求2或3所述的方法,其特征在于,所述确定所述目标监控节点所对应的临时监控节点,包括:
将所述主动监控节点确定为所述目标监控节点对应的临时监控节点;
或者,
将所述其他监控节点中设备节点负载最少的监控节点确定为所述目标监控节点对应的临时监控节点;
或者,
将与所述目标监控节点属于同一数据中心的其他监控节点中设备节点负载最少的监控节点确定为所述目标监控节点对应的临时监控节点。
10.一种跨数据中心的监控装置,其特征在于,应用于权利要求1所述跨数据中心的监控系统中的管理员节点;所述装置包括:
故障与否投票请求接收模块,用于接收主动监控节点发送的针对于目标监控节点的故障与否投票请求,其中,所述主动监控节点为所述跨数据中心的监控系统中的任意一个监控节点,所述故障与否投票请求为所述主动监控节点对所述目标监控节点执行ping操作而满足预设请求条件时构造并发送的;
判断模块,用于判断所述故障与否投票请求是否满足预设响应条件,如果是,触发故障与否询问请求发送模块;
所述故障与否询问请求发送模块,用于向除所述主动监控节点和所述目标监控节点以外的其他监控节点发送针对于所述目标监控节点的故障与否询问请求,以使得所述其他监控节点在接收到所述故障与否询问请求后,将对所述目标监控节点的ping操作结果作为故障与否应答结果反馈给所述管理员节点;
第一故障与否应答结果接收模块,用于接收所述其他监控节点发送的所述故障与否询问请求对应的故障与否应答结果;
第一运行状态确定模块,用于基于所述故障与否应答结果,确定所述目标监控节点的运行状态;
临时监控节点确定模块,用于当所述运行状态表明所述目标监控节点故障时,确定所述目标监控节点所对应的临时监控节点;
第一指示模块,用于指示所述临时监控节点对所述目标监控节点所监控的设备节点执行临时监控操作。
11.根据权利要求10所述的装置,其特征在于,还包括:
指示模块,用于指示所述主动监控节点继续对所述目标监控节点执行ping操作,以及指示所述其他监控节点停止对所述目标监控节点执行ping操作;
恢复与否投票请求接收模块,用于接收所述主动监控节点发送的针对于所述目标监控节点的恢复与否投票请求,其中,所述恢复与否投票请求为所述主动监控节点ping通所述目标监控节点时构造并发送的;
恢复与否询问请求发送模块,用于向所述其他监控节点发送针对于所述目标监控节点的恢复与否询问请求,以使得所述其他监控节点在接收到所述恢复与否询问请求后对所述目标监控节点执行ping操作,并将ping操作结果作为恢复与否应答结果反馈给所述管理员节点;
第二故障与否应答结果接收模块,用于接收所述其他监控节点发送的所述恢复与否询问请求对应的故障与否应答结果;
第二运行状态确定模块,用于基于所述恢复与否应答结果,确定所述目标监控节点的运行状态;
第二指示模块,用于当所述运行状态表明所述目标监控节点恢复时,指示所述临时监控节点停止对所述目标监控节点所监控的设备节点的临时监控操作。
12.根据权利要求10或11所述的装置,其特征在于,所述预设请求条件包括:
连续预定次数对所述目标监控节点执行ping操作而无法ping通;
或者,
在预定时间段内对所述目标监控节点执行ping操作而无法ping通。
13.根据权利要求10或11所述的装置,其特征在于,所述判断模块,包括:
第一判断单元,用于:
判断所述故障与否投票请求所对应的发送节点是否为预先为所述目标监控节点设置的监控节点,如果是,触发故障与否询问请求发送模块。
14.根据权利要求10或11所述的装置,其特征在于,所述管理员节点记录有各个监控节点的当前的运行状态;
所述判断模块,包括:
第二判断单元,用于判断所述故障与否投票请求是否为在所述目标监控节点当前的运行状态表明未故障时的第一个故障与否投票请求,如果是,触发故障与否询问请求发送模块。
15.根据权利要求10或11所述的装置,其特征在于,第一运行状态确定模块,包括:
起始分数设定单元,用于设定目标监控节点的起始分数为预定基准分数;
第一处理单元,用于对与所述目标监控节点属于同一数据中心的每一其他监控节点执行如下操作:
如果当前监控节点的故障与否应答结果表明其ping通所述目标监控节点,则对所述目标监控节点执行加第一分数值的操作,否则,对所述目标监控节点执行减第二分数值的操作,其中,所述第一分数值小于所述第二分数值;
第二处理单元,用于对与所述目标监控节点属于不同数据中心的每一其他监控节点执行如下操作:
如果当前监控节点的故障与否应答结果表明其ping通所述目标监控节点,则对所述目标监控节点执行加第二分数值的操作,否则,对所述目标监控节点执行减第一分数值的操作;
分数处理单元,用于在处理完毕所有的其他监控节点后,如果所述目标监控节点当前的分数小于所述预定基准分数,确定所述目标监控节点的运行状态为故障状态,否则,确定所述目标监控节点的运行状态为非故障状态。
16.根据权利要求10或11所述的装置,其特征在于,所述第一运行状态确定模块,包括:
个数处理单元,用于判断表明未ping通所述目标监控节点的故障与否应答结果的个数是否超过预设阈值,如果是,确定所述目标监控节点的运行状态为故障状态,否则,确定所述目标监控节点的运行状态为非故障状态。
17.根据权利要求10或11所述的装置,其特征在于,所述临时监控节点确定模块,包括:
第一临时监控节点确定单元,用于当所述运行状态表明所述目标监控节点故障时,将所述主动监控节点确定为所述目标监控节点对应的临时监控节点;
或者,
第二临时监控节点确定单元,用于当所述运行状态表明所述目标监控节点故障时,将所述其他监控节点中设备节点负载最少的监控节点确定为所述目标监控节点对应的临时监控节点;
或者,
第三临时监控节点确定单元,用于当所述运行状态表明所述目标监控节点故障时,将与所述目标监控节点属于同一数据中心的其他监控节点中设备节点负载最少的监控节点确定为所述目标监控节点对应的临时监控节点。
CN201410693552.5A 2014-11-26 2014-11-26 跨数据中心的监控系统、方法及装置 Active CN104394033B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410693552.5A CN104394033B (zh) 2014-11-26 2014-11-26 跨数据中心的监控系统、方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410693552.5A CN104394033B (zh) 2014-11-26 2014-11-26 跨数据中心的监控系统、方法及装置

Publications (2)

Publication Number Publication Date
CN104394033A true CN104394033A (zh) 2015-03-04
CN104394033B CN104394033B (zh) 2018-02-09

Family

ID=52611869

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410693552.5A Active CN104394033B (zh) 2014-11-26 2014-11-26 跨数据中心的监控系统、方法及装置

Country Status (1)

Country Link
CN (1) CN104394033B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106209502A (zh) * 2016-06-28 2016-12-07 北京小米移动软件有限公司 系统监控方法、装置及服务器
CN110045699A (zh) * 2019-04-17 2019-07-23 北京中大科慧科技发展有限公司 数据中心动力管控系统及方法
CN110217659A (zh) * 2018-03-02 2019-09-10 奥的斯电梯公司 智能视频监控系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030196148A1 (en) * 2002-04-12 2003-10-16 Carol Harrisville-Wolff System and method for peer-to-peer monitoring within a network
CN1581094A (zh) * 2003-08-05 2005-02-16 联想(北京)有限公司 远程判断系统状态的方法
CN101072123A (zh) * 2007-04-30 2007-11-14 张宇飞 服务器实时监控智能报警系统及其运行方法
US20110238817A1 (en) * 2010-03-25 2011-09-29 Hitachi, Ltd. Network Monitoring Server And Network Monitoring System
CN104036548A (zh) * 2014-07-01 2014-09-10 浪潮(北京)电子信息产业有限公司 Mha集群环境重建方法、装置和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030196148A1 (en) * 2002-04-12 2003-10-16 Carol Harrisville-Wolff System and method for peer-to-peer monitoring within a network
CN1581094A (zh) * 2003-08-05 2005-02-16 联想(北京)有限公司 远程判断系统状态的方法
CN101072123A (zh) * 2007-04-30 2007-11-14 张宇飞 服务器实时监控智能报警系统及其运行方法
US20110238817A1 (en) * 2010-03-25 2011-09-29 Hitachi, Ltd. Network Monitoring Server And Network Monitoring System
CN104036548A (zh) * 2014-07-01 2014-09-10 浪潮(北京)电子信息产业有限公司 Mha集群环境重建方法、装置和系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106209502A (zh) * 2016-06-28 2016-12-07 北京小米移动软件有限公司 系统监控方法、装置及服务器
CN110217659A (zh) * 2018-03-02 2019-09-10 奥的斯电梯公司 智能视频监控系统
CN110045699A (zh) * 2019-04-17 2019-07-23 北京中大科慧科技发展有限公司 数据中心动力管控系统及方法

Also Published As

Publication number Publication date
CN104394033B (zh) 2018-02-09

Similar Documents

Publication Publication Date Title
TWI746512B (zh) 實體機器故障分類處理方法、裝置和虛擬機器恢復方法、系統
CN107995049B (zh) 电力安全区跨区同步故障监测方法、装置和系统
CN105808394B (zh) 一种服务器自愈的方法和装置
JP5767617B2 (ja) ネットワーク障害検出システムおよびネットワーク障害検出装置
CN102724065B (zh) 一种网络通信系统及包括该系统的工程机械设备
CN109274544B (zh) 一种分布式存储系统的故障检测方法及装置
CN106789306B (zh) 通信设备软件故障检测收集恢复方法和系统
CN111953566B (zh) 一种基于分布式故障监控的方法和虚拟机高可用系统
EP3142011A1 (en) Anomaly recovery method for virtual machine in distributed environment
CN108737574B (zh) 一种节点离线判断方法、装置、设备及可读存储介质
CN103761180A (zh) 一种集群存储中磁盘故障的预防及检测方法
CN106487612A (zh) 一种服务器节点监控方法、监控服务器及系统
CN112783792B (zh) 分布式数据库系统的故障检测方法、装置及电子设备
CN111212127A (zh) 一种存储集群及业务数据的维护方法、装置和存储介质
CN104394033B (zh) 跨数据中心的监控系统、方法及装置
CN103810076A (zh) 数据复制的监控方法及装置
CN108762118B (zh) 一种通讯设备间的故障处理方法及装置
CN107688547B (zh) 一种控制器主备切换的方法及系统
CN114168071B (zh) 一种分布式集群扩容方法、分布式集群扩容装置及介质
CN111314443A (zh) 基于分布式存储系统的节点处理方法、装置和设备及介质
JP2016076072A (ja) 障害通報装置、障害通報方法及び障害通報プログラム
CN108964992B (zh) 一种节点故障检测方法、装置和计算机可读存储介质
JP6269199B2 (ja) 管理サーバおよび障害復旧方法、並びにコンピュータ・プログラム
WO2014040470A1 (zh) 告警消息的处理方法及装置
CN115037596A (zh) 异常状态告警方法及装置、电子设备、存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant