CN102111310B - Cdn设备状态监控方法 - Google Patents
Cdn设备状态监控方法 Download PDFInfo
- Publication number
- CN102111310B CN102111310B CN2010106221620A CN201010622162A CN102111310B CN 102111310 B CN102111310 B CN 102111310B CN 2010106221620 A CN2010106221620 A CN 2010106221620A CN 201010622162 A CN201010622162 A CN 201010622162A CN 102111310 B CN102111310 B CN 102111310B
- Authority
- CN
- China
- Prior art keywords
- result
- equipment
- monitoring server
- state
- machine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 189
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000001514 detection method Methods 0.000 claims abstract description 15
- 239000000523 sample Substances 0.000 claims description 72
- 238000010009 beating Methods 0.000 claims description 21
- 210000004072 lung Anatomy 0.000 claims description 21
- 230000007257 malfunction Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 10
- 230000004083 survival effect Effects 0.000 claims description 10
- 230000002159 abnormal effect Effects 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 5
- 230000000737 periodic effect Effects 0.000 claims description 4
- 238000012423 maintenance Methods 0.000 abstract 1
- 230000001747 exhibiting effect Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 230000003111 delayed effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000009897 systematic effect Effects 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 239000000725 suspension Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Landscapes
- Debugging And Monitoring (AREA)
Abstract
本发明公开了CDN设备状态监控方法,为运维人员快速定位并正确处理异常提供了一个高效平台。其技术方案为:方法包括:被监控的CDN设备周期性地向作为心跳接收端的监控服务器上报设备心跳信息;监控服务器上周期性对被监控设备主动进行状态探测,得到主动探测结果;综合监控服务器上收集的设备心跳信息和主动探测结果,结合设备拓扑结构对设备状态进行判定,并针对故障根源发出报警;将设备状态判定装置的判定结果结合机房分布和设备拓扑结构作直观展示,并将设备状态判定装置发出的根源报警展示于报警页面。
Description
技术领域
本发明涉及一种网络设备的监控技术,尤其涉及CDN设备的状态监控方法。
背景技术
CDN设备正常与否直接关系到CDN运营平台的正常运转,及时准确地发现设备上的异常并通知管理人员处理是CDN运营平台得以健康运转的有力保障。因此,设备监控是CDN运营监控平台的主要功能之一。
CDN设备主要包括运营CDN业务的服务器和交换机,这些服务器和交换机基于某种网络拓扑连接起来。对设备状态监控目的则要及时检测出设备的如下状态:
服务器宕机:当服务器宕机时该服务器的CDN服务不能提供,该状况需要在第一时间内发现并修复。
交换机宕机:当交换机宕机时,其下的所有设备都将不可达,从而导致它们提供的CDN服务不可用。监控系统需要及时发现该状况,并明确问题根源为交换机宕机,影响范围为其下所有设备;
设备不可达:处于宕机状态交换机下的所有设备都不可达,监控系统需要将该状态于宕机状态明确区分以供运维人员快速定位问题和解决问题;
服务器僵死:处于僵死状态的服务器会导致该服务器的CDN服务不能正常提供,服务器僵死通常是由于操作系统异常或服务异常导致,主要表现为:shell登陆卡死在连接成功建立后的验证状态,该服务器的对外消息不能发送,但ping有正常回应。该问题现场对CDN产品改进有重要意义,监控系统需要及时发现该状况,并明确区分该服务器为僵死状态而非宕机或不可达状态,以供运维人员采取不同的手段处理该问题;
机房故障:机房断电或断网会造成该机房内的所有设备宕机或不可达,监控系统需及时判定该问题并明确问题根源为机房故障而非该机房内的所有设备故障。
现有的监控系统大都直接采用远程探测法或心跳法实施设备状态监控,少数监控系统结合设备拓扑结构做综合判定,但都无法完全满足上述需求:
直接远程探测法:无探针(probe)类的监控系统大都直接采用远程探测的方式监控设备状态,此方法周期性地对被监控的设备进行ping探测或发送snmp请求,如果设备有回应则认为设备存活,如果设备无回应则认为该设备宕机。此类系统将所有设备无响应的情况视为宕机,无法区分“服务器宕机”和“服务器不可达”状态。当出现交互机宕机或网络故障时会产生大量宕机报警,不利于问题定位和处理。另外,此类系统无法发现“服务器僵死”状态;
直接心跳法:有探针(probe)类的监控系统可以采用心跳法监控设备状态,此方法由设备周期性地向服务器上报心跳信息,监控系统则周期性地核对设备的心跳信息,如果周期内没有收到设备的心跳信息则认为设备宕机。此类系统可以发现“服务器僵死”状态,但是遇到“僵死状态”的服务器时发出的是宕机报警,另外同样无法区分“服务器宕机”和“服务器不可达”状态;
结合拓扑结构判定法:直接远程探测法和直接心跳法都无法明确区分“服务器宕机”和“服务器不可达”状态,部分监控系统采用结合设备拓扑结构进行综合判定,但是仍然存在如下不足:
1.虽然能区分“服务器宕机”和“服务器不可达”状态,但在报警展示方面未能将问题根源和影响范围明确化,不利于问题的定位和处理;
2.没有实现“机房故障”状态;
3.仍然无法明确“服务器僵死”状态。
发明内容
本发明的目的在于解决上述问题,提供了一种CDN设备状态的监控方法,可以明确判定“服务器宕机”状态、“服务器不可达”状态、“服务器僵死”状态、“交换机宕机状态”、“机房故障状态”,并针对各种异常状态明确问题根源和影响范围,为运维人员快速定位并正确处理异常提供了一个高效平台。
本发明的另一目的在于提供了一种CDN设备状态的监控系统。
本发明的技术方案为:本发明揭示了一种CDN设备状态监控方法,包括:
被监控的CDN设备周期性地向作为心跳接收端的监控服务器上报设备心跳信息;
监控服务器上周期性对被监控设备主动进行状态探测,得到主动探测结果;
综合监控服务器上收集的设备心跳信息和主动探测结果,结合设备拓扑结构对设备状态进行判定,并针对故障根源发出报警;
将设备状态判定装置的判定结果结合机房分布和设备拓扑结构作直观展示,并将设备状态判定装置发出的根源报警展示于报警页面。
根据本发明的CDN设备状态监控方法的一实施例,监控服务器有两台。
根据本发明的CDN设备状态监控方法的一实施例,监控服务器上对被监控设备主动进行状态探测的过程包括:
使用snmp探测工具向所有被监控设备的所有IP发送snmp请求;
将有应答的被监控设备加入存活列表,将无应答的被监控设备加入无应答设备列表;
使用fping工具对无应答设备列表中的被监控设备探测设备存活状态,将有应答的被监控设备加入存活列表;
根据存活列表更新被监控设备的存活状态。
根据本发明的CDN设备状态监控方法的一实施例,对设备状态的判定过程包括:
从两台监控服务器上读取本周期内的设备心跳信息和主动探测结果;
针对两台监控服务器的设备心跳信息和主动探测结果,在不考虑设备拓扑结构的情况下将被监控设备的状态判定为正常、僵死、宕机三类;
综合两台监控服务器的判定结果,重新确定被监控设备的状态;
结合设备拓扑结构,将已判定为宕机的被监控设备重新判定为宕机和不可达状态;
结合机房配置信息,判定机房故障状态,如果一个机房内的所有设备都处于非正常状态,则该机房判定为故障状态;
对宕机状态的被监控设备、僵死状态的被监控设备和故障状态的机房发出报警,并明确其影响范围。
根据本发明的CDN设备状态监控方法的一实施例,在针对两台监控服务器的设备心跳信息和主动探测结果,在不考虑设备拓扑结构的情况下将被监控设备的状态判定为正常、僵死、宕机三类的步骤中,包括:
如果设备心跳信息为有心跳且主动探测结果为有应答,则判断被监控设备的状态为正常;
如果设备心跳信息为有心跳且主动探测结果为无应答,则判断被监控设备的状态为正常;
如果设备心跳信息为无心跳且主动探测结果为有应答,则判断被监控设备的状态为僵死;
如果设备心跳信息为无心跳且主动探测结果为无应答,则判断被监控设备的状态为宕机。
根据本发明的CDN设备状态监控方法的一实施例,综合两台监控服务器的判定结果,重新确定被监控设备的状态的步骤包括:
如果第一台监控服务器的设备心跳信息为有心跳且第二台监控服务器的设备心跳信息为有心跳,则综合判定结果为有心跳;
如果第一台监控服务器的设备心跳信息为有心跳且第二台监控服务器的设备心跳信息为无心跳,则综合判定结果为有心跳;
如果第一台监控服务器的设备心跳信息为无心跳且第二台监控服务器的设备心跳信息为有心跳,则综合判定结果为有心跳;
如果第一台监控服务器的设备心跳信息为无心跳且第二台监控服务器的设备心跳信息为无心跳,则综合判定结果为无心跳;
如果第一台监控服务器的主动探测结果为有应答且第二台监控服务器的主动探测结果为有应答,则综合判定结果为有应答;
如果第一台监控服务器的主动探测结果为有应答且第二台监控服务器的主动探测结果为无应答,则综合判定结果为有应答;
如果第一台监控服务器的主动探测结果为无应答且第二台监控服务器的主动探测结果为有应答,则综合判定结果为有应答;
如果第一台监控服务器的主动探测结果为无应答且第二台监控服务器的主动探测结果为无应答,则综合判定结果为无应答;
如果第一台监控服务器的判定结果为正常且第二台监控服务器的判定结果为正常,则综合判定结果为正常;
如果第一台监控服务器的判定结果为正常且第二台监控服务器的判定结果为僵死,则综合判定结果为正常;
如果第一台监控服务器的判定结果为正常且第二台监控服务器的判定结果为宕机,则综合判定结果为正常;
如果第一台监控服务器的判定结果为僵死且第二台监控服务器的判定结果为正常,则综合判定结果为正常;
如果第一台监控服务器的判定结果为僵死且第二台监控服务器的判定结果为僵死,则综合判定结果为僵死;
如果第一台监控服务器的判定结果为僵死且第二台监控服务器的判定结果为宕机,则综合判定结果为僵死;
如果第一台监控服务器的判定结果为宕机且第二台监控服务器的判定结果为正常,则综合判定结果为正常;
如果第一台监控服务器的判定结果为宕机且第二台监控服务器的判定结果为僵死,则综合判定结果为僵死;
如果第一台监控服务器的判定结果为宕机且第二台监控服务器的判定结果为宕机,则综合判定结果为宕机。
根据本发明的CDN设备状态监控方法的一实施例,结合设备拓扑结构,将已判定为宕机的被监控设备重新判定为宕机和不可达状态的步骤包括:
遍历被监控设备列表,查找处于宕机状态的交换机;
判断交换机下层所有设备是否都处于宕机状态,如果是则将交换机下层所有设备置为不可达状态且本步骤流程结束,否则判断非宕机状态的设备是否为多运营商设备,如果不是多运营商设备,则监控系统内部出现异常,发出一条关于异常现象的警告信息但不改变任何设备状态且本步骤流程结束;
如果非宕机状态的设备是多运营商设备,则判断非宕机状态设备的与交换机相同运营商的IP探测结果是否为无应答,如果为无应答,则将交换机下层所有设备置为不可达状态,如果为有应答,则监控系统内部出现异常,发出一条关于异常现象的警告信息但不改变任何设备状态。
根据本发明的CDN设备状态监控方法的一实施例,对宕机状态的被监控设备、僵死状态的被监控设备和故障状态的机房发出报警,并明确其影响范围的步骤包括:
如果被监控设备的状态为服务器宕机且报警信息为服务器宕机,则将影响范围明确为本服务器;
如果被监控设备的状态为服务器僵死且报警信息为服务器僵死,则将影响范围明确为本服务器;
如果被监控设备的状态为交换机宕机且报警信息为交换机宕机,则将影响范围明确为该交换机下层所有处于不可达状态的被监控设备;
如果被监控设备的状态为机房故障且报警信息为机房故障,则将影响范围明确为该机房内的所有设备。
本发明还揭示了一种CDN设备状态监控系统,包括被监控设备、监控服务器、设备状态判定装置以及设备状态展示装置,监控服务器中设有心跳接收端和主动探测模块,其中:
被监控设备,周期性地向监控服务器的心跳接收端上报设备心跳信息;
心跳接收端,接收被监控设备上报的设备心跳信息;
主动探测模块,周期性地对被监控设备进行状态探测,得到主动探测结果;
设备判定装置,和监控服务器建立数据通讯,综合监控服务器上收集的设备心跳信息和主动探测结果,结合设备拓扑结构对设备状态进行判定,并针对故障根源发出报警;
设备状态展示装置,和设备判定装置建立数据通讯,将设备状态判定装置的判定结果结合机房分布和设备拓扑结构作直观展示,并将设备状态判定装置发出的根源报警展示于报警页面。
根据本发明的CDN设备状态监控系统的一实施例,监控服务器有两台,均用于收集被监控设备的设备心跳信息和主动探测结果并和设备状态判定装置建立通讯连接。
根据本发明的CDN设备状态监控系统的一实施例,系统具有多个设备状态判定装置、监控服务器和被监控设备集合的结构,这些结构统一连接同一个设备状态展示装置。
本发明对比现有技术有如下的有益效果:本发明是设备监控系统的一个子系统,该发明面向企业及大规模设备群,可以同时监控万台以上设备,并高效准确地判定设备的存活状态。本发明采用主动探测法和心跳法相结合,可以明确区分服务器僵死状态。本发明中的服务宕机判定技术用于明确区分服务器宕机、僵死和不可达,向运维人员发出最精准的报警信息。本发明的交换机宕机判定技术可以明确判定交换机宕机状态和影响范围。在某台交换机宕机时只发出交换机宕机报警,其下的所有设备是该报警的影响范围。本发明的机房故障判定技术可以明确判定出机房故障和影响范围。在某机房故障时,发出针对该机房的故障报警,该机房内的所有设备是该报警的影响范围。本发明可以实现全国设备状况总览,以中国地图方式直观展示分布于全国的个节点设备状况,结合故障设备报表让运维人员从全局掌控公司各设备状况。本发明中的综合报警分析,基于各设备状况判定技术和设备拓扑结构,确定各设备异常的根源和影响范围,针对根源发出报警,方便运维人员处理问题。本发明中的双重确认技术,规避单点监控受网络因素干扰造成的误判问题。本发明中的高效设备探测技术可以轻松实现单台服务器1分钟主动探测2万台设备状态,大大提高了系统的检测能力。本发明中的分布式监控,可以让该系统无限扩展,适合用于企业级大规模监控。
附图说明
图1示例性的示出了本发明的CDN设备状态监控方法的实施例的流程图。
图2示例性的示出了本发明的CDN设备状态监控方法中主动探测步骤的细化流程图。
图3示例性的示出了本发明的CDN设备状态监控方法中设备状态判定步骤的细化流程图。
图4示例性的示出了本发明的CDN设备状态监控方法中结合设备拓扑结构重新判定宕机和不可达状态的步骤的细化流程图。
图5示例性的示出了本发明的CDN设备状态监控系统的实施例的结构图。
图6示例性的示出了本发明的分布式CDN设备状态监控系统的实施例的结构图。
图7示例性的示出了本发明的CDN设备状态监控系统的另一实施例的结构图。
具体实施方式
下面结合附图和实施例对本发明作进一步的描述。
CDN设备状态监控方法的实施例
图1示出了本发明的CDN设备状态监控方法的实施例的流程。请参见图1,下面是对本实施例的方法中各个步骤的详细描述。
步骤S10:被监控的CDN设备周期性地向作为心跳接收端的监控服务器上报设备心跳信息。
步骤S20:监控服务器上周期性对被监控设备主动进行状态探测,得到主动探测结果。
主动探测的步骤如图2所示,请同时参见图2。
步骤S200:使用snmp探测工具向所有被监控设备的所有IP发送snmp请求。
使用snmp探测工具可以达到2万台/分钟的探测规模。
步骤S201:判断snmp请求是否发送结束,如果已经结束则进入步骤S205,如果没有结束则进入步骤S204。
步骤S202:判断被监控设备是否有应答,如果有应答则进入步骤S204,如果没有应答则进入步骤S203。
步骤S203:将被监控设备加入无应答设备列表。
步骤S204:将被监控设备加入存活列表。
步骤S205:使用fping工具对无应答设备列表中的被监控设备探测设备存活状态。
步骤S206:将有应答的被监控设备加入存活列表。
步骤S207:根据存活列表更新被监控设备的设备存活状态。
步骤S30:综合监控服务器上收集的设备心跳信息和主动探测结果,结合设备拓扑结构对设备状态进行判定,并针对故障根源发出报警。
步骤S30的细化流程如图3所示。
步骤S301:从两台监控服务器上读取本周期内的设备心跳信息和主动探测结果。
步骤S302:针对两台监控服务器的设备心跳信息和主动探测结果,在不考虑设备拓扑结构的情况下将被监控设备的状态判定为正常、僵死、宕机三类。
如果设备心跳信息为有心跳且主动探测结果为有应答,则判断被监控设备的状态为正常;如果设备心跳信息为有心跳且主动探测结果为无应答,则判断被监控设备的状态为正常;如果设备心跳信息为无心跳且主动探测结果为有应答,则判断被监控设备的状态为僵死;如果设备心跳信息为无心跳且主动探测结果为无应答,则判断被监控设备的状态为宕机。
步骤S303:综合两台监控服务器的判定结果,重新确定被监控设备的状态。
如果第一台监控服务器的设备心跳信息为有心跳且第二台监控服务器的设备心跳信息为有心跳,则综合判定结果为有心跳;如果第一台监控服务器的设备心跳信息为有心跳且第二台监控服务器的设备心跳信息为无心跳,则综合判定结果为有心跳;如果第一台监控服务器的设备心跳信息为无心跳且第二台监控服务器的设备心跳信息为有心跳,则综合判定结果为有心跳;如果第一台监控服务器的设备心跳信息为无心跳且第二台监控服务器的设备心跳信息为无心跳,则综合判定结果为无心跳。
如果第一台监控服务器的主动探测结果为有应答且第二台监控服务器的主动探测结果为有应答,则综合判定结果为有应答;如果第一台监控服务器的主动探测结果为有应答且第二台监控服务器的主动探测结果为无应答,则综合判定结果为有应答;如果第一台监控服务器的主动探测结果为无应答且第二台监控服务器的主动探测结果为有应答,则综合判定结果为有应答;如果第一台监控服务器的主动探测结果为无应答且第二台监控服务器的主动探测结果为无应答,则综合判定结果为无应答。
如果第一台监控服务器的判定结果为正常且第二台监控服务器的判定结果为正常,则综合判定结果为正常;如果第一台监控服务器的判定结果为正常且第二台监控服务器的判定结果为僵死,则综合判定结果为正常;如果第一台监控服务器的判定结果为正常且第二台监控服务器的判定结果为宕机,则综合判定结果为正常;如果第一台监控服务器的判定结果为僵死且第二台监控服务器的判定结果为正常,则综合判定结果为正常;如果第一台监控服务器的判定结果为僵死且第二台监控服务器的判定结果为僵死,则综合判定结果为僵死;如果第一台监控服务器的判定结果为僵死且第二台监控服务器的判定结果为宕机,则综合判定结果为僵死;如果第一台监控服务器的判定结果为宕机且第二台监控服务器的判定结果为正常,则综合判定结果为正常;如果第一台监控服务器的判定结果为宕机且第二台监控服务器的判定结果为僵死,则综合判定结果为僵死;如果第一台监控服务器的判定结果为宕机且第二台监控服务器的判定结果为宕机,则综合判定结果为宕机。
步骤S304:结合设备拓扑结构,将已判定为宕机的被监控设备重新判定为宕机和不可达状态。
步骤S304的细化流程如图4所示。
步骤S500:遍历被监控设备列表,查找处于宕机状态的交换机。
步骤S501:判断交换机下层所有设备是否都处于宕机状态,如果是则进入步骤S505,否则进入步骤S502。
步骤S502:判断非宕机状态的设备是否为多运营商设备,如果是则进入步骤S504,否则进入步骤S503。
步骤S503:监控系统内部出现异常(通常为拓扑结构配置错误),发出一条关于该现象的警告信息,不改变任何设备状态。
步骤S504:判断非宕机状态设备的与交换机相同运营商的IP探测结果为无应答。
步骤S505:将交换机下层所有设备置为不可达状态。
步骤S305:结合机房配置信息,判定机房故障状态,如果一个机房内的所有设备都处于非正常状态,则该机房判定为故障状态。
步骤S306:对宕机状态的被监控设备、僵死状态的被监控设备和故障状态的机房发出报警,并明确其影响范围。
如果被监控设备的状态为服务器宕机且报警信息为服务器宕机,则将影响范围明确为本服务器;如果被监控设备的状态为服务器僵死且报警信息为服务器僵死,则将影响范围明确为本服务器;如果被监控设备的状态为交换机宕机且报警信息为交换机宕机,则将影响范围明确为该交换机下层所有处于不可达状态的被监控设备;如果被监控设备的状态为机房故障且报警信息为机房故障,则将影响范围明确为该机房内的所有设备。
步骤S40:将设备状态判定装置的判定结果结合机房分布和设备拓扑结构作直观展示,并将设备状态判定装置发出的根源报警展示于报警页面。
CDN设备状态监控系统的实施例
图5示出了本发明的CDN设备状态监控系统的实施例。请参见图5,本实施例的监控系统包括:被监控设备10、两台监控服务器12、一台设备状态判定装置14以及一台设备状态展示装置16,监控服务器12中设有心跳接收端120和主动探测模块122。
这些模块之间的数据通讯关系是:被监控设备10输出到心跳接收端120,主动探测模块12输出到被监控设备10,设备状态判定装置14输出到两台监控服务器12,两台监控服务器12输出到设备状态展示装置16。
被监控设备10周期性地向监控服务器12的心跳接收端120上报设备心跳信息。
心跳接收端120接收被监控设备10上报的设备心跳信息。
主动探测模块122周期性地对被监控设备10进行状态探测,得到主动探测结果。
设备判定装置14综合监控服务器12上收集的设备心跳信息和主动探测结果,结合设备拓扑结构对设备状态进行判定,并针对故障根源发出报警。
设备状态展示装置16将设备状态判定装置14的判定结果结合机房分布和设备拓扑结构作直观展示,并将设备状态判定装置发出的根源报警展示于报警页面。
这些装置和模块之间的数据传输和运作,在上面方法实施例中已有详细的描述,在此不再赘述。
本实施例的系统有一些变形,请参见图6,系统可以是分布式的结构,即,系统可以有多个设备状态判定装置、监控服务器、被监控设备集合的结构,这些结构统一连接同一个设备状态展示装置。
此外,还可以设置一台监控服务器,如图7所示,在图7中,只有一台监控服务器参与运作。
上述实施例是提供给本领域普通技术人员来实现或使用本发明的,本领域普通技术人员可在不脱离本发明的发明思想的情况下,对上述实施例做出种种修改或变化,因而本发明的保护范围并不被上述实施例所限,而应该是符合权利要求书提到的创新性特征的最大范围。
Claims (7)
1.一种CDN设备状态监控方法,包括:
被监控的CDN设备周期性地向作为心跳接收端的监控服务器上报设备心跳信息;
监控服务器上周期性对被监控设备主动进行状态探测,得到主动探测结果,其中监控服务器上对被监控设备主动进行状态探测的过程包括:
使用snmp探测工具向所有被监控设备的所有IP发送snmp请求;
将有应答的被监控设备加入存活列表,将无应答的被监控设备加入无应答设备列表;
使用fping工具对无应答设备列表中的被监控设备探测设备存活状态,将有应答的被监控设备加入存活列表;以及
根据存活列表更新被监控设备的存活状态;
综合监控服务器上收集的设备心跳信息和主动探测结果,结合设备拓扑结构对设备状态进行判定,并针对故障根源发出报警;
将设备状态判定装置的判定结果结合机房分布和设备拓扑结构作直观展示,并将设备状态判定装置发出的根源报警展示于报警页面。
2.根据权利要求1所述的CDN设备状态监控方法,其特征在于,监控服务器有两台。
3.根据权利要求2所述的CDN设备状态监控方法,其特征在于,对设备状态的判定过程包括:
从两台监控服务器上读取本周期内的设备心跳信息和主动探测结果;
针对两台监控服务器的设备心跳信息和主动探测结果,在不考虑设备拓扑结构的情况下将被监控设备的状态判定为正常、僵死、宕机三类;
综合两台监控服务器的判定结果,重新确定被监控设备的状态;
结合设备拓扑结构,将已判定为宕机的被监控设备重新判定为宕机和不可达状态;
结合机房配置信息,判定机房故障状态,如果一个机房内的所有设备都处于非正常状态,则该机房判定为故障状态;
对宕机状态的被监控设备、僵死状态的被监控设备和故障状态的机房发出报警,并明确其影响范围。
4.根据权利要求3所述的CDN设备状态监控方法,其特征在于,在针对两台监控服务器的设备心跳信息和主动探测结果,在不考虑设备拓扑结构的情况下将被监控设备的状态判定为正常、僵死、宕机三类的步骤中,包括:
如果设备心跳信息为有心跳且主动探测结果为有应答,则判断被监控设备的状态为正常;
如果设备心跳信息为有心跳且主动探测结果为无应答,则判断被监控设备的状态为正常;
如果设备心跳信息为无心跳且主动探测结果为有应答,则判断被监控设备的状态为僵死;
如果设备心跳信息为无心跳且主动探测结果为无应答,则判断被监控设备的状态为宕机。
5.根据权利要求3所述的CDN设备状态监控方法,其特征在于,综合两台监控服务器的判定结果,重新确定被监控设备的状态的步骤包括:
如果第一台监控服务器的设备心跳信息为有心跳且第二台监控服务器的设备心跳信息为有心跳,则综合判定结果为有心跳;
如果第一台监控服务器的设备心跳信息为有心跳且第二台监控服务器的设备心跳信息为无心跳,则综合判定结果为有心跳;
如果第一台监控服务器的设备心跳信息为无心跳且第二台监控服务器的设备心跳信息为有心跳,则综合判定结果为有心跳;
如果第一台监控服务器的设备心跳信息为无心跳且第二台监控服务器的设备心跳信息为无心跳,则综合判定结果为无心跳;
如果第一台监控服务器的主动探测结果为有应答且第二台监控服务器的主动探测结果为有应答,则综合判定结果为有应答;
如果第一台监控服务器的主动探测结果为有应答且第二台监控服务器的主动探测结果为无应答,则综合判定结果为有应答;
如果第一台监控服务器的主动探测结果为无应答且第二台监控服务器的主动探测结果为有应答,则综合判定结果为有应答;
如果第一台监控服务器的主动探测结果为无应答且第二台监控服务器的主动探测结果为无应答,则综合判定结果为无应答;
如果第一台监控服务器的判定结果为正常且第二台监控服务器的判定结果为正常,则综合判定结果为正常;
如果第一台监控服务器的判定结果为正常且第二台监控服务器的判定结果为僵死,则综合判定结果为正常;
如果第一台监控服务器的判定结果为正常且第二台监控服务器的判定结果为宕机,则综合判定结果为正常;
如果第一台监控服务器的判定结果为僵死且第二台监控服务器的判定结果为正常,则综合判定结果为正常;
如果第一台监控服务器的判定结果为僵死且第二台监控服务器的判定结果为僵死,则综合判定结果为僵死;
如果第一台监控服务器的判定结果为僵死且第二台监控服务器的判定结果为宕机,则综合判定结果为僵死;
如果第一台监控服务器的判定结果为宕机且第二台监控服务器的判定结果为正常,则综合判定结果为正常;
如果第一台监控服务器的判定结果为宕机且第二台监控服务器的判定结果为僵死,则综合判定结果为僵死;
如果第一台监控服务器的判定结果为宕机且第二台监控服务器的判定结果为宕机,则综合判定结果为宕机。
6.根据权利要求3所述的CDN设备状态监控方法,其特征在于,结合设备拓扑结构,将已判定为宕机的被监控设备重新判定为宕机和不可达状态的步骤包括:
遍历被监控设备列表,查找处于宕机状态的交换机;
判断交换机下层所有设备是否都处于宕机状态,如果是则将交换机下层所有设备置为不可达状态且本步骤流程结束,否则判断非宕机状态的设备是否为多运营商设备,如果不是多运营商设备,则监控系统内部出现异常,发出一条关于异常现象的警告信息但不改变任何设备状态且本步骤流程结束;
如果非宕机状态的设备是多运营商设备,则判断非宕机状态设备的与交换机相同运营商的IP探测结果是否为无应答,如果为无应答,则将交换机下层所有设备置为不可达状态,如果为有应答,则监控系统内部出现异常,发出一条关于异常现象的警告信息但不改变任何设备状态。
7.根据权利要求3所述的CDN设备状态监控方法,其特征在于,对宕机状态的被监控设备、僵死状态的被监控设备和故障状态的机房发出报警,并明确其影响范围的步骤包括:
如果被监控设备的状态为服务器宕机且报警信息为服务器宕机,则将影响范围明确为本服务器;
如果被监控设备的状态为服务器僵死且报警信息为服务器僵死,则将影响范围明确为本服务器;
如果被监控设备的状态为交换机宕机且报警信息为交换机宕机,则将影响范围明确为该交换机下层所有处于不可达状态的被监控设备;
如果被监控设备的状态为机房故障且报警信息为机房故障,则将影响范围明确为该机房内的所有设备。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010106221620A CN102111310B (zh) | 2010-12-31 | 2010-12-31 | Cdn设备状态监控方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010106221620A CN102111310B (zh) | 2010-12-31 | 2010-12-31 | Cdn设备状态监控方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102111310A CN102111310A (zh) | 2011-06-29 |
CN102111310B true CN102111310B (zh) | 2013-11-27 |
Family
ID=44175344
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010106221620A Expired - Fee Related CN102111310B (zh) | 2010-12-31 | 2010-12-31 | Cdn设备状态监控方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102111310B (zh) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102740112B (zh) * | 2012-06-18 | 2015-02-25 | 苏州科达科技股份有限公司 | 一种基于视频监控系统的设备轮巡的控制方法 |
CN103023998B (zh) * | 2012-11-29 | 2016-02-10 | 网宿科技股份有限公司 | 基于内容分发网络节点的临时跳转纠错方法和系统 |
CN103179200B (zh) * | 2013-03-08 | 2018-07-06 | 深圳银链科技有限公司 | 移动终端上网加速设备的管理系统和方法 |
CN103401712B (zh) * | 2013-07-31 | 2016-09-07 | 北京华易互动科技有限公司 | 一种基于内容分发的智能高可用任务处理方法和系统 |
CN103634166B (zh) * | 2013-12-06 | 2017-05-03 | 北京奇虎科技有限公司 | 一种设备存活检测方法及装置 |
CN103746968A (zh) * | 2013-12-24 | 2014-04-23 | 乐视网信息技术(北京)股份有限公司 | 一种cdn服务器摘除方法、cdn控制中心及系统 |
CN103747045A (zh) * | 2013-12-24 | 2014-04-23 | 乐视网信息技术(北京)股份有限公司 | 一种cdn服务器状态收集方法、cdn控制中心及系统 |
CN103699666A (zh) * | 2013-12-27 | 2014-04-02 | 乐视网信息技术(北京)股份有限公司 | 数据切分的传输方法及装置 |
CN104702439B (zh) * | 2015-03-16 | 2018-10-19 | 北京百度网讯科技有限公司 | 监控网络节点的方法和装置 |
CN105071989A (zh) * | 2015-07-30 | 2015-11-18 | 世纪龙信息网络有限责任公司 | 视频内容分发质量监控系统及其监控方法 |
CN105162703B (zh) * | 2015-08-07 | 2018-07-06 | 中国电子科技集团公司第三十二研究所 | 基于混合协议的多级网络拓扑智能发现及生成方法和系统 |
CN106487607A (zh) * | 2015-08-28 | 2017-03-08 | 中国电信股份有限公司 | 一种基于缓存服务器状态的重定向方法及重定向系统 |
CN106817266A (zh) * | 2015-12-01 | 2017-06-09 | 北京慧点科技有限公司 | 一种对等网络资源下载方法 |
CN105871612A (zh) * | 2016-03-31 | 2016-08-17 | 乐视控股(北京)有限公司 | Cdn网络的拓扑结构生成器 |
CN107800560B (zh) * | 2016-09-07 | 2020-08-14 | 腾讯科技(深圳)有限公司 | 网络检测方法和装置、网络检测查询方法和装置 |
CN106652552B (zh) * | 2016-12-29 | 2019-10-25 | 南威软件股份有限公司 | 一种停车运营管理平台 |
CN106954064A (zh) * | 2017-03-20 | 2017-07-14 | 华平智慧信息技术(深圳)有限公司 | 监控云平台的故障定位方法及系统 |
CN106850323A (zh) * | 2017-04-10 | 2017-06-13 | 深圳第线通信有限公司 | 一种mpls vpn客户网络断线的检测方法 |
CN107193708A (zh) * | 2017-05-17 | 2017-09-22 | 郑州云海信息技术有限公司 | 一种状态检测方法及系统 |
CN110519554B (zh) * | 2018-05-22 | 2021-08-06 | 视联动力信息技术股份有限公司 | 监控检测方法和装置 |
CN109660380B (zh) * | 2018-09-28 | 2022-09-06 | 深圳壹账通智能科技有限公司 | 服务器运行状态的监控方法、平台、系统及可读存储介质 |
CN110113178A (zh) * | 2018-11-09 | 2019-08-09 | 深圳互联先锋科技有限公司 | 一种网络设备监控主备装置、方法及系统 |
CN109639490B (zh) * | 2018-12-18 | 2020-09-18 | 网宿科技股份有限公司 | 一种宕机通知方法及装置 |
CN110290019B (zh) * | 2019-05-27 | 2021-09-10 | 网宿科技股份有限公司 | 监测方法及系统 |
CN110971676B (zh) * | 2019-11-18 | 2022-07-29 | 中移(杭州)信息技术有限公司 | 设备状态检测方法、装置、电子设备及存储介质 |
CN115277479A (zh) * | 2022-07-29 | 2022-11-01 | 国网浙江省电力有限公司宁波供电公司 | 一种基于监控助手实现系统运行情况监视的方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101123527A (zh) * | 2007-02-25 | 2008-02-13 | 华为技术有限公司 | 一种流媒体系统、信令转发设备以及流媒体发送方法 |
US7590739B2 (en) * | 1999-11-22 | 2009-09-15 | Akamai Technologies, Inc. | Distributed on-demand computing system |
CN101640688A (zh) * | 2009-08-20 | 2010-02-03 | 中兴通讯股份有限公司 | 基于cdn的节点主备用控制器切换方法及cdn网络 |
CN101741731A (zh) * | 2009-12-03 | 2010-06-16 | 中兴通讯股份有限公司 | 内容分发网络中内容元数据的存储、查询方法及管理系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1286013C (zh) * | 2003-08-05 | 2006-11-22 | 联想(北京)有限公司 | 远程判断系统状态的方法 |
-
2010
- 2010-12-31 CN CN2010106221620A patent/CN102111310B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7590739B2 (en) * | 1999-11-22 | 2009-09-15 | Akamai Technologies, Inc. | Distributed on-demand computing system |
CN101123527A (zh) * | 2007-02-25 | 2008-02-13 | 华为技术有限公司 | 一种流媒体系统、信令转发设备以及流媒体发送方法 |
CN101640688A (zh) * | 2009-08-20 | 2010-02-03 | 中兴通讯股份有限公司 | 基于cdn的节点主备用控制器切换方法及cdn网络 |
CN101741731A (zh) * | 2009-12-03 | 2010-06-16 | 中兴通讯股份有限公司 | 内容分发网络中内容元数据的存储、查询方法及管理系统 |
Also Published As
Publication number | Publication date |
---|---|
CN102111310A (zh) | 2011-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102111310B (zh) | Cdn设备状态监控方法 | |
US9015310B2 (en) | Communication system using server agents according to simple network management protocol | |
KR101057047B1 (ko) | 원격 디바이스를 감시 및 진단하기 위한 시스템 | |
CN102740112B (zh) | 一种基于视频监控系统的设备轮巡的控制方法 | |
CN103699063B (zh) | 一种制造执行系统mes中离线数据的采集装置和方法 | |
CN105049253B (zh) | 一种获取移动网络故障定位和故障预警的方法 | |
CN103905255A (zh) | 服务器内部硬件运行故障远程自动告警系统及方法 | |
CN105515897B (zh) | 调度自动化综合监控与智能告警系统 | |
CN104243232B (zh) | 虚拟网故障探测和定位方法 | |
CN101826756A (zh) | 一种实现配电房设备故障定位系统及方法 | |
CN107947998A (zh) | 一种基于应用系统的实时监测系统 | |
CN112601216B (zh) | 一种基于Zigbee的可信平台告警方法与系统 | |
CN106249727A (zh) | 一种锂电池极片生产线的管理系统 | |
CN103905219A (zh) | 一种业务平台中通信信息的监控存储系统及方法 | |
CN107426051B (zh) | 分布式集群系统中节点的工作状态的监测方法、装置及系统 | |
CN102932183A (zh) | 双上行链路故障处理方法及设备 | |
CN103747061A (zh) | 一种支持多组网接入的动力环境监控系统及其运行方法 | |
CN110474821A (zh) | 节点故障检测方法及装置 | |
KR20170020071A (ko) | 원격 검침 네트워크 관리 장치 및 방법 | |
US9565583B2 (en) | Monitoring device and monitoring system | |
JP6377537B2 (ja) | 電力系統監視装置、電力系統監視方法及び電力系統監視プログラム | |
JP2008148017A (ja) | ノード検出装置及びプログラム | |
CN102638369B (zh) | 一种主备倒换的仲裁方法、装置和系统 | |
CN104410376A (zh) | 一种带有故障监控的功率放大器系统 | |
CN104363120A (zh) | 服务器的运行环境监控、保护方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C56 | Change in the name or address of the patentee | ||
CP02 | Change in the address of a patent holder |
Address after: 200030 Shanghai city Xuhui District Xietu Road No. 2899 Building 5 floor A Kuangchi Cultural Square Patentee after: WANGSU SCIENCE & TECHNOLOGY Co.,Ltd. Address before: 200030 Shanghai Xietu Road No. 15 building 2669 Patentee before: WANGSU SCIENCE & TECHNOLOGY Co.,Ltd. |
|
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20131127 |