CN104252401A - 一种基于权重的设备状态判断方法及其系统 - Google Patents

一种基于权重的设备状态判断方法及其系统 Download PDF

Info

Publication number
CN104252401A
CN104252401A CN201410436306.1A CN201410436306A CN104252401A CN 104252401 A CN104252401 A CN 104252401A CN 201410436306 A CN201410436306 A CN 201410436306A CN 104252401 A CN104252401 A CN 104252401A
Authority
CN
China
Prior art keywords
event
monitoring agent
weight
monitoring
agent equipment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410436306.1A
Other languages
English (en)
Other versions
CN104252401B (zh
Inventor
彭扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong FanTai Technology Co.,Ltd.
Original Assignee
BEIJING YUELIAN INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING YUELIAN INFORMATION TECHNOLOGY Co Ltd filed Critical BEIJING YUELIAN INFORMATION TECHNOLOGY Co Ltd
Priority to CN201410436306.1A priority Critical patent/CN104252401B/zh
Publication of CN104252401A publication Critical patent/CN104252401A/zh
Application granted granted Critical
Publication of CN104252401B publication Critical patent/CN104252401B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)

Abstract

一种基于权重的设备状态判断方法及其系统,其方法为:将监控代理设备部署为网状结构;监控设备与两台以上所述监控代理设备连接;所述监控代理设备与监控控制台连接;为所述监控设备定义监控事件的权重;并定义所述监控事件的关联事件的权重;所述监控代理设备获取故障的监控设备的监控事件;根据所述监控事件的权重及所述关联事件的权重,计算出故障的监控设备的优先级;根据所述优先级,进行根据故障信息查找预设定故障库,解决了现有树状结构模式下因某一监控代理出现问题时可能导致的故障设备事件监控事件无法上报问题;本发明首创了一种事件模型库,并通过事件范例追溯技术,快速定位事件原因以及处理方法,更快定位和解决设备故障。

Description

一种基于权重的设备状态判断方法及其系统
技术领域
本发明涉及计算机设备权重分配的技术领域,尤其是涉及一种基于权重的设备状态判断方法。 
背景技术
在常见的设备监控系统中,基本上都是基于监控事件触发报警,当监控系统探测到预先定义的事件到达报警阀值后,就触发报警,根据事件的严重程度,报警级别分为一般,警告,严重等级别。在设备数量较少的情形下,这种模式没有问题,管理员根据报警进行相应处理即可以解决设备的监控需求。但随着网络规模的扩大,当监控的设备达到一定的数量级比如上万台并且每台设备监控的事件种类较多,管理员在一个监控周期内可能同时收到上百条甚至几百条需要响应或处理的报警事件,此时管理员就只能根据报警信息的严重级别来选择处理,但报警级别相同的事件,其实重要性往往是不一样的。比如两台服务器宕机,虽然报警级别都标记为严重,其中一台服务器是普通WEB服务器,而另外一台是调度服务器,普通服务器宕机只影响到自身的服务响应,但调度服务器宕机影响的可能是与之相关的多台其他设备。现有的监控系统基本上都解决了监控的问题,但在决策支持上往往不尽人意。 
其次,目前的监控代理设备通常采用树状结构,在这种模式下,如果其中的一台监控代理发生链路故障,该监控代理所监控到的报警信息将不能及时传递到上层的监控代理设备,这将极大地影响到设备监控系统的时效性及可靠性,而时效性及可靠性是评判设备监控系统非常注重的要素。而对于整个设备监控系统来说,也将无法形成完整的报警信息。 
最后,对于设备监控系统来说,发现报警事件只是发现问题的一个过程,最终的目的是要找到事件原因,并最终解决问题。目前常见的设备监控系统只是对已经发生的故障现象进行了简单的罗列,并不能够对故障原因进行深 层次的分析,需要维护人员通过现场或者远程的方式登录到故障设备中,了解故障原因。因此,现有设备监控系统因未能对故障原因提供有效的线索,这直接影响了故障处理的速度。 
此外现有方案中需要人工逐条分析事件原因、逐一寻找解决办法,在大规模网络应用环境中,尤其涉及上万台设备时,需要投入更多的人力与物力。现有的方案不能满足大规模的设备监控场景下的故障处理要求。 
发明内容
本发明的目的在于设计一种基于权重的设备状态判断方法,解决上述问题。 
为了实现上述目的,本发明采用的技术方案如下: 
一种基于权重的设备状态判断方法,包括如下步骤: 
将监控代理设备部署为网状结构;监控设备与两台以上所述监控代理设备连接;所述监控代理设备与监控控制台连接; 
为所述监控设备定义监控事件;为所述监控事件定义权重;为所述监控事件的关联事件定义权重; 
所述监控代理设备获取故障的监控设备的监控事件;根据所述监控事件的权重及所述关联事件的权重,计算出故障的监控设备的优先级; 
根据所述优先级,进行根据故障信息查找预设定故障库; 
若匹配到相同的所述故障信息,则采用故障库中的解决方案进行处理;并将所述故障信息及处理结果发送到所述监控控制台; 
若未匹配到相同的所述故障信息,则根据故障信息的关键字在所述故障库中查找关键字解决方案;如果找到所述关键字解决方案,将所述故障信息及所述关键字解决方案发送到所述监控控制台;如果未找到所述关键字解决方案,则直接将所述故障信息发送到所述监控控制台。 
优选的,所述监控事件的权重和所述关联事件的权重均包括事件权重、绝对权重和相对权重; 
所述事件权重为整型数值,用于决定所述监控事件的处理优先级; 
所述绝对权重为已触发的所述监控事件的权重值; 
所述相对权重为已触发的所述关联事件的合计权重值。 
优选的,所述事件权重=所述绝对权重+所述相对权重。 
优选的,所述监控代理设备的台数为三台以上;三台以上所述监控代理设备之间通过心跳机制获取链路状态;并将所述链路状态上传到所述监视控制台,所述监视控制台通过所述链路状态实现监控代理设备的监控。 
优选的,三台以上所述监控代理设备之间通过心跳机制获取链路状态;并将所述链路状态上传到所述监视控制台的方法为: 
三台以上所述监控代理设备之间互相通告与所述监控控制台的链路状态,设其中一台所述监控代理设备为P监控代理设备,并所述P监控代理设备将选取临近的两台所述监控代理设备保存为备用代报服务器; 
若所述P监控代理设备与所述监控控制台的链路畅通;则所述P监控代理设备将所述P监控代理设备的链路状态直接上传到所述监控控制台; 
若三台以上所述监控代理设备监测到所述P监控代理设备无链路相应;则选取一台所述备用代报服务器将所述P监控代理设备的链路状态上传到所述监控控制台。 
一种基于权重的设备系统,为网状结构;包括监控设备、监控代理设备、故障库和监控控制台;一台所述监控设备与两台以上所述监控代理设备连接;所述监控代理设备与监控控制台连接; 
所述监控设备为包括监控事件的监控设备; 
所述监控代理设备为根据所述监控事件区分所述监控设备优先级的监控代理设备; 
所述故障库为根据所述优先级处理所述监控设备故障的故障库; 
所述监控控制台为获取到所述优先级的故障处理信息并执行报警的监控控制台。 
优选的,所述监控设备为含有权重的监控设备。 
优选的,所述监控事件为含有权重的监控事件。 
优选的,所述监控设备的权重值+所述监控事件的权重值之和越大,所述监控设备的优先级别越高。 
优选的,两台以上所述监控代理设备之间相互连接;两台以上所述监控代理设备通过心跳机制获取链路状态;所述监控代理设备将获取到的所述链路状态发送到所述监视控制台,所述监视控制台通过所述链路状态实现监控代理设备的监控。 
本发明的有益效果可以总结如下: 
与现有的监控报警系统相比,本发明实现了灵活、可管理的监控决策机制,可根据预定义的绝对权重及自动计算的相对权重,实现设备状态的决策优化级智能判断,从而使管理人员有效的先响应处理优先级别更高的事件;本发明创造了一种网状部署架构,实现各设备监控代理之间的信息共享,解决了现有树状结构模式下因某一监控代理出现问题时可能导致的故障设备事件监控事件无法上报问题;本发明首创了一种事件模型库,并通过事件范例追溯技术,快速定位事件原因以及处理方法,更快定位和解决设备故障。 
附图说明
图1为现有技术中的监控系统结构示意图; 
图2为现有技术中的监控系统定义监控事件架构示意图; 
图3为本发明的监控系统的监控事件架构示意图; 
图4为前现有技术方案中监控代理设备的树形结构示意图; 
图5为本发明的网状部署结构示意图; 
图6为本发明中的事件范例推理示意图; 
图7为本发明监控处理事件的结构示意图; 
图8为本发明中具体实施的事件权重定义及关联事件定义结构示意图。 
具体实施方式
为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。 
如图1所示现有的监控系统实现方案示意图,为方便描述,假设监控系统监控设备A,B,C三台设备,都需要进行设备负载是否过载的事件X及服务端口是否可访问的事件Y进行监控。假定其中设备A为调度服务器,B及C两台设备为普通服务器。同时假定三台设备的X及Y事件都发生。 
整个监控过程如下: 
被监控设备及监控事件注册,先将被监控的设备注册到控制台后,再将宕机监控事件X及Y注册到监控台并且与设备绑定,同时定义监控事件的特征,如服务端口无响应,CPU使用率超过90%等,级别都设定为严重。 
监控控制台将定义的监控事件X及Y发布到被监控设备所在的对应的监控代理上。 
监控代理根据宕机事件X及Y的特征,对设备进行定时状态数据查询、获取及分析监控结论。 
监控代理将分析的结论上报给监控控制台。 
监控控制台调用报警处理模块根据预定义的报警规则执行报警动作。 
在此方案中,监控代理捕捉到X及Y事件后,上报给监控控制台,控制台会依据收到的顺序分六次调用报警处理模块来发布报警通知。如果三台设备的处理优先级没有要求,则此方案可以满足监控要求。 
但如果三个设备的处理优先级不一致,比如设备A是调度服务器,当发生负载高及端口不能访问,则可能影响到其他依赖于A的其他设备,而B及C是普通服务器,可以先处理完A再处理。则此方案中就要求管理员清楚了解应该优先处理的设备,否则只能按主观顺序来挑选处理,在监控的设备数量较多的情况下,则管理人员的选择难度明显增加,处理效率会显著下降。 
同时三个设备之间各自独立与监控控制台进行数据交换,无法进行相互间的数据共享,如果其中任何一台设备发生故障,其监控到的数据则无法正常上报到监控控制台,从而影响故障处理的速度。 
此外现有方案中需要人工逐条分析事件原因、逐一寻找解决办法,在大规模网络应用环境中需要投入较多的人力与物力。因此,现有的方案不能满足大规模的设备监控场景下的故障处理要求。 
如图2所示现有技术方案的监控事件定义,现有技术中,一般的监控事件,一般都包含以下几个基本属性,事件级别,触发条件、报警规则。 
事件级别用来定义一个监控事件的严重程度,常见的级别有一般,告警,严重等。 
触发条件是指要触发监控事件需要满足的条件,比如设备负载高的触发条件是CPU使用率>80% 
报警规则是指监控事件触发后的进行的报警动作,如发送消息、邮件等。 
为了实现灵活可管理的监控决策方案,需要为监控事件额外引入事件权重属性及关联事件属性。 
事件权重:为一个整型数值,事件权重决定一个监控事件的处理优先级。 
关联事件:用来定义一个事件与另外一个事件或多个事件之间显式的或隐 式的关系。一般指一个事件的触发,可能会引起其他的事件触发。比如当发生设备负载过高的事件时,同时可能引起服务无响应等相关的事件触发。关联事件的作用,主要是为了合并报警的次数,同时参与权重的计算来提升一个事件的处理优先级。 
事件权重由绝对权重及相对权重两部分构成。 
绝对权重:一个监控事件的权重基础值。绝对权重越大,此事件的处置优先级就越高。 
相对权重:由监控事件的关联事件中已触发的事件的绝对权重值合计出来。 
如图3所示,本发明中添加权重及关联事件后的监控事件属性,引入事件的权重,一个事件的权重值计算公式如下: 
事件权重=绝对权重+相对权重; 
相对权重=SUM(已触发关联事件的绝对权重) 
例如:事件X的绝对权重Xw=10,该事件有三个关联事件O,P,Q,三个关联事件绝对权重Ow、Pw和Qw; 
Ow=5,Pw=6,Qw=7。假定事件X的计算最终合计权重为Sw; 
情形一:事件X被触发,但关联事件未触发。 
Sw=Xw+SUM(Ow,Pw,Qw)=10+sum(0,0,0)=10+0=10 
由于关联事件未触发,则相对权重值为0。所以合计权重Sw为事件X的绝对权重值。 
情形二:事件X被触发,关联事件O也被触发。 
Sw=Xw+SUM(Ow,Pw,Qw)=10+sum(5,0,0)=10+5=15 
由于关联事件O被触发,但其他两个关联事件未触发,则相对权重的值只能计算事件O的绝对权重值5。更多关联事件的触发的事件权重的计算方式同情 形二。 
如图4所示,目前现有技术方案中相关监控代理设备采用的树状部署结构, 
在图4中,监控代理设备A与监控代理设备C、D之间形成父层与子层的部署关系,其中A为父层,C、D子层,C、D、E、F等子层监控代理设备分别负责相关设备的状态监测,每个子层监控代理所监测的设备是不一样的。父层与子层监控代理之间的监控事件上报流程是这样的,C与D分别将各自监测到的监控事件上报到A,,由A进行统一汇总,最后由A将汇总后的监控事件提交到监控控制台,在这个过程中,C与D之间不进行信息的共享,也就是说C无法将监控事件分享给D,D也无法将监控事件分享给C。同样的道理,B与E、F之间也是通过这种方式实现监控事件的逐层传递。 
这种方式的弊端是,一旦其中的某一台监控代理设备链路出现故障,将会直接影响到监控事件的及时上报,比如当C出现故障,则C所监控到的监控事件不能上报到A,因此A只能接收到D所上报的监控事件。同样如多A出现故障,则A不能接收C和D监测到的监控事件,在这种情况下,监控控制台只能对B发送过来的监控事件进行处理。 
如图5所示,本发明中提供的网状部署结构能很好地解决图4中存在的问题; 
在本发明中,所有的监控代理以网状形态部署,各监控代理之间相互开放活跃探测端口,每台代理以心跳机制与监控控制台保持联系,另外还至少与其他两台代理以相同机制保持联系,通告自己到监控控制台是否通畅。当某代理到自己到监控控制台的链路有问题影响上报及时性时,将需要上报的事件转报给链路正常的一台代理,由链路正常的代理代为上报。这种网状部署结构极大地降低了监控上报事件的失败概率。 
具体的探测及上报过程是这样的,使用心跳机制与监控控制台联系并记录状态值,同时联系其他至少三台自己连接的代理,互相通告自己到监控控制台的链路状态,并保存其中两台链路较优的代理作为自己的替代上报代理。当自身到监控控制台通畅时,直接上报到控制台。当到控制台链路不通畅,则将需要上报的事件转交给备选上报代理代为上报。通过这种方式,即使一台代理或多台代理出现故障或链路不通,都能尽可能的在指定的上报周期内达到及时事件上报的目的,防止了逐层上报中单点故障导致上报失败的问题,这样就有效地解决了前面所提到的现有技术方案中的弊端。 
关于决策的处理,现有技术中的设备监测事件需要根据维护人员的技术及经验进行处理,这种方式对于几十台、几百台设备来说不是太大的问题,但是如果在几千台设备甚至几万台的应用环境下,监控设备维护的工作量是巨大的。而在实际故障处理中,很多故障的现象、原因以及处理方式都是相同的,比如某一台设备出现内存方面的问题,并出现相应的故障现象,而当其他同一批次,同一型号的设备出现同样的故障现象时,我们就可以考虑是不是同样的原因(内存问题)导致的故障,进而可以参照第一次出现故障时的解决办法进行解决。根据以上论述,我们在决策处理模块中构建一个问题处理模型,在这个模型中,我们将事件现象作为一个关键索引,通过该索引可以非常方便地查询到故障现象的原因以及针对该现象的解决办法,这样节省了故障原因分析以及故障处理的时间,大大提高了故障处理的效率。 
如图6所示,在本发明中,以上提到的事件现象、事件原因以及解决办法我们称之为一个范例,随着故障事件的不断发生,当有新的故障得到解决时,我们以同样的方式将范例加入到问题处理模型中,所有的范例最后形成一个完整的范例库,作为今后分析原因、解决问题的参考依据。 
在图6中,当有新的故障现象发生时,系统将事件现象中的关键字作为搜索条件,并且在范例库中进行匹配,自动查询出符合条件的事件现象,如:根据搜索结果,范例库中范例A中的事件现象A与搜索条件相符合,根据事件现象A,系统可以提供事件产生的原因-事件原因A,以及相应的处理办法-解决方法A。维护人员可参考以上结果进行相应的处理。 
如图7所示,本发明采用的一种基于权重的设备状态判断方法,包括如下步骤: 
将监控代理设备部署为网状结构;监控设备与两台以上监控代理设备连接;监控代理设备与监控控制台连接; 
为监控设备定义监控事件;为监控事件定义权重;为监控事件的关联事件定义权重; 
监控代理设备获取故障的监控设备的监控事件;根据监控事件的权重及关联事件的权重,计算出故障的监控设备的优先级; 
根据优先级,进行根据故障信息查找预设定故障库; 
若匹配到相同的故障信息,则采用故障库中的解决方案进行处理;并将故障信息及处理结果发送到监控控制台; 
若未匹配到相同的故障信息,则根据故障信息的关键字在故障库中查找关键字解决方案;如果找到关键字解决方案,将故障信息及关键字解决方案发送到监控控制台;如果未找到关键字解决方案,则直接将故障信息发送到监控控制台。 
监控事件的权重和关联事件的权重均包括事件权重、绝对权重和相对权重; 
事件权重为整型数值,用于决定监控事件的处理优先级; 
绝对权重为已触发的监控事件的权重值; 
相对权重为已触发的关联事件的合计权重值。 
事件权重=绝对权重+相对权重。 
三台以上监控代理设备之间通过心跳机制获取链路状态;并将链路状态上传到监视控制台,监视控制台通过链路状态实现监控代理设备的监控。 
三台以上监控代理设备之间通过心跳机制获取链路状态;并将链路状态上传到监视控制台的方法为: 
三台以上监控代理设备之间互相通告与监控控制台的链路状态,设其中一台监控代理设备为P监控代理设备,并P监控代理设备将选取临近的两台监控代理设备保存为备用代报服务器; 
若P监控代理设备与监控控制台的链路畅通;则P监控代理设备将P监控代理设备的链路状态直接上传到监控控制台; 
若三台以上监控代理设备监测到P监控代理设备无链路相应;则选取一台备用代报服务器将P监控代理设备的链路状态上传到监控控制台。 
一种基于权重的设备系统,为网状结构;包括监控设备、监控代理设备、故障库和监控控制台;一台监控设备与两台以上监控代理设备连接;监控代理设备与监控控制台连接; 
监控设备为包括监控事件的监控设备; 
监控代理设备为根据监控事件区分监控设备优先级的监控代理设备; 
故障库为根据优先级处理监控设备故障的故障库; 
监控控制台为获取到优先级的故障处理信息并执行报警的监控控制台。 
监控设备为含有权重的监控设备。 
监控事件为含有权重的监控事件。 
监控设备的权重值+监控事件的权重值之和越大,监控设备的优先级别越 高。 
两台以上监控代理设备之间相互连接;两台以上监控代理设备通过心跳机制获取链路状态;监控代理设备将获取到的链路状态发送到监视控制台,监视控制台通过链路状态实现监控代理设备的监控。 
本发明改进监控系统的监控机制,引入事件权重及决策处理机制,智能分析报警事件的优先级别,从而解决大规模监控场景下的大量报警出现时,管理人员响应负担过重,事件处理优先级不合理的问题。 
改进的基于事件权重、监控代理网状结构、事件处理模型的监控系统方案主要有以下几部分。 
1)改进的带权重的事件注册模块;监控控制台 
2)改进的监控代理 
3)决策处理模块 
4)报警及状态展示模块 
方案主要的变化在四个方面 
1)带权重的事件注册模块主要变化在于在为设备注册一个监控事件时,必须要定义一个事件的绝对权重,同一种事件,注册到被监控设备上时,根据设备的重要性,绝对权重的值不一样,更重要的设备,事件的绝对权重更大。另外可选的可以对事件进行关联事件定义,一个事件的关联事件越多,则表明该事件的相对权重值在参与计算时可能会更大。 
2)改进的监控代理 
监控代理采用网状结构部署,在出现链路故障或代理故障时,用较少的代价保证了事件能及时上报。同时,改进的监控代理在对设备进行监控事件 捕获时,需要额外计算设备单个事件的权重合计值后再上报给监控控制台。 
3)决策处理模块 
决策处理模块是一个核心模块,处理从各个监控代理上报上来的监控事件汇总分析,在一个分析计算周期内,对周期内的捕捉到的监控事件进行按设备分析、合并计算,计算出每个设备的响应处理的优先级并排序,并且按权重值调用报警及展示模块进行处理。计算规则如下: 
设备的事件响应优先级=MAX(代理上报的单个事件的权重合计) 
即单台设备如果有多个事件上报,取单个事件的权重合计值中最大者。 
同时在决策处理模块中采用事件模型库,并通过事件范例追溯技术,快速定位事件原因以及处理方法,更快定位和解决设备故障。 
4)报警及展示模块 
改进的报警及展示模块主要变化在执行告警的顺序变化,由于设备监控事件有各自的权重值,可以让高权重值的事件优先报警,这在大规模的监控事件处理中特别重要。 
另外,事件的展现方式也由只能按事件等级展现改进为按事件等级加上权重值展现,使得管理人员更容易聚焦在更重要的事件响应处理上。 
本发明提供一种网状的监控代理设备部署架构,替代通常使用的树状结构。在这种架构下,所有的监控代理设备以网状形态部署,监控代理设备与监控代理设备之间通过心跳机制相互通知到监视控制台的链路状态。当其中的某一台监控代理设备发生链路故障时,其采集到的监控事件会通过其他链路正常监控代理设备发送到监控控制台,从而实现了监控事件的及时上报。 
如图8所示,为方便描述,假设监控系统监控设备A,B,C三台设备,都 需要进行设备负载是否过载的事件X及服务端口是否可访问的事件Y进行监控。假定其中设备A为调度服务器,B及C两台设备为普通服务器。同时假定三台设备的事件X,Y都发生。A,B,C三台设备之间采用网状部署,并通过相应的端口实现数据共享。 
图8设备绑定的事件权重定义及关联事件定义 
1)为被监控设备ABC分别注册事件X及Y,并将设备A及B的X事件的关联事件设置为Y。 
事件X,Y的默认绝对权重为20,10 
由于设备A为调度服务器,如果发生故障引发的后果更严重,故将A设备的X事件绝对权重加5,其他两设备的绝对权重不变。此时A、B、C权重定义如下表: 
2)改进的监控代理计算捕获单个事件的权重合计值,同时实现相互间的数据共享,并上报给监控控制台。监控控制台接收并只保存接收到到的第一份上报过来的数据。 
按前面设定,监控代理计算及上报的结果如下表: 
3)决策处理模块分析处理设备事件响应优先级 
根据监控代理上报的捕获事件权重值,计算每个设备的响应优先级权重值。 
如下表 
系统根据事件处理模型,快速定位事件原因及解决办法。 
4)报警及展示模块处理报警及展示 
根据决策处理模块的分析处理结果,进行相应的报警及显示排序,响应优先级最高的设备放在最前面。 
综上所述,由于改进监控方案中监控代理采用了按事件权重合并计算及决策处理模块按设备进行响应优先级的计算,并明确计算出需要优先响应处理的报警设备;同时采用网状部署架构,避免了监控代理设备单点故障问题的产生;通过事件处理模型的追溯机制,快速寻求监控事件产生的原因及解决办法。在大规模设备监控场景下,能帮助管理人员能够更精准及更高效率快速定位高优先级设备的故障处理。 
本发明提供一种故障原因分析方法,该方法基于一种事件追溯技术,该技术将以往故障事件形成原因以及解决方法构架成一个问题处理模型,在本发明中我们称之为事件模型库。当新的事件故障发生时,通过在事件模型库中搜索与当前事件具有相同属性的事件范例,再通过范例的匹配情况进行事件原因及解决方法的定位。该技术基于事件范例推理,简化了事件原因以及解决方法获取的过程;通过对过去的求解过程的复用,提高了问题求解的效率。 
与现有的监控报警系统相比,本发明实现了灵活、可管理的监控决策机制,可根据预定义的绝对权重及自动计算的相对权重,实现设备状态的决策优化级智能判断,从而使管理人员有效的先响应处理优先级别更高的事件;本发明创造了一种网状部署架构,实现各设备监控代理之间的信息共享,解决了现有树状结构模式下因某一监控代理出现问题时可能导致的故障设备事件监控事件无法上报问题;本发明首创了一种事件模型库,并通过事件范例追溯技术,快速定位事件原因以及处理方法,更快定位和解决设备故障。 
以上通过具体的和优选的实施例详细的描述了本发明,但本领域技术人员应该明白,本发明并不局限于以上所述实施例,凡在本发明的精神和原则之内,所作的任何修改、等同替换等,均应包含在本发明的保护范围之内。 

Claims (10)

1.一种基于权重的设备状态判断方法,其特征在于,包括如下步骤:
将监控代理设备部署为网状结构;监控设备与两台以上所述监控代理设备连接;所述监控代理设备与监控控制台连接;
为所述监控设备定义监控事件;为所述监控事件定义权重;为所述监控事件的关联事件定义权重;
所述监控代理设备获取故障的监控设备的监控事件;根据所述监控事件的权重及所述关联事件的权重,计算出故障的监控设备的优先级;
根据所述优先级,进行根据故障信息查找预设定故障库;
若匹配到相同的所述故障信息,则采用故障库中的解决方案进行处理;并将所述故障信息及处理结果发送到所述监控控制台;
若未匹配到相同的所述故障信息,则根据故障信息的关键字在所述故障库中查找关键字解决方案;如果找到所述关键字解决方案,将所述故障信息及所述关键字解决方案发送到所述监控控制台;如果未找到所述关键字解决方案,则直接将所述故障信息发送到所述监控控制台。
2.根据权利要求1所述的基于权重的设备状态判断方法,其特征在于:所述监控事件的权重和所述关联事件的权重均包括事件权重、绝对权重和相对权重;
所述事件权重为整型数值,用于决定所述监控事件的处理优先级;
所述绝对权重为已触发的所述监控事件的权重值;
所述相对权重为已触发的所述关联事件的合计权重值。
3.根据权利要求2所述的基于权重的设备状态判断方法,其特征在于:所述事件权重=所述绝对权重+所述相对权重。
4.根据权利要求1所述的基于权重的设备状态判断方法,其特征在于:所述监控代理设备的台数为三台以上;三台以上所述监控代理设备之间通过心跳机制获取链路状态;并将所述链路状态上传到所述监视控制台,所述监视控制台通过所述链路状态实现监控代理设备的监控。
5.根据权利要求4所述的基于权重的设备状态判断方法,其特征在于:三台以上所述监控代理设备之间通过心跳机制获取链路状态;并将所述链路状态上传到所述监视控制台的方法为:
三台以上所述监控代理设备之间互相通告与所述监控控制台的链路状态,设其中一台所述监控代理设备为P监控代理设备,所述P监控代理设备将选取临近的两台所述监控代理设备保存为备用代报服务器;
若所述P监控代理设备与所述监控控制台的链路畅通;则所述P监控代理设备将所述P监控代理设备的链路状态直接上传到所述监控控制台;
若三台以上所述监控代理设备监测到所述P监控代理设备无链路相应;则选取一台所述备用代报服务器将所述P监控代理设备的链路状态上传到所述监控控制台。
6.一种基于权重的设备系统,为网状结构;其特征在于:包括监控设备、监控代理设备、故障库和监控控制台;一台所述监控设备与两台以上所述监控代理设备连接;所述监控代理设备与监控控制台连接;
所述监控设备为包括监控事件的监控设备;
所述监控代理设备为根据所述监控事件区分所述监控设备优先级的监控代理设备;
所述故障库为根据所述优先级处理所述监控设备故障的故障库;
所述监控控制台为获取到所述优先级的故障处理信息并执行报警的监控控制台。
7.根据权利要求6所述的基于权重的设备系统,其特征在于:所述监控设备为含有权重的监控设备。
8.根据权利要求7所述的基于权重的设备系统,其特征在于:所述监控事件为含有权重的监控事件。
9.根据权利要求8所述的基于权重的设备系统,其特征在于:所述监控设备的权重值+所述监控事件的权重值之和越大,所述监控设备的优先级别越高。
10.根据权利要求6所述的基于权重的设备系统,其特征在于:两台以上所述监控代理设备之间相互连接;两台以上所述监控代理设备通过心跳机制获取链路状态;所述监控代理设备将获取到的所述链路状态发送到所述监视控制台,所述监视控制台通过所述链路状态实现监控代理设备的监控。
CN201410436306.1A 2014-08-29 2014-08-29 一种基于权重的设备状态判断方法及其系统 Active CN104252401B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410436306.1A CN104252401B (zh) 2014-08-29 2014-08-29 一种基于权重的设备状态判断方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410436306.1A CN104252401B (zh) 2014-08-29 2014-08-29 一种基于权重的设备状态判断方法及其系统

Publications (2)

Publication Number Publication Date
CN104252401A true CN104252401A (zh) 2014-12-31
CN104252401B CN104252401B (zh) 2017-02-15

Family

ID=52187331

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410436306.1A Active CN104252401B (zh) 2014-08-29 2014-08-29 一种基于权重的设备状态判断方法及其系统

Country Status (1)

Country Link
CN (1) CN104252401B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778825A (zh) * 2015-01-09 2015-07-15 中华电信股份有限公司 一种智能小区的设备与告警事件处理方法及其系统
CN104794013A (zh) * 2015-03-20 2015-07-22 百度在线网络技术(北京)有限公司 定位系统运行状态、建立系统运行状态模型的方法及装置
CN105510866A (zh) * 2015-11-27 2016-04-20 江苏省电力公司电力科学研究院 一种电能表自动化检定线的故障监测方法
CN105915405A (zh) * 2016-03-29 2016-08-31 深圳市中博科创信息技术有限公司 一种大型集群节点性能监控系统
CN107678917A (zh) * 2017-09-21 2018-02-09 平安科技(深圳)有限公司 测试机自动化管理方法、装置、设备及存储介质
CN108306747A (zh) * 2017-01-11 2018-07-20 阿里巴巴集团控股有限公司 一种云安全检测方法、装置和电子设备
CN109634808A (zh) * 2018-12-05 2019-04-16 中信百信银行股份有限公司 一种基于关联分析的链式监控事件根因分析方法
CN110569989A (zh) * 2019-07-29 2019-12-13 云南电网有限责任公司昆明供电局 一种基于典型故障池的电网计量故障实时诊断与预警方法
CN112000556A (zh) * 2020-07-06 2020-11-27 广州西山居世游网络科技有限公司 客户端程序宕机显示方法、装置及可读介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1570875A (zh) * 2003-07-14 2005-01-26 中兴通讯股份有限公司 一种在监控系统中实现智能代理的装置及方法
US20090309727A1 (en) * 2006-07-12 2009-12-17 Imprenditore Pty Limited Monitoring apparatus and system
CN102193853A (zh) * 2010-03-12 2011-09-21 三星电子株式会社 虚拟机监控器及其调度方法
CN103749002B (zh) * 2010-06-09 2012-02-08 北京理工大学 用于内部网络安全监控的信息获取通用系统
CN102447570A (zh) * 2010-09-30 2012-05-09 中国移动通信集团福建有限公司 一种基于健康度分析的监控装置及方法
CN103136091A (zh) * 2013-01-28 2013-06-05 北京奇虎科技有限公司 对终端设备安全状态检测的方法及装置
CN103259684A (zh) * 2013-05-23 2013-08-21 世纪龙信息网络有限责任公司 互联网业务监控方法和系统
CN103797468A (zh) * 2011-09-21 2014-05-14 惠普发展公司,有限责任合伙企业 系统异常的自动化检测
CN103841198A (zh) * 2014-03-07 2014-06-04 中南大学 一种净室云计算数据处理方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1570875A (zh) * 2003-07-14 2005-01-26 中兴通讯股份有限公司 一种在监控系统中实现智能代理的装置及方法
US20090309727A1 (en) * 2006-07-12 2009-12-17 Imprenditore Pty Limited Monitoring apparatus and system
CN102193853A (zh) * 2010-03-12 2011-09-21 三星电子株式会社 虚拟机监控器及其调度方法
CN103749002B (zh) * 2010-06-09 2012-02-08 北京理工大学 用于内部网络安全监控的信息获取通用系统
CN102447570A (zh) * 2010-09-30 2012-05-09 中国移动通信集团福建有限公司 一种基于健康度分析的监控装置及方法
CN103797468A (zh) * 2011-09-21 2014-05-14 惠普发展公司,有限责任合伙企业 系统异常的自动化检测
CN103136091A (zh) * 2013-01-28 2013-06-05 北京奇虎科技有限公司 对终端设备安全状态检测的方法及装置
CN103259684A (zh) * 2013-05-23 2013-08-21 世纪龙信息网络有限责任公司 互联网业务监控方法和系统
CN103841198A (zh) * 2014-03-07 2014-06-04 中南大学 一种净室云计算数据处理方法及系统

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778825A (zh) * 2015-01-09 2015-07-15 中华电信股份有限公司 一种智能小区的设备与告警事件处理方法及其系统
CN104778825B (zh) * 2015-01-09 2017-11-28 中华电信股份有限公司 一种智能小区的设备与告警事件处理方法及其系统
TWI622955B (zh) * 2015-01-09 2018-05-01 Chunghwa Telecom Co Ltd 智慧社區之設備與告警事件處理方法及其系統
CN104794013A (zh) * 2015-03-20 2015-07-22 百度在线网络技术(北京)有限公司 定位系统运行状态、建立系统运行状态模型的方法及装置
CN104794013B (zh) * 2015-03-20 2018-03-13 百度在线网络技术(北京)有限公司 定位系统运行状态、建立系统运行状态模型的方法及装置
CN105510866A (zh) * 2015-11-27 2016-04-20 江苏省电力公司电力科学研究院 一种电能表自动化检定线的故障监测方法
CN105510866B (zh) * 2015-11-27 2018-10-12 江苏省电力公司电力科学研究院 一种电能表自动化检定线的故障监测方法
CN105915405A (zh) * 2016-03-29 2016-08-31 深圳市中博科创信息技术有限公司 一种大型集群节点性能监控系统
CN108306747A (zh) * 2017-01-11 2018-07-20 阿里巴巴集团控股有限公司 一种云安全检测方法、装置和电子设备
CN107678917A (zh) * 2017-09-21 2018-02-09 平安科技(深圳)有限公司 测试机自动化管理方法、装置、设备及存储介质
WO2019056545A1 (zh) * 2017-09-21 2019-03-28 平安科技(深圳)有限公司 测试机自动化管理方法、装置、设备及存储介质
CN107678917B (zh) * 2017-09-21 2020-03-20 平安科技(深圳)有限公司 测试机自动化管理方法、装置、设备及存储介质
CN109634808A (zh) * 2018-12-05 2019-04-16 中信百信银行股份有限公司 一种基于关联分析的链式监控事件根因分析方法
CN109634808B (zh) * 2018-12-05 2022-05-10 中信百信银行股份有限公司 一种基于关联分析的链式监控事件根因分析方法
CN110569989A (zh) * 2019-07-29 2019-12-13 云南电网有限责任公司昆明供电局 一种基于典型故障池的电网计量故障实时诊断与预警方法
CN112000556A (zh) * 2020-07-06 2020-11-27 广州西山居世游网络科技有限公司 客户端程序宕机显示方法、装置及可读介质

Also Published As

Publication number Publication date
CN104252401B (zh) 2017-02-15

Similar Documents

Publication Publication Date Title
CN104252401A (zh) 一种基于权重的设备状态判断方法及其系统
CN105165054B (zh) 网络服务故障处理方法,服务管理系统和系统管理模块
KR20210019564A (ko) 운영 유지 시스템 및 방법
CN106844138A (zh) 运维报警系统及方法
CN105159964A (zh) 一种日志监控方法及系统
CN105049253B (zh) 一种获取移动网络故障定位和故障预警的方法
CN106713017A (zh) 告警信息的处理方法及装置
CN104796273A (zh) 一种网络故障根源诊断的方法和装置
CN101997709A (zh) 一种根告警数据分析的方法及其系统
CN105183619B (zh) 一种系统故障预警方法和系统
CN108259194A (zh) 网络故障预警方法及装置
CN104574557A (zh) 一种基于告警的站点巡检方法、操控装置和系统
CN109815264A (zh) 一种设备管理系统
CN105119237B (zh) 继电保护操作校核的方法
CN104091622A (zh) 一种核电站数字化控制系统可用率评估方法及系统
CN102740112A (zh) 一种基于视频监控系统的设备轮巡的控制方法
CN106383286A (zh) 电力线路故障报警装置
CN107579858A (zh) 云主机的告警方法及装置、通信系统
CN108337108A (zh) 一种基于关联分析的云平台故障自动化定位方法
CN109361260A (zh) 一种电力系统故障智能监控及判断方法
CN106330490A (zh) 告警的方法及装置
CN106302412A (zh) 一种针对信息系统抗压性测试的智能检测系统和检测方法
WO2023022755A1 (en) Inference engine configured to provide a heat map interface
CN101296122B (zh) 告警相关性的分析方法和装置
CN105634781B (zh) 一种多故障数据解耦方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20170728

Address after: 100010 Beijing city Dongcheng District xiangheyuan 5 North Building 2 No. 506

Patentee after: Peng Yang

Address before: 100088, Room 408, floor 4, building 83, Desheng Avenue, Beijing, Xicheng District (Desheng Park)

Patentee before: BEIJING YUELIAN INFORMATION TECHNOLOGY CO., LTD.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20181123

Address after: 519031 Creative Valley, 1889 Huandao East Road, Hengqin New District, Zhuhai City, Guangdong Province, 5 buildings 116

Patentee after: Hengqin Youpu Da Data Collaborative Innovation Base Co., Ltd.

Address before: 100010 Beijing Dongcheng District Xianghe garden 5 North Building 2 Gate 506.

Patentee before: Peng Yang

TR01 Transfer of patent right
CP01 Change in the name or title of a patent holder

Address after: 519031 Creative Valley, 1889 Huandao East Road, Hengqin New District, Zhuhai City, Guangdong Province, 5 buildings 116

Patentee after: Guangdong FanTai Technology Co.,Ltd.

Address before: 519031 Creative Valley, 1889 Huandao East Road, Hengqin New District, Zhuhai City, Guangdong Province, 5 buildings 116

Patentee before: Hengqin Youpu Da Data Collaborative Innovation Base Co.,Ltd.

CP01 Change in the name or title of a patent holder