一种分散式机房综合监控及自动应急决策处理方法及装置
技术领域
本发明涉及一种分散式机房综合监控及自动应急决策处理方法及装置。
背景技术
随着计算机行业的全面发展,大部分的企事业单位都已经实施了信息化办公。由于信息系统业务的不断拓展,需要不断加大系统硬件投入以及保证足够的网络传输带宽,所以需要越来越多的服务器资源以及机房空间,很多企事业单位将服务器及网络设备分散布置在不同的地点,不同的机房,所以对于分散式机房的集中综合监控和管理也越来越重要。对于传统的分散式机房监控机制,有一些采用人工定时巡检机制,这种方案需要投入大量的人力,而且也不能保障第一时间发现故障。另外一些采用传统的自动监控系统,由系统自动监测并提供故障信息,通过短信或邮件的方式通知值班人员进行处理,但是由于机房一般会出现断电故障,网络故障,系统硬件故障等不同等级和类别的故障,而且对于分散式机房在不同地点分布的多个机房,故障发生位置和机房的物理位置也有一定对照关联,传统的自动监控系统无法分类各种故障信息,无法分清故障严重程度,无法将机房故障类别信息和物理位置信息结合起来综合处理,系统本身也没有故障处理和自动应急决策的能力,只能依靠值班人员做出决策后,再汇报相关领导进行决策,然后通知相关工程师进行故障处理;而且传统的自动监控系统一般依靠单台监控服务器提供监控功能,单台短信服务器提供报警功能,当监控服务器和短信服务器本身出现故障时候无法继续工作。
发明内容
本发明的目的在于提供一种分散式机房综合监控及自动应急决策处理方法及装置,使用现有的成熟的网络连接中断检测技术、信息显示设备、断电监测器、不间断电源、短信服务器、短信接收设备等,通过信息化手段和硬件设备的设计,整合综合监控及自动应急决策处理流程,实现24小时机房综合监控及自动应急决策处理。
本发明为解决上述技术问题所采用的技术方案如下。
一种分散式机房综合监控及自动应急决策处理方法,其特征在于:故障决策分析处理服务器按照系统设定的监控时间间隔定时执行以下步骤,具体为:
步骤S1、故障决策分析处理服务器判断另一台故障决策分析处理服务器是否出现故障,如果出现故障则转入S2步骤,如果未出现故障则转入S3步骤;
步骤S2、故障决策分析处理服务器将另一台决策分析处理服务器的故障状态发送给支持显示功能的设备进行显示,并调用短信服务器发送另一台决策分析处理服务器的故障状态给相关人员;
步骤S3、故障决策分析处理服务器依次判断两台短信服务器是否出现故障,如果出现故障则转入S4步骤,如果未出现故障则转入S5步骤;
步骤S4、故障决策分析处理服务器将出现故障的短信服务器状态发送给支持显示功能的设备进行显示,并调用未出现故障的短信服务器发送故障状态给相关人员;
步骤S5、故障决策分析处理服务器判断机房层不间断电源是否启动,如果不间断电源启动则转入S6步骤,如果不间断电源未启动则转入S7步骤;
步骤S6、故障决策分析处理服务器判定机房层断电,调用短信服务器发送断电故障状态给相关人员,并转入S15步骤;
步骤S7、故障决策分析处理服务器依次判断所有断电监测器是否报警,如果断电监测器报警则转入S8步骤,如果所有断电监测器未报警则转入S9步骤;
步骤S8、故障决策分析处理服务器判定断电监测器相对应的服务器或网络设备断电,调用短信服务器发送相关断电监测器代码给相关人员;
步骤S9、故障决策分析处理服务器依次测试所有网络设备是否连通,如果网络设备不连通则转入S10步骤,如果所有网络设备连通则转入S11步骤;
步骤S10、故障决策分析处理服务器判定有不连通的网络设备,调用短信服务器发送不连通的网络设备代码给相关人员;
步骤S11、故障决策分析处理服务器依次判断所有服务器是否有故障,如果服务器有故障则转入S12步骤,如果所有服务器没有故障则转入S15步骤;
步骤S12、故障决策分析处理服务器判断出现故障的服务器是否有备用机,如果出现故障的服务器有备用机则转入S13步骤,如果出现故障的服务器没有备用机则转入S15步骤;
步骤S13、故障决策分析处理服务器判断备用机是否有故障,如果备用机没有故障则转入S14步骤,如果备用机有故障则转入S15步骤;
步骤S14、故障决策分析处理服务器自动启动备用机;
步骤S15、故障决策分析处理服务器将当前机房层的所有运行状态发送给支持显示功能的设备进行显示。
一种分散式机房综合监控及自动应急决策处理装置,其特征在于:包括应用层、故障决策分析处理层和机房层;
所述应用层设备有监控屏幕、平板电脑、智能手机和短信接收设备;所述故障决策分析处理层包括独立空间一和独立空间二;
所述独立空间一包括故障决策分析处理服务器一和短信服务器一;所述独立空间二包括故障决策分析处理服务器二和短信服务器二;所述独立空间一和独立空间二是绝对独立的两个空间,采用独立物理位置,独立供电,独立网络;
所述机房层有服务器、网络设备、断电监测器、电源插座、不间断电源和总电源;
所述监控屏幕、平板电脑、智能手机分别与故障决策分析处理服务器一和故障决策分析处理服务器二通过LAN网连接;
所述故障决策分析处理服务器一、故障决策分析处理服务器二、短信服务器一、短信服务器二、服务器和网络设备通过LAN网连接;
所述短信接收设备、短信服务器一和短信服务器二通过Internet网络连接;
所述服务器、网络设备和断电监测器通过电源线连接;
所述断电监测器和电源插座通过电源线连接;
所述电源插座和不间断电源通过电源线连接;
所述不间断电源和总电源通过电源线连接。
本发明具有有益效果。本发明不需要人工定时巡检机制,保障第一时间发现故障。提供多重安全性保障,采用独立空间隔离的双故障决策分析处理服务器提供监控功能,双短信服务器提供报警功能,当某一台故障决策分析处理服务器或短信服务器本身出现故障,另一个独立空间的另一台故障决策分析处理服务器或短信服务器将继续工作,提高系统健壮性。具有自动应急决策功能,当发现某台服务器出现故障时,则自动启动该服务器所对应的备用服务器。分类故障信息推送给相关人员,故障决策分析处理服务器分类各种故障信息,分析某台服务器出现故障的严重程度,根据系统定义的应急决策方案,实时推送给显示设备,并采用短信方式通知相关人员,提高了应急处理的效率。
附图说明
图1 是本发明一种分散式机房综合监控及自动应急决策处理装置的总体结构示意图。
图中:1-监控屏幕,2-平板电脑,3-智能手机,4-短信接收设备,5-故障决策分析处理服务器一,6-故障决策分析处理服务器二,7-短信服务器一,8-短信服务器二,9-服务器,10-网络设备,11-断电监测器,12-电源插座,13-不间断电源,14-总电源。
图2 是一种分散式机房综合监控及自动应急决策处理方法的故障决策分析处理服务器工作流程图。
具体实施方式
下面结合附图和具体实施方式对本实用新型作进一步详细地说明。
由图1所示的本发明一种分散式机房综合监控及自动应急决策处理装置的原理图可知,它包括应用层、故障决策分析处理层和机房层。
所述的应用层设备有监控屏幕1、平板电脑2、智能手机3和短信接收设备4。
所述的故障决策分析处理层包括独立空间一和独立空间二。
所述的独立空间一包括故障决策分析处理服务器一5和短信服务器一7。
所述的独立空间二包括故障决策分析处理服务器二6和短信服务器二8。
所述的独立空间一和独立空间二是绝对独立的两个空间,采用独立物理位置,独立供电,独立网络。
所述的机房层有服务器9、网络设备10、断电监测器11、电源插座12、不间断电源13和总电源14。
所述的监控屏幕1、平板电脑2、智能手机3分别与故障决策分析处理服务器一5和故障决策分析处理服务器二6通过LAN网连接。
所述的故障决策分析处理服务器一5、故障决策分析处理服务器二6、短信服务器一7、短信服务器二8、服务器9和网络设备10通过LAN网连接。
所述的短信接收设备4、短信服务器一7和短信服务器二8通过Internet网络连接。
所述的服务器9、网络设备10和断电监测器11通过电源线连接。
所述的断电监测器11和电源插座12通过电源线连接。
所述的电源插座12和不间断电源13通过电源线连接。
所述的不间断电源13和总电源14通过电源线连接。
一种分散式机房综合监控及自动应急决策处理方法的故障决策分析处理服务器工作流程如图2所示。本发明以故障决策分析处理服务器5为例具体工作过程如下:
故障决策分析处理服务器5按照系统设定的监控时间间隔定时执行以下步骤
步骤S1、故障决策分析处理服务器5判断故障决策分析处理服务器6是否出现故障,如果出现故障则转入S2步骤,如果未出现故障则转入S3步骤;
步骤S2、故障决策分析处理服务器5将决策分析处理服务器6的故障状态发送给监控屏幕1、平板电脑2和智能手机3进行显示,并调用短信服务器7发送决策分析处理服务器6的故障状态给相关人员;
步骤S3、故障决策分析处理服务器5依次判断短信服务器7和短信服务器8是否出现故障,如果出现故障则转入S4步骤,如果未出现故障则转入S5步骤;
步骤S4、故障决策分析处理服务器5将出现故障的短信服务器状态发送给监控屏幕1、平板电脑2和智能手机3进行显示,并调用未出现故障的短信服务器发送故障状态给相关人员;
步骤S5、故障决策分析处理服务器5判断机房层不间断电源13是否启动,如果不间断电源13启动则转入S6步骤,如果不间断电源13未启动则转入S7步骤;
步骤S6、故障决策分析处理服务器5判定机房层断电,调用短信服务器7发送断电故障状态给相关人员,并转入S15步骤;
步骤S7、故障决策分析处理服务器5依次判断所有断电监测器11是否报警,如果断电监测器11报警则转入S8步骤,如果所有断电监测器11未报警则转入S9步骤;
步骤S8、故障决策分析处理服务器5判定断电监测器11相对应的服务器9或网络设备10断电,调用短信服务器7发送相关断电监测器11的代码给相关人员;
步骤S9、故障决策分析处理服务器5依次测试所有网络设备10是否连通,如果网络设备10不连通则转入S10步骤,如果所有网络设备10连通则转入S11步骤;
步骤S10、故障决策分析处理服务器5判定有不连通的网络设备10,调用短信服务器7发送不连通的网络设备10的代码给相关人员;
步骤S11、故障决策分析处理服务器5依次判断所有服务器9是否有故障,如果服务器9有故障则转入S12步骤,如果所有服务器9没有故障则转入S15步骤;
步骤S12、故障决策分析处理服务器5判断出现故障的服务器9是否有备用机,如果出现故障的服务器有备用机则转入S13步骤,如果出现故障的服务器9没有备用机则转入S15步骤;
步骤S13、故障决策分析处理服务器5判断备用机是否有故障,如果备用机没有故障则转入S14步骤,如果备用机有故障则转入S15步骤;
步骤S14、故障决策分析处理服务器5自动启动备用机;
步骤S15、故障决策分析处理服务器5将当前机房层的所有运行状态发送给支持显示功能的设备进行显示;
实施例1:故障决策分析处理服务器6出现故障情况
故障决策分析处理服务器5:无法连接故障决策分析处理服务器6;
故障决策分析处理服务器5:产生“无法连接故障决策分析处理服务器6”故障代码;
故障决策分析处理服务器5:故障状态发送给监控屏幕1、平板电脑2和智能手机3进行显示;
故障决策分析处理服务器5:调用短信服务器7发送故障决策分析处理服务器2的故障状态给相关人员
故障决策分析处理服务器5:按照工作过程继续监测。
实施例2:短信服务器8出现故障情况
故障决策分析处理服务器5:无法连接短信服务器8;
故障决策分析处理服务器5:产生“无法连接短信服务器8”故障代码;
故障决策分析处理服务器5:故障状态发送给监控屏幕1、平板电脑2和智能手机3进行显示;
故障决策分析处理服务器5:调用短信服务器7发送短信服务器8的故障状态给相关人员
故障决策分析处理服务器5:按照工作过程继续监测。
实施例3:机房层断电情况
故障决策分析处理服务器5:机房层不间断电源13开始启动;
故障决策分析处理服务器5:产生“机房层断电”故障代码;
故障决策分析处理服务器5:故障状态发送给监控屏幕1、平板电脑2和智能手机3进行显示;
故障决策分析处理服务器5:调用短信服务器7发送机房层断电的故障状态给相关人员
故障决策分析处理服务器5:按照工作过程继续监测。
实施例4:服务器9设备断电情况
故障决策分析处理服务器5:服务器9连接的断电监测器11报警;
故障决策分析处理服务器5:产生“服务器断电”故障代码;
故障决策分析处理服务器5:故障状态发送给监控屏幕1、平板电脑2和智能手机3进行显示;
故障决策分析处理服务器5:调用短信服务器7发送服务器9断电的故障状态给相关人员
故障决策分析处理服务器5:按照工作过程继续监测。
实施例5:网络设备10不连通情况
故障决策分析处理服务器5:网络设备10无法连通;
故障决策分析处理服务器5:产生“网络无法连通”故障代码;
故障决策分析处理服务器5:故障状态发送给监控屏幕1、平板电脑2和智能手机3进行显示;
故障决策分析处理服务器5:调用短信服务器7发送网络设备10无法连通的故障状态给相关人员
故障决策分析处理服务器5:按照工作过程继续监测。
实施例6:服务器9出现故障,备用机未出现故障情况
故障决策分析处理服务器5:判断服务器9出现故障;
故障决策分析处理服务器5:产生“服务器故障”故障代码;
故障决策分析处理服务器5:检测服务器9有备用机;
故障决策分析处理服务器5:检测备用机未出现故障;
故障决策分析处理服务器5:自动启动备用机;
故障决策分析处理服务器5:故障状态发送给监控屏幕1、平板电脑2和智能手机3进行显示。