CN115766392A - 一种服务器故障预警方法、系统、电子设备及存储介质 - Google Patents
一种服务器故障预警方法、系统、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115766392A CN115766392A CN202211190622.6A CN202211190622A CN115766392A CN 115766392 A CN115766392 A CN 115766392A CN 202211190622 A CN202211190622 A CN 202211190622A CN 115766392 A CN115766392 A CN 115766392A
- Authority
- CN
- China
- Prior art keywords
- early warning
- bmc
- server
- state information
- target component
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 129
- 230000009471 action Effects 0.000 claims abstract description 28
- 238000012544 monitoring process Methods 0.000 claims abstract description 19
- 230000005856 abnormality Effects 0.000 claims abstract description 16
- 230000008569 process Effects 0.000 claims description 80
- 238000004891 communication Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 10
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 description 26
- 238000007726 management method Methods 0.000 description 12
- 230000002159 abnormal effect Effects 0.000 description 11
- 238000012360 testing method Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000013024 troubleshooting Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000008054 signal transmission Effects 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000004886 process control Methods 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Landscapes
- Debugging And Monitoring (AREA)
Abstract
本发明提供一种服务器故障预警方法、系统、电子设备及存储介质,本发明属于服务器故障预警技术领域。该方法包括:通过BMC监测服务器集群,获得所述服务器集群中服务器的各个部件的状态信息;根据所述状态信息,确定存在异常的目标部件;根据所述目标部件的状态信息,通过多个预警单元同时进行与所述目标部件的状态信息对应的预警动作。旨在无网络状态下对故障服务器发出告警并方便管理人员对其快速定位,以查找故障原因。
Description
技术领域
本发明涉及服务器故障预警技术领域,尤其涉及一种服务器故障预警方法、系统、电子设备及存储介质。
背景技术
众所周知,服务器是整个互联网当中的“大脑”,而BMC(Baseboard ManagementController)则是服务器的助理,负责监控服务器的状态,在BMC(Baseboard ManagementController)启动时重点是对当前服务器中所安装的部件状态进行检查,并识别出有问题的部件并告警。首先考虑的是整个服务器的安全,不能因为某个部件的故障导致服务器整体的不稳定性。目前BMC(Baseboard Management Controller)的告警机制对网络需求比较严重,只能通过查看某一个页面或者snmp trap来接收网络发出的trap才能得知当前服务器出现了问题,如果在没有网络的环境下,管理人员不能及时地发现当前服务器所出现的故障,从而导致严重的后果。
发明内容
有鉴于此,本发明提供一种服务器故障预警方法、系统、电子设备及存储介质。旨在无网络状态下对故障服务器发出告警并方便管理人员对其快速定位,以查找故障原因。
在本发明实施例的第一方面,提供了一种服务器故障预警方法,所述方法包括:
通过BMC监测服务器集群,获得所述服务器集群中服务器的各个部件的状态信息;
根据所述状态信息,确定存在异常的目标部件;
根据所述目标部件的状态信息,通过多个预警单元同时进行与所述目标部件的状态信息对应的预警动作。
可选的,所述多个预警单元至少包括与所述服务器集群中的各个服务器分别连接的鸣笛预警单元,以及,BMC预警单元,所述BMC预警单元通过BMC页面向用户进行预警;其中,各个鸣笛预警单元通过i2c线路分别与各自对应的服务器主板连接。
可选的,所述方法还包括:
构建与BMC架构适配的BMC预警进程;
所述根据所述目标部件的状态信息,通过多个预警单元同时进行与所述目标部件的状态信息对应的预警动作,包括:根据所述目标部件的状态信息,通过所述BMC预警进程控制多个预警单元同时进行与所述目标部件的状态信息对应的预警动作。
可选的,所述根据所述目标部件的状态信息,通过所述BMC预警进程控制多个预警单元同时进行与所述目标部件的状态信息对应的预警动作,包括:
根据所述目标部件的状态信息,确定对应的预警等级;
通过所述BMC预警进程向与所述目标部件对应的服务器连接的目标鸣笛预警单元发送与所述预警等级对应的鸣笛信号,以控制所述目标鸣笛预警单元进行对应的鸣笛预警,以及,通过所述BMC预警进程控制BMC页面的页面样式切换至与所述预警等级对应的目标样式。
可选的,所述方法还包括:
实时监测所述BMC页面所在主机的网络状态;
在所述主机处于无网络状态时,通过所述BMC页面向用户进行预警。
可选的,在BMC启动预警前,所述方法还包括:
检测所述BMC预警进程是否运行正常;
在所述BMC预警进程运行异常时,通过BMC控制BMC页面进行预警;
在所述BMC预警进程运行正常时,检测服务器集群中各个服务器与各自对应的鸣笛预警单元的i2c线路是否链通;
在服务器与自身对应的鸣笛预警单元未链通时,通过BMC预警进程控制BMC页面进行预警。
可选地,在BMC启动预警后,所述方法还包括:
在BMC页面显示目标窗口,以接收用户的控制指令;
根据用户的控制指令,创建目标部件的状态信息与预警等级之间的对应关系。
在本发明实施例的第二方面,提供了一种服务器故障预警系统,所述系统包括:
基板管理控制单元,用于监测服务器集群,获得所述服务器集群中服务器的各个部件的状态信息;
目标部件确定单元,用于根据所述状态信息,确定存在异常的目标部件;
预警总单元,用于根据所述目标部件的状态信息,通过多个预警单元同时进行与所述目标部件的状态信息对应的预警动作。
在本发明实施例的第三方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现本发明第一方面所述的一种服务器故障预警方法的步骤。
在本发明实施例的第四方面,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明第一方面所述的一种服务器故障预警方法。
针对在先技术,本发明具备如下优点:
本发明实施例提供的一种服务器故障预警方法,通过BMC监测服务器集群,获得所述服务器集群中服务器的各个部件的状态信息;根据所述状态信息,确定存在异常的目标部件;根据所述目标部件的状态信息,通过多个预警单元同时进行与所述目标部件的状态信息对应的预警动作,该多个预警单元中包括无需网络即可对服务器故障进行预警的鸣笛预警单元。通过本发明的预警机制,即使在无网络状态下也可对服务器的故障进行及时预警,同时鸣笛预警单元是与每个服务器一一对应配置的,可对各个服务器的故障进行针对性预警,以便于管理人员可以快速定位到故障服务器所在位置,从而进行故障的排查与解决。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例提供的一种服务器故障预警方法的流程图;
图2为本发明实施例提供的一种服务器故障预警系统的示意图;
图3为本发明实施例提供的一种电子设备的示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。
在对本发明进行说明之前,先对本发明提出的背景进行说明,目前的服务器预警机制为由BMC负责监控服务器的状态,在BMC启动时重点是对当前服务器中所安装的部件状态进行检查,并识别出有问题的部件后,将故障信息通过BMC页面的特定页面进行输出,在管理人员进入BMC页面的该特定页面时,才能查看到该故障信息。同时将故障信息在BMC页面的特定页面进行输出需要严重依赖于网络,在无网络环境下将无法将故障信息通过BMC页面的特定页面进行输出,由此将导致管理人员无法及时发现故障,从而导致严重后果。有鉴于此,本发明提出一种新的预警机制,旨在无网络环境下也可对服务器故障进行及时预警,从而让管理人员能够及时发现服务器存在故障,并及时定位到发生故障的服务器所在位置,以对服务器的故障进行排查和解决。
图1为本发明实施例提供的一种服务器故障预警方法的流程图,如图1所示,该方法包括:
步骤101:通过BMC监测服务器集群,获得所述服务器集群中服务器的各个部件的状态信息。
在本发明实施例中,BMC(Baseboard Management Controller)为基板管理控制器,就是服务器的助理,负责监控服务器的状态,在BMC启动时重点是对当前服务器中所安装的部件状态进行检查,并识别出有问题的部件并告警。通过BMC对服务器集群进行实时监测,以获得该服务器集群中每个服务器各自的所有部件的状态信息。具体地,通过BMC获取服务器集群中各个服务器各自的CPU(central processing unit)、MEM(memory)、PCIE(peripheral component interconnect express)、PSU(power supply unit)、NVME(Non-Volatile Memory Express)等部件的状态信息,并存储到共享内存中。
步骤102:根据所述状态信息,确定存在异常的目标部件。
在本发明实施例中,在获得服务器集群中每个服务器各自的所有部件的状态信息后,通过BMC对所有的状态信息进行解析判断,从中确定出存在异常的目标部件。由于目标部件属于对应的服务器,因此在存在异常的目标部件确定的同时存在异常的服务器也就随之确定。
步骤S103:根据所述目标部件的状态信息,通过多个预警单元同时进行与所述目标部件的状态信息对应的预警动作。
在本发明中,所述多个预警单元至少包括与所述服务器集群中的各个服务器分别连接的鸣笛预警单元,以及,BMC预警单元,所述BMC预警单元通过BMC页面向用户进行预警;其中,各个鸣笛预警单元通过i2c线路分别与各自对应的服务器主板连接。
在本发明实施例中,多个预警单元至少包括与服务器集群中各个服务器分别连接的鸣笛预警单元,以及BMC预警单元,该BMC预警单元将通过BMC页面向管理人员进行预警。其中,鸣笛预警单元是额外设置在服务器中的,用于进行鸣笛预警的预警单元。服务器集群中的服务器与鸣笛预警单元一一对应,一个服务器对应设置一个鸣笛预警单元,鸣笛预警单元通过i2c线路与自身对应的服务器主板进行连接。
应当理解的是,上述多个预警单元至少包括的两个预警单元只是本发明的一种优选实施方式,上述多个预警单元同样还可以包括其他预警单元,以对服务器的故障进行预警,在此不做具体限定。
在本发明实施例中,在确定到目标部件和目标部件所属于的服务器后,根据目标部件的状态信息,向该目标部件所在的服务器所连接的鸣笛预警单元发送与该目标部件的状态信息对应的鸣笛信号,以控制该目标部件所在的服务器所连接的鸣笛预警单元进行鸣笛预警,并且向BMC页面发送与该目标部件的状态信息对应的预警信息,以通过BMC页面向管理人员进行预警。
由此,本发明所提供的一种服务器故障预警方法,通过为服务器集群中的每个服务器均设置一个鸣笛预警单元,每个鸣笛预警单元与服务器之间的信号传输直接通过i2c线路进行交互,而无需用到网络。因此,即使在无网络环境下,无法通过BMC页面向管理人员对服务器的故障进行预警时,或管理人员并未进入到BMC页面或未关注到BMC页面的预警信息时,也可通过故障服务器对应的鸣笛预警单元向管理人员进行故障服务器的故障预警,如此可便于管理人员根据鸣笛预警单元快速地定位到存在故障的服务器所在位置,以便于管理人员及时对故障服务器的故障原因进行排查和解决。
通过本发明的预警机制,服务器在出现告警时无需进入BMC页面的特定BMC预警页面也可对服务器进行预警。鸣笛预警机制的存在,使得服务器在出现故障后,管理人员在机房中能够第一时间找到故障服务器,同时在服务器出现故障后,管理人员在日常机房巡检的过程中,也能及时发现有服务器存在故障,并及时定位到故障服务器的所在位置,而无需管理人员回到监控室通过BMC页面来发现存在故障服务器,因此可以第一时间向管理人员进行服务器故障的预警,并便于管理人员及时对故障服务器的故障原因进行排查和解决。
在本发明中,所述方法还包括:构建与BMC架构适配的BMC预警进程;所述根据所述目标部件的状态信息,通过多个预警单元同时进行与所述目标部件的状态信息对应的预警动作,包括:根据所述目标部件的状态信息,通过所述BMC预警进程控制多个预警单元同时进行与所述目标部件的状态信息对应的预警动作。
在本发明实施例中,由于目前对服务器的故障进行预警的方式是通过BMC进行监控并通过BMC页面的特定页面向管理人员对服务器的故障进行预警,管理人员在进入BMC页面后,通过切换到进行故障预警的特定页面来确定存在故障服务器。而对于本发明新增的通过鸣笛预警单元对服务器的故障进行预警的过程,如果通过构建新的进程对该预警过程进行控制可能导致各种预警单元之间发生冲突。而为了避免该问题的发生,本发明通过将鸣笛预警单元与BMC进行适配,通过构建与BMC架构适配的BMC预警进程,并通过该BMC预警进程同时控制该多个预警单元对服务器的故障进行预警,以有效避免各种预警单元通过各自的进程对服务器的故障进行预警所存在的冲突问题。其中,BMC预警进程执行的本发明的预警程序存储与BMC芯片中,目标部件的状态信息存储于本地共享内存。
具体地,在确定到目标部件和目标部件所属于的服务器后,根据目标部件的状态信息,通过BMC预警进程控制多个预警单元同时进行与该目标部件的状态信息对应的预警动作。
在本发明中,所述根据所述目标部件的状态信息,通过所述BMC预警进程控制多个预警单元同时进行与所述目标部件的状态信息对应的预警动作,包括:根据所述目标部件的状态信息,确定对应的预警等级;通过所述BMC预警进程向与所述目标部件对应的服务器连接的目标鸣笛预警单元发送与所述预警等级对应的鸣笛信号,以控制所述目标鸣笛预警单元进行对应的鸣笛预警,以及,通过所述BMC预警进程控制BMC页面的页面样式切换至与所述预警等级对应的目标样式。
在本发明实施例中,目前通过BMC对故障服务器进行预警的预警机制,需要管理人员登录BMC页面,并需要管理人员从BMC页面切换到BMC页面中的指定BMC预警页面才能看到故障服务器的预警信息,而在其他情况下,管理人员无法看到故障服务器的预警信息,这将导致管理人员无法及时发现故障服务器的预警信息,从而导致无法及时定位并对故障服务器进行故障进行排查和解决。为解决这一问题,本发明在原有的预警方式的基础上增加通过改变BMC页面的页面样式来对故障服务器进行预警,只要管理人员登录了BMC页面,即使在未切换到对预警信息进行显示的BMC页面的指定BMC预警页面的情况下,也可通过BMC页面的页面样式的改变向管理人员进行故障服务器的预警,在管理人员通过BMC页面样式的改变发现存在服务器发生故障时,可及时切换到BMC页面的指定BMC预警页面以查看故障服务器的具体预警信息,以便管理人员及时发现存在服务器发生故障,从而定位并对故障服务器的故障原因排查和解决。
同时,目前通过BMC页面对故障服务器进行预警的预警机制依赖于网络,故障服务器的预警信息通过BMC页面进行预警时,需要在有网络的环境下才能实现,而在无网络环境下,将无法通过BMC页面对服务器进行故障预警,且由于服务器是以集群的模式配置的,在管理人员不熟悉服务器的排列和配置方式时,通过预警信息无法快速准确的定位到故障服务器所在位置,从而无法及时对故障服务器的故障原因排查和解决。为解决这两个问题,本发明通过为服务器集群中的每个服务器新增鸣笛预警单元,通过i2c线路将鸣笛预警单元与对应的服务器进行连接,由于服务器与对应的鸣笛预警单元之间的信号传输无需网络环境,因此即使在无网络的环境下,无法通过BMC页面和BMC预警页面对故障服务器进行故障预警的情况下,也能够通过故障服务器的鸣笛预警单元对故障服务器进行预警,以便于管理人员及时发现存在故障服务器,并根据鸣笛预警能够快速定位到发生故障的故障服务器所在位置,从而能够及时对故障服务器进行故障原因的排查和解决。同时,即使管理人员未发现BMC页面的预警时,也可通过鸣笛预警发现存在故障服务器,并根据鸣笛预警快速定位到发生故障的服务器,从而能够及时对故障服务器进行故障原因的排查和解决。
在本发明实施例中,本发明将目标部件的状态信息划分为多种等级,对于不同等级的目标部件的状态信息,通过对应的预警方式进行预警。
在本发明实施例中,将目标部件的状态信息划分为多种等级的一种优选实施方式为:将目标部件的状态信息划分为两种等级,一种等级为目标部件的状态信息表征服务器的异常并不会对服务器的运行造成影响,告警级别属于(warning),此时BMC预警单元对应的预警方式为将BMC页面的页面样式切换为对应的黄色背景,以向管理人员进行预警,此时的BMC页面的黄色背景即为与该目标部件的状态信息对应的预警等级所对应的目标样式,同时此时该目标部件对应的服务器所连接的鸣笛预警单元对应的预警方式为连续短鸣,并控制uid灯亮起,以向管理人员预警,提示管理人员服务器出现了问题需要及时处理解决,同时将目标部件的状态信息对应的预警信息发送至BMC页面中的指定BMC预警页面进行预警,以使得用户在发现BMC页面的预警后,能够及时切换到BMC预警页面查看预警信息;一种等级为目标部件的状态信息表征服务器的异常严重影响了服务器的运行,告警级别属于(critical),此时BMC预警单元对应的预警方式为将BMC页面的页面样式切换为对应的红色背景,以向管理人员进行预警,此时的BMC页面的红色背景即为与该目标部件的状态信息对应的预警等级所对应的目标样式,同时此时该目标部件对应的服务器所连接的鸣笛预警单元对应的预警方式为持续长鸣,并控制uid灯亮起,以向管理人员预警,提示管理人员服务器出现了问题需要及时处理解决,同时将目标部件的状态信息对应的预警信息发送至BMC页面中的指定BMC预警页面进行预警,以使得用户在发现BMC页面的预警后,能够及时切换到BMC预警页面查看预警信息;在服务器集群中的所有服务器均正常时,此时还存在一种正常的等级,此时BMC页面的页面样式默认为蓝色背景,以清楚地告知管理人员,当前服务器集群处于正常状态,此时不存在服务器的鸣笛预警单元做出鸣笛预警的动作。
应当理解的是,上述将目标部件的状态信息划分为多种等级的实施方式为一种优选的实施方式,目标部件的状态信息同样可以划分为其他数量的多种等级,在此不做具体限定。
具体地,根据目标部件的状态信息,确定对应的预警等级。在确定目标部件的状态信息对应的预警等级后,通过BMC预警进程向与目标部件所在的服务器连接的目标鸣笛预警单元发送与该预警等级对应的鸣笛信号,以控制目标鸣笛预警单元进行对应的鸣笛预警,以及,通过BMC预警进程控制BMC页面的页面样式切换至与该预警等级对应的目标样式。
示例地,预警等级包括warning等级和critical等级,warning等级对应的BMC预警单元的预警方式为BMC页面切换至黄色背景的目标样式,warning等级对应的鸣笛预警单元的预警方式为以连续短鸣进行预警;critical等级对应的BMC预警单元的预警方式为BMC页面切换至红色背景的目标样式,critical等级对应的鸣笛预警单元的预警方式为以持续长鸣进行预警。在根据目标部件的状态信息,确定该目标部件的状态信息对应的预警等级为critical等级时,通过BMC预警进程向与该目标部件所在的服务器连接的目标鸣笛预警单元发送与该目标部件的状态信息对应的预警等级所对应的鸣笛信号,以控制目标鸣笛预警单元进行对应的持续长鸣预警,以及,通过BMC预警进程控制BMC页面的页面样式切换至与该目标部件的状态信息对应的预警等级所对应的红色背景目标样式。同时在预警时,将目标部件的状态信息对应预警信息继续在BMC页面的特定BMC预警页面进行显示,且在预警时,为便于管理人员更加快速地定位到该目标部件所在的故障服务器,还控制故障服务器的uid灯亮起。
在本发明中,所述方法还包括:实时监测所述BMC页面所在主机的网络状态;在所述主机处于无网络状态时,通过所述BMC页面向用户进行预警。
在本发明实施例中,由于通过BMC页面的页面样式切换进行预警的预警机制,同样需要依赖网络环境,因此为保障本发明的新的预警机制能够正常执行,对BMC页面所在的主机的网络状态进行实时监测,以在发现BMC页面所在主机处于无网络环境时,及时通过BMC页面向管理人员进行预警,以告知当前BMC页面所在主机处于无网络环境,以警示管理人员及时排查处理无网络的原因,从而恢复本发明的新的预警机制的正常运行。
具体地,本发明实时监测所述BMC页面所在主机的网络状态的一种实现方式为:通过BMC预警进程每隔预设时长向BMC页面发送测试信号,该测试信号并不会控制BMC页面的页面样式发生改变,而只是用于测试网络是否畅通,是否能将测试信号传输至BMC页面。在连续多个预设时长BMC页面均未接收到BMC预警进程发送的测试信号时,BMC页面将改变自身页面样式,如将BMC页面的页面背景切换为橙色,以警示管理人员当前网络环境异常,无法正常接收到由BMC预警进程发送的测试信号,以警示管理人员及时排查处理无网络的原因,从而恢复本发明的新的预警机制的正常运行,同时在BMC页面的特定BMC预警页面中显示对应的预警信息,以告知管理人员此时BMC页面所在主机网络异常。
在本发明中,在BMC启动预警前,所述方法还包括:检测所述BMC预警进程是否运行正常;在所述BMC预警进程运行异常时,通过BMC控制BMC页面进行预警;在所述BMC预警进程运行正常时,检测服务器集群中各个服务器与各自对应的鸣笛预警单元的i2c线路是否链通;在服务器与自身对应的鸣笛预警单元未链通时,通过BMC预警进程控制BMC页面进行预警。
在本发明实施例中,由于BMC预警进程控制了所有的预警单元进行相应的预警动作,其在本发明的预警机制中至关重要,其是否正常工作决定了本发明的预警机制能够正常进行。因此,在BMC开启后执行预警动作之前,需要先检测BMC是否能正常运动,在BMC无法正常运行时,通过BMC控制BMC页面改变页面样式进行预警,如将BMC页面的页面背景切换为紫色,以警示管理人员当前BMC预警进程异常,无法进行正常的预警动作,以告知管理人员及时排查处理BMC预警进程异常的原因,从而恢复本发明的新的预警机制的正常运行。同时在BMC页面的特定BMC预警页面中显示对应的预警信息,以告知管理人员此时BMC预警进程异常。并通过发送测试命令,模拟上述PSU的故障解除,确定本发明的预警机制中鸣笛预警单元是否正常执行解除预警功能的动作和uid灯是否关闭,以及BMC页面的页面样式是否恢复正常,由此完成BMC预警进程的检测。
在本发明实施例中,确定BMC预警进程是否运行正常的一种实施方式为:通过打桩测试模拟服务器集群中的一个服务器的PSU部件发生故障时,是否会通过多个预警单元执行相应的预警动作,根据串口打印信息查看BMC预警进程能否正常运行,以确定BMC预警进程是否会因为其他进程顶替导致的挂死,从而导致无法达到预计的预警效果。
同时,在本发明的预警机制中,鸣笛预警单元也起到重要作用,因此在检测到BMC预警进程运行正常时,进一步检测服务器集群中各个服务器与各自对应的鸣笛预警单元的i2c线路是否链通,在存在服务器与自身对应的鸣笛预警单元未链通时,通过BMC预警进程控制BMC页面进行预警,如将BMC页面的页面背景切换为灰色,以警示管理人员当前存在鸣笛预警单元与自身对应的服务器存在链接异常,无法进行正常的预警动作,以告知管理人员及时排查处理鸣笛预警单元与自身对应的服务器存在链接异常的原因,从而恢复本发明的新的预警机制的正常运行,此时无法再通过鸣笛预警来快速告知管理人员存在链接异常的服务器所在位置,因此为便于管理人员能够确定存在链接异常的服务器所在位置,在BMC页面的特定BMC预警页面中显示对应的预警信息,以告知管理人员此时存在鸣笛预警单元与自身对应的服务器存在链接异常,同时标记服务器的编号,以便于管理人员从服务器集群中确定出存在链接异常的服务器。
在本发明实施例中,为防止普通用户对预警监控的误操作,BMC的预警功能开启管理人员登录账户进行开启。
在本发明中,在BMC启动预警后,所述方法还包括:在BMC页面显示目标窗口,以接收用户的控制指令;根据用户的控制指令,创建目标部件的状态信息与预警等级之间的对应关系。
在本发明实施例中,由于在不同时间段,服务器所发生的故障类型不同。因此为提高服务器故障预警的适应性,在管理人员进入BMC界面后,可由管理人员设定目标部件的状态信息与预警等级之间的对应关系。在一个时间段容易发生的服务器故障对应的目标部件的状态信息,在该时间段之前的一个时刻管理人员进入BMC界面后设置对应的critical预警等级;而对于在一个时间段不易发生的服务器故障对应的目标部件的状态信息,在该时间段出现了该目标部件的状态信息时,该目标部件的状态信息极有可能是误报,因此在该时间段之前的一个时刻在管理人员进入BMC界面后设置对应的warning预警等级,而无需设置为等级更高的critical预警等级,因为该目标部件的状态信息极大可能是误报。
具体地,在管理人员进入BMC页面后,在BMC页面中显示目标窗口,用于接收管理人员的控制指令,根据管理人员的控制指令创建目标部件的状态信息与预警等级之间的对应关系。
本发明所提供的一种服务器故障预警方法,提升了服务器故障定位的精度,便于管理人员及时定位故障服务器所在位置,并对管理人员进行预警,同时提高了服务器的安全状态。同时由于对服务器的机箱整体改动不大,以及BMC预警进程对通用代码具有良好的兼容性,因此整体只有较小的改动,不会对BMC整体架构造成重大影响,使得本发明的预警机制适配目前所有机型,而无需对不同项目单独进行适配。
同时,本发明的预警机制,可以第一时间向管理人员进行故障服务器的预警,协助管理人员快速准确的定位到故障服务器所在位置。同时设置与BMC适配的BMC预警进程,在BMC整体架构基础上新增BMC预警进程,能够确保新增进行不会对BMC整体架构造成影响,各个进程将各自工作,而不会出现对其他进程造成影响交叉现象,使预警能够准确识别到存在异常的目标部件所在的服务器,从而减少预警的误报。同时直接由BMC预警进程来对鸣笛预警单元进行控制,这样的好处是都在主进程(BMC预警进程)的控制之下,能够有效避免设备之间的冲突,从而使预警能够更加准确。
在本发明实施例中,本发明的预警机制过程为:管理人员进入BMC页面后,在BMC页面中弹出目标窗口。管理人员在BMC页面中弹出的目标窗口中输入控制指令,根据管理人员的控制指令创建目标部件的状态信息与预警等级之间的对应关系,将该根据管理人员的控制指令创建的目标部件的状态信息与预警等级之间的对应关系发送至BMC预警进程,BMC预警进程根据该根据管理人员的控制指令创建的目标部件的状态信息与预警等级之间的对应关系执行本发明的预警机制。具体地,BMC实时监测服务器集群中的各个服务器的运行状态,通过BMC获取服务器集群中各个服务器各自的CPU(central processing unit)、MEM(memory)、PCIE(peripheral component interconnect express)、PSU(power supplyunit)、NVME(Non-Volatile Memory Express)等部件的状态信息,并存储到共享内存中。从共享内存中读取获取到各个服务器的各个部件的状态信息并对其进行判断解析,从中确定出存在异常的目标部件,由该存在异常的目标部件确定到存在异常的服务器,并根据管理人员的控制指令创建的目标部件的状态信息与预警等级之间的对应关系确定该目标部件的状态信息对应的预警等级。BMC预警进程根据该预警等级向与该目标部件所在的服务器连接的鸣笛预警单元发送对应的鸣笛信号,以控制该目标部件所在的服务器连接的鸣笛预警单元进行与该目标部件的状态信息对应的预警等级所对应的鸣笛预警,如该目标部件的状态信息对应的预警等级为warning预警等级时,该目标部件所在的服务器连接的鸣笛预警单元进行持续长鸣,并控制uid灯亮起;如该目标部件的状态信息对应的预警等级为critical预警等级时,该目标部件所在的服务器连接的鸣笛预警单元进行连续短鸣,并控制uid灯亮起。同时BMC预警进程根据该预警等级控制BMC页面切换为与该目标部件的状态信息对应的预警等级所对应的目标样式,如该目标部件的状态信息对应的预警等级为warning预警等级时,BMC页面的背景样式切换为黄色背景;如该目标部件的状态信息对应的预警等级为critical预警等级时,BMC页面的背景样式切换为红色背景。同时,BMC预警进程向BMC预警页面发送与该目标部件的状态信息对应的预警信息,以便于管理人员在通过BMC页面发现存在故障服务器时,可通过切换到BMC预警页面来查看具体的预警细节。通过本发明的预警机制,即使在无网络状态下也可对服务器的故障进行及时预警,同时鸣笛预警单元是与每个服务器一一对应配置的,可对各个服务器的故障进行针对性预警,以便于管理人员可以快速定位到故障服务器所在位置,从而进行服务器故障的排查与解决,这样即使管理人员不在监控室,而在机房中进行训练过程中即可发现存在故障服务器,并能够快速定位到故障服务器所在位置,以能够快速地对服务器的故障进行排查与解决,从而防止服务器发生更大的故障造成巨大损失。
图2为本发明实施例提供的一种服务器故障预警系统的示意图,如图2所示,该系统200包括:
基板管理控制单元201,用于监测服务器集群,获得所述服务器集群中服务器的各个部件的状态信息;
目标部件确定单元202,用于根据所述状态信息,确定存在异常的目标部件;
预警总单元203,用于根据所述目标部件的状态信息,通过多个预警单元同时进行与所述目标部件的状态信息对应的预警动作。
可选地,所述预警总单元203中的所述多个预警单元至少包括与所述服务器集群中的各个服务器分别连接的鸣笛预警单元,以及,BMC预警单元,所述BMC预警单元通过BMC页面向用户进行预警;其中,各个鸣笛预警单元通过i2c线路分别与各自对应的服务器主板连接。
可选地,所述系统200还包括:构建的与BMC架构适配的BMC预警进程;
所述预警总单元203,包括:第一预警总单元,用于根据所述目标部件的状态信息,通过所述BMC预警进程控制多个预警单元同时进行与所述目标部件的状态信息对应的预警动作。
可选地,所述第一预警总单元,包括:预警等级确定单元,用于根据所述目标部件的状态信息,确定对应的预警等级;
第二预警总单元,用于通过所述BMC预警进程向与所述目标部件对应的服务器连接的目标鸣笛预警单元发送与所述预警等级对应的鸣笛信号,以控制所述目标鸣笛预警单元进行对应的鸣笛预警,以及,通过所述BMC预警进程控制BMC页面的页面样式切换至与所述预警等级对应的目标样式。
可选地,所述系统还包括:
网络状态监测单元,用于实时监测所述BMC页面所在主机的网络状态;
网络状态预警单元,用于在所述主机处于无网络状态时,通过所述BMC页面向用户进行预警。
可选地,所述系统还包括:
运行状态监测单元,用于检测所述BMC预警进程是否运行正常;
第一状态预警单元,用于在所述BMC预警进程运行异常时,通过BMC控制BMC页面进行预警;
连接状态监测单元,用于在所述BMC预警进程运行正常时,检测服务器集群中各个服务器与各自对应的鸣笛预警单元的i2c线路是否链通;
第二状态预警单元,用于在服务器与自身对应的鸣笛预警单元未链通时,通过BMC预警进程控制BMC页面进行预警。
可选地,所述系统还包括:
控制指令接收单元,用于在BMC页面显示目标窗口,以接收用户的控制指令;
相关关系构建单元,用于根据用户的控制指令,创建目标部件的状态信息与预警等级之间的对应关系。
由此,本发明所提供的一种服务器故障预警系统,通过为服务器集群中的每个服务器均设置一个鸣笛预警单元,每个鸣笛预警单元与服务器之间的信号传输直接通过i2c线路进行交互,而无需用到网络。因此,即使在无网络环境下,无法通过BMC页面向管理人员对服务器的故障进行预警时,或管理人员并未进入到BMC页面或未关注到BMC页面的预警信息时,也可通过故障服务器对应的鸣笛预警单元向管理人员进行故障服务器的故障预警,如此可便于管理人员根据鸣笛预警单元快速地定位到存在故障的服务器所在位置,以便于管理人员及时对故障服务器的故障原因进行排查和解决。
通过本发明的预警机制,服务器在出现告警时无需进入BMC页面的特定BMC预警页面也可对服务器进行预警。鸣笛预警机制的存在,使得服务器在出现故障后,管理人员在机房中能够第一时间找到故障服务器,同时在服务器出现故障后,管理人员在日常机房巡检的过程中,也能及时发现有服务器存在故障,并及时定位到故障服务器的所在位置,而无需管理人员回到监控室通过BMC页面来发现存在故障服务器,因此可以第一时间向管理人员进行服务器故障的预警,并便于管理人员及时对故障服务器的故障原因进行排查和解决。
图3为本发明实施例提供的一种电子设备的示意图,如图3所示,本发明实施例还提供了一种电子设备,包括处理器301、通信接口302、存储器303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信;
存储器303,用于存放计算机程序;
处理器301,用于执行存储器303上所存放的程序时,实现本发明提供的一种服务器故障预警方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明提供的一种服务器故障预警方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (10)
1.一种服务器故障预警方法,其特征在于,所述方法包括:
通过BMC监测服务器集群,获得所述服务器集群中服务器的各个部件的状态信息;
根据所述状态信息,确定存在异常的目标部件;
根据所述目标部件的状态信息,通过多个预警单元同时进行与所述目标部件的状态信息对应的预警动作。
2.根据权利要求1所述的一种服务器故障预警方法,其特征在于,所述多个预警单元至少包括与所述服务器集群中的各个服务器分别连接的鸣笛预警单元,以及,BMC预警单元,所述BMC预警单元通过BMC页面向用户进行预警;其中,各个鸣笛预警单元通过i2c线路分别与各自对应的服务器主板连接。
3.根据权利要求2所述的一种服务器故障预警方法,其特征在于,所述方法还包括:
构建与BMC架构适配的BMC预警进程;
所述根据所述目标部件的状态信息,通过多个预警单元同时进行与所述目标部件的状态信息对应的预警动作,包括:根据所述目标部件的状态信息,通过所述BMC预警进程控制多个预警单元同时进行与所述目标部件的状态信息对应的预警动作。
4.根据权利要求3所述的一种服务器故障预警方法,其特征在于,所述根据所述目标部件的状态信息,通过所述BMC预警进程控制多个预警单元同时进行与所述目标部件的状态信息对应的预警动作,包括:
根据所述目标部件的状态信息,确定对应的预警等级;
通过所述BMC预警进程向与所述目标部件对应的服务器连接的目标鸣笛预警单元发送与所述预警等级对应的鸣笛信号,以控制所述目标鸣笛预警单元进行对应的鸣笛预警,以及,通过所述BMC预警进程控制BMC页面的页面样式切换至与所述预警等级对应的目标样式。
5.根据权利要求3所述的一种服务器故障预警方法,其特征在于,所述方法还包括:
实时监测所述BMC页面所在主机的网络状态;
在所述主机处于无网络状态时,通过所述BMC页面向用户进行预警。
6.根据权利要求3所述的一种服务器故障预警方法,其特征在于,在BMC启动预警前,所述方法还包括:
检测所述BMC预警进程是否运行正常;
在所述BMC预警进程运行异常时,通过BMC控制BMC页面进行预警;
在所述BMC预警进程运行正常时,检测服务器集群中各个服务器与各自对应的鸣笛预警单元的i2c线路是否链通;
在服务器与自身对应的鸣笛预警单元未链通时,通过BMC预警进程控制BMC页面进行预警。
7.根据权利要求4所述的一种服务器故障预警方法,其特征在于,在BMC启动预警后,所述方法还包括:
在BMC页面显示目标窗口,以接收用户的控制指令;
根据用户的控制指令,创建目标部件的状态信息与预警等级之间的对应关系。
8.一种服务器故障预警系统,其特征在于,所述系统包括:
基板管理控制单元,用于监测服务器集群,获得所述服务器集群中服务器的各个部件的状态信息;
目标部件确定单元,用于根据所述状态信息,确定存在异常的目标部件;
预警总单元,用于根据所述目标部件的状态信息,通过多个预警单元同时进行与所述目标部件的状态信息对应的预警动作。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一所述的一种服务器故障预警方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的一种服务器故障预警方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211190622.6A CN115766392A (zh) | 2022-09-28 | 2022-09-28 | 一种服务器故障预警方法、系统、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211190622.6A CN115766392A (zh) | 2022-09-28 | 2022-09-28 | 一种服务器故障预警方法、系统、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115766392A true CN115766392A (zh) | 2023-03-07 |
Family
ID=85350495
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211190622.6A Pending CN115766392A (zh) | 2022-09-28 | 2022-09-28 | 一种服务器故障预警方法、系统、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115766392A (zh) |
-
2022
- 2022-09-28 CN CN202211190622.6A patent/CN115766392A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7617086B2 (en) | Monitoring simulating device, method, and program | |
WO2017063505A1 (zh) | 一种服务器硬件故障检测方法及其装置和服务器 | |
US8286034B2 (en) | Accurate fault status tracking of variable access sensors | |
CN104639380A (zh) | 服务器监控方法 | |
CN102055615B (zh) | 服务器监控方法 | |
CN105183575A (zh) | 处理器故障的诊断方法、装置及系统 | |
WO2022151988A1 (zh) | 一种sas链路故障定位方法、装置、设备及存储介质 | |
CN113992501A (zh) | 一种故障定位系统、方法及计算装置 | |
CN115766392A (zh) | 一种服务器故障预警方法、系统、电子设备及存储介质 | |
CN117411804A (zh) | 服务器网络测试方法、装置、电子设备及存储介质 | |
CN112131048A (zh) | 一种服务器指示灯的控制方法和装置 | |
CN116225802A (zh) | 一种故障测试方法、装置及计算设备 | |
CN115080362A (zh) | 一种pcie设备降速上报方法、系统、设备以及存储介质 | |
CN114372003A (zh) | 测试环境监控方法、装置与电子设备 | |
CN114422395A (zh) | 一种链路诊断方法和装置 | |
TWI414939B (zh) | 伺服器監控方法 | |
CN210181591U (zh) | 上电时序检测装置 | |
CN111261271B (zh) | 一种针对视频监控环境的业务可用性诊断方法及装置 | |
CN115643223B (zh) | 一种中断信号传输方法及装置 | |
JP2013196410A (ja) | サーバ装置及び障害管理方法及び障害管理プログラム | |
CN111835575B (zh) | 一种防止设备失联方法、装置、电子设备及存储介质 | |
CN115955416A (zh) | 测试upi降带宽的方法、装置、设备及存储介质 | |
CN114020586A (zh) | 一种利用BMC获取Event日志对服务器故障进行快速报警的方法 | |
CN111885141A (zh) | 一种机房管理系统 | |
CN114721850A (zh) | 磁盘健康检查方法、装置、电子设备、介质及产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |