CN117992302A - 服务器状态监控方法、装置、电子设备及存储介质 - Google Patents
服务器状态监控方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117992302A CN117992302A CN202410039421.9A CN202410039421A CN117992302A CN 117992302 A CN117992302 A CN 117992302A CN 202410039421 A CN202410039421 A CN 202410039421A CN 117992302 A CN117992302 A CN 117992302A
- Authority
- CN
- China
- Prior art keywords
- card
- server
- speed serial
- expansion bus
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 115
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000005540 biological transmission Effects 0.000 claims description 57
- 239000000758 substrate Substances 0.000 claims description 10
- 230000000977 initiatory effect Effects 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 238000012806 monitoring device Methods 0.000 abstract description 10
- 230000000694 effects Effects 0.000 abstract description 9
- 230000004044 response Effects 0.000 abstract description 7
- 239000000306 component Substances 0.000 description 44
- CQIZBIFTOGBKDB-UHFFFAOYSA-N 4-cyclohexyl-1-methyl-3,6-dihydro-2h-pyridine Chemical compound C1N(C)CCC(C2CCCCC2)=C1 CQIZBIFTOGBKDB-UHFFFAOYSA-N 0.000 description 26
- 101100076239 Drosophila melanogaster Mctp gene Proteins 0.000 description 26
- 230000007246 mechanism Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000009471 action Effects 0.000 description 5
- 230000032683 aging Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 239000008358 core component Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Landscapes
- Debugging And Monitoring (AREA)
Abstract
本申请提供了服务器状态监控方法、装置、电子设备及存储介质。方法包括:通过基板管理控制器,根据预先建立的高速串行计算机扩展总线标准子卡的监控线程从服务器获取服务器状态信息,其中,所述服务器预先通过所述磁盘阵列卡驱动进行异步事件通知注册;根据所述服务器状态信息进行故障告警判断,得到故障告警判断结果;当所述故障告警判断结果为所述服务器状态信息包括告警信息时,通过所述异步事件通知进行事件上报,得到第一服务器状态监控结果。由于本申请提供的技术方案占用资源小,响应速度快,改善了用户体验,提高了服务器状态监控效果与质量,保障了服务器系统的稳定性。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种服务器状态监控方法、装置、电子设备及存储介质。
背景技术
服务器是网络系统和计算机平台的核心,网络系统和计算机平台的重要数据往往保存在服务器中。随着服务器的长期使用,老龄化加剧,故障概率加速上升,这些高故障率的老龄化设备不仅对现网业务造成影响,还会提高了运营复杂度和成本。
现有技术往往由BMC通过raid卡的监控线程定时轮询获取raid卡的信息,实现监控硬盘背板及硬盘的各种状态的监控动作。但是这种定时轮询的动作占用资源多,用户体验差。
发明内容
本申请提供了一种服务器状态监控方法、装置、电子设备及存储介质。服务器状态监控方法利用了raid卡支持AEN机制,由BMC通过raid卡驱动向raid卡注册AEN的方式监控硬盘背板及硬盘的健康状态的机制,解决了定时轮询的动作占用资源多,用户体验差的问题。
第一方面,本申请提供了一种服务器状态监控方法,该方法包括:
通过基板管理控制器,根据预先建立的高速串行计算机扩展总线标准子卡的监控线程从服务器获取服务器状态信息,其中,所述服务器预先通过所述磁盘阵列卡驱动进行异步事件通知注册;
根据所述服务器状态信息进行故障告警判断,得到故障告警判断结果;
当所述故障告警判断结果为所述服务器状态信息包括告警信息时,通过所述异步事件通知进行事件上报,得到第一服务器状态监控结果。
可选的,本申请提供的服务器状态监控方法还包括:
通过管理组件传输协议标准命令,根据预先建立的管理组件传输协议链路确定高速串行计算机扩展总线标准子卡的厂商信息和类型信息;
根据所述高速串行计算机扩展总线标准子卡的厂商信息和类型信息生成所述高速串行计算机扩展总线标准子卡的监控线程。
可选的,本申请提供的服务器状态监控方法还包括:
通过所述基板管理控制器对高速串行计算机扩展总线标准链路上预先注册的所述高速串行计算机扩展总线标准子卡进行管理组件传输协议枚举,建立所述基板管理控制器和所述高速串行计算机扩展总线标准子卡之间的管理组件传输协议链接。
可选的,本申请提供的服务器状态监控方法还包括:
通过所述基板管理控制器对高速串行计算机扩展总线标准链路上预先注册的所述网卡发起管理组件传输协议枚举,得到网卡枚举结果;
通过所述基板管理控制器对高速串行计算机扩展总线标准链路上预先注册的所述磁盘阵列卡发起管理组件传输协议枚举,得到磁盘阵列卡枚举结果;
为所述网卡枚举结果对应的网卡进行端点身份标识号分配,得到网卡身份标识号分配结果;
为所述磁盘阵列卡枚举结果对应的网卡进行端点身份标识号分配,得到磁盘阵列卡身份标识号分配结果;
根据所述网卡身份标识号分配结果,对所述网卡和所述基板管理控制器之间进行管理组件传输协议链接建立,得到所述基板管理控制器和所述网卡之间的管理组件传输协议链接;
根据所述磁盘阵列卡身份标识号分配结果,对所述磁盘阵列卡和所述基板管理控制器之间进行管理组件传输协议链接建立,得到所述基板管理控制器和所述磁盘阵列卡之间的管理组件传输协议链接,其中,所述基板管理控制器和所述网卡之间的管理组件传输协议链接、所述基板管理控制器和所述磁盘阵列卡之间的管理组件传输协议链接所处的管理组件传输协议网络相同。
可选的,本申请提供的服务器状态监控方法还包括:
将所述网卡向所述高速串行计算机扩展总线标准链路注册,得到注册后的所述网卡;
将所述磁盘阵列卡向所述高速串行计算机扩展总线标准链路注册,得到注册后的所述磁盘阵列卡。
可选的,本申请提供的服务器状态监控方法还包括:
根据所述硬盘状态信息进行故障告警判断,得到硬盘的所述故障告警判断结果;
根据所述硬盘背板状态信息进行故障告警判断,得到硬盘背板的所述故障告警判断结果。
可选的,本申请提供的服务器状态监控方法还包括:
根据所述第一服务器状态监控结果对应的所述异步事件通知通过所述基板管理控制器进行筛选识别,得到硬盘对应的所述异步事件通知;
根据所述硬盘对应的所述异步事件通知通过所述基板管理控制器进行事件上报,得到第二服务器状态监控结果。
第二方面,本申请还提供一种服务器状态监控装置,包括:
状态信息获取模块,用于通过基板管理控制器,根据预先建立的高速串行计算机扩展总线标准子卡的监控线程从服务器获取服务器状态信息,其中,所述服务器预先通过所述磁盘阵列卡驱动进行异步事件通知注册;
故障告警判断模块,用于根据所述服务器状态信息进行故障告警判断,得到故障告警判断结果;
第一状态监控模块,用于当所述故障告警判断结果为所述服务器状态信息包括告警信息时,通过所述异步事件通知进行事件上报,得到第一服务器状态监控结果。
第三方面,本申请还提供了一种电子设备,该电子设备包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的服务器状态监控方法的步骤。
第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的服务器状态监控方法的步骤。
本申请提供的技术方案中,通过BMC对预先进行了AEN事件注册的服务器通过监控线程进行状态信息获取,并通过AEN进行告警信息的上报,占用资源小,响应速度快,改善了用户体验,提高了服务器状态监控效果与质量,保障了服务器系统的稳定性。
上述说明仅是本申请提供的技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是本申请实施例提供的服务器状态监控方法示意图之一;
图2是本申请实施例提供的服务器状态监控方法示意图之二;
图3是本申请实施例提供的服务器状态监控方法示意图之三;
图4是本申请实施例提供的服务器状态监控方法示意图之四;
图5是本申请实施例提供的服务器状态监控方法示意图之五;
图6是本申请实施例提供的服务器状态监控方法示意图之六;
图7是本申请实施例提供的服务器状态监控方法示意图之七;
图8是本申请提供的一种服务器状态监控系统示例;
图9是本申请提供的一种服务器状态监控步骤示例;
图10是本申请提供的一种服务器状态监控流程示例;
图11是本申请实施例提供的服务器状态监控装置示意图;
图12是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
服务器是网络系统和计算机平台的核心,网络系统和计算机平台的重要数据往往保存在服务器中。随着服务器的长期使用,老龄化加剧,故障概率加速上升,这些高故障率的老龄化设备不仅对现网业务造成影响,还会提高了运营复杂度和成本。其中,硬盘是服务器运行时存储用户资料和数据的核心部件,当硬盘出现错误时造成的数据损失往往大于整台电脑或服务器的报废。但是,硬盘体量大,生命周期短,往往只有3到5年的使用寿命,当服务器使用年限超过5年后,硬盘的故障率显著升高。综上,想要快速降低服务器的故障,需要降低器故障的影响,即需要对磁盘或硬盘进行监控和告警,硬盘出现故障或者将要出现故障时,服务器是否能够快速监控到及触发预告警,事关用户的核心数据,严重影响用户的使用体验。
现有技术往往利用基板管理控制器(Baseboard Management Controller,BMC)通过传感器来监视一台计算机、网络服务器,或者是其他硬件驱动设备的状态的功能,由BMC通过磁盘阵列(Redundant Arrays of Independent Disks,raid)卡的监控线程定时轮询获取raid卡的信息,实现对硬盘背板及硬盘的各种状态,例如硬盘温度、硬盘是否有故障、硬盘的寿命是否将尽等状态信息进行监控的方法。但是这种方式定时获取状态,不能做到实时监控,异常响应慢,并且这种轮询获取信息的方式占用资源多,用户使用体验差。
本申请提供的技术方案,利用了raid卡支持AEN机制,由BMC通过raid卡驱动向raid卡注册AEN的方式监控硬盘背板及硬盘的健康状态的机制。相较于传统的轮询,该机制可以更快速响应且占用更少的资源,该机制可以保证BMC更高效快速的监控到硬盘的实时状态并及时主动上报到BMC,BMC及时触发硬盘故障告警及预告警,保证服务器稳定健壮工作。
下面结合附图,通过具体的实施例及其应用场景对本申请提供的服务器状态监控方法、装置、电子设备及非易失性可读存储介质进行详细地说明。
本申请的第一实施方式涉及一种服务器状态监控方法,如图1所示,包括:
步骤101、通过基板管理控制器,根据预先建立的高速串行计算机扩展总线标准子卡的监控线程从服务器获取服务器状态信息,其中,所述服务器预先通过所述磁盘阵列卡驱动进行异步事件通知注册;
步骤102、根据所述服务器状态信息进行故障告警判断,得到故障告警判断结果;
步骤103、当所述故障告警判断结果为所述服务器状态信息包括告警信息时,通过所述异步事件通知进行事件上报,得到第一服务器状态监控结果。
具体的,本申请提供的服务器状态监控方法中,首先由BMC进行服务器,例如对服务器中高速串行计算机扩展总线(peripheral component interconnect express,PCIe)子卡进行异步事件通知(Asynchronous Event Notification,AEN)的注册。举例来说,PCIe子卡包括raid卡和网卡,可以由BMC通过raid卡驱动向raid卡注册AEN实现raid卡的AEN注册动作,由BMC通过网卡驱动向网卡注册AEN实现网卡的AEN注册动作。
随后,根据根据预先建立的PCIe子卡的监控线程,获取注册了AEN的服务器状态信息,例如服务器中硬盘状态信息和服务器中硬盘背板状态信息,实现对服务器中的硬盘和硬盘背板的状态进行监控的效果。
随后,根据服务器状态信息进行故障告警判断,得到故障告警判断结果。当故障告警判断结果为服务器状态信息中包含了告警信息,例如硬盘发生了故障的硬盘掉盘信息,或者硬盘即将发生故障的预测失败信息时,通过AEN进行事件上报,完成服务器的状态监控。
其中,服务器状态信息的监控与上报可以由raid和BMC共同配合实现。raid卡对服务器状态信息进行监控,当监控到硬盘发生故障或是硬盘即将发生故障时,通过AEN将raid监控到的事件上报给BMC、随后,BMC接收raid卡上报的AEN事件,并通过BMC的告警机制上报给对应的服务器管理软件或互联网(web),实现对服务器的状态监控的效果。
本申请提供的技术方案中,通过BMC对预先进行了AEN事件注册的服务器通过监控线程进行状态信息获取,并通过AEN进行告警信息的上报,占用资源小,响应速度快,提高了服务器状态监控效果与质量,保障了服务器系统的稳定性。
在上述实施方式的基础上,如图2所示,本申请提供的服务器状态监控方法中,步骤101之前,还包括:
步骤104、通过管理组件传输协议标准命令,根据预先建立的管理组件传输协议链路确定高速串行计算机扩展总线标准子卡的厂商信息和类型信息;
步骤105、根据所述高速串行计算机扩展总线标准子卡的厂商信息和类型信息生成所述高速串行计算机扩展总线标准子卡的监控线程。
具体的,本申请提供的服务器状态监控方法中,在通过AEN对服务器进行状态监控前,本申请还能够通过管理组件传输协议(Management Component Transport Protocol,MCTP)标准命令获取PCIe子卡的厂商信息和类型信息,其中,上述能够获取厂商信息和类型信息的PCIe子卡均预先与BMC建立MCTP链接,BMC能够通过端点身份标识号(EndpointIDentity,EID)与服务器中的多个PCIe子卡进行通信。
举例来说,BMC通过MCTP协议标准命令中获取PCIe子卡供应商定义信息(VendorDefined Message,VDM)的命令获取服务器中各个PCIe子卡的厂商信息,并根据各个PCIe子卡的厂商信息进行PCIe子卡类型的识别,从而得到服务器中多个PCIe子卡各自对应的厂商信息和类型信息。
之后,根据多个PCIe子卡不同的类型拉起不同的监控线程,从而构建BMC和PCIe子卡的监控线程。其中,由于服务器中常见的PCIe子卡包括raid卡和网卡,本申请能够根据服务器中raid卡和网卡的厂商信息确定raid卡和网卡类型,并分别生成不同的监控线程,例如raid卡监控线程和网卡监控线程。
在上述实施方式的基础上,由于本申请能够通过厂商信息进行类型判断,并生成相应的监控线程,对于网卡、raid卡等PCIe子卡均能实现良好的状态监控效果。
在上述实施方式的基础上,如图3所示,本申请提供的服务器状态监控方法中,步骤104之前,还包括:
步骤106、通过所述基板管理控制器对高速串行计算机扩展总线标准链路上预先注册的所述高速串行计算机扩展总线标准子卡进行管理组件传输协议枚举,建立所述基板管理控制器和所述高速串行计算机扩展总线标准子卡之间的管理组件传输协议链接。
在上述实施方式的基础上,如图4所示,高速串行计算机扩展总线标准子卡包括网卡和磁盘阵列卡,本申请提供的服务器状态监控方法中,步骤106包括:
步骤161、通过所述基板管理控制器对高速串行计算机扩展总线标准链路上预先注册的所述网卡发起管理组件传输协议枚举,得到网卡枚举结果;
步骤162、通过所述基板管理控制器对高速串行计算机扩展总线标准链路上预先注册的所述磁盘阵列卡发起管理组件传输协议枚举,得到磁盘阵列卡枚举结果;
步骤163、为所述网卡枚举结果对应的网卡进行端点身份标识号分配,得到网卡身份标识号分配结果;
步骤164、为所述磁盘阵列卡枚举结果对应的网卡进行端点身份标识号分配,得到磁盘阵列卡身份标识号分配结果;
步骤165、根据所述网卡身份标识号分配结果,对所述网卡和所述基板管理控制器之间进行管理组件传输协议链接建立,得到所述基板管理控制器和所述网卡之间的管理组件传输协议链接;
步骤166、根据所述磁盘阵列卡身份标识号分配结果,对所述磁盘阵列卡和所述基板管理控制器之间进行管理组件传输协议链接建立,得到所述基板管理控制器和所述磁盘阵列卡之间的管理组件传输协议链接,其中,所述基板管理控制器和所述网卡之间的管理组件传输协议链接、所述基板管理控制器和所述磁盘阵列卡之间的管理组件传输协议链接所处的管理组件传输协议网络相同。
具体的,本申请提供的服务器状态监控方法中,在构建PCIe子卡监控线程,例如raid卡监控线程和网卡监控线程前,还能通过MCTP枚举的方式建立BMC和预先向PCIe链路注册后的PCIe子卡的MCTP连接。
当服务器上电之后,PCIe子卡向PCIe链路注册后,首先BMC对PCIe子卡发起MCTP枚举,发现注册在PCIe链路上的多个PCIe子卡。随后,BMC接收到这些PCIe子卡发出的响应信息后,为这些PCIe子卡分配EID,从而构建BMC和PCIe子卡之间的MCTP链接。
举例来说,服务器中的PCIe子卡包括网卡和raid子卡,raid卡和网卡预先向PCIe链路注册。当BMC通过PCIe链路的设备及MCTP协议,例如MCTP over PCIe协议的bus ower对向PCIe链路注册后挂在PCIe链路上的网卡和raid卡发起MCTP枚举时,网卡和raid卡向BMC发出响应。随后,BMC为网卡分配EID,建立BMC和网卡之间的MCTP连接,BMC为raid卡分配EID,建立BMC和raid卡之间的MCTP连接,其中,网卡的MCTP链接和raid卡的MCTP链接均处于相同的MCTP网络中。
在上述实施方式的基础上,如图5所示,本申请提供的服务器状态监控方法中,步骤161之前,还包括:
步骤167、将所述网卡向所述高速串行计算机扩展总线标准链路注册,得到注册后的所述网卡;
步骤168、将所述磁盘阵列卡向所述高速串行计算机扩展总线标准链路注册,得到注册后的所述磁盘阵列卡。
具体的,本申请提供的服务器状态监控方法中,在BMC向PCIe链路发起MCTP枚举之前,服务器中的PCIe子卡向PCIe链路注册。此时,网卡、raid卡等PCIe子卡均完成PCIe链路的注册,挂在PCIe链路上。供后续BMC对这些PCIe子卡发起MCTP枚举,发现这些PCIe子卡设备。
在上述实施方式的基础上,如图6所示,服务器状态信息包括硬盘状态信息和硬盘背板状态信息,本申请提供的服务器状态监控方法中,步骤102包括:
步骤121、根据所述硬盘状态信息进行故障告警判断,得到硬盘的所述故障告警判断结果;
步骤122、根据所述硬盘背板状态信息进行故障告警判断,得到硬盘背板的所述故障告警判断结果。
具体的,本申请提供的服务器状态监控方法中,当获取服务器状态信息,本申请还能够对服务器中的硬盘、硬盘背板等部件进行状态信息的监控。
首先,根据服务器状态信息中的硬盘状态信息进行故障告警判断,得到硬盘状态信息对应的故障告警判断结果,根据服务器状态信息中的硬盘背板状态信息进行故障告警判断,得到硬盘背板状态信息对应的故障告警判断结果。当故障告警判断结果为存在硬盘故障或硬盘背板故障时,通过AEN进行事件上报,完成服务器的状态监控。
在上述实施方式的基础上,如图7所示,本申请提供的服务器状态监控方法中,步骤103之后,还包括:
步骤108、根据所述第一服务器状态监控结果对应的所述异步事件通知通过所述基板管理控制器进行筛选识别,得到硬盘对应的所述异步事件通知;
步骤109、根据所述硬盘对应的所述异步事件通知通过所述基板管理控制器进行事件上报,得到第二服务器状态监控结果。
具体的,本申请提供的服务器状态监控方法中,当本申请通过raid卡和BMC协同完成故障信息的上报时,首先raid卡对服务器状态信息进行监控,当监控到硬盘发生故障或是硬盘即将发生故障时,通过AEN将raid监控到的事件上报给BMC。随后,BMC接收raid卡上报的AEN事件,并对这些AEN事件进行筛选识别,得到硬盘相关的故障信息,例如硬盘对应的AEN事件,并通过BMC的告警机制将硬盘对应的AEN事件上报给对应的服务器管理软件或web,实现对服务器中硬盘的状态监控的效果。
同样的,BMC还能从raid卡上报的AEN事件筛选识别得到硬盘背板相关的故障信息,例如硬盘背板对应的AEN事件,并通过BMC的告警机制将硬盘背板对应的AEN事件上报给对应的服务器管理软件或web,实现对服务器中硬盘背板的状态监控的效果。
在上述实施方式的基础上,如图8-图10所示,本申请还提供一种服务器状态监控流程示例:
如图8所示为本申请技术方案提及的一种服务器状态监控系统示例,服务器状态监控系统包括BMC、平台控制器中心(Platform Controller Hub,PCH)和需要进行状态监控的服务器,服务器内部设置有网卡、raid卡等PCIe子卡,还有硬盘及硬盘背板。硬盘背板通过串行高级技术附件(Serial Advanced Technology Attachment,SATA)接口与硬盘驱动器(Hard Disk Drive,HDD)相连,通过SATA接口与固态硬盘(Solid State DriveSolidState Drive,SSD)相连,或者通过非易失性内存主机控制器接口规范(Non-VolatileMemory express,NVMe)接口与SSD相连,通过串行小型计算机系统(Serial AttachedSmall Computer System Interface,SAS)接口与HDD相连。BMC与PCH通过MCTP over PCIe进行通信交互,PCH与网卡、raid卡通过MCTP over PCIe进行通信交互。raid卡能够从硬盘背板获取服务器各个硬盘的状态信息和硬盘背板的状态信息,当这些状态信息存在硬盘或硬盘背板故障信息时,raid卡能够将这些信息通过AEN上报到PCH,并通过AEN上报到BMC。由BMC对这些AEN事件进行筛选识别,并通过BMC的告警机制上报到服务器管理软件或网页。
如图9所示为本申请技术方案提及的一种服务器状态监控步骤示例,当服务器上电后,首先BMC对挂在PCIe链路上的网卡、raid卡等PCIe子卡发起MCTP枚举,接收这些PCIe子卡的响应信息,并对这些PCIe子卡进行EID分配,构建BMC和PCIe子卡之间的MCTP链路。随后,BMC利用MCTP协议,获取这些挂在PCIe链路上的PCIe子卡的厂商信息,根据这些PCIe厂商信息确定对应的PCIe子卡类型,根据这些PCIe子卡类型拉起对应的监控线程。相比现有的BMC raid卡监控线程轮询从raid卡获取硬盘背板和硬盘的状态信息的方案,本申请对于这些支持AEN的raid卡,BMC通过raid卡驱动向raid卡注册AEN。当raid卡监控到硬盘状态信息和硬盘背板状态信息中存在发生故障的信息或将要发生故障的信息时,raid卡通过AEN将这些故障信息上报到BMC。最后,BMC接收raid卡上报的AEN时间,并通过筛选识别的方式从这些信息中获取硬盘相关的故障信息,并通过BMC告警机制将这些信息上报到服务器管理软件或web,实现告警效果。
如图10所示为本申请技术方案提及的一种服务器状态监控流程交互示例,BMC内部包括raid卡监控线程和raid卡驱动。首先raid卡监控工线程向raid卡驱动发送回调函数接口(CallbackApi)的指令,例如记录(register)AEN指令,随后,raid驱动通过在高速串行计算机扩展总线标准上的管理组件传输协议(MCTP over PCIe)将register AEN对应的报文转发给PCH,并由PCH通过MCTP over PCIe将register AEN对应的信息发送给raid卡。当raid卡监控到硬盘告警事件后,通过MCTP over PCIe将事件发送给PCH,并由PCH通过MCTPover PCIe将事件对应的报文转发给BMC中的raid卡驱动,当BMC中的raid卡驱动检测到报文中存在AEN事件上报调用注册回调函数时,由raid卡驱动将AEN事件发送给raid卡监控线程,并由BMC中的raid卡监控线程执行故障上报到服务器管理软件的动作。
本申请的第二实施方式涉及一种服务器状态监控装置,如图11所示,包括:
状态信息获取模块201,用于通过基板管理控制器,根据预先建立的高速串行计算机扩展总线标准子卡的监控线程从服务器获取服务器状态信息,其中,所述服务器预先通过所述磁盘阵列卡驱动进行异步事件通知注册;
故障告警判断模块202,用于根据所述服务器状态信息进行故障告警判断,得到故障告警判断结果;
第一状态监控模块203,用于当所述故障告警判断结果为所述服务器状态信息包括告警信息时,通过所述异步事件通知进行事件上报,得到第一服务器状态监控结果。
在上述实施方式的基础上,本申请提供的服务器状态监控装置中,还包括:
类型信息确定模块,用于通过管理组件传输协议标准命令,根据预先建立的管理组件传输协议链路确定高速串行计算机扩展总线标准子卡的厂商信息和类型信息;
监控线程生成模块,用于根据所述高速串行计算机扩展总线标准子卡的厂商信息和类型信息生成所述高速串行计算机扩展总线标准子卡的监控线程。
在上述实施方式的基础上,本申请提供的服务器状态监控装置中,还包括:
链接建立模块,用于通过所述基板管理控制器对高速串行计算机扩展总线标准链路上预先注册的所述高速串行计算机扩展总线标准子卡进行管理组件传输协议枚举,建立所述基板管理控制器和所述高速串行计算机扩展总线标准子卡之间的管理组件传输协议链接。
在上述实施方式的基础上,高速串行计算机扩展总线标准子卡包括网卡和磁盘阵列卡,本申请提供的服务器状态监控装置中,链接建立模块包括:
网卡枚举单元,用于通过所述基板管理控制器对高速串行计算机扩展总线标准链路上预先注册的所述网卡发起管理组件传输协议枚举,得到网卡枚举结果;
磁盘阵列卡枚举单元,用于通过所述基板管理控制器对高速串行计算机扩展总线标准链路上预先注册的所述磁盘阵列卡发起管理组件传输协议枚举,得到磁盘阵列卡枚举结果;
网卡标识号分配单元,用于为所述网卡枚举结果对应的网卡进行端点身份标识号分配,得到网卡身份标识号分配结果;
磁盘阵列卡标识号分配单元,用于为所述磁盘阵列卡枚举结果对应的网卡进行端点身份标识号分配,得到磁盘阵列卡身份标识号分配结果;
网卡链接生成单元,用于根据所述网卡身份标识号分配结果,对所述网卡和所述基板管理控制器之间进行管理组件传输协议链接建立,得到所述基板管理控制器和所述网卡之间的管理组件传输协议链接;
磁盘阵列卡链接生成单元,用于根据所述磁盘阵列卡身份标识号分配结果,对所述磁盘阵列卡和所述基板管理控制器之间进行管理组件传输协议链接建立,得到所述基板管理控制器和所述磁盘阵列卡之间的管理组件传输协议链接,其中,所述基板管理控制器和所述网卡之间的管理组件传输协议链接、所述基板管理控制器和所述磁盘阵列卡之间的管理组件传输协议链接所处的管理组件传输协议网络相同。
在上述实施方式的基础上,本申请提供的服务器状态监控装置中,还包括:
网卡注册单元,用于将所述网卡向所述高速串行计算机扩展总线标准链路注册,得到注册后的所述网卡;
磁盘阵列卡注册单元,用于将所述磁盘阵列卡向所述高速串行计算机扩展总线标准链路注册,得到注册后的所述磁盘阵列卡。
在上述实施方式的基础上,本申请提供的服务器状态监控装置中,故障告警判断模块202包括:
硬盘告警判断单元,用于根据所述硬盘状态信息进行故障告警判断,得到硬盘的所述故障告警判断结果;
硬盘背板告警判断单元,用于根据所述硬盘背板状态信息进行故障告警判断,得到硬盘背板的所述故障告警判断结果。
在上述实施方式的基础上,本申请提供的服务器状态监控装置中,还包括:
异步事件通知筛选模块,用于根据所述第一服务器状态监控结果对应的所述异步事件通知通过所述基板管理控制器进行筛选识别,得到硬盘对应的所述异步事件通知;
第二状态监控模块,用于根据所述硬盘对应的所述异步事件通知通过所述基板管理控制器进行事件上报,得到第二服务器状态监控结果。
本申请的第三实施方式涉及一种电子设备,如图12所示,包括:
至少一个处理器301;以及,
与所述至少一个处理器301通信连接的存储器302;其中,
所述存储器302存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器301执行,以使所述至少一个处理器301能够实现本申请第一实施方式所述的服务器状态监控方法。
其中,存储器和处理器采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器。
处理器负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。
本申请第四实施方式涉及一种非易失性计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现本申请第一实施方式所述的服务器状态监控方法。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员在考虑说明书及实践这里公开的申请后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (10)
1.一种服务器状态监控方法,其特征在于,所述方法包括:
通过基板管理控制器,根据预先建立的高速串行计算机扩展总线标准子卡的监控线程从服务器获取服务器状态信息,其中,所述服务器预先通过磁盘阵列卡驱动进行异步事件通知注册;
根据所述服务器状态信息进行故障告警判断,得到故障告警判断结果;
当所述故障告警判断结果为所述服务器状态信息包括告警信息时,通过所述异步事件通知进行事件上报,得到第一服务器状态监控结果。
2.根据权利要求1所述的方法,其特征在于,所述通过基板管理控制器,根据预先建立的高速串行计算机扩展总线标准子卡的监控线程从服务器获取服务器状态信息之前,还包括:
通过管理组件传输协议标准命令,根据预先建立的管理组件传输协议链路确定高速串行计算机扩展总线标准子卡的厂商信息和类型信息;
根据所述高速串行计算机扩展总线标准子卡的厂商信息和类型信息生成所述高速串行计算机扩展总线标准子卡的监控线程。
3.根据权利要求2所述的方法,其特征在于,所述通过管理组件传输协议标准命令,根据预先建立的管理组件传输协议链路确定高速串行计算机扩展总线标准子卡的厂商信息和类型信息之前,还包括:
通过所述基板管理控制器对高速串行计算机扩展总线标准链路上预先注册的所述高速串行计算机扩展总线标准子卡进行管理组件传输协议枚举,建立所述基板管理控制器和所述高速串行计算机扩展总线标准子卡之间的管理组件传输协议链接。
4.根据权利要求3所述的方法,其特征在于,所述高速串行计算机扩展总线标准子卡包括网卡和磁盘阵列卡,所述通过所述基板管理控制器对高速串行计算机扩展总线标准链路上预先注册的高速串行计算机扩展总线标准子卡进行管理组件传输协议枚举,建立所述基板管理控制器和所述高速串行计算机扩展总线标准子卡之间的管理组件传输协议链包括:
通过所述基板管理控制器对高速串行计算机扩展总线标准链路上预先注册的所述网卡发起管理组件传输协议枚举,得到网卡枚举结果;
通过所述基板管理控制器对高速串行计算机扩展总线标准链路上预先注册的所述磁盘阵列卡发起管理组件传输协议枚举,得到磁盘阵列卡枚举结果;
为所述网卡枚举结果对应的网卡进行端点身份标识号分配,得到网卡身份标识号分配结果;
为所述磁盘阵列卡枚举结果对应的网卡进行端点身份标识号分配,得到磁盘阵列卡身份标识号分配结果;
根据所述网卡身份标识号分配结果,对所述网卡和所述基板管理控制器之间进行管理组件传输协议链接建立,得到所述基板管理控制器和所述网卡之间的管理组件传输协议链接;
根据所述磁盘阵列卡身份标识号分配结果,对所述磁盘阵列卡和所述基板管理控制器之间进行管理组件传输协议链接建立,得到所述基板管理控制器和所述磁盘阵列卡之间的管理组件传输协议链接,其中,所述基板管理控制器和所述网卡之间的管理组件传输协议链接、所述基板管理控制器和所述磁盘阵列卡之间的管理组件传输协议链接所处的管理组件传输协议网络相同。
5.根据权利要求4所述的方法,其特征在于,所述通过所述基板管理控制器对高速串行计算机扩展总线标准链路上预先注册的所述网卡发起管理组件传输协议枚举,得到网卡枚举结果之前,还包括:
将所述网卡向所述高速串行计算机扩展总线标准链路注册,得到注册后的所述网卡;
将所述磁盘阵列卡向所述高速串行计算机扩展总线标准链路注册,得到注册后的所述磁盘阵列卡。
6.根据权利要求1所述的方法,其特征在于,所述服务器状态信息包括硬盘状态信息和硬盘背板状态信息,所述根据所述服务器状态信息进行故障告警判断,得到故障告警判断结果包括:
根据所述硬盘状态信息进行故障告警判断,得到硬盘的所述故障告警判断结果;
根据所述硬盘背板状态信息进行故障告警判断,得到硬盘背板的所述故障告警判断结果。
7.根据权利要求1所述的方法,其特征在于,所述当所述故障告警判断结果为所述服务器状态信息包括告警信息时,通过所述异步事件通知进行事件上报,得到第一服务器状态监控结果之后,还包括:
根据所述第一服务器状态监控结果对应的所述异步事件通知通过所述基板管理控制器进行筛选识别,得到硬盘对应的所述异步事件通知;
根据所述硬盘对应的所述异步事件通知通过所述基板管理控制器进行事件上报,得到第二服务器状态监控结果。
8.一种服务器状态监控装置,其特征在于,包括:
状态信息获取模块,用于通过基板管理控制器,根据预先建立的高速串行计算机扩展总线标准子卡的监控线程从服务器获取服务器状态信息,其中,所述服务器预先通过磁盘阵列卡驱动进行异步事件通知注册;
故障告警判断模块,用于根据所述服务器状态信息进行故障告警判断,得到故障告警判断结果;
第一状态监控模块,用于当所述故障告警判断结果为所述服务器状态信息包括告警信息时,通过所述异步事件通知进行事件上报,得到第一服务器状态监控结果。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1-7任一项所述的服务器状态监控方法的步骤。
10.一种可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的服务器状态监控方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410039421.9A CN117992302A (zh) | 2024-01-10 | 2024-01-10 | 服务器状态监控方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410039421.9A CN117992302A (zh) | 2024-01-10 | 2024-01-10 | 服务器状态监控方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117992302A true CN117992302A (zh) | 2024-05-07 |
Family
ID=90896884
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410039421.9A Pending CN117992302A (zh) | 2024-01-10 | 2024-01-10 | 服务器状态监控方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117992302A (zh) |
-
2024
- 2024-01-10 CN CN202410039421.9A patent/CN117992302A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106603265B (zh) | 管理方法、网络装置以及非暂态计算机可读介质 | |
US10606725B2 (en) | Monitor peripheral device based on imported data | |
US4729124A (en) | Diagnostic system | |
CN104639380A (zh) | 服务器监控方法 | |
US20080140895A1 (en) | Systems and Arrangements for Interrupt Management in a Processing Environment | |
CN109245966A (zh) | 云平台的服务状态的监控方法和装置 | |
CN111008026B (zh) | 集群管理方法、装置及系统 | |
CN117389790B (zh) | 可恢复故障的固件检测系统、方法、存储介质及服务器 | |
CN111176952A (zh) | 一种i2c通道的监测方法、监测系统及相关装置 | |
CN111581043A (zh) | 服务器功耗的监控方法、装置和服务器 | |
US6584432B1 (en) | Remote diagnosis of data processing units | |
CN109032867A (zh) | 一种故障诊断方法、装置及设备 | |
CN115543872A (zh) | 一种设备管理方法、装置及计算机存储介质 | |
JP2003173272A (ja) | 情報処理システム,情報処理装置及び保守センタ | |
JP6504610B2 (ja) | 処理装置、方法及びプログラム | |
CN117251333A (zh) | 一种硬盘信息获取方法、装置、设备及存储介质 | |
CN117453036A (zh) | 调整服务器中的设备的功耗的方法、系统及装置 | |
CN117992302A (zh) | 服务器状态监控方法、装置、电子设备及存储介质 | |
CN110752939B (zh) | 一种业务进程故障处理方法、通知方法和装置 | |
EP0962862B1 (en) | Apparatus and method for remote diagnostic of data processing units | |
CN113076210A (zh) | 服务器故障诊断结果通知方法、系统、终端及存储介质 | |
CN112162887A (zh) | 存储设备及其机框共享部件访问方法、装置、存储介质 | |
CN111416721A (zh) | 运用于数据中心的机柜异常状态的远端排除方法 | |
CN110096412A (zh) | 一种服务器监控方法、装置、设备及介质 | |
US20070050666A1 (en) | Computer Network System and Related Method for Monitoring a Server |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination |