CN116846790A - 一种服务器异常监控方法、装置、设备及存储介质 - Google Patents

一种服务器异常监控方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116846790A
CN116846790A CN202310790380.2A CN202310790380A CN116846790A CN 116846790 A CN116846790 A CN 116846790A CN 202310790380 A CN202310790380 A CN 202310790380A CN 116846790 A CN116846790 A CN 116846790A
Authority
CN
China
Prior art keywords
data
server
serial peripheral
peripheral storage
management controller
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310790380.2A
Other languages
English (en)
Inventor
王连香
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202310790380.2A priority Critical patent/CN116846790A/zh
Publication of CN116846790A publication Critical patent/CN116846790A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • H04L43/045Processing captured monitoring data, e.g. for logfile generation for graphical visualisation of monitoring data

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Environmental & Geological Engineering (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Programmable Controllers (AREA)

Abstract

本申请公开了一种服务器异常监控方法、装置、设备及存储介质,涉及计算机技术领域。应用于复杂可编程逻辑器件,包括:获取目标组件输出的关键信号并将其数据状态逐一写入复杂可编程逻辑器件下挂的非易失性串行外围存储设备中;判断服务器当前是否发生异常事件;如果当前没有发生异常事件,则实时更新关键信号的数据状态;如果当前发生异常事件,则基于非易失性串行外围存储设备中的数据得到目标数据,然后将目标数据上报基板管理控制器,以便基板管理控制器利用预设数据可视化模块将目标数据进行数据图形化展示。通过本申请的技术方案,可以实现直观地监控服务器异常数据,即使服务器断电,依然可保证数据不丢失。

Description

一种服务器异常监控方法、装置、设备及存储介质
技术领域
本发明涉及计算机技术领域,特别涉及一种服务器异常监控方法、装置、设备及存储介质。
背景技术
目前,服务器CPLD(Complex Programmable Logic Device,复杂可编程逻辑器件)能够实现通过GPIO(General Purpose Input Output,通用输入输出管脚)监控服务器异常发生,并将异常事件锁存到寄存器中,等待BMC(Baseboard Manager Controller,基板管理控制器)轮询读取。BMC最终将读取后的寄存器数据及故障名称展示在日志中,以便维护人员查看日志排查异常。此种异常排查方式存在两种问题:
1、需要维护人员下载故障日志数据并逐一分析,才能排查出真正触发服务器异常的信号,耗时较长并且不够直观。
2、CPLD寄存器在服务器断AC(Alternating Current,交流电)后,数据会丢失。若BMC在异常发生后未能及时读到异常数据,会导致维护人员无法根据数据信息定位问题。
因此,如何提供一种解决上述技术问题的方案是本领域技术人员目前需要解决的问题。
发明内容
有鉴于此,本发明的目的在于提供一种服务器异常监控方法、装置、设备及存储介质,能够实现直观地监控服务器异常数据,即使服务器断AC后,依然可保证数据不丢失。其具体方案如下:
第一方面,本申请公开了一种服务器异常监控方法,应用于复杂可编程逻辑器件,包括:
获取目标组件输出的关键信号,并将所述关键信号的数据状态逐一写入所述复杂可编程逻辑器件下挂的非易失性串行外围存储设备中;所述目标组件为服务器中通过基板管理控制器监控的组件;
判断所述服务器当前是否发生异常事件;
如果所述服务器当前没有发生所述异常事件,则实时更新所述非易失性串行外围存储设备中所述关键信号的数据状态;
如果所述服务器当前发生所述异常事件,则基于所述非易失性串行外围存储设备中的数据得到目标数据,然后将所述目标数据上报所述基板管理控制器,以便所述基板管理控制器利用预设数据可视化模块将所述目标数据进行数据图形化展示。
可选的,所述获取目标组件输出的关键信号,并将所述关键信号的数据状态逐一写入所述复杂可编程逻辑器件下挂的非易失性串行外围存储设备中之前,还包括:
在所述复杂可编程逻辑器件的通用输入输出管脚中,通过串行外设接口信号线下挂所述非易失性串行外围存储设备;
通过主设备输出从设备输入信号、主设备输入从设备输出信号、时钟信号以及从设备使能信号连接至所述非易失性串行外围存储设备,以控制所述非易失性串行外围存储设备的数据存放和数据读取。
可选的,所述获取目标组件输出的关键信号,并将所述关键信号的数据状态逐一写入所述复杂可编程逻辑器件下挂的非易失性串行外围存储设备中,包括:
获取目标组件输出的关键信号,并在所述关键信号的数量达到第一预设数量后,生成包含所述第一预设数量的所述关键信号的目标监控信号组;
按照预设时间间隔,将所述目标监控信号组中每个关键信号的数据状态逐一写入所述复杂可编程逻辑器件下挂的非易失性串行外围存储设备中;
相应的,所述如果所述服务器当前没有发生所述异常事件,则实时更新所述非易失性串行外围存储设备中所述关键信号的数据状态,包括:
如果所述服务器当前没有发生所述异常事件,判断所述非易失性串行外围存储设备中所述关键信号的数据状态的数量是否超过所述第一预设数量;
当所述关键信号的数据状态的数量不超过所述第一预设数量时,将所述新增关键信号的数据状态持续写入所述非易失性串行外围存储设备;
当所述关键信号的数据状态的数量超过所述第一预设数量时,利用当前获取的新增关键信号的数据状态,按照所述目标监控信号组中关键信号获取时间的先后顺序,逐一对所述关键信号进行实时更新。
可选的,所述获取目标组件输出的关键信号,并将所述关键信号的数据状态逐一写入所述复杂可编程逻辑器件下挂的非易失性串行外围存储设备中,包括:
获取中央处理器输出的关键信号,并将所述关键信号的数据状态逐一写入所述复杂可编程逻辑器件下挂的非易失性串行外围存储设备中。
可选的,所述如果所述服务器当前发生所述异常事件,则基于所述非易失性串行外围存储设备中的数据得到目标数据,然后将所述目标数据上报所述基板管理控制器,以便所述基板管理控制器利用预设数据可视化模块将所述目标数据进行数据图形化展示,包括:
如果所述服务器当前发生所述异常事件,则基于所述非易失性串行外围存储设备中的数据得到目标数据,然后将所述目标数据通过I2C链路上报所述基板管理控制器,以便所述基板管理控制器利用预设数据可视化模块将所述目标数据进行数据图形化展示。
可选的,所述如果所述服务器当前发生所述异常事件,则基于所述非易失性串行外围存储设备中的数据得到目标数据,然后将所述目标数据上报所述基板管理控制器,以便所述基板管理控制器利用预设数据可视化模块将所述目标数据进行数据图形化展示,包括:
如果所述服务器当前发生所述异常事件,则基于所述非易失性串行外围存储设备中的数据得到目标数据,然后将所述目标数据上报所述基板管理控制器;
通过所述基板管理控制器,利用预设数据可视化模块将时间作为横轴,将所述目标数据的数据变化作为纵轴,在基板管理控制器的网页界面上以图形化波形的形式将所述目标数据进行数据图形化展示。
可选的,所述如果所述服务器当前发生所述异常事件,则基于所述非易失性串行外围存储设备中的数据得到目标数据,然后将所述目标数据上报所述基板管理控制器,以便所述基板管理控制器利用预设数据可视化模块将所述目标数据进行数据图形化展示,包括:
如果所述服务器当前发生所述异常事件,则读取所述异常事件发生前所述非易失性串行外围存储设备中已写入的所有数据以得到第一数据,锁存所述第一数据,并继续读取所述异常事件发生后所述非易失性串行外围存储设备中新写入的第二预设数量的关键信号的数据状态,以得到第二数据;
利用所述第一数据和所述第二数据确定出所述目标数据,并将所述目标数据上报所述基板管理控制器,以便所述基板管理控制器利用预设数据可视化模块将所述目标数据进行数据图形化展示。
第二方面,本申请公开了一种服务器异常监控装置,应用于复杂可编程逻辑器件,包括:
数据写入模块,用于获取目标组件输出的关键信号,并将所述关键信号的数据状态逐一写入所述复杂可编程逻辑器件下挂的非易失性串行外围存储设备中;所述目标组件为服务器中通过基板管理控制器监控的组件;
异常事件判断模块,用于判断所述服务器当前是否发生异常事件;
第一处理模块,用于所述服务器当前没有发生所述异常事件,则实时更新所述非易失性串行外围存储设备中所述关键信号的数据状态;
第二处理模块,用于所述服务器当前发生所述异常事件,则基于所述非易失性串行外围存储设备中的数据得到目标数据,然后将所述目标数据上报所述基板管理控制器,以便所述基板管理控制器利用预设数据可视化模块将所述目标数据进行数据图形化展示。
第三方面,本申请公开了一种电子设备,所述电子设备包括处理器和存储器;其中,所述存储器用于存储计算机程序,所述计算机程序由所述处理器加载并执行以实现如前所述的服务器异常监控方法。
第四方面,本申请公开了一种计算机可读存储介质,用于存储计算机程序;其中所述计算机程序被处理器执行时实现如前所述的服务器异常监控方法。
本申请提供了一种服务器异常监控方法,应用于复杂可编程逻辑器件,包括:获取目标组件输出的关键信号,并将所述关键信号的数据状态逐一写入所述复杂可编程逻辑器件下挂的非易失性串行外围存储设备中;所述目标组件为服务器中通过基板管理控制器监控的组件;判断所述服务器当前是否发生异常事件;如果所述服务器当前没有发生所述异常事件,则实时更新所述非易失性串行外围存储设备中所述关键信号的数据状态;如果所述服务器当前发生所述异常事件,则基于所述非易失性串行外围存储设备中的数据得到目标数据,然后将所述目标数据上报所述基板管理控制器,以便所述基板管理控制器利用预设数据可视化模块将所述目标数据进行数据图形化展示。
本申请的有益效果为:在硬件配置层面,复杂可编程逻辑器件中下挂了非易失性串行外围存储设备;配合复杂可编程逻辑器件与基板管理控制器软件层面,完成服务器异常监控的方法。将复杂可编程逻辑器件监控的关键信号的数据状态逐一写入非易失性串行外围存储设备,如果无异常事件发生,则非易失性串行外围存储设备的数据会被实时更新成最新状态;但若有异常事件发生时,复杂可编程逻辑器件将基于非易失性串行外围存储设备中的数据得到目标数据,然后将目标数据上报给基板管理控制器,基板管理控制器将数据以图形化界面的形式展示,直观的实现监控服务器异常数据,方便维护人员快速定位问题、解决问题。同时,由于非易失性串行外围存储设备具有断电不丢失功能,因此,即使服务器断电,依然可保证数据不丢失。
此外,本申请提供的一种服务器异常监控装置、设备及存储介质,与上述服务器异常监控方法对应,效果同上。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请公开的一种服务器异常监控现有技术方案示意图;
图2为本申请公开的一种服务器异常监控方法流程图;
图3为本申请公开的一种服务器实现异常监控可视化的逻辑框图;
图4为本申请公开的一种服务器异常监控可视化的方法流程图;
图5为本申请公开的一种基板管理控制器实现图形化展示界面示意图;
图6为本申请公开的一种具体的服务器异常监控方法流程图;
图7为本申请公开的一种服务器异常监控装置结构示意图;
图8为本申请公开的一种电子设备结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在服务器硬件设计中,基板管理控制器作为服务器的基本管理平台,主要负责服务器运行过程的策略调控和异常监视,比如通过监视系统的温度、电压、风扇、电源等,并根据获取数据,对服务器运行做出功能运行的调整,以确保系统处于健康稳定运行的状态。而复杂可编程逻辑器件主要负责服务器主板的开关机时序控制、关键信号异常监控及各种指示灯显示控制。两者配合完成服务器运行异常时的故障记录。
在服务器异常监控系统中,基板管理控制器的程序为串行运行,若要快速响应服务器异常信号触发,需使用通用输入输出管脚来触发基板管理控制器的程序中断。但由于基板管理控制器需要监控调节的功能过多,服务器设计中不适合设置过多中断响应异常。而复杂可编程逻辑器件的程序是并行运行架构,随时可响应通用输入输出管脚异常信号的触发。所以,目前服务器设计中一般采用通过复杂可编程逻辑器件监控关键功能信号的异常、并在异常发生后锁存故障事件上报基板管理控制器,如图1所示。基板管理控制器将最终读取后的寄存器数据及故障名称展示在日志中,以便维护人员查看日志排查异常。然而,此种异常排查方式耗时较长并且不够直观;另外,复杂可编程逻辑器件在服务器断电后数据会丢失,如果未能及时读到异常数据,会导致维护人员无法根据数据信息定位问题。
为了解决服务器运行时发生了异常,问题排查困难的现状,本申请提供了一种服务器异常监控方案,能够实现直观地监控服务器异常数据,即使服务器断电后,依然可保证数据不丢失。
本发明实施例公开了一种服务器异常监控方法,参见图2所示,应用于复杂可编程逻辑器件,该方法包括:
步骤S11:获取目标组件输出的关键信号,并将所述关键信号的数据状态逐一写入所述复杂可编程逻辑器件下挂的非易失性串行外围存储设备中;所述目标组件为服务器中通过基板管理控制器监控的组件。
基板管理控制器作为服务器的基本管理平台,主要负责服务器运行过程的策略调控和异常监视,当与复杂可编程逻辑器件配合完成服务器运行异常时的故障记录时,复杂可编程逻辑器件通过通用输入输出管脚监控服务器异常发生,并将异常事件锁存到寄存器中,等待基板管理控制器轮询读取。由于复杂可编程逻辑器件的寄存器在服务器断电后数据会丢失,无法保证能够及时读取到异常数据,因此,本申请实施例中,针对硬件层面进行改动。
如图3所示,在复杂可编程逻辑器件下,下挂一个非易失性串行外围存储设备(Serial Peripheral Interface Flash,SPI Flash)芯片。由于非易失性串行外围存储设备具有断电不丢失功能,即使服务器断电,数据依旧可以保存,因此保证了在监控服务器异常的过程中,即使服务器断电后,数据依然不丢失。具体的,在所述复杂可编程逻辑器件的通用输入输出管脚中,通过串行外设接口(Serial Peripheral Interface,SPI)信号线下挂所述非易失性串行外围存储设备。可以理解的是,本申请不仅适用于服务器异常监控,还适用于其他有非易失性串行外围存储设备的下挂设备的异常数据监控。
需要指出的是,复杂可编程逻辑器件与非易失性串行外围存储设备之间通过主设备输出从设备输入信号(Master Output Slave Input,MOSI)、主设备输入从设备输出信号(Master Input Slave Output,MISO)、时钟信号(Serial Clock,SCLK)以及从设备使能信号(Chip Select,CS)互相连接,复杂可编程逻辑器件作为串行外设接口主端(SPI Master)控制非易失性串行外围存储设备的数据存放和数据读取。
本申请实施例中,获取目标组件输出的关键信号,目标组件即为服务器中通过基板管理控制器监控的组件。在一种具体的实施方式中,假设目标组件为中央处理器(Central Processing Unit,CPU),那么复杂可编程逻辑器件则监控中央处理器的关键信号。进一步的,将所述关键信号的数据状态逐一写入所述复杂可编程逻辑器件下挂的非易失性串行外围存储设备中。如此一来,关键信号的数据状态存储在非易失性串行外围存储设备中,而非存储在复杂可编程逻辑器件的寄存器中。
步骤S12:判断所述服务器当前是否发生异常事件。
本申请实施例中,通过判断服务器是否发生异常事件来确定如何读取非易失性串行外围存储设备中所述关键信号的数据状态。可以理解的是,复杂可编程逻辑器件可以实时监控服务器的开关机状态,且有一些关键信号是必须与关开机状态一致的。因此,复杂可编程逻辑器件可以通过这些信号判断服务器是否存在异常。比如中央处理器发出的开机信号,如果开机状态下开机信号是低电平,就表示服务器异常;比如开机状态下,ERR(ERROR)信号必须是高电平,如果变为了低电平,也属于服务器异常。
示例性的,服务器发生的异常事件可以包括:硬盘掉盘、服务器上电超时或者硬件短路、CPU硬件错误、CPU过热降频、板子温度过热导致的关机等。需要指出的是,不以上述出现的异常事件对本申请实施例进行具体限制,仅是示例性的列举。
步骤S13:如果所述服务器当前没有发生所述异常事件,则实时更新所述非易失性串行外围存储设备中所述关键信号的数据状态。
本申请实施例中,若无异常事件的发生,非易失性串行外围存储设备中的数据定时被刷新,正常情况下可以不对其中的数据进行读取,当有异常发生的时候才通过基板管理控制器进行读取。
步骤S14:如果所述服务器当前发生所述异常事件,则基于所述非易失性串行外围存储设备中的数据得到目标数据,然后将所述目标数据上报所述基板管理控制器,以便所述基板管理控制器利用预设数据可视化模块将所述目标数据进行数据图形化展示。
如果所述服务器当前发生所述异常事件,则读取所述异常事件发生前所述非易失性串行外围存储设备中已写入的所有数据以得到第一数据,锁存所述第一数据,并继续读取所述异常事件发生后所述非易失性串行外围存储设备中新写入的第二预设数量的关键信号的数据状态,以得到第二数据;利用所述第一数据和所述第二数据确定出所述目标数据,并将所述目标数据上报所述基板管理控制器,以便所述基板管理控制器利用预设数据可视化模块将所述目标数据进行数据图形化展示。
本申请实施例中,若有异常事件的发生,则复杂可编程逻辑器件将锁存非易失性串行外围存储设备中的所有数据,并继续读取关键信号的数据状态。读取完毕后,将异常事件发生前后的数据均上报给基板管理控制器,基板管理控制器利用预设数据可视化模块,将得到的目标数据以图形化界面的形式展示,方便维护人员快速定位问题。
需要指出的是,复杂可编程逻辑器件与基板管理控制器通过I2C链路进行通信。在异常发生后,复杂可编程逻辑器件触发中断给基板管理控制器,基板管理控制器读取异常发生前后得到的目标数据,并将目标数据以图形化的形式进行展示。可以理解的是,复杂可编程逻辑器件与基板管理控制器通过一个通用输入输出管脚相连,默认高电平。当通用输入输出管脚电平发生变化时(有下降沿时),说明有异常发生,此时基板管理控制器立即响应,通过I2C链路即可以从复杂可编程逻辑器件中读取关键数据。
本申请提供了一种服务器异常监控方法,应用于复杂可编程逻辑器件,包括:获取目标组件输出的关键信号,并将所述关键信号的数据状态逐一写入所述复杂可编程逻辑器件下挂的非易失性串行外围存储设备中;所述目标组件为服务器中通过基板管理控制器监控的组件;判断所述服务器当前是否发生异常事件;如果所述服务器当前没有发生所述异常事件,则实时更新所述非易失性串行外围存储设备中所述关键信号的数据状态;如果所述服务器当前发生所述异常事件,则基于所述非易失性串行外围存储设备中的数据得到目标数据,然后将所述目标数据上报所述基板管理控制器,以便所述基板管理控制器利用预设数据可视化模块将所述目标数据进行数据图形化展示。
本申请的有益效果为:在硬件配置层面,复杂可编程逻辑器件中下挂了非易失性串行外围存储设备;配合复杂可编程逻辑器件与基板管理控制器软件层面,完成服务器异常监控的方法。将复杂可编程逻辑器件监控的关键信号的数据状态逐一写入非易失性串行外围存储设备,如果无异常事件发生,则非易失性串行外围存储设备的数据会被实时更新成最新状态;但若有异常事件发生时,复杂可编程逻辑器件将基于非易失性串行外围存储设备中的数据得到目标数据,然后将目标数据上报给基板管理控制器,基板管理控制器将数据以图形化界面的形式展示,直观的实现监控服务器异常数据,方便维护人员快速定位问题、解决问题。同时,由于非易失性串行外围存储设备具有断电不丢失功能,因此,即使服务器断电,依然可保证数据不丢失。
在一种具体的实施方式中,针对步骤S14,所述如果所述服务器当前发生所述异常事件,则基于所述非易失性串行外围存储设备中的数据得到目标数据,然后将所述目标数据上报所述基板管理控制器,以便所述基板管理控制器利用预设数据可视化模块将所述目标数据进行数据图形化展示,如图4所示,进一步包括:
步骤S141:如果所述服务器当前发生所述异常事件,则基于所述非易失性串行外围存储设备中的数据得到目标数据,然后将所述目标数据上报所述基板管理控制器。
其中,关于上述步骤S141更加具体的处理过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
步骤S142:通过所述基板管理控制器,利用预设数据可视化模块将时间作为横轴,将所述目标数据的数据变化作为纵轴,在基板管理控制器的网页界面上以图形化波形的形式将所述目标数据进行数据图形化展示。
本申请实施例中,针对基板管理控制器软件方面的改动,通过预设数据可视化模块,以时间轴为横轴,以数据变化为纵轴,在基板管理控制器的网页界面(BMC WEB)以图形化波形的形式展示出异常发生界面,如图5所示。
可见,通过本申请实施例,不再需要维护人员下载故障日志数据并逐一分析,才能排查出真正触发服务器异常的信号。直接通过预设数据可视化模块直观地将异常发生前后的数据进行展示,实现服务器异常监控的可视化,节省时间。
本申请实施例公开了一种具体的服务器异常监控方法,参见图6所示,该方法包括:
步骤S21:获取目标组件输出的关键信号,并在所述关键信号的数量达到第一预设数量后,生成包含所述第一预设数量的所述关键信号的目标监控信号组。
步骤S22:按照预设时间间隔,将所述目标监控信号组中每个关键信号的数据状态逐一写入所述复杂可编程逻辑器件下挂的非易失性串行外围存储设备中。
本申请实施例中,复杂可编程逻辑器件将监控的服务器所有关键信号的数据状态定时以组的形式逐一写入非易失性串行外围存储设备中,其中,一组的数据量可以根据不同项目需求进行扩充或缩减。示例性的,保持非易失性串行外围存储设备中始终有50组的数据不断被刷新。
步骤S23:判断所述服务器当前是否发生异常事件。
其中,关于上述步骤S23更加具体的处理过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
步骤S24:如果所述服务器当前没有发生所述异常事件,判断所述非易失性串行外围存储设备中所述关键信号的数据状态的数量是否超过所述第一预设数量。
步骤S25:当所述关键信号的数据状态的数量不超过所述第一预设数量时,将所述新增关键信号的数据状态持续写入所述非易失性串行外围存储设备。
本申请实施例中,为了保证非易失性串行外围存储设备中始终有预设数量的数据,将获取的新增关键信号的数据状态持续写入所述非易失性串行外围存储设备。可以理解的是,由于所有关键信号都是固定的,复杂可编程逻辑器件是并行抓取数据的,因此复杂可编程逻辑器件会定时抓取数据并写入非易失性串行外围存储设备中,不会存在一组数据内有数据未抓取的情况。
步骤S26:当所述关键信号的数据状态的数量超过所述第一预设数量时,利用当前获取的新增关键信号的数据状态,按照所述目标监控信号组中关键信号获取时间的先后顺序,逐一对所述关键信号进行实时更新。
本申请实施例中,非易失性串行外围存储设备中的数据会被实时更新成最新状态,当获取的数据超过50组后,按照获取数据的时间先后顺序逐一对关键信号的数据状态进行实时更新,保证始终有50组数据不断被刷新。
步骤S27:如果所述服务器当前发生所述异常事件,则基于所述非易失性串行外围存储设备中的数据得到目标数据,然后将所述目标数据上报所述基板管理控制器,以便所述基板管理控制器利用预设数据可视化模块将所述目标数据进行数据图形化展示。
示例性的,由于步骤S22中保持非易失性串行外围存储设备中始终有50组的数据不断被刷新,当异常发生后,复杂可编程逻辑器件将目前所有异常数据锁存,并继续读取50组数据,锁存在非易失性串行外围存储设备中。那么,基板管理控制器将读取到异常发生前后的100组数据,并将数据以图形化的界面展示在BMC WEB中。需要指出的是,异常发生后,不删除异常发生之前的数据,如此一来,才可以将这100组数据都上报给BMC,进而绘制异常发生前后的图形。
本申请实施例的有益效果为:在硬件配置层面,复杂可编程逻辑器件中下挂了非易失性串行外围存储设备;配合复杂可编程逻辑器件与基板管理控制器软件层面,完成服务器异常监控的方法。将复杂可编程逻辑器件监控的关键信号的数据状态逐一写入非易失性串行外围存储设备,如果无异常事件发生,则非易失性串行外围存储设备的数据会被实时更新成最新状态;但若有异常事件发生时,复杂可编程逻辑器件将基于非易失性串行外围存储设备中的数据得到目标数据,然后将目标数据上报给基板管理控制器,基板管理控制器将数据以图形化界面的形式展示,直观的实现监控服务器异常数据,方便维护人员快速定位问题、解决问题。同时,由于非易失性串行外围存储设备具有断电不丢失功能,因此,即使服务器断电,依然可保证数据不丢失。
相应的,本申请实施例还公开了一种服务器异常监控装置,应用于复杂可编程逻辑器件,参见图7所示,该装置包括:
数据写入模块11,用于获取目标组件输出的关键信号,并将所述关键信号的数据状态逐一写入所述复杂可编程逻辑器件下挂的非易失性串行外围存储设备中;所述目标组件为服务器中通过基板管理控制器监控的组件;
异常事件判断模块12,用于判断所述服务器当前是否发生异常事件;
第一处理模块13,用于所述服务器当前没有发生所述异常事件,则实时更新所述非易失性串行外围存储设备中所述关键信号的数据状态;
第二处理模块14,用于所述服务器当前发生所述异常事件,则基于所述非易失性串行外围存储设备中的数据得到目标数据,然后将所述目标数据上报所述基板管理控制器,以便所述基板管理控制器利用预设数据可视化模块将所述目标数据进行数据图形化展示。
其中,关于上述各个模块更加具体的工作过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
由此可见,通过本实施例的上述方案,应用于复杂可编程逻辑器件,包括:获取目标组件输出的关键信号,并将所述关键信号的数据状态逐一写入所述复杂可编程逻辑器件下挂的非易失性串行外围存储设备中;所述目标组件为服务器中通过基板管理控制器监控的组件;判断所述服务器当前是否发生异常事件;如果所述服务器当前没有发生所述异常事件,则实时更新所述非易失性串行外围存储设备中所述关键信号的数据状态;如果所述服务器当前发生所述异常事件,则基于所述非易失性串行外围存储设备中的数据得到目标数据,然后将所述目标数据上报所述基板管理控制器,以便所述基板管理控制器利用预设数据可视化模块将所述目标数据进行数据图形化展示。
本申请的有益效果为:在硬件配置层面,复杂可编程逻辑器件中下挂了非易失性串行外围存储设备;配合复杂可编程逻辑器件与基板管理控制器软件层面,完成服务器异常监控的方法。将复杂可编程逻辑器件监控的关键信号的数据状态逐一写入非易失性串行外围存储设备,如果无异常事件发生,则非易失性串行外围存储设备的数据会被实时更新成最新状态;但若有异常事件发生时,复杂可编程逻辑器件将基于非易失性串行外围存储设备中的数据得到目标数据,然后将目标数据上报给基板管理控制器,基板管理控制器将数据以图形化界面的形式展示,直观的实现监控服务器异常数据,方便维护人员快速定位问题、解决问题。同时,由于非易失性串行外围存储设备具有断电不丢失功能,因此,即使服务器断电,依然可保证数据不丢失。
进一步的,本申请实施例还公开了一种电子设备,图8是根据一示例性实施例示出的电子设备20结构图,图中内容不能认为是对本申请的使用范围的任何限制。
图8为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20,具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任一实施例公开的服务器异常监控方法中的相关步骤。另外,本实施例中的电子设备20具体可以为计算机。
本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口24能够为电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源可以包括操作系统221、计算机程序222及数据223等,数据223可以包括各种各样的数据。存储方式可以是短暂存储或者永久存储。
其中,操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222,其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的服务器异常监控方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。
进一步的,本申请实施例还公开了一种计算机可读存储介质,这里所说的计算机可读存储介质包括随机存取存储器(Random Access Memory,RAM)、内存、只读存储器(Read-Only Memory,ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、磁碟或者光盘或技术领域内所公知的任意其他形式的存储介质。其中,所述计算机程序被处理器执行时实现前述服务器异常监控方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容,在此不再进行赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
结合本文中所公开的实施例描述的服务器异常监控或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种服务器异常监控方法、装置、设备及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种服务器异常监控方法,其特征在于,应用于复杂可编程逻辑器件,包括:
获取目标组件输出的关键信号,并将所述关键信号的数据状态逐一写入所述复杂可编程逻辑器件下挂的非易失性串行外围存储设备中;所述目标组件为服务器中通过基板管理控制器监控的组件;
判断所述服务器当前是否发生异常事件;
如果所述服务器当前没有发生所述异常事件,则实时更新所述非易失性串行外围存储设备中所述关键信号的数据状态;
如果所述服务器当前发生所述异常事件,则基于所述非易失性串行外围存储设备中的数据得到目标数据,然后将所述目标数据上报所述基板管理控制器,以便所述基板管理控制器利用预设数据可视化模块将所述目标数据进行数据图形化展示。
2.根据权利要求1所述的服务器异常监控方法,其特征在于,所述获取目标组件输出的关键信号,并将所述关键信号的数据状态逐一写入所述复杂可编程逻辑器件下挂的非易失性串行外围存储设备中之前,还包括:
在所述复杂可编程逻辑器件的通用输入输出管脚中,通过串行外设接口信号线下挂所述非易失性串行外围存储设备;
通过主设备输出从设备输入信号、主设备输入从设备输出信号、时钟信号以及从设备使能信号连接至所述非易失性串行外围存储设备,以控制所述非易失性串行外围存储设备的数据存放和数据读取。
3.根据权利要求1所述的服务器异常监控方法,其特征在于,所述获取目标组件输出的关键信号,并将所述关键信号的数据状态逐一写入所述复杂可编程逻辑器件下挂的非易失性串行外围存储设备中,包括:
获取目标组件输出的关键信号,并在所述关键信号的数量达到第一预设数量后,生成包含所述第一预设数量的所述关键信号的目标监控信号组;
按照预设时间间隔,将所述目标监控信号组中每个关键信号的数据状态逐一写入所述复杂可编程逻辑器件下挂的非易失性串行外围存储设备中;
相应的,所述如果所述服务器当前没有发生所述异常事件,则实时更新所述非易失性串行外围存储设备中所述关键信号的数据状态,包括:
如果所述服务器当前没有发生所述异常事件,判断所述非易失性串行外围存储设备中所述关键信号的数据状态的数量是否超过所述第一预设数量;
当所述关键信号的数据状态的数量不超过所述第一预设数量时,将所述新增关键信号的数据状态持续写入所述非易失性串行外围存储设备;
当所述关键信号的数据状态的数量超过所述第一预设数量时,利用当前获取的新增关键信号的数据状态,按照所述目标监控信号组中关键信号获取时间的先后顺序,逐一对所述关键信号进行实时更新。
4.根据权利要求1所述的服务器异常监控方法,其特征在于,所述获取目标组件输出的关键信号,并将所述关键信号的数据状态逐一写入所述复杂可编程逻辑器件下挂的非易失性串行外围存储设备中,包括:
获取中央处理器输出的关键信号,并将所述关键信号的数据状态逐一写入所述复杂可编程逻辑器件下挂的非易失性串行外围存储设备中。
5.根据权利要求1所述的服务器异常监控方法,其特征在于,所述如果所述服务器当前发生所述异常事件,则基于所述非易失性串行外围存储设备中的数据得到目标数据,然后将所述目标数据上报所述基板管理控制器,以便所述基板管理控制器利用预设数据可视化模块将所述目标数据进行数据图形化展示,包括:
如果所述服务器当前发生所述异常事件,则基于所述非易失性串行外围存储设备中的数据得到目标数据,然后将所述目标数据通过I2C链路上报所述基板管理控制器,以便所述基板管理控制器利用预设数据可视化模块将所述目标数据进行数据图形化展示。
6.根据权利要求1所述的服务器异常监控方法,其特征在于,所述如果所述服务器当前发生所述异常事件,则基于所述非易失性串行外围存储设备中的数据得到目标数据,然后将所述目标数据上报所述基板管理控制器,以便所述基板管理控制器利用预设数据可视化模块将所述目标数据进行数据图形化展示,包括:
如果所述服务器当前发生所述异常事件,则基于所述非易失性串行外围存储设备中的数据得到目标数据,然后将所述目标数据上报所述基板管理控制器;
通过所述基板管理控制器,利用预设数据可视化模块将时间作为横轴,将所述目标数据的数据变化作为纵轴,在基板管理控制器的网页界面上以图形化波形的形式将所述目标数据进行数据图形化展示。
7.根据权利要求1至6任一项所述的服务器异常监控方法,其特征在于,所述如果所述服务器当前发生所述异常事件,则基于所述非易失性串行外围存储设备中的数据得到目标数据,然后将所述目标数据上报所述基板管理控制器,以便所述基板管理控制器利用预设数据可视化模块将所述目标数据进行数据图形化展示,包括:
如果所述服务器当前发生所述异常事件,则读取所述异常事件发生前所述非易失性串行外围存储设备中已写入的所有数据以得到第一数据,锁存所述第一数据,并继续读取所述异常事件发生后所述非易失性串行外围存储设备中新写入的第二预设数量的关键信号的数据状态,以得到第二数据;
利用所述第一数据和所述第二数据确定出所述目标数据,并将所述目标数据上报所述基板管理控制器,以便所述基板管理控制器利用预设数据可视化模块将所述目标数据进行数据图形化展示。
8.一种服务器异常监控装置,其特征在于,应用于复杂可编程逻辑器件,包括:
数据写入模块,用于获取目标组件输出的关键信号,并将所述关键信号的数据状态逐一写入所述复杂可编程逻辑器件下挂的非易失性串行外围存储设备中;所述目标组件为服务器中通过基板管理控制器监控的组件;
异常事件判断模块,用于判断所述服务器当前是否发生异常事件;
第一处理模块,用于所述服务器当前没有发生所述异常事件,则实时更新所述非易失性串行外围存储设备中所述关键信号的数据状态;
第二处理模块,用于所述服务器当前发生所述异常事件,则基于所述非易失性串行外围存储设备中的数据得到目标数据,然后将所述目标数据上报所述基板管理控制器,以便所述基板管理控制器利用预设数据可视化模块将所述目标数据进行数据图形化展示。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器;其中,所述存储器用于存储计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1至7任一项所述的服务器异常监控方法。
10.一种计算机可读存储介质,其特征在于,用于存储计算机程序;其中所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的服务器异常监控方法。
CN202310790380.2A 2023-06-30 2023-06-30 一种服务器异常监控方法、装置、设备及存储介质 Pending CN116846790A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310790380.2A CN116846790A (zh) 2023-06-30 2023-06-30 一种服务器异常监控方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310790380.2A CN116846790A (zh) 2023-06-30 2023-06-30 一种服务器异常监控方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN116846790A true CN116846790A (zh) 2023-10-03

Family

ID=88166327

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310790380.2A Pending CN116846790A (zh) 2023-06-30 2023-06-30 一种服务器异常监控方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116846790A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117806924A (zh) * 2024-02-29 2024-04-02 苏州元脑智能科技有限公司 一种指示装置的控制方法、装置、服务器及介质
CN117806924B (zh) * 2024-02-29 2024-05-10 苏州元脑智能科技有限公司 一种指示装置的控制方法、装置、服务器及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117806924A (zh) * 2024-02-29 2024-04-02 苏州元脑智能科技有限公司 一种指示装置的控制方法、装置、服务器及介质
CN117806924B (zh) * 2024-02-29 2024-05-10 苏州元脑智能科技有限公司 一种指示装置的控制方法、装置、服务器及介质

Similar Documents

Publication Publication Date Title
US7589624B2 (en) Component unit monitoring system and component unit monitoring method
WO2018095107A1 (zh) 一种bios程序的异常处理方法及装置
TWI261748B (en) Policy-based response to system errors occurring during OS runtime
CN112286709A (zh) 一种服务器硬件故障的诊断方法、诊断装置及诊断设备
CN113672306B (zh) 服务器组件自检异常恢复方法、装置、系统及介质
CN112702182A (zh) 一种可信管理方法、装置、系统、设备和存储介质
CN110750309A (zh) 可远程控制电子设备的系统及方法
CN110399264B (zh) 一种fru信息管理方法、装置及设备
CN112181468A (zh) 一种cpld更新方法、服务器及计算机可读存储介质
CN111625386A (zh) 一种针对系统设备上电超时的监控方法和装置
CN113311754A (zh) 一种基于gd32单片机的电源模块的bmc管理系统
CN113190395B (zh) 一种状态监控方法及装置
CN116225812B (zh) 基板管理控制器系统运行方法、装置、设备及存储介质
CN117453036A (zh) 调整服务器中的设备的功耗的方法、系统及装置
CN115599617B (zh) 总线检测方法、装置、服务器及电子设备
CN116846790A (zh) 一种服务器异常监控方法、装置、设备及存储介质
CN113900718B (zh) 一种bmc与bios资产信息的解耦方法、系统及装置
US9495171B1 (en) Baseboard management controller (BMC) provided with sensor list
CN116560586A (zh) 属性值的确定方法及装置、存储介质及电子设备
CN113468189A (zh) 设备信息管理方法、装置及系统
CN115080132A (zh) 信息处理方法、装置、服务器及存储介质
CN115470056A (zh) 服务器硬件上电启动故障排查方法、系统、装置及介质
CN113626278B (zh) 一种硬件拓扑生成方法及其相关设备
CN108880916B (zh) 一种基于iic总线的故障定位方法及系统
CN103176857A (zh) 具有固件更新功能的系统、电子装置及其固件更新方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination