CN116431426A - 服务器的状态监控方法及装置 - Google Patents

服务器的状态监控方法及装置 Download PDF

Info

Publication number
CN116431426A
CN116431426A CN202211482701.4A CN202211482701A CN116431426A CN 116431426 A CN116431426 A CN 116431426A CN 202211482701 A CN202211482701 A CN 202211482701A CN 116431426 A CN116431426 A CN 116431426A
Authority
CN
China
Prior art keywords
data
information
server
current
historical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211482701.4A
Other languages
English (en)
Inventor
张晓庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202211482701.4A priority Critical patent/CN116431426A/zh
Publication of CN116431426A publication Critical patent/CN116431426A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3037Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a memory, e.g. virtual memory, cache
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本申请实施例提供了一种服务器的状态监控方法及装置,服务器包括多个组件类,一个组件类包括相同类别的多个组件,该方法包括:配置步骤,配置一个传感器对应监控服务器的一类组件;获取步骤,获取服务器中目标组件的当前状态信息,当前状态信息包括当前运行数据以及标识信息;第一确定步骤,确定当前状态信息是否存在异常;第二确定步骤,在当前状态信息存在异常的情况下,确定异常信息并至少根据异常信息以及标识信息生成日志信息。通过本申请,解决了BMC的传感器数据较多,造成状态监控代码复杂、可维护性差的问题。

Description

服务器的状态监控方法及装置
技术领域
本申请实施例涉及服务器领域,具体而言,涉及一种服务器的状态监控方法、装置、计算机可读存储介质、处理器、BMC以及服务器平台。
背景技术
随着服务器行业的发展壮大,各种复杂形态的服务器应运而生。服务器作为网络系统和计算平台的核心,许多重要的数据都保存在服务器上。BMC(Baseboard ManagementController,基板管理控制器)作为服务器的管家,利用传感器来监视计算机、网络服务器,或者是其他硬件驱动设备的状态。然而随着服务器使用场景的复杂性,需要的传感器数量往往很繁多,对后台监控代码研发人员来说,大量的传感器会造成状态监控代码比较复杂,代码可维护性较差。
发明内容
本申请实施例提供了一种服务器的状态监控方法、装置、计算机可读存储介质、处理器、BMC以及服务器平台,以至少解决相关技术中BMC的传感器数据较多,造成状态监控代码复杂、可维护性差的问题。
根据本申请的一个实施例,提供了一种服务器的状态监控方法,所述服务器包括多个组件类,一个所述组件类包括相同类别的多个组件,所述方法包括:配置步骤,配置一个传感器对应监控所述服务器的一类所述组件;获取步骤,获取服务器中目标组件的当前状态信息,所述当前状态信息包括当前运行数据以及标识信息;第一确定步骤,确定所述当前状态信息是否存在异常;第二确定步骤,在所述当前状态信息存在异常的情况下,确定异常信息并至少根据所述异常信息以及所述标识信息生成日志信息。
在一个示例性实施例中,确定所述当前状态信息是否存在异常,包括:根据所述标识信息,确定所述目标组件的历史运行数据;根据所述当前运行数据以及所述历史运行数据,确定所述当前状态信息是否存在异常,在所述当前运行数据与所述历史运行数据不同的情况下,确定所述当前状态信息存在异常。
在一个示例性实施例中,确定异常信息,包括:比较所述当前运行数据以及所述历史运行数据,确定所述当前运行数据中,与所述历史运行数据不同的数据为所述异常信息。
在一个示例性实施例中,根据所述标识信息,确定所述目标组件的历史运行数据,包括:根据所述标识信息,从BMC的存储空间中调用所述标识信息对应的多个历史状态信息,所述历史状态信息包括历史数据以及历史时刻,所述历史数据表征所述服务器历史的运行数据,所述历史时刻为所述历史数据生成的时刻;确定目标历史时刻对应的所述历史数据为所述历史运行数据,所述目标历史时刻为与当前时刻的时间间隔最短的所述历史时刻,所述当前时刻为所述当前运行数据生成的时刻。
在一个示例性实施例中,根据所述标识信息,确定所述目标组件的历史运行数据,包括:根据所述标识信息,从BMC的存储空间中调用所述标识信息对应的多个历史数据,所述历史数据表征所述服务器历史的运行数据,多个所述历史数据构成所述历史运行数据。
在一个示例性实施例中,根据所述当前运行数据以及所述历史运行数据,确定所述当前状态信息是否存在异常,包括:从所述当前运行数据中提取运行参数以及第一数据,所述第一数据为所述运行参数的当前参数值;从所述历史运行数据中提取运行参数以及第二数据,所述第二数据为所述运行参数对应的历史参数值;比较相同的所述运行参数对应的所述第一数据和所述第二数据是否相同;在相同的所述运行参数对应的所述第一数据和所述第二数据不相同的情况下,确定所述当前状态信息存在异常。
在一个示例性实施例中,获取服务器中目标组件的当前状态信息,包括:接收告警设备发送的目标组件数据,所述目标组件数据为所述告警设备在检测到目标背板的数据更新时,获取的所述目标背板的数据,所述目标组件安装在所述目标背板上;每隔预定时长解析所述目标组件数据,得到所述当前运行数据、所述标识信息以及当前时刻,所述当前时刻为所述当前运行数据生成的时刻,所述当前运行数据、所述标识信息以及当前时刻构成所述当前状态信息。
在一个示例性实施例中,至少根据所述异常信息以及所述标识信息生成日志信息,包括:根据所述当前时刻,生成时间戳信息;根据所述异常信息、所述标识信息以及所述时间戳信息,生成所述日志信息;至少上报所述日志信息。
在一个示例性实施例中,在根据所述异常信息、所述标识信息以及所述时间戳信息,生成所述日志信息之后,在至少上报所述日志信息之前,所述方法还包括:从所述日志信息中提取所述目标组件的关键指标数据;获取所述关键指标数据对应的预设阈值范围;根据所述关键指标数据以及所述预设阈值范围,确定所述目标组件是否出现故障,在所述关键指标数据未位于所述预设阈值范围内的情况下,确定所述目标组件出现故障;在所述目标组件出现故障的情况下,根据故障的所述关键指标数据,生成故障警报信息。
在一个示例性实施例中,至少上报所述日志信息,包括:上报所述日志信息以及所述故障警报信息。
在一个示例性实施例中,所述告警设备包括复杂可编程逻辑器件。
在一个示例性实施例中,获取服务器中目标组件的当前状态信息,包括:接收告警设备发送的目标组件数据,所述目标组件数据为所述告警设备实时检测的同类型的所述组件的运行数据;每隔预定时长解析所述目标组件数据,得到所述当前运行数据以及所述标识信息。
在一个示例性实施例中,所述标识信息包括表征各所述组件的排列顺序的组件序号。
在一个示例性实施例中,所述目标组件包括硬盘、风扇以及开关电源中至少之一。
在一个示例性实施例中,所述方法还包括:在所述服务器未掉电的情况下,循环执行所述配置步骤,配置一个传感器对应监控所述服务器的一类所述组件;获取步骤、所述第一确定步骤以及所述第二确定步骤至少一次,直到所述服务器掉电。
根据本申请的另一个实施例,提供了一种服务器的状态监控装置,所述服务器包括多个组件类,一个所述组件类包括相同类别的多个组件,所述装置包括:配置单元,用于配置步骤,配置一个传感器对应监控所述服务器的一类所述组件;第一获取单元,用于获取步骤,获取服务器中目标组件的当前状态信息,所述当前状态信息包括当前运行数据以及标识信息;第一确定单元,用于第一确定步骤,确定所述当前状态信息是否存在异常;第二确定单元,用于第二确定步骤,在所述当前状态信息存在异常的情况下,确定异常信息并至少根据所述异常信息以及所述标识信息生成日志信息。
根据本申请的又一个实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本申请的又一个实施例,还提供了一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项方法实施例中的步骤。
根据本申请的又一个实施例,还提供了一种BMC,包括服务器的状态监控装置,所述状态监控装置运行时实现上述任一项方法实施例中的步骤。
根据本申请的又一个实施例,还提供了一种服务器平台,包括服务器以及上述的BMC,所述服务器包括多个组件类,一个所述组件类包括相同类别的多个组件。
通过本申请服务器的状态监控方法,首先配置一个传感器对应监控服务器的一类组件;然后获取服务器中目标组件的包括当前运行数据以及标识信息的当前状态信息;之后确定当前状态信息是否存在异常;在当前状态信息存在异常的情况下,根据异常信息和标识信息生成日志信息。相比于现有技术中BMC的传感器数据较多,造成状态监控代码复杂、可维护性差的问题,本申请的方法中,通过配置一个传感器对应监控服务器的一类组件,当一个组件出现异常时,通过将组件的标识信息以及对应的异常信息记录到日志描述中,这样相比一个传感器监控一个组件,本申请大大精简了传感器数量,对于后台监控代码研发人员来说,在一定程度上精简了状态监控代码,提高了代码可维护性,减少了由于传感器数量繁多而导致的代码出错问题,在应用层面减少了BMC的存储开支。另外,传感器的减少节省了BMC的存储空间。
附图说明
图1是根据本申请实施例的服务器的状态监控方法的一流程示意图;
图2是根据本申请实施例的服务器的状态监控方法的另一流程示意图;
图3是根据本申请实施例的服务器的状态监控装置的结构框图;
图4是根据本申请实施例的服务器的状态监控方法的移动终端的硬件结构框图。
其中,上述附图包括以下附图标记:
102、处理器;104、存储器;106、传输设备;108、输入输出设备。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请的实施例。
需要说明的是,本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
正如背景技术中所说的,现有技术中BMC的传感器数据较多,造成状态监控代码复杂、可维护性差,为了解决所述问题,本申请的一种典型的实施方式中,提供了一种服务器的状态监控方法、装置、计算机可读存储介质、处理器、BMC以及服务器平台。
在本实施例中提供了一种运行于BMC的服务器的状态监控方法,所述服务器包括多个组件类,一个所述组件类包括相同类别的多个组件,图1是根据本申请实施例的流程图,如图1所示,该流程包括如下步骤:
步骤S101,配置步骤,配置一个传感器对应监控所述服务器的一类所述组件;
通过配置一个传感器监控一类组件,这样无需给每个组件都设置传感器,达到了精简传感器的目的,对于后台监控代码研发人员来说,在一定程度上精简了状态监控代码,提高了代码可维护性,减少了由于传感器数量繁多而导致的代码出错问题。
具体地,通过设置传感器监控的组件状态不体现组件标识,而将各个组件的组件标识以及对应的具体运行状态信息设置至组件状态的详细描述中,实现传感器对相同类的组件的监控。
步骤S102,获取步骤,获取服务器中目标组件的当前状态信息,所述当前状态信息包括当前运行数据以及标识信息;
所述目标组件包括硬盘、风扇以及开关电源中至少之一。本申请实施例中,所述目标组件包括服务器的硬盘、风扇以及开关电源。在实际应用中,服务器中一般包括多个硬盘、多个风扇以及多个开关电源,在服务器中,所有的所述硬盘作为所述的一类组件,由BMC的一个传感器进行状态监控,所有的所述风扇作为所述的一类组件,由BMC的一个传感器进行状态监控,开关电源也是一样的。
以硬盘为例,对于服务器中的多个硬盘,每一个硬盘都对应一个标识信息,且一个服务器中任意两个所述硬盘的所述标识信息不同。
所述的标识信息相当于组件在服务器中的“身份证”。所述标识信息的具体内容可以由本领域技术人员自己制定的规则确定。
本申请的实施例中,所述标识信息包括表征各所述组件的排列顺序的组件序号。更为具体的一种实施例中,所述标识信息为所述组件序号。本领域技术人员可以按照预设的顺序对所述服务器中的各组件进行编号,得到表征组件排列顺序的所述组件序号。
当然,所述标识信息并不限于所述的组件序号,其还可以为根据组件的型号以及生产号等组成的序列号,还可以为表征各个组件位置的信息等等。
本申请的一种实施例中,获取服务器中目标组件的当前状态信息,包括如下具体步骤:
步骤S1021,接收告警设备发送的目标组件数据,所述目标组件数据为所述告警设备在检测到目标背板的数据更新时,获取的所述目标背板的数据,所述目标组件安装在所述目标背板上;
步骤S1022,每隔预定时长解析所述目标组件数据,得到所述当前运行数据、所述标识信息以及当前时刻,所述当前时刻为所述当前运行数据生成的时刻,所述当前运行数据、所述标识信息以及当前时刻构成所述当前状态信息。
其中,同类的多个组件安装在至少一个背板上,在组件运行状态数据更新时,组件会将更新后的组件运行状态数据发送至背板上。告警设备通过检测背板上的数据是否更新,在检测到背板上的数据发生更新时,获取发生更新的数据、更新数据的时刻以及更新数据对应的标识信息,得到组件数据,并将组件数据发送给监控该类组件的传感器,传感器通过轮询方式解析该组件数据,得到包括当前运行数据、标识信息以及当前时刻的所述当前运行数据,由于当前运行数据中包括表征组件在服务器中唯一的编码(即所述标识信息),这样无需给一个组件对应设置一个监测运行状态的传感器,只要给一类传感器设置一个传感器,传感器根据该标识信息即可确定当前运行数据是哪个组件的运行数据,进一步地方便了对传感器数量进行精简。
其他实施例中,获取服务器中目标组件的当前状态信息,包括:接收告警设备发送的目标组件数据,所述目标组件数据为所述告警设备实时检测的同类型的所述组件的运行数据;每隔预定时长解析所述目标组件数据,得到所述当前运行数据以及所述标识信息。其中,所述目标组件的所述组件数据为所述目标组件数据。
所述告警设备可以为监控组件运行数据的任意设备,本申请的实施例中,所述告警设备包括复杂可编程逻辑器件。
在所述组件为硬盘的情况下,所述告警设备为复杂可编程逻辑器件(ComplexProgrammable logic device,简称为CPLD),所述目标背板为硬件背板。
在其他实施例中,在所述组件为开关电源或者风扇的情况下,所述告警设备为监控芯片,所述目标背板承载所述开关电源或者风扇的背板。
步骤S103,第一确定步骤,确定所述当前状态信息是否存在异常;
通过确定所述当前状态信息是否存在异常,来实现对组件的运行状态以及运行参数的监控,在出现故障时可以及时上报日志,方便工作人员解析以及处理故障。
具体地,确定所述当前状态信息是否存在异常的具体实现过程为:
步骤S1031,根据所述标识信息,确定所述目标组件的历史运行数据;
也就是说,获取与当前的标识信息一致的历史标识信息对应的历史运行数据,就是该目标组件的历史运行数据。
为了进一步地保证后续确定组件是否出现故障的结果较为准确,本申请实施例中,根据所述标识信息,确定所述目标组件的历史运行数据的具体实现步骤可以为:根据所述标识信息,从BMC的存储空间中调用所述标识信息对应的多个历史状态信息,所述历史状态信息包括历史数据以及历史时刻,所述历史时刻为所述历史数据生成的时刻;确定目标历史时刻对应的所述历史数据为所述历史运行数据,所述目标历史时刻为与当前时刻的时间间隔最短的所述历史时刻,所述当前时刻为所述当前运行数据生成的时刻。
所述过程通过获取与当前时刻间隔最短的历史时刻对应的历史数据作为所述历史运行数据,使得后续根据历史运行数据与当前运行数据确定的是否存在异常的结果较为准确。
当然,为了保证确定历史运行数据的过程较为简单,另一种实施例中,根据所述标识信息,确定所述目标组件的历史运行数据的具体实现步骤还可以为:根据所述标识信息,从BMC的存储空间中调用所述标识信息对应的多个历史数据,所述历史数据表征所述服务器历史的运行数据,多个所述历史数据构成所述历史运行数据。
步骤S1032,根据所述当前运行数据以及所述历史运行数据,确定所述当前状态信息是否存在异常,在所述当前运行数据与所述历史运行数据不同的情况下,确定所述当前状态信息存在异常。
为了较为准确且较为快捷地确定所述当前状态信息是否存在异常,一种实施例中,根据所述当前运行数据以及所述历史运行数据,确定所述当前状态信息是否存在异常,包括如下步骤:从所述当前运行数据中提取运行参数以及第一数据,所述第一数据为所述运行参数的当前参数值;从所述历史运行数据中提取运行参数以及第二数据,所述第二数据为所述运行参数对应的历史参数值;比较相同的所述运行参数对应的所述第一数据和所述第二数据是否相同;在相同的所述运行参数对应的所述第一数据和所述第二数据不相同的情况下,确定所述当前状态信息存在异常。
所述过程之后,所述当前运行数据会作为最新时刻的所述历史运行数据存储至所述BMC的存储空间中。即所述当前运行数据与所述历史运行数据的数据类型是相同的。
当然,确定所述当前状态信息是否存在异常的判定方式并不限于所述的“在所述当前运行数据与所述历史运行数据不同的情况下,确定所述当前状态信息存在异常”的方式。再一种实施例中,在所述当前运行数据与所述历史运行数据的差值大于预设值的情况下,确定所述当前状态信息存在异常。这种情况下,根据所述当前运行数据以及所述历史运行数据,确定所述当前状态信息是否存在异常,包括如下步骤:从所述当前运行数据中提取运行参数以及第一数据,所述第一数据为所述运行参数的当前参数值;从所述历史运行数据中提取运行参数以及第二数据,所述第二数据为所述运行参数对应的历史参数值;比较相同的所述运行参数对应的所述第一数据和所述第二数据的差值是否大于所述预设值;在相同的所述运行参数对应的所述第一数据和所述第二数据大于所述预设值的情况下,确定所述当前状态信息存在异常。
步骤S104,第二确定步骤,在所述当前状态信息存在异常的情况下,确定异常信息并至少根据所述异常信息以及所述标识信息生成日志信息。
具体地,确定异常信息,包括:比较所述当前运行数据以及所述历史运行数据,确定所述当前运行数据中,与所述历史运行数据不同的数据为所述异常信息。
一种实施例中,至少根据所述异常信息以及所述标识信息生成日志信息,包括:根据所述当前时刻,生成时间戳信息;根据所述异常信息、所述标识信息以及所述时间戳信息,生成所述日志信息;至少上报所述日志信息。这样进一步地方便了运维人员根据该日志信息,确定发生故障的组件是哪个,发生时刻是何时,发生的故障是什么以及故障原因是什么,并进行故障消除。
为了进一步地实现对组件运行状态的实时准确监控,根据本申请的另一种具体的实施例,在根据所述异常信息、所述标识信息以及所述时间戳信息,生成所述日志信息之后,在至少上报所述日志信息之前,所述方法还包括:从所述日志信息中提取所述目标组件的关键指标数据;获取所述关键指标数据对应的预设阈值范围;根据所述关键指标数据以及所述预设阈值范围,确定所述目标组件是否出现故障,在所述关键指标数据未位于所述预设阈值范围内的情况下,确定所述目标组件出现故障;在所述目标组件出现故障的情况下,根据故障的所述关键指标数据,生成故障警报信息。
当然,所述的关键指标数据确定过程并不限于在传感器中执行,也可以在BMC中执行。
所述关键指标数据可以为硬盘的转速、平均寻道时间以及温度等,还可以为风扇的温度、转速以及风量等。
为了进一步地方便运维人员根据该日志信息,确定发生故障的组件是哪个,发生时刻是何时,发生的故障是什么以及故障原因是什么,并进行故障消除,同时进一步地保证状态监控过程较为简单,根据本申请的另一种实施例,至少根据所述异常信息以及所述标识信息生成日志信息,还可以包括:根据所述异常信息以及所述标识信息,生成所述日志信息;至少上报所述日志信息。
另外,所述方法还包括:在所述服务器未掉电的情况下,循环执行所述配置步骤,配置一个传感器对应监控所述服务器的一类所述组件;获取步骤、所述第一确定步骤以及所述第二确定步骤至少一次,直到所述服务器掉电,即循环执行所述步骤S102、所述步骤S103以及所述步骤S104,来确保对服务器的组件运行状态的实时监控。
所述服务器的状态监控方法中,首先配置一个传感器对应监控服务器的一类组件;然后获取服务器中目标组件的包括当前运行数据以及标识信息的当前状态信息;之后确定当前状态信息是否存在异常;在当前状态信息存在异常的情况下,根据异常信息和标识信息生成日志信息。相比于现有技术中BMC的传感器数据较多,造成状态监控代码复杂、可维护性差的问题,本申请的方法中,通过配置一个传感器对应监控服务器的一类组件,当一个组件出现异常时,通过将组件的标识信息以及对应的异常信息记录到日志描述中,这样相比一个传感器监控一个组件,本申请大大精简了传感器数量,对于后台监控代码研发人员来说,在一定程度上精简了状态监控代码,提高了代码可维护性,减少了由于传感器数量繁多而导致的代码出错问题,在应用层面减少了BMC的存储开支。另外,传感器的减少节省了BMC的存储空间。
以硬盘故障为例,在传统方案中,如果需要监控硬盘故障,那么就需要监控硬盘状态的传感器数量和服务器的硬盘数量相等,比如服务器有30块硬盘,那就需要定义30个硬盘的传感器来监控硬盘状态。本方案通过将传感器按照传感器类型进行分类,对于服务器所有硬盘只需要一个硬盘状态传感器,当故障发生时候,将状态故障的硬盘序号作为事件,记录到系统事件日志描述中。这样大大精简了传感器数量,对于后台监控代码研发人员来说,由于在一定程度上精简了状态监控代码,提高了代码可维护性,减少了由于传感器数量繁多而导致的出错;对于BMC本身的存储空间来说,传感器减少也在一定程度上节省了BMC的存储空间。因此,本申请的方案在不影响服务器组件故障上报的同时精简了BMC中传感器的数量。
当然,所述过程同样适用于服务器的其他传感器,如风扇状态监控传感器以及开关电源状态传感器等。
其中,所述步骤的执行主体可以为BMC的传感器等,但不限于此。所述传感器可以为实体传感器,也可以为虚拟传感器。
一种具体的实施例中,如图2所示,本申请的服务器的状态监控的具体步骤如下:
1)将同类型的传感器定义为一个传感器,来监控一类组件;
2)传感器以轮询方式解析来自告警设备的状态信息,包括组件序号;
3)传感器确定组件状态是否发生变化;
4)如是,则确定组件存在异常,将包括组件序号的异常信息封装成日志并上报;
5)如否,则返回步骤2)。
需要说明的是,所述各步骤之间的执行顺序都是可以互换的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据所述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
在本实施例中还提供了一种服务器的状态监控装置,该装置用于实现所述实施例及优选实施方式,已经进行过说明的不再赘述。其中,所述服务器包括多个组件类,一个所述组件类包括相同类别的多个组件。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图3是根据本申请实施例的服务器的状态监控装置的结构框图,如图3所示,该装置包括:
配置单元10,用于配置步骤,配置一个传感器对应监控所述服务器的一类所述组件;
通过配置一个传感器监控一类组件,这样无需给每个组件都设置传感器,达到了精简传感器的目的,对于后台监控代码研发人员来说,在一定程度上精简了状态监控代码,提高了代码可维护性,减少了由于传感器数量繁多而导致的代码出错问题。
具体地,通过设置传感器监控的组件状态不体现组件标识,而将各个组件的组件标识以及对应的具体运行状态信息设置至组件状态的详细描述中,实现传感器对相同类的组件的监控。
第一获取单元20,用于获取步骤,获取服务器中目标组件的当前状态信息,所述当前状态信息包括当前运行数据以及标识信息;
所述目标组件包括硬盘、风扇以及开关电源中至少之一。本申请实施例中,所述目标组件包括服务器的硬盘、风扇以及开关电源。在实际应用中,服务器中一般包括多个硬盘、多个风扇以及多个开关电源,在服务器中,所有的所述硬盘作为所述的一类组件,由BMC的一个传感器进行状态监控,所有的所述风扇作为所述的一类组件,由BMC的一个传感器进行状态监控,开关电源也是一样的。
以硬盘为例,对于服务器中的多个硬盘,每一个硬盘都对应一个标识信息,且一个服务器中任意两个所述硬盘的所述标识信息不同。
所述的标识信息相当于组件在服务器中的“身份证”。所述标识信息的具体内容可以由本领域技术人员自己制定的规则确定。
本申请的实施例中,所述标识信息包括表征各所述组件的排列顺序的组件序号。更为具体的一种实施例中,所述标识信息为所述组件序号。本领域技术人员可以按照预设的顺序对所述服务器中的各组件进行编号,得到表征组件排列顺序的所述组件序号。
当然,所述标识信息并不限于所述的组件序号,其还可以为根据组件的型号以及生产号等组成的序列号,还可以为表征各个组件位置的信息等等。
本申请的一种实施例中,所述第一获取单元具体包括如下模块:
第一接收模块,用于接收告警设备发送的目标组件数据,所述目标组件数据为所述告警设备在检测到目标背板的数据更新时,获取的所述目标背板的数据,所述目标组件安装在所述目标背板上;
以及第一解析模块,用于每隔预定时长解析所述目标组件数据,得到所述当前运行数据、所述标识信息以及当前时刻,所述当前时刻为所述当前运行数据生成的时刻,所述当前运行数据、所述标识信息以及当前时刻构成所述当前状态信息。
其中,同类的多个组件安装在至少一个背板上,在组件运行状态数据更新时,组件会将更新后的组件运行状态数据发送至背板上。告警设备通过检测背板上的数据是否更新,在检测到背板上的数据发生更新时,获取发生更新的数据、更新数据的时刻以及更新数据对应的标识信息,得到组件数据,并将组件数据发送给监控该类组件的传感器,传感器通过轮询方式解析该组件数据,得到包括当前运行数据、标识信息以及当前时刻的所述当前运行数据,由于当前运行数据中包括表征组件在服务器中唯一的编码(即所述标识信息),这样无需给一个组件对应设置一个监测运行状态的传感器,只要给一类传感器设置一个传感器,传感器根据该标识信息即可确定当前运行数据是哪个组件的运行数据,进一步地方便了对传感器数量进行精简。
其他实施例中,所述第一获取单元还可以包括第二接收模块以及第二解析模块,其中,所述第二接收模块用于接收告警设备发送的目标组件数据,所述目标组件数据为所述告警设备实时检测的同类型的所述组件的运行数据;所述第二解析模块用于每隔预定时长解析所述目标组件数据,得到所述当前运行数据以及所述标识信息。所述目标组件的所述组件数据为所述目标组件数据。
所述告警设备可以为监控组件运行数据的任意设备,本申请的实施例中,所述告警设备包括复杂可编程逻辑器件。
在所述组件为硬盘的情况下,所述告警设备为复杂可编程逻辑器件,所述目标背板为硬件背板。
在其他实施例中,在所述组件为开关电源或者风扇的情况下,所述告警设备为监控芯片,所述目标背板承载所述开关电源或者风扇的背板。
第一确定单元30,用于第一确定步骤,确定所述当前状态信息是否存在异常;
通过确定所述当前状态信息是否存在异常,来实现对组件的运行状态以及运行参数的监控,在出现故障时可以及时上报日志,方便工作人员解析以及处理故障。
具体地,所述第一确定单元包括第一确定模块以及第二确定模块,对所述第一确定模块以及所述第二确定模块的功能进行如下具体说明:
所述第一确定模块用于根据所述标识信息,确定所述目标组件的历史运行数据;
也就是说,获取与当前的标识信息一致的历史标识信息对应的历史运行数据,就是该目标组件的历史运行数据。
为了进一步地保证后续确定组件是否出现故障的结果较为准确,本申请实施例中,所述第一确定模块包括第一调用子模块以及第一确定子模块,其中,所述第一调用子模块用于根据所述标识信息,从BMC的存储空间中调用所述标识信息对应的多个历史状态信息,所述历史状态信息包括历史数据以及历史时刻,所述历史时刻为所述历史数据生成的时刻;所述第一确定子模块用于确定目标历史时刻对应的所述历史数据为所述历史运行数据,所述目标历史时刻为与当前时刻的时间间隔最短的所述历史时刻,所述当前时刻为所述当前运行数据生成的时刻。
所述过程通过获取与当前时刻间隔最短的历史时刻对应的历史数据作为所述历史运行数据,使得后续根据历史运行数据与当前运行数据确定的是否存在异常的结果较为准确。
当然,为了保证确定历史运行数据的过程较为简单,另一种实施例中,所述第一确定模块还可以包括第二调用子模块,所述调用子模块用于根据所述标识信息,从BMC的存储空间中调用所述标识信息对应的多个历史数据,所述历史数据表征所述服务器历史的运行数据,多个所述历史数据构成所述历史运行数据。
所述第二确定模块用于根据所述当前运行数据以及所述历史运行数据,确定所述当前状态信息是否存在异常,在所述当前运行数据与所述历史运行数据不同的情况下,确定所述当前状态信息存在异常。
为了较为准确且较为快捷地确定所述当前状态信息是否存在异常,一种实施例中,所述第二确定模块包括:第一提取子模块,用于从所述当前运行数据中提取运行参数以及第一数据,所述第一数据为所述运行参数的当前参数值;第二提取子模块,用于从所述历史运行数据中提取运行参数以及第二数据,所述第二数据为所述运行参数对应的历史参数值;第一比较子模块,用于比较相同的所述运行参数对应的所述第一数据和所述第二数据是否相同;第二确定子模块,用于在相同的所述运行参数对应的所述第一数据和所述第二数据不相同的情况下,确定所述当前状态信息存在异常。
所述过程之后,所述当前运行数据会作为最新时刻的所述历史运行数据存储至所述BMC的存储空间中。即所述当前运行数据与所述历史运行数据的数据类型是相同的。
当然,确定所述当前状态信息是否存在异常的判定方式并不限于所述的“在所述当前运行数据与所述历史运行数据不同的情况下,确定所述当前状态信息存在异常”的方式。再一种实施例中,在所述当前运行数据与所述历史运行数据的差值大于预设值的情况下,确定所述当前状态信息存在异常。这种情况下,所述第二确定模块还可以包括:第三提取子模块,用于从所述当前运行数据中提取运行参数以及第一数据,所述第一数据为所述运行参数的当前参数值;第四提取子模块,用于从所述历史运行数据中提取运行参数以及第二数据,所述第二数据为所述运行参数对应的历史参数值;第二比较子模块,用于比较相同的所述运行参数对应的所述第一数据和所述第二数据的差值是否大于所述预设值;第三确定子模块,用于在相同的所述运行参数对应的所述第一数据和所述第二数据大于所述预设值的情况下,确定所述当前状态信息存在异常。
第二确定单元40,用于第二确定步骤,在所述当前状态信息存在异常的情况下,确定异常信息并至少根据所述异常信息以及所述标识信息生成日志信息。
具体地,所述第二确定单元包括比较模块,所述比较模块用于比较所述当前运行数据以及所述历史运行数据,确定所述当前运行数据中,与所述历史运行数据不同的数据为所述异常信息。
一种实施例中,所述第二确定单元还包括第一生成模块、第二生成模块以及第一上报模块,其中,所述第一生成模块用于根据所述当前时刻,生成时间戳信息;所述第二生成模块用于根据所述异常信息、所述标识信息以及所述时间戳信息,生成所述日志信息;所述第一上报模块用于至少上报所述日志信息。这样进一步地方便了运维人员根据该日志信息,确定发生故障的组件是哪个,发生时刻是何时,发生的故障是什么以及故障原因是什么,并进行故障消除。
为了进一步地实现对组件运行状态的实时准确监控,根据本申请的另一种具体的实施例,所述装置还包括:提取单元,用于在根据所述异常信息、所述标识信息以及所述时间戳信息,生成所述日志信息之后,在至少上报所述日志信息之前,从所述日志信息中提取所述目标组件的关键指标数据;第二获取单元,用于获取所述关键指标数据对应的预设阈值范围;第三确定单元,用于根据所述关键指标数据以及所述预设阈值范围,确定所述目标组件是否出现故障,在所述关键指标数据未位于所述预设阈值范围内的情况下,确定所述目标组件出现故障;生成单元,用于在所述目标组件出现故障的情况下,根据故障的所述关键指标数据,生成故障警报信息。
当然,所述的关键指标数据确定过程并不限于在传感器中执行,也可以在BMC中执行。
所述关键指标数据可以为硬盘的转速、平均寻道时间以及温度等,还可以为风扇的温度、转速以及风量等。
为了进一步地方便运维人员根据该日志信息,确定发生故障的组件是哪个,发生时刻是何时,发生的故障是什么以及故障原因是什么,并进行故障消除,同时进一步地保证状态监控过程较为简单,根据本申请的另一种实施例,所述第二确定单元还可以包括第三生成模块以及第二上报模块,其中,所述第三生成模块用于根据所述异常信息以及所述标识信息,生成所述日志信息;所述第二上报模块用于至少上报所述日志信息。
另外,所述装置还包括循环单元,所述循环单元用于在所述当前状态信息不存在异常的情况下,循环执行所述第一获取单元、所述第一确定单元以及所述第二确定单元的功能。
另外,所述装置还包括:循环单元,用于在所述服务器未掉电的情况下,循环执行所述获取步骤、所述第一确定步骤以及所述第二确定步骤至少一次,直到所述服务器掉电,来确保对服务器的组件运行状态的实时监控。
所述服务器的状态监控装置中,通过配置单元配置一个传感器对应监控服务器的一类组件;通过第一获取单元获取服务器中目标组件的包括当前运行数据以及标识信息的当前状态信息;通过第一确定单元确定当前状态信息是否存在异常;通过第二确定单元在当前状态信息存在异常的情况下,根据异常信息和标识信息生成日志信息。相比于现有技术中BMC的传感器数据较多,造成状态监控代码复杂、可维护性差的问题,本申请的装置通过配置一个传感器对应监控服务器的一类组件,当一个组件出现异常时,通过将组件的标识信息以及对应的异常信息记录到日志描述中,这样相比一个传感器监控一个组件,本申请大大精简了传感器数量,对于后台监控代码研发人员来说,在一定程度上精简了状态监控代码,提高了代码可维护性,减少了由于传感器数量繁多而导致的代码出错问题,在应用层面减少了BMC的存储开支。另外,传感器的减少节省了BMC的存储空间。
以硬盘故障为例,在传统方案中,如果需要监控硬盘故障,那么就需要监控硬盘状态的传感器数量和服务器的硬盘数量相等,比如服务器有30块硬盘,那就需要定义30个硬盘的传感器来监控硬盘状态。本方案通过将传感器按照传感器类型进行分类,对于服务器所有硬盘只需要一个硬盘状态传感器,当故障发生时候,将状态故障的硬盘序号作为事件,记录到系统事件日志描述中。这样大大精简了传感器数量,对于后台监控代码研发人员来说,由于在一定程度上精简了状态监控代码,提高了代码可维护性,减少了由于传感器数量繁多而导致的出错;对于BMC本身的存储空间来说,传感器减少也在一定程度上节省了BMC的存储空间。因此,本申请的方案在不影响服务器组件故障上报的同时精简了BMC中传感器的数量。
当然,所述过程同样适用于服务器的其他传感器,如风扇状态监控传感器以及开关电源状态传感器等。
需要说明的是,所述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:所述模块均位于同一处理器中;或者,所述各个模块以任意组合的形式分别位于不同的处理器中。
本申请的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行所述任一项方法实施例中的步骤。
所述的计算机可读存储介质用于执行任一种所述的方法,该方法通过配置一个传感器对应监控服务器的一类组件,当一个组件出现异常时,通过将组件的标识信息以及对应的异常信息记录到日志描述中,这样大大精简了传感器数量,对于后台监控代码研发人员来说,在一定程度上精简了状态监控代码,提高了代码可维护性,减少了由于传感器数量繁多而导致的代码出错问题,减少了传感器对BMC存储空间的占用。
在一个示例性实施例中,所述计算机可读存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本申请的实施例还提供了一种电子设备,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行所述任一项方法实施例中的步骤。
所述的电子设备用于执行任一种所述的服务器的状态监控方法,该方法通过配置一个传感器对应监控服务器的一类组件,当一个组件出现异常时,通过将组件的标识信息以及对应的异常信息记录到日志描述中,这样大大精简了传感器数量,对于后台监控代码研发人员来说,在一定程度上精简了状态监控代码,提高了代码可维护性,减少了由于传感器数量繁多而导致的代码出错问题,减少了传感器对BMC存储空间的占用。
在一个示例性实施例中,所述电子设备还可以包括传输设备以及输入输出设备,其中,该传输设备和所述处理器连接,该输入输出设备和所述处理器连接。
本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图4是本申请实施例的一种服务器的状态监控方法的移动终端的硬件结构框图。如图4所示,移动终端可以包括一个或多个(图4中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,其中,所述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图4所示的结构仅为示意,其并不对所述移动终端的结构造成限定。例如,移动终端还可包括比图4中所示更多或者更少的组件,或者具有与图4所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本申请实施例中的服务器的状态监控方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现所述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。所述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。所述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
根据本申请的一个实施例,还提供了一种BMC,包括服务器的状态监控装置,所述状态监控装置运行时实现所述任一项方法实施例中的步骤。
所述BMC包括状态监控装置,状态监控装置用于执行任一项所述的方法。相比于现有技术中BMC的传感器数据较多,造成状态监控代码复杂、可维护性差的问题,本申请的BMC中,一个传感器对应监控服务器的一类组件,当组件出现异常时,负责监控该组件的传感器将组件的标识信息以及对应的异常记录到日志描述中,这样大大精简了传感器数量,对于后台监控代码研发人员来说,在一定程度上精简了状态监控代码,提高了代码可维护性,减少了由于传感器数量繁多而导致的代码出错问题,在应用层面减少了BMC的存储开支。另外,传感器的减少节省了BMC的存储空间。
一种具体的实施例中,多个所述传感器可以包括硬盘状态监控传感器、风扇状态监控传感器以及开关电源状态监控传感器,当然,还可以包括其他类型的传感器,根据组件的种类划分传感器的类别。
根据本申请的又一个实施例,还提供了一种服务器平台,包括服务器以及所述的BMC,所述服务器包括多个组件类,一个所述组件类包括相同类别的多个组件。
所述服务器平台包括服务器以及所述的BMC,所述服务器包括多个组件类,一个所述组件类包括相同类别的多个组件,所述BMC配置一个所述传感器监控服务器的一类组件,通过多个传感器来监控服务器的多个组件类,通过获取服务器中目标组件的包括当前运行数据以及标识信息的当前状态信息,并确定当前状态信息是否存在异常,在当前状态信息存在异常的情况下,根据异常信息和标识信息生成日志信息。这样大大精简了传感器数量,对于后台监控代码研发人员来说,在一定程度上精简了状态监控代码,提高了代码可维护性,减少了由于传感器数量繁多而导致的代码出错问题,在应用层面减少了BMC的存储开支。另外,传感器的减少节省了BMC的存储空间,从而保证了整个服务器平台的存储空间较大。
本实施例中的具体示例可以参考所述实施例及示例性实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,所述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (20)

1.一种服务器的状态监控方法,所述服务器包括多个组件类,一个所述组件类包括相同类别的多个组件,其特征在于,所述方法包括:
配置步骤,配置一个传感器对应监控所述服务器的一类所述组件;
获取步骤,获取服务器中目标组件的当前状态信息,所述当前状态信息包括当前运行数据以及标识信息;
第一确定步骤,确定所述当前状态信息是否存在异常;
第二确定步骤,在所述当前状态信息存在异常的情况下,确定异常信息并至少根据所述异常信息以及所述标识信息生成日志信息。
2.根据权利要求1所述的方法,其特征在于,确定所述当前状态信息是否存在异常,包括:
根据所述标识信息,确定所述目标组件的历史运行数据;
根据所述当前运行数据以及所述历史运行数据,确定所述当前状态信息是否存在异常,在所述当前运行数据与所述历史运行数据不同的情况下,确定所述当前状态信息存在异常。
3.根据权利要求2所述的方法,其特征在于,确定异常信息,包括:
比较所述当前运行数据以及所述历史运行数据,确定所述当前运行数据中,与所述历史运行数据不同的数据为所述异常信息。
4.根据权利要求2所述的方法,其特征在于,根据所述标识信息,确定所述目标组件的历史运行数据,包括:
根据所述标识信息,从BMC的存储空间中调用所述标识信息对应的多个历史状态信息,所述历史状态信息包括历史数据以及历史时刻,所述历史数据表征所述服务器历史的运行数据,所述历史时刻为所述历史数据生成的时刻;
确定目标历史时刻对应的所述历史数据为所述历史运行数据,所述目标历史时刻为与当前时刻的时间间隔最短的所述历史时刻,所述当前时刻为所述当前运行数据生成的时刻。
5.根据权利要求2所述的方法,其特征在于,根据所述标识信息,确定所述目标组件的历史运行数据,包括:
根据所述标识信息,从BMC的存储空间中调用所述标识信息对应的多个历史数据,所述历史数据表征所述服务器历史的运行数据,多个所述历史数据构成所述历史运行数据。
6.根据权利要求2所述的方法,其特征在于,根据所述当前运行数据以及所述历史运行数据,确定所述当前状态信息是否存在异常,包括:
从所述当前运行数据中提取运行参数以及第一数据,所述第一数据为所述运行参数的当前参数值;
从所述历史运行数据中提取运行参数以及第二数据,所述第二数据为所述运行参数对应的历史参数值;
比较相同的所述运行参数对应的所述第一数据和所述第二数据是否相同;
在相同的所述运行参数对应的所述第一数据和所述第二数据不相同的情况下,确定所述当前状态信息存在异常。
7.根据权利要求1至6中任一项所述的方法,其特征在于,获取服务器中目标组件的当前状态信息,包括:
接收告警设备发送的目标组件数据,所述目标组件数据为所述告警设备在检测到目标背板的数据更新时,获取的所述目标背板的数据,所述目标组件安装在所述目标背板上;
每隔预定时长解析所述目标组件数据,得到所述当前运行数据、所述标识信息以及当前时刻,所述当前时刻为所述当前运行数据生成的时刻,所述当前运行数据、所述标识信息以及当前时刻构成所述当前状态信息。
8.根据权利要求7所述的方法,其特征在于,至少根据所述异常信息以及所述标识信息生成日志信息,包括:
根据所述当前时刻,生成时间戳信息;
根据所述异常信息、所述标识信息以及所述时间戳信息,生成所述日志信息;
至少上报所述日志信息。
9.根据权利要求8所述的方法,其特征在于,在根据所述异常信息、所述标识信息以及所述时间戳信息,生成所述日志信息之后,在至少上报所述日志信息之前,所述方法还包括:
从所述日志信息中提取所述目标组件的关键指标数据;
获取所述关键指标数据对应的预设阈值范围;
根据所述关键指标数据以及所述预设阈值范围,确定所述目标组件是否出现故障,在所述关键指标数据未位于所述预设阈值范围内的情况下,确定所述目标组件出现故障;
在所述目标组件出现故障的情况下,根据故障的所述关键指标数据,生成故障警报信息。
10.根据权利要求9所述的方法,其特征在于,至少上报所述日志信息,包括:
上报所述日志信息以及所述故障警报信息。
11.根据权利要求7所述的方法,其特征在于,所述告警设备包括复杂可编程逻辑器件。
12.根据权利要求1至6中任一项所述的方法,其特征在于,获取服务器中目标组件的当前状态信息,包括:
接收告警设备发送的目标组件数据,所述目标组件数据为所述告警设备实时检测的同类型的所述组件的运行数据;
每隔预定时长解析所述目标组件数据,得到所述当前运行数据以及所述标识信息。
13.根据权利要求1至6中任一项所述的方法,其特征在于,所述标识信息包括表征各所述组件的排列顺序的组件序号。
14.根据权利要求1至6中任一项所述的方法,其特征在于,所述目标组件包括硬盘、风扇以及开关电源中至少之一。
15.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述服务器未掉电的情况下,循环执行所述配置步骤,配置一个传感器对应监控所述服务器的一类所述组件;获取步骤、所述第一确定步骤以及所述第二确定步骤至少一次,直到所述服务器掉电。
16.一种服务器的状态监控装置,所述服务器包括多个组件类,一个所述组件类包括相同类别的多个组件,其特征在于,所述装置包括:
配置单元,用于配置步骤,配置一个传感器对应监控所述服务器的一类组件;
第一获取单元,用于获取步骤,获取服务器中目标组件的当前状态信息,所述当前状态信息包括当前运行数据以及标识信息;
第一确定单元,用于第一确定步骤,确定所述当前状态信息是否存在异常;
第二确定单元,用于第二确定步骤,在所述当前状态信息存在异常的情况下,确定异常信息并至少根据所述异常信息以及所述标识信息生成日志信息。
17.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被处理器执行时实现所述权利要求1至15任一项中所述的方法的步骤。
18.一种电子设备,其特征在于,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述权利要求1至15任一项中所述的方法的步骤。
19.一种BMC,其特征在于,包括:服务器的状态监控装置,所述状态监控装置运行时实现所述权利要求1至15任一项中所述的方法的步骤。
20.一种服务器平台,其特征在于,包括:
服务器,包括多个组件类,一个所述组件类包括相同类别的多个组件;
权利要求19所述的BMC。
CN202211482701.4A 2022-11-24 2022-11-24 服务器的状态监控方法及装置 Pending CN116431426A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211482701.4A CN116431426A (zh) 2022-11-24 2022-11-24 服务器的状态监控方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211482701.4A CN116431426A (zh) 2022-11-24 2022-11-24 服务器的状态监控方法及装置

Publications (1)

Publication Number Publication Date
CN116431426A true CN116431426A (zh) 2023-07-14

Family

ID=87084279

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211482701.4A Pending CN116431426A (zh) 2022-11-24 2022-11-24 服务器的状态监控方法及装置

Country Status (1)

Country Link
CN (1) CN116431426A (zh)

Similar Documents

Publication Publication Date Title
CN110224858B (zh) 基于日志的告警方法及相关装置
US8041996B2 (en) Method and apparatus for time-based event correlation
CN110046073B (zh) 一种日志采集方法及装置、设备、存储介质
CN111130938B (zh) 指标采集方法、装置、电子设备及计算机可读存储介质
CN109240891A (zh) 一种sr整机柜服务器的监控方法及装置
CN114363151A (zh) 故障检测方法和装置、电子设备和存储介质
CN106294364B (zh) 实现网络爬虫抓取网页的方法和装置
CN110069382B (zh) 软件监控方法、服务器、终端设备、计算机设备及介质
CN110224872B (zh) 一种通信方法、装置及存储介质
CN117271234A (zh) 故障诊断方法、装置、存储介质及电子装置
CN116055291A (zh) 节点的异常提示信息的确定方法、装置
CN116431426A (zh) 服务器的状态监控方法及装置
CN113487182B (zh) 设备健康状态评估方法、装置、计算机设备和介质
CN115543707A (zh) 硬盘故障的检测方法、系统和装置、存储介质及电子装置
CN115934453A (zh) 一种故障排查方法、装置及存储介质
CN112463504B (zh) 一种双控存储产品测试方法、系统、终端及存储介质
CN114356722A (zh) 用于服务器集群的监控告警方法、系统、设备及存储介质
CN113835939A (zh) 故障信息的处理方法及装置、存储介质、电子装置
CN111769980A (zh) 操作信息的显示方法及装置、存储介质和电子装置
CN111813872A (zh) 一种故障排查模型的生成方法、装置、设备
CN112035315A (zh) 网页数据监控方法、装置、计算机设备及存储介质
CN111506446B (zh) 接口故障检测方法及服务器
CN109144765B (zh) 报表生成方法、装置、计算机设备及存储介质
CN115480977A (zh) 一种故障监测方法、装置、电子设备和存储介质
CN114598588B (zh) 服务器故障确定方法、装置及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination