CN114328102A - 设备状态监控方法、装置、设备及计算机可读存储介质 - Google Patents

设备状态监控方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN114328102A
CN114328102A CN202111602701.9A CN202111602701A CN114328102A CN 114328102 A CN114328102 A CN 114328102A CN 202111602701 A CN202111602701 A CN 202111602701A CN 114328102 A CN114328102 A CN 114328102A
Authority
CN
China
Prior art keywords
real
time
state parameters
historical
monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111602701.9A
Other languages
English (en)
Other versions
CN114328102B (zh
Inventor
孙永博
林楷智
李道童
芦飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN202111602701.9A priority Critical patent/CN114328102B/zh
Publication of CN114328102A publication Critical patent/CN114328102A/zh
Priority to PCT/CN2022/113519 priority patent/WO2023115999A1/zh
Application granted granted Critical
Publication of CN114328102B publication Critical patent/CN114328102B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种设备状态监控方法,通过保存历史上采集到的监控对象设备的历史状态参数,将获取到的监控对象设备的实时状态参数与监控对象设备的历史状态参数进行对比,当发现与历史状态参数的偏差超出预设范围的异常实时状态参数后,执行异常实时状态参数的对应处理机制,从而弥补了对跨机器启动、重启的时间跨度内出现的设备运行情况的监控空白,弥补现有技术中将设备运行状态与标准状态对比的方式进行实时监控的监控漏洞,实现了对设备状态的非实时性监控,提高对设备运行状态监控的能力,提升对设备异常的可维护性,完善机器报错功能,节省维护人力。本申请还公开了一种设备状态监控装置、设备及计算机可读存储介质,具有上述有益效果。

Description

设备状态监控方法、装置、设备及计算机可读存储介质
技术领域
本申请涉及服务器监控技术领域,特别是涉及一种设备状态监控方法、装置、设备及计算机可读存储介质。
背景技术
现有的服务器设备状态监控通常为对设备状态进行实时监控后,与预先存储的标准状态进行对比以确定当前时刻设备是否存在异常,然而对设备运行过程中,尤其是跨机器启动、重启的时间跨度内出现的设备运行情况,缺乏有效的监控,这就导致对一些实时监测不到的设备异常状态无法监测到。例如,当发生设备掉卡后,基本输入输出系统(BasicInput Output System,BIOS)或基板管理控制器(Baseboard Management Controller,BMC)会检测不到设备,但是并不能判断是设备运行中出错导致的掉卡,还是设备本来就没有安装在机器上。这一部分监控空白导致用户无法发现到一些设备运行隐患以及在出现相应异常(如设备掉卡)时无法及时判断设备异常原因。
发明内容
本申请的目的是提供一种设备状态监控方法、装置、设备及计算机可读存储介质,用于实现对设备状态的非实时性监控,弥补现有技术中没有方案对设备掉卡等故障进行实时监控的漏洞,提高对设备运行状态监控的能力,提升对设备异常的可维护性,完善机器报错功能,节省维护人力。
为解决上述技术问题,本申请提供一种设备状态监控方法,包括:
保存历史上采集到的监控对象设备的历史状态参数;
获取所述监控对象设备的实时状态参数;
将所述实时状态参数与所述历史状态参数对比;
若存在与所述历史状态参数的偏差超出预设范围的异常实时状态参数,则执行所述异常实时状态参数的对应处理机制。
可选的,所述监控对象设备具体包括PCIe设备、中央处理器、内存设备、硬盘驱动器中的至少一种。
可选的,所述监控对象设备为PCIe设备;
所述实时状态参数具体包括:设备在位状态参数、厂商标识、物理插槽标识、最大传输速率、最大带宽、实时传输速率、实时带宽、逻辑标识、所在PCIe链路的拓扑数据中的至少一项。
可选的,所述设备状态监控方法应用于基本输入输出系统所在装置;
所述获取所述监控对象设备的实时状态参数,具体为:
在完成对所述监控对象设备的初始化之后、在启动操作系统之前,至少一次地获取所述实时状态参数;
和/或,
在启动所述操作系统之后,触发系统管理中断以获取所述实时状态参数。
可选的,所述保存历史上采集到的监控对象设备的历史状态参数,具体为:
根据先进先出原则存储预设数据量的所述历史状态参数,存储预设时间点的所述历史状态参数,存储预设事件发生时的所述历史状态参数,存储所述历史状态参数的均值,存储预设类型的所述历史状态参数中的至少一种。
可选的,所述保存历史上采集到的监控对象设备的历史状态参数,具体为:
将所述历史状态参数存储于预设存储芯片,将所述历史状态参数存储于预先划分的内存区域,将所述历史状态参数通过智能平台管理接口命令或Redfish技术或共享内存发送至基板管理控制器进行存储,将所述历史状态参数存储于预先划分的内存区域中的至少一种。
可选的,所述将所述实时状态参数与所述历史状态参数对比,具体为:
执行将所述实时状态参数与存储时间最早的所述历史状态参数对比、将所述实时状态参数与存储时间最晚的所述历史状态参数对比、将所述实时状态参数与全体所述历史状态参数对比、将所述实时状态参数与所述历史状态参数中的预设历史状态参数对比中的至少一项。
为解决上述技术问题,本申请还提供一种设备状态监控装置,包括:
存储单元,用于保存历史上采集到的监控对象设备的历史状态参数;
获取单元,用于获取所述监控对象设备的实时状态参数;
对比单元,用于将所述实时状态参数与所述历史状态参数对比;
异常处理单元,用于若存在与所述历史状态参数的偏差超出预设范围的异常实时状态参数,则执行所述异常实时状态参数的对应处理机制。
为解决上述技术问题,本申请还提供一种设备状态监控设备包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序,所述计算机程序被所述处理器执行时实现如上述任意一项所述设备状态监控方法的步骤。
为解决上述技术问题,本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任意一项所述设备状态监控方法的步骤。
本申请所提供的设备状态监控方法,通过保存历史上采集到的监控对象设备的历史状态参数,将获取到的监控对象设备的实时状态参数与监控对象设备的历史状态参数进行对比,当发现与历史状态参数的偏差超出预设范围的异常实时状态参数后,执行异常实时状态参数的对应处理机制,从而弥补了对跨机器启动、重启的时间跨度内出现的设备运行情况的监控空白,实现了对设备状态的非实时性监控,提高对设备运行状态监控的能力,提升对设备异常的可维护性,完善机器报错功能,节省维护人力。
本申请还提供了一种设备状态监控装置、设备及计算机可读存储介质,具有上述有益效果,在此不再赘述。
附图说明
为了更清楚的说明本申请实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种设备状态监控方法的流程图;
图2为本申请实施例提供的一种设备状态监控装置的结构示意图;
图3为本申请实施例提供的一种设备状态监控设备的结构示意图。
具体实施方式
本申请的核心是提供一种设备状态监控方法、装置、设备及计算机可读存储介质,用于实现对设备状态的非实时性监控,弥补现有技术中将设备运行状态与标准状态对比的方式进行实时监控的监控漏洞,提高对设备运行状态监控的能力,提升对设备异常的可维护性,完善机器报错功能,节省维护人力。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例一
图1为本申请实施例提供的一种设备状态监控方法的流程图。
如图1所示,本申请实施例提供的设备状态监控方法包括:
S101:保存历史上采集到的监控对象设备的历史状态参数。
S102:获取监控对象设备的实时状态参数。
S103:将实时状态参数与历史状态参数对比。
S104:若存在与历史状态参数的偏差超出预设范围的异常实时状态参数,则执行异常实时状态参数的对应处理机制。
在具体实施中,本申请实施例针对的监控对象设备可以包括但不限于PCIe设备、中央处理器、内存设备、硬盘驱动器等。本申请实施例的执行主体可以采用基本输入输出系统(Basic Input Output System,BIOS)、基板管理控制器(Baseboard ManagementController,BMC)或操作系统(operating system,OS)所在设备,也可以由多主体协同完成各个步骤。通过开发监控脚本,或编写监控程序并写入执行主体原有程序中进行共同编译,实现对监控对象设备的自动化监控。本申请实施例提供的设备状态监控方法的各个步骤还可以在BIOS启动、UEFI shell、进入操作系统后等不同阶段连续执行或分别执行。
对于步骤S101和步骤S102来说,监控对象设备的实时状态参数和监控对象设备的历史状态参数,可以是同一执行主体以相同路径采集到的状态参数,也可以为接收前一执行主体通过不同路径采集到的历史状态参数。BIOS和BMC原本对PCIe设备、中央处理器、内存设备、硬盘驱动器等监控对象设备有实时监控机制,可以复用这些实时监控机制采集到的状态参数,也可以另行开发监控功能。获取监控对象设备的实时状态参数的时间点具体可以为在预设时间点获取、周期性获取、预设事件(如设备上下电)触发获取、随机性获取等。对不同监控对象设备的不同类型的状态参数还可以采用不同的获取及存储策略。
通过调用与监控对象设备对应的接口函数读取监控对象设备的寄存器,可以获取实时状态参数。根据执行主体不同,可以采用相同或不同的路径获取到监控对象设备的状态参数,例如对中央处理器、内存设备、硬盘驱动器等,都可以由BIOS通过UEFI规范提供的Protocol,访问各自相关的寄存器,来获取到关注的信息及出错状态等;这种基本的硬件寄存器的访问,在操作系统OS下也都会有相应的功能支持函数。
对于这些监控对象设备,本申请实施例提供的设备状态监控方法适用于进行长期地非实时性的监控,以便有效获知实时监控难以定位的故障信息,同时也可以对以往具有实时监控机制的参数(如带宽)进行这种长期地非实时性的监控,从而获知这些状态参数在长期运行过程中的异常变化。
以监控对象设备为PCIe设备为例,则实时状态参数可以包括但不限于设备在位状态参数、厂商标识(Vendor ID)、物理插槽标识(Physical slot number)、最大传输速率(Max Link Speed)、最大带宽(Max Link Width)、实时传输速率(Current Link Speed)、实时带宽(Current Link Width)、逻辑标识(Bus/Device/Function number)、所在PCIe链路的拓扑数据(各级upstream bridge的Bus/Device/Function number)等。
获取的实时状态参数可以全部作为历史状态参数进行存储,也可以只存储部分实时状态参数或进行计算、转化后的实时状态参数。
在保存历史上采集到的监控对象设备的历史状态参数时,预先为监控对象设备的历史状态参数划分硬件存储空间或软件存储空间,并制定对应的存储规则避免存储数据超出存储空间容量。可以将历史状态参数保存于用于采集历史状态参数的设备本地,也可以发送至另一设备。
则步骤S101:保存历史上采集到的监控对象设备的历史状态参数,具体可以将历史状态参数存储于预设存储芯片,或将历史状态参数存储于预先划分的内存区域,或将历史状态参数通过智能平台管理接口命令(IPMI Command)或Redfish技术或共享内存发送至基板管理控制器进行存储。其中,若由BIOS采集实时状态参数,则可以将历史状态参数存储于BIOS对应的存储芯片或BIOS Variable变量。若采用BIOS或其他设备采集实时状态参数,也可以将历史状态参数发送至基板管理控制器存储,此时可以通过软件的形式,如智能平台管理接口命令、Redfish技术或软件共享内存的方式发送至基板管理控制器,也可以通过共享的存储芯片发送给基板管理控制器。
一个监控对象设备可以对应一块存储区域,也可以对应多块存储区域;在多块存储区域间进行存储时,可以执行负载均衡策略或按照存储优先级进行存储。
历史状态参数的存储结构按需进行合理设计,例如可以设计为链表结构,可以为每一次存储的信息设置标号等,便于查找访问。
同时,为避免存储数据超出存储空间容量,在保存历史上采集到的监控对象设备的历史状态参数时,制定对应的存储策略,包括但不限于:根据先进先出原则存储预设数据量的历史状态参数,存储预设时间点的历史状态参数,存储预设事件发生时的历史状态参数,存储历史状态参数的均值,存储预设类型的历史状态参数等。其中,各存储策略可以择一采用,或采用多个存储策略。若采用先进先出的存储策略,当超出存储空间容量或存储空间容量的某比例时,以最新存储的历史状态参数覆盖最早存储的历史状态参数。若采用存储预设时间点的历史状态参数,具体可以为选择固定的时刻对应的历史状态参数进行存储或周期性地进行存储。若采用存储预设事件发生时的历史状态参数的存储策略,则可以预先定义触发事件,如设备开机时存储状态参数,或在设备下电前存储状态参数。若采用历史状态参数的均值的方式,则可以根据各历史时间点对应的历史状态参数值计算均值,属性计算出最大概率出现的属性等,可以结合先进先出的存储原则,如只将预计超出存储空间容量的历史状态参数计算均值以覆盖这部分历史状态参数。若采用存储预设类型的历史状态参数的存储策略,则可以在各监控对象设备的实时监控参数中,提取需要进行非实时性长期监控的状态参数进行存储,或结合存储历史状态参数的均值的策略,将重要程度较高的历史状态参数进行全量存储,而对重要程度次之的历史状态参数采用存储均值的方式。
对于步骤S103和步骤S104来说,将实时状态参数与历史状态参数对比,即将监控对象设备的当前状态和其历史状态进行对比监控,若出现与历史状态不一致的情况则执行对应的处理机制。对于初次监控到实时状态参数、没有历史状态参数的监控对象设备,则可以不执行步骤S103,或在第一次对比中先按照标准参数列表进行对比,在后续对比过程中再与真实的历史状态参数进行对比。
步骤S103:将实时状态参数与历史状态参数对比,包括但不限于:执行将实时状态参数与存储时间最早的历史状态参数对比、将实时状态参数与存储时间最晚的历史状态参数对比、将实时状态参数与全体历史状态参数对比、将实时状态参数与历史状态参数中的预设历史状态参数对比等方式。对不同监控对象设备的不同类型的状态参数还可以采用不同的对比策略。对监控对象设备的某一状态参数,可以采用固定的对比策略,也可以根据当前执行主体的计算资源而灵活切换对比策略,如在计算资源充足时,可以将全部类型的实时状态参数与历史状态参数进行全量对比;在计算资源不充足时或为了节约计算资源时,可以将全部或部分类型的实时状态参数与存储时间最早的历史状态参数、或存储时间最晚的历史状态参数、或按固定规则或随机从历史状态参数中抽取预设历史状态参数、或历史状态参数的均值进行对比。同样的,在计算资源充足时,可以在每次获取到实时状态参数时均进行对比;在计算资源不充足时或为了节约计算资源时,可以在多次获取实时状态参数时仅选择一次进行对比,或先将待对比的实时状态参数进行存储并待计算资源充足后进行对比。
步骤S104是在存在与历史状态参数的偏差超出预设范围的异常实时状态参数时才执行的步骤。对应处理机制具体与监控对象设备的状态参数的类型对应。各监控对象设备的不同类型的状态参数可以采用相同的对应处理机制,也可以采用不同的对应处理机制,可以接受用户设定的对应处理机制。对应处理机制可以包括但不限于发送报错信息、记录报错日志、推送维护建议、执行纠错策略等。例如可以调用预设接口向用户发送报错信息,利用智能平台管理接口命令通知基板管理控制器对异常实时状态参数记录报错日志,告知用户出现异常的监控对象设备的信息、监控对象设备的位置、异常实时状态参数对应的错误类型(如上一次可以检测到的PCIe设备这次检测不到了,疑似出现设备掉卡),根据预先生成的故障处理列表调用对应的维护建议推送给用户,如可以更换设备、检查配置是否出现了变化等。或对于能够自行处理的异常调用预设的纠错策略进行自动纠错处理等。
本申请实施例提供的设备状态监控方法,通过保存历史上采集到的监控对象设备的历史状态参数,将获取到的监控对象设备的实时状态参数与监控对象设备的历史状态参数进行对比,当发现与历史状态参数的偏差超出预设范围的异常实时状态参数后,执行异常实时状态参数的对应处理机制,从而弥补了对跨机器启动、重启的时间跨度内出现的设备运行情况的监控空白,实现了对设备状态的非实时性监控,提高对设备运行状态监控的能力,提升对设备异常的可维护性,完善机器报错功能,节省维护人力。
实施例二
在上述实施例中提到,本申请实施例的执行主体可以为基本输入输出系统、基板管理控制器或操作系统。则在上述实施例的基础上,本申请实施例提供的设备状态监控方法以应用于基本输入输出系统(下文简称BIOS)所在装置的情况进行说明。
则步骤S102中获取监控对象设备的实时状态参数,具体可以为:
在完成对监控对象设备的初始化之后、在启动操作系统之前,至少一次地获取实时状态参数;
和/或,
在启动操作系统之后,触发系统管理中断以获取实时状态参数。
以监控对象设备为PCIe设备为例。BIOS在枚举和处理PCIe设备时,会为每个PCIe设备分配一组Bus、Device、Function number(PCIe设备的总线、设备、功能数值,简称BDF值),这个Bus、Device、Function Number信息组合唯一,可以用这三个数据的组合来唯一定位一个PCIe逻辑设备;另外还会通过读取设备配置空间的相关寄存器,来获得设备的属性、状态等,比如获得PCIe可以支持的速录、带宽等,和PCIe当前运行的速录、带宽等,当可以支持的属性和当前运行的状态不一致时,BIOS把设备的相关信息,比如PCIe的Bus、Device、Function number,不一致的属性类型(速录、带宽等),设备的物理位置信息等,通过包括但不限于IPMI Command等形式,发送给基板管理控制器BMC,记录一条报错的日志,日志里包括这些出错的设备和状态信息。
BIOS会实现PCIe设备的资产信息功能,具体为在BIOS把PCIe设备初始化好以后,在启动到操作系统OS之前,会收集所有PCIe设备的各自的一系列信息,包括但不限于设备及设备所在的PCIe Bridge的BDF值,在位状态、物理插槽标识(Physical slot number)、位置信息等等,把这些信息通过包括但不限于IPMI command或者Redfish技术传递给BMC,BMC接收到以后,会把这些设备属性按设备分别显示在它的Web界面上,供用户查看了解。为了区分每个设备的所在位置,会通过设置设备所在bridge寄存器的方式来设置每个设备的物理插槽标识(Physical slot number),达到每个设备都有唯一的物理插槽标识(Physicalslot number)的效果,各个设备的物理插槽标识(Physical slot number)都不相同;另外会用每个设备的唯一的物理插槽标识(Physical slot number),来跟它的位置信息字符串匹配,每个物理插槽标识(Physical slot number)唯一地定位到一个设备,然后位置信息字符串来体现这个设备在机器中的物理位置;本申请实施例中也可以采用这样的设计和设置来达到同样的效果,可以复用资产信息功能中实现的数据。
在具体实施中,以监控对象设备为PCIe设备为例,在BIOS初始化PCIe设备处理完成之后,启动到操作系统OS前,一次或者多次收集所有PCIe设备的属性信息,其中的信息的数量和具体收集哪些信息可以根据实际需要增减;可以复用资产信息功能收集的设备信息,也可以另外再实现;比如可以只收集设备的BDF值,和/或设备的厂商标识(Vendor ID)、设备标识(Device ID)、物理插槽标识(Physical slot number)。BIOS通过读取PCIe设备的寄存器来获取PCIe设备的实时状态参数。包括但不限于:BIOS通过读取PCIe设备的厂商标识(Vendor ID)和设备标识(Device ID)寄存器,判断PCIe设备是否在位;BIOS通过读取PCIe设备的插槽功能(slot capabilities)寄存器,获得PCIe设备的物理插槽标识(Physical slot number),可以与物理设备所在的插槽对应;BIOS通过读取PCIe设备的连接功能(Link Capabilities)寄存器,获得PCIe设备的最大传输速率(Max Link Speed)、最大带宽(Max Link Width);BIOS通过读取PCIe设备的连接状态(Link Status)寄存器,获得PCIe设备的实时传输速率(Current Link Speed)、实时带宽(Current Link Width);BIOS通过读取PCIe设备的BDF值,获得PCIe设备的逻辑ID标识;BIOS通过读取PCIe设备各级链路(upstream bridge)的BDF值,得到设备所在PCIe链路的拓扑数据。BIOS下和UEFI Shell环境下支持的读取方式包括但不限于:EFI_PCI_IO_PROTOCOL支持的成员函数,如EFI_PCI_IO_PROTOCOL_ACCESS,分为Memory和IO两种;EFI_PCI_IO_PROTOCOL_GET_LOCATION函数等;在汇编语言中支持的IO和Memory访问指令;在Windows和Linux操作系统下读的是同样的寄存器,有各自的IO或者Memory访问功能函数。
BIOS将每一次收集的所有监控对象设备的信息保存起来,如上述实施例所述的,可以将历史状态参数存储于预设存储芯片,或将历史状态参数通过智能平台管理接口命令(IPMI Command)或Redfish技术发送至基板管理控制器进行存储,并按需进行合理的存储结构设计,并制定对应的存储策略。
BIOS将获取到的监控对象设备的实时状态参数与此前保存的历史状态参数进行对比,具体可以参考上述实施例中说明的对比方式。以监控对象设备为PCIe设备为例,BIOS将采集到的PCIe设备的实时状态参数与此前保存的PCIe设备的历史状态参数进行对比,包括但不限于,与最前一次保存的数据作比较、或者与上一次数据比较、或者与保存的所有数据比较、随机或者有规律地选其中的一些保存的数据做比较等;根据需要也可以增加数据的收集和比较次数;当比较发现PCIe设备的数量发生了变化,则把变化情况比如增加了还是减少了,增减了多少个,增减的设备的关键属性,比如包括但不限于厂商标识(VendorID)、设备标识(Device ID)、物理插槽标识(Physical slot number)、位置信息等通过智能平台管理接口命令等方式发送给BMC记录设备发生变化的日志,这些数据有助于判断发生变化的设备是什么设备、具体位于机器上什么位置等,便于有针对性性地机型维护处理。
进一步的根据实际需要,BIOS也可以利用平台芯片提供的周期性的系统管理中断(SMI)功能,包括但不限于Intel芯片提供的周期性地触发SMI功能,选取可支持的合适的触发间隔时间,比如64S/32S等,在SMI handler功能函数里面实现上述的数据比较分析与发送相关数据通知BMC记录日志的功能,这样在进到操作系统以后,仍然可以实现在每间隔设定的时间,触发SMI,执行上述功能。
比较分析数据的行为根据实际需要也可以由BMC或者操作系统来完成,基于同样的BIOS收集的监控对象设备的实时状态参数和历史状态参数。现有的针对PCIe设备的监控机制中,为每个PCIe设备4K大小的配置空间,则可以通过每个PCIe设备4K大小的配置空间所体现的信息,来侦测的其它类型的设备出错类型,而又不能实时监测的,也可以通过上述非实时性地处理方案来侦测,监测到错误以后进行各种可能形式的报错和记录日志处理。
上文详述了设备状态监控方法对应的各个实施例,在此基础上,本申请还公开了与上述方法对应的设备状态监控装置、设备及计算机可读存储介质。
实施例三
图2为本申请实施例提供的一种设备状态监控装置的结构示意图。
如图2所示,本申请实施例提供的设备状态监控装置包括:
存储单元201,用于保存历史上采集到的监控对象设备的历史状态参数;
获取单元202,用于获取监控对象设备的实时状态参数;
对比单元203,用于将实时状态参数与历史状态参数对比;
异常处理单元204,用于若存在与历史状态参数的偏差超出预设范围的异常实时状态参数,则执行异常实时状态参数的对应处理机制。
由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
实施例四
图3为本申请实施例提供的一种设备状态监控设备的结构示意图。
如图3所示,本申请实施例提供的设备状态监控设备包括:
存储器310,用于存储计算机程序311;
处理器320,用于执行计算机程序311,该计算机程序311被处理器320执行时实现如上述任意一项实施例所述设备状态监控方法的步骤。
其中,处理器320可以包括一个或多个处理核心,比如3核心处理器、8核心处理器等。处理器320可以采用数字信号处理DSP(Digital Signal Processing)、现场可编程门阵列FPGA(Field-Programmable Gate Array)、可编程逻辑阵列PLA(Programmable LogicArray)中的至少一种硬件形式来实现。处理器320也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称中央处理器CPU(CentralProcessing Unit);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器320可以集成有图像处理器GPU(Graphics Processing Unit),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器320还可以包括人工智能AI(Artificial Intelligence)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器310可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器310还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器310至少用于存储以下计算机程序311,其中,该计算机程序311被处理器320加载并执行之后,能够实现前述任一实施例公开的设备状态监控方法中的相关步骤。另外,存储器310所存储的资源还可以包括操作系统312和数据313等,存储方式可以是短暂存储或者永久存储。其中,操作系统312可以为Windows。数据313可以包括但不限于上述方法所涉及到的数据。
在一些实施例中,设备状态监控设备还可包括有显示屏330、电源340、通信接口350、输入输出接口360、传感器370以及通信总线380。
本领域技术人员可以理解,图3中示出的结构并不构成对设备状态监控设备的限定,可以包括比图示更多或更少的组件。
本申请实施例提供的设备状态监控设备,包括存储器和处理器,处理器在执行存储器存储的程序时,能够实现如上所述的设备状态监控方法,效果同上。
实施例五
需要说明的是,以上所描述的装置、设备实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本申请各个实施例所述方法的全部或部分步骤。
为此,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如设备状态监控方法的步骤。
该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器ROM(Read-OnlyMemory)、随机存取存储器RAM(Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本实施例中提供的计算机可读存储介质所包含的计算机程序能够在被处理器执行时实现如上所述的设备状态监控方法的步骤,效果同上。
以上对本申请所提供的一种设备状态监控方法、装置、设备及计算机可读存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、设备及计算机可读存储介质而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种设备状态监控方法,其特征在于,包括:
保存历史上采集到的监控对象设备的历史状态参数;
获取所述监控对象设备的实时状态参数;
将所述实时状态参数与所述历史状态参数对比;
若存在与所述历史状态参数的偏差超出预设范围的异常实时状态参数,则执行所述异常实时状态参数的对应处理机制。
2.根据权利要求1所述的设备状态监控方法,其特征在于,所述监控对象设备具体包括PCIe设备、中央处理器、内存设备、硬盘驱动器中的至少一种。
3.根据权利要求1所述的设备状态监控方法,其特征在于,所述监控对象设备为PCIe设备;
所述实时状态参数具体包括:设备在位状态参数、厂商标识、物理插槽标识、最大传输速率、最大带宽、实时传输速率、实时带宽、逻辑标识、所在PCIe链路的拓扑数据中的至少一项。
4.根据权利要求1所述的设备状态监控方法,其特征在于,所述设备状态监控方法应用于基本输入输出系统所在装置;
所述获取所述监控对象设备的实时状态参数,具体为:
在完成对所述监控对象设备的初始化之后、在启动操作系统之前,至少一次地获取所述实时状态参数;
和/或,
在启动所述操作系统之后,触发系统管理中断以获取所述实时状态参数。
5.根据权利要求1所述的设备状态监控方法,其特征在于,所述保存历史上采集到的监控对象设备的历史状态参数,具体为:
根据先进先出原则存储预设数据量的所述历史状态参数,存储预设时间点的所述历史状态参数,存储预设事件发生时的所述历史状态参数,存储所述历史状态参数的均值,存储预设类型的所述历史状态参数中的至少一种。
6.根据权利要求1所述的设备状态监控方法,其特征在于,所述保存历史上采集到的监控对象设备的历史状态参数,具体为:
将所述历史状态参数存储于预设存储芯片,将所述历史状态参数存储于预先划分的内存区域,将所述历史状态参数通过智能平台管理接口命令或Redfish技术或共享内存发送至基板管理控制器进行存储的至少一种。
7.根据权利要求1所述的设备状态监控方法,其特征在于,所述将所述实时状态参数与所述历史状态参数对比,具体为:
执行将所述实时状态参数与存储时间最早的所述历史状态参数对比、将所述实时状态参数与存储时间最晚的所述历史状态参数对比、将所述实时状态参数与全体所述历史状态参数对比、将所述实时状态参数与所述历史状态参数中的预设历史状态参数对比中的至少一项。
8.一种设备状态监控装置,其特征在于,包括:
存储单元,用于保存历史上采集到的监控对象设备的历史状态参数;
获取单元,用于获取所述监控对象设备的实时状态参数;
对比单元,用于将所述实时状态参数与所述历史状态参数对比;
异常处理单元,用于若存在与所述历史状态参数的偏差超出预设范围的异常实时状态参数,则执行所述异常实时状态参数的对应处理机制。
9.一种设备状态监控设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7任意一项所述设备状态监控方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任意一项所述设备状态监控方法的步骤。
CN202111602701.9A 2021-12-24 2021-12-24 设备状态监控方法、装置、设备及计算机可读存储介质 Active CN114328102B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111602701.9A CN114328102B (zh) 2021-12-24 2021-12-24 设备状态监控方法、装置、设备及计算机可读存储介质
PCT/CN2022/113519 WO2023115999A1 (zh) 2021-12-24 2022-08-19 设备状态监控方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111602701.9A CN114328102B (zh) 2021-12-24 2021-12-24 设备状态监控方法、装置、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN114328102A true CN114328102A (zh) 2022-04-12
CN114328102B CN114328102B (zh) 2024-02-09

Family

ID=81012119

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111602701.9A Active CN114328102B (zh) 2021-12-24 2021-12-24 设备状态监控方法、装置、设备及计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN114328102B (zh)
WO (1) WO2023115999A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023115999A1 (zh) * 2021-12-24 2023-06-29 浪潮(北京)电子信息产业有限公司 设备状态监控方法、装置、设备及计算机可读存储介质
CN116795650A (zh) * 2023-06-29 2023-09-22 浙江海得智慧能源有限公司 一种储能系统运行状态监测方法、系统及设备

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116521378B (zh) * 2023-07-03 2023-09-19 苏州浪潮智能科技有限公司 服务器的传感器访问方法、装置和基板管理控制器
CN117271610B (zh) * 2023-11-17 2024-03-12 深圳曼顿科技有限公司 设备状态管理方法、装置、终端设备及存储介质
CN117527870B (zh) * 2023-12-07 2024-05-03 东莞信易电热机械有限公司 一种塑胶成型的控制方法及系统
CN117554681B (zh) * 2024-01-08 2024-03-22 银河航天(西安)科技有限公司 一种应用于卫星的电力监测方法、装置及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6738811B1 (en) * 2000-03-31 2004-05-18 Supermicro Computer, Inc. Method and architecture for monitoring the health of servers across data networks
EP2372490A1 (en) * 2010-03-31 2011-10-05 Robert Bosch GmbH Circuit arrangement for a data processing system and method for data processing
CN103353851A (zh) * 2013-07-01 2013-10-16 华为技术有限公司 一种管理任务的方法和设备
CN106444662A (zh) * 2016-09-23 2017-02-22 东莞团诚自动化设备有限公司 一种用于物联网的数据采集装置及方法
CN108254643A (zh) * 2018-01-17 2018-07-06 中科创能实业有限公司 监控方法及监控装置
CN110442402A (zh) * 2019-08-08 2019-11-12 中国建设银行股份有限公司 数据处理方法、装置、设备及存储介质
CN112463541A (zh) * 2020-12-14 2021-03-09 上海金仕达软件科技有限公司 一种数据监控方法及系统
CN112748847A (zh) * 2019-10-29 2021-05-04 伊姆西Ip控股有限责任公司 管理存储系统中的存储空间的方法、设备和程序产品
CN113192233A (zh) * 2021-04-29 2021-07-30 北京车和家信息技术有限公司 数据采集方法、装置、设备及介质
CN113703917A (zh) * 2021-08-26 2021-11-26 上海道客网络科技有限公司 一种多集群资源数据处理系统与方法、非暂态存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114328102B (zh) * 2021-12-24 2024-02-09 浪潮(北京)电子信息产业有限公司 设备状态监控方法、装置、设备及计算机可读存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6738811B1 (en) * 2000-03-31 2004-05-18 Supermicro Computer, Inc. Method and architecture for monitoring the health of servers across data networks
EP2372490A1 (en) * 2010-03-31 2011-10-05 Robert Bosch GmbH Circuit arrangement for a data processing system and method for data processing
CN103353851A (zh) * 2013-07-01 2013-10-16 华为技术有限公司 一种管理任务的方法和设备
CN106444662A (zh) * 2016-09-23 2017-02-22 东莞团诚自动化设备有限公司 一种用于物联网的数据采集装置及方法
CN108254643A (zh) * 2018-01-17 2018-07-06 中科创能实业有限公司 监控方法及监控装置
CN110442402A (zh) * 2019-08-08 2019-11-12 中国建设银行股份有限公司 数据处理方法、装置、设备及存储介质
CN112748847A (zh) * 2019-10-29 2021-05-04 伊姆西Ip控股有限责任公司 管理存储系统中的存储空间的方法、设备和程序产品
CN112463541A (zh) * 2020-12-14 2021-03-09 上海金仕达软件科技有限公司 一种数据监控方法及系统
CN113192233A (zh) * 2021-04-29 2021-07-30 北京车和家信息技术有限公司 数据采集方法、装置、设备及介质
CN113703917A (zh) * 2021-08-26 2021-11-26 上海道客网络科技有限公司 一种多集群资源数据处理系统与方法、非暂态存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023115999A1 (zh) * 2021-12-24 2023-06-29 浪潮(北京)电子信息产业有限公司 设备状态监控方法、装置、设备及计算机可读存储介质
CN116795650A (zh) * 2023-06-29 2023-09-22 浙江海得智慧能源有限公司 一种储能系统运行状态监测方法、系统及设备
CN116795650B (zh) * 2023-06-29 2024-05-03 浙江海得智慧能源有限公司 一种储能系统运行状态监测方法、系统及设备

Also Published As

Publication number Publication date
WO2023115999A1 (zh) 2023-06-29
CN114328102B (zh) 2024-02-09

Similar Documents

Publication Publication Date Title
CN114328102B (zh) 设备状态监控方法、装置、设备及计算机可读存储介质
US10073753B2 (en) System and method to assess information handling system health and resource utilization
CN108874624B (zh) 服务器、监控Java进程的方法及存储介质
US10558545B2 (en) Multiple modeling paradigm for predictive analytics
US8949676B2 (en) Real-time event storm detection in a cloud environment
EP2523115A1 (en) Operation management device, operation management method, and program storage medium
US20050188263A1 (en) Detecting and correcting a failure sequence in a computer system before a failure occurs
CN112286709B (zh) 一种服务器硬件故障的诊断方法、诊断装置及诊断设备
US7318171B2 (en) Policy-based response to system errors occurring during OS runtime
JP2007323193A (ja) 性能負荷異常検出システム、性能負荷異常検出方法、及びプログラム
CN113645085B (zh) 智能网卡的异常检测方法、装置、电子设备及存储介质
JP5623557B2 (ja) 診断データを収集するためのマルチスレッド化コンピューティング環境における方法、装置、およびコンピュータ・プログラム
CN110018932B (zh) 一种容器磁盘的监控方法及装置
CN113590405A (zh) 硬盘错误的检测方法、装置、存储介质和电子装置
CN113708986A (zh) 服务器监控装置、方法及计算机可读存储介质
JP5768503B2 (ja) 情報処理装置、ログ記憶制御プログラムおよびログ記憶制御方法
JP2018180982A (ja) 情報処理装置、およびログ記録方法
CN109634796A (zh) 一种计算机的故障诊断方法、装置及系统
CN115543746A (zh) 图形处理器监测方法、系统、装置及电子设备
US11237892B1 (en) Obtaining data for fault identification
CN115422010A (zh) 数据集群中的节点管理方法、装置及存储介质
CN113742113A (zh) 一种嵌入式系统健康管理方法、设备及储存介质
CN116719663B (zh) 一种数据处理方法、装置、设备以及可读存储介质
CN117439899B (zh) 一种基于大数据的通信机房巡检方法及系统
JP2015130023A (ja) 情報記録装置、情報処理装置、情報記録方法、及び情報記録プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant