CN116719657A - 一种固件故障日志生成方法、装置、服务器及可读介质 - Google Patents

一种固件故障日志生成方法、装置、服务器及可读介质 Download PDF

Info

Publication number
CN116719657A
CN116719657A CN202310594320.3A CN202310594320A CN116719657A CN 116719657 A CN116719657 A CN 116719657A CN 202310594320 A CN202310594320 A CN 202310594320A CN 116719657 A CN116719657 A CN 116719657A
Authority
CN
China
Prior art keywords
firmware
register
reason
state
error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310594320.3A
Other languages
English (en)
Inventor
陆力信
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202310594320.3A priority Critical patent/CN116719657A/zh
Publication of CN116719657A publication Critical patent/CN116719657A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种固件故障日志生成方法、装置、服务器及可读介质,应用于基板管理控制器,基板管理控制器设置于服务器中,服务器还包括至少平台固件保护恢复芯片一种固件;配置两种寄存器空间,寄存器空间包括状态标识寄存器和错误寄存器;在固件重启的情况下,根据状态信息,确定固件的重启原因;若固件的重启原因与平台固件保护恢复芯片关联,根据错误原因信息,定位固件的故障原因;将故障原因记录在预设于服务器中的日志里,解决了平台固件保护恢复芯片由于其安全特性,使用备用镜像将出现问题的固件镜像全部覆盖,甚至重置其他固件,导致所有固件对固件问题都没有记录任何日志,固件的重启原因和固件问题难以确定的问题。

Description

一种固件故障日志生成方法、装置、服务器及可读介质
技术领域
本申请属于服务器技术领域,具体涉及一种固件故障日志生成方法、装置、服务器及可读介质。
背景技术
基板管理控制器(BMC)是服务器特有的管理控制器,用于监测各硬件的健康状态,获取各硬件的信息,有助于运维人员及时了解到服务器的运行状况,保证服务器正常运行;基本输入输出系统(BIOS)是服务器开机运行的第一个软件,用于为计算机提供最底层的、最直接的硬件设置和控制,还可以向作业系统提供一些系统参数;平台固件保护恢复芯片(PFR)是一种确保安全升级的可编程逻辑芯片,能够确保平台固件代码和关键数据保持完整性并防止损坏的机制,并且在检测到任何此类固件代码或关键数据已损坏或通过授权机制强制恢复时,将平台固件代码和关键数据恢复到完整性状态的机制。
平台固件保护恢复芯片在检测到包括基板管理控制器、基本输入输出系统和平台固件保护恢复芯片在内的任一固件安全性或稳定性受到威胁,任一固件出现问题时,会使用备用镜像将原来的固件镜像进行覆盖,甚至重置其他固件。由于此时全部是硬件主导,固件被直接复位,甚至重置其他固件,可能会导致所有固件对固件错误都没有记录任何日志的情况。在固件重启之后,用户难以确定固件的重启原因,难以定位固件问题。
发明内容
本申请旨在提供一种固件故障日志生成方法、装置、服务器及可读介质,至少解决了平台固件保护恢复芯片为了加强固件的安全保障,在检测到固件问题时,使用备用镜像将原来的固件镜像全部覆盖,甚至重置其他固件,导致所有固件对固件问题都没有记录任何日志,在固件重启之后,固件的重启原因难以确定,固件问题难以定位的问题。
为了解决上述技术问题,本申请是这样实现的:
本发明实施例公开了一种固件故障日志生成方法,应用于基板管理控制器,所述基板管理控制器设置于服务器中,所述服务器还包括至少平台固件保护恢复芯片一种固件;所述方法包括:
配置两种寄存器空间,所述寄存器空间包括状态标识寄存器和错误寄存器;所述状态标识寄存器用于通过存储状态改变标识位记录状态信息,所述状态信息用于记录固件当前状态;所述错误寄存器用于记录固件错误产生时产生的固件错误信息;
在所述固件重启的情况下,根据所述状态信息,确定所述固件的重启原因;
若所述固件的重启原因与所述平台固件保护恢复芯片关联,根据所述错误原因信息,定位所述固件的故障原因;
将所述故障原因记录在预设于所述服务器中的日志里。
可选地,所述方法还包括:
所述平台固件保护恢复芯片检测到所述固件故障时,更新所述状态信息;
所述平台固件保护恢复芯片检测到所述固件故障时,将所述固件的错误原因信息记录在所述错误寄存器内。
可选地,所述状态标识寄存器通过存储状态改变标识位记录状态信息;
所述平台固件保护恢复芯片检测到所述固件故障时,更新所述状态信息的步骤,包括:
所述平台固件保护恢复芯片检测到所述固件故障时,更新所述状态改变标识位以更新状态信息。
可选地,所述在所述固件重启的情况下,根据所述状态信息,确定所述固件的重启原因的步骤,包括:
在所述基板管理控制器重启的情况下,读取所述状态标识寄存器中的所述状态信息,确定所述基板管理控制器的重启原因。
可选地,所述方法还包括:
在所述基板管理控制器重启且开始运行时,先读取一次所述状态标识寄存器中的所述状态信息。
可选地,所述在所述固件重启的情况下,根据所述状态信息,确定所述固件的重启原因的步骤,包括:
在所述基板管理控制器中创建一个线程,所述线程开启轮循机制,用于监控状态标识寄存器中所述基本输入输出系统和/或平台固件保护恢复芯片的状态信息;
在所述基板管理控制器保持正常运行,且所述基本输入输出系统重启的情况下,读取所述状态信息,确定所述基本输入输出系统的重启原因;
在所述基板管理控制器保持正常运行,且所述平台固件保护恢复芯片重启的情况下,读取所述状态信息,确定所述平台固件保护恢复芯片的重启原因。
可选地,在所述将所述故障原因记录在预设于所述服务器的日志里步骤之后,所述方法还包括:
清空所述状态标识寄存器和/或错误寄存器。
本发明实施例还公开了一种固件故障日志生成装置,应用于基板管理控制器,所述基板管理控制器设置于服务器中,所述服务器还包括至少平台固件保护恢复芯片一种固件;所述装置包括:
配置模块,用于配置两种寄存器空间,所述寄存器空间包括状态标识寄存器和错误寄存器;所述状态标识寄存器用于通过存储状态改变标识位记录状态信息,所述状态信息用于记录固件当前状态;所述错误寄存器用于记录固件错误产生时产生的固件错误信息;
确定模块,用于在所述固件重启的情况下,根据所述状态信息,确定所述固件的重启原因;
定位模块,用于若所述固件的重启原因与所述平台固件保护恢复芯片关联,根据所述错误原因信息,定位所述固件的故障原因;
记录模块,用于将所述故障原因记录在预设于所述服务器中的日志里。
可选地,所述固件故障日志生成装置还包括:
状态信息更新子模块,用于所述平台固件保护恢复芯片检测到所述固件故障时,更新所述状态信息;
错误原因信息记录子模块,用于所述平台固件保护恢复芯片检测到所述固件故障时,将所述固件的错误原因信息记录在所述错误寄存器内。
可选地,所述状态标识寄存器通过存储状态改变标识位记录状态信息;所述状态信息更新子模块包括:
状态改变标识位存储单元,用于所述平台固件保护恢复芯片检测到所述固件故障时,存储所述状态改变标识位以更新状态信息。
可选地,所述确定模块包括:
状态信息读取子模块,用于在所述基板管理控制器重启的情况下,读取所述状态标识寄存器中的所述状态信息,确定所述基板管理控制器的重启原因。
可选地,所述确定模块还包括:
线程创建子模块,用于在所述基板管理控制器中创建一个线程,所述线程开启轮循机制,用于监控状态标识寄存器中所述基本输入输出系统和/或平台固件保护恢复芯片的状态信息;
状态信息读取子模块,用于在所述基板管理控制器保持正常运行,且所述基本输入输出系统重启的情况下,读取所述状态信息,确定所述基本输入输出系统的重启原因;在所述基板管理控制器保持正常运行,且所述平台固件保护恢复芯片重启的情况下,读取所述状态信息,确定所述平台固件保护恢复芯片的重启原因。
可选地,所述固件故障日志生成装置还包括:
清空模块,用于清空所述状态标识寄存器和/或错误寄存器。
本发明实施例还公开了一种服务器,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口以及所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行存储器上所存放的程序,实现如上所述的方法。
本发明实施例还公开了一种计算机可读介质,其上存储有指令,当所述指令由一个或多个处理器执行时,使得所述处理器执行如上所述的方法。
本发明实施例包括以下优点:
本申请公开了一种固件故障日志生成方法、装置、服务器及可读介质,应用于基板管理控制器,基板管理控制器设置于服务器中,服务器中还包括至少平台固件保护恢复芯片一种固件。基板管理控制器配置两种寄存器空间,包括状态标识寄存器和错误寄存器;状态标识寄存器用于通过存储状态改变标识位记录状态信息,记录固件当前状态;错误寄存器用于记录固件产生错误时产生的固件错误信息;在固件重启的情况下,根据记录于状态标识寄存器中的状态信息,确定固件的重启原因;若固件的重启原因与平台固件保护恢复芯片关联,根据记载于错误寄存器中的错误原因信息,定位固件的故障原因,并将固件的故障原因记录在预设于服务器的日志里,解决了平台固件保护恢复芯片为了加强固件的安全保障,在检测到固件问题时,使用备用镜像将原来的固件镜像全部覆盖,甚至重置其他固件,导致所有固件对固件问题都没有记录任何日志,在固件重启之后,固件的重启原因难以确定,固件问题难以定位的问题。
附图说明
图1是本发明实施例中提供的一种固件故障日志生成方法的步骤流程图;
图2是本发明实施例中提供的一种固件故障日志生成装置的结构框图;
图3是本发明各实施例中提供的一种服务器的硬件结构框图;
图4是本发明实施例中提供的一种计算机可读介质的示意图。
具体实施方式
为使本发明的上述目的、技术方案和优点能够更加明显易懂,下面将结合附图和具体实施方式对本发明作进一步详细的说明。
为便于理解本发明实施例的技术方案和技术效果,下面将对本发明的现有技术进行简要说明。
基板管理控制器(BMC),是服务器特有的管理控制器,操作的对象是服务器硬件,是把平台管理的一系列监视和控制功能集成到一起的控制器。基板管理控制器主要用于自动监控服务器运行状态,主要包括各硬件的健康状态。同时,基板管理控制器可获取各硬件的信息,并记录各种硬件的状态信息和日志,有助于运维人员及时了解服务器的运行状况,帮助运维人员定位后续问题,保证服务器的正常运行。
基本输入输出系统(BIOS),是服务器开机后运行的第一个软件,其主要功能是为服务器提供最底层的、最直接的硬件设置和控制,还可以向作业系统提供一些系统参数。
平台固件保护恢复芯片(PFR)是一种确保安全升级的可编程逻辑芯片,是固件的安全保障,具有确保平台固件代码和关键数据保持完整性并防止损坏的机制,并且在检测到平台固件代码和关键数据已损坏或通过授权机制强制恢复时,将平台固件代码和关键数据恢复到完整性状态的机制。
平台固件保护恢复芯片为了加强固件的安全保障,在检测到包括基板管理控制器、基本输入输出系统和平台固件保护恢复芯片在内的任一固件安全性或稳定性受到威胁,任一固件出现问题时,会将当前出现问题的固件的所有数据清除,使用备用镜像将原来的固件镜像进行覆盖,甚至重置其他固件。为了便于理解,假定服务器中只含有基板管理控制器、基本输入输出系统和平台固件保护恢复芯片三种固件,当平台固件保护恢复芯片检测到一种固件出现问题时,由于平台固件保护恢复芯片的安全特性,平台固件保护恢复芯片会把当前出现问题的固件的所有数据清除,使用备用镜像将原来的固件镜像进行覆盖,甚至重置其他两种固件;由于此时全部都是硬件主导,会产生三种固件都无法对固件错误都没有记录任何日志的情况,使得在固件重启后,难以断定固件的重启原因,难以定位固件问题。为了解决此问题,本发明提供了一种固件故障日志生成方法。
参照图1,示出了本发明实施例中提供的一种固件故障日志生成方法的步骤流程图,应用于基板管理控制器,所述基板管理控制器设置于服务器中,所述服务器还包括至少一种固件,所述固件包括基板管理控制器、平台固件保护恢复芯片两种固件;具体可以包括如下步骤:
步骤101,配置两种寄存器空间,所述寄存器空间包括状态标识寄存器和错误寄存器;所述状态标识寄存器用于通过存储状态改变标识位记录状态信息,所述状态信息用于记录固件当前状态;所述错误寄存器用于记录固件错误产生时产生的固件错误信息。
在本发明实施例中,基板管理控制器配置两种寄存器空间,所述寄存器空间包括状态标识寄存器和错误寄存器。其中,寄存器是中央处理器(CPU)内的组成部分,是用来存放数据的一些小型存储区域,用来暂时存放参与运算的数据和运算结果。
在本发明实施例中,配置两种寄存器空间。其中,所述状态标识寄存器用于通过存储状态改变标识位记录状态信息,所述状态信息用于记录固件当前状态,所述错误寄存器用于记录固件错误产生时产生的固件错误信息。例如:在服务器运行的过程中,将记录固件当前状态的状态信息记录到状态标识寄存器里。在平台固件保护恢复芯片检测到固件问题时,固件错误信息记录到错误寄存器里。
通过配置两种寄存器空间,专门用来存储固件状态的改变和固件的错误信息,避免了由于平台固件保护恢复芯片将平台固件代码和关键数据恢复到完整性的机制,使得平台固件保护恢复芯片将当前出现问题的固件的所有数据清除,并将备用镜像对出现问题的固件进行全部覆盖,甚至重置其他两种固件,导致三种固件都无法对错误记录任何日志的情况。
步骤102,在所述固件重启的情况下,根据所述状态信息,确定所述固件的重启原因。
在本发明实施例中,当固件重启时,根据记录在状态标识寄存器内的状态信息,确定固件的重启原因,避免了由于平台固件保护恢复芯片使用备用镜像对出现问题的固件进行全部覆盖,甚至重置其他两种固件导致三种固件都无法对错误记录任何日志,导致所述固件的重启原因无法确定。
步骤103,若所述固件的重启原因与所述平台固件保护恢复芯片关联,根据所述错误原因信息,定位所述固件的故障原因;
在本发明实施例中,平台固件保护恢复芯片检测到固件出现故障时,具有将出现问题的固件的所有数据清除,并将备用镜像对出现问题的固件进行覆盖,甚至重置其他两种固件来保证平台固件代码和关键数据恢复到完整性的机制。当固件的重启是由于平台固件保护恢复芯片重置固件导致的重启,则有可能三种固件都被平台固件保护恢复芯片重置而没有对固件错误记录任何日志。
在本发明实施例中,若三种固件都已经被重置,根据记录于错误寄存器中的错误原因信息,确定固件的错误原因,解决了由于平台固件保护恢复芯片重置三种固件导致无法定位固件的故障原因。
步骤104,将所述故障原因记录在预设于所述服务器中的日志里。
在本发明实施例中,日志是服务器自动创建和维护的日志文件,其中包括其所执行活动的列表。当根据记录在错误寄存器内的错误原因信息确定所述固件的故障原因后,将故障原因记录在日志里,便于运维人员快速定位问题的根源。
进一步地,在上述任一实施例中,所述固件故障日志生成方法还包括:
子步骤S11,所述平台固件保护恢复芯片检测到所述固件故障时,更新所述状态信息;
子步骤S12,所述平台固件保护恢复芯片检测到所述固件故障时,将所述固件的错误原因信息记录在所述错误寄存器内。
在本发明实施例中,为了解决在平台固件保护恢复芯片检测到固件故障时,由于平台固件保护恢复芯片为了保障平台固件代码和关键数据的完整性,导致对出现问题的固件进行覆盖,重置其他两种固件,三种固件都无法对错误记录任何日志的情况,在平台固件保护恢复芯片检测到所述固件故障时,更新所述状态信息,将所述固件的错误原因信息记录在所述错误寄存器内,便于运维人员定位固件故障,保证服务器正常运行。
进一步地,在上述任一实施例中,所述固件故障日志生成方法还包括:所述状态标识寄存器通过存储状态改变标识位记录状态信息。上述步骤201具体可执行为如下流程:
子步骤S21,所述平台固件保护恢复芯片检测到所述固件故障时,更新所述状态改变标识位,以更新状态信息。
在本发明实施例中,通过更新所述状态改变标识位,更新状态信息,并且将固件的错误原因信息记载在错误寄存器里,解决了平台固件保护恢复芯片将三种固件重置,导致三种固件都无法对固件故障记录任何日志,无法定位固件故障原因。其中,状态信息用于记录固件状态,状态寄存器可用于存储状态改变标识位记录状态信息。
进一步地,在上述任一实施例中,上述步骤102具体可执行为如下流程:
子步骤S31,在所述基板管理控制器重启的情况下,读取所述状态标识寄存器中的所述状态信息,确定所述基板管理控制器重启的原因。
在本发明实施例中,在基板管理控制器重启的情况下,通过读取状态标识寄存器中的状态信息,确定重启的原因,判断是否由于平台固件保护恢复芯片重置基板管理控制器导致的基板管理控制器重启。例如:服务器中的包括基板管理控制器在内的某种固件的安全性或稳定性出现问题时,平台固件保护恢复芯片为了加强固件的安全保障,将出现问题的固件进行数据清除,并将备用镜像全部刷新到出现问题的固件上,甚至有可能重置其他固件,基板管理控制器因此重启。基板管理控制器也可能因为用户操作等其他的原因重启。当基板管理控制器重启时,通过读取状态标识器中的状态信息,确定基板管理控制器的重启原因。
进一步地,在上述任一实施例中,所述固件故障日志生成方法还包括:
在所述基板管理控制器重启的情况下,所述基板管理控制器开始运行时,先读取一次所述状态标识寄存器中的所述状态信息。
在本发明实施例中,基板管理控制器的主要功能是自动监控服务器运行状态,监测各硬件的健康状态,获取各硬件的信息。例如:当基板管理控制器重启后,基板管理控制器开始运行时,先读取一次状态标识寄存器中的状态信息,判断是否只有基板管理控制器一种固件重启,固件的重启原因是否与平台固件保护恢复芯片相关联,基板管理控制器一种固件或多种固件的重启原因是由用户主动操作重启,还是在某个或某些固件出现故障时,基板管理控制器重置固件导致的重启。
在基板管理控制器重启后,基板管理控制器开始运行时,先读取一次状态标识寄存器中的状态信息,可以帮助运维人员判断固件重启原因,定位固件故障,修复硬件安全保障带来的去缺陷。
进一步地,在上述任一实施例中,上述步骤102具体还可执行为如下流程:
子步骤S32,在所述基板管理控制器中创建一个线程,所述线程开启轮循机制,用于监控状态标识寄存器中基本输入输出系统和/或平台固件保护恢复芯片的状态信息。
子步骤S33,在所述基板管理控制器保持正常运行,且所述基本输入输出系统重启的情况下,读取所述状态信息,确定所述基本输入输出系统重启的原因;
子步骤S34,在所述基板管理控制器保持正常运行,且所述平台固件保护恢复芯片重启的情况下,读取所述状态信息,确定所述平台固件保护恢复芯片重启的原因。
基板管理控制器的主要功能是自动监控服务器运行状态,监测各硬件的健康状态,获取各硬件的信息;在基板管理控制器重启时,当所述基板管理控制器开始运行时,先读取一次状态标识寄存器中的状态信息,判断重启原因;当特殊情况下,基板管理控制器未重启,其他固件重启时,基板管理控制器可能就无法及时读取到状态标识寄存器中的状态信息,判断其他固件的重启原因。
为了解决此问题,在本发明实施例中,在基板管理控制器中创建一个线程,在线程中开启轮循机制,不断地读取状态标识寄存器中的状态信息,并进行比对,判断状态信息是否改变,判断基本输入输出系统和/或平台固件保护恢复芯片的重启原因。例如:当基本输入输出系统重启而基板管理控制器保持正常运行时,基板管理控制器中的线程在不断读取状态标识寄存器中的状态信息,通过比对发现状态标识寄存器的内容改变,根据状态信息判断基本输入输出系统的重启原因,判断重启原因是否与平台固件保护恢复芯片相关联。
在本发明实施例中,通过在基板管理控制器中创建一个线程,在线程中开启轮循机制,监控基本输入输出系统和/或平台固件保护恢复芯片的状态信息,确定其重启原因,解决了在基板管理控制器操持正常运行的情况下,不能及时读取状态信息,导致无法及时判断基本输入输出系统和/或平台固件保护恢复芯片的重启原因,进而无法定位固件的故障原因,修复硬件安全保障带来的缺陷的问题。
进一步地,在上述任一实施例中,将所述故障原因记录在预设于所述服务器的日志里之后,所述固件故障日志生成方法还包括:
清空所述状态标识寄存器和/或错误寄存器。
在本发明实施例中,日志是服务器自动创建和维护的日志文件,通过访问寄存器获取相应信息记录在日志里。当根据记录在错误寄存器内的错误原因信息确定所述固件的故障原因后,将故障原因记录在日志里,便于运维人员快速定位问题的根源。最后清空寄存器防止误读导致日志记录错误。
需要说明的是,本发明实施例包括但不限于上述示例,可以理解的是,本发明实施例的思想指导下,本领域技术人员还可以根据实际需求进行设置,本发明对比不做限制。
在本发明实施例中,基板管理控制器设置于服务器中,服务器中还包括至少平台固件保护恢复芯片一种固件。基板管理控制器配置两种寄存器空间,包括状态标识寄存器和错误寄存器;状态标识寄存器用于通过存储状态改变标识位记录状态信息,记录固件当前状态;错误寄存器用于记录固件产生错误时产生的固件错误信息;在固件重启的情况下,根据记录于状态标识寄存器中的状态信息,确定固件的重启原因;若固件的重启原因与平台固件保护恢复芯片关联,根据记载于错误寄存器中的错误原因信息,定位固件的故障原因,并将固件的故障原因记录在预设于服务器的日志里,解决了平台固件保护恢复芯片为了加强固件的安全保障,在检测到固件问题时,使用备用镜像将原来的固件镜像全部覆盖,甚至重置其他固件,导致所有固件对固件问题都没有记录任何日志,在固件重启之后,固件的重启原因难以确定,固件问题难以定位的问题。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图2,示出了本发明实施例中提供的一种固件故障日志生成装置的结构框图,具体可以包括如下模块:
配置模块201,用于配置两种寄存器空间,所述寄存器空间包括状态标识寄存器和错误寄存器;所述状态标识寄存器用于通过存储状态改变标识位记录状态信息,所述状态信息用于记录固件当前状态;所述错误寄存器用于记录固件错误产生时产生的固件错误信息;
确定模块202,用于在所述固件重启的情况下,根据所述状态信息,确定所述固件的重启原因;
定位模块203,用于若所述固件的重启原因与所述平台固件保护恢复芯片关联,根据所述错误原因信息,定位所述固件的故障原因;
记录模块204,用于将所述故障原因记录在预设于所述服务器中的日志里。
可选地,所述固件故障日志生成装置还包括:
状态信息更新子模块,用于所述平台固件保护恢复芯片检测到所述固件故障时,更新所述状态信息;
错误原因信息记录子模块,用于所述平台固件保护恢复芯片检测到所述固件故障时,将所述固件的错误原因信息记录在所述错误寄存器内。
可选地,所述状态标识寄存器通过存储状态改变标识位记录状态信息;所述状态信息更新子模块包括:
状态改变标识位存储单元,用于所述平台固件保护恢复芯片检测到所述固件故障时,存储所述状态改变标识位以更新状态信息。
可选地,所述确定模块包括:
状态信息读取子模块,用于在所述基板管理控制器重启的情况下,读取所述状态标识寄存器中的所述状态信息,确定所述基板管理控制器的重启原因。
可选地,所述确定模块还包括:
线程创建子模块,用于在所述基板管理控制器中创建一个线程,所述线程开启轮循机制,用于监控状态标识寄存器中所述基本输入输出系统和/或平台固件保护恢复芯片的状态信息;
状态信息读取子模块,用于在所述基板管理控制器保持正常运行,且所述基本输入输出系统重启的情况下,读取所述状态信息,确定所述基本输入输出系统的重启原因;在所述基板管理控制器保持正常运行,且所述平台固件保护恢复芯片重启的情况下,读取所述状态信息,确定所述平台固件保护恢复芯片的重启原因。
可选地,所述固件故障日志生成装置还包括:
清空模块,用于清空所述状态标识寄存器和/或错误寄存器。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
另外,本发明实施例还提供一种服务器,如图3所示,包括处理器301、通信接口302、存储器303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信,
存储器303,用于存放计算机程序;
处理器301,用于执行存储器303上所存放的程序,实现如下步骤:
配置两种寄存器空间,所述寄存器空间包括状态标识寄存器和错误寄存器;所述状态标识寄存器用于通过存储状态改变标识位记录状态信息,所述状态信息用于记录固件当前状态;所诉错误寄存器用于记录固件错误产生时产生的固件错误信息;
在所述固件重启的情况下,根据所述状态信息,确定所述固件的重启原因;
若所述固件的重启原因与所述平台固件保护恢复芯片关联,根据所述错误原因信息,定位所述固件的故障原因;
将所述故障原因记录在预设于所述服务器中的日志里。
在本发明的一种可选实施例中,所述固件故障日志生成方法还包括:
所述平台固件保护恢复芯片检测到所述固件故障时,更新所述状态信息;
所述平台固件保护恢复芯片检测到所述固件故障时,将所述固件的错误原因信息记录在所述错误寄存器内。
在本发明的一种可选实施例中,所述状态标识寄存器通过存储状态改变标识位记录状态信息;
所述平台固件保护恢复芯片检测到所述固件故障时,更新所述状态信息的步骤,包括:所述平台固件保护恢复芯片检测到所述固件故障时,更新所述状态改变标识位以更新状态信息。
在本发明的一种可选实施例中,所述在所述固件重启的情况下,根据所述状态信息,确定所述固件的重启原因的步骤,包括:
在所述基板管理控制器重启的情况下,读取所述状态标识寄存器中的所述状态信息,确定所述基板管理控制器重启的原因;
在本发明的一种可选实施例中,在所述基板管理控制器重启的情况下,所述基板管理控制器开始运行时,先读取一次所述状态标识寄存器中的所述状态信息;
在本发明的一种可选实施例中,所述在所述固件重启的情况下,根据所述状态信息,确定所述固件的重启原因的步骤,包括:
在所述基板管理控制器中创建一个线程,所述线程开启轮循机制,用于监控状态标识寄存器中基本输入输出系统和/或平台固件保护恢复芯片的状态信息;
在所述基板管理控制器保持正常运行,且所述基本输入输出系统重启的情况下,读取所述状态信息,确定所述基本输入输出系统重启的原因;
在所述基板管理控制器保持正常运行,且所述平台固件保护恢复芯片重启的情况下,读取所述状态信息,确定所述平台固件保护恢复芯片重启的原因。
在本发明的一种可选实施例中,在所述将所述故障原因记录在预设于所述服务器的日志里步骤之后,所述方法还包括:
清空所述状态标识寄存器和/或错误寄存器。
上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
如图4所示,在本发明提供的又一实施例中,还提供了一种计算机可读介质401,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中所述的一种固件故障日志生成方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中所述的一种固件故障日志生成方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种固件故障日志生成方法,其特征在于,应用于基板管理控制器,所述基板管理控制器设置于服务器中,所述服务器还包括至少平台固件保护恢复芯片一种固件;所述方法包括:
配置两种寄存器空间,所述寄存器空间包括状态标识寄存器和错误寄存器;所述状态标识寄存器用于通过存储状态改变标识位记录状态信息,所述状态信息用于记录固件当前状态;所述错误寄存器用于记录固件错误产生时产生的固件错误信息;
在所述固件重启的情况下,根据所述状态信息,确定所述固件的重启原因;
若所述固件的重启原因与所述平台固件保护恢复芯片关联,根据所述错误原因信息,定位所述固件的故障原因;
将所述故障原因记录在预设于所述服务器中的日志里。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
所述平台固件保护恢复芯片检测到所述固件故障时,更新所述状态信息;
所述平台固件保护恢复芯片检测到所述固件故障时,将所述固件的错误原因信息记录在所述错误寄存器内。
3.根据权利要求2所述的方法,其特征在于,所述状态标识寄存器通过存储状态改变标识位记录状态信息;
所述平台固件保护恢复芯片检测到所述固件故障时,更新所述状态信息的步骤,包括:
所述平台固件保护恢复芯片检测到所述固件故障时,存储所述状态改变标识位以更新状态信息。
4.根据权利要求1所述的方法,其特征在于,所述在所述固件重启的情况下,根据所述状态信息,确定所述固件的重启原因的步骤,包括:
在所述基板管理控制器重启的情况下,读取所述状态标识寄存器中的所述状态信息,确定所述基板管理控制器的重启原因。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
在所述基板管理控制器重启且开始运行时,先读取一次所述状态标识寄存器中的所述状态信息。
6.根据权利要求1所述的方法,其特征在于,所述在所述固件重启的情况下,根据所述状态信息,确定所述固件的重启原因的步骤,还包括:
在所述基板管理控制器中创建一个线程,所述线程开启轮循机制,用于监控状态标识寄存器中所述基本输入输出系统和/或平台固件保护恢复芯片的状态信息;
在所述基板管理控制器保持正常运行,且所述基本输入输出系统重启的情况下,读取所述状态信息,确定所述基本输入输出系统的重启原因;
在所述基板管理控制器保持正常运行,且所述平台固件保护恢复芯片重启的情况下,读取所述状态信息,确定所述平台固件保护恢复芯片的重启原因。
7.根据权利要求1所述的方法,其特征在于,在所述将所述故障原因记录在预设于所述服务器的日志里步骤之后,所述方法还包括:
清空所述状态标识寄存器和/或错误寄存器。
8.一种固件故障日志生成装置,其特征在于,应用于基板管理控制器,所述基板管理控制器设置于服务器中,所述服务器还包括至少平台固件保护恢复芯片一种固件;所述装置包括:
配置模块,用于配置两种寄存器空间,所述寄存器空间包括状态标识寄存器和错误寄存器;所述状态标识寄存器用于通过存储状态改变标识位记录状态信息,所述状态信息用于记录固件当前状态;所述错误寄存器用于记录固件错误产生时产生的固件错误信息;
确定模块,用于在所述固件重启的情况下,根据所述状态信息,确定所述固件的重启原因;
定位模块,用于若所述固件的重启原因与所述平台固件保护恢复芯片关联,根据所述错误原因信息,定位所述固件的故障原因;
记录模块,用于将所述故障原因记录在预设于所述服务器中的日志里。
9.一种服务器,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口以及所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行存储器上所存放的程序,实现如权利要求1-7任一项所述的方法。
10.一种计算机可读介质,其上存储有指令,当所述指令由一个或多个处理器执行时,使得所述处理器执行如权利要求1-7任一项所述的方法。
CN202310594320.3A 2023-05-24 2023-05-24 一种固件故障日志生成方法、装置、服务器及可读介质 Pending CN116719657A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310594320.3A CN116719657A (zh) 2023-05-24 2023-05-24 一种固件故障日志生成方法、装置、服务器及可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310594320.3A CN116719657A (zh) 2023-05-24 2023-05-24 一种固件故障日志生成方法、装置、服务器及可读介质

Publications (1)

Publication Number Publication Date
CN116719657A true CN116719657A (zh) 2023-09-08

Family

ID=87865233

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310594320.3A Pending CN116719657A (zh) 2023-05-24 2023-05-24 一种固件故障日志生成方法、装置、服务器及可读介质

Country Status (1)

Country Link
CN (1) CN116719657A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117331575A (zh) * 2023-10-09 2024-01-02 上海合芯数字科技有限公司 固件修复方法、装置、控制器及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117331575A (zh) * 2023-10-09 2024-01-02 上海合芯数字科技有限公司 固件修复方法、装置、控制器及存储介质

Similar Documents

Publication Publication Date Title
JP6396887B2 (ja) モバイルデバイスサポートサービスを提供するためのシステム、方法、装置、および非一時的コンピュータ可読記憶媒体
US20240012706A1 (en) Method, system and apparatus for fault positioning in starting process of server
JP6267184B2 (ja) モバイル機器サポートサービスを提供するためのシステム、方法、装置、およびコンピュータプログラム製品
CN109670319B (zh) 一种服务器flash安全管理方法及其系统
CN112732477B (zh) 一种带外自检故障隔离的方法
JP2017517060A (ja) 障害処理方法、関連装置、およびコンピュータ
CN111324192A (zh) 一种系统板卡电源检测方法、装置、设备及存储介质
US10275330B2 (en) Computer readable non-transitory recording medium storing pseudo failure generation program, generation method, and generation apparatus
CN116719657A (zh) 一种固件故障日志生成方法、装置、服务器及可读介质
US9465643B1 (en) Systems and methods for monitoring a primary operating system (OS) and/or migrating data using an OS hypervisor
CN112162761A (zh) 自动化部署项目至公有云容器化平台的方法、系统及设备
CN112231140A (zh) 一种存储设备bmc故障恢复方法、系统、终端及存储介质
US10938623B2 (en) Computing element failure identification mechanism
CN109150587B (zh) 一种维护方法和装置
CN114020509A (zh) 工作负载集群的修复方法、装置、设备及可读存储介质
CN110968456B (zh) 分布式存储系统中故障磁盘的处理方法及装置
CN113778763B (zh) 一种三方接口服务故障智能切换方法及系统
CN115080132A (zh) 信息处理方法、装置、服务器及存储介质
CN114153503A (zh) 一种bios控制方法、装置、介质
CN115686951A (zh) 一种数据库服务器的故障处理方法和装置
US9584131B2 (en) Programmable device, information processing device, and control method for processing circuit of programmable device
CN116719663B (zh) 一种数据处理方法、装置、设备以及可读存储介质
KR20040092248A (ko) 전산자원의 원격제어 관리 시스템
CN108415788B (zh) 用于对无响应处理电路作出响应的数据处理设备和方法
CN114443370A (zh) 一种数据还原方法、装置、介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination