CN112948157A - 服务器故障定位方法、装置、系统及计算机可读存储介质 - Google Patents

服务器故障定位方法、装置、系统及计算机可读存储介质 Download PDF

Info

Publication number
CN112948157A
CN112948157A CN202110127034.7A CN202110127034A CN112948157A CN 112948157 A CN112948157 A CN 112948157A CN 202110127034 A CN202110127034 A CN 202110127034A CN 112948157 A CN112948157 A CN 112948157A
Authority
CN
China
Prior art keywords
version
bmc
server
starting
gpio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110127034.7A
Other languages
English (en)
Other versions
CN112948157B (zh
Inventor
孙秀强
黄家明
乔英良
李道童
姚藩益
李勋堂
王兵
艾山彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202110127034.7A priority Critical patent/CN112948157B/zh
Publication of CN112948157A publication Critical patent/CN112948157A/zh
Priority to US18/263,527 priority patent/US20240086269A1/en
Priority to PCT/CN2021/121205 priority patent/WO2022160756A1/zh
Application granted granted Critical
Publication of CN112948157B publication Critical patent/CN112948157B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0772Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0787Storage of error reports, e.g. persistent data storage, storage using memory protection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0778Dumping, i.e. gathering error/state information after a fault for later diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1441Resetting or repowering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)
  • Stored Programmes (AREA)

Abstract

本申请公开了一种服务器故障定位方法、装置、系统及计算机可读存储介质。其中,方法包括预先将基板管理控制器BMC的GPIO针脚和目标硬件的GPIO针脚进行物理连接,并根据GPIO信号状态设置固件的正式版本和测试版本的切换条件。在服务器主板上电启动过程中,主动读取目标硬件的GPIO信号的当前状态值,根据当前状态值和切换条件来确定加载的固件版本为测试版本还是正式版本。若加载的固件版本为测试版本,则输出该测试版本的串口日志信息至BMC;若加载的固件版本为正式版本,则根据预设正常启动条件和系统事件日志确定是否改变BMC和目标硬件连接的GPIO信号状态值,从而在服务器运行状态异常时,可基于BMC存储的串口日志信息高效、准确地定位故障所在。

Description

服务器故障定位方法、装置、系统及计算机可读存储介质
技术领域
本申请涉及服务器技术领域,特别是涉及一种服务器故障定位方法、装置、系统及计算机可读存储介质。
背景技术
无论是软件开发还是硬件开发,在开发过程中都需要相关的调试手段将项目研发过程中遇到的各种问题进行分析、定位、解决,以使研发的项目或产品满足市场需求及客户需求。而对于服务器领域,产品或项目的安全性、可靠性、稳定性要求更高,例如在数据中心中批量部署几十万台服务器时,若出现大批量宕机、死机或者无法正常开机的情况将导致数据中心的业务受到致命的损害,同时也对数据中心的运维人员带来了极大的工作压力和任务量。可见,产品研发过程中的有效调试至关重要。
通常服务器的BIOS(Basic Input Output System,基本输入输出系统)版本分为正式版本即Release版本和测试版本即Debug版本,Debug版本就是在项目或产品研发过程中最常用的分析、定位、排故的常用手段。为了减少设备启动时间,避免客户查看代码开发及启动流程的机制原理,对外提供给客户或者产品上市后的固件版本几乎都是正式版本。
由于产品的固件版本往往为测试版本,这就导致产品在每次遇到宕机、无法开机等异常状况时,就需要研发人员进场亲自解决问题。相关研发人员会重新更新故障设备固件为Debug版本,通过模拟故障问题复现的方法和手段来搜集相关的BIOS的debug日志信息,这样对概率性问题及解决问题的周期造成了时间和金钱上的浪费,尤其对数据中心批量部署的服务器造成了致命的影响。此外,更重要的是,当固件更新为Debug版本固件后,之前产生的故障问题及故障现象很有可能就消失不见了,不利于进行问题分析及故障定位。
鉴于此,如何在设备故障之后,高效、准确定位故障,是所属领域技术人员需要解决的技术问题。
发明内容
本申请提供了一种服务器故障定位方法、装置、系统及计算机可读存储介质,在服务器运行状态异常时,可高效、准确地定位故障所在。
为解决上述技术问题,本发明实施例提供以下技术方案:
本发明实施例一方面提供了一种服务器故障定位方法,包括:
预先将BMC的GPIO针脚和目标硬件的GPIO针脚进行物理连接,并根据GPIO信号状态设置固件的正式版本和测试版本的切换条件;
在主板上电启动过程中,读取所述目标硬件的GPIO信号的当前状态值,并根据所述当前状态值和所述切换条件加载相应固件版本;
若所述固件版本为所述测试版本,输出所述测试版本的串口日志信息至所述BMC;若所述固件版本为所述正式版本,根据预设正常启动条件和系统事件日志确定是否改变所述BMC和所述目标硬件连接的GPIO信号状态值。
可选的,所述根据预设正常启动条件和系统事件日志确定是否改变所述BMC和所述目标硬件连接的GPIO信号状态值包括:
在基于所述正式版本的服务器开机过程中,判断开机参数是否满足所述预设正常启动条件;
若所述服务器的开机参数不满足所述预设正常启动条件,根据所述BMC发送的重启指令执行服务器重启操作,同时生成一条系统事件日志;
在所述服务器执行重启操作过程中,若所述开机参数满足所述预设正常启动条件且所述系统事件日志条数不大于预设条数阈值,所述服务器主板上电开机;若所述开机参数满足所述预设正常启动条件且所述系统事件日志条数大于所述预设条数阈值,将所述BMC和所述目标硬件连接的GPIO信号状态值设置为切换所述测试版本输出对应的信号状态值。
可选的,所述若所述固件版本为所述测试版本,输出所述测试版本的串口日志信息至所述BMC包括:
若所述固件版本为所述测试版本,判断所述服务器通过所述测试版本是否正常启动;
若所述服务器通过所述测试版本没有正常启动,输出所述测试版本的串口日志信息至所述BMC;
若所述服务器通过所述测试版本正常启动,基于所述测试版本的启动参数通过所述正式版本再次执行服务器启动操作。
可选的,所述基于所述测试版本的启动参数通过所述正式版本再次执行服务器启动操作包括:
向所述BMC发送启动反馈通知指令,以使所述BMC在接收到所述启动反馈通知指令后执行服务器关机操作,同时当检测到所述服务器处于关机状态,将从所述测试版本的存储区域中读取的启动参数变量更新至所述正式版本的存储区域,在参数更新完毕后执行所述正式版本的启动流程,并正常启动引导到操作系统。
可选的,所述向所述BMC发送启动反馈通知指令,以使所述BMC在接收到所述启动反馈通知指令后执行服务器关机操作包括:
预先为所述BMC定义目标GPIO针脚,以通过所述目标GPIO针脚的信号状态变化表示所述启动反馈通知指令的下发操作;
向所述BMC发送GPIO信号指令;所述GPIO信号指令用于将所述BMC的目标GPIO针脚的当前信号状态值设置为目标值;
所述BMC检测到所述目标GPIO针脚的信号状态值发生变化,执行所述服务器关机操作。
可选的,所述输出所述测试版本的串口日志信息至所述BMC之后,还包括:
所述BMC将所述串口日志信息存储至所述BMC的闪存中的目标地址空间中;
当接收到故障日志信息获取指令,将从所述目标地址空间读取的所述串口日志信息导出至请求终端。
本发明实施例另一方面提供了一种服务器故障定位装置,包括:
硬件连接模块,用于预先将BMC的GPIO针脚和目标硬件的GPIO针脚进行物理连接,并根据GPIO信号状态设置固件的正式版本和测试版本的切换条件;
固件版本输出确定模块,用于在主板上电启动过程中,读取所述目标硬件的GPIO信号的当前状态值,并根据所述当前状态值和所述切换条件加载相应固件版本;
故障信息存储模块,用于若所述固件版本为所述测试版本,输出所述测试版本的串口日志信息至所述BMC;
状态值设置模块,用于若所述固件版本为所述正式版本,根据预设正常启动条件和系统事件日志确定是否改变所述BMC和所述目标硬件连接的GPIO信号状态值。
本发明实施例还提供了一种服务器故障定位装置,包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如前任一项所述服务器故障定位方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有服务器故障定位程序,所述服务器故障定位程序被处理器执行时实现如前任一项所述服务器故障定位方法的步骤。
本发明实施例最后还提供了一种服务器故障定位系统,包括BMC、目标硬件和处理器;
所述BMC的GPIO针脚和所述目标硬件的GPIO针脚进行物理连接;所述处理器分别与所述BMC和所述目标硬件相连;
所述处理器用于执行存储器中存储的计算机程序时实现如前任一项所述服务器故障定位方法的步骤。
本申请提供的技术方案的优点在于,基于BIOS固件正式版本和测试版本的设置原理即代码内部的宏开关设置决定debug信息的输出,采用BMC的GPIO状态值来替换BIOS代码内部的宏开关来实现正式版本和测试版本间的切换功能。BIOS在启动过程中通过读取目标硬件的GPIO状态值来确认启动debug版本固件还是正式版本固件。通过BMC记录系统事件日志和正常启动条件决定是否将GPIO信号状态值进行调整以实现两种固件版本切换。当BIOS从测试版本启动后,BMC可以根据不同的故障场景快速将debug版本的故障日志信息进行搜集、保存并输出,实现故障问题的定位功能。无需更新debug版本固件进行故障排除,且无需模拟复现宕机、故障问题,即可实时地自动切换debug版本以将宕机、故障问题的BIOS的debug日志信息进行保存,通过远程方式将存储的故障日志信息导出给研发人员来进行故障问题分析定位,无需运维和研发人员现场解决问题,极大提高了互联网数据中心的大规模批量部署应用,提升了数据中心运维人员的工作效率。
此外,本发明实施例还针对服务器故障定位方法提供了相应的实现装置、系统及计算机可读存储介质,进一步使得所述方法更具有实用性,所述装置、系统及计算机可读存储介质具有相应的优点。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
为了更清楚的说明本发明实施例或相关技术的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种服务器故障定位方法的流程示意图;
图2为本发明实施例提供的一个示例性硬件连接框架示意图;
图3为本发明实施例提供的另一种服务器故障定位方法的流程示意图;
图4为本发明实施例提供的服务器故障定位装置的一种具体实施方式结构图;
图5为本发明实施例提供的服务器故障定位装置的另一种具体实施方式结构图;
图6为本发明实施例提供的服务器故障定位系统的一种具体实施方式结构图;
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等是用于区别不同的对象,而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
在介绍了本发明实施例的技术方案后,下面详细的说明本申请的各种非限制性实施方式。
首先参见图1,图1为本发明实施例提供的一种服务器故障定位方法的流程示意图,本发明实施例可包括以下内容:
S101:预先将BMC的GPIO针脚和目标硬件的GPIO针脚进行物理连接,并根据GPIO信号状态设置固件的正式版本和测试版本的切换条件。
本申请中的目标硬件为服务器中任何具有GPIO(General-purpose input/output,通用型之输入输出)针脚的硬件设备或芯片,如目标硬件可为PCH(PlatformController Hub,intel公司的集成南桥),又比如对于ARM架构的Ampere Altre处理器,其GPIO数量为24个,目标硬件可为Ampere Altre处理器,若GPIO数量不够可以通过IO扩展芯片PCA9555进行IO针脚扩展。对于X86架构的AMD Milan处理器,处理器自带GPIO功能的针脚,目标硬件可为AMD Milan处理器。固件可为任何一种设备的固件,如BMC固件或者是BIOS固件,这均不影响本申请的实现。
可以理解的是,服务器的固件代码如BIOS固件代码在编译时是通过一个宏定义来决定是测试版本还是正式版本的输出,一旦宏定义固定之后要么是正式版本要么是测试版本,且无法进行版本切换导致,这将导致要么没有debug信息输出要么设备启动时间过长,故本申请可利用BMC的GPIO状态值替代BIOS代码内部的宏开关开实现正式版本和测试版本间的切换功能。为了实现基于GPIO针脚的信号状态值变化来确定输出测试版本还是正式版本,需要先将BMC和目标硬件进行物理连接,以PCH为目标硬件为例,需要预先将BMC的GPIO针脚和PCH的GPIO针脚进行物理链接,如图2所示的硬件连接图。切换条件即为GPIO针脚的哪种信号状态代表当前输出的哪种版本,信号状态值变化时对应这两种固件版本开始切换,例如GPIO针脚的信号状态为高时,输出正式版本,GPIO针脚的信号状态为低时,输出测试版本,或者是GPIO针脚的信号状态为低时,输出测试版本,GPIO针脚的信号状态为高时,输出正式版本,本申请对此不作任何限定。
S102:在主板上电启动过程中,读取目标硬件的GPIO信号的当前状态值,并根据当前状态值和切换条件加载相应固件版本。
在S101中将BMC和目标硬件进行物理链接之后,切换条件便就固定了,根据目标硬件的GPIO针脚的信号状态值和切换条件来判定当前要输出的固件版本类型。
S103:若固件版本为测试版本,输出测试版本的串口日志信息至BMC;若固件版本为正式版本,根据预设正常启动条件和系统事件日志确定是否改变BMC和目标硬件连接的GPIO信号状态值。
本申请中,若加载的固件版本为测试版本,此时BIOS在开机时会将测试版本对应的debug信息输出,但是若需要保留debug信息日志则需要终端进行日志信息搜集,但实际中根本不可能有终端设备进行debug信息保存,故基板管理控制器BMC可将debug信息保存到BMC Flash中的一段地址空间。在需要进行故障分析时,通过BMC将日志信息导出进行分析可以快速地定位到导致服务器无法正常启动的原因。
其中,预设正常启动条件为可以标识服务器正常启动没有发生故障的参数如开机时长的允许值或允许范围,系统事件日志为服务器无法正常启动即不符合预设启动条件时系统自动生成的一条日志信息,服务器每无法正常启动一次就产生一条系统事件日志,系统事件日志可存储至BMC中。通过统计系统事件日志可以得到服务器无法正常启动的次数。本申请根据预设正常启动条件和系统事件日志可确定服务器是否发生故障,也即确定是否输出测试版本,若判定发生故障,则将BMC和目标硬件连接的GPIO信号状态值更改为输出测试版本对应的GPIO信号状态值,若判定没有发生故障,则BMC和目标硬件连接的GPIO信号状态值维持不变。
在本发明实施例提供的技术方案中,基于BIOS固件正式版本和测试版本的设置原理即代码内部的宏开关设置决定debug信息的输出,采用BMC的GPIO状态值来替换BIOS代码内部的宏开关来实现正式版本和测试版本间的切换功能。BIOS在启动过程中通过读取目标硬件的GPIO状态值来确认启动debug版本固件还是正式版本固件。通过BMC记录系统事件日志和正常启动条件决定是否将GPIO信号状态值进行调整以实现两种固件版本切换。当BIOS从测试版本启动后,BMC可以根据不同的故障场景快速将debug版本的故障日志信息进行搜集、保存并输出,实现故障问题的定位功能。无需更新debug版本固件进行故障排除,且无需模拟复现宕机、故障问题,即可实时地自动切换debug版本以将宕机、故障问题的BIOS的debug日志信息进行保存,通过远程方式将存储的故障日志信息导出给研发人员来进行故障问题分析定位,无需运维和研发人员现场解决问题,极大提高了互联网数据中心的大规模批量部署应用,提升了数据中心运维人员的工作效率。
在上述实施例中,对于如何执行步骤S104并不做限定,本实施例中给出GPIO信号状态值调整的一种实施方式,有利于更加高效、准确地定位故障所在,包括如下步骤:
在基于正式版本的服务器开机过程中,判断开机参数是否满足预设正常启动条件;若服务器的开机参数不满足预设正常启动条件,根据BMC发送的重启指令执行服务器重启操作,同时生成一条系统事件日志。在服务器重启操作过程中,若开机参数满足预设正常启动条件且系统事件日志条数不大于预设条数阈值,服务器主板上电开机;若开机参数满足预设正常启动条件且系统事件日志条数大于预设条数阈值,将BMC和目标硬件连接的GPIO信号状态值设置为切换测试版本输出对应的信号状态值,并根据BMC发送的重启指令执行服务器重启操作。在服务器重启操作过程中,若开机参数仍然满足预设正常启动条件,再根据BMC发送的重启指令执行服务器重启操作,同时生成一条系统事件日志。在服务器多次重启操作过程中,也即重启操作次数超过预设次数阈值如3,则先判断系统事件日志是否超过预设条数阈值,若是,直接将BMC和目标硬件连接的GPIO信号状态值设置为切换测试版本输出对应的信号状态值。
其中,开机参数例如可为启动时间,预设正常启动条件为服务器启动时间不超过预设时间阈值,相应的,判断开机参数是否满足预设正常启动条件即是判断服务器的启动时间是否超过预设时间阈值,若服务器启动时间没有超过预设时间阈值,则开机参数满足预设正常启动条件;若服务器启动时间超过预设时间阈值,则开机参数不满足预设正常启动条件。举例来说,以目标硬件为PCH为例,GPIO信号状态值为低时输出测试版本,默认服务器开机启动时间设置为6分钟,在6分钟内服务器可正常启动,超过6分钟,服务器则有可能会发送宕机、故障等。当超过6分钟时BMC会记录一条系统事件日志即SEL日志,然后进行自动重启服务器动作。BMC在BIOS两次超时重启后将BMC的GPIO与主板PCH相连接的GPIO拉低即告知BIOS需要切换到测试版本进行启动。
作为本申请的一种可选的实施方式,为了更加方便维修人员高效、准确地定位故障所在,输出测试版本的串口日志信息至BMC之后,还可包括:
BMC将串口日志信息存储至BMC的闪存中的目标地址空间中;当接收到故障日志信息获取指令,将从目标地址空间读取的串口日志信息导出至请求终端。
其中,请求终端为维修人员或研发人员所在终端,维修人员或研发人员在需求故障信息时可向服务器发送故障日志信息获取指令,在该故障日志信息获取指令中携带请求终端信息,服务器在收到该指令后,将预先存储在BMC闪存中的测试版本的串口日志信息发送至请求终端,更加便于故障分析及定位。
可以理解的是,服务器基于固件的测试版本在某些应用场景下也会正常启动,作为本申请的另外一种可选的实施方式,上述S103的实现过程可包括:
若固件版本为测试版本,判断服务器通过测试版本是否可正常启动;
若服务器通过测试版本没有正常启动,则直接输出测试版本的串口日志信息至BMC;若服务器通过测试版本可以正常启动,则基于测试版本的启动参数通过正式版本再次执行服务器启动操作。当然,在执行启动操作之前,是需要先进行关机的,这属于常识,此处就不再赘述。
在本实施例中,若服务器可基于固件的测试版本正常启动,需要向BMC发送测试版本可正常启动这个通知消息也即发送一个启动反馈通知指令,启动反馈通知指令对应要执行的操作可以预先存储在BMC中,这样BMC在接收到该指令后触发去执行相应的操作。BMC在接收到启动反馈通知指令后,执行服务器关机操作。关机完成后,BMC检测到服务器处于关机状态,将从测试版本的存储区域中读取的启动参数变量更新至正式版本的存储区域;并在参数更新完毕后执行正式版本的启动流程,并正常启动引导到操作系统。举例来说,若固件为BIOS,测试版本和正式版本都是BIOS版本,服务器通过BIOS的测试版本正常启动后,通知BMC,测试版本可以正常启动并引导到操作系统OS,此时,BMC执行关机动作。关机完毕后,BMC通过读取BIOS的测试版本的NVRAM区域的变量信息,并将变量信息更新到BIOS的正式版本的NVRAM区域中,当更新完毕后,BMC执行BIOS正式版本启动流程,并正常启动引导到OS。
作为本实施例的一种可选的实施方式,在向BMC发送启动反馈通知指令,以使BMC在接收到启动反馈通知指令后执行服务器关机操作等后续一系列操作的一种实现过程可包括:
预先为BMC定义目标GPIO针脚,以通过目标GPIO针脚的信号状态变化表示启动反馈通知指令的下发操作,
向BMC发送GPIO信号指令;GPIO信号指令用于将BMC的目标GPIO针脚的当前信号状态值设置为目标值;目标值即为接收到GPIO信号之后目标GPIO针脚要设置的值,该值与目标GPIO针脚在不接收到GPIO信号指令的信号状态值不同。目标值为预先定义好的,可以作为参数携带在GPIO信号指令中。
BMC检测到目标GPIO针脚的信号状态值发生变化,执行服务器关机操作,同时当检测到服务器处于关机状态,将从测试版本的存储区域中读取的启动参数变量更新至正式版本的存储区域,在参数更新完毕后执行正式版本的启动流程,并正常启动引导到操作系统。
举例来说,目标GPIO针脚没有接收到GPIO信号时,其信号状态值为0,当接收到GPIO信号后,则将信号状态值置为1,BMC检测到目标GPIO针脚的信号状态值由0变为1后,则表明接收到启动反馈通知指令的下发操作,BMC可设置一个监控线程,实时监控目标GPIO针脚的信号状态变化情况,一旦发生变化,触发执行启动反馈通知指令所需执行的操作。
作为另外一种可选的实施方式,启动反馈通知指令还可通过IMPI命令的方式通知BMC。
由上可知,本实施例针对服务器基于测试版本是否可正常启动提供了不同的实施方式,丰富服务器的功能,提升用户使用体验,进一步提升服务器的性能。
为了使所属领域技术人员更加清楚明白本申请的技术方案,本申请以目标硬件为PCH作为示意性例子描述本申请技术方案,请参阅图3,可包括:
主板硬件将BMC芯片具有输入输出功能的GPIO信号与PCH的GPIO信号进行物理连接,默认低信号作为正式版本的控制信号。并在BIOS代码内部将测试版本和正式版本的宏定义开关改为通过读取PCH的GPIO信号状态值作为宏变量的赋值方法。
主板硬件上电后,BIOS先通过读取PCH的GPIO状态值来确定是否开启debug系统输出即GPIO为低则默认正式版本启动,若GPIO状态值为高则debug版本启动,输出debug串口日志信息到BMC。同时主板上电开机的BIOS看门狗时间默认是6分钟,在正式版本开机过程中默认3分钟就会进入到OS等操作系统,若因宕机、系统故障等原因导致开机启动时间超过6分钟则BMC会触发服务器重启动作并记录一条SEL日志。
当重启过后仍旧执行上个步骤的逻辑,若发生第二次超时,则BMC进行服务器重启并记录第二次SEL日志信号,在重启过程之前BMC将与PCH连接的物理GPIO信号拉高,告知BIOS需要使用debug模式进行串口日志输出功能。
BIOS开机后会检查PCH的GPIO状态值进行判断,若GPIO状态值为高,则证明需要输出debug版本串口日志,此时BIOS将控制测试版本和正式版本的宏开关打开,输出测试版本的串口日志信息,此时BMC将BIOS的测试版本打印信息收集起来进行保存。研发人员根据BMC记录的BIOS输出的debug日志信息进行分析宕机、故障的原因。
由上可知,本实施例通过BMC芯片的GPIO针脚与PCH的GPIO针脚物理链接,BIOS在启动过程中通过读取PCH的GPIO状态值来确认是测试版本固件还是正式版本固件启动。通过GPIO状态值的方式替代测试版本和正式版本的宏开关定义,来实现正式版本与测试版本的切换,通过BMC记录SEL日志并判断记录SEL次数来决定是否将GPIO默认低状态设置为高状态的方案以实现BIOS从测试版本启动,当BIOS从测试版本启动后,BMC将测试版本的日志信息进行搜集并保存,方便研发人员对串口日志信息进行问题分析定位确认故障原因。
需要说明的是,本申请中各步骤之间没有严格的先后执行顺序,只要符合逻辑上的顺序,则这些步骤可以同时执行,也可按照某种预设顺序执行,图1和图3只是一种示意方式,并不代表只能是这样的执行顺序。
本发明实施例还针对服务器故障定位方法提供了相应的装置,进一步使得所述方法更具有实用性。其中,装置可从功能模块的角度和硬件的角度分别说明。下面对本发明实施例提供的服务器故障定位装置进行介绍,下文描述的服务器故障定位装置与上文描述的服务器故障定位方法可相互对应参照。
基于功能模块的角度,参见图4,图4为本发明实施例提供的服务器故障定位装置在一种具体实施方式下的结构图,该装置可包括:
硬件连接模块401,用于预先将BMC的GPIO针脚和目标硬件的GPIO针脚进行物理连接,并根据GPIO信号状态设置固件的正式版本和测试版本的切换条件。
固件版本输出确定模块402,用于在主板上电启动过程中,读取目标硬件的GPIO信号的当前状态值,并根据当前状态值和切换条件加载相应固件版本。
故障信息存储模块403,用于若固件版本为测试版本,输出测试版本的串口日志信息至BMC。
状态值设置模块404,用于若固件版本为正式版本,根据预设正常启动条件和系统事件日志确定是否改变BMC和目标硬件连接的GPIO信号状态值。
可选的,在本实施例的一些实施方式中,所述状态值设置模块404例如还可包括:
开机条件判断子模块,用于在基于正式版本的服务器开机过程中,判断开机参数是否满足预设正常启动条件;
重启子模块,用于若服务器的开机参数不满足预设正常启动条件,根据BMC发送的重启指令执行服务器重启操作;
日志生成子模块,用于若服务器的开机参数不满足预设正常启动条件,生成一条系统事件日志;
开机子模块,用于在服务器重启操作过程中,若开机参数满足预设正常启动条件且系统事件日志条数不大于预设条数阈值,服务器主板上电开机;
设置子模块,用于若开机参数满足预设正常启动条件且系统事件日志条数大于预设条数阈值,将BMC和目标硬件连接的GPIO信号状态值设置为切换测试版本输出对应的信号状态值。
可选的,在本实施例的另一些实施方式中,所述装置例如还可以包括故障信息导出模块,故障信息导出模块用于当接收到故障日志信息获取指令,将从目标地址空间读取的串口日志信息导出至请求终端;目标地址空间为所述BMC的闪存中用于存储串口日志信息的一段地址空间。
作为一种可选的实施方式,上述故障信息存储模块403还可包括正常启动子模块,正常启动子模块为若服务器通过测试版本正常启动,基于测试版本的启动参数通过正式版本再次执行服务器启动操作的模块。
作为本实施例的一种可选的实施方式,上述正常启动子模块可进一步用于向BMC发送启动反馈通知指令,以使BMC在接收到启动反馈通知指令后执行服务器关机操作;同时当检测到所述服务器处于关机状态,将从测试版本的存储区域中读取的启动参数变量更新至正式版本的存储区域,在参数更新完毕后执行正式版本的启动流程,并正常启动引导到操作系统。作为本实施例的另一种可选的实施方式,上述正常启动子模块还可进一步用于预先为BMC定义目标GPIO针脚,以通过目标GPIO针脚的信号状态变化表示启动反馈通知指令的下发操作;向BMC发送GPIO信号指令;GPIO信号指令用于将BMC的目标GPIO针脚的当前信号状态值设置为目标值;BMC检测到目标GPIO针脚的信号状态值发生变化,执行服务器关机操作。
本发明实施例所述服务器故障定位装置的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
由上可知,本发明实施例在服务器运行状态异常时,可高效、准确地定位故障所在。
上文中提到的服务器故障定位装置是从功能模块的角度描述,进一步的,本申请还提供一种服务器故障定位装置,是从硬件角度描述。图6为本申请实施例提供的另一种服务器故障定位装置的结构图。如图6所示,该装置包括存储器50,用于存储计算机程序;
处理器51,用于执行计算机程序时实现如上述任一实施例提到的服务器故障定位方法的步骤。
其中,处理器51可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器51可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器51也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器51可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器51还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器50可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器50还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器50至少用于存储以下计算机程序501,其中,该计算机程序被处理器51加载并执行之后,能够实现前述任一实施例公开的服务器故障定位方法的相关步骤。另外,存储器50所存储的资源还可以包括操作系统502和数据503等,存储方式可以是短暂存储或者永久存储。其中,操作系统502可以包括Windows、Unix、Linux等。数据503可以包括但不限于服务器故障定位结果对应的数据等。
在一些实施例中,服务器故障定位装置还可包括有显示屏52、输入输出接口53、通信接口54、电源55以及通信总线56。
本领域技术人员可以理解,图5中示出的结构并不构成对服务器故障定位装置的限定,可以包括比图示更多或更少的组件,例如还可包括传感器57。
本发明实施例所述服务器故障定位装置的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
由上可知,本发明实施例在服务器运行状态异常时,可高效、准确地定位故障所在。
可以理解的是,如果上述实施例中的服务器故障定位方法以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、磁碟或者光盘等各种可以存储程序代码的介质。
基于此,本发明实施例还提供了一种计算机可读存储介质,存储有服务器故障定位程序,所述服务器故障定位程序被处理器执行时如上任意一实施例所述服务器故障定位方法的步骤。
本发明实施例所述计算机可读存储介质的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
由上可知,本发明实施例在服务器运行状态异常时,可高效、准确地定位故障所在。
最后,本申请还提供了一种服务器故障定位系统,请参阅图6,可包括下述内容:
一种服务器故障定位系统可包括BMC61、目标硬件62和处理器63。BMC61的GPIO针脚和目标硬件62的GPIO针脚进行物理连接;处理器63分别与BMC61和目标硬件62相连。
处理器63用于执行存储器中存储的计算机程序时实现如上任一项服务器故障定位方法实施例的步骤。
本发明实施例所述服务器故障定位系统的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
由上可知,本发明实施例在服务器运行状态异常时,可高效、准确地定位故障所在。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
以上对本申请所提供的一种服务器故障定位方法、装置、系统及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。

Claims (10)

1.一种服务器故障定位方法,其特征在于,包括:
预先将BMC的GPIO针脚和目标硬件的GPIO针脚进行物理连接,并根据GPIO信号状态设置固件的正式版本和测试版本的切换条件;
在主板上电启动过程中,读取所述目标硬件的GPIO信号的当前状态值,并根据所述当前状态值和所述切换条件加载相应固件版本;
若所述固件版本为所述测试版本,输出所述测试版本的串口日志信息至所述BMC;若所述固件版本为所述正式版本,根据预设正常启动条件和系统事件日志确定是否改变所述BMC和所述目标硬件连接的GPIO信号状态值。
2.根据权利要求1所述的服务器故障定位方法,其特征在于,所述根据预设正常启动条件和系统事件日志确定是否改变所述BMC和所述目标硬件连接的GPIO信号状态值包括:
在基于所述正式版本的服务器开机过程中,判断开机参数是否满足所述预设正常启动条件;
若所述服务器的开机参数不满足所述预设正常启动条件,根据所述BMC发送的重启指令执行服务器重启操作,同时生成一条系统事件日志;
在所述服务器执行重启操作过程中,若所述开机参数满足所述预设正常启动条件且所述系统事件日志条数不大于预设条数阈值,所述服务器主板上电开机;若所述开机参数满足所述预设正常启动条件且所述系统事件日志条数大于所述预设条数阈值,将所述BMC和所述目标硬件连接的GPIO信号状态值设置为切换所述测试版本输出对应的信号状态值。
3.根据权利要求1所述的服务器故障定位方法,其特征在于,所述若所述固件版本为所述测试版本,输出所述测试版本的串口日志信息至所述BMC包括:
若所述固件版本为所述测试版本,判断所述服务器通过所述测试版本是否正常启动;
若所述服务器通过所述测试版本没有正常启动,输出所述测试版本的串口日志信息至所述BMC;
若所述服务器通过所述测试版本正常启动,基于所述测试版本的启动参数通过所述正式版本再次执行服务器启动操作。
4.根据权利要求3所述的服务器故障定位方法,其特征在于,所述基于所述测试版本的启动参数通过所述正式版本再次执行服务器启动操作包括:
向所述BMC发送启动反馈通知指令,以使所述BMC在接收到所述启动反馈通知指令后执行服务器关机操作,同时当检测到所述服务器处于关机状态,将从所述测试版本的存储区域中读取的启动参数变量更新至所述正式版本的存储区域,在参数更新完毕后执行所述正式版本的启动流程,并正常启动引导到操作系统。
5.根据权利要求4所述的服务器故障定位方法,其特征在于,所述向所述BMC发送启动反馈通知指令,以使所述BMC在接收到所述启动反馈通知指令后执行服务器关机操作包括:
预先为所述BMC定义目标GPIO针脚,以通过所述目标GPIO针脚的信号状态变化表示所述启动反馈通知指令的下发操作;
向所述BMC发送GPIO信号指令;所述GPIO信号指令用于将所述BMC的目标GPIO针脚的当前信号状态值设置为目标值;
所述BMC检测到所述目标GPIO针脚的信号状态值发生变化,执行所述服务器关机操作。
6.根据权利要求1至5任意一项所述的服务器故障定位方法,其特征在于,所述输出所述测试版本的串口日志信息至所述BMC之后,还包括:
所述BMC将所述串口日志信息存储至所述BMC的闪存中的目标地址空间中;
当接收到故障日志信息获取指令,将从所述目标地址空间读取的所述串口日志信息导出至请求终端。
7.一种服务器故障定位装置,其特征在于,包括:
硬件连接模块,用于预先将BMC的GPIO针脚和目标硬件的GPIO针脚进行物理连接,并根据GPIO信号状态设置固件的正式版本和测试版本的切换条件;
固件版本输出确定模块,用于在主板上电启动过程中,读取所述目标硬件的GPIO信号的当前状态值,并根据所述当前状态值和所述切换条件加载相应固件版本;
故障信息存储模块,用于若所述固件版本为所述测试版本,输出所述测试版本的串口日志信息至所述BMC;
状态值设置模块,用于若所述固件版本为所述正式版本,根据预设正常启动条件和系统事件日志确定是否改变所述BMC和所述目标硬件连接的GPIO信号状态值。
8.一种服务器故障定位装置,其特征在于,包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至6任一项所述服务器故障定位方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有服务器故障定位程序,所述服务器故障定位程序被处理器执行时实现如权利要求1至6任一项所述服务器故障定位方法的步骤。
10.一种服务器故障定位系统,其特征在于,包括BMC、目标硬件和处理器;
所述BMC的GPIO针脚和所述目标硬件的GPIO针脚进行物理连接;所述处理器分别与所述BMC和所述目标硬件相连;
所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至6任一项所述服务器故障定位方法的步骤。
CN202110127034.7A 2021-01-29 2021-01-29 服务器故障定位方法、装置、系统及计算机可读存储介质 Active CN112948157B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202110127034.7A CN112948157B (zh) 2021-01-29 2021-01-29 服务器故障定位方法、装置、系统及计算机可读存储介质
US18/263,527 US20240086269A1 (en) 2021-01-29 2021-09-28 Method, Apparatus and System for Locating Fault of Server, and Computer-readable Storage Medium
PCT/CN2021/121205 WO2022160756A1 (zh) 2021-01-29 2021-09-28 服务器故障定位方法、装置、系统及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110127034.7A CN112948157B (zh) 2021-01-29 2021-01-29 服务器故障定位方法、装置、系统及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN112948157A true CN112948157A (zh) 2021-06-11
CN112948157B CN112948157B (zh) 2022-12-23

Family

ID=76239820

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110127034.7A Active CN112948157B (zh) 2021-01-29 2021-01-29 服务器故障定位方法、装置、系统及计算机可读存储介质

Country Status (3)

Country Link
US (1) US20240086269A1 (zh)
CN (1) CN112948157B (zh)
WO (1) WO2022160756A1 (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113434394A (zh) * 2021-06-22 2021-09-24 青岛海尔科技有限公司 软件的异常处理方法及装置、存储介质及电子装置
CN113835914A (zh) * 2021-07-30 2021-12-24 苏州浪潮智能科技有限公司 一种固件支持包的调试系统、方法、装置和设备
CN113868003A (zh) * 2021-09-17 2021-12-31 苏州浪潮智能科技有限公司 一种服务器flash系统校验及故障定位方法及装置
CN113986635A (zh) * 2021-10-31 2022-01-28 苏州浪潮智能科技有限公司 一种bios测试方法、系统、存储介质及设备
CN114047959A (zh) * 2021-11-01 2022-02-15 东莞新能安科技有限公司 开机管理方法、装置及电源系统
CN114153692A (zh) * 2021-11-26 2022-03-08 浪潮(山东)计算机科技有限公司 一种安培处理器的监控方法及服务器
CN114817096A (zh) * 2022-04-08 2022-07-29 苏州浪潮智能科技有限公司 Bmc和bios的串口切换系统、方法、设备及计算机可读介质
WO2022160756A1 (zh) * 2021-01-29 2022-08-04 苏州浪潮智能科技有限公司 服务器故障定位方法、装置、系统及计算机可读存储介质
CN115016850A (zh) * 2022-05-16 2022-09-06 北京计算机技术及应用研究所 一种基于国产处理器平台的uefi固件启动模式切换方法
CN115913913A (zh) * 2022-11-07 2023-04-04 苏州浪潮智能科技有限公司 网卡预启动执行环境功能故障定位方法及装置
CN116089135A (zh) * 2022-07-18 2023-05-09 荣耀终端有限公司 功能控制方法、装置、设备及存储介质
CN116225812A (zh) * 2023-05-08 2023-06-06 山东云海国创云计算装备产业创新中心有限公司 基板管理控制器系统运行方法、装置、设备及存储介质
CN116881091A (zh) * 2023-09-08 2023-10-13 深圳云豹智能有限公司 系统事件日志上报方法、装置、芯片、设备及存储介质
CN115913913B (zh) * 2022-11-07 2024-06-07 苏州浪潮智能科技有限公司 网卡预启动执行环境功能故障定位方法及装置

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115033462B (zh) * 2022-08-09 2023-01-10 苏州浪潮智能科技有限公司 存储服务器启动检测方法、系统、装置、设备及存储介质
CN116705129B (zh) * 2023-05-08 2024-05-07 深圳市晶存科技有限公司 固态硬盘的测试方法
CN116719712B (zh) * 2023-08-09 2024-01-19 金舟远航(北京)信息产业有限公司 处理器串口日志输出方法、装置、电子设备及存储介质
CN117032813B (zh) * 2023-10-10 2024-02-09 浪潮(山东)计算机科技有限公司 双基本输入输出系统闪存的切换判定方法及装置
CN117668859B (zh) * 2024-01-31 2024-04-19 湖南博匠信息科技有限公司 一种vpx计算板卡授信双固件启动方法及系统
CN117992311A (zh) * 2024-03-29 2024-05-07 苏州元脑智能科技有限公司 一种服务器及其硬盘监控方法、装置、设备和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170476A (zh) * 2018-01-26 2018-06-15 郑州云海信息技术有限公司 一种记录服务器bios版本信息的方法及系统
CN109086155A (zh) * 2018-07-27 2018-12-25 郑州云海信息技术有限公司 服务器故障定位方法、装置、设备及计算机可读存储介质
CN111722954A (zh) * 2020-06-30 2020-09-29 曙光信息产业(北京)有限公司 服务器异常定位方法、装置、存储介质及服务器

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103970626A (zh) * 2014-05-12 2014-08-06 浪潮电子信息产业股份有限公司 一种服务器系统中fpga配置flash冗余设计
CN107864414B (zh) * 2017-10-20 2020-06-26 深圳市新格林耐特通信技术有限公司 Onu客制化版本切换方法、装置、存储介质及计算机设备
TWI700581B (zh) * 2018-08-22 2020-08-01 神雲科技股份有限公司 伺服器及其偵錯方法
CN109947611A (zh) * 2019-03-20 2019-06-28 浪潮商用机器有限公司 实现服务器系统串口和bmc调试串口共享切换的方法及装置
CN110162436A (zh) * 2019-04-25 2019-08-23 深圳市同泰怡信息技术有限公司 一种bios post的常规模式和诊断模式切换方法
CN112948157B (zh) * 2021-01-29 2022-12-23 苏州浪潮智能科技有限公司 服务器故障定位方法、装置、系统及计算机可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170476A (zh) * 2018-01-26 2018-06-15 郑州云海信息技术有限公司 一种记录服务器bios版本信息的方法及系统
CN109086155A (zh) * 2018-07-27 2018-12-25 郑州云海信息技术有限公司 服务器故障定位方法、装置、设备及计算机可读存储介质
CN111722954A (zh) * 2020-06-30 2020-09-29 曙光信息产业(北京)有限公司 服务器异常定位方法、装置、存储介质及服务器

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022160756A1 (zh) * 2021-01-29 2022-08-04 苏州浪潮智能科技有限公司 服务器故障定位方法、装置、系统及计算机可读存储介质
CN113434394A (zh) * 2021-06-22 2021-09-24 青岛海尔科技有限公司 软件的异常处理方法及装置、存储介质及电子装置
CN113434394B (zh) * 2021-06-22 2023-07-21 青岛海尔科技有限公司 软件的异常处理方法及装置、存储介质及电子装置
CN113835914B (zh) * 2021-07-30 2023-07-14 苏州浪潮智能科技有限公司 一种固件支持包的调试系统、方法、装置和设备
CN113835914A (zh) * 2021-07-30 2021-12-24 苏州浪潮智能科技有限公司 一种固件支持包的调试系统、方法、装置和设备
CN113868003A (zh) * 2021-09-17 2021-12-31 苏州浪潮智能科技有限公司 一种服务器flash系统校验及故障定位方法及装置
CN113868003B (zh) * 2021-09-17 2023-07-18 苏州浪潮智能科技有限公司 一种服务器flash系统校验及故障定位方法及装置
CN113986635A (zh) * 2021-10-31 2022-01-28 苏州浪潮智能科技有限公司 一种bios测试方法、系统、存储介质及设备
CN113986635B (zh) * 2021-10-31 2024-01-09 苏州浪潮智能科技有限公司 一种bios测试方法、系统、存储介质及设备
CN114047959A (zh) * 2021-11-01 2022-02-15 东莞新能安科技有限公司 开机管理方法、装置及电源系统
CN114153692A (zh) * 2021-11-26 2022-03-08 浪潮(山东)计算机科技有限公司 一种安培处理器的监控方法及服务器
CN114817096B (zh) * 2022-04-08 2023-07-25 苏州浪潮智能科技有限公司 Bmc和bios的串口切换系统、方法、设备及计算机可读介质
CN114817096A (zh) * 2022-04-08 2022-07-29 苏州浪潮智能科技有限公司 Bmc和bios的串口切换系统、方法、设备及计算机可读介质
CN115016850A (zh) * 2022-05-16 2022-09-06 北京计算机技术及应用研究所 一种基于国产处理器平台的uefi固件启动模式切换方法
CN115016850B (zh) * 2022-05-16 2024-04-19 北京计算机技术及应用研究所 一种基于国产处理器平台的uefi固件启动模式切换方法
CN116089135A (zh) * 2022-07-18 2023-05-09 荣耀终端有限公司 功能控制方法、装置、设备及存储介质
CN115913913A (zh) * 2022-11-07 2023-04-04 苏州浪潮智能科技有限公司 网卡预启动执行环境功能故障定位方法及装置
CN115913913B (zh) * 2022-11-07 2024-06-07 苏州浪潮智能科技有限公司 网卡预启动执行环境功能故障定位方法及装置
CN116225812A (zh) * 2023-05-08 2023-06-06 山东云海国创云计算装备产业创新中心有限公司 基板管理控制器系统运行方法、装置、设备及存储介质
CN116225812B (zh) * 2023-05-08 2023-08-04 山东云海国创云计算装备产业创新中心有限公司 基板管理控制器系统运行方法、装置、设备及存储介质
CN116881091A (zh) * 2023-09-08 2023-10-13 深圳云豹智能有限公司 系统事件日志上报方法、装置、芯片、设备及存储介质
CN116881091B (zh) * 2023-09-08 2024-05-28 深圳云豹智能有限公司 系统事件日志上报方法、装置、芯片、设备及存储介质

Also Published As

Publication number Publication date
CN112948157B (zh) 2022-12-23
US20240086269A1 (en) 2024-03-14
WO2022160756A1 (zh) 2022-08-04

Similar Documents

Publication Publication Date Title
CN112948157B (zh) 服务器故障定位方法、装置、系统及计算机可读存储介质
CN107122321B (zh) 硬件修复方法、硬件修复系统以及计算机可读取存储装置
CN102571498B (zh) 故障注入控制方法和装置
CN110750396B (zh) 一种服务器操作系统兼容性测试方法、装置及存储介质
WO2023115999A1 (zh) 设备状态监控方法、装置、设备及计算机可读存储介质
WO2018095107A1 (zh) 一种bios程序的异常处理方法及装置
CN111488233A (zh) 一种处理PCIe设备掉带宽问题的方法及系统
CN112286709B (zh) 一种服务器硬件故障的诊断方法、诊断装置及诊断设备
CN114138644A (zh) Bmc调试方法及监控方法、系统、装置、设备、介质
CN111813495A (zh) 节点测试方法和装置、存储介质和电子装置
CN111338698A (zh) 一种bios准确引导服务器启动的方法及系统
CN114116280A (zh) 交互式bmc自恢复方法、系统、终端及存储介质
CN111367743A (zh) 一种循环重启测试过程中服务器掉电的诊断方法及系统
CN111090546A (zh) 一种操作系统重启方法、装置、设备及可读存储介质
CN111124774A (zh) 一种服务器开机过程稳定性的测试方法及相关装置
KR20130075807A (ko) 백업 하드디스크 드라이브가 구비된 금융자동화기기 및 금융자동화기기의 부팅 방법
CN114116330B (zh) 服务器性能测试方法、系统、终端及存储介质
CN115168146A (zh) 一种异常检测方法和装置
CN115167947A (zh) 一种操作系统的安装方法、装置以及介质
CN114153503A (zh) 一种bios控制方法、装置、介质
CN109614279B (zh) 一种工控机自检系统及其控制方法和相关设备
TWI554876B (zh) 節點置換處理方法與使用其之伺服器系統
CN114510374A (zh) 一种外设挂载失败自动恢复系统及方法
CN114385405A (zh) 一种实现服务器重启原因记录的方法、装置、系统
CN111400094A (zh) 一种服务器系统恢复出厂设置的方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant