CN112000508A - 一种arm服务器的启动修复方法及相关装置 - Google Patents

一种arm服务器的启动修复方法及相关装置 Download PDF

Info

Publication number
CN112000508A
CN112000508A CN202010851698.3A CN202010851698A CN112000508A CN 112000508 A CN112000508 A CN 112000508A CN 202010851698 A CN202010851698 A CN 202010851698A CN 112000508 A CN112000508 A CN 112000508A
Authority
CN
China
Prior art keywords
value
error counter
boot
stage
preset threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010851698.3A
Other languages
English (en)
Inventor
孙秀强
黄家明
乔英良
李道童
王兵
李勋堂
张炳会
孙良勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202010851698.3A priority Critical patent/CN112000508A/zh
Publication of CN112000508A publication Critical patent/CN112000508A/zh
Priority to PCT/CN2021/073359 priority patent/WO2022037014A1/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1438Restarting or rejuvenating

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Stored Programmes (AREA)

Abstract

本申请公开了一种ARM服务器的启动修复方法,包括:初始化错误计数器的值;每当ARM服务器启动过程中的任意一个启动引导阶段执行失败时,判断所述错误计数器的值是否达到预设阈值;若没有达到所述预设阈值,则依据预设规则改变所述错误计数器的值,并重启所述启动引导阶段;若达到所述预设阈值,则将所述ARM处理器的配置信息还原为默认设置,并在将所述ARM处理器的配置信息还原为默认设置后,重启所述启动引导阶段。该方法能够自动修复ARM服务器的错误设置,保证服务器能够正常启动。本申请还公开了一种ARM服务器的启动修复装置、设备及计算机可读存储介质,均具有上述技术效果。

Description

一种ARM服务器的启动修复方法及相关装置
技术领域
本申请涉及服务器技术领域,特别涉及一种ARM服务器的启动修复方法;还涉及一种ARM服务器启动的启动修复装置、设备以及计算机可读存储介质。
背景技术
Quicksilver处理器是Ampere公司采用ARM公司授权V8架构自主设计的一款拥有80个64位ARM处理器内核的处理器芯片。其SCP(System Control Processor,系统控制处理器)固件包含了SMpro(System Management Program,系统管理程序)和PMpro(PowerManagement Program,电源管理程序)微控制器的管理程序,SMpro微控制器提供了整个系统的管理,包括安全启动处理机制、管理处理器时钟和重启、系统引导、电源失效侦测和错误处理。PMpro微控制器提供了电源管理功能,包括ACPI的Pstate状态控制、动态调节电压和频率、动态耗电评估及过温保护机制等。Quicksilver处理器安全启动方案涉及SMpro、PMpro、ATF(ARM Trusted Firmware,ARM受信任固件)及UEFI(Unified ExtensibleFirmware Interface,统一可扩展固件接口)等多个模块,SMpro引导程序遵循ARM平台的TBBR规范协议,对SMpro的SEC阶段及镜像文件进行SLM头文件安全校验,只有校验成功后方可继续向下引导到PMpro阶段,同时PMpro也会遵循ARM平台TBBR协议规范对PMpro的密钥和内容进行SLM头文件安全校验,当SCP固件安全启动校验完毕后方可进行ATF程序启动,ATF固件包括BL1(Boot Loader stage1)、BL2(Boot Loader stage2)、BL31(Boot Loaderstage3-1)、BL32(Boot Loader stage3-2)、BL33(Boot Loader stage3-3)等阶段,每个阶段同样遵循ARM平台TBBR协议进行安全校验,当上述安全校验完成后即可在BL33阶段跳到UEFI固件进行正常启动引导。当处理器核电压设置不正确、内存电压设置不正确、内存速率设置不正确及内存工作模式设置不正确等都会导致系统无法正常启动,由此对ARM服务器的批量部署及应用维护带来了极大的挑战。
因此,如何自动修复ARM服务器的错误设置已成为本领域技术人员亟待解决的技术问题。
发明内容
本申请的目的是提供一种ARM服务器的启动修复方法,能够自动修复ARM服务器的错误设置,保证服务器能够正常启动。本申请的另一目的是提供一种ARM服务器的启动修复装置、设备以及计算机可读存储介质,均具有上述技术效果。
为解决上述技术问题,本申请提供了一种ARM服务器的启动修复方法,包括:
初始化错误计数器的值;
每当ARM服务器启动过程中的任意一个启动引导阶段执行失败时,判断所述错误计数器的值是否达到预设阈值;
若没有达到所述预设阈值,则依据预设规则改变所述错误计数器的值,并重启所述启动引导阶段;
若达到所述预设阈值,则将所述ARM处理器的配置信息还原为默认设置,并在将所述ARM处理器的配置信息还原为默认设置后,重启所述启动引导阶段。
可选的,触发判断所述错误计数器的值是否达到预设阈值的条件为ARM服务器启动过程中的任意一个启动引导阶段执行失败且相应的看门狗计时器计时超出预设值。
可选的,所述启动引导阶段包括:
SMpro阶段、PMpro阶段、ATF阶段以及UEFI阶段。
可选的,每当ARM服务器启动过程中的任意一个启动引导阶段执行失败且相应的看门狗计时器计时超出预设值时,判断所述错误计数器的值是否达到预设阈值,包括:
当所述SMpro阶段执行失败且SCP固件的看门狗计时器计时超出所述预设值时,判断所述错误计数器的值是否达到所述预设阈值;
当所述PMpro阶段执行失败且所述SCP固件的看门狗计时器计时超出所述预设值时,判断所述错误计数器的值是否达到所述预设阈值;
当所述ATF执行失败且所述SCP固件的看门狗计时器计时超出所述预设值时,判断所述错误计数器的值是否达到所述预设阈值;
当所述UEFI执行失败且BMC的FRB-2看门狗计时器计时超出所述预设值时,判断所述错误计数器的值是否达到所述预设阈值。
可选的,所述依据预设规则改变所述错误计数器的值,包括:
将所述错误计数器的值加一。
可选的,还包括:
当所述ARM服务器正常启动后,将所述错误计数器的值还原为初始值。
可选的,所述当所述ARM服务器正常启动后,将所述错误计数器的值还原为初始值,包括:
在所述UEFI阶段结束前将所述错误计数器的值还原为初始值。
为解决上述技术问题,本申请还提供了一种ARM服务器的修复装置,包括:
初始化模块,用于初始化错误计数器的值;
判断模块,用于每当ARM服务器启动过程中的任意一个启动引导阶段执行失败时,判断所述错误计数器的值是否达到预设阈值;
改变模块,用于若没有达到所述预设阈值,则依据预设规则改变所述错误计数器的值,并重启所述启动引导阶段;
还原模块,用于若达到所述预设阈值,则将所述ARM处理器的配置信息还原为默认设置,并在将所述ARM处理器的配置信息还原为默认设置后,重启所述启动引导阶段。
为解决上述技术问题,本申请还提供了一种ARM服务器的启动修复设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上任一项所述的ARM服务器的启动修复方法的步骤。
为解决上述技术问题,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述的ARM服务器的启动修复方法的步骤。
本申请所提供的ARM服务器的启动修复方法,包括:初始化错误计数器的值;每当ARM服务器启动过程中的任意一个启动引导阶段执行失败时,判断所述错误计数器的值是否达到预设阈值;若没有达到所述预设阈值,则依据预设规则改变所述错误计数器的值,并重启所述启动引导阶段;若达到所述预设阈值,则将所述ARM处理器的配置信息还原为默认设置,并在将所述ARM处理器的配置信息还原为默认设置后,重启所述启动引导阶段。
可见,本申请所提供的ARM服务器的启动修复方法,增设错误计数器统计重启的次数,并当错误计数器的值达到预设阈值时,将ARM处理器的配置信息还原为默认设置,并重新启动。由此,通过将ARM处理器的配置信息还原为默认设置,可以保障ARM服务器正常启动,有效解决了人为修改配置信息而导致的ARM服务器无法正常启动的问题。
本申请所提供的ARM服务器的启动修复装置、设备以及计算机可读存储介质均具有上述技术效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例所提供的一种ARM服务器的启动修复方法的流程示意图;
图2为本申请实施例所提供的一种ARM服务器的启动修复装置的示意图;
图3为本申请实施例所提供的一种ARM服务器的启动修复设备的示意图。
具体实施方式
本申请的核心是提供一种ARM服务器的启动修复方法,能够自动修复ARM服务器的错误设置,保证服务器能够正常启动。本申请的另一核心是提供一种ARM服务器的启动修复装置、设备以及计算机可读存储介质,均具有上述技术效果。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参考图1,图1为本申请实施例所提供的一种ARM服务器的启动修复方法的流程示意图,参考图1所示,该方法主要包括:
S101:初始化错误计数器的值;
具体的,本申请在SCP固件的SMpro上增设一个计数器即错误计数器,并通过此错误计数器来统计重启次数。其中,ARM服务器在上电或冷重启时,SCP固件的SMpro将此错误计数器的值初始化,如将错误计数器的值初始化为零。
S102:每当ARM服务器启动过程中的任意一个启动引导阶段执行失败时,判断错误计数器的值是否达到预设阈值;
具体的,启动引导阶段包括SMpro阶段、PMpro阶段、ATF阶段以及UEFI阶段。SMpro阶段、PMpro阶段、ATF阶段以及UEFI阶段依次执行。具体而言,若SMpro阶段执行成功,则向下引导到PMpro阶段。进一步,若PMpro阶段执行成功,则进一步执行ATF阶段,包括BL1、BL2、BL31、BL32、BL33等阶段。若ATF阶段执行成功,则在其中的BL33阶段跳到UEFI阶段。进一步,若UEFI阶段执行成功,则引导至OS即操作系统。
正常情况下,上述各启动引导阶段依次正常执行,而在人为修改配置信息后,上述各启动引导阶段中的一个或多个无法正常执行,进而导致ARM服务器无法正常启动。由此,本申请每当上述各启动引导阶段中的任意一个执行失败时,SMpro固件判断错误计数器的值是否达到预设阈值,预设阈值表征最大重启次数,即SMpro固件判断重启的次数是否达到预设阈值。
其中,对于上述预设阈值的具体数值,本申请不做唯一限定,可以根据实际需要进行差异性设置。例如,预设阈值为3。
另外,上述触发判断所述错误计数器的值是否达到预设阈值的条件为ARM服务器启动过程中的任意一个启动引导阶段执行失败且相应的看门狗计时器计时超出预设值。即每当ARM服务器启动过程中的任意一个启动引导阶段执行失败且相应的看门狗计时器计时超出预设值时,SMpro固件判断错误计时器的值是否达到预设阈值。
进一步,上述每当ARM服务器启动过程中的任意一个启动引导阶段执行失败且相应的看门狗计时器计时超出预设值时,判断错误计数器的值是否达到预设阈值,包括:
当SMpro阶段执行失败且SCP固件的看门狗计时器计时超出预设值时,判断错误计数器的值是否达到预设阈值;
当PMpro阶段执行失败且SCP固件的看门狗计时器计时超出预设值时,判断错误计数器的值是否达到预设阈值;
当ATF执行失败且SCP固件的看门狗计时器计时超出预设值时,判断错误计数器的值是否达到预设阈值;
当UEFI执行失败且BMC的FRB-2看门狗计时器计时超出预设值时,判断错误计数器的值是否达到预设阈值。
具体而言,当SMpro阶段执行失败未能正常引导到PMpro阶段,导致无法正常开机,并且SCP固件的看门狗计时器计时超出预设值时,SMpro固件判断错误计数器的值是否达到预设阈值。当PMpro阶段执行失败未能正常引导到ATF阶段,导致无法正常开机,并且SCP固件的看门狗计时器计时超出预设值时,SMpro固件判断错误计数器的值是否达到预设阈值。当ATF执行失败未能正常引导到UEFI阶段,导致无法正常开机,并且SCP固件的看门狗计时器计时超出预设值时,SMpro固件判断错误计数器的值是否达到预设阈值。当UEFI阶段执行失败未能正常引导到OS,导致系统无法正常开机,并且BMC的FRB-2看门狗计时器计时超出预设值时,BMC通知SMpro固件UEFI阶段执行失败,进而SMpro固件判断错误计数器的值是否达到预设阈值。其中,上述预设值可设置为大于开机时间的任意值。
S103:若未达到预设阈值,则依据预设规则改变所述错误计数器的值,并重启启动引导阶段;
具体的,若错误计数器的值没有达到预设阈值,则依据预设规则改变错误计数器的值,并重启启动引导阶段,具体重启首个启动引导阶段,即重启SMpro阶段,若SMpro阶段执行成功,则进一步自动执行PMpro阶段,若PMpro阶段执行成功,则进一步执行ATF阶段,依次类推。重启后,同样会执行每当ARM服务器启动过程中的任意一个启动引导阶段执行失败且相应的看门狗计时器计时超出预设值时,判断错误计数器的值是否达到预设阈值的操作。
其中,在一种具体的实施方式中,上述依据预设规则改变错误计数器的值,包括:将错误计数器的值加一。具体而言,每当ARM服务器启动过程中的任意一个启动引导阶段执行失败时,判断错误计数器的值是否达到预设阈值,若没有达到,则将错误计数器的值加一,并重启启动引导阶段。如此,错误计数器的值与重启的次数相对应,当重启的次数达到最大值时,错误计数器的值达到预设阈值。
S104:若达到预设阈值,则将ARM处理器的配置信息还原为默认设置,并在将ARM处理器的配置信息还原为默认设置后,重启启动引导阶段。
具体的,若达到预设阈值,则加载BIOS的备份NVRAM参数,即将ARM处理器的配置信息还原为默认设置,并在将ARM处理器的配置信息还原为默认设置后,重启启动引导阶段,以使ARM服务器能够正常启动。
以错误计数器的初始值为0,每当ARM服务器启动过程中的任意一个启动引导阶段执行失败时,将错误计数器的值加一,预设阈值等于3为例:
ARM服务器上电或冷启动后,将错误计数器的值初始化为零;
若SMpro阶段执行失败,则判断错误计数器的值是否为3,若错误计数器的值为3,则将ARM处理器的配置信息还原为默认设置;若错误记计数器的值不等于3,则重新启动SMpro阶段,并将错误计数器的值加一;若SMpro阶段执行成功,则进一步执行PMpro阶段。若PMpro阶段执行失败,则判断错误计数器的值是否为3,若错误计数器的值为3,则将ARM处理器的配置信息还原为默认设置;若错误记计数器的值不等于3,则重新启动SMpro阶段,并将错误计数器的值加一;若PMpro阶段执行成功,则进一步执行ATF阶段。同理,若ATF阶段执行失败,则判断错误计数器的值是否为3,若错误计数器的值为3,则将ARM处理器的配置信息还原为默认设置;若错误记计数器的值不等于3,则重新启动SMpro阶段,并将错误计数器的值加一;若ATF阶段执行成功,则进一步执行UEFI阶段。若ATF阶段执行失败,则判断错误计数器的值是否为3,若错误计数器的值为3,则将ARM处理器的配置信息还原为默认设置;若错误记计数器的值不等于3,则重新启动SMpro阶段,并将错误计数器的值加一;若UEFI阶段执行成功,则启动引导到OS。
进一步,在上述实施例的基础上,还包括:
当ARM服务器正常启动后,将错误计数器的值还原为初始值。且可具体为在UEFI阶段结束前将错误计数器的值还原为初始值。即在UEFI阶段执行无任何问题,并即将引导到OS前,将错误计数器的值还原为初始值,如将错误器的值清零。
综上所述,本申请所提供的ARM服务器的启动修复方法,包括:初始化错误计数器的值;每当ARM服务器启动过程中的任意一个启动引导阶段执行失败时,判断所述错误计数器的值是否达到预设阈值;若没有达到所述预设阈值,则依据预设规则改变所述错误计数器的值,并重启所述启动引导阶段;若达到所述预设阈值,则将所述ARM处理器的配置信息还原为默认设置,并在将所述ARM处理器的配置信息还原为默认设置后,重启所述启动引导阶段。该启动修复方法,增设错误计数器统计重启的次数,并当错误计数器的值达到预设阈值时,将ARM处理器的配置信息还原为默认设置,并重新启动。由此,通过将ARM处理器的配置信息还原为默认设置,可以保障ARM服务器正常启动,有效解决了人为修改配置信息而导致的ARM服务器无法正常启动的问题。
本申请还提供了一种ARM服务器的启动修复装置,下文描述的该装置可以与上文描述的方法相互对应参照。请参考图2,图2为本申请实施例所提供的一种ARM服务器的启动修复装置的示意图,结合图2所示,该装置包括:
初始化模块10,用于初始化错误计数器的值;
判断模块20,用于每当ARM服务器启动过程中的任意一个启动引导阶段执行失败时,判断错误计数器的值是否达到预设阈值;
改变模块30,用于若没有达到预设阈值,则依据预设规则改变错误计数器的值,并重启启动引导阶段;
还原模块40,用于若达到预设阈值,则将ARM处理器的配置信息还原为默认设置,并在将ARM处理器的配置信息还原为默认设置后,重启启动引导阶段。
在上述实施例的基础上,可选的,启动引导阶段包括:SMpro阶段、PMpro阶段、ATF阶段以及UEFI阶段。
在上述实施例的基础上,可选的,触发判断所述错误计数器的值是否达到预设阈值的条件为ARM服务器启动过程中的任意一个启动引导阶段执行失败且相应的看门狗计时器计时超出预设值。
在上述实施例的基础上,可选的,判断模块20包括:
第一判断单元,用于当SMpro阶段执行失败且SCP固件的看门狗计时器计时超出预设值时,判断错误计数器的值是否达到预设阈值;
第二判断单元,用于当PMpro阶段执行失败且SCP固件的看门狗计时器计时超出预设值时,判断错误计数器的值是否达到预设阈值;
第三判断单元,用于当ATF执行失败且SCP固件的看门狗计时器计时超出预设值时,判断错误计数器的值是否达到预设阈值;
第四判断单元,用于当UEFI执行失败且BMC的FRB-2看门狗计时器计时超出预设值时,判断错误计数器的值是否达到预设阈值。
在上述实施例的基础上,改变模块30具体用于若未达到预设阈值,则将错误计数器的值加一,并重启启动引导阶段。
在上述实施例的基础上,可选的,还包括:
计数值还原模块,用于当ARM服务器正常启动后,将错误计数器的值还原为初始值。
在上述实施例的基础上,可选的,计数值还原模块具体用于在UEFI阶段结束前将错误计数器的值还原为初始值。
本申请还提供了一种ARM服务器的启动修复设备,参考图3所示,该设备包括存储器1和处理器2。其中,存储器1,用于存储计算机程序;处理器2,用于执行计算机程序实现如下的步骤:
初始化错误计数器的值;每当ARM服务器启动过程中的任意一个启动引导阶段执行失败时,判断错误计数器的值是否达到预设阈值;若没有达到预设阈值,则依据预设规则改变错误计数器的值,并重启启动引导阶段;若达到预设阈值,则将ARM处理器的配置信息还原为默认设置,并在将ARM处理器的配置信息还原为默认设置后,重启启动引导阶段。
对于本申请所提供的设备的介绍请参照上述方法实施例,本申请在此不做赘述。
本申请还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现如下的步骤:
初始化错误计数器的值;每当ARM服务器启动过程中的任意一个启动引导阶段执行失败时,判断错误计数器的值是否达到预设阈值;若没有达到预设阈值,则依据预设规则改变错误计数器的值,并重启启动引导阶段;若达到预设阈值,则将ARM处理器的配置信息还原为默认设置,并在将ARM处理器的配置信息还原为默认设置后,重启启动引导阶段。
该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
对于本申请所提供的计算机可读存储介质的介绍请参照上述方法实施例,本申请在此不做赘述。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、设备以及计算机可读存储介质而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本申请所提供的技术方案进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围。

Claims (10)

1.一种ARM服务器的启动修复方法,其特征在于,包括:
初始化错误计数器的值;
每当ARM服务器启动过程中的任意一个启动引导阶段执行失败时,判断所述错误计数器的值是否达到预设阈值;
若没有达到所述预设阈值,则依据预设规则改变所述错误计数器的值,并重启所述启动引导阶段;
若达到所述预设阈值,则将所述ARM处理器的配置信息还原为默认设置,并在将所述ARM处理器的配置信息还原为默认设置后,重启所述启动引导阶段。
2.根据权利要求1所述的启动修复方法,其特征在于,所述启动引导阶段包括:SMpro阶段、PMpro阶段、ATF阶段以及UEFI阶段。
3.根据权利要求1所述的启动修复方法,其特征在于,触发判断所述错误计数器的值是否达到预设阈值的条件为:ARM服务器启动过程中的任意一个启动引导阶段执行失败且相应的看门狗计时器计时超出预设值。
4.根据权利要求2所述的启动修复方法,其特征在于,每当ARM服务器启动过程中的任意一个启动引导阶段执行失败且相应的看门狗计时器计时超出预设值时,判断所述错误计数器的值是否达到预设阈值,包括:
当所述SMpro阶段执行失败且SCP固件的看门狗计时器计时超出所述预设值时,判断所述错误计数器的值是否达到所述预设阈值;
当所述PMpro阶段执行失败且所述SCP固件的看门狗计时器计时超出所述预设值时,判断所述错误计数器的值是否达到所述预设阈值;
当所述ATF执行失败且所述SCP固件的看门狗计时器计时超出所述预设值时,判断所述错误计数器的值是否达到所述预设阈值;
当所述UEFI执行失败且BMC的FRB-2看门狗计时器计时超出所述预设值时,判断所述错误计数器的值是否达到所述预设阈值。
5.根据权利要求1所述的启动修复方法,其特征在于,所述依据预设规则改变所述错误计数器的值,包括:
将所述错误计数器的值加一。
6.根据权利要求1所述的启动修复方法,其特征在于,还包括:
当所述ARM服务器正常启动后,将所述错误计数器的值还原为初始值。
7.根据权利要求6所述的启动修复方法,其特征在于,所述当所述ARM服务器正常启动后,将所述错误计数器的值还原为初始值,包括:
在所述UEFI阶段结束前将所述错误计数器的值还原为初始值。
8.一种ARM服务器的修复装置,其特征在于,包括:
初始化模块,用于初始化错误计数器的值;
判断模块,用于每当ARM服务器启动过程中的任意一个启动引导阶段执行失败时,判断所述错误计数器的值是否达到预设阈值;
改变模块,用于若没有达到所述预设阈值,则依据预设规则改变所述错误计数器的值,并重启所述启动引导阶段;
还原模块,用于若达到所述预设阈值,则将所述ARM处理器的配置信息还原为默认设置,并在将所述ARM处理器的配置信息还原为默认设置后,重启所述启动引导阶段。
9.一种ARM服务器的启动修复设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述的ARM服务器的启动修复方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的ARM服务器的启动修复方法的步骤。
CN202010851698.3A 2020-08-21 2020-08-21 一种arm服务器的启动修复方法及相关装置 Withdrawn CN112000508A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010851698.3A CN112000508A (zh) 2020-08-21 2020-08-21 一种arm服务器的启动修复方法及相关装置
PCT/CN2021/073359 WO2022037014A1 (zh) 2020-08-21 2021-01-22 一种arm服务器的启动修复方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010851698.3A CN112000508A (zh) 2020-08-21 2020-08-21 一种arm服务器的启动修复方法及相关装置

Publications (1)

Publication Number Publication Date
CN112000508A true CN112000508A (zh) 2020-11-27

Family

ID=73473974

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010851698.3A Withdrawn CN112000508A (zh) 2020-08-21 2020-08-21 一种arm服务器的启动修复方法及相关装置

Country Status (2)

Country Link
CN (1) CN112000508A (zh)
WO (1) WO2022037014A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113032026A (zh) * 2021-03-19 2021-06-25 山东英信计算机技术有限公司 一种服务器主板的固件管理方法、装置、设备及介质
WO2022037014A1 (zh) * 2020-08-21 2022-02-24 苏州浪潮智能科技有限公司 一种arm服务器的启动修复方法及相关装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100010390A (ko) * 2008-07-22 2010-02-01 엘지전자 주식회사 마이크로컴퓨터와 마이크로컴퓨터의 제어방법
CN107038085B (zh) * 2016-02-03 2021-01-08 阿里巴巴集团控股有限公司 一种客户端应用的修复方法、装置及系统
CN107894949A (zh) * 2017-10-11 2018-04-10 五八有限公司 异常处理的方法、装置及设备
CN107844330A (zh) * 2017-10-25 2018-03-27 郑州云海信息技术有限公司 一种增强arm服务器启动代码可靠性的方法与系统
CN109783149A (zh) * 2019-01-17 2019-05-21 Oppo广东移动通信有限公司 开机控制方法、装置、移动终端以及存储介质
CN112000508A (zh) * 2020-08-21 2020-11-27 苏州浪潮智能科技有限公司 一种arm服务器的启动修复方法及相关装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022037014A1 (zh) * 2020-08-21 2022-02-24 苏州浪潮智能科技有限公司 一种arm服务器的启动修复方法及相关装置
CN113032026A (zh) * 2021-03-19 2021-06-25 山东英信计算机技术有限公司 一种服务器主板的固件管理方法、装置、设备及介质

Also Published As

Publication number Publication date
WO2022037014A1 (zh) 2022-02-24

Similar Documents

Publication Publication Date Title
US10534618B2 (en) Auto bootloader recovery in BMC
US20040158702A1 (en) Redundancy architecture of computer system using a plurality of BIOS programs
US5974546A (en) Apparatus and method to determine cause of failed boot sequence to improve likelihood of successful subsequent boot attempt
US9946553B2 (en) BMC firmware recovery
US7395455B2 (en) System, method and program product for recovering from a failure
CN112948157A (zh) 服务器故障定位方法、装置、系统及计算机可读存储介质
JP5328720B2 (ja) 情報処理装置
WO2016206514A1 (zh) 启动处理方法及装置
US20090271660A1 (en) Motherboard, a method for recovering the bios thereof and a method for booting a computer
CN112000508A (zh) 一种arm服务器的启动修复方法及相关装置
US20180089047A1 (en) Detecting and handling an expansion card fault during system initialization
CN109375956B (zh) 一种重启操作系统的方法、逻辑设备以及控制设备
CN103970564A (zh) 嵌入式操作系统自动修复升级功能的方法及其系统
CN108345464A (zh) 一种安卓系统的启动方法及安卓车机
CN111800304A (zh) 进程运行的监测方法、存储介质和虚拟装置
US7721083B2 (en) CPU runaway determination circuit and CPU runaway determination method
CN111090546A (zh) 一种操作系统重启方法、装置、设备及可读存储介质
JP2005222366A (ja) 自動復帰方法/プログラム/プログラム記録媒体、処理装置
CN114153503A (zh) 一种bios控制方法、装置、介质
CN111381655A (zh) 一种电子设备及上电控制方法
JP2002149437A (ja) ソフトウェア再起動方法
CN112395121A (zh) 一种驱动加载的处理方法及装置、存储介质、计算机设备
CN111400076B (zh) 一种宕机修复方法、装置、设备及存储介质
US20220206823A1 (en) Information processing method and electronic apparatus
CN116932010B (zh) 系统固件升级方法、装置及服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20201127

WW01 Invention patent application withdrawn after publication