CN112131043A - 一种基本输入输出系统的异常检测与恢复方法和装置 - Google Patents

一种基本输入输出系统的异常检测与恢复方法和装置 Download PDF

Info

Publication number
CN112131043A
CN112131043A CN202010881104.3A CN202010881104A CN112131043A CN 112131043 A CN112131043 A CN 112131043A CN 202010881104 A CN202010881104 A CN 202010881104A CN 112131043 A CN112131043 A CN 112131043A
Authority
CN
China
Prior art keywords
basic input
output system
exception
register value
electrically erasable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010881104.3A
Other languages
English (en)
Inventor
王安平
朱英澍
王文志
张轶杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202010881104.3A priority Critical patent/CN112131043A/zh
Publication of CN112131043A publication Critical patent/CN112131043A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1438Restarting or rejuvenating

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种基本输入输出系统的异常检测与恢复方法和装置,方法包括:访问中央处理器的寄存器以获取与基本输入输出系统相关的异常寄存器值;将异常寄存器值保存到独立于基本输入输出系统的电可擦只读存储器;读取预先设定的异常处理方案,并响应于异常处理方案指示重启而通过基板管理控制器重新启动;访问电可擦只读存储器,获取异常寄存器值以复现和调试基本输入输出系统发生的异常。本发明能够便于复现和调试BIOS异常,并提供进一步的操作系统恢复机制。

Description

一种基本输入输出系统的异常检测与恢复方法和装置
技术领域
本发明涉及计算机领域,更具体地,特别是指一种基本输入输出系统的异常检测与恢复方法和装置。
背景技术
BIOS——基本输入输出系统,主要负责计算机硬件初始化,并引导操作系统启动,在计算机系统中占有非常重要的地位。然而随着计算机行业飞速发展,CPU和其他硬件设备不断更新,BIOS逐渐成为了系统发展的瓶颈,具体来说,BIOS的开发效率低、性能差、功能扩展性差且升级缓慢、安全性问题以及不支持从硬盘2TB以上地址引导。
例如在BIOS启动阶段,一旦发生异常,现有技术自能抛出一条简单的Log标示异常类型,之后直接CPU挂死。这种异常很大程度上是概率性出现的,而当前技术方案提供的异常信息过少,很难定位到具体异常原因,而由于异常发生的概率很低,给后续复现和调试工作造成很大困难;并且简单粗暴的CPU挂死导致缺乏恢复机制。
针对现有技术中BIOS异常的复现和调试困难、缺乏挂死恢复机制的问题,目前尚无有效的解决方案。
发明内容
有鉴于此,本发明实施例的目的在于提出一种基本输入输出系统的异常检测与恢复方法和装置,能够便于复现和调试BIOS异常,并提供进一步的操作系统恢复机制。
基于上述目的,本发明实施例的第一方面提供了一种基本输入输出系统的异常检测与恢复方法,包括响应于检测到基本输入输出系统在启动中发生异常而执行以下步骤:
访问中央处理器的寄存器以获取与基本输入输出系统相关的异常寄存器值;
将异常寄存器值保存到独立于基本输入输出系统的电可擦只读存储器;
读取预先设定的异常处理方案,并响应于异常处理方案指示重启而通过基板管理控制器重新启动;
访问电可擦只读存储器,获取异常寄存器值以复现和调试基本输入输出系统发生的异常。
在一些实施方式中,获取与基本输入输出系统相关的异常寄存器值包括:在EDKII的框架下使用中央处理器寄存器读取模块通过统一可扩展固件接口来获取异常寄存器值。
在一些实施方式中,将异常寄存器值保存到独立于基本输入输出系统的电可擦只读存储器包括:使用电可擦只读存储器功能模块通过系统管理总线连接到电可擦只读存储器以保存异常寄存器值。
在一些实施方式中,还包括:预先在基本输入输出系统的启动菜单中以选项形式设定异常处理方案。
在一些实施方式中,响应于异常处理方案指示重启而通过基板管理控制器重新启动包括:通过智能平台管理接口命令控制基板管理控制器,使基板管理控制器基于智能平台管理接口协议发出冷重启指令以自动重新启动操作系统。
在一些实施方式中,还包括:响应于异常处理方案未指示重启而挂死中央处理器。
在一些实施方式中,还包括:响应于调试异常并确定恢复方法,而使用恢复方法来处理处于挂死状态的中央处理器。
本发明实施例的第二方面提供了一种基本输入输出系统的异常检测与恢复装置,包括:
处理器;和
存储器,存储有处理器可运行的程序代码,程序代码在被运行时响应于检测到基本输入输出系统在启动中发生异常而执行以下步骤:
访问中央处理器的寄存器以获取与基本输入输出系统相关的异常寄存器值;
将异常寄存器值保存到独立于基本输入输出系统的电可擦只读存储器;
读取预先设定的异常处理方案,并响应于异常处理方案指示重启而通过基板管理控制器重新启动;
访问电可擦只读存储器,获取异常寄存器值以复现和调试基本输入输出系统发生的异常。
在一些实施方式中,获取与基本输入输出系统相关的异常寄存器值包括:在EDKII的框架下使用中央处理器寄存器读取模块通过统一可扩展固件接口来获取异常寄存器值;
将异常寄存器值保存到独立于基本输入输出系统的电可擦只读存储器包括:使用电可擦只读存储器功能模块通过系统管理总线连接到电可擦只读存储器以保存异常寄存器值。
在一些实施方式中,还包括:预先在基本输入输出系统的启动菜单中以选项形式设定异常处理方案;
响应于异常处理方案指示重启而通过基板管理控制器重新启动包括:通过智能平台管理接口命令控制基板管理控制器,使基板管理控制器基于智能平台管理接口协议发出冷重启指令以自动重新启动操作系统。
本发明具有以下有益技术效果:本发明实施例提供的基本输入输出系统的异常检测与恢复方法和装置,通过访问中央处理器的寄存器以获取与基本输入输出系统相关的异常寄存器值;将异常寄存器值保存到独立于基本输入输出系统的电可擦只读存储器;读取预先设定的异常处理方案,并响应于异常处理方案指示重启而通过基板管理控制器重新启动;访问电可擦只读存储器,获取异常寄存器值以复现和调试基本输入输出系统发生的异常的技术方案,能够便于复现和调试BIOS异常,并提供进一步的操作系统恢复机制。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的基本输入输出系统的异常检测与恢复方法的流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
基于上述目的,本发明实施例的第一个方面,提出了一种能够便于复现和调试BIOS异常,并提供进一步的操作系统恢复机制的基本输入输出系统的异常检测与恢复方法的一个实施例。图1示出的是本发明提供的基本输入输出系统的异常检测与恢复方法的流程示意图。
所述的基本输入输出系统的异常检测与恢复方法,如图1所示,包括响应于检测到基本输入输出系统在启动中发生异常而执行以下步骤:
步骤S101:访问中央处理器的寄存器以获取与基本输入输出系统相关的异常寄存器值;
步骤S103:将异常寄存器值保存到独立于基本输入输出系统的电可擦只读存储器;
步骤S105:读取预先设定的异常处理方案,并响应于异常处理方案指示重启而通过基板管理控制器重新启动;
步骤S107:访问电可擦只读存储器,获取异常寄存器值以复现和调试基本输入输出系统发生的异常。
本发明提供了在BIOS启动阶段发生异常时的一种异常信息监测保存机制及系统自动恢复方法。在发生概率性异常时,计时保存CPU异常状态,将发生异常时CPU寄存器值读取并保存下来;并根据用户具体配置,选择是否重启系统。从而即保存了更完善的异常信息,给开发人员后续调试工作提供了便利;又给用户提供了更多选择,提高了系统的自我恢复能力和健壮性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
在一些实施方式中,获取与基本输入输出系统相关的异常寄存器值包括:在EDKII的框架下使用中央处理器寄存器读取模块通过统一可扩展固件接口来获取异常寄存器值。
在一些实施方式中,将异常寄存器值保存到独立于基本输入输出系统的电可擦只读存储器包括:使用电可擦只读存储器功能模块通过系统管理总线连接到电可擦只读存储器以保存异常寄存器值。
在一些实施方式中,还包括:预先在基本输入输出系统的启动菜单中以选项形式设定异常处理方案。
在一些实施方式中,响应于异常处理方案指示重启而通过基板管理控制器重新启动包括:通过智能平台管理接口命令控制基板管理控制器,使基板管理控制器基于智能平台管理接口协议发出冷重启指令以自动重新启动操作系统。
在一些实施方式中,还包括:响应于异常处理方案未指示重启而挂死中央处理器。
在一些实施方式中,还包括:响应于调试异常并确定恢复方法,而使用恢复方法来处理处于挂死状态的中央处理器。
下面根据具体实施例来进一步阐述本发明的具体实施方式。首先,本发明实施例在BIOS的设置菜单下设置一个选项,供用户选择在发生异常时的处理方案。在BIOS异常处理流程中,增加CPU寄存器读取模块;OS(操作系统)端提供EEPROM(电可擦只读存储器)设备用于保存寄存器异常值;BIOS端增加读写OS下EEPROM功能模块。
然后在BIOS异常处理流程中,通过寄存器读取模块获取异常寄存器值;通过EEPROM功能模块将异常寄存器值保存至EEPROM;判断用户方案,若用户选择重启方案,则通过IPMI(智能平台管理接口)命令通知BMC(基板管理控制器),在BMC端发起cold reboot指令,自动重启系统;若用户未选择重启方案,直接挂死。开发人员事后只需在OS下访问对应设备,即可获取异常发生时CPU状态。
从上述实施例可以看出,本发明实施例提供的基本输入输出系统的异常检测与恢复方法,通过访问中央处理器的寄存器以获取与基本输入输出系统相关的异常寄存器值;将异常寄存器值保存到独立于基本输入输出系统的电可擦只读存储器;读取预先设定的异常处理方案,并响应于异常处理方案指示重启而通过基板管理控制器重新启动;访问电可擦只读存储器,获取异常寄存器值以复现和调试基本输入输出系统发生的异常的技术方案,能够便于复现和调试BIOS异常,并提供进一步的操作系统恢复机制。
需要特别指出的是,上述基本输入输出系统的异常检测与恢复方法的各个实施例中的各个步骤均可以相互交叉、替换、增加、删减,因此,这些合理的排列组合变换之于基本输入输出系统的异常检测与恢复方法也应当属于本发明的保护范围,并且不应将本发明的保护范围局限在所述实施例之上。
基于上述目的,本发明实施例的第二个方面,提出了一种能够便于复现和调试BIOS异常,并提供进一步的操作系统恢复机制的基本输入输出系统的异常检测与恢复装置的一个实施例。基本输入输出系统的异常检测与恢复装置包括:
处理器;和
存储器,存储有处理器可运行的程序代码,程序代码在被运行时响应于检测到基本输入输出系统在启动中发生异常而执行以下步骤:
访问中央处理器的寄存器以获取与基本输入输出系统相关的异常寄存器值;
将异常寄存器值保存到独立于基本输入输出系统的电可擦只读存储器;
读取预先设定的异常处理方案,并响应于异常处理方案指示重启而通过基板管理控制器重新启动;
访问电可擦只读存储器,获取异常寄存器值以复现和调试基本输入输出系统发生的异常。
在一些实施方式中,获取与基本输入输出系统相关的异常寄存器值包括:在EDKII的框架下使用中央处理器寄存器读取模块通过统一可扩展固件接口来获取异常寄存器值;
将异常寄存器值保存到独立于基本输入输出系统的电可擦只读存储器包括:使用电可擦只读存储器功能模块通过系统管理总线连接到电可擦只读存储器以保存异常寄存器值。
在一些实施方式中,还包括:预先在基本输入输出系统的启动菜单中以选项形式设定异常处理方案;
响应于异常处理方案指示重启而通过基板管理控制器重新启动包括:通过智能平台管理接口命令控制基板管理控制器,使基板管理控制器基于智能平台管理接口协议发出冷重启指令以自动重新启动操作系统。
从上述实施例可以看出,本发明实施例提供的基本输入输出系统的异常检测与恢复装置,通过访问中央处理器的寄存器以获取与基本输入输出系统相关的异常寄存器值;将异常寄存器值保存到独立于基本输入输出系统的电可擦只读存储器;读取预先设定的异常处理方案,并响应于异常处理方案指示重启而通过基板管理控制器重新启动;访问电可擦只读存储器,获取异常寄存器值以复现和调试基本输入输出系统发生的异常的技术方案,能够便于复现和调试BIOS异常,并提供进一步的操作系统恢复机制。
需要特别指出的是,上述基本输入输出系统的异常检测与恢复装置的实施例采用了所述基本输入输出系统的异常检测与恢复方法的实施例来具体说明各模块的工作过程,本领域技术人员能够很容易想到,将这些模块应用到所述基本输入输出系统的异常检测与恢复方法的其他实施例中。当然,由于所述基本输入输出系统的异常检测与恢复方法实施例中的各个步骤均可以相互交叉、替换、增加、删减,因此,这些合理的排列组合变换之于所述基本输入输出系统的异常检测与恢复装置也应当属于本发明的保护范围,并且不应将本发明的保护范围局限在所述实施例之上。
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上所述的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。

Claims (10)

1.一种基本输入输出系统的异常检测与恢复方法,其特征在于,包括响应于检测到基本输入输出系统在启动中发生异常而执行以下步骤:
访问中央处理器的寄存器以获取与基本输入输出系统相关的异常寄存器值;
将所述异常寄存器值保存到独立于基本输入输出系统的电可擦只读存储器;
读取预先设定的异常处理方案,并响应于所述异常处理方案指示重启而通过基板管理控制器重新启动;
访问所述电可擦只读存储器,获取所述异常寄存器值以复现和调试基本输入输出系统发生的所述异常。
2.根据权利要求1所述的方法,其特征在于,获取与基本输入输出系统相关的异常寄存器值包括:在EDKII的框架下使用中央处理器寄存器读取模块通过统一可扩展固件接口来获取所述异常寄存器值。
3.根据权利要求1所述的方法,其特征在于,将所述异常寄存器值保存到独立于基本输入输出系统的电可擦只读存储器包括:使用电可擦只读存储器功能模块通过系统管理总线连接到所述电可擦只读存储器以保存所述异常寄存器值。
4.根据权利要求1所述的方法,其特征在于,还包括:预先在基本输入输出系统的启动菜单中以选项形式设定所述异常处理方案。
5.根据权利要求4所述的方法,其特征在于,响应于所述异常处理方案指示重启而通过基板管理控制器重新启动包括:通过智能平台管理接口命令控制所述基板管理控制器,使所述基板管理控制器基于智能平台管理接口协议发出冷重启指令以自动重新启动操作系统。
6.根据权利要求1所述的方法,其特征在于,还包括:响应于所述异常处理方案未指示重启而挂死中央处理器。
7.根据权利要求6所述的方法,其特征在于,还包括:响应于调试所述异常并确定恢复方法,而使用所述恢复方法来处理处于挂死状态的所述中央处理器。
8.一种基本输入输出系统的异常检测与恢复装置,其特征在于,包括:
处理器;和
存储器,存储有处理器可运行的程序代码,所述程序代码在被运行时响应于检测到基本输入输出系统在启动中发生异常而执行以下步骤:
访问中央处理器的寄存器以获取与基本输入输出系统相关的异常寄存器值;
将所述异常寄存器值保存到独立于基本输入输出系统的电可擦只读存储器;
读取预先设定的异常处理方案,并响应于所述异常处理方案指示重启而通过基板管理控制器重新启动;
访问所述电可擦只读存储器,获取所述异常寄存器值以复现和调试基本输入输出系统发生的所述异常。
9.根据权利要求8所述的装置,其特征在于,获取与基本输入输出系统相关的异常寄存器值包括:在EDKII的框架下使用中央处理器寄存器读取模块通过统一可扩展固件接口来获取所述异常寄存器值;
将所述异常寄存器值保存到独立于基本输入输出系统的电可擦只读存储器包括:使用电可擦只读存储器功能模块通过系统管理总线连接到所述电可擦只读存储器以保存所述异常寄存器值。
10.根据权利要求9所述的装置,其特征在于,还包括:预先在基本输入输出系统的启动菜单中以选项形式设定所述异常处理方案;
响应于所述异常处理方案指示重启而通过基板管理控制器重新启动包括:通过智能平台管理接口命令控制所述基板管理控制器,使所述基板管理控制器基于智能平台管理接口协议发出冷重启指令以自动重新启动操作系统。
CN202010881104.3A 2020-08-27 2020-08-27 一种基本输入输出系统的异常检测与恢复方法和装置 Withdrawn CN112131043A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010881104.3A CN112131043A (zh) 2020-08-27 2020-08-27 一种基本输入输出系统的异常检测与恢复方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010881104.3A CN112131043A (zh) 2020-08-27 2020-08-27 一种基本输入输出系统的异常检测与恢复方法和装置

Publications (1)

Publication Number Publication Date
CN112131043A true CN112131043A (zh) 2020-12-25

Family

ID=73848630

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010881104.3A Withdrawn CN112131043A (zh) 2020-08-27 2020-08-27 一种基本输入输出系统的异常检测与恢复方法和装置

Country Status (1)

Country Link
CN (1) CN112131043A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113391939A (zh) * 2021-06-11 2021-09-14 深圳市同泰怡信息技术有限公司 记录基本输入输出系统信息的方法、装置、计算机设备
CN117389781A (zh) * 2023-10-18 2024-01-12 上海合芯数字科技有限公司 服务器设备的异常侦测与恢复方法、系统、服务器及介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113391939A (zh) * 2021-06-11 2021-09-14 深圳市同泰怡信息技术有限公司 记录基本输入输出系统信息的方法、装置、计算机设备
CN117389781A (zh) * 2023-10-18 2024-01-12 上海合芯数字科技有限公司 服务器设备的异常侦测与恢复方法、系统、服务器及介质
CN117389781B (zh) * 2023-10-18 2024-06-04 上海合芯数字科技有限公司 服务器设备的异常侦测与恢复方法、系统、服务器及介质

Similar Documents

Publication Publication Date Title
WO2022160756A1 (zh) 服务器故障定位方法、装置、系统及计算机可读存储介质
WO2022198972A1 (zh) 一种服务器启动过程中的故障定位方法、系统及装置
US8930769B2 (en) Managing operating system deployment failure
US8751783B2 (en) Booting computing devices with EFI aware operating systems
JP2006527423A (ja) コンピュータオペレーションシステムの修復方法
WO2021057795A1 (zh) 系统启动方法、装置、节点设备及计算机可读存储介质
US20210240488A1 (en) Bios boot and update failover process
JP2006215905A (ja) コンピュータの停止状況監視方法、情報処理装置及びプログラム
JP2010086364A (ja) 情報処理装置、動作状態監視装置および方法
CN112131043A (zh) 一种基本输入输出系统的异常检测与恢复方法和装置
US8495349B2 (en) Generating a primary BIOS code memory address and a recovery BIOS code memory address, where the recovery BIOS service code is loaded when the primary BIOS code fails to execute
CN111338698A (zh) 一种bios准确引导服务器启动的方法及系统
CN113672306B (zh) 服务器组件自检异常恢复方法、装置、系统及介质
CN115794472A (zh) 芯片的错误收集及错误处理方法、装置及存储介质
CN111090546A (zh) 一种操作系统重启方法、装置、设备及可读存储介质
KR100605031B1 (ko) Usb 메모리 장치를 이용한 임베디드 시스템의 장애복구 및 업그레이드 방법
CN115951949A (zh) 一种bios的配置参数的恢复方法、装置及计算设备
JP2004302731A (ja) 情報処理装置および障害診断方法
CN107179911B (zh) 一种重启管理引擎的方法和设备
JP2002049509A (ja) データ処理システム
WO2017190575A1 (zh) 驱动程序的控制方法及装置
TW201944244A (zh) 電腦系統、其更新方法及電腦程式產品
US11354109B1 (en) Firmware updates using updated firmware files in a dedicated firmware volume
US8359220B2 (en) Technical support routing among members of a technical support group
CN114153503A (zh) 一种bios控制方法、装置、介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20201225