CN1917446A - 服务器的故障恢复方法及系统 - Google Patents

服务器的故障恢复方法及系统 Download PDF

Info

Publication number
CN1917446A
CN1917446A CN 200610037434 CN200610037434A CN1917446A CN 1917446 A CN1917446 A CN 1917446A CN 200610037434 CN200610037434 CN 200610037434 CN 200610037434 A CN200610037434 A CN 200610037434A CN 1917446 A CN1917446 A CN 1917446A
Authority
CN
China
Prior art keywords
house dog
order
management controller
baseboard management
send
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 200610037434
Other languages
English (en)
Inventor
周建军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN 200610037434 priority Critical patent/CN1917446A/zh
Publication of CN1917446A publication Critical patent/CN1917446A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种服务器的故障恢复方法,包括以下步骤:a.操作系统开始加载前,基本输入输出系统向基板管理控制器发送设置看门狗命令;b.操作系统在第一预设时间间隔内向基板管理控制器发送复位看门狗命令;c.基板管理控制器根据第一预设时间间隔检测是否收到步骤b中所述复位看门狗命令,并在检测结果为是时,对看门狗进行复位操作,否则,执行步骤d;d.基板管理控制器对服务器进行预设的操作。本发明还公开了相应的服务器的故障恢复系统。本发明可实现服务器从上电到运行三个阶段中任一阶段出现异常,均能及时对系统进行复位,使系统从故障状态恢复。

Description

服务器的故障恢复方法及系统
技术领域
本发明涉及故障恢复技术,尤其涉及一种服务器的故障恢复方法及系统。
背景技术
在智能平台管理接口(Intelligent Platform Management Interface,IPMI)规范中,为服务器提供了看门狗功能。看门狗(Watchdog Timer,WDT)是一种故障恢复技术,其基本原理是:系统运行正常时,在一定的时间间隔内向基板管理控制器(Baseboard Management Controller,BMC)发送复位(Reset)WDT命令,BMC检测到该命令之后,执行Reset WDT操作;系统发生故障而导致运行异常时,将停止向BMC发送Reset WDT命令而导致WDT溢出,BMC检测到WDT溢出时,则对系统进行预设的操作,将系统从故障状态恢复。所述预设的操作可包括复位、下电(Power Down)或电循环(Power Cycle)等。
服务器从上电到运行,依次经历三个阶段,即基本输入输出系统(BasicInput/Output System,BIOS)上电自检(Power-On-Self Test,POST)阶段、操作系统(Operation System,OS)加载(Load)阶段和操作系统运行(Run)阶段。
以下是现有技术中两种基于IPMI规范的服务器故障恢复方法:
参考图1,该图是现有技术中服务器故障恢复方法的一级看门狗方案,该方案包括以下步骤:
s01、操作系统运行阶段开始时,操作系统向BMC发送设置(Set)WDT命令;
s02、操作系统在预设的时间间隔内向BMC发送复位WDT命令;
s03、BMC根据预设的时间间隔检测是否收到所述复位WDT命令,若是,则进行复位WDT操作,否则,执行步骤s04;
s04、BMC对服务器进行预设的操作。
该方案存在以下缺点:
1、由于在操作系统运行阶段才启动BMC WDT,如果服务器在BIOS上电自检阶段和操作系统加载阶段运行异常,则无法复位系统,无法将系统从故障状态恢复;
2、服务器在运行中,如果对服务器进行热复位操作,则服务器复位后,BMC WDT仍在运行,由于在BIOS上电自检阶段和操作系统加载阶段没有WDT操作,WDT超时溢出后,将导致服务器即使在正常工作状态仍会再次复位。
复位信号发送单元,用于在所述第二看参考图2,该图是现有技术中服务器故障恢复方法的二级看门狗方案,该方案包括以下步骤:
s11、BIOS上电自检阶段开始时,BIOS向BMC发送设置WDT的命令;
s12、BIOS在预设的时间间隔内向BMC发送复位WDT命令;
s13、BMC根据预设的时间间隔检测是否收到所述复位WDT命令,若是,则进行复位WDT操作,否则,执行步骤s17;
s14、操作系统运行阶段开始时,操作系统向BMC发送设置WDT的命令;
s15、操作系统在预设的时间间隔内向BMC发送复位WDT命令;
s16、BMC根据预设的时间间隔检测是否收到所述复位WDT命令,若是,则进行复位WDT操作,否则,执行步骤s17;
s17、BMC对服务器进行预设的操作。
该方案虽然克服了方案一所述的缺点,但是存在以下缺点:
1、由于在BIOS上电自检阶段启动了WDT,因此操作系统中必须安装WDT驱动程序,否则将由于操作系统阶段不能进行复位WDT操作而导致WDT溢出;
2、安装操作系统时,BIOS必需关闭WDT,否则操作系统安装过程中将由于WDT溢出导致系统复位;
3、在服务器从上电到运行的三个阶段,WDT是相互关联的,要启动同时启动,要关闭同时关闭,缺乏灵活性;
4、当服务器在BIOS上电自检阶段或操作系统加载阶段出现故障时,无法准确判断故障是出现在BIOS上电自检阶段还是操作系统加载阶段。
发明内容
本发明解决的技术问题是提出一种服务器的故障恢复方法及系统,以实现在服务器从上电到运行三个阶段中任一阶段出现异常,均能及时对系统进行复位,使系统从故障状态恢复。
为解决上述技术问题,本发明提出了一种服务器的故障恢复方法,包括以下步骤:
a、操作系统开始加载前,基本输入输出系统向基板管理控制器发送设置看门狗命令;
b、操作系统在第一预设时间间隔内向基板管理控制器发送复位看门狗命令;
c、基板管理控制器根据第一预设时间间隔检测是否收到步骤b中所述复位看门狗命令,并在检测结果为是时,对看门狗进行复位操作,否则,执行步骤d;
d、基板管理控制器对服务器进行预设的操作。
另外,步骤a之前还包括:
a0、基本输入输出系统开始上电自检时,向基板管理控制器发送设置看门狗命令;
a1、基本输入输出系统在第二预设时间间隔内向基板管理控制器发送复位看门狗命令;
a2、基板管理控制器根据第二预设时间间隔检测是否收到步骤a1中所述复位看门狗命令,并在检测结果为是时,对看门狗进行预设的操作,否则,执行步骤a3;
a3、基板管理控制器对服务器进行预设的操作。
另外,所述步骤c之后还包括步骤:
c0、操作系统开始运行时,向基板管理控制器发送设置看门狗命令;
c1、操作系统在第三预设时间间隔内向基板管理控制器发送复位看门狗命令;
c2、基板管理控制器根据第三预设时间间隔检测是否收到步骤c1中所述复位看门狗命令,并在检测结果为是时,对看门狗进行复位操作,否则,执行步骤c3;
c3、基板管理控制器对服务器进行预设的操作。
相应地,本发明还提供一种服务器的故障恢复系统,包括:
第一看门狗设置单元,用于在操作系统加载前,向基板管理控制器发送设置看门狗命令;
第一复位信号发送单元,用于在所述第一看门狗设置单元发送设置看门狗命令之后,在第一预设时间间隔内向基板管理控制器发送复位看门狗命令;
复位信号检测单元,用于按照预设的时间间隔检测是否接收到所述复位信号发送单元发送的复位看门狗命令,并在检测结果为是时,对看门狗进行复位操作;
系统复位单元,用于当所述复位信号检测单元检测结果为否时,对系统进行预设的操作。
还包括:
第二看门狗设置单元,用于在基本输入输出系统开始上电自检时,向基板管理控制器发送设置看门狗命令;
第二复位信号发送单元,用于在所述第二看门狗设置单元发送设置看门狗命令之后,在第二预设时间间隔内向基板管理控制器发送复位看门狗命令。
还包括:
第三看门狗设置单元,用于在操作系统开始运行时,向基板管理控制器发送设置看门狗命令;
第三复位信号发送单元,用于在所述第三看门狗设置单元发送设置看门狗命令之后,在第三预设时间间隔内向基板管理控制器发送复位看门狗命令。
与现有技术相比,本发明具有以下有益效果:
本发明通过增加了服务器操作系统加载阶段的WDT功能,从而使在服务器从上电到运行三个阶段中任一阶段出现异常,均能及时对系统进行复位,使系统从故障状态恢复,且操作系统无需安装WDT驱动程序,安装操作系统时亦无需关闭WDT,方便灵活,且每个阶段的WDT均为单独设置,互不干扰,当服务器出现异常时,能准确地判断发生异常的时间阶段。
附图说明
图1是现有技术中服务器故障恢复方法一级看门狗方案的过程示意图;
图2是现有技术中服务器故障恢复方法二级看门狗方案的过程示意图;
图3是本发明提供的服务器故障恢复方法的流程图;
图4是本发明提供的服务器故障恢复系统的结构示意图。
具体实施方式
本发明的核心在于增加了服务器操作系统加载阶段的WDT功能,从而使在服务器从上电到运行三个阶段中任一阶段出现异常,均能及时对系统进行复位,使系统从故障状态恢复,且OS无需安装驱动程序,方便灵活。
参考图3,该图是本发明提供的服务器故障恢复方法的一个实施例的流程图。
步骤s301中,在BIOS上电自检阶段开始时,BIOS向BMC发送设置WDT的命令,同时,可设置WDT的溢出时长,在BIOS中,提供BIOS上电自检WDT的设置菜单,可以选择禁能(disable)、120秒、180秒、300秒、480秒、900秒等参数,在BIOS上电自检阶段开始时,WDT的默认溢出时长为480秒。需要说明的是,该菜单中提供的时间设置选项可以根据实际需要而灵活设置,但无论设置时长为多少,都不影响本系统性能的实现。
步骤s302中,BIOS在步骤s301预设的时间间隔内向BMC发送复位WDT命令。
步骤s303中,BMC根据步骤s301预设的时间间隔检测是否收到所述复位WDT命令,若是,则进行复位WDT操作,否则,执行步骤s310。
步骤s304中,BIOS在完成运行前,向BMC发送设置WDT的命令,同时,可设置WDT的溢出时长,在操作系统中,提供操作系统加载WDT溢出时长的设置菜单,可以选择禁能、120秒、180秒、300秒、480秒、900秒等参数,在操作系统加载阶段开始时,WDT的默认状态为禁能,BIOS完成设置WDT后,结束运行,操作系统加载阶段开始。
步骤s305中,操作系统在步骤s304预设的时间间隔内向BMC发送复位WDT命令。
步骤s306中,BMC根据步骤s304预设的时间间隔检测是否收到所述复位WDT命令,若是,则进行复位WDT操作,否则,执行步骤s310。
步骤s307中,在操作系统运行阶段开始时,操作系统向BMC发送设置WDT命令,同时,可设置WDT的溢出时长,在操作系统中,提供操作系统运行WDT溢出时长的设置菜单,可以选择禁能、120秒、180秒、300秒、480秒、900秒等参数,在操作系统运行阶段开始时,WDT的默认状态为禁能。
步骤s308中,操作系统在步骤s307预设的时间间隔内向BMC发送复位WDT命令。
步骤s309中,BMC根据步骤s307预设的时间间隔检测是否收到所述复位WDT命令,若是,则进行复位WDT操作,否则,执行步骤s310。
步骤s310中,BMC对服务器进行预设的操作。所述预设的操作可包括复位、下电或电循环等。
下面说明本发明提供的服务器的故障恢复系统的实施例。
参考图4,该图为本发明服务器的故障恢复系统的实施例的结构示意图。所述服务器故障修复系统包括操作系统1,BIOS 2,BMC 3,其中:
所述BIOS2包括:
第一看门狗设置单元21,用于在操作系统加载阶段开始前,向BMC发送设置WDT命令;
第二看门狗设置单元22,用于在BIOS上电自检阶段开始时,向BMC发送设置WDT命令;
第二复位信号发送单元23,用于在所述第二WDT设置单元发送设置WDT命令之后,在第三预设时间间隔内向BMC发送复位WDT命令。
所述操作系统1包括:
第一复位信号发送单元11,用于在所述第一WDT设置单元发送设置WDT命令之后,按照第一预设时间间隔向BMC发送复位WDT命令;
第三看门狗设置单元12,用于在操作系统运行阶段开始时,向BMC发送设置WDT命令。
第三复位信号发送单元13,用于在所述第三WDT设置单元发送设置WDT命令之后,按照第三预设时间间隔向BMC发送复位WDT命令。
所述BMC 3包括:
WDT31。
复位信号检测单元32,用于按照预设的时间间隔检测是否接收到所述复位信号发送单元发送的复位WDT信号,并在检测结果为是时,对WDT进行复位操作。
系统复位单元33,用于当所述复位信号检测单元检测结果为否时,对系统进行预设的操作。

Claims (6)

1、一种服务器的故障恢复方法,其特征在于,包括以下步骤:
a、操作系统开始加载前,基本输入输出系统向基板管理控制器发送设置看门狗命令;
b、操作系统在第一预设时间间隔内向基板管理控制器发送复位看门狗命令;
c、基板管理控制器根据第一预设时间间隔检测是否收到步骤b中所述复位看门狗命令,并在检测结果为是时,对看门狗进行复位操作,否则,执行步骤d;
d、基板管理控制器对服务器进行预设的操作。
2、根据权利要求1所述服务器的故障恢复方法,其特征在于,所述步骤a之前还包括:
a0、基本输入输出系统开始上电自检时,向基板管理控制器发送设置看门狗命令;
a1、基本输入输出系统在第二预设时间间隔内向基板管理控制器发送复位看门狗命令;
a2、基板管理控制器根据第二预设时间间隔检测是否收到步骤a1中所述复位看门狗命令,并在检测结果为是时,对看门狗进行预设的操作,否则,执行步骤a3;
a3、基板管理控制器对服务器进行预设的操作。
3、根据权利要求1或2所述服务器的故障恢复方法,其特征在于,所述步骤c之后还包括步骤:
c0、操作系统开始运行时,向基板管理控制器发送设置看门狗命令;
c1、操作系统在第三预设时间间隔内向基板管理控制器发送复位看门狗命令;
c2、基板管理控制器根据第三预设时间间隔检测是否收到步骤c1中所述复位看门狗命令,并在检测结果为是时,对看门狗进行复位操作,否则,执行步骤c3;
c3、基板管理控制器对服务器进行预设的操作。
4、一种服务器的故障恢复系统,其特征在于,包括:
第一看门狗设置单元,用于在操作系统加载前,向基板管理控制器发送设置看门狗命令;
第一复位信号发送单元,用于在所述第一看门狗设置单元发送设置看门狗命令之后,在第一预设时间间隔内向基板管理控制器发送复位看门狗命令;
复位信号检测单元,用于按照预设的时间间隔检测是否接收到所述复位信号发送单元发送的复位看门狗命令,并在检测结果为是时,对看门狗进行复位操作;
系统复位单元,用于当所述复位信号检测单元检测结果为否时,对系统进行预设的操作。
5、根据权利要求4所述服务器的故障恢复系统,其特征在于,还包括:
第二看门狗设置单元,用于在基本输入输出系统开始上电自检时,向基板管理控制器发送设置看门狗命令;
第二复位信号发送单元,用于在所述第二看门狗设置单元发送设置看门狗命令之后,在第二预设时间间隔内向基板管理控制器发送复位看门狗命令。
6、根据权利要求4或5所述服务器的故障恢复系统,其特征在于,还包括:
第三看门狗设置单元,用于在操作系统开始运行时,向基板管理控制器发送设置看门狗命令;
第三复位信号发送单元,用于在所述第三看门狗设置单元发送设置看门狗命令之后,在第三预设时间间隔内向基板管理控制器发送复位看门狗命令。
CN 200610037434 2006-09-04 2006-09-04 服务器的故障恢复方法及系统 Pending CN1917446A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200610037434 CN1917446A (zh) 2006-09-04 2006-09-04 服务器的故障恢复方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200610037434 CN1917446A (zh) 2006-09-04 2006-09-04 服务器的故障恢复方法及系统

Publications (1)

Publication Number Publication Date
CN1917446A true CN1917446A (zh) 2007-02-21

Family

ID=37738344

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200610037434 Pending CN1917446A (zh) 2006-09-04 2006-09-04 服务器的故障恢复方法及系统

Country Status (1)

Country Link
CN (1) CN1917446A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101741654B (zh) * 2008-11-27 2012-01-18 英业达股份有限公司 操作系统的监控装置与方法
CN102567129A (zh) * 2011-12-30 2012-07-11 深圳市大富科技股份有限公司 一种看门狗的启动方法及装置
CN101872247B (zh) * 2009-04-22 2012-11-28 技嘉科技股份有限公司 服务器监控装置及方法
CN104156289A (zh) * 2014-07-09 2014-11-19 中国电子科技集团公司第三十二研究所 基于检测电路的同步控制方法及系统
CN105912414A (zh) * 2016-04-01 2016-08-31 浪潮集团有限公司 一种服务器管理的方法及系统
CN111124849A (zh) * 2019-11-08 2020-05-08 苏州浪潮智能科技有限公司 一种服务器故障告警的方法、设备及介质
CN113064747A (zh) * 2021-03-26 2021-07-02 山东英信计算机技术有限公司 一种服务器启动过程中的故障定位方法、系统及装置
US11226862B1 (en) * 2020-09-03 2022-01-18 Dell Products L.P. System and method for baseboard management controller boot first resiliency

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101741654B (zh) * 2008-11-27 2012-01-18 英业达股份有限公司 操作系统的监控装置与方法
CN101872247B (zh) * 2009-04-22 2012-11-28 技嘉科技股份有限公司 服务器监控装置及方法
CN102567129A (zh) * 2011-12-30 2012-07-11 深圳市大富科技股份有限公司 一种看门狗的启动方法及装置
CN104156289A (zh) * 2014-07-09 2014-11-19 中国电子科技集团公司第三十二研究所 基于检测电路的同步控制方法及系统
CN104156289B (zh) * 2014-07-09 2017-10-27 中国电子科技集团公司第三十二研究所 基于检测电路的同步控制方法及系统
CN105912414A (zh) * 2016-04-01 2016-08-31 浪潮集团有限公司 一种服务器管理的方法及系统
CN111124849A (zh) * 2019-11-08 2020-05-08 苏州浪潮智能科技有限公司 一种服务器故障告警的方法、设备及介质
US11226862B1 (en) * 2020-09-03 2022-01-18 Dell Products L.P. System and method for baseboard management controller boot first resiliency
CN113064747A (zh) * 2021-03-26 2021-07-02 山东英信计算机技术有限公司 一种服务器启动过程中的故障定位方法、系统及装置

Similar Documents

Publication Publication Date Title
CN1917446A (zh) 服务器的故障恢复方法及系统
CN100568191C (zh) 嵌入式系统的全程喂狗方法
CN1874272A (zh) 识别网络故障节点的方法
CN1916858A (zh) 多核系统中的监控方法、监控装置以及多核系统
CN1495611A (zh) 容错计算机系统及其再同步方法和再同步程序
CN101739305A (zh) 操作系统内核级实时看门狗监控装置及其监控方法
CN1912641A (zh) 一种单板在位检测方法及系统
CN1725187A (zh) 在计算机上当软件崩溃时保存用户数据的方法及装置
CN1752942A (zh) 一种电脑主板故障的监测诊断装置
US20130139005A1 (en) Usb testing apparatus and method
CN106406962A (zh) 基于arm的风力发电控制器远程升级失败可恢复的方法
CN104049702A (zh) 一种基于单片机的cpu复位控制系统、方法及装置
CN1570863A (zh) 远程加载或升级程序的系统及其方法
CN101046748A (zh) 计算机开启系统和开启方法
CN1722121A (zh) 通信设备及其控制方法
CN104156289A (zh) 基于检测电路的同步控制方法及系统
CN102780578A (zh) 网络设备的操作系统的更新系统及更新方法
CN1294488C (zh) 多处理器计算机系统的开机切换方法
CN1501621A (zh) 一种系统安全启动方法
CN101901168A (zh) 一种看门狗复位系统及其复位方法
CN1249548C (zh) 主备电路倒换设备及其方法
CN1873586A (zh) 控制计算机系统中的能量消耗的计算机系统和方法
CN1156860A (zh) 计算机系统
CN1738246A (zh) 网络终端产品的在线升级方法
CN109284137B (zh) 一种基于Hypervisor的QNX操作系统启动方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20070221