CN111857312A - 一种基于x86平台的多设备复位方法及装置 - Google Patents

一种基于x86平台的多设备复位方法及装置 Download PDF

Info

Publication number
CN111857312A
CN111857312A CN202010589812.XA CN202010589812A CN111857312A CN 111857312 A CN111857312 A CN 111857312A CN 202010589812 A CN202010589812 A CN 202010589812A CN 111857312 A CN111857312 A CN 111857312A
Authority
CN
China
Prior art keywords
cpu
bmc
reset
slave
multiplexed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010589812.XA
Other languages
English (en)
Inventor
王文志
朱英澍
王安平
黄帅
梁盛楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202010589812.XA priority Critical patent/CN111857312A/zh
Publication of CN111857312A publication Critical patent/CN111857312A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/30Means for acting in the event of power-supply failure or interruption, e.g. power-supply fluctuations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)
  • Retry When Errors Occur (AREA)

Abstract

本发明公开一种基于X86平台的多设备复位方法及装置,X86平台包括CPU和BMC,CPU连接有多个从设备,本方案监测CPU是否强制重启或异常掉电;若CPU强制重启或异常掉电,则检测是否有从设备被BMC复用;若无从设备被BMC复用,则直接控制各个从设备进行复位操作;若有从设备被BMC复用,则直接控制未被复用从设备进行复位操作,同时发送复位信号至BMC,由BMC控制被复用从设备进行复位操作。本发明在CPU强制重启或异常掉电时,由第三方控制各个从设备进行复位,保证从设备能正常复位,避免影响CPU的正常访问。

Description

一种基于X86平台的多设备复位方法及装置
技术领域
本发明涉及X86平台设备复位领域,具体涉及一种基于X86平台的多设备复位方法及装置。
背景技术
基于X86处理器的终端产品也日趋完善,服务器、网络交换机等均采用X86平台的处理器进行设计。而基于服务器和交换机设备的常用特性,设备除了包含X86_CPU端的主控,整机设备还需要包括BMC系统、CPLD系统等,再加上Intel-X86处理器复杂的上电流程,整机设备的上电时序流程以及复位策略就显得尤为基础和重要。上电时序决定了设备开机,系统的启动,软件服务的开启,各模块间通路的建立;复位策略决定了CPU系统什么时间重启;重启过程挂载至X86_CPU主控下的从设备是否需要复位,什么时间复位;若为双主控设计,则单CPU Host复位,BMC端如何操作。
由于X86平台的复杂性和特殊性,在进行上电时,主要可划分为StandBy电以及Main电。Main电为主CPU模块系统运行所需要的电,若此时系统进行WarmReboot时,整台设备不会存在任何的掉电操作,仅CPU进行一次软件复位和重启操作。StandBy电为设备只要插入AC电源后就存在的电,BMC系统以及CPLD系统使用的都是StandBy电。当系统进行ColdReboot时,设备会重启Main电,但是StandBy电不会有改变。基于目前这样的设计,CPU端的操作系统下若执行WarmReboot指令,整台设备不会出现任何的掉电操作,仅CPU主系统重启复位,其他设备由于不掉电因此不发生任何复位,这也是目前基于X86主控设计的设备的常用设计思路。
但根据实际的验证结果,X86_CPU主系统发生强制重启动作时,由于强制重启的指令使得系统端不会将所有的软件服关闭后重启,而是直接进行WarmReboot复位操作。此时有可能发生系统层的应用程序正在访问主板上的其他设备,如Eeprom设备等。由于缺少硬件复位机制,加之软件层面上未进行复位关闭设备的操作,导致设备被长时间占用,从而在下次重启时会出现异常。另外,对从设备来说,缺乏一套安全可靠的复位机制,一旦设备发生异常掉电时,亦可能出现从设备未被复位的情况。而CPU端需要重启,此时重启后,也会出现从设备被长时间占用无法访问的异常。
发明内容
为解决上述问题,本发明提供一种基于X86平台的多设备复位方法及装置,保证从设备正常复位。
本发明的技术方案是,一种基于X86平台的多设备复位方法,X86平台包括CPU和BMC,CPU连接有多个从设备,其特征在于,该方法包括以下步骤:
监测CPU是否强制重启或异常掉电;
若CPU强制重启或异常掉电,则检测是否有从设备被BMC复用;
若无从设备被BMC复用,则直接控制各个从设备进行复位操作;
若有从设备被BMC复用,则直接控制未被复用从设备进行复位操作,同时发送复位信号至BMC,由BMC控制被复用从设备进行复位操作。
进一步地,通过监测CPU的上电时序信号来监测CPU是否强制重启或异常掉电。
进一步地,直接控制或者由BMC控制从设备进行复位操作时,通过控制从设备的复位引脚电信号来控制从设备的复位操作。
进一步地,X86平台还包括CPLD;该方法有CPLD执行。
本发明的技术方案还包括一种基于X86平台的多设备复位装置,X86平台包括CPU和BMC,CPU连接有多个从设备,其特征在于,包括,
监测模块:监测CPU是否强制重启或异常掉电;
检测复用模块:CPU强制重启或异常掉电时,检测是否有从设备被BMC复用;
复位模块:CPU强制重启或异常掉电时,直接控制各个未被BMC复用的从设备进行复位操作;
复位信号发送模块:有从设备被BMC复用时,发送复位信号至BMC,由BMC控制被复用从设备进行复位操作。
进一步地,监测模块通过监测CPU的上电时序信号来监测CPU是否强制重启或异常掉电。
进一步地,复位模块通过控制从设备的复位引脚电信号来控制从设备的复位操作;
BMC控制被复用从设备进行复位操作时,同样通过控制从设备的复位引脚电信号来控制从设备的复位操作。
进一步地,X86平台还包括CPLD;该装置配置于CPLD。
本发明提供的一种基于X86平台的多设备复位方法及装置,通过第三方实时监测CPU状态,当CPU强制重启或异常掉电时,即CPU未关闭服务重启时,由第三方控制各个从设备进行复位,保证从设备能正常复位,支持CPU正常访问。具体地,可由CPLD监测和控制,易于实现,降低成本。另外,考虑到CPU和BMC双主控的情况,本发明设计由BMC主动控制其下属从设备的复位操作,避免干扰BMC的正常读写访问。本发明在CPU强制重启或异常掉电时,有效保障从设备正常复位,避免影响CPU的正常访问。
附图说明
图1是本发明具体实施例一方法流程示意图。
图2是本发明具体实施例二方法流程示意图。
图3是本发明具体实施例三结构示意图。
具体实施方式
下面结合附图并通过具体实施例对本发明进行详细阐述,以下实施例是对本发明的解释,而本发明并不局限于以下实施方式。
以下对本发明涉及的英文名称进行解释。
1)X86:Intel处理器架构的一种简称;
2)CPLD:复杂可编程逻辑器件;
3)UEFI:全称“统一的可扩展固件接口”(Unified Extensible Firmware Interface),是一种详细描述类型接口的标准。这种接口用于操作系统自动从预启动的操作环境,加载到一种操作系统上;
4)BMC:Baseboard Manager Controller,基板管理控制器;
5)Platform_Reset:简称PLT_RST#信号,Intel处理器上电时序的一个特有名词,该信号出发后,表示BIOS软件代码开始执行其第一条指令;
6)Warm reboot:热重启名词,该模式重启CPU端不掉电;
7)Cold reboot:冷重启名词,该模式下重启,CPU端将会执行掉电操作;
8)PCIE_RST: 交换芯片的一个复位信号,表示PCIE链路进行复位;
9)SYS_RST:交换芯片的一个复位信号,表示芯片逻辑复位。
实施例一
本实施例提供一种基于X86平台的多设备复位方法,X86平台包括CPU,CPU连接有多个从设备(如PCIE、EEPROM)。CPU主系统是整台设备功能的集中体现,当CPU主系统发生异常断电或者重启的时候,此时可以认为整台设备的基本运行环境已被破坏,主控既已重新复位,那么主板上所有的从设备无论是PCIE从设备亦或eeprom等从设备更需要复位。但强制重启或异常掉电时,有可能系统层的应用程序正在访问从设备,使从设备无法复位而在下次重启时出现异常。因此,本发明提供第三方控制从设备复位。
如图1所示,本方法具体包括以下步骤:
S1-1,监测CPU是否强制重启或异常掉电;
S1-2,若CPU强制重启或异常掉电,则控制各个从设备进行复位操作。
通过第三方实时监测CPU状态,当CPU强制重启或异常掉电时,即CPU未关闭服务重启时,由第三方控制各个从设备进行复位,保证从设备能正常复位,支持CPU正常访问。
优选地,本方法采用CPLD作为第三方,由CPLD监测CPU状态和控制从设备复位。
CPU强制重启或异常掉电,相当于发生warm_reboot。X86平台的CPU执行warm_reboot的起始信号源于上电时序信号(即PLT_RST#信号)的跳变,因此CPLD进行该信号的监测,来实现监测CPU是否强制重启或异常掉电。当发现PLT_RST#信号跳变时,CPLD认为此时CPU正在执行warm_reboot,从而控制从设备进行复位。
控制从设备复位通过控制从设备的复位引脚电信号来实现。以交换芯片为例,交换芯片有两个复位pin:SYS_RST#和PCIE_RST#。当CPU执行Cold_reboot时由于存在掉电流程,因此两个pin对应的电信号会被自动拉低进行复位。当CPU执行warm_reboot时,CPLD主动拉低交换芯片的两个复位pin,即进行复位。
CPU发生强制重启或异常掉电时,CPLD负责复位CPU的所有从设备,保证所有从设备在CPU重启时,均跟随复位。
实施例二
在实施例一基础上,本实施例提供一种基于X86平台的多设备复位方法,考虑到设备的完备性和交换机设备的业务需求,多数情况下X86平台上均设计有BMC和CPU两个模块系统,CPU负责主业务,BMC主要负责监控,确保安全可靠。这样的情况下有可能出现主板上部分设备存在双主控设计,如:某些eeprom设备会通过PCA9641器件挂载双主控下,在能被X86_CPU访问的时候,也能通过开关切换被BMC进行访问。这样就会出现两个系统的交叉耦合,例如上述通过侦测CPU的PLT_RST信号对主板上多数的从设备进行的复位操作,防止设备被异常占用。但假如此时BMC设备正在访问一个eeprom设备,但是CPLD侦测到PLT_RST#信号后,释放复位信号,就有可能会干扰BMC端的正常读写访问。
针对这种异常,本实施例将双主控从设备复位释放权限交给BMC完成。即CPLD监测到PLT_RST#信号跳变后,开始复位CPU控制的从设备。CPLD此时同时发出信号给BMC端,由BMC端主动完成下属从设备的复位操作,以此来避免BMC对双主控访问设备的控制。
如图2所示,具体包括以下步骤:
S2-1,监测CPU是否强制重启或异常掉电;
S2-2,若CPU强制重启或异常掉电,检测是否有从设备被BMC复用;
S2-3,若无从设备被BMC复用,则直接控制各个从设备进行复位操作;
S2-4,若有从设备被BMC复用,则直接控制未被复用从设备进行复位操作,同时发送复位信号至BMC,由BMC控制被复用从设备进行复位操作。
另外,BMC同样通过控制从设备的复位引脚电信号来控制从设备的复位操作。
实施例三
如图3所示,基于实施例一和实施例二,本实施例提供一种基于X86平台的多设备复位装置,X86平台包括CPU,CPU连接有多个从设备,包括以下功能模块。
监测模块101:监测CPU是否强制重启或异常掉电;
复位模块102:CPU强制重启或异常掉电时,控制各个从设备进行复位操作。
本装置通过第三方实时监测CPU状态,当CPU强制重启或异常掉电时,即CPU未关闭服务重启时,由第三方控制各个从设备进行复位,保证从设备能正常复位,支持CPU正常访问。
优选地,本装置配置于CPLD上,由CPLD作为第三方,监测CPU状态和控制从设备复位。
CPU强制重启或异常掉电,相当于发生warm_reboot。X86平台的CPU执行warm_reboot的起始信号源于上电时序信号(即PLT_RST#信号)的跳变,因此CPLD进行该信号的监测,来实现监测CPU是否强制重启或异常掉电。当发现PLT_RST#信号跳变时,CPLD认为此时CPU正在执行warm_reboot,从而控制从设备进行复位。
控制从设备复位通过控制从设备的复位引脚电信号来实现。以交换芯片为例,交换芯片有两个复位pin:SYS_RST#和PCIE_RST#。当CPU执行Cold_reboot时由于存在掉电流程,因此两个pin对应的电信号会被自动拉低进行复位。当CPU执行warm_reboot时,CPLD主动拉低交换芯片的两个复位pin,即进行复位。
CPU发生强制重启或异常掉电时,CPLD负责复位CPU的所有从设备,保证所有从设备在CPU重启时,均跟随复位。
考虑到设备的完备性和交换机设备的业务需求,多数情况下X86平台上均设计有BMC和CPU两个模块系统。CPU发生强制重启或异常掉电时,部分从设备可能被BMC复用,为避免直接复位被复用的从设备干扰BMC端的正常读写访问,本装置还设置以下功能模块。
检测复用模块103:CPU强制重启或异常掉电时,检测是否有从设备被BMC复用;
复位信号发送模块104:有从设备被BMC复用时,发送复位信号至BMC,由BMC控制被复用从设备进行复位操作。
需要说明的是,复位模块102直接控制的是各个未被BMC复用的从设备进行复位操作。另外,BMC同样通过控制从设备的复位引脚电信号来控制从设备的复位操作。
CPLD监测到PLT_RST#信号跳变后,开始复位CPU控制的从设备。CPLD此时同时发出信号给BMC端,由BMC端主动完成下属从设备的复位操作,以此来避免BMC对双主控访问设备的控制。
以上公开的仅为本发明的优选实施方式,但本发明并非局限于此,任何本领域的技术人员能思之的没有创造性的变化,以及在不脱离本发明原理前提下所作的若干改进和润饰,都应落在本发明的保护范围内。

Claims (8)

1.一种基于X86平台的多设备复位方法,X86平台包括CPU和BMC,CPU连接有多个从设备,其特征在于,该方法包括以下步骤:
监测CPU是否强制重启或异常掉电;
若CPU强制重启或异常掉电,则检测是否有从设备被BMC复用;
若无从设备被BMC复用,则直接控制各个从设备进行复位操作;
若有从设备被BMC复用,则直接控制未被复用从设备进行复位操作,同时发送复位信号至BMC,由BMC控制被复用从设备进行复位操作。
2.根据权利要求1所述的基于X86平台的多设备复位方法,其特征在于,通过监测CPU的上电时序信号来监测CPU是否强制重启或异常掉电。
3.根据权利要求2所述的基于X86平台的多设备复位方法,其特征在于,直接控制或者由BMC控制从设备进行复位操作时,通过控制从设备的复位引脚电信号来控制从设备的复位操作。
4.根据权利要求1、2或3所述的基于X86平台的多设备复位方法,其特征在于,X86平台还包括CPLD;该方法有CPLD执行。
5.一种基于X86平台的多设备复位装置,X86平台包括CPU和BMC,CPU连接有多个从设备,其特征在于,包括,
监测模块:监测CPU是否强制重启或异常掉电;
检测复用模块:CPU强制重启或异常掉电时,检测是否有从设备被BMC复用;
复位模块:CPU强制重启或异常掉电时,直接控制各个未被BMC复用的从设备进行复位操作;
复位信号发送模块:有从设备被BMC复用时,发送复位信号至BMC,由BMC控制被复用从设备进行复位操作。
6.根据权利要求5所述的基于X86平台的多设备复位装置,其特征在于,监测模块通过监测CPU的上电时序信号来监测CPU是否强制重启或异常掉电。
7.根据权利要求6所述的基于X86平台的多设备复位装置,其特征在于,复位模块通过控制从设备的复位引脚电信号来控制从设备的复位操作;
BMC控制被复用从设备进行复位操作时,同样通过控制从设备的复位引脚电信号来控制从设备的复位操作。
8.根据权利要求5、6或7所述的基于X86平台的多设备复位装置,其特征在于,X86平台还包括CPLD;该装置配置于CPLD。
CN202010589812.XA 2020-06-24 2020-06-24 一种基于x86平台的多设备复位方法及装置 Pending CN111857312A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010589812.XA CN111857312A (zh) 2020-06-24 2020-06-24 一种基于x86平台的多设备复位方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010589812.XA CN111857312A (zh) 2020-06-24 2020-06-24 一种基于x86平台的多设备复位方法及装置

Publications (1)

Publication Number Publication Date
CN111857312A true CN111857312A (zh) 2020-10-30

Family

ID=72989832

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010589812.XA Pending CN111857312A (zh) 2020-06-24 2020-06-24 一种基于x86平台的多设备复位方法及装置

Country Status (1)

Country Link
CN (1) CN111857312A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6081889A (en) * 1997-06-25 2000-06-27 Nec Corporation Method of resetting a system
JP2008015749A (ja) * 2006-07-05 2008-01-24 Fuji Xerox Co Ltd 起動制御方法及び起動制御回路
CN105549706A (zh) * 2015-12-11 2016-05-04 华为技术有限公司 一种热重启服务器的方法、装置及系统
CN107797642A (zh) * 2016-09-07 2018-03-13 华为技术有限公司 一种备电方法及装置
US20180275731A1 (en) * 2017-03-21 2018-09-27 Hewlett Packard Enterprise Development Lp Processor reset vectors

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6081889A (en) * 1997-06-25 2000-06-27 Nec Corporation Method of resetting a system
JP2008015749A (ja) * 2006-07-05 2008-01-24 Fuji Xerox Co Ltd 起動制御方法及び起動制御回路
CN105549706A (zh) * 2015-12-11 2016-05-04 华为技术有限公司 一种热重启服务器的方法、装置及系统
CN107797642A (zh) * 2016-09-07 2018-03-13 华为技术有限公司 一种备电方法及装置
US20180275731A1 (en) * 2017-03-21 2018-09-27 Hewlett Packard Enterprise Development Lp Processor reset vectors

Similar Documents

Publication Publication Date Title
CN101071392B (zh) 用于维护服务器固件的备份副本的方法和多服务器系统
US5579491A (en) Local proactive hot swap request/acknowledge system
US6915441B2 (en) Computer system with multiple backup management processors for handling embedded processor failure
EP2082322B1 (en) Security features in interconnect centric architectures
US5781434A (en) Control system for communication apparatus
US8990632B2 (en) System for monitoring state information in a multiplex system
WO2018095107A1 (zh) 一种bios程序的异常处理方法及装置
CN100492305C (zh) 一种计算机系统的快速恢复方法及设备
JP6130520B2 (ja) 多重系システムおよび多重系システム管理方法
CN110445638B (zh) 一种交换机系统故障保护方法及装置
JP2013097553A (ja) 切替制御装置、切替制御方法、情報処理装置および切替制御プログラム
EP2535817B1 (en) Information processing system
CN111984471B (zh) 一种机柜电源bmc冗余管理系统及方法
TWI723477B (zh) 電子設備、可遠端維護電子設備運作的系統及方法
JP4655718B2 (ja) コンピュータシステム及びその制御方法
US20030023887A1 (en) Computer system with backup management for handling embedded processor failure
JP2003186697A (ja) 周辺デバイス試験システム及び方法
CN111857312A (zh) 一种基于x86平台的多设备复位方法及装置
US8738829B2 (en) Information system for replacing failed I/O board with standby I/O board
Cisco Operational Traps
CN113535472A (zh) 集群服务器
US7676682B2 (en) Lightweight management and high availability controller
JP4779948B2 (ja) サーバシステム
JPH0630069B2 (ja) 多重化システム
CN116048853A (zh) 服务器及服务器故障处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201030

RJ01 Rejection of invention patent application after publication