CN105549706A - 一种热重启服务器的方法、装置及系统 - Google Patents
一种热重启服务器的方法、装置及系统 Download PDFInfo
- Publication number
- CN105549706A CN105549706A CN201510918209.0A CN201510918209A CN105549706A CN 105549706 A CN105549706 A CN 105549706A CN 201510918209 A CN201510918209 A CN 201510918209A CN 105549706 A CN105549706 A CN 105549706A
- Authority
- CN
- China
- Prior art keywords
- pch
- cpu
- programming device
- reset
- reset signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000005611 electricity Effects 0.000 claims description 26
- 230000005540 biological transmission Effects 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 17
- 238000007726 management method Methods 0.000 claims 2
- 238000012545 processing Methods 0.000 abstract description 2
- 208000033498 Non-syndromic pontocerebellar hypoplasia Diseases 0.000 abstract 5
- 208000017262 paroxysmal cold hemoglobinuria Diseases 0.000 abstract 5
- 208000004351 pontocerebellar hypoplasia Diseases 0.000 abstract 5
- 238000011084 recovery Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- YYAVXASAKUOZJJ-UHFFFAOYSA-N 4-(4-butylcyclohexyl)benzonitrile Chemical group C1CC(CCCC)CCC1C1=CC=C(C#N)C=C1 YYAVXASAKUOZJJ-UHFFFAOYSA-N 0.000 description 2
- BBHJTCADCKZYSO-UHFFFAOYSA-N 4-(4-ethylcyclohexyl)benzonitrile Chemical group C1CC(CC)CCC1C1=CC=C(C#N)C=C1 BBHJTCADCKZYSO-UHFFFAOYSA-N 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 208000003383 pontocerebellar hypoplasia type 3 Diseases 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 208000003369 Pontocerebellar hypoplasia type 2 Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 201000003034 pontocerebellar hypoplasia type 4 Diseases 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/24—Resetting means
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Stored Programmes (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明公开了一种热重启服务器的方法、装置及系统,属于计算机技术领域。所述方法包括:所述从可编程器件接收所述主可编程器件发送的平台复位信号,所述主可编程器件发送的平台复位信号是所述主可编程器件在接收到所述主PCH发送的平台复位信号后发送的;所述从可编程器件触发所述从PCH在不下电的情况下复位;所述从可编程器件触发所述从CPU在不下电的情况下复位。本发明通过主可编程器件将主PCH发送的平台复位信号分发到各个从可编程器件,各个从可编程器件触发各自连接的从PCH和从CPU在不下电的情况下复位,从PCH和从CPU之间之前由于从PCH不工作而断开的链路恢复,实现了在从PCH不工作的情况下从CPU的复位。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种热重启服务器的方法、装置及系统。
背景技术
服务器是网络环境中的高性能计算机,能够侦听网上的其它计算机(客户机)提交的服务请求,并提供相应的服务。X86服务器为采用复杂指令架构计算机(ComplexInstructionSetComputer,简称CISC)的服务器。X86服务器包括中央处理器(CentralProcessingUnit,简称CPU)、平台控制集线器(PlatformControllerHub,简称PCH)等,每四路CPU和一个PCH组成一个节点,各个节点分别由不同的复杂可编程逻辑器件(ComplexProgrammableLogicDevice,简称CPLD)管理。
当X86服务器进行热重启时,用户通过硬件或软件的方式向各个节点的PCH发送复位请求,各个节点的PCH向各自所在节点的CPLD发送平台复位(PLT_RST)信号,各个节点的CPLD向各自所在节点的CPU发送CPU复位(CPU_RST)信号,所有的CPU均在不下电的情况复位,实现X86服务器的热重启。
X86服务器的多个PCH同时工作需要英特尔许可证(Intellicense)支持,成本较高,因此X86服务器通常采用单个PCH工作。在单个PCH工作的模式下,只有一个PCH处于工作状态,其它PCH不工作,所以其它PCH无法触发其所在节点的CPU复位,不能实现X86服务器的热重启。
发明内容
为了解决现有技术无法实现单个PCH工作的X86服务器热重启的问题,本发明实施例提供了一种热重启服务器的方法、装置及系统。所述技术方案如下:
第一方面,本发明实施例提供了一种热重启服务器的方法,所述服务器包括主节点和至少一个从节点,所述主节点包括主平台控制集线器PCH和主中央处理器CPU,各个所述从节点包括从PCH和从CPU,所述主PCH在所述服务器处于单PCH工作模式时工作,所述从PCH在所述服务器处于单PCH工作模式时不工作,所述主节点由主可编程器件管理,各个所述从节点分别由不同的从可编程器件管理,所述方法包括:
所述从可编程器件接收所述主可编程器件发送的平台复位信号,所述主可编程器件发送的平台复位信号是所述主可编程器件在接收到所述主PCH发送的平台复位信号后发送的;
所述从可编程器件触发所述从PCH在不下电的情况下复位;
所述从可编程器件触发所述从CPU在不下电的情况下复位。
通过主可编程器件将主PCH发送的平台复位信号分发到各个从可编程器件,各个从可编程器件触发各自连接的从PCH和从CPU在不下电的情况下复位,从PCH和从CPU之间之前由于从PCH不工作而断开的链路恢复,实现了在从PCH不工作的情况下从CPU的复位。
在第一方面一种可能的实现方式中,所述从可编程器件触发所述从PCH在不下电的情况下复位,包括:
所述从可编程器件保持所述从PCH不下电,并在所述主可编程器件发送的平台复位信号的触发下向所述从PCH发送表示电源故障的电源信号,以使所述从PCH在所述表示电源故障的电源信号的触发下复位,并在复位的过程中向所述从可编程器件发送平台复位信号。
通过向从PCH发送表示电源故障的电源信号,触发从PCH复位,同时通过保持从PCH不下电,使从PCH在不下电的情况下复位,实现热重启。
可选地,所述从可编程器件保持所述从PCH不下电,包括:
所述从可编程器件向所述从PCH的供电电源持续发送为所述从PCH供电的使能信号。
通过向从PCH的供电电源持续发送为从PCH供电的使能信号,控制从PCH的供电电源持续为从PCH供电,实现保持从PCH不下电。
可选地,所述触发所述从CPU复位,包括:
所述从可编程器件接收所述从PCH在复位的过程中发送的平台复位信号;
所述从可编程器件保持所述从CPU不下电,向所述从CPU发送表示电源正常的电源信号,并在所述从PCH发送的平台复位信号的触发下向所述从CPU发送CPU复位信号,以使所述从CPU在所述CPU复位信号的触发下复位。
通过从PCH向从可编程器件发送平台复位信号,触发从可编程器件向从CPU发送CPU复位信号,触发从CPU复位,同时通过保持从CPU不下电,并向从CPU发送表示电源正常的电源信号,实现从CPU在不下电的情况下复位,避免从CPU中寄存器中的内容丢失。
优选地,所述从可编程器件保持所述从CPU不下电,包括:
所述从可编程器件向所述从CPU的供电电源持续发送为所述从CPU供电的使能信号。
通过向从CPU的供电电源持续发送为从CPU供电的使能信号,控制从CPU的供电电源持续为从CPU供电,实现保持从CPU不下电。
第二方面,本发明实施例提供了一种热重启服务器的方法,所述服务器包括主节点和至少一个从节点,所述主节点包括主平台控制集线器PCH和主中央处理器CPU,各个所述从节点包括从PCH和从CPU,所述主PCH在所述服务器处于单PCH工作模式时工作,所述从PCH在所述服务器处于单PCH工作模式时不工作,所述主节点由主可编程器件管理,各个所述从节点分别由不同的从可编程器件管理,所述方法包括:
所述主可编程器件接收所述主PCH发送的平台复位信号,所述主PCH发送的平台复位信号是所述主PCH在接收到用户输入的复位请求后发送的;
所述主可编程器件在所述主PCH发送的平台复位信号的触发下向所述主CPU发送CPU复位信号,并向所述从可编程器件发送平台复位信号,以使主CPU在所述CPU复位信号的触发下复位,所述从可编程器件触发所述从PCH和所述从CPU在不下电的情况下复位。
通过主可编程器件触发主CPU复位,同时将主PCH发送的平台复位信号分发到各个从可编程器件,各个从可编程器件触发各自连接的从PCH和从CPU在不下电的情况下复位,从PCH和从CPU之间之前由于从PCH不工作而断开的链路恢复,实现了服务器在单个PCH工作的情况下所有CPU的复位。
第三方面,本发明实施例提供了一种热重启服务器的装置,所述装置包括用于实现上述第一方面所述的方法的单元,例如接收单元、PCH复位单元、CPU复位单元等。
第四方面,本发明实施例提供了一种热重启服务器的装置,所述装置包括用于实现上述第二方面所述的方法的单元,例如接收单元、发送单元等。
第五方面,本发明实施例提供了一种热重启服务器的系统,所述系统包括主节点、至少一个从节点、主可编程器件、以及至少一个从可编程器件,所述主节点包括主平台控制集线器PCH和主中央处理器CPU,各个所述从节点包括从PCH和从CPU,所述主PCH在所述服务器处于单PCH工作模式时工作,所述从PCH在所述服务器处于单PCH工作模式时不工作,所述主节点由所述主可编程器件管理,各个所述从节点分别由不同的从可编程器件管理;
所述主PCH,用于接收用户输入的复位请求,并向所述主可编程器件发送平台复位信号;
所述主可编程器件,用于接收所述主PCH发送的平台复位信号;在所述主PCH发送的平台复位信号的触发下向所述主CPU发送CPU复位信号,并向所述从可编程器件发送平台复位信号;
所述主CPU,用于接收所述主可编程器件发送的CPU复位信号;在所述主可编程器件发送的CPU复位信号的触发下复位;
所述从可编程器件,用于接收所述主可编程器件发送的平台复位信号;触发所述从PCH在不下电的情况下复位;触发所述从CPU在不下电的情况下复位;
所述从PCH,用于在所述从可编程器件的触发下在不下电的情况下复位;
所述从CPU,用于在所述从可编程器件的触发下在不下电的情况下复位。
通过主可编程器件触发主CPU复位,同时将主PCH发送的平台复位信号分发到各个从可编程器件,各个从可编程器件触发各自连接的从PCH和从CPU复位,从PCH和从CPU之间之前由于从PCH不工作而断开的链路恢复,完成了所有CPU的复位。同时,通过从可编程器件在从PCH复位的过程中保持从CPU不下电,并向从CPU发送表示电源正常的电源信号,使从CPU在不下电的情况下复位,实现了服务器的热复位。
本发明实施例提供的技术方案带来的有益效果是:
通过主可编程器件将主PCH发送的平台复位信号分发到各个从可编程器件,各个从可编程器件触发各自连接的从PCH和从CPU在不下电的情况下复位,从PCH和从CPU之间之前由于从PCH不工作而断开的链路恢复,实现了在从PCH不工作的情况下从CPU的复位。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的X86服务器的结构示意图;
图2是本发明实施例提供的一种热重启服务器的方法的流程图;
图3是本发明实施例提供的一种热重启服务器的方法的流程图;
图4是本发明实施例提供的一种热重启服务器的方法的流程图;
图5是本发明实施例提供的服务器热重启过程中信号变化的示意图;
图6是本发明实施例提供的一种热重启服务器的装置的结构示意图;
图7是本发明实施例提供的一种热重启服务器的装置的结构示意图;
图8是本发明实施例提供的可编程器件的硬件结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
下面先结合图1简单介绍一下本发明适用的X86服务器的结构。参见图1,X86服务器包括16路CPU和4个PCH,每4路CPU和1个PCH组成1个节点(图1中用方框圈出),各个节点的CPU之间采用快速通道互联(QuickPathInterconnect,简称QPI)连接,同时各个节点内的各路CPU之间也采用QPI连接,各个节点内的PCH与其所在节点内的1路CPU连接,如采用直接媒体接口(DirectMediaInterface,简称DMI)总线连接。另外,各个节点各自配置有1个可编程器件管理,各个可编程器件之间连接。
具体地,CPU1、CPU2、CPU3、CPU4、以及PCH1组成一个节点,并由可编程器件1管理;CPU5、CPU6、CPU7、CPU8、以及PCH2组成一个节点,并由可编程器件2管理;CPU9、CPU10、CPU11、CPU12、以及PCH3组成一个节点,并由可编程器件3管理;CPU13、CPU14、CPU15、CPU16、以及PCH4组成一个节点,并由可编程器件4管理。
当X86服务器启动时,各个节点的CPU和PCH同时启动。待X86服务器运行一段时间后,只有一个PCH继续工作,继续工作的PCH称为主PCH,主PCH所在节点内的CPU称为主CPU,管理主PCH的可编程器件称为主可编程器件。除主PCH之外的PCH不工作,不工作的PCH称为从PCH,从PCH所在节点内的CPU称为从CPU,管理从PCH的可编程器件称为从可编程器件。例如,PCH1为主PCH,CPU1、CPU2、CPU3、CPU4为主CPU,PCH2、PCH3、PCH4为从PCH,CPU5、CPU6、CPU7、CPU8、CPU9、CPU10、CPU11、CPU12、CPU13、CPU14、CPU15、CPU16为从CPU,可编程器件1为主可编程器件,可编程器件2、可编程器件3、可编程器件4为从可编程器件。需要说明的是,此时从CPU仍在工作,从CPU与从PCH之间的链路由于从PCH不工作而断开。
需要说明的是,图1仅以16路X86服务器为例,本发明还可以适用于8路X86服务器、32路X86服务器等其它X86服务器,其它X86服务器与16路X86服务器相比,区别主要在于节点(包括四路CPU和1个PCH)数量的不同,节点内的结构、以及节点间的连接关系是相同的。
本发明实施例提供了一种热重启服务器的方法,参见图2,该方法包括:
步骤101:从可编程器件接收主可编程器件发送的平台复位信号,主可编程器件发送的平台复位信号是主可编程器件在接收到主PCH发送的平台复位信号后发送的。
步骤102:从可编程器件触发从PCH在不下电的情况下复位。
步骤103:从可编程器件保持从CPU在不下电的情况下复位。
本发明实施例通过主可编程器件将主PCH发送的平台复位信号分发到各个从可编程器件,各个从可编程器件触发各自连接的从PCH和从CPU在不下电的情况下复位,从PCH和从CPU之间之前由于从PCH不工作而断开的链路恢复,实现了在从PCH不工作的情况下从CPU的复位。
本发明实施例提供了一种热重启服务器的方法,参见图3,该方法包括:
步骤201:主可编程器件接收主PCH发送的平台复位信号,主PCH发送的平台复位信号是主PCH在接收到用户输入的复位请求后发送的。
步骤202:主可编程器件在主PCH发送的平台复位信号的触发下向主CPU发送CPU复位信号,并向从可编程器件发送平台复位信号,以使主CPU在CPU复位信号的触发下复位,从可编程器件触发从PCH和从CPU在不下电的情况下复位。
本发明实施例通过主可编程器件触发主CPU复位,同时将主PCH发送的平台复位信号分发到各个从可编程器件,各个从可编程器件触发各自连接的从PCH和从CPU在不下电的情况下复位,从PCH和从CPU之间之前由于从PCH不工作而断开的链路恢复,实现了服务器在单个PCH工作的情况下所有CPU的复位。
本发明实施例提供了一种热重启服务器的方法,参见图4,该方法包括:
步骤301:主PCH接收用户输入的复位请求,并向主可编程器件发送PLT_RST信号。
在具体实现中,复位请求为用户通过硬件或软件的方式输入的信号,用于触发PCH控制CPU复位。PLT_RST信号为PCH发出的平台复位信号,用于控制可编程器件触发CPU复位。
在实际应用中,PCH负责输入输出(Input/Output,简称I/O)总线之间的通信,与外设组件互连(PeripheralComponentInterconnect,简称PCI)总线、集成开发环境(IntegratedDevelopmentEnvironment,简称IDE)设备、I/O设备等连接,因此用户输入的复位请求由PCH接收。如前所述,X86服务器运行一段时间后,只有主PCH继续工作,因此是主PCH接收用户输入的复位请求。
具体地,用户可以采用如下两种方式输入复位请求:
方式一、通过操作系统接口输入复位请求。具体地,用户进入操作系统(OperatingSystem,简称OS)中点击OS提供的重启计算机的按钮,如从Windows操作系统的“开始”处点击“重新启动”。
需要说明的是,CPU在复位之前,需要先进行中断业务等准备工作。在方式一中,由于操作系统是运行在CPU上的,用户通过操作系统接口输入的信号是向CPU输入的,在用户进入OS中点击OS提供的重启计算机的按钮之后,CPU会自动完成中断业务等准备工作,并向PCH发送复位请求,因此主PCH在接收到复位请求后,可以直接向主可编程器件发送PLT_RST信号,控制可编程器件触发CPU复位。
方式二、通过非操作系统接口输入复位请求。具体地,用户按下主板上设置的重启计算机的按钮,或者通过管理软件向PCH发送复位请求。在方式二中,复位请求具体为SYS_RST信号。
在方式二中,由于复位请求的发送并没有通知CPU,因此主PCH在接收到复位请求后,先通知所有CPU,待接收到所有CPU根据该通知完成中断业务等准备工作后发送的响应信号,再向主可编程器件发送PLT_RST信号,控制可编程器件触发CPU复位。
步骤302:主可编程器件在PLT_RST信号触发下向主CPU发送CPU_RST信号,并向从可编程器件发送PLT_RST信号。
在具体实现中,CPU_RST信号为可编程器件发出的CPU复位信号,用于触发CPU复位。
如前所述,主可编程器件与四个主CPU之间是连接的,可以直接向主CPU发送CPU_RST信号。同时主可编程器件与从可编程器件之间也是连接的,可以直接向从可编程器件发送PLT_RST信号。以图1为例,可编程器件1向CPU1、CPU2、CPU3、CPU4发送CPU_RST信号,向可编程器件2、可编程器件3、可编程器件4发送PLT_RST信号。
步骤303:主CPU在CPU_RST信号的触发下复位。
在实际应用中,可编程器件除了向CPU发送CPU_RST信号之外,还会向与该CPU在同一节点的其它设备发送复位信号,比如向内存发送JC_RST信号,向I/O设备发送SYS_RST信号。相应地,内存在JC_RST信号的触发下复位,I/O设备在SYS_RST信号的触发下复位。
需要说明的是,主CPU复位前,主PCH和主CPU均处于工作状态,两者的供电正常,同时主CPU复位过程中主可编程器件也没有产生影响供电的电源信号,因此主CPU是在不下电的情况下复位。
步骤304:从可编程器件保持从PCH不下电,并在主可编程器件发送的PLT_RST信号触发下向从PCH发送表示电源故障的PCH_PWROK信号。
在具体实现中,PCH_PWROK信号是可编程器件发送给PCH的PCH电源信号,通常用高电平表示电源正常,低电平表示电源故障。其中,高电平和低电平是按照信号的电压大小划分的,例如低电平为0~0.8V,高电平为2~3.3V。
若PCH接收到表示电源正常的PCH_PWROK信号,则正常工作;若PCH接收到表示电源故障的PCH_PWROK信号后,则会复位。需要说明的是,可编程器件保持从PCH不下电,即可使从PCH在不下电的情况下复位。
具体地,从可编程器件保持从PCH不下电,可以包括:
从可编程器件向从PCH的供电电源持续发送为从PCH供电的使能信号。
在具体实现中,从PCH的供电电源是否工作是由从可编程器件发送的使能信号控制的,通常使能信号为高电平时,从PCH的供电电源为从PCH供电;使能信号为低电平时,从PCH的供电电源停止为从PCH供电。因此,只要从可编程器件持续向从PCH的供电电源持续发送高电平的使能信号,即可实现保持从PCH不下电。
步骤305:从PCH在表示电源故障的PCH_PWROK信号的触发下复位,并在复位的过程中向从可编程器件发送PLT_RST信号。
步骤306:从可编程器件在从PCH发送的PLT_RST信号的触发下向从CPU发送CPU_RST信号,同时保持从CPU不下电,并向从CPU发送表示电源正常的CPU_PWRGD信号。
在具体实现中,CPU_PWRGD信号是可编程器件发送给CPU的CPU电源信号,通常用高电平表示电源正常,低电平表示电源故障。
参见图5,在现有技术中,PCH在接收到表示电源故障的PCH_PWROK信号(图5用低电平表示电源故障)后复位的过程中,除了向可编程器件发送PLT_RST信号(图5用低电平表示复位)之外,还会向可编程器件发送表示电源故障的PROC_PWRGD信号(processpowergood处理器电源正常)(图5用低电平表示电源故障)。可编程器件在PCH发送的PLT_RST信号的触发下向CPU发送CPU_RST信号(图5用低电平表示复位),还可以向内存发送JC_RST信号(图5用低电平表示复位)、向I/O设备发送IO_RST信号(图5用低电平表示复位),在此不再详述。
同时可编程器件在表示电源故障的PROC_PWRGD信号的触发下向CPU发送表示电源故障的CPU_PWRGD信号(图5中用虚线的低电平表示),由于表示电源故障的CPU_PWRGD信号会导致CPU内部的电源下电,此时CPU会在下电的情况下复位,导致CPU中所有寄存器中的内容都会丢失。为了避免CPU在下电的情况下复位,本发明中从可编程器件在一方面保持CPU不下电,另一方面向从CPU发送的是表示电源正常的CPU_PWRGD信号(图5中用实线的高电平表示),使CPU在不下电的情况下复位,CPU中部分寄存器(如sticky寄存器)中的内容保留下来,实现了服务器的热重启。
具体地,从可编程器件保持从CPU不下电,可以包括:
从可编程器件向从CPU的供电电源持续发送为从CPU供电的使能信号。
在具体实现中,从CPU的供电电源是否工作是由从可编程器件发送的使能信号控制的,通常使能信号为高电平时,从CPU的供电电源为从CPU供电;使能信号为低电平时,从CPU的供电电源停止为从CPU供电。因此,只要从可编程器件持续向从CPU的供电电源持续发送高电平的使能信号,即可实现保持从CPU不下电。
步骤307:从CPU在CPU_RST信号的触发下复位。
可以理解地,从PCH和从CPU在复位后会进入工作状态,此时从PCH和从CPU自动恢复之前断开的链路,完成服务器的热重启。待服务器工作一段时间后,从PCH会再次不工作,服务器进入单PCH工作模式,在此不再详述。
本发明实施例通过主可编程器件触发主CPU复位,同时将主PCH发送的平台复位信号分发到各个从可编程器件,各个从可编程器件触发各自连接的从PCH和从CPU复位,从PCH和从CPU之间之前由于从PCH不工作而断开的链路恢复,完成了所有CPU的复位。同时,通过从可编程器件在从PCH复位的过程中保持从CPU不下电,并向从CPU发送表示电源正常的电源信号,使从CPU在不下电的情况下复位,实现了服务器的热复位。
本发明实施例提供了一种热重启服务器的装置,参见图6,该装置可以通过软件、硬件或者两者的结合实现成为从可编程器件的全部或者一部分。该装置可以包括接收单元401、PCH复位单元402和CPU复位单元403。
其中,接收单元401用于接收主可编程器件发送的平台复位信号,主可编程器件发送的平台复位信号是主可编程器件在接收到主PCH发送的平台复位信号后发送的。PCH复位单元402用于触发从PCH在不下电的情况下复位。CPU复位单元403用于触发从CPU在不下电的情况下复位。
在本实施例的一种实现方式中,PCH复位单元402可以用于保持从PCH不下电,并在主可编程器件发送的平台复位信号的触发下向从PCH发送表示电源故障的电源信号,以使从PCH在表示电源故障的电源信号的触发下复位,并在复位的过程中向从可编程器件发送平台复位信号。
可选地,PCH复位单元402可以用于向从PCH的供电电源持续发送为从PCH供电的使能信号,以保持从PCH不下电。
可选地,CPU复位单元403可以用于接收从PCH在复位的过程中发送的平台复位信号;保持从CPU不下电,向从CPU发送表示电源正常的电源信号,并在从PCH发送的平台复位信号的触发下向从CPU发送CPU复位信号,以使从CPU在CPU复位信号的触发下复位。
优选地,CPU复位单元403可以用于向从CPU的供电电源持续发送为从CPU供电的使能信号,以保持从CPU不下电。
本发明实施例提供了一种热重启服务器的装置,参见图7,该装置可以通过软件、硬件或者两者的结合实现成为主可编程器件的全部或者一部分。该装置可以包括接收单元501和发送单元502。
其中,接收单元501用于接收主PCH发送的平台复位信号,主PCH发送的平台复位信号是主PCH在接收到用户输入的复位请求后发送的。发送单元502用于在主PCH发送的平台复位信号的触发下向主CPU发送CPU复位信号,并向从可编程器件发送平台复位信号,以使主CPU在CPU复位信号的触发下复位,从可编程器件触发从PCH和从CPU在不下电的情况下复位。
图8示出了实现本发明实施例提供的可编程器件的硬件结构,该可编程器件可以具体为复杂可编程逻辑器件(ComplexProgrammableLogicDevice,简称CPLD)、现场可编程门阵列(FieldProgrammableGateArray,简称FPGA)等器件中的任意一种。可编程器件600可以包括存储器610和I/O接口620。I/O接口620用于接收和发送各种信号,存储器610中存储有各种信号之间的对应关系,如I/O接口620接收到PCH发送的PLT_RST信号,则存储器610指示I/O接口620向CPU发送CPU_RST信号等。
具体地,当该可编程器件为从可编程器件时,图6所示的装置中的接收单元401通过I/O接口620接收主可编程器件发送的平台复位信号,PCH复位单元402根据存储器610中存储的对应关系,通过I/O接口620触发从PCH在不下电的情况下复位,CPU复位单元403根据存储器610中存储的对应关系,通过I/O接口620触发从CPU在不下电的情况下复位。
当该可编程器件为主可编程器件时,图7所示的装置中的接收单元501通过I/O接口620接收主PCH发送的平台复位信号,发送单元502根据存储器610中存储的对应关系,通过I/O接口620向主CPU发送CPU复位信号。
本发明实施例提供了一种热重启服务器的系统,该系统包括主节点、至少一个从节点、主可编程器件、以及至少一个从可编程器件,主节点包括主PCH和主CPU,各个从节点包括从PCH和从CPU,主PCH在服务器处于单PCH工作模式时工作,从PCH在服务器处于单PCH工作模式时不工作,主节点由主可编程器件管理,各个从节点分别由不同的从可编程器件管理,如图1所示。
其中,主PCH用于接收用户输入的复位请求,并向主可编程器件发送平台复位信号。主可编程器件用于接收主PCH发送的平台复位信号;在主PCH发送的平台复位信号的触发下向主CPU发送CPU复位信号,并向从可编程器件发送平台复位信号。主CPU接收主可编程器件发送的CPU复位信号;在主可编程器件发送的CPU复位信号的触发下复位。从可编程器件接收主可编程器件发送的平台复位信号;触发从PCH在不下电的情况下复位;触发从CPU在不下电的情况下复位。从PCH用于在从可编程器件的触发下在不下电的情况下复位。从CPU用于在从可编程器件的触发下在不下电的情况下复位。
需要说明的是:上述实施例提供的热重启服务器的装置在热重启服务器时,仅以上述各功能单元的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元完成,即将装置的内部结构划分成不同的功能单元,以完成以上描述的全部或者部分功能。另外,上述实施例提供的热重启服务器的装置与热重启服务器的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (13)
1.一种热重启服务器的方法,所述服务器包括主节点和至少一个从节点,所述主节点包括主平台控制集线器PCH和主中央处理器CPU,各个所述从节点包括从PCH和从CPU,所述主PCH在所述服务器处于单PCH工作模式时工作,所述从PCH在所述服务器处于单PCH工作模式时不工作,所述主节点由主可编程器件管理,各个所述从节点分别由不同的从可编程器件管理,其特征在于,所述方法包括:
所述从可编程器件接收所述主可编程器件发送的平台复位信号,所述主可编程器件发送的平台复位信号是所述主可编程器件在接收到所述主PCH发送的平台复位信号后发送的;
所述从可编程器件触发所述从PCH在不下电的情况下复位;
所述从可编程器件触发所述从CPU在不下电的情况下复位。
2.根据权利要求1所述的方法,其特征在于,所述从可编程器件触发所述从PCH在不下电的情况下复位,包括:
所述从可编程器件保持所述从PCH不下电,并在所述主可编程器件发送的平台复位信号的触发下向所述从PCH发送表示电源故障的电源信号,以使所述从PCH在所述表示电源故障的电源信号的触发下复位,并在复位的过程中向所述从可编程器件发送平台复位信号。
3.根据权利要求2所述的方法,其特征在于,所述从可编程器件保持所述从PCH不下电,包括:
所述从可编程器件向所述从PCH的供电电源持续发送为所述从PCH供电的使能信号。
4.根据权利要求2或3所述的方法,其特征在于,所述触发所述从CPU复位,包括:
所述从可编程器件接收所述从PCH在复位的过程中发送的平台复位信号;
所述从可编程器件保持所述从CPU不下电,向所述从CPU发送表示电源正常的电源信号,并在所述从PCH发送的平台复位信号的触发下向所述从CPU发送CPU复位信号,以使所述从CPU在所述CPU复位信号的触发下复位。
5.根据权利要求4所述的方法,其特征在于,所述从可编程器件保持所述从CPU不下电,包括:
所述从可编程器件向所述从CPU的供电电源持续发送为所述从CPU供电的使能信号。
6.一种热重启服务器的方法,所述服务器包括主节点和至少一个从节点,所述主节点包括主平台控制集线器PCH和主中央处理器CPU,各个所述从节点包括从PCH和从CPU,所述主PCH在所述服务器处于单PCH工作模式时工作,所述从PCH在所述服务器处于单PCH工作模式时不工作,所述主节点由主可编程器件管理,各个所述从节点分别由不同的从可编程器件管理,其特征在于,所述方法包括:
所述主可编程器件接收所述主PCH发送的平台复位信号,所述主PCH发送的平台复位信号是所述主PCH在接收到用户输入的复位请求后发送的;
所述主可编程器件在所述主PCH发送的平台复位信号的触发下向所述主CPU发送CPU复位信号,并向所述从可编程器件发送平台复位信号,以使主CPU在所述CPU复位信号的触发下复位,所述从可编程器件触发所述从PCH和所述从CPU在不下电的情况下复位。
7.一种热重启服务器的装置,所述服务器包括主节点和至少一个从节点,所述主节点包括主平台控制集线器PCH和主中央处理器CPU,各个所述从节点包括从PCH和从CPU,所述主PCH在所述服务器处于单PCH工作模式时工作,所述从PCH在所述服务器处于单PCH工作模式时不工作,所述主节点由主可编程器件管理,各个所述从节点分别由不同的所述装置管理,其特征在于,所述装置包括:
接收单元,用于接收所述主可编程器件发送的平台复位信号,所述主可编程器件发送的平台复位信号是所述主可编程器件在接收到所述主PCH发送的平台复位信号后发送的;
PCH复位单元,用于触发所述从PCH在不下电的情况下复位;
CPU复位单元,用于触发所述从CPU在不下电的情况下复位。
8.根据权利要求7所述的装置,其特征在于,所述PCH复位单元用于,
保持所述从PCH不下电,并在所述主可编程器件发送的平台复位信号的触发下向所述从PCH发送表示电源故障的电源信号,以使所述从PCH在所述表示电源故障的电源信号的触发下复位,并在复位的过程中向所述从可编程器件发送平台复位信号。
9.根据权利要求8所述的装置,其特征在于,所述PCH复位单元用于,
向所述从PCH的供电电源持续发送为所述从PCH供电的使能信号,以保持所述从PCH不下电。
10.根据权利要求8或9所述的装置,其特征在于,所述CPU复位单元用于,
接收所述从PCH在复位的过程中发送的平台复位信号;
保持所述从CPU不下电,向所述从CPU发送表示电源正常的电源信号,并在所述从PCH发送的平台复位信号的触发下向所述从CPU发送CPU复位信号,以使所述从CPU在所述CPU复位信号的触发下复位。
11.根据权利要求10所述的装置,其特征在于,所述CPU复位单元用于,
向所述从CPU的供电电源持续发送为所述从CPU供电的使能信号,以保持所述从CPU不下电。
12.一种热重启服务器的装置,所述服务器包括主节点和至少一个从节点,所述主节点包括主平台控制集线器PCH和主中央处理器CPU,各个所述从节点包括从PCH和从CPU,所述主PCH在所述服务器处于单PCH工作模式时工作,所述从PCH在所述服务器处于单PCH工作模式时不工作,所述主节点由所述装置管理,各个所述从节点分别由不同的从可编程器件管理,其特征在于,所述装置包括:
接收单元,用于接收所述主PCH发送的平台复位信号,所述主PCH发送的平台复位信号是所述主PCH在接收到用户输入的复位请求后发送的;
发送单元,用于在所述主PCH发送的平台复位信号的触发下向所述主CPU发送CPU复位信号,并向所述从可编程器件发送平台复位信号,以使主CPU在所述CPU复位信号的触发下复位,所述从可编程器件触发所述从PCH和所述从CPU在不下电的情况下复位。
13.一种热重启服务器的系统,其特征在于,所述系统包括主节点、至少一个从节点、主可编程器件、以及至少一个从可编程器件,所述主节点包括主平台控制集线器PCH和主中央处理器CPU,各个所述从节点包括从PCH和从CPU,所述主PCH在所述服务器处于单PCH工作模式时工作,所述从PCH在所述服务器处于单PCH工作模式时不工作,所述主节点由所述主可编程器件管理,各个所述从节点分别由不同的从可编程器件管理;
所述主PCH,用于接收用户输入的复位请求,并向所述主可编程器件发送平台复位信号;
所述主可编程器件,用于接收所述主PCH发送的平台复位信号;在所述主PCH发送的平台复位信号的触发下向所述主CPU发送CPU复位信号,并向所述从可编程器件发送平台复位信号;
所述主CPU,用于接收所述主可编程器件发送的CPU复位信号;在所述主可编程器件发送的CPU复位信号的触发下复位;
所述从可编程器件,用于接收所述主可编程器件发送的平台复位信号;触发所述从PCH在不下电的情况下复位;触发所述从CPU在不下电的情况下复位;
所述从PCH,用于在所述从可编程器件的触发下在不下电的情况下复位;
所述从CPU,用于在所述从可编程器件的触发下在不下电的情况下复位。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510918209.0A CN105549706B (zh) | 2015-12-11 | 2015-12-11 | 一种热重启服务器的方法、装置及系统 |
PCT/CN2016/098742 WO2017096993A1 (zh) | 2015-12-11 | 2016-09-12 | 一种热重启服务器的方法、装置及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510918209.0A CN105549706B (zh) | 2015-12-11 | 2015-12-11 | 一种热重启服务器的方法、装置及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105549706A true CN105549706A (zh) | 2016-05-04 |
CN105549706B CN105549706B (zh) | 2018-12-07 |
Family
ID=55828936
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510918209.0A Active CN105549706B (zh) | 2015-12-11 | 2015-12-11 | 一种热重启服务器的方法、装置及系统 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN105549706B (zh) |
WO (1) | WO2017096993A1 (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017096993A1 (zh) * | 2015-12-11 | 2017-06-15 | 华为技术有限公司 | 一种热重启服务器的方法、装置及系统 |
CN108268286A (zh) * | 2016-12-29 | 2018-07-10 | 联想(上海)信息技术有限公司 | 计算机系统启动方法及计算机系统 |
CN109120143A (zh) * | 2018-07-25 | 2019-01-01 | 郑州云海信息技术有限公司 | 一种控制上下电的方法、主控制器和系统 |
CN110187659A (zh) * | 2019-05-28 | 2019-08-30 | 成都星时代宇航科技有限公司 | 状态监控方法、系统及立方星 |
CN110502377A (zh) * | 2019-08-08 | 2019-11-26 | 苏州浪潮智能科技有限公司 | 一种基于cpld的重启测试方法 |
CN111857312A (zh) * | 2020-06-24 | 2020-10-30 | 苏州浪潮智能科技有限公司 | 一种基于x86平台的多设备复位方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100064128A1 (en) * | 2008-09-08 | 2010-03-11 | Dell Products, Lp | Method and system for restoring system configuration after disorderly shutdown |
CN103733180A (zh) * | 2013-09-29 | 2014-04-16 | 华为技术有限公司 | 服务器的控制方法和服务器的控制设备 |
CN104503947A (zh) * | 2014-12-16 | 2015-04-08 | 华为技术有限公司 | 多路服务器及其信号处理方法 |
CN104978208A (zh) * | 2014-04-14 | 2015-10-14 | 杭州华三通信技术有限公司 | 一种热重启方法及其装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105549706B (zh) * | 2015-12-11 | 2018-12-07 | 华为技术有限公司 | 一种热重启服务器的方法、装置及系统 |
-
2015
- 2015-12-11 CN CN201510918209.0A patent/CN105549706B/zh active Active
-
2016
- 2016-09-12 WO PCT/CN2016/098742 patent/WO2017096993A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100064128A1 (en) * | 2008-09-08 | 2010-03-11 | Dell Products, Lp | Method and system for restoring system configuration after disorderly shutdown |
CN103733180A (zh) * | 2013-09-29 | 2014-04-16 | 华为技术有限公司 | 服务器的控制方法和服务器的控制设备 |
CN104978208A (zh) * | 2014-04-14 | 2015-10-14 | 杭州华三通信技术有限公司 | 一种热重启方法及其装置 |
CN104503947A (zh) * | 2014-12-16 | 2015-04-08 | 华为技术有限公司 | 多路服务器及其信号处理方法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017096993A1 (zh) * | 2015-12-11 | 2017-06-15 | 华为技术有限公司 | 一种热重启服务器的方法、装置及系统 |
CN108268286A (zh) * | 2016-12-29 | 2018-07-10 | 联想(上海)信息技术有限公司 | 计算机系统启动方法及计算机系统 |
CN109120143A (zh) * | 2018-07-25 | 2019-01-01 | 郑州云海信息技术有限公司 | 一种控制上下电的方法、主控制器和系统 |
CN109120143B (zh) * | 2018-07-25 | 2021-08-10 | 郑州云海信息技术有限公司 | 一种控制上下电的方法、主控制器和系统 |
CN110187659A (zh) * | 2019-05-28 | 2019-08-30 | 成都星时代宇航科技有限公司 | 状态监控方法、系统及立方星 |
CN110187659B (zh) * | 2019-05-28 | 2020-12-11 | 成都星时代宇航科技有限公司 | 状态监控方法、系统及立方星 |
CN110502377A (zh) * | 2019-08-08 | 2019-11-26 | 苏州浪潮智能科技有限公司 | 一种基于cpld的重启测试方法 |
CN110502377B (zh) * | 2019-08-08 | 2021-04-27 | 苏州浪潮智能科技有限公司 | 一种基于cpld的重启测试方法 |
CN111857312A (zh) * | 2020-06-24 | 2020-10-30 | 苏州浪潮智能科技有限公司 | 一种基于x86平台的多设备复位方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105549706B (zh) | 2018-12-07 |
WO2017096993A1 (zh) | 2017-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105549706A (zh) | 一种热重启服务器的方法、装置及系统 | |
US20220365690A1 (en) | Node Interconnection Apparatus, Resource Control Node, and Server System | |
US8990459B2 (en) | Peripheral device sharing in multi host computing systems | |
US7251736B2 (en) | Remote power control in a multi-node, partitioned data processing system via network interface cards | |
US7734741B2 (en) | Method, system, and apparatus for dynamic reconfiguration of resources | |
US10049010B2 (en) | Method, computer, and apparatus for migrating memory data | |
US8943360B2 (en) | DMI redundancy in multiple processor computer systems | |
US9389940B2 (en) | System and method for error logging | |
CN105159798A (zh) | 一种虚拟机的双机热备方法、双机热备管理服务器和系统 | |
CN103810015A (zh) | 虚拟机创建方法和设备 | |
US20210224121A1 (en) | Virtual machine-initiated workload management | |
JP5549733B2 (ja) | 計算機管理装置、計算機管理システム及び計算機システム | |
US10938782B1 (en) | Secure hardware signal filtering | |
WO2019148482A1 (en) | Configurable storage server with multiple sockets | |
CN103890687A (zh) | 计算机的管理 | |
CN114296995A (zh) | 一种服务器自主修复bmc的方法、系统、设备及存储介质 | |
CN114115703A (zh) | 裸金属服务器在线迁移方法以及系统 | |
US20140280663A1 (en) | Apparatus and Methods for Providing Performance Data of Nodes in a High Performance Computing System | |
US9933826B2 (en) | Method and apparatus for managing nodal power in a high performance computer system | |
WO2022041839A1 (zh) | 裸金属服务器在线迁移方法以及系统 | |
CN117472596B (zh) | 分布式资源管理方法、装置、系统、设备以及存储介质 | |
US11467923B2 (en) | Application recovery using pooled resources | |
US20240103720A1 (en) | SYSTEMS AND METHODS FOR SUPPORTING NVMe SSD REBOOTLESS FIRMWARE UPDATES | |
US20240073089A1 (en) | In-service switch-over of functionality of a network operating system of a network switch | |
Valentine et al. | IBM zBX hardware management and operational controls |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20211221 Address after: 450046 Floor 9, building 1, Zhengshang Boya Plaza, Longzihu wisdom Island, Zhengdong New Area, Zhengzhou City, Henan Province Patentee after: xFusion Digital Technologies Co., Ltd. Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen Patentee before: HUAWEI TECHNOLOGIES Co.,Ltd. |