CN105446833A - 服务器的控制方法和服务器的控制设备 - Google Patents
服务器的控制方法和服务器的控制设备 Download PDFInfo
- Publication number
- CN105446833A CN105446833A CN201510811081.8A CN201510811081A CN105446833A CN 105446833 A CN105446833 A CN 105446833A CN 201510811081 A CN201510811081 A CN 201510811081A CN 105446833 A CN105446833 A CN 105446833A
- Authority
- CN
- China
- Prior art keywords
- server
- cpu
- pch
- abnormal
- primary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000000638 solvent extraction Methods 0.000 claims abstract description 23
- 230000002159 abnormal effect Effects 0.000 claims description 66
- 230000001960 triggered effect Effects 0.000 claims description 6
- 238000013461 design Methods 0.000 abstract description 5
- 238000012545 processing Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 19
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 239000013256 coordination polymer Substances 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1415—Saving, restoring, recovering or retrying at system level
- G06F11/142—Reconfiguring to eliminate the error
- G06F11/1428—Reconfiguring to eliminate the error with loss of hardware functionality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0751—Error or fault detection not based on redundancy
- G06F11/0754—Error or fault detection not based on redundancy by exceeding limits
- G06F11/0757—Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Stored Programmes (AREA)
- Debugging And Monitoring (AREA)
- Hardware Redundancy (AREA)
Abstract
本发明实施例提供一种通过服务器的控制方法和服务器的控制设备,以解决现有技术中因服务器启动异常导致业务中断的问题。本发明实施例的控制方法和服务器的控制设备,在服务器因主用CPU、与主用CPU连接的PCH或与主用CPU连接的PCH相连的Flash异常导致服务器启动异常时,主用CPU被重新配置。实现了支持硬分区的服务器中出现启动异常时,仍然能够确保服务器正常启动和运行,提高了服务器的可靠性和稳定性;使得整个服务器的RAS得到提升;同时解决了FLASH异常导致系统不能运行的问题,可以不再使用原有的BIOS设计方式,节省了服务器的FLASH芯片成本。
Description
技术领域
本发明涉及信息技术领域,尤其涉及一种服务器的控制方法和服务器的控制设备。
背景技术
服务器是网络环境中的高性能计算机,能够侦听网络上的其他计算机(客户机)提交的服务请求,并提供相应的服务。按照体系架构来区分,服务器主要分为两类:非X86服务器和X86服务器。X86服务器又称复杂指令集架构服务器,即通常所讲的PC服务器,它是基于PC机体系结构,使用Intel或其它兼容x86指令集的处理器芯片的服务器。
随着信息化技术的进一步发展,服务器在日常的IT(InformationTechnical,信息技术)应用中变得越来越重要。在服务器上承载的业务也越来越多。由于服务器的异常或者宕机,往往会给客户带来非常大的损失。因此,不管是在通用的服务器上,还是在关键应用服务器上,服务器的RAS(Reliability,AvailabilityandServiceability,可靠性、可用性和可服务性)特性都变得越来越重要。
所谓的RAS,即所谓的可靠性、可用性、可服务性,是服务器的重要指标。如何实现服务器具有很高的RAS特性,同时又具有较好的性价比,是服务器开发当中重点关注的。特别是对于中高端服务器,完整的RAS特性是衡量一台服务器是否高端的主要指标。
在通常的中高端X86服务器或者更高端的小型机中,一般都会要求服务器能够支持硬分区。所谓的硬分区,就是将一个服务器分隔为几个完全独立的子服务器。这些子服务器是一个完整的服务器系统,它们拥有自己的BIOS(BasicInputOutputSystem,基本输入输出系统)和操作系统,与通常所说的单台服务器类似。例如,一个8路的X86服务器硬分区成2个4路服务器,或者是4个2路服务器,这种通过硬分区分隔出来的服务器是可以独立运行、独立上电、独立下电、独立管理。
一般的X86服务器主要有CPU(CentralProcessingUnit,中央处理器)、PCH(PlatformControllerHub,平台控制器集线器)、内存、硬盘、插卡等多个部件组成。对于支持硬分区功能的X86服务器,需要配置多个PCH芯片,一般来说是系统支持几个硬分区就需要配置多个PCH芯片。如图1(a)所示是一个8路服务器的系统框架,图1(b)是一个8路服务器硬分区成2个4路服务器的系统框架。
在图1(a)中,是8P独立模式,与CPU1相连的PCH为主用PCH,与其他处理器相连的PCH为从PCH。从PCH有两种工作模式,第一种是该PCH被禁止,对外不能提供任何功能,第二种是该PCH处于部分功能可用状态,比如该PCH上的USB、SATA功能还是可用的,但不能参与整个服务器的管理功能。
在图1(b)中,是8P分区模式,上面4个CPU及PCH组成一个独立的系统,下面4个CPU及PCH组成一个独立的系统,两个系统之间的QPI(QuickPathInterconnect,快速路径互联)连接被断开,彼此之间没有任务的交互。
在现有技术中,系统的RAS存在着较大的缺点:当服务器未进行分区时,如果CPU1所连的主用PCH异常(例如芯片损坏),或主用PCH所连的FLASH出现异常(例如芯片损坏,FLASH所在的BIOS被异常擦除),整个服务器就处于宕机状态。此时运行在该服务器上的业务将被中断。
发明内容
本发明实施例提供一种服务器的控制方法和服务器的控制设备,实现在服务器启动异常时,保证业务的正常运行。
本发明实施例提供了一种服务器中的控制设备,所述服务器包括至少两个中央处理器CPU和至少两个平台控制集线器PCH,每个所述PCH与至少一个所述CPU相连,所述控制设备包括:
配置单元,用于配置所述CPU的标号,并将其中一个CPU标记为主用CPU;在所述服务器启动异常时,将与正常PCH连接的CPU配置为主用CPU,所述服务器启动异常包括与主用CPU连接的PCH或与主用CPU连接的PCH相连的Flash异常导致的基本输入输出系统BIOS启动异常;
重启单元,用于在所述服务器启动异常时,触发所述服务器重新启动,并触发所述配置单元将与正常PCH连接的CPU配置为主用CPU。
作为一种可选的实现方式,所述配置单元包括:
管脚配置单元,用于配置所述至少两个CPU的管脚,通过配置所述管脚的值将其中一个CPU配置为主用CPU;
信息接收单元,用于接收所述重启单元发送的所述服务器启动异常的信息,触发所述管脚配置单元将与正常PCH连接的一个CPU配置为主用CPU。
作为一种可选的实现方式,所述重启单元包括:
判断单元,用于判断在预设时间内所述服务器是否启动异常;
触发单元,用于在所述判断单元判断所述服务器启动异常时,触发所述服务器重新启动,并触发所述配置单元将与正常PCH连接的一个CPU配置为主用CPU。
作为一种可选的实现方式,所述触发单元包括:
第一触发单元,用于在所述服务器启动异常时,通过所述BIOS预先设置的寄存器触发所述服务器重新启动;
第二触发单元,用于在所述服务器重新启动过程中,判断是否存在导致所述服务器启动异常的异常信息,在存在所述异常信息时,触发所述配置单元将与正常PCH连接的一个CPU配置为主用CPU,所述异常信息是在所述服务器重启前由所述BIOS触发记录的信息。
作为一种可选的实现方式,所述服务器是支持硬分区功能的服务器,所述服务器中的CPU的管脚连接到所述控制设备中。
作为一种可选的实现方式,所述控制设备在所述服务器的复杂可编程逻辑器件CPLD或现场可编程门阵列FPGA中实现。
本发明实施例还提供了一种服务器控制方法,所述方法应用于服务器中,所述服务器包括至少两个中央处理器CPU和至少两个平台控制集线器PCH,每个所述PCH与至少一个所述CPU相连,所述方法包括:
配置所述CPU的标号,并将其中一个CPU标记为主用CPU;
判断所述服务器是否启动异常,如果启动异常则记录异常信息,并触发所述服务器重新启动;所述异常信息包括与主用CPU连接的PCH或与主用CPU连接的PCH相连的Flash异常导致的基本输入输出系统BIOS启动异常;
在所述服务器重新启动过程中,根据所述记录的异常信息,将与正常PCH连接的CPU配置为主用CPU。
作为一种可选的实现方式,所述配置CPU的标号具体是配置所述CPU的管脚,所述将其中一个CPU标记为主用CPU,是通过配置所述管脚的值将其中一个CPU配置为主用CPU。
作为一种可选的实现方式,判断所述服务器是否启动异常包括:
设定定时器,所述定时器的时长小于所述服务器看门狗的定时器时长;
在所述服务器启动过程中,如果在所述定时器设定时间内所述看门狗未被禁止,则判定所述服务器启动异常。
作为一种可选的实现方式,所述方法是由复杂可编程逻辑器件CPLD或现场可编程门阵列FPGA实现。
作为一种可选的实现方式,所述触发服务器重新启动是通过设置在所述CPLD或所述FPGA中的重启寄存器触发所述服务器重新启动。
作为一种可选的实现方式,服务器是支持硬分区功能的服务器,所述服务器中的CPU的管脚连接到所述CPLD或所述FPGA中。
通过本发明实施例的控制方法和服务器的控制设备,在服务器因主用CPU、与主用CPU连接的PCH或与主用CPU连接的PCH相连的Flash异常导致服务器启动异常时,CPU的管脚被重新配置,服务器的主用CPU发生了变化,BIOS启动时会从新的主用PCH所连的FLASH获取指令并执行。实现了支持硬分区的服务器中出现启动异常时,仍然能够确保服务器正常启动和运行,提高了服务器的可靠性和稳定性;使得整个服务器的RAS得到提升;同时解决了FLASH异常导致系统不能运行的问题,可以不再使用原有的双BIOS设计方式,节省了服务器的FLASH芯片成本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1(a)为现有技术中服务器系统结构示意图;
图1(b)为现有技术中另一服务器系统结构示意图;
图2为本发明实施例一种服务器的控制设备的结构示意图;
图3为本发明实施例一种服务器的控制设备的另一具体实现结构示意图;
图4为本发明实施例一种8路服务器的基本硬件结构示意图;
图5为本发明实施例一种服务器控制方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
参考图2,图2为本发明实施例提供的一种服务器中的控制设备200的结构示意图,所述服务器包括至少两个CPU和至少两个PCH,每个所述PCH与至少一个所述CPU相连,所述控制设备200包括:
配置单元201,用于配置所述CPU的标号,并将其中一个CPU标记为主用CPU;在所述服务器启动异常时,将正常的CPU或与正常PCH连接的CPU配置为主用CPU,所述服务器启动异常包括主用CPU、与主用CPU连接的PCH或与主用CPU连接的PCH相连的Flash异常导致的BIOS启动异常;
重启单元202,用于在所述服务器启动异常时,触发所述服务器重新启动,并触发所述配置单元201将正常的CPU或与正常PCH连接的CPU配置为主用CPU。
作为一种可选的实现方式,如图3所示,所述配置单元201包括:
管脚配置单元2011,用于配置所述至少两个CPU的管脚,通过配置所述管脚的值将其中一个CPU配置为主用CPU;
信息接收单元2012,用于接收所述重启单元202发送的所述服务器启动异常的信息,触发所述管脚配置单元2011将一个正常的CPU或与正常PCH连接的一个CPU的配置为主用CPU。
作为一种可选的实现方式,所述重启单元202包括:
判断单元2021,用于判断在预设时间内所述服务器是否启动异常;
触发单元2022,用于在所述判断单元2021判断所述服务器启动异常时,触发所述服务器重新启动,并触发所述配置单元201将正常的一个CPU或与正常PCH连接的一个CPU配置为主用CPU。
作为一种可选的实现方式,所述触发单元2022包括:
第一触发单元20221,用于在所述服务器启动异常时,通过所述BIOS预先设置的寄存器触发所述服务器重新启动;
第二触发单元20222,用于在所述服务器重新启动过程中,判断是否存在导致所述服务器启动异常的异常信息,在存在所述异常信息时,触发所述配置单元201将正常的一个CPU或与正常PCH连接的一个CPU配置为主用CPU,所述异常信息是在所述服务器重启前由所述BIOS触发记录的信息。
作为一种可选的实现方式,本发明实施例的控制设备,在所述服务器的CPLD(complexprogrammablelogicaldevice,复杂可编程逻辑器件)或FPGA(fieldprogrammablegatearray,现场可编程门阵列)中实现。
作为一种可选的实现方式,本发明实施例的服务器是支持硬分区功能的服务器,所述服务器中的CPU的管脚连接到所述控制设备中。其中,所述服务器中的控制设备,可以通过SMBUS(SystemManagebus,系统管理总线)或LPC(LowPinCount,低点计算)总线等与所述服务器中的CPU相连;所述控制设备通过所述SMBUS总线或LPC总线实现对所述CPU管脚的配置。
本发明实施例的中的支持硬分区功能的服务器,是指支持将一个服务器分隔为几个完全独立的子服务器的服务器。所述的子服务器,可以被看作是一个独立的服务器系统,包括独立的BIOS、PCH、CPU和操作系统等。例如,一个8路的X86服务器硬分区成2个4路子服务器,或者是4个2路子服务器,这种通过硬分区分隔出来的服务器是可以独立运行、独立上电、独立下电、独立管理等。所述的8路服务器,是指包含8个CPU的服务器;所述4路子服务器,是指包含4个CPU的子服务器;所述2路子服务器,是指包含2个CPU的子服务器。
下面以一个8路服务器,被硬分区成2个4路子服务器为例,对本发明实施例一种服务器中的控制设备的实现方式做进一步说明。该实施例以控制设备在CPLD中实现为例进行说明。
参考图4,图4为一种8路服务器的基本硬件结构示意图。该8路服务器是一个支持硬分区功能的X86服务器,包括8个CPU,两个PCH,以及与各个PCH相连的Flash,所述8个CPU的管脚被引入到CPLD中,由CPLD通过对CPU管脚的配置实现对CPU的管理,例如将某一个CPU配置为主用CPU。该8路服务器可以包含多个PCH,作为一种常用的实现方式,如果该服务器被硬分区为2个4路的子服务器,则只包含2个PCH;每个PCH与1路子服务器的CPU相连。假设图4中CPU5为主用CPU,则与CPU5相连的PCH为主用PCH,与CPU1相连的PCH为从PCH。从PCH有通常两种工作模式,第一种是该PCH被禁止,对外不提供任何功能;第二种是该PCH处于部分功能可用状态,比如该PCH上的USB、SATA功能可用,但不能参与整个服务器的管理功能。
在上述图4所示的服务器中,上面4个CPU(CPU5,CPU3,CPU2,CPU4)及PCH组成一个独立的子服务器;下面4个CPU(CPU1,CPU7,CPU6,CPU8)及PCH组成一个独立的子服务器,两个子服务器之间的QPI连接被断开(即通过内部的寄存器将QPI端口禁止),彼此之间没有任务的交互。
所述服务器中CPU是通过其SOCKET_ID管脚来识别的,每个CPU的SOCKET_ID管脚都需要连接到CPLD的配置单元201中;由该配置单元201根据实际的需要配置每个CPU的SOCKET_ID管脚值。作为一种可选的实现方式,图4所示的CPU的管脚配置可以是:SOCKET_ID=0就表示该CPU是1号处理器,SOCKET_ID=1就表示2号处理器,以此类推SOCKET_ID=7表示8号处理器。此外,还用管脚EX_LEGACY_SKT用来区分CPU为主用处理器还是普通处理器。如果某一CPU所连的SOCKET_ID为0,则表示该CPU为主用CPU,需要将EX_LEGACY_SKT配置为1;否则将该管脚EX_LEGACY_SKT配置为0,表示该CPU为普通CPU。实现CPLD对CPU管脚的配置,可以通过SMBUS总线或LPC总线等连接方式,与CPU相连。
下面以图4中上排最左边的CPU5为主用CPU,与该主用CPU相连的PCH能够正常工作为例进行说明。所述CPLD中的配置单元201配置CPU5的管脚,将其SOCKET_ID配置为0,将其EX_LEGACY_SKT配置为1;将下排最左边的CPU1配置为普通处理器,即将其SOCKET_ID配置为4,将其EX_LEGACY_SKT配置为0。与主用CPU相连的PCH即为即主用PCH。
当图4所示的服务器上电后,其中的BIOS自动从主用PCH所连的FLASH获取指令并执行。所述CPLD中的重启单元202,会监控主用CPU、主用PCH以及主用PCH所连接的FLASH是否正常。如果主用CPU、主用PCH及所连的FLASH都正常,则BIOS程序会顺利的往下执行,并将系统引导进OS操作系统中。如果在BIOS引导的某个过程中主用CPU、主用PCH或其所连的FLASH出现异常,则所述重启单元202触发所述服务器重新启动,并触发所述配置单元201将正常的CPU或与正常PCH连接的CPU配置为主用CPU。
所述重启单元202判断所述主用CPU、主用PCH或其所连的FLASH异常,可通过设置定时器的方式,并设定定时器的时长小于看门狗的定时器时长,如果在设置的定时器超时前,看门狗没有被禁止,则判定启动异常。具体的,可以由重启单元202中的判断单元2021判断设定时间内看门狗是否被禁止,如果未被禁止或被喂狗,则确认所述服务器启动异常。相应的,所述控制设备中的触发单元2022,基于所述判断单元2021判断服务器异常,触发所述服务器重新启动,并触发所述配置单元201将正常的一个CPU或与正常PCH连接的一个CPU配置为主用CPU;具体的,是将CPU1配置为主用CPU,将其SOCKET_ID配置为0,将其EX_LEGACY_SKT配置为1;将CPU5配置为普通处理器,即将其SOCKET_ID配置为4,将其EX_LEGACY_SKT配置为0。
作为一种可选的实现方式,在所述判断单元2021判断所述服务器启动异常时,由所述触发单元2022中的第一触发单元2022,基于BIOS在所述CPLD中预先设置的重启寄存器触发所述服务器重新启动。在重启前,所述服务器的BIOS会将H异常信息写入某个寄存器中,例如E2PROM(ElectricallyErasableandProgrammableRead-OnlyMemory,电可擦编程只读存储器)寄存器,。所述服务器重启后,所述第二触发单元2022判断该E2PROM的寄存器中是否记录有异常信息,如果有异常信息,则触发所述配置单元201重新配置各个CPU的SOCKET_ID及EX_LEGACY_SKT管脚。
通过上述服务器的控制设备的实现方式,CPU的管脚重新配置后,所述服务器的主用CPU发生了变化,BIOS启动时会从新的主用PCH所连的FLASH获取指令并执行。实现了支持硬分区的服务器中出现启动异常时,仍然能够确保服务器正常启动和运行,提高了服务器的可靠性和稳定性;使得整个服务器的RAS得到提升;同时解决了FLASH异常导致系统不能运行的问题,可以不再使用原有的双BIOS设计方式,节省了服务器的FLASH芯片成本。
参考图5,图5为本发明实施例提供的一种服务器控制方法的流程示意图,该方法应用于服务器中,所述服务器包括至少两个CPU和至少两个PCH,每个所述PCH与至少一个所述CPU相连,所述方法包括:
步骤500,配置所述CPU的标号,并将其中一个CPU标记为主用CPU;
步骤502,判断所述服务器是否启动异常,如果启动异常则记录异常信息,并触发所述服务器重新启动;所述异常信息包括主用CPU、与主用CPU连接的PCH或与主用CPU连接的PCH相连的Flash异常导致的BIOS启动异常;
步骤504,在所述服务器重新启动过程中,根据所述记录的异常信息,将正常的CPU或与正常PCH连接的CPU配置为主用CPU。
本发明实施例的服务器控制方法是由服务器中的CPLD或FPGA等逻辑芯片来实现。本发明实施例以在CPLD中实现为例进行说明。
其中,所述步骤500中,所述配置CPU的标号具体是配置所述CPU的管脚,所述将其中一个CPU标记为主用CPU,是通过配置所述管脚的值将其中一个CPU配置为主用CPU。
所述配置CPU的管脚,具体可通过配置SOCKET_ID和EX_LEGACY_SKT的值来实现。其中SOCKET_ID用于标识不同的CPU,EX_LEGACY_SKT用于标识某一个CPU是主用CPU还是普通CPU。例如,将图4的服务器中,SOCKET_ID=0就表示该CPU是1号处理器,SOCKET_ID=1就表示2号处理器,以此类推SOCKET_ID=7表示8号处理器;如果SOCKET_ID为0的CPU为主用CPU,则将其EX_LEGACY_SKT配置为1,将其它CPU的值配置为0。
作为一种可选的实现方式,所述步骤502中的判断所述服务器是否启动异常包括:
设定定时器,所述定时器的时长小于所述服务器看门狗的定时器时长;
在所述服务器启动过程中,如果在所述定时器设定时间内所述看门狗未被禁止,则判定所述服务器启动异常。
所述步骤502中的触发所述服务器重新启动可以通过设置在所述CPLD芯片中的重启寄存器触发所述服务器重新启动。作为一种可选的实现方式,所述重启寄存器可以是BIOS设置在所述CPLD芯片中或所述FPGA中的。
所述步骤502中的记录异常信息,可以通过将异常信息记录在E2PROM的等寄存器中实现。当然,所述异常信息也可以记录在所述服务器的其它地方,本发明实施例不限定所述异常信息记录的位置。作为一种可选的实现方式,所述异常信息,是由BIOS来记录的,例如BIOS将异常信息记录在E2PROM的某个寄存器中。
相应的,在步骤504中,由CPLD判断E2PROM的寄存器是否记录异常信息,如果有异常信息,则重新配置各个CPU的SOCKET_ID及EX_LEGACY_SKT的管脚值。例如将图4中的CPU1配置为主用CPU,将其SOCKET_ID配置为0,将其EX_LEGACY_SKT配置为1;将CPU5配置为普通处理器,即将其SOCKET_ID配置为4,将其EX_LEGACY_SKT配置为0。
作为一种可选的实现方式,本发明实施例的服务器控制方法中的服务器是支持硬分区功能的服务器,所述服务器中的CPU的管脚连接到所述控制设备中。其中,所述服务器中的控制设备,可以通过SMBUS总线或LPC总线等与所述服务器中的CPU相连;所述控制设备通过所述SMBUS总线或LPC总线实现对所述CPU管脚的配置。
通过上述服务器的控制方法,实现了支持硬分区的服务器中出现启动异常时,仍然能够确保服务器正常启动和运行,提高了服务器的可靠性和稳定性;使得整个服务器的RAS得到提升;同时解决了FLASH异常导致系统不能运行的问题,可以不再使用原有的双BIOS设计方式,节省了服务器的FLASH芯片成本。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (12)
1.一种服务器中的控制设备,所述服务器包括至少两个中央处理器CPU和至少两个平台控制集线器PCH,每个所述PCH与至少一个所述CPU相连,其特征在于,所述控制设备包括:
配置单元,用于配置所述CPU的标号,并将其中一个CPU标记为主用CPU;在所述服务器启动异常时,将与正常PCH连接的CPU配置为主用CPU,所述服务器启动异常包括与主用CPU连接的PCH或与主用CPU连接的PCH相连的Flash异常导致的基本输入输出系统BIOS启动异常;
重启单元,用于在所述服务器启动异常时,触发所述服务器重新启动,并触发所述配置单元将与正常PCH连接的CPU配置为主用CPU。
2.根据权利要求1所述的服务器中的控制设备,其特征在于,所述配置单元包括:
管脚配置单元,用于配置所述至少两个CPU的管脚,通过配置所述管脚的值将其中一个CPU配置为主用CPU;
信息接收单元,用于接收所述重启单元发送的所述服务器启动异常的信息,触发所述管脚配置单元将与正常PCH连接的一个CPU配置为主用CPU。
3.根据权利要求1或2所述的服务器中的控制设备,其特征在于,所述重启单元包括:
判断单元,用于判断在预设时间内所述服务器是否启动异常;
触发单元,用于在所述判断单元判断所述服务器启动异常时,触发所述服务器重新启动,并触发所述配置单元将与正常PCH连接的一个CPU配置为主用CPU。
4.根据权利要求3所述的服务器中的控制设备,其特征在于,所述触发单元包括:
第一触发单元,用于在所述服务器启动异常时,通过所述BIOS预先设置的寄存器触发所述服务器重新启动;
第二触发单元,用于在所述服务器重新启动过程中,判断是否存在导致所述服务器启动异常的异常信息,在存在所述异常信息时,触发所述配置单元将与正常PCH连接的一个CPU配置为主用CPU,所述异常信息是在所述服务器重启前由所述BIOS触发记录的信息。
5.根据权利要求1-4任一所述的服务器中的控制设备,其特征在于,所述服务器是支持硬分区功能的服务器,所述服务器中的CPU的管脚连接到所述控制设备中。
6.根据权利要求1-5任一所述的服务器中的控制设备,其特征在于,所述控制设备在所述服务器的复杂可编程逻辑器件CPLD或现场可编程门阵列FPGA中实现。
7.一种服务器控制方法,所述方法应用于服务器中,所述服务器包括至少两个中央处理器CPU和至少两个平台控制集线器PCH,每个所述PCH与至少一个所述CPU相连,其特征在于,所述方法包括:
配置所述CPU的标号,并将其中一个CPU标记为主用CPU;
判断所述服务器是否启动异常,如果启动异常则记录异常信息,并触发所述服务器重新启动;所述异常信息包括与主用CPU连接的PCH或与主用CPU连接的PCH相连的Flash异常导致的基本输入输出系统BIOS启动异常;
在所述服务器重新启动过程中,根据所述记录的异常信息,将与正常PCH连接的CPU配置为主用CPU。
8.根据权利要求7所述的服务器控制方法,其特征在于:
所述配置CPU的标号具体是配置所述CPU的管脚,所述将其中一个CPU标记为主用CPU,是通过配置所述管脚的值将其中一个CPU配置为主用CPU。
9.根据权利要求7或8所述的服务器控制方法,其特征在于,判断所述服务器是否启动异常包括:
设定定时器,所述定时器的时长小于所述服务器看门狗的定时器时长;
在所述服务器启动过程中,如果在所述定时器设定时间内所述看门狗未被禁止,则判定所述服务器启动异常。
10.根据权利要求7-9任一所述的服务器控制方法,其特征在于:
所述方法是由复杂可编程逻辑器件CPLD或现场可编程门阵列FPGA实现。
11.根据权利要求10所述的服务器控制方法,其特征在于:
所述触发服务器重新启动是通过设置在所述CPLD或所述FPGA中的重启寄存器触发所述服务器重新启动。
12.根据权利要求7-11任一所述的服务器控制方法,其特征在于:
服务器是支持硬分区功能的服务器,所述服务器中的CPU的管脚连接到所述CPLD或所述FPGA中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510811081.8A CN105446833B (zh) | 2013-09-29 | 2013-09-29 | 服务器的控制方法和服务器的控制设备 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201380002066.8A CN103733180A (zh) | 2013-09-29 | 2013-09-29 | 服务器的控制方法和服务器的控制设备 |
CN201510811081.8A CN105446833B (zh) | 2013-09-29 | 2013-09-29 | 服务器的控制方法和服务器的控制设备 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201380002066.8A Division CN103733180A (zh) | 2013-09-29 | 2013-09-29 | 服务器的控制方法和服务器的控制设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105446833A true CN105446833A (zh) | 2016-03-30 |
CN105446833B CN105446833B (zh) | 2020-04-14 |
Family
ID=55588747
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510811081.8A Active CN105446833B (zh) | 2013-09-29 | 2013-09-29 | 服务器的控制方法和服务器的控制设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105446833B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107003914A (zh) * | 2016-10-31 | 2017-08-01 | 华为技术有限公司 | 启动物理设备的方法和使能装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5790850A (en) * | 1996-09-30 | 1998-08-04 | Intel Corporation | Fault resilient booting for multiprocessor computer systems |
US20020133693A1 (en) * | 1999-03-26 | 2002-09-19 | John A. Morrison | Apparatus and method for implementing fault resilient booting in a multi-processor system by using flush command to control resetting of the processors and isolating failed processors |
US20080155331A1 (en) * | 2006-09-29 | 2008-06-26 | Rothman Michael A | System and method for enabling seamless boot recovery |
CN101216793A (zh) * | 2008-01-18 | 2008-07-09 | 华为技术有限公司 | 一种多处理器系统故障恢复的方法及装置 |
US20090172228A1 (en) * | 2007-12-28 | 2009-07-02 | Zimmer Vincent J | Method and system for handling a management interrupt event in a multi-processor computing device |
CN102446149A (zh) * | 2010-10-14 | 2012-05-09 | 上海研祥智能科技有限公司 | 一种能够实现紧凑型pci产品热插拔的处理方法以及系统 |
CN102521209A (zh) * | 2011-12-12 | 2012-06-27 | 浪潮电子信息产业股份有限公司 | 一种并行多处理器计算机的设计方法 |
US20120173922A1 (en) * | 2010-12-30 | 2012-07-05 | International Business Machiness Corporation | Apparatus and method for handling failed processor of multiprocessor information handling system |
CN102768561A (zh) * | 2012-05-30 | 2012-11-07 | 曙光信息产业股份有限公司 | 一种双桥片主板冗余的设计方法 |
CN202838091U (zh) * | 2012-05-30 | 2013-03-27 | 曙光信息产业股份有限公司 | 一种支持sr5690冗余设计的双桥片主板 |
-
2013
- 2013-09-29 CN CN201510811081.8A patent/CN105446833B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5790850A (en) * | 1996-09-30 | 1998-08-04 | Intel Corporation | Fault resilient booting for multiprocessor computer systems |
US20020133693A1 (en) * | 1999-03-26 | 2002-09-19 | John A. Morrison | Apparatus and method for implementing fault resilient booting in a multi-processor system by using flush command to control resetting of the processors and isolating failed processors |
US20080155331A1 (en) * | 2006-09-29 | 2008-06-26 | Rothman Michael A | System and method for enabling seamless boot recovery |
US20090172228A1 (en) * | 2007-12-28 | 2009-07-02 | Zimmer Vincent J | Method and system for handling a management interrupt event in a multi-processor computing device |
CN101216793A (zh) * | 2008-01-18 | 2008-07-09 | 华为技术有限公司 | 一种多处理器系统故障恢复的方法及装置 |
CN102446149A (zh) * | 2010-10-14 | 2012-05-09 | 上海研祥智能科技有限公司 | 一种能够实现紧凑型pci产品热插拔的处理方法以及系统 |
US20120173922A1 (en) * | 2010-12-30 | 2012-07-05 | International Business Machiness Corporation | Apparatus and method for handling failed processor of multiprocessor information handling system |
CN102521209A (zh) * | 2011-12-12 | 2012-06-27 | 浪潮电子信息产业股份有限公司 | 一种并行多处理器计算机的设计方法 |
CN102768561A (zh) * | 2012-05-30 | 2012-11-07 | 曙光信息产业股份有限公司 | 一种双桥片主板冗余的设计方法 |
CN202838091U (zh) * | 2012-05-30 | 2013-03-27 | 曙光信息产业股份有限公司 | 一种支持sr5690冗余设计的双桥片主板 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107003914A (zh) * | 2016-10-31 | 2017-08-01 | 华为技术有限公司 | 启动物理设备的方法和使能装置 |
CN107003914B (zh) * | 2016-10-31 | 2020-11-13 | 华为技术有限公司 | 启动物理设备的方法和使能装置 |
US11068348B2 (en) | 2016-10-31 | 2021-07-20 | Huawei Technologies Co., Ltd. | Method and enable apparatus for starting physical device |
Also Published As
Publication number | Publication date |
---|---|
CN105446833B (zh) | 2020-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103733180A (zh) | 服务器的控制方法和服务器的控制设备 | |
JP6530774B2 (ja) | ハードウェア障害回復システム | |
WO2022198972A1 (zh) | 一种服务器启动过程中的故障定位方法、系统及装置 | |
US9910664B2 (en) | System and method of online firmware update for baseboard management controller (BMC) devices | |
US9778844B2 (en) | Installation of operating system on host computer using virtual storage of BMC | |
TWI754317B (zh) | 用於網路裝置之最佳啟動路徑之方法和系統 | |
US9680712B2 (en) | Hardware management and control of computer components through physical layout diagrams | |
US20160182284A1 (en) | System and method of performing high availability configuration and validation of virtual desktop infrastructure (vdi) | |
WO2018095107A1 (zh) | 一种bios程序的异常处理方法及装置 | |
CN104615506A (zh) | 一种基于逻辑控制的bios和bmc备份方法 | |
US7975084B1 (en) | Configuring a host computer using a service processor | |
US9298371B1 (en) | System and method of reducing write cycles and increasing longevity of non-volatile memory in baseboard management controller (BMC) | |
WO2018120200A1 (zh) | 一种服务器管理方法和服务器 | |
CN110780942A (zh) | 系统启动方法、装置、节点设备及计算机可读存储介质 | |
US10922305B2 (en) | Maintaining storage profile consistency in a cluster having local and shared storage | |
CN116627702A (zh) | 虚拟机的宕机重启方法及装置 | |
CN105446833A (zh) | 服务器的控制方法和服务器的控制设备 | |
CN116501343A (zh) | 一种程序升级方法、电源及计算设备 | |
WO2022041839A1 (zh) | 裸金属服务器在线迁移方法以及系统 | |
US11354109B1 (en) | Firmware updates using updated firmware files in a dedicated firmware volume | |
TWI554876B (zh) | 節點置換處理方法與使用其之伺服器系統 | |
US20200042300A1 (en) | Operating system installation on a computing device with multiple redundant drives | |
KR101564144B1 (ko) | 펌웨어 관리 장치 및 방법 | |
US20240020103A1 (en) | Parallelizing data processing unit provisioning | |
JP7389877B2 (ja) | ネットワークの最適なブートパスの方法及びシステム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20211228 Address after: 450046 Floor 9, building 1, Zhengshang Boya Plaza, Longzihu wisdom Island, Zhengdong New Area, Zhengzhou City, Henan Province Patentee after: xFusion Digital Technologies Co., Ltd. Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen Patentee before: HUAWEI TECHNOLOGIES Co.,Ltd. |
|
TR01 | Transfer of patent right |