CN105404366B - 在服务器机架系统中的备份管理控制的方法及服务器机架 - Google Patents

在服务器机架系统中的备份管理控制的方法及服务器机架 Download PDF

Info

Publication number
CN105404366B
CN105404366B CN201510565566.3A CN201510565566A CN105404366B CN 105404366 B CN105404366 B CN 105404366B CN 201510565566 A CN201510565566 A CN 201510565566A CN 105404366 B CN105404366 B CN 105404366B
Authority
CN
China
Prior art keywords
mentioned
controller
management controller
server rack
shelf management
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510565566.3A
Other languages
English (en)
Other versions
CN105404366A (zh
Inventor
黄仁烜
林发达
王宝庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Quanta Computer Inc
Original Assignee
Quanta Computer Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Quanta Computer Inc filed Critical Quanta Computer Inc
Publication of CN105404366A publication Critical patent/CN105404366A/zh
Application granted granted Critical
Publication of CN105404366B publication Critical patent/CN105404366B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2025Failover techniques using centralised failover control functionality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2035Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant without idle spare hardware
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • G06F11/3062Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations where the monitored property is the power consumption

Abstract

一种在服务器机架系统中的备份管理控制的方法及服务器机架。上述方法包括:通过一服务器机架的一机架管理控制器,管理一第一功能;通过于上述服务器机架中一背板的一背板控制器,监控上述机架管理控制器;通过上述背板控制器,判断上述机架管理控制器为不可用;以及当上述机架管理控制器被判断为不可用时,通过上述背板控制器管理上述第一功能。

Description

在服务器机架系统中的备份管理控制的方法及服务器机架
技术领域
本发明涉及管理计算机系统,特别涉及一种在服务器机架系统中的备份管理控制的系统及方法。
背景技术
在现今数据中心中的计算机服务器系统对许多计算模块(例如:托盘(tray)、机箱(chassis)以及滑槽式计算机服务器(sled)、诸如此类的模块)而言以特定的配置被安装在服务器机架上,许多计算模块被定位并堆迭在相对彼此服务器机架的上方。服务器机架允许计算机模块的一垂直排列(vertical arrangement)有效率地使用空间。服务器机架普遍地包括多个机架安装(mounted)风扇、电源供应单元、传感器、网络卡、以及其他诸如此类的硬件元件。服务器机架有时包括用以管理各种功能(例如:风扇控制、电源管理、传感器管理、和/或允许通过一网络进行远端管理)之一机架管理控制器。
发明内容
下列段落提供本发明一或多个实施例中的简单摘要以提供本发明技术的基本理解。此摘要并非本发明技术的所有考虑的实施例的扩展概观,且不是用以分辨所有例子的关键或重要元件也不是描述本发明中任何或所有方面的范围。其目的是以一简单形式呈现一或多个实施例中的一些概念以做为本发明后述详细说明部分的前言。
在某些实施例中,本发明提供一种在服务器机架系统中的备份管理控制的方法,上述方法包括:通过一服务器机架的一机架管理控制器,管理一第一功能;通过于上述服务器机架中一背板的一背板控制器,监控上述机架管理控制器;通过上述背板控制器,判断上述机架管理控制器为不可用;以及当上述机架管理控制器被判断为不可用时,通过上述背板控制器管理上述第一功能。
在某些实施例中,本发明提供一种服务器机架,包括:一机架管理控制器,用以管理一第一功能;以及一背板,包括一背板控制器,其中上述背板控制器用以进行下列步骤:监控上述机架管理控制器;判断上述机架管理控制器为不可用;以及当上述机架管理控制器被判断为不可用时,管理上述第一功能。
附图说明
本发明的实施例将可参考附图与后续的详细说明而得知,其中:
图1是描绘出包括一机架管理控制器(RMC)的的服务器系统的一实施例的示意图;
图2是描绘出包括一背板的服务器系统的一实施例的示意图;
图3是描绘出包括一备份管理控制器(BPC)的服务器系统的备份管理控制的示意图;
图4描绘出一实施例中在一服务器系统中用以备份管理控制的一方法;
图5描绘出一实施例中的服务器机架;
图6为计算机系统的一实施例的方块图。
【符号说明】
100、200、300~服务器系统;
102、202、302、510~服务器机架;
104、204、304~网络;
106、206、306~管理者装置;
110、210、310~机架管理控制器;
120、220、320~服务器;
222、322~基板管理控制器;
230、330、530~背板;
332~背板控制器;
140、240、340~电源供应单元;
150、250、350~风扇;
160、260、360~传感器;
190、290、390~网络接口控制器;
400~方法;
410、420、430、440~步骤;
520~机箱;
600~计算机系统;
610~基本输入输出系统;
620~存储器;
630~存储单元;
640~处理器;
650~网络接口;
660~北桥;
670~南桥;
680~管理控制器。
具体实施方式
本发明提供一种用以自动地判断一服务器机架的权重(weight)的技术。本技术的各个方面将参照图中所示进行说明。在以下描述中,出于解释的目的,许多具体细节被阐述以便提供一或多个方面的彻底理解。然而,可以显而易见的是,本技术可以在没有这些具体细节的情况下实施。在其他实施例中,为了便于描述这些面貌,已知结构以及设备以方块图的形式展示。
传统而言,一服务器机架包括多个服务器节点以及一管理控制器(例如:一机架管理控制器),用以管理多个功能(例如:风扇控制、电源管理、传感器管理、和/或允许通过一网络以进行远端管理)。有些服务器机架包括一背板以允许机架管理控制器通过背板管理多个服务器节点。然而,在某些情形下,机架管理控制器故障或变成有缺陷、断线、损坏、或不可用。本发明的主要项目是公开用于一服务器机架的一背板的一背板控制器。一旦机架管理控制器变成不可用时,背板控制器当作机架管理控制器的一备份管理控制器,以接手(take over)机架管理控制器的多个功能。
图1是描绘出服务器系统100的一实施例的示意图,服务器系统100包括一机架管理控制器(RMC)110。服务器系统100包括一服务器机架102,并且服务器机架102具有机架管理控制器110、多个服务器120以及一些其他服务器机架元件。
服务器机架102的机架管理控制器110包括用以管理整个服务器机架102的一微控制器。机架管理控制器110使用多个各式传感器160以监控服务器机架的健康度(health)以及状态并管理多个服务器机架的电源供应单元(PSUs)140、多个服务器机架的风扇150以及通过一网络104与一管理者装置106通信。举例而言,机架管理控制器110回报多个健康度以及状态、多个系统纪录(log)、或多个错误讯息至管理者装置106。机架管理控制器110也接收来自管理者装置106的多个命令(例如:用以改变风扇150的风扇速度的命令、特定服务器机架的电源供应单元140的电源开启/关闭的命令,诸如此类的命令)。
举例而言,传感器160包括用以允许机架管理控制器110监控服务器机架102的健康度以及状态的多个装置(例如:多个温度传感器、多个震动传感器以及电压传感器)。多个服务器机架的电源供应单元140提供电源至多个服务器120及其他多个服务器机架元件。服务器的机架电源供应单元140可与多个服务器120独立地操作。机架管理控制器110藉由监控服务器机架102的电源需求以控制服务器机架的电源供应单元140。多个风扇150用以排出服务器机架102中的暖空气。机架管理控制器110通过监控在服务器机架102的温度传感器以控制风扇150的风扇速度和/或风扇150的开启或关闭。
在某些实施例中,机架管理控制器110使用智能平台管理接口(IPMI)协议与多个服务器机架元件进行通信。智能平台管理接口用在一独立的计算机子系统的一组规范,该组规范用以管理且监控一计算机系统的中央处理单元(CPU)、固件以及操作系统,并且由多个管理员进行系统频外管理(out-of-band management)及监控。机架管理控制器110可使用任何总线接口(例如:系统管理总线、RS-232串行总线、IIC协议、以太、智能平台管理接口协议,诸如此类的总线接口)连接至多个服务器机架元件。IIC协议的特色为使用一7位或一10位地址空间(address space)的一串行数据线(Serial Data Line)及一串行时钟线(Serial Clock Line)的一多主控(multi-master)、多从控(multi-slave)、单端式(single-ended)、串行计算机(serial computer)的总线。系统管理总线(SMBus)协议的特征为衍生自IIC协议的一单端式、双线式(two-wire)总线,且使用IIC硬件及IIC定址(addressing)。
机架管理控制器110使用一网络接口控制器(NIC)190连接至网络104。服务器机架102的网络接口控制器190包括允许一计算装置通过网络104进行通信的多个计算机硬件元件。网络接口控制器190通过网络104连接至管理者装置106。举例而言,网络104包括一本地局域网络(LAN)、无线本地局域网络(WLAN)、或一广域网络(例如:互联网)。网络可为允许多个网络节点随着多个网络连接交换数据的一电信网络(telecommunications network)。举例而言,网络104为一以太网络,即通过由一组标准描述的一种有线本地局域网络协议(称为IEEE 802.3)。管理者装置106可为一个例如计算机系统的装置,用以传送命令或多个输入(input)至机架管理控制器110以及接收来自机架管理控制器110的信息。
图2是描绘出包括背板230的服务器系统200的一实施例的示意图。服务器系统200包括具有一机架管理控制器210之一服务器机架202、多个服务器220、背板230以及一些其他服务器机架元件。在某些实施例中,服务器系统200包括一或多个附加的背板(未图示)。
服务器机架202的机架管理控制器210包括用以管理整个服务器机架202的一微控制器。与图1的服务器系统100不同的是,服务器系统200的机架管理控制器210除了管理其他的服务器机架元件外,亦管理多个服务器系统200。举例而言,机架管理控制器210监控每个服务器系统200中的健康度以及操作服务器系统200的电源开启/关闭、以及服务器系统200与管理者装置206之间的中继通信。机架管理控制器210通过背板230与服务器220以及其他服务器机架元件进行通信。举例而言,背板230通信连接至机架管理控制器210、服务器220、服务器机架的电源供应单元240、风扇250、传感器260以及其他服务器机架元件。为了实现包括一或多个附加的背板,每个附加的背板通信连接至机架管理控制器210以及一特定选择数目的服务器220、服务器机架的电源供应单元240、风扇250、传感器260以及其他服务器机架元件。
机架管理控制器210使用多个各式传感器260以监控服务器机架的健康度及状态并管理多个服务器机架的电源供应单元240、机架的多个风扇250以及通过一网络204与管理者装置206通信。举例而言,机架管理控制器210回报健康度及状态、多个系统纪录或多个错误讯息至管理者装置206。机架管理控制器210也接收来自管理者装置206的多个命令(例如:用以改变风扇250的风扇速度的命令、服务器机架的特定电源供应单元240的电源开启/关闭的命令,诸如此类的命令)。
举例而言,传感器260包括用以允许机架管理控制器210监控服务器机架202的健康度以及状态的多个装置(例如:多个温度传感器、多个震动传感器以及电压传感器)。多个服务器机架的电源供应单元240提供电源至多个服务器220及其他多个服务器机架元件。服务器机架的电源供应单元240可与多个服务器220独立地操作。机架管理控制器210藉由监控服务器机架202的电源需求以控制服务器机架的电源供应单元240。多个风扇250用以排出服务器机架202中的暖空气。机架管理控制器210通过监控在服务器机架202的温度传感器以控制风扇250的风扇速度和/或风扇250的开启或关闭。
每个服务器220包括一个别的(separate)基板管理控制器222。每个基板管理控制器222包括用以管理系统管理软件与平台硬件间的多个接口之一微控制器。在某些实施例中,每个基板管理控制器222用以管理在每个对应的服务器220内的多个硬件元件(例如:多个处理器、存储器、存储装置、服务器机架电源供应单元、风扇、电路板、诸如此类的硬件元件)。
在某些实施例中,机架管理控制器210使用智能平台管理接口协议使得机架管理控制器210和/或背板230可与服务器220以及多个服务器机架元件进行通信。举例而言,机架管理控制器210和/或背板230可使用任何总线接口(例如:系统管理总线、RS-232串行总线、IIC协议、以太、智能平台管理接口协议,诸如此类的总线接口)连接至多个服务器机架元件。
机架管理控制器210使用一网络接口控制器290连接至网络204。服务器机架202的网络接口控制器290包括允许一计算装置通过网络204进行通信的多个计算机硬件元件。网络接口控制器290通过网络204连接至管理者装置206。举例而言,网络204包括一本地局域网络或一广域网络(例如:互联网)。管理者装置206可为一个例如计算机系统的装置,用以传送命令或多个输入(input)至机架管理控制器210以及接收来自机架管理控制器210的信息。
图3是描绘出包括一备份管理控制器332的服务器系统300的备份管理控制的示意图,服务器系统300。服务器系统300包括具有一机架管理控制器310的一服务器机架302、多个服务器320、具有备份管理控制器332的一背板330以及一些其他服务器机架元件。在某些实施例中,服务器系统300包括一或多个附加的背板(未图示)。
与图2的服务器系统200不同的是,图3的服务器系统300包括在服务器系统330中的一备份管理控制器332和/或一或多个附加的背板。在某些实施例中,备份管理控制器332用以具有机架管理控制器310的任何或全部的功能性能力(functional capabilities)。备份管理控制器332维持休眠直到备份管理控制器332被需要时(例如当机架管理控制器310故障或变成有缺陷、断线、损坏、或不可用时)。在某些实施例中,备份管理控制器332监控机架管理控制器310以判断机架管理控制器310是否以及何时为不可用。当机架管理控制器310被判断为不可用时,备份管理控制器332从机架管理控制器310接手多个管理功能。
与机架管理控制器310相似的是,背板330的备份管理控制器332包括管理整个多个服务器302的一微控制器。举例而言,备份管理控制器332监控每个服务器系统300的健康度以及操作,服务器系统300的电源开启/关闭,以及服务器系统300与管理者装置306之间的中继通信。
备份管理控制器332使用多个各式传感器360以监控服务器机架的健康度及状态并管理多个服务器机架的电源供应单元340、机架的多个风扇350以及通过一网络304与管理者装置306通信。举例而言,机架管理控制器310回报健康度及状态、多个系统纪录或多个错误讯息至管理者装置306。机架管理控制器310也接收来自管理者装置306的多个命令(例如:用以改变风扇350的风扇速度的命令、特定电源供应单元340的电源开启/关闭的命令,诸如此类的命令)。
服务器机架302的机架管理控制器310包括用以管理整个服务器机架302之一微控制器。举例而言,机架管理控制器310监控每个服务器系统300中的健康度以及操作、机架管理控制器310的电源开启/关闭、以及服务器系统300与管理者装置306之间的中继通信。机架管理控制器310与服务器320以及其他服务器机架元件通过背板330进行通信。举例而言,背板330通信连接至机架管理控制器310、服务器320、服务器机架的电源供应单元340、风扇350、传感器360以及其他服务器机架元件。为了实现包括一或多个附加的背板,每个附加的背板通信连接至机架管理控制器310以及一特定选择数目的服务器320、服务器机架的电源供应单元340、风扇350、传感器360以及其他服务器机架元件。
机架管理控制器310使用多个各式传感器360以监控服务器机架的健康度及状态并管理多个服务器机架风扇350、多个服务器机架电源供应单元340以及通过一网络304与管理者装置306进行通信。举例而言,310回报健康度及状态、多个系统纪录或多个错误讯息至管理者装置306。机架管理控制器310也接收来自管理者装置306的多个命令(例如:用以改变风扇350的风扇速度的命令、开启/关闭服务器机架特定电源供应单元340的命令,诸如此类的命令)。
举例而言,传感器360包括用以允许机架管理控制器310监控服务器机架302的健康度以及状态的多个装置(例如:多个温度传感器、多个震动传感器以及电压传感器)。多个服务器机架的电源供应单元340提供电源至多个服务器320及其他多个服务器机架元件。服务器的机架电源供应单元340可与多个服务器320独立地操作。机架管理控制器310藉由监控服务器机架302的电源需求以控制服务器机架的电源供应单元340。多个风扇350用以排出服务器机架302中的暖空气。机架管理控制器310通过监控在服务器机架302的温度传感器以控制多个风扇350的风扇速度和/或风扇350的开启或关闭。
每个服务器320包括一个别的基板管理控制器322。每个服务器320包括一个别的(separate)基板管理控制器322。每个基板管理控制器322包括用以管理系统管理软件与平台硬件间的多个接口的一微控制器。在某些实施例中,每个基板管理控制器322用以管理在每个对应的服务器320内的多个硬件元件(例如:多个处理器、存储器、存储装置、服务器机架电源供应单元、风扇、电路板、诸如此类的硬件元件)。
在某些实施例中,机架管理控制器310使用智能平台管理接口协议使得机架管理控制器310与服务器320以及多个服务器机架元件进行通信。举例而言,机架管理控制器310可使用任何总线接口(例如:系统管理总线、RS-232串行总线、IIC协议、以太、智能平台管理接口协议,诸如此类的总线接口)连接至多个服务器机架元件。
机架管理控制器310使用一网络接口控制器390连接至网络304。服务器机架302的网络接口控制器390包括允许一计算装置通过网络304进行通信的多个计算机硬件元件。网络接口控制器390通过网络304连接至管理者装置306。举例而言,网络304包括一本地局域网络或一广域网络(例如:互联网)。管理者装置306可为一个例如计算机系统的装置,用以传送命令或多个输入至机架管理控制器310以及接收来自机架管理控制器310的信息。
图4描绘出一实施例中在一服务器系统中用以备份管理控制的一方法400。在步骤410中,一服务器机架的一机架管理控制器管理一第一功能。在某些实施例中,第一功能为电源供应单元管理、风扇管理、电源消耗管理、传感器及警报器管理、或其他诸如此类的管理或控制功能。
在步骤420中,一背板的一备份管理控制器监控机架管理控制器。在某些实施例中,备份管理控制器监控来自适用于其他的服务器机架组件的机架管理控制器的多个信号。在某些实施例中,备份管理控制器传送一PING指令至机架管理控制器以及等待来自机架管理控制器之一PING回应(response ping)。
在步骤430中,备份管理控制器判断机架管理控制器为不可用。在某些实施例中,当一特定有限时间内未接收到来自机架管理控制器的信号时,备份管理控制器判断机架管理控制器为不可用。在某些实施例中,当在一PING指令特定有限时间(ping thresholdtime)内未接收到PING回应时,备份管理控制器判断机架管理控制器为不可用。相反地,如果机架管理控制器被判断为可用时,方法回至步骤420,即由备份管理控制器监控机架管理控制器。
在步骤440中,当机架管理控制器被判断为不可用时,背板控制器取代机架管理控制器以管理第一功能。在某些实施例中,背板控制器管理电源供应单元、风扇、电源消耗、传感器、警报器、或其他诸如此类的管理或控制功能。
其后方法回至步骤420,其中背板控制器继续监控机架管理控制器。当机架管理控制器从不可用变为可用时,背板控制器停止管理第一功能。机架管理控制器再次管理第一功能。
图5描绘出一实施例中的服务器机架510。服务器机架唯一塔状结构设计以减少大量计算机服务器以及其他网络设备模型所占据的空间。除了计算机服务器之外,许多特定的网络设备(例如:多个存储驱动器,交换机,路由器,硬件防火墙,电源供应器,诸如此类的网络设备)可被安装于服务器机架510上。
服务器机架510就如同抽屉壳一样使用一些滑动隔间(例如:机箱)520。服务器机架510的壳(内部)宽度为19英寸。服务器机架510的壳高度通常以单位U计算(1U为1.75英寸或44.45毫米)。服务器机架510的壳高度为42U(73.5英寸或1.8669米)。虽然壳的宽度和高度标准化,但是各个服务器机柜制造商可生产出不同的外部宽度、高度以及深度的服务器机架。机箱(例如:滑动隔间)520可被安装于服务器机架510上。适合插入服务器机架510的通用机箱可以各自具有1-7U的高度。每个机箱520可以安装一个或多个计算机服务器或其它网络设备模块。
服务器机架510包括位于许多机箱520后面以及服务器机架后侧的一或多个背板530。背板530被作为服务器机架510后侧的一部分。背板530包括许多连接器及多个电缆管理特征。背板530可拆卸地连接至服务器机架的后侧或通过一或多个枢纽(hinge)转动地连接至服务器机架的后侧。
图6为计算机系统600的一实施例的方块图。计算机系统600可包括一处理器640、一网络接口650、一管理控制器680、一存储器620、一存储单元630、一基本输入输出系统610、一北桥660以及一南桥670。
计算机系统600可为一服务器(例如:一数据中心的一服务器机架中之一个)或一个人计算机。处理器(例如:中央处理单元)640为一主机板上的一芯片(chip)以读取和执行存储于存储器620上的程序指令。处理器640可为具有单处理内核的单一CPU、具有多处理内核的单一CPU,或多个CPU。一或多个总线(未图示)在多个计算机元件(例如:处理器640、存储器620、存储单元630和网络接口650)间传送指令和应用程序数据。
存储器620包括用以暂时性地或永久性地存储数据或程序的任意实体装置(例如:各种形式的随机存取存储器(RAM))。存储单元630包括用在非易失性数据存储的任意实体装置(例如:一硬盘(HDD)或一随身碟)。存储单元630具有比存储器620更大的容量且更经济的每单位存储,但存储单元630具有比存储器620更低的传送速率。
基本输入输出系统610包括一基本输入输出系统(BIOS)或其后继者(successors)或等效元件(equivalents),例如一可扩展固件接口(EFI)或一统一可扩展固件接口(UEFI)。基本输入输出系统610包括位于一计算机系统600的主机板(mother board)上的一基本输入输出系统芯片,用以存储一基本输入输出系统软件程序。基本输入输出系统610存储一固件,此固件搭配着为基本输入输出系统610所指定的一组配置于计算机系统第一次开机时被执行。基本输入输出系统固件和基本输入输出系统配置可被存储于一非易失性存储器(例如:非易失性随机存取存储器)或一只读存储器(例如:快闪存储器)中。快闪存储器是可被电性抹除(erased)且重新编程(reprogram)的一非易失性计算机存储介质(non-volatile computer storage medium)。
每次计算机系统600被启动时,基本输入输出系统610可当作一串程序被读取与执行。基本输入输出系统610可根据一组配置去辨识、初始化与测试存在于计算机系统中的硬件。基本输入输出系统610可进行在计算机系统600上的自我检测(self-test),例如开机自我检测(Power-on-Self-Test,POST)。自我检测可测试多种硬件元件(例如:硬盘、光学读取装置、冷却装置、存储器模块、扩充卡等等)的功能。基本输入输出系统可定址和分配存储器620中的一个区域用以存储一操作系统。然后,基本输入输出系统610就可以把计算机系统的控制权交给操作系统。
计算机系统600中的基本输入输出系统610可包括一基本输入输出系统配置,上述基本输入输出系统配置定义基本输入输出系统610如何控制在计算机系统600中的多种硬件单元。基本输入输出系统配置可判断计算机系统600中多种硬件单元启动的顺序。基本输入输出系统610可提供一个允许设定许多不同参数的接口,并且这些参数不同于基本输入输出系统的预设配置。举例来说,一使用者(例如:系统管理者)可使用基本输入输出系统610指定(specify)时刻和总线速度,指定那些外围设备连接至计算机系统,指定监控健康(monitoring of health)(例如:风扇速度和CPU温度限制)和指定多种其他可影响计算机系统整体效能和使用功率的参数。
管理控制器680可为设置于计算机系统(更广泛来说为一服务器)的主机板的一特殊化微控制器(specialized microcontroller)。管理控制器680可管理在系统管理软件与平台硬件间的接口。设置于计算机系统中的不同种类的传感器可回报参数(例如:温度、冷却风扇速度、功率状态、操作系统的状态等等)给管理控制器680。管理控制器680可以监控传感器,若任何参数没有在规定的范围内,基板管理控制器360拥有可藉由网络接口650传送警告讯息给系统管理员的能力,并指出系统的潜在错误(failure)。系统管理员也可远端地与管理控制器680通信,进行校正的动作(例如:系统的重新设定(resetting)或冷开机(power cycling))用以回复系统的功能。
北桥660可为设置于主机板上可直接连接至处理器640或可整合至处理器640的一芯片。举例而言,北桥660与南桥670可组合成一单一的芯片(single die)。北桥660与南桥670管理处理器640与主机板上其他部分之间的通信。北桥660管理比南桥660的更高效能的工作。北桥660也管理多个处理器640、存储器620以及图像控制器(未图示)间的通信。举例而言,北桥660包括一图像控制器。
南桥670可为设置于主机板上连接至北桥660的一芯片,但与北桥660不同的地方在于南桥670无直接连接至处理器640。南桥管理多个输入/输出功能(例如:计算机系统600的通用串行总线、音频、串行、基本输入输出系统、串行ATA(SATA)、互连总线(PeripheralComponent Interconnect bus)、互连扩展总线(PCI eXtended(PCI-X)bus)、快速外围组件互连总线(PCI Express bus)、工业标准结构总线(ISA bus)、串行外围接口总线(SPIbus)、e-串行外围接口总线(eSPI bus)、系统管理总线(SMBus))。南桥670可连接至管理控制器、直接存储器存取(DMAs)控制器、可编程中断控制器(PICs)、及即时时钟;或管理控制器、直接存储器存取(DMAs)控制器、可编程中断控制器(PICs)、及即时时钟可包括于南桥670内。在某些实施例中,在北桥660集成至处理器640时,南桥670直接连接至处理器640。
各种说明性的逻辑区块、模块、及电路以及在此所公开的各种情况可实施在或执行于一般用途处理器、数字信号处理器(digital signal processor,DSP)、特定应用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(fieldprogrammable gate array,FPGA)或其他可编程逻辑装置、离散门(discrete gate)或晶体管逻辑(transistor logic)、离散硬件元件、或任何以上的组合的设计以完成在此文内描述的功能。一般用途处理器可能是微处理器,但也可能是任何常规处理器、控制器、微控制器、或状态机。处理器可由计算机设备的组合所构成,例如:数字信号处理器(DSP)及一微计算机的组合、多组微计算机、一组至多组微计算机以及一数字信号处理器内核、或任何其他类似的配置。
本发明的说明书所公开的方法和算法的步骤,可以直接通过执行一处理器直接应用在硬件以及软件模块或两者的结合上。软件模块存储在随机存取存储器(Random AccessMemory,RAM)、快闪存储器(flash memory)、只读存储器(Read-Only Memory,ROM)、可抹除可编程只读存储器(EPROM)、电子抹除式可复写只读存储器(Electrically-ErasableProgrammable Read-Only Memory,EEPROM)、暂存器、硬盘、便携式硬盘、光盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)或在本领域熟知的中任何其它计算机可读的存储介质格式中。存储介质可耦接至一处理器,例如可存储介质读取信息且写入信息至存储介质的处理器。在某些实施例中,存储介质可与处理器整合在一起。处理器与存储介质可设置于一特殊应用集成电路(ASIC)之中。特殊应用集成电路(ASIC)可设置于一使用者端(user terminal)中。在某些实施例中,存储介质可与处理器整合在一起。处理器与存储介质可设置成一使用者端(user terminal)中的分离的元件。
在某些设计中,前述的功能可以硬件、软件、固件或其组合的方式加以实现。若以软件的方式实现,前述的功能可存储于一非易失性计算机可读介质上的一个或多个指令或编码,或存储于一非易失性计算机可读介质上的一个或多个指令或编码。非易失性计算机可读介质包含任何有助于将一计算机程序由一地方传送至至另一地方的介质。存储介质可为被通用型或专用型计算机所存取的任何可能的介质。举例而言,此计算机可读介质包括动态存取存储器(RAM)、只读存储器(ROM)、电子抹除式可编程只读存储器(EEPROM)、只读光盘CDROM或其它光学存储盘、磁盘存储装置或其它其他磁性存储装置,或任何可承载或存储指令型式或数据结构型式的所需程序代码并且可由通用或专用计算机或通用或专用处理器所存取的其它介质。举例而言,前述的盘片可为光盘(CD)、激光盘、光学盘、数字影音光盘(DVD)、软盘(floppy disk)或蓝光光盘,这些盘片藉由激光来重制(reproduce)数据,而磁盘则利用磁性来重制(reproduce)数据。前面公开的组合亦属于非易失性计算机可读介质的范围。
然而以上所述仅为本公开的优选实施例而已,当不能以此限定本公开实施的范围,即大凡依本公开权利要求书及发明说明内容所作的简单的等效变化与修饰,皆仍属本公开专利涵盖的范围内。另外,本公开的任一实施例或权利要求书不须达成本公开所公开的全部目的或优点或特点。此外,摘要部分和标题仅是用来辅助专利文件搜寻之用,并非用来限制本公开的权利范围。

Claims (18)

1.一种在服务器机架系统中的备份管理控制的方法,上述方法包括:
通过服务器机架的机架管理控制器,管理第一功能;
通过在上述服务器机架中背板的背板控制器,监控上述机架管理控制器,其中所述机架管理控制器通过所述背板控制器与所述服务器机架的多个基板管理控制器进行通信,并且所述背板控制器根据监控背板控制器与机架管理控制器之间的通信判断所述机架管理控制器是否可用;
通过上述背板控制器,判断上述机架管理控制器为不可用;以及
当上述机架管理控制器被判断为不可用时,通过上述背板控制器管理上述第一功能。
2.如权利要求1所述的在服务器机架系统中的备份管理控制的方法,还包括:
通过上述背板控制器,判断上述机架管理控制器为可用;以及
当上述机架管理控制器被判断为可用时,通过上述背板控制器停止对上述第一功能的管理。
3.如权利要求1所述的在服务器机架系统中的备份管理控制的方法,其中监控上述机架管理控制器的步骤包括:
监控来自于上述机架管理控制器的多个信号;以及
当特定有限时间内未接收到来自上述机架管理控制器的信号时,上述机架管理控制器被判断为不可用。
4.如权利要求1所述的在服务器机架系统中的备份管理控制的方法,其中监控上述机架管理控制器的步骤包括:
传送PING指令至上述机架管理控制器;以及
当在PING指令特定有限时间内未接收到PING回应时,上述机架管理控制器被判断为不可用。
5.如权利要求1所述的在服务器机架系统中的备份管理控制的方法,其中监控上述机架管理控制器的步骤包括:
传送PING指令至上述机架管理控制器;以及
当接收到错误的PING回应时,上述机架管理控制器被判断为不可用。
6.如权利要求1所述的在服务器机架系统中的备份管理控制的方法,其中上述第一功能包括电源供应单元管理。
7.如权利要求1所述的在服务器机架系统中的备份管理控制的方法,其中上述第一功能包括风扇管理。
8.如权利要求1所述的在服务器机架系统中的备份管理控制的方法,其中上述第一功能包括电源消耗管理。
9.如权利要求1所述的在服务器机架系统中的备份管理控制的方法,其中上述第一功能包括传感器及警报器管理。
10.一种服务器机架,包括:
机架管理控制器,用以管理第一功能;以及
背板,包括背板控制器,所述机架管理控制器通过所述背板控制器与所述服务器机架的多个基板管理控制器进行通信,并且所述背板控制器根据监控背板控制器与机架管理控制器之间的通信判断所述机架管理控制器是否可用,其中上述背板控制器用以进行下列步骤:
监控上述机架管理控制器;
判断上述机架管理控制器为不可用;以及
当上述机架管理控制器被判断为不可用时,管理上述第一功能。
11.如权利要求10所述的服务器机架,其中上述背板控制器还用以:
判断上述机架管理控制器为可用;以及
当上述机架管理控制器被判断为可用时,停止上述第一功能的管理。
12.如权利要求10所述的服务器机架,其中监控上述机架管理控制器的步骤包括:
监控来自上述机架管理控制器的多个信号;以及
当在特定有限时间内未接收到来自上述机架管理控制器的信号,上述机架管理控制器被判断为不可用。
13.如权利要求10所述的服务器机架,其中监控上述机架管理控制器的步骤包括:
传送PING指令至上述机架管理控制器;以及
当在PING指令特定有限时间内未接收到PING回应,上述机架管理控制器被判断为不可用。
14.如权利要求10所述的服务器机架,其中监控上述机架管理控制器的步骤包括:
传送PING指令至上述机架管理控制器;以及
接收到错误的PING回应,上述机架管理控制器被判断为不可用。
15.如权利要求10所述的服务器机架,其中上述第一功能包括电源供应单元管理。
16.如权利要求10所述的服务器机架,其中上述第一功能包括风扇管理。
17.如权利要求10所述的服务器机架,其中上述第一功能包括电源消耗管理。
18.如权利要求10所述的服务器机架,其中上述第一功能包括传感器及警报器管理。
CN201510565566.3A 2014-09-08 2015-09-08 在服务器机架系统中的备份管理控制的方法及服务器机架 Active CN105404366B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201462047499P 2014-09-08 2014-09-08
US62/047,499 2014-09-08
US14/825,875 US9804937B2 (en) 2014-09-08 2015-08-13 Backup backplane management control in a server rack system
US14/825,875 2015-08-13

Publications (2)

Publication Number Publication Date
CN105404366A CN105404366A (zh) 2016-03-16
CN105404366B true CN105404366B (zh) 2019-05-10

Family

ID=55437624

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510565566.3A Active CN105404366B (zh) 2014-09-08 2015-09-08 在服务器机架系统中的备份管理控制的方法及服务器机架

Country Status (3)

Country Link
US (1) US9804937B2 (zh)
CN (1) CN105404366B (zh)
TW (1) TWI578138B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9804937B2 (en) * 2014-09-08 2017-10-31 Quanta Computer Inc. Backup backplane management control in a server rack system
US11349701B2 (en) * 2015-03-09 2022-05-31 Vapor IO Inc. Data center management with rack-controllers
US10117360B2 (en) 2015-03-09 2018-10-30 Vapor IO Inc. Out-of-band data center management via power bus
US10257268B2 (en) 2015-03-09 2019-04-09 Vapor IO Inc. Distributed peer-to-peer data center management
US10158526B2 (en) * 2015-03-27 2018-12-18 Nec Corporation System that manages server function
TWI566105B (zh) * 2016-05-17 2017-01-11 神雲科技股份有限公司 機箱裝置
US10402207B2 (en) 2016-06-16 2019-09-03 Quanta Computer Inc. Virtual chassis management controller
CN106326050A (zh) * 2016-08-18 2017-01-11 浪潮电子信息产业股份有限公司 一种整机柜服务器自动化监控管理方法
TWI630325B (zh) * 2016-10-20 2018-07-21 神雲科技股份有限公司 機櫃風扇控制方法及模組
CN108150442B (zh) * 2016-12-06 2020-01-31 佛山市顺德区顺达电脑厂有限公司 机柜风扇控制方法及模块
TWI626535B (zh) * 2017-02-15 2018-06-11 新唐科技股份有限公司 電源管理系統和控制器
CN107247654A (zh) * 2017-06-02 2017-10-13 郑州云海信息技术有限公司 一种机柜服务器的模块化管理方法及装置
US10664429B2 (en) * 2017-12-22 2020-05-26 Dell Products, L.P. Systems and methods for managing serial attached small computer system interface (SAS) traffic with storage monitoring
US10613950B2 (en) * 2018-01-05 2020-04-07 Quanta Computer Inc. CMC failover for two-stick canisters in rack design
CN109101400A (zh) * 2018-08-16 2018-12-28 郑州云海信息技术有限公司 一种云计算数据中心整机柜服务器的监控系统
US11138348B2 (en) * 2018-10-09 2021-10-05 Intel Corporation Heterogeneous compute architecture hardware/software co-design for autonomous driving
EP3908903A4 (en) * 2019-01-08 2022-08-17 Hewlett-Packard Development Company, L.P. PERFORMANCE STABILIZATION OF TREATMENT DEVICES
TWI709037B (zh) * 2019-05-23 2020-11-01 神雲科技股份有限公司 基本輸入輸出系統設置方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102480432A (zh) * 2010-11-30 2012-05-30 英业达股份有限公司 机架式服务器系统
CN102478905A (zh) * 2010-11-30 2012-05-30 英业达股份有限公司 数据中心
CN103197748A (zh) * 2012-01-10 2013-07-10 广达电脑股份有限公司 伺服器机柜系统与其电源管理方法
CN103428033A (zh) * 2013-08-20 2013-12-04 浪潮电子信息产业股份有限公司 一种刀片服务器管理网络主动式检测方法

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5764927A (en) * 1995-09-29 1998-06-09 Allen Bradley Company, Inc. Backplane data transfer technique for industrial automation controllers
IES20010400A2 (en) * 2000-07-06 2002-02-06 Richmount Computers Ltd Data gathering device for a rack enclosure
US6795885B1 (en) * 2001-06-21 2004-09-21 Hewlett-Packard Development Company, L.P. Electronic device backplane interconnect method and apparatus
US7069349B2 (en) * 2002-01-10 2006-06-27 Intel Corporation IPMI dual-domain controller
US7058703B2 (en) * 2002-03-08 2006-06-06 Intel Corporation System management controller (SMC) negotiation protocol for determining the operational mode of SMCs
US6948008B2 (en) * 2002-03-12 2005-09-20 Intel Corporation System with redundant central management controllers
US20050080887A1 (en) * 2003-10-08 2005-04-14 Chun-Liang Lee Redundant management control arbitration system
US7502369B2 (en) * 2004-06-02 2009-03-10 Intel Corporation High speed interface systems and methods
JP4462024B2 (ja) * 2004-12-09 2010-05-12 株式会社日立製作所 ディスク引き継ぎによるフェイルオーバ方法
US7827436B2 (en) * 2006-12-21 2010-11-02 Inventec Corporation Method of updating a dual redundant chassis management system
US8037364B2 (en) * 2009-01-09 2011-10-11 International Business Machines Corporation Forced management module failover by BMC impeachment consensus
TW201222265A (en) * 2010-11-30 2012-06-01 Inventec Corp Data center
JP5561622B2 (ja) * 2011-09-27 2014-07-30 日本電気株式会社 多重化システム、データ通信カード、状態異常検出方法、及びプログラム
CN103138942B (zh) * 2011-11-28 2015-09-02 英业达科技有限公司 服务器机架系统
CN103139248B (zh) * 2011-11-28 2016-04-20 英业达科技有限公司 机架系统
CN103138999A (zh) * 2011-11-28 2013-06-05 英业达科技有限公司 多个机架系统的监控方法
CN103138940B (zh) * 2011-11-28 2016-06-01 英业达科技有限公司 服务器机架系统
TWI448127B (zh) * 2011-12-23 2014-08-01 Inventec Corp 取得遠端網路位址的方法及其網路協定系統
US8711681B2 (en) * 2012-02-08 2014-04-29 Radisys Corporation Switch redundancy in systems with dual-star backplanes
DE112012006150T5 (de) * 2012-03-28 2015-01-08 Intel Corporation Konfigurierbare und fehlertolerante Baseboard Management Controller-Anordnung
US20130322012A1 (en) * 2012-05-29 2013-12-05 Birchbridge Incorporated Scalable Brain Boards For Data Networking, Processing And Storage
CN103685074B (zh) * 2012-09-11 2016-09-28 英业达科技有限公司 机架式服务器系统及自动管理机架配置信息的方法
CN103793238A (zh) * 2012-10-31 2014-05-14 英业达科技有限公司 机柜与其同时更新多个基本输入输出系统的方法
US9582010B2 (en) * 2013-03-14 2017-02-28 Rackspace Us, Inc. System and method of rack management
US9148465B2 (en) * 2013-04-01 2015-09-29 Oracle International Corporation Update management for a distributed computing system
CN104283709A (zh) * 2013-07-10 2015-01-14 英业达科技有限公司 服务器系统和其数据传送方法
CN104375930A (zh) * 2013-08-13 2015-02-25 鸿富锦精密工业(深圳)有限公司 固件检测系统及方法
TWI536767B (zh) * 2013-09-03 2016-06-01 緯創資通股份有限公司 伺服系統及其備援管理方法
US9262286B2 (en) * 2013-11-19 2016-02-16 International Business Machines Corporation Failover in a data center that includes a multi-density server
TWI519100B (zh) * 2014-01-16 2016-01-21 廣達電腦股份有限公司 機櫃伺服器系統及其自動定址方法
US20150363340A1 (en) * 2014-06-11 2015-12-17 Microsoft Corporation Providing multiple synchronous serial console sessions using data buffering
US9804937B2 (en) * 2014-09-08 2017-10-31 Quanta Computer Inc. Backup backplane management control in a server rack system
US10015023B2 (en) * 2014-09-08 2018-07-03 Quanta Computer Inc. High-bandwidth chassis and rack management by VLAN
US9842003B2 (en) * 2014-10-07 2017-12-12 Dell Products, L.P. Master baseboard management controller election and replacement sub-system enabling decentralized resource management control
US9110805B1 (en) * 2014-10-27 2015-08-18 Quanta Computer Inc. Preventing device power on after unrecoverable error
CN105700655A (zh) * 2014-11-24 2016-06-22 英业达科技有限公司 机柜服务器系统及其电源管理方法
US9898435B2 (en) * 2014-12-10 2018-02-20 Intel Corporation Aggregate baseboard management controller (BMC) controller
US10324137B2 (en) * 2015-02-24 2019-06-18 Quanta Computer Inc. Intelligent method for calibrating battery capacity
US9250684B1 (en) * 2015-02-25 2016-02-02 Quanta Computer Inc. Dynamic power capping of a subset of servers when a power consumption threshold is reached and allotting an amount of discretionary power to the servers that have power capping enabled
US9385920B1 (en) * 2015-04-16 2016-07-05 Aic Inc. Rack having multiple rack management modules and firmware updating method for the same
US10587935B2 (en) * 2015-06-05 2020-03-10 Quanta Computer Inc. System and method for automatically determining server rack weight
US9690569B1 (en) * 2016-04-05 2017-06-27 Mitac Computing Technology Corporation Method of updating firmware of a server rack system, and a server rack system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102480432A (zh) * 2010-11-30 2012-05-30 英业达股份有限公司 机架式服务器系统
CN102478905A (zh) * 2010-11-30 2012-05-30 英业达股份有限公司 数据中心
CN103197748A (zh) * 2012-01-10 2013-07-10 广达电脑股份有限公司 伺服器机柜系统与其电源管理方法
CN103428033A (zh) * 2013-08-20 2013-12-04 浪潮电子信息产业股份有限公司 一种刀片服务器管理网络主动式检测方法

Also Published As

Publication number Publication date
CN105404366A (zh) 2016-03-16
US9804937B2 (en) 2017-10-31
US20160070627A1 (en) 2016-03-10
TWI578138B (zh) 2017-04-11
TW201610647A (zh) 2016-03-16

Similar Documents

Publication Publication Date Title
CN105404366B (zh) 在服务器机架系统中的备份管理控制的方法及服务器机架
JP6515132B2 (ja) シャーシ管理システム及びシャーシ管理方法
US9750153B2 (en) LAN port consolidation in rack architecture
US10409756B2 (en) Multi-node server platform with modularly replaceable cards
CN106814826B (zh) 控制服务器机柜中气流的系统及方法
US10127170B2 (en) High density serial over LAN management system
US10587935B2 (en) System and method for automatically determining server rack weight
US20170139797A1 (en) System for monitoring a to-be-monitored unit of a rack
US10372360B2 (en) Apparatus, system, and method for reconfigurable media-agnostic storage
US20160188216A1 (en) Hard Disk and Management Method
TWI735279B (zh) 自動偵測及警示計算裝置組件變更的方法和系統
US20110258302A1 (en) System And Method For Remotely Determining Identification And Physical Location Of Equipment In A Rack
CN106598898A (zh) 共享总线端口的系统及共享总线端口的方法
CN107104910B (zh) 用以卸载服务器管理流量的系统
US10489328B2 (en) Universal sleds server architecture
US10146720B2 (en) Flexible configuration server system
US10149401B2 (en) Interchangeable modules for cable management
TW201027326A (en) Main board system and setting method thereof

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant