CN107977299B - 利用可配置和容错的基板管理控制器安排的方法及系统 - Google Patents

利用可配置和容错的基板管理控制器安排的方法及系统 Download PDF

Info

Publication number
CN107977299B
CN107977299B CN201711408176.0A CN201711408176A CN107977299B CN 107977299 B CN107977299 B CN 107977299B CN 201711408176 A CN201711408176 A CN 201711408176A CN 107977299 B CN107977299 B CN 107977299B
Authority
CN
China
Prior art keywords
bmc
role
master
bmcs
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711408176.0A
Other languages
English (en)
Other versions
CN107977299A (zh
Inventor
D·理查德森
B·肯尼迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Priority to CN201711408176.0A priority Critical patent/CN107977299B/zh
Publication of CN107977299A publication Critical patent/CN107977299A/zh
Application granted granted Critical
Publication of CN107977299B publication Critical patent/CN107977299B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2002Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
    • G06F11/2007Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication media
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations

Abstract

本申请公开了可配置和容错的基板管理控制器安排。系统和方法利用多节点系统中的可配置容错基板管理控制器(BMC)安排。在一个示例中,该方法可包括将该多个BMC的第一BMC指定为主BMC的角色、确定该第一BMC可不再充当该主BMC的角色、以及指定除该第一BMC之外的BMC充当该主BMC的角色。

Description

利用可配置和容错的基板管理控制器安排的方法及系统
本申请是PCT国际申请号为PCT/US2012/030958、国际申请日为2012 年3月28日、进入中国国家阶段的申请号为201280071730.X,题为“可配置和容错的基板管理控制器安排”的发明专利申请的分案申请。
技术领域
实施例总体上涉及减轻多节点服务器系统中的故障的影响。更具体而言,实施例涉及利用多节点服务器中的基板管理控制器(BMC)安排。
背景技术
服务器系统可利用包含多个节点的单个机架。这些服务器系统可利用与节点分离的机架管理控制器以便集中地管理系统资源。然而,如果机架管理控制器出故障,整个系统的操作会出故障。因此,实现可配置和容错的服务器系统实施例可以是有益的。
附图说明
通过阅读以下说明书和所附权利要求书并且通过参考以下附图,本发明实施例的各种优点将对本领域普通技术人员变得明显,在附图中:
图1是根据本发明的实施例的实现可配置和容错的基板管理控制器安排的计算系统的示例的框图;以及
图2是根据本发明的实施例的利用可配置和容错的基板管理控制器安排的方法的示例的流程图。
具体实施方式
现在转向图1,示出利用可配置和容错的基板管理控制器安排的计算系统10的框图。计算系统10可包括(除其他事项之外)机架100、第一节点服务器200、第二节点服务器300、第三节点服务器400、输入/输出(I/O) 扩展器600。计算系统10可耦合到网络1100。
机架100可包括第一节点101、第二节点102、和第三节点103。节点 101、102、103可以是包括一个或多个组件的任何可替换单元。这些组件的示例包括(除其他事项之外)硬盘驱动器、基板、侧板、或对接板。
机架100还可包括第一风扇105、第二风扇106、和第三风扇107。风扇105、106、107可用于使机架100内的组件冷却。机架还可包括电源104。电源104可用于为机架100内的各组件供电。如在此所使用的,风扇105、 106、107和电源104可以是系统资源的示例。其他系统资源可包括硬盘驱动器、传感器、硬盘驱动器和存储背板。
第一节点服务器200可以是被配置成用于监控、管理、支持、和控制第一节点101的操作的多个方面的计算机服务器系统。类似地,第二节点服务器300和第三节点服务器400可被配置成用于分别监控、管理、支持、和控制第二节点102和第三节点103的操作的多个方面。
第一节点服务器200可包括第一节点存储器组件201、第一节点固件组件202、和第一节点处理组件203。类似地,第二节点服务器300可包括第二节点存储器组件301、第二节点固件组件302、和第二节点处理组件 303。同样,第三节点服务器400可包括第三节点存储器组件401、第三节点固件组件402、和第三节点处理组件403。
第一节点存储器组件201可包括第一节点服务器应用204,其可被配置成用于(除其他事项之外)监控、管理、支持、和控制第一节点101的操作的多个方面。类似地,第二节点存储器组件301可包括第二节点服务器应用304,可相对于第二节点102类似地利用该第二节点服务器应用。同样,第三节点存储器组件401可包括第三节点服务器应用404,可相对于第三节点103类似地利用该第三节点服务器应用。
第一节点服务器200可包括第一节点BMC 205,其可被配置成用于监控、管理、支持、和控制多节点系统的操作的多个方面。在本实施例中,除其他事项之外,其可被配置成用于监控、管理、支持、和控制其相关联的节点(第一节点101)的操作的多个方面。
例如,第一节点BMC 205可被配置成用于(除其他事项之外)传递与第一节点101的操作相关的信息(例如,功率水平、温度读数、和电压电平信息)。附加地,第一节点BMC 205还可被配置成用于促进第一节点101 与被配置成用于监控、管理、支持、和控制第一节点101的操作的任何实体(例如,第一节点服务器应用204)之间的接口连接。第二节点BMC 305可被配置成用于相对于第二节点102类似地操作。同样,第三节点BMC 405 可被配置成用于相对于第三节点103类似地操作。
第一节点BMC 205可包括第一节点BMC固件组件206。类似地,第二节点BMC 305可包括第二节点BMC固件组件306。同样,第三节点BMC 可包括第三节点BMC存储器组件406,其中,第三节点BMC存储器组件 406可包括第三节点BMC软件应用407。第一节点BMC固件组件206、第二节点BMC固件组件306、和第三节点BMC软件应用407可被配置成用于(除其他事项之外)通过经由电源管理总线500向电源104传输指令将电源指引到机架100。
I/O扩展器600可以是(除其他事项之外)可允许BMC(例如,第一节点BMC 205)检测计算系统10内是否存在节点(例如,第一节点101)。 I/O扩展器600可通过节点间BMC总线700耦合到第一节点BMC 205、第二节点BMC 305、和第三节点BMC 405。
网络1100可通过第一网络接口800、第二网络接口900、和第三网络接口1000分别耦合到第一节点BMC 205、第二节点BMC 305、和第三节点BMC 405。这些网络接口可用于(除其他事项之外)远程地配置计算系统10的各组件。
在本发明的实施例中,任何耦合BMC可承担多节点系统的“主”BMC 的角色。一旦BMC已经被指定为主,所指定的主BMC可充当系统内的所有耦合节点(包括其相关联的节点)的主BMC。换言之,主BMC可相对于多节点系统的操作充当中央接口。当指定了主BMC时,多节点系统内的任何其他BMC可承担“从”的角色。
可由主BMC实现的节点的操作的多个方面的示例可包括但不限于监控系统组件的多个方面(例如,温度、功率)、管理(例如,向系统组件传输相关有关数据)系统组件、支持(例如,获得和安装固件和软件更新)、和控制(例如,指引系统资源的配置)系统组件。通过单个主BMC实现这些方面可(除其他事项之外)降低系统拥塞(例如,通信总线上的业务量)以及避免冗余(例如,在安装软件更新时)。
在本发明的实施例中,算法可被配置成用于指定主BMC。该算法可尤其确定将初始地指定哪个BMC作为主、或者一旦当前主BMC可能不再可用就将哪个BMC指定作为新主。当前的主BMC可能出于各种原因不再可用,各种原因包括系统组件的故障、移除(例如,物理移除)、或指示。实际上,如将更详细地描述的,系统组件诸如固件组件(例如,第一节点 BMC固件组件206)或软件应用(例如,第三节点BMC软件应用407)可初始地执行主BMC、从当前主BMC移除主状态、以及指定新的主BMC 等等。
在某些实施例中,算法可基于节点标识号指定主BMC。例如,一个这种算法可基于最低标识号指定主BMC。这样,在图1中描述的实施例中,这种算法可首先将第一节点BMC206指定为主BMC,然后是第二节点 BMC 207,以此类推。
在本发明的实施例中,主BMC可由各种装置指定和配置。例如,主 BMC可由BMC固件组件(例如,第一节点固件组件202)或通过执行软件应用(例如,第一节点服务器应用204)来指定和配置。
在其他实施例中,可通过由任何耦合节点附属的主机接口使用应用配置BMC。这种应用的示例可以是设置实用程序,如基本输入输出系统(BIOS)。
还可通过远程连接配置BMC。例如,网络(诸如网络1100)可使用网络接口(例如,第一网络接口800)来远程地(例如,通过以太网、局域网 (LAN)等等)指定和配置主BMC。
主BMC可传输有关主BMC对主状态的所有权的信息(例如,配置信息、设置信息),以便促进将主BMC的角色传输给另一个BMC,如果需要的话。这样,例如,如果第一节点BMC 205被指定为主,其可周期性地将信息传输给从BMC(例如,第二节点BMC 305、第三节点BMC405),以便促进(未来)将主的角色传输给从。
图1中描绘的框的安排和编号可不旨在暗示操作顺序从而排除其他可能性。本领域普通技术人员将认识到能够对系统和方法进行各种修改和改动。
例如,在图1中描述的实施例中,一个BMC(例如,BMC 206)可主要地附属有一个节点(例如,节点101)。这无需是这种情况。本发明的其他实施例可允许单个BMC监控、管理、支持、以及控制多于一个节点。
现在转向图2,示出了根据本发明的一个实施例的使用可配置和容错的基板管理控制器安排的示例性方法的流程图。该方法可被实现为存储在使用电路技术(诸如专用集成电路(ASIC)、互补金属氧化物半导体(CMOS) 或晶体管-晶体管逻辑(TTL)技术或其任意组合)的固定功能硬件中的可配置逻辑(诸如可编程逻辑阵列(PLA)、现场可编程门阵列(FPGA)、复杂可编程逻辑设备(CPLD)、)中的机器或计算机可读存储介质(诸如随机存取存储器(RAM)、只读存储器(ROM)、可编程ROM(PROM)、固件、闪存等等)中的逻辑指令集。例如,可用一种或多种编程语言的任意组合编写用于执行该方法中所示的操作的计算机程序代码,包括面向对象的编程语言,诸如C++等等,以及常规程序编程语言,诸如“C”编程语言或类似的编程语言。
在本实施例中,在第二节点BMC(诸如第二节点BMC 305(图1)) 和第三节点BMC(诸如第三节点BMC 405(图1))之后,第一节点BMC (诸如第一节点BMC 205(图1))可上线。第一节点BMC可具有标识号 1,第二节点可具有标识号2,以此类推。
该方法可在处理框2000开始。在处理框2010,第二节点BMC和第三节点BMC可上线。在处理框2020,第二节点BMC和第三节点BMC可通过I/O扩展器(诸如I/O扩展器600(图1))检测彼此的存在。在处理框 2030,由第二节点BMC的BMC固件组件(诸如第二节点BMC固件组件306(图1))实现的算法可基于最低节点标识号确定第二节点BMC应当承担主BMC状态的角色。具有更高节点标识号的第三节点BMC可作为从 BMC运行。
在处理框2040,第一节点BMC可上线。在处理框2050,第一节点BMC 的BMC固件组件(诸如第一节点BMC固件组件206(图1))可基于最低标识号(即,1)确定其应当声明主BMC状态。在处理框2060,第一节点BMC可传输消息以便通知其可承担主BMC的角色。
在处理框2070,仍以主角色运行的第二节点BMC可向第一节点BMC 传输指示其将放弃主BMC的角色的响应。该消息还可包括与第二节点BMC 作为主BMC的角色有关的信息(例如,系统资源配置、系统状态信息等等)。在处理框2080,第一节点BMC可开始超时周期从而允许任何系统组件反对其承担主BMC的角色。
在处理框2090,在超时周期在没有任何反对的情况下过去之后,第一节点BMC可从第二节点BMC承担主BMC的角色。在处理框2100,第一节点BMC可在超时周期内传输通信(例如,系统状态信息)以便指示可完成其承担主BMC的角色。在处理框2110,第一节点BMC可周期性地传输有关第一节点BMC对主状态的所有权的信息(例如,配置信息、设置信息),以便促进转移主BMC的角色等等,如果需要的话。
在处理框2120,第一节点BMC可能出故障(例如,由于固件故障)。在处理框2130,在第一节点BMC在超时周期内不能发送出消息之后,其他耦合节点中的至少一个可确定当前主BMC(即,第一节点BMC)可能不再工作,并且确定哪个节点应当是新的主BMC。在这种情况下,第二节点BMC的BMC固件组件可确定第二节点BMC应当承担主角色(即,基于最低标识号)。
在处理框2140,第二节点BMC可声明主BMC状态。在处理框2150,第二节点BMC可访问主要由第一节点BMC传输的有关第一节点BMC对主状态的所有权的信息,以便促进其承担主BMC的角色。在处理框2160,第二节点BMC可承担主BMC的角色。在处理框2170,该过程可结束。
图2中描绘的处理框的顺序和编号不旨在暗示操作顺序从而排除其他可能性。本领域普通技术人员将认识到能够对系统和方法进行各种修改和改动。
例如,在上述实施例中,算法可实现BMC固件组件基于最低节点标识号声明主BMC状态(即,处理框2020)。然而,不一定是这种情况。在其他实施例中,具有更低标识号的BMC可仅在当前主BMC出故障之后被指定为主BMC。
同样,在上述实施例中,第二节点BMC可向第一节点BMC传输指示其放弃主BMC的角色的响应(即,处理框2070)。然而,不一定是这种情况。在其他实施例中,在发送这种消息之前,第二节点BMC可首先指示其“忙碌”(例如,在电源更新中间)。如果第二节点BMC指示其可能忙碌,请求第一节点BMC可周期性地重新发送其承担主BMC的角色的请求,直至其成功。
实施例因此可提供在多节点系统中使用可配置和容错的基板管理控制器(BMC)安排的方法,包括检测多个BMC、将该多个BMC中的第一BMC 指定为主BMC的角色、以及将除该第一BMC之外的BMC指定为从BMC 的角色。该方法还可包括由该第一BMC传输有关该第一BMC作为主BMC 的角色的信息、确定该第一BMC可不再充当该主BMC的角色、以及指定除该第一BMC之外的该BMC充当该主BMC的角色。此外,该方法还可包括由除该第一BMC之外的该BMC承担该主BMC的角色以及除该第一 BMC之外的该BMC使用有关该第一BMC作为主BMC的角色的信息来承担主BMC的角色。
在一个示例中,该方法可包括实施超时周期以便允许反对该指定除该第一BMC以外的该BMC充当该主BMC的角色。
在一个示例中,该主BMC的角色包括相对于该多节点系统的监控、管理、支持、以及控制方面中的至少一项充当中央接口。
在另一个示例中,基于算法确定以下的至少一项:指定该多个BMC 中的第一BMC充当主BMC的角色;以及指定除该多个BMC中的该第一 BMC以外的BMC充当从BMC的角色。
在另一个示例中,该算法确定是由固件组件和软件应用中的至少一项进行的。
在又一个示例中,该算法确定使用标识号。
在一个示例中,由于系统组件的故障、物理移除、和指示中的一项,该第一BMC不再充当该主BMC的角色。
在又一个示例中,该第一BMC和除该第一BMC以外的该BMC中的至少一个通过网络接口被远程地配置。
在一个示例中,该第一BMC被配置成用于节点的监控、管理、支持、和控制方面中的至少一项。
在仍另一个示例中,该第一BMC被配置成用于多个节点的监控、管理、支持、和控制方面中的至少一项。
实施例还可包括至少一种机器可读介质,包括多个指令,响应于在计算设备上被执行,该多个指令致使该计算设备执行上述方法的任何示例。实施例还可包括一种用于利用多节点系统中的可配置和容错的基板管理控制器(BMC)安排的装置,包括处理组件、包括第一应用的存储器组件、以及被配置成用于实施前述方法的任何示例的BMC。实施例还可包括一种用于利用多节点系统中的可配置和容错的基板管理控制器(BMC)安排的系统,包括:机架,包括多个节点和电源;以及节点服务器,包括处理组件、包括第一应用的存储器组件、以及被配置成用于实施前述方法的任何示例的BMC。
又一个实施例可提供一种利用多节点系统中的可配置和容错的基板管理控制器安排的方法,包括指定多个控制器中的第一控制器作为主控制器的角色、以及指定除该第一控制器之外的控制器作为从控制器的角色、确定该第一控制器不再充当该主控制器的角色、以及通过除该第一控制器之外的该控制器承担该主控制器的角色。
在一个示例中,该方法可包括由该第一控制器传输与该第一控制器作为主控制器的角色相关的信息。
在一个示例中,该方法可包括指定除该第一控制器以外的该控制器充当该主控制器的角色。
在仍另一个示例中,该方法可包括由该除该第一控制器以外的该控制器利用与该第一控制器充当主控制器的角色相关的信息以便承担该主控制器的角色。
在一个示例中,该方法可包括实施超时周期以便允许反对该指定该除该第一控制器以外的该控制器充当该主控制器的角色。
在仍另一个示例中,该主控制器的角色包括相对于该多节点系统的监控、管理、支持、以及控制方面中的至少一项充当中央接口。
在仍另一个示例中,基于算法确定以下的至少一项:指定该多个控制器中的第一控制器充当主控制器的角色;以及指定除该多个控制器中的该第一控制器以外的控制器充当从控制器的角色。
在一个示例中,该算法确定是由固件组件和软件应用中的至少一项进行的。
在仍另一个示例中,该算法确定使用标识号。
在一个示例中,由于系统组件的故障、物理移除、和指示中的一项,该第一控制器不再充当该主控制器的角色。
在仍另一个示例中,该第一控制器和除该第一控制器以外的该控制器中的至少一个通过网络接口被远程地配置。
在一个示例中,该第一控制器被配置成用于节点的监控、管理、支持、和控制方面中的至少一项。
在另一个示例中,该第一控制器被配置成用于多个节点的监控、管理、支持、和控制方面中的至少一项。
实施例还可包括至少一种机器可读介质,包括用于利用多节点系统中的可配置和容错的控制器安排的多个指令,响应于在计算设备上被执行,该多个指令致使所述计算设备执行上述方法的任何示例。实施例还可包括一种用于利用多节点系统中的可配置和容错的控制器的装置,包括:处理组件、包括第一应用的存储器组件、以及被配置成用于实施前述方法的任何示例的控制器。
实施例还可包括一种用于利用多节点系统中的可配置和容错的控制器安排的系统,包括:机架,包括多个节点和电源;以及节点服务器,包括处理组件、包括第一应用的存储器组件、以及被配置成用于实施前述方法的任何示例的控制器。
仍另一个实施例可包括至少一种计算机可读存储介质,包括用于使用多节点系统中的可配置和容错的基板管理控制器(BMC)安排的指令集。如果被处理器执行,该指令集致使计算机检测多个BMC、将该多个BMC 中的第一BMC指定为主BMC的角色、以及将除该第一BMC以外的BMC 指定为从BMC的角色。如果被执行,该指令集还通过该第一BMC传输有关该第一BMC作为主BMC的角色的信息、确定该第一BMC可不再充当该主BMC的角色、以及指定除该第一BMC之外的该BMC充当该主BMC 的角色。如果被执行,该指令集还通过除该第一BMC之外的该BMC承担该主BMC的角色以及除该第一BMC之外的该BMC使用有关该第一BMC 作为主BMC的角色的信息承担该主BMC的角色。
另一个实施例可包括一种用于使用多节点系统中的可配置和容错的基板管理控制器(BMC)安排的装置,包括:处理组件、包括第一应用的存储器组件、以及包括包含指令集的计算机可读存储介质的BMC。如果被处理器执行,该指令集致使计算机检测多个BMC、将该多个BMC中的第一 BMC指定为主BMC的角色、以及将除该第一BMC以外的BMC指定为从 BMC的角色、以及由该第一BMC传输有关该第一BMC作为主BMC的信息。如果被执行,该指令集还确定该第一BMC可不再充当该主BMC的角色以及指定除该第一BMC之外的该BMC充当该主BMC的角色。如果被执行,该指令集还通过除该第一BMC之外的该BMC承担该主BMC的角色以及除该第一BMC之外的该BMC使用有关该第一BMC作为主BMC 的角色的信息承担该主BMC的角色。
仍另一个实施例还可包括一种用于利用多节点系统中的可配置和容错的基板管理控制器(BMC)安排的系统,包括:机架,包括多个节点和电源;以及节点服务器,包括处理组件、包括第一应用的存储器组件、以及 BMC。该BMC可包括计算机可读存储介质,包括指令集,如果被处理器执行,该指令集致使计算机检测多个BMC、将该多个BMC中的第一BMC 指定为主BMC的角色、以及将除该第一BMC以外的BMC指定为从BMC 的角色。如果被执行,该指令集还通过该第一BMC传输有关该第一BMC 作为主BMC的角色的信息、确定该第一BMC可不再充当该主BMC的角色、以及指定除该第一BMC之外的该BMC充当该主BMC的角色。如果被执行,该指令集还通过除该第一BMC之外的该BMC承担主BMC的角色以及除该第一BMC之外的该BMC使用有关该第一BMC作为主BMC 的角色的信息承担主BMC的角色。
对获得本公开的益处的本领域普通技术人员将明显的是可在不脱离在此描述的实施例的更宽泛精神和范围的情况下对这些实施例做出各种修改和变化。因此,将以说明性而不是限制性的意义对待说明书和附图。
本领域普通技术人员将从前述说明中认识到本发明实施例的大量技术可以用不同的形式实现。因此,尽管已经结合其具体示例描述了本发明实施例,本方面实施例的真实范围不应当被如此限制,因为当学习附图、说明书和以下权利要求书时,其他修改将对本领域普通技术人员变得明显。
附加地,在某些附图中,可用线路表示信号导线。某些线路可能更粗以用于指示更多组成信号路径,具有号码标签以指示组成信号路径的数量,和/或在一个或多个端部具有箭头以指示主信息流方向。然而,这不应当以限制性的方式解释。而是,这种附加细节可结合一个或多个示例性实施例使用,以便促进更容易地理解。任何所表示的信号线(不管是否具有附加信息)可实际上包括一个或多个信号,该一个或多个信号可在多个方向上传播并且可用任意合适类型的信号方案实现,例如用差分对、光纤线路、和/或单端线路实现的数字或模拟线路。
已经给出示例大小/模型/值/范围,尽管本发明实施例不限于此。随着制造技术(例如,光刻法)日益成熟,所期望的是可制造具有更小大小的设备。附加地,为了简单地展示和讨论,并且为了不混淆本发明实施例的某些方面,可以或可以不在附图中展示公知的电/地连接和其他组件。进一步地,可以用框图的形式示出安排,以便避免混淆本发明实施例,并且还鉴于以下事实:针对这种框图安排的实现方式的详情高度地取决于将在其中实现实施例的平台,即,这些详情应当在本领域普通技术人员的范围内。当列出特定细节以便描述本发明的示例实施例时,对于本领域普通技术人员而言应当明显的是本发明实施例可在不具有或具有这些特定细节的变体的情况下实践。因此,本说明书应当被认为是展示性的而不是限制性的。
术语“耦合”可在此用于指代有关组件之间的任何类型的关系(直接的或间接的)并且可应用到电、机械、流体、光、电磁、机电或其他连接。附加地,术语“第一”、“第二”等等可在此仅用于方便讨论并且不带有任何特定的时间或时间顺序的意义,除非另外指明。
已经详细地参照具体实施例仅通过举例而非通过限制示出和描述了本发明的实施例的若干特征和方面。本领域普通技术人员将认识到对所公开的实施例的可替代的实现方式和各种修改在本公开的范围和设想内。因此,旨在认为本发明仅由所附权利要求书的范围限制。

Claims (30)

1.一种利用多节点系统中的可配置和容错的基板管理控制器(BMC)安排的方法,所述多节点系统在机架中包括多个服务器节点和多个BMC,所述机架具有一个或多个系统资源,所述方法包括:
将所述多个BMC中的第一BMC指定为以主BMC的角色操作;
以从BMC的角色操作所述多个BMC中不被指定为所述主BMC的一个或多个BMC;
确定所述第一BMC将放弃所述主BMC的角色,其中,指示所述第一BMC将放弃所述主BMC的角色从所述第一BMC传输到从BMC,所述消息包括系统资源信息;
指定所述从BMC接管所述主BMC的角色,
其中,正以所述主BMC的角色操作的BMC执行包括对所述一个或多个系统资源中的至少一个系统资源进行控制的操作。
2.如权利要求1所述的方法,其中,所述多个BMC中的每一个都与来自所述多个服务器节点之中的相应服务器节点相关联。
3.如权利要求2所述的方法,其中,所述多个BMC中的每一个都能够以所述主BMC的角色操作。
4.如权利要求1所述的方法,其中,对于所述多个BMC,所述第一BMC初始地以所述主BMC角色被操作,并且所述多个BMC中除所述第一BMC之外的每一个BMC初始地以从BMC角色被操作。
5.如权利要求1所述的方法,其中,正以所述主BMC的角色操作的BMC执行包括对所述一个或多个系统资源中的至少一个系统资源进行监控的操作。
6.如权利要求1所述的方法,其中,所述多个服务器节点中的每一个都包含用于对所述服务器节点的操作进行监控的BMC。
7.如权利要求1所述的方法,其中,由BMC执行的操作经由与所述BMC相关联的固件的执行来实现。
8.如权利要求1所述的方法,其中,确定所述第一BMC将放弃或已放弃所述主BMC的角色包括:检测所述第一BMC已变得不起作用。
9.如权利要求1所述的方法,其中,确定所述第一BMC将放弃或已放弃所述主BMC的角色包括:当所述第一BMC正以所述主BMC角色操作时,检测所述第一BMC在超时周期内还未执行预定义的操作。
10.如权利要求1所述的方法,进一步包括:
将所述多个BMC中的每一个BMC与唯一标识相关联;以及
使用BMC的标识以便使BMC能够标识哪个BMC正以所述主BMC角色操作。
11.一种系统,包括:
机架,所述机架包含:
多个服务器节点;
多个基板管理控制器(BMC);以及
一个或多个系统资源,可操作地耦合到所述多个服务器节点,
其中,所述系统配置成用于:
以主BMC的角色操作所述多个BMC中的第一BMC;
以从BMC的角色操作所述多个BMC中除所述第一BMC之外的一个或多个BMC;
确定所述第一BMC将放弃所述主BMC的角色,其中,指示所述第一BMC将放弃所述主BMC的角色从所述第一BMC传输到从BMC,所述消息包括系统资源信息;
指定所述从BMC接管所述主BMC的角色,
其中,正以所述主BMC的角色操作的BMC执行包括对所述一个或多个系统资源中的至少一个系统资源进行控制的操作。
12.如权利要求11所述的系统,其中,所述多个BMC中的每一个都与来自所述多个服务器节点之中的相应服务器节点相关联。
13.如权利要求12所述的系统,其中,所述多个BMC中的每一个都能够以所述主BMC的角色操作。
14.如权利要求11所述的系统,其中,对于所述多个BMC,所述第一BMC初始地以所述主BMC角色被操作,并且所述多个BMC中除所述第一BMC之外的每一个BMC初始地以从BMC角色被操作。
15.如权利要求11所述的系统,其中,正以所述主BMC的角色操作的BMC执行包括对所述一个或多个系统资源中的至少一个系统资源进行监控的操作。
16.如权利要求11所述的系统,其中,所述多个服务器节点中的每一个都包含用于对所述服务器节点的操作进行监控的BMC。
17.如权利要求11所述的系统,其中,由BMC执行的操作经由与所述BMC相关联的固件的执行来实现。
18.如权利要求11所述的系统,其中,确定所述第一BMC将放弃或已放弃所述主BMC的角色包括:检测所述第一BMC已变得不起作用。
19.如权利要求11所述的系统,其中,确定所述第一BMC将放弃或已放弃所述主BMC的角色包括:当所述第一BMC正以所述主BMC角色操作时,检测所述第一BMC在超时周期内还未执行预定义的操作。
20.如权利要求11所述的系统,其中,所述系统进一步用于:
将所述多个BMC中的每一个BMC与唯一标识相关联;以及
使用BMC的标识以便使BMC能够标识哪个BMC正以所述主BMC角色操作。
21.一种服务器节点,被配置在多节点系统的机架中,所述多节点系统包括多个服务器节点,所述多个服务器节点可操作地耦合到一个或多个系统资源并利用容错的基板管理控制器(BMC)安排,所述容错的BMC安排包括多个BMC,所述服务器节点包括:
一个或多个处理器;
存储器;
BMC;以及
网络端口和输入/输出(I/O)端口中的至少一者,用于被耦合到网络或互连以使所述服务器节点能够与其他服务器节点并与所述一个或多个系统资源通信,
其中,所述服务器节点的所述BMC配置成用于:
在所述容错的BMC安排的第一配置中以主BMC的角色操作,在所述第一配置下,所述多个BMC中的一个或多个BMC以从BMC的角色被操作;
当操作为所述主BMC时,控制所述一个或多个系统资源中的至少一个;
放弃所述主BMC的角色,其中,指示所述BMC将放弃所述主BMC的角色的消息从所述BMC传输到所述多节点系统的从BMC,所述消息包括系统资源信息;以及
在所述容错的BMC安排的第二配置下操作为从BMC。
22.如权利要求21所述的服务器节点,其中,所述系统中的服务器节点中的每一个都包括BMC。
23.如权利要求22所述的服务器节点,其中,所述系统中的所述多个BMC中的每一个都能够以所述主BMC角色操作。
24.如权利要求21所述的服务器节点,其中,当所述服务器节点中的BMC以所述主BMC角色被操作时,所述多个BMC中除所述服务器节点中的所述BMC之外的每一个BMC初始地以从BMC角色被操作。
25.如权利要求21所述的服务器节点,其中,当以所述主BMC角色操作时,所述BMC进一步配置成用于监控所述一个或多个系统资源中的至少一个系统资源。
26.如权利要求21所述的服务器节点,其中,所述BMC进一步被确认以监控所述服务器节点的健康。
27.如权利要求21所述的服务器节点,进一步包括固件,所述固件配置成由所述服务器节点执行以实现由所述BMC执行的操作。
28.如权利要求21所述的服务器节点,其中,所述BMC进一步配置成用于:当以所述从角色操作时,确定另一BMC已放弃所述主BMC的角色。
29.如权利要求21所述的服务器节点,其中,所述BMC通过检测所述另一BMC在超时周期内还未执行预定义的操作来确定所述另一BMC已放弃所述主BMC的角色。
30.如权利要求21所述的服务器节点,其中,所述多个BMC中的每一个都与唯一标识相关联,并且所述BMC进一步配置成用于使用所述多个BMC的标识来使所述BMC能够标识哪个BMC正以所述主BMC角色操作。
CN201711408176.0A 2012-03-28 2012-03-28 利用可配置和容错的基板管理控制器安排的方法及系统 Active CN107977299B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711408176.0A CN107977299B (zh) 2012-03-28 2012-03-28 利用可配置和容错的基板管理控制器安排的方法及系统

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
PCT/US2012/030958 WO2013147767A1 (en) 2012-03-28 2012-03-28 Configurable and fault-tolerant baseboard management controller arrangement
CN201280071730.XA CN104169905B (zh) 2012-03-28 2012-03-28 利用可配置和容错的基板管理控制器安排的方法、装置和系统
CN201711408176.0A CN107977299B (zh) 2012-03-28 2012-03-28 利用可配置和容错的基板管理控制器安排的方法及系统

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201280071730.XA Division CN104169905B (zh) 2012-03-28 2012-03-28 利用可配置和容错的基板管理控制器安排的方法、装置和系统

Publications (2)

Publication Number Publication Date
CN107977299A CN107977299A (zh) 2018-05-01
CN107977299B true CN107977299B (zh) 2022-01-25

Family

ID=49260833

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201280071730.XA Active CN104169905B (zh) 2012-03-28 2012-03-28 利用可配置和容错的基板管理控制器安排的方法、装置和系统
CN201711408176.0A Active CN107977299B (zh) 2012-03-28 2012-03-28 利用可配置和容错的基板管理控制器安排的方法及系统

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201280071730.XA Active CN104169905B (zh) 2012-03-28 2012-03-28 利用可配置和容错的基板管理控制器安排的方法、装置和系统

Country Status (4)

Country Link
US (1) US9772912B2 (zh)
CN (2) CN104169905B (zh)
DE (1) DE112012006150T5 (zh)
WO (1) WO2013147767A1 (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9772912B2 (en) 2012-03-28 2017-09-26 Intel Corporation Configurable and fault-tolerant baseboard management controller arrangement
JP6303405B2 (ja) * 2013-11-01 2018-04-04 富士通株式会社 情報処理装置、管理装置、監視装置、監視プログラム、及び管理装置の監視方法
CN104679635A (zh) * 2013-11-29 2015-06-03 鸿富锦精密电子(天津)有限公司 服务器监控电路
US9998359B2 (en) 2013-12-18 2018-06-12 Mellanox Technologies, Ltd. Simultaneous operation of remote management and link aggregation
US9619243B2 (en) * 2013-12-19 2017-04-11 American Megatrends, Inc. Synchronous BMC configuration and operation within cluster of BMC
US10148746B2 (en) 2014-01-28 2018-12-04 Mellanox Technologies, Ltd. Multi-host network interface controller with host management
US9804937B2 (en) * 2014-09-08 2017-10-31 Quanta Computer Inc. Backup backplane management control in a server rack system
US9985820B2 (en) 2015-02-22 2018-05-29 Mellanox Technologies, Ltd. Differentiating among multiple management control instances using addresses
US9729440B2 (en) 2015-02-22 2017-08-08 Mellanox Technologies, Ltd. Differentiating among multiple management control instances using IP addresses
US10157115B2 (en) * 2015-09-23 2018-12-18 Cloud Network Technology Singapore Pte. Ltd. Detection system and method for baseboard management controller
WO2017123220A1 (en) * 2016-01-13 2017-07-20 Hewlett Packard Enterprise Development Lp Serial bootloading of power supplies
US10303568B2 (en) * 2017-02-10 2019-05-28 Dell Products L.P. Systems and methods for high availability of management controllers
US10827005B2 (en) * 2017-03-01 2020-11-03 Dell Products L.P. Systems and methods of group automation for multi-chassis management
CN107769960B (zh) * 2017-09-07 2020-11-27 苏州浪潮智能科技有限公司 一种基于can总线的bmc管理架构
US10979497B2 (en) * 2018-07-19 2021-04-13 Cisco Technology, Inc. Multi-node discovery and master election process for chassis management
US11012306B2 (en) * 2018-09-21 2021-05-18 Cisco Technology, Inc. Autonomous datacenter management plane
US10896142B2 (en) 2019-03-29 2021-01-19 Intel Corporation Non-volatile memory out-of-band management interface for all host processor power states
US11853771B1 (en) 2019-09-24 2023-12-26 Amazon Technologies, Inc. Offload card based virtualization of a pre-assembled computer system integrated into a server for a virtualization service
US11113046B1 (en) * 2019-09-24 2021-09-07 Amazon Technologies, Inc. Integration and remote control of a pre-assembled computer system into a server for a virtualization service
US11424997B2 (en) * 2019-12-10 2022-08-23 Dell Products L.P. Secured network management domain access system
CN111984471B (zh) * 2020-08-14 2022-11-25 苏州浪潮智能科技有限公司 一种机柜电源bmc冗余管理系统及方法
CN113886307A (zh) * 2021-09-30 2022-01-04 阿里巴巴(中国)有限公司 Bmc模块、服务器主板、bmc模块的热维护方法及系统
CN113835770B (zh) * 2021-11-30 2022-02-18 四川华鲲振宇智能科技有限责任公司 一种服务器管理模块在线更换方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1641568A (zh) * 2004-01-13 2005-07-20 英业达股份有限公司 基板管理控制器的固件自动配置系统及方法
CN102201959A (zh) * 2010-03-26 2011-09-28 英业达股份有限公司 基板管理控制器的网络接口系统

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6625750B1 (en) * 1999-11-16 2003-09-23 Emc Corporation Hardware and software failover services for a file server
US6889248B1 (en) * 2000-04-12 2005-05-03 Sun Microsystems, Inc. Automatically configuring a server into a master or slave server based on its relative position in a server network
US7058703B2 (en) * 2002-03-08 2006-06-06 Intel Corporation System management controller (SMC) negotiation protocol for determining the operational mode of SMCs
US8868790B2 (en) * 2004-02-13 2014-10-21 Oracle International Corporation Processor-memory module performance acceleration in fabric-backplane enterprise servers
US7487403B2 (en) * 2004-11-12 2009-02-03 International Business Machines Corporation Method for handling a device failure
TWI261751B (en) 2005-06-13 2006-09-11 Quanta Comp Inc Mis-configuration detection methods and devices for blade systems
US7870417B2 (en) * 2007-04-20 2011-01-11 International Business Machines Corporation Apparatus, system, and method for adapter card failover
US7783813B2 (en) * 2007-06-14 2010-08-24 International Business Machines Corporation Multi-node configuration of processor cards connected via processor fabrics
US8023434B2 (en) * 2007-09-18 2011-09-20 International Business Machines Corporation Arrangements for auto-merging and auto-partitioning processing components
JP4659062B2 (ja) * 2008-04-23 2011-03-30 株式会社日立製作所 フェイルオーバ方法、プログラム、管理サーバおよびフェイルオーバシステム
US8032791B2 (en) * 2009-07-07 2011-10-04 International Business Machines Corporation Diagnosis of and response to failure at reset in a data processing system
US8667110B2 (en) * 2009-12-22 2014-03-04 Intel Corporation Method and apparatus for providing a remotely managed expandable computer system
US9772912B2 (en) 2012-03-28 2017-09-26 Intel Corporation Configurable and fault-tolerant baseboard management controller arrangement

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1641568A (zh) * 2004-01-13 2005-07-20 英业达股份有限公司 基板管理控制器的固件自动配置系统及方法
CN1327341C (zh) * 2004-01-13 2007-07-18 英业达股份有限公司 基板管理控制器的固件自动配置系统及方法
CN102201959A (zh) * 2010-03-26 2011-09-28 英业达股份有限公司 基板管理控制器的网络接口系统

Also Published As

Publication number Publication date
CN104169905B (zh) 2019-06-11
CN107977299A (zh) 2018-05-01
DE112012006150T5 (de) 2015-01-08
US9772912B2 (en) 2017-09-26
CN104169905A (zh) 2014-11-26
WO2013147767A1 (en) 2013-10-03
US20140229758A1 (en) 2014-08-14

Similar Documents

Publication Publication Date Title
CN107977299B (zh) 利用可配置和容错的基板管理控制器安排的方法及系统
TWI618380B (zh) 管理方法、服務控制器裝置以及非暫態電腦可讀取媒體
EP2628092B1 (en) Device hardware agent
US9842003B2 (en) Master baseboard management controller election and replacement sub-system enabling decentralized resource management control
US9852096B2 (en) High speed serial link in-band lane fail over for RAS and power management
US10404690B2 (en) Authentication-free configuration for service controllers
US20160283309A1 (en) Method for Error Logging
TWI559148B (zh) 自動硬體恢復方法及自動硬體恢復系統
GB2492620A (en) Midplane for blade server management
US8117494B2 (en) DMI redundancy in multiple processor computer systems
CN109388526A (zh) 一种控制电路及复位操作的方法
US9009543B2 (en) Computer systems that acquire a plurality of statuses of non-normally operating hard disk drives
US20180267870A1 (en) Management node failover for high reliability systems
CN105549696A (zh) 具有机箱管理功能的机架式服务器系统
US9003068B2 (en) Service channel for connecting a host computer to peripheral devices
TW201729097A (zh) 機櫃裝置
JP6009977B2 (ja) データ通信システムとそのマスタユニットおよびデータ通信方法
TW201528001A (zh) 全系統易管理化
TWI704460B (zh) 叢集式系統中維持記憶體共享方法
CN103890687A (zh) 计算机的管理
US11836100B1 (en) Redundant baseboard management controller (BMC) system and method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant