CN104169905B - 利用可配置和容错的基板管理控制器安排的方法、装置和系统 - Google Patents
利用可配置和容错的基板管理控制器安排的方法、装置和系统 Download PDFInfo
- Publication number
- CN104169905B CN104169905B CN201280071730.XA CN201280071730A CN104169905B CN 104169905 B CN104169905 B CN 104169905B CN 201280071730 A CN201280071730 A CN 201280071730A CN 104169905 B CN104169905 B CN 104169905B
- Authority
- CN
- China
- Prior art keywords
- bmc
- controller
- role
- node
- main
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/2002—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
- G06F11/2007—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication media
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3058—Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Hardware Redundancy (AREA)
Abstract
系统和方法利用多节点系统中的可配置容错基板管理控制器(BMC)安排。在一个示例中,该方法可包括将该多个BMC的第一BMC指定为主BMC的角色、确定该第一BMC可不再充当该主BMC的角色、以及指定除该第一BMC之外的BMC充当该主BMC的角色。
Description
背景
技术领域
实施例总体上涉及减轻多节点服务器系统中的故障的影响。更具体而言,实施例涉及利用多节点服务器中的基板管理控制器(BMC)安排。
讨论
服务器系统可利用包含多个节点的单个机架。这些服务器系统可利用与节点分离的机架管理控制器以便集中地管理系统资源。然而,如果机架管理控制器出故障,整个系统的操作会出故障。因此,实现可配置和容错的服务器系统实施例可以是有益的。
附图简要说明
通过阅读以下说明书和所附权利要求书并且通过参考以下附图,本发明实施例的各种优点将对本领域普通技术人员变得明显,在附图中:
图1是根据本发明的实施例的实现可配置和容错的基板管理控制器安排的计算系统的示例的框图;以及
图2是根据本发明的实施例的利用可配置和容错的基板管理控制器安排的方法的示例的流程图。
详细描述
现在转向图1,示出利用可配置和容错的基板管理控制器安排的计算系统10的框图。计算系统10可包括(除其他事项之外)机架100、第一节点服务器200、第二节点服务器300、第三节点服务器400、输入/输出(I/O)扩展器600。计算系统10可耦合到网络1100。
机架100可包括第一节点101、第二节点102、和第三节点103。节点101、102、103可以是包括一个或多个组件的任何可替换单元。这些组件的示例包括(除其他事项之外)硬盘驱动器、基板、侧板、或对接板。
机架100还可包括第一风扇105、第二风扇106、和第三风扇107。风扇105、106、107可用于使机架100内的组件冷却。机架还可包括电源104。电源104可用于为机架100内的各组件供电。如在此所使用的,风扇105、106、107和电源104可以是系统资源的示例。其他系统资源可包括硬盘驱动器、传感器、硬盘驱动器和存储背板。
第一节点服务器200可以是被配置成用于监控、管理、支持、和控制第一节点101的操作的多个方面的计算机服务器系统。类似地,第二节点服务器300和第三节点服务器400可被配置成用于分别监控、管理、支持、和控制第二节点102和第三节点103的操作的多个方面。
第一节点服务器200可包括第一节点存储器组件201、第一节点固件组件202、和第一节点处理组件203。类似地,第二节点服务器300可包括第二节点存储器组件301、第二节点固件组件302、和第二节点处理组件303。同样,第三节点服务器400可包括第三节点存储器组件401、第三节点固件组件402、和第三节点处理组件403。
第一节点存储器组件201可包括第一节点服务器应用204,其可被配置成用于(除其他事项之外)监控、管理、支持、和控制第一节点101的操作的多个方面。类似地,第二节点存储器组件301可包括第二节点服务器应用304,可相对于第二节点102类似地利用该第二节点服务器应用。同样,第三节点存储器组件401可包括第三节点服务器应用404,可相对于第三节点103类似地利用该第三节点服务器应用。
第一节点服务器200可包括第一节点BMC 205,其可被配置成用于监控、管理、支持、和控制多节点系统的操作的多个方面。在本实施例中,除其他事项之外,其可被配置成用于监控、管理、支持、和控制其相关联的节点(第一节点101)的操作的多个方面。
例如,第一节点BMC 205可被配置成用于(除其他事项之外)传递与第一节点101的操作相关的信息(例如,功率水平、温度读数、和电压电平信息)。附加地,第一节点BMC 205还可被配置成用于促进第一节点101与被配置成用于监控、管理、支持、和控制第一节点101的操作的任何实体(例如,第一节点服务器应用204)之间的接口连接。第二节点BMC 305可被配置成用于相对于第二节点102类似地操作。同样,第三节点BMC405可被配置成用于相对于第三节点103类似地操作。
第一节点BMC 205可包括第一节点BMC固件组件206。类似地,第二节点BMC 305可包括第二节点BMC固件组件306。同样,第三节点BMC可包括第三节点BMC存储器组件406,其中,第三节点BMC存储器组件406可包括第三节点BMC软件应用407。第一节点BMC固件组件206、第二节点BMC固件组件306、和第三节点BMC软件应用407可被配置成用于(除其他事项之外)通过经由电源管理总线500向电源104传输指令将电源指引到机架100。
I/O扩展器600可以是(除其他事项之外)可允许BMC(例如,第一节点BMC 205)检测计算系统10内是否存在节点(例如,第一节点101)。I/O扩展器600可通过节点间BMC总线700耦合到第一节点BMC 205、第二节点BMC 305、和第三节点BMC405。
网络1100可通过第一网络接口800、第二网络接口900、和第三网络接口1000分别耦合到第一节点BMC 205、第二节点BMC 305、和第三节点BMC405。这些网络接口可用于(除其他事项之外)远程地配置计算系统10的各组件。
在本发明的实施例中,任何耦合BMC可承担多节点系统的“主”BMC的角色。一旦BMC已经被指定为主,所指定的主BMC可充当系统内的所有耦合节点(包括其相关联的节点)的主BMC。换言之,主BMC可相对于多节点系统的操作充当中央接口。当指定了主BMC时,多节点系统内的任何其他BMC可承担“从”的角色。
可由主BMC实现的节点的操作的多个方面的示例可包括但不限于监控系统组件的多个方面(例如,温度、功率)、管理(例如,向系统组件传输相关有关数据)系统组件、支持(例如,获得和安装固件和软件更新)、和控制(例如,指引系统资源的配置)系统组件。通过单个主BMC实现这些方面可(除其他事项之外)降低系统拥塞(例如,通信总线上的业务量)以及避免冗余(例如,在安装软件更新时)。
在本发明的实施例中,算法可被配置成用于指定主BMC。该算法可尤其确定将初始地指定哪个BMC作为主、或者一旦当前主BMC可能不再可用就将哪个BMC指定作为新主。当前的主BMC可能出于各种原因不再可用,各种原因包括系统组件的故障、移除(例如,物理移除)、或指示。实际上,如将更详细地描述的,系统组件诸如固件组件(例如,第一节点BMC固件组件206)或软件应用(例如,第三节点BMC软件应用407)可初始地执行主BMC、从当前主BMC移除主状态、以及指定新的主BMC等等。
在某些实施例中,算法可基于节点标识号指定主BMC。例如,一个这种算法可基于最低标识号指定主BMC。这样,在图1中描述的实施例中,这种算法可首先将第一节点BMC206指定为主BMC,然后是第二节点BMC 207,以此类推。
在本发明的实施例中,主BMC可由各种装置指定和配置。例如,主BMC可由BMC固件组件(例如,第一节点固件组件202)或通过执行软件应用(例如,第一节点服务器应用204)来指定和配置。
在其他实施例中,可通过由任何耦合节点附属的主机接口使用应用配置BMC。这种应用的示例可以是设置实用程序,如基本输入输出系统(BIOS)。
还可通过远程连接配置BMC。例如,网络(诸如网络1100)可使用网络接口(例如,第一网络接口800)来远程地(例如,通过以太网、局域网(LAN)等等)指定和配置主BMC。
主BMC可传输有关主BMC对主状态的所有权的信息(例如,配置信息、设置信息),以便促进将主BMC的角色传输给另一个BMC,如果需要的话。这样,例如,如果第一节点BMC 205被指定为主,其可周期性地将信息传输给从BMC(例如,第二节点BMC 305、第三节点BMC405),以便促进(未来)将主的角色传输给从。
图1中描绘的框的安排和编号可不旨在暗示操作顺序从而排除其他可能性。本领域普通技术人员将认识到能够对系统和方法进行各种修改和改动。
例如,在图1中描述的实施例中,一个BMC(例如,BMC 206)可主要地附属有一个节点(例如,节点101)。这无需是这种情况。本发明的其他实施例可允许单个BMC监控、管理、支持、以及控制多于一个节点。
现在转向图2,示出了根据本发明的一个实施例的使用可配置和容错的基板管理控制器安排的示例性方法的流程图。该方法可被实现为存储在使用电路技术(诸如专用集成电路(ASIC)、互补金属氧化物半导体(CMOS)或晶体管-晶体管逻辑(TTL)技术或其任意组合)的固定功能硬件中的可配置逻辑(诸如可编程逻辑阵列(PLA)、现场可编程门阵列(FPGA)、复杂可编程逻辑设备(CPLD)、)中的机器或计算机可读存储介质(诸如随机存取存储器(RAM)、只读存储器(ROM)、可编程ROM(PROM)、固件、闪存等等)中的逻辑指令集。例如,可用一种或多种编程语言的任意组合编写用于执行该方法中所示的操作的计算机程序代码,包括面向对象的编程语言,诸如C++等等,以及常规程序编程语言,诸如“C”编程语言或类似的编程语言。
在本实施例中,在第二节点BMC(诸如第二节点BMC 305(图1))和第三节点BMC(诸如第三节点BMC405(图1))之后,第一节点BMC(诸如第一节点BMC 205(图1))可上线。第一节点BMC可具有标识号1,第二节点可具有标识号2,以此类推。
该方法可在处理框2000开始。在处理框2010,第二节点BMC和第三节点BMC可上线。在处理框2020,第二节点BMC和第三节点BMC可通过I/O扩展器(诸如I/O扩展器600(图1))检测彼此的存在。在处理框2030,由第二节点BMC的BMC固件组件(诸如第二节点BMC固件组件306(图1))实现的算法可基于最低节点标识号确定第二节点BMC应当承担主BMC状态的角色。具有更高节点标识号的第三节点BMC可作为从BMC运行。
在处理框2040,第一节点BMC可上线。在处理框2050,第一节点BMC的BMC固件组件(诸如第一节点BMC固件组件206(图1))可基于最低标识号(即,1)确定其应当声明主BMC状态。在处理框2060,第一节点BMC可传输消息以便通知其可承担主BMC的角色。
在处理框2070,仍以主角色运行的第二节点BMC可向第一节点BMC传输指示其将放弃主BMC的角色的响应。该消息还可包括与第二节点BMC作为主BMC的角色有关的信息(例如,系统资源配置、系统状态信息等等)。在处理框2080,第一节点BMC可开始超时周期从而允许任何系统组件反对其承担主BMC的角色。
在处理框2090,在超时周期在没有任何反对的情况下过去之后,第一节点BMC可从第二节点BMC承担主BMC的角色。在处理框2100,第一节点BMC可在超时周期内传输通信(例如,系统状态信息)以便指示可完成其承担主BMC的角色。在处理框2110,第一节点BMC可周期性地传输有关第一节点BMC对主状态的所有权的信息(例如,配置信息、设置信息),以便促进转移主BMC的角色等等,如果需要的话。
在处理框2120,第一节点BMC可能出故障(例如,由于固件故障)。在处理框2130,在第一节点BMC在超时周期内不能发送出消息之后,其他耦合节点中的至少一个可确定当前主BMC(即,第一节点BMC)可能不再工作,并且确定哪个节点应当是新的主BMC。在这种情况下,第二节点BMC的BMC固件组件可确定第二节点BMC应当承担主角色(即,基于最低标识号)。
在处理框2140,第二节点BMC可声明主BMC状态。在处理框2150,第二节点BMC可访问主要由第一节点BMC传输的有关第一节点BMC对主状态的所有权的信息,以便促进其承担主BMC的角色。在处理框2160,第二节点BMC可承担主BMC的角色。在处理框2170,该过程可结束。
图2中描绘的处理框的顺序和编号不旨在暗示操作顺序从而排除其他可能性。本领域普通技术人员将认识到能够对系统和方法进行各种修改和改动。
例如,在上述实施例中,算法可实现BMC固件组件基于最低节点标识号声明主BMC状态(即,处理框2020)。然而,不一定是这种情况。在其他实施例中,具有更低标识号的BMC可仅在当前主BMC出故障之后被指定为主BMC。
同样,在上述实施例中,第二节点BMC可向第一节点BMC传输指示其放弃主BMC的角色的响应(即,处理框2070)。然而,不一定是这种情况。在其他实施例中,在发送这种消息之前,第二节点BMC可首先指示其“忙碌”(例如,在电源更新中间)。如果第二节点BMC指示其可能忙碌,请求第一节点BMC可周期性地重新发送其承担主BMC的角色的请求,直至其成功。
实施例因此可提供在多节点系统中使用可配置和容错的基板管理控制器(BMC)安排的方法,包括检测多个BMC、将该多个BMC中的第一BMC指定为主BMC的角色、以及将除该第一BMC之外的BMC指定为从BMC的角色。该方法还可包括由该第一BMC传输有关该第一BMC作为主BMC的角色的信息、确定该第一BMC可不再充当该主BMC的角色、以及指定除该第一BMC之外的该BMC充当该主BMC的角色。此外,该方法还可包括由除该第一BMC之外的该BMC承担该主BMC的角色以及除该第一BMC之外的该BMC使用有关该第一BMC作为主BMC的角色的信息来承担主BMC的角色。
在一个示例中,该方法可包括实施超时周期以便允许反对该指定除该第一BMC以外的该BMC充当该主BMC的角色。
在一个示例中,该主BMC的角色包括相对于该多节点系统的监控、管理、支持、以及控制方面中的至少一项充当中央接口。
在另一个示例中,基于算法确定以下的至少一项:指定该多个BMC中的第一BMC充当主BMC的角色;以及指定除该多个BMC中的该第一BMC以外的BMC充当从BMC的角色。
在另一个示例中,该算法确定是由固件组件和软件应用中的至少一项进行的。
在又一个示例中,该算法确定使用标识号。
在一个示例中,由于系统组件的故障、物理移除、和指示中的一项,该第一BMC不再充当该主BMC的角色。
在又一个示例中,该第一BMC和除该第一BMC以外的该BMC中的至少一个通过网络接口被远程地配置。
在一个示例中,该第一BMC被配置成用于节点的监控、管理、支持、和控制方面中的至少一项。
在仍另一个示例中,该第一BMC被配置成用于多个节点的监控、管理、支持、和控制方面中的至少一项。
实施例还可包括至少一种机器可读介质,包括多个指令,响应于在计算设备上被执行,该多个指令致使该计算设备执行上述方法的任何示例。实施例还可包括一种用于利用多节点系统中的可配置和容错的基板管理控制器(BMC)安排的装置,包括处理组件、包括第一应用的存储器组件、以及被配置成用于实施前述方法的任何示例的BMC。实施例还可包括一种用于利用多节点系统中的可配置和容错的基板管理控制器(BMC)安排的系统,包括:机架,包括多个节点和电源;以及节点服务器,包括处理组件、包括第一应用的存储器组件、以及被配置成用于实施前述方法的任何示例的BMC。
又一个实施例可提供一种利用多节点系统中的可配置和容错的基板管理控制器安排的方法,包括指定多个控制器中的第一控制器作为主控制器的角色、以及指定除该第一控制器之外的控制器作为从控制器的角色、确定该第一控制器不再充当该主控制器的角色、以及通过除该第一控制器之外的该控制器承担该主控制器的角色。
在一个示例中,该方法可包括由该第一控制器传输与该第一控制器作为主控制器的角色相关的信息。
在一个示例中,该方法可包括指定除该第一控制器以外的该控制器充当该主控制器的角色。
在仍另一个示例中,该方法可包括由该除该第一控制器以外的该控制器利用与该第一控制器充当主控制器的角色相关的信息以便承担该主控制器的角色。
在一个示例中,该方法可包括实施超时周期以便允许反对该指定该除该第一控制器以外的该控制器充当该主控制器的角色。
在仍另一个示例中,该主控制器的角色包括相对于该多节点系统的监控、管理、支持、以及控制方面中的至少一项充当中央接口。
在仍另一个示例中,基于算法确定以下的至少一项:指定该多个控制器中的第一控制器充当主控制器的角色;以及指定除该多个控制器中的该第一控制器以外的控制器充当从控制器的角色。
在一个示例中,该算法确定是由固件组件和软件应用中的至少一项进行的。
在仍另一个示例中,该算法确定使用标识号。
在一个示例中,由于系统组件的故障、物理移除、和指示中的一项,该第一控制器不再充当该主控制器的角色。
在仍另一个示例中,该第一控制器和除该第一控制器以外的该控制器中的至少一个通过网络接口被远程地配置。
在一个示例中,该第一控制器被配置成用于节点的监控、管理、支持、和控制方面中的至少一项。
在另一个示例中,该第一控制器被配置成用于多个节点的监控、管理、支持、和控制方面中的至少一项。
实施例还可包括至少一种机器可读介质,包括用于利用多节点系统中的可配置和容错的控制器安排的多个指令,响应于在计算设备上被执行,该多个指令致使所述计算设备执行上述方法的任何示例。实施例还可包括一种用于利用多节点系统中的可配置和容错的控制器的装置,包括:处理组件、包括第一应用的存储器组件、以及被配置成用于实施前述方法的任何示例的控制器。
实施例还可包括一种用于利用多节点系统中的可配置和容错的控制器安排的系统,包括:机架,包括多个节点和电源;以及节点服务器,包括处理组件、包括第一应用的存储器组件、以及被配置成用于实施前述方法的任何示例的控制器。
仍另一个实施例可包括至少一种计算机可读存储介质,包括用于使用多节点系统中的可配置和容错的基板管理控制器(BMC)安排的指令集。如果被处理器执行,该指令集致使计算机检测多个BMC、将该多个BMC中的第一BMC指定为主BMC的角色、以及将除该第一BMC以外的BMC指定为从BMC的角色。如果被执行,该指令集还通过该第一BMC传输有关该第一BMC作为主BMC的角色的信息、确定该第一BMC可不再充当该主BMC的角色、以及指定除该第一BMC之外的该BMC充当该主BMC的角色。如果被执行,该指令集还通过除该第一BMC之外的该BMC承担该主BMC的角色以及除该第一BMC之外的该BMC使用有关该第一BMC作为主BMC的角色的信息承担该主BMC的角色。
另一个实施例可包括一种用于使用多节点系统中的可配置和容错的基板管理控制器(BMC)安排的装置,包括:处理组件、包括第一应用的存储器组件、以及包括包含指令集的计算机可读存储介质的BMC。如果被处理器执行,该指令集致使计算机检测多个BMC、将该多个BMC中的第一BMC指定为主BMC的角色、以及将除该第一BMC以外的BMC指定为从BMC的角色、以及由该第一BMC传输有关该第一BMC作为主BMC的信息。如果被执行,该指令集还确定该第一BMC可不再充当该主BMC的角色以及指定除该第一BMC之外的该BMC充当该主BMC的角色。如果被执行,该指令集还通过除该第一BMC之外的该BMC承担该主BMC的角色以及除该第一BMC之外的该BMC使用有关该第一BMC作为主BMC的角色的信息承担该主BMC的角色。
仍另一个实施例还可包括一种用于利用多节点系统中的可配置和容错的基板管理控制器(BMC)安排的系统,包括:机架,包括多个节点和电源;以及节点服务器,包括处理组件、包括第一应用的存储器组件、以及BMC。该BMC可包括计算机可读存储介质,包括指令集,如果被处理器执行,该指令集致使计算机检测多个BMC、将该多个BMC中的第一BMC指定为主BMC的角色、以及将除该第一BMC以外的BMC指定为从BMC的角色。如果被执行,该指令集还通过该第一BMC传输有关该第一BMC作为主BMC的角色的信息、确定该第一BMC可不再充当该主BMC的角色、以及指定除该第一BMC之外的该BMC充当该主BMC的角色。如果被执行,该指令集还通过除该第一BMC之外的该BMC承担主BMC的角色以及除该第一BMC之外的该BMC使用有关该第一BMC作为主BMC的角色的信息承担主BMC的角色。
对获得本公开的益处的本领域普通技术人员将明显的是可在不脱离在此描述的实施例的更宽泛精神和范围的情况下对这些实施例做出各种修改和变化。因此,将以说明性而不是限制性的意义对待说明书和附图。
本领域普通技术人员将从前述说明中认识到本发明实施例的大量技术可以用不同的形式实现。因此,尽管已经结合其具体示例描述了本发明实施例,本方面实施例的真实范围不应当被如此限制,因为当学习附图、说明书和以下权利要求书时,其他修改将对本领域普通技术人员变得明显。
附加地,在某些附图中,可用线路表示信号导线。某些线路可能更粗以用于指示更多组成信号路径,具有号码标签以指示组成信号路径的数量,和/或在一个或多个端部具有箭头以指示主信息流方向。然而,这不应当以限制性的方式解释。而是,这种附加细节可结合一个或多个示例性实施例使用,以便促进更容易地理解。任何所表示的信号线(不管是否具有附加信息)可实际上包括一个或多个信号,该一个或多个信号可在多个方向上传播并且可用任意合适类型的信号方案实现,例如用差分对、光纤线路、和/或单端线路实现的数字或模拟线路。
已经给出示例大小/模型/值/范围,尽管本发明实施例不限于此。随着制造技术(例如,光刻法)日益成熟,所期望的是可制造具有更小大小的设备。附加地,为了简单地展示和讨论,并且为了不混淆本发明实施例的某些方面,可以或可以不在附图中展示公知的电/地连接和其他组件。进一步地,可以用框图的形式示出安排,以便避免混淆本发明实施例,并且还鉴于以下事实:针对这种框图安排的实现方式的详情高度地取决于将在其中实现实施例的平台,即,这些详情应当在本领域普通技术人员的范围内。当列出特定细节以便描述本发明的示例实施例时,对于本领域普通技术人员而言应当明显的是本发明实施例可在不具有或具有这些特定细节的变体的情况下实践。因此,本说明书应当被认为是展示性的而不是限制性的。
术语“耦合”可在此用于指代有关组件之间的任何类型的关系(直接的或间接的)并且可应用到电、机械、流体、光、电磁、机电或其他连接。附加地,术语“第一”、“第二”等等可在此仅用于方便讨论并且不带有任何特定的时间或时间顺序的意义,除非另外指明。
已经详细地参照具体实施例仅通过举例而非通过限制示出和描述了本发明的实施例的若干特征和方面。本领域普通技术人员将认识到对所公开的实施例的可替代的实现方式和各种修改在本公开的范围和设想内。因此,旨在认为本发明仅由所附权利要求书的范围限制。
Claims (25)
1.一种利用多节点系统中的可配置和容错的基板管理控制器(BMC)安排的方法,包括
检测多个BMC;
将所述多个BMC中的第一BMC指定为主BMC的角色,以及将除所述第一BMC以外的BMC指定为从BMC的角色,其中所述第一BMC被配置成用于所述多节点系统的一个或多个节点的监控、管理、支持、和控制方面中的至少一项,并且其中所述主BMC的角色包括相对于所述多节点系统的所述一个或多个节点的监控、管理、支持、以及控制方面中的至少一项充当中央接口;
由所述第一BMC传输与作为主BMC的所述第一BMC角色相关的信息;
确定所述第一BMC不再充当所述主BMC的角色;
指定除所述第一BMC以外的所述BMC充当所述主BMC的角色,包括允许超时周期以便所述系统的一个或多个系统组件反对除所述第一BMC以外的所述BMC承担主BMC的角色;
由除所述第一BMC以外的所述BMC承担所述主BMC的角色;
由除所述第一BMC以外的所述BMC利用与所述第一BMC作为主BMC的角色相关的所述信息以承担所述主BMC的角色。
2.如权利要求1所述的方法,包括实施超时周期以便允许反对所述指定除所述第一BMC以外的所述BMC充当所述主BMC的角色。
3.如权利要求1所述的方法,其中,基于算法确定以下的至少一项:所述指定所述多个BMC中的第一BMC充当主BMC的角色;以及所述指定除所述多个BMC中的所述第一BMC以外的BMC充当从BMC的角色。
4.如权利要求3所述的方法,其中,所述算法确定是由固件组件和软件应用中的至少一项进行的。
5.如权利要求3所述的方法,其中,所述算法确定利用标识号。
6.如权利要求1所述的方法,其中,由于系统组件的故障、物理移除、和指示中的一项,所述第一BMC不再充当所述主BMC的角色。
7.如权利要求1所述的方法,其中,所述第一BMC和除所述第一BMC以外的所述BMC中的至少一个通过网络接口被远程地配置。
8.一种利用多节点系统中的可配置和容错的基板管理控制器(BMC)安排的设备,包括用于执行根据权利要求1至7中任一项所述的方法的步骤的装置。
9.一种利用多节点系统中的可配置和容错的基板管理控制器(BMC)安排的装置,包括
处理组件;
存储器组件,包括第一应用;以及
BMC,被配置成用于执行权利要求1至7中任一项所述的方法。
10.一种利用多节点系统中的可配置和容错的基板管理控制器(BMC)安排的系统,包括:
机架,包括多个节点和电源;以及
节点服务器,包括:
处理组件;
存储器组件,包括第一应用;以及
BMC,被配置成用于执行权利要求1至7中任一项所述的方法。
11.一种利用多节点系统中的可配置和容错的基板管理控制器(BMC)安排的方法,包括:
将多个控制器中的第一控制器指定为主控制器的角色,以及将除所述第一控制器以外的控制器指定为从控制器的角色,其中所述第一控制器被配置成用于所述多节点系统的一个或多个节点的监控、管理、支持、和控制方面中的至少一项,并且其中所述主控制器的角色包括相对于所述多节点系统的所述一个或多个节点的监控、管理、支持、以及控制方面中的至少一项充当中央接口;
确定所述第一控制器不再充当所述主控制器的角色;
指定除所述第一控制器以外的控制器充当所述主控制器的角色,包括允许超时周期以便所述系统的一个或多个系统组件反对除所述第一控制器以外的所述控制器承担主控制器的角色;以及
由除所述第一控制器以外的所述控制器承担所述主控制器的角色。
12.如权利要求11所述的方法,进一步包括由所述第一控制器传输与所述第一控制器作为主控制器的角色相关的信息。
13.如权利要求11所述的方法,进一步包括指定除第一控制器以外的所述控制器充当所述主控制器的角色。
14.如权利要求11所述的方法,进一步包括由除所述第一控制器以外的所述控制器利用与所述第一控制器作为主控制器的角色相关的信息承担所述主控制器的角色。
15.如权利要求13所述的方法,包括实施超时周期以便允许反对所述指定所述除所述第一控制器以外的所述控制器充当所述主控制器的角色。
16.如权利要求13所述的方法,其中,基于算法确定以下的至少一项:所述指定所述多个控制器中的第一控制器充当主控制器的角色;以及所述指定除所述多个控制器中的所述第一控制器以外的控制器充当从控制器的角色。
17.如权利要求16所述的方法,其中,所述算法确定是由固件组件和软件应用中的至少一项进行的。
18.如权利要求16所述的方法,其中,所述算法确定利用标识号。
19.如权利要求11所述的方法,其中,由于系统组件的故障、物理移除、和指示中的一项,所述第一控制器不再充当所述主控制器的角色。
20.如权利要求11所述的方法,其中,所述第一控制器和除所述第一控制器以外的所述控制器中的至少一个通过网络接口被远程地配置。
21.一种利用多节点系统中的可配置和容错的控制器安排的设备,包括用于执行根据权利要求11至20中任一项所述的方法的步骤的装置。
22.一种利用多节点系统中的可配置和容错的控制器安排的装置,包括:
处理组件;
存储器组件,包括第一应用;以及
控制器,被配置成用于执行权利要求11至20中任一项所述的方法。
23.一种利用多节点系统中的可配置和容错的控制器安排的系统,包括:
机架,包括多个节点和电源;以及
节点服务器,包括:
处理组件;
存储器组件,包括第一应用;以及
控制器,被配置成用于执行权利要求11至20中任一项所述的方法。
24.一种存储指令的计算机可读存储介质,当所述指令被机器执行时使得所述机器执行权利要求1至7中任一项所述的方法。
25.一种存储指令的计算机可读存储介质,当所述指令被机器执行时使得所述机器执行权利要求11至20中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711408176.0A CN107977299B (zh) | 2012-03-28 | 2012-03-28 | 利用可配置和容错的基板管理控制器安排的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2012/030958 WO2013147767A1 (en) | 2012-03-28 | 2012-03-28 | Configurable and fault-tolerant baseboard management controller arrangement |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711408176.0A Division CN107977299B (zh) | 2012-03-28 | 2012-03-28 | 利用可配置和容错的基板管理控制器安排的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104169905A CN104169905A (zh) | 2014-11-26 |
CN104169905B true CN104169905B (zh) | 2019-06-11 |
Family
ID=49260833
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711408176.0A Active CN107977299B (zh) | 2012-03-28 | 2012-03-28 | 利用可配置和容错的基板管理控制器安排的方法及系统 |
CN201280071730.XA Active CN104169905B (zh) | 2012-03-28 | 2012-03-28 | 利用可配置和容错的基板管理控制器安排的方法、装置和系统 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711408176.0A Active CN107977299B (zh) | 2012-03-28 | 2012-03-28 | 利用可配置和容错的基板管理控制器安排的方法及系统 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9772912B2 (zh) |
CN (2) | CN107977299B (zh) |
DE (1) | DE112012006150T5 (zh) |
WO (1) | WO2013147767A1 (zh) |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107977299B (zh) | 2012-03-28 | 2022-01-25 | 英特尔公司 | 利用可配置和容错的基板管理控制器安排的方法及系统 |
JP6303405B2 (ja) * | 2013-11-01 | 2018-04-04 | 富士通株式会社 | 情報処理装置、管理装置、監視装置、監視プログラム、及び管理装置の監視方法 |
CN104679635A (zh) * | 2013-11-29 | 2015-06-03 | 鸿富锦精密电子(天津)有限公司 | 服务器监控电路 |
US9998359B2 (en) | 2013-12-18 | 2018-06-12 | Mellanox Technologies, Ltd. | Simultaneous operation of remote management and link aggregation |
US9619243B2 (en) * | 2013-12-19 | 2017-04-11 | American Megatrends, Inc. | Synchronous BMC configuration and operation within cluster of BMC |
US10148746B2 (en) | 2014-01-28 | 2018-12-04 | Mellanox Technologies, Ltd. | Multi-host network interface controller with host management |
US9804937B2 (en) * | 2014-09-08 | 2017-10-31 | Quanta Computer Inc. | Backup backplane management control in a server rack system |
US9985820B2 (en) | 2015-02-22 | 2018-05-29 | Mellanox Technologies, Ltd. | Differentiating among multiple management control instances using addresses |
US9729440B2 (en) | 2015-02-22 | 2017-08-08 | Mellanox Technologies, Ltd. | Differentiating among multiple management control instances using IP addresses |
US10157115B2 (en) * | 2015-09-23 | 2018-12-18 | Cloud Network Technology Singapore Pte. Ltd. | Detection system and method for baseboard management controller |
US11055080B2 (en) | 2016-01-13 | 2021-07-06 | Hewlett Packard Enterprise Development Lp | Serial bootloading of power supplies |
US10303568B2 (en) * | 2017-02-10 | 2019-05-28 | Dell Products L.P. | Systems and methods for high availability of management controllers |
US10827005B2 (en) * | 2017-03-01 | 2020-11-03 | Dell Products L.P. | Systems and methods of group automation for multi-chassis management |
CN107769960B (zh) * | 2017-09-07 | 2020-11-27 | 苏州浪潮智能科技有限公司 | 一种基于can总线的bmc管理架构 |
US10979497B2 (en) * | 2018-07-19 | 2021-04-13 | Cisco Technology, Inc. | Multi-node discovery and master election process for chassis management |
US11012306B2 (en) * | 2018-09-21 | 2021-05-18 | Cisco Technology, Inc. | Autonomous datacenter management plane |
US10896142B2 (en) | 2019-03-29 | 2021-01-19 | Intel Corporation | Non-volatile memory out-of-band management interface for all host processor power states |
US11113046B1 (en) * | 2019-09-24 | 2021-09-07 | Amazon Technologies, Inc. | Integration and remote control of a pre-assembled computer system into a server for a virtualization service |
US11853771B1 (en) | 2019-09-24 | 2023-12-26 | Amazon Technologies, Inc. | Offload card based virtualization of a pre-assembled computer system integrated into a server for a virtualization service |
US11424997B2 (en) * | 2019-12-10 | 2022-08-23 | Dell Products L.P. | Secured network management domain access system |
CN111984471B (zh) * | 2020-08-14 | 2022-11-25 | 苏州浪潮智能科技有限公司 | 一种机柜电源bmc冗余管理系统及方法 |
CN113886307A (zh) * | 2021-09-30 | 2022-01-04 | 阿里巴巴(中国)有限公司 | Bmc模块、服务器主板、bmc模块的热维护方法及系统 |
CN113835770B (zh) * | 2021-11-30 | 2022-02-18 | 四川华鲲振宇智能科技有限责任公司 | 一种服务器管理模块在线更换方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6889248B1 (en) * | 2000-04-12 | 2005-05-03 | Sun Microsystems, Inc. | Automatically configuring a server into a master or slave server based on its relative position in a server network |
CN1773461A (zh) * | 2004-11-12 | 2006-05-17 | 国际商业机器公司 | 处理结构故障的方法和系统 |
CN101324877A (zh) * | 2007-06-14 | 2008-12-17 | 国际商业机器公司 | 通过处理器构造连接的处理器卡的多节点配置的系统和制造方法 |
CN101663650A (zh) * | 2007-04-20 | 2010-03-03 | 国际商业机器公司 | 用于适配卡故障转移的设备、系统和方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6625750B1 (en) | 1999-11-16 | 2003-09-23 | Emc Corporation | Hardware and software failover services for a file server |
US7058703B2 (en) * | 2002-03-08 | 2006-06-06 | Intel Corporation | System management controller (SMC) negotiation protocol for determining the operational mode of SMCs |
CN1327341C (zh) * | 2004-01-13 | 2007-07-18 | 英业达股份有限公司 | 基板管理控制器的固件自动配置系统及方法 |
US8868790B2 (en) * | 2004-02-13 | 2014-10-21 | Oracle International Corporation | Processor-memory module performance acceleration in fabric-backplane enterprise servers |
TWI261751B (en) | 2005-06-13 | 2006-09-11 | Quanta Comp Inc | Mis-configuration detection methods and devices for blade systems |
US8023434B2 (en) * | 2007-09-18 | 2011-09-20 | International Business Machines Corporation | Arrangements for auto-merging and auto-partitioning processing components |
JP4659062B2 (ja) * | 2008-04-23 | 2011-03-30 | 株式会社日立製作所 | フェイルオーバ方法、プログラム、管理サーバおよびフェイルオーバシステム |
US8032791B2 (en) * | 2009-07-07 | 2011-10-04 | International Business Machines Corporation | Diagnosis of and response to failure at reset in a data processing system |
US8667110B2 (en) * | 2009-12-22 | 2014-03-04 | Intel Corporation | Method and apparatus for providing a remotely managed expandable computer system |
CN102201959A (zh) * | 2010-03-26 | 2011-09-28 | 英业达股份有限公司 | 基板管理控制器的网络接口系统 |
CN107977299B (zh) | 2012-03-28 | 2022-01-25 | 英特尔公司 | 利用可配置和容错的基板管理控制器安排的方法及系统 |
-
2012
- 2012-03-28 CN CN201711408176.0A patent/CN107977299B/zh active Active
- 2012-03-28 US US13/977,815 patent/US9772912B2/en active Active
- 2012-03-28 WO PCT/US2012/030958 patent/WO2013147767A1/en active Application Filing
- 2012-03-28 DE DE112012006150.0T patent/DE112012006150T5/de active Pending
- 2012-03-28 CN CN201280071730.XA patent/CN104169905B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6889248B1 (en) * | 2000-04-12 | 2005-05-03 | Sun Microsystems, Inc. | Automatically configuring a server into a master or slave server based on its relative position in a server network |
CN1773461A (zh) * | 2004-11-12 | 2006-05-17 | 国际商业机器公司 | 处理结构故障的方法和系统 |
CN101663650A (zh) * | 2007-04-20 | 2010-03-03 | 国际商业机器公司 | 用于适配卡故障转移的设备、系统和方法 |
CN101324877A (zh) * | 2007-06-14 | 2008-12-17 | 国际商业机器公司 | 通过处理器构造连接的处理器卡的多节点配置的系统和制造方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107977299B (zh) | 2022-01-25 |
CN107977299A (zh) | 2018-05-01 |
US20140229758A1 (en) | 2014-08-14 |
CN104169905A (zh) | 2014-11-26 |
DE112012006150T5 (de) | 2015-01-08 |
US9772912B2 (en) | 2017-09-26 |
WO2013147767A1 (en) | 2013-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104169905B (zh) | 利用可配置和容错的基板管理控制器安排的方法、装置和系统 | |
US10404690B2 (en) | Authentication-free configuration for service controllers | |
CN103329106B (zh) | Alua首选项和状态转换的主机发现和处理 | |
US20160196194A1 (en) | Automatic hardware recovery system | |
US20150169313A1 (en) | Integrated system and firmware update method | |
KR102147629B1 (ko) | 플렉시블 서버 시스템 | |
CN103649923B (zh) | 一种numa系统内存镜像配置方法、解除方法、系统和主节点 | |
US9928206B2 (en) | Dedicated LAN interface per IPMI instance on a multiple baseboard management controller (BMC) system with single physical network interface | |
CN112368982A (zh) | 用于机箱管理的多节点发现和主选举过程 | |
JP6491741B2 (ja) | セルオートマトンを用いたクラスタサーバの構成 | |
EP1573978B1 (en) | System and method for programming hyper transport routing tables on multiprocessor systems | |
US10303635B2 (en) | Remote host management using socket-direct network interface controllers | |
EP2710469A1 (en) | A method and a system for online and dynamic distribution and configuration of applications in a distributed control system | |
US20190056970A1 (en) | Method for computer-aided coupling a processing module into a modular technical system and modular technical system | |
CN105677373B (zh) | 一种节点热插拔的方法和numa节点装置 | |
CN101960435B (zh) | 用于执行主机枚举过程的方法和装置 | |
US20150261677A1 (en) | Apparatus and Method of Resolving Protocol Conflicts in an Unordered Network | |
CN104145222A (zh) | 用于控制逻辑的同步的设备和方法 | |
US11632290B2 (en) | Selective disaggregation advertisement for routing in multi-plane topologies | |
JP5322064B2 (ja) | アダプタ・カードのフェイルオーバのための装置、システム、方法、およびコンピュータ・プログラム | |
US20060195558A1 (en) | Redundant manager modules | |
CN103095739A (zh) | 机柜服务器系统及其节点通信方法 | |
CN113901015B (zh) | 分布式数据共享方法、装置、存储节点卡及计算机设备 | |
CN106326030A (zh) | 用于存储系统中的软切换的方法和装置 | |
US20210357347A1 (en) | Performance monitor for interconnection network in an integrated circuit |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |