CN115801640A - 基于arm阵列服务器的bmc管理板与网络交换板相互保活系统 - Google Patents

基于arm阵列服务器的bmc管理板与网络交换板相互保活系统 Download PDF

Info

Publication number
CN115801640A
CN115801640A CN202211405586.0A CN202211405586A CN115801640A CN 115801640 A CN115801640 A CN 115801640A CN 202211405586 A CN202211405586 A CN 202211405586A CN 115801640 A CN115801640 A CN 115801640A
Authority
CN
China
Prior art keywords
board
network switch
bmc management
bmc
management board
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211405586.0A
Other languages
English (en)
Inventor
晏阳新
刘毅
康万龙
赖如金
吴国
周志虎
蔡忠定
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Vclusters Information Technology Co ltd
Original Assignee
Shenzhen Vclusters Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Vclusters Information Technology Co ltd filed Critical Shenzhen Vclusters Information Technology Co ltd
Priority to CN202211405586.0A priority Critical patent/CN115801640A/zh
Publication of CN115801640A publication Critical patent/CN115801640A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Hardware Redundancy (AREA)

Abstract

本发明涉及ARM阵列服务器技术领域,公开了一种基于ARM阵列服务器的BMC管理板与网络交换板相互保活系统,包括BMC管理板、网络交换板、散热单元、电源模块和多组业务板卡,BMC管理板分别连接网络交换板、散热单元、电源模块和多组业务板卡,网络交换板还连接多组业务板卡;BMC管理板和网络交换板之间通过控制总线连接;BMC管理板和网络交换板之间具有心跳信号、在位和开机状态检测信号、低速控制信号,用于在BMC管理板出现非硬件失效类故障时对BMC管理板进行远程故障恢复。本发明提供的系统,当BMC管理板自身出现故障时,能够对其进行远程故障分析和故障恢复,降低服务器的运维成本。

Description

基于ARM阵列服务器的BMC管理板与网络交换板相互保活系统
技术领域
本发明涉及ARM阵列服务器技术领域,特别涉及一种基于ARM阵列服务器的BMC管理板与网络交换板相互保活系统。
背景技术
在ARM阵列服务器硬件系统中,除了多组业务板卡外,还需要具备一块负责对整机硬件系统进行控制管理的BMC管理板和一块用于业务网络交换的网络交换板。BMC管理板主要用于对整机各硬件单元模块(如多组业务板卡、网络交换板、散热单元模块、电源模块等)的控制和管理功能,在服务器硬件系统中处于管理核心地位,故BMC管理板的运行稳定性和在线故障恢复能力至关重要。
网络交换板在服务器系统中负责各业务板卡的网络交换功能,并对外提供统一的业务网络接口,其功能相当于一台二层以太网交换机,是多组业务板卡的业务汇聚和交换中心,也是服务器系统的核心单元模块。
当前市场主流的ARM阵列服务器硬件设计方案中,如果网络交换板、各业务板卡、散热单元模块等出现故障可以使用BMC管理板进行远程故障原因分析定位和在线故障恢复;但如果BMC管理板本身出现故障,整台服务器设备都会失联,服务器运维人员则无法对服务器进行远程控制和管理,只能到数据中心对服务器的BMC管理板进行现场运维,这样不但服务器的可用性会降低,而且也增加了服务器的运维成本。
发明内容
本发明提供了一种基于ARM阵列服务器的BMC管理板与网络交换板相互保活系统,当BMC管理板自身出现故障时,能够对其进行远程故障分析和故障恢复,降低服务器的运维成本。
本发明提供了一种基于ARM阵列服务器的BMC管理板与网络交换板相互保活系统,包括BMC管理板、网络交换板、散热单元、电源模块和多组业务板卡,所述BMC管理板分别连接所述网络交换板、散热单元、电源模块和多组业务板卡,所述网络交换板还连接多组业务板卡;
所述BMC管理板和所述网络交换板之间通过控制总线连接,所述控制总线包括I2C总线、UART总线、以太网总线;所述BMC管理板和所述网络交换板之间具有心跳信号、在位和开机状态检测信号、低速控制信号,所述心跳信号、在位和开机状态检测信号、低速控制信号用于在BMC管理板出现非硬件失效类故障时对所述BMC管理板进行远程故障恢复。
进一步地,所述心跳信号为固定频率的PWM波形;所述BMC管理板的处理器输出第一心跳信号,所述网络交换板的处理器接收所述第一心跳信号,所述第一心跳信号为所述BMC管理板的心跳信号;所述网络交换板的处理器输出第二心跳信号,所述BMC管理板的处理器接收所述第二心跳信号,所述第二心跳信号为所述网络交换板的心跳信号;
若所述网络交换板接收的所述第一心跳信号中断设定时间,则所述网络交换板认定所述BMC管理板已经产生故障,所述网络交换板对所述BMC管理板采取故障恢复措施,其中,所述故障为死机、操作系统异常。
进一步地,所述I2C总线用于所述BMC管理板和网络交换板之间相互获取对方的电流、电压、温度、FRU信息,所述UART总线用于所述BMC管理板和网络交换板之间相互获取对方处理器系统的debug信息和系统软硬件运行信息,并可以进入串口命令对其进行硬件调试和控制,所述以太网总线用于所述BMC管理板和网络交换板之间与对方进行数据量的传输交互,以及通过网络与对方进行控制管理数据的传输;
进一步地,所述在位和开机状态检测信号包括在位信号和开机检测信号,所述在位信号用于所述BMC管理板和网络交换板之间检测对方板卡物理上是否安装在服务器机箱内,所述开机状态检测信号用于所述BMC管理板和网络交换板之间检测对方是否处于工作状态;
当所述BMC管理板出现状态异常时,服务器运维人员通过网络交换板的网络远程登录到网络交换板,进而通过所述UART总线和I2C总线对所述BMC管理板进行故障分析/调试和在线故障恢复。
进一步地,所述低速控制信号包括复位信号和上下电控制信号。
进一步地,当服务器运维人员通过所述在位和开机状态检测信号无法对所述BMC管理板进行故障在线恢复时,通过所述复位信号重启所述BMC管理板,或控制所述BMC管理板进行下电再上电以对其进行工作状态恢复;若所述BMC管理板操作系统启动异常,通过所述UART总线或以太网总线对所述BMC管理板进行操作系统重新安装/升级,以使所述BMC管理板恢复正常工作状态。
本发明的有益效果为:
本发明提供的基于ARM阵列服务器的BMC管理板与网络交换板相互保活系统,当BMC管理板出现非硬件失效故障时(如死机、操作系统损坏等软件故障),服务器运维人员无需到设备现场进行运维,通过服务器的网络交换板即可对BMC管理板进行故障在线分析和故障远程恢复,极大的提升了服务器的可用性,也极大的降低的服务器的运维成本,提升了服务器运维的时效性。
附图说明
图1为本发明中基于ARM阵列服务器的BMC管理板与网络交换板相互保活系统的结构示意图。
图2为本发明中BMC管理板和网络交换板之间传输心跳信号的结构示意图。
图3为本发明中BMC管理板和网络交换板之间传输在位和开机状态检测信号的结构示意图。
图4为本发明中BMC管理板和网络交换板之间传输低速控制信号的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
目前市场上通用的ARM阵列服务器,BMC管理板是整个服务器的唯一管理部件,BMC管理板用于管理服务器中的各硬件单元模块(如多组业务板卡、网络交换板、散热单元模块、电源模块等),而没有任何硬件单元模块可以对BMC管理板进行控制管理,所以一旦它本身出现故障(如死机、操作系统异常),则没有其它方案来对它进行故障远程恢复(如复位重启、重新上下电、重新安装操作系统等等),只能去现场运维。因为通用ARM阵列服务器的网络交换板的都是由中高端网络交换芯片及其外设实现的,且配合网络交换功能实现网络交换芯片都会有内置或外挂一颗CPU处理器,因此通过CPU处理器可以实现对BMC管理板的控制和管理功能,本发明专利提出一种BMC管理板和网络交换板互相保活和互相管理的系统,用来解决以上技术痛点问题。
如图1所示,本发明提供了一种基于ARM阵列服务器的BMC(Baseboard ManagementController,基板管理控制器)管理板与网络交换板相互保活系统,包括BMC管理板、网络交换板、散热单元、电源模块和多组业务板卡,所述BMC管理板分别连接所述网络交换板、散热单元、电源模块和多组业务板卡,所述网络交换板还连接多组业务板卡;
所述BMC管理板和所述网络交换板之间通过控制总线连接,所述控制总线包括I2C(Inter-Integrated Circuit,通信协议)总线、UART(Universal AsynchronousReceiver/Transmitter,异步串口通信协议)总线、以太网总线、USB、GPIO(GeneralPurpose Input Output,通用输入输出接口);
本发明专利在BMC管理板和网络交换板之间增加了三种信号,用于保证BMC管理板出现非硬件失效类故障时,可以对它进行远程故障恢复。所述BMC管理板和所述网络交换板之间具有心跳信号、在位和开机状态检测信号、低速控制信号,所述心跳信号、在位和开机状态检测信号、低速控制信号用于在BMC管理板出现非硬件失效类故障时对所述BMC管理板进行远程故障恢复。
如图2所示,第一种信号为心跳信号:所述心跳信号为固定频率的PWM(PulseWidth Modulation,脉宽调制)波形;BMC管理板和网络交换板之间的心跳信号,所述BMC管理板的处理器输出第一心跳信号(BMC管理板的心跳信号,为固定频率的PWM波形),所述网络交换板的处理器接收所述第一心跳信号,所述第一心跳信号为所述BMC管理板的心跳信号;所述网络交换板的处理器输出第二心跳信号(网络交换板的心跳信号,为固定频率的PWM波形),所述BMC管理板的处理器接收所述第二心跳信号,所述第二心跳信号为所述网络交换板的心跳信号;
当所述网络交换板接收的所述第一心跳信号中断设定时间时,所述网络交换板认定所述BMC管理板已经产生故障(死机、操作系统异常等),所述网络交换板对所述BMC管理板采取故障恢复措施,其中,所述故障为死机、操作系统异常。
如图3所示,第二种信号为在位和开机状态检测信号:BMC管理板与网络交换板之间的管理控制总线,如I2C总线、UART总线、以太网总线等,所述I2C总线用于所述BMC管理板和网络交换板之间相互获取对方的电流、电压、温度、FRU信息等,所述UART总线用于所述BMC管理板和网络交换板之间相互获取对方处理器系统的debug信息和系统软硬件运行信息,并可以进入串口命令对其进行硬件调试和控制,所述以太网总线作为高速总线用于所述BMC管理板和网络交换板之间与对方进行数据量(大数据量)的传输交互,如在线系统安装/升级、应用软件升级等,也可以通过网络与对方进行控制管理数据的传输;
所述在位和开机状态检测信号包括在位信号和开机检测信号,所述在位信号用于所述BMC管理板和网络交换板之间检测对方板卡物理上是否安装在服务器机箱内,所述开机状态检测信号用于所述BMC管理板和网络交换板之间检测对方是否处于工作状态,这两个信号是上述3类总线可以投入工作的先决条件,BMC管理板对网络交换板进行控制管理是通用服务器的常规操作,在此不再赘述。
当所述BMC管理板出现状态异常(如死机,即心跳信号丢失)时,服务器运维人员通过网络交换板的网络远程登录到网络交换板,进而通过所述UART总线和I2C总线对所述BMC管理板进行故障分析/调试和在线故障恢复。
如图4所示,第三种信号为低速控制信号:BMC管理板与网络交换板之间的低速控制信号,所述低速控制信号包括复位信号和上下电控制信号。BMC管理板对网络交换板进行控制管理是通用服务器的常规操作,在此不再赘述。当服务器运维人员通过所述在位和开机状态检测信号无法对所述BMC管理板进行故障在线恢复时,通过所述复位信号重启所述BMC管理板,或控制所述BMC管理板进行下电再上电以对其进行工作状态恢复;若所述BMC管理板操作系统启动异常,通过所述UART总线或以太网总线对所述BMC管理板进行操作系统重新安装/升级,以使所述BMC管理板恢复正常工作状态。
本发明提供的基于ARM阵列服务器的BMC管理板与网络交换板相互保活系统,当BMC管理板出现非硬件失效故障时(如死机、操作系统损坏等软件故障),服务器运维人员无需到设备现场进行运维,通过服务器的网络交换板即可对BMC管理板进行故障在线分析和故障远程恢复,极大的提升了服务器的可用性,也极大的降低的服务器的运维成本,提升了服务器运维的时效性。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (6)

1.一种基于ARM阵列服务器的BMC管理板与网络交换板相互保活系统,其特征在于,包括BMC管理板、网络交换板、散热单元、电源模块和多组业务板卡,所述BMC管理板分别连接所述网络交换板、散热单元、电源模块和多组业务板卡,所述网络交换板还连接多组业务板卡;
所述BMC管理板和所述网络交换板之间通过控制总线连接,所述控制总线包括I2C总线、UART总线、以太网总线;所述BMC管理板和所述网络交换板之间具有心跳信号、在位和开机状态检测信号、低速控制信号,所述心跳信号、在位和开机状态检测信号、低速控制信号用于在BMC管理板出现非硬件失效类故障时对所述BMC管理板进行远程故障恢复。
2.根据权利要求1所述的基于ARM阵列服务器的BMC管理板与网络交换板相互保活系统,其特征在于,所述心跳信号为固定频率的PWM波形;所述BMC管理板的处理器输出第一心跳信号,所述网络交换板的处理器接收所述第一心跳信号,所述第一心跳信号为所述BMC管理板的心跳信号;所述网络交换板的处理器输出第二心跳信号,所述BMC管理板的处理器接收所述第二心跳信号,所述第二心跳信号为所述网络交换板的心跳信号;
若所述网络交换板接收的所述第一心跳信号中断设定时间,则所述网络交换板认定所述BMC管理板已经产生故障,所述网络交换板对所述BMC管理板采取故障恢复措施,其中,所述故障为死机、操作系统异常。
3.根据权利要求1所述的基于ARM阵列服务器的BMC管理板与网络交换板相互保活系统,其特征在于,所述I2C总线用于所述BMC管理板和网络交换板之间相互获取对方的电流、电压、温度、FRU信息,所述UART总线用于所述BMC管理板和网络交换板之间相互获取对方处理器系统的debug信息和系统软硬件运行信息,并可以进入串口命令对其进行硬件调试和控制,所述以太网总线用于所述BMC管理板和网络交换板之间与对方进行数据量的传输交互,以及通过网络与对方进行控制管理数据的传输。
4.根据权利要求3所述的基于ARM阵列服务器的BMC管理板与网络交换板相互保活系统,其特征在于,所述在位和开机状态检测信号包括在位信号和开机检测信号,所述在位信号用于所述BMC管理板和网络交换板之间检测对方板卡物理上是否安装在服务器机箱内,所述开机状态检测信号用于所述BMC管理板和网络交换板之间检测对方是否处于工作状态;
当所述BMC管理板出现状态异常时,服务器运维人员通过网络交换板的网络远程登录到网络交换板,进而通过所述UART总线和I2C总线对所述BMC管理板进行故障分析/调试和在线故障恢复。
5.根据权利要求4所述的基于ARM阵列服务器的BMC管理板与网络交换板相互保活系统,其特征在于,所述低速控制信号包括复位信号和上下电控制信号。
6.根据权利要求5所述的基于ARM阵列服务器的BMC管理板与网络交换板相互保活系统,其特征在于,当服务器运维人员通过所述在位和开机状态检测信号无法对所述BMC管理板进行故障在线恢复时,通过所述复位信号重启所述BMC管理板,或控制所述BMC管理板进行下电再上电以对其进行工作状态恢复;若所述BMC管理板操作系统启动异常,通过所述UART总线或以太网总线对所述BMC管理板进行操作系统重新安装/升级,以使所述BMC管理板恢复正常工作状态。
CN202211405586.0A 2022-11-10 2022-11-10 基于arm阵列服务器的bmc管理板与网络交换板相互保活系统 Pending CN115801640A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211405586.0A CN115801640A (zh) 2022-11-10 2022-11-10 基于arm阵列服务器的bmc管理板与网络交换板相互保活系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211405586.0A CN115801640A (zh) 2022-11-10 2022-11-10 基于arm阵列服务器的bmc管理板与网络交换板相互保活系统

Publications (1)

Publication Number Publication Date
CN115801640A true CN115801640A (zh) 2023-03-14

Family

ID=85436678

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211405586.0A Pending CN115801640A (zh) 2022-11-10 2022-11-10 基于arm阵列服务器的bmc管理板与网络交换板相互保活系统

Country Status (1)

Country Link
CN (1) CN115801640A (zh)

Similar Documents

Publication Publication Date Title
US7930388B2 (en) Blade server management system
CN111767244B (zh) 基于国产龙芯平台的双冗余计算机设备
US7685348B2 (en) Dedicated server management card with hot swap functionality
CN117251333A (zh) 一种硬盘信息获取方法、装置、设备及存储介质
CN114116280A (zh) 交互式bmc自恢复方法、系统、终端及存储介质
CN111488050B (zh) 一种电源监控方法、系统及服务器
CN111984471B (zh) 一种机柜电源bmc冗余管理系统及方法
CN107544883B (zh) 服务器的诊断装置、系统和方法
CN102255766B (zh) 服务器系统
CN218824636U (zh) 一种用于服务器硬盘背板的电源检测装置
CN116627729A (zh) 外接线缆、外接线缆在位检测装置、开机自检方法及系统
CN102053847B (zh) 服务器与其更新方法
CN115801640A (zh) 基于arm阵列服务器的bmc管理板与网络交换板相互保活系统
CN113220324B (zh) 一种cpld远程更新的方法、系统及介质
CN116028123A (zh) 一种服务器安全开关机方法及系统
CN115934446A (zh) 一种自检方法、服务器、设备和存储介质
CN115098342A (zh) 系统日志收集方法、系统、终端及存储介质
CN115470056A (zh) 服务器硬件上电启动故障排查方法、系统、装置及介质
CN115269244A (zh) 一种控制方法、装置及电子设备
CN111913551B (zh) 重置基板管理控制器的控制方法
CN113722185B (zh) 一种国产化计算机远程管理系统
JP2004348335A (ja) 障害検出方法及び情報処理システム
JP3794358B2 (ja) 電源制御方法
CN115129516B (zh) 一种PCIe设备I2C挂死问题处理方法及相关组件
CN212061141U (zh) 频外的外接控制设备与系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination