CN114356725A - 机箱管理系统 - Google Patents

机箱管理系统 Download PDF

Info

Publication number
CN114356725A
CN114356725A CN202210279484.2A CN202210279484A CN114356725A CN 114356725 A CN114356725 A CN 114356725A CN 202210279484 A CN202210279484 A CN 202210279484A CN 114356725 A CN114356725 A CN 114356725A
Authority
CN
China
Prior art keywords
bmc
chassis
management
case
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210279484.2A
Other languages
English (en)
Other versions
CN114356725B (zh
Inventor
黄玉龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202210279484.2A priority Critical patent/CN114356725B/zh
Publication of CN114356725A publication Critical patent/CN114356725A/zh
Application granted granted Critical
Publication of CN114356725B publication Critical patent/CN114356725B/zh
Priority to PCT/CN2022/121847 priority patent/WO2023178975A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • G06F15/163Interprocessor communication

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Hardware Redundancy (AREA)

Abstract

本申请公开了一种机箱管理系统,包括硬件层、固件层、操作系统层、应用层及集群管理中心;硬件层包括由主BMC访问、用于采集机箱信息以及将集群的每个控制节点分别与各BMC进行网络互联的共享器件和多个由对应控制节点的BMC管理的单控归属器件。固件层包括机箱管理控制模块、多个BMC及其对应的处理器;各处理器用于从各BMC中选择出主BMC;机箱管理控制模块实现网络通信。操作系统层与各BMC进行通信,应用层通过调用BMC接口访问操作系统层,并通过机箱管理控制模块获取各BMC缓存的硬件数据信息;集群管理中心管理,每个控制节点通过访问所有BMC所获取的所有机箱的硬件数据信息,可有效提高多控存储器的机箱管理效率。

Description

机箱管理系统
技术领域
本申请涉及存储技术领域,特别是涉及一种机箱管理系统。
背景技术
BMC(Baseboard Manager Controller,基板管理控制器)为伺服器远端管理控制器,可用于实现多控制器的存储产品的机箱管理。在服务器未开机状态下,可执行服务器设备的固件升级、机器设备查询等一些操作。相较双控的统一存储,统一高端存储的存储性能更好,可靠性更高。
统一高端存储采用一框2个控制器进行设备管理,每个控制器对应一个BMC,机箱管理过程中,采用主从同步方式实现各BMC之间的数据同步,也即每个BMC要将所有硬件状态数据同步到其他3个BMC上,这种方式数据同步信息量大,时效性差,机箱管理效率不高。
发明内容
本申请提供了一种机箱管理系统,有效提高了多控制器的存储产品的机箱管理效率。
为解决上述技术问题,本发明实施例提供以下技术方案:
本发明实施例提供了一种机箱管理系统,包括硬件层、固件层、操作系统层、应用层及集群管理中心;
所述硬件层包括由主BMC访问的共享器件和由每个BMC管理的单控归属器件;所述共享器件用于采集机箱信息以及用于将集群的每个控制节点分别与各BMC进行网络互联;
所述固件层包括机箱管理控制模块、多个BMC及其对应的处理器;各处理器用于对相应控制节点的单控归属器件进行管理,并从各BMC中选择主BMC;所述机箱管理控制模块用于实现网络通信;
所述操作系统层用于与各BMC进行通信,并访问各BMC;
所述应用层用于通过调用BMC接口访问所述操作系统层,并通过所述机箱管理控制模块获取各BMC缓存的硬件数据信息;
所述集群管理中心用于管理每个控制节点通过访问所有BMC所获取的所有机箱的硬件数据信息。
可选的,所述共享器件包括设置在机框上的机箱硬件、网络管理板和机箱电源;所述共享器件通过I2C与每个BMC连接;
所述机箱硬件用于采集机箱信息以及指示机箱信息;
所述网络管理板用于提供网络互连功能,以将集群的每个控制节点分别与各BMC进行互联。
可选的,所述机箱硬件包括以下任意一项或任意组合:
背板 VPD、机箱 LED、机箱温度传感器;
其中,所述背板 VPD用于获取机箱电子标签信息;所述机箱 LED用于指示机箱故障信息和机箱告警信息;所述机箱温度传感器用于测量机箱环境温度。
可选的,所述机箱管理控制模块包括第一机箱管理控制器和第二机箱管理控制器;
所述第一机箱管理控制器和所述第二机箱管理控制器均与各BMC相连,用于实现网络通信;
所述第一机箱管理控制器和第二机箱管理控制器实现网络冗余,且网络绑定模式为主备模式。
可选的,所述单控归属器件包括以下任意一项或任意组合:
CAN VPD、CAN LED、CAN 传感器、风扇、IO扩展卡;
其中,所述CAN VPD用于获取相应控制节点的控制器电子标签信息;所述CAN LED用于指示相应控制节点的节点故障信息或节点告警信息或节点定位信息;所述CAN 传感器用于采集相应控制节点的节点温度信息和节点电压信息;所述IO扩展卡用于对存储前端或存储后端进行链接扩展。
可选的,所述操作系统层包括与各控制节点对应的多个智能平台管理工具;
每个智能平台管理工具均与所有BMC通信,以通过所述智能平台管理工具访问各BMC。
可选的,所述操作系统层还用于通过所述第一机箱管理控制器或所述第二机箱管理控制器执行对各BMC的固件升级操作。
可选的,所述应用层包括与每个控制节点对应的多个高清监视器;
各高清监视器用于通过调用相应的BMC接口获取所有BMC缓存的硬件数据信息,并通过轮询各BMC和所述主BMC实现对硬件的管理;
各高清监视器均与所述集群管理中心相连,以将相应控制节点通过访问所有BMC所得的硬件数据信息同步至所述集群管理中心。
可选的,所述主BMC具有虚拟IP,所述集群的各控制节点通过所述虚拟IP访问所述主BMC;
所述处理器还用于当检测到所述主BMC切换时,将所述虚拟IP漂移至当前主BMC。
可选的,所述处理器进一步用于:
各BMC预先设置用于执行主BMC切换顺序的物理编号;
获取各BMC的心跳状态信息;
若检测到所述主BMC不在位或者是异常,则判断与所述主BMC的物理编号相邻的下一个候选BMC是否在位且正常;
若与所述主BMC的物理编号相邻的下一个候选BMC在位且正常,则将所述候选BMC作为当前主BMC。
本申请提供的技术方案的优点在于,通过网络互联技术,将每个BMC均与存储产品的每个控制器节点进行关联,实现各控制节点可以同时且实时访问多个BMC所采集的数据,不仅实现了链路和控制节点的冗余,有利于提高存储产品的可靠性,还可通过单个控制节点监控整个机箱的硬件状态,提高机箱管理效率。此外,每个控制节点可将所采集的数据统一发送给集群管理中心,保持数据一致,各BMC之间无需耗费时间进行数据同步,时效性高,可进一步提升存储产品的机箱管理效率,而且由于每个控制节点获取的均是全量信息,还可进一步提高数据一致性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
为了更清楚的说明本发明实施例或相关技术的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的机箱管理系统的一种具体实施方式结构图;
图2为本发明实施例提供的机箱管理系统的另一种具体实施方式结构图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等是用于区别不同的对象,而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
在介绍了本发明实施例的技术方案后,下面详细的说明本申请的各种非限制性实施方式。
首先参见图1,图1为本发明实施例提供的一种机箱管理系统在一种具体实施方式下的结构框架示意图,本发明实施例可包括以下内容:
机箱管理系统可包括硬件层1、固件层2、操作系统层3、应用层4及集群管理中心5。
其中,硬件层1包括多控制器存储产品的硬件器件,该层包括两类硬件,一类硬件为由每个控制节点的BMC单独进行访问并管理的硬件,也即只归属每个控制节点的硬件,为了便于描述,称该类硬件为单控归属器件,多控制器存储产品的每个控制节点均对应一组单控归属器件,单控归属器件的组数与多控存储产品的控制器或者是说控制节点总数相同,且每个控制节点所包含的单控归属器件的种类和个数均相同。每个单控归属器件可通过任何一种总线与所属BMC进行连接。为了便于描述,另一类硬件可称为共享器件,共享器件只能由主BMC进行访问和管理,且共享器件只有一组。由于主BMC是会从各BMC中选出来的,且若原主BMC故障或无法承载业务时,主BMC会变化,所以共享器件可通过任何一种总线与每个控制节点的BMC均连接。本实施例的共享器件可用于采集整个机箱信息以及用于将集群的每个控制节点分别与各BMC进行网络互联。
在本实施例中,固件层2为写入EPROM(可擦写可编程只读存储器)或EEPROM(电可擦可编程只读存储器)中的所有程序,包括硬件层1的各硬件设备内部存储的驱动程序。固件层2除了包括每个控制器对应的BMC之外,还包括用于对相应控制节点的单控归属器件进行管理、以及负责为当前存储产品选择主BMC的处理器,每个BMC与一个处理器相连,也即处理器的个数与多控存储产品的控制器的总数相同。处理器可以包括一个或多个处理核心,比如4核心处理器、8核心处理器,处理器还可为控制器、微控制器、微处理器或其他数据处理芯片等。处理器可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable LogicArray,可编程逻辑阵列)、CPLD(Complex Programmable logic device,复杂可编程逻辑器件)中的至少一种硬件形式来实现。当然,处理器也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central Processing Unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器甚至可以集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容如存储产品中存储的数据信息的渲染和绘制。一些实施例中,处理器还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。考虑到整个系统成本,本实施例的处理器可为CPLD。由于硬件层1的共享器件中包括实现将集群中每个控制节点与各BMC进行网络互连的硬件设备,相应的,固件层2可包括机箱管理控制模块,机箱管理控制模块用于实现网络通信。
在本实施例中,操作系统层3用于与各BMC进行通信,并访问各BMC;操作系统层3可提供实现与BMC通信的工具,每个工具对应一个控制节点,每个工具的一端与所对应的应用层4的BMC接口相连,另一端通过任何一种总线分别与每个BMC相连。操作系统层3提供应用层4与固件层2的BMC的连接通道,从而使得应用层4可通过调用BMC接口访问操作系统层3,通过操作系统层3所提供的通道,基于机箱管理控制模块所提供的网络互连功能去访问BMC,进而实现获取各BMC缓存的硬件数据信息。本实施例的应用层4中的BMC接口包括多个,一个BMC对应一个BMC接口,用户可通过应用层4所提供的人机交互页面、通过任意一个BMC接口,获取所有BMC所采集的数据,也即每个控制节点可以获取多控存储产品的每个BMC所采集的全量数据,也就是说,每个控制节点可以获取到完全相同、可反映各机箱运行状态信息的全量数据。在控制节点获取得到全量数据之后,可将获取的所有数据统一发送至集群管理中心5。集群管理中心5用于管理每个控制节点通过访问所有BMC所获取的所有机箱的硬件数据信息,从而实现对多控制器的存储产品的机箱管理与控制。
在本发明实施例提供的技术方案中,通过网络互联技术,将每个BMC均与存储产品的每个控制器节点进行关联,实现各控制节点可以同时且实时访问多个BMC所采集的数据,不仅实现了链路和控制节点的冗余,有利于提高存储产品的可靠性,还可通过单个控制节点监控整个机箱的硬件状态,提高机箱管理效率。此外,每个控制节点可将所采集的数据统一发送给集群管理中心,保持数据一致,各BMC之间无需耗费时间进行数据同步,时效性高,可进一步提升存储产品的机箱管理效率,而且由于每个控制节点获取的均是全量信息,还可进一步提高数据一致性。
上述实施例对硬件层1所包含的硬件并没有进行任何限定,基于上述实施例,作为一种可选的实施方式,硬件层1的结构可包括下述内容:
本实施例的单控归属器件包括以下任意一项或任意组合:CAN(Controller AreaNetwork,控制器局域网络) VPD(Vital Product Dat,重要产品数据)、CAN LED(light-emitting diode,发光二极管)、CAN 传感器、fantry(风扇)、IO扩展卡(Input/Output,输入/输出)。当然,每个控制节点的控制器也属于单控归属器件。
其中,CAN VPD用于获取相应控制节点的控制器电子标签信息; VPD是与一组特定硬件或软件相关的配置和信息数据的集合,其存储该设备的一些重要信息,例如部件号(part number),序列号(serial number)、需要持久化信息以及设备指定的一些数据CANLED作为节点指示灯,用于指示相应控制节点的节点故障信息或节点告警信息或节点定位信息,也即用于定位或告警指示。CAN 传感器用于采集相应控制节点的节点温度信息和节点电压信息,相应的,CAN传感器可包括节点温度传感器、节点电压传感器等。fantry用于进行散热。IO扩展卡用于对存储前端或存储后端进行链接扩展。
共享器件是设置在机框上的一组需要所有控制节点均访问的硬件,其可包括机箱硬件、网络管理板和机箱电源;I2C不支持同时访问,同时访问会造成挂死问题,共享器件可通过I2C(Inter-Integrated Circuit,两线式串行总线)与每个BMC连接,由选择出来的主BMC节点进行访问,各控制节点通过访问BMC实现对共享器件的访问。其中,机箱硬件用于采集机箱信息以及指示机箱信息;机箱硬件可包括以下任意一项或任意组合:背板 VPD、机箱LED、机箱温度传感器。背板 VPD用于获取机箱电子标签信息;机箱 LED作为机箱指示灯,用于指示机箱故障信息和机箱告警信息;机箱温度传感器用于测量机箱环境温度。网络管理板用于提供网络互连功能,以将集群的每个控制节点分别与各BMC进行互联。
作为一种可选的实施方式,为了提高整个存储产品的可靠性,可通过双链路实现网络冗余,提高链路可靠性,进而提升存储产品可靠性,基于此,本实施例还可包括:
机箱管理控制模块可包括第一机箱管理控制器CMC1和第二机箱管理控制器CMC2;第一机箱管理控制器和第二机箱管理控制器均与各BMC相连,用于实现网络通信;第一机箱管理控制器CMC1和第二机箱管理控制器CMC2实现网络冗余,且网络绑定模式为主备模式。
在本实施例中,为了提高网络速度,机箱管理控制模块可采用网卡bonding模式,也将多张物理网卡通过软件虚拟成一个虚拟的网卡,配置完毕后,所有的物理网卡的ip和mac将会变成相同的。网络bond模式配置模式包括七种:1.Mode=0(balance-rr,平衡负载模式)表示负载分担round-robin(轮询调度),和交换机的聚合强制不协商的方式配合。2.Mode=1(active-backup,主备模式),只有一块网卡是active(活跃状态),另外一块是备的standby(备用状态),由于交换机往两块网卡发包,有一半包是丢弃的,这时如果交换机配的是捆绑,将不能正常工作。3.Mode=2(balance-xor)表示XOR Hash负载分担,和交换机的聚合强制不协商方式配合。(需要xmit_hash_policy)4.Mode=3(broadcast,广播)表示所有包从所有接口interface发出,这个不均衡,只有冗余机制,和交换机的聚合强制不协商方式配合。5.Mode=4(802.3ad)表示支持802.3ad协议,和交换机的聚合LACP(LinkAggregation Control Protocol,链路汇聚控制协议)方式配合(需要xmit_hash_policy)。6.Mode=5(balance-tlb(Translation Lookaside Buffer,后备缓存器))是根据每个slave的负载情况选择slave进行发送,接收时使用当前轮到的slave。7.Mode=6(balance-alb(Automatic Loop Back,自动回环),平衡负载模式)在Mode=5的tlb基础上增加了rlb(receive load balance,负载均衡)。为了实现网卡的负载均衡及冗余,本实施例可采用Bond1的主备模式,只有一个slave(从设备)被激活,只有当active(活跃)的slave的接口down(关闭)时,才会激活其它slave接口。主备模式下发生一次故障切换,在新激活的slave接口上会发送一个或者多个gratuitous ARP(免费ARP(Address Resolution Protocol,地址解析协议))请求。主salve接口上以及配置在接口上的所有VLAN(Virtual Local AreaNetwork,虚拟局域网)接口都会发送gratuitous ARP,需要在这些接口上配置了至少一个IP地址。VLAN接口上发送的gratuitous ARP将会附上适当的VLAN id。本模式提供容错能力。在本实施例中,默认是通过CMC1进行通信,如果CMC1故障或不在位,则切换至CMC2进行网络通信。相应的,硬件层1中的共享器件的网络管理板可为CMC管理板。
上述实施例对整个机箱管理架构中与BMC相连所采用的总线并不进行限定,由于I2C为一种简单、双向二线制同步串行总线,只需要两根线即可在连接于总线上的器件之间传送信息,作为一种可选的实施方式,本实施例的各硬件设备可通过I2C与各BMC相连,也即可通过I2C访问硬件设备,相应的,处理器还用于为每个I2C分配一个I2C地址,为每个GPIO(General-purpose input/output,通用型之输入输出)分配相应地址。
上述实施例对操作系统层3提供与BMC进行连接的方式并不进行限定,作为一种可选的实施方式,操作系统层3可包括与各控制节点对应的多个智能平台管理工具Ipmitool,也即智能平台管理工具的总数与多控制器的存储产品的控制节点数相同。Ipmi(Intelligent Platform Management Interface,智能平台管理接口) tool可用在linux系统下的命令行方式,既支持本地操作也支持远端操作,能够不依赖服务器的CPU、内存、存储、电源等独立工作。通过其可以实现获取传感器的信息、显示系统日志内容、网络远程开关机等功能。每个智能平台管理工具均与存储产品的所有BMC通信,以通过智能平台管理工具访问各BMC。这样,每个控制节点可通过Ipmitool工具访问各BMC获取所有硬件数据,简单高效。
进一步的,为了提高整个机箱管理系统的实用性和便捷性,操作系统层3还可用于通过第一机箱管理控制器或第二机箱管理控制器执行对各BMC的固件升级操作。如图2所示,可通过Yafu-upgrade.sh-firmare.sh实现对固件的升级。
上述实施例对应用层4的软件结构并没有进行任何限定,基于上述实施例,本实施例的应用层4可包括与每个控制节点对应的多个高清监视器,也即高清监视器的总数与多控制器的存储产品的控制节点数相同。各高清监视器用于通过调用相应的BMC接口获取所有BMC缓存的硬件数据信息,并通过轮询各BMC和主BMC实现对硬件的管理;各高清监视器均与集群管理中心相连,以将相应控制节点通过访问所有BMC所得的硬件数据信息同步至集群管理中心。当然,应用层4也可通过其他监控器或者是其他方式调用接口与操作系统层3连接,并执行BMC数据获取操作,这均不影响本申请的实现。
上述实施例对主BMC的选择方式并不进行任何限定,基于上述实施例,本申请还提供了主BMC的一种可行的选择方式,可包括下述内容:
处理器可进一步用于:各BMC预先设置用于执行主BMC切换顺序的物理编号;获取各BMC的心跳状态信息;若检测到主BMC不在位或者是异常,则判断与主BMC的物理编号相邻的下一个候选BMC是否在位且正常;若与主BMC的物理编号相邻的下一个候选BMC在位且正常,则将候选BMC作为当前主BMC。
在本实施例中,每个控制节点的处理器相互通信,多控制器的存储产品的各控制节点,物理位置从左到右依次为1-n,每个BMC与其他BMC每5s可发送一次心跳告知本身心跳状态,如果控制节点1的BMC也即BMC1在位且正常则就BMC1为主,如果控制节点1的BMC不在位或异常,且控制节点2的BMC也即BMC2在位且正常,则选择BMC2为主BMC,按照1-n顺序依次类推。
为了进一步提高机箱管理效率,降低各器件之间的耦合性,基于上述实施例,本实施例的每个BMC除了具备单独的、固定的IP之外,还为主BMC设置虚拟IP,主BMC具有虚拟IP,集群的各控制节点通过虚拟IP访问主BMC;处理器还用于当检测到主BMC切换时,将虚拟IP漂移至当前主BMC,各控制节点或者是上层业务无需查询主BMC的IP,可一直使用该虚拟IP访问主BMC即可,通过将该虚拟IP可动态漂移至当前的主BMC上实现各器件之间的解耦。
在一些实施例中,上述机箱管理系统还可包括有显示屏、输入输出接口、通信接口或者称为网络接口、电源以及通信总线。其中,显示屏、输入输出接口比如键盘(Keyboard)属于用户接口,可选的用户接口还可以包括标准的有线接口、无线接口等。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(OrganicLight-Emitting Diode,有机发光二极管)触摸器等。显示器也可以适当的称为显示屏或显示单元,用于显示在机箱管理系统在执行机箱管理过程中处理的信息以及用于显示可视化的用户界面。通信接口可选的可以包括有线接口和/或无线接口,如WI-FI接口、蓝牙接口等,通常用于在机箱管理系统与其他电子设备之间建立通信连接。通信总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。
可以理解的是,如果上述实施例中的机箱管理系统中涉及到的一些机箱管理方法以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、电可擦除可编程ROM、寄存器、硬盘、多媒体卡、卡型存储器(例如SD或DX存储器等)、磁性存储器、可移动磁盘、CD-ROM、磁碟或者光盘等各种可以存储程序代码的介质。
为了使所属领域技术人员更加清楚明白本申请的技术方案,本申请还以4控统一高端存储的机箱管理系统为例阐述统一高端存储的机箱管理架构,如图2所示,可包括下述内容:
统一高端存储的机箱管理架构由底至上分别包括硬件层、固件层、操作系统层、APP层和集群管理中心。硬件层包括四个控制器分别对应的单控归属器件和4个控制器均需要访问的共享器件;固件层包括每个控制器分别对应的BMC和CPLD,还包括CMC1和CMC2;操作系统层包括4个控制器分别对应的Ipmitool以及通过CMC1或CMC2执行对相应BMC的固件升级、相应的PSU的升级操作。APP层包括四个控制器分别对应的HD monitor和BMC接口,每个控制器的HD monitor均有集群管理中心相连,每个Ipmitool的一端与相应的BMC接口相连,另一端均与四个控制器的BMC相连。CMC1、CMC2分别与每个Ipmitool和每个BMC相连。各CPLD之间互联,每个BMC通过I2C与相应的单控归属器件和共享器件相连。
其中,对于每个单控归属器件,其可包括:CAN VPD/CAN LED/传感器/fantry/IO扩展卡。共享器件可包括背板VPD/机箱LED/CMC网络管理板/机箱温度传感器,4个BMC只有主BMC可以访问共享器件。BMC负责硬件如单控归属器件、共享器件、CPLD、CMC1和CMC2的信息采集和监控,包括监控VPD读写,LED状态访问,温度读取,电压读取,CMC网络状态读取等。CPLD用于为I2C/GPIO地址分配以及上述硬件的直接控制管理,如VPD记录需要持久化信息,LED设置定位指示,告警指示,状态指示,温度、电压、风扇转速控制等,还负责从四个BMC中选择主BMC。CMC管理板负责网络通信,CMC1和CMC2实现网络冗余,并采用bond1主备模式。操作系统层的各Ipmitool负责和所有BMC通信,控制器可通过Ipmitool访问4个BMC的器件。Hdmonitor用于调用BMC接口信息采集BMC缓存的硬件信息。也即Hd monitor可将所有BMC上缓存的所有硬件信息通过Ipmitool工具读取出来,并缓存到Hd monitor中。还可可通过轮询4个BMC和主BMC信息实现硬件的管理,诸如LED设置定位指示,状态指示,温度、电压、风扇转速控制等。集群管理中心负责统一管理,每个控制器通过4个BMC可以采集整个机箱完整信息,然后再同步到集群管理中心,实现数据链路的冗余,数据的一致。
基于上述机箱管理架构,系统上电后,4个控制器的CPLD相互通信以选取主BMC,BMC1、BMC2、BMC3、BMC4例测以及管理所有单节点硬件也即单控归属器件的状态,主BMC如BMC1负责共享器件的例测管理。如果BMC1访问共享器件故障,CPLD切换主BMC1到BMC2上。当操作系统服务开始运行,控制器Hd monitor1、Hd monitor2、Hd monitor3、Hd monitor4服务通过BMC接口层访问Ipmitool,再通过CMC1访问4个BMC、BMC2、BMC3、BMC4,最终实现硬件访问管理。在机箱管理过程中,如果CMC1故障了,操作系统层会切换网络到CMC2上,4个控制器的Hd monitor将硬件状态获取后上传给集群管理中心。
基于上述机箱管理架构,本实施例可实现链路、网络和节点冗余,举例来说,控制器1的BMC1访问PSU(Power supply unit,电源模块)故障,I2C链路故障,BMC1通知控制器1的CPLD,各CPLD相互通信,选择BMC2为主BMC,主BMC切换到控制器2的BMC2上,控制器2的BMC2访问PSU,每个控制器通过CMC1网络,访问BMC2获取PSU数据,实现硬件链路冗余。默认情况下,所有控制器通过CMC1访问BMC1、BMC2、BMC3、BMC4,最终获取所有硬件状态,如果CMC1故障或拔插,网络自动切换为CMC2,所有控制器通过CMC2访问BMC1、BMC2、BMC3、BMC4,最终获取所有硬件状态。默认情况下,每个控制器可以通过BMC1、BMC2、BMC3、BMC4管理4个机箱,如果3个控制器发生操作系统层故障,如OS1,OS2,OS3故障,整个机箱依然可以通过OS4实现对BMC1、BMC2、BMC3、BMC4的硬件状态的监控以及命令的下发。
由上可知,本发明实施例实现单控可以监控整个机箱的硬件状态,实现网络冗余,提高链路可靠性;实现链路冗余,提高存储产品可靠性;实现节点冗余,提高可靠性;单控获取全量信息后统一发给集群实现数据一致,实现单节点全量采集,提高数据一致性。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
以上对本申请所提供的一种机箱管理系统进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。

Claims (10)

1.一种机箱管理系统,其特征在于,包括硬件层、固件层、操作系统层、应用层及集群管理中心;
所述硬件层包括由主BMC访问的共享器件和由每个BMC管理的单控归属器件;所述共享器件用于采集机箱信息以及用于将集群的每个控制节点分别与各BMC进行网络互联;
所述固件层包括机箱管理控制模块、多个BMC及其对应的处理器;各处理器用于对相应控制节点的单控归属器件进行管理,并从各BMC中选择主BMC;所述机箱管理控制模块用于实现网络通信;
所述操作系统层用于与各BMC进行通信,并访问各BMC;
所述应用层用于通过调用BMC接口访问所述操作系统层,并通过所述机箱管理控制模块获取各BMC缓存的硬件数据信息;
所述集群管理中心用于管理每个控制节点通过访问所有BMC所获取的所有机箱的硬件数据信息。
2.根据权利要求1所述的机箱管理系统,其特征在于,所述共享器件包括设置在机框上的机箱硬件、网络管理板和机箱电源;所述共享器件通过I2C与每个BMC连接;
所述机箱硬件用于采集机箱信息以及指示机箱信息;
所述网络管理板用于提供网络互连功能,以将集群的每个控制节点分别与各BMC进行互联。
3.根据权利要求2所述的机箱管理系统,其特征在于,所述机箱硬件包括以下任意一项或任意组合:
背板 VPD、机箱 LED、机箱温度传感器;
其中,所述背板 VPD用于获取机箱电子标签信息;所述机箱 LED用于指示机箱故障信息和机箱告警信息;所述机箱温度传感器用于测量机箱环境温度。
4.根据权利要求2所述的机箱管理系统,其特征在于,所述机箱管理控制模块包括第一机箱管理控制器和第二机箱管理控制器;
所述第一机箱管理控制器和所述第二机箱管理控制器均与各BMC相连,用于实现网络通信;
所述第一机箱管理控制器和所述第二机箱管理控制器实现网络冗余,且网络绑定模式为主备模式。
5.根据权利要求4所述的机箱管理系统,其特征在于,所述操作系统层还用于通过所述第一机箱管理控制器或所述第二机箱管理控制器执行对各BMC的固件升级操作。
6.根据权利要求1所述的机箱管理系统,其特征在于,所述单控归属器件包括以下任意一项或任意组合:
CAN VPD、CAN LED、CAN 传感器、风扇、IO扩展卡;
其中,所述CAN VPD用于获取相应控制节点的控制器电子标签信息;所述CAN LED用于指示相应控制节点的节点故障信息或节点告警信息或节点定位信息;所述CAN 传感器用于采集相应控制节点的节点温度信息和节点电压信息;所述IO扩展卡用于对存储前端或存储后端进行链接扩展。
7.根据权利要求1所述的机箱管理系统,其特征在于,所述操作系统层包括与各控制节点对应的多个智能平台管理工具;
每个智能平台管理工具均与所有BMC通信,以通过所述智能平台管理工具访问各BMC。
8.根据权利要求1所述的机箱管理系统,其特征在于,所述应用层包括与每个控制节点对应的多个高清监视器;
各高清监视器用于通过调用相应的BMC接口获取所有BMC缓存的硬件数据信息,并通过轮询各BMC和所述主BMC实现对硬件的管理;
各高清监视器均与所述集群管理中心相连,以将相应控制节点通过访问所有BMC所得的硬件数据信息同步至所述集群管理中心。
9.根据权利要求1至8任意一项所述的机箱管理系统,其特征在于,所述主BMC具有虚拟IP,所述集群的各控制节点通过所述虚拟IP访问所述主BMC;
所述处理器还用于当检测到所述主BMC切换时,将所述虚拟IP漂移至当前主BMC。
10.根据权利要求9所述的机箱管理系统,其特征在于,所述处理器进一步用于:
各BMC预先设置用于执行主BMC切换顺序的物理编号;
获取各BMC的心跳状态信息;
若检测到所述主BMC不在位或者是异常,则判断与所述主BMC的物理编号相邻的下一个候选BMC是否在位且正常;
若与所述主BMC的物理编号相邻的下一个候选BMC在位且正常,则将所述候选BMC作为当前主BMC。
CN202210279484.2A 2022-03-22 2022-03-22 机箱管理系统 Active CN114356725B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210279484.2A CN114356725B (zh) 2022-03-22 2022-03-22 机箱管理系统
PCT/CN2022/121847 WO2023178975A1 (zh) 2022-03-22 2022-09-27 机箱管理系统及机箱管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210279484.2A CN114356725B (zh) 2022-03-22 2022-03-22 机箱管理系统

Publications (2)

Publication Number Publication Date
CN114356725A true CN114356725A (zh) 2022-04-15
CN114356725B CN114356725B (zh) 2022-06-07

Family

ID=81094476

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210279484.2A Active CN114356725B (zh) 2022-03-22 2022-03-22 机箱管理系统

Country Status (2)

Country Link
CN (1) CN114356725B (zh)
WO (1) WO2023178975A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023178975A1 (zh) * 2022-03-22 2023-09-28 苏州浪潮智能科技有限公司 机箱管理系统及机箱管理方法
WO2024082870A1 (zh) * 2022-10-21 2024-04-25 超聚变数字技术有限公司 一种计算设备及数据获取方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080155244A1 (en) * 2006-12-21 2008-06-26 Inventec Corporation Method for updating the timing of a baseboard management controller
US20150178095A1 (en) * 2013-12-19 2015-06-25 American Megatrends, Inc. Synchronous bmc configuration and operation within cluster of bmc
CN109901862A (zh) * 2019-02-28 2019-06-18 苏州浪潮智能科技有限公司 一种bmc配置参数存储方法
CN109981635A (zh) * 2019-03-20 2019-07-05 浪潮商用机器有限公司 一种数据处理方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108173959B (zh) * 2018-01-09 2020-09-04 郑州云海信息技术有限公司 一种集群存储系统
US10979497B2 (en) * 2018-07-19 2021-04-13 Cisco Technology, Inc. Multi-node discovery and master election process for chassis management
CN112162887A (zh) * 2020-09-24 2021-01-01 北京浪潮数据技术有限公司 存储设备及其机框共享部件访问方法、装置、存储介质
CN114356725B (zh) * 2022-03-22 2022-06-07 苏州浪潮智能科技有限公司 机箱管理系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080155244A1 (en) * 2006-12-21 2008-06-26 Inventec Corporation Method for updating the timing of a baseboard management controller
US20150178095A1 (en) * 2013-12-19 2015-06-25 American Megatrends, Inc. Synchronous bmc configuration and operation within cluster of bmc
CN109901862A (zh) * 2019-02-28 2019-06-18 苏州浪潮智能科技有限公司 一种bmc配置参数存储方法
CN109981635A (zh) * 2019-03-20 2019-07-05 浪潮商用机器有限公司 一种数据处理方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023178975A1 (zh) * 2022-03-22 2023-09-28 苏州浪潮智能科技有限公司 机箱管理系统及机箱管理方法
WO2024082870A1 (zh) * 2022-10-21 2024-04-25 超聚变数字技术有限公司 一种计算设备及数据获取方法

Also Published As

Publication number Publication date
WO2023178975A1 (zh) 2023-09-28
CN114356725B (zh) 2022-06-07

Similar Documents

Publication Publication Date Title
CN114356725B (zh) 机箱管理系统
US7761622B2 (en) Centralized server rack management using USB
US9619243B2 (en) Synchronous BMC configuration and operation within cluster of BMC
US10498645B2 (en) Live migration of virtual machines using virtual bridges in a multi-root input-output virtualization blade chassis
US10810085B2 (en) Baseboard management controllers for server chassis
US7069349B2 (en) IPMI dual-domain controller
US9471126B2 (en) Power management for PCIE switches and devices in a multi-root input-output virtualization blade chassis
CN107302465B (zh) 一种PCIe Switch服务器整机管理方法
US7966402B2 (en) Switch to selectively couple any of a plurality of video modules to any of a plurality of blades
CN101594235B (zh) 一种基于smbus总线对刀片服务器进行管理的方法
CN102346707B (zh) 服务器系统与其操作方法
CN102035862A (zh) Svc集群中配置节点的故障移交方法和系统
US8397053B2 (en) Multi-motherboard server system
JP2004021556A (ja) 記憶制御装置およびその制御方法
CN109271330A (zh) 基于综合化信息系统的通用bmc系统
US9485133B2 (en) Platform independent management controller
JP2013073289A (ja) 多重化システム、データ通信カード、状態異常検出方法、及びプログラム
GB2536515A (en) Computer system, and a computer system control method
US20140059370A1 (en) Wake-on-local-area-network operations in a modular chassis using a virtualized input-output-virtualization environment
CN115599617B (zh) 总线检测方法、装置、服务器及电子设备
CN116723198A (zh) 一种多节点服务器主机控制方法、装置、设备、存储介质
CN114721593A (zh) 存储设备信息收集方法、系统及电子设备
CN109901954B (zh) 存储设备和资源管理方法
US20240103824A1 (en) Server management apparatus and server management method
CN110691128A (zh) 基于ipmi系统健康管理中间件的通信方法、系统、介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant