CN117827731A

CN117827731A - 一种机柜服务器和带外管理方法

Info

Publication number: CN117827731A
Application number: CN202211181504.9A
Authority: CN
Inventors: 刘康毅
Original assignee: XFusion Digital Technologies Co Ltd
Current assignee: XFusion Digital Technologies Co Ltd
Priority date: 2022-09-27
Filing date: 2022-09-27
Publication date: 2024-04-05

Abstract

本申请实施例公开一种机柜服务器和带外管理方法，该机柜服务器包括集中管理模块和多个计算节点；每个计算节点包括可编程逻辑器件，集中管理模块与每个计算节点的可编程逻辑器件连接；其中，集中管理模块用于通过计算节点的可编程逻辑器件获取计算节点的状态信息，并基于计算节点的状态信息通过可编程逻辑器件对计算节点进行带外管理。本申请实施例，通过集中管理模块对各个计算节点进行带外管理，可以提高机柜服务器的管理效率以及可以降低机柜服务器的成本。

Description

一种机柜服务器和带外管理方法

技术领域

本申请涉及计算机技术领域，尤其涉及一种机柜服务器和带外管理方法。

背景技术

随着网络、通信技术的快速发展，海量数据正以前所未有的增长趋势冲击着各个行业。为了有效地管理、维护这些数据，以及对这些数据进行处理，从中挖掘出有价值的信息，用户对服务器数量的需求越来越大，对服务器性能的要求也越来越高。机柜服务器因为其高密度、易规模化部署的特点，在实际应用上越来越广泛。

机柜服务器中可以包括多个计算节点，其中，每一个计算节点都包括大量的硬件设备，如处理器、内存、固态硬盘、网卡等，每个硬件设备的状态都会影响到计算节点的功能及性能，从而会影响到机柜服务器的整体性能。因此，如何高效地对机柜服务器中每个计算节点的硬件设备的状态进行监控(如监控处理器、内存的温度等)，以及基于监测到的状态进行相应的管理是技术人员关注的问题。

发明内容

本申请实施例公开了一种机柜服务器和带外管理方法，可以提高机柜服务器的管理效率以及可以降低机柜服务器的成本。

第一方面公开一种机柜服务器，该机柜服务器包括集中管理模块和多个计算节点；每个该计算节点包括可编程逻辑器件，该集中管理模块与每个该计算节点的可编程逻辑器件连接；其中，该集中管理模块用于通过该计算节点的可编程逻辑器件获取该计算节点的状态信息，并基于该状态信息通过该可编程逻辑器件对该计算节点进行带外管理。

本申请实施例中，可以在机柜服务器中新增一个集中管理模块，并将每一个计算节点中原有的BMC去除，之后可以通过该集中管理模块对机柜服务器中的每一个计算节点进行带外管理。这样，可以使得机柜服务器中各个计算节点的带外管理更为集中，可以提高管理效率(如固件更新效率)。并且，由于集中管理模块的成本远低于多个BMC的成本，因此，通过集中管理模块替代多个BMC还可以降低机柜服务器的整体成本。

作为一种可能的实施方式，该集中管理模块包括多个虚拟机，该虚拟机与该计算节点一一对应，该虚拟机用于接收对应的该计算节点的状态信息，并基于该状态信息对该计算节点进行带外管理。

本申请实施例中，可以在集中管理模块中创建多个虚拟机，一个虚拟机负责一个计算节点的带外管理，这样，可以使得各个计算节点的管理相互独立，从而避免各个计算节点的管理之间相互影响，进而可以提高各个节点管理的可靠性。

作为一种可能的实施方式，该状态信息包括上电信息、工作状态信息、电流信息、电压信息、温度信息、湿度信息中的一项或多项。

本申请实施例中，集中管理模块可以通过计算节点的上电信息、工作状态信息、电流信息、电压信息、温度信息、湿度信息中的一项或多项对计算节点进行带外管理，这样，可以保证各个计算节点处于健康的状态，从而可以保证机柜服务器的稳定运行。

作为一种可能的实施方式，该集中管理模块与该可编程逻辑器件之间通过传输控制协议(transmission control protocol，TCP)通信或用户数据报协议(user datagramprotocol，UDP)进行通信。

本申请实施例中，集中管理模块与各个计算节点的可编程逻辑器件之间可以采用TCP通信或UDP通信，这样，便于集中管理模块获取各个计算节点的状态信息，进而便于集中管理模块基于各个计算节点的状态信息对各个计算节点进行带外管理。

作为一种可能的实施方式，该集中管理模块包括基板管理控制器，该基板管理控制器与每个该计算节点的可编程逻辑器件连接，该基板控制器用于通过该计算节点的可编程逻辑器件获取该计算节点的状态信息，并基于该状态信息通过该可编程逻辑器件对该计算节点进行带外管理。

本申请实施例中，集中管理模块可以包括基板管理控制器，通过该基板管理控制器可以统一进行机柜服务器中的每一个计算节点的带外管理，这样，可以提高管理效率，保证机柜服务器的稳定运行。

作为一种可能的实施方式，该集中管理模块为服务器节点。

本申请实施例中，集中管理模块可以为一个独立的服务器节点，这样，便于安装在机柜内部。

第二方面公开一种带外管理方法，该带外管理方法可以应用于机柜服务器中的集中管理模块，该机柜服务器包括多个计算节点，每个该计算节点包括可编程逻辑器件。该带外管理方法可以包括：通过第一计算节点的可编程逻辑器件获取该第一计算节点的状态信息，该第一计算节点为该多个计算节点中的任一节点；基于该状态信息通过该可编程逻辑器件对该第一计算节点进行带外管理。

相较于传统的一个计算节点的BMC负责本节点的带外管理的方式，本申请实施例中，集中管理模块可以获取各个计算节点的状态信息，之后可以基于各个计算节点的状态信息对各个计算节点进行带外管理。这样，可以使得机柜服务器中各个计算节点的带外管理更为集中，可以提高管理效率，保证机柜服务器的稳定运行。

作为一种可能的实施方式，该通过该第一计算节点的可编程逻辑器件获取该计算节点的状态信息包括：向该第一计算节点的可编程逻辑器件发送第一请求，该第一请求用于请求该第一计算节点的状态信息；接收来自该可编程逻辑器件的该第一计算节点的状态信息。

本申请实施例中，集中管理模块可以通过向第一计算节点的可编辑逻辑器件发送第一请求来获取第一计算节点的状态信息，以便之后可以基于第一计算节点的状态信息对第一计算节点进行带外管理。

作为一种可能的实施方式，该基于该状态信息通过该可编程逻辑器件对该第一计算节点进行带外管理包括：判断该状态信息是否大于或等于预设阈值；在该状态信息大于预设阈值的情况下，向管理客户端发送告警信息，该告警信息包括该第一计算节点的标识、该第一计算节点的位置、第一硬件设备的标识、第一硬件设备的异常时间、第一硬件设备的异常原因中的一项或多项，该第一硬件设备为该第一计算节点包括的硬件设备中出现异常的任一硬件设备。

本申请实施例中，集中管理模块可以判断状态信息中各个信息的取值是否大于预设阈值(如CPU温度是否大于相应的预设阈值)，如果某个信息的取值大于对应的预设阈值，表明当前存在异常的情况，因此，可以向管理客户端发送告警信息，以便服务器管理人员可以及时处理相关异常，降低对业务的影响。

作为一种可能的实施方式，该集中管理模块通过TCP或UDP与该可编程逻辑器件进行通信。

第三方面公开一种集中管理模块，该集中管理模块包括处理器、存储器和通信接口，该通信接口用于接收来自该集中管理模块之外的其它电子设备的信息，以及向该集中管理模块之外的其它电子设备输出信息，该处理器调用该存储器中存储的计算机程序实现如上述第二方面以及第二方面中任一可能的实现方式中所提供的带外管理方法。

第四方面公开一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序或计算机指令，当该计算机程序或计算机指令运行时，实现如上述各方面公开的带外管理方法。

第五方面公开一种芯片，包括处理器，用于执行存储器中存储的程序，当程序被执行时，使得芯片执行上述各方面公开的带外管理方法。

作为一种可能的实施方式，存储器位于芯片之外。

第六方面公开一种计算机程序产品，该计算机程序产品包括计算机程序代码，当该计算机程序代码被运行时，使得上述各方面公开的带外管理方法被执行。

可以理解地，上述第三方面提供的集中管理模块、第四方面提供的计算机可读存储介质、第五方面提供的芯片和第六方面提供的计算机程序产品均用于执行本申请第二方面以及第二方面中任一可能的实现方式中所提供的带外管理方法。因此，其所能达到的有益效果可参考对应方法中的有益效果，此处不再赘述。

附图说明

附图为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1是本申请实施例公开的一种机柜服务器的结构示意图；

图2是本申请实施例公开的一种集中管理模块的架构示意图；

图3是本申请实施例公开的一种系统架构示意图；

图4是本申请实施例公开的一种机柜服务器管理方法的流程示意图；

图5是本申请实施例公开的一种获取计算节点状态信息的流程示意图；

图6是本申请实施例公开的一种BMC的结构示意图。

具体实施方式

本申请实施例公开了一种机柜服务器和带外管理方法，可以提高机柜服务器的管理效率以及可以降低机柜服务器的成本。下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

为了更好地理解本申请实施例，下面先对本申请实施例的相关技术进行描述。

虚拟机(virtual machine)是通过软件模拟的具有完整硬件系统功能的、运行在一个完全隔离环境中的完整计算机系统。通常情况下，在一台物理计算机上可以模拟出多台虚拟机，这些虚拟机具有相对独立的运行环境(包含独立的硬盘和操作系统等)。

容器(container)是计算机操作系统中的一种虚拟化技术。该技术使得进程运行于相对独立和隔离的环境(包含独立的文件系统、命名空间、资源视图等)，从而能够简化软件的部署流程，增强软件的可移植性和安全性，并提高系统资源利用率。与虚拟机技术不同的是，多个容器之间可以共享操作系统(即单个主机操作系统)。

随着网络、通信技术的快速发展，海量数据正以前所未有的增长趋势冲击着各个行业。为了有效地管理、维护这些数据，以及对这些数据进行处理，从中挖掘出有价值的信息，用户对服务器数量的需求越来越大，对服务器性能的要求也越来越高。传统的单节点服务器包括一个计算节点，已经不能满足用户的大数据量计算需求，而机柜服务器因为其高密度、易规模化部署的特点，在实际应用上越来越广泛。

相较于传统的单节点服务器，一个机柜服务器中可以包括多个计算节点。并且，机柜服务器以一个机柜为整体设置供电单元以及其它的辅助设备，可以减少整体的空间占用，与传统单节点服务器相比部署密度可以得到大幅提高。同时，由于机柜服务器是以一个机柜为最小粒度进行部署，因此用户可以根据实际需求进行定制，然后以机柜为粒度进行交付，这样，大部分的组装工作可以在工厂的自动化流水线上完成，而不需要在交付现场再进行组装，可以提高交付效率。

机柜服务器中每一个计算节点都包括大量的硬件设备，如处理器、内存、固态硬盘、网卡等，每个硬件设备的状态都会影响到计算节点的功能及性能，从而会影响到机柜服务器的整体性能。因此，机柜服务器中每一个计算节点可以设置有基板管理控制器(baseboard management controller，BMC)，通过每一个计算节点中的BMC可以对该计算节点中各个硬件设备的状态进行监控(如监控处理器、内存的温度等)，从而可以及时发现问题，以及可以采用预设的策略进行相应的处理，以便保证每一个计算节点都能正常工作，避免发生节点过温下电等问题。但在这种情况下，一个计算节点的BMC负责本节点的管理和维护，管理和维护效率较低。例如，如果机柜服务器中每个计算节点的硬件设备的固件都需要进行升级，服务器管理人员将分别通过每一个计算节点的BMC分别对各自的硬件设备的固件进行升级，操作上比较繁琐，使得机柜服务器的管理和维护较为不便。并且，机柜服务器中的每一个计算节点都设置一个BMC，会使得整体成本较高，而且任何一个计算节点中的BMC出现故障，都会导致该计算节点的监控和控制功能(如监控处理器温度和控制风扇的转速)失效。

为了解决上述问题，本申请实施例中，可以在机柜服务器中新增一个集中管理模块，如BMC集中管理模块等，然后将每一个计算节点中原有的BMC去除。通过该集中管理模块，可以对机柜服务器中的每一个计算节点进行管理，包括每一个计算节点的状态监控(即对每个计算节点的硬件设备进行监控)和带外控制(如控制计算节点的上电和下电、计算节点中各个硬件设备的固件更新等)。并且，集中管理模块可以根据每一个计算节点的状态按照预设的策略进行相应的处理。集中管理模块可以包括一个BMC，因此，可以降低机柜服务器的整体成本。此外，这种情况下，由于一个机柜服务器可以有一个BMC，因此，可以减少整体出现故障的次数，并且便于故障定位和服务器维护。

为了更好地理解本申请实施例，下面先对本申请实施例使用的系统架构进行描述。

请参阅图1，图1是本申请实施例公开的一种机柜服务器的结构示意图。如图1所示，该机柜服务器100可以包括：集中管理模块101和多个计算节点，即如图1所示的计算节点1 102、计算节点2 103、……、计算节点N-1 104和计算节点N 105。N为大于或等于2的整数，例如，该机柜服务器100中可以包括8个计算节点、16个计算节点等。

在一些实施例中，集中管理模块101可以为一个独立的服务器节点(如集中管理节点)，可以插设于机柜内部。在一种可能的实现方式中，集中管理模块101可以插设于机柜的中部，这样，在集中管理模块101与N个计算节点通过线缆(如网线、光纤等)进行通信时，可以保证集中管理模块101到每个节点的线缆距离较为均衡且平均距离较短，从而可以保证集中管理模块101到每个节点的传输时延较为均衡且平均时延较短。在另一种可能的实现方式中，集中管理模块101也可以插设于机柜的顶部或底部，在此不作限定。集中管理模块101与N个计算节点之间可以进行通信。在一些实施例中，集中管理模块101和N个计算节点之间可以通过总线相互连接。在另一些实施例中，集中管理模块101也可以分别和N个计算节点相互连接。

在一些可选实施例中，集中管理模块101可以是被安装于机柜背板上的处理器或包含处理器的电路板等，如BMC或装有BMC的电路板等，在此不受限制。

集中管理模块101可以用于对上述N个计算节点进行管理(即带外管理)，包括进行每个节点的状态监控以及带外控制等。具体地，集中管理模块101可以获取每个节点的状态信息，以及可以基于获取的状态信息对每个节点进行管理。在一些实施例中，集中管理模块101中可以设置有一个BMC芯片，通过该BMC芯片可以对上述N个计算节点进行状态监控以及带外控制。在另一些实施例中，为了提高系统的可靠性，集中管理模块101中也可以设置有两个BMC芯片，一个为主BMC芯片，另一个为备用BMC芯片。正常情况下，可以使用主BMC芯片。当主BMC芯片出现故障时，可以启用备用BMC芯片，以便保证机柜服务器100可以正常工作。

机柜服务器100中的任一计算节点可以包括可编程逻辑器件。可编程逻辑器件可以包括但不限于是可编程阵列逻辑(programmable array logic，PAL)芯片、通用阵列逻辑(generic array logic，GAL)芯片、复杂可编程逻辑器件(complex programmable logicdevice，CPLD)芯片、可擦除的可编程逻辑器件(erasable programmable logic device，EPLD)芯片、现场可编程逻辑阵列(field programmable logic array，FPLA)芯片、现场可编程门阵列(field programmable gate array，FPGA)芯片。

在一些实施例中，机柜服务器100中的任一计算节点和集中管理模块101还可以包括PHY芯片。集中管理模块101中的PHY芯片可以和BMC芯片耦合，计算节点中的PYH芯片可以和节点的可编程逻辑器件耦合，BMC和可编程逻辑器件之间可以通过各自的PHY芯片进行通信。

在一些实施例中，为了使N个计算节点的管理互相独立，可以在集中管理模块101中创建N个虚拟机或者N个容器。N个虚拟机或者N个容器与N个计算节点一一对应。在该N个虚拟机或者N个容器中可以运行相应的计算机程序，以便可以分别对该N个计算节点进行状态监控以及带外控制。应理解，N个虚拟机或者N个容器与N个计算节点一一对应，是指一个虚拟机或者一个容器可以负责一个计算节点的带外管理，即一个虚拟机或者一个容器中部署的带外管理程序可以与一个计算节点之间进行通信，负责该计算节点的带外管理。请参阅图2，图2是本申请实施例公开的一种集中管理模块的架构示意图。如图2所示，集中管理模块200可以包括N个虚拟机，即虚拟机1 201、虚拟机2 202、……、虚拟机N-1 203和虚拟机N 204。虚拟机1201可以负责接收计算节点1 102上报的节点状态信息，以及负责计算节点1102的带外控制以及状态监控。相应地，虚拟机2 202、虚拟机N-1 203和虚拟机N 204可以分别负责接收计算节点2 103、计算节点N-1 104和计算节点N 105上报的节点状态信息，以及分别负责计算节点2103、计算节点N-1 104和计算节点N的带外控制以及状态监控。

应理解，集中管理模块101可以将硬件资源分时复用，分时获取不同计算节点的状态信息，以及进行计算节点的带外控制和状态监控。

需要说明的是，图1所示的机柜服务器100仅仅是本申请实施例的一种实现方式，实际应用中，机柜服务器100还可以包括更多或更少的部件。例如，在一些实施例中，机柜服务器100还可以包括交换机、路由器等设备。此外，在一些实施例中，上述N个计算节点也可以为机架式服务器、高密度服务器等服务器中的N个计算节点，相应地，集中管理设备可以设置于上述机架式服务器、高密度服务器等服务器中。

在一些实施例中，上述集中管理模块101和上述N个计算节点还可以包括处理器、存储器。存储器可以包括但不限于是随机存储记忆体(random access memory，RAM)、只读存储器(read-only memory，ROM)、可擦除可编程只读存储器(erasable programmableread only memory，EPROM)或便携式只读存储器(compact disc read-only memory，CD-ROM)等存储器。处理器可以是中央处理器(central processing unit，CPU)、复杂可编程逻辑器件、通用处理器、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。

请参阅图3，图3是本申请实施例公开的一种系统架构示意图。如图3所示，该系统架构可以包括集中管理模块200和第一计算节点300。集中管理模块200和第一计算节点300可以是具有数据处理能力、数据收发能力和数据存储能力的电子设备。集中管理模块200可以为图1所示的集中管理模块101，第一计算节点300可以为图1所示的机柜服务器100中的任一计算节点(如计算节点1 102)，相应地，第一计算节点对应的虚拟机可以为第一虚拟机(如虚拟机1 201)。

集中管理模块200可以包括BMC 201。BMC 201可以用于执行机柜服务器的部件管理、资产管理等管理功能，可以监控第一计算节点300中各个硬件设备的状态，并根据这些硬件设备的状态按照预设策略执行相应的操作(如上下电控制、风扇调速等)，以保证第一计算节点300处于健康的状态。例如，BMC 201可以监控第一计算节点300中处理器、内存、硬盘、电源等设备的温度，然后可以根据这些设备的温度按照预设的策略实时调整风扇转速，以便可以尽量保证这些设备不产生过温。如果这些设备温度超过预先设定的阈值，为了避免设备损坏，BMC 201可以控制节点下电。此外，通过BMC 201还可以对机柜服务器中所有计算节点的硬件设备的固件进行统一更新，可以使得服务器管理人员对于计算节点的更新和维护更加方便。

BMC 201还可以监控硬件设备的湿度、电压、电流，以及各个硬件设备的状态，如处理器状态(如CPU利用率)、内存状态(如内存使用量)、电源状态、硬盘状态等。当BMC 201检测到第一计算节点300有设备出现故障(如电源出现故障)时，BMC 201可以进行故障告警。在一些实施例中，BMC 201可以通过简单网络管理协议(simple network managementprotocol，SNMP)、简单邮件传输协议(simple mail transfer protocol，SMTP)、Redfish协议等将故障相关信息(如发生故障的服务器节点，发生故障的硬件设备、发生故障的时间、故障说明、处理建议等)上报给上层管理软件(即管理客户端)，以便服务器管理人员可以及时处理故障，降低对业务的影响。

在一些实施例中，机柜服务器还可以包括告警指示灯，告警指示灯和集中管理模块的BMC相互连接。集中管理模块的BMC可以根据服务器节点的状态信息控制告警指示灯进行告警。具体地，在集中管理模块的BMC确定N个服务器节点中存在出现故障的节点(如某个服务器节点的电源出现故障)的情况下，集中管理模块的BMC可以控制告警指示灯进行告警。例如，可以控制告警指示灯长亮或者闪烁。可以理解的是，在另一些实施例中，机柜服务器还可以包括蜂鸣器，蜂鸣器和集中管理模块的BMC相互连接。在集中管理模块的BMC确定N个服务器节点中存在出现故障的节点的情况下，集中管理模块的BMC可以控制蜂鸣器长鸣或者间隔短鸣。

第一计算节点300可以包括可编程逻辑器件(programmable logic device，PLD)301和M个数据采集模块，即如图3所示的数据采集模块1 302、数据采集模块2 303、……、数据采集模块M 304，M为大于0的整数。应理解，上述机柜服务器中不同计算节点中设置的数据采集模块数量可以不同。

其中，BMC 201和可编程逻辑器件301之间可以进行通信，以便BMC 201可以通过可编程逻辑器件301获取数据采集模块采集的数据。BMC 201和可编程逻辑器件301之间采用的通信方式可以为无线通信，也可以为有线通信。例如，BMC 201和可编程逻辑器件301之间可以通过光纤、网线等方式进行通信，也可以通过蓝牙(bluetooth)、无线保真(wirelessfidelity，WIFI)等方式进行通信。需要说明的是，机柜服务器中包括第一计算节点300在内的每一个计算节点都可以拥有一个互联网协议(internet protocol，IP)地址，BMC 201可以通过计算节点的IP地址与不同的计算节点进行通信。

第一计算节点300的数据采集模块可以用于采集第一计算节点300的状态信息，即第一计算节点300中各个硬件设备的状态信息，该状态信息可以包括上电信息、工作状态信息(如是否正常工作)、电流信息、电压信息、温度信息、湿度信息等信息。数据采集模块可以为各种传感器，包括温度传感器、湿度传感器、电压传感器、电流传感器等。例如，在第一计算节点300的处理器、内存等硬件设备位置处可以设置有温度传感器，从而可以采集处理器、内存等硬件设备的温度信息。再例如，在第一计算节点300的电源输出的位置可以设置有电压传感器和电流传感器等，从而可以采集电源的输出电压和输出电流等信息。应理解，硬件设备的状态信息还可以包括其它信息，例如其它可以对第一计算节点300的功能或性能造成影响的信息，本申请实施例在此不作限定。

可编程逻辑器件301是一种用户根据各自需要而自行构造逻辑功能的数字集成电路。可编程逻辑器件301可以为PAL芯片、GAL芯片、CPLD芯片、EPLD芯片、FPLA芯片、FPGA芯片中的任一项。以CPLD芯片为例，用户可以根据实际需要借助集成开发软件平台，用原理图、硬件描述语言等方法，生成相应的目标文件，然后可以将目标文件传送到目标芯片中，以实现设计的数字系统。其中，CPLD芯片体积小、应用电路简单、功耗小，因此，可以优先选用CPLD。

本申请实施例中，可编程逻辑器件301和M个数据采集模块之间可以进行通信，可以获取M个数据采集模块采集的数据。可编程逻辑器件301从数据采集模块获取数据的方式可以有主动获取和被动获取这两种方式。主动获取是可编程逻辑器件301主动向数据采集模块发送数据获取指令，当数据采集模块接收到该指令后，响应于该指令，数据采集模块可以将采集的数据发送给可编程逻辑器件301。被动获取是数据采集模块采集数据之后，主动向可编程逻辑器件301发送采集的数据。

在一些实施例中，可编程逻辑器件301和M个数据采集模块之间采用的通信方式可以为内部集成电路(inter-integrated circuit，I2C)总线的通信方式。此时，M个数据采集模块可以分别拥有一个用于I2C通信的地址(下述简称为I2C地址)，可编程逻辑器件301可以通过数据采集模块的I2C地址区分不同的数据采集模块。因此，在一种可能的实现方式中，可编程逻辑器件301可以通过数据采集模块的I2C地址访问不同的数据采集模块，从而可以获取特定的数据采集模块的数据。在一种可能的实现方式中，上述可编程逻辑器件301和M个数据采集模块之间采用的通信方式也可以为串行外设接口(serial peripheralinterface，SPI)总线的通信方式，在此不作限定。

在一些实施例中，集中管理模块200和第一计算节点300还可以包括物理层(physical layer，PYH)芯片，集中管理模块200中的PHY芯片和BMC 201耦合，第一计算节点300中的PYH芯片和可编程逻辑器件301耦合，BMC 201和可编程逻辑器件301之间可以通过各自的PHY芯片进行通信。

在一种可能的实现方式中，BMC 201可以通过可编程逻辑器件301获取数据采集模块采集的数据，然后可以将这些数据发送给上层管理软件。当管理软件接收到这些数据之后，管理软件可以将这些数据以可视化的形式呈现，以便服务器管理人员可以及时掌握每一个计算节点的状态。BMC 201获取数据的方式也包括主动获取和被动获取两种方式。

应理解，集中管理模块200不限于仅包括图3中所示的BMC 201，第一计算节点300不限于仅包括图3中所示的可编程逻辑器件301和M个数据采集模块。示例性的，集中管理模块200还可以包括处理器、存储器等，第一计算节点300还可以包括处理器、存储器、网卡、内存等。

上述处理器可以为通用处理器、微处理器、专用集成电路、现场可编程门阵列或者其任意组合。在一些实施例中，处理器可以为CPU。

上述存储器可以包括但不限于是RAM、ROM、EPROM或CD-ROM等。在一些实施例中，存储器可以为固态硬盘或机械硬盘。

需要说明的是，图3所示的系统架构只是示例性说明，并不对其构成限定。在本申请另一些实施例中，图3所示的系统架构可以包括比图示更多或更少的设备，不限于仅包括图中所示的集中管理模块200和第一计算节点300。

基于上述系统架构，请参阅图4，图4是本申请实施例公开的一种机柜服务器管理方法(即带外管理方法)的流程示意图。如图4所示，该机柜服务器管理方法可以包括但不限于如下步骤：

401.集中管理模块的BMC通过第一计算节点的可编程逻辑器件获取第一计算节点的状态信息。

在机柜服务器上电之后，集中管理模块为了对机柜服务器中的每个计算节点的状态进行监控，即对每个计算节点中的各个硬件设备的状态进行监控(如监控处理器、内存等设备的温度)，集中管理模块的BMC可以通过第一计算节点的可编程逻辑器件获取第一计算节点的状态信息。第一计算节点的状态信息可以包括第一计算节点内部各个硬件设备的状态信息，具体可以包括各个硬件设备的上电信息、工作状态信息、电流信息、电压信息、温度信息、湿度信息、功率信息等信息。

具体地，由于集中管理模块的BMC从第一计算节点的可编程逻辑器件获取数据的方式包括主动获取和被动获取两种方式，第一计算节点的可编程逻辑器件从第一计算节点的数据采集模块获取数据的方式也包括主动获取和被动获取两种方式，因此，集中管理模块的BMC获取第一计算节点的状态信息存在四种不同的情况。第一种情况下，集中管理模块的BMC和第一计算节点的可编程逻辑器件可以均采用主动获取的方式。第二种情况下，集中管理模块的BMC和第一计算节点的可编程逻辑器件可以均采用被动获取的方式。第三种情况下，集中管理模块的BMC可以采用主动获取的方式，第一计算节点的可编程逻辑器件可以采用被动获取的方式。第四种情况下，集中管理模块的BMC可以采用被动获取的方式，第一计算节点的可编程逻辑器件可以采用主动获取的方式。下面分别对上述四种情况进行简单介绍。

第一种情况下，集中管理模块的BMC和第一计算节点的可编程逻辑器件可以均采用主动获取的方式。请参阅图5，图5是本申请实施例公开的一种集中管理模块获取计算节点状态信息的流程示意图。如图5所示，该集中管理模块获取计算节点状态信息可以包括但不限于如下步骤：

501.集中管理模块的BMC向第一计算节点的可编程逻辑器件发送第一数据获取请求。

相应地，第一计算节点的可编程逻辑器件可以接收到来自集中管理模块的BMC的第一数据获取请求。第一数据获取请求可以包括一个或多个数据采集模块的ID，第一数据获取请求用于获取该一个或多个数据采集模块采集的数据。其中，当第一数据获取请求包括第一计算节点中M个数据采集模块的ID时，第一数据获取请求(即第一请求)可以用于请求第一计算节点的状态信息。

在一种可能的实现方式中，BMC可以周期性的向可编程逻辑器件发送第一数据获取请求，以便可以获取实时准确的数据。例如，BMC可以5秒、10秒或15秒发送一次。

可以理解的是，集中管理模块中存储有第一计算节点的IP地址，BMC可以通过第一计算节点的IP地址和可编程逻辑器件进行通信，采用的通信方式可以为传输控制协议(transmission control protocol，TCP)通信、用户数据报协议(user datagramprotocol，UDP)通信等，在此不作限定。

502.第一计算节点的可编程逻辑器件根据第一数据获取请求向第一计算节点的第一数据采集模块发送第二数据获取请求。

当第一计算节点的可编程逻辑器件接收到来自BMC的第一数据获取请求之后，可以根据第一数据获取请求包括的一个或多个数据采集模块的ID确定一个或多个数据采集模块，之后可以向该一个或多个数据采集模块发送数据获取请求，以便可以获取该一个或多个数据采集模块采集的数据。

下面以第一数据获取请求包括第一数据采集模块的ID为例进行说明。

具体地，当第一计算节点的可编程逻辑器件确定第一数据获取请求包括第一数据采集模块的ID之后，可编程逻辑器件可以向第一数据采集模块发送第二数据获取请求。第二数据获取请求用于获取第一数据采集模块采集的数据。第一数据采集模块可以为根据第一数据请求携带的ID确定的一个或多个数据采集模块中的任一数据采集模块。

503.第一计算节点的第一数据采集模块向第一计算节点的可编程逻辑器件发送第一数据。

当第一数据采集模块接收到来自可编程逻辑器件的第二数据获取请求之后，第一数据采集模块可以根据第二数据获取请求向可编程逻辑器件发送第一数据。第一数据可以为第一数据采集模块实时采集的数据。例如，第一数据采集模块采集的数据可以为第一计算节点CPU的温度数据。

504.第一计算节点的可编程逻辑器件向集中管理模块的BMC发送第一数据。

当可编辑逻辑器件接收到来自第一数据采集模块的第一数据之后，可编辑逻辑器件可以向集中管理模块的BMC发送第一数据。相应地，集中管理模块的BMC可以接收到来自可编辑逻辑器件的第一数据。

需要说明的是，图5所示的集中管理模块获取第一计算节点状态信息的流程只是示例性说明，并不对其构成限定。例如，第一数据获取请求中也可以不包括数据采集模块的ID，这种情况下，可以默认获取第一计算节点中所有数据采集模块采集的数据。

应理解，上述集中管理模块获取第一计算节点状态信息的过程中，可编程逻辑器件是在接收到第一数据获取请求之后，才根据第一数据获取请求去获取数据采集模块采集的数据。在本申请另一些实施例中，可编程逻辑器件可以提前主动获取第一数据采集模块采集的数据，然后保存在本地(如本地寄存器中)，之后，当可编辑逻辑器件接收到来自BMC的第一数据获取请求时，可编程逻辑器件可以直接取出预先存储的数据，将其发送给BMC。此时，为了保证数据的实时性，可编程逻辑器件可以周期性的向第一数据采集模块发送第二数据获取请求，以便可以获取实时准确的数据。例如，可编程逻辑器件可以5秒、10秒或15秒向第一数据采集模块发送一次第二数据获取请求。

第二种情况下，集中管理模块的BMC和第一计算节点的可编程逻辑器件可以均采用被动获取的方式。下面以上述第一数据采集模块进行说明。具体地，第一数据采集模块采集到第一数据之后，第一数据采集模块可以向可编程逻辑器件发送第一数据。当可编程逻辑器件接收到第一数据之后，可编程逻辑器件可以再向BMC发送第一数据。在一些实施例中，第一数据采集模块可以周期性的向可编程逻辑器件发送第一数据，相应地，可编程逻辑器件可以周期性的向BMC发送第一数据。例如，可以5秒、10秒或15秒发送一次。

第三种情况下，集中管理模块的BMC可以采用主动获取的方式，第一计算节点的可编程逻辑器件可以采用被动获取的方式。这种情况下，可编程逻辑器件接收到来自第一数据采集模块的第一数据之后，可以先将第一数据保存在本地，之后，当可编辑逻辑器件接收到来自BMC的第一数据获取请求时，可编程逻辑器件可以直接取出预先存储的数据，将其发送给BMC。

第四种情况下，集中管理模块的BMC可以采用被动获取的方式，第一计算节点的可编程逻辑器件可以采用主动获取的方式。这种情况下，可编程逻辑器件可以向第一数据采集模块发送第二数据获取请求。相应地，第一数据采集模块可以接收到来自可编程逻辑器件的第二数据获取请求，之后，第一数据采集模块可以向可编辑逻辑器件发送第一数据。当可编程逻辑器件接收到来自第一数据采集模块的第一数据之后，可编程逻辑器件可以直接向BMC发送第一数据。相应地，BMC可以接收到来自可编辑逻辑器件的第一数据。

可以理解的是，上述以第一计算节点为例进行说明，但并不对集中管理模块获取数据的方式进行限定。在一些实施例中，集中管理模块可以通过组播的方式向机柜服务器中的多个计算节点发送数据获取请求，这样，可以同时获取多个特定计算节点的状态信息。在又一些实施例中，集中管理模块可以通过广播的方式向机柜服务器中的所有计算节点发送数据获取请求，这样，可以同时获取机柜服务器中所有计算节点的状态信息。

需要说明的是，集中管理模块可以通过计算节点的IP地址区分不同计算节点发送的数据。同理，计算节点的可编程逻辑器件可以通过数据采集模块的I2C地址区分不同数据采集模块发送的数据。

进一步地，为了便于集中管理模块解析计算节点的可编程逻辑器件发送的状态信息，从中区分不同数据采集模块采集的数据，计算节点的可编程逻辑器件向集中管理模块发送计算节点的状态信息时，可以按照预设的格式先进行封装，然后再发送。

下面列举一种封装的方式：

其中，计算节点中的每个数据采集模块可以拥有一个标识(identity document，ID)，同一计算节点中的不同数据采集模块标识不同。因此，针对某一个计算节点，id可以唯一标识该计算节点中的一个数据采集模块，例如，上述第一计算节点可以包括4个数据采集模块，分别为数据采集模块1、数据采集模块2、数据采集模块3、数据采集模块4。数据采集模块1的标识可以为00、数据采集模块2的标识可以为01、数据采集模块3的标识可以为10、数据采集模块4的标识可以为11。type可以用于指示数据采集模块的类型，例如，数据采集模块的类型可以为“温度传感器”、“电压传感器”、“电流传感器”、“湿度传感器”、“功率传感器”等。data包括数据采集模块采集的具体数据、采集时间等信息。例如，针对温度传感器采集的数据，data可以为“40摄氏度，2020-02-11 15:10:30”。

应理解，上述封装格式只是示例性说明，并不对其构成限定。例如，在一些实施例中，封装格式中可以仅包括id项和data项，不包括type项。

402.集中管理模块根据第一计算节点的状态信息按照预设策略进行处理。

具体地，当集中管理模块获取到第一计算节点的状态信息之后，集中管理模块可以分析第一计算节点的状态信息，根据第一计算节点的状态信息判断第一计算节点是否存在异常(例如，CPU温度过高、内存温度过高)，如果存在异常，集中管理模块可以按照预设策略进行处理，以便可以保证第一计算节点处于健康的状态。例如，集中管理模块在监测到第一计算节点的CPU、内存等温度偏高时，集中管理模块可以调整第一计算节点中的风扇转速，以便使CPU、内存的温度降低。应理解，预设策略可以为提前存储在集中管理模块中的代码程序，当满足一定条件时(如CPU温度达到某一个值)，可以触发进行相应的处理。

在一些实施例中，BMC可以将获取到的第一计算节点的状态信息，以及机柜服务器中其它节点的状态信息发送到上层管理软件，管理软件可以以可视化的方式呈现机柜服务器中各个节点的状态信息，以便服务器管理人员可以掌握机柜服务器中各个计算节点的状态。例如，管理软件可以通过显示屏(如Web页面)呈现节点的状态信息，具体可以包括机柜服务器中每一个计算节点的CPU信息(如CPU温度、CPU是否故障等信息)、内存信息、电压信息、电源供电信息、风扇转速等信息。并且，BMC监测到第一计算节点出现异常(如CPU温度大于或等于预设阈值)时，可以向上层管理软件发送告警信息，该告警信息可以指示出现异常的节点信息和硬件设备信息。例如，告警信息可以包括第一计算节点的标识、第一计算节点的位置、第一硬件设备的标识、第一硬件设备的异常时间、第一硬件设备的异常原因、异常处理建议等，第一硬件设备为第一计算节点包括的硬件设备中出现异常的任一硬件设备。计算节点的标识可以为计算节点的名称或编号等，硬件设备的标识可以为硬件设备的名称或编号等。例如，告警信息可以为(节点1、CPU、2020-02-11 15:10:30、温度过高)，此时，该告警信息可以指示在2020-02-11 15:10:30时，监测到节点1的CPU温度过高。

上述机柜服务器管理方法中，通过设置集中管理模块，可以替代原有机柜服务器中各个计算节点的BMC，可以使得整个监控管理更为集中。这样，通过集中管理模块可以统一进行机柜服务器中每个计算节点的状态监控以及带外控制，可以提高管理效率，保证机柜服务器的稳定运行。

如下以监控第一计算节点的CPU温度介绍应用上述图4所示的方法的实例。

具体地，集中管理模块的BMC可以获取第一计算节点的CPU的温度数据。之后，BMC可以将获取的CPU温度数据和第一阈值进行比较，如果获取的CPU温度数据小于第一阈值，BMC可以仅将获取的CPU温度数据上传给上层管理软件，不用进行其它处理。如果获取的CPU温度数据大于或等于第一阈值，BMC可以将获取的CPU温度数据继续和第二阈值进行比较，如果获取的CPU温度数据小于第二阈值，BMC可以将获取的CPU温度数据上传给上层管理软件，此外，BMC可以根据预先设定的风扇调速策略，计算出当前所需要的第一转速值。之后，BMC可以向第一计算节点的可编程逻辑器件发送第一转速值。相应地，可编程逻辑器件可以接收到来自BMC的第一转速值，之后，可以将第一计算节点内的风扇的转速调整为第一转速值，以便可以降低CPU的温度。如果获取的CPU温度数据大于或等于第二阈值，此时第一计算节点的CPU较高，可能存在烧坏的风险，因此，BMC可以通过可编程逻辑器件将第一计算节点内的风扇的转速调整为最大转速值，此外，BMC还可以控制第一计算节点的CPU降低工作频率，或者可以直接控制第一计算节点下电，以便保护第一计算节点的CPU。

应理解，BMC还可以对机柜服务器中内存、电源等设备的温度进行监控，以及各个硬件设备的工作状态进行监控(如是否出现故障)，并且BMC可以根据监控得到的信息按照预设的策略进行相应的处理。

需要说明的是，上述不同实施例中的相关信息(即相同信息或相似信息)和相关描述可以相互参考。

应理解，上述图4中以集中管理模块作为交互示意的执行主体为例来示意上述处理流程，但本申请并不限制该交互示意的执行主体。例如，图4中的集中管理模块也可以是支持该集中管理模块实现该方法的芯片、芯片系统、或处理器，还可以是能实现全部或部分集中管理模块功能的逻辑模块或软件。

基于上述系统架构，请参阅图6，图6是本申请实施例公开的一种BMC的结构示意图。其中，该BMC 600可以包括：处理器601、通信接口602和存储器603。处理器601、通信接口602以及存储器603可以相互连接或者通过总线604相互连接。

示例性的，存储器603用于存储BMC 600的计算机程序和数据，存储器603可以包括但不限于是随机存储记忆体(random access memory，RAM)、只读存储器(read-onlymemory，ROM)、可擦除可编程只读存储器(erasable programmable read only memory，EPROM)或便携式只读存储器(compact disc read-only memory，CD-ROM)等。通信接口602用于支持BMC600进行通信，例如接收或发送数据。

示例性的，处理器601可以是CPU、复杂可编程逻辑器件、通用处理器、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，数字信号处理器和微处理器的组合等等。

在一个实施例中，BMC 600可以为上述集中管理模块中的BMC，处理器601可以用于读取上述存储器603中存储的程序，执行上述图4所示的方法实施例中集中管理模块或集中管理模块中的组件执行的操作，可以参考上述相关描述，在此不再详细赘述。

需要说明的是，图6所示的BMC 600仅仅是本申请实施例的一种实现方式，实际应用中，BMC 600还可以包括更多或更少的部件，这里不作限制。

本申请实施例还公开一种计算机可读存储介质，其上存储有指令，该指令被执行时执行上述方法实施例中的方法。

本申请实施例还公开一种包括指令的计算机程序产品，该指令被执行时执行上述方法实施例中的方法。

显然，上述所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或者特性可以包含在本实施例申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是相同的实施例，也不是与其它实施例互斥的独立的或是备选的实施例。本领域技术人员可以显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。本申请的说明书和权利要求书及所述附图中术语“第一”、“第二”、“第三”等是区别于不同的对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。例如，包含了一系列步骤或单元，或者可选地，还包括没有列出的步骤或单元，或者可选地还包括这些过程、方法、产品或设备固有的其它步骤或单元。可以理解的是，上述条件判断的等号可以取大于一端也可以取小于一端，例如，上述对于一个阈值大于、小于或等于的条件判断，也可以改为对该阈值大于或等于、小于的条件判断，在此不作限定。

可以理解的是，附图中仅示出了与本申请相关的部分而非全部内容。应当理解的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

在本说明书中使用的术语“部件”、“模块”、“系统”、“单元”等用于表示计算机相关的实体、硬件、固件、硬件和软件的组合、软件或执行中的软件。例如，单元可以是但不限于在处理器上运行的进程、处理器、对象、可执行文件、执行线程、程序和/或分布在两个或多个计算机之间。此外，这些单元可从在上面存储有各种数据结构的各种计算机可读介质执行。单元可例如根据具有一个或多个数据分组(例如来自与本地系统、分布式系统和/或网络间的另一单元交互的第二单元数据。例如，通过信号与其它系统交互的互联网)的信号通过本地和/或远程进程来通信。

以上所述的具体实施方式，对本申请的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本申请的具体实施方式而已，并不用于限定本申请的保护范围，凡在本申请的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本申请的保护范围之内。

Claims

1.一种机柜服务器，其特征在于，所述机柜服务器包括集中管理模块和多个计算节点；每个所述计算节点包括可编程逻辑器件，所述集中管理模块与每个所述计算节点的可编程逻辑器件连接；

其中，所述集中管理模块用于通过所述计算节点的可编程逻辑器件获取所述计算节点的状态信息，并基于所述状态信息通过所述可编程逻辑器件对所述计算节点进行带外管理。

2.根据权利要求1所述的机柜服务器，其特征在于，所述集中管理模块包括多个虚拟机，所述虚拟机与所述计算节点一一对应，所述虚拟机用于接收对应的所述计算节点的状态信息，并基于所述状态信息对所述计算节点进行带外管理。

3.根据权利要求1或2所述的机柜服务器，其特征在于，所述状态信息包括上电信息、工作状态信息、电流信息、电压信息、温度信息、湿度信息中的一项或多项。

4.根据权利要求1-3任一项所述的机柜服务器，其特征在于，所述集中管理模块与所述可编程逻辑器件之间通过传输控制协议TCP或用户数据报协议UDP进行通信。

5.根据权利要求1-4任一项所述的机柜服务器，其特征在于，所述集中管理模块包括基板管理控制器，所述基板管理控制器与每个所述计算节点的可编程逻辑器件连接，所述基板控制器用于通过所述计算节点的可编程逻辑器件获取所述计算节点的状态信息，并基于所述状态信息通过所述可编程逻辑器件对所述计算节点进行带外管理。

6.根据权利要求1-5任一项所述的机柜服务器，其特征在于，所述集中管理模块为服务器节点。

7.一种带外管理方法，其特征在于，应用于机柜服务器中的集中管理模块，所述机柜服务器包括多个计算节点，每个所述计算节点包括可编程逻辑器件，所述方法包括：

通过第一计算节点的可编程逻辑器件获取所述第一计算节点的状态信息，所述第一计算节点为所述多个计算节点中的任一节点；

基于所述状态信息通过所述可编程逻辑器件对所述第一计算节点进行带外管理。

8.根据权利要求7所述的方法，其特征在于，所述通过所述第一计算节点的可编程逻辑器件获取所述计算节点的状态信息包括：

向所述第一计算节点的可编程逻辑器件发送第一请求，所述第一请求用于请求所述第一计算节点的状态信息；

接收来自所述可编程逻辑器件的所述第一计算节点的状态信息。

9.根据权利要求7或8所述的方法，其特征在于，所述基于所述状态信息通过所述可编程逻辑器件对所述第一计算节点进行带外管理包括：

判断所述状态信息是否大于或等于预设阈值；

在所述状态信息大于预设阈值的情况下，向管理客户端发送告警信息，所述告警信息包括所述第一计算节点的标识、所述第一计算节点的位置、第一硬件设备的标识、第一硬件设备的异常时间、第一硬件设备的异常原因中的一项或多项，所述第一硬件设备为所述第一计算节点包括的硬件设备中出现异常的任一硬件设备。

10.根据权利要求7-9任一项所述的方法，其特征在于，所述状态信息包括上电信息、工作状态信息、电流信息、电压信息、温度信息、湿度信息中的一项或多项。

11.根据权利要求7-10任一项所述的方法，其特征在于，所述集中管理模块通过传输控制协议TCP或用户数据报协议UDP与所述可编程逻辑器件进行通信。