CN114936033A - 一种集群固件升级的系统和智能超级计算集群 - Google Patents
一种集群固件升级的系统和智能超级计算集群 Download PDFInfo
- Publication number
- CN114936033A CN114936033A CN202210605713.5A CN202210605713A CN114936033A CN 114936033 A CN114936033 A CN 114936033A CN 202210605713 A CN202210605713 A CN 202210605713A CN 114936033 A CN114936033 A CN 114936033A
- Authority
- CN
- China
- Prior art keywords
- mcu chip
- firmware
- master
- cluster
- arm mcu
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 abstract description 22
- 230000008569 process Effects 0.000 abstract description 19
- 238000010586 diagram Methods 0.000 description 5
- 108010028984 3-isopropylmalate dehydratase Proteins 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004886 process control Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/60—Software deployment
- G06F8/65—Updates
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Stored Programmes (AREA)
Abstract
本发明提供了一种集群固件升级的系统和智能超级计算集群,系统包括:智能PDU具有继电器开关和多个电源插孔;ARM MCU芯片设置在智能PDU内,GPIO引脚连接到继电器开关;RJ45网络接口连接到ARM MCU芯片,配置为连接到交换机并通过交换机连接到集群中的各个设备节点;存储卡连接到ARM MCU芯片,并预装Master Linux系统,存储卡配置为在智能PDU接通电源后,启动Master Linux系统并使Master Linux系统运行在ARM MCU芯片上;USB接口连接到ARM MCU芯片,USB接口配置为将刷新固件所需要的控制软件、刷新程序、固件镜像文件和刷新工具传输到ARM MCU芯片中运行的Master Linux系统中。通过使用本发明的方案,能够解决在固件升级维护过程中必须要人为干预,效率低下的问题,能够实现整个固件刷新过程的自动化和批量化。
Description
技术领域
本发明涉及计算机领域,并且更具体地涉及一种集群固件升级的系统和智能超级计算集群。
背景技术
随着人工智能、大数据等技术的发展,智能计算中心成为当今社会的重要基础设施,智能计算中心本质上是由成千上万台超级计算设备组成的计算集群。在摩尔定律逐步失效的大背景下,人类对于计算力的需求却仍在快速增长,为了解决这个问题,并行计算、异构计算发展迅猛。以人工智能领域为例,GPU为整个产业提供了最通用和最广泛的计算资源,而GPU系统正式一种典型的异构计算系统。
在人工智能模型训练的过程中,一个显著的特点是需要超密集的计算力和高通量的设备间通信,为了满足这一要求,异构计算系统逐步演变的越来越复杂。还是以GPU为例,目前最高端的是NVIDIA HGX系统,它在单台计算节点内集成了8颗GPU计算芯片,同时依靠多颗NVSWITCH芯片和PCIE SWITCH芯片来提供高通量的IO能力。为了管理这样一个复杂的系统,HGX集成了FPGA,EROT,HMC等管理芯片,这些芯片的存在给设备固件的升级维护带来了挑战,因为在每次执行完升级指令后,需要对设备进行断电以便激活新刷入的固件镜像。
当目标计算机需要进行版本升级时,通过目标计算机自身部署的操作系统以及IPMI接口完成各个部件的升级。当某些器件必须要进行断电时,由人工的方式拔掉电源线进行操作。由于某些部件在升级后必须通过AC断电才能生效,并且各个部件在升级顺序上有明确的要求,导致升级过程中需要多次断电以及重启,所以升级过程需要人工干预,无法实现升级过程的批量自动化。
发明内容
有鉴于此,本发明实施例的目的在于提出一种集群固件升级的系统和智能超级计算集群,通过使用本发明的技术方案,能够解决在固件升级维护过程中必须要人为干预,效率低下的问题,能够实现整个固件刷新过程的自动化和批量化。
基于上述目的,根据本发明的一个方面,提供了一种集群固件升级的系统,包括:
智能PDU(远程电源管理器(Reachctrl Power)又叫智能PDU、IP电源、智能电源、机架式电源分配单元,同时兼具电源分配和管理功能),智能PDU具有继电器开关和多个电源插孔;
ARM(微处理器)MCU(微控制单元)芯片,ARM MCU芯片设置在智能PDU内,ARM MCU芯片的GPIO引脚连接到继电器开关;
RJ45网络接口,RJ45网络接口连接到ARM MCU芯片,RJ45网络接口配置为连接到交换机并通过交换机连接到集群中的各个设备节点;
存储卡,存储卡连接到ARM MCU芯片,在存储卡内预装Master Linux系统,存储卡配置为在智能PDU接通电源后,启动Master Linux系统并使Master Linux系统运行在ARMMCU芯片上;
USB接口,USB接口连接到ARM MCU芯片,USB接口配置为将刷新固件所需要的控制软件、刷新程序、固件镜像文件和刷新工具传输到ARM MCU芯片中运行的Master Linux系统中。
根据本发明的一个实施例,ARM MCU芯片的GPIO引脚向智能PDU的继电器开关输出高电平信号或低电平信号以使继电器开关基于接收到的电平信号控制电源插孔的通断状态。
根据本发明的一个实施例,Master Linux系统中还运行RAMOS服务器,RAMOS服务器中集成了DHCP服务和NFS服务,DHCP服务为各个设备节点上的网络接口提供IP地址,NFS服务提供共享文件的服务。
根据本发明的一个实施例,控制软件配置为根据各个设备节点写入的状态信息判断是否需要对设备节点进行断电,在确定需要对设备节点进行断电时,通过ARM MCU芯片的GPIO引脚向继电器开关发送对应的电平信号。
根据本发明的一个实施例,刷新固件所需要的刷新程序、固件镜像文件和刷新工具均存储到NFS服务提供的共享文件夹中。
根据本发明的另一个方面,还提供了一种智能超级计算集群,智能超级计算集群包括集群固件升级的系统,集群固件升级的系统包括:
智能PDU,智能PDU具有继电器开关和多个电源插孔;
ARM MCU芯片,ARM MCU芯片设置在智能PDU内,ARM MCU芯片的GPIO引脚连接到继电器开关;
RJ45网络接口,RJ45网络接口连接到ARM MCU芯片,RJ45网络接口配置为连接到交换机并通过交换机连接到集群中的各个设备节点;
存储卡,存储卡连接到ARM MCU芯片,在存储卡内预装Master Linux系统,存储卡配置为在智能PDU接通电源后,启动Master Linux系统并使Master Linux系统运行在ARMMCU芯片上;
USB接口,USB接口连接到ARM MCU芯片,USB接口配置为将刷新固件所需要的控制软件、刷新程序、固件镜像文件和刷新工具传输到ARM MCU芯片中运行的Master Linux系统中。
根据本发明的一个实施例,ARM MCU芯片的GPIO引脚向智能PDU的继电器开关输出高电平信号或低电平信号以使继电器开关基于接收到的电平信号控制电源插孔的通断状态。
根据本发明的一个实施例,Master Linux系统中还运行RAMOS服务器,RAMOS服务器中集成了DHCP服务和NFS服务,DHCP服务为各个设备节点上的网络接口提供IP地址,NFS服务提供共享文件的服务。
根据本发明的一个实施例,控制软件配置为根据各个设备节点写入的状态信息判断是否需要对设备节点进行断电,在确定需要对设备节点进行断电时,通过ARM MCU芯片的GPIO引脚向继电器开关发送对应的电平信号。
根据本发明的一个实施例,刷新固件所需要的刷新程序、固件镜像文件和刷新工具均存储到NFS服务提供的共享文件夹中。
本发明具有以下有益技术效果:本发明实施例提供的集群固件升级的系统,通过设置智能PDU,智能PDU具有继电器开关和多个电源插孔;ARM MCU芯片,ARM MCU芯片设置在智能PDU内,ARM MCU芯片的GPIO引脚连接到继电器开关;RJ45网络接口,RJ45网络接口连接到ARM MCU芯片,RJ45网络接口配置为连接到交换机并通过交换机连接到集群中的各个设备节点;存储卡,存储卡连接到ARM MCU芯片,在存储卡内预装Master Linux系统,存储卡配置为在智能PDU接通电源后,启动Master Linux系统并使Master Linux系统运行在ARM MCU芯片上;USB接口,USB接口连接到ARM MCU芯片,USB接口配置为将刷新固件所需要的控制软件、刷新程序、固件镜像文件和刷新工具传输到ARM MCU芯片中运行的Master Linux系统中的技术方案,能够解决在固件升级维护过程中必须要人为干预,效率低下的问题,能够实现整个固件刷新过程的自动化和批量化。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为根据本发明一个实施例的集群固件升级的系统的示意图;
图2为根据本发明一个实施例的集群固件升级系统软件框架的示意图;
图3为根据本发明一个实施例的集群固件升级系统与设备连接的示意图;
图4为根据本发明一个实施例的固件升级的流程的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
基于上述目的,本发明的实施例的第一个方面,提出了一种集群固件升级的系统的一个实施例。图1示出的是该系统的示意图。
如图1中所示,该系统可以包括:
智能PDU,智能PDU具有继电器开关和多个电源插孔。智能PDU包含多个标准的16A大功率交流插孔,用于给节点设备供电。
还包括ARM MCU芯片,ARM MCU芯片设置在智能PDU内,ARM MCU芯片的GPIO引脚连接到继电器开关。PDU内置的ARM MCU芯片,在ARM芯片上运行的Master Linux操作系统,在操作系统内还运行RAMOS服务器,以及刷新固件所需要的控制软件和刷新程序。RAMOS服务器是一种软件服务,运行在Linux操作系统中,能够引导节点在未安装操作系统的情况,直接将完整的Linux系统灌装到目标节点内存中并运行。RAMOS服务中还集成了DHCP服务和NFS服务,DHCP为设备节点上的网络接口提供IP地址,NFS提供共享文件服务。目标节点上运行的主刷新程序和固件镜像文件、刷新工具都放置在NFS共享文件夹中。所述ARM芯片带有GPIO引脚,可以输出高低电平信号。GPIO引脚连接到继电器开关,该开关用于控制16A大功率交流插孔的通断状态。在Linux操作系统内,可以通过程序读写GPIO引脚的寄存器值,进而控制引脚电平信号。控制软件Master Linux系统内。控制软件的主要作用是根据NFS文件系统内各个设备节点写入的状态信息,判断需要对继电器断电的时机,并执行AC断电操作。
还包括RJ45网络接口,RJ45网络接口连接到ARM MCU芯片,RJ45网络接口配置为连接到交换机并通过交换机连接到集群中的各个设备节点。
存储卡,存储卡连接到ARM MCU芯片,在存储卡内预装Master Linux系统,存储卡配置为在智能PDU接通电源后,启动Master Linux系统并使Master Linux系统运行在ARMMCU芯片上。存储卡位microSD存储卡,在microSD存储介质内预装了Linux系统,称为MasterLinux系统,当PDU接通电源时,Master Linux系统能够自启动并运行在ARM芯片上。
USB接口,USB接口连接到ARM MCU芯片,USB接口配置为将刷新固件所需要的控制软件、刷新程序、固件镜像文件和刷新工具传输到ARM MCU芯片中运行的Master Linux系统中。
通过集成以上这些功能模块,本发明将固件升级所需要的软件工具全部部署到PDU内,能够为目标节点提供电源、操作系统、刷新工具和镜像、流程控制程序等全部的资源。从而摆脱人工对升级过程的必要干预,实现批量自动化操作。
通过本发明的技术方案,能够解决在固件升级维护过程中必须要人为干预,效率低下的问题,能够实现整个固件刷新过程的自动化和批量化。
如图1所示,在PDU中内置了一个ARM MCU芯片,作为整个PDU的主控制器,与该芯片相连接的外部设备包括SD卡、RJ45接口、USB接口和继电器开关。在高压电源接入PDU后,首先通过继电器开关,然后再连接到各个插孔上,插孔上的电源通断状态受到继电器开关的控制,而继电器的开关状态是受到ARM MCU芯片的信号的控制。
如图2所示,软件系统主要包括RAMOS服务器和固件刷新所需要的控制程序。其中RAMOS是一种可以让计算机在未安装操作系统的情况下,将操作系统灌装到目标计算机内存中并直接运行的技术,它由DHCP服务、PXE服务、和NFS服务组成。DHCP服务用于为每台节点设备分配IP地址,包括BMC IP和操作系统内的IP,PXE用于引导节点设备启动并将文件系统解压到内存中,NFS服务用于为节点设备提供共享的文件存储服务。固件刷新控制程序的功能主要是按照设备实际刷新过程中所要求的顺序和流程来进行过程控制,使得整个刷新过程能够按照程序预定义的步骤执行。在这个过程中还涉及到对所有目标节点刷新状态的抓取,对错误的判断和处理,对继电器的开关控制。
在本发明的一个优选实施例中,ARM MCU芯片的GPIO引脚向智能PDU的继电器开关输出高电平信号或低电平信号以使继电器开关基于接收到的电平信号控制电源插孔的通断状态。
在本发明的一个优选实施例中,Master Linux系统中还运行RAMOS服务器,RAMOS服务器中集成了DHCP服务和NFS服务,DHCP服务为各个设备节点上的网络接口提供IP地址,NFS服务提供共享文件的服务。
在本发明的一个优选实施例中,控制软件配置为根据各个设备节点写入的状态信息判断是否需要对设备节点进行断电,在确定需要对设备节点进行断电时,通过ARM MCU芯片的GPIO引脚向继电器开关发送对应的电平信号。
在本发明的一个优选实施例中,刷新固件所需要的刷新程序、固件镜像文件和刷新工具均存储到NFS服务提供的共享文件夹中。
实施例
如下表1所示,要将固件从版本A升级到版本B,需要对GPU、NVSWITH、PCIE SWITCH、FPGA、CEC逐个器件进行升级。
表1固件版本对照
版本A | 版本B | |
GPU | 92.00.36.00.04 | 92.00.81.00.01 |
NVSWITCH | 92.10.18.00.01 | 92.10.18.00.02 |
PCIE SWITCH | v1.2f | v3.1f |
FPGA | v2.A5 | v3.03 |
CEC | v3.9 | v4.0 |
厂家推荐的刷新顺序为:
①升级CEC固件;
②对节点设备进行AC断电并重新启动,激活新的CEC固件;
③升级PCIE SWITCH固件;
④升级GPU固件;
⑤升级NVSWITCH固件;
⑥对节点设备进行重启复位操作,激活新刷入的固件;
⑦升级FPGA固件;
⑧对节点设备进行AC断电并重新启动,激活新的FPGA固件。
如图3所示,将设备节点的供电线插到智能PDU的插孔中,由PDU为设备提供运行所需的电能。将设备节点的网络接口通过交换机连接到智能PDU上的RJ45接口,由智能PDU中的DHCP服务为所有设备提供IP地址。整个系统的工作流程如图4所示,智能PDU接通电源后,PDU中的Master Linux系统启动,继电器开关闭合,节点设备通电,DHCP服务为节点分配IPMI IP,通过IPMI指令控制节点开机,PXE引导节点设备运行RAMOS系统,RAMOS系统挂在NFS共享文件系统,主刷新程序抓取本机固件版本升级清单,判断是否升级完成,如果是则结束,如果否则按照预定义顺序逐个器件刷新固件,每刷新完一个都需要判断是否需要断电或重启,如果否,则继续刷新下一个,如果是则判断是否需要重启,如果需要重启,则主刷新程序对本机下发重启指令进行重启,重启后返回到PXE引导节点设备运行RAMOS系统的步骤后,继续按照上述步骤刷新其他固件,如果判断需要重启,则将本机状态按照IP标识写入NFS目录中,Master获取各个节点信息,Master对继电器下发断开指令,延时一定时间后,优选延时20秒,Master对继电器下发闭合指令后,继电器闭合,然后返回到PXE引导节点设备运行RAMOS系统的步骤后,继续按照上述步骤刷新其他固件,直到所有的固件全部刷新完成。
为了使得Master Linux系统能够获取到各个设备节点的状态,需要通过NFS共享文件来实现信息的同步。其具体实现方法为:设备节点中的主刷新程序在NFS共享文件中的Nodes目录中依据自身的IP地址创建文件夹,并实时的将当前的执行进度写入到status.json文件中。
Master Linux系统中的刷新控制程序通过读取各节点对应的status.json文件来获取该设备的刷新进度。status.json中的各个数据段的名称与固件实际刷新所需要遵守的流程对应,其中name指刷新步骤;timeout指当前步骤设置的超时时间,用于容错处理,当刷新过程遇到异常无法正常执行时,Master控制程序能够依据超时时间停止作业;status指当前步骤的执行状态,done代表已执行完成,wait代表尚未达到该步骤,start代表需要执行该步骤。
Master Linux系统中的控制程序会不断轮询Nodes文件夹中各个节点的status.json,当某个节点name为“ac”的步骤status变为“start”时,继续轮询并等待其它设备相同步骤的status都变成“start”后,控制程序将对应的status改成”done”并通过指令控制继电器断开。
本发明主要是解决了一些高端智能计算机在固件升级维护过程中必须要人为干预,效率低下的问题。通过将供电模块和固件刷新所需的软件模块融为一体,软件模块能够根据节点设备的状态信息判断是否需要断电,并能够通过控制继电器来对节点设备进行电源的通断,实现了整个执行过程的自动化和批量化。
基于上述目的,本发明的实施例的第二个方面,提出了一种智能超级计算集群,智能超级计算集群包括集群固件升级的系统,集群固件升级的系统包括:
智能PDU,智能PDU具有继电器开关和多个电源插孔;
ARM MCU芯片,ARM MCU芯片设置在智能PDU内,ARM MCU芯片的GPIO引脚连接到继电器开关;
RJ45网络接口,RJ45网络接口连接到ARM MCU芯片,RJ45网络接口配置为连接到交换机并通过交换机连接到集群中的各个设备节点;
存储卡,存储卡连接到ARM MCU芯片,在存储卡内预装Master Linux系统,存储卡配置为在智能PDU接通电源后,启动Master Linux系统并使Master Linux系统运行在ARMMCU芯片上;
USB接口,USB接口连接到ARM MCU芯片,USB接口配置为将刷新固件所需要的控制软件、刷新程序、固件镜像文件和刷新工具传输到ARM MCU芯片中运行的Master Linux系统中。
在本发明的一个优选实施例中,ARM MCU芯片的GPIO引脚向智能PDU的继电器开关输出高电平信号或低电平信号以使继电器开关基于接收到的电平信号控制电源插孔的通断状态。
在本发明的一个优选实施例中,Master Linux系统中还运行RAMOS服务器,RAMOS服务器中集成了DHCP服务和NFS服务,DHCP服务为各个设备节点上的网络接口提供IP地址,NFS服务提供共享文件的服务。
在本发明的一个优选实施例中,控制软件配置为根据各个设备节点写入的状态信息判断是否需要对设备节点进行断电,在确定需要对设备节点进行断电时,通过ARM MCU芯片的GPIO引脚向继电器开关发送对应的电平信号。
在本发明的一个优选实施例中,刷新固件所需要的刷新程序、固件镜像文件和刷新工具均存储到NFS服务提供的共享文件夹中。
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。
Claims (10)
1.一种集群固件升级的系统,其特征在于,包括:
智能PDU,所述智能PDU具有继电器开关和多个电源插孔;
ARM MCU芯片,所述ARM MCU芯片设置在所述智能PDU内,所述ARM MCU芯片的GPIO引脚连接到所述继电器开关;
RJ45网络接口,所述RJ45网络接口连接到所述ARM MCU芯片,所述RJ45网络接口配置为连接到交换机并通过交换机连接到集群中的各个设备节点;
存储卡,所述存储卡连接到所述ARM MCU芯片,在所述存储卡内预装Master Linux系统,所述存储卡配置为在所述智能PDU接通电源后,启动所述Master Linux系统并使所述Master Linux系统运行在所述ARM MCU芯片上;
USB接口,所述USB接口连接到所述ARM MCU芯片,所述USB接口配置为将刷新固件所需要的控制软件、刷新程序、固件镜像文件和刷新工具传输到所述ARM MCU芯片中运行的Master Linux系统中。
2.根据权利要求1所述的系统,其特征在于,所述ARM MCU芯片的GPIO引脚向所述智能PDU的继电器开关输出高电平信号或低电平信号以使所述继电器开关基于接收到的电平信号控制电源插孔的通断状态。
3.根据权利要求1所述的系统,其特征在于,所述Master Linux系统中还运行RAMOS服务器,所述RAMOS服务器中集成了DHCP服务和NFS服务,DHCP服务为各个设备节点上的网络接口提供IP地址,NFS服务提供共享文件的服务。
4.根据权利要求1所述的系统,其特征在于,所述控制软件配置为根据各个设备节点写入的状态信息判断是否需要对设备节点进行断电,在确定需要对设备节点进行断电时,通过所述ARM MCU芯片的GPIO引脚向继电器开关发送对应的电平信号。
5.根据权利要求3所述的系统,其特征在于,刷新固件所需要的刷新程序、固件镜像文件和刷新工具均存储到NFS服务提供的共享文件夹中。
6.一种智能超级计算集群,其特征在于,所述智能超级计算集群包括集群固件升级的系统,所述集群固件升级的系统包括:
智能PDU,所述智能PDU具有继电器开关和多个电源插孔;
ARM MCU芯片,所述ARM MCU芯片设置在所述智能PDU内,所述ARM MCU芯片的GPIO引脚连接到所述继电器开关;
RJ45网络接口,所述RJ45网络接口连接到所述ARM MCU芯片,所述RJ45网络接口配置为连接到交换机并通过交换机连接到集群中的各个设备节点;
存储卡,所述存储卡连接到所述ARM MCU芯片,在所述存储卡内预装Master Linux系统,所述存储卡配置为在所述智能PDU接通电源后,启动所述Master Linux系统并使所述Master Linux系统运行在所述ARM MCU芯片上;
USB接口,所述USB接口连接到所述ARM MCU芯片,所述USB接口配置为将刷新固件所需要的控制软件、刷新程序、固件镜像文件和刷新工具传输到所述ARM MCU芯片中运行的Master Linux系统中。
7.根据权利要求6所述的集群,其特征在于,所述ARM MCU芯片的GPIO引脚向所述智能PDU的继电器开关输出高电平信号或低电平信号以使所述继电器开关基于接收到的电平信号控制电源插孔的通断状态。
8.根据权利要求6所述的集群,其特征在于,所述Master Linux系统中还运行RAMOS服务器,所述RAMOS服务器中集成了DHCP服务和NFS服务,DHCP服务为各个设备节点上的网络接口提供IP地址,NFS服务提供共享文件的服务。
9.根据权利要求6所述的集群,其特征在于,所述控制软件配置为根据各个设备节点写入的状态信息判断是否需要对设备节点进行断电,在确定需要对设备节点进行断电时,通过所述ARM MCU芯片的GPIO引脚向继电器开关发送对应的电平信号。
10.根据权利要求8所述的集群,其特征在于,刷新固件所需要的刷新程序、固件镜像文件和刷新工具均存储到NFS服务提供的共享文件夹中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210605713.5A CN114936033A (zh) | 2022-05-30 | 2022-05-30 | 一种集群固件升级的系统和智能超级计算集群 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210605713.5A CN114936033A (zh) | 2022-05-30 | 2022-05-30 | 一种集群固件升级的系统和智能超级计算集群 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114936033A true CN114936033A (zh) | 2022-08-23 |
Family
ID=82866015
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210605713.5A Pending CN114936033A (zh) | 2022-05-30 | 2022-05-30 | 一种集群固件升级的系统和智能超级计算集群 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114936033A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117130639A (zh) * | 2023-10-26 | 2023-11-28 | 江苏华鲲振宇智能科技有限责任公司 | 一种bmc集群管理单板mcu固件升级方法及系统 |
-
2022
- 2022-05-30 CN CN202210605713.5A patent/CN114936033A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117130639A (zh) * | 2023-10-26 | 2023-11-28 | 江苏华鲲振宇智能科技有限责任公司 | 一种bmc集群管理单板mcu固件升级方法及系统 |
CN117130639B (zh) * | 2023-10-26 | 2024-03-08 | 江苏华鲲振宇智能科技有限责任公司 | 一种bmc集群管理单板mcu固件升级方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2016037503A1 (zh) | PCIe拓扑的配置方法和装置 | |
CN104580475A (zh) | 远程控制方法、终端设备、管理服务器及远程控制系统 | |
CN102855146A (zh) | 固件更新系统及方法 | |
CN103324495A (zh) | 数据中心服务器开机管理方法及系统 | |
CN109587005B (zh) | 连接检测方法、装置、计算机设备以及可读存储介质 | |
CN102081568B (zh) | 多主机板服务器系统 | |
CN111143256B (zh) | 一种读取现场可更换单元信息的方法和装置 | |
CN103763725B (zh) | 移动终端集中控制测试管理方法及装置 | |
CN111966189B (zh) | 一种灵活配置的多计算节点服务器主板结构和程序 | |
CN112328440B (zh) | 一种硬盘物理位置确定方法和装置 | |
CN115686872B (zh) | 基于bmc的内存资源处理设备、方法、装置及介质 | |
CN101751265B (zh) | 服务器的基本输入/输出系统的更新系统及其方法 | |
CN115167647B (zh) | 一种服务器的供电方法、系统、设备及介质 | |
CN114936033A (zh) | 一种集群固件升级的系统和智能超级计算集群 | |
US20150089276A1 (en) | Method for Shortening Enumeration of Tightly Coupled USB Device | |
CN116820827B (zh) | 一种节点服务器的基板管理控制器的控制方法及其系统 | |
CN102147739B (zh) | 多主机板服务器系统及其网络驱动方法 | |
CN113608970A (zh) | 核心板,服务器,故障修复方法、装置以及存储介质 | |
CN111209125B (zh) | 一种多进程的命令行实现方法 | |
CN106649002B (zh) | 服务器及自动检修基板管理控制器的方法 | |
CN102480497A (zh) | 远程主板控制器及其远程控制主板的方法 | |
CN109669727A (zh) | 一种服务器的配置方法、系统及相关组件 | |
CN103186223B (zh) | 计算机装置及外接子板的侦测方法 | |
CN114201439A (zh) | 服务器信号识别优化方法、系统及存储介质 | |
CN110096366B (zh) | 一种异构内存系统的配置方法、装置及服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |