CN111130861A - 一种整机柜设备无状态自动管理的方法和装置 - Google Patents

一种整机柜设备无状态自动管理的方法和装置 Download PDF

Info

Publication number
CN111130861A
CN111130861A CN201911266195.3A CN201911266195A CN111130861A CN 111130861 A CN111130861 A CN 111130861A CN 201911266195 A CN201911266195 A CN 201911266195A CN 111130861 A CN111130861 A CN 111130861A
Authority
CN
China
Prior art keywords
node
component
management controller
stored
response
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911266195.3A
Other languages
English (en)
Other versions
CN111130861B (zh
Inventor
韩红瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN201911266195.3A priority Critical patent/CN111130861B/zh
Publication of CN111130861A publication Critical patent/CN111130861A/zh
Application granted granted Critical
Publication of CN111130861B publication Critical patent/CN111130861B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0893Assignment of logical groups to network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0813Configuration setting characterised by the conditions triggering a change of settings
    • H04L41/082Configuration setting characterised by the conditions triggering a change of settings the condition being updates or upgrades of network functionality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0866Checking the configuration
    • H04L41/0873Checking configuration conflicts between network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0876Aspects of the degree of configuration automation
    • H04L41/0886Fully automatic configuration

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Automation & Control Theory (AREA)
  • Stored Programmes (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种整机柜设备无状态自动管理的方法,包括以下步骤:在管理控制器中存储各个节点和/或部件的配置信息,并保持与所述节点和/或部件配置的同步更新;响应于有新的节点和/或部件插入,管理控制器获取所述节点和/或部件的型号信息并与存储的原节点和/或部件的型号进行比对,并响应于型号比对不一致而通知用户对所述新的节点和/或部件进行重新配置;响应于型号比对一致,管理控制器获取所述节点和/或部件的序列号信息并与存储的原节点和/或部件的序列号进行比对,并响应于序列号比对不一致而将所述管理控制器存储的相关配置信息写入到所述新的节点和/或部件中。本发明相比现有的人工配置节点,降低维护成本,提高更换效率。

Description

一种整机柜设备无状态自动管理的方法和装置
技术领域
本发明涉及计算机领域,并且更具体地,涉及一种整机柜设备无状态自动管理的方法和装置。
背景技术
随着互联网经济的快速发展,数据中心业务持续增长,数据中心数量和规模迅速增长。面向互联网应用的大型数据中心向云化、分布化和资源化方向迅速发展,对IT基础架构提出了更高的要求,对网络服务器的计算及存储性能要求越来越大。传统的通用服务器规模化应用带来密度低、能耗高、安装和维护工作量大等问题,整机柜服务器应运而生,逐渐成为趋势。
整机柜服务器的管理核心是RMC监控管理模块,RMC一般只用于整机柜层面的管理,电源、散热方面的管理。对于节点设备内部基本不管理。全部交给节点设备的BMC进行独自管理。这样就造成,一个整机柜的管理,需要反复登录不同的节点进行管理。
如果更换整机柜中某节点,则需要在对其进行独立配置,且由于目前设备基本都属于有状态设备,例如其固件版本、配置,MAC地址等等都不同,更换新节点后该节点会携带新的状态,无法无感替换原节点。例如其中固件版本不同,可能会产生某些问题;新节点自带的某些配置,可能存在更换后运行状态偏差较大,甚至某些业务错误;MAC地址的更换,会导致DHCP分配不同的IP地址,则该节点更换后就会失联。因此更换任何一个节点设备都需要大量的配置操作。使其跟原来旧节点的配置完全一样,这样无形中就大量的维护工作量,且不能马上投入使用,影响业务。
随着数据中心机房中部署的整机柜服务器越来越多,维护的工作量越来越大,如何实现快速运维,实现数据中心整机柜服务器无感更换管理设备,减少维护工作量,减少对业务的影响,越来越被关注。
发明内容
鉴于此,本发明实施例的目的在于提出一种整机柜设备无状态自动管理的方法和装置,以解决整机柜更换的新的节点/部件设备带有的自身配置、固件版本等信息与原有节点/部件设备不一致的问题。
基于上述目的,本发明实施例的一方面提供了一种整机柜设备无状态自动管理的方法,包括以下步骤:
在管理控制器中存储各个节点和/或部件的配置信息,并保持与所述节点和/或部件配置的同步更新;
响应于有新的节点和/或部件插入,所述管理控制器获取所述节点和/或部件的型号信息并与存储的原节点和/或部件的型号进行比对,并响应于所述型号信息与存储的原节点和/或部件的型号不一致而通知用户对所述新的节点和/或部件进行重新配置;
响应于所述型号信息与存储的原节点和/或部件的型号一致,所述管理控制器获取所述节点和/或部件的序列号信息并与存储的原节点和/或部件的序列号进行比对,并响应于所述序列号信息与存储的原节点和/或部件的序列号不一致而将所述管理控制器存储的相关配置信息写入到所述新的节点和/或部件中。
在一些实施方式中,所述在管理控制器中存储各个节点和/或部件的配置信息,并保持与所述节点和/或部件配置的同步更新包括:
所述管理控制器定期获取各个节点和/或部件的版本号和/或版本校验值以与其存储的版本号和/或版本校验值进行比对;以及
响应于所述比对的结果不一致,从所述节点和/或部件读取固件版本数据并进行校验,校验通过后将所述固件版本数据存入所述管理控制器空间中的对应节点和/或部件目录下。
在一些实施方式中,所述在管理控制器中存储各个节点和/或部件的配置信息,并保持与所述节点和/或部件配置的同步更新还包括:
通过所述管理控制器对所述节点和/或部件进行参数配置,所述管理控制器将参数配置数据保存到所述管理控制器空间中的对应节点和/或部件目录下,并生成新的校验值。
在一些实施方式中,所述在管理控制器中存储各个节点和/或部件的配置信息,并保持与所述节点和/或部件配置的同步更新还包括:
响应于用户登录所述节点和/或部件进行参数配置,通过所述节点和/或部件上的BMC将修改的参数上报到所述管理控制器中进行保存,并生成新的校验值。
在一些实施方式中,所述响应于有新的节点和/或部件插入包括:
通过在位信号的变化来发现所述新的节点和/或部件的插入。
在一些实施方式中,所述响应于有新的节点和/或部件插入还包括:
对于没有在位信号的节点和/或部件,所述管理控制器定期查询所述节点和/或部件的状态;并且
响应于上次查询到不能够通信而本次查询到能够通信,则认为所述节点和/或部件为新插入的。
在一些实施方式中,所述响应于所述序列号信息与存储的原节点和/或部件的序列号不一致而将所述管理控制器存储的相关配置信息写入到所述新的节点和/或部件中包括:
响应于所述序列号信息与原有节点和/或部件的不一致,所述管理控制器获取所述新节点和/或部件的固件版本号并与其保存的进行比对,并响应于所述固件版本号不同而将其保存的原有版本的固件更新到所述新节点和/或部件中。
在一些实施方式中,所述响应于所述序列号信息与存储的原节点和/或部件的序列号不一致而将所述管理控制器存储的相关配置信息写入到所述新的节点和/或部件中还包括:
所述管理控制器将其保存的原有节点和/或部件的参数配置数据和运行状态数据,配置到所述新节点和/或部件中。
在一些实施方式中,还包括:
响应于所述序列号信息与原有节点和/或部件的一致,所述管理控制器校验所述节点和/或部件的固件版本、参数配置和运行状态数据,并响应于校验不一致而将所述管理控制器中存储的相应数据配置到所述节点和/或部件中。
本发明实施例的另一方面提供了一种整机柜设备无状态自动管理的装置,其特征在于,包括:
至少一个处理器;和
存储器,所述存储器存储有处理器可运行的程序代码,所述程序代码在被处理器运行时实施上述任一项所述的方法。
本发明具有以下有益技术效果:本发明实施例提供的一种整机柜设备无状态自动管理的方法和装置实现了整机柜服务器设备的无状态自动管理,使得整机柜中的节点和/或部件设备更换后,不受新设备自带的状态影响,可以快速无感更换和更新节点/部件设备,无需进行人工干预和维护,自动进行无状态配置;相比现有的人工配置节点/部件的方式,节省大量的人力物力,降低维护或运维成本,提高更换效率,缩短延误时间,减少对业务的影响;减轻维护工作量、提高产品竞争力的同时,降低功耗分配空置和降低运营成本等。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1是根据本发明的一种整机柜设备无状态自动管理的方法的流程图;
图2是根据本发明的一种整机柜服务器管理网络拓扑示意图;
图3是根据本发明的一种整机柜设备无状态自动管理的装置的硬件结构示意图。
具体实施方式
以下描述了本发明的实施例。然而,应该理解,所公开的实施例仅仅是示例,并且其他实施例可以采取各种替代形式。附图不一定按比例绘制;某些功能可能被夸大或最小化以显示特定部件的细节。因此,本文公开的具体结构和功能细节不应被解释为限制性的,而仅仅是作为用于教导本领域技术人员以各种方式使用本发明的代表性基础。如本领域普通技术人员将理解的,参考任何一个附图所示出和描述的各种特征可以与一个或多个其他附图中所示的特征组合以产生没有明确示出或描述的实施例。所示特征的组合为典型应用提供了代表性实施例。然而,与本发明的教导相一致的特征的各种组合和修改对于某些特定应用或实施方式可能是期望的。
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
基于上述目的,本发明的实施例一方面提出了一种整机柜设备无状态自动管理的方法,如图1所示,包括以下步骤:
步骤S101:在管理控制器中存储各个节点和/或部件的配置信息,并保持与所述节点和/或部件配置的同步更新;
步骤S102:响应于有新的节点和/或部件插入,所述管理控制器获取所述节点和/或部件的型号信息并与存储的原节点和/或部件的型号进行比对,并响应于所述型号信息与存储的原节点和/或部件的型号不一致而通知用户对所述新的节点和/或部件进行重新配置;
步骤S103:响应于所述型号信息与存储的原节点和/或部件的型号一致,所述管理控制器获取所述节点和/或部件的序列号信息并与存储的原节点和/或部件的序列号进行比对,并响应于所述序列号信息与存储的原节点和/或部件的序列号不一致而将所述管理控制器存储的相关配置信息写入到所述新的节点和/或部件中。
在一些实施例中,所述管理控制器可以包括RMC、BMC等控制器件。RMC(RackManagement Controller)为RACK整机柜管理控制器,对整机进行管理工作。BMC(BaseboardManagement Controller)为基板管理控制器,可以在机器未开机的状态下,对机器进行固件升级、查看机器设备等一些操作。
在一些实施例中,根据本发明的整机柜服务器示意图可以如图2所示。其主要有电源模块、散热模块、节点设备、RMC模块、网络交换机、I2C总线、管理网以及数据网等等。
其中,电源模块由多个可插拔的PSU电源模块组成,实现为整机柜集中供电,其中PSU的固件版本可以由RMC管理。
散热模块形成为由多个风扇和风扇背板组成整机柜风扇墙的形式,该风扇背板上包含有CPLD(复杂可编程逻辑器件)控制器,所述CPLD的固件版本和配置参数可以由RMC进行管理。
节点设备一般包括计算节点、存储节点、加速节点、网络节点等,计算节点主要是CPU(中央处理器)计算资源;存储节点主要是硬盘存储资源;加速节点主要是GPU、FPGA(现场可编程门阵列)计算资源;网络节点主要是网络交换机。这些节点一般都有带外管理系统BMC,在根据本发明的优选实施例中可以由RMC管理所有节点上的BMC系统及其附属部件的固件版本、参数配置、网络配置等,例如BIOS(基本输入/输出系统)、BMC、CPLD、FPGA、GPU(图形处理单元)卡、Switch芯片、PSOC(可编程片上系统)、网卡等等。
网络交换机用于各个节点之间的数据交换或者用于与外部数据网进行数据交换,其支持带外管理,带外管理部分可以由RMC进行管理。RMC可以获取交换机的状态、参数等数据,同时也可以对交换机进行参数配置或固件更新等操作。
I2C(Inter-Integrated Circuit)总线用于RMC与各个节点或者部件之间的基本通信,包括网络配置、网络参数获取、管理网配置等,其中I2C是一种简单、双向二线制同步串行总线,由串行数据线SDA和串行时钟线SCL组成。
管理网主要用于远程管理、RMC与各个节点之间通信、各个节点管理网之间通信等,网络主要用于传输大批量数据,相比I2C速度快。
数据网主要用于各个节点的操作系统OS之间的数据通信,一般与管理网物理隔离。
在一些实施例中,可以由RMC负责整机柜的整体管理,RMC中存储各个节点或部件的型号、序列号、固件版本、网络信息(含MAC地址)、状态信息、参数信息等等配置信息。上述信息在整机柜初始配置时写入到RMC,以及在运行过程中从各个节点或部件中收集并同步更新,保持RMC存储的数据与各个节点或部件中的数据一致。当某个节点或者部件更换时,RMC检测到新节点插入后,根据型号、序列号等信息判断该节点是否为原来的节点,如果不是的话,则将原节点的形态、状态、数据、配置等刷入新的节点设备中,以使节点设备跟原来节点设备的版本、配置、状态完全一致,上层完全无法感知到节点设备已经变更,实现节点设备或部件的无状态更换,不受新节点设备或部件自带的配置和参数的影响。
在一些实施例中,所述在管理控制器中存储各个节点和/或部件的配置信息,并保持与所述节点和/或部件配置的同步更新包括:所述管理控制器定期获取各个节点和/或部件的版本号和/或版本校验值以与其存储的版本号和/或版本校验值进行比对;以及响应于所述比对的结果不一致,从所述节点和/或部件读取固件版本数据并进行校验,校验通过后将所述固件版本数据存入所述管理控制器空间中的对应节点和/或部件目录下。
在一些实施例中,所述在管理控制器中存储各个节点和/或部件的配置信息,并保持与所述节点和/或部件配置的同步更新还包括:通过所述管理控制器对所述节点和/或部件进行参数配置,所述管理控制器将参数配置数据保存到所述管理控制器空间中的对应节点和/或部件目录下,并生成新的校验值。
在一些实施例中,所述在管理控制器中存储各个节点和/或部件的配置信息,并保持与所述节点和/或部件配置的同步更新还包括:响应于用户登录所述节点和/或部件进行参数配置,通过所述节点和/或部件上的BMC将修改的参数上报到所述管理控制器中进行保存,并生成新的校验值。
在整机柜出厂部署完毕后,开启无状态管理功能。RMC系统的同步模块会对整个系统的节点/部件进行监管,开启定期同步更新管理数据的功能。管理数据主要有三类:固件版本、参数配置和运行状态。由于用户可以直接登录各个节点或部件进行固件版本更新和节点/部件的参数配置,且节点或部件的运行状态也会发生变化。因此RMC需要定期从节点/部件同步数据到RMC中进行存储以保持记录节点的最新数据,实现新节点/部件更换时能够还原节点/部件的状态。
其中,在根据本发明的优选实施例中,对于固件版本的同步更新:RMC定期获取各节点/部件的版本号和/或版本校验码,与其内部存储的该节点/部件的版本号和/或校验码进行比对。当有发现该节点/部件固件版本有更新时(比对不正确),则从该节点/部件读取其固件版本数据,并进行校验计算,将计算结果与从该节点/部件读取的校验码进行比对,确认正确后将该固件版本存入到对应节点/部件的RMC空间中。
对于参数配置的同步更新:在修改源为RMC时,也就是客户登录RMC对某节点/部件进行配置,然后RMC将数据配置到对应的节点/部件。在该操作中RMC直接将修改后的参数配置数据存储到对应该节点/部件的RMC空间中,并生成一个新的校验值,然后RMC将该参数和对应的校验值写入对应的节点中。其中,应当理解,该校验值可以是CRC值、MD5码、哈希值或基于其他任何合适的加密算法得到的值。在修改源为节点/部件时,就是客户直接登录某节点/部件进行配置和修改,这时RMC并不知情,需要相关节点/部件的BMC主动上报修改参数到RMC中,并生成新的校验值进行存储。
并且,为了防止数据遗漏或者同步异常的情况,RMC可以开启定期对账功能,以定期查询各个节点/部件,进行数据查询校验操作。根据实际情况配置定期对账的时间周期,例如每30分钟进行一次对账。对账时RMC查询各个节点的配置数据校验值。如果校验值一样,则认为配置无改变;如果校验值不一样,则说明RMC和节点/部件中的配置数据产生了差异。在一些实施例中,在一次对账查询过程中可以避免读取全部的配置数据,以防止浪费大量的时间和资源,即依次读取其中部分数据,以轮询的方式逐一查询。然后,在校验值不一样时,RMC会通知节点/部件,对其数据完整性进行校验,也就是在RMC和节点/部件上分别对参数配置数据重新计算校验值,并与其之前的校验值进行对比,以排除哪里出现错误。如果在RMC和节点/部件上的校验值计算分别都正确,说明数据没有同步,通过日志检查最后一次配置是RMC还是节点。如果最后一次配置是RMC则说明RMC没有将数据配置到节点/部件,此时从RMC同步数据到节点/部件;如果最后一次配置是节点/部件则说明节点/部件没有上报到RMC,RMC从节点/部件同步数据;如果RMC和节点/部件的数据同时发生变化,则以节点/部件数据为准,同步到RMC。
对于运行状态的同步更新:RMC定期从节点/部件读取其运行状态。可以由本领域技术人员根据实际情况调整数据同步的周期,例如设置为30秒一次。
在一些实施例中,所述响应于有新的节点和/或部件插入包括:通过在位信号的变化来发现所述新的节点和/或部件的插入。
在根据本发明的一些实施例中,对于有在位信号的设备,当新的节点/部件插入时,该节点/部件的“在位”信号电平将会发生变化(高电平变成低电平或者低电平变成高电平,由具体硬件电路实现)。RMC发现该电平的变化有两种方式:一种是中断法,该在位信号的电平跳变沿会触发RMC产生中断;另一种是扫描法,RMC会定期扫描检测所有的节点/部件的在位状态(检查电平),当发现某节点或者部件的状态从“不在位”变成“在位”状态时,即可发现该节点/部件的插入。
在一些实施例中,所述响应于有新的节点和/或部件插入还包括:对于没有在位信号的节点和/或部件,所述管理控制器定期查询所述节点和/或部件的状态;并且响应于上次查询到不能够通信而本次查询到能够通信,则认为所述节点和/或部件为新插入的。
在根据本发明的一些实施例中,对于无在位信号的设备,RMC会定期查询各个设备的状态,当RMC发现该节点/部件无法通信时认为其已经断开或者拔出(不在位状态),如果上次状态为无法通信(不在位)而本次状态为能够通信,则判断为该节点/部件为新插入的。
RMC发现节点/部件插入后,根据该节点/部件的I2C地址,访问该节点/部件,获取其型号、序列号等信息。对于节点,RMC可以通过I2C总线获取节点的网络地址,判断网络地址/状态跟之前节点是否一样,如果一样则直接通过网络进行通信,如果不一样RMC将对新节点网络进行配置,使其能够正常工作,然后通过网络进行通信。
在一些实施例中,所述响应于所述序列号信息与存储的原节点和/或部件的序列号不一致而将所述管理控制器存储的相关配置信息写入到所述新的节点和/或部件中包括:响应于所述序列号信息与原有节点和/或部件的不一致,所述管理控制器获取所述新节点和/或部件的固件版本号并与其保存的进行比对,并响应于所述固件版本号不同而将其保存的原有版本的固件更新到所述新节点和/或部件中。
在一些实施例中,所述响应于所述序列号信息与存储的原节点和/或部件的序列号不一致而将所述管理控制器存储的相关配置信息写入到所述新的节点和/或部件中还包括:所述管理控制器将其保存的原有节点和/或部件的参数配置数据和运行状态数据,配置到所述新节点和/或部件中。
在一些实施例中,方法还包括:响应于所述序列号信息与原有节点和/或部件的一致,所述管理控制器校验所述节点和/或部件的固件版本、参数配置和运行状态数据,并响应于校验不一致而将所述管理控制器中存储的相应数据配置到所述节点和/或部件中。
在一些实施例中,部件插入后,RMC获取该节点/部件的型号、序列号信息。首先,根据节点和/或部件的型号进行比对:如果新节点/部件与原有节点的型号不一样:则直接判定节点变更,且不能将原有数据写入到新的节点/部件,等待用户重新配置(网络地址数据可以写入,便于用户远程连接到节点/部件);如果新节点/部件与原有节点的型号一样,则继续比对序列号判断是新节点还是原有节点的再次插入。
其次,根据节点和/或部件的序列号进行比对:如果新节点/部件与原有节点的序列号不一样,则判定为节点/部件变更,需要对节点/部件进行无状态更新。RMC首先获取新节点/部件的固件版本号,进行比对,如果不同则将原有版本的固件更新到新的节点/部件中,如果相同则不更新;然后RMC将原有节点的参数配置数据和运行状态数据,配置到新的节点/部件中,使其跟原有节点的状态和配置一样,达到无状态自动管理。如果新节点/部件与原有节点的序列号一样:则判定为原有节点/部件的重新插入,此时RMC需要重新校验原有节点/部件的固件版本、参数配置和运行状态数据,判断方式跟前面对账的方式相同;如果版本、配置和状态数据的校验值相同则不对节点/部件进行更新,如果不相同则依据对账的规则更新RMC中存储的配置数据或节点/部件中的配置数据。
在一些实施例中,还制定了差异执行策略。对于同一节点拔出后又重新插入的情况,如果节点拔出后进行了其他版本的更新、参数配置等操作,例如拔出后插入到另外一个整机柜中运行一段时间或者单独对其进行了配置,由于RMC无法得知其具体动向和修改原因,为了确保整机柜中数据的正确性,所以对于同一个节点重新插入后其数据与RMC中数据不一致的情况,均以RMC中的数据为准,来实现整机柜设备无状态自动管理。
在一些实施例中,整机柜更换节点设备或者部件时,RMC检测到新的节点设备或部件插入后,RMC通过I2C管理总线获取节点设备的信息。首先判断其型号是否一致,如果型号不一致则判定为插入一种新的设备,等待用户配置;如果型号一致,则继续判定序列号。如果序列号与原节点设备相同,则可能是普通的插拔,简单对比其配置参数即可,相同则无需更新,不同则更新;如果序列号与原节点设备的不相同,则是更换了一个新的节点设备,需要进行无状态更新。RMC通过I2C总线先将MAC地址、网络配置刷入,使节点设备的管理网能够正常工作,然后透过高速管理网连接节点设备,按照上述策略将原有节点的数据更新到新的节点中去,使新节点的版本、状态、配置、参数与原节点相同,能够跟原节点一样正常工作,省去人工重新配置。
在一些实施例中,RMC对节点设备或部件完成无状态更新后,重启节点设备使的数据完全生效。RMC对重启后的节点设备或部件,再进行一次数据比对和状态校验,例如网络配置是否正常、IP地址是否为原IP、版本信息是否正常、配置参数是否正确等等。如果比对后节点设备的状态数据跟RMC的一致则为该节点无状态配置成功,结束流程。如果比对有错误或问题,则判定该节点设备无状态配置失败,记录日志并重新开始刷入RMC存储的数据。
在技术上可行的情况下,以上针对不同实施例所列举的技术特征可以相互组合,或者改变、添加以及省略等等,从而形成本发明范围内的另外实施例。
从上述实施例可以看出,本发明实施例提供的一种整机柜设备无状态自动管理的方法实现了整机柜服务器设备的无状态自动管理,使得整机柜中所有的节点设备或部件都可以“裸机”更换,不受新设备自带状态的影响,可以快速无感更换和更新节点设备,无需进行人工干预和维护,自动进行无状态配置;相比现有的人工配置节点,节省大量的人力物力,降低维护成本,提高更换效率,缩短延误时间,减少对业务的影响;减轻维护工作量、提高产品竞争力的同时,降低功耗分配空置和降低运营成本等。
基于上述目的,本发明实施例的另一个方面,提出了一种整机柜设备无状态自动管理的装置的一个实施例。
所述整机柜设备无状态自动管理的装置包括存储器、和至少一个处理器,存储器存储有可在处理器上运行的计算机程序,处理器执行程序时执行上述任意一种方法。
如图3所示,为本发明提供的整机柜设备无状态自动管理的装置的一个实施例的硬件结构示意图。
以如图3所示的计算机设备为例,在该计算机设备中包括处理器301以及存储器302,并还可以包括:输入装置303和输出装置304。
处理器301、存储器302、输入装置303和输出装置304可以通过总线或者其他方式连接,图3中以通过总线连接为例。
存储器302作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的所述整机柜设备无状态自动管理的方法对应的程序指令/模块。处理器301通过运行存储在存储器302中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的整机柜设备无状态自动管理的方法。
存储器302可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据整机柜设备无状态自动管理的方法所创建的数据等。此外,存储器302可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器302可选包括相对于处理器301远程设置的存储器,这些远程存储器可以通过网络连接至本地模块。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置303可接收输入的数字或字符信息,以及产生与整机柜设备无状态自动管理的方法的计算机设备的用户设置以及功能控制有关的键信号输入。输出装置304可包括显示屏等显示设备。
所述一个或者多个整机柜设备无状态自动管理的方法对应的程序指令/模块存储在所述存储器302中,当被所述处理器301执行时,执行上述任意方法实施例中的整机柜设备无状态自动管理的方法。
所述执行所述整机柜设备无状态自动管理的方法的计算机设备的任何一个实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
最后需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。
此外,典型地,本发明实施例公开所述的装置、设备等可为各种电子终端设备,例如手机、个人数字助理(PDA)、平板电脑(PAD)、智能电视等,也可以是大型终端设备,如服务器等,因此本发明实施例公开的保护范围不应限定为某种特定类型的装置、设备。本发明实施例公开所述的客户端可以是以电子硬件、计算机软件或两者的组合形式应用于上述任意一种电子终端设备中。
此外,根据本发明实施例公开的方法还可以被实现为由CPU执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被CPU执行时,执行本发明实施例公开的方法中限定的上述功能。
此外,上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。
此外,应该明白的是,本文所述的计算机可读存储介质(例如,存储器)可以是易失性存储器或非易失性存储器,或者可以包括易失性存储器和非易失性存储器两者。作为例子而非限制性的,非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)或快闪存储器。易失性存储器可以包括随机存取存储器(RAM),该RAM可以充当外部高速缓存存储器。作为例子而非限制性的,RAM可以以多种形式获得,比如同步RAM(DRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDRSDRAM)、增强SDRAM(ESDRAM)、同步链路DRAM(SLDRAM)、以及直接Rambus RAM(DRRAM)。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现所述的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
结合这里的公开所描述的各种示例性逻辑块、模块和电路可以利用被设计成用于执行这里所述功能的下列部件来实现或执行:通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。通用处理器可以是微处理器,但是可替换地,处理器可以是任何传统处理器、控制器、微控制器或状态机。处理器也可以被实现为计算设备的组合,例如,DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP和/或任何其它这种配置。
结合这里的公开所描述的方法或算法的步骤可以直接包含在硬件中、由处理器执行的软件模块中或这两者的组合中。软件模块可以驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域已知的任何其它形式的存储介质中。示例性的存储介质被耦合到处理器,使得处理器能够从该存储介质中读取信息或向该存储介质写入信息。在一个替换方案中,所述存储介质可以与处理器集成在一起。处理器和存储介质可以驻留在ASIC中。ASIC可以驻留在用户终端中。在一个替换方案中,处理器和存储介质可以作为分立组件驻留在用户终端中。
在一个或多个示例性设计中,所述功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现,则可以将所述功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质,该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的,该计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储设备、磁盘存储设备或其它磁性存储设备,或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外,任何连接都可以适当地称为计算机可读介质。例如,如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(DSL)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件,则上述同轴线缆、光纤线缆、双绞线、DSL或诸如红外线、无线电和微波的无线技术均包括在介质的定义。如这里所使用的,磁盘和光盘包括压缩盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘、蓝光盘,其中磁盘通常磁性地再现数据,而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器、磁盘或光盘等。
上述实施例是实施方式的可能示例,并且仅仅为了清楚理解本发明的原理而提出。所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上所述的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。

Claims (10)

1.一种整机柜设备无状态自动管理的方法,其特征在于,包括以下步骤:
在管理控制器中存储各个节点和/或部件的配置信息,并保持与所述节点和/或部件配置的同步更新;
响应于有新的节点和/或部件插入,所述管理控制器获取所述节点和/或部件的型号信息并与存储的原节点和/或部件的型号进行比对,并响应于所述型号信息与存储的原节点和/或部件的型号不一致而通知用户对所述新的节点和/或部件进行重新配置;
响应于所述型号信息与存储的原节点和/或部件的型号一致,所述管理控制器获取所述节点和/或部件的序列号信息并与存储的原节点和/或部件的序列号进行比对,并响应于所述序列号信息与存储的原节点和/或部件的序列号不一致而将所述管理控制器存储的相关配置信息写入到所述新的节点和/或部件中。
2.根据权利要求1所述的方法,其特征在于,所述在管理控制器中存储各个节点和/或部件的配置信息,并保持与所述节点和/或部件配置的同步更新包括:
所述管理控制器定期获取各个节点和/或部件的版本号和/或版本校验值以与其存储的版本号和/或版本校验值进行比对;以及
响应于所述比对的结果不一致,从所述节点和/或部件读取固件版本数据并进行校验,校验通过后将所述固件版本数据存入所述管理控制器空间中的对应节点和/或部件目录下。
3.根据权利要求2所述的方法,其特征在于,所述在管理控制器中存储各个节点和/或部件的配置信息,并保持与所述节点和/或部件配置的同步更新还包括:
通过所述管理控制器对所述节点和/或部件进行参数配置,所述管理控制器将参数配置数据保存到所述管理控制器空间中的对应节点和/或部件目录下,并生成新的校验值。
4.根据权利要求3所述的方法,其特征在于,所述在管理控制器中存储各个节点和/或部件的配置信息,并保持与所述节点和/或部件配置的同步更新还包括:
响应于用户登录所述节点和/或部件进行参数配置,通过所述节点和/或部件上的BMC将修改的参数上报到所述管理控制器中进行保存,并生成新的校验值。
5.根据权利要求1所述的方法,其特征在于,所述响应于有新的节点和/或部件插入包括:
通过在位信号的变化来发现所述新的节点和/或部件的插入。
6.根据权利要求5所述的方法,其特征在于,所述响应于有新的节点和/或部件插入还包括:
对于没有在位信号的节点和/或部件,所述管理控制器定期查询所述节点和/或部件的状态;并且
响应于上次查询到不能够通信而本次查询到能够通信,则认为所述节点和/或部件为新插入的。
7.根据权利要求1所述的方法,其特征在于,所述响应于所述序列号信息与存储的原节点和/或部件的序列号不一致而将所述管理控制器存储的相关配置信息写入到所述新的节点和/或部件中包括:
响应于所述序列号信息与原有节点和/或部件的不一致,所述管理控制器获取所述新节点和/或部件的固件版本号并与其保存的进行比对,并响应于所述固件版本号不同而将其保存的原有版本的固件更新到所述新节点和/或部件中。
8.根据权利要求7所述的方法,其特征在于,所述响应于所述序列号信息与存储的原节点和/或部件的序列号不一致而将所述管理控制器存储的相关配置信息写入到所述新的节点和/或部件中还包括:
所述管理控制器将其保存的原有节点和/或部件的参数配置数据和运行状态数据,配置到所述新节点和/或部件中。
9.根据权利要求1所述的方法,其特征在于,还包括:
响应于所述序列号信息与原有节点和/或部件的一致,所述管理控制器校验所述节点和/或部件的固件版本、参数配置和运行状态数据,并响应于校验不一致而将所述管理控制器中存储的相应数据配置到所述节点和/或部件中。
10.一种整机柜设备无状态自动管理的装置,其特征在于,包括:
至少一个处理器;和
存储器,所述存储器存储有处理器可运行的程序代码,所述程序代码在被处理器运行时实施如权利要求1-9中任一项所述的方法。
CN201911266195.3A 2019-12-11 2019-12-11 一种整机柜设备无状态自动管理的方法和装置 Active CN111130861B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911266195.3A CN111130861B (zh) 2019-12-11 2019-12-11 一种整机柜设备无状态自动管理的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911266195.3A CN111130861B (zh) 2019-12-11 2019-12-11 一种整机柜设备无状态自动管理的方法和装置

Publications (2)

Publication Number Publication Date
CN111130861A true CN111130861A (zh) 2020-05-08
CN111130861B CN111130861B (zh) 2022-05-13

Family

ID=70498567

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911266195.3A Active CN111130861B (zh) 2019-12-11 2019-12-11 一种整机柜设备无状态自动管理的方法和装置

Country Status (1)

Country Link
CN (1) CN111130861B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112199197A (zh) * 2020-10-23 2021-01-08 网易(杭州)网络有限公司 一种服务器管理方法及系统
CN118018529A (zh) * 2024-01-09 2024-05-10 箭牌家居集团股份有限公司 一种设备序列号的恢复方法、控制装置及智能设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105511924A (zh) * 2015-12-10 2016-04-20 浪潮电子信息产业股份有限公司 一种基于rack的节点中板混插使用自动刷新固件的设计方法
CN107943496A (zh) * 2017-11-17 2018-04-20 郑州云海信息技术有限公司 一种整机柜服务器批量更新固件的装置及方法
CN108121804A (zh) * 2017-12-22 2018-06-05 百度在线网络技术(北京)有限公司 跨地域分布式存储数据的方法、装置、终端及存储介质
CN109088783A (zh) * 2018-11-01 2018-12-25 郑州云海信息技术有限公司 整机柜服务器多级之间刷新进度获取方法、装置及设备
CN109818825A (zh) * 2019-01-07 2019-05-28 郑州云海信息技术有限公司 一种Rack服务器智能化测试方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105511924A (zh) * 2015-12-10 2016-04-20 浪潮电子信息产业股份有限公司 一种基于rack的节点中板混插使用自动刷新固件的设计方法
CN107943496A (zh) * 2017-11-17 2018-04-20 郑州云海信息技术有限公司 一种整机柜服务器批量更新固件的装置及方法
CN108121804A (zh) * 2017-12-22 2018-06-05 百度在线网络技术(北京)有限公司 跨地域分布式存储数据的方法、装置、终端及存储介质
CN109088783A (zh) * 2018-11-01 2018-12-25 郑州云海信息技术有限公司 整机柜服务器多级之间刷新进度获取方法、装置及设备
CN109818825A (zh) * 2019-01-07 2019-05-28 郑州云海信息技术有限公司 一种Rack服务器智能化测试方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112199197A (zh) * 2020-10-23 2021-01-08 网易(杭州)网络有限公司 一种服务器管理方法及系统
CN112199197B (zh) * 2020-10-23 2023-07-18 网易(杭州)网络有限公司 一种服务器管理方法及系统
CN118018529A (zh) * 2024-01-09 2024-05-10 箭牌家居集团股份有限公司 一种设备序列号的恢复方法、控制装置及智能设备

Also Published As

Publication number Publication date
CN111130861B (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
WO2021253854A1 (zh) 远程批量更新固件的方法、装置及计算机可读存储介质
US7840662B1 (en) Dynamically managing a network cluster
CN112286905A (zh) 数据迁移方法及装置、存储介质、电子设备
CN111130861B (zh) 一种整机柜设备无状态自动管理的方法和装置
US10430082B2 (en) Server management method and server for backup of a baseband management controller
CN111030892B (zh) 一种测试bmc ncsi自适应模式下网络功能的方法、设备及介质
CN103024065A (zh) 用于云存储系统的系统配置管理方法
CN112152843B (zh) 一种集群节点部署方法、装置、系统和电子设备
CN113711570B (zh) 用于使计算设备能够与云网络通信的方法和系统
CN111124722A (zh) 一种隔离故障内存的方法、设备及介质
CN111142896A (zh) 一种存储设备固件升级的方法、设备及可读介质
CN111104147A (zh) 一种bmc升级方法、装置、终端及存储介质
CN110995496B (zh) 一种批量同步白盒交换机时间的方法和装置
CN111813507A (zh) 一种基于sanlock的虚拟机高可用的方法、系统、设备及介质
CN110990069A (zh) 一种服务器bmc配置自动更新方法和装置
CN110688128A (zh) 一种提高超融合存储可靠性的部署方法和装置
CN109379223A (zh) 一种实现网卡自动化设置的方法和装置
CN113157823A (zh) 集群系统部署方法及装置
CN111045710B (zh) 一种基于IPMI命令的SAS-Expander固件升级的方法、设备及介质
CN111176904B (zh) 一种私有云架构下的数据备份的方法、系统、设备及介质
CN111193818A (zh) 一种获取ip地址的方法、系统、设备及介质
CN111158963A (zh) 一种服务器固件冗余启动方法和服务器
CN113810513B (zh) 一种弹性公网ip的配置管理方法及系统
CN111488232B (zh) 开箱即用解决方案级配置以及诊断日志记录和报告的系统和方法
US10972343B2 (en) System and method for device configuration update

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant