CN103473152B - 一种刀片服务器主备管理模块备份及更新方法 - Google Patents

一种刀片服务器主备管理模块备份及更新方法 Download PDF

Info

Publication number
CN103473152B
CN103473152B CN201310438789.4A CN201310438789A CN103473152B CN 103473152 B CN103473152 B CN 103473152B CN 201310438789 A CN201310438789 A CN 201310438789A CN 103473152 B CN103473152 B CN 103473152B
Authority
CN
China
Prior art keywords
management module
standby
active
standby management
firmware
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310438789.4A
Other languages
English (en)
Other versions
CN103473152A (zh
Inventor
陈刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201310438789.4A priority Critical patent/CN103473152B/zh
Publication of CN103473152A publication Critical patent/CN103473152A/zh
Application granted granted Critical
Publication of CN103473152B publication Critical patent/CN103473152B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明提出一种刀片服务器主备管理模块备份及更新方法,可实现主备管理模块的冗余备份及固件更新。冗余备份主要是以主管理模块为主,在主管理模块失效时从管理模块可以接管系统监控管理权,一旦主管理模块恢复,则从管理模块释放控制权,由主管理模块重新获得管理权。固件更新方法通过在刀片模块启动NAT服务,建立NAT网络映射表的方式,将固件镜像通过网络主管理模块传输到从管理模块,可实现大容量固件镜像下,主备管理模块统一更新的需求。本方法特别适合于不影响用户正常服务器使用条件下的,主备管理模块固件镜像更新的需求,同时抢占的冗余策略可满足用户对硬件成本设计的考虑。

Description

一种刀片服务器主备管理模块备份及更新方法
技术领域
本发明涉及计算机服务器技术领域,具体地说是一种刀片服务器主备管理模块备份及更新方法。
背景技术
片服务器以其高计算密度、优化部署、资源共享和便于集中管理的特点被大量应用在高性能计算和云计算服务领域中,它已成为服务器发展的主要方向。
刀片服务器系统通常由多个刀片模块,电源及风扇模块、管理模块等组成。监控管理系统是服务器正常工作的保障,主要分为带内监控管理系统和带外监控管理系统。其中,带外监控管理系统无论服务器是否开机都可以对服务器各关键指标进行监控管理,应用十分广泛,其主要是在刀片模块板级监控管理单元(BMC)及管理模块系统级监控管理单元(SMC)来实现的。SMC单元作为刀片服务器集中管理中心模块,对刀片服务器乃至服务器集群进行实时的监控管理。由于模块功能集中且重要,因此,通常将SMC单元设计成完全备份的形式。但实际中备SMC单元往往扮演是临时取代主SMC的角色,这样完全备份的设计形式无论是设计成本还是实际作用上都有待改进。同时,随着监控管理的需求增加,需要不定期的对SMC的固件程序进行更新升级。目前,更新方法主要由三种:一、通过离线方式利用专用工具更新,此方法实施时需要关闭服务器电源,这样会严重影响用户对服务器的正常使用;二、通过WEB Browser方式分别登录到模块更新,此方法实施时需用户人为的将系统控制权到需要更新的模块后再实施,同样会严重影响用户对服务器的正常使用;三、通过WEBBrowser方式登录到统一模块更新,通过主备管理模块间串口信号传输固件镜像,但通常镜像都比较大,在串口上传输不仅传输速率慢,而且常常出现通信断路的问题;
因此,如何能在既节约成本、提高备份模块使用度的前提下实现主备管理模块的冗余,又能在不影响用户正常使用服务器的前提下,主备管理模块通过统一的方式进行高效的更新就成了亟需解决的问题。
发明内容
针对刀片服务器管理模块主备冗余及固件更新中,如何准确地实现管理模块主备冗余切换,并实现通过主管理模块实现备管理模块的固件更新,本发明提出了一种刀片服务器主备管理模块备份及更新方法。
本发明的目的是按以下方式实现的,包括:1)刀片服务器主备管理模块间与其他模块的连接方式;2)刀片服务器主备管理模块的冗余备份方法;3)刀片服务器主备管理模块的更新方法,其中:
1)刀片服务器主备管理模块间与其他模块的连接方式中,主备管理模块的SMC单元间通过串口心跳信号链接,并且与刀片计算模块的BMC单元通过以太网总线方式链接;
2)刀片服务器主备管理模块的冗余备份方法中,冗余备份机制是抢占式的,备管理模块作为主管理模块的备份模块,备管理模块在主管理模块失效时接管刀片服务器的监控管理工作,一旦主管理模块恢复,备管理模块则让出系统的监控管理权;
3)刀片服务器主备管理模块的更新方法中,更新方法是固件镜像的更新方法,需要更新的固件是管理模块的SMC单元,更新方法对于主备管理模块是不同的,其中:
1)主管理模块固件更新包括上传文件、启动更新流程;
2)备管理模块固件更新的前提是主管理模块和至少一个刀片模块在位,通过刀片中转机制,由主管理模块镜像文件传送到备管理模块后,再启动更新流程;
3)主管理模块通过串口获取备管理模块的固件更新进度;
所述的连接方式是管理模块的SMC单元通过网络交换芯片与多个刀片模块的BMC单元实现链接。
所述的连接方式是主备管理模块的SMC单元间通过串口形式链接,并有特定的通信协议。
所述的抢占式备份机制是主备管理模块对外提供硬件接口,备管理模块是主管理模块的子集。
所述的固件更新流程包括:更新模式、文件校验、启动更新、更新后校验、退出更新环节。
所述的刀片中转机制包括:
1)刀片模块上建立主备管理模块的NAT网络映射表;
2)主管理模块向备管理模块发送固件更新指令;
3)备管理模块访问在位号数最小的刀片获取NAT网络映射表;
4)备管理模块获得主管理模块的映射网络地址;
5)备管理模块向网络地址发送获取固件镜像指令;
6)主管理模块响应备管理模块请求,并发送镜像到备管理模块;
7)备管理模块接收后启动固件更新流程。
串口通信协议使用特定的通信格式获取对方在位信息、发送及接收控制指令、及获取对方更新进度及更新状态。
更新状态异常时,可安全退出更新流程,并反馈异常状态给用户提示。
本发明的有益效果是:利用本实施例的刀片服务器主备管理模块备份及更新方法,不仅可以完成主备管理模块冗余备份,提高服务器监控管理系统高度容错性,而且可以在不影响用户刀片节点正常工作的情况下,通过登录统一模块完成主备管理模块的更新。除此之外,本发明也涉及固件更新的可用性设计,基于网络的NAT网络映射表,可以避免由于固件镜像文件导致串口传输数据时的失效风险,并大幅提高数据传输速率,增强了系统的可用性。
附图说明
图1是根据本发明的刀片服务器组成及各模块物理连接图;
图2是根据本发明的刀片服务器主管理模块冗余备份图;
图3是根据本发明的刀片服务器主管理模块固件更新流程图;
图4是根据本发明的刀片服务器备管理模块固件更新流程图。
具体实施方式
以下结合附图对本发明的实施例进行说明,应当理解,以此所描述的实施例仅用于说明和理解本发明,并不用于限定本发明。
图1:是根据本发明的刀片服务器组成及各模块物理连接图。如图1所示,刀片服务器包含一定数量计算刀片模块(包含BMC单元),本实例中计算刀片模块数量为二十刀片,主管理模块和备管理模块(包含SMC单元),若干电源和风扇等。
图2是根据本发明的刀片服务器的主备管理模块冗余备份图,如图2所示,具体冗余备份过程描述如下:
步骤1:当刀片服务系统主管理模块失效时,备管理模块获得系统控制权,完成初始化配置;
步骤2:当刀片服务系统主管理模块恢复时,这种恢复可能是更换模块或主管理模块重启完成等动作,主管理模块会从备管理模块获得系统当前同步配置文件,重启备管理模块,获得系统控制权。
图3是根据本发明的刀片服务器主管理模块固件更新流程图,具体固件更新流程描述如下:
步骤1:以Web browser方式登录刀片服务器监控管理系统,进入管理模块页面,点击主SMC固件更新按钮,系统进入更新模式;
步骤2:上传目标固件更新文件到管理模块的SMC单元;
步骤3:对上传文件进行完整性校验,如果失败则提示用户退出更新模式,重新启动管理模块;
步骤4:如果步骤3上传成功,则启动更新;
步骤5:按块将固件信息写入Flash中;
步骤6:写入完成后再将此块信息读出并进行校验;
步骤7:如果校验失败,退出更新模式,重新启动;
步骤8:如果校验成功,则判断是否是最后的要写入的数据;
步骤9:如果全部块都更新完成,则整体校验写入的固件信息;
步骤9:如果为完成全部块更新,则从步骤6开始重复操作;
步骤10:如果校验整体校验失败,退出更新模式,重新启动;
步骤11:如果校验整体校验成功,则提示用户此次更新完成,重新启动。
图4是根据本发明的刀片服务器备管理模块固件更新流程图,备管理模块固件更新流程包括:
流程A:备SMC单元通过刀片模块的NAT映射表获取主SMC单元网络配置,具体过程描述如下:
步骤1:以Web browser方式登录刀片服务器监控管理系统,进入管理模块页面,点击备SMC固件更新按钮,系统进入更新模式;;
步骤2:上传目标固件更新文件到管理模块的SMC模块;
步骤3:主SMC模块通过串口发送启动更新指令到备SMC模块;
步骤4:主SMC单元通过LAN获取刀片在位信息;
步骤5:主SMC获取选定在位号最小的刀片,启动NAT服务,并获得NAT网络映射文件;
步骤6:主SMC发送指令到备SMC,通知其映射后的网络地址信息;
步骤7:备SMC由刀片模块的NAT服务网络中转,从主SMC处获取需要更新的固件镜像;
步骤8:备SMC通过串口回复主SMC,准备完成可启动更新;
步骤9:主SMC通知备SMC进入更新模式;
流程B:备SMC单元启动更新流程,此流程与主SMC单元更新流程类似。
利用本实施例的刀片服务器主备管理模块备份及更新方法,不仅可以完成主备管理模块冗余备份,提高服务器监控管理系统高度容错性,而且可以在不影响用户刀片节点正常工作的情况下,通过登录统一模块完成主备管理模块的更新。
除此之外,本发明也涉及固件更新的可用性设计,基于网络的NAT网络映射表,可以避免由于固件镜像文件导致串口传输数据时的失效风险,并大幅提高数据传输速率,增强了系统的可用性。
以上所述仅为本发明的实施例而已,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种刀片服务器主备管理模块备份及更新方法, 其特征在于包括:1)刀片服务器主备管理模块间与其他模块的连接方式;2)刀片服务器主备管理模块的冗余备份方法;3)刀片服务器主备管理模块的更新方法,其中:
1)刀片服务器主备管理模块间与其他模块的连接方式中,主备管理模块的SMC单元间通过串口心跳信号链接,并且与刀片计算模块的BMC单元通过以太网总线方式链接;
2)刀片服务器主备管理模块的冗余备份方法中,冗余备份机制是抢占式的,备管理模块作为主管理模块的备份模块,备管理模块在主管理模块失效时接管刀片服务器的监控管理工作,一旦主管理模块恢复,备管理模块则让出系统的监控管理权;
3)刀片服务器主备管理模块的更新方法中,更新方法是固件镜像的更新方法,需要更新的固件是管理模块的SMC单元,更新方法对于主备管理模块是不同的,其中:
(1)主管理模块固件更新包括上传文件、启动更新流程;
(2)备管理模块固件更新的前提是主管理模块和至少一个刀片模块在位,通过刀片中转机制,由主管理模块镜像文件传送到备管理模块后,再启动更新流程,所述的刀片中转机制包括:
1)刀片模块上建立主备管理模块的NAT网络映射表;
2)主管理模块向备管理模块发送固件更新指令;
3)备管理模块访问在位号数最小的刀片获取NAT网络映射表;
4)备管理模块获得主管理模块的映射网络地址;
5)备管理模块向网络地址发送获取固件镜像指令;
6)主管理模块响应备管理模块请求,并发送镜像到备管理模块;
7)备管理模块接收后启动固件更新流程;
(3)主管理模块通过串口获取备管理模块的固件更新进度。
2.根据权利要求1所述的方法,其特征在于连接方式是管理模块的SMC单元通过网络交换芯片与多个刀片模块的BMC单元实现链接。
3.根据权利要求1所述的方法,其特征在于,连接方式是主备管理模块的SMC单元间通过串口形式链接,并有特定的通信协议。
4.根据权利要求1所述方法,其特征在于,抢占式备份机制是主备管理模块对外提供硬件接口,备管理模块是主管理模块的子集。
5.根据权利要求1所述的方法,其特征在于,固件更新流程包括:更新模式、文件校验、启动更新、更新后校验、退出更新环节。
6.根据权利要求1所述的方法,其特征在于,串口通信协议使用特定的通信格式获取对方在位信息、发送及接收控制指令及获取对方更新进度及更新状态。
7.根据权利要求1所述的方法,其特征在于,更新状态异常时,可安全退出更新流程,并反馈异常状态给用户提示。
CN201310438789.4A 2013-09-25 2013-09-25 一种刀片服务器主备管理模块备份及更新方法 Active CN103473152B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310438789.4A CN103473152B (zh) 2013-09-25 2013-09-25 一种刀片服务器主备管理模块备份及更新方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310438789.4A CN103473152B (zh) 2013-09-25 2013-09-25 一种刀片服务器主备管理模块备份及更新方法

Publications (2)

Publication Number Publication Date
CN103473152A CN103473152A (zh) 2013-12-25
CN103473152B true CN103473152B (zh) 2017-03-01

Family

ID=49798018

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310438789.4A Active CN103473152B (zh) 2013-09-25 2013-09-25 一种刀片服务器主备管理模块备份及更新方法

Country Status (1)

Country Link
CN (1) CN103473152B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103885860A (zh) * 2014-03-21 2014-06-25 浪潮集团有限公司 一种应用ipmi命令实现bmc双管理热冗余的方法
CN104378243A (zh) * 2014-12-05 2015-02-25 浪潮集团有限公司 一种多模式、高可用刀片服务器冗余管理系统构建方法
CN105589712B (zh) * 2015-08-24 2019-09-06 新华三信息技术有限公司 Bmc模块更新方法以及装置
CN105242940A (zh) * 2015-09-14 2016-01-13 浪潮集团有限公司 一种集中固件更新方法
CN106815054B (zh) * 2017-01-25 2020-05-12 苏州浪潮智能科技有限公司 一种刷新bmc固件的方法及装置
CN106933586B (zh) * 2017-03-09 2020-11-27 苏州浪潮智能科技有限公司 一种实现系统管理控制器版本同步的系统及方法
CN107704254A (zh) * 2017-09-07 2018-02-16 郑州云海信息技术有限公司 一种BMC Web界面下更新PSU固件的系统及方法
CN108628412A (zh) * 2017-11-30 2018-10-09 英业达科技有限公司 刀锋服务器
CN108718256A (zh) * 2018-06-14 2018-10-30 郑州云海信息技术有限公司 一种对节点的冗余监控系统
CN109471770B (zh) * 2018-09-11 2021-09-03 华为技术有限公司 一种系统管理方法和装置
CN110081003A (zh) * 2019-04-18 2019-08-02 山东超越数控电子股份有限公司 一种交替实现风扇控制的服务器实现方法
CN110649995A (zh) * 2019-09-02 2020-01-03 熊猫智慧水务有限公司 一种用于供水的智慧双路冗余通信联网系统
CN110909394B (zh) * 2019-11-24 2022-04-22 苏州浪潮智能科技有限公司 一种服务器的配置文件监测方法、装置、设备及存储介质
CN111736880A (zh) * 2020-05-28 2020-10-02 苏州浪潮智能科技有限公司 一种bmc刷新方法、系统、设备、产品、存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1257464C (zh) * 2002-12-18 2006-05-24 广达电脑股份有限公司 具有硬件备用结构的刀片型服务器管理系统
CN101996111A (zh) * 2010-11-30 2011-03-30 华为技术有限公司 一种倒换方法、装置及分布式刀片服务器系统
CN102664918B (zh) * 2012-03-27 2014-09-17 中国人民解放军国防科学技术大学 刀片服务器控制方法及控制台
CN102890563B (zh) * 2012-09-18 2016-04-20 曙光信息产业股份有限公司 一种刀片服务器kvm装置

Also Published As

Publication number Publication date
CN103473152A (zh) 2013-12-25

Similar Documents

Publication Publication Date Title
CN103473152B (zh) 一种刀片服务器主备管理模块备份及更新方法
CN101917337B (zh) 路由器集群中板间互联的装置及方法
CN103067206A (zh) 物联网跨机房分布式全自动热备用服务器切换系统
CN104281511B (zh) 智能平台管理接口系统、基板管理控制器及实现方法
CN103488494A (zh) 一种刀片服务器多固件同步更新升级方法
CN110830324B (zh) 一种检测数据中心网络连通性的方法、装置及电子设备
CN101483540A (zh) 一种高端数据通信设备中的主备倒换方法
US10340981B2 (en) Data center management using device identification over power-line
CN105516292A (zh) 一种智能变电站云平台的热备方法
CN109672631A (zh) 基于vpx标准的高速交换板及控制方法
CN109857614A (zh) 一种机架服务器的容灾装置和方法
CN103117874A (zh) 一种刀片服务器管理网络快速配置方法
CN105549696B (zh) 具有机箱管理功能的机架式服务器系统
CN103825764A (zh) 基于云计算的数采仪监控系统及其增强通信稳定性方法
CN103885860A (zh) 一种应用ipmi命令实现bmc双管理热冗余的方法
CN103152210A (zh) 修复生成树协议转发状态异常的方法及堆叠设备
CN101488101A (zh) Cpci冗余备份系统
CN102820994A (zh) 一种用于网络隔离环境下的数据交换装置及方法
CN105068763B (zh) 一种针对存储故障的虚拟机容错系统和方法
CN109936532A (zh) 一种数据总线传输安全防护系统
CN104753707A (zh) 一种系统维护方法及网络交换设备
CN104639358B (zh) 批量网络端口切换方法及切换系统
CN101404594B (zh) 热备份性能的测试方法与装置、通信设备
CN109783413A (zh) 基于vpx标准的主控板及控制方法
CN104081369A (zh) 在预引导环境中建立模块化节点的连接性

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20170119

Address after: 450000 Henan province Zheng Dong New District of Zhengzhou City Xinyi Road No. 278 16 floor room 1601

Applicant after: Zhengzhou Yunhai Information Technology Co. Ltd.

Address before: 250014 Shandong Province, Ji'nan City hi tech Development Zone, Nga Road No. 1036

Applicant before: Langchao Electronic Information Industry Co., Ltd.

GR01 Patent grant
GR01 Patent grant