CN110690998A - 一种基于bmc的主从设备管理方法 - Google Patents

一种基于bmc的主从设备管理方法 Download PDF

Info

Publication number
CN110690998A
CN110690998A CN201910963537.0A CN201910963537A CN110690998A CN 110690998 A CN110690998 A CN 110690998A CN 201910963537 A CN201910963537 A CN 201910963537A CN 110690998 A CN110690998 A CN 110690998A
Authority
CN
China
Prior art keywords
equipment system
equipment
master
bmc
management method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910963537.0A
Other languages
English (en)
Other versions
CN110690998B (zh
Inventor
彭爽
水超
田宝华
封立平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Greatwall Galaxy Technology Co Ltd
Original Assignee
Hunan Greatwall Galaxy Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Greatwall Galaxy Technology Co Ltd filed Critical Hunan Greatwall Galaxy Technology Co Ltd
Priority to CN201910963537.0A priority Critical patent/CN110690998B/zh
Publication of CN110690998A publication Critical patent/CN110690998A/zh
Application granted granted Critical
Publication of CN110690998B publication Critical patent/CN110690998B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0663Performing the actions predefined by failover planning, e.g. switching to standby network elements

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明公开了一种基于BMC的主从设备管理方法,所述方法包括以下步骤:S1、设备系统初始化,同时读取第一设备槽位号并将第一设备系统设为待机状态;S2、发送同步信号并判断第二设备系统的工作模式,若处于激活状态进入步骤S3,若处于待机状态进入步骤S5;S3、发送查询命令;S4、第一设备系统根据第二设备系统查询信号反馈情况选择切换至激活状态监控服务器系统或持续查询;S5、切换第一设备系统为激活状态并发送同步信号判断第二设备系统是否处于待机状态,若为待机状态,则对服务器系统进行监控管理,若为激活状态,则进入步骤S6仲裁;S6、对第一设备系统和第二设备系统进行监控管理仲裁并返回重新检测。具有高可靠、低延迟且容错能力强的特点。

Description

一种基于BMC的主从设备管理方法
技术领域
本发明涉及服务器监控系统技术领域,尤其涉及一种基于BMC(BaseboardManagement Controller,底板管理控制器)的主从设备管理方法。
背景技术
现有服务器系统(如VPX系统)一般都要求高可靠和高密度,从而所述服务器系统的监控管理部分扮演了至关重要的角色,承担着监测和控制的作用,甚至还具备系统输出(KVM/SOL)等功能。为了防止不可预料的因素造成系统出现故障而致使监控失效,一般使用主从设备双系统来保障监控服务需求,而当前的一些设备管理方法是基于查询或者心跳同步来实现主从设备系统的监控,控制手段比较单一,对于许多特殊情况和故障类型都无法处理好,如通信线路出现故障等,主从设备就无法正确做出判断,从而使得设备功能失效,因此也就无法满足服务器系统的高可靠性需求。
鉴于此,如何设计一种高可靠、低延迟且容错能力强的主从设备管理方法是本技术领域人员亟待解决的技术问题。
发明内容
本发明的目的是提供一种基于BMC的主从设备管理方法,所述管理方法使用同步信号判断设备是否处于激活状态,同时结合设备的查询信号反馈综合决策主设备系统和从设备系统之间的切换,具有高可靠、低延迟且容错能力强的特点。
为解决上述技术问题,本发明提供一种基于BMC的主从设备管理方法,所述方法包括以下步骤:
S1、初始化第一设备系统和第二设备系统,然后读取第一设备的槽位号并将第一设备系统的工作模式设置为待机状态;
S2、通过第一设备系统读取第二设备系统的同步信号,并根据第二设备系统的同步信号判断第二设备系统的工作模式,若第二设备系统处于激活状态,则进入步骤S3,若第二设备系统处于待机状态,则进入步骤S5;
S3、保持第一设备系统处于待机状态并登记,同时发送第二设备系统工作模式的查询命令,然后进入步骤S4;
S4、若第一设备系统接收到第二设备系统的查询信号反馈,且第二设备系统处于激活状态,则返回步骤S3,若第一设备系统未接收到第二设备系统的查询信号反馈,则将第一设备系统切换为激活状态并对服务器系统进行监控管理;
S5、将第一设备系统的工作模式切换为激活状态,同时读取第二设备系统的同步信号,并根据第二设备系统的同步信号判断第二设备系统的工作模式,若第二设备系统的工作模式仍处于待机状态,则第一设备系统保持激活状态并对服务器系统进行监控管理,若第二设备处于激活状态,则进入步骤S6;
S6、根据所述步骤S1读取的第一设备槽位号判断第一设备是否为主设备,若第一设备为主设备,则返回步骤S2,若第一设备为从设备,则将第一设备系统的工作模式切换为待机状态并返回步骤S2。
作为上述技术方案的进一步优化,所述步骤S2中,通过第一设备系统连续三次读取第二设备系统同步信号来判断第二设备系统的工作模式。
作为上述技术方案的进一步优化,所述步骤S3的具体实现方式为:保持第一设备系统处于待机状态并登记,同时每隔3秒发送心跳命令来查询第二设备系统的工作模式,然后进入步骤S4。
作为上述技术方案的进一步优化,所述步骤S3中,第一设备系统每隔3秒且连续三次发送心跳命令来查询第二设备系统的工作模式。
作为上述技术方案的进一步优化,所述步骤S5中,第一设备系统连续三次读取第二设备系统的同步信号,并根据第二设备系统的同步信号判断第二设备系统的工作模式。
作为上述技术方案的进一步优化,所述第一设备和第二设备上均设有多个槽位号,所述槽位号为GPIO接口。
作为上述技术方案的进一步优化,所述第一设备和第二设备上的槽位号均设有四个。
作为上述技术方案的进一步优化,所述第一设备系统和第二设备系统之间通过承载IPMI协议数据的IPMB或LAN进行连接。
与现有技术比较,本发明所述管理方法通过使用同步信号来判断设备是否处于激活状态,同时结合设备的查询信号反馈综合决策主设备系统和从设备系统之间的切换实现对服务器系统的监控管理,通过两种手段确保服务器系统能够正确的决策出由哪一个设备系统来对服务器系统进行监控,同时在其中一个设备系统失效时能够无缝快速的被另一个设备系统接管,具有高可靠、低延迟且容错能力强的特点。
附图说明
图1是本发明一种基于BMC的主从设备管理方法的流程图,
图2是本发明中主从设备系统的工作模式转换图,
图3是本发明中主从设备的线路连接框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明的技术方案,下面结合附图对本发明作进一步的详细说明。
如图1、图2、图3所示,一种基于BMC的主从设备管理方法,所述方法包括以下步骤:
S1、初始化第一设备系统和第二设备系统,然后读取第一设备的槽位号并将第一设备系统的工作模式设置为待机状态;
S2、通过第一设备系统读取第二设备系统的同步信号,并根据第二设备系统的同步信号判断第二设备系统的工作模式,若第二设备系统处于激活状态,则进入步骤S3,若第二设备系统处于待机状态,则进入步骤S5;
S3、保持第一设备系统处于待机状态并登记,同时发送第二设备系统工作模式的查询命令,然后进入步骤S4;
S4、若第一设备系统接收到第二设备系统的查询信号反馈,且第二设备系统处于激活状态,则返回步骤S3,若第一设备系统未接收到第二设备系统的查询信号反馈,则将第一设备系统切换为激活状态并对服务器系统进行监控管理;
S5、将第一设备系统的工作模式切换为激活状态,同时读取第二设备系统的同步信号,并根据第二设备系统的同步信号判断第二设备系统的工作模式,若第二设备系统的工作模式仍处于待机状态,则第一设备系统保持激活状态并对服务器系统进行监控管理,若第二设备处于激活状态,则进入步骤S6;
S6、根据所述步骤S1读取的第一设备槽位号判断第一设备是否为主设备,若第一设备为主设备,则返回步骤S2,若第一设备为从设备,则将第一设备系统的工作模式切换为待机状态并返回步骤S2。
本实施例中,首先对第一设备系统和第二设备系统进行初始化,然后读取第一设备系统的槽位号并将第一设备系统的工作模式设置为待机状态,再经过第一设备系统读取第二设备系统的同步信号,根据所读取的第二设备系统同步信号来判断第二设备系统的工作模式。
若第二设备系统处于激活状态,则发送第二设备系统工作模式的查询命令,当第二设备系统反馈查询信号给第一设备系统且第二设备系统处于激活状态时,则重复发送查询命令,当第二设备系统未反馈查询信号给第一设备系统时,则判断第二设备系统出现宕机,此时将第一设备系统的工作模式切换为激活状态并对服务器系统进行监控管理;
若第二设备处于待机状态,则将第一设备系统的工作模式切换为激活状态,同时读取第二设备系统的同步信号并判断第二设备系统的工作模式,若第二设备系统的工作模式仍处于待机状态,则第一设备系统保持激活状态并对服务器系统进行监控;若第二设备处于激活状态,此时第一设备系统和第二设备系统存在竞争,都想把自己置于激活状态,则通过第一设备的槽位号来判断第一设备是否为主设备,若第一设备为主设备,则返回重新检测,若第一设备为从设备,则将第一设备系统的工作模式切换为待机状态让出资源给主设备,同时返回开始重新检测。
本实施例中,所述管理方法通过使用同步信号判断设备是否处于激活状态,同时结合设备的查询信号反馈综合决策主设备系统和从设备系统之间的切换实现对服务器系统的监控管理,通过两种手段确保服务器系统能够正确的决策出由哪一个设备系统来对服务器系统进行监控,同时在其中一个设备系统失效时能够无缝快速的被另一个设备系统接管,具有高可靠、低延迟且容错能力强的特点。
本实施例中,第一设备系统和第二设备系统均能独立对服务器系统内的资源进行监测和管理,具备完全的系统级管理能力,第一设备系统查询第二设备系统工作模式命令为get_status,如图1、图2所示,首次开机后,默认为第一设备系统进入待机状态S1,同时通过所述GPIO接口判断第二设备系统是否处于激活状态S2,若第二设备系统处于激活状态S2,则第一设备系统直接进入查询状态S3,如果第二设备系统没有激活,则第一设备系统进入激活状态S2;当第一设备系统处于查询状态S3时,循环查询第二设备系统的工作模式,如果查询通讯失败,则直接进入激活状态S2,如果查询通讯正常,且第二设备系统不存在问题,则重复查询循环;当第一设备系统处于激活状态S2时,若出现故障,则重启第一设备系统并进入待机状态S1,若没有出现故障,则一直处于激活状态S2对服务器系统进行监控管理。
本实施例中,若第二设备系统反馈查询信号给第一设备系统但第二设备系统处于待机状态时,则进入步骤S5。
如图1所示,所述步骤S2中,通过第一设备系统连续三次读取第二设备系统同步信号来判断第二设备系统的工作模式。本实施例中,连续三次通过所述第一设备系统读取第二设备系统同步信号来判断第二设备系统的工作模式,若连续三次读取第二设备系统的工作模式均处于激活状态,则进入步骤S3;若连续三次读取第二设备系统的工作模式均处于待机状态,则进入步骤S5。
如图1所示,所述步骤S3的具体实现方式为:保持第一设备系统处于待机状态并登记,同时每隔3秒发送心跳命令来查询第二设备系统的工作模式,然后进入步骤S4。本实施例中,所述第一设备系统通过每隔3秒发送心跳命令来查询第二设备系统的工作模式,以保证第二设备系统对服务器系统的正常且可靠的进行监控。
如图1所示,所述步骤S3中,第一设备系统每隔3秒且连续三次发送心跳命令来查询第二设备系统的工作模式。本实施例中,第一设备系统通过连续三次每隔3秒发送心跳命令查询第二设备系统工作模式,有效保证了查询结果的高可靠性。
如图1所示,所述步骤S5中,第一设备系统连续三次读取第二设备系统的同步信号,并根据第二设备系统的同步信号判断第二设备系统的工作模式。本实施例中,所述第一设备系统通过连续三次读取第二设备系统的同步信号,若连续三次读取第二设备系统的工作模式均处于待机状态,则第一设备系统保持激活状态并接管服务器系统的监控管理任务,对服务器系统进行监控;若连续三次读取第二设备系统的工作模式均处于激活状态,此时第一设备系统和第二设备系统均置于激活状态,则进入步骤S6进行仲裁。
如图3所示,所述第一设备和第二设备上均设有多个槽位号,所述槽位号为GPIO(General-purpose input output,通用输入/输出口)接口。本实施例中,所述第一设备和第二设备上均配置有各自的多个槽位号,所述槽位号为GPIO接口,所述GPIO接口工作在输入状态,外接高电平,读数为1,外接低电平,读数为0,为了正确区分主设备和从设备上的槽位号,将主设备上的槽位ID设置为8,从设备上的槽位ID设置为9,当主设备和从设备同时启动时,8槽位的监控系统激活,而9槽位的监控系统处于待机状态。本实施例中,第一设备和第二设备均可为主设备或从设备。
如图3所示,所述第一设备和第二设备上的槽位号均设有四个。本实施例中,第一设备和第二设备上均设有四个GPIO接口作为槽位号。在其他实施例中,也可以是其他数目的GPIO接口。
如图3所示,所述第一设备系统和第二设备系统之间通过IPMB(IntelligentPlatform Management BUS,智能平台管理总线)或LAN(Local Area Network,局域网)通讯连接。本实施例中,第一设备系统和第二设备系统之间通过承载IPMI协议数据的IPMB或LAN通讯连接,即第一设备系统通过IPMB或LAN将第二设备系统工作模式的查询命令发送给第二设备系统,第二设备系统将反馈信号通过IPMB或LAN反馈给第一设备系统。
以上对本发明所提供的一种基于BMC的主从设备管理方法进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (8)

1.一种基于BMC的主从设备管理方法,其特征在于,所述方法包括以下步骤:
S1、初始化第一设备系统和第二设备系统,然后读取第一设备的槽位号并将第一设备系统的工作模式设置为待机状态;
S2、通过第一设备系统读取第二设备系统的同步信号,并根据第二设备系统的同步信号判断第二设备系统的工作模式,若第二设备系统处于激活状态,则进入步骤S3,若第二设备系统处于待机状态,则进入步骤S5;
S3、保持第一设备系统处于待机状态并登记,同时发送第二设备系统工作模式的查询命令,然后进入步骤S4;
S4、若第一设备系统接收到第二设备系统的查询信号反馈,且第二设备系统处于激活状态,则返回步骤S3,若第一设备系统未接收到第二设备系统的查询信号反馈,则将第一设备系统切换为激活状态并对服务器系统进行监控管理;
S5、将第一设备系统的工作模式切换为激活状态,同时读取第二设备系统的同步信号,并根据第二设备系统的同步信号判断第二设备系统的工作模式,若第二设备系统的工作模式仍处于待机状态,则第一设备系统保持激活状态并对服务器系统进行监控管理,若第二设备处于激活状态,则进入步骤S6;
S6、根据所述步骤S1读取的第一设备槽位号判断第一设备是否为主设备,若第一设备为主设备,则返回步骤S2,若第一设备为从设备,则将第一设备系统的工作模式切换为待机状态并返回步骤S2。
2.如权利要求1所述的基于BMC的主从设备管理方法,其特征在于,所述步骤S2中,通过第一设备系统连续三次读取第二设备系统同步信号来判断第二设备系统的工作模式。
3.如权利要求2所述的基于BMC的主从设备管理方法,其特征在于,所述步骤S3的具体实现方式为:保持第一设备系统处于待机状态并登记,同时每隔3秒发送心跳命令来查询第二设备系统的工作模式,然后进入步骤S4。
4.如权利要求3所述的基于BMC的主从设备管理方法,其特征在于,所述步骤S3中,第一设备系统每隔3秒且连续三次发送心跳命令来查询第二设备系统的工作模式。
5.如权利要求4所述的基于BMC的主从设备管理方法,其特征在于,所述步骤S5中,第一设备系统连续三次读取第二设备系统的同步信号,并根据第二设备系统的同步信号判断第二设备系统的工作模式。
6.如权利要求5所述的基于BMC的主从设备管理方法,其特征在于,所述第一设备和第二设备上均设有多个槽位号,所述槽位号为GPIO接口。
7.如权利要求6所述的基于BMC的主从设备管理方法,其特征在于,所述第一设备和第二设备上的槽位号均设有四个。
8.如权利要求7所述的基于BMC的主从设备管理方法,其特征在于,所述第一设备系统和第二设备系统之间通过IPMB或LAN通讯连接。
CN201910963537.0A 2019-10-11 2019-10-11 一种基于bmc的主从设备管理方法 Active CN110690998B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910963537.0A CN110690998B (zh) 2019-10-11 2019-10-11 一种基于bmc的主从设备管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910963537.0A CN110690998B (zh) 2019-10-11 2019-10-11 一种基于bmc的主从设备管理方法

Publications (2)

Publication Number Publication Date
CN110690998A true CN110690998A (zh) 2020-01-14
CN110690998B CN110690998B (zh) 2021-12-21

Family

ID=69112058

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910963537.0A Active CN110690998B (zh) 2019-10-11 2019-10-11 一种基于bmc的主从设备管理方法

Country Status (1)

Country Link
CN (1) CN110690998B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101394306A (zh) * 2008-07-08 2009-03-25 国电南瑞科技股份有限公司 一种双服务器系统的无缝切换方法
CN101917283A (zh) * 2010-07-22 2010-12-15 北京交通大学 双通道热备系统及实现双通道热备的方法
CN103955188A (zh) * 2014-04-24 2014-07-30 清华大学 支持冗余切换功能的控制系统及方法
US20150067084A1 (en) * 2013-09-03 2015-03-05 Wistron Corporation Server system and redundant management method thereof
CN106383770A (zh) * 2016-09-26 2017-02-08 郑州云海信息技术有限公司 一种服务器监控管理的方法及服务器
CN108540379A (zh) * 2018-04-19 2018-09-14 南方电网科学研究院有限责任公司 基于ieee 1588v2的时间同步故障倒换方法、时间同步装置及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101394306A (zh) * 2008-07-08 2009-03-25 国电南瑞科技股份有限公司 一种双服务器系统的无缝切换方法
CN101917283A (zh) * 2010-07-22 2010-12-15 北京交通大学 双通道热备系统及实现双通道热备的方法
US20150067084A1 (en) * 2013-09-03 2015-03-05 Wistron Corporation Server system and redundant management method thereof
CN103955188A (zh) * 2014-04-24 2014-07-30 清华大学 支持冗余切换功能的控制系统及方法
CN106383770A (zh) * 2016-09-26 2017-02-08 郑州云海信息技术有限公司 一种服务器监控管理的方法及服务器
CN108540379A (zh) * 2018-04-19 2018-09-14 南方电网科学研究院有限责任公司 基于ieee 1588v2的时间同步故障倒换方法、时间同步装置及系统

Also Published As

Publication number Publication date
CN110690998B (zh) 2021-12-21

Similar Documents

Publication Publication Date Title
US10560315B2 (en) Method and device for processing failure in at least one distributed cluster, and system
US7490264B2 (en) Method for error handling in a dual adaptor system where one adaptor is a master
US6587950B1 (en) Cluster power management technique
US20070288585A1 (en) Cluster system
US10042583B2 (en) Device management method, device, and device management controller
EP2663038A1 (en) Switch chip port management method, main control board, switch board, and system
CN101582797B (zh) 管理板、双机备份系统及方法
CN112653734B (zh) 服务器集群实时主从控制和数据同步系统及方法
CN105141400A (zh) 一种高可用性集群管理方法及相关设备
CN109428728B (zh) 端口自适应方法和设备
US7725767B2 (en) Apparatus including an operating manager and a switch for disconnecting the operating manager from a bus
CN111585835B (zh) 一种带外管理系统的控制方法、装置和存储介质
CN113645048B (zh) 网卡切换方法、装置以及现场可编程逻辑门阵列fpga
CN107071189B (zh) 一种通讯设备物理接口的连接方法
US9100336B2 (en) Method for managing a switch chip port, main control board, switch board, and system
CN101557307B (zh) 调度自动化系统应用状态管理方法
CN110690998B (zh) 一种基于bmc的主从设备管理方法
CN212541329U (zh) 基于国产龙芯平台的双冗余计算机设备
CN114553900B (zh) 一种分布式块存储管理系统、方法及电子设备
CN112346905B (zh) 数据备援系统
CN117666746B (zh) 多节点服务器、应用于多节点服务器的方法、装置和介质
CN104796228A (zh) 一种信息传输的方法、装置及系统
CN117560268A (zh) 集群管理方法及相关装置
CN115145764A (zh) 一种端口连接方法、装置、设备及存储介质
CN118331026A (zh) 一种双机冗余通讯方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant