CN111880999B - 用于高密度刀片服务器的高可用监控管理装置及冗余切换方法 - Google Patents

用于高密度刀片服务器的高可用监控管理装置及冗余切换方法 Download PDF

Info

Publication number
CN111880999B
CN111880999B CN202010754634.1A CN202010754634A CN111880999B CN 111880999 B CN111880999 B CN 111880999B CN 202010754634 A CN202010754634 A CN 202010754634A CN 111880999 B CN111880999 B CN 111880999B
Authority
CN
China
Prior art keywords
cmu
heartbeat message
slave
monitoring
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010754634.1A
Other languages
English (en)
Other versions
CN111880999A (zh
Inventor
袁远
邢建英
李世杰
王俊
蒋句平
黎铁军
宋振龙
李琼
魏登萍
谢徐超
任静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202010754634.1A priority Critical patent/CN111880999B/zh
Publication of CN111880999A publication Critical patent/CN111880999A/zh
Application granted granted Critical
Publication of CN111880999B publication Critical patent/CN111880999B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种用于高密度刀片服务器的高可用监控管理装置及冗余切换方法,本发明装置包括主CMU和从CMU一共两个冗余布置的机框管理单元,主CMU和从CMU之间具有两条通信链路,两条通信链路包括用于发送包含设备状态信息的心跳报文的第一通信链路以及用于发送包含设备状态信息的补救心跳报文的第二通信链路。本发明能够确保远程监控管理所有组件能力,保障高密度刀片服务器的正常运维,能够极大地降低运维风险,可解决“脑分裂”现象,通过心跳报文和补救心跳报文可传输设备状态信息,能够综合判断主CMU和从CMU的状态以避免需要切换而没有切换或者不该切换而切换的问题,能够极大提高高密度刀片服务器监控管理系统的可用性。

Description

用于高密度刀片服务器的高可用监控管理装置及冗余切换 方法
技术领域
本发明涉及服务器高可用技术,具体涉及一种用于高密度刀片服务器的高可用监控管理装置及冗余切换方法。
背景技术
超算中心或者数据中心一般部署有大量高密度刀片服务器,每个高密度刀片服务器的机框中包含几十块计算主板、数块交换主板(业务数据网络)、1块监控主板、若干机框电源模块和机框散热模块(风机)等组件。计算主板和交换主板通常集成板级管理单元(BMU,Base Management Unit)以子卡的形式实施单板监控管理,监控主板作为机框管理单元(CMU Chassis Management Unit)收集BMU的监控管理信息,实施对整个机框中各种主板、机框电源模块和机框散热模块的监控管理。BMU与CMU通过独立于业务数据网络的监控管理网络实现信息交互。监控管理系统(BMU、CMU和监控管理网络)协同为高密度刀片服务器机框提供状态监控、管理控制、调试维护等功能,是保障高密度刀片服务器机框稳定运行的核心手段,如何保障监控管理系统自身可靠性和高可用性至关重要。
现有如超微B8000V5服务器,8U高度的机框中部署有20块计算刀片、3个电源模块、8个风机模块、1个100G高速互连模块、2个以太网互连模块、1个机框管理模块(监控主板)。机框中组件都通过机框内的中板连接。每块计算刀片都集成有1个BMU,BMU上的1路以太网信号通过背板汇聚到机框管理模块上交换芯片,实现机框管理对所有BMU的远程管理控制。此外机框管理模块还负责远程监控管理所有的电源模块、风扇模块及互连模块。为了降低成本,该机框管理模块仅集成有1块BMU作为主控芯片和1块交换芯片负责其他刀片上BMU之间数据交互。现有服务器高可用(HA,High Availability)技术中,通常设置有主从两个服务器,主从服务器之间通过高速心跳线连接,心跳线不仅传递心跳信息,同时还需支持主从之间的周期性数据同步;主从服务器与共享资源之间通过交换模块实现双平面连接。当从服务器检测到主服务器故障后,由从服务器接管主服务器全部工作,使得服务不被中断。
现有主流高密度刀片服务器,如超微B8000V5服务器,为了提高密度,只集成1个机框管理模块(CMU),不论是其上的交换芯片或者主控软硬件出现故障,都有可能导致CMU失效,此时,系统将失去远程监控管理所有组件能力,导致极大的运维风险,因此需要考虑机框管理模块(CMU)的双冗余,即设计主从CMU,一般情况下仅由主CMU承担整个高密度刀片服务器的监控管理工作,只有当主CMU出现故障,则从CMU接管主CMU的所有工作。同时主流高密度服务器的CMU上主要集成有一块基于BMU的监控管理芯片和一块交换芯片,受BMU主控性能和存储接口影响,不能处理较复杂的数据分析算法,同时不能集成大容量的硬盘以保存较大量的历史监控数据,不便于对系统开展智能化运维,影响了运维效率。
当前服务器高可用技术中,主从服务器之间如果有心跳信息仅仅表示工作服务器没有宕机,但并不能反映工作服务器的操作系统和心跳服务程序正常,而软件服务故障的情况。或者心跳信息仅仅表示服务器上软件服务是否正常,但并不能反映服务器硬件过温报警等情况。导致需要切换而没有切换或者不该切换而切换的问题出现,因此需要考虑通过心跳信息携带细粒度的服务器异常状态,以提高冗余切换的准确性,同时细粒度的异常状态也可作为排查故障服务器问题的重要手段。此外,单一心跳线实现冗余检测将会由于心跳线断开而导致主从服务器都认为自己应该承担服务工作,争抢共享资源,带来系统混乱,即出现“脑分裂”现象,也是冗余切换中需要避免的问题。
发明内容
针对现有技术存在的上述技术问题,本发明提供一种用于高密度刀片服务器的高可用监控管理装置及冗余切换方法,用于确保远程监控管理所有组件能力,保障高密度刀片服务器的正常运维,降低运维风险,解决“脑分裂”现象,避免需要切换而没有切换或者不该切换而切换的问题,提高高密度刀片服务器监控管理系统的可用性。
为了解决上述技术问题,本发明采用的技术方案为:
一种用于高密度刀片服务器的高可用监控管理装置,包括主CMU和从CMU一共两个冗余布置的机框管理单元,所述主CMU和从CMU之间具有两条通信链路,所述两条通信链路包括用于发送包含设备状态信息的心跳报文的第一通信链路以及用于发送包含设备状态信息的补救心跳报文的第二通信链路,所述主CMU和从CMU均具有用于连接高密度刀片服务器中各个计算刀片、交换刀片中BMU的以太网接口,以及用于连接高密度刀片服务器中各个机框电源模块和机框散热模块的连接端子。
可选地,所述主CMU和从CMU均包括机框交换模块、机框管理模块和机框监控模块,所述机框交换模块分别与机框管理模块、机框监控模块相连,所述第一通信链路位于主CMU和从CMU的机框管理模块之间,所述第二通信链路位于主CMU和从CMU的机框监控模块之间,所述用于连接高密度刀片服务器中各个计算刀片、交换刀片中BMU的以太网接口设于机框交换模块上,所述用于连接高密度刀片服务器中各个机框电源模块和机框散热模块的连接端子设于机框监控模块上。
可选地,所述机框管理模块包括微处理器,所述微处理器连接有两路以太网接口,其中一路以太网接口与机框交换模块相连、另一路以太网接口用于通过背板连接到主CMU和从CMU中另一者的BMU子卡以传输心跳报文。
可选地,所述机框监控模块包括BMU子卡,所述BMU子卡上带有两路以太网接口和多个用于连接高密度刀片服务器中各个机框电源模块和机框散热模块的连接端子,其中一路以太网接口与机框管理模块相连、另一路以太网接口用于通过背板连接到主CMU和从CMU中另一者的机框管理模块以传输补救心跳报文。
可选地,所述连接端子为I2C或者PMBUS接口。
此外,本发明还提供一种高密度刀片服务器,包含k+1块计算刀片、l+1块交换刀片、n+1个机框散热模块、m+1个机框电源模块和监控管理装置,所述监控管理装置为本发明前述用于高密度刀片服务器的高可用监控管理装置。
此外,本发明还提供一种前述用于高密度刀片服务器的高可用监控管理装置的冗余切换方法,包括主CMU定时向从CMU发送心跳报文以及补救心跳报文,以及从CMU定时监测接收心跳报文以及补救心跳报文的步骤,且从CMU定时监测接收心跳报文以及补救心跳报文后的处理步骤包括:
1)根据心跳报文以及补救心跳报文判断主CMU是否已经停止工作,如果已经停止工作则跳转执行步骤2);否则跳转执行步骤3);
2)判断从CMU是否已经启动监控工作,如果尚未启动监控工作则接管监控工作;跳转执行步骤1);
3)判断从CMU是否已经启动监控工作,如果尚未启动监控工作则停止监控工作;跳转执行步骤1)。
可选地,步骤1)中判断主CMU是否已经停止工作的详细步骤包括:
1.1)判断在一个周期内是否收到主CMU的心跳报文,如果收到主CMU的心跳报文则跳转执行步骤1.2);否则跳转执行步骤1.3);
1.2)解析心跳报文,判断心跳报文是否包含致命问题,如果包含致命问题则判定主CMU已经停止工作,跳转执行步骤2);否则判定主CMU尚未停止工作,跳转执行步骤3);
1.3)判断在一个周期内是否收到主CMU的补救心跳报文,如果收到主CMU的补救心跳报文则跳转执行步骤1.4);否则判定主CMU已经停止工作,跳转执行步骤2);
1.4)解析补救心跳报文,判断补救心跳报文是否包含致命问题,如果包含致命问题则判定主CMU已经停止工作,跳转执行步骤2);否则判定主CMU尚未停止工作,跳转执行步骤3)。
可选地,所述心跳报文以及补救心跳报文中携带的信息包括主从CMU编号、时间戳、操作系统状态、数据库服务状态、CMU主板状态、网络芯片状态、非关键性错误信息。
可选地,所述主CMU向从CMU发送心跳报文以及补救心跳报文的步骤包括:
S1)主CMU向从CMU发送心跳报文;
S2)主CMU等待从CMU返回的确认报文,如果收到确认报文则跳转执行步骤S3);如果未收到确认报文,则判断心跳可能断开,并向从CMU发送补救心跳报文;
S3)主CMU判断是否收到包含放弃机框监控管理通知的确认报文,如果没有收到则继续启动监控工作,否则停止监控工作。
和现有技术相比,本发明具有下述优点:
1、现有的主流高密度刀片服务器中通常只配置有1个机框管理模块(CMU),不论是其上的交换芯片或者主控软硬件出现故障,都有可能导致CMU失效,此时系统将失去远程监控管理所有组件能力,导致极大的运维风险。本发明包括主CMU和从CMU一共两个冗余布置的机框管理单元,因此可以根据不论是其上的交换芯片或者主控软硬件出现故障导致CMU失效,本发明可以通过主CMU和从CMU的切换来确保远程监控管理所有组件能力,保障高密度刀片服务器的正常运维,能够极大地降低运维风险。
2、传统的主从服务器之间采用单一心跳线实现冗余检测将会由于心跳线断开而导致主从服务器都认为自己应该承担服务工作,争抢共享资源,带来系统混乱,即出现“脑分裂”现象,本发明主CMU和从CMU之间具有两条通信链路,两条通信链路包括用于发送包含设备状态信息的心跳报文的第一通信链路以及用于发送包含设备状态信息的补救心跳报文的第二通信链路,通过心跳报文和补救心跳报文结合可解决“脑分裂”现象。
3、传统的主从服务器之间心跳信号仅仅为简单的是否故障状态,容易导致需要切换而没有切换或者不该切换而切换的问题出现,两条通信链路包括用于发送包含设备状态信息的心跳报文的第一通信链路以及用于发送包含设备状态信息的补救心跳报文的第二通信链路,通过心跳报文和补救心跳报文可传输设备状态信息,从而能够综合判断主CMU和从CMU的状态以避免需要切换而没有切换或者不该切换而切换的问题。
附图说明
图1 为本发明实施例中高密度刀片服务器的双平面监控管理网络拓扑图。
图2为本发明实施例中的主、从CMU的逻辑设计框图。
图3为本发明实施例中冗余切换方法的流程图。
具体实施方式
如图1所示,本实施例用于高密度刀片服务器的高可用监控管理装置包括主CMU和从CMU一共两个冗余布置的机框管理单元,所述主CMU和从CMU之间具有两条通信链路,所述两条通信链路包括用于发送包含设备状态信息的心跳报文的第一通信链路以及用于发送包含设备状态信息的补救心跳报文的第二通信链路,所述主CMU和从CMU均具有用于连接高密度刀片服务器中各个计算刀片、交换刀片中BMU的以太网接口,以及用于连接高密度刀片服务器中各个机框电源模块和机框散热模块的连接端子。
如图1所示,主CMU和从CMU均包括机框交换模块1、机框管理模块2和机框监控模块3,机框交换模块1分别与机框管理模块2、机框监控模块3相连,第一通信链路位于主CMU和从CMU的机框管理模块2之间,第二通信链路位于主CMU和从CMU的机框监控模块3之间,用于连接高密度刀片服务器中各个计算刀片、交换刀片中BMU的以太网接口设于机框交换模块1上,用于连接高密度刀片服务器中各个机框电源模块和机框散热模块的连接端子设于机框监控模块3上。通过机框交换模块1、机框管理模块2和机框监控模块3的配合,能够个提高高密度刀片服务器中监控管理系统自身的可靠性,同时也保障了服务器中其他组件的可用性。
机框交换模块1由一块多端口千兆以太网交换芯片或者多块多端口以太网交换芯片级联而成(根据机框内BMU的数量确定级联和端口数量),负责CMU与BMU的控制消息和监控数据的交换,同时对前面板出1路千兆以太网接口用于外部管理终端的接入。
如图2所示,机框管理模块2包括微处理器,微处理器连接有两路以太网接口,其中一路以太网接口与机框交换模块1相连、另一路以太网接口用于通过背板连接到主CMU和从CMU中另一者的BMU子卡以传输心跳报文。现有的主流高密度刀片服务器中通常只配置有1个机框管理模块(CMU),不论是其上的交换芯片或者主控软硬件出现故障,都有可能导致CMU失效,此时,系统将失去远程监控管理所有组件能力,导致极大的运维风险。同时主流高密度服务器的CMU上主要集成有一块基于BMU的监控管理芯片和一块交换芯片,受BMU的性能和存储接口影响,不能处理较复杂的数据分析算法,同时不能集成大容量的硬盘以保存较大量的历史监控数据,不便于对系统开展智能化运维,影响了运维效率。本实施例中机框管理模块2采用嵌入式的微处理器实现,且微处理器上连接有固态硬盘SSD,能够支持较大量历史监控数据的持久存储和处理分析,为智能化运维提供有效支撑。
机框管理模块2基于低功耗嵌入式的微处理器实现,机框管理模块2负责收集机框内所有BMU采集到的监控数据,并对所有BMU实施集中控制管理,如下达全框加切电命令或者全框的结点固件更新等。机框管理模块2的微处理器有1路千兆以太网链路通过背板与机框内另一块CMU的机框管理模块的微处理器直连,用于心跳信息传输;同时机框管理模块集成大容量硬盘,用于存储一段时间内全框的监控历史数据。
如图2所示,机框监控模块3包括BMU子卡,BMU子卡上带有两路以太网接口和多个用于连接高密度刀片服务器中各个机框电源模块和机框散热模块的连接端子,其中一路以太网接口与机框管理模块2相连、另一路以太网接口用于通过背板连接到主CMU和从CMU中另一者的机框管理模块2以传输补救心跳报文。机框监控模块3负责监控机框电源模块、机框风机模块和所在CMU主板上其他模块和器件状态。BMU子卡有1路千兆以太网链路直接连入该CMU主板的机框交换模块,用于提交监控数据给机框管理模块;另1路千兆以太网链路上背板后连接到另1块CMU(主上从,从上主)的机框交换模块,用于主从CMU主板之间相互监控。其中,用于连接高密度刀片服务器中各个机框电源模块和机框散热模块的连接端子可以根据需要选择I2C或者PMBUS接口。
此外,如图1所示,本实施例还提供一种高密度刀片服务器,包含k+1块计算刀片、l+1块交换刀片、n+1个机框散热模块(风机模块)、m+1个机框电源模块(电源模块)和监控管理装置,其特征在于,监控管理装置为前述用于高密度刀片服务器中高可用监控管理装置。计算刀片和交换刀片上都部署有BMU子卡,每块BMU子卡通过两路千兆网接口分别连接到前述高密度刀片服务器中高可用监控管理装置的机框交换模块1上;风机模块和电源模块通过两路I2C或PMBUS分别连接到前述高密度刀片服务器中高可用监控管理装置中机框监控模块3的BMU子卡上,形成双平面监控管理网络。这样当主CMU出现故障,从CMU可以接管所有组件的远程监控管理工作,极大提高高密度刀片服务器监控管理系统的可用性,可有效提高高密度刀片服务器的监控管理系统自身的可靠性,并支持历史监控数据存储和智能化运维。
作为一种可选的实施方式,本实施例还提供一种用于高密度刀片服务器中高可用监控管理装置的冗余切换方法,包括主CMU定时向从CMU发送心跳报文以及补救心跳报文,以及从CMU定时监测接收心跳报文以及补救心跳报文的步骤,且如图3所示,从CMU定时监测接收心跳报文以及补救心跳报文后的处理步骤包括:
1)根据心跳报文以及补救心跳报文判断主CMU是否已经停止工作,如果已经停止工作则跳转执行步骤2);否则跳转执行步骤3);
2)判断从CMU是否已经启动监控工作,如果尚未启动监控工作则接管监控工作;跳转执行步骤1);
3)判断从CMU是否已经启动监控工作,如果尚未启动监控工作则停止监控工作;跳转执行步骤1)。
本实施例中,步骤1)中判断主CMU是否已经停止工作的详细步骤包括:
1.1)判断在一个周期内是否收到主CMU的心跳报文,如果收到主CMU的心跳报文则跳转执行步骤1.2);否则跳转执行步骤1.3);
1.2)解析心跳报文,判断心跳报文是否包含致命问题,如果包含致命问题则判定主CMU已经停止工作,跳转执行步骤2);否则判定主CMU尚未停止工作,跳转执行步骤3);
1.3)判断在一个周期内是否收到主CMU的补救心跳报文,如果收到主CMU的补救心跳报文则跳转执行步骤1.4);否则判定主CMU已经停止工作,跳转执行步骤2);
1.4)解析补救心跳报文,判断补救心跳报文是否包含致命问题,如果包含致命问题则判定主CMU已经停止工作,跳转执行步骤2);否则判定主CMU尚未停止工作,跳转执行步骤3)。
本实施例中,心跳报文以及补救心跳报文中携带的信息包括主从CMU编号CMUId、时间戳TimeStamp[32]、操作系统状态OSErr、数据库服务状态DBErr、CMU主板状态HDErr、网络芯片状态NTErr、非关键性错误信息OTErr。本实施例中,根据主从CMU的软硬件构成设计了细粒度心跳信息格式,心跳报文以及补救心跳报文的格式具体如表1所示:
表1:心跳报文以及补救心跳报文格式表。
字段 解释
Char CMUId 主从CMU编号
Char TimeStamp[32] 时间戳
Char OSErr 用于记录操作系统是否异常以及异常类型
Char DBErr 用于记录数据库服务是否异常以及异常类型
Char HDErr 用于记录CMU主板是否异常以及异常类型
Char NTErr 用于记录网络芯片是否异常以及异常类型
Char OTErr 用于记录非关键性错误类型
Char * Info 附带信息
主从服务器之间如果有心跳信息仅仅表示工作服务器没有宕机,但并不能反映工作服务器的操作系统和心跳服务程序正常,而软件服务故障的情况。或者心跳信息仅仅表示服务器上软件服务是否正常,但并不能反映服务器硬件过温报警等情况。导致需要切换而没有切换或者不该切换而切换的问题出现。此外,单一心跳线实现冗余检测将会由于心跳线断开而导致主从服务器都认为自己应该承担服务工作,争抢共享资源,带来系统混乱,即出现“脑分裂”现象,也是冗余切换中需要避免的问题。而本实施例中,心跳报文以及补救心跳报文不是简单通过0和1来表示主CMU故障或者正常,而是包括设备状态信息,因为不是所有异常都会导致CMU不能提供服务,备用CMU可以据此来对工作CMU的状态进行综合判断,通过解析细粒度心跳信息,从CMU可以准确掌握主CMU的工作状态,从而确定是否冗余切换,同时结合主从CMU之间采用心跳线和对端BMU相融合的传输方式实施主从检测,确保主从切换的准确性,同时防止“脑分裂”现象的出现。
本实施例中,所述主CMU向从CMU发送心跳报文以及补救心跳报文的步骤包括:
S1)主CMU向从CMU发送心跳报文;
S2)主CMU等待从CMU返回的确认报文,如果收到确认报文则跳转执行步骤S3);如果未收到确认报文,则判断心跳可能断开,并向从CMU发送补救心跳报文;
S3)主CMU判断是否收到包含放弃机框监控管理通知的确认报文,如果没有收到则继续启动监控工作,否则停止监控工作。
本实施例高密度刀片服务器中高可用监控管理装置在机框上电后默认主CMU先承担机框监控管理工作,主从CMU上的机框管理模块启动心跳服务程序,并各进行自初始化。
一、初始化包括四个方面工作:a)设置心跳周期。心跳周期一般默认设置小于0.5秒,确保用户没有明显感知。b)设置心跳报文格式。c)主CMU与从CMU的机框管理模块建立专用TCP连接用于发送心跳报文。d)主CMU与对端BMU建立专用TCP连接用于发送补救心跳报文。
二、主从CMU之间心跳交互时的步骤包括:
a)主CMU按照心跳周期开展周期性的自检,并按照心跳报文格式,构建心跳报文,发送给从CMU。
b) 从CMU不断侦听TCP连接上主CMU发送的心跳报文。
如果在一个周期内,收到主CMU的心跳报文,解析报文后:
i.没有发现影响监控服务和数据存储的致命问题,致命问题如数据库服务失效、监控服务失效或者网络芯片故障等,则认为主CMU状态良好,继续接收心跳报文,不做冗余切换;
发现致命问题,则认为主CMU虽然没有故障宕机,但已不能正常提供监控服务,通知主CMU放弃机框监控管理的同时,从CMU接替主CMU开始工作。
ii.如果在一个周期内,没有收到主CMU的心跳报文,则从CMU访问本板的BMU,查看是否已收到主CMU发送给对端BMU的补救心跳报文:
没有发现补救心跳报文,则认为主CMU故障宕机,从CMU接替主CMU开始工作。
发现补救心跳报文,解析报文后,判断是否有致命问题,如果没有致命问题,则认为主从CMU之间只是心跳线已断开,主CMU状态良好,不做冗余切换。如果有致命问题,则认为主从CMU之间不仅是心跳线已断开,也需要通过本板BMU通知主CMU放弃机框监控管理
三、主CMU如果没有接收到从CMU的TCP确认报文,则认为心跳线可能断开,立即通过与对端BMU建立的专用TCP连接发送补偿心跳报文,该补救心跳报文与该周期内发送给CMU心跳报文一致。i.如果主CMU没有对端BMU发送的放弃机框监控管理通知,则认为从CMU故障或者心跳线断开,报警同时,继续机框监控管理。ii.如果主CMU接收到对端BMU发送的放弃机框监控管理通知,则放弃机框监控管理。
四、从CMU接管机框监控管理工作时,如果重新受到主CMU的心跳报文,解析后认为主CMU状态良好,则通过心跳线通知主CMU接管机框监控管理工作,而从CMU放弃机框监控管理工作。
综上所述,本实施例高密度刀片服务器中高可用监控管理装置的冗余切换方法主从CMU之间采用心跳线和对端BMU(例如,主CMU的对端BMU指的是从CMU上的BMU)相融合的方式交互细粒度心跳信息,实施主从检测,能够确保主从切换的准确性、防止“脑分裂”现象的现象。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (9)

1.一种用于高密度刀片服务器的高可用监控管理装置,其特征在于,包括主CMU和从CMU一共两个冗余布置的机框管理单元,所述主CMU和从CMU之间具有两条通信链路,所述两条通信链路包括用于发送包含设备状态信息的心跳报文的第一通信链路以及用于发送包含设备状态信息的补救心跳报文的第二通信链路,所述主CMU和从CMU均具有用于连接高密度刀片服务器中各个计算刀片、交换刀片中BMU的以太网接口,以及用于连接高密度刀片服务器中各个机框电源模块和机框散热模块的连接端子,所述心跳报文以及所述补救心跳报文中携带的信息包括主从CMU编号、时间戳、操作系统状态、数据库服务状态、CMU主板状态、网络芯片状态、非关键性错误信息。
2.根据权利要求1所述的用于高密度刀片服务器的高可用监控管理装置,其特征在于,所述主CMU和从CMU均包括机框交换模块(1)、机框管理模块(2)和机框监控模块(3),所述机框交换模块(1)分别与机框管理模块(2)、机框监控模块(3)相连,所述第一通信链路位于主CMU和从CMU的机框管理模块(2)之间,所述第二通信链路位于主CMU和从CMU的机框监控模块(3)之间,所述用于连接高密度刀片服务器中各个计算刀片、交换刀片中BMU的以太网接口设于机框交换模块(1)上,所述用于连接高密度刀片服务器中各个机框电源模块和机框散热模块的连接端子设于机框监控模块(3)上。
3.根据权利要求2所述的用于高密度刀片服务器的高可用监控管理装置,其特征在于,所述机框管理模块(2)包括微处理器,所述微处理器连接有两路以太网接口,其中一路以太网接口与机框交换模块(1)相连、另一路以太网接口用于通过背板连接到主CMU和从CMU中另一者的BMU子卡以传输心跳报文。
4.根据权利要求2所述的用于高密度刀片服务器的高可用监控管理装置,其特征在于,所述机框监控模块(3)包括BMU子卡,所述BMU子卡上带有两路以太网接口和多个用于连接高密度刀片服务器中各个机框电源模块和机框散热模块的连接端子,其中一路以太网接口与机框管理模块(2)相连、另一路以太网接口用于通过背板连接到主CMU和从CMU中另一者的机框管理模块(2)以传输补救心跳报文。
5.根据权利要求1所述的用于高密度刀片服务器的高可用监控管理装置,其特征在于,所述连接端子为I2C或者PMBUS接口。
6.一种高密度刀片服务器,包含k+1块计算刀片、l+1块交换刀片、n+1个机框散热模块、m+1个机框电源模块和监控管理装置,其特征在于,所述监控管理装置为权利要求1~5中任意一项所述用于高密度刀片服务器的高可用监控管理装置。
7.一种权利要求1~5中任意一项所述用于高密度刀片服务器的高可用监控管理装置的冗余切换方法,其特征在于,包括主CMU定时向从CMU发送心跳报文以及补救心跳报文,以及从CMU定时监测接收心跳报文以及补救心跳报文的步骤,且从CMU定时监测接收心跳报文以及补救心跳报文后的处理步骤包括:
1)根据心跳报文以及补救心跳报文判断主CMU是否已经停止工作,如果已经停止工作则跳转执行步骤2);否则跳转执行步骤3);
2)判断从CMU是否已经启动监控工作,如果尚未启动监控工作则接管监控工作;跳转执行步骤1);
3)判断从CMU是否已经启动监控工作,如果尚未启动监控工作则停止监控工作;跳转执行步骤1)。
8.根据权利要求7所述用于高密度刀片服务器的高可用监控管理装置的冗余切换方法,其特征在于,步骤1)中判断主CMU是否已经停止工作的详细步骤包括:
1.1)判断在一个周期内是否收到主CMU的心跳报文,如果收到主CMU的心跳报文则跳转执行步骤1.2);否则跳转执行步骤1.3);
1.2)解析心跳报文,判断心跳报文是否包含致命问题,如果包含致命问题则判定主CMU已经停止工作,跳转执行步骤2);否则判定主CMU尚未停止工作,跳转执行步骤3);
1.3)判断在一个周期内是否收到主CMU的补救心跳报文,如果收到主CMU的补救心跳报文则跳转执行步骤1.4);否则判定主CMU已经停止工作,跳转执行步骤2);
1.4)解析补救心跳报文,判断补救心跳报文是否包含致命问题,如果包含致命问题则判定主CMU已经停止工作,跳转执行步骤2);否则判定主CMU尚未停止工作,跳转执行步骤3)。
9.根据权利要求7所述用于高密度刀片服务器的高可用监控管理装置的冗余切换方法,其特征在于,所述主CMU向从CMU发送心跳报文以及补救心跳报文的步骤包括:
S1)主CMU向从CMU发送心跳报文;
S2)主CMU等待从CMU返回的确认报文,如果收到确认报文则跳转执行步骤S3);如果未收到确认报文,则判断心跳可能断开,并向从CMU发送补救心跳报文;
S3)主CMU判断是否收到包含放弃机框监控管理通知的确认报文,如果没有收到则继续启动监控工作,否则停止监控工作。
CN202010754634.1A 2020-07-30 2020-07-30 用于高密度刀片服务器的高可用监控管理装置及冗余切换方法 Active CN111880999B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010754634.1A CN111880999B (zh) 2020-07-30 2020-07-30 用于高密度刀片服务器的高可用监控管理装置及冗余切换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010754634.1A CN111880999B (zh) 2020-07-30 2020-07-30 用于高密度刀片服务器的高可用监控管理装置及冗余切换方法

Publications (2)

Publication Number Publication Date
CN111880999A CN111880999A (zh) 2020-11-03
CN111880999B true CN111880999B (zh) 2022-07-05

Family

ID=73204759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010754634.1A Active CN111880999B (zh) 2020-07-30 2020-07-30 用于高密度刀片服务器的高可用监控管理装置及冗余切换方法

Country Status (1)

Country Link
CN (1) CN111880999B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117806916A (zh) * 2024-02-29 2024-04-02 中国人民解放军国防科技大学 多单元服务器轻量化告警相关性挖掘和收敛方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105187248A (zh) * 2015-09-16 2015-12-23 浙江众合科技股份有限公司 一种冗余切换系统
CN109495312A (zh) * 2018-12-05 2019-03-19 广州鼎甲计算机科技有限公司 基于仲裁盘和双链路的高可用集群的实现方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7617413B2 (en) * 2006-12-13 2009-11-10 Inventec Corporation Method of preventing erroneous take-over in a dual redundant server system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105187248A (zh) * 2015-09-16 2015-12-23 浙江众合科技股份有限公司 一种冗余切换系统
CN109495312A (zh) * 2018-12-05 2019-03-19 广州鼎甲计算机科技有限公司 基于仲裁盘和双链路的高可用集群的实现方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《一种飞腾刀片服务器系统的多线程IPMI监控设计》;王俊等;《第二十一届计算机工程与工艺年会暨第六届微处理器技术论坛论文集》;20170817;全文 *
《基于Web的超级计算机监控软件的设计与实现》;袁远等;《第二十一届计算机工程与工艺年会暨第六届微处理器技术论坛论文集》;20160811;全文 *

Also Published As

Publication number Publication date
CN111880999A (zh) 2020-11-03

Similar Documents

Publication Publication Date Title
CN105721546A (zh) 一种基于工业物联通讯的多数据集成服务平台
CN111767244A (zh) 基于国产龙芯平台的双冗余计算机设备
CN103023973A (zh) 一种基于cpci结构的集群服务器设计方法
CN101257391B (zh) 一种应用于微型电信计算架构标准的单板管理方法
CN112882901A (zh) 一种分布式处理系统健康状态智能监控器
CN111880999B (zh) 用于高密度刀片服务器的高可用监控管理装置及冗余切换方法
JP6429188B2 (ja) 中継装置
CN112486896A (zh) 机架式交换机的业务卡管理装置及方法、设备和介质
CN111628944B (zh) 交换机及交换机系统
CN212541329U (zh) 基于国产龙芯平台的双冗余计算机设备
CN111984471B (zh) 一种机柜电源bmc冗余管理系统及方法
CN111262745A (zh) 信息处理平台冗余系统设计
CN117453036A (zh) 调整服务器中的设备的功耗的方法、系统及装置
CN111381660A (zh) 一种基于cpld的多节点服务器的电源控制系统及方法
CN110968540A (zh) 一种基于vpx双星型冗余高速背板
US7664994B2 (en) High-availability cluster node removal and communication
CN115794381A (zh) 一种服务器和数据中心
WO2022078519A1 (zh) 一种计算机设备和管理方法
CN113742142B (zh) 存储系统管理sata硬盘的方法及存储系统
CN115268581A (zh) 一种高性能计算力的ai边缘服务器系统架构
CN114355803A (zh) 基于任务监听的加固机多机系统及冗余设计方法
US10771150B2 (en) Parallel processing apparatus and replacing method of failing optical transmission line
CN113535471A (zh) 集群服务器
KR20140140719A (ko) 가상 머신 동기화 장치 및 시스템과 이를 이용한 장애 처리 방법
CN105278651A (zh) 一种冗余控制系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant