CN116340058A - 主备切换方法及装置 - Google Patents

主备切换方法及装置 Download PDF

Info

Publication number
CN116340058A
CN116340058A CN202310158601.4A CN202310158601A CN116340058A CN 116340058 A CN116340058 A CN 116340058A CN 202310158601 A CN202310158601 A CN 202310158601A CN 116340058 A CN116340058 A CN 116340058A
Authority
CN
China
Prior art keywords
management module
abnormal
master
slave
heartbeat signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310158601.4A
Other languages
English (en)
Inventor
徐通
陈曦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202310158601.4A priority Critical patent/CN116340058A/zh
Publication of CN116340058A publication Critical patent/CN116340058A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2033Failover techniques switching over of hardware resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明提供一种主备切换方法及装置,其中方法包括:接收主管理模块的第一心跳信号,确定第一心跳信号异常;接收基板管理控制器的第一反馈信号,确定第一反馈信号异常,第一反馈信号异常包括:基板管理控制器接收的主管理模块的第二心跳信号异常;将主管理模块的管理数据链路切换至从管理模块。本发明提供的主备切换方法及装置,通过接收主管理模块的第一心跳信号,在确定第一心跳信号异常的情况下,确定第二心跳信号异常才执行切换操作。基于第一心跳信号和第二心跳信号的双重判断,实现了主管理模块与从管理模块进行主备切换的双冗余监控管理方式,基于双重判断后再执行切换操作的方式,提高了主备切换的可靠性。

Description

主备切换方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种主备切换方法及装置。
背景技术
现有的针对switch机箱或者服务器机柜中主管理模块与从管理模块的切换是基于CPLD(Complex Programming logic device,复杂可编程逻辑器件)监控主管理模块以及从管理模块。主从管理模块的异常监控由第三方CPLD实现。在需要切换时,CPLD控制电子开关,将管理系统的管理信号链路切换到主管理模块,或从管理模块。
现有的主管理模块与从管理模块进行切换的方式,由于可能存在主从管理模块如果进入异常模式,或者主从管理模块与CPLD的通信出现异常问题,导致主从管理模块与CPLD通信模块错误操作,从而导致主备切换的误操作。
发明内容
本发明提供一种主备切换方法及装置,用以解决现有技术针对主备切换时,如果主从管理模块进入异常模式,或者主从管理模块与CPLD的通信出现异常问题,导致主备切换的误操作的技术问题。
本发明提供一种主备切换方法,包括:
接收主管理模块的第一心跳信号,确定所述第一心跳信号异常;
接收基板管理控制器的第一反馈信号,确定所述第一反馈信号异常,所述第一反馈信号异常包括:所述基板管理控制器接收的所述主管理模块的第二心跳信号异常;
将所述主管理模块的管理数据链路切换至从管理模块,所述从管理模块为所述主管理模块的备用管理模块。
根据本发明提供的一种主备切换方法,所述将所述主管理模块的管理数据链路切换至从管理模块之后,还包括:
控制所述主管理模块执行重启操作,并在所述主管理模块重启后所述第一心跳信号正常的情况下,确定所述主管理模块恢复正常状态。
根据本发明提供的一种主备切换方法,确定所述主管理模块恢复正常状态之后,还包括:
接收所述从管理模块的第三心跳信号,确定所述第三心跳信号异常;
接收所述基板管理控制器的第二反馈信号,确定所述第二反馈信号异常,所述第二反馈信号异常包括:所述基板管理控制器接收的所述从管理模块的第四心跳信号异常;
将所述从管理模块的管理数据链路切换至所述主管理模块。
根据本发明提供的一种主备切换方法,接收基板管理控制器的第一反馈信号之后,还包括:
在所述第一反馈信号正常的情况下,将所述第一心跳信号的异常状态置位为正常状态,所述第一反馈信号正常包括:所述基板管理控制器接收的所述主管理模块的第二心跳信号正常。
本发明还提供一种主备切换装置,包括:
基板管理控制器,所述基板管理控制器的第一端与主管理模块连接,所述基板管理控制器的第二端与逻辑运算模块连接,所述基板管理控制器的第三端与从管理模块连接,用于接收所述主管理模块的第二心跳信号,并向所述逻辑运算模块发送所述第二心跳信号的第一反馈信号;
逻辑运算模块,所述逻辑运算模块的第一端与主管理模块连接,所述逻辑运算模块的第二端与从管理模块连接,用于接收主管理模块的第一心跳信号,并接收所述基板管理控制器的第一反馈信号;
所述逻辑运算模块还用于:确定所述第一心跳信号异常,并确定所述第一反馈信号异常的情况下,将所述主管理模块的管理数据链路切换至从管理模块,所述从管理模块为所述主管理模块的备用管理模块,所述第一反馈信号异常包括:所述基板管理控制器接收的所述主管理模块的第二心跳信号异常。
根据本发明提供的一种主备切换装置,所述逻辑运算模块还用于:
在确定所述主管理模块的管理数据链路切换至从管理模块之后,基于控制所述主管理模块进行上下电操作,以使所述主管理模块重启,并在所述主管理模块重启后所述第一心跳信号正常的情况下,确定所述主管理模块恢复正常状态。
根据本发明提供的一种主备切换装置,所述逻辑运算模块还用于:
在确定所述主管理模块恢复正常状态之后,接收所述从管理模块的第三心跳信号,并确定所述第三心跳信号异常;
接收所述基板管理控制器的第二反馈信号,确定所述第二反馈信号异常,所述第二反馈信号异常包括:所述基板管理控制器接收的所述从管理模块的第四心跳信号异常;
将所述从管理模块的管理数据链路切换至所述主管理模块。
根据本发明提供的一种主备切换装置,所述逻辑运算模块还用于:
在所述主管理模块的管理数据链路切换至所述从管理模块之前,基于所述逻辑运算模块的中断引脚发送切换信号至所述从管理模块,以使所述从管理模块接管所述主管理模块。
根据本发明提供的一种主备切换装置,所述逻辑运算模块还用于:
确定所述第一心跳信号异常且所述第一反馈信号正常的情况下,将所述第一心跳信号的异常状态置位为正常状态,所述第一反馈信号正常包括:所述基板管理控制器接收的所述主管理模块的第二心跳信号正常。
根据本发明提供的一种主备切换装置,还包括:数据选择器;
所述逻辑运算模块确定所述第一心跳信号异常,并确定所述第一反馈信号异常的情况下,向所述数据选择器发送切换指令;
所述数据选择器基于所述切换指令,将所述主管理模块的管理数据链路切换至从管理模块。
本发明提供的主备切换方法及装置,通过接收主管理模块的第一心跳信号,在确定第一心跳信号异常的情况下,基于从基板管理控制器接收的第二心跳信号进行进一步判断,确定第二心跳信号异常才执行切换操作。基于第一心跳信号和第二心跳信号的双重判断,实现了主管理模块与从管理模块进行主备切换的双冗余监控管理方式,基于双重判断后再执行切换操作的方式,提高了主备切换的可靠性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图简要地说明,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的基于CPLD的切换结构示意图;
图2是本发明提供的主备切换方法的流程示意图;
图3是本发明提供的主备切换装置的结构示意图;
图4是应用本发明提供的主备切换方法的系统结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
相关方法中针对服务器或者服务器机柜中主管理模块与从管理模块的切换一般有两种方式,一种是是基于主管理模块主动发送监控信号给从管理模块,监控信号异常时,管理信号链路切换到从管理模块。由于存在切换智能机柜的管理系统的管理信号链路的电子开关是由主管理模块,还是从管理模块来控制,一般算法比较复杂,且主从管理模块相互监控,可靠性较差。
另一种的切换方式如图1本发明提供的基于CPLD的切换结构示意图所示,是基于CPLD与主管理模块之间的主管理模块监控信号监控从管理模块,CPLD与从管理模块之间的从管理模块监控信号监控从管理模块。主从管理模块之间通过UART(UniversalAsynchronous Receiver/Transmitter,通用异步接收/发送装置)通信。主从管理模块的异常监控由第三方CPLD实现。在需要切换时,CPLD控制电子开关,基于主从管理模块管理信号链路,将管理系统的管理信号链路切换到主管理模块,或从管理模块。由于可能存在主从管理模块如果进入异常模式,或者主从管理模块与CPLD的通信出现异常问题,导致主从管理模块与CPLD通信模块错误操作,从而导致主备切换的误操作。
针对相关方法的缺陷,本发明提出一种主备切换方法,图2为本发明提供的主备切换方法的流程示意图。参照图2,本发明提供的主备切换方法可以包括:
步骤210,接收主管理模块的第一心跳信号,确定所述第一心跳信号异常;
步骤220,接收基板管理控制器的反馈信号,确定所述反馈信号异常,所述反馈信号异常包括:所述基板管理控制器接收的所述主管理模块的第二心跳信号异常;
步骤230,将所述主管理模块的管理数据链路切换至从管理模块,所述从管理模块为所述主管理模块的备用管理模块。
本发明提供的主备切换方法的执行主体可以是服务器的CPLD或者服务器机柜中的CPLD,也可以是其他电子设备、电子设备中的部件、集成电路、或芯片。该电子设备可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等,非移动电子设备可以为服务器、网络附属存储器(Network Attached Storage,NAS)或个人计算机(personalcomputer,PC)等,本发明不作具体限定。
下面以switch机箱中的CPLD或者服务器机柜中的CPLD执行本发明提供的主备切换方法为例,详细说明本发明的技术方案。
在步骤210中,在主管理模块运行的过程中,接收主管理模块的第一心跳信号,确定第一心跳信号异常。
主管理模块以及从管理模块用于switch机箱中的设备的管理,或者用于服务器机柜中设备的管理。主管理模块与从管理模块互为主备。
心跳信号是每隔一段时间向互联的另一方发送一个很小的数据包,通过对方回复情况判断互联的双方之间的工作状态。
主管理模块的第一心跳信号用于确定主管理模块的工作状态,接收主管理模块的第一心跳信号可以实时判断当前主管理模块的工作状态。当接收的第一心跳信号异常的情况下,则可能当前主管理模块可能出现异常运行状态。
可以理解的是,在第一心跳信号异常的情况下,可能是主管理模块运行异常,也有可能是主管理模块运行正常,但发送的第一心跳信号异常。
在步骤220中,在步骤210中确定第一心跳信号异常的情况下。对基板管理控制器的反馈信号进行进一步的判断。基板管理控制器接收主管理模块的第二心跳异常信号。接收基板管理控制器的反馈信号,确定反馈信号异常。反馈信号异常是指,基板管理控制器接收的主管理模块的第二心跳信号异常。
可以理解的是,在主管理模块运行的过程中,基板管理控制器接收主管理模块的第二心跳信号。基板管理控制器接收主管理模块的第二心跳信号与接收的第一心跳信号互为冗余,为不同设备接收的主管理模块的心跳信号。
由于在第一心跳信号异常的情况下,可能是主管理模块运行异常,也有可能是主管理模块运行正常,但发送的第一心跳信号异常。在确定接收的第一心跳信号异常的情况下,无法排除发送的第一心跳信号异常的干扰。所以,对接收的第二心跳信号进行异常判断,确定基板管理控制器接收的主管理模块的第二心跳信号异常,实现了对主管理模块的冗余判断,提升了对主管理模块是否异常的判断的准确性。
在步骤230中,确定接收的第一心跳信号异常,以及基于基板管理控制器的反馈信号确定第二心跳信号异常,可以确定主管理模块运行异常,需要将主管理模块的管理数据链路切换到从管理模块。
主管理模块与从管理模块互为主备,在主管理模块出现异常时,需要将主管理模块的管理数据链路切换到从管理模块。与此同时,在主管理模块恢复正常时,可以将从管理模块的管理数据链路切回到主管理模块中。
由于在第一心跳信号异常的情况下,可能是主管理模块运行异常,也有可能是主管理模块运行正常,但发送的第一心跳信号异常。在确定接收的第一心跳信号异常的情况下,无法排除发送的第一心跳信号异常的干扰。若此时直接将主管理模块切换到从管理模块,无法实现对于主管理模块以及从管理模块的精准切换。
因此,对接收的第二心跳信号进行异常判断,确定基板管理控制器接收的主管理模块的第二心跳信号异常,实现了对主管理模块的冗余判断,提升了对主管理模块是否异常的判断的准确性。
本发明实施例提供的主备切换方法,通过接收主管理模块的第一心跳信号,在确定第一心跳信号异常的情况下,基于从基板管理控制器接收的第二心跳信号进行进一步判断,确定第二心跳信号异常才执行切换操作。基于第一心跳信号和第二心跳信号的双重判断,实现了主管理模块与从管理模块进行主备切换的双冗余监控管理方式,基于双重判断后再执行切换操作的方式,提高了主备切换的可靠性。
在一个实施例中,将所述主管理模块的管理数据链路切换至从管理模块之后,还包括:控制所述主管理模块执行重启操作,并在所述主管理模块重启后所述第一心跳信号正常的情况下,确定所述主管理模块恢复正常状态。
在将主管理模块的管理数据链路切的换至从管理模块之后,主管理模块不再担任管理数据的工作。针对主管理模块中出现的异常状态,可以对主管理模块执行重启操作。
对主管理模块执行重启操作之后,若主管理模块重启后第一心跳信号恢复正常,则可以确定主管理模块恢复正常状态。
可以理解的是,将主管理模块的管理数据链路切的换至从管理模块之后,对主管理模块进行重启的操作,不影响管理数据业务的正常运行。
本发明实施例提供的主备切换方法,通过在将主管理模块的管理数据链路切的换至从管理模块之后,针对主管理模块中出现的异常状态,对主管理模块执行重启操作。并基于第一心跳信号正常,实现了对主管理模块恢复正常状态的判断。
在一个实施例中,确定所述主管理模块恢复正常状态之后,还包括:接收所述从管理模块的第三心跳信号,确定所述第三心跳信号异常;接收所述基板管理控制器的第二反馈信号,确定所述第二反馈信号异常,所述第二反馈信号异常包括:所述基板管理控制器接收的所述从管理模块的第四心跳信号异常;将所述从管理模块的管理数据链路切换至所述主管理模块。
在主管理模块恢复正常状态后,主管理模块作为备用管理模块,从管理模块作为正在运行管理数据业务的模块。在从管理模块进行运行的过程中,可能出现从管理模块出现异常的情况下,对从管理模块的异常状态进行判断。
接收从管理模块的第三心跳信号,确定第三心跳信号异常。从管理模块的第三心跳信号用于确定从管理模块的工作状态,接收从管理模块的第三心跳信号可以实时判断当前从管理模块的工作状态。当接收的第三心跳信号异常的情况下,则可能当前从管理模块可能出现异常运行状态。
接收基板管理控制器的第二反馈信号,确定第二反馈信号异常,第二反馈信号异常包括:基板管理控制器接收的从管理模块的第四心跳信号异常。
在从管理模块运行的过程中,基板管理控制器接收从管理模块的第四心跳信号。基板管理控制器接收从管理模块的第四心跳信号与接收的第三心跳信号互为冗余,为不同设备接收的从管理模块的心跳信号。
由于在第三心跳信号异常的情况下,可能是从管理模块运行异常,也有可能是从管理模块运行正常,但发送的第三心跳信号异常。在确定接收的第三心跳信号异常的情况下,无法排除发送的第三心跳信号异常的干扰。所以,对接收的第四心跳信号进行异常判断,确定基板管理控制器接收的从管理模块的第四心跳信号异常,实现了对从管理模块的冗余判断,提升了对从管理模块是否异常的判断的准确性。
在确定从管理模块异常的情况下,将从管理模块的管理数据链路切换至主管理模块,实现了对主从管理模块的冗余切换。
本发明实施例提供的主备切换方法,通过在将从管理模块切换至主管理模块之前,在确定第三心跳信号异常的情况下,对接收的第四心跳信号进行异常判断,确定基板管理控制器接收的从管理模块的第四心跳信号异常,实现了对从管理模块的冗余判断,提升了对从管理模块是否异常的判断的准确性。
在一个实施例中,接收基板管理控制器的第一反馈信号之后,还包括:在所述第一反馈信号正常的情况下,将所述第一心跳信号的异常状态置位为正常状态,所述第一反馈信号正常包括:所述基板管理控制器接收的所述主管理模块的第二心跳信号正常。
由于在第一心跳信号异常的情况下,可能是主管理模块运行异常,也有可能是主管理模块运行正常,但发送的第一心跳信号异常。在确定接收的第一心跳信号异常的情况下,无法排除发送的第一心跳信号异常的干扰。
基于对第一反馈信号,可以实现对主管理模块运行情况的进一步判断。若第一心跳信号异常,但第一反馈信号正常,则可以确定主管理模块运行正常,只是发送的第一心跳信号异常。在此种情况下,无需执行将主管理模块的管理数据链路切换至从管理模块的处理。而是将第一心跳信号进行置位,将第一心跳信号的异常状态置为正常状态。
本发明实施例提供的主备切换方法,通过在第一心跳信号异常的情况下,基于第一反馈信号正常,确定主管理模块的运行状态正常,确定无需执行将主管理模块的管理数据链路切换至从管理模块的处理。而是将第一心跳信号进行置位,将第一心跳信号的异常状态置为正常状态,提高了主备切换的可靠性。
图3为本发明提供的主备切换装置的结构示意图,如图3所示,该装置包括:基板管理控制器310、逻辑运算模块320、主管理模块330以及从管理模块340。
基板管理控制器310,所述基板管理控制器310的第一端与主管理模块330连接,所述基板管理控制器310的第二端与逻辑运算模块320连接,所述基板管理控制器310的第三端与从管理模块340连接,用于接收所述主管理模块330的第二心跳信号,并向所述逻辑运算模块320发送所述第二心跳信号的第一反馈信号;
逻辑运算模块320,所述逻辑运算模块320的第一端与主管理模块330连接,所述逻辑运算模块320的第二端与从管理模块340连接,用于接收主管理模块330的第一心跳信号,并接收所述基板管理控制器310的第一反馈信号;
所述逻辑运算模块320还用于:确定所述第一心跳信号异常,并确定所述第一反馈信号异常的情况下,将所述主管理模块330的管理数据链路切换至从管理模块340,所述从管理模块340为所述主管理模块330的备用管理模块,所述第一反馈信号异常包括:所述基板管理控制器310接收的所述主管理模块330的第二心跳信号异常。
主管理模块330的第一心跳信号用于确定主管理模块330的工作状态,逻辑运算模块320接收主管理模块330的第一心跳信号可以实时判断当前主管理模块330的工作状态。当逻辑运算模块320接收的第一心跳信号异常的情况下,则可能当前主管理模块330可能出现异常运行状态。
可以理解的是,在主管理模块330运行的过程中,基板管理控制器310接收主管理模块330的第二心跳信号。基板管理控制器310接收主管理模块330的第二心跳信号与接收的第一心跳信号互为冗余,为不同设备接收的主管理模块330的心跳信号。
由于在第一心跳信号异常的情况下,可能是主管理模块330运行异常,也有可能是主管理模块330运行正常,但发送的第一心跳信号异常。在确定接收的第一心跳信号异常的情况下,无法排除发送的第一心跳信号异常的干扰。所以,逻辑运算模块320基于基板管理控制器310发送的第一反馈信号,对基板管理控制器310接收的第二心跳信号进行异常判断,确定基板管理控制器310接收的主管理模块330的第二心跳信号异常,实现了对主管理模块330的冗余判断,提升了对主管理模块330是否异常的判断的准确性。
主管理模块330与从管理模块340互为主备,在主管理模块330出现异常时,需要将主管理模块330的管理数据链路切换到从管理模块340。与此同时,在主管理模块330恢复正常时,可以将从管理模块340的管理数据链路切回到主管理模块330中。
由于在第一心跳信号异常的情况下,可能是主管理模块330运行异常,也有可能是主管理模块330运行正常,但发送的第一心跳信号异常。在确定接收的第一心跳信号异常的情况下,无法排除发送的第一心跳信号异常的干扰。若此时直接将主管理模块330切换到从管理模块340,无法实现对于主管理模块330以及从管理模块340的精准切换。
因此,对接收的第二心跳信号进行异常判断,确定基板管理控制器310接收的主管理模块330的第二心跳信号异常,实现了逻辑运算模块320基于第一心跳信号以及第二心跳信号对主管理模块330的冗余判断,提升了对主管理模块是否异常的判断的准确性。
本发明实施例提供的主备切换装置,通过逻辑运算模块接收主管理模块的第一心跳信号,在确定第一心跳信号异常的情况下,基于从基板管理控制器接收的第二心跳信号进行进一步判断,确定第二心跳信号异常才执行切换操作。基于逻辑运算模块对第一心跳信号和第二心跳信号的双重判断,实现了主管理模块与从管理模块进行主备切换的双冗余监控管理方式,基于双重判断后再执行切换操作的方式,提高了主备切换的可靠性。
在一个实施例中,所述逻辑运算模块还用于:在确定所述主管理模块的管理数据链路切换至从管理模块之后,基于控制所述主管理模块进行上下电操作,以使所述主管理模块重启,并在所述主管理模块重启后所述第一心跳信号正常的情况下,确定所述主管理模块恢复正常状态。
逻辑运算模块在将主管理模块的管理数据链路切的换至从管理模块之后,主管理模块不再担任管理数据的工作。针对主管理模块中出现的异常状态,可以对主管理模块执行重启操作。基于控制主管理模块进行上下电操作,以使主管理模块进行重启。
对主管理模块执行重启操作之后,若主管理模块重启后第一心跳信号恢复正常,则可以确定主管理模块恢复正常状态。
可以理解的是,逻辑运算模块将主管理模块的管理数据链路切的换至从管理模块之后,对主管理模块进行重启的操作,不影响管理数据业务的正常运行。
本发明实施例提供的主备切换装置,通过在逻辑运算模块将主管理模块的管理数据链路切的换至从管理模块之后,针对主管理模块中出现的异常状态,对主管理模块执行重启操作。并基于第一心跳信号正常,实现了对主管理模块恢复正常状态的判断。
在一个实施例中,所述逻辑运算模块还用于:在确定所述主管理模块恢复正常状态之后,接收所述从管理模块的第三心跳信号,并确定所述第三心跳信号异常;接收所述基板管理控制器的第二反馈信号,确定所述第二反馈信号异常,所述第二反馈信号异常包括:所述基板管理控制器接收的所述从管理模块的第四心跳信号异常;将所述从管理模块的管理数据链路切换至所述主管理模块。
在主管理模块恢复正常状态后,主管理模块作为备用管理模块,从管理模块作为正在运行管理数据业务的模块。在从管理模块进行运行的过程中,可能出现从管理模块出现异常的情况下,对从管理模块的异常状态进行判断。
逻辑运算模块接收从管理模块的第三心跳信号,确定第三心跳信号异常。从管理模块的第三心跳信号用于确定从管理模块的工作状态,接收从管理模块的第三心跳信号可以实时判断当前从管理模块的工作状态。当接收的第三心跳信号异常的情况下,则可能当前从管理模块可能出现异常运行状态。
基板管理控制器的第三端与从管理模块连接,接收的从管理模块的第四心跳信号,并向逻辑运算模块发送第四心跳信号的第二反馈信号。
逻辑运算模块接收基板管理控制器的第二反馈信号,确定第二反馈信号异常,第二反馈信号异常包括:基板管理控制器接收的从管理模块的第四心跳信号异常。
在从管理模块运行的过程中,基板管理控制器接收从管理模块的第四心跳信号。基板管理控制器接收从管理模块的第四心跳信号与接收的第三心跳信号互为冗余,为不同设备接收的从管理模块的心跳信号。
由于在第三心跳信号异常的情况下,可能是从管理模块运行异常,也有可能是从管理模块运行正常,但发送的第三心跳信号异常。逻辑运算模块在确定接收的第三心跳信号异常的情况下,无法排除发送的第三心跳信号异常的干扰。所以,逻辑运算模块对接收的第四心跳信号进行异常判断,确定基板管理控制器的从管理模块的第四心跳信号异常,实现了对从管理模块的冗余判断,提升了对从管理模块是否异常的判断的准确性。
逻辑运算模块在确定从管理模块异常的情况下,将从管理模块的管理数据链路切换至主管理模块,实现了对主从管理模块的冗余切换。
本发明实施例提供的主备切换装置,通过在逻辑运算模块将从管理模块切换至主管理模块之前,在确定第三心跳信号异常的情况下,对接收的第四心跳信号进行异常判断,确定基板管理控制器接收的从管理模块的第四心跳信号异常,实现了对从管理模块的冗余判断,提升了对从管理模块是否异常的判断的准确性。
在一个实施例中,所述逻辑运算模块还用于:在所述主管理模块的管理数据链路切换至所述从管理模块之前,基于所述逻辑运算模块的中断引脚发送切换信号至所述从管理模块,以使所述从管理模块接管所述主管理模块。
主管理模块的管理数据链路切换至从管理模块之前,逻辑运算模块用于基于逻辑运算模块的中断引脚发送切换信号至从管理模块。从管理模块接收切换信号后,接管主管理模块。
可以理解的是,逻辑运算模块的中断引脚的优先级高,执行快,能够有效提高系统切换效率及可靠性。
本发明实施例提供的主备切换装置,通过主管理模块的管理数据链路切换至从管理模块之前,逻辑运算模块基于逻辑运算模块的中断引脚发送切换信号至从管理模块,以使从管理模块接管主管理模块,逻辑运算模块的中断引脚的优先级高,执行快,能够有效提高系统切换效率及可靠性。
在一个实施例中,逻辑运算模块还用于:确定所述第一心跳信号异常且确定所述第一反馈信号正常的情况下,将所述第一心跳信号的异常状态置位为正常状态,所述第一反馈信号正常包括:所述基板管理控制器接收的所述主管理模块的第二心跳信号正常。
由于在第一心跳信号异常的情况下,可能是主管理模块运行异常,也有可能是主管理模块运行正常,但发送的第一心跳信号异常。在确定接收的第一心跳信号异常的情况下,无法排除发送的第一心跳信号异常的干扰。
逻辑运算模块用于在确定第一心跳信号异常且确定第一反馈信号正常的情况下,将第一心跳信号的异常状态置位为正常状态。基于对第一反馈信号,可以实现对主管理模块运行情况的进一步判断。若第一心跳信号异常,但第一反馈信号正常,则逻辑运算模块可以确定主管理模块运行正常,只是发送的第一心跳信号异常。在此种情况下,逻辑运算模块无需执行将主管理模块的管理数据链路切换至从管理模块的处理。而是将第一心跳信号进行置位,将第一心跳信号的异常状态置为正常状态。
本发明实施例提供的主备切换装置,通过在第一心跳信号异常的情况下,逻辑运算模块基于第一反馈信号正常,确定主管理模块的运行状态正常,确定无需执行将主管理模块的管理数据链路切换至从管理模块的处理。而是将第一心跳信号进行置位,将第一心跳信号的异常状态置为正常状态,提高了主备切换的可靠性。
在一个实施例中,还包括:数据选择器;所述逻辑运算模块确定所述第一心跳信号异常,并确定所述第一反馈信号异常的情况下,向所述数据选择器发送切换指令;所述数据选择器基于所述切换指令,将所述主管理模块的管理数据链路切换至从管理模块。
在逻辑运算模块确定第一心跳信号异常、并确定第一反馈信号异常的情况下,则说明主管理模块运行异常,需要将主管理模块的管理数据链路切换至从管理模块。
逻辑运算模块在确定将主管理模块的管理数据链路切换至从管理模块之后,向数据选择器发送切换指令。数据选择器基于切换指令,将主管理模块的管理数据链路切换至从管理模块。
本发明实施例提供的主备切换装置,通过数据选择器接收切换指令,并基于切换指令,将主管理模块的管理数据链路切换至从管理模块,实现了管理模块的主备切换。
下面以一应用本发明提供的主备切换方法的系统结构示意图为例,说明本发明提供的技术方案:
如图4所示,该系统包括:主管理模块410、从管理模块420、BMC基板管理控制器430、CPLD逻辑运算模块440、MUX数据选择器450以及设备460。
设备460是主管理模块以及从管理模块管理的设备,例如机箱中的风扇、硬盘、显卡等。
BMC(Baseboard Management Controller,基板管理控制器)430通过心跳监控链路分别连接主管理模块410以及从管理模块420。CPLD逻辑运算模块440通过心跳监控链路分别连接主管理模块410以及从管理模块420。BMC基板管理控制器430以及CPLD逻辑运算模块440之间通过心跳监控链路监控主管理模块410以及从管理模块420的运行状态。
主备切换的实现方案以BMC基板管理控制器430以及CPLD逻辑运算模块440为核心,BMC基板管理控制器430以及CPLD逻辑运算模块440双冗余方式监控主管理模块410以及从管理模块420工作状态,当监控主管理模块410以及从管理模块420出现异常时,CPLD逻辑运算模块440通过监控链路及BMC基板管理控制器430的反馈链路,收集判断信息,从而切换管理数据链路。
基于CPLD逻辑运算模块440监控主管理模块410的工作状态,当主管理模块410出现异常时,心跳链路会出现异常,为防止是单链路被干扰造成误判,CPLD逻辑运算模块440会等待BMC基板管理控制器430的管理心跳链路监控的第一反馈信号,如果两个链路都出现异常,CPLD逻辑运算模块440会控制MUX(Multiplexer,数据选择器)450切换电路将主管理模块410的管理数据链路切换到从管理模块420。
当CPLD逻辑运算模块440仅接收到其中一路监控的心跳信号异常时,会暂时判定为无异常,若之后收到第二路监控的反馈信号异常,会执行链路切换动作,CPLD逻辑运算模块440控制管理数据链路从主管理模块410切换到从管理模块420,并通过中断引脚通知从管理模块420开始动作,从而保证系统的稳定性。
当CPLD逻辑运算模块440仅接收到其中一路监控信号异常时,会暂时判定为无异常,若之后未再收到第二路监控的反馈信号异常,将置位监控该路的心跳信号状态,并不再执行链路切换动作。
正常运行状态时,管理数据链路为主管理模块410通过MUX数据选择器450然后到设备460,当主管理模块410出现异常时,CPLD逻辑运算模块440及BMC基板管理控制器430监控到该主管理模块410异常,会通过MUX数据选择器450,将管理数据链路切换给从管理模块420。CPLD逻辑运算模块440通过控制上下电操作,控制主管理模块410重启操作,同时系统会通过BMC基板管理控制器430上报该异常状态,告知上层用户目前状态。
当主管理模块410重启成功后,会通过BMC基板管理控制器430通知上层用户,同时CPLD逻辑运算模块440等待设备重启或指令下发将管理数据链路切换到主管理模块410上,在这之前,会一直使用从管理模块420进行管理控制,除非从管理模块420出现异常,才会将从管理模块420切换到主管理模块410,同时通过中断引脚通知主管理模块410模块接管管理数据链路,并尝试重启从控制模块420。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种主备切换方法,其特征在于,所述方法包括:
接收主管理模块的第一心跳信号,确定所述第一心跳信号异常;
接收基板管理控制器的第一反馈信号,确定所述第一反馈信号异常,所述第一反馈信号异常包括:所述基板管理控制器接收的所述主管理模块的第二心跳信号异常;
将所述主管理模块的管理数据链路切换至从管理模块,所述从管理模块为所述主管理模块的备用管理模块。
2.根据权利要求1所述的主备切换方法,其特征在于,所述将所述主管理模块的管理数据链路切换至从管理模块之后,还包括:
控制所述主管理模块执行重启操作,并在所述主管理模块重启后所述第一心跳信号正常的情况下,确定所述主管理模块恢复正常状态。
3.根据权利要求2所述的主备切换方法,其特征在于,所述确定所述主管理模块恢复正常状态之后,还包括:
接收所述从管理模块的第三心跳信号,确定所述第三心跳信号异常;
接收所述基板管理控制器的第二反馈信号,确定所述第二反馈信号异常,所述第二反馈信号异常包括:所述基板管理控制器接收的所述从管理模块的第四心跳信号异常;
将所述从管理模块的管理数据链路切换至所述主管理模块。
4.根据权利要求1所述的主备切换方法,其特征在于,所述接收基板管理控制器的第一反馈信号之后,还包括:
在所述第一反馈信号正常的情况下,将所述第一心跳信号的异常状态置位为正常状态,所述第一反馈信号正常包括:所述基板管理控制器接收的所述主管理模块的第二心跳信号正常。
5.一种主备切换装置,其特征在于,包括:
基板管理控制器,所述基板管理控制器的第一端与主管理模块连接,所述基板管理控制器的第二端与逻辑运算模块连接,所述基板管理控制器的第三端与从管理模块连接,用于接收所述主管理模块的第二心跳信号,并向所述逻辑运算模块发送所述第二心跳信号的第一反馈信号;
逻辑运算模块,所述逻辑运算模块的第一端与主管理模块连接,所述逻辑运算模块的第二端与从管理模块连接,用于接收主管理模块的第一心跳信号,并接收所述基板管理控制器的第一反馈信号;
所述逻辑运算模块还用于:确定所述第一心跳信号异常,并确定所述第一反馈信号异常的情况下,将所述主管理模块的管理数据链路切换至从管理模块,所述从管理模块为所述主管理模块的备用管理模块,所述第一反馈信号异常包括:所述基板管理控制器接收的所述主管理模块的第二心跳信号异常。
6.根据权利要求5所述的主备切换装置,其特征在于,所述逻辑运算模块还用于:
在确定所述主管理模块的管理数据链路切换至从管理模块之后,基于控制所述主管理模块进行上下电操作,以使所述主管理模块重启,并在所述主管理模块重启后所述第一心跳信号正常的情况下,确定所述主管理模块恢复正常状态。
7.根据权利要求6所述的主备切换装置,其特征在于,所述逻辑运算模块还用于:
在确定所述主管理模块恢复正常状态之后,接收所述从管理模块的第三心跳信号,并确定所述第三心跳信号异常;
接收所述基板管理控制器的第二反馈信号,确定所述第二反馈信号异常,所述第二反馈信号异常包括:所述基板管理控制器接收的所述从管理模块的第四心跳信号异常;
将所述从管理模块的管理数据链路切换至所述主管理模块。
8.根据权利要求5所述的主备切换装置,其特征在于,所述逻辑运算模块还用于:
在所述主管理模块的管理数据链路切换至所述从管理模块之前,基于所述逻辑运算模块的中断引脚发送切换信号至所述从管理模块,以使所述从管理模块接管所述主管理模块。
9.根据权利要求5所述的主备切换装置,其特征在于,所述逻辑运算模块还用于:
确定所述第一心跳信号异常且所述第一反馈信号正常的情况下,将所述第一心跳信号的异常状态置位为正常状态,所述第一反馈信号正常包括:所述基板管理控制器接收的所述主管理模块的第二心跳信号正常。
10.根据权利要求5所述的主备切换装置,其特征在于,还包括:数据选择器;
所述逻辑运算模块确定所述第一心跳信号异常,并确定所述第一反馈信号异常的情况下,向所述数据选择器发送切换指令;
所述数据选择器基于所述切换指令,将所述主管理模块的管理数据链路切换至从管理模块。
CN202310158601.4A 2023-02-23 2023-02-23 主备切换方法及装置 Pending CN116340058A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310158601.4A CN116340058A (zh) 2023-02-23 2023-02-23 主备切换方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310158601.4A CN116340058A (zh) 2023-02-23 2023-02-23 主备切换方法及装置

Publications (1)

Publication Number Publication Date
CN116340058A true CN116340058A (zh) 2023-06-27

Family

ID=86884920

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310158601.4A Pending CN116340058A (zh) 2023-02-23 2023-02-23 主备切换方法及装置

Country Status (1)

Country Link
CN (1) CN116340058A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117217320A (zh) * 2023-11-07 2023-12-12 苏州元脑智能科技有限公司 一种测控系统、数据处理方法、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117217320A (zh) * 2023-11-07 2023-12-12 苏州元脑智能科技有限公司 一种测控系统、数据处理方法、电子设备及存储介质
CN117217320B (zh) * 2023-11-07 2024-02-20 苏州元脑智能科技有限公司 一种测控系统、数据处理方法、电子设备及存储介质

Similar Documents

Publication Publication Date Title
US6202170B1 (en) Equipment protection system
CN104679610B (zh) 计算机系统的管理方法和装置
CN110427283B (zh) 一种双余度的燃油管理计算机系统
CN112685236A (zh) 数据管理系统的双机互备方法及系统
CN111399879A (zh) 一种cpld的固件升级系统和方法
CN100362481C (zh) 多处理器设备单元主备保护方法
CN116340058A (zh) 主备切换方法及装置
CN105577444A (zh) 一种无线控制器管理方法及无线控制器
CN111585835B (zh) 一种带外管理系统的控制方法、装置和存储介质
CN102026042A (zh) 一种高级电信计算架构控制面的保活、自愈方法和装置
JPH11203157A (ja) 冗長装置
CN100496030C (zh) 基于高可用性系统的综合接入媒体网关设备
CN212541329U (zh) 基于国产龙芯平台的双冗余计算机设备
CN101247213A (zh) 一种主备倒换的方法及系统
CN112631667B (zh) 一种服务器升级系统
CN109491867A (zh) 一种通讯自动恢复方法和装置
CN113742142B (zh) 存储系统管理sata硬盘的方法及存储系统
US11954509B2 (en) Service continuation system and service continuation method between active and standby virtual servers
CN116074187A (zh) 主备链路切换方法及装置、电子设备、存储介质
CN100490343C (zh) 一种通讯设备中主备用单元倒换的实现方法和装置
CN116055315B (zh) Mvb通信配置方法、装置、设备及存储介质
KR950010490B1 (ko) 전전자 교환 시스템에서의 제어시스템의 이중화 운용 방법
KR100950555B1 (ko) 스위치 보드 변경 방법
CN113312089B (zh) 低成本高效率的盘间通信物理通道倒换控制系统及方法
EP4084492A1 (en) A method, system and olt for dual-parenting pon protection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination