CN112650620B - 一种存在主从关系的双机冷备份自主冗余方法 - Google Patents

一种存在主从关系的双机冷备份自主冗余方法 Download PDF

Info

Publication number
CN112650620B
CN112650620B CN202011517945.2A CN202011517945A CN112650620B CN 112650620 B CN112650620 B CN 112650620B CN 202011517945 A CN202011517945 A CN 202011517945A CN 112650620 B CN112650620 B CN 112650620B
Authority
CN
China
Prior art keywords
slave
master
communication
host
standby machine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011517945.2A
Other languages
English (en)
Other versions
CN112650620A (zh
Inventor
唐斌
罗亚斌
王栋
杨京松
张斌
周文兴
梁佳
胡伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
63919 Troops of PLA
Original Assignee
63919 Troops of PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 63919 Troops of PLA filed Critical 63919 Troops of PLA
Priority to CN202011517945.2A priority Critical patent/CN112650620B/zh
Publication of CN112650620A publication Critical patent/CN112650620A/zh
Application granted granted Critical
Publication of CN112650620B publication Critical patent/CN112650620B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1456Hardware arrangements for backup
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant

Abstract

本发明涉及一种存在主从关系的双机冷备份自主冗余方法,用于存在主从关系的冷备份方式的计算机系统,通过双机冷备份自主冗余策略执行系统中Master和Slave的冗余备份;其中系统中Master和Slave均为主备冗余设计,Master主机/备机与Slave主机/备机均可以通讯,同时Master主机与备机通过RS422接口通讯;Master将数据一方面备份至本机的EEPROM中,另一方面通过内部通讯链路备份至Slave;所述双机冷备份自主冗余策略包括Master自检管理、Slave自检管理、Master与Slave通讯异常管理及Master初始化。本发明用于存在主从关系的冷备份方式的计算机系统,当任一计算机发生故障时,系统可以通过冗余策略实现无人干预的自主切换,同时恢复切换前的关键状态,保持系统安全可靠运行。

Description

一种存在主从关系的双机冷备份自主冗余方法
技术领域
本发明属于计算机冗余管理技术领域,尤其涉及一种存在主从关系的双机冷备份自主冗余方法。
背景技术
为了提高系统可靠性,通常对系统中的关键部件进行冗余备份。计算机产品作为系统的信息获取、处理单元,通常会进行冗余。当系统需要长时间运行时,基于元器件寿命考虑,会采取冷备份的方式,即主机开机运行,备机关机等待。
系统中存在多个计算机时,其拓扑结构可以分为均等或主从。当系统对外接口约束为单一接口时,系统中的多个计算机一般为主从关系,即有且仅有一个计算机对外通讯,并由该计算机对系统中其他计算机进行管理。
当系统稳定性要求高、系统运行电磁环境恶劣、系统运行时间长的情况下,就必须要设计计算机的安全、可靠、无缝的冗余备份策略,避免计算机的故障导致系统安全隐患。
计算机冗余管理策略一般是上游系统或人工对其状态监测,发现异常进行主备份的开关机操作。这就需要与上游系统或人工从接口上达成一致,接口预留监测和切换的功能,计算机本身不具备自主切换的能力。
计算机主备切换或复位后,需要对关键状态进行恢复,一般是计算机将状态保存在自身断电非丢失存储器(例如PROM)中,复位后可以通过访问PROM来恢复,但发生切机时,备机无法访问直接主机的PROM,必须在主机通讯正常的情况下,通过与主机的通讯来获取关键数据,当主机彻底瘫痪或运行异常时,可能导致关键数据无法恢复或错误恢复。
发明内容
本发明的目的是提供一种存在主从关系的双机冷备份自主冗余方法,在外界不干预的情况下,系统中的多个计算机能够自主进行健康管理、冷备切换和状态恢复,提高系统的可靠性。通过对冗余切机过程的数据有效性检查、复位及切机后的初始化流程设计来确保备机能够安全、可靠的接管主机的工作。特别是对于通讯故障的情况下,对主从关系的计算机逐一排查和确认,通过冗余切换恢复通讯,恢复关键状态,并保证无故障的计算机依然处于主份工作。
本发明提供了一种存在主从关系的双机冷备份自主冗余方法,用于存在主从关系的冷备份方式的计算机系统,通过双机冷备份自主冗余策略执行系统中Master和Slave的冗余备份;其中系统中Master和Slave均为主备冗余设计,Master主机/备机与Slave主机/备机均可以通讯,同时Master主机与备机通过RS422接口通讯;Master将数据一方面备份至本机的EEPROM中,另一方面通过内部通讯链路备份至Slave;
所述双机冷备份自主冗余策略包括Master自检管理、Slave自检管理、Master与Slave通讯异常管理及Master初始化;
所述Master自检管理包括:
Master周期性对自身运行状态检查,当主机有故障发生且确认异常时,则执行切机:备机开;备机被唤醒后,获取关键数据并执行相应初始化动作,由备机将主机关闭;
所述Slave自检管理包括:
Slave周期性对自身运行状态检查,并将检查结果周期性发送给Master;同时将自身的主备机标志发往Master;Master对Slave自检结果进行检查,当有主机发生故障且确认故障时,由Master对Slave执行切机操作:Slave备机开、Slave主机关;
所述Master与Slave通讯异常管理包括:
Master周期性对通讯情况进行检查,当发现故障且确认故障时,Master自身自检无故障的情况下优先对Slave进行切机操作;切机后再对通讯情况进行确认,如果依然没有恢复,则将Slave切回主机,Master自身切换到备机;
所述Master初始化包括:
在正常情况下主机或者备机处于工作状态,主机上电后,先通过RS422串口同Slave进行通讯,并通过通讯结果和通讯内容,来确定主机的当前状态,确定主机的初始化动作,包括以下几种情况:
a.与Slave主机通讯正常,并且通讯数据表明Slave上没有Master的备份数据,则主机进行正常初始化;
b.与Slave主机通讯正常,并且通讯内容中的上电状态为真,表明Master曾经上过电,则进入复位初始化;否则进入安全初始化;
c.与Slave主机通讯错误,无法回应要数命令,或者无法获取关键数据,则主机与Slave备机进行通讯;
d.与Slave备机通讯正常,并且通讯数据表明Slave上没有Master的备份数据,则主机进行正常初始化;
e.与Slave备机通讯正常,并且通讯内容中的上电状态为真,表明Master曾经上过电,则进入复位初始化;否则进入安全初始化;
当Master备机上电时,先通过RS422串口与Slave进行通讯,获取关键数据,根据通讯结果和通讯内容来确定备机的当前状态,确定备机的初始化动作,包括以下几种情况:
a)与Slave主机通讯成功,并且获取关键数据成功,并且关键数据表明备机未上过电,则进行备机RS42初始化,即通过获取到的关键数据来初始化;
b)与Slave主机通讯失败,则转向与Slave备机进行通讯来获取关键数据,如果关键数据表明备机未上过电,则备机进行复位初始化,即通过获取到的关键数据来初始化;
c)与Slave通讯失败,则转向与Master主机进行通讯来获取关键数据,关键数据表明备机未上过电,则备机进行复位初始化,即通过获取到的关键数据来初始化;
d)与Slave通讯成功并获取到关键数据,关键数据表明备机上过电,或者与Master主机通讯成功并获取到关键数据,关键数据表明备机上过电,则进入复位初始化;
e)如果与Slave通讯失败,与Master主机通讯同样失败,则备机进入安全初始化。
2、根据权利要求1所述的存在主从关系的双机冷备份自主冗余方法,其特征在于,所述Master与Slave通讯异常管理包括通讯故障发生时Master处于主机工作时切换流程,以及通讯故障发生时Master处于备机工作时切换流程;
所述通讯故障发生时Master处于主机工作时切换流程包括:
1)确认通讯故障确实发生且持续发生,确认过程中通过重新初始化通讯配置以消除故障;如果故障已确认,则转入第2)步;
2)先判断Slave是主机还是备机,若Slave是主机,判断Master自检是否故障,如果自检存在故障,则等待其自检管理的切机流程;如果不存在自检故障,则切换Slave为备机,并转入第3)步;若Slave是备机,Master自己切换为备机,流程结束;
3)再次对通讯故障进行确认,如果恢复正常,则向Slave备份关键数据,流程结束;如果故障依然存在,则Slave切换为主机,Master自己切换为备机,流程结束;
所述通讯故障发生时Master处于备机工作时切换流程包括:
(1)先确认通讯故障确实发生,且持续发生,确认过程中通过重新初始化通讯配置以消除故障;如果故障已确认,则转入第(2)步;
(2)判断Slave是主机还是备机,若Slave是主机,且Slave未切换过,则将Slave切换到备机,并转入第(3)步;若Slave是备机,且Slave未切换过,说明Slave由于其他原因在本次流程启动之前已经切换到备机,则流程结束;
(3)再次对通讯故障进行确认,如果故障依然存在,则将Slave切换到主机,流程结束;如果故障消失,则将关键数据备份至Slave备机,流程结束。
借由上述方案,通过存在主从关系的双机冷备份自主冗余方法,用于存在主从关系的冷备份方式的计算机系统,当任一计算机发生故障时,系统可以通过冗余策略实现无人干预的自主切换,同时恢复切换前的关键状态,保持系统安全可靠运行。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例详细说明如后。
附图说明
图1是本发明中Master备机通讯故障冗余策略流程图;其中计算机每两秒执行一次该流程;
图2是本发明中Master主机通讯故障冗余策略流程图;其中计算机每两秒执行一次该流程;
图3是本发明中Master初始化流程。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本实施提供了一种存在主从关系的双机冷备份自主冗余方法,通过双机冷备份自主冗余策略执行系统中Master和Slave的冗余备份;双机冷备份自主冗余策略包括Master自检管理、Slave自检管理、Master与Slave通讯异常管理及Master初始化,具体内容如下:
1、主从关系设计
系统中有两类计算机,一个是Master,负责整个系统的对外接口,负责管理系统中其余计算机。一个是Slave,负责实现系统内部某一部分功能,并接受Master的管理,与Master通过RS422接口进行内部通讯。Master主机可以对Master备机执行开关机操作,Master可对Slave主备机执行开关机操作。
Master和Slave均为主备冗余设计,为冷备份工作模式,即主机工作,备机停机。Master主机/备机与Slave主机/备机均可以通讯。同时Master主机与备机也通过RS422接口通讯。
Master将数据一方面备份至本机的EEPROM中,另一方面通过内部通讯链路备份至Slave。双方通讯的内容包括:数据包头尾标志、校验和、关键数据、主备机标志。
2、Master自检管理
Master周期性对自身运行状态检查,当主机有故障发生且确认异常,则执行切机:备机开。备机被唤醒后,获取关键数据并执行相应初始化动作,由备机将主机关闭。
3、Slave自检管理
Slave周期性对自身运行状态检查,并将检查结果周期性发送给Master。同时发往Master的还有自身的主备机标志。Master对Slave自检结果进行检查,当有主机发生故障且确认故障,由Master对Slave执行切机操作:Slave备机开、Slave主机关。
4、Master与Slave通讯异常管理
Master与Slave的通讯对于系统来说是关键功能,如果通讯出现故障,则需要执行切机来恢复通讯功能。Master故障或Slave故障或两者之间的通讯链路故障,均有可能导致通讯故障。
通讯行为是周期性的,Master周期性对通讯情况进行检查。当发现故障且确认故障时,策略为Master自身自检无故障的情况下优先对Slave进行切机操作。切机后再对通讯情况进行确认,如果依然没有恢复,则将Slave切回主机,Master自身切换到备机。通讯情况的确认手段即有数据是否接受发送成功的判断,也有对数据内容是否有效的判断。
由于整个策略中涉及到Master的主备份切换,所以将整个策略的实现分为Master主机部分和Master备机部分。如果通讯故障发生时Master处于主机工作,则切机流程中存在将Master切机再恢复的可能;如果通讯故障发生时Master是备机的情况下,则只考虑将Slave进行主备切换。
参图1所示,通讯故障发生时Master处于主机工作时,切换流程如下:
1)确认通讯故障确实发生且持续发生,确认过程中可以通过重新初始化通讯配置来试图消除故障;如果故障已确认,则转入第2)步;
2)先判断Slave是主机还是备机。①如果Slave是主机,判断Master自检是否故障,如果自检存在故障,则等待其自检管理的切机流程。如果不存在自检故障,则切换Slave为备机,并转入第3)步;②Slave是备机,Master自己切换为备机,流程结束。
3)再次对通讯故障进行确认,如果恢复正常,则向Slave备份关键数据,流程结束。如果故障依然存在,则Slave切换为主机,Master自己切换为备机,流程结束。
参图2所示,通讯故障发生时Master处于备机工作时,切换流程如下:
1)先确认通讯故障确实发生,且持续发生,确认过程中可以通过重新初始化通讯配置来试图消除故障;如果故障已确认,则转入第2)步;
2)判断Slave是主机还是备机。①如果Slave是主机,且Slave未切换过,则将Slave切换到备机,并转入第3)步;②如果Slave是备机,且Slave未切换过,说明Slave由于其他原因再本次流程启动之前已经切换到了备机,则流程结束;
3)再次对通讯故障进行确认,如果故障依然存在,则将Slave切换到主机,流程结束;如果故障消失,则将关键数据备份至Slave备机,流程结束。
5、Master初始化流程
主备份冗余切机流程与初始化流程是紧密相关的,复位或主备机初始化后,需要获取关键数据,以恢复当前计算机系统内部参数,避免计算机冗余切机给整个系统带来影响。系统由Master来统一控制状态,所以仅为Master设计初始化状态恢复的策略。
根据初始化的结果,设计三种初始化动作。①正常初始化。即系统首次上电执行的初始化动作。②复位初始化。上电后能够获取有效正确的关键数据,通过关键数据来恢复系统状态;③安全初始化,非首次上电情况下,获取不到正确有效的关键数据,则计算机执行安全初始化,即不破坏系统状态的情况下的初始化内容。
由于Master是主备机冷冗余备份的计算机系统,在正常情况下是只有主机或者备机处于工作状态。主机上电后,先通过RS422串口同Slave进行通讯,并通过通讯结果和通讯内容,来确定主机的当前状态,确定主机的初始化动作。参图3所示,主要有以下几种情况:
a.与Slave主机通讯正常,并且通讯数据表明Slave上没有Master的备份数据,则主机进行正常初始化;
b.与Slave主机通讯正常,并且通讯内容中的上电状态为真,表明Master曾经上过电,则进入复位初始化;否则进入安全初始化;
c.与Slave主机通讯错误,无法回应要数命令,或者无法获取关键数据,则主机与Slave备机进行通讯;
d.与Slave备机通讯正常,并且通讯数据表明Slave上没有Master的备份数据,则主机进行正常初始化;
e.与Slave备机通讯正常,并且通讯内容中的上电状态为真,表明Master曾经上过电,则进入复位初始化;否则进入安全初始化;
当Master备机上电时,同样需要先通过RS422串口与Slave进行通讯,获取关键数据,根据通讯结果和通讯内容来确定备机的当前状态,确定备机的初始化动作,主要有以下几种情况:
a.与Slave主机通讯成功,并且获取关键数据成功,并且关键数据表明备机未上过电,则进行备机RS42初始化,即通过获取到的关键数据来初始化;
b.与Slave主机通讯失败,则转向与Slave备机进行通讯来获取关键数据,如果关键数据表明备机未上过电,则备机进行复位初始化,即通过获取到的关键数据来初始化;
c.与Slave通讯失败,则转向与Master主机进行通讯来获取关键数据,关键数据表明备机未上过电,则备机进行复位初始化,即通过获取到的关键数据来初始化;
d.与Slave通讯成功并获取到关键数据,关键数据表明备机上过电,或者与Master主机通讯成功并获取到关键数据,关键数据表明备机上过电,则进入复位初始化;
e.如果与Slave通讯失败,与Master主机通讯同样失败,则备机进入安全初始化。
该主从关系的双机冷备份自主冗余方法具有如下技术效果:
1、存在主从关系的双机冷备份系统中,Master对系统状态统一管理,对切机策略统一管理。
2、Master分别在本地及Slave上设计了关键数据备份,在备份和恢复关键数据的手段上实现了冗余,通过关键数据恢复状态的机制实现计算机故障情况下安全、可靠、无缝的冗余切换。
3、通过自检来获知计算机自身可检测的故障模式,通过通讯链路的周期检查来获取不可检测的故障模式,通过先Slave后Master、先主后备的切换策略,逐步对故障原因进行排除,从故障中恢复计算机系统的正常运行。排除过程中避免了误切机、多余切机,以维持系统最初的冷备份设计原则。
在一具体实施例中,计算机设备A为系统中的Master,由两个独立的计算机A1和A2组成,正常情况下A1加电工作,A2断电处于备份。计算机设备B为系统中的Slave,由两个独立的计算机B1和B2组成,正常情况下B1加电工作,B2断电处于备份。
A与B通过RS422接口通讯。其中A1和B1、B2均能通讯,A2也同样可以和B1、B2通讯;通讯的内容为系统的关键数据。
A1与A2可以通过内部的RS422通讯。关键数据定义如下:
Figure BDA0002848044430000091
另外两者的通讯内容还包括:B向A周期性发送其状态、A按需向B发送动作指令。
实例1
1)系统首次上电,根据冷备份原则,A和B均是主份上电,即A1和B1加电。A1执行正常初始化动作,B1接受A1的指令配合完成初始化;
2)A1有自检功能,通过自检判断自身是否存在故障,如果故障发生,并持续1分钟,则A1主机发送“A2开”指令;
3)A2开后,通过RS422从B1获取关键数据,并进行复位初始化;
4)A2初始化完成后,发送“A1关”指令,关闭A1,A2与A1完成切换;
5)A2同样进行周期自检,如果自检判断自身存在故障,由于A2已经是备份,所以系统没有动作。
实例2
1)系统首次上电,根据冷备份原则,A和B均是主份上电,即A1和B1加电。A1执行正常初始化动作,B1接受A1的指令配合完成初始化;
2)B1有自检功能,自检状态通过RS422发送给A1。A1通过自检状态判断B1是否存在故障,如果故障发生,则发送“B1关”、“B2开”指令;
3)B2同样进行周期自检,如果自检判断自身存在故障,由于B2已经是备份,所以系统没有动作。
实例3
1)系统首次上电,根据冷备份原则,A和B均是主份上电,即A1和B1加电。A1执行正常初始化动作,B1接受A1的指令配合完成初始化;
2)断开A1与B1的通讯链路,模拟通讯故障发生;
3)A1显示通讯故障计数2秒一次进行累加;
4)故障计数累加到30以后,A1发出“B1关”、“B2开”指令;
5)如果通讯恢复,故障消失,则流程结束。如果故障依然存在,则A1发出“B2关”、“B1开”、“A2开”指令;
6)A2上电后,与B1通讯,判断能否获取到有效关键数据。如果获取不到,则通过A1、A2的RS422通讯,获取有效的关键数据。A2依据关键数据来初始化自身变量,恢复系统状态;
7)A2获取到关键数据并初始化完成后,发出“A1关”指令,关闭A1。
以上所述仅是本发明的优选实施方式,并不用于限制本发明,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。

Claims (2)

1.一种存在主从关系的双机冷备份自主冗余方法,其特征在于,用于存在主从关系的冷备份方式的计算机系统,通过双机冷备份自主冗余策略执行系统中Master和Slave的冗余备份;其中系统中Master和Slave均为主备冗余设计,Master主机/备机与Slave主机/备机均可以通讯,同时Master主机与备机通过RS422接口通讯;Master将数据一方面备份至本机的EEPROM中,另一方面通过内部通讯链路备份至Slave;
所述双机冷备份自主冗余策略包括Master自检管理、Slave自检管理、Master与Slave通讯异常管理及Master初始化;
所述Master自检管理包括:
Master周期性对自身运行状态检查,当主机有故障发生且确认异常时,则执行切机:备机开;备机被唤醒后,获取关键数据并执行相应初始化动作,由备机将主机关闭;
所述Slave自检管理包括:
Slave周期性对自身运行状态检查,并将检查结果周期性发送给Master;同时将自身的主备机标志发往Master;Master对Slave自检结果进行检查,当有主机发生故障且确认故障时,由Master对Slave执行切机操作:Slave备机开、Slave主机关;
所述Master与Slave通讯异常管理包括:
Master周期性对通讯情况进行检查,当发现故障且确认故障时,Master自身自检无故障的情况下优先对Slave进行切机操作;切机后再对通讯情况进行确认,如果依然没有恢复,则将Slave切回主机,Master自身切换到备机;
所述Master初始化包括:
在正常情况下主机或者备机处于工作状态,主机上电后,先通过RS422串口同Slave进行通讯,并通过通讯结果和通讯内容,来确定主机的当前状态,确定主机的初始化动作,包括以下几种情况:
a.与Slave主机通讯正常,并且通讯数据表明Slave上没有Master的备份数据,则主机进行正常初始化;
b.与Slave主机通讯正常,并且通讯内容中的上电状态为真,表明Master曾经上过电,则进入复位初始化;否则进入安全初始化;
c.与Slave主机通讯错误,无法回应要数命令,或者无法获取关键数据,则主机与Slave备机进行通讯;
d.与Slave备机通讯正常,并且通讯数据表明Slave上没有Master的备份数据,则主机进行正常初始化;
e.与Slave备机通讯正常,并且通讯内容中的上电状态为真,表明Master曾经上过电,则进入复位初始化;否则进入安全初始化;
当Master备机上电时,先通过RS422串口与Slave进行通讯,获取关键数据,根据通讯结果和通讯内容来确定备机的当前状态,确定备机的初始化动作,包括以下几种情况:
a)与Slave主机通讯成功,并且获取关键数据成功,并且关键数据表明备机未上过电,则进行备机RS42初始化,即通过获取到的关键数据来初始化;
b)与Slave主机通讯失败,则转向与Slave备机进行通讯来获取关键数据,如果关键数据表明备机未上过电,则备机进行复位初始化,即通过获取到的关键数据来初始化;
c)与Slave通讯失败,则转向与Master主机进行通讯来获取关键数据,关键数据表明备机未上过电,则备机进行复位初始化,即通过获取到的关键数据来初始化;
d)与Slave通讯成功并获取到关键数据,关键数据表明备机上过电,或者与Master主机通讯成功并获取到关键数据,关键数据表明备机上过电,则进入复位初始化;
e)如果与Slave通讯失败,与Master主机通讯同样失败,则备机进入安全初始化。
2.根据权利要求1所述的存在主从关系的双机冷备份自主冗余方法,其特征在于,所述Master与Slave通讯异常管理包括通讯故障发生时Master处于主机工作时切换流程,以及通讯故障发生时Master处于备机工作时切换流程;
所述通讯故障发生时Master处于主机工作时切换流程包括:
1)确认通讯故障确实发生且持续发生,确认过程中通过重新初始化通讯配置以消除故障;如果故障已确认,则转入第2)步;
2)先判断Slave是主机还是备机,若Slave是主机,判断Master自检是否故障,如果自检存在故障,则等待其自检管理的切机流程;如果不存在自检故障,则切换Slave为备机,并转入第3)步;若Slave是备机,Master自己切换为备机,流程结束;
3)再次对通讯故障进行确认,如果恢复正常,则向Slave备份关键数据,流程结束;如果故障依然存在,则Slave切换为主机,Master自己切换为备机,流程结束;
所述通讯故障发生时Master处于备机工作时切换流程包括:
(1)先确认通讯故障确实发生,且持续发生,确认过程中通过重新初始化通讯配置以消除故障;如果故障已确认,则转入第(2)步;
(2)判断Slave是主机还是备机,若Slave是主机,且Slave未切换过,则将Slave切换到备机,并转入第(3)步;若Slave是备机,且Slave未切换过,说明Slave由于其他原因在本次流程启动之前已经切换到备机,则流程结束;
(3)再次对通讯故障进行确认,如果故障依然存在,则将Slave切换到主机,流程结束;如果故障消失,则将关键数据备份至Slave备机,流程结束。
CN202011517945.2A 2020-12-21 2020-12-21 一种存在主从关系的双机冷备份自主冗余方法 Active CN112650620B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011517945.2A CN112650620B (zh) 2020-12-21 2020-12-21 一种存在主从关系的双机冷备份自主冗余方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011517945.2A CN112650620B (zh) 2020-12-21 2020-12-21 一种存在主从关系的双机冷备份自主冗余方法

Publications (2)

Publication Number Publication Date
CN112650620A CN112650620A (zh) 2021-04-13
CN112650620B true CN112650620B (zh) 2022-10-04

Family

ID=75360221

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011517945.2A Active CN112650620B (zh) 2020-12-21 2020-12-21 一种存在主从关系的双机冷备份自主冗余方法

Country Status (1)

Country Link
CN (1) CN112650620B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113810227A (zh) * 2021-09-13 2021-12-17 阳光新能源开发有限公司 主备机切换方法和电站
CN114297004A (zh) * 2021-12-31 2022-04-08 合肥同智机电控制技术有限公司 软件快速备份与恢复方法、系统及设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101447858B (zh) * 2008-01-17 2012-01-11 中兴通讯股份有限公司 双机热备份系统中实现虚拟路由冗余协议同步倒换的方法
CN100555234C (zh) * 2008-05-12 2009-10-28 北京邮电大学 双机冗余容错系统及其冗余切换方法

Also Published As

Publication number Publication date
CN112650620A (zh) 2021-04-13

Similar Documents

Publication Publication Date Title
US7877627B1 (en) Multiple redundant computer system combining fault diagnostics and majority voting with dissimilar redundancy technology
US6732300B1 (en) Hybrid triple redundant computer system
US6477663B1 (en) Method and apparatus for providing process pair protection for complex applications
CN112650620B (zh) 一种存在主从关系的双机冷备份自主冗余方法
US20100088440A1 (en) Detecting and preventing the split-brain condition in redundant processing units
TWI529624B (zh) Method and system of fault tolerance for multiple servers
CN102521066A (zh) 星载计算机空间环境事件容错方法
TW454128B (en) Shared disk type multiple system
CN111538624A (zh) 一种服务器电源的维修方法、装置、设备及介质
CN108847879A (zh) 基于总线控制器的双机故障检测及恢复方法
US20140298076A1 (en) Processing apparatus, recording medium storing processing program, and processing method
CN112910751A (zh) 一种用于vpn设备的异常检测及恢复方法和装置
CN101557307B (zh) 调度自动化系统应用状态管理方法
JP2008152552A (ja) 計算機システム及び障害情報管理方法
US9274909B2 (en) Method and apparatus for error management of an integrated circuit system
JP3325785B2 (ja) 計算機の故障検出・回復方式
CN105391575A (zh) 一种金库控制方法及系统
JPH0736721A (ja) 多重化コンピュータシステムの制御方式
JP2015106226A (ja) 二重化システム
JP3343618B2 (ja) 端末無中断オンラインシステム
JP2008003646A (ja) 不良モジュール検出方法および信号処理装置
JP6364773B2 (ja) 情報処理装置、情報処理システム、メモリレプリケーション方法、並びにコンピュータ・プログラム
JPH1196033A (ja) 情報処理装置
JP7403433B2 (ja) プラント制御システムの通信装置及び通信方法
CN114791830B (zh) 用于控制和自动重启技术装置的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant