CN112650620B - 一种存在主从关系的双机冷备份自主冗余方法 - Google Patents
一种存在主从关系的双机冷备份自主冗余方法 Download PDFInfo
- Publication number
- CN112650620B CN112650620B CN202011517945.2A CN202011517945A CN112650620B CN 112650620 B CN112650620 B CN 112650620B CN 202011517945 A CN202011517945 A CN 202011517945A CN 112650620 B CN112650620 B CN 112650620B
- Authority
- CN
- China
- Prior art keywords
- slave
- master
- communication
- host
- standby machine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1446—Point-in-time backing up or restoration of persistent data
- G06F11/1456—Hardware arrangements for backup
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/2053—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Hardware Redundancy (AREA)
Abstract
本发明涉及一种存在主从关系的双机冷备份自主冗余方法,用于存在主从关系的冷备份方式的计算机系统,通过双机冷备份自主冗余策略执行系统中Master和Slave的冗余备份;其中系统中Master和Slave均为主备冗余设计,Master主机/备机与Slave主机/备机均可以通讯,同时Master主机与备机通过RS422接口通讯;Master将数据一方面备份至本机的EEPROM中,另一方面通过内部通讯链路备份至Slave;所述双机冷备份自主冗余策略包括Master自检管理、Slave自检管理、Master与Slave通讯异常管理及Master初始化。本发明用于存在主从关系的冷备份方式的计算机系统,当任一计算机发生故障时,系统可以通过冗余策略实现无人干预的自主切换,同时恢复切换前的关键状态,保持系统安全可靠运行。
Description
技术领域
本发明属于计算机冗余管理技术领域,尤其涉及一种存在主从关系的双机冷备份自主冗余方法。
背景技术
为了提高系统可靠性,通常对系统中的关键部件进行冗余备份。计算机产品作为系统的信息获取、处理单元,通常会进行冗余。当系统需要长时间运行时,基于元器件寿命考虑,会采取冷备份的方式,即主机开机运行,备机关机等待。
系统中存在多个计算机时,其拓扑结构可以分为均等或主从。当系统对外接口约束为单一接口时,系统中的多个计算机一般为主从关系,即有且仅有一个计算机对外通讯,并由该计算机对系统中其他计算机进行管理。
当系统稳定性要求高、系统运行电磁环境恶劣、系统运行时间长的情况下,就必须要设计计算机的安全、可靠、无缝的冗余备份策略,避免计算机的故障导致系统安全隐患。
计算机冗余管理策略一般是上游系统或人工对其状态监测,发现异常进行主备份的开关机操作。这就需要与上游系统或人工从接口上达成一致,接口预留监测和切换的功能,计算机本身不具备自主切换的能力。
计算机主备切换或复位后,需要对关键状态进行恢复,一般是计算机将状态保存在自身断电非丢失存储器(例如PROM)中,复位后可以通过访问PROM来恢复,但发生切机时,备机无法访问直接主机的PROM,必须在主机通讯正常的情况下,通过与主机的通讯来获取关键数据,当主机彻底瘫痪或运行异常时,可能导致关键数据无法恢复或错误恢复。
发明内容
本发明的目的是提供一种存在主从关系的双机冷备份自主冗余方法,在外界不干预的情况下,系统中的多个计算机能够自主进行健康管理、冷备切换和状态恢复,提高系统的可靠性。通过对冗余切机过程的数据有效性检查、复位及切机后的初始化流程设计来确保备机能够安全、可靠的接管主机的工作。特别是对于通讯故障的情况下,对主从关系的计算机逐一排查和确认,通过冗余切换恢复通讯,恢复关键状态,并保证无故障的计算机依然处于主份工作。
本发明提供了一种存在主从关系的双机冷备份自主冗余方法,用于存在主从关系的冷备份方式的计算机系统,通过双机冷备份自主冗余策略执行系统中Master和Slave的冗余备份;其中系统中Master和Slave均为主备冗余设计,Master主机/备机与Slave主机/备机均可以通讯,同时Master主机与备机通过RS422接口通讯;Master将数据一方面备份至本机的EEPROM中,另一方面通过内部通讯链路备份至Slave;
所述双机冷备份自主冗余策略包括Master自检管理、Slave自检管理、Master与Slave通讯异常管理及Master初始化;
所述Master自检管理包括:
Master周期性对自身运行状态检查,当主机有故障发生且确认异常时,则执行切机:备机开;备机被唤醒后,获取关键数据并执行相应初始化动作,由备机将主机关闭;
所述Slave自检管理包括:
Slave周期性对自身运行状态检查,并将检查结果周期性发送给Master;同时将自身的主备机标志发往Master;Master对Slave自检结果进行检查,当有主机发生故障且确认故障时,由Master对Slave执行切机操作:Slave备机开、Slave主机关;
所述Master与Slave通讯异常管理包括:
Master周期性对通讯情况进行检查,当发现故障且确认故障时,Master自身自检无故障的情况下优先对Slave进行切机操作;切机后再对通讯情况进行确认,如果依然没有恢复,则将Slave切回主机,Master自身切换到备机;
所述Master初始化包括:
在正常情况下主机或者备机处于工作状态,主机上电后,先通过RS422串口同Slave进行通讯,并通过通讯结果和通讯内容,来确定主机的当前状态,确定主机的初始化动作,包括以下几种情况:
a.与Slave主机通讯正常,并且通讯数据表明Slave上没有Master的备份数据,则主机进行正常初始化;
b.与Slave主机通讯正常,并且通讯内容中的上电状态为真,表明Master曾经上过电,则进入复位初始化;否则进入安全初始化;
c.与Slave主机通讯错误,无法回应要数命令,或者无法获取关键数据,则主机与Slave备机进行通讯;
d.与Slave备机通讯正常,并且通讯数据表明Slave上没有Master的备份数据,则主机进行正常初始化;
e.与Slave备机通讯正常,并且通讯内容中的上电状态为真,表明Master曾经上过电,则进入复位初始化;否则进入安全初始化;
当Master备机上电时,先通过RS422串口与Slave进行通讯,获取关键数据,根据通讯结果和通讯内容来确定备机的当前状态,确定备机的初始化动作,包括以下几种情况:
a)与Slave主机通讯成功,并且获取关键数据成功,并且关键数据表明备机未上过电,则进行备机RS42初始化,即通过获取到的关键数据来初始化;
b)与Slave主机通讯失败,则转向与Slave备机进行通讯来获取关键数据,如果关键数据表明备机未上过电,则备机进行复位初始化,即通过获取到的关键数据来初始化;
c)与Slave通讯失败,则转向与Master主机进行通讯来获取关键数据,关键数据表明备机未上过电,则备机进行复位初始化,即通过获取到的关键数据来初始化;
d)与Slave通讯成功并获取到关键数据,关键数据表明备机上过电,或者与Master主机通讯成功并获取到关键数据,关键数据表明备机上过电,则进入复位初始化;
e)如果与Slave通讯失败,与Master主机通讯同样失败,则备机进入安全初始化。
2、根据权利要求1所述的存在主从关系的双机冷备份自主冗余方法,其特征在于,所述Master与Slave通讯异常管理包括通讯故障发生时Master处于主机工作时切换流程,以及通讯故障发生时Master处于备机工作时切换流程;
所述通讯故障发生时Master处于主机工作时切换流程包括:
1)确认通讯故障确实发生且持续发生,确认过程中通过重新初始化通讯配置以消除故障;如果故障已确认,则转入第2)步;
2)先判断Slave是主机还是备机,若Slave是主机,判断Master自检是否故障,如果自检存在故障,则等待其自检管理的切机流程;如果不存在自检故障,则切换Slave为备机,并转入第3)步;若Slave是备机,Master自己切换为备机,流程结束;
3)再次对通讯故障进行确认,如果恢复正常,则向Slave备份关键数据,流程结束;如果故障依然存在,则Slave切换为主机,Master自己切换为备机,流程结束;
所述通讯故障发生时Master处于备机工作时切换流程包括:
(1)先确认通讯故障确实发生,且持续发生,确认过程中通过重新初始化通讯配置以消除故障;如果故障已确认,则转入第(2)步;
(2)判断Slave是主机还是备机,若Slave是主机,且Slave未切换过,则将Slave切换到备机,并转入第(3)步;若Slave是备机,且Slave未切换过,说明Slave由于其他原因在本次流程启动之前已经切换到备机,则流程结束;
(3)再次对通讯故障进行确认,如果故障依然存在,则将Slave切换到主机,流程结束;如果故障消失,则将关键数据备份至Slave备机,流程结束。
借由上述方案,通过存在主从关系的双机冷备份自主冗余方法,用于存在主从关系的冷备份方式的计算机系统,当任一计算机发生故障时,系统可以通过冗余策略实现无人干预的自主切换,同时恢复切换前的关键状态,保持系统安全可靠运行。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例详细说明如后。
附图说明
图1是本发明中Master备机通讯故障冗余策略流程图;其中计算机每两秒执行一次该流程;
图2是本发明中Master主机通讯故障冗余策略流程图;其中计算机每两秒执行一次该流程;
图3是本发明中Master初始化流程。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本实施提供了一种存在主从关系的双机冷备份自主冗余方法,通过双机冷备份自主冗余策略执行系统中Master和Slave的冗余备份;双机冷备份自主冗余策略包括Master自检管理、Slave自检管理、Master与Slave通讯异常管理及Master初始化,具体内容如下:
1、主从关系设计
系统中有两类计算机,一个是Master,负责整个系统的对外接口,负责管理系统中其余计算机。一个是Slave,负责实现系统内部某一部分功能,并接受Master的管理,与Master通过RS422接口进行内部通讯。Master主机可以对Master备机执行开关机操作,Master可对Slave主备机执行开关机操作。
Master和Slave均为主备冗余设计,为冷备份工作模式,即主机工作,备机停机。Master主机/备机与Slave主机/备机均可以通讯。同时Master主机与备机也通过RS422接口通讯。
Master将数据一方面备份至本机的EEPROM中,另一方面通过内部通讯链路备份至Slave。双方通讯的内容包括:数据包头尾标志、校验和、关键数据、主备机标志。
2、Master自检管理
Master周期性对自身运行状态检查,当主机有故障发生且确认异常,则执行切机:备机开。备机被唤醒后,获取关键数据并执行相应初始化动作,由备机将主机关闭。
3、Slave自检管理
Slave周期性对自身运行状态检查,并将检查结果周期性发送给Master。同时发往Master的还有自身的主备机标志。Master对Slave自检结果进行检查,当有主机发生故障且确认故障,由Master对Slave执行切机操作:Slave备机开、Slave主机关。
4、Master与Slave通讯异常管理
Master与Slave的通讯对于系统来说是关键功能,如果通讯出现故障,则需要执行切机来恢复通讯功能。Master故障或Slave故障或两者之间的通讯链路故障,均有可能导致通讯故障。
通讯行为是周期性的,Master周期性对通讯情况进行检查。当发现故障且确认故障时,策略为Master自身自检无故障的情况下优先对Slave进行切机操作。切机后再对通讯情况进行确认,如果依然没有恢复,则将Slave切回主机,Master自身切换到备机。通讯情况的确认手段即有数据是否接受发送成功的判断,也有对数据内容是否有效的判断。
由于整个策略中涉及到Master的主备份切换,所以将整个策略的实现分为Master主机部分和Master备机部分。如果通讯故障发生时Master处于主机工作,则切机流程中存在将Master切机再恢复的可能;如果通讯故障发生时Master是备机的情况下,则只考虑将Slave进行主备切换。
参图1所示,通讯故障发生时Master处于主机工作时,切换流程如下:
1)确认通讯故障确实发生且持续发生,确认过程中可以通过重新初始化通讯配置来试图消除故障;如果故障已确认,则转入第2)步;
2)先判断Slave是主机还是备机。①如果Slave是主机,判断Master自检是否故障,如果自检存在故障,则等待其自检管理的切机流程。如果不存在自检故障,则切换Slave为备机,并转入第3)步;②Slave是备机,Master自己切换为备机,流程结束。
3)再次对通讯故障进行确认,如果恢复正常,则向Slave备份关键数据,流程结束。如果故障依然存在,则Slave切换为主机,Master自己切换为备机,流程结束。
参图2所示,通讯故障发生时Master处于备机工作时,切换流程如下:
1)先确认通讯故障确实发生,且持续发生,确认过程中可以通过重新初始化通讯配置来试图消除故障;如果故障已确认,则转入第2)步;
2)判断Slave是主机还是备机。①如果Slave是主机,且Slave未切换过,则将Slave切换到备机,并转入第3)步;②如果Slave是备机,且Slave未切换过,说明Slave由于其他原因再本次流程启动之前已经切换到了备机,则流程结束;
3)再次对通讯故障进行确认,如果故障依然存在,则将Slave切换到主机,流程结束;如果故障消失,则将关键数据备份至Slave备机,流程结束。
5、Master初始化流程
主备份冗余切机流程与初始化流程是紧密相关的,复位或主备机初始化后,需要获取关键数据,以恢复当前计算机系统内部参数,避免计算机冗余切机给整个系统带来影响。系统由Master来统一控制状态,所以仅为Master设计初始化状态恢复的策略。
根据初始化的结果,设计三种初始化动作。①正常初始化。即系统首次上电执行的初始化动作。②复位初始化。上电后能够获取有效正确的关键数据,通过关键数据来恢复系统状态;③安全初始化,非首次上电情况下,获取不到正确有效的关键数据,则计算机执行安全初始化,即不破坏系统状态的情况下的初始化内容。
由于Master是主备机冷冗余备份的计算机系统,在正常情况下是只有主机或者备机处于工作状态。主机上电后,先通过RS422串口同Slave进行通讯,并通过通讯结果和通讯内容,来确定主机的当前状态,确定主机的初始化动作。参图3所示,主要有以下几种情况:
a.与Slave主机通讯正常,并且通讯数据表明Slave上没有Master的备份数据,则主机进行正常初始化;
b.与Slave主机通讯正常,并且通讯内容中的上电状态为真,表明Master曾经上过电,则进入复位初始化;否则进入安全初始化;
c.与Slave主机通讯错误,无法回应要数命令,或者无法获取关键数据,则主机与Slave备机进行通讯;
d.与Slave备机通讯正常,并且通讯数据表明Slave上没有Master的备份数据,则主机进行正常初始化;
e.与Slave备机通讯正常,并且通讯内容中的上电状态为真,表明Master曾经上过电,则进入复位初始化;否则进入安全初始化;
当Master备机上电时,同样需要先通过RS422串口与Slave进行通讯,获取关键数据,根据通讯结果和通讯内容来确定备机的当前状态,确定备机的初始化动作,主要有以下几种情况:
a.与Slave主机通讯成功,并且获取关键数据成功,并且关键数据表明备机未上过电,则进行备机RS42初始化,即通过获取到的关键数据来初始化;
b.与Slave主机通讯失败,则转向与Slave备机进行通讯来获取关键数据,如果关键数据表明备机未上过电,则备机进行复位初始化,即通过获取到的关键数据来初始化;
c.与Slave通讯失败,则转向与Master主机进行通讯来获取关键数据,关键数据表明备机未上过电,则备机进行复位初始化,即通过获取到的关键数据来初始化;
d.与Slave通讯成功并获取到关键数据,关键数据表明备机上过电,或者与Master主机通讯成功并获取到关键数据,关键数据表明备机上过电,则进入复位初始化;
e.如果与Slave通讯失败,与Master主机通讯同样失败,则备机进入安全初始化。
该主从关系的双机冷备份自主冗余方法具有如下技术效果:
1、存在主从关系的双机冷备份系统中,Master对系统状态统一管理,对切机策略统一管理。
2、Master分别在本地及Slave上设计了关键数据备份,在备份和恢复关键数据的手段上实现了冗余,通过关键数据恢复状态的机制实现计算机故障情况下安全、可靠、无缝的冗余切换。
3、通过自检来获知计算机自身可检测的故障模式,通过通讯链路的周期检查来获取不可检测的故障模式,通过先Slave后Master、先主后备的切换策略,逐步对故障原因进行排除,从故障中恢复计算机系统的正常运行。排除过程中避免了误切机、多余切机,以维持系统最初的冷备份设计原则。
在一具体实施例中,计算机设备A为系统中的Master,由两个独立的计算机A1和A2组成,正常情况下A1加电工作,A2断电处于备份。计算机设备B为系统中的Slave,由两个独立的计算机B1和B2组成,正常情况下B1加电工作,B2断电处于备份。
A与B通过RS422接口通讯。其中A1和B1、B2均能通讯,A2也同样可以和B1、B2通讯;通讯的内容为系统的关键数据。
A1与A2可以通过内部的RS422通讯。关键数据定义如下:
另外两者的通讯内容还包括:B向A周期性发送其状态、A按需向B发送动作指令。
实例1
1)系统首次上电,根据冷备份原则,A和B均是主份上电,即A1和B1加电。A1执行正常初始化动作,B1接受A1的指令配合完成初始化;
2)A1有自检功能,通过自检判断自身是否存在故障,如果故障发生,并持续1分钟,则A1主机发送“A2开”指令;
3)A2开后,通过RS422从B1获取关键数据,并进行复位初始化;
4)A2初始化完成后,发送“A1关”指令,关闭A1,A2与A1完成切换;
5)A2同样进行周期自检,如果自检判断自身存在故障,由于A2已经是备份,所以系统没有动作。
实例2
1)系统首次上电,根据冷备份原则,A和B均是主份上电,即A1和B1加电。A1执行正常初始化动作,B1接受A1的指令配合完成初始化;
2)B1有自检功能,自检状态通过RS422发送给A1。A1通过自检状态判断B1是否存在故障,如果故障发生,则发送“B1关”、“B2开”指令;
3)B2同样进行周期自检,如果自检判断自身存在故障,由于B2已经是备份,所以系统没有动作。
实例3
1)系统首次上电,根据冷备份原则,A和B均是主份上电,即A1和B1加电。A1执行正常初始化动作,B1接受A1的指令配合完成初始化;
2)断开A1与B1的通讯链路,模拟通讯故障发生;
3)A1显示通讯故障计数2秒一次进行累加;
4)故障计数累加到30以后,A1发出“B1关”、“B2开”指令;
5)如果通讯恢复,故障消失,则流程结束。如果故障依然存在,则A1发出“B2关”、“B1开”、“A2开”指令;
6)A2上电后,与B1通讯,判断能否获取到有效关键数据。如果获取不到,则通过A1、A2的RS422通讯,获取有效的关键数据。A2依据关键数据来初始化自身变量,恢复系统状态;
7)A2获取到关键数据并初始化完成后,发出“A1关”指令,关闭A1。
以上所述仅是本发明的优选实施方式,并不用于限制本发明,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。
Claims (2)
1.一种存在主从关系的双机冷备份自主冗余方法,其特征在于,用于存在主从关系的冷备份方式的计算机系统,通过双机冷备份自主冗余策略执行系统中Master和Slave的冗余备份;其中系统中Master和Slave均为主备冗余设计,Master主机/备机与Slave主机/备机均可以通讯,同时Master主机与备机通过RS422接口通讯;Master将数据一方面备份至本机的EEPROM中,另一方面通过内部通讯链路备份至Slave;
所述双机冷备份自主冗余策略包括Master自检管理、Slave自检管理、Master与Slave通讯异常管理及Master初始化;
所述Master自检管理包括:
Master周期性对自身运行状态检查,当主机有故障发生且确认异常时,则执行切机:备机开;备机被唤醒后,获取关键数据并执行相应初始化动作,由备机将主机关闭;
所述Slave自检管理包括:
Slave周期性对自身运行状态检查,并将检查结果周期性发送给Master;同时将自身的主备机标志发往Master;Master对Slave自检结果进行检查,当有主机发生故障且确认故障时,由Master对Slave执行切机操作:Slave备机开、Slave主机关;
所述Master与Slave通讯异常管理包括:
Master周期性对通讯情况进行检查,当发现故障且确认故障时,Master自身自检无故障的情况下优先对Slave进行切机操作;切机后再对通讯情况进行确认,如果依然没有恢复,则将Slave切回主机,Master自身切换到备机;
所述Master初始化包括:
在正常情况下主机或者备机处于工作状态,主机上电后,先通过RS422串口同Slave进行通讯,并通过通讯结果和通讯内容,来确定主机的当前状态,确定主机的初始化动作,包括以下几种情况:
a.与Slave主机通讯正常,并且通讯数据表明Slave上没有Master的备份数据,则主机进行正常初始化;
b.与Slave主机通讯正常,并且通讯内容中的上电状态为真,表明Master曾经上过电,则进入复位初始化;否则进入安全初始化;
c.与Slave主机通讯错误,无法回应要数命令,或者无法获取关键数据,则主机与Slave备机进行通讯;
d.与Slave备机通讯正常,并且通讯数据表明Slave上没有Master的备份数据,则主机进行正常初始化;
e.与Slave备机通讯正常,并且通讯内容中的上电状态为真,表明Master曾经上过电,则进入复位初始化;否则进入安全初始化;
当Master备机上电时,先通过RS422串口与Slave进行通讯,获取关键数据,根据通讯结果和通讯内容来确定备机的当前状态,确定备机的初始化动作,包括以下几种情况:
a)与Slave主机通讯成功,并且获取关键数据成功,并且关键数据表明备机未上过电,则进行备机RS42初始化,即通过获取到的关键数据来初始化;
b)与Slave主机通讯失败,则转向与Slave备机进行通讯来获取关键数据,如果关键数据表明备机未上过电,则备机进行复位初始化,即通过获取到的关键数据来初始化;
c)与Slave通讯失败,则转向与Master主机进行通讯来获取关键数据,关键数据表明备机未上过电,则备机进行复位初始化,即通过获取到的关键数据来初始化;
d)与Slave通讯成功并获取到关键数据,关键数据表明备机上过电,或者与Master主机通讯成功并获取到关键数据,关键数据表明备机上过电,则进入复位初始化;
e)如果与Slave通讯失败,与Master主机通讯同样失败,则备机进入安全初始化。
2.根据权利要求1所述的存在主从关系的双机冷备份自主冗余方法,其特征在于,所述Master与Slave通讯异常管理包括通讯故障发生时Master处于主机工作时切换流程,以及通讯故障发生时Master处于备机工作时切换流程;
所述通讯故障发生时Master处于主机工作时切换流程包括:
1)确认通讯故障确实发生且持续发生,确认过程中通过重新初始化通讯配置以消除故障;如果故障已确认,则转入第2)步;
2)先判断Slave是主机还是备机,若Slave是主机,判断Master自检是否故障,如果自检存在故障,则等待其自检管理的切机流程;如果不存在自检故障,则切换Slave为备机,并转入第3)步;若Slave是备机,Master自己切换为备机,流程结束;
3)再次对通讯故障进行确认,如果恢复正常,则向Slave备份关键数据,流程结束;如果故障依然存在,则Slave切换为主机,Master自己切换为备机,流程结束;
所述通讯故障发生时Master处于备机工作时切换流程包括:
(1)先确认通讯故障确实发生,且持续发生,确认过程中通过重新初始化通讯配置以消除故障;如果故障已确认,则转入第(2)步;
(2)判断Slave是主机还是备机,若Slave是主机,且Slave未切换过,则将Slave切换到备机,并转入第(3)步;若Slave是备机,且Slave未切换过,说明Slave由于其他原因在本次流程启动之前已经切换到备机,则流程结束;
(3)再次对通讯故障进行确认,如果故障依然存在,则将Slave切换到主机,流程结束;如果故障消失,则将关键数据备份至Slave备机,流程结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011517945.2A CN112650620B (zh) | 2020-12-21 | 2020-12-21 | 一种存在主从关系的双机冷备份自主冗余方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011517945.2A CN112650620B (zh) | 2020-12-21 | 2020-12-21 | 一种存在主从关系的双机冷备份自主冗余方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112650620A CN112650620A (zh) | 2021-04-13 |
CN112650620B true CN112650620B (zh) | 2022-10-04 |
Family
ID=75360221
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011517945.2A Active CN112650620B (zh) | 2020-12-21 | 2020-12-21 | 一种存在主从关系的双机冷备份自主冗余方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112650620B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113810227B (zh) * | 2021-09-13 | 2024-08-20 | 阳光新能源开发股份有限公司 | 主备机切换方法和电站 |
CN114297004B (zh) * | 2021-12-31 | 2024-09-17 | 合肥同智机电控制技术有限公司 | 软件快速备份与恢复方法、系统及设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101447858B (zh) * | 2008-01-17 | 2012-01-11 | 中兴通讯股份有限公司 | 双机热备份系统中实现虚拟路由冗余协议同步倒换的方法 |
CN100555234C (zh) * | 2008-05-12 | 2009-10-28 | 北京邮电大学 | 双机冗余容错系统及其冗余切换方法 |
-
2020
- 2020-12-21 CN CN202011517945.2A patent/CN112650620B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112650620A (zh) | 2021-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7877627B1 (en) | Multiple redundant computer system combining fault diagnostics and majority voting with dissimilar redundancy technology | |
US6732300B1 (en) | Hybrid triple redundant computer system | |
US6477663B1 (en) | Method and apparatus for providing process pair protection for complex applications | |
CN112650620B (zh) | 一种存在主从关系的双机冷备份自主冗余方法 | |
TWI529624B (zh) | Method and system of fault tolerance for multiple servers | |
CN102521066A (zh) | 星载计算机空间环境事件容错方法 | |
TW454128B (en) | Shared disk type multiple system | |
CN111538624A (zh) | 一种服务器电源的维修方法、装置、设备及介质 | |
CN108847879A (zh) | 基于总线控制器的双机故障检测及恢复方法 | |
CN108737153B (zh) | 区块链灾备系统、方法、服务器和计算机可读存储介质 | |
US20140298076A1 (en) | Processing apparatus, recording medium storing processing program, and processing method | |
CN112910751A (zh) | 一种用于vpn设备的异常检测及恢复方法和装置 | |
CN101557307B (zh) | 调度自动化系统应用状态管理方法 | |
JP2008152552A (ja) | 計算機システム及び障害情報管理方法 | |
US9274909B2 (en) | Method and apparatus for error management of an integrated circuit system | |
JP3325785B2 (ja) | 計算機の故障検出・回復方式 | |
CN105391575A (zh) | 一种金库控制方法及系统 | |
JPH0736721A (ja) | 多重化コンピュータシステムの制御方式 | |
JP2015106226A (ja) | 二重化システム | |
JP3343618B2 (ja) | 端末無中断オンラインシステム | |
JP2008003646A (ja) | 不良モジュール検出方法および信号処理装置 | |
JP6364773B2 (ja) | 情報処理装置、情報処理システム、メモリレプリケーション方法、並びにコンピュータ・プログラム | |
JPH1196033A (ja) | 情報処理装置 | |
JP7403433B2 (ja) | プラント制御システムの通信装置及び通信方法 | |
CN113741248B (zh) | 一种边缘计算控制器和控制系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |