CN112650620B

CN112650620B - 一种存在主从关系的双机冷备份自主冗余方法

Info

Publication number: CN112650620B
Application number: CN202011517945.2A
Authority: CN
Inventors: 唐斌; 罗亚斌; 王栋; 杨京松; 张斌; 周文兴; 梁佳; 胡伟
Original assignee: 63919 Troops of PLA
Current assignee: 63919 Troops of PLA
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2022-10-04
Anticipated expiration: 2040-12-21
Also published as: CN112650620A

Abstract

本发明涉及一种存在主从关系的双机冷备份自主冗余方法，用于存在主从关系的冷备份方式的计算机系统，通过双机冷备份自主冗余策略执行系统中Master和Slave的冗余备份；其中系统中Master和Slave均为主备冗余设计，Master主机/备机与Slave主机/备机均可以通讯，同时Master主机与备机通过RS422接口通讯；Master将数据一方面备份至本机的EEPROM中，另一方面通过内部通讯链路备份至Slave；所述双机冷备份自主冗余策略包括Master自检管理、Slave自检管理、Master与Slave通讯异常管理及Master初始化。本发明用于存在主从关系的冷备份方式的计算机系统，当任一计算机发生故障时，系统可以通过冗余策略实现无人干预的自主切换，同时恢复切换前的关键状态，保持系统安全可靠运行。

Description

一种存在主从关系的双机冷备份自主冗余方法

技术领域

本发明属于计算机冗余管理技术领域，尤其涉及一种存在主从关系的双机冷备份自主冗余方法。

背景技术

为了提高系统可靠性，通常对系统中的关键部件进行冗余备份。计算机产品作为系统的信息获取、处理单元，通常会进行冗余。当系统需要长时间运行时，基于元器件寿命考虑，会采取冷备份的方式，即主机开机运行，备机关机等待。

系统中存在多个计算机时，其拓扑结构可以分为均等或主从。当系统对外接口约束为单一接口时，系统中的多个计算机一般为主从关系，即有且仅有一个计算机对外通讯，并由该计算机对系统中其他计算机进行管理。

当系统稳定性要求高、系统运行电磁环境恶劣、系统运行时间长的情况下，就必须要设计计算机的安全、可靠、无缝的冗余备份策略，避免计算机的故障导致系统安全隐患。

计算机冗余管理策略一般是上游系统或人工对其状态监测，发现异常进行主备份的开关机操作。这就需要与上游系统或人工从接口上达成一致，接口预留监测和切换的功能，计算机本身不具备自主切换的能力。

计算机主备切换或复位后，需要对关键状态进行恢复，一般是计算机将状态保存在自身断电非丢失存储器(例如PROM)中，复位后可以通过访问PROM来恢复，但发生切机时，备机无法访问直接主机的PROM，必须在主机通讯正常的情况下，通过与主机的通讯来获取关键数据，当主机彻底瘫痪或运行异常时，可能导致关键数据无法恢复或错误恢复。

发明内容

本发明的目的是提供一种存在主从关系的双机冷备份自主冗余方法，在外界不干预的情况下，系统中的多个计算机能够自主进行健康管理、冷备切换和状态恢复，提高系统的可靠性。通过对冗余切机过程的数据有效性检查、复位及切机后的初始化流程设计来确保备机能够安全、可靠的接管主机的工作。特别是对于通讯故障的情况下，对主从关系的计算机逐一排查和确认，通过冗余切换恢复通讯，恢复关键状态，并保证无故障的计算机依然处于主份工作。

本发明提供了一种存在主从关系的双机冷备份自主冗余方法，用于存在主从关系的冷备份方式的计算机系统，通过双机冷备份自主冗余策略执行系统中Master和Slave的冗余备份；其中系统中Master和Slave均为主备冗余设计，Master主机/备机与Slave主机/备机均可以通讯，同时Master主机与备机通过RS422接口通讯；Master将数据一方面备份至本机的EEPROM中，另一方面通过内部通讯链路备份至Slave；

所述双机冷备份自主冗余策略包括Master自检管理、Slave自检管理、Master与Slave通讯异常管理及Master初始化；

所述Master自检管理包括：

Master周期性对自身运行状态检查，当主机有故障发生且确认异常时，则执行切机：备机开；备机被唤醒后，获取关键数据并执行相应初始化动作，由备机将主机关闭；

所述Slave自检管理包括：

Slave周期性对自身运行状态检查，并将检查结果周期性发送给Master；同时将自身的主备机标志发往Master；Master对Slave自检结果进行检查，当有主机发生故障且确认故障时，由Master对Slave执行切机操作：Slave备机开、Slave主机关；

所述Master与Slave通讯异常管理包括：

Master周期性对通讯情况进行检查，当发现故障且确认故障时，Master自身自检无故障的情况下优先对Slave进行切机操作；切机后再对通讯情况进行确认，如果依然没有恢复，则将Slave切回主机，Master自身切换到备机；

所述Master初始化包括：

在正常情况下主机或者备机处于工作状态，主机上电后，先通过RS422串口同Slave进行通讯，并通过通讯结果和通讯内容，来确定主机的当前状态，确定主机的初始化动作，包括以下几种情况：

a.与Slave主机通讯正常，并且通讯数据表明Slave上没有Master的备份数据，则主机进行正常初始化；

b.与Slave主机通讯正常，并且通讯内容中的上电状态为真，表明Master曾经上过电，则进入复位初始化；否则进入安全初始化；

c.与Slave主机通讯错误，无法回应要数命令，或者无法获取关键数据，则主机与Slave备机进行通讯；

d.与Slave备机通讯正常，并且通讯数据表明Slave上没有Master的备份数据，则主机进行正常初始化；

e.与Slave备机通讯正常，并且通讯内容中的上电状态为真，表明Master曾经上过电，则进入复位初始化；否则进入安全初始化；

当Master备机上电时，先通过RS422串口与Slave进行通讯，获取关键数据，根据通讯结果和通讯内容来确定备机的当前状态，确定备机的初始化动作，包括以下几种情况：

a)与Slave主机通讯成功，并且获取关键数据成功，并且关键数据表明备机未上过电，则进行备机RS42初始化，即通过获取到的关键数据来初始化；

b)与Slave主机通讯失败，则转向与Slave备机进行通讯来获取关键数据，如果关键数据表明备机未上过电，则备机进行复位初始化，即通过获取到的关键数据来初始化；

c)与Slave通讯失败，则转向与Master主机进行通讯来获取关键数据，关键数据表明备机未上过电，则备机进行复位初始化，即通过获取到的关键数据来初始化；

d)与Slave通讯成功并获取到关键数据，关键数据表明备机上过电，或者与Master主机通讯成功并获取到关键数据，关键数据表明备机上过电，则进入复位初始化；

e)如果与Slave通讯失败，与Master主机通讯同样失败，则备机进入安全初始化。

2、根据权利要求1所述的存在主从关系的双机冷备份自主冗余方法，其特征在于，所述Master与Slave通讯异常管理包括通讯故障发生时Master处于主机工作时切换流程，以及通讯故障发生时Master处于备机工作时切换流程；

所述通讯故障发生时Master处于主机工作时切换流程包括：

1)确认通讯故障确实发生且持续发生，确认过程中通过重新初始化通讯配置以消除故障；如果故障已确认，则转入第2)步；

2)先判断Slave是主机还是备机，若Slave是主机，判断Master自检是否故障，如果自检存在故障，则等待其自检管理的切机流程；如果不存在自检故障，则切换Slave为备机，并转入第3)步；若Slave是备机，Master自己切换为备机，流程结束；

3)再次对通讯故障进行确认，如果恢复正常，则向Slave备份关键数据，流程结束；如果故障依然存在，则Slave切换为主机，Master自己切换为备机，流程结束；

所述通讯故障发生时Master处于备机工作时切换流程包括：

(1)先确认通讯故障确实发生，且持续发生，确认过程中通过重新初始化通讯配置以消除故障；如果故障已确认，则转入第(2)步；

(2)判断Slave是主机还是备机，若Slave是主机，且Slave未切换过，则将Slave切换到备机，并转入第(3)步；若Slave是备机，且Slave未切换过，说明Slave由于其他原因在本次流程启动之前已经切换到备机，则流程结束；

(3)再次对通讯故障进行确认，如果故障依然存在，则将Slave切换到主机，流程结束；如果故障消失，则将关键数据备份至Slave备机，流程结束。

借由上述方案，通过存在主从关系的双机冷备份自主冗余方法，用于存在主从关系的冷备份方式的计算机系统，当任一计算机发生故障时，系统可以通过冗余策略实现无人干预的自主切换，同时恢复切换前的关键状态，保持系统安全可靠运行。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例详细说明如后。

附图说明

图1是本发明中Master备机通讯故障冗余策略流程图；其中计算机每两秒执行一次该流程；

图2是本发明中Master主机通讯故障冗余策略流程图；其中计算机每两秒执行一次该流程；

图3是本发明中Master初始化流程。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

本实施提供了一种存在主从关系的双机冷备份自主冗余方法，通过双机冷备份自主冗余策略执行系统中Master和Slave的冗余备份；双机冷备份自主冗余策略包括Master自检管理、Slave自检管理、Master与Slave通讯异常管理及Master初始化，具体内容如下：

1、主从关系设计

系统中有两类计算机，一个是Master，负责整个系统的对外接口，负责管理系统中其余计算机。一个是Slave，负责实现系统内部某一部分功能，并接受Master的管理，与Master通过RS422接口进行内部通讯。Master主机可以对Master备机执行开关机操作，Master可对Slave主备机执行开关机操作。

Master和Slave均为主备冗余设计，为冷备份工作模式，即主机工作，备机停机。Master主机/备机与Slave主机/备机均可以通讯。同时Master主机与备机也通过RS422接口通讯。

Master将数据一方面备份至本机的EEPROM中，另一方面通过内部通讯链路备份至Slave。双方通讯的内容包括：数据包头尾标志、校验和、关键数据、主备机标志。

2、Master自检管理

Master周期性对自身运行状态检查，当主机有故障发生且确认异常，则执行切机：备机开。备机被唤醒后，获取关键数据并执行相应初始化动作，由备机将主机关闭。

3、Slave自检管理

Slave周期性对自身运行状态检查，并将检查结果周期性发送给Master。同时发往Master的还有自身的主备机标志。Master对Slave自检结果进行检查，当有主机发生故障且确认故障，由Master对Slave执行切机操作：Slave备机开、Slave主机关。

4、Master与Slave通讯异常管理

Master与Slave的通讯对于系统来说是关键功能，如果通讯出现故障，则需要执行切机来恢复通讯功能。Master故障或Slave故障或两者之间的通讯链路故障，均有可能导致通讯故障。

通讯行为是周期性的，Master周期性对通讯情况进行检查。当发现故障且确认故障时，策略为Master自身自检无故障的情况下优先对Slave进行切机操作。切机后再对通讯情况进行确认，如果依然没有恢复，则将Slave切回主机，Master自身切换到备机。通讯情况的确认手段即有数据是否接受发送成功的判断，也有对数据内容是否有效的判断。

由于整个策略中涉及到Master的主备份切换，所以将整个策略的实现分为Master主机部分和Master备机部分。如果通讯故障发生时Master处于主机工作，则切机流程中存在将Master切机再恢复的可能；如果通讯故障发生时Master是备机的情况下，则只考虑将Slave进行主备切换。

参图1所示，通讯故障发生时Master处于主机工作时，切换流程如下：

1)确认通讯故障确实发生且持续发生，确认过程中可以通过重新初始化通讯配置来试图消除故障；如果故障已确认，则转入第2)步；

2)先判断Slave是主机还是备机。①如果Slave是主机，判断Master自检是否故障，如果自检存在故障，则等待其自检管理的切机流程。如果不存在自检故障，则切换Slave为备机，并转入第3)步；②Slave是备机，Master自己切换为备机，流程结束。

3)再次对通讯故障进行确认，如果恢复正常，则向Slave备份关键数据，流程结束。如果故障依然存在，则Slave切换为主机，Master自己切换为备机，流程结束。

参图2所示，通讯故障发生时Master处于备机工作时，切换流程如下：

1)先确认通讯故障确实发生，且持续发生，确认过程中可以通过重新初始化通讯配置来试图消除故障；如果故障已确认，则转入第2)步；

2)判断Slave是主机还是备机。①如果Slave是主机，且Slave未切换过，则将Slave切换到备机，并转入第3)步；②如果Slave是备机，且Slave未切换过，说明Slave由于其他原因再本次流程启动之前已经切换到了备机，则流程结束；

3)再次对通讯故障进行确认，如果故障依然存在，则将Slave切换到主机，流程结束；如果故障消失，则将关键数据备份至Slave备机，流程结束。

5、Master初始化流程

主备份冗余切机流程与初始化流程是紧密相关的，复位或主备机初始化后，需要获取关键数据，以恢复当前计算机系统内部参数，避免计算机冗余切机给整个系统带来影响。系统由Master来统一控制状态，所以仅为Master设计初始化状态恢复的策略。

根据初始化的结果，设计三种初始化动作。①正常初始化。即系统首次上电执行的初始化动作。②复位初始化。上电后能够获取有效正确的关键数据，通过关键数据来恢复系统状态；③安全初始化，非首次上电情况下，获取不到正确有效的关键数据，则计算机执行安全初始化，即不破坏系统状态的情况下的初始化内容。

由于Master是主备机冷冗余备份的计算机系统，在正常情况下是只有主机或者备机处于工作状态。主机上电后，先通过RS422串口同Slave进行通讯，并通过通讯结果和通讯内容，来确定主机的当前状态，确定主机的初始化动作。参图3所示，主要有以下几种情况：

当Master备机上电时，同样需要先通过RS422串口与Slave进行通讯，获取关键数据，根据通讯结果和通讯内容来确定备机的当前状态，确定备机的初始化动作，主要有以下几种情况：

a.与Slave主机通讯成功，并且获取关键数据成功，并且关键数据表明备机未上过电，则进行备机RS42初始化，即通过获取到的关键数据来初始化；

b.与Slave主机通讯失败，则转向与Slave备机进行通讯来获取关键数据，如果关键数据表明备机未上过电，则备机进行复位初始化，即通过获取到的关键数据来初始化；

c.与Slave通讯失败，则转向与Master主机进行通讯来获取关键数据，关键数据表明备机未上过电，则备机进行复位初始化，即通过获取到的关键数据来初始化；

d.与Slave通讯成功并获取到关键数据，关键数据表明备机上过电，或者与Master主机通讯成功并获取到关键数据，关键数据表明备机上过电，则进入复位初始化；

e.如果与Slave通讯失败，与Master主机通讯同样失败，则备机进入安全初始化。

该主从关系的双机冷备份自主冗余方法具有如下技术效果：

1、存在主从关系的双机冷备份系统中，Master对系统状态统一管理，对切机策略统一管理。

2、Master分别在本地及Slave上设计了关键数据备份，在备份和恢复关键数据的手段上实现了冗余，通过关键数据恢复状态的机制实现计算机故障情况下安全、可靠、无缝的冗余切换。

3、通过自检来获知计算机自身可检测的故障模式，通过通讯链路的周期检查来获取不可检测的故障模式，通过先Slave后Master、先主后备的切换策略，逐步对故障原因进行排除，从故障中恢复计算机系统的正常运行。排除过程中避免了误切机、多余切机，以维持系统最初的冷备份设计原则。

在一具体实施例中，计算机设备A为系统中的Master，由两个独立的计算机A1和A2组成，正常情况下A1加电工作，A2断电处于备份。计算机设备B为系统中的Slave，由两个独立的计算机B1和B2组成，正常情况下B1加电工作，B2断电处于备份。

A与B通过RS422接口通讯。其中A1和B1、B2均能通讯，A2也同样可以和B1、B2通讯；通讯的内容为系统的关键数据。

A1与A2可以通过内部的RS422通讯。关键数据定义如下：

另外两者的通讯内容还包括：B向A周期性发送其状态、A按需向B发送动作指令。

实例1

1)系统首次上电，根据冷备份原则，A和B均是主份上电，即A1和B1加电。A1执行正常初始化动作，B1接受A1的指令配合完成初始化；

2)A1有自检功能，通过自检判断自身是否存在故障，如果故障发生，并持续1分钟，则A1主机发送“A2开”指令；

3)A2开后，通过RS422从B1获取关键数据，并进行复位初始化；

4)A2初始化完成后，发送“A1关”指令，关闭A1，A2与A1完成切换；

5)A2同样进行周期自检，如果自检判断自身存在故障，由于A2已经是备份，所以系统没有动作。

实例2

2)B1有自检功能，自检状态通过RS422发送给A1。A1通过自检状态判断B1是否存在故障，如果故障发生，则发送“B1关”、“B2开”指令；

3)B2同样进行周期自检，如果自检判断自身存在故障，由于B2已经是备份，所以系统没有动作。

实例3

2)断开A1与B1的通讯链路，模拟通讯故障发生；

3)A1显示通讯故障计数2秒一次进行累加；

4)故障计数累加到30以后，A1发出“B1关”、“B2开”指令；

5)如果通讯恢复，故障消失，则流程结束。如果故障依然存在，则A1发出“B2关”、“B1开”、“A2开”指令；

6)A2上电后，与B1通讯，判断能否获取到有效关键数据。如果获取不到，则通过A1、A2的RS422通讯，获取有效的关键数据。A2依据关键数据来初始化自身变量，恢复系统状态；

7)A2获取到关键数据并初始化完成后，发出“A1关”指令，关闭A1。

以上所述仅是本发明的优选实施方式，并不用于限制本发明，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.一种存在主从关系的双机冷备份自主冗余方法，其特征在于，用于存在主从关系的冷备份方式的计算机系统，通过双机冷备份自主冗余策略执行系统中Master和Slave的冗余备份；其中系统中Master和Slave均为主备冗余设计，Master主机/备机与Slave主机/备机均可以通讯，同时Master主机与备机通过RS422接口通讯；Master将数据一方面备份至本机的EEPROM中，另一方面通过内部通讯链路备份至Slave；