CN115202939A

CN115202939A - 一种核电信息系统服务器主备冗余框架管理系统及方法

Info

Publication number: CN115202939A
Application number: CN202210553050.7A
Authority: CN
Inventors: 徐奎; 景应刚; 何栓; 方华建; 朱灿; 陈将军
Original assignee: China Nuclear Power Operation Technology Corp Ltd
Current assignee: China Nuclear Power Operation Technology Corp Ltd
Priority date: 2022-05-20
Filing date: 2022-05-20
Publication date: 2022-10-18

Abstract

本发明属于核电站控制技术领域，具体涉及一种核电信息系统服务器主备冗余框架管理系统及方法。包括两个冗余管理进程，冗余管理进程配置有相同冗余管理对象，各冗余管理对象分别经由对应的线程与冗余管理进程通信连接，以实现客户端各业务逻辑与冗余管理进程之间工作状态消息汇报与控制，用于指定客户端多个业务逻辑的控制与管理，两个冗余管理进程之间分别通过心跳以及Redis通信连接，以互通信息并根据服务器的主备状态信息判断是否切换。其有益效果在于：在进行切换判断时，通过主备工作队列健康值与阈值之间、主备工作队列健康值之间的双重比较，确定当前主备进程确实不合适时，才执行切换工作，确保整个系统始终处于最佳的主用队列控制下。

Description

一种核电信息系统服务器主备冗余框架管理系统及方法

技术领域

本发明属于核电站控制技术领域，具体涉及一种核电信息系统服务器主备冗余框架管理系统及方法。

背景技术

信息系统为了保证其运行，常常使用到主备冗余技术。现在的主备冗余技术一般只是应用在控制网内。而核电厂的三层信息系统一般使用集群技术来保证服务的可靠性，集群最少需要三台以上的节点才能完成搭建对资源的要求较高。而核电站三层信息系统的数据采集网关、实时计算等服务采用热备冗余方案会更合适。

本发明主要应用在核电厂三层信息系统网络内，为了保证信息系统运行稳定，本发明采用了一种热备冗余技术保证信息系统中的关键服务器(例如：数据采集服务器、计算服务器)，以及服务器上运行的进程的可靠性。本发明采用纯软件实现，只需要普通服务以及以太网，不需要任何专用硬件支持。

发明内容

本发明的目的在于提供一种核电信息系统网络中的服务器主备冗余框架管理系统及方法，用于管理服务器上的所有进程健康状况，负责主备机切换，实现客户端业务逻辑的工作状态维护。

本发明的技术方案如下：一种核电信息系统服务器主备冗余框架管理系统，包括两个冗余管理进程，所述的冗余管理进程配置有相同冗余管理对象，所述的各冗余管理对象分别经由对应的线程与冗余管理进程通信连接，以实现客户端各业务逻辑与冗余管理进程之间工作状态消息汇报与控制，用于指定客户端多个业务逻辑的控制与管理，所述的两个冗余管理进程之间分别通过心跳以及Redis通信连接，以互通信息并根据服务器的主备状态信息判断是否切换。

还包括客户端，所述的客户端包括一个冗余管理进程以及多个业务逻辑，所述的冗余管理进程用于对应客户端中各业务逻辑的管理，通过回调函数实现，客户端的业务逻辑。

所述的客户端的业务逻辑包含注册、取消、刷新、续约、关闭等操作，实现如下功能：

(1)注册实例信息到管理进程中；

(2)发送心跳更新与管理进程的租约；

(3)在服务关闭时从管理进程中取消租约，服务下线；

(4)在健康值或状态改变时，更新注册到管理进程中的实例信息。

所述的客户端正常工作时，各业务逻辑非周期性的向冗余管理进程汇报各自的工作状态，包括业务逻辑的健康值，冗余管理进程周期性的通过对应的进程向Redis中汇报其收到的业务逻辑的工作状态。

所述的两个冗余管理进程互为主备，主用进程Master模式，备用进程Slave模式，且配置有相同冗余管理对象和业务逻辑，其与客户端之间的数据与指令交互通过Redis进行，冗余管理进程周期性将收到的各业务逻辑事件汇报至Redis，Redis收到相关数据或指令后进行存储；两个冗余管理进程分别读取Redis中各自队列中业务逻辑的状态，并通过心跳相互监听对方的工作状态健康值，以根据实际情况判断是否需要切换，当执行切换时，转换为主用进程的备用进程可直接从Redis中读取其正常工作时所需要的数据和信息。

一种核电信息系统服务器主备冗余框架管理方法，包括以下步骤：

步骤1：初始化；

步骤2：工作状态监听；

步骤3：主备切换。

所述的步骤1，开始工作时，以其中一个冗余管理进程为主用进程，主用进程工作后启动另外一个冗余管理进程作为备用进程，并建立主备进程与客户端之间的连接，客户端开始工作，包括建立心跳，同时，客户端的各冗余管理对象根据主备用标识来确定是否输出业务交互信息，主用进程输出，备用进程不输出。

所述的步骤1当主用进程启动失败或无主用进程时，备用进程启动时经过若干心跳周期时仍未发现主用进程，则备用进程自动切换为主用进程进行工作。

所述的步骤1当业务逻辑的硬件需要进行维修或者更换时，则通过外部指令人为控制，将当前主备进程强行切换，以进行业务逻辑的硬件的更换或维修操作，然后由被动切换为主用进程的进程进行工作。

所述的步骤2包括：

(a)主备进程之间状态监听，主备进程之间经由心跳信号相互监听各自工作状态，包括当前各自的实际健康值等；

(b)客户端工作状态监听，主用进程根据需求向Redis发送取消、刷新、续约、关闭、冻结指令，冗余管理对象定时读取Redis中的状态，根据指令进行响应，并产生回调函数控制其对应的业务逻辑工作。

所述的步骤2工作时，各业务逻辑主动非周期性的向对应的冗余管理对象汇报自己的实际健康值，冗余管理对象周期性的向Redis发送各自业务逻辑的工作状态，主备进程各自读取Redis中的状态，进行本列内部工作的客户端的工作状态监听，并根据实际情况执行对应的操作。

所述的步骤2主用进程监听本列内部工作的客户端的工作状态时，若本列内工作状态健康值Hs处于阈值之上，当其中一个或多个业务逻辑的心跳无法收到，则重启对应的客户端；若本列内工作状态健康值Hs处于预设值之下，进一步比较Hs和Hm的大小，若当前备机健康值低于主机，则由主机继续工作，当其中一个或多个业务逻辑心跳无法收到时，则重启对应的客户端；若备机的健康值高于主机，则主机发起切换事件，开启切换模块；

备用进程监听本列内部工作的客户端的工作状态时，用于根据实际情况，控制相应的客户端重启，或杀死该进程后重启；其中，若进程还存在但未发送心跳，若干周期后仍是该状态，则杀死后重启，若进程不存在，则直接重启，同时，其只响应主机切换事件进行切换。

所述的Hs和Hm的计算为∑实际健康值*预设权重；阈值的取值为∑默认健康值*预设权重。

所述的步骤3包括如下步骤：

步骤31：判断当前主用进程的切换前准备工作是否完成，若是，进入步骤32；

步骤32：判断当前备用进程的切换前准备工作是否完成，若是，进入步骤33；

步骤33：判断当前主用进程的切换工作是否结束，若是，进入步骤34；

步骤34：判断当前备用进程的切换工作是否结束，当上述四个步骤均执行完毕，则判断切换工作完成。

所述的步骤3包括主备切换工作正式之前，还包括是否确认切换的判断步骤：首先判断切换空参数是否为空，若不是，则判断需要进行切换，进一步判断切换参数是否存在异常，若处于正常状态，则锁定当前状态5分钟后，若无调整，则通知系统开始切换，以进一步提高整个系统的工作可靠性与稳定性。

本发明的有益效果在于：两个冗余管理进程互为主备，且配置有相同冗余管理对象，其与客户端之间的数据与指令交互通过Redis进行，冗余管理进程周期性将收到的各业务逻辑事件汇报至Redis，Redis收到相关数据或指令后进行存储；两个冗余管理进程分别读取Redis中各自队列中业务进程的状态，并通过心跳相互监听对方的工作状态健康值，以根据实际情况判断是否需要切换，避免宕机或断电现象的出现导致的业务逻辑无法正常工作情形的发生，可有效保证电厂侧业务是顺利执行。

在进行切换判断时，通过主备工作队列健康值与阈值之间、主备工作队列健康值之间的双重比较，确定当前主备进程确实不合适时，才执行切换工作，确保整个系统始终处于最佳的主用队列控制下。

在进行切换时，先执行主备进程的切换准备工作完成后，在执行主备进程切换完毕的确认工作，当四个状态都确认后，才确认切换进程执行完毕，可有效保证切换工作的顺利进行。

附图说明

图1为系统总体架构示意图；

图2为进程管理流程示意图；

图3为切换事件流程示意图；

图4为业务逻辑工作流程示意图。

具体实施方式

下面结合具体实施例对本发明作进一步详细说明。

本发明所提供的一种核电信息系统服务器主备冗余框架管理系统，包括：配置有相同冗余管理对象的两个冗余管理进程(A列、B列)，各冗余管理对象分别经由对应的线程与冗余管理进程通信连接，以实现客户端各业务逻辑与冗余管理进程之间工作状态消息汇报与控制，用于指定客户端多个业务逻辑的控制与管理，所述的两个冗余管理进程之间分别通过心跳以及Redis通信连接，以互通信息并根据服务器的主备状态信息判断是否切换。

其中，每个客户端(服务器上所有的需要通过热备冗余策略保证其可靠性的服务进程)包括一冗余管理进程以及多个业务逻辑，冗余管理进程用于对应客户端中各业务逻辑的管理，可通过回调函数实现，客户端的业务逻辑包含注册(主动进行)、取消、刷新、续约、关闭(接收冗余服务端的指令后执行)等操作，实现如下功能：

(1)注册实例信息到管理进程中；

(2)发送心跳更新与管理进程的租约；

(3)在服务关闭时从管理进程中取消租约，服务下线；

客户端正常工作时，各业务逻辑非周期性的向冗余管理进程汇报各自的工作状态，包括业务逻辑的健康值，冗余管理进程周期性的通过对应的进程向Redis中汇报其收到的业务逻辑的工作状态。

两个冗余管理进程互为主备(主用进程Master模式，备用进程Slave模式)，且配置有相同冗余管理对象和业务逻辑，其与客户端之间的数据与指令交互通过Redis进行，冗余管理进程周期性将收到的各业务逻辑事件汇报至Redis，Redis收到相关数据或指令后进行存储；两个冗余管理进程分别读取Redis中各自队列中业务逻辑的状态，并通过心跳相互监听对方的工作状态健康值，以根据实际情况判断是否需要切换，当执行切换时，转换为主用进程的备用进程可直接从Redis中读取其正常工作时所需要的数据和信息(转换前各业务逻辑的工作状态和工作数据)，有效避免宕机或断电现象的出现。

其中，除Redis之外，还可使用其他分布式数据库实现两个冗余管理进程与冗余管理对象之间的通信。

对应上述结构，一种核电信息系统服务器主备冗余框架管理方法，包括以下步骤：

步骤1：初始化

如图2所示，开始工作时，以其中一个冗余管理进程为主用进程(可人为设置，也可由系统任意选定)，主用进程工作后启动另外一个冗余管理进程作为备用进程，并建立主备进程与客户端之间的连接(建立脚本，将客户端的各个业务逻辑拉起)，客户端开始工作，包括建立心跳，同时，客户端的各冗余管理对象根据主备用标识来确定是否输出业务交互信息，主用进程输出，备用进程不输出。

此外，对于一些特殊情况，初始化的工作流程：

(a)当主用进程启动失败或无主用进程时，备用进程启动时经过若干心跳周期时仍未发现主用进程，则备用进程自动切换为主用进程进行工作；

(b)当业务逻辑的硬件需要进行维修或者更换时，则通过外部指令人为控制，将当前主备进程强行切换，以进行业务逻辑的硬件的更换或维修操作，然后由被动切换为主用进程的进程进行工作。

步骤2：工作状态监听

(b)客户端工作状态监听

主用进程根据需求向Redis发送取消、刷新、续约、关闭、冻结指令，冗余管理对象定时读取Redis中的状态，根据指令进行响应，并产生回调函数控制其对应的业务逻辑工作。

工作时，各业务逻辑主动非周期性的向对应的冗余管理对象汇报自己的实际健康值，冗余管理对象周期性(通过心跳)的向Redis发送各自业务逻辑的工作状态，主备进程各自读取Redis中的状态，进行本列内部工作的客户端的工作状态监听，并根据实际情况执行对应的操作。

主用进程监听本列内部工作的客户端的工作状态时，若本列内工作状态健康值Hs处于阈值之上，当其中一个或多个业务逻辑的心跳无法收到，则重启对应的客户端(根据实际情况，控制相应的客户端重启，或杀死该进程后重启；其中，若进程还存在但未发送心跳，若干周期后仍是该状态，则杀死后重启，若进程不存在，则直接重启)；若本列内工作状态健康值Hs处于预设值之下，进一步比较Hs和Hm(处于“主”状态节点的健康值)的大小，若当前备机健康值低于主机，则由主机继续工作，当其中一个或多个业务逻辑心跳无法收到时，则重启对应的客户端(根据实际情况，控制相应的客户端重启，或杀死该进程后重启；其中，若进程还存在但未发送心跳，若干周期后仍是该状态，则杀死后重启，若进程不存在，则直接重启)；若备机的健康值高于主机，则主机发起切换事件，开启切换模块；

备用进程监听本列内部工作的客户端的工作状态时，用于根据实际情况，控制相应的客户端重启，或杀死该进程后重启；其中，若进程还存在但未发送心跳，若干周期后仍是该状态，则杀死后重启，若进程不存在，则直接重启。同时，其只响应主机切换事件进行切换。

更进一步的，上述Hs和Hm的计算为∑实际健康值*预设权重；阈值的取值为∑默认健康值*预设权重。

步骤3：主备切换

如图3所示，主备切换包括如下步骤：

步骤31：判断当前主用进程的切换前准备工作是否完成，若是进入步骤32；

步骤32：判断当前备用进程的切换前准备工作是否完成，若是进入步骤33；

步骤33：判断当前主用进程的切换工作是否结束，若是进入步骤34；

在正式执行切换工作前，当前的主用进程需要释放权限，主用进程通过回调函数告知客户端监切换事件，客户端可在其实现的回调函数中实现切换前的必要准备(例如：释放资源、数据备份等)，当所有客户端完成其回调函数的调用后，若所有回调函数返回正常，则认定为切换准备正常，再进行实际切换工作。若切换准备异常，则重新评估本列内工作状态的健康值，回到切换前的工作状态，由原来的主用行程继续工作；

当执行切换时，转换为主用进程的备用进程可直接从Redis中读取其正常工作时所需要的数据和信息(转换前各业务逻辑的工作状态和工作数据)。

更进一步的，主备切换工作正式之前，还包括是否确认切换的判断步骤：首先判断切换空参数是否为空，若不是，则判断需要进行切换，进一步判断切换参数是否存在异常，若处于正常状态，则锁定当前状态5分钟后，若无调整，则通知系统开始切换，以进一步提高整个系统的工作可靠性与稳定性。

图4为业务工作流程示意图，以下以Client A为例，当Client A上的节点需要进行注册时，依照步骤1/2/3/5完成其在主用进程上的注册工作，然后系统分别转入步骤4/5(执行步骤2中的客户端工作状态监听)和步骤6、7(执行步骤2中的主备进程之间的监听)；

步骤4中，冗余管理服务A通过心跳协议，获取Client A的进程是否存活的状态。如果Client A存活则不做任何事。反之若Client A进程不再存活时，则转入步骤5，即自动重启Client A进程。

若执行步骤2时判断需要进行主备切换，以下以Client B为例说明，当执行步骤14判断需要切换时，依次执行步骤8将本主机的状态设为待切换状态，继而步骤9内各个服务进程通过redis获取切换请求，当切换条件满足的时候则开始调用回调函数保存现场做切换的准备即步骤10，在各主机完成所有切换转态后执行13调用回调函数结束切换过程，最后执行步骤15清理缓存以完成对应的切换。

Claims

1.一种核电信息系统服务器主备冗余框架管理系统，其特征在于：包括两个冗余管理进程，所述的冗余管理进程配置有相同冗余管理对象，所述的各冗余管理对象分别经由对应的线程与冗余管理进程通信连接，以实现客户端各业务逻辑与冗余管理进程之间工作状态消息汇报与控制，用于指定客户端多个业务逻辑的控制与管理，所述的两个冗余管理进程之间分别通过心跳以及Redis通信连接，以互通信息并根据服务器的主备状态信息判断是否切换。

2.如权利要求1所述的一种核电信息系统服务器主备冗余框架管理系统，其特征在于：还包括客户端，所述的客户端包括一冗余管理进程以及多个业务逻辑，所述的冗余管理进程用于对应客户端中各业务逻辑的管理，通过回调函数实现，客户端的业务逻辑。

3.如权利要求2所述的一种核电信息系统服务器主备冗余框架管理系统，其特征在于：所述的客户端的业务逻辑包含注册、取消、刷新、续约、关闭等操作，实现如下功能：

(1)注册实例信息到管理进程中；

(2)发送心跳更新与管理进程的租约；

(3)在服务关闭时从管理进程中取消租约，服务下线；

4.如权利要求2所述的一种核电信息系统服务器主备冗余框架管理系统，其特征在于：所述的客户端正常工作时，各业务逻辑非周期性的向冗余管理进程汇报各自的工作状态，包括业务逻辑的健康值，冗余管理进程周期性的通过对应的进程向Redis中汇报其收到的业务逻辑的工作状态。

5.如权利要求1所述的一种核电信息系统服务器主备冗余框架管理系统，其特征在于：所述的两个冗余管理进程互为主备，主用进程Master模式，备用进程Slave模式，且配置有相同冗余管理对象和业务逻辑，其与客户端之间的数据与指令交互通过Redis进行，冗余管理进程周期性将收到的各业务逻辑事件汇报至Redis，Redis收到相关数据或指令后进行存储；两个冗余管理进程分别读取Redis中各自队列中业务逻辑的状态，并通过心跳相互监听对方的工作状态健康值，以根据实际情况判断是否需要切换，当执行切换时，转换为主用进程的备用进程可直接从Redis中读取其正常工作时所需要的数据和信息。

6.一种核电信息系统服务器主备冗余框架管理方法，其特征在于，包括以下步骤：

步骤1：初始化；

步骤2：工作状态监听；

步骤3：主备切换。

7.如权利要求6所述的一种核电信息系统服务器主备冗余框架管理方法，其特征在于：所述的步骤1，开始工作时，以其中一个冗余管理进程为主用进程，主用进程工作后启动另外一个冗余管理进程作为备用进程，并建立主备进程与客户端之间的连接，客户端开始工作，包括建立心跳，同时，客户端的各冗余管理对象根据主备用标识来确定是否输出业务交互信息，主用进程输出，备用进程不输出。

8.如权利要求7所述的一种核电信息系统服务器主备冗余框架管理方法，其特征在于：所述的步骤1当主用进程启动失败或无主用进程时，备用进程启动时经过若干心跳周期时仍未发现主用进程，则备用进程自动切换为主用进程进行工作。

9.如权利要求7所述的一种核电信息系统服务器主备冗余框架管理方法，其特征在于：所述的步骤1当业务逻辑的硬件需要进行维修或者更换时，则通过外部指令人为控制，将当前主备进程强行切换，以进行业务逻辑的硬件的更换或维修操作，然后由被动切换为主用进程的进程进行工作。

10.如权利要求6所述的一种核电信息系统服务器主备冗余框架管理方法，其特征在于，所述的步骤2包括：

11.如权利要求10所述的一种核电信息系统服务器主备冗余框架管理方法，其特征在于：所述的步骤2工作时，各业务逻辑主动非周期性的向对应的冗余管理对象汇报自己的实际健康值，冗余管理对象周期性的向Redis发送各自业务逻辑的工作状态，主备进程各自读取Redis中的状态，进行本列内部工作的客户端的工作状态监听，并根据实际情况执行对应的操作。

12.如权利要求10所述的一种核电信息系统服务器主备冗余框架管理方法，其特征在于：所述的步骤2主用进程监听本列内部工作的客户端的工作状态时，若本列内工作状态健康值Hs处于阈值之上，当其中一个或多个业务逻辑的心跳无法收到，则重启对应的客户端；若本列内工作状态健康值Hs处于预设值之下，进一步比较Hs和Hm的大小，若当前备机健康值低于主机，则由主机继续工作，当其中一个或多个业务逻辑心跳无法收到时，则重启对应的客户端；若备机的健康值高于主机，则主机发起切换事件，开启切换模块；

13.如权利要求12所述的一种核电信息系统服务器主备冗余框架管理方法，其特征在于：所述的Hs和Hm的计算为∑实际健康值*预设权重；阈值的取值为∑默认健康值*预设权重。

14.如权利要求10所述的一种核电信息系统服务器主备冗余框架管理方法，其特征在于，所述的步骤3包括如下步骤：

15.如权利要求14所述的一种核电信息系统服务器主备冗余框架管理方法，其特征在于，所述的步骤3包括主备切换工作正式之前，还包括是否确认切换的判断步骤：首先判断切换空参数是否为空，若不是，则判断需要进行切换，进一步判断切换参数是否存在异常，若处于正常状态，则锁定当前状态5分钟后，若无调整，则通知系统开始切换，以进一步提高整个系统的工作可靠性与稳定性。