CN113220509B

CN113220509B - 一种双组合交替倒班系统及方法

Info

Publication number: CN113220509B
Application number: CN202110547603.3A
Authority: CN
Inventors: 周思远; 王玉琳; 高斌
Original assignee: Yangzhou Wanfang Technology Co ltd
Current assignee: Yangzhou Wanfang Technology Co ltd
Priority date: 2021-05-19
Filing date: 2021-05-19
Publication date: 2024-03-05
Anticipated expiration: 2041-05-19
Also published as: CN113220509A

Abstract

一种双组合交替倒班系统及方法。包括两台通过交换机通信的组合设备，所述组合设备包括两个计算模块；还包括数据管理模块、集群管理模块和倒班控制模块，所述数据管理模块用于提供数据缓存服务，以及两台组合设备的四个计算模块之间的数据同步；所述集群管理模块用于将两台组合设备中的四个计算模块构建为集群系统；所述倒班控制模块用于与集群管理模块进行交互，实现业务服务主动迁移和状态确认。本发明进一步提升信息系统稳定、可靠运行能力。

Description

一种双组合交替倒班系统及方法

技术领域

本发明涉及信息系统领域，尤其涉及一种双组合交替倒班系统及方法。

背景技术

在信息系统应用模式中，采用2台组合设备共计4个计算模块部署业务服务，提供服务能力，其中，组合设备采用VPX架构设计，由机箱、2个电源模块（双电源冗余架构）、2个计算模块（处理器：双路/龙芯3A4000,内存：16G）、2个交换模块（双交换冗余架构）组成。

在保障信息系统稳定性,避免因服务异常或计算模块发生硬件故障导致业务不可用的前提下，组合交替倒班模式是信息系统典型的应用场景，在该场景中，可关闭其中一台组合设备进行维护，只保留一台组合设备处于运行状态，提供业务服务能力。一段时间后，根据倒班策略，将完成维护的组合设备上电上线并进行业务服务迁移和数据同步后，断电下线另外一台组合设备进行维护，循环交替，提高组合设备的使用寿命，进一步提升信息系统的可靠性，在组合交替值班过程中，保障业务服务不中断。

当由倒班模式转为高效模式时，2台组合可同时工作，实现2台组合设备4个计算模块全部在线，提供最大算力，确保信息系统处于最佳状态，发挥最大化效能。面对业务服务高可用和组合交替倒班的应用需求，目前，信息系统在运行过程中存在如下问题：

1）、缺乏业务服务故障检测及恢复机制，任何一块计算模块或一台组合发生故障时，该计算模块或组合上运行的业务服务无法自动迁移，业务服务无法正常运行；

2）、缺乏数据一致性保障机制，业务服务的数据存储于计算模块本地磁盘，单个计算模块或单个组合发生故障时，缺乏数据同步机制，无法保障数据一致性；

3）、缺乏交替倒班流程控制，无法支持周期性循环关闭其中一个组合，只保留一个组合处于运行状态的应用场景，同时在整个交替倒班过程中，无法保障业务服务连续性；

4）、缺乏极限容错手段，2台组合中任意3块计算模块发生故障时，信息系统无法持续提供服务。

发明内容

本发明针对以上问题，提供了一种方便故障检测、服务迁移和数据同步，保障服务高可用性和数据一致性的双组合交替倒班系统及方法。

本发明的技术方案为：包括两台通过交换机通信的组合设备，所述组合设备包括两个计算模块；

还包括数据管理模块、集群管理模块和倒班控制模块，

所述数据管理模块用于提供数据缓存服务，以及两台组合设备的四个计算模块之间的数据同步；

所述集群管理模块用于将两台组合设备中的四个计算模块构建为集群系统；

所述倒班控制模块用于与集群管理模块进行交互，实现业务服务主动迁移和状态确认。

所述数据缓存服务采用“1主3从”模式，并由负载均衡器进行选主控制，同时负载均衡器将其产生VIP资源附着于运行主数据缓存服务的计算模块之上，以VIP方式提供数据缓存服务的对外访问入口。

所述负载均衡器采用权重优先算法赋予各个计算模块不同的权重优化级，权重优先级较高的计算模块上运行的数据缓存数据设置为主服务，其余计算模块上数据缓存服务则默认作为从服务；

若优先级较高的计算模块发生故障或进入关机状态，剩余计算模块中优先级高的计算模块成为集群系统中权重最高的节点，此时该计算模块上的负载均衡器进行升级重载操作，将VIP资源附着于该计算模块上，相应地将该计算模块上运行的数据缓存服务的配置文件中角色选项定义为“主”，并重载数据缓存服务，则该数据缓存服务变成主服务；

若主数据缓存服务所在计算模块的权重在集群系统中不是最高时，此时该计算模块上的负载均衡器进行降级重载操作，附着于该计算模块上的VIP资源发生漂移，相应地将该计算模块上的数据缓存服务的配置文件中角色选项定义为“从”，并重载数据缓存服务，则该数据缓存服务变成从服务；

若之前发生故障的优先级较高的计算模块恢复上线，则其上运行的数据缓存服务默认作为从服务加入，不会抢占当前主服务地位。

所述集群管理模块包括消息通信、集群管理及集群控制，

所述消息通信作为消息交换枢纽，用于提供进程间通信、多媒介通信、心跳超时双检测和消息缓存管理；

所述集群管理用于提供集群调度管理、本地服务管理和信息库；

所述集群控制用于提供命令分级转发和日志管理。

所述倒班控制模块包括计算代理、策略引擎和流程控制。

所述计算代理用于提供计算模块断电、上电指令接口，执行软关机命令，调用BMC子卡实现断电、上电操作；

所述策略引擎用于提供交替倒班策略，支持倒班周期设定；

所述流程控制用于提供倒班流程控制和状态检查功能。

所述流程控制根据倒班策略将业务服务主动切换到另外一台组合设备之上，确认业务服务运行正常且数据一致性后，调用计算代理发送断电指令，将本组合设备进行断电，此时只有一台组合设备处于运行状态；

当运行后，发送上电指令，将处于断电维护状态的组合设备上电，确认组合设备的计算模块上线后，将业务服务主动切换到另外一台组合设备上，确认应用运行正常且数据一致性后，发送断电指令，将组合设备进行断电，关闭组合设备，此时只有一台组合设备处于运行状态，从而达到交替倒班。

一种双组合交替倒班方法，包括以下步骤：

S1、在环境准备中，初始状态下，两台组合设备都未上电；

S2、自检状态下，两台组合设备都上电，检查各个计算模块状态；

S3、测试状态下，两台组合设备都上电，检查组合设备上的业务服务运行状态；

S4、进入倒班状态，查看业务服务运行在哪个组合设备上，业务服务所在的组合设备作为倒班组合，另一台作为值班组合；

S5、根据倒班策略进入倒班状态中，通过倒班控制模块将倒班组合上运行的业务服务迁移到值班组合上，检查业务服务所在计算模块位置是否发生变化，检查业务服务运行状态是否正常；

如果业务服务运行位置切换成功且运行状态正常，则进入下一步，否则异常退出；

S6、检查主数据缓存服务运行在哪个组合设备上，如果主数据缓存服务运行在倒班组合上，则进入S7，否则进入S8；

S7、关闭倒班组合上数据缓存服务和负载均衡器，检查值班组合中权重较高的计算模块上数据缓存服务是否已升级为主服务，如果升级成功且运行状态正常，则进入下一步，否则异常退出；

S8、向计算代理发送软关机命令，关闭倒班组合中计算模块的操作系统；

S9、向计算代理发送断电指令，调用BMC子卡执行断电操作，完成倒班组合断电；

S10、倒班组合处于离线状态，可对倒班组合进行维护，由运行在值班组合的业务服务持续提供服务能力，倒班完成；

S11、根据倒班策略，一段周期后，通过向计算代理发送上电指令，调用BMC子卡执行上电操作，实现完成维护的组合设备重新上电；

S12、组合设备中的两个计算模块开机启动并进行状态自检，确认重新上电组合的计算模块状态正常后，可进入下一轮倒班流程。

本发明的有益效果是为基于两台化组合设备构建的信息系统提供业务服务高可用性、数据一致性保障手段，在保障两台组合设备中任何1个或2个或3个计算模块发生故障时信息系统仍然能够提供服务，实现业务不中断，同时支持交替倒班应用模式，进一步提升信息系统稳定、可靠运行能力。

附图说明

图1是本发明的系统框图，

图2是组合设备的示意图，

图3是集群管理模块的框图，

图4是负载均衡器的工作原理图，

图5是本发明的方法流程图。

具体实施方式

本发明如图1-5所示，包括两台通过交换机通信的组合设备，所述组合设备包括两个计算模块；

还包括数据管理模块、集群管理模块和倒班控制模块，

其中，数据管理模块提供数据缓存和数据同步功能，由数据缓存服务和负载均衡器构成。

数据缓存服务提供数据持久化存储功能，采用“1主3从”部署模式将数据缓存服务部署于2台组合设备的4个计算模块之上，基于事务日志实现主从数据缓存服务间的数据同步。

负载均衡器采用权重优先法，提供升级重载、降级重载机制实现数据缓存服务主从切换，同时将其产生VIP资源附着于运行主数据缓存服务的计算模块上，以VIP方式提供数据缓存服务的对外访问入口，避免因数据缓存服务发生主从切换导致数据缓存服务访问入口发生变化。

集群管理模块包含消息通信、集群管理及集群控制。通过该模块将两台组合设备的四个计算模块构建为集群系统，系统内每个计算模块都与其他计算模块持续通信。

消息通信周期性将本计算模块的状态信息发送给其它计算模块，其它计算模块根据收到的状态信息来判断其活动性，从而进行计算模块及其通信链路的异常检测；

集群管理主要实现对集群配置信息的管理、集群各种状态项的管理、服务管理和监控等功能；

集群管理用于提供集群调度管理、本地服务管理和信息库；

所述集群调度管理包括组调度管理、服务器调度管理、服务调度管理、配置信息管理和脑裂处理；

所述本地服务管理包括服务监控、服务全生命周期管理和虚拟IP管理。

集群控制用于请求解析、参数校验和分级转发请求，同时以多线程方式接收各个模块产生的日志信息，并将其按照特定格式解析存储和展示。

集群系统以资源代理方式管理运行于集群系统之上业务服务，并提供与之对应的VIP资源与业务服务绑定，保障业务服务对外访问入口的稳定性。

集群系统对所有运行于集群系统上服务进行定期巡回检测，持续监视服务的运行状态并在服务异常时通知集群系统，集群系统根据调度策略，将异常服务迁移到系统内其他计算模块运行，实现业务服务故障转移和自动恢复。

集群系统支持单副本和多副本两种服务运行机制，单副本机制指的是同一时间点一个服务只能在集群系统其中一个计算模块上运行，多副本机制指的是同一时间点一个服务能够在集群系统的四个计算模块上同时运行。

倒班控制模块包含计算代理、策略引擎和流程控制。计算代理提供计算模块断电、上电指令接口，执行软关机命令，调用BMC子卡实现断电、上电操作；

策略引擎提供交替倒班策略，支持倒班周期设定；

流程控制提供倒班流程控制功能，根据倒班策略将业务服务主动切换到另外一台组合之上，确认业务服务运行正常且数据一致性后，调用计算代理发送断电指令，将本组合进行断电，此时只有一台组合处于运行状态；当运行一定时间后，发送上电指令，将处于断电维护状态的组合上电，确认组合的计算模块上线后，将业务服务主动切换到另外一台组合之上，确认应用运行正常且数据一致性后，发送断电指令，将组合进行断电，关闭组合，此时只有一台组合处于运行状态，从而达到交替倒班的效果。

在图2中组合设备含有两个计算模块（即计算模块1和计算模块2），模块的配置为CPU：2路龙芯3A4000处理器、主频1.2GHz，内存：16G，硬盘：1TB。

在图3中，集群管理模块包括消息通信、集群管理及集群控制。消息通信作为消息交换枢纽，提供进程间通信、多媒介（串口、组播等）通信、超时互检和消息缓存管理等功能；集群管理提供集群调度和本地服务管理等功能，通过维护一份信息库实现对服务配置信息和运行状态的管理和监控，支持对服务执行创建、启动、停止、监控等操作；集群控制提供命令分级转发和日志记录功能，对用户请求命令进行有效解析和分发。

在图4中负载均衡器通过权重优先算法实现数据缓存服务的主从切换，在初始阶段，权重优先级较高的计算模块上数据缓存服务被设定为主服务。

（1）当优先级较高的计算模块发生故障或进入关机状态，剩余计算模块中优先级高的计算模块成为集群系统中权重最高的节点，此时该计算模块上的负载均衡器进行升级重载操作，将VIP资源附着于该计算模块上，相应地将该计算模块上运行的数据缓存服务的配置文件中角色选项定义为“主”，并重载数据缓存服务，则该数据缓存服务变成主服务；

（2）当主数据缓存服务所在计算模块的权重在集群系统中不是最高时，此时该计算模块上的负载均衡器进行降级重载操作，附着于该计算模块上的VIP资源发生漂移，相应地将该计算模块上的数据缓存服务的配置文件中角色选项定义为“从”，并重载数据缓存服务，则该数据缓存服务变成从服务。

（3）若之前发生故障的优先级较高的计算模块恢复上线，则其上运行数据缓存服务默认作为从服务加入，不会抢占当前主服务地位。除非整个集群系统重启，重新加入集群系统的优先级较高的计算模块上数据缓存服务才能恢复成主服务。

在图1中，通过集群管理服务将两台组合设备（即组合#1和组合#2）的四个计算模块（即模块11、模块12、模块21和模块22）构建为集群系统，将数据管理模块中数据缓存服务、负载均衡器和倒班控制服务以多副本模式部署于集群系统之上，同时负载均衡器以整型数值赋予各个计算模块不同的权重优先级，在集群系统启动时，负载均衡器将权重优先级较高的计算模块上运行的数据缓存数据设置为主服务，其余计算模块上数据缓存服务则默认作为从服务，数据缓存服务基于主从集群模式实现数据同步，同时负载均衡器产生的VIP资源-VIP1附着于权重优先级较高的计算模块，为数据缓存服务提供数据读写入口。

业务服务以单副本模式部署于集群系统之上，同时由集群系统创建VIP资源-VIP2，并与业务服务进行绑定作为业务服务访问入口，业务服务通过VIP1访问数据缓存服务并将业务数据交由其进行管理，客户端通过VIP2访问业务服务。基于VIP1和VIP2保障在整个倒班流程中无需更改业务服务和客户端配置，实现倒班过程的透明化。

在图5中，基于数据一致性和服务高可用性保障进行倒班流程控制，分为环境准备和倒班状态两个阶段，过程如下：

S1、在环境准备中，初始状态下，两台组合设备都未上电；

S2、自检状态下，两台组合设备都上电，通过计算代理向BMC子卡发送上电指令，对两台组合设备执行上电操作；

检查各个计算模块状态，确保两台组合设备的四个计算模块处于正常运行状态；

S3、测试状态下，两台组合设备都上电，检查组合设备上的业务服务运行状态，确保业务服务运行正常且处于可用状态；

本发明实现了保障服务高可用性和数据一致性，并提供交替倒班流程控制，从而有效保障基于双组合构建的信息系统可靠和稳定运行，解决了因硬件发生故障导致业务中断的问题，同时支撑双组合交替进入维护模式即单组合状态下信息系统的可用性，满足信息系统的倒班应用场景。

对于本案所公开的内容，还有以下几点需要说明：

（1）、本案所公开的实施例附图只涉及到与本案所公开实施例所涉及到的结构，其他结构可参考通常设计；

（2）、在不冲突的情况下，本案所公开的实施例及实施例中的特征可以相互组合以得到新的实施例；

以上，仅为本案所公开的具体实施方式，但本公开的保护范围并不局限于此，本案所公开的保护范围应以权利要求的保护范围为准。

Claims

1.一种双组合交替倒班方法，包括两台通过交换机通信的组合设备，所述组合设备包括两个计算模块；

还包括数据管理模块、集群管理模块和倒班控制模块，

所述倒班控制模块用于与集群管理模块进行交互，实现业务服务主动迁移和状态确认；

其特征在于，

包括以下步骤：

S1、在环境准备中，初始状态下，两台组合设备都未上电；

2.根据权利要求1所述的一种双组合交替倒班方法，其特征在于，所述数据缓存服务采用“1主3从”模式，并由负载均衡器进行选主控制，同时负载均衡器将其产生VIP资源附着于运行主数据缓存服务的计算模块之上，以VIP方式提供数据缓存服务的对外访问入口。

3.根据权利要求2所述的一种双组合交替倒班方法，其特征在于，所述负载均衡器采用权重优先算法赋予各个计算模块不同的权重优化级，权重优先级较高的计算模块上运行的数据缓存数据设置为主服务，其余计算模块上数据缓存服务则默认作为从服务；

4.根据权利要求1-3中任一项所述的一种双组合交替倒班方法，其特征在于，所述集群管理模块包括消息通信、集群管理及集群控制，

所述集群控制用于提供命令分级转发和日志管理。

5.根据权利要求4所述的一种双组合交替倒班方法，其特征在于，所述倒班控制模块包括计算代理、策略引擎和流程控制；

所述策略引擎用于提供交替倒班策略，支持倒班周期设定；

所述流程控制用于提供倒班流程控制和状态检查功能。

6.根据权利要求5所述的一种双组合交替倒班方法，其特征在于，所述流程控制根据倒班策略将业务服务主动切换到另外一台组合设备之上，确认业务服务运行正常且数据一致性后，调用计算代理发送断电指令，将本组合设备进行断电，此时只有一台组合设备处于运行状态；