CN113220509B - 一种双组合交替倒班系统及方法 - Google Patents
一种双组合交替倒班系统及方法 Download PDFInfo
- Publication number
- CN113220509B CN113220509B CN202110547603.3A CN202110547603A CN113220509B CN 113220509 B CN113220509 B CN 113220509B CN 202110547603 A CN202110547603 A CN 202110547603A CN 113220509 B CN113220509 B CN 113220509B
- Authority
- CN
- China
- Prior art keywords
- service
- shift
- combination
- module
- computing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000007726 management method Methods 0.000 claims abstract description 46
- 238000013523 data management Methods 0.000 claims abstract description 9
- 238000013508 migration Methods 0.000 claims abstract description 5
- 230000005012 migration Effects 0.000 claims abstract description 5
- 238000012790 confirmation Methods 0.000 claims abstract description 3
- 238000004364 calculation method Methods 0.000 claims description 29
- 238000004891 communication Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 7
- 238000012423 maintenance Methods 0.000 claims description 7
- 230000009977 dual effect Effects 0.000 claims description 4
- 230000015556 catabolic process Effects 0.000 claims description 3
- 238000006731 degradation reaction Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 description 7
- 238000012544 monitoring process Methods 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 101000953492 Homo sapiens Inositol hexakisphosphate and diphosphoinositol-pentakisphosphate kinase 1 Proteins 0.000 description 2
- 102100037739 Inositol hexakisphosphate and diphosphoinositol-pentakisphosphate kinase 1 Human genes 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 208000010392 Bone Fractures Diseases 0.000 description 1
- 206010017076 Fracture Diseases 0.000 description 1
- 101000953488 Homo sapiens Inositol hexakisphosphate and diphosphoinositol-pentakisphosphate kinase 2 Proteins 0.000 description 1
- 102100037736 Inositol hexakisphosphate and diphosphoinositol-pentakisphosphate kinase 2 Human genes 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2041—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with more than one idle spare processing component
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/2053—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
- G06F11/2056—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring
- G06F11/2082—Data synchronisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5083—Techniques for rebalancing the load in a distributed system
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Hardware Redundancy (AREA)
Abstract
一种双组合交替倒班系统及方法。包括两台通过交换机通信的组合设备,所述组合设备包括两个计算模块;还包括数据管理模块、集群管理模块和倒班控制模块,所述数据管理模块用于提供数据缓存服务,以及两台组合设备的四个计算模块之间的数据同步;所述集群管理模块用于将两台组合设备中的四个计算模块构建为集群系统;所述倒班控制模块用于与集群管理模块进行交互,实现业务服务主动迁移和状态确认。本发明进一步提升信息系统稳定、可靠运行能力。
Description
技术领域
本发明涉及信息系统领域,尤其涉及一种双组合交替倒班系统及方法。
背景技术
在信息系统应用模式中,采用2台组合设备共计4个计算模块部署业务服务,提供服务能力,其中,组合设备采用VPX架构设计,由机箱、2个电源模块(双电源冗余架构)、2个计算模块(处理器:双路/龙芯3A4000,内存:16G)、2个交换模块(双交换冗余架构)组成。
在保障信息系统稳定性,避免因服务异常或计算模块发生硬件故障导致业务不可用的前提下,组合交替倒班模式是信息系统典型的应用场景,在该场景中,可关闭其中一台组合设备进行维护,只保留一台组合设备处于运行状态,提供业务服务能力。一段时间后,根据倒班策略,将完成维护的组合设备上电上线并进行业务服务迁移和数据同步后,断电下线另外一台组合设备进行维护,循环交替,提高组合设备的使用寿命,进一步提升信息系统的可靠性,在组合交替值班过程中,保障业务服务不中断。
当由倒班模式转为高效模式时,2台组合可同时工作,实现2台组合设备4个计算模块全部在线,提供最大算力,确保信息系统处于最佳状态,发挥最大化效能。面对业务服务高可用和组合交替倒班的应用需求,目前,信息系统在运行过程中存在如下问题:
1)、缺乏业务服务故障检测及恢复机制,任何一块计算模块或一台组合发生故障时,该计算模块或组合上运行的业务服务无法自动迁移,业务服务无法正常运行;
2)、缺乏数据一致性保障机制,业务服务的数据存储于计算模块本地磁盘,单个计算模块或单个组合发生故障时,缺乏数据同步机制,无法保障数据一致性;
3)、缺乏交替倒班流程控制,无法支持周期性循环关闭其中一个组合,只保留一个组合处于运行状态的应用场景,同时在整个交替倒班过程中,无法保障业务服务连续性;
4)、缺乏极限容错手段,2台组合中任意3块计算模块发生故障时,信息系统无法持续提供服务。
发明内容
本发明针对以上问题,提供了一种方便故障检测、服务迁移和数据同步,保障服务高可用性和数据一致性的双组合交替倒班系统及方法。
本发明的技术方案为:包括两台通过交换机通信的组合设备,所述组合设备包括两个计算模块;
还包括数据管理模块、集群管理模块和倒班控制模块,
所述数据管理模块用于提供数据缓存服务,以及两台组合设备的四个计算模块之间的数据同步;
所述集群管理模块用于将两台组合设备中的四个计算模块构建为集群系统;
所述倒班控制模块用于与集群管理模块进行交互,实现业务服务主动迁移和状态确认。
所述数据缓存服务采用“1主3从”模式,并由负载均衡器进行选主控制,同时负载均衡器将其产生VIP资源附着于运行主数据缓存服务的计算模块之上,以VIP方式提供数据缓存服务的对外访问入口。
所述负载均衡器采用权重优先算法赋予各个计算模块不同的权重优化级,权重优先级较高的计算模块上运行的数据缓存数据设置为主服务,其余计算模块上数据缓存服务则默认作为从服务;
若优先级较高的计算模块发生故障或进入关机状态,剩余计算模块中优先级高的计算模块成为集群系统中权重最高的节点,此时该计算模块上的负载均衡器进行升级重载操作,将VIP资源附着于该计算模块上,相应地将该计算模块上运行的数据缓存服务的配置文件中角色选项定义为“主”,并重载数据缓存服务,则该数据缓存服务变成主服务;
若主数据缓存服务所在计算模块的权重在集群系统中不是最高时,此时该计算模块上的负载均衡器进行降级重载操作,附着于该计算模块上的VIP资源发生漂移,相应地将该计算模块上的数据缓存服务的配置文件中角色选项定义为“从”,并重载数据缓存服务,则该数据缓存服务变成从服务;
若之前发生故障的优先级较高的计算模块恢复上线,则其上运行的数据缓存服务默认作为从服务加入,不会抢占当前主服务地位。
所述集群管理模块包括消息通信、集群管理及集群控制,
所述消息通信作为消息交换枢纽,用于提供进程间通信、多媒介通信、心跳超时双检测和消息缓存管理;
所述集群管理用于提供集群调度管理、本地服务管理和信息库;
所述集群控制用于提供命令分级转发和日志管理。
所述倒班控制模块包括计算代理、策略引擎和流程控制。
所述计算代理用于提供计算模块断电、上电指令接口,执行软关机命令,调用BMC子卡实现断电、上电操作;
所述策略引擎用于提供交替倒班策略,支持倒班周期设定;
所述流程控制用于提供倒班流程控制和状态检查功能。
所述流程控制根据倒班策略将业务服务主动切换到另外一台组合设备之上,确认业务服务运行正常且数据一致性后,调用计算代理发送断电指令,将本组合设备进行断电,此时只有一台组合设备处于运行状态;
当运行后,发送上电指令,将处于断电维护状态的组合设备上电,确认组合设备的计算模块上线后,将业务服务主动切换到另外一台组合设备上,确认应用运行正常且数据一致性后,发送断电指令,将组合设备进行断电,关闭组合设备,此时只有一台组合设备处于运行状态,从而达到交替倒班。
一种双组合交替倒班方法,包括以下步骤:
S1、在环境准备中,初始状态下,两台组合设备都未上电;
S2、自检状态下,两台组合设备都上电,检查各个计算模块状态;
S3、测试状态下,两台组合设备都上电,检查组合设备上的业务服务运行状态;
S4、进入倒班状态,查看业务服务运行在哪个组合设备上,业务服务所在的组合设备作为倒班组合,另一台作为值班组合;
S5、根据倒班策略进入倒班状态中,通过倒班控制模块将倒班组合上运行的业务服务迁移到值班组合上,检查业务服务所在计算模块位置是否发生变化,检查业务服务运行状态是否正常;
如果业务服务运行位置切换成功且运行状态正常,则进入下一步,否则异常退出;
S6、检查主数据缓存服务运行在哪个组合设备上,如果主数据缓存服务运行在倒班组合上,则进入S7,否则进入S8;
S7、关闭倒班组合上数据缓存服务和负载均衡器,检查值班组合中权重较高的计算模块上数据缓存服务是否已升级为主服务,如果升级成功且运行状态正常,则进入下一步,否则异常退出;
S8、向计算代理发送软关机命令,关闭倒班组合中计算模块的操作系统;
S9、向计算代理发送断电指令,调用BMC子卡执行断电操作,完成倒班组合断电;
S10、倒班组合处于离线状态,可对倒班组合进行维护,由运行在值班组合的业务服务持续提供服务能力,倒班完成;
S11、根据倒班策略,一段周期后,通过向计算代理发送上电指令,调用BMC子卡执行上电操作,实现完成维护的组合设备重新上电;
S12、组合设备中的两个计算模块开机启动并进行状态自检,确认重新上电组合的计算模块状态正常后,可进入下一轮倒班流程。
本发明的有益效果是为基于两台化组合设备构建的信息系统提供业务服务高可用性、数据一致性保障手段,在保障两台组合设备中任何1个或2个或3个计算模块发生故障时信息系统仍然能够提供服务,实现业务不中断,同时支持交替倒班应用模式,进一步提升信息系统稳定、可靠运行能力。
附图说明
图1是本发明的系统框图,
图2是组合设备的示意图,
图3是集群管理模块的框图,
图4是负载均衡器的工作原理图,
图5是本发明的方法流程图。
具体实施方式
本发明如图1-5所示,包括两台通过交换机通信的组合设备,所述组合设备包括两个计算模块;
还包括数据管理模块、集群管理模块和倒班控制模块,
其中,数据管理模块提供数据缓存和数据同步功能,由数据缓存服务和负载均衡器构成。
数据缓存服务提供数据持久化存储功能,采用“1主3从”部署模式将数据缓存服务部署于2台组合设备的4个计算模块之上,基于事务日志实现主从数据缓存服务间的数据同步。
负载均衡器采用权重优先法,提供升级重载、降级重载机制实现数据缓存服务主从切换,同时将其产生VIP资源附着于运行主数据缓存服务的计算模块上,以VIP方式提供数据缓存服务的对外访问入口,避免因数据缓存服务发生主从切换导致数据缓存服务访问入口发生变化。
集群管理模块包含消息通信、集群管理及集群控制。通过该模块将两台组合设备的四个计算模块构建为集群系统,系统内每个计算模块都与其他计算模块持续通信。
消息通信周期性将本计算模块的状态信息发送给其它计算模块,其它计算模块根据收到的状态信息来判断其活动性,从而进行计算模块及其通信链路的异常检测;
集群管理主要实现对集群配置信息的管理、集群各种状态项的管理、服务管理和监控等功能;
集群管理用于提供集群调度管理、本地服务管理和信息库;
所述集群调度管理包括组调度管理、服务器调度管理、服务调度管理、配置信息管理和脑裂处理;
所述本地服务管理包括服务监控、服务全生命周期管理和虚拟IP管理。
集群控制用于请求解析、参数校验和分级转发请求,同时以多线程方式接收各个模块产生的日志信息,并将其按照特定格式解析存储和展示。
集群系统以资源代理方式管理运行于集群系统之上业务服务,并提供与之对应的VIP资源与业务服务绑定,保障业务服务对外访问入口的稳定性。
集群系统对所有运行于集群系统上服务进行定期巡回检测,持续监视服务的运行状态并在服务异常时通知集群系统,集群系统根据调度策略,将异常服务迁移到系统内其他计算模块运行,实现业务服务故障转移和自动恢复。
集群系统支持单副本和多副本两种服务运行机制,单副本机制指的是同一时间点一个服务只能在集群系统其中一个计算模块上运行,多副本机制指的是同一时间点一个服务能够在集群系统的四个计算模块上同时运行。
倒班控制模块包含计算代理、策略引擎和流程控制。计算代理提供计算模块断电、上电指令接口,执行软关机命令,调用BMC子卡实现断电、上电操作;
策略引擎提供交替倒班策略,支持倒班周期设定;
流程控制提供倒班流程控制功能,根据倒班策略将业务服务主动切换到另外一台组合之上,确认业务服务运行正常且数据一致性后,调用计算代理发送断电指令,将本组合进行断电,此时只有一台组合处于运行状态;当运行一定时间后,发送上电指令,将处于断电维护状态的组合上电,确认组合的计算模块上线后,将业务服务主动切换到另外一台组合之上,确认应用运行正常且数据一致性后,发送断电指令,将组合进行断电,关闭组合,此时只有一台组合处于运行状态,从而达到交替倒班的效果。
在图2中组合设备含有两个计算模块(即计算模块1和计算模块2),模块的配置为CPU:2路龙芯3A4000处理器、主频1.2GHz,内存:16G,硬盘:1TB。
在图3中,集群管理模块包括消息通信、集群管理及集群控制。消息通信作为消息交换枢纽,提供进程间通信、多媒介(串口、组播等)通信、超时互检和消息缓存管理等功能;集群管理提供集群调度和本地服务管理等功能,通过维护一份信息库实现对服务配置信息和运行状态的管理和监控,支持对服务执行创建、启动、停止、监控等操作;集群控制提供命令分级转发和日志记录功能,对用户请求命令进行有效解析和分发。
在图4中负载均衡器通过权重优先算法实现数据缓存服务的主从切换,在初始阶段,权重优先级较高的计算模块上数据缓存服务被设定为主服务。
(1)当优先级较高的计算模块发生故障或进入关机状态,剩余计算模块中优先级高的计算模块成为集群系统中权重最高的节点,此时该计算模块上的负载均衡器进行升级重载操作,将VIP资源附着于该计算模块上,相应地将该计算模块上运行的数据缓存服务的配置文件中角色选项定义为“主”,并重载数据缓存服务,则该数据缓存服务变成主服务;
(2)当主数据缓存服务所在计算模块的权重在集群系统中不是最高时,此时该计算模块上的负载均衡器进行降级重载操作,附着于该计算模块上的VIP资源发生漂移,相应地将该计算模块上的数据缓存服务的配置文件中角色选项定义为“从”,并重载数据缓存服务,则该数据缓存服务变成从服务。
(3)若之前发生故障的优先级较高的计算模块恢复上线,则其上运行数据缓存服务默认作为从服务加入,不会抢占当前主服务地位。除非整个集群系统重启,重新加入集群系统的优先级较高的计算模块上数据缓存服务才能恢复成主服务。
在图1中,通过集群管理服务将两台组合设备(即组合#1和组合#2)的四个计算模块(即模块11、模块12、模块21和模块22)构建为集群系统,将数据管理模块中数据缓存服务、负载均衡器和倒班控制服务以多副本模式部署于集群系统之上,同时负载均衡器以整型数值赋予各个计算模块不同的权重优先级,在集群系统启动时,负载均衡器将权重优先级较高的计算模块上运行的数据缓存数据设置为主服务,其余计算模块上数据缓存服务则默认作为从服务,数据缓存服务基于主从集群模式实现数据同步,同时负载均衡器产生的VIP资源-VIP1附着于权重优先级较高的计算模块,为数据缓存服务提供数据读写入口。
业务服务以单副本模式部署于集群系统之上,同时由集群系统创建VIP资源-VIP2,并与业务服务进行绑定作为业务服务访问入口,业务服务通过VIP1访问数据缓存服务并将业务数据交由其进行管理,客户端通过VIP2访问业务服务。基于VIP1和VIP2保障在整个倒班流程中无需更改业务服务和客户端配置,实现倒班过程的透明化。
在图5中,基于数据一致性和服务高可用性保障进行倒班流程控制,分为环境准备和倒班状态两个阶段,过程如下:
S1、在环境准备中,初始状态下,两台组合设备都未上电;
S2、自检状态下,两台组合设备都上电,通过计算代理向BMC子卡发送上电指令,对两台组合设备执行上电操作;
检查各个计算模块状态,确保两台组合设备的四个计算模块处于正常运行状态;
S3、测试状态下,两台组合设备都上电,检查组合设备上的业务服务运行状态,确保业务服务运行正常且处于可用状态;
S4、进入倒班状态,查看业务服务运行在哪个组合设备上,业务服务所在的组合设备作为倒班组合,另一台作为值班组合;
S5、根据倒班策略进入倒班状态中,通过倒班控制模块将倒班组合上运行的业务服务迁移到值班组合上,检查业务服务所在计算模块位置是否发生变化,检查业务服务运行状态是否正常;
如果业务服务运行位置切换成功且运行状态正常,则进入下一步,否则异常退出;
S6、检查主数据缓存服务运行在哪个组合设备上,如果主数据缓存服务运行在倒班组合上,则进入S7,否则进入S8;
S7、关闭倒班组合上数据缓存服务和负载均衡器,检查值班组合中权重较高的计算模块上数据缓存服务是否已升级为主服务,如果升级成功且运行状态正常,则进入下一步,否则异常退出;
S8、向计算代理发送软关机命令,关闭倒班组合中计算模块的操作系统;
S9、向计算代理发送断电指令,调用BMC子卡执行断电操作,完成倒班组合断电;
S10、倒班组合处于离线状态,可对倒班组合进行维护,由运行在值班组合的业务服务持续提供服务能力,倒班完成;
S11、根据倒班策略,一段周期后,通过向计算代理发送上电指令,调用BMC子卡执行上电操作,实现完成维护的组合设备重新上电;
S12、组合设备中的两个计算模块开机启动并进行状态自检,确认重新上电组合的计算模块状态正常后,可进入下一轮倒班流程。
本发明实现了保障服务高可用性和数据一致性,并提供交替倒班流程控制,从而有效保障基于双组合构建的信息系统可靠和稳定运行,解决了因硬件发生故障导致业务中断的问题,同时支撑双组合交替进入维护模式即单组合状态下信息系统的可用性,满足信息系统的倒班应用场景。
对于本案所公开的内容,还有以下几点需要说明:
(1)、本案所公开的实施例附图只涉及到与本案所公开实施例所涉及到的结构,其他结构可参考通常设计;
(2)、在不冲突的情况下,本案所公开的实施例及实施例中的特征可以相互组合以得到新的实施例;
以上,仅为本案所公开的具体实施方式,但本公开的保护范围并不局限于此,本案所公开的保护范围应以权利要求的保护范围为准。
Claims (6)
1.一种双组合交替倒班方法,包括两台通过交换机通信的组合设备,所述组合设备包括两个计算模块;
还包括数据管理模块、集群管理模块和倒班控制模块,
所述数据管理模块用于提供数据缓存服务,以及两台组合设备的四个计算模块之间的数据同步;
所述集群管理模块用于将两台组合设备中的四个计算模块构建为集群系统;
所述倒班控制模块用于与集群管理模块进行交互,实现业务服务主动迁移和状态确认;
其特征在于,
包括以下步骤:
S1、在环境准备中,初始状态下,两台组合设备都未上电;
S2、自检状态下,两台组合设备都上电,检查各个计算模块状态;
S3、测试状态下,两台组合设备都上电,检查组合设备上的业务服务运行状态;
S4、进入倒班状态,查看业务服务运行在哪个组合设备上,业务服务所在的组合设备作为倒班组合,另一台作为值班组合;
S5、根据倒班策略进入倒班状态中,通过倒班控制模块将倒班组合上运行的业务服务迁移到值班组合上,检查业务服务所在计算模块位置是否发生变化,检查业务服务运行状态是否正常;
如果业务服务运行位置切换成功且运行状态正常,则进入下一步,否则异常退出;
S6、检查主数据缓存服务运行在哪个组合设备上,如果主数据缓存服务运行在倒班组合上,则进入S7,否则进入S8;
S7、关闭倒班组合上数据缓存服务和负载均衡器,检查值班组合中权重较高的计算模块上数据缓存服务是否已升级为主服务,如果升级成功且运行状态正常,则进入下一步,否则异常退出;
S8、向计算代理发送软关机命令,关闭倒班组合中计算模块的操作系统;
S9、向计算代理发送断电指令,调用BMC子卡执行断电操作,完成倒班组合断电;
S10、倒班组合处于离线状态,可对倒班组合进行维护,由运行在值班组合的业务服务持续提供服务能力,倒班完成;
S11、根据倒班策略,一段周期后,通过向计算代理发送上电指令,调用BMC子卡执行上电操作,实现完成维护的组合设备重新上电;
S12、组合设备中的两个计算模块开机启动并进行状态自检,确认重新上电组合的计算模块状态正常后,可进入下一轮倒班流程。
2.根据权利要求1所述的一种双组合交替倒班方法,其特征在于,所述数据缓存服务采用“1主3从”模式,并由负载均衡器进行选主控制,同时负载均衡器将其产生VIP资源附着于运行主数据缓存服务的计算模块之上,以VIP方式提供数据缓存服务的对外访问入口。
3.根据权利要求2所述的一种双组合交替倒班方法,其特征在于,所述负载均衡器采用权重优先算法赋予各个计算模块不同的权重优化级,权重优先级较高的计算模块上运行的数据缓存数据设置为主服务,其余计算模块上数据缓存服务则默认作为从服务;
若优先级较高的计算模块发生故障或进入关机状态,剩余计算模块中优先级高的计算模块成为集群系统中权重最高的节点,此时该计算模块上的负载均衡器进行升级重载操作,将VIP资源附着于该计算模块上,相应地将该计算模块上运行的数据缓存服务的配置文件中角色选项定义为“主”,并重载数据缓存服务,则该数据缓存服务变成主服务;
若主数据缓存服务所在计算模块的权重在集群系统中不是最高时,此时该计算模块上的负载均衡器进行降级重载操作,附着于该计算模块上的VIP资源发生漂移,相应地将该计算模块上的数据缓存服务的配置文件中角色选项定义为“从”,并重载数据缓存服务,则该数据缓存服务变成从服务;
若之前发生故障的优先级较高的计算模块恢复上线,则其上运行的数据缓存服务默认作为从服务加入,不会抢占当前主服务地位。
4.根据权利要求1-3中任一项所述的一种双组合交替倒班方法,其特征在于,所述集群管理模块包括消息通信、集群管理及集群控制,
所述消息通信作为消息交换枢纽,用于提供进程间通信、多媒介通信、心跳超时双检测和消息缓存管理;
所述集群管理用于提供集群调度管理、本地服务管理和信息库;
所述集群控制用于提供命令分级转发和日志管理。
5.根据权利要求4所述的一种双组合交替倒班方法,其特征在于,所述倒班控制模块包括计算代理、策略引擎和流程控制;
所述计算代理用于提供计算模块断电、上电指令接口,执行软关机命令,调用BMC子卡实现断电、上电操作;
所述策略引擎用于提供交替倒班策略,支持倒班周期设定;
所述流程控制用于提供倒班流程控制和状态检查功能。
6.根据权利要求5所述的一种双组合交替倒班方法,其特征在于,所述流程控制根据倒班策略将业务服务主动切换到另外一台组合设备之上,确认业务服务运行正常且数据一致性后,调用计算代理发送断电指令,将本组合设备进行断电,此时只有一台组合设备处于运行状态;
当运行后,发送上电指令,将处于断电维护状态的组合设备上电,确认组合设备的计算模块上线后,将业务服务主动切换到另外一台组合设备上,确认应用运行正常且数据一致性后,发送断电指令,将组合设备进行断电,关闭组合设备,此时只有一台组合设备处于运行状态,从而达到交替倒班。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110547603.3A CN113220509B (zh) | 2021-05-19 | 2021-05-19 | 一种双组合交替倒班系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110547603.3A CN113220509B (zh) | 2021-05-19 | 2021-05-19 | 一种双组合交替倒班系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113220509A CN113220509A (zh) | 2021-08-06 |
CN113220509B true CN113220509B (zh) | 2024-03-05 |
Family
ID=77093185
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110547603.3A Active CN113220509B (zh) | 2021-05-19 | 2021-05-19 | 一种双组合交替倒班系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113220509B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115328651A (zh) * | 2022-08-12 | 2022-11-11 | 扬州万方科技股份有限公司 | 基于国产vpx服务器的轻量化微云系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003010678A1 (en) * | 2001-07-23 | 2003-02-06 | Network Appliance, Inc. | High-availability cluster virtual server system |
KR20030034411A (ko) * | 2001-10-23 | 2003-05-09 | 한국전자통신연구원 | 클러스터 컴퓨터 시스템의 소프트웨어 가용도 개선 방법및 그 장치 |
CN102629906A (zh) * | 2012-03-30 | 2012-08-08 | 浪潮电子信息产业股份有限公司 | 一种将集群管理节点做双机实现提高集群业务可用性的设计办法 |
CN103647668A (zh) * | 2013-12-16 | 2014-03-19 | 上海证券交易所 | 一种高可用集群内主机群体决策系统及切换方法 |
CN108667932A (zh) * | 2018-05-11 | 2018-10-16 | 国网山东省电力公司信息通信公司 | 一种在负载运行状态下双机大数据应用附件管理装置及方法 |
CN108763312A (zh) * | 2018-04-26 | 2018-11-06 | 大连理工大学 | 一种基于负载的从数据节点筛选方法 |
CN112748996A (zh) * | 2021-01-20 | 2021-05-04 | 北京明略昭辉科技有限公司 | 一种非集中式拓扑系统的负载均衡策略方法及系统 |
-
2021
- 2021-05-19 CN CN202110547603.3A patent/CN113220509B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003010678A1 (en) * | 2001-07-23 | 2003-02-06 | Network Appliance, Inc. | High-availability cluster virtual server system |
EP1410229A1 (en) * | 2001-07-23 | 2004-04-21 | Network Appliance, Inc. | High-availability cluster virtual server system |
CN1554055A (zh) * | 2001-07-23 | 2004-12-08 | �Ƚ�װ�ù�˾ | 高可用性集群虚拟服务器系统 |
KR20030034411A (ko) * | 2001-10-23 | 2003-05-09 | 한국전자통신연구원 | 클러스터 컴퓨터 시스템의 소프트웨어 가용도 개선 방법및 그 장치 |
CN102629906A (zh) * | 2012-03-30 | 2012-08-08 | 浪潮电子信息产业股份有限公司 | 一种将集群管理节点做双机实现提高集群业务可用性的设计办法 |
CN103647668A (zh) * | 2013-12-16 | 2014-03-19 | 上海证券交易所 | 一种高可用集群内主机群体决策系统及切换方法 |
CN108763312A (zh) * | 2018-04-26 | 2018-11-06 | 大连理工大学 | 一种基于负载的从数据节点筛选方法 |
CN108667932A (zh) * | 2018-05-11 | 2018-10-16 | 国网山东省电力公司信息通信公司 | 一种在负载运行状态下双机大数据应用附件管理装置及方法 |
CN112748996A (zh) * | 2021-01-20 | 2021-05-04 | 北京明略昭辉科技有限公司 | 一种非集中式拓扑系统的负载均衡策略方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113220509A (zh) | 2021-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10389824B2 (en) | Service management modes of operation in distributed node service management | |
US8375363B2 (en) | Mechanism to change firmware in a high availability single processor system | |
JPH05108392A (ja) | データ処理システム | |
US9749415B2 (en) | Service management roles of processor nodes in distributed node service management | |
Pashkov et al. | Controller failover for SDN enterprise networks | |
US8335813B2 (en) | Systems, methods, and protocols for process migration and group membership management | |
US8032786B2 (en) | Information-processing equipment and system therefor with switching control for switchover operation | |
US20040083402A1 (en) | Use of unique XID range among multiple control processors | |
CN110134518B (zh) | 一种提高大数据集群多节点应用高可用性的方法及系统 | |
US20040083358A1 (en) | Reboot manager usable to change firmware in a high availability single processor system | |
CN102916825A (zh) | 一种双机热备系统的管理设备、管理方法及双机热备系统 | |
CN103647668A (zh) | 一种高可用集群内主机群体决策系统及切换方法 | |
EP2224341A1 (en) | Node system, server switching method, server device, and data transfer method | |
CN103532753A (zh) | 一种基于内存换页同步的双机热备方法 | |
US20070270984A1 (en) | Method and Device for Redundancy Control of Electrical Devices | |
CN101594383A (zh) | 一种双控制器存储系统的服务和控制器状态监控方法 | |
CN111935244B (zh) | 一种业务请求处理系统及超融合一体机 | |
CN113220509B (zh) | 一种双组合交替倒班系统及方法 | |
CN110704250A (zh) | 一种分布式系统的热备份装置 | |
CN107071189B (zh) | 一种通讯设备物理接口的连接方法 | |
CN101442437B (zh) | 一种实现高可用性的方法、系统及设备 | |
CN101686261A (zh) | 一种基于rac的冗余服务器系统 | |
CN113608836A (zh) | 一种基于集群的虚拟机高可用方法及系统 | |
CN110677288A (zh) | 一种通用于多场景部署的边缘计算系统及方法 | |
CN114827148B (zh) | 基于云容错技术的云安全计算方法和装置、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Country or region after: China Address after: No.96 Anlin Road, Yangzhou City, Jiangsu Province 225006 Applicant after: Yangzhou Wanfang Technology Co.,Ltd. Address before: No.96 Anlin Road, Yangzhou City, Jiangsu Province 225006 Applicant before: YANGZHOU WANFANG ELECTRONIC TECHNOLOGY LLC Country or region before: China |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |