CN117149517A - 一种容器集群资源冗余管理系统和方法 - Google Patents

一种容器集群资源冗余管理系统和方法 Download PDF

Info

Publication number
CN117149517A
CN117149517A CN202311064481.8A CN202311064481A CN117149517A CN 117149517 A CN117149517 A CN 117149517A CN 202311064481 A CN202311064481 A CN 202311064481A CN 117149517 A CN117149517 A CN 117149517A
Authority
CN
China
Prior art keywords
pod
redundant
data
redundancy
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311064481.8A
Other languages
English (en)
Inventor
李庆
张中才
谢文静
冯伟
王文俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
716th Research Institute of CSIC
Original Assignee
716th Research Institute of CSIC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 716th Research Institute of CSIC filed Critical 716th Research Institute of CSIC
Priority to CN202311064481.8A priority Critical patent/CN117149517A/zh
Publication of CN117149517A publication Critical patent/CN117149517A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1479Generic software techniques for error detection or fault masking
    • G06F11/1482Generic software techniques for error detection or fault masking by means of middleware or OS functionality
    • G06F11/1484Generic software techniques for error detection or fault masking by means of middleware or OS functionality involving virtual machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1479Generic software techniques for error detection or fault masking
    • G06F11/1489Generic software techniques for error detection or fault masking through recovery blocks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/4557Distribution of virtual machine instances; Migration and load balancing

Abstract

本发明公开了一种容器集群资源冗余管理系统和方法,为关键应用自动生成两个冗余备份容器,并且通过数据冗余处理,使冗余容器同时工作并协调结果输出,消除了故障恢复时间,使基于集群的装备控制系统在兼顾高算力的同时,为关键任务提供高可用支持,当服务所在节点出现故障时,借助高可用算子对集群冗余资源的动态监测和调整,实现服务应用的无感迁移,同时借助虚拟IP单元和负载均衡器实现管理节点的高可用部署,显著提高了容器服务平台资源冗余系统的可靠性。

Description

一种容器集群资源冗余管理系统和方法
技术领域
本发明属于高可用集群资源管理领域,具体涉及一种容器集群资源冗余管理系统和方法。
背景技术
随着车载、舰载或其他装备控制系统应用对算力需求的不断增加,以及边缘计算技术的成熟,车载、舰载等控制系统逐步开始采用边缘计算架构,通过基于轻量化容器的公共计算集群设备为全车、全舰控制应用提供算力。控制应用往往要求较高的可用性,即长时间运行且难以容忍较长时间的宕机。但是控制应用迁移到边缘计算集群后,一般采用默认容器编排调度策略执行,一旦应用程序或物理节点出现故障时,应用的恢复时间较长,导致业务中断,这对于控制系统是无法接受的。
为防止物理节点宕机、软件异常等原因造成业务中断的问题,在容器集群部署控制应用,需对商用容器资源编排调度系统(如Kubernetes等)扩展“资源备份”解决方案,实现容器资源冗余调度功能。因此,需要基于容器的资源备份管理方法,通过构件容器集群资源冗余管理系统,通过提升容器集群中关键应用的可能性。
发明内容
针对上述问题,本发明的目的在于提供一种容器集群资源冗余管理系统和方法,对于高可靠要求的有状态服务应用,当节点出现故障时,现有的容器管理平台无法为服务应用提供无感迁移的问题,在高可用容器集群的基础上,提供一种容器集群资源冗余管理系统和方法。
实现本发明目的的具体技术方案为:
一种容器集群资源冗余管理系统,包括:
数据冗余服务Pod,用于接收待处理数据,并读取冗余Pod的地址列表,向冗余Pod实现数据分发;
冗余Pod,用于从数据冗余服务Pod接收待处理数据,完成对待处理数据的计算,并对计算结果的消息封装,以及将封装后的消息插入单消息队列;
高可用算子,用于循环监测当前集群中冗余Pod的资源状态;
虚拟IP单元,用于向用户暴露统一的虚拟IP地址,实现IP地址在多个管理节点之间的漂移;
负载均衡器,用于接收服务请求,并基于虚拟IP单元实现将服务请求转发到不同节点,实现集群负载均衡。
进一步的,所述数据冗余服务Pod包括:
单消息队列,包括若干个存储节点,用于存储包含任意数量计算结果,其中每个存储节点包括消息ID、消息长度和消息内容,可存储任意长度的消息;
冗余Pod地址列表,用于保存已注册的冗余Pod地址列表。
进一步的,所述高可用算子包括:
资源部署控制器模块,用于接收冗余资源部署指令,实时监测集群中冗余Pod资源状态,通过比较当前冗余Pod资源状态和期望冗余Pod资源状态,增加或删除冗余Pod资源,使当前冗余Pod资源状态与用户期望冗余Pod资源状态一致;
运行监测模块,用于接收冗余Pod心跳消息,统计集群当前冗余Pod资源状态,用于接收集群状态采集命令,并回告冗余Pod资源状态。
基于上述容器集群资源冗余管理方法,包括以下步骤:
步骤1、部署冗余Pod;
步骤2、部署数据冗余服务Pod;
步骤3、进行数据处理;
步骤4、返回数据处理结果。
与现有技术相比,本发明的有益效果在于:
当前集群环境,即使具有高可用功能,一旦发生节点故障、软件崩溃等严重错误时,服务的恢复时间较长,难以满足装备控制系统的对关键应用故障恢复时间的要求,本发明为关键应用自动生成两个冗余备份容器,并且通过数据冗余处理,使冗余容器同时工作并协调结果输出,消除了故障恢复时间,使基于集群的装备控制系统在兼顾高算力的同时,为关键任务提供高可用支持;
本发明的方案对于集群中有高可靠要求的冗余资源服务应用,当服务所在节点出现故障时,借助高可用算子对集群冗余资源的动态监测和调整,实现服务应用的无感迁移,同时借助虚拟IP单元和负载均衡器实现管理节点的高可用部署,显著提高了容器服务平台资源冗余系统的可靠性。
下面结合具体实施方式对本发明做进一步的说明。
附图说明
图1为本发明的容器集群资源冗余管理系统的架构示意图。
图2为本发明的高可用算子架构示意图。
图3为本发明的容器集群资源冗余管理方法的数据接收过程示意图。
图4为本发明的容器集群资源冗余管理方法的数据发送过程示意图。
图5为本发明的实施例中的单消息队列架构示意图。
具体实施方式
一种容器集群资源冗余管理系统,包括:
数据冗余服务Pod,用于接收待处理数据,并读取冗余Pod的地址列表,向冗余Pod实现数据分发;
冗余Pod,用于从数据冗余服务Pod接收待处理数据,完成对待处理数据的计算,并对计算结果的消息封装,以及将封装后的消息插入单消息队列;
高可用算子Hot Backup Operator,用于循环监测当前集群中冗余Pod的资源状态;
虚拟IP单元,用于向用户暴露统一的虚拟IP地址,实现IP地址在多个管理节点之间的漂移;
负载均衡器,用于接收服务请求,并基于虚拟IP单元实现将服务请求转发到不同节点,实现集群负载均衡。
进一步的,所述数据冗余服务Pod包括:
单消息队列,包括若干个存储节点,用于存储包含任意数量计算结果,其中每个存储节点包括消息ID、消息长度和消息内容,可存储任意长度的消息;
冗余Pod地址列表,用于保存已注册的冗余Pod地址列表。
进一步的,所述高可用算子Hot Backup Operator包括:
资源部署控制器模块,用于接收冗余资源部署指令,实时监测集群中冗余Pod资源状态,通过比较当前冗余Pod资源状态和期望冗余Pod资源状态,增加或删除冗余Pod资源,使当前冗余Pod资源状态与用户期望冗余Pod资源状态一致;
运行监测模块,用于接收冗余Pod心跳消息,统计集群当前冗余Pod资源状态,用于接收集群状态采集命令,并回告冗余Pod资源状态。
基于上述容器集群资源冗余管理方法,包括以下步骤:
步骤1、部署冗余Pod:
冗余资源作为镜像文件存储在集群管理节点,当需要部署时,冗余资源被加载到内存并以Pod方式开始运行;
初始部署时,高可用算子Hot Backup Operator接收部署冗余资源的指令,根据期望部署的冗余资源数量,在集群中选择相应数量且还未被部署的工作节点,在每个节点部署一个冗余Pod,同时将新部署冗余Pod所在的工作节点IP地址注册到所有管理节点的数据冗余Pod服务中;
用户修改冗余资源时,高可用算子Hot Backup Operator接收修改冗余资源的指令,如果指令中期望部署的冗余Pod数量大于当前集群中冗余Pod数量,对于集群中缺少的冗余Pod资源,高可用算子Hot Backup Operator的资源部署控制器模块在集群中选择相应数量且还未被部署的工作节点,在每个节点部署一个冗余Pod,同时将新部署冗余Pod所在的工作节点IP地址注册到所有管理节点的数据冗余Pod服务中;如果指令中期望部署的冗余Pod数量小于当前集群中冗余Pod数量,对于集群中对于的冗余Pod资源,高可用算子HotBackup Operator的资源部署控制器模块会在集群中选择相应数量且已经部署的工作节点,将每个节点中的冗余Pod删除,同时将被删除冗余Pod的工作节点IP地址从所有管理节点的数据冗余Pod服务中删除;
冗余资源所在工作节点失效时,高可用算子Hot Backup Operator的运行监测模块接收不到冗余Pod心跳消息,认为冗余Pod失效,此时将失效工作节点的IP地址从所有管理节点的数据冗余Pod服务中删除,同时高可用算子Hot Backup Operator的资源部署控制器模块在集群中选择一个还未被部署的工作节点,在节点部署一个冗余Pod,同时将新部署的工作节点IP地址注册到所有管理节点的数据冗余Pod服务中。
步骤2、部署数据冗余服务Pod:
数据冗余服务资源作为镜像文件存储在集群管理节点,当需要部署时,数据冗余服务资源被加载到内存并以Pod方式开始运行;
当一种新的冗余资源被创建时,高可用算子Hot Backup Operator选择三个管理节点部署数据冗余服务资源,每个管理节点部署数据冗余服务Pod、负载均衡器和虚拟IP单元;数据冗余服务Pod为后端冗余Pod提供数据分发服务,负载均衡器根据管理节点的负载状态选择一个合适的管理节点,并将服务请求转发到该管理节点的数据冗余服务Pod,虚拟IP单元为每个管理节点提供虚拟IP功能,使得多个管理节点对用户暴露相同的IP地址,但同一时刻虚拟IP单元后端只有唯一的一个管理节点;
数据冗余服务资源所在管理节点失效时,高可用算子Hot Backup Operator的运行监测模块接收不到数据冗余服务资源心跳消息,认为数据冗余服务Pod所在管理节点时效,高可用算子Hot Backup Operator的资源部署控制器模块在集群中选择一个管理节点,并在新管理节点部署数据冗余服务Pod、负载均衡器和虚拟IP单元,同时从其他管理节点将冗余Pod地址列表拷贝到新的管理节点。
步骤3、进行数据处理:
当有服务请求到达虚拟IP单元时,虚拟IP单元将服务请求发送给负载均衡器,负载均衡器根据当前各管理节点的负载情况选出对外提供服务的管理节点,并将待处理数据发送给该节点上的数据冗余服务Pod,数据冗余服务Pod查询已注册的冗余Pod地址列表,在数据前添加ID号并将ID号记录下来,然后将添加ID后待处理数据发送给所有的冗余Pod,ID号从1开始编号,并按照先后顺序递增排序。
步骤4、返回数据处理结果:
各工作节点的冗余Pod接收到数据后,解析出ID号和待处理数据,并对数据进行处理,将处理后的结果前面添加接收数据时解析到的ID号后写入同一个单消息队列,数据冗余服务Pod从单消息队列读取消息并解析出ID号和计算结果,将ID号与记录的ID号对比,如果消息ID号与记录的ID号相等且是该ID对应的消息中最先到达的,则将结果保留并发送给用户,如果消息ID号与记录的ID号不相等或者如果消息ID号与记录的ID号相等但不是该ID对应的消息中最先到达的,将结果丢弃。
下面结合附图和实施例对本发明做进一步的说明。
实施例
结合图1,一种容器集群资源冗余管理系统,包括:
数据冗余服务Pod,用于接收待处理数据,并读取冗余Pod的地址列表,向冗余Pod实现数据分发;
冗余Pod,用于从数据冗余服务Pod接收待处理数据,完成对待处理数据的计算,并对计算结果的消息封装,以及将封装后的消息插入单消息队列;
高可用算子Hot Backup Operator,用于循环监测当前集群中冗余Pod的资源状态;
虚拟IP单元,用于向用户暴露统一的虚拟IP地址,实现IP地址在多个管理节点之间的漂移;
负载均衡器,用于接收服务请求,并基于虚拟IP单元实现将服务请求转发到不同节点,实现集群负载均衡。
所述数据冗余服务Pod包括:
单消息队列,包括若干个存储节点,用于存储包含任意数量计算结果,其中每个存储节点包括消息ID、消息长度和消息内容,可存储任意长度的消息;
冗余Pod地址列表,用于保存已注册的冗余Pod地址列表。
结合图2,所述高可用算子Hot Backup Operator包括:
资源部署控制器模块,用于接收冗余资源部署指令,实时监测集群中冗余Pod资源状态,通过比较当前冗余Pod资源状态和期望冗余Pod资源状态,增加或删除冗余Pod资源,使当前冗余Pod资源状态与用户期望冗余Pod资源状态一致;
运行监测模块,用于接收冗余Pod心跳消息,统计集群当前冗余Pod资源状态,用于接收集群状态采集命令,并回告冗余Pod资源状态。
本发明还提供一种容器集群资源冗余管理方法,包括以下步骤:
步骤1、部署冗余Pod:
冗余资源作为镜像文件存储在集群管理节点,当需要部署时,冗余资源被加载到内存并以Pod方式开始运行;
初始部署时,高可用算子Hot Backup Operator接收部署冗余资源的指令,根据期望部署的冗余资源数量,在集群中选择相应数量且还未被部署的工作节点,在每个节点部署一个冗余Pod,同时将新部署冗余Pod所在的工作节点IP地址注册到所有管理节点的数据冗余Pod服务中;
用户修改冗余资源时,高可用算子Hot Backup Operator接收修改冗余资源的指令,如果指令中期望部署的冗余Pod数量大于当前集群中冗余Pod数量,对于集群中缺少的冗余Pod资源,高可用算子Hot Backup Operator的资源部署控制器模块在集群中选择相应数量且还未被部署的工作节点,在每个节点部署一个冗余Pod,同时将新部署冗余Pod所在的工作节点IP地址注册到所有管理节点的数据冗余Pod服务中;如果指令中期望部署的冗余Pod数量小于当前集群中冗余Pod数量,对于集群中对于的冗余Pod资源,高可用算子HotBackup Operator的资源部署控制器模块会在集群中选择相应数量且已经部署的工作节点,将每个节点中的冗余Pod删除,同时将被删除冗余Pod的工作节点IP地址从所有管理节点的数据冗余Pod服务中删除;
冗余资源所在工作节点失效时,高可用算子Hot Backup Operator的运行监测模块接收不到冗余Pod心跳消息,认为冗余Pod失效,此时将失效工作节点的IP地址从所有管理节点的数据冗余Pod服务中删除,同时高可用算子Hot Backup Operator的资源部署控制器模块在集群中选择一个还未被部署的工作节点,在节点部署一个冗余Pod,同时将新部署的工作节点IP地址注册到所有管理节点的数据冗余Pod服务中。
步骤2、部署数据冗余服务Pod:
数据冗余服务资源作为镜像文件存储在集群管理节点,当需要部署时,数据冗余服务资源被加载到内存并以Pod方式开始运行;
当一种新的冗余资源被创建时,高可用算子Hot Backup Operator选择三个管理节点部署数据冗余服务资源,每个管理节点部署数据冗余服务Pod、负载均衡器和虚拟IP单元;数据冗余服务Pod为后端冗余Pod提供数据分发服务,负载均衡器根据管理节点的负载状态选择一个合适的管理节点,并将服务请求转发到该管理节点的数据冗余服务Pod,虚拟IP单元为每个管理节点提供虚拟IP功能,使得多个管理节点对用户暴露相同的IP地址,但同一时刻虚拟IP单元后端只有唯一的一个管理节点;
数据冗余服务资源所在管理节点失效时,高可用算子Hot Backup Operator的运行监测模块接收不到数据冗余服务资源心跳消息,认为数据冗余服务Pod所在管理节点时效,高可用算子Hot Backup Operator的资源部署控制器模块在集群中选择一个管理节点,并在新管理节点部署数据冗余服务Pod、负载均衡器和虚拟IP单元,同时从其他管理节点将冗余Pod地址列表拷贝到新的管理节点。
步骤3、结合图3,进行数据处理:
当有服务请求到达虚拟IP单元时,虚拟IP单元将服务请求发送给负载均衡器,负载均衡器根据当前各管理节点的负载情况选出对外提供服务的管理节点,并将待处理数据发送给该节点上的数据冗余服务Pod,数据冗余服务Pod查询已注册的冗余Pod地址列表,在数据前添加ID号并将ID号记录下来,然后将添加ID后待处理数据发送给所有的冗余Pod,ID号从1开始编号,并按照先后顺序递增排序。
步骤4、结合图4和图5,返回数据处理结果:
各工作节点的冗余Pod接收到数据后,解析出ID号和待处理数据,并对数据进行处理,将处理后的结果前面添加接收数据时解析到的ID号后写入同一个单消息队列,数据冗余服务Pod从单消息队列读取消息并解析出ID号和计算结果,将ID号与记录的ID号对比,如果消息ID号与记录的ID号相等且是该ID对应的消息中最先到达的,则将结果保留并发送给用户,如果消息ID号与记录的ID号不相等或者如果消息ID号与记录的ID号相等但不是该ID对应的消息中最先到达的,将结果丢弃。
以上实施例显示和描述了本发明的基本原理、主要特征。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。

Claims (8)

1.一种容器集群资源冗余管理系统,其特征在于,包括:
数据冗余服务Pod,用于接收待处理数据,并读取冗余Pod的地址列表,向冗余Pod实现数据分发;
冗余Pod,用于从数据冗余服务Pod接收待处理数据,完成对待处理数据的计算,并对计算结果的消息封装,以及将封装后的消息插入单消息队列;
高可用算子,用于循环监测当前集群中冗余Pod的资源状态;
虚拟IP单元,用于向用户暴露统一的虚拟IP地址,实现IP地址在多个管理节点之间的漂移;
负载均衡器,用于接收服务请求,并基于虚拟IP单元实现将服务请求转发到不同节点,实现集群负载均衡。
2.根据权利要求1所述的容器集群资源冗余管理系统,其特征在于,所述数据冗余服务Pod包括:
单消息队列,包括若干个存储节点,用于存储包含任意数量计算结果,其中每个存储节点包括消息ID、消息长度和消息内容,可存储任意长度的消息;
冗余Pod地址列表,用于保存已注册的冗余Pod地址列表。
3.根据权利要求1所述的容器集群资源冗余管理系统,其特征在于,所述高可用算子包括:
资源部署控制器模块,用于接收冗余资源部署指令,实时监测集群中冗余Pod资源状态,通过比较当前冗余Pod资源状态和期望冗余Pod资源状态,增加或删除冗余Pod资源,使当前冗余Pod资源状态与用户期望冗余Pod资源状态一致;
运行监测模块,用于接收冗余Pod心跳消息,统计集群当前冗余Pod资源状态,用于接收集群状态采集命令,并回告冗余Pod资源状态。
4.基于权利要求1-3系统的容器集群资源冗余管理方法,其特征在于,包括以下步骤:
步骤1、部署冗余Pod;
步骤2、部署数据冗余服务Pod;
步骤3、进行数据处理;
步骤4、返回数据处理结果。
5.根据权利要求4所述的容器集群资源冗余管理方法,其特征在于,所述步骤1中的部署冗余Pod,具体为:
冗余资源作为镜像文件存储在集群管理节点,当需要部署时,冗余资源被加载到内存并以Pod方式开始运行;
初始部署时,高可用算子接收部署冗余资源的指令,根据期望部署的冗余资源数量,在集群中选择相应数量且还未被部署的工作节点,在每个节点部署一个冗余Pod,同时将新部署冗余Pod所在的工作节点IP地址注册到所有管理节点的数据冗余Pod服务中;
用户修改冗余资源时,高可用算子接收修改冗余资源的指令,如果指令中期望部署的冗余Pod数量大于当前集群中冗余Pod数量,对于集群中缺少的冗余Pod资源,高可用算子的资源部署控制器模块在集群中选择相应数量且还未被部署的工作节点,在每个节点部署一个冗余Pod,同时将新部署冗余Pod所在的工作节点IP地址注册到所有管理节点的数据冗余Pod服务中;如果指令中期望部署的冗余Pod数量小于当前集群中冗余Pod数量,对于集群中对于的冗余Pod资源,高可用算子的资源部署控制器模块会在集群中选择相应数量且已经部署的工作节点,将每个节点中的冗余Pod删除,同时将被删除冗余Pod的工作节点IP地址从所有管理节点的数据冗余Pod服务中删除;
冗余资源所在工作节点失效时,高可用算子的运行监测模块接收不到冗余Pod心跳消息,认为冗余Pod失效,此时将失效工作节点的IP地址从所有管理节点的数据冗余Pod服务中删除,同时高可用算子的资源部署控制器模块在集群中选择一个还未被部署的工作节点,在节点部署一个冗余Pod,同时将新部署的工作节点IP地址注册到所有管理节点的数据冗余Pod服务中。
6.根据权利要求4所述的容器集群资源冗余管理方法,其特征在于,所述步骤2中的部署数据冗余服务Pod,具体为:
数据冗余服务资源作为镜像文件存储在集群管理节点,当需要部署时,数据冗余服务资源被加载到内存并以Pod方式开始运行;
当一种新的冗余资源被创建时,高可用算子选择三个管理节点部署数据冗余服务资源,每个管理节点部署数据冗余服务Pod、负载均衡器和虚拟IP单元;数据冗余服务Pod为后端冗余Pod提供数据分发服务,负载均衡器根据管理节点的负载状态选择一个合适的管理节点,并将服务请求转发到该管理节点的数据冗余服务Pod,虚拟IP单元为每个管理节点提供虚拟IP功能,使得多个管理节点对用户暴露相同的IP地址,但同一时刻虚拟IP单元后端只有唯一的一个管理节点;
数据冗余服务资源所在管理节点失效时,高可用算子的运行监测模块接收不到数据冗余服务资源心跳消息,认为数据冗余服务Pod所在管理节点时效,高可用算子的资源部署控制器模块在集群中选择一个管理节点,并在新管理节点部署数据冗余服务Pod、负载均衡器和虚拟IP单元,同时从其他管理节点将冗余Pod地址列表拷贝到新的管理节点。
7.根据权利要求4所述的容器集群资源冗余管理方法,其特征在于,所述步骤3中的数据处理,具体为:
当有服务请求到达虚拟IP单元时,虚拟IP单元将服务请求发送给负载均衡器,负载均衡器根据当前各管理节点的负载情况选出对外提供服务的管理节点,并将待处理数据发送给该节点上的数据冗余服务Pod,数据冗余服务Pod查询已注册的冗余Pod地址列表,在数据前添加ID号并将ID号记录下来,然后将添加ID后待处理数据发送给所有的冗余Pod,ID号从1开始编号,并按照先后顺序递增排序。
8.根据权利要求4所述的容器集群资源冗余管理方法,其特征在于,所述步骤4中的返回数据处理结果,具体为:
各工作节点的冗余Pod接收到数据后,解析出ID号和待处理数据,并对数据进行处理,将处理后的结果前面添加接收数据时解析到的ID号后写入同一个单消息队列,数据冗余服务Pod从单消息队列读取消息并解析出ID号和计算结果,将ID号与记录的ID号对比,如果消息ID号与记录的ID号相等且是该ID对应的消息中最先到达的,则将结果保留并发送给用户,如果消息ID号与记录的ID号不相等或者如果消息ID号与记录的ID号相等但不是该ID对应的消息中最先到达的,将结果丢弃。
CN202311064481.8A 2023-08-23 2023-08-23 一种容器集群资源冗余管理系统和方法 Pending CN117149517A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311064481.8A CN117149517A (zh) 2023-08-23 2023-08-23 一种容器集群资源冗余管理系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311064481.8A CN117149517A (zh) 2023-08-23 2023-08-23 一种容器集群资源冗余管理系统和方法

Publications (1)

Publication Number Publication Date
CN117149517A true CN117149517A (zh) 2023-12-01

Family

ID=88885929

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311064481.8A Pending CN117149517A (zh) 2023-08-23 2023-08-23 一种容器集群资源冗余管理系统和方法

Country Status (1)

Country Link
CN (1) CN117149517A (zh)

Similar Documents

Publication Publication Date Title
CN111290834B (zh) 一种基于云管理平台实现业务高可用的方法、装置及设备
CN109286529B (zh) 一种恢复RabbitMQ网络分区的方法及系统
CN102088490B (zh) 数据存储方法、设备和系统
CN102355369A (zh) 虚拟化集群系统及其处理方法和设备
CN108347339B (zh) 一种业务恢复方法及装置
US11403319B2 (en) High-availability network device database synchronization
US20100268687A1 (en) Node system, server switching method, server apparatus, and data takeover method
CN112202853B (zh) 数据同步方法、系统、计算机设备和存储介质
JP4461262B2 (ja) コンピュータ障害発生時に複数のコンピュータの配列を操作する方法
CN112052230B (zh) 多机房数据同步方法、计算设备及存储介质
US20040153704A1 (en) Automatic startup of a cluster system after occurrence of a recoverable error
CN116340005A (zh) 容器集群的调度方法、装置、设备及存储介质
CN113672336A (zh) 一种k8s容器集群部署方法、装置、设备及可读存储介质
CN111756800A (zh) 一种处理突发流量的方法和系统
CN117149517A (zh) 一种容器集群资源冗余管理系统和方法
CN114338670B (zh) 一种边缘云平台和具有其的网联交通三级云控平台
CN115686368A (zh) 区块链网络的节点的存储扩容的方法、系统、装置和介质
CN113596195B (zh) 公共ip地址管理方法、装置、主节点及存储介质
CN113329102B (zh) 一种Ambari Server系统及网络请求响应方法
CN112131201B (zh) 一种网络附加存储高可用性的方法、系统、设备及介质
CN114840495A (zh) 一种数据库集群防脑裂的方法、存储介质与设备
CN110413436B (zh) 一种故障处理方法及装置
CN114697191A (zh) 一种资源迁移方法、装置、设备及存储介质
JP3621634B2 (ja) 冗長構成切替システム
CN110022220B (zh) 名片识别中的路由激活方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination