CN117149517A

CN117149517A - 一种容器集群资源冗余管理系统和方法

Info

Publication number: CN117149517A
Application number: CN202311064481.8A
Authority: CN
Inventors: 李庆; 张中才; 谢文静; 冯伟; 王文俊
Original assignee: 716th Research Institute of CSIC
Current assignee: 716th Research Institute of CSIC
Priority date: 2023-08-23
Filing date: 2023-08-23
Publication date: 2023-12-01

Abstract

本发明公开了一种容器集群资源冗余管理系统和方法，为关键应用自动生成两个冗余备份容器，并且通过数据冗余处理，使冗余容器同时工作并协调结果输出，消除了故障恢复时间，使基于集群的装备控制系统在兼顾高算力的同时，为关键任务提供高可用支持，当服务所在节点出现故障时，借助高可用算子对集群冗余资源的动态监测和调整，实现服务应用的无感迁移，同时借助虚拟IP单元和负载均衡器实现管理节点的高可用部署，显著提高了容器服务平台资源冗余系统的可靠性。

Description

一种容器集群资源冗余管理系统和方法

技术领域

本发明属于高可用集群资源管理领域，具体涉及一种容器集群资源冗余管理系统和方法。

背景技术

随着车载、舰载或其他装备控制系统应用对算力需求的不断增加，以及边缘计算技术的成熟，车载、舰载等控制系统逐步开始采用边缘计算架构，通过基于轻量化容器的公共计算集群设备为全车、全舰控制应用提供算力。控制应用往往要求较高的可用性，即长时间运行且难以容忍较长时间的宕机。但是控制应用迁移到边缘计算集群后，一般采用默认容器编排调度策略执行，一旦应用程序或物理节点出现故障时，应用的恢复时间较长，导致业务中断，这对于控制系统是无法接受的。

为防止物理节点宕机、软件异常等原因造成业务中断的问题，在容器集群部署控制应用，需对商用容器资源编排调度系统(如Kubernetes等)扩展“资源备份”解决方案，实现容器资源冗余调度功能。因此，需要基于容器的资源备份管理方法，通过构件容器集群资源冗余管理系统，通过提升容器集群中关键应用的可能性。

发明内容

针对上述问题，本发明的目的在于提供一种容器集群资源冗余管理系统和方法，对于高可靠要求的有状态服务应用，当节点出现故障时，现有的容器管理平台无法为服务应用提供无感迁移的问题，在高可用容器集群的基础上，提供一种容器集群资源冗余管理系统和方法。

实现本发明目的的具体技术方案为：

一种容器集群资源冗余管理系统，包括：

数据冗余服务Pod，用于接收待处理数据，并读取冗余Pod的地址列表，向冗余Pod实现数据分发；

冗余Pod，用于从数据冗余服务Pod接收待处理数据，完成对待处理数据的计算，并对计算结果的消息封装，以及将封装后的消息插入单消息队列；

高可用算子，用于循环监测当前集群中冗余Pod的资源状态；

虚拟IP单元，用于向用户暴露统一的虚拟IP地址，实现IP地址在多个管理节点之间的漂移；

负载均衡器，用于接收服务请求，并基于虚拟IP单元实现将服务请求转发到不同节点，实现集群负载均衡。

进一步的，所述数据冗余服务Pod包括：

单消息队列，包括若干个存储节点，用于存储包含任意数量计算结果，其中每个存储节点包括消息ID、消息长度和消息内容，可存储任意长度的消息；

冗余Pod地址列表，用于保存已注册的冗余Pod地址列表。

进一步的，所述高可用算子包括：

资源部署控制器模块，用于接收冗余资源部署指令，实时监测集群中冗余Pod资源状态，通过比较当前冗余Pod资源状态和期望冗余Pod资源状态，增加或删除冗余Pod资源，使当前冗余Pod资源状态与用户期望冗余Pod资源状态一致；

运行监测模块，用于接收冗余Pod心跳消息，统计集群当前冗余Pod资源状态，用于接收集群状态采集命令，并回告冗余Pod资源状态。

基于上述容器集群资源冗余管理方法，包括以下步骤：

步骤1、部署冗余Pod；

步骤2、部署数据冗余服务Pod；

步骤3、进行数据处理；

步骤4、返回数据处理结果。

与现有技术相比，本发明的有益效果在于：

当前集群环境，即使具有高可用功能，一旦发生节点故障、软件崩溃等严重错误时，服务的恢复时间较长，难以满足装备控制系统的对关键应用故障恢复时间的要求，本发明为关键应用自动生成两个冗余备份容器，并且通过数据冗余处理，使冗余容器同时工作并协调结果输出，消除了故障恢复时间，使基于集群的装备控制系统在兼顾高算力的同时，为关键任务提供高可用支持；

本发明的方案对于集群中有高可靠要求的冗余资源服务应用，当服务所在节点出现故障时，借助高可用算子对集群冗余资源的动态监测和调整，实现服务应用的无感迁移，同时借助虚拟IP单元和负载均衡器实现管理节点的高可用部署，显著提高了容器服务平台资源冗余系统的可靠性。

下面结合具体实施方式对本发明做进一步的说明。

附图说明

图1为本发明的容器集群资源冗余管理系统的架构示意图。

图2为本发明的高可用算子架构示意图。

图3为本发明的容器集群资源冗余管理方法的数据接收过程示意图。

图4为本发明的容器集群资源冗余管理方法的数据发送过程示意图。

图5为本发明的实施例中的单消息队列架构示意图。

具体实施方式

一种容器集群资源冗余管理系统，包括：

高可用算子Hot Backup Operator，用于循环监测当前集群中冗余Pod的资源状态；

进一步的，所述数据冗余服务Pod包括：

冗余Pod地址列表，用于保存已注册的冗余Pod地址列表。

进一步的，所述高可用算子Hot Backup Operator包括：

基于上述容器集群资源冗余管理方法，包括以下步骤：

步骤1、部署冗余Pod：

冗余资源作为镜像文件存储在集群管理节点，当需要部署时，冗余资源被加载到内存并以Pod方式开始运行；

初始部署时，高可用算子Hot Backup Operator接收部署冗余资源的指令，根据期望部署的冗余资源数量，在集群中选择相应数量且还未被部署的工作节点，在每个节点部署一个冗余Pod，同时将新部署冗余Pod所在的工作节点IP地址注册到所有管理节点的数据冗余Pod服务中；

用户修改冗余资源时，高可用算子Hot Backup Operator接收修改冗余资源的指令，如果指令中期望部署的冗余Pod数量大于当前集群中冗余Pod数量，对于集群中缺少的冗余Pod资源，高可用算子Hot Backup Operator的资源部署控制器模块在集群中选择相应数量且还未被部署的工作节点，在每个节点部署一个冗余Pod，同时将新部署冗余Pod所在的工作节点IP地址注册到所有管理节点的数据冗余Pod服务中；如果指令中期望部署的冗余Pod数量小于当前集群中冗余Pod数量，对于集群中对于的冗余Pod资源，高可用算子HotBackup Operator的资源部署控制器模块会在集群中选择相应数量且已经部署的工作节点，将每个节点中的冗余Pod删除，同时将被删除冗余Pod的工作节点IP地址从所有管理节点的数据冗余Pod服务中删除；

冗余资源所在工作节点失效时，高可用算子Hot Backup Operator的运行监测模块接收不到冗余Pod心跳消息，认为冗余Pod失效，此时将失效工作节点的IP地址从所有管理节点的数据冗余Pod服务中删除，同时高可用算子Hot Backup Operator的资源部署控制器模块在集群中选择一个还未被部署的工作节点，在节点部署一个冗余Pod，同时将新部署的工作节点IP地址注册到所有管理节点的数据冗余Pod服务中。

步骤2、部署数据冗余服务Pod：

数据冗余服务资源作为镜像文件存储在集群管理节点，当需要部署时，数据冗余服务资源被加载到内存并以Pod方式开始运行；

当一种新的冗余资源被创建时，高可用算子Hot Backup Operator选择三个管理节点部署数据冗余服务资源，每个管理节点部署数据冗余服务Pod、负载均衡器和虚拟IP单元；数据冗余服务Pod为后端冗余Pod提供数据分发服务，负载均衡器根据管理节点的负载状态选择一个合适的管理节点，并将服务请求转发到该管理节点的数据冗余服务Pod，虚拟IP单元为每个管理节点提供虚拟IP功能，使得多个管理节点对用户暴露相同的IP地址，但同一时刻虚拟IP单元后端只有唯一的一个管理节点；

数据冗余服务资源所在管理节点失效时，高可用算子Hot Backup Operator的运行监测模块接收不到数据冗余服务资源心跳消息，认为数据冗余服务Pod所在管理节点时效，高可用算子Hot Backup Operator的资源部署控制器模块在集群中选择一个管理节点，并在新管理节点部署数据冗余服务Pod、负载均衡器和虚拟IP单元，同时从其他管理节点将冗余Pod地址列表拷贝到新的管理节点。

步骤3、进行数据处理：

当有服务请求到达虚拟IP单元时，虚拟IP单元将服务请求发送给负载均衡器，负载均衡器根据当前各管理节点的负载情况选出对外提供服务的管理节点，并将待处理数据发送给该节点上的数据冗余服务Pod，数据冗余服务Pod查询已注册的冗余Pod地址列表，在数据前添加ID号并将ID号记录下来，然后将添加ID后待处理数据发送给所有的冗余Pod，ID号从1开始编号，并按照先后顺序递增排序。

步骤4、返回数据处理结果：

各工作节点的冗余Pod接收到数据后，解析出ID号和待处理数据，并对数据进行处理，将处理后的结果前面添加接收数据时解析到的ID号后写入同一个单消息队列，数据冗余服务Pod从单消息队列读取消息并解析出ID号和计算结果，将ID号与记录的ID号对比，如果消息ID号与记录的ID号相等且是该ID对应的消息中最先到达的，则将结果保留并发送给用户，如果消息ID号与记录的ID号不相等或者如果消息ID号与记录的ID号相等但不是该ID对应的消息中最先到达的，将结果丢弃。

下面结合附图和实施例对本发明做进一步的说明。

实施例

结合图1，一种容器集群资源冗余管理系统，包括：

所述数据冗余服务Pod包括：

冗余Pod地址列表，用于保存已注册的冗余Pod地址列表。

结合图2，所述高可用算子Hot Backup Operator包括：

本发明还提供一种容器集群资源冗余管理方法，包括以下步骤：

步骤1、部署冗余Pod：

步骤2、部署数据冗余服务Pod：

步骤3、结合图3，进行数据处理：

步骤4、结合图4和图5，返回数据处理结果：

以上实施例显示和描述了本发明的基本原理、主要特征。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。

Claims

1.一种容器集群资源冗余管理系统，其特征在于，包括：

高可用算子，用于循环监测当前集群中冗余Pod的资源状态；

2.根据权利要求1所述的容器集群资源冗余管理系统，其特征在于，所述数据冗余服务Pod包括：

冗余Pod地址列表，用于保存已注册的冗余Pod地址列表。

3.根据权利要求1所述的容器集群资源冗余管理系统，其特征在于，所述高可用算子包括：

4.基于权利要求1-3系统的容器集群资源冗余管理方法，其特征在于，包括以下步骤：

步骤1、部署冗余Pod；

步骤2、部署数据冗余服务Pod；

步骤3、进行数据处理；

步骤4、返回数据处理结果。

5.根据权利要求4所述的容器集群资源冗余管理方法，其特征在于，所述步骤1中的部署冗余Pod，具体为：

初始部署时，高可用算子接收部署冗余资源的指令，根据期望部署的冗余资源数量，在集群中选择相应数量且还未被部署的工作节点，在每个节点部署一个冗余Pod，同时将新部署冗余Pod所在的工作节点IP地址注册到所有管理节点的数据冗余Pod服务中；

用户修改冗余资源时，高可用算子接收修改冗余资源的指令，如果指令中期望部署的冗余Pod数量大于当前集群中冗余Pod数量，对于集群中缺少的冗余Pod资源，高可用算子的资源部署控制器模块在集群中选择相应数量且还未被部署的工作节点，在每个节点部署一个冗余Pod，同时将新部署冗余Pod所在的工作节点IP地址注册到所有管理节点的数据冗余Pod服务中；如果指令中期望部署的冗余Pod数量小于当前集群中冗余Pod数量，对于集群中对于的冗余Pod资源，高可用算子的资源部署控制器模块会在集群中选择相应数量且已经部署的工作节点，将每个节点中的冗余Pod删除，同时将被删除冗余Pod的工作节点IP地址从所有管理节点的数据冗余Pod服务中删除；

冗余资源所在工作节点失效时，高可用算子的运行监测模块接收不到冗余Pod心跳消息，认为冗余Pod失效，此时将失效工作节点的IP地址从所有管理节点的数据冗余Pod服务中删除，同时高可用算子的资源部署控制器模块在集群中选择一个还未被部署的工作节点，在节点部署一个冗余Pod，同时将新部署的工作节点IP地址注册到所有管理节点的数据冗余Pod服务中。

6.根据权利要求4所述的容器集群资源冗余管理方法，其特征在于，所述步骤2中的部署数据冗余服务Pod，具体为：

当一种新的冗余资源被创建时，高可用算子选择三个管理节点部署数据冗余服务资源，每个管理节点部署数据冗余服务Pod、负载均衡器和虚拟IP单元；数据冗余服务Pod为后端冗余Pod提供数据分发服务，负载均衡器根据管理节点的负载状态选择一个合适的管理节点，并将服务请求转发到该管理节点的数据冗余服务Pod，虚拟IP单元为每个管理节点提供虚拟IP功能，使得多个管理节点对用户暴露相同的IP地址，但同一时刻虚拟IP单元后端只有唯一的一个管理节点；

数据冗余服务资源所在管理节点失效时，高可用算子的运行监测模块接收不到数据冗余服务资源心跳消息，认为数据冗余服务Pod所在管理节点时效，高可用算子的资源部署控制器模块在集群中选择一个管理节点，并在新管理节点部署数据冗余服务Pod、负载均衡器和虚拟IP单元，同时从其他管理节点将冗余Pod地址列表拷贝到新的管理节点。

7.根据权利要求4所述的容器集群资源冗余管理方法，其特征在于，所述步骤3中的数据处理，具体为：

8.根据权利要求4所述的容器集群资源冗余管理方法，其特征在于，所述步骤4中的返回数据处理结果，具体为：