CN115250227A

CN115250227A - 一种边缘计算场景下实现故障迁移的调度系统

Info

Publication number: CN115250227A
Application number: CN202210619869.9A
Authority: CN
Inventors: 陈洪鑫; 李明; 王一知
Original assignee: Suzhou Sicui Industrial Internet Technology Research Institute Co ltd
Current assignee: Suzhou Sicui Industrial Internet Technology Research Institute Co ltd
Priority date: 2022-06-02
Filing date: 2022-06-02
Publication date: 2022-10-28

Abstract

本发明提供一种边缘计算场景下实现故障迁移的调度系统，属于云计算技术领域，包括基于边缘云管理平台和边缘集群，边缘云管理平台负责接收边缘集群的资源数据并下发调度指令；所述边缘集群包含集群代理模块，向上接收边缘云管理平台的调度指令，并把指令在集群中执行，向下收集边缘集群中的资源数据，上报给边缘云管理平台，为统一的集群调度提供数据基础。本发明通过监控各区域的应用状态，如果发现应用出现故障，会在同区域下的不同集群中创建实例，以达到应用快速迁移的目的，保障关键应用的高可靠性。

Description

一种边缘计算场景下实现故障迁移的调度系统

技术领域

本发明涉及云计算技术领域，尤其涉及一种边缘计算场景下实现故障迁移的调度系统。

背景技术

云计算的发展使得物联网等移动设备可以通过云端的数据中心获得丰富的计算资源，但也不可避免地产生大量通信延迟，无法满足即时响应的移动应用需求。为了解决上述问题，边缘计算应运而生，边缘计算是指在靠近物或数据源头的一侧，采用网络、计算、存储、应用核心能力为一体的开放平台，就近提供最近端服务。其应用程序在边缘侧发起，产生更快的网络服务响应，满足行业在实时业务、应用智能、安全与隐私保护等方面的基本需求，得益于它的优势，边缘计算近来发展迅速，边缘计算使数据在源头附近就能得到处理，能有效解决网络带宽和时延上的瓶颈，边缘计算作为技术平台将支撑AI技术获得更广泛的应用，加速万物智能时代的到来。同时，从集中式的云计算走向分布式的边缘计算的过程中，为传统的网络架构带来了极大的变化，如何对分布式的边缘计算进行统一的管理，尤其是如何实现在边缘侧的故障的快速自动迁移是亟需解决的问题。

发明内容

为了解决以上技术问题，本发明提供了一种边缘计算场景下实现故障迁移的调度系统。

本发明的技术方案是：

一种边缘计算场景下实现故障迁移的调度系统，包括基于边缘云管理平台和边缘集群组成，其中：

所述边缘云管理平台包含多集群纳管模块、多集群调度模块、策略管理模块、数据管理模块。

所述边缘集群包含集群代理模块，向上接收边缘云管理平台的调度指令，并把指令在集群中执行，向下收集边缘集群中的资源数据，上报给边缘云管理平台，为统一的集群调度提供数据基础。

进一步的，

所述多集群纳管模块，通过集群联邦的方式实现对边缘集群的统一管理，支持边缘集群动态接入和全局的边缘集群的资源监控；

所述多集群调度模块实现在边缘计算场景下不同的边缘云、不同区域的集群管理，支持统一的全局应用管理，支持跨集群应用的部署、删除、升级等全生命周期管理；

所述策略管理模块主要管理预先设置好的策略，比如A集群的实例发生故障且在一定时间内没有自行恢复，就需要在同一区域的其它集群中创建实例；

所述数据管理模块存储各个集群的元数据，为应用跨集群的克隆和迁移能力提供数据支撑。

再进一步的，

边缘云管理平台通过边缘集群中的代理模块检测到应用实例故障信息，首先使用边缘集群的自愈能力尝试主动重新拉起有故障的应用实例来进行快速恢复。

如果在设定好的时间内应用实例没有自行恢复，则通过策略管理模块获取调度策略，多集群调度模块通过数据管理模块获取应用实例对资源的需求，分别为cpu_request、mem_request、gpu_request；

通过边缘集群中的代理模块获取各边缘集群的资源使用情况，其中cpu_util表示边缘集群的CPU使用率，mem_util表示边缘集群的内存使用率，cpu_sum表示边缘集群的CPU总量，mem_sum表示边缘集群的内存总量，gpu_support表示是否支持GPU，cpu_rate(instance_i)表示该边缘集群上边缘应用CPU使用变化率，mem_rate(instance_i)表示该边缘集群上边缘应用内存使用变化率；

根据边缘集群的资源情况和应用实例资源需求情况，过滤掉不符合资源需求的边缘集群，剩下的为候选集群。

计算各个候选边缘集群的得分，其计算模型如下：

其中

β表示CPU、内存的影响因子，其计算方法如下：

其中n表示边缘集群上边缘实例的数量。

根据上述计算模型，计算出各个候选边缘集群的分数，分数最高的即为该应用实例的最优调度集群，该应用实例会在该集群上进行创建。

如果边缘计算平台通过边缘集群中的代理模块检测到有边缘集群不可用，边缘计算平台可以在故障集群所在的区域中快速拉起新的边缘集群来进行快速恢复，以实现集群层面的故障快速迁移。

本发明的有益效果是

本发明通过监控边缘集群的状态以及边缘集群中应用实例的可用状态，如果发现某个集群为不可用状态时，可以快速拉起新的集群替代故障的集群，保障集群的高可用性，当集群中的应用状态不可达出现故障时，可以将失败的应用实例重新分配给其它可用状态的集群中，来保障关键应用的快速故障迁移，不影响应用服务的可用性。通过以上的方法策略保障了整个集群的高可用和应用的稳定运行。

附图说明

图1是本发明的工作框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

边缘计算环境中，各个边缘云可能分散在不同的工厂、车间等区域，同区域下存在不同的边缘集群，边缘集群通常也是以Kubernetes技术为基础，如果某一区域的应用出现故障，会影响这一区域的应用服务，本发明通过监控各区域的应用状态，如果发现应用出现故障，会在同区域下的不同集群中创建实例，以达到应用快速迁移的目的，保障关键应用的高可靠性。

本发明提出一种边缘计算场景下实现故障迁移的调度系统，其实现基于多集群纳管模块、多集群调度模块、策略管理模块、数据管理模块和集群代理模块。

多集群纳管模块通过集群联邦的方式纳管多个边缘集群，对集群实现统一管理和调度。

多集群调度模块支持在边缘计算场景下不同的边缘云、不同区域的边缘集群管理，支持统一的全局应用管理，支持跨边缘集群的应用部署、删除、升级等操作。

策略管理模块管理多集群应用的调度策略，如候选边缘集群的数量不小于失败边缘集群的数量时，将根据失败边缘集群的数量将其重新调度到同一区域的候选边缘集群中。

数据管理模块存储各个边缘集群的元数据，为应用跨集群的克隆和迁移能力提高数据支持。

代理模块部署在边缘集群中，向上接收边缘云管理平台的调度指令，并把指令在集群中执行，向下收集边缘集群中的资源数据，上报给边缘云管理平台，为统一的集群调度提高数据基础。

如果通过上述方法在设定好的x(x≥0)时间内应用实例没有自行恢复，则通过策略管理模块获取调度策略，如在同区域的其它候选边缘集群中创建新的应用实例。多集群调度模块通过数据管理模块获取应用实例对资源的需求，分别为cpu_request、mem_request、gpu_request。

通过边缘集群中的代理模块获取各边缘集群的资源使用情况，其中cpu_util表示边缘集群的CPU使用率，mem_util表示边缘集群的内存使用率，cpu_sum表示边缘集群的CPU总量，mem_sum表示边缘集群的内存总量，gpu_support表示是否支持GPU，cpu_rate(instance_i)表示该边缘集群上边缘应用CPU使用变化率，mem_rate(instance_i)表示该边缘集群上边缘应用内存使用变化率。

计算各个候选边缘集群的得分，其计算模型如下：

其中

β表示CPU、内存的影响因子，其计算方法如下：

其中n表示边缘集群上边缘实例的数量。

如果边缘计算平台通过边缘集群中的代理模块检测到某个边缘集群不可用，边缘计算平台可以在故障集群所在的区域中快速拉起新的边缘集群来进行快速恢复，以实现集群层面的故障快速迁移。

以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。