CN115250227A - 一种边缘计算场景下实现故障迁移的调度系统 - Google Patents

一种边缘计算场景下实现故障迁移的调度系统 Download PDF

Info

Publication number
CN115250227A
CN115250227A CN202210619869.9A CN202210619869A CN115250227A CN 115250227 A CN115250227 A CN 115250227A CN 202210619869 A CN202210619869 A CN 202210619869A CN 115250227 A CN115250227 A CN 115250227A
Authority
CN
China
Prior art keywords
edge
cluster
clusters
application
scheduling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210619869.9A
Other languages
English (en)
Inventor
陈洪鑫
李明
王一知
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Sicui Industrial Internet Technology Research Institute Co ltd
Original Assignee
Suzhou Sicui Industrial Internet Technology Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Sicui Industrial Internet Technology Research Institute Co ltd filed Critical Suzhou Sicui Industrial Internet Technology Research Institute Co ltd
Priority to CN202210619869.9A priority Critical patent/CN115250227A/zh
Publication of CN115250227A publication Critical patent/CN115250227A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0663Performing the actions predefined by failover planning, e.g. switching to standby network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明提供一种边缘计算场景下实现故障迁移的调度系统,属于云计算技术领域,包括基于边缘云管理平台和边缘集群,边缘云管理平台负责接收边缘集群的资源数据并下发调度指令;所述边缘集群包含集群代理模块,向上接收边缘云管理平台的调度指令,并把指令在集群中执行,向下收集边缘集群中的资源数据,上报给边缘云管理平台,为统一的集群调度提供数据基础。本发明通过监控各区域的应用状态,如果发现应用出现故障,会在同区域下的不同集群中创建实例,以达到应用快速迁移的目的,保障关键应用的高可靠性。

Description

一种边缘计算场景下实现故障迁移的调度系统
技术领域
本发明涉及云计算技术领域,尤其涉及一种边缘计算场景下实现故障迁移的调度系统。
背景技术
云计算的发展使得物联网等移动设备可以通过云端的数据中心获得丰富的计算资源,但也不可避免地产生大量通信延迟,无法满足即时响应的移动应用需求。为了解决上述问题,边缘计算应运而生,边缘计算是指在靠近物或数据源头的一侧,采用网络、计算、存储、应用核心能力为一体的开放平台,就近提供最近端服务。其应用程序在边缘侧发起,产生更快的网络服务响应,满足行业在实时业务、应用智能、安全与隐私保护等方面的基本需求,得益于它的优势,边缘计算近来发展迅速,边缘计算使数据在源头附近就能得到处理,能有效解决网络带宽和时延上的瓶颈,边缘计算作为技术平台将支撑AI技术获得更广泛的应用,加速万物智能时代的到来。同时,从集中式的云计算走向分布式的边缘计算的过程中,为传统的网络架构带来了极大的变化,如何对分布式的边缘计算进行统一的管理,尤其是如何实现在边缘侧的故障的快速自动迁移是亟需解决的问题。
发明内容
为了解决以上技术问题,本发明提供了一种边缘计算场景下实现故障迁移的调度系统。
本发明的技术方案是:
一种边缘计算场景下实现故障迁移的调度系统,包括基于边缘云管理平台和边缘集群组成,其中:
所述边缘云管理平台包含多集群纳管模块、多集群调度模块、策略管理模块、数据管理模块。
所述边缘集群包含集群代理模块,向上接收边缘云管理平台的调度指令,并把指令在集群中执行,向下收集边缘集群中的资源数据,上报给边缘云管理平台,为统一的集群调度提供数据基础。
进一步的,
所述多集群纳管模块,通过集群联邦的方式实现对边缘集群的统一管理,支持边缘集群动态接入和全局的边缘集群的资源监控;
所述多集群调度模块实现在边缘计算场景下不同的边缘云、不同区域的集群管理,支持统一的全局应用管理,支持跨集群应用的部署、删除、升级等全生命周期管理;
所述策略管理模块主要管理预先设置好的策略,比如A集群的实例发生故障且在一定时间内没有自行恢复,就需要在同一区域的其它集群中创建实例;
所述数据管理模块存储各个集群的元数据,为应用跨集群的克隆和迁移能力提供数据支撑。
再进一步的,
边缘云管理平台通过边缘集群中的代理模块检测到应用实例故障信息,首先使用边缘集群的自愈能力尝试主动重新拉起有故障的应用实例来进行快速恢复。
如果在设定好的时间内应用实例没有自行恢复,则通过策略管理模块获取调度策略,多集群调度模块通过数据管理模块获取应用实例对资源的需求,分别为cpu_request、mem_request、gpu_request;
通过边缘集群中的代理模块获取各边缘集群的资源使用情况,其中cpu_util表示边缘集群的CPU使用率,mem_util表示边缘集群的内存使用率,cpu_sum表示边缘集群的CPU总量,mem_sum表示边缘集群的内存总量,gpu_support表示是否支持GPU,cpu_rate(instancei)表示该边缘集群上边缘应用CPU使用变化率,mem_rate(instancei)表示该边缘集群上边缘应用内存使用变化率;
根据边缘集群的资源情况和应用实例资源需求情况,过滤掉不符合资源需求的边缘集群,剩下的为候选集群。
计算各个候选边缘集群的得分,其计算模型如下:
Figure BDA0003675969710000031
其中
Figure BDA0003675969710000032
β表示CPU、内存的影响因子,其计算方法如下:
Figure BDA0003675969710000033
Figure BDA0003675969710000034
其中n表示边缘集群上边缘实例的数量。
根据上述计算模型,计算出各个候选边缘集群的分数,分数最高的即为该应用实例的最优调度集群,该应用实例会在该集群上进行创建。
如果边缘计算平台通过边缘集群中的代理模块检测到有边缘集群不可用,边缘计算平台可以在故障集群所在的区域中快速拉起新的边缘集群来进行快速恢复,以实现集群层面的故障快速迁移。
本发明的有益效果是
本发明通过监控边缘集群的状态以及边缘集群中应用实例的可用状态,如果发现某个集群为不可用状态时,可以快速拉起新的集群替代故障的集群,保障集群的高可用性,当集群中的应用状态不可达出现故障时,可以将失败的应用实例重新分配给其它可用状态的集群中,来保障关键应用的快速故障迁移,不影响应用服务的可用性。通过以上的方法策略保障了整个集群的高可用和应用的稳定运行。
附图说明
图1是本发明的工作框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
边缘计算环境中,各个边缘云可能分散在不同的工厂、车间等区域,同区域下存在不同的边缘集群,边缘集群通常也是以Kubernetes技术为基础,如果某一区域的应用出现故障,会影响这一区域的应用服务,本发明通过监控各区域的应用状态,如果发现应用出现故障,会在同区域下的不同集群中创建实例,以达到应用快速迁移的目的,保障关键应用的高可靠性。
本发明提出一种边缘计算场景下实现故障迁移的调度系统,其实现基于多集群纳管模块、多集群调度模块、策略管理模块、数据管理模块和集群代理模块。
多集群纳管模块通过集群联邦的方式纳管多个边缘集群,对集群实现统一管理和调度。
多集群调度模块支持在边缘计算场景下不同的边缘云、不同区域的边缘集群管理,支持统一的全局应用管理,支持跨边缘集群的应用部署、删除、升级等操作。
策略管理模块管理多集群应用的调度策略,如候选边缘集群的数量不小于失败边缘集群的数量时,将根据失败边缘集群的数量将其重新调度到同一区域的候选边缘集群中。
数据管理模块存储各个边缘集群的元数据,为应用跨集群的克隆和迁移能力提高数据支持。
代理模块部署在边缘集群中,向上接收边缘云管理平台的调度指令,并把指令在集群中执行,向下收集边缘集群中的资源数据,上报给边缘云管理平台,为统一的集群调度提高数据基础。
边缘云管理平台通过边缘集群中的代理模块检测到应用实例故障信息,首先使用边缘集群的自愈能力尝试主动重新拉起有故障的应用实例来进行快速恢复。
如果通过上述方法在设定好的x(x≥0)时间内应用实例没有自行恢复,则通过策略管理模块获取调度策略,如在同区域的其它候选边缘集群中创建新的应用实例。多集群调度模块通过数据管理模块获取应用实例对资源的需求,分别为cpu_request、mem_request、gpu_request。
通过边缘集群中的代理模块获取各边缘集群的资源使用情况,其中cpu_util表示边缘集群的CPU使用率,mem_util表示边缘集群的内存使用率,cpu_sum表示边缘集群的CPU总量,mem_sum表示边缘集群的内存总量,gpu_support表示是否支持GPU,cpu_rate(instancei)表示该边缘集群上边缘应用CPU使用变化率,mem_rate(instancei)表示该边缘集群上边缘应用内存使用变化率。
根据边缘集群的资源情况和应用实例资源需求情况,过滤掉不符合资源需求的边缘集群,剩下的为候选集群。
计算各个候选边缘集群的得分,其计算模型如下:
Figure BDA0003675969710000051
其中
Figure BDA0003675969710000052
β表示CPU、内存的影响因子,其计算方法如下:
Figure BDA0003675969710000061
Figure BDA0003675969710000062
其中n表示边缘集群上边缘实例的数量。
根据上述计算模型,计算出各个候选边缘集群的分数,分数最高的即为该应用实例的最优调度集群,该应用实例会在该集群上进行创建。
如果边缘计算平台通过边缘集群中的代理模块检测到某个边缘集群不可用,边缘计算平台可以在故障集群所在的区域中快速拉起新的边缘集群来进行快速恢复,以实现集群层面的故障快速迁移。
以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (9)

1.一种边缘计算场景下实现故障迁移的调度系统,其特征在于,
包括基于边缘云管理平台和边缘集群,
其中:
边缘云管理平台负责接收边缘集群的资源数据并下发调度指令;包含多集群纳管模块、多集群调度模块、策略管理模块、数据管理模块;
所述边缘集群包含集群代理模块,向上接收边缘云管理平台的调度指令,并把指令在集群中执行,向下收集边缘集群中的资源数据,上报给边缘云管理平台,为统一的集群调度提供数据基础。
2.根据权利要求1所述的系统,其特征在于,
所述多集群纳管模块,通过集群联邦的方式实现对边缘集群的统一管理,支持边缘集群动态接入和全局的边缘集群的资源监控。
3.根据权利要求1所述的系统,其特征在于,
所述多集群调度模块实现在边缘计算场景下不同的边缘云、不同区域的集群管理,支持统一的全局应用管理,支持跨集群应用的部署、删除、升级操作。
4.根据权利要求1所述的系统,其特征在于,
所述策略管理模块管理多集群应用的调度策略,如果候选边缘集群的数量不小于失败边缘集群的数量时,将根据失败边缘集群的数量将其重新调度到同一区域的候选边缘集群中。
5.根据权利要求1所述的系统,其特征在于,
所述数据管理模块存储各个集群的元数据,为应用跨集群的克隆和迁移能力提供数据支撑。
6.根据权利要求1所述的系统,其特征在于,
边缘云管理平台通过边缘集群中的代理模块检测到应用实例故障信息,首先使用边缘集群的自愈能力尝试主动重新拉起有故障的应用实例来进行快速恢复。
7.根据权利要求6所述的系统,其特征在于,
如果在设定好的时间内应用实例没有自行恢复,则通过策略管理模块获取调度策略,多集群调度模块通过数据管理模块获取应用实例对资源的需求,分别为cpu_request、mem_request、gpu_request;
通过边缘集群中的代理模块获取各边缘集群的资源使用情况,其中cpu_util表示边缘集群的CPU使用率,mem_util表示边缘集群的内存使用率,cpu_sum表示边缘集群的CPU总量,mem_sum表示边缘集群的内存总量,gpu_support表示是否支持GPU,cpu_rate(instancei)表示该边缘集群上边缘应用CPU使用变化率,mem_rate(instancei)表示该边缘集群上边缘应用内存使用变化率;
根据边缘集群的资源情况和应用实例资源需求情况,过滤掉不符合资源需求的边缘集群,剩下的为候选集群。
8.根据权利要求7所述的系统,其特征在于,
计算各个候选边缘集群的得分,其计算模型如下:
Figure FDA0003675969700000021
其中
Figure FDA0003675969700000022
β表示CPU、内存的影响因子,其计算方法如下:
Figure FDA0003675969700000023
Figure FDA0003675969700000024
其中n表示边缘集群上边缘实例的数量;
根据上述计算模型,计算出各个候选边缘集群的分数,分数最高的即为该应用实例的最优调度集群,该应用实例会在该集群上进行创建。
9.根据权利要求8所述的系统,其特征在于,
如果边缘计算平台通过边缘集群中的代理模块检测到有边缘集群不可用,边缘计算平台可以在故障集群所在的区域中快速拉起新的边缘集群来进行快速恢复,以实现集群层面的故障快速迁移。
CN202210619869.9A 2022-06-02 2022-06-02 一种边缘计算场景下实现故障迁移的调度系统 Pending CN115250227A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210619869.9A CN115250227A (zh) 2022-06-02 2022-06-02 一种边缘计算场景下实现故障迁移的调度系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210619869.9A CN115250227A (zh) 2022-06-02 2022-06-02 一种边缘计算场景下实现故障迁移的调度系统

Publications (1)

Publication Number Publication Date
CN115250227A true CN115250227A (zh) 2022-10-28

Family

ID=83698732

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210619869.9A Pending CN115250227A (zh) 2022-06-02 2022-06-02 一种边缘计算场景下实现故障迁移的调度系统

Country Status (1)

Country Link
CN (1) CN115250227A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109358967A (zh) * 2018-09-26 2019-02-19 中国联合网络通信集团有限公司 一种me平台app实例化迁移方法及服务器
CN109669821A (zh) * 2018-11-16 2019-04-23 深圳证券交易所 消息中间件的集群部分故障恢复方法、服务器及存储介质
CN111865632A (zh) * 2019-04-28 2020-10-30 阿里巴巴集团控股有限公司 分布式数据存储集群的切换方法及切换指令发送方法和装置
CN112995171A (zh) * 2021-02-24 2021-06-18 国网江苏省电力有限公司信息通信分公司 一种基于区域位置的云计算容器管理方法
CN113852693A (zh) * 2021-09-26 2021-12-28 北京邮电大学 一种边缘计算服务的迁移方法
CN114090251A (zh) * 2021-11-23 2022-02-25 浪潮云信息技术股份公司 一种边缘计算资源自适应动态调度方法及系统
CN114327855A (zh) * 2021-10-18 2022-04-12 阿里云计算有限公司 边缘节点宕机迁移的服务方法及系统
CN114357001A (zh) * 2022-01-12 2022-04-15 平安科技(深圳)有限公司 多集群的数据查询方法、装置、监控平台及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109358967A (zh) * 2018-09-26 2019-02-19 中国联合网络通信集团有限公司 一种me平台app实例化迁移方法及服务器
CN109669821A (zh) * 2018-11-16 2019-04-23 深圳证券交易所 消息中间件的集群部分故障恢复方法、服务器及存储介质
CN111865632A (zh) * 2019-04-28 2020-10-30 阿里巴巴集团控股有限公司 分布式数据存储集群的切换方法及切换指令发送方法和装置
CN112995171A (zh) * 2021-02-24 2021-06-18 国网江苏省电力有限公司信息通信分公司 一种基于区域位置的云计算容器管理方法
CN113852693A (zh) * 2021-09-26 2021-12-28 北京邮电大学 一种边缘计算服务的迁移方法
CN114327855A (zh) * 2021-10-18 2022-04-12 阿里云计算有限公司 边缘节点宕机迁移的服务方法及系统
CN114090251A (zh) * 2021-11-23 2022-02-25 浪潮云信息技术股份公司 一种边缘计算资源自适应动态调度方法及系统
CN114357001A (zh) * 2022-01-12 2022-04-15 平安科技(深圳)有限公司 多集群的数据查询方法、装置、监控平台及存储介质

Similar Documents

Publication Publication Date Title
US10277525B2 (en) Method and apparatus for disaggregated overlays via application services profiles
CN108632365B (zh) 服务资源调整方法、相关装置和设备
CN102819465B (zh) 一种虚拟化环境中故障恢复的方法
US9697053B2 (en) System and method for managing excessive distribution of memory
TWI725744B (zh) 透過多層次相關性建立系統資源預測及資源管理模型的方法
CN110784539A (zh) 一种基于云计算的数据管理系统及方法
CN105827678B (zh) 一种基于高可用架构下的通信方法和节点
CN116340005B (zh) 容器集群的调度方法、装置、设备及存储介质
CN111858033A (zh) 基于集群和多进程的负载均衡方法
CN114153580A (zh) 一种跨多集群的工作调度方法及装置
CN114090251A (zh) 一种边缘计算资源自适应动态调度方法及系统
CN111459642A (zh) 一种分布式系统中故障处理和任务处理方法及装置
CN110532060B (zh) 一种混合网络环境数据采集方法及系统
CN111418187A (zh) 云网络中的可伸缩统计和分析机制
CN114625533A (zh) 分布式任务调度方法、装置、电子设备及存储介质
CN107203256A (zh) 一种网络功能虚拟化场景下的节能分配方法与装置
CN112631756A (zh) 一种应用于航天测控软件的分布式调控方法及装置
US11824922B2 (en) Operating cloud-managed remote edge sites at reduced disk capacity
CN115250227A (zh) 一种边缘计算场景下实现故障迁移的调度系统
WO2023109062A1 (zh) 云灾备系统、方法、电子设备及存储介质
CN116402318A (zh) 面向配电网的多级算力资源分配方法、装置及网络架构
CN108737144B (zh) 资源管理的方法和设备
CN112148546A (zh) 电力系统静态安全分析并行计算系统及方法
CN114338670A (zh) 一种边缘云平台和具有其的网联交通三级云控平台
CN114629782A (zh) 一种多个云平台间抗毁接替方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination