CN114090218A - 边缘计算环境下动态任务复制方法、设备和系统 - Google Patents

边缘计算环境下动态任务复制方法、设备和系统 Download PDF

Info

Publication number
CN114090218A
CN114090218A CN202111437730.4A CN202111437730A CN114090218A CN 114090218 A CN114090218 A CN 114090218A CN 202111437730 A CN202111437730 A CN 202111437730A CN 114090218 A CN114090218 A CN 114090218A
Authority
CN
China
Prior art keywords
task
edge
cluster
representing
edge cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111437730.4A
Other languages
English (en)
Inventor
韦磊
缪巍巍
曾锃
周一桐
钱柱中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
State Grid Jiangsu Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Original Assignee
Nanjing University
State Grid Jiangsu Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University, State Grid Jiangsu Electric Power Co Ltd, Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd filed Critical Nanjing University
Priority to CN202111437730.4A priority Critical patent/CN114090218A/zh
Publication of CN114090218A publication Critical patent/CN114090218A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/485Task life-cycle, e.g. stopping, restarting, resuming execution
    • G06F9/4856Task life-cycle, e.g. stopping, restarting, resuming execution resumption being on a different machine, e.g. task migration, virtual machine migration
    • G06F9/4862Task life-cycle, e.g. stopping, restarting, resuming execution resumption being on a different machine, e.g. task migration, virtual machine migration the task being a mobile agent, i.e. specifically designed to migrate
    • G06F9/4868Task life-cycle, e.g. stopping, restarting, resuming execution resumption being on a different machine, e.g. task migration, virtual machine migration the task being a mobile agent, i.e. specifically designed to migrate with creation or replication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/502Proximity

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种边缘计算环境下动态任务复制方法、设备和系统。方法包括:以边缘环境下作业的总完成时间与理想最优复制决策下的作业完成总时延之差regret最小为目标建立优化问题;利用基于多臂赌博机的任务复制决策算法对优化问题进行求解,包括:在第一个时隙开始时,根据任务的任务类型和输入数据的大小来估计任务计算量wt;对每一个任务t,计算将任务t从边缘集群i复制到边缘集群j的时延的置信下限
Figure DDA0003382341220000011
根据
Figure DDA0003382341220000012
确定所有可用的边缘集群,从中选择rt
Figure DDA0003382341220000013
较小的可用边缘集群作为目标边缘集群,将任务复制到所有目标边缘集群上进行执行。本发明首次将基于多臂赌博机的算法应用于边缘计算系统的任务复制问题,方法具有优秀的时延性能和服务可靠性。

Description

边缘计算环境下动态任务复制方法、设备和系统
技术领域
本发明涉及边缘计算领域,具体涉及一种边缘计算环境下动态任务复制方法、设备和系统。
背景技术
随着边缘计算的发展,在网络边缘生成的数据呈指数增长,预计在不久的将来,边缘集群数据的生成率将超过今天互联网的容量。随着边缘聚集的数据的增加和机器学习的快速发展,机器学习任务成为边缘系统的主要工作负载。然而,每个边缘集群的有限资源使得运行机器学习任务具有挑战性。众所周知,一项工作的完成通常取决于它最慢的任务,即,掉队者。避免掉队的传统方法是将任务卸载到远程云,这会导致巨大的广域网延迟和资金成本。另一个有希望的替代方案是将任务从过载边缘复制到空闲边缘:当任何一个副本完成时,任务就完成了。也就是说,任务的完成取决于其最快的副本,这可能会减少任务队列和计算延迟。
但是,在边缘集群中实现高效任务复制有如下挑战。首先,要选择最佳副本位置,需要提前知道在边缘集群中运行的任务的计算时延,但在做出复制决策并完成副本之前,无法知道此类信息。第二,边缘之间的网络资源通常是时变的,因此带宽是不确定的,这导致了不确定的传输时延。这两个相互交织的挑战进一步使任务的完成变得不可预测。因此设计高效的复制算法,使它能够持续适应这种动态和不确定的环境是不容易的。
现有的复制方法无法应对这些挑战。基于检测的算法需要花费大量时间和成本来监控和识别掉队者。通常,这样的开销是巨大的,因此基于检测的策略有其固有的缺陷。基于克隆的算法提前复制任务的一定数量的副本,并将其卸载到相应的边缘。但是,在执行算法之前,时延总是未知的,因此无法找到卸载这些副本的最佳边缘。
发明内容
本发明的目的是提出一种边缘计算环境下的动态任务复制方法、设备和系统,解决现有任务复制机制中存在的问题。
为了实现上述发明目的,本发明采用如下的技术方案:
第一方面,提出一种边缘计算环境下动态任务复制方法,包括以下步骤:
以边缘环境下作业的总完成时间与理想最优复制决策下的作业完成总时延之差regret最小为目标建立优化问题;
利用基于多臂赌博机的任务复制决策算法对优化问题进行求解,包括:
在第一个时隙开始时,根据任务的任务类型和输入数据的大小来估计任务计算量wt
对每一个任务t,计算将任务t从边缘集群i复制到边缘集群j的时延的置信下限
Figure BDA0003382341200000021
根据置信下限
Figure BDA0003382341200000022
确定所有可用的边缘集群,从中选择rt
Figure BDA0003382341200000023
较小的可用边缘集群作为目标边缘集群,将任务复制到所有目标边缘集群上进行执行。
进一步地,regret按照下述公式计算:
Figure BDA0003382341200000024
delaya表示作业a的完成时间,∑a∈Jdelaya表示系统中所有作业的总完成时间,
Figure BDA0003382341200000025
表示作业a的理论最佳时延,
Figure BDA0003382341200000026
表示系统中所有作业的理论最佳时延,J表示所有作业组成的集合。
进一步地,根据任务的任务类型和输入数据的大小来估计任务计算量wt包括:以输入数据向量的维度N表示要处理的数据量,获取任务自身的机器学习模型结构类型zt,利用基于N和zt的估计函数得到任务计算量。
进一步地,将任务t从边缘集群i复制到边缘集群j的时延的置信下限
Figure BDA0003382341200000027
的计算方式为:
Figure BDA0003382341200000028
xt表示任务t输入数据大小;yt表示任务t输出数据大小;
Figure BDA0003382341200000029
表示当完成任务t时边缘集群i到边缘集群j的链路被采样的次数;
Figure BDA00033823412000000210
表示当完成任务t时边缘集群j到边缘集群i的链路被采样的次数;
Figure BDA00033823412000000211
表示当完成任务t时边缘集群j被选择作为目标边缘集群的次数;bi,j表示从边缘群集i到边缘集群j的带宽系数,bj,i表示从边缘群集j到边缘集群i的带宽系数,fj表示边缘集群j的计算能力系数;
Figure BDA00033823412000000212
分别表示任务t执行之后bi,j、bj,i和fj的置信下限,计算式如下:
Figure BDA0003382341200000031
Figure BDA0003382341200000032
Figure BDA0003382341200000033
Figure BDA0003382341200000034
分别表示bi,j被采样
Figure BDA0003382341200000035
次后的平均值、bj,i被采样
Figure BDA0003382341200000036
次后的平均值、fj被采样
Figure BDA0003382341200000037
次后的平均值。
第二方面,提出一种边缘计算环境下动态任务复制设备,包括:
优化问题构建模块,用于以边缘环境下作业的总完成时间与理想最优复制决策下的作业完成总时延之差regret最小为目标建立优化问题;
优化问题求解模块,用于利用基于多臂赌博机的任务复制决策算法对优化问题进行求解,所述对优化问题进行求解包括:
在第一个时隙开始时,根据任务的任务类型和输入数据的大小来估计任务计算量wt
对每一个任务t,计算将任务t从边缘集群i复制到边缘集群j的时延的置信下限
Figure BDA0003382341200000038
根据置信下限
Figure BDA0003382341200000039
确定所有可用的边缘集群,从中选择rt
Figure BDA00033823412000000310
较小的可用边缘集群作为目标边缘集群,将任务复制到所有目标边缘集群上进行执行。
进一步地,regret按照下述公式计算:
Figure BDA00033823412000000311
delaya表示作业a的完成时间,∑a∈Jdelaya表示系统中所有作业的总完成时间,
Figure BDA00033823412000000312
表示作业a的理论最佳时延,
Figure BDA00033823412000000313
表示系统中所有作业的理论最佳时延,J表示所有作业组成的集合。
进一步地,根据任务的任务类型和输入数据的大小来估计任务计算量wt包括:以输入数据向量的维度N表示要处理的数据量,获取任务自身的机器学习模型结构类型zt,利用基于N和zt的估计函数得到任务计算量。
进一步地,将任务t从边缘集群i复制到边缘集群j的时延的置信下限
Figure BDA0003382341200000041
的计算方式为:
Figure BDA0003382341200000042
xt表示任务t输入数据大小;yt表示任务t输出数据大小;
Figure BDA0003382341200000043
表示当完成任务t时边缘集群i到边缘集群j的链路被采样的次数;
Figure BDA0003382341200000044
表示当完成任务t时边缘集群j到边缘集群i的链路被采样的次数;
Figure BDA0003382341200000045
表示当完成任务t时边缘集群j被选择作为目标边缘集群的次数;bi,j表示从边缘群集i到边缘集群j的带宽系数,bj,i表示从边缘群集j到边缘集群i的带宽系数,fj表示边缘集群j的计算能力系数;
Figure BDA0003382341200000046
分别表示任务t执行之后bi,j、bj,i和fj的置信下限,计算式如下:
Figure BDA0003382341200000047
Figure BDA0003382341200000048
Figure BDA0003382341200000049
Figure BDA00033823412000000410
分别表示bi,j被采样
Figure BDA00033823412000000411
次后的平均值、bj,i被采样
Figure BDA00033823412000000412
次后的平均值、fj被采样
Figure BDA00033823412000000413
次后的平均值。
第三方面,提出一种计算设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述程序被处理器执行时实现如本发明第一方面所述的边缘环境下动态任务复制方法。
第四方面,提出一种边缘计算环境下动态任务复制系统,包括:至少一个控制节点和若干边缘计算集群,控制节点与边缘计算集群、以及各边缘计算集群之间经由网络互连,边缘集群将自己的计算能力和带宽状态在每一个时隙的结束反馈给控制节点,过载的边缘集群将需要复制的任务的相关信息及时传递给控制节点,控制节点采用如本发明第一方面所述的边缘环境下动态任务复制方法为过载边缘集群作出复制决策并将决策下发给该边缘集群。
相比于现有技术,本发明具有以下有益效果:首次将基于多臂赌博机的算法应用于边缘计算系统的任务复制问题。以前的工作通常是将任务从过载边缘复制到空闲边缘,以交换传输延迟来减少排队和计算延迟。但是,在做出复制决策之前,无法预测复制到不同边缘的任务的完成延迟,这会影响任务复制机制的性能。因此,将多臂赌博机应用于任务复制问题,并描述了随机变量边缘之间的带宽和边缘计算能力。提出的基于多臂赌博机模型的在线任务复制决策机制在性能上优于现有的技术,结果显示,根据本发明方法的平均作业完成时间分别比“单一卸载”、“随机算法”降低了56.4%、77.6%。
附图说明
图1为根据本发明实施例的任务复制模型结构示意图;
图2为根据本发明实施例的任务复制决策系统结构示意图;
图3是应用不同的任务复制方法后regret的变化情况;
图4是应用不同的任务复制方法后平均作业完成时延的变化情况;
图5是应用不同的任务复制方法后在不同的任务偏斜度下的平均作业完成时延。
具体实施方式
下面结合附图和实施例对本发明的技术方案作进一步说明。
边缘计算环境下执行动态任务复制的最大特点是随机性。由于执行任务时网络带宽和边缘集群计算性能的不断波动,使得无法在复制决策之前预测复制到不同边缘的任务的完成延迟。而且,决策后的总延迟仍然是一个随机量。每个任务的实际完成延迟只有在任务实际完成后才能知道。因此,任务完成时延是一个未知分布。具体而言,在任务复制时延模型中,带宽和边缘计算能力满足未知分布,随时间波动,无法提前预测。这种不确定性符合多臂赌博机模型。因此,在本发明中使用多臂赌博机模型来解决复制的随机性问题。
本发明将整个边缘计算系统看作是一个多臂赌博机,每个边缘群集都被视为一个手臂,为热点边缘群集上的任务在线选择目标手臂集合(目标边缘集群集合)。热点边缘集群也即过载边缘集群。对于边缘集群i上的任务t,将任务t复制rt个副本,并将它们传输到根据本发明的方法选择的不同边缘集群。此过程可以看作是从任务t的当前可用边缘群集集合中选择rt个手臂作为任务复制的目标边缘群集。图1显示了剩有三个任务的作业如何决定执行副本的最佳边缘集合。边缘集群2属于热点边缘,其上的任务(可能属于某些作业)需要复制。对任务3进行复制决策,本发明的复制方法选择了边缘集群4和边缘集群7作为目标边缘集群,将任务3复制两份分别送到这两个边缘上执行。可以看到任务3拒绝选择边缘9来执行复制副本。边缘4处的复制副本首先完成并返回结果,而边缘7处的复制副本尚未返回其结果。此时,任务3已经执行完毕,边缘7上任务3的副本不需要再继续执行。从图中还可以看出,分配给副本的计算能力是不确定的,双向带宽也是不确定的。
任务3作出复制决策,选择边缘集群4和边缘集群7作为目标边缘集群是基于多臂赌博机的的在线任务复制方法实现的。下面详述本发明提出的边缘计算环境下动态任务复制方法的实现过程。
首先对作业和任务做一说明。一个作业包含多个任务,一个任务t由一个三元组(xt,yt,zt)构成,分别是xt表示该任务的输入数据量,yt表示该任务的输出数据量,zt表示该任务的类型。由任务类型和输入数据量可以得出该任务的计算量wt。在本发明实施例中,用J表示所有作业构成的集合,用K表示所有边缘集群构成的集合,则Kt表示任务t对应的可用边缘集群构成的集合。
为了描述的便利,下文中边缘集群有时也称为边缘,即,边缘i和边缘集群i是完全相同的含义,此外,边缘群集和边缘集群、边缘计算节点可互换地使用。
从边缘集群i到j的任务复制时延由以下部分组成:a)从边缘i到边缘j发送任务的时延drep;b)边缘j的计算时延dcom;以及c)从边缘j向边缘i传回结果的时延dret。任务的drep取决于其输入数据大小xt和从边缘群集i到j的带宽transi,j。因此,有
Figure BDA0003382341200000061
类似地,
Figure BDA0003382341200000062
yt表示输出数据大小,transj,i表示从边缘群集j到i的带宽。计算时延取决于任务所需的计算量wt和边缘j的计算能力comj。因而,有
Figure BDA0003382341200000063
因此,将任务t从边缘集群i复制到j的总复制时延为dt,i,j=drep+dcom+dret。将
Figure BDA0003382341200000064
记为bi,j,将
Figure BDA0003382341200000065
记为bj,i,将
Figure BDA0003382341200000066
记为fj。从传输延迟和输入数据量的采样可以得到bi,j,bj,i和fj。例如,
Figure BDA0003382341200000071
Figure BDA0003382341200000072
类似地,可以推导
Figure BDA0003382341200000073
每次计算均采样bi,j,bj,i和fj。至此,确定了任务复制的时延模型。
根据本发明的任务复制方法,其总目标是最小化边缘系统中所有作业的总完成时间的regret。regret指的是作业完成总时延与理想最优复制决策下的作业完成总时延之差。对于每个任务t,使用任务的复制目标边缘集群集πt作为复制决策集合,因此,有
Figure BDA0003382341200000074
t|=rt。然后,对于算法生成的每个复制决策集合πt,实际时延为
Figure BDA0003382341200000075
其中i是生成任务t的边缘集群。作业由多个不同的任务组成,作业的完成时间取决于其最慢任务的完成时间。因此,作业a的完成时间可以定义为delaya=maxt∈a(dt)。然后,系统中所有作业的总完成时间为∑a∈Jdelaya
使用时延
Figure BDA0003382341200000076
表示作业a的理论最佳时延。因此,所有作业的总完成时间的理论最优值为
Figure BDA0003382341200000077
因此,可以将基于多臂赌博机的任务复制系统时延的regret定义为:
Figure BDA0003382341200000078
进一步地,建立如下优化问题:
优化目标:
Figure BDA0003382341200000079
约束条件:
(1)每个复制决策的目标边缘集群集合属于任务t的可用目标边缘集合,再属于所有边缘组成的集合:
Figure BDA00033823412000000710
(2)每个复制决策的目标边缘集群集合的大小等于rt
Figure BDA00033823412000000711
式中,J表示所有作业组成的集合,K表示所有边缘集群组成的集合,Kt表示任务t的可用边缘集合,通过心跳检测确定没有故障的边缘集群即为Kt中的元素。πt表示任务t的复制决策的目标边缘集群集合,可以简称复制决策集合。作业a的完成时间可以定义为delaya,同时使用时延
Figure BDA00033823412000000712
表示作业a的理论最佳时延。约束(2)确保在当前可用的边缘集群中选择rt个目标边缘集群来传输每个机器学习任务t的rt个副本。
本发明使用多臂赌博机模型来求解该优化问题以解决随机性,下面给出具体的求解过程。
首先是任务计算量的估计。为了正确估计机器学习任务的完成延迟,需要估计每个任务的计算量。一般来说,机器学习任务的计算量主要取决于其模型结构。常用的机器学习模型结构有线性回归模型、聚类模型或概率图模型等。常见的损失函数(测量推断值和实际值之间的差异)包括2-范数损失、指数损失等。其他复杂模型通常由这些基本模型的组合、拼接或修改衍生而来。因此,可以通过分析任务的模型类型和任务输入数据的大小来估计计算量wt
对于推理任务,可以根据模型结构,通过计算过程中原子操作的数量来估计计算总量。表1总结了流行机器学习模型的损失函数示例。例如,对于y=wTx+b形式的N维线性回归模型,任务计算包括一个N维向量乘法和一个加法。由于每个维度都是具有统一精度的数值,因此输入数据向量的维度N实际上表示要处理的数据量。本发明针对常见机器学习模型的结构,构造了一个函数wt=A(N,zt)来估计推理任务的计算量,A根据不同的模型结构有不同的具体实现,如表1总结出来了一些流行模型的损失函数。根据输入维数N和模型结构类型zt,可以快速估计计算量。
表1流行的机器学习模型的损失函数示例
Figure BDA0003382341200000081
对于训练任务,如果训练过程可以直接得到最优模型参数向量w*,例如,w*=Θ(x,y,Φ)(x为输入向量,y为实值,Φ为损失函数)。通过闭式表达式的分析,可以直接得到计算量与输入数据大小的关系。对于大多数需要通过迭代更新的训练任务,一次迭代可以表示为闭式表达式wk+1=Ω(wk,x,y,Φ)(k为迭代轮数)。因此,根据输入向量维数N,可以准确估计一次迭代的计算量。本发明采用理论与实验相结合的方法,通过前面所述的闭式表达式和实验相结合,构造训练任务计算量的预测函数B(N,zt),B的具体表达式根据不同模型推出的闭式表达式而异。
如上所述,根据任务复制时延模型,要估计从边缘i复制到边缘j的任务t的时延,除了任务t的计算量wt之外,还需要准确估计随机变量bi,j,bj,i和fj。由于目标边缘的带宽观测信息和计算能力不足,系统面临着探索与利用的权衡。一方面,为了准确估计将任务复制到每个边缘集群的平均时延,系统需要尝试将任务复制到不同的边缘集群;另一方面,为了最小化regret,系统倾向于以最小的时延将任务复制到边缘集群。对于经典的多臂赌博机,解决探索与利用之间权衡的典型算法是置信上限法(UCB)。在本发明的场景中,核心思想是为将任务t从每个边缘i复制到每个边缘j的时延dt,i,j维持一个置信下限
Figure BDA0003382341200000091
并保证
Figure BDA0003382341200000092
的概率很高,例如可以高于某个指定概率值。然后,该算法通过选择多个具有最小置信下限的边缘进行任务复制,在探索和利用之间进行权衡。
为了保持每个参数的置信下限,需要保持每个参数的样本均值和采样次数。用
Figure BDA0003382341200000093
表示当算法完成第t个任务时,边缘i到边缘j的链路被采样的次数。用同样的方法定义
Figure BDA0003382341200000094
表示当完成第t个任务时,边缘j被选择作为目标边缘的次数。对于样本平均值,在bi,j被采样
Figure BDA0003382341200000095
次后,使用
Figure BDA0003382341200000096
来表示bi,j的平均值。用同样的方式定义“
Figure BDA0003382341200000097
表示fj被采样
Figure BDA0003382341200000098
次后的平均值。由于每个边缘的带宽和计算能力是相互独立且分布相同的,因此可以利用集中不等式构造置信下限。因此,设置了任务t执行之后,bi,j、bj,i和fj的置信下限
Figure BDA0003382341200000099
Figure BDA00033823412000000910
如下所示:
Figure BDA00033823412000000911
Figure BDA00033823412000000912
Figure BDA00033823412000000913
因此,根据上述三个公式和任务t的相关信息xt、yt和wt,可以得到任务t从边缘i上复制到边缘j的时延的置信下限
Figure BDA00033823412000000914
如下所示,
Figure BDA00033823412000000915
进一步地,
Figure BDA0003382341200000101
的采样和计算包括:
Figure BDA0003382341200000102
Figure BDA0003382341200000103
Figure BDA0003382341200000104
任务t执行完后进行一次采样,每次的采样结果必然是不同的,其中,
Figure BDA0003382341200000105
表示完成第t个任务的时刻,系统采样到的bi,j的值;
Figure BDA0003382341200000106
同理。由于bi,j,bj,i和fj是随机变量,利用这些采样到的各样本来估计这三个随机样本的概率分布函数。
进一步地,基于多臂赌博机的任务复制方法的执行步骤包括:
在时隙开始时,根据任务的输入数据量和任务类型确定任务的计算量;
获取当前时隙内所有作业在各边缘计算节点上的子任务的计算量后,运行基于多臂赌博机的任务复制算法:
首先基于乐观初值法将
Figure BDA0003382341200000107
均赋值为0;
然后进入持续学习阶段,对每一个任务t,计算所有可用边缘的
Figure BDA0003382341200000108
从中选择rt
Figure BDA0003382341200000109
较小的可用边缘作为目标边缘集合,随后将该任务复制到所有的目标边缘上进行执行;
随后根据公式(7)、(8)、(9)采样和计算
Figure BDA00033823412000001010
如此循环往复,直到所有作业的所有任务均完成。
在随后的时隙开始时,不需要再赋初值,直接运行持续学习阶段的算法即可。
参照图2,在一个实施例中,在一个边缘计算系统中部署该基于多臂赌博机的在线任务复制决策系统,该系统包括:边缘计算集群、控制节点以及连接各边缘计算节点的网络,其中的任务计算量估计模块和基于多臂赌博机的在线决策模块均部署于控制节点上。该边缘计算系统每个时隙都会到达一系列作业,每个作业由若干任务构成,这些任务可能到达不同的边缘集群。如图2所示,任务3将输入数据量和任务类型提交到控制节点。经过一系列过程之后,控制节点将做出的复制决策下发到边缘2的任务5。随后边缘2根据复制决策为任务5复制副本,并将其传输到对应的目标边缘集群上执行。
该系统中控制节点与各边缘计算集群进行周期性地交互,实时将边缘计算集群的历史带宽状况和计算能力反馈给控制节点。控制节点通过处理任务的计算量以及对带宽和计算能力进行预估来为任务作出合适的复制决策,并下发给该任务所处的边缘计算集群。边缘集群接收到控制节点发来的决策命令后,为该任务复制rt个副本并分发到目标边缘集群执行。执行过程中对本次的传输时延和计算时延进行采样从而得到边缘计算系统的部分带宽和计算能力的历史状况。其具体执行过程如下:
(S1)在每一时隙(该时隙长度作为系统配置固定)开始,一系列作业到达该边缘计算系统,每个作业由一系列随机到达不同边缘的任务组成。其中,热点边缘将其上的任务逐一复制,对于队列首部的任务t,将该任务t的输入数据量和任务类型发送给控制节点;
(S2)控制节点接收到任务t的相关信息,“任务计算量估计模块”根据任务t的输入数据量和类型来预估任务t的计算量,发送给“在线决策模块”;
(S3)“边缘系统管理器”每次训练都收集边缘计算系统的带宽信息和计算能力,并根据这些历史的带宽信息和计算能力信息计算所有可用边缘的States(状态)信息,即
Figure BDA0003382341200000111
(S4)“在线决策模块”接收到任务t的计算量,并根据“边缘系统管理器”计算的所有可用边缘的
Figure BDA0003382341200000112
从中选择rt
Figure BDA0003382341200000113
最小的边缘集群作为目标边缘集群,然后将目标边缘集群的集合作为Action(动作)发送给控制节点的“调度器”;
(S5)“调度器”接收到Action后,生成复制决策任务t所在的边缘集群;
(S6)任务t所在的边缘集群接收到复制决策后,根据决策内容,为任务t复制rt个副本分别发送到对应的rt个目标边缘集群;
(S7)接收到副本的目标边缘集群按先来先服务的原则执行对应副本,并将结果及时反馈给任务t所在的边缘集群,并对相应的带宽和计算能力进行采样,将采样信息发送给控制节点的“边缘系统管理器”;
(S8)任务t所在的边缘接收到第一个目标边缘集群返回的结果后,标志着任务t计算完成;
(S9)显然,作业的完成时延取决于它最慢的那个任务的完成时延。依次循环往复直到,所有作业的所有任务都执行完毕。
其中,控制节点调度的总体目标是为了在一段时间内(若干个时隙),在边缘计算集群资源和边缘网络带宽的波动下,达到所有作业的regret最小。建立的优化问题具体形式可以参见上述式(2),此处不再赘述。
由以上实施例,并对比其他不同算法,可以进一步说明本发明的边缘计算环境下基于多臂赌博机的任务复制方法优于当下先进的其他算法。对比方法包括:1)本地执行:对于到达边缘系统的作业,这些作业的任务随机到达不同的边缘群集。然后在任务到达的边缘集群上执行任务,而无需卸载或复制。2)随机算法:一种简单的策略,其中边缘群集在每个时间段随机选择其他边缘群集来复制和卸载副本。3)单一卸载:基于学习的任务卸载策略,它一次只选择一个目标边缘集群进行卸载。
实验的效果如图3至图5所示,图3展示了本发明所提出的赌博机在线决策算法、本地执行、随机算法和单一卸载的regret。显然,“赌博机在线决策算法”因其收敛性而有着最小的regret。然而,“本地执行”因其糟糕的策略而有着最大的regret。正如图3所示,“随机算法”不是收敛的,这是因为它在选择目标边缘集群时是随机的。与“赌博机在线决策算法”类似,“单一卸载”也是收敛的。然而,它却有比“赌博机在线决策算法”有更高的regret,这是因为它的学习速度较慢,并且无法充分利用边缘系统的资源。如图4所示,到第40个时隙时,“单一卸载”、“随机算法”和“本地执行”的平均作业完成时间分别比“赌博机在线决策算法”高56.4%、77.6%和128.1%。可以看出,“赌博机在线决策算法”远远优于其他算法。如图5所示,随着任务的偏斜度的增加,“本地执行”的时延变得越来越长。这是因为偏斜度越高,更多的任务集中在一个边缘集群上,而“本地执行”不允许卸载和复制任务,因此时延不可避免地越来越长。然而,随着偏斜度的增加,其他算法的时延变得越来越短。这是因为当偏斜度较高时,任务集中在一个边缘集群中,任务卸载或复制可以减少本地执行的负担,从而大大提高性能。在任何情况下,“赌博机在线决策算法”都明显优于其他算法。
随着边缘计算的快速发展,边缘集群需要处理大量的任务,使一些边缘集群超载,这进一步转化为任务完成滞后。以前的工作通常将任务从过载的边复制到空闲的边,以减少任务排队和计算延迟。但是,在做出复制决策之前,无法预测复制到不同边缘的任务的完成延迟,这将影响到整个任务的复制性能。本发明首次提出了基于多臂赌博机的在线任务复制模型和算法。通过严格的证明,测量在线决策和离线最优决策之间的差距,该基于赌博机的算法的regret被确保是次线性的。
本领域内的技术人员应明白,本发明的实施例可提供为方法、设备、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,本发明中的控制节点与边缘计算集群的交互方式,收集反馈信息内容与任务复制的在线决策方法在各系统中均适用,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (10)

1.一种边缘计算环境下动态任务复制方法,其特征在于,包括以下步骤:
以边缘环境下作业的总完成时间与理想最优复制决策下的作业完成总时延之差regret最小为目标建立优化问题;
利用基于多臂赌博机的任务复制决策算法对优化问题进行求解,包括:
在第一个时隙开始时,根据任务的任务类型和输入数据的大小来估计任务计算量wt
对每一个任务t,计算将任务t从边缘集群i复制到边缘集群j的时延的置信下限
Figure FDA0003382341190000019
根据置信下限
Figure FDA0003382341190000012
确定所有可用的边缘集群,从中选择rt
Figure FDA0003382341190000013
较小的可用边缘集群作为目标边缘集群,将任务复制到所有目标边缘集群上进行执行。
2.根据权利要求1所述的边缘计算环境下动态任务复制方法,其特征在于,所述regret由以下公式定义按照下述公式计算:
Figure FDA0003382341190000014
delaya表示作业a的完成时间,∑a∈Jdelaya表示系统中所有作业的总完成时间,
Figure FDA0003382341190000015
表示作业a的理论最佳时延,
Figure FDA0003382341190000016
表示系统中所有作业的理论最佳时延,J表示所有作业组成的集合。
3.根据权利要求2所述的边缘计算环境下动态任务复制方法,其特征在于,所述delaya=maxt∈a(dt),t∈a表示任务t是包含在作业a中;dt表示任务t的实际时延;
所述
Figure FDA0003382341190000017
xt表示任务t输入数据大小,yt表示任务t输出数据大小,πt表示对任务t做出的复制决策包含的复制目标边缘集群的集合,transi,j表示从边缘群集i到边缘集群j的带宽,transj,i表示从边缘群集j到边缘集群i的带宽,comj表示边缘集群j的计算能力;
Figure FDA0003382341190000018
Kt表示对于任务t所有可用边缘集群构成的集合。
4.根据权利要求1所述的边缘计算环境下动态任务复制方法,其特征在于,根据任务的任务类型和输入数据的大小来估计任务计算量wt包括:
以输入数据向量的维度N表示要处理的数据量,获取任务自身的机器学习模型结构类型zt,利用基于N和zt的估计函数得到任务计算量。
5.根据权利要求1所述的边缘计算环境下动态任务复制方法,其特征在于,将任务t从边缘集群i复制到边缘集群j的时延的置信下限
Figure FDA0003382341190000021
的计算方式为:
Figure FDA0003382341190000022
xt表示任务t输入数据大小;yt表示任务t输出数据大小;
Figure FDA0003382341190000023
表示当完成任务t时边缘集群i到边缘集群j的链路被采样的次数;
Figure FDA0003382341190000024
表示当完成任务t时边缘集群j到边缘集群i的链路被采样的次数;
Figure FDA0003382341190000025
表示当完成任务t时边缘集群j被选择作为目标边缘集群的次数;bi,j表示从边缘群集i到边缘集群j的带宽系数,bj,i表示从边缘群集j到边缘集群i的带宽系数,fj表示边缘集群j的计算能力系数;
Figure FDA0003382341190000026
分别表示任务t执行之后bi,j、bj,i和fj的置信下限。
6.根据权利要求5所述的边缘计算环境下动态任务复制方法,其特征在于,
Figure FDA0003382341190000027
Figure FDA0003382341190000028
计算式如下:
Figure FDA0003382341190000029
Figure FDA00033823411900000210
Figure FDA00033823411900000211
Figure FDA00033823411900000212
分别表示bi,j被采样
Figure FDA00033823411900000213
次后的平均值、bj,i被采样
Figure FDA00033823411900000214
次后的平均值、fj被采样
Figure FDA00033823411900000215
次后的平均值;
Figure FDA00033823411900000216
的计算方式分别为:
Figure FDA00033823411900000217
Figure FDA00033823411900000218
Figure FDA00033823411900000219
7.根据权利要求5所述的边缘计算环境下动态任务复制方法,其特征在于,bi,j、bj,i和fj的计算方式如下:
Figure FDA0003382341190000031
Figure FDA0003382341190000032
Figure FDA0003382341190000033
transi,j表示从边缘群集i到边缘集群j的带宽,transj,i表示从边缘群集j到边缘集群i的带宽,comj表示边缘集群j的计算能力。
8.一种边缘计算环境下动态任务复制设备,其特征在于,包括:
优化问题构建模块,用于以边缘环境下作业的总完成时间与理想最优复制决策下的作业完成总时延之差regret最小为目标建立优化问题;
优化问题求解模块,用于利用基于多臂赌博机的任务复制决策算法对优化问题进行求解,所述对优化问题进行求解包括:
在第一个时隙开始时,根据任务的任务类型和输入数据的大小来估计任务计算量wt
对每一个任务t,计算将任务t从边缘集群i复制到边缘集群j的时延的置信下限
Figure FDA0003382341190000034
根据置信下限
Figure FDA0003382341190000035
确定所有可用的边缘集群,从中选择rt
Figure FDA0003382341190000036
较小的可用边缘集群作为目标边缘集群,将任务复制到所有目标边缘集群上进行执行。
9.一种计算设备,其特征在于,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述程序被处理器执行时实现如权利要求1-7中任一项所述的边缘环境下动态任务复制方法。
10.一种边缘计算环境下动态任务复制系统,其特征在于,包括:至少一个控制节点和若干边缘计算集群,控制节点与边缘计算集群、以及各边缘计算集群之间经由网络互连,边缘集群将自己的计算能力和带宽状态在每一个时隙的结束反馈给控制节点,过载边缘集群将需要复制的任务的相关信息及时传递给控制节点,控制节点采用权利要求1-7中任一项所述的边缘环境下动态任务复制方法为过载边缘集群作出复制决策并将决策下发给该边缘集群。
CN202111437730.4A 2021-11-29 2021-11-29 边缘计算环境下动态任务复制方法、设备和系统 Pending CN114090218A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111437730.4A CN114090218A (zh) 2021-11-29 2021-11-29 边缘计算环境下动态任务复制方法、设备和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111437730.4A CN114090218A (zh) 2021-11-29 2021-11-29 边缘计算环境下动态任务复制方法、设备和系统

Publications (1)

Publication Number Publication Date
CN114090218A true CN114090218A (zh) 2022-02-25

Family

ID=80305932

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111437730.4A Pending CN114090218A (zh) 2021-11-29 2021-11-29 边缘计算环境下动态任务复制方法、设备和系统

Country Status (1)

Country Link
CN (1) CN114090218A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117851107A (zh) * 2024-03-08 2024-04-09 中科鉴芯(北京)科技有限责任公司 可动态扩容的分布式自动测试向量生成方法、装置及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117851107A (zh) * 2024-03-08 2024-04-09 中科鉴芯(北京)科技有限责任公司 可动态扩容的分布式自动测试向量生成方法、装置及系统

Similar Documents

Publication Publication Date Title
CN108920280B (zh) 一种单用户场景下的移动边缘计算任务卸载方法
JP4781089B2 (ja) タスク割り当て方法およびタスク割り当て装置
Venkataraman et al. The power of choice in {Data-Aware} cluster scheduling
Tang et al. The impact of data replication on job scheduling performance in the data grid
US11784931B2 (en) Network burst load evacuation method for edge servers
CN108572873B (zh) 一种解决Spark数据倾斜问题的负载均衡方法及装置
CN112486690B (zh) 一种适用于工业物联网的边缘计算资源分配方法
CN111381950A (zh) 一种面向边缘计算环境基于多副本的任务调度方法和系统
JP6301509B2 (ja) オンサイトサービスを提供するシステム及び方法
CN112416585A (zh) 面向深度学习的gpu资源管理与智能化调度方法
CN113515351A (zh) 一种基于能耗与QoS协同优化的资源调度实现方法
CN111813506A (zh) 一种基于粒子群算法资源感知计算迁移方法、装置及介质
CN109617710B (zh) 数据中心间有截止时间约束的大数据传输带宽调度方法
CN113708969B (zh) 一种基于深度强化学习的云数据中心虚拟网络的协同嵌入方法
CN112256413A (zh) 基于物联网的边缘计算任务的调度方法和装置
CN112835684A (zh) 一种面向移动边缘计算的虚拟机部署方法
US20220300323A1 (en) Job Scheduling Method and Job Scheduling Apparatus
CN114090218A (zh) 边缘计算环境下动态任务复制方法、设备和系统
CN116501828B (zh) 基于非结构化数据集的服务器无感知向量查询方法和系统
CN117579701A (zh) 一种移动边缘网络计算卸载方法及系统
CN113452546A (zh) 深度学习训练通信的动态服务质量管理
CN110971451B (zh) Nfv资源分配方法
CN116954866A (zh) 基于深度强化学习的边缘云下任务调度方法及系统
CN108228323A (zh) 基于数据本地性的Hadoop任务调度方法及装置
Fang et al. Accelerating Distributed Training With Collaborative In-Network Aggregation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination