CN115002123B - 基于移动边缘计算的快速适应任务卸载系统和方法 - Google Patents

基于移动边缘计算的快速适应任务卸载系统和方法 Download PDF

Info

Publication number
CN115002123B
CN115002123B CN202210579266.0A CN202210579266A CN115002123B CN 115002123 B CN115002123 B CN 115002123B CN 202210579266 A CN202210579266 A CN 202210579266A CN 115002123 B CN115002123 B CN 115002123B
Authority
CN
China
Prior art keywords
task
subtasks
unloading
vehicle
local
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210579266.0A
Other languages
English (en)
Other versions
CN115002123A (zh
Inventor
赵康利
戴朋林
胡凯文
吴晓
邢焕来
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Jiaotong University
Original Assignee
Southwest Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Jiaotong University filed Critical Southwest Jiaotong University
Priority to CN202210579266.0A priority Critical patent/CN115002123B/zh
Publication of CN115002123A publication Critical patent/CN115002123A/zh
Application granted granted Critical
Publication of CN115002123B publication Critical patent/CN115002123B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/509Offload
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Medical Informatics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于移动边缘计算的快速适应任务卸载系统和方法,系统包括:应用层、车辆层和MEC层;应用层的子任务被卸载到MEC服务器或本地车辆上运行,车辆层的每辆车辆都在本地对部分子任务进行处理。MEC层根据定义好的任务卸载方法为所有子任务进行卸载排序,并按卸载顺序依次为每个子任务进行卸载调度。方法包括:采样出多个任务卸载场景。针对特定的场景,训练出与之对应的任务卸载策略。对于每个场景,初始化本地目标策略和网络参数。根据本地采样策略选择并执行动作,获得奖励,收集经验轨迹。更新目标策略网络参数。对全局策略的网络参数进行更新。本发明的优点是:更加稳定,少量训练就能实现对环境的良好探索,具有更好的卸载效果。

Description

基于移动边缘计算的快速适应任务卸载系统和方法
技术领域
本发明涉及移动边缘计算技术领域,特别涉及一种基于移动边缘计算的快速适应任务卸载系统和方法。
背景技术
在过去的十年里,随着云计算的出现,车联网也获得了快速的发展,并日益流行起来。其中,车辆需要分析和融合来自传感器的大量数据,以便做出安全的决定。与此同时,一些车载应用,如自动驾驶、增强现实和交通控制等都需要大量的存储容量和计算资源,然而,传统的车联网无法满足这些应用的需求。移动云计算通过在云端集成大量具备强大计算能力的服务器,为移动设备提供了丰富的存储和计算资源。但由于高延迟、安全漏洞、低覆盖率以及滞后的数据传输等问题,移动云计算也面临着巨大的挑战,这些挑战在下一代移动网络中可能会变得更加难以解决。此外,移动数据的爆炸性增长将进一步增加回程网络的通信负载,因此,移动云计算不适合需要进行实时数据处理的车载应用。
移动边缘计算(MEC)是一种解决上述问题的有效的计算范式。在MEC中,云计算服务被下移至网络边缘处,通过在道路网络旁边为车辆提供计算和存储资源,大大地减少了应用延迟并节省了车辆能耗。然而,在基于MEC的服务体系架构中,MEC服务器的资源仍然有限,多个移动用户对资源的竞争可能会导致任务遭受极高的通信和计算延迟。并且不同车载应用的资源需求不同,因此一个简单的任务卸载策略无法满足所有应用的性能需求。除此之外,MEC服务器的资源具有异构性,并且随着场景的改变而变化,这很容易导致工作负载在不同MEC 服务器之间的分布不均衡。因此,设计一种能够同时适应不同服务需求或快速适应新服务需求的任务卸载算法是一个亟需解决的问题。
现有技术一
遗传算法(GA)Guo Y,Mi Z,Yang Y,et al.An energy sensitive computationoffloading strategy in cloud robotic network based on ga[J].IEEE SystemsJournal, 2018,13(3):3513-3523.
现有技术一的缺点
1.遗传算法的编码缺乏统一的标准,容易出现不准确的问题;
2.遗传算法容易出现过早收敛的问题;
3.遗传算法的求解效率和精度通常较低;
4.不能适应动态变化的任务卸载环境,每次调度需要重新运行算法,并且无法为具有不同需求的任务做出统一的卸载决策;
现有技术二
启发式算法Hou X,Ren Z,Wang J,et al.Reliable computation offloadingfor edge-computing-enabled software-defined IoV[J].IEEE Internet of ThingsJournal, 2020,7(8):7097-7111.
现有技术二的缺点
1.启发式算法需要专家的先验知识,算法的性能会受到实际问题以及设计者经验的影响;
2.启发式算法的求解效率低,算法性能不稳定;
3.启发式算法不能适应动态变化的任务卸载环境,每次调度需要重新运行算法,并且无法为具有不同需求的任务做出统一的卸载决策。
发明内容
本发明针对现有技术的缺陷,提供了一种基于移动边缘计算的快速适应任务卸载系统和方法。
为了实现以上发明目的,本发明采取的技术方案如下:
一种基于移动边缘计算的任务卸载系统,包括:应用层、车辆层和MEC层;
所述应用层包括:多种任务,任务都被表述为一个有向无环图(DAG),任务中包括多个子任务,其中子任务由顶点表示,子任务之间的依赖关系由两个顶点之间的有向边表示。此外,只有在接收到子任务本身的相关信息以及所有父节点的处理结果后,子任务才能开始运行。用DAG的拓扑结构、子任务之间的依赖数据大小和所需的计算资源来刻画任务的特征,这些特征随着任务类型的改变而变化。子任务是最基本的卸载单元,每个子任务都可以被卸载到MEC服务器或本地车辆上运行。
所述车辆层包括多辆运行着不同类型的车载任务的车辆,并且每辆车辆都可以在本地对部分子任务进行处理。其余的子任务必须通过无线信道被上传到附近的MEC服务器上进行处理。车辆具有两个队列:其中,本地计算队列用于存储将被本地处理器处理的子任务,本地传输队列用于存储将被传输到MEC服务器的子任务。车辆单独或同时对子任务进行计算和传输。在每次调度时,车辆都会封装子任务的相关信息,并将其发送给MEC服务器;相关信息包括:子任务本身的数据大小和所需的计算资源量。
所述MEC层包括无线基础设施和MEC服务器,其中,MEC服务器位于无线基础设施旁边,MEC服务器拥有多个处理器和无线子信道,能够为附近的车辆提供计算和通信服务。另一方面,MEC服务器还起着调度器的作用,能够为车辆到基础设施(V2I)通信范围内的所有子任务做出卸载决策。更为具体地,首先, MEC服务器接收车辆传输过来的子任务相关信息,然后,在每次调度时,MEC 服务器根据定义好的任务卸载方法为所有子任务进行卸载排序,并按卸载顺序依次为每个子任务进行卸载调度。
进一步地,所述应用层包括:车辆导航任务、人脸识别任务和增强车辆现实任务;
车辆导航任务用于为车辆提供路径搜索和路径规划服务;
人脸识别任务用于根据采集到的含有人脸的图像或视频流,自动检测和跟踪人脸,进而对人脸进行识别,从而确定人物身份。
增强车辆现实任务用于将导航和辅助驾驶等虚拟信息与实景相结合,为用户提供更自然的交互。
进一步地,增强车辆现实任务包括:目标跟踪、目标识别、透视变换和融合处理等多个处理子任务。
进一步地,人脸识别任务包括:复制图像、图像检测、特征融合、分裂识别和展示结果等多个子任务。
进一步地,车辆导航任务包括:输入目的地、获取GPS坐标、获取最优路径、获取交通状况、生成路径等多个子任务。
本发明还公开了一种基于移动边缘计算的快速适应任务卸载方法,包括以下步骤:
按照任务分布ρ(T)采样出多个任务卸载场景。然后,在本地训练循环中,针对特定的场景Ti,训练出与之对应的任务卸载策略。对于每个Ti,首先初始化本地目标策略和本地采样策略的网络参数为全局策略的网络参数,并清空经验池。之后,根据本地采样策略选择并执行动作,获得奖励,收集经验轨迹。接下来,本地训练根据公式(1-1)更新目标策略网络参数m次。全局训练中根据公式(1-2) 对全局策略的网络参数进行更新,其中θ为全局策略的初始网络参数,为在场景Ti中训练并且更新之后的网络参数,α为本地训练的学习率,m为本地训练的更新次数,J(θ)为目标函数,n为采样的任务卸载场景数量。
重复上述步骤直至算法终止,获得具有快速适应能力的元卸载策略。通过将元卸载策略的网络参数作为初始参数,并且在少量的本地训练迭代后,就能够生成适用于新的任务卸载场景的策略。
进一步地,所述方法基于Seq2Seq的强化学习模型,将多任务卸载问题考虑为多个马尔科夫决策过程(MDP),其中每个场景Ti对应于一个MDP;
MDP的基本元素设计如下:
设参数:某个场景Ti,车辆任务的DAG,R个上传子信道带宽ω12,…,ωR,下行信道带宽ωd,本地车辆的计算能力fv和M个MEC服务器的计算能力 f1,f2,…,fM
a.系统状态定义如下:
S={st|st=(e,a1:t-1)},t∈[1,N]   (1-3)
其中,e为任务的特征表示,a1:t-1为前t-1个子任务的卸载选择,N代表子任务总数。
为了转换DAG为序列,根据子任务的层级对其进行卸载排序;
用e=[e0,e1,…,ej,…,eN-1]代表任务的特征表示,其中,ej代表子任务tv,p的特征表示,tv,p的卸载索引为j。
ej的定义如公式(1-4)所示:
其中ej包括子任务卸载索引Iv,p、子任务的自身数据大小子任务所需的计算资源量cv,p、处理器处理速率fv,f1,…,fM和子信道带宽ω1,…,ωR
b.动作空间:采用如公式(1-5)所示的R×M+1维二元向量来表示时间步t的卸载动作,其中,atk,k=(r-1)×M+m代表第r个子信道是否被用来传输数据以及第m个处理器是否被用来处理子任务。特别地,at0=1表示子任务在本地车辆上进行计算。
at=[at0,at1,…,atk,…]   (1-5)
c.奖励函数:奖励被定义为之前子任务tv′,p′的计算完成时间CE(tv′,p′)与目前子任务tv,p的计算完成时间CE(tv,p)的差,如公式(1-6)所示:
其中,tv′,p′在tv,p之前被调度。
进一步地,所述根据子任务的层级对其进行卸载排序的规则为:位于更低层级的子任务的调度优先级更高,并且拥有更小的卸载索引,位于相同层级的子任务,其调度优先级随机分配。具有更高调度优先级的子任务可以在队列中优先被传输或计算。
进一步地,所述基于Seq2Seq的强化学习模型包括:编码器和解码器;
所述编码器由一个双向门控循环单元(BiGRU)组成,用分别表示 BiGRU的前向和反向函数。编码器根据卸载索引的升序对子任务进行循环编码然后输出向量如公式(1-7)所示:
所述解码器由一个注意力GRU构成,用hdec表示GRU的解码函数。用dj表示解码器对卸载索引为j的子任务的输出,该输出由上下文向量cj、前一个卸载动作aj-1和前一个输出dj-1共同决定,如公式(1-8)所示:
dj=hdec(dj-1,cj,aj-1)   (1-8)
其中,cj是由注意力机制生成的上下文向量,用于对卸载索引为j的子任务的动作进行预测;
进一步地,所述注意力机制由一个前向神经网络实现。cj的计算方法如公式 (1-9)所示,其中,αjk是衡量对输出dj贡献程度的权重,它能够对子任务之间的内在关系进行准确评估。
进一步地,所述本地训练中,PPO通过重要性采样将在线训练过程转化为离线训练过程。PPO中存在着目标策略πθ和采样策略πθ′两种不同的策略。
首先,πθ′在采样之前被初始化为πθ,然后,基于采样策略πθ′,PPO生成经验轨迹数据,并使用这些数据对目标策略πθ进行更新。此外,PPO还在目标函数中增加了KL散度和PPO-clip两项内容以使得训练更加稳定,如下所示:
其中,μ代表KL散度KL(θ,θ′)的权重,KL散度对πθ和πθ′之间的差异进行评估,从而减少两种策略之间的差距。裁剪函数将Prt的值限制在区间 [1-ε,1+ε]内,从而避免参数的过度更新。Prt代表在时间步t时目标策略πθ和采样策略πθ′的概率比值,如公式(1-11)所示。是时间步t时的优势函数值,采用一般优势估计(GAE)作为优势函数,如公式(1-12)所示。
其中,γ代表奖励折扣因子,λ用于平衡的方差和偏差,V(st)为状态值函数,表示从st开始的未来期望累积折扣奖励。然后,状态值函数的损失定义如下。
基于公式(1-10)和公式(1-13),PPO的目标函数如公式(1-14)所示,其中η为状态值损失函数系数。PPO的更新公式如公式(1-15)所示,其中α是本地学习率。
J(θ)=JP(θ)-ηJV(θ)   (1-14)
进一步地,所述全局训练中,基于元学习框架来训练一个全局模型,设新的任务卸载场景Ti。公式(1-16)为元学习的目标函数,其中JTi(θ)是公式(1-14) 中任务Ti的目标函数。公式(1-17)为全局模型的参数更新函数,其中β是全局训练的学习率。
公式(1-17)中的参数更新需要进行二次求导,使用一阶近似方法来解决该问题,如公式(1-18)所示,其中,m为本地训练的更新次数,n表示采样任务数。
与现有技术相比,本发明的优点在于:
1.基于强化学习,不需要先验的专家知识,并且算法的性能不会受到初始参数的影响,算法更加稳定。
2.可以快速适应新的任务卸载场景,即只需要在少量的训练之后就能实现对环境的良好探索,不需要从头开始进行大量且耗时的训练。
3.可以发现子任务之间的数据依赖关系,因此能够取得更好的卸载效果。
附图说明
图1是本发明实施例一种基于移动边缘计算的任务卸载系统结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下根据附图并列举实施例,对本发明做进一步详细说明。
如图1所示,一种基于移动边缘计算的任务卸载系统,包括:应用层、车辆层和MEC层;
所述应用层包括多种不同类型的车载任务,如车辆导航、人脸识别和增强车辆现实等,这些任务都可以被分解为多个模块,如增强车辆现实包括目标跟踪、目标识别、透视变换和融合处理等模块。因此,每个任务都可以被表述为一个有向无环图(DAG),其中子任务由顶点表示,子任务之间的依赖关系由两个顶点之间的有向边表示。此外,只有在接收到子任务本身的相关信息以及所有父节点的处理结果后,子任务才能开始运行。用DAG的拓扑结构、子任务之间的依赖数据大小和所需的计算资源等来刻画任务的特征,这些特征随着任务类型的改变而变化。在本系统中,子任务是最基本的卸载单元,每个子任务都可以被卸载到MEC服务器或本地车辆上运行。
所述车辆层包括多辆运行着不同类型的车载任务的车辆,并且每辆车辆都可以在本地对部分子任务进行处理。然而,车辆计算能力不足,无法完成所有子任务,因此,其余的子任务必须通过无线信道被上传到附近的MEC服务器上进行处理。车辆具有两个队列:其中,本地计算队列用于存储将被本地处理器处理的子任务,本地传输队列用于存储将被传输到MEC服务器的子任务。车辆可以同时对子任务进行计算和传输。在每次调度时,车辆都会封装子任务的相关信息,如子任务本身的数据大小和所需的计算资源量,并将其发送给MEC服务器。
所述MEC层包括无线基础设施和MEC服务器,其中,MEC服务器位于无线基础设施旁边,其拥有多个处理器和无线子信道,能够为附近的车辆提供计算和通信服务。另一方面,MEC服务器还起着调度器的作用,能够为车辆到基础设施(V2I)通信范围内的所有子任务做出卸载决策。更为具体地,首先,MEC服务器接收车辆传输过来的子任务相关信息,然后,在每次调度时,它根据定义好的任务卸载方法为所有子任务进行卸载排序,并按卸载顺序依次为每个子任务进行卸载调度。
本发明还公开了一种基于移动边缘计算的快速适应任务卸载方法,包括以下步骤:
步骤1,基于Seq2Seq的强化学习模型设计
本发明考虑同时对多个不同任务卸载场景的任务运行时间进行优化,用如下一组参数来描述其中的某个场景Ti:车辆任务的DAG,R个上传子信道带宽ω12,…,ωR,下行信道带宽ωd,本地车辆的计算能力fv和M个MEC服务器的计算能力f1,f2,…,fM。本发明将多任务卸载问题考虑为多个马尔科夫决策过程 (MDP),其中每个场景Ti对应于一个MDP,MDP的基本元素设计如下:
a.系统状态:子任务的运行时间取决于MEC服务器可用的通信和计算资源、任务的拓扑结构、子任务所需的计算资源以及其他子任务的卸载决策,因此,系统状态被定义如下:
S={st|st=(e,a1:t-1)},t∈[1,N]   (1-1)
其中,e为任务的特征表示,a1:t-1为前t-1个子任务的卸载选择,N代表子任务总数。为了转换DAG为序列,本发明根据子任务的层级对其进行卸载排序,排序规则为:位于更低层级的子任务的调度优先级更高,并且拥有更小的卸载索引,位于相同层级的子任务,其调度优先级随机分配。具有更高调度优先级的子任务可以在队列中优先被传输或计算。此外,用e=[e0,e1,…,ej,…,eN-1]代表任务的特征表示,其中,ej代表子任务tv,p的特征表示,tv,p的卸载索引为j。如公式(1-2) 所示,ej包括子任务卸载索引Iv,p、子任务的自身数据大小子任务所需的计算资源量cv,p、处理器处理速率fv,f1,…,fM和子信道带宽ω1,…,ωR。可以看出,任务的特征表示e的长度与任务数量有关并随其改变而变化。为了对不同子任务卸载决策之间的关系进行学习,本发明设计了一个Seq2Seq模型来编码不同长度的任务特征表示e,这将在之后进行描述。
b.动作空间:本发明采用如公式(1-3)所示的R×M+1维二元向量来表示时间步t的卸载动作,其中,atk,k=(r-1)×M+m代表第r个子信道是否被用来传输数据以及第m个处理器是否被用来处理子任务。特别地,at0=1表示子任务在本地车辆上进行计算。根据公式(1-3)可知,动作空间的维度为2M×R+1,并且随着处理器数量和子信道数量的增加而以指数级的方式增长。因此,无法使用传统的强化学习算法来解决多任务卸载问题。
at=[at0,at1,…,atk,…]   (1-3)
c.奖励函数:奖励被定义为之前子任务tv′,p′的计算完成时间CE(tv′,p′)与目前子任务tv,p的计算完成时间CE(tv,p)的差,如公式(1-4)所示,其中,tv′,p′在tv,p之前被调度。由奖励函数可以得知,完成子任务所消耗的时间增量越少,获得的奖励越多,这有助于降低任务的运行延迟。
Seq2Seq模型是一种优秀的神经网络模型,它可以循环编码输入序列为一个向量,并将其进行解码,然后输出结果。但是,Seq2Seq模型在编码过长的输入序列时存在着严重的信息损失。为了解决该问题,本发明在Seq2Seq模型中考虑了注意力机制,注意力机制能够让解码器对不同的输入部分表现出不同的关注度从而有效地减少信息损失。本发明所提出的Seq2Seq模型包括编码器和解码器两部分,下面分别对这两部分进行描述:
(1)编码器由一个双向门控循环单元(BiGRU)组成,用分别表示 BiGRU的前向和反向函数。该编码器根据卸载索引的升序对子任务进行循环编码然后输出向量如公式(1-5)所示。BiGRU相对于传统GRU,其能够实现对任务拓扑结构更好的探索。
(2)解码器由一个注意力GRU构成,用hdec表示GRU的解码函数。用dj表示解码器对卸载索引为j的子任务的输出,该输出由上下文向量cj、前一个卸载动作aj-1和前一个输出dj-1共同决定,如下所示:
dj=hdec(dj-1,cj,aj-1)   (1-6)
其中,cj是由注意力机制生成的上下文向量,用于对卸载索引为j的子任务的动作进行预测,在本发明中,注意力机制由一个前向神经网络实现。cj的计算方法如公式(1-7)所示,其中,αjk是衡量对输出dj贡献程度的权重,它能够对子任务之间的内在关系进行准确评估。
步骤2,基于元强化学习的模型训练过程
基于元强化学习的模型训练过程由本地和全局两个训练过程所组成。其中,本地训练采用近端策略优化算法(PPO),其目标是搜寻特定MDP的任务卸载策略。全局训练采用元学习框架,其目标是寻找能够求解所有MDP的元卸载策略。
在本地训练中,PPO通过重要性采样将在线训练过程转化为离线训练过程,从而使训练速度得以加快。PPO中存在着目标策略πθ和采样策略πθ′两种不同的策略。首先,πθ′在采样之前被初始化为πθ,然后,基于采样策略πθ′,PPO生成经验轨迹数据,并使用这些数据对目标策略πθ进行更新。此外,PPO还在目标函数中增加了KL散度和PPO-clip两项内容以使得训练更加稳定,如下所示:
其中,μ代表KL散度KL(θ,θ′)的权重,KL散度可以对πθ和πθ′之间的差异进行评估,从而减少两种策略之间的差距,降低采样次数。裁剪函数可以将Prt的值限制在区间[1-ε,1+ε]内,从而避免参数的过度更新,并保证πθ和πθ′的差距不会过大。Prt代表在时间步t时目标策略πθ和采样策略πθ′的概率比值,如公式(1-9)所示。是时间步t时的优势函数值,本发明采用一般优势估计(GAE) 作为优势函数,如公式(1-10)所示。
其中,γ代表奖励折扣因子,λ用于平衡的方差和偏差,V(st)为状态值函数,表示从st开始的未来期望累积折扣奖励。然后,状态值函数的损失定义如下。
基于公式(1-8)和公式(1-11),PPO的目标函数如公式(1-12)所示,其中η为状态值损失函数系数。PPO的更新公式如公式(1-13)所示,其中α是本地学习率。
J(θ)=JP(θ)-ηJV(θ)   (1-12)
对于全局训练,本发明基于元学习框架来训练一个全局模型,该模型能够通过少量训练快速适应新的任务卸载场景Ti。公式(1-14)为元学习的目标函数,其中是公式(1-12)中任务Ti的目标函数。公式(1-15)为全局模型的参数更新函数,其中β是全局训练的学习率。
然而,公式(1-15)中的参数更新需要进行二次求导,其计算成本很高并且效率低下。因此,本发明使用一阶近似方法来解决该问题,如公式(1-16)所示,其中,m为本地训练的更新次数,n表示采样任务数。
最后,基于移动边缘计算的快速适应任务卸载方法如下所述。首先,按照任务分布ρ(T)采样出多个任务卸载场景。然后,在本地训练循环中,针对特定的场景Ti,训练出与之对应的任务卸载策略。对于每个Ti,首先初始化本地目标策略和本地采样策略的网络参数为全局策略的网络参数,并清空经验池。之后,根据本地采样策略选择并执行动作,获得奖励,收集经验轨迹。接下来,根据公式(1-13) 更新目标策略网络参数m次。最后,在全局训练循环中,根据公式(1-16)对全局策略的网络参数进行更新。重复上述步骤直至算法终止,就可以获得具有快速适应能力的元卸载策略。通过将元卸载策略的网络参数作为初始参数,并且在少量的本地训练迭代后,就能够生成适用于新的任务卸载场景的策略。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的实施方法,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (8)

1.一种基于移动边缘计算的快速适应任务卸载方法,其特征在于:所述快速适应任务卸载方法是任务卸载系统的基础上实现的;
所述任务卸载系统,其特征在于,包括:应用层、车辆层和MEC层;
所述应用层包括:多种任务,任务都被表述为一个有向无环图(DAG),任务中包括多个子任务,其中子任务由顶点表示,子任务之间的依赖关系由两个顶点之间的有向边表示;此外,只有在接收到子任务本身的相关信息以及所有父节点的处理结果后,子任务才能开始运行;用DAG的拓扑结构、子任务之间的依赖数据大小和所需的计算资源来刻画任务的特征,这些特征随着任务类型的改变而变化;子任务是最基本的卸载单元,每个子任务都可以被卸载到MEC服务器或本地车辆上运行;
所述车辆层包括多辆运行着不同类型的车载任务的车辆,并且每辆车辆都可以在本地对部分子任务进行处理;其余的子任务必须通过无线信道被上传到附近的MEC服务器上进行处理;车辆具有两个队列:其中,本地计算队列用于存储将被本地处理器处理的子任务,本地传输队列用于存储将被传输到MEC服务器的子任务;车辆单独或同时对子任务进行计算和传输;在每次调度时,车辆都会封装子任务的相关信息,并将其发送给MEC服务器;相关信息包括:子任务本身的数据大小和所需的计算资源量;
所述MEC层包括无线基础设施和MEC服务器,其中,MEC服务器位于无线基础设施旁边,MEC服务器拥有多个处理器和无线子信道,能够为附近的车辆提供计算和通信服务;另一方面,MEC服务器还起着调度器的作用,能够为车辆到基础设施(V2I)通信范围内的所有子任务做出卸载决策;更为具体地,首先,MEC服务器接收车辆传输过来的子任务相关信息,然后,在每次调度时,MEC服务器根据定义好的任务卸载方法为所有子任务进行卸载排序,并按卸载顺序依次为每个子任务进行卸载调度;
所述快速适应任务卸载方法,包括以下步骤:
按照任务分布ρ(T)采样出多个任务卸载场景;然后,在本地训练循环中,针对特定的场景Ti,训练出与之对应的任务卸载策略;对于每个Ti,首先初始化本地目标策略和本地采样策略的网络参数为全局策略的网络参数,并清空经验池;之后,根据本地采样策略选择并执行动作,获得奖励,收集经验轨迹;接下来,本地训练根据公式(1-1)更新目标策略网络参数m次;全局训练中根据公式(1-2)对全局策略的网络参数进行更新,其中θ为全局策略的初始网络参数,
Figure FDA0004155327670000021
为在场景Ti中训练并且更新之后的网络参数,α为本地训练的学习率,m为本地训练的更新次数,J(θ)为目标函数,n为采样的任务卸载场景数量;
Figure FDA0004155327670000022
Figure FDA0004155327670000023
重复上述步骤直至算法终止,就获得具有快速适应能力的元卸载策略;通过将元卸载策略的网络参数作为初始参数,并且在少量的本地训练迭代后,就能够生成适用于新的任务卸载场景的策略;
所述快速适应任务卸载方法基于Seq2Seq的强化学习模型,将多任务卸载问题考虑为多个马尔科夫决策过程(MDP),其中每个场景Ti对应于一个MDP;
MDP的基本元素设计如下:
设参数:某个场景Ti,车辆任务的DAG,R个上传子信道带宽ω12,…,ωR,下行信道带宽ωd,本地车辆的计算能力fv和M个MEC服务器的计算能力f1,f2,…,fM
a.系统状态定义如下:
S={st|st=(e,a1:t-1)},t∈[1,N]                (1-3)
其中,e为任务的特征表示,a1:t-1为前t-1个子任务的卸载选择,N代表子任务总数;
为了转换DAG为序列,根据子任务的层级对其进行卸载排序;
用e=[e0,e1,…,ej,…,eN-1]代表任务的特征表示,其中,ej代表子任务tv,p的特征表示,tv,p的卸载索引为j;
ej的具体定义如公式(1-4)所示:
Figure FDA0004155327670000031
其中ej包括子任务卸载索引Iv,p、子任务的自身数据大小
Figure FDA0004155327670000032
子任务所需的计算资源量cv,p、处理器处理速率fv,f1,…,fM和子信道带宽ω1,…,ωR
b.动作空间:采用如公式(1-5)所示的R×M+1维二元向量来表示时间步t的卸载动作,其中,atk,k=(r-1)×M+m代表第r个子信道是否被用来传输数据以及第m个处理器是否被用来处理子任务;特别地,at0=1表示子任务在本地车辆上进行计算;
at=[at0,at1,…,atk,…]                    (1-5)
c.奖励函数:奖励被定义为之前子任务tv′,p′的计算完成时间CE(tv′,p′)与目前子任务tv,p的计算完成时间CE(tv,p)的差,如公式(1-6)所示:
Figure FDA0004155327670000033
其中,tv′,p′在tv,p之前被调度。
2.根据权利要求1所述的快速适应任务卸载方法,其特征在于:任务卸载系统中所述应用层包括:车辆导航任务、人脸识别任务和增强车辆现实任务;
车辆导航任务用于为车辆提供路径搜索和路径规划服务;
人脸识别任务用于根据采集到的含有人脸的图像或视频流,自动检测和跟踪人脸,进而对人脸进行识别,从而确定人物身份;
增强车辆现实任务用于将导航和辅助驾驶等虚拟信息与实景相结合,为用户提供更自然的交互。
3.根据权利要求2所述的快速适应任务卸载方法,其特征在于:所述增强车辆现实任务包括:目标跟踪、目标识别、透视变换和融合处理子任务;
人脸识别任务包括:复制图像、图像检测、特征融合、分裂识别和展示结果子任务;
车辆导航任务包括:输入目的地、获取GPS坐标、获取最优路径、获取交通状况、生成路径子任务。
4.根据权利要求1所述的快速适应任务卸载方法,其特征在于:所述根据子任务的层级对其进行卸载排序的规则为:位于更低层级的子任务的调度优先级更高,并且拥有更小的卸载索引,位于相同层级的子任务,其调度优先级随机分配;具有更高调度优先级的子任务可以在队列中优先被传输或计算。
5.根据权利要求1所述的快速适应任务卸载方法,其特征在于:所述基于Seq2Seq的强化学习模型包括:编码器和解码器;
所述编码器由一个双向门控循环单元(BiGRU)组成,用
Figure FDA0004155327670000041
Figure FDA0004155327670000042
分别表示BiGRU的前向和反向函数;编码器根据卸载索引的升序对子任务进行循环编码然后输出向量
Figure FDA0004155327670000043
如公式(1-7)所示:
Figure FDA0004155327670000044
所述解码器由一个注意力GRU构成,用hdec表示GRU的解码函数;用dj表示解码器对卸载索引为j的子任务的输出,该输出由上下文向量cj、前一个卸载动作aj-1和前一个输出dj-1共同决定,如公式(1-8)所示:
dj=hdec(dj-1,cj,aj-1)              (1-8)
其中,cj是由注意力机制生成的上下文向量,用于对卸载索引为j的子任务的动作进行预测。
6.根据权利要求5所述的快速适应任务卸载方法,其特征在于:所述注意力机制由一个前向神经网络实现;cj的计算方法如公式(1-9)所示,其中,αjk是衡量
Figure FDA0004155327670000051
对输出dj贡献程度的权重,它能够对子任务之间的内在关系进行准确评估;
Figure FDA0004155327670000052
7.根据权利要求1所述的快速适应任务卸载方法,其特征在于:所述本地训练中,PPO通过重要性采样将在线训练过程转化为离线训练过程;PPO中存在着目标策略πθ和采样策略πθ′两种不同的策略;
首先,πθ′在采样之前被初始化为πθ,然后,基于采样策略πθ′,PPO生成经验轨迹数据,并使用这些数据对目标策略πθ进行更新;此外,PPO还在目标函数中增加了KL散度和PPO-clip两项内容以使得训练更加稳定,如下所示:
Figure FDA0004155327670000053
其中,μ代表KL散度KL(θ,θ′)的权重,KL散度对πθ和πθ′之间的差异进行评估,从而减少两种策略之间的差距;裁剪函数
Figure FDA0004155327670000054
将Prt的值限制在区间[1-ε,1+ε]内,从而避免参数的过度更新;Prt代表在时间步t时目标策略πθ和采样策略πθ′的概率比值,如公式(1-11)所示;
Figure FDA0004155327670000055
是时间步t时的优势函数值,采用一般优势估计(GAE)作为优势函数,如公式(1-12)所示;
Figure FDA0004155327670000061
Figure FDA0004155327670000062
其中,γ代表奖励折扣因子,λ用于平衡
Figure FDA0004155327670000063
的方差和偏差,V(st)为状态值函数,表示从st开始的未来期望累积折扣奖励;然后,状态值函数的损失定义如下;
Figure FDA0004155327670000064
基于公式(1-10)和公式(1-13),PPO的目标函数如公式(1-14)所示,其中η为状态值损失函数系数;PPO的更新公式如公式(1-15)所示,其中α是本地学习率;
J(θ)=JP(θ)-ηJV(θ)          (1-14)
Figure FDA0004155327670000065
8.根据权利要求1所述的快速适应任务卸载方法,其特征在于:所述全局训练中,基于元学习框架来训练一个全局模型,设新的任务卸载场景Ti;公式(1-16)为元学习的目标函数,其中
Figure FDA0004155327670000066
是公式(1-14)中任务Ti的目标函数;公式(1-17)为全局模型的参数更新函数,其中β是全局训练的学习率;
Figure FDA0004155327670000067
Figure FDA0004155327670000068
公式(1-17)中的参数更新需要进行二次求导,使用一阶近似方法来解决该问题,如公式(1-18)所示,其中,m为本地训练的更新次数,n表示采样任务数;
Figure FDA0004155327670000069
CN202210579266.0A 2022-05-25 2022-05-25 基于移动边缘计算的快速适应任务卸载系统和方法 Active CN115002123B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210579266.0A CN115002123B (zh) 2022-05-25 2022-05-25 基于移动边缘计算的快速适应任务卸载系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210579266.0A CN115002123B (zh) 2022-05-25 2022-05-25 基于移动边缘计算的快速适应任务卸载系统和方法

Publications (2)

Publication Number Publication Date
CN115002123A CN115002123A (zh) 2022-09-02
CN115002123B true CN115002123B (zh) 2023-05-05

Family

ID=83029377

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210579266.0A Active CN115002123B (zh) 2022-05-25 2022-05-25 基于移动边缘计算的快速适应任务卸载系统和方法

Country Status (1)

Country Link
CN (1) CN115002123B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116595575A (zh) * 2023-04-18 2023-08-15 广州大学 一种面向边缘智能控制器的依赖任务卸载和隐私保护方法
CN116592883B (zh) * 2023-04-25 2024-04-30 三峡大学 一种基于注意力和循环ppo实现的导航决策方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113504987A (zh) * 2021-06-30 2021-10-15 广州大学 基于迁移学习的移动边缘计算任务卸载方法及装置
CN113612843A (zh) * 2021-08-02 2021-11-05 吉林大学 一种基于深度强化学习的mec任务卸载和资源分配方法
CN113873022A (zh) * 2021-09-23 2021-12-31 中国科学院上海微系统与信息技术研究所 一种可划分任务的移动边缘网络智能资源分配方法
CN113950066A (zh) * 2021-09-10 2022-01-18 西安电子科技大学 移动边缘环境下单服务器部分计算卸载方法、系统、设备

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109067842B (zh) * 2018-07-06 2020-06-26 电子科技大学 面向车联网的计算任务卸载方法
US11481418B2 (en) * 2020-01-02 2022-10-25 International Business Machines Corporation Natural question generation via reinforcement learning based graph-to-sequence model
CN112188442B (zh) * 2020-11-16 2021-12-07 西南交通大学 基于移动边缘计算的车联网数据驱动任务卸载系统和方法
CN113225377B (zh) * 2021-03-30 2022-07-15 北京中电飞华通信有限公司 物联网边缘任务卸载方法及装置
CN113296845B (zh) * 2021-06-03 2022-10-14 南京邮电大学 一种边缘计算环境下基于深度强化学习的多小区任务卸载算法
CN113568675B (zh) * 2021-07-08 2024-04-12 广东利通科技投资有限公司 一种基于分层强化学习的车联网边缘计算任务卸载方法
CN113687875B (zh) * 2021-08-10 2024-03-19 北京科技大学 一种车联网中车辆任务卸载方法及装置
CN114217967A (zh) * 2021-12-16 2022-03-22 北京邮电大学 基于多用户协同移动边缘计算系统的动态卸载方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113504987A (zh) * 2021-06-30 2021-10-15 广州大学 基于迁移学习的移动边缘计算任务卸载方法及装置
CN113612843A (zh) * 2021-08-02 2021-11-05 吉林大学 一种基于深度强化学习的mec任务卸载和资源分配方法
CN113950066A (zh) * 2021-09-10 2022-01-18 西安电子科技大学 移动边缘环境下单服务器部分计算卸载方法、系统、设备
CN113873022A (zh) * 2021-09-23 2021-12-31 中国科学院上海微系统与信息技术研究所 一种可划分任务的移动边缘网络智能资源分配方法

Also Published As

Publication number Publication date
CN115002123A (zh) 2022-09-02

Similar Documents

Publication Publication Date Title
CN115002123B (zh) 基于移动边缘计算的快速适应任务卸载系统和方法
CN113346944B (zh) 空天地一体化网络中时延最小化计算任务卸载方法及系统
CN111932027B (zh) 一种融合边缘设施的云服务综合调度优化系统及方法
Khochare et al. Heuristic algorithms for co-scheduling of edge analytics and routes for UAV fleet missions
CN112988285B (zh) 任务卸载方法和装置、电子设备及存储介质
CN112511614B (zh) 基于强化学习的车载边缘环境下智能网联车辆任务卸载方法
WO2022242468A1 (zh) 任务卸载方法、调度优化方法和装置、电子设备及存储介质
Qi et al. Deep reinforcement learning based task scheduling in edge computing networks
CN115033359A (zh) 一种基于时延控制的物联代理多任务调度方法和系统
Qi et al. Vehicular edge computing via deep reinforcement learning
Gao et al. Fast adaptive task offloading and resource allocation via multiagent reinforcement learning in heterogeneous vehicular fog computing
CN114189869A (zh) 基于边缘计算的无人车协同路径规划和资源分配方法
CN116893861A (zh) 基于空地协同边缘计算的多智能体协作依赖任务卸载方法
CN116755882A (zh) 一种边缘计算中具有依赖关系任务的计算卸载方法及系统
Lv et al. Edge computing task offloading for environmental perception of autonomous vehicles in 6G networks
Li et al. Dependency-aware vehicular task scheduling policy for tracking service VEC networks
Liu et al. GA-DRL: Graph Neural Network-Augmented Deep Reinforcement Learning for DAG Task Scheduling over Dynamic Vehicular Clouds
CN116009990B (zh) 基于宽注意力机制的云边协同元强化学习计算卸载方法
CN113190342A (zh) 用于云-边协同网络的多应用细粒度卸载的方法与系统架构
CN117202264A (zh) Mec环境中面向5g网络切片的计算卸载方法
CN116451585A (zh) 基于目标检测模型的自适应实时学习任务调度方法
CN116193396A (zh) 空天地一体化车联网中基于切片的协作式任务卸载方法
CN115208892A (zh) 基于动态资源需求的车路协同在线任务调度方法及系统
Gao et al. Fast Adaptive Task Offloading and Resource Allocation in Large-Scale MEC Systems via Multiagent Graph Reinforcement Learning
Saranya et al. An efficient computational offloading framework using HAA optimization-based deep reinforcement learning in edge-based cloud computing architecture

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant