CN113568675A - 一种基于分层强化学习的车联网边缘计算任务卸载方法 - Google Patents

一种基于分层强化学习的车联网边缘计算任务卸载方法 Download PDF

Info

Publication number
CN113568675A
CN113568675A CN202110772708.9A CN202110772708A CN113568675A CN 113568675 A CN113568675 A CN 113568675A CN 202110772708 A CN202110772708 A CN 202110772708A CN 113568675 A CN113568675 A CN 113568675A
Authority
CN
China
Prior art keywords
task
network
decision
attention
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110772708.9A
Other languages
English (en)
Other versions
CN113568675B (zh
Inventor
徐跃东
游新宇
戴连贵
邢万勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Litong Technology Investment Co ltd
Fudan University
Original Assignee
Guangdong Litong Technology Investment Co ltd
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Litong Technology Investment Co ltd, Fudan University filed Critical Guangdong Litong Technology Investment Co ltd
Priority to CN202110772708.9A priority Critical patent/CN113568675B/zh
Publication of CN113568675A publication Critical patent/CN113568675A/zh
Application granted granted Critical
Publication of CN113568675B publication Critical patent/CN113568675B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44594Unloading
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/10Geometric CAD
    • G06F30/15Vehicle, aircraft or watercraft design
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5038Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/04Constraint-based CAD
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/06Multi-objective optimisation, e.g. Pareto optimisation using simulated annealing [SA], ant colony algorithms or genetic algorithms [GA]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/509Offload
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明属于车联网边缘计算技术领域,具体为一种基于分层强化学习的车联网边缘计算任务卸载方法。本发明首先将车联网边缘计算网络中的任务卸载问题建模为以最小化时延‑能耗‑费用联合损失函数为目标的优化问题,其中优化参数为任务执行顺序、计算决策、本地资源分配和传输功率控制;然后将具有任务关联性的应用以有向无环图的形式表示,并利用图神经网络挖掘其中的隐含特征,同时利用分层强化学习算法处理离散连续混合动作空间。以真实环境中采取的汽车速度作为数据集进行仿真实验,结果表明,相比于启发式算法,本发明方法在多种环境参数下均能自适应地调节任务卸载和资源分配策略,进而更有效地降低系统损失函数。

Description

一种基于分层强化学习的车联网边缘计算任务卸载方法
技术领域
本发明属于车联网边缘计算技术领域,具体涉及基于分层强化学习的车联网边缘计算任务卸载方法。
背景技术
随着车联网的不断发展,辅助驾驶、增强现实和图像处理等应用已逐步在车载设备中部署,以提升车内人员的驾驶体验[1]。这些应用通常具有两大特点:计算资源需求大和实时性要求高。然而,车载设备计算资源有限且能量供应有限,往往无法满足这些应用的需求[2]。
通过引入具有强大运算能力的云服务器,移动云计算(Mobile Cloud Computing,MCC)被视为能够解决以上所述问题的有效方式[3]。为了获取充足的计算资源和节约能量消耗,车载设备可以选择将计算密集型任务卸载至云服务器中执行。尽管移动云计算能带来丰富的计算资源,但是车载设备和云服务器之间过远的物理距离将带来较长的数据传输时延,而这恰与任务的实时性要求相悖。
为了处理移动云计算的时延问题,研究人员提出了移动边缘计算(MobileEdgeComputing,MEC)的概念[4]。在移动边缘计算中,拥有高运算能力的服务器不再位于遥远的云端,而是设置于离用户端更近的边缘网络中。通过结合车联网和移动边缘计算,车联网边缘计算(Vehicular edge computing,VEC)将边缘服务器部署于道路两旁的基站中,以大幅降低数据传输时延和保证数据连接的稳定性[5]。车联网边缘计算中的任务卸载问题也成为学界的研究热点。文献[6]提出了一种基于博弈论的任务卸载算法,同时证明了多车辆任务卸载问题中纳什均衡的存在。文献[7]构建了以最小化车辆和边缘服务器的损耗和为目标的双边优化问题,并基于李雅普诺夫优化提出了相应的任务卸载和资源分配策略。文献[8]考虑到车辆的移动性,提出了“直接上传-接替传输”的组合卸载方式,以大幅降低任务的处理时延和传输效率。然而,车联网边缘计算中仍存在一些关键问题未得到解决:
(1)具有任务关联性的应用。前述工作均只考虑处理单个应用的计算资源和实时性需求,但依靠动态分割技术[9],单个应用可被分解为具有执行先后顺序的多个子任务。在不破坏子任务执行关联性的前提下,如何有效处理该类应用仍具有较大挑战;
(2)系统损失函数。前述工作的优化目标仅考虑了任务处理时延和能量消耗,而未考虑边缘计算服务费用[6-8]。设计一种任务卸载策略以平衡时延-能量-费用是十分必要的;
(3)计算复杂度。车联网边缘计算中任务卸载问题往往被构造为非线性混合整数问题,具有NP难的特征且无法在多项式时间内解决[10]。而过长的求解时间对于实时性要求高的任务无法接受,因此设计一种不牺牲性能且能快速求解的任务卸载算法非常重要。
发明内容
本发明的目的在于提供一种自适应的任务卸载和资源分配联合策略,从而实现降低系统损失函数的基于分层强化学习的车联网边缘计算任务卸载策略。
本发明提供的基于分层强化学习的车联网边缘计算任务卸载方法,首先将车联网边缘计算网络中的任务卸载问题建模为以最小化时延-能耗-费用联合损失函数为目标的优化问题,其中优化参数为任务执行顺序、计算决策、本地资源分配和传输功率控制;接着,提出了深度分层任务卸载策略,以端到端的方式解决该非线性混合整数规划;将具有任务关联性的应用以有向无环图的形式表示,并利用图神经网络提取蕴含在子任务中的高维信息,同时利用分层强化学习算法处理包含两个离散动作和两个连续动作的混合动作空间。仿真实验以真实采集的车辆速度作为数据集,实验结果表明相比于启发式算法,本发明提出的算法在多种环境参数下均能大幅度降低系统损失函数。
本发明提供的基于分层强化学习的车联网边缘计算任务卸载方法,具体步骤如下。
(一)首先,对车联网边缘计算进行数学建模,具体包括:
车联网边缘计算系统模型中包含M个基站和一辆汽车,边缘服务器部署于基站中;各基站均匀分布于道路两旁,且拥有相同的覆盖范围R,各基站仅能与其覆盖范围内的车载设备建立连接;汽车以动态变化的速度v行驶于道路中;
使用动态分割技术,将车载设备中的计算密集型应用分解为N个具有执行先后顺序的子任务,并以有向无环图G=(V,E)表示,各节点i∈V代表一个任务,各有向边e(i,j)∈E代表任务i和任务j的处理顺序,即任务j需要在任务i处理完成后才能执行;
问题的优化目标为最小化时延-能量-费用联合损失函数,定义为任务的处理时延、能量消耗和服务费用的加权和;基于任务的计算决策ki(若ki=0表示任务本地执行,反之若ki=1表示任务本地执行),可以得到任务i的处理时延ti、能量消耗ei和服务费用ci分别为:
Figure BDA0003154421290000021
Figure BDA0003154421290000022
Figure BDA0003154421290000023
其中,
Figure BDA0003154421290000024
Figure BDA0003154421290000025
分别为任务i的本地处理时延和边缘处理时延,
Figure BDA0003154421290000026
Figure BDA0003154421290000027
分别为任务i的本地能量消耗和边缘能量消耗,
Figure BDA0003154421290000028
代表任务i的边缘服务费用。由此,所有任务的损失函数和U为:
Figure BDA0003154421290000031
其中,0≤β1,β23≤1表示加权系数。
为了最小化系统损失函数U,需要联合优化任务卸载和资源分配策略;问题的优化参数分别为任务的执行顺序
Figure BDA0003154421290000032
计算决策
Figure BDA0003154421290000033
本地计算CPU频率
Figure BDA0003154421290000034
和边缘计算传输功率
Figure BDA0003154421290000035
于是,车联网边缘计算任务卸载问题建模为以下非线性混合整数规划:
Figure BDA0003154421290000036
s.t. C1:yi∈{0,1,…,N}
C2:ki∈{0,1}
Figure BDA0003154421290000037
C4:0≤pi≤pmax
Figure BDA0003154421290000038
其中,约束C1限制任务编号的取值,约束C2限制任务计算决策为本地执行或者边缘执行之一,约束C3和约束C4限制本地CPU频率和传输功率的取值范围,约束C5限制任务的执行先后顺序;该非线性混合整数规划问题为非凸且NP难,优化变量包含两个整数参数向量
Figure BDA0003154421290000039
Figure BDA00031544212900000310
以及两个连续参数
Figure BDA00031544212900000311
Figure BDA00031544212900000312
(二)其次,利用图神经网络提取有向无环图特征,具体包括:
图神经网络为图注意力网络,由两层隐含层组成,并以ReLU(Rectified LinearUnit)作为激活函数;图神经网络的输入为节点特征矢量集
Figure BDA00031544212900000313
其中F表示各节点特征
Figure BDA00031544212900000314
的特征维数,N为节点特征矢量集h中分量的个数;在隐含层中,各节点输入信息通过共享的线性转换矩阵
Figure BDA00031544212900000315
转变为高维特征,其中,F′表示各节点新生成的高维特征的特征维数;此外,通过引入注意力机制
Figure BDA00031544212900000316
在隐含层中,将不同相邻节赋予不同的重要性程度;以相邻节点对的高维特征作为输入,计算得到注意力系数eij,代表节点j的特征对于节点i的重要性程度,即:
Figure BDA00031544212900000317
得到节点i所有相邻节点对包括节点i本身的注意力系数eij后,对其进行归一化操作;具体是通过引入softmax函数,得到归一化注意力系数e′ij
Figure BDA0003154421290000041
其中,
Figure BDA0003154421290000042
表示节点i的相邻节点集合;
为了更好的特征提取效果,引入多头注意力机制,即独立进行K次注意力操作ak后将其结果进行联立,最终得到的输出特征,其计算式为:
Figure BDA0003154421290000043
其中||表示联立操作,K表示注意力头数,e′ij k和Wk分别表示第k次注意力才做的归一化注意力系数和权重矩阵;通过上述操作,节点的特征维度由F上升为KF′。
(三)然后,定义分层动作空间和强化学习建模,具体包括:
智能体的动作空间为分层结构,具体分为以下三部分:
(1)任务序号:车载设备需要决定任务处理的先后顺序,并不违背任务关联性;
(2)计算决策:车载设备需要决定任务为本地执行或者边缘执行;
(3)连续参数选择:若车载设备决定任务为本地执行,则需要确定CPU频率的分配;若车载设备决定任务为边缘执行,则需要确定传输功率;
于是,问题的动作空间A可以表述为:
A={ad,ac}={(yi,ki=0,fi)∪(yi,ki=1,pi)}
其中,ad代表离散动作集,ac代表连续动作集;定义智能体在时刻t选取的动作为at=(yt,kt,ft,pt),相应的状态动作值函数为Q(st,at),其中,
Figure BDA0003154421290000044
Figure BDA0003154421290000045
又此,得出本问题下的最优贝尔曼方程:
Figure BDA0003154421290000046
其中,rt为单步奖励,γ为折扣因子;
车联网边缘计算任务卸载问题可建模为马尔可夫决策过程,其中各元素的物理意义如下:
(1)状态空间:包含任务状态和环境状态两部分;其中任务状态为有向无环图中各任务的初始信息
Figure BDA0003154421290000047
其中DIi和DOi分别为任务的输出和输出数据量,Ci为任务的计算资源消耗,Ei代表任务完成情况;环境状态
Figure BDA0003154421290000048
包括车辆与当前连接基站起始点间的距离dt,剩余未完成的任务数nt,以及车辆前10秒的速度
Figure BDA0003154421290000049
(2)动作空间:为分层结构,共四个动作,包含两个离散动作和两个连续动作,分别为任务序号yt,计算决策kt,本地分配CPU频率ft和传输功率pt
(3)奖励函数:由于本问题的优化目标为最小化任务的时延-能量-费用联合损失函数,因此定义奖励为执行完任务后获得的处理时延、能量消耗和服务费用的加权和ut=β1ti2ei3ci
(四)最后,设计深度分层任务卸载算法流程,具体包括:
智能体(即车载设备)的决策系统由图注意力网络和分层动作决策网络构成,以实现状态信息和分层动作空间的映射;
首先,初始化图注意力网络Qg(s,a;θg),分层动作决策网络Qp(s,a;θp)及其目标网络Q′p(s,a;θ′p),其中θ′p=θp,同时初始化经验回放池(Replay Buffer)D,以存储环境转移信息;
在训练过程中,对于每个决策时刻t,智能体已完成上一个任务TASKt-1,并准备执行新的任务TASKt;此时,智能体观测到任务状态
Figure BDA0003154421290000051
和环境状态
Figure BDA0003154421290000052
将其输入图注意力网络中进行特征提取,并最终得出各任务的Q值的估计;其中估计Q值最大的任务设为当前时刻t将处理的任务TASKt,同时确定了任务序号yt的选择;
接着,将该任务的特征信息和环境信息作为分层动作决策网络的输入,并最终得到分层动作的选择at={(yt,kt=0,ft)∪(yt,kt=1,pt)}和相应Q值Qp(st,at;θp);为了充分探索动作空间,离散动作yt和kt的决定将依照∈-贪婪策略,连续动作ft和pt的决定将遵循OU过程;待分层动作at确定后,若计算决策kt=0,则任务TASKt将以CPU频率ft本地执行;若计算决策kt=1,则任务TASKt将以传输功率pt上传至边缘服务器执行;之后,环境状态将转变为st+1,并反馈给智能体t时刻的单步奖励rt;智能体将环境转变(st,at,st+1,rt)储存至经验回放池D中;
在参数更新过程中,智能体从经验回放池D中随机采样出批量训练数据(sj,aj,sj+1,rj);对于图注意力网络和分层动作决策网络,目标值zj均设为单步奖励rj与目标网络输出V值之和,即:
zj=rj+γV′(sj)
其中,γ为折扣因子;为了使网络估计Q值逼近目标值,损失函数设为目标值zj和当前网络输出Q值的均方差,即:
Figure BDA0003154421290000053
Figure BDA0003154421290000054
最后,以最小化损失函数为目标,对各网络参数进行梯度下降更新,即:
Figure BDA0003154421290000061
其中,αg和αp分别为图注意力网络和分层动作决策网络的学习率,τ为目标网络更新率。
本发明提出的基于分层强化学习的车联网边缘计算任务卸载方法,可以动态调整任务卸载和资源分配,以达到本地计算和边缘计算的平衡。以真实环境中采取的汽车行驶速度作为数据集进行仿真实验,实验结果表明,相比于启发式算法,本发明提出的算法在不同的环境参数下均能带来更低的联合损失函数和更优的性能表现。
附图说明
图1为车联网边缘计算系统模型。
图2为任务有向无环图。
图3为图注意力网络结构。
图4为真实环境中采集的车辆速度轨迹。
图5为系统损失函数与信道带宽的关系。
图6为系统损失函数与基站覆盖范围的关系。
具体实施方式
设实施例的参数
仿真环境:Python;
仿真平台:如图1所示;
奖励折扣因子:0.99;
图注意力网络的学习率:0.001;
分层动作决策网络的学习率:0.01。
基于分层强化学习的车联网边缘计算任务卸载方法,具体步骤为:
步骤1:初始化图注意力网络Qg(s,a;θg),分层动作决策网络Qp(s,a;θp)及其目标网络Q′p(s,a;θ′p),其中θ′p=θp,同时初始化经验回放池D。
步骤2:观测当前环境状态st,选择并执行分层动作at={(yt,kt=0,ft)∪(yt,kt=1,pt)}。
步骤3:观测下一环境状态st+1并获得单步奖励rt
步骤4:将环境转变(st,at,st+1,rt)储存至经验回放池D,再从经验回放池D中随机采样批量训练数据(sj,aj,sj+1,rj)。
步骤5:设置目标值zj=rj+γV′(sj),设置损失函数
Figure BDA0003154421290000062
以及
Figure BDA0003154421290000071
更新网络参数
Figure BDA0003154421290000072
Figure BDA0003154421290000073
仿真结果:
如图5所示,为系统损失函数与信道带宽的关系。本发明提出的算法相比于另外三种比较算法对于带宽变化较为鲁棒。
如图6所示,为系统损失函数与基站覆盖范围的关系,相比于比较算法,本发明提出的算法曲线斜率较低,说明其性能不易受基站覆盖范围的影响。
参考文献
[1]Zhao J,Li Q,Gong Y,et al.Computation offloading and resourceallocation for cloud assisted mobile edge computing in vehicular networks[J].IEEE Transactions on Vehicular Technology,2019,68(8):7944-7956.
[2]Yan J,Bi S,Zhang Y J,et al.Optimal task offloading and resourceallocation in mobile-edge computing with inter-user task dependency[J].IEEETransactions on Wireless Communications,2019,19(1):235-250.
[3]Dinh H T,Lee C,Niyato D,et al.A survey of mobile cloud computing:architecture,applications,and approaches[J].Wireless communications andmobile computing,2013,13(18):1587-1611.
[4]Patel M,Naughton B,Chan C,et al.Mobile-edge computing introductorytechnical white paper[J].White paper,mobile-edge computing(MEC)industryinitiative,2014,29:854-864.
[5]Abbas N,Zhang Y,Taherkordi A,et al.Mobile edge computing:A survey[J].IEEE Internet of Things Journal,2017,5(1):450-465.
[6]Liu Y,Wang S,Huang J,et al.A computation offloading algorithmbased on game theory for vehicular edge networks[C]//2018IEEE InternationalConference on Communications(ICC).IEEE,2018:1-6.
[7]Du J,Yu F R,Chu X,et al.Computation offloading and resourceallocation in vehicular networks based on dual-side cost minimization[J].IEEETransactions on Vehicular Technology,2018,68(2):1079-1092.
[8]Zhang K,Mao Y,Leng S,et al.Mobile-edge computing for vehicularnetworks:A promising network paradigm with predictive off-loading[J].IEEEVehicular Technology Magazine,2017,12(2):36-44.
[9]Yang L,Cao J,Cheng H,et al.Multi-user computation partitioning forlatency sensitive mobile cloud applications[J].IEEE Transactions onComputers,2014,64(8):2253-2266.
[10]Dinh T Q,Tang J,La Q D,et al.Offloading in mobile edge computing:Task allocation and computational frequency scaling[J].IEEE Transactions onCommunications,2017,65(8):3571-3584.
[11]Kipf T N,Welling M.Semi-supervised classification with graphconvolutional networks[J].arXiv preprint arXiv:1609.02907,2016.。

Claims (1)

1.一种基于分层强化学习的车联网边缘计算任务卸载方法,其特征在于,具体步骤如下:
(一)对车联网边缘计算进行数学建模,具体包括:
车联网边缘计算系统模型中包含M个基站和一辆汽车,边缘服务器部署于基站中;各基站均匀分布于道路两旁,且拥有相同的覆盖范围R,各基站仅能与其覆盖范围内的车载设备建立连接;汽车以动态变化的速度v行驶于道路中;
使用动态分割技术,将车载设备中的计算密集型应用分解为N个具有执行先后顺序的子任务,并以有向无环图G=(V,E)表示,各节点i∈V代表一个任务,各有向边e(i,j)∈E代表任务i和任务j的处理顺序,即任务j需要在任务i处理完成后才能执行;
问题的优化目标为最小化时延-能量-费用联合损失函数,定义为任务的处理时延、能量消耗和服务费用的加权和;基于任务的计算决策ki,即若ki=0表示任务本地执行,反之若ki=1表示任务本地执行,得到任务i的处理时延ti、能量消耗ei和服务费用ci分别为:
Figure FDA0003154421280000011
Figure FDA0003154421280000012
Figure FDA0003154421280000013
其中,
Figure FDA0003154421280000014
Figure FDA0003154421280000015
分别为任务i的本地处理时延和边缘处理时延,
Figure FDA0003154421280000016
Figure FDA0003154421280000017
分别为任务i的本地能量消耗和边缘能量消耗,
Figure FDA0003154421280000018
代表任务i的边缘服务费用;由此,所有任务的损失函数和U为:
Figure FDA0003154421280000019
其中,0≤β123≤1表示加权系数;
为了最小化系统损失函数U,需要联合优化任务卸载和资源分配策略;问题的优化参数分别为任务的执行顺序
Figure FDA00031544212800000110
计算决策
Figure FDA00031544212800000111
本地计算CPU频率
Figure FDA00031544212800000112
和边缘计算传输功率
Figure FDA00031544212800000113
于是,车联网边缘计算任务卸载问题建模为以下非线性混合整数规划:
Figure FDA00031544212800000114
U
s.t.C1:yi∈{0,1,…,N}
C2:ki∈{0,1}
C3:
Figure FDA00031544212800000115
C4:0≤pi≤pmax
C5:
Figure FDA00031544212800000116
其中,约束C1限制任务编号的取值,约束C2限制任务计算决策为本地执行或者边缘执行之一,约束C3和约束C4限制本地CPU频率和传输功率的取值范围,约束C5限制任务的执行先后顺序;该非线性混合整数规划问题为非凸且NP难,优化变量包含两个整数参数向量
Figure FDA00031544212800000210
Figure FDA00031544212800000211
以及两个连续参数
Figure FDA00031544212800000212
Figure FDA00031544212800000213
(二)利用图神经网络提取有向无环图特征,具体包括:
图神经网络为图注意力网络,由两层隐含层组成,并以ReLU(Rectified Linear Unit)作为激活函数;图神经网络的输入为节点特征矢量集
Figure FDA0003154421280000021
其中F表示各节点特征
Figure FDA0003154421280000022
的特征维数,N为节点特征矢量集h中分量的个数;在隐含层中,各节点输入信息通过共享的线性转换矩阵
Figure FDA0003154421280000023
转变为高维特征,其中,F′表示各节点新生成的高维特征的特征维数;此外,通过引入注意力机制a:
Figure FDA0003154421280000024
在隐含层中,将不同相邻节赋予不同的重要性程度;以相邻节点对的高维特征作为输入,计算得到注意力系数eij,代表节点j的特征对于节点i的重要性程度,即:
Figure FDA0003154421280000025
得到节点i所有相邻节点对包括节点i本身的注意力系数eij后,对其进行归一化操作;具体是通过引入softmax函数,得到归一化注意力系数
Figure FDA0003154421280000026
Figure FDA0003154421280000027
其中,
Figure FDA0003154421280000028
表示节点i的相邻节点集合;
为了更好的特征提取效果,引入多头注意力机制,即独立进行K次注意力操作ak后将其结果进行联立,最终得到的输出特征,其计算式为:
Figure FDA0003154421280000029
其中||表示联立操作,K表示注意力头数,e′ij k和Wk分别表示第k次注意力才做的归一化注意力系数和权重矩阵;通过上述操作,节点的特征维度由F上升为KF′;
(三)定义分层动作空间和强化学习建模,具体包括:
智能体的动作空间为分层结构,具体分为以下三部分:
(1)任务序号:车载设备需要决定任务处理的先后顺序,并不违背任务关联性;
(2)计算决策:车载设备需要决定任务为本地执行或者边缘执行;
(3)连续参数选择:若车载设备决定任务为本地执行,则需要确定CPU频率的分配;若车载设备决定任务为边缘执行,则需要确定传输功率;
于是,问题的动作空间A表述为:
A={ad,ac}={(yi,ki=0,fi)∪(yi,ki=1,pi)},
其中,ad代表离散动作集,ac代表连续动作集;定义智能体在时刻t选取的动作为at=(yt,kt,ft,pt),相应的状态动作值函数为Q(st,at),其中,
Figure FDA0003154421280000031
Figure FDA0003154421280000032
又此,得出本问题下的最优贝尔曼方程:
Figure FDA0003154421280000033
其中,rt为单步奖励,γ为折扣因子;
车联网边缘计算任务卸载问题可建模为马尔可夫决策过程,其中各元素的物理意义如下:
(1)状态空间:包含任务状态和环境状态两部分;其中任务状态为有向无环图中各任务的初始信息
Figure FDA0003154421280000034
其中DIi和DOi分别为任务的输出和输出数据量,Ci为任务的计算资源消耗,Ei代表任务完成情况;环境状态
Figure FDA0003154421280000035
包括车辆与当前连接基站起始点间的距离dt,剩余未完成的任务数nt,以及车辆前10秒的速度
Figure FDA0003154421280000036
(2)动作空间:为分层结构,共四个动作,包含两个离散动作和两个连续动作,分别为任务序号yt,计算决策kt,本地分配CPU频率ft和传输功率pt
(3)奖励函数:由于本问题的优化目标为最小化任务的时延-能量-费用联合损失函数,因此定义奖励为执行完任务后获得的处理时延、能量消耗和服务费用的加权和ut=β1ti2ei3ci
(四)设计深度分层任务卸载算法流程,具体包括:
智能体即车载设备的决策系统由图注意力网络和分层动作决策网络构成,以实现状态信息和分层动作空间的映射;
首先,初始化图注意力网络Qg(s,a;θg),分层动作决策网络Qp(s,a;θp)及其目标网络Q′p(s,a;θ′p),其中θ′p=θp,同时初始化经验回放池D,以存储环境转移信息;
在训练过程中,对于每个决策时刻t,智能体已完成上一个任务TASKt-1,并准备执行新的任务TASKt;此时,智能体观测到任务状态
Figure FDA0003154421280000037
和环境状态
Figure FDA0003154421280000038
将其输入图注意力网络中进行特征提取,并最终得出各任务的Q值的估计;其中估计Q值最大的任务设为当前时刻t将处理的任务TASKt,同时确定了任务序号yt的选择;
接着,将该任务的特征信息和环境信息作为分层动作决策网络的输入,并最终得到分层动作的选择at={(yt,kt=0,ft)∪(yt,kt=1,pt)}和相应Q值Qp(st,at;θp);为了充分探索动作空间,离散动作yt和kt的决定将依照∈-贪婪策略,连续动作ft和pt的决定将遵循OU过程;待分层动作at确定后,若计算决策kt=0,则任务TASKt将以CPU频率ft本地执行;若计算决策kt=1,则任务TASKt将以传输功率pt上传至边缘服务器执行;之后,环境状态将转变为st+1,并反馈给智能体t时刻的单步奖励rt;智能体将环境转变(st,at,st+1,rt)储存至经验回放池D中;
在参数更新过程中,智能体从经验回放池D中随机采样出批量训练数据(sj,aj,sj+1,rj);对于图注意力网络和分层动作决策网络,目标值zj均设为单步奖励rj与目标网络输出V值之和,即:
zj=rj+γV′(sj)
其中,γ为折扣因子;为了使网络估计Q值逼近目标值,损失函数设为目标值zj和当前网络输出Q值的均方差,即:
Figure FDA0003154421280000041
Figure FDA0003154421280000042
最后,以最小化损失函数为目标,对各网络参数进行梯度下降更新,即:
Figure FDA0003154421280000043
其中,αg和αp分别为图注意力网络和分层动作决策网络的学习率,τ为目标网络更新率。
CN202110772708.9A 2021-07-08 2021-07-08 一种基于分层强化学习的车联网边缘计算任务卸载方法 Active CN113568675B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110772708.9A CN113568675B (zh) 2021-07-08 2021-07-08 一种基于分层强化学习的车联网边缘计算任务卸载方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110772708.9A CN113568675B (zh) 2021-07-08 2021-07-08 一种基于分层强化学习的车联网边缘计算任务卸载方法

Publications (2)

Publication Number Publication Date
CN113568675A true CN113568675A (zh) 2021-10-29
CN113568675B CN113568675B (zh) 2024-04-12

Family

ID=78164124

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110772708.9A Active CN113568675B (zh) 2021-07-08 2021-07-08 一种基于分层强化学习的车联网边缘计算任务卸载方法

Country Status (1)

Country Link
CN (1) CN113568675B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200364580A1 (en) * 2019-05-16 2020-11-19 Salesforce.Com, Inc. Learning World Graphs to Accelerate Hierarchical Reinforcement Learning
CN114116047A (zh) * 2021-11-09 2022-03-01 吉林大学 一种基于强化学习的车载计算密集型应用的v2i卸载方法
CN114116052A (zh) * 2021-11-18 2022-03-01 天津市英贝特航天科技有限公司 一种边缘计算方法及装置
CN114205353A (zh) * 2021-11-26 2022-03-18 华东师范大学 一种基于混合动作空间强化学习算法的计算卸载方法
CN114449482A (zh) * 2022-03-11 2022-05-06 南京理工大学 基于多智能体深度强化学习的异构车联网用户关联方法
CN114528042A (zh) * 2022-01-30 2022-05-24 南京信息工程大学 基于深度强化学习的节能型自动互联车辆服务卸载方法
CN115002123A (zh) * 2022-05-25 2022-09-02 西南交通大学 基于移动边缘计算的快速适应任务卸载系统和方法
CN115016932A (zh) * 2022-05-13 2022-09-06 电子科技大学 一种基于嵌入式的分布式深度学习模型资源弹性调度方法
CN115243217A (zh) * 2022-07-07 2022-10-25 中山大学 车联网边缘环境下基于ddqn的端边云协同调度方法及系统
CN115237506A (zh) * 2022-09-21 2022-10-25 暨南大学 Cps系统中可靠性驱动的分层任务卸载方法和装置
CN115686846A (zh) * 2022-10-31 2023-02-03 重庆理工大学 边缘计算中融合图神经网络和强化学习的容器集群在线部署方法
CN116341685A (zh) * 2023-05-31 2023-06-27 合肥工业大学智能制造技术研究院 基于联合注意力的分布式计算卸载模型训练方法和系统
CN116389256A (zh) * 2023-04-11 2023-07-04 广东云百科技有限公司 基于边缘计算的新能源汽车车联网系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170164237A1 (en) * 2015-12-03 2017-06-08 The Trustees Of The Stevens Institute Of Technology System Apparatus And Methods For Cognitive Cloud Offloading In A Multi-Rat Enabled Wireless Device
CN109547555A (zh) * 2018-03-01 2019-03-29 重庆大学 基于公平性准则的非平衡边缘云网络接入与资源分配机制
CN111726826A (zh) * 2020-05-25 2020-09-29 上海大学 一种基站密集型边缘计算网络中的在线任务卸载方法
CN112367353A (zh) * 2020-10-08 2021-02-12 大连理工大学 基于多智能体强化学习的移动边缘计算卸载方法
CN112905312A (zh) * 2021-01-20 2021-06-04 杭州电子科技大学 边缘计算环境中基于深度q神经网络的工作流调度方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170164237A1 (en) * 2015-12-03 2017-06-08 The Trustees Of The Stevens Institute Of Technology System Apparatus And Methods For Cognitive Cloud Offloading In A Multi-Rat Enabled Wireless Device
CN109547555A (zh) * 2018-03-01 2019-03-29 重庆大学 基于公平性准则的非平衡边缘云网络接入与资源分配机制
CN111726826A (zh) * 2020-05-25 2020-09-29 上海大学 一种基站密集型边缘计算网络中的在线任务卸载方法
CN112367353A (zh) * 2020-10-08 2021-02-12 大连理工大学 基于多智能体强化学习的移动边缘计算卸载方法
CN112905312A (zh) * 2021-01-20 2021-06-04 杭州电子科技大学 边缘计算环境中基于深度q神经网络的工作流调度方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
卢海峰;顾春华;罗飞;丁炜超;杨婷;郑帅;: "基于深度强化学习的移动边缘计算任务卸载研究", 计算机研究与发展, no. 07, pages 1539 - 1554 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11562251B2 (en) * 2019-05-16 2023-01-24 Salesforce.Com, Inc. Learning world graphs to accelerate hierarchical reinforcement learning
US20200364580A1 (en) * 2019-05-16 2020-11-19 Salesforce.Com, Inc. Learning World Graphs to Accelerate Hierarchical Reinforcement Learning
CN114116047B (zh) * 2021-11-09 2023-11-03 吉林大学 一种基于强化学习的车载计算密集型应用的v2i卸载方法
CN114116047A (zh) * 2021-11-09 2022-03-01 吉林大学 一种基于强化学习的车载计算密集型应用的v2i卸载方法
CN114116052A (zh) * 2021-11-18 2022-03-01 天津市英贝特航天科技有限公司 一种边缘计算方法及装置
CN114205353A (zh) * 2021-11-26 2022-03-18 华东师范大学 一种基于混合动作空间强化学习算法的计算卸载方法
CN114205353B (zh) * 2021-11-26 2023-08-01 华东师范大学 一种基于混合动作空间强化学习算法的计算卸载方法
CN114528042A (zh) * 2022-01-30 2022-05-24 南京信息工程大学 基于深度强化学习的节能型自动互联车辆服务卸载方法
CN114528042B (zh) * 2022-01-30 2023-04-21 南京信息工程大学 基于深度强化学习的节能型自动互联车辆服务卸载方法
CN114449482A (zh) * 2022-03-11 2022-05-06 南京理工大学 基于多智能体深度强化学习的异构车联网用户关联方法
CN115016932A (zh) * 2022-05-13 2022-09-06 电子科技大学 一种基于嵌入式的分布式深度学习模型资源弹性调度方法
CN115002123A (zh) * 2022-05-25 2022-09-02 西南交通大学 基于移动边缘计算的快速适应任务卸载系统和方法
CN115243217A (zh) * 2022-07-07 2022-10-25 中山大学 车联网边缘环境下基于ddqn的端边云协同调度方法及系统
CN115243217B (zh) * 2022-07-07 2023-07-18 中山大学 车联网边缘环境下基于ddqn的端边云协同调度方法及系统
CN115237506B (zh) * 2022-09-21 2022-12-09 暨南大学 Cps系统中可靠性驱动的分层任务卸载方法和装置
CN115237506A (zh) * 2022-09-21 2022-10-25 暨南大学 Cps系统中可靠性驱动的分层任务卸载方法和装置
CN115686846B (zh) * 2022-10-31 2023-05-02 重庆理工大学 边缘计算中融合图神经网络和强化学习的容器集群在线部署方法
CN115686846A (zh) * 2022-10-31 2023-02-03 重庆理工大学 边缘计算中融合图神经网络和强化学习的容器集群在线部署方法
CN116389256A (zh) * 2023-04-11 2023-07-04 广东云百科技有限公司 基于边缘计算的新能源汽车车联网系统
CN116389256B (zh) * 2023-04-11 2023-09-19 广东云百科技有限公司 基于边缘计算的新能源汽车车联网系统
CN116341685A (zh) * 2023-05-31 2023-06-27 合肥工业大学智能制造技术研究院 基于联合注意力的分布式计算卸载模型训练方法和系统
CN116341685B (zh) * 2023-05-31 2023-07-21 合肥工业大学智能制造技术研究院 基于联合注意力的分布式计算卸载模型训练方法和系统

Also Published As

Publication number Publication date
CN113568675B (zh) 2024-04-12

Similar Documents

Publication Publication Date Title
CN113568675B (zh) 一种基于分层强化学习的车联网边缘计算任务卸载方法
Liu et al. Path planning for UAV-mounted mobile edge computing with deep reinforcement learning
CN111278132B (zh) 移动边缘计算中面向低时延高可靠业务的资源分配方法
Chen et al. Intelligent ubiquitous computing for future UAV-enabled MEC network systems
Zhang et al. Deep reinforcement learning based IRS-assisted mobile edge computing under physical-layer security
CN113778648B (zh) 分层边缘计算环境中基于深度强化学习的任务调度方法
CN113010282B (zh) 一种基于深度强化学习的边云协同串行任务卸载方法
CN111586696A (zh) 一种基于多智能体架构强化学习的资源分配及卸载决策方法
CN113132943B (zh) 一种车联网中车边协同的任务卸载调度及资源分配方法
CN111132074B (zh) 车联网环境下多接入边缘计算卸载和帧时隙资源分配方法
Liao et al. Online computation offloading with double reinforcement learning algorithm in mobile edge computing
CN113867843B (zh) 一种基于深度强化学习的移动边缘计算任务卸载方法
WO2022242468A1 (zh) 任务卸载方法、调度优化方法和装置、电子设备及存储介质
CN116321298A (zh) 车联网中一种基于深度强化学习的多目标联合优化任务卸载策略
Ebrahim et al. A deep learning approach for task offloading in multi-UAV aided mobile edge computing
Gao et al. Fast adaptive task offloading and resource allocation via multiagent reinforcement learning in heterogeneous vehicular fog computing
Li et al. DNN Partition and Offloading Strategy with Improved Particle Swarm Genetic Algorithm in VEC
Sharma et al. Deep meta q-learning based multi-task offloading in edge-cloud systems
CN117098189A (zh) 一种基于gat混合动作多智能体强化学习的计算卸载和资源分配方法
CN116828541A (zh) 基于多智能体强化学习的边缘计算依赖任务动态卸载方法及系统
Shaodong et al. Multi-step reinforcement learning-based offloading for vehicle edge computing
CN115865914A (zh) 车辆边缘计算中基于联邦深度强化学习的任务卸载方法
CN114942799A (zh) 云边环境下基于强化学习的工作流调度方法
CN115002123A (zh) 基于移动边缘计算的快速适应任务卸载系统和方法
CN116582836B (zh) 一种任务卸载与资源分配方法、设备、介质和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant