CN113568675B - 一种基于分层强化学习的车联网边缘计算任务卸载方法 - Google Patents

一种基于分层强化学习的车联网边缘计算任务卸载方法 Download PDF

Info

Publication number
CN113568675B
CN113568675B CN202110772708.9A CN202110772708A CN113568675B CN 113568675 B CN113568675 B CN 113568675B CN 202110772708 A CN202110772708 A CN 202110772708A CN 113568675 B CN113568675 B CN 113568675B
Authority
CN
China
Prior art keywords
task
network
decision
edge
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110772708.9A
Other languages
English (en)
Other versions
CN113568675A (zh
Inventor
徐跃东
游新宇
戴连贵
邢万勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Litong Technology Investment Co ltd
Fudan University
Original Assignee
Guangdong Litong Technology Investment Co ltd
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Litong Technology Investment Co ltd, Fudan University filed Critical Guangdong Litong Technology Investment Co ltd
Priority to CN202110772708.9A priority Critical patent/CN113568675B/zh
Publication of CN113568675A publication Critical patent/CN113568675A/zh
Application granted granted Critical
Publication of CN113568675B publication Critical patent/CN113568675B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44594Unloading
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/10Geometric CAD
    • G06F30/15Vehicle, aircraft or watercraft design
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5038Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/04Constraint-based CAD
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/06Multi-objective optimisation, e.g. Pareto optimisation using simulated annealing [SA], ant colony algorithms or genetic algorithms [GA]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/509Offload
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明属于车联网边缘计算技术领域,具体为一种基于分层强化学习的车联网边缘计算任务卸载方法。本发明首先将车联网边缘计算网络中的任务卸载问题建模为以最小化时延‑能耗‑费用联合损失函数为目标的优化问题,其中优化参数为任务执行顺序、计算决策、本地资源分配和传输功率控制;然后将具有任务关联性的应用以有向无环图的形式表示,并利用图神经网络挖掘其中的隐含特征,同时利用分层强化学习算法处理离散连续混合动作空间。以真实环境中采取的汽车速度作为数据集进行仿真实验,结果表明,相比于启发式算法,本发明方法在多种环境参数下均能自适应地调节任务卸载和资源分配策略,进而更有效地降低系统损失函数。

Description

一种基于分层强化学习的车联网边缘计算任务卸载方法
技术领域
本发明属于车联网边缘计算技术领域,具体涉及基于分层强化学习的车联网边缘计算任务卸载方法。
背景技术
随着车联网的不断发展,辅助驾驶、增强现实和图像处理等应用已逐步在车载设备中部署,以提升车内人员的驾驶体验[1]。这些应用通常具有两大特点:计算资源需求大和实时性要求高。然而,车载设备计算资源有限且能量供应有限,往往无法满足这些应用的需求[2]。
通过引入具有强大运算能力的云服务器,移动云计算(Mobile Cloud Computing,MCC)被视为能够解决以上所述问题的有效方式[3]。为了获取充足的计算资源和节约能量消耗,车载设备可以选择将计算密集型任务卸载至云服务器中执行。尽管移动云计算能带来丰富的计算资源,但是车载设备和云服务器之间过远的物理距离将带来较长的数据传输时延,而这恰与任务的实时性要求相悖。
为了处理移动云计算的时延问题,研究人员提出了移动边缘计算(MobileEdgeComputing,MEC)的概念[4]。在移动边缘计算中,拥有高运算能力的服务器不再位于遥远的云端,而是设置于离用户端更近的边缘网络中。通过结合车联网和移动边缘计算,车联网边缘计算(Vehicular edge computing,VEC)将边缘服务器部署于道路两旁的基站中,以大幅降低数据传输时延和保证数据连接的稳定性[5]。车联网边缘计算中的任务卸载问题也成为学界的研究热点。文献[6]提出了一种基于博弈论的任务卸载算法,同时证明了多车辆任务卸载问题中纳什均衡的存在。文献[7]构建了以最小化车辆和边缘服务器的损耗和为目标的双边优化问题,并基于李雅普诺夫优化提出了相应的任务卸载和资源分配策略。文献[8]考虑到车辆的移动性,提出了“直接上传-接替传输”的组合卸载方式,以大幅降低任务的处理时延和传输效率。然而,车联网边缘计算中仍存在一些关键问题未得到解决:
(1)具有任务关联性的应用。前述工作均只考虑处理单个应用的计算资源和实时性需求,但依靠动态分割技术[9],单个应用可被分解为具有执行先后顺序的多个子任务。在不破坏子任务执行关联性的前提下,如何有效处理该类应用仍具有较大挑战;
(2)系统损失函数。前述工作的优化目标仅考虑了任务处理时延和能量消耗,而未考虑边缘计算服务费用[6-8]。设计一种任务卸载策略以平衡时延-能量-费用是十分必要的;
(3)计算复杂度。车联网边缘计算中任务卸载问题往往被构造为非线性混合整数问题,具有NP难的特征且无法在多项式时间内解决[10]。而过长的求解时间对于实时性要求高的任务无法接受,因此设计一种不牺牲性能且能快速求解的任务卸载算法非常重要。
发明内容
本发明的目的在于提供一种自适应的任务卸载和资源分配联合策略,从而实现降低系统损失函数的基于分层强化学习的车联网边缘计算任务卸载策略。
本发明提供的基于分层强化学习的车联网边缘计算任务卸载方法,首先将车联网边缘计算网络中的任务卸载问题建模为以最小化时延-能耗-费用联合损失函数为目标的优化问题,其中优化参数为任务执行顺序、计算决策、本地资源分配和传输功率控制;接着,提出了深度分层任务卸载策略,以端到端的方式解决该非线性混合整数规划;将具有任务关联性的应用以有向无环图的形式表示,并利用图神经网络提取蕴含在子任务中的高维信息,同时利用分层强化学习算法处理包含两个离散动作和两个连续动作的混合动作空间。仿真实验以真实采集的车辆速度作为数据集,实验结果表明相比于启发式算法,本发明提出的算法在多种环境参数下均能大幅度降低系统损失函数。
本发明提供的基于分层强化学习的车联网边缘计算任务卸载方法,具体步骤如下。
(一)首先,对车联网边缘计算进行数学建模,具体包括:
车联网边缘计算系统模型中包含M个基站和一辆汽车,边缘服务器部署于基站中;各基站均匀分布于道路两旁,且拥有相同的覆盖范围R,各基站仅能与其覆盖范围内的车载设备建立连接;汽车以动态变化的速度v行驶于道路中;
使用动态分割技术,将车载设备中的计算密集型应用分解为N个具有执行先后顺序的子任务,并以有向无环图G=(V,E)表示,各节点i∈V代表一个任务,各有向边e(i,j)∈E代表任务i和任务j的处理顺序,即任务j需要在任务i处理完成后才能执行;
问题的优化目标为最小化时延-能量-费用联合损失函数,定义为任务的处理时延、能量消耗和服务费用的加权和;基于任务的计算决策ki(若ki=0表示任务本地执行,反之若ki=1表示任务本地执行),可以得到任务i的处理时延ti、能量消耗ei和服务费用ci分别为:
其中,和/>分别为任务i的本地处理时延和边缘处理时延,/>和/>分别为任务i的本地能量消耗和边缘能量消耗,/>代表任务i的边缘服务费用。由此,所有任务的损失函数和U为:
其中,0≤β1,β23≤1表示加权系数。
为了最小化系统损失函数U,需要联合优化任务卸载和资源分配策略;问题的优化参数分别为任务的执行顺序计算决策/>本地计算CPU频率/>和边缘计算传输功率/>于是,车联网边缘计算任务卸载问题建模为以下非线性混合整数规划:
s.t. C1:yi∈{0,1,…,N}
C2:ki∈{0,1}
C4:0≤pi≤pmax
其中,约束C1限制任务编号的取值,约束C2限制任务计算决策为本地执行或者边缘执行之一,约束C3和约束C4限制本地CPU频率和传输功率的取值范围,约束C5限制任务的执行先后顺序;该非线性混合整数规划问题为非凸且NP难,优化变量包含两个整数参数向量和/>以及两个连续参数/>和/>
(二)其次,利用图神经网络提取有向无环图特征,具体包括:
图神经网络为图注意力网络,由两层隐含层组成,并以ReLU(Rectified LinearUnit)作为激活函数;图神经网络的输入为节点特征矢量集其中F表示各节点特征/>的特征维数,N为节点特征矢量集h中分量的个数;在隐含层中,各节点输入信息通过共享的线性转换矩阵/>转变为高维特征,其中,F′表示各节点新生成的高维特征的特征维数;此外,通过引入注意力机制/>在隐含层中,将不同相邻节赋予不同的重要性程度;以相邻节点对的高维特征作为输入,计算得到注意力系数eij,代表节点j的特征对于节点i的重要性程度,即:
得到节点i所有相邻节点对包括节点i本身的注意力系数eij后,对其进行归一化操作;具体是通过引入softmax函数,得到归一化注意力系数e′ij
其中,表示节点i的相邻节点集合;
为了更好的特征提取效果,引入多头注意力机制,即独立进行K次注意力操作ak后将其结果进行联立,最终得到的输出特征,其计算式为:
其中||表示联立操作,K表示注意力头数,e′ij k和Wk分别表示第k次注意力才做的归一化注意力系数和权重矩阵;通过上述操作,节点的特征维度由F上升为KF′。
(三)然后,定义分层动作空间和强化学习建模,具体包括:
智能体的动作空间为分层结构,具体分为以下三部分:
(1)任务序号:车载设备需要决定任务处理的先后顺序,并不违背任务关联性;
(2)计算决策:车载设备需要决定任务为本地执行或者边缘执行;
(3)连续参数选择:若车载设备决定任务为本地执行,则需要确定CPU频率的分配;若车载设备决定任务为边缘执行,则需要确定传输功率;
于是,问题的动作空间A可以表述为:
A={ad,ac}={(yi,ki=0,fi)∪(yi,ki=1,pi)}
其中,ad代表离散动作集,ac代表连续动作集;定义智能体在时刻t选取的动作为at=(yt,kt,ft,pt),相应的状态动作值函数为Q(st,at),其中, 又此,得出本问题下的最优贝尔曼方程:
其中,rt为单步奖励,γ为折扣因子;
车联网边缘计算任务卸载问题可建模为马尔可夫决策过程,其中各元素的物理意义如下:
(1)状态空间:包含任务状态和环境状态两部分;其中任务状态为有向无环图中各任务的初始信息其中DIi和DOi分别为任务的输出和输出数据量,Ci为任务的计算资源消耗,Ei代表任务完成情况;环境状态/>包括车辆与当前连接基站起始点间的距离dt,剩余未完成的任务数nt,以及车辆前10秒的速度/>
(2)动作空间:为分层结构,共四个动作,包含两个离散动作和两个连续动作,分别为任务序号yt,计算决策kt,本地分配CPU频率ft和传输功率pt
(3)奖励函数:由于本问题的优化目标为最小化任务的时延-能量-费用联合损失函数,因此定义奖励为执行完任务后获得的处理时延、能量消耗和服务费用的加权和ut=β1ti2ei3ci
(四)最后,设计深度分层任务卸载算法流程,具体包括:
智能体(即车载设备)的决策系统由图注意力网络和分层动作决策网络构成,以实现状态信息和分层动作空间的映射;
首先,初始化图注意力网络Qg(s,a;θg),分层动作决策网络Qp(s,a;θp)及其目标网络Q′p(s,a;θ′p),其中θ′p=θp,同时初始化经验回放池(Replay Buffer)D,以存储环境转移信息;
在训练过程中,对于每个决策时刻t,智能体已完成上一个任务TASKt-1,并准备执行新的任务TASKt;此时,智能体观测到任务状态和环境状态/>将其输入图注意力网络中进行特征提取,并最终得出各任务的Q值的估计;其中估计Q值最大的任务设为当前时刻t将处理的任务TASKt,同时确定了任务序号yt的选择;
接着,将该任务的特征信息和环境信息作为分层动作决策网络的输入,并最终得到分层动作的选择at={(yt,kt=0,ft)∪(yt,kt=1,pt)}和相应Q值Qp(st,at;θp);为了充分探索动作空间,离散动作yt和kt的决定将依照∈-贪婪策略,连续动作ft和pt的决定将遵循OU过程;待分层动作at确定后,若计算决策kt=0,则任务TASKt将以CPU频率ft本地执行;若计算决策kt=1,则任务TASKt将以传输功率pt上传至边缘服务器执行;之后,环境状态将转变为st+1,并反馈给智能体t时刻的单步奖励rt;智能体将环境转变(st,at,st+1,rt)储存至经验回放池D中;
在参数更新过程中,智能体从经验回放池D中随机采样出批量训练数据(sj,aj,sj+1,rj);对于图注意力网络和分层动作决策网络,目标值zj均设为单步奖励rj与目标网络输出V值之和,即:
zj=rj+γV′(sj)
其中,γ为折扣因子;为了使网络估计Q值逼近目标值,损失函数设为目标值zj和当前网络输出Q值的均方差,即:
最后,以最小化损失函数为目标,对各网络参数进行梯度下降更新,即:
其中,αg和αp分别为图注意力网络和分层动作决策网络的学习率,τ为目标网络更新率。
本发明提出的基于分层强化学习的车联网边缘计算任务卸载方法,可以动态调整任务卸载和资源分配,以达到本地计算和边缘计算的平衡。以真实环境中采取的汽车行驶速度作为数据集进行仿真实验,实验结果表明,相比于启发式算法,本发明提出的算法在不同的环境参数下均能带来更低的联合损失函数和更优的性能表现。
附图说明
图1为车联网边缘计算系统模型。
图2为任务有向无环图。
图3为图注意力网络结构。
图4为真实环境中采集的车辆速度轨迹。
图5为系统损失函数与信道带宽的关系。
图6为系统损失函数与基站覆盖范围的关系。
具体实施方式
设实施例的参数
仿真环境:Python;
仿真平台:如图1所示;
奖励折扣因子:0.99;
图注意力网络的学习率:0.001;
分层动作决策网络的学习率:0.01。
基于分层强化学习的车联网边缘计算任务卸载方法,具体步骤为:
步骤1:初始化图注意力网络Qg(s,a;θg),分层动作决策网络Qp(s,a;θp)及其目标网络Q′p(s,a;θ′p),其中θ′p=θp,同时初始化经验回放池D。
步骤2:观测当前环境状态st,选择并执行分层动作at={(yt,kt=0,ft)∪(yt,kt=1,pt)}。
步骤3:观测下一环境状态st+1并获得单步奖励rt
步骤4:将环境转变(st,at,st+1,rt)储存至经验回放池D,再从经验回放池D中随机采样批量训练数据(sj,aj,sj+1,rj)。
步骤5:设置目标值zj=rj+γV′(sj),设置损失函数以及更新网络参数/>
仿真结果:
如图5所示,为系统损失函数与信道带宽的关系。本发明提出的算法相比于另外三种比较算法对于带宽变化较为鲁棒。
如图6所示,为系统损失函数与基站覆盖范围的关系,相比于比较算法,本发明提出的算法曲线斜率较低,说明其性能不易受基站覆盖范围的影响。
参考文献
[1]Zhao J,Li Q,Gong Y,et al.Computation offloading and resourceallocation for cloud assisted mobile edge computing in vehicular networks[J].IEEE Transactions on Vehicular Technology,2019,68(8):7944-7956.
[2]Yan J,Bi S,Zhang Y J,et al.Optimal task offloading and resourceallocation in mobile-edge computing with inter-user task dependency[J].IEEETransactions on Wireless Communications,2019,19(1):235-250.
[3]Dinh H T,Lee C,Niyato D,et al.A survey of mobile cloud computing:architecture,applications,and approaches[J].Wireless communications andmobile computing,2013,13(18):1587-1611.
[4]Patel M,Naughton B,Chan C,et al.Mobile-edge computing introductorytechnical white paper[J].White paper,mobile-edge computing(MEC)industryinitiative,2014,29:854-864.
[5]Abbas N,Zhang Y,Taherkordi A,et al.Mobile edge computing:A survey[J].IEEE Internet of Things Journal,2017,5(1):450-465.
[6]Liu Y,Wang S,Huang J,et al.A computation offloading algorithmbased on game theory for vehicular edge networks[C]//2018IEEE InternationalConference on Communications(ICC).IEEE,2018:1-6.
[7]Du J,Yu F R,Chu X,et al.Computation offloading and resourceallocation in vehicular networks based on dual-side cost minimization[J].IEEETransactions on Vehicular Technology,2018,68(2):1079-1092.
[8]Zhang K,Mao Y,Leng S,et al.Mobile-edge computing for vehicularnetworks:A promising network paradigm with predictive off-loading[J].IEEEVehicular Technology Magazine,2017,12(2):36-44.
[9]Yang L,Cao J,Cheng H,et al.Multi-user computation partitioning forlatency sensitive mobile cloud applications[J].IEEE Transactions onComputers,2014,64(8):2253-2266.
[10]Dinh T Q,Tang J,La Q D,et al.Offloading in mobile edge computing:Task allocation and computational frequency scaling[J].IEEE Transactions onCommunications,2017,65(8):3571-3584.
[11]Kipf T N,Welling M.Semi-supervised classification with graphconvolutional networks[J].arXiv preprint arXiv:1609.02907,2016.。

Claims (1)

1.一种基于分层强化学习的车联网边缘计算任务卸载方法,其特征在于,具体步骤如下:
(一)对车联网边缘计算进行数学建模,具体包括:
车联网边缘计算系统模型中包含M个基站和一辆汽车,边缘服务器部署于基站中;各基站均匀分布于道路两旁,且拥有相同的覆盖范围R,各基站仅能与其覆盖范围内的车载设备建立连接;汽车以动态变化的速度v行驶于道路中;
使用动态分割技术,将车载设备中的计算密集型应用分解为N个具有执行先后顺序的子任务,并以有向无环图G=(V,E)表示,各节点i∈V代表一个任务,各有向边e(i,j)∈E代表任务i和任务j的处理顺序,即任务j需要在任务i处理完成后才能执行;
问题的优化目标为最小化时延-能量-费用联合损失函数,定义为任务的处理时延、能量消耗和服务费用的加权和;基于任务的计算决策ki,即若ki=0表示任务本地执行,反之若ki=1表示任务边缘执行,得到任务i的处理时延ti、能量消耗ei和服务费用ci分别为:
其中,和/>分别为任务i的本地处理时延和边缘处理时延,/>和/>分别为任务i的本地能量消耗和边缘能量消耗,/>代表任务i的边缘服务费用;由此,所有任务的损失函数和U为:
其中,0≤β123≤1表示加权系数;
为了最小化系统损失函数U,需要联合优化任务卸载和资源分配策略;问题的优化参数分别为任务的执行顺序计算决策/>本地计算CPU频率/>和边缘计算传输功率/>于是,车联网边缘计算任务卸载问题建模为以下非线性混合整数规划:
s.t.C1:yi∈{0,1,…,N}
C2:ki∈{0,1}
C3:
C4:0≤pi≤pmax
C5:
其中,约束C1限制任务编号的取值,约束C2限制任务计算决策为本地执行或者边缘执行之一,约束C3和约束C4限制本地CPU频率和传输功率的取值范围,约束C5限制任务的执行先后顺序;该非线性混合整数规划问题为非凸且NP难,优化变量包含两个整数参数向量和/>以及两个连续参数/>和/>
(二)利用图神经网络提取有向无环图特征,具体包括:
图神经网络为图注意力网络,由两层隐含层组成,并以ReLU作为激活函数;图神经网络的输入为节点特征矢量集其中F表示各节点特征/>的特征维数,N为节点特征矢量集h中分量的个数;在隐含层中,各节点输入信息通过共享的线性转换矩阵/>转变为高维特征,其中,F′表示各节点新生成的高维特征的特征维数;此外,通过引入注意力机制a:/>在隐含层中,将不同相邻节赋予不同的重要性程度;以相邻节点对的高维特征作为输入,计算得到注意力系数eij,代表节点j的特征对于节点i的重要性程度,即:
得到节点i所有相邻节点对包括节点i本身的注意力系数eij后,对其进行归一化操作;具体是通过引入softmax函数,得到归一化注意力系数e′ij
其中,表示节点i的相邻节点集合;
为了更好的特征提取效果,引入多头注意力机制,即独立进行K次注意力操作ak后将其结果进行联立,最终得到的输出特征,其计算式为:
其中||表示联立操作,K表示注意力头数,e′ij k和Wk分别表示第k次注意力操作的归一化注意力系数和权重矩阵;通过上述操作,节点的特征维度由F上升为KF′;
(三)定义分层动作空间和强化学习建模,具体包括:
智能体的动作空间为分层结构,具体分为以下三部分:
(1)任务序号:车载设备需要决定任务处理的先后顺序,并不违背任务关联性;
(2)计算决策:车载设备需要决定任务为本地执行或者边缘执行;
(3)连续参数选择:若车载设备决定任务为本地执行,则需要确定CPU频率的分配;若车载设备决定任务为边缘执行,则需要确定传输功率;
于是,问题的动作空间A表述为:
A={ad,ac}={(yi,ki=0,fi)∪(yi,ki=1,pi)},
其中,ad代表离散动作集,ac代表连续动作集;定义智能体在时刻t选取的动作为at=(yt,kt,ft,pt),相应的状态动作值函数为Q(st,at),其中, 又此,得出本问题下的最优贝尔曼方程:
其中,rt为单步奖励,γ为折扣因子;
车联网边缘计算任务卸载问题可建模为马尔可夫决策过程,其中各元素的物理意义如下:
(1)状态空间:包含任务状态和环境状态两部分;其中任务状态为有向无环图中各任务的初始信息其中DIi和DOi分别为任务的输出和输出数据量,Ci为任务的计算资源消耗,Ei代表任务完成情况;环境状态/>包括车辆与当前连接基站起始点间的距离dt,剩余未完成的任务数nt,以及车辆前10秒的速度/>
(2)动作空间:为分层结构,共四个动作,包含两个离散动作和两个连续动作,分别为任务序号yt,计算决策kt,本地分配CPU频率ft和传输功率pt
(3)奖励函数:由于本问题的优化目标为最小化任务的时延-能量-费用联合损失函数,因此定义奖励为执行完任务后获得的处理时延、能量消耗和服务费用的加权和ut=β1ti2ei3ci
(四)设计深度分层任务卸载算法流程,具体包括:
智能体即车载设备的决策系统由图注意力网络和分层动作决策网络构成,以实现状态信息和分层动作空间的映射;
首先,初始化图注意力网络Qg(s,a;θg),分层动作决策网络Qp(s,a;θp)及其目标网络Q′p(s,a;θ′p),其中θ′p=θp,同时初始化经验回放池D,以存储环境转移信息;
在训练过程中,对于每个决策时刻t,智能体已完成上一个任务TASKt-1,并准备执行新的任务TASKt;此时,智能体观测到任务状态和环境状态/>将其输入图注意力网络中进行特征提取,并最终得出各任务的Q值的估计;其中估计Q值最大的任务设为当前时刻t将处理的任务TASKt,同时确定了任务序号yt的选择;
接着,将该任务的特征信息和环境信息作为分层动作决策网络的输入,并最终得到分层动作的选择at={(yt,kt=0,ft)∪(yt,kt=1,pt)}和相应Q值Qp(st,at;θp);为了充分探索动作空间,离散动作yt和kt的决定将依照∈-贪婪策略,连续动作ft和pt的决定将遵循OU过程;待分层动作at确定后,若计算决策kt=0,则任务TASKt将以CPU频率ft本地执行;若计算决策kt=1,则任务TASKt将以传输功率pt上传至边缘服务器执行;之后,环境状态将转变为st+1,并反馈给智能体t时刻的单步奖励rt;智能体将环境转变(st,at,st+1,rt)储存至经验回放池D中;
在参数更新过程中,智能体从经验回放池D中随机采样出批量训练数据(sj,aj,sj+1,rj);对于图注意力网络和分层动作决策网络,目标值zj均设为单步奖励rj与目标网络输出V值之和,即:
zj=rj+γV′(sj)
其中,γ为折扣因子;为了使网络估计Q值逼近目标值,损失函数设为目标值zj和当前网络输出Q值的均方差,即:
最后,以最小化损失函数为目标,对各网络参数进行梯度下降更新,即:
其中,αg和αp分别为图注意力网络和分层动作决策网络的学习率,τ为目标网络更新率。
CN202110772708.9A 2021-07-08 2021-07-08 一种基于分层强化学习的车联网边缘计算任务卸载方法 Active CN113568675B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110772708.9A CN113568675B (zh) 2021-07-08 2021-07-08 一种基于分层强化学习的车联网边缘计算任务卸载方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110772708.9A CN113568675B (zh) 2021-07-08 2021-07-08 一种基于分层强化学习的车联网边缘计算任务卸载方法

Publications (2)

Publication Number Publication Date
CN113568675A CN113568675A (zh) 2021-10-29
CN113568675B true CN113568675B (zh) 2024-04-12

Family

ID=78164124

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110772708.9A Active CN113568675B (zh) 2021-07-08 2021-07-08 一种基于分层强化学习的车联网边缘计算任务卸载方法

Country Status (1)

Country Link
CN (1) CN113568675B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11562251B2 (en) * 2019-05-16 2023-01-24 Salesforce.Com, Inc. Learning world graphs to accelerate hierarchical reinforcement learning
CN114116047B (zh) * 2021-11-09 2023-11-03 吉林大学 一种基于强化学习的车载计算密集型应用的v2i卸载方法
CN114116052A (zh) * 2021-11-18 2022-03-01 天津市英贝特航天科技有限公司 一种边缘计算方法及装置
CN114205353B (zh) * 2021-11-26 2023-08-01 华东师范大学 一种基于混合动作空间强化学习算法的计算卸载方法
CN114528042B (zh) * 2022-01-30 2023-04-21 南京信息工程大学 基于深度强化学习的节能型自动互联车辆服务卸载方法
CN115016932A (zh) * 2022-05-13 2022-09-06 电子科技大学 一种基于嵌入式的分布式深度学习模型资源弹性调度方法
CN115002123B (zh) * 2022-05-25 2023-05-05 西南交通大学 基于移动边缘计算的快速适应任务卸载系统和方法
CN115243217B (zh) * 2022-07-07 2023-07-18 中山大学 车联网边缘环境下基于ddqn的端边云协同调度方法及系统
CN115237506B (zh) * 2022-09-21 2022-12-09 暨南大学 Cps系统中可靠性驱动的分层任务卸载方法和装置
CN115686846B (zh) * 2022-10-31 2023-05-02 重庆理工大学 边缘计算中融合图神经网络和强化学习的容器集群在线部署方法
CN116389256B (zh) * 2023-04-11 2023-09-19 广东云百科技有限公司 基于边缘计算的新能源汽车车联网系统
CN116341685B (zh) * 2023-05-31 2023-07-21 合肥工业大学智能制造技术研究院 基于联合注意力的分布式计算卸载模型训练方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109547555A (zh) * 2018-03-01 2019-03-29 重庆大学 基于公平性准则的非平衡边缘云网络接入与资源分配机制
CN111726826A (zh) * 2020-05-25 2020-09-29 上海大学 一种基站密集型边缘计算网络中的在线任务卸载方法
CN112367353A (zh) * 2020-10-08 2021-02-12 大连理工大学 基于多智能体强化学习的移动边缘计算卸载方法
CN112905312A (zh) * 2021-01-20 2021-06-04 杭州电子科技大学 边缘计算环境中基于深度q神经网络的工作流调度方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10397829B2 (en) * 2015-12-03 2019-08-27 The Trustees Of The Stevens Institute Of Technology System apparatus and methods for cognitive cloud offloading in a multi-rat enabled wireless device

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109547555A (zh) * 2018-03-01 2019-03-29 重庆大学 基于公平性准则的非平衡边缘云网络接入与资源分配机制
CN111726826A (zh) * 2020-05-25 2020-09-29 上海大学 一种基站密集型边缘计算网络中的在线任务卸载方法
CN112367353A (zh) * 2020-10-08 2021-02-12 大连理工大学 基于多智能体强化学习的移动边缘计算卸载方法
CN112905312A (zh) * 2021-01-20 2021-06-04 杭州电子科技大学 边缘计算环境中基于深度q神经网络的工作流调度方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度强化学习的移动边缘计算任务卸载研究;卢海峰;顾春华;罗飞;丁炜超;杨婷;郑帅;;计算机研究与发展(第07期);1539-1554 *

Also Published As

Publication number Publication date
CN113568675A (zh) 2021-10-29

Similar Documents

Publication Publication Date Title
CN113568675B (zh) 一种基于分层强化学习的车联网边缘计算任务卸载方法
Liu et al. Path planning for UAV-mounted mobile edge computing with deep reinforcement learning
CN113242568B (zh) 一种不确定网络环境中的任务卸载和资源分配方法
Yu et al. Toward resource-efficient federated learning in mobile edge computing
Chen et al. Intelligent ubiquitous computing for future UAV-enabled MEC network systems
Zhang et al. Deep reinforcement learning based IRS-assisted mobile edge computing under physical-layer security
CN113132943B (zh) 一种车联网中车边协同的任务卸载调度及资源分配方法
CN111132074B (zh) 车联网环境下多接入边缘计算卸载和帧时隙资源分配方法
CN113543176A (zh) 基于智能反射面辅助的移动边缘计算系统的卸载决策方法
CN113645637B (zh) 超密集网络任务卸载方法、装置、计算机设备和存储介质
Jia et al. Lyapunov optimization based mobile edge computing for Internet of Vehicles systems
CN112988285A (zh) 任务卸载方法和装置、电子设备及存储介质
Li et al. DNN Partition and Offloading Strategy with Improved Particle Swarm Genetic Algorithm in VEC
Gao et al. Fast adaptive task offloading and resource allocation via multiagent reinforcement learning in heterogeneous vehicular fog computing
CN117221951A (zh) 车载边缘环境下基于深度强化学习的任务卸载方法
Sharma et al. Deep meta q-learning based multi-task offloading in edge-cloud systems
CN117098189A (zh) 一种基于gat混合动作多智能体强化学习的计算卸载和资源分配方法
CN116828541A (zh) 基于多智能体强化学习的边缘计算依赖任务动态卸载方法及系统
Maleki et al. Reinforcement learning-based decision-making for vehicular edge computing
CN115865914A (zh) 车辆边缘计算中基于联邦深度强化学习的任务卸载方法
CN114745386A (zh) 一种多用户边缘智能场景下的神经网络分割及卸载方法
CN115413044A (zh) 一种工业无线网络的计算和通信资源联合分配方法
Consul et al. A Hybrid Task Offloading and Resource Allocation Approach For Digital Twin-Empowered UAV-Assisted MEC Network Using Federated Reinforcement Learning For Future Wireless Network
Chen et al. Knowledge distillation for mobile edge computation offloading
CN116582836B (zh) 一种任务卸载与资源分配方法、设备、介质和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant