CN113568675A - 一种基于分层强化学习的车联网边缘计算任务卸载方法 - Google Patents
一种基于分层强化学习的车联网边缘计算任务卸载方法 Download PDFInfo
- Publication number
- CN113568675A CN113568675A CN202110772708.9A CN202110772708A CN113568675A CN 113568675 A CN113568675 A CN 113568675A CN 202110772708 A CN202110772708 A CN 202110772708A CN 113568675 A CN113568675 A CN 113568675A
- Authority
- CN
- China
- Prior art keywords
- task
- network
- decision
- attention
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000002787 reinforcement Effects 0.000 title claims abstract description 14
- 238000004364 calculation method Methods 0.000 title claims description 11
- 230000009471 action Effects 0.000 claims abstract description 45
- 230000006870 function Effects 0.000 claims abstract description 32
- 238000012545 processing Methods 0.000 claims abstract description 20
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 15
- 238000005457 optimization Methods 0.000 claims abstract description 15
- 230000005540 biological transmission Effects 0.000 claims abstract description 14
- 230000006855 networking Effects 0.000 claims abstract description 13
- 230000007613 environmental effect Effects 0.000 claims abstract description 11
- 238000013528 artificial neural network Methods 0.000 claims abstract description 8
- 238000013468 resource allocation Methods 0.000 claims abstract description 8
- 239000003795 chemical substances by application Substances 0.000 claims description 16
- 238000005265 energy consumption Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 4
- 238000012546 transfer Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 2
- 125000002015 acyclic group Chemical group 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 claims description 2
- 238000004088 simulation Methods 0.000 abstract description 6
- 238000005065 mining Methods 0.000 abstract 1
- 230000008859 change Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000002146 bilateral effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/445—Program loading or initiating
- G06F9/44594—Unloading
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/10—Geometric CAD
- G06F30/15—Vehicle, aircraft or watercraft design
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
- G06F9/5038—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
- G06F9/5072—Grid computing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/04—Constraint-based CAD
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/06—Multi-objective optimisation, e.g. Pareto optimisation using simulated annealing [SA], ant colony algorithms or genetic algorithms [GA]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/50—Indexing scheme relating to G06F9/50
- G06F2209/509—Offload
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明属于车联网边缘计算技术领域,具体为一种基于分层强化学习的车联网边缘计算任务卸载方法。本发明首先将车联网边缘计算网络中的任务卸载问题建模为以最小化时延‑能耗‑费用联合损失函数为目标的优化问题,其中优化参数为任务执行顺序、计算决策、本地资源分配和传输功率控制;然后将具有任务关联性的应用以有向无环图的形式表示,并利用图神经网络挖掘其中的隐含特征,同时利用分层强化学习算法处理离散连续混合动作空间。以真实环境中采取的汽车速度作为数据集进行仿真实验,结果表明,相比于启发式算法,本发明方法在多种环境参数下均能自适应地调节任务卸载和资源分配策略,进而更有效地降低系统损失函数。
Description
技术领域
本发明属于车联网边缘计算技术领域,具体涉及基于分层强化学习的车联网边缘计算任务卸载方法。
背景技术
随着车联网的不断发展,辅助驾驶、增强现实和图像处理等应用已逐步在车载设备中部署,以提升车内人员的驾驶体验[1]。这些应用通常具有两大特点:计算资源需求大和实时性要求高。然而,车载设备计算资源有限且能量供应有限,往往无法满足这些应用的需求[2]。
通过引入具有强大运算能力的云服务器,移动云计算(Mobile Cloud Computing,MCC)被视为能够解决以上所述问题的有效方式[3]。为了获取充足的计算资源和节约能量消耗,车载设备可以选择将计算密集型任务卸载至云服务器中执行。尽管移动云计算能带来丰富的计算资源,但是车载设备和云服务器之间过远的物理距离将带来较长的数据传输时延,而这恰与任务的实时性要求相悖。
为了处理移动云计算的时延问题,研究人员提出了移动边缘计算(MobileEdgeComputing,MEC)的概念[4]。在移动边缘计算中,拥有高运算能力的服务器不再位于遥远的云端,而是设置于离用户端更近的边缘网络中。通过结合车联网和移动边缘计算,车联网边缘计算(Vehicular edge computing,VEC)将边缘服务器部署于道路两旁的基站中,以大幅降低数据传输时延和保证数据连接的稳定性[5]。车联网边缘计算中的任务卸载问题也成为学界的研究热点。文献[6]提出了一种基于博弈论的任务卸载算法,同时证明了多车辆任务卸载问题中纳什均衡的存在。文献[7]构建了以最小化车辆和边缘服务器的损耗和为目标的双边优化问题,并基于李雅普诺夫优化提出了相应的任务卸载和资源分配策略。文献[8]考虑到车辆的移动性,提出了“直接上传-接替传输”的组合卸载方式,以大幅降低任务的处理时延和传输效率。然而,车联网边缘计算中仍存在一些关键问题未得到解决:
(1)具有任务关联性的应用。前述工作均只考虑处理单个应用的计算资源和实时性需求,但依靠动态分割技术[9],单个应用可被分解为具有执行先后顺序的多个子任务。在不破坏子任务执行关联性的前提下,如何有效处理该类应用仍具有较大挑战;
(2)系统损失函数。前述工作的优化目标仅考虑了任务处理时延和能量消耗,而未考虑边缘计算服务费用[6-8]。设计一种任务卸载策略以平衡时延-能量-费用是十分必要的;
(3)计算复杂度。车联网边缘计算中任务卸载问题往往被构造为非线性混合整数问题,具有NP难的特征且无法在多项式时间内解决[10]。而过长的求解时间对于实时性要求高的任务无法接受,因此设计一种不牺牲性能且能快速求解的任务卸载算法非常重要。
发明内容
本发明的目的在于提供一种自适应的任务卸载和资源分配联合策略,从而实现降低系统损失函数的基于分层强化学习的车联网边缘计算任务卸载策略。
本发明提供的基于分层强化学习的车联网边缘计算任务卸载方法,首先将车联网边缘计算网络中的任务卸载问题建模为以最小化时延-能耗-费用联合损失函数为目标的优化问题,其中优化参数为任务执行顺序、计算决策、本地资源分配和传输功率控制;接着,提出了深度分层任务卸载策略,以端到端的方式解决该非线性混合整数规划;将具有任务关联性的应用以有向无环图的形式表示,并利用图神经网络提取蕴含在子任务中的高维信息,同时利用分层强化学习算法处理包含两个离散动作和两个连续动作的混合动作空间。仿真实验以真实采集的车辆速度作为数据集,实验结果表明相比于启发式算法,本发明提出的算法在多种环境参数下均能大幅度降低系统损失函数。
本发明提供的基于分层强化学习的车联网边缘计算任务卸载方法,具体步骤如下。
(一)首先,对车联网边缘计算进行数学建模,具体包括:
车联网边缘计算系统模型中包含M个基站和一辆汽车,边缘服务器部署于基站中;各基站均匀分布于道路两旁,且拥有相同的覆盖范围R,各基站仅能与其覆盖范围内的车载设备建立连接;汽车以动态变化的速度v行驶于道路中;
使用动态分割技术,将车载设备中的计算密集型应用分解为N个具有执行先后顺序的子任务,并以有向无环图G=(V,E)表示,各节点i∈V代表一个任务,各有向边e(i,j)∈E代表任务i和任务j的处理顺序,即任务j需要在任务i处理完成后才能执行;
问题的优化目标为最小化时延-能量-费用联合损失函数,定义为任务的处理时延、能量消耗和服务费用的加权和;基于任务的计算决策ki(若ki=0表示任务本地执行,反之若ki=1表示任务本地执行),可以得到任务i的处理时延ti、能量消耗ei和服务费用ci分别为:
其中,0≤β1,β2,β3≤1表示加权系数。
为了最小化系统损失函数U,需要联合优化任务卸载和资源分配策略;问题的优化参数分别为任务的执行顺序计算决策本地计算CPU频率和边缘计算传输功率于是,车联网边缘计算任务卸载问题建模为以下非线性混合整数规划:
s.t. C1:yi∈{0,1,…,N}
C2:ki∈{0,1}
C4:0≤pi≤pmax
其中,约束C1限制任务编号的取值,约束C2限制任务计算决策为本地执行或者边缘执行之一,约束C3和约束C4限制本地CPU频率和传输功率的取值范围,约束C5限制任务的执行先后顺序;该非线性混合整数规划问题为非凸且NP难,优化变量包含两个整数参数向量和以及两个连续参数和
(二)其次,利用图神经网络提取有向无环图特征,具体包括:
图神经网络为图注意力网络,由两层隐含层组成,并以ReLU(Rectified LinearUnit)作为激活函数;图神经网络的输入为节点特征矢量集其中F表示各节点特征的特征维数,N为节点特征矢量集h中分量的个数;在隐含层中,各节点输入信息通过共享的线性转换矩阵转变为高维特征,其中,F′表示各节点新生成的高维特征的特征维数;此外,通过引入注意力机制在隐含层中,将不同相邻节赋予不同的重要性程度;以相邻节点对的高维特征作为输入,计算得到注意力系数eij,代表节点j的特征对于节点i的重要性程度,即:
得到节点i所有相邻节点对包括节点i本身的注意力系数eij后,对其进行归一化操作;具体是通过引入softmax函数,得到归一化注意力系数e′ij:
为了更好的特征提取效果,引入多头注意力机制,即独立进行K次注意力操作ak后将其结果进行联立,最终得到的输出特征,其计算式为:
其中||表示联立操作,K表示注意力头数,e′ij k和Wk分别表示第k次注意力才做的归一化注意力系数和权重矩阵;通过上述操作,节点的特征维度由F上升为KF′。
(三)然后,定义分层动作空间和强化学习建模,具体包括:
智能体的动作空间为分层结构,具体分为以下三部分:
(1)任务序号:车载设备需要决定任务处理的先后顺序,并不违背任务关联性;
(2)计算决策:车载设备需要决定任务为本地执行或者边缘执行;
(3)连续参数选择:若车载设备决定任务为本地执行,则需要确定CPU频率的分配;若车载设备决定任务为边缘执行,则需要确定传输功率;
于是,问题的动作空间A可以表述为:
A={ad,ac}={(yi,ki=0,fi)∪(yi,ki=1,pi)}
其中,rt为单步奖励,γ为折扣因子;
车联网边缘计算任务卸载问题可建模为马尔可夫决策过程,其中各元素的物理意义如下:
(1)状态空间:包含任务状态和环境状态两部分;其中任务状态为有向无环图中各任务的初始信息其中DIi和DOi分别为任务的输出和输出数据量,Ci为任务的计算资源消耗,Ei代表任务完成情况;环境状态包括车辆与当前连接基站起始点间的距离dt,剩余未完成的任务数nt,以及车辆前10秒的速度
(2)动作空间:为分层结构,共四个动作,包含两个离散动作和两个连续动作,分别为任务序号yt,计算决策kt,本地分配CPU频率ft和传输功率pt;
(3)奖励函数:由于本问题的优化目标为最小化任务的时延-能量-费用联合损失函数,因此定义奖励为执行完任务后获得的处理时延、能量消耗和服务费用的加权和ut=β1ti+β2ei+β3ci。
(四)最后,设计深度分层任务卸载算法流程,具体包括:
智能体(即车载设备)的决策系统由图注意力网络和分层动作决策网络构成,以实现状态信息和分层动作空间的映射;
首先,初始化图注意力网络Qg(s,a;θg),分层动作决策网络Qp(s,a;θp)及其目标网络Q′p(s,a;θ′p),其中θ′p=θp,同时初始化经验回放池(Replay Buffer)D,以存储环境转移信息;
在训练过程中,对于每个决策时刻t,智能体已完成上一个任务TASKt-1,并准备执行新的任务TASKt;此时,智能体观测到任务状态和环境状态将其输入图注意力网络中进行特征提取,并最终得出各任务的Q值的估计;其中估计Q值最大的任务设为当前时刻t将处理的任务TASKt,同时确定了任务序号yt的选择;
接着,将该任务的特征信息和环境信息作为分层动作决策网络的输入,并最终得到分层动作的选择at={(yt,kt=0,ft)∪(yt,kt=1,pt)}和相应Q值Qp(st,at;θp);为了充分探索动作空间,离散动作yt和kt的决定将依照∈-贪婪策略,连续动作ft和pt的决定将遵循OU过程;待分层动作at确定后,若计算决策kt=0,则任务TASKt将以CPU频率ft本地执行;若计算决策kt=1,则任务TASKt将以传输功率pt上传至边缘服务器执行;之后,环境状态将转变为st+1,并反馈给智能体t时刻的单步奖励rt;智能体将环境转变(st,at,st+1,rt)储存至经验回放池D中;
在参数更新过程中,智能体从经验回放池D中随机采样出批量训练数据(sj,aj,sj+1,rj);对于图注意力网络和分层动作决策网络,目标值zj均设为单步奖励rj与目标网络输出V值之和,即:
zj=rj+γV′(sj)
其中,γ为折扣因子;为了使网络估计Q值逼近目标值,损失函数设为目标值zj和当前网络输出Q值的均方差,即:
最后,以最小化损失函数为目标,对各网络参数进行梯度下降更新,即:
其中,αg和αp分别为图注意力网络和分层动作决策网络的学习率,τ为目标网络更新率。
本发明提出的基于分层强化学习的车联网边缘计算任务卸载方法,可以动态调整任务卸载和资源分配,以达到本地计算和边缘计算的平衡。以真实环境中采取的汽车行驶速度作为数据集进行仿真实验,实验结果表明,相比于启发式算法,本发明提出的算法在不同的环境参数下均能带来更低的联合损失函数和更优的性能表现。
附图说明
图1为车联网边缘计算系统模型。
图2为任务有向无环图。
图3为图注意力网络结构。
图4为真实环境中采集的车辆速度轨迹。
图5为系统损失函数与信道带宽的关系。
图6为系统损失函数与基站覆盖范围的关系。
具体实施方式
设实施例的参数
仿真环境:Python;
仿真平台:如图1所示;
奖励折扣因子:0.99;
图注意力网络的学习率:0.001;
分层动作决策网络的学习率:0.01。
基于分层强化学习的车联网边缘计算任务卸载方法,具体步骤为:
步骤1:初始化图注意力网络Qg(s,a;θg),分层动作决策网络Qp(s,a;θp)及其目标网络Q′p(s,a;θ′p),其中θ′p=θp,同时初始化经验回放池D。
步骤2:观测当前环境状态st,选择并执行分层动作at={(yt,kt=0,ft)∪(yt,kt=1,pt)}。
步骤3:观测下一环境状态st+1并获得单步奖励rt。
步骤4:将环境转变(st,at,st+1,rt)储存至经验回放池D,再从经验回放池D中随机采样批量训练数据(sj,aj,sj+1,rj)。
仿真结果:
如图5所示,为系统损失函数与信道带宽的关系。本发明提出的算法相比于另外三种比较算法对于带宽变化较为鲁棒。
如图6所示,为系统损失函数与基站覆盖范围的关系,相比于比较算法,本发明提出的算法曲线斜率较低,说明其性能不易受基站覆盖范围的影响。
参考文献
[1]Zhao J,Li Q,Gong Y,et al.Computation offloading and resourceallocation for cloud assisted mobile edge computing in vehicular networks[J].IEEE Transactions on Vehicular Technology,2019,68(8):7944-7956.
[2]Yan J,Bi S,Zhang Y J,et al.Optimal task offloading and resourceallocation in mobile-edge computing with inter-user task dependency[J].IEEETransactions on Wireless Communications,2019,19(1):235-250.
[3]Dinh H T,Lee C,Niyato D,et al.A survey of mobile cloud computing:architecture,applications,and approaches[J].Wireless communications andmobile computing,2013,13(18):1587-1611.
[4]Patel M,Naughton B,Chan C,et al.Mobile-edge computing introductorytechnical white paper[J].White paper,mobile-edge computing(MEC)industryinitiative,2014,29:854-864.
[5]Abbas N,Zhang Y,Taherkordi A,et al.Mobile edge computing:A survey[J].IEEE Internet of Things Journal,2017,5(1):450-465.
[6]Liu Y,Wang S,Huang J,et al.A computation offloading algorithmbased on game theory for vehicular edge networks[C]//2018IEEE InternationalConference on Communications(ICC).IEEE,2018:1-6.
[7]Du J,Yu F R,Chu X,et al.Computation offloading and resourceallocation in vehicular networks based on dual-side cost minimization[J].IEEETransactions on Vehicular Technology,2018,68(2):1079-1092.
[8]Zhang K,Mao Y,Leng S,et al.Mobile-edge computing for vehicularnetworks:A promising network paradigm with predictive off-loading[J].IEEEVehicular Technology Magazine,2017,12(2):36-44.
[9]Yang L,Cao J,Cheng H,et al.Multi-user computation partitioning forlatency sensitive mobile cloud applications[J].IEEE Transactions onComputers,2014,64(8):2253-2266.
[10]Dinh T Q,Tang J,La Q D,et al.Offloading in mobile edge computing:Task allocation and computational frequency scaling[J].IEEE Transactions onCommunications,2017,65(8):3571-3584.
[11]Kipf T N,Welling M.Semi-supervised classification with graphconvolutional networks[J].arXiv preprint arXiv:1609.02907,2016.。
Claims (1)
1.一种基于分层强化学习的车联网边缘计算任务卸载方法,其特征在于,具体步骤如下:
(一)对车联网边缘计算进行数学建模,具体包括:
车联网边缘计算系统模型中包含M个基站和一辆汽车,边缘服务器部署于基站中;各基站均匀分布于道路两旁,且拥有相同的覆盖范围R,各基站仅能与其覆盖范围内的车载设备建立连接;汽车以动态变化的速度v行驶于道路中;
使用动态分割技术,将车载设备中的计算密集型应用分解为N个具有执行先后顺序的子任务,并以有向无环图G=(V,E)表示,各节点i∈V代表一个任务,各有向边e(i,j)∈E代表任务i和任务j的处理顺序,即任务j需要在任务i处理完成后才能执行;
问题的优化目标为最小化时延-能量-费用联合损失函数,定义为任务的处理时延、能量消耗和服务费用的加权和;基于任务的计算决策ki,即若ki=0表示任务本地执行,反之若ki=1表示任务本地执行,得到任务i的处理时延ti、能量消耗ei和服务费用ci分别为:
其中,0≤β1,β2,β3≤1表示加权系数;
为了最小化系统损失函数U,需要联合优化任务卸载和资源分配策略;问题的优化参数分别为任务的执行顺序计算决策本地计算CPU频率和边缘计算传输功率于是,车联网边缘计算任务卸载问题建模为以下非线性混合整数规划:
s.t.C1:yi∈{0,1,…,N}
C2:ki∈{0,1}
C4:0≤pi≤pmax
其中,约束C1限制任务编号的取值,约束C2限制任务计算决策为本地执行或者边缘执行之一,约束C3和约束C4限制本地CPU频率和传输功率的取值范围,约束C5限制任务的执行先后顺序;该非线性混合整数规划问题为非凸且NP难,优化变量包含两个整数参数向量和以及两个连续参数和
(二)利用图神经网络提取有向无环图特征,具体包括:
图神经网络为图注意力网络,由两层隐含层组成,并以ReLU(Rectified Linear Unit)作为激活函数;图神经网络的输入为节点特征矢量集其中F表示各节点特征的特征维数,N为节点特征矢量集h中分量的个数;在隐含层中,各节点输入信息通过共享的线性转换矩阵转变为高维特征,其中,F′表示各节点新生成的高维特征的特征维数;此外,通过引入注意力机制a:在隐含层中,将不同相邻节赋予不同的重要性程度;以相邻节点对的高维特征作为输入,计算得到注意力系数eij,代表节点j的特征对于节点i的重要性程度,即:
为了更好的特征提取效果,引入多头注意力机制,即独立进行K次注意力操作ak后将其结果进行联立,最终得到的输出特征,其计算式为:
其中||表示联立操作,K表示注意力头数,e′ij k和Wk分别表示第k次注意力才做的归一化注意力系数和权重矩阵;通过上述操作,节点的特征维度由F上升为KF′;
(三)定义分层动作空间和强化学习建模,具体包括:
智能体的动作空间为分层结构,具体分为以下三部分:
(1)任务序号:车载设备需要决定任务处理的先后顺序,并不违背任务关联性;
(2)计算决策:车载设备需要决定任务为本地执行或者边缘执行;
(3)连续参数选择:若车载设备决定任务为本地执行,则需要确定CPU频率的分配;若车载设备决定任务为边缘执行,则需要确定传输功率;
于是,问题的动作空间A表述为:
A={ad,ac}={(yi,ki=0,fi)∪(yi,ki=1,pi)},
其中,rt为单步奖励,γ为折扣因子;
车联网边缘计算任务卸载问题可建模为马尔可夫决策过程,其中各元素的物理意义如下:
(1)状态空间:包含任务状态和环境状态两部分;其中任务状态为有向无环图中各任务的初始信息其中DIi和DOi分别为任务的输出和输出数据量,Ci为任务的计算资源消耗,Ei代表任务完成情况;环境状态包括车辆与当前连接基站起始点间的距离dt,剩余未完成的任务数nt,以及车辆前10秒的速度
(2)动作空间:为分层结构,共四个动作,包含两个离散动作和两个连续动作,分别为任务序号yt,计算决策kt,本地分配CPU频率ft和传输功率pt;
(3)奖励函数:由于本问题的优化目标为最小化任务的时延-能量-费用联合损失函数,因此定义奖励为执行完任务后获得的处理时延、能量消耗和服务费用的加权和ut=β1ti+β2ei+β3ci;
(四)设计深度分层任务卸载算法流程,具体包括:
智能体即车载设备的决策系统由图注意力网络和分层动作决策网络构成,以实现状态信息和分层动作空间的映射;
首先,初始化图注意力网络Qg(s,a;θg),分层动作决策网络Qp(s,a;θp)及其目标网络Q′p(s,a;θ′p),其中θ′p=θp,同时初始化经验回放池D,以存储环境转移信息;
在训练过程中,对于每个决策时刻t,智能体已完成上一个任务TASKt-1,并准备执行新的任务TASKt;此时,智能体观测到任务状态和环境状态将其输入图注意力网络中进行特征提取,并最终得出各任务的Q值的估计;其中估计Q值最大的任务设为当前时刻t将处理的任务TASKt,同时确定了任务序号yt的选择;
接着,将该任务的特征信息和环境信息作为分层动作决策网络的输入,并最终得到分层动作的选择at={(yt,kt=0,ft)∪(yt,kt=1,pt)}和相应Q值Qp(st,at;θp);为了充分探索动作空间,离散动作yt和kt的决定将依照∈-贪婪策略,连续动作ft和pt的决定将遵循OU过程;待分层动作at确定后,若计算决策kt=0,则任务TASKt将以CPU频率ft本地执行;若计算决策kt=1,则任务TASKt将以传输功率pt上传至边缘服务器执行;之后,环境状态将转变为st+1,并反馈给智能体t时刻的单步奖励rt;智能体将环境转变(st,at,st+1,rt)储存至经验回放池D中;
在参数更新过程中,智能体从经验回放池D中随机采样出批量训练数据(sj,aj,sj+1,rj);对于图注意力网络和分层动作决策网络,目标值zj均设为单步奖励rj与目标网络输出V值之和,即:
zj=rj+γV′(sj)
其中,γ为折扣因子;为了使网络估计Q值逼近目标值,损失函数设为目标值zj和当前网络输出Q值的均方差,即:
最后,以最小化损失函数为目标,对各网络参数进行梯度下降更新,即:
其中,αg和αp分别为图注意力网络和分层动作决策网络的学习率,τ为目标网络更新率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110772708.9A CN113568675B (zh) | 2021-07-08 | 2021-07-08 | 一种基于分层强化学习的车联网边缘计算任务卸载方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110772708.9A CN113568675B (zh) | 2021-07-08 | 2021-07-08 | 一种基于分层强化学习的车联网边缘计算任务卸载方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113568675A true CN113568675A (zh) | 2021-10-29 |
CN113568675B CN113568675B (zh) | 2024-04-12 |
Family
ID=78164124
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110772708.9A Active CN113568675B (zh) | 2021-07-08 | 2021-07-08 | 一种基于分层强化学习的车联网边缘计算任务卸载方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113568675B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200364580A1 (en) * | 2019-05-16 | 2020-11-19 | Salesforce.Com, Inc. | Learning World Graphs to Accelerate Hierarchical Reinforcement Learning |
CN114116047A (zh) * | 2021-11-09 | 2022-03-01 | 吉林大学 | 一种基于强化学习的车载计算密集型应用的v2i卸载方法 |
CN114116052A (zh) * | 2021-11-18 | 2022-03-01 | 天津市英贝特航天科技有限公司 | 一种边缘计算方法及装置 |
CN114205353A (zh) * | 2021-11-26 | 2022-03-18 | 华东师范大学 | 一种基于混合动作空间强化学习算法的计算卸载方法 |
CN114449482A (zh) * | 2022-03-11 | 2022-05-06 | 南京理工大学 | 基于多智能体深度强化学习的异构车联网用户关联方法 |
CN114528042A (zh) * | 2022-01-30 | 2022-05-24 | 南京信息工程大学 | 基于深度强化学习的节能型自动互联车辆服务卸载方法 |
CN115002123A (zh) * | 2022-05-25 | 2022-09-02 | 西南交通大学 | 基于移动边缘计算的快速适应任务卸载系统和方法 |
CN115016932A (zh) * | 2022-05-13 | 2022-09-06 | 电子科技大学 | 一种基于嵌入式的分布式深度学习模型资源弹性调度方法 |
CN115243217A (zh) * | 2022-07-07 | 2022-10-25 | 中山大学 | 车联网边缘环境下基于ddqn的端边云协同调度方法及系统 |
CN115237506A (zh) * | 2022-09-21 | 2022-10-25 | 暨南大学 | Cps系统中可靠性驱动的分层任务卸载方法和装置 |
CN115686846A (zh) * | 2022-10-31 | 2023-02-03 | 重庆理工大学 | 边缘计算中融合图神经网络和强化学习的容器集群在线部署方法 |
CN116341685A (zh) * | 2023-05-31 | 2023-06-27 | 合肥工业大学智能制造技术研究院 | 基于联合注意力的分布式计算卸载模型训练方法和系统 |
CN116389256A (zh) * | 2023-04-11 | 2023-07-04 | 广东云百科技有限公司 | 基于边缘计算的新能源汽车车联网系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170164237A1 (en) * | 2015-12-03 | 2017-06-08 | The Trustees Of The Stevens Institute Of Technology | System Apparatus And Methods For Cognitive Cloud Offloading In A Multi-Rat Enabled Wireless Device |
CN109547555A (zh) * | 2018-03-01 | 2019-03-29 | 重庆大学 | 基于公平性准则的非平衡边缘云网络接入与资源分配机制 |
CN111726826A (zh) * | 2020-05-25 | 2020-09-29 | 上海大学 | 一种基站密集型边缘计算网络中的在线任务卸载方法 |
CN112367353A (zh) * | 2020-10-08 | 2021-02-12 | 大连理工大学 | 基于多智能体强化学习的移动边缘计算卸载方法 |
CN112905312A (zh) * | 2021-01-20 | 2021-06-04 | 杭州电子科技大学 | 边缘计算环境中基于深度q神经网络的工作流调度方法 |
-
2021
- 2021-07-08 CN CN202110772708.9A patent/CN113568675B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170164237A1 (en) * | 2015-12-03 | 2017-06-08 | The Trustees Of The Stevens Institute Of Technology | System Apparatus And Methods For Cognitive Cloud Offloading In A Multi-Rat Enabled Wireless Device |
CN109547555A (zh) * | 2018-03-01 | 2019-03-29 | 重庆大学 | 基于公平性准则的非平衡边缘云网络接入与资源分配机制 |
CN111726826A (zh) * | 2020-05-25 | 2020-09-29 | 上海大学 | 一种基站密集型边缘计算网络中的在线任务卸载方法 |
CN112367353A (zh) * | 2020-10-08 | 2021-02-12 | 大连理工大学 | 基于多智能体强化学习的移动边缘计算卸载方法 |
CN112905312A (zh) * | 2021-01-20 | 2021-06-04 | 杭州电子科技大学 | 边缘计算环境中基于深度q神经网络的工作流调度方法 |
Non-Patent Citations (1)
Title |
---|
卢海峰;顾春华;罗飞;丁炜超;杨婷;郑帅;: "基于深度强化学习的移动边缘计算任务卸载研究", 计算机研究与发展, no. 07, pages 1539 - 1554 * |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11562251B2 (en) * | 2019-05-16 | 2023-01-24 | Salesforce.Com, Inc. | Learning world graphs to accelerate hierarchical reinforcement learning |
US20200364580A1 (en) * | 2019-05-16 | 2020-11-19 | Salesforce.Com, Inc. | Learning World Graphs to Accelerate Hierarchical Reinforcement Learning |
CN114116047B (zh) * | 2021-11-09 | 2023-11-03 | 吉林大学 | 一种基于强化学习的车载计算密集型应用的v2i卸载方法 |
CN114116047A (zh) * | 2021-11-09 | 2022-03-01 | 吉林大学 | 一种基于强化学习的车载计算密集型应用的v2i卸载方法 |
CN114116052A (zh) * | 2021-11-18 | 2022-03-01 | 天津市英贝特航天科技有限公司 | 一种边缘计算方法及装置 |
CN114205353A (zh) * | 2021-11-26 | 2022-03-18 | 华东师范大学 | 一种基于混合动作空间强化学习算法的计算卸载方法 |
CN114205353B (zh) * | 2021-11-26 | 2023-08-01 | 华东师范大学 | 一种基于混合动作空间强化学习算法的计算卸载方法 |
CN114528042A (zh) * | 2022-01-30 | 2022-05-24 | 南京信息工程大学 | 基于深度强化学习的节能型自动互联车辆服务卸载方法 |
CN114528042B (zh) * | 2022-01-30 | 2023-04-21 | 南京信息工程大学 | 基于深度强化学习的节能型自动互联车辆服务卸载方法 |
CN114449482A (zh) * | 2022-03-11 | 2022-05-06 | 南京理工大学 | 基于多智能体深度强化学习的异构车联网用户关联方法 |
CN115016932A (zh) * | 2022-05-13 | 2022-09-06 | 电子科技大学 | 一种基于嵌入式的分布式深度学习模型资源弹性调度方法 |
CN115002123A (zh) * | 2022-05-25 | 2022-09-02 | 西南交通大学 | 基于移动边缘计算的快速适应任务卸载系统和方法 |
CN115243217A (zh) * | 2022-07-07 | 2022-10-25 | 中山大学 | 车联网边缘环境下基于ddqn的端边云协同调度方法及系统 |
CN115243217B (zh) * | 2022-07-07 | 2023-07-18 | 中山大学 | 车联网边缘环境下基于ddqn的端边云协同调度方法及系统 |
CN115237506B (zh) * | 2022-09-21 | 2022-12-09 | 暨南大学 | Cps系统中可靠性驱动的分层任务卸载方法和装置 |
CN115237506A (zh) * | 2022-09-21 | 2022-10-25 | 暨南大学 | Cps系统中可靠性驱动的分层任务卸载方法和装置 |
CN115686846B (zh) * | 2022-10-31 | 2023-05-02 | 重庆理工大学 | 边缘计算中融合图神经网络和强化学习的容器集群在线部署方法 |
CN115686846A (zh) * | 2022-10-31 | 2023-02-03 | 重庆理工大学 | 边缘计算中融合图神经网络和强化学习的容器集群在线部署方法 |
CN116389256A (zh) * | 2023-04-11 | 2023-07-04 | 广东云百科技有限公司 | 基于边缘计算的新能源汽车车联网系统 |
CN116389256B (zh) * | 2023-04-11 | 2023-09-19 | 广东云百科技有限公司 | 基于边缘计算的新能源汽车车联网系统 |
CN116341685A (zh) * | 2023-05-31 | 2023-06-27 | 合肥工业大学智能制造技术研究院 | 基于联合注意力的分布式计算卸载模型训练方法和系统 |
CN116341685B (zh) * | 2023-05-31 | 2023-07-21 | 合肥工业大学智能制造技术研究院 | 基于联合注意力的分布式计算卸载模型训练方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113568675B (zh) | 2024-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113568675B (zh) | 一种基于分层强化学习的车联网边缘计算任务卸载方法 | |
Liu et al. | Path planning for UAV-mounted mobile edge computing with deep reinforcement learning | |
CN111278132B (zh) | 移动边缘计算中面向低时延高可靠业务的资源分配方法 | |
Chen et al. | Intelligent ubiquitous computing for future UAV-enabled MEC network systems | |
Zhang et al. | Deep reinforcement learning based IRS-assisted mobile edge computing under physical-layer security | |
CN113778648B (zh) | 分层边缘计算环境中基于深度强化学习的任务调度方法 | |
CN113010282B (zh) | 一种基于深度强化学习的边云协同串行任务卸载方法 | |
CN111586696A (zh) | 一种基于多智能体架构强化学习的资源分配及卸载决策方法 | |
CN113132943B (zh) | 一种车联网中车边协同的任务卸载调度及资源分配方法 | |
CN111132074B (zh) | 车联网环境下多接入边缘计算卸载和帧时隙资源分配方法 | |
Liao et al. | Online computation offloading with double reinforcement learning algorithm in mobile edge computing | |
CN113867843B (zh) | 一种基于深度强化学习的移动边缘计算任务卸载方法 | |
WO2022242468A1 (zh) | 任务卸载方法、调度优化方法和装置、电子设备及存储介质 | |
CN116321298A (zh) | 车联网中一种基于深度强化学习的多目标联合优化任务卸载策略 | |
Ebrahim et al. | A deep learning approach for task offloading in multi-UAV aided mobile edge computing | |
Gao et al. | Fast adaptive task offloading and resource allocation via multiagent reinforcement learning in heterogeneous vehicular fog computing | |
Li et al. | DNN Partition and Offloading Strategy with Improved Particle Swarm Genetic Algorithm in VEC | |
Sharma et al. | Deep meta q-learning based multi-task offloading in edge-cloud systems | |
CN117098189A (zh) | 一种基于gat混合动作多智能体强化学习的计算卸载和资源分配方法 | |
CN116828541A (zh) | 基于多智能体强化学习的边缘计算依赖任务动态卸载方法及系统 | |
Shaodong et al. | Multi-step reinforcement learning-based offloading for vehicle edge computing | |
CN115865914A (zh) | 车辆边缘计算中基于联邦深度强化学习的任务卸载方法 | |
CN114942799A (zh) | 云边环境下基于强化学习的工作流调度方法 | |
CN115002123A (zh) | 基于移动边缘计算的快速适应任务卸载系统和方法 | |
CN116582836B (zh) | 一种任务卸载与资源分配方法、设备、介质和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |