CN113568675B

CN113568675B - 一种基于分层强化学习的车联网边缘计算任务卸载方法

Info

Publication number: CN113568675B
Application number: CN202110772708.9A
Authority: CN
Inventors: 徐跃东; 游新宇; 戴连贵; 邢万勇
Original assignee: Guangdong Litong Technology Investment Co ltd; Fudan University
Current assignee: Guangdong Litong Technology Investment Co ltd; Fudan University
Priority date: 2021-07-08
Filing date: 2021-07-08
Publication date: 2024-04-12
Anticipated expiration: 2041-07-08
Also published as: CN113568675A

Abstract

本发明属于车联网边缘计算技术领域，具体为一种基于分层强化学习的车联网边缘计算任务卸载方法。本发明首先将车联网边缘计算网络中的任务卸载问题建模为以最小化时延‑能耗‑费用联合损失函数为目标的优化问题，其中优化参数为任务执行顺序、计算决策、本地资源分配和传输功率控制；然后将具有任务关联性的应用以有向无环图的形式表示，并利用图神经网络挖掘其中的隐含特征，同时利用分层强化学习算法处理离散连续混合动作空间。以真实环境中采取的汽车速度作为数据集进行仿真实验，结果表明，相比于启发式算法，本发明方法在多种环境参数下均能自适应地调节任务卸载和资源分配策略，进而更有效地降低系统损失函数。

Description

一种基于分层强化学习的车联网边缘计算任务卸载方法

技术领域

本发明属于车联网边缘计算技术领域，具体涉及基于分层强化学习的车联网边缘计算任务卸载方法。

背景技术

随着车联网的不断发展，辅助驾驶、增强现实和图像处理等应用已逐步在车载设备中部署，以提升车内人员的驾驶体验[1]。这些应用通常具有两大特点：计算资源需求大和实时性要求高。然而，车载设备计算资源有限且能量供应有限，往往无法满足这些应用的需求[2]。

通过引入具有强大运算能力的云服务器，移动云计算(Mobile Cloud Computing，MCC)被视为能够解决以上所述问题的有效方式[3]。为了获取充足的计算资源和节约能量消耗，车载设备可以选择将计算密集型任务卸载至云服务器中执行。尽管移动云计算能带来丰富的计算资源，但是车载设备和云服务器之间过远的物理距离将带来较长的数据传输时延，而这恰与任务的实时性要求相悖。

为了处理移动云计算的时延问题，研究人员提出了移动边缘计算(MobileEdgeComputing，MEC)的概念[4]。在移动边缘计算中，拥有高运算能力的服务器不再位于遥远的云端，而是设置于离用户端更近的边缘网络中。通过结合车联网和移动边缘计算，车联网边缘计算(Vehicular edge computing，VEC)将边缘服务器部署于道路两旁的基站中，以大幅降低数据传输时延和保证数据连接的稳定性[5]。车联网边缘计算中的任务卸载问题也成为学界的研究热点。文献[6]提出了一种基于博弈论的任务卸载算法，同时证明了多车辆任务卸载问题中纳什均衡的存在。文献[7]构建了以最小化车辆和边缘服务器的损耗和为目标的双边优化问题，并基于李雅普诺夫优化提出了相应的任务卸载和资源分配策略。文献[8]考虑到车辆的移动性，提出了“直接上传-接替传输”的组合卸载方式，以大幅降低任务的处理时延和传输效率。然而，车联网边缘计算中仍存在一些关键问题未得到解决：

(1)具有任务关联性的应用。前述工作均只考虑处理单个应用的计算资源和实时性需求，但依靠动态分割技术[9]，单个应用可被分解为具有执行先后顺序的多个子任务。在不破坏子任务执行关联性的前提下，如何有效处理该类应用仍具有较大挑战；

(2)系统损失函数。前述工作的优化目标仅考虑了任务处理时延和能量消耗，而未考虑边缘计算服务费用[6-8]。设计一种任务卸载策略以平衡时延-能量-费用是十分必要的；

(3)计算复杂度。车联网边缘计算中任务卸载问题往往被构造为非线性混合整数问题，具有NP难的特征且无法在多项式时间内解决[10]。而过长的求解时间对于实时性要求高的任务无法接受，因此设计一种不牺牲性能且能快速求解的任务卸载算法非常重要。

发明内容

本发明的目的在于提供一种自适应的任务卸载和资源分配联合策略，从而实现降低系统损失函数的基于分层强化学习的车联网边缘计算任务卸载策略。

本发明提供的基于分层强化学习的车联网边缘计算任务卸载方法，首先将车联网边缘计算网络中的任务卸载问题建模为以最小化时延-能耗-费用联合损失函数为目标的优化问题，其中优化参数为任务执行顺序、计算决策、本地资源分配和传输功率控制；接着，提出了深度分层任务卸载策略，以端到端的方式解决该非线性混合整数规划；将具有任务关联性的应用以有向无环图的形式表示，并利用图神经网络提取蕴含在子任务中的高维信息，同时利用分层强化学习算法处理包含两个离散动作和两个连续动作的混合动作空间。仿真实验以真实采集的车辆速度作为数据集，实验结果表明相比于启发式算法，本发明提出的算法在多种环境参数下均能大幅度降低系统损失函数。

本发明提供的基于分层强化学习的车联网边缘计算任务卸载方法，具体步骤如下。

(一)首先，对车联网边缘计算进行数学建模，具体包括：

车联网边缘计算系统模型中包含M个基站和一辆汽车，边缘服务器部署于基站中；各基站均匀分布于道路两旁，且拥有相同的覆盖范围R，各基站仅能与其覆盖范围内的车载设备建立连接；汽车以动态变化的速度v行驶于道路中；

使用动态分割技术，将车载设备中的计算密集型应用分解为N个具有执行先后顺序的子任务，并以有向无环图G＝(V,E)表示，各节点i∈V代表一个任务，各有向边e(i,j)∈E代表任务i和任务j的处理顺序，即任务j需要在任务i处理完成后才能执行；

问题的优化目标为最小化时延-能量-费用联合损失函数，定义为任务的处理时延、能量消耗和服务费用的加权和；基于任务的计算决策k_i(若k_i＝0表示任务本地执行，反之若k_i＝1表示任务本地执行)，可以得到任务i的处理时延t_i、能量消耗e_i和服务费用c_i分别为：

其中，和/>分别为任务i的本地处理时延和边缘处理时延，/>和/>分别为任务i的本地能量消耗和边缘能量消耗，/>代表任务i的边缘服务费用。由此，所有任务的损失函数和U为：

其中，0≤β₁，β₂,β₃≤1表示加权系数。

为了最小化系统损失函数U，需要联合优化任务卸载和资源分配策略；问题的优化参数分别为任务的执行顺序计算决策/>本地计算CPU频率/>和边缘计算传输功率/>于是，车联网边缘计算任务卸载问题建模为以下非线性混合整数规划：

s.t. C1:y_i∈{0,1,…,N}

C2:k_i∈{0,1}

C4:0≤p_i≤p_max

其中，约束C1限制任务编号的取值，约束C2限制任务计算决策为本地执行或者边缘执行之一，约束C3和约束C4限制本地CPU频率和传输功率的取值范围，约束C5限制任务的执行先后顺序；该非线性混合整数规划问题为非凸且NP难，优化变量包含两个整数参数向量和/>以及两个连续参数/>和/>

(二)其次，利用图神经网络提取有向无环图特征，具体包括：

图神经网络为图注意力网络，由两层隐含层组成，并以ReLU(Rectified LinearUnit)作为激活函数；图神经网络的输入为节点特征矢量集其中F表示各节点特征/>的特征维数，N为节点特征矢量集h中分量的个数；在隐含层中，各节点输入信息通过共享的线性转换矩阵/>转变为高维特征，其中，F′表示各节点新生成的高维特征的特征维数；此外，通过引入注意力机制/>在隐含层中，将不同相邻节赋予不同的重要性程度；以相邻节点对的高维特征作为输入，计算得到注意力系数e_ij，代表节点j的特征对于节点i的重要性程度，即：

得到节点i所有相邻节点对包括节点i本身的注意力系数e_ij后，对其进行归一化操作；具体是通过引入softmax函数，得到归一化注意力系数e′_ij：

其中，表示节点i的相邻节点集合；

为了更好的特征提取效果，引入多头注意力机制，即独立进行K次注意力操作a^k后将其结果进行联立,最终得到的输出特征，其计算式为：

其中||表示联立操作，K表示注意力头数，e′_ij ^k和W^k分别表示第k次注意力才做的归一化注意力系数和权重矩阵；通过上述操作，节点的特征维度由F上升为KF′。

(三)然后，定义分层动作空间和强化学习建模，具体包括：

智能体的动作空间为分层结构，具体分为以下三部分：

(1)任务序号：车载设备需要决定任务处理的先后顺序，并不违背任务关联性；

(2)计算决策：车载设备需要决定任务为本地执行或者边缘执行；

(3)连续参数选择：若车载设备决定任务为本地执行，则需要确定CPU频率的分配；若车载设备决定任务为边缘执行，则需要确定传输功率；

于是，问题的动作空间A可以表述为：

A＝{a_d,a_c}＝{(y_i,k_i＝0,f_i)∪(y_i，k_i＝1，p_i)}

其中，a_d代表离散动作集，a_c代表连续动作集；定义智能体在时刻t选取的动作为a_t＝(y_t，k_t，f_t，p_t)，相应的状态动作值函数为Q(s_t，a_t)，其中，又此，得出本问题下的最优贝尔曼方程：

其中，r_t为单步奖励，γ为折扣因子；

车联网边缘计算任务卸载问题可建模为马尔可夫决策过程，其中各元素的物理意义如下：

(1)状态空间：包含任务状态和环境状态两部分；其中任务状态为有向无环图中各任务的初始信息其中DI_i和DO_i分别为任务的输出和输出数据量，C_i为任务的计算资源消耗，E_i代表任务完成情况；环境状态/>包括车辆与当前连接基站起始点间的距离d_t，剩余未完成的任务数n_t，以及车辆前10秒的速度/>

(2)动作空间：为分层结构，共四个动作，包含两个离散动作和两个连续动作，分别为任务序号y_t，计算决策k_t，本地分配CPU频率f_t和传输功率p_t；

(3)奖励函数：由于本问题的优化目标为最小化任务的时延-能量-费用联合损失函数，因此定义奖励为执行完任务后获得的处理时延、能量消耗和服务费用的加权和u_t＝β₁t_i+β₂e_i+β₃c_i。

(四)最后，设计深度分层任务卸载算法流程，具体包括：

智能体(即车载设备)的决策系统由图注意力网络和分层动作决策网络构成，以实现状态信息和分层动作空间的映射；

首先，初始化图注意力网络Q_g(s，a；θ_g)，分层动作决策网络Q_p(s，a；θ_p)及其目标网络Q′_p(s，a；θ′_p)，其中θ′_p＝θ_p，同时初始化经验回放池(Replay Buffer)D，以存储环境转移信息；

在训练过程中，对于每个决策时刻t，智能体已完成上一个任务TASK_t-1，并准备执行新的任务TASK_t；此时，智能体观测到任务状态和环境状态/>将其输入图注意力网络中进行特征提取，并最终得出各任务的Q值的估计；其中估计Q值最大的任务设为当前时刻t将处理的任务TASK_t，同时确定了任务序号y_t的选择；

接着，将该任务的特征信息和环境信息作为分层动作决策网络的输入，并最终得到分层动作的选择a_t＝{(y_t，k_t＝0，f_t)∪(y_t，k_t＝1，p_t)}和相应Q值Q_p(s_t，a_t；θ_p)；为了充分探索动作空间，离散动作y_t和k_t的决定将依照∈-贪婪策略，连续动作f_t和p_t的决定将遵循OU过程；待分层动作a_t确定后，若计算决策k_t＝0，则任务TASK_t将以CPU频率f_t本地执行；若计算决策k_t＝1，则任务TASK_t将以传输功率p_t上传至边缘服务器执行；之后，环境状态将转变为s_t+1，并反馈给智能体t时刻的单步奖励r_t；智能体将环境转变(s_t，a_t，s_t+1，r_t)储存至经验回放池D中；

在参数更新过程中，智能体从经验回放池D中随机采样出批量训练数据(s_j，a_j，s_j+1，r_j)；对于图注意力网络和分层动作决策网络，目标值z_j均设为单步奖励r_j与目标网络输出V值之和，即：

z_j＝r_j+γV′(s_j)

其中，γ为折扣因子；为了使网络估计Q值逼近目标值，损失函数设为目标值z_j和当前网络输出Q值的均方差，即：

最后，以最小化损失函数为目标，对各网络参数进行梯度下降更新，即：

其中，α_g和α_p分别为图注意力网络和分层动作决策网络的学习率，τ为目标网络更新率。

本发明提出的基于分层强化学习的车联网边缘计算任务卸载方法，可以动态调整任务卸载和资源分配，以达到本地计算和边缘计算的平衡。以真实环境中采取的汽车行驶速度作为数据集进行仿真实验，实验结果表明，相比于启发式算法，本发明提出的算法在不同的环境参数下均能带来更低的联合损失函数和更优的性能表现。

附图说明

图1为车联网边缘计算系统模型。

图2为任务有向无环图。

图3为图注意力网络结构。

图4为真实环境中采集的车辆速度轨迹。

图5为系统损失函数与信道带宽的关系。

图6为系统损失函数与基站覆盖范围的关系。

具体实施方式

设实施例的参数

仿真环境：Python；

仿真平台：如图1所示；

奖励折扣因子：0.99；

图注意力网络的学习率：0.001；

分层动作决策网络的学习率：0.01。

基于分层强化学习的车联网边缘计算任务卸载方法，具体步骤为：

步骤1：初始化图注意力网络Q_g(s,a；θ_g)，分层动作决策网络Q_p(s，a；θ_p)及其目标网络Q′_p(s，a；θ′_p)，其中θ′_p＝θ_p，同时初始化经验回放池D。

步骤2：观测当前环境状态s_t，选择并执行分层动作a_t＝{(y_t，k_t＝0,f_t)∪(y_t,k_t＝1，p_t)}。

步骤3：观测下一环境状态s_t+1并获得单步奖励r_t。

步骤4：将环境转变(s_t，a_t，s_t+1,r_t)储存至经验回放池D，再从经验回放池D中随机采样批量训练数据(s_j,a_j,s_j+1,r_j)。

步骤5：设置目标值z_j＝r_j+γV′(s_j)，设置损失函数以及更新网络参数/>

仿真结果：

如图5所示，为系统损失函数与信道带宽的关系。本发明提出的算法相比于另外三种比较算法对于带宽变化较为鲁棒。

如图6所示，为系统损失函数与基站覆盖范围的关系，相比于比较算法，本发明提出的算法曲线斜率较低，说明其性能不易受基站覆盖范围的影响。

参考文献

[1]Zhao J,Li Q,Gong Y,et al.Computation offloading and resourceallocation for cloud assisted mobile edge computing in vehicular networks[J].IEEE Transactions on Vehicular Technology,2019,68(8):7944-7956.

[2]Yan J,Bi S,Zhang Y J,et al.Optimal task offloading and resourceallocation in mobile-edge computing with inter-user task dependency[J].IEEETransactions on Wireless Communications,2019,19(1):235-250.

[3]Dinh H T,Lee C,Niyato D,et al.A survey of mobile cloud computing:architecture,applications,and approaches[J].Wireless communications andmobile computing,2013,13(18):1587-1611.

[4]Patel M,Naughton B,Chan C,et al.Mobile-edge computing introductorytechnical white paper[J].White paper,mobile-edge computing(MEC)industryinitiative,2014,29:854-864.

[5]Abbas N,Zhang Y,Taherkordi A,et al.Mobile edge computing:A survey[J].IEEE Internet of Things Journal,2017,5(1):450-465.

[6]Liu Y,Wang S,Huang J,et al.A computation offloading algorithmbased on game theory for vehicular edge networks[C]//2018IEEE InternationalConference on Communications(ICC).IEEE,2018:1-6.

[7]Du J,Yu F R,Chu X,et al.Computation offloading and resourceallocation in vehicular networks based on dual-side cost minimization[J].IEEETransactions on Vehicular Technology,2018,68(2):1079-1092.

[8]Zhang K,Mao Y,Leng S,et al.Mobile-edge computing for vehicularnetworks:A promising network paradigm with predictive off-loading[J].IEEEVehicular Technology Magazine,2017,12(2):36-44.

[9]Yang L,Cao J,Cheng H,et al.Multi-user computation partitioning forlatency sensitive mobile cloud applications[J].IEEE Transactions onComputers,2014,64(8):2253-2266.

[10]Dinh T Q,Tang J,La Q D,et al.Offloading in mobile edge computing:Task allocation and computational frequency scaling[J].IEEE Transactions onCommunications,2017,65(8):3571-3584.

[11]Kipf T N,Welling M.Semi-supervised classification with graphconvolutional networks[J].arXiv preprint arXiv:1609.02907,2016.。

Claims

1.一种基于分层强化学习的车联网边缘计算任务卸载方法，其特征在于，具体步骤如下：

(一)对车联网边缘计算进行数学建模，具体包括：

问题的优化目标为最小化时延-能量-费用联合损失函数，定义为任务的处理时延、能量消耗和服务费用的加权和；基于任务的计算决策k_i，即若k_i＝0表示任务本地执行，反之若k_i＝1表示任务边缘执行，得到任务i的处理时延t_i、能量消耗e_i和服务费用c_i分别为：

其中，和/>分别为任务i的本地处理时延和边缘处理时延，/>和/>分别为任务i的本地能量消耗和边缘能量消耗，/>代表任务i的边缘服务费用；由此，所有任务的损失函数和U为：

其中，0≤β₁,β₂,β₃≤1表示加权系数；

s.t.C1:y_i∈{0,1,…,N}

C2:k_i∈{0,1}

C3:

C4:0≤p_i≤p_max

C5:

(二)利用图神经网络提取有向无环图特征，具体包括：

图神经网络为图注意力网络，由两层隐含层组成，并以ReLU作为激活函数；图神经网络的输入为节点特征矢量集其中F表示各节点特征/>的特征维数，N为节点特征矢量集h中分量的个数；在隐含层中，各节点输入信息通过共享的线性转换矩阵/>转变为高维特征，其中，F′表示各节点新生成的高维特征的特征维数；此外，通过引入注意力机制a:/>在隐含层中，将不同相邻节赋予不同的重要性程度；以相邻节点对的高维特征作为输入，计算得到注意力系数e_ij，代表节点j的特征对于节点i的重要性程度，即：

其中，表示节点i的相邻节点集合；

其中||表示联立操作，K表示注意力头数，e′_ij ^k和W^k分别表示第k次注意力操作的归一化注意力系数和权重矩阵；通过上述操作，节点的特征维度由F上升为KF′；

(三)定义分层动作空间和强化学习建模，具体包括：

智能体的动作空间为分层结构，具体分为以下三部分：

于是，问题的动作空间A表述为：

A＝{a_d,a_c}＝{(y_i,k_i＝0,f_i)∪(y_i,k_i＝1,p_i)}，

其中，a_d代表离散动作集，a_c代表连续动作集；定义智能体在时刻t选取的动作为a_t＝(y_t,k_t,f_t,p_t)，相应的状态动作值函数为Q(s_t,a_t)，其中，又此，得出本问题下的最优贝尔曼方程：

其中，r_t为单步奖励，γ为折扣因子；

(3)奖励函数：由于本问题的优化目标为最小化任务的时延-能量-费用联合损失函数，因此定义奖励为执行完任务后获得的处理时延、能量消耗和服务费用的加权和u_t＝β₁t_i+β₂e_i+β₃c_i；

(四)设计深度分层任务卸载算法流程，具体包括：

智能体即车载设备的决策系统由图注意力网络和分层动作决策网络构成，以实现状态信息和分层动作空间的映射；

首先，初始化图注意力网络Q_g(s,a；θ_g)，分层动作决策网络Q_p(s,a；θ_p)及其目标网络Q′_p(s,a；θ′_p)，其中θ′_p＝θ_p，同时初始化经验回放池D，以存储环境转移信息；

接着，将该任务的特征信息和环境信息作为分层动作决策网络的输入，并最终得到分层动作的选择a_t＝{(y_t,k_t＝0,f_t)∪(y_t,k_t＝1,p_t)}和相应Q值Q_p(s_t,a_t；θ_p)；为了充分探索动作空间，离散动作y_t和k_t的决定将依照∈-贪婪策略，连续动作f_t和p_t的决定将遵循OU过程；待分层动作a_t确定后，若计算决策k_t＝0，则任务TASK_t将以CPU频率f_t本地执行；若计算决策k_t＝1，则任务TASK_t将以传输功率p_t上传至边缘服务器执行；之后，环境状态将转变为s_t+1，并反馈给智能体t时刻的单步奖励r_t；智能体将环境转变(s_t,a_t,s_t+1,r_t)储存至经验回放池D中；

在参数更新过程中，智能体从经验回放池D中随机采样出批量训练数据(s_j,a_j,s_j+1,r_j)；对于图注意力网络和分层动作决策网络，目标值z_j均设为单步奖励r_j与目标网络输出V值之和，即：

z_j＝r_j+γV′(s_j)