CN112822234B

CN112822234B - 一种车联网中基于深度强化学习的任务卸载方法

Info

Publication number: CN112822234B
Application number: CN202011599843.XA
Authority: CN
Inventors: 周振宇; 潘超; 杨秀敏; 廖海君; 任新成
Original assignee: North China Electric Power University; Yanan University
Current assignee: North China Electric Power University; Yanan University
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2022-03-22
Anticipated expiration: 2040-12-29
Also published as: CN112822234A

Abstract

本发明公开了一种车联网中基于移动边缘计算的任务卸载与资源分配方法，即一种车联网中基于深度强化学习的任务卸载方法，通过深度强化学习的任务卸载方法，应用于车联网处理高维状态信息的任务卸载，具体步骤包括：(1)构建系统模型框架建立车联网通信场景；(2)模型细化，对用户侧和服务器侧任务处理进行建模；(3)提出高可靠低时延约束与优化问题；(4)进行优化问题的转化并引入马尔科夫决策过程；(5)建立最优化问题模型，提出基于Deep Q‑learning Network的具有URLLC感知的任务卸载算法五个步骤构成。本发明同时考虑平均度量性能以及高阶统计量的性能，考虑了极端事件对通信可靠性的影响，使得用户车辆可以在保障URLLC通信需求的同时通过深度学习作出最优的任务卸载决策，满足其众多应用的高可靠低时延通信需求。

Description

一种车联网中基于深度强化学习的任务卸载方法

技术领域

本发明涉及车联网移动边缘计算的任务卸载与资源分配问题技术领域，尤其是一种基于深度强化学习的任务卸载方法。

背景技术

新兴的车辆应用，如自动驾驶、实时交通监控和在线游戏，产生了大量的计算密集型和延迟敏感的任务，对超高可靠和低延迟通信(URLLC)提出了严格的要求。在传统的车辆边缘计算(VEC)范式中，用户车辆(UVs)通过将过多的任务卸载到边缘服务器进行计算，与部署在网络边缘的边缘服务器(例如路边单元(RSU)进行协作。然而，由于边缘服务器位置固定、覆盖范围有限和部署成本过高等因素，使得单靠VEC本身很难有效地满足严格的URLLC需求。除了UVs和边缘服务器之间的协作之外，车载雾计算(VFC)为车辆之间带来了一种新的协作模式，即UVs可以将部分任务卸载到服务器车辆，这些车辆称为车载雾服务器(VFS)，可以利用自己剩余的计算资源为用户车辆提供计算服务。此外，VFC可以与VEC合作，互相作为补充，在延迟和可靠性方面获得较大的性能增益。然而两者合作尽管有上述潜在的好处，但是如何在这样一个VEC和VFC并存的协作车辆网络中实现URLLC感知的任务卸载仍然面临着一些技术挑战，具体总结如下：

第一，以前的绝大多数工作都是通过基于平均性能度量的视角来优化任务卸载，例如时间平均延迟和平均速率稳定约束等等，而并未对极端事件的发生进行约束，这就导致了显著的性能波动。因此，可靠的URLLC需求保障需要进一步考虑极端事件的特征、延迟约束违反概率、超额积压等高阶统计量。从平均统计量性能和高阶统计量性能两个方面来保障URLLC需求。

第二，全局状态信息(GSI)不可知。其中包括信道状态信息(CSI)、服务的计算能力、其它用户车辆的决策等等，以及由于车辆移动性高而引起的可用服务器集变化速度快、信令开销过大等问题。因此，每个UV都必须在信息不完整的情况下来优化自己的任务卸载策略。更重要的是，在复杂的车联网环境中，随着UV、RSU和VFS数量的增长，用户车辆做决策是需要考虑的环境状态信息维数呈指数级增长，这种困境被称为维度的诅咒，即用户车辆所处的环境中，信息过于复杂。使得传统的基于学习的方法难以以较低的复杂度解决该问题。

因此，迫切需要设计一种能够处理高维状态信息的任务卸载方法，在保障高可靠低时延通信需求的前提下大幅度提升车联网吞吐量，满足用户车辆的多元化需求。

发明内容

本发明的目的是：克服现有技术中存在的不足，提供一种车联网中基于移动边缘计算的任务卸载与资源分配方法，深度学习网络(Deep Q-learning Network，DQN)的任务卸载方案，可以有效的处理高维度复杂的环境状态信息，通过深度学习作出最优的任务卸载决策。实现了同时考虑平均度量性能以及高阶统计量的性能，考虑了极端事件对通信可靠性的影响，使得用户车辆可以在保障URLLC通信需求的同时学习到长期最优的任务卸载策略，满足其众多应用的高可靠低时延通信需求。

为解决上述技术问题，本发明采用的技术方案如下：

1.构建系统模型框架

图1所示，在协作式车辆网络中包括三种实体：路边单元(RodeSide Unit，RSU)、车辆雾服务器(Vehicular Fog Servers，VFS)和用户车辆(User Vehicles，UV)。其中路边单元指的是边缘服务器，车辆雾服务器指的是服务器车辆。路边单元和车辆雾服务器可以为用户车辆提供计算服务。如图所示：s₁、s₂、s₃代表车辆雾服务器，s₄、s₅代表路边单元即边缘服务器，u₁-u₅代表用户车辆。为不失一般性，定义服务器集合为S＝{s₁,…,s_n,…,s_N}，定义用户车辆集合为U＝{u₁…u_m…u_M}。

本发明采用时隙模型，将整个优化时间划分为T个时隙，其集合定义为T＝{1,…,t,…,T}。在每一个时隙内，信道状态信息(Channel State Information，CSI)、用户车辆与边缘服务器以及车辆雾服务器之间的距离保持不变；而在不同的时隙之间，信道状态信息会发生改变。由于服务器车辆的移动性，在不同时隙之间，车辆雾服务器的可用性也是会发生变化。

定义在第t个时隙，用户车辆u_m可选的服务器集合为S_m,t，且

记录用户车辆u_m在第t个时隙卸载决策的二进制变量为x_m,n,t，当x_m,n,t＝1时，代表用户车辆u_m在第t个时隙选择服务器s_n进行任务卸载；反之同理。

2.模型的细化

(1)用户车辆侧的任务传输模型

本发明采用任务划分模型，将用户车辆每个时隙产生的任务数据量定义为A_m(t)。这些任务暂时存储在用户车辆的本地缓冲区，然后被卸载到边缘服务器即路边单元(RSU)或服务器车辆(车辆雾服务器)上进行计算处理。这样在用户车辆的本地缓冲区就形成了一个数据队列，其公式为：

Q_m(t+1)＝max{Q_m(t)-U_m(t)+A_m(t),0} (1)

其中Q_m(t)表示第t个时隙存储在用户车辆u_m本地缓冲区上的数据量，U_m(t)表示第t个时隙卸载到边缘服务器或服务器车辆上的数据量，A_m(t)表示第t个时隙用户车辆新产生的数据量。

定义用户车辆u_m和服务器s_n之间的通信子信道带宽为B_m,n，那么当x_m,n,t＝1时，可以计算出用户车辆u_m卸载至服务器s_n的任务量为：

其中τ为固定的传输时间，P_TX为传输功率，g_m,n,t为第t个时隙用户车辆到服务器的信道增益，σ²为噪声功率。因此用户车辆的吞吐量为：

其中x_m,n,t表示用户车辆u_m在第t个时隙对边缘服务器s_n的选择情况，当x_m,n,t＝1时，代表用户车辆u_m在第t个时隙选择s_n进行任务卸载。

(2)服务器侧的任务处理模型

在服务器侧，每个服务器都会为每个用户车辆设置相应的存储空间，用于存储用户车辆卸载的数据。因此每个服务器上均可建立一系列数据队列，用户车辆u_m在服务器s_n上的数据缓存队列为：

H_m,n(t+1)＝max{H_m,n(t)-Y_m,n(t)+x_m,n,tz_m,n,t,0} (4)

其中Y_m,n(t)代表服务器s_n在第t个时隙处理掉的数据量，有以下公式给出：

其中λ_m表示计算复杂度，即处理1bit任务数据所需的CPU周期数，f_m,n,t表示服务器s_n分配的用于处理用户车辆u_m卸载的任务的计算资源。

3.高可靠低时延约束与优化问题的提出

任务卸载过程的端到端时延包括五个部分，即本地任务缓冲区排队延迟、数据传输延迟、服务器端任务缓冲区排队延迟、任务处理时延和结果反馈时延。由于排队延迟对端到端延迟有很大的影响，因此对排队延迟施加了长期限制，以确保卸载任务的有效性和及时性。

(1)高可靠低时延约束

定义用户车辆u_m的平均数据到达速率为

服务器s_n侧的平均任务到达速率为

具体表达式为：

根据里特定律(Little’s Law)，将数据队列积压与平均数据到达率之比定义为平均排队时延。定义极端事件为排队时延超出了给定的排队时延约束，体现在队列长度上为：

其中

和

分别表示用户车辆侧和服务器侧给出的排队时延约束。

为了保证数据任务高可靠低时延的需求，除了考虑平均排队时延以外，同时还要考虑队列长度的尾部分布。结合极端事件的定义，可以得出用户车辆侧以及服务器侧缓冲区的超额队列积压为：

极端事件的发生概率、长期平均时间的条件均值和方差应该被限定在一定的范围内。极端事件的发生概率约束为：

其中

是对极端事件发生的可容忍概率。

根据Pickands-Balkema-de Haan定理，用户车辆侧超额数据积压的条件互补累积分布函数可以近似为广义帕累托分布(Generalized Pareto Distribution，GPD)

其中

和

分别是相应的尺度参数和形状参数。

根据以上理论，可以得到用户车辆侧超额队列积压的长期均值以及二阶矩约束：

其中，

和

分别是

和

的上界，它们的取值取决于广义帕累托分布的性质和特定的高可靠低时延通信要求。

类似的可以得到服务器侧极端事件发生概率约束以及超额队列积压的长期均值和二阶矩约束：

其中，

和

分别是

和

的上界，它们的取值也取决于广义帕累托分布的性质和特定的高可靠低时延通信要求。

(2)优化问题的提出

基于上述建立的模型与约束，本发明解决的优化问题为：在高可靠低时延通信约束下最大化用户车辆的吞吐量。因此，优化问题P1定义为：

其中约束条件C₁表示用户车辆选择服务器的约束，即用户车辆在每个时隙只能选择一个边缘服务器进行任务卸载；约束条件C₂是高可靠低时延通信约束，该约束是分别在用户车辆侧以及服务器侧根据极端事件的发生概率约束、长期平均时间下超额积压的条件均值和方差约束定义的。

4.优化问题的转化与马尔科夫决策过程

(1)优化问题的转化

首先基于Lyapunov优化理论中的虚拟队列概念，将上述约束C₂转换为虚拟队列，其公式如下：

用户车辆侧：

其中ΙΙ{x}是一个二进制示性函数，当x为真时，ΙΙ{x}＝1，反之ΙΙ{x}＝0。这三个虚拟队列分别表示用户车辆侧的极端事件发生概率虚拟队列、超额积压均值虚拟队列和超额积压二阶矩虚拟队列。

服务器侧：

其中ΙΙ{x}是一个二进制示性函数，当x为真时，ΙΙ{x}＝1，反之ΙΙ{x}＝0。这三个虚拟队列分别表示服务器侧的极端事件发生概率虚拟队列、超额积压均值虚拟队列和超额积压二阶矩虚拟队列。

基于上述建立的虚拟队列，本发明把长期的用户车辆吞吐量最大化问题转化为短期的确定性优化子问题，同时保证高可靠低时延通信约束。因此，优化问题P1可以转化为P2：

其中θ_m,n,t表示用户车辆吞吐量和高可靠低时延通信约束偏差的加权和，计算公式为：

其中

和

分别是用户车辆吞吐量、用户车辆侧高可靠低时延约束和服务器侧高可靠低时延约束的权重(正数值权重)，

和

以及

和

分别是用来统一数量级的参数。通过虚拟队列相关理论，本发明将P1中的约束C₂转化到了P2的优化目标之中，从而保证了数据任务高可靠低时延的需求。

(2)马尔科夫决策过程(MDP)相关概念的定义

MDP过程主要包括以下四个概念：

1)状态

在t个时隙初，网络状态由各个队列的信息来决定，故网络状态的矢量表示为：

2)动作

在考虑的环境中，每个用户车辆必须选择一个服务器进行任务卸载，如s_n。因此，用户车辆u_m的动作可表示为矢量X_m(t)＝{x_m,1,t(t),…,x_m,N,t(t)}。

3)奖励

为了对问题P2进行优化，本发明将第t个时隙用户车辆u_m选择服务器s_n的奖励作为问题P2的优化目标，即θ_m,n,t。

4)转移概率

用户车辆u_m从状态S_m(t)开始，选择动作X_m(t)后，转移到下一个状态S_m(t+1)的计算公式为：

由于队列积压由u_m和其他UV的任务卸载决策共同决定，使得转移到下一个状态S_m(t+1)的计算公式P(S_m(t+1)|S_m(t),X_m(t))很难建模。此外，状态空间数随着服务器数量的增加而呈指数增长，使得环境变得非常复杂。为解决上述问题，可以采用基于强化学习的无模型方法来解决任务卸载的问题。

5.基于Deep Q-learning Network(DQN)的具有URLLC感知的任务卸载算法

由于Q学习法在解决大状态空间中的任务卸载问题具有巨大的潜力，故本发明采用Q学习法解决维度灾难的问题。该方法可以估计在状态s选择动作a的价值，即Q值，其公式为：

其中ψ，R，γ∈[0,1]，s′分别是学习速率，奖励，折扣因子和下一状态(即在当前状态s下，采取动作a后转移到的下一个状态)。在每个时隙中，Q学习法基于当前的Q值，利用ε-贪婪算法选择一个动作(即以ε概率随机选择一个动作，以1-ε的概率选择当前Q值最大的动作)。

随着环境规模的扩大，需要大量的存储资源来存储每个状态-动作对的所有Q值，降低了实用性和效率。为了处理维度灾难的问题，本发明采用基于DQN的方法，该方法利用神经网络逼近状态-动作对和它们的Q值之间的映射关系，也就是利用神经网络来存储状态-动作对的Q值，这样就可以避免采用列表存储Q值带来的实用性差、效率低和存储空间需求大等问题。具体地说，通过不断的学习更新神经网络参数w，从而使得神经网络可以很好的逼近状态-动作对和它们的Q值之间的映射关系。具体公式如下：

其中π代表选择策略。

定义时间尺度为时间段和时隙，每T个时隙构成一个时间段，共有G个时间段，e表示第e个时间段，用来计数的，记录当前是第几个时间段，本发明提出的基于DQN的具有URLLC感知的任务卸载算法具体步骤如下：

(1)在每个时隙的开始时，u_m根据当前的各个队列信息得到当前的状态向量S_m(t)，基于神经网络得到Q值并利用ε-贪婪算法进行服务器的选择。

(2)u_m将任务卸载到选定的服务器，并计算奖励θ_m,n,t，然后转移到下一个状态S_m(t+1)。

(3)u_m计算损失函数：

(4)利用损失函数更新神经网络参数w，更新公式为：

其中，ψ′为网络更新的学习速率。

(5)更新

各个队列信息，直到e＞G，迭代停止。

本发明相对于现有计算具有如下的优点及效果：

(1)为了满足不同UV的URLLC需求，本发明对极端事件的发生概率、长期平均时间下超额积压的条件均值以及方差进行约束，使得所提出的DREAM算法可以根据URLLC性能偏差动态优化任务卸载策略，有效的处理高维复杂的环境状态信息。

(2)基于观察到的队列性能和深度神经网络，所提出的DREAM算法可以利用Q学习法优化任务卸载策略，从而以近似Q函数来解决维度灾难的问题，做出信息不完整和高维度下的最优任务卸载决策。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某个实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本发明实施例中公开的场景示意图；

图2是本发明实施例中平均端到端队列时延；

图3是本发明实施例中极端事件发生次数；

图4是本发明实施例中服务器侧平均超额积压；

图5是本发明实施例中服务器侧超额积压二阶矩。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

如图1所示，本发明的基本实施例公开了一种车联网中基于移动边缘计算的任务卸载与资源分配方法，构建仿真场景，考虑的仿真场景包括5个UV，2个VFS，即s₁、s₂，以及3个RSU，即s₃、s₄、和s₅。假定VFS和UV沿相同的方向运动，并且对于UV而言，VFS始终可用。对于边缘服务器RSU而言，当t属于[1、200]，[201、400]和[401、600]时，s₃、s₄、和s₅对UV分别不可用。

步骤1：s₁、s₂代表车辆雾服务器，s₃ s₄、s₅代表路边单元即边缘服务器，u₁-u₅代表用户车辆。为不失一般性，定义服务器集合为S＝{s₁,…,s_n,…,s_N}，定义用户车辆集合为U＝{u₁…u_m…u_M}。

步骤2：将整个优化时间划分为T个时隙，其集合定义为T＝{1,…,t,…,T}。

定义在第t个时隙，用户车辆u_m可选的服务器集合为S_m,t，且

记录用户车辆u_m在第t个时隙卸载决策的二进制变量为x_m,n,t，当x_m,n,t＝1时，代表用户车辆u_m在第t个时隙选择服务器s_n进行任务卸载。

用户车辆的本地缓冲区形成了一个数据队列，其公式为：

Q_m(t+1)＝max{Q_m(t)-U_m(t)+A_m(t),0}；

每个服务器上均可建立一系列数据队列，用户车辆u_m在服务器s_n上的数据缓存队列为：

H_m,n(t+1)＝max{H_m,n(t)-Y_m,n(t)+x_m,n,tz_m,n,t,0}；

步骤3：定义用户车辆u_m的平均数据到达速率为

服务器s_n侧的平均任务到达速率为

具体表达式为：

其中

和

分别表示用户车辆侧和服务器侧给出的排队时延约束。

其中

是对极端事件发生的可容忍概率。

其中

和

分别是相应的尺度参数和形状参数。

用户车辆侧超额队列积压的长期均值以及二阶矩约束：

其中，

和

分别是

和

其中，

和

分别是

和

步骤4：优化问题的转化

用户车辆侧：

服务器侧：

其中

和

和

以及

和

(2)马尔科夫决策过程(MDP)相关概念的定义

MDP过程主要包括以下四个概念：

1)状态

2)动作

3)奖励

4)转移概率

由于队列积压由u_m和其他UV的任务卸载决策共同决定，使得转移到下一个状态S_m(t+1)的计算公式P(S_m(t+1)|S_m(t),X_m(t))很难建模。此外，状态空间数随着服务器数量的增加而呈指数增长，使得环境变得非常复杂。本实施例采用基于强化学习的无模型方法来解决任务卸载的问题。

步骤5：

其中π代表选择策略。

(3)u_m计算损失函数：

(4)利用损失函数更新神经网络参数w，更新公式为：

其中，ψ′为网络更新的学习速率。

(5)更新

各个队列信息，直到e＞G，迭代停止。

对上述提出的DREAM任务卸载算法，进行了仿真对比实验。其中，方法1为EMM算法，其能量约束被替换为URLLC约束；方法2为D-QLOA算法，其优化目标被替换为吞吐量，但忽略了URLLC约束。

仿真结果如图2，图2显示了用户车辆的平均端到端队列时延性能，与其他对比算法相比，本发明提出的DREAM算法可以有效的降低端到端队列时延。

如图3所示，本发明提出的DREAM算法在极端事件数方面的性能最优。其中，极端事件数是UV端队列时延和服务器端队列时延的总和。相比于D-QLOA和EMM算法，DREAM算法可以将端到端队列时延的极端事件的数量分别减少48.89％和58.99％。

如图4所示，本发明提出的DREAM算法得出的服务器端超额积压的条件均值最小。相比于D-QLOA和EMM算法，DREAM算法将服务器端的超额积压的条件均值分别减少了97.02％和90.06％。

如图5所示，本发明提出的DREAM算法得出的服务器端超额积压的方差最小。由于具有URLLC感知和解决维度灾难的能力，相比于D-QLOA和EMM算法，DREAM算法将服务器端超额积压的方差分别增加了98.12％和90.19％。

综合图2至图5可以看出，本发明提出的基于DQN具有URLLC感知的任务卸载方法能够有效的处理高维复杂的环境状态信息。并通过深度学习做出最优的任务卸载决策，同时保障用户车辆的高可靠低时延通信服务需求。

以上所述仅是本发明的优选实施方式，并不用于限制本发明，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.一种车联网中基于深度强化学习的任务卸载方法，其特征在于，该方法包括5个步骤：

(1)构建系统模型框架，实现用户车辆在不同时隙选择不同的服务器进行任务卸载；(2)模型细化，将模型分为用户车辆侧的任务传输模型和服务器侧的任务处理模型；(3)提出高可靠低时延约束与优化问题；(4)进行优化问题的转化并引入马尔科夫决策过程；(5)提出基于Deep Q-learning Network的具有URLLC感知的任务卸载算法；所述步骤(1)不同的服务器为路边单元和车辆雾服务器；步骤(2)用户车辆侧的任务传输模型采用任务划分模型，用户车辆每个时隙产生的任务数据暂时存储在用户车辆的本地缓冲区，然后被卸载到边缘服务器即路边单元(RSU)或服务器车辆(VFS)上进行计算处理，用户车辆的本地缓冲区形成一个数据队列。

2.根据权利要求1所述的一种车联网中基于深度强化学习的任务卸载方法，其特征在于：步骤(2)服务器侧的任务处理模型，每个服务器都会为每个用户车辆设置存储空间，用于存储用户车辆卸载的数据，每个服务器上建立数据队列。

3.根据权利要求1所述的一种车联网中基于深度强化学习的任务卸载方法，其特征在于：步骤(3)高可靠低时延约束优化问题为：在约束条件一，用户车辆选择服务器的约束，用户车辆在每个时隙只能选择一个边缘服务器进行任务卸载；约束条件二，用户车辆侧以及服务器侧根据极端事件的发生概率约束、长期平均时间下超额积压的条件均值和方差约束下，最大化用户车辆的吞吐量。

4.根据权利要求3所述的一种车联网中基于深度强化学习的任务卸载方法，其特征在于：上述约束二转换为虚拟队列，把长期的用户车辆吞吐量最大化问题转化为短期的确定性优化子问题，同时保证高可靠低时延通信约束。

5.根据权利要求4所述的一种车联网中基于深度强化学习的任务卸载方法，其特征在于：基于Deep Q-learning Network的具有URLLC感知的任务卸载算法具体步骤如下：

(1)定义时间尺度为时间段和时隙，每T个时隙构成一个时间段，共有G个时间段，e表示第e个时间段，记录当前是第几个时间段，在每个时隙的开始时根据当前的各个队列信息得到当前的状态向量，基于神经网络得到Q值并利用ε-贪婪算法进行服务器的选择；

(2)将任务卸载到选定的服务器，并计算奖励，然后转移到下一个状态；

(3)计算损失函数：

(4)利用损失函数更新神经网络参数，更新公式；

(5)更新神经网络的Q值，直到e＞G，迭代停止。