CN115134242B

CN115134242B - 一种基于深度强化学习策略的车载计算任务卸载方法

Info

Publication number: CN115134242B
Application number: CN202210736247.4A
Authority: CN
Inventors: 张德干; 王晓阳; 张捷; 张婷; 王文静; 安宏展; 张平; 张志昊; 王法玉; 陈洪涛
Original assignee: Tianjin University of Technology
Current assignee: Tianjin University of Technology
Priority date: 2022-06-27
Filing date: 2022-06-27
Publication date: 2023-08-22
Anticipated expiration: 2042-06-27
Also published as: CN115134242A

Abstract

一种基于深度强化学习策略的车载计算任务卸载方法。车辆网为车载终端、路测单元以及行人提供无线通信服务，对于延迟的要求较高。当车辆移动速度过快时可能在短时间内经过多个路测单元,最后车辆所在的服务器不是处理计算任务的服务器，计算结果需要经过回程链路传递，同时由于MEC服务器计算资源有限，需要消耗大量等待时间。基于这一情景，本发明方法车辆根据MEC的状态，将任务卸载到负载最低的MEC服务器，计算结果不再通过I2I的方式传递而是采用代价更低的V2V的方式完成，以节省任务传输和等待时延，同时采用深度强化学习策略来解决加权总开销最小化问题。最后通过仿真实验与现有方法的对比，证明了该方法的优越性。

Description

一种基于深度强化学习策略的车载计算任务卸载方法

技术领域

本发明属于物联网领域，具体涉及一种基于深度强化学习策略的车载计算任务卸载方法。

背景技术

近年来，随着物联网、云计算、大数据等技术的高速发展，数据规模呈爆炸式增长。移动云计算技术的出现为解决这些问题提供了一种思路.但此方法需要将大量数据传输至云服务器上,会导致能量损耗、响应延迟、数据干扰等问题。为解决这些问题，学者们提出将云的功能向网络边缘端转移,移动边缘计算(Mobile Edge Computing，MEC)的概念应运而生。移动边缘计算环境中将边缘服务器或基站置于更加接近终端设备的位置,并且边缘服务器可以提供计算、内容缓存等功能，从而减少数据传输所带来的时间延迟和能量消耗,更适用于在移动终端上运行的实时应用等。MEC并不是取代云计算,而是作为云计算的延伸。分布在网络边缘上的服务器(也称计算节点、边缘节点)可以减轻终端设备计算压力，降低与云计算的集中式数据中心交互的频率，还可以显著减少消息交换中的等待时间。由于边缘服务器有一定的存储空间和计算能力且距离终端设备更近，计算密集型或对延迟敏感的移动终端设备可以把计算任务卸载到边缘服务器进行计算。因此，计算卸载作为MEC中的关键技术之一，备受关注。

作为移动边缘计算(Mobile Edge Computing，MEC)的典型服务场景，车联网(Internes of Vehicles，IoV)为智能交通系统中的车载终端、路侧单元以及行人提供无线通信服务，实现车对车(V2V)、车对基础设施(V2I)、车对行人(V2P)以及车对网络(V2N)的通信，在车联网场景中，需要对所有车辆的动态信息进行收集分析利用，从而为运行车辆提供不同的服务。车联网对延迟的要求较高，因为车载单元的计算能力有限，使得车联网的时延增大，高延迟问题会给车联网带来安全、应用和隐私数据问题。车联网中行驶车辆需时刻与服务器保持连接并频繁进行数据交互，在传统的云计算服务中，云端距离车辆较远且大量的车辆作为节点接入云端会给云服务器带来通信和数据库的负载压力。所以将移动边缘计算技术引入车联网中，将MEC服务器部署到道路边缘，车辆将计算任务卸载至边缘节点进行，可以提供实时可靠的车辆连接、通信、安全服务，通过计算卸载技术可以提供高效低延迟的服务质量。

发明内容

车联网场景下的车辆移动迅速，在短时间内可能与多个MEC服务器交互，怎样减少计算结果的传输时延，如何合理地选择是否卸载计算任务到MEC服务器，以及卸载到哪个MEC服务器，是值得研究的问题。本发明针对车辆快速移动的车联网场景，提出了一种基于深度强化学习的车载计算任务自适应卸载方法，同时采用深度强化学习策略来解决加权总开销最小化问题。

本发明的基于深度强化学习策略的车载计算任务卸载方法，主要包括如下关键步骤：

第1、系统模型的构建：

第1.1、建立网络拓扑图；

第1.2、计算任务模型；

第1.3、建立任务时延模型；

第1.4、问题建模；

第2、基于深度强化学习策略的车载计算任务卸载方法的设计：

第2.1、寻找优化传统的卸载方案的解决方案，首先探究深度强化学习策略；

第2.2、讨论Q-learning强化学习算法的设计步骤和可行性；

第2.3、讨论OBDRLS算法的设计步骤和可行性。

进一步的，步骤第1.1中建立网络拓扑图，即将实际复杂的道路看作一条笔直单向的道路，所有车辆在道路上匀速单向行驶，RSU在道路一侧均匀分布，并且都配置了MEC服务器，RSU之间通过有线连接的方式通信，车辆与车辆之间以及车辆与其覆盖范围内的RSU之间通过无线通信技术进行通信，RSU接受车辆传来的计算任务，将任务卸载至MEC服务器，MEC服务器完成计算任务并将计算结果返回给车辆，设定RSU之间的距离为D，D的取值范围在100m～200m，车辆可以将任务卸载到其覆盖范围内的MEC服务器，通过V2I的方式进行通信，车辆与车辆之间也可以通过V2V的方式进行通信，这些MEC服务器有一个SDN中心服务器可以收集MEC的状态信息，并将这些信息传递给车载终端，此外，车载终端也具备一定的计算能力，一部分任务可以在本地执行。

步骤第1.2中计算任务模型的方法如下，针对多样的任务类型，本发明定义表示i类计算任务，总计有N种计算任务类型，计算任务的集合记为I＝{1,2,...,N}，其中α_i表示任务数据量的大小，该数据量影响任务传输时间，β_i表示任务计算量，影响任务计算时间，/>表示任务的容忍时延，假设任务i的所占比例为ε_i，则：

卸载i类计算任务的车辆定义为Vi，其车速定义为vi,当车辆向MEC服务器卸载计算任务时，定义X为车辆距离RSU覆盖边界的距离，此时车辆停留在所属RSU的时间t_stay为：

本发明提出的方法是在整体卸载的条件下进行的，即每种计算任务只能在本地计算或者通将任务卸载到MEC服务器执行，定义λ_i∈{0,1}表示车辆Vi的卸载决策，定义A＝[λ₁,λ₂,...,λ_N]是卸载决策向量,如果λ_i＝0，表示车辆Vi选择在本地执行计算任务，如果λ_i＝1，表示车辆Vi选择将任务卸载到MEC服务器执行。

步骤第1.3中建立任务时延模型的方法如下，对于车辆来说，计算任务的时延分三种情况：本地计算时延，任务等待时延和卸载计算时延，

1)本地计算时延

对于本地计算，车辆i的任务时延部分仅包括计算时延，不用考虑传输时延，假设表示i类车辆的计算能力，则本地任务处理时延表示如下：

2)任务等待时延

车辆将任务卸载到MEC服务器后，如果当前MEC服务器有正在执行的任务，此时卸载到MEC服务器的任务需要等待，假设任务等待时延为Tw,下面将推导Tw的表达式，

假设单位时间内的车辆密度为λu,那么该服务器单位时间内要处理的计算任务数量为λu，定义任务计算量为βi，所以单位时间内MEC服务器需要处理的计算任务总量为：

那么处理完所有计算任务的总时延为：

因此设定一个计算任务在该MEC服务器的平均等待时延为：

3)卸载计算时延

对于需要进行卸载计算的任务，传统的卸载过程主要有三个部分组成，首先车辆将i类计算任务传输到RSU；然后MEC服务器分配计算资源执行计算任务；最后MEC服务器将计算结果返回给车辆，

根据以上过程，卸载处理的第一步是任务传输过程的时延，可以表示为：

上式中表示车辆i通过V2I通信的方式在无线信道的传输速率，

根据香农定理，可以得出(7)式中无线信道传输速率为：

其中，参数B表示上传通信信道的带宽，参数Pi表示车载设备的传输功率，hi表示分配给车辆Vi的无线信道增益，N0表示高斯白噪声信道的方差，

卸载处理的第二步是MEC服务器的计算时延，定义是MEC服务器为车辆i分配的计算资源数，可以表示为：

本发明定义MEC服务器的计算资源总数为MEC服务器为卸载处理的车辆i分配的计算资源不能超过自身的计算资源总数，即/>

卸载处理的第三步是任务回传过程，定义En表示任务回传数据量，表示回传速率，则任务回传过程的时延可以表示为：

任务回传的数据大小远远小于上传数据，且任务回传速率的大小远远高于任务上传的速率，所以任务回传时延可以忽略不计；

基于传统的直接卸载方法，是将计算任务卸载到车辆当前接入的MEC服务器，当车辆速度很快或执行计算任务的服务器计算资源不足时，在任务计算完成后，车辆已经驶入新的MECn服务器的范围，计算结果需要通过I2I多跳通信的方式传到MECn服务器，然后再通过MECn传回车辆，

此时任务的总时延可以表示如下：

其中其中t0表示计算结果在多跳通信中每一跳的时延，xi表示跳数，T_wn表示卸载到第n个MEC服务器的计算任务等待时延，

结合公式(2)可以推出x_i的表达式如下：

RSU可以广播自身的状态信息，MEC服务器架构中有一个SDN中心服务器，它能够收集MEC服务器的状态和车辆状态信息，并告知车辆和其他服务器，考虑根据MEC服务器的状态信息，将计算任务卸载到较空闲的服务器上，这样不仅可以减少计算任务等待时延，而且计算结果的上传和回传都可以用代价更小的V2V通信取代I2I通信，节省了更多时延；

本发明定义V2V与I2I单跳通信时延时间比为rV2V，排队等待处理时延最低的MEC服务器为MECj，最终卸载计算的总时延如下：

其中Tj表示任务i卸载到服务器j执行计算前的排队等待时延。

步骤第1.4中问题建模的方法如下，明确了车辆选择本地计算方法和卸载计算方法的时延公式，确定想要优化的目标是所有任务总时延之和，公式如下：

必须在满足最大时延约束和服务器资源限制的情况下进行卸载决策和资源分配，所有车载终端的加权总开销最小化问题可以由下式表示：

s.t. C1:

C2：

C3:

C4:

上式中，A＝[λ₁,λ₂,...,λ_i]是卸载决策向量，是资源分配向量，优化的目标是最小化用户的加权总开销，要求解的量就是A和E，

其中，约束C1确保每个任务可以通过直接卸载的方式计算也可以通过V2V预测卸载算法计算；约束C2是保证不管是直接卸载计算方式还是V2V可预测算法卸载的方式，处理的延迟都要满足车载用户的最大零容忍延迟；约束C3保证MEC服务器为用户提供的计算资源的总和不会超出MEC服务器自身的计算容量限制；约束C4表示保证单个用户被分配的计算资源不超过MEC服务器自身的计算容量限制。

进一步的，步骤第2.1中提到的寻找优化传统的卸载方案的解决方案，采用马尔科夫过程建模强化学习策略。

步骤第2.2中讨论Q-learning强化学习算法的设计步骤和可行性，Q-learning是经典的强化学习算法，该算法的主要思想就是将state与action构建成一张Q-Table,通过获取最大的Q值来解决问题，Q(s,a)更新公式表示如下：

其中α是步长，s’是下一个时间点的状态，经过多次迭代后的Q(s,a)值，就可以得到最优的A和E，

算法的详细描述如下：

步骤1：给定参数γ和步长α∈(0,1]；

步骤2：给定任意的s和a，初始化函数矩阵Q(s,a)的值为0；

步骤3：开始expisode,随机选择一个初始状态s,智能体根据∈-greedy策略在当前所有可能动作中选取回报最大的一个动作α；

步骤4：执行选定的动作α，观察得到的奖励r，进入一个新的状态s′,根据(公式16)更新Q值，继续迭代下一个流程；

基于Q-learning算法存在的缺陷，在Q-learning的学习过程中，要把所有的值都存储在Q表中，任务状态空间和动作空间过大，对存储的要求极高，导致无法维护Q表。

步骤第2.3中讨论OBDRLS算法的设计步骤和可行性，由于Q-learning算法存在的缺陷，使用深度神经网络(DNN)近似Q函数，这样不需要维护Q表，而是直接存储神经网络的参数，就可以根据输入的状态输出每个动作下Q值的估计，此时的值函数Q不是一个具体的数值，而是一组向量，在神经网络中权重参数为ω，值函数表示为Q(s,a,ω),最终神经网络收敛后的ω即为值函数；

OBDRLS算法思想与Q-learning算法类似，智能体首先要遍历状态s下所有的动作a，选择最大的动作输出，首先需要构建损失函数，得到损失函数后再通过梯度下降法求解权重参数ω的值，

定义损失函数为：

其中是第i次迭代后的目标权重参数，ω_i是Q网络权重参数，接下来对ω求梯度，如公式(18)所示：

算法的详细步骤如下：

步骤1：初始化经验池D的容量为M；

步骤2：初始化迭代网络动作价值函数Q(s,a,ω)，ω初始化为任意值；

步骤3：初始化目标网络动作价值函数另/>

步骤4：初始化状态s1,预处理序列φ₁＝φ(s₁)；

步骤5：利用ε贪婪策略选择状态动作，在仿真器中执行动作a_t，得到下一个状态st+1和奖励r_t，计算φ_t+1＝φ(s_t+1)；

步骤6：将特征向量(φ_t,a_t,r_t,φ_t+1)存储在D中，从D中对特征向量随机抽取样本；

步骤7：计算每一个样本的目标值(通过执行at后的reward来更新Q值作为目标值)

步骤8：根据公式(18)的梯度下降法，最小化公式(17)的损失函数，更新权重值ω，直至收敛。

本发明的优点和积极效果是：

本发明基于车辆快速移动的车联网场景，从优化任务完成时延的角度，设计了一种基于深度强化学习的车载计算任务自适应卸载方法(Adaptive Offloading Method forDeep Reinforcement Learning，OBDRLS)。车辆根据MEC的状态，将任务卸载到负载最低的MEC服务器，计算结果不再通过I2I的方式传递而是采用代价更低的V2V的方式完成，以节省任务传输和等待时延，同时采用深度强化学习策略来解决加权总开销最小化问题。仿真结果表明，该方法在不同的任务数据量和计算量下对时延优化有很好的效果。

附图说明

图1是MEC车联网网络拓扑图；

图2是传统的直接卸载方法的过程图；

图3是基于深度强化学习策略的车载计算任务卸载方法的过程图；

图4是普通型计算任务下不同策略的平均时延随车辆密度变化图；

图5是资源密集型计算任务下不同策略的平均时延随车辆密度变化图；

图6是时延敏感型计算任务下不同策略的平均时延随车辆密度变化图；

图7是计算密集型计算任务下不同策略的平均时延随车辆密度变化图；

图8是数据密集型计算任务下不同策略的平均时延随车辆密度变化图；

图9是不同车辆密度下系统的平均时延的变化图；

图10是不同车辆速度下系统的平均时延的变化图；

图11是不同车辆密度下系统的卸载率变化图；

图12是不同车速下系统的卸载率变化图；

图13是本发明基于深度强化学习策略的车载计算任务卸载方法的流程图。

具体实施方式

实施例1：

参见附图13，本实施例基于深度强化学习策略的车载计算任务卸载方法，主要包括如下关键步骤：

第1、系统模型的构建：

第1.1、建立网络拓扑图；

第1.2、计算任务模型；

第1.3、建立任务时延模型；

第1.4、问题建模；

第2.2、讨论Q-learning强化学习算法的设计步骤和可行性；

第2.3、讨论OBDRLS算法的设计步骤和可行性；

本发明步骤第1.1中建立网络拓扑图，附图1是MEC车联网网络拓扑图，如图所示，将实际复杂的道路看作一条笔直单向的道路，所有车辆在道路上匀速单向行驶，RSU在道路一侧均匀分布，并且都配置了MEC服务器，RSU之间通过有线连接的方式通信。车辆与车辆之间以及车辆与其覆盖范围内的RSU之间通过无线通信技术进行通信，RSU接受车辆传来的计算任务，将任务卸载至MEC服务器，MEC服务器完成计算任务并将计算结果返回给车辆。设定RSU之间的距离为D，D的取值范围在100m～200m。车辆可以将任务卸载到其覆盖范围内的MEC服务器，通过V2I的方式进行通信，车辆与车辆之间也可以通过V2V的方式进行通信，这些MEC服务器有一个SDN中心服务器可以收集MEC的状态信息，并将这些信息传递给车载终端，此外，车载终端也具备一定的计算能力，一部分任务可以在本地执行。

步骤第1.2中计算任务模型的方法如下，针对多样的任务类型，本发明定义表示i类计算任务，总计有N种计算任务类型，计算任务的集合记为I＝{1,2,...,N}。其中α_i表示任务数据量的大小，该数据量影响任务传输时间，β_i表示任务计算量，影响任务计算时间，/>表示任务的容忍时延。假设任务i的所占比例为ε_i，则：

本发明提出的方法是在整体卸载的条件下进行的，即每种计算任务只能在本地计算或者通将任务卸载到MEC服务器执行。定义λ_i∈{0,1}表示车辆Vi的卸载决策，定义A＝[λ₁,λ₂,...,λ_N]是卸载决策向量,如果λ_i＝0，表示车辆Vi选择在本地执行计算任务，如果λ_i＝1，表示车辆Vi选择将任务卸载到MEC服务器执行。

步骤第1.3中建立任务时延模型的方法如下，对于车辆来说，计算任务的时延分三种情况：本地计算时延，任务等待时延和卸载计算时延。

1)本地计算时延

2)任务等待时延

车辆将任务卸载到MEC服务器后，如果当前MEC服务器有正在执行的任务，此时卸载到MEC服务器的任务需要等待，假设任务等待时延为Tw,下面将推导Tw的表达式。

假设单位时间内的车辆密度为λu,那么该服务器单位时间内要处理的计算任务数量为λu。本发明定义任务计算量为βi，所以单位时间内MEC服务器需要处理的计算任务总量为：

那么处理完所有计算任务的总时延为：

因此设定一个计算任务在该MEC服务器的平均等待时延为：

3)卸载计算时延

对于需要进行卸载计算的任务，传统的卸载过程主要有三个部分组成，首先车辆将i类计算任务传输到RSU；然后MEC服务器分配计算资源执行计算任务；最后MEC服务器将计算结果返回给车辆。

上式中表示车辆i通过V2I通信的方式在无线信道的传输速率。

根据香农定理，可以得出(7)式中无线信道传输速率为：

其中，参数B表示上传通信信道的带宽，参数Pi表示车载设备的传输功率，hi表示分配给车辆Vi的无线信道增益，N0表示高斯白噪声信道的方差。

定义MEC服务器的计算资源总数为MEC服务器为卸载处理的车辆i分配的计算资源不能超过自身的计算资源总数，即/>

任务回传的数据大小远远小于上传数据，且任务回传速率的大小远远高于任务上传的速率，所以任务回传时延可以忽略不计。

附图2是传统的直接卸载方法的过程图。如图所示，传统的直接卸载方法是将计算任务卸载到车辆当前接入的MEC服务器，当车辆速度很快或执行计算任务的服务器计算资源不足时，在任务计算完成后，车辆已经驶入新的MECn服务器的范围，计算结果需要通过I2I多跳通信的方式传到MECn服务器，然后再通过MECn传回车辆。

此时任务的总时延可以表示如下：

其中其中t0表示计算结果在多跳通信中每一跳的时延，xi表示跳数，T_wn表示卸载到第n个MEC服务器的计算任务等待时延。

结合公式(2)可以推出x_i的表达式如下：

附图3是基于深度强化学习策略的车载计算任务卸载方法的过程图。如图所示，RSU可以广播自身的状态信息，MEC服务器架构中有一个SDN中心服务器，它能够收集MEC服务器的状态和车辆状态信息，并告知车辆和其他服务器。可以考虑根据MEC服务器的状态信息，将计算任务卸载到较空闲的服务器上，这样不仅可以减少计算任务等待时延，而且计算结果的上传和回传都可以用代价更小的V2V通信取代I2I通信，节省了更多时延。

本发明定义V2V与I2I单跳通信时延时间比为rV2V，排队等待处理时延最低的MEC服务器为MECj。最终卸载计算的总时延如下：

其中Tj表示任务i卸载到服务器j执行计算前的排队等待时延。

步骤第1.4中问题建模的方法如下，明确了车辆选择本地计算方法和卸载计算方法的时延公式。确定想要优化的目标是所有任务总时延之和。公式如下：

s.t.

C2：

C3:

C4:

上式中，A＝[λ₁,λ₂,...,λ_i]是卸载决策向量，是资源分配向量，优化的目标是最小化用户的加权总开销，要求解的量就是A和E。

步骤第2.2中讨论Q-learning强化学习算法的设计步骤和可行性，Q-learning是经典的强化学习算法，该算法的主要思想就是将state与action构建成一张Q-Table,通过获取最大的Q值来解决问题。Q(s,a)更新公式表示如下：

其中α是步长，s’是下一个时间点的状态，经过多次迭代后的Q(s,a)值，就可以得到最优的A和E。

算法的详细描述如下：

步骤1：给定参数γ和步长α∈(0,1]；

步骤2：给定任意的s和a，初始化函数矩阵Q(s,a)的值为0；

步骤4：执行选定的动作α，观察得到的奖励r，进入一个新的状态s′,根据(公式16)更新Q值，继续迭代下一个流程。

但是Q-learning算法也存在缺陷，在Q-learning的学习过程中，要把所有的值都存储在Q表中，任务状态空间和动作空间过大，对存储的要求极高，导致无法维护Q表。

步骤第2.3中讨论OBDRLS算法的设计步骤和可行性，由于Q-learning算法存在的缺陷。使用深度神经网络(DNN)近似Q函数，这样不需要维护Q表，而是直接存储神经网络的参数。就可以根据输入的状态输出每个动作下Q值的估计。此时的值函数Q不是一个具体的数值，而是一组向量，在神经网络中权重参数为ω，值函数表示为Q(s,a,ω),最终神经网络收敛后的ω即为值函数。

OBDRLS算法思想与Q-learning算法类似，智能体首先要遍历状态s下所有的动作a，选择最大的动作输出。首先需要构建损失函数，得到损失函数后再通过梯度下降法求解权重参数ω的值。

定义损失函数为：

算法的详细步骤如下：

步骤1：初始化经验池D的容量为M；

步骤3：初始化目标网络动作价值函数另/>

步骤4：初始化状态s1,预处理序列φ₁＝φ(s₁)；

本实例中选取了多种类型的计算任务，主要包括以下5类：普通型计算任务、资源密集型计算任务、时延敏感型计算任务、计算密集型计算任务、数据密集型任务。选择了不同类型任务的比例ε_i，具体数据的设置如表1所示。

表1计算任务类型与数据

具体仿真参数如表2所示。

表2车联网环境仿真参数表

为了衡量本发明提出的OBDRLS策略的性能，将本发明提出的策略与已有的卸载策略相比较：1)直接卸载策略；2)预测性V2V卸载策略；3)本地执行策略；4)随机卸载策略；5)基于MEC状态的卸载策略。

验证在不同车辆密度下，几种策略时延消耗的变化规律。选取的车速为70km/h。

附图4是普通型计算任务下不同策略的平均时延随车辆密度变化图。从图中可以观察到，对于普通型的计算任务，预测性V2V卸载策略、基于MEC状态的卸载策略、OBDRLS卸载策略、本地执行策略的效果比随机卸载策略和本地执行策略效果好，这是由于任务的计算量很小，此时的计算时延占比很小，任务时延主要是传输时延和任务等待时延。所以对于普通型计算任务，更多的采用本地计算。

附图5是资源密集型计算任务下不同策略的平均时延随车辆密度变化图。图中可以观察到，对于资源密集型的计算任务，OBDRLS卸载策略、基于MEC状态的卸载策略和预测性V2V卸载策略要比其他三种策略减少时延效果好，这是因为，资源密集型的计算任务，任务的计算量增大，车辆跨RSU活动，前两种卸载策略能够获得更多的计算资源，所以能够加速任务处理。

附图6是时延敏感型计算任务下不同策略的平均时延随车辆密度变化图。图中可以观察到，对于时延敏感型计算任务，在车辆密度到3的时候，几种卸载策略效果都不明显。这是因为时延敏感型计算任务对时延限制最严格，任务传输时延和等待时延也会影响时延限制，所以计算任务本地处理的效果要比卸载处理的效果好。

附图7是计算密集型计算任务下不同策略的平均时延随车辆密度变化图。图中可以看出，对于计算密集型计算任务，本发明提出的OBDRLS策略比其他几种策略效果好，这是因为计算任务增多，本地执行策略会因为计算量大而耗时更多，MEC服务器卸载计算降低的时延比V2V通信时延多，同时，由于计算密集型任务的处理时间长，随机卸载策略、直接卸载策略、和预测性V2V卸载策略会因为多跳I2I通信，延长时延，所以OBDRLS策略比其他几种卸载策略效果好。

附图8是数据密集型计算任务下不同策略的平均时延随车辆密度变化图。图中可以看出，对于数据密集型计算任务，当车辆密度较低时OBDRLS策略、基于MEC状态的卸载策略和V2V预测性卸载策略比其他三种策略有较大优势，随着车辆密度的增大，OBDRLS策略的优势更加明显。

实验场景设置在车流量密度较大的市中心单向交通道路，假设无线网络场景下的带宽B为10MHz，RSU在道路上均匀分布，它们之间的间距D设为100m,每个RSU的覆盖范围是半径为100m的圆，每个车辆卸载的计算任务5-8个，车辆以每小时40-80公里的速度匀速运动，假设上传几种任务数据的大小α_i取值分别为{10，100，5，500，100}，所需的计算资源数β_i取值为{30，200，5，100，500}，选取的任务类型为资源密集型计算任务，设置车辆密度为1-10nums/unit之间的随机数,测试在不同车辆密度下系统的平均时延和卸载率，车速为40-120km/h之间的随机数，测试在不同车速下系统的平均时延和卸载率。

本实例的仿真实验结果如下：

1.不同车辆密度对系统性能的影响

1)不同车辆密度下系统的平均时延

附图9为不同车辆密度下系统的平均时延变化图。图中可以观察到，对于资源密集型的计算任务，OBDRLS卸载策略、基于MEC状态的卸载策略和预测性V2V卸载策略要比其他三种策略减少时延效果好，这是因为，资源密集型的计算任务，任务的计算量增大，车辆跨RSU活动，前两种卸载策略能够获得更多的计算资源，所以能够加速任务处理。

2)不同车辆密度下系统的卸载率

附图10为不同车辆密度下系统的卸载率变化图。图中可以观察到，相比于其他几种卸载策略,采用OBDRLS策略时，整体卸载率比其他四种策略的卸载率要高，卸载率基本保持不变，接近1左右。所以本发明提出的策略计算时延较少。

2.不同车速对对系统性能的影响

3)不同车速下系统的平均时延

附图11为不同车速下系统的平均时延变化图。图中可以看出，对于资源密集型计算任务，OBDRLS策略比其他几种策略效果好。这是因为，任务的数据量增多，计算量也随之增多，OBDRLS策略能够获得更多的计算资源。同时可以发现随着车速的不断增加，OBDRLS策略能够更好的避免车速对时延的影响，这是因为该策略能够选择任务等待时延较少的服务器，节省了更多时延。

4)不同车速下系统的卸载率

附图12为不同车速下系统的卸载率变化图。从图中可以看出，相比于其他几种卸载策略，本发明提出的OBDRLS策略，在车速增大时，对于资源密集型任务的卸载率基本保持不变，接近1左右。说明本发明提出的策略能够在车速很高的情况下减少更多的时延。

仿真结果表明，在所有测试的卸载方法中，相比于其他四种策略，本发明提出的ADMORL策略有更好的性能。

Claims

1.一种基于深度强化学习策略的车载计算任务卸载方法，其特征在于该方法主要包括如下步骤：

第1、系统模型的构建：

第1.1、建立网络拓扑图；

第1.2、建立计算任务模型；

第1.3、建立任务时延模型；

第1.4、问题建模；

第2.2、讨论Q-learning强化学习算法的设计步骤和可行性；

第2.3、讨论OBDRLS算法的设计步骤和可行性；

步骤第1.1中建立网络拓扑图，即将实际复杂的道路看作一条笔直单向的道路，所有车辆在道路上匀速单向行驶，RSU在道路一侧均匀分布，并且都配置了MEC服务器，RSU之间通过有线连接的方式通信，车辆与车辆之间以及车辆与其覆盖范围内的RSU之间通过无线通信技术进行通信，RSU接受车辆传来的计算任务，将任务卸载至MEC服务器，MEC服务器完成计算任务并将计算结果返回给车辆，设定RSU之间的距离为D，D的取值范围在100m～200m，车辆可以将任务卸载到其覆盖范围内的MEC服务器，通过V2I的方式进行通信，车辆与车辆之间也可以通过V2V的方式进行通信，这些MEC服务器有一个SDN中心服务器可以收集MEC的状态信息，并将这些信息传递给车载终端，此外，车载终端也具备计算能力，一部分任务可以在本地执行；

步骤第1.2中建立计算任务模型的方法如下，针对多样的任务类型，定义表示i类计算任务，总计有N种计算任务类型，计算任务的集合记为I＝{1,2,...,N}，其中α_i表示任务数据量的大小，该数据量影响任务传输时间，β_i表示任务计算量，影响任务计算时间，/>表示任务的容忍时延，假设任务i的所占比例为ε_i，则：

卸载i类计算任务的车辆定义为V_i，其车速定义为v_i，当车辆向MEC服务器卸载计算任务时，定义X为车辆距离RSU覆盖边界的距离，此时车辆停留在所属RSU的时间t_stay为：

本步骤方法是在整体卸载的条件下进行的，即每种计算任务只能在本地计算或者通将任务卸载到MEC服务器执行，定义λ_i∈{0,1}表示车辆V_i的卸载决策，定义A＝[λ₁,λ₂,...,λ_N]是卸载决策向量,如果λ_i＝0，表示车辆V_i选择在本地执行计算任务，如果λ_i＝1，表示车辆V_i选择将任务卸载到MEC服务器执行；

1)本地计算时延

2)任务等待时延

车辆将任务卸载到MEC服务器后，如果当前MEC服务器有正在执行的任务，此时卸载到MEC服务器的任务需要等待，假设任务等待时延为T_w,下面将推导T_w的表达式，

假设单位时间内的车辆密度为λ_u，那么该服务器单位时间内要处理的计算任务数量为λ_u，定义任务计算量为β_i，所以单位时间内MEC服务器需要处理的计算任务总量为：

那么处理完所有计算任务的总时延为：

因此设定一个计算任务在该MEC服务器的平均等待时延为：

3)卸载计算时延

对于需要进行卸载计算的任务，传统的卸载过程有三个部分组成，首先车辆将i类计算任务传输到RSU；然后MEC服务器分配计算资源执行计算任务；最后MEC服务器将计算结果返回给车辆；

上式中表示车辆i通过V2I通信的方式在无线信道的传输速率，

根据香农定理，可以得出(7)式中无线信道传输速率为：

其中，参数B表示上传通信信道的带宽，参数P_i表示车载设备的传输功率，h_i表示分配给车辆V_i的无线信道增益，N₀表示高斯白噪声信道的方差；

卸载处理的第三步是任务回传过程，定义E_n表示任务回传数据量，表示回传速率，则任务回传过程的时延可以表示为：

此时任务的总时延可以表示如下：

其中t₀表示计算结果在多跳通信中每一跳的时延，x_i表示跳数，T_wn表示卸载到第n个MEC服务器的计算任务等待时延，

结合公式(2)可以推出x_i的表达式如下：

RSU可以广播自身的状态信息，MEC服务器架构中有一个SDN中心服务器，它能够收集MEC服务器的状态和车辆状态信息，并告知车辆和其他服务器，考虑根据MEC服务器的状态信息，将计算任务卸载到空闲的服务器上，这样不仅可以减少计算任务等待时延，而且计算结果的上传和回传都可以用代价更小的V2V通信取代I2I通信，节省了更多时延；

定义V2V与I2I单跳通信时延时间比为r_V2V，排队等待处理时延最低的MEC服务器为MECj，最终卸载计算的总时延如下：

其中T_j表示任务i卸载到服务器j执行计算前的排队等待时延。

2.如权利要求1所述的基于深度强化学习策略的车载计算任务卸载方法，其特征在于，步骤第1.4中问题建模的方法如下，明确了车辆选择本地计算方法和卸载计算方法的时延公式，确定想要优化的目标是所有任务总时延之和，公式如下：

3.如权利要求1所述的基于深度强化学习策略的车载计算任务卸载方法，其特征在于，步骤第2.1中的寻找优化传统的卸载方案的解决方案，采用马尔科夫过程建模强化学习策略。

4.如权利要求2所述的基于深度强化学习策略的车载计算任务卸载方法，其特征在于，步骤第2.2中讨论Q-learning强化学习算法的设计步骤和可行性，Q-learning是经典的强化学习算法，该算法的主要思想就是将state与action构建成一张Q-Table,通过获取最大的Q值来解决问题，Q(s,a)更新公式表示如下：

其中α是步长，s’是下一个时间点的状态，经过多次迭代后的Q(s,a)值，得到最优的A和E，

算法的详细描述如下：

步骤1：给定参数γ和步长α∈(0,1]；

步骤2：给定任意的s和a，初始化函数矩阵Q(s,a)的值为0；

步骤3：开始expisode,随机选择一个初始状态s,智能体根据∈-greedy策略在当前所有可能动作中选取回报最大的一个动作a；

步骤4：执行选定的动作a，观察得到的奖励r，进入一个新的状态s′,根据公式16更新Q值，继续迭代下一个流程；

基于Q-learning算法存在的缺陷，在Q-learning的学习过程中，把所有的值都存储在Q表中，任务状态空间和动作空间过大，对存储的要求极高，导致无法维护Q表。

5.如权利要求1所述的基于深度强化学习策略的车载计算任务卸载方法，其特征在于，步骤第2.3中讨论基于深度强化学习的车载计算任务自适应卸载方法OBDRLS算法的设计步骤和可行性，由于Q-learning算法存在的缺陷，使用深度神经网络(DNN)近似Q函数，这样不需要维护Q表，而是直接存储神经网络的参数，就可以根据输入的状态输出每个动作下Q值的估计，此时的值函数Q不是一个具体的数值，而是一组向量，在神经网络中权重参数为ω，值函数表示为Q(s,a,ω),最终神经网络收敛后的ω即为值函数；

智能体首先要遍历状态s下所有的动作a，选择最大的动作输出，首先需要构建损失函数，得到损失函数后再通过梯度下降法求解权重参数ω的值，

定义损失函数为：

其中是第i次迭代后的目标权重参数，ω_i是Q网络权重参数，接下来对ω求梯度，如公式(17)所示：

算法的详细步骤如下：

步骤1：初始化经验池D的容量为M；

步骤3：初始化目标网络动作价值函数另/>

步骤4：初始化状态s₁,预处理序列φ₁＝φ(s₁)；

步骤5：利用ε贪婪策略选择状态动作，在仿真器中执行动作a_t，得到下一个状态s_t+1和奖励r_t，计算φ_t+1＝φ(s_t+1)；

步骤7：计算每一个样本的目标值，即通过执行动作a_t后的reward来更新Q值作为目标值；