CN113726894A

CN113726894A - 一种基于深度强化学习的多车应用计算卸载方法及终端

Info

Publication number: CN113726894A
Application number: CN202111019147.1A
Authority: CN
Inventors: 林兵; 林凯; 卢宇; 黄志高
Original assignee: Fujian Normal University
Current assignee: Fujian Normal University
Priority date: 2021-09-01
Filing date: 2021-09-01
Publication date: 2021-11-30
Anticipated expiration: 2041-09-01
Also published as: CN113726894B

Abstract

本发明公开一种基于深度强化学习的多车应用计算卸载方法及终端，基于多个智能网联汽车、多个路边单位以及与所述多个智能网联汽车对应的多个DNN应用构建车辆边缘计算网络；根据所述车辆边缘计算网络确定计算卸载问题，并根据所述计算卸载问题建立马尔科夫决策过程模型；基于所述马尔科夫决策过程模型使用SA‑MADDPG算法确定卸载策略，并执行所述卸载策略，马尔科夫决策过程模型能够准确地描述多车计算卸载的过程，结合模拟退火的多智能体深度确定性策略梯度算法能够避免陷入局部最优解，加快收敛速度，有效地适应动态的多车环境，以此确定出最优的卸载策略，从而降低卸载失败率。

Description

一种基于深度强化学习的多车应用计算卸载方法及终端

技术领域

本发明涉及边缘计算技术领域，尤其涉及一种基于深度强化学习的多车应用计算卸载方法及终端。

背景技术

随着物联网(Internet of Things，IoT)技术的快速发展，车辆逐渐成为一种智能、互联、自主的终端，即智能网联汽车(Connected and Automat-ed Vehicles，CAVs)。CAVs集成了人工智能辅助(Artificial Intelligence-aided，AI-aided)的信息和通信技术，在构建更安全、更智能的交通系统(Intelligent Transportation System，ITS)的过程中发挥着关键作用。在移动通信技术的帮助下，CAVs采用车辆到一切通信(Vehicle toEvery-thing，V2X)与基础设施或者其他CAVs互联，通过它们间的信息交换，CAVs可以全面感知周边环境，有效改善人为失误造成的交通事故，缓解交通拥堵。

CAVs的发展，推动了基于深度神经网络(Deep Neural Network-based，DNN-based)的车载新型应用的出现，如自动驾驶、群智感知、虚拟现实游戏、增强现实和视频娱乐等。这些应用通常是计算密集型和时延敏感型的，需要高性能的计算资源才能在响应截止期内被执行完成。虽然CAVs都配备了具有计算能力的车载设备，但通常无法满足新型应用的计算性能要求，其服务质量(Quality of Service，QoS)无法得到保障。这对CAVs实时、可靠的车辆服务提出了重大挑战。

计算卸载是解决上述挑战的关键技术之一。基于DNN的应用可以划分为多个DNN层。通过计算卸载来扩展CAVs的计算能力，这些DNN层可以卸载到计算资源丰富的高性能服务器上。最初，研究人员提出了基于移动云计算(Mobile Cloud Computing，MCC)的计算卸载范式。它可以充分利用具有强大计算资源的云服务器，为车辆提供高效的计算服务。但是，由于传统的云服务器距离CAVs很远，远程卸载会导致严重的数据传输延迟，降低QoS。因此，MCC不能很好地满足基于DNN应用的实时响应要求。

为了克服上述MCC的缺点，近年来出现了基于车辆边缘计算(vehicular edgecomputing，VEC)的计算卸载范式，即移动边缘计算(mobile edge computing，MEC)在车辆场景中的应用。在VEC网络中，路边服务器(Roadside Edge Servers，RES)可以部署在具有计算资源的路边单位(Roadside Units，RSUs)中来扩展CAVs的计算能力，来向CAVs提供近端服务。通过将DNN层卸载到RSUs，基于DNN的应用程序的执行延迟可以显著减少。

因此，在VEC环境下考虑多车的计算卸载问题为满足CAVs应用服务需求提供了一个良好的解决方案。但是，针对VEC环境下面向卸载失败率的多车计算卸载策略问题，目前的研究工作尚未形成一个完整有效的解决方案。

发明内容

本发明所要解决的技术问题是：提供一种基于深度强化学习的多车应用计算卸载方法及终端，能够降低卸载失败率。

为了解决上述技术问题，本发明采用的一种技术方案为：

一种基于深度强化学习的多车应用计算卸载方法，包括：

基于多个智能网联汽车、多个路边单位以及与所述多个智能网联汽车对应的多个DNN应用构建车辆边缘计算网络；

根据所述车辆边缘计算网络确定计算卸载问题，并根据所述计算卸载问题建立马尔科夫决策过程模型；

基于所述马尔科夫决策过程模型使用SA-MADDPG算法确定卸载策略，并执行所述卸载策略。

为了解决上述技术问题，本发明采用的另一种技术方案为：

一种基于深度强化学习的多车应用计算卸载终端，包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

本发明的有益效果在于：通过构建车辆边缘计算网络，根据车辆边缘计算网络确定计算卸载问题，并根据其建立马尔科夫决策过程模型，基于马尔科夫决策过程模型使用SA-MADDPG算法确定卸载策略，并执行卸载策略，由于在车载边缘计算网络，CAVs需要综合考虑到DNN层间的数据依赖关系、时变的任务处理时延、有限的RSU计算资源以及车辆移动性来确定卸载决策，且多车间的卸载决策会相互影响，MDP(Markov Decision Process，马尔科夫决策过程)模型能够准确地描述多车计算卸载的过程，结合模拟退火的多智能体深度确定性策略梯度算法(Multi-Agent Deep Deterministic Policy Gradient Combinedwith Simulated Anneling，SA-MADDPG)能够避免陷入局部最优解，加快收敛速度，有效地适应动态的多车环境，以此确定出最优的卸载策略，从而降低卸载失败率。

附图说明

图1为本发明实施例的一种基于深度强化学习的多车应用计算卸载方法的步骤流程图；

图2为本发明实施例的一种基于深度强化学习的多车应用计算卸载终端的结构示意图；

图3为本发明实施例基于深度强化学习的多车应用计算卸载方法中的车辆边缘计算网络示意图；

图4为本发明实施例基于深度强化学习的多车应用计算卸载方法中的VEC环境下多车计算卸载的实例示意图；

图5为本发明实施例基于深度强化学习的多车应用计算卸载方法中的VEC环境下基于SA-MADDPG的多车计算卸载框架示意图；

图6为本发明实施例基于深度强化学习的多车应用计算卸载方法中的动作者网络的结构示意图；

图7为本发明实施例基于深度强化学习的多车应用计算卸载方法中的评论家网络的结构示意图。

具体实施方式

为详细说明本发明的技术内容、所实现目的及效果，以下结合实施方式并配合附图予以说明。

请参照图1，本发明实施例提供了一种基于深度强化学习的多车应用计算卸载方法，包括：

从上述描述可知，本发明的有益效果在于：通过构建车辆边缘计算网络，根据车辆边缘计算网络确定计算卸载问题，并根据其建立马尔科夫决策过程模型，基于马尔科夫决策过程模型使用SA-MADDPG算法确定卸载策略，并执行卸载策略，由于在车载边缘计算网络，CAVs需要综合考虑到DNN层间的数据依赖关系、时变的任务处理时延、有限的RSU计算资源以及车辆移动性来确定卸载决策，且多车间的卸载决策会相互影响，MDP(MarkovDecision Process，马尔科夫决策过程)模型能够准确地描述多车计算卸载的过程，结合模拟退火的多智能体深度确定性策略梯度算法(Multi-Agent Deep Deterministic PolicyGradient Combined with Simulated Anneling，SA-MADDPG)能够避免陷入局部最优解，加快收敛速度，有效地适应动态的多车环境，以此确定出最优的卸载策略，从而降低卸载失败率。

进一步地，每一所述DNN应用包括多个DNN层；

所述基于多个智能网联汽车、多个路边单位以及与所述多个智能网联汽车对应的多个DNN应用构建车辆边缘计算网络包括：

确定多个智能网联汽车、多个路边单位以及与所述多个智能网联汽车对应的多个DNN应用；

根据所述多个智能网联汽车以及与所述多个智能网联汽车对应的多个DNN应用构建DNN应用模型；

根据所述多个智能网联汽车、所述多个路边单位、所述多个DNN应用和所述多个DNN层建立与所述多个智能网联汽车对应的第一DNN层队列以及与所述多个路边单位对应的第二DNN层队列；

根据所述多个智能网联汽车、所述多个路边单位构建所述多个智能网联汽车与所述多个路边单位的通信模型；

根据所述多个智能网联汽车、所述多个路边单位以及所述多个DNN层构建所述多个DNN层从所述多个智能网联汽车卸载至所述多个路边单位的计算模型；

根据所述DNN应用模型、所述第一DNN层队列、所述第二DNN层队列、所述通信模型以及所述计算模型生成车辆边缘计算网络。

由上述描述可知，根据构建的DNN应用模型、第一DNN层队列、第二DNN层队列、通信模型以及计算模型生成车辆边缘计算网络，准确构建了车辆边缘计算网络，便于后续基于车辆边缘计算网络确定计算卸载问题，从而提高确定计算卸载问题的准确性。

进一步地，所述根据所述多个智能网联汽车以及与所述多个智能网联汽车对应的多个DNN应用构建DNN应用模型包括：

根据所述多个智能网联汽车以及与所述多个智能网联汽车对应的多个DNN应用构建所述DNN应用模型A_i，j，k：

A_i，j，k＝{G_i，j，k，d_i，j，k}，i∈{1,2,...,n}，j∈{1,2,...,z}，k∈{1,2,...,t}；

式中，i表示所述DNN应用对应的所述智能网联汽车的标识，j表示所述DNN应用的类型，k表示所述DNN应用对应的生成时间片，G_i，j，k表示由所述DNN应用构建的有向无环图，d_i，j，k表示所述DNN应用的可容忍时间片个数。

由上述描述可知，根据多个智能网联汽车以及与多个智能网联汽车对应的多个DNN应用构建DNN应用模型，DNN应用模型体现了智能网联汽车与DNN应用之间的关系。

进一步地，所述根据所述多个智能网联汽车、所述多个路边单位构建所述多个智能网联汽车与所述多个路边单位的通信模型包括：

定义信道带宽、信道衰落因子、高斯白噪声功率以及路径损耗因子；

获取所述多个智能网联汽车的传输功率以及所述多个路边单位的通信范围；

基于所述多个智能网联汽车、所述多个路边单位、所述信道带宽、所述信道衰落因子、所述高斯白噪声功率、所述路径损耗因子、所述传输功率以及所述通信范围构建所述多个智能网联汽车与所述多个路边单位的通信模型；

所述通信模型为：

式中，

表示在第k个时间片，第i个智能网联汽车与第j个路边单位的数据传输率，B表示信道带宽，h表示信道衰落因子，p_tr表示所述多个智能网联汽车的传输功率，x表示所述高斯白噪声功率，

表示所述路径损耗因子，

表示第i个智能网联汽车与第j个路边单位的距离，r表示所述多个路边单位的通信范围。

由上述描述可知，由于在路边单位的通信范围内，智能网联汽车可以通过车辆与基础设施(Vehicle to Infrastructure，V2I)通信传输DNN层数据至路边单位处理以充分利用邻域内路边单位的计算资源，通信模型能够准确描述在某个时间片，任一智能网联汽车与任一路边单位的数据传输率。

进一步地，所述根据所述多个智能网联汽车、所述多个路边单位以及所述多个DNN层构建所述多个DNN层从所述多个智能网联汽车卸载至所述多个路边单位的计算模型包括：

获取所述多个智能网联汽车对应的第一算力以及所述多个路边单位对应的第二算力；

确定预设DNN层数据处理密度；

基于所述第一算力、预设时间片长度、所述预设DNN层数据处理密度确定所述多个智能网联汽车在任一时间片内对应的第一数据处理总量；

基于所述第二算力、预设时间片长度、所述预设DNN层数据处理密度确定所述多个智能网联汽车在任一时间片内对应的第二数据处理总量；

根据所述第一数据处理总量和所述第二数据处理总量得到所述多个DNN层从所述多个智能网联汽车卸载至所述多个路边单位的计算模型；

所述第一数据处理总量ε^v为：

式中，f^v表示所述第一算力，l表示预设时间片长度，c表示所述预设DNN层数据处理密度；

所述第二数据处理总量ε^r为：

式中，f^r表示所述第二算力。

由上述描述可知，计算模型能够准确描述智能网联汽车与路边单位的计算能力，即在当个时间片内所能处理的数据总量。

进一步地，所述根据所述车辆边缘计算网络确定计算卸载问题包括：

所述计算卸载问题为：

式中，Minimize表示最小化，AFR表示所述多个智能网联汽车的平均卸载失败率，FR_i表示第i个智能网联汽车的卸载失败率，n表示所述多个智能网联汽车的数量。

由上述描述可知，确定计算卸载问题，该计算卸载问题为最小化智能网联汽车的平均卸载失败率，便于基于计算卸载问题进行优化，保证了降低卸载失败率的实现。

进一步地，所述根据所述计算卸载问题建立马尔科夫决策过程模型包括：

获取目标时间片内目标智能网联汽车对应的状态s_i(k)以及对应的动作a_i(k)；

根据所述目标智能网联汽车对应的状态确定所述多个智能网联汽车的联合状态S(k)；

根据所述目标智能网联汽车对应的动作确定所述多个智能网联汽车的联合动作A(k)；

获取目标时间片内目标智能网联汽车对应的卸载失败应用集合Δ_i(k)以及卸载成功应用集合Υ_i(k)；

根据所述卸载失败应用集合以及卸载成功应用集合确定目标智能网联汽车的奖励函数r_i(k)；

根据所述目标智能网联汽车的奖励函数确定所述多个智能网联汽车的联合奖励R(k)；

根据所述联合状态、所述联合动作、所述联合奖励生成马尔科夫决策过程模型；

所述s_i(k)为：

式中，k表示第k个时间片，

表示所述目标智能网联汽车的二维坐标，o_i(k)表示所述智能网联汽车与所述路边单位在通信范围内的数据传输率；

所述S(k)为：

S(k)＝{s₁(k),s₂(k),...,s_n(k)}；

所述a_i(k)为：

a_i(k)∈{1,2,...,m+1}；

式中，{1，2，…，m}表示所述目标智能网联汽车选择卸载所述DNN层至第j个路边单位，m+1表示所述目标智能网联汽车本地处理所述DNN层；

所述A(k)为：

A(k)＝{a₁(k),a₂(k),...,a_n(k)}；

所述Δ_i(k)为：

Δ_i(k)＝{A₁,A₂,...,A_f}；

所述Υ_i(k)为：

Υ_i(k)＝{A₁,A₂,...,A_u}；

所述r_i(k)为：

所述R(k)为：

R(k)＝{r₁(k),r₂(k),...,r_n(k)}。

由上述描述可知，将马尔科夫决策过程模型引入计算卸载问题，考虑了智能体、状态空间、动作空间和奖励四个关键因素，能够准确描述多车计算卸载的过程。

进一步地，所述基于所述马尔科夫决策过程模型使用SA-MADDPG算法确定卸载策略，并执行所述卸载策略包括：

设计与所述智能网联汽车对应的动作者网络；

设计与所述动作者网络对应的评论家网络；

将所述目标智能网联汽车对应的状态输入至所述动作者网络得到最佳动作，根据模拟退火策略从预设随机动作与所述最佳动作之间选择得到目标动作，并执行所述目标动作对应的卸载策略，返回与所述卸载策略对应的奖励和新状态；

根据所述目标智能网联汽车对应的状态、所述目标动作、所述奖励和所述新状态生成状态转移过程，并将所述状态转移过程保存至回放记忆库；

将所述多个智能网联汽车的联合状态和联合动作输入至所述评论家网络得到Q值；

根据Q值更新所述动作者网络及所述评论家网络。

由上述描述可知，将目标智能网联汽车对应的状态输入至动作者网络得到最佳动作，根据模拟退火策略从预设随机动作与最佳动作之间选择得到目标动作，能有效地适应动态的多车环境，且使用模拟退火策略用于动作的选择，避免陷入局部最优解，加快收敛速度，提高了选择卸载策略的准确性。

进一步地，所述基于所述马尔科夫决策过程模型使用SA-MADDPG算法确定卸载策略，并执行所述卸载策略还包括：设计与所述动作者网络对应的目标动作者网络，并设计与所述评论家网络对应的目标评论家网络；

所述动作者网络包括第一网络参数；

所述目标动作者网络包括第一目标网络参数；

所述评论家网络包括第二网络参数；

所述目标评论家网络包括第二目标网络参数；

所述基于所述马尔科夫决策过程模型使用SA-MADDPG算法确定卸载策略，并执行所述卸载策略之后包括：

按照预设周期从所述回放记忆库中任意采集多个状态转移过程

其中，s_i ^j表示采集的多个智能网联汽车的状态，a_i ^j表示采集的多个智能网联汽车的目标动作，r_i ^j表示采集的多个智能网联汽车的奖励，s_i ^’j表示采集的多个智能网联汽车的新状态；

合并所述多个状态转移过程，得到合并后的状态转移过程

其中，S_i ^j表示采集的多个智能网联汽车的合并状态，A_i ^j表示采集的多个智能网联汽车的目标合并动作，R_i ^j表示采集的多个智能网联汽车的合并奖励，S_i ^’j表示采集的多个智能网联汽车的新合并状态；

基于所述合并后的状态转移过程、所述目标评论家网络、所述目标动作者网络得到目标Q值y_i ^j；

式中，Q_i’()表示所述目标评论家网络，π_i’()表示所述目标动作者网络，γ表示折扣率；

基于所述合并后的状态转移过程、所述评论家网络以及所述目标Q值计算时间差分误差

式中，Q_i()表示所述评论家网络；

根据所述时间差分误差得到所述评论家网络的所述第二网络参数的损失函数L(ω_i)：

式中，x表示采集的多个状态转移过程的数量；

采用最小化损失函数方法对所述第二网络参数进行更新；

采用策略梯度方法对所述动作者网络的所述第一网络参数进行更新；

所述策略梯度方法为：

式中，

表示所述第一网络参数的损失函数的梯度，π_i()表示所述动作者网络；

采用软替换方法对所述目标动作者网络的所述第一目标网络参数以及所述目标评论家网络的所述第二目标网络参数进行更新；

所述软替换方法为：

θ_i”＝v·θ_i+(1-v)·θ_i’ν∈[0,1]；

ω_i”＝v·ω_i+(1-v)·ω_i’ν∈[0,1]；

式中，θ_i”表示更新后的所述第一目标网络参数，θ_i表示所述第一网络参数，θ_i’表示所述第一目标网络参数，ω_i”表示更新后的所述第二目标网络参数，ω_i表示所述第二网络参数，ω_i’表示所述第二目标网络参数，v表示软替换速率。

由上述描述可知，按照预设周期更新动作者网络、评论家网络、目标动作者网络以及目标评论家网络，能够不断优化网络，提高了选择卸载策略的准确性，从而降低卸载失败率。

请参照图2，本发明另一实施例提供了一种基于深度强化学习的多车应用计算卸载终端，包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于深度强化学习的多车应用计算卸载方法中的各个步骤。

本发明上述基于深度强化学习的多车应用计算卸载方法及终端能够适用于车载边缘计算(vehicularedge computing，VEC)环境下的多车应用计算卸载，以下通过具体实施方式进行说明：

实施例一

请参照图1，本实施例的一种基于深度强化学习的多车应用计算卸载方法，包括：

S1、基于多个智能网联汽车、多个路边单位以及与所述多个智能网联汽车对应的多个DNN应用构建车辆边缘计算网络；

S2、根据所述车辆边缘计算网络确定计算卸载问题，并根据所述计算卸载问题建立马尔科夫决策过程模型；

S3、基于所述马尔科夫决策过程模型使用SA-MADDPG算法确定卸载策略，并执行所述卸载策略；

由于在车载边缘计算网络，CAVs(多个智能网联汽车)需要综合考虑到DNN层间的数据依赖关系、时变的任务处理时延、有限的RSUs(多个路边单位)计算资源以及车辆移动性来确定卸载决策，且多车间的卸载决策会相互影响，MDP(Markov DecisionProcess，马尔科夫决策过程)模型能够准确地描述多车计算卸载的过程，结合模拟退火的多智能体深度确定性策略梯度算法(Multi-Agent Deep Deterministic Policy Gradient Combinedwith Simulated Anneling，SA-MADDPG)能够避免陷入局部最优解，加快收敛速度，有效地适应动态的多车环境，以此确定出最优的卸载策略，从而降低卸载失败率。

实施例二

请参照图1、3，本实施例在实施例一的基础上进一步限定了如何构建车辆边缘计算网络，具体为：

其中，每一所述DNN应用包括多个DNN层；

具体的，多个DNN层之间存在数据依赖关系；

所述S1具体为：

S11、确定多个智能网联汽车、多个路边单位以及与所述多个智能网联汽车对应的多个DNN应用；

具体的，确定n辆CAVs、m个RSUs以及与n辆CAVs对应的z类DNN应用(深度神经网络应用程序)；

CAVs的行驶时间可划分为t个时间片，每个时间片长度为l，在同一个时间片内，智能网联汽车的相对位置以及无线信道状态保持不变，每辆CAV配备有车载计算单元(Vehicle Computing Unit，VCU)，因此每辆CAV具备一定的处理能力，每个RSU具有一定的通信范围，且部署了路侧边缘服务器(Roadside Edge Server，RES)，因此每个RSU可以提供强大的计算能力；

S12、根据所述多个智能网联汽车以及与所述多个智能网联汽车对应的多个DNN应用构建DNN应用模型；

由于CAVs是DNN应用的载体，假设CAVs上部署有z类DNN应用，在每个时间片中，应用生成概率为ρ，则每类应用生成概率为ρ/z，不生成应用的概率为1-ρ，每辆CAV在同一个时间片内最多产生一个同类型的DNN应用，因此DNN应用可由DNN应用模型表示；

具体的，根据所述多个智能网联汽车以及与所述多个智能网联汽车对应的多个DNN应用构建所述DNN应用模型A_i，j，k：

式中，i表示所述DNN应用对应的所述智能网联汽车CAV的标识ID，j表示所述DNN应用的类型，k表示所述DNN应用对应的生成时间片，G_i，j，k表示由所述DNN应用构建的有向无环图(DirectedAcyclic Graph，DAG)，d_i，j，k表示所述DNN应用的可容忍时间片个数；

每个DNN应用都有对应的剩余生命周期时间片a_i,j,k，其初始值为d_i.j.k，a_i,j,k随着时间片的增加而减少，这表示DNN应用必须要在a_i,j,k的时间片内处理完成；

其中，G_i，j，k可进一步表示为：

G_i,j,k＝＜N_i,j,k,E_i,j,k＞；

式中，N_i，j，k表示DNN层集合，

表示第N_i，j，k个DNN层，E_i，j，k表示DNN层之间的数据依赖关系，

表示存在一条

至

的有向边，

表示

至

不存在有向边；

其中，

为

的直接前驱DNN层，直接前驱DNN层

必须在

执行前完成，直接前驱DNN层集合表示为

当DNN层

的直接前驱DNN层集合

里的直接前驱DNN层全部处理完成，该DNN层

才具备执行条件；

具体的，DNN层可进一步表示为：

式中，u表示DNN层的编号，

表示DNN层的深度，

表示DNN层的数据量；

具体的，DNN层的深度

可进一步表示为：

式中，

表示第u个DNN层的直接前驱DNN层集合；

S13、根据所述多个智能网联汽车、所述多个路边单位、所述多个DNN应用和所述多个DNN层建立与所述多个智能网联汽车对应的第一DNN层队列以及与所述多个路边单位对应的第二DNN层队列；

其中，所述第一DNN层队列为CAVs上的DNN层队列

所述第二DNN层队列为RSUs上的DNN层队列

DNN层队列中的DNN层按照

的顺序升序排序；

存放着CAVs生成DNN应用的DNN层，CAVs只能传输和处理位于第一DNN层队列中队首的DNN层，

存放着CAVs卸载至RSUs上的DNN层，RSUs只能处理位于第二DNN层队列中队首的DNN层；

DNN层需满足对应的执行条件才能进行传输和处理，即该DNN层位于DNN层队列的队首，且该DNN层的直接前驱DNN层集合里的DNN层全部处理完成；

S14、根据所述多个智能网联汽车、所述多个路边单位构建所述多个智能网联汽车与所述多个路边单位的通信模型；

在RSUs的通信范围内，CAVs可以通过车辆与基础设施(Vehicle toInfrastructure，V2I)通信传输DNN层数据至RSUs处理，以充分利用邻域内RSUs的计算资源；

具体的，定义信道带宽、信道衰落因子、高斯白噪声功率以及路径损耗因子；

所述通信模型为：

式中，

表示在第k个时间片，第i个智能网联汽车CAV与第j个路边单位RSU的数据传输率，B表示信道带宽，h表示信道衰落因子，p_tr表示所述多个智能网联汽车CAV的传输功率，x表示所述高斯白噪声功率，

表示所述路径损耗因子，

表示第i个智能网联汽车CAV与第j个路边单位RSU的距离，r表示所述多个路边单位RSU的通信范围；

其中，

可以进一步表示为：

式中，x_i ^k表示第i个CAV在第k个时间片的x轴坐标，y_i ^k表示第i个CAV在第k个时间片的y轴坐标，x_j ^k表示第j个RSU在第k个时间片的x轴坐标，y_j ^k表示第j个RSU在第k个时间片的y轴坐标；

当CAVs在RSUs的通信范围内，即满足

CAVs才可进行任务数据的传输，在第k个时间片，如果第i个CAV要传输DNN层数据至通信范围内的第j个RSU，那么其传输的DNN数据量为

S15、根据所述多个智能网联汽车、所述多个路边单位以及所述多个DNN层构建所述多个DNN层从所述多个智能网联汽车卸载至所述多个路边单位的计算模型；

假设所有CAVs具有相同的算力，所有RSUs具有相同的算力，算力为以周期每秒为单位的CPU频率；

具体的，获取所述多个智能网联汽车对应的第一算力以及所述多个路边单位对应的第二算力；

确定预设DNN层数据处理密度；

所述第一数据处理总量ε^v为：

所述第二数据处理总量ε^r为：

式中，f^r表示所述第二算力；

其中，预设DNN层数据处理密度为CPU周期/比特；

S16、根据所述DNN应用模型、所述第一DNN层队列、所述第二DNN层队列、所述通信模型以及所述计算模型生成车辆边缘计算网络；

如图3所示，图3展示了车辆边缘计算网络的示意图，可以看出，每个RSU都具备一定的通信范围(即图3中的Communication area ofRSU)，部署了移动边缘计算服务器(即图3中的MEC Server，Mobile Edge Computing Server)，每个CAV和RSU拥有各自的DNN层队列(即图3中的Task Queue)，在RSUs的通信范围内，CAVs可以通过V2I通信传输DNN层数据至RSUs处理。

实施例三

请参照图1、4，本实施例在实施例一或实施例二的基础上进一步限定了如何确定计算卸载问题以及建立马尔科夫决策过程模型，具体为：

其中，DNN应用卸载失败有两种情况：一种是DNN层在数据传输过程中CAVs离开接收数据的RSU的通信范围，则该DNN应用卸载失败，另一种是DNN应用剩余生命周期时间片为0时，DNN层未全部处理完成，则DNN应用卸载失败；

我们的优化目标是最小化CAVs的平均卸载失败率，因此可以对计算卸载问题进行确定；

所述S2具体为：

所述计算卸载问题为：

式中，Minimize表示最小化，AFR表示所述多个智能网联汽车的平均卸载失败率，FR_i表示第i个智能网联汽车的卸载失败率，n表示所述多个智能网联汽车的数量；

其中，卸载失败率为卸载失败应用个数除以生成应用总个数；

MDP模型是强化学习算法的基本模型，因此需要建立MDP模型，MDP模型包括智能体，在多车计算卸载过程中，每个CAV都是智能体；

具体的，获取第k个时间片内第i个CAV对应的状态s_i(k)以及对应的动作a_i(k)；

获取目标时间片内目标智能网联汽车对应的卸载失败应用集合Δ_i(k)以及卸载成功应用集合γ_i(k)；

具体的，获取第k个时间片内第i个CAV对应的卸载失败应用集合Δ_i(k)以及卸载成功应用集合γ_i(k)；

所述s_i(k)为：

式中，k表示第k个时间片，

其中，

所述S(k)为：

S(k)＝{s₁(k),s₂(k),...,s_n(k)}；

所述a_i(k)为：

a_i(k)∈{1,2,...,m+1}；

其中，a_i(k)即CAV基于当前卸载策略所选择的卸载方式；

所述A(k)为：

A(k)＝{a₁(k),a₂(k),...,a_n(k)}；

所述Δ_i(k)为：

Δ_i(k)＝{A₁,A₂,...,A_f}；

所述γ_i(k)为：

Υ_i(k)＝{A₁,A₂,...,A_u}；

所述r_i(k)为：

所述R(k)为：

R(k)＝{r₁(k),r₂(k),...,r_n(k)}。

图4展示了VEC环境下多车计算卸载的一个实例，如图4所示，假设在第一个时间片，CAV 1生成DNN应用A_1,1,1，其可容忍时间为2个时间片，CAV 2生成DNN应用A_2,2,1，其可容忍时间为1个时间片；随后，构成A_1,1,1的两个DNN层T₁ ^1,1,1,T₂ ^1,1,1进入DNN层队列

中，构成A_2,2,1的DNN层T₁ ^2,2,1进入DNN层队列

中；接着，CAV 1和CAV 2将DNN层数据卸载至RSU上，则位于

队首的T₁ ^1,1,1,T₂ ^2,2,1卸载至

中；最后，RSU处理位于

队首的DNN层T₁ ^2,2,1，A_2,2,1卸载处理完成；

在第二个时间片，首先，由于T₂ ^1,1,1的前驱DNN层T₁ ^1,1,1尚未处理完成，

上的T₂ ^1,1,1不能进行传输或者本地处理；接着，CAV 2生成DNN应用A_2,2,2，其可容忍时间为1个时间片，CAV 2本地处理DNN层T₂ ^2,2,1的数据，那么A_2,2,2卸载成功；最后，RSU处理位于

队首的DNN层T₁ ^1,1,1；

在第三个时间片，由于a_1,1,1＝0，而A_1,1,1尚未处理完成，因此A_1,1,1卸载失败，在

中删除DNN层T₂ ^1,1,1。

实施例四

请参照图5-7，本实施例在实施例一、实施例二或实施例三的基础上进一步限定了如何确定卸载策略并执行卸载策略，具体为：

在多车环境中，由于多车之间的卸载决策会相互影响，传统的强化学习算法，如Actor-Critic(强化学习)、DQN(Deep Q Network，融合神经网络和Q learning的方法)、DDPG等，由于仅考虑单车的局部信息，没有考虑多车环境的全局信息，训练得到的策略在执行时不稳定；

多智能体深度确定性策略梯度算法(MADDPG，Multi-Agent Deep DeterministicPolicy Gradient)是深度确定性策略梯度(Deep Deterministic Policy Gradient，DDPG)的多智能体版本扩展，通过多车环境的全局信息集中式训练评论家网络，动作者网络仅需要单车的局部信息就可分布式执行，能有效地适应动态的多车环境；

如图5所示，图5为VEC环境下基于SA-MADDPG的多车计算卸载框架，其中包括两类网络结构，一类是动作者网络，一类是评论家网络；

所述S3具体为：

S31、设计与所述智能网联汽车对应的动作者网络；

设计与所述动作者网络对应的评论家网络；

设计与所述动作者网络对应的目标动作者网络，并设计与所述评论家网络对应的目标评论家网络；

其中，所述动作者网络包括第一网络参数；

所述目标动作者网络包括第一目标网络参数；

所述评论家网络包括第二网络参数；

所述目标评论家网络包括第二目标网络参数；

动作者网络的作用在于通过单个车辆的局部信息进行训练，执行过程中，只需要该动作者网络就能够选取对应动作，评论家网络的作用在于通过多个车辆的全局信息进行训练，并对动作者网络的训练进行指导，执行过程中无需该评论家网络，目标动作者网络的作用在于稳定动作者网络的更新过程，目标评论家网络的作用在于稳定评论家网络的更新过程；

具体的，如图5所示，在训练过程中，每个CAV都部署设计一个动作者网络π_i，对应的第一网络参数为θ_i，还部署设计了与动作者网络π_i网络结构一致的目标动作者网络π′_i，对应的第一目标网络参数为θ_i′；

同时，在训练过程中，每个CAV都部署设计了一个评论家网络Q_i，对应的第二网络参数为ω_i，还部署设计了与评论家网络Q_i网络结构一致的目标评论家网络Q′_i，对应的第二目标网络参数为ω′_i；

S32、将所述目标智能网联汽车对应的状态输入至所述动作者网络得到最佳动作，根据模拟退火策略从预设随机动作与所述最佳动作之间选择得到目标动作，并执行所述目标动作对应的卸载策略，返回与所述卸载策略对应的奖励和新状态；

具体的，如图5、6所示，图6为动作者网络π_i的结构示意图，首先，输入目标智能网联汽车CAVi的局部信息(即目标智能网联汽车CAVi对应的状态s_i(k))至动作者网络π_i，然后经过两层隐层(即图6中的Hiddenlayer)，接着经过Softmax层进行归一化处理，最后的输出层有m+1个值(即图6中p_i ¹(k)至p_i ^m+1(k))，每个值表示相应动作的概率，动作表示CAV选择的卸载策略，最后，选择最大概率的动作作为最佳动作，根据模拟退火策略(即图5中的SAStrategy)从预设随机动作与最佳动作之间选择得到目标动作a_i(k)，在执行过程中，我们只需要输入CAV的局部信息至目标动作者网络π′_i，即可输出目标动作a_i(k)对应的卸载策略；

执行卸载策略，返回与该卸载策略对应的奖励r_i(k)和新状态s_i′(k)，如图5所示；

其中，所述预设随机动作为在{1，2，…，m+1}中服从均匀分布取随机数，所述预设随机动作表示所述目标智能网联汽车选择卸载所述DNN层至路边单位还是本地处理所述DNN层；

S33、根据所述目标智能网联汽车对应的状态、所述目标动作、所述奖励和所述新状态生成状态转移过程，并将所述状态转移过程保存至回放记忆库；

具体的，根据s_i(k)、a_i(k)、r_i(k)和s_i′(k)生成状态转移过程<s(k),a(k),r(k),s′(k)＞，即全局信息，并将<s(k),a(k),r(k),s′(k)＞保存至回放记忆库D_i；

S34、将所述多个智能网联汽车的联合状态和联合动作输入至所述评论家网络得到Q值；

具体的，如图7所示，图7为评论家网络Q_i的结构示意图，首先，输入多个智能网联汽车CAVs的全局信息(即联合状态S(k)和联合动作A(k))至评论家网络Q_i，经过两层隐层(即图7中的Hiddenlayer)后，输出Q值(Q-value)，在执行过程中，无需在CAV上部署评论家网络Q_i；

S35、根据Q值更新所述动作者网络及所述评论家网络。

实施例五

请参照图1，本实施例在实施例一、实施例二、实施例三或实施例四的基础上进一步限定了如何更新动作者网络和评论家网络，具体为：

其中，更新网络时，先对评论家网络进行更新，再对动作者网络进行更新，最后对目标网络(目标评论家网络和目标动作者网络)进行更新，并且，更新网络本质上是对网络的参数进行更新，当网络参数更新完成，则表示该网络更新完成；

所述S35包括：

S351、按照预设周期从所述回放记忆库中任意采集多个状态转移过程

所述预设周期为C个时间片；

具体的，每隔C个时间片从回放记忆库D_i中任意采集数量为x组的状态转移过程

S352、合并所述多个状态转移过程，得到合并后的状态转移过程

S353、基于所述合并后的状态转移过程、所述目标评论家网络、所述目标动作者网络得到目标Q值y_i ^j；

其中，所述折扣率位于0和1之间，数值越大表示智能体更关注长期奖励，反之，更关注短期奖励；

S354、基于所述合并后的状态转移过程、所述评论家网络以及所述目标Q值计算时间差分(TD)误差δ_i ^j；

式中，Q_i()表示所述评论家网络；

S355、根据所述时间差分误差得到所述评论家网络的所述第二网络参数的损失函数L(ω_i)：

式中，x表示采集的多个状态转移过程的数量；

S356、采用最小化损失函数方法对所述第二网络参数进行更新；

S357、采用策略梯度方法对所述动作者网络的所述第一网络参数进行更新；

所述策略梯度方法为：

式中，

S358、采用软替换方法对所述目标动作者网络的所述第一目标网络参数以及所述目标评论家网络的所述第二目标网络参数进行更新；

所述软替换方法为：

θ_i”＝v·θ_i+(1-v)·θ_i’ν∈[0,1]；

ω_i”＝v·ω_i+(1-v)·ω_i’ν∈[0,1]；

式中，θ_i”表示更新后的所述第一目标网络参数，θ_i表示所述第一网络参数，θ_i’表示所述第一目标网络参数，ω_i”表示更新后的所述第二目标网络参数，ω_i表示所述第二网络参数，ω_i’表示所述第二目标网络参数，v表示软替换速率；

本发明基于深度强化学习的多车应用计算卸载方法的使用过程如下：

首先，初始化车辆边缘计算网络，目标智能网联汽车CAVi按照ρ/z概率生成各类DNN应用，分解DNN应用得到多个DNN层，DNN层进入DNN层队列，其次，根据CAVi的轨迹信息得到CAVi的二维坐标

并根据通信模型计算CAVi与通信范围内的RSU的数据传输率o_i(k)，然后得到CAVi的状态s_i(k)；

将s_i(k)输入至动作者网络π_i，根据模拟退火策略从随机动作与最佳动作之间选择得到目标动作a_i(k)，执行a_i(k)对应的卸载策略，更新车辆边缘计算网络，返回与该卸载策略对应的奖励r_i(k)，状态转移至新状态s_i′(k)，将<s_i(k),a_i(k),r_i(k),s_i’(k)>保存至回放记忆库D_i；

当间隔C个时间片时，每一CAVi随机采样数量为x组的

合并得到

计算得到目标Q值y_i ^j以及TD误差

采用最小化损失函数方法对评论家网络的第二网络参数ω_i进行更新，然后采用策略梯度方法对动作者网络的第一网络参数θ_i进行更新，最后采用软替换方法对目标动作者网络的第一目标网络参数θ_i’以及目标评论家网络的第二目标网络参数ω_i’进行更新，以此完成对所有网络的更新；

其中，完成所有网络的更新之后，还对当前温度进行降温处理，即T_ep＝σ^epT₁；

式中，T₁表示第一回合的温度，T_ep表示第ep回合的温度，σ^ep表示第ep回合的降温系数；

每回合结束后，即完成所有网络的更新之后，进行降温处理，该降温处理的作用在于使当前回合的当前温度随着回合次数的增加而降低，从而使得下一回合根据模拟退火策略选择最佳动作的概率会越大，加快收敛速度。

实施例六

请参照图2，一种基于深度强化学习的多车应用计算卸载终端，包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现实施例一、实施例二、实施例三、实施例四或实施例五中的基于深度强化学习的多车应用计算卸载方法中的各个步骤。

综上所述，本发明提供的一种基于深度强化学习的多车应用计算卸载方法及终端，基于多个智能网联汽车、多个路边单位以及与多个智能网联汽车对应的多个DNN应用分别构建DNN应用模型、第一DNN层队列、第二DNN层队列、通信模型以及计算模型，根据构建的模型和队列生成车辆边缘计算网络，准确构建了车辆边缘计算网络，便于后续基于车辆边缘计算网络确定计算卸载问题，从而提高确定计算卸载问题的准确性；根据所述车辆边缘计算网络确定计算卸载问题，并根据所述计算卸载问题基于目标智能网联汽车的联合状态、联合动作、联合奖励生成马尔科夫决策过程模型，将马尔科夫决策过程模型引入计算卸载问题，考虑了智能体、状态空间、动作空间和奖励四个关键因素，能够准确描述多车计算卸载的过程；基于所述马尔科夫决策过程模型使用SA-MADDPG算法将目标智能网联汽车对应的状态输入至动作者网络得到最佳动作，根据模拟退火策略选择得到目标动作，并执行目标动作对应的卸载策略，返回与卸载策略对应的奖励和新状态，能有效地适应动态的多车环境，且使用模拟退火策略用于动作的选择，避免陷入局部最优解，加快收敛速度，提高了选择卸载策略的准确性；根据目标智能网联汽车对应的状态、目标动作、奖励和新状态生成状态转移过程，并将状态转移过程保存至回放记忆库，再将多个智能网联汽车的联合状态和联合动作输入至评论家网络得到Q值，根据Q值更新动作者网络及评论家网络，能够不断优化网络，提高了选择卸载策略的准确性，从而降低卸载失败率。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等同变换，或直接或间接运用在相关的技术领域，均同理包括在本发明的专利保护范围内。