CN114615265A

CN114615265A - 边缘计算环境下基于深度强化学习的车载任务卸载方法

Info

Publication number: CN114615265A
Application number: CN202210225234.0A
Authority: CN
Inventors: 沈国江; 孔祥杰; 申思; 徐浩然; 李响; 周楷淇
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2022-03-09
Filing date: 2022-03-09
Publication date: 2022-06-10

Abstract

本发明公开了一种边缘计算环境下基于深度强化学习的车载任务卸载方法。本方法首先构建任务卸载环境：基于排队论对任务到达与任务卸载建立包括车辆终端、RSU的车联网环境，计算车辆任务执行时延、RSU间传递时延以及车辆终端将任务卸载至RSU的上传时延，得到任务执行总时延；再建立优化模型：将任务的总执行时延最小作为优化目标，建立优化问题；最后基于MADDPG设计了一种行为‑评价网络算法，通过行为网络参数和评价网络参数，解决智能体间没有交互，无法运用整体信息的问题，完成车载任务卸载。本发明解决了多个区域间的负载均衡的问题，避免了任务分配不均而导致的资源浪费，提高了车联网系统整体的资源利用率和运算效率。

Description

边缘计算环境下基于深度强化学习的车载任务卸载方法

技术领域

本发明涉及为通信技术领域和计算机科学与技术的研究技术领域，尤其是涉及一种边缘计算环境下基于深度强化学习的车载任务卸载算法。

背景技术

随着信息通信技术和计算机技术的发展，道路上联网的车辆数量正在迅速增加，因此作为物联网(Internet of Things,IoT)技术的一个典型应用方向的车联网(Internetof Vehicles,IoV)技术近年来逐步朝着智能化的方向发展。通过通信和计算技术来实现智能化和交互式应用。大量的车载应用可以在IoV中实现，如辅助、自动驾驶和排管、城市交通管理和车载信息娱乐服务。虽然IoV技术前景广阔，但实现IoV应用仍面临挑战。其中一个挑战是车辆有限的车载计算能力。现有技术中只由车载终端处理任务既不能满足任务时延的要求，还会造成很大的能耗。

为了克服上述局限性，边缘计算技术(Mobile Edge Computing,MEC)是一种有前景的新兴技术手段，其概念在2014年被欧洲电信标准协会提出，并于2016年对其进行了规范化与标准化处理。通过车辆与边缘节点通信，使得资源受限的车辆用户可以将他们的计算密集型任务转移到与路边单元(Road Side Units,RSU)同步的高性能边缘服务器上处理。同时与传统的移动云计算相比，由于边缘服务器靠近车辆，任务卸载造成的网络延迟可以显著降低，从而有效地拓展车辆终端的计算能力。

然而，边缘计算技术由于车辆终端的移动性，车载任务产生的在空间和时间上的不确定性，存在多个区域间的负载不均衡，任务分配不均而资源浪费的问题。

发明内容

针对现有技术不足，本发明的提出了一种边缘计算环境下基于深度强化学习的车载任务卸载方法。

实现上述技术目的，达到上述技术效果，本发明是通过以下技术方案实现的：

本发明实施例的第一方面提供了一种边缘计算环境下基于深度强化学习的车载任务卸载方法，包括如下步骤：

(1)基于排队论对任务到达与任务卸载建立包括车辆终端、路边单元的车联网环境；

(2)若车辆终端不需要路边单元决策，则任务执行总时延为零；若车辆终端需要路边单元决策，则通过停止车辆计算模式和路边单元计算模式计算得到任务执行总时延；

(3)将使任务的总执行时延最小为优化目标，建立优化目标函数；

(4)基于MADDPG网络构建行为-评价网络，根据步骤(1)构建的车联网环境，利用评价网络评估对智能体行为，优化行为策略，寻找优化目标，训练行为网络；

(5)通过将训练好的每个智能体的行动网络运用于卸载问题，完成车载任务卸载。

进一步地，将所述路边单元计算模式中的车辆任务执行时延路边单元间传递时延以及车辆终端将任务卸载至路边单元的上传时延相加，得到任务执行总时延；所述路边单元计算模式中的任务执行总时延分为本地处理的总时延和邻居处理的总时延。

进一步地，所述本地处理的总时延具体为：

在路边单元计算模式中，第m个路边单元的任务执行时延表示为：

t_MECdeal＝1/maxMECμ

其中，maxMECμ为路边单元上单位时间内最大处理任务量；

车辆终端k传递到本地路边单元的上传时延由上得为，

其中，d_{ri→cloudlet}表示传输的数据量，R_{ri→cloudlet}表示从车辆终端到路边单元的传输率；w是带宽；p_i,c是传输能量，h_i,c是信道增益，σ²是高斯噪声，

为信道干扰；

路边单元RSUm的任务执行时延表示为t_MECdeal＝1/maxMECμ，

路边单元计算模式中本地处理的总时延为t_localMEC＝t_up+t_MECdeal。

进一步地，所述邻居处理的总时延具体为：

车辆终端k传递到本地路边单元的上传时延由上得为，

R_{ri→cloudlet}表示从车辆终端到路边单元的传输率；

所述本地路边单元传递到邻居路边单元的上传时延为,

其中，d_{ri→cloudlet}表示传输的数据量，R’_ri→cloudie表示从本地路边单元传递到邻居路边单元的传输率；w是带宽；p_i,c是传输能量，h_i,c是信道增益，σ²是高斯噪声，

为信道干扰；

路边单元计算模式中邻居处理的总时延为t_neighMEC＝t_up+t_MECup+t_MECdeal。

进一步地，将所述停止车辆计算模式中的车辆任务执行时延、车辆终端将任务卸载至路边单元的上传时延，以及路边单元将任务卸载至停止车辆的传输时延，得到任务执行总时延；具体为：

车辆终端k将任务卸载至路边单元的上传时延表示为

其中，d_{ri→cloudlet}表示传输的数据量，R_{ri→cloudlet}表示从车辆终端到路边单元的传输率。

所述从车辆终端到路边单元的传输率的公式如下：

其中，w是带宽，p_i,c是传输能量，h_i,c是信道增益，σ²是高斯噪声，信道干扰记为

车辆终端k的任务执行时延表示为t_vehdeal＝1/maxvehμ；

停止车辆计算模式的总时延t_localveh＝2*t_up+t_vehdeal。

进一步地，所述步骤(3)中的优化目标表示为：

r(t)＝-max(α_n(t)*t_localMEC，β_n(t)*t_neighMEC，γ_n(t)*t_localveh)

其中α_n(t)，β_n(t)，γ_n(t)是t时刻分配给本地路边单元、邻居路边单元和停止车辆的任务数。

进一步地，所述步骤(4)具体包括以下子步骤：

(4.1)基于MADDPG网络构建一行为-评价网络；

(4.2)训练行为-评价网络，更新行动-评价网络模型参数θ_i，得到训练完成后的行为网络。

进一步地，所述行动-评价网络模型参数θ_i的更新公式为：

θ′_i←γθ_i+(1-γ)θ′_i

其中，γ为更新因子取值在0-1之间，θ_i为训练时行动-评价网络模型参数，θ′_i为目标行动-评价网络参数。

进一步地，所述步骤(4.2)具体包括以下子步骤：

(4.2.1)初始化参数：

设置循环次数为M，初始化N个智能体，初始化环境状态动作对存储空间D容量，初始化行动最大步长max-action-length，初始化评价更新所需环境状态动作对最小对数minibatch，随机初始化网络参数当前值θ与网络参数目标值θ′，其中θ＝θ′，获取智能体可采取的行为；

(4.2.2)从环境中读取N个智能体当前环境状态x；

(4.2.3)依据环境更新智能体动作状态：

取每个智能体i，将智能体当前所能观察到的状态o_i(传入智能体的行为网络，得到需执行的行动a_i，a_i＝μθ_i(o_i)，μ为参数为θ(a)的行动网络函数，并传入环境中获取每个独立智能体执行动作奖励r，执行动作后的环境状态x′，并将(x,a,r,x′)作为智能体环境状态动作对存入智能体环境状态动作对存储空间D，更新当前智能体状态x←x′。重复完成卸载任务或达到最大步长max-action-length次数；

(4.2.4)使用评价网络训练行为网络：

对于每一个智能体i，随机从智能体环境状态动作对存储空间D中取得minibatch个记录样本集合S，其中S中每个元素为(x^j，a^j，r^j，x′^j)，计算参照标准：

其中，

为智能体i的以θ(c)为参数的评价网络；

为智能体i的第j个智能体状态动作对记录中的执行动作奖励，x′^j表示第j个智能体状态动作对记录中的执行动作后的环境状态，

为对应x′^j时的第k个智能体采取的行为，其中μ′_k为第k个智能体的以θ(a)为参数的行为网络，

表示第j个智能体状态动作对记录时智能体k所能观察到的状态，γ为更新因子；

并通过对损失函数最小化，公式如下：

其中S为样本集合大小，y^j为第j个记录得出的参照标准，

为智能体i的以θ(c)为参数的评价网络，x^j表示第j个智能体状态动作对记录中的执行动作后的环境状态，

为对应x^j时的第k个智能体采取的行为。

基于神经网络的反向传播算法获得新的评价网络参数(即Q函数参数)θ(c)′，通过梯度下降方法更新行为网络，实现对智能体的评价，优化智能体行为策略，寻找优化目标，公式如下：

获得新的行动网络参数(即μ函数参数)θ(a)′。直至达到预设最大迭代次数，完成更新。

(4.2.5)组合步骤(4.2.4)更新得到的θ(c)′和θ(a)′，得到θ′，通过下式得到最终的θ′，对于每一个智能体，更新其行动-评价网络参数；

更新行动-评价网络模型参数θ_i，公式如下：

θ′_i←γθ_i+(1-γ)θ′_i

其中，γ为更新因子取值在0-1之间，θ_i为当前(训练时)行动-评价网络模型参数，θ′_i为目标行动-评价网络参数；

(4.2.6)重复步骤(4.2.2)～步骤(4.2.5)M次，完成行为网络的训练。

本发明实施例的第二方面提供了一种电子设备，包括存储器和处理器，其中，所述存储器与所述处理器耦接；其中，所述存储器用于存储程序数据，所述处理器用于执行所述程序数据以实现上述的边缘计算环境下基于深度强化学习的车载任务卸载方法。

本发明实施例的第三方面提供了一种计算机可读存储介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现上述的边缘计算环境下基于深度强化学习的车载任务卸载方法。

本发明的有益效果为：为解决多个区域间的负载均衡的问题，避免了任务分配不均而导致的资源浪费，提高整体的资源利用率和运算效率。本发明提出了一种边缘计算环境下基于深度强化学习的车载任务卸载算法。

附图说明

图1为训练中的行为-评价网络模型；

图2为实际应用时的行为网络模型；

图3为任务卸载总时间随迭代次数变化情况图；

图4为任务卸载总奖励随迭代次数变化情况图；

图5为本发明装置的示意图。

具体实施方式

下面结合附图对本发明的较佳实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

本发明针对多区域多车辆终端场景，考虑边缘MEC服务器缺乏的问题，首先基于排队论，以车载边缘网络中所有计算任务的所有时延之和作为优化目标建立系统模型，通过基于多智能体深度确定性策略梯度(Multi-Agent Deep Deterministic PolicyGradient,MADDPG)算法来缓解该问题对卸载决策制定造成的影响。本发明提出了一种边缘计算环境下基于深度强化学习的车载任务卸载方法。

本发明的主要目的是提高边缘计算条件下，计算资源的利用率并有效降低车辆终端任务的任务执行时延。本发明首先构造了一个多区域多终端的任务模型，其次引入了MADDPG来解决多智能体深度强化学习中的智能体间信息交互和整体性问题，提出了多边缘服务器场景下的基于MADDPG的任务动态卸载算法，为每个车辆终端寻找合适的任务卸载策略并分配计算资源，以降低系统执行任务的执行总时延。

本发明解决其技术问题所采取的技术方案是：先将互联网场景下的多区域多终端环境进行建模，并将问题公式化为以降低完成任务时延为主要目标，兼顾最小传输能耗的最优化问题。然后为了解决传统深度强化学习算法中遇到的智能体间信息交互和整体性问题，提出了一种改进的MADDPG算法，并基于MADDPG算法进行任务卸载算法设计，并将MEC边缘控制平台作为智能体与车联网环境进行交互。本发明不仅可以显著的提高计算资源的利用率还有效降低车辆终端的任务执行总时延。

考虑到车联网环境中计算资源分布配置的情况，本发明实施例假定每个RSU配套一个边缘服务器用于执行车辆终端卸载的计算任务，RSU与邻居RSU之间可以通过无线通信的方式传输任务。另外，本发明实施例假定由RSU来统一管理所在区域边缘服务器的网络与计算资源，并根据当前时刻每个边缘服务器的资源占用情况来做出合理的资源分配与卸载决策。最后在任务动态到达的背景下研究如何有效利用各RSU的计算资源，从而使所有终端携带的任务执行总时延最小。

下面结合附图，对本发明的边缘计算环境下基于深度强化学习的车载任务卸载方法进行详细说明。在不冲突的情况下，下述的实施例及实施方式中的特征可以相互组合。

任务到达：车辆将任务传输至本区域边缘服务器的过程。

任务卸载：本区域边缘服务器将任务传输至任务执行设备的过程。

任务执行：任务执行设备执行收到边缘服务器发布的任务的过程。

(1)基于排队论对任务到达与任务卸载建立包括车辆终端、路边单元(Road SideUnits,RSU)的车联网环境；具体为：

本发明实施例考虑一个包括K个车辆和M个RSU的车联网环境，其中每个RSU通过有线通讯的方式连接一台高性能边缘服务器，各RSU边缘服务器表示为m∈{1,2...M}，车辆终端表示为k∈{1,2...K}，并且每个车辆携带的计算任务表示为λ_k，其中，k表示车辆编号。

RSU可以根据能耗与任务执行时延等情况做出对应的卸载决策，在此假设所有任务都是不可被切分的，并且只能在RSU或者停止车辆(Parked Vehicle,PV)执行。

(2)若车辆终端不需要路边单元决策，则任务执行总时延为零；若车辆终端需要路边单元决策，则通过停止车辆计算模式和路边单元计算模式计算得到任务执行总时延。具体为：

若车辆终端不需要路边单元决策，则任务执行总时延为零：本发明实施例假定车辆终端在进行任务卸载时以单个任务为单位，即同一个任务车辆终端要么在本地停止车辆上执行，要么全部卸载至边缘服务器处理。

车辆终端k的本地处理能力表示为maxvehμ，本发明实施例设定同一RSU覆盖范围内所有车辆的处理能力均相同。RSU的任务卸载比例表示为action_m，其中，m表示RSU编号共计11个离散动作，分别为[0,0.1,0.2,……1]，剩余的任务分配给本地RSU。如果本地的停止车辆较多，可以承担的任务>总任务数量：则不需要进行RSU决策，放弃采集该轨迹(此时action_m等于缺省值11)。

将车联网环境中的任务执行分为停止车辆(Parked Vehicle,PV)计算模式和RSU计算模式。

将所述RSU计算模式中的车辆任务执行时延、RSU间传递时延以及车辆终端将任务卸载至RSU的上传时延相加，得到任务执行总时延。

在RSU计算模式中，第m个RSU的任务执行时延表示为

t_MECdeal＝1/maxMECμ

其中maxMECμ为RSU上单位时间内最大处理任务量。

车辆终端k传递到本地RSU的上传时延由上得为，

其中，w是带宽(本发明实施例中取1MB)。由于回传数据较小，所以RSU回传时延忽略不计。RSUm的任务执行时延表示为t_MECdeal＝1/maxMECμ，其中maxMECμ为RSU上单位时间内最大处理任务量。从车辆终端将任务卸载至RSU的时延t_MECdeal由上式可得，另外由于回传数据较小，所以回传时延忽略不计。

所以RSU计算模式中本地处理的总时延为t_localMEC＝t_up+t_MECdeal。

所述本地RSU传递到邻居RSU的上传时延为,

其中，R’_ri→cloudie表示从本地路边单元传递到邻居路边单元的传输率；w是带宽(本发明实施例中取4MB)。由于回传数据较小，所以RSU回传时延忽略不计。

故RSU计算模式中邻居处理的总时延为t_neighMEC＝t_up+t_MECup+t_MECdeal。

将所述停止车辆(Parked Vehicle,PV)计算模式中的车辆任务执行时延、车辆终端将任务卸载至RSU的上传时延，以及RSU将任务卸载至停止车辆的传输时延，得到任务执行总时延。具体为：

车辆终端k将任务卸载至RSU的上传时延表示为

其中，d_{ri→cloudlet}表示传输的数据量，R_{ri→cloudlet}表示从车辆终端到RSU的传输率。

所述从车辆终端到RSU的传输率的公式如下：

其中，w是带宽(本发明实施例中取1MB)，p_i,c是传输能量，h_i,c是信道增益，σ²是高斯噪声，由于采用了非正交多接入点技术，信道干扰可记为

车辆终端k的任务执行时延表示为t_vehdeal＝1/maxvehμ，由于回传数据较小，所以回传时延忽略不计。所以PV计算模式的总时延t_localveh＝2*t_up+t_vehdeal。

(3)将使任务的总执行时延最小为优化目标，建立优化目标函数；公式如下：

r(t)＝-max(α_n(t)*t_localMEC，β_n(t)*t_neighMEC，γ_n(t)*t_localveh)

其中α_n(t)，β_n(t)，γ_n(t)是t时刻分配给本地RSU、邻居RSU和车辆终端的任务数。所以本发明的优化目标为：

min(r(t))

c1.2 α_n(t)≤maxMECμ

c1.3 β_n(t)≤maxMECμ

c1.4 γ_n(t)≤maxvehμ

其中，约束表示所有卸载的任务均被两种模式处理，约束c1.2、c1.3、c1.4表示本地计算模式与边缘计算模式产生的任务量都需要小于各个处理器的最大处理能力。优化目标函数是一个NP hard问题。在任务数量不大的时候，可以通过遍历寻找最优解。但是此问题的解空间会随着任务数量的增长而迅速增加。可以将此优化问题转化为马尔科夫决策问题，基于深度强化学习算法来解决。

(4)基于MADDPG网络构建行为-评价网络，根据步骤(1)构建的车联网环境，利用评价网络评估对智能体行为，优化行为策略，训练行为网络；具体为：

(4.1)基于MADDPG网络设计了一种行为-评价网络，得到行为网络参数θ(a)和评价网络参数θ(c)，通过该参数解决智能体间没有交互，无法运用整体信息的问题，其中θ(a)用来根据智能体个体观测的环境状态选择智能体个体的行动，θ(c)获得当前的总体的环境，状态和全体智能体采取的行动并生成环境状态动作对的智能体个体价值来评估智能体个体行为的优劣，优化行为策略，其中第i个智能体的参数θ(a)和θ(c)统称为θ_i。

(4.2)如图1～2所示，训练行为-评价网络，更新行动-评价网络模型参数θ_i，具体包括以下子步骤：

(4.2.1)初始化参数：

设置循环次数为M，初始化N个智能体，初始化环境状态动作对存储空间D容量，初始化行动最大步长max-action-length，初始化评价更新所需环境状态动作对最小对数minibatch，随机初始化网络参数当前值θ与网络参数目标值θ′，其中θ＝θ′，获取智能体可采取的行为。所述一次循环为一次N个智能体参与的完整的任务卸载训练。

(4.2.2)从环境中读取N个智能体当前环境状态x；

(4.2.3)依据环境更新智能体动作状态：

取每个智能体i，将智能体当前所能观察到的状态o_i(为N个智能体当前环境状态的一部分)传入智能体的行为网络，得到需执行的行动a_i，a_i＝μθ_i(o_i)，μ为参数为θ(a)的行动网络函数，并传入环境中获取每个独立智能体执行动作奖励r，执行动作后的环境状态x′，并将(x，a，r，x′)作为智能体状态动作对存入智能体状态动作对存储空间D，更新当前智能体状态x←x′。重复完成卸载任务或达到最大步长max-action-length次数。

(4.2.4)使用评价网络训练行为网络：

对于每一个智能体i，随机从智能体状态动作对存储空间D中取得minibatch个记录样本集合S，其中S中第j个记录为(x^j，a^j，r^j，x′^j)，计算参照标准：

其中，

为智能体i的以θ(c)为参数的评价网络。

表示第j个智能体状态动作对记录时智能体k所能观察到的状态，γ为更新因子取值在0-1之间(下标i表示第i个智能体的，上标j表示第j个智能体状态动作对)。

并通过对损失函数最小化，公式如下：

其中S为样本集合大小，y^j为第j个记录得出的参照标准，

为对应x^j时的第k个智能体采取的行为。

(4.2.5)组合步骤(4.2.4)更新得到的θ(c)′和θ(a)′，得到θ′，通过下式得到最终的θ′，对于每一个智能体，更新其行动-评价网络参数。

更新行动-评价网络模型参数θ_i，公式如下：

θ′_i←γθ_i+(1-γ)θ′_i

其中，γ为更新因子取值在0-1之间，θ_i为当前(训练时)行动-评价网络模型参数，θ′_i为目标行动-评价网络参数。

(4.2.6)重复步骤(4.2.2)～步骤(4.2.5)M次，完成行为网络的训练。

基于行为-评价网络算法进行任务卸载算法的设计，并将每个区域的RSU作为独立的智能体，与车联网环境进行交互。

如图3～4所示，本发明实施例中用到九个不同智能体进行任务卸载问题训练，其中横坐标表示(4.2.1)中所述的循环次数，实验总共循环训练了6000次，纵坐标表示每个智能体任务卸载的总时间(毫秒)，不同灰度曲线表示不同智能体，从图中可以看出，所有智能体的总任务卸载时间明显下降，并在最终趋于稳定，即找到了任务卸载问题的最优解。

本发明实施例中用到九个不同智能体进行任务卸载问题训练，其中横坐标表示(4.2.1)中所述的循环次数，实验总共循环训练了6000次，纵坐标表示完成一次任务卸载问题的所有智能体执行动作奖励r之和，从图中可以看出，所有智能体执行动作奖励r之和明显增加，并最终趋于稳定，即找到了任务卸载问题的最优解。

与前述边缘计算环境下基于深度强化学习的车载任务卸载方法的实施例相对应，本发明还提供了边缘计算环境下基于深度强化学习的车载任务卸载装置的实施例。

参见图5，本发明实施例提供的一种边缘计算环境下基于深度强化学习的车载任务卸载装置，包括一个或多个处理器，用于实现上述实施例中的边缘计算环境下基于深度强化学习的车载任务卸载方法。

本发明边缘计算环境下基于深度强化学习的车载任务卸载装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图5所示，为本发明边缘计算环境下基于深度强化学习的车载任务卸载装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的边缘计算环境下基于深度强化学习的车载任务卸载方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备，例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、SD卡、闪存卡(Flash Card)等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上实施例仅用于说明本发明的设计思想和特点，其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施，本发明的保护范围不限于上述实施例。所以，凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰，均在本发明的保护范围之内。

Claims

1.一种边缘计算环境下基于深度强化学习的车载任务卸载方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的边缘计算环境下基于深度强化学习的车载任务卸载方法，其特征在于，将所述路边单元计算模式中的车辆任务执行时延路边单元间传递时延以及车辆终端将任务卸载至路边单元的上传时延相加，得到任务执行总时延；所述路边单元计算模式中的任务执行总时延分为本地处理的总时延和邻居处理的总时延。

3.根据权利要求2所述的边缘计算环境下基于深度强化学习的车载任务卸载方法，其特征在于，所述本地处理的总时延具体为：

t_MECdeal＝1/maxMECμ

其中，maxMECμ为路边单元上单位时间内最大处理任务量；

车辆终端k传递到本地路边单元的上传时延由上得为，

其中，d_{ri→cloudlet}表示传输的数据量，R_{ri→cloudlet}表示从车辆终端到路边单元的传输率；w是带宽；p_i，c是传输能量，h_i，c是信道增益，σ²是高斯噪声，

为信道干扰；

路边单元RSUm的任务执行时延表示为t_MECdeal＝1/maxMECμ，

4.根据权利要求2所述的边缘计算环境下基于深度强化学习的车载任务卸载方法，其特征在于，所述邻居处理的总时延具体为：

车辆终端k传递到本地路边单元的上传时延由上得为，

R_{ri→cloudlet}表示从车辆终端到路边单元的传输率；

所述本地路边单元传递到邻居路边单元的上传时延为，

其中，d_{ri→cloudlet}表示传输的数据量，R’_ri→cloudie表示从本地路边单元传递到邻居路边单元的传输率；w是带宽；p_i，c是传输能量，h_i，c是信道增益，σ²是高斯噪声，

为信道干扰；

5.根据权利要求2所述的边缘计算环境下基于深度强化学习的车载任务卸载方法，其特征在于，将所述停止车辆计算模式中的车辆任务执行时延、车辆终端将任务卸载至路边单元的上传时延，以及路边单元将任务卸载至停止车辆的传输时延，得到任务执行总时延；具体为：

车辆终端k将任务卸载至路边单元的上传时延表示为

所述从车辆终端到路边单元的传输率的公式如下：

其中，w是带宽，p_i，c是传输能量，h_i，c是信道增益，σ²是高斯噪声，信道干扰记为

车辆终端k的任务执行时延表示为t_vehdeal＝1/maxvehμ；

停止车辆计算模式的总时延t_localveh＝2*t_up+t_vehdeal。

6.根据权利要求2所述的边缘计算环境下基于深度强化学习的车载任务卸载方法，其特征在于，所述步骤(3)中的优化目标表示为：

r(t)＝-max(α_n(t)*t_localMEC，β_n(t)*t_neighMEC，γ_n(t)*t_localveh)

7.根据权利要求1所述的边缘计算环境下基于深度强化学习的车载任务卸载方法，其特征在于，所述步骤(4)具体包括以下子步骤：

(4.1)基于MADDPG网络构建一行为-评价网络；

8.根据权利要求6所述的边缘计算环境下基于深度强化学习的车载任务卸载方法，其特征在于，所述行动-评价网络模型参数θ_i的更新公式为：

θ′_i←γθ_i+(1-γ)θ′_i

9.根据权利要求6所述的边缘计算环境下基于深度强化学习的车载任务卸载方法，其特征在于，所述步骤(4.2)具体包括以下子步骤：

(4.2.1)初始化参数：

(4.2.2)从环境中读取N个智能体当前环境状态x；

(4.2.3)依据环境更新智能体动作状态：

取每个智能体i，将智能体当前所能观察到的状态o_i(传入智能体的行为网络，得到需执行的行动a_i，a_i＝μθ_i(o_i)，μ为参数为θ(a)的行动网络函数，并传入环境中获取每个独立智能体执行动作奖励r，执行动作后的环境状态x′，并将(x，a，r，x′)作为智能体环境状态动作对存入智能体环境状态动作对存储空间D，更新当前智能体状态x←x′。重复完成卸载任务或达到最大步长max-action-length次数；

(4.2.4)使用评价网络训练行为网络：