CN117221951A

CN117221951A - 车载边缘环境下基于深度强化学习的任务卸载方法

Info

Publication number: CN117221951A
Application number: CN202311217434.2A
Authority: CN
Inventors: 朱夏; 石伟; 陈龙
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2023-09-20
Filing date: 2023-09-20
Publication date: 2023-12-12

Abstract

本发明公开了一种车载边缘环境下基于深度强化学习的任务卸载方法，包括预处理阶段、解决方案阶段及卸载决策阶段，首先构建车载边缘网络系统架构，根据车载边缘网络系统架构建立通信、计算模型以及目标优化；再根据系统的动态性，对车辆调度、资源分配和任务卸载进行联合优化，优化过程被表述为马尔可夫决策过程(MDP)，开发强化学习框架，并根据强化学习框架构建和设置基于PA‑TODM‑DDPG的深度强化学习模型；最后使用训练好的PA‑TODM‑DDPG求解最优卸载策略。本发明将车辆移动性、时变信道状态、任务卸载决策和资源分配的混合动作空间要求进行联合考虑，从减少系统成本的角度考虑可分割的独立车载任务卸载问题，通过联合优化系统能耗和总体时延降低系统总成本。

Description

车载边缘环境下基于深度强化学习的任务卸载方法

技术领域

本发明属于车联网及移动边缘计算的技术领域，主要涉及了一种车载边缘环境下基于深度强化学习的任务卸载方法。

背景技术

车联网(Internet of Vehicles，IoV)是将传统的车辆自组织网络和车辆远程信息处理相结合的新范式，其可以有效地改善车辆服务并增强车辆的能力。在IoV中，智能车辆能够运行各种应用，例如碰撞警告，自动驾驶和自动导航等。车载智能应用不仅需要大量的计算资源和存储资源，而且还具有严格的延迟要求。为此，一种新的联网范例，车载边缘计算(Vehicular Edge Computing，VEC)应运而生。

车载边缘计算技术将车辆、边缘计算、云计算三者相结合，充分发挥了边缘计算和云计算两者的优势。VEC在路边节点单元(Roadside Unit，RSU)中部署具有计算和存储功能的移动边缘服务器(MobileEdge Computing，MEC)，这使得车载应用不仅能够卸载到云服务器同时还能够卸载到通信范围内的RSU进行处理，其提供了更强大的计算和通信能力，解决了资源、数据共享、实时性以及数据隐私安全方面的限制。此外，利用边缘计算服务器的开放接口，还能更灵活地部署车联网服务应用，车载边缘计算现已成为车联网研究中的热门话题。

车载边缘环境下基于深度强化学习的任务卸载方法，许多研究者已提出不同的方法，现有的方法主要有凸优化/非凸优化等传统智能优化算法以及强化学习算法两类。然而，在VEC环境中，计算卸载的研究对象是车辆，而车辆的移动性会导致网络拓扑结构的动态变化。传统的凸优化算法或启发式算法不适用于车辆，资源和信道状态的动态变化的车辆网络。同时，当前针对车载边缘计算的任务卸载的强化学习算法大多只考虑0-1类型独立任务，没有考虑到任务可分割的情况。并且，尽管基于DQN或DDPG的强化学习算法能够解决动态计算卸载的挑战，但对于如综合考虑任务卸载决策以及资源分配等混合动作空间的问题，仍然不能够很好处理。

发明内容

本发明正是针对现有技术中的问题，提供一种车载边缘环境下基于深度强化学习的任务卸载方法，包括预处理阶段、解决方案阶段及卸载决策阶段，首先构建车载边缘网络系统架构，并根据车载边缘网络系统架构建立通信、计算模型以及目标优化问题；再根据系统的动态性，对车辆调度、资源分配和任务卸载进行联合优化，所述优化过程被表述为马尔可夫决策过程(MDP)，开发强化学习框架，并根据强化学习框架构建和设置基于PA-TODM-DDPG的深度强化学习模型；最后使用训练好的PA-TODM-DDPG求解最优卸载策略，完成卸载。本发明将车辆移动性、时变信道状态、任务卸载决策和资源分配的混合动作空间要求进行联合考虑，从减少系统成本的角度考虑可分割的独立车载任务卸载问题，通过联合优化系统能耗和总体时延降低系统总成本。

为了实现上述目的，本发明采取的技术方案是：车载边缘环境下基于深度强化学习的任务卸载方法，包括预处理阶段、解决方案阶段及卸载决策阶段：

A.预处理阶段：构建车载边缘网络系统架构，并根据车载边缘网络系统架构建立通信、计算模型以及目标优化问题；

B.解决方案阶段：根据系统的动态性，对车辆调度、资源分配和任务卸载进行联合优化，所述优化过程被表述为马尔可夫决策过程(MDP)，开发强化学习框架，并根据强化学习框架构建和设置基于PA-TODM-DDPG的深度强化学习模型；

C.卸载决策阶段：使用训练好的PA-TODM-DDPG求解最优卸载策略，完成卸载。

作为本发明的一种改进，所述预处理阶段中，车载边缘网络系统架构包括车辆层、边缘层和云层；其中，

所述车辆层包括道路上配备有有限计算资源的用户车辆，每个车辆与基站和路边单元进行通信；

所述边缘层由部署在地图的不同区域中的路边节点组成，所述路边节点包括具有有限信号覆盖范围能力的RSU和连接到具有计算和存储资源的RSU的移动的边缘计算服务器；

所述云层指云服务层，包括通过有线链路连接到基站的高性能计算资源，提供资源支持。

作为本发明的另一种改进，所述预处理阶段的通信、计算模型中，任务Ti在时隙t中的延迟包括两个部分，移动边缘服务器上的传输延迟和执行延迟；其中，任务T_i的传输延迟为：

其中，θ_i(t)是任务T_i在时隙t中的卸载比例，V_i，j(t)是从车辆i到连接的移动边缘服务器j的数据传输速率，D_i(t)表示任务大小；

对于卸载到移动边缘服务器的任务，执行延迟为：

其中，C_i(t)表示任务的计算复杂度，f_mec表示移动边缘服务器核的处理能力；

云服务器上传输和执行延迟可以表示为：

其中，V_i，c(t)表示车辆i到云服务器的传输速率，f_cloud表示车辆的本地执行能力。

作为本发明的另一种改进，所述预处理阶段的目标优化问题包括如下约束：

s.t.C1：max{T_i ^local(t)，T_i ^offload}≤「_i(t)

C2

C3

C4

C5α(t)+β(t)＝1

C6θ_i(t)∈[0，1]

C7α(t)∈[0，1]，β(t)∈[0，1]

C8 a_i，j(t)∈{0，1}，b_i(t)∈{0，1}

其中，C1是延迟约束，其意味着任务等待时间不能超过最大容许延迟；C2和C8是卸载约束，其指示任务T_i必须被卸载到云或移动边缘服务器；C3是移动边缘服务器核心约束；C4是计算约束，要求所有计算任务在整个时间段内完成；C5和C7是权重系数约束；C6为卸载比例约束，表示卸载比例的取值范围。

作为本发明的又一种改进，所述解决方案阶段具体包括如下步骤：

B1.提出车载边缘计算系统强化学习框架，所述学习框架表示智能代理车辆和环境之间的相互作用，相互作用的过程抽象和建模为马尔可夫决策过程(MDP)，其中代理的动作和环境的状态遵循马尔可夫属性；

B2.定义马尔可夫过程，至少包括状态空间、动作空间和奖励方程，其中，

所述状态空间包括车辆的位置信息、欧打破迷关移动边缘服务器的位置信息、资源信息、任务大小以及计算复杂度信息：

所述动作空间包括卸载决策和卸载比例两个动作：

a_t＝{O₁(t)，...，O_n(t)；θ₁(t)，...，θ_n(t)}

其中，O_i(t)＝1/0表示是否卸载到MEC或云服务器中执行，θ_i(t)∈[0，1]表示卸载比例；

所述奖励方程与最小化系统成本的优化目标一致：

其中α(t)和β(t)表示时隙t的时延和能耗的权重因子，T_i(t)和E_i(t)分别是任务T_i的总体时延和能耗。

B3.构建和训练基于PA-TODM-DDPG的深度强化学习模型。

作为本发明的又一种改进，所述卸载决策阶段具体包括如下步骤：

C11：获取系统当前状态集合s_t；

C12：状态归一化处理，消除状态的维度差异；

C13：根据归一化后的状态集合代理执行动作/>

C14：输出奖励r_t，增加到系统成本；

C15：重复步骤C11至C14直到系统任务全部完成。

作为本发明的又一种改进，所述步骤C12具体包括如下步骤：

C121：使用比例因子λ₁，λ₂对剩余任务数据大小D_remain(t)和坐标信息p(t)，q_i(t)进行归一化处理：

C122：使用最小-最大归一化方法对任务数据大小和复杂度进行归一化：

每个时隙的任务数据量和复杂性的上下边界分别由变量Min_D、Min_C、Max_D和Max_C表示；

C123：返回归一化状态

与现有技术相比，本发明具有的有益效果：本发明提出了一种车载边缘网络系统架构，综合考虑了车辆的移动性，信道的时变性以及云服务和边服务器的计算与通信资源的异构性；在任务层面上考虑到了任务的可分割情况，在优化目标上联合优化了系统能耗以及总体时延的系统成本；同时，本发明构建了PA-TODM-DDPG强化学习模型，并通过训练模型得到训练后的PA-TODM-DDPG代理模型；最后，使用训练后的PA-TODM-DDPG代理模型来求解卸载策略。因此，采用本发明可以有效的解决云-边-车协同下的卸载决策以及资源分配等混合动作空间下的车载任务卸载问题，并在保证卸载决策的同时，减少系统成本。

附图说明

图1为本发明车载边缘环境下基于深度强化学习的任务卸载方法的步骤流程图；

图2是本发明方法步骤S1中车载边缘网络系统架构的示意图；

图3是本发明的VEC系统强化学习框架模型示意图；

图4是本发明的PA-TODM-DDPG代理模型与系统环境交互流程示意图。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

实施例1

一种车载边缘环境下基于深度强化学习的任务卸载方法，如图1所示，包括以下阶段：

A1.构建车载边缘网络系统架构：

图2为所提出车载边缘网络系统架构，如图2所示，该架构由三层组成：车辆层、边缘层和云层；车辆层包括道路上配备有有限计算资源的用户车辆；每个车辆可以通过5G/LTE技术或专用无线接口(IEEE 802.11p)与基站(BS)和路边单元(RSU)进行通信；边缘层由部署在地图的不同区域中的路边节点(RSN)组成；这些RSN包括具有有限信号覆盖范围能力的RSU和连接到具有计算和存储资源的RSU的移动的边缘计算服务器(MEC)；云层代表云服务层，包括通过有线链路连接到基站的高性能计算资源，能提供必要的资源支持；整个系统在具有相等时隙间隔的离散时间中操作；在每个时隙中，MEC可以与其覆盖区域内的车辆建立通信；基站的覆盖范围足够大，云服务器可以为所有车辆提供服务，并且车辆做匀速运动；对于不在MEC覆盖范围内的车辆，其任务需要在云上执行；车辆可以由N＝{1，2，...，n}表示，路边单元(RSU)的集合是K＝{1，2，...，k}；车辆i的任务为其中D_i表示任务的大小，C_i表示任务的计算复杂度，「_i表示任务的截止期；

A2.根据车载边缘系统的任务卸载架构建立通信、计算模型：

在VEC系统中，系统以时分方式给所有车辆提供服务，通信周期被划分为T个时隙，并且每个车辆被分配用于数据传输的特定时隙；车辆与MEC服务器之间的连接受到信号覆盖范围的限制；在我们的VEC系统中，MEC服务器j的位置是固定的并且可以由坐标表示其中信号的覆盖半径是r_j；在时隙t中，车辆i的位置可以表示为车辆在时隙t以恒定速度和恒定方向移动，车辆i在Δt时间间隔之后的位置可以表示为/> 其中v_i(t)是车辆i的速度，d_i(t)表示移动方向；车辆i到MEC服务器j的信道增益为：

其中α₀表示参考距离d＝1m处的信道增益，并且dist表示车辆i与MEC服务器j的欧几里得距离，在给定时隙t内，可以使用香农公式来确定从车辆i到连接的MEC服务器j的数据传输速率：

其中表示表示可用于MEC服务器j的上行链路信道的总带宽，I(t)表示在特定时隙t期间卸载到MEC服务器j的任务的数量，p_up对应于车辆i的传输功率，而g_i，j(t)表示车辆i与MEC服务器j之间的信道增益，σ²表示通信信道中的噪声的功率，P_Loss是表示传输损耗，f_i，j(t)是信号阻塞的标志；

车辆i到云服务器的传输速率为：

其中，B^cloud表示云服务器的带宽，σ²是噪声功率，p_up是车辆i的传输功率，并且g_c表示车辆与云服务器之间的信道增益。

在VEC系统中使用部分卸载策略，其中对于每个时隙t，由车辆产生的计算任务是可分割的。θ_i(t)是任务T_i在时隙t中的卸载比例，1-θ_i(t)是要在本地终端执行的任务的比例；

本地计算时延为：

其中C_i(t)表示计算复杂度，并且f_local是车辆的本地执行能力，车辆i的本地能量消耗为：

其中P_local表示本地计算能耗功率；

由于与任务数据本身相比任务执行完结果数据的大小显著更小，因此可以忽略反馈延迟；MEC服务器配备有I个核，并且每个核具有表示为f_mec的相同处理能力，当在时隙t中卸载到MEC的任务的数量超过可用核的数量时，剩余的任务需要被卸载到云以供执行；任务T_i在时隙t中的延迟可以被分成两个部分：MEC服务器上的传输延迟和执行延迟，任务T_i的传输延为：

对于卸载到MEC服务器的任务，执行延迟为：

车辆将任务卸载到MEC的总延迟和能量消耗可以表示为：

云服务器上传输和执行延迟可以表示为：

云服务器上的任务T_i的总延迟和能量消耗：

任务的卸载部分的总延迟和能量消耗表示为：

其中a_i，j(t)表示任务T_i是否被卸载到服务器j中执行，如果是，则值为1，否则为0，b_i(t)表示任务Ti是否被卸载到云服务器中执行；时隙t内任务T_i的总时延和能耗可以表示为：

A3.根据任务卸载的目标及系统信息设定约束条件，在约束条件下确立目标优化问题：

本方法将系统总成本定义为用户服务成本与系统能耗的加权和。对于时隙t，用户服务成本被定义为所有任务在时隙内完成的总等待时间；

因而，优化问题可以表示为：

s.t.C1：max{T_i ^local(t)，T_i ^offload}≤「_i(t)

C2

C3

C4

C5α(t)+β(t)＝1

C6θ_i(t)∈[0，1]

C7α(t)∈[0，1]，β(t)∈[0，1]

C8 a_i，j(t)∈{0，1}，b_i(t)∈{0，1}

其中C1是延迟约束，其意味着任务等待时间不能超过最大容许延迟；C2和C8是卸载约束，其指示任务T_i必须被卸载到云或MEC服务器；C3是MEC服务器核心约束；C4是计算约束，要求所有计算任务在整个时间段内完成；C5和C7是权重系数约束；C6为卸载比例约束，表示卸载比例的取值范围。

B.解决方案阶段：考虑系统的动态性，对车辆调度、资源分配和任务卸载进行联合优化。将优化过程被表述为马尔可夫决策过程(MDP)，开发相应的强化学习框架。并根据强化学习框架构建和设置基于PA-TODM-DDPG的深度强化学习模型；所述解决方案阶段中包括以下步骤：

B1.将VEC的所有车辆视作一个集中控制的代理，其可以根据全局信息和系统的环境状态作出有效的卸载决策：

图3为所提出的VEC系统强化学习框架模型，所描述的模型表示智能代理车辆和环境之间的相互作用；在每个时隙t，代理观察状态s_t并基于训练的策略π_t选择动作a_t，在选择动作a_t之后，环境的状态s_t基于环境的动态转变到s_t+1，然后，智能代理车辆接收与转换相关联的即时奖励r_t；这个过程可以抽象和建模为马尔可夫决策过程(MDP)，其中代理的动作和环境的状态遵循马尔可夫属性。

B2.定义马尔可夫过程，包括状态空间、动作空间、奖励方程等重要元素，其中状态空间要包括车辆的位置信息、MEC服务器的位置信息、资源信息、任务大小以及计算复杂度信息：

s_t＝{D_remain(t)，request(t)，p(t)，q₁(t)，…，q_n(t)，D₁(t)，...，D_n(t)，C₁(t)，...，C_n(t)}

动作空间要包括卸载决策和卸载比例两个动作：

a_t＝{O₁(t)，...，O_n(t)；θ₁(t)，...，θ_n(t)}

奖励方程与最小化系统成本的优化目标一致：

B3.构建和训练基于PA-TODM-DDPG的深度强化学习模型：

图4是本发明的PA-TODM-DDPG代理模型与系统环境交互流程示意图；构建和训练基于PA-TODM-DDPG的深度强化学习模型的步骤如下：

B301：分别初始化所述设定后的PA-TODM-DDPG代理模型中在线网络和目标网络参数，actor和critic的在线策略网络参数分别用θ^μ和θ^Q表示，actor的在线策略网络根据当前状态s_t产生当前动作a_t，动作a_t作用于当前状态s_t，critic的在线策略网络计算当前Q值Q(s_t，a_t)，Q值用来衡量选择动作的优劣；

Actor和critic的目标策略网络参数分别用θ^μ′和θ^Q′表示，actor的目标策略网络负责从经验回放池中选择动作以及更新网络参数θ^μ′，critic的目标策略网络负责计算Q值Q′；

B302：Actor网络根据行为策略β选择一个动作a_t，并将其发送到VEC环境执行；其中，行为策略β是指导环境在训练阶段执行动作的策略，通过在行动决策机制中引入噪声，可以同时考虑探索和开发，从而探索潜在的优政策，策略μ(s_t|θ^μ)为前一阶段在线策略网络的输出；

这里动作a_t为参数化动作，根据步骤B2的动作空间，a_t由离散动作O_i(t)以及动作参数θ_i(t)组成，在线策略网络根据当前时刻状态集合s_t以及策略μ(s_t|θ^μ)输出所有离散动作O_i(t)以及对应的动作参数θ_i(t)，组成动作集合；取O_i(t)最大值对应的离散动作，同时选择动作集合中的参数θ_i(t)，通过加入行为噪声产生新的动作集合：

B303：VEC环境的代理执行动作a_t并返回瞬时奖励r_t和新环境状态s_t+1；

B304：Actor网络将状态转换过程(s_t，a_t，r_t，S_t+1)存储在经验回放池，作为训练在线网络的数据集；

B305：从经验回放池中随机抽取N个迁移数据作为两个在线网络的小批量训练数据；

B306：Critic的目标策略网络根据Actor的目标策略网络输出的动作μ′(s_i+1)和来自小批量的转换数据计算标签值yi：

y_i＝r_i+γQ′(s_i+1,μ′(s_i+1|θ^μ′)|θ^Q′)

Critic的在线策略网络通过神经网络中的反向传播方法，利用损失函数L(θ^Q)计算梯度

B307：更新critic的在线策略网络的参数θ^Q：

其中α是由梯度下降算法确定的每参数步长；

B308：Critic的在线策略网络根据actor的在线策略网络的动作a＝μ(s_i)计算梯度。然后，actor的在线策略网络计算策略梯度：

B309：更新actor的在线策略网络的参数θ^μ：

B310：对两个目标策略网络的参数θ^μ′和θ^Q′进行软更新。

θ^Q′＝τθ^Q+(1-τ)θ^Q′

θ^μ′＝τθ^μ+(1-τ)θ^μ′

τ∈[0，1]是软更新因子。

C.卸载决策阶段：使用训练好的PA-TODM-DDPG求解最优卸载策略。所述卸载阶段包括以下步骤：

C11：获取系统当前状态集合s_t；

C12：状态归一化处理，消除状态的维度差异；

C13：根据归一化后的状态集合代理执行动作/>

C14：输出奖励r_t，增加到系统成本；

C15：重复C11至C14直到系统任务全部完成。

所述C12步骤根据所获取状态集合的不同范围的状态参数进行了归一化处理，包含以下步骤：

C123：返回归一化状态

综上，本发明制定卸载决策时充分考虑到车辆的移动性、以及云服务和边缘服务器的资源异构性，使用参数化动作空间、能够同时使用离散动作和连续动作，通过综合考虑任务卸载决策以及任务卸载比例来降低系统成本。

需要说明的是，以上内容仅仅说明了本发明的技术思想，不能以此限定本发明的保护范围，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰均落入本发明权利要求书的保护范围之内。

Claims

1.车载边缘环境下基于深度强化学习的任务卸载方法，其特征在于，包括预处理阶段、解决方案阶段及卸载决策阶段：

2.如权利要求1所述的车载边缘环境下基于深度强化学习的任务卸载方法，其特征在于：所述预处理阶段中，车载边缘网络系统架构包括车辆层、边缘层和云层；其中，

3.如权利要求2所述的车载边缘环境下基于深度强化学习的任务卸载方法，其特征在于：所述预处理阶段的通信、计算模型中，任务T_i在时隙t中的延迟包括两个部分，移动边缘服务器上的传输延迟和执行延迟；其中，任务T_i的传输延迟为：

其中，θ_i(t)是任务T_i在时隙t中的卸载比例，V_i,j(t)是从车辆i到连接的移动边缘服务器j的数据传输速率，D_i(t)表示任务大小；

对于卸载到移动边缘服务器的任务，执行延迟为：

云服务器上传输和执行延迟可以表示为：

其中，V_i,c(t)表示车辆i到云服务器的传输速率，f_cloud表示车辆的本地执行能力。

4.如权利要求3所述的车载边缘环境下基于深度强化学习的任务卸载方法，其特征在于：所述预处理阶段的目标优化问题包括如下约束：

s.t.C1:max{T_i ^local(t),T_i ^offload}≤Γ_i(t)

C5 α(t)+β(t)＝1

C6 θ_i(t)∈[0,1]

C7 α(t)∈[0,1],β(t)∈[0,1]

C8 a_i,j(t)∈{0,1},b_i(t)∈{0,1}

5.如权利要求1所述的车载边缘环境下基于深度强化学习的任务卸载方法，其特征在于：所述解决方案阶段具体包括如下步骤：

所述动作空间包括卸载决策和卸载比例两个动作：

a_t＝{O₁(t),…,O_n(t)；θ₁(t),…,θ_n(t)}

其中,O_i(t)＝1/0表示是否卸载到MEC或云服务器中执行，θ_i(t)∈[0,1]表示卸载比例；

所述奖励方程与最小化系统成本的优化目标一致：

其中α(t)和β(t)表示时隙t的时延和能耗的权重因子，T_i(t)和E_i(t)分别是任务T_i的总体时延和能耗；

B3.构建和训练基于PA-TODM-DDPG的深度强化学习模型。

6.如权利要求5所述的车载边缘环境下基于深度强化学习的任务卸载方法，其特征在于：所述卸载决策阶段具体包括如下步骤：

C11:获取系统当前状态集合s_t；

C12:状态归一化处理，消除状态的维度差异；

C13:根据归一化后的状态集合代理执行动作/>

C14:输出奖励r_t，增加到系统成本；

C15:重复步骤C11至C14直到系统任务全部完成。

7.如权利要求6所述的车载边缘环境下基于深度强化学习的任务卸载方法，其特征在于，所述步骤C12具体包括如下步骤：

C121:使用比例因子λ₁,λ₂对剩余任务数据大小D_remain(t)和坐标信息p(t),q_i(t)进行归一化处理：

C122:使用最小-最大归一化方法对任务数据大小和复杂度进行归一化:

C123:返回归一化状态