CN114896072A

CN114896072A - 基于深度强化学习的无人机辅助移动边缘计算优化方法

Info

Publication number: CN114896072A
Application number: CN202210624096.3A
Authority: CN
Inventors: 鲁霖; 鲁鹏飞; 莫木新
Original assignee: Shenzhen Xinzhongxin Technology Co Ltd
Current assignee: Shenzhen Xinzhongxin Technology Co Ltd
Priority date: 2022-06-02
Filing date: 2022-06-02
Publication date: 2022-08-12

Abstract

本发明提供了一种基于深度强化学习的无人机辅助移动边缘计算优化方法，构造了考虑地面障碍物的多无人机辅助移动边缘计算模型，计算无人机和用户的总能耗，并且考虑了障碍物导致的风险，将风险数字化为风险系数，目标函数为系统总能耗与风险系数之和；以最小化系统总能耗与风险系数之和为目的，建立深度强化学习模型；使用DDPG算法联合优化卸载决策与无人机轨迹；在有效避开地面障碍物并保证用户服务质量的同时，最小化无人机和用户设备总能耗。

Description

基于深度强化学习的无人机辅助移动边缘计算优化方法

技术领域

本发明涉及无人机辅助移动边缘计算技术领域，特别是涉及一种基于深度强化学习的考虑地面障碍物的无人机辅助移动边缘计算卸载决策和轨迹联合优化方法。

背景技术

在过去的十几年里，云计算已经成为了一种新的计算范式。它的愿景是云计算，存储和网络管理的集中化，具体指的是数据中心，骨干IP网络和蜂窝核心网络。然后可以利用云中的大量资源提供弹性计算能力和存储，以支持资源受限的终端用户设备，云计算一直在支持许多互联网公司的快速增长。近年来，随着云的功能越来越靠近网络边缘，计算领域出现了一种新的趋势。据估计，在不久的将来，数以百亿记的边缘设备将被部署，它们的处理器速度将呈指数增长，遵循摩尔定律。收集分布在网络边缘的大量空闲计算能力和存储空间，可以产生足够的能量在移动设备上执行计算密集型和延迟关键型任务。这种模式被称为移动边缘计算(MEC)。虽然长时间的传播延迟仍然是云计算的一个关键缺陷，但是近距离接入的MEC被广泛认为是实现下一代互联网各种愿景的关键技术，例如触觉互联网和物联网。目前，学术界和工业界的研究人员都在积极推广MEC技术，致力于移动计算和无线通信两个学科的技术和理论的融合。

虽然MEC有很多的优点，但是它不能避免地面静态基站的局限性，因此，在任何时间任何地点部署MEC是一个很大的挑战。此外，就如前文所说，地面基础设施在面临自然灾害的时候被毁坏的可能性很大，在山区等地区建造地面基础设施难度大，成本也高。在上述场景下，物联网设备将无法为用户服务。由于无人机的灵活性，无人机辅助的MEC被引入，作为灵活的移动用户的计算服务器，无人机辅助MEC通过在无人机MEC上提供额外的计算资源，可以延长移动设备的工作寿命，加快计算速度，此外，将任务转移到临近的MEC 服务器可以避免移动用户频繁地与云通信或将任务上传到云，从而减轻通信阻塞。

与传统的MEC系统不同，在使用无人机作为MEC服务器时，由于无人机与用户的距离影响用户卸载任务的卸载延迟与卸载能耗，无人机的飞行轨迹将显著影响用户设备端的能耗以及任务处理的延迟。

由于无人机的机载能量有限，同时还要分出一部分为机载MEC服务器提供能量，所以要尽量节约无人机的飞行能耗，但是节约无人机的飞行能耗与降低用户的延迟与能量时矛盾的。想要权衡这两者，在降低用户能耗，延迟的同时尽可能降低无人机的能耗，就必须要对无人机的飞行轨迹进行优化。

因此，亟需一种基于深度强化学习的无人机辅助移动边缘计算优化方法，能够解决现有无人机辅助移动边缘计算中的耗能问题。

发明内容

本发明的目的是提供一种基于深度强化学习的无人机辅助移动边缘计算优化方法，以解决上述现有无人机辅助移动边缘计算中的耗能问题。

为实现上述目的，本发明提供了如下方案：

本发明提供一种基于深度强化学习的无人机辅助移动边缘计算优化方法，包括以下步骤：

S1：构造考虑地面障碍物的多无人机辅助移动边缘计算模型，无人机作为空中边缘计算服务器，为地面的移动用户设备提供服务；

S2：根据S1模型计算系统总能耗，并考虑无人机避障问题，计算出目标函数；

S3：以最小化目标函数为目标，建立深度强化学习模型；

S4：使用深度强化学习算法联合优化卸载决策和无人机轨迹。

优选地，在S1中，构造考虑地面障碍物的多无人机辅助移动边缘计算模型具体为：

在系统模型中，设定在一边长为l_max的方形区域上随机分布着N个用户设备，用户设备集记作

在该方形区域上空有M个无人机以高度H飞行，为地面设备提供服务，无人机集记作

任务周期为T个连续的时隙，

每个时隙的持续时间为Δ；

设定每个用户设备在每个时隙都会产生一个需要执行的任务，采用二元卸载方式定义一个卸载决策变量z_n，m，t＝{0，1}；当z_n，m，t＝1，m≠0时，表示在t时隙，用户n将任务卸载到无人机m；当z_n，m，t＝1，m＝0时，表示在t时隙，用户n在本地执行计算；当z_n，m，t＝0时，表示其他情况；由于任务只能在一个地方执行，所以有

设定用户n在时隙t有一个任务S_n，t需要执行，则

其中D_n，t代表需要处理的数据量，F_n，t代表执行此任务所需要的CPU周期数，T_max表示用户设备最大容忍执行时间；

当时隙的持续时间Δ足够小时，在时隙内无人机的位置看作不变；设定在时隙t中，每个无人机都沿着方向α_m，t∈[0，2π)前进d_m，t∈[0，d^max]距离；则在时隙 t时，无人机m的位置为

其中，0≤X_m，t≤l_max，0≤Y_m，t≤l_max，在时隙t时，无人机m和无人机UAVm’之间的距离为：

为了防止碰撞以及相互干扰，无人机和无人机之间设定最小距离R^u，则有：R_m，m′，t≥R^u；在时隙t时，用户设备n和无人机之间的距离为：

设定无人机有固定的覆盖范围，只有当用户在无人机覆盖范围之内时，用户才能向无人机卸载数据，则有：z_n，m，tR_n，m，t≤R^max；

设定在该方形区域上存在着I个障碍物，记作

障碍物i 的中心位置为：

为了防止无人机撞到这些障碍物，设定一个风险系数

该风险系数表示在t时隙，障碍物i对无人机m存在的风险；设定所有障碍物的风险系数都符合高斯分布，但是不同的障碍物拥有不同的变量σ_i，则得到

其中

优选地，计算系统总能耗以及目标函数具体为：

在t时隙中，无人机m的飞行能耗为：

其中

表示无人机m在t时隙内的飞行速度，

G是无人机的质量；则在t时隙，所有无人机的飞行能耗为：

在t时隙中，当用户设备n决定将任务卸载至无人机m执行时，用户设备和无人机之间的信道增益为：

其中β₀表示参考距离 d₀＝1m时的信道增益；用户设备的卸载速率为：

其中，B是带宽，P_n是用户设备卸载任务的传输功率，σ²是无人机的噪声功率；卸载时间为：

用户设备n产生的卸载能量为：

则在t时隙，所有用户产生的卸载能耗为：

在t时隙中，当用户设备n决定本地执行任务时，用户设备n所产生的本地计算能耗为：

其中，

代表计算任务所需时间， f_n，0，t代表用户设备n的CPU频率，k_n是与处理器芯片有关的正系数；则在t时隙，所有用户设备的本地计算能耗为：

在t时隙中，当用户设备n将任务卸载至无人机m时，无人机m产生的计算能耗为：

其中，

代表计算任务所需的时间，f_n，m，t代表在t时隙无人机m分配给来自用户设备n的任务的CPU频率，k_m是与处理器芯片有关的正系数。在t时隙，所有的无人机计算能耗为：

在t时隙中，所有无人机避障的风险系数为：

综合以上，在一个任务周期内，系统总能耗为：

最终目标函数为：

优选地，在S3中，建立深度强化学习模型具体为：

将该卸载决策和轨迹联合优化问题建模为马尔可夫决策过程<S,A,R>，其中S为系统状态集，A是卸载决策以及轨迹动作集，R是奖励函数集，采用 DDPG算法解决该问题；

状态集

表示所有无人机在t时隙的位置；

动作集

即所有无人机在t时隙的轨迹；

将奖励函数R设为目标函数的负值，即

优逸地，在S4中，使用深度强化学习算法联合优化卸载决策和轨迹具体为：

建立价值函数网络Q和策略函数网络μ，为了稳定学习过程，创建两个价值函数网络：价值函数网络Q(s，a|θ^Q)和目标价值函数网络Q′(s，a|θ^Q′)；创建两个策略函数网络：策略函数网络μ(s|θ^μ)和目标策略函数网络μ′(s|θ^μ′)；引入UO 随机过程作为噪声增加智能体的探索性，行为策略β为策略μ加入OU噪声产生，使用策略β进行环境探索；

初始化价值函数网络参数θ^Q和策略价值网络参数θ^μ，将两个网络参数拷贝给与其相对应的目标价值函数网络和目标策略函数网络，即θ^Q′←θ^Q，θ^μ′←θ^μ，初始化记忆回放库D；

遍历所有的episode，初始化UO随机过程，即噪声N_t，从环境中接收起始状态s₁，对于每个episode，遍历所有步；在状态s_t时，智能体根据行为策略β选择一个a_t，即a_t＝μ(s_t|θ^μ)+N_t；环境执行a_t，得到奖励r_t+1和下一个状态s_t+1；将(s_t，a_t，r_t+1，s_t+1)存储到记忆回放库D中，作为训练网络的数据集；

从记忆回放库D中，随机采样N个(s_i，a_i，r_i+1，s_i+1)作为价值函数网络和策略函数网络的一个mini-batch训练数据；

更新价值函数网络，y_i＝r_i+1+γQ′(s_i+1，μ′(s_i+1|θ^μ′)|θ^Q′)，定义Loss函数为 MSE，

使用梯度下降算法更新价值函数网络的参数θ^Q；

更新策略函数网络，策略梯度为：

使用梯度下降算法更新策略函数网络的参数θ^μ；

软更新目标价值函数网络和目标策略函数网络的参数θ^Q′，θ^μ′，其中，θ^Q′←τθ^Q+(1-τ)θ^Q′，θ^μ′←τθ^μ+(1-τ)θ^μ′；

不断更新价值函数网络和策略函数网络，最终会收敛至最优策略，使用收敛了的策略函数网络即获得最优的卸载决策和轨迹联合优化方案。

本发明相对于现有技术取得了以下有益技术效果：

1、本发明提供的基于深度强化学习的无人机辅助移动边缘计算优化方法，构造了考虑地面障碍物的多无人机辅助移动边缘计算模型，计算无人机和用户的总能耗，并且考虑了障碍物导致的风险，将风险数字化为风险系数，目标函数为系统总能耗与风险系数之和。

2、本发明提供的基于深度强化学习的无人机辅助移动边缘计算优化方法，以最小化系统总能耗与风险系数之和为目的，建立深度强化学习模型。

3、本发明提供的基于深度强化学习的无人机辅助移动边缘计算优化方法，使用DDPG算法联合优化卸载决策与无人机轨迹。

该基于深度强化学习的考虑地面障碍物的无人机辅助移动边缘计算卸载决策和轨迹联合优化方法，在有效避开地面障碍物并保证用户服务质量的同时，最小化无人机和用户设备总能耗。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的基于深度强化学习的无人机辅助移动边缘计算优化方法流程图；

图2为本发明中多无人机为多用户提供移动边缘计算服务的场景图；

图3为本发明中所经历episode次数与奖励reward之间的关系；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种基于深度强化学习的无人机辅助移动边缘计算优化方法，以解决现有无人机辅助移动边缘计算中的耗能问题。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1：

本实施例提供一种基于深度强化学习的无人机辅助移动边缘计算优化方法，如图1-3所示，包括以下步骤：

S3：以最小化目标函数为目标，建立深度强化学习模型；

具体地，在S1中，构造考虑地面障碍物的多无人机辅助移动边缘计算模型具体为：

任务周期为T个连续的时隙，

每个时隙的持续时间为Δ；

设定每个用户设备在每个时隙都会产生一个需要执行的任务，采用二元卸载方式定义一个卸载决策变量z_n，m，t＝{0，1}，即任务要么在用户设备执行，要么卸载到无人机移动边缘计算服务器上执行；当z_n，m，t＝1，m≠0时，表示在t时隙，用户n将任务卸载到无人机m；当z_n，mt＝1，m＝0时，表示在t时隙，用户n在本地执行计算；当z_n，m，t＝0时，表示其他情况；由于任务只能在一个地方执行，所以确

设定用户n在时隙t有一个任务S_n，t需要执行，则

设定在该方形区域上存在着I个障碍物，记作

障碍物i 的中心位置为：

为了防止无人机撞到这些障碍物，设定一个风险系数

该风险系数表示在t时隙，障碍物i对无人机m存在的风险；设定所有障碍物的风险系数都符合高斯分布，但是不同的障碍物拥有不同的变量σi，则得到

其中

进一步地，在S2中，计算系统总能耗以及目标函数具体为：

系统总能耗主要包括四个部分：无人机飞行能耗；当用户设备选择将任务卸载至无人机执行时，用户设备产生的卸载能耗；当用户设备选择本地执行时，用户设备产生的本地计算能耗；当用户设备选择将任务卸载至无人机执行时，无人机产生的无人机计算能耗；

在t时隙中，无人机m的飞行能耗为：

其中

表示无人机m在t时隙内的飞行速度，

G是无人机的质量；则在t时隙，所有无人机的飞行能耗为：

用户设备n产生的卸载能量为：

则在t时隙，所有用户产生的卸载能耗为：

其中，

其中，

在执行任务的同时，无人机还需要考虑避障问题，因此，需要在最终目标函数里添加危险系数；在t时隙中，所有无人机避障的风险系数为：

综合以上，在一个任务周期内，系统总能耗为：

最终目标函数为：

进一步地，在S3中，建立深度强化学习模型具体为：

状态集

表示所有无人机在t时隙的位置；

动作集

即所有无人机在t时隙的轨迹；

将奖励函数R设为目标函数的负值，即

进一步地，在S4中，使用深度强化学习算法联合优化卸载决策和轨迹具体为：

从记忆回放库D中，随机采样N个(s_i，α_i，r_i+1，s_i+1)作为价值函数网络和策略函数网络的一个mini-batch训练数据；

更新价值函数网络，y_i＝r_i+1+γQ′(s_i+1，μ′(s_t+1|θ^μ′)|θ^Q′)，定义Loss函数为 MSE，

使用梯度下降算法更新价值函数网络的参数θ^Q；

更新策略函数网络，策略梯度为：

使用梯度下降算法更新策略函数网络的参数θ^μ；

本发明应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上，本说明书内容不应理解为对本发明的限制。

Claims

1.基于深度强化学习的无人机辅助移动边缘计算优化方法，其特征在于：包括以下步骤：

S3：以最小化目标函数为目标，建立深度强化学习模型；

2.根据权利要求1所述的基于深度强化学习的无人机辅助移动边缘计算优化方法，其特征在于：在S1中，构造考虑地面障碍物的多无人机辅助移动边缘计算模型具体为：

任务周期为T个连续的时隙，

每个时隙的持续时间为Δ；

设定用户n在时隙t有一个任务S_n，t需要执行，则

当时隙的持续时间Δ足够小时，在时隙内无人机的位置看作不变；设定在时隙t中，每个无人机都沿着方向α_m，t∈[0，2π)前进d_m，t∈[0，d^max]距离；则在时隙t时，无人机m的位置为

设定在该方形区域上存在着I个障碍物，记作

障碍物i的中心位置为：

为了防止无人机撞到这些障碍物，设定一个风险系数

其中

3.根据权利要求1所述的基于深度强化学习的无人机辅助移动边缘计算优化方法，其特征在于：在S2中，计算系统总能耗以及目标函数具体为：

在t时隙中，无人机m的飞行能耗为：

其中

表示无人机m在t时隙内的飞行速度，

G是无人机的质量；则在t时隙，所有无人机的飞行能耗为：

其中β₀表示参考距离d₀＝1m时的信道增益；用户设备的卸载速率为：

用户设备n产生的卸载能量为：

则在t时隙，所有用户产生的卸载能耗为：

其中，

代表计算任务所需时间，f_n，0，t代表用户设备n的CPU频率，k_n是与处理器芯片有关的正系数；则在t时隙，所有用户设备的本地计算能耗为：

其中，

在t时隙中，所有无人机避障的风险系数为：

综合以上，在一个任务周期内，系统总能耗为：

最终目标函数为：

4.根据权利要求1所述的基于深度强化学习的无人机辅助移动边缘计算优化方法，其特征在于：在S3中，建立深度强化学习模型具体为：

将该卸载决策和轨迹联合优化问题建模为马尔可夫决策过程<S,A,R>，其中S为系统状态集，A是卸载决策以及轨迹动作集，R是奖励函数集，采用DDPG算法解决该问题；

状态集

表示所有无人机在t时隙的位置；

动作集

即所有无人机在t时隙的轨迹；

将奖励函数R设为目标函数的负值，即

5.根据权利要求1所述的基于深度强化学习的无人机辅助移动边缘计算优化方法，其特征在于：在S4中，使用深度强化学习算法联合优化卸载决策和轨迹具体为：

建立价值函数网络Q和策略函数网络μ，为了稳定学习过程，创建两个价值函数网络：价值函数网络Q(s，a|θ^Q)和目标价值函数网络Q′(s，a|θ^Q′)；创建两个策略函数网络：策略函数网络μ(s|θ^μ)和目标策略函数网络μ′(s|θ^μ′)；引入UO随机过程作为噪声增加智能体的探索性，行为策略β为策略μ加入OU噪声产生，使用策略β进行环境探索；

更新价值函数网络，y_i＝r_i+1+γQ′(s_i+1，μ′(s_i+1|θ^μ′)|θ^Q′)，定义Loss函数为MSE，

使用梯度下降算法更新价值函数网络的参数θ^Q；

更新策略函数网络，策略梯度为：

使用梯度下降算法更新策略函数网络的参数θ^μ；