CN114372612B

CN114372612B - 面向无人机移动边缘计算场景的路径规划和任务卸载方法

Info

Publication number: CN114372612B
Application number: CN202111544236.8A
Authority: CN
Inventors: 梅海波; 车畅; 梁楚雄; 孙小博; 刘子歌
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-12-16
Filing date: 2021-12-16
Publication date: 2023-04-28
Anticipated expiration: 2041-12-16
Also published as: CN114372612A

Abstract

本发明公开了面向无人机移动边缘计算场景的路径规划和任务卸载方法，涉及移动边缘计算和深度学习领域，包括S1建立网络场景模型；S2无人机和地面终端信息导入网络场景模型；S3建立深度强化学习网络并初始化；S4求解最优飞行时隙；S5初始化无人机移动边缘计算场景状态；S6执行行为；S7判断飞行是否越界，若是则惩罚、停止飞行并更新状态；S8保存行为、奖励、当前及下一刻状态至样本；S9重复S6至S8；S10计算目标值，更新网络参数；S11重复S4至S10，获得路径规划和任务卸载方法；设计基于深度增强学习的框架，实现深度增强学习和凸优化技术在计算复杂度和计算精度上的权衡与互补，最小化无人机能耗和终端任务完成时间，提升无人机执行地面终端任务能效。

Description

面向无人机移动边缘计算场景的路径规划和任务卸载方法

技术领域

本发明涉及移动边缘计算和深度学习领域，尤其涉及面向无人机移动边缘计算场景的路径规划和任务卸载方法。

背景技术

由无人机提供支持的无线通信是近些年研究的热点，无人机的高灵活性和机动性，使得其辅助的无线网络可以被快速部署。无人机还可以部署在无线网络中作为移动边缘计算服务器，以执行从地面终端卸载的任务，从而地面终端的计算能力和电池寿命可以得到有效的提升。启用无人机的移动边缘计算实际上也可以进行缓存，即将最频繁卸载的任务预存储在本地内存中，以避免在任务卸载期间地面终端向无人机传输冗余数据。

尽管有这些优点，但有三个尚未解决的技术问题阻碍了无人机移动边缘计算有效完成地面终端任务。首先，应在三维环境中正确设计无人机的航迹，以确保每个地面终端都能通过短距离上行链路传输卸载数据。然而，由于地面终端和无人机之间的无线链路受到无人机移动的影响，其轨迹的设计很难实现。其次，应控制无人机飞行时间，使无人机的总体推进能量最小化，同时具有较高的系统能效。鉴于旋翼无人机的推进能量受到多种因素的影响，需要考虑各因素的协同与相互影响。第三，受无人机和地面终端限制链路的影响，部署任务卸载策略，以确保每个地面终端在低延迟下由无人机或地面终端完成任务是很困难的。通常，这三个问题在无人机移动边缘计算系统中相互影响，如何解决联合优化问题，以便于提升无人机执行地面终端任务能效尤为重要。

发明内容

本发明的目的在于为了解决上述问题，设计了一种最小化无人机能耗和任务完成时间的，基于深度强化学习的三维路径规划和任务卸载方法。

本发明通过以下技术方案来实现上述目的：

面向无人机移动边缘计算场景的路径规划和任务卸载方法，其特征在于，包括以下步骤：

S1、建立无人机移动边缘计算的网络场景模型；

S2、收集当前区域内的无人机和地面终端信息，并导入网络场景模型；

S3、建立深度强化学习网络，初始化初始及目标网络参数；

S4、给定无人机飞行路径和地面终端任务卸载信息，利用凸优化方法求解无人机最优飞行时隙；

S5、初始化深度强化学习网络中无人机移动边缘计算场景状态；

S6、根据状态和奖励执行行为；

S7、判断无人机飞行是否越界，若是，进行惩罚、停止飞行并更新状态；

S8、保存行为、奖励、当前及下一刻状态至样本中；

S9、将步骤S6至S8重复固定次数；

S10、在S8获得的样本中，随机选择小样本计算目标值，并通过损失函数更新网络参数；

S11、将步骤S4至S10重复固定次数，获得趋于稳定的路径规划和任务卸载方法。

本发明的有益效果在于：设计基于深度增强学习的框架，具有较低的计算复杂度，因此可以在线实时解决联合优化问题，且凸优化技术还可以使该框架收敛到更高的精度。因此，该方法可以实现深度增强学习和凸优化技术在计算复杂度和计算精度上的权衡与互补，最小化无人机能耗和终端任务完成时间。

附图说明

图1是本发明面向无人机移动边缘计算场景的路径规划和任务卸载方法的流程图；

图2是本发明面向无人机移动边缘计算场景的路径规划和任务卸载方法的场景模型图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明的描述中，需要理解的是，术语“上”、“下”、“内”、“外”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，或者是本领域技术人员惯常理解的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本发明的描述中，还需要说明的是，除非另有明确的规定和限定，“设置”、“连接”等术语应做广义理解，例如，“连接”可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接连接，也可以通过中间媒介间接连接，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

下面结合附图，对本发明的具体实施方式进行详细说明。

本发明提供了一种有效平衡计算复杂度和计算精度，最小化无人机能耗和终端任务完成时间的无人机三维路径规划和任务卸载方法，由系统模型建立、模型转化，求解三个部分组成，如图1所示，具体包括以下步骤：

S1、建立无人机移动边缘计算的网络场景模型，具体为：

在一个无人机被派遣来服务地面终端的三维区域内，该区域被均匀分为多个单元格，第i个单元格的中心的水平坐标为

式中

指所有单元格的水平中心的横坐标集合，x_s和y_s指两个相邻的单元格x及y方向的水平距离。

指无人机在第n时隙的水平位置，式中

其中N指代所有时隙。设置

和

为事先设定的无人机起飞和降落水平中心。

指代无人机在第n时隙的垂直位置。因此空间坐标

和时隙持续时长

可以表征无人机的路径规划。

根据无人机水平飞行速度

恒定的叶翼功率P₀、悬停诱导功率P₁、恒定的下降或上升功率P₂、动叶叶翼速度U_tip、悬停时平均旋翼诱导速度v₀、机身阻力比d₀、转子固体度s、空气密度ρ和转子盘面积G，计算旋翼无人机的推进能量为

建立通信模型。根据地面终端k的上传功率P_k、被分配的通信带宽B、加性高斯白噪声的功率谱密度N₀，计算第k个地面终端在第n时隙的最大上行速率r_kn为

式中l_kn指通信链路损失，由表达式

确定，式中A和C为常数，d_kn和p_kn分别指在第n时隙第k个任务的数据处理量和视距连接概率。

建立任务卸载模型。通过地面终端的CPU处理速率f_g、无人机处理速率f_u、需要计算的CPU周期总数F_k、需要处理的数据总数D_k、第n个时隙中被用于做数据传输的时间窗口的比例α_n及任务卸载指示a_kn，计算第n时隙k任务的数据处理量

S2、收集当前区域内的无人机和地面终端信息，并导入网络场景模型：

收集当前区域内的无人机L、H和地面终端A信息，导入网络场景模型。其中

指示无人机水平位置集合，

指示无人机垂直位置集合，

指示任务卸载方案；

S3、建立深度强化学习网络，初始化初始及目标网络参数：

初始化经验重现缓存F、时隙数N和无人机在每个时隙的飞行时间

初始化最初深度强化学习Q网络的参数θ^Q和目标网络参数Q′(·)，使得θ^Q′-θ^Q；

S4、给定无人机飞行路径和地面终端任务卸载信息，利用凸优化方法求解无人机最优飞行时隙：

给定上一次网络训练中获得的无人机三维空间内L、H和地面终端任务A信息，利用凸优化方法求解无人机最优飞行时隙τ，具体求解凸优化问题及约束为

S5、初始化深度强化学习网络中无人机移动边缘计算场景状态至s(1)；

S6、根据状态和奖励执行行为：

随机选择概率为∈的行为a∈A(s(n))进行执行，否则按照a(n)＝π(s(n))选择行为，π(s(n))指代在状态s(n)时的策略选择。为状态s(n+1)和奖励r(s(n)，a(n))执行行为a(n)；

S7、判断无人机飞行是否越界，若是，进行惩罚、停止飞行并更新状态：

如果无人机飞行超出边界，那么奖励r(s(n)，a(n))＝r(s(n)，a(n))-p，式中p为惩罚，并取消无人机在水平或垂直方向上的飞行，更新至状态s(n+1)；

S8、保存行为、奖励、当前及下一刻状态至样本中，即将样本(s(n)，a(n)，r(·)，s(n+1))存储至经验重现缓存F中；

S9、将步骤S6至S8重复固定次数，以获得多个样本；

S10、在S8获得的样本中，随机选择小样本计算目标值，并通过损失函数更新网络参数：

在缓存F的H个样本中，随机选择一批小样本(s(j)，a(j)，r(j)，s(j+1))，计算目标值

并通过损失函数

更新Q(·)网络权重θ^Q，更新目标网络参数θ^Q′＝σθ^Q+(1-σ)θ^Q′；

本发明的技术方案不限于上述具体实施例的限制，凡是根据本发明的技术方案做出的技术变形，均落入本发明的保护范围之内。

Claims

1.面向无人机移动边缘计算场景的路径规划和任务卸载方法，其特征在于，包括以下步骤：

S1、建立无人机移动边缘计算的网络场景模型；具体包括：

S11、在一个无人机被派遣来服务地面终端的三维区域内，该区域被均匀分为多个单元格，第i个单元格的中心的水平坐标为

式中

指所有单元格的水平中心的横坐标集合，设置x_s和y_s指两个相邻的单元格x及y方向的水平距离；

指无人机在第n时隙的水平位置，式中

其中N指代所有时隙；设置

和

为事先设定的无人机起飞和降落水平中心；

指代无人机在第n时隙的垂直位置；空间坐标

和时隙持续时长

表征无人机的路径规划；

S12、根据无人机水平飞行速度

恒定的叶翼功率P₀、悬停诱导功率P₁、恒定的下降或上升功率P₂、动叶叶翼速度U_tip、悬停时平均旋翼诱导速度υ₀、机身阻力比d₀、转子固体度s、空气密度ρ和转子盘面积G，计算旋翼无人机的推进能量为

S13、根据地面终端k的上传功率P_k、被分配的通信带宽B、加性高斯白噪声的功率谱密度N₀，计算第k个地面终端在第n时隙的最大上行速率r_kn为

式中l_kn指通信链路损失，由表达式

确定，式中A和C为常数，d_kn和p_kn分别指在第n时隙第k个任务的数据处理量和视距连接概率；

S14、通过地面终端的CPU处理速率f_g、无人机处理速率f_u、需要计算的CPU周期总数F_k、需要处理的数据总数D_k、第n个时隙中被用于做数据传输的时间窗口的比例α_n及任务卸载指示α_kn，计算第n时隙k任务的数据处理量

S3、建立深度强化学习网络，初始化初始及目标网络参数；

S6、根据状态和奖励执行行为；

S8、保存行为、奖励、当前及下一刻状态至样本中；

S9、将步骤S6至S8重复固定次数；

2.根据权利要求1所述的面向无人机移动边缘计算场景的路径规划和任务卸载方法，其特征在于，在S2中，收集当前区域内的无人机L、H和地面终端A信息，导入网络场景模型；其中

指示无人机水平位置集合，

指示无人机垂直位置集合，

指示任务卸载方案。

3.根据权利要求2所述的面向无人机移动边缘计算场景的路径规划和任务卸载方法，其特征在于，在S3中，建立基于深度强化学习的神经网络；初始化经验重现缓存F、时隙数N和无人机在每个时隙的飞行时间

初始化最初深度强化学习Q网络的参数θ^Q和目标网络参数θ^Q′，使得θ^Q′＝θ^Q。

4.根据权利要求3所述的面向无人机移动边缘计算场景的路径规划和任务卸载方法，其特征在于，在S4中，给定上一次网络训练中获得的无人机三维空间内L、H和地面终端任务A信息，利用凸优化方法求解无人机最优飞行时隙

具体求解凸优化问题及约束为

5.根据权利要求4所述的面向无人机移动边缘计算场景的路径规划和任务卸载方法，其特征在于，在S5中，初始化无人机移动边缘计算场景至状态s(1)。