CN114520991A

CN114520991A - 基于无人机集群的边缘网络自适应部署方法

Info

Publication number: CN114520991A
Application number: CN202210100522.3A
Authority: CN
Inventors: 鲍宁海; 高鹏雷; 陈奎
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-01-27
Filing date: 2022-01-27
Publication date: 2022-05-20
Anticipated expiration: 2042-01-27
Also published as: CN114520991B

Abstract

本发明请求保护一种基于无人机集群的边缘网络自适应部署方法，属于通信技术领域。针对地面网络设施受损或故障，导致边缘网络资源缺失的问题，提出一种面向地面移动用户的无人机边缘节点自适应部署方法。根据各无人机的有效覆盖范围、地面用户位置分布以及任务卸载需求，采用深度强化学习方法自适应规划无人机集群的巡航轨迹，并动态调整用户的卸载任务调度，最大化巡航过程中的用户连通性和机载资源利用率，有效降低平均任务卸载时延。

Description

基于无人机集群的边缘网络自适应部署方法

技术领域

本发明属于通信技术领域，具体涉及一种基于无人机集群的边缘网络自适应部署方法。

背景技术

无人机作为下一代网络的重要组成部分，在应对复杂场景下的应急通信问题具有显著优势。当地面网络设施遭受破坏或出现故障时，可利用无人机快速建立低空边缘网络平台，有效地为地面移动用户提供必要的通信与计算服务。由于地面移动用户的分布与任务卸载请求具有明显的动态时变特征，低空无人机网络的资源部署也应具备自适应动态调整的能力。近年来，机器学习技术迅速发展，为解决无人机的移动性问题提供了新的途径。机器学习算法能够根据无人机当前的用户分布，无人机自身位置信息自适应巡航，有效解决无人机的路径规划问题。

本发明针对地面网络设施受损或故障，导致边缘网络资源缺失的问题，提出一种面向地面移动用户的无人机边缘节点自适应部署方法。根据各无人机的有效覆盖范围、地面用户位置分布以及任务卸载需求，采用深度强化学习方法自适应规划无人机集群的巡航轨迹，并动态调整用户的卸载任务调度，最大化巡航过程中的用户连通性和机载资源利用率，有效降低平均任务卸载时延。

发明内容

本发明旨在解决以上现有技术的问题。提出一种基于无人机集群的边缘网络自适应部署方法。本发明的技术方案如下：

一种基于无人机集群的边缘网络自适应部署方法，其具体包括以下步骤：

101、设立无人机集群I＝{i}，地面用户集J＝{j}，i、j分别表示无人机i和用户j，将无人机集群巡航时间离散为时隙，设立时隙变量k，构造无人机集群与用户状态向量s_k、无人机集群动作向量a_k、无人机集群动作收益函数r_k，其中，s_k，a_k，r_k均随时隙数k的增加发生相应的转移和变化，初始化时隙变量k＝0；

102、在无人机集群控制智能体中，基于双延时深度确定性策略梯度算法思想构建深度强化学习模型，包括无人机集群巡航动作发生模块、无人机集群动作评估模块、无人机集群动作扰动模块、环境参数采集模块、无人机集群机载资源分配与任务卸载调度模块、无人机集群动作收益模块、经验样本存储池、样本集随机抽样模块；

103、令k＝k+1，如果无人机集群I在连续n个时隙内未发生三维坐标位置变化，跳转到步骤106，否则，根据每架无人机i的有效覆盖范围及剩余可用计算资源，确定每架无人机i的用户对象集J_i，从而获得无人机集群I的用户对象集{J_i}，通过无人机集群机载资源分配与任务卸载调度模块，获得用户集J的任务卸载决策变量集

其中

为k时隙用户j卸载到无人机i的任务量，跳转到104；

104、根据

执行用户任务卸载，通过无人机集群动作收益模块获得相应的收益r_k，通过无人机集群巡航动作发生模块和无人机集群动作扰动模块获得k时隙无人机集群三维动作向量a_k，根据k时隙无人机集群与用户状态向量s_k和无人机集群三维动作向量a_k计算获得s_k+1，将[s_k,a_k,r_k,s_k+1]存入经验样本存储池；

105、通过样本集随机抽样模块从经验样本存储池中获得随机样本集X，并将X分别输入无人机集群巡航动作发生模块、无人机集群动作评估模块进行学习训练，跳转到103；

106、算法结束。

进一步的，所述步骤101中构造k时隙无人机集群与用户状态向量s_k、无人机集群三维动作向量a_k、无人机集群动作收益函数r_k，分别如公式(1)、(2)、(3)所示：

公式(1)中，

表示无人机i在时隙k的三维坐标位置，

表示用户j在时隙k的二维坐标位置；公式(2)中，

表示无人机i在k时隙的水平运动方向，

表示无人机i在k时隙的垂直运动距离；公式(3)中，ω表示无人机动作奖励函数权重因子，ω∈(0,1)，

表示用户j在k时隙能够进行任务卸载，否则，

如公式(4)所示，

表示k时隙用户j的平均单位任务时延，如公式(5)所示：

公式(4)中，

表示用户j与无人机i的连接状态，若用户j在k时隙将任务卸载到无人机i执行，则

否则

公式(5)中，Δt表示时隙大小，ξ表示时隙，ξ∈[1,k]。

进一步的，所述步骤102中基于双延时深度确定性策略梯度算法思想构建深度强化学习模型，包括无人机集群巡航动作发生模块、无人机集群动作评估模块、无人机集群动作扰动模块、环境参数采集模块、无人机集群机载资源分配与任务卸载调度模块、无人机集群动作收益模块、经验样本存储池、样本集随机抽样模块，具体包括：

无人机集群巡航动作发生模块包含主网络π(s_k|θ^π)和目标网络π′(s_k|θ^π′)，通过将无人机集群与用户状态s_k输入π(s_k|θ^π)，并将π(s_k|θ^π)的输出导入无人机集群动作扰动模块，获得无人机集群三维动作向量a_k；无人机集群动作扰动模块用于无人机集群对周边空域的随机性探索；无人机集群动作评估模块包含主网络

和

以及目标网络

和

用于生成在无人机集群与用户状态s_k下执行无人机集群三维动作a_k的动作评估值q；其中，π(s_k|θ^π)，π′(s_k|θ^π′)，

均为神经网络，分别包含若干层隐藏层，每层隐藏层包含若干个神经元，θ^π，θ^π′，

为相应神经网络结构参数；目标网络π′(s_k|θ^π′)、目标网络

和

分别用于增强主网络π(s_k|θ^π)、主网络

和

在训练过程的稳定性；

环境参数采集模块用于收集地面用户的二维坐标位置

用户的任务卸载请求、无人机集群的三维坐标位置

和无人机集群的剩余可用计算资源；无人机集群机载资源分配与任务卸载调度模块用于生成k时隙用户卸载策略，获得任务卸载决策变量集

无人机集群动作收益模块用于在完成k时隙的卸载任务后，生成无人机集群I在k时隙的动作收益值r_k；无人机集群I执行a_k动作后，无人机集群与用户状态由s_k转移到s_k+1；经验样本存储池中增加k时隙经验样本[s_k,a_k,r_k,s_k+1]；样本集随机抽样模块通过从经验样本存储池中随机抽取相同数量样本，用于无人机集群巡航动作发生模块和无人机集群动作评估模块的学习训练。

进一步的，所述步骤103中确定每架无人机i的用户对象集J_i，从而获得无人机集群I的用户对象集{J_i}，通过无人机集群机载资源分配与任务卸载调度模块，获得用户集J的任务卸载决策变量集

的方法如下：

1)将J中所有用户j放入集合V中，根据

对集合V降序排列；

2)如果

依次针对V中的每一个用户j，根据用户j可接入的无人机剩余可用计算资源

和用户j所需的计算资源，通过多属性排序法分配无人机i的计算资源

给用户j，令

把V中用户j移入无人机i的用户对象集J_i，并根据

降序排列，跳转到2)，否则，跳转到3)；

3)对集合I中

的无人机，依次为J_i中的每个用户j分配最小单位计算资源并更新

直到

得到用户j的计算资源分配集合

并根据用户j的任务卸载时延，计算用户j卸载到无人机i的任务量

最终得到用户集J的任务卸载决策变量集

进一步的，所述步骤2)中根据多属性排序法分配无人机i的计算资源

给用户j的方法，具体包括：

首先根据

对集合I中的无人机降序排列，再根据

对

相同的无人机降序排列，最后根据

对

与

均相同的无人机升序排列，选择排序中的第一个无人机i并分配计算资源

给用户j，其中，

为无人机i与用户j的距离，计算资源

的计算方式如公式(6)、(7)所示：

公式(6)中F_i表示无人机i的计算资源总量，ρ表示无人机i的用户对象集J_i中除用户j之外的其他用户，ρ∈(J_i-j)；公式(7)中U表示任务单元大小，τ_j表示用户j的平均单位任务容忍时延，

表示用户j的任务复杂度，

表示k时隙用户j到无人机i上行传输速率，η表示时隙，η∈[1,k-1]。

进一步的，所述步骤3)中用户j卸载到无人机i的任务量

的计算方法如公式(8)所示：

进一步的，所述步骤3)中用户j的任务卸载时延如公式(9)所示：

公式(9)中，

表示k时隙用户j卸载到无人机i的任务卸载时延，

表示k时隙用户j卸载任务到无人机i的传输时延，如公式(10)所示；

表示用户j卸载任务到无人机i的卸载任务计算时延，如公式(11)所示；

公式(10)中，

表示k时隙用户j到无人机i的上行传输速率，如公式(12)所示：

公式(12)中，W为用户信道带宽，p_j为用户发射功率，σ²为噪声功率，

表示k时隙用户j到无人机i的通信信道增益。

进一步的，所述步骤104中通过无人机集群巡航动作发生模块和无人机集群动作扰动模块获得k时隙无人机集群三维动作向量a_k，根据k时隙无人机集群与用户状态向量s_k和无人机集群三维动作向量a_k计算获得s_k+1具体包括：

将k时隙无人机集群与用户状态向量

输入无人机集群巡航动作发生模块，并经由无人机集群动作扰动模块得到无人机集群三维动作向量

计算获得

其中，

L为k时隙无人机i的水平移动距离。

进一步的，所述步骤105中无人机集群巡航动作发生模块、无人机集群动作评估模块学习训练方法为：

对无人机集群动作评估模块中的主网络

其网络参数

采用最速下降法进行更新，如公式(13)所示，其中，

表示

和

其中

为

的学习率，损失函数

如公式(14)所示：

其中，a′_k+1＝a_k+1+ε，ε～clip(N(0,σ),-κ,κ)，clip(·)表示修剪函数，N表示均值为0，方差为σ的高斯噪声，κ表示修剪参数，γ表示折扣因子，X表示通过样本集随机抽样模块从经验样本存储池中获得随机样本集X＝{x_k}，x_k＝[s_k,a_k,r_k,s_k+1]；

巡航动作发生模块中π(s_k|θ^π)网络参数θ^π更新如公式(15)所示：

其中μ^π为π(s_k|θ^π)的学习率，π(s_k|θ^π)的策略梯度

如公式(16)所示：

目标网络

和π′(s_k|θ^π′)中网络参数

和θ^π′的更新分别如公式(17)、(18)所示，其中，

表示

和

更新因子

本发明的优点及有益效果如下：

本发明针对地面网络设施受损或故障，导致边缘网络资源缺失的问题，提出一种面向地面移动用户的无人机边缘节点自适应部署方法。现有解决方案通常根据当前用户分布最优化目标位置，通过最短路径巡航完成低空无人机网络的部署，忽略了地面移动用户分布及任务卸载请求的动态时变特征，易造成网络服务质量不稳定，资源利用率下降的问题。本发明根据无人机的有效覆盖范围、地面用户的实时位置分布与任务卸载需求，采用深度强化学习方法自适应规划无人机集群的巡航轨迹，动态调整用户的卸载任务调度，最大化巡航过程中的用户连通性和机载资源利用率，并有效降低平均任务卸载时延。

附图说明

图1是本发明提供优选实施例一种基于无人机集群的边缘网络自适应部署方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

本发明内容所涉及的概念和模型如下：

1.系统模型：

假设边缘网络小区内用户随机分布，地面网络设施受损或故障，边缘网络资源缺失。小区内配置多架无人机辅助边缘节点，可为其有效覆盖范围内的用户提供任务卸载服务，采用深度强化学习方法自适应规划无人机集群的巡航轨迹，并动态调整用户的卸载任务调度，最大化巡航过程中的用户连通性和机载资源利用率，有效降低平均任务卸载时延。

2.本发明内容所涉及的其他符号说明如下：

s_k：系统状态向量

a_k：无人机集群动作向量

r_k：收益函数

π(s_k|θ^π)：无人机集群动作策略网络

无人机集群状态-动作值网络

θ：神经网络结构参数

用户j在k时隙平均单位任务时延

用户j在k时隙是否被服务

无人机i在时隙k为用户j分配的计算资源

用户j在k时隙卸载到无人机i任务单元数

无人机i在k时隙的水平移动方向

无人机i在k时隙的垂直移动距离

用户j在k时隙与无人机i的连接状态

表示k时隙用户j卸载到无人机i的任务卸载时延

表示k时隙用户j卸载任务到无人机i的传输时延

表示用户j卸载任务到无人机i的卸载任务计算时延

F_i：无人机i的计算资源总量

表示k时隙用户j到无人机i的上行传输速率

W：用户信道带宽

p_j：用户j发射功率

σ²：噪声功率

表示k时隙用户j到无人机i的通信信道增益

本发明的技术方案说明如下：

1、任务卸载时延

用户j的任务卸载时延如公式(1)所示：

公式(1)中，

表示k时隙用户j卸载到无人机i的任务卸载时延，

表示k时隙用户j卸载任务到无人机i的传输时延，如公式(2)所示；

表示用户j卸载任务到无人机i的卸载任务计算时延，如公式(3)所示。

其中，

否则

U表示任务单元大小，

表示k时隙用户j卸载到无人机i的任务量，

表示k时隙无人机i为用户j分配的计算资源，

表示用户j的任务复杂度，

表示k时隙用户j到无人机i的上行传输速率，如公式(4)所示：

公式(4)中，W为用户信道带宽，p_j为用户发射功率，σ²为噪声功率，

表示k时隙用户j到无人机i的通信信道增益。

2、MDP模型的状态向量、动作向量、收益函数

k时隙无人机集群与用户状态向量s_k、无人机集群动作向量a_k、无人机集群动作收益函数r_k，分别如公式(5)、(6)、(7)所示：

公式(5)中，

表示无人机i在时隙k的三维坐标位置，

表示用户j在时隙k的二维坐标位置，I表示无人机集合，J表示用户集合，公式(6)中，

表示无人机i在k时隙的水平运动方向，

表示无人机i在k时隙的垂直运动距离。公式(7)中，ω表示无人机动作奖励函数权重因子，ω∈(0,1)，

表示用户j在k时隙被无人机i服务，否则，

如公式(8)所示，

表示k时隙用户j的平均单位任务时延如公式(9)所示：

公式(9)中ξ表示时隙，ξ∈[1,k]。

3、基于双延时深度确定性策略梯度算法思想构建的深度强化学习模型

将无人机集群的巡航过程划分为若干个大小相等的时隙，且在任意时隙k(∈K)内，无人机集群与地面用户的相对位置关系与连接状态不变。

将无人机集群控制器作为智能体，基于双延时深度确定性策略梯度算法思想构建深度强化学习模型，其中，双延时深度确定性策略梯度算法思想源于文献Fujimoto S,HoofH V,Meger D.Addressing Function Approximation Error in Actor-CriticMethods.35th International Conference on Machine Learning,ICML2018,July 10,2018-July 15,2018。该深度强化学习模型包括无人机集群巡航动作发生模块、无人机集群动作评估模块、无人机集群动作扰动模块、环境参数采集模块、无人机集群机载资源分配与任务卸载调度模块、无人机集群动作收益模块、经验样本存储池、样本集随机抽样模块。

和

以及目标网络

和

用于生成在无人机集群与用户状态s_k下执行无人机集群三维动作a_k的动作评估值q；其中，无人机集群动作评估模块中的主网络和目标网络可采用三层隐藏层，分别配置256、128、128个神经元的神经网络，神经元激活函数可采用Relu函数；θ^π，θ^π′，

和

分别用于增强主网络π(s_k|θ^π)、主网络

和

在训练过程的稳定性；

环境参数采集模块用于收集地面用户的二维坐标位置

用户的任务卸载请求、无人机集群的三维坐标位置

4、多属性排序法

多属性排序法分配无人机i的计算资源

给用户j的方法：

首先根据

对集合I中的无人机降序排列，再根据

对

相同的无人机降序排列，最后根据

对

与

给用户j，其中，

为无人机i与用户j的距离，计算资源

的计算方式如公式(10)、(11)所示：

公式(10)中

表示无人机i剩余计算资源，F_i表示无人机i的计算资源总量，ρ表示无人机i的用户对象集J_i中除用户j之外的其他用户，ρ∈(J_i-j)；公式(11)中τ_j表示用户j的平均单位任务容忍时延，η表示时隙，η∈[1,k-1]。

5、用户卸载任务量计算

用户j卸载到无人机i的任务量

的计算方法如公式(12)所示：

6、获得用户集J的任务卸载决策变量集

的方法

1)将J中所有用户j放入集合V中，根据

对集合V降序排列；

2)如果

给用户j，令

把V中用户j移入无人机i的用户对象集J_i，并根据

降序排列，跳转到2)，否则，跳转到3)；

3)对集合I中

直到

得到用户j的计算资源分配集合

最终得到用户集J的任务卸载决策变量集

7、无人机集群与用户状态向量s_k与无人机集群动作向量a_k计算获得s_k+1方法

将k时隙无人机集群与用户状态向量

计算获得

其中，

L为k时隙无人机i的水平移动距离。

8、无人机集群巡航动作发生模块、无人机集群动作评估模块学习训练方法

对无人机集群动作评估模块中的主网络

其网络参数

采用最速下降法进行更新，如公式(13)所示，其中，

表示

和

其中

为

的学习率，损失函数

如公式(14)所示：

其中μ^π为π(s_k|θ^π)的学习率，π(s_k|θ^π)的策略梯度

如公式(16)所示：

目标网络

和π′(s_k|θ^π′)中网络参数

和θ^π′的更新如公式(17)、(18)所示，其中，

表示

和

更新因子

一种基于深度强化学习的无人机边缘网络自适应部署方法，其具体实施方法包括以下步骤：

步骤1：设立无人机集群I＝{i}，地面用户集J＝{j}，i、j分别表示无人机i和用户j，将无人机集群巡航时间离散为时隙，设立时隙变量k，构造无人机集群与用户状态向量s_k、无人机集群动作向量a_k、无人机集群动作收益函数r_k，其中，s_k，a_k，r_k均随时隙数k的增加发生相应的转移和变化，初始化时隙变量k＝0；

步骤2：在无人机集群控制智能体中，基于双延时深度确定性策略梯度算法思想构建深度强化学习模型，包括无人机集群巡航动作发生模块、无人机集群动作评估模块、无人机集群动作扰动模块、环境参数采集模块、无人机集群机载资源分配与任务卸载调度模块、无人机集群动作收益模块、经验样本存储池、样本集随机抽样模块；

步骤3：令k＝k+1，如果无人机集群I在连续n个时隙内未发生三维坐标位置变化，跳转到步骤6，否则，根据每架无人机i的有效覆盖范围及剩余可用计算资源，确定每架无人机i的用户对象集J_i，从而获得无人机集群I的用户对象集{J_i}，通过无人机集群机载资源分配与任务卸载调度模块，获得用户集J的任务卸载决策变量集

其中

为k时隙用户j卸载到无人机i的任务量，跳转到步骤4；

步骤4：根据

步骤5：通过样本集随机抽样模块从经验样本存储池中获得随机样本集X，并将X分别输入无人机集群巡航动作发生模块、无人机集群动作评估模块进行学习训练，跳转到步骤3；

步骤6：算法结束。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于无人机集群的边缘网络自适应部署方法，其特征在于，具体包括以下步骤：

其中

为k时隙用户j卸载到无人机i的任务量，跳转到104；

104、根据

106、算法结束。

2.根据权利要求1所述的一种基于无人机集群的边缘网络自适应部署方法，其特征在于，所述步骤101中构造k时隙无人机集群与用户状态向量s_k、无人机集群三维动作向量a_k、无人机集群动作收益函数r_k，分别如公式(1)、(2)、(3)所示：

公式(1)中，

表示无人机i在时隙k的三维坐标位置，

表示用户j在时隙k的二维坐标位置；公式(2)中，

表示无人机i在k时隙的水平运动方向，

表示用户j在k时隙能够进行任务卸载，否则，

如公式(4)所示，

表示k时隙用户j的平均单位任务时延，如公式(5)所示：

公式(4)中，

否则

公式(5)中，Δt表示时隙大小，ξ表示时隙，ξ∈[1,k]。

3.根据权利要求1所述的一种基于无人机集群的边缘网络自适应部署方法，其特征在于，所述步骤102中基于双延时深度确定性策略梯度算法思想构建深度强化学习模型，包括无人机集群巡航动作发生模块、无人机集群动作评估模块、无人机集群动作扰动模块、环境参数采集模块、无人机集群机载资源分配与任务卸载调度模块、无人机集群动作收益模块、经验样本存储池、样本集随机抽样模块，具体包括：