CN114091754A

CN114091754A - 一种多无人机移动基站协同部署及调度方法

Info

Publication number: CN114091754A
Application number: CN202111390810.9A
Authority: CN
Inventors: 赵东; 马华东; 孙壬辛; 丁立戈
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-11-23
Filing date: 2021-11-23
Publication date: 2022-02-25

Abstract

本发明公开了一种多无人机移动基站协同部署及调度方法，基于深度强化学习，将网络服务区域均匀地划分为较小的网格和较大的区块，使用仿真软件获得区域的模拟吞吐量，在每个调度时间区间，使用基于深度强化学习的多无人机移动基站协同部署模块，找到能够提供较高吞吐量的区块的集合；使用基于深度强化学习的多无人机移动基站协同调度模块，规划无人机扫描能够提供较高吞吐量的区块的集合的路线，在无人机能量不足时及时充电；无人机在扫描完成后，在最高吞吐量的网格处悬停提供服务，直到这个调度时间区间结束；重复以上步骤，直到整个网络服务的任务完成。本发明以较少的执行时间达到较好的效果，最大限度地提供总服务时间及更好的工作负载平衡。

Description

一种多无人机移动基站协同部署及调度方法

技术领域

本发明涉及无人机移动基站部署技术领域，尤其涉及一种基于深度强化学习的多无人机移动基站协同部署及调度方法。

背景技术

当前用于多无人机移动基站协同部署及调度的方法主要是启发式算法，基于经验制定算法规则，并根据当前状态做决策。这类方法存在三个方面的不足：1)对于无人机基站部署问题，启发式算法可以在小规模场景中取得较好的效果，随着应用场景规模的扩大、无人机数量的增加，时间复杂度会上升，导致算法执行时间过长；2)对于复杂的多无人机调度问题，影响因素很多，包括当前调度无人机的电量、其他无人机的状态、充电站的状态、未扫描区域的分布等，根据经验制定规则很难将因素考虑全面；3)启发式算法没有考虑长期影响，在大多数情况下决策结果与全局最优解差距较大。

针对以上问题，深度强化学习技术借助智能体和深度神经网络对环境进行探索和学习，从而输出策略，使用训练好的模型可以更高效地做决策，不需要人为地设计策略，并且通过设置奖励值、考虑长期回报优化长期决策任务，可以被用来更好地解决多无人机移动基站协同部署及调度问题。然而，由于无人机电量有限，执行长期任务时需要及时充电，但频繁的充电会影响无人机的服务时间从而影响无人机的服务质量，这一现实问题也被大多数研究方法忽略。因此，目前方法不能为多无人机移动基站协同部署及调度的问题提供高效可靠的解决方案。

发明内容

本发明针对上述问题，提出一种多无人机移动基站协同部署及调度方法，通过考虑环境中不同位置提供的吞吐量、无人机群的分布等影响因素，为无人机群确定提供高吞吐量的部署区域；通过考虑无人机的电量、位置、充电站的状态、未扫描区域的分布等影响因素，在保证无人机有足够电量执行任务的前提下，为无人机规划飞行路径，使无人机提供最长的总服务时间，最终实现优质的网络服务质量的目标。

为了实现上述目的，本发明提供如下技术方案：

一种多无人机移动基站协同部署及调度方法，将网络服务区域均匀地划分为10m×10m的网格和20m×20m的区块，即一个区块中包含4个网格，使用仿真软件获得区域的模拟吞吐量，包括以下步骤：

S1、在每个调度时间区间，使用基于深度强化学习的多无人机移动基站协同部署模块，找到提供有效吞吐量最高的前K个区块的集合，K为无人机的个数；

S2、使用基于深度强化学习的多无人机移动基站协同调度模块，规划无人机扫描能够提供有效吞吐量最高的前K个区块的集合的路线，并在无人机能量不足时及时充电；

S3、无人机在扫描完成后，在最高吞吐量的网格处悬停提供服务，直到这个调度时间区间结束；

S4、重复以上步骤，直到整个网络服务的任务完成。

进一步地，步骤S1中的基于深度强化学习的多无人机移动基站协同部署模块包括四个核心元素的强化学习任务，四个核心元素分别是状态空间

动作空间A、奖励函数R和折扣因子γ；状态空间

用来描述当前时刻环境的状态，在调度时间T_t，状态空间S_t表示为S_t＝(L_U，L_C，ST)，其中，L_U表示当前时刻所有无人机的位置分布，L_C表示当前时刻所有用户的分布，ST表示当前时刻区域的模拟吞吐量；动作空间A表示无人机可选择的扫描区块集合，动作空间A表示为A＝{CH_l|l＝1，2，...，L}，在调度时间T_t，从A中选择一个动作a_t作为无人机扫描的区块，被选择过的区块选择概率被设置为0；对于状态S_t，当执行动作a_t后，系统进入下一个状态S′_t并且返回一个奖励值r(S_t，a_t)，奖励值r(S_t，a_t)是选择的区域块带来的吞吐量差值。

进一步地，步骤S1中的基于深度强化学习的多无人机移动基站协同部署模块的训练过程如下：

第一步，用随机权重θ和θ′＝θ对评价网络Q和目标网络Q′进行初始化，初始化重现记忆库D容量为N；

第二步，在每个时刻t，分别为K台无人机选择服务的位置：从环境中获得当前状态S_t＝(L_U，L_C，ST)，当随机值小于epsilon时，随机选择动作a_t，否则a_t＝argmax_aQ(s_t，a；θ)；

第三步，执行动作a_t将获得奖励值r(S_t，a_t)，此时状态更新为S′_t，将(S_t，a_t，r(S_t，a_t)，S′_t)存入重现记忆库D，并从D中随机采样H组变换(S_j，a_j，r(S_j，a_j)，S′_j)，令y_j＝r_j+γargmax_a′Q′(s_j+1，a′；θ′)，通过最小化损失函数

更新权重θ，每选择C次动作，通过令Q′＝Q更新Q′；

第四步，重复第二步和第三步，直到模型收敛。

进一步地，步骤S1中的基于深度强化学习的多无人机移动基站协同部署模块使用两个结构相同但参数不同的神经网络：评价网络Q和目标网络Q′，其中评价网络Q的更新频率高于目标网络Q′。

进一步地，步骤S1中的基于深度强化学习的多无人机移动基站协同部署模块的神经网络由4层组成，包括批标准化层、卷积层和两层全连接层，使用的激活函数为Relu。

进一步地，步骤S2中的基于深度强化学习的多无人机移动基站协同调度模块包括四个核心元素的强化学习任务，四个核心元素分别是状态空间

动作空间A、奖励函数R和折扣因子γ；状态空间

用来描述当前时刻环境的状态，在调度时间T_t，状态空间S_t表示为S_t＝(S_t1，S_t2)，其中，S_t1表示全局状态，包括当前时刻需要扫描的网格位置SG_t、需要扫描的网格的扫描状态X_t、其他无人机的位置U′_loc和剩余电量U′_elec、充电站的位置L_charge和需要充的电量E_charge；S_t2表示局部状态，包括当前调度无人机的位置

电量

前往扫描网格和充电站所需的能耗UP_tu和UC_tu；动作空间表示无人机可执行的任务，包括充电站和需扫描的网格，动作空间A表示为A＝(G，CS)，其中G表示所有网格的集合，CS表示所有充电站的集合，在调度时间T_t，从A中选择一个动作a_t作为无人机执行的任务，被选择过的网格或不需要扫描的网格选择概率被设置为0；对于状态S_t，当执行动作a_t后，系统进入下一个状态S′_t并且返回一个奖励值r_t，r_t表示为：

当动作是网格时，x＝1，y＝0；否则，x＝0，y＝1；当该动作使无人机耗尽能量时，γ是惩罚值，UP_tu[a_t]和UC_tu[a_t]是无人机u_k移动到a_t的能耗，UP_tu[a_t]对应的a_t是需要扫描的网格，UC_tu[a_t]对应的a_t是充电站。

进一步地，步骤S2中的基于深度强化学习的多无人机移动基站协同调度模块的训练过程如下：

第二步，在每个时刻t，为当前可调度的无人机规划移动路径：如果所有扫描任务都已完成，停止规划路径；否则，从环境中获得当前状态S_t＝(S_t1，S_t2)，当随机值小于epsilon时，随机选择动作a_t，否则a_t＝argmax_aQ(s_t，a；θ)；

更新权重θ；每选择C次动作，通过令Q′＝Q更新Q′；

第四步，重复第二步、第三步，直到模型收敛。

进一步地，步骤S2中的基于深度强化学习的多无人机移动基站协同部署模块使用两个结构相同但参数不同的神经网络：评价网络Q和目标网络Q′，其中评价网络Q的更新频率高于目标网络Q′。

进一步地，步骤S2中的基于深度强化学习的多无人机移动基站协同部署模块的神经网络由4层全连接层组成，使用的激活函数为Relu。

与现有技术相比，本发明的有益效果为：

现有的方法没有考虑无人机电量有限的特点以及环境的动态性对决策的影响，本发明提出的多无人机移动基站协同部署及调度方法，有效解决了上述问题，并具有以下两个优点：

1)现有的启发式方法没有考虑用户的移动性，并且在解决大规模问题时执行效率较低，本方法针对此问题在多无人机移动基站协同部署算法中，对状态空间和奖励函数进行了设计，使算法可以以较少的执行时间达到较好的效果。

2)针对无人机提供网络服务的场景下，现有的无人机路径规划算法中，大多没有考虑无人机电量有限的特点，在少数考虑充电问题的方法里没有考虑充电时间对服务质量的影响。本方法针对此问题在多无人机移动基站协同调度算法中，对状态空间和奖励函数进行了设计，使算法可以最大限度地提供总服务时间，并提供比其他先进算法更好的工作负载平衡。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的多无人机移动基站协同部署模块神经网络结构图。

图2为本发明实施例提供的多无人机移动基站协同调度模块神经网络结构图。

具体实施方式

为了更好地理解本技术方案，下面结合附图对本发明的方法做详细的说明。

本发明将网络服务区域均匀地划分为10m×10m的网格和20m×20m的区块，即一个区块中包含4个网格，使用仿真软件获得区域的模拟吞吐量。

设无人机集合U＝{u_k|k＝1，...，K}，区块的集合CH＝{Ch_l|l＝1，...，L}，网格的集合G＝{g_i|i＝1，...I}，无人机调度时间的集合

本发明所提出的基于深度强化学习的多无人机移动基站协同部署及调度方法整体步骤如下：

1)在每个调度时间区间，使用基于深度强化学习的多无人机移动基站协同部署模块，找到能够提供较高吞吐量的区块的集合。

2)使用基于深度强化学习的多无人机移动基站协同调度模块，规划无人机扫描能够提供有效吞吐量最高的前K个区块的集合的路线，并在无人机能量不足时及时充电。

3)无人机在扫描完成后，在最高吞吐量的网格处悬停提供服务，直到这个调度时间区间结束。

4)重复以上步骤，直到整个网络服务的任务完成。

下面分别对基于深度强化学习的多无人机移动基站协同部署模块和基于深度强化学习的多无人机移动基站协同调度模块进行详细的阐述。

(一)基于深度强化学习的多无人机移动基站协同部署模块

无人机的部署过程可以建模成包含五个核心元素的强化学习任务。四个核心元素分别是状态空间

动作空间A、奖励函数R和折扣因子γ。

1)对状态空间、动作空间、奖励值和算法的设计

状态空间：状态空间

用来描述当前时刻环境的状态。在调度时间T_t，状态空间S_t可以表示为S_t＝(L_U，L_C，ST)。其中，L_U表示当前时刻所有无人机的位置分布，L_C表示当前时刻所有用户的分布，ST表示当前时刻区域的模拟吞吐量。

动作空间：动作空间A表示无人机可选择的扫描区块集合，动作空间A可以表示为A＝{CH_l|l＝1，2，...，L}。在调度时间T_t，从A中选择一个动作a_t作为无人机扫描的区块，但同一时刻区块不可以重复选择，即每个区块只能被一台无人机提供服务。为了使模型的训练更有效率，动作空间需要具有一致性，所以被选择过的区块选择概率被设置为0。

奖励值：对于状态S_t，当执行动作a_t后，系统将会进入下一个状态S′_t并且返回一个奖励值r(S_t，a_t)。r(S_t，a_t)是选择的区域块带来的吞吐量差值。

模型训练过程可简述如下：

第一步，用随机权重θ和θ′＝θ对评价网络Q和目标网络Q′进行初始化，初始化重现记忆库D容量为N。

第二步，在每个时刻t，分别为K台无人机选择服务的位置：

从环境中获得当前状态S_t＝(L_U，L_C，ST)，当随机值小于epsilon时，随机选择动作a_t，否则a_t＝argmax_aQ(s_t，a；θ)。

更新权重θ。每选择C次动作，通过令Q′＝Q更新Q′。

第四步，重复第二步和第三步，直到模型收敛。

2)神经网络

多无人机移动基站协同部署问题是一个动作空间离散的任务，因此我们的方法基于DQN框架进行设计。我们使用两个结构相同但参数不同的神经网络：评价网络Q和目标网络Q′，其中评价网络Q的更新频率高于目标网络Q′。神经网络由4层组成，如图1所示，状态空间依次通过批标准化层、卷积层和两层全连接层，输出为动作空间对应的Q值表。批标准化层可以加速模型训练，卷积层可以提取输入三位数组的特征。全连接层之间使用的激活函数为Relu，防止过拟合。

(二)基于深度强化学习的多无人机移动基站协同调度模块

无人机的调度过程建模成强化学习任务，包含四个核心元素状态空间

动作空间A、奖励函数R和折扣因子γ。

1)对状态空间、动作空间和奖励值的设计

状态空间：状态空间用来描述当前时刻环境的状态。在调度时间T_t，状态空间S_t可以表示为S_t＝(S_t1，S_t2)。其中，S_t1表示全局状态，包括当前时刻需要扫描的网格位置SG_t、需要扫描的网格的扫描状态X_t、其他无人机的位置U′_loc和剩余电量U′_elec、充电站的位置L_charge和需要充的电量E_charge；S_t2表示局部状态，包括当前调度无人机的位置

电量

前往扫描网格和充电站所需的能耗UP_tu和UC_tu。

动作空间：动作空间表示无人机可执行的任务，包括充电站和需扫描的网格，动作空间A可以表示为A＝(G，CS)。其中G表示所有网格的集合，CS表示所有充电站的集合。在调度时间T_t，从A中选择一个动作a_t作为无人机执行的任务，但网格不可以重复选择，即每个网格只能被一台无人机扫描。为了使模型的训练更有效率，动作空间需要具有一致性，所以被选择过的网格或不需要扫描的网格选择概率被设置为0。

奖励值：对于状态S_t，当执行动作a_t后，系统将会进入下一个状态S′_t并且返回一个奖励值r_t。r_t可表示为：

当动作是网格时，x＝1，y＝0；否则，x＝0，y＝1。当该动作使无人机耗尽能量时，γ是惩罚值。UP_tu[a_t]和UC_tu[a_t]是无人机u_k移动到a_t的能耗，但UP_tu[a_t]对应的a_t是需要扫描的网格，UC_tu[a_t]对应的a_t是充电站。

模型训练过程可简述如下：

第二步，在每个时刻t，为当前可调度的无人机规划移动路径：如果所有扫描任务都已完成，停止规划路径；否则，从环境中获得当前状态S_t＝(S_t1，S_t2)，当随机值小于epsilon时，随机选择动作a_t，否则a_t＝argmax_aQ(s_t，a；θ)。

更新权重θ。每选择C次动作，通过令Q′＝Q更新Q′。

第四步，重复第二步、第三步，直到模型收敛。

2)神经网络

多无人机移动基站协同调度问题是一个动作空间离散的任务，因此我们的方法基于DQN框架进行设计。我们使用两个结构相同但参数不同的神经网络：评价网络Q和目标网络Q′，其中评价网络Q的更新频率高于目标网络Q′。神经网络由4层全连接层组成，如图2所示，输出为动作空间对应的Q值表。状态空间依次通过四层全连接层，全连接层之间，使用的激活函数为Relu。

与现有技术相比，本发明的有益效果为：

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，但这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种多无人机移动基站协同部署及调度方法，其特征在于，将网络服务区域均匀地划分为10m×10m的网格和20m×20m区块，即一个区块中包含4个网格，使用仿真软件获得区域的模拟吞吐量，包括以下步骤：

S2、使用基于深度强化学习的多无人机移动基站协同调度模块，规划无人机扫描提供有效吞吐量最高的前K个的区块的集合的路线，并在无人机能量不足时及时充电；

S4、重复以上步骤，直到整个网络服务的任务完成。

2.根据权利要求1所述的多无人机移动基站协同部署及调度方法，其特征在于，步骤S1中的基于深度强化学习的多无人机移动基站协同部署模块包括四个核心元素的强化学习任务，四个核心元素分别是状态空间

动作空间A、奖励函数R和折扣因子γ；状态空间

用来描述当前时刻环境的状态，在调度时间T_t，状态空间S_t表示为S_t＝(L_U,L_C,ST)，其中，L_U表示当前时刻所有无人机的位置分布，L_C表示当前时刻所有用户的分布，ST表示当前时刻区域的模拟吞吐量；动作空间A表示无人机可选择的扫描区块集合，动作空间A表示为A＝{CH_l|l＝1,2,…,L}，在调度时间T_t，从A中选择一个动作a_t作为无人机扫描的区块，被选择过的区块选择概率被设置为0；对于状态S_t，当执行动作a_t后，系统进入下一个状态S′_t并且返回一个奖励值r(S_t,a_t)，奖励值r(S_t,a_t)是选择的区域块带来的吞吐量差值。

3.根据权利要求2所述的多无人机移动基站协同部署及调度方法，其特征在于，步骤S1中的基于深度强化学习的多无人机移动基站协同部署模块的训练过程如下：

第二步，在每个时刻t，分别为K台无人机选择服务的位置：从环境中获得当前状态S_t＝(L_U,L_C,ST)，当随机值小于epsilon时，随机选择动作a_t，否则a_t＝argmax_aQ(s_t,a；θ)；

第三步，执行动作a_t将获得奖励值r(S_t,a_t)，此时状态更新为S′_t，将(S_t,a_t,r(S_t,a_t),S′_t)存入重现记忆库D，并从D中随机采样H组变换(S_j,a_j,r(S_j,a_j),S′_j)，令y_j＝r_j+γargmax_a′Q′(s_j+1,a′；θ′)，通过最小化损失函数

更新权重θ，每选择C次动作，通过令Q′＝Q更新Q′；

第四步，重复第二步和第三步，直到模型收敛。

4.根据权利要求1所述的多无人机移动基站协同部署及调度方法，其特征在于，步骤S1中的基于深度强化学习的多无人机移动基站协同部署模块使用两个结构相同但参数不同的神经网络：评价网络Q和目标网络Q′，其中评价网络Q的更新频率高于目标网络Q′。

5.根据权利要求1所述的多无人机移动基站协同部署及调度方法，其特征在于，步骤S1中的基于深度强化学习的多无人机移动基站协同部署模块的神经网络由4层组成，包括批标准化层、卷积层和两层全连接层，使用的激活函数为Relu。

6.根据权利要求1所述的多无人机移动基站协同部署及调度方法，其特征在于，步骤S2中的基于深度强化学习的多无人机移动基站协同调度模块包括四个核心元素的强化学习任务，四个核心元素分别是状态空间

动作空间A、奖励函数R和折扣因子γ；状态空间

用来描述当前时刻环境的状态，在调度时间T_t，状态空间S_t表示为S_t＝(S_t1,S_t2)，其中，S_t1表示全局状态，包括当前时刻需要扫描的网格位置SG_t、需要扫描的网格的扫描状态X_t、其他无人机的位置U′_loc和剩余电量U′_elec、充电站的位置L_charge和需要充的电量E_charge；S_t2表示局部状态，包括当前调度无人机的位置

电量

前往扫描网格和充电站所需的能耗UP_tu和UC_tu；动作空间表示无人机可执行的任务，包括充电站和需扫描的网格，动作空间A表示为A＝(G,CS)，其中G表示所有网格的集合，CS表示所有充电站的集合，在调度时间T_t，从A中选择一个动作a_t作为无人机执行的任务，被选择过的网格或不需要扫描的网格选择概率被设置为0；对于状态S_t，当执行动作a_t后，系统进入下一个状态S′_t并且返回一个奖励值r_t，r_t表示为：

当动作是网格时，x＝1,y＝0；否则，x＝0,y＝1；当该动作使无人机耗尽能量时，γ是惩罚值，UP_tu[a_t]和UC_tu[a_t]是无人机u_k移动到a_t的能耗，UP_tu[a_t]对应的a_t是需要扫描的网格，UC_tu[a_t]对应的a_t是充电站。

7.根据权利要求6所述的多无人机移动基站协同部署及调度方法，其特征在于，步骤S2中的基于深度强化学习的多无人机移动基站协同调度模块的训练过程如下：

第二步，在每个时刻t，为当前可调度的无人机规划移动路径：如果所有扫描任务都已完成，停止规划路径；否则，从环境中获得当前状态S_t＝(S_t1,S_t2)，当随机值小于epsilon时，随机选择动作a_t，否则a_t＝argmax_aQ(s_t,a；θ)；

更新权重θ；每选择C次动作，通过令Q′＝Q更新Q′；

第四步，重复第二步、第三步，直到模型收敛。

8.根据权利要求1所述的多无人机移动基站协同部署及调度方法，其特征在于，步骤S2中的基于深度强化学习的多无人机移动基站协同部署模块使用两个结构相同但参数不同的神经网络：评价网络Q和目标网络Q′，其中评价网络Q的更新频率高于目标网络Q′。

9.根据权利要求1所述的多无人机移动基站协同部署及调度方法，其特征在于，步骤S2中的基于深度强化学习的多无人机移动基站协同部署模块的神经网络由4层全连接层组成，使用的激活函数为Relu。