CN112580537B

CN112580537B - 一种用于多无人机系统持续覆盖特定区域的深度强化学习方法

Info

Publication number: CN112580537B
Application number: CN202011542223.2A
Authority: CN
Inventors: 王楠; 孙兆梅; 牛轶峰; 康瀚文; 林弘; 丁宇航; 李雄
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2022-06-21
Anticipated expiration: 2040-12-23
Also published as: CN112580537A

Abstract

本发明公开了一种用于多无人机系统持续覆盖特定区域的深度强化学习方法，其步骤包括：步骤S1：建立待覆盖区域特征提取的深度卷积神经网络模型；步骤S2：基于强化学习actor‑critic网络，建立多无人机系统持续覆盖特定区域的深度强化学习模型，分别建立多无人机系统控制决策模型和动作值函数的双向循环神经网络模型；步骤S3：基于WLU，为多无人机决策系统设计个体奖励函数；步骤S4：基于强化学习策略梯度方法，训练步骤S1和S2中的神经网络模型。本发明具有鲁棒性能好、可扩展性强、覆盖周期短、协调性好等优点。

Description

一种用于多无人机系统持续覆盖特定区域的深度强化学习方法

技术领域

本发明主要涉及到无人机协同控制技术领域，特指一种用于多无人机系统持续覆盖特定区域的深度强化学习方法。

背景技术

无人机集群区域覆盖是一个重要的研究问题，主要解决如何通过大规模无人机进行指定区域的覆盖，从而达到集群系统的最佳性能，如覆盖时间最短、覆盖率最高等。无人机集群区域覆盖具有十分广泛的应用，如地理测绘、搜索救援、灾情监视等。

早期覆盖规划的研究主要是针对单机覆盖指定区域的方法研究，如扫描方式、区域分割、和进程规划等。近年来，研究者侧重于多无人机协同区域覆盖，例如主要有维诺图法、虚拟力法、基于深度强化学习方法的覆盖算法、基于PS0的持续性覆盖控制方法、基于动态规划的覆盖路径规划算法、由单个无人机推广至多个无人机的启发式持续性覆盖方法等。

上述传统的方法中，有些方法只研究覆盖率相关问题，并没有考虑对区域的持续性覆盖和无人机之间的协调性；有些方法虽然研究了持续覆盖的问题，但并没有最小化持续覆盖的周期，且这些方法鲁棒性差、扩展性弱，且没有处理异构无人机的控制问题。

发明内容

本发明要解决的技术问题就在于：针对现有技术存在的技术问题，本发明提供一种鲁棒性能好、可扩展性强、覆盖周期短、协调性好的用于多无人机系统持续覆盖特定区域的深度强化学习方法。

为解决上述技术问题，本发明采用以下技术方案：

一种用于多无人机系统持续覆盖特定区域的深度强化学习方法，其步骤包括：

步骤S1：建立待覆盖区域特征提取的深度卷积神经网络模型；

步骤S2：基于强化学习actor-critic网络，建立多无人机系统持续覆盖特定区域的深度强化学习模型，分别建立多无人机系统控制决策模型和动作值函数的双向循环神经网络模型；

步骤S3：基于WLU，为多无人机决策系统设计个体奖励函数；

步骤S4：基于强化学习策略梯度方法，训练步骤S1和S2中的神经网络模型。

作为本发明方法的进一步改进：所述步骤S3中利用WLU方法，为每架无人机设置个体奖励。

作为本发明方法的进一步改进：所述步骤S4中，基于强化学习Actor-critic网络，利用确定性策略梯度方法训练步骤中S1和S2的神经网络模型，直至loss收敛时终止。

作为本发明方法的进一步改进：所述步骤S2中，将步骤S1提取的特征信息以序列形式输入双向循环神经网络模型的双向循环神经网络中。所有无人机共享网络参数，多无人机在持续覆盖区域时，单个无人机可以自由加入和结束覆盖任务而不影响整个系统的性能，即解决多无人机控制决策系统的可扩展性和鲁棒稳定性问题。

作为本发明方法的进一步改进：所述步骤S2中，将步骤S1提取的特征向量作为多无人机系统控制决策模型和动作值函数模型的输入，将无人机的航向和飞行距离作为控制决策模型的输出。

作为本发明方法的进一步改进：所述步骤S2中，扩展输出参数，用以实现异构无人机的控制。

作为本发明方法的进一步改进：所述步骤S2中，建立双向循环网络actor网络、critic网络，所述actor网络以步骤S1中提取的特征向量为输入，以无人机的控制输出——航向、飞行距离为输出；所述critic网络以步骤S1中提取的特征向量及actor网络输出为输入，以Q值为输出。

作为本发明方法的进一步改进：假定无人机飞行在固定高度，每个无人机的探测区域为以无人机为中心，半径为r的圆形区域，无人机飞行距离为vt；假定待覆盖区域被划分

个正方形网格，每个网格边长为r，定义每个网格的覆盖周期，初始值为0，若网格被无人机覆盖时，覆盖周期重置为0，否则覆盖周期随时间步长递增，增量为1；定义网格与无人机的相对距离、相对角度，并对其归一化处理；建立vggNet网络，以网格覆盖周期、无人机与网格相对距离、相对位置组成

的featuremap输入vggNet，提取待覆盖区域的特征向量。

作为本发明方法的进一步改进：在所述actor网络中，利用vggNet提取待覆盖区域的特征，将提取的特征输入双向循环神经网络，最后得到无人机的控制输出，即无人机的航向及飞行距离。

作为本发明方法的进一步改进：所述步骤S4的步骤包括：

步骤S401：将步骤S1提取特征的vggNet合并入actor、critic网络；

步骤S402：随机初始化online actor网络、online critic网络的参数；

步骤S403：建立target actor网络、target critic网络，并用online网络参数对其初始化；

步骤S404：初始化经验池；

步骤S405：随机初始化无人机位置，初始化网格覆盖周期，获取初始featuremaps¹；

步骤S405：训练网络，迭代执行下述步骤S407-步骤S411；

步骤S407：通过online actor网络得到一个动作a(s^t)，加上0rnsteinUhlenbeck扰动N得到一个探索的动作a(s^t)+N；

步骤S408：无人机执行动作a(s^t)+N，得到相应的奖励r＝(r₁，r₂，...，r_n)和下一个feature map s^t+1，并将(s^t，a^t，r^t，s^t+1)存储到经验池B；

步骤S409：从经验池B中选取小批量的数据，通过online critic网络、onlineactor网络计算

同时利用Bellman方程及target actor网络、target critic网络估计Q，得到：

沿着平方误差：

的负梯度方向更新online critic网络参数；

步骤S410：沿着策略梯度：

的方向，更新onlineactor网络参数；

步骤S411：利用online网络参数更新target网络参数。

与现有技术相比，本发明的优点在于：

1、本发明的用于多无人机系统持续覆盖特定区域的深度强化学习方法，本具有原理简单、可持续性地全覆盖指定区域、并具有最小化覆盖周期、可扩展性好、鲁棒稳定性强、可实现异构无人机系统的控制等优点，对多无人机持续性覆盖区域的分布式控制任务具有重要的理论和实用价值。

2、本发明的用于多无人机系统持续覆盖特定区域的深度强化学习方法，用卷积神经网络提取覆盖区域的特征，有效地利用了区域的空间结构信息，可提高覆盖性能；利用卷积神经网络的权值共享特性，大大减少模型参数，进而提升模型训练的收敛速度；利用双向循环网络的结构特性，实现无人机之间协调控制，进而提高控制决策系统的鲁棒性、扩展性以及覆盖性能；通过扩展控制策略模型的输出参数可解决异构无人机的协调控制问题。

附图说明

图1是本发明方法的流程示意图。

图2是本发明在具体应用实例中单架无人机单位时间内覆盖区域示意图。

图3是本发明在具体应用实例中待覆盖区域仿真模型示意图。

图4是本发明在具体应用实例中actor网络示意图。

图5是本发明在具体应用实例中critic网络示意图

图6是本发明在具体应用实例中的框架示意图。

具体实施方式

以下将结合说明书附图和具体实施例对本发明做进一步详细说明。

如图1所示，本发明的用于多无人机系统持续覆盖特定区域的深度强化学习方法，其步骤包括：

通过采用卷积神经网络提取待覆盖区域的特征，能够有效地利用了区域的空间结构信息，提高了覆盖性能；利用卷积神经网络的局部感知特性，实现无人机之间局部协调通讯；利用卷积神经网络的权值共享特性，大大减少模型参数，进而提升模型训练的收敛速度。

在步骤S1中，覆盖区域指定为矩形区域，建立提取特征的卷积神经网络模型时将区域划分为正方形网格，定义每个网格的覆盖周期、定义每个网格与无人机的相对距离、相对角度，以覆盖周期、相对距离、角度组成的特征矩阵为卷积神经网络的输入，经过若干卷积层池化层，输出待覆盖区域的特征向量。

利用双向循环神经网络模型中双向循环神经网络权值共享的特性，可以提高多无人机控制决策系统的可扩展性和鲁棒性，即无人机自由加入和结束覆盖任务而不影响整个系统的覆盖性能。

步骤S3：基于WLU，为多无人机决策系统设计个体奖励函数；利用WLU方法，为每架无人机设置个体奖励，从而实现整体性能的最大化，使得集体效益最大化，即整个区域的覆盖性能最优；

步骤S4：基于强化学习策略梯度方法，训练步骤中S1和S2的神经网络模型，对步骤S1和步骤S2建立的神经网络参数进行迭代更新。

即，基于强化学习Actor-critic网络，利用确定性策略梯度方法训练步骤中S1和S2的神经网络模型，直至loss收敛时终止。

在具体应用实例中，所述步骤S2中，将步骤S1提取的特征信息以序列形式输入双向循环神经网络模型的双向循环神经网络中。

在具体应用实例中，所述步骤S2中，多无人机系统控制决策模型以无人机航向和飞行距离为输出；进一步，还可以扩展输出参数，用以实现异构无人机的控制。

参见图2，为在具体应用中单架无人机单位时间内覆盖区域示意图。无人机上可携带激光雷达、CCD电视摄像机、前视红外设备、超光谱成像设备、合成孔径雷达等设备用于检测地面情况，日间和夜间都支持生成图像，能够对图像进行处理(如目标识别、目标分类、目标定位)。为了简化计算模型，假设机载侦察设备放置在无人机的中心位置，无人机看成一个质点，侦察设备扫描的范围是以无人机为中心，r为半径的圆形区域。

参见图3，为本发明在具体应用实例中待覆盖区域仿真模型示意图。本发明在构建模型时不考虑无人机飞行高度的变化，限制覆盖区域为矩形的平原或沿海(陆地为平原地段)区域中，将区域以等距网格划分，且单个网格为正方形，边长为无人机覆盖区域的半径。定义每个网格的覆盖周期T，初始值设置为0，当网格被无人机覆盖时，覆盖周期重置为0，当网格未被无人机覆盖时，覆盖周期随时间步长递增，增量为1。如图3仿真环境中显示的网格灰度为255-5T。

在具体应用实例中，所述步骤S2中，如图4和图5所示，建立双向循环网络actor网络、critic网络，所述actor网络以步骤S1中提取的特征向量为输入，以无人机的控制输出——航向、飞行距离为输出；所述critic网络以步骤S1中提取的特征向量及actor网络输出为输入，以Q值为输出。

参见图4，为本发明在具体应用实例中的actor网络示意图。利用vggNet提取待覆盖区域的特征，将提取的特征输入双向循环神经网络，最后得到无人机的控制输出，即无人机的航向及飞行距离。图中所有vggNet、LSTM单元共享网络参数，即所有无人机控制策略网格(actor网络)共享网络参数。

在具体应用实例中，在步骤S2中，利用双向循环网络当前时刻的输出不仅和之前的状态有关，还和未来的状态有关系的特性，从而实现了多无人机的分布式协调控制。

在具体应用实例中，所述步骤S1中，假定无人机飞行在固定高度，每个无人机的探测区域为以无人机为中心，半径为r的圆形区域，无人机飞行距离为vt时，无人机的覆盖区域如图2所示；假定待覆盖区域被划分

的featuremap输入vggNet，提取待覆盖区域的特征向量。

参见图6，为本发明方法在应用时的框架示意图。本发明基于深度强化学习actor-critic网络，利用确定性策略梯度算法训练策略网络和评价网络。算法中构建online网络和target网络，使得网络参数的学习过程更加稳定，易收敛。利用Bellman方程及targetcritic网络估计的Q值与online critic网络计算的Q值计算平方误差，更新online critic网络的参数，利用性能的策略梯度更新online actor网络的参数，最后利用online网络的参数更新目标网络参数。

在具体应用实例中，所述步骤S4包括以下详细流程：

步骤S401：将步骤S1提取特征的vggNet合并入actor、critic网络；

步骤S404：初始化经验池；

步骤S406：训练网络，迭代执行下述步骤S407-步骤S411；

步骤S407：通过online actor网络得到一个动作a(s^t)，加上OrnsteinUhlenbeck扰动N得到一个探索的动作a(s^t)+N；

沿着平方误差：

的负梯度方向更新online critic网络参数；

步骤S410：沿着策略梯度：

的方向，更新onlineactor网络参数；

步骤S411：利用online网络参数更新target网络参数。

在具体应用时，训练神经网络的强化学习的过程可以如下：

步骤1：随机初始化多无人机系统控制策略网络a(s|θ)和评价网络Q(s，a|w)的权重参数θ和w；

步骤2：初始化目标网络Q′和弘′的参数θ′＝θ，w′＝w；

步骤3：初始化经验池B；

步骤4：随机初始化无人机位置，初始化待覆盖区域网格的覆盖周期为0，得到初始状态s¹；

步骤5：循环执行episode＝1，...E：

循环执行t＝1，...，T：

1.对第i个无人机执行动作

其中N是OrnsteinUhlenbeck扰动；

2.获得n个奖励

和下一个状态向量s^t+1；

3.将四元组(s^t，a^t，r^t，s^t+1)存储到经验池B，其中

4.从B中随机选择一个小批量H个样本

5.利用Bellman方程对Q进行估计，得到结果如下：

6.沿着平方误差负梯度方向，更新评价网络权重w；

7.沿着性能指标的梯度方向，更新无人机控制策略网络权重θ；

更新目标网络参数θ′＝τθ+(1-τ)θ′，w′＝τw+(1-τ)w′。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种用于多无人机系统持续覆盖特定区域的深度强化学习方法，其特征在于，步骤包括：

步骤S2：基于强化学习actor-critic网络，建立多无人机系统持续覆盖特定区域的深度强化学习模型，分别建立多无人机系统控制决策模型和动作值函数的双向循环神经网络模型；具体为，将步骤S1提取的特征信息以序列形式输入双向循环神经网络模型的双向循环神经网络中；

步骤S3：基于WLU，为多无人机决策系统设计个体奖励函数；

2.根据权利要求1所述的用于多无人机系统持续覆盖特定区域的深度强化学习方法，其特征在于，所述步骤S3中利用WLU方法，为每架无人机设置个体奖励。

3.根据权利要求1所述的用于多无人机系统持续覆盖特定区域的深度强化学习方法，其特征在于，所述步骤S4中，基于强化学习Actor-critic网络，利用确定性策略梯度方法训练步骤中S1和S2的神经网络模型，直至loss收敛时终止。

4.根据权利要求1所述的用于多无人机系统持续覆盖特定区域的深度强化学习方法，其特征在于，所述步骤S2中，将步骤S1提取的特征向量作为多无人机系统控制决策模型和动作值函数模型的输入，将无人机的航向和飞行距离作为控制决策模型的输出。

5.根据权利要求1所述的用于多无人机系统持续覆盖特定区域的深度强化学习方法，其特征在于，所述步骤S2中，扩展输出参数，用以实现异构无人机的控制。

6.根据权利要求1-3中任意一项所述的用于多无人机系统持续覆盖特定区域的深度强化学习方法，其特征在于，所述步骤S2中，建立双向循环网络actor网络、critic网络，所述actor网络以步骤S1中提取的特征向量为输入，以无人机的控制输出——航向、飞行距离为输出；所述critic网络以步骤S1中提取的特征向量及actor网络输出为输入，以Q值为输出。

7.根据权利要求6所述的用于多无人机系统持续覆盖特定区域的深度强化学习方法，其特征在于，在步骤S1中，覆盖区域指定为矩形区域，建立提取特征的卷积神经网络模型时将区域划分为正方形网格，定义每个网格的覆盖周期、定义每个网格与无人机的相对距离、相对角度，以覆盖周期、相对距离、角度组成的特征矩阵为卷积神经网络的输入，经过若干卷积层池化层，输出待覆盖区域的特征向量。

8.根据权利要求7所述的用于多无人机系统持续覆盖特定区域的深度强化学习方法，其特征在于，在所述actor网络中，利用vggNet提取待覆盖区域的特征，将提取的特征输入双向循环神经网络，最后得到无人机的控制输出，即无人机的航向及飞行距离。

9.根据权利要求8所述的用于多无人机系统持续覆盖特定区域的深度强化学习方法，其特征在于，所述步骤S4的步骤包括：

步骤S401：将步骤S1提取特征的vggNet合并入actor、critic网络；

步骤S404：初始化经验池；

步骤S405：随机初始化无人机位置，初始化网格覆盖周期，获取初始feature maps¹；

步骤S406：训练网络，迭代执行下述步骤S407-步骤S411；

步骤S409：从经验池B中选取小批量的数据，通过online critic网络、online actor网络计算

沿着平方误差：

的负梯度方向更新online critic网络参数；

步骤S410：沿着策略梯度：

的方向，更新onlineactor网络参数；

步骤S411：利用online网络参数更新target网络参数。