CN117826867A

CN117826867A - 无人机集群路径规划方法、装置和存储介质

Info

Publication number: CN117826867A
Application number: CN202410240296.8A
Authority: CN
Inventors: 陆亚飞; 韩哲; 薛均晓; 严笑然; 滕皓; 刘洋; 张德文; 郭刚
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2024-03-04
Filing date: 2024-03-04
Publication date: 2024-04-05
Anticipated expiration: 2044-03-04

Abstract

本申请涉及一种无人机集群路径规划方法、装置和存储介质，其中，该无人机集群路径规划方法包括：通过根据预设的连续课程学习框架确定各无人机的任务成功范围；在任务成功范围内，根据各无人机获取到的局部观测状态信息和各无人机的自身性能约束信息，对应用于无人机的无人机集群路径规划模型进行训练；根据各无人机的存活状态或预设的训练时间确定训练是否结束；若是，则输出最后训练得到的目标无人机集群路径规划模型；根据目标无人机集群路径规划模型输出待规划的各无人机实际航行路径。提高了无人机自主学习课和应对复杂的三维环境的能力，提高了路径规划的准确性。

Description

无人机集群路径规划方法、装置和存储介质

技术领域

本申请涉及路径规划领域，特别是涉及无人机集群路径规划方法、装置和存储介质。

背景技术

随着无人机技术的不断发展，无人机的应用越来越广泛，如搜索、救援、监测、军事等。其中，无人机协同路径规划是无人机系统研究中的重要方向之一，主要是通过无人机集群的协同飞行完成特定的任务。无人机在训练过程中需要对任务进行学习，目前主要是通过引入课程学习来缓解无人机在复杂任务中学习的难题，课程学习指从目标任务中构建一组更简单的任务，实现对复杂任务的分解从而加速学习，当下传统的课程学习方法需要人为手动设置并切换课程，当课程间的任务难度相差较大时会导致课程学习效果不理想或者任务学习失败。在无人机协同路径规划中，目前采用的方法有通过改进A算法来生成航路完成特定的飞行任务，但该方法由于缺少对未知动态障碍的考虑，难以应对复杂多变的实际环境；另外，目前采用的还有基于多智能体强化学习的多无人机协同方法，但是目前该方法主要是针对二维地形，无法应对复杂的三维环境，另外，无人机自身存在的约束条件也会影响路径规划，导致路径规划不够准确。

针对相关技术中存在无人机自主学习课程难、难以应对复杂的三维环境和路径规划不够准确的问题，目前还没有提出有效的解决方案。

发明内容

在本实施例中提供了一种无人机集群路径规划方法、装置和存储介质，以解决相关技术中无人机自主学习课程难、难以应对复杂的三维环境和路径规划不够准确问题。

第一个方面，在本实施例中提供了一种无人机集群路径规划，包括，

根据预设的连续课程学习框架确定各无人机的任务成功范围；

在任务成功范围内，根据各无人机获取到的局部观测状态信息和各无人机的自身性能约束信息，对应用于无人机的无人机集群路径规划模型进行训练；

根据各无人机的存活状态或预设的训练时间确定训练是否结束；若是，则输出最后训练得到的目标无人机集群路径规划模型；

根据目标无人机集群路径规划模型输出待规划的各无人机实际航行路径。

在其中的一些实施例中，各无人机获取到的局部观测状态信息包括：各无人机的初始位置、各无人机的初始速度、各无人机观测半径内的其他无人机的初始位置和初始速度、地形信息、各无人机的存活状态以及各无人机遭受到威胁的次数。

在其中的一些实施例中，各无人机的自身性能约束信息包括：各无人机的最大爬升角度、各无人机的最大下降角度、各无人机的单个最大转动角度、各无人机的最高飞行高度以及各无人机的最低飞行高度。

在其中的一些实施例中，在任务成功范围内，根据各无人机获取到的局部观测状态信息和各无人机的自身性能约束信息，对应用于无人机的无人机集群路径规划模型进行训练，包括：

根据多代理近端策略优化算法结合各无人机获取到的局部观测状态信息和各无人机的自身性能约束信息，对应用于无人机的无人机集群路径规划模型进行训练。

在其中的一些实施例中，根据回合数对训练任务成功范围进行缓慢递减，得到初始目标任务集；

根据线性链的形式对初始目标任务集进行从易到难的排序，得到目标任务集；

将目标任务集应用于连续课程学习框架。

在其中的一些实施例中，根据任务感知环境，构建各无人机的仿真环境；

在仿真环境中预设碰撞检测模块检测各无人机在训练过程中是否发生碰撞；

在仿真环境中预设地形遮挡模块检测各无人机在训练过程中是否被地形遮挡；

根据碰撞检测模块的碰撞检测结果，和地形遮挡模块的遮挡检测结果，确定各无人机的存活状态。

在其中的一些实施例中，各无人机的存活状态包括：存活、受到威胁以及死亡。

在其中的一些实施例中，在根据各无人机的存活状态以及仿真时间确定训练是否结束之前，还包括：

设置目标距离奖励函数对各无人机进行奖励训练。

第二个方面，在本实施例中提供了一种无人机集群路径规划装置，包括：确定模块、训练模块、判断模块以及输出模块，其中，

确定模块，用于根据预设的连续课程学习框架确定各无人机的任务成功范围；

训练模块，用于在任务成功范围内，根据各无人机获取到的局部观测状态信息和各无人机的自身性能约束信息，对应用于无人机的无人机集群路径规划模型进行训练；

判断模块，用于根据各无人机的存活状态或预设的训练时间确定训练是否结束，若是，则输出最后训练得到的目标无人机集群路径规划模型；

输出模块，用于根据目标无人机集群路径规划模型输出待规划的各无人机实际航行路径。

第三个方面，在本实施例中提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一个方面所述的无人机集群路径规划方法。

与相关技术相比，在本实施例中提供的无人机集群路径规划方法，通过根据预设的连续课程学习框架确定各无人机的任务成功范围；在任务成功范围内，根据各无人机获取到的局部观测状态信息和各无人机的自身性能约束信息，对应用于无人机的无人机集群路径规划模型进行训练；根据各无人机的存活状态或预设的训练时间确定训练是否结束；若是，则输出最后训练得到的目标无人机集群路径规划模型；根据目标无人机集群路径规划模型输出待规划的各无人机实际航行路径。提高了无人机自主学习课程和应对复杂的三维环境的能力，提高路径规划的准确性。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是本实施例的无人机集群路径规划方法的终端的硬件结构框图。

图2是本实施例的无人机集群路径规划方法的流程图。

图3为本实施例的无人机通过地形遮挡模块检测是否有地形遮挡示意图。

图4是本实施例的另一种无人机集群路径规划方法的流程图。

图5是本实施例的无人机集群路径规划装置的结构框图。

具体实施方式

为更清楚地理解本申请的目的、技术方案和优点，下面结合附图和实施例，对本申请进行了描述和说明。

除另作定义外，本申请所涉及的技术术语或者科学术语应具有本申请所属技术领域具备一般技能的人所理解的一般含义。在本申请中的“一”、“一个”、“一种”、“该”、“这些”等类似的词并不表示数量上的限制，它们可以是单数或者复数。在本申请中所涉及的术语“包括”、“包含”、“具有”及其任何变体，其目的是涵盖不排他的包含；例如，包含一系列步骤或模块（单元）的过程、方法和系统、产品或设备并未限定于列出的步骤或模块（单元），而可包括未列出的步骤或模块（单元），或者可包括这些过程、方法、产品或设备固有的其他步骤或模块（单元）。在本申请中所涉及的“连接”、“相连”、“耦接”等类似的词语并不限定于物理的或机械连接，而可以包括电气连接，无论是直接连接还是间接连接。在本申请中所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。通常情况下，字符“/”表示前后关联的对象是一种“或”的关系。在本申请中所涉及的术语“第一”、“第二”、“第三”等，只是对相似对象进行区分，并不代表针对对象的特定排序。

在本实施例中提供的方法实施例可以在终端、计算机或者类似的运算装置中执行。比如在终端上运行，图1是本实施例的无人机集群路径规划方法的终端的硬件结构框图。如图1所示，终端可以包括一个或多个（图1中仅示出一个）处理器102和用于存储数据的存储器104，其中，处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置。上述终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述终端的结构造成限制。例如，终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示出的不同配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如在本实施例中的无人机集群路径规划方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备106用于经由一个网络接收或者发送数据。上述的网络包括终端的通信供应商提供的无线网络。在一个实例中，传输设备106包括一个网络适配器（NetworkInterface Controller，简称为NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备106可以为射频（RadioFrequency，简称为RF）模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种无人机集群路径规划方法，图2是本实施例的无人机集群路径规划方法的流程图，如图2所示，该流程包括如下步骤：

步骤S201，根据预设的连续课程学习框架确定各无人机的任务成功范围。

无人机（Unmanned Aerial Vehicle，UAV）是一种具备自主飞行和独立执行任务能力的新型作战平台，不仅能够执行军事侦察、监视、搜索、目标指向等非攻击性任务，而且还能够执行对地攻击和目标轰炸等作战任务。随着无人机技术的快速发展，越来越多的无人机将应用在未来战场。在无人机集群路径规划策略的过程中，任务成功范围是决定任务难度的重要因素，任务成功范围是指在完成任务时所达到的目标、满足的要求、完整的交付物以及有效控制的范围。只有在这些方面都得到满足的情况下，任务才能被认为是成功完成的。通常越靠近目标点，未知障碍的威胁也会越大，无人机从简单任务直接到难度系数大的任务，由于任务难度相差较大，无人机难以适应新难度任务的学习，从而导致任务学习失败。通过引入课程学习来实现对目标任务的分解，通过预设的连续课程学习框架对无人机的任务成功范围进行处理，具体可以是对任务难度进行排序，通过控制任务成功范围对任务难度进行从易到难缓慢递增进行排列，从而得到处理后的任务成功范围，在该任务成功范围内，使无人机将简单任务下的经验迁移至复杂任务，从而成功学习复杂任务。通过预设的连续课程学习框架可以提高无人机的自主学习能力，完成既定的训练任务。

步骤S202，在任务成功范围内，根据各无人机获取到的局部观测状态信息和各无人机的自身性能约束信息，对应用于无人机的无人机集群路径规划模型进行训练。

在确定无人机任务成功范围之后，无人机在训练过程中，受当下观测到的状态信息和无人机自身性能约束信息的影响，当下观测到的信息体现无人机当下的状态，另外无人机自身性能也有局限性，其自身性能影响训练后的动作是否能够完全执行。综合考虑无人机观测到的状态信息和无人机的自身性能约束信息，对无人机集群路径规划模型进行训练。

步骤S203，根据各无人机的存活状态或预设的训练时间确定训练是否结束；若是，则输出最后训练得到的目标无人机集群路径规划模型。

在无人机集群路径规划模型训练过程中，判断各无人机每次训练后的存活状态，当其中任意一架无人机完成任务或者所有无人机均死亡的情况下，返回训练终止信号，训练结束，得到目标无人机集群路径规划模型。或者当无人机都存活的情况下，训练的时间达到预设值，则返回训练终止信号，训练结束，得到目标无人机集群路径规划模型。

步骤S204，根据目标无人机集群路径规划模型输出待规划的各无人机实际航行路径。

根据训练好的目标无人机集群路径规划模型，对需要进行路径规划的无人机进行航行路径规划，通过该模型输出具体的航行路径，从而控制无人机的飞行，以完成既定的飞行任务。

通过上述步骤S201至步骤S204，根据预设的连续课程学习框架确定各无人机的任务成功范围；在任务成功范围内，根据各无人机获取到的局部观测状态信息和各无人机的自身性能约束信息，对应用于无人机的无人机集群路径规划模型进行训练；根据各无人机的存活状态或预设的训练时间确定训练是否结束；若是，则输出最后训练得到的目标无人机集群路径规划模型；根据目标无人机集群路径规划模型输出待规划的各无人机实际航行路径。与目前需要人为手动设置并切换课程相比，本申请通过预设的连续课程学习框架对无人机的任务成功范围进行处理，从而使无人机可以将简单任务下的经验迁移至复杂任务，提高了无人机的自主学习课程能力；与目前采用的基于多智能体强化学习的多无人机协同方法相比，本申请通过在模型训练过程中结合无人机的局部观测状态信息，可以有效地应对复杂的三维环境，综合考虑无人机自身性能约束信息，提高了模型对实际路径规划的准确性。

无人机在观测半径的约束下获取局部观测状态，其中局部观测状态包括但不限于无人机的初始位置，无人机的初始速度，无人机观测半径内的友机的初始位置和初始速度，有限范围内的地形信息，各无人机的存活状态和各无人机遭受到威胁的次数。其中，由于地形信息是三维数据，无法将其直接加入局部观测状态变量。本实施例在算法中通过添加卷积网络，使用卷积网络提取一定范围内的地形信息。其具体过程如下：

首先，根据无人机的三维位置（u _x，u _y，u _z）和无人机观测半径r从高程信息矩阵中提取2rX2r的二维矩阵，对于地图边缘丢失的信息用0填充。

然后，将提取的信息处理成（B，C，H，W）格式。其中，B为输入的样本数量，C为图像通道数，H为输入的高度，W为示输入的宽度。在卷积层中，将输入的原始矩阵和卷积核做互相关运算，提取出关键的特征信息。其具体的公式如下：

（1）

其中，Output（x，y）为卷积输出的新矩阵，I为原始矩阵，K表示卷积核，d为卷积核的尺寸减1；i为核矩阵的行数，j为核矩阵的列数。

经过卷积层处理后，本实施例采用混合池化对卷积层输出的特征图进行下采样处理，其中混合池化包括最大池化和平均池化，随机采用其中的一种进行下采样处理。通过混合池化对特征图进行下采样处理，在保留有用信息的同时可以减少特征图的大小，其具体公式如下：

（2）

其中，λ是0或1的随机值，表示随机选择使用最大池化或平均池化；v _kxy为第k个特征图位置（x，y）处的元素，G _ij为包含位置（x，y）局部领域的池化区域。

通过混合池化对卷积层输出的特征图进行下采样处理后，在一定程度上可以缓解神经网络过拟合的现象。

最后，通过全连接层将提取的地理信息转换为一维向量，将地理信息以一维向量的信息加入到无人机的局部观测状态信息中，以备后续的训练。

在另一个实施例中，各无人机的自身性能约束信息包括：各无人机的最大爬升角度、各无人机的最大下降角度、各无人机的单个最大转动角度、各无人机的最高飞行高度以及各无人机的最低飞行高度。

无人机在执行训练动作时往往还受其自身性能约束的影响，本实施例中无人机自身性能约束信息有最大爬升角度mca、最大下降角度mda、单个仿真步（在仿真环境中，无人机训练一个动作，记作一个仿真步）的最大转动角度mta、最低飞行高度minh和最高飞行高度maxh。其跟当下无人机的飞行速度有关，其具体计算公式如下：

（3）

（4）

（5）

其中，v _u为无人机的飞行速度，v _c为无人机的最大爬升速率，v _d为无人机的最大下降速率，w _u为无人机水平转动的最大角速度，t _step为单个仿真步长所代表的时间。

在其中一些实施例中，在任务成功范围内，根据各无人机获取到的局部观测状态信息和各无人机的自身性能约束信息，对应用于无人机的无人机集群路径规划模型进行训练，包括：根据多代理近端策略优化算法结合各无人机获取到的局部观测状态信息和各无人机的动作约束信息，对应用于无人机的无人机集群路径规划模型进行训练。

在任务成功范围内，采用多代理近端策略优化算法训练无人机集群路径规划模型，其具体训练步骤如下：

a、初始化目标位置、未知障碍位置以及各无人机的位置；本实施例在地图有效范围内随机选择一点（t _x，t _y，t _z）作为目标位置，并在距离目标位置r处随机设置未知障碍位置（w _x， w _y，w _z），然后在距离目标位置一定范围内[R _min，R _max]和初始高度H的约束下随机初始化各无人机的位置(u _x， u _y，u _z），并根据以下公式，检测各无人机初始化的位置是否合理：

（6）

其中，n _x为地图数据的行数，n _y为地图数据的列数，P是数据精度，dis _ui，uj是无人机u _i与无人机u _j之间的距离，uav _len是一架无人机的长度（其中各无人机的长度一致），dis _safe是无人机发碰撞安全距离。若各无人机初始化的位置符合上述公式要求，则判断为初始化合理。

b、各无人机在观测半径的约束下获取无人机局部观测状态。

本实施例中的状态变量包含无人机的初始位置（u _ix，u _iy，u _iz）、无人机的初始速度（v _ix，v _iy，v _iz）、无人机观测半径r _u内的友机位置（u _jx，u _jy，u _jz）与友机速度（v _jx，v _jy，v _jz）、有限范围内的地形信息、存活状态和累计遭受到威胁次数。为了消除量纲所造成的影响和提升模型的收敛性能，本实施例对输入的状态变量进行了归一化处理，其具体公式如下：

（7）

其中，s为输入的状态变量，s _max为该状态变量在其量纲上的最大值。

c、根据多智能体强化学习算法（Multi-Agent Proximal Policy Optimization简称MAPPO算法）输出的动作以及无人机自身性能约束信息确定无人机实际执行的动作。其中，MAPPO算法是基于近端策略优化（ProximalPolicy Optimization 简称PPO算法）算法的扩展，通过引入多智能体的观察和动作空间，来处理多智能体之间的相互影响和协作。通过优化每个智能体的策略，使得整个系统的性能最优化。

本实施例中无人机的动作空间是[α，β]。其中，α是水平转角，表示方向在二维坐标XOY面上的投影与Y轴正向的夹角，取值范围是[0，2π]；β是俯仰角，表示方向与XOY面的夹角，理论取值范围是[-0.5π，0.5π]。

在计算无人机实际执行的动作之前，本实施例先获取无人机的局部观测状态信息，以获取上一仿真步无人机的位置信息（x _last，y _last，z _last）和速度信息（v _{x_last}，v _{y_last}，v _{z_last}）。根据上一仿真步的速度信息计算出上一仿真步的α _last和β _last。其计算公式如下：

（8）

（9）

其中，v _u为无人机当下的速度，t _step为单个仿真步长所代表的时间。根据最大转动角度的约束以及上一仿真步的水平转角α _last，α的实际取值范围[α _last -mta，α _last +mta]。对于俯仰角的实际取值范围，根据最大爬升角度、最大下降角度、最低飞行高度和最高飞行高度的约束，在不考虑无人机飞行高度的约束时，俯仰角的初始取值范围是[-mda，mca]。当无人机高度高于最高飞行高度时，则将仰角设置为0。当无人机高度低于最低飞行高度时，则将俯角设置为0。当无人机下一仿真步的高度高于最高飞行高度时，则将仰角修正为arcsin（）。当无人机下一仿真步的高度低于最低飞行高度时，则将俯角修正为-arcsin（/>）。

根据水平转角α和俯仰角β的取值范围，确定无人机实际执行的动作，其具体公式如下：

（10）

（11）

其中，A[0]、A[1]是MAPPO算法输出的离散动作值（A∈[0,1]），α_bd[0]、β_bd[0]是取值范围的下界，α_bd[1]、β_bd[1]是取值范围的上界。

d、计算每架无人机执行动作后的速度信息（v _x ，v _y ，v _z）和位置信息（x，y，z），其计算公式如下：

（12）

（13）

（14）

（15）

（16）

（17）

根据无人机执行动作后的位置信息和速度信息判断无人机的存活状态，通过无人机的存活状态判断训练是否结束，完成无人机集群路径规划模型的训练。

在另一个实施例中，根据回合数对训练任务成功范围进行缓慢递减，得到初始目标任务集；根据线性链的形式对初始目标任务集进行从易到难的排序，得到目标任务集；将目标任务集应用于连续课程学习框架。

具体地，在无人机集群路径规划模型训练的过程中，任务成功范围是决定任务难度的重要因素。越靠近目标点，未知障碍的威胁也会越大，无人机策略会更难学习，本实施例通过设置连续课程学习框架，通过回合数缓慢递减任务成功范围，从而依次增加任务难度，从而解决由于任务难度相差较大导致无人机在训练过程中学习难和学习失败的问题。其具体公式如下：

（18）

其中，sr _t是训练t回合时的任务成功范围，sr _T是目标任务(困难)的成功范围，sr ₀是基本任务(简单)的成功范围，n _epoch是当前训练回合数，η用于控制任务成功范围的递减速度。在缓慢增加任务难度的过程中，自动地根据目标任务生成初始目标任务集T，并自动地采取有向图的方法对初始目标任务集中的子任务进行排序，根据任务的难易程度从低到高进行排列。连续课程学习C=（D，E，T）是一个有向无环图，其中每个顶点D_i（D_i∈D）分配一个任务T_i（T_i∈T）。每个有向边<D_j，D_k>表明顶点D_j所表示的子任务T_j应该在顶D_k所表示的子任务T_k之前训练。连续课程学习C中所有有向路径都最终指向根顶点D_T(目标任务T）。连续课程学习以线性链的形式对初始目标任务集T中的子任务进行排序，逐步增加任务难度，引导多智能体将简单任务下的经验迁移至复杂任务，得到目标任务集，通过无人机在目标任务集中的学习训练得到连续课程学习框架，通过连续课程学习框架，从而使无人机能够在复杂的环境和稀疏的奖励中成功地进行学习和训练。

在另一些实施例中，根据任务感知环境，构建各无人机的仿真环境；在仿真环境中预设碰撞检测模块检测各无人机在训练过程中是否发生碰撞；在仿真环境中预设地形遮挡模块检测各无人机在训练过程中是否被地形遮挡；根据碰撞检测模块的碰撞检测结果，和地形遮挡模块的遮挡检测结果，确定各无人机的存活状态。各无人机的存活状态包括：存活、受到威胁以及死亡。

基于实际地形的高程数据构建仿真环境，同时在仿真环境中设置碰撞检测模块和地形遮挡检测模块。

本实施例构建仿真环境时使用的地图数据的行数记为n _x，列数记为n _y，每个数据栅格的地理信息包含坐标(x，y)和高度h _xy，其中x为行坐标（1≤x≤n _x），y为列坐标（1≤y≤n _y），数据精度为P。因此，地图在x轴方向的位置取值范围是[0，]，在y轴方向的位置取值范围是[0，/>]。

为了更好地模拟现实世界中无人机发生碰撞的情形，在仿真环境中预设碰撞检测模块，用于检测各无人机在训练过程中是否发生碰撞，其中碰撞的情况分为无人机与无人机之间的碰撞、无人机与地形之间的碰撞。其具体判断规则如下:

无人机与无人机之间的碰撞：

（19）

无人机与地形之间的碰撞：

（20）

其中，dis _ui，uj为无人机i与无人机j之间的距离，uav _len表示一架无人机长度（其中各无人机的长度一致），dis _safe为示预先设定的安全碰撞距离，h _xy表示无人机在位置坐标(x，y)上的飞行高度。

在无人机靠近目标位置的时候，无人机通过对地形遮挡的判断来躲避未知障碍的威胁。因此，通过在仿真环境设置地形遮挡模块，以训练无人机躲避未知障碍威胁的技巧。其具体训练过程如下：

首先，根据无人机的空间坐标（u _x，u _y，u _z）和未知障碍的初始空间坐标（w _x，w _y，w _z），计算无人机距离未知障碍初始位置的距离dis _uw，其计算公式如下：

（21）

然后，计算无人机与未知障碍初始位置的连线上每个栅格点的高度，其计算公式如下：

（22）

其中，z _m为无人机与未知障碍初始位置的连线上某个栅格点的高度，dis _m为无人机与未知障碍连线上某个栅格点距离未知障碍初始位置的距离。

根据计算得到的高度z _m与该栅格点的实际地理高度进行比较，若该高度小于实际地形高度，则判断山地遮挡为真，进而判定有未知障碍的威胁，进一步调整无人机飞行路径，躲避未知障碍。

图3为本实施例的无人机通过地形遮挡模块检测是否有地形遮挡示意图。如图3所示，曲线部分为地形（山），五角星为无人机位置，三角形为未知障碍初始位置，白底圆形为无人机位置与未知障碍物初始位置连线上的地形的实际高度，条纹㡳圆形为无人机位置与未知障碍物初始位置连线上的每个栅格点的高度，两条纵向虚线之间为一个栅格点，如果白底圆形均在条纹㡳圆形之下，表示无地形遮挡。

通过碰撞检测模块检测到无人机发生碰撞，则无人机的存活状态为死亡，通过地形遮挡模块检测到无人机被地形遮挡，则判断无人机的存活状态为受到威胁；若都没有检测到，则判断无人机的存活状态为存活。

在其中一个实施例中，在根据各无人机的存活状态以及仿真时间确定训练是否结束之前，还包括：设置目标距离奖励函数对各无人机进行奖励训练。

通过设置目标距离奖励，引导无人机向目标位置移动，其目标距离奖励公式如下：

（23）

其中，τ是任务距离奖励的缩放系数，dis_last _ut是上一仿真步无人机与目标位置的距离，dis _ut是当前仿真步无人机与目标位置的距离。当无人机上一仿真步处于受攻击状态而在当前仿真步被地形遮挡，则给予无人机以正向奖励，鼓励无人机利用地形躲避未知障碍所带来的威胁。当无人机与地形或者其他无人机发生碰撞时，则给予惩罚，让无人机学习到与地形或者其他无人机保持一定的安全距离。当无人机进入到目标的任务成功范围，则给予无人机巨大的成功奖励，使无人机更加清楚地知道自己的目标。当环境的仿真训练时间超过预设的最大训练时间时，则给予超时惩罚，用来提醒无人机尽快向目标移动。

当任意一架无人机完成任务或者所有无人机均死亡或者训练时间超过预设的最大训练时间时，返回回合终止信号，训练结束，得到目标无人机集群路径规划模型。

在本实施例中还提供了一种无人机集群路径规划方法。图4是本实施例的另一种无人机集群路径规划方法的流程图，如图4所示，该流程包括如下步骤：

步骤S401，基于实际地形的高程数据构建仿真环境，同时在仿真环境中预设碰撞检测模块和地形遮挡检测模块；

步骤S402，根据回合数对训练任务成功范围进行缓慢递减得到初始目标任务集，根据线性链的形式对初始目标任务集进行排序，得到目标任务集，将目标任务集应用于连续课程学习框架；

步骤S403，根据多代理近端策略优化算法，结合各无人机获取的局部观测状态信息和各无人机的自身性能约束信息以及连续课程学习框架，训练无人机集群路径规划模型，其中，通过预设的碰撞检测模块检测无人机训练过程中的碰撞结果，通过地形遮挡模块检测无人机被地形遮挡的遮挡结果；

步骤S404，根据碰撞检测模块的碰撞检测结果和地形遮挡模块的遮挡结果判断各无人机的存活状态，当任意一架无人机完成任务或者所有无人机均死亡或者达到预设的训练时间，返回终止信号，训练结束，得到目标无人机集群路径规划模型；

步骤S405，根据得到的目标无人机集群路径规划模型，输出待规划的各无人机实际航行路径。

通过上述步骤S401至步骤S405，与目前通过人为手动设置并切换课程相比，本申请通过连续课程学习框架将无人机的任务进行排序处理，提高了无人机在训练过程中对任务的学习能力；目前采用的通过改进A算法来生成航路完成特定的飞行任务相比，本申请通过在仿真环境中预设碰撞检测模块和地形遮挡模块对无人机进行训练，提高了无人机在执行任务过程中躲避未知动态障碍的能力；与目前采用的基于多智能体强化学习的多无人机协同方法相比，本申请通过结合无人机的局部观测状态和自身性能约束信息，解决了三维地形和无人机自身性能约束对路径规划的影响，提高了无人机集群路径规划的准确性。

在本实施例中还提供了一种无人机集群路径规划装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。以下所使用的术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管在以下实施例中所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图5是本实施例的无人机集群路径规划装置的结构框图，如图5所示，该装置50包括：确定模块51、训练模块52、判断模块53以及输出模块54，其中，

确定模块51，用于根据预设的连续课程学习框架确定各无人机的任务成功范围；

训练模块52，用于在任务成功范围内，根据各无人机获取到的局部观测状态信息和各无人机的自身性能约束信息，对应用于无人机的无人机集群路径规划模型进行训练；

判断模块53，用于根据各无人机的存活状态或预设的训练时间确定训练是否结束，若是，则输出最后训练得到的目标无人机集群路径规划模型；

输出模块54，用于根据目标无人机集群路径规划模型输出待规划的各无人机实际航行路径。

需要说明的是，上述各个模块可以是功能模块也可以是程序模块，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的模块而言，上述各个模块可以位于同一处理器中；或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

在本实施例中还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，根据预设的连续课程学习框架确定各无人机的任务成功范围；

S2，在任务成功范围内，根据各无人机获取到的局部观测状态信息和各无人机的自身性能约束信息，对应用于无人机的无人机集群路径规划模型进行训练；

S3，根据各无人机的存活状态或预设的训练时间确定训练是否结束；若是，则输出最后训练得到的目标无人机集群路径规划模型；

S4，根据目标无人机集群路径规划模型输出待规划的各无人机实际航行路径。

需要说明的是，在本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，在本实施例中不再赘述。

此外，结合上述实施例中提供的无人机集群路径规划方法，在本实施例中还可以提供一种存储介质来实现。该存储介质上存储有计算机程序；该计算机程序被处理器执行时实现上述实施例中的任意一种无人机集群路径规划方法。

应该明白的是，这里描述的具体实施例只是用来解释这个应用，而不是用来对它进行限定。根据本申请提供的实施例，本领域普通技术人员在不进行创造性劳动的情况下得到的所有其它实施例，均属本申请保护范围。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据。

显然，附图只是本申请的一些例子或实施例，对本领域的普通技术人员来说，也可以根据这些附图将本申请适用于其他类似情况，但无需付出创造性劳动。另外，可以理解的是，尽管在此开发过程中所做的工作可能是复杂和漫长的，但是，对于本领域的普通技术人员来说，根据本申请披露的技术内容进行的某些设计、制造或生产等更改仅是常规的技术手段，不应被视为本申请公开的内容不足。

“实施例”一词在本申请中指的是结合实施例描述的具体特征、结构或特性可以包括在本申请的至少一个实施例中。该短语出现在说明书中的各个位置并不一定意味着相同的实施例，也不意味着与其它实施例相互排斥而具有独立性或可供选择。本领域的普通技术人员能够清楚或隐含地理解的是，本申请中描述的实施例在没有冲突的情况下，可以与其它实施例结合。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对专利保护范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种无人机集群路径规划方法，其特征在于，包括：

在所述任务成功范围内，根据所述各无人机获取到的局部观测状态信息和所述各无人机的自身性能约束信息，对应用于无人机的无人机集群路径规划模型进行训练；

根据所述各无人机的存活状态或预设的训练时间确定所述训练是否结束；若是，则输出最后训练得到的目标无人机集群路径规划模型；

根据所述目标无人机集群路径规划模型输出待规划的各无人机实际航行路径。

2.根据权利要求1所述的无人机集群路径规划方法，其特征在于：

所述各无人机获取到的局部观测状态信息包括：所述各无人机的初始位置、所述各无人机的初始速度、所述各无人机观测半径内的其他无人机的初始位置和初始速度、地形信息、所述各无人机的存活状态以及所述各无人机遭受到威胁的次数。

3.根据权利要求1所述的无人机集群路径规划方法，其特征在于：

所述各无人机的自身性能约束信息包括：所述各无人机的最大爬升角度、所述各无人机的最大下降角度、所述各无人机的单个最大转动角度、所述各无人机的最高飞行高度以及所述各无人机的最低飞行高度。

4.根据权利要求1所述的无人机集群路径规划方法，其特征在于，所述在所述任务成功范围内，根据所述各无人机获取到的局部观测状态信息和所述各无人机的自身性能约束信息，对应用于无人机的无人机集群路径规划模型进行训练，包括：

根据多代理近端策略优化算法结合所述各无人机获取到的局部观测状态信息和所述各无人机的自身性能约束信息，对应用于无人机的无人机集群路径规划模型进行训练。

5.根据权利要求1所述的无人机集群路径规划方法，其特征在于，所述方法还包括：

根据回合数对训练任务成功范围进行缓慢递减，得到初始目标任务集；

根据线性链的形式对所述初始目标任务集进行从易到难的排序，得到目标任务集；

将所述目标任务集应用于所述连续课程学习框架。

6.根据权利要求1所述的无人机集群路径规划方法，其特征在于，所述方法还包括：

根据任务感知环境，构建所述各无人机的仿真环境；

在所述仿真环境中预设碰撞检测模块检测所述各无人机在训练过程中是否发生碰撞；

在所述仿真环境中预设地形遮挡模块检测所述各无人机在训练过程中是否被地形遮挡；

根据所述碰撞检测模块的碰撞检测结果，和所述地形遮挡模块的遮挡检测结果，确定所述各无人机的存活状态。

7.根据权利要求1所述的无人机集群路径规划方法，其特征在于，

所述各无人机的存活状态包括：存活、受到威胁以及死亡。

8.根据权利要求1所述的无人机集群路径规划方法，其特征在于，在根据所述各无人机的存活状态以及仿真时间确定所述训练是否结束之前，所述方法还包括：

设置目标距离奖励函数对所述各无人机进行奖励训练。

9.一种无人机集群路径规划装置，其特征在于，包括：确定模块、训练模块、判断模块以及输出模块，其中：

所述确定模块，用于根据预设的连续课程学习框架确定各无人机的任务成功范围；

所述训练模块，用于在所述任务成功范围内，根据所述各无人机获取到的局部观测状态信息和所述各无人机的自身性能约束信息，对应用于无人机的无人机集群路径规划模型进行训练；

所述判断模块，用于根据所述各无人机的存活状态或预设的训练时间确定所述训练是否结束，若是，则输出最后训练得到的目标无人机集群路径规划模型；

所述输出模块，用于根据所述目标无人机集群路径规划模型输出待规划的各无人机实际航行路径。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的无人机集群路径规划方法的步骤。