CN115164890A

CN115164890A - 一种基于模仿学习的群体无人机自主运动规划方法

Info

Publication number: CN115164890A
Application number: CN202210651734.0A
Authority: CN
Inventors: 王冀; 李伟; 甘中学; 候梓越; 张隆源; 刘子昂
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2022-06-09
Filing date: 2022-06-09
Publication date: 2022-10-11

Abstract

本发明涉及一种基于模仿学习的群体无人机自主运动规划方法，该方法包括：构建专家系统：获取用于模仿学习的数据集，包括实时环境感知、无人机自身状态、群体中其他无人机信息、无人机自身实时预测轨迹；构建学生系统：包括通过模仿学习进行无人机轨迹预测的神经网络推理模块，神经网络推理模块通过专家系统获取的数据集进行训练；对群体中的每个无人机分别配置训练过的学生系统，通过学生系统进行无人机轨迹预测，完成自主运动规划。与现有技术相比，本发明采用了模仿学习，无需设计有限状态机决策过程，完全依靠神经网络的学习进行决策，融合了自主规划与决策过程，节约了时间。

Description

一种基于模仿学习的群体无人机自主运动规划方法

技术领域

本发明涉及无人机技术领域，尤其是涉及一种基于模仿学习的群体无人机自主运动规划方法。

背景技术

随着社会和科技的发展，人们时常在各种场景下遇见无人机群执行任务。但是在目前机器人的实际应用中，一些自主移动无人机在运动控制规划方面的性能仍然有待提升。在未来，无人机将深入到更为复杂，恶劣的环境中去，执行人类办不到，或者可能需要付出巨大代价的任务中，如探索未知洞穴与原始森林，填埋核废料，甚至是去往其他行星执行任务等。此时，如何让无人机群能够生成快速、高效、相互避碰的规划路径就成了至关重要的问题。

当前存在的群体无人机自主飞行方法，大多数是按照顺序执行环境感知、运动规划、决策控制、再把控制指令传递给执行机构这四个子任务模块。所有的子模块顺序执行时，难免会导致总处理时间增加，必须走完整个流程才可以让无人机避开障碍物。当运动规划算法过于复杂时，更会使得整个流程变慢，导致无人机无法实时处理面临的困境，出现坠毁或者碰撞的情况。除非机载端的CPU计算能力能够达到很强的地步，才不需要考虑规划算法复杂程度这个因素。在运动规划方面考虑两类方法，一类是基于采样，能够满足基本避碰条件，但求得的并不是最优解；另外一类是求解包含很多约束项的非线性优化问题，这类方法解的是最优解，但求解起来非常困难且耗时。在决策层面，多数自主规划方法考虑的是采用有限状态机法，当面对未知状态时，会随机决策，甚至是紧急停止，影响整体飞行速度。因此，如何减少整个自主规划流程消耗的时间，并且尽可能的让无人机更安全、快速的飞行，做出更高效的决策，成为了群体无人机自主飞行领域的主要技术难题。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于模仿学习的群体无人机自主运动规划方法，该方法减少自主规划流程时时间消耗问题，让无人机更快速的跟随安全轨迹，并做出高效决策。

本发明的目的可以通过以下技术方案来实现：

一种基于模仿学习的群体无人机自主运动规划方法，该方法包括：

构建专家系统：获取用于模仿学习的数据集，包括实时环境感知、无人机自身状态、群体中其他无人机信息、无人机自身实时预测轨迹；

构建学生系统：包括通过模仿学习进行无人机轨迹预测的神经网络推理模块，所述的神经网络推理模块通过所述的专家系统获取的数据集进行训练，所述的神经网络推理模块的输入包括实时环境感知、无人机自身状态、群体中其他无人机信息，所述的神经网络推理模块的输出包括无人机自身实时预测轨迹；

对群体中的每个无人机分别配置训练过的学生系统，通过学生系统进行无人机轨迹预测，完成自主运动规划。

优选地，所述的专家系统包括：

环境感知模块：用于获取实时环境感知、无人机自身状态、群体中其他无人机信息；

运动规划模块：用于全局路径规划与局部轨迹优化；

决策控制模块：对运动规划结果进行决策输出无人机的预测轨迹序列，并基于预测轨迹序列进行控制产生控制指令；

控制指令执行机构：接收控制指令并执行。

优选地，所述的学生系统还包括：

环境感知模块：用于获取实时环境感知、无人机自身状态、群体中其他无人机信息，并将获取的输入至所述的神经网络推理模块；

控制执行模块：获取所述的神经网络推理模块输出的无人机自身实时预测轨迹，控制无人机运行。

优选地，所述的实时环境感知包括无人机飞行过程中的实时环境深度图像信息、目的地的指向。

优选地，所述的无人机自身状态包括无人机的位姿及位置信息。

优选地，所述的群体中其他无人机信息包括群体中其他无人机的预测轨迹信息。

优选地，所述的神经网络推理模块包括：

特征处理分支：对实时环境感知、无人机自身状态、群体中其他无人机信息进行处理得到三个类别的特征向量；

模仿学习网络模型：基于输入的特征向量进行模仿学习获取无人机自身实时预测轨迹。

优选地，所述的特征处理分支包括对图像进行特征提取的深度图像特征提取网络。

优选地，所述的深度图像特征提取网络包括MobileNet-V3网络。

优选地，训练所述的神经网络推理模块时的损失函数包括三个部分，分别是标签与神经网络推理模块输出的无人机自身实时预测轨迹之间的对比损失、无人机自身实时预测轨迹与环境中障碍物的碰撞损失、无人机自身实时预测轨迹与其他无人机的预测轨迹碰撞损失。

与现有技术相比，本发明具有如下优点：

(1)本发明可以在复杂的环境下，实现整个群体无人机完成从起始点到预设目标点的自主飞行过程，途中完全依靠自主规划，可以避开沿途的静态障碍物，并且确保无人机与群体中其他无人机之间无碰撞。

(2)本发明采用了模仿学习，因此无需设计有限状态机决策过程，完全依靠神经网络的学习进行决策，融合了自主规划与决策过程，节约了时间。

(3)在本发明中，学生系统的群体无人机自主飞行的速度会比专家系统的速度更快，因为对于得到的群体无碰预测轨迹序列，在设计模型预测控制器时，可以设置更大的控制速度与加速度上下限，使机器人更快的跟踪这些轨迹点。

(4)本发明的专家系统在轨迹优化时是基于非线性优化问题，即基于数学优化方法得到的预测轨迹，能够把每次成功规划的数据都制作成为数据集，因此相比较于一些基于采样得到预测轨迹序列的方法，数据利用率更高。

附图说明

图1为本发明一种基于模仿学习的群体无人机自主运动规划方法的整体框架图；

图2为本发明学生系统中的神经网络推理模块的训练过程示意图；

图3为本发明一种基于模仿学习的群体无人机自主运动规划方法的一种具体实施方案示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。注意，以下的实施方式的说明只是实质上的例示，本发明并不意在对其适用物或其用途进行限定，且本发明并不限定于以下的实施方式。

实施例

如图1所示，本实施例提供一种基于模仿学习的群体无人机自主运动规划方法，该方法包括：

构建学生系统：包括通过模仿学习进行无人机轨迹预测的神经网络推理模块，神经网络推理模块通过专家系统获取的数据集进行训练，神经网络推理模块的输入包括实时环境感知、无人机自身状态、群体中其他无人机信息，神经网络推理模块的输出包括无人机自身实时预测轨迹；

以下针对专家系统和学生系统进行具体说明：

一、专家系统：

专家系统包括四个子模块，分别是环境感知、运动规划、决策控制、控制指令执行机构。

(1)环境感知模块：用于获取实时环境感知、无人机自身状态、群体中其他无人机信息，具体包含着无人机飞行过程中，在当前仿真/实际环境下机载深度相机拍摄的实时深度图像信息、目的地的指向、当前时刻无人机的姿态信息、当前时刻接收到的周围其他无人机的预测轨迹序列等信息，只需要建立栅格地图。

(2)运动规划模块：用于全局路径规划与局部轨迹优化，其中，全局路径规划采用的是满足机器人动力学的混合A*算法，局部轨迹优化构建一个非线性优化问题，其中包括一些约束项，如考虑到轨迹的光滑性、动力学不可行项惩罚、轨迹与环境中障碍物的碰撞惩罚项、群体轨迹碰撞惩罚项等。

(3)决策控制模块：对运动规划结果进行决策输出无人机的预测轨迹序列，并基于预测轨迹序列进行控制产生控制指令，具体地：专家系统的决策部分采用的是有限状态机，当群体无人机中的个体面临任意一种情况时，都会从有限的决策中选取一个最合适的策略，简单而高效。加入了无人机的优先级机制，优先级的规定根据当前无人机距离目标点的欧式距离，欧氏距离越小优先级越高。规定了优先级后，有限状态机可以更加有效的运行，如前方出现了一个狭窄区域，只能允许一架无人机通过，此时需要让高优先级的无人机通过，低优先级的无人机在空中减速或者静止等待，这样可以防止比自己低优先级的无人机对自身路径规划的干扰，最终让整个无人机群全部顺利通过，避免撞机的可能性，并且考虑了规划出的轨迹分别从圆柱形障碍物(如树木、电线杆)两侧绕过的情况。同样，最终输出的是经过优化并可以做出合理决策后的预测轨迹序列，专家系统的控制采用的是模型预测控制器(MPC)。

(4)控制指令执行机构：接收控制指令并执行，即可实现专家系统的整个群体自主规划的流程。

二、学生系统

学生系统分为三个子模块，分别是环境感知、神经网络推理模块、控制执行模块。

(1)环境感知模块：与专家系统中的环境感知模块一致，用于获取实时环境感知、无人机自身状态、群体中其他无人机信息，并将获取的输入至神经网络推理模块，具体包含着无人机飞行过程中，在当前仿真/实际环境下机载深度相机拍摄的实时深度图像信息、目的地的指向、当前时刻无人机的姿态信息、当前时刻接收到的周围其他无人机的预测轨迹序列等信息。

(2)神经网络推理模块：通过专家系统获取的数据集进行训练，神经网络推理模块的输入包括实时环境感知、无人机自身状态、群体中其他无人机信息，神经网络推理模块的输出包括无人机自身实时预测轨迹。

(3)控制执行模块：获取神经网络推理模块输出的无人机自身实时预测轨迹，控制无人机运行。

其中，神经网络推理模块包括：

特征处理分支：对实时环境感知、无人机自身状态、群体中其他无人机信息进行处理得到三个类别的特征向量，特征处理分支包括对图像进行特征提取的深度图像特征提取网络，深度图像特征提取网络包括MobileNet-V3网络。

训练神经网络推理模块时的损失函数包括三个部分，分别是标签与神经网络推理模块输出的无人机自身实时预测轨迹之间的对比损失、无人机自身实时预测轨迹与环境中障碍物的碰撞损失、无人机自身实时预测轨迹与其他无人机的预测轨迹碰撞损失。

以下以一具体实施方式说明本发明发放的具体实施过程：

专家系统需要运行在仿真环境中，本方法采用的仿真环境是在机器人操作系统ROS的三维可视化工具Rviz平台中。在可视化场景中生成随机森林，森林中的树木用一定宽度范围的圆柱体代替。仿真平台还提供了无人机的虚拟模型，它仅作为实验场景的构建，不参与任何无人机自主飞行模块的构建。

专家系统包含四个子模块，分别是环境感知、运动规划、决策控制、控制指令执行机构；学生系统分为三个子模块，分别是环境感知、经过专家系统数据集训练后的神经网络推理模块、控制执行模块；专家系统与学生系统各模块组成部分设计参考图1。

专家系统的环境感知模块：包含着无人机飞行过程中，在当前仿真/实际环境下机载深度相机拍摄的大小为640*480的实时深度图像信息，深度为Float64格式、从当前位置指向目的地的三维向量当成目的地的方向向量、当前时刻无人机的姿态信息，包括三维位置信息，速度信息、偏航角，旋转矩阵、当前时刻接收到的周围其他无人机的预测轨迹序列等信息，只需要建立栅格地图。

专家系统的运动规划模块分为两个过程，分别是全局路径规划与局部轨迹优化。全局路径规划采用的是满足机器人动力学的混合A*算法，局部轨迹优化构建一个非线性优化问题，惩罚项中包括一些约束项，如考虑到轨迹的光滑性、动力学不可行项惩罚、轨迹与环境中障碍物的碰撞惩罚项、群体轨迹碰撞惩罚项等。光滑性由运动过程中的加速度及加速度的导数平方和构成。动力学不可行项惩罚是为了确保轨迹在每个维度上的高阶导数存在且连续，不然轨迹会有动力学高阶量的突变(如速度或加速度不连续)，最终导致执行器有损伤。环境障碍物的碰撞惩罚项考虑一种将轨迹推离出局部障碍物的方法，通过求解障碍物周边需要改进段的凸优化问题来确定，选择合适的推离控制点，推离出障碍物的梯度方向是在推离控制点的垂直方向。群体轨迹碰撞惩罚项考虑群体中，确保进入到当前无人机周边的无人机的预测轨迹与自身轨迹保持一定的安全距离，即可避免无人机间发生碰撞。

专家系统的决策部分采用的是有限状态机，当群体无人机中的个体面临任意一种情况时，都会从有限的决策中选取一个最合适的策略，简单而高效。加入了无人机的优先级机制，优先级的规定根据当前无人机距离目标点的欧式距离，欧氏距离越小优先级越高。规定了优先级后，有限状态机可以更加有效的运行，如前方出现了一个狭窄区域，只能允许一架无人机通过，此时需要让高优先级的无人机通过，低优先级的无人机在空中减速或者静止等待，这样可以防止比自己低优先级的无人机对自身路径规划的干扰，最终让整个无人机群全部顺利通过，避免撞机的可能性。同样，最终输出的是经过优化并可以做出合理决策后的预测轨迹序列。专家系统的控制采用的是模型预测控制器(MPC)。最终把生成的控制指令传递给专家系统的执行机构，即可实现专家系统的整个群体自主规划的流程。

无人机的通讯基于ROS，通过ROS话题交流各无人机当前位置，根据距离的远近，查询周边无人机的预测轨迹序列。

学生系统与专家系统的区别，主要是体现在用神经网络模块去学习专家系统的运动规划模块与有限状态机决策部分。

学生系统的环境感知模块：与专家系统的感知模块一致，把这些作为神经网络模型的输入。

学生系统的神经网络推理模块：神经网络是一个包含着MobileNet-V3结构的特征提取网络，图2示出了本发明参与数据集训练的神经网络结构简图。

通过把专家系统的实时环境感知、无人机自身状态、群体中其他无人机的预测轨迹作为训练属性样本，实时预测轨迹作为样本的标签，收集大量数据作为数据集。用此数据集训练该神经网络。

如图2所示，训练数据的属性中包含4个部分，包含环境点云信息，便于通过 KD树查询到距离当前无人机周围最近的障碍物点云信息，维数是(2,)，2指的是每批数据量的大小；无人机位置及姿态信息，维度是(2,1,21)，维数2同样指的是每批数据量的大小，维数1指的是只取当前帧的数据，维度21中包含着无人机的位置、角速度线速度、旋转矩阵系数、目标方向等信息；深度图像经过处理之后的维度变为(2,1,224,224,3)，前两个维度与上一个属性介绍一致，224*224*3为处理后的单张图像尺寸；其他无人机轨迹信息的维度是(2,1,n*60)，前两个维度的解释同上， n代表着群体中无人机数量，60代表预测出20个轨迹点的三维坐标。

该网络具有两个分支结构组成，这两个分支把属性分成了两个部分，分别产生深度视觉、无人机的姿态及位置信息的潜在编码，并提取群体中其他无人机预测轨迹的特征，输出三条经过神经网络前向传播的预测轨迹。

首先，对于第一个深度图像分支，使用预先训练好的MobileNet-V3架构从深度图像中有效的提取特征，然后通过一维卷积处理这些特征，以生成大小为32的多特征向量。然后，对于第二个分支，把当前平台的速度和姿态，所需的参考方向串联在一起，由具有[64，32，32，32]个隐藏节点和以LeakyReLU为激活函数的四层感知器进行处理，再次使用一维卷积为该属性创建32维特征向量。然后，把这两个视觉和状态特征分支分别经过一维卷积并且结合在一起后，再加入群体中其他无人机预测轨迹属性向量，最终通过另一个具有[64,128,128]个隐藏节点和 LeakyReLU激活的四层感知器处理，得到的输出是三条预测轨迹点序列，尺寸为 [2,3,60]，其中维度2代表每批次数据量的大小，维度3代表三条轨迹，60代表着预测轨迹的长度20与三维坐标的位置分量。网络中损失函数包含三个部分，分别是标签与神经网络预测轨迹之间的对比损失、轨迹与环境中障碍物的碰撞损失、预测轨迹与其他无人机的碰撞损失。第一个损失会考虑标签与该神经网络前向传播的输出轨迹之间的区别，第二个损失会考虑前向传播的输出轨迹与当前位置处，环境点云中障碍物的距离，第三个损失是衡量接收到的群体中其他无人机的预测轨迹信息与自身通过神经网络预测的轨迹之间的距离大小。训练时采用Adam优化器，每个最小批的数量设置为32，学习率设置为1*10^-3。

学生系统的控制执行模块：会先对所述模块输出的3条长度为20的预测轨迹，经过平均之后再用3阶B样条曲线拟合。同样采用模型预测控制(MPC)跟随该轨迹。最终，即可实现学生系统的群体无人机自主飞行功能。

需要说明的是：本实施例中学生系统的神经网络推理模块的输出为3条预测轨迹，在其他实施例中也可直接输出1条预测轨迹，从而网络规模减小，响应速度更快。本领域的技术人员可以根据需要来对网络进行调整从而得到1条或多条预测轨迹。此外，预测轨迹点的长度(个数)也可以根据需要进行调整，如调整为5、10、 15个点等。

图3示出了本发明上述具体实施例方案中方法概述图，包括专家系统与学生系统的实施细节。本发明可以在复杂的环境下，实现整个群体无人机完成从起始点到预设目标点的自主飞行过程，途中完全依靠自主规划，可以避开沿途的静态障碍物，并且确保无人机与无人机之间无碰撞。采用了模仿学习，因此无需设计有限状态机决策过程，完全依靠神经网络的学习进行决策，融合了自主规划与决策过程，节约了时间。学生系统的群体无人机自主飞行的速度会比专家系统的速度更快。因为对于得到的群体无碰预测轨迹序列，在设计模型预测控制器时，可以设置更大的控制速度与加速度上下限，使机器人更快的跟踪这些轨迹点。专家系统在轨迹优化时是基于非线性优化问题，即基于数学优化方法得到的预测轨迹，能够把每次成功规划的数据都制作成为数据集，因此相比较于一些基于采样得到预测轨迹序列的方法，数据利用率更高。

上述实施方式仅为例举，不表示对本发明范围的限定。这些实施方式还能以其它各种方式来实施，且能在不脱离本发明技术思想的范围内作各种省略、置换、变更。

Claims

1.一种基于模仿学习的群体无人机自主运动规划方法，其特征在于，该方法包括：

2.根据权利要求1所述的一种基于模仿学习的群体无人机自主运动规划方法，其特征在于，所述的专家系统包括：

运动规划模块：用于全局路径规划与局部轨迹优化；

控制指令执行机构：接收控制指令并执行。

3.根据权利要求1所述的一种基于模仿学习的群体无人机自主运动规划方法，其特征在于，所述的学生系统还包括：

4.根据权利要求1～3任意一项所述的一种基于模仿学习的群体无人机自主运动规划方法，其特征在于，所述的实时环境感知包括无人机飞行过程中的实时环境深度图像信息、目的地的指向。

5.根据权利要求1～3任意一项所述的一种基于模仿学习的群体无人机自主运动规划方法，其特征在于，所述的无人机自身状态包括无人机的位姿及位置信息。

6.根据权利要求1～3任意一项所述的一种基于模仿学习的群体无人机自主运动规划方法，其特征在于，所述的群体中其他无人机信息包括群体中其他无人机的预测轨迹信息。

7.根据权利要求1所述的一种基于模仿学习的群体无人机自主运动规划方法，其特征在于，所述的神经网络推理模块包括：

8.根据权利要求7所述的一种基于模仿学习的群体无人机自主运动规划方法，其特征在于，所述的特征处理分支包括对图像进行特征提取的深度图像特征提取网络。

9.根据权利要求8所述的一种基于模仿学习的群体无人机自主运动规划方法，其特征在于，所述的深度图像特征提取网络包括MobileNet-V3网络。

10.根据权利要求1所述的一种基于模仿学习的群体无人机自主运动规划方法，其特征在于，训练所述的神经网络推理模块时的损失函数包括三个部分，分别是标签与神经网络推理模块输出的无人机自身实时预测轨迹之间的对比损失、无人机自身实时预测轨迹与环境中障碍物的碰撞损失、无人机自身实时预测轨迹与其他无人机的预测轨迹碰撞损失。