CN113220037B

CN113220037B - 一种无人机混合路径规划方法

Info

Publication number: CN113220037B
Application number: CN202110657180.0A
Authority: CN
Inventors: 詹炜; 李伟豪; 孙泳; 董天豫
Original assignee: Yangtze University
Current assignee: Yangtze University
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2022-03-15
Anticipated expiration: 2041-06-11
Also published as: CN113220037A

Abstract

本发明涉及一种无人机自主规划路径的方法，属无人机控制技术领域。该无人机混合路径规划方法在现有的ADA*算法基础上进行改进，减少重复排序带来的时间耗时，同时针对无人机避障，增加采用基于DRL的局部规划神经网络，对存在障碍物检测并重新规划路径，极大的降低了机载计算机的计算负荷，有效的进行避障。

Description

一种无人机混合路径规划方法

技术领域

本发明涉及一种无人机自主规划路径的方法，属无人机控制技术领域。

背景技术

随着无人机技术的发展与市场普及，无人机在航拍、巡检、农林植保、环保、灾后救援等民用领域也得到了广泛的应用。然而现实中对于无人机的飞行线路有着诸多复杂的制约，比如建筑群、机场、政府机构，学校、人流密集区等禁飞区，一但误入不仅对无人机本身会造成损伤，而且会造成人员的安全风险甚至直接造成事故。因此在无人机作业前规划一条避开敏感地带的安全的、并且全局最优的路线已成为迫切的需求。

目前无人机自主规划路径的方法有很多，如申请号为CN202011542716.6的发明专利申请公开的一种无人机线路规划方式，其虽然能够实现无人机路径的自主规划但是其存有的问题的如下：

1、申请号为CN202011542716.6的发明专利申请公开的一种无人机线路规划方式中采取了基于视觉SLAM的室内无人机路径规划方式，其全程通过相机获取外界图像信息，构建点云地图，再进行点云滤波与降采样，构建探索地图，这样无人机实时路径规划计算量负荷大，构建的地图本身也难以直接用于路径规划与导航。

2、其基于视觉的无人机路径规划采用实时局部路径规划，事先并不确定飞行的路线，探索未知区域。在无人机飞行过程中通过相机传回来的图像实时确定行进路线，局部规划并没有考虑路径的全局重新规划，同时局部路径规划通过计算地势值来进行避障，鲁棒性较差，极易发生障碍物碰撞。

由此有必要研发一种新的无人机路径规划方法，以解决现有方法存有的以上问题。

发明内容

本发明的目的在于：提供一种基于无人机路径全局规划算法与深度学习DRL局部规划融合的混合路径规划算法，以解决现有的基于视觉的无人机规划方法存有鲁棒性较差和极易发生障碍物碰撞的技术问题。

本发明的技术方案是：

1、一种无人机混合路径规划方法，其特征在于：它包括如下步骤：

1、在现有ADA*算法的基础上改进得到EADA*算法；

在已有的ADA*算法基础上通过添加头排序算法思想实现头排序功能；

其实现具体的步骤如下：

1.1、在ADA*算法初始化阶段将ε的值设置为一个较大值，大于或等于2.0；创建空队列OPEN、CLOSED、INCONS和WALLS；除了目标在路径中的代价为0，g(s)和v(s)的值在所有状态下都被设置为无穷大；

1.2、开始状态以每次迭代的状态速度沿着当前次优解移动；在每一次的迭代中，

向

目标地点移动；寻路循环一直持续到机体到达最终目标状态即

；

1.3、计算当前路径的代价并与前一次的迭代结果进行比较，如果依然存在与当前路径相交的障碍物，总的代价将会增加；

1.4、在代价增多的情况下，增大膨胀系数inflation，清除WALLS障碍物列表，并重新计算受代价变化影响的局部状态，如果没有观察到成本变化，则降低inflation的值以改善当前路径；不一致的状态移到OPEN列表中；

1.5、计算改进的当前路径，搜索从目标状态开始，找到Open列表中的第一个关键字，此关键字小于开始状态的关键字；使用key()函数计算优先级关键字的第一个元素的关键字，使用Eq更新键值；如果新的键值比旧的键值大，则状态会与新的键保存在OPEN列表中，否则，g(s)=v(s)被设置，状态被移到CLOSED列表；

1.6、在优先级队列中最小化排序队列的次数，实现头排序的功能；

从OPEN队列中删除优先级键最小的状态；然后在给定的状态下，使用Key()函数来计算新的键值，如果

将该状态重新插入到具有新键值的优先级队列的头部；同时边缘代价变化也迫使ε值增加；优先级顺序保持不变；即使ε增加，

仍是最小的键值；因此，不需要额外的排序；如果

的情况下，EDAD*算法将与ADA*算法相同的方式扩展状态；如此即可得到EADA*算法；

2、图像预处理；

对无人机拍摄的图像进行预处理，具体的步骤如下：

2.1、从无人机的前置摄像头接收预处理的深度图像，对每一帧收到的图像进行灰度化操作；

2.2、对灰度化之后的图像进行resize操作，将灰度化后的图像缩放，调整图像尺寸大小，聚焦我们关注的视野区域；如此得到预处理之后的图像；

3、根据步骤2得到的预处理之后的图像，计算相对目标位置和当前速度；

3.1计算相对目的地的距离和方向：

公式1中S代表当前位置距目的地的相对距离位置，

代表当前的位置，

代表目标地的位置；使用公式1计算相对目的地的距离和方向；

3.2、获得当前位置速度，在执行任务期间，RMP（资源管理系统）向本地规划提供当前传感器数据以及UAV的位置和速度，如此获得当前位置的速度；

4、构建基于DRL的局部规划的神经网络；

使用基于DQN算法的DRL系统网络体系结构；该网络采用30 × 100状态表示、当前位置和速度作为输入；第一层将32个8 × 8的核与输入图像进行步长为3卷积，指数线性单元ELU值为0.8，并使用修正单元ReLU激活函数；第二卷积层获得4×4的步长为2的64个核和0.8的ELU值，并再次被RelU激活函数激活；第三个卷积层卷积64个3 × 3步长的核，紧跟着一个修正单元ReLU激活函数，而第四个层的输出被展平降维并与位置向量连接；组合的输入被输入到两个全连接层，其中第一层包括256个隐藏单元，第二层包括128个隐藏单元；

动作空间决定了最后一个完全连接层中隐藏单元的数量；在本申请中，使用7个动作空间；动作空间包括系统在特定环境中可以执行的所有动作的集合；它由七个可以用来避开障碍物的独立动作组成；第一个是沿着当前方向移动，速度为1、2、3或4m/s，第二个涉及以1 m/s的速度沿当前方向向后移动；第三和四个动作涉及向右和向左旋转30度；第五个和六个动作分别涉及向上下位置移动，速度为2 m/s，最后一个动作是保持当前位置；在每个时间步长，使用策略选择观测空间作为输入，输出是这七个动作中的一个；这些高级动作使用Gazebo仿真器提供的飞行控制器映射到低级飞行命令；通过状态空间，agent在训练和学习过程中可以将动作行为转换并使用所有状态，用于应用程序科学的输入状态；如此即可得到基于DRL的局部规划的神经网络；

5、训练学习阶段

5.1、设置训练参数，在步骤4基于DRL局部规划神经网络基础上，按照Q-Learning的方法，使用公式2设置学习过程中使用的reward；当UAV到达目的地时，给予到达的reward：回报函数设计在DRL应用中是极其重要的一环，通过将任务目标具体化和数值化，实现了目标与算法之间的沟通；在本研究中，条件

被视为表示到达目的地；与墙壁、其他UAVs或汽车等障碍物碰撞时，给予碰撞reward；在其他情况下，根据UAV和目的地之间的关系给予积极或消极的reward；对接近目的地的行动给予正面reward，对远离目的地的行动给予负面reward；

表示

在时刻t的值，

是一个衰减超参数

如果无人机撞到静止或移动的障碍物，agent将获得负50的reward；一个新的epoch在无人机处于[0，0，0]的初始位置开始，这表明北、东、下点的坐标与模拟器中协调一致；为了更新网络的权重，对损失函数应用小批量梯度下降，如下所示:

公式3中的

是当前目标动作行为的输出值，

代表动作行为的值；

是权重；n是小批量的梯度下降的batch大小，为了避免高估，agent使用下列的等式更新目标

的值；

公式4中的

是采取行为

后的即时回报，γ是折扣系数；

5.2、以一个epoch的训练过程为例，环境包括静态和动态移动障碍物；静态环境是指环境中的障碍物是不会移动的，动态环境是指所有障碍物都是以不同的速度和方向随机移动的；训练阶段的目的地是在gazebo仿真模拟器中随机标点，并人为设置障碍物，在gazebo模拟器中实时进行训练模拟；在动作行为输出选择中，行为动作空间中的行为索引数i是通过

算法得到的；

算法选择一个在当前

状态下取最大Q-Value的行为动作或者选择一个在开始学习过程中概率较高的随机动作；由于动作

，得到reward

和判断

以及下一个UAV的状态；

5.3、将5.2中得到的reward

和判断

以及下一个UAV的状态添加到神经网络经验记忆中；通过从经验记忆中随机检索并通过误差反向传播算法更新神经网络的单位权重来执行学习；

5.4、在5.1、5.2、5.3过程中，应该在

状态下采取的动作行为的Q-Value被更新的更大，UAV通过避开路径上的障碍物来学习向目的地移动所需的行为；

6、将相机实时拍摄的图像传入基于DRL局部规划神经网络中，在无人机事先路径规划之后，实时进行局部规划、重新规划调整飞行路线，其步骤如下：

6.1、在无人机机载计算设备上部署深度神经网络模型运行所依赖的环境；

6.2、将步骤5所得平均精度均值最大的模型移植到无人机机载计算设备中，将无人机摄像头获取的图像通过硬件接口实时传入机载设备；

6.3、将步骤2预处理之后的图像、当前相对目标的位置以及当前速度传入网络模型，经过模型检测后，程序实时的对当前全局路线进行规划并在遇到障碍物时重新规划路线控制无人机的动作。

本发明的优点在于：

该无人机混合路径规划方法在现有的ADA*算法基础上进行改进，减少重复排序带来的时间耗时，同时针对无人机避障，增加采用基于DRL的局部规划神经网络，对存在障碍物检测并重新规划路径，极大的降低了机载计算机的计算负荷，有效的进行避障。

附图说明

图1为本发明的规划结构图；

图2为本发明的EADA*算法代码图；

图3为本发明步骤1的算法流程；

图4为本发明EADA*算法图；

图5为本发明DRL系统网络体系结构图；

图6为本发明步骤2预处理前图像图；

图7为本发明步骤2处理后的图像图；

图8为本发明进行实验时，步骤5 得到的DQN模型的

策略图；

图9为本发明进行实验时，步骤5 得到DQN模型的移动平均趋势线；

图10为本发明进行实验时，步骤5.4的gazebo仿真模拟器进行标点的图像；

图11为本发明进行实验时，步骤5.4的gazebo仿真模拟器进行标点的图像；

图12为本发明进行实验时，步骤6的静态环境下模拟效果；

图13为本发明进行实验时，步骤6的动态环境下模拟效果；

图14为本发明进行实验时，得到的路径规划节点图。

具体实施方式

该无人机混合路径规划方法，包括如下步骤：（见说明书附图1）

1、在现有ADA*算法的基础上改进得到EADA*算法；

其实现具体的步骤如下：

向

；

1.4、在代价增多的情况下，增大膨胀系数inflation，清除WALLS障碍物列表，并重新计算受代价变化影响的局部状态，如果没有观察到成本变化，则降低膨胀系数的值以改善当前路径；不一致的状态移到OPEN列表中；

1.5、计算改进的当前路径，搜索从目标状态开始，找到Open列表中的第一个关键字，此关键字小于开始状态的关键字；使用key()函数计算优先级关键字的第一个元素的关键字，使用Eq更新键值；如果新的键值比旧的键值大，则状态会与新的键保存在OPEN列表中，否则，g(s)=v(s)被设置，状态被移到CLOSED列表；（见说明书附图3）

仍是最小的键值；因此，不需要额外的排序；如果

的情况下，EDAD*算法将与ADA*算法相同的方式扩展状态；如此即可得到EADA*算法（见说明书附图2、3、4）；

EADA*算法是在现有ADA*算法的基础上的改善，其专注于二维动态环境中的路径设计；最初的ADA*算法在每次检测到边缘成本变化时执行优先级队列排序，EADA*避免了优先级队列的重复重排，如此减小重复排序次数，达到快速选中代价最小的状态的目的，从而加快路径规划的速度；

2、图像预处理；

对无人机拍摄的图像进行预处理，具体的步骤如下：

2.2、对灰度化之后的图像进行resize操作，将灰度化后的图像缩放，调整图像尺寸大小，聚焦我们关注的视野区域；如此得到预处理之后的图像（见说明书附图6）；

对实时接收到的视频帧图像进行灰度化、缩放预处理，灰度化操作去掉了图像的颜色等级，同时减小了图像的计算量，减轻了服务器的负荷；而图像的缩放操作可以聚焦图像中心的视野区域，使得后面局部神经网络效果更好，鲁棒性更强；

3.1计算相对目的地的距离和方向：

公式1中S代表当前位置距目的地的相对距离位置，

代表当前的位置，

代表目标地的位置。使用公式1计算相对目的地的距离和方向。

如此通过3.1、3.2即可获得相对目标的位置、方向以及当前位置的速度。计算当前相对目标与速度是为了在步骤4进行网络训练训练时，输入当前位置与速度这两个值，最终输出动作空间中的避让动作，来达到实现避障的目的。

4、构建基于DRL的局部规划的神经网络；

使用基于DQN算法的DRL系统网络体系结构（参见说明书附图5）；该网络采用30 ×100状态表示、当前位置和速度作为输入；第一层将32个8 × 8的核与输入图像进行步长为3卷积，指数线性单元ELU值为0.8，并使用修正单元ReLU激活函数；第二卷积层获得4×4的步长为2的64个核和0.8的ELU值，并再次被RelU激活函数激活；第三个卷积层卷积64个3 ×3步长的核，紧跟着一个修正单元ReLU激活函数，而第四个层的输出被展平降维并与位置向量连接；组合的输入被输入到两个全连接层，其中第一层包括256个隐藏单元，第二层包括128个隐藏单元；

动作空间决定了最后一个完全连接层中隐藏单元的数量。在本申请中，使用了7个动作空间；动作空间包括系统在特定环境中可以执行的所有动作的集合；它由七个可以用来避开障碍物的独立动作组成；第一个是沿着当前方向移动，速度为1、2、3或4m/s，第二个涉及以1 m/s的速度沿当前方向向后移动。第三和四个动作涉及向右和向左旋转30度。第五个和六个动作分别涉及向上下位置移动，速度为2 m/s，最后一个动作是保持当前位置；在每个时间步长，使用策略选择观测空间作为输入，输出是这七个动作中的一个；这些高级动作使用Gazebo仿真器提供的飞行控制器映射到低级飞行命令；通过状态空间，agent在训练和学习过程中可以将动作行为转换并使用所有状态，用于应用程序科学的输入状态；如此即可得到基于DRL的局部规划的神经网络；

5、训练学习阶段

表示

在时刻t的值，

是一个衰减超参数:

公式3中的

是当前目标动作行为的输出值，

代表动作行为的值；

的值；

公式4中的

是采取行为

后的即时回报，

是折扣系数；

5.2、以一个epoch的训练过程为例，环境包括静态和动态移动障碍物；静态是指环境中的障碍物是不会移动的，动态是指所有障碍物都是以不同的速度和方向随机移动的；训练阶段的目的地是在gazebo仿真模拟器中随机标点，并人为设置障碍物，在gazebo模拟器中实时进行训练模拟；在动作行为输出选择中，行为动作空间中的行为索引数i是通过

算法得到的；

算法选择一个在当前

，得到reward

和判断

以及下一个UAV的状态；

5.3、将5.2中得到的reward

和判断

5.4、在5.1、5.2、5.3过程中，应该在

状态下采取的动作行为的Q-Value被更新的更大，UAV通过避开路径上的障碍物来学习向目的地移动所需的行为（见说明书附图10、11）；

为了验证本申请的正确性，申请人进行了如下实验。使用其规划了无人机从长江大学东校区操场到二食堂地方的路线，具体步骤如下：

1、在现有ADA*算法的基础上改进得到EADA*算法；

在已有的ADA*算法基础上添加头排序模块，减小重复排序次数。

添加具体排序的步骤如下：

向

；

1.5、计算改进的当前路径，搜索从目标状态开始，找到Open列表中的第一个关键字，此关键字小于开始状态的关键字；使用key()函数计算优先级关键字的第一个元素的关键字，使用Eq更新键值。如果新的键值比旧的键值大，则状态会与新的键保存在OPEN列表中，否则，g(s)=v(s)被设置，状态被移到CLOSED列表（见说明书附图3）；

1.6、在优先级队列中最小化排序队列的次数，实现头排序；

仍是最小的键值。因此，不需要额外的排序；如果

2、图像预处理；

对无人机拍摄的图像进行预处理，具体的步骤如下：

2.2、对灰度化之后的图像进行resize操作，将灰度化后的图像缩放，调整图像尺寸大小，聚焦我们关注的视野区域；如此得到预处理之后的图像（见说明书附图6和7）；

3.1计算相对目的地的距离和方向

公式1中S代表当前位置距目的地的相对距离位置：代表相对于四旋翼无人机当前位置的极坐标(距离和目标)中的目标，

代表当前的位置，

3.2、获得当前位置速度，在执行任务期间，RMP（资源管理系统）向本地规划提供当前传感器数据以及四旋翼无人机的位置和速度，这样获得当前位置的速度。

如此通过3.1、3.2即可获得相对目标的位置、方向以及当前位置的速度。

4、构建基于DRL的局部规划的神经网络；

使用基于DQN算法的DRL系统网络体系结构；该网络采用30 × 100状态表示、当前位置和速度作为输入；第一层将32个8 × 8的核与输入图像进行步长为3卷积，指数线性单元ELU值为0.8，并使用修正单元ReLU激活函数；第二卷积层获得4×4的步长为2的64个核和0.8的ELU值，并再次被RelU激活函数激活；第三个卷积层卷积64个3 × 3步长的核，紧跟着一个修正单元ReLU激活函数，而第四个层的输出被展平降维并与位置向量连接。组合的输入被输入到两个全连接层，其中第一层包括256个隐藏单元，第二层包括128个隐藏单元；

动作空间决定了最后一个完全连接层中隐藏单元的数量。在本申请中，使用了7个动作空间；动作空间包括系统在特定环境中可以执行的所有动作的集合；它由七个可以用来避开障碍物的独立动作组成；第一个是沿着当前方向移动，速度为1、2、3或4m/s，第二个涉及以1 m/s的速度沿当前方向向后移动；第三和四个动作涉及向右和向左旋转30度；第五个和六个动作分别涉及向上下位置移动，速度为2 m/s，最后一个动作是保持当前位置；在每个时间步长，使用策略选择观测空间作为输入，输出是这七个动作中的一个；这些高级动作使用Gazebo仿真器提供的飞行控制器映射到低级飞行命令；通过状态空间，agent在训练和学习过程中可以将动作行为转换并使用所有状态，用于应用程序科学的输入状态；如此即可得到基于DRL的局部规划的神经网络（见说明书附图5）。

5、训练学习阶段

5.1、按照Q-Learning的方法，使用公式（2）设置学习过程中使用的reward；当四旋翼无人机到达目的地时，给予到达的reward：回报函数设计在DRL应用中是极其重要的一环，通过将任务目标具体化和数值化，实现了目标与算法之间的沟通。在本研究中，条件

被视为表示到达目的地；与墙壁、其他UAVs或汽车等障碍物碰撞时，给予碰撞reward；在其他情况下，根据四旋翼无人机和目的地之间的关系给予积极或消极的reward；对接近目的地的行动给予正面reward，对远离目的地的行动给予负面reward；

表示

在时刻t的值，

是一个衰减超参数:

如果无人机撞到静态或动态障碍物，agent将获得负50的reward；一个新的epoch在无人机处于[0，0，0]的初始位置开始，这表明北、东、下点的坐标与模拟器中协调一致；为了更新网络的权重，我们对损失函数应用小批量梯度下降，如下所示:

公式3中的

是当前目标动作行为的输出值，

代表动作行为的值；

的值；

公式4中的

是采取行为

后的即时回报，

是折扣系数；

5.2、在训练过程中，环境包括静态和动态移动障碍物；所有动态移动的障碍物都是以不同的速度和方向随机移动的；在动作输出选择中，动作索引数i是通过

算法得到的；

算法选择一个在当前状态下取最大Q值的动作

或者一个在开始学习过程中概率较高的随机动作；由于动作

，得到reward

和判断

以及下一个四旋翼无人机的状态；

5.3、将5.2中得到的reward

和判断

以及下一个四旋翼无人机的状态添加到经验记忆中；通过从经验记忆中随机检索并通过误差反向传播算法更新神经网络的单位权重来执行学习；

5.4、在5.1、5.2、5.3过程中，应该在

状态下采取的动作行为的Q值被更新的更高，四旋翼无人机通过避开路径上的障碍物来学习向目的地移动所需的行为；学习阶段的目的地是在gazebo仿真模拟器中随机标点，并人为设置障碍物（见说明书附图10、11）；

5.5、实验中的训练过程花了大约10天时间完成训练。（见说明书附图8）显示了DQN网络培训期间应用的累计reward和损失，可以看出，在200000步之后，reward从-150变为120。这是一种检查agent是否有效且朝好的方向发展的方法。在当前的训练结果中，当实验停止训练时，累积reward没有作为最后的收敛值结束，并且我们在收到目标reward值100后停止训练。当任务成功案例达到模拟运行实验测试案例的70%以上时，reward值的目标被确定。这意味着UAV可以学习如何到达目的地，并在少量的训练步骤内避免动态障碍。橙色线代表DQN模型的移动平均趋势线。（见说明书附图9）

6.1、在四旋翼无人机机载计算设备nano上部署深度神经网络模型运行所依赖的环境，Linux18.04、python3.6、tensorflow2.0；

6.2、将步骤5所得平均精度均值最大的模型移植到无人机机载计算设备中，将四旋翼无人机摄像头获取的图像通过硬件接口实时传入机载设备；

6.3、将步骤2预处理之后的图像、当前相对目标的位置以及当前速度传入网络模型，经过模型检测后，程序实时的对当前全局路线进行规划并在遇到障碍物时重新规划路线控制无人机的动作（见说明书附图12、13、14）。

Claims

1.一种无人机混合路径规划方法，其特征在于：它包括如下步骤：

1、在现有ADA*算法的基础上改进得到EADA*算法；

其实现具体的步骤如下：

向

；

仍是最小的键值；因此，不需要额外的排序；如果

2、图像预处理；

对无人机拍摄的图像进行预处理，具体的步骤如下：

3.1计算相对目的地的距离和方向：

公式1中S代表当前位置距目的地的相对距离位置，

代表当前的位置，

3.2、获得当前位置速度，在执行任务期间，RMP向本地规划提供当前传感器数据以及UAV的位置和速度，如此获得当前位置的速度；

4、构建基于DRL的局部规划的神经网络；

动作空间决定了最后一个完全连接层中隐藏单元的数量；在本申请中，使用7个动作空间；动作空间包括系统在特定环境中可以执行的所有动作的集合；它由七个可以用来避开障碍物的独立动作组成；第一个是沿着当前方向移动，速度为1、2、3或4m/s，第二个涉及以1m/s的速度沿当前方向向后移动；第三和四个动作涉及向右和向左旋转30度；第五个和六个动作分别涉及向上下位置移动，速度为2 m/s，最后一个动作是保持当前位置；在每个时间步长，使用策略选择观测空间作为输入，输出是这七个动作中的一个；这些高级动作使用Gazebo仿真器提供的飞行控制器映射到低级飞行命令；通过状态空间，agent在训练和学习过程中可以将动作行为转换并使用所有状态，用于应用程序科学的输入状态；如此即可得到基于DRL的局部规划的神经网络；

5、训练学习阶段