CN113220037B - 一种无人机混合路径规划方法 - Google Patents

一种无人机混合路径规划方法 Download PDF

Info

Publication number
CN113220037B
CN113220037B CN202110657180.0A CN202110657180A CN113220037B CN 113220037 B CN113220037 B CN 113220037B CN 202110657180 A CN202110657180 A CN 202110657180A CN 113220037 B CN113220037 B CN 113220037B
Authority
CN
China
Prior art keywords
state
value
action
algorithm
aerial vehicle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110657180.0A
Other languages
English (en)
Other versions
CN113220037A (zh
Inventor
詹炜
李伟豪
孙泳
董天豫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yangtze University
Original Assignee
Yangtze University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yangtze University filed Critical Yangtze University
Priority to CN202110657180.0A priority Critical patent/CN113220037B/zh
Publication of CN113220037A publication Critical patent/CN113220037A/zh
Application granted granted Critical
Publication of CN113220037B publication Critical patent/CN113220037B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/12Target-seeking control

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明涉及一种无人机自主规划路径的方法,属无人机控制技术领域。该无人机混合路径规划方法在现有的ADA*算法基础上进行改进,减少重复排序带来的时间耗时,同时针对无人机避障,增加采用基于DRL的局部规划神经网络,对存在障碍物检测并重新规划路径,极大的降低了机载计算机的计算负荷,有效的进行避障。

Description

一种无人机混合路径规划方法
技术领域
本发明涉及一种无人机自主规划路径的方法,属无人机控制技术领域。
背景技术
随着无人机技术的发展与市场普及,无人机在航拍、巡检、农林植保、环保、灾后救援等民用领域也得到了广泛的应用。然而现实中对于无人机的飞行线路有着诸多复杂的制约,比如建筑群、机场、政府机构,学校、人流密集区等禁飞区,一但误入不仅对无人机本身会造成损伤,而且会造成人员的安全风险甚至直接造成事故。因此在无人机作业前规划一条避开敏感地带的安全的、并且全局最优的路线已成为迫切的需求。
目前无人机自主规划路径的方法有很多,如申请号为CN202011542716.6的发明专利申请公开的一种无人机线路规划方式,其虽然能够实现无人机路径的自主规划但是其存有的问题的如下:
1、申请号为CN202011542716.6的发明专利申请公开的一种无人机线路规划方式中采取了基于视觉SLAM的室内无人机路径规划方式,其全程通过相机获取外界图像信息,构建点云地图,再进行点云滤波与降采样,构建探索地图,这样无人机实时路径规划计算量负荷大,构建的地图本身也难以直接用于路径规划与导航。
2、其基于视觉的无人机路径规划采用实时局部路径规划,事先并不确定飞行的路线,探索未知区域。在无人机飞行过程中通过相机传回来的图像实时确定行进路线,局部规划并没有考虑路径的全局重新规划,同时局部路径规划通过计算地势值来进行避障,鲁棒性较差,极易发生障碍物碰撞。
由此有必要研发一种新的无人机路径规划方法,以解决现有方法存有的以上问题。
发明内容
本发明的目的在于:提供一种基于无人机路径全局规划算法与深度学习DRL局部规划融合的混合路径规划算法,以解决现有的基于视觉的无人机规划方法存有鲁棒性较差和极易发生障碍物碰撞的技术问题。
本发明的技术方案是:
1、一种无人机混合路径规划方法,其特征在于:它包括如下步骤:
1、在现有ADA*算法的基础上改进得到EADA*算法;
在已有的ADA*算法基础上通过添加头排序算法思想实现头排序功能;
其实现具体的步骤如下:
1.1、在ADA*算法初始化阶段将ε的值设置为一个较大值,大于或等于2.0;创建空队列OPEN、CLOSED、INCONS和WALLS;除了目标在路径中的代价为0,g(s)和v(s)的值在所有状态下都被设置为无穷大;
1.2、开始状态以每次迭代的状态速度沿着当前次优解移动;在每一次的迭代中,
Figure 524543DEST_PATH_IMAGE001
Figure 6340DEST_PATH_IMAGE002
目标地点移动;寻路循环一直持续到机体到达最终目标状态即
Figure 420003DEST_PATH_IMAGE003
1.3、计算当前路径的代价并与前一次的迭代结果进行比较,如果依然存在与当前路径相交的障碍物,总的代价将会增加;
1.4、在代价增多的情况下,增大膨胀系数inflation,清除WALLS障碍物列表,并重新计算受代价变化影响的局部状态,如果没有观察到成本变化,则降低inflation的值以改善当前路径;不一致的状态移到OPEN列表中;
1.5、计算改进的当前路径,搜索从目标状态开始,找到Open列表中的第一个关键字,此关键字小于开始状态的关键字;使用key()函数计算优先级关键字的第一个元素的关键字,使用Eq更新键值;如果新的键值比旧的键值大,则状态会与新的键保存在OPEN列表中,否则,g(s)=v(s)被设置,状态被移到CLOSED列表;
1.6、在优先级队列中最小化排序队列的次数,实现头排序的功能;
从OPEN队列中删除优先级键最小的状态;然后在给定的状态下,使用Key()函数来计算新的键值,如果
Figure 349651DEST_PATH_IMAGE004
将该状态重新插入到具有新键值的优先级队列的头部;同时边缘代价变化也迫使ε值增加;优先级顺序保持不变;即使ε增加,
Figure 823358DEST_PATH_IMAGE005
仍是最小的键值;因此,不需要额外的排序;如果
Figure 526872DEST_PATH_IMAGE006
的情况下,EDAD*算法将与ADA*算法相同的方式扩展状态;如此即可得到EADA*算法;
2、图像预处理;
对无人机拍摄的图像进行预处理,具体的步骤如下:
2.1、从无人机的前置摄像头接收预处理的深度图像,对每一帧收到的图像进行灰度化操作;
2.2、对灰度化之后的图像进行resize操作,将灰度化后的图像缩放,调整图像尺寸大小,聚焦我们关注的视野区域;如此得到预处理之后的图像;
3、根据步骤2得到的预处理之后的图像,计算相对目标位置和当前速度;
3.1计算相对目的地的距离和方向:
Figure 760538DEST_PATH_IMAGE007
公式1中S代表当前位置距目的地的相对距离位置,
Figure 29845DEST_PATH_IMAGE008
代表当前的位置,
Figure 674453DEST_PATH_IMAGE009
代表目标地的位置;使用公式1计算相对目的地的距离和方向;
3.2、获得当前位置速度,在执行任务期间,RMP(资源管理系统)向本地规划提供当前传感器数据以及UAV的位置和速度,如此获得当前位置的速度;
4、构建基于DRL的局部规划的神经网络;
使用基于DQN算法的DRL系统网络体系结构;该网络采用30 × 100状态表示、当前位置和速度作为输入;第一层将32个8 × 8的核与输入图像进行步长为3卷积,指数线性单元ELU值为0.8,并使用修正单元ReLU激活函数;第二卷积层获得4×4的步长为2的64个核和0.8的ELU值,并再次被RelU激活函数激活;第三个卷积层卷积64个3 × 3步长的核,紧跟着一个修正单元ReLU激活函数,而第四个层的输出被展平降维并与位置向量连接;组合的输入被输入到两个全连接层,其中第一层包括256个隐藏单元,第二层包括128个隐藏单元;
动作空间决定了最后一个完全连接层中隐藏单元的数量;在本申请中,使用7个动作空间;动作空间包括系统在特定环境中可以执行的所有动作的集合;它由七个可以用来避开障碍物的独立动作组成;第一个是沿着当前方向移动,速度为1、2、3或4m/s,第二个涉及以1 m/s的速度沿当前方向向后移动;第三和四个动作涉及向右和向左旋转30度;第五个和六个动作分别涉及向上下位置移动,速度为2 m/s,最后一个动作是保持当前位置;在每个时间步长,使用策略选择观测空间作为输入,输出是这七个动作中的一个;这些高级动作使用Gazebo仿真器提供的飞行控制器映射到低级飞行命令;通过状态空间,agent在训练和学习过程中可以将动作行为转换并使用所有状态,用于应用程序科学的输入状态;如此即可得到基于DRL的局部规划的神经网络;
5、训练学习阶段
5.1、设置训练参数,在步骤4基于DRL局部规划神经网络基础上,按照Q-Learning的方法,使用公式2设置学习过程中使用的reward;当UAV到达目的地时,给予到达的reward:回报函数设计在DRL应用中是极其重要的一环,通过将任务目标具体化和数值化,实现了目标与算法之间的沟通;在本研究中,条件
Figure 130842DEST_PATH_IMAGE010
被视为表示到达目的地;与墙壁、其他UAVs或汽车等障碍物碰撞时,给予碰撞reward;在其他情况下,根据UAV和目的地之间的关系给予积极或消极的reward;对接近目的地的行动给予正面reward,对远离目的地的行动给予负面reward;
Figure 869997DEST_PATH_IMAGE011
表示
Figure 462652DEST_PATH_IMAGE012
在时刻t的值,
Figure 278162DEST_PATH_IMAGE013
是一个衰减超参数
Figure 221847DEST_PATH_IMAGE014
如果无人机撞到静止或移动的障碍物,agent将获得负50的reward;一个新的epoch在无人机处于[0,0,0]的初始位置开始,这表明北、东、下点的坐标与模拟器中协调一致;为了更新网络的权重,对损失函数应用小批量梯度下降,如下所示:
Figure 531737DEST_PATH_IMAGE015
公式3中的
Figure 244478DEST_PATH_IMAGE016
是当前目标动作行为的输出值,
Figure 965309DEST_PATH_IMAGE017
代表动作行为的值;
Figure 661870DEST_PATH_IMAGE018
是权重;n是小批量的梯度下降的batch大小,为了避免高估,agent使用下列的等式更新目标
Figure 8406DEST_PATH_IMAGE019
的值;
Figure 44495DEST_PATH_IMAGE020
公式4中的
Figure 936228DEST_PATH_IMAGE021
是采取行为
Figure 120085DEST_PATH_IMAGE022
后的即时回报,γ是折扣系数;
5.2、以一个epoch的训练过程为例,环境包括静态和动态移动障碍物;静态环境是指环境中的障碍物是不会移动的,动态环境是指所有障碍物都是以不同的速度和方向随机移动的;训练阶段的目的地是在gazebo仿真模拟器中随机标点,并人为设置障碍物,在gazebo模拟器中实时进行训练模拟;在动作行为输出选择中,行为动作空间中的行为索引数i是通过
Figure 224307DEST_PATH_IMAGE023
算法得到的;
Figure 646061DEST_PATH_IMAGE024
算法选择一个在当前
Figure 990586DEST_PATH_IMAGE025
状态下取最大Q-Value的行为动作或者选择一个在开始学习过程中概率较高的随机动作;由于动作
Figure 333842DEST_PATH_IMAGE026
,得到reward
Figure 38493DEST_PATH_IMAGE027
和判断
Figure 845912DEST_PATH_IMAGE028
以及下一个UAV的状态;
5.3、将5.2中得到的reward
Figure 345027DEST_PATH_IMAGE029
和判断
Figure 175579DEST_PATH_IMAGE030
以及下一个UAV的状态添加到神经网络经验记忆中;通过从经验记忆中随机检索并通过误差反向传播算法更新神经网络的单位权重来执行学习;
5.4、在5.1、5.2、5.3过程中,应该在
Figure 933189DEST_PATH_IMAGE031
状态下采取的动作行为的Q-Value被更新的更大,UAV通过避开路径上的障碍物来学习向目的地移动所需的行为;
6、将相机实时拍摄的图像传入基于DRL局部规划神经网络中,在无人机事先路径规划之后,实时进行局部规划、重新规划调整飞行路线,其步骤如下:
6.1、在无人机机载计算设备上部署深度神经网络模型运行所依赖的环境;
6.2、将步骤5所得平均精度均值最大的模型移植到无人机机载计算设备中,将无人机摄像头获取的图像通过硬件接口实时传入机载设备;
6.3、将步骤2预处理之后的图像、当前相对目标的位置以及当前速度传入网络模型,经过模型检测后,程序实时的对当前全局路线进行规划并在遇到障碍物时重新规划路线控制无人机的动作。
本发明的优点在于:
该无人机混合路径规划方法在现有的ADA*算法基础上进行改进,减少重复排序带来的时间耗时,同时针对无人机避障,增加采用基于DRL的局部规划神经网络,对存在障碍物检测并重新规划路径,极大的降低了机载计算机的计算负荷,有效的进行避障。
附图说明
图1为本发明的规划结构图;
图2为本发明的EADA*算法代码图;
图3为本发明步骤1的算法流程;
图4为本发明EADA*算法图;
图5为本发明DRL系统网络体系结构图;
图6为本发明步骤2预处理前图像图;
图7为本发明步骤2处理后的图像图;
图8为本发明进行实验时,步骤5 得到的DQN模型的
Figure 329535DEST_PATH_IMAGE032
策略图;
图9为本发明进行实验时,步骤5 得到DQN模型的移动平均趋势线;
图10为本发明进行实验时,步骤5.4的gazebo仿真模拟器进行标点的图像;
图11为本发明进行实验时,步骤5.4的gazebo仿真模拟器进行标点的图像;
图12为本发明进行实验时,步骤6的静态环境下模拟效果;
图13为本发明进行实验时,步骤6的动态环境下模拟效果;
图14为本发明进行实验时,得到的路径规划节点图。
具体实施方式
该无人机混合路径规划方法,包括如下步骤:(见说明书附图1)
1、在现有ADA*算法的基础上改进得到EADA*算法;
在已有的ADA*算法基础上通过添加头排序算法思想实现头排序功能;
其实现具体的步骤如下:
1.1、在ADA*算法初始化阶段将ε的值设置为一个较大值,大于或等于2.0;创建空队列OPEN、CLOSED、INCONS和WALLS;除了目标在路径中的代价为0,g(s)和v(s)的值在所有状态下都被设置为无穷大;
1.2、开始状态以每次迭代的状态速度沿着当前次优解移动;在每一次的迭代中,
Figure 202813DEST_PATH_IMAGE001
Figure 582979DEST_PATH_IMAGE002
目标地点移动;寻路循环一直持续到机体到达最终目标状态即
Figure 363853DEST_PATH_IMAGE033
1.3、计算当前路径的代价并与前一次的迭代结果进行比较,如果依然存在与当前路径相交的障碍物,总的代价将会增加;
1.4、在代价增多的情况下,增大膨胀系数inflation,清除WALLS障碍物列表,并重新计算受代价变化影响的局部状态,如果没有观察到成本变化,则降低膨胀系数的值以改善当前路径;不一致的状态移到OPEN列表中;
1.5、计算改进的当前路径,搜索从目标状态开始,找到Open列表中的第一个关键字,此关键字小于开始状态的关键字;使用key()函数计算优先级关键字的第一个元素的关键字,使用Eq更新键值;如果新的键值比旧的键值大,则状态会与新的键保存在OPEN列表中,否则,g(s)=v(s)被设置,状态被移到CLOSED列表;(见说明书附图3)
1.6、在优先级队列中最小化排序队列的次数,实现头排序的功能;
从OPEN队列中删除优先级键最小的状态;然后在给定的状态下,使用Key()函数来计算新的键值,如果
Figure 631017DEST_PATH_IMAGE034
将该状态重新插入到具有新键值的优先级队列的头部;同时边缘代价变化也迫使ε值增加;优先级顺序保持不变;即使ε增加,
Figure 675197DEST_PATH_IMAGE035
仍是最小的键值;因此,不需要额外的排序;如果
Figure 542659DEST_PATH_IMAGE036
的情况下,EDAD*算法将与ADA*算法相同的方式扩展状态;如此即可得到EADA*算法(见说明书附图2、3、4);
EADA*算法是在现有ADA*算法的基础上的改善,其专注于二维动态环境中的路径设计;最初的ADA*算法在每次检测到边缘成本变化时执行优先级队列排序,EADA*避免了优先级队列的重复重排,如此减小重复排序次数,达到快速选中代价最小的状态的目的,从而加快路径规划的速度;
2、图像预处理;
对无人机拍摄的图像进行预处理,具体的步骤如下:
2.1、从无人机的前置摄像头接收预处理的深度图像,对每一帧收到的图像进行灰度化操作;
2.2、对灰度化之后的图像进行resize操作,将灰度化后的图像缩放,调整图像尺寸大小,聚焦我们关注的视野区域;如此得到预处理之后的图像(见说明书附图6);
对实时接收到的视频帧图像进行灰度化、缩放预处理,灰度化操作去掉了图像的颜色等级,同时减小了图像的计算量,减轻了服务器的负荷;而图像的缩放操作可以聚焦图像中心的视野区域,使得后面局部神经网络效果更好,鲁棒性更强;
3、根据步骤2得到的预处理之后的图像,计算相对目标位置和当前速度;
3.1计算相对目的地的距离和方向:
Figure 127224DEST_PATH_IMAGE037
公式1中S代表当前位置距目的地的相对距离位置,
Figure 701425DEST_PATH_IMAGE038
代表当前的位置,
Figure 978822DEST_PATH_IMAGE039
代表目标地的位置。使用公式1计算相对目的地的距离和方向。
3.2、获得当前位置速度,在执行任务期间,RMP(资源管理系统)向本地规划提供当前传感器数据以及UAV的位置和速度,如此获得当前位置的速度;
如此通过3.1、3.2即可获得相对目标的位置、方向以及当前位置的速度。计算当前相对目标与速度是为了在步骤4进行网络训练训练时,输入当前位置与速度这两个值,最终输出动作空间中的避让动作,来达到实现避障的目的。
4、构建基于DRL的局部规划的神经网络;
使用基于DQN算法的DRL系统网络体系结构(参见说明书附图5);该网络采用30 ×100状态表示、当前位置和速度作为输入;第一层将32个8 × 8的核与输入图像进行步长为3卷积,指数线性单元ELU值为0.8,并使用修正单元ReLU激活函数;第二卷积层获得4×4的步长为2的64个核和0.8的ELU值,并再次被RelU激活函数激活;第三个卷积层卷积64个3 ×3步长的核,紧跟着一个修正单元ReLU激活函数,而第四个层的输出被展平降维并与位置向量连接;组合的输入被输入到两个全连接层,其中第一层包括256个隐藏单元,第二层包括128个隐藏单元;
动作空间决定了最后一个完全连接层中隐藏单元的数量。在本申请中,使用了7个动作空间;动作空间包括系统在特定环境中可以执行的所有动作的集合;它由七个可以用来避开障碍物的独立动作组成;第一个是沿着当前方向移动,速度为1、2、3或4m/s,第二个涉及以1 m/s的速度沿当前方向向后移动。第三和四个动作涉及向右和向左旋转30度。第五个和六个动作分别涉及向上下位置移动,速度为2 m/s,最后一个动作是保持当前位置;在每个时间步长,使用策略选择观测空间作为输入,输出是这七个动作中的一个;这些高级动作使用Gazebo仿真器提供的飞行控制器映射到低级飞行命令;通过状态空间,agent在训练和学习过程中可以将动作行为转换并使用所有状态,用于应用程序科学的输入状态;如此即可得到基于DRL的局部规划的神经网络;
5、训练学习阶段
5.1、设置训练参数,在步骤4基于DRL局部规划神经网络基础上,按照Q-Learning的方法,使用公式2设置学习过程中使用的reward;当UAV到达目的地时,给予到达的reward:回报函数设计在DRL应用中是极其重要的一环,通过将任务目标具体化和数值化,实现了目标与算法之间的沟通;在本研究中,条件
Figure 5684DEST_PATH_IMAGE040
被视为表示到达目的地;与墙壁、其他UAVs或汽车等障碍物碰撞时,给予碰撞reward;在其他情况下,根据UAV和目的地之间的关系给予积极或消极的reward;对接近目的地的行动给予正面reward,对远离目的地的行动给予负面reward;
Figure 643208DEST_PATH_IMAGE041
表示
Figure 134232DEST_PATH_IMAGE042
在时刻t的值,
Figure 520214DEST_PATH_IMAGE043
是一个衰减超参数:
Figure 96689DEST_PATH_IMAGE044
如果无人机撞到静止或移动的障碍物,agent将获得负50的reward;一个新的epoch在无人机处于[0,0,0]的初始位置开始,这表明北、东、下点的坐标与模拟器中协调一致;为了更新网络的权重,对损失函数应用小批量梯度下降,如下所示:
Figure 288635DEST_PATH_IMAGE045
公式3中的
Figure 119319DEST_PATH_IMAGE046
是当前目标动作行为的输出值,
Figure 941782DEST_PATH_IMAGE047
代表动作行为的值;
Figure 739974DEST_PATH_IMAGE048
是权重;n是小批量的梯度下降的batch大小,为了避免高估,agent使用下列的等式更新目标
Figure 735611DEST_PATH_IMAGE049
的值;
Figure 670069DEST_PATH_IMAGE050
公式4中的
Figure 663433DEST_PATH_IMAGE051
是采取行为
Figure 463768DEST_PATH_IMAGE052
后的即时回报,
Figure 935200DEST_PATH_IMAGE053
是折扣系数;
5.2、以一个epoch的训练过程为例,环境包括静态和动态移动障碍物;静态是指环境中的障碍物是不会移动的,动态是指所有障碍物都是以不同的速度和方向随机移动的;训练阶段的目的地是在gazebo仿真模拟器中随机标点,并人为设置障碍物,在gazebo模拟器中实时进行训练模拟;在动作行为输出选择中,行为动作空间中的行为索引数i是通过
Figure 989744DEST_PATH_IMAGE054
算法得到的;
Figure 216326DEST_PATH_IMAGE054
算法选择一个在当前
Figure 723531DEST_PATH_IMAGE055
状态下取最大Q-Value的行为动作或者选择一个在开始学习过程中概率较高的随机动作;由于动作
Figure 998654DEST_PATH_IMAGE056
,得到reward
Figure 189595DEST_PATH_IMAGE057
和判断
Figure 55920DEST_PATH_IMAGE058
以及下一个UAV的状态;
5.3、将5.2中得到的reward
Figure 519263DEST_PATH_IMAGE057
和判断
Figure 394815DEST_PATH_IMAGE058
以及下一个UAV的状态添加到神经网络经验记忆中;通过从经验记忆中随机检索并通过误差反向传播算法更新神经网络的单位权重来执行学习;
5.4、在5.1、5.2、5.3过程中,应该在
Figure 627213DEST_PATH_IMAGE059
状态下采取的动作行为的Q-Value被更新的更大,UAV通过避开路径上的障碍物来学习向目的地移动所需的行为(见说明书附图10、11);
6、将相机实时拍摄的图像传入基于DRL局部规划神经网络中,在无人机事先路径规划之后,实时进行局部规划、重新规划调整飞行路线,其步骤如下:
6.1、在无人机机载计算设备上部署深度神经网络模型运行所依赖的环境;
6.2、将步骤5所得平均精度均值最大的模型移植到无人机机载计算设备中,将无人机摄像头获取的图像通过硬件接口实时传入机载设备;
6.3、将步骤2预处理之后的图像、当前相对目标的位置以及当前速度传入网络模型,经过模型检测后,程序实时的对当前全局路线进行规划并在遇到障碍物时重新规划路线控制无人机的动作。
为了验证本申请的正确性,申请人进行了如下实验。使用其规划了无人机从长江大学东校区操场到二食堂地方的路线,具体步骤如下:
1、在现有ADA*算法的基础上改进得到EADA*算法;
在已有的ADA*算法基础上添加头排序模块,减小重复排序次数。
添加具体排序的步骤如下:
1.1、在ADA*算法初始化阶段将ε的值设置为一个较大值,大于或等于2.0;创建空队列OPEN、CLOSED、INCONS和WALLS;除了目标在路径中的代价为0,g(s)和v(s)的值在所有状态下都被设置为无穷大;
1.2、开始状态以每次迭代的状态速度沿着当前次优解移动;在每一次的迭代中,
Figure 664439DEST_PATH_IMAGE060
Figure 926662DEST_PATH_IMAGE061
目标地点移动;寻路循环一直持续到机体到达最终目标状态即
Figure 340326DEST_PATH_IMAGE062
1.3、计算当前路径的代价并与前一次的迭代结果进行比较,如果依然存在与当前路径相交的障碍物,总的代价将会增加;
1.4、在代价增多的情况下,增大膨胀系数inflation,清除WALLS障碍物列表,并重新计算受代价变化影响的局部状态,如果没有观察到成本变化,则降低膨胀系数的值以改善当前路径;不一致的状态移到OPEN列表中;
1.5、计算改进的当前路径,搜索从目标状态开始,找到Open列表中的第一个关键字,此关键字小于开始状态的关键字;使用key()函数计算优先级关键字的第一个元素的关键字,使用Eq更新键值。如果新的键值比旧的键值大,则状态会与新的键保存在OPEN列表中,否则,g(s)=v(s)被设置,状态被移到CLOSED列表(见说明书附图3);
1.6、在优先级队列中最小化排序队列的次数,实现头排序;
从OPEN队列中删除优先级键最小的状态;然后在给定的状态下,使用Key()函数来计算新的键值,如果
Figure 427231DEST_PATH_IMAGE063
将该状态重新插入到具有新键值的优先级队列的头部;同时边缘代价变化也迫使ε值增加;优先级顺序保持不变;即使ε增加,
Figure 166516DEST_PATH_IMAGE064
仍是最小的键值。因此,不需要额外的排序;如果
Figure 135609DEST_PATH_IMAGE065
的情况下,EDAD*算法将与ADA*算法相同的方式扩展状态;如此即可得到EADA*算法(见说明书附图2、3、4);
2、图像预处理;
对无人机拍摄的图像进行预处理,具体的步骤如下:
2.1、从无人机的前置摄像头接收预处理的深度图像,对每一帧收到的图像进行灰度化操作;
2.2、对灰度化之后的图像进行resize操作,将灰度化后的图像缩放,调整图像尺寸大小,聚焦我们关注的视野区域;如此得到预处理之后的图像(见说明书附图6和7);
3、根据步骤2得到的预处理之后的图像,计算相对目标位置和当前速度;
3.1计算相对目的地的距离和方向
Figure 290647DEST_PATH_IMAGE066
公式1中S代表当前位置距目的地的相对距离位置:代表相对于四旋翼无人机当前位置的极坐标(距离和目标)中的目标,
Figure 310687DEST_PATH_IMAGE067
代表当前的位置,
Figure 892978DEST_PATH_IMAGE068
代表目标地的位置;使用公式1计算相对目的地的距离和方向;
3.2、获得当前位置速度,在执行任务期间,RMP(资源管理系统)向本地规划提供当前传感器数据以及四旋翼无人机的位置和速度,这样获得当前位置的速度。
如此通过3.1、3.2即可获得相对目标的位置、方向以及当前位置的速度。
4、构建基于DRL的局部规划的神经网络;
使用基于DQN算法的DRL系统网络体系结构;该网络采用30 × 100状态表示、当前位置和速度作为输入;第一层将32个8 × 8的核与输入图像进行步长为3卷积,指数线性单元ELU值为0.8,并使用修正单元ReLU激活函数;第二卷积层获得4×4的步长为2的64个核和0.8的ELU值,并再次被RelU激活函数激活;第三个卷积层卷积64个3 × 3步长的核,紧跟着一个修正单元ReLU激活函数,而第四个层的输出被展平降维并与位置向量连接。组合的输入被输入到两个全连接层,其中第一层包括256个隐藏单元,第二层包括128个隐藏单元;
动作空间决定了最后一个完全连接层中隐藏单元的数量。在本申请中,使用了7个动作空间;动作空间包括系统在特定环境中可以执行的所有动作的集合;它由七个可以用来避开障碍物的独立动作组成;第一个是沿着当前方向移动,速度为1、2、3或4m/s,第二个涉及以1 m/s的速度沿当前方向向后移动;第三和四个动作涉及向右和向左旋转30度;第五个和六个动作分别涉及向上下位置移动,速度为2 m/s,最后一个动作是保持当前位置;在每个时间步长,使用策略选择观测空间作为输入,输出是这七个动作中的一个;这些高级动作使用Gazebo仿真器提供的飞行控制器映射到低级飞行命令;通过状态空间,agent在训练和学习过程中可以将动作行为转换并使用所有状态,用于应用程序科学的输入状态;如此即可得到基于DRL的局部规划的神经网络(见说明书附图5)。
5、训练学习阶段
5.1、按照Q-Learning的方法,使用公式(2)设置学习过程中使用的reward;当四旋翼无人机到达目的地时,给予到达的reward:回报函数设计在DRL应用中是极其重要的一环,通过将任务目标具体化和数值化,实现了目标与算法之间的沟通。在本研究中,条件
Figure 349367DEST_PATH_IMAGE069
被视为表示到达目的地;与墙壁、其他UAVs或汽车等障碍物碰撞时,给予碰撞reward;在其他情况下,根据四旋翼无人机和目的地之间的关系给予积极或消极的reward;对接近目的地的行动给予正面reward,对远离目的地的行动给予负面reward;
Figure 370413DEST_PATH_IMAGE070
表示
Figure 228647DEST_PATH_IMAGE071
在时刻t的值,
Figure 247419DEST_PATH_IMAGE072
是一个衰减超参数:
Figure 705951DEST_PATH_IMAGE073
如果无人机撞到静态或动态障碍物,agent将获得负50的reward;一个新的epoch在无人机处于[0,0,0]的初始位置开始,这表明北、东、下点的坐标与模拟器中协调一致;为了更新网络的权重,我们对损失函数应用小批量梯度下降,如下所示:
Figure 999529DEST_PATH_IMAGE074
公式3中的
Figure 915533DEST_PATH_IMAGE046
是当前目标动作行为的输出值,
Figure 167522DEST_PATH_IMAGE047
代表动作行为的值;
Figure 598504DEST_PATH_IMAGE048
是权重;n是小批量的梯度下降的batch大小,为了避免高估,agent使用下列的等式更新目标
Figure 899035DEST_PATH_IMAGE049
的值;
Figure 482594DEST_PATH_IMAGE075
公式4中的
Figure 639906DEST_PATH_IMAGE051
是采取行为
Figure 761446DEST_PATH_IMAGE052
后的即时回报,
Figure 662406DEST_PATH_IMAGE053
是折扣系数;
5.2、在训练过程中,环境包括静态和动态移动障碍物;所有动态移动的障碍物都是以不同的速度和方向随机移动的;在动作输出选择中,动作索引数i是通过
Figure 553001DEST_PATH_IMAGE054
算法得到的;
Figure 881214DEST_PATH_IMAGE054
算法选择一个在当前状态下取最大Q值的动作
Figure 536056DEST_PATH_IMAGE076
或者一个在开始学习过程中概率较高的随机动作;由于动作
Figure 240706DEST_PATH_IMAGE056
,得到reward
Figure 985809DEST_PATH_IMAGE057
和判断
Figure 484923DEST_PATH_IMAGE058
以及下一个四旋翼无人机的状态;
5.3、将5.2中得到的reward
Figure 377793DEST_PATH_IMAGE057
和判断
Figure 105708DEST_PATH_IMAGE058
以及下一个四旋翼无人机的状态添加到经验记忆中;通过从经验记忆中随机检索并通过误差反向传播算法更新神经网络的单位权重来执行学习;
5.4、在5.1、5.2、5.3过程中,应该在
Figure 767634DEST_PATH_IMAGE077
状态下采取的动作行为的Q值被更新的更高,四旋翼无人机通过避开路径上的障碍物来学习向目的地移动所需的行为;学习阶段的目的地是在gazebo仿真模拟器中随机标点,并人为设置障碍物(见说明书附图10、11);
5.5、实验中的训练过程花了大约10天时间完成训练。(见说明书附图8)显示了DQN网络培训期间应用的累计reward和损失,可以看出,在200000步之后,reward从-150变为120。这是一种检查agent是否有效且朝好的方向发展的方法。在当前的训练结果中,当实验停止训练时,累积reward没有作为最后的收敛值结束,并且我们在收到目标reward值100后停止训练。当任务成功案例达到模拟运行实验测试案例的70%以上时,reward值的目标被确定。这意味着UAV可以学习如何到达目的地,并在少量的训练步骤内避免动态障碍。橙色线代表DQN模型的移动平均趋势线。(见说明书附图9)
6、将相机实时拍摄的图像传入基于DRL局部规划神经网络中,在无人机事先路径规划之后,实时进行局部规划、重新规划调整飞行路线,其步骤如下:
6.1、在四旋翼无人机机载计算设备nano上部署深度神经网络模型运行所依赖的环境,Linux18.04、python3.6、tensorflow2.0;
6.2、将步骤5所得平均精度均值最大的模型移植到无人机机载计算设备中,将四旋翼无人机摄像头获取的图像通过硬件接口实时传入机载设备;
6.3、将步骤2预处理之后的图像、当前相对目标的位置以及当前速度传入网络模型,经过模型检测后,程序实时的对当前全局路线进行规划并在遇到障碍物时重新规划路线控制无人机的动作(见说明书附图12、13、14)。
该无人机混合路径规划方法在现有的ADA*算法基础上进行改进,减少重复排序带来的时间耗时,同时针对无人机避障,增加采用基于DRL的局部规划神经网络,对存在障碍物检测并重新规划路径,极大的降低了机载计算机的计算负荷,有效的进行避障。

Claims (1)

1.一种无人机混合路径规划方法,其特征在于:它包括如下步骤:
1、在现有ADA*算法的基础上改进得到EADA*算法;
在已有的ADA*算法基础上通过添加头排序算法思想实现头排序功能;
其实现具体的步骤如下:
1.1、在ADA*算法初始化阶段将ε的值设置为一个较大值,大于或等于2.0;创建空队列OPEN、CLOSED、INCONS和WALLS;除了目标在路径中的代价为0,g(s)和v(s)的值在所有状态下都被设置为无穷大;
1.2、开始状态以每次迭代的状态速度沿着当前次优解移动;在每一次的迭代中,
Figure DEST_PATH_IMAGE001
Figure DEST_PATH_IMAGE002
目标地点移动;寻路循环一直持续到机体到达最终目标状态即
Figure DEST_PATH_IMAGE003
1.3、计算当前路径的代价并与前一次的迭代结果进行比较,如果依然存在与当前路径相交的障碍物,总的代价将会增加;
1.4、在代价增多的情况下,增大膨胀系数inflation,清除WALLS障碍物列表,并重新计算受代价变化影响的局部状态,如果没有观察到成本变化,则降低膨胀系数的值以改善当前路径;不一致的状态移到OPEN列表中;
1.5、计算改进的当前路径,搜索从目标状态开始,找到Open列表中的第一个关键字,此关键字小于开始状态的关键字;使用key()函数计算优先级关键字的第一个元素的关键字,使用Eq更新键值;如果新的键值比旧的键值大,则状态会与新的键保存在OPEN列表中,否则,g(s)=v(s)被设置,状态被移到CLOSED列表;
1.6、在优先级队列中最小化排序队列的次数,实现头排序的功能;
从OPEN队列中删除优先级键最小的状态;然后在给定的状态下,使用Key()函数来计算新的键值,如果
Figure DEST_PATH_IMAGE004
将该状态重新插入到具有新键值的优先级队列的头部;同时边缘代价变化也迫使ε值增加;优先级顺序保持不变;即使ε增加,
Figure DEST_PATH_IMAGE005
仍是最小的键值;因此,不需要额外的排序;如果
Figure DEST_PATH_IMAGE006
的情况下,EDAD*算法将与ADA*算法相同的方式扩展状态;如此即可得到EADA*算法;
2、图像预处理;
对无人机拍摄的图像进行预处理,具体的步骤如下:
2.1、从无人机的前置摄像头接收预处理的深度图像,对每一帧收到的图像进行灰度化操作;
2.2、对灰度化之后的图像进行resize操作,将灰度化后的图像缩放,调整图像尺寸大小,聚焦我们关注的视野区域;如此得到预处理之后的图像;
3、根据步骤2得到的预处理之后的图像,计算相对目标位置和当前速度;
3.1计算相对目的地的距离和方向:
Figure DEST_PATH_IMAGE007
公式1中S代表当前位置距目的地的相对距离位置,
Figure DEST_PATH_IMAGE008
代表当前的位置,
Figure DEST_PATH_IMAGE009
代表目标地的位置;使用公式1计算相对目的地的距离和方向;
3.2、获得当前位置速度,在执行任务期间,RMP向本地规划提供当前传感器数据以及UAV的位置和速度,如此获得当前位置的速度;
4、构建基于DRL的局部规划的神经网络;
使用基于DQN算法的DRL系统网络体系结构;该网络采用30 × 100状态表示、当前位置和速度作为输入;第一层将32个8 × 8的核与输入图像进行步长为3卷积,指数线性单元ELU值为0.8,并使用修正单元ReLU激活函数;第二卷积层获得4×4的步长为2的64个核和0.8的ELU值,并再次被RelU激活函数激活;第三个卷积层卷积64个3 × 3步长的核,紧跟着一个修正单元ReLU激活函数,而第四个层的输出被展平降维并与位置向量连接;组合的输入被输入到两个全连接层,其中第一层包括256个隐藏单元,第二层包括128个隐藏单元;
动作空间决定了最后一个完全连接层中隐藏单元的数量;在本申请中,使用7个动作空间;动作空间包括系统在特定环境中可以执行的所有动作的集合;它由七个可以用来避开障碍物的独立动作组成;第一个是沿着当前方向移动,速度为1、2、3或4m/s,第二个涉及以1m/s的速度沿当前方向向后移动;第三和四个动作涉及向右和向左旋转30度;第五个和六个动作分别涉及向上下位置移动,速度为2 m/s,最后一个动作是保持当前位置;在每个时间步长,使用策略选择观测空间作为输入,输出是这七个动作中的一个;这些高级动作使用Gazebo仿真器提供的飞行控制器映射到低级飞行命令;通过状态空间,agent在训练和学习过程中可以将动作行为转换并使用所有状态,用于应用程序科学的输入状态;如此即可得到基于DRL的局部规划的神经网络;
5、训练学习阶段
5.1、设置训练参数,在步骤4基于DRL局部规划神经网络基础上,按照Q-Learning的方法,使用公式2设置学习过程中使用的reward;当UAV到达目的地时,给予到达的reward:回报函数设计在DRL应用中是极其重要的一环,通过将任务目标具体化和数值化,实现了目标与算法之间的沟通;在本研究中,条件
Figure DEST_PATH_IMAGE010
被视为表示到达目的地;与墙壁、其他UAVs或汽车等障碍物碰撞时,给予碰撞reward;在其他情况下,根据UAV和目的地之间的关系给予积极或消极的reward;对接近目的地的行动给予正面reward,对远离目的地的行动给予负面reward;
Figure DEST_PATH_IMAGE011
表示
Figure DEST_PATH_IMAGE012
在时刻t的值,
Figure DEST_PATH_IMAGE013
是一个衰减超参数:
Figure DEST_PATH_IMAGE014
如果无人机撞到静态或动态障碍物,agent将获得负50的reward;一个新的epoch在无人机处于[0,0,0]的初始位置开始,这表明北、东、下点的坐标与模拟器中协调一致;为了更新网络的权重,对损失函数应用小批量梯度下降,如下所示:
Figure DEST_PATH_IMAGE015
公式3中的
Figure DEST_PATH_IMAGE016
是当前目标动作行为的输出值,
Figure DEST_PATH_IMAGE017
代表动作行为的值;
Figure DEST_PATH_IMAGE018
是权重;n是小批量的梯度下降的batch大小,为了避免高估,agent使用下列的等式更新目标
Figure DEST_PATH_IMAGE019
的值;
Figure DEST_PATH_IMAGE020
公式4中的
Figure DEST_PATH_IMAGE021
是采取行为
Figure DEST_PATH_IMAGE022
后的即时回报,γ是折扣系数;
5.2、以一个epoch的训练过程为例,环境包括静态和动态移动障碍物;静态环境是指环境中的障碍物是不会移动的,动态环境是指所有障碍物都是以不同的速度和方向随机移动的;训练阶段的目的地是在gazebo仿真模拟器中随机标点,并人为设置障碍物,在gazebo模拟器中实时进行训练模拟;在动作行为输出选择中,行为动作空间中的行为索引数i是通过
Figure DEST_PATH_IMAGE023
算法得到的;
Figure DEST_PATH_IMAGE024
算法选择一个在当前
Figure DEST_PATH_IMAGE025
状态下取最大Q-Value的行为动作或者选择一个在开始学习过程中概率较高的随机动作;由于动作
Figure DEST_PATH_IMAGE026
,得到reward
Figure DEST_PATH_IMAGE027
和判断
Figure DEST_PATH_IMAGE028
以及下一个UAV的状态;
5.3、将5.2中得到的reward
Figure 352276DEST_PATH_IMAGE027
和判断
Figure 534996DEST_PATH_IMAGE028
以及下一个UAV的状态添加到神经网络经验记忆中;通过从经验记忆中随机检索并通过误差反向传播算法更新神经网络的单位权重来执行学习;
5.4、在5.1、5.2、5.3过程中,应该在
Figure DEST_PATH_IMAGE029
状态下采取的动作行为的Q-Value被更新的更大,UAV通过避开路径上的障碍物来学习向目的地移动所需的行为;
6、将相机实时拍摄的图像传入基于DRL局部规划神经网络中,在无人机事先路径规划之后,实时进行局部规划、重新规划调整飞行路线,其步骤如下:
6.1、在无人机机载计算设备上部署深度神经网络模型运行所依赖的环境;
6.2、将步骤5所得平均精度均值最大的模型移植到无人机机载计算设备中,将无人机摄像头获取的图像通过硬件接口实时传入机载设备;
6.3、将步骤2预处理之后的图像、当前相对目标的位置以及当前速度传入网络模型,经过模型检测后,程序实时的对当前全局路线进行规划并在遇到障碍物时重新规划路线控制无人机的动作。
CN202110657180.0A 2021-06-11 2021-06-11 一种无人机混合路径规划方法 Active CN113220037B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110657180.0A CN113220037B (zh) 2021-06-11 2021-06-11 一种无人机混合路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110657180.0A CN113220037B (zh) 2021-06-11 2021-06-11 一种无人机混合路径规划方法

Publications (2)

Publication Number Publication Date
CN113220037A CN113220037A (zh) 2021-08-06
CN113220037B true CN113220037B (zh) 2022-03-15

Family

ID=77080237

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110657180.0A Active CN113220037B (zh) 2021-06-11 2021-06-11 一种无人机混合路径规划方法

Country Status (1)

Country Link
CN (1) CN113220037B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2950725A1 (en) * 2009-05-15 2010-11-15 Eagle View Technologies, Inc. Pitch determination systems and methods for aerial roof estimation
CN111401146A (zh) * 2020-02-26 2020-07-10 长江大学 一种无人机电力巡检方法、设备及存储介质
CN111596915A (zh) * 2020-05-19 2020-08-28 西安电子科技大学 基于状态机图的无人机飞行模式的c++代码生成方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190184561A1 (en) * 2017-12-15 2019-06-20 The Regents Of The University Of California Machine Learning based Fixed-Time Optimal Path Generation
US20210103286A1 (en) * 2019-10-04 2021-04-08 Hong Kong Applied Science And Technology Research Institute Co., Ltd. Systems and methods for adaptive path planning

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2950725A1 (en) * 2009-05-15 2010-11-15 Eagle View Technologies, Inc. Pitch determination systems and methods for aerial roof estimation
CN111401146A (zh) * 2020-02-26 2020-07-10 长江大学 一种无人机电力巡检方法、设备及存储介质
CN111596915A (zh) * 2020-05-19 2020-08-28 西安电子科技大学 基于状态机图的无人机飞行模式的c++代码生成方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
A survey of Open-Source UAV flight controllers and flight simulators;Emad Ebeid;《Microprocessors and Microsystems》;20180930;全文 *
Application of the Adaptive Double-layer Ant Colony Algorithm in UAV Trajectory Planning;Chu Wang;《2021 4th International Conference on Intelligent Autonomous Systems (ICoIAS)》;20210521;全文 *
Improved search paths for camera-equipped UAVS in wilderness search and rescue;Michael Pelosi;《2017 IEEE Symposium Series on Computational Intelligence (SSCI)》;20171231;全文 *
基于视觉的无人机室内避障研究;顾振辉;《中国优秀硕士学位论文全文数据库•工程科技‖辑》;20210315;全文 *
无人机与深度学习在建筑物实时检测中的应用;詹炜;《软件导刊》;20210331;全文 *
非线性多智能体系统的自适应输出反馈控制;曲福益;《中国优秀硕士学位论文全文数据库•信息科技辑》;20190815;全文 *

Also Published As

Publication number Publication date
CN113220037A (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
Yan et al. Towards real-time path planning through deep reinforcement learning for a UAV in dynamic environments
Ruan et al. Mobile robot navigation based on deep reinforcement learning
Hong et al. Energy-efficient online path planning of multiple drones using reinforcement learning
Zhou et al. A deep Q-network (DQN) based path planning method for mobile robots
CN108319293B (zh) 一种基于lstm网络的uuv实时避碰规划方法
CN111923928A (zh) 用于自动车辆的决策制定方法和系统
CN107169608A (zh) 多无人机执行多任务的分配方法及装置
CN111008999A (zh) 用包含跟踪网络的cnn跟踪对象的方法和使用该方法的装置
WO2022100107A1 (en) Methods and systems for predicting dynamic object behavior
CN112433525A (zh) 基于模仿学习及深度强化学习的移动机器人导航方法
CN112034887A (zh) 无人机躲避柱状障碍物到达目标点的最优路径训练方法
CN114518770B (zh) 一种电势场和深度强化学习融合的无人机路径规划方法
JP2020123346A (ja) 各領域において最適化された自律走行を遂行できるように位置基盤アルゴリズムの選択によってシームレスパラメータ変更を遂行する方法及び装置
Kim et al. Towards monocular vision-based autonomous flight through deep reinforcement learning
Sarabakha et al. Y6 tricopter autonomous evacuation in an indoor environment using Q-learning algorithm
CN113391633A (zh) 一种面向城市环境的移动机器人融合路径规划方法
CN116679711A (zh) 一种基于有模型与无模型强化学习的机器人避障方法
Fu et al. Memory-enhanced deep reinforcement learning for UAV navigation in 3D environment
CN115562357A (zh) 一种面向无人机集群的智能路径规划方法
CN116661503A (zh) 一种基于多智能体安全强化学习的集群航迹自动规划方法
CN114967721A (zh) 一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法
US20240104335A1 (en) Motion forecasting for autonomous systems
CN113220037B (zh) 一种无人机混合路径规划方法
Ho et al. A parameter sharing method for reinforcement learning model between airsim and uavs
Li et al. UAV obstacle avoidance by human-in-the-loop reinforcement in arbitrary 3D environment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant