CN113220037B - 一种无人机混合路径规划方法 - Google Patents
一种无人机混合路径规划方法 Download PDFInfo
- Publication number
- CN113220037B CN113220037B CN202110657180.0A CN202110657180A CN113220037B CN 113220037 B CN113220037 B CN 113220037B CN 202110657180 A CN202110657180 A CN 202110657180A CN 113220037 B CN113220037 B CN 113220037B
- Authority
- CN
- China
- Prior art keywords
- state
- value
- action
- algorithm
- aerial vehicle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 61
- 238000013528 artificial neural network Methods 0.000 claims abstract description 25
- 238000012163 sequencing technique Methods 0.000 claims abstract description 13
- 230000009471 action Effects 0.000 claims description 85
- 230000006870 function Effects 0.000 claims description 34
- 238000012549 training Methods 0.000 claims description 29
- 230000008569 process Effects 0.000 claims description 18
- 230000006399 behavior Effects 0.000 claims description 15
- 230000008859 change Effects 0.000 claims description 13
- 239000003795 chemical substances by application Substances 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 12
- 230000003068 static effect Effects 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000012937 correction Methods 0.000 claims description 8
- 230000033001 locomotion Effects 0.000 claims description 8
- 238000004088 simulation Methods 0.000 claims description 6
- 238000013461 design Methods 0.000 claims description 5
- 238000004891 communication Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 4
- 238000003062 neural network model Methods 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- 230000004888 barrier function Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 3
- 238000002474 experimental method Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000001186 cumulative effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/12—Target-seeking control
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明涉及一种无人机自主规划路径的方法,属无人机控制技术领域。该无人机混合路径规划方法在现有的ADA*算法基础上进行改进,减少重复排序带来的时间耗时,同时针对无人机避障,增加采用基于DRL的局部规划神经网络,对存在障碍物检测并重新规划路径,极大的降低了机载计算机的计算负荷,有效的进行避障。
Description
技术领域
本发明涉及一种无人机自主规划路径的方法,属无人机控制技术领域。
背景技术
随着无人机技术的发展与市场普及,无人机在航拍、巡检、农林植保、环保、灾后救援等民用领域也得到了广泛的应用。然而现实中对于无人机的飞行线路有着诸多复杂的制约,比如建筑群、机场、政府机构,学校、人流密集区等禁飞区,一但误入不仅对无人机本身会造成损伤,而且会造成人员的安全风险甚至直接造成事故。因此在无人机作业前规划一条避开敏感地带的安全的、并且全局最优的路线已成为迫切的需求。
目前无人机自主规划路径的方法有很多,如申请号为CN202011542716.6的发明专利申请公开的一种无人机线路规划方式,其虽然能够实现无人机路径的自主规划但是其存有的问题的如下:
1、申请号为CN202011542716.6的发明专利申请公开的一种无人机线路规划方式中采取了基于视觉SLAM的室内无人机路径规划方式,其全程通过相机获取外界图像信息,构建点云地图,再进行点云滤波与降采样,构建探索地图,这样无人机实时路径规划计算量负荷大,构建的地图本身也难以直接用于路径规划与导航。
2、其基于视觉的无人机路径规划采用实时局部路径规划,事先并不确定飞行的路线,探索未知区域。在无人机飞行过程中通过相机传回来的图像实时确定行进路线,局部规划并没有考虑路径的全局重新规划,同时局部路径规划通过计算地势值来进行避障,鲁棒性较差,极易发生障碍物碰撞。
由此有必要研发一种新的无人机路径规划方法,以解决现有方法存有的以上问题。
发明内容
本发明的目的在于:提供一种基于无人机路径全局规划算法与深度学习DRL局部规划融合的混合路径规划算法,以解决现有的基于视觉的无人机规划方法存有鲁棒性较差和极易发生障碍物碰撞的技术问题。
本发明的技术方案是:
1、一种无人机混合路径规划方法,其特征在于:它包括如下步骤:
1、在现有ADA*算法的基础上改进得到EADA*算法;
在已有的ADA*算法基础上通过添加头排序算法思想实现头排序功能;
其实现具体的步骤如下:
1.1、在ADA*算法初始化阶段将ε的值设置为一个较大值,大于或等于2.0;创建空队列OPEN、CLOSED、INCONS和WALLS;除了目标在路径中的代价为0,g(s)和v(s)的值在所有状态下都被设置为无穷大;
1.3、计算当前路径的代价并与前一次的迭代结果进行比较,如果依然存在与当前路径相交的障碍物,总的代价将会增加;
1.4、在代价增多的情况下,增大膨胀系数inflation,清除WALLS障碍物列表,并重新计算受代价变化影响的局部状态,如果没有观察到成本变化,则降低inflation的值以改善当前路径;不一致的状态移到OPEN列表中;
1.5、计算改进的当前路径,搜索从目标状态开始,找到Open列表中的第一个关键字,此关键字小于开始状态的关键字;使用key()函数计算优先级关键字的第一个元素的关键字,使用Eq更新键值;如果新的键值比旧的键值大,则状态会与新的键保存在OPEN列表中,否则,g(s)=v(s)被设置,状态被移到CLOSED列表;
1.6、在优先级队列中最小化排序队列的次数,实现头排序的功能;
从OPEN队列中删除优先级键最小的状态;然后在给定的状态下,使用Key()函数来计算新的键值,如果将该状态重新插入到具有新键值的优先级队列的头部;同时边缘代价变化也迫使ε值增加;优先级顺序保持不变;即使ε增加,仍是最小的键值;因此,不需要额外的排序;如果的情况下,EDAD*算法将与ADA*算法相同的方式扩展状态;如此即可得到EADA*算法;
2、图像预处理;
对无人机拍摄的图像进行预处理,具体的步骤如下:
2.1、从无人机的前置摄像头接收预处理的深度图像,对每一帧收到的图像进行灰度化操作;
2.2、对灰度化之后的图像进行resize操作,将灰度化后的图像缩放,调整图像尺寸大小,聚焦我们关注的视野区域;如此得到预处理之后的图像;
3、根据步骤2得到的预处理之后的图像,计算相对目标位置和当前速度;
3.1计算相对目的地的距离和方向:
3.2、获得当前位置速度,在执行任务期间,RMP(资源管理系统)向本地规划提供当前传感器数据以及UAV的位置和速度,如此获得当前位置的速度;
4、构建基于DRL的局部规划的神经网络;
使用基于DQN算法的DRL系统网络体系结构;该网络采用30 × 100状态表示、当前位置和速度作为输入;第一层将32个8 × 8的核与输入图像进行步长为3卷积,指数线性单元ELU值为0.8,并使用修正单元ReLU激活函数;第二卷积层获得4×4的步长为2的64个核和0.8的ELU值,并再次被RelU激活函数激活;第三个卷积层卷积64个3 × 3步长的核,紧跟着一个修正单元ReLU激活函数,而第四个层的输出被展平降维并与位置向量连接;组合的输入被输入到两个全连接层,其中第一层包括256个隐藏单元,第二层包括128个隐藏单元;
动作空间决定了最后一个完全连接层中隐藏单元的数量;在本申请中,使用7个动作空间;动作空间包括系统在特定环境中可以执行的所有动作的集合;它由七个可以用来避开障碍物的独立动作组成;第一个是沿着当前方向移动,速度为1、2、3或4m/s,第二个涉及以1 m/s的速度沿当前方向向后移动;第三和四个动作涉及向右和向左旋转30度;第五个和六个动作分别涉及向上下位置移动,速度为2 m/s,最后一个动作是保持当前位置;在每个时间步长,使用策略选择观测空间作为输入,输出是这七个动作中的一个;这些高级动作使用Gazebo仿真器提供的飞行控制器映射到低级飞行命令;通过状态空间,agent在训练和学习过程中可以将动作行为转换并使用所有状态,用于应用程序科学的输入状态;如此即可得到基于DRL的局部规划的神经网络;
5、训练学习阶段
5.1、设置训练参数,在步骤4基于DRL局部规划神经网络基础上,按照Q-Learning的方法,使用公式2设置学习过程中使用的reward;当UAV到达目的地时,给予到达的reward:回报函数设计在DRL应用中是极其重要的一环,通过将任务目标具体化和数值化,实现了目标与算法之间的沟通;在本研究中,条件被视为表示到达目的地;与墙壁、其他UAVs或汽车等障碍物碰撞时,给予碰撞reward;在其他情况下,根据UAV和目的地之间的关系给予积极或消极的reward;对接近目的地的行动给予正面reward,对远离目的地的行动给予负面reward;表示在时刻t的值,是一个衰减超参数
如果无人机撞到静止或移动的障碍物,agent将获得负50的reward;一个新的epoch在无人机处于[0,0,0]的初始位置开始,这表明北、东、下点的坐标与模拟器中协调一致;为了更新网络的权重,对损失函数应用小批量梯度下降,如下所示:
5.2、以一个epoch的训练过程为例,环境包括静态和动态移动障碍物;静态环境是指环境中的障碍物是不会移动的,动态环境是指所有障碍物都是以不同的速度和方向随机移动的;训练阶段的目的地是在gazebo仿真模拟器中随机标点,并人为设置障碍物,在gazebo模拟器中实时进行训练模拟;在动作行为输出选择中,行为动作空间中的行为索引数i是通过算法得到的;算法选择一个在当前状态下取最大Q-Value的行为动作或者选择一个在开始学习过程中概率较高的随机动作;由于动作,得到reward和判断以及下一个UAV的状态;
6、将相机实时拍摄的图像传入基于DRL局部规划神经网络中,在无人机事先路径规划之后,实时进行局部规划、重新规划调整飞行路线,其步骤如下:
6.1、在无人机机载计算设备上部署深度神经网络模型运行所依赖的环境;
6.2、将步骤5所得平均精度均值最大的模型移植到无人机机载计算设备中,将无人机摄像头获取的图像通过硬件接口实时传入机载设备;
6.3、将步骤2预处理之后的图像、当前相对目标的位置以及当前速度传入网络模型,经过模型检测后,程序实时的对当前全局路线进行规划并在遇到障碍物时重新规划路线控制无人机的动作。
本发明的优点在于:
该无人机混合路径规划方法在现有的ADA*算法基础上进行改进,减少重复排序带来的时间耗时,同时针对无人机避障,增加采用基于DRL的局部规划神经网络,对存在障碍物检测并重新规划路径,极大的降低了机载计算机的计算负荷,有效的进行避障。
附图说明
图1为本发明的规划结构图;
图2为本发明的EADA*算法代码图;
图3为本发明步骤1的算法流程;
图4为本发明EADA*算法图;
图5为本发明DRL系统网络体系结构图;
图6为本发明步骤2预处理前图像图;
图7为本发明步骤2处理后的图像图;
图9为本发明进行实验时,步骤5 得到DQN模型的移动平均趋势线;
图10为本发明进行实验时,步骤5.4的gazebo仿真模拟器进行标点的图像;
图11为本发明进行实验时,步骤5.4的gazebo仿真模拟器进行标点的图像;
图12为本发明进行实验时,步骤6的静态环境下模拟效果;
图13为本发明进行实验时,步骤6的动态环境下模拟效果;
图14为本发明进行实验时,得到的路径规划节点图。
具体实施方式
该无人机混合路径规划方法,包括如下步骤:(见说明书附图1)
1、在现有ADA*算法的基础上改进得到EADA*算法;
在已有的ADA*算法基础上通过添加头排序算法思想实现头排序功能;
其实现具体的步骤如下:
1.1、在ADA*算法初始化阶段将ε的值设置为一个较大值,大于或等于2.0;创建空队列OPEN、CLOSED、INCONS和WALLS;除了目标在路径中的代价为0,g(s)和v(s)的值在所有状态下都被设置为无穷大;
1.3、计算当前路径的代价并与前一次的迭代结果进行比较,如果依然存在与当前路径相交的障碍物,总的代价将会增加;
1.4、在代价增多的情况下,增大膨胀系数inflation,清除WALLS障碍物列表,并重新计算受代价变化影响的局部状态,如果没有观察到成本变化,则降低膨胀系数的值以改善当前路径;不一致的状态移到OPEN列表中;
1.5、计算改进的当前路径,搜索从目标状态开始,找到Open列表中的第一个关键字,此关键字小于开始状态的关键字;使用key()函数计算优先级关键字的第一个元素的关键字,使用Eq更新键值;如果新的键值比旧的键值大,则状态会与新的键保存在OPEN列表中,否则,g(s)=v(s)被设置,状态被移到CLOSED列表;(见说明书附图3)
1.6、在优先级队列中最小化排序队列的次数,实现头排序的功能;
从OPEN队列中删除优先级键最小的状态;然后在给定的状态下,使用Key()函数来计算新的键值,如果将该状态重新插入到具有新键值的优先级队列的头部;同时边缘代价变化也迫使ε值增加;优先级顺序保持不变;即使ε增加,仍是最小的键值;因此,不需要额外的排序;如果的情况下,EDAD*算法将与ADA*算法相同的方式扩展状态;如此即可得到EADA*算法(见说明书附图2、3、4);
EADA*算法是在现有ADA*算法的基础上的改善,其专注于二维动态环境中的路径设计;最初的ADA*算法在每次检测到边缘成本变化时执行优先级队列排序,EADA*避免了优先级队列的重复重排,如此减小重复排序次数,达到快速选中代价最小的状态的目的,从而加快路径规划的速度;
2、图像预处理;
对无人机拍摄的图像进行预处理,具体的步骤如下:
2.1、从无人机的前置摄像头接收预处理的深度图像,对每一帧收到的图像进行灰度化操作;
2.2、对灰度化之后的图像进行resize操作,将灰度化后的图像缩放,调整图像尺寸大小,聚焦我们关注的视野区域;如此得到预处理之后的图像(见说明书附图6);
对实时接收到的视频帧图像进行灰度化、缩放预处理,灰度化操作去掉了图像的颜色等级,同时减小了图像的计算量,减轻了服务器的负荷;而图像的缩放操作可以聚焦图像中心的视野区域,使得后面局部神经网络效果更好,鲁棒性更强;
3、根据步骤2得到的预处理之后的图像,计算相对目标位置和当前速度;
3.1计算相对目的地的距离和方向:
3.2、获得当前位置速度,在执行任务期间,RMP(资源管理系统)向本地规划提供当前传感器数据以及UAV的位置和速度,如此获得当前位置的速度;
如此通过3.1、3.2即可获得相对目标的位置、方向以及当前位置的速度。计算当前相对目标与速度是为了在步骤4进行网络训练训练时,输入当前位置与速度这两个值,最终输出动作空间中的避让动作,来达到实现避障的目的。
4、构建基于DRL的局部规划的神经网络;
使用基于DQN算法的DRL系统网络体系结构(参见说明书附图5);该网络采用30 ×100状态表示、当前位置和速度作为输入;第一层将32个8 × 8的核与输入图像进行步长为3卷积,指数线性单元ELU值为0.8,并使用修正单元ReLU激活函数;第二卷积层获得4×4的步长为2的64个核和0.8的ELU值,并再次被RelU激活函数激活;第三个卷积层卷积64个3 ×3步长的核,紧跟着一个修正单元ReLU激活函数,而第四个层的输出被展平降维并与位置向量连接;组合的输入被输入到两个全连接层,其中第一层包括256个隐藏单元,第二层包括128个隐藏单元;
动作空间决定了最后一个完全连接层中隐藏单元的数量。在本申请中,使用了7个动作空间;动作空间包括系统在特定环境中可以执行的所有动作的集合;它由七个可以用来避开障碍物的独立动作组成;第一个是沿着当前方向移动,速度为1、2、3或4m/s,第二个涉及以1 m/s的速度沿当前方向向后移动。第三和四个动作涉及向右和向左旋转30度。第五个和六个动作分别涉及向上下位置移动,速度为2 m/s,最后一个动作是保持当前位置;在每个时间步长,使用策略选择观测空间作为输入,输出是这七个动作中的一个;这些高级动作使用Gazebo仿真器提供的飞行控制器映射到低级飞行命令;通过状态空间,agent在训练和学习过程中可以将动作行为转换并使用所有状态,用于应用程序科学的输入状态;如此即可得到基于DRL的局部规划的神经网络;
5、训练学习阶段
5.1、设置训练参数,在步骤4基于DRL局部规划神经网络基础上,按照Q-Learning的方法,使用公式2设置学习过程中使用的reward;当UAV到达目的地时,给予到达的reward:回报函数设计在DRL应用中是极其重要的一环,通过将任务目标具体化和数值化,实现了目标与算法之间的沟通;在本研究中,条件被视为表示到达目的地;与墙壁、其他UAVs或汽车等障碍物碰撞时,给予碰撞reward;在其他情况下,根据UAV和目的地之间的关系给予积极或消极的reward;对接近目的地的行动给予正面reward,对远离目的地的行动给予负面reward;表示在时刻t的值,是一个衰减超参数:
如果无人机撞到静止或移动的障碍物,agent将获得负50的reward;一个新的epoch在无人机处于[0,0,0]的初始位置开始,这表明北、东、下点的坐标与模拟器中协调一致;为了更新网络的权重,对损失函数应用小批量梯度下降,如下所示:
5.2、以一个epoch的训练过程为例,环境包括静态和动态移动障碍物;静态是指环境中的障碍物是不会移动的,动态是指所有障碍物都是以不同的速度和方向随机移动的;训练阶段的目的地是在gazebo仿真模拟器中随机标点,并人为设置障碍物,在gazebo模拟器中实时进行训练模拟;在动作行为输出选择中,行为动作空间中的行为索引数i是通过算法得到的;算法选择一个在当前状态下取最大Q-Value的行为动作或者选择一个在开始学习过程中概率较高的随机动作;由于动作,得到reward 和判断以及下一个UAV的状态;
6、将相机实时拍摄的图像传入基于DRL局部规划神经网络中,在无人机事先路径规划之后,实时进行局部规划、重新规划调整飞行路线,其步骤如下:
6.1、在无人机机载计算设备上部署深度神经网络模型运行所依赖的环境;
6.2、将步骤5所得平均精度均值最大的模型移植到无人机机载计算设备中,将无人机摄像头获取的图像通过硬件接口实时传入机载设备;
6.3、将步骤2预处理之后的图像、当前相对目标的位置以及当前速度传入网络模型,经过模型检测后,程序实时的对当前全局路线进行规划并在遇到障碍物时重新规划路线控制无人机的动作。
为了验证本申请的正确性,申请人进行了如下实验。使用其规划了无人机从长江大学东校区操场到二食堂地方的路线,具体步骤如下:
1、在现有ADA*算法的基础上改进得到EADA*算法;
在已有的ADA*算法基础上添加头排序模块,减小重复排序次数。
添加具体排序的步骤如下:
1.1、在ADA*算法初始化阶段将ε的值设置为一个较大值,大于或等于2.0;创建空队列OPEN、CLOSED、INCONS和WALLS;除了目标在路径中的代价为0,g(s)和v(s)的值在所有状态下都被设置为无穷大;
1.3、计算当前路径的代价并与前一次的迭代结果进行比较,如果依然存在与当前路径相交的障碍物,总的代价将会增加;
1.4、在代价增多的情况下,增大膨胀系数inflation,清除WALLS障碍物列表,并重新计算受代价变化影响的局部状态,如果没有观察到成本变化,则降低膨胀系数的值以改善当前路径;不一致的状态移到OPEN列表中;
1.5、计算改进的当前路径,搜索从目标状态开始,找到Open列表中的第一个关键字,此关键字小于开始状态的关键字;使用key()函数计算优先级关键字的第一个元素的关键字,使用Eq更新键值。如果新的键值比旧的键值大,则状态会与新的键保存在OPEN列表中,否则,g(s)=v(s)被设置,状态被移到CLOSED列表(见说明书附图3);
1.6、在优先级队列中最小化排序队列的次数,实现头排序;
从OPEN队列中删除优先级键最小的状态;然后在给定的状态下,使用Key()函数来计算新的键值,如果将该状态重新插入到具有新键值的优先级队列的头部;同时边缘代价变化也迫使ε值增加;优先级顺序保持不变;即使ε增加,仍是最小的键值。因此,不需要额外的排序;如果的情况下,EDAD*算法将与ADA*算法相同的方式扩展状态;如此即可得到EADA*算法(见说明书附图2、3、4);
2、图像预处理;
对无人机拍摄的图像进行预处理,具体的步骤如下:
2.1、从无人机的前置摄像头接收预处理的深度图像,对每一帧收到的图像进行灰度化操作;
2.2、对灰度化之后的图像进行resize操作,将灰度化后的图像缩放,调整图像尺寸大小,聚焦我们关注的视野区域;如此得到预处理之后的图像(见说明书附图6和7);
3、根据步骤2得到的预处理之后的图像,计算相对目标位置和当前速度;
3.1计算相对目的地的距离和方向
3.2、获得当前位置速度,在执行任务期间,RMP(资源管理系统)向本地规划提供当前传感器数据以及四旋翼无人机的位置和速度,这样获得当前位置的速度。
如此通过3.1、3.2即可获得相对目标的位置、方向以及当前位置的速度。
4、构建基于DRL的局部规划的神经网络;
使用基于DQN算法的DRL系统网络体系结构;该网络采用30 × 100状态表示、当前位置和速度作为输入;第一层将32个8 × 8的核与输入图像进行步长为3卷积,指数线性单元ELU值为0.8,并使用修正单元ReLU激活函数;第二卷积层获得4×4的步长为2的64个核和0.8的ELU值,并再次被RelU激活函数激活;第三个卷积层卷积64个3 × 3步长的核,紧跟着一个修正单元ReLU激活函数,而第四个层的输出被展平降维并与位置向量连接。组合的输入被输入到两个全连接层,其中第一层包括256个隐藏单元,第二层包括128个隐藏单元;
动作空间决定了最后一个完全连接层中隐藏单元的数量。在本申请中,使用了7个动作空间;动作空间包括系统在特定环境中可以执行的所有动作的集合;它由七个可以用来避开障碍物的独立动作组成;第一个是沿着当前方向移动,速度为1、2、3或4m/s,第二个涉及以1 m/s的速度沿当前方向向后移动;第三和四个动作涉及向右和向左旋转30度;第五个和六个动作分别涉及向上下位置移动,速度为2 m/s,最后一个动作是保持当前位置;在每个时间步长,使用策略选择观测空间作为输入,输出是这七个动作中的一个;这些高级动作使用Gazebo仿真器提供的飞行控制器映射到低级飞行命令;通过状态空间,agent在训练和学习过程中可以将动作行为转换并使用所有状态,用于应用程序科学的输入状态;如此即可得到基于DRL的局部规划的神经网络(见说明书附图5)。
5、训练学习阶段
5.1、按照Q-Learning的方法,使用公式(2)设置学习过程中使用的reward;当四旋翼无人机到达目的地时,给予到达的reward:回报函数设计在DRL应用中是极其重要的一环,通过将任务目标具体化和数值化,实现了目标与算法之间的沟通。在本研究中,条件被视为表示到达目的地;与墙壁、其他UAVs或汽车等障碍物碰撞时,给予碰撞reward;在其他情况下,根据四旋翼无人机和目的地之间的关系给予积极或消极的reward;对接近目的地的行动给予正面reward,对远离目的地的行动给予负面reward;表示在时刻t的值,是一个衰减超参数:
如果无人机撞到静态或动态障碍物,agent将获得负50的reward;一个新的epoch在无人机处于[0,0,0]的初始位置开始,这表明北、东、下点的坐标与模拟器中协调一致;为了更新网络的权重,我们对损失函数应用小批量梯度下降,如下所示:
5.2、在训练过程中,环境包括静态和动态移动障碍物;所有动态移动的障碍物都是以不同的速度和方向随机移动的;在动作输出选择中,动作索引数i是通过算法得到的;算法选择一个在当前状态下取最大Q值的动作或者一个在开始学习过程中概率较高的随机动作;由于动作,得到reward 和判断以及下一个四旋翼无人机的状态;
5.4、在5.1、5.2、5.3过程中,应该在状态下采取的动作行为的Q值被更新的更高,四旋翼无人机通过避开路径上的障碍物来学习向目的地移动所需的行为;学习阶段的目的地是在gazebo仿真模拟器中随机标点,并人为设置障碍物(见说明书附图10、11);
5.5、实验中的训练过程花了大约10天时间完成训练。(见说明书附图8)显示了DQN网络培训期间应用的累计reward和损失,可以看出,在200000步之后,reward从-150变为120。这是一种检查agent是否有效且朝好的方向发展的方法。在当前的训练结果中,当实验停止训练时,累积reward没有作为最后的收敛值结束,并且我们在收到目标reward值100后停止训练。当任务成功案例达到模拟运行实验测试案例的70%以上时,reward值的目标被确定。这意味着UAV可以学习如何到达目的地,并在少量的训练步骤内避免动态障碍。橙色线代表DQN模型的移动平均趋势线。(见说明书附图9)
6、将相机实时拍摄的图像传入基于DRL局部规划神经网络中,在无人机事先路径规划之后,实时进行局部规划、重新规划调整飞行路线,其步骤如下:
6.1、在四旋翼无人机机载计算设备nano上部署深度神经网络模型运行所依赖的环境,Linux18.04、python3.6、tensorflow2.0;
6.2、将步骤5所得平均精度均值最大的模型移植到无人机机载计算设备中,将四旋翼无人机摄像头获取的图像通过硬件接口实时传入机载设备;
6.3、将步骤2预处理之后的图像、当前相对目标的位置以及当前速度传入网络模型,经过模型检测后,程序实时的对当前全局路线进行规划并在遇到障碍物时重新规划路线控制无人机的动作(见说明书附图12、13、14)。
该无人机混合路径规划方法在现有的ADA*算法基础上进行改进,减少重复排序带来的时间耗时,同时针对无人机避障,增加采用基于DRL的局部规划神经网络,对存在障碍物检测并重新规划路径,极大的降低了机载计算机的计算负荷,有效的进行避障。
Claims (1)
1.一种无人机混合路径规划方法,其特征在于:它包括如下步骤:
1、在现有ADA*算法的基础上改进得到EADA*算法;
在已有的ADA*算法基础上通过添加头排序算法思想实现头排序功能;
其实现具体的步骤如下:
1.1、在ADA*算法初始化阶段将ε的值设置为一个较大值,大于或等于2.0;创建空队列OPEN、CLOSED、INCONS和WALLS;除了目标在路径中的代价为0,g(s)和v(s)的值在所有状态下都被设置为无穷大;
1.3、计算当前路径的代价并与前一次的迭代结果进行比较,如果依然存在与当前路径相交的障碍物,总的代价将会增加;
1.4、在代价增多的情况下,增大膨胀系数inflation,清除WALLS障碍物列表,并重新计算受代价变化影响的局部状态,如果没有观察到成本变化,则降低膨胀系数的值以改善当前路径;不一致的状态移到OPEN列表中;
1.5、计算改进的当前路径,搜索从目标状态开始,找到Open列表中的第一个关键字,此关键字小于开始状态的关键字;使用key()函数计算优先级关键字的第一个元素的关键字,使用Eq更新键值;如果新的键值比旧的键值大,则状态会与新的键保存在OPEN列表中,否则,g(s)=v(s)被设置,状态被移到CLOSED列表;
1.6、在优先级队列中最小化排序队列的次数,实现头排序的功能;
从OPEN队列中删除优先级键最小的状态;然后在给定的状态下,使用Key()函数来计算新的键值,如果将该状态重新插入到具有新键值的优先级队列的头部;同时边缘代价变化也迫使ε值增加;优先级顺序保持不变;即使ε增加,仍是最小的键值;因此,不需要额外的排序;如果的情况下,EDAD*算法将与ADA*算法相同的方式扩展状态;如此即可得到EADA*算法;
2、图像预处理;
对无人机拍摄的图像进行预处理,具体的步骤如下:
2.1、从无人机的前置摄像头接收预处理的深度图像,对每一帧收到的图像进行灰度化操作;
2.2、对灰度化之后的图像进行resize操作,将灰度化后的图像缩放,调整图像尺寸大小,聚焦我们关注的视野区域;如此得到预处理之后的图像;
3、根据步骤2得到的预处理之后的图像,计算相对目标位置和当前速度;
3.1计算相对目的地的距离和方向:
3.2、获得当前位置速度,在执行任务期间,RMP向本地规划提供当前传感器数据以及UAV的位置和速度,如此获得当前位置的速度;
4、构建基于DRL的局部规划的神经网络;
使用基于DQN算法的DRL系统网络体系结构;该网络采用30 × 100状态表示、当前位置和速度作为输入;第一层将32个8 × 8的核与输入图像进行步长为3卷积,指数线性单元ELU值为0.8,并使用修正单元ReLU激活函数;第二卷积层获得4×4的步长为2的64个核和0.8的ELU值,并再次被RelU激活函数激活;第三个卷积层卷积64个3 × 3步长的核,紧跟着一个修正单元ReLU激活函数,而第四个层的输出被展平降维并与位置向量连接;组合的输入被输入到两个全连接层,其中第一层包括256个隐藏单元,第二层包括128个隐藏单元;
动作空间决定了最后一个完全连接层中隐藏单元的数量;在本申请中,使用7个动作空间;动作空间包括系统在特定环境中可以执行的所有动作的集合;它由七个可以用来避开障碍物的独立动作组成;第一个是沿着当前方向移动,速度为1、2、3或4m/s,第二个涉及以1m/s的速度沿当前方向向后移动;第三和四个动作涉及向右和向左旋转30度;第五个和六个动作分别涉及向上下位置移动,速度为2 m/s,最后一个动作是保持当前位置;在每个时间步长,使用策略选择观测空间作为输入,输出是这七个动作中的一个;这些高级动作使用Gazebo仿真器提供的飞行控制器映射到低级飞行命令;通过状态空间,agent在训练和学习过程中可以将动作行为转换并使用所有状态,用于应用程序科学的输入状态;如此即可得到基于DRL的局部规划的神经网络;
5、训练学习阶段
5.1、设置训练参数,在步骤4基于DRL局部规划神经网络基础上,按照Q-Learning的方法,使用公式2设置学习过程中使用的reward;当UAV到达目的地时,给予到达的reward:回报函数设计在DRL应用中是极其重要的一环,通过将任务目标具体化和数值化,实现了目标与算法之间的沟通;在本研究中,条件被视为表示到达目的地;与墙壁、其他UAVs或汽车等障碍物碰撞时,给予碰撞reward;在其他情况下,根据UAV和目的地之间的关系给予积极或消极的reward;对接近目的地的行动给予正面reward,对远离目的地的行动给予负面reward;表示在时刻t的值,是一个衰减超参数:
如果无人机撞到静态或动态障碍物,agent将获得负50的reward;一个新的epoch在无人机处于[0,0,0]的初始位置开始,这表明北、东、下点的坐标与模拟器中协调一致;为了更新网络的权重,对损失函数应用小批量梯度下降,如下所示:
5.2、以一个epoch的训练过程为例,环境包括静态和动态移动障碍物;静态环境是指环境中的障碍物是不会移动的,动态环境是指所有障碍物都是以不同的速度和方向随机移动的;训练阶段的目的地是在gazebo仿真模拟器中随机标点,并人为设置障碍物,在gazebo模拟器中实时进行训练模拟;在动作行为输出选择中,行为动作空间中的行为索引数i是通过算法得到的;算法选择一个在当前状态下取最大Q-Value的行为动作或者选择一个在开始学习过程中概率较高的随机动作;由于动作,得到reward和判断以及下一个UAV的状态;
6、将相机实时拍摄的图像传入基于DRL局部规划神经网络中,在无人机事先路径规划之后,实时进行局部规划、重新规划调整飞行路线,其步骤如下:
6.1、在无人机机载计算设备上部署深度神经网络模型运行所依赖的环境;
6.2、将步骤5所得平均精度均值最大的模型移植到无人机机载计算设备中,将无人机摄像头获取的图像通过硬件接口实时传入机载设备;
6.3、将步骤2预处理之后的图像、当前相对目标的位置以及当前速度传入网络模型,经过模型检测后,程序实时的对当前全局路线进行规划并在遇到障碍物时重新规划路线控制无人机的动作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110657180.0A CN113220037B (zh) | 2021-06-11 | 2021-06-11 | 一种无人机混合路径规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110657180.0A CN113220037B (zh) | 2021-06-11 | 2021-06-11 | 一种无人机混合路径规划方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113220037A CN113220037A (zh) | 2021-08-06 |
CN113220037B true CN113220037B (zh) | 2022-03-15 |
Family
ID=77080237
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110657180.0A Active CN113220037B (zh) | 2021-06-11 | 2021-06-11 | 一种无人机混合路径规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113220037B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2950725A1 (en) * | 2009-05-15 | 2010-11-15 | Eagle View Technologies, Inc. | Pitch determination systems and methods for aerial roof estimation |
CN111401146A (zh) * | 2020-02-26 | 2020-07-10 | 长江大学 | 一种无人机电力巡检方法、设备及存储介质 |
CN111596915A (zh) * | 2020-05-19 | 2020-08-28 | 西安电子科技大学 | 基于状态机图的无人机飞行模式的c++代码生成方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190184561A1 (en) * | 2017-12-15 | 2019-06-20 | The Regents Of The University Of California | Machine Learning based Fixed-Time Optimal Path Generation |
US20210103286A1 (en) * | 2019-10-04 | 2021-04-08 | Hong Kong Applied Science And Technology Research Institute Co., Ltd. | Systems and methods for adaptive path planning |
-
2021
- 2021-06-11 CN CN202110657180.0A patent/CN113220037B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2950725A1 (en) * | 2009-05-15 | 2010-11-15 | Eagle View Technologies, Inc. | Pitch determination systems and methods for aerial roof estimation |
CN111401146A (zh) * | 2020-02-26 | 2020-07-10 | 长江大学 | 一种无人机电力巡检方法、设备及存储介质 |
CN111596915A (zh) * | 2020-05-19 | 2020-08-28 | 西安电子科技大学 | 基于状态机图的无人机飞行模式的c++代码生成方法 |
Non-Patent Citations (6)
Title |
---|
A survey of Open-Source UAV flight controllers and flight simulators;Emad Ebeid;《Microprocessors and Microsystems》;20180930;全文 * |
Application of the Adaptive Double-layer Ant Colony Algorithm in UAV Trajectory Planning;Chu Wang;《2021 4th International Conference on Intelligent Autonomous Systems (ICoIAS)》;20210521;全文 * |
Improved search paths for camera-equipped UAVS in wilderness search and rescue;Michael Pelosi;《2017 IEEE Symposium Series on Computational Intelligence (SSCI)》;20171231;全文 * |
基于视觉的无人机室内避障研究;顾振辉;《中国优秀硕士学位论文全文数据库•工程科技‖辑》;20210315;全文 * |
无人机与深度学习在建筑物实时检测中的应用;詹炜;《软件导刊》;20210331;全文 * |
非线性多智能体系统的自适应输出反馈控制;曲福益;《中国优秀硕士学位论文全文数据库•信息科技辑》;20190815;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113220037A (zh) | 2021-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yan et al. | Towards real-time path planning through deep reinforcement learning for a UAV in dynamic environments | |
Ruan et al. | Mobile robot navigation based on deep reinforcement learning | |
Hong et al. | Energy-efficient online path planning of multiple drones using reinforcement learning | |
Zhou et al. | A deep Q-network (DQN) based path planning method for mobile robots | |
CN108319293B (zh) | 一种基于lstm网络的uuv实时避碰规划方法 | |
CN111923928A (zh) | 用于自动车辆的决策制定方法和系统 | |
CN107169608A (zh) | 多无人机执行多任务的分配方法及装置 | |
CN111008999A (zh) | 用包含跟踪网络的cnn跟踪对象的方法和使用该方法的装置 | |
WO2022100107A1 (en) | Methods and systems for predicting dynamic object behavior | |
CN112433525A (zh) | 基于模仿学习及深度强化学习的移动机器人导航方法 | |
CN112034887A (zh) | 无人机躲避柱状障碍物到达目标点的最优路径训练方法 | |
CN114518770B (zh) | 一种电势场和深度强化学习融合的无人机路径规划方法 | |
JP2020123346A (ja) | 各領域において最適化された自律走行を遂行できるように位置基盤アルゴリズムの選択によってシームレスパラメータ変更を遂行する方法及び装置 | |
Kim et al. | Towards monocular vision-based autonomous flight through deep reinforcement learning | |
Sarabakha et al. | Y6 tricopter autonomous evacuation in an indoor environment using Q-learning algorithm | |
CN113391633A (zh) | 一种面向城市环境的移动机器人融合路径规划方法 | |
CN116679711A (zh) | 一种基于有模型与无模型强化学习的机器人避障方法 | |
Fu et al. | Memory-enhanced deep reinforcement learning for UAV navigation in 3D environment | |
CN115562357A (zh) | 一种面向无人机集群的智能路径规划方法 | |
CN116661503A (zh) | 一种基于多智能体安全强化学习的集群航迹自动规划方法 | |
CN114967721A (zh) | 一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法 | |
US20240104335A1 (en) | Motion forecasting for autonomous systems | |
CN113220037B (zh) | 一种无人机混合路径规划方法 | |
Ho et al. | A parameter sharing method for reinforcement learning model between airsim and uavs | |
Li et al. | UAV obstacle avoidance by human-in-the-loop reinforcement in arbitrary 3D environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |