CN116384610A - 基于深度图像和强化学习的无人机导航与避障方法 - Google Patents
基于深度图像和强化学习的无人机导航与避障方法 Download PDFInfo
- Publication number
- CN116384610A CN116384610A CN202310538440.1A CN202310538440A CN116384610A CN 116384610 A CN116384610 A CN 116384610A CN 202310538440 A CN202310538440 A CN 202310538440A CN 116384610 A CN116384610 A CN 116384610A
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- aerial vehicle
- flight
- obstacle avoidance
- depth
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 230000002787 reinforcement Effects 0.000 title claims abstract description 20
- 230000009471 action Effects 0.000 claims abstract description 35
- 230000008569 process Effects 0.000 claims abstract description 12
- 238000004458 analytical method Methods 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 33
- 230000003993 interaction Effects 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 230000004888 barrier function Effects 0.000 claims description 3
- 230000008901 benefit Effects 0.000 claims description 3
- 230000007613 environmental effect Effects 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims 1
- 230000000875 corresponding effect Effects 0.000 description 13
- 238000013528 artificial neural network Methods 0.000 description 10
- 238000012549 training Methods 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 2
- 238000005265 energy consumption Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
- G06Q10/047—Optimisation of routes or paths, e.g. travelling salesman problem
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/17—Terrestrial scenes taken from planes or by drones
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Strategic Management (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Marketing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Remote Sensing (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明公开了一种基于深度图像和强化学习的无人机导航与避障方法,主要包括以下步骤:(1)基于马尔科夫决策过程在三维空间建立无人机导航和避障模型;(2)基于无人机的飞行方式,设计一种结合深度图像中深度信息和二维正态分布的障碍物分析方法,构造额外的奖励信号,提高无人机躲避障碍物的能力;(3)无人机基于策略选择动作并执行,与环境交互后到达新的状态并计算奖励值;使用采集到的样本对网络进行更新;重复该步骤直到得到最优策略。
Description
技术领域
本发明属于智能控制技术领域,具体涉及一种基于深度图像和强化学习的无人机导航与避障方法。
背景技术
无人机在军事、农业、勘探、物流等领域都发挥着巨大的作用,多种场景都需要无人机在没有人工干预的情况下实现自主飞行,研究无人机的自主避障导航控制方法成为当前的主要研究之一。传统的避障算法只能应用于障碍物较少的稀疏环境中,并且需要根据不同的环境建立不同的模型,无法直接应用于未知环境。基于SLAM的算法虽然可以应用于未知环境,但只能安全避开静态障碍物,并且需要消耗大量计算资源。针对这些情况,强化学习是一种实现反应式避障的有效方法。
强化学习是一种不断与环境交互并优化策略的方法,采用强化学习技术能够摆脱环境和人为因素的影响,具有在未知环境中的自主控制能力,并且基于深度学习技术在处理高维信息上的强大能力,结合了强化学习和深度学习的深度强化学习方法能够很好地实现无人机的自主导航与避障。
携带摄像机能够比携带雷达等测距仪节省更多的能源消耗,基于图像的避障方法已经成为许多学者研究的焦点,现有的方法大多直接将图像信息直接输入神经网络进行训练,但这些方法都缺少对障碍物信息的具体分析,在面对复杂形状障碍物和障碍物分布较密集的情况时,安全飞行到目标概率较低,并且只有在发生碰撞时才给予负反馈,导致训练速度较慢甚至难以收敛。
发明内容
为了解决现有发明中的不足,本发明提供一种基于深度图像和强化学习的无人机导航与避障方法,该方法将无人机导航与避障问题建立成一个目标驱动的马尔科夫决策过程,将获取的深度图像信息作为无人机避障的一个重要因素,利用无人机与环境的交互信息对神经网络进行更新,实现无人机在复杂环境中的自主导航和避障。
为达到上述目的,本发明采用如下技术方案:本发明的一种基于深度图像和强化学习的无人机导航与避障方法,包括以下步骤:
步骤1,基于马尔科夫决策过程四元组S,A,P,R,建立三维环境中无人机导航与避障模型,其中S为状态空间,A为动作空间,P为状态转移概率函数,R为奖励函数;
步骤2,设计一种结合深度图像中深度信息和二维正态分布的障碍物分析方法,并提供额外的奖励信号,提高无人机躲避不同方位上复杂形状障碍物的能力;
步骤3,基于状态和策略选择动作,无人机执行动作与环境交互后到达新的状态,并计算所得到的奖励;
步骤4,采用PPO算法,利用环境反馈奖励计算出的优势值对网络进行更新;
步骤5,重复步骤3和步骤4,直到得到最优策略。
进一步的,步骤1中基于马尔科夫决策过程建立三维环境中无人机导航与避障模型,具体包括:
状态空间S:由无人机的观测状态和飞行状态组成;无人机将时刻t的深度图像信息作为观测值ot,并叠加最近4个连续时刻的观测值(ot-3,ot-2,ot-1,ot)作为观测信息,用于提供时序信息;飞行状态st具体为:无人机与目标点的水平相对距离dt,定义目标点水平坐标(xt,yt),计算无人机与目标点的距离dreal,采用缩放裁剪的方法,dt=clip(dreal/10,0,1),将真实距离缩放为原来的十分之一,并将结果裁剪为0到1之间;无人机偏航方向与目标点方向的水平夹角φt;无人机的飞行高度ht;以无人机为原点建立三维坐标系,无人机偏航方向为x轴,平行地面方向为y轴,垂直地面方向为z轴,计算无人机坐标轴方向分速度vxt,vyt,vzt,无人机偏航角速度ωt,飞行状态记为(dt,h,vxt,vyt,vzt,ωt);
动作空间A:采用连续动作空间方法确定无人机t时刻的动作,分别为无人机直线飞行线速度a1,无人机竖直飞行线速度a2,无人机偏航角速度a3,三个动作共同控制无人机的飞行;
奖励函数R:定义无人机导航与避障问题的非稀疏奖励函数,主要包括飞行奖励,步数惩罚,前向奖励,结束奖励四个部分;飞行奖励用于表示无人机相对目标点的飞行情况,使用vt表示无人机水平方向上的速度,θt表示速度方向与目标点方向的夹角,飞行奖励为rflight=vtcos(θt);步数惩罚用于鼓励无人机用更少的时间完成飞行到目标点的任务,定义为rstep=-0.005;前向奖励计算深度图像中间部分的像素值的平均值,鼓励无人机选择较安全的方向飞行,前向奖励被定义为rfront=2×mean(center(20×20)-1;结束奖励被定义为rdone=dt,用于表示无人机到达飞行结束状态时的奖励,当无人机与障碍物发生碰撞或者飞行高度超过预设的高度时dt=-1,当无人机到达目标位置时dt=1,其余情况dt=0;最终的奖励函数由各部分加权得到:
rt=0.01×rflight+rstep+0.01×rfront+rdone。
进一步的,步骤2中设计一种结合深度图像中深度信息和二维正态分布的障碍物检测方法,具体为,对无人机的飞行过程进行分析可知,在飞行中需要对靠近飞行方向基线上的障碍物进行优先避障,对于靠近飞行方向法线上的障碍物则保持较低的避障优先级;通过将深度信息在空间中的分布映射到二维正态分布上,可以计算出特定像素点所对应障碍物对无人机飞行安全的影响。
进一步的,步骤2中将深度信息转换为函数奖励的方法,具体为,深度图像由无人机携带的前置深度相机获取,图像大小为W×H;采用服从(μ1,μ2,σ1,σ2,ρ)=(0,0,1,1,0)的二维正态分布:
定义飞行方向基线上的最小安全避障距离M,取二维坐标系区域D={x,y|-X<x<X,-Y<y<Y},将x方向划分为W个等分点,y方向划分为H个等分点,划分出的W×H个点与深度图像上对应位置的像素点形成双射关系,设(0,0)点处在二维正态分布上的值对应的最大安全避障距离为M,可计算出其余任意点所对应的最小安全避障距离:
当一点处对应的障碍物距离大于最小安全避障距离时,该点的奖励为0,否则根据靠近程度计算出该点的奖励值,最后取所有点对应奖励值的最小值作为深度奖励rdcpth:
式中O(x,y)为深度图像上(x,y)映射点的像素值大小,将深度奖励添加到奖励函数中得到新的奖励函数为:
rt=0.01×rflight+rstep+0.01×rfront+rdone+0.04×rdepth。
本发明的有益效果:本发明使用图像作为观测信息,降低了无人机飞行中的能源消耗。使用深度图像信息和二维高斯分布结合的方法,对障碍物形状和分布进行有效分析,帮助无人机可以在复杂的未知环境中实现安全的自主导航和避障,由于只需考虑与环境的交互,具有极强的可扩展性和鲁棒性。使用PPO算法,以及采用连续动作空间的动作选择方法,使无人机可以选择各种可能的动作组合方式,最大程度发挥无人机的飞行能力。
附图说明
图1为本发明提出的基于深度图像和强化学习的无人机导航与避障方法示意图。
图2为深度图像与二维正态分布的映射图。
图3为本发明方法与改进前在训练过程中的平均奖励图。
图4为本发明方法与改进前在训练过程中飞行结束距目标点距离图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细说明。
本发明的一种基于深度图像和强化学习的无人机导航与避障方法,方法流程如图1所示,无人机在飞行的过程中,通过神经网络获取策略值,以每个策略值为均值构造正态分布并采样出动作值,无人机执行动作与环境交互后会产生新的状态并获得环境的反馈奖励,对新状态下观测值的深度信息进行分析得到深度奖励并加入至总奖励中,该观测值与之前三个时间步的观测值叠加作为神经网络的部分输入值。对一定时间步采样的样本进行保存并计算每个时间步的优势值,使用PPO算法对神经网络进行更新,直到得到最优飞行策略。
本发明的一种基于深度图像和强化学习的无人机导航与避障方法,包括如下步骤:
步骤1,基于马尔科夫决策过程四元组S,A,P,R,建立三维环境中无人机导航与避障模型,其中S为状态空间,A为动作空间,P为状态转移概率函数,R为奖励函数;
每个时刻t无人机处于状态st,状态输入神经网络中得到对应动作at,无人机在执行动作后系统进入下一状态st+1,并得到该状态对应的奖励rt+1,强化学习通过交互的数据根据一定的优化算法更新神经网络参数以最大化累计折扣回报的期望。
状态空间S:由无人机的观测状态和飞行状态组成;无人机将时刻t的深度图像信息作为观测值ot,并叠加最近4个连续时刻的观测值(ot-3,ot-2,ot-1,ot)作为观测信息,用于提供时序信息;飞行状态st具体为:无人机与目标点的水平相对距离dt,定义目标点水平坐标(xt,yt),计算无人机与目标点的距离dreal,采用缩放裁剪的方法,dt=clip(dreal/10,0,1),将真实距离缩放为原来的十分之一,并将结果裁剪为0到1之间;无人机偏航方向与目标点方向的水平夹角φt;无人机的飞行高度ht;以无人机为原点建立三维坐标系,无人机偏航方向为x轴,平行地面方向为y轴,垂直地面方向为z轴,计算无人机坐标轴方向分速度vxt,vyt,vzt,无人机偏航角速度ωt,飞行状态记为(dt,h,vxt,vyt,vzt,ωt);
动作空间A:采用连续动作空间方法确定无人机t时刻的动作,分别为无人机直线飞行线速度a1,无人机竖直飞行线速度a2,无人机偏航角速度a3,三个动作共同控制无人机的飞行;
奖励函数R:定义无人机导航与避障问题的非稀疏奖励函数,主要包括飞行奖励,步数惩罚,前向奖励,结束奖励四个部分;飞行奖励用于表示无人机相对目标点的飞行情况,使用vt表示无人机水平方向上的速度,θt表示速度方向与目标点方向的夹角,飞行奖励为rflight=vtcos(θt);步数惩罚用于鼓励无人机用更少的时间完成飞行到目标点的任务,定义为rstep=-0.005;前向奖励计算深度图像中间部分的像素值的平均值,鼓励无人机选择较安全的方向飞行,前向奖励被定义为rfront=2×mean(center(20×20)-1;结束奖励被定义为rdone=dt,用于表示无人机到达飞行结束状态时的奖励,当无人机与障碍物发生碰撞或者飞行高度超过预设的高度时dt=-1,当无人机到达目标位置时dt=1,其余情况dt=0;最终的奖励函数由各部分加权得到:
rt=0.01×rflight+rstep+0.01×rfront+rdone。
步骤2,设计一种结合深度图像中深度信息和二维正态分布的障碍物分析方法,并提供额外的奖励信号,提高无人机躲避不同方位上复杂形状障碍物的能力;
深度图像由无人机携带的前置深度相机获取,图像大小为W×H;
采用服从(μ1,μ2,σ1,σ2,ρ)=(0,0,1,1,0)的二维正态分布:
定义飞行方向基线上的最小安全避障距离M,取二维坐标系区域D={x,y|-X<x<X,-Y<y<Y},将x方向划分为W个等分点,y方向划分为H个等分点,划分出的W×H个点与深度图像上对应位置的像素点形成双射关系,设(0,0)点处在二维正态分布上的值对应的最大安全避障距离为M,可计算出其余任意点所对应的最小安全避障距离:
深度信息的分析如图2所示,二维正态分布在空间中的映射将无人机前方飞行空间分为两个部分,两者之间的空间为无人机的安全飞行空间,这部分空间中没有障碍物则认为无人机处于安全状态,在飞行过程中若安全飞行空间中有障碍物存在,则根据障碍物与无人机的距离和二维正态分布曲面到无人机的距离计算障碍物对无人机的威胁程度,并作为无人机的避障因素。
当一点处对应的障碍物距离大于最小安全避障距离时,该点的奖励为0,否则根据靠近程度计算出该点的奖励值,最后取所有点对应奖励值的最小值作为深度奖励rdepth:
式中O(x,y)为深度图像上(x,y)映射点的像素值大小,将深度奖励添加到奖励函数中得到新的奖励函数为:
rt=0.01×rflight+rstep+0.01×rfront+rdone+0.04×rdepth。
步骤3,基于状态和策略选择动作,无人机执行动作与环境交互后到达新的状态,并计算所得到的奖励;
时刻t,无人机将状态输入神经网络得到策略值pt=(p1,p2,p3),以pt中各参数为均值,方差随时间线性减小的方式,构造正态分布,从中随机采样得到动作值at,定义时间步长为0.1s,当无人机执行完动作选择策略所选择的动作后,到达一个新的状态st+1,同时根据当前状态和奖励函数计算出一个实际回报值rt+1并反馈给无人机。
步骤4,采用PPO算法,利用环境反馈奖励计算出的优势值对网络进行更新;
使用两个神经网络θ,θold分别表示更新前后的策略,使用θold作为无人机与环境交互的策略,使用收集的样本对θ进行更新,并将θ更新后的参数赋值给θold。
当无人机收集T个时间步的样本后,使用GAE计算每一步的优势值:
At=δt+(γλ)δt+1+...+(γλ)T-t+1δT-1;
其中δt=rt+γV(st+1)-v(St);
使用裁剪的方法计算动作值的损失函数:
LCLIP(θ)=Et[min(rt(θ)At,clip(rt(θ),1-ε,1+ε)At];
使用均方误差计算目标值的损失函数:
LVF=(Vθ(st)-Vtarget)2
两者之和作为函数网络的反向输入值,更新网络以使学习速度和精度逐渐提高。
步骤5,重复步骤3和步骤4,直到得到最优策略。
随着训练的进行,算法会找到每个状态下能得到更好飞行效果的动作,最终实现无人机在不确定环境下根据实时的状态进行决策,实现无碰撞飞向目标点。
实施例:
本实例使用虚幻引擎4结合Airsim插件提供的高保真度的3D环境对我们的算法进行测试评估。以无人机所在位置为起始点,确保飞行距离的一致性,终点在以起点为圆心,半径60m的圆上随机均匀选取;在基于强化学习的无人机导航与避障任务中,无人机重复观察环境,执行决策,与环境交互计算奖励,并保存最近512个时间步的样本用于更新神经网络;当无人机到达距离目标点1m的范围内,无人机与障碍物发生碰撞,无人机飞行高度距地面大于20m,无人机起飞后经过512步仍未到达目标,则认为一次飞行结束,记录此次飞行的奖励值之和;该实例进行153600个时间步的训练,训练过程中所获得的奖励如图3所示,飞行结束时距目标点的距离如图4所示。
以上所述为本发明的具体实施方式,但本发明的保护范围不仅限于此,可根据本发明技术方案及其发明构思加以变换以及根据本发明能够轻易想到的变换都应属于本发明所附的权利要求的保护范围。
Claims (4)
1.一种基于深度图像和强化学习的无人机导航与避障方法,其特征在于,包含以下步骤:
步骤1,基于马尔科夫决策过程四元组S,A,P,R,建立三维环境中无人机导航与避障模型,其中S为状态空间,A为动作空间,P为状态转移概率函数,R为奖励函数;
步骤2,设计一种结合深度图像中深度信息和二维正态分布的障碍物分析方法,并提供额外的奖励信号,提高无人机躲避不同方位上复杂形状障碍物的能力;
步骤3,基于状态和策略选择动作,无人机执行动作与环境交互后到达新的状态,并计算所得到的奖励;
步骤4,采用PPO算法,利用环境反馈奖励计算出的优势值对网络进行更新;
步骤5,重复步骤3和步骤4,直到得到最优策略。
2.根据权利要求1所述一种基于深度图像和强化学习的无人机导航与避障方法,其特征在于,步骤1中基于马尔科夫决策过程建立三维环境中无人机导航与避障模型,具体包括:
状态空间S:由无人机的观测状态和飞行状态组成;无人机将时刻t的深度图像信息作为观测值ot,并叠加最近4个连续时刻的观测值(ot-3,ot-2,ot-1,ot)作为观测信息,用于提供时序信息;飞行状态st具体为:无人机与目标点的水平相对距离dt,定义目标点水平坐标(xt,yt),计算无人机与目标点的距离dreal,采用缩放裁剪的方法,dt=clip(dreal/10,0,1),将真实距离缩放为原来的十分之一,并将结果裁剪为0到1之间;无人机偏航方向与目标点方向的水平夹角φt;无人机的飞行高度ht;以无人机为原点建立三维坐标系,无人机偏航方向为x轴,平行地面方向为y轴,垂直地面方向为z轴,计算无人机坐标轴方向分速度vxt,vyt,vzt,无人机偏航角速度ωt,飞行状态记为(dt,h,vxt,vyt,vzt,ωt);
动作空间A:采用连续动作空间方法确定无人机t时刻的动作,分别为无人机直线飞行线速度a1,无人机竖直飞行线速度a2,无人机偏航角速度a3,三个动作共同控制无人机的飞行;
奖励函数R:定义无人机导航与避障问题的非稀疏奖励函数,主要包括飞行奖励,步数惩罚,前向奖励,结束奖励四个部分;飞行奖励用于表示无人机相对目标点的飞行情况,使用vt表示无人机水平方向上的速度,θt表示速度方向与目标点方向的夹角,飞行奖励为rflight=vtcos(θt);步数惩罚用于鼓励无人机用更少的时间完成飞行到目标点的任务,定义为rstep=-0.005;前向奖励计算深度图像中间部分的像素值的平均值,鼓励无人机选择较安全的方向飞行,前向奖励被定义为rfront=2×mean(center(20×20)-1;结束奖励被定义为rdone=dt,用于表示无人机到达飞行结束状态时的奖励,当无人机与障碍物发生碰撞或者飞行高度超过预设的高度时dt=-1,当无人机到达目标位置时dt=1,其余情况dt=0;最终的奖励函数由各部分加权得到:
rt=0.01×rflight+rstep+0.01×rfront+rdone。
3.根据权利要求1所述一种基于深度图像和强化学习的无人机导航与避障方法,其特征在于,步骤2中设计一种结合深度图像中深度信息和二维正态分布的障碍物检测方法,具体为,对无人机的飞行过程进行分析可知,在飞行中需要对靠近飞行方向基线上的障碍物进行优先避障,对于靠近飞行方向法线上的障碍物则保持较低的避障优先级;通过将深度信息在空间中的分布映射到二维正态分布上,可以计算出特定像素点所对应障碍物对无人机飞行安全的影响。
4.根据权利要求3所述一种基于深度图像和强化学习的无人机导航与避障方法,其特征在于,步骤2中将深度信息转换为函数奖励的方法,具体为,深度图像由无人机携带的前置深度相机获取,图像大小为W×H;采用服从(μ1,μ2,σ1,σ2,ρ)=(0,0,1,1,0)的二维正态分布:
定义飞行方向基线上的最小安全避障距离M,取二维坐标系区域D={x,y|-X<x<X,-Y<y<Y},将x方向划分为W个等分点,y方向划分为H个等分点,划分出的W×H个点与深度图像上对应位置的像素点形成双射关系,设(0,0)点处在二维正态分布上的值对应的最大安全避障距离为M,可计算出其余任意点所对应的最小安全避障距离:
当一点处对应的障碍物距离大于最小安全避障距离时,该点的奖励为0,否则根据靠近程度计算出该点的奖励值,最后取所有点对应奖励值的最小值作为深度奖励rdepth:
式中O(x,y)为深度图像上(x,y)映射点的像素值大小,将深度奖励添加到奖励函数中得到新的奖励函数为:
rt=0.01×rflight+rstep+0.01×rfront+rdone+0.04×rdepth。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310538440.1A CN116384610A (zh) | 2023-05-12 | 2023-05-12 | 基于深度图像和强化学习的无人机导航与避障方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310538440.1A CN116384610A (zh) | 2023-05-12 | 2023-05-12 | 基于深度图像和强化学习的无人机导航与避障方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116384610A true CN116384610A (zh) | 2023-07-04 |
Family
ID=86973507
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310538440.1A Pending CN116384610A (zh) | 2023-05-12 | 2023-05-12 | 基于深度图像和强化学习的无人机导航与避障方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116384610A (zh) |
-
2023
- 2023-05-12 CN CN202310538440.1A patent/CN116384610A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110456823B (zh) | 一种针对无人机计算与存储能力受限的双层路径规划方法 | |
CN111123963B (zh) | 基于强化学习的未知环境自主导航系统及方法 | |
CN108594853B (zh) | 无人机队形控制方法 | |
EP3405845B1 (en) | Object-focused active three-dimensional reconstruction | |
CN114384920A (zh) | 一种基于局部栅格地图实时构建的动态避障方法 | |
Botteghi et al. | On reward shaping for mobile robot navigation: A reinforcement learning and SLAM based approach | |
CN110568861B (zh) | 一种人机运动障碍物监测方法、可读存储介质和无人机 | |
CN111882047A (zh) | 一种基于强化学习与线性规划的快速空管防冲突方法 | |
CN111831010A (zh) | 一种基于数字空间切片的无人机避障飞行方法 | |
CN116242364A (zh) | 一种基于深度强化学习的多无人机智能导航方法 | |
CN116679719A (zh) | 基于动态窗口法与近端策略的无人车自适应路径规划方法 | |
Chen et al. | A review of autonomous obstacle avoidance technology for multi-rotor UAVs | |
Lee et al. | Probabilistic inference of traffic participants' lane change intention for enhancing adaptive cruise control | |
Zhang et al. | Intelligent vector field histogram based collision avoidance method for auv | |
Prasetyo et al. | Spatial Based Deep Learning Autonomous Wheel Robot Using CNN | |
CN114326810A (zh) | 一种无人机在复杂动态环境下的避障方法 | |
CN116384610A (zh) | 基于深度图像和强化学习的无人机导航与避障方法 | |
CN117036374A (zh) | 一种用于自动驾驶的激光雷达点云分割与运动规划方法 | |
CN114326821B (zh) | 基于深度强化学习的无人机自主避障系统及方法 | |
CN114326826B (zh) | 多无人机队形变换方法及系统 | |
CN115373415A (zh) | 一种基于深度强化学习的无人机智能导航方法 | |
CN115494866A (zh) | 一种多无人机全局及局部路径智能规划方法及系统 | |
Mishra et al. | A review on vision based control of autonomous vehicles using artificial intelligence techniques | |
Guo et al. | Online path planning for UAV navigation based on quantum particle swarm optimization | |
CN111562740A (zh) | 基于利用梯度的多目标强化学习算法的自动控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |