CN116385909A - 一种基于深度强化学习的无人机目标跟踪方法 - Google Patents

一种基于深度强化学习的无人机目标跟踪方法 Download PDF

Info

Publication number
CN116385909A
CN116385909A CN202310354570.XA CN202310354570A CN116385909A CN 116385909 A CN116385909 A CN 116385909A CN 202310354570 A CN202310354570 A CN 202310354570A CN 116385909 A CN116385909 A CN 116385909A
Authority
CN
China
Prior art keywords
aerial vehicle
information
unmanned aerial
reinforcement learning
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310354570.XA
Other languages
English (en)
Inventor
赵飞宇
张力
王正旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202310354570.XA priority Critical patent/CN116385909A/zh
Publication of CN116385909A publication Critical patent/CN116385909A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/12Target-seeking control
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0088Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Game Theory and Decision Science (AREA)
  • Medical Informatics (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开一种基于深度强化学习的无人机目标跟踪方法,属于机器人及人工智能应用领域。包括两个步骤:Step1,环境信息与传感器信息预处理:无人机通过自身的环境信息与传感器信息预处理模块,提取一组目标信息、雷达信息、高度信息并对提取的信息进行预处理;Step2,强化学习跟踪:将Step1得到的预处理后的信息融合为一组state信息,将当前state信息传入无人机强化学习跟踪器,对无人机强化学习跟踪器进行训练,训练完成后,将其部署到无人机上,实现实时跟踪动作。通过本发明,无人机在缺失深度信息情况下,能够实现更加精确的目标跟踪,提高无人机目标跟踪成功率,降低无人机实机部署成本。

Description

一种基于深度强化学习的无人机目标跟踪方法
技术领域
本发明涉及一种基于深度强化学习的无人机目标跟踪方法,属于机器人及人工智能应用领域。
背景技术
目前,借助深度摄像头或距离解算算法进行无人机目标跟踪的方法已经相当成熟。然而,使用仅搭载普通单目摄像头的无人机的,剔除深度信息进行目标跟踪仍然是一项困难的任务。对于目标跟踪任务,机器人需要先找到目标,然后根据自身的状态信息和环境信息进行合理动作控制,以保持与目标的相对距离。但当无人机处于不同高度和深度信息缺失的情况下,仅依靠图像信息很难获得准确的相对位置。当我们的无人机只配备单目摄像头时,由于无人机的高度以及不同摄像头的内部参数不同,最终的图像与现实世界的尺度不匹配。在这种情况下,需要根据摄像头内部参数和无人机传感器数据进行复杂的计算,根据图像信息以及深度距离信息获得目标点与无人机在自身坐标系中的相对位置信息;相对坐标转化为动作信息被输入到高层控制器中以控制无人机。但机载摄像头的更换、无人机高度变化、深度过大导致深度信息误差过高等问题,都会导致无人机解算相对位置信息能力降低,进而削弱目标跟踪效果。
发明内容
本发明要解决的技术问题是公开一种基于深度强化学习的无人机目标跟踪方法,这种方法就是针对在深度信息缺失或不精确的条件下,将无人机目标跟踪任务表述为一个马尔科夫链,设计强化学习跟踪器以实现更加迅速准确的无人机目标跟踪工作。实现目标就是在深度信息缺失或不精确的条件下,使无人机更快更精确的完成目标跟踪任务。
对于强化学习算法,每一个时间步相较于其他训练算法都需要更长的时间来完成。如果将图像信息和雷达信息这种冗余信息直接输出给强化学习智能体,会导致每一时间步的所需的时间会大大加长,同时还会导致训练的拟合时间也会大大加长,因此数据预处理及融合模块以向强化学习跟踪器提供合适的state信息以更好地适配强化学习算法,在起到加速训练的作用的同时,还能更好的为以后扩充和移植到其它机器人平台做准备。
而强化学习跟踪器则提取经过预处理的state信息,做出相应规划,输出动作至高级控制器,高级控制器会将无人机的控制信息解算成电机控制指令并最终输出底层控制信息给无人机。
本发明采用的技术方案是:一种基于深度强化学习的无人机目标跟踪方法,包括如下步骤:
Step1,环境信息与传感器信息预处理:无人机通过自身的环境信息与传感器信息预处理模块,提取一组目标信息、雷达信息、高度信息并对提取的信息进行预处理;
Step2,强化学习跟踪:将Step1得到的预处理后的信息融合为一组state信息,将当前state信息传入无人机强化学习跟踪器,对无人机强化学习跟踪器进行训练,训练完成后,将其部署到无人机上,实现实时跟踪动作。
具体地,Step1中环境信息与传感器信息预处理模块包括目标检测模块、雷达模块、传感器模块,具体步骤为:
Step1.1:无人机的目标检测模块实时识别环境中的目标,并输出一组未经处理过的图像以及tensor向量,对tensor向量只截取包含坐标信息和类别信息的部分,将截取的信息融合后得到一组5维的msg1向量;
Step1.2:无人机的雷达模块则实时收集当前环境的障碍物信息,提取障碍物信息中的最短反射距离及其对应角度作为最终需融合的雷达数据msg2;
Step1.3:无人机的传感器模块负责收集由惯性传感器解算出无人机自身的高度信息msg3。
具体地,Step2的具体步骤为:
Step2.1:设计两层神经网络为Actor和Critic,Actor由3个全连接层FC组成,最后一个全连接层FC输出一组4维的动作向量,最后一个全连接层FC层的激活函数选择tanh函数,保证动作向量的数值区间在[-1,1];Critic由两个神经网络C1和C2组成,C1、C2都由4个全连接层FC组成,C1和C2都会输出一维的Q-value值;
Step2.2:调取Step1.1获得的msg1向量;调取Step1.2获得的雷达数据msg2;调取Step1.3中收集到的高度信息msg3;并将msg1、msg2、msg3融合得到一组8维向量作为state信息;
Step2.3:将Step2.2获得的state信息命名为state1;
Step2.4:将state1信息输入至Actor网络中,Actor网络输出一组4维的动作向量给无人机控制器,无人机控制器解算4维的动作向量后控制无人机做出相应运动a,在无人机到达新位置后,重新执行Step2.2获得一组全新的state信息并将其命名为state2,并根据奖励策略和state2获得奖励值R;
Step2.5:将Step2.3得到的state1、动作a输入到神经网络C1、C2中,分别得到Q-value1和Q-value2,以Q-value2值和Step2.4得到的奖励值R作为基准做梯度更新,更新Critic参数,以Step2.3得到的state1和Q-Value1为基准做梯度更新,更新Actor网络的参数;
Step2.6:将state2赋值给state1;
Step2.7:重复执行Step2.4-Step2.6至无人机跟踪效果明显,完成跟踪器的训练;
Step2.8:将训练好的跟踪器部署到无人机上,执行一次Step2.2-Step2.3后,重复执行Step2.4、Step2.6以实现跟踪动作。
更具体地,所述的奖励策略设计如下:
在每次决策,总奖励R有以下不同项组成:
R=Rt+wn·Rn+Rs+wC·Rc, (1)
其中Rt是最终奖励,Rn是步数奖励,Rs是单步奖励,Rc是碰撞奖励,Wn,Wc分别为步数奖励以及碰撞奖励的权值,
最终奖励Rt指无人机到达目标点正上方,给予无人机固定的100分奖励;
Figure BDA0004162911060000031
步数奖励Rn指在当前幕下,无人机最大移动步数maxstep和当前移动的步数count(step)的比例:
Figure BDA0004162911060000032
单步奖励Rs是每一时间步变化最频的奖励,该奖励计算本步规划是否使无人机贴近目标点,
Figure BDA0004162911060000033
xp、yp为目标中心在图像坐标系的坐标值,xpc、ypc为图像中心点坐标值,wp为像素误差的权值,xE、yE为目标中心在ENU坐标系下目标点的坐标值,xEc、yEc为无人机当前位置在ENU坐标系下的坐标值,we为ENU误差权值;
碰撞奖励Rc指无人机在发生碰撞时对当前幕的惩罚,
Figure BDA0004162911060000041
本发明的有益效果是:本发明的基于深度强化学习的无人机目标跟踪方法,从创新实现角度,将所有路径规划动作都交由无人机自主处理,不做任何人为干涉,实现无人机更进一步自主决策的过程;
从实用性上,解决了在深度信息缺失的情况下或在单摄像头深度补全效果不理想时,随着无人机距离升高,与障碍物或目标的深度信息过高,导致相对位置信息的解算的准确性低的问题,更精确的实现了无人机局部路径规划工作。
附图说明
图1为本发明运作的基本流程图:
图2为本发明强化学习规划器所属神经网络架构设计。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明型,并非用于限定本发明型的范围.
实施例1:如图1-2所示,一种基于深度强化学习的无人机目标跟踪方法,
首先,根据真机搭建无人机仿真环境以适配训练。
搭载无人机平台,其中包括px4飞控一套、机载计算机一组(树莓派、Jason Nano)、机架动力套模组一件、方向朝下单目摄像头一件以及激光雷达模组一套。gazebo仿真器中的环境与无人机配置与真机实验环境相同,以满足训练需要。
然后,执行如下步骤:
Step1,环境信息与传感器信息预处理:无人机通过自身的环境信息与传感器信息预处理模块,提取一组目标信息、雷达信息、高度信息并对提取的信息进行预处理;
Step2,强化学习跟踪:将Step1得到的预处理后的信息融合为一组state信息,将当前state信息传入无人机强化学习跟踪器,对无人机强化学习跟踪器进行训练,训练完成后,将其部署到无人机上,实现实时跟踪动作。
进一步地,Step1中环境信息与传感器信息预处理模块包括目标检测模块、雷达模块、传感器模块,具体步骤为:
Step1.1:无人机的目标检测模块实时识别环境中的目标,并输出一组未经处理过的图像以及tensor向量,对tensor向量只截取包含坐标信息和类别信息的部分,将截取的信息融合后得到一组5维的msg1向量;
Step1.2:无人机的雷达模块则实时收集当前环境的障碍物信息,提取障碍物信息中的最短反射距离及其对应角度作为最终需融合的雷达数据msg2;
Step1.3:无人机的传感器模块负责收集由惯性传感器解算出无人机自身的高度信息msg3。
进一步地,Step2的具体步骤为:
Step2.1:设计两层神经网络为Actor和Critic,Actor由3个全连接层FC组成,最后一个全连接层FC输出一组4维的动作向量,最后一个全连接层FC层的激活函数选择tanh函数,保证动作向量的数值区间在[-1,1];Critic由两个神经网络C1和C2组成,C1、C2都由4个全连接层FC组成,C1和C2都会输出一维的Q-value值;
Step2.2:调取Step1.1获得的msg1向量;调取Step1.2获得的雷达数据msg2;调取Step1.3中收集到的高度信息msg3;并将msg1、msg2、msg3融合得到一组8维向量作为state信息;
Step2.3:将Step2.2获得的state信息命名为state1;
Step2.4:将state1信息输入至Actor网络中,Actor网络输出一组4维的动作向量给无人机控制器,无人机控制器解算4维的动作向量后控制无人机做出相应运动a,在无人机到达新位置后,重新执行Step2.2获得一组全新的state信息并将其命名为state2,并根据奖励策略和state2获得奖励值R;
Step2.5:将Step2.3得到的state1、动作a输入到神经网络C1、C2中,分别得到Q-value1和Q-value2,以Q-value2值和Step2.4得到的奖励值R作为基准做梯度更新,更新Critic参数,以Step2.3得到的state1和Q-Value1为基准做梯度更新,更新Actor网络的参数;
Step2.6:将state2赋值给state1;
Step2.7:重复执行Step2.4-Step2.6至无人机跟踪效果明显,完成跟踪器的训练;
Step2.8:将训练好的跟踪器部署到无人机上,执行一次Step2.2-Step2.3后,重复执行Step2.4、Step2.6以实现跟踪动作。
进一步地,所述的奖励策略设计如下:
在每次决策,总奖励R有以下不同项组成:
R=Rt+wn·Rn+Rs+wC·Rc, (1)
其中Rt是最终奖励,Rn是步数奖励,Rs是单步奖励,Rc是碰撞奖励,Wn,Wc分别为步数奖励以及碰撞奖励的权值,
最终奖励Rt指无人机到达目标点正上方,给予无人机固定的100分奖励;
Figure BDA0004162911060000061
旨在是鼓励无人机在不发生碰撞的前提下到达目标点的正上空。
步数奖励Rn指在当前幕下,无人机最大移动步数maxstep和当前移动的步数count(step)的比例:
Figure BDA0004162911060000062
该奖励的鼓励无人机更快的前往目标点,同时提升了算法的收敛速度。
单步奖励Rs是每一时间步变化最频的奖励,该奖励计算本步规划是否使无人机贴近目标点,
Figure BDA0004162911060000063
xp、yp为目标中心在图像坐标系的坐标值,xpc、ypc为图像中心点坐标值,wp为像素误差的权值,xE、yE为目标中心在ENU坐标系下目标点的坐标值,xEc、yEc为无人机当前位置在ENU坐标系下的坐标值,we为ENU误差权值。在单步奖励中添加ENU系下的纠正,可以增快收敛速度,降低训练成本。本奖励多为负奖励起到鼓励无人机探索的作用。
碰撞奖励Rc指无人机在发生碰撞时对当前幕的惩罚,
Figure BDA0004162911060000064
表1为本发明强化学习规划器经过训练后在各种环境空间中的跟踪成功率以及与传统方法的比对:
Figure BDA0004162911060000071
表1
如表1所示,实例结果表明:
在标准状况下,即无障碍物,地图边长为5m*5m,不限制训练时间,加入数据预处理模块,将单步奖励噪声值置为0.5,最大探索步数为5时,无人机成功实现路径规划的成功率为93%,基本达成了本发明的实验目的,可以实现在在陌生环境下的自主局部路径规划任务,且在该地图中,平均仅需1.73步便可达成路径跟踪任务;在对高度区间进行调整后,成功率和成功平均步数基本保持一致;本发明在隔离开数据预处理模块后,采用高维状态空间,成功率仅为3%,无法实现跟踪任务;在单步噪声值置为0.1,使其探索度降低时,成功率仅为13%,原因为无人机在路径规划时陷入了局部最优无法摆脱。本发明在添加障碍物后,并把探索步数置为10时,目标跟踪的成功率达到92%,与标准情况基本一直,但成功平均所需步数为4.12,远高于标准情况的主要原因为在障碍物附近需要做出额外避障动作。
在深度信息缺失或不精确的条件下,本发明将无人机路径规划表述为一个马尔科夫链,设计强化学习规划器以实现更加迅速准确的无人机局部路径规划与导航工作。通过本发明,无人机在缺失深度信息情况下,能够实现更加精确的目标跟踪,提高无人机目标跟踪成功率,降低无人机实机部署成本。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (4)

1.一种基于深度强化学习的无人机目标跟踪方法,其特征在于:包括如下步骤:
Step1,环境信息与传感器信息预处理:无人机通过自身的环境信息与传感器信息预处理模块,提取一组目标信息、雷达信息、高度信息并对提取的信息进行预处理;
Step2,强化学习跟踪:将Step1得到的预处理后的信息融合为一组state信息,将当前state信息传入无人机强化学习跟踪器,对无人机强化学习跟踪器进行训练,训练完成后,将其部署到无人机上,实现实时跟踪动作。
2.根据权利要求1所述的一种基于深度强化学习的无人机目标跟踪方法,其特征在于,Step1中环境信息与传感器信息预处理模块包括目标检测模块、雷达模块、传感器模块,具体步骤为:
Step1.1:无人机的目标检测模块实时识别环境中的目标,并输出一组未经处理过的图像以及tensor向量,对tensor向量只截取包含坐标信息和类别信息的部分,将截取的信息融合后得到一组5维的msg1向量;
Step1.2:无人机的雷达模块则实时收集当前环境的障碍物信息,提取障碍物信息中的最短反射距离及其对应角度作为最终需融合的雷达数据msg2;
Step1.3:无人机的传感器模块负责收集由惯性传感器解算出无人机自身的高度信息msg3。
3.根据权利要求1所述的一种基于深度强化学习的无人机目标跟踪方法,其特征在于:Step2的具体步骤为:
Step2.1:设计两层神经网络为Actor和Critic,Actor由3个全连接层FC组成,最后一个全连接层FC输出一组4维的动作向量,最后一个全连接层FC层的激活函数选择tanh函数,保证动作向量的数值区间在[-1,1];Critic由两个神经网络C1和C2组成,C1、C2都由4个全连接层FC组成,C1和C2都会输出一维的Q-value值;
Step2.2:调取Step1.1获得的msg1向量;调取Step1.2获得的雷达数据msg2;调取Step1.3中收集到的高度信息msg3;并将msg1、msg2、msg3融合得到一组8维向量作为state信息;
Step2.3:将Step2.2获得的state信息命名为state1;
Step2.4:将state1信息输入至Actor网络中,Actor网络输出一组4维的动作向量给无人机控制器,无人机控制器解算4维的动作向量后控制无人机做出相应运动a,在无人机到达新位置后,重新执行Step2.2获得一组全新的state信息并将其命名为state2,并根据奖励策略和state2获得奖励值R;
Step2.5:将Step2.3得到的state1、动作a输入到神经网络C1、C2中,分别得到Q-value1和Q-value2,以Q-value2值和Step2.4得到的奖励值R作为基准做梯度更新,更新Critic参数,以Step2.3得到的state1和Q-Value1为基准做梯度更新,更新Actor网络的参数;
Step2.6:将state2赋值给state1;
Step2.7:重复执行Step2.4-Step2.6至无人机跟踪效果明显,完成跟踪器的训练;
Step2.8:将训练好的跟踪器部署到无人机上,执行一次Step2.2-Step2.3后,重复执行Step2.4、Step2.6以实现跟踪动作。
4.根据权利要求3所述的一种基于深度强化学习的无人机目标跟踪方法,其特征在于:所述的奖励策略设计如下:
在每次决策,总奖励R有以下不同项组成:
R=Rt+wn·Rn+Rs+wC·Rc, (1)
其中Rt是最终奖励,Rn是步数奖励,Rs是单步奖励,Rc是碰撞奖励,Wn,Wc分别为步数奖励以及碰撞奖励的权值,
最终奖励Rt指无人机到达目标点正上方,给予无人机固定的100分奖励;
Figure FDA0004162911050000021
步数奖励Rn指在当前幕下,无人机最大移动步数maxstep和当前移动的步数count(step)的比例:
Figure FDA0004162911050000022
单步奖励Rs是每一时间步变化最频的奖励,该奖励计算本步规划是否使无人机贴近目标点,
Figure FDA0004162911050000023
xp、yp为目标中心在图像坐标系的坐标值,xpc、ypc为图像中心点坐标值,wp为像素误差的权值,xE、yE为目标中心在ENU坐标系下目标点的坐标值,xEc、yEc为无人机当前位置在ENU坐标系下的坐标值,we为ENU误差权值;
碰撞奖励Rc指无人机在发生碰撞时对当前幕的惩罚,
Figure FDA0004162911050000031
CN202310354570.XA 2023-04-04 2023-04-04 一种基于深度强化学习的无人机目标跟踪方法 Pending CN116385909A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310354570.XA CN116385909A (zh) 2023-04-04 2023-04-04 一种基于深度强化学习的无人机目标跟踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310354570.XA CN116385909A (zh) 2023-04-04 2023-04-04 一种基于深度强化学习的无人机目标跟踪方法

Publications (1)

Publication Number Publication Date
CN116385909A true CN116385909A (zh) 2023-07-04

Family

ID=86980240

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310354570.XA Pending CN116385909A (zh) 2023-04-04 2023-04-04 一种基于深度强化学习的无人机目标跟踪方法

Country Status (1)

Country Link
CN (1) CN116385909A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116974204A (zh) * 2023-08-23 2023-10-31 南通大学 无人机跟踪控制模型训练方法、使用方法及终端设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116974204A (zh) * 2023-08-23 2023-10-31 南通大学 无人机跟踪控制模型训练方法、使用方法及终端设备
CN116974204B (zh) * 2023-08-23 2024-04-09 南通大学 无人机跟踪控制模型训练方法、使用方法及终端设备

Similar Documents

Publication Publication Date Title
CN111780777B (zh) 一种基于改进a*算法和深度强化学习的无人车路径规划方法
CN114384920B (zh) 一种基于局部栅格地图实时构建的动态避障方法
US11561544B2 (en) Indoor monocular navigation method based on cross-sensor transfer learning and system thereof
Cao et al. Target search control of AUV in underwater environment with deep reinforcement learning
CN112684807A (zh) 无人机集群三维编队方法
CN112097769B (zh) 仿信鸽脑-海马的无人机同时定位与建图导航系统及方法
CN113848974B (zh) 一种基于深度强化学习的飞行器轨迹规划方法及系统
CN112034887A (zh) 无人机躲避柱状障碍物到达目标点的最优路径训练方法
CN115047910A (zh) 一种基于雁形阵的无人机编队巡航控制方法
Desaraju et al. Vision-based Landing Site Evaluation and Trajectory Generation Toward Rooftop Landing.
CN113741533A (zh) 一种基于模仿学习与强化学习的无人机智能决策系统
CN116385909A (zh) 一种基于深度强化学习的无人机目标跟踪方法
CN116242364A (zh) 一种基于深度强化学习的多无人机智能导航方法
Pritzl et al. Cooperative navigation and guidance of a micro-scale aerial vehicle by an accompanying UAV using 3D LiDAR relative localization
Wu et al. Vision-based target detection and tracking system for a quadcopter
Chen et al. A review of autonomous obstacle avoidance technology for multi-rotor UAVs
CN114967721A (zh) 一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法
CN114326810A (zh) 一种无人机在复杂动态环境下的避障方法
Helble et al. 3-d path planning and target trajectory prediction for the oxford aerial tracking system
CN111176324B (zh) 一种多无人机分布式协同编队规避动态障碍的方法
Lu et al. An optimal frontier enhanced “next best view” planner for autonomous exploration
CN116679711A (zh) 一种基于有模型与无模型强化学习的机器人避障方法
CN116718190A (zh) 一种长距离密集人群场景下的移动机器人路径规划方法
Li et al. Vision-based obstacle avoidance algorithm for mobile robot
CN115690343A (zh) 一种基于视觉跟随的机器人激光雷达扫描建图方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination