CN111460650A - 一种基于深度强化学习的无人机端到端控制方法 - Google Patents

一种基于深度强化学习的无人机端到端控制方法 Download PDF

Info

Publication number
CN111460650A
CN111460650A CN202010240164.7A CN202010240164A CN111460650A CN 111460650 A CN111460650 A CN 111460650A CN 202010240164 A CN202010240164 A CN 202010240164A CN 111460650 A CN111460650 A CN 111460650A
Authority
CN
China
Prior art keywords
network
unmanned aerial
aerial vehicle
reinforcement learning
landing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010240164.7A
Other languages
English (en)
Other versions
CN111460650B (zh
Inventor
赵江
王隆洪
蔡志浩
王英勋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Aeronautics and Astronautics
Original Assignee
Beijing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Aeronautics and Astronautics filed Critical Beijing University of Aeronautics and Astronautics
Priority to CN202010240164.7A priority Critical patent/CN111460650B/zh
Publication of CN111460650A publication Critical patent/CN111460650A/zh
Application granted granted Critical
Publication of CN111460650B publication Critical patent/CN111460650B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/12Target-seeking control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

本发明属于无人机自主控制领域,涉及一种基于深度强化学习的无人机端到端控制方法。本发明公开了一种基于深度强化学习的无人机端到端控制方法,包括:设计深度强化学习神经网络;设计用于训练所设计的深度强化学习神经网络的无人机着陆轨迹控制的端到端奖惩函数rland;在仿真环境中搭建无人机着陆场景;基于搭建有无人机着陆场景的仿真环境,对所设计的深度强化学习神经网络进行训练。本发明将处理过的无人机机载相机得到的图像作为输入,经过深度强化学习网络处理后可以直接得到无人机控制指令,以此实现无人机的自主着陆。

Description

一种基于深度强化学习的无人机端到端控制方法
技术领域
本发明属于无人机自主控制领域,涉及一种基于深度强化学习的无人机端到端控制方法。
背景技术
当前针对无人机自主着陆控制问题,主要是使用手工制作的几何特征和传感器数据融合来识别基准标记并引导无人机朝其方向移动。例如文献“Carlos Sampedro,Alejandro Rodriguez-Ramos,Ignacio Gil,Luis Mejias,Pascual Campoy.Image-BasedVisual Servoing Controller for Multirotor Aerial Robots Using DeepReinforcement Learning[J].IEEE.2018”中所公开的方法,其首先将从Gazebo中得到的图像转化为无人机与着陆点之间的状态偏差,然后通过DDPG方法得到无人机运动所需的控制量,但这种方法较为繁琐;或者,是通过图像信息直接输出不连续的方向指令,例如文献“Riccardo Polvara,Massimiliano Patacchiola,Sanjay Sharma,Jian Wan,AndrewManning,Robert Sutton,Angelo Cangelosi.Toward End-to-End Control for UAVAutonomous Landing via Deep Reinforcement Learning[J].IEEE.2018”提出了一种基于深度强化学习的方法解决无人机着陆控制问题,该方法基于深度Q网络(DQN)的层次结构,这些层次Q网络被用作不同阶段中导航的高端控制策略,包括前后左右下降等控制指令,但这种方法精确度较低。
发明内容
为了解决完全基于图像的无人机自主着陆控制问题,本发明提供了一种基于深度强化学习的无人机端到端控制方法,本发明将处理过的无人机机载相机得到的图像作为输入,经过深度强化学习神经网络处理后可以直接得到无人机控制指令,以此实现无人机的自主着陆。
本发明提供了一种基于深度强化学习的无人机端到端控制方法,包括如下步骤:
S1:设计深度强化学习神经网络;
S2:设计用于训练深度强化学习神经网络的无人机着陆轨迹控制的端到端奖惩函数rland
S3:在仿真环境中搭建无人机着陆场景;
S4:基于搭建有无人机着陆场景的仿真环境,对所设计的深度强化学习神经网络进行训练,将无人机机载相机得到的图像输入训练完成后的深度强化学习神经网络,直接得到无人机控制指令,以此实现无人机的自主着陆。
进一步,步骤S1具体设计过程如下:
S11:构建Actor网络和Critic网络
Actor网络由三层卷积层和三层全连接层构成,最后输出无人机三轴方向的速度;Critic网络除了需要当前的图像作为输入外,还需要加入当前的动作值,来计算得到动作价值函数值;
S12:计算Critic网络梯度
定义Critic网络的损失L为均方误差MSE:
Figure BDA0002432269250000021
其中,N表示随机采样的数据量;Q表示在线Q网络;si表示第i个数据的状态量;ai表示第i个数据的动作量;θQ表示在线Q网络参数;yi为标签:
yi=ri+γQ′(si+1,μ′(si+1Q)|θQ′)
其中,ri表示第i个数据的在当前状态量和动作量下的奖励;γ为系数;Q'表示目标Q网络;si+1表示第i个数据的下一个时刻的状态量;μ'表示目标策略网络μ′;θQ'表示目标Q网络参数;
基于标准的反向传播方法,求得Critic网络的损失L针对在线Q网络参数θQ的梯度
Figure BDA0002432269250000031
S13:计算Actor网络的策略梯度
Actor网络的策略梯度表示性能目标的函数J针对的在线策略网络参数θμ梯度
Figure BDA0002432269250000032
算法如下:
Figure BDA0002432269250000033
其中,
Figure BDA0002432269250000034
表示在状态量s根据分布函数ρβ分布时,
Figure BDA0002432269250000035
的期望值;β表示代理的行为策略,是深度确定性策略梯度方法在训练时所采用的一种为行为的决策机制引入随机噪声的策略;
Figure BDA0002432269250000036
表示在线Q网络对动作量a的梯度,
Figure BDA0002432269250000037
表示动作量a对在线策略网络参数θμ的梯度,μ表示在线策略网络,即,Actor网络的策略梯度是在状态s根据分布函数ρβ分布时,
Figure BDA0002432269250000038
的期望值,用蒙特卡洛方法来估算所述期望值:
在重放内存缓冲区中存储的:si,ai,ri,si+1,是基于代理的行为策略β产生的,它们的分布函数为ρβ,所以从重放内存缓冲区中随机采样获得小批量数据时,根据蒙特卡洛方法,将获得的小批量数据代入式(1),可以作为对所述期望值的一个无偏差估计,所以Actor网络的策略梯度改写为:
Figure BDA0002432269250000039
S14:分别为Actor网络、Critic网络各创建两个神经网络拷贝:在线online和目标target,基于此,Actor网络和Critic网络两个网络的更新策略如下:
Figure BDA0002432269250000041
Figure BDA0002432269250000042
其中,gradient更新表示梯度更新;soft update表示软更新;
软更新目标策略网络μ′和目标Q网络Q′:使用平均运行方法,将在线网络的参数,软更新给目标网络的参数:
Figure BDA0002432269250000043
其中,τ表示可调系数;
进一步,步骤S2中设计的端到端奖惩函数rland为:
Figure BDA0002432269250000044
其中,Δs表示无人机到着陆目标点的距离;b,m,n均为常数;
normal表示着陆点在无人机机载相机视野中且没有降落在错误位置时的情况,在此情况下,希望无人机能够逐渐靠近着陆目标点,无人机距离着陆目标点越近,奖励越大,且应该为正值,故常数b取值应大于等于无人机初始到目标点的距离;
cross border表示着陆点不在无人机机载相机视野中的情况;land on wrongplace表示无人机降落在错误位置时的情况,此两种情况下会直接导致着陆任务失败,奖励值为负,m,n取值应相等并等于b值。
进一步,步骤S3中,深度强化学习神经网络在训练模式下,以从仿真软件采集到的模拟数据和在存储模块中的记忆数据作为输入,得出包括动作量a和奖励r的决策值,之后将决策值存储在记忆模块中,并将决策值传递给仿真软件以得到下一次模拟数据,并连同记忆模块中的记忆数据再次作为输入传递给深度强化学习神经网络,深度强化学习神经网络的网络参数在此过程中不断优化,当深度强化学习神经网络收敛之后,保存在线策略网络μ和在线Q网络的结构及各自的网络参数。
本发明的有益效果:
本发明提供的无人机自主着陆控制方法中,完成训练后的深度神经网络可以直接将机载照相机得到的图片信息转换为无人机着陆所需的连续控制指令。本发明省去了传统方法中的状态估计和路径规划模块,更符合人的思维方式,能够提高无人机的自主性和着陆的效率。
附图说明
图1为现有技术的传统着陆算法与端到端深度强化学习算法的区别示意图;
图2为本发明的基于深度强化学习的无人机端到端控制方法流程图;
图3为本发明的深度强化学习神经网络结构图;
图4为本发明的基于深度强化学习的无人机着陆轨迹控制算法环境交互示意图;
图5为本发明的深度强化学习神经网络一体化工作框架与算法原理;
图6为本发明实施例的无人机自主着陆控制仿真过程图;
图7为本发明实施例的无人机自主着陆仿真结果图。
具体实施方式
传统的自主着陆算法一般要分为四个步骤:在环境中得到所需要的观察量,由观察量进行状态估计,建模和预测,最后进行着陆规划控制,而端到端深度强化学习算法是用网络来代替传统自主着陆中的中间步骤,可以直接由观察量得到着陆规划控制,从而可以大大简化了着陆流程,更符合人类的思维,图1展示了传统着陆算法与端到端深度强化学习算法的区别。基于端到端深度强化学习神经网络,本发明提供了一种无人机端到端控制方法。
下面结合附图和实施例进一步描述本发明,应该理解,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。
如图2所示,本发明包括如下步骤:
S1:设计深度强化学习神经网络,具体设计过程如下:
S11:构建Actor网络和Critic网络
如图3所示,其中图3(a)为Actor网络,图3(b)为Critic网络。Actor网络由三层卷积层和三层全连接层构成。在本实施例中,首先,以大小为64×64×1的图像作为输入,经过三层卷积层,其滤波器大小为5×5,卷积过滤器的数量为32,卷积的横纵向步长均为2,后经过三层全连接层,每层有200个神经单元,最后输出无人机在x,y,z三轴方向的速度。Critic网络除了需要当前的图像作为输入外,还需要加入当前的动作值,来计算得到动作价值函数值。
S12:计算Critic网络梯度
计算Critic网络梯度时,需要计算Critic网络的损失。使用类似于监督式学习的方法,定义Critic网络的损失L为均方误差(MSE):
Figure BDA0002432269250000061
其中,N表示随机采样的数据量;Q表示在线Q网络;si表示第i个数据的状态量;ai表示第i个数据的动作量;θQ表示在线Q网络参数;yi可以看做“标签”:
yi=ri+γQ′(si+1,μ′(si+1Q)|θQ′)
其中,ri表示第i个数据的在当前状态量和动作量下的奖励;γ为系数;Q'表示目标Q网络;si+1表示第i个数据的下一个时刻的状态量;μ'表示目标策略网络μ′;θQ'表示目标Q网络参数;
基于标准的反向传播(back-propagation)方法,求得L针对θQ的梯度
Figure BDA0002432269250000071
其中:yi的计算,使用的是目标策略网络μ′和target Q网络Q′,这样做是为了Q网络参数的学习过程更加稳定,易于收敛。这个标签本身依赖于本发明正在学习的目标网络,这是区别于监督式学习的地方。
S13:计算Actor网络的策略梯度
Actor网络的策略梯度表示性能目标的函数J针对的θμ梯度,算法如下:
Figure BDA0002432269250000072
其中,
Figure BDA0002432269250000073
表示在状态量s根据分布函数ρβ分布时,
Figure BDA0002432269250000074
的期望值;β表示行为策略,是深度确定性策略梯度方法在训练时所采用的一种为行为的决策机制引入随机噪声的策略。
Figure BDA0002432269250000075
表示性能目标的函数J针对在线策略网络参数θμ的梯度,
Figure BDA0002432269250000076
表示在线Q网络对动作量a的梯度,
Figure BDA0002432269250000077
表示动作量a对在线策略网络参数的梯度,μ表示在线策略网络,即,策略梯度是在状态s根据ρβ分布时,
Figure BDA0002432269250000078
的期望值,用蒙特卡洛方法来估算这个期望值:
在重放内存缓冲区中存储的(transition):(si,ai,ri,si+1),是基于代理的行为策略β产生的,它们的分布函数(pdf)为ρβ,所以从重放内存缓冲区中随机采样获得小批量数据时,根据蒙特卡洛方法,使用小批量数据代入上述策略梯度公式(1),可以作为对上述期望值的一个无偏差估计(un-biased estimate),所以Actor网络的策略梯度可以改写为:
Figure BDA0002432269250000079
S14:同时分别为Actor网络、Critic网络各创建两个神经网络拷贝:在线online和目标target,基于此,Actor网络和Critic网络两个网络的更新策略如下:
Figure BDA0002432269250000081
Figure BDA0002432269250000082
其中,gradient更新表示梯度更新;soft update表示软更新;
软更新目标网络μ′和Q′:使用平均运行(running average)方法,将在线网络的参数,软更新给目标网络的参数:
Figure BDA0002432269250000083
其中,τ表示可调系数。
S2:设计用于训练所设计的深度强化学习神经网络的无人机着陆轨迹控制的端到端奖惩函数rland
强化学习公式的关键组成部分是奖励函数。必须指出,强化学习代理对奖励功能设计高度敏感。设计良好的奖励功能可以加快学习速度,但是相反,设计不当会在解决问题时引入人为偏见,或者完全阻止代理学习。在本发明提出的方法中,当代理要产生连续的控制动作时,奖励功能的设计应使它随着时间的推移奖励平稳的动作,同时鼓励安全行为。
无人机着陆控制问题中,主要需要考虑无人机距离终点的距离以及无人机是否会在非终点的位置提前着陆。另外还需要考虑无人机不会飞出规定的边界。综上,可以得到如下无人机着陆轨迹控制的端到端奖惩函数:
Figure BDA0002432269250000091
其中,Δs表示无人机到着陆目标点的距离;b,m,n均为常数;normal表示着陆点在无人机机载相机视野中且没有降落在错误位置时的情况;cross border表示着陆点不在无人机机载相机视野中的情况;land on wrong place表示无人机降落在错误位置时的情况。第一种情况下,希望无人机能够逐渐靠近着陆目标点,无人机距离着陆目标点越近,奖励越大,且应该为正值,故b取值应大于等于无人机初始到目标点的距离。由于后两种情况会直接导致着陆任务失败,奖励值为负,且m,n应相等并等于b值。
S3:在仿真环境中搭建无人机着陆场景;
在本实施例中,本发明进行的基于端到端的无人机感知与着陆规划一体化仿真,均在基于Airsim插件的虚幻引擎中进行。无人机采用Airsim默认的四旋翼模型。仿真环境则根据不同仿真想定在虚幻引擎中进行相应的设计。图4展示了基于深度强化学习的无人机着陆轨迹控制算法环境交互示意图。Airsim提供接收无人机速度指令、发布无人机位置和机载相机数据的API。通过在深度强化学习算法程序中调用相关函数来实现与仿真环境的交互。
针对无人机着陆轨迹控制问题,本实施例设计如下仿真想定:无人机从(-10,-10,30)m处着陆到指定着陆点(0,0,0)m处。仿真场景设置中x轴、y轴方向边界为(-12,12)m,z轴方向边界为(0,30)m。基于上述仿真想定,可以将奖惩函数rland具体化如下:
Figure BDA0002432269250000092
S4:基于搭建有无人机着陆场景的仿真环境,对所设计的深度强化学习神经网络进行训练,将无人机机载相机得到的图像输入训练完成后的深度强化学习神经网络,直接得到无人机控制指令,以此实现无人机的自主着陆。
如图5所示,主控程序可以决定深度强化学习神经网络处于何种模式,包括训练模式和离线运行两种模式。在训练模式下,深度强化学习神经网络以从仿真软件采集到的模拟数据和在存储模块中的记忆数据作为输入,得出决策值和奖励后存储在记忆模块中,并将决策值传递给仿真软件以得到下一次模拟数据,并连同记忆数据再次作为输入传递给深度强化学习网络,网络参数也在此过程中不断优化。当网络收敛之后,保存参数和网络。在离线运行模式下,深度强化学习的网络参数不再变化,此时只需要策略网络来进行接收仿真软件模拟数据与产生相应的决策并与仿真软件交互的操作。
在本实施例中,进行训练时设计无人机从(-10,-10,30)m处着陆到指定着陆点(0,0,0)m处,进行四次仿真过程,仿真过程图6所示,图6a)-e)分别示出了无人机自主着陆过程,图6a’)-e’)分别示出了无人机在自主着陆过程中其机载相机拍摄到的图像。四次仿真结果如图7所示,其中,图7a)示出了四次仿真的无人机三维位置变化,图7b)示出了四次仿真的无人机xy平面位置变化,从仿真结果可以看出,本发明能够通过端到端的方法进行无人机自主着陆控制。
对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以对本发明的实施例做出若干变型和改进,这些都属于本发明的保护范围。

Claims (4)

1.一种基于深度强化学习的无人机端到端控制方法,其特征在于,包括如下步骤:
S1:设计深度强化学习神经网络;
S2:设计用于训练深度强化学习神经网络的无人机着陆轨迹控制的端到端奖惩函数rland
S3:在仿真环境中搭建无人机着陆场景;
S4:基于搭建有无人机着陆场景的仿真环境,对所设计的深度强化学习神经网络进行训练,将无人机机载相机得到的图像输入训练完成后的深度强化学习神经网络,直接得到无人机控制指令,以此实现无人机的自主着陆。
2.根据权利要求1所述的方法,其特征在于,步骤S1具体设计过程如下:
S11:构建Actor网络和Critic网络
Actor网络由三层卷积层和三层全连接层构成,最后输出无人机三轴方向的速度;Critic网络除了需要当前的图像作为输入外,还需要加入当前的动作值,来计算得到动作价值函数值;
S12:计算Critic网络梯度
定义Critic网络的损失L为均方误差MSE:
Figure FDA0002432269240000011
其中,N表示随机采样的数据量;Q表示在线Q网络;si表示第i个数据的状态量;ai表示第i个数据的动作量;θQ表示在线Q网络参数;yi为标签:
yi=ri+γQ′(si+1,μ′(si+1Q)|θQ′)
其中,ri表示第i个数据的在当前状态量和动作量下的奖励;γ为系数;Q'表示目标Q网络;si+1表示第i个数据的下一个时刻的状态量;μ'表示目标策略网络;θQ'表示目标Q网络参数;
基于标准的反向传播方法,求得Critic网络的损失L针对在线Q网络参数θQ的梯度
Figure FDA0002432269240000021
S13:计算Actor网络的策略梯度
Actor网络的策略梯度表示性能目标的函数J针对在线策略网络参数θμ的梯度
Figure FDA0002432269240000022
算法如下:
Figure FDA0002432269240000023
其中,
Figure FDA0002432269240000024
表示在状态量s根据分布函数ρβ分布时,
Figure FDA0002432269240000025
的期望值;β表示代理的行为策略,是深度确定性策略梯度方法在训练时所采用的一种为行为的决策机制引入随机噪声的策略;▽aQ表示在线Q网络对动作量a的梯度;
Figure FDA0002432269240000026
表示动作量a对在线策略网络参数θμ的梯度,μ表示在线策略网络,即,Actor网络的策略梯度是在状态量s根据分布函数ρβ分布时,
Figure FDA0002432269240000027
的期望值,用蒙特卡洛方法来估算所述期望值:
在重放内存缓冲区中存储的:si,ai,ri,si+1,是基于代理的行为策略β产生的,它们的分布函数为ρβ,所以从重放内存缓冲区中随机采样获得小批量数据时,根据蒙特卡洛方法,将获得的小批量数据代入式(1),作为对所述期望值的一个无偏差估计,Actor网络的策略梯度改写为:
Figure FDA0002432269240000028
S14:分别为Actor网络、Critic网络各创建两个神经网络拷贝:在线online和目标target,基于此,Actor网络和Critic网络两个网络的更新策略如下:
Actor网络
Figure FDA0002432269240000031
Critic网络
Figure FDA0002432269240000032
其中,gradient更新表示梯度更新;soft update表示软更新;
软更新目标策略网络μ′和目标Q网络Q′:使用平均运行方法,将在线网络的参数,软更新给目标网络的参数:
Figure FDA0002432269240000033
Figure FDA0002432269240000034
其中,τ表示可调系数。
3.根据权利要求1所述的方法,其特征在于,步骤S2中设计的端到端奖惩函数rland为:
Figure FDA0002432269240000035
其中,Δs表示无人机到着陆目标点的距离;b,m,n均为常数;
normal表示着陆点在无人机机载相机视野中且没有降落在错误位置时的情况,在此情况下,希望无人机能够逐渐靠近着陆目标点,无人机距离着陆目标点越近,奖励越大,且应该为正值,故常数b取值大于等于无人机初始到目标点的距离;
cross border表示着陆点不在无人机机载相机视野中的情况,land on wrong place表示无人机降落在错误位置时的情况,此两种情况下会直接导致着陆任务失败,奖励值为负,m,n取值相等并等于b值。
4.根据权利要求1或2所述的方法,其特征在于,步骤S3中,深度强化学习神经网络在训练模式下,以从仿真软件采集到的模拟数据和在存储模块中的记忆数据作为输入,得出包括动作量a和奖励r的决策值,之后将决策值存储在记忆模块中,并将决策值传递给仿真软件以得到下一次模拟数据,并连同记忆模块中的记忆数据再次作为输入传递给深度强化学习神经网络,深度强化学习神经网络的网络参数在此过程中不断优化,当深度强化学习神经网络收敛之后,保存在线策略网络μ和在线Q网络的结构及各自的网络参数。
CN202010240164.7A 2020-03-31 2020-03-31 一种基于深度强化学习的无人机端到端控制方法 Active CN111460650B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010240164.7A CN111460650B (zh) 2020-03-31 2020-03-31 一种基于深度强化学习的无人机端到端控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010240164.7A CN111460650B (zh) 2020-03-31 2020-03-31 一种基于深度强化学习的无人机端到端控制方法

Publications (2)

Publication Number Publication Date
CN111460650A true CN111460650A (zh) 2020-07-28
CN111460650B CN111460650B (zh) 2022-11-01

Family

ID=71680128

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010240164.7A Active CN111460650B (zh) 2020-03-31 2020-03-31 一种基于深度强化学习的无人机端到端控制方法

Country Status (1)

Country Link
CN (1) CN111460650B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111953603A (zh) * 2020-08-20 2020-11-17 福建师范大学 基于深度强化学习软件定义物联网安全路由协议的方法
CN112034872A (zh) * 2020-08-31 2020-12-04 东南大学 一种四旋翼无人机积分补偿确定性策略梯度控制方法
CN112465664A (zh) * 2020-11-12 2021-03-09 贵州电网有限责任公司 一种基于人工神经网络及深度强化学习的avc智能控制方法
CN112711271A (zh) * 2020-12-16 2021-04-27 中山大学 基于深度强化学习的自主导航无人机功率优化方法
CN112819253A (zh) * 2021-03-02 2021-05-18 华东师范大学 一种无人机避障和路径规划装置及方法
CN113110592A (zh) * 2021-04-23 2021-07-13 南京大学 一种无人机避障与路径规划方法
CN113359843A (zh) * 2021-07-02 2021-09-07 成都睿沿芯创科技有限公司 一种无人机自主降落方法、装置、电子设备及存储介质
CN113386133A (zh) * 2021-06-10 2021-09-14 贵州恰到科技有限公司 一种强化学习机器人控制方法
CN113641099A (zh) * 2021-07-13 2021-11-12 西北工业大学 一种超越专家演示的阻抗控制模仿学习训练方法
CN113721645A (zh) * 2021-08-07 2021-11-30 中国航空工业集团公司沈阳飞机设计研究所 一种基于分布式强化学习的无人机连续机动控制方法
CN113741525A (zh) * 2021-09-10 2021-12-03 南京航空航天大学 基于策略集合maddpg多无人机协同攻防对抗方法
CN113821057A (zh) * 2021-10-14 2021-12-21 哈尔滨工业大学 一种基于强化学习的行星软着陆控制方法及系统和存储介质
CN113886953A (zh) * 2021-09-27 2022-01-04 中国人民解放军军事科学院国防科技创新研究院 基于分布式强化学习的无人机智能仿真训练方法及装置
CN114063650A (zh) * 2021-11-17 2022-02-18 中国人民解放军军事科学院国防科技创新研究院 一种面向虚幻引擎的仿真无人机飞行控制方法
CN114061589A (zh) * 2021-11-16 2022-02-18 中山大学 端边协同的多无人机自主导航方法
CN114355915A (zh) * 2021-12-27 2022-04-15 杭州电子科技大学 一种基于深度强化学习的agv路径规划
CN116596060B (zh) * 2023-07-19 2024-03-15 深圳须弥云图空间科技有限公司 深度强化学习模型训练方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101441478A (zh) * 2008-12-26 2009-05-27 北京航空航天大学 一种小型无人机自动着陆拉平控制方法及其装置
US20150100530A1 (en) * 2013-10-08 2015-04-09 Google Inc. Methods and apparatus for reinforcement learning
CN107479368A (zh) * 2017-06-30 2017-12-15 北京百度网讯科技有限公司 一种基于人工智能的训练无人机控制模型的方法及系统
CN109934332A (zh) * 2018-12-31 2019-06-25 中国科学院软件研究所 基于评论家和双经验池的深度确定性策略梯度学习方法
CN110488861A (zh) * 2019-07-30 2019-11-22 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
CN110673620A (zh) * 2019-10-22 2020-01-10 西北工业大学 一种基于深度强化学习的四旋翼无人机航线跟随控制方法
CN110806756A (zh) * 2019-09-10 2020-02-18 西北工业大学 基于ddpg的无人机自主引导控制方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101441478A (zh) * 2008-12-26 2009-05-27 北京航空航天大学 一种小型无人机自动着陆拉平控制方法及其装置
US20150100530A1 (en) * 2013-10-08 2015-04-09 Google Inc. Methods and apparatus for reinforcement learning
CN107479368A (zh) * 2017-06-30 2017-12-15 北京百度网讯科技有限公司 一种基于人工智能的训练无人机控制模型的方法及系统
CN109934332A (zh) * 2018-12-31 2019-06-25 中国科学院软件研究所 基于评论家和双经验池的深度确定性策略梯度学习方法
CN110488861A (zh) * 2019-07-30 2019-11-22 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
CN110806756A (zh) * 2019-09-10 2020-02-18 西北工业大学 基于ddpg的无人机自主引导控制方法
CN110673620A (zh) * 2019-10-22 2020-01-10 西北工业大学 一种基于深度强化学习的四旋翼无人机航线跟随控制方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BENCHUN ZHOU 等: "Vision-based Navigation of UAV with Continuous Action Space Using Deep Reinforcement Learning", 《THE 31TH CHINESE CONTROL AND DECISION CONFERENCE》 *
JIANG ZHAO等: "End-to-End Deep Reinforcement Learning for Image-Based", 《APPLIED SCIENCE》 *
宋欣屿等: "基于深度强化学习的无人机着陆轨迹跟踪控制", 《航空科学技术》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111953603A (zh) * 2020-08-20 2020-11-17 福建师范大学 基于深度强化学习软件定义物联网安全路由协议的方法
CN112034872A (zh) * 2020-08-31 2020-12-04 东南大学 一种四旋翼无人机积分补偿确定性策略梯度控制方法
CN112034872B (zh) * 2020-08-31 2023-01-17 东南大学 一种四旋翼无人机积分补偿确定性策略梯度控制方法
CN112465664A (zh) * 2020-11-12 2021-03-09 贵州电网有限责任公司 一种基于人工神经网络及深度强化学习的avc智能控制方法
CN112465664B (zh) * 2020-11-12 2022-05-03 贵州电网有限责任公司 一种基于人工神经网络及深度强化学习的avc智能控制方法
CN112711271A (zh) * 2020-12-16 2021-04-27 中山大学 基于深度强化学习的自主导航无人机功率优化方法
CN112819253A (zh) * 2021-03-02 2021-05-18 华东师范大学 一种无人机避障和路径规划装置及方法
CN113110592A (zh) * 2021-04-23 2021-07-13 南京大学 一种无人机避障与路径规划方法
CN113386133A (zh) * 2021-06-10 2021-09-14 贵州恰到科技有限公司 一种强化学习机器人控制方法
CN113359843A (zh) * 2021-07-02 2021-09-07 成都睿沿芯创科技有限公司 一种无人机自主降落方法、装置、电子设备及存储介质
CN113641099B (zh) * 2021-07-13 2023-02-10 西北工业大学 一种超越专家演示的阻抗控制模仿学习训练方法
CN113641099A (zh) * 2021-07-13 2021-11-12 西北工业大学 一种超越专家演示的阻抗控制模仿学习训练方法
CN113721645A (zh) * 2021-08-07 2021-11-30 中国航空工业集团公司沈阳飞机设计研究所 一种基于分布式强化学习的无人机连续机动控制方法
CN113741525A (zh) * 2021-09-10 2021-12-03 南京航空航天大学 基于策略集合maddpg多无人机协同攻防对抗方法
CN113741525B (zh) * 2021-09-10 2024-02-06 南京航空航天大学 基于策略集合maddpg多无人机协同攻防对抗方法
CN113886953A (zh) * 2021-09-27 2022-01-04 中国人民解放军军事科学院国防科技创新研究院 基于分布式强化学习的无人机智能仿真训练方法及装置
CN113821057A (zh) * 2021-10-14 2021-12-21 哈尔滨工业大学 一种基于强化学习的行星软着陆控制方法及系统和存储介质
CN114061589A (zh) * 2021-11-16 2022-02-18 中山大学 端边协同的多无人机自主导航方法
CN114061589B (zh) * 2021-11-16 2023-05-26 中山大学 端边协同的多无人机自主导航方法
CN114063650A (zh) * 2021-11-17 2022-02-18 中国人民解放军军事科学院国防科技创新研究院 一种面向虚幻引擎的仿真无人机飞行控制方法
CN114355915A (zh) * 2021-12-27 2022-04-15 杭州电子科技大学 一种基于深度强化学习的agv路径规划
CN114355915B (zh) * 2021-12-27 2024-04-02 杭州电子科技大学 一种基于深度强化学习的agv路径规划
CN116596060B (zh) * 2023-07-19 2024-03-15 深圳须弥云图空间科技有限公司 深度强化学习模型训练方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN111460650B (zh) 2022-11-01

Similar Documents

Publication Publication Date Title
CN111460650A (zh) 一种基于深度强化学习的无人机端到端控制方法
Spica et al. A real-time game theoretic planner for autonomous two-player drone racing
CN111123963B (zh) 基于强化学习的未知环境自主导航系统及方法
CN109343341B (zh) 一种基于深度强化学习的运载火箭垂直回收智能控制方法
CN110471444A (zh) 基于自主学习的无人机智能避障方法
CN112433525A (zh) 基于模仿学习及深度强化学习的移动机器人导航方法
CN112904890B (zh) 一种电力线路的无人机自动巡检系统及方法
CN111795700A (zh) 一种无人车强化学习训练环境构建方法及其训练系统
CN113821041B (zh) 一种多机器人协同导航与避障的方法
CN113253733B (zh) 一种基于学习和融合的导航避障方法、装置及系统
CN111506063B (zh) 一种基于分层强化学习框架的移动机器人无图导航方法
Leishman et al. Multiplicative extended Kalman filter for relative rotorcraft navigation
Neto et al. Multi-agent rapidly-exploring pseudo-random tree
CN111487992A (zh) 基于深度强化学习的无人机感知与避障一体化方法及设备
CN110203193A (zh) 车辆控制方法、装置、汽车及存储介质
CN116242364A (zh) 一种基于深度强化学习的多无人机智能导航方法
CN112711261A (zh) 一种基于局部视野的多智能体编队规划方法
CN115220472A (zh) 一种切换拓扑下空-地异构编队系统的容错控制方法
CN115562357A (zh) 一种面向无人机集群的智能路径规划方法
CN107450311A (zh) 逆模型建模方法及装置、以及自适应逆控制方法及装置
Cristofalo et al. Vision-based control for fast 3-d reconstruction with an aerial robot
Rucco et al. A model predictive control-based architecture for cooperative path-following of multiple unmanned aerial vehicles
CN117387635A (zh) 一种基于深度强化学习和pid控制器的无人机导航方法
CN115981375B (zh) 基于事件触发机制的多无人机时变编队控制器设计方法
CN116679710A (zh) 一种基于多任务学习的机器人避障策略训练与部署方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant