CN110806756A - 基于ddpg的无人机自主引导控制方法 - Google Patents
基于ddpg的无人机自主引导控制方法 Download PDFInfo
- Publication number
- CN110806756A CN110806756A CN201910853746.XA CN201910853746A CN110806756A CN 110806756 A CN110806756 A CN 110806756A CN 201910853746 A CN201910853746 A CN 201910853746A CN 110806756 A CN110806756 A CN 110806756A
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- aerial vehicle
- theta
- network
- uav
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
Abstract
本发明提供了一种基于DDPG的无人机自主引导控制方法,分别建立无人机三自由度运动模型、无人机机动控制模型、基准地形三维模型和山峰三维模型;计算无人机当前位置下所受地形障碍影响程度值;构建评价网络、策略网络和相应的目标网络,对评价网络和策略网络进行训练;使用训练结果作为无人机飞行控制外环控制器,控制无人机的两向过载和无人机速度倾斜角。本发明将深度强化学习方法与无人机引导控制进行结合,在离线仿真环境中进行学习训练,达到要求后再进行实际应用,极大地增强了无人机在执行任务过程中的自主性,提高了无人机执行任务的效率。
Description
技术领域
本发明涉及飞行机动控制和人工智能领域,具体涉及一种无人机自主引导控制方法。
背景技术
近年来,随着无人机技术的发展,无人机的性能飞速提高,不论是军用无人机还是民用无人机,各种新技术层出不穷。其中提高无人机自主飞行能力、降低人为干预,避免人为失误是各国无人机科研人员的研究重点。传统无人机的飞行导引控制方法,通常在获取到需求任务区域内应飞航迹后,通过设计一个轨迹跟踪控制器实现无人机的飞行导引,该控制器多采用PID控制、线性二次型调节器、滑膜控制、模型预测控制和自适应控制等方法。但是,当环境发生较大改变时,上述轨迹跟踪控制器均不具备自主解决突发事件的能力,只有无人机操纵者进行手动干预后,无人机才能继续完成任务,该过程极大地影响了无人机执行任务的效率。近年来,由于在电子技术方面的突破性进步,人工智能技术飞速发展,各种人工智能算法不断应用到控制领域。例如,Google公司的DeepMind人工智能小组,创新性地将深度强化学习方法应用到人形机器人的步态控制上并取得了成功;OpenAI实验室基于进化策略方法设计了一系列控制算法并成功商用。深度强化学习是多门学科多个领域交叉结合的产物,最早可以追溯到巴普洛夫的条件反射实验,但直到上世纪九十年代才逐渐被人们应用于自动控制、机器学习等领域。2015年,DeepMind(Google)发布了深度确定性策略梯度算法 (Deep Deterministic Policy Gradient,DDPG),它是第一个成功地将深度学习和强化学习结合起来应用与连续性控制的模型。DDPG是一种以DQN为基础,考虑确定性策略梯度定理(Deterministic Policy Gradient,DPG),在Actor-Critic框架下构建的算法,它解决了连续性控制问题,将强化学习方法从离散域扩展到了连续域。
发明内容
为了克服现有技术的不足,本发明提供一种基于DDPG的无人机自主引导控制方法,将DDPG算法用于无人机自主引导上,通过设计的无人机自主引导控制算法与学习训练模型,实现无人机针对外界环境动态调整飞行机动方式,并完成引导控制下的自主飞行。
本发明解决其技术问题所采用的技术方案包括以下步骤:
1)建立无人机三自由度运动模型;
2)建立无人机机动控制模型;
3)建立基准地形三维模型和山峰三维模型;
4)计算无人机当前位置下所受地形障碍影响程度值;
5)构建评价网络Q(s,a)、策略网络μ(s)和相应的目标网络Q′(s,a)、μ′(s),所述的四个网络均属于深度神经网络;Q(s,a)、Q′(s,a)和μ(s)、μ′(s)分别采用相同的参数进行初始化;
分别对Q(s,a)、Q′(s,a)、μ(s)和μ′(s)的参数进行定义,Q(s,a)网络和Q′(s,a)网络采用三层网络,每层之间神经元两两连接,激活函数使用线性整流函数ReLU;μ(s)网络和μ′(s)网络采用三层网络,每层之间神经元两两连接,激活函数使用双曲正切函数 tanh;
定义收益r=-(g(XUAV)+p(XUAV)),式中,g(XUAV)为无人机所受飞行环境的影响值,p(XUAV)为无人机与终点的距离,r为无人机当前的收益;
6)对评价网络Q(s,a)和策略网络μ(s)进行训练;
7)使用训练结果μ′(s;θμ′)网络作为无人机飞行控制外环控制器,控制无人机的两向过载Nx、Ny和无人机速度倾斜角γc。
所述的无人机三自由度运动模型式中,Nx为无人机在飞机坐标系中的切向过载,Ny为飞机坐标系中的法向过载,v为无人机速度,θ为无人机航迹倾斜角,ψc为无人机航迹偏转角,γc为速度倾斜角,x、y和z为无人机在地理坐标系中的三向坐标,m为无人机质量,g为重力加速度。
所述的步骤6)首先初始化存储区域D用于存储经验数据并初始化Q(s,a;θQ)、Q′(s,a;θQ′)、μ(s;θμ)和μ′(s;θμ′)的拓扑结构和节点内使用的激活函数类型;然后设置已训练周期数m和已训练回合数t为0,开始训练M个周期,每个周期中包含T个回合单步训练;在每回合中,选择当前最优的动作 为一种随机过程,采用奥恩斯坦-乌伦贝克过程;将at作为无人机的控制输入后,从环境中得到当前的收益rt和下一时刻状态st+1,然后将(st,at,rt,st+1)存入中;随后从中随机抽样得到一组历史数据,将作为目标函数采用Adam算法对 Q(s,a;θQ)的参数θQ进行优化,同时,采用Adam算法对μ(s;θμ)的参数θμ进行优化;最后,对Q′(s,a;θQ′)和μ′(s;θμ′)的参数θQ′和θμ′分别更新为τθQ+(1-τ)θQ′和τθμ+(1-τ)θμ′,τ<<1;当完成T个回合单步训练后,即开始下一个周期的训练,当M 个周期训练结束后,则μ′(s;θμ′)网络为训练结果。
本发明的有益效果是:创新性地将深度强化学习方法与无人机引导控制进行结合,该方法在离线仿真环境中进行学习训练,达到要求后再进行实际应用。由于深度强化学习的应用,本发明极大地增强了无人机在执行任务过程中的自主性,提高了无人机执行任务的效率。
附图说明
图1是无人机机动策略自主生成问题描述示意图;
图2是强化学习典型模型示意图;
图3是Actor-Critic模型示意图;
图4是DDPG算法结构图;
图5是Q(s,a)网络结构图;
图6是μ(s)网络结构图。
具体实施方式
本发明基于人工智能技术,提出了基于DDPG的无人机自主引导控制方法,该方法在预先建立的任务环境进行训练学习,生成基于环境反馈的无人机控制量,进而引导及控制无人机的飞行机动方式。该方法能够提升无人机自主引导飞行能力,安全快速地从起点飞向终点。
本发明实现过程包括以下步骤:
1、建立无人机三自由度运动模型。
式中,Nx为无人机在飞机坐标系中的切向过载,Ny为飞机坐标系中的法向过载,v为无人机速度,θ为无人机航迹倾斜角,ψc为无人机航迹偏转角,γc为速度倾斜角,x、 y和z为无人机在地理坐标系中的三向坐标,m为无人机质量,g为重力加速度。
2、建立无人机机动控制模型,无人机的控制量使用如式(2)中所示的过载Nx和Ny进行定义。
式中P为发动机推力,Y为无人机所受空气升力,Q为无人机所受空气阻力。
3、建立基准地形和山峰三维环境模型。
建立基准地形模拟模型,本发明采用数学方法对基准地形进行模拟,如式(3)所示为基准地形生成公式。
式中h(x,y)为(x,y)点对应的地面海拔高度,x的正方向为正东方向,y的正方向为正北方向,h的正方向指向天空,当x、y和h均为0时,为地理坐标系原点,a、b、c、d、 e、f和g为常系数,这些参数控制基准地形起伏。
建立山峰模拟模型,本发明中采用指数函数对山峰进行描述,如式(4)所示。
式中z为(x,y)点对应的山峰高度,用(hi,xi,yi,xsi,ysi)描述第i个山峰的高低、坡度等属性,hi为山峰海拔高度,(xi,yi)为山峰中心位置,(xsi,ysi)为山峰在x和y方向上的坡度, n为山峰个数。
4、计算无人机当前位置下所受地形障碍影响程度值。
本发明中,以无人机离地面距离远近描述无人机所受地形障碍的影响程度值,如式(5)所示。
式中XUAV和(xUAV,yUAV,zUAV)为无人机在地理坐标系中的位置坐标,g(XUAV)为无人机所受飞行环境的影响值。在模型计算完成后,输出g(XUAV)作为飞行环境对无人机的影响值。
5、基于DDPG算法的无人机自主引导控制方法。
5.1、构建评价网络Q(s,a)、策略网络μ(s)和相应的目标网络Q′(s,a)、μ′(s),在本发明中,四个神经网络均属于深度神经网络(DNN)。此外,Q(s,a)、Q′(s,a)和μ(s)、μ′(s)分别采用相同的参数进行初始化,即在训练前,Q′(s,a)和μ′(s)分别由Q(s,a)和μ(s)复制得到。
分别对Q(s,a)、Q′(s,a)、μ(s)和μ′(s)的参数进行定义。Q(s,a)网络(或Q′(s,a)网络)采用如图5所示结构搭建,即三层网络,每层之间神经元两两连接,激活函数使用线性整流函数ReLU,如式(6)所示。
而μ(s)网络(或μ′(s)网络)采用如图6所示结构搭建,即三层网络,每层之间神经元两两连接,激活函数使用双曲正切函数tanh,如式(7)所示。
式中,x,y,z为无人机在地理坐标系中的位置,v为无人机的速度标量,θ为无人机航迹倾斜角,ψc为无人机航迹偏转角,距离单位为m,速度单位为m/s,角度单位为°。
式中,Nx为无人机在飞机坐标系中的切向过载,Ny为无人机在飞机坐标系中的法向过载,γc为无人机的速度轴系倾斜角。
收益r考虑飞行环境对无人机的影响值和无人机与终点(任务起点、终点位置由实际任务决定)的距离,定义如式(10):
r=-(g(XUAV)+p(XUAV)) (10)
式中,g(XUAV)为无人机所受飞行环境的影响值,p(XUAV)为无人机与终点的距离,r为无人机当前的收益。p(XUAV)的计算如式(11):
式中,(xUAV,yUAV,zUAV)为无人机在地理坐标系中的位置坐标,(xstart,ystart,zstart)为在地理坐标系中的起点坐标,(xend,yend,zend)为在地理坐标系中的终点坐标。
6、对评价网络Q(s,a)和策略网络μ(s)进行训练。
6.1、初始化存储区域D用于存储经验数据并初始化Q(s,a;θQ)、Q′(s,a;θQ′)、μ(s;θm)和μ′(s;θμ′),主要初始化四个网络的拓扑结构和节点内使用的激活函数类型等。网络拓扑结构主要是网络的层数和各层内的节点个数,节点内使用的激活函数可以是Sigmoid、tanh和ReLU等函数。
6.2、开始训练M个周期,由于训练过程基于马尔可夫过程,所以在一个周期中又包含了T个回合单步训练。开始训练前设置已训练周期数m和已训练回合数t为0。
在每回合中,根据式(13)选择当前最优的动作at。式(13)如下所示:
dxt=θ(μ-xt)dt+σdWt (14)
将at作为无人机的控制输入后,从环境中得到当前的收益rt和下一时刻状态st+1,然后将(st,at,rt,st+1)存入中。
同时,采用Adam算法对μ(s;θμ)的参数θμ进行优化,如式(16)所示为目标函数的梯度:
最后,根据式(17)对Q′(s,a;θQ′)和μ′(s;θμ′)的参数θQ′和θμ′进行更新。
式中,τ满足τ<<1。参数θQ′和θμ′更新完成后,则t=t+1,即本回合训练结束,开始下回合训练,重复本环节中所述内容。
6.3、当完成T个回合单步训练(即t=T)后,则m=m+1,即开始下一个周期的训练。当M个周期训练结束(即m=M)后,则μ′(s;θμ′)网络为训练结果,可以直接用于无人机的控制。
7、训练完成。使用μ′(s;θμ′)网络作为无人机飞行控制外环控制器,控制无人机的两向过载Nx、Ny和无人机速度倾斜角γc。
如表1所示为无人机自主引导控制方法的训练流程。
表1无人机自主引导控制方法训练流程
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
1、基于式(18)建立无人机运动模型后,根据实际无人机的生产规格设置无人机模型的部分参数和约束条件,包括了无人机重量m,最小、最大飞行速度(本实例中考虑设为[200m/s,400m/s]),最大爬升角、最大俯冲角(本实例中考虑设为[-60°,70°]),最大转弯半径(本实例中考虑设为1km)。在仿真时,无人机速度应大于最小飞行速度,小于最大飞行速度,无人机航迹倾斜角应被限制在最大爬升角和最大俯冲角之间,无人机航迹偏转角应满足最大转弯半径的约束。
2、建立无人机控制模型,无人机的控制量使用如式(19)所示的过载进行定义。
在本实例中,切向过载Nx被限制在(本实例中采用[-2.0,5.0])范围中,法向过载Ny被限制在[0,Cy](本实例中采用[0,7.0])范围中。Cx、和Cy三个参数用于描述无人机的机动性能,Cx代表无人机推力最大时的切向过载,代表无人机推力最小时的切向过载,Cy代表无人机以最大转弯半径转弯时所产生的法向过载。
3、建立基准地形和山峰等三维环境模型。在本实例中,设置较为平缓的地面基准海拔,设置5个山峰,起点位于环境中左侧,终点位于环境中右侧,地理坐标系原点设置在飞行环境左下角。本实例的目标是实现无人机自主从起点安全快速地飞向终点。
针对地面海拔,采用数学方法进行模拟,如式(20)所示为地面海拔模拟生成公式。
式中的参数a、b、c、d、e、f和g分别可取10~15,0.2~0.6,0.1~0.5,0.6~1.5,1~5, 0.1~0.8,0.1~0.8。
山峰采用指数函数进行描述,其数学模型如式(21)所示。
式中xsi,ysi一般取10~30。
4、计算无人机当前位置下所受地形障碍影响程度值。
如式(22)所示,用无人机离地面距离远近描述无人机所受地形障碍的影响程度。
式中XUAV和(xUAV,yUAV,zUAV)为无人机在地理坐标系中的位置坐标,在模型计算完成后,输出g(XUAV)作为飞行环境对无人机的影响值。
5、基于DDPG算法的无人机自主引导控制方法。
5.1、构建评价网络Q(s,a)、策略网络μ(s)和相应的目标网络Q′(s,a)、μ′(s)。在本实例实施过程中,Q(s,a)和Q′(s,a)网络结构为三层,输入为s和a,中间层由64个神经元构成,输出为Q值,激活函数都为ReLU函数;μ(s)和μ′(s)网络结构为三层,输入层为s,中间层由64个神经元构成,激活函数为ReLU函数,输出层为a,激活函数为tanh函数。
状态s为一个六维向量,并且如式(23)所示:
式中,x,y,z代表无人机在地理坐标系中的位置,单位为m,v为无人机速度标量,单位为m/s,θ,ψc为无人机航迹倾斜角和航迹偏转角,单位为°。
式中,Nx和Ny分别代表无人机切向过载与法向过载,无单位,γc为无人机速度轴系倾斜角,单位为°。
收益r考虑飞行环境对无人机的影响值和无人机与终点的距离,定义如式(25):
r=-(g(XUAV)+p(XUAV)) (25)
式中,g(XUAV)为无人机所受飞行环境的影响值,p(XUAV)为无人机与终点的距离,r为无人机当前的收益。p(XUAV)的计算如式(26):
式中,(xUAV,yUAV,zUAV)为无人机在地理坐标系中的位置坐标,(xstart,ystart,zstart)为在地理坐标系中的起点坐标,(xend,yend,zend)为在地理坐标系中的终点坐标。
6、对评价网络Q(s,a)和策略网络μ(s)进行训练。如图所示为DDPG算法结构图。
6.1、初始化存储区域D用于存储经验数据并根据第5步中的内容初始化 Q(s,a;θQ)、Q′(s,a;θQ′)、μ(s;θμ)和μ′(s;θμ′)。
6.2、开始训练M个周期,每周期内训练T个回合。开始训练前设置已训练周期数m和已训练回合数t为0。
dxt=θ(μ-xt)dt+σdWt (29)
将at作用于环境,然后,将本次的状态数据s、动作数据a、收益r和下一时刻状态s′,即(s,a,r,s′)存入D中。
随后在D中抽样得到一组样本,利用这些样本分别根据式(30)和式(31)采用Adam法更新Q网络参数θQ和μ网络参数θμ。
最后,根据式(32)更新目标网络Q′(s,a)和μ′(s)的参数θQ′和θμ′,式中一般取τ∈[0.05,0.1]。
参数θQ′和θμ′更新完成后,则t=t+1,即本回合训练结束,开始下回合训练,重复本环节中所述内容。
6.3、当完成T个回合单步训练(即t=T)后,则m=m+1,即开始下一个周期的训练。当M周期训练结束(即m=M)后,则μ′(s;θμ′)网络为训练结果,可以直接用于无人机的控制。
7、训练完成后,使用μ′(s;θμ′)网络作为无人机飞行控制外环控制器,控制无人机的两向过载Nx、Ny和无人机速度倾斜角γc。
本方法结合深度强化学习方法-深度确定性策略梯度算法(DDPG),针对不确定环境下的无人机自主引导控制问题,提出了基于DDPG的无人机自主引导控制方法。采用本发明中所设计的方法,训练结果具有一定的泛化能力,无人机可以实现自主飞行,安全并快速地从起点飞到终点,极大地增强了无人机在执行任务过程中的自主性,提高了无人机执行任务的效率。
Claims (7)
1.一种基于DDPG的无人机自主引导控制方法,其特征在于包括以下步骤:
1)建立无人机三自由度运动模型;
2)建立无人机机动控制模型;
3)建立基准地形三维模型和山峰三维模型;
4)计算无人机当前位置下所受地形障碍影响程度值;
5)构建评价网络Q(s,a)、策略网络μ(s)和相应的目标网络Q′(s,a)、μ′(s),所述的四个网络均属于深度神经网络;Q(s,a)、Q′(s,a)和μ(s)、μ′(s)分别采用相同的参数进行初始化;
分别对Q(s,a)、Q′(s,a)、μ(s)和μ′(s)的参数进行定义,Q(s,a)网络和Q′(s,a)网络采用三层网络,每层之间神经元两两连接,激活函数使用线性整流函数ReLU;μ(s)网络和μ′(s)网络采用三层网络,每层之间神经元两两连接,激活函数使用双曲正切函数tanh;
定义收益r=-(g(XUAV)+p(XUAV)),式中,g(XUAV)为无人机所受飞行环境的影响值,p(XUAV)为无人机与终点的距离,r为无人机当前的收益;
定义回放经验式中,s为当前状态,a为当前状态下无人机所选的动作,r为无人机执行a后所得的收益,s′为无人机执行a后的状态;
6)对评价网络Q(s,a)和策略网络μ(s)进行训练;
7)使用训练结果μ′(s;θμ′)网络作为无人机飞行控制外环控制器,控制无人机的两向过载Nx、Ny和无人机速度倾斜角γc。
7.根据权利要求1所述的基于DDPG的无人机自主引导控制方法,其特征在于:所述的步骤6)首先初始化存储区域D用于存储经验数据并初始化Q(s,a;θQ)、Q′(s,a;θQ′)、μ(s;θμ)和μ′(s;θμ′)的拓扑结构和节点内使用的激活函数类型;然后设置已训练周期数m和已训练回合数t为0,开始训练M个周期,每个周期中包含T个回合单步训练;在每回合中,选择当前最优的动作 为一种随机过程,采用奥恩斯坦-乌伦贝克过程;将at作为无人机的控制输入后,从环境中得到当前的收益rt和下一时刻状态st+1,然后将(st,at,rt,st+1)存入中;随后从中随机抽样得到一组历史数据,将作为目标函数采用Adam算法对Q(s,a;θQ)的参数θQ进行优化,同时,采用Adam算法对μ(s;θμ)的参数θμ进行优化;最后,对Q′(s,a;θQ′)和μ′(s;θμ′)的参数θQ′和θμ′分别更新为τθQ+(1-τ)θQ′和τθμ+(1-τ)θμ′,τ<<1;当完成T个回合单步训练后,即开始下一个周期的训练,当M个周期训练结束后,则μ′(s;θμ′)网络为训练结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910853746.XA CN110806756B (zh) | 2019-09-10 | 2019-09-10 | 基于ddpg的无人机自主引导控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910853746.XA CN110806756B (zh) | 2019-09-10 | 2019-09-10 | 基于ddpg的无人机自主引导控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110806756A true CN110806756A (zh) | 2020-02-18 |
CN110806756B CN110806756B (zh) | 2022-08-02 |
Family
ID=69487565
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910853746.XA Active CN110806756B (zh) | 2019-09-10 | 2019-09-10 | 基于ddpg的无人机自主引导控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110806756B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111460650A (zh) * | 2020-03-31 | 2020-07-28 | 北京航空航天大学 | 一种基于深度强化学习的无人机端到端控制方法 |
CN111487864A (zh) * | 2020-05-14 | 2020-08-04 | 山东师范大学 | 一种基于深度强化学习的机器人路径导航方法及系统 |
CN111624886A (zh) * | 2020-06-05 | 2020-09-04 | 沈阳航空航天大学 | 一种基于sarsa的变循环航空发动机推力控制方法 |
CN111880563A (zh) * | 2020-07-17 | 2020-11-03 | 西北工业大学 | 一种基于maddpg的多无人机任务决策方法 |
CN112019249A (zh) * | 2020-10-22 | 2020-12-01 | 中山大学 | 一种基于深度强化学习的智能反射面调控方法及装置 |
CN112068590A (zh) * | 2020-08-21 | 2020-12-11 | 广东工业大学 | 无人机基站飞行规划方法、系统、储存介质及无人机基站 |
CN112198870A (zh) * | 2020-06-01 | 2021-01-08 | 西北工业大学 | 基于ddqn的无人机自主引导机动决策方法 |
CN112286218A (zh) * | 2020-12-29 | 2021-01-29 | 南京理工大学 | 基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法 |
CN112947421A (zh) * | 2021-01-28 | 2021-06-11 | 西北工业大学 | 一种基于强化学习的auv自主避障方法 |
CN113110516A (zh) * | 2021-05-20 | 2021-07-13 | 广东工业大学 | 一种深度强化学习的受限空间机器人作业规划方法 |
CN113485443A (zh) * | 2021-08-10 | 2021-10-08 | 北京宇系航通科技有限公司 | 基于深度学习的无人机控制方法、存储介质及设备 |
CN113570040A (zh) * | 2021-07-27 | 2021-10-29 | 南京航空航天大学 | 一种基于进化策略的多域行动序列智能优化系统及方法 |
CN115097853A (zh) * | 2022-05-18 | 2022-09-23 | 中国航空工业集团公司沈阳飞机设计研究所 | 一种基于细粒度重复策略的无人机机动飞行控制方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170074539A (ko) * | 2015-12-22 | 2017-06-30 | 한국항공대학교산학협력단 | 딥 러닝을 이용한 무인기 비행 제어 시스템 및 방법 |
CN108319286A (zh) * | 2018-03-12 | 2018-07-24 | 西北工业大学 | 一种基于强化学习的无人机空战机动决策方法 |
CN108803321A (zh) * | 2018-05-30 | 2018-11-13 | 清华大学 | 基于深度强化学习的自主水下航行器轨迹跟踪控制方法 |
CN108919640A (zh) * | 2018-04-20 | 2018-11-30 | 西北工业大学 | 无人机自适应多目标跟踪的实现方法 |
CN109597425A (zh) * | 2018-10-18 | 2019-04-09 | 中国航空无线电电子研究所 | 基于强化学习的无人机导航和避障方法 |
CN109696830A (zh) * | 2019-01-31 | 2019-04-30 | 天津大学 | 小型无人直升机的强化学习自适应控制方法 |
CN109933086A (zh) * | 2019-03-14 | 2019-06-25 | 天津大学 | 基于深度q学习的无人机环境感知与自主避障方法 |
CN109934332A (zh) * | 2018-12-31 | 2019-06-25 | 中国科学院软件研究所 | 基于评论家和双经验池的深度确定性策略梯度学习方法 |
-
2019
- 2019-09-10 CN CN201910853746.XA patent/CN110806756B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170074539A (ko) * | 2015-12-22 | 2017-06-30 | 한국항공대학교산학협력단 | 딥 러닝을 이용한 무인기 비행 제어 시스템 및 방법 |
CN108319286A (zh) * | 2018-03-12 | 2018-07-24 | 西北工业大学 | 一种基于强化学习的无人机空战机动决策方法 |
CN108919640A (zh) * | 2018-04-20 | 2018-11-30 | 西北工业大学 | 无人机自适应多目标跟踪的实现方法 |
CN108803321A (zh) * | 2018-05-30 | 2018-11-13 | 清华大学 | 基于深度强化学习的自主水下航行器轨迹跟踪控制方法 |
CN109597425A (zh) * | 2018-10-18 | 2019-04-09 | 中国航空无线电电子研究所 | 基于强化学习的无人机导航和避障方法 |
CN109934332A (zh) * | 2018-12-31 | 2019-06-25 | 中国科学院软件研究所 | 基于评论家和双经验池的深度确定性策略梯度学习方法 |
CN109696830A (zh) * | 2019-01-31 | 2019-04-30 | 天津大学 | 小型无人直升机的强化学习自适应控制方法 |
CN109933086A (zh) * | 2019-03-14 | 2019-06-25 | 天津大学 | 基于深度q学习的无人机环境感知与自主避障方法 |
Non-Patent Citations (2)
Title |
---|
CHAO WANG,等: "AUTONOMOUS NAVIGATION OF UAV IN LARGE-SCALE UNKNOWN COMPLEX ENVIRONMENT WITH DEEP REINFORCEMENT LEARNING", 《IEEE》 * |
TIMOTHY P.LILLICRAP,等: "CONTINUOUS CONTROL WITH DEEP REINFORCEMENT Learning", 《ARXIV》 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111460650A (zh) * | 2020-03-31 | 2020-07-28 | 北京航空航天大学 | 一种基于深度强化学习的无人机端到端控制方法 |
CN111487864A (zh) * | 2020-05-14 | 2020-08-04 | 山东师范大学 | 一种基于深度强化学习的机器人路径导航方法及系统 |
CN112198870A (zh) * | 2020-06-01 | 2021-01-08 | 西北工业大学 | 基于ddqn的无人机自主引导机动决策方法 |
CN112198870B (zh) * | 2020-06-01 | 2022-09-02 | 西北工业大学 | 基于ddqn的无人机自主引导机动决策方法 |
CN111624886B (zh) * | 2020-06-05 | 2022-04-08 | 沈阳航空航天大学 | 一种基于sarsa的变循环航空发动机推力控制方法 |
CN111624886A (zh) * | 2020-06-05 | 2020-09-04 | 沈阳航空航天大学 | 一种基于sarsa的变循环航空发动机推力控制方法 |
CN111880563A (zh) * | 2020-07-17 | 2020-11-03 | 西北工业大学 | 一种基于maddpg的多无人机任务决策方法 |
CN111880563B (zh) * | 2020-07-17 | 2022-07-15 | 西北工业大学 | 一种基于maddpg的多无人机任务决策方法 |
CN112068590A (zh) * | 2020-08-21 | 2020-12-11 | 广东工业大学 | 无人机基站飞行规划方法、系统、储存介质及无人机基站 |
CN112019249A (zh) * | 2020-10-22 | 2020-12-01 | 中山大学 | 一种基于深度强化学习的智能反射面调控方法及装置 |
CN112286218B (zh) * | 2020-12-29 | 2021-03-26 | 南京理工大学 | 基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法 |
CN112286218A (zh) * | 2020-12-29 | 2021-01-29 | 南京理工大学 | 基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法 |
CN112947421A (zh) * | 2021-01-28 | 2021-06-11 | 西北工业大学 | 一种基于强化学习的auv自主避障方法 |
CN113110516A (zh) * | 2021-05-20 | 2021-07-13 | 广东工业大学 | 一种深度强化学习的受限空间机器人作业规划方法 |
CN113110516B (zh) * | 2021-05-20 | 2023-12-22 | 广东工业大学 | 一种深度强化学习的受限空间机器人作业规划方法 |
CN113570040A (zh) * | 2021-07-27 | 2021-10-29 | 南京航空航天大学 | 一种基于进化策略的多域行动序列智能优化系统及方法 |
CN113485443A (zh) * | 2021-08-10 | 2021-10-08 | 北京宇系航通科技有限公司 | 基于深度学习的无人机控制方法、存储介质及设备 |
CN113485443B (zh) * | 2021-08-10 | 2023-12-22 | 北京北航天宇长鹰无人机科技有限公司 | 基于深度学习的无人机控制方法、存储介质及设备 |
CN115097853A (zh) * | 2022-05-18 | 2022-09-23 | 中国航空工业集团公司沈阳飞机设计研究所 | 一种基于细粒度重复策略的无人机机动飞行控制方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110806756B (zh) | 2022-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110806756B (zh) | 基于ddpg的无人机自主引导控制方法 | |
CN110531786B (zh) | 基于dqn的无人机机动策略自主生成方法 | |
CN108319286B (zh) | 一种基于强化学习的无人机空战机动决策方法 | |
Cheng et al. | Path planning and obstacle avoidance for AUV: A review | |
CN110673620B (zh) | 一种基于深度强化学习的四旋翼无人机航线跟随控制方法 | |
CN111880567B (zh) | 基于深度强化学习的固定翼无人机编队协调控制方法及装置 | |
CN110502033B (zh) | 一种基于强化学习的固定翼无人机群集控制方法 | |
CN110488859B (zh) | 一种基于改进Q-learning算法的无人机航路规划方法 | |
CN109625333B (zh) | 一种基于深度增强学习的空间非合作目标捕获方法 | |
Nie et al. | Three-dimensional path-following control of a robotic airship with reinforcement learning | |
CN112650058B (zh) | 一种基于强化学习的四旋翼无人机轨迹控制方法 | |
An et al. | Task planning and collaboration of jellyfish-inspired multiple spherical underwater robots | |
CN114253296A (zh) | 高超声速飞行器机载轨迹规划方法、装置、飞行器及介质 | |
CN115755956B (zh) | 一种知识与数据协同驱动的无人机机动决策方法与系统 | |
CN116242364A (zh) | 一种基于深度强化学习的多无人机智能导航方法 | |
CN115033022A (zh) | 面向移动平台基于专家经验的ddpg无人机降落方法 | |
CN115903865A (zh) | 一种飞行器近距空战机动决策实现方法 | |
CN115903888A (zh) | 一种基于天牛群算法的旋翼无人机自主路径规划方法 | |
Deshpande et al. | Developmental reinforcement learning of control policy of a quadcopter UAV with thrust vectoring rotors | |
CN114518770A (zh) | 一种电势场和深度强化学习融合的无人机路径规划方法 | |
CN109375642B (zh) | 一种无人机节能控制方法 | |
CN114089776A (zh) | 一种基于深度强化学习的无人机避障方法 | |
Chen et al. | Deep reinforcement learning based strategy for quadrotor UAV pursuer and evader problem | |
CN114355980B (zh) | 基于深度强化学习的四旋翼无人机自主导航方法与系统 | |
CN113050420B (zh) | 基于s面控制和td3的auv路径跟踪方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |