CN110806756A - 基于ddpg的无人机自主引导控制方法 - Google Patents

基于ddpg的无人机自主引导控制方法 Download PDF

Info

Publication number
CN110806756A
CN110806756A CN201910853746.XA CN201910853746A CN110806756A CN 110806756 A CN110806756 A CN 110806756A CN 201910853746 A CN201910853746 A CN 201910853746A CN 110806756 A CN110806756 A CN 110806756A
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
theta
network
uav
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910853746.XA
Other languages
English (en)
Other versions
CN110806756B (zh
Inventor
张堃
李珂
赵�权
时昊天
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN201910853746.XA priority Critical patent/CN110806756B/zh
Publication of CN110806756A publication Critical patent/CN110806756A/zh
Application granted granted Critical
Publication of CN110806756B publication Critical patent/CN110806756B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft

Abstract

本发明提供了一种基于DDPG的无人机自主引导控制方法,分别建立无人机三自由度运动模型、无人机机动控制模型、基准地形三维模型和山峰三维模型;计算无人机当前位置下所受地形障碍影响程度值;构建评价网络、策略网络和相应的目标网络,对评价网络和策略网络进行训练;使用训练结果作为无人机飞行控制外环控制器,控制无人机的两向过载和无人机速度倾斜角。本发明将深度强化学习方法与无人机引导控制进行结合,在离线仿真环境中进行学习训练,达到要求后再进行实际应用,极大地增强了无人机在执行任务过程中的自主性,提高了无人机执行任务的效率。

Description

基于DDPG的无人机自主引导控制方法
技术领域
本发明涉及飞行机动控制和人工智能领域,具体涉及一种无人机自主引导控制方法。
背景技术
近年来,随着无人机技术的发展,无人机的性能飞速提高,不论是军用无人机还是民用无人机,各种新技术层出不穷。其中提高无人机自主飞行能力、降低人为干预,避免人为失误是各国无人机科研人员的研究重点。传统无人机的飞行导引控制方法,通常在获取到需求任务区域内应飞航迹后,通过设计一个轨迹跟踪控制器实现无人机的飞行导引,该控制器多采用PID控制、线性二次型调节器、滑膜控制、模型预测控制和自适应控制等方法。但是,当环境发生较大改变时,上述轨迹跟踪控制器均不具备自主解决突发事件的能力,只有无人机操纵者进行手动干预后,无人机才能继续完成任务,该过程极大地影响了无人机执行任务的效率。近年来,由于在电子技术方面的突破性进步,人工智能技术飞速发展,各种人工智能算法不断应用到控制领域。例如,Google公司的DeepMind人工智能小组,创新性地将深度强化学习方法应用到人形机器人的步态控制上并取得了成功;OpenAI实验室基于进化策略方法设计了一系列控制算法并成功商用。深度强化学习是多门学科多个领域交叉结合的产物,最早可以追溯到巴普洛夫的条件反射实验,但直到上世纪九十年代才逐渐被人们应用于自动控制、机器学习等领域。2015年,DeepMind(Google)发布了深度确定性策略梯度算法 (Deep Deterministic Policy Gradient,DDPG),它是第一个成功地将深度学习和强化学习结合起来应用与连续性控制的模型。DDPG是一种以DQN为基础,考虑确定性策略梯度定理(Deterministic Policy Gradient,DPG),在Actor-Critic框架下构建的算法,它解决了连续性控制问题,将强化学习方法从离散域扩展到了连续域。
发明内容
为了克服现有技术的不足,本发明提供一种基于DDPG的无人机自主引导控制方法,将DDPG算法用于无人机自主引导上,通过设计的无人机自主引导控制算法与学习训练模型,实现无人机针对外界环境动态调整飞行机动方式,并完成引导控制下的自主飞行。
本发明解决其技术问题所采用的技术方案包括以下步骤:
1)建立无人机三自由度运动模型;
2)建立无人机机动控制模型;
3)建立基准地形三维模型和山峰三维模型;
4)计算无人机当前位置下所受地形障碍影响程度值;
5)构建评价网络Q(s,a)、策略网络μ(s)和相应的目标网络Q′(s,a)、μ′(s),所述的四个网络均属于深度神经网络;Q(s,a)、Q′(s,a)和μ(s)、μ′(s)分别采用相同的参数进行初始化;
分别对Q(s,a)、Q′(s,a)、μ(s)和μ′(s)的参数进行定义,Q(s,a)网络和Q′(s,a)网络采用三层网络,每层之间神经元两两连接,激活函数使用线性整流函数ReLU;μ(s)网络和μ′(s)网络采用三层网络,每层之间神经元两两连接,激活函数使用双曲正切函数 tanh;
定义状态空间
Figure BDA0002197687410000021
式中,x,y,z为无人机在地理坐标系中的位置,v为无人机的速度标量,θ为无人机航迹倾斜角,ψc为无人机航迹偏转角;
定义动作空间
Figure BDA0002197687410000022
式中,Nx为无人机在飞机坐标系中的切向过载,Ny为无人机在飞机坐标系中的法向过载,γc为无人机的速度轴系倾斜角;
定义收益r=-(g(XUAV)+p(XUAV)),式中,g(XUAV)为无人机所受飞行环境的影响值,p(XUAV)为无人机与终点的距离,r为无人机当前的收益;
定义回放经验
Figure BDA0002197687410000023
式中,s为当前状态,a为当前状态下无人机所选的动作,r为无人机执行a后所得的收益,s′为无人机执行a后的状态;
6)对评价网络Q(s,a)和策略网络μ(s)进行训练;
7)使用训练结果μ′(s;θμ′)网络作为无人机飞行控制外环控制器,控制无人机的两向过载Nx、Ny和无人机速度倾斜角γc
所述的无人机三自由度运动模型
Figure BDA0002197687410000031
式中,Nx为无人机在飞机坐标系中的切向过载,Ny为飞机坐标系中的法向过载,v为无人机速度,θ为无人机航迹倾斜角,ψc为无人机航迹偏转角,γc为速度倾斜角,x、y和z为无人机在地理坐标系中的三向坐标,m为无人机质量,g为重力加速度。
所述的无人机机动控制模型
Figure BDA0002197687410000032
式中,Nx为无人机在飞机坐标系中的切向过载,Ny为飞机坐标系中的法向过载,P为发动机推力,Y为无人机所受空气升力, Q为无人机所受空气阻力,m为无人机质量,g为重力加速度。
所述的基准地形三维模型
Figure BDA0002197687410000033
式中, h(x,y)为(x,y)点对应的地面海拔高度,x的正方向为正东方向,y的正方向为正北方向, h的正方向指向天空,a、b、c、d、e、f和g为常系数,控制基准地形起伏。
所述的山峰三维模型
Figure BDA0002197687410000034
式中,z为(x,y)点对应的山峰高度,hi为山峰海拔高度,(xi,yi)为山峰中心位置,(xsi,ysi)为山峰在x和y方向上的坡度, n为山峰个数。
所述的无人机当前位置下所受地形障碍影响程度值
Figure BDA0002197687410000041
式中XUAV和(xUAV,yUAV,zUAV)为无人机在地理坐标系中的位置坐标,
所述的步骤6)首先初始化存储区域D用于存储经验数据
Figure BDA0002197687410000043
并初始化Q(s,a;θQ)、Q′(s,a;θQ′)、μ(s;θμ)和μ′(s;θμ′)的拓扑结构和节点内使用的激活函数类型;然后设置已训练周期数m和已训练回合数t为0,开始训练M个周期,每个周期中包含T个回合单步训练;在每回合中,选择当前最优的动作
Figure BDA0002197687410000044
为一种随机过程,采用奥恩斯坦-乌伦贝克过程;将at作为无人机的控制输入后,从环境中得到当前的收益rt和下一时刻状态st+1,然后将(st,at,rt,st+1)存入
Figure BDA0002197687410000046
中;随后从中随机抽样得到一组历史数据,将
Figure BDA0002197687410000048
作为目标函数采用Adam算法对 Q(s,a;θQ)的参数θQ进行优化,同时,采用Adam算法对μ(s;θμ)的参数θμ进行优化;最后,对Q′(s,a;θQ′)和μ′(s;θμ′)的参数θQ′和θμ′分别更新为τθQ+(1-τ)θQ′和τθμ+(1-τ)θμ′,τ<<1;当完成T个回合单步训练后,即开始下一个周期的训练,当M 个周期训练结束后,则μ′(s;θμ′)网络为训练结果。
本发明的有益效果是:创新性地将深度强化学习方法与无人机引导控制进行结合,该方法在离线仿真环境中进行学习训练,达到要求后再进行实际应用。由于深度强化学习的应用,本发明极大地增强了无人机在执行任务过程中的自主性,提高了无人机执行任务的效率。
附图说明
图1是无人机机动策略自主生成问题描述示意图;
图2是强化学习典型模型示意图;
图3是Actor-Critic模型示意图;
图4是DDPG算法结构图;
图5是Q(s,a)网络结构图;
图6是μ(s)网络结构图。
具体实施方式
本发明基于人工智能技术,提出了基于DDPG的无人机自主引导控制方法,该方法在预先建立的任务环境进行训练学习,生成基于环境反馈的无人机控制量,进而引导及控制无人机的飞行机动方式。该方法能够提升无人机自主引导飞行能力,安全快速地从起点飞向终点。
本发明实现过程包括以下步骤:
1、建立无人机三自由度运动模型。
Figure BDA0002197687410000051
式中,Nx为无人机在飞机坐标系中的切向过载,Ny为飞机坐标系中的法向过载,v为无人机速度,θ为无人机航迹倾斜角,ψc为无人机航迹偏转角,γc为速度倾斜角,x、 y和z为无人机在地理坐标系中的三向坐标,m为无人机质量,g为重力加速度。
2、建立无人机机动控制模型,无人机的控制量使用如式(2)中所示的过载Nx和Ny进行定义。
Figure BDA0002197687410000052
式中P为发动机推力,Y为无人机所受空气升力,Q为无人机所受空气阻力。
3、建立基准地形和山峰三维环境模型。
建立基准地形模拟模型,本发明采用数学方法对基准地形进行模拟,如式(3)所示为基准地形生成公式。
Figure BDA0002197687410000061
式中h(x,y)为(x,y)点对应的地面海拔高度,x的正方向为正东方向,y的正方向为正北方向,h的正方向指向天空,当x、y和h均为0时,为地理坐标系原点,a、b、c、d、 e、f和g为常系数,这些参数控制基准地形起伏。
建立山峰模拟模型,本发明中采用指数函数对山峰进行描述,如式(4)所示。
Figure BDA0002197687410000062
式中z为(x,y)点对应的山峰高度,用(hi,xi,yi,xsi,ysi)描述第i个山峰的高低、坡度等属性,hi为山峰海拔高度,(xi,yi)为山峰中心位置,(xsi,ysi)为山峰在x和y方向上的坡度, n为山峰个数。
4、计算无人机当前位置下所受地形障碍影响程度值。
本发明中,以无人机离地面距离远近描述无人机所受地形障碍的影响程度值,如式(5)所示。
Figure BDA0002197687410000063
式中XUAV和(xUAV,yUAV,zUAV)为无人机在地理坐标系中的位置坐标,g(XUAV)为无人机所受飞行环境的影响值。在模型计算完成后,输出g(XUAV)作为飞行环境对无人机的影响值。
5、基于DDPG算法的无人机自主引导控制方法。
5.1、构建评价网络Q(s,a)、策略网络μ(s)和相应的目标网络Q′(s,a)、μ′(s),在本发明中,四个神经网络均属于深度神经网络(DNN)。此外,Q(s,a)、Q′(s,a)和μ(s)、μ′(s)分别采用相同的参数进行初始化,即在训练前,Q′(s,a)和μ′(s)分别由Q(s,a)和μ(s)复制得到。
分别对Q(s,a)、Q′(s,a)、μ(s)和μ′(s)的参数进行定义。Q(s,a)网络(或Q′(s,a)网络)采用如图5所示结构搭建,即三层网络,每层之间神经元两两连接,激活函数使用线性整流函数ReLU,如式(6)所示。
Figure BDA0002197687410000071
而μ(s)网络(或μ′(s)网络)采用如图6所示结构搭建,即三层网络,每层之间神经元两两连接,激活函数使用双曲正切函数tanh,如式(7)所示。
Figure BDA0002197687410000072
5.2、对状态空间
Figure BDA0002197687410000075
动作空间
Figure BDA0002197687410000076
收益r和经验
Figure BDA0002197687410000077
进行定义。
状态空间
Figure BDA00021976874100000710
使用无人机状态进行描述,定义如式(8):
Figure BDA0002197687410000078
式中,x,y,z为无人机在地理坐标系中的位置,v为无人机的速度标量,θ为无人机航迹倾斜角,ψc为无人机航迹偏转角,距离单位为m,速度单位为m/s,角度单位为°。
动作空间
Figure BDA0002197687410000079
为定义在Nx、Ny和γc三个维度上的连续空间,定义如式(9):
Figure BDA0002197687410000073
式中,Nx为无人机在飞机坐标系中的切向过载,Ny为无人机在飞机坐标系中的法向过载,γc为无人机的速度轴系倾斜角。
收益r考虑飞行环境对无人机的影响值和无人机与终点(任务起点、终点位置由实际任务决定)的距离,定义如式(10):
r=-(g(XUAV)+p(XUAV)) (10)
式中,g(XUAV)为无人机所受飞行环境的影响值,p(XUAV)为无人机与终点的距离,r为无人机当前的收益。p(XUAV)的计算如式(11):
Figure BDA0002197687410000074
式中,(xUAV,yUAV,zUAV)为无人机在地理坐标系中的位置坐标,(xstart,ystart,zstart)为在地理坐标系中的起点坐标,(xend,yend,zend)为在地理坐标系中的终点坐标。
回放经验
Figure BDA0002197687410000081
用于储存无人机所有的经验数据,定义如式(12):
式中,s为当前状态,a为当前状态下无人机所选的动作,r为无人机执行a后所得的收益,s′为无人机执行a后的状态
Figure BDA0002197687410000083
6、对评价网络Q(s,a)和策略网络μ(s)进行训练。
6.1、初始化存储区域D用于存储经验数据
Figure BDA0002197687410000084
并初始化Q(s,a;θQ)、Q′(s,a;θQ′)、μ(s;θm)和μ′(s;θμ′),主要初始化四个网络的拓扑结构和节点内使用的激活函数类型等。网络拓扑结构主要是网络的层数和各层内的节点个数,节点内使用的激活函数可以是Sigmoid、tanh和ReLU等函数。
6.2、开始训练M个周期,由于训练过程基于马尔可夫过程,所以在一个周期中又包含了T个回合单步训练。开始训练前设置已训练周期数m和已训练回合数t为0。
在每回合中,根据式(13)选择当前最优的动作at。式(13)如下所示:
Figure BDA0002197687410000085
式中,
Figure BDA0002197687410000086
为一种随机过程,用于产生随机噪声,该函数采用奥恩斯坦-乌伦贝克过程。如式(14)为奥恩斯坦-乌伦贝克过程的差分方程表示形式。
dxt=θ(μ-xt)dt+σdWt (14)
将at作为无人机的控制输入后,从环境中得到当前的收益rt和下一时刻状态st+1,然后将(st,at,rt,st+1)存入中。
随后从
Figure BDA00021976874100000810
中随机抽样得到一组历史数据,将式(15)作为目标函数采用Adam算法对Q(s,a;θQ)的参数θQ进行优化,式(15)如下所示:
Figure BDA0002197687410000087
同时,采用Adam算法对μ(s;θμ)的参数θμ进行优化,如式(16)所示为目标函数的梯度:
Figure BDA0002197687410000088
最后,根据式(17)对Q′(s,a;θQ′)和μ′(s;θμ′)的参数θQ′和θμ′进行更新。
Figure BDA0002197687410000091
式中,τ满足τ<<1。参数θQ′和θμ′更新完成后,则t=t+1,即本回合训练结束,开始下回合训练,重复本环节中所述内容。
6.3、当完成T个回合单步训练(即t=T)后,则m=m+1,即开始下一个周期的训练。当M个周期训练结束(即m=M)后,则μ′(s;θμ′)网络为训练结果,可以直接用于无人机的控制。
7、训练完成。使用μ′(s;θμ′)网络作为无人机飞行控制外环控制器,控制无人机的两向过载Nx、Ny和无人机速度倾斜角γc
如表1所示为无人机自主引导控制方法的训练流程。
表1无人机自主引导控制方法训练流程
Figure BDA0002197687410000092
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
1、基于式(18)建立无人机运动模型后,根据实际无人机的生产规格设置无人机模型的部分参数和约束条件,包括了无人机重量m,最小、最大飞行速度(本实例中考虑设为[200m/s,400m/s]),最大爬升角、最大俯冲角(本实例中考虑设为[-60°,70°]),最大转弯半径(本实例中考虑设为1km)。在仿真时,无人机速度应大于最小飞行速度,小于最大飞行速度,无人机航迹倾斜角应被限制在最大爬升角和最大俯冲角之间,无人机航迹偏转角应满足最大转弯半径的约束。
2、建立无人机控制模型,无人机的控制量使用如式(19)所示的过载进行定义。
Figure BDA0002197687410000102
在本实例中,切向过载Nx被限制在
Figure BDA0002197687410000103
(本实例中采用[-2.0,5.0])范围中,法向过载Ny被限制在[0,Cy](本实例中采用[0,7.0])范围中。Cx
Figure BDA0002197687410000104
和Cy三个参数用于描述无人机的机动性能,Cx代表无人机推力最大时的切向过载,
Figure BDA0002197687410000105
代表无人机推力最小时的切向过载,Cy代表无人机以最大转弯半径转弯时所产生的法向过载。
3、建立基准地形和山峰等三维环境模型。在本实例中,设置较为平缓的地面基准海拔,设置5个山峰,起点位于环境中左侧,终点位于环境中右侧,地理坐标系原点设置在飞行环境左下角。本实例的目标是实现无人机自主从起点安全快速地飞向终点。
针对地面海拔,采用数学方法进行模拟,如式(20)所示为地面海拔模拟生成公式。
Figure BDA0002197687410000111
式中的参数a、b、c、d、e、f和g分别可取10~15,0.2~0.6,0.1~0.5,0.6~1.5,1~5, 0.1~0.8,0.1~0.8。
山峰采用指数函数进行描述,其数学模型如式(21)所示。
Figure BDA0002197687410000112
式中xsi,ysi一般取10~30。
4、计算无人机当前位置下所受地形障碍影响程度值。
如式(22)所示,用无人机离地面距离远近描述无人机所受地形障碍的影响程度。
Figure BDA0002197687410000113
式中XUAV和(xUAV,yUAV,zUAV)为无人机在地理坐标系中的位置坐标,在模型计算完成后,输出g(XUAV)作为飞行环境对无人机的影响值。
5、基于DDPG算法的无人机自主引导控制方法。
5.1、构建评价网络Q(s,a)、策略网络μ(s)和相应的目标网络Q′(s,a)、μ′(s)。在本实例实施过程中,Q(s,a)和Q′(s,a)网络结构为三层,输入为s和a,中间层由64个神经元构成,输出为Q值,激活函数都为ReLU函数;μ(s)和μ′(s)网络结构为三层,输入层为s,中间层由64个神经元构成,激活函数为ReLU函数,输出层为a,激活函数为tanh函数。
5.2、对状态空间
Figure BDA0002197687410000115
和状态s,动作空间
Figure BDA0002197687410000114
和动作a,收益r和经验
Figure BDA0002197687410000116
进行定义。
状态s为一个六维向量,并且如式(23)所示:
Figure BDA0002197687410000126
式中,x,y,z代表无人机在地理坐标系中的位置,单位为m,v为无人机速度标量,单位为m/s,θ,ψc为无人机航迹倾斜角和航迹偏转角,单位为°。
动作a为一个三维向量,并且
Figure BDA0002197687410000127
如式(24)所示:
Figure BDA0002197687410000128
式中,Nx和Ny分别代表无人机切向过载与法向过载,无单位,γc为无人机速度轴系倾斜角,单位为°。
收益r考虑飞行环境对无人机的影响值和无人机与终点的距离,定义如式(25):
r=-(g(XUAV)+p(XUAV)) (25)
式中,g(XUAV)为无人机所受飞行环境的影响值,p(XUAV)为无人机与终点的距离,r为无人机当前的收益。p(XUAV)的计算如式(26):
Figure BDA0002197687410000121
式中,(xUAV,yUAV,zUAV)为无人机在地理坐标系中的位置坐标,(xstart,ystart,zstart)为在地理坐标系中的起点坐标,(xend,yend,zend)为在地理坐标系中的终点坐标。
回放经验
Figure BDA0002197687410000129
用于储存无人机所有的经验数据,定义如式(27):
式中,s为当前状态,a为当前状态下无人机所选的动作,r为无人机执行a后所得的收益,s′为无人机执行a后的状态
Figure BDA0002197687410000123
6、对评价网络Q(s,a)和策略网络μ(s)进行训练。如图所示为DDPG算法结构图。
6.1、初始化存储区域D用于存储经验数据并根据第5步中的内容初始化 Q(s,a;θQ)、Q′(s,a;θQ′)、μ(s;θμ)和μ′(s;θμ′)。
6.2、开始训练M个周期,每周期内训练T个回合。开始训练前设置已训练周期数m和已训练回合数t为0。
在每个训练回合中,首先根据式(28)和式(29)由μ(s)和
Figure BDA0002197687410000124
生成动作at
Figure BDA0002197687410000131
dxt=θ(μ-xt)dt+σdWt (29)
将at作用于环境,然后,将本次的状态数据s、动作数据a、收益r和下一时刻状态s′,即(s,a,r,s′)存入D中。
随后在D中抽样得到一组样本,利用这些样本分别根据式(30)和式(31)采用Adam法更新Q网络参数θQ和μ网络参数θμ
Figure BDA0002197687410000133
最后,根据式(32)更新目标网络Q′(s,a)和μ′(s)的参数θQ′和θμ′,式中一般取τ∈[0.05,0.1]。
Figure BDA0002197687410000134
参数θQ′和θμ′更新完成后,则t=t+1,即本回合训练结束,开始下回合训练,重复本环节中所述内容。
6.3、当完成T个回合单步训练(即t=T)后,则m=m+1,即开始下一个周期的训练。当M周期训练结束(即m=M)后,则μ′(s;θμ′)网络为训练结果,可以直接用于无人机的控制。
7、训练完成后,使用μ′(s;θμ′)网络作为无人机飞行控制外环控制器,控制无人机的两向过载Nx、Ny和无人机速度倾斜角γc
本方法结合深度强化学习方法-深度确定性策略梯度算法(DDPG),针对不确定环境下的无人机自主引导控制问题,提出了基于DDPG的无人机自主引导控制方法。采用本发明中所设计的方法,训练结果具有一定的泛化能力,无人机可以实现自主飞行,安全并快速地从起点飞到终点,极大地增强了无人机在执行任务过程中的自主性,提高了无人机执行任务的效率。

Claims (7)

1.一种基于DDPG的无人机自主引导控制方法,其特征在于包括以下步骤:
1)建立无人机三自由度运动模型;
2)建立无人机机动控制模型;
3)建立基准地形三维模型和山峰三维模型;
4)计算无人机当前位置下所受地形障碍影响程度值;
5)构建评价网络Q(s,a)、策略网络μ(s)和相应的目标网络Q′(s,a)、μ′(s),所述的四个网络均属于深度神经网络;Q(s,a)、Q′(s,a)和μ(s)、μ′(s)分别采用相同的参数进行初始化;
分别对Q(s,a)、Q′(s,a)、μ(s)和μ′(s)的参数进行定义,Q(s,a)网络和Q′(s,a)网络采用三层网络,每层之间神经元两两连接,激活函数使用线性整流函数ReLU;μ(s)网络和μ′(s)网络采用三层网络,每层之间神经元两两连接,激活函数使用双曲正切函数tanh;
定义状态空间
Figure FDA0002197687400000011
式中,x,y,z为无人机在地理坐标系中的位置,v为无人机的速度标量,θ为无人机航迹倾斜角,ψc为无人机航迹偏转角;
定义动作空间
Figure FDA0002197687400000012
式中,Nx为无人机在飞机坐标系中的切向过载,Ny为无人机在飞机坐标系中的法向过载,γc为无人机的速度轴系倾斜角;
定义收益r=-(g(XUAV)+p(XUAV)),式中,g(XUAV)为无人机所受飞行环境的影响值,p(XUAV)为无人机与终点的距离,r为无人机当前的收益;
定义回放经验式中,s为当前状态,a为当前状态下无人机所选的动作,r为无人机执行a后所得的收益,s′为无人机执行a后的状态;
6)对评价网络Q(s,a)和策略网络μ(s)进行训练;
7)使用训练结果μ′(s;θμ′)网络作为无人机飞行控制外环控制器,控制无人机的两向过载Nx、Ny和无人机速度倾斜角γc
2.根据权利要求1所述的基于DDPG的无人机自主引导控制方法,其特征在于:所述的无人机三自由度运动模型
Figure FDA0002197687400000021
式中,Nx为无人机在飞机坐标系中的切向过载,Ny为飞机坐标系中的法向过载,v为无人机速度,θ为无人机航迹倾斜角,ψc为无人机航迹偏转角,γc为速度倾斜角,x、y和z为无人机在地理坐标系中的三向坐标,m为无人机质量,g为重力加速度。
3.根据权利要求1所述的基于DDPG的无人机自主引导控制方法,其特征在于:所述的无人机机动控制模型
Figure FDA0002197687400000022
式中,Nx为无人机在飞机坐标系中的切向过载,Ny为飞机坐标系中的法向过载,P为发动机推力,Y为无人机所受空气升力,Q为无人机所受空气阻力,m为无人机质量,g为重力加速度。
4.根据权利要求1所述的基于DDPG的无人机自主引导控制方法,其特征在于:所述的基准地形三维模型
Figure FDA0002197687400000023
式中,h(x,y)为(x,y)点对应的地面海拔高度,x的正方向为正东方向,y的正方向为正北方向,h的正方向指向天空,a、b、c、d、e、f和g为常系数,控制基准地形起伏。
5.根据权利要求1所述的基于DDPG的无人机自主引导控制方法,其特征在于:所述的山峰三维模型
Figure FDA0002197687400000024
式中,z为(x,y)点对应的山峰高度,hi为山峰海拔高度,(xi,yi)为山峰中心位置,(xsi,ysi)为山峰在x和y方向上的坡度,n为山峰个数。
6.根据权利要求1所述的基于DDPG的无人机自主引导控制方法,其特征在于:所述的无人机当前位置下所受地形障碍影响程度值式中XUAV和(xUAV,yUAV,zUAV)为无人机在地理坐标系中的位置坐标,
Figure FDA0002197687400000032
7.根据权利要求1所述的基于DDPG的无人机自主引导控制方法,其特征在于:所述的步骤6)首先初始化存储区域D用于存储经验数据
Figure FDA0002197687400000033
并初始化Q(s,a;θQ)、Q′(s,a;θQ′)、μ(s;θμ)和μ′(s;θμ′)的拓扑结构和节点内使用的激活函数类型;然后设置已训练周期数m和已训练回合数t为0,开始训练M个周期,每个周期中包含T个回合单步训练;在每回合中,选择当前最优的动作
Figure FDA0002197687400000034
Figure FDA0002197687400000035
为一种随机过程,采用奥恩斯坦-乌伦贝克过程;将at作为无人机的控制输入后,从环境中得到当前的收益rt和下一时刻状态st+1,然后将(st,at,rt,st+1)存入
Figure FDA0002197687400000036
中;随后从中随机抽样得到一组历史数据,将作为目标函数采用Adam算法对Q(s,a;θQ)的参数θQ进行优化,同时,采用Adam算法对μ(s;θμ)的参数θμ进行优化;最后,对Q′(s,a;θQ′)和μ′(s;θμ′)的参数θQ′和θμ′分别更新为τθQ+(1-τ)θQ′和τθμ+(1-τ)θμ′,τ<<1;当完成T个回合单步训练后,即开始下一个周期的训练,当M个周期训练结束后,则μ′(s;θμ′)网络为训练结果。
CN201910853746.XA 2019-09-10 2019-09-10 基于ddpg的无人机自主引导控制方法 Active CN110806756B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910853746.XA CN110806756B (zh) 2019-09-10 2019-09-10 基于ddpg的无人机自主引导控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910853746.XA CN110806756B (zh) 2019-09-10 2019-09-10 基于ddpg的无人机自主引导控制方法

Publications (2)

Publication Number Publication Date
CN110806756A true CN110806756A (zh) 2020-02-18
CN110806756B CN110806756B (zh) 2022-08-02

Family

ID=69487565

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910853746.XA Active CN110806756B (zh) 2019-09-10 2019-09-10 基于ddpg的无人机自主引导控制方法

Country Status (1)

Country Link
CN (1) CN110806756B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460650A (zh) * 2020-03-31 2020-07-28 北京航空航天大学 一种基于深度强化学习的无人机端到端控制方法
CN111487864A (zh) * 2020-05-14 2020-08-04 山东师范大学 一种基于深度强化学习的机器人路径导航方法及系统
CN111624886A (zh) * 2020-06-05 2020-09-04 沈阳航空航天大学 一种基于sarsa的变循环航空发动机推力控制方法
CN111880563A (zh) * 2020-07-17 2020-11-03 西北工业大学 一种基于maddpg的多无人机任务决策方法
CN112019249A (zh) * 2020-10-22 2020-12-01 中山大学 一种基于深度强化学习的智能反射面调控方法及装置
CN112068590A (zh) * 2020-08-21 2020-12-11 广东工业大学 无人机基站飞行规划方法、系统、储存介质及无人机基站
CN112198870A (zh) * 2020-06-01 2021-01-08 西北工业大学 基于ddqn的无人机自主引导机动决策方法
CN112286218A (zh) * 2020-12-29 2021-01-29 南京理工大学 基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法
CN112947421A (zh) * 2021-01-28 2021-06-11 西北工业大学 一种基于强化学习的auv自主避障方法
CN113110516A (zh) * 2021-05-20 2021-07-13 广东工业大学 一种深度强化学习的受限空间机器人作业规划方法
CN113485443A (zh) * 2021-08-10 2021-10-08 北京宇系航通科技有限公司 基于深度学习的无人机控制方法、存储介质及设备
CN113570040A (zh) * 2021-07-27 2021-10-29 南京航空航天大学 一种基于进化策略的多域行动序列智能优化系统及方法
CN115097853A (zh) * 2022-05-18 2022-09-23 中国航空工业集团公司沈阳飞机设计研究所 一种基于细粒度重复策略的无人机机动飞行控制方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170074539A (ko) * 2015-12-22 2017-06-30 한국항공대학교산학협력단 딥 러닝을 이용한 무인기 비행 제어 시스템 및 방법
CN108319286A (zh) * 2018-03-12 2018-07-24 西北工业大学 一种基于强化学习的无人机空战机动决策方法
CN108803321A (zh) * 2018-05-30 2018-11-13 清华大学 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
CN108919640A (zh) * 2018-04-20 2018-11-30 西北工业大学 无人机自适应多目标跟踪的实现方法
CN109597425A (zh) * 2018-10-18 2019-04-09 中国航空无线电电子研究所 基于强化学习的无人机导航和避障方法
CN109696830A (zh) * 2019-01-31 2019-04-30 天津大学 小型无人直升机的强化学习自适应控制方法
CN109933086A (zh) * 2019-03-14 2019-06-25 天津大学 基于深度q学习的无人机环境感知与自主避障方法
CN109934332A (zh) * 2018-12-31 2019-06-25 中国科学院软件研究所 基于评论家和双经验池的深度确定性策略梯度学习方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170074539A (ko) * 2015-12-22 2017-06-30 한국항공대학교산학협력단 딥 러닝을 이용한 무인기 비행 제어 시스템 및 방법
CN108319286A (zh) * 2018-03-12 2018-07-24 西北工业大学 一种基于强化学习的无人机空战机动决策方法
CN108919640A (zh) * 2018-04-20 2018-11-30 西北工业大学 无人机自适应多目标跟踪的实现方法
CN108803321A (zh) * 2018-05-30 2018-11-13 清华大学 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
CN109597425A (zh) * 2018-10-18 2019-04-09 中国航空无线电电子研究所 基于强化学习的无人机导航和避障方法
CN109934332A (zh) * 2018-12-31 2019-06-25 中国科学院软件研究所 基于评论家和双经验池的深度确定性策略梯度学习方法
CN109696830A (zh) * 2019-01-31 2019-04-30 天津大学 小型无人直升机的强化学习自适应控制方法
CN109933086A (zh) * 2019-03-14 2019-06-25 天津大学 基于深度q学习的无人机环境感知与自主避障方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHAO WANG,等: "AUTONOMOUS NAVIGATION OF UAV IN LARGE-SCALE UNKNOWN COMPLEX ENVIRONMENT WITH DEEP REINFORCEMENT LEARNING", 《IEEE》 *
TIMOTHY P.LILLICRAP,等: "CONTINUOUS CONTROL WITH DEEP REINFORCEMENT Learning", 《ARXIV》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460650A (zh) * 2020-03-31 2020-07-28 北京航空航天大学 一种基于深度强化学习的无人机端到端控制方法
CN111487864A (zh) * 2020-05-14 2020-08-04 山东师范大学 一种基于深度强化学习的机器人路径导航方法及系统
CN112198870A (zh) * 2020-06-01 2021-01-08 西北工业大学 基于ddqn的无人机自主引导机动决策方法
CN112198870B (zh) * 2020-06-01 2022-09-02 西北工业大学 基于ddqn的无人机自主引导机动决策方法
CN111624886B (zh) * 2020-06-05 2022-04-08 沈阳航空航天大学 一种基于sarsa的变循环航空发动机推力控制方法
CN111624886A (zh) * 2020-06-05 2020-09-04 沈阳航空航天大学 一种基于sarsa的变循环航空发动机推力控制方法
CN111880563A (zh) * 2020-07-17 2020-11-03 西北工业大学 一种基于maddpg的多无人机任务决策方法
CN111880563B (zh) * 2020-07-17 2022-07-15 西北工业大学 一种基于maddpg的多无人机任务决策方法
CN112068590A (zh) * 2020-08-21 2020-12-11 广东工业大学 无人机基站飞行规划方法、系统、储存介质及无人机基站
CN112019249A (zh) * 2020-10-22 2020-12-01 中山大学 一种基于深度强化学习的智能反射面调控方法及装置
CN112286218B (zh) * 2020-12-29 2021-03-26 南京理工大学 基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法
CN112286218A (zh) * 2020-12-29 2021-01-29 南京理工大学 基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法
CN112947421A (zh) * 2021-01-28 2021-06-11 西北工业大学 一种基于强化学习的auv自主避障方法
CN113110516A (zh) * 2021-05-20 2021-07-13 广东工业大学 一种深度强化学习的受限空间机器人作业规划方法
CN113110516B (zh) * 2021-05-20 2023-12-22 广东工业大学 一种深度强化学习的受限空间机器人作业规划方法
CN113570040A (zh) * 2021-07-27 2021-10-29 南京航空航天大学 一种基于进化策略的多域行动序列智能优化系统及方法
CN113485443A (zh) * 2021-08-10 2021-10-08 北京宇系航通科技有限公司 基于深度学习的无人机控制方法、存储介质及设备
CN113485443B (zh) * 2021-08-10 2023-12-22 北京北航天宇长鹰无人机科技有限公司 基于深度学习的无人机控制方法、存储介质及设备
CN115097853A (zh) * 2022-05-18 2022-09-23 中国航空工业集团公司沈阳飞机设计研究所 一种基于细粒度重复策略的无人机机动飞行控制方法

Also Published As

Publication number Publication date
CN110806756B (zh) 2022-08-02

Similar Documents

Publication Publication Date Title
CN110806756B (zh) 基于ddpg的无人机自主引导控制方法
CN110531786B (zh) 基于dqn的无人机机动策略自主生成方法
CN108319286B (zh) 一种基于强化学习的无人机空战机动决策方法
Cheng et al. Path planning and obstacle avoidance for AUV: A review
CN110673620B (zh) 一种基于深度强化学习的四旋翼无人机航线跟随控制方法
CN111880567B (zh) 基于深度强化学习的固定翼无人机编队协调控制方法及装置
CN110502033B (zh) 一种基于强化学习的固定翼无人机群集控制方法
CN110488859B (zh) 一种基于改进Q-learning算法的无人机航路规划方法
CN109625333B (zh) 一种基于深度增强学习的空间非合作目标捕获方法
Nie et al. Three-dimensional path-following control of a robotic airship with reinforcement learning
CN112650058B (zh) 一种基于强化学习的四旋翼无人机轨迹控制方法
An et al. Task planning and collaboration of jellyfish-inspired multiple spherical underwater robots
CN114253296A (zh) 高超声速飞行器机载轨迹规划方法、装置、飞行器及介质
CN115755956B (zh) 一种知识与数据协同驱动的无人机机动决策方法与系统
CN116242364A (zh) 一种基于深度强化学习的多无人机智能导航方法
CN115033022A (zh) 面向移动平台基于专家经验的ddpg无人机降落方法
CN115903865A (zh) 一种飞行器近距空战机动决策实现方法
CN115903888A (zh) 一种基于天牛群算法的旋翼无人机自主路径规划方法
Deshpande et al. Developmental reinforcement learning of control policy of a quadcopter UAV with thrust vectoring rotors
CN114518770A (zh) 一种电势场和深度强化学习融合的无人机路径规划方法
CN109375642B (zh) 一种无人机节能控制方法
CN114089776A (zh) 一种基于深度强化学习的无人机避障方法
Chen et al. Deep reinforcement learning based strategy for quadrotor UAV pursuer and evader problem
CN114355980B (zh) 基于深度强化学习的四旋翼无人机自主导航方法与系统
CN113050420B (zh) 基于s面控制和td3的auv路径跟踪方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant