CN110531786B - 基于dqn的无人机机动策略自主生成方法 - Google Patents

基于dqn的无人机机动策略自主生成方法 Download PDF

Info

Publication number
CN110531786B
CN110531786B CN201910853736.6A CN201910853736A CN110531786B CN 110531786 B CN110531786 B CN 110531786B CN 201910853736 A CN201910853736 A CN 201910853736A CN 110531786 B CN110531786 B CN 110531786B
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
overload
training
theta
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910853736.6A
Other languages
English (en)
Other versions
CN110531786A (zh
Inventor
张堃
李珂
时昊天
赵�权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN201910853736.6A priority Critical patent/CN110531786B/zh
Publication of CN110531786A publication Critical patent/CN110531786A/zh
Application granted granted Critical
Publication of CN110531786B publication Critical patent/CN110531786B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft

Abstract

本发明提供了一种基于DQN的无人机机动策略自主生成方法,分别建立无人机三自由度运动模型、无人机机动控制模型、基准地形三维模型和山峰三维模型;计算无人机当前位置下所受地形障碍影响程度值;构建评价网络和目标网络,对评价网络进行训练;使用训练结果作为无人机飞行控制外环控制器,控制无人机的两向过载和无人机速度倾斜角。本发明将深度强化学习方法和无人机的制导与控制机动策略进行结合,在离线仿真环境中进行学习训练,达到要求后再进行实际应用,极大地增强了无人机在执行任务过程中的自主性,提高了无人机执行任务的效率。

Description

基于DQN的无人机机动策略自主生成方法
技术领域
本发明涉及飞行机动策略和人工智能领域,尤其涉及一种无人机机动策略自主生成方法。
背景技术
近年来,随着无人机技术的发展,无人机的性能飞速提高,不论是军用无人机还是民用无人机,各种新技术层出不穷。其中,提高无人机自主飞行能力,降低人为干预,避免人为失误,是各国无人机科研人员的研究重点。传统的无人机飞行导引通常在获取到需求任务区域内应飞航迹后,在飞行过程中通过控制无人机的机动策略,使之沿应飞航线飞行。传统的无人机的机动决策基于微分对策、矩阵博弈、动态规划、神经网络、专家系统、动态贝叶斯网络、影响图以及轨迹预测等方法。但是,当环境发生较大改变时,上述方法均没有自主解决突发事件的能力,只有无人机操纵者进行手动干预后,无人机才能继续完成任务,该过程极大地影响了无人机执行任务的效率。近年来,由于在电子技术方面的突破性进步,人工智能技术飞速发展,各种人工智能算法不断应用到控制领域。例如,Google公司的DeepMind人工智能小组,创新性地将深度强化学习方法应用到人形机器人的步态控制上并取得了成功;OpenAI实验室基于进化策略方法设计了一系列控制算法并成功商用。深度强化学习是多门学科多个领域交叉结合的产物,最早可以追溯到巴普洛夫的条件反射实验,但直到上世纪九十年代才逐渐被人们应用于自动控制、机器学习等领域。2015年,DeepMind(Google)在《Nature》上发布了深度Q学习算法(DeepQLearning,DQN),它是第一个成功地将深度学习和强化学习结合起来的模型。DQN的经验回放策略打破了传统强化学习样本的前后关联性,大大提高了学习效果。
发明内容
为了克服现有技术的不足,本发明提供一种基于DQN的无人机机动策略自主生成方法,在仿真环境中进行训练,训练成功后无人机可以自主生成机动策略,选择合理的机动动作,能够实现自主进行机动躲避障碍物,安全快速地从起点飞向终点,有效提升无人机自主飞行能力。
本发明解决其技术问题所采用的技术方案包括以下步骤:
1)建立无人机三自由度运动模型;
2)建立无人机机动控制库;
3)建立基准地形三维模型和山峰三维模型;
4)计算无人机当前位置下所受地形障碍影响程度值;
5)构建评价网络Q(s,a)与目标网络Q′(s,a),所述两个网络均属于深度神经网络;Q(s,a)和Q′(s,a)两个网络采用相同的参数进行初始化;
Q(s,a)网络和Q′(s,a)网络采用三层网络,每层之间神经元两两连接,激活函数使用线性整流函数ReLU;
定义状态空间
Figure BDA0002197686620000023
式中,x,y,z为无人机在地理坐标系中的位置,v为无人机的速度标量,θ为无人机航迹倾斜角,ψc为无人机航迹偏转角;
定义动作空间
Figure BDA0002197686620000021
包括了飞机基本操作动作库中的7种基本机动ai,a=[Nx,Nyc],Nx为无人机在飞机坐标系中的切向过载,Ny为无人机在飞机坐标系中的法向过载,γc为无人机的速度轴系倾斜角;
定义收益r=-(g(XUAV)+p(XUAV)),g(XUAV)为无人机所受飞行环境的影响值, p(XUAV)为无人机与终点的距离,r为无人机当前的收益;
定义回放经验
Figure BDA0002197686620000022
式中,s为当前状态,a为当前状态下无人机所选的动作,r为无人机执行a后所得的收益,s′为无人机执行a后的状态;
6)对评价网络Q(s,a)进行训练;
7)使用训练结果Q′(s,a;θ-)网络作为无人机飞行控制外环控制器,周期性地选择无人机的机动动作,从而进一步控制无人机的两向过载Nx、Ny和无人机速度倾斜角γc
所述的无人机三自由度运动模型
Figure BDA0002197686620000031
式中,Nx为无人机在飞机坐标系中的切向过载,Ny为飞机坐标系中的法向过载,v为无人机速度,θ为无人机航迹倾斜角,ψc为无人机航迹偏转角,γc为速度倾斜角,x、y和z为无人机在地理坐标系中的三向坐标,m为无人机质量,g为重力加速度。
所述的无人机机动控制库包括了最大过载左转、最大过载右转、控制不变、最大减速、最大加速、最大过载拉起和最大过载俯冲;机动动作使用无人机切向过载Nx、法向过载Ny和速度倾斜角γc进行定义,
Figure BDA0002197686620000032
式中,Nx为无人机在飞机坐标系中的切向过载,Ny为飞机坐标系中的法向过载,P为发动机推力,Y为无人机所受空气升力,Q为无人机所受空气阻力,m为无人机质量,g为重力加速度。
所述的基准地形三维模型
Figure BDA0002197686620000033
式中, h(x,y)为(x,y)点对应的地面海拔高度,x的正方向为正东方向,y的正方向为正北方向, h的正方向指向天空,a、b、c、d、e、f和g为常系数,控制基准地形起伏。
所述的山峰三维模型
Figure BDA0002197686620000034
式中,z为(x,y)点对应的山峰高度,hi为山峰海拔高度,(xi,yi)为山峰中心位置,(xsi,ysi)为山峰在x和y方向上的坡度, n为山峰个数。
所述的无人机当前位置下所受地形障碍影响程度值
Figure BDA0002197686620000041
式中XUAV和(xUAV,yUAV,zUAV)为无人机在地理坐标系中的位置坐标,
Figure BDA0002197686620000042
所述的步骤6)首先初始化存储区域D用于存储经验数据
Figure BDA0002197686620000043
并初始化Q(s,a;θ)和Q′(s,a;θ-)的拓扑结构和节点内使用的激活函数类型;然后设置已训练周期数m和已训练回合数t为0,开始学习训练M个周期,每个周期中包含T回合单步训练;在每回合中,选取当前最优的动作
Figure BDA0002197686620000044
将at作为无人机的控制输入后得到当前的收益rt和下一时刻状态st+1,然后将(st,at,rt,st+1)存入
Figure BDA0002197686620000045
中;随后从
Figure BDA0002197686620000046
中随机抽样得到一组历史数据,利用抽样数据对Q(s,a;θ)使用随机下降法进行优化,目标函数
Figure BDA0002197686620000047
重复训练更新Q(s,a;θ)的参数θ,每过C步利用参数θ更新Q′(s,a;θ-)的参数θ-;当完成T个回合单步训练后,即开始下一个周期的训练,当M个周期训练结束后,则Q′(s,a;θ-)网络为训练结果。
本发明的有益效果是:创新性地将深度强化学习方法和无人机的制导与控制机动策略进行结合,该方法在离线仿真环境中进行学习训练,达到要求后再进行实际应用。由于深度强化学习的应用,该方法极大地增强了无人机在执行任务过程中的自主性,提高了无人机执行任务的效率。
附图说明
图1是无人机机动策略自主生成问题描述示意图;
图2是强化学习典型模型示意图;
图3是DQN算法结构图;
图4是Q(s,a)网络结构示意图。
具体实施方式
本发明针对无人机机动策略自主生成问题,提出基于DQN的无人机机动策略自主生成方法,实现无人机能够有效选择自身机动策略,满足飞行需求,提升无人机自主飞行能力。
本发明的实现过程包括以下步骤:
1、建立无人机三自由度运动模型。
Figure BDA0002197686620000051
式中,Nx为无人机在飞机坐标系中的切向过载,Ny为飞机坐标系中的法向过载,v为无人机速度,θ为无人机航迹倾斜角,ψc为无人机航迹偏转角,γc为速度倾斜角,x、 y和z为无人机在地理坐标系中的三向坐标,m为无人机质量,g为重力加速度。
2、建立无人机机动控制库,无人机机动库使用飞机基本操作动作库,包括了最大过载左转、最大过载右转、控制不变、最大减速、最大加速、最大过载拉起和最大过载俯冲。机动动作使用无人机切向过载Nx、法向过载Ny和速度倾斜角γc进行定义。如式(2)为切向过载Nx、法向过载Ny的定义。
Figure BDA0002197686620000052
式中P为发动机推力,Y为无人机所受空气升力,Q为无人机所受空气阻力。
3、建立基准地形和山峰等三维环境模型。
建立基准地形模拟模型,本发明采用数学方法对基准地形进行模拟,如式(3)所示为基准地形生成公式。
Figure BDA0002197686620000061
式中h(x,y)为(x,y)点对应的地面海拔高度,x的正方向为正东方向,y的正方向为正北方向,h的正方向指向天空,当x、y和h均为0时,为地理坐标系原点,a、b、c、d、 e、f和g为常系数,这些参数控制基准地形起伏。
建立山峰模拟模型,本发明中采用指数函数对山峰进行描述,如式(4)所示。
Figure BDA0002197686620000062
式中z为(x,y)点对应的山峰高度,用(hi,xi,yi,xsi,ysi)描述第i个山峰的高低、坡度等属性,hi为山峰海拔高度,(xi,yi)为山峰中心位置,(xsi,ysi)为山峰在x和y方向上的坡度, n为山峰个数。
4、计算无人机当前位置下所受地形障碍影响程度值。
本发明中,以无人机离地面距离远近描述无人机所受地形障碍的影响程度值,如式(5)所示。
Figure BDA0002197686620000063
式中XUAV和(xUAV,yUAV,zUAV)为无人机在地理坐标系中的位置坐标,g(XUAV)为无人机所受飞行环境的影响值。在模型计算完成后,输出g(XUAV)作为飞行环境对无人机的影响值。
5、基于DQN算法的无人机机动策略自主生成方法。
5.1、构建评价网络Q(s,a)与目标网络Q′(s,a),在本专利中,两个神经网络均属于深度神经网络(DNN)。此外,Q(s,a)和Q′(s,a)两个网络采用相同的参数进行初始化,即在训练前,Q′(s,a)由Q(s,a)复制得到。
在本环节中,对Q(s,a)和Q′(s,a)的参数进行定义。Q(s,a)网络(或Q′(s,a)网络)采用如图所示结构搭建,即三层网络,每层之间神经元两两连接,激活函数使用线性整流函数ReLU,如式(6)所示。
Figure BDA0002197686620000071
5.2、对状态空间
Figure BDA00021976866200000710
动作空间
Figure BDA0002197686620000072
收益r和经验
Figure BDA0002197686620000073
进行定义。
状态空间
Figure BDA00021976866200000711
使用无人机状态进行描述,定义如式(7):
Figure BDA0002197686620000074
式中,x,y,z为无人机在地理坐标系中的位置,v为无人机的速度标量,θ为无人机航迹倾斜角,ψc为无人机航迹偏转角,距离单位为m,速度单位为m/s,角度单位为°。
动作空间
Figure BDA0002197686620000075
包括了飞机基本操作动作库中的7种基本机动,定义如式(8):
Figure BDA0002197686620000076
式中ai表示第i种机动,定义如式(9):
a=[Nx,Nyc] (9)
式中,Nx为无人机在飞机坐标系中的切向过载,Ny为无人机在飞机坐标系中的法向过载,γc为无人机的速度轴系倾斜角。
收益r考虑飞行环境对无人机的影响值和无人机与终点(任务起点、终点位置由实际任务决定)的距离,定义如式(10):
r=-(g(XUAV)+p(XUAV)) (10)
式中,g(XUAV)为无人机所受飞行环境的影响值,p(XUAV)为无人机与终点的距离,r为无人机当前的收益。p(XUAV)的计算如式(11):
Figure BDA0002197686620000077
式中,(xUAV,yUAV,zUAV)为无人机在地理坐标系中的位置坐标,(xstart,ystart,zstart)为在地理坐标系中的起点坐标,(xend,yend,zend)为在地理坐标系中的终点坐标。
回放经验
Figure BDA0002197686620000078
用于储存无人机所有的经验数据,定义如式(12):
Figure BDA0002197686620000079
式中,s为当前状态,a为当前状态下无人机所选的动作,r为无人机执行a后所得的收益,s′为无人机执行a后的状态
Figure BDA0002197686620000081
6、对评价网络Q(s,a)进行训练。
6.1、初始化存储区域D用于存储经验数据
Figure BDA0002197686620000082
并初始化Q(s,a;θ)和Q′(s,a;θ-),主要初始化两个网络的拓扑结构和节点内使用的激活函数类型等。网络拓扑结构主要是网络的层数和各层内的节点个数,节点内使用的激活函数可以是Sigmoid、tanh和 ReLU等函数。
6.2、开始学习训练M个周期,由于训练过程基于马尔可夫过程,所以在一个周期中又包含了T回合单步训练。开始训练前设置已训练周期数m和已训练回合数t为 0。
在每回合中,先根据贪婪策略或其他策略选取当前最优的动作at,如式(13)所示:
Figure BDA0002197686620000083
将at作为无人机的控制输入后得到当前的收益rt和下一时刻状态st+1,然后将(st,at,rt,st+1)存入
Figure BDA0002197686620000084
中。
随后从
Figure BDA0002197686620000085
中随机抽样得到一组历史数据,利用这些数据对Q(s,a;θ)使用随机下降法进行优化,目标函数如式(14):
Figure BDA0002197686620000086
Q(s,a;θ)的参数θ更新完成后,则t=t+1,即本回合训练结束,开始下回合训练,重复本环节中所述内容。同时,每过C步利用Q(s,a;θ)的参数θ更新Q′(s,a;θ-)的参数θ-
6.3、当完成T个回合单步训练(即t=T)后,则m=m+1,即开始下一个周期的训练。当M个周期训练结束(即m=M)后,则Q′(s,a;θ-)网络为训练结果,可以直接用于无人机的机动策略生成。
7、训练完成后,使用Q′(s,a;θ-)网络作为无人机飞行控制外环控制器,周期性地选择无人机的机动动作,从而进一步控制无人机的两向过载Nx、Ny和无人机速度倾斜角γc
如表1所示为无人机机动策略自主生成方法的训练流程。
表1无人机机动策略自主生成方法训练流程
Figure BDA0002197686620000091
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
1、基于式(15)建立无人机运动模型后,根据实际无人机的生产规格设置无人机模型的部分参数和约束条件,包括了无人机重量m,最小、最大飞行速度(本实例中考虑设为[200m/s,400m/s]),最大爬升角、最大俯冲角(本实例中考虑设为[-60°,70°]),最大转弯半径(本实例中考虑设为1km)。在仿真时,无人机速度应大于最小飞行速度,小于最大飞行速度,无人机航迹倾斜角应被限制在最大爬升角和最大俯冲角之间,无人机航迹偏转角应满足最大转弯半径的约束。
Figure BDA0002197686620000101
2、搭建无人机机动控制库,无人机机动库使用飞机基本操作动作库,包括了最大过载左转、最大过载右转、控制不变、最大减速、最大加速、最大过载拉起和最大过载俯冲。机动动作使用无人机切向过载Nx、法向过载Ny和速度倾斜角γc进行定义。如式(16)为切向过载Nx、法向过载Ny的定义。
Figure BDA0002197686620000102
式中P为发动机推力,Y为无人机所受空气升力,Q为无人机所受空气阻力。
如表2所示为无人机机动库的定义,第一列代表第i个机动,从1~7依次为最大过载左转、最大过载右转、控制不变、最大减速、最大加速、最大过载拉起和最大过载俯冲,第二列为切向过载取值,第三列为法向过载取值,均为无量纲值,第四列为速度倾斜角取值,单位为角度(°)。表中,Cx代表无人机推力最大时的切向过载,
Figure BDA0002197686620000103
代表无人机推力最小时的切向过载,Cy代表无人机以最大转弯半径转弯时所产生的法向过载(本实例中,
Figure BDA0002197686620000104
Cx=5.0,Cy=7.0)。
表2无人机机动库定义
Figure BDA0002197686620000111
3、建立基准地形和山峰等三维环境模型。如图1所示为无人机机动策略自主生成方法的典型训练环境,在本实例中,设置较为平缓的地面基准海拔,设置5个山峰,起点位于环境中左侧,终点位于环境中右侧,地理坐标系原点设置在飞行环境左下角。本实例的目标是实现无人机自主从起点安全快速地飞向终点。
针对地面海拔,采用数学方法进行模拟,如式(17)所示为地面海拔模拟生成公式。
Figure BDA0002197686620000112
式中的参数a、b、c、d、e、f和g分别可取10~15,0.2~0.6,0.1~0.5,0.6~1.5,1~5, 0.1~0.8,0.1~0.8。
山峰采用指数函数进行描述,其数学模型如式(18)所示。
Figure BDA0002197686620000113
式中xsi,ysi一般取10~30。
4、计算无人机当前位置下所受地形障碍影响程度值。
如式(19)所示,以无人机离地面距离远近描述无人机所受地形障碍的影响程度。
Figure BDA0002197686620000121
式中XUAV和(xUAV,yUAV,zUAV)为无人机在地理坐标系中的位置坐标,在模型计算完成后,输出g(XUAV)作为飞行环境对无人机的影响值。
5、基于DQN算法的无人机机动策略自主生成方法。
5.1、构建评价网络Q(s,a;θ)和Q′(s,a;θ-)。在本实例实施过程中,Q(s,a;θ)和 Q′(s,a;θ-)网络为两层架构,包括输入层和输出层,输入层由32个神经元组成,输入为当前状态量s和动作序号a(
Figure BDA0002197686620000122
此处直接用0~6数字代替7种机动动作),激活函数为ReLU函数;输出层由8个神经元构成,激活函数为tanh函数,输出为当前状态量s和动作序号a所对应的Q值。
5.2、对状态空间
Figure BDA00021976866200001210
和状态s,动作空间
Figure BDA0002197686620000123
和动作a,收益r和经验
Figure BDA0002197686620000124
进行定义。
状态s为一个六维向量,并且
Figure BDA0002197686620000125
如式(20)所示:
Figure BDA0002197686620000126
式中,x,y,z代表无人机在地理坐标系中的位置,单位为m,v为无人机速度标量,单位为m/s,θ,ψc为无人机航迹倾斜角和航迹偏转角,单位为°。
动作空间
Figure BDA0002197686620000127
包括了飞机基本操作动作库中的7种基本机动,定义如式(21):
Figure BDA0002197686620000128
动作ai实际为一个三维向量,并且
Figure BDA0002197686620000129
ai向量内容如式(22)所示:
a=[Nx,Nyc] (22)
式中,Nx和Ny分别代表无人机切向过载与法向过载,无单位,γc为无人机速度轴系倾斜角,单位为°。
收益r考虑飞行环境对无人机的影响值和无人机与终点的距离,定义如式(23):
r=-(g(XUAV)+p(XUAV)) (23)
式中,g(XUAV)为无人机所受飞行环境的影响值,p(XUAV)为无人机与终点的距离,r为无人机当前的收益。p(XUAV)的计算如式(24):
Figure BDA0002197686620000131
式中,(xUAV,yUAV,zUAV)为无人机在地理坐标系中的位置坐标,(xstart,ystart,zstart)为在地理坐标系中的起点坐标,(xend,yend,zend)为在地理坐标系中的终点坐标。
回放经验
Figure BDA0002197686620000137
用于储存无人机所有的经验数据,定义如式(25):
Figure BDA0002197686620000132
式中,s为当前状态,a为当前状态下无人机所选的动作,r为无人机执行a后所得的收益,s′为无人机执行a后的状态
Figure BDA0002197686620000133
6、对评价网络Q(s,a)进行训练。如图所示为DQN算法结构图。
6.1、初始化存储区域D用于存储经验数据
Figure BDA0002197686620000134
并根据第5步中的内容初始化 Q(s,a;θ)和Q′(s,a;θ-)。
6.2、开始训练M个周期,每周期内训练T个回合。开始训练前设置已训练周期数m和已训练回合数t为0。
在每个训练回合中,首先根据式(26)生成动作at
Figure BDA0002197686620000135
将at作用于环境,然后将本次的状态数据s、动作数据a、收益r和下一时刻状态s′,即(s,a,r,s′)存入D中。
随后在D中抽样得到一组样本,利用这些样本根据式(27)采用随机梯度下降法更新Q网络参数θ。
Figure BDA0002197686620000136
Q(s,a;θ)的参数θ更新完成后,则t=t+1,即本回合训练结束,开始下回合训练,重复本环节中所述内容。同时,每过C步利用Q(s,a;θ)的参数θ更新Q′(s,a;θ-)的参数θ-
6.3、当完成T个回合单步训练(即t=T)后,则m=m+1,即开始下一个周期的训练。当M个周期训练结束(即m=M)后,则Q′(s,a;θ-)网络为训练结果,可以直接用于无人机的机动策略生成。
7、训练完成后,使用Q′(s,a;θ-)网络作为无人机飞行控制外环控制器,周期性地选择无人机的机动动作,从而进一步控制无人机的两向过载Nx、Ny和无人机速度倾斜角γc
本方法结合深度强化学习方法-深度Q网络算法(DQN),针对不确定环境下的无人机机动策略自主生成问题,提出了基于DQN的无人机机动策略自主生成方法。采用本发明中所设计的方法,训练结果具有一定的泛化能力,无人机可以自主选择自身机动策略,完成自主飞行控制与导引,实现从起点到终点的全路径自主飞行,极大地增强了无人机在执行任务过程中的自主性,提高了无人机执行任务的效率。

Claims (2)

1.一种基于DQN的无人机机动策略自主生成方法,其特征在于包括以下步骤:
1)建立无人机三自由度运动模型;
所述的无人机三自由度运动模型
Figure FDA0003670967250000011
式中,Nx为无人机在飞机坐标系中的切向过载,Ny为飞机坐标系中的法向过载,v为无人机速度,θ为无人机航迹倾斜角,ψc为无人机航迹偏转角,γc为速度倾斜角,x、y和z为无人机在地理坐标系中的三向坐标,m为无人机质量,g为重力加速度;
2)建立无人机机动控制库;
所述的无人机机动控制库包括了最大过载左转、最大过载右转、控制不变、最大减速、最大加速、最大过载拉起和最大过载俯冲;机动动作使用无人机切向过载Nx、法向过载Ny和速度倾斜角γc进行定义,
Figure FDA0003670967250000012
式中,Nx为无人机在飞机坐标系中的切向过载,Ny为飞机坐标系中的法向过载,P为发动机推力,Y为无人机所受空气升力,Q为无人机所受空气阻力,m为无人机质量,g为重力加速度;
3)建立基准地形三维模型和山峰三维模型;
所述的基准地形三维模型
Figure FDA0003670967250000013
式中,h(x,y)为(x,y)点对应的地面海拔高度,x的正方向为正东方向,y的正方向为正北方向,h的正方向指向天空,a、b、c、d、e、f和g为常系数,控制基准地形起伏;
所述的山峰三维模型
Figure FDA0003670967250000021
式中,z为(x,y)点对应的山峰高度,hi为山峰海拔高度,(xi,yi)为山峰中心位置,(xsi,ysi)为山峰在x和y方向上的坡度,n为山峰个数;
4)计算无人机当前位置下所受地形障碍影响程度值;
所述的无人机当前位置下所受地形障碍影响程度值
Figure FDA0003670967250000022
式中XUAV和(xUAV,yUAV,zUAV)为无人机在地理坐标系中的位置坐标,
Figure 1
5)构建评价网络Q(s,a)与目标网络Q′(s,a),所述两个网络均属于深度神经网络;Q(s,a)和Q′(s,a)两个网络采用相同的参数进行初始化;
Q(s,a)网络和Q′(s,a)网络采用三层网络,每层之间神经元两两连接,激活函数使用线性整流函数ReLU;
定义状态空间S=[x,y,z,v,θ,ψc],式中,x,y,z为无人机在地理坐标系中的位置,v为无人机的速度标量,θ为无人机航迹倾斜角,ψc为无人机航迹偏转角;
定义动作空间
Figure FDA0003670967250000024
包括了飞机基本操作动作库中的7种基本机动ai,a=Nx,Nyc,Nx为无人机在飞机坐标系中的切向过载,Ny为无人机在飞机坐标系中的法向过载,γc为无人机的速度倾斜角;
定义收益r=-(g(XUAV)+p(XUAV)),g(XUAV)为无人机所受飞行环境的影响值,p(XUAV)为无人机与终点的距离,r为无人机当前的收益;
定义回放经验
Figure FDA0003670967250000025
式中,s为当前状态,a为当前状态下无人机所选的动作,r为无人机执行a后所得的收益,s′为无人机执行a后的状态;
6)对评价网络Q(s,a)进行训练;
7)使用训练结果Q′(s,a;θ-)网络作为无人机飞行控制外环控制器,周期性地选择无人机的机动动作,从而进一步控制无人机的两向过载Nx、Ny和无人机速度倾斜角γc
2.根据权利要求1所述的基于DQN的无人机机动策略自主生成方法,其特征在于:所述的步骤6)首先初始化存储区域D用于存储经验数据R,并初始化Q(s,a;θ)和Q′(s,a;θ-)的拓扑结构和节点内使用的激活函数类型;然后设置已训练周期数m和已训练回合数t为0,开始学习训练M个周期,每个周期中包含T回合单步训练;在每回合中,选取当前最优的动作
Figure FDA0003670967250000031
将at作为无人机的控制输入后得到当前的收益rt和下一时刻状态st+1,然后将(st,at,rt,st+1)存入
Figure FDA0003670967250000032
中;随后从
Figure FDA0003670967250000033
中随机抽样得到一组历史数据,利用抽样数据对Q(s,a;θ)使用随机下降法进行优化,目标函数
Figure FDA0003670967250000034
重复训练更新Q(s,a;θ)的参数θ,每过C步利用参数θ更新Q′(s,a;θ-)的参数θ-;当完成T个回合单步训练后,即开始下一个周期的训练,当M个周期训练结束后,则Q′(s,a;θ-)网络为训练结果。
CN201910853736.6A 2019-09-10 2019-09-10 基于dqn的无人机机动策略自主生成方法 Active CN110531786B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910853736.6A CN110531786B (zh) 2019-09-10 2019-09-10 基于dqn的无人机机动策略自主生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910853736.6A CN110531786B (zh) 2019-09-10 2019-09-10 基于dqn的无人机机动策略自主生成方法

Publications (2)

Publication Number Publication Date
CN110531786A CN110531786A (zh) 2019-12-03
CN110531786B true CN110531786B (zh) 2022-07-22

Family

ID=68668034

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910853736.6A Active CN110531786B (zh) 2019-09-10 2019-09-10 基于dqn的无人机机动策略自主生成方法

Country Status (1)

Country Link
CN (1) CN110531786B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111047917B (zh) * 2019-12-18 2021-01-15 四川大学 一种基于改进dqn算法的航班着陆调度方法
CN110989649B (zh) * 2019-12-26 2023-07-25 中国航空工业集团公司沈阳飞机设计研究所 面向高机动固定翼无人机的飞行动作控制装置及训练方法
CN111294761A (zh) * 2020-01-21 2020-06-16 北京大学 无人机直通通信的模式选择和轨迹设计方法及装置
CN112198870B (zh) * 2020-06-01 2022-09-02 西北工业大学 基于ddqn的无人机自主引导机动决策方法
CN112507622B (zh) * 2020-12-16 2022-06-21 中国人民解放军国防科技大学 一种基于强化学习的反无人机任务分配方法
CN112650058B (zh) * 2020-12-23 2022-07-12 西北工业大学 一种基于强化学习的四旋翼无人机轨迹控制方法
CN113110546B (zh) * 2021-04-20 2022-09-23 南京大学 一种基于离线强化学习的无人机自主飞行控制方法
CN114489144B (zh) * 2022-04-08 2022-07-12 中国科学院自动化研究所 无人机自主机动决策方法、装置及无人机
CN116501079B (zh) * 2023-03-09 2023-12-01 浙江大学 一种基于强化学习的无人机高空球载投放控制方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018147467A (ja) * 2017-03-03 2018-09-20 アルパイン株式会社 無人航空機の飛行制御装置および飛行制御方法
CN108845802A (zh) * 2018-05-15 2018-11-20 天津大学 无人机集群编队交互式仿真验证系统及实现方法
CN109032168A (zh) * 2018-05-07 2018-12-18 西安电子科技大学 一种基于dqn的多无人机协同区域监视的航路规划方法
CN109919319A (zh) * 2018-12-31 2019-06-21 中国科学院软件研究所 基于多个历史最佳q网络的深度强化学习方法及设备
CN110134140A (zh) * 2019-05-23 2019-08-16 南京航空航天大学 一种环境信息未知连续状态下基于势函数奖赏dqn的无人机路径规划方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190220737A1 (en) * 2018-01-17 2019-07-18 Hengshuai Yao Method of generating training data for training a neural network, method of training a neural network and using neural network for autonomous operations

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018147467A (ja) * 2017-03-03 2018-09-20 アルパイン株式会社 無人航空機の飛行制御装置および飛行制御方法
CN109032168A (zh) * 2018-05-07 2018-12-18 西安电子科技大学 一种基于dqn的多无人机协同区域监视的航路规划方法
CN108845802A (zh) * 2018-05-15 2018-11-20 天津大学 无人机集群编队交互式仿真验证系统及实现方法
CN109919319A (zh) * 2018-12-31 2019-06-21 中国科学院软件研究所 基于多个历史最佳q网络的深度强化学习方法及设备
CN110134140A (zh) * 2019-05-23 2019-08-16 南京航空航天大学 一种环境信息未知连续状态下基于势函数奖赏dqn的无人机路径规划方法

Also Published As

Publication number Publication date
CN110531786A (zh) 2019-12-03

Similar Documents

Publication Publication Date Title
CN110531786B (zh) 基于dqn的无人机机动策略自主生成方法
CN110806756B (zh) 基于ddpg的无人机自主引导控制方法
CN108319286B (zh) 一种基于强化学习的无人机空战机动决策方法
CN110502033B (zh) 一种基于强化学习的固定翼无人机群集控制方法
CN111880567B (zh) 基于深度强化学习的固定翼无人机编队协调控制方法及装置
CN112162564B (zh) 基于模仿学习和强化学习算法的无人机飞行控制方法
CN110673620A (zh) 一种基于深度强化学习的四旋翼无人机航线跟随控制方法
CN112034888B (zh) 一种固定翼无人机自主控制协作策略训练方法
CN112650058B (zh) 一种基于强化学习的四旋翼无人机轨迹控制方法
CN112198870A (zh) 基于ddqn的无人机自主引导机动决策方法
Nie et al. Three-dimensional path-following control of a robotic airship with reinforcement learning
CN114895697B (zh) 一种基于元强化学习并行训练算法的无人机飞行决策方法
CN115755956B (zh) 一种知识与数据协同驱动的无人机机动决策方法与系统
CN116242364A (zh) 一种基于深度强化学习的多无人机智能导航方法
CN114518770A (zh) 一种电势场和深度强化学习融合的无人机路径规划方法
CN113671825A (zh) 一种基于强化学习的机动智能决策规避导弹方法
CN114237267B (zh) 基于强化学习的飞行机动决策的辅助方法
Chen Research on AI application in the field of quadcopter UAVs
CN109375642B (zh) 一种无人机节能控制方法
CN114089776A (zh) 一种基于深度强化学习的无人机避障方法
Bulka et al. High-speed obstacle-avoidance with agile fixed-wing aircraft
Chen et al. Deep reinforcement learning based strategy for quadrotor UAV pursuer and evader problem
CN116697829A (zh) 一种基于深度强化学习的火箭着陆制导方法及系统
CN114815875B (zh) 一种基于集合满射鸽群智能优化的无人机集群编队控制器调参方法
CN113885549B (zh) 基于维度裁剪的ppo算法的四旋翼姿态轨迹控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant