CN110531786A - 基于dqn的无人机机动策略自主生成方法 - Google Patents
基于dqn的无人机机动策略自主生成方法 Download PDFInfo
- Publication number
- CN110531786A CN110531786A CN201910853736.6A CN201910853736A CN110531786A CN 110531786 A CN110531786 A CN 110531786A CN 201910853736 A CN201910853736 A CN 201910853736A CN 110531786 A CN110531786 A CN 110531786A
- Authority
- CN
- China
- Prior art keywords
- unmanned plane
- uav
- formula
- maneuver
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000012549 training Methods 0.000 claims abstract description 46
- 238000011156 evaluation Methods 0.000 claims abstract description 10
- RZVHIXYEVGDQDX-UHFFFAOYSA-N 9,10-anthraquinone Chemical compound C1=CC=C2C(=O)C3=CC=CC=C3C(=O)C2=C1 RZVHIXYEVGDQDX-UHFFFAOYSA-N 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 9
- 230000001133 acceleration Effects 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000005484 gravity Effects 0.000 claims description 5
- 210000002569 neuron Anatomy 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 238000004088 simulation Methods 0.000 abstract description 5
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000012067 mathematical method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 101100379079 Emericella variicolor andA gene Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005021 gait Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000011514 reflex Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明提供了一种基于DQN的无人机机动策略自主生成方法,分别建立无人机三自由度运动模型、无人机机动控制模型、基准地形三维模型和山峰三维模型;计算无人机当前位置下所受地形障碍影响程度值;构建评价网络和目标网络,对评价网络进行训练;使用训练结果作为无人机飞行控制外环控制器,控制无人机的两向过载和无人机速度倾斜角。本发明将深度强化学习方法和无人机的制导与控制机动策略进行结合,在离线仿真环境中进行学习训练,达到要求后再进行实际应用,极大地增强了无人机在执行任务过程中的自主性,提高了无人机执行任务的效率。
Description
技术领域
本发明涉及飞行机动策略和人工智能领域,尤其涉及一种无人机机动策略自主生成方法。
背景技术
近年来,随着无人机技术的发展,无人机的性能飞速提高,不论是军用无人机还是民用无人机,各种新技术层出不穷。其中,提高无人机自主飞行能力,降低人为干预,避免人为失误,是各国无人机科研人员的研究重点。传统的无人机飞行导引通常在获取到需求任务区域内应飞航迹后,在飞行过程中通过控制无人机的机动策略,使之沿应飞航线飞行。传统的无人机的机动决策基于微分对策、矩阵博弈、动态规划、神经网络、专家系统、动态贝叶斯网络、影响图以及轨迹预测等方法。但是,当环境发生较大改变时,上述方法均没有自主解决突发事件的能力,只有无人机操纵者进行手动干预后,无人机才能继续完成任务,该过程极大地影响了无人机执行任务的效率。近年来,由于在电子技术方面的突破性进步,人工智能技术飞速发展,各种人工智能算法不断应用到控制领域。例如,Google公司的DeepMind人工智能小组,创新性地将深度强化学习方法应用到人形机器人的步态控制上并取得了成功;OpenAI实验室基于进化策略方法设计了一系列控制算法并成功商用。深度强化学习是多门学科多个领域交叉结合的产物,最早可以追溯到巴普洛夫的条件反射实验,但直到上世纪九十年代才逐渐被人们应用于自动控制、机器学习等领域。2015年,DeepMind(Google)在《Nature》上发布了深度Q学习算法(DeepQLearning,DQN),它是第一个成功地将深度学习和强化学习结合起来的模型。DQN的经验回放策略打破了传统强化学习样本的前后关联性,大大提高了学习效果。
发明内容
为了克服现有技术的不足,本发明提供一种基于DQN的无人机机动策略自主生成方法,在仿真环境中进行训练,训练成功后无人机可以自主生成机动策略,选择合理的机动动作,能够实现自主进行机动躲避障碍物,安全快速地从起点飞向终点,有效提升无人机自主飞行能力。
本发明解决其技术问题所采用的技术方案包括以下步骤:
1)建立无人机三自由度运动模型;
2)建立无人机机动控制库;
3)建立基准地形三维模型和山峰三维模型;
4)计算无人机当前位置下所受地形障碍影响程度值;
5)构建评价网络Q(s,a)与目标网络Q′(s,a),所述两个网络均属于深度神经网络;Q(s,a)和Q′(s,a)两个网络采用相同的参数进行初始化;
Q(s,a)网络和Q′(s,a)网络采用三层网络,每层之间神经元两两连接,激活函数使用线性整流函数ReLU;
定义状态空间式中,x,y,z为无人机在地理坐标系中的位置,v为无人机的速度标量,θ为无人机航迹倾斜角,ψc为无人机航迹偏转角;
定义动作空间包括了飞机基本操作动作库中的7种基本机动ai,a=[Nx,Ny,γc],Nx为无人机在飞机坐标系中的切向过载,Ny为无人机在飞机坐标系中的法向过载,γc为无人机的速度轴系倾斜角;
定义收益r=-(g(XUAV)+p(XUAV)),g(XUAV)为无人机所受飞行环境的影响值, p(XUAV)为无人机与终点的距离,r为无人机当前的收益;
定义回放经验式中,s为当前状态,a为当前状态下无人机所选的动作,r为无人机执行a后所得的收益,s′为无人机执行a后的状态;
6)对评价网络Q(s,a)进行训练;
7)使用训练结果Q′(s,a;θ-)网络作为无人机飞行控制外环控制器,周期性地选择无人机的机动动作,从而进一步控制无人机的两向过载Nx、Ny和无人机速度倾斜角γc。
所述的无人机三自由度运动模型式中,Nx为无人机在飞机坐标系中的切向过载,Ny为飞机坐标系中的法向过载,v为无人机速度,θ为无人机航迹倾斜角,ψc为无人机航迹偏转角,γc为速度倾斜角,x、y和z为无人机在地理坐标系中的三向坐标,m为无人机质量,g为重力加速度。
所述的无人机机动控制库包括了最大过载左转、最大过载右转、控制不变、最大减速、最大加速、最大过载拉起和最大过载俯冲;机动动作使用无人机切向过载Nx、法向过载Ny和速度倾斜角γc进行定义,式中,Nx为无人机在飞机坐标系中的切向过载,Ny为飞机坐标系中的法向过载,P为发动机推力,Y为无人机所受空气升力,Q为无人机所受空气阻力,m为无人机质量,g为重力加速度。
所述的基准地形三维模型式中, h(x,y)为(x,y)点对应的地面海拔高度,x的正方向为正东方向,y的正方向为正北方向, h的正方向指向天空,a、b、c、d、e、f和g为常系数,控制基准地形起伏。
所述的山峰三维模型式中,z为(x,y)点对应的山峰高度,hi为山峰海拔高度,(xi,yi)为山峰中心位置,(xsi,ysi)为山峰在x和y方向上的坡度, n为山峰个数。
所述的无人机当前位置下所受地形障碍影响程度值式中XUAV和(xUAV,yUAV,zUAV)为无人机在地理坐标系中的位置坐标,
所述的步骤6)首先初始化存储区域D用于存储经验数据并初始化Q(s,a;θ)和Q′(s,a;θ-)的拓扑结构和节点内使用的激活函数类型;然后设置已训练周期数m和已训练回合数t为0,开始学习训练M个周期,每个周期中包含T回合单步训练;在每回合中,选取当前最优的动作将at作为无人机的控制输入后得到当前的收益rt和下一时刻状态st+1,然后将(st,at,rt,st+1)存入中;随后从中随机抽样得到一组历史数据,利用抽样数据对Q(s,a;θ)使用随机下降法进行优化,目标函数重复训练更新Q(s,a;θ)的参数θ,每过C步利用参数θ更新Q′(s,a;θ-)的参数θ-;当完成T个回合单步训练后,即开始下一个周期的训练,当M个周期训练结束后,则Q′(s,a;θ-)网络为训练结果。
本发明的有益效果是:创新性地将深度强化学习方法和无人机的制导与控制机动策略进行结合,该方法在离线仿真环境中进行学习训练,达到要求后再进行实际应用。由于深度强化学习的应用,该方法极大地增强了无人机在执行任务过程中的自主性,提高了无人机执行任务的效率。
附图说明
图1是无人机机动策略自主生成问题描述示意图;
图2是强化学习典型模型示意图;
图3是DQN算法结构图;
图4是Q(s,a)网络结构示意图。
具体实施方式
本发明针对无人机机动策略自主生成问题,提出基于DQN的无人机机动策略自主生成方法,实现无人机能够有效选择自身机动策略,满足飞行需求,提升无人机自主飞行能力。
本发明的实现过程包括以下步骤:
1、建立无人机三自由度运动模型。
式中,Nx为无人机在飞机坐标系中的切向过载,Ny为飞机坐标系中的法向过载,v为无人机速度,θ为无人机航迹倾斜角,ψc为无人机航迹偏转角,γc为速度倾斜角,x、 y和z为无人机在地理坐标系中的三向坐标,m为无人机质量,g为重力加速度。
2、建立无人机机动控制库,无人机机动库使用飞机基本操作动作库,包括了最大过载左转、最大过载右转、控制不变、最大减速、最大加速、最大过载拉起和最大过载俯冲。机动动作使用无人机切向过载Nx、法向过载Ny和速度倾斜角γc进行定义。如式(2)为切向过载Nx、法向过载Ny的定义。
式中P为发动机推力,Y为无人机所受空气升力,Q为无人机所受空气阻力。
3、建立基准地形和山峰等三维环境模型。
建立基准地形模拟模型,本发明采用数学方法对基准地形进行模拟,如式(3)所示为基准地形生成公式。
式中h(x,y)为(x,y)点对应的地面海拔高度,x的正方向为正东方向,y的正方向为正北方向,h的正方向指向天空,当x、y和h均为0时,为地理坐标系原点,a、b、c、d、 e、f和g为常系数,这些参数控制基准地形起伏。
建立山峰模拟模型,本发明中采用指数函数对山峰进行描述,如式(4)所示。
式中z为(x,y)点对应的山峰高度,用(hi,xi,yi,xsi,ysi)描述第i个山峰的高低、坡度等属性,hi为山峰海拔高度,(xi,yi)为山峰中心位置,(xsi,ysi)为山峰在x和y方向上的坡度, n为山峰个数。
4、计算无人机当前位置下所受地形障碍影响程度值。
本发明中,以无人机离地面距离远近描述无人机所受地形障碍的影响程度值,如式(5)所示。
式中XUAV和(xUAV,yUAV,zUAV)为无人机在地理坐标系中的位置坐标,g(XUAV)为无人机所受飞行环境的影响值。在模型计算完成后,输出g(XUAV)作为飞行环境对无人机的影响值。
5、基于DQN算法的无人机机动策略自主生成方法。
5.1、构建评价网络Q(s,a)与目标网络Q′(s,a),在本专利中,两个神经网络均属于深度神经网络(DNN)。此外,Q(s,a)和Q′(s,a)两个网络采用相同的参数进行初始化,即在训练前,Q′(s,a)由Q(s,a)复制得到。
在本环节中,对Q(s,a)和Q′(s,a)的参数进行定义。Q(s,a)网络(或Q′(s,a)网络)采用如图所示结构搭建,即三层网络,每层之间神经元两两连接,激活函数使用线性整流函数ReLU,如式(6)所示。
5.2、对状态空间动作空间收益r和经验进行定义。
状态空间使用无人机状态进行描述,定义如式(7):
式中,x,y,z为无人机在地理坐标系中的位置,v为无人机的速度标量,θ为无人机航迹倾斜角,ψc为无人机航迹偏转角,距离单位为m,速度单位为m/s,角度单位为°。
动作空间包括了飞机基本操作动作库中的7种基本机动,定义如式(8):
式中ai表示第i种机动,定义如式(9):
a=[Nx,Ny,γc] (9)
式中,Nx为无人机在飞机坐标系中的切向过载,Ny为无人机在飞机坐标系中的法向过载,γc为无人机的速度轴系倾斜角。
收益r考虑飞行环境对无人机的影响值和无人机与终点(任务起点、终点位置由实际任务决定)的距离,定义如式(10):
r=-(g(XUAV)+p(XUAV)) (10)
式中,g(XUAV)为无人机所受飞行环境的影响值,p(XUAV)为无人机与终点的距离,r为无人机当前的收益。p(XUAV)的计算如式(11):
式中,(xUAV,yUAV,zUAV)为无人机在地理坐标系中的位置坐标,(xstart,ystart,zstart)为在地理坐标系中的起点坐标,(xend,yend,zend)为在地理坐标系中的终点坐标。
回放经验用于储存无人机所有的经验数据,定义如式(12):
式中,s为当前状态,a为当前状态下无人机所选的动作,r为无人机执行a后所得的收益,s′为无人机执行a后的状态
6、对评价网络Q(s,a)进行训练。
6.1、初始化存储区域D用于存储经验数据并初始化Q(s,a;θ)和Q′(s,a;θ-),主要初始化两个网络的拓扑结构和节点内使用的激活函数类型等。网络拓扑结构主要是网络的层数和各层内的节点个数,节点内使用的激活函数可以是Sigmoid、tanh和 ReLU等函数。
6.2、开始学习训练M个周期,由于训练过程基于马尔可夫过程,所以在一个周期中又包含了T回合单步训练。开始训练前设置已训练周期数m和已训练回合数t为 0。
在每回合中,先根据贪婪策略或其他策略选取当前最优的动作at,如式(13)所示:
将at作为无人机的控制输入后得到当前的收益rt和下一时刻状态st+1,然后将(st,at,rt,st+1)存入中。
随后从中随机抽样得到一组历史数据,利用这些数据对Q(s,a;θ)使用随机下降法进行优化,目标函数如式(14):
Q(s,a;θ)的参数θ更新完成后,则t=t+1,即本回合训练结束,开始下回合训练,重复本环节中所述内容。同时,每过C步利用Q(s,a;θ)的参数θ更新Q′(s,a;θ-)的参数θ-。
6.3、当完成T个回合单步训练(即t=T)后,则m=m+1,即开始下一个周期的训练。当M个周期训练结束(即m=M)后,则Q′(s,a;θ-)网络为训练结果,可以直接用于无人机的机动策略生成。
7、训练完成后,使用Q′(s,a;θ-)网络作为无人机飞行控制外环控制器,周期性地选择无人机的机动动作,从而进一步控制无人机的两向过载Nx、Ny和无人机速度倾斜角γc。
如表1所示为无人机机动策略自主生成方法的训练流程。
表1无人机机动策略自主生成方法训练流程
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
1、基于式(15)建立无人机运动模型后,根据实际无人机的生产规格设置无人机模型的部分参数和约束条件,包括了无人机重量m,最小、最大飞行速度(本实例中考虑设为[200m/s,400m/s]),最大爬升角、最大俯冲角(本实例中考虑设为[-60°,70°]),最大转弯半径(本实例中考虑设为1km)。在仿真时,无人机速度应大于最小飞行速度,小于最大飞行速度,无人机航迹倾斜角应被限制在最大爬升角和最大俯冲角之间,无人机航迹偏转角应满足最大转弯半径的约束。
2、搭建无人机机动控制库,无人机机动库使用飞机基本操作动作库,包括了最大过载左转、最大过载右转、控制不变、最大减速、最大加速、最大过载拉起和最大过载俯冲。机动动作使用无人机切向过载Nx、法向过载Ny和速度倾斜角γc进行定义。如式(16)为切向过载Nx、法向过载Ny的定义。
式中P为发动机推力,Y为无人机所受空气升力,Q为无人机所受空气阻力。
如表2所示为无人机机动库的定义,第一列代表第i个机动,从1~7依次为最大过载左转、最大过载右转、控制不变、最大减速、最大加速、最大过载拉起和最大过载俯冲,第二列为切向过载取值,第三列为法向过载取值,均为无量纲值,第四列为速度倾斜角取值,单位为角度(°)。表中,Cx代表无人机推力最大时的切向过载,代表无人机推力最小时的切向过载,Cy代表无人机以最大转弯半径转弯时所产生的法向过载(本实例中,Cx=5.0,Cy=7.0)。
表2无人机机动库定义
3、建立基准地形和山峰等三维环境模型。如图1所示为无人机机动策略自主生成方法的典型训练环境,在本实例中,设置较为平缓的地面基准海拔,设置5个山峰,起点位于环境中左侧,终点位于环境中右侧,地理坐标系原点设置在飞行环境左下角。本实例的目标是实现无人机自主从起点安全快速地飞向终点。
针对地面海拔,采用数学方法进行模拟,如式(17)所示为地面海拔模拟生成公式。
式中的参数a、b、c、d、e、f和g分别可取10~15,0.2~0.6,0.1~0.5,0.6~1.5,1~5, 0.1~0.8,0.1~0.8。
山峰采用指数函数进行描述,其数学模型如式(18)所示。
式中xsi,ysi一般取10~30。
4、计算无人机当前位置下所受地形障碍影响程度值。
如式(19)所示,以无人机离地面距离远近描述无人机所受地形障碍的影响程度。
式中XUAV和(xUAV,yUAV,zUAV)为无人机在地理坐标系中的位置坐标,在模型计算完成后,输出g(XUAV)作为飞行环境对无人机的影响值。
5、基于DQN算法的无人机机动策略自主生成方法。
5.1、构建评价网络Q(s,a;θ)和Q′(s,a;θ-)。在本实例实施过程中,Q(s,a;θ)和 Q′(s,a;θ-)网络为两层架构,包括输入层和输出层,输入层由32个神经元组成,输入为当前状态量s和动作序号a(此处直接用0~6数字代替7种机动动作),激活函数为ReLU函数;输出层由8个神经元构成,激活函数为tanh函数,输出为当前状态量s和动作序号a所对应的Q值。
5.2、对状态空间和状态s,动作空间和动作a,收益r和经验进行定义。
状态s为一个六维向量,并且如式(20)所示:
式中,x,y,z代表无人机在地理坐标系中的位置,单位为m,v为无人机速度标量,单位为m/s,θ,ψc为无人机航迹倾斜角和航迹偏转角,单位为°。
动作空间包括了飞机基本操作动作库中的7种基本机动,定义如式(21):
动作ai实际为一个三维向量,并且ai向量内容如式(22)所示:
a=[Nx,Ny,γc] (22)
式中,Nx和Ny分别代表无人机切向过载与法向过载,无单位,γc为无人机速度轴系倾斜角,单位为°。
收益r考虑飞行环境对无人机的影响值和无人机与终点的距离,定义如式(23):
r=-(g(XUAV)+p(XUAV)) (23)
式中,g(XUAV)为无人机所受飞行环境的影响值,p(XUAV)为无人机与终点的距离,r为无人机当前的收益。p(XUAV)的计算如式(24):
式中,(xUAV,yUAV,zUAV)为无人机在地理坐标系中的位置坐标,(xstart,ystart,zstart)为在地理坐标系中的起点坐标,(xend,yend,zend)为在地理坐标系中的终点坐标。
回放经验用于储存无人机所有的经验数据,定义如式(25):
式中,s为当前状态,a为当前状态下无人机所选的动作,r为无人机执行a后所得的收益,s′为无人机执行a后的状态
6、对评价网络Q(s,a)进行训练。如图所示为DQN算法结构图。
6.1、初始化存储区域D用于存储经验数据并根据第5步中的内容初始化 Q(s,a;θ)和Q′(s,a;θ-)。
6.2、开始训练M个周期,每周期内训练T个回合。开始训练前设置已训练周期数m和已训练回合数t为0。
在每个训练回合中,首先根据式(26)生成动作at。
将at作用于环境,然后将本次的状态数据s、动作数据a、收益r和下一时刻状态s′,即(s,a,r,s′)存入D中。
随后在D中抽样得到一组样本,利用这些样本根据式(27)采用随机梯度下降法更新Q网络参数θ。
Q(s,a;θ)的参数θ更新完成后,则t=t+1,即本回合训练结束,开始下回合训练,重复本环节中所述内容。同时,每过C步利用Q(s,a;θ)的参数θ更新Q′(s,a;θ-)的参数θ-。
6.3、当完成T个回合单步训练(即t=T)后,则m=m+1,即开始下一个周期的训练。当M个周期训练结束(即m=M)后,则Q′(s,a;θ-)网络为训练结果,可以直接用于无人机的机动策略生成。
7、训练完成后,使用Q′(s,a;θ-)网络作为无人机飞行控制外环控制器,周期性地选择无人机的机动动作,从而进一步控制无人机的两向过载Nx、Ny和无人机速度倾斜角γc。
本方法结合深度强化学习方法-深度Q网络算法(DQN),针对不确定环境下的无人机机动策略自主生成问题,提出了基于DQN的无人机机动策略自主生成方法。采用本发明中所设计的方法,训练结果具有一定的泛化能力,无人机可以自主选择自身机动策略,完成自主飞行控制与导引,实现从起点到终点的全路径自主飞行,极大地增强了无人机在执行任务过程中的自主性,提高了无人机执行任务的效率。
Claims (7)
1.一种基于DQN的无人机机动策略自主生成方法,其特征在于包括以下步骤:
1)建立无人机三自由度运动模型;
2)建立无人机机动控制库;
3)建立基准地形三维模型和山峰三维模型;
4)计算无人机当前位置下所受地形障碍影响程度值;
5)构建评价网络Q(s,a)与目标网络Q′(s,a),所述两个网络均属于深度神经网络;Q(s,a)和Q′(s,a)两个网络采用相同的参数进行初始化;
Q(s,a)网络和Q′(s,a)网络采用三层网络,每层之间神经元两两连接,激活函数使用线性整流函数ReLU;
定义状态空间式中,x,y,z为无人机在地理坐标系中的位置,v为无人机的速度标量,θ为无人机航迹倾斜角,ψc为无人机航迹偏转角;
定义动作空间包括了飞机基本操作动作库中的7种基本机动ai,a=[Nx,Ny,γc],Nx为无人机在飞机坐标系中的切向过载,Ny为无人机在飞机坐标系中的法向过载,γc为无人机的速度轴系倾斜角;
定义收益r=-(g(XUAV)+p(XUAV)),g(XUAV)为无人机所受飞行环境的影响值,p(XUAV)为无人机与终点的距离,r为无人机当前的收益;
定义回放经验式中,s为当前状态,a为当前状态下无人机所选的动作,r为无人机执行a后所得的收益,s′为无人机执行a后的状态;
6)对评价网络Q(s,a)进行训练;
7)使用训练结果Q′(s,a;θ-)网络作为无人机飞行控制外环控制器,周期性地选择无人机的机动动作,从而进一步控制无人机的两向过载Nx、Ny和无人机速度倾斜角γc。
2.根据权利要求1所述的基于DQN的无人机机动策略自主生成方法,其特征在于:所述的无人机三自由度运动模型式中,Nx为无人机在飞机坐标系中的切向过载,Ny为飞机坐标系中的法向过载,v为无人机速度,θ为无人机航迹倾斜角,ψc为无人机航迹偏转角,γc为速度倾斜角,x、y和z为无人机在地理坐标系中的三向坐标,m为无人机质量,g为重力加速度。
3.根据权利要求1所述的基于DQN的无人机机动策略自主生成方法,其特征在于:所述的无人机机动控制库包括了最大过载左转、最大过载右转、控制不变、最大减速、最大加速、最大过载拉起和最大过载俯冲;机动动作使用无人机切向过载Nx、法向过载Ny和速度倾斜角γc进行定义,式中,Nx为无人机在飞机坐标系中的切向过载,Ny为飞机坐标系中的法向过载,P为发动机推力,Y为无人机所受空气升力,Q为无人机所受空气阻力,m为无人机质量,g为重力加速度。
4.根据权利要求1所述的基于DQN的无人机机动策略自主生成方法,其特征在于:所述的基准地形三维模型式中,h(x,y)为(x,y)点对应的地面海拔高度,x的正方向为正东方向,y的正方向为正北方向,h的正方向指向天空,a、b、c、d、e、f和g为常系数,控制基准地形起伏。
5.根据权利要求1所述的基于DQN的无人机机动策略自主生成方法,其特征在于:所述的山峰三维模型式中,z为(x,y)点对应的山峰高度,hi为山峰海拔高度,(xi,yi)为山峰中心位置,(xsi,ysi)为山峰在x和y方向上的坡度,n为山峰个数。
6.根据权利要求1所述的基于DQN的无人机机动策略自主生成方法,其特征在于:所述的无人机当前位置下所受地形障碍影响程度值式中XUAV和(xUAV,yUAV,zUAV)为无人机在地理坐标系中的位置坐标,
7.根据权利要求1所述的基于DQN的无人机机动策略自主生成方法,其特征在于:所述的步骤6)首先初始化存储区域D用于存储经验数据,并初始化Q(s,a;θ)和Q′(s,a;θ-)的拓扑结构和节点内使用的激活函数类型;然后设置已训练周期数m和已训练回合数t为0,开始学习训练M个周期,每个周期中包含T回合单步训练;在每回合中,选取当前最优的动作将at作为无人机的控制输入后得到当前的收益rt和下一时刻状态st+1,然后将(st,at,rt,st+1)存入中;随后从中随机抽样得到一组历史数据,利用抽样数据对Q(s,a;θ)使用随机下降法进行优化,目标函数重复训练更新Q(s,a;θ)的参数θ,每过C步利用参数θ更新Q′(s,a;θ-)的参数θ-;当完成T个回合单步训练后,即开始下一个周期的训练,当M个周期训练结束后,则Q′(s,a;θ-)网络为训练结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910853736.6A CN110531786B (zh) | 2019-09-10 | 2019-09-10 | 基于dqn的无人机机动策略自主生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910853736.6A CN110531786B (zh) | 2019-09-10 | 2019-09-10 | 基于dqn的无人机机动策略自主生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110531786A true CN110531786A (zh) | 2019-12-03 |
CN110531786B CN110531786B (zh) | 2022-07-22 |
Family
ID=68668034
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910853736.6A Active CN110531786B (zh) | 2019-09-10 | 2019-09-10 | 基于dqn的无人机机动策略自主生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110531786B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110989649A (zh) * | 2019-12-26 | 2020-04-10 | 中国航空工业集团公司沈阳飞机设计研究所 | 面向高机动固定翼无人机的飞行动作控制装置及训练方法 |
CN111047917A (zh) * | 2019-12-18 | 2020-04-21 | 四川大学 | 一种基于改进dqn算法的航班着陆调度方法 |
CN111294761A (zh) * | 2020-01-21 | 2020-06-16 | 北京大学 | 无人机直通通信的模式选择和轨迹设计方法及装置 |
CN112198870A (zh) * | 2020-06-01 | 2021-01-08 | 西北工业大学 | 基于ddqn的无人机自主引导机动决策方法 |
CN112507622A (zh) * | 2020-12-16 | 2021-03-16 | 中国人民解放军国防科技大学 | 一种基于强化学习的反无人机任务分配方法 |
CN112650058A (zh) * | 2020-12-23 | 2021-04-13 | 西北工业大学 | 一种基于强化学习的四旋翼无人机轨迹控制方法 |
CN113110546A (zh) * | 2021-04-20 | 2021-07-13 | 南京大学 | 一种基于离线强化学习的无人机自主飞行控制方法 |
CN114489144A (zh) * | 2022-04-08 | 2022-05-13 | 中国科学院自动化研究所 | 无人机自主机动决策方法、装置及无人机 |
CN116501079A (zh) * | 2023-03-09 | 2023-07-28 | 浙江大学 | 一种基于强化学习的无人机高空球载投放控制方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018147467A (ja) * | 2017-03-03 | 2018-09-20 | アルパイン株式会社 | 無人航空機の飛行制御装置および飛行制御方法 |
CN108845802A (zh) * | 2018-05-15 | 2018-11-20 | 天津大学 | 无人机集群编队交互式仿真验证系统及实现方法 |
CN109032168A (zh) * | 2018-05-07 | 2018-12-18 | 西安电子科技大学 | 一种基于dqn的多无人机协同区域监视的航路规划方法 |
CN109919319A (zh) * | 2018-12-31 | 2019-06-21 | 中国科学院软件研究所 | 基于多个历史最佳q网络的深度强化学习方法及设备 |
US20190220737A1 (en) * | 2018-01-17 | 2019-07-18 | Hengshuai Yao | Method of generating training data for training a neural network, method of training a neural network and using neural network for autonomous operations |
CN110134140A (zh) * | 2019-05-23 | 2019-08-16 | 南京航空航天大学 | 一种环境信息未知连续状态下基于势函数奖赏dqn的无人机路径规划方法 |
-
2019
- 2019-09-10 CN CN201910853736.6A patent/CN110531786B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018147467A (ja) * | 2017-03-03 | 2018-09-20 | アルパイン株式会社 | 無人航空機の飛行制御装置および飛行制御方法 |
US20190220737A1 (en) * | 2018-01-17 | 2019-07-18 | Hengshuai Yao | Method of generating training data for training a neural network, method of training a neural network and using neural network for autonomous operations |
CN109032168A (zh) * | 2018-05-07 | 2018-12-18 | 西安电子科技大学 | 一种基于dqn的多无人机协同区域监视的航路规划方法 |
CN108845802A (zh) * | 2018-05-15 | 2018-11-20 | 天津大学 | 无人机集群编队交互式仿真验证系统及实现方法 |
CN109919319A (zh) * | 2018-12-31 | 2019-06-21 | 中国科学院软件研究所 | 基于多个历史最佳q网络的深度强化学习方法及设备 |
CN110134140A (zh) * | 2019-05-23 | 2019-08-16 | 南京航空航天大学 | 一种环境信息未知连续状态下基于势函数奖赏dqn的无人机路径规划方法 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111047917A (zh) * | 2019-12-18 | 2020-04-21 | 四川大学 | 一种基于改进dqn算法的航班着陆调度方法 |
CN110989649A (zh) * | 2019-12-26 | 2020-04-10 | 中国航空工业集团公司沈阳飞机设计研究所 | 面向高机动固定翼无人机的飞行动作控制装置及训练方法 |
CN110989649B (zh) * | 2019-12-26 | 2023-07-25 | 中国航空工业集团公司沈阳飞机设计研究所 | 面向高机动固定翼无人机的飞行动作控制装置及训练方法 |
CN111294761A (zh) * | 2020-01-21 | 2020-06-16 | 北京大学 | 无人机直通通信的模式选择和轨迹设计方法及装置 |
CN112198870B (zh) * | 2020-06-01 | 2022-09-02 | 西北工业大学 | 基于ddqn的无人机自主引导机动决策方法 |
CN112198870A (zh) * | 2020-06-01 | 2021-01-08 | 西北工业大学 | 基于ddqn的无人机自主引导机动决策方法 |
CN112507622B (zh) * | 2020-12-16 | 2022-06-21 | 中国人民解放军国防科技大学 | 一种基于强化学习的反无人机任务分配方法 |
CN112507622A (zh) * | 2020-12-16 | 2021-03-16 | 中国人民解放军国防科技大学 | 一种基于强化学习的反无人机任务分配方法 |
CN112650058A (zh) * | 2020-12-23 | 2021-04-13 | 西北工业大学 | 一种基于强化学习的四旋翼无人机轨迹控制方法 |
CN113110546A (zh) * | 2021-04-20 | 2021-07-13 | 南京大学 | 一种基于离线强化学习的无人机自主飞行控制方法 |
CN114489144A (zh) * | 2022-04-08 | 2022-05-13 | 中国科学院自动化研究所 | 无人机自主机动决策方法、装置及无人机 |
CN116501079A (zh) * | 2023-03-09 | 2023-07-28 | 浙江大学 | 一种基于强化学习的无人机高空球载投放控制方法 |
CN116501079B (zh) * | 2023-03-09 | 2023-12-01 | 浙江大学 | 一种基于强化学习的无人机高空球载投放控制方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110531786B (zh) | 2022-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110531786A (zh) | 基于dqn的无人机机动策略自主生成方法 | |
CN110806756B (zh) | 基于ddpg的无人机自主引导控制方法 | |
CN112180967B (zh) | 基于评判-执行架构的多无人机协同对抗决策方法 | |
CN110471444B (zh) | 基于自主学习的无人机智能避障方法 | |
CN112034888B (zh) | 一种固定翼无人机自主控制协作策略训练方法 | |
CN110488859A (zh) | 一种基于改进Q-learning算法的无人机航路规划方法 | |
CN111880567A (zh) | 基于深度强化学习的固定翼无人机编队协调控制方法及装置 | |
CN113282061A (zh) | 一种基于课程学习的无人机空中博弈对抗的解决方法 | |
CN113741533A (zh) | 一种基于模仿学习与强化学习的无人机智能决策系统 | |
CN112650058B (zh) | 一种基于强化学习的四旋翼无人机轨迹控制方法 | |
Zhang et al. | Maneuver decision-making of deep learning for UCAV thorough azimuth angles | |
CN114089776B (zh) | 一种基于深度强化学习的无人机避障方法 | |
CN115755956B (zh) | 一种知识与数据协同驱动的无人机机动决策方法与系统 | |
CN114518770A (zh) | 一种电势场和深度强化学习融合的无人机路径规划方法 | |
Wu et al. | Navigating assistance system for quadcopter with deep reinforcement learning | |
CN116468121A (zh) | 基于通用经验博弈强化学习的多机空战决策方法 | |
CN113282100A (zh) | 基于强化学习的无人机对抗博弈训练控制方法 | |
Deshpande et al. | Developmental reinforcement learning of control policy of a quadcopter UAV with thrust vectoring rotors | |
CN116700079A (zh) | 基于ac-nfsp的无人机对抗占位机动控制方法 | |
Chen et al. | Deep reinforcement learning based strategy for quadrotor UAV pursuer and evader problem | |
Wang et al. | Research on autonomous decision-making of UCAV based on deep reinforcement learning | |
Hercus et al. | Control of an unmanned aerial vehicle using a neuronal network | |
CN114879742B (zh) | 基于多智能体深度强化学习的无人机集群动态覆盖方法 | |
Oh et al. | Evolutionary controller design for area search using multiple UAVs with minimum altitude maneuver | |
Tingting et al. | Formation control of multiple UAVs via pigeon inspired optimisation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |