CN112198870B - 基于ddqn的无人机自主引导机动决策方法 - Google Patents
基于ddqn的无人机自主引导机动决策方法 Download PDFInfo
- Publication number
- CN112198870B CN112198870B CN202010481676.2A CN202010481676A CN112198870B CN 112198870 B CN112198870 B CN 112198870B CN 202010481676 A CN202010481676 A CN 202010481676A CN 112198870 B CN112198870 B CN 112198870B
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- aerial vehicle
- training
- formula
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 81
- 238000012549 training Methods 0.000 claims abstract description 117
- 238000005070 sampling Methods 0.000 claims abstract description 78
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 44
- 230000008569 process Effects 0.000 claims abstract description 38
- 230000009471 action Effects 0.000 claims description 40
- 230000006870 function Effects 0.000 claims description 32
- 238000004088 simulation Methods 0.000 claims description 23
- 238000004364 calculation method Methods 0.000 claims description 13
- 150000001875 compounds Chemical class 0.000 claims description 13
- 238000005457 optimization Methods 0.000 claims description 13
- 238000011156 evaluation Methods 0.000 claims description 11
- 238000012937 correction Methods 0.000 claims description 9
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 210000002569 neuron Anatomy 0.000 claims description 8
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 5
- 238000009826 distribution Methods 0.000 claims description 4
- 230000001133 acceleration Effects 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 230000005484 gravity Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 2
- 239000011541 reaction mixture Substances 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 230000002787 reinforcement Effects 0.000 description 3
- 230000009194 climbing Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000009189 diving Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000007795 chemical reaction product Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/0088—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Medical Informatics (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Automation & Control Theory (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种基于DDQN的无人机自主引导机动决策方法,基于优先级采样双深度Q学习算法与马尔可夫决策过程相结合的无人机自主引导机动决策方法,引入双Q学习算法改进深度Q学习算法的迭代方式,提高训练效率,采用优先级采样方法促进算法快速收敛,更好地利用历史数据的多样性;无人机可根据外界飞行环境状态实现自主引导机动决策,完成固定目标点下的自主引导机动决策,有效地提高了无人机飞行的自主性。本发明消除DQN算法存在的过拟合问题,极大地提高了无人机自主引导机动决策方法的离线训练效率,增强了无人机在飞行过程中的自主性,提高了无人机执行任务的效率。
Description
技术领域
本发明涉及飞行机动决策和人工智能领域,具体涉及一种机动决策方法。
背景技术
随着电子技术与无人机技术近年来的快速发展,无人机性能迅速提升,各种新功能层出不穷。其中,如何提升无人机飞行的自主性能、避免人为操作失误,逐渐成为 各国研究人员重点关注的研究方向。在传统的方法中,无人机向一个特定位置飞行时, 需要预先规划飞行航路,然后无人机飞行员根据预定航路操纵无人机飞行。目前,一 些导航控制方法被用于代替实现无人机的操纵者。通常,传统的方法基于博弈论、影 响图、动态贝叶斯网络、近似动态规划、专家系统和进化算法等实现。然而,博弈论 和影响图需要建立一个清晰、完整的问题模型,实现的过程相当复杂;动态贝叶斯网 络需要完全理解问题,在面对未知条件时适应性低;近似动态规划要求必须完整建立 问题的状态转移概率模型;专家系统要求研究人员必须建立一个完美的决策规则库; 进化算法在解决在线求解问题时效率很低。近年来,由于电子技术的快速进步与人工 智能技术的成熟化应用,多种多样的人工智能算法已经被逐渐应用于控制决策领域。 有学者提出了深度Q学习算法(Deep Q-LearningNetwork,DQN),将深度学习理论 引入强化学习的实现中,采用深度神经网络拟合状态动作值函数,极大地提高了强化 学习算法在解决工程问题上的可实践性。但是,深度Q学习算法(Deep Q-Learning, DQN)本身存在对状态动作值的过拟合问题。
发明内容
为了克服现有技术的不足,本发明提供一种基于优先级采样双深度Q学习算法(Prioritized Experience Replay Double DQN,PER-DDQN)与马尔可夫决策过程相结 合的无人机自主引导机动决策方法,引入双Q学习算法(Double Q-Learning)改进深 度Q学习算法的迭代方式,提高训练效率,采用优先级采样方法促进算法快速收敛, 更好地利用历史数据的多样性;无人机可根据外界飞行环境状态实现自主引导机动决 策,完成固定目标点下的自主引导机动决策,有效地提高了无人机飞行的自主性。
本发明解决其技术问题所采用的技术方案包括以下步骤:
1)建立无人机三自由度运动模型式中,Nx、Ny分别 为无人机在飞机坐标系中的切向过载和法向过载,v为无人机速度,θ为无人机航迹倾 斜角,ψc为无人机航迹偏转角,γc为速度倾斜角,x、y和z为无人机在地理坐标系中 的三向坐标,m为无人机质量,g为重力加速度;
2)采用马尔可夫决策过程理论建立无人机飞行仿真训练环境,以XUAV=(x,y,z)为无人机位置,XTGT=(x,y,z)为目标点位置,ψc为无人机航迹偏转角,ψT为目标点相对 无人机的方位,DT为目标点与无人机的距离;
无人机飞行状态空间定义为S={DT,ψT,ψc},式中,为无人机与目标位置的距离,ψT∈[-π,π]为目标点相对无人机的方位,ψc为无人机航迹偏转角,XUAV为无人机位置,XTGT为目标点位置,为N方向的单位向 量,为目标点相对无人机的距离矢量,为无人机与目标位置的距离;
无人机飞行动作空间定义为A(s)={a0,a1,…,an},式中,ai代表第i种机动,五种机动分别为平飞、右转、左转、轻微右转和轻微左转;基于基本操纵库建立包含5种 机动的飞行动作空间;
根据任务目标设计无人机飞行评价函数式 中,为仿真第k步无人机与目标点之间的距离,Dmin为无人机完成任务时与目标点 的最短距离,和分别代表仿真第k步和第k+1步无人机与目标点的距离,Ts为 仿真步长,为无人机最大速度;建立如下任务终止回报函数:
当任务成功完成时,回报为1.0,否则为0.0;
3)基于深度神经网络生成无人机自主引导机动决策网络,基于优先级采样设计训练样本集生成方法;
3.1)、构建无人机自主引导机动决策网络;根据马尔可夫决策过程理论的定义,训练目标如下:
式(1)中,v(s,π)为效用函数,采用马尔可夫决策过程理论中的未来报酬折扣 模型实现,未来报酬折扣模型效用函数定义如下:
采用深度神经网络构建状态动作值函数网络Q(s,a;θ)与目标网络Q(s,a;θ-),网络 输入层神经元数目为无人机飞行状态空间维度,网络输出层为无人机飞行动作空间维数,目标网络Q(s,a;θ-)结构与Q(s,a;θ)相同;根据选择最优机动 决策,其中,st∈S为当前环境状态,at∈A(s)为机动决策结果;每过C个训练周期, 将Q(s,a;θ)的参数赋值给Q(s,a;θ-);
3.2)、基于优先级经验回放(Prioritized Experience Replay)构建经验集采样,经 验集D定义如下:
D={s,a,r,s′} (4)
式(4)中,s为当前环境状态,a为当前状态下的最优动作,r为环境返回的回报, s′为环境采用a后的状态;在训练过程中,根据公式(4)的定义将每一时刻所产生的 信息生成样本存入经验集D中,经验样本的采样概率为:
式(5)中,P(i)为第i个样本的采样概率,pi为第i个样本的优先度,α∈[0,1]为 优先级采样应用程度,表示在样本采样时优先级采样方法的应用程度;样本优先度的 计算公式如下:
pi=|δi|+ε (6)
式(14)中,δi为样本的时序差分误差(TD-error),为避免pi为0,引入一个极 小值修正量ε∈(0,0.1),δi通过式(7)计算:
为消除优先级采样方法带来的训练样本集的偏差,引入重要性采样权重如下所示:
式中,ωi为使用第i条样本训练时的重要性采样权重,用于消除因使用优先级采样所产生的训练集分布均值与随机采样方法的误差,N为经验集容量,P(i)为第i条 样本的被采样概率,β∈[0,1]为重要性采样权重应用程度,表示该权重在实际训练中所 产生的影响;为了训练的稳定性,根据对ωi进行归一化处理,简化后的重要 性权重计算公式为:
β从初值β0∈[0,1)开始逐渐增大到1.0;
3.3)、基于Double Q-Learning算法设计Q(s,a;θ-)与Q(s,a;θ)的参数训练方程;根 据Double Q-Learning算法定义,得到Q(s,a)的迭代公式,如式(10)所示:
式中,αs为参数更新步长,r为状态s下采用动作a的报酬,γ∈[0,1]为未来报酬折扣参数;在训练过程中,首先根据优先级采样方法获取k组训练样本,则网络Q(s,a;θ) 的优化目标定义为:
式中,(si,ai,ri,s′i)为第i组样本,分别为状态si,决策动作ai,回报ri和下一时刻状态s′i,结合重要性采样权重,Q(s,a;θ)网络的参数更新量Θ通过式(12)累积得到:
式中,δj为第j个样本的时序差分误差(TD-error),根据式(7)计算得到;
4)、对评价网络Q(s,a;θ)进行训练;
4.1)、载入训练样本集大小k,网络训练步长η,训练周期K,经验集容量N,指 数α和β,目标网络参数更新周期C,单周期最长仿真步数T,仿真总数M,初始化经 验集D,评价网络Q(s,a;θ)和目标网络Q(s,a;θ-);
4.2)、完成M周期训练,每周期进行T步,每过K步进行一次网络训练;算法在 每个决策时刻依次完成观察环境状态、选择最优动作、观察动作执行后的环境状态并 获取环境反馈的报酬流程;
4.3)、在每次训练时,进行k次采样,每次采样时完成以下步骤:
(1)根据式(5)完成第j个训练样本的采样;
(2)根据式(9)计算第j个训练样本对应的重要性采样权重ωj;
(3)根据式(7)计算第j个训练样本的时间差分误差δj;
(4)更新第j个训练样本在经验集D中的有限度,令pj=|δj|;
(5)根据式(12)累积网络Q(s,a;θ)的参数向量的更新量;
4.4)、根据参数更新量Θ,使用适应性矩估计算法(Adaptive MomentEstimation, Adam)对网络Q(s,a;θ)的参数进行优化,每过C步更新目标网络Q(s,a;θ-)的参数θ-; Adam优化算法是一种替代随机梯度下降法的一阶优化算法,Adam通过计算梯度的一 阶矩估计和二阶矩估计,针对不同训练情况生成独立的自适应性学习率;首先,计算 网络梯度,如式(13)所示:
式中,gt为网络Q(s,a;θ)在第t步优化时的梯度;然后,计算梯度的一阶矩估计:
mt=β1·mt-1+(1-β1)·gt (14)
式中,mt为梯度的一阶矩估计,β1为一阶矩估计的指数衰减率,mt-1为梯度的一 阶矩估计的历史值,根据式(15)计算梯度的二阶矩估计:
式中,vt为梯度的二阶矩估计,β2为二阶矩估计的指数衰减率,vt-1为梯度的二阶矩估计的历史值;然后修正一阶矩估计的偏差:
式中,Δθ为参数更新量,η为学习率,ε∈(0,0.1]为极小值量,重复上述计算过程,直至网络收敛;
本发明的有益效果是:引入Double Q-Learning算法消除DQN算法存在的过拟合问题,采用优先级采样方法代替均匀采样方法,极大地提高了无人机自主引导机动决策 方法的离线训练效率。同时,由于深度强化学习方法的应用,本发明增强了无人机在 飞行过程中的自主性,提高了无人机执行任务的效率。
附图说明
图1是马尔可夫决策过程理论模型示意图;
图2是固定目标点相对无人机位置描述图;
图3是PER-DDQN算法框架图;
图4是状态动作值函数Q(s,a)的网络结构示意图。
具体实施方式
本发明基于人工智能技术,提出了基于PER-DDQN的无人机自主引导机动决策方法,基于马尔可夫决策过程理论构建无人机自主引导机动决策模型,进而生成算法仿 真训练环境,从而根据环境反馈生成无人机机动决策量,引导及控制无人机的飞行机 动方式。该方法能够提高无人机自主引导机动决策算法的训练效率,提升无人机自主 引导飞行能力。本发明能够实现无人机自主引导机动决策,安全快速地从起点飞向终 点。
本发明采用如下技术方案:
1)建立无人机三自由度运动模型式中,Nx、Ny分别 为无人机在飞机坐标系中的切向过载和法向过载,v为无人机速度,θ为无人机航迹倾 斜角,ψc为无人机航迹偏转角,γc为速度倾斜角,x、y和z为无人机在地理坐标系中 的三向坐标,m为无人机质量,g为重力加速度;
2)采用马尔可夫决策过程理论建立无人机飞行仿真训练环境,如图1所示为马尔可夫决策过程模型。如图2所示为目标点相对无人机的状态描述,图中,N为正北方 向,E为正东方向,以XUAV=(x,y,z)为无人机位置,XTGT=(x,y,z)为目标点位置,ψc为 无人机航迹偏转角,ψT为目标点相对无人机的方位,DT为目标点与无人机的距离;
无人机飞行状态空间定义为S{DT,ψT,ψc},式中,为无人机与目标 位置的距离,ψT∈[-π,π]为目标点相对无人机的方位,ψc为无人机航迹偏转角,XUAV为无人机位置,XTGT为目标点位置,为N方向的单位向 量,为目标点相对无人机的距离矢量,为无人机与目标位置的距离;
无人机飞行动作空间定义为A(s)={a0,a1,…,an},ai代表第i种机动。基于基本操纵库建立包含5种机动的飞行动作空间,如表1所示为无人机飞行动作库机动定义。 表中,Nx为无人机在飞机坐标系中的切向过载,Ny为飞机坐标系中的法向过载,γc为 速度倾斜角,五种机动分别为平飞、右转、左转、轻微右转和轻微左转。
表1无人机飞行动作库定义
根据任务目标设计无人机飞行评价函数式 中,为仿真第k步无人机与目标点之间的距离,Dmin为无人机完成任务时与目标点 的最短距离,和分别代表仿真第k步和第k+1步无人机与目标点的距离,Ts为 仿真步长,为无人机最大速度;建立如下任务终止回报函数:
当任务成功完成时,回报为1.0,否则为0.0;
3)、基于深度神经网络生成无人机自主引导机动决策网络,基于优先级采样设计训练样本集生成方法。如图3所示为PER-DDQN算法结构图。
3.1)、构建无人机自主引导机动决策网络。根据马尔可夫决策过程理论的定义,训练目标如下:
式中,v(s,π)为效用函数,采用马尔可夫决策过程理论中的未来报酬折扣模型 实现,如式(2)所示为未来报酬折扣模型效用函数定义。
式中,为使用策略π的效用函数的期望。根据深度学习理论,采用深度神经网络构建状态动作值函数网络Q(s,a;θ)与目标网络Q(s,a;θ-),如图4所示为 Q(s,a;θ)网络结构。网络输入层神经元数目为无人机飞行状态空间维度,网络输出层 为无人机飞行动作空间维数。此外,目标网络Q(s,a;θ-)结构与Q(s,a;θ)相同。在训练 过程中,最优机动决策st∈S为当前环境状态,at∈A(s)为机动 决策结果。除此之外,每过C个训练周期,将Q(s,a;θ)的参数赋值给Q(s,a;θ-)。
3.2)、基于优先级经验回放(Prioritized Experience Replay)构建经验集采样,经 验集D定义为:
D={s,a,r,s′} (4)
式中,s为当前环境状态,a为当前状态下的最优动作,r为环境返回的回报,s′为环境采用a后的状态。在训练过程中,根据上述定义将每一时刻所产生的信息生成样 本存入经验集D中,经验样本的采样概率为:
式中,P(i)为第i个样本的采样概率,pi为第i个样本的优先度,α∈[0,1]为优先级采 样应用程度,表示在样本采样时优先级采样方法的应用程度。样本优先度的计算公式如下:
pi=|δi|+ε (6)
式中,δi为样本的时序差分误差(TD-error),为避免pi为0,引入一个极小值修 正量ε∈(0,0.1)。δi可以通过式(7)计算:
为消除优先级采样方法带来的训练样本集的偏差,引入重要性采样权重:
式中,ωi为使用第i条样本训练时的重要性采样权重,该变量用于消除因使用优先级采样所产生的训练集分布均值与随机采样方法的误差,N为经验集容量,P(i)为 第i条样本的被采样概率,β∈[0,1]为重要性采样权重应用程度,表示该权重在实际训 练中所产生的影响。为了训练的稳定性,还需要根据对ωi进行归一化处理, 简化后的重要性权重计算公式为:
在训练初期,由于训练样本集的偏差较小可以忽略,β从初值β0∈[0,1)开始逐渐增 大到1.0。
3.3)、基于Double Q-Learning算法设计Q(s,a;θ-)与Q(s,a;θ)的参数训练方程,根 据Double Q-Learning算法定义,得到Q(s,a)的迭代公式,如式(10)所示:
式中,αs为参数更新步长,r为状态s下采用动作a的报酬,γ∈[0,1]为未来报酬折扣参数。进而,在训练过程中,首先根据优先级采样方法获取k组训练样本,则网 络Q(s,a;θ)的优化目标定义为:
式中,(si,ai,ri,s′i)为第i组样本,分别为状态si,决策动作ai,回报ri和下一时刻状态s′i。结合重要性采样权重,Q(s,a;θ)网络的参数更新量Θ通过式(12)累积得到。
式中,δj为第j个样本的时序差分误差(TD-error),根据式(7)计算得到。
4)、对评价网络Q(s,a;θ)进行训练。
4.1)、载入训练样本集大小k,网络训练步长η,训练周期K,经验集容量N,指 数αandβ,目标网络参数更新周期C,单周期最长仿真步数T,仿真总数M。初始化 经验集D,评价网络Q(s,a;θ)和目标网络Q(s,a;θ-)。
4.2)、完成M周期训练,每周期进行T步,每过K步进行一次网络训练。算法在 每个决策时刻依次完成观察环境状态、选择最优动作、观察动作执行后的环境状态并 获取环境反馈的报酬等流程。
4.3)、在每次训练时,进行k次采样,每次采样时完成以下步骤:
(1)根据式(5)完成第j个训练样本的采样;
(2)根据式(9)计算第j个训练样本对应的重要性采样权重ωj;
(3)根据式(7)计算第j个训练样本的时间差分误差δj;
(4)更新第j个训练样本在经验集D中的有限度,令pj=|δj|;
(5)根据式(12)累积网络Q(s,a;θ)的参数向量的更新量。
4.4、根据参数更新量Θ,使用适应性矩估计算法(Adaptive Moment Estimation,Adam)对网络Q(s,a;θ)的参数进行优化,每过C步更新目标网络Q(s,a;θ-)的参数θ-。 Adam优化算法是一种替代随机梯度下降法的一阶优化算法,Adam通过计算梯度的一 阶矩估计和二阶矩估计,针对不同训练情况生成独立的自适应性学习率。首先,计算 网络梯度,如式(13)所示。
式中,gt为网络Q(s,a;θ)在第t步优化时的梯度。然后,计算梯度的一阶矩估计:
mt=β1·mt-1+(1-β1)·gt (14)
式中,mt为梯度的一阶矩估计,β1为一阶矩估计的指数衰减率,mt-1为梯度的一阶矩估计的历史值。根据式(15)计算梯度的二阶矩估计:
式中,vt为梯度的二阶矩估计,β2为二阶矩估计的指数衰减率,vt-1为梯度的二阶矩估计的历史值。然后修正一阶矩估计的偏差:
式中,Δθ为参数更新量,η为学习率,ε∈(0,0.1]为极小值量,重复上述计算过程,直至网络收敛。
下面对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会 淡化本发明的主要内容时,这些描述在这里将被忽略。
1)、建立无人机运动模型后,根据实际无人机的生产规格设置无人机模型的部分参数和约束条件,包括了无人机重量m,最小、最大飞行速度(本实例中考虑设为 [200m/s,400m/s]),最大爬升角、最大俯冲角(本实例中考虑限制在[-60°,70°]中),最 大转弯半径(本实例中考虑设为1km)。在仿真时,无人机速度应大于最小飞行速度, 小于最大飞行速度,无人机航迹倾斜角应被限制在最大爬升角和最大俯冲角之间,无 人机航迹偏转角应满足最大转弯半径的约束。
2)、建立无人机飞行仿真训练环境。如图1所示为马尔可夫决策过程模型。根据 马尔可夫决策过程模型定义,设计无人机飞行状态空间、无人机飞行动作空间及无人 机飞行评价函数。如图2所示为目标点相对无人机的状态描述图,图中,N为正北方 向,E为正东方向,XUAV=(x,y,z)为无人机位置,XTGT=(x,y,z)为目标点位置,ψc为 无人机航迹偏转角,ψT为目标点相对无人机的方位,DT为目标点与无人机的距离。
2.1)、如式(20)所示为无人机飞行状态空间定义。
S={DT,ψT,ψc} (20)
2.2)、如式(22)所示为无人机飞行动作空间定义。
A(s)={a0,a1,…,an} (22)
式中,ai代表第i种机动。基于基本操纵库建立包含5种机动的飞行动作空间, 如表1所示为无人机飞行动作库机动定义。表中,Nx为无人机在飞机坐标系中的切向 过载,Ny为飞机坐标系中的法向过载,γc为速度倾斜角,为无人机最大法向过载, 五种机动分别为平飞、右转、左转、轻微右转和轻微左转。
2.3、根据任务目标设计无人机飞行评价函数,如式(23)所示为任务目标,即任 务成功完成条件。
式中,和分别代表仿真第k步和第k+1步无人机与目标点的距离,Ts∈(0,1] 为仿真步长,为无人机最大速度。为增强任务完成结果影响,建立任务终止回报 函数,当任务成功完成时,回报为1.0,否则为0.0,任务终止回报函数定义为:
3)、基于深度神经网络生成无人机自主引导机动决策网络,基于优先级采样设计训练样本集生成方法。如图3所示为PER-DDQN算法结构图。
3.1)、构建无人机自主引导机动决策网络,即状态动作值函数网络Q(s,a;θ),如图4所示为Q(s,a;θ)网络结构。如表2所示为网络的具体参数设置,输入层神经元数目为 3,输出层数目为5,包括4层隐层,每层的神经元数目与激活函数类型见表2中所示。
表2评估网络Q(s,a;θ)具体参数
如表3所示为网络输入参数的范围,在数据输入网络前,需要对各维参数进行归一化处理。
表3网络输入数据范围
3.2、基于优先级经验回放(Prioritized Experience Replay)构建历史经验集,如式 (4)所示为经验集D定义。
D={s,a,r,s′} (4)
式中,s为当前环境状态,a为当前状态下的最优动作,r为环境返回的回报,s′为环境采用a后的状态。在训练过程中,根据上述定义将每一时刻所产生的信息生成样 本存入经验集D中。如式(5)所示为经验样本的采样概率。
式中,P(i)为第i个样本的采样概率,pi为第i个样本的优先度,α∈[0,1](本实 例中考虑设为0.5~0.7)为优先级采样应用程度,表示在样本采样时优先级采样方法的 应用程度。如式(6)所示为样本优先度的计算公式。
pi=|δi|+ε (6)
式中,δi为样本的时序差分误差(TD-error),为避免pi为0,引入一个极小值ε>0(本实例中考虑设为0.01~0.1)。δi通过式(7)计算:
为消除优先级采样方法带来的训练样本集的偏差,引入重要性采样权重,如式(8)所示:
式中,ωi为使用第i条样本训练时的重要性采样权重,该变量用于消除因使用优先级采样所产生的训练集分布均值与随机采样方法的误差,N为经验集容量,P(i)为 第i条样本的被采样概率,β∈[0,1](本实例中考虑设为1.0)为重要性采样权重应用程 度,表示该权重在实际训练中所产生的影响。为了训练的稳定性,还需要根据对ωi进行归一化处理,简化后的重要性权重计算公式为:
如表4所示为算法仿真训练过程中部分参数设置。无人机飞行区域为 50km×50km,无人机仿真步长为1.0s,在训练过程中,单周期内最多仿真步数为 T=1000,总仿真周期数为M=10000,经验集容量为N=10000,训练样本集大小 k=32,优先级采样应用程度α=0.6,重要性采样参数应用程度初始值β0=0.4,训练 过程中增量βinc=0.0001,直至增长为1。
表4算法仿真训练时部分参数设置
参数 | 值 |
飞行区域 | 50km×50km |
仿真步长 | 1.0s |
最大仿真步数 | 1000 |
最大仿真周期数 | 10000 |
经验集容量 | 10000 |
训练样本集大小 | 32 |
α | 0.6 |
β0 | 0.4 |
βinc | 0.0001 |
3.3)、基于Double Q-Learning算法设计Q(s,a;θ)与Q(s,a;θ-)的参数训练方程。如 式(12)所示为网络参数优化累积公式。
δj的计算公式为:
4、对网络Q(s,a;θ)的训练。
4.1、载入训练样本集大小k,网络训练步长η,训练周期K,经验集容量N,指数 α,β0和βinc,目标网络参数更新周期C,单周期最长仿真步数T,仿真总数M。初始 化经验集D,网络Q(s,a;θ)和目标网络Q(s,a;θ-)。
4.2、完成M周期训练,每周期进行T步,每过K(本实例中考虑设为10~100) 步进行一次网络训练。算法在每个决策时刻依次完成观察环境状态、选择最优动作、 观察动作执行后的环境状态并获取环境反馈的报酬等流程。
4.3、在每次训练时,进行k次采样,每次采样时完成以下步骤:
(1)根据式(5)完成第j个训练样本的采样;
(2)根据式(9)计算第j个训练样本对应的重要性采样权重ωj;
(3)根据式(7)计算第j个训练样本的时间差分误差δj;
(4)更新第j个训练样本在经验集D中的有限度,令pj=|δj|;
(5)根据式(12)累积网络Q(s,a;θ)的参数向量的更新量。
4.4、根据参数更新量Θ,使用Adam算法对网络Q(s,a;θ)的参数进行优化,每过 C(本实例中考虑设为5~10)步更新目标网络Q(s,a;θ-)的参数θ-。Adam算法中所涉 及参数:一阶矩估计的指数衰减率β1=0.9,二阶矩估计的指数衰减率β2=0.999,学 习率η=0.001,极小值ε=10-8。
本发明提出了无人机自主引导机动决策算法,显著提高了算法的训练效率。采用本发明中所设计的方法,训练结果具有一定的泛化能力,无人机可以实现自主地从起 点飞到终点,增强了无人机在执行任务过程中的自主性,提高了无人机执行任务的效 率。
Claims (1)
1.一种基于DDQN的无人机自主引导机动决策方法,其特征在于包括下述步骤:
1)建立无人机三自由度运动模型式中,Nx、Ny分别为无人机在飞机坐标系中的切向过载和法向过载,v为无人机速度,θ为无人机航迹倾斜角,ψc为无人机航迹偏转角,γc为速度倾斜角,x、y和z为无人机在地理坐标系中的位置坐标,m为无人机质量,g为重力加速度;
2)采用马尔可夫决策过程理论建立无人机飞行仿真训练环境,以XUAV=(x,y,z)为无人机位置,XTGT=(x,y,z)为目标点位置,ψc为无人机航迹偏转角,ψT为目标点相对无人机的方位,DT为目标点与无人机的距离;
无人机飞行状态空间定义为S={DT,ψT,ψc},式中,为无人机与目标位置的距离,ψT∈[-π,π]为目标点相对无人机的方位,ψc为无人机航迹偏转角,XUAV为无人机位置,XTGT为目标点位置,为N方向的单位向量,为目标点相对无人机的距离矢量,为无人机与目标位置的距离;
无人机飞行动作空间定义为A(s)={a0,a1,…,an},式中,ai代表第i种机动,五种机动分别为平飞、右转、左转、轻微右转和轻微左转;基于基本操纵库建立包含5种机动的飞行动作空间;
根据任务目标设计无人机飞行评价函数式中,为仿真第k步无人机与目标点之间的距离,Dmin为无人机完成任务时与目标点的最短距离,和分别代表仿真第k步和第k+1步无人机与目标点的距离,Ts为仿真步长,为无人机最大速度;建立如下任务终止回报函数:
当任务成功完成时,回报为1.0,否则为0.0;
3)基于深度神经网络生成无人机自主引导机动决策网络,基于优先级采样设计训练样本集生成方法;
3.1)、构建无人机自主引导机动决策网络;根据马尔可夫决策过程理论的定义,训练目标如下:
式(1)中,v(s,π)为效用函数,采用马尔可夫决策过程理论中的未来报酬折扣模型实现,未来报酬折扣模型效用函数定义如下:
采用深度神经网络构建状态动作值函数网络Q(s,a;θ)与目标网络Q(s,a;θ-),网络输入层神经元数目为无人机飞行状态空间维度,网络输出层为无人机飞行动作空间维数,目标网络Q(s,a;θ-)结构与Q(s,a;θ)相同;根据选择最优机动决策,其中,st∈S为当前环境状态,at∈A(s)为机动决策结果;每过C个训练周期,将Q(s,a;θ)的参数赋值给Q(s,a;θ-);
3.2)、基于优先级经验回放(Prioritized Experience Replay)构建经验集采样,经验集D定义如下:
D={s,a,r,s′} (4)
式(4)中,s为当前环境状态,a为当前状态下的最优动作,r为环境返回的回报,s′为环境采用a后的状态;在训练过程中,根据公式(4)的定义将每一时刻所产生的信息生成样本存入经验集D中,经验样本的采样概率为:
式(5)中,P(i)为第i个样本的采样概率,pi为第i个样本的优先度,α∈[0,1]为优先级采样应用程度,表示在样本采样时优先级采样方法的应用程度;样本优先度的计算公式如下:
pi=|δi|+εp (6)
式(14)中,δi为样本的时序差分误差(TD-error),为避免pi为0,引入一个极小值修正量εp∈(0,0.1),δi通过式(7)计算:
为消除优先级采样方法带来的训练样本集的偏差,引入重要性采样权重如下所示:
式中,ωi为使用第i条样本训练时的重要性采样权重,用于消除因使用优先级采样所产生的训练集分布均值与随机采样方法的误差,N为经验集容量,P(i)为第i条样本的被采样概率,β∈[0,1]为重要性采样权重应用程度,表示该权重在实际训练中所产生的影响;为了训练的稳定性,根据对ωi进行归一化处理,简化后的重要性权重计算公式为:
β从初值β0∈[0,1)开始逐渐增大到1.0;
3.3)、基于Double Q-Learning算法设计Q(s,a;θ-)与Q(s,a;θ)的参数训练方程;根据Double Q-Learning算法定义,得到Q(s,a)的迭代公式,如式(10)所示:
式中,αs为参数更新步长,r为状态s下采用动作a的报酬,γ∈[0,1]为未来报酬折扣参数;在训练过程中,首先根据优先级采样方法获取k组训练样本,则网络Q(s,a;θ)的优化目标定义为:
式中,(si,ai,ri,si′)为第i组样本,分别为状态si,决策动作ai,回报ri和下一时刻状态si′,结合重要性采样权重,Q(s,a;θ)网络的参数更新量Θ通过式(12)累积得到:
式中,δj为第j个样本的时序差分误差(TD-error),根据式(7)计算得到;
4)、对评价网络Q(s,a;θ)进行训练;
4.1)、载入训练样本集大小k,网络训练步长η,训练周期K,经验集容量N,指数α和β,目标网络参数更新周期C,单周期最长仿真步数T,仿真总数M,初始化经验集D,评价网络Q(s,a;θ)和目标网络Q(s,a;θ-);
4.2)、完成M周期训练,每周期进行T步,每过K步进行一次网络训练;算法在每个决策时刻依次完成观察环境状态、选择最优动作、观察动作执行后的环境状态并获取环境反馈的报酬流程;
4.3)、在每次训练时,进行k次采样,每次采样时完成以下步骤:
(1)根据式(5)完成第j个训练样本的采样;
(2)根据式(9)计算第j个训练样本对应的重要性采样权重ωj;
(3)根据式(7)计算第j个训练样本的时间差分误差δj;
(4)更新第j个训练样本在经验集D中的有限度,令pj=|δj|;
(5)根据式(12)累积网络Q(s,a;θ)的参数向量的更新量;
4.4)、根据参数更新量Θ,使用适应性矩估计算法(Adaptive Moment Estimation,Adam)对网络Q(s,a;θ)的参数进行优化,每过C步更新目标网络Q(s,a;θ-)的参数θ-;Adam优化算法是一种替代随机梯度下降法的一阶优化算法,Adam通过计算梯度的一阶矩估计和二阶矩估计,针对不同训练情况生成独立的自适应性学习率;首先,计算网络梯度,如式(13)所示:
式中,gt为网络Q(s,a;θ)在第t步优化时的梯度;然后,计算梯度的一阶矩估计:
mt=β1·mt-1+(1-β1)·gt (14)
式中,mt为梯度的一阶矩估计,β1为一阶矩估计的指数衰减率,mt-1为梯度的一阶矩估计的历史值,根据式(15)计算梯度的二阶矩估计:
式中,vt为梯度的二阶矩估计,β2为二阶矩估计的指数衰减率,vt-1为梯度的二阶矩估计的历史值;然后修正一阶矩估计的偏差:
式中,Δθ为参数更新量,η为学习率,εa∈(0,0.1]为极小值量,重复上述计算过程,直至网络收敛;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010481676.2A CN112198870B (zh) | 2020-06-01 | 2020-06-01 | 基于ddqn的无人机自主引导机动决策方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010481676.2A CN112198870B (zh) | 2020-06-01 | 2020-06-01 | 基于ddqn的无人机自主引导机动决策方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112198870A CN112198870A (zh) | 2021-01-08 |
CN112198870B true CN112198870B (zh) | 2022-09-02 |
Family
ID=74006429
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010481676.2A Active CN112198870B (zh) | 2020-06-01 | 2020-06-01 | 基于ddqn的无人机自主引导机动决策方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112198870B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11526813B2 (en) * | 2018-11-29 | 2022-12-13 | Viettel Group | Method of automatic identification of flying targets by motion, time, and 3/A code information |
CN112904890B (zh) * | 2021-01-15 | 2023-06-30 | 北京国网富达科技发展有限责任公司 | 一种电力线路的无人机自动巡检系统及方法 |
CN113064422B (zh) * | 2021-03-09 | 2022-06-28 | 河海大学 | 基于双神经网络强化学习的自主水下航行器路径规划方法 |
CN113411099B (zh) * | 2021-05-28 | 2022-04-29 | 杭州电子科技大学 | 一种基于pper-dqn的双变跳频图案智能决策方法 |
CN113511215B (zh) * | 2021-05-31 | 2022-10-04 | 西安电子科技大学 | 一种混合自动驾驶决策方法、设备及计算机存储介质 |
CN113759717A (zh) * | 2021-08-20 | 2021-12-07 | 中国航空工业集团公司西安飞行自动控制研究所 | 一种近实时机动轨迹生成与跟踪的控制方法 |
CN113721655B (zh) * | 2021-08-26 | 2023-06-16 | 南京大学 | 一种控制周期自适应的强化学习无人机稳定飞行控制方法 |
CN114089762B (zh) * | 2021-11-22 | 2024-06-21 | 江苏科技大学 | 一种基于强化学习的水空两栖无人航行器路径规划方法 |
CN114371729B (zh) * | 2021-12-22 | 2022-10-25 | 中国人民解放军军事科学院战略评估咨询中心 | 一种基于距离优先经验回放的无人机空战机动决策方法 |
CN114492718A (zh) * | 2022-01-25 | 2022-05-13 | 南方科技大学 | 飞行决策生成方法和装置、计算机设备、存储介质 |
CN114489144B (zh) * | 2022-04-08 | 2022-07-12 | 中国科学院自动化研究所 | 无人机自主机动决策方法、装置及无人机 |
CN114995455A (zh) * | 2022-06-23 | 2022-09-02 | 中山大学·深圳 | 一种车辆全局路径规划方法及系统 |
CN115190489A (zh) * | 2022-07-07 | 2022-10-14 | 内蒙古大学 | 基于深度强化学习的认知无线网络动态频谱接入方法 |
CN117371655B (zh) * | 2023-10-12 | 2024-06-18 | 中山大学 | 一种无人机协同决策的评价方法、系统、设备和介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107292392A (zh) * | 2017-05-11 | 2017-10-24 | 苏州大学 | 基于深度带权双q学习的大范围监控方法及监控机器人 |
CN110471444A (zh) * | 2019-08-19 | 2019-11-19 | 西安微电子技术研究所 | 基于自主学习的无人机智能避障方法 |
CN110488861A (zh) * | 2019-07-30 | 2019-11-22 | 北京邮电大学 | 基于深度强化学习的无人机轨迹优化方法、装置和无人机 |
CN110515303A (zh) * | 2019-09-17 | 2019-11-29 | 余姚市浙江大学机器人研究中心 | 一种基于ddqn的自适应动态路径规划方法 |
CN110531786A (zh) * | 2019-09-10 | 2019-12-03 | 西北工业大学 | 基于dqn的无人机机动策略自主生成方法 |
CN110673488A (zh) * | 2019-10-21 | 2020-01-10 | 南京航空航天大学 | 一种基于优先级随机抽样策略的Double DQN无人机隐蔽接敌方法 |
CN110806756A (zh) * | 2019-09-10 | 2020-02-18 | 西北工业大学 | 基于ddpg的无人机自主引导控制方法 |
-
2020
- 2020-06-01 CN CN202010481676.2A patent/CN112198870B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107292392A (zh) * | 2017-05-11 | 2017-10-24 | 苏州大学 | 基于深度带权双q学习的大范围监控方法及监控机器人 |
CN110488861A (zh) * | 2019-07-30 | 2019-11-22 | 北京邮电大学 | 基于深度强化学习的无人机轨迹优化方法、装置和无人机 |
CN110471444A (zh) * | 2019-08-19 | 2019-11-19 | 西安微电子技术研究所 | 基于自主学习的无人机智能避障方法 |
CN110531786A (zh) * | 2019-09-10 | 2019-12-03 | 西北工业大学 | 基于dqn的无人机机动策略自主生成方法 |
CN110806756A (zh) * | 2019-09-10 | 2020-02-18 | 西北工业大学 | 基于ddpg的无人机自主引导控制方法 |
CN110515303A (zh) * | 2019-09-17 | 2019-11-29 | 余姚市浙江大学机器人研究中心 | 一种基于ddqn的自适应动态路径规划方法 |
CN110673488A (zh) * | 2019-10-21 | 2020-01-10 | 南京航空航天大学 | 一种基于优先级随机抽样策略的Double DQN无人机隐蔽接敌方法 |
Non-Patent Citations (2)
Title |
---|
Path Planning for UAV-Mounted Mobile Edge Computing with Deep Reinforcement Learning;Qian Liu et al.;《IEEE》;20200323;第1-6页 * |
基于深度强化学习的UAV航路自主引导机动控制决策算法;张堃等;《系统工程与电子技术》;20200226;第42卷(第7期);第1567-1574页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112198870A (zh) | 2021-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112198870B (zh) | 基于ddqn的无人机自主引导机动决策方法 | |
CN110673620B (zh) | 一种基于深度强化学习的四旋翼无人机航线跟随控制方法 | |
CN111667513B (zh) | 一种基于ddpg迁移学习的无人机机动目标跟踪方法 | |
CN108319286B (zh) | 一种基于强化学习的无人机空战机动决策方法 | |
CN110502033B (zh) | 一种基于强化学习的固定翼无人机群集控制方法 | |
CN110806756B (zh) | 基于ddpg的无人机自主引导控制方法 | |
CN110531786B (zh) | 基于dqn的无人机机动策略自主生成方法 | |
CN114048889B (zh) | 基于长短期记忆网络的飞行器轨迹预测的方法 | |
Clarke et al. | Deep reinforcement learning control for aerobatic maneuvering of agile fixed-wing aircraft | |
CN110908281A (zh) | 无人直升机姿态运动有限时间收敛强化学习控制方法 | |
CN112947592B (zh) | 一种基于强化学习的再入飞行器轨迹规划方法 | |
CN113377121B (zh) | 一种基于深度强化学习的飞行器智能抗扰动控制方法 | |
CN111240345A (zh) | 一种基于双bp网络增强学习框架的水下机器人轨迹跟踪方法 | |
CN111538241A (zh) | 一种平流层飞艇水平轨迹智能控制方法 | |
CN113759979B (zh) | 基于事件驱动的无人机吊挂系统在线轨迹规划方法 | |
CN109358646B (zh) | 带有乘性噪声的导弹自主编队队形随机控制系统建模方法 | |
CN113885320A (zh) | 一种基于混合量子鸽群优化的飞行器随机鲁棒控制方法 | |
CN115033022A (zh) | 面向移动平台基于专家经验的ddpg无人机降落方法 | |
CN116974299A (zh) | 基于延迟经验优先回放机制的强化学习无人机航迹规划方法 | |
Bøhn et al. | Data-efficient deep reinforcement learning for attitude control of fixed-wing UAVs: Field experiments | |
CN112859889A (zh) | 基于自适应动态规划的自主式水下机器人控制方法和系统 | |
CN114675673B (zh) | 一种空中动目标追踪方法及系统 | |
CN114527795A (zh) | 一种基于增量在线学习的飞行器智能控制方法 | |
CN112560343B (zh) | 基于深度神经网络与打靶算法的J2摄动Lambert问题求解方法 | |
CN116954258A (zh) | 未知扰动下多四旋翼无人机编队的分层控制方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |