CN112198870B - 基于ddqn的无人机自主引导机动决策方法 - Google Patents

基于ddqn的无人机自主引导机动决策方法 Download PDF

Info

Publication number
CN112198870B
CN112198870B CN202010481676.2A CN202010481676A CN112198870B CN 112198870 B CN112198870 B CN 112198870B CN 202010481676 A CN202010481676 A CN 202010481676A CN 112198870 B CN112198870 B CN 112198870B
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
training
formula
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010481676.2A
Other languages
English (en)
Other versions
CN112198870A (zh
Inventor
张堃
李珂
时昊天
张振冲
刘泽坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202010481676.2A priority Critical patent/CN112198870B/zh
Publication of CN112198870A publication Critical patent/CN112198870A/zh
Application granted granted Critical
Publication of CN112198870B publication Critical patent/CN112198870B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/0088Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明提供了一种基于DDQN的无人机自主引导机动决策方法,基于优先级采样双深度Q学习算法与马尔可夫决策过程相结合的无人机自主引导机动决策方法,引入双Q学习算法改进深度Q学习算法的迭代方式,提高训练效率,采用优先级采样方法促进算法快速收敛,更好地利用历史数据的多样性;无人机可根据外界飞行环境状态实现自主引导机动决策,完成固定目标点下的自主引导机动决策,有效地提高了无人机飞行的自主性。本发明消除DQN算法存在的过拟合问题,极大地提高了无人机自主引导机动决策方法的离线训练效率,增强了无人机在飞行过程中的自主性,提高了无人机执行任务的效率。

Description

基于DDQN的无人机自主引导机动决策方法
技术领域
本发明涉及飞行机动决策和人工智能领域,具体涉及一种机动决策方法。
背景技术
随着电子技术与无人机技术近年来的快速发展,无人机性能迅速提升,各种新功能层出不穷。其中,如何提升无人机飞行的自主性能、避免人为操作失误,逐渐成为 各国研究人员重点关注的研究方向。在传统的方法中,无人机向一个特定位置飞行时, 需要预先规划飞行航路,然后无人机飞行员根据预定航路操纵无人机飞行。目前,一 些导航控制方法被用于代替实现无人机的操纵者。通常,传统的方法基于博弈论、影 响图、动态贝叶斯网络、近似动态规划、专家系统和进化算法等实现。然而,博弈论 和影响图需要建立一个清晰、完整的问题模型,实现的过程相当复杂;动态贝叶斯网 络需要完全理解问题,在面对未知条件时适应性低;近似动态规划要求必须完整建立 问题的状态转移概率模型;专家系统要求研究人员必须建立一个完美的决策规则库; 进化算法在解决在线求解问题时效率很低。近年来,由于电子技术的快速进步与人工 智能技术的成熟化应用,多种多样的人工智能算法已经被逐渐应用于控制决策领域。 有学者提出了深度Q学习算法(Deep Q-LearningNetwork,DQN),将深度学习理论 引入强化学习的实现中,采用深度神经网络拟合状态动作值函数,极大地提高了强化 学习算法在解决工程问题上的可实践性。但是,深度Q学习算法(Deep Q-Learning, DQN)本身存在对状态动作值的过拟合问题。
发明内容
为了克服现有技术的不足,本发明提供一种基于优先级采样双深度Q学习算法(Prioritized Experience Replay Double DQN,PER-DDQN)与马尔可夫决策过程相结 合的无人机自主引导机动决策方法,引入双Q学习算法(Double Q-Learning)改进深 度Q学习算法的迭代方式,提高训练效率,采用优先级采样方法促进算法快速收敛, 更好地利用历史数据的多样性;无人机可根据外界飞行环境状态实现自主引导机动决 策,完成固定目标点下的自主引导机动决策,有效地提高了无人机飞行的自主性。
本发明解决其技术问题所采用的技术方案包括以下步骤:
1)建立无人机三自由度运动模型
Figure BDA0002517625690000021
式中,Nx、Ny分别 为无人机在飞机坐标系中的切向过载和法向过载,v为无人机速度,θ为无人机航迹倾 斜角,ψc为无人机航迹偏转角,γc为速度倾斜角,x、y和z为无人机在地理坐标系中 的三向坐标,m为无人机质量,g为重力加速度;
2)采用马尔可夫决策过程理论建立无人机飞行仿真训练环境,以XUAV=(x,y,z)为无人机位置,XTGT=(x,y,z)为目标点位置,ψc为无人机航迹偏转角,ψT为目标点相对 无人机的方位,DT为目标点与无人机的距离;
无人机飞行状态空间定义为S={DTTc},式中,
Figure BDA0002517625690000022
为无人机与目标位置的距离,ψT∈[-π,π]为目标点相对无人机的方位,ψc为无人机航迹偏转角,
Figure BDA0002517625690000023
XUAV为无人机位置,XTGT为目标点位置,
Figure BDA0002517625690000024
为N方向的单位向 量,
Figure BDA0002517625690000025
为目标点相对无人机的距离矢量,
Figure BDA0002517625690000026
为无人机与目标位置的距离;
无人机飞行动作空间定义为A(s)={a0,a1,…,an},式中,ai代表第i种机动,五种机动分别为平飞、右转、左转、轻微右转和轻微左转;基于基本操纵库建立包含5种 机动的飞行动作空间;
根据任务目标
Figure BDA0002517625690000027
设计无人机飞行评价函数
Figure BDA0002517625690000028
式 中,
Figure BDA0002517625690000029
为仿真第k步无人机与目标点之间的距离,Dmin为无人机完成任务时与目标点 的最短距离,
Figure BDA00025176256900000210
Figure BDA00025176256900000211
分别代表仿真第k步和第k+1步无人机与目标点的距离,Ts为 仿真步长,
Figure BDA0002517625690000031
为无人机最大速度;建立如下任务终止回报函数:
Figure BDA0002517625690000032
当任务成功完成时,回报为1.0,否则为0.0;
3)基于深度神经网络生成无人机自主引导机动决策网络,基于优先级采样设计训练样本集生成方法;
3.1)、构建无人机自主引导机动决策网络;根据马尔可夫决策过程理论的定义,训练目标如下:
Figure BDA0002517625690000033
式(1)中,v(s,π)为效用函数,采用马尔可夫决策过程理论中的未来报酬折扣 模型实现,未来报酬折扣模型效用函数定义如下:
Figure BDA0002517625690000034
式中,γ∈(0,1)为未来报酬折扣参数,
Figure BDA0002517625690000035
为前状态st∈S下使用策略π的报 酬期望;状态动作值函数Q(s,a)的更新目标为效用函数v(s,π)的期望,如式(3)所示:
Figure BDA0002517625690000036
式(3)中,
Figure BDA0002517625690000038
为使用策略π的效用函数的期望;
采用深度神经网络构建状态动作值函数网络Q(s,a;θ)与目标网络Q(s,a;θ-),网络 输入层神经元数目为无人机飞行状态空间维度,网络输出层为无人机飞行动作空间维数,目标网络Q(s,a;θ-)结构与Q(s,a;θ)相同;根据
Figure BDA0002517625690000037
选择最优机动 决策,其中,st∈S为当前环境状态,at∈A(s)为机动决策结果;每过C个训练周期, 将Q(s,a;θ)的参数赋值给Q(s,a;θ-);
3.2)、基于优先级经验回放(Prioritized Experience Replay)构建经验集采样,经 验集D定义如下:
D={s,a,r,s′} (4)
式(4)中,s为当前环境状态,a为当前状态下的最优动作,r为环境返回的回报, s′为环境采用a后的状态;在训练过程中,根据公式(4)的定义将每一时刻所产生的 信息生成样本存入经验集D中,经验样本的采样概率为:
Figure BDA0002517625690000041
式(5)中,P(i)为第i个样本的采样概率,pi为第i个样本的优先度,α∈[0,1]为 优先级采样应用程度,表示在样本采样时优先级采样方法的应用程度;样本优先度的 计算公式如下:
pi=|δi|+ε (6)
式(14)中,δi为样本的时序差分误差(TD-error),为避免pi为0,引入一个极 小值修正量ε∈(0,0.1),δi通过式(7)计算:
Figure BDA0002517625690000042
为消除优先级采样方法带来的训练样本集的偏差,引入重要性采样权重如下所示:
Figure BDA0002517625690000043
式中,ωi为使用第i条样本训练时的重要性采样权重,用于消除因使用优先级采样所产生的训练集分布均值与随机采样方法的误差,N为经验集容量,P(i)为第i条 样本的被采样概率,β∈[0,1]为重要性采样权重应用程度,表示该权重在实际训练中所 产生的影响;为了训练的稳定性,根据
Figure BDA0002517625690000044
对ωi进行归一化处理,简化后的重要 性权重计算公式为:
Figure BDA0002517625690000045
β从初值β0∈[0,1)开始逐渐增大到1.0;
3.3)、基于Double Q-Learning算法设计Q(s,a;θ-)与Q(s,a;θ)的参数训练方程;根 据Double Q-Learning算法定义,得到Q(s,a)的迭代公式,如式(10)所示:
Figure BDA0002517625690000046
式中,αs为参数更新步长,r为状态s下采用动作a的报酬,γ∈[0,1]为未来报酬折扣参数;在训练过程中,首先根据优先级采样方法获取k组训练样本,则网络Q(s,a;θ) 的优化目标定义为:
Figure BDA0002517625690000051
式中,(si,ai,ri,s′i)为第i组样本,分别为状态si,决策动作ai,回报ri和下一时刻状态s′i,结合重要性采样权重,Q(s,a;θ)网络的参数更新量Θ通过式(12)累积得到:
Figure BDA0002517625690000052
式中,δj为第j个样本的时序差分误差(TD-error),根据式(7)计算得到;
4)、对评价网络Q(s,a;θ)进行训练;
4.1)、载入训练样本集大小k,网络训练步长η,训练周期K,经验集容量N,指 数α和β,目标网络参数更新周期C,单周期最长仿真步数T,仿真总数M,初始化经 验集D,评价网络Q(s,a;θ)和目标网络Q(s,a;θ-);
4.2)、完成M周期训练,每周期进行T步,每过K步进行一次网络训练;算法在 每个决策时刻依次完成观察环境状态、选择最优动作、观察动作执行后的环境状态并 获取环境反馈的报酬流程;
4.3)、在每次训练时,进行k次采样,每次采样时完成以下步骤:
(1)根据式(5)完成第j个训练样本的采样;
(2)根据式(9)计算第j个训练样本对应的重要性采样权重ωj
(3)根据式(7)计算第j个训练样本的时间差分误差δj
(4)更新第j个训练样本在经验集D中的有限度,令pj=|δj|;
(5)根据式(12)累积网络Q(s,a;θ)的参数向量的更新量;
4.4)、根据参数更新量Θ,使用适应性矩估计算法(Adaptive MomentEstimation, Adam)对网络Q(s,a;θ)的参数进行优化,每过C步更新目标网络Q(s,a;θ-)的参数θ-; Adam优化算法是一种替代随机梯度下降法的一阶优化算法,Adam通过计算梯度的一 阶矩估计和二阶矩估计,针对不同训练情况生成独立的自适应性学习率;首先,计算 网络梯度,如式(13)所示:
Figure BDA0002517625690000053
式中,gt为网络Q(s,a;θ)在第t步优化时的梯度;然后,计算梯度的一阶矩估计:
mt=β1·mt-1+(1-β1)·gt (14)
式中,mt为梯度的一阶矩估计,β1为一阶矩估计的指数衰减率,mt-1为梯度的一 阶矩估计的历史值,根据式(15)计算梯度的二阶矩估计:
Figure BDA0002517625690000061
式中,vt为梯度的二阶矩估计,β2为二阶矩估计的指数衰减率,vt-1为梯度的二阶矩估计的历史值;然后修正一阶矩估计的偏差:
Figure BDA0002517625690000062
式中,
Figure BDA0002517625690000063
为一阶矩估计修正量,再修正二阶矩估计的偏差:
Figure BDA0002517625690000064
式中,
Figure BDA0002517625690000065
为二阶矩估计修正量;最后,计算网络参数更新量:
Figure BDA0002517625690000066
式中,Δθ为参数更新量,η为学习率,ε∈(0,0.1]为极小值量,重复上述计算过程,直至网络收敛;
5)当训练结束后,Q(s,a;θ-)为训练结果,在进行测试或应用时,通过观察环境 状态st∈S,获取当前最优机动策略
Figure BDA0002517625690000067
本发明的有益效果是:引入Double Q-Learning算法消除DQN算法存在的过拟合问题,采用优先级采样方法代替均匀采样方法,极大地提高了无人机自主引导机动决策 方法的离线训练效率。同时,由于深度强化学习方法的应用,本发明增强了无人机在 飞行过程中的自主性,提高了无人机执行任务的效率。
附图说明
图1是马尔可夫决策过程理论模型示意图;
图2是固定目标点相对无人机位置描述图;
图3是PER-DDQN算法框架图;
图4是状态动作值函数Q(s,a)的网络结构示意图。
具体实施方式
本发明基于人工智能技术,提出了基于PER-DDQN的无人机自主引导机动决策方法,基于马尔可夫决策过程理论构建无人机自主引导机动决策模型,进而生成算法仿 真训练环境,从而根据环境反馈生成无人机机动决策量,引导及控制无人机的飞行机 动方式。该方法能够提高无人机自主引导机动决策算法的训练效率,提升无人机自主 引导飞行能力。本发明能够实现无人机自主引导机动决策,安全快速地从起点飞向终 点。
本发明采用如下技术方案:
1)建立无人机三自由度运动模型
Figure BDA0002517625690000071
式中,Nx、Ny分别 为无人机在飞机坐标系中的切向过载和法向过载,v为无人机速度,θ为无人机航迹倾 斜角,ψc为无人机航迹偏转角,γc为速度倾斜角,x、y和z为无人机在地理坐标系中 的三向坐标,m为无人机质量,g为重力加速度;
2)采用马尔可夫决策过程理论建立无人机飞行仿真训练环境,如图1所示为马尔可夫决策过程模型。如图2所示为目标点相对无人机的状态描述,图中,N为正北方 向,E为正东方向,以XUAV=(x,y,z)为无人机位置,XTGT=(x,y,z)为目标点位置,ψc为 无人机航迹偏转角,ψT为目标点相对无人机的方位,DT为目标点与无人机的距离;
无人机飞行状态空间定义为S{DTTc},式中,
Figure BDA0002517625690000072
为无人机与目标 位置的距离,ψT∈[-π,π]为目标点相对无人机的方位,ψc为无人机航迹偏转角,
Figure BDA0002517625690000081
XUAV为无人机位置,XTGT为目标点位置,
Figure BDA0002517625690000082
为N方向的单位向 量,
Figure BDA0002517625690000083
为目标点相对无人机的距离矢量,
Figure BDA0002517625690000084
为无人机与目标位置的距离;
无人机飞行动作空间定义为A(s)={a0,a1,…,an},ai代表第i种机动。基于基本操纵库建立包含5种机动的飞行动作空间,如表1所示为无人机飞行动作库机动定义。 表中,Nx为无人机在飞机坐标系中的切向过载,Ny为飞机坐标系中的法向过载,γc为 速度倾斜角,五种机动分别为平飞、右转、左转、轻微右转和轻微左转。
表1无人机飞行动作库定义
Figure BDA0002517625690000085
根据任务目标
Figure BDA0002517625690000086
设计无人机飞行评价函数
Figure BDA0002517625690000087
式 中,
Figure BDA0002517625690000088
为仿真第k步无人机与目标点之间的距离,Dmin为无人机完成任务时与目标点 的最短距离,
Figure BDA0002517625690000089
Figure BDA00025176256900000810
分别代表仿真第k步和第k+1步无人机与目标点的距离,Ts为 仿真步长,
Figure BDA00025176256900000811
为无人机最大速度;建立如下任务终止回报函数:
Figure BDA00025176256900000812
当任务成功完成时,回报为1.0,否则为0.0;
3)、基于深度神经网络生成无人机自主引导机动决策网络,基于优先级采样设计训练样本集生成方法。如图3所示为PER-DDQN算法结构图。
3.1)、构建无人机自主引导机动决策网络。根据马尔可夫决策过程理论的定义,训练目标如下:
Figure BDA0002517625690000091
式中,v(sπ)为效用函数,采用马尔可夫决策过程理论中的未来报酬折扣模型 实现,如式(2)所示为未来报酬折扣模型效用函数定义。
Figure BDA0002517625690000092
式中,γ∈(0,1)为未来报酬折扣参数,
Figure BDA0002517625690000093
为前状态st∈S下使用策略π的报 酬期望。因此,状态动作值函数Q(s,a)的更新目标为效用函数v(s,π)的期望,如式(3)所示。
Figure BDA0002517625690000094
式中,
Figure BDA0002517625690000095
为使用策略π的效用函数的期望。根据深度学习理论,采用深度神经网络构建状态动作值函数网络Q(s,a;θ)与目标网络Q(s,a;θ-),如图4所示为 Q(s,a;θ)网络结构。网络输入层神经元数目为无人机飞行状态空间维度,网络输出层 为无人机飞行动作空间维数。此外,目标网络Q(s,a;θ-)结构与Q(s,a;θ)相同。在训练 过程中,最优机动决策
Figure BDA0002517625690000096
st∈S为当前环境状态,at∈A(s)为机动 决策结果。除此之外,每过C个训练周期,将Q(s,a;θ)的参数赋值给Q(s,a;θ-)。
3.2)、基于优先级经验回放(Prioritized Experience Replay)构建经验集采样,经 验集D定义为:
D={s,a,r,s′} (4)
式中,s为当前环境状态,a为当前状态下的最优动作,r为环境返回的回报,s′为环境采用a后的状态。在训练过程中,根据上述定义将每一时刻所产生的信息生成样 本存入经验集D中,经验样本的采样概率为:
Figure BDA0002517625690000097
式中,P(i)为第i个样本的采样概率,pi为第i个样本的优先度,α∈[0,1]为优先级采 样应用程度,表示在样本采样时优先级采样方法的应用程度。样本优先度的计算公式如下:
pi=|δi|+ε (6)
式中,δi为样本的时序差分误差(TD-error),为避免pi为0,引入一个极小值修 正量ε∈(0,0.1)。δi可以通过式(7)计算:
Figure BDA0002517625690000101
为消除优先级采样方法带来的训练样本集的偏差,引入重要性采样权重:
Figure BDA0002517625690000102
式中,ωi为使用第i条样本训练时的重要性采样权重,该变量用于消除因使用优先级采样所产生的训练集分布均值与随机采样方法的误差,N为经验集容量,P(i)为 第i条样本的被采样概率,β∈[0,1]为重要性采样权重应用程度,表示该权重在实际训 练中所产生的影响。为了训练的稳定性,还需要根据
Figure BDA0002517625690000103
对ωi进行归一化处理, 简化后的重要性权重计算公式为:
Figure BDA0002517625690000104
在训练初期,由于训练样本集的偏差较小可以忽略,β从初值β0∈[0,1)开始逐渐增 大到1.0。
3.3)、基于Double Q-Learning算法设计Q(s,a;θ-)与Q(s,a;θ)的参数训练方程,根 据Double Q-Learning算法定义,得到Q(s,a)的迭代公式,如式(10)所示:
Figure BDA0002517625690000105
式中,αs为参数更新步长,r为状态s下采用动作a的报酬,γ∈[0,1]为未来报酬折扣参数。进而,在训练过程中,首先根据优先级采样方法获取k组训练样本,则网 络Q(s,a;θ)的优化目标定义为:
Figure BDA0002517625690000106
式中,(si,ai,ri,s′i)为第i组样本,分别为状态si,决策动作ai,回报ri和下一时刻状态s′i。结合重要性采样权重,Q(s,a;θ)网络的参数更新量Θ通过式(12)累积得到。
Figure BDA0002517625690000111
式中,δj为第j个样本的时序差分误差(TD-error),根据式(7)计算得到。
4)、对评价网络Q(s,a;θ)进行训练。
4.1)、载入训练样本集大小k,网络训练步长η,训练周期K,经验集容量N,指 数αandβ,目标网络参数更新周期C,单周期最长仿真步数T,仿真总数M。初始化 经验集D,评价网络Q(s,a;θ)和目标网络Q(s,a;θ-)。
4.2)、完成M周期训练,每周期进行T步,每过K步进行一次网络训练。算法在 每个决策时刻依次完成观察环境状态、选择最优动作、观察动作执行后的环境状态并 获取环境反馈的报酬等流程。
4.3)、在每次训练时,进行k次采样,每次采样时完成以下步骤:
(1)根据式(5)完成第j个训练样本的采样;
(2)根据式(9)计算第j个训练样本对应的重要性采样权重ωj
(3)根据式(7)计算第j个训练样本的时间差分误差δj
(4)更新第j个训练样本在经验集D中的有限度,令pj=|δj|;
(5)根据式(12)累积网络Q(s,a;θ)的参数向量的更新量。
4.4、根据参数更新量Θ,使用适应性矩估计算法(Adaptive Moment Estimation,Adam)对网络Q(s,a;θ)的参数进行优化,每过C步更新目标网络Q(s,a;θ-)的参数θ-。 Adam优化算法是一种替代随机梯度下降法的一阶优化算法,Adam通过计算梯度的一 阶矩估计和二阶矩估计,针对不同训练情况生成独立的自适应性学习率。首先,计算 网络梯度,如式(13)所示。
Figure BDA0002517625690000112
式中,gt为网络Q(s,a;θ)在第t步优化时的梯度。然后,计算梯度的一阶矩估计:
mt=β1·mt-1+(1-β1)·gt (14)
式中,mt为梯度的一阶矩估计,β1为一阶矩估计的指数衰减率,mt-1为梯度的一阶矩估计的历史值。根据式(15)计算梯度的二阶矩估计:
Figure BDA0002517625690000121
式中,vt为梯度的二阶矩估计,β2为二阶矩估计的指数衰减率,vt-1为梯度的二阶矩估计的历史值。然后修正一阶矩估计的偏差:
Figure BDA0002517625690000122
式中,
Figure BDA0002517625690000123
为一阶矩估计修正量。再修正二阶矩估计的偏差,如式(17)所示:
Figure BDA0002517625690000124
式中,
Figure RE-GDA0002818890190000126
为二阶矩估计修正量。最后,计算网络参数更新量,如式(18)所示。
Figure BDA0002517625690000126
式中,Δθ为参数更新量,η为学习率,ε∈(0,0.1]为极小值量,重复上述计算过程,直至网络收敛。
5)、当训练结束后,Q(s,a;θ-)为训练结果,在进行测试或应用时,通过观察环境状态st∈S,获取当前最优机动策略
Figure BDA0002517625690000127
at为当前最优机动策略。
下面对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会 淡化本发明的主要内容时,这些描述在这里将被忽略。
1)、建立无人机运动模型后,根据实际无人机的生产规格设置无人机模型的部分参数和约束条件,包括了无人机重量m,最小、最大飞行速度(本实例中考虑设为 [200m/s,400m/s]),最大爬升角、最大俯冲角(本实例中考虑限制在[-60°,70°]中),最 大转弯半径(本实例中考虑设为1km)。在仿真时,无人机速度应大于最小飞行速度, 小于最大飞行速度,无人机航迹倾斜角应被限制在最大爬升角和最大俯冲角之间,无 人机航迹偏转角应满足最大转弯半径的约束。
Figure BDA0002517625690000131
2)、建立无人机飞行仿真训练环境。如图1所示为马尔可夫决策过程模型。根据 马尔可夫决策过程模型定义,设计无人机飞行状态空间、无人机飞行动作空间及无人 机飞行评价函数。如图2所示为目标点相对无人机的状态描述图,图中,N为正北方 向,E为正东方向,XUAV=(x,y,z)为无人机位置,XTGT=(x,y,z)为目标点位置,ψc为 无人机航迹偏转角,ψT为目标点相对无人机的方位,DT为目标点与无人机的距离。
2.1)、如式(20)所示为无人机飞行状态空间定义。
S={DTTc} (20)
式中,
Figure BDA0002517625690000132
为无人机与目标位置的距离,
Figure BDA0002517625690000133
根据飞行区域大小进行设置, ψT∈[-π,π]为目标点相对无人机的方位,ψc∈[0,2π)为无人机航迹偏转角。如式(21)所示为DT和ψT的计算公式。
Figure BDA0002517625690000134
式中,XUAV=(x,y,z)为无人机位置,XTGT=(x,y,z)为目标点位置,
Figure BDA0002517625690000135
为N方向的单位向量,
Figure BDA0002517625690000136
为目标点相对无人机的距离矢量,
Figure BDA0002517625690000137
为无人 机与目标位置的距离。
2.2)、如式(22)所示为无人机飞行动作空间定义。
A(s)={a0,a1,…,an} (22)
式中,ai代表第i种机动。基于基本操纵库建立包含5种机动的飞行动作空间, 如表1所示为无人机飞行动作库机动定义。表中,Nx为无人机在飞机坐标系中的切向 过载,Ny为飞机坐标系中的法向过载,γc为速度倾斜角,
Figure BDA0002517625690000141
为无人机最大法向过载, 五种机动分别为平飞、右转、左转、轻微右转和轻微左转。
2.3、根据任务目标设计无人机飞行评价函数,如式(23)所示为任务目标,即任 务成功完成条件。
Figure BDA0002517625690000142
式中,
Figure BDA0002517625690000143
为仿真第k步无人机与目标点之间的距离,Dmin为无人机完成任务时与目标点的最短距离。无人机飞行评价函数。
Figure BDA0002517625690000144
式中,
Figure BDA0002517625690000145
Figure BDA0002517625690000146
分别代表仿真第k步和第k+1步无人机与目标点的距离,Ts∈(0,1] 为仿真步长,
Figure BDA0002517625690000147
为无人机最大速度。为增强任务完成结果影响,建立任务终止回报 函数,当任务成功完成时,回报为1.0,否则为0.0,任务终止回报函数定义为:
Figure BDA0002517625690000148
3)、基于深度神经网络生成无人机自主引导机动决策网络,基于优先级采样设计训练样本集生成方法。如图3所示为PER-DDQN算法结构图。
3.1)、构建无人机自主引导机动决策网络,即状态动作值函数网络Q(s,a;θ),如图4所示为Q(s,a;θ)网络结构。如表2所示为网络的具体参数设置,输入层神经元数目为 3,输出层数目为5,包括4层隐层,每层的神经元数目与激活函数类型见表2中所示。
表2评估网络Q(s,a;θ)具体参数
Figure BDA0002517625690000149
如表3所示为网络输入参数的范围,在数据输入网络前,需要对各维参数进行归一化处理。
表3网络输入数据范围
Figure BDA0002517625690000151
3.2、基于优先级经验回放(Prioritized Experience Replay)构建历史经验集,如式 (4)所示为经验集D定义。
D={s,a,r,s′} (4)
式中,s为当前环境状态,a为当前状态下的最优动作,r为环境返回的回报,s′为环境采用a后的状态。在训练过程中,根据上述定义将每一时刻所产生的信息生成样 本存入经验集D中。如式(5)所示为经验样本的采样概率。
Figure BDA0002517625690000152
式中,P(i)为第i个样本的采样概率,pi为第i个样本的优先度,α∈[0,1](本实 例中考虑设为0.5~0.7)为优先级采样应用程度,表示在样本采样时优先级采样方法的 应用程度。如式(6)所示为样本优先度的计算公式。
pi=|δi|+ε (6)
式中,δi为样本的时序差分误差(TD-error),为避免pi为0,引入一个极小值ε>0(本实例中考虑设为0.01~0.1)。δi通过式(7)计算:
Figure BDA0002517625690000153
为消除优先级采样方法带来的训练样本集的偏差,引入重要性采样权重,如式(8)所示:
Figure BDA0002517625690000154
式中,ωi为使用第i条样本训练时的重要性采样权重,该变量用于消除因使用优先级采样所产生的训练集分布均值与随机采样方法的误差,N为经验集容量,P(i)为 第i条样本的被采样概率,β∈[0,1](本实例中考虑设为1.0)为重要性采样权重应用程 度,表示该权重在实际训练中所产生的影响。为了训练的稳定性,还需要根据
Figure BDA0002517625690000161
对ωi进行归一化处理,简化后的重要性权重计算公式为:
Figure BDA0002517625690000162
如表4所示为算法仿真训练过程中部分参数设置。无人机飞行区域为 50km×50km,无人机仿真步长为1.0s,在训练过程中,单周期内最多仿真步数为 T=1000,总仿真周期数为M=10000,经验集容量为N=10000,训练样本集大小 k=32,优先级采样应用程度α=0.6,重要性采样参数应用程度初始值β0=0.4,训练 过程中增量βinc=0.0001,直至增长为1。
表4算法仿真训练时部分参数设置
参数
飞行区域 50km×50km
仿真步长 1.0s
最大仿真步数 1000
最大仿真周期数 10000
经验集容量 10000
训练样本集大小 32
α 0.6
β0 0.4
βinc 0.0001
3.3)、基于Double Q-Learning算法设计Q(s,a;θ)与Q(s,a;θ-)的参数训练方程。如 式(12)所示为网络参数优化累积公式。
Figure BDA0002517625690000163
δj的计算公式为:
Figure BDA0002517625690000164
4、对网络Q(s,a;θ)的训练。
4.1、载入训练样本集大小k,网络训练步长η,训练周期K,经验集容量N,指数 α,β0和βinc,目标网络参数更新周期C,单周期最长仿真步数T,仿真总数M。初始 化经验集D,网络Q(s,a;θ)和目标网络Q(s,a;θ-)。
4.2、完成M周期训练,每周期进行T步,每过K(本实例中考虑设为10~100) 步进行一次网络训练。算法在每个决策时刻依次完成观察环境状态、选择最优动作、 观察动作执行后的环境状态并获取环境反馈的报酬等流程。
4.3、在每次训练时,进行k次采样,每次采样时完成以下步骤:
(1)根据式(5)完成第j个训练样本的采样;
(2)根据式(9)计算第j个训练样本对应的重要性采样权重ωj
(3)根据式(7)计算第j个训练样本的时间差分误差δj
(4)更新第j个训练样本在经验集D中的有限度,令pj=|δj|;
(5)根据式(12)累积网络Q(s,a;θ)的参数向量的更新量。
4.4、根据参数更新量Θ,使用Adam算法对网络Q(s,a;θ)的参数进行优化,每过 C(本实例中考虑设为5~10)步更新目标网络Q(s,a;θ-)的参数θ-。Adam算法中所涉 及参数:一阶矩估计的指数衰减率β1=0.9,二阶矩估计的指数衰减率β2=0.999,学 习率η=0.001,极小值ε=10-8
5、当训练结束后,则Q(s,a;θ-)网络为训练结果,根据式
Figure BDA0002517625690000171
直接用于无人机自主引导过程中的机动决策。
本发明提出了无人机自主引导机动决策算法,显著提高了算法的训练效率。采用本发明中所设计的方法,训练结果具有一定的泛化能力,无人机可以实现自主地从起 点飞到终点,增强了无人机在执行任务过程中的自主性,提高了无人机执行任务的效 率。

Claims (1)

1.一种基于DDQN的无人机自主引导机动决策方法,其特征在于包括下述步骤:
1)建立无人机三自由度运动模型
Figure FDA0003748970240000011
式中,Nx、Ny分别为无人机在飞机坐标系中的切向过载和法向过载,v为无人机速度,θ为无人机航迹倾斜角,ψc为无人机航迹偏转角,γc为速度倾斜角,x、y和z为无人机在地理坐标系中的位置坐标,m为无人机质量,g为重力加速度;
2)采用马尔可夫决策过程理论建立无人机飞行仿真训练环境,以XUAV=(x,y,z)为无人机位置,XTGT=(x,y,z)为目标点位置,ψc为无人机航迹偏转角,ψT为目标点相对无人机的方位,DT为目标点与无人机的距离;
无人机飞行状态空间定义为S={DTTc},式中,
Figure FDA0003748970240000012
为无人机与目标位置的距离,ψT∈[-π,π]为目标点相对无人机的方位,ψc为无人机航迹偏转角,
Figure FDA0003748970240000013
XUAV为无人机位置,XTGT为目标点位置,
Figure FDA0003748970240000014
为N方向的单位向量,
Figure FDA0003748970240000015
为目标点相对无人机的距离矢量,
Figure FDA0003748970240000016
为无人机与目标位置的距离;
无人机飞行动作空间定义为A(s)={a0,a1,…,an},式中,ai代表第i种机动,五种机动分别为平飞、右转、左转、轻微右转和轻微左转;基于基本操纵库建立包含5种机动的飞行动作空间;
根据任务目标
Figure FDA0003748970240000017
设计无人机飞行评价函数
Figure FDA0003748970240000018
式中,
Figure FDA0003748970240000019
为仿真第k步无人机与目标点之间的距离,Dmin为无人机完成任务时与目标点的最短距离,
Figure FDA0003748970240000021
Figure FDA0003748970240000022
分别代表仿真第k步和第k+1步无人机与目标点的距离,Ts为仿真步长,
Figure FDA0003748970240000023
为无人机最大速度;建立如下任务终止回报函数:
Figure FDA0003748970240000024
当任务成功完成时,回报为1.0,否则为0.0;
3)基于深度神经网络生成无人机自主引导机动决策网络,基于优先级采样设计训练样本集生成方法;
3.1)、构建无人机自主引导机动决策网络;根据马尔可夫决策过程理论的定义,训练目标如下:
Figure FDA0003748970240000025
式(1)中,v(s,π)为效用函数,采用马尔可夫决策过程理论中的未来报酬折扣模型实现,未来报酬折扣模型效用函数定义如下:
Figure FDA0003748970240000026
式中,γ∈(0,1)为未来报酬折扣参数,
Figure FDA0003748970240000027
为前状态st∈S下使用策略π的报酬期望;状态动作值函数Q(s,a)的更新目标为效用函数v(s,π)的期望,如式(3)所示:
Figure FDA0003748970240000028
式(3)中,
Figure FDA0003748970240000029
为使用策略π的效用函数的期望;
采用深度神经网络构建状态动作值函数网络Q(s,a;θ)与目标网络Q(s,a;θ-),网络输入层神经元数目为无人机飞行状态空间维度,网络输出层为无人机飞行动作空间维数,目标网络Q(s,a;θ-)结构与Q(s,a;θ)相同;根据
Figure FDA00037489702400000210
选择最优机动决策,其中,st∈S为当前环境状态,at∈A(s)为机动决策结果;每过C个训练周期,将Q(s,a;θ)的参数赋值给Q(s,a;θ-);
3.2)、基于优先级经验回放(Prioritized Experience Replay)构建经验集采样,经验集D定义如下:
D={s,a,r,s′} (4)
式(4)中,s为当前环境状态,a为当前状态下的最优动作,r为环境返回的回报,s′为环境采用a后的状态;在训练过程中,根据公式(4)的定义将每一时刻所产生的信息生成样本存入经验集D中,经验样本的采样概率为:
Figure FDA0003748970240000031
式(5)中,P(i)为第i个样本的采样概率,pi为第i个样本的优先度,α∈[0,1]为优先级采样应用程度,表示在样本采样时优先级采样方法的应用程度;样本优先度的计算公式如下:
pi=|δi|+εp (6)
式(14)中,δi为样本的时序差分误差(TD-error),为避免pi为0,引入一个极小值修正量εp∈(0,0.1),δi通过式(7)计算:
Figure FDA0003748970240000032
为消除优先级采样方法带来的训练样本集的偏差,引入重要性采样权重如下所示:
Figure FDA0003748970240000033
式中,ωi为使用第i条样本训练时的重要性采样权重,用于消除因使用优先级采样所产生的训练集分布均值与随机采样方法的误差,N为经验集容量,P(i)为第i条样本的被采样概率,β∈[0,1]为重要性采样权重应用程度,表示该权重在实际训练中所产生的影响;为了训练的稳定性,根据
Figure FDA0003748970240000034
对ωi进行归一化处理,简化后的重要性权重计算公式为:
Figure FDA0003748970240000035
β从初值β0∈[0,1)开始逐渐增大到1.0;
3.3)、基于Double Q-Learning算法设计Q(s,a;θ-)与Q(s,a;θ)的参数训练方程;根据Double Q-Learning算法定义,得到Q(s,a)的迭代公式,如式(10)所示:
Figure FDA0003748970240000036
式中,αs为参数更新步长,r为状态s下采用动作a的报酬,γ∈[0,1]为未来报酬折扣参数;在训练过程中,首先根据优先级采样方法获取k组训练样本,则网络Q(s,a;θ)的优化目标定义为:
Figure FDA0003748970240000041
式中,(si,ai,ri,si′)为第i组样本,分别为状态si,决策动作ai,回报ri和下一时刻状态si′,结合重要性采样权重,Q(s,a;θ)网络的参数更新量Θ通过式(12)累积得到:
Figure FDA0003748970240000042
式中,δj为第j个样本的时序差分误差(TD-error),根据式(7)计算得到;
4)、对评价网络Q(s,a;θ)进行训练;
4.1)、载入训练样本集大小k,网络训练步长η,训练周期K,经验集容量N,指数α和β,目标网络参数更新周期C,单周期最长仿真步数T,仿真总数M,初始化经验集D,评价网络Q(s,a;θ)和目标网络Q(s,a;θ-);
4.2)、完成M周期训练,每周期进行T步,每过K步进行一次网络训练;算法在每个决策时刻依次完成观察环境状态、选择最优动作、观察动作执行后的环境状态并获取环境反馈的报酬流程;
4.3)、在每次训练时,进行k次采样,每次采样时完成以下步骤:
(1)根据式(5)完成第j个训练样本的采样;
(2)根据式(9)计算第j个训练样本对应的重要性采样权重ωj
(3)根据式(7)计算第j个训练样本的时间差分误差δj
(4)更新第j个训练样本在经验集D中的有限度,令pj=|δj|;
(5)根据式(12)累积网络Q(s,a;θ)的参数向量的更新量;
4.4)、根据参数更新量Θ,使用适应性矩估计算法(Adaptive Moment Estimation,Adam)对网络Q(s,a;θ)的参数进行优化,每过C步更新目标网络Q(s,a;θ-)的参数θ-;Adam优化算法是一种替代随机梯度下降法的一阶优化算法,Adam通过计算梯度的一阶矩估计和二阶矩估计,针对不同训练情况生成独立的自适应性学习率;首先,计算网络梯度,如式(13)所示:
Figure FDA0003748970240000051
式中,gt为网络Q(s,a;θ)在第t步优化时的梯度;然后,计算梯度的一阶矩估计:
mt=β1·mt-1+(1-β1)·gt (14)
式中,mt为梯度的一阶矩估计,β1为一阶矩估计的指数衰减率,mt-1为梯度的一阶矩估计的历史值,根据式(15)计算梯度的二阶矩估计:
Figure FDA0003748970240000052
式中,vt为梯度的二阶矩估计,β2为二阶矩估计的指数衰减率,vt-1为梯度的二阶矩估计的历史值;然后修正一阶矩估计的偏差:
Figure FDA0003748970240000053
式中,
Figure FDA0003748970240000054
为一阶矩估计修正量,再修正二阶矩估计的偏差:
Figure FDA0003748970240000055
式中,
Figure FDA0003748970240000056
为二阶矩估计修正量;最后,计算网络参数更新量:
Figure FDA0003748970240000057
式中,Δθ为参数更新量,η为学习率,εa∈(0,0.1]为极小值量,重复上述计算过程,直至网络收敛;
5)当训练结束后,Q(s,a;θ-)为训练结果,在进行测试或应用时,通过观察环境状态st∈S,获取当前最优机动策略
Figure FDA0003748970240000058
CN202010481676.2A 2020-06-01 2020-06-01 基于ddqn的无人机自主引导机动决策方法 Active CN112198870B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010481676.2A CN112198870B (zh) 2020-06-01 2020-06-01 基于ddqn的无人机自主引导机动决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010481676.2A CN112198870B (zh) 2020-06-01 2020-06-01 基于ddqn的无人机自主引导机动决策方法

Publications (2)

Publication Number Publication Date
CN112198870A CN112198870A (zh) 2021-01-08
CN112198870B true CN112198870B (zh) 2022-09-02

Family

ID=74006429

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010481676.2A Active CN112198870B (zh) 2020-06-01 2020-06-01 基于ddqn的无人机自主引导机动决策方法

Country Status (1)

Country Link
CN (1) CN112198870B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11526813B2 (en) * 2018-11-29 2022-12-13 Viettel Group Method of automatic identification of flying targets by motion, time, and 3/A code information
CN112904890B (zh) * 2021-01-15 2023-06-30 北京国网富达科技发展有限责任公司 一种电力线路的无人机自动巡检系统及方法
CN113064422B (zh) * 2021-03-09 2022-06-28 河海大学 基于双神经网络强化学习的自主水下航行器路径规划方法
CN113411099B (zh) * 2021-05-28 2022-04-29 杭州电子科技大学 一种基于pper-dqn的双变跳频图案智能决策方法
CN113511215B (zh) * 2021-05-31 2022-10-04 西安电子科技大学 一种混合自动驾驶决策方法、设备及计算机存储介质
CN113759717A (zh) * 2021-08-20 2021-12-07 中国航空工业集团公司西安飞行自动控制研究所 一种近实时机动轨迹生成与跟踪的控制方法
CN113721655B (zh) * 2021-08-26 2023-06-16 南京大学 一种控制周期自适应的强化学习无人机稳定飞行控制方法
CN114089762A (zh) * 2021-11-22 2022-02-25 江苏科技大学 一种基于强化学习的水空两栖无人航行器路径规划方法
CN114371729B (zh) * 2021-12-22 2022-10-25 中国人民解放军军事科学院战略评估咨询中心 一种基于距离优先经验回放的无人机空战机动决策方法
CN114492718A (zh) * 2022-01-25 2022-05-13 南方科技大学 飞行决策生成方法和装置、计算机设备、存储介质
CN114489144B (zh) * 2022-04-08 2022-07-12 中国科学院自动化研究所 无人机自主机动决策方法、装置及无人机
CN117371655A (zh) * 2023-10-12 2024-01-09 中山大学 一种无人机协同决策的评价方法、系统、设备和介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292392A (zh) * 2017-05-11 2017-10-24 苏州大学 基于深度带权双q学习的大范围监控方法及监控机器人
CN110471444A (zh) * 2019-08-19 2019-11-19 西安微电子技术研究所 基于自主学习的无人机智能避障方法
CN110488861A (zh) * 2019-07-30 2019-11-22 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
CN110515303A (zh) * 2019-09-17 2019-11-29 余姚市浙江大学机器人研究中心 一种基于ddqn的自适应动态路径规划方法
CN110531786A (zh) * 2019-09-10 2019-12-03 西北工业大学 基于dqn的无人机机动策略自主生成方法
CN110673488A (zh) * 2019-10-21 2020-01-10 南京航空航天大学 一种基于优先级随机抽样策略的Double DQN无人机隐蔽接敌方法
CN110806756A (zh) * 2019-09-10 2020-02-18 西北工业大学 基于ddpg的无人机自主引导控制方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292392A (zh) * 2017-05-11 2017-10-24 苏州大学 基于深度带权双q学习的大范围监控方法及监控机器人
CN110488861A (zh) * 2019-07-30 2019-11-22 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
CN110471444A (zh) * 2019-08-19 2019-11-19 西安微电子技术研究所 基于自主学习的无人机智能避障方法
CN110531786A (zh) * 2019-09-10 2019-12-03 西北工业大学 基于dqn的无人机机动策略自主生成方法
CN110806756A (zh) * 2019-09-10 2020-02-18 西北工业大学 基于ddpg的无人机自主引导控制方法
CN110515303A (zh) * 2019-09-17 2019-11-29 余姚市浙江大学机器人研究中心 一种基于ddqn的自适应动态路径规划方法
CN110673488A (zh) * 2019-10-21 2020-01-10 南京航空航天大学 一种基于优先级随机抽样策略的Double DQN无人机隐蔽接敌方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Path Planning for UAV-Mounted Mobile Edge Computing with Deep Reinforcement Learning;Qian Liu et al.;《IEEE》;20200323;第1-6页 *
基于深度强化学习的UAV航路自主引导机动控制决策算法;张堃等;《系统工程与电子技术》;20200226;第42卷(第7期);第1567-1574页 *

Also Published As

Publication number Publication date
CN112198870A (zh) 2021-01-08

Similar Documents

Publication Publication Date Title
CN112198870B (zh) 基于ddqn的无人机自主引导机动决策方法
CN110673620B (zh) 一种基于深度强化学习的四旋翼无人机航线跟随控制方法
CN111667513B (zh) 一种基于ddpg迁移学习的无人机机动目标跟踪方法
CN110502033B (zh) 一种基于强化学习的固定翼无人机群集控制方法
CN110806756B (zh) 基于ddpg的无人机自主引导控制方法
CN110531786B (zh) 基于dqn的无人机机动策略自主生成方法
CN114048889B (zh) 基于长短期记忆网络的飞行器轨迹预测的方法
CN109740198B (zh) 一种基于解析预测的滑翔飞行器三维再入制导方法
Nie et al. Three-dimensional path-following control of a robotic airship with reinforcement learning
CN110908281A (zh) 无人直升机姿态运动有限时间收敛强化学习控制方法
CN111880567A (zh) 基于深度强化学习的固定翼无人机编队协调控制方法及装置
CN111240345A (zh) 一种基于双bp网络增强学习框架的水下机器人轨迹跟踪方法
CN113759979B (zh) 基于事件驱动的无人机吊挂系统在线轨迹规划方法
CN113377121B (zh) 一种基于深度强化学习的飞行器智能抗扰动控制方法
CN109358646B (zh) 带有乘性噪声的导弹自主编队队形随机控制系统建模方法
CN112947592A (zh) 一种基于强化学习的再入飞行器轨迹规划方法
CN112859889A (zh) 基于自适应动态规划的自主式水下机器人控制方法和系统
CN115033022A (zh) 面向移动平台基于专家经验的ddpg无人机降落方法
CN113885320A (zh) 一种基于混合量子鸽群优化的飞行器随机鲁棒控制方法
Bøhn et al. Data-efficient deep reinforcement learning for attitude control of fixed-wing uavs: Field experiments
CN114527795A (zh) 一种基于增量在线学习的飞行器智能控制方法
CN116954258A (zh) 未知扰动下多四旋翼无人机编队的分层控制方法及装置
CN116697829A (zh) 一种基于深度强化学习的火箭着陆制导方法及系统
CN114967472A (zh) 一种无人机轨迹跟踪状态补偿深度确定性策略梯度控制方法
CN114675673A (zh) 一种空中动目标追踪方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant