CN114637327A - 基于深度策略性梯度强化学习的在线轨迹生成制导方法 - Google Patents

基于深度策略性梯度强化学习的在线轨迹生成制导方法 Download PDF

Info

Publication number
CN114637327A
CN114637327A CN202210260745.6A CN202210260745A CN114637327A CN 114637327 A CN114637327 A CN 114637327A CN 202210260745 A CN202210260745 A CN 202210260745A CN 114637327 A CN114637327 A CN 114637327A
Authority
CN
China
Prior art keywords
aircraft
angle
flight
attack
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210260745.6A
Other languages
English (en)
Inventor
韦常柱
浦甲伦
刘哲
朱光楠
张延坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Zhuyu Aerospace Technology Co ltd
Original Assignee
Harbin Zhuyu Aerospace Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Zhuyu Aerospace Technology Co ltd filed Critical Harbin Zhuyu Aerospace Technology Co ltd
Priority to CN202210260745.6A priority Critical patent/CN114637327A/zh
Publication of CN114637327A publication Critical patent/CN114637327A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • G05D1/106Change initiated in response to external conditions, e.g. avoidance of elevated terrain or of no-fly zones

Abstract

一种基于深度策略性梯度强化学习的在线轨迹生成制导方法,属于轨迹生成技术领域。方法如下:建立无量纲化的动力学模型,并将过程约束转化为倾侧角约束;设计攻角剖面和倾侧角剖面形式;设定强化学习要素;建立actor‑critic架构的智能体;提取智能体的online‑actor网络参数并进行固定。本发明能够有效的在可重复使用运载器的滑翔段大扰动条件下生成再入轨迹;解决了传统再入飞行器轨迹制导方法对强扰动条件适应性不足,难以满足多个终端约束的问题。可通过对再入飞行攻角和倾侧角剖面的周期性预测,满足再入飞行终端高度、航程和速度约束。较传统跟踪制导方法有较大的精度提升,算法计算量小,具有较好的应用前景。

Description

基于深度策略性梯度强化学习的在线轨迹生成制导方法
技术领域
本发明涉及一种基于深度策略性梯度强化学习的在线轨迹生成制导方法,属于轨迹生成技术领域。
背景技术
可重复使用运载器滑翔段具有广空域、宽速域的特点,再入滑翔过程中还要满足热流、过载、动压等过程约束和末端速度、高度、航程等末端约束。飞行器动力学模型复杂,气动干扰性比较强。传统制导方法很难应对滑翔过程中的强扰动条件,偏差较大。
发明内容
为解决背景技术中存在的问题,本发明提供一种基于深度策略性梯度强化学习的在线轨迹生成制导方法。
实现上述目的,本发明采取下述技术方案:一种基于深度策略性梯度强化学习的在线轨迹生成制导方法,所述方法包括如下步骤:
S1:建立无量纲化的动力学模型,并将过程约束转化为倾侧角约束;
S2:设计攻角剖面和倾侧角剖面形式;
S3:设定强化学习要素;
S4:建立actor-critic架构的智能体;
S5:提取智能体的online-actor网络参数并进行固定。
与现有技术相比,本发明的有益效果是:
本发明考虑飞行器终点的状态约束以及整个飞行过程的过程约束,能够有效的在可重复使用运载器的滑翔段大扰动条件下生成再入轨迹;解决了传统再入飞行器轨迹制导方法对强扰动条件适应性不足,难以满足多个终端约束的问题。同时,本发明在深度确定性策略梯度学习框架基础上,通过对随机强扰动条件下的离线飞行轨迹进行网络训练,寻找不同环境影响条件下的最优动作网络,以用于在线干扰条件下的制导轨迹规划,可通过对再入飞行攻角和倾侧角剖面的周期性预测,满足再入飞行终端高度、航程和速度约束。较传统跟踪制导方法有较大的精度提升,算法计算量小,具有较好的应用前景。
附图说明
图1是本发明的流程图;
图2是本发明的DDPG强化学习在线轨迹生成制导训练与应用流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于深度策略性梯度强化学习的在线轨迹生成制导方法,所述方法包括如下步骤:
S1:建立无量纲化的动力学模型,并将热流、过载、动压等过程约束转化为倾侧角约束;
S101:建立无量纲化的动力学模型如下:
Figure BDA0003550039510000031
式(1)中:
r表示飞行器飞行时的地心距;
V表示飞行器飞行时的速度;
γ表示飞行器的飞行路径角;
θ表示飞行器飞行时的经度;
ψ表示飞行器飞行时的航向角;
Figure BDA0003550039510000032
表示飞行器飞行时的纬度;
σ表示飞行器飞行时的倾侧角;
D表示飞行器的气动阻力;
L表示飞行器的气动升力;
且:
Figure BDA0003550039510000033
式(2)中:
α表示飞行器飞行时的攻角;
CL(α,Ma)表示由攻角和马赫数决定的升力系数;
CD(α,Ma)表示由攻角和马赫数决定的阻力系数;
q表示飞行器的动压;
Sref表示飞行器的参考面积;
S102:将过程约束转化为倾侧角约束的过程如下:
S10201:确定过程约束如下:
大气密度公式采用指数型公式:
Figure BDA0003550039510000041
式(3)中:
ρ为大气密度;
ρ0=1.225kg/m3为海平面大气密度;
hs=7110m为基准高度;
h为飞行器高度;
e为自然常数;
动压约束:
q=ρ(VVc)2/2≤qmax (4)
式(4)中:
q为动压;
Figure BDA0003550039510000042
为无量纲化常量,其中:g0=9.8m/s2为引力常量,R0为地球半径;
qmax为飞行器能承受的最大动压;
过载约束:
Figure BDA0003550039510000043
式(5)中:
n为过载;
nmax为飞行器所能承受的最大过载;
热流约束:
Figure BDA0003550039510000051
式(6)中:
Q为热流;
C1和Rd均为与飞行器头部形状相关的常数;
Qmax为飞行器所能承受的最大热流;
准平衡滑翔约束:
采用飞行路径角为常数形式的准平衡滑翔约束,对于无动力滑翔的情况,可写为:
Figure BDA0003550039510000052
S10202:基于飞行器高度-速度剖面建立再入走廊模型,结合速度、最大动压、最大过载以及最大热流约束便可初步得到再入走廊如下:
动压约束再入走廊边界Hqmax(V)如下:
Figure BDA0003550039510000053
过载约束再入走廊边界
Figure BDA0003550039510000054
如下:
Figure BDA0003550039510000055
热流约束再入走廊边界
Figure BDA0003550039510000056
如下:
Figure BDA0003550039510000057
其中,Cq为飞行器的热流系数;
准平衡滑翔约束再入走廊边界如下:
利用牛顿迭代求解式获得准平衡滑翔约束对应的再入走廊边界HQEGC(V);
S10203:基于飞行器高度-速度剖面的再入走廊上下边界表示如下:
Figure BDA0003550039510000061
式(11)中:
Hup为再入走廊上边界;
Hdown为再入走廊下边界;
再入运动学模型中攻角指令作为已知量以攻角-速度剖面形式取定,则飞行器再入制导中只将倾侧角作为唯一的控制量。基于飞行器再入走廊,每给定一个速度V可找到其对应的r,结合准平衡滑翔条件便得到对应σ。将再入走廊转化为对倾侧角大小的限制,即:
up|≤|σ|≤|σdown| (12)
式(12)中:
up|为倾侧角的上边界,由再入走廊下边界决定;
down|为倾侧角的下边界,由再入走廊上边界决定。
S2:设计攻角剖面和倾侧角剖面形式;
令再入过程中的控制量为攻角和倾侧角,
则攻角α的剖面形式为:
Figure BDA0003550039510000062
式(13)中:
αmax表示经过热流过载等约束得到的飞行器能承受的最大攻角;
α2表示飞行器最大升阻比对应的攻角;
V表示飞行器飞行时的速度;
V1、V2表示分段处对应的飞行器的速度;
倾侧角σ绝对值的剖面为:
Figure BDA0003550039510000071
式(14)中:
σ0表示初始状态下满足准平衡滑翔条件的倾侧角;
V表示飞行器飞行时的速度;
V0表示飞行器的初始速度;
Vmid表示飞行中点速度;
σmid表示速度中点状态对应的待规划倾侧角;
Vf表示飞行终端速度;
σf表示终端速度状态下满足准平衡滑翔条件的倾侧角。
倾侧角符号则按照经典的航向误差走廊翻转形式给定。
S3:设定强化学习要素;
飞行器位置量r,θ,
Figure BDA0003550039510000072
及速度量V,γ,ψ需包含在状态空间中。飞行器制导的目标,即滑翔段结束时的期望剩余航程
Figure BDA0003550039510000073
与期望速度
Figure BDA0003550039510000074
对强化学习动作选取有重要影响,也需包含在状态空间中。此外,采用数值积分方法,可近似估计出保持当前攻角、倾侧角剖面飞行获得的终端剩余航程Spre及速度Vpre,为智能体的决策提供参考。
综合以上分析,
S301:确定强化学习的状态空间为:
Figure BDA0003550039510000075
其中,
Figure BDA0003550039510000076
表示滑翔段结束时的期望剩余航程,
Figure BDA0003550039510000077
表示滑翔段结束时的期望速度;Spre表示当前攻角、倾侧角剖面飞行获得的终端剩余航程,Vpre表示当前攻角、倾侧角剖面飞行获得的终端速度;
S302:确定强化学习的动作量为:
速度中点状态对应的待规划倾侧角σmid、飞行器最大升阻比对应的攻角α2以及分段处对应的飞行器的速度V2
S303:根据再入走廊,动作空间的取值范围为σmid∈[6°,70°],α2∈[8°,16°],V2∈[3500m/s,4500m/s];
当飞行器滑翔段飞行结束时,将终端剩余航程误差及速度误差的平方和的相反数作为惩罚项:
Figure BDA0003550039510000081
其中,Sf表示终端剩余航程;
为了弥补奖励函数过于稀疏的问题,在其他时刻,过程奖励函数如下:
Figure BDA0003550039510000082
S4:建立actor-critic架构的智能体;
S401:Actor部分根据状态st进行决策输出动作μ(st),Critic部分根据状态st及动作at,估计Q值;
S402:对于Actor-Critic架构的两个部分,分别设置两个结构相同但参数不同的神经网络,即:online network与target network;且在训练过程中,智能体的online-actor神经网络生成剖面参数,并添加动作噪声,完成对攻角及倾侧角剖面参数的调整;在强化学习训练过程中,智能体采用online网络产生动作与环境交互,考虑到DDPG方法中Actor网络为确定性策略,若智能体直接采用Actor网络输出的动作,将减弱智能体探索动作空间的能力,易陷入局部最优。为此,一般在训练过程中,需对Actor网络产生的动作添加噪声作为智能体的动作输出。
S403:飞行器基于调整后的攻角及倾侧角剖面生成攻角、倾侧角指令并输入动力学模型中;
S404:动力学模型返回飞行器下一步状态及反映制导结果的剩余航程、速度误差;将状态转换过程信息,即原状态-动作-奖励-转换状态存入经验池;
S405:按照设定的训练频次,随机抽取经验池中的样本,训练online神经网络并对target神经网络参数进行软更新。
对于飞行器再入制导这样的连续控制问题,若动作噪声完全随机,易导致各步动作差别较大,不符合真实物理过程。为此,在进行强化学习训练时,采用具有自相关特性的Ornstein-Uhlenbeck(奥恩斯坦-乌伦贝克)过程作为动作噪声:
dxt=κoo-xt)dt+σodWt (17)
式(17)中:
d表示微分符号;
xt表示动作噪声;
κoo均为常数;
t表示时间;
σ0为初始状态下满足准平衡滑翔条件的倾侧角;
Wt为标准随机维纳过程;
自相关特性的动作噪声可有效提高网络的探索效果,则训练过程中实际输出的动作为:
Figure BDA0003550039510000091
式(18)中:
at为动作;
xt为动作噪声;
Figure BDA0003550039510000101
代表online-actor网格输出动作;
st为状态;
通过带动作噪声的动作,智能体不断与环境交互,并将状态转换过程信息[st,at,rt,st+1]存入经验池;每当智能体与环境交互sonline步时,从经验池中抽取ntrain个样本进行训练,采用梯度下降法更新online-critic网络的参数θoc及online-actor网络参数θoa
Figure BDA0003550039510000102
式(19)中:
Figure BDA0003550039510000103
表示更新后的online-critic网络的参数;
Figure BDA0003550039510000104
表示更新后的online-actor网络参数;
Figure BDA0003550039510000105
表示online-critic网络的参数;
Figure BDA0003550039510000106
表示online-actor网络参数;
αc表示online-critic网络的学习率;
αa表示online-actor网络的学习率;
rt表示当前步的奖励值,若当前步为终端步,则rt=r终端,否则rt=r过程
ζ表示奖励折扣率;
Figure BDA0003550039510000107
表示target-critic网络的Q值;
st+1表示下一步的状态;
st表示当前状态;
at表示当前动作;
Figure BDA0003550039510000111
表示target-actor网格输出动作
Figure BDA0003550039510000112
表示online-actor网格输出动作
Figure BDA0003550039510000113
表示online-critic学习网络的Q值
Figure BDA0003550039510000114
为矢量微分符号;
每当online网络更新starget次时,软更新各target网络:
Figure BDA0003550039510000115
式(20)中:
Figure BDA0003550039510000116
表示更新后的target-critic网络的参数;
Figure BDA0003550039510000117
表示更新后的target-actor网络的参数;
Figure BDA0003550039510000118
表示target-critic网络的参数;
Figure BDA0003550039510000119
表示target-actor网络的参数;
τ为更新系数;
通过以上步骤,在与环境交互过程中,完成对各网络的参数更新。在训练结束后,取出online-actor网络
Figure BDA00035500395100001110
即可用于再入飞行制导剖面的在线自适应调整。
S5:在完成训练之后,提取智能体的online-actor网络参数并进行固定。
在飞行过程中根据当前状态,预测输出调整后攻角和倾侧角剖面参数,飞行器即可根据剖面输出攻角和倾侧角指令,进行后续飞行;
为进一步提高飞行控制指令的合理性与飞行轨迹的平滑性,在由智能体网络得到的攻角指令αnet的基础上,加入速度与飞行路径角反馈,并加入角速率限幅:
Figure BDA0003550039510000121
式(21)中:
αh为速度与飞行路径角反馈得到的攻角指令;
αnet为由智能体网络得到的攻角指令;
k为调整系数,为一较小的非负常数;
V表示飞行器飞行时的速度;
γ表示飞行器的飞行路径角;
α表示飞行器飞行时的攻角;
αup为上一步实际攻角指令;
εα为角速率限幅,取5°/s。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同条件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (6)

1.一种基于深度策略性梯度强化学习的在线轨迹生成制导方法,其特征在于:所述方法包括如下步骤:
S1:建立无量纲化的动力学模型,并将过程约束转化为倾侧角约束;
S2:设计攻角剖面和倾侧角剖面形式;
S3:设定强化学习要素;
S4:建立actor-critic架构的智能体;
S5:提取智能体的online-actor网络参数并进行固定。
2.根据权利要求1所述的一种基于深度策略性梯度强化学习的在线轨迹生成制导方法,其特征在于:所述S1包括如下步骤:
S101:建立无量纲化的动力学模型如下:
Figure FDA0003550039500000011
式(1)中:
r表示飞行器飞行时的地心距;
V表示飞行器飞行时的速度;
γ表示飞行器的飞行路径角;
θ表示飞行器飞行时的经度;
ψ表示飞行器飞行时的航向角;
Figure FDA0003550039500000021
表示飞行器飞行时的纬度;
σ表示飞行器飞行时的倾侧角;
D表示飞行器的气动阻力;
L表示飞行器的气动升力;
且:
Figure FDA0003550039500000022
式(2)中:
α表示飞行器飞行时的攻角;
CL(α,Ma)表示由攻角和马赫数决定的升力系数;
CD(α,Ma)表示由攻角和马赫数决定的阻力系数;
q表示飞行器的动压;
Sref表示飞行器的参考面积;
S102:将过程约束转化为倾侧角约束的过程如下:
S10201:确定过程约束如下:
大气密度公式采用指数型公式:
Figure FDA0003550039500000023
式(3)中:
ρ为大气密度;
ρ0=1.225kg/m3为海平面大气密度;
hs=7110m为基准高度;
h为飞行器高度;
e为自然常数;
动压约束:
q=ρ(VVc)2/2≤qmax (4)
式(4)中:
q为动压;
Figure FDA0003550039500000031
为无量纲化常量,其中:g0=9.8m/s2为引力常量,R0为地球半径;
qmax为飞行器能承受的最大动压;
过载约束:
Figure FDA0003550039500000032
式(5)中:
n为过载;
nmax为飞行器所能承受的最大过载;
热流约束:
Figure FDA0003550039500000033
式(6)中:
Q为热流;
C1和Rd均为与飞行器头部形状相关的常数;
Qmax为飞行器所能承受的最大热流;
准平衡滑翔约束:
采用飞行路径角为常数形式的准平衡滑翔约束,对于无动力滑翔的情况,可写为:
Figure FDA0003550039500000034
S10202:基于飞行器高度-速度剖面建立再入走廊模型,结合速度、最大动压、最大过载以及最大热流约束便可初步得到再入走廊如下:
动压约束再入走廊边界Hqmax(V)如下:
Figure FDA0003550039500000041
过载约束再入走廊边界
Figure FDA0003550039500000042
如下:
Figure FDA0003550039500000043
热流约束再入走廊边界
Figure FDA0003550039500000044
如下:
Figure FDA0003550039500000045
其中,Cq为飞行器的热流系数;
准平衡滑翔约束再入走廊边界如下:
利用牛顿迭代求解式获得准平衡滑翔约束对应的再入走廊边界HQEGC(V);
S10203:基于飞行器高度-速度剖面的再入走廊上下边界表示如下:
Figure FDA0003550039500000046
式(11)中:
Hup为再入走廊上边界;
Hdown为再入走廊下边界;
将再入走廊转化为对倾侧角大小的限制,即:
up|≤|σ|≤|σdown| (12)
式(12)中:
up|为倾侧角的上边界,由再入走廊下边界决定;
down|为倾侧角的下边界,由再入走廊上边界决定。
3.根据权利要求2所述的一种基于深度策略性梯度强化学习的在线轨迹生成制导方法,其特征在于:所述S2包括如下步骤:
令再入过程中的控制量为攻角和倾侧角,
则攻角α的剖面形式为:
Figure FDA0003550039500000051
式(13)中:
αmax表示经过约束得到的飞行器能承受的最大攻角;
α2表示飞行器最大升阻比对应的攻角;
V表示飞行器飞行时的速度;
V1、V2表示分段处对应的飞行器的速度;
倾侧角σ绝对值的剖面为:
Figure FDA0003550039500000052
式(14)中:
σ0表示初始状态下满足准平衡滑翔条件的倾侧角;
V表示飞行器飞行时的速度;
V0表示飞行器的初始速度;
Vmid表示飞行中点速度;
σmid表示速度中点状态对应的待规划倾侧角;
Vf表示飞行终端速度;
σf表示终端速度状态下满足准平衡滑翔条件的倾侧角。
4.根据权利要求3所述的一种基于深度策略性梯度强化学习的在线轨迹生成制导方法,其特征在于:所述S3包括如下步骤:
S301:确定强化学习的状态空间为:
Figure FDA0003550039500000061
其中,
Figure FDA0003550039500000062
表示滑翔段结束时的期望剩余航程,
Figure FDA0003550039500000063
表示滑翔段结束时的期望速度;Spre表示当前攻角、倾侧角剖面飞行获得的终端剩余航程,Vpre表示当前攻角、倾侧角剖面飞行获得的终端速度;
S302:确定强化学习的动作量为:
速度中点状态对应的待规划倾侧角σmid、飞行器最大升阻比对应的攻角α2以及分段处对应的飞行器的速度V2
S303:根据再入走廊,动作空间的取值范围为σmid∈[6°,70°],α2∈[8°,16°],V2∈[3500m/s,4500m/s];
当飞行器滑翔段飞行结束时,将终端剩余航程误差及速度误差的平方和的相反数作为惩罚项:
Figure FDA0003550039500000064
其中,Sf表示终端剩余航程;
为了弥补奖励函数过于稀疏的问题,在其他时刻,过程奖励函数如下:
Figure FDA0003550039500000065
5.根据权利要求4所述的一种基于深度策略性梯度强化学习的在线轨迹生成制导方法,其特征在于:所述S4包括如下步骤:
S401:Actor部分根据状态st进行决策输出动作μ(st),Critic部分根据状态st及动作at,估计Q值;
S402:对于Actor-Critic架构的两个部分,分别设置两个结构相同但参数不同的神经网络,即:online network与target network;且在训练过程中,智能体的online-actor神经网络生成剖面参数,并添加动作噪声,完成对攻角及倾侧角剖面参数的调整;在强化学习训练过程中,智能体采用online网络产生动作与环境交互。
S403:飞行器基于调整后的攻角及倾侧角剖面生成攻角、倾侧角指令并输入动力学模型中;
S404:动力学模型返回飞行器下一步状态及反映制导结果的剩余航程、速度误差;将状态转换过程信息,即原状态-动作-奖励-转换状态存入经验池;
S405:按照设定的训练频次,随机抽取经验池中的样本,训练online神经网络并对target神经网络参数进行软更新。
6.根据权利要求5所述的一种基于深度策略性梯度强化学习的在线轨迹生成制导方法,其特征在于:所述S5包括如下步骤:
在飞行过程中根据当前状态,预测输出调整后攻角和倾侧角剖面参数,飞行器即可根据剖面输出攻角和倾侧角指令,进行后续飞行;
在由智能体网络得到的攻角指令αnet的基础上,加入速度与飞行路径角反馈,并加入角速率限幅:
Figure FDA0003550039500000071
式(21)中:
αh为速度与飞行路径角反馈得到的攻角指令;
αnet为由智能体网络得到的攻角指令;
k为调整系数,为非负常数;
V表示飞行器飞行时的速度;
γ表示飞行器的飞行路径角;
α表示飞行器飞行时的攻角;
αup为上一步实际攻角指令;
εα为角速率限幅,取5°/s。
CN202210260745.6A 2022-03-16 2022-03-16 基于深度策略性梯度强化学习的在线轨迹生成制导方法 Pending CN114637327A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210260745.6A CN114637327A (zh) 2022-03-16 2022-03-16 基于深度策略性梯度强化学习的在线轨迹生成制导方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210260745.6A CN114637327A (zh) 2022-03-16 2022-03-16 基于深度策略性梯度强化学习的在线轨迹生成制导方法

Publications (1)

Publication Number Publication Date
CN114637327A true CN114637327A (zh) 2022-06-17

Family

ID=81950506

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210260745.6A Pending CN114637327A (zh) 2022-03-16 2022-03-16 基于深度策略性梯度强化学习的在线轨迹生成制导方法

Country Status (1)

Country Link
CN (1) CN114637327A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115357051A (zh) * 2022-10-18 2022-11-18 北京理工大学 变形与机动一体化的规避与突防方法
CN117518836A (zh) * 2024-01-04 2024-02-06 中南大学 变体飞行器鲁棒深度强化学习制导控制一体化方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615144A (zh) * 2015-01-30 2015-05-13 天津大学 基于目标规划的高超声速飞行器再入轨迹在线优化方法
CN109740198A (zh) * 2018-12-14 2019-05-10 中国人民解放军国防科技大学 一种基于解析预测的滑翔飞行器三维再入制导方法
CN110413000A (zh) * 2019-05-28 2019-11-05 北京航空航天大学 一种基于深度学习的高超声速飞行器再入预测校正容错制导方法
CN111881518A (zh) * 2020-07-30 2020-11-03 中国人民解放军火箭军工程大学 一种智能的高超声速飞行器再入机动制导方法及系统
CN112580148A (zh) * 2020-12-20 2021-03-30 东南大学 基于深度强化学习的重型营运车辆防侧翻驾驶决策方法
CN112902767A (zh) * 2021-01-28 2021-06-04 西安交通大学 一种多弹时间协同的导弹制导方法及系统
CN113255143A (zh) * 2021-06-02 2021-08-13 南京航空航天大学 一种分布式混合电推进飞行器能量管理系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615144A (zh) * 2015-01-30 2015-05-13 天津大学 基于目标规划的高超声速飞行器再入轨迹在线优化方法
CN109740198A (zh) * 2018-12-14 2019-05-10 中国人民解放军国防科技大学 一种基于解析预测的滑翔飞行器三维再入制导方法
CN110413000A (zh) * 2019-05-28 2019-11-05 北京航空航天大学 一种基于深度学习的高超声速飞行器再入预测校正容错制导方法
CN111881518A (zh) * 2020-07-30 2020-11-03 中国人民解放军火箭军工程大学 一种智能的高超声速飞行器再入机动制导方法及系统
CN112580148A (zh) * 2020-12-20 2021-03-30 东南大学 基于深度强化学习的重型营运车辆防侧翻驾驶决策方法
CN112902767A (zh) * 2021-01-28 2021-06-04 西安交通大学 一种多弹时间协同的导弹制导方法及系统
CN113255143A (zh) * 2021-06-02 2021-08-13 南京航空航天大学 一种分布式混合电推进飞行器能量管理系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
董萌: "类HGB飞行器再入制导技术研究", 《中国优秀硕士学位论文全文数据库》 *
郭冬子等: "再入飞行器深度确定性策略梯度制导方法研究", 《系统工程与电子技术》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115357051A (zh) * 2022-10-18 2022-11-18 北京理工大学 变形与机动一体化的规避与突防方法
CN117518836A (zh) * 2024-01-04 2024-02-06 中南大学 变体飞行器鲁棒深度强化学习制导控制一体化方法
CN117518836B (zh) * 2024-01-04 2024-04-09 中南大学 变体飞行器鲁棒深度强化学习制导控制一体化方法

Similar Documents

Publication Publication Date Title
CN113110592B (zh) 一种无人机避障与路径规划方法
CN111351488B (zh) 飞行器智能轨迹重构再入制导方法
CN110806759B (zh) 一种基于深度强化学习的飞行器航线跟踪方法
CN110703766B (zh) 一种基于迁移学习策略深度q网络的无人机路径规划方法
CN114637327A (zh) 基于深度策略性梯度强化学习的在线轨迹生成制导方法
CN111538241B (zh) 一种平流层飞艇水平轨迹智能控制方法
CN112148024B (zh) 基于自适应伪谱法的无人机实时在线航迹规划方法
CN110059863B (zh) 一种基于所需到达时间的航空器四维航迹优化方法
CN114675545B (zh) 一种基于强化学习的高超声速飞行器再入协同制导方法
CN112965471B (zh) 一种考虑角速度约束和改进斥力场的人工势场路径规划方法
CN114740846A (zh) 面向拓扑-栅格-度量混合地图的分层路径规划方法
CN114199248B (zh) 一种基于混合元启发算法优化anfis的auv协同定位方法
CN115016534A (zh) 一种基于记忆增强学习的无人机自主避障导航方法
Stevšić et al. Sample efficient learning of path following and obstacle avoidance behavior for quadrotors
CN113325706B (zh) 基于改进控制参数化的高超声速飞行器再入轨迹优化方法
CN114625151A (zh) 一种基于强化学习的水下机器人避障路径规划方法
CN115826601A (zh) 基于逆向强化学习的无人机路径规划方法
CN114089776A (zh) 一种基于深度强化学习的无人机避障方法
Wu et al. Multi-phase trajectory optimization for an aerial-aquatic vehicle considering the influence of navigation error
CN112698569B (zh) 一种再入跨域飞行器轨迹一体化设计方法
CN113674310A (zh) 一种基于主动视觉感知的四旋翼无人机目标跟踪方法
CN114442673B (zh) 一种基于混沌模型与dnn的飞行器智能轨迹规划方法
Bonin et al. Optimal path planning for soaring flight
Gao Autonomous soaring and surveillance in wind fields with an unmanned aerial vehicle
CN116225046A (zh) 基于深度强化学习的未知环境下无人机自主路径规划方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220617