CN115437406A - 基于强化学习算法的飞行器再入跟踪制导方法 - Google Patents

基于强化学习算法的飞行器再入跟踪制导方法 Download PDF

Info

Publication number
CN115437406A
CN115437406A CN202211130234.9A CN202211130234A CN115437406A CN 115437406 A CN115437406 A CN 115437406A CN 202211130234 A CN202211130234 A CN 202211130234A CN 115437406 A CN115437406 A CN 115437406A
Authority
CN
China
Prior art keywords
network
aircraft
representing
state
angle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211130234.9A
Other languages
English (en)
Inventor
冯冬竹
戴沛
崔家山
仲秦
秦翰林
张立华
冯炜皓
马佳笛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202211130234.9A priority Critical patent/CN115437406A/zh
Publication of CN115437406A publication Critical patent/CN115437406A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/12Target-seeking control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B64AIRCRAFT; AVIATION; COSMONAUTICS
    • B64GCOSMONAUTICS; VEHICLES OR EQUIPMENT THEREFOR
    • B64G1/00Cosmonautic vehicles
    • B64G1/22Parts of, or equipment specially adapted for fitting in or to, cosmonautic vehicles
    • B64G1/24Guiding or controlling apparatus, e.g. for attitude control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Automation & Control Theory (AREA)
  • Chemical & Material Sciences (AREA)
  • Combustion & Propulsion (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于强化学习算法的飞行器再入跟踪制导方法,用于解决现有技术中对系统模型依赖性较大和适应性及制导性能差的问题。其实现方案为建立半速度坐标系下飞行器再入连续最优控制问题;将飞行器再入连续最优控制问题转化为序列凸最优控制问题;将序列凸最优控制问题转化为序列二阶锥规划问题;对序列二阶锥规划问题进行求解,获取飞行器最优倾侧角;对最优倾侧角轨迹采样得到参考轨迹训练数据集;构建神经网络和奖励函数;利用训练数据集对神经网络进行离线训练,直到累计奖励收敛到最大值,得到制导网络;通过制导网络在线获取飞行器再入制导指令,实时跟踪目标高度。本发明适应性强,制导精度高,可用于火箭回收。

Description

基于强化学习算法的飞行器再入跟踪制导方法
技术领域
本发明属于飞行器制导控制技术领域,涉及一种飞行器再入跟踪制导方法,可用于火箭回收。
背景技术
作为飞行器总体与控制系统的核心技术,轨迹与制导设计对于飞行器来说至关重要,且二者逐渐呈现出融合趋势。轨迹优化技术的研究早期来自协调总体参数设计、最大化资源利用率、降低任务运营成本等顶层设计需求。传统制导设计的主要任务是通过离线设计固定的参考轨迹并在线跟踪,确保完成飞行任务。由于传统的跟踪制导方案是建立在简化运动模型基础上,因而存在的对模型依赖性较大和适应性较差的问题,当建模偏差、外部扰动较大时,制导性能会严重恶化。例如“阿波罗”号再入过程的标称轨迹制导方案。该方案的飞行器再入飞行环境非常复杂,其要历经外太空、稀薄大气层以及稠密大气层,由于在此过程中机械能迅速转化为热能,机体会剧烈升温,同时面临着巨大动压及过载的严苛考验。且由于再入过程呈现出多约束、强耦合、快时变、强非线性、强不确定性、大包络、长航时的特点,为制导控制系统设计带来了极大挑战,极大地制约了行器应有的飞行性能。
发明内容
本发明的目的在于针对上述现有技术存在的缺陷,提出一种基于强化学习算法的飞行器再入跟踪制导方法,以根据实时飞行状态快速生成攻角增量指令,通过跟踪期望的高度曲线,有效增强飞行器的任务执行能力,减小对飞行器模型的依赖、提高适应性及制导性能。
为实现上述目的,本发明的技术方案包括如下:
(1)将飞行器再入段轨迹优化描述为由数学模型、边界条件、容许控制、性能指标、过程约束构成的连续最优控制问题P0;
(2)对P0进行更换形式、松弛变量、软化约束、逐次线性化方法的凸化处理,得到序列凸最优控制问题P1,采用伪谱法对该P1进行离散参数化处理,得到序列二阶锥规划问题P2;
(3)采用内点法求解序列二阶锥规划问题P2,得最优参考轨迹;
(4)对最优参考轨迹进行采样得到参考轨迹训练数据集;
(5)构建神经网络Actor网络:
(5a)建立由第一输入层、第一隐藏层、第一输出层依次连接组成的动作评估子网络 Actor_eval,该第一输入层输入的状态变量为当前状态智能体的地心距、经度、纬度、航迹角、航向角这五个状态变量,该第一输出层输出信息为当前状态的攻角增量指令;
(5b)建立由第二输入层、第二隐藏层、第二输出层依次连接组成的动作目标子网络Actor_target,该第二输入层输入的状态变量为智能体下一个状态的地心距、经度、纬度、航迹角、航向角这五个状态变量,该第二输出层输出信息为下一个状态的目标攻角增量指令;
(5c)将动作评估子网络Actor_eval网络和动作目标子网络Actor_target网络并联,构成Actor网络,用于接收经验回放池的状态信息,并输出攻角增量指令信息;
(6)构建神经网络Critic网络:
(6a)建立由第三输入层、第三隐藏层、第三输出层依次连接组成的价值评估子网络 Critic_eval,该第三输入层输入的变量为当前状态智能体的地心距、经度、纬度、航迹角、航向角这五个状态变量以及Actor_eval输出的攻角增量指令,该第三输出层输出信息为智能体这一状态采取指令后产生的累计奖励;
(6b)建立由第四输入层、第四隐藏层、第四输出层依次连接组成的价值目标子网络 Critic_target,该第四输入层输入的变量为下一个状态智能体的地心距、经度、纬度、航迹角、航向角这五个状态变量以及Actor_target输出的攻角增量指令,该第四输出层输出信息为智能体下一状态采取指令后产生的目标累计奖励;
(6c)将价值评估子网络Critic_eval网络和价值目标子网络Critic_target网络并联,构成Critic网络,用于接受经验回放池的状态信息和Actor网络输出的攻角增量指令信息,并输出智能体采取指令后产生的累计奖励信息;
(7)设计Actor网络和Critic网络的奖励函数R均为:
R=R1+R2,其中R1为目标奖励,R2为约束奖励;
(8)利用(4)中所得到的参考轨迹训练数据集使用深度确定性策略梯度算法DDPG,对Actor网络和Critic网络进行并行离线训练,当智能体的累计奖励收敛于一个最大值时,得到训练好的制导网络;
(9)在线获取飞行器再入段制导指令并实时跟踪:
飞行器在飞行期间,机载计算机读取飞行器导航系统测得的实时飞行状态量,将实时飞行的状态量作为制导网络的输入进行前向传播,得到实时的制导指令;飞行器根据指令将产生攻角变化实时跟踪预定高度曲线。
本发明与现有技术相比,具有如下优点:
1)本发明由于构建了神经网络模型,并将大量优化计算转移到离线训练过程中,减小了在线运算量,提高了生成制导指令的速度,使得飞行器能够实时对环境做出反应。
2)本发明由于设计了关于目标高度和攻角增量的奖励函数,提高了制导精度,使得飞行器能够适应复杂的环境并实现对高度的精细跟踪。
附图说明
图1为本发明的实现流程图;
图2为本发明中在构建飞行器最优轨迹中使用的原始非凸集;
图3为本发明中在凸化飞行器最优轨迹中得到的凸容许控制集;
图4为本发明中求解飞行器最优轨迹得到的再入段倾侧角的参考轨迹;
图5为用本发明对气动参数正向固定拉偏的累计收益曲线图;
图6为用本发明对气动参数正向固定拉偏的跟踪效果图;
图7为用本发明对气动参数正向随机拉偏的跟踪效果图;
图8为用本发明对气动参数正向随机拉偏时的奖励曲线图;
图9为用本发明对气动参数反向固定拉偏的累计收益曲线图;
图10为用本发明对气动参数反向固定拉偏的跟踪效果图;
图11为用本发明对气动参数反向随机拉偏的跟踪效果图;
图12为用本发明对气动参数反向随机拉偏的奖励曲线图。
具体实施方式
以下结合附图对本发明具体实施例和效果作进一步详细说明。
参照图1,本实例的实现步骤如下:
步骤1,建立飞行器运动模型。
飞行器质心运动方程是研究其运动特性的基础,本实例以无动力可重复使用运载器 RLV为研究对象,在半速度系下建立其再入质心运动方程。轨迹优化问题通常不考虑控制力作用,并且由于附加哥氏力量级较小,忽略其影响,RLV再入过程主要依靠空气动力和地球引力改变飞行状态,假设地球为理想圆球,在半速度坐标系下,建立RLV的状态微分方程f1如下:
Figure BDA0003849955060000041
其中,r为RLV无量纲地心距,
Figure BDA0003849955060000042
为RLV无量纲速度,Ω为地球自转角速率,R0为地球半径,γ为航迹角,ψ为航向角,σ为倾侧角,L=0.5R0ρV2SCL/m为升力加速度,D=0.5R0ρV2SCD/m为阻力加速度;e为RLV的无量纲能量,CD与CL分别为阻力系数与升力系数,这两个系数均为攻角α和马赫数Ma的函数,S为RLV参考面积,ρ=ρ0exp(-(r-1)/H)表示大气密度,其是地心距r的函数,ρ0为海平面大气密度,H为无量纲标高。
对于状态微分方程,本实施例选择状态量为s=(r,θ,φ,γ,ψ),控制量为倾侧角u=σ。
步骤2,建立飞行器约束条件和性能指标。
2.1)建立飞行器的约束条件:
2.1.1)建立过程约束K:
由于无动力可重复使用运载器RLV在大气层内飞行时,机体与大气摩擦产生大量热量,考虑到RLV的结构强度和设备安全工作条件,出于飞行安全,对动压q、热流率
Figure BDA0003849955060000051
和法向过载n进行约束,记为K:
Figure BDA0003849955060000052
其中,kQ为热流率计算系数,g0为海平面重力加速度,qmax
Figure BDA0003849955060000053
和nmax分别为RLV 可承受的最大动压、最大热流率和最大过载;
2.1.2)建立初始状态约束L和终端状态约束Φ1
根据RLV的飞行任务可以确定RLV的初始状态信息和终端状态信息,进而对RLV的初始状态和终端状态施加约束:
初始状态约束L:
Figure BDA0003849955060000054
其中,x表示飞行器的五个状态变量,
Figure BDA0003849955060000055
表示飞行器的无量纲初状态,e0表示RLV的初始无量纲能量;
终端状态约束Φ1
Figure BDA0003849955060000056
其中,ef表示RLV的终端无量纲能量,
Figure BDA0003849955060000057
分别表示RLV终端无量纲地心距、经度、纬度、航迹角和航向角的设定值;
2.1.3)建立容许控制C:
在RLV飞行过程中,为确保RLV不会进行大角度的翻转,还应当对控制量倾侧角加以限制,因此建立容许控制约束C来约束倾侧角的幅值;
容许控制C:
C:σmin≤|σ|≤σmax
其中,σmin和σmax分别表示倾侧角的下限和上限。
2.2)建立性能指标J
在飞行器再入的轨迹优化中,通常对飞行器的期望要求包含飞行器再入时间最短,终端速度最大,飞行航程最长,消耗能量最小,本实例中性能指标J为再入时间最短,即:
Figure BDA0003849955060000061
步骤3,构建RLV再入段轨迹优化模型的最优控制问题P0。
根据上述状态微分方程f1、过程约束K、初始约束L、终端约束Φ1、容许控制C和性能指标J,将RLV再入段的轨迹优化模型描述为包括这些参数的最优控制问题P0:
Figure BDA0003849955060000062
步骤4,将飞行器再入连续最优控制问题P0转化为序列凸最优控制问题P1。
4.1)过程约束K的形式转换:
将过程约束K重新描述为关于状态变量r的线性不等式形式,满足凸问题的要求:
Figure BDA0003849955060000071
上式等价于
Figure BDA0003849955060000072
其中,lQ(e)、lq(e)、ln(e)分别表示飞行器的热流率、动压和过载关于无量纲地心距r 的函数,
Figure BDA0003849955060000073
表示lQ(e)、lq(e)、ln(e)三者中最大值;。
4.2)控制约束的松弛:
4.2.1)转换控制变量
由于选择倾侧角σ为控制量时,在对微分方程组进行逐次线性化时易产生不良震荡,因此需要更换控制变量来消除这种不良震荡,详细说明如下:
首先,根据选择倾侧角σ为控制量时,质心运动方程f1关于状态量x和控制量u=σ都是非凸的性质,采用逐次线性化方法凸化方程f1,逐次求解过程中第k次的解包含状态变量解x(k)(e)和控制量解u(k)(e),记为{x(k)(e);u(k)(e)};
其次,根据第k次迭代得到的解,将第k+1次迭代将方程线性化为:
x′=Fx(x(k),u(k),e)x+Fu(x(k),u(k),e)u+b(x(k),u(k),e)
其中,x′表示五个状态变量对无量纲能量e的导数,
Figure BDA0003849955060000074
表示微分方程组f对x的雅可比矩阵、
Figure BDA0003849955060000075
表示微分方程组f对u的雅可比矩阵,b(x(k),u(k),e)=f(x(k),u(k),e)-Fx(x(k),u(k),e)x(k)-Fu(x(k),u(k),e)u(k)表示余矢量。
接着,根据上述系数矩阵Fx、Fu以及余矢量b与u(k)有关,在迭代过程中控制量u(k)易产生震荡的情况,即在迭代过程中通过控制量u(k)的振荡控制第k+1次迭代得到的控制量 u(k+1),随着迭代不断进行,振荡可能会进一步放大。这些振荡不是问题的解所固有的,是数值求解过程不稳定的表现,为消除线性化动力学方程与u(k)的关系,引入如下控制变量替换原控制量:
Figure BDA0003849955060000081
其中,u1表示倾侧角余弦值,u2表示倾侧角正弦值,将替换后的控制变量从质心运动方程中分离出来,依据新的控制变量对微分方程组进行线性化,其雅可比系数矩阵近似为0矩阵,可消除不良的震荡传递。
4.2.2)建立新的控制变量约束
控制变量转换后,控制约束表示为:cosσmax≤u1≤cosσmin,由于控制量u1和u2不是相互独立的,还需要满足如下等式:
Figure BDA0003849955060000082
该等式约束是一个二次约束,约束确定的原始容许控制集如图2所示,该原始容许控制集是单位圆上在u1=ωl=cosσmax和u1=ωh=cosσmin之间的两段圆弧,这两段圆弧构成的集合是非凸的,需要进行凸化处理,即对约束进行松弛处理,将原约束松弛为如下二阶锥不等式约束:
Figure BDA0003849955060000083
通过松弛约束后确定的集合扩大了原始容许控制集,使得原非凸集合变为凸集,如图 3阴影区域所示。
4.3)性能指标的逐次线性化:
4.3.1)将阻力加速度表达式代入性能指标,将性能指标表示为如下状态量的函数:
Figure BDA0003849955060000084
其中,,D=0.5R0ρV2SCD/m为阻力加速度,系数
Figure BDA0003849955060000085
不含任何状态量,
Figure BDA0003849955060000086
为RLV无量纲速度,m为飞行器质量,Ω为地球自转角速率,R0为地球半径,e为RLV的无量纲能量,CD为阻力系数,其为攻角α和马赫数Ma的函数,S为RLV 参考面积,ρ=ρ0exp(-(r-1)/H)表示大气密度,其是地心距r的函数,ρ0为海平面大气密度,H为无量纲标高。
4.3.2)线性化处理性能指标
性能指标式中的大气密度ρ是唯一可优化的量,相关状态分量为地心距r。大气密度近似采用指数模型,该性能指标的被积函数是关于r的凸函数,但为最终得到二阶锥规划问题,需将其转化为关于r的线性函数,为此,在前一次迭代的解r(k)(e)附近,对该性能指标的被积函数进行一阶泰勒展开:
Figure BDA0003849955060000091
其中,ρ(k)表示利用r(k)(e)计算得到的大气密度,
Figure BDA0003849955060000092
表示大气密度ρ对r的导数在r(k)(e)处的值,
Figure BDA0003849955060000093
分别表示在前一次迭代的解r(k)(e)附近性能指标关于无量纲地心距r的一阶项和余项;
4.3.3)引入正则化项确保约束不变
在线性化处理原性能指标后,还需引入正则化项,确保步骤4.2)中松弛约束后产生积极效果,即在线性化后的性能指标中引入
Figure BDA0003849955060000094
其中,εψ≠0是一个常量,为确保得到的解近似于原问题的解,需要将εψ的量级设置的足够小。
4.4)终端约束的松弛:
终端约束虽然均为线性等式约束,但在初期寻优过程中,由于经、纬度两个硬约束可能难以满足,为此,在性能指标中引入如下惩罚项替代这两个终端约束:
Figure BDA0003849955060000095
其中,d(θ(ef),φ(ef))表示惩罚项,cθ>0和cφ>0为给定常量,
由于该惩罚项是非线性的,故需要再通过引入两个松弛变量
Figure BDA0003849955060000096
Figure BDA0003849955060000097
将其转化为一个线性函数并入性能指标中:
Figure BDA0003849955060000098
且受到线性不等式约束:
Figure BDA0003849955060000099
将性能指标更新为:
Figure BDA0003849955060000101
其中,c1、c0分别表示性能指标逐次线性化过程中关于无量纲地心距r的一阶项和余项,
Figure BDA0003849955060000102
Figure BDA0003849955060000103
分别表示RLV终端无量纲地心距、经度、纬度、航迹角和航向角的设定值。
4.5)质心运动方程的逐次线性化:
根据更换后的控制量,质心运动方程可表示为:
Figure BDA0003849955060000104
其中,f1(x,e)为原微分方程组中不含控制量的项系数矩阵,B(x,e)为原微分方程组中含有控制量的项系数矩阵;
采用逐次线性化方法凸化质心运动方程,逐次求解过程中第k次的解包含状态变量解 x(k)(e)和控制量解u(k)(e),记为{x(k)(e);u(k)(e)};
根据第k次迭代得到的解,将第k+1次迭代将方程线性化为:
x′=Fx(x(k),u(k),e)x+B(x(k),e)u+b(x(k),u(k),e)
其中,
Figure BDA0003849955060000105
表示雅可比矩阵;
b(x(k),u(k),e)=f1(x(k),e)-Fx(x(k),u(k),e)x(k)表示余矢量;
Figure BDA0003849955060000106
表示B(x,e)u对x的偏导数,
Figure BDA0003849955060000107
表示f1(x,e)对x的偏导数;
L/D=CL/CD,其与V均可看作能量e的单变量函数,因此矩阵B(x,e)中与状态量x相关的元素只有cosγ,导致
Figure BDA0003849955060000111
中存在一非零项,由于飞行器再入过程中,航迹角|γ|很小,即该非零项很小,因此线性化方程可简化为:
x′=Fx(x(k),e)x+B(x(k),e)u+b(x(k),e);
进一步,从质心运动方程中分离出量级很小的地球自转相关项,将质心运动方程更新为如下简洁形式:
x′=f1(x,e)+B(x,e)u=f0(x,e)+fΩ(x,e)+B(x,e)u
其中,
Figure BDA0003849955060000112
表示微分方程中不含控制量的项,fΩ(x,e)为地球自转角速率相关项;
再进一步,将更新过的质心运动方程进行逐次线性化处理,并省略符号中的无量纲能量e,根据第k次迭代得到的解,将第k+1次迭代将方程线性化为:
x′=A(x(k))x+B(x(k))u+b(x(k))
其中,b(x(k))=f0(x(k))-A(x(k))x(k)+fΩ(x(k))表示余矢量,A(x(k))和B(x(k))分别表示f0(x(k))对x和u的雅可比矩阵,f0(x(k))表示f0(x,e)第k次迭代得到的状态微分方程, fΩ(x(k))表示fΩ(x,e)第k次迭代得到的状态微分方程;
为确保逐次线性化的局部有效性,施加信赖域约束:|x-x(k)|≤δ,其中,δ为给定五维常矢量。
4.6)根据步骤4.1)到步骤4.5)中对约束和性能指标的凸化处理,将RLV再入段的轨迹优化模型重新描述为序列凸最优控制问题P1:
Figure BDA0003849955060000121
步骤5,将序列凸最优控制问题P1转化为序列二阶锥规划问题P2。
根据Gauss伪谱法的原理,将序列凸最优控制问题P1离散参数化为序列凸规划问题 P2,其实现步骤如下:
5.1)设置配点和离散点:
将能量自变量e转换为伪能量自变量Ε∈[-1,1]:
Figure BDA0003849955060000122
其中,e0、ef分别表示飞行器的初始无量纲能量和终端无量纲能量;
在Ε∈(-1,1)内设置N个LG点(Ε12,…,Εm,…,ΕN)作为配点,每个配点的坐标是N 阶Legendre多项式
Figure BDA0003849955060000123
的每一个根,其中m=1,2,…,N表示每一个LG点;
设置离散点,包括伪能量自变量的两端点Ε0、Εf和所有区间内部的LG点,即共计N+2个离散点Ε01,…,Εn,…,ΕN+1,其中n=0,1,…,N+1,表示每一个离散点,ΕN+1=Εf表示伪能量自变量的右端点。
5.2)质心运动微分方程的离散:
5.2.1)利用拉格朗日插值多项式表示伪能量自变量Ε∈[-1,1)的质心运动微分方程约束:
以N+1个拉格朗日插值多项式
Figure BDA0003849955060000124
作为基函数近似每个LG点的状态变量
Figure BDA0003849955060000131
其中i=0,1,…,N表示每一个插值多项式;
利用近似的状态变量x(Εm)对伪能量自变量Ε求导,即
Figure BDA0003849955060000132
其中,
Figure BDA0003849955060000133
表示基函数Lim)在LG点处的导数;
利用
Figure BDA0003849955060000134
代替原质心运动微分方程的x′,将质心运动微分方程约束转化为LG配点处的代数方程约束:
Figure BDA0003849955060000135
其中,
Figure BDA0003849955060000136
表示状态变量在第m个LG点处第k次迭代的解,xm表示状态变量在第m个LG点处的解,um表示控制量在第m个LG点处的解;
5.2.2)利用Gauss积分估计伪能量自变量右端点质心运动微分方程约束:
由于状态变量近似表达式对应的伪能量区间为[-1,1),未包含终端状态变量xN+1,因此采用Gauss积分来估计xN+1,即终端状态xN+1需满足的质心运动微分方程约束:
Figure BDA0003849955060000137
其中,wm表示LG积分权重。
5.3)设置离散后的其他约束条件:
5.3.1)信赖域约束:
Figure BDA0003849955060000138
其中,
Figure BDA0003849955060000139
表示第n个离散点处第k次迭代的状态变量解;
5.3.2)控制约束:
Figure BDA00038499550600001310
其中,(u1)m和(u2)m分别表示控制量u1和u2在第m个LG点的值,ωl和ωh分别代表倾侧角余弦值的最小值和最大值;
5.3.3)过程约束:
Figure BDA0003849955060000141
其中,rm表示飞行器的无量纲地心距在第m个LG点的值,
Figure BDA0003849955060000142
表示飞行器热流率、动压和过载在第m个LG点的最大值;
5.3.4)边界条件:
Figure BDA0003849955060000143
Figure BDA0003849955060000144
Figure BDA0003849955060000145
Figure BDA0003849955060000146
Figure BDA0003849955060000147
Figure BDA0003849955060000148
其中,
Figure BDA0003849955060000149
表示飞行器状态变量设定的初始值,rN+1表示飞行器无量纲地心距的终端状态,θN+1表示飞行器经度的终端状态,φN+1表示飞行器纬度的终端状态,γN+1表示飞行器航迹角的终端状态,ψN+1表示飞行器航向角的终端状态,
Figure BDA00038499550600001410
分别表示飞行器终端无量纲地心距、经度、纬度、航迹角和航向角,
Figure BDA00038499550600001411
Figure BDA00038499550600001412
分别表示经度和纬度的松弛变量;
5.3.5)性能指标:
性能指标函数通过Gauss积分近似为:
Figure BDA00038499550600001413
其中,cθ
Figure BDA00038499550600001414
分别表示经度和纬度的惩罚系数,
Figure BDA00038499550600001415
分别表示性能指标逐次线性化过程中关于无量纲地心距r的一阶项和余项,εψ表示航向角正则化项系数,ψm表示航向角在第m个LG点上的值。
5.4)根据步骤5.1)到步骤5.3)中对各约束和性能指标的离散化处理,将RLV再入段的轨迹优化模型重新描述为序列凸最优控制问题P2:
Figure BDA0003849955060000151
其中,n=0,1,2...N+1表示每一个离散点,m=1,2,3...N表示每一个LG点。
步骤6,对无动力可重复使用运载器RLV再入段序列二阶锥规划问题P2进行离线求解,其流程如下:
6.1)令迭代计数k=0,给定离散点处的初始状态量
Figure BDA0003849955060000152
Figure BDA0003849955060000153
表示第n个离散点处第k次迭代的状态变量解,n=0,1,2...N+1;
6.2)将迭代计数k加一,采用内点法求解问题P2,得到解
Figure BDA0003849955060000154
其中,z(k+1)表示第k+1次迭代的解向量,
Figure BDA0003849955060000155
表示第k+1次迭代的状态变量解,
Figure BDA0003849955060000156
表示第n个离散点处第k+1次迭代的状态变量解,n=0,1,2...N+1,
Figure BDA0003849955060000157
表示第k+1次迭代的控制量解,
Figure BDA0003849955060000158
表示第m个离散点处第k+1次迭代的控制量解,m=1,2,3...N,
Figure BDA0003849955060000159
Figure BDA00038499550600001510
表示第k+1次迭代的松弛变量解;
6.3)设一个五维列向量ε表示收敛判断条件,判断每一个离散点处的状态变量解是否满足
Figure BDA00038499550600001511
的收敛条件:
若不满足,则令x(k)=x(k+1),返回步骤6.2;
否则,输出最优解
Figure BDA0003849955060000161
计算结束。
最终,根据最优解中的u(k+1)得到再入段控制量倾侧角的参考轨迹,如图4所示。
步骤7,对步骤6所得最优参考轨迹进行采样得到参考轨迹训练数据集。
步骤8,构建神经网络Actor和神经网络Critic。
8.1)构建Actor网络:
8.1.1)建立由第一输入层、第一隐藏层、第一输出层依次连接组成的动作评估子网络 Actor_eval,该第一输入层输入的状态变量为当前状态智能体的地心距、经度、纬度、航迹角、航向角这五个状态变量,该第一输出层输出信息为当前状态的攻角增量指令;
8.1.2)建立由第二输入层、第二隐藏层、第二输出层依次连接组成的动作目标子网络 Actor_target,该第二输入层输入的状态变量为智能体下一个状态的地心距、经度、纬度、航迹角、航向角这五个状态变量,该第二输出层输出信息为下一个状态的目标攻角增量指令;
8.1.3)将动作评估子网络Actor_eval网络和动作目标子网络Actor_target网络并联,构成Actor网络,用于接收经验回放池的状态信息,并输出攻角增量指令信息;
8.2)构建Critic网络:
8.2.1)建立由第三输入层、第三隐藏层、第三输出层依次连接组成的价值评估子网络 Critic_eval,该第三输入层输入的变量为当前状态智能体的地心距、经度、纬度、航迹角、航向角这五个状态变量以及动作评估子网络Actor_eval输出的攻角增量指令,该第三输出层输出信息为智能体这一状态采取指令后产生的累计奖励;
8.2.2)建立由第四输入层、第四隐藏层、第四输出层依次连接组成的价值目标子网络 Critic_target,该第四输入层输入的变量为下一个状态智能体的地心距、经度、纬度、航迹角、航向角这五个状态变量以及动作目标子网络Actor_target输出的攻角增量指令,该第四输出层输出信息为智能体下一状态采取指令后产生的目标累计奖励;
8.2.3)将价值评估子网络Critic_eval网络和价值目标子网络Critic_target网络并联,构成Critic网络,用于接受经验回放池的状态信息和Actor网络输出的攻角增量指令信息,并输出智能体采取指令后产生的累计奖励信息;
8.3)将Actor网络和Critic网络中的所有隐藏层均设置为100个神经元,且隐藏层的激活函数均使用relu函数,输出层均使用tanh函数。
步骤9,设置神经网络Actor和神经网络Critic的奖励函数。
奖励函数包括目标奖励和约束奖励,其设置如下:
9.1)根据任务目标,设置目标奖励R1
Figure BDA0003849955060000171
其中,设hnext表示执行完动作Δα后下一时间步的高度,Δα表示攻角增量指令,h0表示下一时间步对应标称高度;
9.2)根据攻角增量大小,设置约束奖励R2
R2=-10|Δα|
9.3)将目标奖励R1与约束奖励R2相加,得到神经网络Actor和神经网络Critic的奖励函数为:R=R1+R2
步骤10,对神经网络Actor和神经网络Critic进行同步离线训练,获得训练好的制导网络。
10.1)参数初始化:
随机初始化Actor_eval网络参数θμ、Actor_target网络参数θμ′
随机初始化Critic_eval网络参数θQ、Critic_target网络参数θQ′
初始化训练过程的相关超参数:即设置目标网络代替更新频率参数为τ、目标网络更新周期回合数T、经验回放池大小为M、每个时间步从经验回放池采样得到的转移过程总数为batch、奖励折扣率为λ;
10.2)使用马尔科夫决策过程MDP模型描述智能体的单步状态转移过程:
10.2.1)结合再入运动模型描述单步转移过程:
根据步骤1中构建的飞行器再入运动模型,设智能体的环境状态为轨迹状态变量S=[r,θ,φ,γ,ψ],智能体的动作为攻角增量Δα;
在每次状态转移过程中,智能体首先接收到一个当前环境状态信息St=[rttttt],而后做出相应的动作At=Δαt,模型在执行该动作后,根据步骤7得到的参考轨迹训练数据集和St、At,通过龙格库塔积分将当前状态St转移为下一个状态St+1,同时智能体将收到一个收益Rt+1,其中,t表示智能体当前状态,t+1表示智能体执行动作后转移到的下一个状态;
10.2.2)在智能体动作中添加随机噪声并抽取新动作替代原动作:
为使智能体能够探索到更多的动作,具备更强的环境适应能力,在智能体所选择的动作At=Δαt中添加随机噪声;
设置参数var作为标准差,并以强化学习算法选择出来的原动作At作为平均值,构造一个正态分布函数,然后从正态分布函数中随机抽取一个新的动作at代替At
10.3)将步骤10.2中的单步转移过程以(St,at,Rt+1,St+1)的形式存储进经验回放池,其中,St表示当前时刻状态、at表示当前时刻采取的攻角增量动作、Rt+1表示执行动作之后得到的奖励值、St+1表示下一时刻状态;
10.4)从经验回放池中随机抽取一些样本输入进Actor网络和Critic网络中,通过性能指标的策略梯度
Figure BDA0003849955060000181
最大化累计奖励来更新Actor网络中的Actor_eval子网络参数,通过最小化损失函数
Figure BDA0003849955060000182
即当前累计奖励与目标累计奖励的均方误差来更新Critic网络中的Critic_eval子网络参数,每过T 回合根据τ和原网络参数进行加权
Figure BDA0003849955060000183
更新Actor网络中的Actor_target 子网络参数和Critic网络中的Critic_target子网络参数,
其中,N表示从经验回放池中采样的样本数量,si为当前状态量,ai为神经网络根据当前状态量选择出的攻角增量指令,yi=Ri+1+λQ′(si+1,μ′(si+1|wμ′)wQ′),表示目标累计奖励,Q(si,ai|wQ)表示Critic_eval网络的输出值,w表示网络的权重和阈值参数,w的上标表示此参数的归属网络,上标Q表示Critic_eval网络,上标Q′表示Critic_target网络,上标μ表示Actor_eval网络,上标μ′表示Actor_target网络,μ′(si+1|wμ′)表示Actor_target 网络的输出值;Q′(si+1,μ′(si+1|wμ′)|wQ′)表示Critic_target网络的输出值,Actor_eval网络的输出值为μ(si|wμ)。
10.5)重复步骤10.4),当智能体的累计奖励收敛于一个最大值时,得到训练好的Actor 网络和Critic网络,将Actor网络中的动作评估子网络Actor_eval网络作为制导网络。
步骤11,在线获取飞行器再入段制导指令。
飞行器在飞行期间,机载计算机读取飞行器导航系统测得的实时飞行状态量,将实时飞行的状态量作为制导网络的输入进行前向传播,得到实时的制导指令,根据指令飞行器将产生攻角变化实时跟踪预定高度曲线。
以下结合仿真实验对本实施例的技术效果进一步说明:
一、仿真条件
飞行器初始条件为:
初始地心距
Figure BDA0003849955060000191
初始经度
Figure BDA0003849955060000192
初始纬度
Figure BDA0003849955060000193
初始航迹角
Figure BDA0003849955060000194
初始航向角
Figure BDA0003849955060000195
初始速度
Figure BDA0003849955060000196
飞行器终端条件为:
终端地心距
Figure BDA0003849955060000197
终端经度
Figure BDA0003849955060000198
终端纬度
Figure BDA0003849955060000199
终端航迹角
Figure BDA00038499550600001910
终端航向角
Figure BDA00038499550600001911
终端速度
Figure BDA00038499550600001912
所有数值仿真均在CPU为I7-8700F(3.20GHz)的PC上进行,软件环境为MATLAB 和PYCHARM。
二、仿真内容
仿真实验1:
在上述仿真条件下,将本发明中每个离散时间步的升力系数和阻力系数固定在正向拉偏20%,测试本发明的收敛性,结果如图5所示。从图5可见,本发明的累计奖励曲线在200回合以内收敛到一个最大值,保证了在正向拉偏情况下的收敛性和数据的的准确性;
仿真实验2:
在上述仿真条件下,将本发明中每个离散时间步的升力系数和阻力系数固定在正向拉偏20%,测试本发明的制导网络在正向拉偏情况下对高度的跟踪效果,结果如图6所示,其中虚线为标称气动参数条件下求解计算的最优高度轨迹,实线为本发明的制导网络生成的高度曲线。根据图6可计算出本发明的制导网络在正向拉偏情况下的终端高度制导精度为0.52%。
仿真实验3:
由于RLV的飞行环境复杂多变,为模拟更加真实的飞行环境,在上述仿真条件下,将本发明中每个离散时间步的气动系数在[0,20%]区间内随机拉偏,且升力系数和阻力系数的拉偏量不同,测试本发明的制导网络在正向随机拉偏的复杂环境情况下对高度的跟踪效果,结果如图7所示,其中虚线为标称气动参数条件下求解计算的最优高度轨迹,实线为本发明的制导网络生成的高度曲线。根据图7可计算出本发明的制导网络在正向随机拉偏的复杂环境下的终端高度制导精度为0.1%。
仿真实验4:
在上述仿真条件下,将本发明中每个离散时间步的气动系数在[0,20%]区间内随机拉偏,且升力系数和阻力系数的拉偏量不同,测试本发明中飞行器在正向随机拉偏的复杂环境下追踪高度的难易程度,结果如图8所示。从图8可见,本发明的奖励曲线在-1000到-1150 之间波动,轨迹末端的奖励下降较快,表示本发明中在正向随机拉偏的复杂情况下飞行器在轨迹末端的跟踪难度较大。
仿真实验5:
在上述仿真条件下,将本发明中每个离散时间步的升力系数和阻力系数固定在反向拉偏20%,测试本发明的收敛性,结果如图9所示。从图9可见,本发明的累计奖励曲线在200回合以内收敛到一个最大值,保证了反向拉偏情况的收敛性和数据的准确性。
仿真实验6:
在上述仿真条件下,将本发明中每个离散时间步的升力系数和阻力系数固定在反向拉偏20%,测试本发明的制导网络在反向拉偏情况下对高度的跟踪效果,结果如图10所示,其中虚线为标称气动参数条件下求解计算的最优高度轨迹,实线为本发明的制导网络生成的高度曲线,根据图10可计算出本发明的制导网络在反向拉偏情况下的终端高度制导精度为2.9%。
仿真实验7:
在上述仿真条件下,将本发明中每个离散时间步的气动系数在[-20%,0]区间内随机拉偏,且升力系数和阻力系数的拉偏量不同,测试本发明的制导网络在反向随机拉偏的复杂环境情况下对高度的跟踪效果,结果如图11所示,其中虚线为标称气动参数条件下求解计算的最优高度轨迹,实线为本发明的制导网络生成的高度曲线,根据图11可计算出本发明的制导网络在反向随机拉偏的复杂情况下的终端高度制导精度为2.4%。
仿真实验8:
在上述仿真条件下,将本发明中每个离散时间步的气动系数在[-20%,0]区间内随机拉偏,且升力系数和阻力系数的拉偏量不同,测试本发明飞行器在反向随机拉偏的复杂环境下追踪高度的难易程度,结果如图12所示。从图12可见,本发明的奖励曲线在-1000到-1025 之间波动,轨迹末端的奖励略有上升,表示本发明中在反向随机拉偏的复杂情况下飞行器在轨迹末端的跟踪难度较小。
从上述随机拉偏条件下的仿真实验可以看出,本发明所提出的方案对在飞行器处于复杂环境下时对高度的跟踪效果好、精度高,且训练得到的制导网络能够较好地适应气动参数偏差。

Claims (8)

1.一种基于强化学习算法的飞行器再入跟踪制导方法,其特征在于,包括如下步骤:
(1)将飞行器再入段轨迹优化描述为由数学模型、边界条件、容许控制、性能指标、过程约束构成的连续最优控制问题P0;
(2)对P0进行更换形式、松弛变量、软化约束、逐次线性化方法的凸化处理,得到序列凸最优控制问题P1,采用伪谱法对该P1进行离散参数化处理,得到序列二阶锥规划问题P2;
(3)采用内点法求解序列二阶锥规划问题P2,得最优参考轨迹;
(4)对最优参考轨迹进行采样得到参考轨迹训练数据集;
(5)构建神经网络Actor网络:
(5a)建立由第一输入层、第一隐藏层、第一输出层依次连接组成的动作评估子网络Actor_eval,该第一输入层输入的状态变量为当前状态智能体的地心距、经度、纬度、航迹角、航向角这五个状态变量,该第一输出层输出信息为当前状态的攻角增量指令;
(5b)建立由第二输入层、第二隐藏层、第二输出层依次连接组成的动作目标子网络Actor_target,该第二输入层输入的状态变量为智能体下一个状态的地心距、经度、纬度、航迹角、航向角这五个状态变量,该第二输出层输出信息为下一个状态的目标攻角增量指令;
(5c)将动作评估子网络Actor_eval网络和动作目标子网络Actor_target网络并联,构成Actor网络,用于接收经验回放池的状态信息,并输出攻角增量指令信息;
(6)构建神经网络Critic网络:
(6a)建立由第三输入层、第三隐藏层、第三输出层依次连接组成的价值评估子网络Critic_eval,该第三输入层输入的变量为当前状态智能体的地心距、经度、纬度、航迹角、航向角这五个状态变量以及Actor_eval输出的攻角增量指令,该第三输出层输出信息为智能体这一状态采取指令后产生的累计奖励;
(6b)建立由第四输入层、第四隐藏层、第四输出层依次连接组成的价值目标子网络Critic_target,该第四输入层输入的变量为下一个状态智能体的地心距、经度、纬度、航迹角、航向角这五个状态变量以及Actor_target输出的攻角增量指令,该第四输出层输出信息为智能体下一状态采取指令后产生的目标累计奖励;
(6c)将价值评估子网络Critic_eval网络和价值目标子网络Critic_target网络并联,构成Critic网络,用于接受经验回放池的状态信息和Actor网络输出的攻角增量指令信息,并输出智能体采取指令后产生的累计奖励信息;
(7)设计Actor网络和Critic网络的奖励函数R均为:
R=R1+R2,其中R1为目标奖励,R2为约束奖励;
(8)利用(4)中所得到的参考轨迹训练数据集使用深度确定性策略梯度算法DDPG,对Actor网络和Critic网络进行并行离线训练,当智能体的累计奖励收敛于一个最大值时,得到训练好的制导网络;
(9)在线获取飞行器再入段制导指令并实时跟踪:
飞行器在飞行期间,机载计算机读取飞行器导航系统测得的实时飞行状态量,将实时飞行的状态量作为制导网络的输入进行前向传播,得到实时的制导指令;飞行器根据指令将产生攻角变化,实时跟踪预定高度曲线。
2.根据权利要求1所述的方法,其特征在于:步骤(1)中连续最优控制问题P0表示为:
P0:min
Figure FDA0003849955050000021
s.t.
Figure FDA0003849955050000022
其中,f1为状态微分方程,表示为:
f1
Figure FDA0003849955050000031
r、V、Ω、L、D分别为无量纲的地心距、速度、地球自转角速率和升、阻力加速度,J表示连续最优控制问题的性能指标,x表示飞行器的五个状态变量,
Figure FDA0003849955050000032
Figure FDA0003849955050000033
分别表示飞行器的初末无量纲状态,e表示飞行器所具有的无量纲能量,e0和ef分别表示飞行器的初末无量纲能量,θ、φ分别为经度和纬度,R0为地球半径,γ为航迹角,ψ为航向角,σ为倾侧角,σmin和σmax分别为倾侧角的下限和上限,
Figure FDA0003849955050000034
q、n分别为飞行器热流率,动压和过载,
Figure FDA0003849955050000035
qmax、nmax分别为飞行器能承受热流率、动压和过载的最大值,kQ和ρ分别表示热流率计算系数和大气密度。
3.据权利要求1所述的方法,其特征在于:步骤(2)中得到的序列凸最优控制问题P1,表示为:
P1:find x(e),u(e),
Figure FDA0003849955050000036
min
Figure FDA0003849955050000037
s.t.x′=A(x(k))x+B(x(k))u+b(x(k))
|x(e)-x(k)(e)|≤δ
Figure FDA0003849955050000038
Figure FDA0003849955050000039
ωl≤u1≤ωh
Figure FDA00038499550500000310
Figure FDA00038499550500000311
Figure FDA00038499550500000312
其中,u=[u1,u2]=[cosσ,sinσ]表示控制量,r、V分别为无量纲的地心距、速度,J表示连续最优控制问题的性能指标,x表示飞行器的五个状态变量,
Figure FDA0003849955050000041
表示飞行器的无量纲初状态,e表示飞行器所具有的无量纲能量,e0和ef分别表示飞行器的初末无量纲能量,θ、φ分别为经度和纬度,γ为航迹角,ψ为航向角,σ为倾侧角,σmin和σmax分别为倾侧角的下限和上限,
Figure FDA0003849955050000042
分别表示经度和纬度的松弛变量,上标的(k)表示变量处于第k次迭代中,k表示迭代计数,A(x(k))、B(x(k))分别表示状态量和控制量的系数矩阵,b(x(k))表示余矢量矩阵,cθ
Figure FDA0003849955050000043
分别表示经度和纬度的惩罚系数,c1、c0分别表示性能指标逐次线性化过程中关于无量纲地心距r的一阶项和余项,εψ表示航向角正则化项系数,δ表示信赖域约束向量,
Figure FDA0003849955050000044
表示凸化后的过程约束,ωl、ωh分别表示倾侧角上限和下限对应的余弦值,
Figure FDA0003849955050000045
分别表示飞行器末状态的无量纲地心距、经度、纬度、航迹角和航向角。
4.据权利要求1所述的方法,其特征在于:步骤(2)中用伪谱法对该P1进行离散参数化处理,得到序列二阶锥规划问题P2表示为:
P2:find xn,un,
Figure FDA0003849955050000046
min
Figure FDA0003849955050000047
s.t.
Figure FDA0003849955050000048
Figure FDA0003849955050000049
Figure FDA00038499550500000410
Figure FDA00038499550500000411
ωl≤(u1)m≤ωh,
Figure FDA00038499550500000412
Figure FDA00038499550500000413
Figure FDA00038499550500000414
Figure FDA00038499550500000415
其中,u=[u1,u2]=[cosσ,sinσ]表示控制量,r、V分别为无量纲的地心距、速度,J表示连续最优控制问题的性能指标,x表示飞行器的五个状态变量,
Figure FDA0003849955050000051
表示飞行器的无量纲初状态,e表示飞行器所具有的无量纲能量,e0和ef分别表示飞行器的初末无量纲能量,θ、φ分别为经度和纬度,γ为航迹角,ψ为航向角,σ为倾侧角,σmin和σmax分别为倾侧角的下限和上限,
Figure FDA0003849955050000052
分别表示经度和纬度的松弛变量,上标的(k)表示变量处于第k次迭代中,k表示迭代计数,A(x(k))、B(x(k))分别表示状态量和控制量的系数矩阵,b(x(k))表示余矢量矩阵,cθ
Figure FDA0003849955050000053
分别表示经度和纬度的惩罚系数,c1、c0分别表示性能指标逐次线性化过程中关于无量纲地心距r的一阶项和余项,εψ表示航向角正则化项系数,δ表示信赖域约束向量,
Figure FDA0003849955050000054
表示凸化后的过程约束,ωl、ωh分别表示倾侧角上限和下限对应的余弦值,
Figure FDA0003849955050000055
分别表示飞行器末状态的无量纲地心距、经度、纬度、航迹角和航向角,n=0,1,2...N+1表示每一个离散点,m=1,2,3...N表示每一个LG点,N表示表示选取的LG点数,w表示每一个LG点对应的积分权重,Di表示基函数在LG点的导数。
5.据权利要求1所述的方法,其特征在于:步骤(3)采用内点法求解序列二阶锥规划问题P2,实现如下:
(3a)令迭代计数k=0,给定离散点处的初始状态量
Figure FDA0003849955050000056
Figure FDA0003849955050000057
表示第n个离散点处第k次迭代的状态变量解,n=0,1,2...N+1;
(3b)将迭代计数k加一,采用内点法求解问题P2,得到解
Figure FDA0003849955050000058
其中,z(k+1)表示第k+1次迭代的解向量,
Figure FDA0003849955050000059
表示第k+1次迭代的状态变量解,
Figure FDA00038499550500000510
表示第n个离散点处第k+1次迭代的状态变量解,n=0,1,2...N+1,
Figure FDA00038499550500000511
表示第k+1次迭代的控制量解,
Figure FDA00038499550500000512
表示第m个离散点处第k+1次迭代的控制量解,m=1,2,3...N,
Figure FDA0003849955050000061
Figure FDA0003849955050000062
表示第k+1次迭代的松弛变量解;
(3c)设一个五维列向量ε表示收敛判断条件,判断每一个离散点处的状态变量解是否满足
Figure FDA0003849955050000063
的收敛条件:
若不满足,则令x(k)=x(k+1),返回(3b);
否则,输出最优解
Figure FDA0003849955050000064
计算结束。
6.据权利要求1所述的方法,其特征在于:Actor网络和Critic网络中的隐藏层均包含100个神经元,且隐藏层的激活函数均使用relu函数,输出层均使用tanh函数。
7.据权利要求1所述的方法,其特征在于:步骤(7)中目标奖励与约束奖励,分别设置如下:
根据任务目标,设置目标奖励R1
Figure FDA0003849955050000065
其中,设hnext表示执行完动作Δα后下一时间步的高度,Δα表示当前状态的攻角增量指令,h0表示下一时间步对应标称高度;
根据攻角增量大小,设置约束奖励
Figure FDA0003849955050000066
R2=-10|Δα|。
8.据权利要求1所述的方法,其特征在于:步骤(8)中使用DDPG算法对Actor网络和Critic网络进行并行离线训练,实现如下:
(8a)参数初始化:
随机初始化Actor_eval网络参数θμ、Actor_target网络参数θμ′
随机初始化Critic_eval网络参数θQ、Critic_target网络参数θQ′
初始化训练过程的相关超参数:设置目标网络代替更新频率参数为τ、目标网络更新周期回合数T、经验回放池大小为M、每个时间步从经验回放池采样得到的转移过程总数为batch、奖励折扣率为λ;
(8b)使用马尔科夫决策过程MDP模型描述智能体的单步状态转移过程,即智能体接收到当前环境状态信息St,依据St执行攻角增量αt动作之后转移至新环境状态St+1,同时智能体接收到一个标量奖励Rt+1
(8c)将(8b)中的单步转移过程以(St,at,Rt+1,St+1)的形式存储进经验回放池;
其中,St表示当前时刻状态、at表示当前时刻采取的攻角增量动作、Rt+1表示执行动作之后得到的奖励值、St+1表示下一时刻状态;
(8d)每次训练的过程中,都从经验回放池中随机抽取一些样本输入进Actor网络和Critic网络中,通过性能指标的策略梯度最大化累计奖励来更新Actor网络中的Actor_eval子网络参数,通过最小化当前累计奖励与目标累计奖励的均方误差来更新Critic网络中的Critic_eval子网络参数,每过T回合根据τ进行加权更新Actor网络中的Actor_target子网络参数和Critic网络中的Critic_target子网络参数;
(8e)重复步骤(8d),当智能体的累计奖励收敛于一个最大值时,得到训练好的制导网络。
CN202211130234.9A 2022-09-16 2022-09-16 基于强化学习算法的飞行器再入跟踪制导方法 Pending CN115437406A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211130234.9A CN115437406A (zh) 2022-09-16 2022-09-16 基于强化学习算法的飞行器再入跟踪制导方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211130234.9A CN115437406A (zh) 2022-09-16 2022-09-16 基于强化学习算法的飞行器再入跟踪制导方法

Publications (1)

Publication Number Publication Date
CN115437406A true CN115437406A (zh) 2022-12-06

Family

ID=84248410

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211130234.9A Pending CN115437406A (zh) 2022-09-16 2022-09-16 基于强化学习算法的飞行器再入跟踪制导方法

Country Status (1)

Country Link
CN (1) CN115437406A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116520281A (zh) * 2023-05-11 2023-08-01 兰州理工大学 一种基于ddpg的扩展目标跟踪优化方法和装置
CN116738923A (zh) * 2023-04-04 2023-09-12 暨南大学 一种基于带约束强化学习的芯片布局优化方法
CN117234070A (zh) * 2023-11-13 2023-12-15 西安现代控制技术研究所 一种基于角度控制指令的btt分配方法
CN117289709A (zh) * 2023-09-12 2023-12-26 中南大学 基于深度强化学习的高超声速变外形飞行器姿态控制方法
CN117518836A (zh) * 2024-01-04 2024-02-06 中南大学 变体飞行器鲁棒深度强化学习制导控制一体化方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116738923A (zh) * 2023-04-04 2023-09-12 暨南大学 一种基于带约束强化学习的芯片布局优化方法
CN116738923B (zh) * 2023-04-04 2024-04-05 暨南大学 一种基于带约束强化学习的芯片布局优化方法
CN116520281A (zh) * 2023-05-11 2023-08-01 兰州理工大学 一种基于ddpg的扩展目标跟踪优化方法和装置
CN116520281B (zh) * 2023-05-11 2023-10-24 兰州理工大学 一种基于ddpg的扩展目标跟踪优化方法和装置
CN117289709A (zh) * 2023-09-12 2023-12-26 中南大学 基于深度强化学习的高超声速变外形飞行器姿态控制方法
CN117234070A (zh) * 2023-11-13 2023-12-15 西安现代控制技术研究所 一种基于角度控制指令的btt分配方法
CN117234070B (zh) * 2023-11-13 2024-03-19 西安现代控制技术研究所 一种基于角度控制指令的btt分配方法
CN117518836A (zh) * 2024-01-04 2024-02-06 中南大学 变体飞行器鲁棒深度强化学习制导控制一体化方法
CN117518836B (zh) * 2024-01-04 2024-04-09 中南大学 变体飞行器鲁棒深度强化学习制导控制一体化方法

Similar Documents

Publication Publication Date Title
CN115437406A (zh) 基于强化学习算法的飞行器再入跟踪制导方法
Li et al. Stochastic gradient particle swarm optimization based entry trajectory rapid planning for hypersonic glide vehicles
Han et al. Online policy iteration ADP-based attitude-tracking control for hypersonic vehicles
Shahbazi et al. Robust constrained attitude control of spacecraft formation flying in the presence of disturbances
Jin et al. Development and validation of linear covariance analysis tool for atmospheric entry
Xu et al. Adaptive neural control of a hypersonic vehicle in discrete time
Qin et al. Robust parameter dependent receding horizon H∞ control of flexible air‐breathing hypersonic vehicles with input constraints
Tang et al. Model predictive control of hypersonic vehicles accommodating constraints
Bu et al. Robust tracking control of hypersonic flight vehicles: A continuous model-free control approach
Wang et al. Optimal trajectory-tracking guidance for reusable launch vehicle based on adaptive dynamic programming
CN114721261A (zh) 一种火箭子级姿态翻转着陆在线制导方法
CN113377121A (zh) 一种基于深度强化学习的飞行器智能抗扰动控制方法
Peng et al. Research on hover control of AUV uncertain stochastic nonlinear system based on constructive backstepping control strategy
Kim et al. TOAST: trajectory optimization and simultaneous tracking using shared neural network dynamics
Hu et al. Integrated fault‐tolerant control system design based on continuous model predictive control for longitudinal manoeuvre of hypersonic vehicle with actuator faults
CN114611416A (zh) 导弹非线性非定常气动特性ls-svm建模方法
Zheng et al. Constrained trajectory optimization with flexible final time for autonomous vehicles
Baier et al. Hybrid physics and deep learning model for interpretable vehicle state prediction
Zhang et al. On-line ascent phase trajectory optimal guidance algorithm based on pseudo-spectral method and sensitivity updates
Cui et al. Finite‐time trajectory tracking control for autonomous airships with uncertainties and external disturbances
CN115390456A (zh) 基于神经网络的飞行器再入段轨迹优化方法
CN116620566A (zh) 非合作目标附着多节点智能协同制导方法
Zhao et al. Endoatmospheric ascent optimal guidance with analytical nonlinear trajectory prediction
CN113985732B (zh) 针对飞行器系统的自适应神经网络控制方法及装置
Tang et al. Trajectory Tracking Control for Fixed-Wing UAV Based on DDPG

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination