CN114510067A

CN114510067A - 一种可重复使用飞行器近似最优制导方法

Info

Publication number: CN114510067A
Application number: CN202210109377.5A
Authority: CN
Inventors: 王学运; 李一凡; 全志远
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2022-01-28
Filing date: 2022-01-28
Publication date: 2022-05-17

Abstract

本发明提出了一种可重复使用飞行器近似最优制导方法，包括以下步骤：步骤1、建立可重复使用升力再入飞行器模型，以攻角和侧倾角作为制导控制量，以参考轨迹作为输出量；步骤2、考虑多种飞行约束，基于高斯伪谱法进行最优轨迹及最优控制量的离线优化设计，实际轨迹与最优轨迹之差作为跟踪误差；步骤3、建立用于近似最优代价函数的评价神经网络；步骤4、将跟踪误差输送至评价神经网络及其权重更新模块，执行基于自适应动态规划的最优反馈控制算法，通过所述评价神经网络近似求解最优反馈控制量；步骤5、伪谱法参考轨迹另一输出为稳态控制量，基于所述步骤4的最优反馈控制量，以及稳态控制量，共同作用于升力再入飞行器模型，实现制导及轨迹跟踪。

Description

一种可重复使用飞行器近似最优制导方法

技术领域

本发明涉及可重复使用再入飞行器最优制导方法，具体涉及一种可重复使用飞行器近似最优制导方法。

背景技术

飞行器进入太空后再以重新进入地球大气层的过程称为再入。可重复使用再入飞行器升阻比大，进入大气层后可控制升力，具有速度高、航程远、机动大且落点精确的巨大优势，具有广阔的应用前景。由于可重复使用，能作为太空开发、空间科研的运输和试验平台。升力再入飞行是飞行技术和空间科学的重要发展方向。目前各大国都在加紧研制自己的升力再入飞机器，相关技术成为研究热点。升力再入飞行器涉及诸多前沿科学领域，技术重难点多，主要有：(1)热防护问题：再入过程中机体会在局部产生1600℃的高温；(2)气动问题：再入过程速度高、过载大、高攻角飞行，对气动特性以及参数的准确性要求高；(3)导航制导与控制问题：升力再入飞行轨迹复杂、经历环境多样、干扰众多、不确实性强，实现全自主、高精确、高可靠的导航、制导与控制难度大。

发明内容

本发明针对可重复使用再入飞行器的最优制导开展研究，为了解决可重复使用再入飞行器最优轨迹确定和最优制导律实现的问题，克服现有技术的不足，本发明提出了一种可重复使用飞行器近似最优制导方法，实现可重复使用再入飞行器最优轨迹设计及近似最优在线制导。本发明是通过以下方法方案实现的：

一种可重复使用飞行器近似最优制导方法，包括以下步骤：

步骤1、建立可重复使用升力再入飞行器模型，以攻角和侧倾角作为制导控制量，以参考轨迹作为输出量；

步骤2、考虑多种飞行约束，基于高斯伪谱法进行最优轨迹及最优控制量的离线优化设计，实际轨迹与最优轨迹之差作为跟踪误差；

步骤3、建立用于近似最优代价函数的评价神经网络；所述评价神经网络采用三层结构，单节点输入层、单节点输出层以及多节点隐含层，评价神经网络的输入为跟踪误差，输出为代价函数值；神经网络权重为W_c，选择Sigmoid函数作为激活函数φ_c；

步骤4、将跟踪误差输送至评价神经网络及其权重更新模块，执行基于自适应动态规划的最优反馈控制算法，通过所述评价神经网络近似求解最优反馈控制量；

步骤5、伪谱法参考轨迹另一输出为稳态控制量，基于所述步骤4的最优反馈控制量，以及稳态控制量，共同作用于升力再入飞行器模型，实现制导及轨迹跟踪。

进一步的，所述步骤3中，神经网络采用三层结构，单节点输入层、单节点输出层以及多节点隐含层，隐含层数量根据需求可进行调整，一般取10以上。评价神经网络的输入为跟踪误差，输出为代价函数值。神经网络权重为W_c，选择Sigmoid函数作为激活函数φ_c。神经网络权重W_c初始设置为任意值，其在线更新方法为：

W_c(k)＝W_c(k-1)-ξM_c(k)

其中，ξ为学习率，k表示当前时刻，M_c为辅助向量由轨迹跟踪误差、反馈控制量及最优目标参数决定。

进一步的，所述步骤4中最优反馈控制量u_e ^*计算方法为：

其中，

是φ_c相对于e的偏导数，R₀为正定权值对角阵，G为控制矩阵，上标T代表转置。

本发明具有以下技术效果：

本发明的一种可重复使用飞行器近似最优制导方法，再入飞行器采用攻角和侧倾角作制导控制量，因攻角与升力和阻力系数有关，侧倾角与气动力在飞行器侧向分量有关，因此可通过攻角和侧倾角实现对再入飞行器的轨迹控制，即制导。通过基于伪谱法的最优轨迹及最优控制量的离线优化设计，确定任务轨迹及对应稳态控制量；通过神经网络近似最优代价函数，并采用基于自适应动态规划方法的近似最优制导方法，求解反馈控制量，实现可重复使用再入飞行器最优轨迹设计及近似最优在线制导，具有良好的工程应用价值。

附图说明

图1为本发明实例提供的一种可重复使用飞行器近似最优制导方法的框架图；

图2为本发明实例提供的一种评价神经网络结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述。显然，所描述的实施例仅为本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域的普通技术人员在不付出创造性劳动的前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明公开的一种可重复使用飞行器近似最优制导方法，包含以下步骤：

步骤5、伪谱法参考轨迹另一输出到稳态控制，基于所述步骤4的最优反馈控制量，以及稳态控制量的输出量，共同作用于升力再入飞行器模型，实现制导及轨迹跟踪。

利用本发明提供的制导方法，可重复使用飞行器能实现高精度制导控制。

图1所示，其中，“升力再入飞行器模型”采用可重复使用再入飞行器三自由度运动学模型，以攻角和侧倾角作为制导控制量，以参考轨迹作为输出量；“基于伪谱法参考轨迹”为步骤2中根据飞行约束和优化目标，基于高斯伪谱法进行最优轨迹及最优控制量的离线优化设计，实际轨迹与最优轨迹之差作为跟踪误差，输送至“评价神经网络及其权重更新”模块，用于生成最优反馈控制量，伪谱法参考轨迹另一输出为稳态控制量，基于所述步骤4的(近似)最优反馈控制量，以及稳态控制量量，共同作用于升力再入飞行器模型，实现制导及轨迹跟踪。

所述步骤1、建立可重复使用升力再入飞行器模型，以攻角和侧倾角作为制导控制量，以参考轨迹作为输出量；具体如下：

选择状态量为再入飞行器的地心距、经度、纬度、速度、航迹角和航向角共6维。升力再入飞行器模型如下式：

其中，r是从地心到飞行器的径向距离；θ和

分别为经度和纬度；V是相对地球速度；ψ为相对于当地北的速度航向角，γ为飞行航迹角；m和σ分别为飞行器的质量和倾侧角，地球的角速率表示为ω_e，当地的重力加速度表示为g。

D和L分别为气动阻力和升力，与气动系数、攻角和速度有关：

α为攻角，ρ为空气密度，S_ref为再入飞行器气动参考面积，C_D0，C_D1，C_D2为阻力系数，C_L0，C_L1，C_L2为升力系数，V是相对地球速度。可重复使用再入飞行器以攻角和侧倾角作为制导控制量。当飞行器攻角改变时，其升力和阻力系数会相应变化，造成飞行器所受升力和阻力变化，继而引起飞行器的高度、速度发生改变，产生制导效果；另一方面，当飞行器侧倾角发生变化时，飞行航迹角及航向角会发生变化，引起飞行器侧向速度和位置发生改变，产生制导效果。利用攻角和侧倾角可高效完成可重复使用再入飞行器的制导任务。

步骤2、考虑多种飞行约束，基于高斯伪谱法进行最优轨迹及最优控制量的离线优化设计。

高斯伪谱法是一种非线性系统最优控制的数值求解方法，通过将时间离散化为一定数量的离散点(配点)，未知变量就是离散点上的状态量和控制量，性能指标函数、微分方程和约束条件通过这些未知变量表示出来，从而将非线性最优控制问题转化为非线性规划问题并求解，最后再将解转化为最优控制问题的解。伪谱法采用正交多项式近似状态和控制变量，精度高且收敛速度快，但伪谱法对初值敏感，自适应性较差且计算量较大，在线执行问题较多，因此本发明采用伪谱法进行离线轨迹优化。

为实现基于高斯伪谱法的离线再入轨迹优化，需要：设计性能指标函数，即优化目标；确定状态量；建立动态模型；并建立条件约束。

性能指标函数根据不同飞行任务有所不同，如最大侧向位移、最小发热量以减轻热防护材料重量等。状态量和动态模型已在步骤1中确定，条件约束如下：

q≤q_max

式中，Q表示飞行器再入过程中与大气摩擦产生的发热量，n表示飞行器的过载，q表示动压，m为飞行器的质量，当地的重力加速度表示为g，下标max表示容许最大值，n_max表示飞行器的过载容许最大值，

表示发热量的变化速率，

表示发热量的最大变化速率容许值，符号上面的圆点表示一阶导数。

高斯伪谱法利用多阶拉格朗日插值多项式对状态量X(对应于步骤1中的地心距、经度、纬度、速度、航迹角和航向角的6维向量)和控制量U(对应于步骤1中的攻角和侧倾角)进行近似：

式中，N为配置点数，La为拉格朗日插值多项式，τ为当前配点，下标i和j分别代表第i和第j个配点。通过配点法将最优化问题转换为非线性规划问题，可通过求解该非线性规划问题来求解升力再入轨迹的优化问题。基于伪谱法的离线轨迹优化设计可同时得到最优控制量，作为稳态控制量。

设计代价函数及迭代方法，在线完成神经网络训练及收敛。图2为本发明实例提供的一种评价神经网络结构图，采用的评价神经网络为三层结构，单节点输入层、单节点输出层以及多节点隐含层，隐含层数量根据需求可进行调整，一般取10以上。评价神经网络的输入为跟踪误差，输出为代价函数值。神经网络权重为W_c，选择Sigmoid函数作为激活函数φ_c。神经网络权重W_c初始设置为任意值，其在线更新方法为：

W_c(k)＝W_c(k-1)-ξM_c(k)

其中，ξ为学习率，k表示当前时刻，M_c为辅助向量，由轨迹跟踪误差、反馈控制量及最优目标参数决定。

M_c(k)＝P_c(k)W_c(k-1)+Q_c(k)

其中，

为积分变量，P_c、Q_c和Ξ、Θ为生成辅助向量所需的中间变量，在每个制导周期W_c仅迭代更新一次，效率高、在线执行可靠性强。

将再入运动学表示为如下简洁形式：

其中，f(x)为再入飞行器的刚体运动学模型中与状态有关项，x代表制导状态量，即再入飞行器的地心距、经度、纬度、速度、航迹角和航向角，G(x)为控制矩阵，即攻角和侧倾角通过控制矩阵对状态量(地心距、经度、纬度、速度、航迹角和航向角)产生控制效果，可通过升力再入飞行器模型得到，d(x)为模型参数不确定和干扰项，t代表时间，为简洁起见以下说明时在不引起歧义情况下省略了字符t。

设定代价函数V_J(e(t))如下：

式中，e为跟踪误差，τ为积分变量，仅作积分运算用，u_e为反馈控制器生成的控制量，r(e,u_e(e))为效用函数，由与跟踪误差相关项Q_c和与反馈控制相关项R_c组成。形式分别如下：

Q_c(e)＝e^TQ₀e

R_c(u_e)＝u_e ^TR₀u_e

Q₀和R₀为正定权值对角阵。

最优代价函数V_J(e)^*可表示为：

其中，Ψ(Ω)是u_e的容许控制域。根据贝尔曼最优性原理，V_J(e)^*满足：H(e,u_e ^*,V_J(e)^*)＝0

可得最优控制为：

其中，

是V_J(e)^*相对于e的偏导数。

以神经网络逼近最优代价函数来求解最优反馈控制量，得到近似最优反馈控制量。由于神经网络权重为W_c，激活函数φ_c为Sigmoid函数，设近似误差为ε_c，则近似的最优代价函数及其对e的偏导数可表示为：

V_J(e)＝W_c ^Tφ_c(e)+ε_c

则近似最优反馈控制量按下式计算：

尽管上面对本发明的具体实施方式进行了描述，但应该清楚，本发明不限于具体实施方式的范围，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。