CN113504723B

CN113504723B - 一种基于逆强化学习的运载火箭减载控制方法

Info

Publication number: CN113504723B
Application number: CN202110757793.1A
Authority: CN
Inventors: 李惠峰; 何林坤; 张冉
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-07-05
Filing date: 2021-07-05
Publication date: 2023-11-28
Anticipated expiration: 2041-07-05
Also published as: CN113504723A

Abstract

本发明提供一种基于逆强化学习的运载火箭减载控制方法，其具体步骤如下：一、考虑风场情况的运载火箭动力学模型的建立；二、被动减载专家示范生成；三、逆强化学习减载控制策略训练；四、减载控制器迁移，即将训练得到的减载控制策略网络参数固化，与运载火箭动力学的输入输出接口实现闭环，作为减载控制器。通过以上步骤，本发明能实现运载火箭减载控制，解决了目前存在的依赖精确风场信息、无法保证制导精度的问题，达到了较好的稳定性和普适性。本发明所述制导控制方法科学，工艺性好，具有广阔推广应用价值。

Description

一种基于逆强化学习的运载火箭减载控制方法

技术领域

本发明提供一种基于逆强化学习的运载火箭减载控制方法，它是一种运载火箭上升段在稠密大气层内自主调整姿态以减小气动载荷的制导控制方法，适用于一般运载火箭，属于航空航天；制导、导航与控制技术；强化学习控制领域；

背景技术

运载火箭上升段飞行过程中，高速飞行的箭体与气流产生相互作用，使得箭体受到气动力和气动力矩，称为气动载荷；为维持箭体姿态稳定，需要施加同等大小的控制力矩与气动力矩平衡，从而在箭体产生内力弯矩；由于运载火箭具有高长细比，上述内力弯矩容易造成运载火箭结构的失稳甚至破坏；

运载火箭减载控制就是通过控制的方式，减小运载火箭飞行过程中的气动载荷；根据理论分析和长期的工程实践，已经提出了多种减载控制方法，分为主动减载和被动减载两类，被动减载是通过观测数据建立运载火箭飞行环境的风场模型，通过对标准弹道进行风修正的方式减小实际飞行中的气动载荷，但对于无法建模的风干扰，被动减载无法起到减载作用；主动减载则是通过在姿态控制系统中引入与气动载荷直接或间接相关的反馈量，实现对气动载荷的抑制，由于主动减载控制是在运载火箭姿态控制回路的基础上增加气动载荷反馈回路，其减载效果受到姿态控制回路稳定性的约束，且无法保证制导精度；

综上所述，本发明为解决现有运载火箭减载控制难题，以被动减载轨迹作为专家示范，将逆强化学习技术应用于减载控制中，从被动减载专家示范中推断出综合表征气动载荷和制导精度的减载指标，并根据此减载指标进行随机风场下的强化学习训练，得到具有风场适应性且能够保证制导精度的减载控制器，具有一定独创性；

发明内容

(一)本发明的目的

本发明的目的是为了解决上述问题，提出一种基于逆强化学习的运载火箭减载控制方法，即一种运载火箭上升段减载控制方法，通过逆强化学习减载指标推断和减载控制策略训练，得到具有风场适应性且能够保证制导精度的减载控制策略，以解决现有技术存在的依赖精确风场信息、无法保证制导精度等问题，提高运载火箭的可靠性；

(二)技术方案

本发明一种基于逆强化学习的运载火箭减载控制方法，其具体步骤如下：

步骤一、模型建立；

根据统计风场信息和运载火箭总体参数，建立考虑风场情况的运载火箭动力学模型；

步骤二、被动减载专家示范生成；

根据已有被动减载方法，根据已知风场信息对标称轨迹进行风修正，并对风修正后的轨迹进行跟踪，生成被动减载专家示范；

步骤三、逆强化学习减载控制策略训练；

根据生成对抗模仿学习逆强化学习方法，将被动减载专家示范作为输入，训练得到逆强化学习减载控制策略网络；

步骤四、减载控制器迁移；

将训练得到的减载控制策略网络参数固化，与运载火箭动力学的输入输出接口实现闭环，作为减载控制器；

其中，在步骤一中所述的“建立考虑风场情况的运载火箭动力学模型”，其建立模型的具体作法如下：考虑平面地球假设，并根据文献提供的统计数据，在水平方向加入风场模型，结合相关坐标系，根据各状态量之间几何和力学关系在射面内建立运载火箭动力学模型；

其中，在步骤二中所述的“被动减载方法”，是指运载火箭减载控制的经典方法之一，该技术为本领域的公知技术；

其中，在步骤二中所述的“对风修正后的轨迹进行跟踪，生成被动减载专家示范”，其具体作法如下：根据运载火箭动力学模型设计姿态控制器，跟踪风修正轨迹所对应的姿态序列，将跟踪过程中的控制量和运载火箭状态量序列保存作为被动减载专家示范；

其中，在步骤三中所述的“生成对抗模仿学习逆强化学习方法”，是指基于最大熵逆强化学习推导得到鞍点形式的逆强化学习优化指标，以奖励函数网络和策略网络构成生成对抗网络结构，基于优化指标进行奖励函数及策略参数寻优的逆强化学习方法，是一种改进的逆强化学习方法；

其中，在步骤三中所述的“将被动减载专家示范作为输入，训练得到逆强化学习减载控制策略网络”，其具体作法如下：根据动减载专家示范中的状态量和控制量序列，以及当前减载控制策略网络与运载火箭动力学交互所产生的状态量和控制量序列，使用文献中的最大熵逆强化学习原理推导，得到最优减载奖励函数和减载控制策略所满足的鞍点形式优化指标，基于该优化指标，对奖励函数网络和策略网络参数进行梯度更新训练，直至收敛；

其中，在步骤四中所述的“将训练得到的减载控制策略网络参数固化，与运载火箭动力学的输入输出接口实现闭环，作为减载控制器”，其具体作法如下：将逆强化学习训练得到的减载控制策略网络参数固定，以运载火箭动力学输出的状态量作为减载控制策略网络的输入，经过减载策略网络的前向传播，以减载策略网络的输出量作为运载火箭动力学的发动机摆角指令，形成控制闭环；

通过以上步骤，可以实现运载火箭减载控制，解决了目前存在的依赖精确风场信息、无法保证制导精度的问题，达到了较好的稳定性和普适性；

(三)本发明的优点及功效

(1)本发明基于逆强化学习方法，得到了运载火箭减载控制方法，解决了目前存在的依赖精确风场信息、无法保证制导精度、调参复杂的问题，可适用于任意风场环境和任意上升段标称轨迹；

(2)本发明采用逆强化学习的方法，根据示范样本自动设计强化学习过程中的奖励函数，避免了手动设计奖励信号对优化效果的影响，能够取得良好的减载控制效果；

(3)本发明所述制导控制方法科学，工艺性好，具有广阔推广应用价值；

附图说明

图1是本发明所述方法流程图；

图2是运载火箭运动几何关系图；

图3是标准弹道、被动减载弹道和逆强化学习减载弹道气动载荷对比图；

图4是标准弹道与逆强化学习减载弹道高度剖面对比图；

图5是发动机摆角响应图；

图中序号、符号、代号统一归纳说明如下：

图2：O表示发射点，C表示运载火箭质心；V_m表示运载火箭相对来流的速度矢量，即空速；V_i表示运载火箭相对地球的速度矢量，即地速；V_w表示风速；n为垂直于射面的法向量；x_i表示发射点当地水平面的垂直向上方向，z_i表示发射方向在发射点当地水平面内的投影，x_b表示运载火箭纵轴方向，z_b表示运载火箭射面内垂直于运载火箭纵轴向上的方向，x_a表示运载火箭空速方向，z_a表示运载火箭射面内垂直于运载火箭空速向上的方向；α为运载火箭攻角，为运载火箭俯仰角，θ为运载火箭弹道倾角，α_w为风速造成的附加风攻角；x_iOz_i组成惯性坐标系，x_bOz_b组成箭体坐标系，x_aOz_a组成速度坐标系；

具体实施方式

下面将结合附图和实施案例对本发明作进一步的详细说明；

本发明一种基于逆强化学习的运载火箭减载控制方法，即一种飞行器路径点跟踪制导方法，其流程图如图1所示，它包括以下几个步骤：

步骤一、模型建立；

根据平面地球假设，结合相关坐标系，根据各状态量之间几何和力学关系建立运载火箭射面内动力学模型，表达式如下：

其中r为发射点到火箭质心的位置矢量，为运载火箭俯仰角，m为运载火箭质量，J为运载火箭俯仰轴惯量；F_ae、F_prop、F_g、M_ae、M_prop、为运载火箭所受气动力矢量、推力矢量、重力矢量、俯仰气动力矩、俯仰推力力矩；

气动力矢量F_ae在气流坐标系下展开为：

其中F_base为运载火箭所受底部力，为高度h的插值函数；C_A和C_Nα分别为气动阻力系数和气动升力系数，均为马赫数M_a的插值函数；α为图2中定义的运载火箭攻角；Q为运载火箭动压头；A为运载火箭参考截面积；M_a和Q的表达式为：

其中，V_m为图2中定义的运载火箭空速矢量；ρ为大气密度，c为声速，二者均为高度h的插值函数；

推力矢量F_prop在箭体坐标系下展开为：

其中，P₀为运载火箭发动机等效推力；p为大气压强，为高度h的插值函数；A_e为运载火箭发动机喷管面积；δ为运载火箭发动机摆角，是进行减载控制的控制量；

重力矢量F_g在惯性坐标系下展开为：

其中g为重力加速度；

俯仰气动力矩M_ae表示为：

其中x_a为运载火箭气动参考点与质心的距离；b为运载火箭参考长度；C_Mα为气动俯仰力矩系数，是马赫数M_a的插值函数；

俯仰推力力矩M_prop表示为：

M_prop＝F_propzbx_g (8)

其中x_g为运载火箭发动机作用点与质心的距离；

依照上述模型，运载火箭所受气动载荷由Q|α|表示，因此本方法即根据当前运载火箭状态和动力学模型，产生发动机摆角δ，在保证位置r对标称轨迹的跟踪精度前提下尽量减小气动载荷；

步骤二、被动减载专家示范生成；

根据已知风场关于高度的函数，实时计算得到按照标称轨迹飞行所产生的附加风攻角，使用被动减载方法对标称轨迹进行风修正，在标称轨迹对应的姿态指令中对风攻角进行补偿，并对补偿后的减载姿态指令进行跟踪，得到运载火箭飞行状态量和控制量序列，作为被动减载专家示范；

按照标称轨迹飞行所产生的附加风攻角，计算得到：

其中V_w(h)为已知风场关于高度的函数，θ为图2中定义的弹道倾角，V_i为图2中定义的运载火箭地速矢量；

根据计算得到的附加风攻角，对标称轨迹对应的姿态指令进行补偿，补偿后的减载姿态指令为：

其中α₀是标称轨迹对应的攻角，k为调制系数，需要根据减载效果和制导精度反复调整；

在此基础上，使用稳定的姿态控制器跟踪减载姿态指令，将跟踪过程中的运载火箭飞行状态量和控制量序列作为被动减载专家示范；

步骤三、逆强化学习减载控制策略训练；

使用参数化神经网络r_ψ和π_γ表示减载指标和减载策略，其中ψ和γ分别表示减载指标网络和减载策略网络的待训练参数；减载指标网络输入为运载火箭六维状态量和一维控制量a＝δ，其中x_i、z_i为运载火箭位置在惯性坐标系下的分量，V_xi、V_zi为运载火箭地速在惯性坐标系下的分量，/>为运载火箭俯仰姿态角，W_zb为运载火箭法向过载，δ为运载火箭发动机摆角；输出为一维指标r_ψ；减载策略网络输入为运载火箭六维状态量，输出为一维决策行为π_γ；

根据文献中的生成对抗模仿学习算法原理，给定被动减载专家示范后，最优减载指标和对应的减载策略应满足如下条件：

其中，ψ^*、γ^*分别为最优减载指标与最优减载策略对应的网络参数；τ_E～π_E表示从被动减载专家示范中采样得到的状态量及控制量序列、r_ψ(τ_E)表示该序列对应的减载指标；τ～π_γ表示使用减载策略π_γ输出的控制量与运载火箭动力学交互所产生的控制量及状态量序列，r_ψ(τ)表示该序列对应的减载指标；表示对控制量及状态量序列的期望；

因此，定义损失函数

则最优减载指标网络参数与最优减载策略网络参数构成了网络参数空间中的鞍点，通过减载指标网络参数对该损失函数的梯度上升以及减载策略网络参数对该损失函数的梯度下降，使网络参数逐步收敛至最优；

步骤四、减载控制器迁移；

将减载策略网络参数取为逆强化学习训练收敛得到的最优值，通过对运载火箭动力学方程进行数值积分得到运载火箭六维状态量s，将状态量s作为减载策略网络的输入，经减载策略网络前向传播产生一维行为量π_γ，将其作为运载火箭控制量δ输入到运载火箭动力学方程中，进行积分得到新的运载火箭状态量，从而实现控制闭环；

仿真案例：

本部分将以一个数值仿真案例作为方法演示，并非实际飞行任务；某运载火箭参考长度b为3.706m，参考截面积A为10.79m²，发动机喷管面积A_e为10.41m²，气动参考点与质心的距离x_a为84m，发动机作用点与质心的距离x_g为90.22m；运载火箭的非线性气动系数C_A、C_Nα和C_Mα是马赫数的插值函数；运载火箭质量m、俯仰轴惯量J，发动机等效推力P₀是点火时间的插值函数；大气模型使用美国标准大气(1976年)；选用文献中提供的美国肯尼迪航天中心春季平均风场作为测试时的未知风场；

运载火箭初始时刻位于发射点(即惯性系原点)，且地速为零；仿真过程为发动机点火至点火后90秒的上升段飞行过程；

根据本方法实施过程，得到本方法和标准弹道、被动减载弹道在该风场下的气动载荷如图3所示，可证明本方法相比标准弹道起到了减载作用，且在不依赖风场信息的情况下达到了和依靠风场信息的被动减载相同的减载效果；同时，本方法和标准弹道的高度剖面如图4所示，可证明本方法在保证减载效果的同时可以保证对标准弹道的跟踪精度；发动机摆角响应曲线如图5所示，并未出现较大幅度的发动机摆角。

Claims

1.一种基于逆强化学习的运载火箭减载控制方法，其特征在于：其具体步骤如下：

步骤一、模型建立；

步骤二、被动减载专家示范生成；

步骤三、逆强化学习减载控制策略训练；

步骤四、减载控制器迁移；

在步骤一中所述的“建立考虑风场情况的运载火箭动力学模型”，其建立模型的具体作法如下：考虑平面地球假设，并根据统计数据，在水平方向加入风场模型，结合相关坐标系，根据各状态量之间几何和力学关系在射面内建立运载火箭动力学模型；

在步骤一中，根据平面地球假设，结合相关坐标系，根据各状态量之间几何和力学关系建立运载火箭射面内动力学模型，表达式如下：

气动力矢量F_ae在气流坐标系下展开为：

其中F_base为运载火箭所受底部力，为高度h的插值函数；C_A和C_Nα分别为气动阻力系数和气动升力系数，均为马赫数M_a的插值函数；α为运载火箭攻角；Q为运载火箭动压头；A为运载火箭参考截面积；M_a和Q的表达式为：

其中，V_m为运载火箭空速矢量；ρ为大气密度，c为声速，二者均为高度h的插值函数；

推力矢量F_prop在箭体坐标系下展开为：

重力矢量F_g在惯性坐标系下展开为：

其中g为重力加速度；

俯仰气动力矩M_ae表示为：

俯仰推力力矩M_prop表示为：

M_prop＝F_propzbx_g·······················(8)

其中x_g为运载火箭发动机作用点与质心的距离；

运载火箭所受气动载荷由Q|α|表示，产生发动机摆角δ，在保证位置r对标称轨迹的跟踪精度前提下尽量减小气动载荷。

2.根据权利要求1所述的一种基于逆强化学习的运载火箭减载控制方法，其特征在于：在步骤二中所述的“对风修正后的轨迹进行跟踪，生成被动减载专家示范”，其具体作法如下：根据运载火箭动力学模型设计姿态控制器，跟踪风修正轨迹所对应的姿态序列，将跟踪过程中的控制量和运载火箭状态量序列保存作为被动减载专家示范。

3.根据权利要求1所述的一种基于逆强化学习的运载火箭减载控制方法，其特征在于：在步骤三中所述的“生成对抗模仿学习逆强化学习方法”，是指基于最大熵逆强化学习推导得到鞍点形式的逆强化学习优化指标，以奖励函数网络和策略网络构成生成对抗网络结构，基于优化指标进行奖励函数及策略参数寻优的逆强化学习方法，是一种改进的逆强化学习方法。

4.根据权利要求1所述的一种基于逆强化学习的运载火箭减载控制方法，其特征在于：在步骤三中所述的“将被动减载专家示范作为输入，训练得到逆强化学习减载控制策略网络”，其具体作法如下：根据动减载专家示范中的状态量和控制量序列，以及当前减载控制策略网络与运载火箭动力学交互所产生的状态量和控制量序列，使用文献中的最大熵逆强化学习原理推导，得到最优减载奖励函数和减载控制策略所满足的鞍点形式优化指标，基于该优化指标，对奖励函数网络和策略网络参数进行梯度更新训练，直至收敛。

5.根据权利要求1所述的一种基于逆强化学习的运载火箭减载控制方法，其特征在于：在步骤四中所述的“将训练得到的减载控制策略网络参数固化，与运载火箭动力学的输入输出接口实现闭环，作为减载控制器”，其具体作法如下：将逆强化学习训练得到的减载控制策略网络参数固定，以运载火箭动力学输出的状态量作为减载控制策略网络的输入，经过减载策略网络的前向传播，以减载策略网络的输出量作为运载火箭动力学的发动机摆角指令，形成控制闭环。

6.根据权利要求1或2所述的一种基于逆强化学习的运载火箭减载控制方法，其特征在于：在步骤二中，根据已知风场关于高度的函数，实时计算得到按照标称轨迹飞行所产生的附加风攻角，使用被动减载方法对标称轨迹进行风修正，在标称轨迹对应的姿态指令中对风攻角进行补偿，并对补偿后的减载姿态指令进行跟踪，得到运载火箭飞行状态量和控制量序列，作为被动减载专家示范；

按照标称轨迹飞行所产生的附加风攻角，计算得到：

其中V_w(h)为已知风场关于高度的函数，θ为弹道倾角，V_i为运载火箭地速矢量；

使用稳定的姿态控制器跟踪减载姿态指令，将跟踪过程中的运载火箭飞行状态量和控制量序列作为被动减载专家示范。

7.根据权利要求1或3或4所述的一种基于逆强化学习的运载火箭减载控制方法，其特征在于：在步骤三中，使用参数化神经网络r_ψ和π_γ表示减载指标和减载策略，其中ψ和γ分别表示减载指标网络和减载策略网络的待训练参数；减载指标网络输入为运载火箭六维状态量和一维控制量a＝δ，其中x_i、z_i为运载火箭位置在惯性坐标系下的分量，V_xi、V_zi为运载火箭地速在惯性坐标系下的分量，/>为运载火箭俯仰姿态角，W_zb为运载火箭法向过载，δ为运载火箭发动机摆角；输出为一维指标r_ψ；减载策略网络输入为运载火箭六维状态量，输出为一维决策行为π_γ；

给定被动减载专家示范后，最优减载指标和对应的减载策略应满足如下条件：

因此，定义损失函数

最优减载指标网络参数与最优减载策略网络参数构成了网络参数空间中的鞍点，通过减载指标网络参数对该损失函数的梯度上升以及减载策略网络参数对该损失函数的梯度下降，使网络参数逐步收敛至最优。

8.根据权利要求1或5所述的一种基于逆强化学习的运载火箭减载控制方法，其特征在于：在步骤四中，将减载策略网络参数取为逆强化学习训练收敛得到的最优值，通过对运载火箭动力学方程进行数值积分得到运载火箭六维状态量s，将状态量s作为减载策略网络的输入，经减载策略网络前向传播产生一维行为量π_γ，将其作为运载火箭控制量δ输入到运载火箭动力学方程中，进行积分得到新的运载火箭状态量，从而实现控制闭环。