CN116068894A

CN116068894A - 基于双层强化学习的火箭回收制导方法

Info

Publication number: CN116068894A
Application number: CN202310057961.5A
Authority: CN
Inventors: 李文婷; 朱皓同; 李洪珏; 林岩
Original assignee: Beihang University; Beijing Aerospace Automatic Control Research Institute
Current assignee: Beihang University; Beijing Aerospace Automatic Control Research Institute
Priority date: 2023-01-15
Filing date: 2023-01-15
Publication date: 2023-05-05

Abstract

本发明公开了一种基于双层强化学习的火箭回收制导方法，包括构建并训练火箭回收制导模型，并利用训练好的所述火箭回收制导模型生成火箭回收轨迹；其中，火箭回收制导模型基于双层强化学习进行训练，训练过程包括：探索奖励模块接收火箭回收轨迹，生成探索奖励；判别网路模块从火箭回收轨迹以及人类专家轨迹中随机采样，生成模仿奖励；策略网络模块根据探索奖励和模仿奖励进行更新，当满足迭代次数时结束。本发明采用双层学习框架，具有参数量少、计算能力要求低以及无需迭代等显著优势，且通过奖励鼓励策略广泛探索所有状态空间以提高鲁棒性。

Description

基于双层强化学习的火箭回收制导方法

技术领域

本发明涉及火箭回收制导技术领域，更具体的说是涉及一种基于双层强化学习的火箭回收制导方法。

背景技术

目前，针对火箭着陆制导问题，主要采用基于间接法和直接法的轨迹优化方法，

间接法通过引入协变量，建立哈密尔顿函数，将轨迹优化问题转化为两点边值问题，最终求解一个非线性方程组；但该方法仅能满足最优解的一阶必要条件，无法满足解的最优性，且将轨迹优化问题转化为两点边值问题，收敛性也难以保证。

而直接法将轨迹问题转化为非线性规划问题，通过对指标和约束进行凸化，使其满足KKT条件，将复杂的着陆制导问题转化为易于求解的凸优化问题。但对于存在非线性很强、非凸因素很多的轨迹很难转化为凸优化问题，使得该方法的应用的仅局限在非线性较弱、非凸因素较少的领域。

同时，上述间接法和直接法的轨迹优化方法都涉及到迭代求解，考虑到目前箭载计算机的计算能力相对较弱，在优化问题复杂的情况下可能需要十几秒才能求出结果，无法满足航天器轨迹优化的实时性要求，且基于监督学习的方法需要构建大量的训练数据，从而使神经网络制导律限定在训练数据范围内，导致制导律的泛化性、鲁棒性较差。

因此，如何进一步研发设计火箭制导方法，以克服上述缺陷是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于双层强化学习的火箭回收制导方法，旨在减少参数量、提高计算速度，以满足实时性要求；通过设计神经网络形式的制导策略，增强其泛化能力和鲁棒性。

本发明公开的基于双层强化学习的火箭回收制导方法，具体包括：

构建并训练火箭回收制导模型，并利用训练好的所述火箭回收制导模型生成火箭回收轨迹；

所述火箭回收制导模型基于双层强化学习进行训练，训练过程包括：

探索奖励模块接收所述火箭回收轨迹，生成探索奖励；

判别网络模块从所述火箭回收轨迹以及人类专家轨迹中随机采样，生成模仿奖励；

策略网络模块根据所述探索奖励和所述模仿奖励进行更新，当满足迭代次数时结束。

优选的，所述探索奖励为火箭回收成功奖励、火箭坠毁惩罚与火箭接近奖励之和。

优选的，所述火箭回收成功奖励定义为，火箭降落在回收点，且速度小于阈值，奖励设为5；

所述火箭坠毁惩罚定义为，火箭降落在回收点，但速度大于阈值；或火箭降落在除回收点的其他位置，惩罚设为-5；

所述火箭接近奖励，定义为，火箭比上一时刻更接近回收点，奖励设为0.1。

优选的，所述火箭回收轨迹同人类专家轨迹先共同输入至轨迹池，进行充分混合，所述判别网络模块从所述轨迹池中进行采样。

优选的，所述判别网络模块包括轨迹判别网络和奖励输出网络，

所述轨迹判别网络，用于判断采样的轨迹是否为所述人类专家轨迹，

所述奖励输出网络，根据如下公式输出奖励：

r＝logD_ωs,a+0.5

式中，D_ω(s,a)为轨迹判别网络的输出结果，s和a分别表示火箭回收制导模型输出的状态和动作。

优选的，所述轨迹判别网络的输出为属于(0，1)的浮点数。

优选的，所述轨迹判别网络中参数w，按如下公式进行更新：

式中，ω_i+1表示更新后的参数，ω_i表示更新前的参数，

表示对网络参数ω求梯度；

和

分别表示对生成网络模块轨迹的判断预期和对人类专家轨迹的判断预期。

优选的，所述策略网络模块根据所述探索奖励和所述模仿奖励，使用近端策略优化算法进行网络参数优化和更新，

优选的，所述火箭回收制导模型包括马尔可夫决策模块和所述策略网络模块，所述马尔可夫决策模块用于获取火箭的状态，所述策略网络模块用于根据所述状态生成动作，所述状态和所述动作组成所述火箭回收轨迹。

优选的，所述马尔可夫决策模块根据火箭位置、速度和质量，得到火箭的状态，表达式为：

s＝[r^Tv^Tm]

式中，s为火箭的状态，r为火箭位置矢量在地心赤道旋转坐标系中的表示，v为火箭速度矢量在地心赤道旋转坐标系中的表示，m为火箭质量；

同时，所述马尔可夫决策模块根据状态转移函数生成下一时刻的状态S_t+1，所述状态转移函数的表达式为：

s_t+1＝F(s_t,a_t)

式中，s_t+1表示t+1时刻的状态，s_t表示t时刻的状态，a_t表示t时刻的动作，F(x)表示状态转移函数。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于双层强化学习的火箭回收制导方法，可解决火箭回收过程中的制导问题。

通过双层强化学习框架，使其无需迭代计算，且具有参数量少、计算能力要求低等显著优势，能够在功耗和计算能力受到严格限制的箭载计算机上实现轨迹优化的实时性与高精度性；

同时，专利提出强化学习探索奖励模块，鼓励策略广泛探索所有状态空间以提高鲁棒性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的火箭回收制导模型结构示意图；

图2为本发明提供的火箭回收制导模型训练流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种基于双层强化学习的火箭回收制导方法，具体包括构建并训练火箭回收制导模型，并利用训练好的火箭回收制导模型生成火箭回收轨迹；

其中，本发明创新性的提出包括马尔可夫决策模块和策略网络模块的火箭回收制导模型，马尔可夫决策模型将可回收火箭着陆制导问题建立为马尔可夫决策过程，策略网络能够与马尔可夫决策模型进行交互以获取新一步信息，即根据当前从马尔可夫决策模型接收的状态s，生成动作a，从而形成火箭回收轨迹(s，a)。

进一步，本发明提出了基于双层强化学习的训练方法，其中，训练框架如图1所示，训练过程包括：

探索奖励模块接收火箭回收轨迹，生成探索奖励；

判别网路模块从火箭回收轨迹以及人类专家轨迹中随机采样，生成模仿奖励；

策略网络模块根据探索奖励和模仿奖励进行更新，当满足迭代次数时结束。

本发明采用双层强化学习方法训练神经网络形式的火箭回收制导模型，并利用该火箭回收制导模型，通过参数量少、计算速度快、不用迭代求解的特点实现制导模型的实时性；此外，通过设计神经网络形式的制导策略，通过不基于模型的交互采样优化网络参数，得到具有泛化能力、鲁棒性强的火箭回收制导模型。

本发明提出的基于双层强化学习的获奖回收制导模型中，更新奖励分为模仿奖励和探索奖励，模仿奖励由判别网络模块给予，用于鼓励策略网络模块学习人类专家先验；探索奖励由探索奖励模块给予，探索奖励模块根据输入的轨迹(s,a)，输出探索奖励r_e，用于鼓励策略网络在环境中进行探索。

一种实施例中，探索奖励包括火箭回收成功奖励、火箭坠毁惩罚与火箭接近奖励，并且探索奖励为三者之和。

其中，火箭回收成功奖励定义为，火箭降落在回收点，且速度小于阈值，此时判定火箭成功被回收，获得火箭回收成功正奖励r_goal＝5；

火箭坠毁惩罚定义为，火箭降落在回收点，但速度大于阈值；或火箭降落在除回收点的其他位置，判定火箭坠毁，获得火箭坠毁惩罚r_crash＝-5；

火箭接近奖励定义为，火箭比上一时刻更接近回收点，此时，判定火箭正在进行降落，获得火箭接近奖励r_close＝0.1。

探索奖励模块输出的总奖励r_e表示为：

r_e＝r_goal+r_crash+r_close

另外，本申请中判别网络模块，用于判定此条轨迹是来源于生成网络模块还是来源于人类专家轨迹，并根据判定结果向策略网络模块输出模仿奖励r_i。

具体的，判别网络模块包括轨迹判别网络和奖励输出网络，其中，轨迹判别网络，用于判断采样的轨迹是否为所述人类专家轨迹，包括多层感知机模块和激活函数模块，表示为：D_ω(s,a)；当判别网络模块随机采样得到一组轨迹时，由多层感知机模块对该轨迹进行处理，提取相关信息，而后，由激活函数模块生成判断。

一种实施例中，轨迹判别网络最终输出属于(0，1)的浮点数，即判定采样到的轨迹是否来自于人类专家，当输出1时，表示判定为人类专家轨迹，输出0时，表示判定为生成网络模块轨迹。

一种实施例中，轨迹判别网络中参数w，按如下公式进行更新：

式中，ω_i+1表示更新后的参数，ω_i表示更新前的参数，

表示对网络参数ω求梯度；

和

进一步，奖励输出网络，根据轨迹判别网路的输出值以及如下公式输出奖励：

r_i＝log(D_ω(s,a)+0.5)

一种实施例中，如图1所示，火箭回收轨迹同人类专家轨迹先共同输入至轨迹池，进行充分混合，然后由判别网络模块从轨迹池中进行采样。其中，火箭回收轨迹由火箭回收制导模型不断生成，表示为：

τ_i＝(s₀,a₀,s₁,a₁,…,s_n,a_n,…)

而人类专家轨迹由人类专家采用传统算法(如基于直接法的轨迹优化方法和基于间接法的轨迹优化方法)，在简化最少、精确度最高、计算量最大的条件下求解获得；同时将人类专家计算的结果转化为与生成网络模块一致的形式，表示为：

τ_E＝(s₀,a₀,s₁,a₁,…,s_n,a_n,…)

当策略网络模块接收到探索奖励和模仿奖励时，使用近端策略优化算法，按如下公式，进行网络参数优化和更新进行更新，

其中，θ_k+1为更新之后的策略网络参数，argmax为求最大值自变量点集函数，argmaxL(θ)表示找到令L函数最大的θ值；

进一步，

式中，θ_k为更新之前的策略网络参数，

表示t时刻对后方式子求期望；min表示在其括号内的两项中输出较小的一项；π_θ表示以θ为参数的策略网络，Clip(a,b,c)表示当a<b时，输出b；当b≤a≤c时，输出a；当a>c时，输出c；ε为可调节的超参数，用于限制参数更新范围；上式通常在经历K步之后使用Adam优化器进行随机梯度下降以进行优化，从而更新神经网络参数。

其中，A_t为更新前策略网络参数而得出的优势函数的估计值。优势函数A(s_t,a_t)，是基于价值函数V(s_t)和动作-价值函数Q(s_t,a_t)构建的函数，表示在状态s_t下，某选定的动作a_t相对于平均而言的优势。其定义式如下：

As_t,a_t＝Qs_t,a_t-Vs_t

对于动作-价值函数Qs_t,a_t，用以评判强化学习智能体在状态为s_t时采取动作a_t是否优秀。动作-价值函数Q是指智能体在状态s_t时采取动作a_t的情况下，利用当前策略与环境交互，从状态s_t起得到的累计回报的均值。根据数学推导，可以获得动作-价值函数Qs_t,a_t与价值函数Vs_t的关系如下：

Qs_t,a_t＝r_t+γVs_t+1

式中，r_t为强化学习智能体在当前时刻收到的奖励，本发明中，r_t为探索奖励和模仿奖励之和；γ为折扣因子，表示下一时刻的价值与本时刻所做动作的关联度，为可调节的超参数。

本发明通过使用双层强化学习方法，建立生成对抗网络框架，设计策略网络、判别器网络和探索奖励模块，实现了基于深度双层强化学习的火箭着陆制导模型的生成。不仅通过模仿人类专家进行学习；还提出强化学习探索奖励模块，鼓励策略广泛探索所有状态空间以提高鲁棒性。

进一步，当更新训练完成后，由马尔可夫决策模块和策略网络模块生成火箭回收轨迹。

首先，考虑火箭的运动学与动力学研究基础，选定参考坐标系为地心赤道旋转坐标系，然后由马尔可夫决策模块根据火箭的位置、速度和质量提取七维矢量，并由提取的七维矢量组成状态s。

具体的，七维矢量包括：火箭位置矢量在地心赤道旋转坐标系x轴方向的投影、火箭位置矢量在地心赤道旋转坐标系y轴方向的投影、火箭位置矢量在地心赤道旋转坐标系z轴方向的投影、火箭速度矢量在地心赤道旋转坐标系x轴方向的投影、火箭速度矢量在地心赤道旋转坐标系y轴方向的投影、火箭速度矢量在地心赤道旋转坐标系z轴方向的投影以及质量；其中，状态s可表示为：

s＝[r^Tv^Tm]

式中，r为火箭位置矢量在地心赤道旋转坐标系中的表示，v为火箭速度矢量在地心赤道旋转坐标系中的表示，m为火箭质量。

当马尔可夫决策模块获得状态s后，将其输入给策略网络模块，由策略网络模块生成动作a，并根据状态s和动作a，最终输出所述火箭回收轨迹。

策略网络模块，包括多层感知机模块和激活函数模块等组件，表示为：π_θ(a_t|s_t)，其中，at|st代表在状态st下输出动作at的概率，即策略网络模块输出的是动作的概率分布，之后根据此概率分布，随机抽样获得最终输出的动作。

该模块通过多层感知机对来自马尔可夫决策模型的状态s进行处理，同时提取相关信息，最终经过激活函数激活后生成动作a。

进一步，马尔可夫决策模块在将状态s输送策略网络模块的同时，根据状态转移函数生成下一时刻的状态S_t+1，所述状态转移函数的表达式为：

s_t+1＝F(s_t,a_t)

具体的，该表达式根据动力学模型推导而来，相应的，火箭着陆回收过程中，将着陆点当地坐标系固化为惯性系，在此坐标系下描述火箭着陆段的质心运动。其中，惯性系x轴指向东方向，y轴指向被方向，z轴垂直向上，原点为着陆点。系统动力学方程表示为：

式中：r为火箭位置矢量；v为火箭速度矢量；m为火箭质量；g为重力加速度矢量；D为气动阻力矢量；T为动作a中输出的发动机推力矢量；V_ex为发动机排气速度。

其中，重力加速度g使用圆球重力场模型描述，公式为：

式中：μ为地球引力常数；R_E为地心指向回收点的位置矢量。

根据空气动力学基础知识，气动阻力D计算公式为：

式中：ρ为由高度决定的大气密度；S_ref为火箭参考截面积；C_D为阻力系数，是速度v的非线性函数；Ma为马赫数，由速度v和当地声速决定。

对于推力矢量T，考虑到火箭动力学基础，将火箭执行机构输出的总推力定义为推力矢量T，则策略网络模块输出的动作为一个3维矢量，分别为推力矢量的模值、推力矢量在飞行器本体坐标系yz平面内投影与x轴的夹角α以及推力矢量方向与飞行器本体坐标系x轴方向的夹角β，表示为：

a＝[a₁,a₂,a₃]^T＝[||T||αβ^T

则策略网络输出动作a与火箭所受的实际推力控制量满足以下的分量对应关系：

T＝[a₁cosa₂sina₃a₁cosa₂sina₃a₁cosa₂sina₃]

根据上述动力学模型，求解可得火箭着陆动力学方程，记为：

给定初值并求解微分方程后，可到状态转移函数为：

s_t+1＝F(s_t,a_t)

为了唯一确定下一时刻的状态S_(t+1)，本申请将状态转移概率设置为恒等于1，即：

p(s_t+1＝F(s_t,a_t)|s_t,a_t)＝1

本发明公开的基于双层强化学习的火箭回收制导模型，可用于解决可回收火箭着陆制导中轨迹规划与轨迹优化问题。通过使用双层强化学习框架，构建神经网络作为火箭回收制导模型，相比于传统基于直接法和间接法的轨迹优化方法，拥有不需要迭代计算、参数量少、计算能力要求低等显著优势，能够在功耗和计算能力受到严格限制的箭载计算机上实现轨迹优化的实时性与高精度性。

同时，以设置强化学习奖励的形式鼓励策略网络在环境中进行探索，并设置高精度的马尔可夫决策模型以足够贴近真实环境，使得策略网络能够在双层强化学习不断地试错中增强对环境的理解，更深层制导律的原理。相比于现有的基于监督学习的训练方法，双层强化学习训练出地神经网络制导模型具有更高地泛化性与鲁棒性。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

具体如图2，本发明公开的火箭回收制导模型，其训练过程如下：

步骤一：建立火箭回收制导模型；

步骤二：初始化策略网络π_θ(a_t|s_t)和判别网络D_ω(s,a)的模型参数，由于探索模块的参数全部已知且固定，故该模块无需初始化；

步骤三：生成网络模块利用策略网络和马尔可夫决策模型产生轨迹；

步骤四：

(1)轨迹池接收来自火箭回收制导模型输出的轨迹和来自人类专家的轨迹；判别网络模块在轨迹池中随机采样一组轨迹，并送入判别网络模块；判别网络模块判定轨迹来源，并以此向策略网络模块输出模仿奖励；

(2)探索奖励模块接收轨迹，并向策略网络模块输出探索奖励；

步骤五：策略网络模块根据奖励，使用近端策略优化算法进行网络参数优化和更新，判别网络使用梯度上升法进行更新；

步骤六：判断是否达到最大迭代次数，若否则返回步骤三，若是则进入步骤七。

步骤七：得到需要的神经网络制导律模型，训练结束。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。