CN117289709A

CN117289709A - 基于深度强化学习的高超声速变外形飞行器姿态控制方法

Info

Publication number: CN117289709A
Application number: CN202311171003.7A
Authority: CN
Inventors: 李繁飙; 谢启超; 曹承钰; 丁溶; 阳春华
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2023-09-12
Filing date: 2023-09-12
Publication date: 2023-12-26

Abstract

本公开实施例中提供了一种基于深度强化学习的高超声速变外形飞行器姿态控制方法，属于控制技术领域，具体包括：步骤1，建立飞行器的三自由度非线性再入姿态控制模型，化简模型并转化为状态空间模型；步骤2，根据状态空间模型设计飞行器的超螺旋控制器；步骤3，定义马尔可夫决策过程，将姿态控制问题转化为深度强化学习模型；步骤4，在传统TD3算法基础上，建立双经验回放池，并分别在执行网络和评价网络中引入LSTM网络架构，对该深度强化学习模型进行离线训练，利用训练好的决策模型进行参数的自适应调整。通过本公开的方案，提高了控制的稳定性、鲁棒性和精准度。

Description

基于深度强化学习的高超声速变外形飞行器姿态控制方法

技术领域

本公开实施例涉及控制技术领域，尤其涉及一种基于深度强化学习的高超声速变外形飞行器姿态控制方法。

背景技术

目前，高超声速变外形飞行器是一类飞行速度大于5马赫，在大气层内或跨大气层高速飞行的飞行器，其可根据不同环境和任务需求改变自身的外形结构，具有飞行速度快，飞行距离远，任务可调整的特点。与传统的高超声速飞行器相比，高超声速变外形飞行器在姿态控制中主要存在以下突出问题：变形过程中，飞行器系统呈现出多模态、强非线性和强耦合的特点；飞行器系统存在外部干扰和模型不确定性，难以建立精确的动力学模型，保证系统的稳定性。同时，高超声速变外形飞行器具有的大尺度变形结构特点，为飞行器多模态飞行时的气动稳定性提出了更高的要求。

高超声速变外形飞行器具备一定的特殊性，传统的控制方法难以满足较高的稳定性、鲁棒性和控制精度的要求。

可见，亟需一种稳定性、鲁棒性和控制精准度高的基于深度强化学习的高超声速变外形飞行器姿态控制方法。

发明内容

有鉴于此，本公开实施例提供一种基于深度强化学习的高超声速变外形飞行器姿态控制方法，至少部分解决现有技术中存在稳定性、鲁棒性和控制精准度较差的问题。

本公开实施例提供了一种基于深度强化学习的高超声速变外形飞行器姿态控制方法，包括：

步骤1，建立飞行器的三自由度非线性再入姿态控制模型，化简模型并转化为状态空间模型；

步骤2，根据状态空间模型设计飞行器的超螺旋控制器；

步骤3，定义马尔可夫决策过程，将姿态控制问题转化为深度强化学习模型；

步骤4，在传统TD3算法基础上，建立双经验回放池，并分别在执行网络和评价网络中引入LSTM网络架构，对该深度强化学习模型进行离线训练，利用训练好的决策模型进行参数的自适应调整。

根据本公开实施例的一种具体实现方式，所述步骤1具体包括：

步骤1.1，所述三自由度非线性再入姿态控制模型的表达式为

其中，m,V分别为飞行器质量和速度，g是引力加速度矢量，α,β,σ分别为攻角、侧滑角和倾侧角，θ为航迹倾角，ω_x,ω_y,ω_z分别表示横滚、偏航和俯仰的角速率，I_xx,I_yy,I_zz为飞行器绕体轴转动惯量，I_xy为惯性积，X_t,Y_t,Z_t分别为总阻力、总升力和总侧力，M_tx,M_ty,M_tz分别为滚转、偏航和俯仰通道的合力矩；

步骤1.2，忽略姿态运动方程中的质心运动相关项，考虑外界干扰以及由于模型简化和通道耦合引起的模型不确定性，将三自由度非线性再入姿态控制模型改写为

其中，Θ＝[α,β,σ]^T为姿态角向量；ω＝[ω_x,ω_y,ω_z]^T表示姿态角速度向量；Μ_t为合力矩，d表示总扰动，矩阵I，ω^×，R的具体表达式如下：

步骤1.3，令X₁＝Θ，X₂＝Rω，得到状态空间模型为

其中，g₁＝RI^-1,d₁＝RI^-1d，u＝M_t。

根据本公开实施例的一种具体实现方式，所述超螺旋控制器的表达式为

其中，e₁为姿态角误差项，e₂为三轴角速度的误差项，s₁为设计的滑模面，||s₁||表示矢量s₁的二范数，K₁，K₂，K₃表示待设计控制增益；

K₁,K₂,K₃的具体表达式如下：

其中，为L₁(t)的导数，σ_sT、σ_eT均为常数，L_a1为自适应律调整参数。

根据本公开实施例的一种具体实现方式，所述步骤3具体包括：

步骤3.1，选择预设数量的多数据帧作为当前时刻的状态空间；

步骤3.2，将超螺旋控制器中的自适应律调整参数作为动作空间；

步骤3.3，设置姿态角跟踪误差连续奖励函数、角速度变化率奖励函数、舵偏角变化率奖励函数、滑模面奖励函数、角速率误差奖励函数、边界稀疏奖励函数和常量奖励函数，并将全部函数联立得到单步奖励函数。

根据本公开实施例的一种具体实现方式，所述姿态角跟踪误差连续奖励函数的表达式为

r_e＝k₁|e_α|+k₂|e_β|+k₃|e_σ|；

所述角速度变化率奖励函数的表达式为r₁＝|Δω_x|+|Δω_y|+|Δω_z|；

所述舵偏角变化率奖励函数的表达式为r₂＝|Δδ_x|+|Δδ_y|+|Δδ_z|；

所述滑模面奖励函数的表达式为r₃＝|s_1,α|+|s_1,β|+|s_1,σ|；

所述角速率误差奖励函数的表达式为r₄＝|e_2,1|+|e_2,2|+|e_2,3|；

所述边界稀疏奖励函数的表达式为r₅＝t₁r_5,α+t₂r_5,β+t₃r_5,σ；

其中，e_α,e_β,e_σ表示姿态角的误差，Δω_x,Δω_y,Δω_z表示三轴角速度的变化量，Δδ_x,Δδ_y,Δδ_z表示舵偏角的变化量，s_1,α,s_1,β,s_1,σ表示滑模面的三个分量，e_2,1,e_2,2,e_2,3表示三轴角速度的误差项，r_5,α,r_5,β,r_5,σ均为常数，表示对三个姿态角超出边界的惩罚项，x_i表示三个姿态角，i_high,i_low表示姿态角的上下边界值；

所述单步奖励函数的表达式为R＝-r_e-k₁r₁-k₂r₂-k₃r₃-k₄r₄-r₅+c。

根据本公开实施例的一种具体实现方式，所述在传统TD3算法基础上，建立双经验回放池并分别在执行网络和评价网络中引入LSTM网络架构，对该深度强化学习模型进行离线训练的步骤，包括：

步骤4.1，初始化两个评价网络和执行网络π_φ，评价网络的参数θ₁,θ₂、执行网络的参数φ、目标网络参数；

步骤4.2，建立正经验回放池D_pos和负经验回放池D_neg；

步骤4.3，预设回合数M，在每个回合中执行以下步骤：

步骤4.3.1、预设每个回合中飞行器的最大限定步数T；

步骤4.3.2、所述飞行器根据当前状态和策略选择动作，并添加随机噪声；

步骤4.3.3、根据当前执行动作计算下一状态并获得奖励；

步骤4.3.4、将步骤4.3.2和步骤4.3.3中的当前状态、策略选择执行动作、奖励及下一状态存储至经验回放池，根据奖励的大小将其存储至正经验回放池或负经验回放池，当奖励大于0时存储至正经验回放池，反之，存储至负经验回放池；

步骤4.3.5、为两个经验池设置重要系数δ_i：从D_pos和D_neg中提取的数量分别为：/>根据δ_i得到每个经验回放池的采样概率：P_i＝P_i+λδ_i，/>

步骤4.3.6、通过目标网络参数中的两个目标评价网络计算动作的期望回报，选择其中最小的期望回报，更新所述评价网络的参数；

步骤4.3.7、更新执行网络参数；

步骤4.3.8、更新完评价网络的参数和执行网络的参数后，更新目标网络参数；

步骤4.3.9、直到步数达到所述最大限定步数，结束一个回合。

根据本公开实施例的一种具体实现方式，所述分别在执行网络和评价网络中引入LSTM网络架构的步骤，包括：

针对执行网络部分，输入层根据飞行器状态量设置节点，隐藏层分别设置为LSTM网络层及全连接层，LSTM网络层设置为2层，全连接层设计为2层，均采用tach激活函数；

针对评价网络部分，隐藏层中的LSTM网络层设置为2层，全连接层设计为2层，均采用tach为激活函数，输出层设置为1个节点，采用L i near为激活函数。

本公开实施例中的基于深度强化学习的高超声速变外形飞行器姿态控制方案，包括：步骤1，建立飞行器的三自由度非线性再入姿态控制模型，化简模型并转化为状态空间模型；步骤2，根据状态空间模型设计飞行器的超螺旋控制器；步骤3，定义马尔可夫决策过程，将姿态控制问题转化为深度强化学习模型；步骤4，在传统TD3算法基础上，建立双经验回放池，并分别在执行网络和评价网络中引入LSTM网络架构，对该深度强化学习模型进行离线训练，利用训练好的决策模型进行参数的自适应调整。

本公开实施例的有益效果为：

1)利用了深度强化学习的感知和决策能力，提出了基于TD3的超螺旋控制算法，可根据环境自动调节超螺旋控制器参数，加速了系统到达滑动模态的过程，提高了系统鲁棒性并有效抑制抖振；

2)改进了传统的TD3深度强化学习算法，提高深度强化学习的泛化能力。使用双经验回放池以提高对经验数据的利用率，并提出经验分离机制、可变比例的回放策略和基于优先级采样的改进方法，加快智能体模型的收敛速度。在神经网络结构中添加LSTM网络以提高深度强化学习的学习能力，提升了算法的训练效率和效果；

3)实现了飞行器的多通道免解耦姿态控制，解决了飞行器控制过程中对强耦合非线性条件表现较差的问题；

4)通过在训练过程中引入模型的不确定性和外部干扰提升飞行器的适应能力和泛化性能。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本公开实施例提供的一种基于深度强化学习的高超声速变外形飞行器姿态控制方法的流程示意图；

图2为本公开实施例提供的一种基于深度强化学习的高超声速变外形飞行器姿态控制方法的控制系统框图；

图3为本公开实施例提供的一种改进TD3算法的网络结构图；

图4为本公开实施例提供的一种姿态角的跟踪效果图；

图5为本公开实施例提供的一种高超声速变外形飞行器的舵偏角曲线图；

图6为本公开实施例提供的一种深度强化学习方法的智能控制器参数曲线图；

图7为本公开实施例提供的一种TD3算法训练的奖励函数图；

图8为本公开实施例提供的一种与固定参数超螺旋控制的舵偏角结果对比图。

具体实施方式

下面结合附图对本公开实施例进行详细描述。

以下通过特定的具体实例说明本公开的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本公开的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

需要说明的是，下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见，本文中所描述的方面可体现于广泛多种形式中，且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开，所属领域的技术人员应了解，本文中所描述的一个方面可与任何其它方面独立地实施，且可以各种方式组合这些方面中的两者或两者以上。举例来说，可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外，可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。

还需要说明的是，以下实施例中所提供的图示仅以示意方式说明本公开的基本构想，图式中仅显示与本公开中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

另外，在以下描述中，提供具体细节是为了便于透彻理解实例。然而，所属领域的技术人员将理解，可在没有这些特定细节的情况下实践所述方面。

本公开实施例提供一种基于深度强化学习的高超声速变外形飞行器姿态控制方法，所述方法可以应用于航空航天场景的高超声速外变形飞行器控制过程中。

参见图1，为本公开实施例提供的一种基于深度强化学习的高超声速变外形飞行器姿态控制方法的流程示意图。如图1所示，所述方法主要包括以下步骤：

如图2所示，基于深度强化学习的高超声速变外形飞行器姿态控制方法，建立了高超声速变外形飞行器三自由度非线性再入姿态控制模型，在超螺旋控制的基础上，进一步引入深度强化学习算法进行在线调整优化，以提高控制器在强非线性、强耦合性、参数不确定性、参数时变性和存在外界干扰等问题作用下的跟踪控制性能，对实现高超声速变外形飞行器姿态角的抗扰动高精度跟踪控制具有重要意义。首先可以建立高超声速变外形飞行器的三自由度非线性再入姿态控制模型，化简模型并转化为状态空间模型；

其中，m,V分别为飞行器质量和速度；α,β,σ分别为攻角、侧滑角和倾侧角；θ为航迹倾角；ω_x,ω_y,ω_z分别表示横滚、偏航和俯仰的角速率；I_xx,I_yy,I_zz为飞行器绕体轴转动惯量，I_xy为惯性积；X_t,Y_t,Z_t分别为总阻力、总升力和总侧力，M_tx,M_ty,M_tz分别为滚转、偏航和俯仰通道的合力矩，其具体形式可表示为：

[M_tx,M_ty,M_tz]^T＝[M_x,M_y,M_z]^T+[M_sx,M_sy,M_sz]^T (2)

其中，M_x,M_y,M_z分别表示无变形下滚转力矩、偏航力矩和俯仰力矩；M_s＝[M_sx,M_sy,M_sz]^T表示滚转、偏航和俯仰的附加力矩。

作用在飞行器上的气动力矩可表示为M_a＝[M_x,M_y,M_z]^T，其分量形式为：

其中，b_A为参考气动弦长，c_A为参考气动展长；C_mx,C_my,C_mz分别表示滚转力矩、偏航力矩和俯仰力矩系数。S_r为飞行器的参考面积，Q_A为动压，其表达式为：

其中，ρ_A为空气密度；ρ_A0,b_h均为常数，且ρ_A0＝1.2258kg/m³，b_h＝1.3785×10^-4。V是飞行速度，R是飞行器质心的地心距，R_e＝6371004m为地球半径。

高超声速变外形飞行器的质心运动状态量在绕质心运动状态量快速变化的过程中，并不会发生较大改变。因此，可忽略姿态运动方程中的质心运动相关项，考虑外界干扰以及由于模型简化和通道耦合引起的模型不确定性，将公式(1)中的三自由度模型改写为如下形式：

其中，Θ＝[α,β,σ]^T为姿态角向量；ω＝[ω_x,ω_y,ω_z]^T表示姿态角速度向量；Μ_t为合力矩；d表示总扰动。矩阵I，ω^×，R的具体表达式如下：

进一步，令X₁＝Θ，X₂＝Rω，则式(5)可改写为：

其中，g₁＝RI^-1,d₁＝RI^-1d，u＝M_t。

在不对系统模型进行解耦的情况下，设计高超声速变外形飞行器的超螺旋控制算法，定义跟踪误差为：

则跟踪误差系统可改写为：

然后，定义滑模面为：

其中，K₁＝diag([k_1,1,k_1,2,k_1,3])为正定对角矩阵，表示待设计控制增益，γ₀∈(0,1)。

因此，滑模控制器可设计为：

其中，||*||表示矢量*的二范数，K₂,K₃是待设计控制增益。

其中，L₁(t)为自适应律，可设计如下：

其中，σ_sT、σ_eT均为常数，L_a1为自适应律调整参数。

定义马尔可夫决策过程，包括状态空间、动作空间和奖励函数的设计，将姿态控制问题转化为深度强化学习问题；

步骤31：设定状态空间S

由于单数据帧状态空间只提供瞬时的环境状态，环境中的动态变化和与时序相关特征无法捕捉，可能导致模型的决策能力有限。故选择控制周期为5帧数据帧作为当前时刻的环境状态，状态空间为45维。高超声速变外形飞行器的单数据帧包含：在t时刻，飞行器的的攻角α，侧滑角β，倾侧角σ，俯仰角速度ω_x，滚转角速度ω_y和偏航角速度ω_z。以及攻角误差Δα，侧滑角误差Δβ，倾侧角误差Δσ。

步骤32：设定动作空间A

为了提高姿态控制任务的鲁棒性及抗干扰能力，使得超螺旋控制算法的参数变化具有一定的连续性，将超螺旋控制器中自适应律调整参数作为智能体的动作，其取值范围为[0.001,0.5]。

步骤33：设计奖励函数R

为了使得智能体朝着姿态角误差的方向探索，使得各个状态量在整个飞行过程中平稳变化。设置奖励函数可分为姿态角跟踪误差连续奖励函数、角速度变化率奖励函数、舵偏角变化率奖励函数、滑模面奖励函数、角速率误差奖励函数、边界稀疏奖励函数、常量奖励函数等七个部分。

所述姿态角跟踪误差连续奖励函数为：r_e＝k₁|e_α|+k₂|e_β|+k₃|e_σ|

所述角速度变化率奖励函数为：r₁＝|Δω_x|+|Δω_y|+|Δω_z|

所述舵偏角变化率奖励函数为：r₂＝|Δδ_x|+|Δδ_y|+|Δδ_z|

所述滑模面奖励函数为：r₃＝|s_1,α|+|s_1,β|+|s_1,σ|

所述角速率误差奖励函数为：r₄＝|e_2,1|+|e_2,2|+|e_2,3|

所述边界稀疏奖励函数为：r₅＝t₁r_5,α+t₂r_5,β+t₃r_5,σ

其中，e_α,e_β,e_σ表示姿态角的误差；Δω_x,Δω_y,Δω_z表示三轴角速度的变化量；Δδ_x,Δδ_y,Δδ_z表示舵偏角的变化量；s_1,α,s_1,β,s_1,σ表示滑模面的三个分量，e_2,1,e_2,2,e_2,3表示三轴角速度的误差项，r_5,α,r_5,β,r_5,σ均为常数，表示对三个姿态角超出边界的惩罚项；

x_i表示三个姿态角。i_high,i_low表示姿态角的上下边界值。

故高超声速变外形飞行器最终单步奖励函数设置为：

R＝-r_e-k₁r₁-k₂r₂-k₃r₃-k₄r₄-r₅+c (17)

改进深度强化学习网络模型如图3所示。为了提高TD3算法的泛化能力，对传统的TD3算法进行了以下改进：

一方面是建立了双经验缓存优先采样机制以提高对经验数据的利用率。传统的TD3算法采用了单经验回放随机采样机制，该方法不能合理利用收集的经验样本，利用经验进行针对性的训练，也不能选择高质量的经验加快收敛。该机制由三部分组成：

首先，设计经验分离机制分离正经验和负经验，当单步奖励大于0时存储至正经验回放池，反之，存储至负经验回放池；

然后，设计一种可变比例重放机制，每个用于训练mini-batch都是从正经验回放池和负经验回放池中以不同的比例选择。在训练之初，智能体没有合理的执行策略时，将以较大比例回放正经验数据，加快飞行器控制策略的优化。当训练已经达到最优的模型时，以较大比例回放失败经验，防止控制策略的过拟合，并增加决策模型的鲁棒性。

N_batch表示minibatch的大小，分别从正、负经验回放池中抽取经验样本数量为N_batch-p，N_batch-n。从两个经验回放池抽样比例Φ与上一回合中正经验的数量N_p和负经验的数量N_n有关，从而根据决策模型的优化程度真实的调整正经验和负经验的比例。

最后，设计了一种基于优先级的采样机制，从而高效利用高经验样本。根据训练过程中的采样频率和经验奖励值的大小设置重要程度影响系数δ_i，为每一个经验设置一个选定的概率P_i，重要程度越高，选择该经验的概率越大。

其中，r_i代表经验的奖励值；N_i代表使用此经验的次数；T代表时间步数；P_i的初始值为1，N是经验回放池中的经验总数。

并分别在执行网络和评价网络中引入LSTM网络架构。将构建好的模型进行离线训练，利用训练好的网络模型来进行参数的自适应调整。

进一步的，所述步骤4具体包括如下步骤：

步骤41:初始化两个评价网络和执行网络π_φ，评价网络的参数θ₁,θ₂、执行网络的参数φ、目标网络参数；

步骤42:建立正经验回放池D_pos和负经验回放池D_neg；

步骤43:预设回合数M，在每个回合中执行以下步骤：

步骤43-1、预设每个回合中所述飞行器的最大限定步数T；

步骤43-2、所述飞行器根据当前状态和策略选择动作，并加上随机噪声；

步骤43-3、根据当前执行动作计算下一状态并获得奖励；

步骤43-4、将步骤43-2和步骤43-3中的当前状态、策略选择执行动作、奖励及下一状态存储至经验回放池，根据奖励的大小将其存储至正经验回放池或负经验回放池，当奖励大于0时存储至正经验回放池，反之，存储至负经验回放池；

步骤43-5、为两个经验池设置重要系数δ_i：从D_pos和D_neg中提取的数量分别为：/>根据δ_i得到每个经验回放池的采样概率：P_i＝P_i+λδ_i，/>

步骤43-6、通过目标网络参数中的两个目标评价网络计算动作的期望回报，选择其中最小的期望回报，更新所述评价网络的参数；

步骤43-7、根据确定性策略梯度更新所述执行网络参数；

步骤43-8、更新完所述评价网络的参数和所述执行网络的参数后，更新所述目标网络的参数；

步骤43-9、直到步数达到所述最大限定步数，结束一个回合。

步骤44、在所有回合结束后，所述高超声速变外形飞行器的姿态控制策略的训练结束，通过不断更新现实网络和目标网络的参数，可以得到训练好的执行网络，将其与超螺旋控制结合，实现实时智能调整控制增益参数的目的。

本实施例提供的基于深度强化学习的高超声速变外形飞行器姿态控制方法，通过利用了深度强化学习的感知和决策能力，提出了基于TD3的超螺旋控制算法，可根据环境自动调节超螺旋控制器参数，加速了系统到达滑动模态的过程，提高了系统鲁棒性并有效抑制抖振；改进了传统的TD3深度强化学习算法，提高深度强化学习的泛化能力和。使用双经验回放池以提高对经验数据的利用率，并提出经验分离机制、可变比例的回放策略和基于优先级采样的改进方法，加快智能体模型的收敛速度。在神经网络结构中添加LSTM网络以提高深度强化学习的学习能力，提升了算法的训练效率和效果；实现了飞行器的多通道免解耦姿态控制，解决了飞行器控制过程中对强耦合非线性条件表现较差的问题；通过在训练过程中引入模型的不确定性和外部干扰提升飞行器的适应能力和泛化性能。

下面将结合一个具体实施例对本方案进行说明，飞行器的初始状态设置为：h₀＝35km,v₀＝3.2km/s,α₀＝6°,β₀＝0°,σ₀＝20°,δ_f＝30°。超螺旋控制器参数为：K₁＝[0.3,0.3,0.3]^T，K₂＝[1.8,1.8,1.8]^T，K₃＝[1.8,1.8,1.8]^T，γ₀＝0.5，σ_e1＝0.05°，σ_e2＝0.25°。设置折扣因子γ＝0.99，评价网络的学习率为0.001，执行网络的学习率为0.0001，经验回放池的容量为1000000。时间步长为0.01s，训练单回合共计1000步，仿真时长为10s，训练500回合数。

在训练时为了提高策略的抗干扰能力，引入了外部干扰力矩以及模型的不确定性。相关参数设置为：三轴气动力系数(C_L,C_D,C_Y)的偏差分别为-40％，+40％和-40％；三轴气动力系数(C_mx,C_my,C_mz)的偏差分别为40％，-40％和-40％；惯性参数(I_xx,I_yy,I_zz,I_xy)的偏差分别为40％，-40％，40％和40％；大气密度偏差为40％；三轴外干扰力矩分别为：

仿真结果分析：仿真结果如图4至图7所示。图6表示强化学习算法训练500回合的累计奖励情况，随着训练回合越来越多，智能体不断地通过尝试探索，学习经验策略，累计奖励值也在逐步增加直至收敛，得到最优参数更新策略如图6所示。图4表示姿态角的跟踪效果及其误差情况，其中，(a)为攻角的实际输出和期望指令对比图，(b)为侧滑角的实际输出和期望指令对比图，(c)为倾侧角的实际输出和期望指令对比图。从图中可知，在模型不确定性和外部干扰作用下，仍可以实现较高性能的姿态控制，可适应40％的模型偏差。且经过检验在机翼大尺度折叠飞行条件下，均能保证稳态误差不超过0.5°。如图8所示，对比自适应参数与固定参数的结果，深度强化学习明显降低了控制输入的抖振，从而提升了控制器的控制性能。

综合上述对实施例的仿真验证，证明了本发明一种基于深度强化学习的高超声速变外形飞行器姿态控制方法的有效性。

应当理解，本公开的各部分可以用硬件、软件、固件或它们的组合来实现。

以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于深度强化学习的高超声速变外形飞行器姿态控制方法，其特征在于，包括：

步骤2，根据状态空间模型设计飞行器的超螺旋控制器；

2.根据权利要求1所述的方法，其特征在于,所述步骤1具体包括：

步骤1.1，所述三自由度非线性再入姿态控制模型的表达式为

步骤1.3，令X₁＝Θ，X₂＝Rω，得到状态空间模型为

其中，g₁＝RI^-1,d₁＝RI^-1d，u＝M_t。

3.根据权利要求2所述的方法，其特征在于,所述超螺旋控制器的表达式为

K₁,K₂,K₃的具体表达式如下：

4.根据权利要求3所述的方法，其特征在于,所述步骤3具体包括：

5.根据权利要求4所述的方法，其特征在于,所述姿态角跟踪误差连续奖励函数的表达式为

r_e＝k₁|e_α|+k₂|e_β|+k₃|e_σ|；

所述滑模面奖励函数的表达式为r₃＝|s_1,α|+|s_1,β|+|s_1,σ|；

其中，e_α,e_β,e_σ表示姿态角的误差，Δω_x,Δω_y,Δω_z表示三轴角速度的变化量，Δδ_x,Δδ_y,Δδ_z表示舵偏角的变化量，s_1,α,s_1,β,s_1,σ表示滑模面的三个分量，e_2,1,e_2,2,e_2,3表示三轴角速度的误差项，r_5,α,r_5,β,r_5,σ均为常数，表示对三个姿态角超出边界的惩罚项，i＝1,2,3，x_i表示三个姿态角，i_high,i_low表示姿态角的上下边界值；

6.根据权利要求4所述的方法，其特征在于,所述在传统TD3算法基础上，建立双经验回放池并分别在执行网络和评价网络中引入LSTM网络架构，对该深度强化学习模型进行离线训练的步骤，包括：

步骤4.2，建立正经验回放池D_pos和负经验回放池D_neg；

步骤4.3，预设回合数M，在每个回合中执行以下步骤：

步骤4.3.1、预设每个回合中飞行器的最大限定步数T；

步骤4.3.2、飞行器根据当前状态和策略选择动作，并添加随机噪声；

步骤4.3.3、根据当前执行动作计算下一状态并获得奖励；

步骤4.3.6、通过目标网络参数中的两个目标评价网络计算动作的期望回报，选择其中最小的期望回报，更新评价网络的参数；

步骤4.3.7、更新执行网络参数；

步骤4.3.9、直到步数达到最大限定步数，结束一个回合。

7.根据权利要求6所述的方法，其特征在于,所述分别在执行网络和评价网络中引入LSTM网络架构的步骤，包括：

针对评价网络部分，隐藏层中的LSTM网络层设置为2层，全连接层设计为2层，均采用tach为激活函数，输出层设置为1个节点，采用Linear为激活函数。