CN116360497B

CN116360497B - 一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法

Info

Publication number: CN116360497B
Application number: CN202310411334.7A
Authority: CN
Inventors: 黄琰婷; 张雅滨; 韩红桂
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2023-04-18
Filing date: 2023-04-18
Publication date: 2024-02-09
Anticipated expiration: 2043-04-18
Also published as: CN116360497A

Abstract

本发明公开了一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法，其具体步骤如下：建立平流层飞艇六自由度运动学和动力学模型，并将其表示为状态空间方程形式。给定期望轨迹计算期望位置和当前位置之间的误差，获得无约束的位置跟踪误差动力学模型。利用critic网络估计最优性能函数与最优控制量，以最小化估计误差为目标，获得基于最优控制输入量。获得对模型中的不确定项的估计补偿量，结合最优控制输入量与估计补偿量，获得鲁棒最优控制律。结合动力系统布局对合力和合力矩进行控制解算，得到螺旋桨转速，实现平流层飞艇自主跟踪期望轨迹。通过基于级联滤波的估计器有效抑制了未知的建模误差和外界干扰对系统的影响，控制器具有较高鲁棒性。

Description

一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法

技术领域

本发明提供一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法，它提供一种考虑外界干扰、位置受限、控制能量消耗的平流层飞艇轨迹跟踪新控制方法，属于自动控制技术领域。

背景技术

平流层飞艇是一种飞行在海拔高度为20-30km的平流层空间的无人浮空飞行器，对于深空探测、对地观测和通信服务领域具有独特的应用价值。在深空探测方面，平流层飞艇可以在广泛的波长范围内提供类似卫星平台的观测条件。在对地观测方面，相比于飞机和卫星平台，平流层飞艇可提供更高的分辨率和更持久的观测。在通信服务方面，平流层飞艇可以作为小型通讯基站提供高速通信服务。

近年来，随着平流层飞艇科技制造技术不断发展，平流层飞艇已由研制试飞阶段逐渐走向落地应用阶段。长时稳定的驻空飞行能力是平流层飞艇实现大规模应用的前提。在驻空飞行过程中，需要充分考虑并处理飞行期间受到的多种约束问题，以增强其“驻空生存”、“广域覆盖”能力。平流层飞艇飞行控制约束主要来自于两个方面：与其他分系统耦合特性导致的控制能力约束、飞行环境与任务需求所带来位置约束。一方面，为了提高飞艇有效载荷，其自身结构与能源分系统需进行轻量化设计，在储能电池容量与动力系统能力约束下，平流层飞艇飞行时应尽可能减少能源消耗与执行机构损耗；另一方面，作为高空任务平台，在驻空飞行任务过程中，其位置需要保持在一定范围内。因此需要提出一个能够降低动力系统损耗、保证位置满足约束的平流层飞艇轨迹跟踪控制方法。

本发明“一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法”把以上问题作为切入点，而提出的有针对性的，解决位置受限、动力系统能源消耗限制、外界干扰下的平流层飞艇轨迹跟踪的控制理论。首先，建立具有位置约束的平流层飞艇动力学模型，设计罚函数进行状态转换，将具有约束的动力学模型转换为无约束动力学模型；然后，基于强化学习求解最优控制律，使跟踪全过程轨迹跟踪累计误差和控制能量消耗均最小；同时，设计了一种级联滤波干扰估计器，用于估计未知动力学与外界干扰。最后，通过李雅普诺夫稳定性分析以及模拟仿真验证，证明所设计的控制方法能够在满足位置约束的条件下，以低控制能耗实现对期望轨迹的高精度跟踪。

发明内容

(1)目的：本发明的目的在于提供一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法，控制工程师可以在结合实际参数整定，按照该方法实现平流层飞艇位置受限轨迹跟踪最优控制，同时对建模不确定性和外界干扰具有一定的鲁棒性。

(2)技术方案：本发明“一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法”，其主要内容及步骤是：首先，建立平流层飞艇在考虑位置约束和外界干扰时的六自由度全驱动运动模型，利用罚函数状态转换，将具有约束的动力学模型转换为无约束模型；然后针对无约束模型进行鲁棒最优控制律设计，通过强化学习估计获得最优控制律，通过强化学习避免最优控制中复杂的Hamilton-Jacobi-Bellman,HJB方程求解过程，使累计控制输入和跟踪误差最小；通过级联滤波干扰观测器估计未知的建模误差和外界干扰，使控制器具有鲁棒性。在实际应用中，将导航载荷所测量的平流层飞艇的当前位置、姿态、速度等状态量输入控制器中，获得到平流层飞艇轨迹跟踪任务中所需的合力和合力矩，再通过控制解算得到动力系统的螺旋桨转速，从而使平流层飞艇具有自主轨迹跟踪能力。

本发明“一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法”，其具体步骤如下：

步骤一运动学和动力学模型构建：根据平流层飞艇总体布局与气动外形，采用Newton-Euler法，对平流层飞艇飞行过程进行受力分析，建立平流层飞艇六自由度运动学和动力学模型，并将其表示为状态空间方程形式。

步骤二位置约束状态转换：考虑实际飞行中的位置约束要求，建立位置约束数学模型。给定期望轨迹，计算期望位置和当前位置之间的误差，结合位置约束设计罚函数对位置跟踪误差进行状态转换，获得无约束的位置跟踪误差动力学模型。

步骤三位置跟踪最优控制设计：根据步骤二获得的跟踪误差动力学模型，不考虑外界干扰设计最优控制律。利用critic网络估计最优性能函数与最优控制量，以最小化估计误差为目标，设计critic网络的权重自适应更新率，获得基于最优控制输入量。

步骤四位置跟踪鲁棒最优控制设计：根据步骤二获得的跟踪误差动力学模型，基于级联滤波设计干扰观测器，获得对模型中的不确定项的估计补偿量，结合步骤三设计的最优控制输入量与估计补偿量，获得鲁棒最优控制律，从而得到平流层飞艇动力系统所需提供的合力。

步骤五姿态跟踪鲁棒最优控制设计：将步骤四设计的鲁棒最优控制方法应用于姿态跟踪环，获得平流层飞艇动力系统所需提供的合力矩。在实际应用中，可结合动力系统布局对合力和合力矩进行控制解算，得到螺旋桨转速，实现平流层飞艇自主跟踪期望轨迹。

其中，在步骤一中所述的运动学和动力学模型构建过程如下：

平流层飞艇由椭球形氦气囊体、尾翼、推进系统和吊舱组成，如图1所示。该构型下的平流层飞艇为全驱动动力系统，即平流层飞艇的六自由度状态量可由六个独立控制量分别控制。具体而言，囊体前部的四组主推螺旋桨可在垂直方向转动，用于提供飞艇飞行所需主推力及姿态调节所需力矩，囊体头部的调姿装置可在水平方向摆动，提供飞艇航向调节所需力矩。

为建立平流层飞艇运动模型，首先定义如下坐标系：F_e＝{O_e,x_e,y_e,z_e}为惯性坐标系，原点O_e为地面观测点，O_ex_e沿正北方向，O_ex_e沿正东方向，O_ez_e垂直地面向下；F_c＝{O_c,x_c,y_c,z_c}为艇体坐标系，原点O_c为飞艇囊体的浮心，O_cx_c沿飞艇的对称面向前，O_cy_c垂直于飞艇对称面向右，O_cz_c垂直于O_cx_cy_c平面向下。

平流层飞艇的运动学模型为

其中，p＝(x,y,z)^T为表示在惯性坐标系F_e下的飞艇位置矢量，Θ＝(φ,θ,ψ)^T为飞艇姿态角矢量，V＝(u,v,w)^T为表示在艇体坐标系F_c下的飞艇地速矢量，Ω＝(p,q,r)^T为表示在艇体坐标系F_c下的飞艇姿态角速度矢量，R为艇体坐标系到惯性坐标系的旋转矩阵，表示为：

K为姿态转换矩阵，表示为：

平流层飞艇的动力学模型为

其中，m为飞艇重量，r_c＝[x_c,y_c,z_c]^T为飞艇质心到体心的矢径,I_c＝diag{I_x,I_y,I_z}为飞艇惯性张量矩阵。G＝R^T[0,0,mg]^T为体坐标系下的重力，g为重力加速度；M_G为因飞艇质心和浮心分离产生的重力矩，表示为

为体坐标系下的浮力,ρ为飞艇所在高度的大气密度，/>为飞艇总体积；由于飞艇所受浮力作用于浮心，则飞艇所受浮力矩为/>和/> 分别为飞艇所受的附加惯性力和其对于浮心产生的力矩，m_a＝diag{α₁,α₂,α₃}和I_a＝diag{α₄,α₅,α₆}分别为附加质量矩阵和附加惯量矩阵，α_i,i＝1,2,…,6为附加惯性系数，可通过分析椭球在势流场中的力学特性得到；F_A和M_A分别为飞艇所受气动力和气动力矩，表示为

V_a为飞艇空速，为参考面积，L为囊体直径，ρV_a ²/2为动压，α为迎角，β为侧滑角，C_x(α,β,q,r)为飞艇阻力系数，C_y(β,p,r)为飞艇侧力系数，C_z(α,p,q)为飞艇升力系数，/>为飞艇滚转力矩系数，/>为飞艇俯仰力矩系数，/>为飞艇偏航力矩系数；F_T＝[F_Tx,F_Ty,F_Tz]^T和M_T＝[M_Tx,M_Ty,M_Tz]^T分别为飞艇所受主动控制力和主动控制力矩；F_D和M_D分别为由外界风扰、系统参数不确定项与囊体形变等造成的动力学效应组成的未知等效力和力矩。

整合平流层飞艇的运动学模型和动力学模型，可将平流层飞艇运动模型分为位置环运动模型和姿态环运动模型。位置环运动模型可表示为

姿态环运动模型可表示为

其中，B₀＝χ₁₁ ^-1，/> B₂＝χ₂₂ ^-1，χ₁₁＝diag{m+α₁,m+α₂,m+α₃}，χ₂₂＝diag{I_x+α₄,I_y+α₅,I_z+α₆}，

在步骤二中所述的位置约束状态转换过程如下：

定义飞艇飞行期望轨迹为p_d＝[x_d,y_d,z_d]^T，位置跟踪误差为根据飞艇飞行过程中的任务要求，位置跟踪误差需满足限制要求为/> 其中h为约束上限，将其设定为一个可以根据任务要求调整的正常数。

为满足位置跟踪误差约束，引入状态转换方法，定义如下新的状态量：

其中，k_p为一个正常数。由该公式可以看出，若位置跟踪误差的初始值满足限制要求，即只要ξ为有界的，则可以保证/>并且当ξ＝0时，/>

因此，可以将具有约束限制的位置误差动力学方程转换为新的状态误差动力学方程：

其中，为单位矩阵， B₁＝RB₀。

定义则状态误差动力学方程可写为：

其中，B＝[0_3×3,B₁]，U＝F_T+F_D。

在步骤三中所述的位置跟踪最优控制设计过程如下：

定义性能指标函数为

其中，r_x和r_u均为正常数，/>为控制输入上限。

接下来需设计最优控制律U^*(t)，使得性能函数指标值最小，即优化目标为

对J^*求导，可获得Hamilton-Jacobi-Bellman(HJB)方程为

两边都对U^*求导，可得到最优控制律为

由于最优性能指标值难以以解析形式表示，利用自适应critic神经网络学习的方式逼近数值解。构建具有l_p个神经元的critic网络，估计最优性能指标值,表示为

J₁ ^*＝w_c ^Tχ(X)+ε_c

其中，为critic网络权重，χ(X)为激活函数，/>为激活函数相对于X的导数，ε_c为神经网络估计误差，/>为估计误差相对于X的导数。则最优性能指标和最优控制量可写为

对应的HJB方程为

则HJB误差为

对求导，可得

定义设计如下辅助系统

其中，为辅助系统状态量；为正常数，满足k_p1<k_p2。

为最大程度利用历史信息，选择t_p时刻对应的辅助系统状态量和/>用于critic网络权重更新。其中，/>表示x的最小特征值。

设计critic网络权重更新公式为

其中，r_p>0,δ_p>0为学习率，为单位矩阵，ρ_p为切换函数，定义为

该切换函数的设计是为了避免控制量初始值不可行。

因此，位置跟踪最优控制律设计为

在步骤四中所述的位置跟踪鲁棒最优控制设计过程如下：

根据U＝F_T+F_D，步骤三中已得到最优U的表达式，为获得飞艇动力系统所需提供的主动控制力F_T，需对未知项F_D进行估计。设计基于级联滤波的估计器为

其中，为F_D的估计值，/>为以下滤波器的输出状态

其中，为另一滤波器的输出

因此，位置跟踪鲁棒最优控制律设计为

在步骤五中所述的姿态跟踪鲁棒最优控制设计过程如下：

定义飞艇飞行期望姿态为姿态跟踪误差为/>因此，姿态误差动力学模型可写为

其中，

定义则上述姿态误差动力学模型可改写为：

其中，B_a＝[0_3×3,B₂]，M＝M_T+M_D。

定义性能指标函数为

其中，r_a和r_m均为正常数，/>为控制输入的限制值。

接下来需设计最优控制律M^*(t)，使得性能函数指标值最小，即优化目标为

由于最优性能指标值难以以解析形式表示，利用自适应critic神经网络学习的方式逼近数值解。构建具有l_a个神经元的critic网络，估计最优性能指标值,表示为

其中，为critic网络权重估计值，χ(X_a)为激活函数。最优控制律可表示为

其中，为激活函数相对于X_a的导数。critic网络估计权重更新公式为

其中，r_w>0,δ_a>0为学习率，ρ_a为切换函数，定义为

和/>为t_a时刻对应的辅助系统状态量M_a和P_a，即/>t_a＝argmax_s∈[0,t] λ(M_a(s))。辅助系统如下所示：

其中，为辅助系统状态量；为正常数，满足

为估计未知项M_D，设计基于级联滤波的估计器为

其中，为M_D的估计值，/>为以下滤波器的输出状态

其中，为另一滤波器的输出

因此，姿态跟踪鲁棒最优控制律设计为

(3)优点及效果：

本发明“一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法”，与现有技术比，其优点是：

1)本方法能够有效解决平流层飞艇位置受限控制问题，通过基于罚函数的状态转换方法，将受限控制问题转换为非受限控制问题，保证在跟踪控制过程中平流层飞艇位置始终在预定约束下，从而满足飞行任务要求；

2)本方法设计了一种基于强化学习的最优控制方法，避免了传统最优控制中HJB方程的复杂求解过程，可使累计控制输入和跟踪误差最小，能够有效减少动力系统能源消耗；

3)本方法中设计了一种新的基于历史信息的critic网络权重更新策略，该更新策略无需满足一般强化学习控制中所需的持续激励条件，实用性更高；

4)本方法通过基于级联滤波的估计器有效抑制了未知的建模误差和外界干扰对系统的影响，控制器具有较高鲁棒性。

附图说明

图1为本发明平流层飞艇构型及坐标系示意图；

符号说明如下：

p，p＝(x,y,z)^T为飞艇在惯性坐标系下的当前位置；

Θ，Θ＝(φ,θ,ψ)^T为飞艇的当前姿态角；

V，V＝(u,v,w)^T为飞艇在艇体坐标系下的当前地速；

Ω，Ω＝(p,q,r)^T为飞艇在艇体坐标系下的姿态角速度；

R，艇体坐标系到惯性坐标系的旋转矩阵；

K，姿态转换矩阵；

m，飞艇质量；

m_a，m_a＝diag{α₁,α₂,α₃}飞艇附加质量矩阵；

I_a，I_a＝diag{α₄,α₅,α₆}飞艇附加惯量矩阵；

α_i,(i＝1,2,…,6)飞艇附加惯性系数；

r_c，r_c＝[x_c,y_c,z_c]^T飞艇质心到体心的矢径；

I_c，I_c＝diag{I_x,I_y,I_z}飞艇惯性张量矩阵；

g，重力加速度；

r_c，r_c＝[x_c,y_c,z_c]^T飞艇质心到体心的矢径；

ρ，飞艇所在高度的大气密度；

飞艇总体积；

S，参考面积；

L，飞艇囊体直径；

α，飞艇飞行迎角；

α，飞艇飞行侧滑角；

V_a，飞艇飞行空速；

C_x，飞艇阻力系数；

C_y，飞艇侧力系数；

C_z，飞艇升力系数；

C_l，飞艇滚转力矩系数；

C_m，飞艇俯仰力矩系数；

C_n，飞艇偏航力矩系数；

G，G＝R^T[0,0,mg]^T飞艇所受重力在艇体坐标系下的表示；

B，飞艇所受浮力在艇体坐标系下的表示；

M_G，飞艇所受重力矩；

M_B，飞艇所受浮力矩；

F_a，飞艇所受附加惯性力；

M_a，飞艇所受附加惯性力对于浮心产生的力矩；

F_T，F_T＝[F_Tx,F_Ty,F_Tz]^T飞艇所受主动控制力；

M_T，M_T＝[M_Tx,M_Ty,M_Tz]^T飞艇所受主动控制力矩；

F_D，飞艇所受未知等效力；

M_D，飞艇所受未知等效力矩；

p_d，p_d＝[x_d,y_d,z_d]^T为飞艇在惯性坐标系下的期望位置；

为飞艇位置跟踪误差；

h，为飞艇位置跟踪约束上限；

位置环控制系数；

r_x,r_u,r_p,δ_p，位置环神经网络学习系数；

l_p,l_a，神经元个数；

w_c,w_a，神经网络权重系数；

神经网络权重系数估计值；

χ(·)，神经网络激活函数；

神经网络激活函数的导数；

ε_c,ε_a，神经网络估计误差；

神经网络估计误差的导数；

M_p,P_p，辅助系统状态量；

ρ_p，切换函数；

位置环控制输入上限；

为飞艇期望姿态；

为飞艇姿态跟踪误差；

姿态环控制系数；

r_a,r_m,r_w,δ_a，姿态环神经网络学习系数；

姿态环控制输入上限；

I₃，三维单位矩阵；

具体实施方式

下面对本发明中的各部分设计方法作进一步的说明：

步骤一：运动学和动力学模型构建

定义平流层飞艇运动状态量：p＝(x,y,z)^T为表示在惯性坐标系F_e下的飞艇位置矢量，Θ＝(φ,θ,ψ)^T为飞艇姿态角矢量，V＝(u,v,w)^T为表示在艇体坐标系F_c下的飞艇地速矢量，Ω＝(p,q,r)^T为表示在艇体坐标系F_c下的飞艇姿态角速度矢量。

根据坐标系变换和牛顿-欧拉方程，建立平流层飞艇的运动学模型和动力学模型，并将其整合为位置环运动模型和姿态环运动模型。位置环运动模型可表示为

姿态环运动模型可表示为

其中，R为艇体坐标系到惯性坐标系的旋转矩阵，K为姿态转换矩阵，F_D和M_D分别为由外界风扰、系统参数不确定项与囊体形变等造成的动力学效应组成的未知等效力和力矩， B₀＝χ₁₁ ^-1，/> B₂＝χ₂₂ ^-1，χ₁₁＝diag{m+α₁,m+α₂,m+α₃}，χ₂₂＝diag{I_x+α₄,I_y+α₅,I_z+α₆}，

/>

步骤二：位置约束状态转换

给定飞艇飞行期望轨迹为p_d＝[x_d,y_d,z_d]^T，求得位置跟踪误差为根据飞艇飞行过程中的任务要求，位置跟踪误差需满足限制要求为其中h为约束上限，将其设定为一个可以根据任务要求调整的正常数。为满足位置跟踪误差约束，引入状态转换方法，定义如下新的状态量：

其中，为单位矩阵， B₁＝RB₀。

定义则状态误差动力学方程可写为：

其中，B＝[0_3×3,B₁]，U＝F_T+F_D。

步骤三：位置跟踪最优控制设计

针对步骤二所获得的状态误差动力学方程，设计如下最优控制律

其中，为激活函数的导数，/>为critic网络权重估计值，该值通过如下自适应更新律获得

其中，r_p>0,δ_p>0为学习率，为单位矩阵，/>为控制输入上限，ρ_p为切换函数，定义为/>

和/>为t_p时刻对应的辅助系统状态量M_p和P_p，即/>t_p＝argmax_s∈[0,t] λ(M_p(s))。辅助系统如下所示：

其中，为正常数，满足k_p1<k_p2；/> r_x和r_u均为正常数。

步骤四：位置跟踪鲁棒最优控制设计

其中，为F_D的估计值，/>为以下滤波器的输出状态

其中，为另一滤波器的输出

因此，位置跟踪鲁棒最优控制律设计为

步骤五：姿态跟踪鲁棒最优控制设计

其中，

定义则上述姿态误差动力学模型可改写为：

其中，B_a＝[0_3×3,B₂]，M＝M_T+M_D。

针对以上姿态误差动力学方程，设计如下最优控制律

其中，为激活函数相对于X_a的导数,/>为控制输入的限制值，/>为critic网络权重估计值，该值通过如下自适应更新律获得

其中，r_w>0,δ_a>0为学习率，ρ_a为切换函数，定义为

其中，为辅助系统状态量；/> 为正常数，满足/> r_a和r_m均为正常数。

为估计未知项M_D，设计基于级联滤波的估计器为

其中，为M_D的估计值，/>为以下滤波器的输出状态

其中，为另一滤波器的输出

因此，姿态跟踪鲁棒最优控制律设计为

/>

Claims

1.一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法，其特征在于，该方法的具体步骤如下：

步骤一，运动学和动力学模型构建：根据平流层飞艇总体布局与气动外形，采用Newton-Euler法，对平流层飞艇飞行过程进行受力分析，建立平流层飞艇六自由度运动学和动力学模型，并将其表示为状态空间方程形式；

步骤二，位置约束状态转换：考虑实际飞行中的位置约束要求，建立位置约束数学模型；给定期望轨迹，计算期望位置和当前位置之间的误差，结合位置约束设计罚函数对位置跟踪误差进行状态转换，获得无约束的位置跟踪误差动力学模型；

步骤三，位置跟踪最优控制设计：根据步骤二获得的跟踪误差动力学模型，不考虑外界干扰设计最优控制律；利用critic网络估计最优性能函数与最优控制量，以最小化估计误差为目标，设计critic网络的权重自适应更新率，获得基于最优控制输入量；

步骤四，位置跟踪鲁棒最优控制设计：根据步骤二获得的跟踪误差动力学模型，基于级联滤波设计干扰观测器，获得对模型中的不确定项的估计补偿量，结合步骤三设计的最优控制输入量与估计补偿量，获得鲁棒最优控制律，从而得到平流层飞艇动力系统所需提供的合力；

步骤五，姿态跟踪鲁棒最优控制设计：将步骤四设计的鲁棒最优控制方法应用于姿态跟踪环，获得平流层飞艇动力系统所需提供的合力矩；在实际应用中，可结合动力系统布局对合力和合力矩进行控制解算，得到螺旋桨转速，实现平流层飞艇自主跟踪期望轨迹；

在步骤三中所述的位置跟踪最优控制设计，其设计步骤如下：

定义性能指标函数为

其中，r_x和r_u均为正常数，/>为控制输入上限；

对J^*求导，获得Hamilton-Jacobi-Bellman(HJB)方程为

两边都对U^*求导，得到最优控制律为

利用自适应critic神经网络学习的方式逼近数值解；构建具有l_p个神经元的critic网络，估计最优性能指标值,表示为J₁ ^*＝w_c ^Tχ(X)+ε_c，其中，为critic网络权重向量，/>为激活函数向量，/>为激活函数相对于X的导数，ε_c为神经网络估计误差，/>为估计误差相对于X的导数；则最优性能指标和最优控制量为

对应的HJB方程为

则HJB误差为

对求导，得

其中，⊙表示向量中对应元素相乘；定义设计如下辅助系统

其中，为辅助系统状态量；/> k_p1,k_p2,/>为正常数，满足k_p1<k_p2；

选择t_p时刻对应的辅助系统状态量和/>用于critic网络权重更新；其中，t_p＝aegmax_s∈[0,t] λ(m_p(s))，λ()表示求矩阵的最小特征值；

设计critic网络权重更新公式为

位置跟踪最优控制律设计为

2.根据权利要求1所述的一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法，其特征在于：在步骤一中所述的运动学和动力学模型构建，其步骤如下：

建立平流层飞艇运动模型，首先定义如下坐标系：F_e＝{O_e,x_e,y_e,z_e}为惯性坐标系，原点O_e为地面观测点，O_ex_e为沿正北方向的坐标轴，O_ey_e为沿正东方向的坐标轴，O_ez_e为垂直地面向下的坐标轴；F_c＝{O_c,x_c,y_c,z_c}为艇体坐标系，原点O_c为飞艇囊体的浮心，O_cx_c为沿飞艇的对称面向前的坐标轴，O_cy_c为垂直于飞艇对称面向右的坐标轴，O_cz_c为垂直于O_cx_cy_c平面向下的坐标轴；

平流层飞艇的运动学模型为

其中，p＝(x,y,z)^T为表示在惯性坐标系F_e下的飞艇位置矢量，x,y,z分别为飞艇位置投影在O_ex_e，O_ey_e，O_ez_e的轴向分量，Θ＝(φ,θ,ψ)^T为飞艇姿态角矢量，φ,θ,ψ分别为飞艇滚转角、俯仰角和偏航角，V＝(u,v,w)^T为表示在艇体坐标系F_c下的飞艇地速矢量，u,v,w分别为飞艇地速投影在O_ex_e，O_ey_e，O_ez_e的轴向分量，Ω＝(p,q,r)^T为表示在艇体坐标系F_c下的飞艇姿态角速度矢量，p,q,r分别为飞艇滚转角速度、俯仰角速度和偏航角速度，R为艇体坐标系到惯性坐标系的旋转矩阵，表示为：

K为姿态转换矩阵，表示为：

T为矩阵的转置符号；

平流层飞艇的动力学模型为

其中，m为飞艇重量，r_c＝[x_c,y_c,z_c]^T为飞艇质心到体心的矢径，x_c,y_c,z_c分别为飞艇质心到体心的距离投影在O_cx_c，O_cy_c，O_cz_c轴向的分量,I_c＝diag{I_x,I_y,I_z}为飞艇惯性张量矩阵，diag表示对角矩阵，I_x,I_y,I_z为飞艇惯性张量分量；G＝R^T[0,0,mg]^T为体坐标系下的重力，g为重力加速度；M_G为因飞艇质心和浮心分离产生的重力矩，表示为

为体坐标系下的浮力,ρ为飞艇所在高度的大气密度，/>为飞艇总体积；由于飞艇所受浮力作用于浮心，则飞艇所受浮力矩为M_B＝0；/> 和分别为飞艇所受的附加惯性力和其对于浮心产生的力矩，m_a＝diag{α₁,α₂,α₃}和I_a＝diag{α₄,α₅,α₆}分别为附加质量矩阵和附加惯量矩阵，α_i,i＝1,2,…,6为附加惯性系数，通过分析椭球在势流场中的力学特性得到；F_A和M_A分别为飞艇所受气动力和气动力矩，表示为

V_a为飞艇空速合速，/>为参考面积，L为囊体直径，α为迎角，β为侧滑角，C_x(α,β,q,r)为飞艇阻力系数，C_y(β,p,r)为飞艇侧力系数，C_z(α,p,2)为飞艇升力系数，/>为飞艇滚转力矩系数，/>为飞艇俯仰力矩系数，/>为飞艇偏航力矩系数；F_T＝[F_Tx,F_Ty,F_Tz]^T和M_T＝[M_Tx,M_Ty,M_Tz]^T分别为飞艇所受主动控制力和主动控制力矩，F_Tx,F_Ty,F_Tz为主动控制力三维分量，M_Tx,M_Ty,M_Tz为主动控制力矩三维分量；F_D和M_B分别为由外界风扰、系统参数不确定项与囊体形变造成的动力学效应组成的未知等效力和力矩；

整合平流层飞艇的运动学模型和动力学模型，将平流层飞艇运动模型分为位置环运动模型和姿态环运动模型；位置环运动模型表示为

姿态环运动模型表示为

χ₂₁＝-χ₁₂，

3.根据权利要求1所述的一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法，其特征在于：在步骤二中所述的位置约束状态转换，其设计步骤如下：

定义飞艇飞行期望轨迹为p_d＝[x_d,y_d,z_d]^T，x_d,y_d,z_d为期望轨迹投影在O_ex_e，O_ey_e，O_ez_e的轴向分量，位置跟踪误差为为位置跟踪误差投影在O_ex_e，O_ey_e，O_ez_e的轴向分量；根据飞艇飞行过程中的任务要求，位置跟踪误差满足限制要求为其中h为约束上限，将其设定为一个根据任务要求调整的正常数，/>表示实数域；

其中，k_p为一个正常数；若位置跟踪误差的初始值满足限制要求，即只要ξ为有界的，则保证/>并且当ξ(t)→0时，/>t₀为初始时刻，t为当前时刻；

根据位置环运动模型(3)和状态转换公式(5)，将具有约束限制的位置误差动力学方程表示为：

其中，为单位矩阵，/> B₁＝RB₀；

定义则状态误差动力学方程写为：

其中，B＝[0_3×3,B₁]，U＝F_T+F_D。

4.根据权利要求1所述的一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法，其特征在于：在步骤四中所述的位置跟踪鲁棒最优控制设计，其设计步骤如下：

根据U＝F_T+F_D，步骤三中已得到最优U的表达式，为获得飞艇动力系统所需提供的主动控制力F_T，需对未知项F_D进行估计；设计基于级联滤波的估计器为

其中，为F_D的估计值，/>为以下滤波器的输出状态

其中，ζ₁，ζ₂为另一滤波器的输出

位置跟踪鲁棒最优控制律设计为

5.根据权利要求1所述的一种基于强化学习最优控制的平流层飞艇轨迹跟踪方法，其特征在于：在步骤五中所述的姿态跟踪鲁棒最优控制设计，其设计步骤如下：

定义飞艇飞行期望姿态为 θ_d,ψ_d分别为期望滚转角、期望俯仰角和期望偏航角，姿态跟踪误差为/> 分别为姿态跟踪误差的三维分量；根据姿态环运动模型(4)，姿态误差动力学模型为

其中，

定义则上述姿态误差动力学模型(23)为：

其中，B_a＝[0_3×3,B₂]，M＝M_T+M_D；

定义性能指标函数为

其中，r_a和r_m均为正常数，/>为控制输入的限制值；

构建具有l_a个神经元的critic网络，估计最优性能指标值,表示为其中，/>为critic网络权重估计值，/>为激活函数；最优控制律表示为

其中，为激活函数相对于X_a的导数；critic网络估计权重更新公式为

其中，r_w>0,δ_a>0为学习率，ρ_a为切换函数，定义为

和/>为t_a时刻对应的辅助系统状态量M_a和P_a，即/>t_a＝argmax_s∈[0,t] λ(M_a(s))；辅助系统如下所示：

其中，为辅助系统状态量；/> k_a1,k_a2,/>为正常数，满足k_a1<k_a2；/>

为估计未知项M_D，设计基于级联滤波的估计器为

其中，为M_D的估计值，/>为以下滤波器的输出状态

其中，ζ₃，ζ₄为另一滤波器的输出

姿态跟踪鲁棒最优控制律设计为