CN114578838A

CN114578838A - 一种适应多种构型飞行器的强化学习自抗扰姿态控制方法

Info

Publication number: CN114578838A
Application number: CN202210194932.9A
Authority: CN
Inventors: 韦常柱; 浦甲伦; 刘哲; 朱光楠; 徐世昊
Original assignee: Harbin Zhuyu Aerospace Technology Co ltd
Current assignee: Harbin Zhuyu Aerospace Technology Co ltd
Priority date: 2022-03-01
Filing date: 2022-03-01
Publication date: 2022-06-03
Anticipated expiration: 2042-03-01
Also published as: CN114578838B

Abstract

一种适应多种构型飞行器的强化学习自抗扰姿态控制方法，属于飞行器控制技术领域。方法如下：得到飞行器姿态控制模型；设计反馈控制律实现基本的姿态控制功能；构建强化学习环境，初始化智能体，以第一类构型的飞行器为被控对象，对智能体进行强化学习，使智能体可根据不同飞行环境，对反馈控制律参数进行自适应调节；将得到智能体作为初始智能体，以第二类构型的飞行器为被控对象，对智能体进行强化学习，使智能体可根据不同飞行环境及构型，对S2中反馈控制律参数进行自适应地调节。本发明减小构型不同下姿态角指令差异对控制系统的影响；消除构型差异对模型的影响，提高控制系统的适应能力；提高控制系统适应构型差异的能力。

Description

一种适应多种构型飞行器的强化学习自抗扰姿态控制方法

技术领域

本发明涉及一种适应多种构型飞行器的强化学习自抗扰姿态控制方法，属于飞行器控制技术领域。

背景技术

传统飞行器的控制系统设计往往仅针对某种构型与飞行环境进行，在构型与飞行环境发生变化的条件下需要重新设计与调试，增加了设计工作量，因此需要开发一种能够适应于多种飞行器构型的控制方法。

发明内容

为解决背景技术中存在的问题，本发明提供一种适应多种构型飞行器的强化学习自抗扰姿态控制方法。

实现上述目的，本发明采取下述技术方案：一种适应多种构型飞行器的强化学习自抗扰姿态控制方法，所述方法包括如下步骤：

S1：构建飞行器姿态动力学模型，采用输入-输出线性化方法得到飞行器姿态控制模型；

S2：对于飞行器俯仰通道、偏航通道以及滚转通道三个通道，分别设计跟踪微分器对姿态指令安排过渡过程、设计扩张状态观测器对除控制量之外的总扰动进行观测以及基于跟踪微分器和扩张状态观测器的输出，设计反馈控制律实现基本的姿态控制功能；

S3：构建强化学习环境，初始化智能体，以第一类构型的飞行器为被控对象，利用Soft Actor-Critic算法对智能体进行强化学习，使智能体可根据不同飞行环境，对S2中反馈控制律参数进行自适应调节；

S4：将S3中得到智能体作为初始智能体，以第二类构型的飞行器为被控对象，利用Soft Actor-Critic算法对智能体进行强化学习，使智能体可根据不同飞行环境及构型，对S2中反馈控制律参数进行自适应地调节。

与现有技术相比，本发明的有益效果是：

本发明采用跟踪微分器对指令安排过渡过程，减小构型不同下，姿态角指令差异对控制系统的影响；将构型差异及飞行环境变化对控制系统的影响归结为总扰动，采用扩张状态观测器对其进行观测与补偿，从而消除构型差异对模型的影响，提高控制系统的适应能力；构建可调节控制系统参数的智能体，采用Soft Actor-Critic算法，充分利用不同构型的数据对智能体进行强化学习，训练智能体调节自抗扰控制参数，实现适应不同构型的姿态控制器设计，进一步提高控制系统适应构型差异的能力。

附图说明

图1是本发明的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种适应多种构型飞行器的强化学习自抗扰姿态控制方法，所述方法包括如下步骤：

S101：基于绕质心转动动力学和姿态运动学，构建飞行器姿态动力学模型如下：

式(1)中：

为Ω关于时间的一阶导数；

为飞行器的姿态角矢量；

为俯仰角；

ψ为偏航角；

γ为滚转角；

R为姿态转换矩阵，

为ω关于时间的一阶导数；

ω＝[ω_x,ω_y,ω_z]为飞行器的姿态角速度矢量；

ω_x为滚转角速度；

ω_y为偏航角速度；

ω_z为俯仰角速度；

J为飞行器的转动惯量矩阵，且

J_xx为飞行器绕x轴的转动惯量；

J_yy为飞行器绕y轴的转动惯量；

J_zz为飞行器绕z轴的转动惯量；

J_xy，J_xz，J_yz为惯性积；

B₁为控制力矩系数矩阵；

δ＝[δ_x,δ_y,δ_z]表示控制输入量；

δ_x为副翼的偏转角；

δ_y为方向舵的偏转角；

δ_z为升降舵的偏转角；

d＝[d_x,d_y,d_z]为气动力矩与干扰力矩项；

d_x为作用在滚转方向的气动力矩与干扰力矩项；

d_y为作用在偏航方向的气动力矩与干扰力矩项；

d_z为作用在俯仰方向的气动力矩与干扰力矩项；

S102：采用输入-输出线性化方法，对式(1)进行线性化，可得：

式(2)中：

为Ω关于时间的二阶导数；

为R关于时间的一阶导数；

S103：定义状态量

将式(2)转化为：

式(3)中：

u为控制量，且u＝RJ^-1B₁δ＝[u_x,u_y,u_z]；

u_x为滚转方向控制量；

u_y为偏航方向控制量；

u_z为俯仰方向控制量；

为x₁关于时间的一阶导数；

为x₂关于时间的一阶导数；

H为总扰动，且

H₁为滚转方向总扰动量；

H₂为偏航方向总扰动量；

H₃为俯仰方向总扰动量。

S201：设定飞行器姿态角变化指令：

Ω_c＝[Ω_cz,Ω_cy,Ω_xz] (4)

式(4)中：

Ω_cz为俯仰通道指令；

Ω_cy为偏航通道指令；

Ω_xz为滚转通道指令；

定义姿态角跟踪误差为：

式(5)中：

为俯仰角跟踪误差；

X_1ψ为偏航角跟踪误差；

X_1γ为滚转角跟踪误差：

S202：设计仰通道的跟踪微分器如下：

式(6)中：

r＞0为速度因子；

h₀＞0为滤波因子；

a、a₀、a₁、a₂、y、s、fh均为中间量；

sign(·)为符号函数；

v_1z为跟踪微分器对俯仰通道指令Ω_cz安排过渡过程后的输出值；

v_2z为跟踪微分器对俯仰通道指令对时间一阶导数

的估计值；

偏航通道以及滚转通道所采用的跟踪微分器与俯仰通道形式相同，因此可得俯仰通道、偏航通道与滚转通道的跟踪微分器输出定义为 v₁＝[v_1z,v_1y,v_1x],v₂＝[v_2z,v_2y,v_2x]；

S202设计俯仰通道的扩张状态观测器如下：

式(7)中：

χ_1z为对

的估计；

χ_2z为对

的估计；

χ_3z为对H₃的估计；

β₀₁,β₀₂,β₀₃均为扩张状态观测器的增益系数；

fe_z，fe_z1均为中间量；

ο＞0为线性段的长度；

偏航通道以及滚转通道所采用的扩张状态观测器与俯仰通道形式相同，因此，俯仰通道、偏航通道与滚转通道的扩张状态观测器输出定义为χ₁＝[χ_1z,χ_1y,χ_1x]，χ₂＝[χ_2z,χ_2y,χ_2x]，χ₃＝[χ_3z,χ_3y,χ_3x]；

S203：设计俯仰通道的反馈控制律如下：

式(8)中：

λ_1z,λ_2z均为中间量；

k_p与k_d为增益系数；

为控制输出；

偏航通道以及滚转通道所采用的反馈控制律形式与俯仰通道相同。

S301：初始化强化学习交互环境为第一类构型的飞行器，强化俯仰通道学习交互环境，包括：总观测量o_T、动作量a_T和奖励函数，具体如下：

1)每一个仿真时间步t的观测量为

其中：

为飞行器高度；

Ma为飞行器的马赫数：

总观测量o_T＝{o_t-3,o_t-2,o_t-1,o_t}；

需要说明的是，总观测量o_T设计为连续4个仿真时间步观测量o_t-3,o_t-2,o_t-1,o_t的叠加，这种设计可以减小观测噪声对算法的影响，提高算法的稳定性；

2)动作量为a_T＝{Δβ₀₁,Δβ₀₂,Δβ₀₃,Δk_p,Δk_d}，

其中：

β₀₁,β₀₂,β₀₃均为扩张状态观测器的增益系数；

Δk_p,Δk_d为反馈控制律中增益系数k_p,k_d的增量；

3)奖励函数定义为r_T＝r₁+r₂，

其中：

r₁为与姿态控制误差相关的损失函数，且

其中：κ₁,κ₂为损失函数的增益系数，且κ₁,κ₂均设定为负数，用来惩罚姿态角和角速率的控制误差；

r₂为姿态控制误差小于0.1°时给予的正奖励，r₂≥0；

若

则r₂＝P，

若

则r₂＝0，

其中：

ε₁为理想的控制精度；

P为正奖励的设定值；

S302：强化学习中的智能体的三个神经网络，包括：Actor网络μ_θ(o_T)、 Critic_1网络

以及Critic_2网络

其中：

Actor网络的输入为总观测量o_T，输出为动作量a_T；

Critic_1网络以及Critic_2网络的输入均为总观测量o_T和动作量a_T，输出均为智能体采取动作量a_T后所得到的累积奖励的期望值；

需要说明的是，Critic_2网络的引入可降低单一Critic网络对累积奖励的期望值的过度估计，从而提高算法的准确度；

设置Critic_1网络以及Critic_2网络的结构相同，随机初始化Actor 网络的参数θ^μ，Critic_1网络的参数

令Critic_2网络的参数

定义强化学习最大次数为N_max，初始化强化学习次数N_step＝1；

S303：对于每一个仿真时间步t，采集飞行器俯仰角跟踪误差、俯仰角速度、高度及马赫数，计算每一个仿真时间步t的观测量

及总观测量o_T；将总观测量o_T输入Actor网络中，得到动作量 a_T＝{Δβ₀₁,Δβ₀₂,Δβ₀₃,Δk_p,Δk_d}；根据动作量调节扩张状态观测器及反馈控制律的参数，仿真时间向前推进一步，得到下一个时间步的观测量o_T+1，并根据S301 中定义计算奖励函数r_T；

S304：将总观测量o_T，动作量a_T，下一个时间步的观测量o_T+1，奖励函数r_T存入经验回放池

中；待经验回放池

中四元组数目达到100000个，转到 S305，否则继续进行S303；

S305：自经验回放池

中取出M个四元组，记为

以及

其中：1≤i≤M 为

中的第i个四元组；将

中下一个时间步的观测量o_T+1输入Actor网络中，得Actor网络输出量

将下一个时间步的观测量o_T+1与Actor网络输出量

分别输入Critic_1网络与Critic_2网络，得Critic_1网络输出量

Critic_2网络输出量

S306：计算

其中：y₁为Actor网络的损失函数，y₂为Critic_1网络及Critic_2网络的损失函数， min(Q_1i,Q_2i)为Q_1i与Q_2i的最小值，

为采用Actor网络时，输入为o_T+1，输出为

的对数概率；α＞0表示熵探索因子；

S307：以最小化

为目标，采用梯度下降方法更新Critic_1网络的参数

以最小化

为目标，采用梯度下降方法更新Critic_2 网络的参数

以最大化y₁为目标，采用梯度上升方法更新Actor网络的参数θ^μ；

S308：强化学习次数N_step增加一次，若N_step＜N_max返回S303，否则结束强化学习，保存Actor网络、Critic_1网络及Critic_2网络进入S4。

S401：载入Actor网络、Critic_1网络及Critic_2网络，作为智能体初始值；

S402：初始化强化学习交互环境为第二类构型的飞行器，采用S303-S308 的方式进行Soft Actor-Critic强化学习，训练智能体；

S403：保存S402强化学习所得智能体，上述智能体可同时适应面对称构型与轴对称构型的飞行器，实现在不同飞行环境下对扩张状态观测器中增益系数及反馈控制律中增益系数的调节。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同条件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种适应多种构型飞行器的强化学习自抗扰姿态控制方法，其特征在于：所述方法包括如下步骤：

S3：构建强化学习环境，初始化智能体，以第一类构型的飞行器为被控对象，利用SoftActor-Critic算法对智能体进行强化学习，使智能体可根据不同飞行环境，对S2中反馈控制律参数进行自适应调节；

S4：将S3中得到智能体作为初始智能体，以第二类构型的飞行器为被控对象，利用SoftActor-Critic算法对智能体进行强化学习，使智能体可根据不同飞行环境及构型，对S2中反馈控制律参数进行自适应地调节。

2.根据权利要求1所述的一种适应多种构型飞行器的强化学习自抗扰姿态控制方法，其特征在于：S1所述包括如下步骤：

式(1)中：

为Ω关于时间的一阶导数；

为飞行器的姿态角矢量；

为俯仰角；

ψ为偏航角；

γ为滚转角；

R为姿态转换矩阵，

为ω关于时间的一阶导数；

ω＝[ω_x,ω_y,ω_z]为飞行器的姿态角速度矢量；

ω_x为滚转角速度；

ω_y为偏航角速度；

ω_z为俯仰角速度；

J为飞行器的转动惯量矩阵，且

J_xx为飞行器绕x轴的转动惯量；

J_yy为飞行器绕y轴的转动惯量；

J_zz为飞行器绕z轴的转动惯量；

J_xy，J_xz，J_yz为惯性积；

B₁为控制力矩系数矩阵；

δ＝[δ_x,δ_y,δ_z]表示控制输入量；

δ_x为副翼的偏转角；

δ_y为方向舵的偏转角；

δ_z为升降舵的偏转角；

d＝[d_x,d_y,d_z]为气动力矩与干扰力矩项；

d_x为作用在滚转方向的气动力矩与干扰力矩项；

d_y为作用在偏航方向的气动力矩与干扰力矩项；

d_z为作用在俯仰方向的气动力矩与干扰力矩项；

式(2)中：

为Ω关于时间的二阶导数；

为R关于时间的一阶导数；

S103：定义状态量

将式(2)转化为：

式(3)中：

u为控制量，且u＝RJ^-1B₁δ＝[u_x,u_y,u_z]；

u_x为滚转方向控制量；

u_y为偏航方向控制量；

u_z为俯仰方向控制量；

为x₁关于时间的一阶导数；

为x₂关于时间的一阶导数；

H为总扰动，且

H₁为滚转方向总扰动量；

H₂为偏航方向总扰动量；

H₃为俯仰方向总扰动量。

3.根据权利要求2所述的一种适应多种构型飞行器的强化学习自抗扰姿态控制方法，其特征在于：所述S2包括如下步骤：

S201：设定飞行器姿态角变化指令：

Ω_c＝[Ω_cz,Ω_cy,Ω_xz] (4)

式(4)中：

Ω_cz为俯仰通道指令；

Ω_cy为偏航通道指令；

Ω_xz为滚转通道指令；

定义姿态角跟踪误差为：

式(5)中：

为俯仰角跟踪误差；

为偏航角跟踪误差；

X_1γ为滚转角跟踪误差：

S202：设计仰通道的跟踪微分器如下：

式(6)中：

r＞0为速度因子；

h₀＞0为滤波因子；

a、a₀、a₁、a₂、y、s、fh均为中间量；

sign(·)为符号函数；

v_2z为跟踪微分器对俯仰通道指令对时间一阶导数

的估计值；

偏航通道以及滚转通道所采用的跟踪微分器与俯仰通道形式相同，因此可得俯仰通道、偏航通道与滚转通道的跟踪微分器输出定义为v₁＝[v_1z,v_1y,v_1x],v₂＝[v_2z,v_2y,v_2x]；

S202设计俯仰通道的扩张状态观测器如下：

式(7)中：

χ_1z为对

的估计；

χ_2z为对

的估计；

χ_3z为对H₃的估计；

β₀₁,β₀₂,β₀₃均为扩张状态观测器的增益系数；

fe_z，fe_z1均为中间量；

ο＞0为线性段的长度；

S203：设计俯仰通道的反馈控制律如下：

式(8)中：

λ_1z,λ_2z均为中间量；

k_p与k_d为增益系数；

为控制输出；

4.根据权利要求3所述的一种适应多种构型飞行器的强化学习自抗扰姿态控制方法，其特征在于：所述S3包括如下步骤：

1)每一个仿真时间步t的观测量为

其中：

为飞行器高度；

Ma为飞行器的马赫数：

总观测量o_T＝{o_t-3,o_t-2,o_t-1,o_t}；

2)动作量为a_T＝{Δβ₀₁,Δβ₀₂,Δβ₀₃,Δk_p,Δk_d}，

其中：

β₀₁,β₀₂,β₀₃均为扩张状态观测器的增益系数；

Δk_p,Δk_d为反馈控制律中增益系数k_p,k_d的增量；

3)奖励函数定义为r_T＝r₁+r₂，

其中：

r₁为与姿态控制误差相关的损失函数，且

r₂为姿态控制误差小于0.1°时给予的正奖励，r₂≥0；

若

则r₂＝P，

若

则r₂＝0，

其中：

ε₁为理想的控制精度；

P为正奖励的设定值；

S302：强化学习中的智能体的三个神经网络，包括：Actor网络μ_θ(o_T)、Critic_1网络

以及Critic_2网络

其中：

Actor网络的输入为总观测量o_T，输出为动作量a_T；

设置Critic_1网络以及Critic_2网络的结构相同，随机初始化Actor网络的参数θ^μ，Critic_1网络的参数

令Critic_2网络的参数

及总观测量o_T；将总观测量o_T输入Actor网络中，得到动作量a_T＝{Δβ₀₁,Δβ₀₂,Δβ₀₃,Δk_p,Δk_d}；根据动作量调节扩张状态观测器及反馈控制律的参数，仿真时间向前推进一步，得到下一个时间步的观测量o_T+1，并根据S301中定义计算奖励函数r_T；

中；待经验回放池

中四元组数目达到100000个，转到S305，否则继续进行S303；

S305：自经验回放池

中取出M个四元组，记为B以及B_i，其中：1≤i≤M为B中的第i个四元组；将B_i中下一个时间步的观测量o_T+1输入Actor网络中，得Actor网络输出量

将下一个时间步的观测量o_T+1与Actor网络输出量

分别输入Critic_1网络与Critic_2网络，得Critic_1网络输出量

Critic_2网络输出量

S306：计算

其中：y₁为Actor网络的损失函数，y₂为Critic_1网络及Critic_2网络的损失函数，min(Q_1i,Q_2i)为Q_1i与Q_2i的最小值，

为采用Actor网络时，输入为o_T+1，输出为

的对数概率；α＞0表示熵探索因子；

S307：以最小化

为目标，采用梯度下降方法更新Critic_1网络的参数

以最小化

为目标，采用梯度下降方法更新Critic_2网络的参数

5.根据权利要求4所述的一种适应多种构型飞行器的强化学习自抗扰姿态控制方法，其特征在于：所述S4包括如下步骤：