CN114200950B

CN114200950B - 一种飞行姿态控制方法

Info

Publication number: CN114200950B
Application number: CN202111248696.6A
Authority: CN
Inventors: 王昭磊; 路坤锋; 禹春梅; 柳嘉润; 巩庆海; 黄旭; 胡瑞光; 骆无意; 李�杰; 翟雯婧; 王露荻; 魏晓丹; 林玉野
Original assignee: Beijing Aerospace Automatic Control Research Institute
Current assignee: Beijing Aerospace Automatic Control Research Institute
Priority date: 2021-10-26
Filing date: 2021-10-26
Publication date: 2023-06-02
Anticipated expiration: 2041-10-26
Also published as: CN114200950A

Abstract

本发明公开了飞行姿态控制方法，属于机器学习技术领域，方法包括：构建飞行姿态控制律的学习所需的探索环境；根据所述探索环境输出的姿态角、姿态角速度，以及期望姿态角指令，构建所述飞行姿态控制律的学习所需的输入信号；将从所述飞行姿态控制律得到的舵机理论输出指令输入至舵机限幅单元，获取所述舵机限幅单元的输出结果，并将所述输出结果输入至所述探索环境；构建奖励回报单元，所述奖励回报单元反馈所述探索环境的姿态角的当前时刻奖励至所述飞行姿态控制律，并通过最大化总奖励优化所述飞行姿态控制律的学习；对所述飞行姿态控制律进行学习，获取最终的飞行姿态控制律，基于所述飞行姿态控制律对飞行姿态进行控制。

Description

一种飞行姿态控制方法

技术领域

本发明涉及机器学习技术领域，尤其涉及一种飞行姿态控制方法。

背景技术

航天智能自主系统从上世纪90年代就被提出，但在智能自主飞行技术方面的研究成果尚不多见，新型结合人工智能算法的制导控制技术的发展较为缓慢。而航天飞行任务呈现愈发复杂的趋势，突发情况更加多样，难度越发增加，地面通过高昂费用建立的数学模型越来越难以与真实飞行环境相一致，即天地不一致问题变得更加突出。传统依赖精确数学模型的经典飞行控制算法，往往需要复杂的建模、简化和分析过程，高度依赖于设计人员的设计经验，设计过程复杂，设计周期长，且在面对飞行环境不确定性时往往无法有效实现灵活的自主控制。

发明内容

鉴于上述的分析，本发明实施例旨在提供一种飞行姿态控制方法，解决了传统设计方法高度依赖于飞行器对象的精确数学模型、设计过程复杂、高度依赖于设计人员经验、控制效果受飞行环境不确定性影响较大的问题。

本发明实施例提供了一种飞行姿态控制方法，包括：

构建飞行姿态控制律的学习所需的探索环境；

根据所述探索环境输出的姿态角、姿态角速度，以及期望姿态角指令，构建所述飞行姿态控制律的学习所需的输入信号；

将从所述飞行姿态控制律得到的舵机理论输出指令输入至舵机限幅单元，获取所述舵机限幅单元的输出结果，并将所述输出结果输入至所述探索环境；

构建奖励回报单元，所述奖励回报单元反馈所述探索环境的姿态角的当前时刻奖励至所述飞行姿态控制律，并通过最大化总奖励优化所述飞行姿态控制律的学习；

对所述飞行姿态控制律进行学习，获取最终的飞行姿态控制律，基于所述飞行姿态控制律对飞行姿态进行控制。

进一步地，所述探索环境在飞行器模型的模型系数中引入随机不确定性影响因子；相应的，所述模型系数包括气动力合力和气动力矩的合力矩，所述气动力合力和所述气动力矩的合力矩分别包括对应的气动力系数和气动力矩系数；所述气动力系数和气动力矩系数由如下7维插值计算得到：

其中，C_A、C_N、C_S为所述气动力系数，C_mx、C_my、C_mz为所述气动力矩系数；插值自变量为高度H，空速u，攻角α，侧滑角β，俯仰舵偏角

偏航舵偏角δ_ψ以及滚转舵偏角δ_γ，通过对插值自变量注入随机不确定性影响因子，实现在飞行器模型的模型系数中引入随机不确定性影响因子。

进一步地，所述飞行器模型为六自由度模型；相应的，所述构建飞行姿态控制律的学习所需的探索环境，包括：

根据如下表达式构建所述探索环境：

其中，x，y，H代表位置信息，v_xd，v_yd，v_zd代表地面坐标系下速度，

为姿态角，ω_x，ω_y，ω_z为姿态角速度，p为发动机推力，mg为重力，m为质量，T_t→d代表从机体系到地面坐标系的转换矩阵；

c₁～c₉为和转动质量相关的系数，记I_x，I_y，I_z分别为绕飞行器机体轴的转动惯量，I_xz为xz平面内的惯性积，则有

F_A＝-qS_refC_A，F_S＝qS_refC_S，F_N＝-qS_refC_N

M_x＝qS_refL_refC_mx，M_y＝qS_refL_refC_my，M_z＝qS_refL_refC_mz

其中，q为大气密度，S_ref为参考气动面积，L_ref为参考气动长度。

进一步地，所述输出结果包括对所述舵机理论输出指令进行动作幅值限幅和变化速率限幅，得到的限幅结果；所述舵机理论输出指令包括理论俯仰舵偏角、理论偏航舵偏角，以及理论滚转舵偏角；相应的，所述对所述舵机理论输出指令进行动作幅值限幅和变化速率限幅，得到的限幅结果，包括：

根据如下公式计算所述限幅结果：

对于动作幅值限幅：

对于变化速率限幅：

其中，k表示第k个控制周期，

为第k个控制周期的俯仰舵偏角，δ_ψ(k)为第k个控制周期的偏航舵偏角，δ_γ(k)为第k个控制周期的滚转舵偏角，

为第k个控制周期的理论俯仰舵偏角，a_ψ(k)为第k个控制周期的理论偏航舵偏角，a_γ(k)为第k个控制周期的理论滚转舵偏角，

分别为俯仰舵偏角最大值、偏航舵偏角最大值和滚转舵偏角最大值，

分别为俯仰舵偏角最小值、偏航舵偏角最小值和滚转舵偏角最小值，

分别为俯仰舵偏角最大变化速率、偏航舵偏角最大变化速率和滚转舵偏角最大变化速率，

为单位时间间隔。

进一步地，所述构建奖励回报单元，包括：

当前时刻奖励通过如下二次型表示：

且有

其中，r_*t为在t时刻的当前时刻奖励，

为总奖励，*表示通配符，可通配

中的任意一个，

为姿态角，s_*t为系统状态，包括姿态角误差、姿态角速度误差以及姿态角度误差积分，u_t为控制量，包括理论舵偏角，Q和R分别为类比LQR最优控制过程的Q矩阵和R矩阵，

为学习算法的折扣因子。

进一步地，所述飞行姿态控制方法还包括：

可通过调节Q矩阵和R矩阵来改变奖励回报单元输出的当前时刻奖励分值，保证系统状态和控制量均满足要求；

当连续完成预设次数的控制目标时给出额外的完成任务奖励，引导优先完成任务。

进一步地，所述对所述飞行姿态控制律进行学习，包括：

随机初始化评价用神经网络和控制用神经网络；

初始化经验回放池，开辟内存缓冲区，设置大小为n_R；

初始化探索环境，初始化随机噪声，之后循环进行数据采样和神经网络学习；

开展M次独立的试验，对所述飞行姿态控制律进行学习。

进一步地，所述开展M次独立的试验，对所述飞行姿态控制律进行学习，包括：

每次试验步骤如下：

a)提取初始化输入状态s₁；

b)若当前时刻t小于等于最大学习时长T，则执行步骤c)，否则结束本次试验，开展下一次试验；

c)根据初始化输入状态s₁利用控制用神经网络μ(s_t|θ^μ)产生t时刻动作为a_t＝μ(s_t|θ^μ)+N_t，N_t为t时刻的随机噪声用于增加学习样本的多样性，记N_init为初始时刻噪声大小，且N_t随着训练过程逐步变小，满足：

N_t＝0.995*N_t；

d)对得到的动作指令a_t进行动作限幅，并应用在探索环境上，根据模型特性积分得到当前时刻奖励r_t和下一时刻的状态s_t+1，且r_t满足

且若连续完成预设次数的控制目标，令r_t＝r_goal＝100；

记s_t[0]为状态向量s_t的第1个元素，则控制目标完成标志为：

e)将数据对(s_t，a_t，r_t，s_t+1)存储在经验回放池RP中，若经验回放池RP已存满n_R个数据对，则执行步骤f)开始学习，否则跳回步骤c)；

f)从经验回放池RP中随机采样N个数据对

g)令

按下式计算评价用神经网络损失：

h)使用Adam梯度下降优化算法更新评价用神经网络参数θ^Q，优化目标为使损失L最小，梯度下降的学习率为λ、

为学习算法的折扣因子，N为数据采样总数；

i)按下式计算采样数据对的梯度：

j)根据计算得到目标函数梯度

使用Adam梯度下降优化算法更新控制用神经网络参数θ^μ；

k)采用软更新方式，更新目标网络参数，即有：

进一步地，所述空速

相关分量通过如下公式得到：

其中，v_xd，v_yd，v_zd代表地面坐标系下速度，

为姿态角。

α＝tan^-1(u_zt，u_xt)，β＝sin^-1(u_yt，u)

步骤S2：根据所述探索环境输出的姿态角、姿态角速度，以及期望姿态角指令，构建所述飞行姿态控制律的学习所需的输入信号；所述输入信号包括姿态角误差、姿态角速度误差以及姿态角度误差积分。

如图2所示，针对飞行姿态控制律设计问题，通过传感器测量获得步骤S1中输出的姿态角

和姿态角速度ω_x，ω_y，ω_z，同时根据飞行器制导单元得到期望姿态角

则飞行姿态控制律t时刻的输入信号姿态角误差

姿态角速度误差

以及姿态角度误差积分

分别如下式所示：

则有，俯仰通道状态信号为

偏航通道状态信号为

滚转通道状态信号为

步骤S3：将从所述飞行姿态控制律得到的舵机理论输出指令输入至舵机限幅单元，获取所述舵机限幅单元的输出结果，并将所述输出结果输入至所述探索环境；所述输出结果包括对所述舵机理论输出指令进行动作幅值限幅和变化速率限幅，得到的限幅结果；所述舵机理论输出指令包括理论俯仰舵偏角、理论偏航舵偏角，以及理论滚转舵偏角。

进一步地，所述对所述舵机理论输出指令进行动作幅值限幅和变化速率限幅，得到的限幅结果，包括：

根据如下公式计算所述限幅结果：

对于动作幅值限幅：

对于变化速率限幅：

其中，k表示第k个控制周期，

为单位时间间隔。

可选为20°，

可选为-20°，

可选为165°/s。

将t时刻的输入状态信号送入飞行姿态控制律，即可得到t时刻的舵机理论输出指令，即理论俯仰舵偏角

理论偏航舵偏角a_ψ以及理论滚转舵偏角a_γ，即有

其中，

为训练学习得到的飞行姿态控制律，而为保证舵机能够正确响应控制指令，对控制指令进行动作幅值和变化速率的限幅，可参照上述说明。

步骤S4：构建奖励回报单元，所述奖励回报单元反馈所述探索环境的姿态角的当前时刻奖励至所述飞行姿态控制律，并通过最大化总奖励优化所述飞行姿态控制律的学习。

进一步地，所述构建奖励回报单元，包括：

当前时刻奖励通过如下二次型表示：

且有

其中，r_*t为在t时刻的当前时刻奖励，

为总奖励，*表示通配符，可通配

中的任意一个，

为学习算法的折扣因子。当前时刻奖励的设置决定了训练学习是否能够收敛，

来平衡当前时刻奖励r_*t和总奖励

进一步地，所述飞行姿态控制方法还包括：

当连续完成预设次数的控制目标时给出额外的完成任务奖励，引导优先完成任务。额外的完成任务奖励，例如可以为r_goal＝100。

步骤S5：对所述飞行姿态控制律进行学习，获取最终的飞行姿态控制律，基于所述飞行姿态控制律对飞行姿态进行控制。

飞行姿态控制律

需要经过训练学习才能完成相应的控制任务，如图3所示，给出了Actor-Critic式训练结构和训练方法。为方便描述，下面使用输入状态s和动作a代替s_*和a_*，

则训练过程可做如下具体说明：

进一步地，所述对所述飞行姿态控制律进行学习，包括：

随机初始化评价用神经网络和控制用神经网络；随机初始化评价用神经网络Q(s，a|θ^Q)，输入参数为状态s和动作指令a，输出为控制效果评分，网络参数为θ^Q，神经网络采样全连接网络，激活函数为非线性激活函数；

初始化控制用神经网络μ(s|θ^μ)，输入参数为状态s，输出为动作指令a，网络参数为θ^Q，神经网络采样全连接网络，激活函数为非线性激活函数；

同时，分别复制1个目标网络Q′(s，a|θ^Q)和μ′(s|θ^μ)，且初始权重满足θ^Q′←θ^Q，θ^μ′←θ^μ。

初始化经验回放池，开辟内存缓冲区，设置大小为n_R；

开展M次独立的试验，对所述飞行姿态控制律进行学习。

每次试验步骤如下：

a)提取初始化输入状态s₁；

b)若当前时刻t小于等于最大学习时长T，则执行步骤c)，否则结束本次试验，开展下一次试验；当前时刻的初始值可选为0，每次循环计算时进行累加，例如计算一次时当前时刻为10ms，与T进行比较，根据比较结果执行后续步骤；

再计算一次时当前时刻为20ms，与T进行比较，根据比较结果执行后续步骤；T可选为100s。

c)根据初始化输入状态s₁，s₁利用控制用神经网络μ(s_t|θ^μ)产生t时刻动作为a_t＝μ(s_t|θ^μ)+N_t，N_t为t时刻的随机噪声用于增加学习样本的多样性，记N_init为初始时刻噪声大小，且N_t随着训练过程逐步变小，满足：

N_t＝0.995*N_t；

且若连续完成预设次数的控制目标，令r_t＝r_goal＝100；

记s_t[0]为状态向量s_t的第1个元素，则控制目标完成标志为：

f)从经验回放池RP中随机采样N个数据对

g)令

按下式计算评价用神经网络损失：

为学习算法的折扣因子，N为数据采样总数；

i)按下式计算采样数据对的梯度：

j)根据计算得到目标函数梯度

使用Adam梯度下降优化算法更新控制用神经网络参数θ^μ；

k)采用软更新方式，更新目标网络参数，即有：

在完成飞行姿态控制律的学习之后，还可以进一步进行飞行姿态控制律的使用，控制用神经网络能够完成期望的控制任务，因此，提取控制用网络μ(s|θ^μ)并复制给相应的控制律网络

而在实际使用时，根据姿态角误差、姿态角速度误差以及姿态角度误差积分得到输入状态

s_ψ(k)，s_γ(k)，分别送入控制律网络

即可输出舵机理论输出指令

a_ψ，a_γ，之后经过动作限幅即得到实际使用的舵机控制指令，实现飞行器的端到端拟人化姿态控制。

结合具体实施例说明如下：

为验证本发明提出的拟人化端到端飞行姿态控制律设计方法的合理性以及所得到控制律的有效性，在Python环境下对其进行数值仿真。考虑到飞行器俯仰、偏航、滚转三个通道设计过程相同，下面以俯仰通道的设计过程为例，给出具体的实施例。

控制用神经网络和评价用神经网络的超参数设置分别如图4和图5所示，由于俯仰通道控制律输入状态维数为3，输出动作维数为1，采用双隐层各128个神经元的全连接网络作为控制用神经网络，非线性激活函数为tanh函数；而评价用神经网络的输入为4维，输出为1维，采用全连接网络结构，双隐层神经元数量分别设置为300个和128个，非线性激活函数为relu函数。

优选的，本发明中以俯仰角误差，角速度误差以及角度误差积分作为输入，动作为俯仰角偏转角，因此输入为3维，输出为1维。不失一般性，神经网络输入输出可以针对具体控制问题的输入维数和动作变量输出维数进行适应性改变，且前向全连接网络隐层神经元数量可根据控制任务复杂度适当调整。

此外，学习训练相关超参数设置如下表1所示，此部分超参数与学习效果相关，且对于同一类控制问题无需大幅调整。

表1本发明中学习相关超参数设置情况

本发明中根据LQR最优控制原则，针对俯仰通道姿态控制器设计奖设置励值QR阵如下所示：

可见采用正定加权形式，奖励为俯仰角跟踪误差、角速率误差以及动作幅值的加权和，而角度跟踪误差为首要考虑的因素。

此外，本发明实施例所用训练设备参数如下：

1)CPU为单块6核的

‘Intel(R)_Core(TM)_i7-8700K_CPU_@_3.70GHz’

2)GPU为2块‘NVIDIA GeForce GTX 1080Ti’卡，内存为2块‘KingstonKHX2400C15/16G’

3)训练框架为Python 3.7.1+Tensorflow 2.1.0

给定状态初始值为角度和角速率均为0，即

目标跟踪值角度和角速率分别设置为

经过约40次训练可以实现算法的收敛，实现预定的跟踪效果。而在在线使用时，如图6所示，最上方图的纵坐标phi为

中间图的纵坐标wy为ω_y，最下方图的纵坐标deltap为俯仰舵偏角

给定时变的跟踪目标，实现了高精度的跟踪控制效果，稳态误差快速收敛为0，所需的舵偏角平滑可行，即在未训练的目标跟踪值情况下具有良好的泛化效果和适应性。

本领域技术人员可以理解，实现上述实施例方法的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中。其中，所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种飞行姿态控制方法，其特征在于，包括：

构建飞行姿态控制律的学习所需的探索环境；

对所述飞行姿态控制律进行学习，获取最终的飞行姿态控制律，基于所述飞行姿态控制律对飞行姿态进行控制；所述探索环境在飞行器模型的模型系数中引入随机不确定性影响因子；相应的，所述模型系数包括气动力合力和气动力矩的合力矩，所述气动力合力和所述气动力矩的合力矩分别包括对应的气动力系数和气动力矩系数；所述气动力系数和气动力矩系数由如下7维插值计算得到：