CN115857525A

CN115857525A - 一种无人直升机时变增益自抗扰优化控制方法

Info

Publication number: CN115857525A
Application number: CN202211510054.3A
Authority: CN
Inventors: 阎坤; 陈超波; 高嵩; 马天力; 赵素平; 赵金泽
Original assignee: Xian Technological University
Current assignee: Xian Technological University
Priority date: 2022-11-29
Filing date: 2022-11-29
Publication date: 2023-03-28
Anticipated expiration: 2042-11-29
Also published as: CN115857525B

Abstract

本发明属于飞行器鲁棒优化控制技术领域，公开了一种无人直升机时变增益自抗扰优化控制方法。该方法包括以下步骤：1.针对无人直升机高度姿态复合系统中存在的干扰，设计时变增益扩张状态观测器对未知干扰进行估计；2.将无人直升机跟踪优化控制问题等效转换为优化镇定问题；3.结合自适应动态规划方法和神经网络技术设计最优飞行控制器，以保证无人直升机的性能满足预设的能量指标函数。本发明所提出的方法，不仅对传统固定增益扩张状态观测器性能进行了显著改进，而且能够保证无人直升机在能耗最小的情况下顺利完成飞行任务。

Description

一种无人直升机时变增益自抗扰优化控制方法

技术领域

本发明属于飞行器鲁棒优化控制技术领域，具体是一种无人直升机时变增益自抗扰优化控制方法。

背景技术

无人直升机具有隐蔽性好、慢速飞行、垂直上升下降等明显优势，因此被广泛应用于救灾搜寻、侦察监视、探查航拍等领域，在军事和民用方面都有着非常重要的实用价值。在军事方面，无人直升机可以进行对地攻击、中继通信、火力支援、敌情监测等；在民用商用中，无人直升机可以代替人力进行高难度危险的电力巡航，对受损或老化的设备进行替换；还可以清理高压电线上的漂浮物质、对海洋中的溺水者和船舶进行搜索并投入救生器材、新闻和影视航拍、快件运输等。因此对无人直升机进行研究具有深远的学术价值和现实意义。

无人直升机在飞行过程中不可避免地会受到外部干扰的影响。目前，已有相当量的文献对无人直升机展开了抗扰控制研究，其中最为常见的自抗扰控制技术。但是，传统的自抗扰技术是基于固定增益扩张状态观测器设计的，这导致观测器参数无法随着干扰的变化而变化。此外，固定增益扩张状态观测器还存在初始时刻增益过大导致系统计算量爆炸的问题。随着航天航天、自动化和人工智能等技术的飞速发展，现今人们已不满足于无人直升机单纯的完成任务，而是期望它能以某种最优的性能指标实现要求，如油耗最小、时间最短、速度最快等。因此，对传统固定增益自抗扰技术进行改进并设计无人直升机的最优控制器是现实的迫切需求。

发明内容

本发明的目的是提供一种无人直升机时变增益自抗扰优化控制方法，保证无人直升机在具有良好鲁棒性能的同时，能够以能耗最小的方式完成跟踪任务。

为实现上述目的，本发明的技术方案具体分为以下步骤：

1)首先，针对无人直升机高度姿态复合系统中存在的干扰，设计时变增益扩张状态观测器来对未知干扰进行实时估计；

2)其次，通过等效变换将无人直升机跟踪优化控制问题转换为优化镇定问题处理：

3)最后，基于自适应动态规划方法和单评价神经网络技术设计最优飞行控制器，所述最优飞行控制器包括最优虚拟反馈控制器和最优反馈控制器。

进一步的，上述步骤(1)所述的无人直升机高度姿态复合动力学模型为：

/>

其中，P_o＝[ρ,σ^T]^T表示高度和姿态混合向量，ρ和σ＝[φ,θ,ψ]^T分别表示无人直升机的垂直高度和姿态角向量，Σ＝diag{1,Γ(σ)}和Γ(σ)∈R^3×3是姿态运动学矩阵，Q_o＝[h,Ω^T]^T表示速度和角速度混合向量，h和Ω＝[p,q,r]^T分别是垂直速度和姿态角速度向量，

g是重力加速度，J₀＝diag{J_0x,J_0y,J_0z}为惯性矩阵，

m表示总质量，/>

是待设计的控制输入，F_u和T_u∈R³分别是作用在无人直升机上的力和力矩，D∈R⁴是未知干扰，y₀是系统输出。

进一步的，上述步骤(1)中，时变增益扩张状态观测器设计如下：

其中

和/>

分别表示P₀，Q₀和R_D的估计值，/>

表示P₀的估计误差，k₁＝diag{k₁₁,k₁₂,k₁₃,k₁₄}，k₂＝diag{k₂₁,k₂₂,k₂₃,k₂₄}，k₃＝diag{k₃₁,k₃₂,k₃₃,k₃₄}，k_ij(i＝1,2,3,j＝1,2,3,4)是设计的正常数，μ(t)是时变增益，其形式为：

其中μ₀和a为正常数。

进一步的，上述步骤(2)中，等效变换方法的具体步骤如下：选择候选Lyapunov函数如下所示

对V_o进行求导可得

其中*表示零矩阵，E_λ＝λ_max(E₁)，

从上式可以看出，如果设计的最优反馈控制器U_o能够使如下动态系统稳定

则可以确保(38)右侧第一项的稳定性；同时如果(N_NM-E_λ)＞0成立，整个闭环系统最终一致有界。

进一步的，上述步骤(3)中，提出虚拟控制律为：

其中Q_dfo是设计的前馈虚拟控制器，Q_dbo是设计的最优虚拟反馈控制器；

前馈虚拟控制器Q_dfo设计为

实际控制律u_u设计为

其中u_un是设计的前馈控制器，u_uo是设计的最优反馈控制器；

前馈控制器u_un设计为

其中

f^*＝f-f(Q_do)；

代价函数选取为：

其中

和/>

是选定的具有适当维数的正定矩阵；

针对代价函数(40)定义HJB方程为

其中

最优代价函数J^*(ξ)的估计为

其中

和/>

分别是J^*(ξ)以及S_a的估计；

最优控制器和HJB方程设计为

其中γ_e是残余误差。

进一步的，上述步骤(3)中，神经网络权值矩阵

的自适应更新律设计为：

其中Γ_s＞0是设计的正常数，χ₁和χ₂是设计的具有适当维数的参数矩阵，

υ_s＝μ_s/κ_s。

与现有技术相比，本发明带来的有益效果是：

(1)本发明所提出的时变增益自抗扰技术，解决了传统固定增益自抗扰技术存在的初始时刻计算量爆炸和观测器增益无法随时间变化的问题，提高了系统的瞬态性能；为了处理无人直升机高度姿态复合模型中的时变干扰，本发明采用时变参数设计了新型扩张状态观测器，并全面证明了任意时刻下系统均稳定，时变参数扩张状态观测器的性能优于固定不变参数的扩张状态观测器；

(2)本发明利用自适应动态规划技术和神经网络技术所设计的最优控制器，包含了最优虚拟反馈控制器和最优反馈控制器，解决了传统飞行控制设计中单纯完成跟踪任务的问题，而是能够保证无人直升机以能耗最小的代价完成飞行任务，大大提高了飞行性能；

(3)本发明所提出的设计方案，能同时兼顾无人直升机的抗扰能力和性能最优指标，更加符合实际任务背景。

附图说明

图1为本发明的系统控制流程图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图和实施例对本发明作进一步地详细描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明公开了一种无人直升机时变增益自抗扰优化控制方法。设计了新型时变增益自抗扰观测器，保证了无人直升机的瞬态性能；并将系统的最优跟踪控制问题等效转换为优化镇定问题，借助于自适应动态规划技术和神经网络技术，设计了最优控制器以实现能耗最小。

参见图1，在建立无人直升机高度姿态复合模型后，首先传感器会将采集到的系统输出信号送到时变增益扩张状态观测器和神经网络中；而后，采用自适应动态规划技术和神经网络的输出，设计虚拟最优反馈控制器；信号经处理后，与虚拟前馈控制器的输出联合设计虚拟控制律；同样地，采用自适应动态规划技术和神经网络的输出，设计最优反馈控制器；信号经处理后，与虚拟控制律、前馈控制器的输出联合设计实际控制律；最终，将该控制律用于解决无人直升机的最优跟踪控制问题。

实施例，一种无人直升机时变增益自抗扰优化控制方法，包括以下的具体步骤：

步骤(1)：针对无人直升机高度姿态复合系统中存在的干扰，设计时变增益扩张状态观测器来对未知外部干扰进行实时估计

步骤1.1建立受扰的无人直升机姿态高度混合模型

考虑到垂直起降的典型运动模态，受到干扰影响的无人直升机高度姿态组合非线性动力学模型可以表示为：

/>

其中P_o＝[ρ,σ^T]^T表示高度和姿态混合向量，ρ和σ＝[φ,θ,ψ]^T分别表示无人直升机的垂直高度和姿态角向量，Σ＝diag{1,Γ(σ)}和Γ(σ)∈R^3×3是姿态运动学矩阵，Q_o＝[h,Ω^T]^T表示速度和角速度混合向量，h和Ω＝[p,q,r]^T分别是垂直速度和姿态角速度向量，

J₀＝diag{J_0x,J_0y,J_0z}为惯性矩阵，g是重力加速度，m表示无人直升机的总质量，/>

表示待设计的控制输入向量，F_u和T_u∈R³分别是作用在无人直升机系统上的力和力矩，D∈R⁴是总的未知干扰，y₀是系统输出。

本发明的控制目标是设计自适应最优控制器，使得系统输出y_o围绕在期望信号P_do的附近，同时保证飞行过程能耗最小。为此下面列出一些必要的假设和引理：

假设1：假设未知扰动D及其一阶导数

是有界的。也就是说，存在正常数/>

和/>

使得/>

和/>

假设2：由于无人直升机的特殊旋翼结构，假设其姿态角在合理范围内变化。此外参考轨迹P_do及其导数是有界的。

引理1：采用神经网络逼近任何未知的光滑函数M(ε)，其形式为:

其中ε∈R^l是神经网络输入向量，

是M(ε)的估计；/>

表示最优权重矩阵且满足/>

是选定合适的基函数向量且满足K^T(ε)K(ε)≤K_m；/>

和K_m为正常数。因此，未知的光滑函数M(ε)可以进一步描述为：

其中

是逼近误差且满足/>

是正常数。

步骤1.2设计时变增益扩张状态观测器

首先将外部干扰D扩展为一个新的状态R_D，则受干扰无人直升机的非线性动力学(1)可以进一步描述为

其中D＝R_D。根据假设1，可以得出λ有界且

基于上述描述，新型时变增益扩张状态观测器构造如下：

其中

和/>

分别是P₀，Q₀和R_D的估计值，/>

是P₀的估计误差。k₁＝diag{k₁₁,k₁₂,k₁₃,k₁₄}，k₂＝diag{k₂₁,k₂₂,k₂₃,k₂₄}，k₃＝diag{k₃₁,k₃₂,k₃₃,k₃₄}，k_ij(i＝1,2,3,j＝1,2,3,4)是设计的正常数，μ(t)是时变增益，其形式为：

其中μ₀和a为正常数。

定义估计误差为

和/>

然后引用(4)和(5)得到：

为了便于分析，引入新的辅助变量β_i(i＝1,2,3)，由下式给出

因为时变增益μ(t)是分段函数，所以讨论分为两种情况。首先，当

成立，已知μ(t)＝μ₀。辅助变量β_i(i＝1,2,3)可以重写为

结合(7)-(10)并取β_i(i＝1,2,3)对时间求导可得

通过定义

可以得出

其中*表示零矩阵，R^4×4，I^4×4表示单位矩阵，B_k＝μ₀(∑-I_4×4)，

选择适当的参数k_ij以确保A_c是Hurwitz矩阵。也即存在正定矩阵M_c，使得

其中N_c是正定矩阵。

选择Lyapunov函数为

代入(15)并求V_β的导数得

其中||M_cB₁||≤C₁，||M_cB₂||≤C₂，C₁和C₂为正常数，N_N1＝λ_min(μ₀N_c-2C₁I_I-I_I)，I_I∈R^12×12是单位矩阵。

另一种情况是

成立，我们有μ(t)＝(1+a)^at。在这种情况下，考虑(7)-(10)并取β_i(i＝1,2,3)的时间导数

类似地，结合β的定义，可以给出

其中B_h＝μ(t)(Σ-I_4×4)，

现在，我们选择相同的候选Lyapunov函数(17)，它的时间导数变为

其中||M_cB₃||≤C₃，C₃＞0。

这里注意到μ(t)＝(1+a)^at是

的指数函数。由于1+a＞1始终成立，因此得出μ(t)是单调递增函数的结论。显然μ(t)的变化范围为μ(t)∈(1,μ_m)，其中/>

我们由此可以得到：

将(24)代入(23)可得

其中N_N2＝λ_min(N_c-2C₃I_I-I_I)。

综合结论(18)和(25)，得

其中N_NM＝max{N_N1,N_N2}。

步骤(2).通过等效变换方法将无人直升机跟踪优化控制问题转换为优化镇定问题

考虑到(1)，我们将跟踪误差定义为

其中P_do是期望的轨迹信号，Q_do是设计的虚拟控制器。

对e₁的时间求导

与传统的反步法相比，本发明提出的虚拟控制律如下

其中Q_dfo是设计的前馈虚拟控制律，Q_dbo是待设计最优虚拟反馈控制器。显然，如果我们让Q_dbo＝0，方程(30)将退化为标准的反步法控制结构。

首先，将前馈虚拟控制器Q_dfo设计为

将(30)和(31)代入(29)得到

对e₂的时间求导

然后，实际控制输入u_u表示为

其中u_un是设计的前馈控制器，u_uo是设计的最优反馈控制器。

前馈控制器u_un设计为

其中

f^*＝f-f(Q_do)。

利用(34)和(35)，方程(33)可以改写为

选择候选Lyapunov函数，如下所示：

考虑(26)、(32)和(36)并对V_o进行微分

其中E_λ＝λ_max(E₁)，

从(38)可以看出，如果设计的最优反馈控制器U_o可以使以下的动态系统稳定

则可以确保(38)右侧第一项的稳定性。同时如果(N_NM-E_λ)＞0成立，我们可以得出整个闭环系统最终一致有界的结论。这样原始的最优跟踪控制问题被转化为系统(39)的最优稳定问题。也即，通过这种等效变换方法将无人直升机的最优跟踪控制问题转换为系统镇定问题来处理。

步骤(3).基于自适应动态规划方法和单评价神经网络技术设计的最优飞行控制器，包括虚拟前馈控制器和最优反馈控制器的设计，以保证无人直升机的性能满足预设的能量指标函数。

结合动态系统(39)，选取代价函数：

其中

和/>

是选定的具有适当维数的正定矩阵。

定义1：考虑具有代价函数(40)的非线性误差系统(39)。如果控制律U_o能够同时保证误差系统(39)稳定和代价函数(40)的有界性，则U_o被称为(39)中的容许控制输入。同时所有的可容许的控制输入构成了一个可容许的集合

描述为/>

针对代价函数(40)，定义哈密尔顿方程为

其中

/>

根据最优解的存在条件

最优控制输入/>

使代价函数(40)最小

其中

J*(ξ)是当J^*(0)＝0时的最小代价函数。

通过设

并代入(42)，我们得到以下HJB方程

其中

由于HJB方程(43)是一个复杂的非线性偏微分方程，很难获得解析解。因此将神经网络技术与ADP方法相结合来克服这一困难。此外，给出如下假设：

假设3：对于误差系统(39)和相应的最优控制器

存在一个有界正定矩阵/>

以及正函数/>

使得

其中

和l(ξ)是选择的Lyapunov函数。

基于引理1，采用NN技术来近似最优代价函数J^*(ξ)，可以描述为

其中S_a∈R^l是理想权值向量，h_a(ξ)∈R^l表示NN的激励函数，

是近似误差。

对(46)求关于ξ的偏导数

其中

假设4：假设理想权值向量S_a，激励函数h_a(ξ)和近似误差

在紧集Λ_j上是范数有界的。同时假设h_a(ξ)和/>

的偏导数是范数有界的。也即存在正常数S_am1，h_am1，/>

h_am2和/>

使得||Sa||≤S_am1，||ha(ξ)||≤h_am1，/>

和

成立。

调用(47)，最优控制器(42)和相应的HJB方程(43)可以进一步改写为

其中

考虑到以下实际情况：

其中

根据假设3，注意到c_Λ是有界的。换句话说存在正的常数c_m，使得||c_Λ||≤c_m。

进而HJB方程(49)变为

其中

由于理想权值矩阵S_a未知，因此采用NN的方法来估计最优代价函数J^*(ξ):

其中

和/>

分别是J^*(ξ)和S_a的估计值。

考虑(52)，最优控制器(48)和HJB方程(51)的近似值可以表示为

其中γ_e是残余误差。

显然，如果神经网络的权值矩阵

能够被充分训练并以令人满意的方式近似于理想权值矩阵S_a，则可以得到最小化目标函数：

结合上述分析，设计

的自适应更新定律为：

/>

其中Γ_s＞0是设计的正常数，χ₁和χ₂是设计的具有适当维度的参数，

υ_s＝μ_s/κ_s。

定义

作为估计误差。引用(56)得

考虑(51)和(54)，我们得到

将(58)代入(57)得

通过定义

方程(59)可以进一步表示为

其中

这里可以选择合适的参数χ₁和χ₂，使得M_a是正定矩阵。同时基于上述分析，可以得出M_a和N_a的范数都是有界的。然后我们得到

其中ω₁＝λ_min(M_a)，

/>

下面对上述实施例的稳定性进行验证

上述控制器设计过程可以归纳为如下定理1的形式：

定理1：考虑包含扰动的无人直升机非线性动力学(1)满足假设1-3，设计时变增益扩张状态观测器为(5)，神经网络的权重更新律设计为(56)。采用包含前馈控制器(35)和最优反馈控制器(53)的控制输入(34)，闭环系统的所有误差信号最终都是一致有界的，并且代价函数(40)最小。

证明：选取Lyapunov函数为

其中l(ξ)的定义已在假设3中给出。本发明中，选择为

调用(38)和(61)，并取V_γ的时间导数，我们得到

结合(48)和(53)得到

考虑假设3-4并将(64)代入(63)，得到

其中

和/>

在此如果可以选择相应的参数，使得N_NM-E_λ＞0，

且

则可以得到

表示闭环系统的所有误差信号都是有界的。证明完成。

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。任何熟悉该技术的人在本发明所揭露的技术范围内的局部修改或替换，都应涵盖在本发明的包含范围之内。

Claims

1.一种无人直升机时变增益自抗扰优化控制方法，其特征在于：

(1)针对无人直升机高度姿态复合系统中存在的干扰，设计时变增益扩张状态观测器来对未知外部干扰进行实时估计；

(2)通过等效变换方法将无人直升机跟踪优化控制问题转换为优化镇定问题处理：

(3)基于自适应动态规划方法和单评价神经网络技术设计最优飞行控制器，所述最优飞行控制器包括最优虚拟反馈控制器和最优反馈控制器。

2.根据权利要求1所述的一种时变增益自抗扰优化控制方法，其特征在于，步骤(1)所述的无人直升机高度姿态复合动力学模型为：

g是重力加速度，J₀＝diag{J_0x,J_0y,J_0z}为惯性矩阵，

m表示总质量，/>

3.根据权利要求2所述的一种无人直升机时变增益自抗扰优化控制方法，其特征在于，步骤(1)中时变增益扩张状态观测器设计如下：

其中

和/>

分别表示P₀，Q₀和R_D的估计值，/>

其中μ₀和a为正常数。

4.根据权利要求1-3所述的一种无人直升机时变增益自抗扰优化控制方法，其特征在于，所述步骤(2)中，等效变换方法的具体步骤如下：

选择候选Lyapunov函数如下所示：

/>

对V_o进行求导可得

其中*表示零矩阵，E_λ＝λ_max(E₁)，

则可以确保(38)右侧第一项的稳定性；同时如果(N_NM-E_λ)＞0成立，我们可以得出整个闭环系统最终一致有界的结论。

5.根据权利要求4所述的一种无人直升机时变增益自抗扰优化控制方法，其特征在于，所述步骤(3)中，提出虚拟控制律为：

Q_do＝Q_dfo+Q_dbo (30)

前馈虚拟控制器Q_dfo设计为：

实际控制律u_u设计为：

u_u＝u_un+u_uo (34)

前馈控制器u_un设计为：

其中

f^*＝f-f(Q_do)；

代价函数选取为：

其中

和/>

是选定的具有适当维数的正定矩阵；

针对代价函数(40)定义HJB方程为：

/>

其中

最优代价函数J^*(ξ)的估计为：

其中

和/>

分别是J^*(ξ)以及S_a的估计；

最优控制器和HJB方程设计为

其中γ_e是残余误差。

6.根据权利要求5所述的一种无人直升机时变增益自抗扰优化控制方法，其特征在于，所述步骤(3)中，神经网络权值矩阵

的自适应更新律设计为：

υ_s＝μ_s/κ_s。/>