CN111650830A

CN111650830A - 一种基于迭代学习的四旋翼飞行器鲁棒跟踪控制方法

Info

Publication number: CN111650830A
Application number: CN202010428659.2A
Authority: CN
Inventors: 穆朝絮; 张勇; 孙长银
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-05-20
Filing date: 2020-05-20
Publication date: 2020-09-11

Abstract

本发明公开了一种基于迭代学习的四旋翼飞行器鲁棒跟踪控制方法，包括：对含有时变不确定性的四旋翼飞行器动态微分方程进行分析，建立位置、姿态跟踪误差子系统；获取姿态跟踪误差子系统的状态空间模型，定义位置跟踪误差子系统的耦合不确定性，建立位置跟踪误差子系统状态空间模型；考虑时变、耦合不确定性特性，针对位置跟踪误差子系统、姿态跟踪误差子系统的标称系统，建立考虑耦合不确定项的代价函数；基于代价函数，求解得到最优控制率；基于自适应动态规划方法，设计改进的神经网络权值更新规则，近似求解得到鲁棒跟踪控制器，实现基于迭代学习的近似最优跟踪控制。本发明解决了四旋翼飞行器系统在时变和耦合不确定下的鲁棒跟踪控制问题。

Description

一种基于迭代学习的四旋翼飞行器鲁棒跟踪控制方法

技术领域

本发明涉及四旋翼飞行器领域，尤其涉及一种基于迭代学习的四旋翼飞行器鲁棒跟踪控制方法。

背景技术

近年来，无人飞行器由于其广泛的应用前景，如无人巡逻、森林火灾探测、灾害救援等，受到了学界和商界的众多关注。其中，四旋翼飞行器是其中应用非常广泛的一种无人飞行器。四旋翼飞行器系统是一个欠驱动控制系统。基于结构的特殊性，四旋翼飞行器拥有六个自由度，但只有四个转子控制输入来进行控制，这也导致了系统动力学中存在强耦合特性，使得系统控制器设计较为困难。同时，外部风力干扰和内部电磁干扰的时变不确定性使得控制问题更加复杂。因此，四旋翼飞行器的飞行控制器需要拥有较强的自适应性和鲁棒性。

为了获得良好的控制性能，针对无人飞行器的飞行控制问题，已经有许多控制方案被提出，如比例积分微分(proportion integral derivative，PID)控制，线性二次调节器(linearquadratic regulator，LQR)，反步法(back-stepping)控制以及滑模控制(sliding mode control，SMC)等等。PID控制与LQR控制都是传统的线性控制方法，在面对四旋翼飞行器这个具有复杂非线性，以及时变与耦合不确定性的系统时，控制器参数调节整定或系统模型线性化则较为困难，对工况的适应能力较差。反步法控制和SMC控制都是相对先进的控制方法，对于不确定问题都具有较强的鲁棒性。这两种方法都具有较为完善的控制理论和结构，对于系统模型精度要求较高，且控制器具有较差的自适应性。

因此，迫切需要设计一个控制策略来降低时变与耦合不确定对于飞行控制的影响，在不确定存在的情况下，可以有效提高四旋翼飞行控制性能。

发明内容

本发明提供了一种基于迭代学习的四旋翼飞行器鲁棒跟踪控制方法，本发明解决了四旋翼飞行器系统在时变不确定和耦合不确定下的鲁棒跟踪控制问题，提出了一种改进的神经网络权值更新规则，放松对于初始稳定控制策略的要求，详见下文描述：

一种基于迭代学习的四旋翼飞行器鲁棒跟踪控制方法，所述方法包括：

1)针对含有时变不确定性的四旋翼飞行器动态微分方程进行分析，建立位置跟踪误差子系统、姿态跟踪误差子系统；

2)获取姿态跟踪误差子系统的状态空间模型，定义位置跟踪误差子系统的耦合不确定性，建立位置跟踪误差子系统状态空间模型；

3)考虑时变不确定性特性、耦合不确定性特性，针对位置跟踪误差子系统、姿态跟踪误差子系统的标称系统，建立考虑耦合不确定项的代价函数；基于代价函数，求解得到最优控制率；

4)基于自适应动态规划方法，设计改进的神经网络权值更新规则，近似求解得到鲁棒跟踪控制器，实现基于迭代学习的近似最优跟踪控制。

其中，定义位置跟踪误差子系统的耦合不确定性，建立所述位置跟踪误差子系统状态空间模型具体为：

其中，U₁(E₁(t))是待设计的鲁棒跟踪控制策略，f_σ′(t)是位置跟踪误差子系统的耦合项，d₁(t)为位置跟踪误差子系统的时变不确定性，f₁(E₁(t))为位置跟踪误差子系统动态，g₁(.)为控制增益矩阵；

其中，U₁'(t)表示虚拟策略，

反映了两个跟踪误差子系统间的耦合不确定性，U₁'(t)用于减小耦合不确定性对位置跟踪误差子系统的影响，m为四旋翼飞行器的质量，

为四旋翼飞行器位置与姿态状态的耦合矩阵，u_α(t)为四旋翼飞行器的升力，G为重力加速度矩阵。

进一步地，所述代价函数具体为：

其中，η是正实数，U_u(E_i(t),V_i(E_i(t)))为效用函数，‖D_m(E_cou)‖为系统扰动代价项；位置跟踪误差子系统和姿态跟踪误差子系统中，变量的下标分别对应i＝1和i＝2。

U_u(E_i(t),V_i(E_i))在均衡点处等于零：

‖D_m(E_cou)‖²＝‖f_σ′(t)‖

其中，Q_i和M_i为正定矩阵。

其中，所述最优控制率为：

其中，

为控制增益矩阵的转置，

为最优代价函数关于E_i的偏导数，E_i为跟踪误差状态变量。

进一步地，所述步骤4)具体为：

建立评价网络，推导得到哈密尔顿误差，其中包含耦合不确定性的影响，定义二次型误差函数；

设计改进的神经网络权值更新规则，放松对于初始稳定控制策略的要求。

其中，所述改进的神经网络权值更新规则具体为：

其中，

γ_ci，γ_si＞0,分别是评价网络主要学习率和辅助学习率，

为评价网络近似过程中引入的误差，

为最优权值矩阵的估计值，

为激活函数，E_i(t)为跟踪误差状态变量。

本发明提供的技术方案的有益效果是：

1)针对含有时变不确定性的四旋翼飞行器系统，通过模型等价变换，定义了系统耦合不确定性；将四旋翼飞行器跟踪误差系统分为拥有时变、耦合不确定的位置跟踪误差子系统，以及拥有时变不确定的姿态跟踪误差子系统，进而分别设计鲁棒控制策略，实现了两个子系统的解耦控制；

2)将ADP(自适应动态规划)方法应用到四旋翼飞行器系统跟踪控制问题中。针对神经网络的训练过程，创新性地设计了一种改进的权值更新规则，放松对于初始稳定控制策略的要求，有益于系统状态信息更加有效的利用，使得训练过程更加充分，实现了基于迭代学习的近似最优跟踪控制。

附图说明

图1为四旋翼飞行器物理结构图；

图2为四旋翼飞行器鲁棒跟踪控制结构流程图；

图3为评价神经网络权值收敛过程图；

图4为位置和姿态误差子系统随机风力扰动曲线图；

图5为空气阻尼系数随机波动曲线图；

图6为四旋翼飞行器跟踪误差状态曲线图；

图7为随机风力扰动下四旋翼飞行器控制信号图；

图8为随机风力扰动下耦合不确定性曲线图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

动态规划是一种处理非线性系统最优控制问题的经典策略。作为强化学习的一个重要分支，自适应动态规划(adaptive dynamic programming，ADP)基于神经网络、向量机、多项式等函数的近似能力，采用迭代算法逼近求解非线性系统的最优控制问题，避免了动态规划在非线性系统中的维数灾难问题。近年来，基于学习的自适应动态规划方法也被逐步应用于电网、机械臂、迷宫导航等领域。本发明实施例中采用ADP方法，设计了一种基于迭代学习的四旋翼飞行器鲁棒跟踪控制方法。

本发明实施例针对含有时变不确定性的四旋翼飞行器动态微分方程进行分析，建立四旋翼飞行器位置、姿态跟踪误差子系统。将四旋翼跟踪误差系统分为拥有时变、耦合不确定的位置误差子系统和拥有时变不确定的姿态误差子系统，采用最优控制方案分别设计鲁棒控制策略，其中ADP方法采用神经网络进行实现。针对神经网络的训练过程，创新性地设计了一种改进的权值更新规则，放松对于初始稳定控制策略的要求，有益于系统状态信息更加有效的利用，使得训练过程更加充分，实现了基于迭代学习的近似最优跟踪控制。

实施例1

一种基于迭代学习的四旋翼飞行器鲁棒跟踪控制方法，包括如下步骤：

步骤1)针对含有时变不确定性的四旋翼飞行器动态微分方程进行分析，建立四旋翼飞行器跟踪误差模型，包括位置跟踪误差子系统、姿态跟踪误差子系统；

步骤2)获取姿态跟踪误差子系统的状态空间模型，定义位置跟踪误差子系统的耦合不确定性，建立位置跟踪误差子系统状态空间模型；

步骤3)考虑时变不确定性特性、耦合不确定性特性，针对位置跟踪误差子系统、姿态跟踪误差子系统的标称系统，建立考虑耦合不确定项的代价函数；基于代价函数，求解得到最优控制率；

即将上述的最优控制率作为鲁棒跟踪控制器。

其中，标称系统指不考虑不确定性的系统，为本领域的专有术语，在此不做赘述。

步骤4)基于自适应动态规划方法，设计改进的神经网络权值更新规则，近似求解得到鲁棒跟踪控制器，实现基于迭代学习的近似最优跟踪控制。

在上述技术方案中，步骤1)进一步包括下述步骤：

(1-1)四旋翼飞行器的物理结构图如图1所示。四旋翼飞行器由四个高速转子带动螺旋桨提供向上的升力，可以分别表示为F_l(t)，l＝1,2,3,4，其中

是常系数，ω_l(t)代表转子转速。

表示参考坐标系，选取垂直向上的方向为z轴正方向

为机体坐标系，且设重心位置为机体坐标系的原点。在参考坐标系下，四旋翼飞行器的位置状态向量定义为ξ，且ξ＝[x,y,z]^T，姿态状态向量为

且

φ，θ和ψ分别代表四旋翼飞行器的横滚，俯仰和偏航姿态角。

为便于阅读，这里给出如下公式变量声明：形如变量a(t)，

表示变量a(t)的一阶导数，

表示变量a(t)的二阶导数；

表示函数▽F(t)关于变量a的偏导数；

表示a(t)属于实数集

形如矩阵A，A^T表示矩阵A的转置，

表示A为n维列向量，

表示A为m×n维矩阵；

表示函数F(t)在t到∞上的积分。

(1-2)基于以上定义，四旋翼飞行器的动力学模型可以如下表示：

其中，

表示四旋翼飞行器的质量，

表示实数集。

P为转动惯量。R₁＝[cosφsinθcosψ+sinφsinψ,cosφsinθsinψ-sinφcosψ,cosφcosθ]^T矩阵是关于四旋翼飞行器位置状态与姿态状态的耦合项。G＝[0,0,mg]^T，g是重力加速度。

R₂＝diag[l,l,c]是常值转矩矩阵，l表示每个螺旋桨转子的升力臂，c是力矩系数。

K₁＝diag[k₁,k₂,k₃]和K₂＝diag[k₄l,k₅l,k₆]分别是针对平移和旋转运动的空气阻尼系数矩阵，其中k₁,,k₆是阻尼系数。ε₁(t)＝[ε_x(t),ε_y(t),ε_z(t)]^T和ε₂(t)＝[ε_φ(t),ε_θ(t),ε_ψ(t)]^T分别表示平移和旋转运动中的有界时变信号。

为四旋翼飞行器的升力。U₂(t)＝[u_φ,u_θ,u_ψ]^T是与旋转运动横滚，俯仰和偏航角度相关的控制信号。

(1-3)考虑实际飞行控制，提出的控制策略应该通过控制四个转子的转速来控制四旋翼飞行器。通过设计基于学习的鲁棒跟踪控制策略U₁(E₁)＝[u_x,u_y,u_z]^T和U₂(E₂)＝[u_φ,u_θ,u_ψ]^T，可以求解下面的方程(2)，进而得到四个转子在实际控制中需要提供的升力F_l(t),＝1,2,3,4。通过关系式F_l(t)＝β_lω_l(t)，可以进一步得到实际飞行中四个转子需要的转速ω_l(t)。

其中，u_α(t)可以通过下面的公式(7)求出，u_φ，u_θ和u_ψ通过设计鲁棒控制策略U₂(E₂)得到。因此，四旋翼飞行器飞行控制中，可以通过求解跟踪误差子系统鲁棒控制策略来计算得到期望转子转速。

在上述技术方案中，步骤2)进一步包括下述步骤：

(2-1)分别设置位置子系统和姿态子系统的参考状态ξ_d＝[x_d,y_d,z_d]^T和

进而，有如下定义：

其中，e₁(t)和e₂(t)分别表示位置子系统的位置误差和位置误差导数，e₃(t)和e₄(t)分别表示姿态子系统的姿态误差和姿态误差导数。e_x和

表示x方向位置误差和位置误差导数，同理e_y和

e_z和

e_φ和

表示横滚姿态误差和横滚姿态误差导数，同理e_θ和

e_ψ和

因此，结合公式(1)和(3)，系统的跟踪误差模型可以有如下表示：

(2-2)进而，结合公式(4)和(5)，四旋翼飞行器跟踪控制问题已经转化为跟踪误差子系统的镇定控制问题。公式(4)中，定义

体现位置跟踪误差子系统的耦合不确定性，U₁(t)＝[μ₁(t),μ₂(t),μ₃(t)]^T为虚拟控制变量：

通过反解上式，控制率u_α(t)和目标姿态角度φ_d(t)，θ_d(t)可以被求解：

需要注意的是：在公式(7)中，虚拟控制策略U₁(t)＝[μ₁(t),μ₂(t),μ₃(t)]^T会被提出的鲁棒跟踪控制策略U₁(E₁)＝[u_x,u_y,u_z]^T取代，即令U₁(t)＝U₁(E₁)。

基于步骤3)中的鲁棒跟踪控制律U₁(E₁)，进一步可以得到控制策略中的u_α(t)，φ_d(t)和θ_d(t)。接下来，将主要针对系统位置和姿态状态的跟踪控制问题而展开，具体涉及跟踪误差系统的时变不确定性与耦合不确定性的处理。

(2-3)时变不确定性：通过忽略位置子系统中的耦合不确定f_σ(t)，四旋翼飞行器的位置跟踪误差子系统可以表示为：

其中

其中，0_3×3表示3×3零矩阵，I_3×3表示3×3单位矩阵。基于公式(5)，姿态跟踪误差子系统可以表示为：

其中

U₁(E₁)＝[u_x,u_y,u_z]^T和U₂(E₂)＝[u_φ,u_θ,u_ψ]^T是待设计的基于迭代学习的鲁棒跟踪控制策略。ε₁(t)和ε₂(t)是时变不确定信号，因此，分别定义d₁(t)和d₂(t)为位置和姿态跟踪误差子系统的时变不确定性。位置参考状态ξ_d满足

和

姿态参考状态

满足

和

因此，d₁(t)和d₂(t)可以分别简化为d₁(t)＝1/m·ε₁(t)和d₂(t)＝P^-1ε₂(t)。

(2-4)耦合不确定性：对于位置跟踪误差子系统中耦合不确定性的考虑，结合公式(4)和(5)，位置和姿态跟踪误差子系统可以表示为如下形式：

其中，U₁(E₁(t))和U₂(E₂(t))是待设计的鲁棒跟踪控制策略。为了反应设计的鲁棒控制策略对于系统响应和耦合项的影响，f_σ′(t)在公式(10)中进行了定义。

是位置跟踪误差子系统的耦合项。

公式(7)中令U₁(t)＝[μ₁(t),μ₂(t),μ₃(t)]^T＝U₁(E₁(t))，可以得到u_α(t)，φ_d(t)和θ_d(t)，进一步，U₁'(t)表示虚拟策略，可以基于公式(6)得到。这里，

反映了两个跟踪误差子系统间的耦合不确定性，U₁'(t)用于减小耦合不确定性对位置跟踪误差子系统的影响。

本发明对于时变不确定性d₁(t)和d₂(t)，以及表示系统耦合不确定性的耦合项

在系统建模中进行了考虑。U₁'(t)是与飞行控制过程中的期望转角[φ_d,θ_d,ψ_d]^T相关并基于公式(6)计算得出的，而U₁(E₁(t))将在步骤3)中进行详细设计。

在上述技术方案中，步骤3)进一步包括下述步骤：

(3-1)针对四旋翼飞行器中的时变不确定以及耦合不确定问题，定义位置、姿态跟踪误差子系统的标称系统，设计鲁棒跟踪控制策略。为了便于分析设计，考虑时变、耦合不确定性的四旋翼飞行器的动态模型如下：

结合公式(10)和(11)，公式(12)表示原始的位置和姿态跟踪误差子系统，下标分别为1和2。进一步，标称跟踪误差系统可以表示为：

假设系统(13)在一个紧凑集中是利普希茨连续的，

V_i(E_i(t))表示标称跟踪误差系统的反馈控制率。

(3-2)通过对于四旋翼飞行器的模型动态进行分析，可知模型中的时变不确定可视作系统的匹配型不确定性。两个跟踪误差子系统对于耦合不确定性的处理不同，耦合不确定性仅存在与位置跟踪误差子系统之中。而耦合问题也表示了四旋翼飞行器姿态角度对于位置状态的动态影响，为了在控制策略中体现两个子系统的耦合作用，在代价函数单独设计出此项。因此，定义代价函数为：

其中，η是正常数，U_u(E_i(t),V_i(E_i(t)))为效用函数，‖D_m(E_cou)‖为系统扰动代价项，与耦合不确定性相关。

为了简化公式描述，在下面的公式推导中，变量J_i(E_i(t))和V_i(E_i(t))中的时间变量t被省略了。效用函数U_u(E_i(t),V_i(E_i))在均衡点处等于零，并且定义为：

其中，Q_i和M_i为适当维数的正定矩阵。‖D_m(E_cou)‖²可以通过下式计算：

‖D_m(E_cou)‖²＝‖f_σ′(t)‖ (16)

需要注意的是，‖D_m(E_cou)‖²只与系统的耦合不确定性相关。因此，在姿态跟踪误差子系统的代价函数中，需要设‖D_m(E_cou)‖＝0。

(3-3)公式(13)-(16)描述了标称跟踪误差子系统的最优控制问题。可以看出，新定义的代价函数(14)包括扰动代价，即与耦合不确定相关的项。基于代价函数(14)，对标称跟踪误差系统(13)设计最优跟踪控制率V₁(E₁)＝[v_x(t),v_y(t),v_z(t)]^T和V₂(E₂)＝[v_φ(t),v_θ(t),v_ψ(t)]^T，且该最优控制率为容许控制。对于连续可微的代价函数(14)，哈密尔顿方程如下：

其中，J_i(0)＝0，

最优代价函数可以表示为：

其中，Ω_c为容许控制策略的集合。

表示在条件V_i∈Ω_c下，后面函数可以得到的最小值。基于贝尔曼最优性定理，最优代价函数可以最小化HJB方程，即：

其中，

可以推导出系统最优控制率：

(3-4)进一步，将最优控制率带入公式(19)可得修正的HJB方程如下：

标称误差系统(13)的最优控制率

可以用于控制原始跟踪误差系统(12)。

在上述技术方案中，步骤4)进一步包括下述步骤：

(4-1)为了避免求解非线性偏微分方程(21)，本发明基于策略迭代算法，近似求解最优控制策略。进一步，提出一种改进的神经网络权值更新规则，实现对于系统状态信息更加有效的利用，放松了对于初始稳定控制策略的要求。

基于ADP的策略迭代算法，给出如下算法流程：

算法1：近似求解HJB方程的策略迭代算法

a：初始化算法迭代步数n＝0，令

定义是一个足够小的正常数

作为算法停止的判断条件。设定为最大迭代时间T_end。算法开始于容许控制策略

b：将第n步的控制策略

带入公式(22)，其中

进而，可以得到：

c：更新控制率

d：如果算法迭代满足条件

或者到达最大迭代时间T_end，停止算法迭代。否则，令n＝n+1，算法返回b继续迭代。

这里对于算法的收敛性不再证明。当n→∞时，可以认为

和

的近似值分别收敛到最优控制率

和最优代价函数

(4-2)下面以策略迭代算法为基础，基于单网络自适应评价结构，应用神经网络近似求解最优控制器。以下为具体实现流程：

为了近似位置和姿态跟踪误差子系统的最优代价函数，设计两个单隐层评价网络。系统误差状态E_i(t),i＝1,2分别作为两个评价网络的输入。基于公式(8)和(9)，可知四旋翼飞行器在x，y，z和φ，θ，ψ方向上是相互解耦的。由于误差状态E_i(t),i＝1,2分别对应两个跟踪误差子系统的状态e_x(t)，e_y(t)，e_z(t)和e_φ(t)，e_θ(t)，e_ψ(t)，因此，建立评价网络

用于近似最优代价函数。最优代价函数

可以表示为如下形式：

其中，

是评价网络隐藏层到输出层的最优权值矩阵，ι是隐藏层中神经元个数，

是激活函数，∈(E_i),i＝1,2表示神经网络重构误差。

对于误差状态E_i(t)的偏导数为：

将

带入公式(17)

表示神经网络近似过程中的残差项。

进而，定义哈密尔顿误差τ_i(t),i＝1,2

(4-3)评价网络被用于近似

并输出

则近似代价函数可以表示为：

其中

是最优权值矩阵w_ci,i＝1,2的估计值。

的偏导数为：

进一步，将

带入公式(17)可以得到估计哈密尔顿方程：

其中，

是近似最优跟踪控制。

是评价网络近似过程中引入的误差，该误差被用于更新神经网络权值，基于

定义二次型误差函数Γ_i(t)：

(4-4)以公式(31)最小为目标，此处设计了一个改进的神经网络权值更新规则。权值估计向量

基于如下规则更新：

其中，

γ_ci，γ_si＞0,i＝1,2分别是评价网络主要学习率和辅助学习率。

公式(32)中，第一项是基于公式(31)推导而来。进而，对于策略迭代算法，如果神经网络权值没有选取合适的初始值，将会影响训练过程结果的有效性甚至造成训练过程发散的状况。通过分析得知，神经网络权值调整的过程非常依赖权值初始取值大小，这一定程度上弱化了系统状态在神经网络训练过程的作用，减小了算法本身的自适应性。因此，公式(32)中的第二项用于强化系统状态在权值训练过程的重要性，增强神经网络对于系统状态变化的敏感性，提高算法的自适应性能，使训练过程更加充分。

进而，基于神经网络权值更新规则(32)，将公式(29)带入(20)中，有近似最优跟踪控制策略：

近似最优跟踪控制策略(33)可以更新估计误差

计算Γ_i(t),i＝1,2，进而得到新的权值

于是，可以更新评价网络输出

以及新的跟踪控制策略

至此，对于四旋翼飞行器系统时变和耦合不确定性问题，设计了基于迭代学习的鲁棒跟踪控制策略。图2中给出了详细的鲁棒控制结构流程图。

实施例2

为使本领域技术人员更好的理解本发明，下面结合具体实施例，对基于迭代学习的四旋翼飞行器鲁棒跟踪控制方法进行详细说明。

四旋翼飞行器系统主要参数如下给出：转动惯量p₁＝p₂＝0.16N·m，p₃＝0.32N·m；力臂长度l＝0.4m；力矩系数c＝0.05m；四旋翼飞行器质量m＝2.33kg；重力加速度g＝9.8m·s²。k_i,i＝1,,6表示空气阻尼系数，并且满足0.007≤k₁,k₂,k₃≤0.013和0.0084≤k₄,k₅,k₆≤0.0156。

空气阻尼系数的标称值设为k₁＝k₂＝k₃＝0.01和k₄＝k₅＝k₆＝0.012。由于四旋翼飞行器在位置子系统中x-，y-，z-方向是相互解耦的，因此，可以对位置跟踪误差子系统中状态顺序进行调节，得到

实现其在三个方向上的解耦表示，且误差系统原本的响应特性没有因此受到影响。同理，对于姿态跟踪误差子系统，在φ-，θ-，ψ-方向也是相互解耦的，同样可以进行类似变换得到：

基于四旋翼飞行器动态模型(8)和(9)，系统动态中的f_i(E_i)和g_i可以表示为：

基于公式(18)，最优代价函数可以表示为：

其中，Q₁＝1.2I，M₁＝1.4I，Q₂＝1.7I和M₂＝1.9I分别是位置和姿态跟踪误差子系统的正定矩阵，I为对应维数的单位矩阵。鲁棒最优控制策略基于公式(33)得到。

在算法训练过程中，评价神经网络均选取输入层6个神经元，隐藏层9个神经元，输出层3个神经元的网络结构。对于位置跟踪误差子系统，x-方向的激活函数设计为

各项系数为通过实验分析改进得到的。进而，对于y-和z-方向的激活函数

和

都可以得到。对于位置跟踪误差子系统，激活函数表示为如下形式：

对于姿态跟踪误差子系统，φ-方向的激活函数设计为

则θ-和ψ-方向的激活函数

和

也可以得到类似的表示形式。对于姿态跟踪误差子系统，激活函数可以表示为：

系统初始状态分别设为

和

评价神经网络权值设为

并基于公式(32)进行更新。神经网络主要学习率分别为γ_c1＝0.45和γ_c2＝0.5，辅助学习率分别为γ_s1＝0.1和γ_s2＝0.12。最后，位置与姿态跟踪误差子系统权值分别收敛于稳定值，图3中给出了位置和姿态跟踪误差子系统中x-和φ-方向的权值收敛过程作为示例。基于公式(33)，可以得到近似最优跟踪控制策略。

实施例中研究了四旋翼飞行器在风力干扰影响下，所提出方法的控制性能。如图4所示，在控制过程中加入了随机扰动模拟风力扰动。图5中，平移和旋转运动的空气阻尼系数在风的影响下也会发生很大的变化，这与参数不确定性相关。实施例中，位置子系统耦合不确定性将在测试结果中有所体现。

测试过程中，令四旋翼飞行器从初始位置[x,y,z]＝[0,0,0]米移动到参考位置[1.5,2.5,3]，[2.5,0.5,1.5]，[0.5,3.5,4.5]，[3,5.5,2]和[0,6.5,3.5]米。具体状态跟踪过程见图6，四旋翼飞行器在考虑随机风力扰动和空气阻尼系数不确定的同时，仍然可以快速稳定地跟踪参考状态，且位置和姿态跟踪误差状态均可以收敛到很小的范围。两个子系统的控制信号如图7所示。图8显示了测试过程中始终存在的耦合不确定性。

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。