CN107563044A

CN107563044A - 基于在线安全学习的四旋翼无人机路径跟踪控制方法

Info

Publication number: CN107563044A
Application number: CN201710758952.3A
Authority: CN
Inventors: 杨艳华; 程欢; 柴利
Original assignee: Wuhan University of Science and Engineering WUSE
Current assignee: Wuhan University of Science and Engineering WUSE; Wuhan University of Science and Technology WHUST
Priority date: 2017-08-29
Filing date: 2017-08-29
Publication date: 2018-01-09
Anticipated expiration: 2037-08-29
Also published as: CN107563044B

Abstract

本发明涉及一种基于在线安全学习的四旋翼无人机路径跟踪控制方法。其技术方案是，首先建立四旋翼无人机名义模型根据残差g(X,U)的数据得到学习模型再采用四旋翼无人机在线实时避障的概率约束条件实现在线避障，然后将控制系统状态安全域

Description

基于在线安全学习的四旋翼无人机路径跟踪控制方法

技术领域

本发明属于旋翼无人机路径跟踪控制技术领域。具体涉及一种基于在线安全学习的四旋翼无人机路径跟踪控制方法。

背景技术

随着机器人和航天航空技术的不断发展，无人机的研究得到了越来越多的关注。四旋翼无人机作为一种典型的无人飞行器，拥有四个驱动电机，可以通过控制四个电机的转速来调整飞行器的飞行姿态和位置。正由于其结构小巧、成本低廉、使用起来安全灵活，因此在环境监测、抗灾救援、军事侦察等领域具有十分广阔的应用前景。

由于四旋翼无人机具有六个自由度，多于控制量的个数，是一个典型的欠驱动控制系统。此外，四旋翼无人机模型还具有非线性、强耦合、不精确等特点。以上特点均给四旋翼无人机的控制带来了巨大的困难。

为了使这种无人机能够灵活地飞行并完成期望的飞行任务，研究者们对四旋翼无人机的控制问题提出了多种方法，包括PID、、模型预测控制、反演控制、滑模控制、反馈线性化等。以上控制方法通常需要联合其它鲁棒控制方法，以自适应或优化的方式调整模型参数或控制器参数，才能在一定程度上应对系统存在的不确定性问题。引入的参数调节方法存在过程繁琐、效率低下、缺少最优性、易陷入局部极小、控制误差较大等各种各样的问题。采用学习的方法可以在线获得参数，但是单纯的学习方法又无法保证系统的稳定性。虽然模型预测控制方法固有的滚动优化策略和处理约束的能力在四旋翼无人机控制上具有一定的优势，但是该方法必须依赖一个比较可靠的动力学模型。而现有的鲁棒控制方法在解决不确定性问题时，通常在给定不确定界的前提下设计控制器，不可避免地带来了保守性，甚至造成方法不实用，也不能保证四旋翼无人机对安全性能严格的要求。

发明内容

本发明旨在克服现有技术缺陷，目的在于提供一种基于在线安全学习的四旋翼无人机路径跟踪控制方法，该方法鲁棒性好、响应性强、稳定性高、跟踪性能优异和安全性优良。

为实现上述目的，本发明采用的技术方案是：

步骤1、四旋翼无人机名义模型的建立

构建四旋翼无人机机体坐标系，所述机体坐标系是：以北为坐标系x轴的正方向，以东为坐标系y轴的正方向，以地为坐标系z轴的正方向。

建立四旋翼无人机的名义模型

式(1)中：φ表示四旋翼无人机的滚转角，rad；

表示四旋翼无人机的滚转角加速度，rad/s；

θ表示四旋翼无人机的俯仰角，rad；

表示四旋翼无人机的俯仰角加速度，rad/s；

ψ表示四旋翼无人机的偏航角，rad；

表示四旋翼无人机的偏航角角速度，rad/s；

z表示四旋翼无人机在z轴的位置，m；

表示四旋翼无人机z轴方向的线速度，m/s；

x表示四旋翼无人机在x轴的位置，m；

表示四旋翼无人机x轴方向的线速度，m/s；

y表示四旋翼无人机在y轴的位置，m；

表示四旋翼无人机y轴方向的线速度，m/s；

X表示四旋翼无人机12维的状态向量；

U表示虚拟控制量，U＝[U₁ U₂ U₃ U₄]；

U₁表示通道z的控制量；

U₂表示通道φ的控制量；

U₃表示通道θ的控制量；

U₄表示通道ψ的控制量；

m表示四旋翼无人机的质量，kg；

g表示重力加速度常量，9.8m/s²。

步骤2、四旋翼无人机的学习模型

假设在k时刻，传感器测得的四旋翼无人机实际状态根据k-1时刻的状态和k时刻的状态得到状态微分再将状态微分与k时刻名义模型的值相减，得到k时刻残差g(X(k),U(k))

式(2)中：表示k时刻的状态微分；

表示k时刻的名义模型。

随着时间t的增加，得到N个残差g(X,U)的数据。

然后，利用所述N个残差g(X,U)的数据，得到学习模型对四旋翼无人机的12个状态分别建立相应的高斯过程学习模型X_l表示状态向量X的第l个变量，l＝1,2,…，12，学习模型

定义状态向量X的第l个学习样本结构s_l＝[X_l,U]，l＝1,2,…，12，取M个时刻(200～1000)个样本，则i时刻状态向量X的第l个样本为g_l(s_li)，i＝1,2,…,M，l＝1,2,…,12，j时刻状态向量X的第l个样本为g_l(s_lj)，j＝1,2,…,M，l＝1,2,…,12；假设样本的数据均值为0，i时刻状态向量X的第l个样本g_l(s_li)和j时刻状态向量X的第l个样本g_l(s_lj)的协方差为：

式(3)中：σ_lω表示测量噪声标准差；

σ² _lω表示测量噪声方差；

σ_lη表示过程噪声标准差；

σ² _lη表示过程噪声方差；

M_l表示对角矩阵，l＝1,2,…，12；

s_li表示i时刻状态向量X的第l个样本，i＝1,2,…,M，l＝1,2,…,12；

s_lj表示j时刻状态向量X的第l个样本，j＝1,2,…,M，l＝1,2,…,12；

δ_lab表示测量噪声方差系数，l＝1,2,…,12；

采用梯度法求取最大似然，获得测量噪声标准差σ_lω、过程噪声标准差σ_lη和对角矩证M_l；对于下一时刻的样本s^*，学习模型的预测参数为。

式(4)中：K表示N行N列矩阵；

k(s_i,s_j)表示i时刻样本和j时刻样本的协方差，i＝1,2,…,M，j＝1,2,…,M；

K_(i,j)表示矩阵第i行第j列的值,K_(i,j)＝k(s_i,s_j),i＝1,2,…,M，j＝1,2,…,M，k(s*,s*)表示下一时刻的样本s^*的方差；

k(s*)表示下一时刻的样本s^*与之前M个时刻样本分别的协方差，k(s*)＝[k(s*,s₁),...,k(s*,s_M)]；

μ(s*)表示学习模型的预测值；

σ²(s*)表示学习模型更新的协方差值。

步骤3、学习模型在线更新

在所述第l个学习模型的基础上，l＝1,2,…,12，依据置信度3σ(s_l)建立第l个学习模型的估计的扰动集合

式(5)中：表示第l个学习模型的估计的扰动集合，R^m表示m维空间；

表示第l个学习模型期望值，l＝1,2,…,12；3σ(s_l)表示置信度，l＝1,2,…,12。

然后，采用下述判别函数λ(s_l)，判断第l个学习模型的准确性

式(6)中：表示第l个学习模型的估计的扰动集合，R^m表示m维空间；

表示第l个估计的扰动集的补集，

g(s_l)表示第l个残差，l＝1,2,…,12；

δ表示估计扰动集里任一点；

dist表示有符号距离函数，定义为：对于给定的Rⁿ上的范数||.||，x∈Rⁿ到的符号距离为

式(7)中：Rⁿ表示n维空间；

A表示第l个估计的扰动集的补集

x表示第l个残差g(s_l)中的一点，l＝1,2,…,12；

y表示A内的任一点；

x-y表示第l个残差g(s_l)中的一点x与A内任一点y的差。

当判别函数λ(s_l)∈[0,1]时，实际的第l个残差gl(s_l)在估计的扰动集内,l＝1,2,…,12，设定经验阈值λ_L∈(0,1)，当判别函数λ(s_l)＞λ_L时，当前第l个学习模型较为精确，不用更新；否则重复步骤2和步骤3更新学习模型

步骤4、在线学习的四旋翼无人机跟踪控制方法

步骤4.1、四旋翼无人机在线实时避障的概率约束条件

对于预测时域N，假设四旋翼无人机实际状态服从正态分布：

式(8)中：表示期望为和方差为P(k+j)的正态分布；

表示k+j时刻四旋翼无人机的预测状态，j＝0,1,2,…,N；

P(k+j)表示k+j时刻四旋翼无人机状态不确定性的方差，j＝0,1,2,…,N。

设障碍物位置估计的不确定性w～N(0,Z)，则障碍物集合：

式(9)中：O_i表示环境中的障碍物；

R³表示3维空间；

Z表示四旋翼无人机位置估计不确定性的方差；

N(0,Z)表示期望为0和方差为Z的正态分布。

若四旋翼无人机的位置为p(k)，定义四旋翼无人机占据的空间为采用高斯分布描述四旋翼无人机位置的不确定性，则四旋翼无人机和障碍物的碰撞概率小于给定值P_h的约束条件为

式(10)中：表示期望为和方差为P_c(k+j)+Z的正态分布；

R(p(k+j))表示k+j时刻四旋翼无人机占据的空间，j＝0,1,2,…,N；

O表示障碍物集合；

表示k+j时刻四旋翼无人机估计的位置；

P_c(k+j)表示k+j时刻四旋翼无人机估计位置不确定性的方差；

Z表示障碍物位置估计不确定性的方差。

步骤4.2、四旋翼无人机状态安全域约束方法

假设四旋翼无人机状态约束集为Φ、控制输入约束为Γ和一个较为保守的域Ω，使得残差g(X,U)∈Ω；根据估计的扰动集合得到四旋翼无人机的安全域可达条件V(m)＞0和四旋翼无人机的安全域

式(11)中：Rⁿ表示n维空间；

m表示四旋翼无人机的状态；

表示第l个学习模型的估计的扰动集合，l＝1,2,…,12。

当四旋翼无人机状态满足安全域可达条件V(m)＞0且判别函数λ(s_l)＞λ_L时，安全域采用并且以完整动力学模型的预测状态作为状态约束；当四旋翼无人机状态不满足安全域可达条件V(m)＞0或判别函数λ(s_l)≤λ_L时，安全域依赖名义模型构建，根据名义模型得到预测状态将作为状态约束。

步骤4.3、非线性模型预测控制器的设计

首先采用扩展卡尔曼滤波方法估计四旋翼无人机的状态，然后将所述四旋翼无人机名义模型分为四旋翼无人机位置动力学模型和四旋翼无人机姿态动力学模型，分别采用反馈线性化方法获得线性模型，最后针对线性模型在相应的约束条件下设计模型预测控制器。

考虑四旋翼无人机的位置，在满足姿态约束、在线避障约束和安全域约束的条件下，将四旋翼无人机巡检的自主控制转化为二次优化

式(12)中：N表示预测时域；

i表示四旋翼无人机位置动力子系统、四旋翼无人机姿态子系统中任一个；

Q表示y_i(k+j)-y_ir(k+j)的误差权矩阵；

R表示v_i(k+j-1)的控制权矩阵；

S表示y_i(k+N)-y_ir(k+N)的误差权矩阵；

y_i(k+j)表示四旋翼无人机在k+j时刻的预测值；

y_ir(k+j)表示四旋翼无人机在k+j时刻的参考值；

y_i(k+N)表示四旋翼无人机在k+j时刻的预测值；

y_ir(k+N)表示四旋翼无人机在k+j时刻的参考值；

y_i(k+j)-y_ir(k+j)表示四旋翼无人机在k+j时刻预测值与参考值的差；

y_i(k+N)-y_ir(k+N)表示四旋翼无人机在k+N时刻预测值与参考值的差；

v_i(k+j-1)表示四旋翼无人机在k+j-1时刻的控制量。

当安全域满足安全域可达条件V(m)＞0且学习模型满足步骤2和步骤3时，采用学习模型和最大安全域作为状态的约束条件，当安全域可达条件V(m)＞0不成立或学习模型不满足步骤2和步骤3时，则采用预先设定的较为保守的安全域和名义模型的状态作为约束条件。

由于采用上述技术方案，本发明具有如下积极效果：

本发明通过采用高斯过程回归，建立四旋翼无人机的在线学习模型，以改善现有方法解决不确定性问题能力的不足，而四旋翼无人机的名义模型则直接采用非线性模型，构建非线性模型预测控制器，采用二次优化方法保证四旋翼无人机的稳定性。根据学习所得的模型，采用滚动优化策略设计非线性模型预测控制器，同时采用概率约束方法实现在线避障，并且将四旋翼无人机安全性融入学习过程，在线计算安全域保证四旋翼无人机安全性，提高跟踪性能。本发明能够在线获得环境参数，自主适应巡检环境的变化，能显著提高控制系统的鲁棒性和响应性能，

因此，本发明具有鲁棒性好、响应性强、稳定性高、跟踪性能优异和安全性优良的特点。

具体实施方式

为了进一步说明本发明，现结合具体实施方式对本发明作进一步的描述。

实施例

一种基于在线安全学习的四旋翼无人机路径跟踪控制方法。本实施例采用的技术方案是：

步骤1、四旋翼无人机名义模型的建立

建立四旋翼无人机的名义模型

式(1)中：φ表示四旋翼无人机的滚转角，rad；

表示四旋翼无人机的滚转角加速度，rad/s；

θ表示四旋翼无人机的俯仰角，rad；

表示四旋翼无人机的俯仰角加速度，rad/s；

ψ表示四旋翼无人机的偏航角，rad；

表示四旋翼无人机的偏航角角速度，rad/s；

z表示四旋翼无人机在z轴的位置，m；

表示四旋翼无人机z轴方向的线速度，m/s；

x表示四旋翼无人机在x轴的位置，m；

表示四旋翼无人机x轴方向的线速度，m/s；

y表示四旋翼无人机在y轴的位置，m；

表示四旋翼无人机y轴方向的线速度，m/s；

X表示四旋翼无人机12维的状态向量；

U表示虚拟控制量，U＝[U₁ U₂ U₃ U₄]；

U₁表示通道z的控制量；

U₂表示通道φ的控制量；

U₃表示通道θ的控制量；

U₄表示通道ψ的控制量；

m表示四旋翼无人机的质量，kg；

g表示重力加速度常量，9.8m/s²。

步骤2、四旋翼无人机的学习模型

式(2)中：表示k时刻的状态微分；

表示k时刻的名义模型。

随着时间t的增加，得到N个残差g(X,U)的数据。

式(3)中：σ_lω表示测量噪声标准差；

σ² _lω表示测量噪声方差；

σ_lη表示过程噪声标准差；

σ² _lη表示过程噪声方差；

M_l表示对角矩阵，l＝1,2,…，12；

δ_lab表示测量噪声方差系数，l＝1,2,…,12；

式(4)中：K表示N行N列矩阵；

μ(s*)表示学习模型的预测值；

σ²(s*)表示学习模型更新的协方差值。

步骤3、学习模型在线更新

表示第l个学习模型期望值，l＝1,2,…,12；

3σ(s_l)表示置信度，l＝1,2,…,12。

表示第l个估计的扰动集的补集，

g(s_l)表示第l个残差，l＝1,2,…,12；

δ表示估计扰动集里任一点；

式(7)中：Rⁿ表示n维空间；

A表示第l个估计的扰动集的补集

x表示第l个残差g(s_l)中的一点，l＝1,2,…,12；

y表示A内的任一点；

x-y表示第l个残差g(s_l)中的一点x与A内任一点y的差。

步骤4、在线学习的四旋翼无人机跟踪控制方法

步骤4.1、四旋翼无人机在线实时避障的概率约束条件

对于预测时域N，假设四旋翼无人机实际状态服从正态分布：

式(8)中：表示期望为和方差为P(k+j)的正态分布；

表示k+j时刻四旋翼无人机的预测状态，j＝0,1,2,…,N；

P(k+j)表示k+j时刻四旋翼无人机状态不确定性的方差，j＝0,1,2,…,N。设障碍物位置估计的不确定性w～N(0,Z)，则障碍物集合：

式(9)中：O_i表示环境中的障碍物；

R³表示3维空间；

Z表示四旋翼无人机位置估计不确定性的方差；

N(0,Z)表示期望为0和方差为Z的正态分布。

式(10)中：表示期望为和方差为P_c(k+j)+Z的正态分布；

R(p(k+j))表示k+j时刻四旋翼无人机占据的空间，j＝0,1,2,…,N；

O表示障碍物集合；

表示k+j时刻四旋翼无人机估计的位置；

P_c(k+j)表示k+j时刻四旋翼无人机估计位置不确定性的方差；

Z表示障碍物位置估计不确定性的方差。

步骤4.2、四旋翼无人机状态安全域约束方法

式(11)中：Rⁿ表示n维空间；

m表示四旋翼无人机的状态；

表示第l个学习模型的估计的扰动集合，l＝1,2,…,12。

步骤4.3、非线性模型预测控制器的设计

式(12)中：N表示预测时域；

Q表示y_i(k+j)-y_ir(k+j)的误差权矩阵；

R表示v_i(k+j-1)的控制权矩阵；

S表示y_i(k+N)-y_ir(k+N)的误差权矩阵；

y_i(k+j)表示四旋翼无人机在k+j时刻的预测值；

y_ir(k+j)表示四旋翼无人机在k+j时刻的参考值；

y_i(k+N)表示四旋翼无人机在k+j时刻的预测值；

y_ir(k+N)表示四旋翼无人机在k+j时刻的参考值；

v_i(k+j-1)表示四旋翼无人机在k+j-1时刻的控制量。

本具体实施方式具有如下积极效果：

本具体实施方式通过采用高斯过程回归，建立四旋翼无人机的在线学习模型，以改善现有方法解决不确定性问题能力的不足，而四旋翼无人机的名义模型则直接采用非线性模型，构建非线性模型预测控制器，采用二次优化方法保证四旋翼无人机的稳定性。根据学习所得的模型，采用滚动优化策略设计非线性模型预测控制器，同时采用概率约束方法实现在线避障，并且将四旋翼无人机安全性融入学习过程，在线计算安全域保证四旋翼无人机安全性，提高跟踪性能。本具体实施方式能够在线获得环境参数，自主适应巡检环境的变化，能显著提高控制系统的鲁棒性和响应性能，

因此，本具体实施方式具有鲁棒性好、响应性强、稳定性高、跟踪性能优异和安全性优良的特点。

Claims

1.一种基于在线安全学习的四旋翼无人机路径跟踪控制方法，其特征在于所述控制方法包含如下步骤：

步骤1、四旋翼无人机名义模型的建立

构建四旋翼无人机机体坐标系，所述机体坐标系是：以北为坐标系x轴的正方向，以东为坐标系y轴的正方向，以地为坐标系z轴的正方向；

建立四旋翼无人机的名义模型

<mrow> <mover> <mi>X</mi> <mo>&CenterDot;</mo> </mover> <mo>=</mo> <mi>f</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>,</mo> <mi>U</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mover> <mi>&phi;</mi> <mo>&CenterDot;</mo> </mover> </mtd> </mtr> <mtr> <mtd> <msub> <mi>a</mi> <mn>1</mn> </msub> <mover> <mi>&theta;</mi> <mo>&CenterDot;</mo> </mover> <mover> <mi>&psi;</mi> <mo>&CenterDot;</mo> </mover> <mo>+</mo> <msub> <mi>b</mi> <mn>1</mn> </msub> <msub> <mi>U</mi> <mn>2</mn> </msub> </mtd> </mtr> <mtr> <mtd> <mover> <mi>&theta;</mi> <mo>&CenterDot;</mo> </mover> </mtd> </mtr> <mtr> <mtd> <msub> <mi>a</mi> <mn>2</mn> </msub> <mover> <mi>&phi;</mi> <mo>&CenterDot;</mo> </mover> <mover> <mi>&psi;</mi> <mo>&CenterDot;</mo> </mover> <mo>+</mo> <msub> <mi>b</mi> <mn>2</mn> </msub> <msub> <mi>U</mi> <mn>3</mn> </msub> </mtd> </mtr> <mtr> <mtd> <mover> <mi>&psi;</mi> <mo>&CenterDot;</mo> </mover> </mtd> </mtr> <mtr> <mtd> <msub> <mi>a</mi> <mn>3</mn> </msub> <mover> <mi>&phi;</mi> <mo>&CenterDot;</mo> </mover> <mover> <mi>&theta;</mi> <mo>&CenterDot;</mo> </mover> <mo>+</mo> <msub> <mi>b</mi> <mn>3</mn> </msub> <msub> <mi>U</mi> <mn>4</mn> </msub> </mtd> </mtr> <mtr> <mtd> <mover> <mi>z</mi> <mo>&CenterDot;</mo> </mover> </mtd> </mtr> <mtr> <mtd> <mi>g</mi> <mo>-</mo> <mfrac> <msub> <mi>U</mi> <mn>1</mn> </msub> <mi>m</mi> </mfrac> <mi>cos</mi> <mi>&phi;</mi> <mi>c</mi> <mi>o</mi> <mi>s</mi> <mi>&theta;</mi> </mtd> </mtr> <mtr> <mtd> <mover> <mi>x</mi> <mo>&CenterDot;</mo> </mover> </mtd> </mtr> <mtr> <mtd> <mo>-</mo> <mfrac> <msub> <mi>U</mi> <mn>1</mn> </msub> <mi>m</mi> </mfrac> <mo>(</mo> <mi>s</mi> <mi>i</mi> <mi>n</mi> <mi>&phi;</mi> <mi>s</mi> <mi>i</mi> <mi>n</mi> <mi>&psi;</mi> <mo>+</mo> <mi>cos</mi> <mi>&phi;</mi> <mi>s</mi> <mi>i</mi> <mi>n</mi> <mi>&theta;</mi> <mi>c</mi> <mi>o</mi> <mi>s</mi> <mi>&psi;</mi> <mo>)</mo> </mtd> </mtr> <mtr> <mtd> <mover> <mi>y</mi> <mo>&CenterDot;</mo> </mover> </mtd> </mtr> <mtr> <mtd> <mfrac> <msub> <mi>U</mi> <mn>1</mn> </msub> <mi>m</mi> </mfrac> <mo>(</mo> <mi>sin</mi> <mi>&phi;</mi> <mi>cos</mi> <mi>&psi;</mi> <mo>-</mo> <mi>cos</mi> <mi>&phi;</mi> <mi>sin</mi> <mi>&theta;</mi> <mi>s</mi> <mi>i</mi> <mi>n</mi> <mi>&psi;</mi> <mo>)</mo> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

式(1)中：φ表示四旋翼无人机的滚转角，rad，

表示四旋翼无人机的滚转角加速度，rad/s，

θ表示四旋翼无人机的俯仰角，rad，

表示四旋翼无人机的俯仰角加速度，rad/s，

ψ表示四旋翼无人机的偏航角，rad，

表示四旋翼无人机的偏航角角速度，rad/s，

z表示四旋翼无人机在z轴的位置，m，

表示四旋翼无人机z轴方向的线速度，m/s，

x表示四旋翼无人机在x轴的位置，m，

表示四旋翼无人机x轴方向的线速度，m/s，

y表示四旋翼无人机在y轴的位置，m，

表示四旋翼无人机y轴方向的线速度，m/s，

X表示四旋翼无人机12维的状态向量，

<mrow> <mi>X</mi> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <mi>&phi;</mi> </mtd> <mtd> <mover> <mi>&phi;</mi> <mo>&CenterDot;</mo> </mover> </mtd> <mtd> <mi>&theta;</mi> </mtd> <mtd> <mover> <mi>&theta;</mi> <mo>&CenterDot;</mo> </mover> </mtd> <mtd> <mi>&psi;</mi> </mtd> <mtd> <mover> <mi>&psi;</mi> <mo>&CenterDot;</mo> </mover> </mtd> <mtd> <mi>z</mi> </mtd> <mtd> <mover> <mi>&psi;</mi> <mo>&CenterDot;</mo> </mover> </mtd> <mtd> <mi>x</mi> </mtd> <mtd> <mover> <mi>x</mi> <mo>&CenterDot;</mo> </mover> </mtd> <mtd> <mi>y</mi> </mtd> <mtd> <mover> <mi>y</mi> <mo>&CenterDot;</mo> </mover> </mtd> </mtr> </mtable> </mfenced> <mo>,</mo> </mrow>

U表示虚拟控制量，U＝[U₁ U₂ U₃ U₄]，

U₁表示通道z的控制量，

U₂表示通道φ的控制量，

U₃表示通道θ的控制量，

U₄表示通道ψ的控制量，

m表示四旋翼无人机的质量，kg，

g表示重力加速度常量，9.8m/s²；

步骤2、四旋翼无人机的学习模型

<mrow> <mi>g</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>(</mo> <mi>k</mi> <mo>)</mo> <mo>,</mo> <mi>U</mi> <mo>(</mo> <mi>k</mi> <mo>)</mo> <mo>)</mo> </mrow> <mo>=</mo> <mover> <mover> <mi>X</mi> <mo>~</mo> </mover> <mo>&CenterDot;</mo> </mover> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>-</mo> <mover> <mi>X</mi> <mo>&CenterDot;</mo> </mover> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

式(2)中：表示k时刻的状态微分，

表示k时刻的名义模型；

随着时间t的增加，得到N个残差g(X,U)的数据；

<mrow> <msub> <mi>k</mi> <mi>l</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mrow> <mi>l</mi> <mi>i</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>s</mi> <mrow> <mi>l</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mi>&sigma;</mi> <mrow> <mi>l</mi> <mi>&eta;</mi> </mrow> <mn>2</mn> </msubsup> <mi>exp</mi> <mrow> <mo>(</mo> <mo>-</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <msup> <mrow> <mo>(</mo> <mrow> <msub> <mi>s</mi> <mrow> <mi>l</mi> <mi>i</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>s</mi> <mrow> <mi>l</mi> <mi>j</mi> </mrow> </msub> </mrow> <mo>)</mo> </mrow> <mi>T</mi> </msup> <msup> <msub> <mi>M</mi> <mi>l</mi> </msub> <mrow> <mo>-</mo> <mn>2</mn> </mrow> </msup> <mo>(</mo> <mrow> <msub> <mi>s</mi> <mrow> <mi>l</mi> <mi>i</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>s</mi> <mrow> <mi>l</mi> <mi>j</mi> </mrow> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>&delta;</mi> <mrow> <mi>l</mi> <mi>i</mi> <mi>j</mi> </mrow> </msub> <msubsup> <mi>&sigma;</mi> <mrow> <mi>l</mi> <mi>&omega;</mi> </mrow> <mn>2</mn> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

式(3)中：σ_lω表示测量噪声标准差，

σ² _lω表示测量噪声方差，

σ_lη表示过程噪声标准差，

σ² _lη表示过程噪声方差，

M_l表示对角矩阵，l＝1,2,…，12，

s_li表示i时刻状态向量X的第l个样本，i＝1,2,…,M，l＝1,2,…,12，

s_lj表示j时刻状态向量X的第l个样本，j＝1,2,…,M，l＝1,2,…,12，

δ_lab表示测量噪声方差系数，l＝1,2,…,12，

<mrow> <msub> <mi>&delta;</mi> <mrow> <mi>l</mi> <mi>a</mi> <mi>b</mi> </mrow> </msub> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mn>1</mn> <mo>,</mo> <mi>a</mi> <mo>=</mo> <mi>b</mi> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> <mo>,</mo> <mi>a</mi> <mo>&NotEqual;</mo> <mi>b</mi> </mtd> </mtr> </mtable> </mfenced> </mrow>

采用梯度法求取最大似然，获得测量噪声标准差σ_lω、过程噪声标准差σ_lη和对角矩证M_l；对于下一时刻的样本s^*，学习模型的预测参数为：

<mrow> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>&mu;</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>*</mo> <mo>)</mo> </mrow> <mo>=</mo> <mi>k</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>*</mo> <mo>)</mo> </mrow> <msup> <mi>K</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mover> <mi>g</mi> <mo>^</mo> </mover> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msup> <mi>&sigma;</mi> <mn>2</mn> </msup> <mrow> <mo>(</mo> <mi>s</mi> <mo>*</mo> <mo>)</mo> </mrow> <mo>=</mo> <mi>k</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>*</mo> <mo>,</mo> <mi>s</mi> <mo>*</mo> <mo>)</mo> </mrow> <mo>-</mo> <mi>k</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>*</mo> <mo>)</mo> </mrow> <msup> <mi>K</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <msup> <mi>k</mi> <mi>T</mi> </msup> <mrow> <mo>(</mo> <mi>s</mi> <mo>*</mo> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

式(4)中：K表示N行N列矩阵，

k(s_i,s_j)表示i时刻样本和j时刻样本的协方差，i＝1,2,…,M，j＝1,2,…,M，

K_(i,j)表示矩阵第i行第j列的值,K_(i,j)＝k(s_i,s_j),i＝1,2,…,M，j＝1,2,…,M，

k(s*,s*)表示下一时刻的样本s^*的方差，

k(s*)表示下一时刻的样本s^*与之前M个时刻样本分别的协方差，

k(s*)＝[k(s*,s₁),...,k(s*,s_M)]，

μ(s*)表示学习模型的预测值，

σ²(s*)表示学习模型更新的协方差值；

步骤3、学习模型在线更新

<mrow> <mover> <mi>&Omega;</mi> <mo>^</mo> </mover> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>l</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mo>&lsqb;</mo> <mi>E</mi> <mrow> <mo>(</mo> <msub> <mover> <mi>g</mi> <mo>&OverBar;</mo> </mover> <mi>l</mi> </msub> <mo>(</mo> <msub> <mi>s</mi> <mi>l</mi> </msub> <mo>)</mo> <mo>)</mo> </mrow> <mo>-</mo> <mn>3</mn> <mi>&sigma;</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>l</mi> </msub> <mo>)</mo> </mrow> <mo>,</mo> <mi>E</mi> <mrow> <mo>(</mo> <msub> <mover> <mi>g</mi> <mo>&OverBar;</mo> </mover> <mi>l</mi> </msub> <mo>(</mo> <msub> <mi>s</mi> <mi>l</mi> </msub> <mo>)</mo> <mo>)</mo> </mrow> <mo>+</mo> <mn>3</mn> <mi>&sigma;</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>l</mi> </msub> <mo>)</mo> </mrow> <mo>&rsqb;</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

式(5)中：表示第l个学习模型的估计的扰动集合，R^m表示m维空间，

表示第l个学习模型期望值，l＝1,2,…,12，

3σ(s_l)表示置信度，l＝1,2,…,12；

<mrow> <mi>&lambda;</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>l</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>d</mi> <mi>i</mi> <mi>s</mi> <mi>t</mi> <mrow> <mo>(</mo> <mi>g</mi> <mo>(</mo> <msub> <mi>s</mi> <mi>l</mi> </msub> <mo>)</mo> </mrow> <mo>,</mo> <mover> <mi>&Omega;</mi> <mo>^</mo> </mover> <msup> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>l</mi> </msub> <mo>)</mo> </mrow> <mi>C</mi> </msup> <mo>)</mo> </mrow> <mrow> <munder> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> <mrow> <mi>&delta;</mi> <mo>&Element;</mo> <mover> <mi>&Omega;</mi> <mo>^</mo> </mover> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>l</mi> </msub> <mo>)</mo> </mrow> </mrow> </munder> <mi>d</mi> <mi>i</mi> <mi>s</mi> <mi>t</mi> <mrow> <mo>(</mo> <mi>&delta;</mi> <mo>,</mo> <mover> <mi>&Omega;</mi> <mo>^</mo> </mover> <msup> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>l</mi> </msub> <mo>)</mo> </mrow> <mi>C</mi> </msup> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>

式(6)中：表示第l个学习模型的估计的扰动集合，R^m表示m维

空间，

表示第l个估计的扰动集的补集，

g(s_l)表示第l个残差，l＝1,2,…,12，

δ表示估计扰动集里任一点，

dist表示有符号距离函数，定义为：对于给定的Rn上的范数||.||，x∈Rn到的符号距离为

<mrow> <mi>s</mi> <mi>t</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>A</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>i</mi> <mi>n</mi> <mi>f</mi> <mo>{</mo> <mo>|</mo> <mo>|</mo> <mi>x</mi> <mo>-</mo> <mi>y</mi> <mo>|</mo> <mo>|</mo> <mo>,</mo> <mi>y</mi> <mo>&Element;</mo> <mi>A</mi> <mo>}</mo> <mo>,</mo> <mi>x</mi> <mo>&NotElement;</mo> <mi>A</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>-</mo> <mi>i</mi> <mi>n</mi> <mi>f</mi> <mo>{</mo> <mo>|</mo> <mo>|</mo> <mi>x</mi> <mo>-</mo> <mi>y</mi> <mo>|</mo> <mo>|</mo> <mo>,</mo> <mi>y</mi> <mo>&Element;</mo> <msup> <mi>R</mi> <mi>n</mi> </msup> <mo>\</mo> <mi>A</mi> <mo>}</mo> <mo>,</mo> <mi>x</mi> <mo>&Element;</mo> <mi>A</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>

式(7)中：Rⁿ表示n维空间，

A表示第l个估计的扰动集的补集

x表示第l个残差g(s_l)中的一点，l＝1,2,…,12，

y表示A内的任一点，

x-y表示第l个残差g(s_l)中的一点x与A内任一点y的差；

当判别函数λ(s_l)∈[0,1]时，实际的第l个残差gl(s_l)在估计的扰动集内,l＝1,2,…,12，设定经验阈值λ_L∈(0,1)，当判别函数λ(s_l)＞λ_L时，当前第l个学习模型较为精确，不用更新，否则重复步骤2和步骤3更新学习模型

步骤4、在线学习的四旋翼无人机跟踪控制方法

步骤4.1、四旋翼无人机在线实时避障的概率约束条件

对于预测时域N，假设四旋翼无人机实际状态服从正态分布：

式(8)中：表示期望为和方差为P(k+j)的正态分布，

表示k+j时刻四旋翼无人机的预测状态，j＝0,1,2,…,N，

P(k+j)表示k+j时刻四旋翼无人机状态不确定性的方差，j＝0,1,2,…,N；

设障碍物位置估计的不确定性w～N(0,Z)，则障碍物集合：

<mrow> <mi>O</mi> <mo>=</mo> <munderover> <mrow> <mi></mi> <mo>&cup;</mo> </mrow> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>r</mi> </munderover> <msub> <mi>O</mi> <mi>i</mi> </msub> <mo>&CirclePlus;</mo> <mo>{</mo> <mi>w</mi> <mo>}</mo> <mo>&Subset;</mo> <msup> <mi>R</mi> <mn>3</mn> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> </mrow>

式(9)中：O_i表示环境中的障碍物，

R³表示3维空间，

Z表示四旋翼无人机位置估计不确定性的方差，

N(0,Z)表示期望为0和方差为Z的正态分布；

式(10)中：表示期望为和方差为P_c(k+j)+Z的正态分布，

R(p(k+j))表示k+j时刻四旋翼无人机占据的空间，j＝0,1,2,…,N，

O表示障碍物集合，

表示k+j时刻四旋翼无人机估计的位置，

P_c(k+j)表示k+j时刻四旋翼无人机估计位置不确定性的方差，

Z表示障碍物位置估计不确定性的方差；

步骤4.2、四旋翼无人机状态安全域约束方法

<mrow> <mi>D</mi> <mi>i</mi> <mi>s</mi> <mi>c</mi> <mrow> <mo>(</mo> <mi>m</mi> <mo>,</mo> <mover> <mi>&Omega;</mi> <mo>^</mo> </mover> <mo>(</mo> <msub> <mi>s</mi> <mi>l</mi> </msub> <mo>)</mo> <mo>)</mo> </mrow> <mo>=</mo> <mo>{</mo> <mi>m</mi> <mo>&Element;</mo> <msup> <mi>R</mi> <mi>n</mi> </msup> <mo>|</mo> <mi>V</mi> <mrow> <mo>(</mo> <mi>m</mi> <mo>)</mo> </mrow> <mo>></mo> <mn>0</mn> <mo>}</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>11</mn> <mo>)</mo> </mrow> </mrow>

式(11)中：Rⁿ表示n维空间，

m表示四旋翼无人机的状态，

表示第l个学习模型的估计的扰动集合，l＝1,2,…,12；

当四旋翼无人机状态满足安全域可达条件V(m)＞0且判别函数λ(s_l)＞λ_L时，安全域采用并且以完整动力学模型的预测状态作为状态约束；当四旋翼无人机状态不满足安全域可达条件V(m)＞0或判别函数λ(s_l)≤λ_L时，安全域依赖名义模型构建，根据名义模型得到预测状态将作为状态约束；

步骤4.3、非线性模型预测控制器的设计

首先采用扩展卡尔曼滤波方法估计四旋翼无人机的状态，然后将所述四旋翼无人机名义模型分为四旋翼无人机位置动力学模型和四旋翼无人机姿态动力学模型，分别采用反馈线性化方法获得线性模型，最后针对线性模型在相应的约束条件下设计模型预测控制器；

<mrow> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mrow> <msub> <mi>v</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mo>&CenterDot;</mo> <mo>)</mo> </mrow> </mrow> </munder> <mi>J</mi> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>N</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <mrow> <mo>(</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>(</mo> <mrow> <mi>k</mi> <mo>+</mo> <mi>j</mi> </mrow> <mo>)</mo> <mo>-</mo> <msub> <mi>y</mi> <mrow> <mi>i</mi> <mi>r</mi> </mrow> </msub> <mo>(</mo> <mrow> <mi>k</mi> <mo>+</mo> <mi>j</mi> </mrow> <mo>)</mo> <mo>|</mo> <msubsup> <mo>|</mo> <mi>Q</mi> <mn>2</mn> </msubsup> <mo>+</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>v</mi> <mi>i</mi> </msub> <mo>(</mo> <mrow> <mi>k</mi> <mo>+</mo> <mi>j</mi> <mo>-</mo> <mn>1</mn> </mrow> <mo>)</mo> <mo>|</mo> <msubsup> <mo>|</mo> <mi>R</mi> <mn>2</mn> </msubsup> <mo>)</mo> </mrow> <mo>+</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>+</mo> <mi>N</mi> <mo>)</mo> </mrow> <mo>-</mo> <msub> <mi>y</mi> <mrow> <mi>i</mi> <mi>r</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>+</mo> <mi>N</mi> <mo>)</mo> </mrow> <mo>|</mo> <msub> <mo>|</mo> <mi>S</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>12</mn> <mo>)</mo> </mrow> </mrow>

式(12)中：N表示预测时域，

i表示四旋翼无人机位置动力子系统、四旋翼无人机姿态子系统中任一个，

Q表示y_i(k+j)-y_ir(k+j)的误差权矩阵，

R表示v_i(k+j-1)的控制权矩阵，

S表示y_i(k+N)-y_ir(k+N)的误差权矩阵，

y_i(k+j)表示四旋翼无人机在k+j时刻的预测值，

y_ir(k+j)表示四旋翼无人机在k+j时刻的参考值，

y_i(k+N)表示四旋翼无人机在k+j时刻的预测值，

y_ir(k+N)表示四旋翼无人机在k+j时刻的参考值，

y_i(k+j)-y_ir(k+j)表示四旋翼无人机在k+j时刻预测值与参考值的差，

y_i(k+N)-y_ir(k+N)表示四旋翼无人机在k+N时刻预测值与参考值的差，

v_i(k+j-1)表示四旋翼无人机在k+j-1时刻的控制量；