CN117055605A

CN117055605A - 多无人机姿态控制方法及系统

Info

Publication number: CN117055605A
Application number: CN202311205106.0A
Authority: CN
Inventors: 文国兴; 宋燕芬; 李彬; 李子俊; 刘丽霞
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2023-09-18
Filing date: 2023-09-18
Publication date: 2023-11-14

Abstract

本发明涉及无人机控制技术领域，具体为多无人机姿态控制方法及系统，其中的多无人机姿态控制方法包括：建立多无人机姿态控制的动力模型；设定无人机的角度跟踪误差，导出动力方程并基于相邻无人机的输出状态确定一致误差，确定对应的虚拟控制；设定无人机的角速度跟踪误差，导出动力方程并以最小化性能函数为目标生成最优性能函数，经求导得到哈密顿‑雅可比‑贝尔曼方程，基于该方程对最优控制参数求导得到含有未知项的最优控制参数；基于神经网络获取的权重更新律得到未知项，确定实际控制输入。利用反步法实现多无人机的控制，找到虚拟控制，再构造神经网络结构执行强化学习，导出优化的实际控制参数。

Description

多无人机姿态控制方法及系统

技术领域

本发明涉及飞行器控制技术领域，具体为多无人机姿态控制方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

四旋翼无人机结构简单、灵活性高并且能够垂直起降，常被用于执行危险环境下的复杂任务，如电厂检查、灾害监测、野外搜救等，当多台四旋翼无人机组成集群时能够提高作业效率。

四旋翼无人机在执行作业任务时，即需要控制其位置，也要控制其姿态，而多无人机需要通过相互协同配合，才能完成复杂任务，此时的无人机受限于自身控制算法的复杂程度，导致能量消耗也随之而增加。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供多无人机姿态控制方法及系统，利用反步法实现多无人机的控制，反步的第一步设计了由与通信拓扑相关的相邻智能体状态的耦合项组成的一致误差，并设计了具有一致误差项的虚拟控制，反步的第二步构造神经网络结构执行强化学习，进而导出优化的实际控制，相较于传统的多无人机控制算法更加简单，间接的节省无人机作业时的能量消耗。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供多无人机姿态控制方法，包括以下步骤：

建立多无人机姿态控制的动力模型，并转换型式；

设定无人机的角度跟踪误差，导出动力方程并基于相邻无人机的输出状态确定一致误差，确定对应的虚拟控制；

设定无人机的角速度跟踪误差，导出动力方程并以最小化性能函数为目标生成最优性能函数，经求导得到哈密顿-雅可比-贝尔曼方程，基于该方程对最优控制参数求导得到含有未知项的最优控制参数；

基于神经网络获取的权重更新律得到未知项，确定实际控制输入。

进一步的，建立多无人机姿态控制的动力模型，包括，以无人机的翻滚角、俯仰角和偏航角为目标，并基于控制力矩、转动惯量和阻力系数建立动力模型。

进一步的，基于相邻无人机的输出状态确定一致误差，具体为：

式中，e_i(t)为第i个无人机的一致误差，Ξ_i为无人机i的邻居集，a_ij是与连通图G有关的邻接矩阵A中的元素，b_i为无人机和领航者之间的通讯矩阵中的元素，x_pi(t)表示第i个无人机由翻转、俯仰和偏航三个欧拉角组成的姿态状态向量，x_pj(t)表示第j个无人机由翻转、俯仰和偏航三个欧拉角组成的姿态状态向量，x_r(t)为参考信号或者领航者。

进一步的，得到的虚拟控制，具体为：

式中，代表设计参数，e_i(t)为第i个无人机的一致误差。

进一步的，设定无人机的角速度跟踪误差，导出动力方程并生成最优性能函数，具体为：

定义与误差动力相关的无穷积分性能指标，并根据角速度的跟踪误差确并以指标函数最小化为目标，得到最优性能函数。

进一步的，最优性能函数，具体为：

式中，为跟踪误差变量，为最优姿态控制，c_i(z_vi,τ_i)为成本函数，无人机姿态一致控制τ_i∈Ψ(Ω)，Ω为集合。

进一步的，最优性能函数经求导得到哈密顿-雅可比-贝尔曼方程，如下式所示：

F_i(x_pi,x_vi)为动态函数，为虚拟控制的导数，z_vi为角速度跟踪误差。求解为最优姿态控制，得到其中为未知项。

进一步的，基于神经网络获取的权重更新律得到未知项，确定实际控制输入；具体为：

执行强化学习的神经网络如下式所示：

其中，为未知项的估计，和分别为对应神经网络的权重；

神经网络权重更新率分别为：

其中，κ_ci＞0和κ_ai＞0分别为critic和actor神经网络的设计参数，和分别表示critic和actor神经网络的权重，S_i(z_vi)为基函数向量。

本发明的第二个方面提供多无人机姿态控制系统，包括：

建模模块，被配置为：建立多无人机姿态控制的动力模型，并转换型式；

第一反步模块，被配置为：设定无人机的角度跟踪误差，导出动力方程并基于相邻无人机的输出状态确定一致误差，确定对应的虚拟控制；

第二反步模块，被配置为：设定无人机的角速度跟踪误差，导出动力方程并以最小化性能函数为目标生成最优性能函数，经求导得到哈密顿-雅可比-贝尔曼方程，基于该方程对最优控制参数求导得到含有未知项的最优控制参数；

强化学习模块，被配置为：基于神经网络获取的权重更新律得到未知项，确定实际控制输入。

与现有技术相比，以上一个或多个技术方案存在以下有益效果：

1、利用反步法实现多无人机的控制，反步的第一步找到虚拟控制，反步的第二步构造神经网络结构执行强化学习，进而导出优化的实际控制，相较于传统的多无人机控制算法更加简单，间接的节省无人机作业时的能量消耗。

2、在传统的强化学习最优控制中，神经网络的更新率由包含多个非线性项的Hamilton-Jacobi-Bellman(HJB，哈密顿-雅可比-贝尔曼)方程近似的平方进行梯度下降推导而来，算法非常复杂。而本发明的强化学习更新率是根据与HJB方程相关的简单正函数的负梯度产生的，因此其算法比传统情况更简单，并且还可以消除持续激励条件。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明一个或多个实施例提供的多无人机姿态控制示意图；

图2(a)-图2(c)均是本发明一个或多个实施例提供的仿真算例的姿态状态的领航者-追随者跟踪性能示意图；

图3(a)-图3(c)均是本发明一个或多个实施例提供的仿真算例的姿态角度的跟踪误差示意图；

图4(a)-图4(f)均是本发明一个或多个实施例提供的仿真算例的actor神经网络权重规范示意图；

图5(a)-图5(f)均是本发明一个或多个实施例提供的仿真算例的critic神经网络权重规范示意图；

图6(a)-图6(f)均是本发明一个或多个实施例提供的仿真算例的成本函数示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

无人机的控制过程中，由于姿态动力学具有很强的非线性和不确定性，稳定的姿态动力控制是一项非常关键和具有挑战性的任务。针对四旋翼无人机姿态控制，目前存在多种控制技术，如backstepping控制(反步控制)，模糊逻辑控制，滑模控制，比例积分导数控制和线性二次调节器控制。

其中，反步控制技术已经发展成为非线性反馈系统的系统化和标准化的方法。与其他控制方法相比，该技术的主要优点之一是设计灵活，因为它不要求被控系统满足匹配条件。其基本设计思想是考虑一些中间状态作为虚拟控制变量，根据李雅普诺夫稳定性定理构造递归控制；然后由有序的虚拟控制序列导出实际控制，从而保证稳定和跟踪的目标。

多台无人机协同作业执行任务时的能耗较高，为了减少资源消耗，优化是控制设计原则之一。一般来说，最优控制的目标是使达到控制目标的性能指标最小，性能指标是控制任务和资源的平衡。

因此，以下实施例给出多无人机姿态控制方法及系统，以最优领航者-追随者一致控制为目的，确保用最少控制资源实现控制目标即实现姿态系统的一致性(指通过设计控制输入τ_i，使得所有无人机的姿态状态达到一致)，采用了一种简化的强化学习方法来构建，与传统的强化学习优化控制不同，能够有效的减少计算复杂度，在部署到无人机控制系统中时能够减少能量的消耗。

实施例一：

如图1所示，多无人机姿态控制方法，包括以下步骤：

建立多无人机姿态控制的动力模型，并转换型式；

具体的：

步骤1：以翻滚角、俯仰角和偏航角为目标，考虑一个互通的多无人机姿态系统：

其中φ_i(t),θ_i(t)和分别为无人机的翻滚角、俯仰角和偏航角，它们分别被约束在和τ_iφ,τ_iθ,时控制力矩，I_ix,I_iy,I_iz是三维坐标轴上的转动惯量，G_iφ,G_iθ,是阻力系数，并且l表示转子中心到质心的距离。

步骤2：将步骤1中的四旋翼无人机姿态系统的动力学模型转化为如下形式：

其中，

步骤3：在第一个反步步骤中，定义第i个四旋翼无人机有关角度的跟踪误差为z_pi(t)＝x_pi(t)-x_r(t)，并导出其动力方程为设计由邻居四旋翼无人机的输出状态组成的一致误差为：为第一步设计含有一致误差项的虚拟控制

步骤4：为所有四旋翼无人机的第一步设计李雅普诺夫函数，对其进行稳定性和误差收敛性分析。将李雅普诺夫函数设计为：然后对其求导并推算得到结果为：

步骤5：在反步步骤中的第二步中，定义第i个四旋翼无人机有关角速度的跟踪误差为并导出其动力方程

步骤6：在反步步骤中的第二步中，通过求解得到为了得到可行的优化控制，利用神经网络逼近连续未知函数，因此构造了如下执行强化学习的critic和actor神经网络：

和分别表示critic和actor神经网络的权重，其权重更新律分别为：

其中，κ_ci＞0和κ_ai＞0分别代表critic和actor的设计参数。

步骤7：为多无人机姿态系统设计总的李雅普诺夫函数，对其进行稳定性和误差收敛性分析。李雅普诺夫函数被设计：

然后计算其导数，结合第一步得到的结果并且应用引理1，可以获得最终结果：从而证明控制目标能被实现。

优化控制是基于包含2个步骤的反步过程设计的。由于系统的第一个子系统采用简单的线性动态形式建模，不包含不确定性，因此可以直接利用状态耦合项得到其虚拟控制。此外，系统的第二个方程涉及未知的非线性动力学方程，因此，构造了基于神经网络近似的critic-actor强化学习，以在最后一步反步中得到最优的实际控制。

以非线性规范动态形式建模的多无人机姿态系统最优领航者-追随者一致控制方法，具体包括以下内容：

一.姿态系统描述

对于一个互通的多无人机系统，针对每个单独的无人机，根据牛顿-欧拉公式，可以建立这个系统的姿态动力学模型为：

其中φ_i(t),θ_i(t)和分别为无人机的翻滚角、俯仰角和偏航角，它们分别被约束在和τ_iφ,τ_iθ,是控制力矩，I_ix,I_iy,I_iz是三维坐标轴上的转动惯量，G_iφ,G_iθ,是阻力系数，并且l表示转子中心到质心的距离。

控制目标：对于多无人机姿态系统，根据优化反步技术找到基于强化学习的优化领航者-追随者一致控制，使得(i)所有控制信号都是半全局一致最终有界的(SGUUB)；(ii)达成领航者-追随者的一致。

假设1：参考信号或者领航者被定义为并且它的导数和都是足够光滑有界的函数。

引理1：设是一个连续正函数，如果它满足其中β₁,β₂＞0是两个常数，则以下不等式成立：

引理2：如果一个智能体的通讯拓扑图是一个有向连通图，其对应的拉普拉斯矩阵L是不可约的，并且矩阵是正定的，其中B＝diag{b₁,b₂,…,b_n}是一个正的对角矩阵。

二.系统转换

为了得到优化的领航者-追随者一致控制，姿态动力模型可变为如下形式：

其中，

x_pi(t)表示第i个无人机由翻转、俯仰和偏航三个欧拉角组成的姿态状态向量x_vi(t)表示第j个无人机由翻转、俯仰和偏航三个欧拉角组成的姿态状态向量，F_i(x_pi,x_vi)为动态函数。

三.优化反步一致控制设计

为了实现最优一致控制，该方法借鉴了优化反步技术，通过以下两个反步步骤获得实际控制。

第1步：第i个四旋翼无人机有关角度的跟踪误差定义为：

z_pi(t)＝x_pi(t)-x_r(t) (4)

根据动力学公式可知，z_pi(t)误差动力学方程可以表示为：

让代表虚拟控制，通过引入上述误差动力可以重新写为：

第i个四旋翼无人机的一致误差可以定义为：

其中Ξ_i是四旋翼无人机i的邻居集(与无人机i相邻的无人机的集合)，a_ij是与连通图G有关的邻接矩阵A中的元素，b_i是四旋翼无人机和领航者之间的通讯矩阵中的元素。

引入公式，上述一致误差项可以写为：

基于一致误差项，虚拟控制被设计为：

其中代表设计参数。

关于第一步反步步骤，设计如下李雅普诺夫函数：

其中z_p(t)＝[z_p1,z_p2,…,z_pn]^T是n个无人机姿态状态向量的集合，

在控制理论中，设计李雅普诺夫函数是用来证明该系统的稳定性的，因为稳定性是系统的一个重要特征。

备注1：如引理2所示，矩阵表示正定。设根据公式，存在其中为克罗内克积，并且是单位矩阵。因此有以下公式成立：

根据上述公式，有如下不等式：

其中λ_max和λ_min分别代表的最大和最小特征值。

根据，的导数计算为：

由杨氏不等式可以推导出以下两个不等式：

将上述不等式带入(13)中有：

其中和分别表示的最大和最小特征值。

第2步：在最后一个反步中，得到多无人机姿态系统的最优一致控制，基于强化学习逼近，构造critic-actor强化学习，其中critic被用来评估系统性能，actor被用来实现控制行为。

actor-critic是强化学习领域中的一种既基于值又基于策略的方法。在此方法中，act or用来实现控制行为，critic用来评估系统性能。

首先，定义第i个四旋翼无人机有关角速度的跟踪误差为：求导数可以写为：

定义与误差动力相关的无穷积分性能指标为：

其中是成本函数。

定义1：分布式四旋翼无人机姿态一致控制τ_i被称为集合Ω上的可容许控制,通过τ_i∈Ψ(Ω),如果它是连续的，并保证τ_i(0)＝0，并使系统稳定及J_i(z_vi)是有限的。

定义2：如果使完成控制分配的性能指标最小，则认为可容许的一致控制J_i(z_vi)是最优的。

假设2：非线性动力函数F_i(x_pi,x_vi),i＝1,…,n是有界的。

备注2：关于假设2，进一步说明其合理性。根据变换后的系统，将动力函数指定为：

其中在本实施例中，从容许控制集中寻找最优控制。根据定义1，容许控制可以保证性能指标是有限的，即跟踪误差变量z_vi(t)是有界的。进一步，可以合理地假设动态函数F_i(x_pi,x_vi)是一个有界函数。

根据式(17)性能函数被引入：

让表示最优姿态控制，当τ_i替换为上面方程中时，产生以下最优性能函数：

通过计算式两边的时间导数得到HJB方程(哈密顿-雅可比-贝尔曼方程)为：

基于上述表示，最优控制是满足上述HJB方程的唯一解，因此，求解有：

然而，最优控制包含不确定项为了确定最优控制并使其成为HJB方程的唯一解，将代入到得到下列HJB方程，不确定项可以通过求解下列HJB方程得到：

然而由于非线性，找到这个方程的解析解是相当具有挑战性的。为了克服这一挑战，找到可用的最优控制，本实施例建立了一种基于神经网络的自适应强化学习方法。

为完成追随者-领航者跟踪控制任务，将未知项分成两部分为：

其中，γ_vi＞0是设计参数，并且

带入式(24)中，有：

由于是一个不确定但连续的函数，因此可以在给定的紧集Ω上通过NN近似如下：

其中，和分别表示理想神经网络权重、基函数向量和近似误差，q表示神经元数量。

将式(26)加到式(25)和式(24)中，得到：

由于理想权重向量是未知的，因此中给出的最优控制是不可用的。为了获得可行的优化控制，强化学习通过critic和actor来实现，具体如下：

其中为的估计，而和分别表示cr itic和actor神经网络的权重。

根据以下自适应律来训练critic和actor的神经网络权重：

其中κ_ci＞0和κ_ai＞0分别代表critic和actor的设计参数，和表示神经网络权重和基函数向量，I_q∈R^q×q表示单位矩阵，σ_i是正的设计参数。

参数γ_vi、κ_ai、κ_ci需满足以下条件：

备注3：critic和actor更新律和是根据以下事实推导出来的。

将式(29)、(30)代入式(21)，可得HJB方程近似为：

根据前面的分析，希望优化后的解满足若成立且存在唯一解，则可以用以下不等式表示：

为求出保证成立的强化学习更新率，建立如下正定函数：

显然，P(t)＝0保证式成立。更新率和的设计基于以下事实。

从上面的方程来看，很明显计算P(t)沿和的时间导数有：

不等式表明利用更新定律和可以得到P(t)＝0，这意味着式也可以满足。

选取动力模型的总的李雅普诺夫函数为：

其中和

上述函数对时间求导，并将(16)(31)和(32)代入得到

进行优化控制得到：

由杨氏不等式可以得到以下结果：

将上述不等式(41)加入到(40)中得：

由和下列等式成立：

将(43)和(44)代入到(42)中有：

根据条件，有以下不等式成立：

则根据(46)，不等式(45)可重新表示为：

由于参数γ_vi，κ_ai和κ_ci满足条件，故可将上述不等式：

将第一步反步所得结果代入式(48)，可得不等式：

其中，

以常数d为界，即|D(t)|≤d。表示理想权重，κ_ci＞0和κ_ai＞0分别代表critic和actor的设计参数，S_i(z_vi)表示基函数向量，x_r(t)表示参考信号。

四.定理及证明

定理1：对于多无人机姿态系统，如果第一步采用具有增益参数γ_pi＞1/2的虚拟控制，最后一步采用-实现强化学习以获得最优姿态一致性控制，然后选择满足条件的设计参数，可以实现以下控制目标。

i)误差变量z_pi(t),z_vi(t),为半全局一致最终有界。

ii)通过选择合适的设计参数，可以获得优化的领航者-追随者姿态一致。

证明：设根据式(12)，下式可由不等式(49)导出：

设则不等式可变为：

通过将引理3应用于，下面的不等式为真：

由上述不等式可知，误差信号z_pi(t),z_vi(t),均为SGUUB(半全局一致最终有界的)。通过选取足够大的设计参数，使领航者-追随者姿态跟踪误差收敛到一个小的零邻域。

四.仿真实验

在Matlab环境下对6架四旋翼无人机进行了姿态数值仿真，验证了优化控制的有效性。参数总结为：

l＝0.325，I_ix＝4.35×10^-3，I_iy＝4.85×10^-3，I_iz＝8.81×10-3，G_iφ＝0.6，G_iθ＝0.6，

领航者的轨迹描述为

邻接矩阵为：

根据定理1，可通过以下两步反步过程获得最优一致控制。

在第一步反步中，根据，邻接矩阵A中的一致误差和B被定义为：

则式所对应的虚拟控制选择设计参数为γ_pi＝1,…,6＝40。

最后一步反步得到了姿态系统的最优一致性控制。critic和actor的神经网络都设计有6个神经元。基函数向量S_i(z_vi)的高斯函数的中心η_i均匀分布在[-3,3]之间，宽度ρ_i设为1。

所对应的优化实际控制参数设为γ_{vi,i＝1,…,6}＝16。强化学习更新律和采用设计参数κ_ci＝2.9，κ_ai＝2.4和σ_i＝0.3。初始值为：

和

仿真结果如图2(a)-图6(f)所示。图2(a)-图2(c)表示姿态状态的领航者-追随者跟踪性能，图中的Attitude angle states为姿态角度状态，Reference signals为参考信号；图3(a)-图3(c)表示跟踪误差，跟踪误差收敛到零。图4(a)-图5(f)表示critic和actor自适应权重的有界性。图6(a)-图6(f)表示成本函数c_i(z_vi(s),τ_i(z_vi))。图2(a)-图5(f)可以进一步证明该优化方法能够完成控制的目标。

实施例二：

多无人机姿态控制系统，包括：

建模模块，被配置为：建立多无人机姿态控制的动力模型，并转换为二阶反馈型式；

第一反步模块，被配置为：设定无人机的角度跟踪误差，导出动力方程并基于相邻无人机的输出状态确定一致误差，得到对应的虚拟控制参数；

第二反步模块，被配置为：设定无人机的角速度跟踪误差，导出动力方程并以最小化性能函数为目标生成为最优性能函数；

强化学习模块，被配置为：基于神经网络获取的权重更新律，得到最优性能函数中的未知项，确定实际控制输入。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.多无人机姿态控制方法，其特征在于，包括以下步骤：

建立多无人机姿态控制的动力模型，并转换型式；

2.如权利要求1所述的多无人机姿态控制方法，其特征在于，建立多无人机姿态控制的动力模型，具体为：以无人机的翻滚角、俯仰角和偏航角为目标，并基于控制力矩、转动惯量和阻力系数建立动力模型。

3.如权利要求1所述的多无人机姿态控制方法，其特征在于，基于相邻无人机的输出状态确定一致误差，具体为：

4.如权利要求1所述的多无人机姿态控制方法，其特征在于，得到的虚拟控制参数，具体为：

式中，代表设计参数，e_i(t)为第i个无人机的一致误差。

5.如权利要求1所述的多无人机姿态控制方法，其特征在于，设定无人机的角速度跟踪误差，导出动力方程并生成最优性能函数，具体为：

6.如权利要求5所述的多无人机姿态控制方法，其特征在于，所述最优性能函数，具体为：

式中，z_vi(t)为跟踪误差变量，为最优姿态控制，c_i(z_vi,τ_i)为成本函数，无人机姿态一致控制τ_i∈Ψ(Ω)，Ω为集合。

7.如权利要求5所述的多无人机姿态控制方法，其特征在于，最优性能函数经求导得到哈密顿-雅可比-贝尔曼方程，如下式所示：

其中，F_i(x_pi,x_vi)为动态函数，为虚拟控制的导数，zvi为角速度跟踪误差。求解为最优姿态控制，得到其中为未知项。

8.如权利要求1所述的多无人机姿态控制方法，其特征在于，基于神经网络获取的权重更新律得到未知项，确定实际控制输入，包括：

执行强化学习的神经网络如下式所示：

其中，为未知项的估计，和分别为对应神经网络的权重。

9.如权利要求8所述的多无人机姿态控制方法，其特征在于，神经网络权重更新率分别为：

10.多无人机姿态控制系统，其特征在于，包括：