CN115390445A

CN115390445A - 一种基于学习的多无人机系统的安全自适应控制方法

Info

Publication number: CN115390445A
Application number: CN202210917255.9A
Authority: CN
Inventors: 魏明鑫; 郑蓝翔; 吴颖; 成慧
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2022-08-01
Filing date: 2022-08-01
Publication date: 2022-11-25

Abstract

本发明公开了一种基于学习的多无人机系统的安全自适应控制方法，方法包括：首先获取未知干扰环境中每个无人机的参考轨迹与状态，构建先验模型；通过增量高斯过程对所述先验模型进行补偿，构建反馈线性化控制律，得到反馈线性化自适应控制器；根据所述反馈线性化自适应控制器，使用基于李雅普诺夫稳定性的安全屏障策略对多无人机系统进行安全约束；根据所述安全约束的结果构建二次规划，并输出原始控制信息；将所述原始控制信息应用在多无人机系统的环境交互中，对多无人机系统进行自适应控制。本发明的效率高且实时性高，可广泛应用于计算机技术领域。

Description

一种基于学习的多无人机系统的安全自适应控制方法

技术领域

本发明涉及计算机技术领域，尤其是一种基于学习的多无人机系统的安全自适应控制方法。

背景技术

随着微型飞行器的发展和普及，越来越多的微型飞行器将共享有限的空域。使用多无人机可以高效执行搜救等复杂任务。然而，复杂、不确定的空域要求无人机具备安全、自适应的控制系统。此外，无人机还存在系统模型误差和气流扰动等不确定性，严重影响无人机的控制质量，降低飞行性能，甚至导致碰撞。因此，不确定环境下的安全自适应控制至关重要。

安全性是无人机系统的关键问题之一。在许多情况下，违反安全约束可能导致严重的事故。不确定的干扰会导致无人机系统偏离当前的轨迹并发生碰撞。因此，需要安全的控制策略来确保无人机精确的轨迹跟踪，同时保持安全飞行。此外，现实世界中的不确定扰动通常不能精确地进行数学建模，基于模型的控制器在面对不确定的干扰时控制效果较差。为了获得更高的控制性能，要求控制器能够适应不同的不确定干扰。

为解决无人机的安全避碰问题，传统的方法是将多个无人机绑定到预先规划的轨迹上，集中规划每个无人机的无碰撞轨迹。但是，复杂的环境变化往往会导致整个团队重新规划轨迹，这将占用大量的计算资源，从而限制了团队在执行任务过程中的适应性。它还要求规划器以高频率更新安全轨迹。另一种方法是采用分布式方法，如倒数缓冲法、速度障碍法和安全屏障策略。这些方法采用分布式计算方法在线求解每个无人机的无碰撞轨迹。但是，它们没有考虑系统模型的不确定性，不能保证系统的安全概率。因此，考虑到系统受到干扰而产生的模型不确定性，将这些方法推广到概率表示。如采用机会约束公式和高斯噪声的近似解。这些方法考虑了机器人的定位和运动不确定性。然而，这些方法高估了不确定性的概率，导致任务执行效率较低。

为了实现对不确定系统的精确控制，典型的方法通常采用内外回路控制，其中外回路沿参考轨迹生成制导律，内回路完成精确运动跟踪。然后，复杂的非线性动力学问题可以转化为一组解耦的双积分器，使用标准的线性外环控制器，如比例微分控制器，使解耦的线性系统或前馈线性化技术。然而，这些线性化技术依赖于精确的系统模型，在实际的实践中很难得到。

另一种方法是机器学习来收集环境中的干扰数据，例如采用基于学习的方法提高轨迹跟踪的精度。采用基于高斯过程的模型预测控制算法解决了四旋翼飞行器无确定性动力学方程控制问题。系统需要收集大量的数据来建立一个完整的系统模型，这导致了大量的计算资源。从而必须要减小模型预测控制的预测范围。另外一种方法是耦合模型预测路径跟踪控制器与反馈控制采用高斯过程在线学习环境扰动模型，但模型预测路径跟踪控制器和高斯过程都消耗大量计算资源。在实际机载平台上，算法的实时性难以保证。

发明内容

有鉴于此，本发明实施例提供一种效率高且实时性高的，基于学习的多无人机系统的安全自适应控制方法。

本发明实施例的一方面提供了一种基于学习的多无人机系统的安全自适应控制方法，包括：

获取未知干扰环境中每个无人机的参考轨迹与状态，构建先验模型；

通过增量高斯过程对所述先验模型进行补偿，构建反馈线性化控制律，得到反馈线性化自适应控制器；

根据所述反馈线性化自适应控制器，使用基于李雅普诺夫稳定性的安全屏障策略对多无人机系统进行安全约束；

根据所述安全约束的结果构建二次规划，并输出原始控制信息；

将所述原始控制信息应用在多无人机系统的环境交互中，对多无人机系统进行自适应控制。

可选地，所述获取未知干扰环境中每个无人机的参考轨迹与状态，构建先验模型，包括：

根据先验模型以及未知环境干扰作用于无人机的系统模型误差，通过随机的非线性离散时间模型描述每个无人机系统的动力学；

确定每个无人机系统的参考轨迹，求解在对应时间下的最优控制的解，得到优化后的参考状态以及控制量。

可选地，所述通过增量高斯过程对所述先验模型进行补偿，构建反馈线性化控制律，得到反馈线性化自适应控制器，包括：

将无人机的当前状态输入到高斯过程模型中进行预测，得到预测分布信息；

根据所述预测分布信息，计算预测均值，并根据预测均值对控制量进行补偿；

根据模型预测控制得到的优化控制量、反馈线性化得到的控制量、增量高斯过程得到的误差补偿量以及待设计的安全约束，构建反馈线性化控制器。

可选地，所述根据所述反馈线性化自适应控制器，使用基于李雅普诺夫稳定性的安全屏障策略对多无人机系统进行安全约束，包括：

根据多无人机系统安全域，定义无人机群体之间的安全控制空间；

确定无人机与障碍物之间的安全控制空间；

确定用于控制无人机系统稳定性的李雅普诺夫稳定性控制空间。

本发明实施例的另一方面还提供了一种基于学习的多无人机系统的安全自适应控制装置，包括：

第一模块，用于获取未知干扰环境中每个无人机的参考轨迹与状态，构建先验模型；

第二模块，用于通过增量高斯过程对所述先验模型进行补偿，构建反馈线性化控制律，得到反馈线性化自适应控制器；

第三模块，用于根据所述反馈线性化自适应控制器，使用基于李雅普诺夫稳定性的安全屏障策略对多无人机系统进行安全约束；

第四模块，用于根据所述安全约束的结果构建二次规划，并输出原始控制信息；

第五模块，用于将所述原始控制信息应用在多无人机系统的环境交互中，对多无人机系统进行自适应控制。

本发明实施例的另一方面还提供了一种电子设备，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如前面所述的方法。

本发明实施例的另一方面还提供了一种计算机可读存储介质，所述存储介质存储有程序，所述程序被处理器执行实现如前面所述的方法。

本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前面的方法。

本发明的实施例首先获取未知干扰环境中每个无人机的参考轨迹与状态，构建先验模型；通过增量高斯过程对所述先验模型进行补偿，构建反馈线性化控制律，得到反馈线性化自适应控制器；根据所述反馈线性化自适应控制器，使用基于李雅普诺夫稳定性的安全屏障策略对多无人机系统进行安全约束；根据所述安全约束的结果构建二次规划，并输出原始控制信息；将所述原始控制信息应用在多无人机系统的环境交互中，对多无人机系统进行自适应控制。本发明的效率高且实时性高。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的整体步骤流程图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

针对现有技术存在的问题，本发明实施例的一方面提供了一种基于学习的多无人机系统的安全自适应控制方法，包括：

确定无人机与障碍物之间的安全控制空间；

所述存储器用于存储程序；

所述处理器执行所述程序实现如前面所述的方法。

下面结合说明书附图，对本发明的具体实现过程进行详细描述：

基于现有相关方法的局限性，本发明将模型预测控制和安全屏障策略的可预测性作为安全约束，设计出不需要改变预设全局轨迹的控制器，同时利用增量高斯过程提升运算效率，进而实现算法的实时性。

本发明提出了一种基于学习的多无人机系统安全自适应控制系统及方法，该方法采用统一的控制框架保证系统的安全性，利用在线学习增强系统对不确定扰动的自适应能力。采用基于控制李雅普诺夫函数的安全屏障策略约束碰撞避免，以确保在不确定情况下具有可证明的前向不变性。此外，采用最小侵入式修改轨迹跟踪控制器的标称控制输出，获得平滑控制输出。为实现上述目的，本发明包括以下步骤：

步骤一：输入未知干扰环境中每个无人机的参考轨迹与状态，基于先验模型建立模型预测控制，进行优化来得到修正后的参考状态和参考控制量。

步骤二：利用增量高斯过程对先验模型进行补偿，构建反馈线性化控制律，提升无人机应对不确定环境的自适应能力。

步骤三：基于步骤二的结果，使用基于李雅普诺夫稳定性的安全屏障策略对多无人机系统进行安全约束。

步骤四：基于步骤三的结果，为了平滑控制输出，基于安全约束构建二次规划，以最小侵入的形式选择原始控制输出。

步骤五：基于步骤四的结果，将位置控制器的输出给底层姿态控制器应用在多无人机系统的环境交互中。

步骤六：重复步骤二至步骤五直至任务结束。

下面参考图1，以多无人机系统在存在未知干扰的环境中安全自适应控制为例，更详细地解释本发明的技术方案。

步骤一：考虑由N个无人机系统组成的团队

在共享的3维空间中运动。每个无人机系统

的动力学由一个随机的非线性离散时间模型描述。

其中，状态

p_i,v_i∈R³,状态空间X是紧凑的，控制输出

f和G是系统的先验模型，d表示由于未知环境干扰作用于无人机的系统模型误差。我们建立的模型是每个无人驾驶飞行器以q_i为中心的状态。q_i∈R⁶，并以安全距离R_i围成超椭圆球体。

给定每个无人机系统的参考轨迹

其中q_ref(t)＝[p_ref(t),v_ref(t)]^T,t₀是起始时间。构造MPC来求解在每个采样时间t_k＝t₀+k·dt的开环有限时间最优控制问题，其中

是离散控制周期。在当前时间t_k，求解的具体最优控制问题为:

q(t)∈X

为了实现精确的跟踪控制，优化后的参考状态为

和控制量输出为u_mpc

步骤二：通过无人机当前状态(此处记为x^*)，输入到高斯过程模型中进行预测。考虑无人机系统非线性模型。根据条件分布性质可得到预测分布如下：

利用其预测均值μ(q*)，对控制量u_mpc进行补偿进行反馈线性化控制器的设计。

对于非线性无人机系统，设

是一个先验模型，反馈线性化控制律

设计为:

其中u是伪控制量，将非线性无人机系统转换为近似线性积分器模型。

直观上，如果能提前准确地得到环境扰动，则可以完全补偿，使d(q)＝0。然而，通常只能从有限的数据干扰中得到近似值。为了实现精确的跟踪控制,伪控制u设计为:

u＝u_mpc+u_pd-u_igp+u_sbc

其中，u_mpc是模型预测控制得到的优化控制量，u_pd是反馈线性化得到的控制量，u_igp为增量高斯过程得到的误差补偿量。u_sbc为待设计的安全约束

步骤三：通过步骤二得到的反馈线性化自适应控制器，进一步设计安全控制约束。由多无人机系统定义安全域S，由于存在不确定干扰d(q)和安全屏障策略依赖于一个准确的系统模型的事实。用安全屏障策略直接构造多无人机系统的安全约束是不可能的。基于增量高斯过程学习到的环境扰动，进一步将安全屏障策略扩展到不确定系统，以保证多无人机系统安全域的高概率前向不变性。

考虑无人机之间的碰撞，无人机群体之间的安全控制空间定义为：

同理得到无人机与障碍物之间的安全控制空间：

在此基础上，考虑无人机系统稳定性的李雅普诺夫稳定性控制空间：

步骤四：为了平滑控制输出，基于安全约束构建二次规划，以最小侵入的形式选择原始控制输出。

u_min≤u_sbc≤u_max

其中，

步骤六：重复步骤二至步骤五直至任务结束。

综上所述，本发明提出了一种基于学习的安全自适应控制方法实现多无人机系统在存在不确定干扰的空域中实现多无人机系统安全、精确、鲁棒的飞行。首先，设计了增量高斯过程，用于在线学习不确定扰动，并对非线性无人机系统进行即时补偿。然后，利用带有控制李雅普诺夫函数的安全屏障策略，通过修改标称控制器，实现多无人机系统的可扩展无碰撞行为。利用增量高斯过程提供的扰动均值分布，证明了系统是安全的，并且具有高概率的渐近稳定。此外，模型预测控制利用线性化的系统模型来优化轨迹，进一步降低跟踪误差。最终实现多无人机系统在不确定环境干扰下安全、精确、鲁棒的控制效果。

本发明针对多无人机在不确定干扰下的精确轨迹跟踪和安全飞行，提出了一种新的控制策略。在提出的控制策略中，采用统一控制来保证系统的安全性，并利用在线学习来增强系统在不确定环境下的自适应能力。

此外，本发明通过控制李雅普诺夫函数的安全屏障策略约束碰撞避免方法，以确保在不确定情况下具有可证明的前向不变性。最后采用最小侵入式的方式修改轨迹跟踪控制器的参考控制输出，获得平滑控制输出。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)、便携式计算机盘盒(磁装置)、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编辑只读存储器(EPROM或闪速存储器)、光纤装置以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于学习的多无人机系统的安全自适应控制方法，其特征在于，包括：

2.根据权利要求1所述的一种基于学习的多无人机系统的安全自适应控制方法，其特征在于，所述获取未知干扰环境中每个无人机的参考轨迹与状态，构建先验模型，包括：

3.根据权利要求1所述的一种基于学习的多无人机系统的安全自适应控制方法，其特征在于，所述通过增量高斯过程对所述先验模型进行补偿，构建反馈线性化控制律，得到反馈线性化自适应控制器，包括：

4.根据权利要求1所述的一种基于学习的多无人机系统的安全自适应控制方法，其特征在于，所述根据所述反馈线性化自适应控制器，使用基于李雅普诺夫稳定性的安全屏障策略对多无人机系统进行安全约束，包括：

确定无人机与障碍物之间的安全控制空间；

5.一种基于学习的多无人机系统的安全自适应控制装置，其特征在于，包括：

6.一种电子设备，其特征在于，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如权利要求1至4中任一项所述的方法。

7.一种计算机可读存储介质，其特征在于，所述存储介质存储有程序，所述程序被处理器执行实现如权利要求1至4中任一项所述的方法。

8.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的方法。