CN111983923B - 一种受限多智能体系统编队控制方法、系统及设备 - Google Patents

一种受限多智能体系统编队控制方法、系统及设备 Download PDF

Info

Publication number
CN111983923B
CN111983923B CN202010693046.1A CN202010693046A CN111983923B CN 111983923 B CN111983923 B CN 111983923B CN 202010693046 A CN202010693046 A CN 202010693046A CN 111983923 B CN111983923 B CN 111983923B
Authority
CN
China
Prior art keywords
agent
agent system
model
formation control
formation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010693046.1A
Other languages
English (en)
Other versions
CN111983923A (zh
Inventor
尉越
奚乐乐
王星博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peng Cheng Laboratory
Original Assignee
Peng Cheng Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peng Cheng Laboratory filed Critical Peng Cheng Laboratory
Priority to CN202010693046.1A priority Critical patent/CN111983923B/zh
Publication of CN111983923A publication Critical patent/CN111983923A/zh
Application granted granted Critical
Publication of CN111983923B publication Critical patent/CN111983923B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明提出了一种受限多智能体系统编队控制方法、系统及设备,通过建立受限多智能体系统模型,该系统模型包括:多智能体系统拓扑模型、多智能体系统动力学模型和带有多非光滑优化指标的分布式资源分配优化模型;根据所述位置最优解对应的多近端算子、所述多智能体系统动力学模型和所述分布式资源分配优化模型,计算得到各个智能体的满足预设编队条件的第一位置状态信息使用第一位置状态信息对各个智能体进行位置状态控制。本实施例所提供的方法充分利用多智能体系统的群体性优势,可分布式地动态求解优化问题的最优解,并可以光滑地控制受限多智能体系统完成编队任务,可扩展性强,具有很高的实用性。

Description

一种受限多智能体系统编队控制方法、系统及设备
技术领域
本发明涉及多智能体控制技术领域,尤其涉及一种受限多智能体系统编队控制方法、系统及设备。
背景技术
近年来,受限多智能体的分布式编队控制受到了广泛的关注。多智能体编队控制的研究大多是建立在对系统状态和各智能体输入没有限制的理想假设基础上的,但智能体的系统状态或输入通常被限制在某个集合内,而现有技术中的受限多智能体编队控制研究中,未能提出针对带有多个非光滑函数加和形式优化指标情况的光滑编队控制协议,因此无法解决带有多非光滑优化指标的受限多智能体系统的编队控制问题。
因此,现有技术有待于进一步的改进。
发明内容
鉴于现有技术的不足,本发明目的在于提供一种受限多智能体系统编队控制方法、系统及设备,克服现有技术中的受限多智能体编队控制技术中,针对带有多个非光滑优化指标的编队控制方法,还未有有效的解决方案的缺陷。
本发明的技术方案如下:
第一方面,本实施例提供了一种受限多智能体系统编队控制方法,其中,包括:
建立受限多智能体系统模型,其中,所述受限多智能体系统模型包括:多智能体系统拓扑模型、多智能体系统动力学模型和带有多非光滑优化指标的分布式资源分配优化模型;所述多智能体系统拓扑模型中含有多个智能体对应的信息节点;
基于凸优化理论和多算子分割技术,计算得到所述分布式资源分配优化模型中的各个智能体的位置最优解对应的多近端算子;
根据所述位置最优解对应的多近端算子、所述多智能体系统动力学模型和所述分布式资源分配优化模型,得到第一编队控制算法,并基于所述第一编队控制算法计算得到各个智能体的满足预设编队条件的第一位置状态信息;
根据计算得到的各个智能体满足的第一位置状态信息对各个智能体进行编队控制。
可选的,所述非光滑优化指标中含有多个独立的非光滑凸函数;各个智能体对应的信息节点构成有向强连通图;且所述分布式资源分配优化模型至少有一个可行解。
可选的,所述多智能体系统由若干个一阶积分器模型的智能体组成,其运动学模型为:
Figure BDA0002590025070000021
其中,ui(t)为t时刻的速度控制量,
Figure BDA0002590025070000022
是智能体i的位置状态;每个智能体i∈{1,…,n}有m+1个函数
Figure BDA0002590025070000023
包含在代价函数中,其中,fi0是光滑凸函数,fi j,j∈{1,…,n}是非光滑凸函数,其中的一个非光滑函数为智能体i的局部区域限制Ωi的指示函数。
第二方面,一种受限多智能体系统编队控制方法,其中,包括:
建立受限多智能体系统模型,其中,所述受限多智能体系统模型包括:多智能体系统拓扑模型、多智能体系统动力学模型和带有多非光滑优化指标的分布式资源分配优化模型;所述多智能体系统拓扑模型中含有多个智能体对应的信息节点;
基于凸优化理论和多算子分割技术,计算得到所述分布式资源分配优化模型中的各个智能体的位置最优解对应的多近端算子;
根据所述位置最优解对应的多近端算子、所述多智能体系统动力学模型、所述分布式资源分配优化模型和引入用于评估分布式左特征向量的信息估计器,得到第二编队控制算法,并基于所述第二编队控制算法计算得到各个智能体的满足预设编队条件的第二位置状态信息;
根据计算得到的各个智能体满足的第二位置状态信息对各个智能体进行编队控制。
第三方面,本实施例提供了一种受限多智能体系统编队控制系统,其中,包括:
模型构建模块,用于建立受限多智能体系统模型,其中,所述受限多智能体系统模型包括:多智能体系统拓扑模型、多智能体系统动力学模型和带有多非光滑优化指标的分布式资源分配优化模型;所述多智能体系统拓扑模型中含有多个智能体对应的信息节点;
多近端算子计算模块,用于基于凸优化理论和多算子分割技术,计算得到所述分布式资源分配优化模型中的各个智能体的位置最优解对应的多近端算子;
位置计算模块,用于根据所述位置最优解对应的多近端算子、所述多智能体系统动力学模型和所述分布式资源分配优化模型,得到第一编队控制算法,并基于所述第一编队控制算法计算得到各个智能体的满足预设编队条件的第一位置状态信息;
驱动控制模块,用于根据计算得到的各个智能体满足的第一位置状态信息对各个智能体进行编队控制。
第四方面,本实施例公开了一种受限多智能体系统编队控制装置,其中,包括:处理器、与处理器通信连接的存储介质,所述存储介质适于存储多条指令;所述处理器适于调用所述存储介质中的指令,以执行实现所述的受限多智能体系统编队控制方法的步骤。
第五方面,本实施例公开了一种计算机可读存储介质,其中,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如所述的受限多智能体系统编队控制方法的步骤。
有益效果:本发明提出了一种受限多智能体系统编队控制方法、系统及设备,通过建立受限多智能体系统模型,该系统模型包括:多智能体系统拓扑模型、多智能体系统动力学模型和带有多非光滑优化指标的分布式资源分配优化模型;根据分布式资源分配优化模型中的各个智能体的位置最优解对应的多近端算子得到第一编队控制算法,并根据所述第一编队控制算法得到各个智能体的第一位置状态信息,使用第一位置状态信息对各个智能体进行位置状态控制。本实施例所提供的方法是一种分布式的多智能体系统编队控制方案,充分利用多智能体系统的群体性优势,可分布式地动态求解优化问题的最优解,并可以光滑地控制受限多智能体系统完成编队任务,可扩展性强,具有很高的实用性。
附图说明
图1是本发明所述一种受限多智能体系统编队控制方法的步骤流程图;
图2是本发明所述方法中多智能体系统的拓扑结构示意图;
图3是本发明所述方法中多智能体系统的方法原理示意图;
图4为第二编队控制算法驱动下整体多智能体系统随时间运动的运动轨迹图;
图5为多智能体系统等式约束编队条件
Figure BDA0002590025070000041
Figure BDA0002590025070000042
轨迹图;
图6为多智能体系统不等式约束编队条件Bixi-gi,i∈{1,2,3,4}的x1维度轨迹图;
图7为多智能体系统不等式约束编队条件Bixi-gi,i∈{1,2,3,4}的x2维度轨迹图;
图8为多智能体系统位置状态
Figure BDA0002590025070000051
的轨迹图;
图9为多智能体系统位置状态
Figure BDA0002590025070000052
的轨迹图;
图10为多智能体系统全局代价函数F(x)的变化轨迹图;
图11是本实施例受限多智能体系统的原理结构框图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
在当代研究中,随着人类社会学和生物学研究的发展和指导,多智能体系统的分布式协同控制已经扩展到许多学科,解决了许多分布式任务,成为控制领域的一个研究热点。多智能体系统是指一组具有自组织能力的智能个体,它们可以相互协作完成一系列给定的群体任务。在多智能体系统的研究中,集群的概念来源于生物学的行为科学,如蚁群搬运、鸟群飞行、鱼群抵御捕食者等,多个个体之间的协同与合作将大大提高个体行为的智能化程度,更好地完成个体的行为许多个人无法完成的工作,具有效率高、可扩展性强、并行处理等优点。多智能体系统的分布式控制在过去的十年中得到了广泛的应用,包括分布式编队控制、分布式节点部署、无线传感器网络、机械臂协同作业、无人机编队、卫星编队、集群航天器深空探测等以及其他领域。
近年来,受限多智能体系统的分布式编队控制受到了广泛的关注。多智能体系统编队控制的研究大多是建立在对系统状态和各智能体输入没有限制的理想假设基础上的,但智能体的系统状态或输入通常被限制在某个集合内。在多无人机编队控制中,由于考虑到机体的安全性,无人机系统需要满足一定的限制条件,例如在无人机分布式编队搜救任务中,要保证机队避开危险区域;在实际的车辆驾驶中,速度和加速度通常受到饱和,在多智能车辆系统的编队控制中,不仅要保证队形的稳定性,还要始终保持多智能体系统的连通性,并且在一定的限度内形成足够的灵活性。由于现实中对系统模型或任务目标的需要,在设计分布式控制器时需要考虑许多约束条件,大大增加了设计难度。原有的控制器设计思想已不能满足这些控制系统的要求。因此,受限多智能体系统的分布式编队控制具有重要意义。同时在许多任务场景中,受限多智能体系统的分布式编队控制也要考虑相应的优化指标。不同性质约束的处理是受限多智能体系统分布式编队控制研究的关键问题。因此,具有指标优化任务的受限多智能体系统的分布式编队控制具有重要意义。
非光滑指标优化的分布式编队控制有两种重要的算法设计思路。第一种是基于非光滑分析设计非光滑算法。然而这种算法的不连续性可能导致系统状态突变从而影响实际物理系统的控制实现,此外非光滑算法的收敛性也很难分析。
综上所述,现有的带有指标优化的受限多智能体编队控制研究中,未能提出针对带有多个非光滑函数加和形式优化指标情况的光滑编队控制协议,没有涉及等式约束与不等式约束形式共存的编队条件,并且未充分考虑非平衡有向图情况下的控制协议设计,相关的稳定性理论欠缺。
针对现有技术中受限多智能体编队控制方法中未针对带有多个非光滑函数加和形式优化指标情况的编队控制方法,本实施例提供了一种带有多非光滑优化指标的受限多智能体系统光滑编队控制方法,本方法以多智能体系统为研究对象,系统拓扑结构选用有向图描述,节点动力学模型采用通用的一阶积分器方程描述。首先,针对实际的带有优化指标的多智能体系统编队控制问题,构造出一种全新的分布式资源分配编队控制问题模型。通过求解优化问题的最优解,以实现可以光滑地控制受限多智能体系统完成编队任务,本实施例可扩展性强,具有较高的实际应用价值。
示例性方法
第一方面,本实施例公开了一种受限多智能体系统编队控制方法,如图1所示,包括:
步骤S1、建立受限多智能体系统模型,其中,所述受限多智能体系统模型包括:多智能体系统拓扑模型、多智能体系统动力学模型和带有多非光滑优化指标的分布式资源分配优化模型;所述多智能体系统拓扑模型中含有多个智能体对应的信息节点。
本步骤中,首先,针对多智能体系统的实际物理意义及节点间的信息交互方式建立受限多智能体系统模型。规定单个节点只能获得邻居的相关状态信息,由此建立基于邻居相关状态的多智能体系统模型。多智能体系统模型主要包括两部分,第一部分为多智能体系统拓扑模型,第二部分为多智能体系统动力学模型以及带有多非光滑优化指标的受限多智能体系统编队控制问题的分布式资源分配优化模型。
结合图2所示,多智能体系统拓扑模型中含多个智能体,各个智能体对应一个信息节点。
一个加权图
Figure BDA0002590025070000081
可以用
Figure BDA0002590025070000082
来表示,具体示例如图1,其中
Figure BDA0002590025070000083
是图中所含智能体表示的信息节点所组成的集合,ε表示图中节点之间所形成的通信边的集合。
Figure BDA0002590025070000084
是加权邻接矩阵,n为智能体节点个数。一条通信边eij∈ε意味着智能体i可以从智能体j处收到信息。如果通信边eij∈ε,那么aij>0,否则aij=0。同时规定
Figure BDA0002590025070000085
Figure BDA0002590025070000086
为智能体编号的集合。智能体
Figure BDA0002590025070000087
表示智能体j是智能体i的邻居,
Figure BDA0002590025070000088
为智能体i邻居所组成的集合。智能体i的入度与出度分别表示为
Figure BDA0002590025070000089
Figure BDA00025900250700000810
图的拉普拉斯矩阵可以表示为
Figure BDA00025900250700000811
其中矩阵
Figure BDA00025900250700000812
是以智能体i∈{1,…,n}相关的
Figure BDA00025900250700000813
为对角线元素的对角矩阵。我们用‖·‖表示欧几里得范数,并且用
Figure BDA00025900250700000814
表示实数的集合。
Figure BDA00025900250700000815
表示所有正实数所组成的集合。矩阵
Figure BDA00025900250700000816
表示对角矩阵,其中第i个矩阵对角线元素是i∈{1,…,n}相对应的
Figure BDA00025900250700000817
矩阵In表示一个n维单位矩阵。向量
Figure BDA00025900250700000818
代表元素全为零的向量。矩阵On代表n维空矩阵,其中每一个On中的元素均为零。(·)T代表矩阵的转置运算。假设图
Figure BDA00025900250700000819
是一个强连通有向图,其拉普拉斯矩阵为Ln,那么存在一个对应于拉普拉斯矩阵零特征值的正左特征向量h=(h1,h2,…,hn)T使得
Figure BDA00025900250700000820
Figure BDA00025900250700000821
成立。同时有
Figure BDA00025900250700000822
其中向量
Figure BDA00025900250700000823
代表n维单位向量,
Figure BDA0002590025070000091
是有关H=diag(h1,h2,…,hn)的组合矩阵,υ是任意的n维向量,特征值λ2(L)是其第二小特征值,x为智能体的位置状态。
在拓扑模型的基础上,本方案建立了多智能体系统动力学模型与带有多非光滑优化指标的受限多智能体系统编队控制问题的分布式资源分配优化模型。本发明研究的主旨是解决一类带有非光滑优化指标的受限多智能体系统编队控制问题,其中非光滑优化指标中含有多个独立的非光滑凸函数,除此之外,系统状态最终还要满足给定的有关群体任务的等式约束编队条件与不等式约束编队条件。由此引申出来的这类问题的代价函数为局部代价函数之和,其中每个局部代价函数是由一个二次可导的光滑凸函数与多个非光滑凸函数组成。虽然每个非光滑函数可以近端化,但其加和形式可能不可近端化,上述问题被总结为一个优化指标为单光滑加多非光滑函数的多智能体系统编队控制问题。在本问题中,所考虑的多智能体系统由n个一阶积分器模型的智能体组成,其运动学模型如下:
Figure BDA0002590025070000092
其中ui(t)为t时刻的速度控制量,
Figure BDA0002590025070000093
是智能体i的位置状态,多智能体系统所构成的网络拓扑图为
Figure BDA0002590025070000094
每个智能体i∈{1,…,n}有m+1个函数
Figure BDA0002590025070000095
包含在代价函数中,其中fi 0是光滑凸函数,fi j,j∈{1,…,n}是非光滑凸函数,其中的一个非光滑函数为智能体i的局部区域限制Ωi的指示函数。每个智能体只能得到关于自己代价函数的信息。本发明所考虑的受限多智能体系统编队控制问题的分布式资源分配模型为:
Figure BDA0002590025070000096
对于i∈{1,…,n},其中
Figure BDA0002590025070000097
Iq是q×q维的单位矩阵,di是智能体i需要实现的等式约束编队条件要求的位置,Bi是q×q维实矩阵,gi是q维实向量。状态
Figure BDA0002590025070000101
是第i个智能体的位置状态向量,并且
Figure BDA0002590025070000102
在本发明所研究的编队控制问题中,优化任务需要在等式约束编队条件
Figure BDA0002590025070000103
与不等式约束编队条件Bixi≤gi,i∈{1,…,n}满足的基础上完成。为了多智能体系统编队控制问题(1)描述的准确性,这里给出了一些问题的假设。
假设1:对于智能体i∈{1,…,n},fi 0是二次连续可微函数并且强凸,这意味着存在一个常数c>0使得对于每个智能体i都有
Figure BDA0002590025070000104
其中
Figure BDA0002590025070000105
不失一般性,可以假设c>m-1。
假设2:对于所有i∈{1,…,n},j∈{1,…,m}而言,每个fi j都是(非光滑)下半连续、紧的、适当凸函数,并且可以近端化。
假设3:加权拓扑图
Figure BDA0002590025070000106
是有向强连通图。
假设4:对于控制问题(1)总存在至少一个可行解。
步骤S2、基于凸优化理论和多算子分割技术,计算得到所述分布式资源分配优化模型中的各个智能体的位置最优解对应的多近端算子。
所述多近端算子为多个非光滑代价函数的近端算子(proximal operator),所述近端算子是使得非光滑代价函数取得最小化的算子。
针对多智能体系统编队控制问题(1)中所带有的多个非光滑优化指标,通过近端算子、凸优化与算子分割技术设计多近端算子框架,从而指导下一步骤的算法设计。
首先简要介绍近端算子的定义与相关性质。
给定一个f(δ)为下半连续的凸函数,其中
Figure BDA0002590025070000107
那么f(δ)在
Figure BDA0002590025070000108
处的近端算子proxf[η]与Moreau包络分别为
Figure BDA0002590025070000109
Figure BDA0002590025070000111
Moreau包络Mf[η]是f(δ)在η处的一个本质光滑或正则化的形式:它是连续可微的,无论f(δ)是否连续可微。定义一个对于闭合凸集Ω的指示函数为IΩ(δ),当δ∈Ω时IΩ(δ)=0,其他情况IΩ(δ)=+∞。此时有
Figure BDA0002590025070000112
其中PΩ[η]=argminδ∈Ω‖δ-η‖是投影算子。这里让
Figure BDA0002590025070000113
代表f(δ)的次梯度。如果f(δ)是凸的,那么
Figure BDA0002590025070000114
即为单调的,也就是说对于所有
Figure BDA0002590025070000115
Figure BDA0002590025070000116
都有
Figure BDA0002590025070000117
δ=proxf[η]等同于
Figure BDA0002590025070000118
此外,根据不动点算法的性质可知‖proxf1)-proxf2)‖≤‖δ12‖。
这意味着proxf(·)是一个非扩张算子,也就是说proxf(·)是1-利普希茨连续的。
针对编队控制问题(1),由凸优化理论可以推导出以下结论。
引理1:如果假设1到假设4成立,那么一个可行点
Figure BDA0002590025070000119
是控制问题(1)的一个可行解当且仅当存在
Figure BDA00025900250700001110
Figure BDA00025900250700001111
使得
Figure BDA00025900250700001112
Bx*-g≤0nq且(w*)T(Bx*-g)=0,其中j∈{1,…,m},
Figure BDA00025900250700001113
Figure BDA00025900250700001114
B是以Bi为对角线元素的矩阵,g是以gi为元素的向量。需要注意的是,本引理的证明是文献(Ruszczynski A P,Ruszczynski A.NonlinearOptimization[M].Princeton,NJ,USA:Princeton university press,2006.)中定理3.34证明的简单延展。之后为了处理因为
Figure BDA00025900250700001115
的不可近端化的性质所带来的困难,受到三算子分割法的启发,本发明提出了基于多近端算子的多算子分割技术。这里需要引入一组辅助变量
Figure BDA00025900250700001116
与一个参数
Figure BDA00025900250700001117
来估计
Figure BDA00025900250700001118
使得存在一组可行点
Figure BDA00025900250700001211
满足
Figure BDA0002590025070000121
Figure BDA0002590025070000122
根据近端算子的性质,由此可以知道控制问题(1)的最优解x*的多近端算子为:
Figure BDA0002590025070000123
Figure BDA0002590025070000124
其中对于任意的
Figure BDA0002590025070000125
i∈{1,…,n},均有
Figure BDA0002590025070000126
从式(2)与式(3)来看,设计
Figure BDA0002590025070000127
的目的即为估计第j∈{1,…,m-1}个非光滑函数次梯度
Figure BDA0002590025070000128
中的次导数。
步骤S3、根据所述位置最优解对应的多近端算子、所述多智能体系统动力学模型和所述分布式资源分配优化模型,得到第一编队控制算法,并基于所述第一编队控制算法计算得到各个智能体的满足预设编队条件的第一位置状态信息。
利用步骤S2中的多近端算子技术,在非平衡有向图中已知左特征向量h信息的情况下设计分布式光滑控制算法并证明所设计算法的有效性。值得注意的是,本技术方案提出的光滑编队控制协议也可以处理平衡有向图或无向图情况下的编队控制问题,因为在这些情况下
Figure BDA0002590025070000129
根据式(2)与式(3)所描述的多近端算子框架,本发明所提出的针对h信息已知情况下的带有多非光滑优化指标的受限多智能体系统编队控制算法如下:
Figure BDA00025900250700001210
其中t≥0,i∈{1,…,n},0<α1<1/(m-1),v1,i是智能体i的拉格朗日乘子。
Figure BDA0002590025070000131
j=1,2,
Figure BDA0002590025070000132
是矩阵Ln和Iq的克朗内克积。τ≥maxi∈{1,…,nq}{|λi(B)|},μ<[1-α1(m-1)]/τ。
Figure BDA0002590025070000133
是对nq维非负实向量的投影算子。需要注意的是,控制算法(4)是一个完全分布式的主-对偶控制算法,基本思路是求解拉格朗日方程
Figure BDA0002590025070000134
的鞍点动力学,其中
Figure BDA0002590025070000135
j∈{0,1,…,m}。
Figure BDA0002590025070000136
是一个控制算法(4)的平衡点。
首先给出一个李雅普诺夫备选函数:
V(x,y,v1,v2,w)=V1(x,y,w)+V2(x)+V3(v1,v2);
其中各项的表达式:
Figure BDA0002590025070000137
其中
Figure BDA0002590025070000138
根据控制算法(4)与引理1,在此可以得出以下结论:
定理1:若假设1到假设4均成立。对于含有n个一阶积分器模型智能体的多智能体系统,其控制算法为算法(4)。如果满足不等式
Figure BDA0002590025070000139
其中
Figure BDA00025900250700001310
那么x(t)随时间收敛并且
Figure BDA00025900250700001311
是控制问题(1)的一个最优解,即多智能体系统的状态x(t)会渐近收敛到编队条件满足的位置,并且是控制问题(1)中的非光滑优化指标的最优解。
证明:显然V3(v1,v2)≥0。首先说明V1(x,y,w)≥0。由于0<α1<1/(m-1),因此有
Figure BDA0002590025070000141
其次说明V2(x)≥0。由于fi 0(x),i∈{1,…,n}的凸性,因此可以得到结论
Figure BDA0002590025070000142
由此可知V2(x)≥0。综上所述,很明显V(x,y,v1,v2,w)是非负的且径向无界的,V(x,y,v1,v2,w)≥0,并且V(x,y,v1,v2,w)=0当且仅当
Figure BDA0002590025070000143
之后需要说明的是
Figure BDA0002590025070000144
从控制算法(4)中可以得出对于j∈{1,…,m-1}有
Figure BDA0002590025070000145
由此可以得出:
Figure BDA0002590025070000146
另一方面,考虑控制算法(4),可知李雅普诺夫备选函数V(x,y,v1,v2)导数的轨迹满足
Figure BDA0002590025070000151
根据假设1可知,存在一个b2>0使得
Figure BDA0002590025070000152
因此可以得出结论
Figure BDA0002590025070000153
其中
Figure BDA0002590025070000154
总存在
Figure BDA0002590025070000155
这说明可以保证总有b1>0以及b3>0。
根据上述分析并使用不等式
Figure BDA0002590025070000156
式(10)可以转化为
Figure BDA0002590025070000157
其中,
Figure BDA0002590025070000158
4=α2α3λ2(Lnq)-(α3+1)2,∈5=1/4,∈6=(α3+1)(1-μτ)。
此外因为V(x,y,v1,v2,w)是正的、径向无界且有下界,由此可知
Figure BDA0002590025070000159
是李雅普诺夫稳定的。从不变集原理可以看出(x(t),y(t),v1(t),v2(t),w(t))会收敛到
Figure BDA00025900250700001510
中的最大不变集中。因为
Figure BDA0002590025070000161
是控制算法(4)的一个平衡点,那么根据近端算子的性质可以得到
Figure BDA0002590025070000162
因为
Figure BDA0002590025070000163
所以有
Figure BDA0002590025070000164
考虑v2(0)=0nq,因此这里可以得到结论
Figure BDA0002590025070000165
这说明
Figure BDA0002590025070000166
之后可知w*≥0nq
Figure BDA0002590025070000167
如果w*=0nq,则有Bx*-g<0nq;如果w*>0nq,则有Bx*-g=0nq,因此有Bx*-g≤0nq且(w*)T(Bx*-g)=0。
综上所述,可知x(t)随时间收敛并且
Figure BDA0002590025070000168
是控制问题(1)的一个最优解,即多智能体系统的状态x(t)会渐近收敛到编队条件满足的位置,并且是控制问题(1)中的非光滑优化指标的最优解。注意定理1中给出的不等式(6)为控制算法(4)的有效性提供了充分条件。虽然不等式中用到了如h*与λ2(Lnq)等全局信息,但可以用分布式算法事先估计。
步骤S4、根据计算得到的各个智能体满足的第一位置状态信息对各个智能体进行编队控制。
另一方面,由于左特征向量h是一个全局信息,很难由单独的智能体得到,因此本步骤中根据实施例所公开的控制算法,考虑非平衡有向图中未知左特征向量h信息的情况下,为算法引入分布式左特征向量h信息估计器,设计非平衡图下的自适应分布式光滑控制算法,并且利用针对集合收敛的积分输入-状态稳定理论证明所设计算法的有效性。
因此当左特征向量h未知的情况下,本实施例还提供了另一种受限多智能体系统编队控制方法,包括:
建立受限多智能体系统模型,其中,所述受限多智能体系统模型包括:多智能体系统拓扑模型、多智能体系统动力学模型和带有多非光滑优化指标的分布式资源分配优化模型;所述多智能体系统拓扑模型中含有多个智能体对应的信息节点;该步骤的功能与步骤S1相同。
基于凸优化理论和多算子分割技术,计算得到所述分布式资源分配优化模型中的各个智能体的位置最优解对应的多近端算子;该步骤的功能与步骤S2相同。
根据所述位置最优解对应的多近端算子、所述多智能体系统动力学模型、所述分布式资源分配优化模型和引入用于评估分布式左特征向量的信息估计器,得到第二编队控制算法,并基于所述第二编队控制算法计算得到各个智能体的满足预设编队条件的第二位置状态信息。
根据计算得到的各个智能体满足的第二位置状态信息对各个智能体进行编队控制。
由于左特征向量h是一个全局信息,很难由单独的智能体得到。因此根据上述步骤S3中的第一编队控制算法,考虑非平衡有向图中未知左特征向量h信息的情况下,为算法引入分布式左特征向量h信息估计器,设计非平衡图下的自适应分布式光滑控制算法,并且利用针对集合收敛的积分输入-状态稳定理论证明所设计算法的有效性。类似于算法(4),根据多近端算子框架与多智能体系统连通性理论,对于j=1,…,m-1,本发明所提出的带有分布式h估计器的带有非光滑优化指标受限多智能体系统编队控制算法为
Figure BDA0002590025070000171
Figure BDA0002590025070000172
Figure BDA0002590025070000173
Figure BDA0002590025070000174
Figure BDA0002590025070000175
其中
Figure BDA0002590025070000176
Figure BDA0002590025070000177
是n维单位阵的第i行向量。t≥0,i∈{1,…,n},0<α1<1/(m-1),v1,i是智能体i的拉格朗日乘子;
Figure BDA0002590025070000181
j=1,2,
Figure BDA0002590025070000182
是矩阵Ln和Iq的克朗内克积;τ≥maxi∈{1,…,nq}{|λi(B)|},μ<[1-α1(m-1)]/τ;
Figure BDA0002590025070000183
是对nq维非负实向量的投影算子。类似定理1,本技术方案在这里给出在控制算法(10)下多智能体系统收敛性的主要结论。
定理2:若假设1到假设4均成立。对于含有n个一阶积分器模型智能体的多智能体系统,其控制算法为算法(10)。如果满足不等式(6),那么x(t)随时间收敛并且
Figure BDA0002590025070000184
是控制问题(1)的一个最优解,即多智能体系统的状态x(t)会渐近收敛到编队条件满足的位置,并且是控制问题(1)中的非光滑优化指标的最优解。
证明:由于v3的演化与系统中其他状态η=col(x,y,v1,v2,w)是独立的,因此控制算法(10)驱动的多智能体系可以分成三部分,其表达式如下:
Figure BDA0002590025070000185
其中
Figure BDA0002590025070000186
Figure BDA0002590025070000187
Figure BDA0002590025070000188
首先仅考虑第一个子系统;
Figure BDA0002590025070000189
从定理1中可知(x(t),y(t),v1(t),v2(t),w(t))收敛于
Figure BDA00025900250700001810
中的最大不变集
Figure BDA00025900250700001811
之后考虑系统
Figure BDA00025900250700001812
其中
Figure BDA00025900250700001813
重新分析李雅普诺夫备选函数V(x,y,v1,v2,w),可知
Figure BDA00025900250700001814
其中,
Figure BDA00025900250700001815
Figure BDA00025900250700001816
因为ρ(t)→0当t→∞,存在一个时刻T0使得当t>T0时,有
Figure BDA0002590025070000191
因此当t>T0时有
Figure BDA0002590025070000192
当t=T0时,(x,y,v1,v2,w)有界。综上所述,可知V(x,y,v1,v2,w)是李雅普诺夫稳定的,因此根据拉萨尔不变集原理,系统
Figure BDA0002590025070000193
收敛于
Figure BDA0002590025070000194
上的最大不变集
Figure BDA0002590025070000195
其中每个点都是控制问题(1)的最优解。最后考虑完整系统(11),显然
Figure BDA0002590025070000196
是一个系统(11)的紧零不变集,因此类似
Figure BDA0002590025070000197
的分析可知,每个
Figure BDA0002590025070000198
都是李雅普诺夫稳定的。之后可以定义一个对应集合
Figure BDA0002590025070000199
的积分输入-状态稳定李雅普诺夫备选函数
Figure BDA00025900250700001910
根据对应集合
Figure BDA00025900250700001911
的积分输入-状态稳定理论,可知系统(11)在t>T0时对应集合
Figure BDA00025900250700001912
是零输出耗散的。又可知G3是随时间指数收敛到零的,因此根据带有指数收敛输入的集合收敛积分输入-状态稳定理论,存在一个时间序列ST使得其对应的状态序列
Figure BDA00025900250700001913
收敛到零,说明了x(t,G3(t))会在t→∞处收敛到
Figure BDA00025900250700001914
其中所有点都是控制算法(10)的平衡点。如果
Figure BDA00025900250700001915
是控制算法(10)的一个平衡点,那么类似于定理1的证明,这里可以得出
Figure BDA00025900250700001916
从控制算法(10)中可知v3的初始值为
Figure BDA00025900250700001917
因此可以得到
Figure BDA00025900250700001918
由此可知
Figure BDA00025900250700001919
因为
Figure BDA00025900250700001920
由此可知
Figure BDA00025900250700001921
其中
Figure BDA00025900250700001922
Figure BDA00025900250700001923
的第(i-1)q+i个分量上的元素。基于上述结果,再考虑式(12),因此有
Figure BDA00025900250700001924
又因为v2(0)=0nq,因此有
Figure BDA00025900250700001925
综上所述,可以得到结论
Figure BDA0002590025070000201
又有Bx*-g≤0nq且(w*)T(Bx*-g)=0,根据引理1可知x(t)随时间收敛并且
Figure BDA0002590025070000202
是控制问题(1)的一个最优解,即多智能体系统的状态x(t)会渐近收敛到编队条件满足的位置,并且是控制问题(1)中的非光滑优化指标的最优解。
在定理2的证明中,控制算法(10)驱动的多智能体系统被分成了三部分。由于估计器v3的估计误差,对应集合
Figure BDA0002590025070000203
的积分输入-状态稳定李雅普诺夫备选函数的值在T0时刻之前可能会增加,但随后证明了李雅普诺夫备选函数在T0之后会渐近收敛到零。由于第二个系统会渐近收敛到
Figure BDA0002590025070000204
因此一般性的输入-状态稳定理论在这里不适用。通过使用对应集合收敛的积分输入-状态稳定理论,证明了控制算法(10)可以使系统状态渐近收敛到
Figure BDA0002590025070000205
这为有指数收敛性质输入的渐近收敛系统稳定性分析提供了新思路。
本实施例提供了受限多智能体系统光滑编队控制方法,所述控制方法以多智能体系统为研究对象,系统拓扑结构选用有向图描述,节点动力学模型采用通用的一阶积分器方程描述。
结合图3所示,本方法主要包括以下内容:
首先,针对实际的带有优化指标的多智能体系统编队控制问题,构造出一种全新的分布式资源分配编队控制问题模型,完成了对多智能体系统编队控制与其所包含的资源分配问题的完整描述,体现了问题目标函数中含有多个非光滑独立函数的特点。
其次,本方法通过对优化指标中多个非光滑函数次梯度的估计,构造出一种全新的多近端算子,完成了对多个非光滑函数近端算子的解耦,保证了所提出的编队控制方案的光滑性。在此基础上,考虑到节点只能获得邻居相关状态信息,并且系统拓扑为有向图,针对系统拓扑为非平衡有向图的情况,基于多近端算子框架设计了一种已知系统拓扑连通矩阵零特征值的左特征向量前提下的分布式光滑控制方案。
最后,针对系统拓扑为非平衡有向图且左特征向量未知的情况,设计了一种包含系统拓扑连通矩阵零特征值的左特征向量分布式估计器的分布式自适应光滑编队控制方案。考虑到带有多非光滑优化指标的受限多智能体系统编队控制中的集合收敛问题,本发明提出了一套针对集合的积分输入-状态稳定理论,充分说明了本发明针对的受限多智能体系统在集合收敛情况下的积分输入-状态稳定理论的有效性,证明了本方案可以光滑地求解带有多非光滑优化指标的受限多智能体系统编队控制问题,使受限多智能体系统状态最终收敛到完成非光滑优化任务的位置,并且满足给定的等式约束与不等式约束编队条件。
该方案是一种分布式的多智能体系统编队控制方案,充分利用多智能体系统的群体性优势,可分布式地动态求解优化问题的最优解,并可以光滑地控制受限多智能体系统完成编队任务,可扩展性强,具有很高的实际应用价值。
下面给出了带有分布式h信息估计器的控制算法(10)下带有多非光滑优化指标的受限多智能体系统编队控制的相应仿真,验证了控制算法(10)的有效性。假设系统中含有四个模型为一阶积分器的多智能体,在二维平面内运动,考虑的受限多智能体系统编队控制问题具体形式为
min f(x)=f0(x)+f1(x)+f2(x)+f3(x)
=‖x-m‖2+Ω(x)+‖x-p‖1+‖Tx‖1
Figure BDA0002590025070000211
其中
Figure BDA0002590025070000212
并且有
Figure BDA0002590025070000213
每个智能体i的局部代价函数fi(xi)由以下函数组成:
fi 0(xi)=‖xi-qi2,
fi 1(xi)=‖xi-pi1,
Figure BDA0002590025070000221
Figure BDA0002590025070000222
其中,
Figure BDA0002590025070000223
Figure BDA0002590025070000224
fi 0(xi),fi 1(xi)与fi 2(xi)以及fi 3(xi)分别代表了光滑目标函数、锚点为pi的l1惩罚函数、代表时间/空间稀疏度的l1惩罚函数,以及xi∈Ωi的指示函数。等式约束编队条件中的参数为d1=[5m,-1m]T,d2=[-1m,1m]T,d3=[-1m,-1m]T,d4=[2m,2m]T。代价函数fi 0的导数,fi 1、fi 2以及fi 3的近端算子分别为:
Figure BDA0002590025070000225
Figure BDA0002590025070000226
Figure BDA0002590025070000227
Figure BDA0002590025070000228
其中
Figure BDA0002590025070000229
函数φ(x,y)为
Figure BDA00025900250700002210
有向图
Figure BDA00025900250700002211
的拉普拉斯矩阵为
Figure BDA00025900250700002212
并且智能体的初始位置设定为x1(0)=[-6m,5.5m]T,x2(0)=[6m,5m]T,x3(0)=[5m,-3.5m]T与x4(0)=[-5m,-5m]T。不等式约束编队条件的参数为
Figure BDA00025900250700002213
以及g1=[3.5,4.1]T,g2=[3.2,4.5]T,g3=[2.5,4.8]T,g4=[3.4,3.5]T。设拉格朗日乘子v1,i,i∈{1,2,3,4}与辅助变量
Figure BDA0002590025070000231
v2,i,wi,i∈{1,2,3,4}初始值均为零。v3,i,i∈{1,2,3,4}取值为
Figure BDA0002590025070000232
仿真步长为tp=0.1s,迭代步数为n=700,运行时间为t=30.00s。
第一编队控制算法(即公式(10))驱动下整体多智能体系统随时间运动的运动轨迹如图4所示,等式约束编队条件
Figure BDA0002590025070000233
Figure BDA0002590025070000234
的轨迹如图5所示,不等式约束编队条件Bixi-gi,i∈{1,2,3,4}的轨迹如图6与图7所示,说明了多智能体系统位置状态最终会收敛满足编队条件
Figure BDA0002590025070000235
Figure BDA0002590025070000236
i∈{1,2,3,4}的位置。图8与图9给出了智能体位置状态
Figure BDA0002590025070000237
Figure BDA0002590025070000238
随时间运动的轨迹。图10显示了全局代价函数F(x)的变化轨线,说明局部代价函数之和在系统收敛点最小。从图4到图10中可以看出所有的智能体最终在达成编队条件的同时到达了优化任务最优点。
示例性设备
本实施例公开了一种受限多智能体系统编队控制系统,如图11所示,包括:
模型构建模块111,用于建立受限多智能体系统模型,其中,所述受限多智能体系统模型包括:多智能体系统拓扑模型、多智能体系统动力学模型和带有多非光滑优化指标的分布式资源分配优化模型;所述多智能体系统拓扑模型中含有多个智能体对应的信息节点;其功能如步骤S1所述。
多近端算子计算模块112,用于基于凸优化理论和多算子分割技术,计算得到所述分布式资源分配优化模型中的各个智能体的位置最优解对应的多近端算子;其功能如步骤S2所述。
位置计算模块113,用于根据所述位置最优解对应的多近端算子、所述多智能体系统动力学模型和所述分布式资源分配优化模型,得到第一编队控制算法,并基于所述第一编队控制算法计算得到各个智能体的满足预设编队条件的第一位置状态信息;其功能如步骤S3所述。
驱动控制模块114,用于根据计算得到的各个智能体满足的第一位置信息对各个智能体进行编队控制,其功能如步骤S4所述。
进一步的,当未知左特征向量h信息的情况下,所述位置计算模块113,还可以用于根据所述位置最优解对应的多近端算子、所述多智能体系统动力学模型、所述分布式资源分配优化模型和引入用于评估分布式左特征向量的信息估计器,得到第二编队控制算法,并基于所述第二编队控制算法计算得到各个智能体的满足预设编队条件的第二位置状态信息;
所述驱动控制模块114,还可以根据计算得到的各个智能体满足的第二位置状态信息对各个智能体进行编队控制。
在上述方法的基础上,本实施例还公开了一种受限多智能体系统编队控制装置,包括处理器、与处理器通信连接的存储介质,所述存储介质适于存储多条指令;所述处理器适于调用所述存储介质中的指令,以执行实现所述的受限多智能体系统编队控制方法的步骤。
具体的,所述一种受限多智能体系统编队控制装置包括至少一个处理器(processor)以及存储器(memory),还可以包括显示屏、通信接口(CommunicationsInterface)和总线。其中,处理器、显示屏、存储器和通信接口可以通过总线完成相互间的通信。显示屏设置为显示初始设置模式中预设的用户引导界面。通信接口可以传输信息。处理器可以调用存储器中的逻辑指令,以执行上述实施例中的方法。
此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
存储器作为一种计算机可读存储介质,可设置为存储软件程序、计算机可执行程序,如本公开实施例中的方法对应的程序指令或模块。处理器通过运行存储在存储器中的软件程序、指令或模块,从而执行功能应用以及数据处理,即实现上述实施例中的方法。
存储器可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器。例如,U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
本发明提出了一种建立受限多智能体系统编队控制方法、系统及设备,所述受限多智能体系统模型包括:多智能体系统拓扑模型、多智能体系统动力学模型和带有多非光滑优化指标的分布式资源分配优化模型;所述多智能体系统拓扑模型中含有多个智能体对应的信息节点;基于凸优化理论和多算子分割技术,计算得到所述分布式资源分配优化模型中的各个智能体的位置最优解对应的多近端算子;根据所述位置最优解的多近端算子,以及预设编队控制算法计算得到各个智能体的满足预设编队条件的第一位置状态信息;根据计算得到的各个智能体满足的第一位置状态信息对各个智能体进行编队控制。本实施例所提供的方法是一种分布式的多智能体系统编队控制方案,充分利用多智能体系统的群体性优势,可分布式地动态求解优化问题的最优解,并可以光滑地控制受限多智能体系统完成编队任务,可扩展性强,具有很高的实际应用价值。
可以理解的是,对本领域普通技术人员来说,可以根据本发明的技术方案及其发明构思加以等同替换或改变,而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。

Claims (8)

1.一种受限多智能体系统编队控制方法,其特征在于,包括:
建立受限多智能体系统模型,其中,所述受限多智能体系统模型包括:多智能体系统拓扑模型、多智能体系统动力学模型和带有多非光滑优化指标的分布式资源分配优化模型;所述多智能体系统拓扑模型中含有多个智能体对应的信息节点;
基于凸优化理论和多算子分割技术,计算得到所述分布式资源分配优化模型中的各个智能体的位置最优解对应的多近端算子;
根据所述位置最优解对应的多近端算子、所述多智能体系统动力学模型和所述分布式资源分配优化模型,得到第一编队控制算法,并基于所述第一编队控制算法计算得到各个智能体的满足预设编队条件的第一位置状态信息;
根据计算得到的各个智能体满足的第一位置状态信息对各个智能体进行编队控制;
所述第一编队控制算法的表达式为:
Figure FDA0003929858060000011
Figure FDA0003929858060000012
Figure FDA0003929858060000013
Figure FDA0003929858060000014
Figure FDA0003929858060000015
其中,u(t)为t时刻的速度控制量,x(t)为多智能体系统的t时刻状态,t≥0,i∈{1,…,n},0<α1<1/(m-1),m为非光滑函数个数;Fm是第m个非光滑函数,Fj是第j个非光滑函数,j∈{1,…,m-1};v1,i是智能体i的拉格朗日乘子,
Figure FDA0003929858060000016
v2是辅助向量,
Figure FDA0003929858060000017
v2(0)是v2的初始值;对角矩阵
Figure FDA0003929858060000018
矩阵
Figure FDA0003929858060000019
是拉普拉斯矩阵Ln和单位矩阵Iq的克朗内克积;τ≥maxi∈{1,…,nq}{|λi(B)|},μ<[1-α1(m-1)]/τ;
Figure FDA0003929858060000021
是对nq维非负实向量的投影算子;
Figure FDA0003929858060000022
Figure FDA0003929858060000023
是对y*=[y1*,…,yn*]的估计向量,yj是向量y的第j个分量,
Figure FDA0003929858060000024
是辅助向量,
Figure FDA0003929858060000025
为等式约束编队条件中的所需要实现位置;λi(Lnq)是矩阵Lnq的第i大特征值,hi为Lnq零特征值左特征向量的第i个分量,i∈{1,…,n},h为Lnq零特征值的左特征向量;
Figure FDA0003929858060000026
Figure FDA0003929858060000027
Figure FDA0003929858060000028
其中,nq×nq维对角矩阵B=diag[B1,…,Bn],
Figure FDA0003929858060000029
b1、b2和c均为多智能体系统所对应总代价函数的相关参数。
2.根据权利要求1所述的受限多智能体系统编队控制方法,其特征在于,所述非光滑优化指标中含有多个独立的非光滑凸函数;各个智能体对应的信息节点构成有向强连通图;且所述分布式资源分配优化模型至少有一个可行解。
3.根据权利要求2所述的受限多智能体系统编队控制方法,其特征在于,所述多智能体系统由若干个一阶积分器模型的智能体组成,其运动学模型为:
Figure FDA00039298580600000210
其中,ui(t)为智能体i在t时刻的速度控制量,
Figure FDA00039298580600000211
是智能体i的位置状态;
Figure FDA00039298580600000212
是xi对于时间的导数;每个智能体i∈{1,…,n}有m+1个函数fi 0,fi 1,…,fi m:
Figure FDA00039298580600000213
包含在代价函数中,其中,fi 0是光滑凸函数,fi j,j∈{1,…,n}是非光滑凸函数,其中的一个非光滑函数为智能体i的局部区域限制Ωi的指示函数。
4.根据权利要求3所述的受限多智能体系统编队控制方法,其特征在于,所述多智能体系统的分布式资源分配模型为:
Figure FDA0003929858060000031
其中,F(x)是多智能体系统的总代价函数,系统对于i∈{1,…,n},其中
Figure FDA0003929858060000032
Iq是q×q维的单位矩阵,di是智能体i满足等式约束编队条件要求的位置,Bi是q×q维实矩阵,gi是q维实向量;
Figure FDA0003929858060000033
5.一种受限多智能体系统编队控制方法,其特征在于,包括:
建立受限多智能体系统模型,其中,所述受限多智能体系统模型包括:多智能体系统拓扑模型、多智能体系统动力学模型和带有多非光滑优化指标的分布式资源分配优化模型;所述多智能体系统拓扑模型中含有多个智能体对应的信息节点;
基于凸优化理论和多算子分割技术,计算得到所述分布式资源分配优化模型中的各个智能体的位置最优解对应的多近端算子;
根据所述位置最优解对应的多近端算子、所述多智能体系统动力学模型、所述分布式资源分配优化模型和引入用于评估分布式左特征向量的信息估计器,得到第二编队控制算法,并基于所述第二编队控制算法计算得到各个智能体的满足预设编队条件的第二位置状态信息;
根据计算得到的各个智能体满足的第二位置状态信息对各个智能体进行编队控制;
所述第二编队控制算法的表达式为:
Figure FDA0003929858060000041
Figure FDA0003929858060000042
Figure FDA0003929858060000043
Figure FDA0003929858060000044
Figure FDA0003929858060000045
其中,u(t)为t时刻的速度控制量,x(t)为多智能体系统的t时刻状态,t≥0,i∈{1,…,n},0<α1<1/(m-1),m为非光滑函数个数;Fm是第m个非光滑函数,Fj是第j个非光滑函数,j∈{1,…,m-1};
Figure FDA0003929858060000046
是智能体i对h的估计向量,
Figure FDA0003929858060000047
v2是辅助向量,
Figure FDA0003929858060000048
v2(0)是v2的初始值;对角阵
Figure FDA0003929858060000049
Figure FDA00039298580600000410
是n维单位阵的第i行向量;v1,i是智能体i的拉格朗日乘子;
Figure FDA00039298580600000411
Figure FDA00039298580600000412
矩阵
Figure FDA00039298580600000413
是拉普拉斯矩阵Ln和单位矩阵Iq的克朗内克积;矩阵
Figure FDA00039298580600000414
τ≥maxi∈{1,…,nq}{|λi(B)|},μ<[1-α1(m-1)]/τ;
Figure FDA00039298580600000415
是对nq维非负实向量的投影算子;
Figure FDA00039298580600000416
Figure FDA00039298580600000417
是对y*=[y1*,…,yn*]的估计向量,yj是向量y的第j个分量,
Figure FDA00039298580600000418
是辅助向量,
Figure FDA00039298580600000419
为等式约束编队条件中的所需要实现位置;λi(Lnq)是矩阵Lnq的第i大特征值,hi为Lnq零特征值左特征向量的第i个分量,i∈{1,…,n};
Figure FDA00039298580600000420
Figure FDA00039298580600000421
nq×nq维对角矩阵B=diag[B1,…,Bn],
Figure FDA00039298580600000422
b1、b2和c均为多智能体系统所对应总代价函数的相关参数。
6.一种受限多智能体系统编队控制系统,其特征在于,包括:
模型构建模块,用于建立受限多智能体系统模型,其中,所述受限多智能体系统模型包括:多智能体系统拓扑模型、多智能体系统动力学模型和带有多非光滑优化指标的分布式资源分配优化模型;所述多智能体系统拓扑模型中含有多个智能体对应的信息节点;
多近端算子计算模块,用于基于凸优化理论和多算子分割技术,计算得到所述分布式资源分配优化模型中的各个智能体的位置最优解对应的多近端算子;
位置计算模块,用于根据所述位置最优解对应的多近端算子、所述多智能体系统动力学模型和所述分布式资源分配优化模型,得到第一编队控制算法,并基于所述第一编队控制算法计算得到各个智能体的满足预设编队条件的第一位置状态信息;
驱动控制模块,用于根据计算得到的各个智能体满足的第一位置状态信息对各个智能体进行编队控制;
所述第一编队控制算法的表达式为:
Figure FDA0003929858060000051
Figure FDA0003929858060000052
Figure FDA0003929858060000053
Figure FDA0003929858060000054
Figure FDA0003929858060000055
其中,u(t)为t时刻的速度控制量,x(t)为多智能体系统的t时刻状态,t≥0,i∈{1,…,n},0<α1<1/(m-1),m为非光滑函数个数,Fm是第m个非光滑函数,Fj是第j个非光滑函数;
Figure FDA0003929858060000056
v2是辅助向量,
Figure FDA0003929858060000057
v3是辅助向量,
Figure FDA0003929858060000058
v3(0)是v3的初始值;对角阵
Figure FDA0003929858060000059
Figure FDA00039298580600000510
是n维单位阵的第i行向量;v1,i是智能体i的拉格朗日乘子;
Figure FDA00039298580600000511
矩阵
Figure FDA00039298580600000512
是拉普拉斯矩阵Ln和单位矩阵Iq的克朗内克积;τ≥maxi∈{1,L,nq}{|λi(B)|};
Figure FDA0003929858060000061
是对nq维非负实向量的投影算子;
Figure FDA0003929858060000062
是对y*=[y1*,…,yn*]的估计向量,yj是向量y的第j个分量,
Figure FDA0003929858060000063
是辅助向量,
Figure FDA0003929858060000064
为等式约束编队条件中的所需要实现位置;λi(Lnq)是矩阵Lnq的第i大特征值,hi为Lnq零特征值左特征向量的第i个分量,i∈{1,…,n},μ<[1-α1(m-1)]/τ;
Figure FDA0003929858060000065
Figure FDA0003929858060000066
Figure FDA0003929858060000067
nq×nq维对角矩阵B=diag[B1,…,Bn],
Figure FDA0003929858060000068
Figure FDA0003929858060000069
b1、b2和c均为多智能体系统所对应总代价函数的相关参数。
7.一种受限多智能体系统编队控制装置,其特征在于,包括:处理器、与处理器通信连接的存储介质,所述存储介质适于存储多条指令;所述处理器适于调用所述存储介质中的指令,以执行实现上述权利要求1-5任一项所述的受限多智能体系统编队控制方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1-5任一项所述的受限多智能体系统编队控制方法的步骤。
CN202010693046.1A 2020-07-17 2020-07-17 一种受限多智能体系统编队控制方法、系统及设备 Active CN111983923B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010693046.1A CN111983923B (zh) 2020-07-17 2020-07-17 一种受限多智能体系统编队控制方法、系统及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010693046.1A CN111983923B (zh) 2020-07-17 2020-07-17 一种受限多智能体系统编队控制方法、系统及设备

Publications (2)

Publication Number Publication Date
CN111983923A CN111983923A (zh) 2020-11-24
CN111983923B true CN111983923B (zh) 2022-12-23

Family

ID=73438706

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010693046.1A Active CN111983923B (zh) 2020-07-17 2020-07-17 一种受限多智能体系统编队控制方法、系统及设备

Country Status (1)

Country Link
CN (1) CN111983923B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113848718B (zh) * 2021-09-28 2023-10-31 安徽大学 基于线性算子理论的固定时间的异构分群同步控制算法
CN114489084A (zh) * 2022-02-15 2022-05-13 鲁东大学 一种多机器人在安全通信下的编队控制方法
CN116302449B (zh) * 2023-05-17 2023-08-22 鹏城实验室 跨智能体的算法资源调度方法、装置、设备和介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8195490B2 (en) * 2007-10-15 2012-06-05 University Of Southern California Agent security via approximate solvers
CN109345809A (zh) * 2018-11-19 2019-02-15 南京邮电大学 太阳能无线采集系统的分布式优化方法
CN110426951A (zh) * 2019-07-17 2019-11-08 西北工业大学深圳研究院 一种应用于集群智能系统的鲁棒分布式平均跟踪控制方法
CN111077779B (zh) * 2019-12-23 2022-05-13 华东交通大学 带扰动混杂多智能体系统实现领导-跟随一致性控制方法
CN111290277B (zh) * 2020-02-26 2023-01-10 鹏城实验室 一种分布式多智能体协同故障检测方法、存储介质及设备

Also Published As

Publication number Publication date
CN111983923A (zh) 2020-11-24

Similar Documents

Publication Publication Date Title
CN111983923B (zh) 一种受限多智能体系统编队控制方法、系统及设备
Wen et al. Optimized multi-agent formation control based on an identifier–actor–critic reinforcement learning algorithm
Sabattini et al. Distributed control of multirobot systems with global connectivity maintenance
Khan et al. Graph policy gradients for large scale robot control
CN110658821B (zh) 一种多机器人抗干扰分组时变编队控制方法及系统
CN114020042A (zh) 一种异构无人集群编队合围跟踪控制方法及系统
Majd et al. Integrating learning, optimization, and prediction for efficient navigation of swarms of drones
Liu et al. Learning for multi-robot cooperation in partially observable stochastic environments with macro-actions
Koppel et al. D4l: Decentralized dynamic discriminative dictionary learning
CN110673649A (zh) 基于拓扑优化的时变信道下无人机编队一致性控制方法、系统、装置及存储介质
Stranders et al. Decentralised control of continuously valued control parameters using the max-sum algorithm
Ji et al. Connectedness preserving distributed coordination control over dynamic graphs
Ji et al. Observability and estimation in distributed sensor networks
US20210286375A1 (en) Systems and methods for multi-agent system control using consensus and saturation constraints
CN112947086B (zh) 一种无人机和无人车组成的异构多智能体系统编队控制中执行器故障的自适应补偿方法
Paul et al. Efficient planning of multi-robot collective transport using graph reinforcement learning with higher order topological abstraction
Han et al. Multi-uav automatic dynamic obstacle avoidance with experience-shared a2c
Wang et al. Formation control of multiple nonholonomic mobile robots with limited information of a desired trajectory
CN111880571A (zh) 一种无人机刚性队形切换方法及装置
Vatankhah et al. Active leading through obstacles using ant-colony algorithm
Ren Decentralization of virtual structures in formation control of multiple vehicle systems via consensus strategies
Tuba et al. Water cycle algorithm for robot path planning
CN112637120B (zh) 一种多智能体系统一致性控制方法、终端及存储介质
Li et al. Connectivity-preserving flocking of multiagent systems via selecting critical neighbors
Elmokadem Distributed control for the flocking of multi nonholonomic agent systems with bounded inputs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant