CN112526886A - 随机试验长度下离散多智能体系统迭代学习编队控制方法 - Google Patents

随机试验长度下离散多智能体系统迭代学习编队控制方法 Download PDF

Info

Publication number
CN112526886A
CN112526886A CN202011442840.5A CN202011442840A CN112526886A CN 112526886 A CN112526886 A CN 112526886A CN 202011442840 A CN202011442840 A CN 202011442840A CN 112526886 A CN112526886 A CN 112526886A
Authority
CN
China
Prior art keywords
iteration
agent
iterative learning
state
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011442840.5A
Other languages
English (en)
Inventor
刘杨
凡益民
贾英民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202011442840.5A priority Critical patent/CN112526886A/zh
Publication of CN112526886A publication Critical patent/CN112526886A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0287Control of position or course in two dimensions specially adapted to land vehicles involving a plurality of land vehicles, e.g. fleet or convoy travelling
    • G05D1/0291Fleet control
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft

Landscapes

  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明属于多无人机或者多机器人系统的编队任务领域,特别涉及一种随机试验长度下离散多智能体系统迭代学习编队控制方法,包括步骤:将多智能体协调追踪的状态误差问题转化为追踪误差在一定时间段内稳定性控制问题;设计分布式P型迭代学习控制器;利用λ范数对设计的分布式P型迭代学习控制器在初始状态精确重置和初始状态随机变换下的收敛性进行分析,并求解增益矩阵;对两种情况下的收敛性分析证明进行仿真验证。本发明通过定义与给定编队队形有关的修正状态误差,放松了每次迭代试验长度一致的条件,与单个智能体的现有结果相比,本发明在计算增益矩阵时也更为方便。

Description

随机试验长度下离散多智能体系统迭代学习编队控制方法
技术领域
本发明属于多无人机或者多机器人系统的编队任务领域,特别涉及一种随机试验长度下离散多智能体系统迭代学习编队控制方法。
背景技术
在工业领域中,当一组车辆或移动机器人协作以给定的形式重复运输非常大且重的物体时,它们必须在整个运输过程中(从规定的起始位置到指定位置)保持所需的队形。目前可以通过应用迭代学习控制(ILC)方法解决上述在整个运动过程中都需要维持编队队形的问题。
在最近的研究中,Z.Chun等人(见“Adaptive learning tracking for robotmanipulators with varying trial lengths,”J.Franklin Inst.Eng.Appl.Math.,vol.356,no.12,pp.5993–6014,2019)考虑了机器人操纵器系统的自适应学习控制,其中操作长度随迭代次数的不同而随机变化。R.W.Longman and K.D.Mombaur(见“Investigatingthe use of iterative learning control and repetitive control to implementperiodic gaits,”Lecture Notes Control Inform.Sci.,vol.340,pp.189--218,2006)将ILC策略应用于人形机器人和两足动物步行机器人,在学习过程中,每次迭代周期的时长通常都不相同。由于复杂的因素和未知的动力学因素,单个智能体(例如移动机器人)的学习过程无法保证每次迭代的试验时间相同。而在先前的机器人编队研究中,要求对于所有迭代,每个机器人的运行时间必须是固定的。事实上,如果一个机器人在给定的终端时间之前结束其当前的学习试验,那么整个网络系统的迭代过程将停止,以确保在多个机器人之间始终保持给定的编队结构。因此,将迭代学习方法用于多智能体系统的协同控制时,每次迭代的实际试验长度可能会随机变化。
D.Shen等人(见“Iterative learning control for discrete nonlinearsystems with randomly iteration varying lengths,”Syst.Contr.Lett.,vol.96,pp.81–87,2016)和L.Wang等人(见“Sampled-data iterative learning control forcontinuous-time nonlinear systems with iteration-varying lengths,”Int.J.Robust Nonlin.Contr.,doi:10.1002/rnc.4066,2018)针对试验长度随机变化的系统,处理了随机过程中的概率问题,但求解增益矩阵非常困难。此外,在现有的多智能体编队学习问题研究中(见本申请人的“An iterative learning approach to formationcontrol of multi-agent systems,’Syst.Contr.Lett.,vol.61,no.1,pp.148–154,2012;和“Robust formation control of discrete-time multi-agent systems by iterativelearning approach,”Int.J.Syst.Sci.,vol.46,no.4,pp.625–633,2015.),均没有考虑到诸如移动机器人之类的每个智能体无法保证每次迭代学习试验长度相同的问题。
发明内容
为此,本发明提出一种随机试验长度下离散多智能体系统迭代学习编队控制方法,本方法通过定义与给定多智能体队形有关的修正状态误差,放松了每次迭代试验长度一致的条件,与单个智能体的现有结果相比,本发明在计算增益矩阵时更为方便。
为了实现上述目的,本发明提供的一种随机试验长度下离散多智能体系统迭代学习编队控制方法,包括如下步骤:
S1:将多智能体协调追踪的状态误差问题转化为追踪误差在一定时间段内稳定性控制问题;
S2:设计分布式P型迭代学习控制器;
S3:利用λ范数对步骤S2中设计的分布式P型迭代学习控制器在初始状态精确重置和初始状态随机变换下的收敛性进行分析,并求解增益矩阵;
S4:对步骤S3的分析结果进行仿真验证。
进一步,步骤S1具体过程为:
定义一个由n个智能体组成的离散时间多智能体系统:
xk,j(t+1)=f(xk,j(t))+B(t)uk,j(t),k=0,1,2,…;j=1,…,n, (1)
其中,t=0,1,...,Td是离散时间,Td为期望时间长度,k是离散迭代次数;xk,j(t)∈Rm是第k次迭代时刻t的智能体j的状态;
Figure BDA0002823018420000031
是第k次迭代时刻t的控制输入或方案;f(xk,j(t))∈Rm是一个未知的向量值非线性连续函数;B(t)是系统矩阵,
令Tk表示第k次迭代的实际迭代运行长度,仅考虑0到Tk的迭代过程,将式(1)变为:
Figure BDA0002823018420000032
其中,列向量xk(t)∈Rnm
Figure BDA0002823018420000033
由xk,j(t)和uk,j(t),j=1,...,n分别形成;F(xk(t))=[fT(xk,1(t))…fT(xk,n(t))]T
进一步,步骤S2具体过程为:
首先作出如下三个假设:
假设1:连续函数f(xk,l(t))在xk,l(t)中是全局Lipschitz,即满足:
||f(xk+1,l(t))-f(xk,l(t))||≤kf||xk+1,l(t)-xk,l(t)||
其中,kf为Lipschitz常数,进而
||F(xk+1(t))-F(xk(t))||≤kf||xk+1(t)-xk(t)|| (3)
假设2:第k次迭代的初始状态由xk(0)=x0,
Figure BDA0002823018420000034
表示,其中x0是任意给定的点,即初始偏移对于每次迭代都是固定的;
假设3:第k次迭代的初始状态由
Figure BDA0002823018420000035
Figure BDA0002823018420000036
表示,其中ξ是一个正常数,即每次迭代的初始偏移都在给定区域中变化;
基于上述三个假设条件,单个智能体的状态误差当且仅当满足下式(4)和(5)时,多智能体系统(1)在整个运动过程中实现了期望的编队控制目标,
Figure BDA0002823018420000041
ej(t)=xj(t)-dj(t) (5)
其中,ej(t)是智能体j的状态误差,j=1,...,n,N={1,2,...,n};xj(t)为第j个智能体的状态,dj(t)表示智能体j到公共虚拟领导者的期望相对状态;令
Figure BDA0002823018420000042
e(t)为n个智能体状态误差的紧凑矩阵形式,
定义新变量yj(t),将式(4)和(5)转化为另一个降阶系统(6)的渐近稳定性问题,
yj(t)=e1(t)-ej+1(t),j=1,…,n-1. (6)
将式(6)表示为
Figure BDA0002823018420000043
然后得出
Figure BDA0002823018420000044
以及
Figure BDA0002823018420000045
其中
Figure BDA0002823018420000046
当且仅当y(t)=0时,式(4)成立,
假设在时间t有输出的概率为p(t),如果0<t≤Tmin,则p(t)=1,Tmin是第k次迭代的实际迭代运行最小长度;如果Tmin+1≤t≤Td,则0<p(t)<1,并且p(Tmin)>p(Tmin+1)>…>p(Td),
记第k次迭代时的实际迭代运行长度为Tk的事件为
Figure BDA0002823018420000047
事件
Figure BDA0002823018420000048
的发生概率
Figure BDA0002823018420000049
Figure BDA00028230184200000410
其中,p(Tk)是第k次迭代时的实际迭代运行长度为Tk的概率,P(At)是事件At发生的概率,
定义一个示性函数1(t≤Tk),使其遵守伯努利分布,以解决由每次迭代的迭代长度的随机性引起的问题,对于给定时刻t≤Tmin,等式1(t≤Tk)=1代表迭代学习过程一直持续到时刻t,并且发生的概率p(t)=1;对于给定时刻t>Tmin,时间的集合{t≤Tk}包含{Tk=t},{Tk=t+1},…,{Tk=Td},所以
Figure BDA0002823018420000051
Tmin<t≤Td,P(Aβ)是事件发生的概率,β的取值范围是t到Td,因此,P(1(t≤Tk)=1)=p(t),
Figure BDA0002823018420000052
进一步得到,E{1(t≤Tk)}=1·p(t)+0·(1-p(t))=p(t),其中E{1(t≤Tk)}表示求期望,
定义新的状态误差为:
Figure BDA0002823018420000053
其中,
Figure BDA0002823018420000054
是整个系统第k次迭代的状态误差,ek,j(t)(j=1,…,n)是第j个智能体在第k次迭代t时刻的状态误差;
Figure BDA0002823018420000055
为第k次迭代的修正误差;式(10)变为
Figure BDA0002823018420000056
在任何一次迭代学习过程中,交互图都可能在多智能体运动期间切换,基于ILC理论将迭代学习协议设计为
Figure BDA0002823018420000057
其中,uk,l(t)是第l个智能体在第k次迭代的控制输入;
Figure BDA0002823018420000058
是增益矩阵;ak+1,lj(t)是多智能体间通信拓扑的边上权重;
Figure BDA0002823018420000059
是第j个智能体在第k次迭代中t+1时刻的修正误差;
Figure BDA00028230184200000510
是第l个智能体在第k次迭代时t+1时刻的修正误差;Nk+1,l(t)是对应于第l个智能体在第k+1次迭代的离散时刻t的邻居索引集,
将式(12)写成紧凑形式:
Figure BDA0002823018420000061
其中,
Figure BDA0002823018420000062
是增益矩阵,uk(t)是第k次迭代的控制输入;σk+1(t)表示图
Figure BDA0002823018420000063
在第k+1次迭代的切换信号函数,
Figure BDA0002823018420000064
表示图
Figure BDA0002823018420000065
的拉普拉斯矩阵,其在连续的切换时刻之间是恒定的。
进一步,步骤S3具体过程为:
1)对固定迭代初始偏移情况,进行初始状态精重置下的收敛性分析,具体过程为:
定理1:将迭代学习协议(12)应用于多智能体系统(1),在该多智能体系统(1)中,迭代运行长度在每次迭代中随机变化,并且所述假设1和假设2成立,如果增益矩阵
Figure BDA0002823018420000066
满足
Figure BDA0002823018420000067
则变量
Figure BDA0002823018420000068
可以随着k→∞收敛到零,从而渐近实现了编队控制目标,其中yk,j(t)=ek,1(t)-ek,j+1(t),j=1,…,n-1;式(14)中,sup是指数学含义的上确界:无论t取何值,范数的大小都小于1;
Figure BDA0002823018420000069
是信息交互图的下标集,Li是第i个交互图的拉普拉斯矩阵;
2)对有界迭代初始偏移情况,进行初始状态随机变换下的收敛性分析,具体过程为:
定理2:将迭代学习协议(12)应用于多智能体系统(1),在多智能体系统(1)中,迭代运行长度在每次迭代时随机变化,并且所述假设1和假设3成立,如果增益矩阵
Figure BDA00028230184200000610
满足
Figure BDA00028230184200000611
则yk(t)可以收敛到原点的一个小邻域,其中t=1,…,Td,k→∞,即limsupk→∞E||yk(t)||≤vξ,其中v是一个常数。
本发明的有益效果:
1)本发明所设计的分布式P型迭代学习控制器,放宽了对具有切换拓扑多智能体学习系统的要求,即每个迭代试验的长度都是相同的,在工程上更加实用;
2)与单个智能体的现有结果相比,本发明在计算控制器增益矩阵时更为方便,在数学求解上更加简单。
附图说明
图1为本发明实施例的随机试验长度下离散多无人机系统迭代学习编队控制方法流程图;
图2为本发明实施例的四个无人机的切换交互图;
图3为本发明实施例的四个无人机在第1次迭代的状态轨迹图;
图4为本发明实施例的四个无人机在第25次迭代的状态轨迹图;
图5为本发明实施例的四个无人机在第100次迭代的状态轨迹图;
图6为本发明实施例的初始偏移固定情况下的编队学习过程图;
图7为本发明实施例的初始偏移变化情况下的编队学习过程图。
具体实施方式
下面结合附图和实施例进一步描述本发明,应该理解,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。本实施例以多无人机的迭代学习编队控制为例。
如图1所示,本实施例提供的随机试验长度下离散多无人机系统迭代学习编队控制方法,包括如下步骤:
S1:将多无人机协调追踪的控制问题转化为追踪误差在一定时间段内稳定性控制问题。具体过程如下:
S11:应用代数图理论中的有向图来模拟多无人机之间的交互拓扑;
Figure BDA0002823018420000071
是阶数为n的加权有向图,其中,V={v1,…,vn}为n个节点集合,v1,...,vn为节点;
Figure BDA0002823018420000081
为有向边集,在加权有向图G中,从节点vl到节点vj的边(vl,vj)表示从无人机l到无人机j发送的信息,l=1,2,...,n,j=1,2,...,n;
Figure BDA0002823018420000082
为加权邻接矩阵,ajl为与边(vl,vj)相关联的邻接权重,当且仅当
Figure BDA0002823018420000083
时,邻接权重ajl才是正的;无人机j的邻居集合由
Figure BDA0002823018420000084
表示;加权有向图G的拉普拉斯算子L定义为L=D-A,其中D=diag{d1,…,dn},d1,...,dn分别为对角矩阵中的元素,
Figure BDA0002823018420000085
j=1,2,...,n。为了描述变量拓扑,定义分段常数切换信号函数
Figure BDA0002823018420000086
其中,Td为期望迭代周期时长,且为正数,M∈Z+表示可能的交互图的总数,Z+表示正整数。本实施例假设每个切换图都有一个生成树。
S12:将多无人机协调追踪的状态误差问题转化为追踪误差在一定时间段内稳定性控制问题;
考虑一个由n个无人机组成的离散时间多无人机系统,其中第j个无人机由以下非线性动力学方程表示
xk,j(t+1)=f(xk,j(t))+B(t)uk,j(t),k=0,1,2,…;j=1,…,n, (1)
其中,t=0,1,…Td是离散时间,k是离散迭代次数;xk,j(t)∈Rm是第k次迭代时刻t的无人机j的状态;
Figure BDA0002823018420000087
是第k次迭代时刻t的控制输入或方案;f(xk,j(t))∈Rm是一个未知的向量值非线性连续函数;B(t)是输入矩阵。
令Tk表示第k次迭代的实际迭代运行长度,其最小长度和最大长度分别由Tmin和Tmax表示。这意味着每次迭代的实际长度在{Tmin,Tmin+1,…,Tmax}内变化,可能大于或小于期望时间长度Td(Td∈[Tmin,Tmax])。因此,多无人机协调追踪的迭代学习控制问题在于每次迭代时长都是随机的。另外,在编队控制中,所有无人机的实际迭代运行长度相等,即每个无人机的实际迭代运行长度等于多个无人机中最先结束迭代过程的无人机的运行长度。
基于以上描述,本发明需要考虑两种情况:实际迭代时长小于期望时间长度,即Tk<Td,以及实际时长大于等于期望时间长度,即Tk≥Td。对于后一种情况,实际长度大于期望时间长度Td的部分不会对实际学习过程有所帮助,所以通常,后一种情况可以认为是Tk=Td。当Tk<Td时,从时刻Tk+1到Td的输出丢失,并且对学习更新没有帮助。因此,本实施例仅考虑0到Tk迭代过程中的效果。
将式(1)变为如下紧凑形式:
Figure BDA0002823018420000091
其中,列向量xk(t)∈Rnm
Figure BDA0002823018420000096
由xk,j(t)和uk,j(t)(j=1,…,n)分别形成,同样F(xk(t))=[fT(xk,1(t))…fT(xk,n(t))]T
S2:设计分布式P型迭代学习控制器;
基于建模分析和实际应用,本实施例作如下三个假设:
假设1:连续函数f(xk,l(t))在xk,l(t)中是全局Lipschitz,即满足
||f(xk+1,l(t))-f(xk,l(t))||≤kf||xk+1,l(t)-xk,l(t)||
其中,kf为Lipschitz常数,进而
||F(xk+1(t))-F(xk(t))||≤kf||xk+1(t)-xk(t)|| (3)
假设2:第k次迭代的初始状态由xk(0)=x0,
Figure BDA0002823018420000092
表示,其中x0是任意给定的点,即初始偏移对于每次迭代都是固定的。
假设3:第k次迭代的初始状态由
Figure BDA0002823018420000093
Figure BDA0002823018420000094
表示,其中ξ是一个正常数,也就是说,每次迭代的初始偏移都在给定区域中变化。
具体而言,多无人机系统(1)在整个运动过程中实现了期望的编队控制目标,当且仅当
Figure BDA0002823018420000095
ej(t)=xj(t)-dj(t) (5)
其中,ej(t)是无人机j的状态误差,j=1,…,n,N={1,2,...,n};xj(t)为第j个无人机的状态;,dj(t)表示无人机j到公共虚拟领导者的期望相对状态,这意味着所有无人机对其状态误差的一致性可以保证准确的编队队形。令
Figure BDA0002823018420000101
e(t)为n个无人机状态误差的紧凑矩阵形式。
通过定义新变量yj(t),可以将上述关于状态误差(式(4)和(5))的问题转化为另一个降阶系统(6)的渐近稳定性问题。
yj(t)=e1(t)-ej+1(t),j=1,…,n-1. (6)
将式(6)表示为
Figure BDA0002823018420000102
然后得出
Figure BDA0002823018420000103
以及
Figure BDA0002823018420000104
其中
Figure BDA0002823018420000105
显然,当且仅当y(t)=0时,式(4)才能成立。
假设在时间t有输出的概率为p(t),如果0<t≤Tmin,则p(t)=1;如果Tmin+1≤t≤Td,则0<p(t)<1。除此之外,如果在时间t'存在一个输出信号,则对于时间t<t'也存在输出信号。显而易见可以得到p(Tmin)>p(Tmin+1)>…>p(Td)。
随机变量Tk是第k次迭代时的实际迭代运行长度,它的变化范围是{Tmin,Tmin+1,…,Td}。记第k次迭代时的实际迭代运行长度为Tk的事件为
Figure BDA0002823018420000106
其代表在有限时长0<t≤Tk的输出是可利用的,而在时长Tk+1≤t≤Td的输出是缺失的。因此,第k次迭代时的实际迭代运行长度为Tk的事件的发生概率
Figure BDA0002823018420000107
计算为
Figure BDA0002823018420000108
所以
Figure BDA0002823018420000109
通过定义一个示性函数1(t≤Tk),使其遵守伯努利分布,可以解决由每次迭代的迭代长度的随机性引起的问题。对于给定时刻t≤Tmin,等式1(t≤Tk)=1代表迭代学习过程一直持续到时刻t,并且发生的概率p(t)=1;对于给定时刻t>Tmin,时间的集合{t≤Tk}包含{Tk=t},{Tk=t+1},…,{Tk=Td}。所以
Figure BDA0002823018420000111
Tmin<t≤Td,P(Aβ)是事件发生的概率,注意β的取值范围是t到Td。因此,P(1(t≤Tk)=1)=p(t),
Figure BDA0002823018420000112
进一步可以得到,E{1(t≤Tk)}=1·p(t)+0·(1-p(t))=p(t),其中E{1(t≤Tk)}表示函数求期望。
定义新的状态误差为:
Figure BDA0002823018420000113
其中,
Figure BDA0002823018420000114
是整个系统第k次迭代的状态误差,ek,j(t)(j=1,…,n)是第j个智能体在第k次迭代t时刻的状态误差;
Figure BDA0002823018420000115
为第k次迭代的修正误差。式(10)可以写成
Figure BDA0002823018420000116
在任何一次迭代学习过程中,交互图都可能在多无人机运动期间切换。基于ILC理论,可以将迭代学习协议设计为
Figure BDA0002823018420000117
其中,uk,l(t)是第l个无人机在第k次迭代的控制输入;
Figure BDA0002823018420000118
是增益矩阵;ak+1,lj(t)是无人机间通信拓扑的边上权重;
Figure BDA0002823018420000119
是第j个无人机在第k次迭代中t+1时刻的修正误差;
Figure BDA00028230184200001110
是第l个无人机在第k次迭代时t+1时刻的修正误差;Nk+1,l(t)对应于第l个无人机在第k+1次迭代的离散时间t的邻居索引集。
将式(12)写成紧凑形式:
Figure BDA00028230184200001111
其中,
Figure BDA00028230184200001112
是增益矩阵,uk(t)是第k次迭代的控制输入;σk+1(t)表示图
Figure BDA00028230184200001113
在第k+1次迭代的切换信号函数,
Figure BDA00028230184200001114
表示图
Figure BDA00028230184200001115
的拉普拉斯矩阵。值得注意的是,在连续的切换时刻之间,
Figure BDA00028230184200001116
是恒定的。
S3:利用λ范数对步骤S2中设计的分布式P型迭代学习控制器在初始状态精确重置和初始状态随机变换下的收敛性进行分析,并求解增益矩阵。本步骤针对迭代固定初始偏移和变化初始偏移两种情况,使用重新定义的具有数学期望的λ范数来导出ILC系统的完整收敛分析。
对固定迭代初始偏移情况,进行初始状态精确重置下的收敛性分析。
定理1:将迭代学习协议(12)应用于多无人机系统(1),在该多无人机系统(1)中,迭代运行长度在每次迭代中随机变化,并且上述假设1和假设2成立。如果增益矩阵
Figure BDA0002823018420000121
满足
Figure BDA0002823018420000122
则变量
Figure BDA0002823018420000123
可以随着k→∞收敛到零,从而渐近实现了编队控制目标(4)。式(14)中,sup是指数学含义的上确界:无论t取何值,范数的大小都小于1;Li是第i个交互图的拉普拉斯矩阵。
下面对上述初始状态精确重置下的收敛性分析进行证明。
证明:将式(2)和(5)代入式(7),并观察到无人机l到公共虚拟领导者的期望相对状态dl(t)(l=1,...,n)在每次迭代中都是固定的,可以得出
Figure BDA0002823018420000124
通过式(13),得出
Figure BDA0002823018420000125
将式(6)和(8)代入式(16),可以得出结论:
Figure BDA0002823018420000126
因此,式(15)可以写成
Figure BDA0002823018420000127
因为
Figure BDA0002823018420000131
可以得到
Figure BDA0002823018420000132
其中,
Figure BDA0002823018420000133
从式(19)得出
Figure BDA0002823018420000134
将欧几里得范式应用于式(20)的两边,得到:
Figure BDA0002823018420000135
将式(3),(8),(11)和(13)代入式(2)得到
Figure BDA0002823018420000136
此外,可以得到
Figure BDA0002823018420000137
其中,
Figure BDA0002823018420000138
被定义为
Figure BDA0002823018420000139
结合式(21)和(23)并取数学期望,并且1(t≤Tk)是独立于yk(t),可以得到:
Figure BDA00028230184200001310
将式(24)的两边都乘以α-λt并对以t为自变量的函数取上确界,得出
Figure BDA00028230184200001311
其中,参数α满足α≥kf,λ为λ范数。从而可以得出:
Figure BDA0002823018420000141
将式(26)代入式(25)可以得到
Figure BDA0002823018420000142
其中,
Figure BDA0002823018420000143
由于任何
Figure BDA0002823018420000144
都属于集合{L1,…,LM},因此,如果存在满足式(14)的学习增益矩阵Г,则式(14)等效为
Figure BDA0002823018420000145
由于0<p(t)≤1,可以得到
Figure BDA0002823018420000146
所以,如果式(28)成立,可以选择足够大的λ来满足
Figure BDA0002823018420000147
这意味着
Figure BDA0002823018420000148
由于时间t的有限性,可以进一步获得
Figure BDA0002823018420000149
根据||yk(t)||≥0,得出
Figure BDA00028230184200001410
总之,如果不等式(14)对于所有时间t都成立,则可以渐近实现所需的编队控制目标(4)。
对有界变化迭代初始偏移情况,进行初始状态随机变换下的收敛性分析。具体过程如下:
定理2:将迭代学习协议(12)应用于多无人机系统(1),在该多无人机系统(1)中,迭代运行长度在每次迭代时随机变化,并且上述假设1和假设3成立。如果增益矩阵
Figure BDA0002823018420000151
满足
Figure BDA0002823018420000152
则yk(t)可以收敛到原点的一个小邻域,其中t=1,…,Td,即limsupk→∞E||yk(t)||≤vξ,其中v是一个常数。
下面对上述初始状态随机变换下的收敛性分析进行证明。
与上述对初始状态精确重置下的收敛性分析证明的前半部分相似,即从式(15)到(21)的推导保持不变。之后将假设3中的不等式应用到式(22),可以得到:
Figure BDA0002823018420000153
然后将式(32)代入式(21)并采用数学期望得出
Figure BDA0002823018420000154
将式(33)的两边乘以α-λt并取t的最大值,可以得出
Figure BDA0002823018420000155
其中,
Figure BDA0002823018420000156
根据时间t的有限性,是能够选择一个参数μ满足
Figure BDA0002823018420000157
并有
||yk+1(t)||λ≤η||yk(t)||λ+μξ (35)
因此,从式(35)中可以得到:
Figure BDA0002823018420000161
进一步得到
Figure BDA0002823018420000162
其中,
Figure BDA0002823018420000163
当本实施例的多无人机系统(1)带有时不变输入矩阵B时,可以根据定理1和定理2建立如下推论:
将迭代学习协议(12)应用于具有B(t)≡B的多无人机系统(1)。如果
Figure BDA0002823018420000164
则增益矩阵
Figure BDA0002823018420000165
满足
Figure BDA0002823018420000166
则在假设2下渐近实现了所需要的编队控制目标(4),或者在假设3下
Figure BDA0002823018420000167
成立。
下面对上述推论进行证明:
当加权有向图G是连通图时,矩阵-SLH是Hurwitz稳定的,因此始终可以设计一个合适的增益矩阵以满足当B(t)≡B时的条件(14)。
基于式(14)与B(t)≡B,可以得出
Figure BDA0002823018420000168
然后结合式(14)和(37)得到
||PPT||<||P||||PT||<1 (38)
其中,
Figure BDA0002823018420000169
从不等式(8)可以得出:
PPT<I,PPT-I<0
通过参考shur补引理,可以进一步推断出
Figure BDA0002823018420000171
最后可以通过求解线性矩阵不等式(39)来计算出所需的增益矩阵(36)。
S4:对步骤S3的分析证明进行仿真验证。为了证明上述理论分析的效果,本实施例通过编队仿真进一步说明。
将迭代学习协议(12)应用于由四个无人机组成的多无人机系统(1),设Td=100,
Figure BDA0002823018420000172
Figure BDA0002823018420000173
并且xl(t)=[xl1(t)xl2(t)]T∈R2对应于第l个无人机的位置。所需的相对状态描述为
Figure BDA0002823018420000174
这表示随时间变化的矩形编队。为便于说明,考虑信息交互图无方向,并在图2中的图集Gs={Ga,Gb,Gc,Gd}中切换,其中每个边的权重为1。
根据式(14),将学习增益设置为
Figure BDA0002823018420000175
关于假设2,选择四个无人机的初始状态,使得x0=[2 8 -1 1 4 3 5 9]T。同时,让u0(t)=0,t=0,…,Td。为了方便起见,假设Tmin=90并且Tk在离散集合{90,91,…,100}中变化,满足离散均匀分布。
四个无人机在第1,25,100次迭代的状态误差轨迹ek,l(t)=[ek,l(1)(t) ek,l(2)(t)]T(l=1,2,3,4)展现在图3至图5中,其中随着迭代次数的增加,沿着时间轴达到了关于四个无人机状态误差的渐近共识。显然,本实施例的多无人机系统达到了式(40)给出的所需要的编队控制目标(4),这与定理1的分析相吻合。
四个无人机关于状态误差的不一致性描述为
Figure BDA0002823018420000181
Lc∈Rn×n的对角线元素是
Figure BDA0002823018420000182
其它元素是
Figure BDA0002823018420000183
显然,zk(t)=0成立当且仅当四个无人机在状态误差上达到了一致。因此,编队误差可以表示为
Figure BDA0002823018420000184
它代表了状态误差不一致的能量。多无人机编队学习过程如图6所示,其中Y轴设置为||zk(t)||2,并使用半对数图表示,因此很容易看到最终收敛精度。显然,随着k→∞,编队误差将收敛到零。
考虑具有变化的初始状态的系统,其他条件与图6中的条件相同。对于假设3,初始状态在x0=[2 8 -1 1 4 3 5 9]T的附近范围内随机变化,其满足||xk(0)-x0||≤4。可以清楚地看到,本发明的ILC方案仍然可以保持稳健的编队性能,如图7所示,虽然该性能不如图6中的性能。另外,编队误差将收敛到原点附近。因此,有界的初始偏移会导致有界的编队误差。
对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以对本发明的实施例做出若干变型和改进,这些都属于本发明的保护范围。

Claims (4)

1.一种随机试验长度下离散多智能体系统迭代学习编队控制方法,其特征在于,包括步骤:
S1:将多智能体协调追踪的状态误差问题转化为追踪误差在一定时间段内稳定性控制问题;
S2:设计分布式P型迭代学习控制器;
S3:利用λ范数对步骤S2中设计的分布式P型迭代学习控制器在初始状态精确重置和初始状态随机变换下的收敛性进行分析,并求解增益矩阵;
S4:对步骤S3的分析结果进行仿真验证。
2.根据权利要求1所述的方法,其特征在于,步骤S1具体过程为:
定义一个由n个智能体组成的离散时间多智能体系统:
xk,j(t+1)=f(xk,j(t))+B(t)uk,j(t),k=0,1,2,…;j=1,…,n, (1)
其中,t=0,1,...,Td是离散时间,Td为期望时间长度,k是离散迭代次数;xk,j(t)∈Rm是第k次迭代时刻t的智能体j的状态;
Figure FDA0002823018410000011
是第k次迭代时刻t的控制输入或方案;f(xk,j(t))∈Rm是一个未知的向量值非线性连续函数;B(t)是系统矩阵,
令Tk表示第k次迭代的实际迭代运行长度,仅考虑0到Tk的迭代过程,将式(1)变为:
Figure FDA0002823018410000012
其中,列向量xk(t)∈Rnm
Figure FDA0002823018410000013
由xk,j(t)和uk,j(t),j=1,...,n分别形成;F(xk(t))=[fT(xk,1(t))…fT(xk,n(t))]T
3.根据权利要求2所述的方法,其特征在于,步骤S2具体过程为:
首先作出如下三个假设:
假设1:连续函数f(xk,l(t))在xk,l(t)中是全局Lipschitz,即满足:
||f(xk+1,l(t))-f(xk,l(t))||≤kf||xk+1,l(t)-xk,l(t)||
其中,kf为Lipschitz常数,进而
||F(xk+1(t))-F(xk(t))||≤kf||xk+1(t)-xk(t)|| (3)
假设2:第k次迭代的初始状态由xk(0)=x0
Figure FDA0002823018410000021
表示,其中x0是任意给定的点,即初始偏移对于每次迭代都是固定的;
假设3:第k次迭代的初始状态由
Figure FDA0002823018410000022
Figure FDA0002823018410000023
表示,其中ξ是一个正常数,即每次迭代的初始偏移都在给定区域中变化;
基于上述三个假设条件,单个智能体的状态误差当且仅当满足下式(4)和(5)时,多智能体系统(1)在整个运动过程中实现了期望的编队控制目标,
Figure FDA0002823018410000024
ej(t)=xj(t)-dj(t) (5)
其中,ej(t)是智能体j的状态误差,j=1,...,n,N={1,2,..,n};xj(t)为第j个智能体的状态,dj(t)表示智能体j到公共虚拟领导者的期望相对状态;令
Figure FDA0002823018410000025
e(t)为n个智能体状态误差的紧凑矩阵形式,
定义新变量yj(t),将式(4)和(5)转化为另一个降阶系统(6)的渐近稳定性问题,
yj(t)=e1(t)-ej+1(t),j=1,…,n-1. (6)
将式(6)表示为
Figure FDA0002823018410000026
然后得出
Figure FDA0002823018410000027
以及
Figure FDA0002823018410000028
其中
Figure FDA0002823018410000031
当且仅当y(t)=0时,式(4)成立,
假设在时间t有输出的概率为p(t),如果0<t≤Tmin,则p(t)=1,Tmin是第k次迭代的实际迭代运行最小长度;如果Tmin+1≤t≤Td,则0<p(t)<1,并且p(Tmin)>p(Tmin+1)>…>p(Td),其中,p(Tmin)和p(Td)分别是在时间Tmin和Td有输出的概率,
记第k次迭代时的实际迭代运行长度为Tk的事件为ATk,事件
Figure FDA0002823018410000032
的发生概率
Figure FDA0002823018410000033
Figure FDA0002823018410000034
其中,p(Tk)是第k次迭代时的实际迭代运行长度为Tk的概率,P(At)是事件At发生的概率,
定义一个示性函数1(t≤Tk),使其遵守伯努利分布,以解决由每次迭代的迭代长度的随机性引起的问题,对于给定时刻t≤Tmin,等式1(t≤Tk)=1代表迭代学习过程一直持续到时刻t,并且发生的概率p(t)=1;对于给定时刻t>Tmin,时间的集合{t≤Tk}包含{Tk=t},{Tk=t+1},…,{Tk=Td},所以
Figure FDA0002823018410000035
Tmin<t≤Td,P(Aβ)是事件发生的概率,β的取值范围是t到Td,因此,
Figure FDA0002823018410000036
进一步得到,E{1(t≤Tk)}=1·p(t)+0·(1-p(t))=p(t),其中E{1(t≤Tk)}表示求期望,
定义新的状态误差为:
Figure FDA0002823018410000037
其中,
Figure FDA0002823018410000038
是整个系统第k次迭代的状态误差,ek,j(t)(j=1,…,n)是第j个智能体在第k次迭代t时刻的状态误差;
Figure FDA0002823018410000039
为第k次迭代的修正误差;式(10)变为
Figure FDA00028230184100000310
在任何一次迭代学习过程中,信息交互图都可能在多智能体运动期间切换,基于ILC理论将迭代学习协议设计为
Figure FDA0002823018410000041
其中,uk,l(t)是第l个智能体在第k次迭代的控制输入;
Figure FDA0002823018410000042
是增益矩阵;ak+1,lj(t)是多智能体间通信拓扑的边上权重;
Figure FDA0002823018410000043
是第j个智能体在第k次迭代中t+1时刻的修正误差;
Figure FDA0002823018410000044
是第l个智能体在第k次迭代时t+1时刻的修正误差;Nk+1,l(t)是对应于第l个智能体在第k+1次迭代的离散时刻t的邻居索引集,
将式(12)写成紧凑形式:
Figure FDA0002823018410000045
其中,
Figure FDA0002823018410000046
是增益矩阵,uk(t)是第k次迭代的控制输入;σk+1(t)表示图
Figure FDA0002823018410000047
在第k+1次迭代的切换信号函数,
Figure FDA0002823018410000048
表示图
Figure FDA0002823018410000049
的拉普拉斯矩阵,其在连续的切换时刻之间是恒定的。
4.根据权利要求3所述的方法,其特征在于,步骤S3具体过程为:
1)对固定迭代初始偏移情况,进行初始状态精确重置下的收敛性分析,具体过程为:
定理1:将迭代学习协议(12)应用于多智能体系统(1),在该多智能体系统(1)中,迭代运行长度在每次迭代中随机变化,并且所述假设1和假设2成立,如果增益矩阵
Figure FDA00028230184100000410
满足
Figure FDA00028230184100000411
则变量
Figure FDA00028230184100000412
随着k→∞收敛到零,从而渐近实现了编队控制目标,其中yk,j(t)=ek,1(t)-ek,j+1(t),j=1,…,n-1;式(14)中,sup是指数学含义的上确界:无论t取何值,范数的大小都小于1;
Figure FDA00028230184100000413
是信息交互图的下标集,Li是第i个交互图的拉普拉斯矩阵;
2)对有界迭代初始偏移情况,进行初始状态随机变换下的收敛性分析,具体过程为:
定理2:将迭代学习协议(12)应用于多智能体系统(1),在多智能体系统(1)中,迭代运行长度在每次迭代时随机变化,并且所述假设1和假设3成立,如果增益矩阵
Figure FDA0002823018410000051
满足
Figure FDA0002823018410000052
则yk(t)收敛到原点的一个小邻域,其中t=1,…,Td,即lim supk→∞E||yk(t)||≤vξ,其中v是一个常数。
CN202011442840.5A 2020-12-08 2020-12-08 随机试验长度下离散多智能体系统迭代学习编队控制方法 Pending CN112526886A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011442840.5A CN112526886A (zh) 2020-12-08 2020-12-08 随机试验长度下离散多智能体系统迭代学习编队控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011442840.5A CN112526886A (zh) 2020-12-08 2020-12-08 随机试验长度下离散多智能体系统迭代学习编队控制方法

Publications (1)

Publication Number Publication Date
CN112526886A true CN112526886A (zh) 2021-03-19

Family

ID=75000148

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011442840.5A Pending CN112526886A (zh) 2020-12-08 2020-12-08 随机试验长度下离散多智能体系统迭代学习编队控制方法

Country Status (1)

Country Link
CN (1) CN112526886A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114061584A (zh) * 2021-11-02 2022-02-18 江苏科技大学 一种基于多机器人的势均衡多伯努利滤波slam方法
CN115268275A (zh) * 2022-08-24 2022-11-01 广东工业大学 基于状态观测器的多智能体系统一致性跟踪方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109031958A (zh) * 2018-10-16 2018-12-18 廊坊师范学院 分数阶多智能体追踪一致性的迭代学习控制方法
CN110083066A (zh) * 2019-05-22 2019-08-02 杭州电子科技大学 多智能体系统的分数阶迭代控制方法
CN110597061A (zh) * 2019-09-18 2019-12-20 中国人民解放军火箭军工程大学 一种多智能体完全分布式自抗扰时变编队控制方法
CN111722628A (zh) * 2020-06-19 2020-09-29 江南大学 一种多智能体轨迹更新迭代学习的点到点跟踪控制方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109031958A (zh) * 2018-10-16 2018-12-18 廊坊师范学院 分数阶多智能体追踪一致性的迭代学习控制方法
CN110083066A (zh) * 2019-05-22 2019-08-02 杭州电子科技大学 多智能体系统的分数阶迭代控制方法
CN110597061A (zh) * 2019-09-18 2019-12-20 中国人民解放军火箭军工程大学 一种多智能体完全分布式自抗扰时变编队控制方法
CN111722628A (zh) * 2020-06-19 2020-09-29 江南大学 一种多智能体轨迹更新迭代学习的点到点跟踪控制方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YANG LIU等: "Iterative learning formation control for continuous-time multi-agent systems with randomly varying trial lengths", 《JOURNAL OF THE FRANKLIN INSTITUTE-ENGINEERING AND APPLIED MATHEMATICS》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114061584A (zh) * 2021-11-02 2022-02-18 江苏科技大学 一种基于多机器人的势均衡多伯努利滤波slam方法
CN114061584B (zh) * 2021-11-02 2024-05-24 江苏科技大学 一种基于多机器人的势均衡多伯努利滤波slam方法
CN115268275A (zh) * 2022-08-24 2022-11-01 广东工业大学 基于状态观测器的多智能体系统一致性跟踪方法及系统
CN115268275B (zh) * 2022-08-24 2024-05-28 广东工业大学 基于状态观测器的多智能体系统一致性跟踪方法及系统

Similar Documents

Publication Publication Date Title
Xiao et al. Observer-based adaptive consensus control for nonlinear multi-agent systems with time-delay
Yan et al. Formation consensus for discrete-time heterogeneous multi-agent systems with link failures and actuator/sensor faults
Wen et al. Optimized formation control using simplified reinforcement learning for a class of multiagent systems with unknown dynamics
Zhao et al. Distributed optimal coordination control for nonlinear multi-agent systems using event-triggered adaptive dynamic programming method
Guo et al. Command-filter-based fixed-time bipartite containment control for a class of stochastic multiagent systems
Huang et al. Nonlinear adaptive control of interconnected systems using neural networks
Xia et al. Optimal synchronization control of heterogeneous asymmetric input-constrained unknown nonlinear MASs via reinforcement learning
Li et al. Neural-network-based distributed adaptive asymptotically consensus tracking control for nonlinear multiagent systems with input quantization and actuator faults
CN112526886A (zh) 随机试验长度下离散多智能体系统迭代学习编队控制方法
Chen et al. Distributed adaptive output-feedback tracking control of non-affine multi-agent systems with prescribed performance
Ji et al. Optimal consensus model-free control for multi-agent systems subject to input delays and switching topologies
Buisson-Fenet et al. Joint state and dynamics estimation with high-gain observers and Gaussian process models
CN117055605A (zh) 多无人机姿态控制方法及系统
Sun et al. Consensus for multiagent systems under output constraints and unknown control directions
CN114637278A (zh) 一种多领导者与切换拓扑下的多智能体容错编队跟踪控制方法
CN112198796B (zh) 一种分布式前置时间状态观测器的设计方法
Zhang et al. Distributed optimal consensus protocol for high-order integrator-type multi-agent systems
Zou et al. Distributed output feedback consensus tracking control of multiple nonholonomic mobile robots with only position information of leader
Bouteraa et al. Adaptive backstepping synchronization for networked Lagrangian systems
CN115268275A (zh) 基于状态观测器的多智能体系统一致性跟踪方法及系统
Qi et al. Pinning consensus control for switched multi-agent systems: A switched adaptive dynamic programming method
CN114791741A (zh) 事件触发下无人系统集群的无模型最优分组协同控制方法
Cao et al. Iterative learning control for impulsive multi-agent systems with varying trial lengths
Wang et al. Event-triggered tracking control for second-order multi-agent systems with fixed and switching topologies
CN115008456B (zh) 一种柔性单链机械臂多智能体的跟踪控制方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination