CN112526886A - 随机试验长度下离散多智能体系统迭代学习编队控制方法 - Google Patents
随机试验长度下离散多智能体系统迭代学习编队控制方法 Download PDFInfo
- Publication number
- CN112526886A CN112526886A CN202011442840.5A CN202011442840A CN112526886A CN 112526886 A CN112526886 A CN 112526886A CN 202011442840 A CN202011442840 A CN 202011442840A CN 112526886 A CN112526886 A CN 112526886A
- Authority
- CN
- China
- Prior art keywords
- iteration
- agent
- iterative learning
- state
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 40
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000012360 testing method Methods 0.000 title claims abstract description 9
- 239000011159 matrix material Substances 0.000 claims abstract description 38
- 230000009466 transformation Effects 0.000 claims abstract description 8
- 238000004088 simulation Methods 0.000 claims abstract description 5
- 239000003795 chemical substances by application Substances 0.000 claims description 59
- 230000008569 process Effects 0.000 claims description 18
- 239000000126 substance Substances 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 11
- 238000010586 diagram Methods 0.000 claims description 10
- 230000003993 interaction Effects 0.000 claims description 10
- 230000033001 locomotion Effects 0.000 claims description 7
- 230000009131 signaling function Effects 0.000 claims description 4
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 238000004891 communication Methods 0.000 claims description 3
- 238000009826 distribution Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000012937 correction Methods 0.000 abstract description 4
- 230000008859 change Effects 0.000 description 3
- 238000012804 iterative process Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0287—Control of position or course in two dimensions specially adapted to land vehicles involving a plurality of land vehicles, e.g. fleet or convoy travelling
- G05D1/0291—Fleet control
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
Landscapes
- Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- Aviation & Aerospace Engineering (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Feedback Control In General (AREA)
Abstract
本发明属于多无人机或者多机器人系统的编队任务领域,特别涉及一种随机试验长度下离散多智能体系统迭代学习编队控制方法,包括步骤:将多智能体协调追踪的状态误差问题转化为追踪误差在一定时间段内稳定性控制问题;设计分布式P型迭代学习控制器;利用λ范数对设计的分布式P型迭代学习控制器在初始状态精确重置和初始状态随机变换下的收敛性进行分析,并求解增益矩阵;对两种情况下的收敛性分析证明进行仿真验证。本发明通过定义与给定编队队形有关的修正状态误差,放松了每次迭代试验长度一致的条件,与单个智能体的现有结果相比,本发明在计算增益矩阵时也更为方便。
Description
技术领域
本发明属于多无人机或者多机器人系统的编队任务领域,特别涉及一种随机试验长度下离散多智能体系统迭代学习编队控制方法。
背景技术
在工业领域中,当一组车辆或移动机器人协作以给定的形式重复运输非常大且重的物体时,它们必须在整个运输过程中(从规定的起始位置到指定位置)保持所需的队形。目前可以通过应用迭代学习控制(ILC)方法解决上述在整个运动过程中都需要维持编队队形的问题。
在最近的研究中,Z.Chun等人(见“Adaptive learning tracking for robotmanipulators with varying trial lengths,”J.Franklin Inst.Eng.Appl.Math.,vol.356,no.12,pp.5993–6014,2019)考虑了机器人操纵器系统的自适应学习控制,其中操作长度随迭代次数的不同而随机变化。R.W.Longman and K.D.Mombaur(见“Investigatingthe use of iterative learning control and repetitive control to implementperiodic gaits,”Lecture Notes Control Inform.Sci.,vol.340,pp.189--218,2006)将ILC策略应用于人形机器人和两足动物步行机器人,在学习过程中,每次迭代周期的时长通常都不相同。由于复杂的因素和未知的动力学因素,单个智能体(例如移动机器人)的学习过程无法保证每次迭代的试验时间相同。而在先前的机器人编队研究中,要求对于所有迭代,每个机器人的运行时间必须是固定的。事实上,如果一个机器人在给定的终端时间之前结束其当前的学习试验,那么整个网络系统的迭代过程将停止,以确保在多个机器人之间始终保持给定的编队结构。因此,将迭代学习方法用于多智能体系统的协同控制时,每次迭代的实际试验长度可能会随机变化。
D.Shen等人(见“Iterative learning control for discrete nonlinearsystems with randomly iteration varying lengths,”Syst.Contr.Lett.,vol.96,pp.81–87,2016)和L.Wang等人(见“Sampled-data iterative learning control forcontinuous-time nonlinear systems with iteration-varying lengths,”Int.J.Robust Nonlin.Contr.,doi:10.1002/rnc.4066,2018)针对试验长度随机变化的系统,处理了随机过程中的概率问题,但求解增益矩阵非常困难。此外,在现有的多智能体编队学习问题研究中(见本申请人的“An iterative learning approach to formationcontrol of multi-agent systems,’Syst.Contr.Lett.,vol.61,no.1,pp.148–154,2012;和“Robust formation control of discrete-time multi-agent systems by iterativelearning approach,”Int.J.Syst.Sci.,vol.46,no.4,pp.625–633,2015.),均没有考虑到诸如移动机器人之类的每个智能体无法保证每次迭代学习试验长度相同的问题。
发明内容
为此,本发明提出一种随机试验长度下离散多智能体系统迭代学习编队控制方法,本方法通过定义与给定多智能体队形有关的修正状态误差,放松了每次迭代试验长度一致的条件,与单个智能体的现有结果相比,本发明在计算增益矩阵时更为方便。
为了实现上述目的,本发明提供的一种随机试验长度下离散多智能体系统迭代学习编队控制方法,包括如下步骤:
S1:将多智能体协调追踪的状态误差问题转化为追踪误差在一定时间段内稳定性控制问题;
S2:设计分布式P型迭代学习控制器;
S3:利用λ范数对步骤S2中设计的分布式P型迭代学习控制器在初始状态精确重置和初始状态随机变换下的收敛性进行分析,并求解增益矩阵;
S4:对步骤S3的分析结果进行仿真验证。
进一步,步骤S1具体过程为:
定义一个由n个智能体组成的离散时间多智能体系统:
xk,j(t+1)=f(xk,j(t))+B(t)uk,j(t),k=0,1,2,…;j=1,…,n, (1)
其中,t=0,1,...,Td是离散时间,Td为期望时间长度,k是离散迭代次数;xk,j(t)∈Rm是第k次迭代时刻t的智能体j的状态;是第k次迭代时刻t的控制输入或方案;f(xk,j(t))∈Rm是一个未知的向量值非线性连续函数;B(t)是系统矩阵,
令Tk表示第k次迭代的实际迭代运行长度,仅考虑0到Tk的迭代过程,将式(1)变为:
进一步,步骤S2具体过程为:
首先作出如下三个假设:
假设1:连续函数f(xk,l(t))在xk,l(t)中是全局Lipschitz,即满足:
||f(xk+1,l(t))-f(xk,l(t))||≤kf||xk+1,l(t)-xk,l(t)||
其中,kf为Lipschitz常数,进而
||F(xk+1(t))-F(xk(t))||≤kf||xk+1(t)-xk(t)|| (3)
基于上述三个假设条件,单个智能体的状态误差当且仅当满足下式(4)和(5)时,多智能体系统(1)在整个运动过程中实现了期望的编队控制目标,
ej(t)=xj(t)-dj(t) (5)
其中,ej(t)是智能体j的状态误差,j=1,...,n,N={1,2,...,n};xj(t)为第j个智能体的状态,dj(t)表示智能体j到公共虚拟领导者的期望相对状态;令e(t)为n个智能体状态误差的紧凑矩阵形式,
定义新变量yj(t),将式(4)和(5)转化为另一个降阶系统(6)的渐近稳定性问题,
yj(t)=e1(t)-ej+1(t),j=1,…,n-1. (6)
以及
其中
当且仅当y(t)=0时,式(4)成立,
假设在时间t有输出的概率为p(t),如果0<t≤Tmin,则p(t)=1,Tmin是第k次迭代的实际迭代运行最小长度;如果Tmin+1≤t≤Td,则0<p(t)<1,并且p(Tmin)>p(Tmin+1)>…>p(Td),
定义一个示性函数1(t≤Tk),使其遵守伯努利分布,以解决由每次迭代的迭代长度的随机性引起的问题,对于给定时刻t≤Tmin,等式1(t≤Tk)=1代表迭代学习过程一直持续到时刻t,并且发生的概率p(t)=1;对于给定时刻t>Tmin,时间的集合{t≤Tk}包含{Tk=t},{Tk=t+1},…,{Tk=Td},所以Tmin<t≤Td,P(Aβ)是事件发生的概率,β的取值范围是t到Td,因此,P(1(t≤Tk)=1)=p(t),进一步得到,E{1(t≤Tk)}=1·p(t)+0·(1-p(t))=p(t),其中E{1(t≤Tk)}表示求期望,
定义新的状态误差为:
在任何一次迭代学习过程中,交互图都可能在多智能体运动期间切换,基于ILC理论将迭代学习协议设计为
其中,uk,l(t)是第l个智能体在第k次迭代的控制输入;是增益矩阵;ak+1,lj(t)是多智能体间通信拓扑的边上权重;是第j个智能体在第k次迭代中t+1时刻的修正误差;是第l个智能体在第k次迭代时t+1时刻的修正误差;Nk+1,l(t)是对应于第l个智能体在第k+1次迭代的离散时刻t的邻居索引集,
将式(12)写成紧凑形式:
进一步,步骤S3具体过程为:
1)对固定迭代初始偏移情况,进行初始状态精重置下的收敛性分析,具体过程为:
则变量可以随着k→∞收敛到零,从而渐近实现了编队控制目标,其中yk,j(t)=ek,1(t)-ek,j+1(t),j=1,…,n-1;式(14)中,sup是指数学含义的上确界:无论t取何值,范数的大小都小于1;是信息交互图的下标集,Li是第i个交互图的拉普拉斯矩阵;
2)对有界迭代初始偏移情况,进行初始状态随机变换下的收敛性分析,具体过程为:
则yk(t)可以收敛到原点的一个小邻域,其中t=1,…,Td,k→∞,即limsupk→∞E||yk(t)||≤vξ,其中v是一个常数。
本发明的有益效果:
1)本发明所设计的分布式P型迭代学习控制器,放宽了对具有切换拓扑多智能体学习系统的要求,即每个迭代试验的长度都是相同的,在工程上更加实用;
2)与单个智能体的现有结果相比,本发明在计算控制器增益矩阵时更为方便,在数学求解上更加简单。
附图说明
图1为本发明实施例的随机试验长度下离散多无人机系统迭代学习编队控制方法流程图;
图2为本发明实施例的四个无人机的切换交互图;
图3为本发明实施例的四个无人机在第1次迭代的状态轨迹图;
图4为本发明实施例的四个无人机在第25次迭代的状态轨迹图;
图5为本发明实施例的四个无人机在第100次迭代的状态轨迹图;
图6为本发明实施例的初始偏移固定情况下的编队学习过程图;
图7为本发明实施例的初始偏移变化情况下的编队学习过程图。
具体实施方式
下面结合附图和实施例进一步描述本发明,应该理解,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。本实施例以多无人机的迭代学习编队控制为例。
如图1所示,本实施例提供的随机试验长度下离散多无人机系统迭代学习编队控制方法,包括如下步骤:
S1:将多无人机协调追踪的控制问题转化为追踪误差在一定时间段内稳定性控制问题。具体过程如下:
S11:应用代数图理论中的有向图来模拟多无人机之间的交互拓扑;
令是阶数为n的加权有向图,其中,V={v1,…,vn}为n个节点集合,v1,...,vn为节点;为有向边集,在加权有向图G中,从节点vl到节点vj的边(vl,vj)表示从无人机l到无人机j发送的信息,l=1,2,...,n,j=1,2,...,n;为加权邻接矩阵,ajl为与边(vl,vj)相关联的邻接权重,当且仅当时,邻接权重ajl才是正的;无人机j的邻居集合由表示;加权有向图G的拉普拉斯算子L定义为L=D-A,其中D=diag{d1,…,dn},d1,...,dn分别为对角矩阵中的元素,j=1,2,...,n。为了描述变量拓扑,定义分段常数切换信号函数其中,Td为期望迭代周期时长,且为正数,M∈Z+表示可能的交互图的总数,Z+表示正整数。本实施例假设每个切换图都有一个生成树。
S12:将多无人机协调追踪的状态误差问题转化为追踪误差在一定时间段内稳定性控制问题;
考虑一个由n个无人机组成的离散时间多无人机系统,其中第j个无人机由以下非线性动力学方程表示
xk,j(t+1)=f(xk,j(t))+B(t)uk,j(t),k=0,1,2,…;j=1,…,n, (1)
其中,t=0,1,…Td是离散时间,k是离散迭代次数;xk,j(t)∈Rm是第k次迭代时刻t的无人机j的状态;是第k次迭代时刻t的控制输入或方案;f(xk,j(t))∈Rm是一个未知的向量值非线性连续函数;B(t)是输入矩阵。
令Tk表示第k次迭代的实际迭代运行长度,其最小长度和最大长度分别由Tmin和Tmax表示。这意味着每次迭代的实际长度在{Tmin,Tmin+1,…,Tmax}内变化,可能大于或小于期望时间长度Td(Td∈[Tmin,Tmax])。因此,多无人机协调追踪的迭代学习控制问题在于每次迭代时长都是随机的。另外,在编队控制中,所有无人机的实际迭代运行长度相等,即每个无人机的实际迭代运行长度等于多个无人机中最先结束迭代过程的无人机的运行长度。
基于以上描述,本发明需要考虑两种情况:实际迭代时长小于期望时间长度,即Tk<Td,以及实际时长大于等于期望时间长度,即Tk≥Td。对于后一种情况,实际长度大于期望时间长度Td的部分不会对实际学习过程有所帮助,所以通常,后一种情况可以认为是Tk=Td。当Tk<Td时,从时刻Tk+1到Td的输出丢失,并且对学习更新没有帮助。因此,本实施例仅考虑0到Tk迭代过程中的效果。
将式(1)变为如下紧凑形式:
S2:设计分布式P型迭代学习控制器;
基于建模分析和实际应用,本实施例作如下三个假设:
假设1:连续函数f(xk,l(t))在xk,l(t)中是全局Lipschitz,即满足
||f(xk+1,l(t))-f(xk,l(t))||≤kf||xk+1,l(t)-xk,l(t)||
其中,kf为Lipschitz常数,进而
||F(xk+1(t))-F(xk(t))||≤kf||xk+1(t)-xk(t)|| (3)
具体而言,多无人机系统(1)在整个运动过程中实现了期望的编队控制目标,当且仅当
ej(t)=xj(t)-dj(t) (5)
其中,ej(t)是无人机j的状态误差,j=1,…,n,N={1,2,...,n};xj(t)为第j个无人机的状态;,dj(t)表示无人机j到公共虚拟领导者的期望相对状态,这意味着所有无人机对其状态误差的一致性可以保证准确的编队队形。令e(t)为n个无人机状态误差的紧凑矩阵形式。
通过定义新变量yj(t),可以将上述关于状态误差(式(4)和(5))的问题转化为另一个降阶系统(6)的渐近稳定性问题。
yj(t)=e1(t)-ej+1(t),j=1,…,n-1. (6)
以及
其中
显然,当且仅当y(t)=0时,式(4)才能成立。
假设在时间t有输出的概率为p(t),如果0<t≤Tmin,则p(t)=1;如果Tmin+1≤t≤Td,则0<p(t)<1。除此之外,如果在时间t'存在一个输出信号,则对于时间t<t'也存在输出信号。显而易见可以得到p(Tmin)>p(Tmin+1)>…>p(Td)。
随机变量Tk是第k次迭代时的实际迭代运行长度,它的变化范围是{Tmin,Tmin+1,…,Td}。记第k次迭代时的实际迭代运行长度为Tk的事件为其代表在有限时长0<t≤Tk的输出是可利用的,而在时长Tk+1≤t≤Td的输出是缺失的。因此,第k次迭代时的实际迭代运行长度为Tk的事件的发生概率计算为所以
通过定义一个示性函数1(t≤Tk),使其遵守伯努利分布,可以解决由每次迭代的迭代长度的随机性引起的问题。对于给定时刻t≤Tmin,等式1(t≤Tk)=1代表迭代学习过程一直持续到时刻t,并且发生的概率p(t)=1;对于给定时刻t>Tmin,时间的集合{t≤Tk}包含{Tk=t},{Tk=t+1},…,{Tk=Td}。所以Tmin<t≤Td,P(Aβ)是事件发生的概率,注意β的取值范围是t到Td。因此,P(1(t≤Tk)=1)=p(t),进一步可以得到,E{1(t≤Tk)}=1·p(t)+0·(1-p(t))=p(t),其中E{1(t≤Tk)}表示函数求期望。
定义新的状态误差为:
在任何一次迭代学习过程中,交互图都可能在多无人机运动期间切换。基于ILC理论,可以将迭代学习协议设计为
其中,uk,l(t)是第l个无人机在第k次迭代的控制输入;是增益矩阵;ak+1,lj(t)是无人机间通信拓扑的边上权重;是第j个无人机在第k次迭代中t+1时刻的修正误差;是第l个无人机在第k次迭代时t+1时刻的修正误差;Nk+1,l(t)对应于第l个无人机在第k+1次迭代的离散时间t的邻居索引集。
将式(12)写成紧凑形式:
S3:利用λ范数对步骤S2中设计的分布式P型迭代学习控制器在初始状态精确重置和初始状态随机变换下的收敛性进行分析,并求解增益矩阵。本步骤针对迭代固定初始偏移和变化初始偏移两种情况,使用重新定义的具有数学期望的λ范数来导出ILC系统的完整收敛分析。
对固定迭代初始偏移情况,进行初始状态精确重置下的收敛性分析。
下面对上述初始状态精确重置下的收敛性分析进行证明。
证明:将式(2)和(5)代入式(7),并观察到无人机l到公共虚拟领导者的期望相对状态dl(t)(l=1,...,n)在每次迭代中都是固定的,可以得出
通过式(13),得出
将式(6)和(8)代入式(16),可以得出结论:
因此,式(15)可以写成
将欧几里得范式应用于式(20)的两边,得到:
将式(3),(8),(11)和(13)代入式(2)得到
此外,可以得到
结合式(21)和(23)并取数学期望,并且1(t≤Tk)是独立于yk(t),可以得到:
将式(24)的两边都乘以α-λt并对以t为自变量的函数取上确界,得出
其中,参数α满足α≥kf,λ为λ范数。从而可以得出:
将式(26)代入式(25)可以得到
由于0<p(t)≤1,可以得到
所以,如果式(28)成立,可以选择足够大的λ来满足
这意味着
由于时间t的有限性,可以进一步获得
根据||yk(t)||≥0,得出
总之,如果不等式(14)对于所有时间t都成立,则可以渐近实现所需的编队控制目标(4)。
对有界变化迭代初始偏移情况,进行初始状态随机变换下的收敛性分析。具体过程如下:
则yk(t)可以收敛到原点的一个小邻域,其中t=1,…,Td,即limsupk→∞E||yk(t)||≤vξ,其中v是一个常数。
下面对上述初始状态随机变换下的收敛性分析进行证明。
与上述对初始状态精确重置下的收敛性分析证明的前半部分相似,即从式(15)到(21)的推导保持不变。之后将假设3中的不等式应用到式(22),可以得到:
然后将式(32)代入式(21)并采用数学期望得出
将式(33)的两边乘以α-λt并取t的最大值,可以得出
||yk+1(t)||λ≤η||yk(t)||λ+μξ (35)
因此,从式(35)中可以得到:
进一步得到
当本实施例的多无人机系统(1)带有时不变输入矩阵B时,可以根据定理1和定理2建立如下推论:
下面对上述推论进行证明:
当加权有向图G是连通图时,矩阵-SLH是Hurwitz稳定的,因此始终可以设计一个合适的增益矩阵以满足当B(t)≡B时的条件(14)。
基于式(14)与B(t)≡B,可以得出
然后结合式(14)和(37)得到
||PPT||<||P||||PT||<1 (38)
从不等式(8)可以得出:
PPT<I,PPT-I<0
通过参考shur补引理,可以进一步推断出
最后可以通过求解线性矩阵不等式(39)来计算出所需的增益矩阵(36)。
S4:对步骤S3的分析证明进行仿真验证。为了证明上述理论分析的效果,本实施例通过编队仿真进一步说明。
将迭代学习协议(12)应用于由四个无人机组成的多无人机系统(1),设Td=100,
并且xl(t)=[xl1(t)xl2(t)]T∈R2对应于第l个无人机的位置。所需的相对状态描述为
这表示随时间变化的矩形编队。为便于说明,考虑信息交互图无方向,并在图2中的图集Gs={Ga,Gb,Gc,Gd}中切换,其中每个边的权重为1。
根据式(14),将学习增益设置为
关于假设2,选择四个无人机的初始状态,使得x0=[2 8 -1 1 4 3 5 9]T。同时,让u0(t)=0,t=0,…,Td。为了方便起见,假设Tmin=90并且Tk在离散集合{90,91,…,100}中变化,满足离散均匀分布。
四个无人机在第1,25,100次迭代的状态误差轨迹ek,l(t)=[ek,l(1)(t) ek,l(2)(t)]T(l=1,2,3,4)展现在图3至图5中,其中随着迭代次数的增加,沿着时间轴达到了关于四个无人机状态误差的渐近共识。显然,本实施例的多无人机系统达到了式(40)给出的所需要的编队控制目标(4),这与定理1的分析相吻合。
四个无人机关于状态误差的不一致性描述为Lc∈Rn×n的对角线元素是其它元素是显然,zk(t)=0成立当且仅当四个无人机在状态误差上达到了一致。因此,编队误差可以表示为它代表了状态误差不一致的能量。多无人机编队学习过程如图6所示,其中Y轴设置为||zk(t)||2,并使用半对数图表示,因此很容易看到最终收敛精度。显然,随着k→∞,编队误差将收敛到零。
考虑具有变化的初始状态的系统,其他条件与图6中的条件相同。对于假设3,初始状态在x0=[2 8 -1 1 4 3 5 9]T的附近范围内随机变化,其满足||xk(0)-x0||≤4。可以清楚地看到,本发明的ILC方案仍然可以保持稳健的编队性能,如图7所示,虽然该性能不如图6中的性能。另外,编队误差将收敛到原点附近。因此,有界的初始偏移会导致有界的编队误差。
对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以对本发明的实施例做出若干变型和改进,这些都属于本发明的保护范围。
Claims (4)
1.一种随机试验长度下离散多智能体系统迭代学习编队控制方法,其特征在于,包括步骤:
S1:将多智能体协调追踪的状态误差问题转化为追踪误差在一定时间段内稳定性控制问题;
S2:设计分布式P型迭代学习控制器;
S3:利用λ范数对步骤S2中设计的分布式P型迭代学习控制器在初始状态精确重置和初始状态随机变换下的收敛性进行分析,并求解增益矩阵;
S4:对步骤S3的分析结果进行仿真验证。
2.根据权利要求1所述的方法,其特征在于,步骤S1具体过程为:
定义一个由n个智能体组成的离散时间多智能体系统:
xk,j(t+1)=f(xk,j(t))+B(t)uk,j(t),k=0,1,2,…;j=1,…,n, (1)
其中,t=0,1,...,Td是离散时间,Td为期望时间长度,k是离散迭代次数;xk,j(t)∈Rm是第k次迭代时刻t的智能体j的状态;是第k次迭代时刻t的控制输入或方案;f(xk,j(t))∈Rm是一个未知的向量值非线性连续函数;B(t)是系统矩阵,
令Tk表示第k次迭代的实际迭代运行长度,仅考虑0到Tk的迭代过程,将式(1)变为:
3.根据权利要求2所述的方法,其特征在于,步骤S2具体过程为:
首先作出如下三个假设:
假设1:连续函数f(xk,l(t))在xk,l(t)中是全局Lipschitz,即满足:
||f(xk+1,l(t))-f(xk,l(t))||≤kf||xk+1,l(t)-xk,l(t)||
其中,kf为Lipschitz常数,进而
||F(xk+1(t))-F(xk(t))||≤kf||xk+1(t)-xk(t)|| (3)
基于上述三个假设条件,单个智能体的状态误差当且仅当满足下式(4)和(5)时,多智能体系统(1)在整个运动过程中实现了期望的编队控制目标,
ej(t)=xj(t)-dj(t) (5)
其中,ej(t)是智能体j的状态误差,j=1,...,n,N={1,2,..,n};xj(t)为第j个智能体的状态,dj(t)表示智能体j到公共虚拟领导者的期望相对状态;令e(t)为n个智能体状态误差的紧凑矩阵形式,
定义新变量yj(t),将式(4)和(5)转化为另一个降阶系统(6)的渐近稳定性问题,
yj(t)=e1(t)-ej+1(t),j=1,…,n-1. (6)
以及
其中
当且仅当y(t)=0时,式(4)成立,
假设在时间t有输出的概率为p(t),如果0<t≤Tmin,则p(t)=1,Tmin是第k次迭代的实际迭代运行最小长度;如果Tmin+1≤t≤Td,则0<p(t)<1,并且p(Tmin)>p(Tmin+1)>…>p(Td),其中,p(Tmin)和p(Td)分别是在时间Tmin和Td有输出的概率,
定义一个示性函数1(t≤Tk),使其遵守伯努利分布,以解决由每次迭代的迭代长度的随机性引起的问题,对于给定时刻t≤Tmin,等式1(t≤Tk)=1代表迭代学习过程一直持续到时刻t,并且发生的概率p(t)=1;对于给定时刻t>Tmin,时间的集合{t≤Tk}包含{Tk=t},{Tk=t+1},…,{Tk=Td},所以Tmin<t≤Td,P(Aβ)是事件发生的概率,β的取值范围是t到Td,因此,进一步得到,E{1(t≤Tk)}=1·p(t)+0·(1-p(t))=p(t),其中E{1(t≤Tk)}表示求期望,
定义新的状态误差为:
在任何一次迭代学习过程中,信息交互图都可能在多智能体运动期间切换,基于ILC理论将迭代学习协议设计为
其中,uk,l(t)是第l个智能体在第k次迭代的控制输入;是增益矩阵;ak+1,lj(t)是多智能体间通信拓扑的边上权重;是第j个智能体在第k次迭代中t+1时刻的修正误差;是第l个智能体在第k次迭代时t+1时刻的修正误差;Nk+1,l(t)是对应于第l个智能体在第k+1次迭代的离散时刻t的邻居索引集,
将式(12)写成紧凑形式:
4.根据权利要求3所述的方法,其特征在于,步骤S3具体过程为:
1)对固定迭代初始偏移情况,进行初始状态精确重置下的收敛性分析,具体过程为:
则变量随着k→∞收敛到零,从而渐近实现了编队控制目标,其中yk,j(t)=ek,1(t)-ek,j+1(t),j=1,…,n-1;式(14)中,sup是指数学含义的上确界:无论t取何值,范数的大小都小于1;是信息交互图的下标集,Li是第i个交互图的拉普拉斯矩阵;
2)对有界迭代初始偏移情况,进行初始状态随机变换下的收敛性分析,具体过程为:
则yk(t)收敛到原点的一个小邻域,其中t=1,…,Td,即lim supk→∞E||yk(t)||≤vξ,其中v是一个常数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011442840.5A CN112526886A (zh) | 2020-12-08 | 2020-12-08 | 随机试验长度下离散多智能体系统迭代学习编队控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011442840.5A CN112526886A (zh) | 2020-12-08 | 2020-12-08 | 随机试验长度下离散多智能体系统迭代学习编队控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112526886A true CN112526886A (zh) | 2021-03-19 |
Family
ID=75000148
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011442840.5A Pending CN112526886A (zh) | 2020-12-08 | 2020-12-08 | 随机试验长度下离散多智能体系统迭代学习编队控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112526886A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114061584A (zh) * | 2021-11-02 | 2022-02-18 | 江苏科技大学 | 一种基于多机器人的势均衡多伯努利滤波slam方法 |
CN115268275A (zh) * | 2022-08-24 | 2022-11-01 | 广东工业大学 | 基于状态观测器的多智能体系统一致性跟踪方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109031958A (zh) * | 2018-10-16 | 2018-12-18 | 廊坊师范学院 | 分数阶多智能体追踪一致性的迭代学习控制方法 |
CN110083066A (zh) * | 2019-05-22 | 2019-08-02 | 杭州电子科技大学 | 多智能体系统的分数阶迭代控制方法 |
CN110597061A (zh) * | 2019-09-18 | 2019-12-20 | 中国人民解放军火箭军工程大学 | 一种多智能体完全分布式自抗扰时变编队控制方法 |
CN111722628A (zh) * | 2020-06-19 | 2020-09-29 | 江南大学 | 一种多智能体轨迹更新迭代学习的点到点跟踪控制方法 |
-
2020
- 2020-12-08 CN CN202011442840.5A patent/CN112526886A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109031958A (zh) * | 2018-10-16 | 2018-12-18 | 廊坊师范学院 | 分数阶多智能体追踪一致性的迭代学习控制方法 |
CN110083066A (zh) * | 2019-05-22 | 2019-08-02 | 杭州电子科技大学 | 多智能体系统的分数阶迭代控制方法 |
CN110597061A (zh) * | 2019-09-18 | 2019-12-20 | 中国人民解放军火箭军工程大学 | 一种多智能体完全分布式自抗扰时变编队控制方法 |
CN111722628A (zh) * | 2020-06-19 | 2020-09-29 | 江南大学 | 一种多智能体轨迹更新迭代学习的点到点跟踪控制方法 |
Non-Patent Citations (1)
Title |
---|
YANG LIU等: "Iterative learning formation control for continuous-time multi-agent systems with randomly varying trial lengths", 《JOURNAL OF THE FRANKLIN INSTITUTE-ENGINEERING AND APPLIED MATHEMATICS》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114061584A (zh) * | 2021-11-02 | 2022-02-18 | 江苏科技大学 | 一种基于多机器人的势均衡多伯努利滤波slam方法 |
CN114061584B (zh) * | 2021-11-02 | 2024-05-24 | 江苏科技大学 | 一种基于多机器人的势均衡多伯努利滤波slam方法 |
CN115268275A (zh) * | 2022-08-24 | 2022-11-01 | 广东工业大学 | 基于状态观测器的多智能体系统一致性跟踪方法及系统 |
CN115268275B (zh) * | 2022-08-24 | 2024-05-28 | 广东工业大学 | 基于状态观测器的多智能体系统一致性跟踪方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xiao et al. | Observer-based adaptive consensus control for nonlinear multi-agent systems with time-delay | |
Yan et al. | Formation consensus for discrete-time heterogeneous multi-agent systems with link failures and actuator/sensor faults | |
Wen et al. | Optimized formation control using simplified reinforcement learning for a class of multiagent systems with unknown dynamics | |
Zhao et al. | Distributed optimal coordination control for nonlinear multi-agent systems using event-triggered adaptive dynamic programming method | |
Guo et al. | Command-filter-based fixed-time bipartite containment control for a class of stochastic multiagent systems | |
Huang et al. | Nonlinear adaptive control of interconnected systems using neural networks | |
Xia et al. | Optimal synchronization control of heterogeneous asymmetric input-constrained unknown nonlinear MASs via reinforcement learning | |
Li et al. | Neural-network-based distributed adaptive asymptotically consensus tracking control for nonlinear multiagent systems with input quantization and actuator faults | |
CN112526886A (zh) | 随机试验长度下离散多智能体系统迭代学习编队控制方法 | |
Chen et al. | Distributed adaptive output-feedback tracking control of non-affine multi-agent systems with prescribed performance | |
Ji et al. | Optimal consensus model-free control for multi-agent systems subject to input delays and switching topologies | |
Buisson-Fenet et al. | Joint state and dynamics estimation with high-gain observers and Gaussian process models | |
CN117055605A (zh) | 多无人机姿态控制方法及系统 | |
Sun et al. | Consensus for multiagent systems under output constraints and unknown control directions | |
CN114637278A (zh) | 一种多领导者与切换拓扑下的多智能体容错编队跟踪控制方法 | |
CN112198796B (zh) | 一种分布式前置时间状态观测器的设计方法 | |
Zhang et al. | Distributed optimal consensus protocol for high-order integrator-type multi-agent systems | |
Zou et al. | Distributed output feedback consensus tracking control of multiple nonholonomic mobile robots with only position information of leader | |
Bouteraa et al. | Adaptive backstepping synchronization for networked Lagrangian systems | |
CN115268275A (zh) | 基于状态观测器的多智能体系统一致性跟踪方法及系统 | |
Qi et al. | Pinning consensus control for switched multi-agent systems: A switched adaptive dynamic programming method | |
CN114791741A (zh) | 事件触发下无人系统集群的无模型最优分组协同控制方法 | |
Cao et al. | Iterative learning control for impulsive multi-agent systems with varying trial lengths | |
Wang et al. | Event-triggered tracking control for second-order multi-agent systems with fixed and switching topologies | |
CN115008456B (zh) | 一种柔性单链机械臂多智能体的跟踪控制方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |