CN111722628B - 一种多智能体轨迹更新迭代学习的点到点跟踪控制方法 - Google Patents

一种多智能体轨迹更新迭代学习的点到点跟踪控制方法 Download PDF

Info

Publication number
CN111722628B
CN111722628B CN202010565612.0A CN202010565612A CN111722628B CN 111722628 B CN111722628 B CN 111722628B CN 202010565612 A CN202010565612 A CN 202010565612A CN 111722628 B CN111722628 B CN 111722628B
Authority
CN
China
Prior art keywords
point
agent
target track
iterative learning
leader
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010565612.0A
Other languages
English (en)
Other versions
CN111722628A (zh
Inventor
刘成林
罗玉娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN202010565612.0A priority Critical patent/CN111722628B/zh
Publication of CN111722628A publication Critical patent/CN111722628A/zh
Priority to NL2027701A priority patent/NL2027701B1/en
Application granted granted Critical
Publication of CN111722628B publication Critical patent/CN111722628B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0287Control of position or course in two dimensions specially adapted to land vehicles involving a plurality of land vehicles, e.g. fleet or convoy travelling
    • G05D1/0291Fleet control
    • G05D1/0295Fleet control by at least one leading vehicle of the fleet
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/33Director till display
    • G05B2219/33051BBC behavior based control, stand alone module, cognitive, independent agent
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/39Robotics, robotics to robotics hand
    • G05B2219/39219Trajectory tracking
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/42Servomotor, servo controller kind till VSS
    • G05B2219/42342Path, trajectory tracking control

Abstract

本发明公开了一种多智能体轨迹更新迭代学习的点到点跟踪控制方法,属于控制技术领域。所述方法包括:先构建异构离散多智能体系统的数学模型,将期望位置点看成是由虚拟的领导者生成的,根据多智能体系统的通信拓扑结构确定以领导者为根节点的生成树结构;其次,根据期望点设计一种目标轨迹更新方法,通过更新目标轨迹使得新目标轨迹收敛到系统输出;最后,为跟随者智能体设计基于目标轨迹更新的P型迭代学习方法,实现多智能体系统对期望点完全跟踪。本发明通过上述方法,解决了异构多智能体系统的点到点跟踪控制问题,且系统输出跟踪上新目标轨迹的速度比跟踪固定目标轨迹的速度要快,从而使智能体完成对期望点的跟踪。

Description

一种多智能体轨迹更新迭代学习的点到点跟踪控制方法
技术领域
本发明涉及一种利用基于目标轨迹更新的迭代学习方法解决异构多智能体系统点到点跟踪控制问题,属于控制技术领域。
背景技术
近几十年,随着人工智能、工业技术不断发展,出现了很多规模庞大、结构复杂的控制系统,必须由多个子系统相互通信、合作完成宏观的任务。智能体之间的协调与合作将大大提高个体行为的智能化程度,更好地完成很多单个个体无法完成的工作。时至今日,多智能体协调控制技术已在传感器网络、机器人、交通信号控制等领域得到广泛应用。在实际工业生产中,许多被控系统都是在有限区间上执行重复运动任务,例如指令信号为周期函数的伺服系统、协同绕地球做周期运动的卫星、生产线上完成焊接、搬运等重复性任务的机械臂等。考虑到设备运行过程中产生的磨损以及老化原因,被控系统一般很难得到精准的系统模型,并且对于这类在有限区间上执行重复运动任务的多智能体系统,需要系统输出在整个作业区间上实现对期望轨迹的零误差跟踪。为实现具有重复运动性质的多智能体系统在整个作业区间上对期望轨迹的精准跟踪,迭代学习的思想被引用到多智能体系统的一致性跟踪控制问题中。
在基于迭代学习的多智能体系统一致性的研究中,通常要求系统输出能在整个作业区间上实现全轨迹跟踪。然而,在自动化协调控制生产过程中,系统输出只需要实现在特定时间点跟踪上期望位置点,比如机械臂在执行抓取和放置物件的时候只需要考虑抓取和放置物件时间点上的输出,不需要多加考虑其它时间点上的输出。并且对于一些复杂的工艺流程,由于设备的局限性,数据是无法全部检测出来的,完成对全部数据点的跟踪是有困难的,只能实现对某些可检测出来的位置点进行跟踪。因此,对特定点进行跟踪控制具有重大的研究价值。
当前,关于点到点的跟踪控制研究已经引起了一些学者的关注。实现点到点的跟踪控制的常规方法通常是设计一个通过期望位置点的任意轨迹,从而将点到点的跟踪控制问题转换成对固定目标轨迹的全轨迹跟踪控制问题。对固定目标轨迹的全轨迹跟踪控制是解决点到点的跟踪控制问题的比较简单的方法,但此方法跟踪性能的好坏会与经过期望位置点的固定目标轨迹的选取有关,而选取最优的固定目标轨迹则需要一定的先验知识,这对实现点到点的跟踪控制问题是有一定的局限性的。除此之外,该方法并不能充分利用其它时间点的自由度去解决点到点的跟踪控制问题。为了弥补固定轨迹的点到点跟踪控制方法的不足,有一些学者提出了基于目标轨迹更新的控制方法去解决系统的点到点跟踪控制问题。Son T D,Ahn H S,Moore K L.(Iterative learning control in optimaltracking problems with specified data points.Automatica,2013)利用上一次迭代的目标轨迹与系统输出轨迹的跟踪误差得到当前迭代时的目标轨迹,从而建立起目标轨迹更新函数。安通鉴,刘祥官.(目标轨迹更新的点到点鲁棒迭代学习控制.浙江大学学报,2015)借助插值法提出一种基于目标轨迹更新的迭代学习方法去解决具有初始扰动的点到点跟踪问题,并得出了该算法比固定轨迹的点到点跟踪控制算法的跟踪性能要好的结论。陶洪峰,董晓齐,杨慧中.(参考轨迹更新的点到点迭代学习控制算法优化及应用.控制理论与应用,2016)在目标轨迹更新的迭代学习算法的基础上,引入范数优化去提高算法的跟踪精度和快速性,并分析了系统在无扰动和非重复扰动的收敛性和鲁棒性。当前,关于单个系统的点到点的跟踪控制研究已经引起了一些学者的关注。而针对由多个协同合作的智能体构成的多智能体系统,如何利用迭代学习方法去解决多智能体系统的点到点跟踪控制问题是当前控制领域的一个难题。
发明内容
本发明的目的在于提供一种基于目标轨迹更新的迭代学习方法去解决异构多智能体系统的点到点跟踪控制问题。
实现本发明目的的技术解决方案为:
一种多智能体轨迹更新迭代学习的点到点跟踪控制方法,包括以下步骤:
步骤1.构建异构离散多智能体系统的模型;
步骤2.分析异构离散多智能体系统中各智能体之间的信息交换关系,使用有向图构建多智能体系统的通信拓扑结构,其中只有一个或多个跟随者智能体能获取领导者信息,且由领导者和跟随者组成的通信拓扑图包含一个以领导者为根节点的生成树;
步骤3.给定所有跟随者智能体的初始状态条件;
步骤4.根据期望位置点设计一种目标轨迹更新方法,并求解目标轨迹更新方法的参数,通过更新目标轨迹使得新目标轨迹渐近收敛到系统输出;
步骤5.为跟随者智能体设计基于目标轨迹更新的P型迭代学习方法,求解P型迭代学习方法的参数,从而实现多智能体系统在有限时间内对期望位置点完全跟踪。
本发明与现有技术相比,其显著优点在于:解决了异构多智能体系统的点到点跟踪控制问题,更新的目标轨迹比固定目标轨迹更加逼近系统输出,即系统输出收敛到新目标轨迹的速度比收敛到固定目标轨迹速度要快,从而使智能体完成对给定的期望点的跟踪,控制更加符合实际应用。
附图说明
图1是本发明网络拓扑结构图。
图2是本发明在图1拓扑通讯图下的第10次迭代的跟踪过程。
图3是本发明在图1拓扑通讯图下的第80次迭代的跟踪过程。
图4是本发明在图1拓扑通讯图下的误差收敛图。
图5是基于固定目标轨迹的迭代学习方法在图1拓扑通讯图下的第10次迭代的跟踪过程。
图6是基于固定目标轨迹的迭代学习方法在图1拓扑通讯图下的第100次迭代的跟踪过程。
图7是基于固定目标轨迹的迭代学习方法在图1拓扑通讯图下的误差收敛图。
具体实施方式
下面结合附图和具体实施例,进一步说明本发明方案。
本发明提出一种基于目标轨迹更新的迭代学习方法去解决多智能体系统的点到点跟踪问题,包括以下步骤:
步骤1.构建异构离散多智能体系统的数学模型;
由n个不同的智能体构成的离散异构多智能体系统模型为:
Figure BDA0002547732120000031
其中,k表示迭代次数,i代表第i个智能体,i=1,2,…,n,t∈[0,N]为一个周期内的采样时间点;
Figure BDA0002547732120000032
和yi,k(t)∈Rm分别表示智能体i的状态,控制输入和系统输出。
Figure BDA0002547732120000033
是具有相应维数的矩阵。
定义
Figure BDA0002547732120000034
Figure BDA0002547732120000035
则系统(1)以紧凑矩阵形式写成:
Figure BDA0002547732120000036
其中,A=diag{A1,A2,…,An},B=diag{B1,B2,…,Bn},C=diag{C1,C2,…,Cn}。
将系统(2)转换成基于时间序列的输入输出矩阵模型:
yk=Puk+Qxk(0), (3)
其中,yk=[yk(0),yk(1),…,yk(N)]T,uk=[uk(0),uk(1),…,uk(N)]T
Figure BDA0002547732120000041
Q=[C CA CA2 CA3 … CAN-1].
针对传统的迭代学习控制算法,通常控制目标是实现对固定轨迹yd(t)的全轨迹跟踪控制,要求随着迭代的进行,系统输出随着迭代次数的增多不断接近固定轨迹,即yi,k(t)→yd(t),t∈{0,1,2,…,N}。但实际工程中,很多时候只需要实现对待跟踪的时间点T={t1,t2,…,tM}的跟踪,因此,本发明考虑采用基于目标轨迹更新的迭代学习控制算法实现多智能体系统对期望位置点的跟踪,即yi,k(ts)→yd(ts),s=1,2…,M,并且有0≤t1<t2<…<tM≤N,其中yd(ts)是期望位置点。
基于领导者-跟随者通信结构,考虑将期望位置点yd(ts),s=1,2…,M看成是由虚拟的领导者生成的,并将系统(1)中n个智能体看作是跟随者,只有部分跟随者智能体能直接获取领导者信息。本发明的主要工作内容为:针对仅有部分跟随者智能体能直接获取期望位置点信息的多智能体系统(1),在固定通信拓扑下,设计合适的学习方法,实现多智能体系统(1)在有限时间内对期望位置点完全跟踪。
步骤2.分析多智能体系统中各智能体之间的信息交换关系,使用有向图构建多智能体系统的通信拓扑结构,根据多智能体系统的通信拓扑结构确定以领导者为根节点的有向生成树结构;
使用有向图
Figure BDA0002547732120000042
表示多智能体系统的拓扑结构,其中图G的节点集合V={1,2,…,n}对应n个智能体,图G的边集
Figure BDA0002547732120000043
对应智能体之间的信息交流传递,边的权重aij≥0,aii=0,i,j∈V,矩阵
Figure BDA0002547732120000044
是加权邻接矩阵。若有向图中节点j可以从节点i获得信息,则该节点对连边用eij=(i,j)∈E表示。若eij∈E,则加权邻接矩阵中的元素aij>0,否则为0,并且aii=0,
Figure BDA0002547732120000045
智能体i的邻居集合为Ni={j∈V:(i,j)∈E}。
图G的拉普拉斯矩阵
Figure BDA0002547732120000046
矩阵D为图G的度矩阵,式中
Figure BDA0002547732120000051
Figure BDA0002547732120000052
有向图G中,节点i1到节点is的有向路径是指一系列边的有序列(i1,i2),…,(is-1,is)。有向图G中如果存在一个节点i到其它任意节点都有一条有向路径,则节点i为根节点,若图G有根节点,则该有向图有一个生成树。
由于本发明通过领导-跟随协调控制结构研究了多智能体一致性跟踪问题。当加入领导者后,n个跟随智能体和领导者组成图
Figure BDA0002547732120000053
智能体i与领导者之间的信息传递用si表示,si>0表示智能体与领导者有联系,si=0表示智能体与领导者没有联系。
在有向图
Figure BDA0002547732120000054
中,若存在一个以领导者为根节点的有向生成树,意味着领导者有一条有向通路通往所有跟随者智能体。
步骤3.给定所有跟随者智能体的初始状态条件;
所有跟随者智能体的初始状态重置条件为:xi,k(t)=0.
步骤4.根据期望位置点设计一种目标轨迹更新方法,并求解目标轨迹更新方法的参数,通过更新目标轨迹使得新目标轨迹渐近收敛到系统输出;
通常采用迭代学习控制算法对固定轨迹的跟踪要求随着迭代次数的增多,系统输出yi,k(t)渐近收敛到固定轨迹yd(t),即
||yd-yk+1||≤||yd-yk||. (4)
而本发明提出的目标轨迹更新算法是使得新目标轨迹ri,k(t)渐近收敛到系统输出yk(t),即
||rk+1-yk||≤||rk-yk||. (5)
首先,定义目标轨迹更新算法为:
ri,k+1(t)=yd(t)+hi(t)fi(t), (6)
其中,ri,k+1(t)为第i个智能体在第k次迭代学习更新后的目标轨迹,yd(t)是经过期望位置点yd(ts)的任意轨迹,hi(t)=(t-t1)(t-t2)…(t-tM),fi(t)为任意离散函数。
令rk(t)=[r1,k(t),r2,k(t),…,rn,k(t)]T,f(t)=[f1(t),f2(t),…,fn(t)]T,H(t)=diag{h1(t),h2(t),…,hn(t)},Yd(t)=[yd(t),yd(t),…,yd(t)]T则式(6)可转换成:
rk+1(t)=Yd(t)+H(t)f(t). (7)
再将式(7)写成基于时间序列的形式:
rk+1=Yd+Hf, (8)
其中:
rk+1=[rk+1(0),rk+1(1),…,rk+1(N)]T,
Yd=[Yd(0),Yd(1),…,Yd(N)]T,
H=diag{H(0),H(1),…,H(N)},
f=[f(0),f(1),…,f(N)]T.
由于点到点跟踪是要求每次更新的目标轨迹在需要跟踪的时间点T={t1,t2,…,tM}的值与给定期望点保持一致,即ri,k(ts)=yd(ts),则式(8)进一步可转换成任意采样点处的目标轨迹:
rk+1=rk+Hf. (9)
令f=F(rk-yk),其中F为实对角矩阵,则式(9)可表示为:
rk+1=rk+HF(rk-yk). (10)
令λk=HF,由于矩阵H和矩阵F都是对角矩阵,则λk也为实对角矩阵,且
Figure BDA0002547732120000061
式中,
Figure BDA0002547732120000062
则目标轨迹更新算法(10)变成:
rk+1=rkk(rk-yk). (11)
由式(11)可知:
Figure BDA0002547732120000063
对式(12)两边取范数:
||rk+1-yk||≤||I+λk||||rk-yk||. (13)
因此,当||I+λk||≤1,可得||rk+1-yk||≤||rk-yk||。
而在基于目标轨迹更新的点到点跟踪控制问题中,目标轨迹在需要跟踪的时间点T={t1,t2,…,tM}上的值是固定不变的,且与期望点保持一致,即满足:
ri,k(ts)=yd(ts),s=1,2…,M. (14)
因此可得出:
ri,k+1(ts)=ri,k(ts). (15)
由式(11)可知,当在需要跟踪的时间点T={t1,t2,…,tM}上满足λi,k(ts)=0,s=1,2…,M,且满足ri,1(ts)=yd(ts)时,式(15)成立。
所以若满足||I+λk||=1,且λi,k(ts)=0,s=1,2…,M,则可得出||rk+1-yk||≤||rk-yk||。
从式(5)可以看出,随着迭代次数的增多,更新的目标轨迹比固定目标轨迹更加逼近系统输出,即系统输出收敛到新目标轨迹的速度比收敛到固定目标轨迹速度要快。由此可以看出,基于目标轨迹更新的点到点跟踪控制算法既能使得系统更快地跟踪上期望点,达到更好的跟踪效果,还可以弥补固定目标轨迹的点到点跟踪控制算法的不足。
步骤5.为跟随者智能体设计基于目标轨迹更新的P型迭代学习方法,求解P型迭代学习方法的参数,从而实现多智能体系统在有限时间内对期望位置点完全跟踪。
首先,给出每个智能体的跟踪误差为:
ei,k(t)=ri,k(t)-yi,k(t), (16)
eij,k(t)=yj,k(t)-yi,k(t),j∈Ni, (17)
其中,ei,k(t)代表第k次迭代时智能体i的输出与迭代更新后的目标轨迹之间的误差,而eij,k(t)则表示第k次迭代时智能体和其邻居智能体之间的误差。
令ξi,k(t)表示在第k次迭代中智能体i接收或测量的信息,我们得到
Figure BDA0002547732120000071
其中,aij是边的权重,并且si是智能体i与领导者之间的耦合权重。
由于eij,k(t)=ei,k(t)-ej,k(t),式(18)转换成:
Figure BDA0002547732120000081
定义ek(t)=[e1,k(t),e2,k(t),…,en,k(t)]T,ξk(t)=[ξ1,k(t),ξ2,k(t),…,ξn,k(t)]T,利用图论知识,
则式(19)可写成:
Figure BDA0002547732120000082
其中,S=diag{s1,s2,…,sn},并且L是G的拉普拉斯矩阵,Im表示m×m维单位矩阵。
将式(20)也写成基于时间序列的形式,即:
ξk=Mek, (21)
其中,ek=[ek(0),ek(1),…,ek(N)]T,ξk=[ξk(0),ξk(1),…,ξk(N)]T
Figure BDA0002547732120000083
在本发明中,我们考虑对每一个跟踪者智能体采用P型迭代学习方法去解决多智能体系统对期望点的跟踪控制问题,迭代学习方法如下所示:
ui,k+1(t)=ui,k(t)+Γiξi,k+1(t), (22)
其中,
Figure BDA0002547732120000084
为学习增益。
令uk(t)=[u1,k(t),u2,k(t),…,un,k(t)]T,ξk(t)=[ξ1,k(t),ξ2,k(t),…,ξn,k(t)]T,则式(22)转换成:
uk+1(t)=uk(t)+Γξk+1(t), (23)
其中,Γ=diag{Γ12,…,Γn}。
其次,令ξk=[ξk(0),ξk(1),…,ξk(N)]T,uk=[uk(0),uk(1),…,uk(N)]T,式(23)可转换成:
Figure BDA0002547732120000085
其中,
Figure BDA0002547732120000086
将式(21)代入式(24)可得迭代学习方法:
Figure BDA0002547732120000087
由式(11)和式(25)可得出基于目标轨迹更新的迭代学习方法为:
Figure BDA0002547732120000088
当λk=0时,式(26)变成:
Figure BDA0002547732120000091
此时目标轨迹没有进行迭代更新,所以式(27)是固定目标轨迹的迭代学习方法。可以看出,式(27)是式(26)的一种特殊形式。
由式(16)可得:
ek=rk-yk, (28)
再由式(3)和式(26)可进一步得出:
Figure BDA0002547732120000092
对式(29)进行整合,可得出:
Figure BDA0002547732120000093
由式(3)可得:
Guk=yk-Qxk(0). (31)
将式(31)代入式(30),可得:
Figure BDA0002547732120000094
由于所有的跟随者智能体都满足xi,k(0)=0,可得xk+1(0)-xk(0)=0,
从而式(32)可简化为:
Figure BDA0002547732120000095
对式(33)两边同时左乘
Figure BDA0002547732120000096
从而得到:
Figure BDA0002547732120000097
再对式(34)两边同时取范数,可得:
Figure BDA0002547732120000101
由于已证明出||I+λk||=1,因此可得出:
Figure BDA0002547732120000102
由式(36)可知,当
Figure BDA0002547732120000103
可得||ek||→0,k→∞。
因此,对于t∈[0,N]时,当k→∞时,有ek(t)→0。
对于所有的ts∈T∈[0,N],当k→∞,由式(14)和式(16)可以看出:
yk+1(ts)→rk+1(ts)=yd(ts). (37)
综上所述,对于离散异构多智能体系统,在基于目标轨迹更新的迭代学习方法作用下,如果存在矩阵
Figure BDA0002547732120000104
使得不等式
Figure BDA0002547732120000105
成立,随着迭代的进行,跟随者的输出轨迹会收敛到期望点,即当k→∞时,yk+1(ts)=yd(ts)。
实施例
考虑六个不同的跟随者智能体和一个领导者智能体构成的离散异构多智能体系统,系统的通信拓扑图如图1所示,其中编号0代表领导者智能体,编号1-6代表跟随者智能体。
跟随者智能体的动力学模型如下:
Figure BDA0002547732120000106
Figure BDA0002547732120000107
Figure BDA0002547732120000108
Figure BDA0002547732120000111
系统仿真时间为t∈[0,2],采样时间为0.1s。选取其中的5个点作为期望位置点进行跟踪控制研究,待跟踪的点T={20,60,100,140,180},期望输出为yd(T)={5,3,-3,-5,1.5}。
将期望位置点yd(T)={5,3,-3,-5,1.5}看成是由编号为0的虚拟的领导者生成的,并将上述6个智能体看作是跟随者,只有部分跟随者智能体能直接获取领导者信息。由通信拓扑图1可知只有智能体1和智能体4能够直接获得领导者0的信息,因此,S=diag{1.5,0,0,2,0,0},同时也可得到智能体之间的Laplacian矩阵如下:
Figure BDA0002547732120000112
在仿真中,我们将智能体的初始状态设为:x1,k(0)=[0 10]T,x2,k(0)=[0 1]T,x3,k(0)=[2 2 1]T,x4,k(0)=[2 2 1]T,x5,k(0)=[0 0 0 5]T,x6,k(0)=[0 0 0 5]T,并将每个智能体第一次迭代时的控制输入信号设为0。
对于固定目标轨迹的迭代学习方法(27),取经过上述期望位置点yd(T)={5,3,-3,-5,1.5}的轨迹为yd(t)=(-6.5t4+41.7t3-72.4t2+33.3t+1)。
对于基于目标轨迹更新的迭代学习方法(26),取ri,1(t)=yd(t),且λk满足
Figure BDA0002547732120000113
选择Γ=diag{6,1.2,1.5,1.5,3,3},得出多智能体系统的收敛条件
Figure BDA0002547732120000114
在基于目标轨迹更新的迭代学习方法(26)作用下,图2和图3分别表示六个智能体在第10次迭代和第80次迭代的跟踪过程,可以很清楚地看出随着迭代过程的进行,智能体能跟踪上期望位置点。图5表示六个跟随者智能体在基于目标轨迹更新的迭代学习方法作用下的误差收敛图,将maxt∈T|ei,k(t)|<10-3设为误差精度要求,可以看出当迭代学习80次时,六个跟随者智能体才能全部跟踪上期望位置点。
为了将基于目标轨迹更新的迭代学习方法(26)与固定目标轨迹的迭代学习方法(27)的跟踪性能进行比较,我们选择rk+1=rk=yd(t),此时算法(26)便转换为固定目标轨迹的迭代学习控制算法。在固定目标轨迹的迭代学习算法作用下,图6和图7分别表示六个智能体在第10次迭代和第100次迭代的跟踪过程,可以很清楚地看出随着迭代过程的进行,智能体能跟踪上固定目标轨迹yd(t)。由于固定目标轨迹yd(t)是经过期望位置点yd(T)的,所以算法(27)也能完成对期望位置点的跟踪。图7可以看出使用固定目标轨迹的迭代学习控制算法的跟随者智能体在第100次迭代后才能完全跟踪上期望轨迹,收敛速度比目标轨迹更新的迭代学习算法的收敛速度要慢。综上所述,可以发现更新的目标轨迹比固定目标轨迹能更快地实现多智能体系统点到点的跟踪。

Claims (5)

1.一种多智能体轨迹更新迭代学习的点到点跟踪控制方法,其特征在于,包括以下步骤:
步骤1、构建异构离散多智能体系统的模型;
步骤2、分析异构离散多智能体系统中各智能体之间的信息交换关系,使用有向图构建多智能体系统的通信拓扑结构,其中只有一个或多个跟随者智能体能获取领导者信息,且由领导者和跟随者组成的通信拓扑图包含一个以领导者为根节点的生成树;
步骤3、给定所有跟随者智能体的初始状态条件;
步骤4、根据期望位置点设计一种目标轨迹更新方法,并求解目标轨迹更新方法的参数,通过更新目标轨迹使得新目标轨迹渐近收敛到系统输出;
目标轨迹更新方法如下:
ri,k+1(t)=yd(t)+hi(t)fi(t), (5)
其中,ri,k+1(t)为第i个智能体在第k+1次迭代学习更新后的目标轨迹,yd(t)是经过期望位置点yd(ts)的任意轨迹,hi(t)=(t-t1)(t-t2)…(t-tM),fi(t)为任意离散函数;
令rk(t)=[r1,k(t),r2,k(t),…,rn,k(t)]T,f(t)=[f1(t),f2(t),…,fn(t)]T,H(t)=diag{h1(t),h2(t),…,hn(t)},Yd(t)=[yd(t),yd(t),…,yd(t)]T则式(4)转换成:
rk+1(t)=Yd(t)+H(t)f(t), (6)
再将式(6)写成基于时间序列的形式:
rk+1=Yd+Hf, (7)
其中:
rk+1=[rk+1(0),rk+1(1),…,rk+1(N)]T,
Yd=[Yd(0),Yd(1),…,Yd(N)]T,
H=diag{H(0),H(1),…,H(N)},
f=[f(0),f(1),…,f(N)]T,
由于点到点跟踪是要求每次更新的目标轨迹在需要跟踪的时间点T={t1,t2,…,tM}的值与给定期望点保持一致,即ri,k(ts)=yd(ts),则式(7)进一步转换成任意采样点处的目标轨迹:
rk+1=rk+Hf, (8)
令f=F(rk-yk),其中F为实对角矩阵,则式(8)表示为:
rk+1=rk+HF(rk-yk), (9)
令λk=HF,由于矩阵H和矩阵F都是对角矩阵,则λk也为实对角矩阵,且
Figure FDA0003054986020000021
式中,
Figure FDA0003054986020000022
则目标轨迹更新方法(9)变成:
rk+1=rkk(rk-yk), (10)
采用迭代学习控制算法对固定轨迹的跟踪要求随着迭代次数的增多,系统输出yi,k(t)渐近收敛到固定轨迹yd(t),即
||yd-yk+1||≤||yd-yk||, (11)
本目标轨迹更新算法是使得新目标轨迹ri,k(t)渐近收敛到系统输出yk(t),即
||rk+1-yk||≤||rk-yk||, (12)
对于点到点跟踪控制问题,采用目标轨迹更新算法rk+1=rkk(rk-yk),若满足||I+λk||=1,且λk满足
Figure FDA0003054986020000023
则可得到||rk+1-yk||≤||rk-yk||,T表示待跟踪的时间点T={t1,t2,…,tM};
步骤5、为跟随者智能体设计基于目标轨迹更新的P型迭代学习方法,求解P型迭代学习方法的参数,从而实现多智能体系统在有限时间内对期望位置点完全跟踪。
2.根据权利要求1所述的一种多智能体轨迹更新迭代学习的点到点跟踪控制方法,其特征在于,步骤1中,由n个不同的智能体构成的异构离散多智能体系统模型为:
Figure FDA0003054986020000024
其中,k表示迭代次数,i代表第i个智能体,i=1,2,…,n,t∈[0,N]为一个周期内的采样时间点;
Figure FDA0003054986020000025
和yi,k(t)∈Rm分别表示智能体i的状态、控制输入和系统输出;
Figure FDA0003054986020000039
是具有相应维数的矩阵;
定义
Figure FDA0003054986020000031
Figure FDA0003054986020000032
则系统(1)以紧凑矩阵形式写成:
Figure FDA0003054986020000033
其中,A=diag{A1,A2,…,An},B=diag{B1,B2,…,Bn},C=diag{C1,C2,…,Cn};
将系统(2)转换成基于时间序列的输入输出矩阵模型:
yk=Puk+Qxk(0), (3)
其中,yk=[yk(0),yk(1),…,yk(N)]T,uk=[uk(0),uk(1),…,uk(N)]T
Figure FDA0003054986020000034
Q=[C CA CA2 CA3 … CAN-1],
给定本发明待跟踪的时间点T={t1,t2,…,tM},考虑采用新控制方法实现多智能体系统对期望位置点的跟踪,即yi,k(ts)→yd(ts),s=1,2…,M,并且有0≤t1<t2<…<tM≤N,其中yd(ts)是期望位置点;将期望位置点yd(ts)看成是由虚拟的领导者生成的,s=1,2…,M;并将系统中n个智能体看作是跟随者,且只有部分跟随者智能体能直接获取领导者信息。
3.根据权利要求2所述的一种多智能体轨迹更新迭代学习的点到点跟踪控制方法,其特征在于,步骤2中,使用有向图
Figure FDA0003054986020000035
表示多智能体系统的拓扑结构,其中图G的节点集合V={1,2,…,n}对应n个智能体,图G的边集
Figure FDA0003054986020000036
对应智能体之间的信息交流传递,边的权重aij≥0,aii=0,i,j∈V,矩阵
Figure FDA0003054986020000037
是加权邻接矩阵;若有向图中节点j可以从节点i获得信息,则该节点对连边用eij=(i,j)∈E表示;若eij∈E,则加权邻接矩阵中的元素aij>0,否则为0,并且aii=0,
Figure FDA0003054986020000038
智能体i的邻居集合为Ni={j∈V:(i,j)∈E};图G的拉普拉斯矩阵
Figure FDA0003054986020000044
矩阵D为图G的度矩阵,式中
Figure FDA0003054986020000041
Figure FDA0003054986020000042
有向图G中,节点i1到节点is的有向路径是指一系列边的有序列(i1,i2),…,(is-1,is);有向图G中如果存在一个节点i到其它任意节点都有一条有向路径,则节点i为根节点,若图G有根节点,则该有向图有一个生成树;
当加入领导者后,n个跟随智能体和领导者组成图
Figure FDA0003054986020000045
智能体i与领导者之间的信息传递用si表示,si>0表示智能体与领导者有联系,si=0表示智能体与领导者没有联系;
在有向图
Figure FDA0003054986020000046
中,若存在一个以领导者为根节点的有向生成树,意味着领导者有一条有向通路通往所有跟随者智能体。
4.根据权利要求3所述的一种多智能体轨迹更新迭代学习的点到点跟踪控制方法,其特征在于,步骤3中,所有跟随者智能体的初始状态重置条件为:
xi,k(t)=0, (4)。
5.根据权利要求1所述的一种多智能体轨迹更新迭代学习的点到点跟踪控制方法,其特征在于,步骤5中,基于目标轨迹更新的P型迭代学习方法如下:
首先,给出每个智能体的跟踪误差为:
ei,k(t)=ri,k(t)-yi,k(t), (13)
eij,k(t)=yj,k(t)-yi,k(t),j∈Ni, (14)
其中,ei,k(t)代表第k次迭代时智能体i的输出与迭代更新后的目标轨迹之间的误差,而eij,k(t)则表示第k次迭代时智能体和其邻居智能体之间的误差;
令ξi,k(t)表示在第k次迭代中智能体i接收或测量的信息,我们得到
Figure FDA0003054986020000043
其中,aij是边的权重,并且si是智能体i与领导者之间的耦合权重;
由于eij,k(t)=ei,k(t)-ej,k(t),所以式(15)转换成:
Figure FDA0003054986020000051
定义ek(t)=[e1,k(t),e2,k(t),…,en,k(t)]T,ξk(t)=[ξ1,k(t),ξ2,k(t),…,ξn,k(t)]T,利用图论知识,则式(16)可写成:
Figure FDA0003054986020000052
其中,S=diag{s1,s2,…,sn},并且L是G的拉普拉斯矩阵,Im表示m×m维单位矩阵;
将式(17)也写成基于时间序列的形式,即:
ξk=Mek, (18)
其中,ek=[ek(0),ek(1),…,ek(N)]T,ξk=[ξk(0),ξk(1),…,ξk(N)]T
Figure FDA0003054986020000053
考虑对每一个跟踪者智能体采用P型迭代学习方法去解决多智能体系统对期望点的跟踪控制问题,迭代学习方法如下所示:
ui,k+1(t)=ui,k(t)+Γiξi,k+1(t), (19)
其中,
Figure FDA0003054986020000054
为学习增益;
令uk(t)=[u1,k(t),u2,k(t),…,un,k(t)]T,ξk(t)=[ξ1,k(t),ξ2,k(t),…,ξn,k(t)]T,则式(19)转换成:
uk+1(t)=uk(t)+Γξk+1(t), (20)
其中,Γ=diag{Γ12,…,Γn};
其次,令ξk=[ξk(0),ξk(1),…,ξk(N)]T,uk=[uk(0),uk(1),…,uk(N)]T,式(20)可转换成:
Figure FDA0003054986020000055
其中,
Figure FDA0003054986020000056
将式(18)代入式(21)得迭代学习控制方法:
Figure FDA0003054986020000057
由式(10)和式(22)可得出基于目标轨迹更新的迭代学习方法为:
Figure FDA0003054986020000058
对于离散异构多智能体系统(1),在基于目标轨迹更新的迭代学习方法(23)作用下,如果不等式
Figure FDA0003054986020000061
成立,随着迭代的进行,跟随者的输出轨迹会收敛到期望点,即当k→∞时,yk+1(ts)=yd(ts)。
CN202010565612.0A 2020-06-19 2020-06-19 一种多智能体轨迹更新迭代学习的点到点跟踪控制方法 Active CN111722628B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010565612.0A CN111722628B (zh) 2020-06-19 2020-06-19 一种多智能体轨迹更新迭代学习的点到点跟踪控制方法
NL2027701A NL2027701B1 (en) 2020-06-19 2021-03-03 Point-to-point tracking control method for multi-agent trajectory-updating iterative learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010565612.0A CN111722628B (zh) 2020-06-19 2020-06-19 一种多智能体轨迹更新迭代学习的点到点跟踪控制方法

Publications (2)

Publication Number Publication Date
CN111722628A CN111722628A (zh) 2020-09-29
CN111722628B true CN111722628B (zh) 2021-07-09

Family

ID=72567744

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010565612.0A Active CN111722628B (zh) 2020-06-19 2020-06-19 一种多智能体轨迹更新迭代学习的点到点跟踪控制方法

Country Status (2)

Country Link
CN (1) CN111722628B (zh)
NL (1) NL2027701B1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112526886A (zh) * 2020-12-08 2021-03-19 北京航空航天大学 随机试验长度下离散多智能体系统迭代学习编队控制方法
CN113342002B (zh) * 2021-07-05 2022-05-20 湖南大学 基于拓扑地图的多移动机器人调度方法及系统
CN113791611B (zh) * 2021-08-16 2024-03-05 北京航空航天大学 一种车辆在干扰下的实时跟踪迭代学习控制系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108803349A (zh) * 2018-08-13 2018-11-13 中国地质大学(武汉) 非线性多智能体系统的最优一致性控制方法及系统
CN110815225A (zh) * 2019-11-15 2020-02-21 江南大学 电机驱动单机械臂系统的点对点迭代学习优化控制方法
CN110948504A (zh) * 2020-02-20 2020-04-03 中科新松有限公司 机器人加工作业法向恒力跟踪方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108803349A (zh) * 2018-08-13 2018-11-13 中国地质大学(武汉) 非线性多智能体系统的最优一致性控制方法及系统
CN110815225A (zh) * 2019-11-15 2020-02-21 江南大学 电机驱动单机械臂系统的点对点迭代学习优化控制方法
CN110948504A (zh) * 2020-02-20 2020-04-03 中科新松有限公司 机器人加工作业法向恒力跟踪方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Consensus Tracking of Linear Multi-agent Systems Via Iterative Learning Control with Feedback Time-Delay;Yu-Juan Luo等;《2018 Chinese Automation Congress (CAC)》;20190124;正文第1-3章 *
初始误差修正的多智能体一致性迭代学习控制;伍巧凤等;《计算机工程与应用》;20141231;正文第1-5章 *

Also Published As

Publication number Publication date
NL2027701B1 (en) 2022-03-15
NL2027701A (en) 2022-01-28
CN111722628A (zh) 2020-09-29

Similar Documents

Publication Publication Date Title
CN111722628B (zh) 一种多智能体轨迹更新迭代学习的点到点跟踪控制方法
Haarnoja et al. Composable deep reinforcement learning for robotic manipulation
CN110275436B (zh) 一种多单臂机械手的rbf神经网络自适应控制方法
Mamakoukas et al. Local Koopman operators for data-driven control of robotic systems
Dutta et al. A decentralized formation and network connectivity tracking controller for multiple unmanned systems
Cisneros et al. Fast nonlinear MPC for reference tracking subject to nonlinear constraints via quasi-LPV representations
Zhao et al. Event-triggered consensus of discrete time second-order multi-agent network
Driess et al. Learning geometric reasoning and control for long-horizon tasks from visual input
Wensing et al. Cooperative adaptive control for cloud-based robotics
Liang et al. Multitarget tracking for multiple Lagrangian plants with input-to-output redundancy and sampled-data interactions
Zhang et al. Global iterative learning control based on fuzzy systems for nonlinear multi-agent systems with unknown dynamics
Abouheaf et al. Dynamic graphical games: online adaptive learning solutions using approximate dynamic programming
CN111983923A (zh) 一种受限多智能体系统编队控制方法、系统及设备
CN109648556B (zh) 基于数据驱动的机械臂位置级联分数阶控制方法及系统
Abadi et al. Chattering-free adaptive finite-time sliding mode control for trajectory tracking of MEMS gyroscope
Bouteraa et al. Adaptive backstepping synchronization for networked Lagrangian systems
CN116149179A (zh) 针对机器鱼的非一致轨迹长度差分进化迭代学习控制方法
Chattopadhyay et al. Control of single-segment continuum robots: reinforcement learning vs. neural network based PID
CN112632876B (zh) 一种基于dmhe和dmpc的无人船协同目标跟踪控制方法
CN111216146B (zh) 一种适用于网络化机器人系统的二部一致性量化控制方法
CN114545777A (zh) 基于改进q函数的多智能体一致性强化学习方法及系统
Ma et al. Linear-extended-state-observer based pinning control of nonlinear multi-robots system
Takhavova et al. Neural networks for the moving objects control
Wang et al. Consensus tracking for discrete distributed parameter multi-agent systems via iterative learning control
Du et al. Formation control of fixed-wing UAVs with communication delay

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant