CN113485344B - 一种多智能体输出编队跟踪控制方法及系统 - Google Patents
一种多智能体输出编队跟踪控制方法及系统 Download PDFInfo
- Publication number
- CN113485344B CN113485344B CN202110800042.3A CN202110800042A CN113485344B CN 113485344 B CN113485344 B CN 113485344B CN 202110800042 A CN202110800042 A CN 202110800042A CN 113485344 B CN113485344 B CN 113485344B
- Authority
- CN
- China
- Prior art keywords
- agent
- formation
- follower
- controller
- track
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 161
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000004891 communication Methods 0.000 claims abstract description 76
- 230000002787 reinforcement Effects 0.000 claims abstract description 18
- 238000013461 design Methods 0.000 claims abstract description 14
- 239000003795 chemical substances by application Substances 0.000 claims description 225
- 239000011159 matrix material Substances 0.000 claims description 59
- 230000006870 function Effects 0.000 claims description 21
- 230000005284 excitation Effects 0.000 claims description 4
- 230000007613 environmental effect Effects 0.000 abstract description 2
- 238000005457 optimization Methods 0.000 abstract description 2
- 238000000638 solvent extraction Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000012938 design process Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005251 gamma ray Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000087 stabilizing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0287—Control of position or course in two dimensions specially adapted to land vehicles involving a plurality of land vehicles, e.g. fleet or convoy travelling
- G05D1/0291—Fleet control
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
- G05D1/104—Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
本发明涉及一种多智能体输出编队跟踪控制方法及系统,该方法首先基于局部通信信息,设计分布式编队轨迹生成器,实时生成异构智能体的期望编队轨迹;其次利用强化学习的原理,利用系统模型的输入输出数据,在线优化迭代得到稳定的最优反馈控制器;最后根据在线学习的结果,设计输出编队跟踪控制前馈补偿控制器,实现了编队跟踪控制。本发明大大节约了通信资源,降低了通信负担,同时无需利用跟随者智能体的任何模型信息,对环境适应性更好,并且跟踪控制精度高。
Description
技术领域
本发明涉及控制理论和无人系统装备技术领域,特别是涉及一种多智能体输出编队跟踪控制方法及系统。
背景技术
多智能体系统的编队控制是目前控制理论和无人系统装备领域研究热点,并在工程中被广泛应用,例如无人机、无人车、机器人协同测绘、侦查、货物运输,武器系统集群组合攻击等多种民用及军用场景。当集群系统数目较多时,传统的基于引导、跟踪、行为规划等集中式控制方案消耗通信资源多、通信负担重。
因此,亟需一种多智能体输出编队跟踪控制方法及系统,以节约通信资源,降低通信负担。
发明内容
本发明的目的是提供一种多智能体输出编队跟踪控制方法及系统,以节约通信资源,降低通信负担。
为实现上述目的,本发明提供了如下方案:
一种多智能体输出编队跟踪控制方法,包括:
建立多智能体系统的通信网络拓扑模型;
建立领导者智能体模型;
设计跟随者智能体的期望编队构型;
根据所述通信网络拓扑模型、所述领导者智能体模型和所述期望编队构型设计分布式编队轨迹生成器;
利用所述分布式编队轨迹生成器生成所述跟随者智能体的参考轨迹;
利用编队轨迹跟踪控制器使所述跟随者智能体的输出轨迹跟踪所述参考轨迹。
可选的,所述建立多智能体系统的通信网络拓扑模型,具体包括:
建立跟随者智能体与跟随者智能体之间的第一通信拓扑连通关系;
建立跟随者智能体与领导者智能体之间的第二通信拓扑连通关系;
根据所述第一通信拓扑连通关系和所述第二通信拓扑连通关系建立所述多智能体系统的通信网络拓扑模型。
可选的,所述领导者智能体模型表示为:
y0(t)=Rξ0(t)
其中,表示领导者智能体状态对时间的导数;ξ0(t)表示领导者智能体状态;S表示领导者智能体系数矩阵;R表示领导者智能体输出矩阵;y0(t)表示领导者智能体输出状态。
可选的,跟随者智能体的期望编队构型的具体表达式为:
其中,表示第i个跟随者智能体的期望编队构型;/>表示第i个跟随者智能体相对领导者智能体的状态偏移量;R表示领导者智能体输出矩阵。
可选的,所述分布式编队轨迹生成器的具体表达式为:
其中,表示第i个分布式编队轨迹生成器状态的时间导数;S表示领导者智能体系数矩阵;ξi(t)表示第i个分布式编队轨迹生成器的状态;F表示常数增益矩阵;/>表示第i个跟随者智能体的参考轨迹;j表示第j个跟随者智能体;Ni表示第i个跟随者智能体的邻居集合;/>表示第i个跟随者智能体队形向量;gi表示领导者智能体到第i个跟随者智能体的通信权值;wij表示第j个智能体到第i个智能体之间对应的通信权重;ξ0(t)表示领导者智能体状态;vi(t)表示轨迹生成补偿项;R表示领导者智能体输出矩阵。
可选的,所述利用编队轨迹跟踪控制器使所述跟随者智能体的输出轨迹跟踪所述参考轨迹,具体包括:
利用强化学习算法设计最优反馈控制器;
根据所述最优反馈控制器的最优反馈控制增益,设计输出编队跟踪控制前馈补偿控制器;
根据所述最优反馈控制器和所述输出编队跟踪控制前馈补偿控制器获得所述编队轨迹跟踪控制器;
利用编队轨迹跟踪控制器使所述跟随者智能体的输出轨迹跟踪所述参考轨迹。
可选的,所述利用强化学习算法设计最优反馈控制器,具体包括:
设计强化学习算法的指标函数;
根据分布式编队轨迹生成器的生成状态和所述跟随者智能体的状态对所述指标函数进行参数化拟合,得到拟合后的指标函数;
初始化所述拟合后的指标函数、迭代控制器和迭代次数;
预定时间间隔采集加入数据激励控制器后的所述多智能体系统内的所有智能体状态和跟随者智能模型的控制输入量,得到采集数据;
当所述采集数据中未使用数据的个数达到预定值时,对所述迭代控制器进行迭代更新;
当当前迭代控制器与上一轮迭代更新得到的迭代控制器之间的差值小于误差允许阈值时,则迭代更新结束。
可选的,所述输出编队跟踪控制前馈补偿控制器的具体表达式为:
其中,zic(t)表示所述输出编队跟踪控制前馈补偿控制器的控制量;表示第i个跟随者智能体模型的输入矩阵的平均值;/>和/>表示所述最优反馈控制器的最优反馈控制增益;S表示领导者智能体系数矩阵;/>表示第i个跟随者智能体队形向量;/>为第i个跟随者智能体队形向量的时间导数。
可选的,所述编队轨迹跟踪控制器的具体表达式为:
其中,表示编队轨迹跟踪控制器的控制量;/>和/>表示所述最优反馈控制器的最优反馈控制增益;zic(t)表示所述输出编队跟踪控制前馈补偿控制器的控制量;Ri表示指标函数的可设计变量,用于控制增益大小;ξi(t)表示第i个分布式编队轨迹生成器的状态;xi(t)表示第i个跟随者智能体的状态量;Bi表示第i个跟随者智能体的输入矩阵。
一种多智能体输出编队跟踪控制系统,包括:
网络模型建立模块,用于建立多智能体系统的通信网络拓扑模型;
领导者模型建立模块,用于建立领导者智能体模型;
编队构型设计模块,用于设计跟随者智能体的期望编队构型;
轨迹生成器设计模块,用于根据所述通信网络拓扑模型、所述领导者智能体模型和所述期望编队构型设计分布式编队轨迹生成器;
参考轨迹生成模块,用于利用所述分布式编队轨迹生成器生成所述跟随者智能体的参考轨迹;
跟踪模块,用于利用编队轨迹跟踪控制器使所述跟随者智能体的输出轨迹跟踪所述参考轨迹。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供了一种多智能体输出编队跟踪控制方法及系统,通过基于分布式方法设计编队轨迹生成器,跟随者智能体间基于邻居信息进行通信,大大节约了通信资源,降低了通信负担。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1提供的一种多智能体输出编队跟踪控制方法的流程图;
图2为本发明实施例1提供的一种多智能体输出编队跟踪控制方法中利用编队轨迹跟踪控制器使跟随者智能体的输出轨迹跟踪参考轨迹的方法流程图;
图3为本发明实施例2提供的一种多智能体输出编队跟踪控制系统的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种多智能体输出编队跟踪控制方法及系统,以节约通信资源,降低通信负担。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例1:
多智能体系统的编队控制是目前控制理论和无人系统装备领域研究热点。当集群系统数目较多时,传统的基于引导-跟踪、行为规划等集中式控制方案消耗通信资源多、通信负担重。
同时,现有的编队控制大多研究解决同构型智能体的编队控制问题。因此,为适应未来无人系统决策智能化、组织网络化、构型多元化的特点,需建立更具备智能性与通用体系特征的协同编队控制方法。
参阅图1,本发明提供了一种多智能体输出编队跟踪控制方法,包括:
S1:建立多智能体系统的通信网络拓扑模型;
为解决现有的编队控制大多研究同构型智能体的编队控制问题,本实施例的多智能体系统考虑包含1个领导者和N个跟随者的异构智能体集合。
因此,针对领导者智能体和跟随者智能体需要分别建立通信拓扑结构,即:
(1)建立跟随者智能体与跟随者智能体之间的第一通信拓扑连通关系;
各跟随者智能体之间的通信拓扑结构可以被数学化建模为一个图G={S,E,W}。其中S={s1,s2,…,sN}代表所有跟随者智能体集合,集合中si代表第i个跟随者,下标i的取值可以为1到N之间的正整数。
从第i个跟随者智能体到第j个跟随者智能体之间的通信交互可以用eij=(si,sj)来表示,下标j的取值为1到N之间的正整数且j≠i。
令集合E={eij=(si,sj),si,sj∈S}为智能体系统的边集。如果存在一个信道eij,则称跟随者智能体j为跟随者智能体i的邻居,并定义Ni={sj∈S,(si,sj)∈E}为智能体i的邻居集合。常数wij为跟随者智能体j到i之间对应的通信权重数值,当且仅当跟随者智能体j为跟随者智能体i的邻居时有wij=1,否则wij=0,并由此定义图G的邻接矩阵为维数N×N的矩阵,其中第i行第j列元素为wij,即数学表达式为W=[wij]。
定义描述各节点入度矩阵为描述跟随者智能体与跟随者智能体之间的第一通信拓扑连通关系的拉普拉斯矩阵被定义为L=D-W。
(2)建立跟随者智能体与领导者智能体之间的第二通信拓扑连通关系;
领导者智能体和跟随者智能体之间存在的有向连接可以用对角矩阵LC=diag{gi}表示,因此第二通信拓扑连通关系为LC=diag{gi},其中gi为领导者智能体到第i个跟随者智能体的通信权值,如果领导者智能体到跟随者智能体i存在通信连接,则gi=1,否则gi=0。
(3)根据所述第一通信拓扑连通关系和所述第二通信拓扑连通关系建立所述多智能体系统的通信网络拓扑模型。
根据拉普拉斯矩阵L和对角矩阵LC的特性,可以找到一个正定对角矩阵J,满足J(L+Lc)+(L+Lc)TJ,使其为严格正定矩阵,并将其定义为通信网络拓扑模型。建立的通信网络拓扑模型需满足下面条件:跟随者智能体之间存在一个节点,使其到其他任意节点都具有一条有向路径连通,且领导者智能体到此节点有连接时,通信拓扑的结构符合后续分布式编队轨迹生成器的设计要求。
S2:建立领导者智能体模型;
所述领导者智能体模型表示为:
其中,表示领导者智能体状态对时间的导数;维数p×1的向量ξ0(t)表示领导者智能体状态;维数为p×p的矩阵S表示领导者智能体系数矩阵,用于设计领导者的不同运动模态;维数为q×p的矩阵R表示领导者智能体输出矩阵;维数为q×1的向量y0(t)表示领导者智能体输出状态;
S3:设计跟随者智能体的期望编队构型;
利用向量描述各跟随者智能体相对领导者智能体形成的期望状态编队构型,其中分段连续可微分函数/>表示第i个跟随者智能体相对领导者智能体的状态偏移量,则跟随者智能体的期望编队构型的具体表达式为:
其中,表示第i个跟随者智能体的期望编队构型;/>表示第i个跟随者智能体相对领导者智能体的状态偏移量;R表示领导者智能体输出矩阵。
S4:根据所述通信网络拓扑模型、所述领导者智能体模型和所述期望编队构型设计分布式编队轨迹生成器;
分布式编队轨迹生成器的具体表达式为:
其中,表示第i个分布式编队轨迹生成器状态的时间导数;S表示领导者智能体系数矩阵;ξi(t)表示第i个分布式编队轨迹生成器的状态;F表示常数增益矩阵,用于调整分布式编队轨迹生成器稳定性和响应特性,F=-μM-1,其中M为线性矩阵不等式STM+MS-(1-ε)Ip+αM<0的解。正常数ε在0到1之间,正常数α取值范围为任意正实数,通过合适的选取可以使得矩阵不等式有解,并作为可调参数使得分布式编队轨迹生成器具有不同的响应;正常数μ满足μ...λmax(J/λmin(J(L+Lc)+(L+Lc)TJ),具体数值可以自行设计选取,作为分布式编队轨迹生成器的性能可调参数。另外,Ip表示维数为p的单位矩阵,λmax(J),λmin(J(L+Lc)+(L+Lc)TJ)分别表示矩阵最大特征值和最小特征值;/>表示第i个跟随者智能体的参考轨迹;j表示第j个跟随者智能体;Ni表示第i个跟随者智能体的邻居集合;/>表示第i个跟随者智能体队形向量;gi表示领导者智能体到第i个跟随者智能体的通信权值,如果领导者到智能体i存在通信连接则gi=1,否则gi=0;wij表示第j个智能体到第i个智能体之间对应的通信权重,当且仅当智能体j为智能体i的邻居时有wij=1,否则wij=0;ξ0(t)表示领导者智能体状态;R表示领导者智能体输出矩阵;vi(t)表示轨迹生成补偿项,vi(t)满足下式的变量:
其中,为第i个跟随者智能体队形向量/>的时间导数。
需要说明的是,能够实现根据通信网络拓扑模型、领导者智能体模型和期望编队构型设计分布式编队轨迹生成器的其他实施方式也都在本发明的保护范围内。
S5:利用所述分布式编队轨迹生成器生成所述跟随者智能体的参考轨迹,其中参考轨迹包括跟随者智能体的期望编队构型信息;
S6:利用编队轨迹跟踪控制器使所述跟随者智能体的输出轨迹跟踪所述参考轨迹。
作为一种可选的实施方式,利用编队轨迹跟踪控制器使所述跟随者智能体的输出轨迹跟踪所述参考轨迹,如图2所示,具体包括:
S61:利用强化学习算法设计最优反馈控制器:
由于现有技术中控制器的设计过程需要所有智能体完整的动力学模型信息。对于异构系统的输出调节与控制问题要求完整模型信息以预先求解输出调节方程。考虑到实际系统广泛存在的模型不确定或建模复杂的情况,以上方法的应用会受到限制。对此,本实施例基于强化学习算法设计编队轨迹跟踪控制器,具体如下:
(1)设计强化学习算法的指标函数
其中,指标因子设计为跟踪误差和跟随者控制输入的二次型形式;γi为的正常数并且其满足条件γi>0和/>在此处可作为设计参量,通过修改不同的取值获得不同的控制器响应性能;Qi,Ri选用对称正定矩阵作为指标函数的可设计变量,分别用于指导并约束强化学习控制器误差收敛水平和控制增益大小。
(2)根据分布式编队轨迹生成器的生成状态和所述跟随者智能体的状态对所述指标函数进行参数化拟合,得到拟合后的指标函数;
将分布式编队轨迹生成器状态ξi(t)和跟随者智能体的状态xi(t)记作增广向量θi(t)=[ξi(t)T,xi(t)T]T,对指标函数进行参数化拟合,拟合后的指标函数表示为:
其中,Pi为维数(p+ni)×(p+ni)的实矩阵,Si为维数(p+ni)×1的实向量,Ti为实数,表示指标函数的参数。将Pi行、列分别按照维数p与ni分块得到
(3)初始化拟合后的指标函数、迭代控制器和迭代次数;
根据(6)式给出的结构,选取初始参数矩阵为Pi 0,Si 0,Ti 0。根据(7)式的分块方法,初始迭代控制器表示为预估反馈控制器增益矩阵记为Ki1和Ki2,且分别初始化为/>初始化迭代次数k=0。
(4)预定时间间隔采集加入数据激励控制器后的所述多智能体系统内的所有智能体状态和跟随者智能模型的控制输入量,得到采集数据;
任意选择一个稳定的数据激励控制器加入多智能体系统中,其中Ki1 0,Ki2 0为任意使得跟随者智能体模型稳定的增益矩阵,维数分别为mi×p和mi×ni。且ni维的向量e选取为一组合适维数的随机频率高斯白噪声加权和,作为提升强化学习算法稳定性的探索噪声。对于加入了激励的系统,从0时刻开始,每间隔δt时间收集所有智能体状态和跟随者智能体模型的控制输入量,并将作为一组数据进行保存。
跟随者智能体模型表示为:
其中,xi(t)为维数mi×1的向量,表示跟随者智能体的状态量;为维数mi×1的向量,表示跟随者智能体的状态量的时间导数;ui(t)为维数ni×1的向量,表示控制输入量;yi(t)为维数p×1的向量,表示控制输出量;xi(t)、ui(t)和yi(t)作为后续强化学习的数据来源。Ai、Bi和Ci分别为维数mi×mi,mi×ni,p×mi的实矩阵,分别表示跟随者智能体的系统矩阵、输入矩阵和输出矩阵。
需要说明的是,在本发明的异构智能体控制背景下,以上跟随者智能体与领导者智能体之间以及跟随者智能体相互之间的系统模型在维数和参数上均可以不相同。
另外,此处描述跟随者智能体的模型信息Ai,Bi,Ci仅作为算法适用对象的描述和说明,实际算法设计实施过程并不需要使用具体变量数值。
(5)当所述采集数据中未使用数据的个数达到预定值时,对所述迭代控制器进行迭代更新;
当采集数据中未使用数据的个数达到选定值κ时,执行一轮迭代更新;
第k轮迭代求解如(9)式方程,取迭代控制器为利用最小二乘方法求解参数Pi k,Si k,Ti k,/>的最佳拟合解,记录每组求解数据。
其中意义表示第k轮得到的预估反馈控制器增益矩阵。
参数更新:将Pi k按照式(7)的方法分块,写为分块矩阵形式,并得到迭代控制器更新形式为:
令k=k+1,作为下一轮迭代中的已知量。
(6)当当前迭代控制器与上一轮迭代更新得到的迭代控制器之间的差值小于误差允许阈值时,则迭代更新结束;
选取误差允许阈值为一正常数ε,对同一组θi(t),结合式(10)和保存数据,当有时,终止迭代。得到/>使其作为收敛后的最优反馈控制增益。
S62:根据所述最优反馈控制器的最优反馈控制增益,设计输出编队跟踪控制前馈补偿控制器;
基于S61步骤得到的最优反馈控制增益,继续计算其中/>表示输入矩阵Bi的估计值。选取矩阵满足/>且/>为满秩矩阵,验证并调整输出编队状态,使其满足如下的可行性条件:
设计输出编队跟踪控制前馈补偿控制器,具体表达式为:
其中,zic(t)表示所述输出编队跟踪控制前馈补偿控制器的控制量;表示第i个跟随者智能体模型的输入矩阵的平均值;/>和/>表示所述最优反馈控制器的最优反馈控制增益;S表示领导者智能体系数矩阵;/>表示第i个跟随者智能体队形向量;/>为第i个跟随者智能体队形向量的时间导数。
S63:根据所述最优反馈控制器和所述输出编队跟踪控制前馈补偿控制器获得所述编队轨迹跟踪控制器,编队轨迹跟踪控制器的具体表达式为:
其中,表示编队轨迹跟踪控制器的控制量;/>和/>表示所述最优反馈控制器的最优反馈控制增益;zic(t)表示所述输出编队跟踪控制前馈补偿控制器的控制量;Ri表示指标函数的可设计变量,用于控制增益大小;ξi(t)表示第i个分布式编队轨迹生成器的状态;xi(t)表示第i个跟随者智能体的状态量;Bi表示第i个跟随者智能体的输入矩阵。
S64:利用编队轨迹跟踪控制器使所述跟随者智能体的输出轨迹跟踪所述参考轨迹。
利用编队轨迹跟踪控制器计算实现异构智能体渐进稳定的编队跟踪控制。
本发明提供的多智能体输出编队跟踪控制方法是一种针对一般线性系统的基于强化学习原理的异构多智能体输出编队跟踪控制方法。首先基于局部通信信息,设计分布式编队轨迹生成器,实时生成异构智能体的期望编队轨迹;其次利用强化学习的原理,利用系统模型的输入输出数据,在线优化迭代得到稳定的最优反馈控制器;最后根据在线学习的结果,设计输出编队跟踪控制前馈补偿控制器,实现编队跟踪控制。本发明具有以下优点:
1、算法基于分布式方法设计编队轨迹生成器,跟随者智能体间基于邻居信息进行通信,大大节约了通信资源,降低了通信负担;
2、控制器设计过程基于强化学习算法,仅使用系统模型的输入输出数据进行控制器迭代学习,无需利用跟随者智能体的任何模型信息,对环境适应性更好。设计离轨策略下的数据收集学习,增强了学习过程的稳定性,实现了控制理论与人工智能技术的有机融合;
3、通过强化学习方法在线设计最优反馈控制器,适应异构的领导者和跟随者,提高了算法的适应性和自主智能性;
4、控制算法包含对领导者智能体状态、跟随者智能体自身状态的反馈控制,同时包含有对编队信息的前馈控制,实现了渐进稳定的无差编队跟踪,具有精度高的优点;
5、对于工程实际中广泛存在的动力学模型线性或可线性化的多智能体系统提供了智能自主的控制方法。
实施例2:
参阅图3,本发明提供了一种多智能体输出编队跟踪控制系统,包括:
网络模型建立模块M1,用于建立多智能体系统的通信网络拓扑模型;
领导者模型建立模块M2,用于建立领导者智能体模型;
编队构型设计模块M3,用于设计跟随者智能体的期望编队构型;
轨迹生成器设计模块M4,用于根据所述通信网络拓扑模型、所述领导者智能体模型和所述期望编队构型设计分布式编队轨迹生成器;
参考轨迹生成模块M5,用于利用所述分布式编队轨迹生成器生成所述跟随者智能体的参考轨迹;
跟踪模块M6,用于利用编队轨迹跟踪控制器使所述跟随者智能体的输出轨迹跟踪所述参考轨迹。
本说明书中每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (7)
1.一种多智能体输出编队跟踪控制方法,其特征在于,包括:
建立多智能体系统的通信网络拓扑模型;
建立领导者智能体模型;
设计跟随者智能体的期望编队构型;
根据所述通信网络拓扑模型、所述领导者智能体模型和所述期望编队构型设计分布式编队轨迹生成器;
利用所述分布式编队轨迹生成器生成所述跟随者智能体的参考轨迹;
利用编队轨迹跟踪控制器使所述跟随者智能体的输出轨迹跟踪所述参考轨迹;
所述利用编队轨迹跟踪控制器使所述跟随者智能体的输出轨迹跟踪所述参考轨迹,具体包括:
利用强化学习算法设计最优反馈控制器;
根据所述最优反馈控制器的最优反馈控制增益,设计输出编队跟踪控制前馈补偿控制器;
根据所述最优反馈控制器和所述输出编队跟踪控制前馈补偿控制器获得所述编队轨迹跟踪控制器;
利用所述编队轨迹跟踪控制器使所述跟随者智能体的输出轨迹跟踪所述参考轨迹;
所述输出编队跟踪控制前馈补偿控制器的具体表达式为:
其中,zic(t)表示所述输出编队跟踪控制前馈补偿控制器的控制量;表示第i个跟随者智能体模型的输入矩阵的平均值;/>和/>表示所述最优反馈控制器的最优反馈控制增益;S表示领导者智能体系数矩阵;/>表示第i个跟随者智能体队形向量;/>为第i个跟随者智能体队形向量的时间导数;
所述编队轨迹跟踪控制器的具体表达式为:
其中,表示编队轨迹跟踪控制器的控制量;/>和/>表示所述最优反馈控制器的最优反馈控制增益;zic(t)表示所述输出编队跟踪控制前馈补偿控制器的控制量;Ri表示指标函数的可设计变量,用于控制增益大小;ξi(t)表示第i个分布式编队轨迹生成器的状态;xi(t)表示第i个跟随者智能体的状态量;Bi表示第i个跟随者智能体的输入矩阵。
2.根据权利要求1所述的一种多智能体输出编队跟踪控制方法,其特征在于,所述建立多智能体系统的通信网络拓扑模型,具体包括:
建立跟随者智能体与跟随者智能体之间的第一通信拓扑连通关系;
建立跟随者智能体与领导者智能体之间的第二通信拓扑连通关系;
根据所述第一通信拓扑连通关系和所述第二通信拓扑连通关系建立所述多智能体系统的通信网络拓扑模型。
3.根据权利要求1所述的一种多智能体输出编队跟踪控制方法,其特征在于,所述领导者智能体模型表示为:
y0(t)=Rξ0(t)
其中,表示领导者智能体状态对时间的导数;ξ0(t)表示领导者智能体状态;S表示领导者智能体系数矩阵;R表示领导者智能体输出矩阵;y0(t)表示领导者智能体输出状态。
4.根据权利要求1所述的一种多智能体输出编队跟踪控制方法,其特征在于,跟随者智能体的期望编队构型的具体表达式为:
其中,表示第i个跟随者智能体的期望编队构型;/>表示第i个跟随者智能体相对领导者智能体的状态偏移量;R表示领导者智能体输出矩阵。
5.根据权利要求1所述的一种多智能体输出编队跟踪控制方法,其特征在于,所述分布式编队轨迹生成器的具体表达式为:
其中,表示第i个分布式编队轨迹生成器状态的时间导数;S表示领导者智能体系数矩阵;ξi(t)表示第i个分布式编队轨迹生成器的状态;F表示常数增益矩阵;/>表示第i个跟随者智能体的参考轨迹;j表示第j个跟随者智能体;Ni表示第i个跟随者智能体的邻居集合;/>表示第i个跟随者智能体队形向量;gi表示领导者智能体到第i个跟随者智能体的通信权值;wij表示第j个智能体到第i个智能体之间对应的通信权重;ξ0(t)表示领导者智能体状态;vi(t)表示轨迹生成补偿项;R表示领导者智能体输出矩阵。
6.根据权利要求1所述的一种多智能体输出编队跟踪控制方法,其特征在于,所述利用强化学习算法设计最优反馈控制器,具体包括:
设计强化学习算法的指标函数;
根据分布式编队轨迹生成器的生成状态和所述跟随者智能体的状态对所述指标函数进行参数化拟合,得到拟合后的指标函数;
初始化所述拟合后的指标函数、迭代控制器和迭代次数;
预定时间间隔采集加入数据激励控制器后的所述多智能体系统内的所有智能体状态和跟随者智能模型的控制输入量,得到采集数据;
当所述采集数据中未使用数据的个数达到预定值时,对所述迭代控制器进行迭代更新;
当当前迭代控制器与上一轮迭代更新得到的迭代控制器之间的差值小于误差允许阈值时,则迭代更新结束。
7.一种多智能体输出编队跟踪控制系统,其特征在于,包括:
网络模型建立模块,用于建立多智能体系统的通信网络拓扑模型;
领导者模型建立模块,用于建立领导者智能体模型;
编队构型设计模块,用于设计跟随者智能体的期望编队构型;
轨迹生成器设计模块,用于根据所述通信网络拓扑模型、所述领导者智能体模型和所述期望编队构型设计分布式编队轨迹生成器;
参考轨迹生成模块,用于利用所述分布式编队轨迹生成器生成所述跟随者智能体的参考轨迹;
跟踪模块,用于利用编队轨迹跟踪控制器使所述跟随者智能体的输出轨迹跟踪所述参考轨迹;
所述利用编队轨迹跟踪控制器使所述跟随者智能体的输出轨迹跟踪所述参考轨迹,具体包括:
利用强化学习算法设计最优反馈控制器;
根据所述最优反馈控制器的最优反馈控制增益,设计输出编队跟踪控制前馈补偿控制器;
根据所述最优反馈控制器和所述输出编队跟踪控制前馈补偿控制器获得所述编队轨迹跟踪控制器;
利用所述编队轨迹跟踪控制器使所述跟随者智能体的输出轨迹跟踪所述参考轨迹;
所述输出编队跟踪控制前馈补偿控制器的具体表达式为:
其中,zic(t)表示所述输出编队跟踪控制前馈补偿控制器的控制量;表示第i个跟随者智能体模型的输入矩阵的平均值;/>和/>表示所述最优反馈控制器的最优反馈控制增益;S表示领导者智能体系数矩阵;/>表示第i个跟随者智能体队形向量;/>为第i个跟随者智能体队形向量的时间导数;
所述编队轨迹跟踪控制器的具体表达式为:
其中,表示编队轨迹跟踪控制器的控制量;/>和/>表示所述最优反馈控制器的最优反馈控制增益;zic(t)表示所述输出编队跟踪控制前馈补偿控制器的控制量;Ri表示指标函数的可设计变量,用于控制增益大小;ξi(t)表示第i个分布式编队轨迹生成器的状态;xi(t)表示第i个跟随者智能体的状态量;Bi表示第i个跟随者智能体的输入矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110800042.3A CN113485344B (zh) | 2021-07-15 | 2021-07-15 | 一种多智能体输出编队跟踪控制方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110800042.3A CN113485344B (zh) | 2021-07-15 | 2021-07-15 | 一种多智能体输出编队跟踪控制方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113485344A CN113485344A (zh) | 2021-10-08 |
CN113485344B true CN113485344B (zh) | 2023-12-01 |
Family
ID=77938833
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110800042.3A Active CN113485344B (zh) | 2021-07-15 | 2021-07-15 | 一种多智能体输出编队跟踪控制方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113485344B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113900380B (zh) * | 2021-11-17 | 2023-02-28 | 北京航空航天大学 | 一种异构集群系统鲁棒输出编队跟踪控制方法及系统 |
CN114415504B (zh) * | 2021-12-28 | 2023-06-20 | 苏州大学 | 一种基于自适应控制与迭代学习控制的统一化控制方法 |
CN114610065B (zh) * | 2022-03-15 | 2024-10-01 | 浙江大学湖州研究院 | 一种基于图论的集群无人机编队飞行轨迹优化方法 |
CN114815856B (zh) * | 2022-06-27 | 2022-09-20 | 中国人民解放军国防科技大学 | 非完整多智能体系统时变编队包含控制方法、装置和设备 |
CN116360504B (zh) * | 2023-05-31 | 2023-10-27 | 北京航空航天大学 | 无人机集群任务的确定方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110780668A (zh) * | 2019-04-09 | 2020-02-11 | 北京航空航天大学 | 一种多无人艇的分布式编队合围跟踪控制方法及系统 |
CN111435252A (zh) * | 2020-01-15 | 2020-07-21 | 北京航空航天大学 | 异构多智能体系统分组输出时变编队跟踪控制方法及系统 |
CN111651705A (zh) * | 2020-05-18 | 2020-09-11 | 北京航空航天大学 | 集群编队跟踪控制方法 |
CN112000108A (zh) * | 2020-09-08 | 2020-11-27 | 北京航空航天大学 | 一种多智能体集群分组时变编队跟踪控制方法及系统 |
US10983532B1 (en) * | 2017-08-03 | 2021-04-20 | University Of South Florida | Distributed control of heterogeneous multi-agent systems |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10114384B2 (en) * | 2016-09-13 | 2018-10-30 | Arrowonics Technologies Ltd. | Formation flight path coordination of unmanned aerial vehicles |
-
2021
- 2021-07-15 CN CN202110800042.3A patent/CN113485344B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10983532B1 (en) * | 2017-08-03 | 2021-04-20 | University Of South Florida | Distributed control of heterogeneous multi-agent systems |
CN110780668A (zh) * | 2019-04-09 | 2020-02-11 | 北京航空航天大学 | 一种多无人艇的分布式编队合围跟踪控制方法及系统 |
CN111435252A (zh) * | 2020-01-15 | 2020-07-21 | 北京航空航天大学 | 异构多智能体系统分组输出时变编队跟踪控制方法及系统 |
CN111651705A (zh) * | 2020-05-18 | 2020-09-11 | 北京航空航天大学 | 集群编队跟踪控制方法 |
CN112000108A (zh) * | 2020-09-08 | 2020-11-27 | 北京航空航天大学 | 一种多智能体集群分组时变编队跟踪控制方法及系统 |
Non-Patent Citations (7)
Title |
---|
Event-triggered fixed-time cooperative tracking control for uncertain nonlinear second-order multi-agent systems under directed network topology;Zhijun Guo;《Journal of the Franklin Institute》;全文 * |
Finite-time consensus tracking control for multi-agent systems with nonlinear dynamics under Euler digraph and switching topology;Shengchao He;《IFAC-PapersOnLine》;全文 * |
Time-varying output formation tracking of heterogeneous linear multi-agent systems with multiple leaders and switching topologies;董希旺;《Journal of the Franklin Institute》;全文 * |
基于迭代学习的部分非正则多智能体编队控制;曹伟;孙明;;控制与决策(第09期);全文 * |
多智能体备用领导者避障方法;田宝国;《兵器装备工程学报》;全文 * |
多智能体系统的协调预见跟踪控制;卢延荣;《中国优秀博士论文库》;全文 * |
异构多智能体系统分组输出时变编队跟踪控制;董希旺;《航空学报》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113485344A (zh) | 2021-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113485344B (zh) | 一种多智能体输出编队跟踪控制方法及系统 | |
Wen et al. | Formation control with obstacle avoidance for a class of stochastic multiagent systems | |
Liang et al. | Neural-network-based event-triggered adaptive control of nonaffine nonlinear multiagent systems with dynamic uncertainties | |
Hua et al. | Distributed time-varying output formation tracking for heterogeneous linear multiagent systems with a nonautonomous leader of unknown input | |
Fu et al. | Consensus of second-order multiagent systems with both velocity and input constraints | |
Gibson et al. | On adaptive control with closed-loop reference models: transients, oscillations, and peaking | |
CN113900380B (zh) | 一种异构集群系统鲁棒输出编队跟踪控制方法及系统 | |
CN110597061A (zh) | 一种多智能体完全分布式自抗扰时变编队控制方法 | |
CN113589694B (zh) | 异构多智能体系统的完全分布式抗饱和跟踪控制方法 | |
CN110048606A (zh) | 基于区间二型自适应模糊神经网络的dc-dc升压变换器动态滑模电压控制方法 | |
CN111259327A (zh) | 基于子图处理的多智能体系统一致性问题的优化方法 | |
CN116661347B (zh) | 一种含不确定时滞的多智能体一致性控制方法 | |
Wang et al. | Distributed cooperative learning for discrete-time strict-feedback multi agent systems over directed graphs | |
CN114063438B (zh) | 一种数据驱动的多智能体系统pid控制协议自学习方法 | |
Dutta et al. | Multi-agent formation control with maintaining and controlling network connectivity | |
Sun et al. | Optimal tracking control of switched systems applied in grid-connected hybrid generation using reinforcement learning | |
Jiang et al. | Output Synchronization of Heterogeneous Nonlinear Multiagent Systems With Input Quantization: A Universal Performance Guaranteed Control Scheme | |
CN113741192A (zh) | 基于可切换拓扑的时滞多智能体系统约束容错控制方法 | |
Du et al. | Time-varying group formation with adaptive control for second-order multi-agent systems | |
Chen et al. | An extended proportional-integral control algorithm for distributed average tracking and its applications in Euler-Lagrange systems | |
Jiang et al. | An enhanced model-free reinforcement learning algorithm to solve Nash equilibrium for multi-agent cooperative game systems | |
CN111216146B (zh) | 一种适用于网络化机器人系统的二部一致性量化控制方法 | |
Xu et al. | Model-Free Formation Control: Multi-Input Iterative Learning Super-Twisting Approach | |
Martinović et al. | Cooperative output regulation of multi-agent systems with single-integrator dynamics | |
Anand et al. | Adaptive Cooperative Control of the Multi-Agent System |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |