CN110554604B - 一种多智能体同步控制方法、设备及存储设备 - Google Patents

一种多智能体同步控制方法、设备及存储设备 Download PDF

Info

Publication number
CN110554604B
CN110554604B CN201910731427.1A CN201910731427A CN110554604B CN 110554604 B CN110554604 B CN 110554604B CN 201910731427 A CN201910731427 A CN 201910731427A CN 110554604 B CN110554604 B CN 110554604B
Authority
CN
China
Prior art keywords
agent
network
follower
weight
leader
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910731427.1A
Other languages
English (en)
Other versions
CN110554604A (zh
Inventor
陈鑫
符浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences
Original Assignee
China University of Geosciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences filed Critical China University of Geosciences
Priority to CN201910731427.1A priority Critical patent/CN110554604B/zh
Publication of CN110554604A publication Critical patent/CN110554604A/zh
Application granted granted Critical
Publication of CN110554604B publication Critical patent/CN110554604B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明提供了一种多智能体同步控制方法、设备及存储设备,其方法包括:首先构建观测网络对领导者智能体的动力学模型进行实时估计;然后构建神经网络自适应分布式状态观测器,以对领导者智能体的状态进行实时估计;最后根据所述神经网络自适应分布式状态观测器,针对各跟随者智能体分别构建执行网络和评价网络,并根据各跟随者智能体的执行网络得到各跟随者智能体的最优控制输入。一种多智能体同步控制设备及存储设备,用于实现一种多智能体同步控制方法。本发明的有益效果是:本发明所提出的技术方案针对离散时间非线性异构多智能体系统的无模型最优同步控制在本领域内属于首创,对解决当前领域的技术研究所存在问题具有重要意义。

Description

一种多智能体同步控制方法、设备及存储设备
技术领域
本发明涉及多智能体控制技术领域,尤其涉及一种多智能体同步控制方法、设备及存储设备。
背景技术
近年来,多智能体系统分布式同步控制问题引起了广大学者们的关注,其中主要涉及无人机、电力系统、分布式传感器、多机器人生产线、电磁管理等领域。值得注意的是,由于领导者-跟随者智能体模式是同步控制或最优同步控制中一种较为简便和可靠的控制模式,所以本发明也是采用这一模式。
同步控制问题是多智能体系统研究中的一类基本问题。在实际工程应用中,根据性能要求和任务种类等因素和个体设计控制规则,通过个体间的互相协调,保证各个体的某个物理量与领导者智能体趋于同步,比如飞行器追踪的目标、编队控制中的队形或者集会问题中的目的地等。或者说多智能体的同步行为使得系统中每个个体行为都能随着时间的推移而最终都趋于领导者智能体的行为。
最优同步控制问题又是多智能体协作控制中一个热门问题,并具有一定的挑战性,也是网络化系统研究中的一个极其重要的方向。多智能体的最优同步控制不仅保证各跟随者智能体行为趋于领导者智能体行为的要求,而且可以实现具体的最优性能指标要求。这将有效实现多智能设备之间协同,并保证控制过程中协调性能得到优化,推动复杂大规模系统控制的向前发展,并为工业、农业、国防军事等方面的多智能体设备提供更高效的技术支持。
在实际中,多智能体系统往往表现为非线性,甚至个体的异构性。特别是这类系统往往难以建立准确的动力学模型。另外,在实际数字计算机控制中,往往通过离散时间采样的方式进行控制,所以以离散时间系统或者离散化的系统的为对象的控制更为符合实际控制要求。目前多智能体最优同步控制研究主要局限于已知积分器或线性系统的研究。然而,对异构非线性系统的研究相对较少,特别是离散时间系统和无模型控制的情况下。因此,本发明充分考虑实际研究问题,提出一种面向离散时间非线性异构多智能体系统的无模型最优同步控制方法。
发明内容
为了解决上述问题,本发明提供了一种多智能体同步控制方法、设备及存储设备;一种多智能体同步控制方法,应用于多智能体同步控制系统中,所述一种多智能体同步控制系统包括:多个跟随者智能体和一个领导者智能体;一种多智能体同步控制方法,主要包括以下步骤:
S101:构建观测网络对领导者智能体的动力学模型进行实时估计,得到各跟随者智能体对领导者智能体的动力学模型的估计;
S102:根据所述观测网络和所述多智能体同步控制系统的实际有向通信拓扑网络结构,构建神经网络自适应分布式状态观测器,以对领导者智能体的状态进行实时估计,得到各跟随者智能体对领导者智能体状态的估计;
S103:根据所述神经网络自适应分布式状态观测器,针对各跟随者智能体分别构建执行网络和评价网络,并根据各跟随者智能体的执行网络得到各跟随者智能体的最优控制输入;
S104:采用观测网络的权值更新率对观测网络隐藏层到输出层的权值进行更新,采用执行网络的权值更新率对执行网络隐藏层到输出层的权值进行更新,采用评价网络的权值更新率对评价网络下一时刻隐藏层到输出层的权值进行更新;
S105:根据各跟随者智能体的最优控制输入对各跟随者智能体分别进行控制,得到各跟随者智能体的实际状态,进而返回步骤S101,以进行下一时刻的多智能体同步控制;如此循环迭代,以实现多智能体的同步控制。
进一步地,步骤S101中,采用BP神经网络构建观测网络,逼近领导者智能体动力学模型;具体公式如公式(1)所示:
Figure GDA0002968707150000021
上式中,
Figure GDA0002968707150000022
表示跟随者智能体i在t时刻对领导者智能体的动力学模型的估计;
Figure GDA0002968707150000023
表示跟随者智能体i在t时刻对领导者智能体状态的估计,且
Figure GDA0002968707150000024
的初始值为预设值
Figure GDA0002968707150000025
表示观测网络t时刻的隐藏层到输出层的权值,且wb1(t)~wbN(t)均相等,N为跟随者智能体的总个数,且wbi(t)的初始值为预设值wbi(0);
Figure GDA0002968707150000031
表示观测网络的输入层到隐藏层的权值,为预设值;σbi(·)表示观测网络的激活函数,采用Hyperbolic Tangent函数,n为各跟随者智能体跟随领导者智能体同步运动的系统状态维数,hbi为观测网络的隐藏层个数,根据实际情况预设。
进一步地,步骤S102中,构建的神经网络自适应分布式状态观测器具体如公式(2)所示:
Figure GDA0002968707150000032
上式中,
Figure GDA0002968707150000033
为跟随者智能体i在t+1时刻对领导者智能体状态的估计;
Figure GDA0002968707150000034
为跟随者智能体i在上一时刻,即t时刻对领导者智能体的动力学模型的估计;
Figure GDA0002968707150000035
表示跟随者智能体i在t时刻的局部领域观测估计误差,为摄动信号;aij为所述多智能体同步控制系统的实际有向通信拓扑网络结构的邻接矩阵参数,bi为所述多智能体同步控制系统的实际有向通信拓扑网络结构中领导者智能体通向智能体i的权重参数;i=1,2,…,N,N表示跟随者智能体总个数,k1,i∈Rn×n表示所述多智能体同步控制系统的实际有向通信拓扑网络结构中智能体i的增益,为预设值。
进一步地,步骤S103中,采用BP神经网络逼近理想执行网络的输出,执行网络的具体公式如公式(3)所示:
Figure GDA0002968707150000036
上式中,ui(t)表示执行网络的输出,即跟随者智能体i在t时刻的最优控制输入,
Figure GDA0002968707150000037
为跟随者智能体i的执行网络在t时刻的输入;xi(t)为跟随者智能体i在t时刻的实际状态;
Figure GDA0002968707150000038
表示跟随者智能体i的执行网络在t时刻隐藏层到输出层的权值;
Figure GDA0002968707150000039
表示跟随者智能体i的执行网络的输入层到隐藏层的权值,为预设值,σai(·)表示执行网络的激活函数,采用Hyperbolic Tangent函数;hai为隐藏层个数,为预设值。
进一步地,步骤S103中,所述评价网络的构建过程如下:
S201:定义待优化的性能指标函数,如公式(4)所示:
Figure GDA0002968707150000041
上式中,
Figure GDA0002968707150000042
表示跟随者智能体i在t时刻的奖励,γ为设计参数,Nr为最终时间常数,εr表示为设定的阈值;γ、Nr和εr均为预设值;
S202:采用BP神经网络逼近理想最优性能指标函数,以构建评价网络,评价网络的具体公式如公式(5)所示:
Figure GDA0002968707150000043
上式中,
Figure GDA0002968707150000044
为评价网络的输入,
Figure GDA0002968707150000045
Figure GDA0002968707150000046
表示跟随者智能体i的评价网络在t时刻隐藏层到输出层的权值,
Figure GDA0002968707150000047
表示跟随者智能体i的评价网络的输入层到隐藏层的权值,为预设值;σci(·)表示评价网络的激活函数,采用Hyperbolic Tangent函数;hci为隐藏层个数,为预设值。
进一步地,步骤S104中,观测网络的权值更新率的具体公式如公式(6)所示:
Figure GDA0002968707150000048
上式中,wbi(t)表示观测网络上一时刻的隐藏层到输出层的权值;ηb表示观测网络的学习率;k2,i∈Rn×n为对称增益矩阵,αb∈R为设计参数;ηb、k2,i和αb均为预设值,且ηb>0;
Figure GDA0002968707150000049
表示跟随者智能体i在t时刻的局部领域观测估计误差的转置。
进一步地,步骤S104中,执行网络的权值更新率的具体公式如公式(7)所示:
Figure GDA0002968707150000051
上式中,ηai>0表示执行网络的学习率,为预设值;k3,i∈Rn×n为设计常数;
Figure GDA0002968707150000052
Jc(t)=[0 0 … 0]T∈Rn
Figure GDA0002968707150000053
进一步地,步骤S104中,评价网络的权值更新率的具体公式如公式(8)所示:
Figure GDA0002968707150000054
上式中,
Figure GDA0002968707150000055
ηci>0为评价网络的学习率,为预设值。
一种存储设备,所述存储设备存储指令及数据用于实现一种多智能体同步控制方法。
一种多智能体同步控制设备,包括:处理器及所述存储设备;所述处理器加载并执行所述存储设备中的指令及数据用于实现一种多智能体同步控制方法。
本发明提供的技术方案带来的有益效果是:因此,本发明所提出的技术方案针对离散时间非线性异构多智能体系统的无模型最优同步控制在本领域内属于首创,具有实际应用价值和高优越的控制品质,对解决当前领域的技术研究所存在问题具有重要意义。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例中一种多智能体同步控制方法的结构框图;
图2是本发明实施例中执行-评价网络的框架图;
图3是本发明实施例中多振荡器同步控制系统的网络拓扑结构图;
图4是本发明实施例中的数字仿真结果图;
图5是本发明实施例中硬件设备工作的示意图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
本发明的实施例提供了一种多智能体同步控制方法、设备及存储设备;所述一种多智能体同步控制方法,应用于多智能体同步控制系统中;所述一种多智能体同步控制系统包括:多个跟随智能体和一个领导者智能体;
请参考图1,图1是本发明实施例中一种多智能体同步控制方法的结构框图,具体包括如下步骤:
S101:构建观测网络对领导者智能体的动力学模型进行实时估计,得到各跟随者智能体对领导者智能体的动力学模型的估计;
S102:根据所述观测网络和所述多智能体同步控制系统的实际有向通信拓扑网络结构,构建神经网络自适应分布式状态观测器,以对领导者智能体的状态进行实时估计,得到各跟随者智能体对领导者智能体状态的估计;
S103:根据所述神经网络自适应分布式状态观测器,针对各跟随者智能体分别构建执行网络和评价网络,并根据各跟随者智能体的执行网络得到各跟随者智能体的最优控制输入;
S104:采用观测网络的权值更新率对观测网络隐藏层到输出层的权值进行更新,采用执行网络的权值更新率对执行网络隐藏层到输出层的权值进行更新,采用评价网络的权值更新率对评价网络隐藏层到输出层的权值进行更新;
S105:根据各跟随者智能体的最优控制输入对各跟随者智能体分别进行控制,得到各跟随者智能体的实际状态,进而返回步骤S101,以进行下一时刻的多智能体同步控制;如此循环迭代,以实现多智能体的同步控制。
步骤S101中,采用BP神经网络构建观测网络,逼近领导者智能体动力学模型;具体公式如公式(1)所示:
Figure GDA0002968707150000061
上式中,
Figure GDA0002968707150000062
表示跟随者智能体i在t时刻对领导者智能体的动力学模型的估计;
Figure GDA0002968707150000063
表示跟随者智能体i在t时刻对领导者智能体状态的估计,且
Figure GDA0002968707150000064
的初始值为预设值
Figure GDA0002968707150000065
表示观测网络t时刻的隐藏层到输出层的权值,且wb1(t)~wbN(t)均相等,N为跟随者智能体的总个数,且wbi(t)的初始值为预设值wbi(0);
Figure GDA0002968707150000066
表示观测网络的输入层到隐藏层的权值,为预设值;σbi(·)表示观测网络的激活函数,采用Hyperbolic Tangent函数,n为各跟随者智能体跟随领导者智能体同步运动的系统状态维数,hbi为观测网络的隐藏层个数,根据实际情况预设。
步骤S102中,构建的神经网络自适应分布式状态观测器具体如公式(2)所示:
Figure GDA0002968707150000071
上式中,
Figure GDA0002968707150000072
为跟随者智能体i在t+1时刻对领导者智能体状态的估计;
Figure GDA0002968707150000073
为跟随者智能体i在上一时刻,即t时刻对领导者智能体的动力学模型的估计;
Figure GDA0002968707150000074
表示跟随者智能体i在t时刻的局部领域观测估计误差,为摄动信号;aij为所述多智能体同步控制系统的实际有向通信拓扑网络结构的邻接矩阵参数,bi为所述多智能体同步控制系统的实际有向通信拓扑网络结构中领导者智能体通向智能体i的权重参数;i=1,2,…,N,N表示跟随者智能体总个数,k1,i∈Rn×n表示所述多智能体同步控制系统的实际有向通信拓扑网络结构中智能体i的增益,为预设值。
本发明实施例中,全局领域观测估计误差可表示为:
Figure GDA0002968707150000075
上式中,中In∈Rn为单位矩阵,
Figure GDA0002968707150000076
请参阅图2,图2是本发明实施例中执行-评价网络的框架图;步骤S103中,采用BP神经网络逼近理想执行网络的输出,执行网络的具体公式如公式(3)所示:
Figure GDA0002968707150000077
上式中,ui(t)表示执行网络的输出,即跟随者智能体i在t时刻的最优控制输入,
Figure GDA0002968707150000081
为跟随者智能体i的执行网络在t时刻的输入;xi(t)为跟随者智能体i在t时刻的实际状态;
Figure GDA0002968707150000082
表示跟随者智能体i的执行网络在t时刻隐藏层到输出层的权值;
Figure GDA0002968707150000083
表示跟随者智能体i的执行网络的输入层到隐藏层的权值,为预设值,σai(·)表示执行网络的激活函数,采用Hyperbolic tangent函数;hai为隐藏层个数,为预设值。
步骤S103中,所述评价网络的构建过程如下:
S201:定义待优化的性能指标函数,如公式(4)所示:
Figure GDA0002968707150000084
上式中,
Figure GDA0002968707150000085
表示跟随者智能体i在t时刻的奖励,γ为设计参数,Nr为最终时间常数,εr表示为设定的阈值;γ、Nr和εr均为预设值;
S202:采用BP神经网络逼近理想最优性能指标函数,以构建评价网络,评价网络的具体公式如公式(5)所示:
Figure GDA0002968707150000086
上式中,
Figure GDA0002968707150000087
为评价网络的输入,
Figure GDA0002968707150000088
Figure GDA0002968707150000089
表示跟随者智能体i的评价网络在t时刻隐藏层到输出层的权值,
Figure GDA00029687071500000810
表示跟随者智能体i的评价网络的输入层到隐藏层的权值,为预设值;σci(·)表示评价网络的激活函数,采用Hyperbolic Tangent函数;hci为隐藏层个数,为预设值。(通常实现最优控制问题的方式是求解贝尔曼方程。对于无模型的非线性系统而言,贝尔曼方程求解是极其困难的。为此,基于神经网络的万能逼近特性,在本发明实施例中,采用神经网络逼近值函数的方式解决这个问题。)
步骤S104中,观测网络的权值更新率的具体公式如公式(6)所示:
Figure GDA0002968707150000091
上式中,wbi(t)表示观测网络上一时刻的隐藏层到输出层的权值;ηb表示观测网络的学习率;k2,i∈Rn×n为对称增益矩阵,αb∈R为设计参数;ηb、k2,i和αb均为预设值,且ηb>0;
Figure GDA0002968707150000092
表示跟随者智能体i在t时刻的局部领域观测估计误差的转置。
步骤S104中,执行网络的权值更新率的具体公式如公式(7)所示:
Figure GDA0002968707150000093
上式中,ηai>0表示执行网络的学习率,为预设值;k3,i∈Rn×n为设计常数;
Figure GDA0002968707150000094
Jc(t)=[0 0 … 0]T∈Rn
Figure GDA0002968707150000095
步骤S104中,评价网络的权值更新率的具体公式如公式(8)所示:
Figure GDA0002968707150000096
上式中,
Figure GDA0002968707150000097
ηci>0为评价网络的学习率,为预设值。
步骤S105中,根据各跟随者智能体的最优控制输入对各跟随者智能体分别进行控制,即将分布式控制输入u1(t),u2(t),…,uN(t)依次对应输入至跟随者智能体1至跟随者智能体N,实现多智能体系统的最优同步控制,即跟随者的行为以最优的方式同步于领导者的行为,当所有跟随者智能体i的输出均满足条件xi(t)-x0(t)→0且
Figure GDA0002968707150000098
收敛时,实现最优同步控制;当实现最优同步控制后,再循环的各权值将调整很小或者不再变化;当系统停止时,停止循环迭代。
在本发明实施例中,以多振荡器同步控制为实例进行数字仿真实验:
三个振荡器的动力学模型分别为:
Figure GDA0002968707150000099
Figure GDA0002968707150000101
Figure GDA0002968707150000102
其中跟随者智能体1状态为
Figure GDA0002968707150000103
跟随者智能体2状态为
Figure GDA0002968707150000104
跟随者智能体3状态为
Figure GDA0002968707150000105
采样时间T=0.05;
领导者动力学模型为:
Figure GDA0002968707150000106
上式中,
Figure GDA0002968707150000107
u0(t)=sin(0.03t)(注意:以上动力学模型仅用于动力学仿真,而不用于控制器设计);
该多智能体同步控制系统的网络拓扑结构如图3所示。观测网络、评价网络以及执行网络分别采用3-5-1(3为输入层个数、5为隐藏层个数、1为输出层个数)、3-6-1以及2-5-1的BP神经网络结构。这些网络的激活函数都采用Hyperbolic tangent函数。初始权值随机地在-1到1之间取值。初始状态在-1到-2之间随机取值。另外其他参数的取值参看下表:
参数 大小 参数 大小 参数 大小 参数 大小
k<sub>1,1</sub> -0.35 k<sub>2,1</sub> 0.45 k<sub>3,1</sub> 0.25 γ 0.2
k<sub>1,2</sub> -0.15 k<sub>2,2</sub> 0.4 k<sub>3,2</sub> 0.25 η<sub>b</sub> 0.1
k<sub>1,3</sub> -0.45 k<sub>2,3</sub> 0.1 k<sub>3,3</sub> 0.25 α<sub>b</sub> 0.001
η<sub>c,i</sub> 0.0001 η<sub>a,i</sub> 0.005 ε<sub>r</sub> 0.02 - -
通过数字仿真得到图4所示的多智能体轨迹曲线图,可以看出,通过本发明所提出的技术方案,得到了很好的多智能体同步控制结果。
请参见图5,图5是本发明实施例的硬件设备工作示意图,所述硬件设备具体包括:一种多智能体同步控制设备501、处理器502及存储设备503。
一种多智能体同步控制设备501:所述一种多智能体同步控制设备501实现所述一种多智能体同步控制方法。
处理器502:所述处理器502加载并执行所述存储设备503中的指令及数据用于实现所述一种多智能体同步控制方法。
存储设备503:所述存储设备503存储指令及数据;所述存储设备503用于实现所述一种多智能体同步控制方法。
本发明的有益效果是:本发明所提出的技术方案主要考虑更为实际的多智能体对象,即多智能体系统往往是非线性的甚至异构的,如编队无人机、无人驾驶汽车、以及协作多机械手等。而当前的技术研究大多数近似考虑系统为线性系统,显然这是严重偏离实际问题的研究。而且,这类系统在实际应用中是很难获得其精确的动力学模型。那么,以动力学模型为基础的现有控制方法在实际中很难实现。另外,在现有技术当中并未考虑控制系统的最优控制性能,所以本发明具有更高的控制品质。最后,当前技术主要集中于连续时间系统,但是这类系统的控制方法不利于应用数字计算机的控制。
因此,本发明所提出的技术方案针对离散时间非线性异构多智能体系统的无模型最优同步控制在本领域内属于首创,具有实际应用价值和高优越的控制品质,对解决当前领域的技术研究所存在问题具有重要意义。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种多智能体同步控制方法,应用于多智能体同步控制系统中;所述一种多智能体同步控制系统包括:多个跟随者智能体和一个领导者智能体;其特征在于:所述一种多智能体同步控制方法,具体包括以下步骤:
S101:构建观测网络对领导者智能体的动力学模型进行实时估计,得到各跟随者智能体对领导者智能体的动力学模型的估计;
步骤S101中,采用BP神经网络构建观测网络,逼近领导者智能体动力学模型;具体公式如公式(1)所示:
Figure FDA0002968707140000011
上式中,
Figure FDA0002968707140000012
表示跟随者智能体i在t时刻对领导者智能体的动力学模型的估计;
Figure FDA0002968707140000013
表示跟随者智能体i在t时刻对领导者智能体状态的估计,且
Figure FDA0002968707140000014
的初始值为预设值
Figure FDA0002968707140000015
Figure FDA0002968707140000016
表示观测网络t时刻的隐藏层到输出层的权值,且wb1(t)~wbN(t)均相等,N为跟随者智能体的总个数,且wbi(t)的初始值为预设值wbi(0);
Figure FDA0002968707140000017
表示观测网络的输入层到隐藏层的权值,为预设值;σbi(·)表示观测网络的激活函数,采用Hyperbolic Tangent函数,n为各跟随者智能体跟随领导者智能体同步运动的实际状态维数,hbi为观测网络的隐藏层个数,根据实际情况预设;
S102:根据所述观测网络和所述多智能体同步控制系统的实际有向通信拓扑网络结构,构建神经网络自适应分布式状态观测器,以对领导者智能体的状态进行实时估计,得到各跟随者智能体对领导者智能体状态的估计;
步骤S102中,构建的神经网络自适应分布式状态观测器具体如公式(2)所示:
Figure FDA0002968707140000018
上式中,
Figure FDA0002968707140000019
为跟随者智能体i在t+1时刻对领导者智能体状态的估计;
Figure FDA00029687071400000110
为跟随者智能体i在上一时刻,即t时刻对领导者智能体的动力学模型的估计;
Figure FDA00029687071400000111
表示跟随者智能体i在t时刻的局部领域观测估计误差,为摄动信号;aij为所述多智能体同步控制系统的实际有向通信拓扑网络结构的邻接矩阵参数,bi为所述多智能体同步控制系统的实际有向通信拓扑网络结构中领导者智能体通向智能体i的权重参数;i=1,2,…,N,N表示跟随者智能体总个数,k1,i∈Rn×n表示所述多智能体同步控制系统的实际有向通信拓扑网络结构中智能体i的增益,为预设值;x0(t)为领导者智能体在t时刻的实际状态;
S103:根据所述神经网络自适应分布式状态观测器,针对各跟随者智能体分别构建执行网络和评价网络,并根据各跟随者智能体的执行网络得到各跟随者智能体的最优控制输入;
步骤S103中,采用BP神经网络逼近理想执行网络的输出,执行网络的具体公式如公式(3)所示:
Figure FDA0002968707140000021
上式中,ui(t)表示执行网络的输出,即跟随者智能体i在t时刻的最优控制输入,
Figure FDA0002968707140000022
为跟随者智能体i的执行网络在t时刻的输入;xi(t)为跟随者智能体i在t时刻的实际状态;
Figure FDA0002968707140000023
表示跟随者智能体i的执行网络在t时刻隐藏层到输出层的权值;
Figure FDA0002968707140000024
表示跟随者智能体i的执行网络的输入层到隐藏层的权值,为预设值,σai(·)表示执行网络的激活函数,采用Hyperbolic Tangent函数;hai为隐藏层个数,为预设值;
S104:采用观测网络的权值更新率对观测网络隐藏层到输出层的权值进行更新,采用执行网络的权值更新率对执行网络隐藏层到输出层的权值进行更新,采用评价网络的权值更新率对评价网络隐藏层到输出层的权值进行更新;
S105:根据各跟随者智能体的最优控制输入对各跟随者智能体分别进行控制,得到各跟随者智能体的系统状态,进而返回步骤S101,以进行下一时刻的多智能体同步控制;如此循环迭代,以实现多智能体的同步控制。
2.如权利要求1所述的一种多智能体同步控制方法,其特征在于:步骤S103中,所述评价网络的构建过程如下:
S201:定义待优化的性能指标函数,如公式(4)所示:
Figure FDA0002968707140000031
上式中,
Figure FDA0002968707140000032
表示跟随者智能体i在t时刻的奖励,γ为设计参数,Nr为最终时间常数,εr表示为设定的阈值;γ、Nr和εr均为预设值;
S202:采用BP神经网络逼近理想最优性能指标函数,以构建评价网络,评价网络的具体公式如公式(5)所示:
Figure FDA0002968707140000033
上式中,
Figure FDA0002968707140000034
为评价网络的输入,
Figure FDA0002968707140000035
Figure FDA0002968707140000036
表示跟随者智能体i的评价网络在t时刻隐藏层到输出层的权值,
Figure FDA0002968707140000037
表示跟随者智能体i的评价网络的输入层到隐藏层的权值,为预设值;σci(·)表示评价网络的激活函数,采用Hyperbolic Tangent函数;hci为隐藏层个数,为预设值。
3.如权利要求2所述的一种多智能体同步控制方法,其特征在于:步骤S104中,观测网络的权值更新率的具体公式如公式(6)所示:
Figure FDA0002968707140000038
上式中,wbi(t)表示观测网络上一时刻的隐藏层到输出层的权值;ηb表示观测网络的学习率;k2,i∈Rn×n为对称增益矩阵,αb∈R为设计参数;ηb、k2,i和αb均为预设值,且ηb>0;
Figure FDA0002968707140000039
表示跟随者智能体i在t时刻的局部领域观测估计误差的转置。
4.如权利要求3所述的一种多智能体同步控制方法,其特征在于:步骤S104中,执行网络的权值更新率的具体公式如公式(7)所示:
Figure FDA0002968707140000041
上式中,ηai>0表示执行网络的学习率,为预设值;k3,i∈Rn×n为设计常数;
Figure FDA0002968707140000042
Jc(t)=[0 0 … 0]T∈Rn
Figure FDA0002968707140000043
5.如权利要求4所述的一种多智能体同步控制方法,其特征在于:步骤S104中,评价网络的权值更新率的具体公式如公式(8)所示:
Figure FDA0002968707140000044
上式中,
Figure FDA0002968707140000045
ηci>0为评价网络的学习率,为预设值。
6.一种存储设备,其特征在于:所述存储设备存储指令及数据用于实现权利要求1~5所述的任意一种多智能体同步控制方法。
7.一种多智能体同步控制设备,其特征在于:包括:处理器及存储设备;所述处理器加载并执行存储设备中的指令及数据用于实现权利要求1~5所述的任意一种多智能体同步控制方法。
CN201910731427.1A 2019-08-08 2019-08-08 一种多智能体同步控制方法、设备及存储设备 Active CN110554604B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910731427.1A CN110554604B (zh) 2019-08-08 2019-08-08 一种多智能体同步控制方法、设备及存储设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910731427.1A CN110554604B (zh) 2019-08-08 2019-08-08 一种多智能体同步控制方法、设备及存储设备

Publications (2)

Publication Number Publication Date
CN110554604A CN110554604A (zh) 2019-12-10
CN110554604B true CN110554604B (zh) 2021-07-09

Family

ID=68737200

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910731427.1A Active CN110554604B (zh) 2019-08-08 2019-08-08 一种多智能体同步控制方法、设备及存储设备

Country Status (1)

Country Link
CN (1) CN110554604B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110933726B (zh) * 2019-12-12 2021-11-23 华东交通大学 一种切换异构网络下的多智能体系统包含控制的实现方法
CN111898770B (zh) * 2020-09-29 2021-01-15 四川大学 一种多智能体强化学习方法、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108803349A (zh) * 2018-08-13 2018-11-13 中国地质大学(武汉) 非线性多智能体系统的最优一致性控制方法及系统
CN108921298A (zh) * 2018-06-12 2018-11-30 中国科学技术大学 强化学习多智能体沟通与决策方法
CN109581868A (zh) * 2018-09-21 2019-04-05 长春工业大学 基于评判辨识结构的可重构机器人分散神经最优控制方法
CN109635917A (zh) * 2018-10-17 2019-04-16 北京大学 一种多智能体合作决策及训练方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10628733B2 (en) * 2015-04-06 2020-04-21 Deepmind Technologies Limited Selecting reinforcement learning actions using goals and observations

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108921298A (zh) * 2018-06-12 2018-11-30 中国科学技术大学 强化学习多智能体沟通与决策方法
CN108803349A (zh) * 2018-08-13 2018-11-13 中国地质大学(武汉) 非线性多智能体系统的最优一致性控制方法及系统
CN109581868A (zh) * 2018-09-21 2019-04-05 长春工业大学 基于评判辨识结构的可重构机器人分散神经最优控制方法
CN109635917A (zh) * 2018-10-17 2019-04-16 北京大学 一种多智能体合作决策及训练方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Observer-Based Adaptive Backstepping Consensus Tracking Control for High-Order Nonlinear Semi-Strict-Feedback Multiagent Systems;C. L. Philip Chen等;《IEEE TRANSACTIONS ON CYBERNETICS》;20160731;第46卷(第7期);第1591-1601页 *
无模型自适应动态规划及其在多智能体协同控制中的应用;杨永亮;《中国博士学位论文全文数据库 信息科技辑》;20180315(第03期);第I140-21页 *

Also Published As

Publication number Publication date
CN110554604A (zh) 2019-12-10

Similar Documents

Publication Publication Date Title
CN108803349B (zh) 非线性多智能体系统的最优一致性控制方法及系统
CN110221542B (zh) 一种二阶非线性多智能体系统固定时间协同跟踪控制方法
CN110442129B (zh) 一种多智能体编队的控制方法和系统
Gan et al. Synchronization of chaotic neural networks with mixed time delays
Kiumarsi et al. Optimal control of nonlinear discrete time-varying systems using a new neural network approximation structure
CN105589333B (zh) 多智能体系统分组包围控制方法
CN110554604B (zh) 一种多智能体同步控制方法、设备及存储设备
Yang et al. Adaptive synchronization of delayed Markovian switching neural networks with Lévy noise
Pan et al. Multi-source transfer ELM-based Q learning
Gao et al. Consensus evaluation method of multi-ground-target threat for unmanned aerial vehicle swarm based on heterogeneous group decision making
Mushgil et al. Comparison between resilient and standard back propagation algorithms efficiency in pattern recognition
CN110278571A (zh) 一种基于简单预测-校正环节的分布式信号跟踪方法
Chen et al. Observer-based event-triggered consensus of leader-following linear multi-agent systems with input saturation and switching topologies
Syed Ali et al. Sampled-data state estimation for neural networks with additive time–varying delays
CN112198796B (zh) 一种分布式前置时间状态观测器的设计方法
Rokhforoz et al. Large-scale dynamic system optimization using dual decomposition method with approximate dynamic programming
Wu et al. Adaptive synchronization of TS fuzzy complex networks with time-varying delays via the pinning control method
Zhu et al. Aggregation analysis for competitive multiagent systems with saddle points via switching strategies
CN110450164A (zh) 机器人控制方法、装置、机器人及存储介质
CN114200830B (zh) 一种多智能体一致性强化学习控制方法
Fornarelli et al. Adaptive particle swarm optimization for CNN associative memories design
Guoqiang et al. Study of RBF neural network based on PSO algorithm in nonlinear system identification
Zeng et al. Robust asymptotical stability and stabilization of fractional-order complex-valued neural networks with delay
Tran et al. Decision support systems using hybrid neurocomputing
Ouyang et al. The relation between communication range and controllability of networked multi-agent systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant