CN110554604B - 一种多智能体同步控制方法、设备及存储设备 - Google Patents
一种多智能体同步控制方法、设备及存储设备 Download PDFInfo
- Publication number
- CN110554604B CN110554604B CN201910731427.1A CN201910731427A CN110554604B CN 110554604 B CN110554604 B CN 110554604B CN 201910731427 A CN201910731427 A CN 201910731427A CN 110554604 B CN110554604 B CN 110554604B
- Authority
- CN
- China
- Prior art keywords
- agent
- network
- follower
- weight
- leader
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Computer And Data Communications (AREA)
Abstract
本发明提供了一种多智能体同步控制方法、设备及存储设备,其方法包括:首先构建观测网络对领导者智能体的动力学模型进行实时估计;然后构建神经网络自适应分布式状态观测器,以对领导者智能体的状态进行实时估计;最后根据所述神经网络自适应分布式状态观测器,针对各跟随者智能体分别构建执行网络和评价网络,并根据各跟随者智能体的执行网络得到各跟随者智能体的最优控制输入。一种多智能体同步控制设备及存储设备,用于实现一种多智能体同步控制方法。本发明的有益效果是:本发明所提出的技术方案针对离散时间非线性异构多智能体系统的无模型最优同步控制在本领域内属于首创,对解决当前领域的技术研究所存在问题具有重要意义。
Description
技术领域
本发明涉及多智能体控制技术领域,尤其涉及一种多智能体同步控制方法、设备及存储设备。
背景技术
近年来,多智能体系统分布式同步控制问题引起了广大学者们的关注,其中主要涉及无人机、电力系统、分布式传感器、多机器人生产线、电磁管理等领域。值得注意的是,由于领导者-跟随者智能体模式是同步控制或最优同步控制中一种较为简便和可靠的控制模式,所以本发明也是采用这一模式。
同步控制问题是多智能体系统研究中的一类基本问题。在实际工程应用中,根据性能要求和任务种类等因素和个体设计控制规则,通过个体间的互相协调,保证各个体的某个物理量与领导者智能体趋于同步,比如飞行器追踪的目标、编队控制中的队形或者集会问题中的目的地等。或者说多智能体的同步行为使得系统中每个个体行为都能随着时间的推移而最终都趋于领导者智能体的行为。
最优同步控制问题又是多智能体协作控制中一个热门问题,并具有一定的挑战性,也是网络化系统研究中的一个极其重要的方向。多智能体的最优同步控制不仅保证各跟随者智能体行为趋于领导者智能体行为的要求,而且可以实现具体的最优性能指标要求。这将有效实现多智能设备之间协同,并保证控制过程中协调性能得到优化,推动复杂大规模系统控制的向前发展,并为工业、农业、国防军事等方面的多智能体设备提供更高效的技术支持。
在实际中,多智能体系统往往表现为非线性,甚至个体的异构性。特别是这类系统往往难以建立准确的动力学模型。另外,在实际数字计算机控制中,往往通过离散时间采样的方式进行控制,所以以离散时间系统或者离散化的系统的为对象的控制更为符合实际控制要求。目前多智能体最优同步控制研究主要局限于已知积分器或线性系统的研究。然而,对异构非线性系统的研究相对较少,特别是离散时间系统和无模型控制的情况下。因此,本发明充分考虑实际研究问题,提出一种面向离散时间非线性异构多智能体系统的无模型最优同步控制方法。
发明内容
为了解决上述问题,本发明提供了一种多智能体同步控制方法、设备及存储设备;一种多智能体同步控制方法,应用于多智能体同步控制系统中,所述一种多智能体同步控制系统包括:多个跟随者智能体和一个领导者智能体;一种多智能体同步控制方法,主要包括以下步骤:
S101:构建观测网络对领导者智能体的动力学模型进行实时估计,得到各跟随者智能体对领导者智能体的动力学模型的估计;
S102:根据所述观测网络和所述多智能体同步控制系统的实际有向通信拓扑网络结构,构建神经网络自适应分布式状态观测器,以对领导者智能体的状态进行实时估计,得到各跟随者智能体对领导者智能体状态的估计;
S103:根据所述神经网络自适应分布式状态观测器,针对各跟随者智能体分别构建执行网络和评价网络,并根据各跟随者智能体的执行网络得到各跟随者智能体的最优控制输入;
S104:采用观测网络的权值更新率对观测网络隐藏层到输出层的权值进行更新,采用执行网络的权值更新率对执行网络隐藏层到输出层的权值进行更新,采用评价网络的权值更新率对评价网络下一时刻隐藏层到输出层的权值进行更新;
S105:根据各跟随者智能体的最优控制输入对各跟随者智能体分别进行控制,得到各跟随者智能体的实际状态,进而返回步骤S101,以进行下一时刻的多智能体同步控制;如此循环迭代,以实现多智能体的同步控制。
进一步地,步骤S101中,采用BP神经网络构建观测网络,逼近领导者智能体动力学模型;具体公式如公式(1)所示:
上式中,表示跟随者智能体i在t时刻对领导者智能体的动力学模型的估计;表示跟随者智能体i在t时刻对领导者智能体状态的估计,且的初始值为预设值表示观测网络t时刻的隐藏层到输出层的权值,且wb1(t)~wbN(t)均相等,N为跟随者智能体的总个数,且wbi(t)的初始值为预设值wbi(0);表示观测网络的输入层到隐藏层的权值,为预设值;σbi(·)表示观测网络的激活函数,采用Hyperbolic Tangent函数,n为各跟随者智能体跟随领导者智能体同步运动的系统状态维数,hbi为观测网络的隐藏层个数,根据实际情况预设。
进一步地,步骤S102中,构建的神经网络自适应分布式状态观测器具体如公式(2)所示:
上式中,为跟随者智能体i在t+1时刻对领导者智能体状态的估计;为跟随者智能体i在上一时刻,即t时刻对领导者智能体的动力学模型的估计;表示跟随者智能体i在t时刻的局部领域观测估计误差,为摄动信号;aij为所述多智能体同步控制系统的实际有向通信拓扑网络结构的邻接矩阵参数,bi为所述多智能体同步控制系统的实际有向通信拓扑网络结构中领导者智能体通向智能体i的权重参数;i=1,2,…,N,N表示跟随者智能体总个数,k1,i∈Rn×n表示所述多智能体同步控制系统的实际有向通信拓扑网络结构中智能体i的增益,为预设值。
进一步地,步骤S103中,采用BP神经网络逼近理想执行网络的输出,执行网络的具体公式如公式(3)所示:
上式中,ui(t)表示执行网络的输出,即跟随者智能体i在t时刻的最优控制输入,为跟随者智能体i的执行网络在t时刻的输入;xi(t)为跟随者智能体i在t时刻的实际状态;表示跟随者智能体i的执行网络在t时刻隐藏层到输出层的权值;表示跟随者智能体i的执行网络的输入层到隐藏层的权值,为预设值,σai(·)表示执行网络的激活函数,采用Hyperbolic Tangent函数;hai为隐藏层个数,为预设值。
进一步地,步骤S103中,所述评价网络的构建过程如下:
S201:定义待优化的性能指标函数,如公式(4)所示:
S202:采用BP神经网络逼近理想最优性能指标函数,以构建评价网络,评价网络的具体公式如公式(5)所示:
上式中,为评价网络的输入, 表示跟随者智能体i的评价网络在t时刻隐藏层到输出层的权值,表示跟随者智能体i的评价网络的输入层到隐藏层的权值,为预设值;σci(·)表示评价网络的激活函数,采用Hyperbolic Tangent函数;hci为隐藏层个数,为预设值。
进一步地,步骤S104中,观测网络的权值更新率的具体公式如公式(6)所示:
上式中,wbi(t)表示观测网络上一时刻的隐藏层到输出层的权值;ηb表示观测网络的学习率;k2,i∈Rn×n为对称增益矩阵,αb∈R为设计参数;ηb、k2,i和αb均为预设值,且ηb>0;表示跟随者智能体i在t时刻的局部领域观测估计误差的转置。
进一步地,步骤S104中,执行网络的权值更新率的具体公式如公式(7)所示:
进一步地,步骤S104中,评价网络的权值更新率的具体公式如公式(8)所示:
一种存储设备,所述存储设备存储指令及数据用于实现一种多智能体同步控制方法。
一种多智能体同步控制设备,包括:处理器及所述存储设备;所述处理器加载并执行所述存储设备中的指令及数据用于实现一种多智能体同步控制方法。
本发明提供的技术方案带来的有益效果是:因此,本发明所提出的技术方案针对离散时间非线性异构多智能体系统的无模型最优同步控制在本领域内属于首创,具有实际应用价值和高优越的控制品质,对解决当前领域的技术研究所存在问题具有重要意义。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例中一种多智能体同步控制方法的结构框图;
图2是本发明实施例中执行-评价网络的框架图;
图3是本发明实施例中多振荡器同步控制系统的网络拓扑结构图;
图4是本发明实施例中的数字仿真结果图;
图5是本发明实施例中硬件设备工作的示意图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
本发明的实施例提供了一种多智能体同步控制方法、设备及存储设备;所述一种多智能体同步控制方法,应用于多智能体同步控制系统中;所述一种多智能体同步控制系统包括:多个跟随智能体和一个领导者智能体;
请参考图1,图1是本发明实施例中一种多智能体同步控制方法的结构框图,具体包括如下步骤:
S101:构建观测网络对领导者智能体的动力学模型进行实时估计,得到各跟随者智能体对领导者智能体的动力学模型的估计;
S102:根据所述观测网络和所述多智能体同步控制系统的实际有向通信拓扑网络结构,构建神经网络自适应分布式状态观测器,以对领导者智能体的状态进行实时估计,得到各跟随者智能体对领导者智能体状态的估计;
S103:根据所述神经网络自适应分布式状态观测器,针对各跟随者智能体分别构建执行网络和评价网络,并根据各跟随者智能体的执行网络得到各跟随者智能体的最优控制输入;
S104:采用观测网络的权值更新率对观测网络隐藏层到输出层的权值进行更新,采用执行网络的权值更新率对执行网络隐藏层到输出层的权值进行更新,采用评价网络的权值更新率对评价网络隐藏层到输出层的权值进行更新;
S105:根据各跟随者智能体的最优控制输入对各跟随者智能体分别进行控制,得到各跟随者智能体的实际状态,进而返回步骤S101,以进行下一时刻的多智能体同步控制;如此循环迭代,以实现多智能体的同步控制。
步骤S101中,采用BP神经网络构建观测网络,逼近领导者智能体动力学模型;具体公式如公式(1)所示:
上式中,表示跟随者智能体i在t时刻对领导者智能体的动力学模型的估计;表示跟随者智能体i在t时刻对领导者智能体状态的估计,且的初始值为预设值表示观测网络t时刻的隐藏层到输出层的权值,且wb1(t)~wbN(t)均相等,N为跟随者智能体的总个数,且wbi(t)的初始值为预设值wbi(0);表示观测网络的输入层到隐藏层的权值,为预设值;σbi(·)表示观测网络的激活函数,采用Hyperbolic Tangent函数,n为各跟随者智能体跟随领导者智能体同步运动的系统状态维数,hbi为观测网络的隐藏层个数,根据实际情况预设。
步骤S102中,构建的神经网络自适应分布式状态观测器具体如公式(2)所示:
上式中,为跟随者智能体i在t+1时刻对领导者智能体状态的估计;为跟随者智能体i在上一时刻,即t时刻对领导者智能体的动力学模型的估计;表示跟随者智能体i在t时刻的局部领域观测估计误差,为摄动信号;aij为所述多智能体同步控制系统的实际有向通信拓扑网络结构的邻接矩阵参数,bi为所述多智能体同步控制系统的实际有向通信拓扑网络结构中领导者智能体通向智能体i的权重参数;i=1,2,…,N,N表示跟随者智能体总个数,k1,i∈Rn×n表示所述多智能体同步控制系统的实际有向通信拓扑网络结构中智能体i的增益,为预设值。
本发明实施例中,全局领域观测估计误差可表示为:
请参阅图2,图2是本发明实施例中执行-评价网络的框架图;步骤S103中,采用BP神经网络逼近理想执行网络的输出,执行网络的具体公式如公式(3)所示:
上式中,ui(t)表示执行网络的输出,即跟随者智能体i在t时刻的最优控制输入,为跟随者智能体i的执行网络在t时刻的输入;xi(t)为跟随者智能体i在t时刻的实际状态;表示跟随者智能体i的执行网络在t时刻隐藏层到输出层的权值;表示跟随者智能体i的执行网络的输入层到隐藏层的权值,为预设值,σai(·)表示执行网络的激活函数,采用Hyperbolic tangent函数;hai为隐藏层个数,为预设值。
步骤S103中,所述评价网络的构建过程如下:
S201:定义待优化的性能指标函数,如公式(4)所示:
S202:采用BP神经网络逼近理想最优性能指标函数,以构建评价网络,评价网络的具体公式如公式(5)所示:
上式中,为评价网络的输入, 表示跟随者智能体i的评价网络在t时刻隐藏层到输出层的权值,表示跟随者智能体i的评价网络的输入层到隐藏层的权值,为预设值;σci(·)表示评价网络的激活函数,采用Hyperbolic Tangent函数;hci为隐藏层个数,为预设值。(通常实现最优控制问题的方式是求解贝尔曼方程。对于无模型的非线性系统而言,贝尔曼方程求解是极其困难的。为此,基于神经网络的万能逼近特性,在本发明实施例中,采用神经网络逼近值函数的方式解决这个问题。)
步骤S104中,观测网络的权值更新率的具体公式如公式(6)所示:
上式中,wbi(t)表示观测网络上一时刻的隐藏层到输出层的权值;ηb表示观测网络的学习率;k2,i∈Rn×n为对称增益矩阵,αb∈R为设计参数;ηb、k2,i和αb均为预设值,且ηb>0;表示跟随者智能体i在t时刻的局部领域观测估计误差的转置。
步骤S104中,执行网络的权值更新率的具体公式如公式(7)所示:
步骤S104中,评价网络的权值更新率的具体公式如公式(8)所示:
步骤S105中,根据各跟随者智能体的最优控制输入对各跟随者智能体分别进行控制,即将分布式控制输入u1(t),u2(t),…,uN(t)依次对应输入至跟随者智能体1至跟随者智能体N,实现多智能体系统的最优同步控制,即跟随者的行为以最优的方式同步于领导者的行为,当所有跟随者智能体i的输出均满足条件xi(t)-x0(t)→0且收敛时,实现最优同步控制;当实现最优同步控制后,再循环的各权值将调整很小或者不再变化;当系统停止时,停止循环迭代。
在本发明实施例中,以多振荡器同步控制为实例进行数字仿真实验:
三个振荡器的动力学模型分别为:
领导者动力学模型为:
该多智能体同步控制系统的网络拓扑结构如图3所示。观测网络、评价网络以及执行网络分别采用3-5-1(3为输入层个数、5为隐藏层个数、1为输出层个数)、3-6-1以及2-5-1的BP神经网络结构。这些网络的激活函数都采用Hyperbolic tangent函数。初始权值随机地在-1到1之间取值。初始状态在-1到-2之间随机取值。另外其他参数的取值参看下表:
参数 | 大小 | 参数 | 大小 | 参数 | 大小 | 参数 | 大小 |
k<sub>1,1</sub> | -0.35 | k<sub>2,1</sub> | 0.45 | k<sub>3,1</sub> | 0.25 | γ | 0.2 |
k<sub>1,2</sub> | -0.15 | k<sub>2,2</sub> | 0.4 | k<sub>3,2</sub> | 0.25 | η<sub>b</sub> | 0.1 |
k<sub>1,3</sub> | -0.45 | k<sub>2,3</sub> | 0.1 | k<sub>3,3</sub> | 0.25 | α<sub>b</sub> | 0.001 |
η<sub>c,i</sub> | 0.0001 | η<sub>a,i</sub> | 0.005 | ε<sub>r</sub> | 0.02 | - | - |
通过数字仿真得到图4所示的多智能体轨迹曲线图,可以看出,通过本发明所提出的技术方案,得到了很好的多智能体同步控制结果。
请参见图5,图5是本发明实施例的硬件设备工作示意图,所述硬件设备具体包括:一种多智能体同步控制设备501、处理器502及存储设备503。
一种多智能体同步控制设备501:所述一种多智能体同步控制设备501实现所述一种多智能体同步控制方法。
处理器502:所述处理器502加载并执行所述存储设备503中的指令及数据用于实现所述一种多智能体同步控制方法。
存储设备503:所述存储设备503存储指令及数据;所述存储设备503用于实现所述一种多智能体同步控制方法。
本发明的有益效果是:本发明所提出的技术方案主要考虑更为实际的多智能体对象,即多智能体系统往往是非线性的甚至异构的,如编队无人机、无人驾驶汽车、以及协作多机械手等。而当前的技术研究大多数近似考虑系统为线性系统,显然这是严重偏离实际问题的研究。而且,这类系统在实际应用中是很难获得其精确的动力学模型。那么,以动力学模型为基础的现有控制方法在实际中很难实现。另外,在现有技术当中并未考虑控制系统的最优控制性能,所以本发明具有更高的控制品质。最后,当前技术主要集中于连续时间系统,但是这类系统的控制方法不利于应用数字计算机的控制。
因此,本发明所提出的技术方案针对离散时间非线性异构多智能体系统的无模型最优同步控制在本领域内属于首创,具有实际应用价值和高优越的控制品质,对解决当前领域的技术研究所存在问题具有重要意义。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种多智能体同步控制方法,应用于多智能体同步控制系统中;所述一种多智能体同步控制系统包括:多个跟随者智能体和一个领导者智能体;其特征在于:所述一种多智能体同步控制方法,具体包括以下步骤:
S101:构建观测网络对领导者智能体的动力学模型进行实时估计,得到各跟随者智能体对领导者智能体的动力学模型的估计;
步骤S101中,采用BP神经网络构建观测网络,逼近领导者智能体动力学模型;具体公式如公式(1)所示:
上式中,表示跟随者智能体i在t时刻对领导者智能体的动力学模型的估计;表示跟随者智能体i在t时刻对领导者智能体状态的估计,且的初始值为预设值 表示观测网络t时刻的隐藏层到输出层的权值,且wb1(t)~wbN(t)均相等,N为跟随者智能体的总个数,且wbi(t)的初始值为预设值wbi(0);表示观测网络的输入层到隐藏层的权值,为预设值;σbi(·)表示观测网络的激活函数,采用Hyperbolic Tangent函数,n为各跟随者智能体跟随领导者智能体同步运动的实际状态维数,hbi为观测网络的隐藏层个数,根据实际情况预设;
S102:根据所述观测网络和所述多智能体同步控制系统的实际有向通信拓扑网络结构,构建神经网络自适应分布式状态观测器,以对领导者智能体的状态进行实时估计,得到各跟随者智能体对领导者智能体状态的估计;
步骤S102中,构建的神经网络自适应分布式状态观测器具体如公式(2)所示:
上式中,为跟随者智能体i在t+1时刻对领导者智能体状态的估计;为跟随者智能体i在上一时刻,即t时刻对领导者智能体的动力学模型的估计;表示跟随者智能体i在t时刻的局部领域观测估计误差,为摄动信号;aij为所述多智能体同步控制系统的实际有向通信拓扑网络结构的邻接矩阵参数,bi为所述多智能体同步控制系统的实际有向通信拓扑网络结构中领导者智能体通向智能体i的权重参数;i=1,2,…,N,N表示跟随者智能体总个数,k1,i∈Rn×n表示所述多智能体同步控制系统的实际有向通信拓扑网络结构中智能体i的增益,为预设值;x0(t)为领导者智能体在t时刻的实际状态;
S103:根据所述神经网络自适应分布式状态观测器,针对各跟随者智能体分别构建执行网络和评价网络,并根据各跟随者智能体的执行网络得到各跟随者智能体的最优控制输入;
步骤S103中,采用BP神经网络逼近理想执行网络的输出,执行网络的具体公式如公式(3)所示:
上式中,ui(t)表示执行网络的输出,即跟随者智能体i在t时刻的最优控制输入,为跟随者智能体i的执行网络在t时刻的输入;xi(t)为跟随者智能体i在t时刻的实际状态;表示跟随者智能体i的执行网络在t时刻隐藏层到输出层的权值;表示跟随者智能体i的执行网络的输入层到隐藏层的权值,为预设值,σai(·)表示执行网络的激活函数,采用Hyperbolic Tangent函数;hai为隐藏层个数,为预设值;
S104:采用观测网络的权值更新率对观测网络隐藏层到输出层的权值进行更新,采用执行网络的权值更新率对执行网络隐藏层到输出层的权值进行更新,采用评价网络的权值更新率对评价网络隐藏层到输出层的权值进行更新;
S105:根据各跟随者智能体的最优控制输入对各跟随者智能体分别进行控制,得到各跟随者智能体的系统状态,进而返回步骤S101,以进行下一时刻的多智能体同步控制;如此循环迭代,以实现多智能体的同步控制。
2.如权利要求1所述的一种多智能体同步控制方法,其特征在于:步骤S103中,所述评价网络的构建过程如下:
S201:定义待优化的性能指标函数,如公式(4)所示:
S202:采用BP神经网络逼近理想最优性能指标函数,以构建评价网络,评价网络的具体公式如公式(5)所示:
6.一种存储设备,其特征在于:所述存储设备存储指令及数据用于实现权利要求1~5所述的任意一种多智能体同步控制方法。
7.一种多智能体同步控制设备,其特征在于:包括:处理器及存储设备;所述处理器加载并执行存储设备中的指令及数据用于实现权利要求1~5所述的任意一种多智能体同步控制方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910731427.1A CN110554604B (zh) | 2019-08-08 | 2019-08-08 | 一种多智能体同步控制方法、设备及存储设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910731427.1A CN110554604B (zh) | 2019-08-08 | 2019-08-08 | 一种多智能体同步控制方法、设备及存储设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110554604A CN110554604A (zh) | 2019-12-10 |
CN110554604B true CN110554604B (zh) | 2021-07-09 |
Family
ID=68737200
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910731427.1A Active CN110554604B (zh) | 2019-08-08 | 2019-08-08 | 一种多智能体同步控制方法、设备及存储设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110554604B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110933726B (zh) * | 2019-12-12 | 2021-11-23 | 华东交通大学 | 一种切换异构网络下的多智能体系统包含控制的实现方法 |
CN111898770B (zh) * | 2020-09-29 | 2021-01-15 | 四川大学 | 一种多智能体强化学习方法、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108803349A (zh) * | 2018-08-13 | 2018-11-13 | 中国地质大学(武汉) | 非线性多智能体系统的最优一致性控制方法及系统 |
CN108921298A (zh) * | 2018-06-12 | 2018-11-30 | 中国科学技术大学 | 强化学习多智能体沟通与决策方法 |
CN109581868A (zh) * | 2018-09-21 | 2019-04-05 | 长春工业大学 | 基于评判辨识结构的可重构机器人分散神经最优控制方法 |
CN109635917A (zh) * | 2018-10-17 | 2019-04-16 | 北京大学 | 一种多智能体合作决策及训练方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10628733B2 (en) * | 2015-04-06 | 2020-04-21 | Deepmind Technologies Limited | Selecting reinforcement learning actions using goals and observations |
-
2019
- 2019-08-08 CN CN201910731427.1A patent/CN110554604B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108921298A (zh) * | 2018-06-12 | 2018-11-30 | 中国科学技术大学 | 强化学习多智能体沟通与决策方法 |
CN108803349A (zh) * | 2018-08-13 | 2018-11-13 | 中国地质大学(武汉) | 非线性多智能体系统的最优一致性控制方法及系统 |
CN109581868A (zh) * | 2018-09-21 | 2019-04-05 | 长春工业大学 | 基于评判辨识结构的可重构机器人分散神经最优控制方法 |
CN109635917A (zh) * | 2018-10-17 | 2019-04-16 | 北京大学 | 一种多智能体合作决策及训练方法 |
Non-Patent Citations (2)
Title |
---|
Observer-Based Adaptive Backstepping Consensus Tracking Control for High-Order Nonlinear Semi-Strict-Feedback Multiagent Systems;C. L. Philip Chen等;《IEEE TRANSACTIONS ON CYBERNETICS》;20160731;第46卷(第7期);第1591-1601页 * |
无模型自适应动态规划及其在多智能体协同控制中的应用;杨永亮;《中国博士学位论文全文数据库 信息科技辑》;20180315(第03期);第I140-21页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110554604A (zh) | 2019-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108803349B (zh) | 非线性多智能体系统的最优一致性控制方法及系统 | |
CN110221542B (zh) | 一种二阶非线性多智能体系统固定时间协同跟踪控制方法 | |
CN110442129B (zh) | 一种多智能体编队的控制方法和系统 | |
Gan et al. | Synchronization of chaotic neural networks with mixed time delays | |
Kiumarsi et al. | Optimal control of nonlinear discrete time-varying systems using a new neural network approximation structure | |
CN105589333B (zh) | 多智能体系统分组包围控制方法 | |
CN110554604B (zh) | 一种多智能体同步控制方法、设备及存储设备 | |
Yang et al. | Adaptive synchronization of delayed Markovian switching neural networks with Lévy noise | |
Pan et al. | Multi-source transfer ELM-based Q learning | |
Gao et al. | Consensus evaluation method of multi-ground-target threat for unmanned aerial vehicle swarm based on heterogeneous group decision making | |
Mushgil et al. | Comparison between resilient and standard back propagation algorithms efficiency in pattern recognition | |
CN110278571A (zh) | 一种基于简单预测-校正环节的分布式信号跟踪方法 | |
Chen et al. | Observer-based event-triggered consensus of leader-following linear multi-agent systems with input saturation and switching topologies | |
Syed Ali et al. | Sampled-data state estimation for neural networks with additive time–varying delays | |
CN112198796B (zh) | 一种分布式前置时间状态观测器的设计方法 | |
Rokhforoz et al. | Large-scale dynamic system optimization using dual decomposition method with approximate dynamic programming | |
Wu et al. | Adaptive synchronization of TS fuzzy complex networks with time-varying delays via the pinning control method | |
Zhu et al. | Aggregation analysis for competitive multiagent systems with saddle points via switching strategies | |
CN110450164A (zh) | 机器人控制方法、装置、机器人及存储介质 | |
CN114200830B (zh) | 一种多智能体一致性强化学习控制方法 | |
Fornarelli et al. | Adaptive particle swarm optimization for CNN associative memories design | |
Guoqiang et al. | Study of RBF neural network based on PSO algorithm in nonlinear system identification | |
Zeng et al. | Robust asymptotical stability and stabilization of fractional-order complex-valued neural networks with delay | |
Tran et al. | Decision support systems using hybrid neurocomputing | |
Ouyang et al. | The relation between communication range and controllability of networked multi-agent systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |