CN110554604B

CN110554604B - 一种多智能体同步控制方法、设备及存储设备

Info

Publication number: CN110554604B
Application number: CN201910731427.1A
Authority: CN
Inventors: 陈鑫; 符浩
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2019-08-08
Filing date: 2019-08-08
Publication date: 2021-07-09
Anticipated expiration: 2039-08-08
Also published as: CN110554604A

Abstract

本发明提供了一种多智能体同步控制方法、设备及存储设备，其方法包括：首先构建观测网络对领导者智能体的动力学模型进行实时估计；然后构建神经网络自适应分布式状态观测器，以对领导者智能体的状态进行实时估计；最后根据所述神经网络自适应分布式状态观测器，针对各跟随者智能体分别构建执行网络和评价网络，并根据各跟随者智能体的执行网络得到各跟随者智能体的最优控制输入。一种多智能体同步控制设备及存储设备，用于实现一种多智能体同步控制方法。本发明的有益效果是：本发明所提出的技术方案针对离散时间非线性异构多智能体系统的无模型最优同步控制在本领域内属于首创，对解决当前领域的技术研究所存在问题具有重要意义。

Description

一种多智能体同步控制方法、设备及存储设备

技术领域

本发明涉及多智能体控制技术领域，尤其涉及一种多智能体同步控制方法、设备及存储设备。

背景技术

近年来，多智能体系统分布式同步控制问题引起了广大学者们的关注，其中主要涉及无人机、电力系统、分布式传感器、多机器人生产线、电磁管理等领域。值得注意的是，由于领导者-跟随者智能体模式是同步控制或最优同步控制中一种较为简便和可靠的控制模式，所以本发明也是采用这一模式。

同步控制问题是多智能体系统研究中的一类基本问题。在实际工程应用中，根据性能要求和任务种类等因素和个体设计控制规则，通过个体间的互相协调，保证各个体的某个物理量与领导者智能体趋于同步，比如飞行器追踪的目标、编队控制中的队形或者集会问题中的目的地等。或者说多智能体的同步行为使得系统中每个个体行为都能随着时间的推移而最终都趋于领导者智能体的行为。

最优同步控制问题又是多智能体协作控制中一个热门问题，并具有一定的挑战性，也是网络化系统研究中的一个极其重要的方向。多智能体的最优同步控制不仅保证各跟随者智能体行为趋于领导者智能体行为的要求，而且可以实现具体的最优性能指标要求。这将有效实现多智能设备之间协同，并保证控制过程中协调性能得到优化，推动复杂大规模系统控制的向前发展，并为工业、农业、国防军事等方面的多智能体设备提供更高效的技术支持。

在实际中，多智能体系统往往表现为非线性，甚至个体的异构性。特别是这类系统往往难以建立准确的动力学模型。另外，在实际数字计算机控制中，往往通过离散时间采样的方式进行控制，所以以离散时间系统或者离散化的系统的为对象的控制更为符合实际控制要求。目前多智能体最优同步控制研究主要局限于已知积分器或线性系统的研究。然而，对异构非线性系统的研究相对较少，特别是离散时间系统和无模型控制的情况下。因此，本发明充分考虑实际研究问题，提出一种面向离散时间非线性异构多智能体系统的无模型最优同步控制方法。

发明内容

为了解决上述问题，本发明提供了一种多智能体同步控制方法、设备及存储设备；一种多智能体同步控制方法，应用于多智能体同步控制系统中，所述一种多智能体同步控制系统包括：多个跟随者智能体和一个领导者智能体；一种多智能体同步控制方法，主要包括以下步骤：

S101：构建观测网络对领导者智能体的动力学模型进行实时估计，得到各跟随者智能体对领导者智能体的动力学模型的估计；

S102：根据所述观测网络和所述多智能体同步控制系统的实际有向通信拓扑网络结构，构建神经网络自适应分布式状态观测器，以对领导者智能体的状态进行实时估计，得到各跟随者智能体对领导者智能体状态的估计；

S103：根据所述神经网络自适应分布式状态观测器，针对各跟随者智能体分别构建执行网络和评价网络，并根据各跟随者智能体的执行网络得到各跟随者智能体的最优控制输入；

S104：采用观测网络的权值更新率对观测网络隐藏层到输出层的权值进行更新，采用执行网络的权值更新率对执行网络隐藏层到输出层的权值进行更新，采用评价网络的权值更新率对评价网络下一时刻隐藏层到输出层的权值进行更新；

S105：根据各跟随者智能体的最优控制输入对各跟随者智能体分别进行控制，得到各跟随者智能体的实际状态，进而返回步骤S101，以进行下一时刻的多智能体同步控制；如此循环迭代，以实现多智能体的同步控制。

进一步地，步骤S101中，采用BP神经网络构建观测网络，逼近领导者智能体动力学模型；具体公式如公式(1)所示：

上式中，

表示跟随者智能体i在t时刻对领导者智能体的动力学模型的估计；

表示跟随者智能体i在t时刻对领导者智能体状态的估计，且

的初始值为预设值

表示观测网络t时刻的隐藏层到输出层的权值，且w_b1(t)～w_bN(t)均相等，N为跟随者智能体的总个数，且w_bi(t)的初始值为预设值w_bi(0)；

表示观测网络的输入层到隐藏层的权值，为预设值；σ_bi(·)表示观测网络的激活函数，采用Hyperbolic Tangent函数，n为各跟随者智能体跟随领导者智能体同步运动的系统状态维数，h_bi为观测网络的隐藏层个数，根据实际情况预设。

进一步地，步骤S102中，构建的神经网络自适应分布式状态观测器具体如公式(2)所示：

上式中，

为跟随者智能体i在t+1时刻对领导者智能体状态的估计；

为跟随者智能体i在上一时刻，即t时刻对领导者智能体的动力学模型的估计；

表示跟随者智能体i在t时刻的局部领域观测估计误差，为摄动信号；a_ij为所述多智能体同步控制系统的实际有向通信拓扑网络结构的邻接矩阵参数，b_i为所述多智能体同步控制系统的实际有向通信拓扑网络结构中领导者智能体通向智能体i的权重参数；i＝1,2,…,N，N表示跟随者智能体总个数，k_1,i∈R^n×n表示所述多智能体同步控制系统的实际有向通信拓扑网络结构中智能体i的增益，为预设值。

进一步地，步骤S103中，采用BP神经网络逼近理想执行网络的输出，执行网络的具体公式如公式(3)所示：

上式中，u_i(t)表示执行网络的输出，即跟随者智能体i在t时刻的最优控制输入，

为跟随者智能体i的执行网络在t时刻的输入；x_i(t)为跟随者智能体i在t时刻的实际状态；

表示跟随者智能体i的执行网络在t时刻隐藏层到输出层的权值；

表示跟随者智能体i的执行网络的输入层到隐藏层的权值，为预设值，σ_ai(·)表示执行网络的激活函数，采用Hyperbolic Tangent函数；h_ai为隐藏层个数，为预设值。

进一步地，步骤S103中，所述评价网络的构建过程如下：

S201：定义待优化的性能指标函数，如公式(4)所示：

上式中，

表示跟随者智能体i在t时刻的奖励，γ为设计参数，N_r为最终时间常数，ε_r表示为设定的阈值；γ、N_r和ε_r均为预设值；

S202：采用BP神经网络逼近理想最优性能指标函数，以构建评价网络，评价网络的具体公式如公式(5)所示：

上式中，

为评价网络的输入，

表示跟随者智能体i的评价网络在t时刻隐藏层到输出层的权值，

表示跟随者智能体i的评价网络的输入层到隐藏层的权值，为预设值；σ_ci(·)表示评价网络的激活函数，采用Hyperbolic Tangent函数；h_ci为隐藏层个数，为预设值。

进一步地，步骤S104中，观测网络的权值更新率的具体公式如公式(6)所示：

上式中，w_bi(t)表示观测网络上一时刻的隐藏层到输出层的权值；η_b表示观测网络的学习率；k_2,i∈R^n×n为对称增益矩阵，α_b∈R为设计参数；η_b、k_2,i和α_b均为预设值，且η_b＞0；

表示跟随者智能体i在t时刻的局部领域观测估计误差的转置。

进一步地，步骤S104中，执行网络的权值更新率的具体公式如公式(7)所示：

上式中，η_ai＞0表示执行网络的学习率，为预设值；k_3,i∈R^n×n为设计常数；

J_c(t)＝[0 0 … 0]^T∈Rⁿ；

进一步地，步骤S104中，评价网络的权值更新率的具体公式如公式(8)所示：

上式中，

η_ci＞0为评价网络的学习率，为预设值。

一种存储设备，所述存储设备存储指令及数据用于实现一种多智能体同步控制方法。

一种多智能体同步控制设备，包括：处理器及所述存储设备；所述处理器加载并执行所述存储设备中的指令及数据用于实现一种多智能体同步控制方法。

本发明提供的技术方案带来的有益效果是：因此，本发明所提出的技术方案针对离散时间非线性异构多智能体系统的无模型最优同步控制在本领域内属于首创，具有实际应用价值和高优越的控制品质，对解决当前领域的技术研究所存在问题具有重要意义。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明实施例中一种多智能体同步控制方法的结构框图；

图2是本发明实施例中执行-评价网络的框架图；

图3是本发明实施例中多振荡器同步控制系统的网络拓扑结构图；

图4是本发明实施例中的数字仿真结果图；

图5是本发明实施例中硬件设备工作的示意图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

本发明的实施例提供了一种多智能体同步控制方法、设备及存储设备；所述一种多智能体同步控制方法，应用于多智能体同步控制系统中；所述一种多智能体同步控制系统包括：多个跟随智能体和一个领导者智能体；

请参考图1，图1是本发明实施例中一种多智能体同步控制方法的结构框图，具体包括如下步骤：

S104：采用观测网络的权值更新率对观测网络隐藏层到输出层的权值进行更新，采用执行网络的权值更新率对执行网络隐藏层到输出层的权值进行更新，采用评价网络的权值更新率对评价网络隐藏层到输出层的权值进行更新；

步骤S101中，采用BP神经网络构建观测网络，逼近领导者智能体动力学模型；具体公式如公式(1)所示：

上式中，

表示跟随者智能体i在t时刻对领导者智能体状态的估计，且

的初始值为预设值

步骤S102中，构建的神经网络自适应分布式状态观测器具体如公式(2)所示：

上式中，

为跟随者智能体i在t+1时刻对领导者智能体状态的估计；

本发明实施例中，全局领域观测估计误差可表示为：

上式中，中I_n∈Rⁿ为单位矩阵，

请参阅图2，图2是本发明实施例中执行-评价网络的框架图；步骤S103中，采用BP神经网络逼近理想执行网络的输出，执行网络的具体公式如公式(3)所示：

步骤S103中，所述评价网络的构建过程如下：

S201：定义待优化的性能指标函数，如公式(4)所示：

上式中，

上式中，

为评价网络的输入，

表示跟随者智能体i的评价网络的输入层到隐藏层的权值，为预设值；σ_ci(·)表示评价网络的激活函数，采用Hyperbolic Tangent函数；h_ci为隐藏层个数，为预设值。(通常实现最优控制问题的方式是求解贝尔曼方程。对于无模型的非线性系统而言，贝尔曼方程求解是极其困难的。为此，基于神经网络的万能逼近特性，在本发明实施例中，采用神经网络逼近值函数的方式解决这个问题。)

步骤S104中，观测网络的权值更新率的具体公式如公式(6)所示：

步骤S104中，执行网络的权值更新率的具体公式如公式(7)所示：

J_c(t)＝[0 0 … 0]^T∈Rⁿ；

步骤S104中，评价网络的权值更新率的具体公式如公式(8)所示：

上式中，

η_ci＞0为评价网络的学习率，为预设值。

步骤S105中，根据各跟随者智能体的最优控制输入对各跟随者智能体分别进行控制，即将分布式控制输入u₁(t),u₂(t),…,u_N(t)依次对应输入至跟随者智能体1至跟随者智能体N，实现多智能体系统的最优同步控制，即跟随者的行为以最优的方式同步于领导者的行为，当所有跟随者智能体i的输出均满足条件x_i(t)-x₀(t)→0且

收敛时，实现最优同步控制；当实现最优同步控制后，再循环的各权值将调整很小或者不再变化；当系统停止时，停止循环迭代。

在本发明实施例中，以多振荡器同步控制为实例进行数字仿真实验：

三个振荡器的动力学模型分别为：

其中跟随者智能体1状态为

跟随者智能体2状态为

跟随者智能体3状态为

采样时间T＝0.05；

领导者动力学模型为：

上式中，

u₀(t)＝sin(0.03t)(注意：以上动力学模型仅用于动力学仿真，而不用于控制器设计)；

该多智能体同步控制系统的网络拓扑结构如图3所示。观测网络、评价网络以及执行网络分别采用3-5-1(3为输入层个数、5为隐藏层个数、1为输出层个数)、3-6-1以及2-5-1的BP神经网络结构。这些网络的激活函数都采用Hyperbolic tangent函数。初始权值随机地在-1到1之间取值。初始状态在-1到-2之间随机取值。另外其他参数的取值参看下表：

参数	大小	参数	大小	参数	大小	参数	大小
								k<sub>1,1</sub>	-0.35	k<sub>2,1</sub>	0.45	k<sub>3,1</sub>	0.25	γ	0.2
k<sub>1,2</sub>	-0.15	k<sub>2,2</sub>	0.4	k<sub>3,2</sub>	0.25	η<sub>b</sub>	0.1
								k<sub>1,3</sub>	-0.45	k<sub>2,3</sub>	0.1	k<sub>3,3</sub>	0.25	α<sub>b</sub>	0.001
η<sub>c,i</sub>	0.0001	η<sub>a,i</sub>	0.005	ε<sub>r</sub>	0.02	-	-

通过数字仿真得到图4所示的多智能体轨迹曲线图，可以看出，通过本发明所提出的技术方案，得到了很好的多智能体同步控制结果。

请参见图5，图5是本发明实施例的硬件设备工作示意图，所述硬件设备具体包括：一种多智能体同步控制设备501、处理器502及存储设备503。

一种多智能体同步控制设备501：所述一种多智能体同步控制设备501实现所述一种多智能体同步控制方法。

处理器502：所述处理器502加载并执行所述存储设备503中的指令及数据用于实现所述一种多智能体同步控制方法。

存储设备503：所述存储设备503存储指令及数据；所述存储设备503用于实现所述一种多智能体同步控制方法。

本发明的有益效果是：本发明所提出的技术方案主要考虑更为实际的多智能体对象，即多智能体系统往往是非线性的甚至异构的，如编队无人机、无人驾驶汽车、以及协作多机械手等。而当前的技术研究大多数近似考虑系统为线性系统，显然这是严重偏离实际问题的研究。而且，这类系统在实际应用中是很难获得其精确的动力学模型。那么，以动力学模型为基础的现有控制方法在实际中很难实现。另外，在现有技术当中并未考虑控制系统的最优控制性能，所以本发明具有更高的控制品质。最后，当前技术主要集中于连续时间系统，但是这类系统的控制方法不利于应用数字计算机的控制。

因此，本发明所提出的技术方案针对离散时间非线性异构多智能体系统的无模型最优同步控制在本领域内属于首创，具有实际应用价值和高优越的控制品质，对解决当前领域的技术研究所存在问题具有重要意义。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多智能体同步控制方法，应用于多智能体同步控制系统中；所述一种多智能体同步控制系统包括：多个跟随者智能体和一个领导者智能体；其特征在于：所述一种多智能体同步控制方法，具体包括以下步骤：

上式中，

表示跟随者智能体i在t时刻对领导者智能体状态的估计，且

的初始值为预设值

表示观测网络的输入层到隐藏层的权值，为预设值；σ_bi(·)表示观测网络的激活函数，采用Hyperbolic Tangent函数，n为各跟随者智能体跟随领导者智能体同步运动的实际状态维数，h_bi为观测网络的隐藏层个数，根据实际情况预设；

上式中，

为跟随者智能体i在t+1时刻对领导者智能体状态的估计；

表示跟随者智能体i在t时刻的局部领域观测估计误差，为摄动信号；a_ij为所述多智能体同步控制系统的实际有向通信拓扑网络结构的邻接矩阵参数，b_i为所述多智能体同步控制系统的实际有向通信拓扑网络结构中领导者智能体通向智能体i的权重参数；i＝1,2,…,N，N表示跟随者智能体总个数，k_1,i∈R^n×n表示所述多智能体同步控制系统的实际有向通信拓扑网络结构中智能体i的增益，为预设值；x₀(t)为领导者智能体在t时刻的实际状态；

步骤S103中，采用BP神经网络逼近理想执行网络的输出，执行网络的具体公式如公式(3)所示：