CN108803349A

CN108803349A - 非线性多智能体系统的最优一致性控制方法及系统

Info

Publication number: CN108803349A
Application number: CN201810917939.2A
Authority: CN
Inventors: 陈鑫; 符浩
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2018-08-13
Filing date: 2018-08-13
Publication date: 2018-11-13
Anticipated expiration: 2038-08-13
Also published as: CN108803349B

Abstract

本发明公开了一种非线性多智能体系统的最优一致性控制方法及系统，先根据异构多智能体系统各个体动力学特性，建立参考行为模型，采用领导者—跟随者的控制模式，形成以参考行为模型为个体组成的多智能体系统；然后根据多智能体的网络拓扑结构，构建动态图型博弈全局误差动力学模型，定义多智能体局部性能指标函数，根据全局纳什均衡，可得贝尔曼最优方程；再在仅利用智能体局部信息条件下，采用基于值函数逼近的执行—评价执行网络框架的方式，在线迭代学习获得最优一致性协议，实现各参考模型行为的一致性。本发明相对现有技术，在保证最优控制性能下，能够高效地解决复杂多智能体系统的一致性问题，更具有实际应用价值和高强的可扩展性。

Description

非线性多智能体系统的最优一致性控制方法及系统

技术领域

本发明涉及多智能体控制技术领域，尤其涉及复杂非线性多智能系统的最优一致性控制方法及系统。

背景技术

近年来，多智能体系统分布式协同问题引起了广大学者们的关注，其中主要涉及无人机、电力系统、分布式传感器、多机器人生产线、电磁管理等领域。最优一致性控制问题又是多智能体协同控制中一个热门，并具有挑战性的主题，也是复杂系统研究中的一个极其重要的方向。

一致性问题是多智能体系统研究中的一类基本问题。在实际工程应用中，根据性能要求和任务种类等因素和个体设计控制规则，通过个体间的互相协调，保证各个体的某个物理量达到相同，比如飞行器追踪的目标、编队控制中的队形或者集会问题中的目的地等。或者说一致性使得系统中每个个体都能随着时间的推移而最终趋于一个共同的状态。多智能体的最优一致性不仅保证各智能体行为的一致性要求，而且可以实现具体的最优性能指标要求。这将有效实现多智能设备之间协同，并保证控制过程中协调性能得到优化，推动复杂大规模系统控制的向前发展，并为工业、农业、国防军事等方面的多智能体设备提供更高效的技术支持。

在实际中，系统往往表现为复杂非线性，且存在各种扰动。由于实际情况复杂，难以对系统建立准确的动力学模型。另外，多智能体各个体结构不统一，即异构多智能体。目前多智能体最优一致性控制研究主要局限于已知积分器或线性系统的研究。然而，对复杂非线性系统的研究相对较少，特别是未知系统模型的情况下。因此，本发明充分考虑实际研究问题，提出一种可应用于存在干扰下未知模型非线性多智能体系统的最优一致性控制方法。对于多智能体最优一致性问题，通常根据多智能体网络的拓扑结构，构建由耦合HJB方程，并求解该方程以获得最优控制率。然而，由于系统模型是未知非线性的，且各个智能体动力学模型不一致，无法采用传统的求解方式获得耦合HJB方程解析解。

发明内容

针对现有技术中存在的问题，本发明提出了一种分层分布式控制架构，即下层模型参考自适应控制，上层分布式协同控制，结合模型参考自适应控制与自适应动态规划方法，先采用执行评价网络架构实现以参考模型为个体的多智能体系统最优一致性，然后通过智能体状态对参考模型行为的逼近，进而实现各智能体状态的一致。

为实现上述目的，本发明提供的非线性多智能系统的最优一致性控制方法及系统包括：

S1、根据异构多智能体系统各个体动力学特性，建立参考行为模型，采用领导者—跟随者的控制模式，形成以参考行为模型为个体组成的多智能体系统；

S2、根据多智能体系统的网络拓扑结构，构建动态图型博弈全局误差动力学模型，然后在动态图型博弈全局误差动力学模型基础上，根据全局纳什均衡和贝尔曼最优原理对多智能体局部性能指标函数，得到耦合HJB方程；

S3、在仅利用邻近智能体局部信息条件下，根据所述耦合HJB方程，采用基于值函数逼近的执行—评价执行网络框架的方式，分别对评价网络和执行网络进行逼近，在线迭代学习获得最优一致性协议，分别求得最优一致性协议逼近值，然后根据最优一致性协议逼近值对非线性多智能体系统进行一致性控制。

进一步地，在本发明的非线性多智能系统的最优一致性控制方法及系统中，针对未知模型智能体系统，采用递归神经网络的方式设计辨识器，对系统进行辨识

进一步地，在本发明的非线性多智能系统的最优一致性控制方法及系统中，根据参考行为模型，形成机器人与参考模型的状态误差空间，并利用辨识器获得机器人系统灵敏度函数逼近值，采用直接递归神经网络的模型参考自适应控制方法，实现机器人状态对参考行为的逼近。

相比于现有技术，本发明具有如下有益效果：

与现有技术中多智能体系统最优一致性控制相比，本发明主要考虑了复杂工况下的多智能系统协同控制问题，如多智能体表现为异构，个体动力学为未知模型非线性系统，考虑了系统存在着外在干扰的影响。通过采用分层分布式架构，更易于保证整个系统控制的可靠性、灵活性。在下层控制中，所采用直接递归神经网络的模型参考自适应控制方法对外界干扰具有更强的鲁棒性能。在上层控制中，所采用的基于在线值函数逼近的执行—评价网络架构可以在线前向实现求得逼近最优一致性协议。因此，本发明相对现有技术，在保证最优控制性能下，能够高效地解决复杂多智能体系统的一致性问题，更具有实际应用价值和高强的可扩展性。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1为本发明的非线性多智能体系统的最优一致性控制方法的流程图；

图2为本发明的所提出基于模型参考自适应控制与自适应动态规划的分层分布式最优一致性控制总图；

图3为本发明所设计的基于在线值函数逼近的多智能体一致性执行—评价网络架构图；

图4为本发明所提出直接递归神经网络的模型参考自适应控制结构图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

针对现有技术中存在的问题，本发明提出了一种分层分布式控制架构，即下层模型参考自适应控制，上层分布式协同控；充分结合了模型参考自适应控制与自适应动态规划方法，先采用执行评价网络架构实现以参考模型为个体的多智能体系统最优一致性，然后通过智能体状态对参考模型行为的逼近，进而实现各智能体状态的一致。

参考图1-图2，本发明的非线性多智能体系统的最优一致性控制方法包括如下步骤：

S1、由于各参考模型动力学模型已知，且表现为线性系统，通过采用各智能体个体行为逼近参考模型行为的方式可大大简化了未知非线性系统的最优一致性控制问题。根据由N个异构个体组成多智能体系统各个体动力学特性，建立参考行为模型x_mi(k+1)＝Ax_mi(k)+B_iu_mi(k)，其中x_mi(k)表示参考模型状态，u_mi(k)表示参考输入，A和B_i表示系数矩阵，下标i＝1、2、…、N表示第i个智能体。因为在多智能体一致性控制中领导者—跟随者控制模式简单可靠，所以本发明采用该种控制模式。定义领导者模型x₀(k+1)＝Ax₀(k)，形成以参考行为模型与领导者为个体组成的多智能体系统，其中系数矩阵A的大小由各智能体动力学特性和领导者轨迹而确定，x₀(k)表示领导者的状态。

S2、本步骤主要根据参考模型以及其构成网络的拓扑结构，获得最优化的耦合HJB方程，以便于下一步求解HJB方程并得到最优控制策略。以各参考模型为个体的多智能体网络同原多智能体网络的拓扑结构相同。所以，根据原多智能体网络拓扑结构和参考模型，构建动态图型博弈全局误差动力学模型e_i(k)表示参考模型局部邻域跟踪误差状态，a_ij表示为跟随者邻接矩阵对应的元素、d_i表示为入度的对角元素和b_i表示为领导者邻接矩阵对应的对角元素，u_mi(k)表示参考模型的控制输入，u_mj(k)表示第j个参考模型的控制输入，是智能体i的临近智能体集。当e_i(k)即收敛于0时，多智能体将实现各状态的一致性。

定义多智能体局部性能指标函数：作为智能体i最优目标函数，其中α为折扣因子，u_(mj)(k)为邻近智能体参考模型输入，r_i(e_i(k),u_mi(k),u_(mj)(k))表示智能体i的效用函数函数(以下均用r_i(·)表示)。根据全局纳什均衡和贝尔曼最优原理，可得耦合HJB方程：

其中，e_i(k)为智能体i局部邻域跟踪误差，u_mi(k)为智能体i参考模型的控制输入，u_(mj)(k)为当前智能体邻近智能体参考模型的控制输入，α为折扣因子，智能体i最优性能指标函数。

S3、由于难以获得步骤S2中耦合HJB方程的解析解，本步骤采用一种自适应动态规划方法在线前向逼近其最优值函数，从而获得最优控制。在仅利用邻近智能体参考模型局部信息条件下，根据步骤S2中耦合HJB方程，采用基于值函数逼近的执行—评价执行网络框架的方式，分别对评价网络和执行网络进行逼近(BP神经网络具有万能逼近的能力)，如图3所示。

在评价网络中，为逼近值函数采用BP神经网络

其中，σ(·)为激活函数，W_ci(k)和V_ci(k)表示为评价网络的权值，表示的估计值。

评价网络估计误差函数为：

采用梯度下降法更新评价网络权值：

W_ci(k+1)＝W_ci(k)+η_cie_ci(k)σ_ci(k)，

其中η_ci表示学习率。

在执行网络中，评价网络输出表示为：

其中，W_ai(k)和V_ai(k)表示为执行网络的权值。

定义执行网络误差函数为：

其中，R_ii为正定对称权值矩阵，σ'_ci(k)表示为σ_ci(k)关于的偏导数。

采用梯度下降法更新执行网络权值：

其中，η_ai表示为执行网络学习率。

通过这种在线迭代的方式，可求得最优一致性协议逼近值，进而根据求得最优一致性协议逼近值对非线性多智能体系统进行控制，从而实现各参考模型行为的一致性。

由于系统为未知非线性多智能体系统，需要对各个体进行系统辨识。针对未知模型多智能体系统，采用递归神经网络的方式设计辨识器，对系统进行辨识。根据神经网络的万能逼近原理，设计卷积神经网络辨识器：

其中，表示辨识器对智能体i状态x_i(k)的估计值，u_i(k)表示智能体i的控制输入，W_Ii(k)、V_Ii(k)和V_IDi(k)表示为辨识器的权值。

为实现对未知模型的辨识，采用梯度下降法更新辨识器权值

其中，σ'_Ii(k)表示为σ_Ii(k)关于偏的导数，η_Ii、η_Ivi和η_IDi表示学习率，为辨识误差。

这样即可实现对未知非线性个体的模型辨识，以进一步实现多智能体各个体对参考模型行为的逼近，从而实现多智能体系统行为的一致。

由于通过步骤S1-S3，参考模型行为实现了与领导者同步，若在模型已辨识下各智能体行为逼近各自参考模型即可实现多智能体行为的一致性。根据参考行为模型，形成多智能体个体与参考模型的状态误差空间，并利用辨识器获得多智能体个体灵敏度函数逼近值，采用直接递归神经网络的模型参考自适应控制方法，实现多智能体个体状态对参考行为的逼近，如图4所示。

直接递归神经网络控制率表示为

其中，W_ci(k)、V_ci(k)和V_cDi(k)表示为控制器的权值，

为实现对自适应的模型参考自适应控制，采用梯度下降法更新控制器权值

其中η_cwi、η_cvi和η_cDi表示学习率，x_ui(k)为系统灵敏度函数，σ'_ci(k)表示为σ_ci(k)关于的偏导数，为辨识误差。

由于系统模型是未知的，这里通过辨识器近似处理

通过采用直接递归神经网络的模型参考自适应控制方法，实现机器人状态对参考行为的逼近，进而在最优性能指标下实现机器人状态的一致性。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种非线性多智能体系统的最优一致性控制方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的非线性多智能体系统的最优一致性控制方法，其特征在于，步骤S1的具体实现方法包括如下步骤：

根据由N个异构个体组成多智能体系统各个体动力学特性，建立参考行为模型x_mi(k+1)＝Ax_mi(k)+B_iu_mi(k)，其中x_mi(k)表示参考模型状态，u_mi(k)表示参考输入，A和B_i表示系数矩阵，下标i＝1、2、…、N表示第i个智能体；

其中，领导者模型为x₀(k+1)＝Ax₀(k)，以形成以参考行为模型与领导者为个体组成的多智能体系统，其中系数矩阵A的大小由各智能体动力学特性和领导者轨迹而确定，x₀(k)表示领导者的状态，k表示第k个状态。

3.根据权利要求2所述的非线性多智能体系统的最优一致性控制方法，其特征在于，步骤S1的具体实现方法包括如下步骤：

构建动态图型博弈全局误差动力学模型：

其中，e_i(k)表示参考模型局部邻域跟踪误差状态，a_ij表示为跟随者邻接矩阵对应的元素、d_i表示为入度的对角元素和b_i表示为领导者邻接矩阵对应的对角元素，u_mi(k)表示参考模型的控制输入，u_mj(k)表示第j个参考模型的控制输入，是智能体i的临近智能体集；

多智能体局部性能指标函数为：

作为智能体i最优目标函数，其中α为折扣因子，u_(mj)(k)为邻近智能体参考模型输入，r_i(e_i(k),u_mi(k),u_(mj)(k))表示智能体i的效用函数函数；

根据全局纳什均衡和贝尔曼最优原理，可得耦合HJB方程：

4.根据权利要求1所述的非线性多智能体系统的最优一致性控制方法，其特征在于，步骤S3中，对评价网络进行逼近，求得最优一致性协议逼近值过程中：

为逼近值函数采用BP神经网络进行逼近：

其中σ(·)为激活函数，W_ci(k)和V_ci(k)表示为评价网络的权值，表示函数的估计函数；

评价网络估计误差函数为：

采用梯度下降法更新评价网络权值

W_ci(k+1)＝W_ci(k)+η_cie_ci(k)σ_ci(k)；

其中，η_ci表示学习率。

5.根据权利要求1所述的非线性多智能体系统的最优一致性控制方法，其特征在于，步骤S3中，对执行网络进行逼近，求得最优一致性协议逼近值过程中：

评价网络输出u_mi(k)为：

其中，W_ai(k)和V_ai(k)表示为执行网络的权值；

执行网络误差函数为：

其中，R_ii为正定对称权值矩阵，σ'_ci(k)表示为σ_ci(k)关于的偏导数；

采用梯度下降法更新执行网络权值：

其中，η_ai表示为执行网络学习率。

6.根据权利要求1所述的非线性多智能体系统的最优一致性控制方法，其特征在于，还包括：针对未知模型多智能体系统，采用递归神经网络的方式设计辨识器，对系统进行辨识。

7.根据权利要求6所述的非线性多智能体系统的最优一致性控制方法，其特征在于，所述针对未知模型多智能体系统，采用递归神经网络的方式设计辨识器，对系统进行辨识的具体实现方法包括：

根据神经网络的万能逼近原理，设计卷积神经网络辨识器：

其中，表示辨识器对智能体i状态x_i(k)的估计值，u_i(k)表示智能体i的控制输入，W_Ii(k)、V_Ii(k)和V_IDi(k)表示为辨识器的权值，k代表第k个状态；

为实现对未知模型的辨识，采用梯度下降法更新辨识器权值：

8.根据权利要求6所述的非线性多智能体系统的最优一致性控制方法，其特征在于，还包括：

根据参考行为模型，形成机器人与参考模型的状态误差空间，并利用辨识器获得机器人系统灵敏度函数逼近值，采用直接递归神经网络的模型参考自适应控制方法，实现机器人状态对参考行为的逼近。

9.根据权利要求8所述的非线性多智能体系统的最优一致性控制方法，其特征在于，所述根据参考行为模型，形成机器人与参考模型的状态误差空间，并利用辨识器获得机器人系统灵敏度函数逼近值，采用直接递归神经网络的模型参考自适应控制方法，实现机器人状态对参考行为的逼近的具体实现方法包括：

直接递归神经网络控制率表示为：

其中，W_ci(k)、V_ci(k)和V_cDi(k)表示为控制器的权值，

为实现对自适应的模型参考自适应控制，采用梯度下降法更新控制器权值：

其中，η_cwi、η_cvi和η_cDi表示学习率，x_ui(k)为系统灵敏度函数，σ'_ci(k)表示为σ_ci(k)关于的偏导数，为辨识误差，

10.一种非线性多智能体系统的最优一致性控制系统，其特征在于，采用如权利要求1-9任一项所述非线性多智能体系统的最优一致性控制方法进行非线性多智能体系统的最优一致性控制。