CN114200830A

CN114200830A - 一种多智能体一致性强化学习控制方法

Info

Publication number: CN114200830A
Application number: CN202111333034.9A
Authority: CN
Inventors: 李金娜; 袁林
Original assignee: Liaoning Shihua University
Current assignee: Liaoning Shihua University
Priority date: 2021-11-11
Filing date: 2021-11-11
Publication date: 2022-03-18
Anticipated expiration: 2041-11-11
Also published as: CN114200830B

Abstract

本发明涉及一种多智能体一致性强化学习控制方法，包含如下步骤：由所述多智能体系统中领导者动力学模型，定义智能体i的第j个分量的局部邻居误差；通过式(3)得到智能体i的局部邻居误差系统方程；定义虚拟控制器；根据实际多智能体之间通信存在的时滞，构建公式；N个跟随者智能体根据自己的状态信息及其邻居智能体的信息来分别构建局部邻居误差动力学方程向量；设计分布式积分滑模控制器；设计分布式最优控制器。本发明将具有强鲁棒性的滑模控制和强化学习算法相结合，设计的分布式复合控制律不仅能使整个高阶多智能体系统抵抗外界扰动使系统具有很强的鲁棒性而且使整个多智能体系统具有自学习能力从而实现最优一致性。

Description

一种多智能体一致性强化学习控制方法

技术领域

本发明涉及一种多智能体一致性控制方法，特别是涉及一种多智能体一致性强化学习控制方法。

背景技术

由于分布式计算、传感器技术，以及通信技术的迅速发展，实际系统的每个单元都具有协同计算和处理复杂任务的能力。因此，多智能体系统应运而生。多智能体系统一致性问题是多智能系统研究中基本并且相当重要的问题，其主要任务是利用智能体之间的状态信息设计一致性控制协议，从而随着时间的推移使得所有智能体的状态相同。

在实际应用中，多智能系统的动力学模型不能完全准确的确定，系统多为非线性系统，并且含有干扰，智能体之间相互耦合，再加上智能体之间通信时滞的存在，使得多智能体系统一致性控制更加困难。滑模控制是一种鲁棒控制方法，其根本特点是可以针对系统的不确定性和受到外部扰动时系统具有良好的控制性能和强鲁棒性。强化学习是机器学习的子领域，其参照哺乳动物的学习机制，即智能体不断地通过与环境的交互改变其行为以实现累积奖励最大化。

现有多智能体一致性控制方法大多只考虑系统为一阶或者二阶的情形，然而实际有些场景要求多智能体系统具有很强的机动性，即要求多智能体系统实现高阶一致性。部分多智能体一致性控制方法未考虑智能体之间由于通信带宽有限而存在的时滞、外部干扰对多智能体系统一致性的影响，或者仅考虑的多智能体系统为线性多智能体，然而实际中绝大部分多智能体系统为非线性系统。

发明内容

针对现有的多智能体系统一致性控制方法存在的问题以及为了实现多智能体系统达到最优一致性，本发明的目的是提供一种多智能体一致性强化学习控制方法，该方法设计的分布式滑膜积分控制器不仅能抵抗外界扰动使系统具有强鲁棒性，而且使系统具有自学习能力从而实现最优一致性。

为了解决现有技术存在的问题，本发明采用以下技术方案：

一种基于滑模控制的多智能体一致性强化学习控制方法，所述多智能体系统中跟随者的模型为：

其中，

代表智能体i的第j阶的状态，f(x_i)为连续非线性函数，u_i(t)为控制输入，d_i(t)为未知干扰；

所述多智能体系统中领导者动力学方程为：

其中，

代表领导者的第j阶的状态，f(x₀)为连续非线性函数，d₀(t)为未知干扰；

N个跟随者智能体能够获取自身的各阶状态信息以及与其相连接的延迟时间τ的邻居智能体j的状态信息；

包括以下步骤：

步骤1：由所述多智能体系统模型，定义智能体i的第j个分量的局部邻居误差：

其中，a_ij为智能体i与智能体j之间的权重，b_i为智能体i与领导者的权重，∑为拓扑图中智能体j到智能体i的所有拓扑关系的总和；

步骤2：通过式(3)得到智能体i的局部邻居误差系统方程：

步骤3：定义虚拟控制器：V_i ^ι(t)＝f(x_i)+u_i(t) (5)

步骤4：根据实际多智能体之间通信存在的时滞，构建公式，定义如下：

其中，

为分布式最优控制器，

为分布式积分滑模控制器，

为智能体j具有时滞信息的虚拟控制器，τ为通信时滞；

步骤5：N个跟随者智能体根据自己的状态信息及其邻居智能体的信息来分别构建局部邻居误差动力学方程向量形式为:

其中，

δ_i(t)为智能体i的状态误差向量，

为智能体i的复合控制器，V_j ^ι(t)为关于智能体j的虚拟控制器，Δ_ij(t)＝∑a_ij(d_i(t)-d_j(t))+b_i(d_i(t)-d_j(t))；

步骤6：设计分布式积分滑模控制器；

步骤7：设计分布式最优控制器。

进一步地，所述步骤6设计分布式积分滑模控制器包括以下步骤：

步骤6.1：对所述分布式积分滑模控制器，选用积分滑模面为：

其中，δ_i为智能体i的状态误差向量，S_i(δ_i)为滑模函数，S_i0(δ_i)为关于δ_i(t)的函数，S_i0(δ₀)为常数，

步骤6.2：根据所选积分滑模面式(8)设计分布式积分滑模控制器为：

其中，β(0＜β＜1)为通信时滞系数，定义R_i(t)的导数：

σ₀(σ₀＞0)为常数，sgn(·)为符号函数，V_j ^ι(t)为关于智能体j的虚拟控制器，Δ_ij(t)＝∑a_ij(d_i(t)-d_j(t))+b_i(d_i(t)-d_j(t))；

所述步骤7设计分布式最优控制器包括以下步骤：

步骤7.1：当智能体达到滑模面时，设计式(10)的等效控制器为：

步骤7.2：智能体达到滑模面后，式(7)则为：

步骤7.3：提出如下性能指标：

其中，

γ_i为折扣因子，Q_i≥0为半正定矩阵，R_i＞0为正定矩阵；

步骤7.4：基于所提出的性能指标，定义其值函数为：

步骤7.5：根据最优控制理论，提出如下哈密尔顿函数：

有如下HJB方程：

步骤7.6：得到分布式最优控制器：

进一步地，所述HJB方程采用基于策略迭代强化学习算法的Actor-Critic神经网络求解，求解过程包括以下步骤：

所述值函数采用Critic神经网络逼近：

其中，

表示Critic神经网络估计权值，φ_i(δ_i)为神经网络激活函数；

所述分布式最优控制器采用Actor神经网络估计：

其中，

表示Actor神经网络估计权值，

为激活函数的导数；

所述Critic神经网络估计权值采用如下方程更新：

其中，

Q_i1为Critic神经网络的学习率；

所述Actor神经网络估计权值采用如下方程更新：

其中，

Q_i2为Actor神经网络的学习率，G_i1与G_i2为可调参数。

进一步地，所述分布式积分滑模控制器具有自适应学习能力，分布式积分滑模控制器的自适应学习算法，包括以下步骤：

S1：初始化；

S2：计算

S3：计算分布式滑模面：S_i(δ_i(t))；

S4：计算分布式积分滑模控制器：

S5：计算复合控制器：

S6：由式(6)计算V_i ^ι(t)；

S7：计算实际控制器：u_i(t)＝V_i ^ι(t)-f(x_i(t))；

S8：计算值函数：

S9：更新Critic神经网络权值；

S10：更新Actor神经网络权值；

S11：重复步骤S2-S10，直到

收敛。

优选地，所述步骤S1初始化包括：初始化领导者的状态x₀(0)与跟随者的状态x_i(0)，令

并且初始化Critic神经网络权值

和Actor神经网络权值

优选地，所述步骤S2是通过式(19)计算

优选地，所述步骤S3是通过式(8)计算分布式滑模面S_i(δ_i(t))。

优选地，所述步骤S4是通过式(10)计算分布式积分滑模控制器

优选地，所述步骤S9是通过式(20)更新Critic神经网络权值。

优选地，所述步骤S10是通过式(21)更新Actor神经网络权值。

本发明所具有的优点与有益效果是：

本发明一种多智能体一致性强化学习控制方法，该方法通过将虚拟控制器和复合控制器相结合来设计分布式滑模控制器，设计的分布式滑膜积分控制器不仅能抵抗外界扰动使系统具有强鲁棒性而且使系统具有自学习能力从而实现最优一致性。

本发明方法针对带有模型不确定性和外部干扰以及含有通信时滞的高阶多智能体系统，首次提出考虑智能体通信时滞的包含邻居智能体信息的滑模面设计方法，设计了分布式滑模面，去除了每个智能体的不确定性，使得系统具有很强的鲁棒性。同时，在设计分布式滑模面时，考虑了智能体邻居节点的各阶状态信息，提升了整个多智能体系统的抗扰性能。由于滑模面的设计是基于强化学习求解的最优控制器，使得所有智能体均能够通过近似最优的方法跟随领导者且具有很好的鲁棒性。在设计控制律时为基于高阶多智能体系统设计的并且考虑了智能体之间的通信时滞对多智能体系统一致性的影响，因此本发明还能够满足在时滞的情况下的高阶一致性。

附图说明

下面结合附图对本发明具体方法、实现过程，以及实现效果做作进一步的说明，

图中：

图1为本发明一种多智能体一致性强化学习控制方法的框架图；

图2为多智能体系统第一阶状态跟踪图；

图3为多智能体系统第二阶状态跟踪图；

图4为Critic神经网络权值收敛图；

图5为Actor神经网络权值收敛图；

图6为分布式积分滑模控制器自适应学习算法流程图。

具体实施方式

为了更好的解释本发明，以便于理解，下面结合附图所示实施例对本发明具体实施方式进行详细说明。

如图1所示，本发明一种多智能体一致性强化学习控制方法，包括以下步骤：

其中，所述多智能体中跟随者动态模型为：

其中，

代表智能体i的第j阶的状态，f(x_i)为连续非线性函数，u_i(t)为控制输入，d_i(t)为未知干扰。

所述多智能体系统中领导者动力学方程为：

其中，

代表领导者的第j阶的状态，f(x₀)为连续非线性函数，d₀(t)为未知干扰。

步骤1：由所述多智能体动力学模型，定义智能体i的第j个分量的局部邻居误差：

其中，a_ij为智能体i与智能体j之间的权重，b_i为智能体i与领导者之间的权重，∑为拓扑图中智能体j到智能体i的所有拓扑关系的总和。

步骤2：根据式(3)第j个分量的局部邻居误差方程可得智能体i的局部邻居误差系统方程：

步骤3：定义虚拟控制器：V_i ^ι(t)＝f(x_i)+u_i(t) (5)

步骤4：构建公式，该公式考虑到实际多智能体之间通信存在的时滞，定义如下：

其中，复合控制器

为分布式最优控制器，

为分布式积分滑模控制器，

为智能体j具有时滞信息的虚拟控制器，τ为通信时滞；

步骤5：所述N个智能体(跟随者)根据自己的状态信息及其邻居智能体的信息来分别构建局部邻居误差动力学方程向量形式为：

其中，

δ_i(t)为智能体i的状态误差向量，

为复合控制律，V_j ^ι(t)为关于智能体j的虚拟控制器，Δ_ij(t)＝∑a_ij(d_i(t)-d_j(t))+b_i(d_i(t)-d_j(t))。

步骤6：设计分布式积分滑模控制器，包括以下步骤：

步骤6.1：选用积分滑模面为：

步骤6.2：对选用的积分滑模面求导为：

步骤6.3：根据所选积分滑模面式(8)设计相应的分布式积分滑模控制器为：

其中，β(0＜β＜1)为通信时滞系数，定义R_i(t)的导数：

σ₀(σ₀＞0)为常数，sgn(·)为符号函数，V_j ^ι(t)为关于智能体j的虚拟控制器，Δ_ij(t)＝∑a_ij(d_i(t)-d_j(t))+b_i(d_i(t)-d_j(t))。

步骤7：设计分布式最优控制器，包括以下步骤：

步骤7.1：根据式(10)，当智能体达到滑模面时，其等效控制器为：

步骤7.2：相应地，智能体达到滑模面后，其误差动力学方程则为：

步骤7.3：为了实现所述多智能体系统实现最优一致性，提出如下性能指标：

其中，

γ_i为折扣因子，Q_i≥0为半正定矩阵，R_i≥0为正定矩阵。

步骤7.4：基于所提出的性能指标，定义其值函数为：

步骤7.5：根据最优控制理论，提出如下哈密尔顿函数：

有如下Hamilton-Jacobi-Bellman(HJB)方程：

步骤7.6：由此，得到分布式最优控制器：

根据所述最优控制器可知，欲得到最优的控制协议，需要先求解HJB方程。以下，采用基于策略迭代强化学习算法的Actor-Critic神经网络求解HJB方程，包括以下步骤：

所述值函数采用Critic神经网络逼近：

其中，

表示Critic神经网络估计权值，φ_i(δ_i)为神经网络激活函数。

所述最优控制律采用Actor神经网络估计：

其中，

表示Actor神经网络估计权值，

为激活函数的导数。

所述Critic神经网络估计权值采用如下方程更新：

其中，

Q_i1为Critic神经网络的学习率。

所述Actor神经网络估计权值采用如下方程更新：

其中，

为Actor神经网络的学习率，G_i1与G_i2为可调参数。

如图6所示，所述分布式积分滑模控制器具有自适应学习能力，由于所述分布式积分滑模控制器自适应学习算法的学习目标是得到最优控制协议：

因此所述分布式积分滑模控制器自适应学习算法，包括以下步骤：

S1：初始化：初始化领导者的状态x₀(0)与跟随者的状态x_i(0)，令V_j ^ι(-τ)＝0，并且初始化Critic神经网络权值

和Actor神经网络权值

S2：由式(19)计算

S3：由式(8)计算分布式滑模面：S_i(δ_i(t))；

S4：由式(10)计算分布式滑模控制器：

S5：计算复合控制器：

S6：由式(6)计算V_i ^ι(t)；

S7：计算实际控制器：u_i(t)＝V_i ^ι(t)-f(x_i(t))；

S8：计算值函数：

S9：由式(20)更新Critic神经网络权值；

S10：由式(21)更新Actor神经网络权值；

S11：重复步骤S1-S10，直到

收敛。

实施例1：

为了更加直观的展示本发明所提出的多智能体一致性强化学习控制方法的有效性，采用MATLAB软件对本发明提出的方法进行仿真实验。

跟随者为带有外部干扰的二阶非线性状态方程：

其中，i＝1，2，3，4，d_i(t)＝2sin(t)+2，

领导者的状态方程为：

其中，

d₀(t)＝cos(t)。

根据实施案例1得到如图2-图5所示的仿真图。图2是多智能体系统第一阶状态跟踪曲线图，图3是多智能体系统第二阶状态跟踪曲线图，从图2和图3可以看出本发明提出的多智能体系统能够在很短的时间内很好的跟上领导者的运动轨迹。图4为Critic神经网络权值收敛曲线图，图5是Actor神经网络权值收敛曲线图。从图2-图5中可以看出当权值逐渐收敛于稳定值时，系统的状态也趋于一致，收敛速度较快，同时由于所述实施例为非线性含干扰的系统，从仿真曲线可以看出本发明提出的方法具有很好的鲁棒性。