CN114063438B

CN114063438B - 一种数据驱动的多智能体系统pid控制协议自学习方法

Info

Publication number: CN114063438B
Application number: CN202111337080.6A
Authority: CN
Inventors: 李金娜; 王佳琦
Original assignee: Liaoning Shihua University
Current assignee: Liaoning Shihua University
Priority date: 2021-11-12
Filing date: 2021-11-12
Publication date: 2023-09-22
Anticipated expiration: 2041-11-12
Also published as: CN114063438A

Abstract

本发明公布了一种数据驱动的多智能体系统PID控制协议自学习方法，本发明针对PID控制的多智能体系统，提出最优一致性问题；将求解基于PID控制的控制协议参数转化为求解一个非零和博弈问题，提出了一种非策略Q学习算法，实现PID控制协议参数在线自学习以及多智能体系统的最优一致性；将强化学习(RL)技术和神经网络函数估计方法相结合，不要求智能体系统动态已知，完全利用可测量数据自学习PID控制协议参数。本发明方法不需要知道多智能体系统的动力学模型，就能使所有智能体达到一致状态，即达到一致性，同时能保证多智能体规定性能的最优性。

Description

一种数据驱动的多智能体系统PID控制协议自学习方法

技术领域

本发明涉及控制器，具体涉及一种数据驱动的多智能体系统PID控制协议自学习方法。

背景技术

多智能体的一致性一直是复杂动力系统的关键问题之一，指的是分布在网络中的所有智能体能渐进地达到相同的状态。虽然已有关于多智能体系统的一致性或最优一致性的研究成果，但是这些方法主要是利用系统的“当前”信息来设计一致性或同步协议。从而呈现出有前景的新研究课题，即不仅是“现在”信息，还可以是“过去”信息甚至“未来”趋势。

PID控制器可以很好地利用跟踪误差的过去值、现在值和未来趋势，以期获得良好的瞬态，并且性能稳定。现有的基于PID的多智能体系统一致性问题的结果一般是利用基于模型的控制理论得出的，但是复杂动力系统的不确定性、大规模尺度和变量间的耦合使得精确系统模型的构建越来越困难，这促使我们开展基于数据驱动(DD)PID的多智能体系统一致性研究。而众所周知的Ziegler-Nichols方法和Chien-Hrones-Reswick方法可以利用测试数据对简单的线性未知系统很好地工作，但由于缺乏对不确定动态系统的自适应能力，它们很难保持良好的控制性能和稳定性。因此，基于一次性实验数据的DD PID控制、迭代学习控制与极值寻优、粒子群优化与线性二次调节器、自适应更新规则得到了相当多的关注。这些方法为DD PID的研究奠定了坚实的基础。但现有数据驱动的多智能体系统PID一致性控制协议设计方法仍缺乏自学习的能力，强化学习具有与未知环境交换自主学习优化系统性能的控制策略的能力。

据我们所知，针对多智能体系统最优一致性问题，如何采用强化学习技术，设计数据驱动的PID控制协议参数仍然是一个悬而未决的问题。如果要设计使所有智能体达到一致性的DD PID自学习控制协议，就必须解决PID控制中未知的智能体模型、智能体之间的耦合关系以及PID控制所具有的多控制参数所带来的棘手挑战。

发明内容

针对无模型PID多智能体系统一致性的问题，本发明提供了一种数据驱动的多智能体系统PID控制协议自学习方法，该方法不需要知道多智能体系统的动力学模型，就能使所有智能体达到一致状态，即达到一致性，同时能保证多智能体规定性能的最优性。

为了解决现有技术存在的问题，本发明采用以下技术方案：

本发明一种数据驱动的多智能体系统PID控制协议自学习方法，所述多智能体系统为：

x_i(k+1)＝Ax_i(k)+Bu_i(k) (1)

其中x_i(k)∈Rⁿ,u_i(k)∈R^r(i＝1,…,N)是智能体i的状态向量和控制输入，对所有的智能体i，k∈V，A∈R^n×n,B∈R^n×p；

由所述多智能体动力学模型，定义智能体i的局部邻居误差：

其中e_ij是多智能体的边权；

智能体i在k+1时刻的局部邻居误差δ_i(k+1)的动力学方程表示如下：

包括以下步骤：

S1：构建PID控制协议：

u_i(z)＝C_i(z)δ_i(z) (4)

其中：

K_i,p、K_i,i、K_i,d分别为比例控制增益、积分控制增益和微分控制增益；z为被控输出，C_i(z)为离散时间的PID控制器；C_i(z)的状态空间实现写为：

其中x_i,c(k)∈R^2r是对应于智能体i的PID控制器的动力学状态：

C_c＝[I_r I_r],D_c＝K_i,p+K_i,i+K_i,d

I_r为r×r的单位矩阵；

S2：将PID控制协议(6)应用于系统(3)产生以下闭环系统：

其中x_j,c(k)是对应于智能体j的PID控制器的动力学状态，δ_j(k)为智能体j的邻居误差，D_j,c是对应智能体j时的PID三个参数之和；

S3：令结合(6)和(7)得到增广形式：

得到：

其中：

分别是对应智能体j时的量；

S4：设计最优控制协议使如下性能指标最小：

其中Q_i≥0,R_i≥0(i＝1,2,…N)是对称加权矩阵，T表示转置；

S5：对应(12)式的值函数写为：

S6：提出如下Hamilton-Jacobi-Bellman(HJB)方程：

S7：得到Q函数的HJB方程：

S8：得到最优控制协议：

S9：寻找最优权矩阵W_i ^*。

进一步地，所述Q函数的HJB方程采用基于策略迭代的强化学习算法，求解非零和博弈的Nash均衡解，求解过程包括以下步骤：

①初始化：选择任意允许的控制协议

②策略评估：对所有智能体的矩阵W_i ^j+1进行如下步骤：

③智能体进行策略更新：

④||W_i ^j+1-W_i ^j||≤ε时停止循环，否则回到第②步；

其中，是局部邻居误差和控制器状态的增广形式，Q_i≥0,R_i≥0(i＝1,2,…N)是对称加权矩阵，/>是矩阵W_i ^j+1里的分量。

进一步地，所述步骤S9寻找最优权矩阵W_i ^*，包括以下步骤：

1)用如下神经网络估计Q函数：

其中，γ_i表示矩阵W_i的分量；

2)基于Kronecker乘积，有：

其中，ω_ci＝vec(W_i)，表示Kronecker乘积；

3)令γ_i,22＝γ_i,23＝γ_i,32＝0，得到控制协议：

4)推导出以下Critic神经网络的误差：

其中：

j是自然数，表示迭代指标；

5)所述Critic神经网络估计权值采用如下方程更新：

其中l_c表示学习率。

进一步地，所述步骤5)采用基于DD PID一致性控制协议自学习算法求解，找到最优权矩阵W_i ^*，包括以下步骤：

⑴初始化：

⑵循环迭代，包括以下步骤：

①从每个智能体给定的初始状态开始：

a.计算所有智能体的控制策略

b.收集数据

②Critic神经网络权重更新规则：

c.

d.控制策略的参数更新

e.更新PID控制器参数

⑶结束循环，否则进行j＝j+1的迭代并返回步骤⑵。

优选地，所述初始化包括：设置初始Critic权重和初始控制策略/>计算初始PID控制器参数/>迭代指数j＝0。

优选地，采用式(11)和(23)计算初始PID控制器参数

优选地，所述步骤a利用式(22)计算所有智能体的控制策略

优选地，所述步骤b利用公式收集数据/>

本发明所具有的优点和有益效果是：

本发明一种数据驱动的多智能体系统PID控制协议自学习方法，通过主动与未知环境交互来更新控制协议参数，保证了多智能体系统的一致性和性能优化。本发明针对PID控制的多智能体系统，提出最优一致性问题；将求解基于PID控制的控制协议参数转化为求解一个非零和博弈问题，提出了一种非策略Q学习算法，实现PID控制协议参数在线自学习以及多智能体系统的最优一致性；将强化学习(RL)技术和神经网络函数估计方法相结合，不要求智能体系统动态已知，完全利用可测量数据自学习PID控制协议参数。本发明方法不需要知道多智能体系统的动力学模型，就能使所有智能体达到一致状态，即达到一致性，同时能保证多智能体规定性能的最优性。

附图说明

下面结合附图对本发明作进一步详述：

图1为通信拓扑图；

图2为PID控制智能体1Critic权值变化轨迹；

图3为PID控制智能体2Critic权值变化轨迹；

图4为PID控制智能体3Critic权值变化轨迹；

图5为PID控制智能体4Critic权值变化轨迹；

图6为PI控制智能体1Critic权值变化轨迹；

图7为PI控制智能体2Critic权值变化轨迹；

图8为PI控制智能体3Critic权值变化轨迹；

图9为PI控制智能体4Critic权值变化轨迹；

图10为PID控制局部邻居误差变化轨迹；

图11为PI控制局部邻居误差变化轨迹；

图12为PID控制系统状态变化轨迹；

图13为PI控制系统状态变化轨迹；

图14为本发明方法流程图；

图15为基于策略迭代的强化学习算法求解非零和博弈的Nash均衡解流程图；

图16为基于DD PID一致性控制协议自学习算法求解，找到最优权矩阵W_i ^*流程图。

具体实施方式

下面结合具体实施例对本发明进行进一步详细说明，但本发明的保护范围不受具体的实施例所限制，以权利要求书为准。另外，以不违背本发明技术方案的前提下，对本发明所作的本领域普通技术人员容易实现的任何改动或改变都将落入本发明的权利要求范围内。

本发明一种数据驱动的多智能体系统PID控制协议自学习方法，所针对的多智能体系统为：

x_i(k+1)＝Ax_i(k)+Bu_i(k) (1)

其中x_i(k)∈Rⁿ,u_i(k)∈R^r(i＝1,…,N)是智能体i的状态向量和控制输入，此外，对所有的智能体i，k∈V，A∈R^n×n,B∈R^n×p。

由所述多智能体动力学模型，定义智能体i的局部邻居误差：

其中e_ij是多智能体的边权；

智能体i在k+1时刻的局部邻居误差δ_i(k+1)的动力学方程可以表示如下：

其中，带节点N的有向简单图可以表示为V＝{1,…,N}是有限的非空节点集，A＝{(i,j):i,j∈V,j≠i}是边的集合，E＝[e_ij]∈R^N×N是描述边权的矩阵，节点i的邻居记为N_i＝{j∈V:(j,i)∈A}。拉普拉斯矩阵可定义为L＝D-E，其中D＝diag{d₁,…,d_N}∈R^N×N为/>的入度矩阵。

如图14所示，本发明一种数据驱动的多智能体系统PID控制协议自学习方法包括以下步骤：

S1：构建PID控制协议：

u_i(z)＝C_i(z)δ_i(z) (4)

其中：

K_i,p、K_i,i、K_i,d分别为比例控制增益、积分控制增益和微分控制增益。z为被控输出，C_i(z)为离散时间的PID控制器。此外，C_i(z)的状态空间实现写为：

其中：x_i,c(k)∈R^2r是对应于智能体i的PID控制器的动力学状态：

C_c＝[I_r I_r],D_c＝K_i,p+K_i,i+K_i,d

I_r为r×r的单位矩阵。

S2：将PID控制协议(6)应用于系统(3)产生以下闭环系统：

其中：x_j,c(k)是对应于智能体j的PID控制器的动力学状态，δ_j(k)为智能体j的邻居误差，D_j,c是对应智能体j时的PID三个参数之和。

S3：令结合(6)和(7)得到增广形式：

其中：

分别是对应智能体j时的量。

因此，多智能体系统的一致性问题可以转化为求解一个非零和博弈问题。即：S4设计最优控制协议使如下性能指标最小：

其中Q_i≥0,R_i≥0(i＝1,2,…N)是对称加权矩阵。T表示转置。

如果以上问题的解，即可以使得状态/>渐近稳定并基于博弈论和李雅普诺夫理论最小化性能指标，那么它们肯定保证了(3)和(6)的渐近稳定性，从而获得所有智能体的一致性。

S5：根据强化学习技术，对应(12)式的值函数可写为：

S6：基于动态规划理论，提出如下Hamilton-Jacobi-Bellman(HJB)方程：

S7：利用价值函数和Q函数之间的关系，得到Q函数的HJB方程：

S8：得到最优控制协议：

S9：寻找最优权矩阵W_i ^*。

根据式(12)所示，说明了序列是所有智能体的非零和博弈的纳什均衡解，并保证了局部邻域误差δ_i(k)的渐近稳定性，以及多智能体系统的一致性。

如图15所示，所述Q函数的HJB方程采用基于策略迭代的强化学习算法，求解非零和博弈的Nash均衡解，求解过程包括以下步骤：

①初始化：选择任意允许的控制协议

②策略评估：对所有智能体的矩阵W_i ^j+1进行如下步骤：

③智能体进行策略更新：

④||W_i ^j+1-W_i ^j||≤ε(ε是一个很小的整数)时停止循环，否则回到第②步；其中，是局部邻居误差和控制器状态的增广形式，Q_i≥0,R_i≥0(i＝1,2,…N)是对称加权矩阵，/>是矩阵W_i ^j+1里的分量。

由于控制协议是虚拟的，如何找到最优权矩阵W_i ^*是将要完成的关键点。另外，式(19)与式(9)不一致。下面的内容将会解决这些问题。

所述步骤S9寻找最优权矩阵W_i ^*，包括以下步骤：

1)用如下神经网络估计Q函数：

其中，γ_i表示矩阵W_i的分量。

2)基于Kronecker乘积，有：

其中，ω_ci＝vec(W_i)，表示Kronecker乘积。

3)令γ_i,22＝γ_i,23＝γ_i,32＝0，得到控制协议：

所以，PID控制器参数为：

假设是ω_ci的估计值，则/>可以近似为：

则：

4)推导出以下Critic神经网络的误差：

其中：

j是自然数，表示迭代指标。

5)所述Critic神经网络估计权值采用如下方程更新：

其中l_c表示学习率。

如图16所示，所述步骤5)采用基于DD PID一致性控制协议自学习算法求解，找到最优权矩阵W_i ^*，包括以下步骤：

⑴初始化：设置初始Critic权重和初始控制策略/>并用式(11)和(23)计算初始PID控制器参数/>迭代指数j＝0；

⑵循环迭代：

①从每个智能体给定的初始状态开始：

a.用式(22)计算所有智能体的控制策略

b.利用公式收集数据/>

②Critic神经网络权重更新规则：

c.

d.控制策略的参数更新

e.更新PID控制器参数

⑶(ε是一个很小的整数)结束循环，否则进行j＝j+1的迭代并返回步骤⑵。

其中，是初始Critic权重，/>是初始控制策略，K_i,i,K_i,p,K_i,d分别是PID控制器的比例、积分微分的参数，/>是初始状态，/>是智能体i的控制策略，δ_i(k)是智能体i局部邻居误差，/>是局部邻居误差和控制器状态的增广形式，/>是Critic权重，/>γ_i,33和γ_i,13均为W_i矩阵的一项，e_ci(k)是Critic神经网络的误差，/>l_c表示学习率。

实施例1：

多智能体系统矩阵：

图1所示，给出通信拓扑图，多智能体边权为：

e₁₂＝0.8,e₁₄＝0.7,e₂₁＝0.8,e₃₁＝0.8,e₃₂＝0.5,e₄₃＝0.8。

图2-9显示了四个智能体的Critic神经网络权重的演化过程。一旦找到了Critic神经网络权重，就可以计算PID和PI控制参数。可以发现，在学习到的PID控制协议下，所有智能体已经达成一致，如图10和图12所示，其中绘制了邻居误差状态和所有智能体达到一致性最优的状态。

为了证明在PID一致控制协议下实现的控制性能可能比状态反馈控制或比例积分(PI)控制更好，展示所开发的无模型PID一致性控制方法的通用性，我们将PI与PID形成对比。

按照式(4)-(6)所示的基于PID的一致性控制的思想，PI控制协议的形式与它们略有不同。

其中A_c＝I_r,B_i,c＝K_i,i,C_c＝I_r,D_i,c＝K_i,i+K_i,p。

PI控制器参数为：

图10、11分别绘制了基于PID控制器和PI控制器的多智能体邻居误差的轨迹图，图12、13分别绘制了基于PID控制器和PI控制器下所有智能体的状态。从图10-13可以发现，在相同的干扰下，与基于PI的控制方法相比，使用基于PID的一致性控制协议收敛速度较快，抗干扰效果更好。这也证明了本文提出的方法在DD PID和DD PI控制器设计中的泛化能力。

Claims

1.一种数据驱动的多智能体系统PID控制协议自学习方法，所述多智能体系统为：

x_i(k+1)＝Ax_i(k)+Bu_i(k) (1)

其中x_i(k)∈Rⁿ,u_i(k)∈R^r,i＝1,…,N是智能体i的状态向量和控制输入，对所有的智能体i，k∈V，A∈R^n×n,B∈R^n×p；

由所述多智能体动力学模型，定义智能体i的局部邻居误差：

其中e_ij是多智能体的边权；

其特征在于：包括以下步骤：

S1：构建PID控制协议：

u_i(z)＝C_i(z)δ_i(z) (4)

其中：

其中x_i,c(k)∈R^2r是对应于智能体i的PID控制器的动力学状态：

C_c＝[I_r I_r],D_c＝K_i,p+K_i,i+K_i,d

I_r为r×r的单位矩阵；

S2：将PID控制协议(6)应用于系统(3)产生以下闭环系统：

S3：令结合(6)和(7)得到增广形式：

得到：

其中：

分别是对应智能体j时的量；

S4：设计最优控制协议使如下性能指标最小：

其中Q_i≥0,R_i≥0,i＝1,2,…N是对称加权矩阵，T表示转置；

S5：对应(12)式的值函数写为：

S6：提出如下HJB方程：

S7：得到Q函数的HJB方程：

S8：得到最优控制协议：

S9：寻找最优权矩阵

所述Q函数的HJB方程采用基于策略迭代的强化学习算法，求解非零和博弈的Nash均衡解，求解过程包括以下步骤：

①初始化：选择任意允许的控制协议

②策略评估：对所有智能体的矩阵进行如下步骤：

③智能体进行策略更新：

④时停止循环，否则回到第②步；

其中，是局部邻居误差和控制器状态的增广形式，Q_i≥0,R_i≥0,i＝1,2,…N是对称加权矩阵，/>是矩阵W_i ^j+1里的分量；

所述步骤S9寻找最优权矩阵包括以下步骤：

1)用如下神经网络估计Q函数：

其中，γ_i表示矩阵W_i的分量；

2)基于Kronecker乘积，有：

其中，ω_ci＝vec(W_i)，表示Kronecker乘积；

3)令γ_i,22＝γ_i,23＝γ_i,32＝0，得到控制协议：

4)推导出以下Critic神经网络的误差：

其中：

j是自然数，表示迭代指标；

5)所述Critic神经网络估计权值采用如下方程更新：

其中l_c表示学习率；

所述步骤5)采用基于DD PID一致性控制协议自学习算法求解，找到最优权矩阵包括以下步骤：

⑴初始化：

⑵循环迭代，包括以下步骤：

①从每个智能体给定的初始状态开始：

a.计算所有智能体的控制策略

b.收集数据

②Critic神经网络权重更新规则：

d.控制策略的参数更新

e.更新PID控制器参数

⑶结束循环，否则进行j＝j+1的迭代并返回步骤⑵。

2.根据权利要求1所述的一种数据驱动的多智能体系统PID控制协议自学习方法，其特征在于，所述初始化包括：设置初始Critic权重初始控制策略/>计算初始PID控制器参数/>迭代指数j＝0。

3.根据权利要求2所述的一种数据驱动的多智能体系统PID控制协议自学习方法，其特征在于：采用式(11)和(23)计算初始PID控制器参数

4.根据权利要求1所述的一种数据驱动的多智能体系统PID控制协议自学习方法，其特征在于：所述步骤a利用式(22)计算所有智能体的控制策略

5.根据权利要求1所述的一种数据驱动的多智能体系统PID控制协议自学习方法，其特征在于：所述步骤b利用公式收集数据/>