CN114740710A

CN114740710A - 一种随机非线性多智能体的强化学习优化编队控制方法

Info

Publication number: CN114740710A
Application number: CN202210453088.7A
Authority: CN
Inventors: 文国兴; 高发亮
Original assignee: Binzhou University
Current assignee: Binzhou University
Priority date: 2022-04-27
Filing date: 2022-04-27
Publication date: 2022-07-12

Abstract

本发明涉及自适应非线性控制技术领域，具体公开了一种随机非线性多智能体的强化学习优化编队控制方法，基于神经网络的函数逼近能力，设计了一种自适应辨识器对未知随机动力进行估计在期望意义，然后通过构建评判网络和执行经网络执行强化学习，从而获得优化控制；在本发明中，由于强化学习算法是通过对一个简单的正函数执行梯度下降法得到的，该函数设计根据HJB方程的偏导，因此可以使最优控制比传统的方法更简单，可以更方便地应用到随机非线性多智能体系统；最后，从定理证明和计算机仿真两个方面验证，所提出的优化方法能够实现预期的目标。

Description

一种随机非线性多智能体的强化学习优化编队控制方法

技术领域

本发明涉及自适应非线性控制技术领域，具体涉及一种随机非线性多智能体的强化学习优化编队控制方法。

背景技术

随机系统的控制设计是一个非常具有挑战性的问题，因为它的微分不仅涉及随机扰动，而且还涉及稳定性分析中的Hessian项。随着控制理论的发展，一些流行的非线性控制技术，如Sontag的镇定公式，反步技术和自适应观测器，已经被推广到随机系统。值得提及的是，一些最优控制方法也被扩展到随机非线性系统。然而，由于随机多智能体控制需要状态耦合，给优化设计带来了困难，因此对随机多智能体系统的最优编队控制鲜有报道。主要原因是传统的强化学习优化方法，要么是复杂算法，要么要求一些严格的条件，如：持续激励，他们很难应用和推广到随机多智能体系统控制。针对这一情况，本发明提出了一种基于强化学习策略的多智能体优化编队控制方法。通过构建自适应辨识器，解决了未知随机动力问题。

发明内容

针对现有技术中存在的问题，本发明的目的在于提供一种随机非线性多智能体的强化学习优化编队控制方法。

本发明解决其技术问题所采用的技术方案是：一种随机非线性多智能体的强化学习优化编队控制方法，包括以下步骤：

步骤1)建立多智能体系统状态与领航智能体状态之间的跟踪误差，并根据多智能体动力方程，推导出误差动力微分方程；

步骤2)定义基于邻居智能体的编队误差项，并利用误差动力微分方程，求导出编队误差微分方程；

步骤3)利用编队误差，定义分布式最优性能指标函数，并利用动力方程获得分布式HJB(Hamilton-Jacobi-Bellman)等式，利用HJB方程有唯一解的性质，求得该最优控制的基本形式；

步骤4)利用神经网络设计自适应辨识器，对随机多智能体系统的未知动力进行估计在期望意义，并设计李亚普诺夫函数对其进行证明；

步骤5)利用自适应辨识器状态对跟踪误差及编队误差进行估计，进而获得最优控制及HJB方程的近似形式；

步骤6)设计强化学习的评判网络和执行网络，从而获得优化控制；

步骤7)设计李雅普诺夫函数，对其进行稳定性和误差收敛性分析；

步骤8)利用Matlab软件进行仿真实验。

具体的是：所述步骤1)中的多智能体系统状态为x_i(t)，领航智能体状态为y_r(t)，然后建立跟踪误差为：z_i(t)＝x_i(t)-y_r(t)-ζ_i,i＝1,…,n，误差动力微分方程为：

具体的是：所述步骤2)中的编队误差项为：

其中：Y_i表示智能体i的邻居智能体集；编队误差微分方程为：

其中：

具体的是：所述步骤3)中的最优性能指标函数为

其中

分布式HJB等式为：

并利用HJB方程有唯一解的性质，通过方程

解得该最优控制的基本形式为：

具体的是：所述步骤4)中的利用神经网络对未知动力函数f_i(x_i)和h_i(θ_i)＝η_i(t)||ψ_i(x_i)||⁴进行逼近：

然后，设计自适应辨识器：

其中，

是辩识器状态，

为设计常数。

具体的是：所述神经网络的权重

和

被在线训练通过下列法则：

具体的是：所述步骤5)中的跟踪误差及编队误差进行估计为

获得最优控制为

HJB方程的近似形式为

具体的是：所述步骤6)中的评判网络为

评判网络训练法则为

执行网络为

执行网络训练法则为

具体的是：所述评判网络和执行网络根据HJB方程有唯一解的性质，利用其偏导构建一个与其等价的简单正定函数，对这个简单的正函数执行梯度下降法，得到强化学习算法。

具体的是：所述步骤7)中的李雅普诺夫函数被设计为：

然后计算其导数，获得结果：

从而证明优化编队控制方法的有效性。

本发明具有以下有益效果：

本发明设计的随机非线性多智能体的强化学习优化编队控制方法，利用HJB方程偏导设计一个与其等价的简单正函数，采用梯度下降法得到强化学习算法，从而最终获得其优化控制。因为这个设计能大大缓解算法的复杂度，能有效用于随机非线性多智能体控制。

附图说明

图1是本发明提出的随机多智能体优化编队控制结构框图。

图2是仿真算例的多智能体优化编队控制性能的示意图。

图3是仿真算例的编队控制的代价函数。

图4是仿真算例的辨识器误差收敛性。

图5是仿真算例的编队跟踪误差变量收敛性。

图6是仿真算例的辨识器自适应权重矩阵

的有界性。

图7是仿真算例的辨识器自适应权重矩阵

的有界性。

图8是仿真算例的强化学习评判网络权重矩阵

的有界性。

图9是仿真算例的强化学习执行网络权重矩阵

的有界性。

具体实施方式

以下将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地进一步详细的说明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，针对未知动力的随机非线性多智能体系统，提供了一种基于强化学习的随机非线性多智能体的优化编队控制方法，具体内容如下：

一.系统建模与问题陈述

考虑下列随机非线性多智能体系统，其各智能体之间的互连通讯拓扑图为无向连通图：

dx_i(t)＝(u_i+f_i(x_i))dt+ψ_i(x_i)dw,i＝1,…,n (1)

其中：

和

分别是状态和控制输入向量，

和

是两个未知的非线性连续函数，

表示完全概率空间上r维的独立标准维纳过程。

用

表示编队运动的期望轨迹或领航智能体，然后定义跟踪误差变量z_i(t)为：

z_i(t)＝x_i(t)-y_r(t)-ζ_i,i＝1,…,n， (2)

其中：

表示预先设定的编队队形，也就是智能体与领航智能体的相对位置。

根据(1)，跟踪误差z_i(t)的动力方程为：

定义1：如果多智能体系统(1)的状态x_i(t)满足条件

则称该多智能体实现了预定的编队控制。

假设1：编队运动轨迹

及其导数

是已知的和有界的。

控制目标：针对随机非线性多智能体系统(1)，设计分布式优化编队控制u_i＝1,…,n，确保：i).该闭环控制的所有误差信号是一致最终有界在期望意义；ii).跟踪误差收敛到一个小的零领域在期望意义。

为了构建最优编队控制，定义下列编队误差项：

其中：Y_i表示智能体i的邻居集，a_ij是A＝[a_ij]毗邻矩阵的元素，表示智能体间的通讯权重；b_i表示智能体与领航智能体之间的通讯权重，并假设到少有一个b_i≠0。

根据跟踪误差的定义，编队误差(4)可以重新表示为：

根据微分方程(3)，编队误差动力微分方程可得为：

其中：

定义2：设

是一个与(1)关联的二次连续可微函数，则该函数的无穷小生成算子L为：

并且它的伊藤微分公式为：

引理1：如果存在两个常数a＞0，c＞0和两个K_∞函数ν₁(·)，ν₂(·)，使二次连续可微函数

满足：

那么随机系统(1)在有界初始状态x(0)下有唯一强解，且满足：

上述结果意味着x_i是半全局一致最终有界在期望意义。

引理2：如果一个智能体的通讯拓扑图是一个有向连通图，则其对应的拉普拉斯矩阵L是不可约，并且矩阵

是正定的，其中B＝diag{b₁,b₂,…,b_n}是一个正定的对角矩阵。

引理3：L(t)∈R是任意有界的正定连续函数，且初值有界，如果它满足

其中α＞0和β＞0是两个常数，则下列不等式成立:

其中e是自然对数的底数。

二.最优编队控制描述

对于多智能体系统(1)，引入性能指标为：

其中：

定义1：u_i被称为在集合Ω可容许控制，表示为u_i∈Ψ(Ω)，如果它是连续的，满足u_i(0)＝0，稳定(1)在集合Ω，并使(12)有界在期望意义。

定义2：随机多智能体系统(1)的一个可容许编队控制被称为最优控制，如果它能在完成控制任务，同时最小化性能指标(12)。

根据事实

其中

代价函数υ(z,u)可以分解为：

其中：

根据(13)，引入分布式性能指标为：

然后，可以定义分布式性能指数函数为：

表示最优控制为

其中Ω是包含所有多智能体状态和参考信号y_r(t)的紧集，则将

代入(15)，可得到最优性能指标函数为：

根据最优控制的描述，(16)意味着：

通过几个简单的积分计算到(16)，然后有

经过几次基本的数学运算在(18)，可得

根据随机动力方程(6)和伊藤微分规则(8)，有下列结果：

其中：

表示白噪声。

将(20)代入(19)，得到分布式HJB方程为：

根据上述分析，最优控制

与(16)是唯一关联的，因此它应该是支持分布HJB方程(21)的唯一控制解。这样，最优控制可以通过求解

得到：

为了明确最优控制(22)，并确保是其HJB方程的唯一解，中的梯度项

希望通过求解下列HJB方程获得，这个方程是通过将(22)代入到(21)获得:

然而，由于该方程的强非线性，用解析方法求解是不可能的。在本发明中，强化学习策略被采用为获得优化控制，从而有效克服来自求解HJB方程的困难。

三.自适应神经网络辨识器设计

由于随机多智能体系统(1)中的非线性函数f_i(x_i)和ψ_i(x_i)是未知的，成为控制设计的一个阻碍，因此我们需要构造了自适应神经网络辨识器，对其随机动力进行估计在期望意义。在紧集Ω，神经网络被设计逼近两个未知函数f_i(x_i)和h_i(θ_i)＝η_i(t)||ψ_i(x_i)||⁴如下，其中：h_i(θ_i)的详细推导在定理1，

η_i(t)是辨识器误差:

其中：

和

是理想的权重矩阵，

和

是高斯基函数向量，

和

逼近误差，并满足

和

其中δ_fi和δ_hi是两个正的常数，l_i是神经元数。

因为两个理想权值

和

是未知的常数矩阵，在实际应用中，需要对其自适应估计。设

和

表示它们的自适应估计，自适应辩识器被构造如下：

其中：

是辩识器状态，

为设计常数。

神经网络权重

和

被在线训练通过下列法则：

其中：

和

是两个正定矩阵，σ_fi＞0和σ_hi＞0是设计常量。

然后，从(1)和(25)可得到辨识器误差动力方程为：

理论1：如果自适应辨识器(25)和训练法则(26)用于对随机多智能体系统(1)的未知动力进行估计，则可以保证1)这个自适应辨识器系统的所有信号都是半全局一致最终有界在期望意义；2)通过使设计参数k_i足够大，辨识器误差η_i(t)收敛到一个小的零邻域在期望意义。

证明：选择李雅普诺夫函数为：

其中：

和

权重误差。

根据(26)和(27)，计算无穷小生成算子L V₁(t)为：

应用柯西不等式和杨氏不等式，可得以下结果：

用以上不等式(30)，等式(29)可以变成：

将(24)代入不等式(31)，利用迹算子的性质Tr(AB^T)＝A^TB＝B^TA，A,

可得如下结果：

根据

和

有以下等式：

利用柯西不等式和杨氏不等式可得到下列结果：

将上述(33)和(34)代入(32)有

让

然后不等式(35)能被重写为：

L V₁(t)≤-α₁V₁(t)+β₁, (36)

其中：

根据引理1，可得到以下结果:

由上述不等式可知，自适应辨识器(25)和训练法则(26)可以保证:1)辨识器系统的所有信号都是半全局一致最终有界在期望意义；2)通过选择足够大的参数k_i，辨识器误差η_i(t)可以收敛到一个小的零邻域在期望意义。

四.强化学习优化编队控制设计

根据定理1，跟踪误差z_i(t)可估计为：

根据(25)，可计算

的导数为：

且编队误差χ_i(t)可估计为：

在(22)中用

替换χ_i(t)，得到分布最优控制

的估计为：

为了实现跟踪控制，将梯度项

分割为：

其中：γ_i是一个设计参数，

将(42)代入(41)产生：

这个连续项

是未知的，可利用神经网络在紧集Ω上对其逼近为：

其中：

和

分别是理想的神经网络权重矩阵和高斯基函数向量，q_i是神经元数，

是逼近误差，是有界的被一个常数δ_i，即

将(44)代入(43)和(44)有：

由于理想权重

是未知的，因此最优控制(46)是不可用的。为了获得可用的控制，对评判-执行结构的强化学习进行如下设计。

评判网络设计如下:

其中

是评判网络的输出，

是权重矩阵，被训练通过下列法则:

其中k_ci＞0为设计参数。

执行网络设计如下:

其中

是权重矩阵，被训练通过下列法则:

其中k_ai＞0为设计参数。

五.强化学习自适应律设计原理

强化学习训练法则(48)和(50)的数学推导如下：

用

和

替换HJB方程(21)中的

和

可得其近似方程为:

根据先前的描述，分布式优化编队控制(49)希望使

如果

满足且有唯一解，则等价于:

让

显然，方程(52)等价于Q_i(t)＝0。然后基于Q_i(t)的负梯度，推导出训练律(48)和(50)。

计算Q_i(t)的导数沿(48)和(50)，并使用这个事实

有下列结果：

不等式(53)意味着训练律(48)和(50)都能确保Q_i(t)＝0，因此(52)也得到保证。

六.主要结论与证明

理论2：假设随机多智能体系统(1)，在有界初始状态。如果辩识器(25)与训练法则(26)被用于确定该随机多智能体系统在期望意义，评判网络(47)与训练法则(48)，执行网络(49)与训练法则(50)，用于优化控制，且设计常数满足下列条件：

该优化编队控制可实现以下目标:

i)所有误差信号是半全局一致最终有界。

ii)领航-追随编队控制能被实现。

证明：选择下面的李亚普诺夫函数

其中

根据引理2，

是一个正定矩阵，因此它有n正特征值λ₁,…,λ_n。让

然后，可以从(40)得到

和

之间的关系

进一步，可以得到以下结果：

由上式(56)，可以得到下列不等式

其中：

对V₂(t)沿(39)、(48)和(50)求导有：

根据Cauchy-Schwartz和Young不等式，可以得到以下不等式:

将不等式(59)代入到(58)有：

根据

有以下等式:

将以上(61)替入(60)有

由(54)中的条件k_ai＞k_ci可得：

将不等式(63)代入(62)有：

根据条件(54)，不等式(64)可以变为：

其中：

是正定矩阵的最小特征值

由定理1可以得出，C(t)的所有项都是有界的，因此一定存在一个常数β₂，满足：||C(t)||≤β₂。

根据(57)，(65)可以被重写为：

其中：

根据引理3，从(66)可以得到下列不等式:

上述不等式表明，所有的误差信号都是半全局一致最终有界，通过选择设计常数足够大，可以使编队跟踪误差收敛到期望的小零邻域。

七.仿真实验

为了进一步验证所提出的优化多智能体编队控制方法，下列数值仿真被执行。这个数值多智能体被建模为：

其中：a_i＝1,2,3,4＝0.5,-0.8,0.6,-1.1，b_i＝1,2,3,4＝-0.5,1.1,0.5,-1.2，c_i＝1,2,3,4＝-0.8,0.4,-0.7,0.8，d_i＝1,2,3,4＝0.5,-0.6,1.1,-1.9。初状态为：x_i＝1,2,3,4(0)＝[5,4]^T,[-5,6]^T,[4,-5]^T,[-5,-3]^T。

所期望的编队运动轨迹，也就是领航智能体为：y_r(t)＝[2 sin(0.7t),3 cos(0.7t)]^T。这个多智能体的编队队形，也就是与领航智能体的相对位置为：ζ_i＝1,2,3,4＝[3.7,3.7]^T，[-3.7,3.7]^T，[3.7,-3.7]^T，[-3.7,-3.7]^T。这个多智能体系统的邻接矩阵、及各智能体与领航智能体的通信权重分别为:

B＝diag{1,0,0,0}。

辩识器设计：神经网络设计为16个神经元，基函数向量Θ_fi(x_i),Θ_hi(θ_i),i＝1,…,4，被设计分别通过高斯函数

和

这个高斯函数的中心μ_j均匀分布在-8到8之间，且宽度为2。

对应到(25)，这个辨识器系统，参数被选择k_i＝1,2,3,4＝55，初始值为

对应于训练法则(26)，选择参数为：Γ_fi＝1,2,3,4＝0.5I_16×16,σ_fi＝1,2,3,4＝0.3,Γ_hi＝1,2,3,4＝0.4I_16×16,σ_hi＝1,2,3,4＝0.3。其权重矩阵初始值为：

强化学习设计：神经网络设计有24个神经元，然后基函数向量被设计基于高斯函数

这个高斯函数的中心μ_j均匀分布在-8到8之间，且宽度ρ_i为2。对应到优化控制(49)，控制参数设置为：γ_i＝1,2,3,4＝50。对应到强化学习训练法则(48)和(50)，设计参数选择为k_c1,c2,c3,c4＝1.3和k_a1,a2,a3,a4＝1.8，神经网络权重的初始值设为

图2-图9显示了仿真结果。从图2中可以看出，通过执行所提出的控制，实现了预期的编队。图3给出了优化控制的代价函数。图4显示了辨识器误差η_i(t)收敛到零，这意味着辨识器可以准确对原系统进行估计，并应用于控制设计。图5显示了估计的跟踪误差

收敛于零。图4和图5表明跟踪误差z_i(t)可以被保证收敛到零。图6-图9显示了辨识器、评判和执行神经网络的自适应权重的有界性。从图2-图9中可以看出，所提出的优化编队控制能够实现控制目标。

本发明不局限于上述实施方式，任何人应得知在本发明的启示下做出的结构变化，凡是与本发明具有相同或相近的技术方案，均落入本发明的保护范围之内。

本发明未详细描述的技术、形状、构造部分均为公知技术。