CN115685763A

CN115685763A - 一种基于自适应动态规划的智能无人集群系统最优一致性控制方法

Info

Publication number: CN115685763A
Application number: CN202211444686.4A
Authority: CN
Inventors: 纪良浩; 卢建松; 张翠娟; 杨莎莎; 郭兴; 于凤敏; 于南翔; 李华青
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-11-18
Filing date: 2022-11-18
Publication date: 2023-02-03

Abstract

本发明涉及多智能体系统控制领域，具体涉及一种基于自适应动态规划的智能无人集群系统最优一致性控制方法，包括：确定多智能体系统的拓扑结构与智能体的动力学方程，其中智能体的系统矩阵是未知的；系统拓扑图中包含有向生成树，并且有向生成树的根节点为领导者；根据系统状态定义智能体的局部跟踪误差以及局部跟踪误差的更新表达式，从而将一致性问题转化为跟踪控制问题；定义性能指标函数用来评估当前的控制策略，并根据当前的性能指标函数对控制策略进行优化；对系统在演化过程中的信息进行收集，并设计一个自适应动态规划算法用于近似智能体的控制策略与性能指标，根据控制策略对智能体状态进行更新，从而达到最优一致性。

Description

一种基于自适应动态规划的智能无人集群系统最优一致性控制方法

技术领域

本发明属于多智能体协同控制技术领域，具体涉及一种基于自适应动态规划的智能无人集群系统最优一致性控制方法。

背景技术

自然界中普遍存在着生物的群集现象，其指的是一些生物通常会以一定的规则进行群体性的活动。比如蜜蜂筑巢；鱼群觅食。相关专家学者受到这一生物集群行为的启发，将多智能体系统(multi-agent systems,MASs)一致性应用到复杂系统的协同控制中,如智能电网、传感器网络、无人机群的协同工作等。一致性指的式多智能体系统中的各个智能体通过与自己局部智能体进行信息交流，根据提前设置的控制协议来动态的调整自身的行为，从达到某一个共同的状态。

在现实生活中，系统在达成特定控制目的过程中所需要的资源和成本都是有限的，考虑到经济性与实用性，系统必须能以最经济的方式完成控制任务，否则理论成果将难以应用到现实的工业领域中。此外，在实际应用中，智能体的系统信息是很难获取的，因此，研究未知模型下的多智能体系统最优一致性控制具有很强应用价值。

在求解最优一致性控制的过程中，传统的做法是基于强化学习的两类算法框架，即值迭代算法和策略迭代算法。然而，这两类算法都有各自的不足，策略迭代算法需要给定一个初始可容许容许控制策略，但此策略通常很难得到。值迭代算法虽然不需要初始可容许控制策略，但是它的收敛速度会很慢，在实际应用中是不可取。

目前，大多数使用数据驱动方法来研究多智能体系统最优一致性控制的工作对系统所测量出的数据往往只会使用一次，即根据当且迭代产生的数据来更新当前的控制策略。然而，在实际应用中，真实系统所测量出的数据是很宝贵的，可以作为训练数据供其他相似系统使用。因此，与普通的数据驱动方法相比较，通过引入经验回放机制来收集智能体在迭代过程中所产生的数据能够反复的利用这些数据，提升数据效率，在数据获取困难的情况下更有效果。并且通过随机选择训练数据能够打破数据之间的相关性，从而获得更好的训练效果。

上面提及的大多数研究工作都是使用单一的神经网络结构(评估网络)来对智能体进行训练，使用单独的Critic网络估计的性能指标函数在追逐变化的累计效用函数时很容易出现不稳定的情况。通过引入目标网络，其在一段时间内是相对固定的，就可以将评估网络的更新转换为类似监督学习的问题，从而增加了学习过程的稳定性，更符合实际应用场景的需求。因此，如何设计一种基于自适应动态规划的智能无人集群系统最优一致性控制，是一个亟待解决的问题。

发明内容

为解决上述技术问题，本发明提出一种基于自适应动态规划的智能无人集群系统最优一致性控制方法，包括：

S1：将多智能体系统中的智能体分为两类，一类为领导者智能体，其不会接收到来自邻居智能体发送的信息，另一类为跟随者智能体，其会根据所接收到邻居智能体发送的信息对自身行为做出调整；

所述每个智能体发送的信息包括自身的状态信息和控制策略；

S2：通过智能体自身的传感器获取邻居跟随者智能体与领导者智能体之间状态信息，并根据状态信息计算智能体的局部跟踪误差；

S3：为每个智能体设置用于存放其当前误差、下一时刻误差和控制策略的经验池；

S4：根据智能体的发送信息和智能体之间的局部跟踪误差构造用于评价智能体当前控制策略优劣的动作状态值函数；

S5：设计自适应动态规划算法计算用于评价智能体当前控制策略优劣的动作状态值函数，并通过梯度更新的方式来计迭代更新每个智能体的控制策略；

S6：使用神经网络来分别近似控制策略和动作状态值函数，设置算法迭代的次数并重复执行S5中迭代更新动作状态值函数和控制策略的过程，当动作状态值函数与控制策略都收敛到一个足够小的值时，此时算法执行完毕，所有智能体获得最优的控制策略。

本发明的有益效果：

1、利用基于数据的自适应动态规划使得离散时间多智能体系统能够实现最优一致性；

2、使用到了经验回放机制来存储智能体在交互过程中所产生的信息，包括当前和过去的状态信息，以及当前的控制策略，经验回放机制不仅能够多次利用系统产生的数据，提升数据效率，同时也可以打破数据之间的相关性，提升训练效果；

3、多智能体系统所采用的自适应动态规划算法是结合了值迭代算法和策略迭代算法的优势，通过一个平衡参数实现了两类算法的结合，此算法比值迭代算法收敛速度快，且不需要初始容许控制策略，有效的克服了值迭代算法和策略迭代算法的缺陷；基于自适应动态规划算法能够以“软更新”的方式来更新控制策略，其所消耗的计算成本跟小，同时保证训练过程更加稳定；

4、采用了动作状态值函数，智能体在学习过程中具有异策学习的特点，其行为策略能够与外部环境交互，采集数据放到经验池中，而后的目标策略从经验池中选取数据用于神经网络的训练学习，大大提高了训练过程的稳定性和效率；

5、利用了自适应调参规则来调整自适应参数ρ_l，ρ_l从0开始一直增大至1，使得提出的自适应动态规划算法，能够先实现值迭代算法，找到可容许控制策略，然后过渡到策略迭代算法。使得自适应动态规划算法不需要难以获得的初始可容许控制策略，而且比值迭代算法加快了收敛速度，这具有更广阔的实际应用。

附图说明

图1是本发明提供优选实施例的系统控制流程图；

图2是本发明实施例的系统拓扑图；

图3是本发明实施例的智能体三维状态信息的演变图；

图4是本发明实施例的智能体误差向量的演变图；

图5是本发明实施例的智能体二维状态信息演变图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于自适应动态规划的智能无人集群系统最优一致性控制方法，如图1所示，包括：

领导者-跟随者的动力学方程包括：

x_i(k+1)＝Ax_i(k)+B_i(k),i＝1,2,...,N

x₀(k+1)＝Ax₀(k)

其中，A∈R^p×p和B_i∈R^p×q为智能体的系统矩阵，并且是完全未知的，其中R^p×p表示系统矩阵A的取值范围，R指的是实数域，p,q指的是矩阵的维度。x_i(k)∈R^p和u_i(k)∈R^q分别是第i个智能体在第k时刻的状态和控制策略；x₀(k)∈R^p为领导者的状态信息，同时也作为跟随者智能体的一致性目标状态，每个智能体发送的信息包括自身的状态信息和控制策略，x_i(k)∈R^p和u_i(k)∈R^q分别是第i个智能体在第k时刻的状态信息和控制策略；其中k表示智能体的更新时刻。

假定智能体在通信的过程中不会受到环境的影响，导致通信拓扑发生变化。根据多智能体系统中智能体之间的信息交互，确定系统的拓扑结构，并且保证拓扑结构中包含一棵有向生成树。

根据状态信息计算智能体的局部跟踪误差，包括：

其中，e_i(k)表示第k时刻智能体i的局部跟踪误差，b_i表示牵制增益，若b_i＝1表示该智能体与领导者直接相连接，否则b_i＝0；a_ij表示第i个智能体与第j个智能体之间的连接权重，x_j(k)表示第k时刻第j个智能体的状态向量，

表示第i个智能体的邻居智能体的集合，x_i(k)表示第i个智能体在第k时刻的状态信息，x₀(k)表示第k时刻领导者的状态信息。

所述S3中的经验池有容量大小限制，当经验池的容量达到一定程度，则会删除存放时间最长的一组或多组数据，同时将新生成的数据存入。

所述用于评价智能体当前控制策略优劣的动作状态值函数，包括：

Q_i(e_i(k),μ)＝c_i(e_i(k),μ)+τQ_i(e_i(k+1),u_i(e_i(k+1)))

其中，Q_i(e_i(k),μ)表示用于评价智能体当前控制策略优劣的动作状态值函数，e_i(k)表示第k时刻智能体i的局部跟踪误差，μ表示智能体的发送的信息，

表示用来评价智能体在第k时刻控制策略的效用函数，u_i(k)表示第k时刻智能体i的控制策略，T表示转置操作，Q_ii≥0,R_ii≥0表示正定的权重矩阵，τ∈[0,1]表示强化学习中的折扣因子，e_i(k+1)表示下一时刻智能体i的局部跟踪误差。

所述自适应动态规划算法：使用自适应动态参数来调整自适应动态规划算法的动态因子ρ_l，动态因子ρ_l由小到大的变化，初始时，动态因子ρ_l从接近0开始，自适应动态规划算法通过值迭代找到可容许控制策略，然后随着动态因子ρ_l逐渐增大接近1，在可容许控制策略的基础上找到最优控制策略；该过程表示为：

ρ_l＝tanh(bIn(a+l))

其中，b表示第一常数，a表示第二常数，l表示迭代指数，a>1且b>0，动态因子ρ_l为从0到1的单调增加函数。

设计自适应动态规划算法计算用于评价智能体当前控制策略优劣的动作状态值函数，并通过梯度更新的方式来计迭代更新每个智能体的控制策略，包括：

初始化迭代指数l＝0，并为所有的智能体初始化一个任意的控制策略

计算动作状态值函数：

其中，Q_i ^l()表示融入迭代指数的动作状态值函数，e_i(k)表示第k时刻智能体i的局部跟踪误差，μ表示智能体的发送的信息，

表示用来评价智能体在第k时刻控制策略的效用函数，τ表示强化学习中的折扣因子，ρ_l表示动态因子，e_i(k+1)表示下一时刻智能体i的局部跟踪误差，l表示迭代指数；

用动作状态价值函数更新控制策略：

其中，e_i(k)表示第k时刻智能体i的局部跟踪误差，l表示迭代指数，μ表示智能体的发送的信息，τ表示强化学习中的折扣因子，ρ_l表示动态因子，e_i(k+1)表示下一时刻智能体i的局部跟踪误差，r_i()表示第i个智能体的效用函数，

表示融入迭代指数的动作状态值函数；

随着迭代的进行，若动作状态价值函数

和控制策略

都能够收敛到最优值，则智能体的学习过程完毕。

使用神经网络来分别近似控制策略和动作状态值函数，设置算法迭代的次数并重复执行S5中迭代更新动作状态值函数和控制策略的过程，包括：

使用神经网络来分别近似性能指标函数和控制策略，使用了Actor-Critic神经网络框架来求解最优控制策略；其中Actor神经网络用于近似最优控制策略，Critic神经网络用于近似性能指标函数；

Actor神经网络的表达式为：

其中，

表示Actor神经网络估计出来的控制策略，

表示Actor神经网络的第一连接权重，T表示转置操作，σ_ai()表示神经网络actor的激活函数，

表示Actor神经网络的第二连接权重，θ_ai(k)表示神经网络actor的调整矩阵；

Critic神经网络的表达式为：

其中，

表示Critic神经网络估计出来的动作状态值函数，e_i(k)表示第k时刻智能体i的局部跟踪误差，μ表示智能体的发送的信息，

表示Critic神经网络的第一连接权重，T表示转置操作，σ_ci()表示神经网络Critic的激活函数，

表示Critic神经网络的第二连接权重，θ_ci(k)表示神经网络Critic的调整矩阵。

当性能指标函数与控制策略都收敛到一个足够小的值时，则算法执行完毕，多智能体系统达到最优一致性：

lim_k→∞‖e(k)‖＝0

其中，_k表示时间，e(k)表示全局跟踪误差，||e(k)||表示求全局跟踪误差的范数，

e_N(k)表示第_N个局部跟踪误差，T表示转置操作，R^Np表示实数域矩阵。

本实例考虑一个由N个跟随者智能体和1个领导者智能体组成的多智能体系统。多智能体系统的关系拓扑可以用一个有向加权图G＝(V,E,A)表示，每个智能体为无向加权图G＝(V,E,A)的一个节点，其中V＝{v₁,v₂,...,v_N+1}中表示节点的集合，E＝{a_ij＝(v_i,v_j):v_i,v_j∈V,i≠j}，A-[a_ij]表示邻接矩阵，其中矩阵元素a_ij表示智能体节点i到j之间的连接权重。若节点i到j之间存在连接，则a_ij＞0；若节点i到j之间无连接，则a_ij＝0，规定a_ij＝0即系统无自环。与节点i相连的节点为节点i的邻居节点，节点i的邻居节点用集合N_i＝{v_j∈V|(v_j,v_i)∈E}表示。对于跟随者智能体i，其入度表示为

则系统节点的入度矩阵为D＝diag{d₁,...,d_N}。系统的拓扑的拉普拉斯矩阵为L＝D-A＝[l_ij]∈R^N×N，其中l_ij＝-a_ij,i≠j,l_ii＝∑_i≠ja_ij。

本实例以图2为实验拓扑图，一个由且4个节点组成的多智能体系统，其中0号节点为领导者智能体，其他节点均为跟随者智能体，且领导者智能体与1号节点和2号结点之间存在直接相连的边。从拓扑中可以发现，0号节点可以间接的到达其他所有跟随者智能体，故该拓扑图中包含一棵有向生成树。考虑系统的模型如下：

x₀(k+1)＝Ax₀(k)

x_i(k+1)＝Ax_i(k)+B_iu_i(k),i＝1,2,3,4

其中

在拓扑图中，非零边权值为a₃₂＝1，领导者的邻接矩阵为B＝diag{1,1,0}。随机初始化领导者的状态信息在[-1,1]之间，设置Actor神经网络和Critic神经网络的学习率均为α_ai＝α_ci＝0.03，且神经网络的初始权重均取自范围为[-1,1]之间的随机数。Critic神经网络的激活函数分别为σ_c1＝tanh([e₁₁(k) e₂₁(k) u₁(k)]^T),σ_c2＝tanh([e₂₁(k) e₂₂(k) u₂(k)]^T),σ_c3＝tanh([e₃₁(k) e₃₂(k) u₃(k) u₂(k)])。Actor神经网络的激活函数为σ_ai＝[e_i1(k) e_i2(k)]，且所有神经网络都至少训练300次。

如图3所示，展示了所有智能体三维状态信息的变化过程，从中不难看出所有智能体的状态最终都与领导者达成一致性，证明了算法的可行性。图4给出了所有智能体的跟踪误差的演化过程，可以看出最终都能收敛到0，即所有的跟随者智能体与领导者智能体的状态信息达成一致。图5给出了智能体的二维状态信息的演化过程，可以看出所有智能体能够实现跟踪领导者的状态，最后所有智能体达成一致性。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于自适应动态规划的智能无人集群系统最优一致性控制方法，其特征在于，包括：

2.根据权利要求1所述的一种基于自适应动态规划的智能无人集群系统最优一致性控制方法，其特征在于，根据状态信息计算智能体的局部跟踪误差，包括：

3.根据权利要求1所述的一种基于自适应动态规划的智能无人集群系统最优一致性控制方法，其特征在于，所述S3中的经验池有容量大小限制，当经验池的容量达到一定程度，则会删除存放时间最长的一组或多组数据，同时将新生成的数据存入。

4.根据权利要求1所述的一种基于自适应动态规划的智能无人集群系统最优一致性控制方法，其特征在于，所述用于评价智能体当前控制策略优劣的动作状态值函数，包括：

Q_i(e_i(k),μ)＝c_i(e_i(k),μ)+τQ_i(e_i(k+1),u_i(e_i(k+1)))

5.根据权利要求1所述的一种基于自适应动态规划的智能无人集群系统最优一致性控制方法，其特征在于，所述自适应动态规划算法：使用自适应动态参数来调整自适应动态规划算法的动态因子ρ_l，动态因子ρ_l由小到大的变化，初始时，动态因子ρ_l从接近0开始，自适应动态规划算法通过值迭代找到可容许控制策略，然后随着动态因子ρ_l逐渐增大接近1，在可容许控制策略的基础上找到最优控制策略；该过程表示为：

ρ_l＝tanh(bIn(a+l))

6.根据权利要求1所述的一种基于自适应动态规划的智能无人集群系统最优一致性控制方法，其特征在于，设计自适应动态规划算法计算用于评价智能体当前控制策略优劣的动作状态值函数，并通过梯度更新的方式来计迭代更新每个智能体的控制策略，包括：