CN115903901A

CN115903901A - 内部状态未知的无人集群系统输出同步优化控制方法

Info

Publication number: CN115903901A
Application number: CN202211488163.XA
Authority: CN
Inventors: 纪良浩; 张翠娟; 杨莎莎; 郭兴; 于凤敏; 于南翔; 李华青
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-11-25
Filing date: 2022-11-25
Publication date: 2023-04-04

Abstract

本发明公开了一种内部状态未知的无人集群系统输出同步优化控制方法，包括：设计状态估计器，估计系统未知内部状态，对内部状态进行重构，根据重构的内部状态，重新定义局部误差系统。对于新的局部误差系统结合矩阵理论、系统稳定性理论进行误差系统稳定性分析。进一步，考虑系统精确模型未知下，优化控制策略，本发明提出了改进的Q‑学习算法。通过引入经验回放和目标网络，解决多无人机在跟环境交互过程中不能充分探索的问题，提高无人集群系统收敛速率，进一步降低系统资源的消耗。本发明中的无人集群系统内部状态未知，更符合现实。

Description

内部状态未知的无人集群系统输出同步优化控制方法

技术领域

本发明涉及无人机控制方法领域，具体涉及内部状态未知的无人集群系统输出同步优化控制方法。

背景技术

近年来，专家学者受到自然界生物群集行为的启发将无人集群系统一致性应用于复杂系统协同控制中，无人集群系统一致性问题在智能电网、编队控制、无人机集群等领域有着重要的应用前景。

对于无人集群系统来说，一致性问题是一个基本现象。所有无人机在一致控制协议的作用下通过信息交换实现相同的状态。对未知的内部状态，现有的相关工作使用可测量的系统输入/输出数据来重构，用输入/输出数据进行重构内部状态时需要用到增广矩阵，而增广矩阵是一个状态不能完全可控的系统，容易导致追踪误差。另一方面，现有的工作较少考虑无人集群系统在执行任务过程中能量消耗问题。

发明内容

本发明所要解决的技术问题在于：如何解决现有的研究工作中，较少考虑无人集群系统在内部状态未知的情况下的优化问题，然而在实际中，一方面由于无人机的内部状态不容易测量，另一方面由于无人机算力、存储的有限以及任务的复杂性，所以考虑一种内部状态未知的无人集群系统输出同步优化控制方法。

本发明是通过以下技术方案解决上述技术问题的，本发明包括以下步骤：

S1：根据无人集群系统各个无人机之间的连接情况，构建出所述无人集群系统的拓扑结构及拉普拉斯连接矩阵；

S2：通过状态估计器估计所述无人集群系统未知的内部状态，将所述无人机划分为领导者无人机和追随者无人机，重构无人机的局部状态误差系统，并定义性能函数；

S3：采用Q学习算法中的Actor-Critic网络结构分别近似无人机的控制动作和性能函数，采用Critic网络对所述性能函数进行近似处理，Actor网络根据所述性能函数更新无人机的控制动作；

S4：Critic网络对Actor网络近似的控制动作进行评价，Actor网络根据Critic网络的评价对控制动作进行调整，整个过程使用梯度下降更新；在训练神经网络参数时采用经验回放策略和目标网络技术，当Actor-Critic网络结构的神经网络参数不再更新时，即获取到近似优化输出一致控制策略。

本发明相比现有技术具有以下优点：

1、本发明提出了一种获取内部状态的新方法。具体而言，本发明基于输出反馈机制设计了状态估计器。与现有的内部状态重构方法相比，本发明中的方法不需要使用会导致系统不稳定的增广矩阵，而这种状态估计器能够提升系统的稳定性能。

2、本发明基于估计的内部状态，提出了一种等效系统模型来表征局部输出同步误差的动态特性，这有利于优化控制。

3、本发明的无人集群系统是系统精确模型未知的系统，相比于传统的优化方法要求精确模型已知，然而在很多实际情形中，系统精确模型未知或者不容易获取，本发明所使用的Actor-Critic框架能较好的解决系统精确模型未知的情形。

4、本发明所提出的经验重演策略和目标网络技术，可以使得无人机与环境的充分交互，同时避免了使用激励条件。仿真结果已得到验证。本发明所提出的增加经验池和目标网络技术方法能有效的提高无人机与环境的探索，最终提高系统的收敛性。

附图说明

图1是本发明的整体流程图；

图2是本发明的系统收敛过程中可能出现的拓扑图；

图3为本发明的对比实验的无人机追踪误差演变图；

图4为本发明的对比实验的无人机追踪轨迹演变图；

图5为本发明的对比实验的近似优化控制演变图；

图6为本发明的无人机追踪误差演变图；

图7为本发明的无人机追踪轨迹演变图；

图8为本发明的近似优化控制演变图；

图9为本发明中算法1，算法2和算法3的关系图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明的整体流程图；如图1所示，本实施例提供一种内部状态未知的无人集群系统输出同步优化控制方法，该方法为无人集群系统在合作竞争关系下的反同步优化控制方法，该方法包括但不限于如下步骤：

S1：根据无人集群系统各个无人机之间的连接情况，构建出所述无人集群系统的拓扑结构及拉普拉斯连接矩阵；在本发明实施例中，所述无人集群系统中，各个无人机通过一定的方式进行连接，本实施例以图2为示例拓扑结构图，一个由5个节点组成的领导者-追随者模式的无人集群系统，其中节点1、2、3、4表示追随者无人机，节点0表示领导者无人机。值得注意的是，追随者无人机4会从领导者无人机0处获取信息。

因此，所述本发明中拉普拉斯连接矩阵的相关参数为：

所述拓扑结构图表示为：G＝diag{1,1,0,0}；

所述连接矩阵表示为：

所述拉普拉斯矩阵表示为：

在本发明实施例中，所述无人集群系统包括领导者与追随者模式，每个无人机包含自身的状态信息，x_i(k)表示第i个无人机的状态信息，x_j(k)表示第j个无人机的状态信息；通过上述方式，将领导者无人机与追随者无人机采用相对应的领导者动态方程与追随者动态方程进行更新，表示为：

领导者无人机动态方程表示为：

追随者无人机动态方程表示为：

其中，x₀(k+1)表示领导者无人机在k+1时刻的状态值，x₀(k)表示领导者无人机在k时刻的状态值，y₀(k)表示领导者无人机在k时刻的控制输出，y_i(k)表示追随者无人机i在k时刻的控制输出，x_i(k+1)表示追随者无人机i在k+1时刻的状态值，x_i(k)表示追随者无人机i在k时刻的状态值，μ_i(k)表示追随者无人机i在k时刻的控制输入，A,B_i,C为不同的未知常数矩阵，这几个常数矩阵具有一定合适维度，但是其具体值是未知的。

在本发明实施例中，还需要根据所述领导者动态方程与追随者动态方程重构得到无人机的局部状态误差系统，表示为：

其中，

表示追随者无人机i在k时刻的局部状态误差系统，b_i表示追随者无人机是否能接收领导者无人机的状态信息，b_i＝1表示追随者无人机能够接收领导者无人机的信息，b_i＝0表示追随者无人机不能接收领导者无人机的信息；x₀(k)表示领导者无人机的状态信息，a_ij≥0表示追随者无人机i接收追随者无人机j的状态信息情况，a_ij＞0表示追随者无人机i能够接收追随者无人机j的状态信息，a_ij＝0表示追随者无人机i不能接收追随者无人机j的状态信息；N_i表示追随者无人机集合；

因此，所述局部状态误差系统等价为：

其中，W是观测增益矩阵；

表示追随者无人机i在k+1时刻的状态观测值与真实值之差，A,B_i,C为不同的未知常数矩阵；

表示基于重构内部状态值的局部误差系统，μ_i(k)表示追随者无人机i在k时刻的控制输入，e_iy(k)表示基于内部重构的追随者无人机i在k时刻的重构输出误差，

表示追随者无人机i在k时刻的输出误差与重构误差的差值。N_i表示追随者无人机i的邻居追随者无人机集合；

表示追随者无人机i在k时刻的状态观测值，

表示追随者无人机j在k时刻的状态观测值。

在本发明实施例中，还基于所述无人机的局部状态误差系统确定性能函数，表示为：

其中，

追随者无人机i在k时刻的性能函数，c_i(e_iy(k),μ_i(k))表示追随者无人机i在k时刻与环境交互过程中做了控制策略μ_i(k)，这个过程中，追随者无人机通过内置装置获取的具体性能消耗值，，

Q_i表示追随者无人机i的权重矩阵，Q_i≥0；R_i表示追随者无人机i的对称矩阵，R_i＞0；0＜γ＜1是折扣因子。

在发明实施例中，采用Critic网络对性能函数近似，Actor网络根据性能函数更新控制动作；

神经网络对性能函数的近似：

根据性能函数更新控制动作：

其中，

表示追随者无人机i在k时刻的性能函数，W_ci,now表示Critic网络中追随者无人机i的当前权重参数，f(·)＝tanh(·)表示激活函数，z_ci(k)表示Critic网络中包含追随者无人机i及其邻居无人机的动作信息及相关位置信息的输入向量；上标T表示转置；W_ai,now表示Actor网络中追随者无人机i的当前权重参数，

表示通过Actor网络对追随者无人机i在k时刻控制动作的近似。

在本发明实施例中，Critic网络对Actor网络近似的控制动作进行评价包括Critic网络通过性能函数的输出值来评价无人机控制动作的优劣，采用网络近似结构得出近似性能函数，采用贝尔曼方程得出贝尔曼性能函数，利用差分函数求得所述近似性能函数与所述贝尔曼性能函数的差分性能函数；使所述差分性能函数最小化，利用梯度下降法训练调整Critic网络的神经网络参数。

其中，对于Critic网络：

Critic网络通过性能函数的输出值来评价无人机控制动作的优劣，对于性能函数，由以下网络结构近似：

其中

是Critic网络包含无人机i及其邻居的动作信息及相关位置信息的输入向量，μ_-i(k)表示无人机i的邻居控制输入，f(·)＝tanh(·)表示激活函数；

采用贝尔曼方程得出贝尔曼性能函数，由贝尔曼方程得到：

其中

和

分别用Critic网络和目标Critic网络逼近，神经网络参数分别为W_ci,now和W_ci,now-；

利用差分函数求得所述近似性能函数与所述贝尔曼性能函数的差分性能函数，表示为：

目标是通过对Critic网络的训练使得函数

最小，此处用梯度下降方法来调整神经网络参数，因此，Critic网络的权重更新如下所示：

其中，W_ci,new表示Critic网络中追随者无人机i的更新权重参数，W_ci,now表示Critic网络中追随者无人机i的当前权重参数，β_ci表示Critic网络中追随者无人机i的学习率，e_ci(k)表示Critic网络中追随者无人机i在k时刻的局部状态误差系统，f(·)＝tanh(·)表示激活函数，z_ci(k)表示Critic网络中包含追随者无人机i及其邻居无人机的动作信息及相关位置信息的输入向量。

在本发明实施例中，Actor网络采用包含追随者无人机本身及其邻居无人机的局部状态误差系统信息，近似控制动作；利用近似性能函数来近似控制动作；计算出近似性能函数与期望的最终消耗目标的差值损失，使损失差值损失最小化，利用梯度下降法训练调整Actor网络的神经网络参数。

其中，对于Actor网络：

Actor网络用于近似控制策略，表示如下：

其中，

是包含agent i及其邻居信息的Actor网络的输入，U_i表示期望的最终消耗成本目标即期望系统达到一致性后，无需额外的控制，无需额外的消耗，所以Actor网络的误差可以被描述为：

用梯度下降更新网络参数，使得

函数最小。

因此，Actor网络的网络权重更新表示为：

其中，W_ai,new表示Actor网络中追随者无人机i的更新权重参数，W_ai,now表示Actor网络中追随者无人机i的当前权重参数，β_ai表示Actor网络中追随者无人机i的学习率，

表示Actor网络中追随者无人机i在k时刻的局部状态误差系统，

表示f(z_ci(k))关于z_ci(k)的偏导。

在本发明实施例中，对于Q学习算法中的控制策略更新过程，以下简称算法1，本发明采用了如下方式对其进行处理，具体的更新方式如下：

步骤1)对任意的追随者无人机进行处理初始化，同时对迭代索引l和Q函数值

以及参数ε进行初始化；

步骤2)采用动态规划的方式更新Q函数值，表示为：

步骤3)通过如下方式，更新控制策略：

步骤4)如果两次更新的Q值之差的范数小于一个给定的较小参数ε也即公式

成立，则终止迭代。否则，令l+l+1,并且重复步骤2～步骤3。

在本发明实施例中，还采用了经验回放策略来训练网络参数，以下简称算法2，具体包括如下过程：

步骤1)初始化经验池的容量D_c

步骤2)在经验池存放四元组：

步骤3)对于存放的第i个四元组，如果存入的四元组数大于经验池的容量，则删除最开始存入的元组；否则直接

从经验池里任意选一个元组进行后续的更新。

在本发明实施例中，对于改进的深度Q学习算法(Deep Q-learning)，本发明采用如下方式对其进行训练，以下简称算法3，包括如下步骤：训练修改的Deep Q-learning算法

步骤1：初始化：参数ε，折扣因子γ,学习率β_ai和β_ci,超参数τ.

和

的网络权重；

步骤2:计算Critic网络的差值

步骤3:用梯度下降法更新Critic网络的参数

步骤4:用梯度下降法更新Actor网络的参数

步骤5:τ是需要手动调的超参数用于做加权平均更新目标网络的参数：

步骤6:如果神经网络参数两次更新的差值的范数小于事先给定的较小参数ε，则认定系统收敛，迭代终止。

步骤7:否则，返回第2步

为了使得更新过程更加直观，用图9进行展示。为了验证提出的内部状态未知的最优输出同步控制方法的有效性，运用matlab进行仿真验证。本实施例以图2为实验拓扑图，一个由5个节点组成的领导者-追随者模式的无人集群系统，其中节点1、2、3、4表示追随者无人机，节点0表示领导者无人机。值得注意的是，agent 4会从领导者无人机0处获取信息。

本发明中的相关参数为：

拓扑结构表示为：G＝diag{1,1,0,0}；

连接矩阵：

拉普拉斯矩阵：

系统相关参数为：

Q₁₁＝Q₂₂＝Q₃₃＝Q₄₄＝I_2×2,R₁₁＝R₁₂＝R₁₄＝R₂₁＝R₂₂＝R₃₃＝R₃₄＝R₄₁＝R₄₃＝R₄₄＝1,

R₁₃＝R₂₃＝R₂₄＝R₃₁＝R₃₂＝R₄₂＝0，学习率β_ai＝β_ci＝0.05，折扣率γ＝0.95。

从仿真结果可看出，图3和图4分别展示了无人集群系统的误差收敛图和轨迹演化图。然后，我们可以得出无人集群系统最终实现了一致性。近似优化控制器的演化如图5所示，控制器在达到收敛之前，振荡很强。

为了进一步验证本发明的优势，可以使用与对比实验相同的无人机动态系统、拓扑结构，系统状态的初始值、Critic权重、Actor权重和其他相关参数。

将图3与图6、图4与图7在相同参数下进行比较，我们发现图6和图7中状态收敛速度更快，这意味着可本发明所提算法可以提高无人集群系统的收敛速度。为了进一步说明所提出算法的优点，图5和图8给出了比较仿真结果，以描述控制器的演变。很明显，图8中的曲线更稳定，收敛速度更快。这说明该算法可以生成性能更好的控制器。

由以往的研究可知，选择不合适的合作竞争强度参数会导致无人集群系统不稳定。因此，本发明通过设计一个自适应合作竞争强度函数，当具有合作竞争交互关系的无人集群系统最终达到反同步一致性时，相应的合作强度和竞争强度参数收敛到最佳值(见图9)，而无需手动调整协同参数，保证了系统的稳定性，提高了系统的鲁棒性。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种内部状态未知的无人集群系统输出同步优化控制方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种内部状态未知的无人集群系统输出同步优化控制方法，其特征在于：步骤S2中的状态估计器如下：

其中，W是观测增益矩阵；

表示追随者无人机i在k+1时刻的状态观测值，A,B_i,C为不同的未知常数矩阵；

追随者无人机i在k时刻的状态观测值，μ_i(k)表示追随者无人机i在k时刻的控制输入，y_i(k)表示追随者无人机i在k时刻的控制输出，

表示追随者无人机i在k时刻的控制输出观测值。

3.根据权利要求1所述的一种内部状态未知的无人集群系统输出同步优化控制方法，其特征在于：步骤S2中的领导者无人机与追随者无人机采用相对应的领导者动态方程与追随者动态方程进行更新；并根据所述领导者动态方程与追随者动态方程重构得到无人机的局部状态误差系统，基于所述无人机的局部状态误差系统确定性能函数，其中：

领导者无人机动态方程表示为：

追随者无人机动态方程表示为：

其中，x₀(k+1)表示领导者无人机在k+1时刻的状态值，x₀(k)表示领导者无人机在k时刻的状态值，y₀(k)表示领导者无人机在k时刻的控制输出，x_i(k+1)表示追随者无人机i在k+1时刻的状态值，y_i(k)表示追随者无人机i在k时刻的控制输出，x_i(k)表示追随者无人机i在k时刻的状态值，μ_i(k)表示追随者无人机i在k时刻的控制输入，A,B_i,C为不同的未知常数矩阵；

无人机的局部状态误差系统重构为：

其中，

表示追随者无人机i在k时刻的局部状态误差系统，b_i表示追随者无人机是否能接收领导者无人机的状态信息，b_i＝1表示追随者无人机能够接收领导者无人机的信息，b_i＝0表示追随者无人机不能接收领导者无人机的信息；a_ij≥0表示追随者无人机i接收追随者无人机j的状态信息情况，a_ij＞0表示追随者无人机i能够接收追随者无人机j的状态信息，a_ij＝0表示追随者无人机i不能接收追随者无人机j的状态信息；N_i表示追随者无人机i的邻居追随者无人机集合；

表示追随者无人机i在k时刻的状态观测值，

表示追随者无人机j在k时刻的状态观测值；

消耗性能函数表示为：

其中，

追随者无人机i在k时刻的消耗性能函数，c_i(e_iy(k),μ_i(k))表示追随者无人机i在k时刻与环境交互过程中做了控制策略μ_i(k)，

4.根据权利要求1所述的一种内部状态未知的无人集群系统输出同步优化控制方法，其特征在于：步骤S4中，Critic网络对Actor网络近似的控制动作进行评价包括Critic网络通过性能函数的输出值来评价无人机控制动作的优劣，采用网络近似结构得出近似性能函数，采用贝尔曼方程得出贝尔曼性能函数，利用差分函数求得所述近似性能函数与所述贝尔曼性能函数的差分性能函数；使所述差分性能函数最小化，利用梯度下降法训练调整Critic网络的神经网络参数。

5.根据权利要求4所述的一种内部状态未知的无人集群系统输出同步优化控制方法，其特征在于：步骤S4中，Critic网络的神经网络参数更新公式表示为：

其中，W_ci,new表示Critic网络中追随者无人机i的更新权重参数，W_ci,now表示Critic网络中追随者无人机i的当前权重参数，β_ci表示Critic网络中追随者无人机i的学习率，e_ci(k)表示Critic网络中性能函数差分误差，f(·)＝tanh(·)表示激活函数，z_ci(k)表示Critic网络中包含追随者无人机i及其邻居无人机的动作信息及相关位置信息的输入向量。

6.根据权利要求1所述的一种内部状态未知的无人集群系统输出同步优化控制方法，其特征在于：步骤S4中，Actor网络采用包含追随者无人机本身及其邻居无人机的局部状态误差系统信息，利用近似性能函数来近似控制动作；计算出近似性能函数与期望的最终消耗目标的差值损失，利用梯度下降法训练调整Actor网络的神经网络参数。

7.根据权利要求6所述的一种内部状态未知的无人集群系统输出同步优化控制方法，其特征在于：步骤S4中，Actor网络的神经网络参数更新公式表示为：

表示Actor网络中追随者无人机i在k时刻的局部状态误差系统，

表示f(z_ci(k))关于z_ci(k)的偏导；z_ci(k)表示Critic网络中包含追随者无人机i及其邻居无人机的动作信息及相关位置信息的输入向量。