CN114488802B

CN114488802B - 组内决策一致多群组博弈的纳什均衡指定时间搜索方法

Info

Publication number: CN114488802B
Application number: CN202210056868.8A
Authority: CN
Inventors: 周佳玲; 栾萌; 吕跃祖; 温广辉
Original assignee: Individual
Current assignee: Individual
Priority date: 2022-01-18
Filing date: 2022-01-18
Publication date: 2023-11-03
Anticipated expiration: 2042-01-18
Also published as: CN114488802A

Abstract

本发明提供了一种针对组内决策一致性约束下多群组博弈的指定时间收敛纳什均衡搜索方法，包括：根据多智能体系统构建多集群博弈问题模型，构建满足条件的通信拓扑结构，引入时间规划方法针对每个智能体设计连续时间分布式纳什均衡搜索方法，设计使得纳什均衡搜索方法实现指定时间收敛的相关参数。本发明针对组内决策一致性约束下的多群组博弈问题能够实现指定时间收敛纳什均衡搜索，为多无人集群系统在集群内部协同合作、各集群之间竞争博弈情形的决策提供了依据。

Description

组内决策一致多群组博弈的纳什均衡指定时间搜索方法

技术领域

本发明属于通信技术，涉及多智能体博弈决策技术，具体涉及一种针对组内决策一致性约束下多群组博弈的指定时间收敛纳什均衡搜索方法。

背景技术

随着人工智能的发展，无人化与智能化成为继机械化、信息化之后推动新一轮军事变革的强大动力，对战争形态产生冲击甚至颠覆性影响。未来军事作战中，将出现大规模的无人集群对抗无人集群的场景。然而，受限于通信时延，无人集群系统的通信拓扑层级不能无限延伸，从而限制了集群规模。可供解决的办法是研究多个无人集群系统，其中每个小规模无人集群系统视作一个集群，由多个这样的集群系统进行联合作战。由于多个无人集群系统任务的多样性及集群数量导致整个大系统动力学的复杂性，在实际中往往会存在任务的冲突性。此时，由于不存在全局的统一指挥者，各个无人集群之间存在着任务层面的合作与竞争关系，集群内部个体之间同样也存在合作与竞争关系。因此，亟需对这样的复杂多集群系统的多任务决策问题进行建模，通过其动力学分析演化机理，一方面为实际多无人集群系统多任务决策结果提出理论解释，另一方面用以指导多无人集群系统内部集群构架的设计与优化。现有的多集群博弈连续时间纳什均衡搜索算法中，文献(X.Zeng,S.Liang,and Y.Hong.Distributed variational equilibrium seeking of multi-coalitiongame via variational inequality approach.IFAC-PapersOnLine,,20th IFAC WorldCongress,50(1):940–945,2017.)针对一致性约束的多集群博弈问题，首先将多集群博弈的变分均衡寻求问题建模为一个分布式变分不等式问题，基于投影常微分方程的形式来求解分布式变分不等式，提出了一种新的分布式投影连续时间算法。该方案的局限性在于设计的均衡搜索算法要求集群具有相同数量的智能体且其拓扑结构相同。在此基础上，文献(X.Zeng,J.Chen,S.Liang,and Y.Hong.Generalized Nash equilibrium seekingstrategy for distributed nonsmooth multi-cluster game.Automatica,2019,103:20–26.)进一步将其推广到不同拓扑结构集群图的情形，提出了一种利用投影微分包含的分布式非光滑算法，并分析了算法的收敛性。然而，该方案的实施依赖于无向拓扑，且文献中未具体分析算法的收敛速率。文献(X.Nian,F.Niu and Z.Yang.Distributed NashEquilibrium Seeking for Multicluster Game Under Switching CommunicationTopologies.IEEE Transactions on Systems,Man,and Cybernetics:Systems,doi:10.1109/TSMC.2021.3090515.)在联合强连通的有向切换通信拓扑下，提出了一种新的基于一致性协议和梯度博弈规则的纳什均衡搜索算法，并使用领导-跟随一致性协议对集群中的所有智能体动作进行估计，从而设计了适用于智能体只知道部分决策信息的更通用的多集群博弈纳什均衡搜索算法，对于这两种算法，分别给出了局部收敛性和非局部收敛性的结果。然而，该方案未考虑集群内部的决策一致性约束。

发明内容

为解决上述问题，本发明提供了一种针对组内决策一致性约束下多群组博弈的连续时间纳什均衡搜索方法，利用时间规划方法实现指定时间的收敛。本方法考虑多个无人集群系统多任务联合作战的复杂场景，综合考虑各个无人集群系统内部的协同任务以及各个无人集群系统的作战任务，通过在多无人集群系统间及系统内部建立集群博弈模型，研究多任务集群博弈的均衡提供指定时间的快速求解方法，从集群博弈的角度为多无人集群系统多任务决策与控制问题提供解决思路。

为了达到上述目的，本发明提供如下技术方案：

一种针对组内决策一致性约束下多群组博弈的指定时间收敛纳什均衡搜索方法，包括如下步骤：

步骤1：针对多无人集群系统在集群内部协同合作、各集群之间竞争博弈的情形，为多智能体系统构建服从一致性约束集的多集群博弈模型；

步骤2：针对多智能体系统构建通信拓扑结构；

步骤3：基于时间规划方法，为每个智能体设计指定时间收敛的多任务集群博弈的均衡快速准确搜索方法。

步骤4：设计纳什均衡搜索方法实现指定时间收敛的参数条件。

进一步地，所述步骤1具体包括如下子步骤：

步骤1-1：针对多无人集群系统在内部协同任务与各个无人集群系统任务之间存在冲突性的情形，构建如下服从一致性约束集的多集群博弈模型：

其中，N为参与博弈的集群个数，集群i包含n_i个智能体，为集群i的状态，编号ij表示集群i中的第j个智能体，/>为智能体ij的状态，/> 表示所有集群的联合状态，集群的状态服从的一致性约束集为二次连续可微凸函数f_ij(x)表示集群i中智能体j的代价函数，函数f_ij(x)具有Lipschitz连续梯度：即对于任意/>满足其中l_ij＞0为Lipschitz常数。函数f_i(x)为集群i的代价函数：

进一步地，所述步骤2具体包括如下子步骤：

步骤2-1：多智能体系统的通信拓扑结构描述如下：

将所有智能体间的通信拓扑建模为有向图节点集为/>边集合为/>N为参与博弈的集群个数。集群内部和不同集群间可在拓扑连边上进行有向通信。具体地，集群i包含n_i个智能体，智能体集合表示为/>集群i内部的通信拓扑用诱导子图/>表示，/>编号ij表示集群i中的第j个智能体，对于智能体/>定义其在网络中的入邻居集为/>定义其集群内的入邻居集合为/>其集群内的出邻居集合/>定义图/>的邻接矩阵为/>其中/>为矩阵A的第/>行/>列的元素，如果(pq,ij)∈ε,pq≠ij，则/>否则/>定义图/>的邻接矩阵为/>其中/>为矩阵A_i的第j行l列的元素，如果(il,ij)∈ε_i,j≠l，则/>否则显然，A₁,...,A_N为矩阵A的对角块。/>定义为图/>的拉普拉斯矩阵，其中/>为矩阵L的第/>行/>列的元素，如果ij＝pq,则/>否则/>

步骤2-2：多智能体系统的通信拓扑结构要求如下：

通信图和通信子图/>均是强连通的。

进一步地，所述步骤3具体包括如下子步骤：

步骤3-1：结合时间规划的方法，基于领导-跟随一致性思想为智能体估计全局的状态信息：

其中，表示智能体ij对全局状态x的估计，正常数/>满足/>d_ij表示智能体ij的入度：/>T_k＝t_k+1-t_k是采样间隔，采样间隔时间序列/>被设计为

是一个收敛的无穷级数序列，即/>是有限的。

定义

步骤3-2：智能体的状态迭代律和用于梯度信息估计的辅助变量更新律设计为

其中，x_ij(t)表示智能体ij在时刻t的状态，为梯度信息估计项，初始化/>为α是待设计正的常量。矩阵/>为行随机的，/>为在第j行m列的元素，令/>矩阵/>为列随机的，/>为在第j行m列的元素，/>每个智能体ij选择两组正参数集合/>和满足以下条件：

这两组参数分别作为ij从集群内的内邻居接收的信息和发送给集群内的外邻居信息的权重。/>定义为矩阵R_i对应于特征值1的左特征向量，即满足/>v_i定义为矩阵C_i对应于特征值1的右特征向量，即满足/>一种较为简单的选取方式为：

定义易得/>均是Schur矩阵。

进一步地，所述步骤4具体包括如下子步骤：

步骤4-1：要求伪梯度是强单调的，即存在常数l＞0使得

其中可视为集群i的目标函数，y＝[y₁,y₂,...y_N]^T为N个虚拟参与者的状态。

步骤4-2：设计组内决策一致性约束下多群组博弈的纳什均衡搜索方法实现指定时间收敛的步长参数要求如下：

其中，

σ＝max_i{b_1i}+γ₂max_i{b_2i}+γ₃max_i{b_3i},

为对称正定矩阵且满足/> 为对称正定矩阵且满足/> 为对称正定矩阵且满足为图/>的拉普拉斯矩阵。

与现有技术相比，本发明具有如下优点和有益效果：

1.本发明针对各个无人集群之间存在任务层面的竞争关系，集群内部个体之间存在合作关系的情形，考虑服从组内决策一致性约束下的多群组博弈的纳什均衡搜索方法，为多无人集群系统多任务决策与控制问题提供解决思路。

2.在构造的纳什均衡快速求解方法中，基于时间规划的设计方法，引入收敛的无穷级数设计采样区间，这对于实现指定时间纳什均衡求解起着重要的作用，并大大降低了通信成本。

3.与有限时间和固定时间的相关结果相比，提出的纳什均衡快速求解方法能够达到指定时间收敛，且该方法的收敛时间不依赖初始动作和方法参数，方便根据实际需求预先确定收敛时间。

附图说明

图1是本发明的针对组内决策一致性约束下多群组博弈的指定时间收敛纳什均衡搜索方法的步骤示意图；

图2是本发明的针对组内决策一致性约束下多群组博弈的指定时间收敛纳什均衡搜索方法的具体流程示意图；

图3是本发明实例所提供的多智能体系统的通信拓扑结构图；

图4是本发明实例所提供的在指定时间1秒各智能体状态收敛到均衡上的演化图。

具体实施方式

以下将结合具体实施例对本发明提供的技术方案进行详细说明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

本发明提供了一种针对组内决策一致性约束下多群组博弈的指定时间收敛纳什均衡搜索方法，其具体步骤和流程如图1、图2所示，包括：

步骤1：针对多无人集群系统在集群内部协同合作、各集群之间竞争博弈的情形，为多智能体系统构建服从一致性约束集的多集群博弈模型，具体包括如下子步骤：

步骤1-1：针对多无人集群系统在集群内部协同合作、各集群之间竞争博弈的情形，构建如下服从一致性约束集的多集群博弈模型：

步骤2：在步骤1的基础上，多智能体系统的通信拓扑须满足相应的条件才能够实现纳什均衡搜索。构建多智能体系统满足条件的通信拓扑结构，具体包括如下子步骤：

步骤2-1：多智能体系统的通信拓扑结构描述如下：

将所有智能体间的通信拓扑建模为有向图节点集为/>边集合为/>N为参与博弈的集群个数。集群内部和不同集群间可在拓扑连边上进行有向通信。具体地，集群i包含n_i个智能体，智能体集合表示为/>集群i内部的通信拓扑用诱导子图/>表示，/>(i＝1,2,...,N)。编号ij表示集群i中的第j个智能体，对于智能体/>定义其在网络中的入邻居集为/>定义其集群内的入邻居集合为/>其集群内的出邻居集合/>定义图/>的邻接矩阵为/>其中/>为矩阵A的第/>行/>列的元素，如果(pq,ij)∈ε,pq≠ij，则/>否则/>定义图/>的邻接矩阵为/>其中/>为矩阵A_i的第j行l列的元素，如果(il,ij)∈ε_i,j≠l，则/>否则显然，A₁,...,A_N为矩阵A的对角块。/>定义为图/>的拉普拉斯矩阵，其中/>为矩阵L的第/>行/>列的元素，如果ij＝pq,则/>否则/>

步骤2-2：多智能体系统的通信拓扑结构要求如下：

通信图和通信子图/>(i＝1,2,...,N)均是强连通的。

步骤3：结合时间规划方法，为每个智能体设计指定时间收敛的多任务集群博弈的均衡快速准确搜索方法。

步骤3-1：引入时间规划的方法，基于领导-跟随一致性思想为智能体估计全局的状态信息：

是一个收敛的无穷级数序列，即/>是有限的。

定义

其中这两组参数分别作为ij从集群内的内邻居接收的信息和发送给集群内的外邻居信息的权重。/>定义为矩阵R_i对应于特征值1的左特征向量，即满足/>v_i定义为矩阵C_i对应于特征值1的右特征向量，即满足/>一种较为简单的选取方式为：

定义易得/>均是Schur矩阵。

步骤4：在步骤3的基础上，当设计参数满足一定条件时所设计的纳什均衡搜索方法能够指定时间收敛。给出纳什均衡求解方法实现指定时间收敛的参数条件，具体包括如下子步骤：

步骤4-1：要求伪梯度是强单调的，即存在常数l＞0使得

其中可视为集群i的目标函数，y＝[y₁,y₂,…y_N]^T为N个虚拟参与者的状态。

其中，

σ＝max_i{b_1i}+γ₂max_i{b_2i}+γ₃max_i{b_3i},

实施例1

步骤1：考虑N＝3个集群的博弈问题，各个集群分别包含n₁＝3,n₂＝4,n₃＝3个智能体。智能体ij的成本函数为设置相关系数如下：m₁₁＝3,m₁₂＝11,m₁₃＝22,m₂₁＝m₂₂＝2,m₂₃＝64,m₂₄＝8,m₃₁＝60,m₃₂＝m₃₃＝4,s₁₁＝s₁₂＝s₁₃＝10,s₂₁＝s₂₂＝s₂₃＝50,s₃₁＝s₃₂＝s₃₃＝20,h₁₁＝0.35,h₁₂＝0.25,h₁₃＝0.15,h₂₁＝0.2,h₂₂＝0.1,h₂₃＝0.05,h₂₄＝0.25,h₃₁＝0.02,h₃₂＝0.08,h₃₃＝0.2.

步骤2：该多智能体系统的通信拓扑如图3所示。

步骤3：针对所设计的服从一致性约束的多群组指定时间收敛纳什均衡搜索方法，初始化节点状态选为x(t₀)＝[0,10,20,0,10,20,30,0,10,20]。

步骤4：设计方法参数为α＝0.02。设置各个智能体的状态在指定时间1秒收敛到均衡上，其状态轨迹如图4所示。仿真结果表明，各智能体的状态在1秒时收敛到纳什均衡上，且

x*＝[6.837,6.837,6.837,26.026,26.026,26.026,26.026,10.412,10.412,10.412]^T，

y*＝[6.837,26.026,10.412]^T.

需要说明的是，在附图或说明书正文中，未绘示或描述的实现方式，均为所属技术领域中普通技术人员所知的形式，并未进行详细说明。此外，上述对各元件和方法的定义并不仅限于实施例中提到的各种具体结构、形状或方式，本领域普通技术人员可对其进行简单地更改或替换。

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种组内决策一致多群组博弈的纳什均衡指定时间搜索方法，其特征在于，包括如下步骤：

步骤2：针对多智能体系统构建通信拓扑结构；

步骤3：结合时间规划方法，为每个智能体设计指定时间收敛的多任务集群博弈均衡快速准确搜索方法；

步骤4：给出纳什均衡搜索方法实现指定时间收敛的参数条件；

所述步骤3具体包括如下子步骤：

是一个收敛的无穷级数序列，即/>是有限的；

定义

步骤3-2：智能体的状态迭代律和用于梯度信息估计的辅助变量更新律设计为如下形式：

其中，x_ij(t)表示智能体ij在时刻t的状态，为梯度信息估计项，初始化/>为α是待设计正的常量，矩阵/>为行随机的，/>为在第j行m列的元素，令/>矩阵/>为列随机的，/>为在第j行m列的元素，/>每个智能体ij选择两组正参数集合/>和满足以下条件：

这两组参数分别作为ij从集群内的内邻居接收的信息和发送给集群内的外邻居信息的权重，/>定义为矩阵R_i对应于特征值1的左特征向量，即满足/>v_i定义为矩阵C_i对应于特征值1的右特征向量，即满足C_iv_i＝v_i,/>选取方式为：

定义易得/>均是Schur矩阵。

2.根据权利要求1所述的组内决策一致多群组博弈的纳什均衡指定时间搜索方法，其特征在于，所述步骤1具体包括如下子步骤：

步骤1-1：针对多无人集群系统在集群内部协同合作、各集群之间竞争博弈的情形，构建如下的服从一致性约束集的多集群博弈模型：

其中，N为参与博弈的集群个数，集群i包含n_i个智能体，为集群i的状态，编号ij表示集群i中的第j个智能体，/>为智能体ij的状态，表示所有集群的联合状态，集群的状态服从的一致性约束集为/>二次连续可微凸函数f_ij(x)表示集群i中智能体j的代价函数，函数f_ij(x)具有Lipschitz连续梯度：即对于任意/>满足其中l_ij＞0为Lipschitz常数，函数f_i(x)为集群i的代价函数：

3.根据权利要求1所述的组内决策一致多群组博弈的纳什均衡指定时间搜索方法，其特征在于，所述步骤2具体包括如下子步骤：

步骤2-1：多智能体系统的通信拓扑结构描述如下：

将所有智能体间的通信拓扑建模为有向图G(V,E)，节点集为V＝V₁∪…∪V_N，边集合为N为参与博弈的集群个数，集群内部和不同集群间可在拓扑连边上进行有向通信，具体地，集群i包含n_i个智能体，智能体集合表示为V_i＝{i1,i2,…,in_i}，集群i内部的通信拓扑用诱导子图G_i(V_i,E_i)表示，/>编号ij表示集群i中的第j个智能体，对于智能体ij∈V，定义其在网络中的入邻居集为/>定义其集群内的入邻居集合为/>其集群内的出邻居集合/>定义图G的邻接矩阵为/>其中/>为矩阵A的第/>行/>列的元素，如果(pq,ij)∈ε,pq≠ij，则/>否则/>定义图/>的邻接矩阵为其中/>为矩阵A_i的第j行l列的元素，如果(il,ij)∈ε_i,j≠l，则/>否则显然，A₁,...,A_N为矩阵A的对角块，/>定义为图G的拉普拉斯矩阵，其中/>为矩阵L的第/>行/>列的元素，如果ij＝pq,则/>否则/>

步骤2-2：多智能体系统的通信拓扑结构要求如下：

通信图G(V,E)和通信子图G_i(V_i,E_i)，其中，i＝1，2，…，N，均是强连通的。

4.根据权利要求1所述的组内决策一致多群组博弈的纳什均衡指定时间搜索方法，其特征在于，所述步骤4具体包括如下子步骤：

步骤4-1：要求伪梯度是强单调的，即存在常数l＞0使得

其中可视为集群i的目标函数，y＝[y₁,y₂,…y_N]^T为N个虚拟参与者的状态；

步骤4-2：设计的组内决策一致性约束下多群组博弈的纳什均衡搜索方法实现指定时间收敛步长参数要求如下：

其中，

σ＝max_i{b_1i}+γ₂max_i{b_2i}+γ₃max_i{b_3i},

W_ci为对称正定矩阵且满足/> 为对称正定矩阵且满足/>W_M为对称正定矩阵且满足L为图G的拉普拉斯矩阵。