CN114488802B - 组内决策一致多群组博弈的纳什均衡指定时间搜索方法 - Google Patents

组内决策一致多群组博弈的纳什均衡指定时间搜索方法 Download PDF

Info

Publication number
CN114488802B
CN114488802B CN202210056868.8A CN202210056868A CN114488802B CN 114488802 B CN114488802 B CN 114488802B CN 202210056868 A CN202210056868 A CN 202210056868A CN 114488802 B CN114488802 B CN 114488802B
Authority
CN
China
Prior art keywords
cluster
agent
matrix
group
game
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210056868.8A
Other languages
English (en)
Other versions
CN114488802A (zh
Inventor
周佳玲
栾萌
吕跃祖
温广辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202210056868.8A priority Critical patent/CN114488802B/zh
Publication of CN114488802A publication Critical patent/CN114488802A/zh
Application granted granted Critical
Publication of CN114488802B publication Critical patent/CN114488802B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种针对组内决策一致性约束下多群组博弈的指定时间收敛纳什均衡搜索方法,包括:根据多智能体系统构建多集群博弈问题模型,构建满足条件的通信拓扑结构,引入时间规划方法针对每个智能体设计连续时间分布式纳什均衡搜索方法,设计使得纳什均衡搜索方法实现指定时间收敛的相关参数。本发明针对组内决策一致性约束下的多群组博弈问题能够实现指定时间收敛纳什均衡搜索,为多无人集群系统在集群内部协同合作、各集群之间竞争博弈情形的决策提供了依据。

Description

组内决策一致多群组博弈的纳什均衡指定时间搜索方法
技术领域
本发明属于通信技术,涉及多智能体博弈决策技术,具体涉及一种针对组内决策一致性约束下多群组博弈的指定时间收敛纳什均衡搜索方法。
背景技术
随着人工智能的发展,无人化与智能化成为继机械化、信息化之后推动新一轮军事变革的强大动力,对战争形态产生冲击甚至颠覆性影响。未来军事作战中,将出现大规模的无人集群对抗无人集群的场景。然而,受限于通信时延,无人集群系统的通信拓扑层级不能无限延伸,从而限制了集群规模。可供解决的办法是研究多个无人集群系统,其中每个小规模无人集群系统视作一个集群,由多个这样的集群系统进行联合作战。由于多个无人集群系统任务的多样性及集群数量导致整个大系统动力学的复杂性,在实际中往往会存在任务的冲突性。此时,由于不存在全局的统一指挥者,各个无人集群之间存在着任务层面的合作与竞争关系,集群内部个体之间同样也存在合作与竞争关系。因此,亟需对这样的复杂多集群系统的多任务决策问题进行建模,通过其动力学分析演化机理,一方面为实际多无人集群系统多任务决策结果提出理论解释,另一方面用以指导多无人集群系统内部集群构架的设计与优化。现有的多集群博弈连续时间纳什均衡搜索算法中,文献(X.Zeng,S.Liang,and Y.Hong.Distributed variational equilibrium seeking of multi-coalitiongame via variational inequality approach.IFAC-PapersOnLine,,20th IFAC WorldCongress,50(1):940–945,2017.)针对一致性约束的多集群博弈问题,首先将多集群博弈的变分均衡寻求问题建模为一个分布式变分不等式问题,基于投影常微分方程的形式来求解分布式变分不等式,提出了一种新的分布式投影连续时间算法。该方案的局限性在于设计的均衡搜索算法要求集群具有相同数量的智能体且其拓扑结构相同。在此基础上,文献(X.Zeng,J.Chen,S.Liang,and Y.Hong.Generalized Nash equilibrium seekingstrategy for distributed nonsmooth multi-cluster game.Automatica,2019,103:20–26.)进一步将其推广到不同拓扑结构集群图的情形,提出了一种利用投影微分包含的分布式非光滑算法,并分析了算法的收敛性。然而,该方案的实施依赖于无向拓扑,且文献中未具体分析算法的收敛速率。文献(X.Nian,F.Niu and Z.Yang.Distributed NashEquilibrium Seeking for Multicluster Game Under Switching CommunicationTopologies.IEEE Transactions on Systems,Man,and Cybernetics:Systems,doi:10.1109/TSMC.2021.3090515.)在联合强连通的有向切换通信拓扑下,提出了一种新的基于一致性协议和梯度博弈规则的纳什均衡搜索算法,并使用领导-跟随一致性协议对集群中的所有智能体动作进行估计,从而设计了适用于智能体只知道部分决策信息的更通用的多集群博弈纳什均衡搜索算法,对于这两种算法,分别给出了局部收敛性和非局部收敛性的结果。然而,该方案未考虑集群内部的决策一致性约束。
发明内容
为解决上述问题,本发明提供了一种针对组内决策一致性约束下多群组博弈的连续时间纳什均衡搜索方法,利用时间规划方法实现指定时间的收敛。本方法考虑多个无人集群系统多任务联合作战的复杂场景,综合考虑各个无人集群系统内部的协同任务以及各个无人集群系统的作战任务,通过在多无人集群系统间及系统内部建立集群博弈模型,研究多任务集群博弈的均衡提供指定时间的快速求解方法,从集群博弈的角度为多无人集群系统多任务决策与控制问题提供解决思路。
为了达到上述目的,本发明提供如下技术方案:
一种针对组内决策一致性约束下多群组博弈的指定时间收敛纳什均衡搜索方法,包括如下步骤:
步骤1:针对多无人集群系统在集群内部协同合作、各集群之间竞争博弈的情形,为多智能体系统构建服从一致性约束集的多集群博弈模型;
步骤2:针对多智能体系统构建通信拓扑结构;
步骤3:基于时间规划方法,为每个智能体设计指定时间收敛的多任务集群博弈的均衡快速准确搜索方法。
步骤4:设计纳什均衡搜索方法实现指定时间收敛的参数条件。
进一步地,所述步骤1具体包括如下子步骤:
步骤1-1:针对多无人集群系统在内部协同任务与各个无人集群系统任务之间存在冲突性的情形,构建如下服从一致性约束集的多集群博弈模型:
其中,N为参与博弈的集群个数,集群i包含ni个智能体,为集群i的状态,编号ij表示集群i中的第j个智能体,/>为智能体ij的状态,/> 表示所有集群的联合状态,集群的状态服从的一致性约束集为二次连续可微凸函数fij(x)表示集群i中智能体j的代价函数,函数fij(x)具有Lipschitz连续梯度:即对于任意/>满足其中lij>0为Lipschitz常数。函数fi(x)为集群i的代价函数:
进一步地,所述步骤2具体包括如下子步骤:
步骤2-1:多智能体系统的通信拓扑结构描述如下:
将所有智能体间的通信拓扑建模为有向图节点集为/>边集合为/>N为参与博弈的集群个数。集群内部和不同集群间可在拓扑连边上进行有向通信。具体地,集群i包含ni个智能体,智能体集合表示为/>集群i内部的通信拓扑用诱导子图/>表示,/>编号ij表示集群i中的第j个智能体,对于智能体/>定义其在网络中的入邻居集为/>定义其集群内的入邻居集合为/>其集群内的出邻居集合/>定义图/>的邻接矩阵为/>其中/>为矩阵A的第/>行/>列的元素,如果(pq,ij)∈ε,pq≠ij,则/>否则/>定义图/>的邻接矩阵为/>其中/>为矩阵Ai的第j行l列的元素,如果(il,ij)∈εi,j≠l,则/>否则显然,A1,...,AN为矩阵A的对角块。/>定义为图/>的拉普拉斯矩阵,其中/>为矩阵L的第/>行/>列的元素,如果ij=pq,则/>否则/>
步骤2-2:多智能体系统的通信拓扑结构要求如下:
通信图和通信子图/>均是强连通的。
进一步地,所述步骤3具体包括如下子步骤:
步骤3-1:结合时间规划的方法,基于领导-跟随一致性思想为智能体估计全局的状态信息:
其中,表示智能体ij对全局状态x的估计,正常数/>满足/>dij表示智能体ij的入度:/>Tk=tk+1-tk是采样间隔,采样间隔时间序列/>被设计为
是一个收敛的无穷级数序列,即/>是有限的。
定义
步骤3-2:智能体的状态迭代律和用于梯度信息估计的辅助变量更新律设计为
其中,xij(t)表示智能体ij在时刻t的状态,为梯度信息估计项,初始化/>α是待设计正的常量。矩阵/>为行随机的,/>为在第j行m列的元素,令/>矩阵/>为列随机的,/>为在第j行m列的元素,/>每个智能体ij选择两组正参数集合/>满足以下条件:
这两组参数分别作为ij从集群内的内邻居接收的信息和发送给集群内的外邻居信息的权重。/>定义为矩阵Ri对应于特征值1的左特征向量,即满足/>vi定义为矩阵Ci对应于特征值1的右特征向量,即满足/>一种较为简单的选取方式为:
定义易得/>均是Schur矩阵。
进一步地,所述步骤4具体包括如下子步骤:
步骤4-1:要求伪梯度是强单调的,即存在常数l>0使得
其中可视为集群i的目标函数,y=[y1,y2,...yN]T为N个虚拟参与者的状态。
步骤4-2:设计组内决策一致性约束下多群组博弈的纳什均衡搜索方法实现指定时间收敛的步长参数要求如下:
其中,
σ=maxi{b1i}+γ2maxi{b2i}+γ3maxi{b3i},
为对称正定矩阵且满足/> 为对称正定矩阵且满足/> 为对称正定矩阵且满足 为图/>的拉普拉斯矩阵。
与现有技术相比,本发明具有如下优点和有益效果:
1.本发明针对各个无人集群之间存在任务层面的竞争关系,集群内部个体之间存在合作关系的情形,考虑服从组内决策一致性约束下的多群组博弈的纳什均衡搜索方法,为多无人集群系统多任务决策与控制问题提供解决思路。
2.在构造的纳什均衡快速求解方法中,基于时间规划的设计方法,引入收敛的无穷级数设计采样区间,这对于实现指定时间纳什均衡求解起着重要的作用,并大大降低了通信成本。
3.与有限时间和固定时间的相关结果相比,提出的纳什均衡快速求解方法能够达到指定时间收敛,且该方法的收敛时间不依赖初始动作和方法参数,方便根据实际需求预先确定收敛时间。
附图说明
图1是本发明的针对组内决策一致性约束下多群组博弈的指定时间收敛纳什均衡搜索方法的步骤示意图;
图2是本发明的针对组内决策一致性约束下多群组博弈的指定时间收敛纳什均衡搜索方法的具体流程示意图;
图3是本发明实例所提供的多智能体系统的通信拓扑结构图;
图4是本发明实例所提供的在指定时间1秒各智能体状态收敛到均衡上的演化图。
具体实施方式
以下将结合具体实施例对本发明提供的技术方案进行详细说明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
本发明提供了一种针对组内决策一致性约束下多群组博弈的指定时间收敛纳什均衡搜索方法,其具体步骤和流程如图1、图2所示,包括:
步骤1:针对多无人集群系统在集群内部协同合作、各集群之间竞争博弈的情形,为多智能体系统构建服从一致性约束集的多集群博弈模型,具体包括如下子步骤:
步骤1-1:针对多无人集群系统在集群内部协同合作、各集群之间竞争博弈的情形,构建如下服从一致性约束集的多集群博弈模型:
其中,N为参与博弈的集群个数,集群i包含ni个智能体,为集群i的状态,编号ij表示集群i中的第j个智能体,/>为智能体ij的状态,/> 表示所有集群的联合状态,集群的状态服从的一致性约束集为二次连续可微凸函数fij(x)表示集群i中智能体j的代价函数,函数fij(x)具有Lipschitz连续梯度:即对于任意/>满足其中lij>0为Lipschitz常数。函数fi(x)为集群i的代价函数:
步骤2:在步骤1的基础上,多智能体系统的通信拓扑须满足相应的条件才能够实现纳什均衡搜索。构建多智能体系统满足条件的通信拓扑结构,具体包括如下子步骤:
步骤2-1:多智能体系统的通信拓扑结构描述如下:
将所有智能体间的通信拓扑建模为有向图节点集为/>边集合为/>N为参与博弈的集群个数。集群内部和不同集群间可在拓扑连边上进行有向通信。具体地,集群i包含ni个智能体,智能体集合表示为/>集群i内部的通信拓扑用诱导子图/>表示,/>(i=1,2,...,N)。编号ij表示集群i中的第j个智能体,对于智能体/>定义其在网络中的入邻居集为/>定义其集群内的入邻居集合为/>其集群内的出邻居集合/>定义图/>的邻接矩阵为/>其中/>为矩阵A的第/>行/>列的元素,如果(pq,ij)∈ε,pq≠ij,则/>否则/>定义图/>的邻接矩阵为/>其中/>为矩阵Ai的第j行l列的元素,如果(il,ij)∈εi,j≠l,则/>否则显然,A1,...,AN为矩阵A的对角块。/>定义为图/>的拉普拉斯矩阵,其中/>为矩阵L的第/>行/>列的元素,如果ij=pq,则/>否则/>
步骤2-2:多智能体系统的通信拓扑结构要求如下:
通信图和通信子图/>(i=1,2,...,N)均是强连通的。
步骤3:结合时间规划方法,为每个智能体设计指定时间收敛的多任务集群博弈的均衡快速准确搜索方法。
步骤3-1:引入时间规划的方法,基于领导-跟随一致性思想为智能体估计全局的状态信息:
其中,表示智能体ij对全局状态x的估计,正常数/>满足/>dij表示智能体ij的入度:/>Tk=tk+1-tk是采样间隔,采样间隔时间序列/>被设计为
是一个收敛的无穷级数序列,即/>是有限的。
定义
步骤3-2:智能体的状态迭代律和用于梯度信息估计的辅助变量更新律设计为
其中,xij(t)表示智能体ij在时刻t的状态,为梯度信息估计项,初始化/>α是待设计正的常量。矩阵/>为行随机的,/>为在第j行m列的元素,令/>矩阵/>为列随机的,/>为在第j行m列的元素,/>每个智能体ij选择两组正参数集合/>满足以下条件:
其中这两组参数分别作为ij从集群内的内邻居接收的信息和发送给集群内的外邻居信息的权重。/>定义为矩阵Ri对应于特征值1的左特征向量,即满足/>vi定义为矩阵Ci对应于特征值1的右特征向量,即满足/>一种较为简单的选取方式为:
定义易得/>均是Schur矩阵。
步骤4:在步骤3的基础上,当设计参数满足一定条件时所设计的纳什均衡搜索方法能够指定时间收敛。给出纳什均衡求解方法实现指定时间收敛的参数条件,具体包括如下子步骤:
步骤4-1:要求伪梯度是强单调的,即存在常数l>0使得
其中可视为集群i的目标函数,y=[y1,y2,…yN]T为N个虚拟参与者的状态。
步骤4-2:设计组内决策一致性约束下多群组博弈的纳什均衡搜索方法实现指定时间收敛的步长参数要求如下:
其中,
σ=maxi{b1i}+γ2maxi{b2i}+γ3maxi{b3i},
为对称正定矩阵且满足/> 为对称正定矩阵且满足/> 为对称正定矩阵且满足 为图/>的拉普拉斯矩阵。
实施例1
步骤1:考虑N=3个集群的博弈问题,各个集群分别包含n1=3,n2=4,n3=3个智能体。智能体ij的成本函数为设置相关系数如下:m11=3,m12=11,m13=22,m21=m22=2,m23=64,m24=8,m31=60,m32=m33=4,s11=s12=s13=10,s21=s22=s23=50,s31=s32=s33=20,h11=0.35,h12=0.25,h13=0.15,h21=0.2,h22=0.1,h23=0.05,h24=0.25,h31=0.02,h32=0.08,h33=0.2.
步骤2:该多智能体系统的通信拓扑如图3所示。
步骤3:针对所设计的服从一致性约束的多群组指定时间收敛纳什均衡搜索方法,初始化节点状态选为x(t0)=[0,10,20,0,10,20,30,0,10,20]。
步骤4:设计方法参数为α=0.02。设置各个智能体的状态在指定时间1秒收敛到均衡上,其状态轨迹如图4所示。仿真结果表明,各智能体的状态在1秒时收敛到纳什均衡上,且
x*=[6.837,6.837,6.837,26.026,26.026,26.026,26.026,10.412,10.412,10.412]T
y*=[6.837,26.026,10.412]T.
需要说明的是,在附图或说明书正文中,未绘示或描述的实现方式,均为所属技术领域中普通技术人员所知的形式,并未进行详细说明。此外,上述对各元件和方法的定义并不仅限于实施例中提到的各种具体结构、形状或方式,本领域普通技术人员可对其进行简单地更改或替换。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (4)

1.一种组内决策一致多群组博弈的纳什均衡指定时间搜索方法,其特征在于,包括如下步骤:
步骤1:针对多无人集群系统在集群内部协同合作、各集群之间竞争博弈的情形,为多智能体系统构建服从一致性约束集的多集群博弈模型;
步骤2:针对多智能体系统构建通信拓扑结构;
步骤3:结合时间规划方法,为每个智能体设计指定时间收敛的多任务集群博弈均衡快速准确搜索方法;
步骤4:给出纳什均衡搜索方法实现指定时间收敛的参数条件;
所述步骤3具体包括如下子步骤:
步骤3-1:结合时间规划的方法,基于领导-跟随一致性思想为智能体估计全局的状态信息:
其中,表示智能体ij对全局状态x的估计,正常数/>满足/>dij表示智能体ij的入度:/>Tk=tk+1-tk是采样间隔,采样间隔时间序列/>被设计为
是一个收敛的无穷级数序列,即/>是有限的;
定义
步骤3-2:智能体的状态迭代律和用于梯度信息估计的辅助变量更新律设计为如下形式:
其中,xij(t)表示智能体ij在时刻t的状态,为梯度信息估计项,初始化/>α是待设计正的常量,矩阵/>为行随机的,/>为在第j行m列的元素,令/>矩阵/>为列随机的,/>为在第j行m列的元素,/>每个智能体ij选择两组正参数集合/>满足以下条件:
这两组参数分别作为ij从集群内的内邻居接收的信息和发送给集群内的外邻居信息的权重,/>定义为矩阵Ri对应于特征值1的左特征向量,即满足/>vi定义为矩阵Ci对应于特征值1的右特征向量,即满足Civi=vi,/>选取方式为:
定义易得/>均是Schur矩阵。
2.根据权利要求1所述的组内决策一致多群组博弈的纳什均衡指定时间搜索方法,其特征在于,所述步骤1具体包括如下子步骤:
步骤1-1:针对多无人集群系统在集群内部协同合作、各集群之间竞争博弈的情形,构建如下的服从一致性约束集的多集群博弈模型:
其中,N为参与博弈的集群个数,集群i包含ni个智能体,为集群i的状态,编号ij表示集群i中的第j个智能体,/>为智能体ij的状态,表示所有集群的联合状态,集群的状态服从的一致性约束集为/>二次连续可微凸函数fij(x)表示集群i中智能体j的代价函数,函数fij(x)具有Lipschitz连续梯度:即对于任意/>满足其中lij>0为Lipschitz常数,函数fi(x)为集群i的代价函数:
3.根据权利要求1所述的组内决策一致多群组博弈的纳什均衡指定时间搜索方法,其特征在于,所述步骤2具体包括如下子步骤:
步骤2-1:多智能体系统的通信拓扑结构描述如下:
将所有智能体间的通信拓扑建模为有向图G(V,E),节点集为V=V1∪…∪VN,边集合为N为参与博弈的集群个数,集群内部和不同集群间可在拓扑连边上进行有向通信,具体地,集群i包含ni个智能体,智能体集合表示为Vi={i1,i2,…,ini},集群i内部的通信拓扑用诱导子图Gi(Vi,Ei)表示,/>编号ij表示集群i中的第j个智能体,对于智能体ij∈V,定义其在网络中的入邻居集为/>定义其集群内的入邻居集合为/>其集群内的出邻居集合/>定义图G的邻接矩阵为/>其中/>为矩阵A的第/>行/>列的元素,如果(pq,ij)∈ε,pq≠ij,则/>否则/>定义图/>的邻接矩阵为其中/>为矩阵Ai的第j行l列的元素,如果(il,ij)∈εi,j≠l,则/>否则显然,A1,...,AN为矩阵A的对角块,/>定义为图G的拉普拉斯矩阵,其中/>为矩阵L的第/>行/>列的元素,如果ij=pq,则/>否则/>
步骤2-2:多智能体系统的通信拓扑结构要求如下:
通信图G(V,E)和通信子图Gi(Vi,Ei),其中,i=1,2,…,N,均是强连通的。
4.根据权利要求1所述的组内决策一致多群组博弈的纳什均衡指定时间搜索方法,其特征在于,所述步骤4具体包括如下子步骤:
步骤4-1:要求伪梯度是强单调的,即存在常数l>0使得
其中可视为集群i的目标函数,y=[y1,y2,…yN]T为N个虚拟参与者的状态;
步骤4-2:设计的组内决策一致性约束下多群组博弈的纳什均衡搜索方法实现指定时间收敛步长参数要求如下:
其中,
σ=maxi{b1i}+γ2maxi{b2i}+γ3maxi{b3i},
Wci为对称正定矩阵且满足/> 为对称正定矩阵且满足/>WM为对称正定矩阵且满足L为图G的拉普拉斯矩阵。
CN202210056868.8A 2022-01-18 2022-01-18 组内决策一致多群组博弈的纳什均衡指定时间搜索方法 Active CN114488802B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210056868.8A CN114488802B (zh) 2022-01-18 2022-01-18 组内决策一致多群组博弈的纳什均衡指定时间搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210056868.8A CN114488802B (zh) 2022-01-18 2022-01-18 组内决策一致多群组博弈的纳什均衡指定时间搜索方法

Publications (2)

Publication Number Publication Date
CN114488802A CN114488802A (zh) 2022-05-13
CN114488802B true CN114488802B (zh) 2023-11-03

Family

ID=81472207

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210056868.8A Active CN114488802B (zh) 2022-01-18 2022-01-18 组内决策一致多群组博弈的纳什均衡指定时间搜索方法

Country Status (1)

Country Link
CN (1) CN114488802B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113534660A (zh) * 2021-05-27 2021-10-22 山东大学 基于强化学习算法的多智能体系统协同控制方法及系统
CN113778619A (zh) * 2021-08-12 2021-12-10 鹏城实验室 多集群博弈的多智能体状态控制方法、装置及终端

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9785130B2 (en) * 2014-04-10 2017-10-10 Nec Corporation Decentralized energy management platform
US11657266B2 (en) * 2018-11-16 2023-05-23 Honda Motor Co., Ltd. Cooperative multi-goal, multi-agent, multi-stage reinforcement learning
US11610165B2 (en) * 2018-05-09 2023-03-21 Volvo Car Corporation Method and system for orchestrating multi-party services using semi-cooperative nash equilibrium based on artificial intelligence, neural network models,reinforcement learning and finite-state automata

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113534660A (zh) * 2021-05-27 2021-10-22 山东大学 基于强化学习算法的多智能体系统协同控制方法及系统
CN113778619A (zh) * 2021-08-12 2021-12-10 鹏城实验室 多集群博弈的多智能体状态控制方法、装置及终端

Also Published As

Publication number Publication date
CN114488802A (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
Zhang et al. Game of drones: Multi-UAV pursuit-evasion game with online motion planning by deep reinforcement learning
Du et al. A survey on multi-agent deep reinforcement learning: from the perspective of challenges and applications
CN105302153B (zh) 异构多无人机协同察打任务的规划方法
CN110782011A (zh) 一种基于强化学习的网络化多智能体系统分布式优化控制方法
Zhang et al. Collective behavior coordination with predictive mechanisms
CN110852448A (zh) 一种基于多智能体强化学习的合作型智能体的学习方法
CN111552314A (zh) 多无人机自适应编队跟踪控制方法
CN113312172B (zh) 基于适变网络的多无人机集群动态任务调度模型
Zhang et al. Dynamic mission planning algorithm for UAV formation in battlefield environment
CN114415735B (zh) 面向动态环境的多无人机分布式智能任务分配方法
CN113534660A (zh) 基于强化学习算法的多智能体系统协同控制方法及系统
Zhang et al. Multi-agent system application in accordance with game theory in bi-directional coordination network model
Duan et al. Dynamic tasks scheduling model of UAV cluster based on flexible network architecture
Moon et al. Smart manufacturing scheduling system: DQN based on cooperative edge computing
CN113487029A (zh) 一种可移植的神经网络分布式并行策略搜索方法
Sun et al. Markov decision evolutionary game theoretic learning for cooperative sensing of unmanned aerial vehicles
CN115963724A (zh) 一种基于群智激发联盟博弈的无人机集群任务分配方法
Gan et al. A new multi-agent reinforcement learning method based on evolving dynamic correlation matrix
Shen Bionic communication network and binary pigeon-inspired optimization for multiagent cooperative task allocation
CN114488802B (zh) 组内决策一致多群组博弈的纳什均衡指定时间搜索方法
CN111273697B (zh) 一种无人机群冲突解脱方法
Yu et al. An approach to coordinated control of structured unmanned swarm based on evolutionary game
CN111340324B (zh) 基于顺次分配的多层多粒度集群任务规划方法
Wang et al. Leader–follower consensus of hybrid multiagent systems based on game
CN114792187B (zh) 基于意愿和信任双重约束的群智感知团队招募方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant