CN113919485B

CN113919485B - 基于动态层级通信网络的多智能体强化学习方法及系统

Info

Publication number: CN113919485B
Application number: CN202111216476.5A
Authority: CN
Inventors: 兰旭光; 刘泽阳; 万里鹏; 睢雪; 丁季时雨; 董博; 杨皙睿
Original assignee: Second Research Institute Of Casic; Xian Jiaotong University
Current assignee: Second Research Institute Of Casic; Xian Jiaotong University
Priority date: 2021-10-19
Filing date: 2021-10-19
Publication date: 2024-03-15
Anticipated expiration: 2041-10-19
Also published as: CN113919485A

Abstract

本发明公开了一种基于动态层级通信网络的多智能体强化学习方法及系统，方法包括：S100，编码当前时刻观测信息和历史信息，获得当前时刻观测特征和依赖特征，并进行预决策；S200，基于注意力机制，根据预决策信息与观测特征，获取依赖矩阵；S300，基于最小生成树算法，动态生成层级关系网络并进行选择性有向地通信，生成联合决策并与环境交互，收集经验数据；S400，基于线性值分解网络，为每个智能体分配状态‑动作值函数，更新智能体策略网络；S500，基于内在奖励机制，根据演员‑评论家框架更新层级网络参数。在该方法中，多智能体利用动态生成的层级通信网络进行选择性的观测信息和意图信息共享，基于条件状态‑动作值分解网络和内在通信奖励，减少环境的非稳态问题，并对联合策略及层级通信协议进行高效的学习和更新。

Description

基于动态层级通信网络的多智能体强化学习方法及系统

技术领域

本发明属于人工智能强化学习领域，具体涉及一种基于动态层级通信网络的多智能体强化学习方法及系统。

背景技术

随着人工智能技术的迅速发展，智能化的决策方法在诸多行业中崭露头角。多智能体强化学习作为人工智能领域的重要分支，能够帮助多智能体在与环境自主交互的过程中，通过探索收集数据并不断地提升自身决策能力。但目前主流的多智能体深度强化学习方法容易受到联合状态-动作空间维度大、环境非稳态、通信效率低、效用分配等诸多问题，因此难以在复杂的协同任务中取得良好的效果。具体的，对多智能体系统，由于联合状态-动作空间维度随智能体数目指数增长，智能体最优策略随其他智能体策略的变化而改变，很难学习到全局的最优策略。因此，在真实的应用场景中，多智能体算法常采用集中式训练、分散式执行框架。然而，在该框架下，智能体仅能获得环境的部分信息，往往需要通过交互才能获得可信的行为策略。此外，对于使用团队奖励函数的多智能体协同任务，需要将智能体对整体的贡献值进行分解，帮助智能体学习到最优策略。为解决上述难题，如何设计一种高效的多智能体通信强化学习方法，能够在较少的智能体交互的前提下，基于智能体间自主选择的动态层级通信网络，降低训练复杂度及不稳定性，提升智能体对全局状态的信念及团队决策能力，通过自主探索学习到联合最优策略，是目前人工智能领域的一大难题。

发明内容

本发明的目的在于克服上述不足，提供一种基于动态层级通信网络的多智能体强化学习方法及系统，该方法使多智能体能够基于可微、可学习的通信协议实现有针对性的观测及意图分享，提升智能体对全局状态的信念，减少环境的非稳态性，使得智能体能够根据与环境交互得到的探索数据，自主地学习通信协议及联合策略，高效地完成协同任务。

为了达到上述目的，本发明包括以下步骤：

一种基于动态层级通信网络的多智能体强化学习方法，包括以下步骤：

S100，获取智能体当前状态和历史信息，映射为观测特征及依赖特征，生成预决策数据；

S200，基于注意力机制，将智能体的依赖特征及预决策数据分别投影到查询空间及签名空间，并通过点乘注意力获取智能体间的相互依赖程度，得到依赖矩阵；

S300，基于最小生成树算法，通过依赖矩阵动态生成层级关系网络，并完成选择性有向通信与决策，收集训练过程中的经验数据；

S400，基于线性值分解网络，基于动态层级关系网络的值函数，为每个智能体分配状态-动作值函数，更新现有的智能体策略网络；

S500，基于内在奖励方法，利用智能体通信前后策略的不确定性的变化及层级关系网络计算通信奖励，根据演员-评论家框架更新层级关系网络参数；返回S100，重复策略更新过程，直至策略收敛。

作为本发明的进一步改进，S100中，智能体使用神经网络将观测信息及历史信息/>映射为观测特征/>及依赖特征/>并生产智能预决策数据，预决策数据包括体预决策动作/>

其中，π是由智能体当前观测特征及通信信息作为输入，到智能体预决策动作的映射；在该过程中，通信信息为全0向量。

作为本发明的进一步改进，所述智能体当前状态包括所有智能体的相对地图中心位置的坐标、血量、护盾、每个智能体的单元类型以及所有智能体上一时刻的动作信息。

作为本发明的进一步改进，S200中，智能体间的相互依赖程度为：

其中，softmax表示激活函数；及/>分别表示查询隐变量及签名隐变量，即智能体的依赖特征和预决策信息在查询空间和签名空间的映射；z_k＝dim(k_i)表示签名隐变量的维度。

作为本发明的进一步改进，S300中，通过依赖矩阵动态生成层级关系网络，具体包括：

根据所述依赖矩阵计算每个智能体的流入流出权值；根据流入流出权值大小选择一个或k个智能体作层级关系网络中的根节点；之后选择与某一根节点间依赖程度最大的智能体做其子节点，插入层级关系网络中；不断扩展关系图，直至层级关系网络中包括了所有智能体；

通过多智能体的联合执行动作与环境交互情况，获取智能体执行动作的经验数据τ＝{s^t,U^t,w^d,t^t,s^t+1}；

其中，表示联合动作，/>为智能体i最终的决策动作，策略π的通信信息包括来自其他智能体加权消息/>以及意图信息L(i)表示智能体在当前层级关系中的祖先节点；通过执行联合动作，智能体与环境交互获得团队奖励值r^t；w^d为依赖矩阵。

作为本发明的进一步改进，S400中，智能体策略网络的更新式为：

其中，Q_tot表示联合状态-动作值函数，即为所有智能体在其当前观测及通信过程中获得的融合信息下，根据其真实执行动作的状态-动作函数值的加和；/>表示联合状态-动作目标值，V表示层级关系网络的值函数，B表示批采样得到的轨迹总数，b表示批采样中的轨迹标识，T表示当前轨迹的时间步总数，t表示强化学习时间步，γ表示奖励折扣因子，/>表示t时刻环境状态，/>表示智能体间的层级网络的有向图关系，θ_a表示智能体网络参数，θ_v表示层级关系网络的值函数网络参数，θ′_a表示智能体网络目标参数，θ′_v表示层级关系网络的值函数目标网络参数。

作为本发明的进一步改进，S500中，通信奖励的计算方法为：

其中，α表示内在奖励因子，N表示智能体集合，表示融合信息，x_i表示智能体的决策信心，选择最大的两个状态-动作值的方差；基于演员-评论家框架，智能体的层级关系网络参数的更新式为：

L(θ_c)＝E_{o,s,a,o′,s′～R}[(Q(s,a；θ_c)-y)²]

其中，是由智能体当前观测作为输入到智能体依赖矩阵的映射，Q表示层级关系网络的状态-动作值，y表示层级关系网络的状态-动作目标值，θ_c表示评论家网络的参数，θ′_c表示评论家目标网络的参数，θ_d表示演员网络的参数。

一种基于动态层级通信网络的多智能体强化学习系统，包括：

预决策生成模块，用于获取智能体当前状态和历史信息，映射为观测特征及依赖特征，生成预决策数据；

依赖矩阵生成模块，用于基于注意力机制，将智能体的依赖特征及预决策数据分别投影到查询空间及签名空间，并通过点乘注意力获取智能体间的相互依赖程度，得到依赖矩阵；

层级关系网络生成模块，用于基于最小生成树算法，通过依赖矩阵动态生成层级关系网络，并完成选择性有向通信与决策，收集训练过程中的经验数据；

策略网络更新模块，用于基于线性值分解网络，基于动态层级关系网络的值函数，为每个智能体分配状态-动作值函数，更新现有的智能体策略网络；

通信奖励计算模块，用于基于内在奖励方法，利用智能体通信前后策略的不确定性的变化及层级关系网络计算通信奖励，根据演员-评论家框架更新层级关系网络参数；返回重复策略更新过程，直至策略收敛。

一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述基于动态层级通信网络的多智能体强化学习方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述基于动态层级通信网络的多智能体强化学习方法的步骤。

与现有技术相比，本发明具有以下优点：

本方法通过使用动态层级通信网络，帮助智能体有效地进行观测和意图的分享，通过可微的领导-随从有向图通信协议，极大提升了意图分享的有效性及稳定性。通过使用条件状态-行为值的替代相互独立的值，极大减小了多智能体环境中存在的非稳态问题，极大地提升了联合策略更新的收敛速度、稳定性和最终性能。通过使用内在奖励方法，为动态层级通信网络结构生成通信奖励，将优化问题转化为强化学习问题，成为可参数化、可训练的网络。在方法运行的过程中，每个智能体以当前自身观测作为输入，通过动态生成的层级通信网络进行交互，根据自身观测及收到的信息进行决策，获取当前状态条件下的最优动作，执行给定任务。与现有技术相比，本方法将可训练的层级通信网络与多智能体效用分配相结合，克服了由于环境非稳态、奖励分解难、通信效率低所造成的多智能体强化学习性能低、收敛慢、获取最优联合策略难的缺陷，成功实现了一种高性能的多智能体通信强化学习方法。在已有的基准测试中，相较于之前的方法，本方法在多个任务中都取得了当前最优的性能，如星际争霸2微观控制与捕食者-被捕食者任务等。由于本方法具有高效、收敛速度快、性能高的特点，在多种游戏对抗场景中都有优异的性能表现，因此本方法的应用潜力巨大。

附图说明

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

图1为本发明基于动态层级通信网络的多智能体强化学习方法流程图；

图2为本发明的结果图；

图3为本发明的结果图(不同方法在不同任务下的平均胜率或平均累计回报值)，其中，每一张子图代表一个任务，任务名称由子图名称表示，每个任务的若干条曲线代表不同方法的性能；

图4为本发明基于动态层级通信网络的多智能体强化学习方法训练框图；

图5为本发明基于动态层级通信网络的多智能体强化学习系统框图；

图6为本发明一种电子设备示意图。

具体实施方法

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅为本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

如图1所示，本发明提出了一种基于动态层级通信网络的多智能体强化学习方法，包括以下：

S400，基于线性值分解网络，使用条件状态-动作值函数，并基于动态层级关系网络的值函数，为每个智能体分配状态-动作值函数，更新现有的智能体策略网络；

原理为通过注意力机制建模智能体间的依赖关系，基于注意力矩阵构建层级关系网络，进而完成观测与意图信息的有向的选择性通信，从而提升智能体对全局状态的信念，减少环境的非稳态性，使得智能体能够根据与环境交互得到的探索数据，自主地学习通信协议及联合策略，高效地完成协同任务。

与之前的方法相比，该方法能够在部分可观测的多智能体强化学习任务中取得更好的性能。动态生成的层级关系帮助智能体选择性地进行有向意图共享，消除了智能体间同步意图分享导致的信息欺骗，减少了环境的非稳态性，提升了智能体团队决策能力。另一方面，选择性的通信使得多智能体交互频率降低，提升了智能体之间的通信效率。

具体应用时，该方法可以帮助智能体高效地与其他智能体进行通信，通过有向地传递意图信息减小多智能体系统中的不确定性。在部分可观测的多智能体协作场景下，有极大的应用潜力。

在该方法中，多智能体利用动态生成的层级通信网络进行选择性的观测信息和意图信息共享，基于条件状态-动作值分解网络和内在通信奖励，减少环境的非稳态问题，并对联合策略及层级通信协议进行高效的学习和更新。

以下结合具体实施例，对本发明的方法进行详细说明。

如图1所示，本发明具体包括以下步骤：

步骤一，智能体通过编码当前时刻的观测信息及历史信息/>映射为观测特征及依赖特征/>并根据自身观测生成预决策数据

所述智能体当前状态包括所有智能体的相对地图中心位置的坐标、血量、护盾、每个智能体的单元类型以及所有智能体上一时刻的动作信息。

步骤二，将智能体的依赖特征及预决策信息/>通过注意力机制分别投影到查询空间及签名空间，并通过点乘注意力获取智能体间的相互依赖程度：

并获得依赖矩阵其中，softmax表示激活函数；/>及分别表示依赖特征的查询隐变量及签名隐变量，即智能体的依赖特征和预决策信息在查询空间和签名空间的映射；z_k＝dim(k_i)表示依赖特征签名隐变量的维度；

步骤三，基于最小生成树算法，通过依赖矩阵w^d生成层级关系网络w^a，智能体i选择性地有向传递特征信息和意图信息，根据自身观测信息编码来自其他智能体加权消息与意图信息/>做出最终决策/>多智能体的联合动作/>与环境交互，从环境中获得团队奖励值r^t，并收集训练过程中的经验数据τ＝{s^t,U^t,w^a,r^t,s^t+1}；

其中，其他智能体的加权消息权重的计算过程为：

其中，softmax表示激活函数；qm_i＝F(h_i)及km_i＝G(h_i)分别表示智能体观测信息的查询隐变量及签名隐变量，即智能体的通信内容在查询空间和签名空间的映射；z_km＝dim(km_i)，表示通信信息签名隐变量的维度。

其中，通过依赖矩阵w^d动态生成层级关系网络w^a，具体包括：

通过多智能体的联合执行动作与环境交互情况，获取智能体执行动作的经验数据τ＝{s^t,U^t,w^d,r^t,s^t+1}；

步骤四，基于线性值分解网络，使用联合状态-动作值函数并基于层级关系网络的值函数/>完成对每个智能体的效用分配，用L(θ_a,θ_v)更新现有的智能体策略网络；

根据从经验回放池采样得到的数据可以完成智能体策略网络的更新：

步骤五，基于内在奖励方法，利用智能体通信前后策略的不确定性的变化及层级关系网络的价值/>计算通信奖励/>根据演员-评论家框架更新层级网络参数。回到步骤一，重复策略更新过程，直至策略收敛。

通信奖励的计算方法为：

L(θ_c)＝E_{o,s,a,o′,s′～R}[(Q(s,a；θ_c)-y)²]

图2、图3为本发明的结果图(不同方法在不同任务下的平均胜率或平均累计回报值)。在星际争霸多智能体强化学习环境和捕食者-被捕食者环境中，对不同通信算法与基于动态层级通信网络的多智能体强化学习方法进行了性能对比，并以算法最终的胜率或累计回报值及学习速度作为性能的衡量标准。

图2为在星际争霸环境中，不同算法在多种任务场景下的平均胜率。图(1)为本发明和其他通信方法的性能对比图，可以看到本发明方法在最终胜率和效率上优于其他通信方法，在对手智能体较多的复杂场景中(如2c_vs_64zg和Corridor)效果显著；(2)显示本发明中比其他预先设定的通信结构和其他关系图生成方法的性能结果更优。(3)和(4)为层级通信结构在不同深度及树的数目约束下的性能比较图。

图3为捕食者-被捕食者环境中不同通信方法在不同环境设置下的性能比较图，可以看到，其他通信方法在环境惩罚设置变大过程中性能逐渐降低，而本发明方法中智能体仍能高效地学习到最优策略。

图4为本发明基于动态层级通信网络的多智能体强化学习方法训练示意图，在学习过程中，智能体首先通过观测和依赖信息编码器对当前时刻的观测信息进行编码，获得当前时刻观测和依赖特征；再基于观测特征进行预决策，利用预决策信息和依赖特征作为注意力机制的输入，建模智能体之间的依赖关系并生成依赖矩阵；基于最小生成树算法及依赖矩阵，动态地生成层级关系网络并进行有向地选择性通信，生成联合决策信息；用联合决策信息与环境进行交互，生成新的状态信息和奖励值，收集经验数据；根据从经验池中采样得到的数据，更新智能体策略网络，并基于内在奖励机制及演员-评论家框架更新层级网络参数。

该框架将基于通信的多智能体强化学习方法与效用分配进行结合，利用意图分享的方法减少了训练中其他智能体带来的环境非稳态问题，采用可训练的层级网络实现了多智能体的通信，并完成了基于条件状态-行为值的多智能体效用分配。该框架运用了深度状态-行为值和深度确定性策略梯度的学习方式，对多智能体的策略网络和动态层级通信网络实现了高效更新，使得多智能体能够学习到最优联合策略及通信拓扑结构。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述系统的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

如图5所示，本发明的另一目的在于提出一种基于动态层级通信网络的多智能体强化学习系统，包括：

通信奖励计算模块，用于基于内在奖励方法，利用智能体通信前后策略的不确定性的变化及层级关系网络计算通信奖励，根据演员-评论家框架更新层级关系网络参数；利用更新后的策略收集数据，重复策略更新过程，直至策略收敛。

如图6所示，本发明提供一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述基于动态层级通信网络的多智能体强化学习方法的步骤。

其中所述基于动态层级通信网络的多智能体强化学习方法，包括以下步骤：

本发明第四个目的是提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述基于动态层级通信网络的多智能体强化学习方法的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例，例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，A，B或C中的至少一项(个)，可以表示：A，B，C，“A和B”，“A和C”，“B和C”，或“A和B和C”，其中A，B，C可以是单个，也可以是多个。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种基于动态层级通信网络的多智能体强化学习方法，其特征在于，包括以下步骤：

S100，获取智能体当前状态和历史信息，映射为观测特征及依赖特征，生成预决策数据；所述智能体为游戏对抗场景中的捕食者-被捕食者；

所述智能体当前状态包括所有智能体的相对地图中心位置的坐标、血量、护盾、每个智能体的单元类型以及所有智能体上一时刻的动作信息；

S300中，通过依赖矩阵动态生成层级关系网络，具体包括：

根据所述依赖矩阵计算每个智能体的流入流出权值；根据流入流出权值大小选择一个或个智能体作层级关系网络中的根节点；之后选择与某一根节点间依赖程度最大的智能体做其子节点，插入层级关系网络中；不断扩展关系图，直至层级关系网络中包括了所有智能体；

通过多智能体的联合执行动作与环境交互情况，获取智能体执行动作的经验数据；

其中，表示联合动作，/>为智能体/>最终的决策动作，策略/>的通信信息包括来自其他智能体加权消息/>以及意图信息，/>表示智能体在当前层级关系中的祖先节点；通过执行联合动作，智能体与环境交互获得团队奖励值/>；/>为依赖矩阵；

2.根据权利要求1所述的基于动态层级通信网络的多智能体强化学习方法，其特征在于：S100中，智能体使用神经网络将观测信息及历史信息/>映射为观测特征及依赖特征/>，并生成智能预决策数据，预决策数据包括体预决策动作/>；

其中，是由智能体当前观测特征及通信信息作为输入，到智能体预决策动作/>的映射；在该过程中，通信信息为全0向量。

3.根据权利要求1所述的基于动态层级通信网络的多智能体强化学习方法，其特征在于：S200中，智能体间的相互依赖程度为：

其中，表示激活函数；/>及/>分别表示查询隐变量及签名隐变量，即智能体的依赖特征和预决策信息在查询空间和签名空间的映射；表示签名隐变量的维度。

4.根据权利要求1所述的基于动态层级通信网络的多智能体强化学习方法，其特征在于：S400中，智能体策略网络的更新式为：

其中，表示联合状态-动作值函数，即为所有智能体在其当前观测及通信过程中获得的融合信息下，根据其真实执行动作/>的状态-动作函数值的加和；/>表示联合状态-动作目标值，/> 表示层级关系网络的值函数，/> 表示批采样得到的轨迹总数，/> 表示批采样中的轨迹标识，/> 表示当前轨迹的时间步总数，/>表示强化学习时间步，/> 表示奖励折扣因子，/>表示/>时刻环境状态，/>表示智能体间的层级网络的有向图关系，/>表示智能体网络参数，/>表示层级关系网络的值函数网络参数，/> 表示智能体网络目标参数，/>表示层级关系网络的值函数目标网络参数。

5.根据权利要求1所述的基于动态层级通信网络的多智能体强化学习方法，其特征在于：S500中，通信奖励的计算方法为：

其中，表示内在奖励因子，/> 表示智能体集合，/>表示融合信息，/>表示智能体的决策信心，选择最大的两个状态-动作值的方差；基于演员-评论家框架，智能体的层级关系网络参数的更新式为：

其中，是由智能体当前观测作为输入到智能体依赖矩阵的映射，/> 表示层级关系网络的状态-动作值，/> 表示层级关系网络的状态-动作目标值，/>表示评论家网络的参数，/>表示评论家目标网络的参数，/>表示演员网络的参数。

6.一种基于动态层级通信网络的多智能体强化学习系统，其特征在于，包括：

预决策生成模块，用于获取智能体当前状态和历史信息，映射为观测特征及依赖特征，生成预决策数据；所述智能体为游戏对抗场景中的捕食者-被捕食者；

通过依赖矩阵动态生成层级关系网络，具体包括：

7.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1-5任一项所述基于动态层级通信网络的多智能体强化学习方法的步骤。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-5任一项所述基于动态层级通信网络的多智能体强化学习方法的步骤。