CN115630710B

CN115630710B - 基于自组织群组的多智能体强化学习方法

Info

Publication number: CN115630710B
Application number: CN202211437431.5A
Authority: CN
Inventors: 季向阳; 邵键准; 娄志强; 张宏昌
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-11-16
Filing date: 2022-11-16
Publication date: 2023-04-11
Anticipated expiration: 2042-11-16
Also published as: CN115630710A

Abstract

本申请涉及深度强化学习技术领域，特别涉及一种基于自组织群组的多智能体强化学习方法，其中，方法包括：识别智能体为指挥者智能体或非指挥者智能体；若智能体为指挥者智能体，则基于视线范围内的一个或多个非指挥者智能体组成自组织群组，接收自组织群组内所有非指挥者智能体的个人信息，并分享本地信息和所有个人信息的共享信息至所有非指挥者智能体，基于共享信息执行目标环境的探索任务；若智能体为非指挥者智能体，则基于共享信息或本地信息执行目标环境的探索任务。由此，解决了相关技术中多智能体强化学习无法适用于未知的环境条件以及动态团队组成，无法解决多智能体强化学习中的零射泛化性等问题。

Description

基于自组织群组的多智能体强化学习方法

技术领域

本申请涉及深度强化学习技术领域，特别涉及一种基于自组织群组的多智能体强化学习方法。

背景技术

协作多智能体深度强化学习算法已广泛应用于现实场景，如无人车队、传感器网络、社会科学等。目前多智能体强化学习在各种多人游戏（如Moba（Multiplayer OnlineBattle Arena，多人在线战术竞技游戏）、星际争霸和足球）中表现出色，而其中集中训练和分布式执行（Centralized Training and Decentralized Execution，CTDE，集中训练分布式执行框架）是解决协作多智能体任务的流行框架之一，集中式训练使CTDE范式能够更好地进行智能体协作，而独立执行则使多智能体系统具有更高的效率和可扩展性。

相关技术中，经典的CTDE算法（如QMIX和MADDPG）仅限于固定数目的智能体，然而，在实际的多智能体场景中所涉及的智能体的数量往往会有所变化，因此现有的经典CTDE算法不能够满足所有智能体场景的需求。为此，一部分研究人员引入了注意力机制来同时训练不同数量的智能体，以此寻找涵盖不同团队规模范围的解决方案；另一部分引入了交流机制，以提供对动态团队组成的适应性，但是均无法做到关注其在训练范围之外的泛化性能，导致适用性较低。

发明内容

本申请提供一种多智能体强化学习方法、装置、智能体及存储介质，以解决相关技术中多智能体强化学习无法适用于未知的环境条件以及动态团队组成，无法解决多智能体强化学习中的零射泛化性等问题。

本申请第一方面实施例提供一种多智能体强化学习方法，所述方法应用于智能体，其中，包括以下步骤：识别所述智能体为指挥者智能体或非指挥者智能体，其中，每隔预设时间步，利用预设指挥者选举机制将多个智能中的一个或多个智能体选举为指挥者智能体，未被选举的智能体为非指挥者智能体；若所述智能体为所述指挥者智能体，则基于视线范围内的一个或多个非指挥者智能体组成自组织群组，接收所述自组织群组内所有非指挥者智能体的个人信息，并分享本地信息和所有个人信息的共享信息至所有非指挥者智能体，基于所述共享信息执行目标环境的探索任务；若所述智能体为所述非指挥者智能体，则基于所述共享信息或本地信息执行目标环境的探索任务。

可选地，若所述智能体为所述指挥者智能体，则基于所述视线范围内的一个或多个非指挥者智能体组成自组织群组，包括：发送成组邀请至视线范围内的所有非指挥者智能体；基于所述视线范围内响应所述成组邀请的一个或多个非指挥者智能体组成自组织群组。

可选地，所述若所述智能体为所述非指挥者智能体，则基于所述共享信息或本地信息执行目标环境的探索任务，包括：若接收到任意指挥者智能体发送的成组邀请，则随机响应所述成组邀请加入自组织群组，并基于所述自组织群组内分享的共享信息执行所述目标环境的探索任务；若未接收到任意指挥者智能体发送的成组邀请，或者离开所述指挥者智能体的视线范围内，则所述非指挥者智能体形成单智能体小组，基于所述单智能体小组的本地信息执行所述目标环境的探索任务。

可选地，所述预设指挥者选举机制包括随机指挥者选举机制、基于行列式点过程的指挥者选举机制和基于策略梯度的指挥者选举机制，其中，所述随机指挥者选举机制包括：每个智能体都有独立和相同概率被选为指挥者，小组数目的期望值由所述相同概率控制；所述基于行列式点过程的指挥者选举机制包括：将指挥者选择形式化为行列式点过程，利用所述行列式点过程对所有智能体构造的点集进行采样得到子集，将所述子集中所有元素作为指挥者；基于策略梯度的指挥者选举机制包括：基于每个时间步内所有智能体的全局状态和动作计算策略梯度，基于所述策略梯度确定每个智能体成为指挥者的概率，基于所述每个智能体成为指挥者的概率选举得到指挥者。

可选地，所述智能体包括消息总结器，其中，所述消息总结器用于从所述智能体的本地信息中提取所述智能在所述预设时间步的轨迹信息，并利用所述轨迹信息的可微分下界简化所述轨迹信息的信息量。

本申请第二方面实施例提供一种多智能体强化学习装置，所述装置应用于智能体，其中，所述装置包括：识别模块，用于识别所述智能体为指挥者智能体或非指挥者智能体，其中，每隔预设时间步，利用预设指挥者选举机制将多个智能中的一个或多个智能体选举为指挥者智能体，未被选举的智能体为非指挥者智能体；组成模块，用于若所述智能体为所述指挥者智能体，则基于视线范围内的一个或多个非指挥者智能体组成自组织群组，接收所述自组织群组内所有非指挥者智能体的个人信息，并分享本地信息和所有个人信息的共享信息至所有非指挥者智能体，基于所述共享信息执行目标环境的探索任务；执行模块，用于若所述智能体为所述非指挥者智能体，则基于所述共享信息或本地信息执行目标环境的探索任务。

可选地，所述组成模块进一步用于：发送成组邀请至视线范围内的所有非指挥者智能体；基于所述视线范围内响应所述成组邀请的一个或多个非指挥者智能体组成自组织群组。

可选地，所述执行模块进一步用于：若接收到任意指挥者智能体发送的成组邀请，则随机响应所述成组邀请加入自组织群组，并基于所述自组织群组内分享的共享信息执行所述目标环境的探索任务；若未接收到任意指挥者智能体发送的成组邀请，或者离开所述指挥者智能体的视线范围内，则所述非指挥者智能体形成单智能体小组，基于所述单智能体小组的本地信息执行所述目标环境的探索任务。

本申请第三方面实施例提供一种智能体，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如上述实施例所述的多智能体强化学习方法。

本申请第四方面实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，以用于实现如上述实施例所述的多智能体强化学习方法。

由此，本申请至少具有如下有益效果：

（1）本申请实施例通过自组织群组（SOG，Self-organized group）的方法，使得多智能体强化学习具有更好的零射泛化能力，不仅适用于动态团队组成，也适用于未知的环境条件，并对不同数量的智能体甚至是具有不同属性（如视野范围）的智能体具有很强的适应性。

（2）本申请实施例通过自组织群组的机制，智能体可以以最小的通信成本共享整个组的信息，并更有效地进行协调，而在不熟悉的场景中，指挥者整合了追随者的信息，所有小组成员在精妙的消息混合器的驱动下执行统一的命令，与非本架构的团队相比，这种组内通信机制使系统具有更好的稳定性。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本申请实施例提供的一种多智能体强化学习方法的流程图；

图2为根据本申请实施例提供的分组流程的示意图；

图3为根据本申请实施例提供的模型结构图；

图4为根据本申请实施例提供的多智能体强化学习装置的方框示意图；

图5为根据本申请实施例提供的智能体的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的多智能体强化学习方法、装置、智能体及存储介质。针对上述背景技术中提到的相关技术中多智能体强化学习无法适用于未知的环境条件以及动态团队组成，无法解决多智能体强化学习中的零射泛化性等问题，本申请提供了一种多智能体强化学习方法方法，在该方法中，通过指挥者选举机制将智能体中一个或多个智能体选举为指挥者智能体，而未被选中的智能体为非指挥者智能体，若智能体为指挥者智能体，则基于视线范围内的非指挥者智能体组成自组织群组，接收自组织群组内所有非指挥者智能体的个人信息，并分享本地信息和个人信息的共享信息至所有非指挥者智能体，使得所有智能体基于共享信息执行目标环境的探索任务，通过自组织群组的机制，智能体可以以最小的通信成本共享整个组的信息，并更有效地进行协调，因此组内通信机制使系统具有更好的稳定性，自组织群组对动态团队组成和未知环境条件具有较强的零射泛化能力。由此，解决了相关技术中多智能体强化学习无法适用于未知的环境条件以及动态团队组成，无法解决多智能体强化学习中的零射泛化性等问题。

具体而言，图1为本申请实施例所提供的一种多智能体强化学习方法的流程示意图。

如图1所示，该多智能体强化学习方法，方法应用于智能体，其中，包括以下步骤：

在步骤S101中，识别智能体为指挥者智能体或非指挥者智能体，其中，每隔预设时间步，利用预设指挥者选举机制将多个智能中的一个或多个智能体选举为指挥者智能体，未被选举的智能体为非指挥者智能体。

其中，预设时间步可以是用户设定的时间步，可根据实际情况进行具体设定或调整，在此不做具体限定。

其中，预设指挥者选举机制包括随机指挥者选举机制、基于行列式点过程的指挥者选举机制和基于策略梯度的指挥者选举机制。

可以理解的是，本申请实施例通过识别智能体并将其分为指挥者智能体或非指挥者智能体，通过每隔设定时间步，利用指挥者选举机制将多个智能中的一个或多个智能体选举为指挥者智能体，而未被选举的智能体为非指挥者智能体，将智能体分类以便于后续针对不同智能体执行对应目标环境的探索任务。

在本申请实施例中，随机指挥者选举机制包括：每个智能体都有独立和相同概率被选为指挥者，小组数目的期望值由相同概率控制；基于行列式点过程的指挥者选举机制包括：将指挥者选择形式化为行列式点过程，利用行列式点过程对所有智能体构造的点集进行采样得到子集，将子集中所有元素作为指挥者；基于策略梯度的指挥者选举机制包括：基于每个时间步内所有智能体的全局状态和动作计算策略梯度，基于策略梯度确定每个智能体成为指挥者的概率，基于每个智能体成为指挥者的概率选举得到指挥者。

其中，随机指挥者选举机制产生的结果具有均匀的概率分布，并且彼此随机独立，在此不做具体限定。

其中，行列式点过程可以是在离散有限点集y={1，2，...，n}的幂集2^y上定义概率分布的一种随机过程，在此不做具体限定。

其中，策略梯度可以输出选择所有动作的概率分布，然后基于概率选择动作，在此不做具体限定。

可以理解的是，本申请实施例将指挥者选举机制分为随机指挥者选举机制、基于行列式点过程的指挥者选举机制和基于策略梯度的指挥者选举机制，而每个指挥者选举机制都通过不同方式选取指挥者，随机指挥者选举机制可以随机选取指挥者，且每个智能体都有独立和相同的概率被选中；基于行列式点过程的指挥者选举机制可以通过将指挥者选择形式化为行列式点过程，并利用行列式点过程对所有智能体构造的点集进行采样得到子集，并将子集中所有元素作为指挥者；基于策略梯度的指挥者选举机制通过每个时间步内所有智能体的全局状态和动作计算策略梯度，并基于策略梯度确定每个智能体成为指挥者的概率，并根据概率选举得到指挥者，选举指挥者的机制能够更好地进行智能体协作，对动态团队组成和未知环境条件具有较强的零射泛化能力。

在步骤S102中，若智能体为指挥者智能体，则基于视线范围内的一个或多个非指挥者智能体组成自组织群组，接收自组织群组内所有非指挥者智能体的个人信息，并分享本地信息和所有个人信息的共享信息至所有非指挥者智能体，基于共享信息执行目标环境的探索任务。

其中，自组织群组可以通过一定范围内的非指挥者智能体之间相互配合组成的群组，在此不做具体限定。

可以理解的是，本申请实施例中若智能体是指挥者智能体，则基于视线范围内的非指挥者智能体组成自组织群组，并接收自组织群组内所有非指挥者智能体的个人信息，并分享本地信息和个人信息共享信息给所有非指挥者智能体，然后基于共享信息执行目标环境的探索任务，通过自组织群组的机制，智能体可以以最小的通信成本共享整个组的信息，并更有效地进行协调，因此组内通信机制使系统具有更好的稳定性，自组织群组对动态团队组成和未知环境条件具有较强的零射泛化能力。

在本申请实施例中，若智能体为指挥者智能体，则基于视线范围内的一个或多个非指挥者智能体组成自组织群组，包括：发送成组邀请至视线范围内的所有非指挥者智能体；基于视线范围内响应成组邀请的一个或多个非指挥者智能体组成自组织群组。

可以理解的是，本申请实施例对视线范围内的所有非指挥者智能体发送成组邀请，并对于响应邀请的非指挥者智能体组成自组织群组，使得所有群组成员能够更有效的响应整组下发的统一命令，指挥者能够更有效地进行协调相关信息，提升执行效率。

在步骤S103中，若智能体为非指挥者智能体，则基于共享信息或本地信息执行目标环境的探索任务。

可以理解的是，本申请实施例中若智能体为非指挥者智能体，则基于共享信息和本地信息执行目标环境的探索任务，提升了执行效率，使系统具有更好的稳定性。

在本申请实施例中，若智能体为非指挥者智能体，则基于共享信息或本地信息执行目标环境的探索任务，包括：若接收到任意指挥者智能体发送的成组邀请，则随机响应成组邀请加入自组织群组，并基于自组织群组内分享的共享信息执行目标环境的探索任务；若未接收到任意指挥者智能体发送的成组邀请，或者离开指挥者智能体的视线范围内，则非指挥者智能体形成单智能体小组，基于单智能体小组的本地信息执行目标环境的探索任务。

可以理解的是，本申请实施例中非指挥者智能体若是接收到任意指挥者智能体发送的成组邀请，则可以随机响应成组邀请加入自组织群组，并基于自组织群组内分享的共享信息执行目标环境的探索任务；若是非指挥者智能体未接收到任意指挥者智能体发送的成组邀请，或者离开指挥者智能体的视线范围内的智能体，则形成一个只有自己的单智能体小组，并基于单智能体小组的本地信息执行目标环境的探索任务，针对不同的非指挥者智能体形成不同的智能体群组或小组，更具灵活性，对动态团队组成和未知环境条件具有较强的零射泛化能力。

根据本申请实施例提出的多智能体强化学习方法，通过指挥者选举机制将智能体中一个或多个智能体选举为指挥者智能体，而未被选中的智能体为非指挥者智能体，若智能体为指挥者智能体，则基于视线范围内的非指挥者智能体组成自组织群组，接收自组织群组内所有非指挥者智能体的个人信息，并分享本地信息和个人信息的共享信息至所有非指挥者智能体，使得所有智能体基于共享信息执行目标环境的探索任务，通过自组织群组的机制，智能体可以以最小的通信成本共享整个组的信息，并更有效地进行协调，因此组内通信机制使系统具有更好的稳定性，自组织群组对动态团队组成和未知环境条件具有较强的零射泛化能力。由此，解决了相关技术中多智能体强化学习无法适用于未知的环境条件以及动态团队组成，无法解决多智能体强化学习中的零射泛化性等问题。

下面将结合图2和图3对多智能体强化学习方法进行详细阐述，其中，自组织群组算法主要包含三个模块：分组交流机制、指挥者选举机制、组内信息总结器，具体如下：

1、分组交流机制

小组的组织过程如下（如图2所示）：每T个时间步，一些智能体将被选为指挥者，而本申请实施例允许同时存在多个指挥者，并由指挥者向他们视线范围内的所有智能体发送组成小组邀请，当收到一个邀请的非指挥者便将其个人消息发送回组织者，而这里所指个人消息均是由消息总结器精心设计的。而对于收到多组邀请的非指挥者智能体，他们可以随机选择一个智能体作为指挥者，使得指挥者及与其交互的智能体暂时组成一个组，但是对于那些没有收到成组邀请或是在组内通信过程中离开指挥者视野范围的智能体，将会形成一个自己的单智能体小组。

小组形成后，指挥者处理来自所有追随者（包括其自身）的消息，然后将处理后的消息发送回属于该小组的每个成员，并且每个智能体只需要与其组的指挥者通信，因此大大减少了通信所需的带宽。

本申请实施例为每个指挥者提供使用一个非参的消息混合器，具体来说，就是将所有消息求和并平均。

2、指挥者选举机制（CE，Conductor Election）

本申请实施例介绍了三种指挥者选择机制：随机指挥者选举机制、基于行列式点过程（DPP，Determinantal Point Process）的指挥者选举机制和基于策略梯度的指挥者选举机制。

（1）在随机CE中，每个智能体都有独立和相同概率

被选为指挥者，其中小组数目的期望值可以由

控制，由于所有组成员只需要与邻组通信以传递消息，因此随机CE的SOG（Self-organized group，自组织群组）在执行过程中不需要集中式指挥器，因此，它可以在执行期间轻松并行化，满足CTDE（Centralized training with decentralizedexecution，集中训练，分布式执行）范式。

（2）在基于DPP（determinantal point process，行列式点过程）的指挥者选举中，本申请实施例希望通过最大化组内多样性来提高SOG的泛化能力，而考虑到指挥者是一个组的结构中心，可以通过最大化指挥者之间的差异来实现这一点。

具体来说，本申请实施例将指挥者选择形式化为一个行列式点过程：

定义1: 行列式点过程是在离散有限点集y={1，2，...，n}的幂集2^y上定义的概率分布。

一个对称半正定阵L∈R^n×n衡量了任意两个点对在y中的相似性，令B为一个从P中随机采样的子集，那么

，有：

其中，

是L的子矩阵，且其条目由C中的元素索引；I是一个n×n的单位矩阵；det代表矩阵的行列式。

在实际操作中，本申请实施例使用所有智能体来构造点集y，而DPP中的相关性始终为非正，若是两个点越相似，出现在DPP采样的子集中的可能性就越小。因此，一旦需要选择指挥者，只需通过DPP对y进行采样得到子集B，并使用B中的所有元素作为指挥者，这大大降低了选择具有类似观察结果的指挥者的概率（例如，两个地理位置上互相接近的智能体）。

而对于相似性矩阵L，本申请实施例使用智能体的个人特征V的余弦相似度：

（3）在基于策略梯度的CE中，本申请实施例将指挥者选举任务视为一个强化学习问题，因为指挥者选举可能会影响团队在之后时间点的累积奖励。

因此，本申请实施例使用全局状态输入的策略为：

并以此来决定每个代理成为指挥者的概率，并对其进行策略梯度。

其梯度

可以写成：

其中

是选举发生的时间步，即每T个时间步。s，a分别代表每个时间步团队的全局状态和动作，而基于策略梯度的指挥者考虑到了选择的长期益处，在实验中显示出很强的泛化能力。

3、组内消息总结器（MS）

本申请实施例提出了一个消息总结器，让智能体将他们的本地观测量总结为简短的隐变量，总结器可以从整个轨迹中提取有价值的信息，并降低计算复杂度。

本申请实施例首先旨在提取有关智能体i在未来T步轨迹的信息。

令

，每个智能体的信息是一个从编码器中采样的C维随机高斯变量，即

。

本申请实施例最大化了

和

之间以

为条件的条件互信息

。直接优化它本身比较困难，但是它有以下的可微分下界：

其中

为变分编码器，它仅仅用于中心化训练，不用于分布式执行。本申请实施例将这个下界的相反数定义为预测损失函数L_FP。

此外，本申请实施例期望每个智能体生成的消息有助于丢弃不相关的信息，同时保留未来轨迹的信息，这可以赋予智能体一个较小的状态表示并加速训练。本申请实施例利用了条件瓶颈信息熵瓶颈目标函数，最大化了个人消息

和未来轨迹

之间的互信息，并同时最小化了当前观测

和个人消息

之间以未来轨迹

为条件的互信息，该目标具有以下的可微分下界：

其中

是个人消息生成器，K是训练时每次采样的样本数量。本申请实施例将这个下界的相反数定义为条件信息瓶颈损失函数L_CEB。

而整体算法流程如图3所示，本申请实施例的模型是使用CTDE构建的。本申请实施例使用基于实体的输入，因此模型可以处理智能体的动态数量，而智能体的部分可观察性通过掩蔽不可见的实体来保证所有智能体共享相同的参数。值得注意的是，变分编码器

是为了包含未来T步的信息而设计的。由于在时间步t，它将GRU单元

的输出作为输入，因此

应当用于在t步之前使用消息

计算损失函数，即

。当通信发生时，如果智能体处在组j中，则它的本地Q函数使用指挥者发送的消息

作为输入的一部分，并在其他时间使用个人消息

替代。令u_t表示在时间步t用于本地Q预测的消息集。

其中Q学习的均方Bellman误差目标如下：

其中

是目标网络的参数，D是经验回放。

基于上述算法，本申请实施例在三个常用的多智能体测试环境上进行实验，包括资源收集任务、捕食者任务和一组定制的星际争霸微观管理任务。为了验证本申请实施例方法的零射泛化能力，通过在比训练更复杂的场景中评估训练模型，不仅增加了评估智能体的数量，还调整了智能体的效用，例如减少了每个智能体的视线范围。

结果表明，在所有环境上SOG比当前最先进的方法具有更好的零射泛化能力，不仅适用于动态团队组成，也适用于未知的环境条件。

综上，本申请实施例通过自组织群组的机制，智能体可以以最小的通信成本共享整个组的信息，并更有效地进行协调，而在不熟悉的场景中，指挥者可以整合了追随者的信息，所有小组成员在精妙的消息混合器的驱动下执行统一的命令，通过与非本架构的团队相比，这种组内通信机制使系统具有更好的稳定性，使得在时变的指挥者选择下，自组织群组对动态团队组成和未知环境条件具有较强的零射泛化能力。

其次参照附图描述根据本申请实施例提出的多智能体强化学习装置。

图4是本申请实施例的多智能体强化学习装置的方框示意图。

如图4所示，该多智能体强化学习装置10包括：识别模块100、组成模块200和执行模块300。

其中，识别模块100用于识别智能体为指挥者智能体或非指挥者智能体，其中，每隔预设时间步，利用预设指挥者选举机制将多个智能中的一个或多个智能体选举为指挥者智能体，未被选举的智能体为非指挥者智能体；组成模块200用于若智能体为指挥者智能体，则基于视线范围内的一个或多个非指挥者智能体组成自组织群组，接收自组织群组内所有非指挥者智能体的个人信息，并分享本地信息和所有个人信息的共享信息至所有非指挥者智能体，基于共享信息执行目标环境的探索任务；执行模块300用于若智能体为非指挥者智能体，则基于共享信息或本地信息执行目标环境的探索任务。

在本申请实施例中，组成模块200进一步用于：发送成组邀请至视线范围内的所有非指挥者智能体；基于视线范围内响应成组邀请的一个或多个非指挥者智能体组成自组织群组。

在本申请实施例中，执行模块300进一步用于：若接收到任意指挥者智能体发送的成组邀请，则随机响应成组邀请加入自组织群组，并基于自组织群组内分享的共享信息执行目标环境的探索任务；若未接收到任意指挥者智能体发送的成组邀请，或者离开指挥者智能体的视线范围内，则非指挥者智能体形成单智能体小组，基于单智能体小组的本地信息执行目标环境的探索任务。

需要说明的是，前述对多智能体强化学习方法实施例的解释说明也适用于该实施例的多智能体强化学习装置，此处不再赘述。

根据本申请实施例提出的多智能体强化学习装置，通过指挥者选举机制将智能体中一个或多个智能体选举为指挥者智能体，而未被选中的智能体为非指挥者智能体，若智能体为指挥者智能体，则基于视线范围内的非指挥者智能体组成自组织群组，接收自组织群组内所有非指挥者智能体的个人信息，并分享本地信息和个人信息的共享信息至所有非指挥者智能体，使得所有智能体基于共享信息执行目标环境的探索任务，通过自组织群组的机制，智能体可以以最小的通信成本共享整个组的信息，并更有效地进行协调，因此组内通信机制使系统具有更好的稳定性，自组织群组对动态团队组成和未知环境条件具有较强的零射泛化能力。由此，解决了相关技术中多智能体强化学习无法适用于未知的环境条件以及动态团队组成，无法解决多智能体强化学习中的零射泛化性等问题。

图5为本申请实施例提供的智能体的结构示意图。该智能体可以包括：

存储器501、处理器502及存储在存储器501上并可在处理器502上运行的计算机程序。

处理器502执行程序时实现上述实施例中提供的多智能体强化学习方法。

进一步地，智能体还包括：

通信接口503，用于存储器501和处理器502之间的通信。

存储器501，用于存放可在处理器502上运行的计算机程序。

存储器501可能包含高速RAM（Random Access Memory，随机存取存储器）存储器，也可能还包括非易失性存储器，例如至少一个磁盘存储器。

如果存储器501、处理器502和通信接口503独立实现，则通信接口503、存储器501和处理器502可以通过总线相互连接并完成相互间的通信。总线可以是ISA（IndustryStandard Architecture，工业标准体系结构）总线、PCI（Peripheral Component，外部设备互连）总线或EISA（Extended Industry Standard Architecture，扩展工业标准体系结构）总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器501、处理器502及通信接口503，集成在一块芯片上实现，则存储器501、处理器502及通信接口503可以通过内部接口完成相互间的通信。

处理器502可能是一个CPU（Central Processing Unit，中央处理器），或者是ASIC（Application Specific Integrated Circuit，特定集成电路），或者是被配置成实施本申请实施例的一个或多个集成电路。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上的多智能体强化学习方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不是必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“N个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列，现场可编程门阵列等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

Claims

1.一种多智能体强化学习方法，其特征在于，所述方法应用于智能体，其中，所述方法包括以下步骤：

识别所述智能体为指挥者智能体或非指挥者智能体，其中，每隔预设时间步，利用预设指挥者选举机制将多个智能中的一个或多个智能体选举为指挥者智能体，未被选举的智能体为非指挥者智能体；

若所述智能体为所述指挥者智能体，则基于视线范围内的一个或多个非指挥者智能体组成自组织群组，接收所述自组织群组内所有非指挥者智能体的个人信息，并分享本地信息和所有个人信息的共享信息至所有非指挥者智能体，基于所述共享信息执行目标环境的探索任务；

若所述智能体为所述非指挥者智能体，则基于所述共享信息或本地信息执行目标环境的探索任务，若接收到任意指挥者智能体发送的成组邀请，则随机响应所述成组邀请加入自组织群组，并基于所述自组织群组内分享的共享信息执行所述目标环境的探索任务；若未接收到任意指挥者智能体发送的成组邀请，或者离开所述指挥者智能体的视线范围内，则所述非指挥者智能体形成单智能体小组，基于所述单智能体小组的本地信息执行所述目标环境的探索任务。

2.根据权利要求1所述的方法，其特征在于，若所述智能体为所述指挥者智能体，则基于所述视线范围内的一个或多个非指挥者智能体组成自组织群组，包括：

发送成组邀请至视线范围内的所有非指挥者智能体；

基于所述视线范围内响应所述成组邀请的一个或多个非指挥者智能体组成自组织群组。

3.根据权利要求1所述的方法，其特征在于，所述预设指挥者选举机制包括随机指挥者选举机制、基于行列式点过程的指挥者选举机制和基于策略梯度的指挥者选举机制，其中，

所述随机指挥者选举机制包括：每个智能体都有独立和相同概率被选为指挥者，小组数目的期望值由所述相同概率控制；

所述基于行列式点过程的指挥者选举机制包括：将指挥者选择形式化为行列式点过程，利用所述行列式点过程对所有智能体构造的点集进行采样得到子集，将所述子集中所有元素作为指挥者；

基于策略梯度的指挥者选举机制包括：基于每个时间步内所有智能体的全局状态和动作计算策略梯度，基于所述策略梯度确定每个智能体成为指挥者的概率，基于所述每个智能体成为指挥者的概率选举得到指挥者。

4.根据权利要求1所述的方法，其特征在于，所述智能体包括消息总结器，其中，所述消息总结器用于从所述智能体的本地信息中提取所述智能在所述预设时间步的轨迹信息，并利用所述轨迹信息的可微分下界简化所述轨迹信息的信息量。

5.一种多智能体强化学习装置，其特征在于，所述装置应用于智能体，其中，所述装置包括：

识别模块，用于识别所述智能体为指挥者智能体或非指挥者智能体，其中，每隔预设时间步，利用预设指挥者选举机制将多个智能中的一个或多个智能体选举为指挥者智能体，未被选举的智能体为非指挥者智能体；

组成模块，用于若所述智能体为所述指挥者智能体，则基于视线范围内的一个或多个非指挥者智能体组成自组织群组，接收所述自组织群组内所有非指挥者智能体的个人信息，并分享本地信息和所有个人信息的共享信息至所有非指挥者智能体，基于所述共享信息执行目标环境的探索任务；

执行模块，用于若所述智能体为所述非指挥者智能体，则基于所述共享信息或本地信息执行目标环境的探索任务，若接收到任意指挥者智能体发送的成组邀请，则随机响应所述成组邀请加入自组织群组，并基于所述自组织群组内分享的共享信息执行所述目标环境的探索任务；若未接收到任意指挥者智能体发送的成组邀请，或者离开所述指挥者智能体的视线范围内，则所述非指挥者智能体形成单智能体小组，基于所述单智能体小组的本地信息执行所述目标环境的探索任务。

6.根据权利要求5所述的装置，其特征在于，所述组成模块进一步用于：

发送成组邀请至视线范围内的所有非指挥者智能体；

7.一种智能体，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如权利要求1-4任一项所述的多智能体强化学习方法。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行，以用于实现如权利要求1-4任一项所述的多智能体强化学习方法。