CN115496208A

CN115496208A - 协同模式多样化导向的无监督多智能体强化学习方法

Info

Publication number: CN115496208A
Application number: CN202211420475.7A
Authority: CN
Inventors: 季向阳; 蒋雨航; 邵键准
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-11-15
Filing date: 2022-11-15
Publication date: 2022-12-20
Anticipated expiration: 2042-11-15
Also published as: CN115496208B

Abstract

本申请涉及无监督多智能体强化学习技术领域，特别涉及一种协同模式多样化导向的无监督多智能体强化学习方法，包括：获取多智能体系统的多个联合策略网络；根据联合策略网络控制多个智能体进入协同模式，并获取在协同模型下与环境的交互数据；基于交互数据建立协同模式图，利用其计算协同模式差异；根据其对智能体的轨迹进行伪回报标注得到伪回报，并从经验回放样本池中采样获得完成伪回报标注的样本，通过梯度反向传播来更新联合策略网络，实现多智能体的强化学习。由此，解决了相关技术中无监督强化学习算法针对解决多智能体的情况具有局限性，且多智能体系统依赖于精心设计的环境反馈的奖励信号，导致难以有效学习到多智能体的联合策略等问题。

Description

协同模式多样化导向的无监督多智能体强化学习方法

技术领域

本申请涉及无监督多智能体强化学习技术领域，特别涉及一种协同模式多样化导向的无监督多智能体强化学习方法。

背景技术

强化学习作为一类依赖较弱的监督信号—环境反馈的奖励信号的机器学习算法，在解决序列决策问题中，展现出了出色的能力。近年来，强化学习也被应用于针对解决多智能体系统中的博弈或合作问题，发展出多智能体强化学习的研究领域。

目前，多智能体强化学习已被广泛应用于探索自动驾驶、博弈AI（如德州扑克）等多个实际应用领域。然而，强化学习算法能够使智能体达成所期望的表现，很大程度上依赖于精心设计的奖励信号，由于需要引导多个智能体学习合作关系，使得在多智能体强化学习中也变得更加具有挑战性。

相关技术中，多数无监督强化学习算法主要针对于单智能体的情形，通过鼓励智能体的不同策略分别到访具有可区分性的状态分布，来促进不同策略间的多样性，从而学习到有用的策略；使得无监督强化学习算法局限于解决单智能体的情形，在多智能体系统中，受到快速增大的状态空间和智能体之间的交互的影响，并不能很好地学习到所需要联合策略模型。

发明内容

本申请提供一种无监督多智能体强化学习方法、装置、电子设备及存储介质，以解决相关技术中无监督强化学习算法针对解决多智能体的情况具有局限性，且多智能体系统依赖于精心设计的环境反馈的奖励信号，导致难以有效学习到多智能体的联合策略等问题。

本申请第一方面实施例提供一种无监督多智能体强化学习方法，包括以下步骤：获取多智能体系统的多个联合策略网络；根据所述多个联合策略网络中任意联合策略网络控制所述多智能体系统中多个智能体进入协同模式，并获取所述多个智能体在所述协同模型下与环境的交互数据；基于所述交互数据建立所述多智能体系统在不同联合策略网络下的协同模式图，利用所述协同模式图计算不同联合策略网络之间的协同模式差异；根据所述协同模式差异对每个智能体的轨迹进行伪回报标注，得到每个智能体在每一单步的伪回报，并从经验回放样本池中采样获得完成伪回报标注的样本，通过梯度反向传播来更新多智能体系统学习得到的联合策略网络，直到满足预设停止条件，停止迭代学习，实现多智能体的强化学习。

可选地，所述协同模式与所述联合策略网络对应。

可选地，所述协同模式图用于对任一状态下的智能体间的关系进行建模，其中，所述协同模式图上的每个顶点对应于多智能体系统中的一个智能体，图上无向边的权重根据协同模式对应的协同模式函数得到。

可选地，所述基于所述交互数据建立所述多智能体系统在不同联合策略网络下的协同模式图，包括：根据所述协同模式对应的协同模式函数建立所述交互数据的协同模式图，并将所述协同模式图加入图样本池。

可选地，所述利用所述协同模式图计算不同联合策略网络之间的协同模式差异，包括：对于每一个联合策略网络，从所述联合策略网络对应的图样本池中采样得到协同模式图集合；基于所述协同模式图集合计算格罗莫夫-瓦瑟斯坦差异，利用所述格罗莫夫-瓦瑟斯坦差异构建代价矩阵，并利用预设算法求解所述代价矩阵得到不同联合策略网络之间的协同模式差异。

可选地，所述协同模式差异的定义为：

其中，

和

分别表示由联合策略

所引导出的协同模式图，

则表示协同模式图

和

的分布；

是一个联合分布，代表能将概率质量从

转移至

的双射转移方案，

表示

是联合分布集合

中的一个联合分布；

表示所有边际分布分别为

的联合分布集合；

是格罗莫夫-瓦瑟斯坦差异，

表示寻找到最优的联合分布

使得其右侧表达式取到下确界。

可选地，所述格罗莫夫-瓦瑟斯坦差异的计算公式为：

其中，

分别表示

中的俩个测度图，

表示所有测度图G的集合；

是一个定义在V上的博雷尔概率测度；i，j表示不同的智能体；V是顶点的集合；

是任意不小于1的实数，即

；

表示对测度图

中所有顶点求和；

表示对测度图

中所有顶点求和；

表示测度图

中顶点i, j间的边的权值；

表示测度图

中顶点i', j'间的边的权值；

表示将测度图

中顶点i转运到测度图

中顶点i'；

表示将测度图

中顶点j转运到测度图

中顶点j'；

表示将对应边的权值作差后取

次方；

其中，

表示T是集合

中的一个转运矩阵，

表示所有满足条件的转运矩阵的集合，具体条件为：

表示转运矩阵T作用于纬度为

的单位矩阵将得到测度

，

表示转置后的转运矩阵TT作用于纬度为

的单位矩阵将得到测度

。

本申请第二方面实施例提供一种无监督多智能体强化学习装置，包括：获取模块，用于获取多智能体系统的多个联合策略网络；控制模块，用于根据所述多个联合策略网络中任意联合策略网络控制所述多智能体系统中多个智能体进入协同模式，并获取所述多个智能体在所述协同模型下与环境的交互数据；计算模块，用于基于所述交互数据建立所述多智能体系统在不同联合策略网络下的协同模式图，利用所述协同模式图计算不同联合策略网络之间的协同模式差异；更新模块，用于根据所述协同模式差异对每个智能体的轨迹进行伪回报标注，得到每个智能体在每一单步的伪回报，并从经验回放样本池中采样获得完成伪回报标注的样本，通过梯度反向传播来更新多智能体系统学习得到的联合策略网络，直到满足预设停止条件，停止迭代学习，实现多智能体的强化学习。

本申请第三方面实施例提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如上述实施例所述的无监督多智能体强化学习方法。

本申请第四方面实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，以用于实现如上述实施例所述的无监督多智能体强化学习方法。

由此，本申请至少具有如下有益效果：

（1）本申请实施例提出协同模式图 (SPG)和协同模式差异 (DSP) 来对多智能体系统的联合策略所表现出的协同模式之间的差异进行了刻画，从而鼓励不同的联合策略表现出更多样化的协同模式，进而更有效地学习到可用、有意义的策略模型，为在环境反馈任务相关的奖励信号时迅速适应任务目标提供了更可靠的预训练模型。

（2）本申请实施例提供一种协同模式多样化导向的无监督多智能体强化学习框架，使得依赖本申请实施例习得的一系列联合策略所导向智能体间协同关系的差异尽可能大，来对智能体间关系的空间进行充分的探索，从而使得多智能体系统能够不依赖于环境反馈的奖励信号，学习到一系列多样化的、有意义的策略。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本申请实施例提供的一种无监督多智能体强化学习方法的流程图；

图2为根据本申请实施例提供的协同模式多样化导向的无监督多智能体强化学习框架中物理量关系图；

图3为根据本申请实施例提供的协同模式多样化导向的无监督多智能体强化学习框架中循环示意图；

图4为根据本申请实施例的无监督多智能体强化学习装置的示例图；

图5为根据本申请实施例的电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

强化学习作为一类依赖较弱的监督信号——环境反馈的奖励信号——的机器学习算法，在解决序列决策问题中，展现出了出色的能力。近年来，强化学习也被应用于针对解决多智能体系统中的博弈或合作问题，发展出多智能体强化学习的研究领域，特别地，在针对合作问题的多智能体强化学习中，每一个智能体被设定为受到感受野的限制，只能观测到当前状态的一部分特征（例如处在自己视野中的敌我智能体的信息、迷宫中自己周边的区域信息等），根据观测到的特征，各自通过策略模型计算得到动作，再一齐施加给环境，获得环境所反馈的、智能体间共享的奖励信号，如此反复与环境交互。

在多智能体强化学习中，所有智能体的目标就是最大化从环境反馈的总回报奖励。而目前多智能体强化学习已被广泛应用于探索自动驾驶、博弈AI（如德州扑克）等多个实际应用领域。然而强化学习算法是否能够使智能体达成所期望的表现，很大程度上依赖于精心设计的奖励信号，由于需要引导多个智能体学习合作关系，这个问题在多智能体强化学习中也变得更加具有挑战性。

与前述的经典强化学习相比，无监督强化学习致力于使得智能体在没有环境反馈的回报时，依旧能够学习一系列有用的策略和探索环境，当再次获得与任务相关的奖励信号时，这些策略可以被用作预训练模型来加速训练过程。

现有的多数无监督强化学习算法主要针对于单智能体的情形，通过鼓励智能体的不同策略分别到访具有可区分性的状态分布，来促进不同策略间的多样性，从而学习到有用的策略。然而对于多智能体系统而言，状态的空间大小会随着智能体的数量n上升而快速增长：O(n)，其中单纯对状态分布进行区分，就已经变成一种巨大的计算代价。

同时多智能体系统中每个智能体不仅与环境交互，也与其他智能体存在互动，智能体间关系的多样性更是联合策略多样性中应该考量的主要部分，而这也是现有针对单智能体的无监督强化学习算法直接应用到多智能体系统中的局限所在。

本申请实施例提供一种在无监督强化学习条件下，通过促进协同模式的多样性，来使多智能体系统学会一系列多样化的联合策略的框架，并在本申请实施例下，无需环境的奖励信号，仅通过协同模式图 (SPG) 的模型来对每个状态下的智能体间的关系进行建模，鼓励不同联合策略引导产生的协同模式图的分布之间的差异性尽可能大，进而就能够更学习到有用的多智能体的联合策略。

下面参考附图描述本申请实施例的无监督多智能体强化学习方法、装置、车辆及存储介质。具体而言，图1为本申请实施例所提供的一种无监督多智能体强化学习方法的流程示意图。

如图1所示，该无监督多智能体强化学习方法包括以下步骤：

在步骤S101中，获取多智能体系统的多个联合策略网络。

其中，联合策略网络公式为：

其中，Z是目标学习到的联合策略网络的数量；

表示以

为参数的联合策略，k表示第k组网络参数。

可以理解的是，本申请实施例通过获取多智能体系统的多个联合策略网络，以便于后续根据任意联合策略网络控制智能体系统中智能体进入协同模式。

在步骤S102中，根据多个联合策略网络中任意联合策略网络控制多智能体系统中多个智能体进入协同模式，并获取多个智能体在协同模型下与环境的交互数据。

其中，协同模式是智能体间长期表现出的合作模式/关系，分工协作、联合指挥、联合行动，在此不做具体限定。

其中，协同模式与联合策略网络对应。

可以理解的是，本申请实施例根据多个联合策略网络中任意联合策略网络控制多智能体系统中多个智能体进入协同模式，并获取多个智能体在协同模型下与环境的交互数据，以便于后续基于交互数据建立多智能体系统在不同联合策略网络下的协同模式图。

在步骤S103中，基于交互数据建立多智能体系统在不同联合策略网络下的协同模式图，利用协同模式图计算不同联合策略网络之间的协同模式差异。

其中，协同模式图可以是描述在某个状态下，多个智能体之间关系的图，在此不做具体限定。

其中，协同模式差异是为了量化不同协同模式之间的差异，协同模式差异的定义为：

其中，

和

分别表示由联合策略

所引导出的协同模式图，

则表示协同模式图

和

的分布；

是一个联合分布，代表能将概率质量从

转移至

的双射转移方案，

表示

是联合分布集合

中的一个联合分布；

表示所有边际分布分别为

的联合分布集合；

是格罗莫夫-瓦瑟斯坦差异，

表示寻找到最优的联合分布

使得其右侧表达式取到下确界。

可以理解的是，本申请实施例基于交互数据建立多智能体系统在不同联合策略网络下的协同模式图，并利用协同模式图计算不同联合策略网络之间的协同模式差异，以便于后续根据协同模式差异对每个智能体轨迹进行伪回报标注。

在本申请实施例中，协同模式图用于对任一状态下的智能体间的关系进行建模，其中，协同模式图上的每个顶点对应于多智能体系统中的一个智能体，图上无向边的权重根据协同模式对应的协同模式函数得到。

其中，协同模式函数公式为：

其中

分别是智能体i，j 的该条轨迹中的历史观测值，

是轨迹的空间，

表示由两个轨迹空间张成的空间；

表示正实数域。

其中，协同模式函数

可以是任意形式的能够描述智能体间相对关系的函数，例如两个智能体之间的相对距离。

可以理解的是，本申请实施例中协同模式图用于对任一状态下的智能体间的关系进行建模，其中每个顶点对应于多智能体系统中的一个智能体，而图上无向边的权重是根据协同模式对应的协同模式函数得到，通过对智能体件的关系使用协同模式图来建模，以刻画不同协同模式之间的差异性。

在本申请实施例中，基于交互数据建立多智能体系统在不同联合策略网络下的协同模式图，包括：根据协同模式对应的协同模式函数建立交互数据的协同模式图，并将协同模式图加入图样本池。

其中，图样本池可以是将协同模式图G加入图样本池D_Z，其公式定义为：

，其中图样本池用符号D_Z表示，初始化为一个空集合{}，并集符号U表示加入操作。

可以理解的是，本申请实施例通过协同模式对应的协同模式函数建立交互数据的协同模式图，并将协同模式图加入图样本池，以便于从本联合策略得到的协同模式图与其他联合策略得到的协同模式图的分布之间，计算出协同模式差异。

在本申请实施例中，利用协同模式图计算不同联合策略网络之间的协同模式差异，包括：对于每一个联合策略网络，从联合策略网络对应的图样本池中采样得到协同模式图集合；基于协同模式图集合计算格罗莫夫-瓦瑟斯坦差异，利用格罗莫夫-瓦瑟斯坦差异构建代价矩阵，并利用预设算法求解代价矩阵得到不同联合策略网络之间的协同模式差异。

其中，格罗莫夫-瓦瑟斯坦差异是一种量化两个图之间的距离的测度，计算公式为：

其中，

分别表示

中的俩个测度图，

表示所有测度图G的集合；

是任意不小于1的实数，即

；

表示对测度图

中所有顶点求和；

表示对测度图

中所有顶点求和；

表示测度图

中顶点i, j间的边的权值；

表示测度图

中顶点i', j'间的边的权值；

表示将测度图

中顶点i转运到测度图

中顶点i'；

表示将测度图

中顶点j转运到测度图

中顶点j'；

表示将对应边的权值作差后取

次方；

其中，

表示T是集合

中的一个转运矩阵，

表示所有满足条件的转运矩阵的集合，具体条件为：

表示转运矩阵T作用于纬度为

的单位矩阵将得到测度

，

表示转置后的转运矩阵TT作用于纬度为

的单位矩阵将得到测度

。

其中，协同模式差异是一种量化两种协同模式之间差异的测度即上述

。

其中，代价矩阵公式为：

，其中，0≤t₁≤B₁，0≤t₂≤B₂，其中，B₁≤B₂，且分别是两个SPG集合

的元素数量。

其中，

表示由策略

导出的在t₁步的协同模式图；

表示由策略

导出的在t₂步的协同模式图；

表示策略

导出的协同模式图的集合；

表示策略

导出的协同模式图的集合。

其中，预设算法可以是Sinkhorn-Knopp算法，在此不做具体限定。

可以理解的是，本申请实施例从每个联合策略网络对应的图样本池中采样得到协同模式图集合，并基于协同模式图集合计算格罗莫夫-瓦瑟斯坦差异，利用格罗莫夫-瓦瑟斯坦差异构建代价矩阵，并利用预设算法求解代价矩阵得到不同联合策略网络之间的协同模式差异，主要是通过比较一个图中的边的关系与另一个图中的边的关系，来衡量两个图之间的差异，以便于后续计算得到智能体每一单步的伪回报。

在步骤S104中，根据协同模式差异对每个智能体的轨迹进行伪回报标注，得到每个智能体在每一单步的伪回报，并从经验回放样本池中采样获得完成伪回报标注的样本，通过梯度反向传播来更新多智能体系统学习得到的联合策略网络，直到满足预设停止条件，停止迭代学习，实现多智能体的强化学习。

其中，伪回报定义为：

，其中

，

是最优运输映射函数。

其中，

表示策略

导出的轨迹；

表示由其他所有策略

各自导出的轨迹集合；

表示策略

导出的第t步的协同模式图；

表示由策略

导出的第

步的协同模式图；

表示策略

导出的协同模式图的集合；

表示策略

导出的协同模式图的集合。

其中，预设停止条件可以是联合策略网络完成给定的优化次数，在此不做具体限定。

可以理解的是，本申请实施例根据协同模式差异对每个智能体的轨迹进行伪回报标注，得到每个智能体的每个单步的伪回报，并从经验回放样本池中采样获得完成伪回报标注的样本，通过梯度反向传播来更新多智能体系统学习得到联合策略网络，直至满足设定的条件，停止迭代学习，实现多智能体的强化学习，使得依赖本申请实施例习得的一系列联合策略所导向智能体间协同关系的差异尽可能大，来对智能体间关系的空间进行充分的探索，从而使得多智能体系统能够不依赖于环境反馈的奖励信号，学习到一系列多样化的、有意义的策略。

根据本申请实施例提出的无监督多智能体强化学习方法，通过获取多智能体系统的多个联合策略网络，然后根据多个联合策略网络中任意联合策略网络控制多智能体系统中多个智能体进入协同模式，并获取在协同模型下与环境的交互数据，基于交互数据建立多智能体系统在不同联合策略网络下的协同模式图，并利用其计算不同联合策略网络之间的协同模式差异，根据协同模式差异对每个智能体的轨迹进行伪回报标注，得到每个智能体的每个单步的伪回报，并从经验回放样本池中采样获得完成伪回报标注的样本，通过梯度反向传播来更新多智能体系统学习得到联合策略网络，直至满足设定的条件，停止迭代学习，实现多智能体的强化学习，使得依赖本申请实施例习得的一系列联合策略所导向智能体间协同关系的差异尽可能大，来对智能体间关系的空间进行充分的探索，从而使得多智能体系统能够不依赖于环境反馈的奖励信号，学习到一系列多样化的、有意义的策略。由此，解决了相关技术中无监督强化学习算法针对解决多智能体的情况具有局限性，且多智能体系统依赖于精心设计的环境反馈的奖励信号，导致难以有效学习到多智能体的联合策略等问题。

下面将结合图2和图3对无监督多智能体强化学习方法进行详细阐述，具体如下：

1、一些概念定义如下：

定义一种测度图

，其中

是顶点的集合，

是顶点，

间无向边

的权重，

是一个定义在

上的博雷尔概率测度。

令

表示所有测度图G的集合，对于任意

和所有

，格罗莫夫-瓦瑟斯坦差异（GWD）可由下式得到：

（1）

其中，

分别表示

中的俩个测度图，

表示所有测度图G的集合；

是任意不小于1的实数，即

；

表示对测度图

中所有顶点求和；

表示对测度图

中所有顶点求和；

表示测度图

中顶点i, j间的边的权值；

表示测度图

中顶点i', j'间的边的权值；

表示将测度图

中顶点i转运到测度图

中顶点i'；

表示将测度图

中顶点j转运到测度图

中顶点j'；

表示将对应边的权值作差后取

次方；

其中，

表示T是集合

中的一个转运矩阵，

表示所有满足条件的转运矩阵的集合，具体条件为：

表示转运矩阵T作用于纬度为

的单位矩阵将得到测度

，

表示转置后的转运矩阵TT作用于纬度为

的单位矩阵将得到测度

。

总体上，GWD（格罗莫夫-瓦瑟斯坦差异）通过比较一个图中的边的关系与另一个图中的边的关系，来衡量两个图之间的差异。对（1）式求解可以使用Sinkhorn-Knopp 算法进行迭代求解，GWD被本申请实施例所采用来计算两个协同模式图 (SPG) 之间的距离。

本申请实施例中提出协同模式图

，（后文中将简写为

）来对任一状态下的智能体间的关系进行建模，其中图上的每个顶点v_i∈V对应于多智能体系统中的一个智能体i，图上无向边

的权重

则是根据给定的协同模式函数

得到，其中

分别是智能体

的该条轨迹中的历史观测值，

是轨迹的空间，

表示由俩个轨迹空间张成的空间；

表示正实数域。

该协同模式函数

为了量化不同协同模式之间的差异，本申请实施例提出协同模式差异 (DSP)，令

是分别由联合策略

所引导出的SPG的分布。

令

是一个能将概率质量从P₁转移至P₂的双射转移方案，其中

是所有边际分布分别为P₁，P₂的联合分布。则协同模式差异 (DSP) 被定义为：

其中，

和

分别表示由联合策略

所引导出的协同模式图，

则表示协同模式图

和

的分布；

是一个联合分布，代表能将概率质量从

转移至

的双射转移方案，

表示

是联合分布集合

中的一个联合分布；

表示所有边际分布分别为

的联合分布集合；

是格罗莫夫-瓦瑟斯坦差异，

表示寻找到最优的联合分布

使得其右侧表达式取到下确界。

2、本申请实施例的框架具体实施方案（如图2和图3所示）：

首先初始化一系列联合策略网络

，其中Z是目标学习到的联合策略网络的数量，

表示以

为参数的联合策略，k表示第k组网络参数。相应的，初始化一系列空的图样本池

和经验回放样本池

，而后在达到预设的迭代次数前，重复如下步骤1-5，示意图如图3所示。

步骤1、选取特定联合策略网络

随机选择或依次选择

，并初始化多智能体系统的联合轨迹

和所选取的策略

对应的SPG集合

。

步骤2、多智能体系统与环境交互获取数据

由联合策略网络得到联合动作a，与环境交互得到

并将数据加入轨迹中

。根据给定协同模式函数

建立该时刻的协同模式图，并将其加入SPG集合

和图样本池中

。重复本步骤2直到当前轨迹结束。

步骤3、计算联合策略两两之间的DSP

对其他的每一个联合策略网络k≠z，从其对应的图样本池中采样得到SPG集合：

，并完成如下内容。

使用Sinkhorn-Knopp 算法求解(1)式中的最优转运方案T得到

，进而得到代价矩阵

，其中，0≤t1≤B1，0≤t2≤B2，其中，B1≤B2，且分别是两个SPG集合

的元素数量。其中，

表示由策略

导出的在t1步的协同模式图；

表示由策略

导出的在t2步的协同模式图；

表示策略

导出的协同模式图的集合；

表示策略

导出的协同模式图的集合。

令单射函数

表示运输映射函数，使用Kuhn-Munkres算法求解如下最优运输问题得到

和对

间DSP的估计值：

(3)

其中，

表示策略

导出的协同模式图的集合；

表示策略

导出的协同模式图的集合；

表示对从t=0开始到t= B₁的矩阵元

进行求和。

步骤4、对轨迹进行伪回报的标注

从所有k≠z，

中，选取使得估计得到的DSP

值最小对应的k，即

。

将

和对应的最优运输映射函数

代入下式得到每一步的伪回报

：

(4)

其中

。

其中，

表示策略

导出的轨迹；

表示由其他所有策略

各自导出的轨迹集合；

表示策略

导出的第t步的协同模式图；

表示由策略

导出的第

步的协同模式图；

表示策略

导出的协同模式图的集合；

表示策略

导出的协同模式图的集合。

由 (1)式得到。

将计算得到的伪回报

标注到相应轨迹

上，并加入经验回放样本池，即

。

其中，

表示编号为Z的强化学习经验回放样本池；

表示策略

导出的轨迹；

表示从t=1开始到t=B₁的所有伪回报

组成的集合。

步骤5、训练多智能体系统的联合策略网络

从经验回放样本池中进行采样，利用多智能体强化学习算法，通过梯度反向传播来优化多智能体系统的联合策略网络

。

在具体实施中，本申请实施例对多智能体强化学习算法并没有严格的限制，并在实验中使用QMIX算法进行了验证。

综上，本申请实施例提供的方法则提出协同模式图 (SPG)和协同模式差异 (DSP)来对多智能体系统的联合策略所表现出的协同模式之间的差异进行了刻画，从而鼓励不同的联合策略表现出更多样化的协同模式，进而更有效地学习到可用、有意义的策略模型，为在环境反馈任务相关的奖励信号时迅速适应任务目标提供了更可靠的预训练模型。

其次参照附图描述根据本申请实施例提出的无监督多智能体强化学习装置。

图4是本申请实施例的无监督多智能体强化学习装置的方框示意图。

如图4所示，该无监督多智能体强化学习装置10包括：获取模块100、控制模块200、计算模块300和更新模块400。

其中，获取模块100用于获取多智能体系统的多个联合策略网络；控制模块200用于根据多个联合策略网络中任意联合策略网络控制多智能体系统中多个智能体进入协同模式，并获取多个智能体在协同模型下与环境的交互数据；计算模块300用于基于交互数据建立多智能体系统在不同联合策略网络下的协同模式图，利用协同模式图计算不同联合策略网络之间的协同模式差异；更新模块400用于根据协同模式差异对每个智能体的轨迹进行伪回报标注，得到每个智能体在每一单步的伪回报，并从经验回放样本池中采样获得完成伪回报标注的样本，通过梯度反向传播来更新多智能体系统学习得到的联合策略网络，直到满足预设停止条件，停止迭代学习，实现多智能体的强化学习。

需要说明的是，前述对无监督多智能体强化学习方法实施例的解释说明也适用于该实施例的无监督多智能体强化学习装置，此处不再赘述。

根据本申请实施例提出的无监督多智能体强化学习装置，通过获取多智能体系统的多个联合策略网络，然后根据多个联合策略网络中任意联合策略网络控制多智能体系统中多个智能体进入协同模式，并获取在协同模型下与环境的交互数据，基于交互数据建立多智能体系统在不同联合策略网络下的协同模式图，并利用其计算不同联合策略网络之间的协同模式差异，根据协同模式差异对每个智能体的轨迹进行伪回报标注，得到每个智能体的每个单步的伪回报，并从经验回放样本池中采样获得完成伪回报标注的样本，通过梯度反向传播来更新多智能体系统学习得到联合策略网络，直至满足设定的条件，停止迭代学习，实现多智能体的强化学习，使得依赖本申请实施例习得的一系列联合策略所导向智能体间协同关系的差异尽可能大，来对智能体间关系的空间进行充分的探索，从而使得多智能体系统能够不依赖于环境反馈的奖励信号，学习到一系列多样化的、有意义的策略。由此，解决了相关技术中无监督强化学习算法针对解决多智能体的情况具有局限性，且多智能体系统依赖于精心设计的环境反馈的奖励信号，导致难以有效学习到多智能体的联合策略等问题。

图5为本申请实施例提供的电子设备的结构示意图。该电子设备可以包括：

存储器501、处理器502及存储在存储器501上并可在处理器502上运行的计算机程序。

处理器502执行程序时实现上述实施例中提供的无监督多智能体强化学习方法。

进一步地，电子设备还包括：

通信接口503，用于存储器501和处理器502之间的通信。

存储器501，用于存放可在处理器502上运行的计算机程序。

存储器501可能包含高速RAM（Random Access Memory，随机存取存储器）存储器，也可能还包括非易失性存储器，例如至少一个磁盘存储器。

如果存储器501、处理器502和通信接口503独立实现，则通信接口503、存储器501和处理器502可以通过总线相互连接并完成相互间的通信。总线可以是ISA（IndustryStandard Architecture，工业标准体系结构）总线、PCI（Peripheral Component，外部设备互连）总线或EISA（Extended Industry Standard Architecture，扩展工业标准体系结构）总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器501、处理器502及通信接口503，集成在一块芯片上实现，则存储器501、处理器502及通信接口503可以通过内部接口完成相互间的通信。

处理器502可能是一个CPU（Central Processing Unit，中央处理器），或者是ASIC（Application Specific Integrated Circuit，特定集成电路），或者是被配置成实施本申请实施例的一个或多个集成电路。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上的无监督多智能体强化学习方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不是必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“N个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列，现场可编程门阵列等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。