CN111898770A

CN111898770A - 一种多智能体强化学习方法、电子设备及存储介质

Info

Publication number: CN111898770A
Application number: CN202011049089.2A
Authority: CN
Inventors: 李辉; 吴昊霖
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2020-09-29
Filing date: 2020-09-29
Publication date: 2020-11-06
Anticipated expiration: 2040-09-29
Also published as: CN111898770B

Abstract

本申请提供了一种多智能体强化学习方法、电子设备及存储介质，该方法可以包括如下步骤：（1）针对多智能体系统中的每个单位构建一个智能体；（2）每个智能体依次与环境交互，获得奖励函数；（3）通过值函数融合模块将每个智能体的个体值函数融合成全局值函数；（4）针对所有智能体的全局值函数进行训练；（5）依次针对每个智能体的个体值函数进行训练；（6）判断是否达到预定的训练总次数，是则退出训练，否则返回步骤（2）继续训练。该方法使用所有智能体的全局值函数，可以兼顾所有个体值函数的更新，促使智能体之间的协作，以获取更大的集体利益，通过两种值函数的共同更新，提高训练效率。

Description

一种多智能体强化学习方法、电子设备及存储介质

技术领域

本公开实施例涉及机器学习领域，具体而言，涉及一种多智能体强化学习方法、电子设备及存储介质。

背景技术

强化学习智能体可通过与环境进行交互的方式完成行为策略的自主学习，因此在诸如机器臂控制、棋牌类游戏以及游戏等单智能体领域的任务中获得成功应用。但是，现实生活中的很多任务往往需要多个智能体通过协作完成，如物流机器人、无人驾驶、大型即时战略游戏等任务。因此，多智能体强化学习在近年来愈发受到关注。

在协作型多智能体任务中，由于通信限制，每个智能体通常只能感知到自己可视范围内的局部信息。如果每个智能体根据各自的局部信息进行学习，则智能体之间很难形成有效的协作。现有的方法很难判断究竟是哪一些智能体的动作带来了奖励函数的改变，因而有可能训练得到一个鼓励该智能体进行无效动作的策略。所以，该问题导致在训练过程中无法对每个智能体的策略学习进行针对性的调整，继而导致训练效率的降低。

发明内容

本申请提供一种多智能体强化学习方法、电子设备及存储介质，旨在解决上述背景技术中所提到的问题。

本申请第一方面提供了一种多智能体强化学习方法，所述方法包括：

S110、对多智能体的每个单位构建一个智能体，每个智能体包括在线智能体网络和目标智能体网络；

S120、对所述多智能体构建值函数融合网络，所述值函数融合网络包括在线融合网络和目标融合网络；

S130、执行动作决策阶段，每个智能体的所述在线智能体网络根据该智能体的当前时刻局部信息

，计算得到该智能体的所有的当前时刻个体值函数，并基于该智能体的所有的当前时刻个体值函数输出该智能体的当前时刻动作决策

，并在环境中执行该动作决策，以得到该智能体的下一时刻局部信息

；当所有智能体执行各自的当前时刻动作决策后，环境返回一个所有智能体共享的奖励函数

；

S140、模型训练阶段，将所有智能体所执行的各自当前动作决策

对应的当前时刻个体值函数

输入所述在线融合网络,得到当前时刻实际全局值函数

；每个智能体依次将各自的下一时刻个体局部信息

输入到各自的目标智能体网络，得到下一时刻各自的所有个体值函数，并从中选择最大的下一时刻个体值函数

；将所有智能体的最大的下一时刻个体值函数输入所述目标融合网络，得到下一时刻的最优全局值函数

；

S150、利用所述当前时刻实际全局值函数

和所述下一时刻最优全局值函数

，对所述在线智能体网络和所述在线融合网络进行训练，对所述在线智能网络体的参数和所述在线融合网络的网络参数进行更新；

S160、对所述多智能体中的第i个智能体，当第i个智能体的当前时刻个体值函数的更新目标大于第i个智能体的当前时刻个体值函数

时，利用第i个智能体的最大的下一时刻个体值函数

和当前时刻个体值函数

，对第i个智能体的所述在线智能体网络进行训练，对第i个智能体的所述在线智能体网络的参数进行再次更新，其中,第i个智能体的当前时刻个体值函数的更新目标为

，其中，

为强化学习算法的折扣因子。

可选地，所述利用所述当前时刻实际全局值函数

和所述下一时刻最优全局值函数

，对所述在线智能网络体的参数和所述在线融合网络的参数进行更新，是按照以下基于全局值函数的第一损失函数进行的：

；

其中，其中

为基于全局值函数的均方误差损失函数，

为所述奖励函数，

为强化学习算法的折扣因子，

为包含所述目标融合网络和所有智能体的目标智能体网络的参数,

为包含所述在线融合网络和所有智能体的在线智能体网络的参数,

表示所有智能体的当前时刻局部信息的集合,

表示所有智能体的下一时刻局部信息的集合,

表示所有智能体的当前时刻动作决策的集合,

为所有智能体的下一时刻动作决策的集合。

可选地，对于第i个智能体，所述利用第i个智能体的最大的下一时刻个体值函数

和当前时刻个体值函数

，对第i个智能体的所述在线智能体网络的参数进行再次更新，是按照以下基于个体值函数的第二损失函数进行的：

；

其中，

；

表示基于个体值函数的均方误差损失函数，

为所述奖励函数，

为强化学习算法的折扣因子，

为第i个智能体的目标智能体网络的参数,

为第i个智能体的在线智能体网络的参数,

表示第i个智能体的当前时刻局部信息,

表示第i个智能体的下一时刻局部信息,

表示第i个智能体的当前时刻动作决策，

表示第i个智能体的所有时刻动作决策的集合。

可选地，对所述在线智能网络体的参数和所述在线融合网络的网络参数进行更新后，还包括：

S1501A、每隔一定的迭代周期,依据更新后的所述在线智能体网络和更新后的所述在线融合网络中的参数，对所述目标智能体网络中的参数和所述目标融合网络中的参数分别进行更新，更新方式是将在线智能网络的参数复制到目标智能网络，将在线融合网络的参数复制到目标融合网络。

可选地，在对第i个智能体的所述在线智能体网络的参数进行再次更新后，所述方法还包括：

S1601A、每隔一定迭代周期,依据第i个智能体的再次更新后的所述在线智能体网络的参数，对第i个智能体的所述目标智能体网络的参数进行更新，更新方式是将在线智能体网络的参数复制到目标智能体网络。

可选地，还包括：

S170、将所述当前时刻局部信息

替换为所述下一时刻的局部信息

；

S180、判断步骤S160执行的次数，若大于或等于预设次数，则退出训练，若小于预设次数，则继续训练；

S190、执行所述步骤S130、S140、S150、S160；

S1100、重复上述步骤S170、S180。

可选地，还包括：

通过调节所述基于全局值函数的第一损失函数和所述基于个体值函数的第二损失函数进行参数更新的更新频率关系,来调节个体利益和全局利益的关系；

当每隔多步基于个体值函数的第二损失函数进行参数的更新,再进行一步基于全局值函数的第一损失函数进行参数更新时,所述多智能体的学习策略以单个智能体个体的利益为主；

当每隔多步地基于全局值函数的第一损失函数进行网络参数的更新,再进行一次基于个体值函数的第二损失函数进行参数更新时，所述多智能体的学习策略以多个智能体组成的集体的利益为主。

可选地，还包括：

调节所述智能体各自的在线智能网络的参数更新的学习率；

当所述基于个体值函数的第二损失函数进行参数更新的学习率大于所述基于全局值函数的第一损失函数进行参数更新的学习率时，所述多智能体的学习策略以单个智能体个体的利益为主；

当所述基于全局值函数的第一损失函数进行参数更新的学习率大于所述基于个体值函数的第二损失函数进行参数更新的学习率时，所述多智能体的学习策略以多个智能体组成的集体的利益为主。

本申请实施例第二方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请第一方面所述的多智能体强化学习方法中的步骤。

本申请实施例第三方面提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现本申请第一方面所述的多智能体强化学习方法中的步骤。

本申请的多智能体强化学习方法具有如下多种技术效果：

一、每个智能体只有在自身个体值函数能够增大时才进行更新，可保证自身获得更大的利益。

二、通过使用所有智能体的全局值函数对在线智能体网络和所述在线融合网络进行训练，可以兼顾所有个体值函数的更新，促使各个智能体之间的协作，从而获取更大的集体利益。

三、通过全局值函数和个体值函数两种值函数的共同更新，可以显著提高训练效率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例示出的一种多智能体训练流程图；

图2是本申请一实施例示出的一种多智能体训练过程示意图；

图3是本申请一实施例示出的一种多智能体训练过程示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的多智能体强化学习方法可以包括以下步骤：

S110、对多智能体的每个单位构建一个智能体，每个智能体包括在线智能体网络和目标智能体网络。

在现实生活中，很多任务往往需要多个智能体通过协作才能完成，例如物流机器人、无人驾驶、大型即时战略游戏等，这种需要通过多个智能体协作才能完成任务的系统称为多智能体系统，即多智能体。例如仓库物流系统为一个多智能体，其中的每一个物流机器人为一个智能体。

其中，在线智能体网络和目标智能体网络的结构相同，均以智能体的局部信息为输入，输出为该智能体的所有个体值函数。

S120、对所述多智能体构建值函数融合网络，所述值函数融合网络包括在线融合网络和目标融合网络。

其中，在线融合网络以多个智能体的目标时刻值函数为输入，输出多个智能体在该目标时刻的全局值函数。目标融合网络以多个智能体在目标时刻的最大个体值函数为输入，输出多个智能体在在目标时刻的最优全局值函数。

。

在本实施例中，当某个智能体将当前时刻局部信息输入到自身的在线智能体网络后，可以得到该智能体在当前时刻的所有个体值函数。所有这些个体值函数可以用于该智能体在当前时刻的动作决策。其中，输出的个体值函数的个数对应为该智能体离散动作空间

的大小，其中

中的每一个

是该单位离散动作空间中的一个动作。

由于基于多个体值函数可以获得多个动作（动作集合的大小为空间

的大小），智能体在一个时刻执行一个动作，因而需要在动作集合中确定一个实际需要执行的动作，该实际需要执行的动作称为动作决策。

示例地，某个物流机器人在搬运货物时，可以将当前时刻的信息（例如环境信息、位置信息等等）输入到自身的在线智能体网络，以获得当前时刻的所有个体值函数，再基于这些个体值函数获得动作集合（例如移动方向、移动速度、移动时间等等），最终确定一个动作决策并执行。

针对一个多智能体，当其所有的智能体均在环境中执行当前时刻对应的动作决策之后，会从环境获得一个所有智能体共享的奖励函数。同时，由于智能体在执行动作决策之后，局部信息可能会发生变化，因此每一个智能体还需要获得下一时刻局部信息，以备后续使用。例如，针对一个物流机器人，在执行当前时刻的动作决策后，周围的环境信息、位置信息等可能会发生改变，这些会影响下一时刻的动作，因此，该物流机器人还会获取到下一时刻的局部信息，以备后续使用。

对应的当前时刻个体值函数

输入所述在线融合网络，得到当前时刻实际全局值函数

；每个智能体依次将各自的下一时刻个体局部信息

。

在模型训练阶段，主要包括两部分：

一、针对在线融合网络，需要将所有智能体执行各自的当前动作决策时当前时刻个体值函数输入到在线融合网络，得到当前时刻的实际全局值函数。

二、针对目标融合网络，首先需要将每个智能体的下一时刻的局部信息输入到各自的目标智能体网络，获得在下一个时刻的所有的个体值函数，从中选择一个最大的个体值函数；接着，将所有的智能体的最大的个体值函数输入到目标融合网络，得到下一时刻的最优全局值函数。

实际全局值函数和最优全局值函数后可用于后续各个神经网络的更新。

S150、利用所述当前时刻实际全局值函数

和所述下一时刻最优全局值函数

，对所述在线智能体网络和所述在线融合网络进行训练，对所述在线智能网络体的参数和所述在线融合网络的网络参数进行更新。

在本实施例中，个体值函数是由智能体网络（包括在线智能体网络和目标智能体网络，假设每个智能体网络都是3层）输出，将所有的个体值函数输入到融合网络（包括在线融合网络和目标融合网络，假设神经网络有2层），最后得到的全局值函数（包括：当前时刻实际全局值函数、下一时刻的最优全局值函数）实际上可以认为是由5层神经网络输出的。

因此，当利用全局值函数更新参数时（第一个损失函数L），相当于是更新这5层神经网络。接下来对于个体值函数的更新，由于它下面只有3层，所以利用个体值函数更新参数时（第2个损失函数L），是在更新这3层。如前文所述，在利用全局值函数进行参数更新时，即5层网络都更新时，在线融合网络也是更新的，融合模型并不是起到一个取最大的作用。其实在线融合网络和目标融合网络都是同一个结构，假设一共有N个智能体，那么融合网络的输入是N个个体值函数，输出是一个全局值函数（也就是说每个智能体都只选择了一个输入融合网络，所以才是N个智能体输入N个个体值函数，否则是M*N个)。目标网络这输入的是最大的个体值函数，所以目标融合网络的输入是最大的个体值函数，目标融合网络并没有选择作用，只是因为输入的是最大的个体值函数，所以使用全局最优值函数来表示该输出的全局值函数。

时，利用第i个智能体的最大的下一时刻个体值函数

和当前时刻个体值函数

，其中，

为强化学习算法的折扣因子。

在本实施例中，针对每个智能体，只有在个体值函数能够增加的情况下才对个体值函数进行直接更新。具体地，对于一个智能体，当其当前时刻个体值函数的更新目标大于当前时刻个体值函数时，利用其最大的下一时刻个体值函数和当前时刻个体值函数，对其在线智能体网络进行训练，对该在线智能体网络的参数进行再次更新。

本申请的多智能体强化学习方法具有如下多种技术效果：

结合以上实施例，在一种实施方式中，所述利用所述当前时刻实际全局值函数

和所述下一时刻最优全局值函数

；

其中，其中

为基于全局值函数的均方误差损失函数，

为所述奖励函数，

为强化学习算法的折扣因子，

表示所有智能体的当前时刻局部信息的集合,

表示所有智能体的下一时刻局部信息的集合,

表示所有智能体的当前时刻动作决策的集合,

为所有智能体的下一时刻动作决策的集合。

在一种实施方式中，对所述在线智能网络体的参数和所述在线融合网络的网络参数进行更新后，本申请的多智能体强化学习方法还可以包括：

S1501A、每隔一定的迭代周期，依据更新后的所述在线智能体网络和更新后的所述在线融合网络中的参数，对所述目标智能体网络中的参数和所述目标融合网络中的参数分别进行更新，更新方式是将在线智能网络的参数复制到目标智能网络，将在线融合网络的参数复制到目标融合网络。

在本实施例中，所有目标神经网络可以通过对在线神经网络（在线智能网络体的参数和在线融合网络）的参数进行周期性复制的方式进行参数更新，因此上述损失函数可以将目标神经网络输出的值函数视作常数，只对所有在线神经网络的输出进行梯度优化。

结合以上实施例，在一种实施方式中，对于第i个智能体，所述利用第i个智能体的最大的下一时刻个体值函数

和当前时刻个体值函数

；

其中，

；

表示基于个体值函数的均方误差损失函数，

为所述奖励函数，

为强化学习算法的折扣因子，

为第i个智能体的目标智能体网络的参数,

为第i个智能体的在线智能体网络的参数,

表示第i个智能体的当前时刻局部信息,

表示第i个智能体的下一时刻局部信息,

表示第i个智能体的当前时刻动作决策，

表示第i个智能体的所有时刻动作决策的集合。

在一种实施方式中，在对第i个智能体的所述在线智能体网络的参数进行再次更新后，本申请的多智能体强化学习方法还可以包括：

S1601A、每隔一定迭代周期，依据第i个智能体的再次更新后的所述在线智能体网络的参数，对第i个智能体的所述目标智能体网络的参数进行更新，更新方式是将在线智能体网络的参数复制到目标智能体网络。

在本实施例中，在每个智能体中将目标神经网络输出的下一时刻个体值函数看作常数，只针对在线智能体网络参数进行更新。通常情况下，可以令个体值函数的更新频率或学习率小于全局值函数的更新频率或学习率。

结合以上实施例，在一种实施方式中，本申请的多智能体强化学习方法还可以包括：

S170、将所述当前时刻局部信息

替换为所述下一时刻的局部信息

；

S190、执行所述步骤S130、S140、S150、S160；

S1100、重复上述步骤S170、S180。

当每隔多步基于个体值函数的第二损失函数进行参数的更新，再进行一步基于全局值函数的第一损失函数进行参数更新时，所述多智能体的学习策略以单个智能体个体的利益为主；

当每隔多步基于全局值函数的第一损失函数进行网络参数的更新,再进行一次基于个体值函数的第二损失函数进行参数更新时，所述多智能体的学习策略以多个智能体组成的集体的利益为主。

在本实施例中，可以通过调节基于全局值函数的第一损失函数和基于个体值函数的第二损失函数进行参数更新的更新频率关系，来调节多智能体的整体性能和其中的单个智能体的性能。例如对于仓库物流系统，提升整个仓库的物流效率时对应的是全局利益，当提升单个物流机器人时对应的是个体的利益。

在实际实施时，全局利益和个体的利益通常不能兼得，因此，存在提升全局的利益的需求时，可以每隔多步基于全局值函数的第一损失函数进行网络参数的更新，再进行一次基于个体值函数的第二损失函数进行参数更新时，即对智能体的全局值函数进行较多的训练。

同理，存在提升个体的利益的需求时，可以每隔多步基于个体值函数的第二损失函数进行参数的更新,再进行一步基于全局值函数的第一损失函数进行参数更新时。即对每个智能体的个体值函数进行较多的训练。

通过本实施例，既可以调整多智能体的学习策略以单个智能体个体的利益为主，也可以调整多智能体的学习策略以多个智能体组成的集体的利益为主，这使得多智能体可灵活应对不同的利益需求场景，满足用户多样的需求，增强用户的使用体验。

调节所述智能体各自的在线智能网络的参数更新的学习率；

除了上述实施例中的调整全局利益和个体利益的策略外，本实施例还提供了另一种调整全局利益和个体利益的策略。具体地，当需要调整多智能体的学习策略以单个智能体个体的利益为主时，可以将基于个体值函数的第二损失函数进行参数更新的学习率设置为大于基于全局值函数的第一损失函数进行参数更新的学习率。同理，当需要调整多智能体的学习策略以多个智能体组成的集体的利益为主时，可以将基于全局值函数的第一损失函数进行参数更新的学习率设置为大于基于个体值函数的第二损失函数进行参数更新的学习率。

下面将以一个具体的实施例，对本申请的多智能体强化学习方法进行详细说明。本实例将SMAC对抗仿真环境中3s5z地图作为测试环境，使用一种个体值函数与全局值函数共同更新的多智能体强化学习方法来控制该地图中左方阵营的8个智能体。图1是本申请一实施例示出的一种多智能体训练流程图。图2是本申请一实施例示出的一种多智能体训练过程示意图。图3是本申请一实施例示出的一种多智能体训练过程示意图。结合图1-图3，该训练过程主要包括如下步骤：

步骤1：针对多智能体系统中的每个单位构建一个智能体。

针对左方阵营中的每个单位构建一个智能体，如图3所示，每个智能体主要包括一个在线智能体网络（由参数

表示）和一个目标智能体网络（由参数

表示），其中，i为智能体的编号，将8个智能体分别编号为0，1，……，7。每个智能体中的两个神经网络结构相同，其输入为该单位的局部信息

。在该地图中，左方8个单位的动作空间大小均为15，因此每个智能体网络输出15个对应于该单位离散动作空间中各动作的个体值函数

，其中i为智能体的编号，

是该单位离散动作空间中的一个动作。

步骤2：每个智能体依次与环境交互，得到奖励函数。

如图1所示，每个智能体依次将当前时刻各自的局部信息

，输入到各自的在线智能体网络，得到各自的个体值函数

。其中，

表示该单位动作空间中编号为0的动作。接着，采用ε-贪婪策略基于各自的个体值函数输出动作决策

。

其中，p是[0，1]区间内的一个随机数。随后，每个智能体在环境中执行该动作并得到下一时刻的局部信息

。所有智能体执行动作之后，环境返回奖励函数

。

步骤3：通过值函数融合模块将每个智能体的个体值函数融合成全局值函数。

如图3所示，值函数融合模块主要包含一个在线融合网络（由参数

表示）和一个目标融合网络（由参数

表示）。首先，如图3所示，每个智能体依次将各自的下一时刻局部信息输入到各自的目标智能体网络，得到下一时刻各自的个体值函数，并从中选择最大的个体值函数，接着，如图3所示，将所有智能体的作为目标融合网络的输入，输出为下一时刻的最优全局值函数；然后，将所有智能体的实际执行动作对应的当前时刻值函数输入到在线融合网络，得到当前时刻的全局值函数，其中，包含在线融合网络的参数，以及被在线融合网络连接起来的各相关智能体网络参数，因此可以通过全局值函数实现端到端的训练。

步骤4：针对所有智能体的全局值函数进行训练。

利用步骤3中的全局值函数，结合以下损失函数对所有在线神经网络进行端到端的训练：

；

其中，所有目标神经网络通过对在线神经网络的参数进行周期性复制的方式进行参数更新，因此上述损失函数可以将目标神经网络输出的值函数视作常数，只对所有在线神经网络的输出进行梯度优化。

步骤5：依次针对每个智能体的个体值函数进行训练。

在每个智能体中，只有在个体值函数能够增加的情况下对个体值函数进行直接更新，则损失函数如下：

；

其中，

；

同样地，在每个智能体中将目标神经网络输出的下一时刻个体值函数看作常数，只针对在线智能体网络参数进行更新；注意，通常令个体值函数的更新频率或学习率小于全局值函数的更新频率或学习率。

步骤6：判断是否达到预定的训练总次数，是则退出训练，否则返回步骤2继续训练。

基于同一发明构思，本申请另一实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请上述任一实施例所述的方法中的步骤。

基于同一发明构思，本申请另一实施例提供一种电子设备。该电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现本申请上述任一实施例所述的方法中的步骤。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种多智能体强化学习方法、存储介质和电子设备，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。