CN114676846A

CN114676846A - 一种多智能体强化学习方法及系统

Info

Publication number: CN114676846A
Application number: CN202210233742.3A
Authority: CN
Inventors: 时大明; 范文慧; 刘义; 黄亚东
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-03-10
Filing date: 2022-03-10
Publication date: 2022-06-28

Abstract

本发明提供一种多智能体强化学习方法及系统，其中的方法包括：获取多智能体的共享经验数据集；根据共享经验数据集，对初始策略进行训练，得到共享策略；获取多智能体当前的目标状态；将目标状态输入至共享策略，获取目标决策动作，该方法使得多智能体可以根据自身需要随时调用共享策略，不需要多智能体中每一个智能体单独维护一个策略模块，从而避免了存储空间和计算资源的浪费，并保持了多智能体策略的一致性。

Description

一种多智能体强化学习方法及系统

技术领域

本发明涉及人工智能技术领域，尤其涉及一种多智能体强化学习方法及系统。

背景技术

多智能体强化学习是一种将强化学习算法引入多智能体系统，从而使得多智能体具备智能表现的技术。多智能体强化学习通过将环境中的每个智能体建模为一个强化学习智能体，并通过智能体间的回报设置实现多智能体的合作或竞争。多智能体强化学习通过多智能体共同“探索-开发”，实现群体智能的演变和提高。而环境的随机性和各个智能体的随机探索，使得多智能体们较难完成合作任务。

当前的多智能体强化学习为了保证分布式的智能实现，需要将系统中的多个智能体进行分布的或并行的训练。而强化学习的巨大采样复杂性在解决单智能体和多智能体强化学习问题中是公认的难点，状态空间随智能体数量指数型增长使得其需要大量的计算资源。特别是在多智能体合作任务中，系统中同质的智能体却需要分别从零学习，一方面，独立地进行分布式学习会浪费计算资源，另一方面，也会造成同质的合作智能体因学习不充分得到的策略不同。

因此，如何解决现有技术中同质的合作智能体因学习不充分而得到的策略不同，且多智能体进行分布式学习浪费计算资源的技术问题，是人工智能技术领域亟待解决的重要课题。

发明内容

本发明提供一种多智能体强化学习方法及系统，用以解决现有技术中同质的合作智能体因学习不充分而得到的策略不同，且多智能体进行分布式学习浪费计算资源的缺陷，避免了存储空间和计算资源的浪费，并保持了多智能体策略的一致性。

一方面，本发明提供一种多智能体强化学习方法，其特征在于，包括：获取多智能体的共享经验数据集；根据所述共享经验数据集，对初始策略进行训练，得到共享策略；获取所述多智能体当前的目标状态；将所述目标状态输入至所述共享策略，获取目标决策动作。

进一步地，所述获取多智能体的共享经验数据集，包括：获取所述多智能体在训练或执行过程中的每个决策得到的单一经验数据；将所述单一经验数据共同存储，形成所述共享经验数据集。

进一步地，所述单一经验数据至少包括原系统状态、目标智能体的决策动作、多智能体中其他智能体的决策动作、目标智能体执行决策动作后的系统状态、目标智能体经过自身决策动作获得的奖励以及多智能体中其他智能体获得的奖励。

进一步地，所述共享策略通过人工神经网络、树状数组或多维矩阵表达。

进一步地，所述将目标观测信息输入至共享策略，获取目标决策动作，之后还包括：获取与所述目标决策动作相对应的经验数据，并将其存入所述共享经验数据集。

进一步地，所述根据所述共享经验数据集，对初始策略进行训练，得到共享策略，包括：采用Q-learning算法对所述初始策略进行训练，得到所述共享策略。

第二方面，本发明还提供一种多智能体强化学习系统，其特征在于，包括：经验数据获取模块，用于获取多智能体的共享经验数据集；共享策略获取模块，用于根据所述共享经验数据集，对初始策略进行训练，得到共享策略；目标状态获取模块，用于获取所述多智能体当前的目标状态；决策动作获取模块，用于将所述目标状态输入至所述共享策略，获取目标决策动作。

第三方面，本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述多智能体强化学习方法的步骤。

第四方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述多智能体强化学习方法的步骤。

第五方面，本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述多智能体强化学习方法的步骤。

本发明提供的多智能体强化学习方法，通过获取多智能体的共享经验数据集，并根据该共享经验数据集对初始策略进行训练，以获得共享策略，当多智能体需要决策时，通过采集自身当前的目标状态，并将其输入至训练好的共享策略，即可得到目标决策动作，该方法使得多智能体可以根据自身需要随时调用共享策略，不需要多智能体中每一个智能体单独维护一个策略模块，从而避免了存储空间和计算资源的浪费，并保持了多智能体策略的一致性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的多智能体强化学习方法的流程示意图；

图2为本发明提供的多智能体强化学习方法的强化学习示意图；

图3为本发明提供的多智能体强化学习方法的经验共享示意图；

图4为本发明提供的多智能体强化学习方法的共享策略调用示意图；

图5是本发明提供的多智能体强化学习装置的结构示意图；

图6是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示出了本发明所提供的多智能体强化学习方法的流程示意图。如图1所示，该多智能强化学习方法包括：

S101，获取多智能体的共享经验数据集。

需要说明的是，智能体是指具有自治性、社会性、反应性和预动性的基本特性的实体，这种实体可以是智能软件、智能设备、智能机器人或智能计算机系统等。多智能体由一系列相互作用的智能体构成，其内部的各个智能体之间通过相互通信、合作或竞争等方式，完成单个智能体不能完成的、大量而又复杂的工作。同时，多智能体中的每一个智能体都是自主的，它们可以由不同的设计方法和语言开发而成，因此，多智能体中的各个智能体也可能是完全异质的。

换言之，在本步骤中，构成多智能体的各个智能体可以是同质的，例如各个智能体在功能上相同或相似；与此同时，构成多智能体的各个智能体也可以是异质的，例如当各个智能体由不同的设计方法和语言开发而成时，各个智能体就可能是完全异质的。特别地，当多智能体的各个智能体在功能或结构上相同或相似时，多智能体的经验共享和策略共享比较有现实意义和借鉴意义。

可以理解的是，初始化的各个强化学习智能体早期可以进行随机探索，具体地，在面对随机的环境和初始化情况时，多智能体可以随机决策，也可以基于自己的策略和观测得到的状态进行决策，环境根据任务要求和多智能体决策前的状态和具体决策动作给出相应的奖励，并迁移至新的状态，如此，多智能体中的各个智能体每经过一次决策都会获得一条经验数据，将每一条经验数据存储至同一个数据集中，即可形成共享经验数据集。

S102，根据共享经验数据集，对初始策略进行训练，得到共享策略。

策略是多智能体状态空间到动作空间的映射，即策略是一个函数，输入是多智能体中每一个智能体所处的状态，输出是多智能体中每一个智能体的决策动作。共享策略是一个最优策略，即多智能体中任一状态的智能体，都可以根据该共享策略作出最优的决策动作，最优的决策动作可使多智能体从环境中获得最大的长期奖励。环境是指除了多智能体以外的一切其他事物，包括物理环境和仿真环境，物理环境即为真实环境，仿真环境是根据现实环境进行抽象建模而仿照的虚拟环境。

在上一步骤获取得到共享经验数据集的基础上，将该共享经验数据集中的经验数据作为初始策略的输入，对初始策略进行训练，得到优化后的共享策略，使得智能体用户训练的经验数据不仅仅是由自己的策略和探索获得的，有效避免了经验数据和自身策略优化形成正循环。

可以理解的是，在初始阶段，多智能体并未经过强化学习训练，其所作出的初始策略并不一定为最佳策略，需要不断的学习和训练，使得初始策略收敛于最佳的共享策略。

例如，多智能体的状态空间为S＝{S1,S2,S3,S4}，动作空间A＝{A1,A2,A3,A4}，多智能体在四个状态均有四种策略动作可执行，但初始策略阶段的多智能体并不知道每一个状态执行每一个决策动作分别获得怎样的奖励，会直接随机地选择一个动作执行，而多智能体在当前状态下执行了某个随机策略动作后获得了相应的奖励，而执行动作空间的其他策略动作所获得的奖励是未知的，也许会存在奖励更大的情况，在此种情况下，便需要对初始策略进行训练，获得共享策略。

在通过训练获取共享策略后，当多智能体需要决策时，可直接调用训练好的共享策略，并不需要多智能体中每个智能体单独地维护一个策略，避免了存储空间的浪费，并保持了多智能体策略的一致性。

还需要说明的是，根据共享经验数据集对初始策略进行训练，用于训练的经验数据集可以是共享经验数据集中的所有经验数据，也可以是对共享经验数据集进行采样得到的经验数据集。其中，对共享经验数据集进行采样的方式可以为随机采样、根据经验数据的重要性优先采样或根据经验数据生成的时间戳优先进行采样，也可以为其他采样方式，在此不作具体限定。

S103，获取多智能体当前的目标状态；

S104，将目标状态输入至共享策略，获取目标决策动作。

需要说明的是，状态是指多智能体的过去、现在和将来的运动状况。精确地说，状态可以用一组数据来说明，例如行驶的车辆，其状态就是车辆在每一个时刻的位置和速度。

在本步骤中，多智能体当前的目标状态可以包括目标智能体自身的运动学和动力学参数、目标智能体传感器采集到的图像、声音、压力、无线电场等信号，还可以包括多智能体中其他智能体传递的通信信息及它们的运动状态、环境中的空间构成、物理性质以及与目标智能体执行任务相关的重要数据和实体。可以理解的是，在上一步骤根据共享经验数据集对初始策略进行训练，得到共享策略的基础上，当多智能体需要做决策时，以自己当前的目标状态作为共享策略的输入，便可以输出相应的目标决策动作。

在本实施例中，通过获取多智能体的共享经验数据集，并根据该共享经验数据集对初始策略进行训练，以获得共享策略，当多智能体需要决策时，通过采集自身当前的目标状态，并将其输入至训练好的共享策略，即可得到目标决策动作，该方法使得多智能体可以根据自身需要随时调用共享策略，不需要多智能体中每一个智能体单独维护一个策略模块，从而避免了存储空间和计算资源的浪费，并保持了多智能体策略的一致性。

在上述实施例的基础上，进一步地，获取多智能体的共享经验数据集，包括：获取多智能体在训练或执行过程中的每个决策得到的单一经验数据；将单一经验数据共同存储，形成共享经验数据集。

可以理解的是，获取多智能体的共享经验数据集，具体地，多智能体中每个智能体在训练或执行过程中的每一个决策，都会获得相应的一条单一经验数据，将每一单一经验数据进行存储至同一经验数据集中，即可得到共享经验数据集。

其中，每一条单一经验数据至少包括原系统单一经验数据至少包括原系统状态、目标智能体的决策动作、多智能体中其他智能体的决策动作、目标智能体执行决策动作后的系统状态、目标智能体经过自身决策动作获得的奖励以及多智能体中其他智能体获得的奖励。

具体地，目标智能体是指执行决策动作的智能体中的一个或多个，原系统状态是指目标智能体并未执行决策动作时的状态，目标智能体在执行决策动作之后，会从环境处获得相应的奖励，并从原系统状态迁移至执行决策动作后的新的状态。同样地，目标智能体以外的其他智能体的决策动作，以及通过自身决策动作获得的奖励也包含在单一经验数据中。

还需要说明的是，共享经验数据集包括多智能体在训练阶段和执行阶段的单一经验数据。训练阶段是指对初始策略进行训练的阶段，执行阶段是指在获得共享策略之后，多智能体调用共享策略，执行目标决策动作的阶段。将多智能体在训练阶段和/或执行阶段因执行每一个决策动作所获得的经验数据，都存储入同一个经验数据集中，形成共享经验数据集。

也就是说，共享经验数据集的内容可以通过不断存入经验数据而不断更新，其可随时用于对初始策略的训练，以获取预测效果更好的共享策略，以供多智能体需要时直接调用共享策略，做出最优的决策动作。

在本实施例中，获取多智能体的共享经验数据集，包括获取多智能体在训练或执行过程中的每个决策得到的单一经验数据，并在此基础上，通过单一经验数据的共同存储，得到共享经验数据集，以便后续根据该共享经验数据集对初始策略进行训练，而限定共享经验数据集中单一经验数据所包含的具体内容，使得训练效果更佳，以得到训练好的共享策略。

在上述实施例的基础上，进一步地，共享策略通过人工神经网络、树状数组或多维矩阵表达。

可以理解的是，策略是一个以多智能体的状态为输入，以决策动作为输出的函数，策略的表达方式有多种，在本实施例中，共享策略可以通过树状数组表达，也可以通过多维矩阵表达，还可以通过人工神经网络来表达。当然，策略也可以有其他的表达方式，例如表格。

当环境的状态和动作空间离散且数量少，则可以使用简单表格来表示策略，输入作为查询地址，输出是表格中的相应数字。例如，有一种基于表格的函数类型是Q-table，它将状态和决策动作映射到价值(即多智能体执行决策动作后获得的奖励)，使用Q-table，策略会在当前状态给定的情况下检查每个可能决策动作的价值，然后选择具有最高价值的动作。

当环境的状态和决策动作的数量逐渐变大，通过表格表示策略参数就会比较复杂。此时可以选择适用树状数组或多维矩阵。树状数组是一种用数组进行存储的自上而下进行操作的多叉树，也称为二分索引树。树的每一个节点表示一组状态-决策动作的测试，每一分支代表一个测试的输出，当多智能体输入一个给定的当前的目标状态，即可获取该状态所对应的每一个决策动作的测试结果(即多智能体执行决策动作后会获得的奖励)，通过比较树的每一个分支的输出，输出可行且效果更好的结果。

当环境的状态和决策动作的数量累积到用树状数组也比较复杂时，可以通过多维矩阵来表达策略。矩阵表示的是一个数表，是数据的集合体，换句话说，矩阵类似于一张n行m列的数字表格，其可以帮助我们更好地处理更多维度的数据情况，具体地，n和m可分别与多智能体的状态或决策动作相对应，例如n对应于多智能体的状态，m对应于多智能体的决策动作，或n对应于多智能体的决策动作，m对应于多智能体的状态。其对于策略的表达，类似于前述简单表格的表达方式，只不过维度更多，可以处理的数据较简单的一维表格更为复杂。

当环境的状态和决策动作的数量变大或为无穷大时，在表格中表示策略参数的方式就不可行。人工神经网络是一组节点或人工神经元，采用一种能够使其成为通用函数逼近器的方式连接，即给出状态和决策动作的正确组合，便可设置该网络，模仿任何输入的状态和输出的决策动作之间的关系。

需要说明的是，虽然共享策略的载体可以为人工神经网络、树状数组或多维矩阵，但其对初始策略进行训练的数据源都是共享经验数据集，以得到共享策略，并且，对初始策略进行训练的过程中所使用的强化学习算法也可以相同，例如，在一个具体的实施例中，采用Q-learning算法对初始策略进行训练，从而得到训练好的共享策略。

Q-learning算法是强化学习算法中value-based的算法，Q即为Q(S,A)就是在某一时刻的S状态下，采取动作A能够获得收益的期望，环境根据多智能体的决策动作反馈相应的奖励，该算法的主要思想就是将状态S与决策动作A构建成一张Q-table来存储Q值，然后根据Q值来选取能够获得最大的收益的决策动作。

还需要说明的是，当共享策略通过人工神经网络表达时，在一个具体的实施例中，该神经网络的构造和调用都采用了tensorflow框架，其余的功能通过python语言进行编写。

在本实施例中，通过利用不同的载体表达共享策略，具体地，可以通过树状数组、多维矩阵或人工神经网络实现共享策略，通过状态和决策动作的数量灵活选用合适的共享策略载体，可以有效地提高共享策略的训练和执行效果。

另外，图2示出了本发明所提供的多智能体强化学习方法的强化学习示意图，与图1所示的流程示意图相互对应。如图2所示，有Agent(1)-Agent(n)，Agent为智能体，j即环境中包含智能体n个。在任意时刻k，环境的状态包括智能体的状态为S_i,k∈S，每个智能体的决策动作A_i,k∈A,则智能体收到环境的奖励R_i,k∈R＝S×A，其中i＝1,2,3,…,n。

以完全信息的合作任务为例，环境中各智能体可以观测到完全信息，则S_i,k＝S_k；多智能体为完全合作任务，则多智能体在所有时间的回报相同R_i,k＝R_k。多智能体之间分别将自己获得的经验数据存入至共享经验数据集中，并以共享经验数据集作为策略训练的数据源。同时，多智能体可以实时共享训练好的共享策略，使得一个共享策略能同时被多个智能体决策进行调用。

图3示出了本发明所提供的多智能体强化学习方法的经验共享示意图，进一步解释了图1所示的流程示意图中获取共享经验数据集，以及根据共享经验数据集对初始策略进行训练的过程。如图3所示，在训练阶段中，初始化的n个强化学习智能体早期可以进行随机探索。多智能体在面对随机的环境和初始化情况进行强化学习训练过程，此时多智能体可以随机决策，也可以基于自己的策略和观测的状态进行决策，环境依据任务要求、多智能体决策前的状态及其作出的决策动作给出奖励，并迁移至新的状态。各个智能体每经过一次决策便可获得一条经验E＝(S,A_k,S’,R,D)，其中S为原状态，A_i为该智能体决策动作，S’为新状态，R_k为在状态S下进行决策动作A_k所获得的奖励。

将多个智能体在各个阶段获得的经验数据都存入共享经验数据集中，则就具有了多个智能体的历史数据。在每个智能体进行强化学习训练时，优化初始策略的经验数据即可从共享经验数据集中采样获得。

需要注意的是，每个智能体在训练过程中的决策动作可以通过随机选择，也可以通过自身的策略或者调用共享策略模块进行选择。决策动作的来源与共享经验数据集的积累是无关的。

图4示出了本发明所提供的多智能体强化学习方法的共享策略调用示意图，进一步解释了图1所示的流程示意图中多智能体根据同一共享策略获取目标决策动作的过程。如图4所示，在多智能体进行强化学习训练的中后期或者训练结束后，强化学习智能体需要根据自己的策略进行动作决策。这一阶段的决策是通过将智能体的观测状态输入共享策略，共享策略输出决策动作实现的。在本实施例中，每个智能体不需要自行储存、维护和训练自己的策略，只需要共同训练和调用同一个共享策略就可以进行决策，

特别地，通过调用共享策略执行决策动作时，每个智能体决策的经验数据也可以存入共享经验数据集中，以用于后期的共享策略的训练。

图5示出了本发明所提供的多智能体强化学习方法的结构示意图。如图5所示，该多智能体强化学习系统包括：经验数据获取模块501，用于获取多智能体的共享经验数据集；共享策略获取模块502，用于根据共享经验数据集，对初始策略进行训练，得到共享策略；目标状态获取模块503，用于获取多智能体当前的目标状态；决策动作获取模块504，用于将目标状态输入至共享策略，获取目标决策动作。

本发明提供的多智能体强化学习系统，与上文描述的多智能体强化方法可相互对应参照，在此不再赘述。

在本实施例中，通过经验数据获取模块501获取多智能体的共享经验数据集，共享策略获取模块502根据共享经验数据集对初始策略进行训练，以获得共享策略，当多智能体需要决策时，通过目标状态获取模块503采集自身当前的目标状态，决策动作获取模块504将目标状态输入至训练好的共享策略，得到目标决策动作，该系统使得多智能体可以根据自身需要随时调用共享策略，不需要多智能体中每一个智能体单独维护一个策略模块，从而避免了存储空间和计算资源的浪费，并保持了多智能体策略的一致性。

图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行多智能体强化学习方法，该方法包括：获取多智能体的共享经验数据集；根据所述共享经验数据集，对初始策略进行训练，得到共享策略；获取所述多智能体当前的目标状态；将所述目标状态输入至所述共享策略，获取目标决策动作。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的多智能体强化学习方法，该方法包括：获取多智能体的共享经验数据集；根据所述共享经验数据集，对初始策略进行训练，得到共享策略；获取所述多智能体当前的目标状态；将所述目标状态输入至所述共享策略，获取目标决策动作。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的多智能体强化学习方法，该方法包括：获取多智能体的共享经验数据集；根据所述共享经验数据集，对初始策略进行训练，得到共享策略；获取所述多智能体当前的目标状态；将所述目标状态输入至所述共享策略，获取目标决策动作。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种多智能体强化学习方法，其特征在于，包括：

获取多智能体的共享经验数据集；

根据所述共享经验数据集，对初始策略进行训练，得到共享策略；

获取所述多智能体当前的目标状态；

将所述目标状态输入至所述共享策略，获取目标决策动作。

2.根据权利要求1所述的多智能体强化学习方法，其特征在于，所述获取多智能体的共享经验数据集，包括：

获取所述多智能体在训练或执行过程中的每个决策得到的单一经验数据；

将所述单一经验数据共同存储，形成所述共享经验数据集。

3.根据权利要求2所述的多智能体强化学习方法，其特征在于，所述单一经验数据至少包括原系统状态、目标智能体的决策动作、多智能体中其他智能体的决策动作、目标智能体执行决策动作后的系统状态、目标智能体经过自身决策动作获得的奖励以及多智能体中其他智能体获得的奖励。

4.根据权利要求1所述的多智能体强化学习方法，其特征在于，所述共享策略通过人工神经网络、树状数组或多维矩阵表达。

5.根据权利要求1-4中任一项所述的多智能体强化学习方法，其特征在于，所述将目标观测信息输入至共享策略，获取目标决策动作，之后还包括：

获取与所述目标决策动作相对应的经验数据，并将其存入所述共享经验数据集。

6.根据权利要求1所述的多智能体强化学习方法，其特征在于，所述根据所述共享经验数据集，对初始策略进行训练，得到共享策略，包括：

采用Q-learning算法对所述初始策略进行训练，得到所述共享策略。

7.一种多智能体强化学习系统，其特征在于，包括：

经验数据获取模块，用于获取多智能体的共享经验数据集；

共享策略获取模块，用于根据所述共享经验数据集，对初始策略进行训练，得到共享策略；

目标状态获取模块，用于获取所述多智能体当前的目标状态；

决策动作获取模块，用于将所述目标状态输入至所述共享策略，获取目标决策动作。

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述多智能体强化学习方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述多智能体强化学习方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述多智能体强化学习方法的步骤。