CN114519433A

CN114519433A - 多智能体强化学习、策略执行方法及计算机设备

Info

Publication number: CN114519433A
Application number: CN202210149172.XA
Authority: CN
Inventors: 崔德冠
Original assignee: Transwarp Technology Shanghai Co Ltd
Current assignee: Transwarp Technology Shanghai Co Ltd
Priority date: 2022-02-18
Filing date: 2022-02-18
Publication date: 2022-05-20

Abstract

本申请实施例公开了一种多智能体强化学习、策略执行方法及计算机设备。其中，方法包括：利用各智能体的内部状态以及环境状态建立多智能体决策模型；以各智能体的内部状态以及环境状态作为输入，并以智能体的行动策略作为输出，构建多智能体强化学习模型；基于预先设置的策略路径数量以及初始行动策略对多智能体强化学习模型进行训练，在训练过程中，按照多智能体决策模型确定智能体的下一行动策略，根据下一步行动策略执行动作得到下一环境状态和内部状态；直到环境状态或内部状态满足结束条件且迭代训练的次数达到策略路径数量，得到训练完成的多智能体强化学习模型。结合环境状态和内部状态，就无需再考虑智能体的相互作用，可以避免训练过程中出现维度爆炸的问题。

Description

多智能体强化学习、策略执行方法及计算机设备

技术领域

本申请实施例涉及模型算法技术领域，尤其涉及一种多智能体强化学习、策略执行方法及计算机设备。

背景技术

多智能体系统(multi-agent system,MAS)是一种全新的分布式计算技术。自20世纪70年代出现以来得到迅速发展，已经成为一种进行复杂系统分析与模拟的思想方法与工具。一个多智能体系统，是由在一个环境中交互的多个智能体组成的计算系统。

多智能体强化学习算法主要有两类，一类是考虑智能体之间相互作用的算法，另一类是不考虑智能体间相互作用的算法。对于不考虑智能体间相互作用的算法，只会考虑到智能体自身外部的状态信息，忽略了智能体之间的相互作用，这就会导致多智能体系统中各智能体的决策出现偏差，无法给出最优决策。而对于考虑智能体之间相互作用的算法，随着智能体数量的增多，智能体之间的相互作用会越来越复杂，智能体的联合动作空间可能会导致训练过程中的维度爆炸，从而导致训练效率低下。

发明内容

本申请实施例提供一种多智能体强化学习、策略执行方法及计算机设备，以避免利用智能体的联合动作空间体现智能体之间的相互作用，避免训练过程中出现数据维度爆炸的问题。

第一方面，本申请实施例提供了一种多智能体强化学习方法，包括：

利用各智能体的内部状态以及环境状态建立多智能体决策模型；

以各智能体的内部状态以及环境状态作为输入，并以智能体的行动策略作为输出，构建多智能体强化学习模型；

基于预先设置的策略路径数量以及初始行动策略对所述多智能体强化学习模型进行训练，在训练过程中，按照所述多智能体决策模型确定智能体的下一行动策略，根据下一步行动策略执行动作得到下一环境状态和内部状态；

直到所述环境状态满足结束条件且迭代训练的次数达到所述策略路径数量，得到训练完成的多智能体强化学习模型。

第二方面，本申请实施例提供了一种多智能体策略执行方法，包括：

对于任一智能体，获取所述智能体当前的环境状态和内部状态；

将所述环境状态和内部状态输入到通过权利要求1～7中任一项所述方法训练得到的多智能体强化学习模型中，获取多智能体强化学习模型输出的各执行动作对应的价值；

将最高价值对应的执行动作确定为所述智能体的行动策略，并在所述智能体执行所述行动策略后，更新所述智能体的环境状态和内部状态。

第三方面，本申请实施例还提供了一种计算机设备，包括处理器和存储器，存储器用于存储指令，当指令执行时使得处理器执行以下操作：

直到所述环境状态满足结束条件且迭代训练的次数达到所述策略路径数量，得到训练完成的多智能体强化学习模型；

或，

第四方面，本申请实施例还提供了一种存储介质，存储介质用于存储指令，指令用于执行：

或，

本申请实施例的技术方案，通过利用智能体的内部状态以及环境状态建立多智能体决策模型，并且将各智能体的内部状态以及环境状态作为多智能体强化学习模型的输入，将智能体的行动策略作为多智能体强化学习模型的输出，在对多智能体强化学习模型进行训练时，仅需要输入智能体的内部状态以及环境状态，而环境状态和内部状态可以体现出智能体的相互作用，同时，智能体的内部状态和环境状态都是可观测的，因此，在训练模型时，由于结合了环境状态和内部状态，那么就无需再考虑智能体的相互作用，避免利用智能体的联合动作空间体现智能体之间的相互作用，保证训练过程中不会出现数据维度爆炸的问题。

附图说明

图1为本申请的实施例一提供的一种多智能体强化学习方法的流程示意图；

图2为本申请实施例二提供的一种智能体策略执行方法的流程示意图；

图3为本申请实施例三提供的一种多智能体强化学习装置的结构示意图；

图4为本申请实施例四提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时处理可以被终止，但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。

本文使用的术语“智能体”指的是具有自治性、社会性、反应性和预动性的基本特性的实体。可以看做是可以是相应的软件程序或者一个实体(如人、车辆、机器人等)，它嵌入到环境中，通过传感器感知环境，通过效应器自治地作用于环境并满足设计要求。

本文使用的术语“内部状态”指的不能被环境和其他智能体观测到，每个智能体的内部状态智能被自己观测到，不属于环境的一部分状态。

本文使用的术语“环境状态”包括智能体的外部状态，该外部状态可以被环境和各智能体观测到。

本文使用的术语“多智能体决策模型”指的是能够表现出多智能体决策过程的模型。

本文使用的术语“策略路径数量”指的需要执行的策略路径的数量，其中，策略路径为智能体执行多个执行动作，并在执行各执行动作时进行状态改变而形成的路径。

本文使用的术语“初始行动策略”指的是用来确定初始步需要执行的的执行动作的策略。

本文使用的术语“奖励”指的是智能体执行完某个执行动作后，利用回报函数计算得到的回报，其中，回报函数为构建多智能体决策模型时设置的用于表征回报的函数。

本文使用的术语“TD目标”指的是当前时刻的回报加上下一时刻的折扣回报期望值。

为了便于理解，将本申请实施例的主要发明构思进行简述。

多智能体系统中随着智能体数量的增加，在多智能体强化学习建模过程中出现模型复杂性高、维度爆炸、训练效率低下、容易出现过拟合强策略、应用场景受限等问题。

现有技术中，多智能体强化学习算法主要有两类，一类是考虑智能体之间相互作用的算法，另一类是不考虑智能体间相互作用的算法。

对于不考虑智能体间相互作用的算法，只会考虑到智能体自身外部的状态信息，忽略了智能体之间的相互作用，这就会导致多智能体系统中各智能体的决策出现偏差，无法给出最优决策。而对于考虑智能体之间相互作用的算法，随着智能体数量的增多，智能体之间的相互作用会越来越复杂，智能体的联合动作空间可能会导致训练过程中的数据维度爆炸，从而导致训练效率低下。

考虑智能体间相互作用的算法虽然能在一定程度上避免多智能体之间相互作用带来的复杂性影响，但算法的复杂性仍会受限于系统智能体的数量，而且普遍存在学习效率低，训练过程耗时等问题。

不考虑智能体之间的相互作用的算法，也只考虑到智能体自身外部的状态信息，没有考虑智能体内部状态信息，没有充分利用现有的信息进行学习。

基于上述问题，发明人提出，智能体自身的状态可以分为外部状态(可被环境和其他智能体观测到，属于环境状态的一部分)和内部状态(不能被环境和其他智能体观测到，每个智能体的内部状态智能被自己观测到，不属于环境的一部分)。

环境和其他智能体对某一智能体的影响不仅会表现在其外部状态，也会表现在其内部状态。某个智能体的策略不仅应考虑环境的状态(包括每个智能体的外部状态)，同时应考虑其内部状态。

因此，环境与其他智能体的影响归结到环境状态和智能体的自身状态，就可以直接通过智能体自身的状态和环境状态训练最优智能体的策略。而智能体自身的状态对自己来说是可观测的，而不需要另外对其他智能体的影响进行建模，从而避免了其他智能体的联合动作空间，简化多智能体强化学习的建模过程。

因此，本申请提出一种考虑自身内部状态的多智能体强化学习方法，以降低多智能体系统的复杂性，提高多智能体系统的学习效率。

实施例一

图1为本申请的实施例一提供的一种多智能体强化学习方法的流程示意图。本申请实施例可适用于降低多智能体系统的复杂性，提高多智能体系统的学习效率的情况，该方法可以由本申请实施例提供的多智能体强化学习装置来执行，该装置可采用软件和/或硬件的方式实现，并一般可集成在计算机设备中。如图1所示，本申请实施例的方法具体包括：

步骤101、利用各智能体的内部状态以及环境状态建立多智能体决策模型。

本步骤中，构建多智能体决策模型可以选择马尔科夫决策过程，即构建多智能体决策模型为马尔科夫决策过程，该多智能体决策模型可以表示为(n,S,S₁,S₂,S_n,A₁,A₂,…,A_n,Tr,Tr₁,Tr₂,…,Tr_n,R₁,R₂,…,R_n,γ)；

其中，n为智能体的数量，S为包含各智能体的环境状态的环境状态，S_i(i＝1，2，......，n)为智能体i的内部状态，A_i(i＝1，2，......，n)为智能体i的动作空间，R_i(i＝1，2，......，n)为智能体i的回报函数，Tr为环境状态转移矩阵，Tr_i(i＝1，2，......，n)为智能体i的内部状态转移矩阵，γ为累计收益的折扣回报率。

本步骤中，在构建该马尔科夫决策过程时，将环境状态用状态S表示，各智能体的内部状态用S_i来表示，体现出了本申请中将环境与其他智能体的影响归结到环境状态和智能体自身的内部状态的思路。

另外，对于环境状态转移矩阵，具体可以表示为Tr：S×S₁×S₂×…×S_n×A₁×A₂×…×A_n→[0,1]；智能体i的内部状态转移矩阵可以表示为Tr_i：S×S_i×A_i→[0,1](i＝1,2，…，n)。

为了便于理解，本实施例给出几个场景，对决策过程进行解释。

以股票交易系统为例，每个投资者(不管是个人投资者还是机构投资者)都是独立的智能体，每个智能体的投资行为都会影响到环境的状态S，环境状态S是可以被所有的智能体观测到的，但每个智能体内部的状态S_i(如所持股票的个数、每只股票盈亏金额、盈亏比例、仓位分布、持仓时间、账户资金总额等)，只有自己知道，对其他智能体来说是观测不到的。每个智能体的投资决策不仅取决于环境状态信息，也取决于其内部状态信息。在该例中：

投资者(agent)的数量为n；环境状态S包括大盘信息(如大盘指数、昨日收盘价格、今日开盘价格、实时价格、涨跌幅、总成交量、总成交额、上涨个股数量、下跌个股数量等)、每只股票的信息(如股票昨日收盘价格、今日开盘价格、实时价格、成交额、成交量、涨跌幅等)、agent的外部信息(如买入数量、卖出数量等)、热门板块信息等。这些状态可以是由多个连续时间序列的状态构成。

每个agent的内部状态S_i(如所持股票的个数、每只股票盈亏金额、每只股票盈亏比例、仓位分布、每只股票持仓时间、总盈亏金额、总盈亏比例、账户资金总额等)；每个agent动作空间A_i为agent买入或者卖出股票的行为；回报函数R_i为智能体i买卖股票后得到的收益；累计收益的折扣回报率γ取值在[0,1]之间，为超参数，需要在训练过程中调优。

另外，以自动驾驶技术为例，每个具有自动驾驶能力的汽车为一个智能体，某个区域中，每个汽车的驾驶行为都会影响到该区域的驾驶环境的状态S，环境状态S是可以被所有的汽车观测到的，而汽车的内部状态S_i(如当前车速、当前位置、最终目的地、行驶路线等)，在该例中：

区域中汽车(agent)的数量为n；环境状态S包括各路段的汽车数量、各路段的拥堵情况等。这些状态可以是由多个连续时间序列的状态构成。每个agent驾驶动作空间A_i为agent加速、减速、停车或者启动等驾驶行为；回报函数R_i为多项奖励回报值的综合得分(智能体i到达目的地所用的时间项得分、车道偏离项得分、碰撞项得分、违反交规项得分等)。

步骤102、以各智能体的内部状态以及环境状态作为输入，并以智能体的行动策略作为输出，构建多智能体强化学习模型。

本步骤中，具体可以利用预设的强化学习模型算法，构建初始模型；将初始模型设置为以各智能体的内部状态以及环境状态作为输入，并以智能体的行动策略作为输出；对初始模型的模型参数进行初始化，得到多智能体强化学习模型。

其中，预设的强化学习模型算法可以选择传统RL中合适的算法，比如Q-learning、AC、A2C、DDPG、PPO等，在此以Q-learning为例进行说明。

本步骤中需要对模型参数进行初始化，具体的可以是将将环境状态以及各智能体的内部状态初始化为预设状态；为各智能体对应的初始模型设置初始网络参数以及初始行动策略，得到各智能体对应的智能体强化学习模型；利用各智能体对应的智能体强化学习模型确定多智能体强化学习模型。

后续训练过程中，每个智能体会对应有一个强化学习模型，供该智能体进行执行动作的决策，但是初始化时，每个智能体对应的铅华学习模型都是利用同样的方式进行初始化，因此，只需要初始化一次，然后每个智能体都采用该初始化的强化学习模型即可。

另外，在一个具体的例子中，可以将环境状态初始化为S，个智能体的内部状态初始化为S₁,S₂,…,S_n；每个智能体对应的初始网络参数为w_i,t(t＝0)；然后为每个智能体设置初始行动策略π_i以及ε，即ε软策略π_i，具体的ε软策略可以参考相关的技术，此处不再赘述。

步骤103、基于预先设置的策略路径数量以及初始行动策略对多智能体强化学习模型进行训练，在训练过程中，按照多智能体决策模型确定智能体的下一行动策略，根据下一步行动策略执行动作得到下一环境状态和内部状态。

需要说明的是，本步骤中，为一个循环迭代的过程，一般需要迭代的次数为策略路径数量，而且，每次迭代都可以称为一个策略路径。

由于每个智能体都会对应一个强化学习模型，那么在训练过程中，可以对各智能体对应的强化学习模型进行独立运算，为了进一步提高训练的效率，对于所有智能体各自对应的智能体强化模型的训练，利用多个进程进行并行训练，即采用多进程高并发编程或者GPU分布式训练。

具体的，以任一智能体对应的强化学习模型的训练过程为例，对于前述过程提到的策略路径数量中对应的任一策略路径，对于任一智能体，可以根据初始行动策略确定确定智能体的当前步的执行动作。

需要说明的是，初始行动策略为前述对模型进行初始化时设置的ε软策略，具体的，ε软策略为随机性策略，其在绝大多数情况下选择获得最大动作价值估计的动作，同时而以一个较小的概率ε随机选择一个动作。

由于ε软策略会不断地进行试探，它无法像试探性出发那样收敛到最优策略，而是会收敛到ε最优策略，ε最优策略下每个状态的价值都高于任何其他ε软策略。虽然无法达到最优策略，ε软策略仍可以获得足够好的策略，且不需要满足试探性出发的假设。根据ε软策略确定执行动作的具体算法过程，可以参考相关技术，此处不再赘述。

在确定出当前步的执行动作后，本步骤可以确定智能体在当前步对应的环境状态和内部状态下，执行当前步的执行动作的价值。具体的，该价值可以由下述公式进行计算q_i,t＝Q(S_t,S_i,t,a_i,t；ω_i,t)，其中，a_i,t为当前步的执行动作，其他参数的含义与前述过程提到的内容一致。

进一步的，可以根据多智能体决策模型确定智能体执行当前步的执行动作后的下一步对应的环境状态和内部状态，以及执行当前步的执行动作的奖励。由于多智能体决策模型中，规定了环境状态转移矩阵和内部状态转移矩阵，因此，可以基于该矩阵，来确定执行某个执行动作后，智能体所处的下一环境状态与内部状态。

在确定出下一步对应的环境状态和内部状态，以及执行当前步的执行动作的奖励之后，可以基于奖励以及在下一步对应的环境状态和内部状态执行目标预设执行动作的最大价值，确定TD目标，确定TD目标可以基于下述公式进行计算：

其中，r_i,t为前述提到的奖励，

指的是，下一状态(下一步的环境状态和内部状态)下，智能体i执行各执行动作能得到的最大的价值。

然后利用当前步的执行动作的价值以及TD目标对智能体对应的初始网络参数进行更新，具体可以依据如下公式对模型参数进行更新：ω_i,t+1＝ω_i,t-α·(q_i,t-y_i,t)·d_i,t，其中，α为学习率，需要根据训练的结果进行调整。

另外，d_i,t为策略梯度，具体的，该策略梯度可以利用如下公式求得，

上述过程中，在下一步对应的环境状态和内部状态均不满足结束条件且迭代训练的次数未达到策略路径数量的情况下，将下一步对应的环境状态和内部状态重新确定为当前步对应的环境状态和内部状态，重复执行确定智能体的当前步的执行动作的步骤，若下一步对应的环境状态不满足结束条件且下一步对应的内部状态满足结束条件，确定训练完成一个策略路径，并在迭代的策略路径的数量未达到策略路径数量的情况下，进行下一次策略路径的迭代训练。

需要说明的是，内部状态的结束条件可以为内部状态为结束状态，环境状态的结束条件为环境状态为结束状态。具体的，无论是环境状态还是内部状态，若状态改变的次数大于一定的阈值，可以认定处于结束状态。

步骤104、直到环境状态满足结束条件且迭代训练的次数达到策略路径数量，得到训练完成的多智能体强化学习模型。

本步骤为训练结束的条件，其中，结束条件于前述步骤的结束条件一致，此处不再赘述。需要说明的是，训练完成后，每个智能体都会对应一个神经网络，即各智能体对应的强化学习模型，相应的，智能体i的强化学习模型为DQN_i(i＝1,2，…，n)。

另外，内部状态包括隐性状态，隐形状态由环境状态和执行动作计算得到。在一个具体的例子中，隐性状态可以每个智能体的投资风格、投资偏好等。

本实施例中，通过利用智能体的内部状态以及环境状态建立多智能体决策模型，并且将各智能体的内部状态以及环境状态作为多智能体强化学习模型的输入，将智能体的行动策略作为多智能体强化学习模型的输出，在对多智能体强化学习模型进行训练时，仅需要输入智能体的内部状态以及环境状态，而环境状态和内部状态可以体现出智能体的相互作用。同时，对于某个智能体，该智能体的内部状态和环境状态都是可观测的，因此，在训练模型时，由于采用了环境状态和内部状态，那么就无需再考虑智能体的相互作用，避免利用智能体的联合动作空间体现智能体之间的相互作用，避免训练过程中出现数据维度爆炸的问题。

实施例二

图2为本申请实施例二提供的一种智能体策略执行方法的流程示意图。本申请实施例可适用于降低多智能体系统的复杂性，提高多智能体系统的学习效率的情况，该方法可以由本申请实施例提供的智能体策略执行装置来执行，该装置可采用软件和/或硬件的方式实现，并一般可集成在计算机设备中。如图2所示，本申请实施例的方法具体包括：

步骤201、对于任一智能体，获取智能体当前的环境状态和内部状态。

步骤202、将环境状态和内部状态输入到通过预先训练得到的多智能体强化学习模型中，获取多智能体强化学习模型输出的各执行动作对应的价值。

步骤203、将最高价值对应的执行动作确定为智能体的行动策略，并在智能体执行行动策略后，更新智能体的环境状态和内部状态。

需要说明的是，本实施例中的相关特征解释可以参考前述实施例的内容，此处不再赘述。

仍一股票交易系统为例，以大盘和股票状态信息作为环境状态S(如大盘信息、个人信息、热门板块信息等)，某个投资者i的内部状态为Si(如该投资者所持股票的个数、每只股票盈亏金额、每只股票盈亏比例、仓位分布、每只股票持仓时间、总盈亏金额、总盈亏比例、账户资金总额等)；需要评估该投资者买入或者卖出某只股票的收益情况。

根据模型计算出，该投资者买入A股票可以获益10000元；卖出A股票可以获益3000元。因为买入A股票的收益高于卖出A股票的收益，因此该投资者的应采取策略是买入A股票。

实施例三

图3为本申请实施例三提供的一种多智能体强化学习装置的结构示意图。该装置可采用软件和/或硬件的方式实现，并一般可集成在计算机设备中。如图3所示，装置包括：第一构建模块301、第二构建模块302、训练模块303、确定模块304。

其中，第一构建模块301，用于利用各智能体的内部状态以及环境状态建立多智能体决策模型；第二构建模块302，用于以各智能体的内部状态以及环境状态作为输入，并以智能体的行动策略作为输出，构建多智能体强化学习模型；训练模块303，用于基于预先设置的策略路径数量以及初始行动策略对多智能体强化学习模型进行训练，在训练过程中，按照多智能体决策模型确定智能体的下一行动策略，根据下一步行动策略执行动作得到下一环境状态和内部状态；确定模块304，用于直到环境状态满足结束条件且迭代训练的次数达到策略路径数量，得到训练完成的多智能体强化学习模型。

本申请实施例提供了一种多智能体强化学习装置，通过利用智能体的内部状态以及环境状态建立多智能体决策模型，并且将各智能体的内部状态以及环境状态作为多智能体强化学习模型的输入，将智能体的行动策略作为多智能体强化学习模型的输出，在对多智能体强化学习模型进行训练时，仅需要输入智能体的内部状态以及环境状态，而环境状态和内部状态可以体现出智能体的相互作用，同时，智能体的内部状态和环境状态都是可观测的，因此，在训练模型时，由于采用了内部状态，那么就无需再考虑智能体的相互作用，避免利用智能体的联合动作空间体现智能体之间的相互作用，避免训练过程中出现数据维度爆炸的问题。

在上述各实施例的基础上，第一构建模块具体用于构建多智能体决策模型为马尔科夫决策过程，多智能体决策模型表示为(n,S,S₁,S₂,S_n,A₁,A₂,…,A_n,Tr,Tr₁,Tr₂,…,Tr_n,R₁,R₂,…,R_n,γ)；

在上述各实施例的基础上，第二构建模块具体用于利用预设的强化学习模型算法，构建初始模型；

将初始模型设置为以各智能体的内部状态以及环境状态作为输入，并以智能体的行动策略作为输出；

对初始模型的模型参数进行初始化，得到多智能体强化学习模型。

在上述各实施例的基础上，第二构建模块还具体用于将环境状态以及各智能体的内部状态初始化为预设状态；

为各智能体对应的初始模型设置初始网络参数以及初始行动策略，得到各智能体对应的智能体强化学习模型；

利用各智能体对应的智能体强化学习模型确定多智能体强化学习模型。

在上述各实施例的基础上，训练模块具体用于对于任一智能体，根据初始行动策略确定智能体的当前步的执行动作；

确定智能体在当前步对应的环境状态和内部状态下，执行当前步的执行动作的价值；

根据多智能体决策模型确定智能体执行当前步的执行动作后的下一步对应的环境状态和内部状态，以及执行当前步的执行动作的奖励；

基于奖励以及在下一步对应的环境状态和内部状态执行目标预设执行动作的最大价值，确定TD目标；

利用当前步的执行动作的价值以及TD目标对智能体对应的初始网络参数进行更新；

在下一步对应的环境状态和内部状态均不满足结束条件且迭代训练的次数未达到策略路径数量的情况下，将下一步对应的环境状态和内部状态重新确定为当前步对应的环境状态和内部状态，重复执行确定智能体的当前步的执行动作的步骤；

若下一步对应的环境状态不满足结束条件且下一步对应的内部状态满足结束条件，确定训练完成一个策略路径，并在迭代的策略路径的数量未达到策略路径数量的情况下，进行下一次策略路径的迭代训练。

上述多智能体强化学习装置可执行本申请任意实施例所提供的多智能体强化学习方法，具备执行多智能体强化学习方法相应的功能模块和有益效果。

实施例四

图4为本申请实施例四提供的一种计算机设备的结构示意图。图4示出了适于用来实现本申请实施方式的示例性计算机设备包括处理器410、存储器420、输入装置440和输出装置440；计算机设备410的数量可以是一个或多个，图4中以一个处理器410为例；设备/终端/服务器中的处理器410、存储器420、输入装置440和输出装置440可以通过总线或其他方式连接，图4中以通过总线连接为例。

存储器420作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的多智能体强化学习方法对应的程序指令/模块。处理器410通过运行存储在存储器420中的软件程序、指令以及模块，从而执行设备/终端/服务器的各种功能应用以及数据处理，即实现上述实施例的方法：

处理器410通过运行存储在存储器420中的指令，从而执行各种功能应用以及数据处理，例如执行以下操作：

基于预先设置的策略路径数量以及初始行动策略对多智能体强化学习模型进行训练，在训练过程中，按照多智能体决策模型确定智能体的下一行动策略，根据下一步行动策略执行动作得到下一环境状态和内部状态；

直到环境状态满足结束条件且迭代训练的次数达到策略路径数量，得到训练完成的多智能体强化学习模型。

或者，

对于任一智能体，获取智能体当前的环境状态和内部状态；

将环境状态和内部状态输入到通过训练得到的多智能体强化学习模型中，获取多智能体强化学习模型输出的各执行动作对应的价值；

将最高价值对应的执行动作确定为智能体的行动策略，并在智能体执行行动策略后，更新智能体的环境状态和内部状态。

在上述各实施例的基础上，处理器是设置为通过以下方式建立多智能体决策模型：

构建多智能体决策模型为马尔科夫决策过程，多智能体决策模型表示为(n,S,S₁,S₂,S_n,A₁,A₂,…,A_n,Tr,Tr₁,Tr₂,…,Tr_n,R₁,R₂,…,R_n,γ)；

在上述各实施例的基础上，处理器是设置为通过以下方式构建多智能体强化学习模型：

利用预设的强化学习模型算法，构建初始模型；

将初始模型设置为以各智能体的内部状态以及环境状态作为输入，并以智能体的行动策略为输出；

在上述各实施例的基础上，处理器是设置为通过以下方式得到多智能体强化学习模型：

将环境状态以及各智能体的内部状态初始化为预设状态；

在上述各实施例的基础上，处理器是设置为通过以下方式对多智能体强化学习模型进行训练：

对于任一智能体，根据初始行动策略确定智能体的当前步的执行动作；

在上述各实施例的基础上，当指令执行时使得处理器还执行以下操作：

对于所有智能体各自对应的智能体强化模型的训练，利用多个进程进行并行训练。

在上述各实施例的基础上，内部状态包括隐性状态，隐形状态由环境状态和执行动作计算得到。

存储器420可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器420可进一步包括相对于处理器410远程设置的存储器，这些远程存储器可以通过网络连接至设备/终端/服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置440可用于接收输入的数字或字符信息，以及产生与设备/终端/服务器的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏等显示设备。

实施例四

本申请实施例四提供了一种计算机可读存储介质，存储介质用于存储指令，指令用于执行本申请任一实施例所提供的多智能体强化学习方法或多智能体策略执行方法。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++、python等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解，本申请不限于这里的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请构思的情况下，还可以包括更多其他等效实施例，而本申请的范围由所附的权利要求范围决定。

Claims

1.一种多智能体强化学习方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述利用各智能体的内部状态以及环境状态建立多智能体决策模型，包括：

构建多智能体决策模型为马尔科夫决策过程，所述多智能体决策模型表示为(n,S,S₁,S₂,S_n,A₁,A₂,…,A_n,Tr,Tr₁,Tr₂,…,Tr_n,R₁,R₂,…,R_n,γ)；

其中，所述n为所述智能体的数量，所述S为包含各所述智能体的环境状态的环境状态，所述S_i(i＝1，2，......，n)为智能体i的内部状态，所述A_i(i＝1，2，......，n)为智能体i的动作空间，所述R_i(i＝1，2，......，n)为智能体i的回报函数，所述Tr为环境状态转移矩阵，所述Tr_i(i＝1，2，......，n)为智能体i的内部状态转移矩阵，所述γ为累计收益的折扣回报率。

3.根据权利要求1所述的方法，其特征在于，所述以各智能体的内部状态以及环境状态作为输入，并以智能体的行动策略作为输出，构建多智能体强化学习模型，包括：

利用预设的强化学习模型算法，构建初始模型；

将所述初始模型设置为以各智能体的内部状态以及环境状态作为输入，并以智能体的行动策略作为输出；

对所述初始模型的模型参数进行初始化，得到多智能体强化学习模型。

4.根据权利要求3所述的方法，其特征在于，所述对所述初始模型的模型参数进行初始化，得到多智能体强化学习模型，包括：

将环境状态以及各智能体的内部状态初始化为预设状态；

5.根据权利要求1所述的方法，其特征在于，所述基于预先设置的策略路径数量以及初始行动策略对所述多智能体强化学习模型进行训练，在训练过程中，按照所述多智能体决策模型确定智能体的下一行动策略，根据下一步行动策略执行动作得到下一环境状态和内部状态，包括：

对于任一智能体，根据所述初始行动策略确定所述智能体的当前步的执行动作；

确定所述智能体在所述当前步对应的环境状态和内部状态下，执行所述当前步的动作；

根据所述多智能体决策模型确定所述智能体执行所述当前步的执行动作后的下一步对应的环境状态和内部状态，以及执行所述当前步的执行动作的奖励；

基于所述奖励以及在下一步对应的环境状态和内部状态执行目标预设执行动作的最大价值，确定TD目标；

利用所述当前步的执行动作的价值以及所述TD目标对所述智能体对应的初始网络参数进行更新；

在所述下一步对应的环境状态和内部状态均不满足结束条件且迭代训练的次数未达到所述策略路径数量的情况下，将所述下一步对应的环境状态和内部状态重新确定为当前步对应的环境状态和内部状态，重复执行确定所述智能体的当前步的执行动作的步骤；

若下一步对应的环境状态不满足结束条件且下一步对应的内部状态满足结束条件，确定训练完成一个策略路径，并在迭代的策略路径的数量未达到所述策略路径数量的情况下，进行下一次策略路径的迭代训练。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述内部状态包括隐性状态，所述隐形状态由环境状态和执行动作计算得到。

8.一种多智能体策略执行方法，其特征在于，所述方法包括：

9.一种计算机设备，包括处理器和存储器，所述存储器用于存储指令，当所述指令执行时使得所述处理器执行以下操作：

10.根据权利要求9所述的计算机设备，其特征在于，所述处理器是设置为通过以下方式建立多智能体决策模型：

11.根据权利要求9所述的计算机设备，其特征在于，所述处理器是设置为通过以下方式构建多智能体强化学习模型：

利用预设的强化学习模型算法，构建初始模型；

12.根据权利要求11所述的计算机设备，其特征在于，所述处理器是设置为通过以下方式得到多智能体强化学习模型：

将环境状态以及各智能体的内部状态初始化为预设状态；

13.根据权利要求9所述的计算机设备，其特征在于，所述处理器是设置为通过以下方式对所述多智能体强化学习模型进行训练：

确定所述智能体在所述当前步对应的环境状态和内部状态下，执行所述当前步的执行动作的价值；

14.根据权利要求13所述的计算机设备，其特征在于，当所述指令执行时使得所述处理器还执行以下操作：

15.根据权利要求9所述的计算机设备，其特征在于，所述内部状态包括隐性状态，所述隐形状态由环境状态和执行动作计算得到。

16.一种计算机设备，包括处理器和存储器，所述存储器用于存储指令，当所述指令执行时使得所述处理器执行以下操作：

17.一种存储介质，所述存储介质用于存储指令，所述指令用于执行如权利要求1-7中任一所述的多智能体强化学习方法或如权利要求8所述的多智能体策略执行方法。