CN111860649A

CN111860649A - 基于多智能体强化学习的动作集合输出方法及系统

Info

Publication number: CN111860649A
Application number: CN202010705611.1A
Authority: CN
Inventors: 赵佳
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-07-21
Filing date: 2020-07-21
Publication date: 2020-10-30

Abstract

本发明公开了基于多智能体强化学习的动作集合输出方法及系统，方法包括S1、构建树结构的模型架构；S2、将步骤S1中构建的树结构中的每个子节点均建模为智能体，并通过层级化扩展的马尔科夫博弈建模多智能体强化学习系统；S3、所有智能体与环境交互，进行强化学习训练以形成动作集合输出模型；S4、利用基于多智能体强化学习动作集合输出模型对待处理的动作空间中的各动作进行评分，生成目标动作集合进行推荐。本发明使用多智能体强化学习方法处理大规模动作空间的动作集合决策问题，可以获得良好的可扩展性、更精准更快的训练和推理速度；本发明使用MCTS算法增加上层智能体决策的信息量，可进行有效的搜索，得到更加准确的决策。

Description

基于多智能体强化学习的动作集合输出方法及系统

技术领域

本发明涉及多智能体强化学习技术，特别涉及一种基于多智能体强化学习的动作集合输出方法及系统、电子设备及存储介质。

背景技术

在强化学习中，问题通常被建模为智能体和环境进行交互的马尔科夫决策过程MDP<S,A,R,P,γ>，S是状态空间，A是动作空间，R是奖励函数，P:S×A→S是概率转移算子，γ是折扣因子，t是时间步。智能体的策略是π:S→A，智能体通过接受环境反馈的状态s^t，获得观测状态o^t，通过观测状态o^t做出行动a^t，施加到环境中，环境接收到智能体的动作a^t之后，会反馈给智能体下一时刻的状态s^t+1和奖励r^t+1。智能体的目标是优化长期的累计收益

T是时间范围。目前大部分的强化学习推荐系统都是建模为马尔可夫决策过程。

在训练过程中，可以考虑利用Q-Learning(一种强化学习算法)和DQN(Deep Q-Learning，一种深度强化学习算法)，Q-Learning和DQN是强化学习中流行的方法，可以被直接应用到多智能体强化学习中。Q-Learning的策略π的Q-function(Q函数)是Q^π(s,a)＝E[R|s^t＝s,a^t＝a]。这个Q-function可以被递归的写为Q^π(s,a)＝E_s′[r(s,a)+γE_a′～π[Q^π(s^′,a′)]](即可以通过该公式计算Q值)。DQN学习通过最小化损失获得最优策略的Q-functionQ^*:

L(θ)＝E_S,a,r,s′[(Q^*(s,a|θ)-y)²],

其中

是目标Q-function，定期的更新目标Q-function可以使得学习过程更加稳定。

另外，在强化学习训练过程中，还可以考虑策略梯度方法，策略梯度方法是强化学习中另一个流行的方法。ρ^π代表策略的状态访问分布，策略梯度方法主要的想法是直接优化参数θ最大化目标收益

通过直接对其求导，使用前述定义的Q函数进行策略的参数更新：

ρ^π是状态分布。策略梯度定理有很多实用的方法，只是在估计Q^π的时候有差异，最常见一种是REINFORCE算法，直接用采样得到的奖励

还有一种是actor-critic(演员-评论家)算法，使用Q-functionQ^π(s,a)的近似作为评论家。

另外，策略梯度可以被扩展到连续动作空间，可以通过DPG算法和DDPG算法优化确定性策略μ_θ：S→A的参数，具体可通过确定性策略梯度理论：

另外，搜索、推荐、广告领域广泛存在召回和排序问题，从大规模候选集合中，过滤出可能有效的候选集合，这个有效候选集合可能有上千的规模，最终展示在用户面前的时候，需要排好顺序，属于大规模决策集问题。自然语言处理领域中，语言模型、文本生成、机器翻译等任务中，需要从大规模的候选词表中，输出一个集合的词，属于大规模决策集问题。机器人领域中，机器人需要能够控制每个关节的角速度、运转方向等，需要输出一个集合的决策，属于大规模决策集问题。一些电子游戏中，存在上千万的候选动作，并且每个时刻需要输出多个动作，移动、释放技能、使用物品等，属于大规模决策集问题，而现有技术中对此并没有提供高效的解决方案，导致难以准确高效的在大规模动作空间中输出动作集合。

发明内容

本发明要解决的技术问题是为了克服现有技术中难以准确高效的在大规模动作空间中输出动作集合的缺陷，提供一种基于多智能体强化学习的动作集合输出方法及系统、电子设备及存储介质。

本发明是通过下述技术方案来解决上述技术问题：

本发明提供了一种基于多智能体强化学习的动作集合输出方法，所述方法包括以下步骤：

S1、构建树结构的模型架构；

S2、将步骤S1中构建的树结构中的每个子节点均建模为一个智能体，并通过层级化扩展的马尔科夫博弈建模多智能体强化学习系统；

S3、所有的智能体与环境交互，进行强化学习训练以形成动作集合输出模型；

S4、利用步骤S3中基于多智能体强化学习的动作集合输出模型对待处理的动作空间中的各动作进行评分，并生成目标动作集合进行推荐。

较佳地，所述树结构为i层m叉树，其中i和m均为正整数；i层层级结构中的每个节点n都是智能体j，

其中d_i是第i层容纳的智能体数量，映射

把智能体映射到第j层的跟随智能体；所有智能体可能的状态空间是S,动作空间是

观测是

第j个智能体的策略是

智能体j根据观测做出所有可能行动的概率分布；其中，第k层的智能体的策略记为

在每个时间步中，从第1层的策略π₁到第i层的策略π_i依次进行序列决策，直到第i层智能体做完决策之后，多智能体系统把联合决策传递到环境中，根据状态转移算子

根据当前时间步的状态和动作，产生下一个时间步的状态，每个智能体j的奖励由状态和动作的函数r_j:S×A_j→R得到，环境根据智能体的状态和行动给出一个实数值的反馈，并且每个智能体接收到跟状态相关的观测为o_j：S→O_j，从状态空间映射到每个智能体的观测空间；初始状态通过一个分布ρ:S→[0,1]得到，每个智能体j的目标是最大化总体的期望收益

是折扣因子，t是时间步，T是时间范围。

较佳地，使用Q^π(s,a)＝E_s′[r(s,a)+γE_a′～π[Q^π(s′，a′)]]计算Q值，智能体j的策略π_j使用参数ρ_j进行参数化，每个时间步t参数的更新通过如下公式：

每个智能体的值函数用于评估推荐子节点可以带来的收益，使用参数θ_j近似Q_j，每个时间步t通过回归最小化均方误差训练参数：

其中

是t+1时间步，与j同层次的智能体的Q值的平均值。

较佳地，第l层的跟随智能体集合是C_l，第l层智能体的决策方式是

从跟随智能体中选出能够使得决策目标最大的k个智能体，其中λ∈[0,1]；对于每个智能体j，P(s,a_j)＝(1-∈)π_j(a_j|s)+∈η_j，其中η～Dir(c)，∈∈[0,1]和c∈[0,1]，Dir是狄里克莱分布；直到第i层的跟随智能体输出一个集合的决策。

本发明还提供了一种基于多智能体强化学习的动作集合输出系统，所述系统包括：

模型构建模块，用于构建树结构的模型架构；

智能体建模模块，用于将所述模型构建模块构建的树结构中的每个子节点均建模为一个智能体，并通过层级化扩展的马尔科夫博弈形成一个多智能体系统；

强化学习训练模块，用于对所有的智能体与环境交互，进行强化学习训练以形成动作集合输出模型；

决策模块，用于利用所述动作集合输出模型对待处理的动作空间中的各动作进行评分，并生成目标动作集合进行推荐。

其中d_i是第i层容纳的智能体数量，映射

把智能体映射到第k层的跟随智能体；所有智能体可能的状态空间是S,动作空间是

观测是

第j个智能体的策略是

是折扣因子，t是时间步，T是时间范围。

较佳地，使用Q^π(s,a)＝E_s′[r(s,a)+γE_a′～π[Q^π(s′,a′)]]计算Q值，智能体j的策略π_j使用参数ρ_j进行参数化，每个时间步t参数的更新通过如下公式：

其中

是t+1时间步，与j同层次的智能体的Q值的平均值。

本发明还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行计算机程序时实现上述的基于多智能体强化学习的动作集合输出方法的步骤。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的基于多智能体强化学习的动作集合输出方法的步骤。

本发明的积极进步效果在于：本发明使用多智能体强化学习方法处理大规模动作空间的动作集合决策问题，可以获得良好的可扩展性、更加精准更快的训练和推理速度以及广泛的应用；并且本发明使用MCTS(蒙特卡洛树搜索)算法增加上层智能体决策的信息量，可以进行有效的搜索，得到更加准确的决策。

附图说明

图1为本发明实施例1的基于多智能体强化学习的动作集合输出方法的流程图。

图2为本发明实施例2的基于多智能体强化学习的动作集合输出系统的模块示意图。

图3为本发明实施例3的电子设备的结构框图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

实施例1

本实施例提供了一种基于多智能体强化学习的动作集合输出方法，所述方法通过树形结构的多智能体的相互合作，从而可以处理大规模行动空间的动作集合输出问题，具体可以扩展到千万级别的动作空间中输出上千个动作组成的集合的问题。

如图1所示，所述基于多智能体强化学习的动作集合输出方法包括以下步骤：

步骤101、构建树结构的模型架构；

其中，在本实施例中，具体构建TDM(Tree-based Deep Model，基于树的深度模型)的模型架构，具体构建了4层12叉树，使用的是TPGR(树结构策略梯度推荐系统)中构建平衡聚类树的方法，聚类方法包括kmeans(k均值聚类算法)、PCA(主成份分析)算法；当然，在具体实施过程中也可以采用其他构建树结构的算法来执行本步骤。

具体地，可以利用基础数据集进行聚类来构建TDM的树结构，例如，基础数据集中包含多个用户ID、多个商品ID、每个用户对每个商品的评分(如果未评分则评分设置为0)以及用户给出评分的时间，然后构建矩阵，矩阵的每一行对应一个用户，每一列对应一个商品，矩阵中各行各列的值则为相应用户对相应商品的打分，然后基于构建的矩阵进行聚类来构建上述4层12叉树的树结构。

其中，树内节点的嵌入表示使用零向量初始化，叶子节点的嵌入表示也使用零向量初始化，维度都是24维。每层使用深度模型进行打分，根据每个时间步输入的历史上用户评分过的数据，使用注意力机制抽取历史评分数据的嵌入和候选节点嵌入之间的公共特征，构建出用户的向量表示，然后把用户的向量表示和节点的嵌入表示进行拼接，通过多层感知机输出0-1之间的数值。

其中，在所述树结构中，每层智能体的参数是共享的，不同层智能体的参数是不同的。奖励是每个商品的用户评分，树内节点中的智能体的奖励是子节点奖励的最大值，构建出兴趣最大堆，折扣因子乘上下一个时间步的同层次叶子节点智能体累计收益的均值，作为当前时间步叶子节点智能体的累计收益，折扣因子γ设置为0.6。

本实施例中的TPGR会使用到循环神经网络进行状态的编码，把推荐一个集合的商品转变成序列决策的过程，以此求解组合优化问题。虽然降低了建模的难度，同时保证解的质量，但是序列决策串行计算的时间消耗会比较大，从而可能导致模型难以在在线的场景使用。本申请通过TDM的模型架构以及多智能体强化学习方法能够充分的并行化计算，可以直接输出一个集合的商品，大幅减少训练和决策的耗时。

步骤102、将步骤101中构建的树结构中的每个子节点均建模为一个智能体；从而通过步骤102描述的层级化扩展的马尔科夫博弈形成一个多智能体系统；

在本实施例中，针对的是大规模决策集问题，即从大规模的行动空间中选出一个集合的决策执行的问题，其中，行动空间可以达到千万、上亿的规模，决策集合的规模也可以达到上千，决策可以是离散的、也可以是连续的，而每个决策通过一个智能体来实现，在所述树结构中，上层的智能体可以有多个跟随的下层智能体(具体到本实施例中每个上层的智能体有12个跟随的下层智能体)，每个时间步决策的时候，上层的智能体先做决策，相应的跟随智能体后做决策；本实施例具体到商品方面的应用，即是从千万个商品中选出一个商品集合推荐给用户。

具体在本实施例中，i(i为树结构的总层数，在本实施例中具体取值可为4)层层级结构中的每个节点n都是智能体

其中d_i是第i层容纳的智能体数量，映射

把智能体映射到第k层的跟随智能体。所有智能体可能的状态空间是S,动作空间是

观测是

第j个智能体的策略是

智能体j根据观测做出所有可能行动的概率分布。为了方便阐述，把第k层的智能体的策略记为

在每个时间步中，从第1层的策略π₁到第i层的策略π_i进行序列决策，直到第i层智能体做完决策之后，多智能体系统才把联合决策传递到环境中，根据状态转移算子

根据当前时间步的状态和动作，产生下一个时间步的状态，每个智能体j的奖励由状态和动作的函数得到r_j:S×A_j→R，环境根据智能体的状态和行动给出一个实数值的反馈，并且每个智能体接收到跟状态相关的观测o_j：S→O_j，从状态空间映射到每个智能体的观测空间。初始状态通过一个分布得到ρ:S→[0,1](即从状态空间中采样出一个初始状态)，每个智能体j的目标是最大化总体的期望收益

是折扣因子，t是时间步，T是时间范围。

步骤103、对所有的智能体进行强化学习训练；

具体在步骤103中，所有的智能体会与环境进行交互，进行强化学习训练以得到动作集合输出模型；

本实施例中强化学习推荐系统使用层级化扩展的马尔科夫博弈建模。

在本实施例构建的强化学习推荐系统中，用户是环境，每个用户都被视作一个独立的环境。树结构中的每个节点都是智能体，树内节点代表了兴趣点，第i层(即最后一层)的叶子节点代表了具体的商品，状态空间是所有商品，第t个时间步的s^t是用户给出反馈的商品，每个时间步第a层的智能体输出推荐子节点的概率，通过束搜索选择最有可能的候选进入第a+1层的决策，一直到第i层把多智能体系统的决策传递到环境中，通过用户给出的商品评分进行反馈，转移概率算子是从上一时间步用户给出反馈的商品和智能体联合策略执行的动作映射到下一时间步用户给出反馈的商品上，第i层第j个智能体的奖励是

第l层的第m个智能体n_lm的奖励是

在本实施例中，通过使用多智能体强化学习的优化方式，基于兴趣最大堆的奖励设计，设置智能体的奖励是用户的评分，树内节点的奖励的值是子孙节点的奖励的最大值，所有的智能体被参数化为

策略

是所有智能体策略的集合，对于第j个智能体(智能体j的策略π_j使用参数ρ_j进行参数化)，每个时间步t权重的更新通过以下公式计算：

多智能体强化学习方法可以通过简单的复用参数的方式进行智能体之间的交流合作。

另外，在本实施例中，每个智能体的值函数用于评估推荐子节点可以带来的收益，使用参数θ_j近似Q_j，每个时间步t通过回归最小化均方误差训练权重：

其中

是t+1时间步，与j同层次的智能体的Q值的平均值。

另外，本实施例使用UCT(上限置信区间算法)方法，在每个智能体输出的概率之上乘了正比例于1/(N_j+1)的数，N_j是第j个智能体已经推荐的商品的个数，再按照比例加上了Q-function的预测结果，每层选取值最高的k个智能体，获取其子节点，直到叶子节点输出决策，第l层的候选智能体集合是C_l，获取其中使得目标最高的k个智能体的候选集合

其中，λ是0-1之间的常数。从跟随智能体中选出能够使到决策目标最大的k个智能体，其中λ∈[0,1]。对于每个智能体j，P(s,a_j)＝(1-∈)π_j(a_j|s)+∈η_j，其中η～Dir(c)，∈∈[0,1]和c∈[0,1]，Dir是狄里克莱分布。直到第i层的跟随智能体输出一个集合的决策。

在本实施例的上述多智能体的模型构建及加强学习训练的过程中，在构建完模型结构之后，使用演员-评论家算法的技巧来优化每个智能体，学习率为0.001，Q-function跟策略共享抽取用户特征的注意力的参数。增加噪音的探索方法从狄里克莱分布中采样出一些概率值按比例加到智能体算出来的得分的概率值上，狄里克莱分布的参数c是0.7，权重∈是0.34。UCT方法的探索项，直接使用Q-function计算出来的值按比例加到探索项上，权重λ是0.75。熵正则项的权重是1。

另外，在本实施例的多智能体强化学习训练过程中，输入包括用户历史行为数据，用户历史行为数据包括但不限于用户对商品的历史评分数据；输出包括但不限于推荐跟随节点的打分、推荐商品的打分；目标包括但不限于用户平均评分提高、用户总体消费水平提高。

步骤104、利用步骤103中基于多智能体强化学习的动作集合输出模型对待处理的动作空间中的各动作进行评分，并决策出目标动作集合进行推荐；

其中，具体到商品推荐的过程中，所述动作空间即所有商品的集合，步骤104中会通过树结构的多智能体层层决策的方式对商品进行评分和排序，并获取若干个待推荐的商品形成目标商品集合推荐给用户。

在本实施例的具体实施过程中，每个智能体每个时间步获得环境(即用户)反馈(即用户对商品的评分)和状态，根据状态进行决策，上层的智能体使用公式计算出分数，按照分数高低，选取分数最高的一个集合的智能体，进行下一层其跟随智能体的决策，下一层跟随智能体也给出打分，选取分数最高的智能体集合，进入其跟随智能体的决策，直到最下一层的智能体决策(即可选取待推荐的商品)之后，整个智能体系统的决策输入到环境中，在下一个时间步，每个智能体获得当前时间步的观测和上一个时间步的奖励。

实施例2

本实施例提供了一种基于多智能体强化学习的动作集合输出系统，如图2所示，所述系统包括：模型构建模块21、智能体建模模块22、强化学习训练模块23以及决策模块24；

其中，本实施例的基于多智能体强化学习的动作集合输出系统与实施例1的基于多智能体强化学习的动作集合输出方法相互对应，所以模型构建模块21、智能体建模模块22、强化学习训练模块23以及决策模块24能够分别执行实施例1中的步骤101、步骤102、步骤103以及步骤104。

具体地，模型构建模块21，用于构建树结构的模型架构；

其中，在本实施例中，具体构建TDM(Tree-based Deep Model，基于树的深度模型)的模型架构，具体构建了4层12叉树，使用的是TPGR(树结构策略梯度推荐系统)中构建平衡聚类树的方法，聚类方法包括kmeans(k均值聚类算法)、PCA(主成份分析)算法；当然，在具体实施过程中也可以采用其他构建树结构的算法来进行树结构的构建。

智能体建模模块22，用于将所述模型构建模块21构建的树结构中的每个子节点均建模为一个智能体，并通过层级化扩展的马尔科夫博弈形成一个多智能体系统；

其中d_i是第i层容纳的智能体数量，映射

观测是

第j个智能体的策略是

γ∈(0，1)是折扣因子，t是时间步，T是时间范围。

强化学习训练模块23，用于对所有的智能体进行强化学习训练以形成动作集合输出模型；

具体地，所有的智能体会与环境进行交互，进行强化学习训练以得到动作集合输出模型；

第l层的第m个智能体n_lm的奖励是

策略

其中

是t+1时间步，与j同层次的智能体的Q值的平均值。

决策模块24，用于利用所述动作集合输出模型，对待处理的动作空间中的各动作进行评分，并决策出目标动作集合进行推荐。

实施例3

本发明还提供一种电子设备，如图3所示，所述电子设备可以包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行计算机程序时实现前述实施例1中的基于多智能体强化学习的动作集合输出方法的步骤。

可以理解的是，图3所示的电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图3所示，电子设备2可以以通用计算设备的形式表现，例如：其可以为服务器设备。电子设备2的组件可以包括但不限于：上述至少一个处理器3、上述至少一个存储器4、连接不同系统组件(包括存储器4和处理器3)的总线5。

所述总线5可以包括数据总线、地址总线和控制总线。

所述存储器4可以包括易失性存储器，例如随机存取存储器(RAM)41和/或高速缓存存储器42，还可以进一步包括只读存储器(ROM)43。

所述存储器4还可以包括具有一组(至少一个)程序模块44的程序工具45(或实用工具)，这样的程序模块44包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

所述处理器3通过运行存储在所述存储器4中的计算机程序，从而执行各种功能应用以及数据处理，例如本发明前述实施例1中的基于多智能体强化学习的动作集合输出方法的步骤。

所述电子设备2也可以与一个或多个外部设备6(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口7进行。并且，模型生成的电子设备2还可以通过网络适配器8与一个或者多个网络(例如局域网LAN，广域网WAN和/或公共网络)通信。

如图3所示，网络适配器8可以通过总线5与模型生成的电子设备2的其它模块通信。本领域技术人员应当明白，尽管图中未示出，可以结合模型生成的电子设备2使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。

需要说明的是，尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

实施例4

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，程序被处理器执行时实现前述实施例1中的基于多智能体强化学习的动作集合输出方法的步骤。

其中，计算机可读存储介质可以采用的更具体方式可以包括但不限于：便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。

在可能的实施方式中，本发明还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行实现前述实施例1中的基于多智能体强化学习的动作集合输出方法的步骤。

其中，可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码，程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种基于多智能体强化学习的动作集合输出方法，其特征在于，所述方法包括以下步骤：

S1、构建树结构的模型架构；

S3、所有的智能体与环境交互，进行强化学习训练以得到动作集合输出模型；

S4、利用步骤S3中基于多智能体强化学习的动作集合输出模型对动作空间中的各动作进行评分，并且决策出目标动作集合。

2.如权利要求1所述的基于多智能体强化学习的动作集合输出方法，其特征在于，所述树结构为i层m叉树，其中i和m均为正整数；i层层级结构中的每个节点n都是智能体j，

其中d_i是第i层容纳的智能体数量，映射

把智能体映射到第k层的跟随智能体；所有智能体可能的状态空间是S，动作空间是

观测是

第j个智能体的策略是

O_j×A_j→[0，1]，智能体j根据观测做出所有可能行动的概率分布；其中，第k层的智能体的策略记为

在每个时间步中，从第1层的策略π₁到第i层的策略π_i依次进行序列决策，直到第i层智能体做完决策之后，多智能体系统把联合决策传递到环境中，根据状态转移算子T：

根据当前时间步的状态和动作，产生下一个时间步的状态，每个智能体j的奖励由状态和动作的函数r_j：S×A_j→R得到，环境根据智能体的状态和行动给出一个实数值的反馈，并且每个智能体接收到跟状态相关的观测为o_j：S→O_j，从状态空间映射到每个智能体的观测空间；初始状态通过一个分布ρ：S→[0，1]得到，每个智能体j的目标是最大化总体的期望收益

γ∈(0，1)是折扣因子，t是时间步，T是时间范围。

3.如权利要求2所述的基于多智能体强化学习的动作集合输出方法，其特征在于，使用Q^π(s，a)＝E_s′[r(s，a)+γE_a′～π[Q^π(s′，a′)]]计算Q值，智能体j的策略π_j使用参数ρ_j进行参数化，每个时间步t参数的更新通过如下公式：

其中

是t+1时间步，与j同层次的智能体的Q值的平均值。

4.如权利要求2或3所述的基于多智能体强化学习的动作集合输出方法，其特征在于，第l层的跟随智能体集合是C_l，第l层智能体的决策方式是

从跟随智能体中选出能够使得决策目标最大的k个智能体，其中λ∈[0，1]；对于每个智能体j，P(s，a_j)＝(1-∈)π_j(a_j|s)+∈η_j，其中η～Dir(c)，∈∈[0，1]和c∈[0，1]，Dir是狄里克莱分布，N_j是第j个智能体已经被选中的次数；直到第i层的跟随智能体输出一个集合的决策。

5.一种基于多智能体强化学习的动作集合输出系统，其特征在于，所述系统包括：

模型构建模块，用于构建树结构的模型架构；

智能体建模模块，用于将所述模型构建模块构建的树结构中的每个子节点均建模为一个智能体，并通过层级化扩展的马尔科夫博弈建模多智能体强化学习系统；

强化学习训练模块，用于所有的智能体与环境交互，进行强化学习训练以形成动作集合输出模型；

6.如权利要求5所述的基于多智能体强化学习的动作集合输出系统，其特征在于，所述树结构为i层m叉树，其中i和m均为正整数；i层层级结构中的每个节点n都是智能体j，

其中d_i是第i层容纳的智能体数量，映射

观测是

第j个智能体的策略是

根据当前时间步的状态和动作，产生下一个时间步的状态，每个智能体j的奖励由状态和动作的函数r_j：S×A_j→R到，环境根据智能体的状态和行动给出一个实数值的反馈，并且每个智能体接收到跟状态相关的观测为o_j：S→O_j，从状态空间映射到每个智能体的观测空间；初始状态通过一个分布ρ：S→[0，1]得到，每个智能体j的目标是最大化总体的期望收益

γ∈(0，1)是折扣因子，t是时间步，T是时间范围。

7.如权利要求6所述的基于多智能体强化学习的动作集合输出系统，其特征在于，使用Q^π(s，a)＝E_s′[r(s，a)+γE_a′～π[Q^π(s′，a′)]]计算Q值，智能体j的策略π_j使用参数ρ_j进行参数化，每个时间步t参数的更新通过如下公式：

其中

是t+1时间步，与j同层次的智能体的Q值的平均值。

8.如权利要求6或7所述的基于多智能体强化学习的动作集合输出系统，其特征在于，第l层的跟随智能体集合是C_l，第l层智能体的决策方式是

从跟随智能体中选出能够使得决策目标最大的k个智能体，其中λ∈[0，1]；对于每个智能体j，P(s，a_j)＝(1-∈)π_j(a_j|s)+∈η_j，其中η～Dir(c)，∈∈[0，1]和c∈[0，1]，Dir是狄里克莱分布；直到第i层的跟随智能体输出一个集合的决策。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行计算机程序时实现权利要求1-4任一项所述的基于多智能体强化学习的动作集合输出方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-4任一项所述的基于多智能体强化学习的动作集合输出方法的步骤。