CN117151206B

CN117151206B - 一种多智能体协同决策强化学习方法、系统及装置

Info

Publication number: CN117151206B
Application number: CN202311322476.2A
Authority: CN
Inventors: 陈嘉义; 茹吉; 项轼辙; 罗家胜; 曹涛; 张灿阳; 张旭; 胡影超; 魏冉; 褚坤; 王斌; 刘哲祺
Original assignee: Beijing Blue Creation Network Technology Co ltd
Current assignee: Beijing Blue Creation Network Technology Co ltd
Priority date: 2023-10-12
Filing date: 2023-10-12
Publication date: 2024-04-12
Anticipated expiration: 2043-10-12
Also published as: CN117151206A

Abstract

本申请公开了一种多智能体协同决策强化学习方法、系统及装置，用于实现多智能体有效协同决策。本申请方法包括构建协同学习框架模型；获取多智能体系统的全局环境状态，确定智能体局部观测信息；将局部观测信息输入顶层策略编码器获得局部特征编码后输入交流门控确定交流意图值，若交流意图值达到预设阈值，则通过基于图网络的自注意力交流通信模块与邻域智能体通信以调整智能体顶层策略；根据顶层策略从子动作空间确定与环境交互的可执行动作；与环境交互后得到奖励并根据奖励值计算损失函数，使用反向传播算法对协同学习框架模型的模型参数进行优化更新，直至损失函数收敛，得到协同学习模型；基于协同学习模型确定智能体的执行动作与环境交互。

Description

一种多智能体协同决策强化学习方法、系统及装置

技术领域

本申请涉及多智能体协作与竞争技术领域，尤其涉及一种多智能体协同决策强化学习方法、系统及装置。

背景技术

多智能体系统(multi-agent system)包含多个智能体，每个智能体根据它在环境中观测到的信息做出决策并改变环境与其他智能体所处的状态。这些智能体能够充分考虑当前环境的观测信息以及各智能体之间的联系，使不同智能体产生的动作能够互相配合。

多智能体的强化学习在现实中有着非常重要的应用场景，例如，游戏领域中的智能NPC。而多智能体的协同决策能力是发挥多智能体优势的关键，也是整个多智能体系统智能性的体现,它们不断的通过通信交互，分别控制一个环境中的不同单位。

但是，由于目前的多智能体系统通信通道受限，而智能体之间无差别的交互和相互影响，多智能体强化学习过程需要很庞大的算力支持，智能体学习协同决策难度较大。

发明内容

本申请提供了一种多智能体协同决策强化学习方法、系统及装置，用于在通信通道受限的多智能体系统中缓解智能体学习协同决策难度。

本申请第一方面提供了一种多智能体协同决策强化学习方法，包括：

构建协同学习框架模型，所述协同学习框架模型包括顶层策略编码器、交流门控及顶层策略选择器；

获取多智能体系统的全局环境状态，并根据所述全局环境状态确定所述多智能体系统中目标智能体的局部观测信息；

将所述局部观测信息输入所述顶层策略编码器得到局部特征编码，将所述局部特征编码输入所述交流门控中确定所述目标智能体的交流意图值；

若所述交流意图值达到预设阈值，则通过基于图网络的自注意力交流通信模块与所述目标智能体的邻域智能体进行通信，并根据通信结果基于所述顶层策略选择器选择并调整所述目标智能体的顶层策略，以使得根据所述顶层策略区分所述目标智能体与所述邻域智能体之间的角色关系，实现多智能体的分工合作；

根据所述顶层策略，在其对应的子动作空间确定所述目标智能体的目标动作，所述子动作空间通过预训练的动作语义表征编码模型得到；

在确定所述顶层策略和所述目标动作后，控制所述目标智能体与环境进行交互得到奖励反馈并计算损失函数和梯度，根据所述梯度和损失函数值利用反向传播算法对所述协同学习框架模型的模型参数进行优化更新后，再利用所述多智能体系统的多智能体对所述协同学习框架模型进行迭代训练直至所述损失函数收敛，得到训练完成的协同学习模型；

训练完成后基于所述协同学习模型确定所述多智能体系统中智能体的执行动作与环境交互。

可选地，所述将所述局部观测信息输入所述顶层策略编码器得到局部特征编码，将所述局部特征编码输入所述交流门控中确定所述目标智能体的交流意图值包括：

将所述目标智能体的局部观测信息和循环网络记忆单元(Gate Recurrent Unit，GRU)保存的所述目标智能体的隐藏状态同时输入所述顶层策略编码器中进行编码，输出局部特征编码，所述顶层策略编码器包括所述GRU和线性层网络单元；

将所述局部特征编码输入所述交流门控中得到交流权重，根据所述交流权重确定交流意图值。

可选地，所述通过基于图网络的自注意力交流通信模块与所述目标智能体的邻域智能体进行通信，并根据通信结果基于所述顶层策略选择器选择并调整所述目标智能体的顶层策略包括：

在所述协同学习框架模型中设置基于图网络的自注意力交流通信模块，所述自注意力交流通信模块包括多轮通信器；

利用所述多轮通信器生成所述目标智能体的第一消息，并通过所述多轮通信器的通信通道向邻域智能体发送所述第一消息，所述多轮通信器用于发送和接收智能体生成的消息，所述邻域智能体为基于所述图网络的自注意力交流通信模块确定的与所述目标智能体同在目标观测范围内的所述目标智能体的同盟邻域智能体；

基于所述第一消息利用所述顶层策略选择器计算所述目标智能体的角色Q值；

从所述角色Q值中选择Q值最大的作为所述目标智能体的顶层策略，以使得根据所述顶层策略对所述目标智能体进行动作调整。

可选地，所述协同学习框架模型还包括底层策略网络；

所述在确定所述顶层策略和所述目标动作后，控制所述目标智能体与环境进行交互得到奖励反馈并计算损失函数和梯度，根据所述梯度和损失函数值利用反向传播算法对所述协同学习框架模型的模型参数进行优化更新包括：在确定所述顶层策略和所述目标动作后，基于底层策略网络控制所述目标智能体与环境进行交互得到奖励反馈，确定所述多智能体系统的全局Q值；基于所述奖励反馈和所述全局Q值计算顶层策略损失函数，并计算所述底层策略网络的底层策略损失函数；

根据所述顶层策略损失函数和所述底层策略损失函数计算总损失值，并计算梯度；

基于所述总损失值和所述梯度，利用反向梯度传播算法对所述协同学习框架模型的模型参数进行更新优化。

可选地，在所述根据所述顶层策略损失函数和所述底层策略损失函数计算总损失值之后，所述方法还包括：

对于所述目标智能体和所述邻域智能体，通过目标公式计算独立角色值函数和协作角色值函数的平均差值，根据所述平均差值确定目标Q值，将所述目标Q值存储到目标队列中；

对所述目标Q值做最小-最大归一化处理，使其值范围在0～1之间；

根据归一化处理后的目标Q值计算所述交流门控的门控损失函数，并根据所述门控损失函数对所述交流门控中的网络参数进行优化更新。

可选地，在所述根据所述顶层策略，在其对应的子动作空间确定所述目标智能体的目标动作之前，所述方法还包括：

构建动作语义表征编码初始模型，并训练所述动作语义表征编码初始模型得到动作语义表征编码模型，所述动作语义表征编码模型用于确定智能体的子动作空间。

可选地，所述训练所述动作语义表征编码初始模型得到动作语义表征编码模型包括：

所述动作语义表征编码初始模型包括动作编码器、观测预测器和奖励预测器；

对所述动作编码器进行训练，以使得所述动作编码器的输入为所述目标智能体的离散型动作编码，输出为连续D维动作表示；

将所述目标智能体在当前时间步的本地局部观测信息和所有其他智能体在所述当前时间步的动作表示输入至所述观测预测器和所述奖励预测器，以得到所述目标智能体和所述所有其他智能体在下一时间步的预测局部观测信息和预测环境奖励；

基于所述预测局部观测信息和所述预测环境奖励计算目标损失函数，并根据损失结果对所述动作编码器、所述观测预测器和所述奖励预测器进行优化更新，通过上述步骤迭代训练得到训练完成的动作语义表征编码模型，以使得在将智能体的所有可执行的动作输入所述动作语义表征编码模型的动作编码器后确定相应的动作表征及子动作空间。

可选地，所述获取多智能体系统的全局环境状态，并根据所述全局环境状态确定所述多智能体系统中目标智能体的局部观测信息包括：

根据所述协同学习框架模型与所述多智能体系统的环境交互，获取所述多智能体系统在每一时刻的全局环境状态，并基于所述全局环境状态确定目标智能体的局部观测信息。

本申请第二方面提供了一种多智能体协同决策强化学习系统，包括：

第一构建单元，用于构建协同学习框架模型，所述协同学习框架模型包括顶层策略编码器、交流门控及顶层策略选择器；

获取单元，用于获取多智能体系统的全局环境状态，并根据所述全局环境状态确定所述多智能体系统中目标智能体的局部观测信息；

第一确定单元，用于将所述局部观测信息输入所述顶层策略编码器得到局部特征编码，将所述局部特征编码输入所述交流门控中确定所述目标智能体的交流意图值；

调整单元，用于若所述交流意图值达到预设阈值，则通过基于图网络的自注意力交流通信模块与所述目标智能体的邻域智能体进行通信，并根据通信结果基于所述顶层策略选择器选择并调整所述目标智能体的顶层策略，以使得根据所述顶层策略区分所述目标智能体与所述邻域智能体之间的角色关系，实现多智能体的分工合作；

第二确定单元，用于根据所述顶层策略，在其对应的子动作空间确定所述目标智能体的目标动作，所述子动作空间通过预训练的动作语义表征编码模型得到；

训练单元，用于在确定所述顶层策略和所述目标动作后，控制所述目标智能体与环境进行交互得到奖励反馈并计算损失函数和梯度，根据所述梯度和损失函数值利用反向传播算法对所述协同学习框架模型的模型参数进行优化更新后，再利用所述多智能体系统的多智能体对所述协同学习框架模型进行迭代训练直至所述损失函数收敛，得到训练完成的协同学习模型；

第三确定单元，用于训练完成后基于所述协同学习模型确定所述多智能体系统中智能体的执行动作与环境交互。

可选地，所述第一确定单元具体用于将所述目标智能体的局部观测信息和GRU保存的所述目标智能体的隐藏状态同时输入所述顶层策略编码器中进行编码，输出局部特征编码，所述顶层策略编码器包括所述GRU和线性层网络单元；

可选地，所述调整单元具体用于在所述协同学习框架模型中设置基于图网络的自注意力交流通信模块，所述自注意力交流通信模块包括多轮通信器；

利用所述多轮通信器生成目标智能体的第一消息，并通过所述多轮通信器的通信通道向邻域智能体发送所述第一消息，所述多轮通信器用于发送和接收智能体生成的消息，所述邻域智能体为基于所述图网络的自注意力交流通信模块确定的与所述目标智能体同在目标观测范围内的所述目标智能体的同盟邻域智能体；

可选地，所述协同学习框架模型还包括底层策略网络，所述训练单元具体用于在确定所述顶层策略和所述目标动作后，基于所述底层策略网络控制所述目标智能体与环境进行交互得到奖励反馈，确定所述多智能体系统的全局Q值；基于所述奖励反馈和和所述全局Q值计算顶层策略损失函数及所述底层策略网络的底层策略损失函数；

可选地，所述训练单元还用于对于所述目标智能体和所述邻域智能体，通过目标公式计算独立角色值函数和协作角色值函数的平均差值，根据所述平均差值确定目标Q值，将所述目标Q值存储到目标队列中；

可选地，所述系统还包括：

第二构建单元，用于构建动作语义表征编码初始模型，并训练所述动作语义表征编码初始模型得到动作语义表征编码模型，所述动作语义表征编码模型用于确定智能体的子动作空间。

可选地，所述动作语义表征编码初始模型包括动作编码器、观测预测器和奖励预测器；

所述第二构建单元具体用于对所述动作编码器进行训练，以使得所述动作编码器的输入为所述目标智能体的离散型动作编码，输出为连续D维动作表示；

可选地，所述获取单元具体用于根据所述协同学习框架模型与所述多智能体系统的环境交互，获取所述多智能体系统在每一时刻的全局环境状态，并基于所述全局环境状态确定目标智能体的局部观测信息。

本申请第三方面提供了一种多智能体协同决策强化学习装置，所述装置包括：

处理器、存储器、输入输出单元以及总线；

所述处理器与所述存储器、所述输入输出单元以及所述总线相连；

所述存储器保存有程序，所述处理器调用所述程序以执行第一方面以及第一方面中任一项可选的多智能体协同决策强化学习方法。

本申请第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质上保存有程序，所述程序在计算机上执行时执行第一方面以及第一方面中任一项可选的多智能体协同决策强化学习方法。

从以上技术方案可以看出，本申请具有以下优点：

本申请方法通过获取多智能体系统的全局环境状态和目标智能体的局部观测信息；将局部观测信息输入顶层策略编码器得到局部特征编码，将局部特征编码输入交流门控中确定目标智能体的交流意图值。若交流意图值达到预设阈值，再通过基于图网络的自注意力交流通信模块与目标智能体的邻域智能体进行通信，并根据通信结果基于顶层策略选择器选择并调整目标智能体的顶层策略，以使得根据顶层策略区分目标智能体与邻域智能体之间的角色关系，实现多智能体的分工合作。然后根据顶层策略，在其对应的子动作空间确定目标智能体的目标动作，其中，子动作空间通过预训练的动作语义表征编码模型得到；在确定顶层策略和目标动作后，控制目标智能体与环境进行交互得到奖励反馈并计算损失函数和梯度，根据损失函数值和梯度利用反向传播算法对协同学习框架模型的模型参数进行优化更新后，再利用所述多智能体系统的多智能体对所述协同学习框架模型进行迭代训练直至损失函数收敛，得到训练完成的协同学习模型。最后基于协同学习模型确定多智能体系统中智能体的执行动作与环境交互。

本申请引入交流门控机制，智能体可根据当前所处的状态确定的交流意图值判断是否需要与其他智能体进行通信，在确定需要进行智能体通信时，通过基于图网络的自注意力交流通信模块确定与目标智能体的邻域智能体，并与该邻域智能体进行通信，根据通信结果选择并调整目标智能体的顶层策略，从而实现分工合作的目的，该方法中，若目标智能体存在通信意图时，仅与其邻域的邻域智能体通信，通信频率较低，能够在通信通道受限的多智能体系统中缓解智能体学习协同决策难度。

附图说明

为了更清楚地说明本申请中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的多智能体协同决策强化学习方法一个实施例流程示意图；

图2为本申请提供的多智能体协同决策强化学习方法另一个实施例流程示意图；

图3为本申请提供的多智能体协同决策强化学习方法一个网络结构细节结构示意图；

图4为本申请提供的多智能体协同决策强化学习方法一个算法训练流程示意图；

图5为本申请提供的多智能体协同决策强化学习系统一个实施例结构示意图；

图6为本申请提供的多智能体协同决策强化学习系统另一个实施例结构示意图；

图7为本申请提供的多智能体协同决策强化学习装置一个实施例结构示意图。

具体实施方式

本申请提供了一种多智能体协同决策强化学习方法、系统及装置，用于解决多智能体系统中多智能体难以学习到有效协同决策的问题，缓解多智能体学习协同决策难度。

需要说明的是，本申请提供的多智能体协同决策强化学习方法，可以应用于终端，还可以应用于服务器上，例如终端可以是智能手机或电脑、平板电脑、智能电视、智能手表、便携计算机终端也可以是台式计算机等固定终端。为方便阐述，本申请中以终端为执行主体进行举例说明。

请参阅图1，图1为本申请提供的多智能体协同决策强化学习方法的一个实施例，该方法包括：

101、构建协同学习框架模型，协同学习框架模型包括顶层策略编码器、交流门控及顶层策略选择器；

终端构建协同学习框架模型，该模型可包括顶层策略编码器、交流门控及顶层策略选择器。其中，顶层策略编码器用于对输入的数据或信息进行编码，交流门控用于判断多智能体系统中的目标智能体是否存在与其他智能体通信的通信意图。具体地，该交流门控可以为一个二分类器，该顶层策略选择器用于确定目标智能体的选择角色，以使得根据选择角色调整目标智能体的顶层策略。

102、获取多智能体系统的全局环境状态，并根据全局环境状态确定多智能体系统中目标智能体的局部观测信息；

终端获取多智能体系统的全局环境状态，基于全局环境状态从中提取并确定该智能体系统中目标智能体的局部观测信息。其中，该多智能体系统中包含有多个智能体，该目标智能体为多个智能体中的一个。进一步地，终端可确定多智能体系统中每一个智能体的局部观测信息。具体地，终端根据协同学习框架模型与多智能体系统的环境交互，通过该协同学习框架模型获取多智能体系统在每一时刻的全局环境状态，并基于该全局环境状态确定对应时刻的目标智能体的局部观测信息。

103、将局部观测信息输入顶层策略编码器得到局部特征编码，将该局部特征编码输入交流门控中确定目标智能体的交流意图值；

终端将目标智能体的局部观测信息输入顶层策略编码器中，得到局部特征编码，该局部特征编码为通过提取局部观测信息得到的隐藏层向量，将该局部特征编码输入至交流门控中计算出目标智能体与邻域智能体之间的交互关系，确定交流意图值。其中，该交流意图值为目标智能体与其邻域智能体进行通信交互的意向值，通过该交流意图值判断目标智能体是否要参与通信交流。其中，该邻域智能体为环绕在目标智能体的预设环境范围内的若干个同盟智能体。

105、若交流意图值达到预设阈值，则通过基于图网络的自注意力交流通信模块与目标智能体的邻域智能体进行通信，并根据通信结果基于顶层策略选择器选择并调整目标智能体的顶层策略，以使得根据顶层策略区分目标智能体与邻域智能体之间的角色关系，实现多智能体的分工合作；

终端首先判断该交流意图值是否达到预设阈值，若是，确定目标智能体需与其他智能体进行通信交互，则使用基于图网络的自注意力交流通信模块提取目标智能体与其他智能体之间的交互关系，确定与目标智能体相关联的邻域智能体，控制目标智能体与该邻域智能体进行通信交互，根据目标智能体和邻域智能体之间的交互关系将邻域智能体的消息特征进行整合，并根据目标智能体当前的局部观测信息和邻域智能体的消息特征基于顶层策略选择器选择并调整目标智能体的顶层策略，以使得目标智能体根据该顶层策略进行适当的动作，实现目标智能体与邻域智能体的分工合作。

106、根据顶层策略在其对应的子动作空间确定目标智能体的目标动作，该子动作空间通过预训练的动作语义表征编码模型得到；

在协同框架学习模型的底层策略中，终端控制目标智能体根据选择的顶层策略和局部观测信息从对应的子动作空间中选择适当的目标动作。具体地，使用预训练的动作语义表征编码模型确定目标智能体的子动作空间，再在对应的子动作空间中选择适当的目标动作。

107、在确定顶层策略和目标动作后，控制目标智能体与环境进行交互得到奖励反馈并计算损失函数和梯度，根据梯度和损失函数值利用反向传播算法对协同学习框架模型的模型参数进行优化更新后，在利用多智能体系统的多智能体对协同学习框架模型进行迭代训练直至损失函数收敛，得到训练完成的协同学习模型；

终端对该协同学习框架模型采用端到端的训练方式，在确定目标智能体的顶层策略和目标动作后，控制目标智能体与多智能体系统中的环境进行交互，基于交互过程中目标智能体采取的行动得到相应的奖励反馈，并计算损失函数和计算梯度，根据损失函数值和梯度利用反向梯度传播算法对协同学习框架模型进行模型参数优化更新。循环使用多智能体系统中的多个智能体通过前述方法对协同学习框架模型进行迭代训练，直至损失函数收敛或损失函数值达到最小化，从而得到训练完成的协同学习模型，使得基于该协同学习模型，智能体能在多智能体系统的环境交互中得到最大化的奖励，实现智能体的最优控制策略。

108、训练完成后基于协同学习模型确定多智能体系统中智能体的执行动作与环境交互。

在得到训练好的协同学习模型后，在使用多智能体系统时，终端可利用该协同学习模型确定多智能体系统的全局环境状态和智能体的局部观测信息，确定智能体的交流意图值，在交流意图值达到预设阈值后，对智能体的顶层策略进行调整，以使得智能体再根据顶层策略选择对应的适当的动作，实现分工合作的目的。

本实施例中，引入交流门控机制，目标智能体可根据当前所处的状态确定的交流意图值判断是否需要与邻域智能体进行通信动态地调整智能体的顶层策略，同时在确定需要进行智能体之间通信时，通过基于图网络的自注意力交流通信模块确定与目标智能体的邻域智能体，并仅与该邻域智能体进行通信，根据通信结果选择并调整目标智能体的顶层策略，从而实现分工合作的目的。该方法中，若目标智能体存在通信意图时，仅与其邻域的邻域智能体通信，通信频率较低，能够在通信通道受限的多智能体系统中缓解智能体学习协同决策难度。

为使本申请提供的多智能体协同决策强化学习方法更加的明显易懂，下面对本申请提供的多智能体协同决策强化学习方法进行详细说明：

请参阅图2-图4，图2为本申请提供的多智能体协同决策强化学习方法另一个实施例，该方法包括：

201、构建协同学习框架模型，协同学习框架模型包括顶层策略网络，顶层策略网络包括顶层策略编码器和交流门控；

本实施例中，该协同学习框架模型包括顶层策略网络和底层策略网络。其中，该顶层策略网络可包括顶层策略编码器、交流门控、基于图网络的自注意力机制的通信交流模块和顶层策略选择器；该底层策略网络可包括底层策略编码器或称局部观测编码器，角色动作选择器。终端构建包括上述网络的协同学习框架模型。此外，请参阅图3，该协同学习框架模型可采用GRU、MLP等网络结构进行构建。

202、获取多智能体系统的全局环境状态，并根据全局环境状态确定多智能体系统中目标智能体的局部观测信息；

本实施例中的步骤202与前述图1所示实施例中的步骤102类似，具体此处不做赘述。

203、构建动作语义表征编码初始模型，并训练动作语义表征编码初始模型得到动作语义表征编码模型，该动作语义表征编码模型用于确定智能体的子动作空间；

可选地，该动作语义表征编码初始模型包括动作编码器、观测预测器和奖励预测器。终端对动作编码器进行训练，以使得动作编码器的输入为目标智能体的离散型动作编码，输出为连续D维动作表示；将目标智能体在当前时间步的本地局部观测信息和所有其他智能体在当前时间步的动作表示输入至观测预测器和奖励预测器，以得到目标智能体和所有其他智能体在下一时间步的预测局部观测信息和预测环境奖励；基于预测局部观测信息和预测环境奖励计算目标损失函数，并根据损失结果对动作编码器、观测预测器和奖励预测器进行优化更新，通过上述步骤迭代训练得到训练好的动作语义表征编码模型，以使得在将智能体的所有可执行的动作输入动作语义表征编码模型的动作编码器后确定相应的动作表征及子动作空间。

进一步的，本申请的训练动作语义表征编码初始模型得到动作语义表征编码模型可包括以下步骤：

(2.1)训练参数为θ_e的动作编码器f_e(·；θ_e)，该动作编码器的输入是智能体i采取的离散的动作编码a_i，输出是连续的d维动作表示

(2.2)给定智能体i的当前时间步本地局部观测信息o_i和所有其他智能体在当前时间步选择的动作表示同时作为输入传递给观测预测器p_o和奖励预测器p_r，以分别预测下一时间步的预测局部观测信息和预测环境奖励。

(2.3)将θ_e参数化的动作编码器f_e，和由ξ_e参数化的观测预测器p_o和奖励预测器p_r同时进行更新，通过最小化以下损失函数进行端到端训练：

其中D是经验重放缓冲区，是智能体i的下一时间步的预测局部观测信息，是下一时间步的预测环境奖励，o _i′是智能体真实的下一时间步的局部观测信息，r是真实的下一时间步的环境奖励。缩放因子λ_e用于平衡下一时间步的预测局部观测信息误差和预测环境奖励误差。

(2.4)训练的f_e被用于将智能体的所有动作编码输出为其对应的动作表征，训练完成后动作编码器f_e中的网络权重参数在接下来的动作Q值训练过程中被固定住，不进行更新。

(2.5)将智能体的所有可执行的动作输入至动作编码器获得每个不同的动作表征，使用k均值聚类方法通过测量动作表征的欧氏距离将智能体的整个动作空间划分为k组，不同的组具有不同的子动作空间，数字k是一个超参数。动作分组后，训练开始。智能体根据局部观测信息和其他智能体的消息选择顶层策略，即选择k组子动作空间中的一个。在训练过程中，每组子动作空间的动作表征保持固定。

204、将局部观测信息输入顶层策略编码器得到局部特征编码，将所述局部特征编码输入交流门控中确定目标智能体的交流意图值；

可选地，终端将多智能体系统的智能体的局部观测信息和循环网络记忆单元GRU保存的目标智能体的隐藏状态同时输入顶层策略编码器中进行编码，输出局部特征编码。具体地，确定目标智能体在目标时间步的本地局部观测信息，将本地局部观测信息输入顶层策略编码器中，使用线性层网络单元和GRU进行信息提取，一起将智能体的本地局部观测信息和隐藏状态(观察历史)编码为隐藏层向量，将隐藏层向量输入交流门控中得到交流权重，根据交流权重确定交流意图值。其中，该隐藏层向量即对应的局部特征编码，该顶层策略编码器包括GRU和线性层网络单元。

具体地，包括以下步骤：

(3.1)构建一个包含一层线性层和一层记忆单元网络的顶层策略编码器，将智能体的局部观测信息O和循环网络记忆单元中隐藏状态h同时输入进循环网络单元中编码输出为隐藏层向量hτ。

(3.2)每个智能体i在时间步t时，获得本地局部观测信息然后，在每个时间步，顶层策略编码器将本地局部观测信息作为输入提取其信息得到一个隐藏层向量作为交流意图将输入到交流门控中得到交流权重，确定交流意图值：

其中用θ代表交流门控网络中的参数,为顶层策略编码器的输出，将输入至交流门控中进行线性变换后得到交流意图值。该交流门控为二分类器，通过交流门控，每个智能体自己决定是否要参与通信交流。

205、若交流意图值达到预设阈值，则通过基于图网络的自注意力交流通信模块与目标智能体的邻域智能体进行通信，并根据通信结果基于顶层策略选择器选择并调整目标智能体的顶层策略，以使得根据顶层策略区分目标智能体与邻域智能体之间的角色关系，实现智能体的分工合作；

可选地，若交流意图值达到预设阈值，则动态选择并调整目标智能体的顶层策略；若未达到，则保持顶层策略不变。例如，该交流意图值设置为0～1范围的值，若设置预设阈值为0.8，如果该交流意图值大于0.8则会调整顶层策略，否则保持顶层策略不变。需要注意的是，该预设阈值可以根据实际情况设定，也可以为0.7或0.9等，此处不做具体限定。

其中，选择并调整顶层策略的具体方式首先通过在顶层策略网络中设置基于图网络的自注意力交流通信模块，该自注意力交流通信模块包括多轮通信器；利用多轮通信器生成目标智能体的第一消息，并通过多轮通信器的通信通道向邻域智能体发送第一消息，其中该多轮通信器用于发送和接收智能体生成的消息；基于第一消息利用顶层策略选择器计算目标智能体的角色Q值；从角色Q值中选择Q值最大的作为目标智能体的顶层策略，以使得根据顶层策略对目标智能体进行动作调整。

具体地，包括以下步骤：

(3.3)在顶层策略网络中设置基于图网络的自注意力交流通信模块，该自注意力交流通信模块包括多轮通信器，其中多轮通信器的通信轮数被视为超参数。在通信器中使用基于键值的自注意力机制，每个通信器由两个组件组成：发送器和接收器。

(3.4)每个智能体可通过发送器生成第一消息，通过接收器接收和处理其他智能体的消息。具体地，本实施例中，通信器将目标智能体的隐藏层向量hτ和第一消息作为输入发送给其他领域智能体，并通过自注意力交流通信模块抽象目标智能体和邻域智能体之间的关系，最后将与邻域智能体交互的消息集成到向量h′_τ中。其中，具体地，每条消息m_i由两部分组成：和定义为：

其中为顶层策略编码器的输出，W表示对其进行线性变换，分别得到键值向量k与特征向量v。

(3.5)当目标智能体(以i为索引)生成消息m_i后，会通过自注意力交流通信模块的通信通道将m_i仅发送给其邻域智能体。其中，邻域智能体为基于图网络的自注意力交流通信模块确定的与目标智能体同在目标观测范围内的属于该目标智能体的同盟邻域智能体。然后，每个智能体(以i为索引)根据局部观测编码器的输出使用下面的公式计算得到查询向量

其中为顶层策略编码器的输出，W表示对其进行线性变换，得到查询向量q。

在目标智能体i的接收器接收到所有邻域智能体发送过来的消息后，使用查询向量q_i与接收的所有领域智能体消息的k_i值来计算点积以抽象智能体之间的交互关系。智能体i与其邻域智能体之间的交互关系定义为权重向量

但是如果两个智能体不在互相的观测范围内，在邻接矩阵M中表示为0，代表智能体之间无法建立通信通道。由于softmax函数本身的计算方式，在计算权重向量α_i时，会将不在观测范围内的智能体分配一个边权值，这是不合理的。因此，用-9e15替换下面公式中无法进行交互的智能体的注意力权重，并计算为：

其中是缩放因子，经过sofamax函数对注意力权重进行归一化操作，q为查询向量，k为键值向量。然后，通过下面的公式聚合每条消息的值：

而对于多轮通信，再次使用聚合了邻域智能体消息特征的隐藏状态重复上述的操作。

(3.6)顶层策略输出目标智能体的角色Q值，顶层策略选择器(角色选择器)基于可执行动作的的平均表示计算中可执行动作的平均表征的均值。

其中为角色ρ_j的向量表征，A_j是角色j受限的操作空间。

此外，角色选择器是一个以θ_β参数化的完全连接的网络f_β(h_τ,h_τ″；θ_β)，其网络结构为两层的线性全连接层，其中，θ_β是可训练的网络参数。

将h_τ″和h_τ进行拼接输入至角色选择器中的得到角色特征z_τ,其中h_τ″是通信器的最终隐藏状态，h_τ是顶层策略编码器的输出，然后采用点积的计算方式以下面公式计算选择角色ρ_j的预期回报：

(3.7)智能体选择最大的角色Q值来确定顶级策略。

206、根据顶层策略，在其对应的子动作空间确定目标智能体的目标动作，该子动作空间通过预训练的动作语义表征编码模型得到；

顶层策略确定后，目标智能体将会被分配一个角色，然后在接下来的C个时间步内角色状态不会改变，在此期间只能选择与角色相关联的子动作空间中的动作。

从而，在底层策略网络中，终端可控制目标智能体根据选择的顶层策略和局部观测信息选择适当的目标动作。

具体地，根据顶层策略使用动作语义表征编码模型确定智能体的子动作空间，在子动作空间中选择适当的目标动作。

具体地，包括以下步骤：

(4.1)底层策略中，构建每个不同角色的角色策略网络，每个角色策略网络都是一个使用全连接层结构，由参数化的完全连接的网络。h_τ是策略编码器的输出，将本地局部观测信息O_i编码为矢量hτ。

(4.2)通过函数网络将h_τ映射到z_τ，z_τ是R^d中的矢量。

(4.3)使用动作表示和z_τ计算点积来计算原始动作值a_k，计算公式如下：

207、在确定顶层策略和目标动作后，控制目标智能体与环境进行交互得到奖励反馈并计算损失函数和梯度，根据梯度和损失函数值利用反向传播算法对协同学习框架模型的模型参数进行优化更新后，再利用所述多智能体系统的多智能体对所述协同学习框架模型进行迭代训练直至损失函数收敛，得到训练完成的协同学习模型；

可选地，终端在确定顶层策略和目标动作后，基于底层策略网络控制目标智能体与环境进行交互得到奖励反馈，确定多智能体系统的全局Q值；基于奖励反馈和全局Q值计算顶层策略损失函数，并计算底层策略网络的底层策略损失函数；根据顶层策略损失函数和底层策略损失函数计算总损失值并计算梯度；基于总损失值和梯度，利用反向梯度传播算法对协同学习框架模型的模型参数进行更新优化，再利用多智能体系统的多智能体对协同学习框架模型进行迭代训练直至总损失达到最小化，得到训练完成的协同学习模型。

具体地，包括以下步骤：

(5.1)使用每个智能体来估计全局Q值

角色选择器输出每个智能体的角色值函数后，在顶层策略网络中使用MIX网络估计全局联合角色值函数，也就是全局Q值确定全局的奖励期望。

(5.2)将Q值输入由φ_β参数化的混合网络，使用全局奖励来训练角色选择器，从而以使得角色选择器中的参数会根据全局Q值的环境奖励进行更新。

(5.3)将以下TD顶层策略损失函数降至最低，以更新顶层策略网络的参数：

其中φ_β表示顶层策略MIX网络的参数，δ_β为顶层策略编码器中的网络参数，χ为通信网络模块中的参数，θ_β为角色选择器中的网络参数，为目标网络输出的联合动作值函数，ρ＝<ρ₁,ρ₂,…,ρ_n>是所有智能体的联合角色，并且使用来自重放缓冲区D的统一样本来估计期望值学习Q_i，每次计算损失时输入一轮训练后的所有数据，计算所有数据损失的期望平均值。

对于每个智能体的个体动作值函数Q_i，确定局部Q值，将局部Q值输入到由φ_ρ参数化的底层策略网络中的MIX混合网络中估计全局动作值Q_tot(s,a)。最后将下面TD底层策略损失函数降至最低，以更新学习底层策略网络的参数：

其中，φ_ρ表示底层策略中的MIX网络参数，δ_ρ为底层策略编码器中的网络参数，Q_tot是目标网络输出，θ_ρ是所有角色策略的参数表示，r是环境的奖励值，γ表示折扣因子。使用与顶层策略相同的经验重放D中的均匀分布的样本估计底层TD损失的期望值。

(5.4)通过反向梯度传播使总损失L＝L_ρ+L_β最小化。

根据顶层策略损坏函数和底层策略损失函数计算总损失，并计算梯度，基于总损失值和梯度，利用反向梯度传播算法更新整个策略网络的参数，以使得对协同学习框架模型的模型参数进行更新优化。

此外，在根据顶层策略损失函数和底层策略损失函数计算总损失之后，方法还包括：

对于目标智能体和邻域智能体，通过目标公式计算独立角色值函数和协作角色值函数的平均差值，根据平均差值确定目标Q值，将目标Q值存储到目标队列中；对目标Q值做最小-最大归一化处理，使其值范围在0～1之间；根据归一化处理后的目标Q值计算交流门控的门控损失函数，并根据门控损失函数对交流门控中的网络参数进行优化更新。

具体地，包括以下步骤：

(5.5)对于每个智能体i和它的邻域中的智能体N_i，计算独立角色值函数和协作角色值函数的平均差值，确定目标Q值，储存到目标队列Queue中。目标Q值代表着交流信息对该状态下独立动作值函数的强化提升程度，并作为二分类器的标签，在交流门控训练完成后，该目标Q值可用于表征意图交流值。当一轮训练后，将这轮训练中的目标Q值做最小-最大归一化处理，使其大小在0和1之间。目标Q值的计算公式如下：

其中用θ代表交流门控网络中的参数，h_i为顶层策略编码器的输出，ρ为没经过交流模块直接将h_i输入至角色选择器中的最大Q值角色。h_i″为智能体与邻域智能体经过两轮通信后得到的隐藏层向量。代表将h_i和h_i″进行拼接输入至角色选择器的最大Q值角色。

最小化下面的损失函数更新交流门控中的网络参数，以此训练交流门控：

其中，h_i为顶层策略编码器的输出,ρ(h_i|f_θ)为将h_i输入交流门控中得到的概率值，ΔQ为目标队列Queue中保存的目标Q值。

208、训练完成后基于协同学习模型确定智能体系统中智能体的执行动作与环境交互。

本实施例中的步骤208与前述图1所示实施例中的步骤107类似，具体此处不做赘述。

本申请引入交流门控机制，智能体可根据当前所处的状态确定的交流意图值判断是否需要与其他智能体进行通信从而判断是否需要调整顶层策略，若智能体不存在交流意图，则保持顶层策略不变，若确定需要进行智能体通信时，通过基于图网络的自注意力交流通信模块确定与目标智能体的邻域智能体，并与该邻域智能体进行通信，根据通信结果选择并调整目标智能体的顶层策略，从而实现分工合作的目的，该方法中，若目标智能体存在通信意图时，仅与其邻域的邻域智能体通信，通信频率较低，能够在通信通道受限的多智能体系统中缓解智能体学习协同决策难度。

上述对本申请提供的多智能体协同决策强化学习方法进行了说明，下面对本申请提供的多智能体协同决策强化学习系统进行说明：

请参阅图5，图5为本申请提供的多智能体协同决策强化学习系统一个实施例，该系统包括：

第一构建单元301，用于构建协同学习框架模型，协同学习框架模型包括顶层策略编码器、交流门控及顶层策略选择器；

获取单元302，用于获取多智能体系统的全局环境状态，并根据全局环境状态确定多智能体系统中目标智能体的局部观测信息；

第一确定单元303，用于将局部观测信息输入顶层策略编码器得到局部特征编码，将局部特征编码输入交流门控中确定目标智能体的交流意图值；

调整单元304，用于若交流意图值达到预设阈值，则通过基于图网络的自注意力交流通信模块与目标智能体的邻域智能体进行通信，并根据通信结果基于顶层策略选择器选择并调整目标智能体的顶层策略，以使得根据顶层策略区分目标智能体与邻域智能体之间的角色关系，实现多智能体的分工合作；

第二确定单元305，用于根据顶层策略，在其对应的子动作空间确定目标智能体的目标动作，子动作空间通过预训练的动作语义表征编码模型得到；

训练单元306，用于在确定顶层策略和目标动作后，控制目标智能体与环境进行交互得到奖励反馈并计算损失函数和梯度，根据梯度和损失函数值利用反向传播算法对协同学习框架模型的模型参数进行优化更新后，再利用多智能体系统的多智能体对协同学习框架模型进行迭代训练直至损失函数收敛，得到训练完成的协同学习模型；

第三确定单元307，用于训练完成后基于协同学习模型确定多智能体系统中智能体的执行动作与环境交互。

本实施例系统中，各单元所执行的功能与前述图1所示方法实施例中的步骤对应，具体此处不再赘述。

本申请引入交流门控机制，智能体可根据当前所处的状态确定的交流意图值判断是否需要与邻域智能体进行通信以调整策略，从而实现分工合作的目的，同时，本申请中，若目标智能体存在通信意图确定需与其他智能体进行通信交互时，仅与其邻域的邻域智能体通信，该方法通信频率较低，能够在通信通道受限的多智能体系统中缓解智能体学习协同决策难度。

下面对本申请提供的多智能体协同决策强化学习系统进行详细说明，请参阅图6，图6为本申请提供的多智能体协同决策强化学习系统另一个实施例，该系统包括：

第一构建单元401，用于构建协同学习框架模型，协同学习框架模型包括顶层策略编码器、交流门控及顶层策略选择器；

获取单元402，用于获取多智能体系统的全局环境状态，并根据全局环境状态确定多智能体系统中目标智能体的局部观测信息；

第一确定单元404，用于将局部观测信息输入顶层策略编码器得到局部特征编码，将局部特征编码输入交流门控中确定目标智能体的交流意图值；

调整单元405，用于若交流意图值达到预设阈值，则通过基于图网络的自注意力交流通信模块与目标智能体的邻域智能体进行通信，并根据通信结果基于顶层策略选择器选择并调整目标智能体的顶层策略，以使得根据顶层策略区分目标智能体与邻域智能体之间的角色关系，实现多智能体的分工合作；

第二确定单元406，用于根据顶层策略，在其对应的子动作空间确定目标智能体的目标动作，子动作空间通过预训练的动作语义表征编码模型得到；

训练单元407，用于在确定顶层策略和目标动作后，控制目标智能体与环境进行交互得到奖励反馈并计算损失函数和梯度，根据梯度和损失函数值利用反向传播算法对协同学习框架模型的模型参数进行优化更新后，再利用多智能体系统的多智能体对协同学习框架模型进行迭代训练直至损失函数收敛，得到训练完成的协同学习模型；

第三确定单元408，用于训练完成后基于协同学习模型确定多智能体系统中智能体的执行动作与环境交互。

可选地，第一确定单元404具体用于将目标智能体的局部观测信息和循环网络记忆单元GRU中保存的目标智能体的隐藏状态同时输入顶层策略编码器中进行编码，输出局部特征编码，顶层策略编码器包括GRU和线性层网络单元；

将局部特征编码输入交流门控中得到交流权重，根据交流权重确定交流意图值。

可选地，调整单元405具体用于在协同学习框架模型中设置基于图网络的自注意力交流通信模块，该自注意力交流通信模块包括多轮通信器；

利用多轮通信器生成目标智能体的第一消息，并通过多轮通信器的通信通道向邻域智能体发送第一消息，多轮通信器用于发送和接收智能体生成的消息，该邻域智能体为基于图网络的自注意力交流通信模块确定的与目标智能体同在目标观测范围内的目标智能体的同盟邻域智能体；

基于第一消息利用顶层策略选择器计算目标智能体的角色Q值；

从角色Q值中选择Q值最大的作为目标智能体的顶层策略，以使得根据顶层策略对目标智能体进行动作调整。

可选地，协同学习框架模型还包括底层策略网络，训练单元407具体用于在确定所述顶层策略和所述目标动作后，基于所述底层策略网络控制所述目标智能体与环境进行交互得到奖励反馈，确定所述多智能体系统的全局Q值；

基于奖励反馈和全局Q值计算顶层策略网络的顶层策略损失函数，并计算底层策略网络的底层策略损失函数；

根据顶层策略损失函数和底层策略损失函数计算总损失值，并计算梯度；

基于总损失值和梯度，利用反向梯度传播算法对协同学习框架模型的模型参数进行更新优化。

可选地，训练单元407还用于对于目标智能体和邻域智能体，通过目标公式计算独立角色值函数和协作角色值函数的平均差值，根据平均差值确定目标Q值，将目标Q值存储到目标队列中；

对目标Q值做最小-最大归一化处理，使其值范围在0～1之间；

根据归一化处理后的目标Q值计算交流门控的门控损失函数，并根据门控损失函数对交流门控中的网络参数进行优化更新。

可选地，系统还包括：

第二构建单元403，用于构建动作语义表征编码初始模型，并训练动作语义表征编码初始模型得到动作语义表征编码模型，动作语义表征编码模型用于确定智能体的子动作空间。

可选地，动作语义表征编码初始模型包括动作编码器、观测预测器和奖励预测器；

第二构建单元403具体用于对动作编码器进行训练，以使得动作编码器的输入为目标智能体的离散型动作编码，输出为连续D维动作表示；

将目标智能体在当前时间步的本地局部观测信息和所有其他智能体在当前时间步的动作表示输入至观测预测器和奖励预测器，以得到目标智能体和所有其他智能体在下一时间步的预测局部观测信息和预测环境奖励；

基于预测局部观测信息和预测环境奖励计算目标损失函数，并根据损失结果对动作编码器、观测预测器和奖励预测器进行优化更新，通过上述步骤迭代训练得到训练完成的动作语义表征编码模型，以使得在将智能体的所有可执行的动作输入动作语义表征编码模型的动作编码器后确定相应的动作表征及子动作空间。

可选地，获取单元402具体用于根据协同学习框架模型与多智能体系统的环境交互，获取多智能体系统在每一时刻的全局环境状态，并基于全局环境状态确定目标智能体的局部观测信息。

本实施例系统中，各单元所执行的功能与前述图2所示方法实施例中的步骤对应，具体此处不再赘述。

本申请还提供了一种多智能体协同决策强化学习装置，请参阅图7，图7为本申请提供的多智能体协同决策强化学习装置一个实施例，该装置包括：

处理器501、存储器502、输入输出单元503、总线504；

处理器501与存储器502、输入输出单元503以及总线504相连；

存储器502保存有程序，处理器501调用程序以执行如上任一多智能体协同决策强化学习方法。

本申请还涉及一种计算机可读存储介质，计算机可读存储介质上保存有程序，当程序在计算机上运行时，使得计算机执行如上任一多智能体协同决策强化学习方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，read-only memory)、随机存取存储器(RAM，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种多智能体协同决策强化学习方法，其特征在于，所述多智能体为游戏领域中的智能NPC，所述方法包括：

训练完成后基于所述协同学习模型确定所述多智能体系统中智能体的执行动作与环境交互；

所述通过基于图网络的自注意力交流通信模块与所述目标智能体的邻域智能体进行通信，并根据通信结果基于所述顶层策略选择器选择并调整所述目标智能体的顶层策略包括：

从所述角色Q值中选择Q值最大的作为所述目标智能体的顶层策略，以使得根据所述顶层策略对所述目标智能体进行动作调整；

所述协同学习框架模型还包括底层策略网络；

所述在确定所述顶层策略和所述目标动作后，控制所述目标智能体与环境进行交互得到奖励反馈并计算损失函数和梯度，根据所述梯度和损失函数值利用反向传播算法对所述协同学习框架模型的模型参数进行优化更新包括：

在确定所述顶层策略和所述目标动作后，基于所述底层策略网络控制所述目标智能体与环境进行交互得到奖励反馈，确定所述多智能体系统的全局Q值；

基于所述奖励反馈和所述全局Q值计算顶层策略损失函数及所述底层策略网络的底层策略损失函数；

2.根据权利要求1所述的多智能体协同决策强化学习方法，其特征在于，所述将所述局部观测信息输入所述顶层策略编码器得到局部特征编码，将所述局部特征编码输入所述交流门控中确定所述目标智能体的交流意图值包括：

将所述目标智能体的局部观测信息和循环网络记忆单元GRU保存的所述目标智能体的隐藏状态同时输入所述顶层策略编码器中进行编码，输出局部特征编码，所述顶层策略编码器包括所述GRU和线性层网络单元；

3.根据权利要求1所述的多智能体协同决策强化学习方法，其特征在于，在所述根据所述顶层策略损失函数和所述底层策略损失函数计算总损失值之后，所述方法还包括：

4.根据权利要求1至3中任一项所述的多智能体协同决策强化学习方法，其特征在于，在所述根据所述顶层策略，在其对应的子动作空间确定所述目标智能体的目标动作之前，所述方法还包括：

5.根据权利要求4所述的多智能体协同决策强化学习方法，其特征在于，所述训练所述动作语义表征编码初始模型得到动作语义表征编码模型包括：

6.根据权利要求1至3中任一项所述的多智能体协同决策强化学习方法，其特征在于，所述获取多智能体系统的全局环境状态，并根据所述全局环境状态确定所述多智能体系统中目标智能体的局部观测信息包括：

7.一种多智能体协同决策强化学习系统，其特征在于，所述多智能体为游戏领域中的智能NPC，所述系统包括：

第三确定单元，用于训练完成后基于所述协同学习模型确定所述多智能体系统中智能体的执行动作与环境交互；

所述调整单元具体用于在所述协同学习框架模型中设置基于图网络的自注意力交流通信模块，所述自注意力交流通信模块包括多轮通信器；

所述协同学习框架模型还包括底层策略网络；

所述训练单元具体用于在确定所述顶层策略和所述目标动作后，基于所述底层策略网络控制所述目标智能体与环境进行交互得到奖励反馈，确定所述多智能体系统的全局Q值；基于所述奖励反馈和和所述全局Q值计算顶层策略损失函数及所述底层策略网络的底层策略损失函数；

8.一种多智能体协同决策强化学习装置，其特征在于，所述装置包括：

处理器、存储器、输入输出单元以及总线；

所述存储器保存有程序，所述处理器调用所述程序以执行如权利要求1至6中任一项所述方法。