CN115660110A

CN115660110A - 多智能体信用分配方法、装置、可读存储介质和智能体

Info

Publication number: CN115660110A
Application number: CN202211672682.1A
Authority: CN
Inventors: 张俊格; 张茗奕; 杨光开; 陈皓; 黄凯奇; 陈丹丹; 王陆
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2022-12-26
Filing date: 2022-12-26
Publication date: 2023-01-31
Anticipated expiration: 2042-12-26
Also published as: CN115660110B

Abstract

本发明提供了一种多智能体信用分配方法、装置、可读存储介质和智能体，涉及强化学习、多智能体技术领域。该方法包括：定义信用分配智能体在预设环境中的信用分配策略空间；使信用分配智能体学习一个信用分配策略，使信用分配智能体在训练时按照信用分配策略探索信用分配策略空间，并基于全局状态信息输出动作；从动作得到目标动作，并将目标动作作为多智能体协同的信用分配策略。该方法从形式上定义了信用分配策略空间，并基于值分解框架提出了随机化信用分配方法，在训练时基于可学习的策略分布，能够以一定概率采样出一个信用分配策略，最终实现了对信用分配策略空间的有效探索，得到更好的信用分配策略，增强算法在多智能体合作任务上的能力。

Description

多智能体信用分配方法、装置、可读存储介质和智能体

技术领域

本发明涉及强化学习、多智能体技术领域，具体而言，涉及一种多智能体信用分配方法、装置、可读存储介质和智能体。

背景技术

近年来，在多智能体合作博弈问题中，智能体与环境交互时，环境只返回单个全局奖励，如何将全局奖励以合理的方式分配给每个智能体以促进智能体之间的合作是“中心化训练分布式执行”这一学习范式的核心问题，称为信用分配。信用分配本质上是对智能体的奖励信号进行修正，错误的奖励信号对智能体学习产生非常负面的影响，导致算法难以收敛到最优策略。实际情况下信用分配问题相当复杂，显式直接地解决往往面临很大困难，因为智能体之间，智能体与环境之间交互行为高度复杂且动态变化难以为每个智能体指定贡献大小。值分解框架作为解决信用分配的经典框架，提出将全局奖励通过某种形式进行分解以得到每个智能体的奖励信号。值分解框架以确定性的方法实现信用分配，忽略了对信用分配策略空间的探索，难以应对部分可观测性带来的不确定性，导致只能得到次优联合策略。

因此，如何提出一种通过对信用分配策略空间的探索，以合理的实现多智能体的信用分配的多智能体信用分配方法成为目前亟待解决的问题。

发明内容

为解决上述技术问题，本申请提出一种能够解决多智能体的信用分配不合理的多智能体信用分配方法。

因此，本发明的第一个目的在于提供了一种多智能体信用分配方法。

本发明的第二个目的在于提供了一种多智能体信用分配装置。

本发明的第三个目的在于提供了一种可读存储介质。

本发明的第四个目的在于提供了一种多智能体。

本发明第一方面的技术方案提供了一种多智能体信用分配方法，包括：定义信用分配智能体在预设环境中的信用分配策略空间；使信用分配智能体学习一个信用分配策略，使信用分配智能体在训练时按照信用分配策略探索信用分配策略空间，并基于全局状态信息输出动作；从动作得到目标动作，并将目标动作作为多智能体协同的信用分配策略。

根据本发明提供的多智能体信用分配方法，包括从形式上定义信用分配智能体在预设环境中的信用分配策略空间，使信用分配智能体学习一个信用分配策略，使信用分配智能体在训练时按照信用分配策略探索信用分配策略空间，并基于全局状态信息输出动作，并从动作得到目标动作，将目标动作作为多智能体协同的信用分配策略。本申请的多智能体信用分配方法从形式上定义了信用分配策略空间，并基于值分解框架提出了随机化信用分配方法，在训练时基于可学习的策略分布，能够以一定概率采样出一个信用分配策略，最终实现了对信用分配策略空间的有效探索，得到更好的信用分配策略，增强算法在多智能体合作任务上的能力。本申请的多智能体信用分配方法能应用于各个场景中的多智能体合作任务，通过本申请能够显著的提高算法在多智能体合作任务上的性能。其中，信用分配智能体的策略网络包括超网络。

另外，本申请提供的多智能体信用分配方法还可以具有如下附加技术特征：

在上述技术方案中，多智能体信用分配方法还包括：控制探索信用分配策略空间的探索范围。

在该技术方案中，多智能体信用分配方法还包括控制探索信用分配策略空间的探索范围。通过对信用分配策略空间的探索范围进行限定，能够避免由于探索过度导致学习不稳定的情况发生，最终实现对信用分配策略空间的有效探索，得到更好的信用分配策略。

在上述技术方案中，控制探索信用分配策略空间的探索范围具体包括：将熵正则化损失函数作为优化后的目标；使用中心化训练分布式执行框架进行端到端训练，以优化目标；其中，熵正则化损失函数为：

其中，N（0，1）表示均值为0，方差为1的高斯分布，ε表示从N（0，1）中的采样值，E表示期望，τ表示动作观察历史，u表示从动作空间采样出的动作，s表示状态空间中的当前状态，θ表示当前网络参数，HN表示信用分配智能体的策略网络，λ _tem表示温度系数，t表示时间，Q表示当前状态下评估动作的价值，Q _{_tot}表示经过混合网络处理之后的Q值，y ^tot表示Q _{_tot}的目标值，μ表示均值，σ表示方差。

在该技术方案中，具体可以采用以下方式对分配策略空间的探索范围进行限定：将基于熵正则化损失函数作为优化后的目标，使用中心化训练分布式执行框架进行端到端训练，以优化目标。从而避免了由于探索过度导致学习不稳定的情况发生，最终实现对信用分配策略空间的有效探索，得到更好的信用分配策略。其中，熵正则化损失函数为：

。

在上述技术方案中，信用分配策略空间被定义为：

其中，Γ（s _t）表示信用分配策略空间，h（s _t）表示被参数化的混合网络，Q表示当前状态下评估动作的价值，Q _{_tot}表示经过混合网络处理之后的Q值。

进一步地，信用分配策略空间包括QMIX信用分配策略空间，QMIX信用分配策略空间为：

其中，Γ（s _t）表示QMIX信用分配策略空间，

表示混合网络的参数，

和

表示两层网络的参数，HN表示信用分配智能体的策略网络，s表示状态空间中的当前状态，t表示时间。

在该技术方案中，考虑了两层的混合网络，在t时刻，全局状态信息s _t输入信用分配智能体的策略网络(即超网络HyperNet)并输出两层网络的参数

和

。该智能体拥有高维的连续动作空间,其策略可以直接表示为

，根据混合网络的层数决定动作

的维度。

在上述技术方案中，信用分配策略包括高斯策略，信用分配智能体按照高斯策略以全局状态信息输出均值和方差，均值和方差为：

其中，

表示由高斯策略采样得到的混合网络的参数，N（μ _HN（s _t），σ _HN（s _t））表示采用高斯策略得到的均值方差。

在该技术方案中，为了让策略可控，本申请将信用分配智能体学习的策略限制为高斯策略，使信用分配智能体按照高斯策略以全局状态信息输出均值和方差，均值和方差为：

。

在上述技术方案中，信用分配智能体按照高斯策略以全局状态信息输出均值和方差包括：将QMIX信用分配策略空间中的超网络替换为两个输出头，两个输出头分别对应分布的均值和方差。

在该技术方案中，可以将QMIX信用分配策略空间中的超网络替换为两个输出头后，从而使得两个输出头分别对应分布的均值和方差。

在上述技术方案中，对动作进行采样，并将采样后的动作作为多智能体协同的信用分配策略具体包括：对均值和方差进行采样，以得到采样后的动作

，并将采样后的动作作为多智能体协同的信用分配策略。

在该技术方案中，能够从高斯分布中采样得到动作

，从高斯分布中采样得到的参数值有正有负,因此也需要加上绝对值约束才能组成混合网络以实现信用分配。

本发明第二方面的技术方案提供了一种多智能体信用分配装置，包括：存储器和处理器，存储器储存有程序或指令，程序或指令被处理器执行时，实现如第一方面任一项技术方案中的多智能体信用分配方法的步骤。

根据本发明提供的多智能体信用分配装置，包括存储器和处理器，存储器储存有程序或指令，程序或指令被处理器执行时，实现如第一方面任一项技术方案中的多智能体信用分配方法的步骤。由于该多智能体信用分配装置能够实现如第一方面任一项技术方案中的多智能体信用分配方法的步骤。因此，本发明提供的多智能体信用分配装置还具有第一方面任一项技术方案中的多智能体信用分配方法的全部有益效果，在此不再赘述。

本发明第三方面的技术方案提供了一种可读存储介质，其上存储有程序或指令，程序或指令被执行时，实现如第一方面任一项技术方案中的多智能体信用分配方法的步骤。

根据本发明提供的可读存储介质，其上存储有程序或指令，程序或指令被执行时，实现如第一方面任一项技术方案中的多智能体信用分配方法的步骤。由于该可读存储介质能够实现如第一方面任一项技术方案中的多智能体信用分配方法的步骤。因此，本发明提供的可读存储介质还具有第一方面任一项技术方案中的多智能体信用分配方法的全部有益效果，在此不再赘述。

本发明第四方面的技术方案提供了一种多智能体，用于实现如第一方面任一项技术方案中的多智能体信用分配方法的步骤。

根据本发明提供的多智能体，能够实现如第一方面任一项技术方案中的多智能体信用分配方法的步骤。由于多智能体是用于实现如第一方面任一项技术方案中的多智能体信用分配方法的步骤。因此，本发明提供的多智能体还具有第一方面任一项技术方案中的多智能体信用分配方法的步骤的全部有益效果，在此不再赘述。

本发明的附加方面和优点将在下面的描述部分中变得明显，或通过本发明的实践了解到。

附图说明

图1是根据本发明的一个实施例的多智能体信用分配方法的流程示意图；

图2是根据本发明的第二个实施例的多智能体信用分配方法的流程示意图；

图3是根据本发明的第三个实施例的多智能体信用分配方法的流程示意图；

图4是根据本发明的第四个实施例的多智能体信用分配方法的流程示意图；

图5是根据本发明的一个实施例的多智能体信用分配装置的方框图。

其中，图5中的附图标记与部件名称之间的对应关系为：

10多智能体信用分配装置，1存储器，2处理器。

具体实施方式

在根据本申请的一个实施例中，如图1所示，提供了一种多智能体信用分配方法。多智能体信用分配方法包括：

S102，定义信用分配智能体在预设环境中的信用分配策略空间。

S104，使信用分配智能体学习一个信用分配策略，使信用分配智能体在训练时按照信用分配策略探索信用分配策略空间，并基于全局状态信息输出动作。

S106，从动作得到目标动作，并将目标动作作为多智能体协同的信用分配策略。

在根据本申请的第二个实施例中，如图2所示，提供了一种多智能体信用分配方法。多智能体信用分配方法包括：

S202，定义信用分配智能体在预设环境中的信用分配策略空间。

S204，使信用分配智能体学习一个信用分配策略，使信用分配智能体在训练时按照信用分配策略探索信用分配策略空间，并基于全局状态信息输出动作。

S206，从动作得到目标动作，并将目标动作作为多智能体协同的信用分配策略。

S208，控制探索信用分配策略空间的探索范围。

根据本发明提供的多智能体信用分配方法，包括从形式上定义信用分配智能体在预设环境中的信用分配策略空间，使信用分配智能体学习一个信用分配策略，使信用分配智能体在训练时按照信用分配策略探索信用分配策略空间，并基于全局状态信息输出动作，并从动作得到目标动作，将目标动作作为多智能体协同的信用分配策略，控制探索信用分配策略空间的探索范围。本申请的多智能体信用分配方法从形式上定义了信用分配策略空间，并基于值分解框架提出了随机化信用分配方法，在训练时基于可学习的策略分布，能够以一定概率采样出一个信用分配策略，最终实现了对信用分配策略空间的有效探索，得到更好的信用分配策略，增强算法在多智能体合作任务上的能力。同时，通过对信用分配策略空间的探索范围进行限定，能够避免由于探索过度导致学习不稳定的情况发生，最终实现对信用分配策略空间的有效探索，得到更好的信用分配策略。

在根据本申请的第三个实施例中，如图3所示，提供了一种多智能体信用分配方法。多智能体信用分配方法包括：

S302，定义信用分配智能体在预设环境中的信用分配策略空间。

S304，使信用分配智能体学习一个信用分配策略，使信用分配智能体在训练时按照信用分配策略探索信用分配策略空间，并基于全局状态信息输出动作。

S306，从动作得到目标动作，并将目标动作作为多智能体协同的信用分配策略。

S308，基于熵正则化损失函数作为优化后的目标。

S310，使用中心化训练分布式执行框架进行端到端训练，以优化目标。

其中，熵正则化损失函数为：

根据本发明提供的多智能体信用分配方法，包括从形式上定义信用分配智能体在预设环境中的信用分配策略空间，使信用分配智能体学习一个信用分配策略，使信用分配智能体在训练时按照信用分配策略探索信用分配策略空间，并基于全局状态信息输出动作，并从动作得到目标动作，将目标动作作为多智能体协同的信用分配策略，控制探索信用分配策略空间的探索范围，具体可以采用以下方式对分配策略空间的探索范围进行限定：将基于熵正则化损失函数作为优化后的目标，使用中心化训练分布式执行框架进行端到端训练，以优化目标。从而避免了由于探索过度导致学习不稳定的情况发生，最终实现对信用分配策略空间的有效探索，得到更好的信用分配策略。本申请与目前国内外发表的最新的多智能体合作方法相比具有几个明显优点：1）该方法从形式上定义了信用分配策略空间，利用随机策略实现了对信用分配策略空间的探索，并进一步利用熵正则化来控制探索范围，避免过度探索导致学习不稳定。同时利用重参数化技巧使得网络参数可以直接利用随机梯度下降优化从而得到更好的信用分配策略。2）该方法能够显著提高多智能体合作算法在星际争霸微操环境的性能，超过了目前的主流的多智能体合作算法。3）本申请提出的方法具有一定的通用性，未来值得在没有结构约束的信用分配方法中尝试以解决基于策略梯度方法持续探索能力不足的问题，以及通过设计合理的奖励利用强化学习的方式来直接学习信用分配策略，并考虑将高斯策略扩展为更具一般性的随机策略。

在根据本申请的第四个实施例中，如图4所示，提供了一种多智能体信用分配方法。多智能体信用分配方法包括：

S402，定义信用分配智能体在预设环境中的信用分配策略空间。

S404，使信用分配智能体学习高斯策略，使信用分配智能体在训练时按照高斯策略探索信用分配策略空间，并基于全局状态信息输出均值和方差。

S406，从均值和方差得到目标动作，并将目标动作作为多智能体协同的信用分配策略。

S408，基于熵正则化损失函数作为优化后的目标。

S410，使用中心化训练分布式执行框架进行端到端训练，以优化目标。

其中，均值和方差为：

其中，

其中，熵正则化损失函数为：

根据本发明提供的多智能体信用分配方法，包括从形式上定义信用分配智能体在预设环境中的信用分配策略空间，使信用分配智能体学习高斯策略，使信用分配智能体在训练时按照高斯策略探索信用分配策略空间，并基于全局状态信息输出均值和方差，并从均值和方差得到目标动作，将目标动作作为多智能体协同的信用分配策略，控制探索信用分配策略空间的探索范围，具体可以采用以下方式对分配策略空间的探索范围进行限定：将基于熵正则化损失函数作为优化后的目标，使用中心化训练分布式执行框架进行端到端训练，以优化目标。从而避免了由于探索过度导致学习不稳定的情况发生，最终实现对信用分配策略空间的有效探索，得到更好的信用分配策略。本申请的多智能体信用分配方法从形式上定义了信用分配策略空间，并基于值分解框架提出了随机化信用分配方法，在训练时基于可学习的策略分布，能够以一定概率采样出一个信用分配策略，最终实现了对信用分配策略空间的有效探索，得到更好的信用分配策略，增强算法在多智能体合作任务上的能力。同时利用熵正则化避免探索过度导致学习不稳定，最终实现了对信用分配策略空间的有效探索。

进一步地，熵正则化损失函数的具体推导过程如下：

如同变分编码器中输入样本对应的不只是单个隐变量值而是一个分布，此时每个时刻的状态s _t也不再只是对应单个信用分配策略，而是对应了一个高斯分布，每次从该分布中采样都有一定的概率采样到不同的参数值组成不同的混合网络以实现对信用分配策略空间的探索。这里的高斯分布是多元高斯分布且协方差矩阵为对角阵。相应地可以得到损失函数为:

其中，

。

其中，

表示Q _{_tot}的目标值，

表示目标网络参数，N（μ _HN（s _t），σ _HN（s _t））表示采用高斯策略得到的均值方差，W _mixer表示混合网络的参数，E表示期望，τ表示动作观察历史，u表示从动作空间采样出的动作，s表示状态空间中的当前状态，θ表示当前网络参数，Q表示当前状态下评估动作的价值，Q _{_tot}表示经过混合网络处理之后的Q值，μ表示均值，σ表示方差，

表示目标混合网络的参数。

为了使用随机梯度下降等基于梯度的优化算法对损失函数进行优化，利用重参数技巧来实现高斯策略的学习：

其中，ε满足标准正态分布N（0，1）。从而得到损失函数为:

其中，N（0，1）表示均值为0，方差为1的高斯分布，ε表示从N（0，1）中的采样值，E表示期望，τ表示动作观察历史，u表示从动作空间采样出的动作，s表示状态空间中的当前状态，θ表示当前网络参数，HN表示信用分配智能体的策略网络，λ _tem表示温度系数，t表示时间，Q表示当前状态下评估动作的价值，Q _{_tot}表示经过混合网络处理之后的Q值，y ^tot表示Q _{_tot}的目标值，μ表示均值，σ表示方差，

表示由高斯策略采样得到的混合网络的参数。

本申请利用熵正则化以控制探索的范围,避免过度探索导致学习不稳定,算法收敛速度降低。多元高斯分布的熵定义为:

其中，k为高斯分布维度，p为概率，y^T为转置，π表示联合策略，最后一步对相互独立的多元高斯分布成立：

，其中，diag表示值为

的对角矩阵，σ表示方差。

在每次从高斯策略中采样一个信用分配策略之前,对高斯策略的方差乘以一个温度系数

，该温度系数随训练进行不断退火至设定的值

。最终得到熵正则化损失函数为:

。

在上述任一实施例中，信用分配策略空间被定义为：

其中，Γ（s _t）表示QMIX信用分配策略空间，

表示混合网络的参数，

和

在该实施例中，考虑了两层的混合网络，在t时刻，全局状态信息s _t输入信用分配智能体的策略网络(即超网络HyperNet)并输出两层网络的参数

和

。该智能体拥有高维的连续动作空间,其策略可以直接表示为

，根据混合网络的层数决定动作

的维度。

在上述实施例中，信用分配智能体按照高斯策略以全局状态信息输出均值和方差包括：将QMIX信用分配策略空间中的超网络替换为两个输出头，两个输出头分别对应分布的均值和方差。

在该实施例中，可以将QMIX信用分配策略空间中的超网络替换为两个输出头后，从而使得两个输出头分别对应分布的均值和方差。

在上述实施例中，对动作进行采样，并将采样后的动作作为多智能体协同的信用分配策略具体包括：对均值和方差进行采样，以得到采样后的动作

，并将采样后的动作作为多智能体协同的信用分配策略。

在该实施例中，能够从高斯分布中采样得到动作

如图5所示，本发明第二方面的实施例提供了一种多智能体信用分配装置10，包括：存储器1和处理器2，存储器1储存有程序或指令，程序或指令被处理器执行时，实现如第一方面任一项实施例中的多智能体信用分配方法的步骤。

根据本发明提供的多智能体信用分配装置10，包括存储器1和处理器2，存储器1储存有程序或指令，程序或指令被处理器2执行时，实现如第一方面任一项实施例中的多智能体信用分配方法的步骤。由于该多智能体信用分配装置10能够实现如第一方面任一项实施例中的多智能体信用分配方法的步骤。因此，本发明提供的多智能体信用分配装置10还具有第一方面任一项实施例中的多智能体信用分配方法的全部有益效果，在此不再赘述。

本发明第三方面的实施例提供了一种可读存储介质，其上存储有程序或指令，程序或指令被执行时，实现如第一方面任一项实施例中的多智能体信用分配方法的步骤。

根据本发明提供的可读存储介质，其上存储有程序或指令，程序或指令被执行时，实现如第一方面任一项实施例中的多智能体信用分配方法的步骤。由于该可读存储介质能够实现如第一方面任一项实施例中的多智能体信用分配方法的步骤。因此，本发明提供的可读存储介质还具有第一方面任一项实施例中的多智能体信用分配方法的全部有益效果，在此不再赘述。

本发明第四方面的实施例提供了一种多智能体，用于实现如第一方面任一项实施例中的多智能体信用分配方法的步骤。

根据本发明提供的多智能体，能够实现如第一方面任一项实施例中的多智能体信用分配方法的步骤。由于多智能体是用于实现如第一方面任一项实施例中的多智能体信用分配方法的步骤。因此，本发明提供的多智能体还具有第一方面任一项实施例中的多智能体信用分配方法的步骤的全部有益效果，在此不再赘述。

以上仅为本申请的优选实施例而已，对于本领域的技术人员来说，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种多智能体信用分配方法，其特征在于，包括：

定义信用分配智能体在预设环境中的信用分配策略空间；

使所述信用分配智能体学习一个信用分配策略，使所述信用分配智能体在训练时按照所述信用分配策略探索所述信用分配策略空间，并基于全局状态信息输出动作；

从所述动作得到目标动作，并将所述目标动作作为多智能体协同的信用分配策略。

2.根据权利要求1所述的多智能体信用分配方法，其特征在于，还包括：

控制探索所述信用分配策略空间的探索范围。

3.根据权利要求2所述的多智能体信用分配方法，其特征在于，所述控制探索所述信用分配策略空间的探索范围的步骤，具体包括：

将熵正则化损失函数作为优化后的目标；

使用中心化训练分布式执行框架进行端到端训练，以优化所述目标；

其中，所述熵正则化损失函数为：

其中，N（0，1）表示均值为0，方差为1的高斯分布，ε表示从N（0，1）中的采样值，E表示期望，τ表示动作观察历史，u表示从动作空间采样出的动作，s表示状态空间中的当前状态，θ表示当前网络参数，HN表示信用分配智能体的策略网络，λ _tem表示温度系数，t表示时间，Q表示当前状态下评估动作的价值，Q _{_tot}表示经过混合网络处理之后的Q，y ^tot表示Q _{_tot}的目标值，μ表示均值，σ表示方差。

4.根据权利要求1所述的多智能体信用分配方法，其特征在于，所述信用分配策略空间被定义为：