CN115660110A - 多智能体信用分配方法、装置、可读存储介质和智能体 - Google Patents

多智能体信用分配方法、装置、可读存储介质和智能体 Download PDF

Info

Publication number
CN115660110A
CN115660110A CN202211672682.1A CN202211672682A CN115660110A CN 115660110 A CN115660110 A CN 115660110A CN 202211672682 A CN202211672682 A CN 202211672682A CN 115660110 A CN115660110 A CN 115660110A
Authority
CN
China
Prior art keywords
credit allocation
agent
credit
space
strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211672682.1A
Other languages
English (en)
Other versions
CN115660110B (zh
Inventor
张俊格
张茗奕
杨光开
陈皓
黄凯奇
陈丹丹
王陆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202211672682.1A priority Critical patent/CN115660110B/zh
Publication of CN115660110A publication Critical patent/CN115660110A/zh
Application granted granted Critical
Publication of CN115660110B publication Critical patent/CN115660110B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提供了一种多智能体信用分配方法、装置、可读存储介质和智能体,涉及强化学习、多智能体技术领域。该方法包括:定义信用分配智能体在预设环境中的信用分配策略空间;使信用分配智能体学习一个信用分配策略,使信用分配智能体在训练时按照信用分配策略探索信用分配策略空间,并基于全局状态信息输出动作;从动作得到目标动作,并将目标动作作为多智能体协同的信用分配策略。该方法从形式上定义了信用分配策略空间,并基于值分解框架提出了随机化信用分配方法,在训练时基于可学习的策略分布,能够以一定概率采样出一个信用分配策略,最终实现了对信用分配策略空间的有效探索,得到更好的信用分配策略,增强算法在多智能体合作任务上的能力。

Description

多智能体信用分配方法、装置、可读存储介质和智能体
技术领域
本发明涉及强化学习、多智能体技术领域,具体而言,涉及一种多智能体信用分配方法、装置、可读存储介质和智能体。
背景技术
近年来,在多智能体合作博弈问题中,智能体与环境交互时,环境只返回单个全局奖励,如何将全局奖励以合理的方式分配给每个智能体以促进智能体之间的合作是“中心化训练分布式执行”这一学习范式的核心问题,称为信用分配。信用分配本质上是对智能体的奖励信号进行修正,错误的奖励信号对智能体学习产生非常负面的影响,导致算法难以收敛到最优策略。实际情况下信用分配问题相当复杂,显式直接地解决往往面临很大困难,因为智能体之间,智能体与环境之间交互行为高度复杂且动态变化难以为每个智能体指定贡献大小。值分解框架作为解决信用分配的经典框架,提出将全局奖励通过某种形式进行分解以得到每个智能体的奖励信号。值分解框架以确定性的方法实现信用分配,忽略了对信用分配策略空间的探索,难以应对部分可观测性带来的不确定性,导致只能得到次优联合策略。
因此,如何提出一种通过对信用分配策略空间的探索,以合理的实现多智能体的信用分配的多智能体信用分配方法成为目前亟待解决的问题。
发明内容
为解决上述技术问题,本申请提出一种能够解决多智能体的信用分配不合理的多智能体信用分配方法。
因此,本发明的第一个目的在于提供了一种多智能体信用分配方法。
本发明的第二个目的在于提供了一种多智能体信用分配装置。
本发明的第三个目的在于提供了一种可读存储介质。
本发明的第四个目的在于提供了一种多智能体。
本发明第一方面的技术方案提供了一种多智能体信用分配方法,包括:定义信用分配智能体在预设环境中的信用分配策略空间;使信用分配智能体学习一个信用分配策略,使信用分配智能体在训练时按照信用分配策略探索信用分配策略空间,并基于全局状态信息输出动作;从动作得到目标动作,并将目标动作作为多智能体协同的信用分配策略。
根据本发明提供的多智能体信用分配方法,包括从形式上定义信用分配智能体在预设环境中的信用分配策略空间,使信用分配智能体学习一个信用分配策略,使信用分配智能体在训练时按照信用分配策略探索信用分配策略空间,并基于全局状态信息输出动作,并从动作得到目标动作,将目标动作作为多智能体协同的信用分配策略。本申请的多智能体信用分配方法从形式上定义了信用分配策略空间,并基于值分解框架提出了随机化信用分配方法,在训练时基于可学习的策略分布,能够以一定概率采样出一个信用分配策略,最终实现了对信用分配策略空间的有效探索,得到更好的信用分配策略,增强算法在多智能体合作任务上的能力。本申请的多智能体信用分配方法能应用于各个场景中的多智能体合作任务,通过本申请能够显著的提高算法在多智能体合作任务上的性能。其中,信用分配智能体的策略网络包括超网络。
另外,本申请提供的多智能体信用分配方法还可以具有如下附加技术特征:
在上述技术方案中,多智能体信用分配方法还包括:控制探索信用分配策略空间的探索范围。
在该技术方案中,多智能体信用分配方法还包括控制探索信用分配策略空间的探索范围。通过对信用分配策略空间的探索范围进行限定,能够避免由于探索过度导致学习不稳定的情况发生,最终实现对信用分配策略空间的有效探索,得到更好的信用分配策略。
在上述技术方案中,控制探索信用分配策略空间的探索范围具体包括:将熵正则化损失函数作为优化后的目标;使用中心化训练分布式执行框架进行端到端训练,以优化目标;其中,熵正则化损失函数为:
Figure 660014DEST_PATH_IMAGE001
其中,N(0,1)表示均值为0,方差为1的高斯分布,ε表示从N(0,1)中的采样值,E表示期望,τ表示动作观察历史,u表示从动作空间采样出的动作,s表示状态空间中的当前状态,θ表示当前网络参数,HN表示信用分配智能体的策略网络,λ tem 表示温度系数,t表示时间,Q表示当前状态下评估动作的价值,Q _tot 表示经过混合网络处理之后的Q值,y tot 表示Q _tot 的目标值,μ表示均值,σ表示方差。
在该技术方案中,具体可以采用以下方式对分配策略空间的探索范围进行限定:将基于熵正则化损失函数作为优化后的目标,使用中心化训练分布式执行框架进行端到端训练,以优化目标。从而避免了由于探索过度导致学习不稳定的情况发生,最终实现对信用分配策略空间的有效探索,得到更好的信用分配策略。其中,熵正则化损失函数为:
Figure 283763DEST_PATH_IMAGE002
在上述技术方案中,信用分配策略空间被定义为:
Figure DEST_PATH_IMAGE003
其中,Γ(s t )表示信用分配策略空间,hs t )表示被参数化的混合网络,Q表示当前状态下评估动作的价值,Q _tot 表示经过混合网络处理之后的Q值。
进一步地,信用分配策略空间包括QMIX信用分配策略空间,QMIX信用分配策略空间为:
Figure 911053DEST_PATH_IMAGE004
其中,Γ(s t )表示QMIX信用分配策略空间,
Figure DEST_PATH_IMAGE005
表示混合网络的参数,
Figure 29182DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE007
表示两层网络的参数,HN表示信用分配智能体的策略网络,s表示状态空间中的当前状态,t表示时间。
在该技术方案中,考虑了两层的混合网络,在t时刻,全局状态信息s t 输入信用分配智能体的策略网络(即超网络HyperNet)并输出两层网络的参数
Figure 425528DEST_PATH_IMAGE008
Figure 564385DEST_PATH_IMAGE009
。该智能体拥有高维的连续动作空间,其策略可以直接表示为
Figure 147813DEST_PATH_IMAGE010
,根据混合网络的层数决定动作
Figure 53321DEST_PATH_IMAGE011
的维度。
在上述技术方案中,信用分配策略包括高斯策略,信用分配智能体按照高斯策略以全局状态信息输出均值和方差,均值和方差为:
Figure 38595DEST_PATH_IMAGE012
其中,
Figure 879512DEST_PATH_IMAGE013
表示由高斯策略采样得到的混合网络的参数,Nμ HN s t ),σ HN s t ))表示采用高斯策略得到的均值方差。
在该技术方案中,为了让策略可控,本申请将信用分配智能体学习的策略限制为高斯策略,使信用分配智能体按照高斯策略以全局状态信息输出均值和方差,均值和方差为:
Figure 950236DEST_PATH_IMAGE014
在上述技术方案中,信用分配智能体按照高斯策略以全局状态信息输出均值和方差包括:将QMIX信用分配策略空间中的超网络替换为两个输出头,两个输出头分别对应分布的均值和方差。
在该技术方案中,可以将QMIX信用分配策略空间中的超网络替换为两个输出头后,从而使得两个输出头分别对应分布的均值和方差。
在上述技术方案中,对动作进行采样,并将采样后的动作作为多智能体协同的信用分配策略具体包括:对均值和方差进行采样,以得到采样后的动作
Figure 3643DEST_PATH_IMAGE015
,并将采样后的动作作为多智能体协同的信用分配策略。
在该技术方案中,能够从高斯分布中采样得到动作
Figure 249947DEST_PATH_IMAGE016
,从高斯分布中采样得到的参数值有正有负,因此也需要加上绝对值约束才能组成混合网络以实现信用分配。
本发明第二方面的技术方案提供了一种多智能体信用分配装置,包括:存储器和处理器,存储器储存有程序或指令,程序或指令被处理器执行时,实现如第一方面任一项技术方案中的多智能体信用分配方法的步骤。
根据本发明提供的多智能体信用分配装置,包括存储器和处理器,存储器储存有程序或指令,程序或指令被处理器执行时,实现如第一方面任一项技术方案中的多智能体信用分配方法的步骤。由于该多智能体信用分配装置能够实现如第一方面任一项技术方案中的多智能体信用分配方法的步骤。因此,本发明提供的多智能体信用分配装置还具有第一方面任一项技术方案中的多智能体信用分配方法的全部有益效果,在此不再赘述。
本发明第三方面的技术方案提供了一种可读存储介质,其上存储有程序或指令,程序或指令被执行时,实现如第一方面任一项技术方案中的多智能体信用分配方法的步骤。
根据本发明提供的可读存储介质,其上存储有程序或指令,程序或指令被执行时,实现如第一方面任一项技术方案中的多智能体信用分配方法的步骤。由于该可读存储介质能够实现如第一方面任一项技术方案中的多智能体信用分配方法的步骤。因此,本发明提供的可读存储介质还具有第一方面任一项技术方案中的多智能体信用分配方法的全部有益效果,在此不再赘述。
本发明第四方面的技术方案提供了一种多智能体,用于实现如第一方面任一项技术方案中的多智能体信用分配方法的步骤。
根据本发明提供的多智能体,能够实现如第一方面任一项技术方案中的多智能体信用分配方法的步骤。由于多智能体是用于实现如第一方面任一项技术方案中的多智能体信用分配方法的步骤。因此,本发明提供的多智能体还具有第一方面任一项技术方案中的多智能体信用分配方法的步骤的全部有益效果,在此不再赘述。
本发明的附加方面和优点将在下面的描述部分中变得明显,或通过本发明的实践了解到。
附图说明
图1是根据本发明的一个实施例的多智能体信用分配方法的流程示意图;
图2是根据本发明的第二个实施例的多智能体信用分配方法的流程示意图;
图3是根据本发明的第三个实施例的多智能体信用分配方法的流程示意图;
图4是根据本发明的第四个实施例的多智能体信用分配方法的流程示意图;
图5是根据本发明的一个实施例的多智能体信用分配装置的方框图。
其中,图5中的附图标记与部件名称之间的对应关系为:
10多智能体信用分配装置,1存储器,2处理器。
具体实施方式
在根据本申请的一个实施例中,如图1所示,提供了一种多智能体信用分配方法。多智能体信用分配方法包括:
S102,定义信用分配智能体在预设环境中的信用分配策略空间。
S104,使信用分配智能体学习一个信用分配策略,使信用分配智能体在训练时按照信用分配策略探索信用分配策略空间,并基于全局状态信息输出动作。
S106,从动作得到目标动作,并将目标动作作为多智能体协同的信用分配策略。
根据本发明提供的多智能体信用分配方法,包括从形式上定义信用分配智能体在预设环境中的信用分配策略空间,使信用分配智能体学习一个信用分配策略,使信用分配智能体在训练时按照信用分配策略探索信用分配策略空间,并基于全局状态信息输出动作,并从动作得到目标动作,将目标动作作为多智能体协同的信用分配策略。本申请的多智能体信用分配方法从形式上定义了信用分配策略空间,并基于值分解框架提出了随机化信用分配方法,在训练时基于可学习的策略分布,能够以一定概率采样出一个信用分配策略,最终实现了对信用分配策略空间的有效探索,得到更好的信用分配策略,增强算法在多智能体合作任务上的能力。本申请的多智能体信用分配方法能应用于各个场景中的多智能体合作任务,通过本申请能够显著的提高算法在多智能体合作任务上的性能。其中,信用分配智能体的策略网络包括超网络。
在根据本申请的第二个实施例中,如图2所示,提供了一种多智能体信用分配方法。多智能体信用分配方法包括:
S202,定义信用分配智能体在预设环境中的信用分配策略空间。
S204,使信用分配智能体学习一个信用分配策略,使信用分配智能体在训练时按照信用分配策略探索信用分配策略空间,并基于全局状态信息输出动作。
S206,从动作得到目标动作,并将目标动作作为多智能体协同的信用分配策略。
S208,控制探索信用分配策略空间的探索范围。
根据本发明提供的多智能体信用分配方法,包括从形式上定义信用分配智能体在预设环境中的信用分配策略空间,使信用分配智能体学习一个信用分配策略,使信用分配智能体在训练时按照信用分配策略探索信用分配策略空间,并基于全局状态信息输出动作,并从动作得到目标动作,将目标动作作为多智能体协同的信用分配策略,控制探索信用分配策略空间的探索范围。本申请的多智能体信用分配方法从形式上定义了信用分配策略空间,并基于值分解框架提出了随机化信用分配方法,在训练时基于可学习的策略分布,能够以一定概率采样出一个信用分配策略,最终实现了对信用分配策略空间的有效探索,得到更好的信用分配策略,增强算法在多智能体合作任务上的能力。同时,通过对信用分配策略空间的探索范围进行限定,能够避免由于探索过度导致学习不稳定的情况发生,最终实现对信用分配策略空间的有效探索,得到更好的信用分配策略。
在根据本申请的第三个实施例中,如图3所示,提供了一种多智能体信用分配方法。多智能体信用分配方法包括:
S302,定义信用分配智能体在预设环境中的信用分配策略空间。
S304,使信用分配智能体学习一个信用分配策略,使信用分配智能体在训练时按照信用分配策略探索信用分配策略空间,并基于全局状态信息输出动作。
S306,从动作得到目标动作,并将目标动作作为多智能体协同的信用分配策略。
S308,基于熵正则化损失函数作为优化后的目标。
S310,使用中心化训练分布式执行框架进行端到端训练,以优化目标。
其中,熵正则化损失函数为:
Figure 730607DEST_PATH_IMAGE002
其中,N(0,1)表示均值为0,方差为1的高斯分布,ε表示从N(0,1)中的采样值,E表示期望,τ表示动作观察历史,u表示从动作空间采样出的动作,s表示状态空间中的当前状态,θ表示当前网络参数,HN表示信用分配智能体的策略网络,λ tem 表示温度系数,t表示时间,Q表示当前状态下评估动作的价值,Q _tot 表示经过混合网络处理之后的Q值,y tot 表示Q _tot 的目标值,μ表示均值,σ表示方差。
根据本发明提供的多智能体信用分配方法,包括从形式上定义信用分配智能体在预设环境中的信用分配策略空间,使信用分配智能体学习一个信用分配策略,使信用分配智能体在训练时按照信用分配策略探索信用分配策略空间,并基于全局状态信息输出动作,并从动作得到目标动作,将目标动作作为多智能体协同的信用分配策略,控制探索信用分配策略空间的探索范围,具体可以采用以下方式对分配策略空间的探索范围进行限定:将基于熵正则化损失函数作为优化后的目标,使用中心化训练分布式执行框架进行端到端训练,以优化目标。从而避免了由于探索过度导致学习不稳定的情况发生,最终实现对信用分配策略空间的有效探索,得到更好的信用分配策略。本申请与目前国内外发表的最新的多智能体合作方法相比具有几个明显优点:1)该方法从形式上定义了信用分配策略空间,利用随机策略实现了对信用分配策略空间的探索,并进一步利用熵正则化来控制探索范围,避免过度探索导致学习不稳定。同时利用重参数化技巧使得网络参数可以直接利用随机梯度下降优化从而得到更好的信用分配策略。2)该方法能够显著提高多智能体合作算法在星际争霸微操环境的性能,超过了目前的主流的多智能体合作算法。3)本申请提出的方法具有一定的通用性,未来值得在没有结构约束的信用分配方法中尝试以解决基于策略梯度方法持续探索能力不足的问题,以及通过设计合理的奖励利用强化学习的方式来直接学习信用分配策略,并考虑将高斯策略扩展为更具一般性的随机策略。
在根据本申请的第四个实施例中,如图4所示,提供了一种多智能体信用分配方法。多智能体信用分配方法包括:
S402,定义信用分配智能体在预设环境中的信用分配策略空间。
S404,使信用分配智能体学习高斯策略,使信用分配智能体在训练时按照高斯策略探索信用分配策略空间,并基于全局状态信息输出均值和方差。
S406,从均值和方差得到目标动作,并将目标动作作为多智能体协同的信用分配策略。
S408,基于熵正则化损失函数作为优化后的目标。
S410,使用中心化训练分布式执行框架进行端到端训练,以优化目标。
其中,均值和方差为:
Figure 554207DEST_PATH_IMAGE012
其中,
Figure 411304DEST_PATH_IMAGE013
表示由高斯策略采样得到的混合网络的参数,Nμ HN s t ),σ HN s t ))表示采用高斯策略得到的均值方差。
其中,熵正则化损失函数为:
Figure 105591DEST_PATH_IMAGE002
其中,N(0,1)表示均值为0,方差为1的高斯分布,ε表示从N(0,1)中的采样值,E表示期望,τ表示动作观察历史,u表示从动作空间采样出的动作,s表示状态空间中的当前状态,θ表示当前网络参数,HN表示信用分配智能体的策略网络,λ tem 表示温度系数,t表示时间,Q表示当前状态下评估动作的价值,Q _tot 表示经过混合网络处理之后的Q值,y tot 表示Q _tot 的目标值,μ表示均值,σ表示方差。
根据本发明提供的多智能体信用分配方法,包括从形式上定义信用分配智能体在预设环境中的信用分配策略空间,使信用分配智能体学习高斯策略,使信用分配智能体在训练时按照高斯策略探索信用分配策略空间,并基于全局状态信息输出均值和方差,并从均值和方差得到目标动作,将目标动作作为多智能体协同的信用分配策略,控制探索信用分配策略空间的探索范围,具体可以采用以下方式对分配策略空间的探索范围进行限定:将基于熵正则化损失函数作为优化后的目标,使用中心化训练分布式执行框架进行端到端训练,以优化目标。从而避免了由于探索过度导致学习不稳定的情况发生,最终实现对信用分配策略空间的有效探索,得到更好的信用分配策略。本申请的多智能体信用分配方法从形式上定义了信用分配策略空间,并基于值分解框架提出了随机化信用分配方法,在训练时基于可学习的策略分布,能够以一定概率采样出一个信用分配策略,最终实现了对信用分配策略空间的有效探索,得到更好的信用分配策略,增强算法在多智能体合作任务上的能力。同时利用熵正则化避免探索过度导致学习不稳定,最终实现了对信用分配策略空间的有效探索。
进一步地,熵正则化损失函数的具体推导过程如下:
如同变分编码器中输入样本对应的不只是单个隐变量值而是一个分布,此时每个时刻的状态s t 也不再只是对应单个信用分配策略,而是对应了一个高斯分布,每次从该分布中采样都有一定的概率采样到不同的参数值组成不同的混合网络以实现对信用分配策略空间的探索。这里的高斯分布是多元高斯分布且协方差矩阵为对角阵。相应地可以得到损失函数为:
Figure 412944DEST_PATH_IMAGE017
其中,
Figure 458261DEST_PATH_IMAGE018
其中,
Figure 384629DEST_PATH_IMAGE019
表示Q _tot 的目标值,
Figure 933422DEST_PATH_IMAGE020
表示目标网络参数,Nμ HN s t ),σ HN s t ))表示采用高斯策略得到的均值方差,W mixer 表示混合网络的参数,E表示期望,τ表示动作观察历史,u表示从动作空间采样出的动作,s表示状态空间中的当前状态,θ表示当前网络参数,Q表示当前状态下评估动作的价值,Q _tot 表示经过混合网络处理之后的Q值,μ表示均值,σ表示方差,
Figure 21463DEST_PATH_IMAGE021
表示目标混合网络的参数。
为了使用随机梯度下降等基于梯度的优化算法对损失函数进行优化,利用重参数技巧来实现高斯策略的学习:
Figure 695021DEST_PATH_IMAGE022
其中,ε满足标准正态分布N(0,1)。从而得到损失函数为:
Figure 893921DEST_PATH_IMAGE001
其中,N(0,1)表示均值为0,方差为1的高斯分布,ε表示从N(0,1)中的采样值,E表示期望,τ表示动作观察历史,u表示从动作空间采样出的动作,s表示状态空间中的当前状态,θ表示当前网络参数,HN表示信用分配智能体的策略网络,λ tem 表示温度系数,t表示时间,Q表示当前状态下评估动作的价值,Q _tot 表示经过混合网络处理之后的Q值,y tot 表示Q _tot 的目标值,μ表示均值,σ表示方差,
Figure 828379DEST_PATH_IMAGE023
表示由高斯策略采样得到的混合网络的参数。
本申请利用熵正则化以控制探索的范围,避免过度探索导致学习不稳定,算法收敛速度降低。多元高斯分布的熵定义为:
Figure 87322DEST_PATH_IMAGE024
其中,k为高斯分布维度,p为概率,yT为转置,π表示联合策略,最后一步对相互独立的多元高斯分布成立:
Figure 497444DEST_PATH_IMAGE025
,其中,diag表示值为
Figure 234456DEST_PATH_IMAGE026
的对角矩阵,σ表示方差。
在每次从高斯策略中采样一个信用分配策略之前,对高斯策略的方差乘以一个温度系数
Figure 288999DEST_PATH_IMAGE027
,该温度系数随训练进行不断退火至设定的值
Figure 718844DEST_PATH_IMAGE028
。最终得到熵正则化损失函数为:
Figure 694890DEST_PATH_IMAGE001
在上述任一实施例中,信用分配策略空间被定义为:
Figure 642118DEST_PATH_IMAGE003
其中,Γ(s t )表示信用分配策略空间,hs t )表示被参数化的混合网络,Q表示当前状态下评估动作的价值,Q _tot 表示经过混合网络处理之后的Q值。
进一步地,信用分配策略空间包括QMIX信用分配策略空间,QMIX信用分配策略空间为:
Figure 285588DEST_PATH_IMAGE004
其中,Γ(s t )表示QMIX信用分配策略空间,
Figure 151913DEST_PATH_IMAGE016
表示混合网络的参数,
Figure 880835DEST_PATH_IMAGE029
Figure 959649DEST_PATH_IMAGE007
表示两层网络的参数,HN表示信用分配智能体的策略网络,s表示状态空间中的当前状态,t表示时间。
在该实施例中,考虑了两层的混合网络,在t时刻,全局状态信息s t 输入信用分配智能体的策略网络(即超网络HyperNet)并输出两层网络的参数
Figure 113419DEST_PATH_IMAGE030
Figure 619487DEST_PATH_IMAGE009
。该智能体拥有高维的连续动作空间,其策略可以直接表示为
Figure 366863DEST_PATH_IMAGE010
,根据混合网络的层数决定动作
Figure 249368DEST_PATH_IMAGE023
的维度。
在上述实施例中,信用分配智能体按照高斯策略以全局状态信息输出均值和方差包括:将QMIX信用分配策略空间中的超网络替换为两个输出头,两个输出头分别对应分布的均值和方差。
在该实施例中,可以将QMIX信用分配策略空间中的超网络替换为两个输出头后,从而使得两个输出头分别对应分布的均值和方差。
在上述实施例中,对动作进行采样,并将采样后的动作作为多智能体协同的信用分配策略具体包括:对均值和方差进行采样,以得到采样后的动作
Figure 601852DEST_PATH_IMAGE015
,并将采样后的动作作为多智能体协同的信用分配策略。
在该实施例中,能够从高斯分布中采样得到动作
Figure 950925DEST_PATH_IMAGE005
,从高斯分布中采样得到的参数值有正有负,因此也需要加上绝对值约束才能组成混合网络以实现信用分配。
如图5所示,本发明第二方面的实施例提供了一种多智能体信用分配装置10,包括:存储器1和处理器2,存储器1储存有程序或指令,程序或指令被处理器执行时,实现如第一方面任一项实施例中的多智能体信用分配方法的步骤。
根据本发明提供的多智能体信用分配装置10,包括存储器1和处理器2,存储器1储存有程序或指令,程序或指令被处理器2执行时,实现如第一方面任一项实施例中的多智能体信用分配方法的步骤。由于该多智能体信用分配装置10能够实现如第一方面任一项实施例中的多智能体信用分配方法的步骤。因此,本发明提供的多智能体信用分配装置10还具有第一方面任一项实施例中的多智能体信用分配方法的全部有益效果,在此不再赘述。
本发明第三方面的实施例提供了一种可读存储介质,其上存储有程序或指令,程序或指令被执行时,实现如第一方面任一项实施例中的多智能体信用分配方法的步骤。
根据本发明提供的可读存储介质,其上存储有程序或指令,程序或指令被执行时,实现如第一方面任一项实施例中的多智能体信用分配方法的步骤。由于该可读存储介质能够实现如第一方面任一项实施例中的多智能体信用分配方法的步骤。因此,本发明提供的可读存储介质还具有第一方面任一项实施例中的多智能体信用分配方法的全部有益效果,在此不再赘述。
本发明第四方面的实施例提供了一种多智能体,用于实现如第一方面任一项实施例中的多智能体信用分配方法的步骤。
根据本发明提供的多智能体,能够实现如第一方面任一项实施例中的多智能体信用分配方法的步骤。由于多智能体是用于实现如第一方面任一项实施例中的多智能体信用分配方法的步骤。因此,本发明提供的多智能体还具有第一方面任一项实施例中的多智能体信用分配方法的步骤的全部有益效果,在此不再赘述。
以上仅为本申请的优选实施例而已,对于本领域的技术人员来说,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (11)

1.一种多智能体信用分配方法,其特征在于,包括:
定义信用分配智能体在预设环境中的信用分配策略空间;
使所述信用分配智能体学习一个信用分配策略,使所述信用分配智能体在训练时按照所述信用分配策略探索所述信用分配策略空间,并基于全局状态信息输出动作;
从所述动作得到目标动作,并将所述目标动作作为多智能体协同的信用分配策略。
2.根据权利要求1所述的多智能体信用分配方法,其特征在于,还包括:
控制探索所述信用分配策略空间的探索范围。
3.根据权利要求2所述的多智能体信用分配方法,其特征在于,所述控制探索所述信用分配策略空间的探索范围的步骤,具体包括:
将熵正则化损失函数作为优化后的目标;
使用中心化训练分布式执行框架进行端到端训练,以优化所述目标;
其中,所述熵正则化损失函数为:
Figure 783426DEST_PATH_IMAGE001
其中,N(0,1)表示均值为0,方差为1的高斯分布,ε表示从N(0,1)中的采样值,E表示期望,τ表示动作观察历史,u表示从动作空间采样出的动作,s表示状态空间中的当前状态,θ表示当前网络参数,HN表示信用分配智能体的策略网络,λ tem 表示温度系数,t表示时间,Q表示当前状态下评估动作的价值,Q _tot 表示经过混合网络处理之后的Qy tot 表示Q _tot 的目标值,μ表示均值,σ表示方差。
4.根据权利要求1所述的多智能体信用分配方法,其特征在于,所述信用分配策略空间被定义为:
Figure 701704DEST_PATH_IMAGE002
其中,Γ(s t )表示信用分配策略空间,hs t )表示被参数化的混合网络,Q表示当前状态下评估动作的价值,Q _tot 表示经过混合网络处理之后的Q值。
5.根据权利要求4所述的多智能体信用分配方法,其特征在于,所述信用分配策略空间包括QMIX信用分配策略空间,所述QMIX信用分配策略空间为:
Figure 71505DEST_PATH_IMAGE003
其中,Γ(s t )表示QMIX信用分配策略空间,
Figure 368626DEST_PATH_IMAGE004
表示混合网络的参数,
Figure 165680DEST_PATH_IMAGE005
Figure 774516DEST_PATH_IMAGE006
表示两层网络的参数,HN表示信用分配智能体的策略网络,s表示状态空间中的当前状态,t表示时间。
6.根据权利要求5所述的多智能体信用分配方法,其特征在于,所述信用分配策略包括高斯策略,所述信用分配智能体按照所述高斯策略以全局状态信息输出均值和方差。
7.根据权利要求6所述的多智能体信用分配方法,其特征在于,所述信用分配智能体按照所述高斯策略以全局状态信息输出均值和方差包括:
将所述QMIX信用分配策略空间中的超网络替换为两个输出头,两个所述输出头分别对应分布的所述均值和所述方差。
8.根据权利要求6所述的多智能体信用分配方法,其特征在于,所述对所述动作进行采样,并将采样后的动作作为多智能体协同的信用分配策略的步骤,具体包括:
对所述均值和所述方差进行采样,以得到采样后的动作
Figure 479167DEST_PATH_IMAGE007
,并将采样后的动作作为多智能体协同的信用分配策略。
9.一种多智能体信用分配装置,其特征在于,包括:
存储器和处理器,所述存储器储存有程序或指令,所述程序或所述指令被所述处理器执行时,实现如权利要求1至8中任一项所述的多智能体信用分配方法的步骤。
10.一种可读存储介质,其特征在于,其上存储有程序或指令,所述程序或所述指令被执行时,实现如权利要求1至8中任一项所述的多智能体信用分配方法的步骤。
11.一种多智能体,其特征在于,用于实现如权利要求1至8中任一项所述的多智能体信用分配方法的步骤。
CN202211672682.1A 2022-12-26 2022-12-26 多智能体信用分配方法、装置、可读存储介质和智能体 Active CN115660110B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211672682.1A CN115660110B (zh) 2022-12-26 2022-12-26 多智能体信用分配方法、装置、可读存储介质和智能体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211672682.1A CN115660110B (zh) 2022-12-26 2022-12-26 多智能体信用分配方法、装置、可读存储介质和智能体

Publications (2)

Publication Number Publication Date
CN115660110A true CN115660110A (zh) 2023-01-31
CN115660110B CN115660110B (zh) 2023-04-14

Family

ID=85022891

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211672682.1A Active CN115660110B (zh) 2022-12-26 2022-12-26 多智能体信用分配方法、装置、可读存储介质和智能体

Country Status (1)

Country Link
CN (1) CN115660110B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180165602A1 (en) * 2016-12-14 2018-06-14 Microsoft Technology Licensing, Llc Scalability of reinforcement learning by separation of concerns
US20200160168A1 (en) * 2018-11-16 2020-05-21 Honda Motor Co., Ltd. Cooperative multi-goal, multi-agent, multi-stage reinforcement learning
CN111291890A (zh) * 2020-05-13 2020-06-16 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种博弈策略优化方法、系统及存储介质
CN112613608A (zh) * 2020-12-18 2021-04-06 中国科学技术大学 一种强化学习方法及相关装置
CN113095498A (zh) * 2021-03-24 2021-07-09 北京大学 基于散度的多智能体合作学习方法、装置、设备及介质
CN113128705A (zh) * 2021-03-24 2021-07-16 北京科技大学顺德研究生院 一种智能体最优策略获取方法及装置
CN113902087A (zh) * 2021-10-25 2022-01-07 吉林建筑大学 一种多Agent深度强化学习算法
CN115018017A (zh) * 2022-08-03 2022-09-06 中国科学院自动化研究所 基于集成学习的多智能体信用分配方法、系统、设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180165602A1 (en) * 2016-12-14 2018-06-14 Microsoft Technology Licensing, Llc Scalability of reinforcement learning by separation of concerns
US20200160168A1 (en) * 2018-11-16 2020-05-21 Honda Motor Co., Ltd. Cooperative multi-goal, multi-agent, multi-stage reinforcement learning
CN111291890A (zh) * 2020-05-13 2020-06-16 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种博弈策略优化方法、系统及存储介质
CN112613608A (zh) * 2020-12-18 2021-04-06 中国科学技术大学 一种强化学习方法及相关装置
CN113095498A (zh) * 2021-03-24 2021-07-09 北京大学 基于散度的多智能体合作学习方法、装置、设备及介质
CN113128705A (zh) * 2021-03-24 2021-07-16 北京科技大学顺德研究生院 一种智能体最优策略获取方法及装置
CN113902087A (zh) * 2021-10-25 2022-01-07 吉林建筑大学 一种多Agent深度强化学习算法
CN115018017A (zh) * 2022-08-03 2022-09-06 中国科学院自动化研究所 基于集成学习的多智能体信用分配方法、系统、设备

Also Published As

Publication number Publication date
CN115660110B (zh) 2023-04-14

Similar Documents

Publication Publication Date Title
Maheswaran et al. Distributed Algorithms for DCOP: A Graphical-Game-Based Approach.
Zhang et al. Event‐triggered H∞ filtering for networked Takagi–Sugeno fuzzy systems with asynchronous constraints
CN111243045B (zh) 一种基于高斯混合模型先验变分自编码器的图像生成方法
Kramer et al. Derivative-free optimization
Zhang et al. Gradient play in stochastic games: stationary points, convergence, and sample complexity
Chow et al. A framework for time-consistent, risk-averse model predictive control: Theory and algorithms
Hanema et al. Tube-based anticipative model predictive control for linear parameter-varying systems
CN112672382B (zh) 混合协作计算卸载方法、装置、电子设备及存储介质
CN114047706A (zh) 面向可重入工业制造系统的模糊动态积分滑模控制方法
He et al. Resilient guaranteed cost control for uncertain T–S fuzzy systems with time-varying delays and Markov jump parameters
CN113110052A (zh) 一种基于神经网络和强化学习的混合能量管理方法
Gadjov et al. On the exact convergence to Nash equilibrium in monotone regimes under partial-information
Zhang et al. Fractional order sliding mode control based on single parameter adaptive law for nano‐positioning of piezoelectric actuators
CN115660110B (zh) 多智能体信用分配方法、装置、可读存储介质和智能体
Han et al. Multi-objective model predictive control with gradient eigenvector algorithm
Gan et al. Intelligent learning algorithm and intelligent transportation-based energy management strategies for hybrid electric vehicles: A review
Shalizi et al. Information bottlenecks, causal states, and statistical relevance bases: How to represent relevant information in memoryless transduction
CN113961204A (zh) 一种基于多目标强化学习的车联网计算卸载方法及系统
Gomide et al. Stability analysis of discrete-time switched systems under arbitrary switching
Zhang et al. Filtering and control of wireless networked systems
Gao et al. Balancing rates and variance via adaptive batch-size for stochastic optimization problems
CN116502779A (zh) 基于局部注意力机制的旅行商问题生成式求解方法
CN116126534A (zh) 一种云资源动态伸缩方法及系统
Montagner et al. Design of H∞ gain-scheduled controllers for linear time-varying systems by means of polynomial Lyapunov functions
Lee et al. Simulation-based learning of cost-to-go for control of nonlinear processes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant