CN115660110A - 多智能体信用分配方法、装置、可读存储介质和智能体 - Google Patents
多智能体信用分配方法、装置、可读存储介质和智能体 Download PDFInfo
- Publication number
- CN115660110A CN115660110A CN202211672682.1A CN202211672682A CN115660110A CN 115660110 A CN115660110 A CN 115660110A CN 202211672682 A CN202211672682 A CN 202211672682A CN 115660110 A CN115660110 A CN 115660110A
- Authority
- CN
- China
- Prior art keywords
- credit allocation
- agent
- credit
- space
- strategy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 91
- 230000009471 action Effects 0.000 claims abstract description 67
- 238000009826 distribution Methods 0.000 claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 33
- 230000006870 function Effects 0.000 claims description 19
- 238000011156 evaluation Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 5
- 238000000354 decomposition reaction Methods 0.000 abstract description 7
- 230000002787 reinforcement Effects 0.000 abstract description 3
- 230000008901 benefit Effects 0.000 description 7
- 239000000126 substance Substances 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010668 complexation reaction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Complex Calculations (AREA)
Abstract
本发明提供了一种多智能体信用分配方法、装置、可读存储介质和智能体,涉及强化学习、多智能体技术领域。该方法包括:定义信用分配智能体在预设环境中的信用分配策略空间;使信用分配智能体学习一个信用分配策略,使信用分配智能体在训练时按照信用分配策略探索信用分配策略空间,并基于全局状态信息输出动作;从动作得到目标动作,并将目标动作作为多智能体协同的信用分配策略。该方法从形式上定义了信用分配策略空间,并基于值分解框架提出了随机化信用分配方法,在训练时基于可学习的策略分布,能够以一定概率采样出一个信用分配策略,最终实现了对信用分配策略空间的有效探索,得到更好的信用分配策略,增强算法在多智能体合作任务上的能力。
Description
技术领域
本发明涉及强化学习、多智能体技术领域,具体而言,涉及一种多智能体信用分配方法、装置、可读存储介质和智能体。
背景技术
近年来,在多智能体合作博弈问题中,智能体与环境交互时,环境只返回单个全局奖励,如何将全局奖励以合理的方式分配给每个智能体以促进智能体之间的合作是“中心化训练分布式执行”这一学习范式的核心问题,称为信用分配。信用分配本质上是对智能体的奖励信号进行修正,错误的奖励信号对智能体学习产生非常负面的影响,导致算法难以收敛到最优策略。实际情况下信用分配问题相当复杂,显式直接地解决往往面临很大困难,因为智能体之间,智能体与环境之间交互行为高度复杂且动态变化难以为每个智能体指定贡献大小。值分解框架作为解决信用分配的经典框架,提出将全局奖励通过某种形式进行分解以得到每个智能体的奖励信号。值分解框架以确定性的方法实现信用分配,忽略了对信用分配策略空间的探索,难以应对部分可观测性带来的不确定性,导致只能得到次优联合策略。
因此,如何提出一种通过对信用分配策略空间的探索,以合理的实现多智能体的信用分配的多智能体信用分配方法成为目前亟待解决的问题。
发明内容
为解决上述技术问题,本申请提出一种能够解决多智能体的信用分配不合理的多智能体信用分配方法。
因此,本发明的第一个目的在于提供了一种多智能体信用分配方法。
本发明的第二个目的在于提供了一种多智能体信用分配装置。
本发明的第三个目的在于提供了一种可读存储介质。
本发明的第四个目的在于提供了一种多智能体。
本发明第一方面的技术方案提供了一种多智能体信用分配方法,包括:定义信用分配智能体在预设环境中的信用分配策略空间;使信用分配智能体学习一个信用分配策略,使信用分配智能体在训练时按照信用分配策略探索信用分配策略空间,并基于全局状态信息输出动作;从动作得到目标动作,并将目标动作作为多智能体协同的信用分配策略。
根据本发明提供的多智能体信用分配方法,包括从形式上定义信用分配智能体在预设环境中的信用分配策略空间,使信用分配智能体学习一个信用分配策略,使信用分配智能体在训练时按照信用分配策略探索信用分配策略空间,并基于全局状态信息输出动作,并从动作得到目标动作,将目标动作作为多智能体协同的信用分配策略。本申请的多智能体信用分配方法从形式上定义了信用分配策略空间,并基于值分解框架提出了随机化信用分配方法,在训练时基于可学习的策略分布,能够以一定概率采样出一个信用分配策略,最终实现了对信用分配策略空间的有效探索,得到更好的信用分配策略,增强算法在多智能体合作任务上的能力。本申请的多智能体信用分配方法能应用于各个场景中的多智能体合作任务,通过本申请能够显著的提高算法在多智能体合作任务上的性能。其中,信用分配智能体的策略网络包括超网络。
另外,本申请提供的多智能体信用分配方法还可以具有如下附加技术特征:
在上述技术方案中,多智能体信用分配方法还包括:控制探索信用分配策略空间的探索范围。
在该技术方案中,多智能体信用分配方法还包括控制探索信用分配策略空间的探索范围。通过对信用分配策略空间的探索范围进行限定,能够避免由于探索过度导致学习不稳定的情况发生,最终实现对信用分配策略空间的有效探索,得到更好的信用分配策略。
在上述技术方案中,控制探索信用分配策略空间的探索范围具体包括:将熵正则化损失函数作为优化后的目标;使用中心化训练分布式执行框架进行端到端训练,以优化目标;其中,熵正则化损失函数为:
其中,N(0,1)表示均值为0,方差为1的高斯分布,ε表示从N(0,1)中的采样值,E表示期望,τ表示动作观察历史,u表示从动作空间采样出的动作,s表示状态空间中的当前状态,θ表示当前网络参数,HN表示信用分配智能体的策略网络,λ tem 表示温度系数,t表示时间,Q表示当前状态下评估动作的价值,Q _tot 表示经过混合网络处理之后的Q值,y tot 表示Q _tot 的目标值,μ表示均值,σ表示方差。
在该技术方案中,具体可以采用以下方式对分配策略空间的探索范围进行限定:将基于熵正则化损失函数作为优化后的目标,使用中心化训练分布式执行框架进行端到端训练,以优化目标。从而避免了由于探索过度导致学习不稳定的情况发生,最终实现对信用分配策略空间的有效探索,得到更好的信用分配策略。其中,熵正则化损失函数为:
在上述技术方案中,信用分配策略空间被定义为:
其中,Γ(s t )表示信用分配策略空间,h(s t )表示被参数化的混合网络,Q表示当前状态下评估动作的价值,Q _tot 表示经过混合网络处理之后的Q值。
进一步地,信用分配策略空间包括QMIX信用分配策略空间,QMIX信用分配策略空间为:
在该技术方案中,考虑了两层的混合网络,在t时刻,全局状态信息s t 输入信用分配智能体的策略网络(即超网络HyperNet)并输出两层网络的参数和。该智能体拥有高维的连续动作空间,其策略可以直接表示为,根据混合网络的层数决定动作的维度。
在上述技术方案中,信用分配策略包括高斯策略,信用分配智能体按照高斯策略以全局状态信息输出均值和方差,均值和方差为:
在该技术方案中,为了让策略可控,本申请将信用分配智能体学习的策略限制为高斯策略,使信用分配智能体按照高斯策略以全局状态信息输出均值和方差,均值和方差为:
在上述技术方案中,信用分配智能体按照高斯策略以全局状态信息输出均值和方差包括:将QMIX信用分配策略空间中的超网络替换为两个输出头,两个输出头分别对应分布的均值和方差。
在该技术方案中,可以将QMIX信用分配策略空间中的超网络替换为两个输出头后,从而使得两个输出头分别对应分布的均值和方差。
本发明第二方面的技术方案提供了一种多智能体信用分配装置,包括:存储器和处理器,存储器储存有程序或指令,程序或指令被处理器执行时,实现如第一方面任一项技术方案中的多智能体信用分配方法的步骤。
根据本发明提供的多智能体信用分配装置,包括存储器和处理器,存储器储存有程序或指令,程序或指令被处理器执行时,实现如第一方面任一项技术方案中的多智能体信用分配方法的步骤。由于该多智能体信用分配装置能够实现如第一方面任一项技术方案中的多智能体信用分配方法的步骤。因此,本发明提供的多智能体信用分配装置还具有第一方面任一项技术方案中的多智能体信用分配方法的全部有益效果,在此不再赘述。
本发明第三方面的技术方案提供了一种可读存储介质,其上存储有程序或指令,程序或指令被执行时,实现如第一方面任一项技术方案中的多智能体信用分配方法的步骤。
根据本发明提供的可读存储介质,其上存储有程序或指令,程序或指令被执行时,实现如第一方面任一项技术方案中的多智能体信用分配方法的步骤。由于该可读存储介质能够实现如第一方面任一项技术方案中的多智能体信用分配方法的步骤。因此,本发明提供的可读存储介质还具有第一方面任一项技术方案中的多智能体信用分配方法的全部有益效果,在此不再赘述。
本发明第四方面的技术方案提供了一种多智能体,用于实现如第一方面任一项技术方案中的多智能体信用分配方法的步骤。
根据本发明提供的多智能体,能够实现如第一方面任一项技术方案中的多智能体信用分配方法的步骤。由于多智能体是用于实现如第一方面任一项技术方案中的多智能体信用分配方法的步骤。因此,本发明提供的多智能体还具有第一方面任一项技术方案中的多智能体信用分配方法的步骤的全部有益效果,在此不再赘述。
本发明的附加方面和优点将在下面的描述部分中变得明显,或通过本发明的实践了解到。
附图说明
图1是根据本发明的一个实施例的多智能体信用分配方法的流程示意图;
图2是根据本发明的第二个实施例的多智能体信用分配方法的流程示意图;
图3是根据本发明的第三个实施例的多智能体信用分配方法的流程示意图;
图4是根据本发明的第四个实施例的多智能体信用分配方法的流程示意图;
图5是根据本发明的一个实施例的多智能体信用分配装置的方框图。
其中,图5中的附图标记与部件名称之间的对应关系为:
10多智能体信用分配装置,1存储器,2处理器。
具体实施方式
在根据本申请的一个实施例中,如图1所示,提供了一种多智能体信用分配方法。多智能体信用分配方法包括:
S102,定义信用分配智能体在预设环境中的信用分配策略空间。
S104,使信用分配智能体学习一个信用分配策略,使信用分配智能体在训练时按照信用分配策略探索信用分配策略空间,并基于全局状态信息输出动作。
S106,从动作得到目标动作,并将目标动作作为多智能体协同的信用分配策略。
根据本发明提供的多智能体信用分配方法,包括从形式上定义信用分配智能体在预设环境中的信用分配策略空间,使信用分配智能体学习一个信用分配策略,使信用分配智能体在训练时按照信用分配策略探索信用分配策略空间,并基于全局状态信息输出动作,并从动作得到目标动作,将目标动作作为多智能体协同的信用分配策略。本申请的多智能体信用分配方法从形式上定义了信用分配策略空间,并基于值分解框架提出了随机化信用分配方法,在训练时基于可学习的策略分布,能够以一定概率采样出一个信用分配策略,最终实现了对信用分配策略空间的有效探索,得到更好的信用分配策略,增强算法在多智能体合作任务上的能力。本申请的多智能体信用分配方法能应用于各个场景中的多智能体合作任务,通过本申请能够显著的提高算法在多智能体合作任务上的性能。其中,信用分配智能体的策略网络包括超网络。
在根据本申请的第二个实施例中,如图2所示,提供了一种多智能体信用分配方法。多智能体信用分配方法包括:
S202,定义信用分配智能体在预设环境中的信用分配策略空间。
S204,使信用分配智能体学习一个信用分配策略,使信用分配智能体在训练时按照信用分配策略探索信用分配策略空间,并基于全局状态信息输出动作。
S206,从动作得到目标动作,并将目标动作作为多智能体协同的信用分配策略。
S208,控制探索信用分配策略空间的探索范围。
根据本发明提供的多智能体信用分配方法,包括从形式上定义信用分配智能体在预设环境中的信用分配策略空间,使信用分配智能体学习一个信用分配策略,使信用分配智能体在训练时按照信用分配策略探索信用分配策略空间,并基于全局状态信息输出动作,并从动作得到目标动作,将目标动作作为多智能体协同的信用分配策略,控制探索信用分配策略空间的探索范围。本申请的多智能体信用分配方法从形式上定义了信用分配策略空间,并基于值分解框架提出了随机化信用分配方法,在训练时基于可学习的策略分布,能够以一定概率采样出一个信用分配策略,最终实现了对信用分配策略空间的有效探索,得到更好的信用分配策略,增强算法在多智能体合作任务上的能力。同时,通过对信用分配策略空间的探索范围进行限定,能够避免由于探索过度导致学习不稳定的情况发生,最终实现对信用分配策略空间的有效探索,得到更好的信用分配策略。
在根据本申请的第三个实施例中,如图3所示,提供了一种多智能体信用分配方法。多智能体信用分配方法包括:
S302,定义信用分配智能体在预设环境中的信用分配策略空间。
S304,使信用分配智能体学习一个信用分配策略,使信用分配智能体在训练时按照信用分配策略探索信用分配策略空间,并基于全局状态信息输出动作。
S306,从动作得到目标动作,并将目标动作作为多智能体协同的信用分配策略。
S308,基于熵正则化损失函数作为优化后的目标。
S310,使用中心化训练分布式执行框架进行端到端训练,以优化目标。
其中,熵正则化损失函数为:
其中,N(0,1)表示均值为0,方差为1的高斯分布,ε表示从N(0,1)中的采样值,E表示期望,τ表示动作观察历史,u表示从动作空间采样出的动作,s表示状态空间中的当前状态,θ表示当前网络参数,HN表示信用分配智能体的策略网络,λ tem 表示温度系数,t表示时间,Q表示当前状态下评估动作的价值,Q _tot 表示经过混合网络处理之后的Q值,y tot 表示Q _tot 的目标值,μ表示均值,σ表示方差。
根据本发明提供的多智能体信用分配方法,包括从形式上定义信用分配智能体在预设环境中的信用分配策略空间,使信用分配智能体学习一个信用分配策略,使信用分配智能体在训练时按照信用分配策略探索信用分配策略空间,并基于全局状态信息输出动作,并从动作得到目标动作,将目标动作作为多智能体协同的信用分配策略,控制探索信用分配策略空间的探索范围,具体可以采用以下方式对分配策略空间的探索范围进行限定:将基于熵正则化损失函数作为优化后的目标,使用中心化训练分布式执行框架进行端到端训练,以优化目标。从而避免了由于探索过度导致学习不稳定的情况发生,最终实现对信用分配策略空间的有效探索,得到更好的信用分配策略。本申请与目前国内外发表的最新的多智能体合作方法相比具有几个明显优点:1)该方法从形式上定义了信用分配策略空间,利用随机策略实现了对信用分配策略空间的探索,并进一步利用熵正则化来控制探索范围,避免过度探索导致学习不稳定。同时利用重参数化技巧使得网络参数可以直接利用随机梯度下降优化从而得到更好的信用分配策略。2)该方法能够显著提高多智能体合作算法在星际争霸微操环境的性能,超过了目前的主流的多智能体合作算法。3)本申请提出的方法具有一定的通用性,未来值得在没有结构约束的信用分配方法中尝试以解决基于策略梯度方法持续探索能力不足的问题,以及通过设计合理的奖励利用强化学习的方式来直接学习信用分配策略,并考虑将高斯策略扩展为更具一般性的随机策略。
在根据本申请的第四个实施例中,如图4所示,提供了一种多智能体信用分配方法。多智能体信用分配方法包括:
S402,定义信用分配智能体在预设环境中的信用分配策略空间。
S404,使信用分配智能体学习高斯策略,使信用分配智能体在训练时按照高斯策略探索信用分配策略空间,并基于全局状态信息输出均值和方差。
S406,从均值和方差得到目标动作,并将目标动作作为多智能体协同的信用分配策略。
S408,基于熵正则化损失函数作为优化后的目标。
S410,使用中心化训练分布式执行框架进行端到端训练,以优化目标。
其中,均值和方差为:
其中,熵正则化损失函数为:
其中,N(0,1)表示均值为0,方差为1的高斯分布,ε表示从N(0,1)中的采样值,E表示期望,τ表示动作观察历史,u表示从动作空间采样出的动作,s表示状态空间中的当前状态,θ表示当前网络参数,HN表示信用分配智能体的策略网络,λ tem 表示温度系数,t表示时间,Q表示当前状态下评估动作的价值,Q _tot 表示经过混合网络处理之后的Q值,y tot 表示Q _tot 的目标值,μ表示均值,σ表示方差。
根据本发明提供的多智能体信用分配方法,包括从形式上定义信用分配智能体在预设环境中的信用分配策略空间,使信用分配智能体学习高斯策略,使信用分配智能体在训练时按照高斯策略探索信用分配策略空间,并基于全局状态信息输出均值和方差,并从均值和方差得到目标动作,将目标动作作为多智能体协同的信用分配策略,控制探索信用分配策略空间的探索范围,具体可以采用以下方式对分配策略空间的探索范围进行限定:将基于熵正则化损失函数作为优化后的目标,使用中心化训练分布式执行框架进行端到端训练,以优化目标。从而避免了由于探索过度导致学习不稳定的情况发生,最终实现对信用分配策略空间的有效探索,得到更好的信用分配策略。本申请的多智能体信用分配方法从形式上定义了信用分配策略空间,并基于值分解框架提出了随机化信用分配方法,在训练时基于可学习的策略分布,能够以一定概率采样出一个信用分配策略,最终实现了对信用分配策略空间的有效探索,得到更好的信用分配策略,增强算法在多智能体合作任务上的能力。同时利用熵正则化避免探索过度导致学习不稳定,最终实现了对信用分配策略空间的有效探索。
进一步地,熵正则化损失函数的具体推导过程如下:
如同变分编码器中输入样本对应的不只是单个隐变量值而是一个分布,此时每个时刻的状态s t 也不再只是对应单个信用分配策略,而是对应了一个高斯分布,每次从该分布中采样都有一定的概率采样到不同的参数值组成不同的混合网络以实现对信用分配策略空间的探索。这里的高斯分布是多元高斯分布且协方差矩阵为对角阵。相应地可以得到损失函数为:
其中,
其中,
表示Q _tot 的目标值,表示目标网络参数,N(μ HN (s t ),σ HN (s t ))表示采用高斯策略得到的均值方差,W mixer 表示混合网络的参数,E表示期望,τ表示动作观察历史,u表示从动作空间采样出的动作,s表示状态空间中的当前状态,θ表示当前网络参数,Q表示当前状态下评估动作的价值,Q _tot 表示经过混合网络处理之后的Q值,μ表示均值,σ表示方差,表示目标混合网络的参数。
为了使用随机梯度下降等基于梯度的优化算法对损失函数进行优化,利用重参数技巧来实现高斯策略的学习:
其中,ε满足标准正态分布N(0,1)。从而得到损失函数为:
其中,N(0,1)表示均值为0,方差为1的高斯分布,ε表示从N(0,1)中的采样值,E表示期望,τ表示动作观察历史,u表示从动作空间采样出的动作,s表示状态空间中的当前状态,θ表示当前网络参数,HN表示信用分配智能体的策略网络,λ tem 表示温度系数,t表示时间,Q表示当前状态下评估动作的价值,Q _tot 表示经过混合网络处理之后的Q值,y tot 表示Q _tot 的目标值,μ表示均值,σ表示方差,表示由高斯策略采样得到的混合网络的参数。
本申请利用熵正则化以控制探索的范围,避免过度探索导致学习不稳定,算法收敛速度降低。多元高斯分布的熵定义为:
在上述任一实施例中,信用分配策略空间被定义为:
其中,Γ(s t )表示信用分配策略空间,h(s t )表示被参数化的混合网络,Q表示当前状态下评估动作的价值,Q _tot 表示经过混合网络处理之后的Q值。
进一步地,信用分配策略空间包括QMIX信用分配策略空间,QMIX信用分配策略空间为:
在该实施例中,考虑了两层的混合网络,在t时刻,全局状态信息s t 输入信用分配智能体的策略网络(即超网络HyperNet)并输出两层网络的参数和。该智能体拥有高维的连续动作空间,其策略可以直接表示为,根据混合网络的层数决定动作的维度。
在上述实施例中,信用分配智能体按照高斯策略以全局状态信息输出均值和方差包括:将QMIX信用分配策略空间中的超网络替换为两个输出头,两个输出头分别对应分布的均值和方差。
在该实施例中,可以将QMIX信用分配策略空间中的超网络替换为两个输出头后,从而使得两个输出头分别对应分布的均值和方差。
如图5所示,本发明第二方面的实施例提供了一种多智能体信用分配装置10,包括:存储器1和处理器2,存储器1储存有程序或指令,程序或指令被处理器执行时,实现如第一方面任一项实施例中的多智能体信用分配方法的步骤。
根据本发明提供的多智能体信用分配装置10,包括存储器1和处理器2,存储器1储存有程序或指令,程序或指令被处理器2执行时,实现如第一方面任一项实施例中的多智能体信用分配方法的步骤。由于该多智能体信用分配装置10能够实现如第一方面任一项实施例中的多智能体信用分配方法的步骤。因此,本发明提供的多智能体信用分配装置10还具有第一方面任一项实施例中的多智能体信用分配方法的全部有益效果,在此不再赘述。
本发明第三方面的实施例提供了一种可读存储介质,其上存储有程序或指令,程序或指令被执行时,实现如第一方面任一项实施例中的多智能体信用分配方法的步骤。
根据本发明提供的可读存储介质,其上存储有程序或指令,程序或指令被执行时,实现如第一方面任一项实施例中的多智能体信用分配方法的步骤。由于该可读存储介质能够实现如第一方面任一项实施例中的多智能体信用分配方法的步骤。因此,本发明提供的可读存储介质还具有第一方面任一项实施例中的多智能体信用分配方法的全部有益效果,在此不再赘述。
本发明第四方面的实施例提供了一种多智能体,用于实现如第一方面任一项实施例中的多智能体信用分配方法的步骤。
根据本发明提供的多智能体,能够实现如第一方面任一项实施例中的多智能体信用分配方法的步骤。由于多智能体是用于实现如第一方面任一项实施例中的多智能体信用分配方法的步骤。因此,本发明提供的多智能体还具有第一方面任一项实施例中的多智能体信用分配方法的步骤的全部有益效果,在此不再赘述。
以上仅为本申请的优选实施例而已,对于本领域的技术人员来说,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (11)
1.一种多智能体信用分配方法,其特征在于,包括:
定义信用分配智能体在预设环境中的信用分配策略空间;
使所述信用分配智能体学习一个信用分配策略,使所述信用分配智能体在训练时按照所述信用分配策略探索所述信用分配策略空间,并基于全局状态信息输出动作;
从所述动作得到目标动作,并将所述目标动作作为多智能体协同的信用分配策略。
2.根据权利要求1所述的多智能体信用分配方法,其特征在于,还包括:
控制探索所述信用分配策略空间的探索范围。
3.根据权利要求2所述的多智能体信用分配方法,其特征在于,所述控制探索所述信用分配策略空间的探索范围的步骤,具体包括:
将熵正则化损失函数作为优化后的目标;
使用中心化训练分布式执行框架进行端到端训练,以优化所述目标;
其中,所述熵正则化损失函数为:
其中,N(0,1)表示均值为0,方差为1的高斯分布,ε表示从N(0,1)中的采样值,E表示期望,τ表示动作观察历史,u表示从动作空间采样出的动作,s表示状态空间中的当前状态,θ表示当前网络参数,HN表示信用分配智能体的策略网络,λ tem 表示温度系数,t表示时间,Q表示当前状态下评估动作的价值,Q _tot 表示经过混合网络处理之后的Q,y tot 表示Q _tot 的目标值,μ表示均值,σ表示方差。
6.根据权利要求5所述的多智能体信用分配方法,其特征在于,所述信用分配策略包括高斯策略,所述信用分配智能体按照所述高斯策略以全局状态信息输出均值和方差。
7.根据权利要求6所述的多智能体信用分配方法,其特征在于,所述信用分配智能体按照所述高斯策略以全局状态信息输出均值和方差包括:
将所述QMIX信用分配策略空间中的超网络替换为两个输出头,两个所述输出头分别对应分布的所述均值和所述方差。
9.一种多智能体信用分配装置,其特征在于,包括:
存储器和处理器,所述存储器储存有程序或指令,所述程序或所述指令被所述处理器执行时,实现如权利要求1至8中任一项所述的多智能体信用分配方法的步骤。
10.一种可读存储介质,其特征在于,其上存储有程序或指令,所述程序或所述指令被执行时,实现如权利要求1至8中任一项所述的多智能体信用分配方法的步骤。
11.一种多智能体,其特征在于,用于实现如权利要求1至8中任一项所述的多智能体信用分配方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211672682.1A CN115660110B (zh) | 2022-12-26 | 2022-12-26 | 多智能体信用分配方法、装置、可读存储介质和智能体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211672682.1A CN115660110B (zh) | 2022-12-26 | 2022-12-26 | 多智能体信用分配方法、装置、可读存储介质和智能体 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115660110A true CN115660110A (zh) | 2023-01-31 |
CN115660110B CN115660110B (zh) | 2023-04-14 |
Family
ID=85022891
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211672682.1A Active CN115660110B (zh) | 2022-12-26 | 2022-12-26 | 多智能体信用分配方法、装置、可读存储介质和智能体 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115660110B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180165602A1 (en) * | 2016-12-14 | 2018-06-14 | Microsoft Technology Licensing, Llc | Scalability of reinforcement learning by separation of concerns |
US20200160168A1 (en) * | 2018-11-16 | 2020-05-21 | Honda Motor Co., Ltd. | Cooperative multi-goal, multi-agent, multi-stage reinforcement learning |
CN111291890A (zh) * | 2020-05-13 | 2020-06-16 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种博弈策略优化方法、系统及存储介质 |
CN112613608A (zh) * | 2020-12-18 | 2021-04-06 | 中国科学技术大学 | 一种强化学习方法及相关装置 |
CN113095498A (zh) * | 2021-03-24 | 2021-07-09 | 北京大学 | 基于散度的多智能体合作学习方法、装置、设备及介质 |
CN113128705A (zh) * | 2021-03-24 | 2021-07-16 | 北京科技大学顺德研究生院 | 一种智能体最优策略获取方法及装置 |
CN113902087A (zh) * | 2021-10-25 | 2022-01-07 | 吉林建筑大学 | 一种多Agent深度强化学习算法 |
CN115018017A (zh) * | 2022-08-03 | 2022-09-06 | 中国科学院自动化研究所 | 基于集成学习的多智能体信用分配方法、系统、设备 |
-
2022
- 2022-12-26 CN CN202211672682.1A patent/CN115660110B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180165602A1 (en) * | 2016-12-14 | 2018-06-14 | Microsoft Technology Licensing, Llc | Scalability of reinforcement learning by separation of concerns |
US20200160168A1 (en) * | 2018-11-16 | 2020-05-21 | Honda Motor Co., Ltd. | Cooperative multi-goal, multi-agent, multi-stage reinforcement learning |
CN111291890A (zh) * | 2020-05-13 | 2020-06-16 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种博弈策略优化方法、系统及存储介质 |
CN112613608A (zh) * | 2020-12-18 | 2021-04-06 | 中国科学技术大学 | 一种强化学习方法及相关装置 |
CN113095498A (zh) * | 2021-03-24 | 2021-07-09 | 北京大学 | 基于散度的多智能体合作学习方法、装置、设备及介质 |
CN113128705A (zh) * | 2021-03-24 | 2021-07-16 | 北京科技大学顺德研究生院 | 一种智能体最优策略获取方法及装置 |
CN113902087A (zh) * | 2021-10-25 | 2022-01-07 | 吉林建筑大学 | 一种多Agent深度强化学习算法 |
CN115018017A (zh) * | 2022-08-03 | 2022-09-06 | 中国科学院自动化研究所 | 基于集成学习的多智能体信用分配方法、系统、设备 |
Also Published As
Publication number | Publication date |
---|---|
CN115660110B (zh) | 2023-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Maheswaran et al. | Distributed Algorithms for DCOP: A Graphical-Game-Based Approach. | |
Zhang et al. | Event‐triggered H∞ filtering for networked Takagi–Sugeno fuzzy systems with asynchronous constraints | |
CN111243045B (zh) | 一种基于高斯混合模型先验变分自编码器的图像生成方法 | |
Kramer et al. | Derivative-free optimization | |
Zhang et al. | Gradient play in stochastic games: stationary points, convergence, and sample complexity | |
Chow et al. | A framework for time-consistent, risk-averse model predictive control: Theory and algorithms | |
Hanema et al. | Tube-based anticipative model predictive control for linear parameter-varying systems | |
CN112672382B (zh) | 混合协作计算卸载方法、装置、电子设备及存储介质 | |
CN114047706A (zh) | 面向可重入工业制造系统的模糊动态积分滑模控制方法 | |
He et al. | Resilient guaranteed cost control for uncertain T–S fuzzy systems with time-varying delays and Markov jump parameters | |
CN113110052A (zh) | 一种基于神经网络和强化学习的混合能量管理方法 | |
Gadjov et al. | On the exact convergence to Nash equilibrium in monotone regimes under partial-information | |
Zhang et al. | Fractional order sliding mode control based on single parameter adaptive law for nano‐positioning of piezoelectric actuators | |
CN115660110B (zh) | 多智能体信用分配方法、装置、可读存储介质和智能体 | |
Han et al. | Multi-objective model predictive control with gradient eigenvector algorithm | |
Gan et al. | Intelligent learning algorithm and intelligent transportation-based energy management strategies for hybrid electric vehicles: A review | |
Shalizi et al. | Information bottlenecks, causal states, and statistical relevance bases: How to represent relevant information in memoryless transduction | |
CN113961204A (zh) | 一种基于多目标强化学习的车联网计算卸载方法及系统 | |
Gomide et al. | Stability analysis of discrete-time switched systems under arbitrary switching | |
Zhang et al. | Filtering and control of wireless networked systems | |
Gao et al. | Balancing rates and variance via adaptive batch-size for stochastic optimization problems | |
CN116502779A (zh) | 基于局部注意力机制的旅行商问题生成式求解方法 | |
CN116126534A (zh) | 一种云资源动态伸缩方法及系统 | |
Montagner et al. | Design of H∞ gain-scheduled controllers for linear time-varying systems by means of polynomial Lyapunov functions | |
Lee et al. | Simulation-based learning of cost-to-go for control of nonlinear processes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |