CN115618754B - 多智能体的价值评估方法、装置和可读储存介质 - Google Patents
多智能体的价值评估方法、装置和可读储存介质 Download PDFInfo
- Publication number
- CN115618754B CN115618754B CN202211631819.9A CN202211631819A CN115618754B CN 115618754 B CN115618754 B CN 115618754B CN 202211631819 A CN202211631819 A CN 202211631819A CN 115618754 B CN115618754 B CN 115618754B
- Authority
- CN
- China
- Prior art keywords
- joint action
- mapping
- vector
- module
- agent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 110
- 230000009916 joint effect Effects 0.000 claims abstract description 174
- 238000000034 method Methods 0.000 claims abstract description 23
- 238000013507 mapping Methods 0.000 claims description 151
- 239000013598 vector Substances 0.000 claims description 129
- 239000003795 chemical substances by application Substances 0.000 claims description 117
- 230000009471 action Effects 0.000 claims description 69
- 230000007704 transition Effects 0.000 claims description 58
- 230000001537 neural effect Effects 0.000 claims description 22
- 238000013528 artificial neural network Methods 0.000 claims description 20
- 238000004422 calculation algorithm Methods 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 55
- 238000010586 diagram Methods 0.000 description 5
- 238000012546 transfer Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000001174 ascending effect Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 206010010071 Coma Diseases 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Geometry (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种多智能体的价值评估方法、装置和可读储存介质,涉人工智能技术领域,旨在解决针对多智能体,价值评估模块进行价值评估过程中,忽略了联合动作的作用,导致价值评估模块的价值评估在联合行动空间上的泛化性较差的技术问题,本发明提供的多智能体的价值评估方法以互信息最大化的方法来更新联合动作映射模型中的映射函数,使得联合动作映射与状态转移向量之间的互信息最大化,即使得联合动作映射的映射向量中蕴含丰富的状态转移信息,也即在通过价值评估模块进行价值评估之前,能够知道联合动作的各种结果信息,这样提前知道联合动作的结果又能够使得价值评估模块的评估结果更加准确。
Description
技术领域
本发明涉人工智能技术领域,具体而言,涉及一种多智能体的价值评估方法、装置和可读储存介质。
背景技术
最新的多智能体策略梯度方法优于其他种类智能体强化学习方法,由于联合动作空间呈指数增长,且价值评估模块的价值评估在联合行动空间上的泛化性较差,这些方法中忽略了联合动作的作用,但联合动作在实际中是非常重要的,其中蕴含了其他智能体的策略信息,而智能体在多智能体系统中决策时,需要考虑到其他智能体的策略信息来应对环境不平稳变化带来的影响。
因此,为了改进价值评估模块在联合动作空间中价值评估的泛化性,提供一种能够适用于多智能体联合动作的价值评估方法成为目前亟待解决的技术问题。
发明内容
本发明旨在解决或改善上述技术问题中的至少之一。
本发明的第一方面在于提供一种多智能体的价值评估方法。
本发明的第二方面在于提供一种多智能体的价值评估装置。
本发明的第三方面在于提供一种多智能体的价值评估装置。
本发明的第四方面在于提供一种可读储存介质。
本发明提供的多智能体的价值评估方法,包括:将每一智能体的动作进行拼接得到联合动作,并将联合动作送入联合动作映射模块中,得到联合动作的第一映射向量;基于第一映射向量,通过互信息神经估计网络模块计算当前的联合动作与状态转移向量之间的互信息,并采取梯度上升算法来更新联合动作映射模块的参数,以使联合动作映射与状态转移向量之间的互信息最大化,以使联合动作映射模块映射出的向量包括所有动作转移结果的信息;将联合动作送入更新后的联合动作映射模块中,得到联合动作的第二映射向量;基于第二映射向量,通过价值评估模块对联合动作进行价值评估,以供多个智能体根据价值评估模块的价值评估结果进行策略更新。
本发明提供的多智能体的价值评估方法,先对各智能体的动作进行拼接得到联合动作,并将联合动作送入联合动作映射模块中,通过联合动作映射模块映射出针对该联合动作的第一映射向量,可以理解的,联合动作映射模块中包含联合动作映射函数,联合动作映射函数中包括联合向量与联合动作的映射关系,这样系统在获取到多个智能体的联合动作之后,可以通过联合动作映射函数计算出对应该联合动作的第一映射向量,获取到之后,并将第一映射向量送入互信息神经估计网络模块中,通过互信息神经估计网络模块计算当前的联合动作与状态转移向量之间的互信息,并采取梯度上升算法更新联合动作映射函数的参数,以使联合动作映射与状态转移向量之间的互信息最大化,由于联合动作映射函数是在联合动作映射与状态转移向量之间的互信息最大化的基础上更新出来的,这样就使得通过联合动作映射函数映射出的向量中蕴含丰富的状态转移信息,这样在获取到联合动作之后,可以使得联合动作映射模块映射出的向量包括所有动作转移结果的信息,使用更新后的联合动作映射模块对联合动作进行映射,将映射结果送入价值评估模块中进行价值估计,用于指导各智能体的策略更新。其中,价值评估模块也即根据每个智能体的策略来评估所有的智能体在未来能够获取的奖励的评估模块,也即价值评估模块包括一个神经网络驱动的动作价值函数Q,用于估计当前状态下动作u的价值(估计的未来收益),把状态s和联合动作映射u送入动作价值函数Q中后,输出价值估计的结果。联合动作与状态转移向量之间的互信息也即联合动作的变量与状态转移变量之间的关联程度,关联程度越大说明联合动作映射出的映射向量包含状态转移的信息量越多。状态转移向量也即在下一时刻,智能体能够进行哪些动作的转移,然后将这些可能发生的动作向量化,这样后期就可以通过互信息神经估计网络来使联合动作映射与状态转移向量之间的互信息最大化。本发明以互信息最大化的方法来更新联合动作映射模型中的映射函数,通过最大化互信息的一个下界,来使得联合动作映射与状态转移向量之间的互信息最大化,即使得联合动作映射的映射向量中蕴含丰富的状态转移信息,也即在通过价值评估模块进行价值评估之前,能够知道联合动作的各种结果信息,这样提前知道联合动作的结果又能够使得价值评估模块的评估结果更加准确。本发明能应用于各个场景中的多智能体系统,通过本发明能够显著的提高多智能体系统的学习效率、决策水平,并显著降低训练所需的计算开销。
在上述技术方案中,互信息神经估计网络模块通过如下公式计算当前的联合动作与状态转移向量之间的互信息:
;
其中T为由深度神经网络参数化的向量处理函数,b为批数据的大小,x为状态转移向量,为从边缘概率分布中采样的联合动作映射向量,也即是从映射空间随机采样出的联合动作映射向量,仅仅用于计算互信息,i为参数,z为联合动作映射向量,I为当前的联合动作与状态转移向量之间的互信息,log为对数函数。
在上述技术方案中,多个智能体根据价值评估模块的价值评估结果的进行策略更新的步骤包括:多个智能体根据价值评估模块的价值评估结果,通过策略梯度的方式对多个智能体的策略进行更新。
在该技术方案中,多个智能体根据价值评估模块的价值评估结果,通过策略梯度的方式对多个智能体的策略进行更新,这样多个智能体能够根据更新之后的策略进行动作,以获取最大的价值,进而提高多智能体系统的学习效率、决策水平。
在上述技术方案中,策略梯度的更新公式如下:
;
其中,πa为智能体a的策略,Aa(s,z)为反事实优势函数,Aa(s,z)=Q(s,z)-b(s,u-a),,z’为使用u’a代替原动作之后的联合动作映射,∇J为目标函数的梯度,a为智能体编号,∇θ为对参数θ求梯度,πa(u’aǀoa)为智能体a的策略,在观测oa下采取动作u’a的概率。
其中,对上述公式中各参数进一步解释如下,ua代表智能体a的动作,u=(u1,u2,...,ua,...)是联合动作,u-a=是去掉ua后的剩余的联合动作,也即u-a=(u1,u2,......),u'a是智能体a的另一个动作,u'a代替原动作之后的联合动作就是u1,u2,...,u’a,...)。
在上述技术方案中,在通过价值评估模块对联合动作进行价值评估的步骤之后,还包括:根据采集到的评估数据,更新价值评估模块;其中,评估数据包括联合动作在联合动作映射模块中映射后的第一映射向量、第二映射向量、状态转移向量和评估结果数据中的至少一种。
在该技术方案中,在通过价值评估模块对联合动作进行价值评估的步骤之后,还可以根据采集到的评估数据,更新价值评估模块,这样可以进一步提高多智能体算法的学习效率。
进一步,可使用梯度下降算法更新价值评估模块。
进一步,梯度下降算法的梯度下降的目标函数如下:
L=(yt (λ)-Q(st,zt))2;
其中,s表示状态,z表示联合动作映射,Q表示由神经网络参数化的价值函数,L表示损失函数,y表示更新目标,yt (λ)表示根据当前采集数据算出的真实价值,t表示时刻。
在该公式中,由于yt (λ)是我们根据当前采集数据算出的真实状态动作价值,价值函数Q是价值评估模块评估出的价值,两者的差的平方永远为正数,在理想状态下估计的价值等于真实的价值,因此本申请可以通过梯度下降算法来更新Q的参数,也即随着损失函数L的梯度下降,就能让我们的估计值与真实值接近,估计得更加准确。
本发明第二方面提供了一种多智能体的价值评估装置,包括:拼接模块,用于将每一智能体的动作进行拼接得到联合动作,并将联合动作送入联合动作映射模块中;联合动作映射模块,用于将拼接模块输入的联合动作映射出第一映射向量;互信息神经估计网络模块用于基于第一映射向量,计算当前的联合动作与状态转移向量之间的互信息,并采取梯度上升算法来更新联合动作映射模块的参数,以使联合动作映射与状态转移向量之间的互信息最大化,以使联合动作映射模块映射出的向量包括所有动作转移结果的信息;价值评估模块,能够基于更新后的联合动作映射模块映射出的第二映射向量,对联合动作进行价值评估,以供多个智能体根据价值评估模块的价值评估结果进行策略更新。
本发明第三方面提供了一种多智能体的价值评估装置,包括储存器和处理器,储存器上存储有计算机程序或指令,处理器执行程序或指令时实现如本申请第一方面任一项技术方案提供的多智能体的价值评估方法。
本发明第四方面提供了一种可读储存介质,可读储存介质上存储有程序或指令,处理器执行程序或指令时实现如本申请第一方面任一项技术方案提供的多智能体的价值评估方法。
根据本发明的附加方面和优点将在下面的描述部分中变得明显,或通过根据本发明的实践了解到。
附图说明
根据本发明的实施例的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1示出了本发明的实施例提供的多智能体的价值评估方法的流程示意图;
图2示出了本发明的另一实施例提供的多智能体的价值评估方法的流程示意图;
图3示出了本发明的实施例提供的多智能体的价值评估装置的示意性方框图;
图4示出了本发明的实施例提供的多智能体的价值评估装置的结构示意图;
图5示出了本发明的另一实施例提供的多智能体的价值评估装置的示意性方框图。
其中,图3至图5中的零部件名称与标号的对应关系如下:
1多智能体的价值评估装置,11拼接模块,12联合动作映射模块,13互信息神经估计网络模块,132深度神经网络参数化的向量处理函数建立模块,14价值评估模块,15储存器,16处理器,171人工神经网络,172门控循环单元,173多层感知机,174类和模块。
具体实施方式
为了能够更清楚地理解根据本发明的实施例的上述方面、特征和优点,下面结合附图和具体实施方式对根据本发明的实施例进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解根据本发明的实施例,但是,根据本发明的实施例还可以采用其他不同于在此描述的其他方式来实施,因此,根据本发明的实施例的保护范围并不受下面公开的具体实施例的限制。
如图1所示,本发明的一个实施例提供的多智能体的价值评估方法包括如下步骤:
S102:将每一智能体的动作进行拼接得到联合动作,并将联合动作送入联合动作映射模块中,得到联合动作的第一映射向量;
S104:基于第一映射向量,通过互信息神经估计网络模块计算当前的联合动作与状态转移向量之间的互信息,并采取梯度上升算法来更新联合动作映射模块的参数,以使联合动作映射与状态转移向量之间的互信息最大化,以使联合动作映射模块映射出的向量包括所有动作转移结果的信息;
S106:将联合动作送入更新后的联合动作映射模块中,得到联合动作的第二映射向量;
S108:基于第二映射向量,通过价值评估模块对联合动作进行价值评估,以供多个智能体根据价值评估模块的价值评估结果进行策略更新。
本发明提供的多智能体的价值评估方法,先对各智能体的动作进行拼接得到联合动作,并将联合动作送入联合动作映射模块中,通过联合动作映射模块映射出针对该联合动作的第一映射向量,可以理解的,联合动作映射模块中包含联合动作映射函数,联合动作映射函数中包括联合向量与联合动作的映射关系,这样系统在获取到多个智能体的联合动作之后,可以通过联合动作映射函数计算出对应该联合动作的第一映射向量,获取到之后,并将第一映射向量送入互信息神经估计网络模块中,通过互信息神经估计网络模块计算当前的联合动作与状态转移向量之间的互信息,并采取梯度上升算法更新联合动作映射函数的参数,以使联合动作映射与状态转移向量之间的互信息最大化,由于联合动作映射函数是在联合动作映射与状态转移向量之间的互信息最大化的基础上更新出来的,这样就使得通过联合动作映射函数映射出的向量中蕴含丰富的状态转移信息,这样在获取到联合动作之后,可以使得联合动作映射模块映射出的向量包括所有动作转移结果的信息,使用更新后的联合动作映射模块对联合动作进行映射,将映射结果送入价值评估模块中进行价值估计,用于指导各智能体的策略更新。其中,价值评估模块也即根据每个智能体的策略来评估所有的智能体在未来能够获取的奖励的评估模块。联合动作与状态转移向量之间的互信息也即联合动作的变量与状态转移变量之间的关联程度,关联程度越大说明联合动作映射出的映射向量包含状态转移的信息量越多。状态转移向量也即在下一时刻,智能体能够进行哪些动作的转移,然后将这些可能发生的动作向量化,这样后期就可以通过互信息神经估计网络来使联合动作映射与状态转移向量之间的互信息最大化。本发明以互信息最大化的方法来更新联合动作映射模型中的映射函数,通过最大化互信息的一个下界,来使得联合动作映射与状态转移向量之间的互信息最大化,即使得联合动作映射的映射向量中蕴含丰富的状态转移信息,也即在通过价值评估模块进行价值评估之前,能够知道联合动作的各种结果信息,这样提前知道联合动作的结果又能够使得价值评估模块的评估结果更加准确。本发明能应用于各个场景中的多智能体系统,通过本发明能够显著的提高多智能体系统的学习效率、决策水平,并显著降低训练所需的计算开销。
在上述实施例中,互信息神经估计网络模块通过如下公式计算当前的联合动作与状态转移向量之间的互信息:
;
其中T为由深度神经网络参数化的向量处理函数,b为批数据的大小,x为状态转移向量,为从边缘概率分布中采样的联合动作映射向量,也即是从映射空间随机采样出的联合动作映射向量,仅仅用于计算互信息,i为智能体的个数,为联合动作映射向量,I为当前的联合动作与状态转移向量之间的互信息,log为对数函数,e是自然对数。
在上述实施例中,多个智能体根据价值评估模块的价值评估结果,通过策略梯度的方式对多个智能体的策略进行更新,这样多个智能体能够根据更新之后的策略进行动作,以获取最大的价值,进而提高多智能体系统的学习效率、决策水平。
策略梯度的更新公式如下:
;
其中,πa为智能体a的策略,Aa(s,z)为反事实优势函数,Aa(s,z)=Q(s,z)-b(s,u-a),,z’为使用u’a代替原动作之后的联合动作映射,∇J为目标函数的梯度,a为智能体编号,∇θ为对参数θ求梯度,πa(u’aǀoa)为智能体a的策略,在观测oa下采取动作u’a的概率。
其中,对上述公式中各参数进一步解释如下,ua代表智能体a的动作,u是联合动作,当智能体a进行动作ua时,联合动作u=(u1,u2,...,ua,...),u-a=是去掉ua后的剩余的联合动作,也即u-a=(u1,u2,......),u'a是智能体a的另一个动作,u'a代替原动作ua之后的联合动作就是u1,u2,...,u’a,...)。
如图2所示,为本发明的另一个实施例提供的多智能体的价值评估方法与上述实施例的区别在于还包括对价值评估模块进行更新的步骤,具体而言,本实施例的多智能体的价值评估方法包括如下步骤:
S202:将每一智能体的动作进行拼接得到联合动作,并将联合动作送入联合动作映射模块中,得到联合动作的第一映射向量;
S204:基于第一映射向量,通过互信息神经估计网络模块计算当前的联合动作与状态转移向量之间的互信息,并采取梯度上升算法来更新联合动作映射模块的参数,以使联合动作映射与状态转移向量之间的互信息最大化,以使联合动作映射模块映射出的向量包括所有动作转移结果的信息;
S206:将联合动作送入更新后的联合动作映射模块中,得到联合动作的第二映射向量;
S208:基于第二映射向量,通过价值评估模块对联合动作进行价值评估,以供多个智能体根据价值评估模块的价值评估结果进行策略更新;
S210:根据采集到的评估数据,更新价值评估模块;其中,评估数据包括联合动作在联合动作映射模块中映射后的第一映射向量、第二映射向量、状态转移向量和评估结果数据中的至少一种。
本实施例的多智能体的价值评估方法,具备上述实施例提供的多智能体的价值评估方法的全部有益效果之外,本实施例的多智能体的价值评估方法在通过价值评估模块对联合动作进行价值评估的步骤之后,还能够根据采集到的评估数据,更新价值评估模块;其中,评估数据包括联合动作在联合动作映射模块中映射后的第一映射向量、第二映射向量、状态转移向量和评估结果数据中的至少一种。通过在通过价值评估模块对联合动作进行价值评估的步骤之后,还可以根据采集到的评估数据,使用梯度下降算法更新价值评估模块,这样可以进一步提高多智能体算法的学习效率。
进一步,梯度下降算法的梯度下降的目标函数如下:
L=(yt (λ)-Q(st,zt))2;
其中,s表示状态,z表示联合动作映射,Q表示由神经网络参数化的价值函数,L表示损失函数,y表示更新目标,yt (λ)表示根据当前采集数据算出的真实价值。
在该公式中,由于yt (λ)是我们根据当前采集数据算出的真实状态动作价值,价值函数Q是价值评估模块评估出的价值,两者的差的平方永远为正数,在理想状态下估计的价值等于真实的价值,因此本申请可以通过梯度下降算法来更新Q的参数,也即随着损失函数L的梯度下降,就能让我们的估计值与真实值接近,估计得更加准确。
如图3所示,本发明第二方面的实施例提供了一种多智能体的价值评估装置包括拼接模块11、联合动作映射模块12、互信息神经估计网络模块13和价值评估模块14,拼接模块11用于将每一智能体的动作进行拼接得到联合动作,并将联合动作送入联合动作映射模块中,联合动作映射模块12用于将拼接模块输入的联合动作映射出第一映射向量,互信息神经估计网络模块13用于基于第一映射向量,计算当前的联合动作与状态转移向量之间的互信息,并采取梯度上升算法来更新联合动作映射模块的参数,以使联合动作映射与状态转移向量之间的互信息最大化,以使联合动作映射模块映射出的向量包括所有动作转移结果的信息,价值评估模块14能够基于更新后的联合动作映射模块映射出的第二映射向量,对联合动作进行价值评估,以供多个智能体根据价值评估模块的价值评估结果进行策略更新。
具体而言,如图4所示,多个智能体能够基于当前时刻t的观测和上一时刻的动作,将当前时刻t的每一个智能体的动输入至联合动作映射模块12,联合动作映射模块12能够映射出联合动作的第一映射向量,同时能够将当前时刻联合动作映射出的第一映射向量、当前时刻的状态和下一时刻的状态输送至互信息神经估计网络模块13,同时能够将当前时刻联合动作的第一映射向量、上一时刻的联合动作的第一映射向量、当前时刻的状态、当前时刻的观测和智能体的个数输送至互价值评估模块14,互信息神经估计网络模块13能够基于联合动作映射模块12的输入计算当前的联合动作与状态转移向量之间的互信息,并采取梯度上升算法来更新联合动作映射模块12的参数,以使联合动作映射模块12与状态转移向量之间的互信息最大化,价值评估模块14能够基于联合动作映射模块12的输入进行价值的评估。进一步,互信息神经估计网络模块13的损失函数Lm1与价值评估模块14的损失函数Lcritic相加可以得到一个总的损失函数L,然后系统可以根据总的损失函数L来优化各项参数,以提高模型的各项性能。进一步,在计算互信息神经估计网络模块13的损失函数Lm1的过程中,请参考深度神经网络参数化的向量处理函数建立模块132,在深度神经网络参数化的向量处理函数建立模块132中,分别将状态转移向量和联合动作映射向量输送至神经网络上,然后通过状态处理函数处理状态转移向量,通过动作处理函数处理联合动作的映射向量,然后将状态处理函数和动作处理函数相乘得到深度神经网络参数化的向量处理函数T(xi
,zi),然后深度神经网络参数化的向量处理函数T(xi
,zi)一方面基于状态转移向量和联合动作映射向量的输入,经过类和模块174拟合成L函数,另一方面基于状态转移向量和从边缘概率分布中采样的联合动作映射向量的输入,依次经过语言函数、类和模块174和对数函数拟合成R函数,然后拟合L函数和R函数得到互信息神经估计网络模块13的损失函数Lm1。
进一步,智能体输出当前时刻的动作的具体过程为,基于当前时刻t的观测和上一时刻的动作,依次经过人工神经网络171、门控循环单元172和人工神经网络171得到当前时刻的动作。
进一步,价值评估模块14在进行价值评估过程具体为,已当前时刻状态、当前时刻观测、上一时刻联合动作映射向量为输入,先经过多层感知机173,然后通过价值评估函数通过coma算法(counterfactual multi-agent policy gradients,)进行价值评估。
另外,针对附图4中,所有涉及到的字母的含义解释如下:x为状态转移向量,i为参数,z为联合动作映射向量,T(xi
,zi)为深度神经网络参数化的向量处理函数,u为动作,ut n为n智能体在t时刻的动作,o为观测,ot n为n智能体在t时刻的观测,t为当前时刻,t-1为上一时刻,t+1为下一时刻,s为状态,Lm1为互信息神经估计网络模块的损失函数,Lcritic为价值评估模块的损失函数,L为总函数,a为智能体编号,A为估计价值,At a为a智能体在t时刻的估计价值,Q为由神经网络参数化的价值函数,f为函数,πt a为智能体a在t时刻的策略。
如图5所示,本发明第三方面提供了一种多智能体的价值评估装置包括储存器15和处理器16,储存器15上存储有计算机程序或指令,处理器16执行程序或指令时实现如本申请第一方面任一项技术方案提供的多智能体的价值评估方法。
通过本方法的多智能体的价值评估装置进行价值评估然后对多智能体进行训练与现有的多智能体策略梯度算法模型的训练结果相比,本发明的方法能够显著的提高多智能体系统的学习效率和决策水平。
本发明第四方面提供了一种可读储存介质,可读储存介质上存储有程序或指令,处理器执行程序或指令时实现如本申请第一方面任一项技术方案提供的多智能体的价值评估方法。
在根据本发明的实施例中,术语“第一”、“第二”、“第三”仅用于描述的方面,而不能理解为指示或暗示相对重要性;术语“多个”则指两个或两个以上,除非另有明确的限定。术语“安装”、“相连”、“连接”、“固定”等术语均应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;“相连”可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在根据本发明的实施例中的具体含义。
此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本发明的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。
尽管已经采用特定结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
以上仅为根据本发明的实施例的优选实施例而已,并不用于限制根据本发明的实施例,对于本领域的技术人员来说,根据本发明的实施例可以有各种更改和变化。凡在根据本发明的实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在根据本发明的实施例的保护范围之内。
Claims (9)
1.一种多智能体的价值评估方法,其特征在于,包括:
将每一所述智能体的动作进行拼接得到联合动作,并将所述联合动作送入联合动作映射模块中,得到所述联合动作的第一映射向量;
基于所述第一映射向量,通过互信息神经估计网络模块计算当前的联合动作与状态转移向量之间的互信息,并采取梯度上升算法来更新所述联合动作映射模块的参数,以使所述联合动作映射与状态转移向量之间的互信息最大化,以使所述联合动作映射模块映射出的向量包括所有动作转移结果的信息;
将所述联合动作送入更新后的所述联合动作映射模块中,得到联合动作的第二映射向量;
基于所述第二映射向量,通过价值评估模块对所述联合动作进行价值评估,以供多个智能体根据所述价值评估模块的价值评估结果进行策略更新;
所述互信息神经估计网络模块通过如下公式计算当前的联合动作与状态转移向量之间的互信息:
;
其中,T为由深度神经网络参数化的向量处理函数,b为批数据的大小,x为状态转移向量,为从边缘概率分布中采样的联合动作映射向量,i为求和公式的计算参数,0≤i≤b,z为联合动作映射,I为当前的联合动作与状态转移向量之间的互信息,log为对数函数,e是自然对数。
2.根据权利要求1所述的多智能体的价值评估方法,其特征在于,所述多个智能体根据所述价值评估模块的价值评估结果进行策略更新包括:
所述多个智能体根据所述价值评估模块的价值评估结果,通过策略梯度的方式对多个智能体的策略进行更新。
3.根据权利要求2所述的多智能体的价值评估方法,其特征在于,所述策略梯度的更新公式如下:
;
其中,πa为智能体a的策略,Aa(s,z)为反事实优势函数,Aa(s,z)=Q(s,z)-b(s,u-a),b(s,u-a),Q表示由神经网络参数化的价值函数,s表示状态,z表示联合动作映射,z’为使用u’a代替原动作ua之后的联合动作映射,∇J为目标函数的梯度,a为智能体编号,∇θ为对参数求梯度,πa(u’aǀoa)为智能体a的策略在观测oa下采取动作u’a的概率,ua代表智能体a的动作,u是联合动作,u-a是从联合动作u中去掉ua后剩余的联合动作,u=(u1,u2,...,ua,...),u-a=(u1,u2,......),u'a是智能体a的另一个动作。
4.根据权利要求1至3中任一项所述的多智能体的价值评估方法,其特征在于,在所述通过价值评估模块对所述联合动作进行价值评估之后,还包括:
根据采集到的评估数据,更新所述价值评估模块;
其中,所述评估数据包括联合动作在联合动作映射模块中映射后的第一映射向量、第二映射向量、状态转移向量和评估结果数据中的至少一种。
5.根据权利要求4所述的多智能体的价值评估方法,其特征在于,所述根据采集到的评估数据,更新所述价值评估模块包括:
根据采集到的评估数据,使用梯度下降算法更新所述价值评估模块。
6.根据权利要求5所述的多智能体的价值评估方法,其特征在于,所述梯度下降算法的梯度下降的目标函数如下:
L=(yt (λ)-Q(st,zt))2;
其中,s表示状态,z表示联合动作映射向量,Q表示由神经网络参数化的价值函数,L表示损失函数,y表示更新目标,yt (λ)表示根据当前采集数据算出的真实价值,t表示时刻。
7.一种多智能体的价值评估装置,其特征在于,包括:
拼接模块,用于将每一所述智能体的动作进行拼接得到联合动作,并将所述联合动作送入联合动作映射模块中;
联合动作映射模块,用于将所述拼接模块输入的所述联合动作映射出第一映射向量;
互信息神经估计网络模块,用于基于所述第一映射向量,计算当前的联合动作与状态转移向量之间的互信息;基于所述互信息采取梯度上升算法来更新所述联合动作映射模块的参数,以使所述联合动作映射与状态转移向量之间的互信息最大化,以使所述联合动作映射模块映射出的向量包括所有动作转移结果的信息;
价值评估模块,能够基于更新后的所述联合动作映射模块映射出的第二映射向量,对所述联合动作进行价值评估,以供多个智能体根据所述价值评估模块的价值评估结果进行策略更新;
所述互信息神经估计网络模块通过如下公式计算当前的联合动作与状态转移向量之间的互信息:
;
其中,T为由深度神经网络参数化的向量处理函数,b为批数据的大小,x为状态转移向量,为从边缘概率分布中采样的联合动作映射向量,i为求和公式的计算参数,0≤i≤b,z为联合动作映射,I为当前的联合动作与状态转移向量之间的互信息,log为对数函数,e是自然对数。
8.一种多智能体的价值评估装置,其特征在于,包括:
储存器和处理器,所述储存器上存储有计算机程序或指令,所述处理器执行所述程序或指令时实现如权利要求1至6中任一项所述的多智能体的价值评估方法。
9.一种可读储存介质,其特征在于,所述可读储存介质上存储有程序或指令,处理器执行所述程序或指令时实现如权利要求1至6中任一项所述的多智能体的价值评估方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211631819.9A CN115618754B (zh) | 2022-12-19 | 2022-12-19 | 多智能体的价值评估方法、装置和可读储存介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211631819.9A CN115618754B (zh) | 2022-12-19 | 2022-12-19 | 多智能体的价值评估方法、装置和可读储存介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115618754A CN115618754A (zh) | 2023-01-17 |
CN115618754B true CN115618754B (zh) | 2023-04-07 |
Family
ID=84880693
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211631819.9A Active CN115618754B (zh) | 2022-12-19 | 2022-12-19 | 多智能体的价值评估方法、装置和可读储存介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115618754B (zh) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2385954A (en) * | 2002-02-04 | 2003-09-03 | Magenta Corp Ltd | Managing a Virtual Environment |
CN109784545A (zh) * | 2018-12-24 | 2019-05-21 | 深圳供电局有限公司 | 一种基于多智能体的分布式能源枢纽的调度方法 |
CN112836805B (zh) * | 2021-02-25 | 2024-05-10 | 季华实验室 | Krfpv算法、执行装置、电子设备、存储介质以及神经网络 |
CN115018017B (zh) * | 2022-08-03 | 2022-10-28 | 中国科学院自动化研究所 | 基于集成学习的多智能体信用分配方法、系统、设备 |
-
2022
- 2022-12-19 CN CN202211631819.9A patent/CN115618754B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN115618754A (zh) | 2023-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Improved techniques for training adaptive deep networks | |
CN111241952B (zh) | 一种离散制造场景中的强化学习奖励自学习方法 | |
CN110929848B (zh) | 基于多挑战感知学习模型的训练、跟踪方法 | |
CN111242157A (zh) | 联合深度注意力特征和条件对抗的无监督域自适应方法 | |
CN111079780A (zh) | 空间图卷积网络的训练方法、电子设备及存储介质 | |
JP7315007B2 (ja) | 学習装置、学習方法および学習プログラム | |
Jiang et al. | Monotonic robust policy optimization with model discrepancy | |
CN112784920A (zh) | 云边端协同的旋转部件对抗域自适应故障诊断方法 | |
CN116244647A (zh) | 一种无人机集群的运行状态估计方法 | |
CN115618754B (zh) | 多智能体的价值评估方法、装置和可读储存介质 | |
CN111630530B (zh) | 数据处理系统、数据处理方法和计算机可读存储介质 | |
CN112084936B (zh) | 一种人脸图像预处理方法、装置、设备及存储介质 | |
CN115630566B (zh) | 一种基于深度学习和动力约束的资料同化方法和系统 | |
CN115829717B (zh) | 风控决策规则优化方法、系统、终端及存储介质 | |
CN116543259A (zh) | 一种深度分类网络噪声标签建模与纠正方法、系统及存储介质 | |
CN110544124A (zh) | 一种基于模糊神经网络的废旧手机定价方法 | |
CN115908522A (zh) | 基于终身学习的单目深度估计方法及相关设备 | |
CN115842668A (zh) | 一种信息传播源的确定方法、系统、电子设备及存储介质 | |
CN115019102A (zh) | 一种对抗样本生成模型的构建方法及应用 | |
CN114755926A (zh) | 一种基于强化学习的多智能体系统最优一致性的控制方法 | |
CN114137967A (zh) | 基于多网络联合学习的驾驶行为决策方法 | |
CN113191984A (zh) | 基于深度学习的运动模糊图像联合复原与分类方法和系统 | |
Weinman et al. | Efficiently learning random fields for stereo vision with sparse message passing | |
CN112184846A (zh) | 图像生成方法、装置、计算机设备和可读存储介质 | |
CN111950691A (zh) | 一种基于潜在动作表示空间的强化学习策略学习方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |