CN115018017B - 基于集成学习的多智能体信用分配方法、系统、设备 - Google Patents
基于集成学习的多智能体信用分配方法、系统、设备 Download PDFInfo
- Publication number
- CN115018017B CN115018017B CN202210924862.8A CN202210924862A CN115018017B CN 115018017 B CN115018017 B CN 115018017B CN 202210924862 A CN202210924862 A CN 202210924862A CN 115018017 B CN115018017 B CN 115018017B
- Authority
- CN
- China
- Prior art keywords
- network
- agent
- credit
- information
- credit distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 82
- 230000009471 action Effects 0.000 claims abstract description 68
- 230000006870 function Effects 0.000 claims description 49
- 238000012549 training Methods 0.000 claims description 21
- 239000011159 matrix material Substances 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 15
- 239000000126 substance Substances 0.000 claims description 14
- 101100074333 Pisum sativum LECA gene Proteins 0.000 claims description 8
- 230000003044 adaptive effect Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 4
- 230000014509 gene expression Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 230000002787 reinforcement Effects 0.000 abstract description 7
- 239000003795 chemical substances by application Substances 0.000 description 128
- 238000010586 diagram Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 238000005457 optimization Methods 0.000 description 4
- 101150025548 MDM34 gene Proteins 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 210000003734 kidney Anatomy 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/80—Special adaptations for executing a specific game genre or game mode
- A63F13/843—Special adaptations for executing a specific game genre or game mode involving concurrently two or more players on the same game device, e.g. requiring the use of a plurality of controllers or of a specific view of game data for each player
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于强化学习、多智能体领域,具体涉及一种基于集成学习的多智能体信用分配方法、系统、设备,旨在解决解决现有技术只关注局部状态空间,对全局状态信息的利用不充分,从而导致智能体无法在博弈环境中取得最优动作,造成多智能体协调能力差的问题。本方法包括:分别获取博弈双方每一个智能体的动作信息和历史观测信息,作为输入信息;将输入信息分别输入各智能体对应的智能体网络,得到Q值;各智能体根据Q值,得到e‑greedy策略,进而在设定的博弈场景中进行探索。本发明通过平衡多样性和准确性来充分利用全局状态信息,实现有效的集成信用分配,进而实现了智能体在博弈环境中取得最优动作进行探索,提升多智能体协调能力。
Description
技术领域
本发明属于强化学习、多智能体领域,具体涉及一种基于集成学习的多智能体信用分配方法、系统、设备。
背景技术
许多现实生活中的系统都可以被建模成多智能体系统(Multi-agent System,MAS),比如传感器网络,自动驾驶车辆,智能仓库系统等。强化学习为解决这些问题提供了框架和训练范式,但是传统的单智能体强化学习方法无法在非平稳的环境中进行学习,也无法学习智能体之间的通信,完全分布式执行的算法无法取得令人满意的效果。
为了解决上述问题,近年来多智能体深度强化学习(Multi-agent DeepReinforcement Learning, MADRL)取得了明显进展。多智能体深度强化学习将深度强化学习的思想用于多智能体系统中,是提升多智能体系统合作能力的有效方法。代表性成果为中心化训练分布式执行(Centralized Training with Decentralized Execution, CTDE)框架,基于CTDE框架的算法假设在训练阶段智能体可以获得全局信息,只有在测试阶段才会满足部分可观测的限制。CTDE框架最重要的问题之一就是信用分配问题,信用分配是指把环境返回的全局奖励分配给每个智能体的过程。通过信用分配可以更准确地衡量某个智能体的动作对环境的贡献, 从而更好地评价该智能体,进而实现更好的合作。基于信用分配的多智能体深度强化学习算法已经在诸多环境中得到了广泛地应用。VDN算法把联合动作-价值函数分解为每个智能体动作-价值函数的简单加和。QMIX算法拓展了VDN算法,把线性加和拓展为在单调性约束下的加权求和,取得了比VDN算法更好的性能。QTRAN算法对前述算法进行了改进,取消了结构性限制,把多智能体学习问题建模为线性约束下的优化问题,只要能保证每个智能体的最优动作和联合最优动作是相同的,就可以进行分解。
在CTDE框架下,如何在训练时尽可能充分地利用全局状态信息以实现合理的信用分配是一个关键问题。然而上述基于信用分配的方法使用的单个信用分配网络往往只关注到了局部状态空间,对全局状态信息的利用不充分,从而导致算法无法取得最佳性能。
针对上述问题,本文提出了一种基于集成学习的多智能体信用分配算法。集成学习来自机器学习,通过构建并结合多个“好而不同”的学习器来完成学习任务,从而获得比单个学习器更优越的性能。基于此,本发明通过构建多重信用分配网络让不同的信用分配子网络关注到全局状态空间的不同子空间,进而学到“好而不同”的策略,同时通过集成信用分配网络整合这些策略从而充分利用全局状态信息,得到更好的信用分配策略。因此,本发明从多样性和准确性两个角度设计算法模块,保证信用分配子网络的多样性,不同的信用分配子网络能够学习到不同的策略,同时保证集成信用分配网络的准确性,通过平衡不同信用分配子网络的策略来得到更好的最终策略,从而实现集成信用分配。
发明内容
为了解决现有技术中的上述问题,即为了解决现有技术只关注局部状态空间,对全局状态信息的利用不充分,从而导致智能体无法在博弈环境中取得最优动作,造成多智能体协调能力差的问题,本发明第一方面,提出了一种基于集成学习的多智能体信用分配方法,该方法包括:
S100,分别获取博弈双方每一个智能体的动作信息和历史观测信息,作为输入信息;
S200,将所述输入信息分别输入各智能体对应的智能体网络,得到Q值;各智能体根据所述Q值,得到e-greedy策略,进而在设定的博弈场景中进行探索;所述Q值为在当前状态下选取某个动作获得的奖励;
所述智能体网络基于依次连接的多层感知机MLP、GRU网络、多层感知机MLP构建;所述智能体网络的训练方法为:
A100,各智能体分别获取博弈双方所有智能体的动作信息和历史观测信息,并输入对应的智能体网络,得到Q值;
A400,循环A100-A300,直至得到训练好的智能体网络;
结合全局状态信息,通预构建的高斯分布学习网络获取所述多重信用分配网络对应的参数矩阵;所述高斯分布学习网络基于一层全连接神经网络构建;
在一些优选的实施方式中,通过预构建的自适应权重学习网络获取各信用分配子网络输出值对应的权重,其方法为:
在一些优选的实施方式中,所述预构建的损失函数为:
所述多样性正则化约束损失函数,其构建过程为:
获取所述多重信用分配网络中各信用分配子网络的输出;为一个大小的
矩阵,即,为同一参数不同表述方式,是从经验回放池中采样得到的一个批
次样本的数量,表示需要处理多少局对战的数据,是每组数据的长度,表示每局对战经历
了多少个时间步;
采用不变信息聚类方法对各信用分配子网络的输出进行聚类:
基于聚类结果,计算两个信用分配子网络之间的互信息:
对信用分配子网络之间的互信息进行求和,得到多个信用分配子网络之间的互信息,并求负,进而得到多样性正则化约束损失函数:
在一些优选的实施方式中,所述时序差分损失函数在计算损失值时,通过LECA算法进行优化:
本发明的第二方面,提出了一种基于集成学习的多智能体信用分配系统,包括:信息获取模块、Q值获取模块;
所述信息获取模块,配置为分别获取博弈双方每一个智能体的动作信息和历史观测信息,作为输入信息;
所述Q值获取模块,将所述输入信息分别输入各智能体对应的智能体网络,得到Q值;各智能体根据所述Q值,得到e-greedy策略,进而在设定的博弈场景中进行探索;所述Q值为在当前状态下选取某个动作获得的奖励;
所述智能体网络基于依次连接的多层感知机MLP、GRU网络、多层感知机MLP构建;所述智能体网络的训练方法为:
A100,各智能体分别获取博弈双方所有智能体的动作信息和历史观测信息,并输入对应的智能体网络,得到Q值;
A400,循环A100-A300,直至得到训练好的智能体网络;
本发明的第三方面,提出了一种电子设备,包括:至少一个处理器;以及与至少一个所述处理器通信连接的存储器;其中,所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现上述的基于集成学习的多智能体信用分配方法。
本发明的第四方面,提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于被所述计算机执行以实现上述的基于集成学习的多智能体信用分配方法。
本发明的有益效果:
本发明通过平衡多样性和准确性来充分利用全局状态信息,实现有效的集成信用分配,进而实现了智能体在博弈环境中取得最优动作进行探索,提升多智能体协调能力。
首先, 为了保证信用分配子网络的多样性,本发明引入可学习的高斯噪声网络对网络参数进行建模,同时,为了确保不同信用分配子网络能关注到全局状态空间中的不同子空间,进而学到“好而不同”的网络,本发明使用基于不变信息聚类(InvariantInformation Clustering, IIC)的正则项对信用分配子网络的输出进行约束,从而使得信用分配子网络能够学到有效且不同的策略。
其次,本发明通过集成学习把上述信用分配子网络加权组合在一起,自适应地学习权重并同时利用时序差分误差来保证集成信用分配网络的准确性。进而通过平衡多样性和准确性来充分利用全局状态信息,实现有效的集成信用分配,保证智能体在博弈环境中取得最优动作进行探索,增强多智能体在合作任务上的能力。
附图说明
通过阅读参照以下附图所做的对非限制性实施例所做的详细描述,本申请的其他特征、目的和优点将会变得更明显。
图1是本发明一种实施例的基于集成学习的多智能体信用分配方法的流程示意图;
图2是本发明一种实施例的基于集成学习的多智能体信用分配系统的框架示意图;
图3是本发明一种实施例的智能体网络训练过程的示意图;
图4是本发明一种实施例的本发明方法与其他方法的性能对比示意图;
图5是本发明一种实施例的适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明的基于集成学习的多智能体信用分配方法,如图1所示,包括以下步骤:
S100,分别获取博弈双方每一个智能体的动作信息和历史观测信息,作为输入信息;
S200,将所述输入信息分别输入各智能体对应的智能体网络,得到Q值;各智能体根据所述Q值,得到e-greedy策略,进而在设定的博弈场景中进行探索;所述Q值为在当前状态下选取某个动作获得的奖励;
所述智能体网络基于依次连接的多层感知机MLP、GRU网络、多层感知机MLP构建;所述智能体网络的训练方法为:
A100,各智能体分别获取博弈双方所有智能体的动作信息和历史观测信息,并输入对应的智能体网络,得到Q值;
A400,循环A100-A300,直至得到训练好的智能体网络;
为了更清晰地对本发明基于集成学习的多智能体信用分配方法进行说明,下面结合附图对本发明方法一种实施例中各步骤进行展开详述。
本发明公开了一种基于集成学习的多智能体信用分配方法。该方法通过构建多重信用分配网络让不同的信用分配子网络关注到全局状态空间的不同子空间,进而学到“好而不同”的信用分配子网络,同时通过集成信用分配网络整合这些策略从而充分利用全局状态信息,得到更好的信用分配策略。该方法揭示了之前方法所采用的——信用分配——这一机制的局限性,并通过提出——基于集成学习的多智能体信用分配——这一机制来解决之前方法所存在的问题。该方法包括以下步骤:构建多个信用分配网络作为多重信用分配网络的子网络,在QMIX算法信用分配网络的基础上,将原有的从线性网络中学到的权重矩阵和偏置矩阵替换为了从对应的噪声分布中采样得到的参数矩阵,增大了网络在学习初期的随机性,使得算法可以学习到“好而不同”的策略;通过使用集成学习对信用分配子网络进行投票,从而得到具有准确性的输出;将多样性正则化约束和时序差分损失函数相加作为最终的优化目标,使用中心化训练分布式执行框架进行端到端训练以优化上述目标。本发明能应用于各个场景中的多智能体合作任务,通过本发明能够显著的提高算法在多智能体合作任务上的性能。具体如下:
在下述实施例中,先对智能体网络的训练过程进行详述,再对通过一种基于集成学习的多智能体信用分配方法获取Q值的过程进行详述。
1、智能体网络的训练过程
A100,各智能体分别获取博弈双方所有智能体的动作信息和历史观测信息,并输入对应的智能体网络,得到Q值;
在本实施例中,先基于K个信用分配子网络构建多重信用分配网络的子网络,K表示正整数,在本发明中优选设置为3。信用分配子网络基于输入层、隐含层、输出层构建;如图3所示。
将各智能体网络输出的Q值、全局状态信息(t时刻的全局状态信息表示为,如
图3所示)输入预构建的多重信用分配网络,得到多个;其中,在计算多个时,本发明在QMIX算法信用分配网络的基础上,将原有的从线性网络中学到的
权重矩阵和偏置矩阵替换为了从对应的噪声分布中采样得到的参数矩阵,增大了网络在学
习初期的随机性,从而可以探索到更为多样的策略。噪声分布是一个可对参数进行学习的
多维高斯分布,我们使用可训练的神经网络(即高斯分布学习网络,基于一层全
连接神经网络构建)来学习该多维高斯分布的参数:具体如公式(1)(2)所示:
即结合全局状态信息,通预构建的高斯分布学习网络获取所述多重信用分配网络对应的参数矩阵;所述高斯分布学习网络基于一层全连接神经网络构建;
将各智能体网络输出的Q值输入所述多重信用分配网络中的各信用分配子网络,
结合所述参数矩阵、ReLU激活函数以及所述全局状态信息,得到各信用分配子网络;具体为:采用一种超网络(hypernetwork),将状态作为输入,输出为混合网络
(即多重信用分配网络)的权值及偏移量。为了保证权值的非负性,采用一个高斯分布学习
网络以及绝对值数保证输出不为负数。对偏移量采用同样方式但没有非负性的约束,各智
能体网络输出的Q值通过两层网络以及ReLU激活函数得到非线性映射网络(具体处理过程
可参考QMIX算法中混合网络的处理Q值的过程)。
然后,基于每个信用分配子网络输出,计算多样性正则化约束损失:具体如下:
在多重信用分配网络的训练过程中,每个信用分配子网络的输出是一个大小
的矩阵,即,为同一参数不同表述方式;是从经验回放池中采样得到的一
个批次样本的数量,表示需要处理多少局对战的数据,是每组数据的长度,表示每局对战
经历了多少个时间步;由于每个信用分配子网络输出的数据是矩阵而不是概率分布,无法
使用传统的互信息来度量输出之间的相似程度,因此本发明使用不变信息聚类来计算不同
信用分配子网络输出的相似程度。由不变信息聚类的公式可得:
基于聚类结果,计算两个信用分配子网络之间的互信息:
对信用分配子网络之间的互信息进行求和,得到多个信用分配子网络之间的互信息:
本发明希望增加信用分配子网络之间的多样性,因此需要降低信用分配子网络之间的相关程度,也就是降低互信息,因此得到多样性正则化约束损失函数为:
本发明使用集成学习对信用分配子网络进行投票,从而得到具有准确性的输出。
集成信用分配网络的权重取决于输入的全局状态,本文使用一个可训练的神经网络(即自
适应权重学习网络,其基于输入层、隐含层、输出层构建)来学习该权重:
为保证训练过程中权重数据的稳定性,本发明对权重进行了归一化处理:
将上述权重分别与对应的信用分配子网络的输出相乘就可以得到集成信用分配网络的输出,也就相当于对信用分配子网络进行了“软投票”(Soft Voting):
在本实施例中,LECA算法通过端到端训练来优化如下时序差分损失函数从而保证集成信用分配网络的准确性:
其中,是集成信用分配网络和多重信用分配网络的网络参数,即
为多重信用分配网络与集成信用分配网络中的轨迹、动作、网络参数的表示,为目
标网络中的轨迹、动作、网络参数的表示,目标网络周期性地拷贝来进行更新。
总体优化目标是多样性和准确性的结合, 最终的优化目标如下:
A400,循环A100-A300,直至得到训练好的智能体网络。
在本实施例中,循环对智能体网络进行训练,直至得到训练好的智能体网络。
2、基于集成学习的多智能体信用分配方法
S100,分别获取博弈双方每一个智能体的动作信息和历史观测信息,作为输入信息;
S200,将所述输入信息分别输入各智能体对应的智能体网络,得到Q值;各智能体根据所述Q值,得到e-greedy策略,进而在设定的博弈场景中进行探索;所述Q值为在当前状态下选取某个动作获得的奖励。
在本实施例中,博弈双方每一个智能体获取本地的动作信息和历史观测信息,即动作-观测历史信息,输入各智能体对应的智能体网络,得到Q值;各智能体根据所述Q值,得到e-greedy策略,进而在设定的博弈场景中进行探索。即在分布式执行阶段, 智能体只能使用自己的策略网络并依赖本地的动作-观测历史信息进行决策, 不使用上述的信用分配网络。
基于集成学习的多智能体信用分配方法可应用于多人游戏中(例如星际争霸),实现多智能体博弈。
基于集成学习的多智能体信用分配方法应用于多人游戏中的实现方法为:
分别获取多人游戏中博弈双方每一个智能体的动作信息和历史观测信息,作为输入信息;所述历史观测信息包括地图信息、智能体炸弹威力、敌方智能体信息、存活时长;
将输入信息分别输入各智能体对应的智能体网络,得到Q值;各智能体根据所述Q值,得到e-greedy策略,进而在设定的多人游戏博弈场景中进行探索。
另外,为了验证本发明方法,将本发明方法(即图4中的LECA)分别与IQL、VDN、QMIX、QTRAN在星际争霸微操环境的性能进行了对比,如图4所示。其中,2s3z,1c3s5z 是简单地图,大部分算法都可以取得较好的效果,5m_vs_6m,2c_vs_64zg 是困难地图,智能体需要更长的训练时间才会收敛,对智能体的合作策略提出了更高的要求,MMM2 是极度困难地图,需要智能体学到特定的策略或者微操技巧才能取得胜利。如图4所示,可以看出,在上述地图上,LECA算法都取得了超过现有代表性算法的性能,特别是在极度困难地图 MMM2上,LECA算法大幅度超过现有代表性算法的性能,收敛速度更快,最终性能更好。在大部分地图上IQL算法的结果均远不如其他算法,说明了每个智能体之间独立进行学习无法学到更高层次的合作策略。同时可以看出,随着地图困难程度的提升,LECA算法相比其他算法的性能提升逐渐增大。这是因为在困难地图上,状态空间更大,可选策略更多,LECA算法的信用分配子网络可以关注到全局状态空间的不同子空间,从而学到“好而不同”的策略,体现了集成信用分配的优越性。
本发明第二实施例的一种基于集成学习的多智能体信用分配系统,如图2所示,包括:信息获取模块100、Q值获取模块200;
所述信息获取模块100,配置为分别获取博弈双方每一个智能体的动作信息和历史观测信息,作为输入信息;
所述Q值获取模块200,将所述输入信息分别输入各智能体对应的智能体网络,得到Q值;各智能体根据所述Q值,得到e-greedy策略,进而在设定的博弈场景中进行探索;所述Q值为在当前状态下选取某个动作获得的奖励;
所述智能体网络基于依次连接的多层感知机MLP、GRU网络、多层感知机MLP构建;所述智能体网络的训练方法为:
A100,各智能体分别获取博弈双方所有智能体的动作信息和历史观测信息,并输入对应的智能体网络,得到Q值;
A400,循环A100-A300,直至得到训练好的智能体网络;
需要说明的是,上述实施例提供的基于集成学习的多智能体信用分配系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种电子设备,包括:至少一个处理器;以及与至少一个所述处理器通信连接的存储器;其中,所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现上述的基于集成学习的多智能体信用分配方法。
本发明第四实施例的一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于被所述计算机执行以实现上述的基于集成学习的多智能体信用分配方法。
所述技术领域的技术人员可以清楚的了解到,为描述的方便和简洁,上述描述的电子设备、计算机可读存储介质的具体工作过程及有关说明,可以参考前述方法实例中的对应过程,在此不再赘述。
下面参考图5,其示出了适于用来实现本申请方法、系统、装置实施例的服务器的计算机系统的结构示意图。图5示出的服务器仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统包括中央处理单元(CPU,Central Processing Unit)501,其可以根据存储在只读存储器(ROM,Read Only Memory)502中的程序或者从存储部分508加载到随机访问存储器(RAM,Random Access Memory)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统操作所需的各种程序和数据。CPU501、ROM 502以及RAM503通过总线504彼此相连。输入/输出(I/O,Input/Output)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT,Cathode Ray Tube)、液晶显示器(LCD,Liquid Crystal Display)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN(局域网,Local AreaNetwork)卡、调制解调器等的网络接口卡的通讯部分509。通讯部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通讯部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU501执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
术语“第一”、 “第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (9)
1.一种基于集成学习的多智能体信用分配方法,其特征在于,该方法包括以下步骤:
S100,分别获取博弈双方每一个智能体的动作信息和历史观测信息,作为输入信息;
S200,将所述输入信息分别输入各智能体对应的智能体网络,得到Q值;各智能体根据所述Q值,得到e-greedy策略,进而在设定的博弈场景中进行探索;所述Q值为在当前状态下选取某个动作获得的奖励;
所述智能体网络基于依次连接的多层感知机MLP、GRU网络、多层感知机MLP构建;所述智能体网络的训练方法为:
A100,各智能体分别获取博弈双方所有智能体的动作信息和历史观测信息,并输入对应的智能体网络,得到Q值;
A400,循环A100-A300,直至得到训练好的智能体网络;
结合全局状态信息,通预构建的高斯分布学习网络获取所述多重信用分配网络对应的参数矩阵;所述高斯分布学习网络基于一层全连接神经网络构建;
5.根据权利要求4所述的基于集成学习的多智能体信用分配方法,其特征在于,所述预构建的损失函数为:
所述多样性正则化约束损失函数,其构建过程为:
获取所述多重信用分配网络中各信用分配子网络的输出;为一个大小的矩
阵,即,为同一参数不同表述方式,是从经验回放池中采样得到的一个批次
样本的数量,表示需要处理多少局对战的数据,是每组数据的长度,表示每局对战经历了
多少个时间步;
采用不变信息聚类方法对各信用分配子网络的输出进行聚类:
基于聚类结果,计算两个信用分配子网络之间的互信息:
对信用分配子网络之间的互信息进行求和,得到多个信用分配子网络之间的互信息,并求负,进而得到多样性正则化约束损失函数;
7.一种基于集成学习的多智能体信用分配系统,其特征在于,该系统包括:信息获取模块、Q值获取模块;
所述信息获取模块,配置为分别获取博弈双方每一个智能体的动作信息和历史观测信息,作为输入信息;
所述Q值获取模块,将所述输入信息分别输入各智能体对应的智能体网络,得到Q值;各智能体根据所述Q值,得到e-greedy策略,进而在设定的博弈场景中进行探索;所述Q值为在当前状态下选取某个动作获得的奖励;
所述智能体网络基于依次连接的多层感知机MLP、GRU网络、多层感知机MLP构建;所述智能体网络的训练方法为:
A100,各智能体分别获取博弈双方所有智能体的动作信息和历史观测信息,并输入对应的智能体网络,得到Q值;
A400,循环A100-A300,直至得到训练好的智能体网络;
8.一种电子设备,其特征在于,包括:
至少一个处理器;以及与至少一个所述处理器通信连接的存储器;
其中,所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现权利要求1-6任一项所述的基于集成学习的多智能体信用分配方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于被所述计算机执行以实现权利要求1-6任一项所述的基于集成学习的多智能体信用分配方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210924862.8A CN115018017B (zh) | 2022-08-03 | 2022-08-03 | 基于集成学习的多智能体信用分配方法、系统、设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210924862.8A CN115018017B (zh) | 2022-08-03 | 2022-08-03 | 基于集成学习的多智能体信用分配方法、系统、设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115018017A CN115018017A (zh) | 2022-09-06 |
CN115018017B true CN115018017B (zh) | 2022-10-28 |
Family
ID=83065376
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210924862.8A Active CN115018017B (zh) | 2022-08-03 | 2022-08-03 | 基于集成学习的多智能体信用分配方法、系统、设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115018017B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115618754B (zh) * | 2022-12-19 | 2023-04-07 | 中国科学院自动化研究所 | 多智能体的价值评估方法、装置和可读储存介质 |
CN115660110B (zh) * | 2022-12-26 | 2023-04-14 | 中国科学院自动化研究所 | 多智能体信用分配方法、装置、可读存储介质和智能体 |
CN116128013B (zh) * | 2023-04-07 | 2023-07-04 | 中国人民解放军国防科技大学 | 基于多样性种群训练的临机协同方法、装置和计算机设备 |
CN116975695B (zh) * | 2023-08-30 | 2024-03-19 | 山东大学 | 一种基于多智能体强化学习的肢体运动识别系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111105034A (zh) * | 2019-12-24 | 2020-05-05 | 中国科学院自动化研究所 | 基于反事实回报的多智能体深度强化学习方法、系统 |
CN114611664A (zh) * | 2022-02-24 | 2022-06-10 | 中国科学院自动化研究所 | 一种多智能体学习方法、装置及设备 |
CN114662639A (zh) * | 2022-03-24 | 2022-06-24 | 河海大学 | 一种基于值分解的多智能体强化学习方法及系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635917B (zh) * | 2018-10-17 | 2020-08-25 | 北京大学 | 一种多智能体合作决策及训练方法 |
US11836590B2 (en) * | 2018-12-03 | 2023-12-05 | AI Netomi, Inc. | User intent classification using a multi-agent reinforcement learning framework |
US20200279136A1 (en) * | 2019-03-01 | 2020-09-03 | Royal Bank Of Canada | System and method for multi-type mean field reinforcement machine learning |
CN112949933B (zh) * | 2021-03-23 | 2022-08-02 | 成都信息工程大学 | 一种基于多智能体强化学习的交通组织方案优化方法 |
CN114154397B (zh) * | 2021-11-09 | 2024-05-10 | 大连理工大学 | 一种基于深度强化学习的隐式对手建模方法 |
CN114449482B (zh) * | 2022-03-11 | 2024-05-14 | 南京理工大学 | 基于多智能体深度强化学习的异构车联网用户关联方法 |
-
2022
- 2022-08-03 CN CN202210924862.8A patent/CN115018017B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111105034A (zh) * | 2019-12-24 | 2020-05-05 | 中国科学院自动化研究所 | 基于反事实回报的多智能体深度强化学习方法、系统 |
CN114611664A (zh) * | 2022-02-24 | 2022-06-10 | 中国科学院自动化研究所 | 一种多智能体学习方法、装置及设备 |
CN114662639A (zh) * | 2022-03-24 | 2022-06-24 | 河海大学 | 一种基于值分解的多智能体强化学习方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115018017A (zh) | 2022-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115018017B (zh) | 基于集成学习的多智能体信用分配方法、系统、设备 | |
CN110119844B (zh) | 引入情绪调控机制的机器人运动决策方法、系统、装置 | |
CN108921298B (zh) | 强化学习多智能体沟通与决策方法 | |
WO2020143847A2 (en) | Determining action selection policies of an execution device | |
Yu | From information networking to intelligence networking: Motivations, scenarios, and challenges | |
Wei et al. | Deep reinforcement learning and parameter transfer based approach for the multi-objective agile earth observation satellite scheduling problem | |
CN114896899B (zh) | 一种基于信息交互的多智能体分散式决策方法及系统 | |
CN113627596A (zh) | 基于动态图神经网络的多智能体对抗方法及系统 | |
Chang et al. | Redirection controller using reinforcement learning | |
CN113962390B (zh) | 基于深度强化学习网络构建多样化搜索策略的模型的方法 | |
US11204803B2 (en) | Determining action selection policies of an execution device | |
CN112365359A (zh) | 种植决策确定模型的训练方法、装置、设备以及存储介质 | |
CN116992151A (zh) | 一种基于双塔图卷积神经网络的在线课程推荐方法 | |
CN115063274A (zh) | 基于对象技术能力的虚拟现实飞行训练方案生成方法 | |
WO2024120504A1 (zh) | 一种数据处理方法及相关设备 | |
CN117648548A (zh) | 基于离线-在线混合强化学习的智能决策方法和装置 | |
CN112470123B (zh) | 确定执行设备的动作选择方针 | |
Dong et al. | Accelerating wargaming reinforcement learning by dynamic multi-demonstrator ensemble | |
Ravichandiran et al. | Python reinforcement learning: solve complex real-world problems by mastering reinforcement learning algorithms using OpenAI Gym and TensorFlow | |
CN112041811B (zh) | 确定执行设备的动作选择方针 | |
CN114662656A (zh) | 一种深度神经网络模型训练方法、自主导航方法及系统 | |
CN114528992A (zh) | 一种基于区块链的电子商务业务分析模型的训练方法 | |
CN112041875B (zh) | 确定执行设备的动作选择方针 | |
CN114282741A (zh) | 任务决策方法、装置、设备及存储介质 | |
CN114282640B (zh) | 多样性策略的生成方法、装置、介质和计算设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |