CN115018017B - 基于集成学习的多智能体信用分配方法、系统、设备 - Google Patents

基于集成学习的多智能体信用分配方法、系统、设备 Download PDF

Info

Publication number
CN115018017B
CN115018017B CN202210924862.8A CN202210924862A CN115018017B CN 115018017 B CN115018017 B CN 115018017B CN 202210924862 A CN202210924862 A CN 202210924862A CN 115018017 B CN115018017 B CN 115018017B
Authority
CN
China
Prior art keywords
network
agent
credit
information
credit distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210924862.8A
Other languages
English (en)
Other versions
CN115018017A (zh
Inventor
张俊格
黄凯奇
陈皓
杨光开
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202210924862.8A priority Critical patent/CN115018017B/zh
Publication of CN115018017A publication Critical patent/CN115018017A/zh
Application granted granted Critical
Publication of CN115018017B publication Critical patent/CN115018017B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/80Special adaptations for executing a specific game genre or game mode
    • A63F13/843Special adaptations for executing a specific game genre or game mode involving concurrently two or more players on the same game device, e.g. requiring the use of a plurality of controllers or of a specific view of game data for each player
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于强化学习、多智能体领域,具体涉及一种基于集成学习的多智能体信用分配方法、系统、设备,旨在解决解决现有技术只关注局部状态空间,对全局状态信息的利用不充分,从而导致智能体无法在博弈环境中取得最优动作,造成多智能体协调能力差的问题。本方法包括:分别获取博弈双方每一个智能体的动作信息和历史观测信息,作为输入信息;将输入信息分别输入各智能体对应的智能体网络,得到Q值;各智能体根据Q值,得到e‑greedy策略,进而在设定的博弈场景中进行探索。本发明通过平衡多样性和准确性来充分利用全局状态信息,实现有效的集成信用分配,进而实现了智能体在博弈环境中取得最优动作进行探索,提升多智能体协调能力。

Description

基于集成学习的多智能体信用分配方法、系统、设备
技术领域
本发明属于强化学习、多智能体领域,具体涉及一种基于集成学习的多智能体信用分配方法、系统、设备。
背景技术
许多现实生活中的系统都可以被建模成多智能体系统(Multi-agent System,MAS),比如传感器网络,自动驾驶车辆,智能仓库系统等。强化学习为解决这些问题提供了框架和训练范式,但是传统的单智能体强化学习方法无法在非平稳的环境中进行学习,也无法学习智能体之间的通信,完全分布式执行的算法无法取得令人满意的效果。
为了解决上述问题,近年来多智能体深度强化学习(Multi-agent DeepReinforcement Learning, MADRL)取得了明显进展。多智能体深度强化学习将深度强化学习的思想用于多智能体系统中,是提升多智能体系统合作能力的有效方法。代表性成果为中心化训练分布式执行(Centralized Training with Decentralized Execution, CTDE)框架,基于CTDE框架的算法假设在训练阶段智能体可以获得全局信息,只有在测试阶段才会满足部分可观测的限制。CTDE框架最重要的问题之一就是信用分配问题,信用分配是指把环境返回的全局奖励分配给每个智能体的过程。通过信用分配可以更准确地衡量某个智能体的动作对环境的贡献, 从而更好地评价该智能体,进而实现更好的合作。基于信用分配的多智能体深度强化学习算法已经在诸多环境中得到了广泛地应用。VDN算法把联合动作-价值函数分解为每个智能体动作-价值函数的简单加和。QMIX算法拓展了VDN算法,把线性加和拓展为在单调性约束下的加权求和,取得了比VDN算法更好的性能。QTRAN算法对前述算法进行了改进,取消了结构性限制,把多智能体学习问题建模为线性约束下的优化问题,只要能保证每个智能体的最优动作和联合最优动作是相同的,就可以进行分解。
在CTDE框架下,如何在训练时尽可能充分地利用全局状态信息以实现合理的信用分配是一个关键问题。然而上述基于信用分配的方法使用的单个信用分配网络往往只关注到了局部状态空间,对全局状态信息的利用不充分,从而导致算法无法取得最佳性能。
针对上述问题,本文提出了一种基于集成学习的多智能体信用分配算法。集成学习来自机器学习,通过构建并结合多个“好而不同”的学习器来完成学习任务,从而获得比单个学习器更优越的性能。基于此,本发明通过构建多重信用分配网络让不同的信用分配子网络关注到全局状态空间的不同子空间,进而学到“好而不同”的策略,同时通过集成信用分配网络整合这些策略从而充分利用全局状态信息,得到更好的信用分配策略。因此,本发明从多样性和准确性两个角度设计算法模块,保证信用分配子网络的多样性,不同的信用分配子网络能够学习到不同的策略,同时保证集成信用分配网络的准确性,通过平衡不同信用分配子网络的策略来得到更好的最终策略,从而实现集成信用分配。
发明内容
为了解决现有技术中的上述问题,即为了解决现有技术只关注局部状态空间,对全局状态信息的利用不充分,从而导致智能体无法在博弈环境中取得最优动作,造成多智能体协调能力差的问题,本发明第一方面,提出了一种基于集成学习的多智能体信用分配方法,该方法包括:
S100,分别获取博弈双方每一个智能体的动作信息和历史观测信息,作为输入信息;
S200,将所述输入信息分别输入各智能体对应的智能体网络,得到Q值;各智能体根据所述Q值,得到e-greedy策略,进而在设定的博弈场景中进行探索;所述Q值为在当前状态下选取某个动作获得的奖励;
所述智能体网络基于依次连接的多层感知机MLP、GRU网络、多层感知机MLP构建;所述智能体网络的训练方法为:
A100,各智能体分别获取博弈双方所有智能体的动作信息和历史观测信息,并输入对应的智能体网络,得到Q值;
A200,将各智能体网络输出的Q值、全局状态信息
Figure 596472DEST_PATH_IMAGE001
输入预构建的多重信用分配网 络、集成信用分配网络,输出状态-联合动作值函数
Figure 266488DEST_PATH_IMAGE002
A300,结合所述状态-联合动作值函数
Figure 381074DEST_PATH_IMAGE002
,通过预构建的损失函数,计算损失值, 更新各智能体网络、所述的多重信用分配网络和所述集成信用分配网络的网络参数;
A400,循环A100-A300,直至得到训练好的智能体网络;
其中,所述多重信用分配网络包括
Figure 161949DEST_PATH_IMAGE003
个信用分配子网络;所述信用分配子网络基于 输入层、隐含层、输出层构建;
Figure 429113DEST_PATH_IMAGE003
表示正整数;所述集成信用分配网络用于对所述多重信用分 配网络的输出进行加权求和。
在一些优选的实施方式中,将各智能体网络输出的Q值、全局状态信息
Figure 270030DEST_PATH_IMAGE001
输入预构 建的多重信用分配网络、集成信用分配网络,输出状态-联合动作值函数
Figure 871913DEST_PATH_IMAGE002
,其方法为:
结合全局状态信息,通预构建的高斯分布学习网络获取所述多重信用分配网络对应的参数矩阵;所述高斯分布学习网络基于一层全连接神经网络构建;
将各智能体网络输出的Q值输入所述多重信用分配网络中的各信用分配子网络, 结合所述参数矩阵、ReLU激活函数以及所述全局状态信息,得到各信用分配子网络
Figure 456478DEST_PATH_IMAGE004
将多个
Figure 76684DEST_PATH_IMAGE004
输入预构建的集成信用分配网络进行加权求和,得到状态-联 合动作值函数
Figure 822923DEST_PATH_IMAGE005
;其中,
Figure 646523DEST_PATH_IMAGE006
=
Figure 34779DEST_PATH_IMAGE007
Figure 10956DEST_PATH_IMAGE008
表示多重信用分配网络的网络参数,
Figure 193676DEST_PATH_IMAGE009
表示 集成信用分配网络的网络参数,
Figure 770150DEST_PATH_IMAGE010
表示为轨迹、动作。
在一些优选的实施方式中,将多个
Figure 430939DEST_PATH_IMAGE004
输入预构建的集成信用分配网络 进行加权求和,得到状态-联合动作值函数
Figure 510890DEST_PATH_IMAGE005
,其方法为:
基于全局状态信息
Figure 382288DEST_PATH_IMAGE001
,通过预构建的自适应权重学习网络获取各信用分配子网络 输出值对应的权重,并分别进行归一化处理;所述自适应权重学习网络基于输入层、隐含 层、输出层构建;
通过归一化处理后的权重,对各信用分配子网络输出值
Figure 180480DEST_PATH_IMAGE011
加权,并求 和,进而得到状态-联合动作值函数
Figure 910538DEST_PATH_IMAGE005
在一些优选的实施方式中,通过预构建的自适应权重学习网络获取各信用分配子网络输出值对应的权重,其方法为:
Figure 844996DEST_PATH_IMAGE012
其中,
Figure 120251DEST_PATH_IMAGE013
表示自适应权重学习网络,
Figure 405739DEST_PATH_IMAGE014
表示各信用分配子网络输出值对应的权重。
在一些优选的实施方式中,所述预构建的损失函数为:
Figure 673909DEST_PATH_IMAGE015
其中,
Figure 728453DEST_PATH_IMAGE016
表示预构建的损失函数,
Figure 938723DEST_PATH_IMAGE017
表示时序差分损失函数,
Figure 445928DEST_PATH_IMAGE018
表示多样性正 则化约束损失函数,
Figure 517789DEST_PATH_IMAGE019
表示预设的权重;
所述多样性正则化约束损失函数,其构建过程为:
获取所述多重信用分配网络中各信用分配子网络的输出
Figure 692418DEST_PATH_IMAGE020
Figure 309476DEST_PATH_IMAGE020
为一个
Figure 569556DEST_PATH_IMAGE021
大小的 矩阵,即
Figure 445108DEST_PATH_IMAGE004
,为同一参数不同表述方式,
Figure 208664DEST_PATH_IMAGE022
是从经验回放池中采样得到的一个批 次样本的数量,表示需要处理多少局对战的数据,
Figure 498088DEST_PATH_IMAGE023
是每组数据的长度,表示每局对战经历 了多少个时间步;
采用不变信息聚类方法对各信用分配子网络的输出进行聚类:
Figure 245464DEST_PATH_IMAGE024
其中,
Figure 659128DEST_PATH_IMAGE025
表示聚类结果,
Figure 542770DEST_PATH_IMAGE026
表示转置;
基于聚类结果,计算两个信用分配子网络之间的互信息:
Figure 767209DEST_PATH_IMAGE027
其中,
Figure 470723DEST_PATH_IMAGE028
表示两个信用分配子网络之间的互信息;
对信用分配子网络之间的互信息进行求和,得到多个信用分配子网络之间的互信息,并求负,进而得到多样性正则化约束损失函数:
Figure 422498DEST_PATH_IMAGE029
Figure 426227DEST_PATH_IMAGE030
其中,
Figure 805255DEST_PATH_IMAGE031
表示多个信用分配子网络之间的互信息。
在一些优选的实施方式中,所述时序差分损失函数在计算损失值时,通过LECA算法进行优化:
Figure 510912DEST_PATH_IMAGE032
Figure 266378DEST_PATH_IMAGE033
其中,
Figure 124613DEST_PATH_IMAGE034
表示奖励值,
Figure 940122DEST_PATH_IMAGE035
表示折扣因子,
Figure 368961DEST_PATH_IMAGE036
为目标网络中的轨迹、动作、网络参 数的表示。
本发明的第二方面,提出了一种基于集成学习的多智能体信用分配系统,包括:信息获取模块、Q值获取模块;
所述信息获取模块,配置为分别获取博弈双方每一个智能体的动作信息和历史观测信息,作为输入信息;
所述Q值获取模块,将所述输入信息分别输入各智能体对应的智能体网络,得到Q值;各智能体根据所述Q值,得到e-greedy策略,进而在设定的博弈场景中进行探索;所述Q值为在当前状态下选取某个动作获得的奖励;
所述智能体网络基于依次连接的多层感知机MLP、GRU网络、多层感知机MLP构建;所述智能体网络的训练方法为:
A100,各智能体分别获取博弈双方所有智能体的动作信息和历史观测信息,并输入对应的智能体网络,得到Q值;
A200,将各智能体网络输出的Q值、全局状态信息
Figure 662539DEST_PATH_IMAGE001
输入预构建的多重信用分配网 络、集成信用分配网络,输出状态-联合动作值函数
Figure 375280DEST_PATH_IMAGE002
A300,结合所述状态-联合动作值函数
Figure 361690DEST_PATH_IMAGE002
,通过预构建的损失函数,计算损失值, 更新各智能体网络、所述的多重信用分配网络和所述集成信用分配网络的网络参数;
A400,循环A100-A300,直至得到训练好的智能体网络;
其中,所述多重信用分配网络包括
Figure 44869DEST_PATH_IMAGE003
个信用分配子网络;所述信用分配子网络基于 输入层、隐含层、输出层构建;
Figure 142138DEST_PATH_IMAGE003
表示正整数;所述集成信用分配网络用于对所述多重信用分 配网络的输出进行加权求和。
本发明的第三方面,提出了一种电子设备,包括:至少一个处理器;以及与至少一个所述处理器通信连接的存储器;其中,所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现上述的基于集成学习的多智能体信用分配方法。
本发明的第四方面,提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于被所述计算机执行以实现上述的基于集成学习的多智能体信用分配方法。
本发明的有益效果:
本发明通过平衡多样性和准确性来充分利用全局状态信息,实现有效的集成信用分配,进而实现了智能体在博弈环境中取得最优动作进行探索,提升多智能体协调能力。
首先, 为了保证信用分配子网络的多样性,本发明引入可学习的高斯噪声网络对网络参数进行建模,同时,为了确保不同信用分配子网络能关注到全局状态空间中的不同子空间,进而学到“好而不同”的网络,本发明使用基于不变信息聚类(InvariantInformation Clustering, IIC)的正则项对信用分配子网络的输出进行约束,从而使得信用分配子网络能够学到有效且不同的策略。
其次,本发明通过集成学习把上述信用分配子网络加权组合在一起,自适应地学习权重并同时利用时序差分误差来保证集成信用分配网络的准确性。进而通过平衡多样性和准确性来充分利用全局状态信息,实现有效的集成信用分配,保证智能体在博弈环境中取得最优动作进行探索,增强多智能体在合作任务上的能力。
附图说明
通过阅读参照以下附图所做的对非限制性实施例所做的详细描述,本申请的其他特征、目的和优点将会变得更明显。
图1是本发明一种实施例的基于集成学习的多智能体信用分配方法的流程示意图;
图2是本发明一种实施例的基于集成学习的多智能体信用分配系统的框架示意图;
图3是本发明一种实施例的智能体网络训练过程的示意图;
图4是本发明一种实施例的本发明方法与其他方法的性能对比示意图;
图5是本发明一种实施例的适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明的基于集成学习的多智能体信用分配方法,如图1所示,包括以下步骤:
S100,分别获取博弈双方每一个智能体的动作信息和历史观测信息,作为输入信息;
S200,将所述输入信息分别输入各智能体对应的智能体网络,得到Q值;各智能体根据所述Q值,得到e-greedy策略,进而在设定的博弈场景中进行探索;所述Q值为在当前状态下选取某个动作获得的奖励;
所述智能体网络基于依次连接的多层感知机MLP、GRU网络、多层感知机MLP构建;所述智能体网络的训练方法为:
A100,各智能体分别获取博弈双方所有智能体的动作信息和历史观测信息,并输入对应的智能体网络,得到Q值;
A200,将各智能体网络输出的Q值、全局状态信息
Figure 709386DEST_PATH_IMAGE001
输入预构建的多重信用分配网 络、集成信用分配网络,输出状态-联合动作值函数
Figure 601118DEST_PATH_IMAGE002
A300,结合所述状态-联合动作值函数
Figure 519396DEST_PATH_IMAGE002
,通过预构建的损失函数,计算损失值, 更新各智能体网络、所述的多重信用分配网络和所述集成信用分配网络的网络参数;
A400,循环A100-A300,直至得到训练好的智能体网络;
其中,所述多重信用分配网络包括
Figure 905509DEST_PATH_IMAGE003
个信用分配子网络;所述信用分配子网络基于 输入层、隐含层、输出层构建;
Figure 592842DEST_PATH_IMAGE003
表示正整数;所述集成信用分配网络用于对所述多重信用分 配网络的输出进行加权求和。
为了更清晰地对本发明基于集成学习的多智能体信用分配方法进行说明,下面结合附图对本发明方法一种实施例中各步骤进行展开详述。
本发明公开了一种基于集成学习的多智能体信用分配方法。该方法通过构建多重信用分配网络让不同的信用分配子网络关注到全局状态空间的不同子空间,进而学到“好而不同”的信用分配子网络,同时通过集成信用分配网络整合这些策略从而充分利用全局状态信息,得到更好的信用分配策略。该方法揭示了之前方法所采用的——信用分配——这一机制的局限性,并通过提出——基于集成学习的多智能体信用分配——这一机制来解决之前方法所存在的问题。该方法包括以下步骤:构建多个信用分配网络作为多重信用分配网络的子网络,在QMIX算法信用分配网络的基础上,将原有的从线性网络中学到的权重矩阵和偏置矩阵替换为了从对应的噪声分布中采样得到的参数矩阵,增大了网络在学习初期的随机性,使得算法可以学习到“好而不同”的策略;通过使用集成学习对信用分配子网络进行投票,从而得到具有准确性的输出;将多样性正则化约束和时序差分损失函数相加作为最终的优化目标,使用中心化训练分布式执行框架进行端到端训练以优化上述目标。本发明能应用于各个场景中的多智能体合作任务,通过本发明能够显著的提高算法在多智能体合作任务上的性能。具体如下:
在下述实施例中,先对智能体网络的训练过程进行详述,再对通过一种基于集成学习的多智能体信用分配方法获取Q值的过程进行详述。
1、智能体网络的训练过程
A100,各智能体分别获取博弈双方所有智能体的动作信息和历史观测信息,并输入对应的智能体网络,得到Q值;
在本实施例中,智能体网络在中心化训练阶段时,智能体可以获取全局状态信息
Figure 921055DEST_PATH_IMAGE001
以及博弈双方所有智能体的动作-历史观测信息。
A200,将各智能体网络输出的Q值、全局状态信息
Figure 61050DEST_PATH_IMAGE001
输入预构建的多重信用分配网 络、集成信用分配网络,输出状态-联合动作值函数
Figure 749389DEST_PATH_IMAGE002
在本实施例中,先基于K个信用分配子网络构建多重信用分配网络的子网络,K表示正整数,在本发明中优选设置为3。信用分配子网络基于输入层、隐含层、输出层构建;如图3所示。
将各智能体网络输出的Q值、全局状态信息
Figure 291228DEST_PATH_IMAGE001
(t时刻的全局状态信息表示为
Figure 790343DEST_PATH_IMAGE037
,如 图3所示)输入预构建的多重信用分配网络,得到多个
Figure 417633DEST_PATH_IMAGE004
;其中,在计算多个
Figure 145549DEST_PATH_IMAGE004
时,本发明在QMIX算法信用分配网络的基础上,将原有的从线性网络中学到的 权重矩阵和偏置矩阵替换为了从对应的噪声分布中采样得到的参数矩阵,增大了网络在学 习初期的随机性,从而可以探索到更为多样的策略。噪声分布是一个可对参数进行学习的 多维高斯分布
Figure 807475DEST_PATH_IMAGE038
,我们使用可训练的神经网络
Figure 477490DEST_PATH_IMAGE039
(即高斯分布学习网络,基于一层全 连接神经网络构建)来学习该多维高斯分布的参数:具体如公式(1)(2)所示:
Figure 326498DEST_PATH_IMAGE040
(1)
Figure 107372DEST_PATH_IMAGE041
(2)
其中,
Figure 887720DEST_PATH_IMAGE008
为多重信用分配网络的参数,
Figure 728637DEST_PATH_IMAGE042
分别为该多维高斯分布的均值和标准 差。
即结合全局状态信息,通预构建的高斯分布学习网络获取所述多重信用分配网络对应的参数矩阵;所述高斯分布学习网络基于一层全连接神经网络构建;
将各智能体网络输出的Q值输入所述多重信用分配网络中的各信用分配子网络, 结合所述参数矩阵、ReLU激活函数以及所述全局状态信息,得到各信用分配子网络
Figure 330519DEST_PATH_IMAGE004
;具体为:采用一种超网络(hypernetwork),将状态作为输入,输出为混合网络 (即多重信用分配网络)的权值及偏移量。为了保证权值的非负性,采用一个高斯分布学习 网络以及绝对值数保证输出不为负数。对偏移量采用同样方式但没有非负性的约束,各智 能体网络输出的Q值通过两层网络以及ReLU激活函数得到非线性映射网络(具体处理过程 可参考QMIX算法中混合网络的处理Q值的过程)。
将多个
Figure 915085DEST_PATH_IMAGE004
输入预构建的集成信用分配网络进行加权求和,得到状态-联 合动作值函数
Figure 36756DEST_PATH_IMAGE005
然后,基于每个信用分配子网络输出,计算多样性正则化约束损失:具体如下:
在多重信用分配网络的训练过程中,每个信用分配子网络的输出是一个
Figure 782995DEST_PATH_IMAGE021
大小 的矩阵
Figure 606594DEST_PATH_IMAGE020
,即
Figure 994850DEST_PATH_IMAGE004
,为同一参数不同表述方式;
Figure 469563DEST_PATH_IMAGE043
是从经验回放池中采样得到的一 个批次样本的数量,表示需要处理多少局对战的数据,
Figure 652282DEST_PATH_IMAGE023
是每组数据的长度,表示每局对战 经历了多少个时间步;由于每个信用分配子网络输出的数据是矩阵而不是概率分布,无法 使用传统的互信息来度量输出之间的相似程度,因此本发明使用不变信息聚类来计算不同 信用分配子网络输出的相似程度。由不变信息聚类的公式可得:
Figure 963178DEST_PATH_IMAGE024
(3)
其中,
Figure 155125DEST_PATH_IMAGE025
表示聚类结果,
Figure 969497DEST_PATH_IMAGE026
表示转置;
基于聚类结果,计算两个信用分配子网络之间的互信息:
Figure 339430DEST_PATH_IMAGE027
其中,
Figure 137621DEST_PATH_IMAGE028
表示两个信用分配子网络之间的互信息;
对信用分配子网络之间的互信息进行求和,得到多个信用分配子网络之间的互信息:
Figure 602101DEST_PATH_IMAGE030
(4)
其中,
Figure 536559DEST_PATH_IMAGE031
表示多个信用分配子网络之间的互信息。
本发明希望增加信用分配子网络之间的多样性,因此需要降低信用分配子网络之间的相关程度,也就是降低互信息,因此得到多样性正则化约束损失函数为:
Figure 578858DEST_PATH_IMAGE029
(5)
然后,将多个
Figure 598766DEST_PATH_IMAGE004
输入预构建的集成信用分配网络进行加权求和,得到状 态-联合动作值函数
Figure 132516DEST_PATH_IMAGE005
本发明使用集成学习对信用分配子网络进行投票,从而得到具有准确性的输出。 集成信用分配网络的权重取决于输入的全局状态,本文使用一个可训练的神经网络
Figure 187059DEST_PATH_IMAGE013
(即自 适应权重学习网络,其基于输入层、隐含层、输出层构建)来学习该权重:
Figure 633215DEST_PATH_IMAGE012
(6)
其中,
Figure 140420DEST_PATH_IMAGE009
表示集成信用分配网络的网络参数,
Figure 212281DEST_PATH_IMAGE013
中梯度的反向传播实现了自适应权 重学习。
为保证训练过程中权重数据的稳定性,本发明对权重进行了归一化处理:
Figure 121331DEST_PATH_IMAGE044
(7)
将上述权重分别与对应的信用分配子网络的输出相乘就可以得到集成信用分配网络的输出,也就相当于对信用分配子网络进行了“软投票”(Soft Voting):
Figure 253235DEST_PATH_IMAGE045
(8)
A300,结合所述状态-联合动作值函数
Figure 497004DEST_PATH_IMAGE002
,通过预构建的损失函数,计算损失值, 更新各智能体网络、所述的多重信用分配网络和所述集成信用分配网络的网络参数;
在本实施例中,LECA算法通过端到端训练来优化如下时序差分损失函数从而保证集成信用分配网络的准确性:
Figure 106977DEST_PATH_IMAGE032
(9)
Figure 136113DEST_PATH_IMAGE033
(10)
其中,
Figure 173339DEST_PATH_IMAGE046
是集成信用分配网络和多重信用分配网络的网络参数,即
Figure 671447DEST_PATH_IMAGE047
为多重信用分配网络与集成信用分配网络中的轨迹、动作、网络参数的表示,
Figure 85111DEST_PATH_IMAGE048
为目 标网络中的轨迹、动作、网络参数的表示,目标网络周期性地拷贝
Figure 968754DEST_PATH_IMAGE006
来进行更新。
总体优化目标是多样性和准确性的结合, 最终的优化目标如下:
Figure 176881DEST_PATH_IMAGE015
(11)
其中,参数
Figure 398171DEST_PATH_IMAGE019
用于平衡二者之间的关系,即预设的权重。
A400,循环A100-A300,直至得到训练好的智能体网络。
在本实施例中,循环对智能体网络进行训练,直至得到训练好的智能体网络。
2、基于集成学习的多智能体信用分配方法
S100,分别获取博弈双方每一个智能体的动作信息和历史观测信息,作为输入信息;
S200,将所述输入信息分别输入各智能体对应的智能体网络,得到Q值;各智能体根据所述Q值,得到e-greedy策略,进而在设定的博弈场景中进行探索;所述Q值为在当前状态下选取某个动作获得的奖励。
在本实施例中,博弈双方每一个智能体获取本地的动作信息和历史观测信息,即动作-观测历史信息,输入各智能体对应的智能体网络,得到Q值;各智能体根据所述Q值,得到e-greedy策略,进而在设定的博弈场景中进行探索。即在分布式执行阶段, 智能体只能使用自己的策略网络并依赖本地的动作-观测历史信息进行决策, 不使用上述的信用分配网络。
基于集成学习的多智能体信用分配方法可应用于多人游戏中(例如星际争霸),实现多智能体博弈。
基于集成学习的多智能体信用分配方法应用于多人游戏中的实现方法为:
分别获取多人游戏中博弈双方每一个智能体的动作信息和历史观测信息,作为输入信息;所述历史观测信息包括地图信息、智能体炸弹威力、敌方智能体信息、存活时长;
将输入信息分别输入各智能体对应的智能体网络,得到Q值;各智能体根据所述Q值,得到e-greedy策略,进而在设定的多人游戏博弈场景中进行探索。
另外,为了验证本发明方法,将本发明方法(即图4中的LECA)分别与IQL、VDN、QMIX、QTRAN在星际争霸微操环境的性能进行了对比,如图4所示。其中,2s3z,1c3s5z 是简单地图,大部分算法都可以取得较好的效果,5m_vs_6m,2c_vs_64zg 是困难地图,智能体需要更长的训练时间才会收敛,对智能体的合作策略提出了更高的要求,MMM2 是极度困难地图,需要智能体学到特定的策略或者微操技巧才能取得胜利。如图4所示,可以看出,在上述地图上,LECA算法都取得了超过现有代表性算法的性能,特别是在极度困难地图 MMM2上,LECA算法大幅度超过现有代表性算法的性能,收敛速度更快,最终性能更好。在大部分地图上IQL算法的结果均远不如其他算法,说明了每个智能体之间独立进行学习无法学到更高层次的合作策略。同时可以看出,随着地图困难程度的提升,LECA算法相比其他算法的性能提升逐渐增大。这是因为在困难地图上,状态空间更大,可选策略更多,LECA算法的信用分配子网络可以关注到全局状态空间的不同子空间,从而学到“好而不同”的策略,体现了集成信用分配的优越性。
本发明第二实施例的一种基于集成学习的多智能体信用分配系统,如图2所示,包括:信息获取模块100、Q值获取模块200;
所述信息获取模块100,配置为分别获取博弈双方每一个智能体的动作信息和历史观测信息,作为输入信息;
所述Q值获取模块200,将所述输入信息分别输入各智能体对应的智能体网络,得到Q值;各智能体根据所述Q值,得到e-greedy策略,进而在设定的博弈场景中进行探索;所述Q值为在当前状态下选取某个动作获得的奖励;
所述智能体网络基于依次连接的多层感知机MLP、GRU网络、多层感知机MLP构建;所述智能体网络的训练方法为:
A100,各智能体分别获取博弈双方所有智能体的动作信息和历史观测信息,并输入对应的智能体网络,得到Q值;
A200,将各智能体网络输出的Q值、全局状态信息
Figure 349947DEST_PATH_IMAGE001
输入预构建的多重信用分配网 络、集成信用分配网络,输出状态-联合动作值函数
Figure 88096DEST_PATH_IMAGE002
A300,结合所述状态-联合动作值函数
Figure 732704DEST_PATH_IMAGE002
,通过预构建的损失函数,计算损失值, 更新各智能体网络、所述的多重信用分配网络和所述集成信用分配网络的网络参数;
A400,循环A100-A300,直至得到训练好的智能体网络;
其中,所述多重信用分配网络包括
Figure 189093DEST_PATH_IMAGE003
个信用分配子网络;所述信用分配子网络基于 输入层、隐含层、输出层构建;
Figure 695292DEST_PATH_IMAGE003
表示正整数;所述集成信用分配网络用于对所述多重信用分 配网络的输出进行加权求和。
需要说明的是,上述实施例提供的基于集成学习的多智能体信用分配系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种电子设备,包括:至少一个处理器;以及与至少一个所述处理器通信连接的存储器;其中,所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现上述的基于集成学习的多智能体信用分配方法。
本发明第四实施例的一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于被所述计算机执行以实现上述的基于集成学习的多智能体信用分配方法。
所述技术领域的技术人员可以清楚的了解到,为描述的方便和简洁,上述描述的电子设备、计算机可读存储介质的具体工作过程及有关说明,可以参考前述方法实例中的对应过程,在此不再赘述。
下面参考图5,其示出了适于用来实现本申请方法、系统、装置实施例的服务器的计算机系统的结构示意图。图5示出的服务器仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统包括中央处理单元(CPU,Central Processing Unit)501,其可以根据存储在只读存储器(ROM,Read Only Memory)502中的程序或者从存储部分508加载到随机访问存储器(RAM,Random Access Memory)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统操作所需的各种程序和数据。CPU501、ROM 502以及RAM503通过总线504彼此相连。输入/输出(I/O,Input/Output)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT,Cathode Ray Tube)、液晶显示器(LCD,Liquid Crystal Display)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN(局域网,Local AreaNetwork)卡、调制解调器等的网络接口卡的通讯部分509。通讯部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通讯部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU501执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
术语“第一”、 “第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (9)

1.一种基于集成学习的多智能体信用分配方法,其特征在于,该方法包括以下步骤:
S100,分别获取博弈双方每一个智能体的动作信息和历史观测信息,作为输入信息;
S200,将所述输入信息分别输入各智能体对应的智能体网络,得到Q值;各智能体根据所述Q值,得到e-greedy策略,进而在设定的博弈场景中进行探索;所述Q值为在当前状态下选取某个动作获得的奖励;
所述智能体网络基于依次连接的多层感知机MLP、GRU网络、多层感知机MLP构建;所述智能体网络的训练方法为:
A100,各智能体分别获取博弈双方所有智能体的动作信息和历史观测信息,并输入对应的智能体网络,得到Q值;
A200,将各智能体网络输出的Q值、全局状态信息
Figure 785336DEST_PATH_IMAGE001
输入预构建的多重信用分配网络、集 成信用分配网络,输出状态-联合动作值函数
Figure 420585DEST_PATH_IMAGE002
A300,结合所述状态-联合动作值函数
Figure 669164DEST_PATH_IMAGE002
,通过预构建的损失函数,计算损失值,更新 各智能体网络、所述的多重信用分配网络和所述集成信用分配网络的网络参数;
A400,循环A100-A300,直至得到训练好的智能体网络;
其中,所述多重信用分配网络包括
Figure 533215DEST_PATH_IMAGE003
个信用分配子网络;所述信用分配子网络基于输入 层、隐含层、输出层构建;
Figure 816429DEST_PATH_IMAGE003
表示正整数;所述集成信用分配网络用于对所述多重信用分配网 络的输出进行加权求和。
2.根据权利要求1所述的基于集成学习的多智能体信用分配方法,其特征在于,将各智 能体网络输出的Q值、全局状态信息
Figure 359930DEST_PATH_IMAGE001
输入预构建的多重信用分配网络、集成信用分配网络, 输出状态-联合动作值函数
Figure 830226DEST_PATH_IMAGE002
,其方法为:
结合全局状态信息,通预构建的高斯分布学习网络获取所述多重信用分配网络对应的参数矩阵;所述高斯分布学习网络基于一层全连接神经网络构建;
将各智能体网络输出的Q值输入所述多重信用分配网络中的各信用分配子网络,结合 所述参数矩阵、ReLU激活函数以及所述全局状态信息,得到各信用分配子网络
Figure 497967DEST_PATH_IMAGE004
将多个
Figure 635688DEST_PATH_IMAGE004
输入预构建的集成信用分配网络进行加权求和,得到状态-联合动 作值函数
Figure 347160DEST_PATH_IMAGE005
;其中,
Figure 570331DEST_PATH_IMAGE006
=
Figure 776185DEST_PATH_IMAGE007
Figure 768412DEST_PATH_IMAGE008
表示多重信用分配网络的网络参数,
Figure 916365DEST_PATH_IMAGE009
表示集成 信用分配网络的网络参数,
Figure 626832DEST_PATH_IMAGE010
表示为轨迹、动作。
3.根据权利要求1所述的基于集成学习的多智能体信用分配方法,其特征在于,将多个
Figure 370797DEST_PATH_IMAGE004
输入预构建的集成信用分配网络进行加权求和,得到状态-联合动作值函数
Figure 483110DEST_PATH_IMAGE005
,其方法为:
基于全局状态信息
Figure 536385DEST_PATH_IMAGE001
,通过预构建的自适应权重学习网络获取各信用分配子网络输出 值对应的权重,并分别进行归一化处理;所述自适应权重学习网络基于一层全连接神经网 络构建;
通过归一化处理后的权重,对各信用分配子网络输出值
Figure 734148DEST_PATH_IMAGE011
加权,并求和,进 而得到状态-联合动作值函数
Figure 547384DEST_PATH_IMAGE005
4.根据权利要求3所述的基于集成学习的多智能体信用分配方法,其特征在于,通过预构建的自适应权重学习网络获取各信用分配子网络输出值对应的权重,其方法为:
Figure 514203DEST_PATH_IMAGE012
其中,
Figure 995170DEST_PATH_IMAGE013
表示自适应权重学习网络,
Figure 414650DEST_PATH_IMAGE014
表示各信用分配子网络输出值对应的权重。
5.根据权利要求4所述的基于集成学习的多智能体信用分配方法,其特征在于,所述预构建的损失函数为:
Figure 765996DEST_PATH_IMAGE015
其中,
Figure 587322DEST_PATH_IMAGE016
表示预构建的损失函数,
Figure 247979DEST_PATH_IMAGE017
表示时序差分损失函数,
Figure 420335DEST_PATH_IMAGE018
表示多样性正则化 约束损失函数,
Figure 309793DEST_PATH_IMAGE019
表示预设的权重;
所述多样性正则化约束损失函数,其构建过程为:
获取所述多重信用分配网络中各信用分配子网络的输出
Figure 251204DEST_PATH_IMAGE020
Figure 833495DEST_PATH_IMAGE020
为一个
Figure 476835DEST_PATH_IMAGE021
大小的矩 阵,即
Figure 169985DEST_PATH_IMAGE004
,为同一参数不同表述方式,
Figure 700323DEST_PATH_IMAGE022
是从经验回放池中采样得到的一个批次 样本的数量,表示需要处理多少局对战的数据,
Figure 453516DEST_PATH_IMAGE023
是每组数据的长度,表示每局对战经历了 多少个时间步;
采用不变信息聚类方法对各信用分配子网络的输出进行聚类:
Figure 584152DEST_PATH_IMAGE024
其中,
Figure 346571DEST_PATH_IMAGE025
表示聚类结果,
Figure 996995DEST_PATH_IMAGE026
表示转置;
基于聚类结果,计算两个信用分配子网络之间的互信息:
Figure 655510DEST_PATH_IMAGE027
其中,
Figure 276372DEST_PATH_IMAGE028
表示两个信用分配子网络之间的互信息;
对信用分配子网络之间的互信息进行求和,得到多个信用分配子网络之间的互信息,并求负,进而得到多样性正则化约束损失函数;
Figure 311324DEST_PATH_IMAGE029
Figure 81834DEST_PATH_IMAGE030
其中,
Figure 911249DEST_PATH_IMAGE031
表示多个信用分配子网络之间的互信息。
6.根据权利要求5所述的基于集成学习的多智能体信用分配方法,其特征在于,所述时序差分损失函数在计算损失值时,通过LECA算法进行优化:
Figure 16477DEST_PATH_IMAGE032
Figure 120700DEST_PATH_IMAGE033
其中,
Figure 214558DEST_PATH_IMAGE034
表示奖励值,
Figure 746033DEST_PATH_IMAGE035
表示折扣因子,
Figure 823711DEST_PATH_IMAGE036
为目标网络中的轨迹、动作、网络参数的 表示。
7.一种基于集成学习的多智能体信用分配系统,其特征在于,该系统包括:信息获取模块、Q值获取模块;
所述信息获取模块,配置为分别获取博弈双方每一个智能体的动作信息和历史观测信息,作为输入信息;
所述Q值获取模块,将所述输入信息分别输入各智能体对应的智能体网络,得到Q值;各智能体根据所述Q值,得到e-greedy策略,进而在设定的博弈场景中进行探索;所述Q值为在当前状态下选取某个动作获得的奖励;
所述智能体网络基于依次连接的多层感知机MLP、GRU网络、多层感知机MLP构建;所述智能体网络的训练方法为:
A100,各智能体分别获取博弈双方所有智能体的动作信息和历史观测信息,并输入对应的智能体网络,得到Q值;
A200,将各智能体网络输出的Q值、全局状态信息
Figure 715312DEST_PATH_IMAGE001
输入预构建的多重信用分配网络、集 成信用分配网络,输出状态-联合动作值函数
Figure 194835DEST_PATH_IMAGE002
A300,结合所述状态-联合动作值函数
Figure 631632DEST_PATH_IMAGE002
,通过预构建的损失函数,计算损失值,更新 各智能体网络、所述的多重信用分配网络和所述集成信用分配网络的网络参数;
A400,循环A100-A300,直至得到训练好的智能体网络;
其中,所述多重信用分配网络包括
Figure 196606DEST_PATH_IMAGE003
个信用分配子网络;所述信用分配子网络基于输入 层、隐含层、输出层构建;
Figure 626319DEST_PATH_IMAGE003
表示正整数;所述集成信用分配网络用于对所述多重信用分配网 络的输出进行加权求和。
8.一种电子设备,其特征在于,包括:
至少一个处理器;以及与至少一个所述处理器通信连接的存储器;
其中,所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现权利要求1-6任一项所述的基于集成学习的多智能体信用分配方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于被所述计算机执行以实现权利要求1-6任一项所述的基于集成学习的多智能体信用分配方法。
CN202210924862.8A 2022-08-03 2022-08-03 基于集成学习的多智能体信用分配方法、系统、设备 Active CN115018017B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210924862.8A CN115018017B (zh) 2022-08-03 2022-08-03 基于集成学习的多智能体信用分配方法、系统、设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210924862.8A CN115018017B (zh) 2022-08-03 2022-08-03 基于集成学习的多智能体信用分配方法、系统、设备

Publications (2)

Publication Number Publication Date
CN115018017A CN115018017A (zh) 2022-09-06
CN115018017B true CN115018017B (zh) 2022-10-28

Family

ID=83065376

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210924862.8A Active CN115018017B (zh) 2022-08-03 2022-08-03 基于集成学习的多智能体信用分配方法、系统、设备

Country Status (1)

Country Link
CN (1) CN115018017B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115618754B (zh) * 2022-12-19 2023-04-07 中国科学院自动化研究所 多智能体的价值评估方法、装置和可读储存介质
CN115660110B (zh) * 2022-12-26 2023-04-14 中国科学院自动化研究所 多智能体信用分配方法、装置、可读存储介质和智能体
CN116128013B (zh) * 2023-04-07 2023-07-04 中国人民解放军国防科技大学 基于多样性种群训练的临机协同方法、装置和计算机设备
CN116975695B (zh) * 2023-08-30 2024-03-19 山东大学 一种基于多智能体强化学习的肢体运动识别系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111105034A (zh) * 2019-12-24 2020-05-05 中国科学院自动化研究所 基于反事实回报的多智能体深度强化学习方法、系统
CN114611664A (zh) * 2022-02-24 2022-06-10 中国科学院自动化研究所 一种多智能体学习方法、装置及设备
CN114662639A (zh) * 2022-03-24 2022-06-24 河海大学 一种基于值分解的多智能体强化学习方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635917B (zh) * 2018-10-17 2020-08-25 北京大学 一种多智能体合作决策及训练方法
US11836590B2 (en) * 2018-12-03 2023-12-05 AI Netomi, Inc. User intent classification using a multi-agent reinforcement learning framework
US20200279136A1 (en) * 2019-03-01 2020-09-03 Royal Bank Of Canada System and method for multi-type mean field reinforcement machine learning
CN112949933B (zh) * 2021-03-23 2022-08-02 成都信息工程大学 一种基于多智能体强化学习的交通组织方案优化方法
CN114154397B (zh) * 2021-11-09 2024-05-10 大连理工大学 一种基于深度强化学习的隐式对手建模方法
CN114449482B (zh) * 2022-03-11 2024-05-14 南京理工大学 基于多智能体深度强化学习的异构车联网用户关联方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111105034A (zh) * 2019-12-24 2020-05-05 中国科学院自动化研究所 基于反事实回报的多智能体深度强化学习方法、系统
CN114611664A (zh) * 2022-02-24 2022-06-10 中国科学院自动化研究所 一种多智能体学习方法、装置及设备
CN114662639A (zh) * 2022-03-24 2022-06-24 河海大学 一种基于值分解的多智能体强化学习方法及系统

Also Published As

Publication number Publication date
CN115018017A (zh) 2022-09-06

Similar Documents

Publication Publication Date Title
CN115018017B (zh) 基于集成学习的多智能体信用分配方法、系统、设备
CN110119844B (zh) 引入情绪调控机制的机器人运动决策方法、系统、装置
CN108921298B (zh) 强化学习多智能体沟通与决策方法
WO2020143847A2 (en) Determining action selection policies of an execution device
Yu From information networking to intelligence networking: Motivations, scenarios, and challenges
Wei et al. Deep reinforcement learning and parameter transfer based approach for the multi-objective agile earth observation satellite scheduling problem
CN114896899B (zh) 一种基于信息交互的多智能体分散式决策方法及系统
CN113627596A (zh) 基于动态图神经网络的多智能体对抗方法及系统
Chang et al. Redirection controller using reinforcement learning
CN113962390B (zh) 基于深度强化学习网络构建多样化搜索策略的模型的方法
US11204803B2 (en) Determining action selection policies of an execution device
CN112365359A (zh) 种植决策确定模型的训练方法、装置、设备以及存储介质
CN116992151A (zh) 一种基于双塔图卷积神经网络的在线课程推荐方法
CN115063274A (zh) 基于对象技术能力的虚拟现实飞行训练方案生成方法
WO2024120504A1 (zh) 一种数据处理方法及相关设备
CN117648548A (zh) 基于离线-在线混合强化学习的智能决策方法和装置
CN112470123B (zh) 确定执行设备的动作选择方针
Dong et al. Accelerating wargaming reinforcement learning by dynamic multi-demonstrator ensemble
Ravichandiran et al. Python reinforcement learning: solve complex real-world problems by mastering reinforcement learning algorithms using OpenAI Gym and TensorFlow
CN112041811B (zh) 确定执行设备的动作选择方针
CN114662656A (zh) 一种深度神经网络模型训练方法、自主导航方法及系统
CN114528992A (zh) 一种基于区块链的电子商务业务分析模型的训练方法
CN112041875B (zh) 确定执行设备的动作选择方针
CN114282741A (zh) 任务决策方法、装置、设备及存储介质
CN114282640B (zh) 多样性策略的生成方法、装置、介质和计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant