CN114130034A - 基于注意力机制与强化学习的多智能体游戏ai设计方法 - Google Patents

基于注意力机制与强化学习的多智能体游戏ai设计方法 Download PDF

Info

Publication number
CN114130034A
CN114130034A CN202111375819.2A CN202111375819A CN114130034A CN 114130034 A CN114130034 A CN 114130034A CN 202111375819 A CN202111375819 A CN 202111375819A CN 114130034 A CN114130034 A CN 114130034A
Authority
CN
China
Prior art keywords
information
observation
local
strategy
agent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111375819.2A
Other languages
English (en)
Other versions
CN114130034B (zh
Inventor
张宁宁
王立
郝建业
郑岩
马亿
王维埙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202111375819.2A priority Critical patent/CN114130034B/zh
Publication of CN114130034A publication Critical patent/CN114130034A/zh
Application granted granted Critical
Publication of CN114130034B publication Critical patent/CN114130034B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/60Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/60Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor
    • A63F13/67Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor adaptively or by learning from player actions, e.g. skill level adjustment or by storing successful combat sequences for re-use
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于注意力机制与强化学习的多智能体游戏AI设计方法,首先,对智能体原始观测信息进行基于实体的局部信息划分并分组;其次,基于每个分组信息表征得到当前时刻的局部策略,根据动作‑观测历史信息获得对应局部信息的注意力权重,根据注意力权重对所有局部策略进行聚合得到局部信息策略;最后,将局部信息策略与原始观测信息作为策略输入输出的基准策略进行聚合得到智能体最终的策略。与现有技术相比,本发明解决了多智能体系统中智能体观测信息冗余问题,能够有效的提高智能体的学习效率。

Description

基于注意力机制与强化学习的多智能体游戏AI设计方法
技术领域
本发明涉及多智能体深度强化学习领域,特别是涉及对战环境下的多智能体游戏AI的设计方法。
背景技术
多智能体强化学习是人工智能领域中一个十分重要的研究领域,被用于解决如大量机器人系统的协作、自动驾驶等的复杂多智能体问题并取得了良好的效果。
在多智能体强化学习领域,大多数算法框架均采用集中式训练&分布式执行原则。每个智能体在执行过程中独立地采用自身的观测信息进行决策,从而缓解了大规模智能体数量导致联合观测空间指数上升对策略网络的影响;在训练过程中采用所有智能体的联合动作-观测进行集中式学习,解决了每个智能体的状态转换分布不固定的问题。基于这一原则,COMA算法通过反事实推理方法解决多智能体信度分配问题,帮助智能体在整体奖励下完成更好地协作。此外,基于值分解的方法如VDN、QMIX、QTRAN算法,通过近似多智能体系统整体奖励估值函数与每个智能体局部估值函数之间的关系解决信度分配问题,从而保证帮助智能体在集中训练阶段学习到协作性策略。
目前的大多数多智能体强化学习方法聚焦于多智能体系统中智能体之间的协作问题,却少有考虑到每个智能体观测信息中的无关信息对智能体协作性决策的影响。例如:
UPDET算法:考虑到观测信息中各个部分信息对智能体进行最终决策的影响不同,对每个智能体执行过程中的观测信息基于实体进行划分,对实体集合采用自注意力机制生成对应的自注意力权重并进行聚合后用于下游强化学习策略。这种自注意力机制将所有实体信息表征依据自身与其他实体信息表征之间的相似度生成权重,并将其他实体信息依据权重进行聚合,因此通过自注意力机制处理后的各个实体信息表征实际上包含了观测中的所有信息,在一定程度上加重了观测信息中的冗余,对无关信息实际上是一种增强。
AI-QMIX算法:考虑到对于每个智能体来说,它的观测信息中并不是全部都和本次决策相关,无关的信息可能会对智能体进行正确的决策产生噪声,从而导致智能体决策网络不好学到最优策略。文章中对智能体的观测信息基于实体进行划分,同时将所有实体信息通过随机方式划分为关键信息组和无关信息组,针对不同组信息采用自注意力机制根据注意力权重进行聚合最终得到关键信息组和无关信息组对应的局部动作-观测奖励估值。通过混合网络,类似于QMIX算法中聚合局部估值的方式额外构建局部信息的整体估值函数损失进行训练。采用随机方法来判断观测中各个实体信息与当前决策的关联程度,对当前各个实体信息是否为关键信息进行判定并不合理。
ASN算法:首次思考了动作语义对智能体策略的影响,并构建了动作语义网络来处理针对不同局部观测信息输出的局部动作语义,通过聚合帮助优化智能体的当前策略。对动作空间基于动作语义进行划分,这种划分方式相当于已经人为对每个局部观测的策略进行了约束,可能导致策略融合的不充分,同时,文章中划分的动作子空间规模差异导致了最终策略的融合过程复杂度上升。
目前,仅有很少一部分研究中提到智能体观测信息中的无关信息对当前决策的影响问题,如何学习判断当前观测信息中各个部分信息对最终决策的影响程度以及尽可能强化相关信息并弱化无关信息仍然是一个开放问题。
发明内容
本发明旨在解决多智能体系统中智能体观测信息冗余问题,而提出了一种基于注意力机制与强化学习的多智能体游戏AI设计方法,通过对智能体观测信息进行分组聚合以及局部策略融合的方式,借助学习识别无关信息并将其弱化,帮助多智能体系统中各个智能体更有效地进行协作性决策,实现了多智能体游戏AI设计综合策略。
本发明采用以下的技术方案来实现:
与现有技术相比,本发明有效的提高了多智能体系统中智能体独立策略的学习效率。
附图说明
图1为本发明的基于注意力机制与强化学习的多智能体游戏AI设计方法整体流程图;
图2为智能体观测信息分组执行架构图;
图3为针对各个实体部分信息表征方法训练架构图;
图4为智能体独立执行过程结合原始观测以及分组信息进行决策架构图;
图5为决策网络架构与基本多智能体强化学习算法QMIX结合架构图。
具体实施方式
以下结合附图和具体实施例对本发明的技术方案进行详细说明。
本发明的基于注意力机制与强化学习的多智能体游戏AI设计方法包括局部观测信息划分以及局部策略融合。如图1所示,为本发明的基于注意力机制与强化学习的多智能体游戏AI设计方法整体流程图。具体流程如下:
步骤1、对智能体原始观测信息进行基于实体的局部信息划分并分组,具体包括以下处理:
将智能体视野中的实体观测特征相近的两个实体观测特征划分在整个视野中的同一个区域,从而构成一个分组。所述实体观测特征是通过监督学习方式学习原始观测信息中对各个实体观测信息的表征、同时结合智能体自身状态信息构建出的各个实体观测信息的embeddings。通过K-Means聚合方法,对所有的实体观测信息embeddings进行分组并进行组内聚合,根据各个实体部分信息与智能体当前自身状态信息之间的联系对各个实体部分信息进行智能分组,从而完成对原始观测信息的整体划分。为之后有效弱化与当前正确决策弱相关的视野信息提供了基础。
各个不同的分组对智能体进行最终决策的影响不同,关键分组能够帮助智能体选择更有效的协作性策略,无关分组会增加额外的噪声,从而阻碍智能体选择当前时刻更有效的协作性策略。为了衡量各个分组对最终决策的影响,额外构建局部策略网络以及注意力权重生成器,针对每个分组独立输出对应的局部策略,同时根据下一时刻的动作观测历史分组,通过注意力权重生成器输出每个分组对最终决策的相关程度。
在多智能体系统中,每个智能体的观测信息由对环境中各个实体的观测信息向量组成,智能体i在t时刻下的观测向量
Figure BDA0003363947670000041
组成如下:
Figure BDA0003363947670000042
t时刻下,智能体i自身状态信息为
Figure BDA0003363947670000043
智能体i对环境的观测信息为
Figure BDA0003363947670000044
分别表示智能体i对当前环境中其他智能体的观测信息,对于部分可观测环境设置中,智能体i对其视野中不存在的智能体的观测信息置为零向量。
如图2所示,为智能体观测信息分组执行架构图。所述智能体观测信息分组的执行包括具体步骤如下:
步骤1-1、独立执行过程,每个智能体i根据观测到的自身状态信息
Figure BDA0003363947670000045
以及对环境中对其他实体的观测信息
Figure BDA0003363947670000046
通过对应表征函数g(·;ζ1)以及f(·;ζ2)分别获得智能体原始观测中各个部分信息的表征
Figure BDA0003363947670000047
所有实体观测信息作为一个共享的表征函数f输入,输出对应实体观测信息的表征向量
Figure BDA0003363947670000051
同时智能体i自身状态信息作为一个自身信息表征函数g输入,输出对应自身状态信息表征向量
Figure BDA0003363947670000052
所有的实体观测信息的表征向量分别与自身状态信息表征向量做哈达玛积得到每个实体观测信息的最终表征向量;
步骤1-2、对于每个其他实体的观测信息表征,分别与自身状态信息表征求哈达玛积得到对其他实体观测信息的embeddings,通过K-Means聚类方法,将所有实体观测表征进行分组,每个分组内进行均值聚合最终得到每个观测信息组的每个组观测信息的表征向量
Figure BDA0003363947670000053
步骤1-3、将原始观测信息与所有组的表征向量作为智能体局部估值函数输入,根据输出的观测-动作估值选择动作
Figure BDA0003363947670000054
环境基于联合观测-动作反馈给每个智能体下一时刻的观测信息
Figure BDA0003363947670000055
以及完成该步转换的整体即时奖励rt。将所有智能体的观测信息
Figure BDA0003363947670000056
动作
Figure BDA0003363947670000057
整体奖励rt以及下一个时刻所有智能体的观测信息
Figure BDA0003363947670000058
存储在经验回放缓冲区D中。
步骤1-4、构建联合动作表征函数u(u(·;ζ3))、观测信息预测器(Φ(·;ξ1))Φ以及即时奖励预测器Ψ(Ψ(·;ξ2)),通过表征函数g(g(·;ζ1))、f(f(·;ζ2))以及u分别输出对应的各个部分观测信息表征以及联合动作表征;采用监督学习的方式学习对局部观测实体信息的表征函数f,以及自身状态信息表征函数g,用于优化f,g的损失函数如下:
Laux=L1+βL2
Figure BDA0003363947670000059
Figure BDA00033639476700000510
其中,Laux表示用于优化f,g的整体损失函数表示,L1,L2分别表示对观测信息预测器以及对即时奖励预测器的优化损失函数,β表示两种预测器优化损失在整体损失函数中的权重,
Figure BDA00033639476700000511
表示期望计算,D表示通过与环境交互获得的数据集合,ζ1,ζ2,ζ3分别表示智能体自身状态信息表征函数、对局部观测实体信息的表征函数以及联合动作表征函数的参数,ξ1,ξ2分别表示观测信息预测器以及即时奖励预测器的参数集合;
步骤2、基于注意力机制的局部策略融合算法对智能体原始观测中各个信息的表征向量进行训练,根据动作-观测历史信息获得对应局部信息的注意力权重,根据注意力权重对所有局部策略进行聚合得到当前时刻的局部信息策略,所述局部信息策略包括:考虑到不同的分组的信息对智能体最终选择正确的策略的影响程度不同与当前对于正确选择无关的分组信息很大程度为模糊智能体对正确策略的选择,帮助智能体识别与当前正确决策无关或者弱相关的分组信息,并通过注意力机制的方式对其进行弱化,从而保证智能体能够更容易进行正确的决策。
如图3所示,为针对各个实体部分信息表征向量训练架构图。其中,将原始观测中各个部分信息的表征向量学习看作一个回归问题。将所有实体表征以及所有智能体的联合动作表征作为输入,通过一个预测器输出的下一时刻观测信息与即时奖励与环境反馈的下一时刻的真实观测信息与即时奖励尽可能接近。步骤2的具体流程如下:
步骤2-1、在原始估值函数网络的基础上,额外构建被所有分组表征共享的局部估值网络q_local,原始估值函数q_base以原始观测为输入,输出当前观测下每个动作对应的估值作为基准观测-动作估值,q_local分别以所有分组表征作为输入,输出对应的局部信息-动作估值作为局部观测信息-动作估值;
步骤2-2、构建注意力权重函数ω、以观测的智能体当前动作历史轨迹信息embedding为输入,输出每个分组对应的注意力权重值,用于衡量每个分组对于最终决策的影响程度;
步骤2-3、将局部估值基于注意力权重进行加权聚合,得到最终的局部估值修正Ql,智能体最终的估值网络输出为局部估值修正与基准估值聚合的结果;
步骤2-4、新构建的估值网络训练采用端到端的训练方式,可以拓展到大多数多智能体强化学习方法中;替代每个智能体独立执行阶段的策略网络或者估值网络架构,通过多智能体强化学习算法损失函数端到端地训练局部策略融合网络。如图5所示,为决策网络架构与基本多智能体强化学习算法QMIX结合架构图。这里以多智能体强化学习算法QMIX为例,描述局部策略融合网络具体训练流程:
步骤2-4-1、独立执行阶段,每个智能体对自身原始观测信息进行分组,并结合原始观测以及分组信息进行局部策略融合得到最终的策略执行并保存经验数据至经验回放缓冲区中;
步骤2-4-2、集中训练阶段,首先固定实体信息表征函数,根据当前采样经验数据通过固定的分组方法得到分组信息,根据当前采样经验数据以及对应的分组信息集中训练每个智能体的独立估值函数;
步骤2-4-3、进行若干次估值函数训练后,根据经验回放缓冲区的数据进行一次实体表征函数的优化训练;
步骤3、在智能体独立执行过程中,结合智能体的原始观测信息与分组进行局部策略融合,将局部信息策略与原始观测信息作为策略输入输出的基准策略进行聚合得到智能体最终的策略;
通过分组模块获得各个分组的观测表征向量后,考虑到不同的分组的信息对智能体最终选择正确的策略的影响程度不同,与当前对于正确选择无关的分组信息很大程度为模糊智能体对正确策略的选择。本发明的目的在于,通过额外的局部策略网络(或估值网络)的设计,帮助智能体识别与当前正确决策无关或者弱相关的分组信息并通过注意力机制的方式对其进行弱化,从而保证智能体能够更容易进行正确的决策。如图4所示,为智能体独立执行过程结合原始观测以及分组信息进行决策架构图。具体流程如下:
步骤3-1、为了判断每个分组信息对于智能体最终决策结果的影响,额外构建一个局部估值网络q_local。该网络以每个分组信息作为输入,输出该分组信息对应的各个动作的局部估值。例如,
Figure BDA0003363947670000071
输出了完全弱化其他部分信息,仅仅包含索引为k的分组的信息所得到的局部观测-动作估值。
步骤3-2、为了生成对每个分组信息的注意力权重,引入一个注意力权重生成器ω,权重生成器以q_base输出的下一时刻的动作-观测历史轨迹信息作为输入,输出每个分组对应的注意力权重。所有的分组信息对应的局部观测-动作估值基于注意力权重进行加权聚合,得到最终的观测-动作估值修正
Figure BDA0003363947670000081
步骤3-3、智能体最终的独立策略由局部估值修正
Figure BDA0003363947670000082
以及q_base输出的基准估值
Figure BDA0003363947670000083
聚合得到。

Claims (4)

1.一种基于注意力机制与强化学习的多智能体游戏AI设计方法,其特征在于,该方法具体包括以下步骤:
步骤1、对智能体原始观测信息进行基于实体的局部信息划分并分组;
步骤2、基于注意力机制的局部策略融合算法对智能体原始观测中各个信息的表征向量进行训练,根据动作-观测历史信息获得对应局部信息的注意力权重,根据注意力权重对所有局部策略进行聚合得到当前时刻的局部信息策略,所述局部信息策略包括:考虑到不同的分组的信息对智能体最终选择正确的策略的影响程度不同与当前对于正确选择无关的分组信息很大程度为模糊智能体对正确策略的选择,帮助智能体识别与当前正确决策无关或者弱相关的分组信息,并通过注意力机制的方式对其进行弱化,从而保证智能体能够更容易进行正确的决策;
步骤3、在智能体独立执行过程中,结合智能体的原始观测信息与分组进行局部策略融合,将局部信息策略与原始观测信息作为策略输入输出的基准策略进行聚合得到智能体最终的策略。
2.如权利要求1所述的基于注意力机制与强化学习的多智能体游戏AI设计方法,其特征在于,所述步骤1进一步包括以下处理:
步骤1-1、独立执行过程,智能体i根据自身观测将所有局部的实体观测信息进行划分,所有实体观测信息作为一个共享的表征函数f输入,输出对应实体观测信息的表征向量
Figure FDA0003363947660000011
同时智能体i自身状态信息作为一个自身信息表征函数g输入,输出对应自身状态信息表征向量
Figure FDA0003363947660000012
所有的实体观测信息的表征向量分别与自身状态信息表征向量做哈达玛积得到每个实体观测信息的最终表征向量;
步骤1-2、对于每个其他实体的观测信息表征,分别与自身状态信息表征求哈达玛积得到对其他实体观测信息的embeddings,通过K-Means聚类方法,将所有实体观测表征进行分组,每个分组内进行均值聚合最终得到每个观测信息组的每个组观测信息的表征向量
Figure FDA0003363947660000021
步骤1-3、将原始观测信息与所有组的表征向量作为智能体局部估值函数输入,根据输出的观测-动作估值选择动作
Figure FDA0003363947660000022
环境基于联合观测-动作反馈给每个智能体下一时刻的观测信息
Figure FDA0003363947660000023
以及完成该步转换的整体即时奖励rt;将所有智能体的观测信息
Figure FDA0003363947660000024
动作
Figure FDA0003363947660000025
整体奖励rt以及下一个时刻所有智能体的观测信息
Figure FDA0003363947660000026
存储在经验回放缓冲区中;
步骤1-4、构建联合动作表征函数u、观测信息预测器Φ以及即时奖励预测器Ψ,通过表征函数g、f以及u分别输出对应的各个部分观测信息表征以及联合动作表征;用于优化f,g的损失函数。
3.如权利要求1所述的基于注意力机制与强化学习的多智能体游戏AI设计方法,其特征在于,所述步骤2进一步包括以下处理:
步骤2-1、在原始估值函数网络的基础上,额外构建被所有分组表征共享的局部估值网络q_local,原始估值函数q_base以原始观测为输入,输出当前观测下每个动作对应的估值作为基准观测-动作估值,q_local分别以所有分组表征作为输入,输出对应的局部信息-动作估值作为局部观测信息-动作估值;
步骤2-2、构建注意力权重函数ω、以观测的智能体当前动作历史轨迹信息embedding为输入,输出每个分组对应的注意力权重值,用于衡量每个分组对于最终决策的影响程度;
步骤2-3、将局部估值基于注意力权重进行加权聚合,得到最终的局部估值修正Ql,智能体最终的估值网络输出为局部估值修正与基准估值聚合的结果;
步骤2-4、新构建的估值网络训练采用端到端的训练方式,可以拓展到大多数多智能体强化学习方法中;替代每个智能体独立执行阶段的策略网络或者估值网络架构,通过多智能体强化学习算法损失函数端到端地训练局部策略融合网络。
4.如权利要求1所述的基于注意力机制与强化学习的多智能体游戏AI设计方法,其特征在于,所述步骤3进一步包括以下处理:
步骤3-1、为了,额外构建一个局部估值网络q_local;该网络以每个分组信息作为输入,输出该分组信息对应的各个动作的局部估值,用于判断每个分组信息对于智能体最终决策结果的影响;
步骤3-2、引入注意力权重生成器ω,权重生成器以q_base输出的下一时刻的动作-观测历史轨迹信息作为输入,输出每个分组对应的注意力权重;所有的分组信息对应的局部观测-动作估值基于注意力权重进行加权聚合,得到最终的观测-动作估值修正
Figure FDA0003363947660000031
步骤3-3、智能体最终的独立策略由局部估值修正
Figure FDA0003363947660000032
以及q_base输出的基准估值
Figure FDA0003363947660000033
聚合得到。
CN202111375819.2A 2021-11-19 2021-11-19 基于注意力机制与强化学习的多智能体游戏ai设计方法 Active CN114130034B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111375819.2A CN114130034B (zh) 2021-11-19 2021-11-19 基于注意力机制与强化学习的多智能体游戏ai设计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111375819.2A CN114130034B (zh) 2021-11-19 2021-11-19 基于注意力机制与强化学习的多智能体游戏ai设计方法

Publications (2)

Publication Number Publication Date
CN114130034A true CN114130034A (zh) 2022-03-04
CN114130034B CN114130034B (zh) 2023-08-18

Family

ID=80390377

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111375819.2A Active CN114130034B (zh) 2021-11-19 2021-11-19 基于注意力机制与强化学习的多智能体游戏ai设计方法

Country Status (1)

Country Link
CN (1) CN114130034B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115300910A (zh) * 2022-07-15 2022-11-08 浙江大学 基于多智能体强化学习的去混淆游戏策略模型生成方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109726903A (zh) * 2018-12-19 2019-05-07 中国电子科技集团公司信息科学研究院 基于注意力机制的分布式多智能体协同决策方法
CN111144490A (zh) * 2019-12-26 2020-05-12 南京邮电大学 一种基于轮替知识蒸馏策略的细粒度识别方法
CN112233173A (zh) * 2020-10-15 2021-01-15 上海海事大学 一种视力障碍人士室内物品寻找与定位的方法
US20210019642A1 (en) * 2019-07-17 2021-01-21 Wingman AI Agents Limited System for voice communication with ai agents in an environment
CN112632993A (zh) * 2020-11-27 2021-04-09 浙江工业大学 一种基于卷积注意力网络的电力计量实体识别模型的分类方法
CN112905900A (zh) * 2021-04-02 2021-06-04 辽宁工程技术大学 基于图卷积注意力机制的协同过滤推荐算法
CN113033520A (zh) * 2021-05-25 2021-06-25 华中农业大学 一种基于深度学习的树木线虫病害木识别方法及系统
CN113313267A (zh) * 2021-06-28 2021-08-27 浙江大学 一种基于值分解和注意力机制的多智能体强化学习方法
CN113392935A (zh) * 2021-07-09 2021-09-14 浙江工业大学 基于注意力机制的多智能体深度强化学习策略优化方法
CN113642233A (zh) * 2021-07-29 2021-11-12 太原理工大学 一种通信机制优化的群体智能协同方法
CN113641192A (zh) * 2021-07-06 2021-11-12 暨南大学 一种基于强化学习的无人机群智感知任务的路径规划方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109726903A (zh) * 2018-12-19 2019-05-07 中国电子科技集团公司信息科学研究院 基于注意力机制的分布式多智能体协同决策方法
US20210019642A1 (en) * 2019-07-17 2021-01-21 Wingman AI Agents Limited System for voice communication with ai agents in an environment
CN111144490A (zh) * 2019-12-26 2020-05-12 南京邮电大学 一种基于轮替知识蒸馏策略的细粒度识别方法
CN112233173A (zh) * 2020-10-15 2021-01-15 上海海事大学 一种视力障碍人士室内物品寻找与定位的方法
CN112632993A (zh) * 2020-11-27 2021-04-09 浙江工业大学 一种基于卷积注意力网络的电力计量实体识别模型的分类方法
CN112905900A (zh) * 2021-04-02 2021-06-04 辽宁工程技术大学 基于图卷积注意力机制的协同过滤推荐算法
CN113033520A (zh) * 2021-05-25 2021-06-25 华中农业大学 一种基于深度学习的树木线虫病害木识别方法及系统
CN113313267A (zh) * 2021-06-28 2021-08-27 浙江大学 一种基于值分解和注意力机制的多智能体强化学习方法
CN113641192A (zh) * 2021-07-06 2021-11-12 暨南大学 一种基于强化学习的无人机群智感知任务的路径规划方法
CN113392935A (zh) * 2021-07-09 2021-09-14 浙江工业大学 基于注意力机制的多智能体深度强化学习策略优化方法
CN113642233A (zh) * 2021-07-29 2021-11-12 太原理工大学 一种通信机制优化的群体智能协同方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115300910A (zh) * 2022-07-15 2022-11-08 浙江大学 基于多智能体强化学习的去混淆游戏策略模型生成方法
CN115300910B (zh) * 2022-07-15 2023-07-21 浙江大学 基于多智能体强化学习的去混淆游戏策略模型生成方法

Also Published As

Publication number Publication date
CN114130034B (zh) 2023-08-18

Similar Documents

Publication Publication Date Title
Barbounis et al. Locally recurrent neural networks for wind speed prediction using spatial correlation
Zhao et al. Tuning the structure and parameters of a neural network using cooperative binary-real particle swarm optimization
CN107194026A (zh) 基于贝叶斯网络的吸收塔脱硫过程建模方法
Kang et al. A virtual sample generation method based on differential evolution algorithm for overall trend of small sample data: Used for lithium-ion battery capacity degradation data
CN109858798B (zh) 关联改造措施与电压指标的电网投资决策建模方法及装置
CN113141012B (zh) 电网潮流调控决策推理方法
CN111917134B (zh) 一种基于数据驱动的配电网动态自主重构方法及系统
CN114130034A (zh) 基于注意力机制与强化学习的多智能体游戏ai设计方法
Fang et al. Two-stream fused fuzzy deep neural network for multiagent learning
CN115577647B (zh) 电网故障类型识别方法与智能体构建方法
Abiyev Fuzzy wavelet neural network for prediction of electricity consumption
Zhang et al. Clique-based cooperative multiagent reinforcement learning using factor graphs
Yu et al. A dynamic multi-objective evolutionary algorithm based on polynomial regression and adaptive clustering
Wang et al. Elongation prediction of steel-strips in annealing furnace with deep learning via improved incremental extreme learning machine
CN110070177A (zh) 一种非重叠网络和重叠网络中社团结构检测方法
CN115150335A (zh) 一种基于深度强化学习的最优流量分割的方法和系统
Li et al. Using self-constructing recurrent fuzzy neural networks for identification of nonlinear dynamic systems
CN105512754A (zh) 一种基于共轭先验的单模分布估计优化方法
Rout et al. Efficient long range prediction of exchange rates using Radial Basis Function Neural Network models
Mateou et al. Fuzzy influence diagrams: an alternative approach to decision making under uncertainty
Tarle et al. A world model based reinforcement learning architecture for autonomous power system control
Phatai et al. Cultural algorithm initializes weights of neural network model for annual electricity consumption prediction
Varshney et al. Approximation of 2D function using simplest neural networks—A comparative study and development of GUI system
Behera et al. Evolutionary hybrid neural networks for time series forecasting
Gu Application of deep intensive learning in RNA secondary structure prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant