CN114130034B - 基于注意力机制与强化学习的多智能体游戏ai设计方法 - Google Patents

基于注意力机制与强化学习的多智能体游戏ai设计方法 Download PDF

Info

Publication number
CN114130034B
CN114130034B CN202111375819.2A CN202111375819A CN114130034B CN 114130034 B CN114130034 B CN 114130034B CN 202111375819 A CN202111375819 A CN 202111375819A CN 114130034 B CN114130034 B CN 114130034B
Authority
CN
China
Prior art keywords
information
observation
local
strategy
characterization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111375819.2A
Other languages
English (en)
Other versions
CN114130034A (zh
Inventor
张宁宁
王立
郝建业
郑岩
马亿
王维埙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202111375819.2A priority Critical patent/CN114130034B/zh
Publication of CN114130034A publication Critical patent/CN114130034A/zh
Application granted granted Critical
Publication of CN114130034B publication Critical patent/CN114130034B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/60Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/60Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor
    • A63F13/67Generating or modifying game content before or while executing the game program, e.g. authoring tools specially adapted for game development or game-integrated level editor adaptively or by learning from player actions, e.g. skill level adjustment or by storing successful combat sequences for re-use
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于注意力机制与强化学习的多智能体游戏AI设计方法,首先,对智能体原始观测信息进行基于实体的局部信息划分并分组;其次,基于每个分组信息表征得到当前时刻的局部策略,根据动作‑观测历史信息获得对应局部信息的注意力权重,根据注意力权重对所有局部策略进行聚合得到局部信息策略;最后,将局部信息策略与原始观测信息作为策略输入输出的基准策略进行聚合得到智能体最终的策略。与现有技术相比,本发明解决了多智能体系统中智能体观测信息冗余问题,能够有效的提高智能体的学习效率。

Description

基于注意力机制与强化学习的多智能体游戏AI设计方法
技术领域
本发明涉及多智能体深度强化学习领域,特别是涉及对战环境下的多智能体游戏AI的设计方法。
背景技术
多智能体强化学习是人工智能领域中一个十分重要的研究领域,被用于解决如大量机器人系统的协作、自动驾驶等的复杂多智能体问题并取得了良好的效果。
在多智能体强化学习领域,大多数算法框架均采用集中式训练&分布式执行原则。每个智能体在执行过程中独立地采用自身的观测信息进行决策,从而缓解了大规模智能体数量导致联合观测空间指数上升对策略网络的影响;在训练过程中采用所有智能体的联合动作-观测进行集中式学习,解决了每个智能体的状态转换分布不固定的问题。基于这一原则,COMA算法通过反事实推理方法解决多智能体信度分配问题,帮助智能体在整体奖励下完成更好地协作。此外,基于值分解的方法如VDN、QMIX、QTRAN算法,通过近似多智能体系统整体奖励估值函数与每个智能体局部估值函数之间的关系解决信度分配问题,从而保证帮助智能体在集中训练阶段学习到协作性策略。
目前的大多数多智能体强化学习方法聚焦于多智能体系统中智能体之间的协作问题,却少有考虑到每个智能体观测信息中的无关信息对智能体协作性决策的影响。例如:
UPDET算法:考虑到观测信息中各个部分信息对智能体进行最终决策的影响不同,对每个智能体执行过程中的观测信息基于实体进行划分,对实体集合采用自注意力机制生成对应的自注意力权重并进行聚合后用于下游强化学习策略。这种自注意力机制将所有实体信息表征依据自身与其他实体信息表征之间的相似度生成权重,并将其他实体信息依据权重进行聚合,因此通过自注意力机制处理后的各个实体信息表征实际上包含了观测中的所有信息,在一定程度上加重了观测信息中的冗余,对无关信息实际上是一种增强。
AI-QMIX算法:考虑到对于每个智能体来说,它的观测信息中并不是全部都和本次决策相关,无关的信息可能会对智能体进行正确的决策产生噪声,从而导致智能体决策网络不好学到最优策略。文章中对智能体的观测信息基于实体进行划分,同时将所有实体信息通过随机方式划分为关键信息组和无关信息组,针对不同组信息采用自注意力机制根据注意力权重进行聚合最终得到关键信息组和无关信息组对应的局部动作-观测奖励估值。通过混合网络,类似于QMIX算法中聚合局部估值的方式额外构建局部信息的整体估值函数损失进行训练。采用随机方法来判断观测中各个实体信息与当前决策的关联程度,对当前各个实体信息是否为关键信息进行判定并不合理。
ASN算法:首次思考了动作语义对智能体策略的影响,并构建了动作语义网络来处理针对不同局部观测信息输出的局部动作语义,通过聚合帮助优化智能体的当前策略。对动作空间基于动作语义进行划分,这种划分方式相当于已经人为对每个局部观测的策略进行了约束,可能导致策略融合的不充分,同时,文章中划分的动作子空间规模差异导致了最终策略的融合过程复杂度上升。
目前,仅有很少一部分研究中提到智能体观测信息中的无关信息对当前决策的影响问题,如何学习判断当前观测信息中各个部分信息对最终决策的影响程度以及尽可能强化相关信息并弱化无关信息仍然是一个开放问题。
发明内容
本发明旨在解决多智能体系统中智能体观测信息冗余问题,而提出了一种基于注意力机制与强化学习的多智能体游戏AI设计方法,通过对智能体观测信息进行分组聚合以及局部策略融合的方式,借助学习识别无关信息并将其弱化,帮助多智能体系统中各个智能体更有效地进行协作性决策,实现了多智能体游戏AI设计综合策略。
本发明采用以下的技术方案来实现:
一种基于注意力机制与强化学习的多智能体游戏AI设计方法,该方法具体包括以下步骤:
步骤1、对智能体原始观测信息进行基于实体的局部信息划分并分组;所述步骤1进一步包括以下处理:
步骤1-1、独立执行过程,智能体i根据自身观测将所有局部的实体观测信息进行划分,所有实体观测信息作为一个共享的表征函数f输入,输出对应实体观测信息的表征向量同时智能体i自身状态信息作为一个自身信息表征函数g输入,输出对应自身状态信息表征向量/>所有的实体观测信息的表征向量分别与自身状态信息表征向量做哈达玛积得到每个实体观测信息的最终表征向量;
步骤1-2、对于每个其他实体的观测信息表征,分别与自身状态信息表征求哈达玛积得到对其他实体观测信息的embeddings,通过K-Means聚类方法,将所有实体观测表征进行分组,每个分组内进行均值聚合最终得到每个观测信息组的每个组观测信息的表征向量
步骤1-3、将原始观测信息与所有组的表征向量作为智能体局部估值函数输入,根据输出的观测-动作估值选择动作环境基于联合观测-动作反馈给每个智能体下一时刻的观测信息/>以及完成该步转换的整体即时奖励rt;将所有智能体的观测信息/>动作/>整体奖励rt以及下一个时刻所有智能体的观测信息/>存储在经验回放缓冲区中;
步骤1-4、构建联合动作表征函数u、观测信息预测器Φ以及即时奖励预测器Ψ,通过表征函数g、f以及u分别输出对应的各个部分观测信息表征以及联合动作表征;用于优化f,g的损失函数;
步骤2、基于注意力机制的局部策略融合算法对智能体原始观测中各个信息的表征向量进行训练,根据动作-观测历史信息获得对应局部信息的注意力权重,根据注意力权重对所有局部策略进行聚合得到当前时刻的局部信息策略,所述局部信息策略包括:根据不同的分组的信息对智能体最终选择正确的策略的影响程度不同与当前对于正确选择无关的分组信息很大程度为模糊智能体对正确策略的选择,实现了智能体识别与当前正确决策无关或者弱相关的分组信息,并通过注意力机制的方式对其进行弱化,进行智能体正确的决策;所述步骤2进一步包括以下处理:
步骤2-1、在原始估值函数网络的基础上,额外构建被所有分组表征共享的局部估值网络q_local,原始估值函数q_base以原始观测为输入,输出当前观测下每个动作对应的估值作为基准观测-动作估值,q_local分别以所有分组表征作为输入,输出对应的局部信息-动作估值作为局部观测信息-动作估值;
步骤2-2、构建注意力权重函数ω、以观测的智能体当前动作历史轨迹信息embedding为输入,输出每个分组对应的注意力权重值,用于衡量每个分组对于最终决策的影响程度;
步骤2-3、将局部估值基于注意力权重进行加权聚合,得到最终的局部估值修正Ql,智能体最终的估值网络输出为局部估值修正与基准估值聚合的结果;
步骤2-4、新构建的估值网络训练采用端到端的训练方式,可以拓展到大多数多智能体强化学习方法中;替代每个智能体独立执行阶段的策略网络或者估值网络架构,通过多智能体强化学习算法损失函数端到端地训练局部策略融合网络;
步骤3、在智能体独立执行过程中,结合智能体的原始观测信息与分组进行局部策略融合,将局部信息策略与原始观测信息作为策略输入输出的基准策略进行聚合得到智能体最终的策略。
与现有技术相比,本发明有效的提高了多智能体系统中智能体独立策略的学习效率。
附图说明
图1为本发明的基于注意力机制与强化学习的多智能体游戏AI设计方法整体流程图;
图2为智能体观测信息分组执行架构图;
图3为针对各个实体部分信息表征方法训练架构图;
图4为智能体独立执行过程结合原始观测以及分组信息进行决策架构图;
图5为决策网络架构与基本多智能体强化学习算法QMIX结合架构图。
具体实施方式
以下结合附图和具体实施例对本发明的技术方案进行详细说明。
本发明的基于注意力机制与强化学习的多智能体游戏AI设计方法包括局部观测信息划分以及局部策略融合。如图1所示,为本发明的基于注意力机制与强化学习的多智能体游戏AI设计方法整体流程图。具体流程如下:
步骤1、对智能体原始观测信息进行基于实体的局部信息划分并分组,具体包括以下处理:
将智能体视野中的实体观测特征相近的两个实体观测特征划分在整个视野中的同一个区域,从而构成一个分组。所述实体观测特征是通过监督学习方式学习原始观测信息中对各个实体观测信息的表征、同时结合智能体自身状态信息构建出的各个实体观测信息的embeddings。通过K-Means聚合方法,对所有的实体观测信息embeddings进行分组并进行组内聚合,根据各个实体部分信息与智能体当前自身状态信息之间的联系对各个实体部分信息进行智能分组,从而完成对原始观测信息的整体划分。为之后有效弱化与当前正确决策弱相关的视野信息提供了基础。
各个不同的分组对智能体进行最终决策的影响不同,关键分组能够帮助智能体选择更有效的协作性策略,无关分组会增加额外的噪声,从而阻碍智能体选择当前时刻更有效的协作性策略。为了衡量各个分组对最终决策的影响,额外构建局部策略网络以及注意力权重生成器,针对每个分组独立输出对应的局部策略,同时根据下一时刻的动作观测历史分组,通过注意力权重生成器输出每个分组对最终决策的相关程度。
在多智能体系统中,每个智能体的观测信息由对环境中各个实体的观测信息向量组成,智能体i在t时刻下的观测向量组成如下:
t时刻下,智能体i自身状态信息为智能体i对环境的观测信息为/>分别表示智能体i对当前环境中其他智能体的观测信息,对于部分可观测环境设置中,智能体i对其视野中不存在的智能体的观测信息置为零向量。
如图2所示,为智能体观测信息分组执行架构图。所述智能体观测信息分组的执行包括具体步骤如下:
步骤1-1、独立执行过程,每个智能体i根据观测到的自身状态信息以及对环境中对其他实体的观测信息/>通过对应表征函数g(·;ζ1)以及f(·;ζ2)分别获得智能体原始观测中各个部分信息的表征/>所有实体观测信息作为一个共享的表征函数f输入,输出对应实体观测信息的表征向量/>同时智能体i自身状态信息作为一个自身信息表征函数g输入,输出对应自身状态信息表征向量/>所有的实体观测信息的表征向量分别与自身状态信息表征向量做哈达玛积得到每个实体观测信息的最终表征向量;
步骤1-2、对于每个其他实体的观测信息表征,分别与自身状态信息表征求哈达玛积得到对其他实体观测信息的embeddings,通过K-Means聚类方法,将所有实体观测表征进行分组,每个分组内进行均值聚合最终得到每个观测信息组的每个组观测信息的表征向量
步骤1-3、将原始观测信息与所有组的表征向量作为智能体局部估值函数输入,根据输出的观测-动作估值选择动作环境基于联合观测-动作反馈给每个智能体下一时刻的观测信息/>以及完成该步转换的整体即时奖励rt。将所有智能体的观测信息/>动作/>整体奖励rt以及下一个时刻所有智能体的观测信息/>存储在经验回放缓冲区D中。
步骤1-4、构建联合动作表征函数u(u(·;ζ3))、观测信息预测器(Φ(·;ζ1))Φ以及即时奖励预测器Ψ(Ψ(·;ξ2)),通过表征函数g(g(·;ζ1))、f(f(·;ζ2))以及u分别输出对应的各个部分观测信息表征以及联合动作表征;采用监督学习的方式学习对局部观测实体信息的表征函数f,以及自身状态信息表征函数g,用于优化f,g的损失函数如下:
Laux=L1+βL2
其中,Laux表示用于优化f,g的整体损失函数表示,L1,L2分别表示对观测信息预测器以及对即时奖励预测器的优化损失函数,β表示两种预测器优化损失在整体损失函数中的权重,表示期望计算,D表示通过与环境交互获得的数据集合,ζ1,ζ2,ζ3分别表示智能体自身状态信息表征函数、对局部观测实体信息的表征函数以及联合动作表征函数的参数,ξ1,ξ2分别表示观测信息预测器以及即时奖励预测器的参数集合;
步骤2、基于注意力机制的局部策略融合算法对智能体原始观测中各个信息的表征向量进行训练,根据动作-观测历史信息获得对应局部信息的注意力权重,根据注意力权重对所有局部策略进行聚合得到当前时刻的局部信息策略,所述局部信息策略包括:考虑到不同的分组的信息对智能体最终选择正确的策略的影响程度不同与当前对于正确选择无关的分组信息很大程度为模糊智能体对正确策略的选择,帮助智能体识别与当前正确决策无关或者弱相关的分组信息,并通过注意力机制的方式对其进行弱化,从而保证智能体能够更容易进行正确的决策。
如图3所示,为针对各个实体部分信息表征向量训练架构图。其中,将原始观测中各个部分信息的表征向量学习看作一个回归问题。将所有实体表征以及所有智能体的联合动作表征作为输入,通过一个预测器输出的下一时刻观测信息与即时奖励与环境反馈的下一时刻的真实观测信息与即时奖励尽可能接近。步骤2的具体流程如下:
步骤2-1、在原始估值函数网络的基础上,额外构建被所有分组表征共享的局部估值网络q_local,原始估值函数q_base以原始观测为输入,输出当前观测下每个动作对应的估值作为基准观测-动作估值,q_local分别以所有分组表征作为输入,输出对应的局部信息-动作估值作为局部观测信息-动作估值;
步骤2-2、构建注意力权重函数ω、以观测的智能体当前动作历史轨迹信息embedding为输入,输出每个分组对应的注意力权重值,用于衡量每个分组对于最终决策的影响程度;
步骤2-3、将局部估值基于注意力权重进行加权聚合,得到最终的局部估值修正Ql,智能体最终的估值网络输出为局部估值修正与基准估值聚合的结果;
步骤2-4、新构建的估值网络训练采用端到端的训练方式,可以拓展到大多数多智能体强化学习方法中;替代每个智能体独立执行阶段的策略网络或者估值网络架构,通过多智能体强化学习算法损失函数端到端地训练局部策略融合网络。如图5所示,为决策网络架构与基本多智能体强化学习算法QMIX结合架构图。这里以多智能体强化学习算法QMIX为例,描述局部策略融合网络具体训练流程:
步骤2-4-1、独立执行阶段,每个智能体对自身原始观测信息进行分组,并结合原始观测以及分组信息进行局部策略融合得到最终的策略执行并保存经验数据至经验回放缓冲区中;
步骤2-4-2、集中训练阶段,首先固定实体信息表征函数,根据当前采样经验数据通过固定的分组方法得到分组信息,根据当前采样经验数据以及对应的分组信息集中训练每个智能体的独立估值函数;
步骤2-4-3、进行若干次估值函数训练后,根据经验回放缓冲区的数据进行一次实体表征函数的优化训练;
步骤3、在智能体独立执行过程中,结合智能体的原始观测信息与分组进行局部策略融合,将局部信息策略与原始观测信息作为策略输入输出的基准策略进行聚合得到智能体最终的策略;
通过分组模块获得各个分组的观测表征向量后,考虑到不同的分组的信息对智能体最终选择正确的策略的影响程度不同,与当前对于正确选择无关的分组信息很大程度为模糊智能体对正确策略的选择。本发明的目的在于,通过额外的局部策略网络(或估值网络)的设计,帮助智能体识别与当前正确决策无关或者弱相关的分组信息并通过注意力机制的方式对其进行弱化,从而保证智能体能够更容易进行正确的决策。如图4所示,为智能体独立执行过程结合原始观测以及分组信息进行决策架构图。具体流程如下:
步骤3-1、为了判断每个分组信息对于智能体最终决策结果的影响,额外构建一个局部估值网络q_local。该网络以每个分组信息作为输入,输出该分组信息对应的各个动作的局部估值。例如,输出了完全弱化其他部分信息,仅仅包含索引为k的分组的信息所得到的局部观测-动作估值。
步骤3-2、为了生成对每个分组信息的注意力权重,引入一个注意力权重生成器ω,权重生成器以q_base输出的下一时刻的动作-观测历史轨迹信息作为输入,输出每个分组对应的注意力权重。所有的分组信息对应的局部观测-动作估值基于注意力权重进行加权聚合,得到最终的观测-动作估值修正
步骤3-3、智能体最终的独立策略由局部估值修正以及q_base输出的基准估值聚合得到。

Claims (1)

1.一种基于注意力机制与强化学习的多智能体游戏AI设计方法,其特征在于,该方法具体包括以下步骤:
步骤1、对智能体原始观测信息进行基于实体的局部信息划分并分组;所述步骤1进一步包括以下处理:
步骤1-1、独立执行过程,智能体i根据自身观测将所有局部的实体观测信息进行划分,所有实体观测信息作为一个共享的表征函数f输入,输出对应实体观测信息的表征向量同时智能体i自身状态信息作为一个自身信息表征函数g输入,输出对应自身状态信息表征向量/>所有的实体观测信息的表征向量分别与自身状态信息表征向量做哈达玛积得到每个实体观测信息的最终表征向量;
步骤1-2、对于每个其他实体的观测信息表征,分别与自身状态信息表征求哈达玛积得到对其他实体观测信息的embeddings,通过K-Means聚类方法,将所有实体观测表征进行分组,每个分组内进行均值聚合最终得到每个观测信息组的每个组观测信息的表征向量
步骤1-3、将原始观测信息与所有组的表征向量作为智能体局部估值函数输入,根据输出的观测-动作估值选择动作环境基于联合观测-动作反馈给每个智能体下一时刻的观测信息/>以及完成转换的整体即时奖励rt;将所有智能体的观测信息/>动作/>整体即时奖励rt以及下一个时刻所有智能体的观测信息/>存储在经验回放缓冲区中;
步骤1-4、构建联合动作表征函数u、观测信息预测器Φ以及即时奖励预测器Ψ,通过表征函数g、f以及u分别输出对应的各个部分观测信息表征以及联合动作表征;用于优化f,g的损失函数;
步骤2、基于注意力机制的局部策略融合算法对智能体原始观测中各个信息的表征向量进行训练,根据动作-观测历史信息获得对应局部信息的注意力权重,根据注意力权重对所有局部策略进行聚合得到当前时刻的局部信息策略,所述局部信息策略包括:根据不同的分组的信息对智能体最终选择正确的策略的影响程度不同于当前对于正确选择无关的分组信息为模糊智能体对正确策略的选择,实现了智能体识别与当前正确决策无关或者弱相关的分组信息,通过注意力机制的方式对其进行弱化,进行智能体正确的决策;所述步骤2进一步包括以下处理:
步骤2-1、在原始估值函数网络的基础上,额外构建被所有分组表征共享的局部估值网络q_local,原始估值函数q_base以原始观测为输入,输出当前观测下每个动作对应的估值作为基准观测-动作估值,q_local分别以所有分组表征作为输入,输出对应的局部信息-动作估值作为局部观测信息-动作估值;
步骤2-2、构建注意力权重函数ω、以观测的智能体当前动作历史轨迹信息embedding为输入,输出每个分组对应的注意力权重值,用于衡量每个分组对于最终决策的影响程度;
步骤2-3、将局部估值基于注意力权重进行加权聚合,得到最终的局部估值修正Ql,智能体最终的估值网络输出为局部估值修正与基准估值聚合的结果;
步骤2-4、新构建的估值网络训练采用端到端的训练方式,替代每个智能体独立执行阶段的策略网络或者估值网络架构,通过多智能体强化学习算法损失函数端到端地训练局部策略融合网络;
步骤3、在智能体独立执行过程中,结合智能体的原始观测信息与分组进行局部策略融合,将局部信息策略与原始观测信息作为策略输入输出的基准策略进行聚合得到智能体最终的策略。
CN202111375819.2A 2021-11-19 2021-11-19 基于注意力机制与强化学习的多智能体游戏ai设计方法 Active CN114130034B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111375819.2A CN114130034B (zh) 2021-11-19 2021-11-19 基于注意力机制与强化学习的多智能体游戏ai设计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111375819.2A CN114130034B (zh) 2021-11-19 2021-11-19 基于注意力机制与强化学习的多智能体游戏ai设计方法

Publications (2)

Publication Number Publication Date
CN114130034A CN114130034A (zh) 2022-03-04
CN114130034B true CN114130034B (zh) 2023-08-18

Family

ID=80390377

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111375819.2A Active CN114130034B (zh) 2021-11-19 2021-11-19 基于注意力机制与强化学习的多智能体游戏ai设计方法

Country Status (1)

Country Link
CN (1) CN114130034B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115300910B (zh) * 2022-07-15 2023-07-21 浙江大学 基于多智能体强化学习的去混淆游戏策略模型生成方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109726903B (zh) * 2018-12-19 2020-10-16 中国电子科技集团公司信息科学研究院 基于注意力机制的分布式多智能体协同决策方法
US20210019642A1 (en) * 2019-07-17 2021-01-21 Wingman AI Agents Limited System for voice communication with ai agents in an environment
CN111144490B (zh) * 2019-12-26 2022-09-06 南京邮电大学 一种基于轮替知识蒸馏策略的细粒度识别方法
CN112233173A (zh) * 2020-10-15 2021-01-15 上海海事大学 一种视力障碍人士室内物品寻找与定位的方法
CN112632993A (zh) * 2020-11-27 2021-04-09 浙江工业大学 一种基于卷积注意力网络的电力计量实体识别模型的分类方法
CN112905900B (zh) * 2021-04-02 2023-11-17 辽宁工程技术大学 基于图卷积注意力机制的协同过滤推荐方法
CN113033520B (zh) * 2021-05-25 2021-08-13 华中农业大学 一种基于深度学习的树木线虫病害木识别方法及系统
CN113313267B (zh) * 2021-06-28 2023-12-08 浙江大学 一种基于值分解和注意力机制的多智能体强化学习方法
CN113641192B (zh) * 2021-07-06 2023-07-18 暨南大学 一种基于强化学习的无人机群智感知任务的路径规划方法
CN113392935B (zh) * 2021-07-09 2023-05-30 浙江工业大学 基于注意力机制的多智能体深度强化学习策略优化方法
CN113642233B (zh) * 2021-07-29 2023-12-29 太原理工大学 一种通信机制优化的群体智能协同方法

Also Published As

Publication number Publication date
CN114130034A (zh) 2022-03-04

Similar Documents

Publication Publication Date Title
Elsayed et al. Fuzzy rule-based design of evolutionary algorithm for optimization
CN114130034B (zh) 基于注意力机制与强化学习的多智能体游戏ai设计方法
CN112381237B (zh) 基于岸海协同的水面无人系统的持续自主学习架构系统
CN114611663A (zh) 一种基于在线更新策略的定制化行人轨迹预测方法
Zhou et al. Solving large-scale 0-1 knapsack problem by the social-spider optimisation algorithm
CN110942175B (zh) 基于烟花爆炸人工蜂群算法的大规模电力系统经济调度问题优化方法
CN113592162B (zh) 一种基于多智能体强化学习的多水下无人航行器协同搜索方法
CN106055789B (zh) 基于加权模糊Petri网的自主无人机形式化推理方法
Tong et al. Enhancing rolling horizon evolution with policy and value networks
Ardil et al. A soft computing approach for modeling of severity of faults in software systems
Fang et al. Two-stream fused fuzzy deep neural network for multiagent learning
Sandhu et al. Software effort estimation using soft computing techniques
CN102063640B (zh) 基于效用差分网络的机器人行为学习模型
CN116167415A (zh) 一种多智能体协同及对抗中的策略决策方法
Carpenter Production-optimization strategy using a hybrid genetic algorithm
Zhou et al. An evolutionary approach toward dynamic self-generated fuzzy inference systems
CN105512754A (zh) 一种基于共轭先验的单模分布估计优化方法
CN113435475A (zh) 一种多智能体通信协作方法
CN112564189A (zh) 一种有功无功协调优化控制方法
Nishi et al. Modeling multi-objectivization mechanism in multi-agent domain
Gonçalves et al. Solving economic load dispatch problem by natural computing intelligent systems
Duan et al. A Mamdani type multistage fuzzy neural network model
Gu Application of deep intensive learning in RNA secondary structure prediction
Chen et al. Learning from Suboptimal Demonstration via Trajectory-Ranked Adversarial Imitation
Rasit An adaptive neuro-fuzzy inference system approach for prediction of power factor in wind turbines

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant