CN113254872A - 一种基于智能体通信机制的复杂游戏场景下的策略选择方法 - Google Patents

一种基于智能体通信机制的复杂游戏场景下的策略选择方法 Download PDF

Info

Publication number
CN113254872A
CN113254872A CN202110599226.8A CN202110599226A CN113254872A CN 113254872 A CN113254872 A CN 113254872A CN 202110599226 A CN202110599226 A CN 202110599226A CN 113254872 A CN113254872 A CN 113254872A
Authority
CN
China
Prior art keywords
agent
agents
intelligent
network
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110599226.8A
Other languages
English (en)
Other versions
CN113254872B (zh
Inventor
葛宏伟
葛志欣
孙亮
候亚庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202110599226.8A priority Critical patent/CN113254872B/zh
Publication of CN113254872A publication Critical patent/CN113254872A/zh
Application granted granted Critical
Publication of CN113254872B publication Critical patent/CN113254872B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/80Special adaptations for executing a specific game genre or game mode
    • A63F13/822Strategy games; Role-playing games
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/80Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game specially adapted for executing a specific type of game
    • A63F2300/807Role playing or strategy games

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Analysis (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computational Mathematics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于智能体通信机制的复杂游戏场景下的策略选择方法,属于人工智能与群体决策交叉领域,即基于复杂游戏场景,利用多智能体强化学习算法来控制游戏智能体进行策略选择。本发明首先将复杂游戏场景建模为图网络,利用游戏智能体的空间信息和特征信息计算它们之间的交互关系,同时过滤掉冗余的游戏智能体;然后利用改进的图卷积进行特征信息的融合,进而实现游戏智能体之间的通信。本发明在一定程度上能够增大游戏智能体的感知范围,避免了游戏智能体之间无意义的交互,使其能够选择合适的策略,从而提升了其在复杂游戏场景下的表现。

Description

一种基于智能体通信机制的复杂游戏场景下的策略选择方法
技术领域
本发明属于人工智能与群体决策交叉技术领域,涉及一种基于智能体通信机制的复杂游戏场景下的策略选择方法。
背景技术
受益于国际AI赛事以及企业与学术界的友好合作,游戏AI取得了长足的进展,在复杂游戏场景下更聪明、表现更多样的游戏AI能够有效地提升玩家的游戏体验。另外,由于复杂游戏场景拥有着大量的游戏智能体和丰富的环境信息,十分接近现实的世界,已经成为了人工智能领域的研究热点,其研究对辅助人类进行战争决策,社会决策等方面有很大的帮助。因此,为了在复杂游戏场景下更智能地实现对游戏智能体的控制,让每个游戏智能体选择合适的策略是一个值得解决的问题。
多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)技术能够实现对多个游戏智能体的控制,为解决复杂游戏场景下的策略选择问题提供了有效的解决方案,在本发明接下来的介绍中将使用智能体替代游戏智能体进行说明。在复杂游戏场景下由于智能体的部分可观测问题(智能体的观测范围有限,只能观测到一定的范围),可以通过智能体之间的通信帮助智能体进行策略选择。因此为了实现智能体之间的通信,获取智能体之间的交互关系和通信信息是很必要的。使用基于域启发的方式可以获取智能体之间的交互关系(KOK J R,HOEN E J,BAKKER B,et al.Utile coordination:Learninginterdependencies among cooperative agents[C]//EEE Symp.on ComputationalIntelligence and Games,Colchester,Essex.2005:29-36.),然而,对于很多任务来说,智能体之间的交互关系是动态变化的并且可能和各个智能体本身相关,采用上述预定义的方式可能无法应对复杂场景下的任务。一些方法使用邻接矩阵作为智能体之间的交互关系,但是这类方法没有考虑到智能体本身所带来的影响;还有一些方法采用自注意力机制计算智能体之间的交互关系,但是这类方法当智能体之间无需交互时,也会给其分配一个边权值,这削弱了智能体原本对其他智能体的关注度(MALYSHEVA A,SUNG T T,SOHN C B,etal.Deep multi-agent reinforcement learning with relevance graphs[J].ArXivpreprint arXiv:1811.12557,2018.LI S,GUPTA J K,MORALES P,et al.Deep implicitcoordination graphs for multi-agent reinforcement learning[C]//InternationalConference on Autonomous Agents and Multiagent Systems.2021.);G2Anet首先获取每个智能体的子图,然后根据子图得到其他智能体的贡献,但是这种逐点计算的方式,在训练过程中当采取的样本数目较大时,将会对算法的效率带来影响(LIU Y,WANG W,HU Y,etal.Multi-agent game abstraction via graph attention neural network[C]//Proceedings of the AAAI Conference on Artificial Intelligence.2020,34(05):7211-7218.)。因此,为了在复杂游戏场景下利用通信机制为智能体选择合适的策略,学习一种获取智能体之间的交互关系和通信信息的方法是非常重要的。
针对在复杂游戏场景下进行策略选择时难以获取合适的智能体之间的交互关系和通信信息的问题,本发明提出了一种基于通信机制的复杂游戏场景下的策略选择方法。该方法通过利用智能体的空间信息和特征信息捕获智能体之间的动态交互关系,然后使用改进的图卷积实现对智能体特征信息的融合,进而实现智能体之间的通信。这种方法在一定程度上增大了智能体的感知范围,避免了智能体之间无意义的交互,这使智能体能够在复杂游戏场景下选择合适的策略。
发明内容
针对在复杂游戏场景下进行策略选择时难以获取合适的智能体之间的交互关系和通信信息的问题,本发明提出了一种基于通信机制的复杂游戏场景下的策略选择方法。该方法通过捕获智能体之间的动态交互关系,并使用改进的图卷积实现对智能体特征信息的融合,在一定程度上增大了智能体的感知范围,避免了智能体之间无意义的交互,使其可以选择合适的策略。
本发明的技术方案:
一种基于通信机制的复杂游戏场景下的策略选择方法,步骤如下:
步骤一、将复杂游戏场景建模为图网络,图上的每个节点表示一个智能体,节点的特征表示智能体的观测值(或观测值编码),节点之间边的权值表示智能体之间的交互关系;
步骤二、获取环境的状态并得到所有智能体的观测值
Figure BDA0003092179420000031
其中oi表示智能体i的观测值,o是一个n×d维的矩阵,n是智能体的数目,d是智能体观测值的维度的大小;对所有智能体的观测值进行编码得到
Figure BDA0003092179420000032
其中Xi表示的是智能体i的观测值编码,X是一个n×d′维的矩阵,n是智能体的数目,d′是智能体观测值的编码维度的大小;
步骤三、根据先验领域知识构建邻接矩阵,由于每个智能体的观测范围有限,其只能观测到一定范围,因此利用其观测范围为智能体构建邻接矩阵M。如果智能体j在智能体i的观测范围之内,那么就代表着智能体i能观测到智能体j,将Mi,j设置为1;如果智能体j不在智能体i的观测范围之内,那么就代表着智能体i无法观测到智能体j,将Mi,j设置为0;
步骤四、计算智能体之间的交互关系
从步骤二可以得到所有智能体的观测值编码X,也即智能体的特征信息,然后采用自注意力机制计算任意两个智能体的观测值编码之间的相似性值αi,j,作为这两个智能体之间的边权值:
Figure BDA0003092179420000041
其中,Q和K设置为与X相同,Qi表示智能体i的观测值编码,Kj表示智能体j的观测值编码,T代表转置符号,dK是一个归一化因子,对得到的结果进行缩放。经过上式计算可以得到任意两个智能体观测值编码之间的相似性值,用α表示。
然后使用步骤三构建的邻接矩阵M过滤掉无需交互的智能体之间的相似性值,结果用
Figure BDA0003092179420000042
表示:
Figure BDA0003092179420000043
最后将矩阵
Figure BDA0003092179420000044
经过softmax函数进行归一化,对于没有交互的两个智能体,在矩阵
Figure BDA0003092179420000045
中表示为0,代表它们在选择策略的过程中不需要交互。如果直接进行归一化操作,由于softmax函数本身的特性将会给不需要交互的智能体之间分配一个边权值,这是不合理的。因此,为了解决这一问题,本发明通过使用一个很小的值-9e15来表示无需交互的智能体之间的关系,这样经过softmax函数计算出来的对应智能体之间的边权值为0,即在进行特征信息融合时不引入该智能体的特征信息:
Figure BDA0003092179420000046
接下来再进行归一化操作:
Figure BDA0003092179420000047
其中e·表示指数运算操作,公式右侧的
Figure BDA0003092179420000048
表示归一化前智能体i和j之间的交互关系,
Figure BDA0003092179420000049
表示对智能体i与任意一个智能体k的交互关系进行指数运算后求和;公式左侧计算得到的
Figure BDA00030921794200000410
表示归一化之后的智能体i和j之间的交互关系,其值为0时,智能体i得不到智能体j的特征信息;其值不为0时,智能体i可以得到智能体j的特征信息。最终,使用矩阵
Figure BDA0003092179420000051
表示所有智能体之间的交互关系。
步骤五、使用改进的图卷积进行特征信息融合并实现智能体之间的通信
当得到智能体之间的交互关系后,需要合适的方式对智能体的特征信息进行融合。原始的GCN(Graph Convolutional Network)方法仅利用邻接矩阵进行节点特征信息的融合,没有考虑到节点本身特征信息的影响,因此本发明使用了改进的图卷积进行特征信息的融合,并将步骤四获取到的智能体之间的交互关系作为图卷积的邻接矩阵以实现智能体之间特征信息的融合。
本发明采用了两层的图卷积结构,一层卷积层为:
Figure BDA0003092179420000052
其中X(l)是卷积层l的特征信息矩阵,W(l)是第l层卷积层的一个d×d维可训练矩阵,σ是非线性激活函数,
Figure BDA0003092179420000053
表示对矩阵
Figure BDA0003092179420000054
进行对称归一化。根据本发明获取到的智能体之间的交互关系可以得到
Figure BDA0003092179420000055
因此
Figure BDA0003092179420000056
可以简化为单位矩阵,又由于
Figure BDA0003092179420000057
对角线上的值大于0,因此满足使用GCN的条件,所以改进后的一层卷积层为:
Figure BDA0003092179420000058
最终经过两层图卷积网络输出的信息为X(2),为了不引入冗余信息,降低智能体自身的影响,智能体下一层策略网络的输入跟随了残差的计算方法实现智能体之间的通信。
X=X+X(2) (7)
步骤六、智能体进行策略选择
智能体的策略网络采用了三层网络结构,第一层是全连接层,并且使用了ReLU激活函数,第二层是GRU层,最后一层是全连接层,网络的训练使用了Adam优化器。神经网络中间层神经元的个数为64,最后一层网络的输出维度为智能体的动作数目,即可供智能体选择的策略数目。步骤五的操作发生在第一层网络之后,智能体根据其计算结果进行策略选择。
步骤七、多智能体策略网络的训练
总体Q值的计算方式与将多头注意力机制应用于构建联合价值函数的Qatten方法相同,其中,智能体策略网络的损失函数如下所示:
Figure BDA0003092179420000061
其中,b是从重放缓冲区采样的批大小,τ是动作观测历史,a表示智能体选择的动作,Qtot表示总体估计Q值,
Figure BDA0003092179420000062
是从目标网络得到的目标值,τ′、a′和rm分别是计算目标值时的动作观测历史、智能体选择的动作和得到奖赏,θ和θ-分别表示估计网络和目标网络的参数,γ代表折扣因子。所述估计网络和目标网络采用了步骤六的网络结构,估计网络实时进行更新,目标网络每隔一段时间进行更新;
步骤八、重复步骤二至步骤七,进行T次网络的训练。
本发明的有益效果:本发明提出的一种基于通信机制的复杂游戏场景下的策略选择方法,通过捕获智能体之间的交互关系,将冗余的智能体过滤掉,可以适应环境的动态变化。然后使用改进的图卷积对智能体的特征信息进行融合,增大了智能体的感知范围,进而实现了智能体之间有效的通信,使智能体可以选择合适的策略。本发明提出的方法可以有效地提高在复杂游戏场景下对局的胜率。
附图说明
图1是复杂游戏场景建模示意图;
图2是智能体的特征示意图;
图3是图卷积网络示意图;
图4是本发明的总体流程示意图;
图5是多智能体策略网络示意图;
图6是本发明的方法与对比方法在星际争霸II的5m_vs_6m场景上的测试胜率,其中IR-GC是本发明提出的方法,Qatten是无通信的多智能体强化学习方法,DICG是采用完全图实现通信的方法。
具体实施方式
本发明提供一种基于通信机制的复杂游戏场景下的策略选择方法。所论述的具体实施例仅用于说明本发明的实现方式,而不限制本发明的范围。
本发明以星际争霸II中的5m_vs_6m微观控制任务作为实例进行详细说明,使用的开源平台是SMAC,其利用了暴雪的星际争霸II机器学习API和DeepMind的PySC2,并为用户提供了一个方便的接口用以进行研究。下面结合附图1-6对本发明的实施方式进行详细说明,本发明具体包括以下步骤:
1.将星际争霸II中的5m_vs_6m场景建模为图网络,以图1为例进行说明,图上总共有5个节点,其中每个节点表示一个智能体,节点的特征表示智能体的观测值编码,节点之间的边权值表示智能体之间的交互关系;
2.获取环境的状态并得到所有智能体的观测值
Figure BDA0003092179420000071
其中oi表示智能体i的观测值,o是一个5×72的矩阵;然后对所有智能体的观测值进行编码得到
Figure BDA0003092179420000072
其中Xi表示的是智能体i的观测值编码,X是一个5×64的矩阵。在星际争霸II的5m_vs_6m微观控制任务中我方控制的同盟智能体为5个海军陆战队士兵,敌方控制的敌人智能体为6个海军陆战队士兵,因此本实例中智能体的数目为5。
3.根据智能体的观测值提取智能体的空间信息进而构建邻接矩阵,如图2所示。在星际争霸II中,当智能体能够观测到同盟或敌人时,其观测值对应位置就为同盟或敌人的特征,否则就都为0。具体表现为当智能体观测值中对应的某个同盟智能体的“是否可见”这一特征的值为1时,表示能观测到这一个智能体;这个值为0时,表示观测不到这个智能体。因此,本发明将智能体能观测到的同盟智能体作为邻居,为智能体构建邻接矩阵M,以图1为例:
Figure BDA0003092179420000081
以矩阵的第一行为例,M1,2,M1,3,M1,5的值为1,M1,2的值为0,表示着智能体1能够观测到智能体2、3和5,观测不到智能体4。
4.计算智能体之间的交互关系
从第2步可以得到所有智能体的观测值编码X,然后采用自注意力机制计算任意两个智能体的观测值编码之间的相似性值αi,j,作为这两个智能体之间的边权值:
Figure BDA0003092179420000082
其中,Q和K设置为与X相同,Qi表示智能体i的观测值编码,Kj表示智能体j的观测值编码,T代表转置符号,dK=64是一个归一化因子,表示对得到的结果进行缩放。经过上式计算可以得到任意两个智能体观测值编码的相似性值,用α表示。
然后使用构建的邻接矩阵M过滤掉无需交互的智能体之间的相似性值,结果用
Figure BDA0003092179420000083
表示:
Figure BDA0003092179420000084
最后将矩阵
Figure BDA0003092179420000085
经过softmax函数进行归一化,对于没有交互的两个智能体,在矩阵
Figure BDA0003092179420000086
中表示为0,表示它们不需要交互。如果直接进行归一化操作,由于softmax函数本身的特性将会给不需要交互的这两个智能体之间分配一个边权值,这是不合理的。因此,为了解决这一问题,本发明通过使用一个很小的值-9e15来表示无需交互的智能体之间的关系,这样经过softmax函数计算出来的对应智能体之间的边权值为0,即在进行特征信息融合时不引入该智能体的特征信息:
Figure BDA0003092179420000091
接下来再进行归一化操作:
Figure BDA0003092179420000092
其中e·表示指数运算操作,公式右侧的
Figure BDA0003092179420000093
表示归一化前智能体i和j之间的交互关系,
Figure BDA0003092179420000094
表示对智能体i与任意一个智能体k的交互关系进行指数运算后求和;公式左侧计算得到的
Figure BDA0003092179420000095
表示归一化之后的智能体i和j之间的交互关系,其值为0时,智能体i得不到智能体j的特征信息;其值不为0时,智能体i可以得到智能体j的特征信息。最终,使用矩阵
Figure BDA0003092179420000096
表示所有智能体之间的交互关系。
5.使用改进的图卷积进行特征信息融合并实现智能体之间的通信
当得到智能体之间的交互关系后,需要合适的方式对智能体的特征信息进行融合。原始的GCN(Graph Convolutional Network)方法仅利用邻接矩阵进行图卷积,没有考虑到节点本身特征信息的影响,因此本发明使用了改进的图卷积进行特征信息的融合,并将通过上一步计算得到的智能体之间的交互关系作为图卷积的邻接矩阵以实现智能体之间特征信息的融合。
本发明采用了两层的图卷积结构,如图3所示,一层卷积层为:
Figure BDA0003092179420000097
其中X(l)是卷积层l的特征矩阵,W(l)是第l层卷积层的一个64×64维的可训练的矩阵,σ是非线性激活函数,
Figure BDA0003092179420000098
表示对矩阵
Figure BDA0003092179420000099
进行对称归一化,根据本发明获取到的智能体之间的交互关系可以得到
Figure BDA0003092179420000101
因此
Figure BDA0003092179420000102
可以简化为单位矩阵,又由于
Figure BDA0003092179420000103
对角线上的值大于0,因此满足使用GCN的条件,所以改进后的一层卷积层为:
Figure BDA0003092179420000104
图卷积网络采用了两层的网络结构,第一层是全连接层,并且使用了ReLU激活函数,第二层是全连接层,网络的输入、输出的维度均为64,神经网络中间层神经元的个数也设置为64。
最终经过两层图卷积输出的信息为X(2),为了不引入冗余信息,降低智能体自身的影响,智能体下一层策略网络的输入跟随了残差的计算方法实现智能体之间的通信。
X=X+X(2) (8)
6.智能体进行策略选择
智能体的策略网络采用了相同的三层网络结构,第一层是全连接层,并且使用了ReLU激活函数,第二层是GRU层,最后一层是全连接层,网络的训练使用了Adam优化器。神经网络中间层神经元的个数为64,最后一层网络的输出维度为智能体的动作数目,即可供智能体选择策略的数目。第5步的操作发生在第一层网络之后,智能体根据其计算结果进行策略选择。
7.多智能体策略网络的训练
详细的多智能体策略网络示意图如图4所示。首先,将所有智能体的局部观测值输入到智能体的策略网络,获取到经过第一层神经网络的编码矩阵X,并将ot和X输入到智能体交互关系获取模块(IR)计算
Figure BDA0003092179420000105
然后将X和
Figure BDA0003092179420000106
输入到图卷积模块(GC)实现智能体的信息融合(因此将本发明的方法称为IR-GC),智能体策略网络GRU层(包含隐藏状态ht)的输入跟随了残差的计算方法实现了智能体之间的通信,最终让智能体进行策略选择。随机策略探索率最初设定为1,然后在50万个时间步内逐渐降低到0.05。
总体Q值的计算方式(混合网络)与将多头注意力机制应用于构建联合价值函数的Qatten方法相同,其中,智能体策略网络的损失函数如下所示:
Figure BDA0003092179420000111
其中,b是从重放缓冲区采样的批大小,其值为32,τ是动作观测历史,a表示智能体选择的动作,Qtot表示总体估计Q值,
Figure BDA0003092179420000112
是从目标网络得到的目标值,τ′、a′和rm分别是计算目标值时的动作观测历史、智能体选择的动作和得到奖赏,θ和θ-分别表示估计网络和目标网络的参数,γ代表折扣因子。
8.重复步骤2至步骤7,进行200万个时间步的训练。本发明的总体流程图如图5所示。
本发明与对比方法在星际争霸II中的5m_vs_6m场景上的测试胜率如图6所示。

Claims (1)

1.一种基于智能体通信机制的复杂游戏场景下的策略选择方法,其特征在于,步骤如下:
步骤一、将复杂游戏场景建模为图网络,图上的每个节点表示一个游戏智能体,节点的特征表示智能体的观测值或观测值编码,节点之间边的权值表示智能体之间的交互关系;
步骤二、获取环境的状态并得到所有智能体的观测值
Figure FDA0003092179410000011
其中oi表示智能体i的观测值,o是一个n×d维的矩阵,n是智能体的数目,d是智能体观测值的维度的大小;对所有智能体的观测值进行编码得到
Figure FDA0003092179410000012
其中Xi表示的是智能体i的观测值编码,X是一个n×d′维的矩阵,n是智能体的数目,d′是智能体观测值的编码维度的大小;
步骤三、根据先验领域知识构建邻接矩阵,由于每个智能体的观测范围有限,其只能观测到一定范围,因此利用其观测范围为智能体构建邻接矩阵M;如果智能体j在智能体i的观测范围之内,那么就代表着智能体i能观测到智能体j,将Mi,j设置为1;如果智能体j不在智能体i的观测范围之内,那么就代表着智能体i无法观测到智能体j,将Mi,j设置为0;
步骤四、计算智能体之间的交互关系
从步骤二得到所有智能体的观测值编码X,也即智能体的特征信息,然后采用自注意力机制计算任意两个智能体的观测值编码之间的相似性值αi,j,作为这两个智能体之间的边权值:
Figure FDA0003092179410000013
其中,Q和K设置为与X相同,Qi表示智能体i的观测值编码,Kj表示智能体j的观测值编码,T代表转置符号,dK是一个归一化因子,对得到的结果进行缩放;经过上式计算得到任意两个智能体观测值编码之间的相似性值,用α表示;
然后使用步骤三构建的邻接矩阵M过滤掉无需交互的智能体之间的相似性值,结果用
Figure FDA0003092179410000021
表示:
Figure FDA0003092179410000022
最后将矩阵
Figure FDA0003092179410000023
经过softmax函数进行归一化,对于没有交互的两个智能体,在矩阵
Figure FDA0003092179410000024
中表示为0,代表它们在选择策略的过程中不需要交互;如果直接进行归一化操作,由于softmax函数本身的特性将会给不需要交互的智能体之间分配一个边权值,这是不合理的;因此,为了解决这一问题,通过使用-9e15来表示无需交互的智能体之间的关系,这样经过softmax函数计算出来的对应智能体之间的边权值为0,即在进行特征信息融合时不引入该智能体的特征信息:
Figure FDA0003092179410000025
接下来再进行归一化操作:
Figure FDA0003092179410000026
其中,e·表示指数运算操作,公式右侧的
Figure FDA0003092179410000027
表示归一化前智能体i和j之间的交互关系,
Figure FDA0003092179410000028
表示对智能体i与任意一个智能体k的交互关系进行指数运算后求和;公式左侧计算得到的
Figure FDA0003092179410000029
表示归一化之后的智能体i和j之间的交互关系,其值为0时,智能体i得不到智能体j的特征信息;其值不为0时,智能体i得到智能体j的特征信息;最终,使用矩阵
Figure FDA00030921794100000210
表示所有智能体之间的交互关系;
步骤五、使用改进的图卷积进行特征信息融合并实现智能体之间的通信
使用改进的图卷积进行特征信息的融合,并将步骤四获取到的智能体之间的交互关系作为图卷积的邻接矩阵以实现智能体之间特征信息的融合;
采用两层的图卷积结构,一层卷积层为:
Figure FDA00030921794100000211
其中,X(l)是卷积层l的特征信息矩阵,W(l)是第l层卷积层的一个d×d维可训练矩阵,σ是非线性激活函数,
Figure FDA0003092179410000031
表示对矩阵
Figure FDA0003092179410000032
进行对称归一化,根据获取到的智能体之间的交互关系得到
Figure FDA0003092179410000033
因此
Figure FDA0003092179410000034
简化为单位矩阵,又由于
Figure FDA0003092179410000035
对角线上的值大于0,因此满足使用GCN的条件,所以改进后的一层卷积层为:
Figure FDA0003092179410000036
最终经过两层图卷积网络输出的信息为X(2),为了不引入冗余信息,降低智能体自身的影响,智能体下一层策略网络的输入跟随了残差的计算方法实现智能体之间的通信;
X=X+X(2) (7)
步骤六、智能体进行策略选择
智能体的策略网络采用了三层网络结构,第一层是全连接层,并且使用了ReLU激活函数,第二层是GRU层,最后一层是全连接层,网络的训练使用了Adam优化器;神经网络中间层神经元的个数为64,最后一层网络的输出维度为智能体的动作数目,即可供智能体选择策略的数目;步骤五的操作发生在第一层网络之后,智能体根据其计算结果进行策略选择;
步骤七、多智能体策略网络的训练
总体Q值的计算方式与将多头注意力机制应用于构建联合价值函数的Qatten方法相同,其中,智能体策略网络的损失函数如下所示:
Figure FDA0003092179410000037
其中,b是从重放缓冲区采样的批大小,τ是动作观测历史,a表示智能体选择的动作,Qtot表示总体估计Q值,
Figure FDA0003092179410000038
是从目标网络得到的目标值,τ′、a′和rm分别是计算目标值时的动作观测历史、智能体选择的动作和得到奖赏,θ和θ-分别表示估计网络和目标网络的参数,γ代表折扣因子;所述估计网络和目标网络采用了步骤六的网络结构,估计网络实时进行更新,目标网络每隔一段时间进行更新;
步骤八、重复步骤二至步骤七,进行T次网络的训练。
CN202110599226.8A 2021-05-31 2021-05-31 一种基于智能体通信机制的复杂游戏场景下的策略选择方法 Active CN113254872B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110599226.8A CN113254872B (zh) 2021-05-31 2021-05-31 一种基于智能体通信机制的复杂游戏场景下的策略选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110599226.8A CN113254872B (zh) 2021-05-31 2021-05-31 一种基于智能体通信机制的复杂游戏场景下的策略选择方法

Publications (2)

Publication Number Publication Date
CN113254872A true CN113254872A (zh) 2021-08-13
CN113254872B CN113254872B (zh) 2023-12-19

Family

ID=77183847

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110599226.8A Active CN113254872B (zh) 2021-05-31 2021-05-31 一种基于智能体通信机制的复杂游戏场景下的策略选择方法

Country Status (1)

Country Link
CN (1) CN113254872B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106096729A (zh) * 2016-06-06 2016-11-09 天津科技大学 一种面向大规模环境中复杂任务的深度策略学习方法
CN108629422A (zh) * 2018-05-10 2018-10-09 浙江大学 一种基于知识指导-战术感知的智能体学习方法
CN109635917A (zh) * 2018-10-17 2019-04-16 北京大学 一种多智能体合作决策及训练方法
JP2019118461A (ja) * 2017-12-28 2019-07-22 株式会社 ディー・エヌ・エー 情報処理装置及び情報処理プログラム
CN110882542A (zh) * 2019-11-13 2020-03-17 广州多益网络股份有限公司 游戏智能体的训练方法、装置、设备及存储介质
US20210019642A1 (en) * 2019-07-17 2021-01-21 Wingman AI Agents Limited System for voice communication with ai agents in an environment
CN112561032A (zh) * 2020-11-27 2021-03-26 中国电子科技集团公司第十五研究所 一种基于种群训练的多智能体强化学习方法及系统
US20210121780A1 (en) * 2019-10-25 2021-04-29 Shanghai Billbill Technology Co., Ltd. Method and system of generating data and training a model, server, and terminal device
CN112783781A (zh) * 2021-01-28 2021-05-11 网易(杭州)网络有限公司 游戏测试方法、装置、电子设备及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106096729A (zh) * 2016-06-06 2016-11-09 天津科技大学 一种面向大规模环境中复杂任务的深度策略学习方法
JP2019118461A (ja) * 2017-12-28 2019-07-22 株式会社 ディー・エヌ・エー 情報処理装置及び情報処理プログラム
CN108629422A (zh) * 2018-05-10 2018-10-09 浙江大学 一种基于知识指导-战术感知的智能体学习方法
CN109635917A (zh) * 2018-10-17 2019-04-16 北京大学 一种多智能体合作决策及训练方法
US20200125957A1 (en) * 2018-10-17 2020-04-23 Peking University Multi-agent cooperation decision-making and training method
US20210019642A1 (en) * 2019-07-17 2021-01-21 Wingman AI Agents Limited System for voice communication with ai agents in an environment
US20210121780A1 (en) * 2019-10-25 2021-04-29 Shanghai Billbill Technology Co., Ltd. Method and system of generating data and training a model, server, and terminal device
CN110882542A (zh) * 2019-11-13 2020-03-17 广州多益网络股份有限公司 游戏智能体的训练方法、装置、设备及存储介质
CN112561032A (zh) * 2020-11-27 2021-03-26 中国电子科技集团公司第十五研究所 一种基于种群训练的多智能体强化学习方法及系统
CN112783781A (zh) * 2021-01-28 2021-05-11 网易(杭州)网络有限公司 游戏测试方法、装置、电子设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GE, HW ET AL: "Strategy Selection in Complex Game Environments Based on Transfer Reinforcement Learning", 《IEEE INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS》, pages 1 - 8 *
JIAO, P ET AL: "A Decentralized Partially Observable Markov Decision Model with Action Duration for Goal Recognition in Real Time Strategy Games", 《DISCRETE DYNAMICS IN NATURE AND SOCIETY》, vol. 2017, pages 1 - 15 *
陈鹏;王子磊;: "融合深度学习与搜索的实时策略游戏微操方法", 计算机工程, vol. 46, no. 06, pages 50 - 59 *

Also Published As

Publication number Publication date
CN113254872B (zh) 2023-12-19

Similar Documents

Publication Publication Date Title
CN109682392B (zh) 基于深度强化学习的视觉导航方法及系统
Hong et al. A deep policy inference q-network for multi-agent systems
Groshev et al. Learning generalized reactive policies using deep neural networks
CN108629422B (zh) 一种基于知识指导-战术感知的智能体学习方法
CN109948029B (zh) 基于神经网络自适应的深度哈希图像搜索方法
Egorov Multi-agent deep reinforcement learning
Guo et al. Dynamic recursive neural network
Hamkins The set-theoretic multiverse
Talatahari et al. Imperialist competitive algorithm combined with chaos for global optimization
CN110852448A (zh) 一种基于多智能体强化学习的合作型智能体的学习方法
Wang et al. Interactive Narrative Personalization with Deep Reinforcement Learning.
CN110327624B (zh) 一种基于课程强化学习的游戏跟随方法和系统
CN112597217B (zh) 一种历史决策数据驱动的智能决策平台及其实现方法
CN113627596A (zh) 基于动态图神经网络的多智能体对抗方法及系统
CN114757362A (zh) 一种基于边缘增强的多智能体系统通信方法及相关装置
Liu et al. Robot search path planning method based on prioritized deep reinforcement learning
CN113254872B (zh) 一种基于智能体通信机制的复杂游戏场景下的策略选择方法
CN114840024A (zh) 基于情景记忆的无人机控制决策方法
Liu et al. Soft-actor-attention-critic based on unknown agent action prediction for multi-agent collaborative confrontation
Gupta et al. Learning autonomous marine behaviors in MOOS-IvP
CN113487031A (zh) 一种基于改进模拟退火融合遗传算法的多无人机任务分配方法
Yu et al. Inducing cooperation via team regret minimization based multi-agent deep reinforcement learning
Min et al. Deep lstm-based goal recognition models for open-world digital games
Zhang et al. Effective model compression via stage-wise pruning
CN115202339B (zh) 基于dqn的多月球车采样固定目标自适应规划方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant