CN113254872A - 一种基于智能体通信机制的复杂游戏场景下的策略选择方法 - Google Patents
一种基于智能体通信机制的复杂游戏场景下的策略选择方法 Download PDFInfo
- Publication number
- CN113254872A CN113254872A CN202110599226.8A CN202110599226A CN113254872A CN 113254872 A CN113254872 A CN 113254872A CN 202110599226 A CN202110599226 A CN 202110599226A CN 113254872 A CN113254872 A CN 113254872A
- Authority
- CN
- China
- Prior art keywords
- agent
- agents
- intelligent
- network
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004891 communication Methods 0.000 title claims abstract description 29
- 230000007246 mechanism Effects 0.000 title claims abstract description 16
- 238000010187 selection method Methods 0.000 title claims abstract description 10
- 230000003993 interaction Effects 0.000 claims abstract description 33
- 238000000034 method Methods 0.000 claims abstract description 29
- 230000002452 interceptive effect Effects 0.000 claims abstract description 26
- 230000004927 fusion Effects 0.000 claims abstract description 12
- 238000001914 filtration Methods 0.000 claims abstract description 3
- 239000003795 chemical substances by application Substances 0.000 claims description 254
- 239000011159 matrix material Substances 0.000 claims description 42
- 230000006870 function Effects 0.000 claims description 22
- 238000010606 normalization Methods 0.000 claims description 21
- 230000009471 action Effects 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 210000002569 neuron Anatomy 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000008447 perception Effects 0.000 abstract description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 230000002787 reinforcement Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 101150082208 DIABLO gene Proteins 0.000 description 1
- 102100033189 Diablo IAP-binding mitochondrial protein Human genes 0.000 description 1
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F13/00—Video games, i.e. games using an electronically generated display having two or more dimensions
- A63F13/80—Special adaptations for executing a specific game genre or game mode
- A63F13/822—Strategy games; Role-playing games
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F2300/00—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
- A63F2300/80—Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game specially adapted for executing a specific type of game
- A63F2300/807—Role playing or strategy games
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Analysis (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Computational Mathematics (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Algebra (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于智能体通信机制的复杂游戏场景下的策略选择方法,属于人工智能与群体决策交叉领域,即基于复杂游戏场景,利用多智能体强化学习算法来控制游戏智能体进行策略选择。本发明首先将复杂游戏场景建模为图网络,利用游戏智能体的空间信息和特征信息计算它们之间的交互关系,同时过滤掉冗余的游戏智能体;然后利用改进的图卷积进行特征信息的融合,进而实现游戏智能体之间的通信。本发明在一定程度上能够增大游戏智能体的感知范围,避免了游戏智能体之间无意义的交互,使其能够选择合适的策略,从而提升了其在复杂游戏场景下的表现。
Description
技术领域
本发明属于人工智能与群体决策交叉技术领域,涉及一种基于智能体通信机制的复杂游戏场景下的策略选择方法。
背景技术
受益于国际AI赛事以及企业与学术界的友好合作,游戏AI取得了长足的进展,在复杂游戏场景下更聪明、表现更多样的游戏AI能够有效地提升玩家的游戏体验。另外,由于复杂游戏场景拥有着大量的游戏智能体和丰富的环境信息,十分接近现实的世界,已经成为了人工智能领域的研究热点,其研究对辅助人类进行战争决策,社会决策等方面有很大的帮助。因此,为了在复杂游戏场景下更智能地实现对游戏智能体的控制,让每个游戏智能体选择合适的策略是一个值得解决的问题。
多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)技术能够实现对多个游戏智能体的控制,为解决复杂游戏场景下的策略选择问题提供了有效的解决方案,在本发明接下来的介绍中将使用智能体替代游戏智能体进行说明。在复杂游戏场景下由于智能体的部分可观测问题(智能体的观测范围有限,只能观测到一定的范围),可以通过智能体之间的通信帮助智能体进行策略选择。因此为了实现智能体之间的通信,获取智能体之间的交互关系和通信信息是很必要的。使用基于域启发的方式可以获取智能体之间的交互关系(KOK J R,HOEN E J,BAKKER B,et al.Utile coordination:Learninginterdependencies among cooperative agents[C]//EEE Symp.on ComputationalIntelligence and Games,Colchester,Essex.2005:29-36.),然而,对于很多任务来说,智能体之间的交互关系是动态变化的并且可能和各个智能体本身相关,采用上述预定义的方式可能无法应对复杂场景下的任务。一些方法使用邻接矩阵作为智能体之间的交互关系,但是这类方法没有考虑到智能体本身所带来的影响;还有一些方法采用自注意力机制计算智能体之间的交互关系,但是这类方法当智能体之间无需交互时,也会给其分配一个边权值,这削弱了智能体原本对其他智能体的关注度(MALYSHEVA A,SUNG T T,SOHN C B,etal.Deep multi-agent reinforcement learning with relevance graphs[J].ArXivpreprint arXiv:1811.12557,2018.LI S,GUPTA J K,MORALES P,et al.Deep implicitcoordination graphs for multi-agent reinforcement learning[C]//InternationalConference on Autonomous Agents and Multiagent Systems.2021.);G2Anet首先获取每个智能体的子图,然后根据子图得到其他智能体的贡献,但是这种逐点计算的方式,在训练过程中当采取的样本数目较大时,将会对算法的效率带来影响(LIU Y,WANG W,HU Y,etal.Multi-agent game abstraction via graph attention neural network[C]//Proceedings of the AAAI Conference on Artificial Intelligence.2020,34(05):7211-7218.)。因此,为了在复杂游戏场景下利用通信机制为智能体选择合适的策略,学习一种获取智能体之间的交互关系和通信信息的方法是非常重要的。
针对在复杂游戏场景下进行策略选择时难以获取合适的智能体之间的交互关系和通信信息的问题,本发明提出了一种基于通信机制的复杂游戏场景下的策略选择方法。该方法通过利用智能体的空间信息和特征信息捕获智能体之间的动态交互关系,然后使用改进的图卷积实现对智能体特征信息的融合,进而实现智能体之间的通信。这种方法在一定程度上增大了智能体的感知范围,避免了智能体之间无意义的交互,这使智能体能够在复杂游戏场景下选择合适的策略。
发明内容
针对在复杂游戏场景下进行策略选择时难以获取合适的智能体之间的交互关系和通信信息的问题,本发明提出了一种基于通信机制的复杂游戏场景下的策略选择方法。该方法通过捕获智能体之间的动态交互关系,并使用改进的图卷积实现对智能体特征信息的融合,在一定程度上增大了智能体的感知范围,避免了智能体之间无意义的交互,使其可以选择合适的策略。
本发明的技术方案:
一种基于通信机制的复杂游戏场景下的策略选择方法,步骤如下:
步骤一、将复杂游戏场景建模为图网络,图上的每个节点表示一个智能体,节点的特征表示智能体的观测值(或观测值编码),节点之间边的权值表示智能体之间的交互关系;
步骤二、获取环境的状态并得到所有智能体的观测值其中oi表示智能体i的观测值,o是一个n×d维的矩阵,n是智能体的数目,d是智能体观测值的维度的大小;对所有智能体的观测值进行编码得到其中Xi表示的是智能体i的观测值编码,X是一个n×d′维的矩阵,n是智能体的数目,d′是智能体观测值的编码维度的大小;
步骤三、根据先验领域知识构建邻接矩阵,由于每个智能体的观测范围有限,其只能观测到一定范围,因此利用其观测范围为智能体构建邻接矩阵M。如果智能体j在智能体i的观测范围之内,那么就代表着智能体i能观测到智能体j,将Mi,j设置为1;如果智能体j不在智能体i的观测范围之内,那么就代表着智能体i无法观测到智能体j,将Mi,j设置为0;
步骤四、计算智能体之间的交互关系
从步骤二可以得到所有智能体的观测值编码X,也即智能体的特征信息,然后采用自注意力机制计算任意两个智能体的观测值编码之间的相似性值αi,j,作为这两个智能体之间的边权值:
其中,Q和K设置为与X相同,Qi表示智能体i的观测值编码,Kj表示智能体j的观测值编码,T代表转置符号,dK是一个归一化因子,对得到的结果进行缩放。经过上式计算可以得到任意两个智能体观测值编码之间的相似性值,用α表示。
最后将矩阵经过softmax函数进行归一化,对于没有交互的两个智能体,在矩阵中表示为0,代表它们在选择策略的过程中不需要交互。如果直接进行归一化操作,由于softmax函数本身的特性将会给不需要交互的智能体之间分配一个边权值,这是不合理的。因此,为了解决这一问题,本发明通过使用一个很小的值-9e15来表示无需交互的智能体之间的关系,这样经过softmax函数计算出来的对应智能体之间的边权值为0,即在进行特征信息融合时不引入该智能体的特征信息:
接下来再进行归一化操作:
其中e·表示指数运算操作,公式右侧的表示归一化前智能体i和j之间的交互关系,表示对智能体i与任意一个智能体k的交互关系进行指数运算后求和;公式左侧计算得到的表示归一化之后的智能体i和j之间的交互关系,其值为0时,智能体i得不到智能体j的特征信息;其值不为0时,智能体i可以得到智能体j的特征信息。最终,使用矩阵表示所有智能体之间的交互关系。
步骤五、使用改进的图卷积进行特征信息融合并实现智能体之间的通信
当得到智能体之间的交互关系后,需要合适的方式对智能体的特征信息进行融合。原始的GCN(Graph Convolutional Network)方法仅利用邻接矩阵进行节点特征信息的融合,没有考虑到节点本身特征信息的影响,因此本发明使用了改进的图卷积进行特征信息的融合,并将步骤四获取到的智能体之间的交互关系作为图卷积的邻接矩阵以实现智能体之间特征信息的融合。
本发明采用了两层的图卷积结构,一层卷积层为:
其中X(l)是卷积层l的特征信息矩阵,W(l)是第l层卷积层的一个d×d维可训练矩阵,σ是非线性激活函数,表示对矩阵进行对称归一化。根据本发明获取到的智能体之间的交互关系可以得到因此可以简化为单位矩阵,又由于对角线上的值大于0,因此满足使用GCN的条件,所以改进后的一层卷积层为:
最终经过两层图卷积网络输出的信息为X(2),为了不引入冗余信息,降低智能体自身的影响,智能体下一层策略网络的输入跟随了残差的计算方法实现智能体之间的通信。
X=X+X(2) (7)
步骤六、智能体进行策略选择
智能体的策略网络采用了三层网络结构,第一层是全连接层,并且使用了ReLU激活函数,第二层是GRU层,最后一层是全连接层,网络的训练使用了Adam优化器。神经网络中间层神经元的个数为64,最后一层网络的输出维度为智能体的动作数目,即可供智能体选择的策略数目。步骤五的操作发生在第一层网络之后,智能体根据其计算结果进行策略选择。
步骤七、多智能体策略网络的训练
总体Q值的计算方式与将多头注意力机制应用于构建联合价值函数的Qatten方法相同,其中,智能体策略网络的损失函数如下所示:
其中,b是从重放缓冲区采样的批大小,τ是动作观测历史,a表示智能体选择的动作,Qtot表示总体估计Q值,是从目标网络得到的目标值,τ′、a′和rm分别是计算目标值时的动作观测历史、智能体选择的动作和得到奖赏,θ和θ-分别表示估计网络和目标网络的参数,γ代表折扣因子。所述估计网络和目标网络采用了步骤六的网络结构,估计网络实时进行更新,目标网络每隔一段时间进行更新;
步骤八、重复步骤二至步骤七,进行T次网络的训练。
本发明的有益效果:本发明提出的一种基于通信机制的复杂游戏场景下的策略选择方法,通过捕获智能体之间的交互关系,将冗余的智能体过滤掉,可以适应环境的动态变化。然后使用改进的图卷积对智能体的特征信息进行融合,增大了智能体的感知范围,进而实现了智能体之间有效的通信,使智能体可以选择合适的策略。本发明提出的方法可以有效地提高在复杂游戏场景下对局的胜率。
附图说明
图1是复杂游戏场景建模示意图;
图2是智能体的特征示意图;
图3是图卷积网络示意图;
图4是本发明的总体流程示意图;
图5是多智能体策略网络示意图;
图6是本发明的方法与对比方法在星际争霸II的5m_vs_6m场景上的测试胜率,其中IR-GC是本发明提出的方法,Qatten是无通信的多智能体强化学习方法,DICG是采用完全图实现通信的方法。
具体实施方式
本发明提供一种基于通信机制的复杂游戏场景下的策略选择方法。所论述的具体实施例仅用于说明本发明的实现方式,而不限制本发明的范围。
本发明以星际争霸II中的5m_vs_6m微观控制任务作为实例进行详细说明,使用的开源平台是SMAC,其利用了暴雪的星际争霸II机器学习API和DeepMind的PySC2,并为用户提供了一个方便的接口用以进行研究。下面结合附图1-6对本发明的实施方式进行详细说明,本发明具体包括以下步骤:
1.将星际争霸II中的5m_vs_6m场景建模为图网络,以图1为例进行说明,图上总共有5个节点,其中每个节点表示一个智能体,节点的特征表示智能体的观测值编码,节点之间的边权值表示智能体之间的交互关系;
2.获取环境的状态并得到所有智能体的观测值其中oi表示智能体i的观测值,o是一个5×72的矩阵;然后对所有智能体的观测值进行编码得到其中Xi表示的是智能体i的观测值编码,X是一个5×64的矩阵。在星际争霸II的5m_vs_6m微观控制任务中我方控制的同盟智能体为5个海军陆战队士兵,敌方控制的敌人智能体为6个海军陆战队士兵,因此本实例中智能体的数目为5。
3.根据智能体的观测值提取智能体的空间信息进而构建邻接矩阵,如图2所示。在星际争霸II中,当智能体能够观测到同盟或敌人时,其观测值对应位置就为同盟或敌人的特征,否则就都为0。具体表现为当智能体观测值中对应的某个同盟智能体的“是否可见”这一特征的值为1时,表示能观测到这一个智能体;这个值为0时,表示观测不到这个智能体。因此,本发明将智能体能观测到的同盟智能体作为邻居,为智能体构建邻接矩阵M,以图1为例:
以矩阵的第一行为例,M1,2,M1,3,M1,5的值为1,M1,2的值为0,表示着智能体1能够观测到智能体2、3和5,观测不到智能体4。
4.计算智能体之间的交互关系
从第2步可以得到所有智能体的观测值编码X,然后采用自注意力机制计算任意两个智能体的观测值编码之间的相似性值αi,j,作为这两个智能体之间的边权值:
其中,Q和K设置为与X相同,Qi表示智能体i的观测值编码,Kj表示智能体j的观测值编码,T代表转置符号,dK=64是一个归一化因子,表示对得到的结果进行缩放。经过上式计算可以得到任意两个智能体观测值编码的相似性值,用α表示。
最后将矩阵经过softmax函数进行归一化,对于没有交互的两个智能体,在矩阵中表示为0,表示它们不需要交互。如果直接进行归一化操作,由于softmax函数本身的特性将会给不需要交互的这两个智能体之间分配一个边权值,这是不合理的。因此,为了解决这一问题,本发明通过使用一个很小的值-9e15来表示无需交互的智能体之间的关系,这样经过softmax函数计算出来的对应智能体之间的边权值为0,即在进行特征信息融合时不引入该智能体的特征信息:
接下来再进行归一化操作:
其中e·表示指数运算操作,公式右侧的表示归一化前智能体i和j之间的交互关系,表示对智能体i与任意一个智能体k的交互关系进行指数运算后求和;公式左侧计算得到的表示归一化之后的智能体i和j之间的交互关系,其值为0时,智能体i得不到智能体j的特征信息;其值不为0时,智能体i可以得到智能体j的特征信息。最终,使用矩阵表示所有智能体之间的交互关系。
5.使用改进的图卷积进行特征信息融合并实现智能体之间的通信
当得到智能体之间的交互关系后,需要合适的方式对智能体的特征信息进行融合。原始的GCN(Graph Convolutional Network)方法仅利用邻接矩阵进行图卷积,没有考虑到节点本身特征信息的影响,因此本发明使用了改进的图卷积进行特征信息的融合,并将通过上一步计算得到的智能体之间的交互关系作为图卷积的邻接矩阵以实现智能体之间特征信息的融合。
本发明采用了两层的图卷积结构,如图3所示,一层卷积层为:
其中X(l)是卷积层l的特征矩阵,W(l)是第l层卷积层的一个64×64维的可训练的矩阵,σ是非线性激活函数,表示对矩阵进行对称归一化,根据本发明获取到的智能体之间的交互关系可以得到因此可以简化为单位矩阵,又由于对角线上的值大于0,因此满足使用GCN的条件,所以改进后的一层卷积层为:
图卷积网络采用了两层的网络结构,第一层是全连接层,并且使用了ReLU激活函数,第二层是全连接层,网络的输入、输出的维度均为64,神经网络中间层神经元的个数也设置为64。
最终经过两层图卷积输出的信息为X(2),为了不引入冗余信息,降低智能体自身的影响,智能体下一层策略网络的输入跟随了残差的计算方法实现智能体之间的通信。
X=X+X(2) (8)
6.智能体进行策略选择
智能体的策略网络采用了相同的三层网络结构,第一层是全连接层,并且使用了ReLU激活函数,第二层是GRU层,最后一层是全连接层,网络的训练使用了Adam优化器。神经网络中间层神经元的个数为64,最后一层网络的输出维度为智能体的动作数目,即可供智能体选择策略的数目。第5步的操作发生在第一层网络之后,智能体根据其计算结果进行策略选择。
7.多智能体策略网络的训练
详细的多智能体策略网络示意图如图4所示。首先,将所有智能体的局部观测值输入到智能体的策略网络,获取到经过第一层神经网络的编码矩阵X,并将ot和X输入到智能体交互关系获取模块(IR)计算然后将X和输入到图卷积模块(GC)实现智能体的信息融合(因此将本发明的方法称为IR-GC),智能体策略网络GRU层(包含隐藏状态ht)的输入跟随了残差的计算方法实现了智能体之间的通信,最终让智能体进行策略选择。随机策略探索率最初设定为1,然后在50万个时间步内逐渐降低到0.05。
总体Q值的计算方式(混合网络)与将多头注意力机制应用于构建联合价值函数的Qatten方法相同,其中,智能体策略网络的损失函数如下所示:
其中,b是从重放缓冲区采样的批大小,其值为32,τ是动作观测历史,a表示智能体选择的动作,Qtot表示总体估计Q值,是从目标网络得到的目标值,τ′、a′和rm分别是计算目标值时的动作观测历史、智能体选择的动作和得到奖赏,θ和θ-分别表示估计网络和目标网络的参数,γ代表折扣因子。
8.重复步骤2至步骤7,进行200万个时间步的训练。本发明的总体流程图如图5所示。
本发明与对比方法在星际争霸II中的5m_vs_6m场景上的测试胜率如图6所示。
Claims (1)
1.一种基于智能体通信机制的复杂游戏场景下的策略选择方法,其特征在于,步骤如下:
步骤一、将复杂游戏场景建模为图网络,图上的每个节点表示一个游戏智能体,节点的特征表示智能体的观测值或观测值编码,节点之间边的权值表示智能体之间的交互关系;
步骤二、获取环境的状态并得到所有智能体的观测值其中oi表示智能体i的观测值,o是一个n×d维的矩阵,n是智能体的数目,d是智能体观测值的维度的大小;对所有智能体的观测值进行编码得到其中Xi表示的是智能体i的观测值编码,X是一个n×d′维的矩阵,n是智能体的数目,d′是智能体观测值的编码维度的大小;
步骤三、根据先验领域知识构建邻接矩阵,由于每个智能体的观测范围有限,其只能观测到一定范围,因此利用其观测范围为智能体构建邻接矩阵M;如果智能体j在智能体i的观测范围之内,那么就代表着智能体i能观测到智能体j,将Mi,j设置为1;如果智能体j不在智能体i的观测范围之内,那么就代表着智能体i无法观测到智能体j,将Mi,j设置为0;
步骤四、计算智能体之间的交互关系
从步骤二得到所有智能体的观测值编码X,也即智能体的特征信息,然后采用自注意力机制计算任意两个智能体的观测值编码之间的相似性值αi,j,作为这两个智能体之间的边权值:
其中,Q和K设置为与X相同,Qi表示智能体i的观测值编码,Kj表示智能体j的观测值编码,T代表转置符号,dK是一个归一化因子,对得到的结果进行缩放;经过上式计算得到任意两个智能体观测值编码之间的相似性值,用α表示;
最后将矩阵经过softmax函数进行归一化,对于没有交互的两个智能体,在矩阵中表示为0,代表它们在选择策略的过程中不需要交互;如果直接进行归一化操作,由于softmax函数本身的特性将会给不需要交互的智能体之间分配一个边权值,这是不合理的;因此,为了解决这一问题,通过使用-9e15来表示无需交互的智能体之间的关系,这样经过softmax函数计算出来的对应智能体之间的边权值为0,即在进行特征信息融合时不引入该智能体的特征信息:
接下来再进行归一化操作:
其中,e·表示指数运算操作,公式右侧的表示归一化前智能体i和j之间的交互关系,表示对智能体i与任意一个智能体k的交互关系进行指数运算后求和;公式左侧计算得到的表示归一化之后的智能体i和j之间的交互关系,其值为0时,智能体i得不到智能体j的特征信息;其值不为0时,智能体i得到智能体j的特征信息;最终,使用矩阵表示所有智能体之间的交互关系;
步骤五、使用改进的图卷积进行特征信息融合并实现智能体之间的通信
使用改进的图卷积进行特征信息的融合,并将步骤四获取到的智能体之间的交互关系作为图卷积的邻接矩阵以实现智能体之间特征信息的融合;
采用两层的图卷积结构,一层卷积层为:
其中,X(l)是卷积层l的特征信息矩阵,W(l)是第l层卷积层的一个d×d维可训练矩阵,σ是非线性激活函数,表示对矩阵进行对称归一化,根据获取到的智能体之间的交互关系得到因此简化为单位矩阵,又由于对角线上的值大于0,因此满足使用GCN的条件,所以改进后的一层卷积层为:
最终经过两层图卷积网络输出的信息为X(2),为了不引入冗余信息,降低智能体自身的影响,智能体下一层策略网络的输入跟随了残差的计算方法实现智能体之间的通信;
X=X+X(2) (7)
步骤六、智能体进行策略选择
智能体的策略网络采用了三层网络结构,第一层是全连接层,并且使用了ReLU激活函数,第二层是GRU层,最后一层是全连接层,网络的训练使用了Adam优化器;神经网络中间层神经元的个数为64,最后一层网络的输出维度为智能体的动作数目,即可供智能体选择策略的数目;步骤五的操作发生在第一层网络之后,智能体根据其计算结果进行策略选择;
步骤七、多智能体策略网络的训练
总体Q值的计算方式与将多头注意力机制应用于构建联合价值函数的Qatten方法相同,其中,智能体策略网络的损失函数如下所示:
其中,b是从重放缓冲区采样的批大小,τ是动作观测历史,a表示智能体选择的动作,Qtot表示总体估计Q值,是从目标网络得到的目标值,τ′、a′和rm分别是计算目标值时的动作观测历史、智能体选择的动作和得到奖赏,θ和θ-分别表示估计网络和目标网络的参数,γ代表折扣因子;所述估计网络和目标网络采用了步骤六的网络结构,估计网络实时进行更新,目标网络每隔一段时间进行更新;
步骤八、重复步骤二至步骤七,进行T次网络的训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110599226.8A CN113254872B (zh) | 2021-05-31 | 2021-05-31 | 一种基于智能体通信机制的复杂游戏场景下的策略选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110599226.8A CN113254872B (zh) | 2021-05-31 | 2021-05-31 | 一种基于智能体通信机制的复杂游戏场景下的策略选择方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113254872A true CN113254872A (zh) | 2021-08-13 |
CN113254872B CN113254872B (zh) | 2023-12-19 |
Family
ID=77183847
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110599226.8A Active CN113254872B (zh) | 2021-05-31 | 2021-05-31 | 一种基于智能体通信机制的复杂游戏场景下的策略选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113254872B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106096729A (zh) * | 2016-06-06 | 2016-11-09 | 天津科技大学 | 一种面向大规模环境中复杂任务的深度策略学习方法 |
CN108629422A (zh) * | 2018-05-10 | 2018-10-09 | 浙江大学 | 一种基于知识指导-战术感知的智能体学习方法 |
CN109635917A (zh) * | 2018-10-17 | 2019-04-16 | 北京大学 | 一种多智能体合作决策及训练方法 |
JP2019118461A (ja) * | 2017-12-28 | 2019-07-22 | 株式会社 ディー・エヌ・エー | 情報処理装置及び情報処理プログラム |
CN110882542A (zh) * | 2019-11-13 | 2020-03-17 | 广州多益网络股份有限公司 | 游戏智能体的训练方法、装置、设备及存储介质 |
US20210019642A1 (en) * | 2019-07-17 | 2021-01-21 | Wingman AI Agents Limited | System for voice communication with ai agents in an environment |
CN112561032A (zh) * | 2020-11-27 | 2021-03-26 | 中国电子科技集团公司第十五研究所 | 一种基于种群训练的多智能体强化学习方法及系统 |
US20210121780A1 (en) * | 2019-10-25 | 2021-04-29 | Shanghai Billbill Technology Co., Ltd. | Method and system of generating data and training a model, server, and terminal device |
CN112783781A (zh) * | 2021-01-28 | 2021-05-11 | 网易(杭州)网络有限公司 | 游戏测试方法、装置、电子设备及存储介质 |
-
2021
- 2021-05-31 CN CN202110599226.8A patent/CN113254872B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106096729A (zh) * | 2016-06-06 | 2016-11-09 | 天津科技大学 | 一种面向大规模环境中复杂任务的深度策略学习方法 |
JP2019118461A (ja) * | 2017-12-28 | 2019-07-22 | 株式会社 ディー・エヌ・エー | 情報処理装置及び情報処理プログラム |
CN108629422A (zh) * | 2018-05-10 | 2018-10-09 | 浙江大学 | 一种基于知识指导-战术感知的智能体学习方法 |
CN109635917A (zh) * | 2018-10-17 | 2019-04-16 | 北京大学 | 一种多智能体合作决策及训练方法 |
US20200125957A1 (en) * | 2018-10-17 | 2020-04-23 | Peking University | Multi-agent cooperation decision-making and training method |
US20210019642A1 (en) * | 2019-07-17 | 2021-01-21 | Wingman AI Agents Limited | System for voice communication with ai agents in an environment |
US20210121780A1 (en) * | 2019-10-25 | 2021-04-29 | Shanghai Billbill Technology Co., Ltd. | Method and system of generating data and training a model, server, and terminal device |
CN110882542A (zh) * | 2019-11-13 | 2020-03-17 | 广州多益网络股份有限公司 | 游戏智能体的训练方法、装置、设备及存储介质 |
CN112561032A (zh) * | 2020-11-27 | 2021-03-26 | 中国电子科技集团公司第十五研究所 | 一种基于种群训练的多智能体强化学习方法及系统 |
CN112783781A (zh) * | 2021-01-28 | 2021-05-11 | 网易(杭州)网络有限公司 | 游戏测试方法、装置、电子设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
GE, HW ET AL: "Strategy Selection in Complex Game Environments Based on Transfer Reinforcement Learning", 《IEEE INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS》, pages 1 - 8 * |
JIAO, P ET AL: "A Decentralized Partially Observable Markov Decision Model with Action Duration for Goal Recognition in Real Time Strategy Games", 《DISCRETE DYNAMICS IN NATURE AND SOCIETY》, vol. 2017, pages 1 - 15 * |
陈鹏;王子磊;: "融合深度学习与搜索的实时策略游戏微操方法", 计算机工程, vol. 46, no. 06, pages 50 - 59 * |
Also Published As
Publication number | Publication date |
---|---|
CN113254872B (zh) | 2023-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109682392B (zh) | 基于深度强化学习的视觉导航方法及系统 | |
Hong et al. | A deep policy inference q-network for multi-agent systems | |
Groshev et al. | Learning generalized reactive policies using deep neural networks | |
CN108629422B (zh) | 一种基于知识指导-战术感知的智能体学习方法 | |
CN109948029B (zh) | 基于神经网络自适应的深度哈希图像搜索方法 | |
Egorov | Multi-agent deep reinforcement learning | |
Guo et al. | Dynamic recursive neural network | |
Hamkins | The set-theoretic multiverse | |
Talatahari et al. | Imperialist competitive algorithm combined with chaos for global optimization | |
CN110852448A (zh) | 一种基于多智能体强化学习的合作型智能体的学习方法 | |
Wang et al. | Interactive Narrative Personalization with Deep Reinforcement Learning. | |
CN110327624B (zh) | 一种基于课程强化学习的游戏跟随方法和系统 | |
CN112597217B (zh) | 一种历史决策数据驱动的智能决策平台及其实现方法 | |
CN113627596A (zh) | 基于动态图神经网络的多智能体对抗方法及系统 | |
CN114757362A (zh) | 一种基于边缘增强的多智能体系统通信方法及相关装置 | |
Liu et al. | Robot search path planning method based on prioritized deep reinforcement learning | |
CN113254872B (zh) | 一种基于智能体通信机制的复杂游戏场景下的策略选择方法 | |
CN114840024A (zh) | 基于情景记忆的无人机控制决策方法 | |
Liu et al. | Soft-actor-attention-critic based on unknown agent action prediction for multi-agent collaborative confrontation | |
Gupta et al. | Learning autonomous marine behaviors in MOOS-IvP | |
CN113487031A (zh) | 一种基于改进模拟退火融合遗传算法的多无人机任务分配方法 | |
Yu et al. | Inducing cooperation via team regret minimization based multi-agent deep reinforcement learning | |
Min et al. | Deep lstm-based goal recognition models for open-world digital games | |
Zhang et al. | Effective model compression via stage-wise pruning | |
CN115202339B (zh) | 基于dqn的多月球车采样固定目标自适应规划方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |