CN113254872A

CN113254872A - 一种基于智能体通信机制的复杂游戏场景下的策略选择方法

Info

Publication number: CN113254872A
Application number: CN202110599226.8A
Authority: CN
Inventors: 葛宏伟; 葛志欣; 孙亮; 候亚庆
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2021-08-13
Anticipated expiration: 2041-05-31
Also published as: CN113254872B

Abstract

本发明提供了一种基于智能体通信机制的复杂游戏场景下的策略选择方法，属于人工智能与群体决策交叉领域，即基于复杂游戏场景，利用多智能体强化学习算法来控制游戏智能体进行策略选择。本发明首先将复杂游戏场景建模为图网络，利用游戏智能体的空间信息和特征信息计算它们之间的交互关系，同时过滤掉冗余的游戏智能体；然后利用改进的图卷积进行特征信息的融合，进而实现游戏智能体之间的通信。本发明在一定程度上能够增大游戏智能体的感知范围，避免了游戏智能体之间无意义的交互，使其能够选择合适的策略，从而提升了其在复杂游戏场景下的表现。

Description

一种基于智能体通信机制的复杂游戏场景下的策略选择方法

技术领域

本发明属于人工智能与群体决策交叉技术领域，涉及一种基于智能体通信机制的复杂游戏场景下的策略选择方法。

背景技术

受益于国际AI赛事以及企业与学术界的友好合作，游戏AI取得了长足的进展，在复杂游戏场景下更聪明、表现更多样的游戏AI能够有效地提升玩家的游戏体验。另外，由于复杂游戏场景拥有着大量的游戏智能体和丰富的环境信息，十分接近现实的世界，已经成为了人工智能领域的研究热点，其研究对辅助人类进行战争决策，社会决策等方面有很大的帮助。因此，为了在复杂游戏场景下更智能地实现对游戏智能体的控制，让每个游戏智能体选择合适的策略是一个值得解决的问题。

多智能体强化学习(Multi-Agent Reinforcement Learning,MARL)技术能够实现对多个游戏智能体的控制，为解决复杂游戏场景下的策略选择问题提供了有效的解决方案，在本发明接下来的介绍中将使用智能体替代游戏智能体进行说明。在复杂游戏场景下由于智能体的部分可观测问题(智能体的观测范围有限，只能观测到一定的范围)，可以通过智能体之间的通信帮助智能体进行策略选择。因此为了实现智能体之间的通信，获取智能体之间的交互关系和通信信息是很必要的。使用基于域启发的方式可以获取智能体之间的交互关系(KOK J R,HOEN E J,BAKKER B,et al.Utile coordination:Learninginterdependencies among cooperative agents[C]//EEE Symp.on ComputationalIntelligence and Games,Colchester,Essex.2005:29-36.)，然而，对于很多任务来说，智能体之间的交互关系是动态变化的并且可能和各个智能体本身相关，采用上述预定义的方式可能无法应对复杂场景下的任务。一些方法使用邻接矩阵作为智能体之间的交互关系，但是这类方法没有考虑到智能体本身所带来的影响；还有一些方法采用自注意力机制计算智能体之间的交互关系，但是这类方法当智能体之间无需交互时，也会给其分配一个边权值，这削弱了智能体原本对其他智能体的关注度(MALYSHEVA A,SUNG T T,SOHN C B,etal.Deep multi-agent reinforcement learning with relevance graphs[J].ArXivpreprint arXiv:1811.12557,2018.LI S,GUPTA J K,MORALES P,et al.Deep implicitcoordination graphs for multi-agent reinforcement learning[C]//InternationalConference on Autonomous Agents and Multiagent Systems.2021.)；G2Anet首先获取每个智能体的子图，然后根据子图得到其他智能体的贡献，但是这种逐点计算的方式，在训练过程中当采取的样本数目较大时，将会对算法的效率带来影响(LIU Y,WANG W,HU Y,etal.Multi-agent game abstraction via graph attention neural network[C]//Proceedings of the AAAI Conference on Artificial Intelligence.2020,34(05):7211-7218.)。因此，为了在复杂游戏场景下利用通信机制为智能体选择合适的策略，学习一种获取智能体之间的交互关系和通信信息的方法是非常重要的。

针对在复杂游戏场景下进行策略选择时难以获取合适的智能体之间的交互关系和通信信息的问题，本发明提出了一种基于通信机制的复杂游戏场景下的策略选择方法。该方法通过利用智能体的空间信息和特征信息捕获智能体之间的动态交互关系，然后使用改进的图卷积实现对智能体特征信息的融合，进而实现智能体之间的通信。这种方法在一定程度上增大了智能体的感知范围，避免了智能体之间无意义的交互，这使智能体能够在复杂游戏场景下选择合适的策略。

发明内容

针对在复杂游戏场景下进行策略选择时难以获取合适的智能体之间的交互关系和通信信息的问题，本发明提出了一种基于通信机制的复杂游戏场景下的策略选择方法。该方法通过捕获智能体之间的动态交互关系，并使用改进的图卷积实现对智能体特征信息的融合，在一定程度上增大了智能体的感知范围，避免了智能体之间无意义的交互，使其可以选择合适的策略。

本发明的技术方案：

一种基于通信机制的复杂游戏场景下的策略选择方法，步骤如下：

步骤一、将复杂游戏场景建模为图网络，图上的每个节点表示一个智能体，节点的特征表示智能体的观测值(或观测值编码)，节点之间边的权值表示智能体之间的交互关系；

步骤二、获取环境的状态并得到所有智能体的观测值

其中o_i表示智能体i的观测值，o是一个n×d维的矩阵，n是智能体的数目，d是智能体观测值的维度的大小；对所有智能体的观测值进行编码得到

其中X_i表示的是智能体i的观测值编码，X是一个n×d′维的矩阵，n是智能体的数目，d′是智能体观测值的编码维度的大小；

步骤三、根据先验领域知识构建邻接矩阵，由于每个智能体的观测范围有限，其只能观测到一定范围，因此利用其观测范围为智能体构建邻接矩阵M。如果智能体j在智能体i的观测范围之内，那么就代表着智能体i能观测到智能体j，将M_i,j设置为1；如果智能体j不在智能体i的观测范围之内，那么就代表着智能体i无法观测到智能体j，将M_i,j设置为0；

步骤四、计算智能体之间的交互关系

从步骤二可以得到所有智能体的观测值编码X，也即智能体的特征信息，然后采用自注意力机制计算任意两个智能体的观测值编码之间的相似性值α_i,j，作为这两个智能体之间的边权值：

其中，Q和K设置为与X相同，Q_i表示智能体i的观测值编码，K_j表示智能体j的观测值编码，T代表转置符号，d_K是一个归一化因子，对得到的结果进行缩放。经过上式计算可以得到任意两个智能体观测值编码之间的相似性值，用α表示。

然后使用步骤三构建的邻接矩阵M过滤掉无需交互的智能体之间的相似性值，结果用

表示：

最后将矩阵

经过softmax函数进行归一化，对于没有交互的两个智能体，在矩阵

中表示为0，代表它们在选择策略的过程中不需要交互。如果直接进行归一化操作，由于softmax函数本身的特性将会给不需要交互的智能体之间分配一个边权值，这是不合理的。因此，为了解决这一问题，本发明通过使用一个很小的值-9e15来表示无需交互的智能体之间的关系，这样经过softmax函数计算出来的对应智能体之间的边权值为0，即在进行特征信息融合时不引入该智能体的特征信息：

接下来再进行归一化操作：

其中e^·表示指数运算操作，公式右侧的

表示归一化前智能体i和j之间的交互关系，

表示对智能体i与任意一个智能体k的交互关系进行指数运算后求和；公式左侧计算得到的

表示归一化之后的智能体i和j之间的交互关系，其值为0时，智能体i得不到智能体j的特征信息；其值不为0时，智能体i可以得到智能体j的特征信息。最终，使用矩阵

表示所有智能体之间的交互关系。

步骤五、使用改进的图卷积进行特征信息融合并实现智能体之间的通信

当得到智能体之间的交互关系后，需要合适的方式对智能体的特征信息进行融合。原始的GCN(Graph Convolutional Network)方法仅利用邻接矩阵进行节点特征信息的融合，没有考虑到节点本身特征信息的影响，因此本发明使用了改进的图卷积进行特征信息的融合，并将步骤四获取到的智能体之间的交互关系作为图卷积的邻接矩阵以实现智能体之间特征信息的融合。

本发明采用了两层的图卷积结构，一层卷积层为：

其中X^(l)是卷积层l的特征信息矩阵，W^(l)是第l层卷积层的一个d×d维可训练矩阵，σ是非线性激活函数，

表示对矩阵

进行对称归一化。根据本发明获取到的智能体之间的交互关系可以得到

因此

可以简化为单位矩阵，又由于

对角线上的值大于0，因此满足使用GCN的条件，所以改进后的一层卷积层为：

最终经过两层图卷积网络输出的信息为X⁽²⁾，为了不引入冗余信息，降低智能体自身的影响，智能体下一层策略网络的输入跟随了残差的计算方法实现智能体之间的通信。

X＝X+X⁽²⁾ (7)

步骤六、智能体进行策略选择

智能体的策略网络采用了三层网络结构，第一层是全连接层，并且使用了ReLU激活函数，第二层是GRU层，最后一层是全连接层，网络的训练使用了Adam优化器。神经网络中间层神经元的个数为64，最后一层网络的输出维度为智能体的动作数目，即可供智能体选择的策略数目。步骤五的操作发生在第一层网络之后，智能体根据其计算结果进行策略选择。

步骤七、多智能体策略网络的训练

总体Q值的计算方式与将多头注意力机制应用于构建联合价值函数的Qatten方法相同，其中，智能体策略网络的损失函数如下所示：

其中，b是从重放缓冲区采样的批大小，τ是动作观测历史，a表示智能体选择的动作，Q_tot表示总体估计Q值，

是从目标网络得到的目标值，τ′、a′和r_m分别是计算目标值时的动作观测历史、智能体选择的动作和得到奖赏，θ和θ^-分别表示估计网络和目标网络的参数，γ代表折扣因子。所述估计网络和目标网络采用了步骤六的网络结构，估计网络实时进行更新，目标网络每隔一段时间进行更新；

步骤八、重复步骤二至步骤七，进行T次网络的训练。

本发明的有益效果：本发明提出的一种基于通信机制的复杂游戏场景下的策略选择方法，通过捕获智能体之间的交互关系，将冗余的智能体过滤掉，可以适应环境的动态变化。然后使用改进的图卷积对智能体的特征信息进行融合，增大了智能体的感知范围，进而实现了智能体之间有效的通信，使智能体可以选择合适的策略。本发明提出的方法可以有效地提高在复杂游戏场景下对局的胜率。

附图说明

图1是复杂游戏场景建模示意图；

图2是智能体的特征示意图；

图3是图卷积网络示意图；

图4是本发明的总体流程示意图；

图5是多智能体策略网络示意图；

图6是本发明的方法与对比方法在星际争霸II的5m_vs_6m场景上的测试胜率，其中IR-GC是本发明提出的方法，Qatten是无通信的多智能体强化学习方法，DICG是采用完全图实现通信的方法。

具体实施方式

本发明提供一种基于通信机制的复杂游戏场景下的策略选择方法。所论述的具体实施例仅用于说明本发明的实现方式，而不限制本发明的范围。

本发明以星际争霸II中的5m_vs_6m微观控制任务作为实例进行详细说明，使用的开源平台是SMAC，其利用了暴雪的星际争霸II机器学习API和DeepMind的PySC2，并为用户提供了一个方便的接口用以进行研究。下面结合附图1-6对本发明的实施方式进行详细说明，本发明具体包括以下步骤：

1.将星际争霸II中的5m_vs_6m场景建模为图网络，以图1为例进行说明，图上总共有5个节点，其中每个节点表示一个智能体，节点的特征表示智能体的观测值编码，节点之间的边权值表示智能体之间的交互关系；

2.获取环境的状态并得到所有智能体的观测值

其中o_i表示智能体i的观测值，o是一个5×72的矩阵；然后对所有智能体的观测值进行编码得到

其中X_i表示的是智能体i的观测值编码，X是一个5×64的矩阵。在星际争霸II的5m_vs_6m微观控制任务中我方控制的同盟智能体为5个海军陆战队士兵，敌方控制的敌人智能体为6个海军陆战队士兵，因此本实例中智能体的数目为5。

3.根据智能体的观测值提取智能体的空间信息进而构建邻接矩阵，如图2所示。在星际争霸II中，当智能体能够观测到同盟或敌人时，其观测值对应位置就为同盟或敌人的特征，否则就都为0。具体表现为当智能体观测值中对应的某个同盟智能体的“是否可见”这一特征的值为1时，表示能观测到这一个智能体；这个值为0时，表示观测不到这个智能体。因此，本发明将智能体能观测到的同盟智能体作为邻居，为智能体构建邻接矩阵M，以图1为例：

以矩阵的第一行为例，M_1,2,M_1,3,M_1,5的值为1，M_1,2的值为0，表示着智能体1能够观测到智能体2、3和5，观测不到智能体4。

4.计算智能体之间的交互关系

从第2步可以得到所有智能体的观测值编码X，然后采用自注意力机制计算任意两个智能体的观测值编码之间的相似性值α_i,j，作为这两个智能体之间的边权值：

其中，Q和K设置为与X相同，Q_i表示智能体i的观测值编码，K_j表示智能体j的观测值编码，T代表转置符号，d_K＝64是一个归一化因子，表示对得到的结果进行缩放。经过上式计算可以得到任意两个智能体观测值编码的相似性值，用α表示。

然后使用构建的邻接矩阵M过滤掉无需交互的智能体之间的相似性值，结果用

表示：

最后将矩阵

中表示为0，表示它们不需要交互。如果直接进行归一化操作，由于softmax函数本身的特性将会给不需要交互的这两个智能体之间分配一个边权值，这是不合理的。因此，为了解决这一问题，本发明通过使用一个很小的值-9e15来表示无需交互的智能体之间的关系，这样经过softmax函数计算出来的对应智能体之间的边权值为0，即在进行特征信息融合时不引入该智能体的特征信息：

接下来再进行归一化操作：

其中e^·表示指数运算操作，公式右侧的

表示归一化前智能体i和j之间的交互关系，

表示所有智能体之间的交互关系。

5.使用改进的图卷积进行特征信息融合并实现智能体之间的通信

当得到智能体之间的交互关系后，需要合适的方式对智能体的特征信息进行融合。原始的GCN(Graph Convolutional Network)方法仅利用邻接矩阵进行图卷积，没有考虑到节点本身特征信息的影响，因此本发明使用了改进的图卷积进行特征信息的融合，并将通过上一步计算得到的智能体之间的交互关系作为图卷积的邻接矩阵以实现智能体之间特征信息的融合。

本发明采用了两层的图卷积结构，如图3所示，一层卷积层为：

其中X^(l)是卷积层l的特征矩阵，W^(l)是第l层卷积层的一个64×64维的可训练的矩阵，σ是非线性激活函数，

表示对矩阵

进行对称归一化，根据本发明获取到的智能体之间的交互关系可以得到

因此

可以简化为单位矩阵，又由于

图卷积网络采用了两层的网络结构，第一层是全连接层，并且使用了ReLU激活函数，第二层是全连接层，网络的输入、输出的维度均为64，神经网络中间层神经元的个数也设置为64。

最终经过两层图卷积输出的信息为X⁽²⁾，为了不引入冗余信息，降低智能体自身的影响，智能体下一层策略网络的输入跟随了残差的计算方法实现智能体之间的通信。

X＝X+X⁽²⁾ (8)

6.智能体进行策略选择

智能体的策略网络采用了相同的三层网络结构，第一层是全连接层，并且使用了ReLU激活函数，第二层是GRU层，最后一层是全连接层，网络的训练使用了Adam优化器。神经网络中间层神经元的个数为64，最后一层网络的输出维度为智能体的动作数目，即可供智能体选择策略的数目。第5步的操作发生在第一层网络之后，智能体根据其计算结果进行策略选择。

7.多智能体策略网络的训练

详细的多智能体策略网络示意图如图4所示。首先，将所有智能体的局部观测值输入到智能体的策略网络，获取到经过第一层神经网络的编码矩阵X，并将o_t和X输入到智能体交互关系获取模块(IR)计算

然后将X和

输入到图卷积模块(GC)实现智能体的信息融合(因此将本发明的方法称为IR-GC)，智能体策略网络GRU层(包含隐藏状态h_t)的输入跟随了残差的计算方法实现了智能体之间的通信，最终让智能体进行策略选择。随机策略探索率最初设定为1，然后在50万个时间步内逐渐降低到0.05。

总体Q值的计算方式(混合网络)与将多头注意力机制应用于构建联合价值函数的Qatten方法相同，其中，智能体策略网络的损失函数如下所示：

其中，b是从重放缓冲区采样的批大小，其值为32，τ是动作观测历史，a表示智能体选择的动作，Q_tot表示总体估计Q值，

是从目标网络得到的目标值，τ′、a′和r_m分别是计算目标值时的动作观测历史、智能体选择的动作和得到奖赏，θ和θ^-分别表示估计网络和目标网络的参数，γ代表折扣因子。

8.重复步骤2至步骤7，进行200万个时间步的训练。本发明的总体流程图如图5所示。

本发明与对比方法在星际争霸II中的5m_vs_6m场景上的测试胜率如图6所示。

Claims

1.一种基于智能体通信机制的复杂游戏场景下的策略选择方法，其特征在于，步骤如下：

步骤一、将复杂游戏场景建模为图网络，图上的每个节点表示一个游戏智能体，节点的特征表示智能体的观测值或观测值编码，节点之间边的权值表示智能体之间的交互关系；

步骤二、获取环境的状态并得到所有智能体的观测值

步骤三、根据先验领域知识构建邻接矩阵，由于每个智能体的观测范围有限，其只能观测到一定范围，因此利用其观测范围为智能体构建邻接矩阵M；如果智能体j在智能体i的观测范围之内，那么就代表着智能体i能观测到智能体j，将M_i,j设置为1；如果智能体j不在智能体i的观测范围之内，那么就代表着智能体i无法观测到智能体j，将M_i,j设置为0；

步骤四、计算智能体之间的交互关系

从步骤二得到所有智能体的观测值编码X，也即智能体的特征信息，然后采用自注意力机制计算任意两个智能体的观测值编码之间的相似性值α_i,j，作为这两个智能体之间的边权值：

其中，Q和K设置为与X相同，Q_i表示智能体i的观测值编码，K_j表示智能体j的观测值编码，T代表转置符号，d_K是一个归一化因子，对得到的结果进行缩放；经过上式计算得到任意两个智能体观测值编码之间的相似性值，用α表示；

表示：

最后将矩阵

中表示为0，代表它们在选择策略的过程中不需要交互；如果直接进行归一化操作，由于softmax函数本身的特性将会给不需要交互的智能体之间分配一个边权值，这是不合理的；因此，为了解决这一问题，通过使用-9e15来表示无需交互的智能体之间的关系，这样经过softmax函数计算出来的对应智能体之间的边权值为0，即在进行特征信息融合时不引入该智能体的特征信息：

接下来再进行归一化操作：

其中，e^·表示指数运算操作，公式右侧的

表示归一化前智能体i和j之间的交互关系，

表示归一化之后的智能体i和j之间的交互关系，其值为0时，智能体i得不到智能体j的特征信息；其值不为0时，智能体i得到智能体j的特征信息；最终，使用矩阵

表示所有智能体之间的交互关系；

使用改进的图卷积进行特征信息的融合，并将步骤四获取到的智能体之间的交互关系作为图卷积的邻接矩阵以实现智能体之间特征信息的融合；

采用两层的图卷积结构，一层卷积层为：

其中，X^(l)是卷积层l的特征信息矩阵，W^(l)是第l层卷积层的一个d×d维可训练矩阵，σ是非线性激活函数，

表示对矩阵

进行对称归一化，根据获取到的智能体之间的交互关系得到

因此

简化为单位矩阵，又由于

最终经过两层图卷积网络输出的信息为X⁽²⁾，为了不引入冗余信息，降低智能体自身的影响，智能体下一层策略网络的输入跟随了残差的计算方法实现智能体之间的通信；

X＝X+X⁽²⁾ (7)

步骤六、智能体进行策略选择

智能体的策略网络采用了三层网络结构，第一层是全连接层，并且使用了ReLU激活函数，第二层是GRU层，最后一层是全连接层，网络的训练使用了Adam优化器；神经网络中间层神经元的个数为64，最后一层网络的输出维度为智能体的动作数目，即可供智能体选择策略的数目；步骤五的操作发生在第一层网络之后，智能体根据其计算结果进行策略选择；

步骤七、多智能体策略网络的训练

是从目标网络得到的目标值，τ′、a′和r_m分别是计算目标值时的动作观测历史、智能体选择的动作和得到奖赏，θ和θ^-分别表示估计网络和目标网络的参数，γ代表折扣因子；所述估计网络和目标网络采用了步骤六的网络结构，估计网络实时进行更新，目标网络每隔一段时间进行更新；

步骤八、重复步骤二至步骤七，进行T次网络的训练。