CN112926729A

CN112926729A - 人机对抗智能体策略制定方法

Info

Publication number: CN112926729A
Application number: CN202110488990.8A
Authority: CN
Inventors: 尹奇跃; 黄凯奇; 赵美静
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-05-06
Filing date: 2021-05-06
Publication date: 2021-06-08
Anticipated expiration: 2041-05-06
Also published as: CN112926729B

Abstract

本发明提供通用的人机对抗智能体策略制定方法，包括：获取多智能体博弈仿真环境中各个智能体当前帧的状态信息、当前帧的地图信息；采用全连接神经网络处理各个智能体的状态信息，卷积神经网络处理各个智能体的地图信息，串接上述处理过的信息与智能体的编码信息送入长短时记忆网络并输出智能体的动作，上述网络参数构成了智能体决策的策略网络参数；采用全连接神经网络处理各个智能体的状态信息，卷积神经网络处理各个智能体的地图信息，串接上述处理过的信息与智能体的编码信息送入长短时记忆网络并输出智能体的值估计，上述网络参数构成了智能体值网络参数；应用所述智能体的值估计构成损失函数，采用策略梯度下降算法进行策略网络参数更新。

Description

人机对抗智能体策略制定方法

技术领域

本申请涉及多智能体人机对抗领域，尤其涉及人机对抗智能体策略制定方法。

背景技术

现实场景中的大多数决策问题都需要多个智能体的有效协同进而完成复杂的决策问题。基于此，尽管传统的单智能体深度强化学习技术取得了一系列显著的成绩，但是却难以解决复杂博弈游戏乃至现实复杂决策问题，需要多智能体深度强化算法的支撑。为实现智能体间的有效协同，一般多智能体强化学习算法在设计时需要显式考虑智能体之间的通信、进行智能体之间的信用分配等，进而在各个智能体决策时涌现协同，解决多智能体协同决策问题。

公开号为CN108921298A，公开了一种强化学习多智能体沟通与决策方法，包括：根据各个智能体的观测状态信息通过神经网络提取相应的状态特征；将所有智能体的状态特征作为沟通信息输入至VLAD层中进行软分配与聚类，得到聚类后的沟通信息；将聚类后的沟通信息分发给各个智能体，由各个智能体将自身的状态特征与接收到的聚类后的沟通信息进行聚合，并通过智能体内部的全连接神经网络进行动作决策。

公开号为CN112132263A，公开了一种基于强化学习的多智能体自主导航方法，属于多智能体强化学习领域。本发明通过长短时记忆网络将环境历史状态编码为系统的隐状态特征向量，并将编码后的系统隐状态作为智能体的策略网络以及动作评价网络的输入，从而使得智能体的策略网络和动作评价网络都能基于环境全局的信息工作，使得智能体的策略更加鲁棒。

考虑到现实博弈环境较为复杂，尽管通过设计通信等方式可以一定程度实现多智能体策略的有效制定，但是对于策略的训练却存在较大的计算开销，难以支撑复杂博弈决策问题通过自我博弈数轮的多智能体策略迭代。因此，如何设计简单有效的多智能体算法实现策略的快速训练成为解决复杂博弈问题亟需解决的问题。

发明内容

本发明提供人机对抗智能体策略制定方法，包括：

S1：获取多智能体博弈仿真环境中每个智能体当前帧的状态特征和每个智能体当前帧的地图特征；

S2：将所述每个智能体当前帧的状态特征输入到策略网全连接神经网络，得到策略网状态特征；将所述每个智能体当前帧的地图特征输入到策略网卷积神经网络，得到策略网地图特征；将所述策略网状态特征、策略网地图特征和智能体的编码特征串接，得到智能体当前帧的策略网总体特征；将所述智能体当前帧的策略网总体特征输入到策略网长短时记忆网络并输出每个智能体的动作；所述策略网全连接神经网络的参数、所述策略网卷积神经网络的参数和所述策略网长短时记忆网络的参数构成了智能体决策的策略网络参数；

S3：将所述每个智能体当前帧的状态特征输入到值网络全连接神经网络，得到值网络状态特征；将所述每个智能体当前帧的地图特征输入到值网络卷积神经网络，得到值网络地图特征；将所述值网络状态特征、值网络地图特征和所述智能体的编码特征串接，得到智能体当前帧的值网络总体特征；将所述智能体当前帧的值网络总体特征输入到值网络长短时记忆网络并输出智能体的值估计；所述值网络全连接神经网络的参数、所述值网络卷积神经网络的参数和所述值网络长短时记忆网络的参数构成了智能体值网络参数；

S4：将每个智能体当前帧的状态特征输入权重全连接神经网络，得到映射并归一化得到每个智能体的值估计的权重；

S5：依据所述每个智能体的动作构成的联合动作进行环境推演，获取每个智能体下一帧的状态特征、地图特征、环境回报信息；

S6：重复步骤S1-S5 m次，收集m组训练数据，应用智能体的值估计的权重对所述智能体的值估计做加权构成损失函数，采用策略梯度下降算法进行策略网络参数更新，m为训练一次的轨迹数据长度，取值为2^b，b取值3-7之间的整数；

S7：重复步骤S1-S6，直至策略网络参数收敛获得策略制定方法。

优选的，提取多智能体博弈仿真环境中每个智能体当前帧的状态信息构成每个智能体当前帧的状态特征，表现形式为数据向量；提取以智能体为中心的地图信息构成每个智能体当前帧的地图特征，表现形式为三维张量；所述环境回报信息为，由多智能体博弈仿真环境反馈的奖赏值；

所述训练数据的基本形式为

，其中

与

表示智能体i当前t帧与下一帧状态特征、地图特征和编码信息的串接，

表示智能体i当前帧动作，r_t为在当前t帧，多智能体博弈仿真环境反馈的奖赏值。

优选的，所述状态信息包括：智能体的属性值、位置信息；所述地图信息为，记录了以智能体为中心的所在环境的地形信息和视野信息；所述属性值为血量、装甲类型。

优选的，所述编码信息为智能体编码，由0与1组成的独热编码。

优选的，所述策略网卷积神经网络之后连接一层全连接网络；策略网长短时记忆网络之后连接全连接层，在所述全连接层上施加softmax函数，并给出动作值的概率，依据所述动作值的概率进行动作选择。

优选的，所述值网络卷积神经网络之后连接一层全连接网络；值网络长短时记忆网络之后连接全连接层。

优选的，所有智能体具有完全一致的策略网络参数；所有智能体共用一个值网络。

优选的，所述应用所述智能体的值估计构成损失函数的具体形式为：

其中，

V^π(s_t)：在当前t帧，所有智能体在状态s_t时的加权值估计；

V^π(s_t+1)：在t+1帧，所有智能体在状态s_t+1时的加权值估计；

：智能体i在状态

下的值估计；

：智能体i在状态

下的值估计；

：智能体i在当前t帧的权重系数；

：智能体i在当前t+1帧的权重系数。

优选的，所述采用策略梯度下降算法进行策略网络梯度计算的公式为：

其中，

：多智能体博弈仿真环境反馈的奖赏值的期望

的梯度，

为

对数值对参数θ的梯度；

∇_θ：策略网络参数θ的梯度；

：softmax函数给出动作值的概率。

优选的，所述权重系数的计算公式为：

其中，

：将智能体i当前t帧的状态特征输入权重全连接神经网络，得到的映射。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

本申请实施例提供的该方法，通过所设计的权值共享的多智能体人机对抗策略，进行了连级兵棋水网稻田想定下的红方与蓝方智能体的训练，所学习的红方策略能够战胜目前图灵网上公开的蓝方智能体，所学习的蓝方策略能够战胜目前图灵网上公开的红方智能体。

附图说明

图1为本发明实施例提供的人机对抗智能体策略制定方法框架图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

实施例1：

如图1所示本申请实施例提供的人机对抗智能体策略制定方法，包括：

提取多智能体博弈仿真环境中每个智能体当前帧的状态信息构成每个智能体当前帧的状态特征，表现形式为数据向量；提取以智能体为中心的地图信息构成每个智能体当前帧的地图特征，表现形式为三维张量；所述环境回报信息为，由多智能体博弈仿真环境反馈的奖赏值；

所述训练数据的基本形式为

，其中

与

表示智能体i当前帧动作，r_t为在当前t帧，多智能体博弈仿真环境反馈的奖赏值；

所述状态信息包括：智能体的属性值（例如血量、装甲类型等）、位置信息；所述地图信息为，记录了以智能体为中心的所在环境的地形信息和视野信息；

S2：将所述每个智能体当前帧的状态特征输入到策略网全连接神经网络，即图1中的DNN1，得到策略网状态特征；将所述每个智能体当前帧的地图特征输入到策略网卷积神经网络，即图1中的CNN1，得到策略网地图特征；将所述策略网状态特征、策略网地图特征和智能体的编码特征串接，得到智能体当前帧的策略网总体特征；所述编码信息为智能体编码，由0与1组成的独热编码；将所述智能体当前帧的策略网总体特征输入到策略网长短时记忆网络(Long Short-Term Memory)，即图1中的LSTM1，并输出每个智能体的动作；所述策略网全连接神经网络的参数、所述策略网卷积神经网络的参数和所述策略网长短时记忆网络的参数构成了智能体决策的策略网络参数；所述策略网卷积神经网络之后连接一层全连接网络；策略网长短时记忆网络之后连接全连接层，在所述全连接层上施加softmax函数，并给出动作值的概率，依据所述动作值的概率进行动作选择；所有智能体具有完全一致的策略网络参数，通过策略网络参数共享，将克服智能体训练中产生懒惰智能体（lazyagent），同时将加快训练过程；

S3：将所述每个智能体当前帧的状态特征输入到值网络全连接神经网络，即图1中的DNN2，得到值网络状态特征；将所述每个智能体当前帧的地图特征输入到值网络卷积神经网络，即图1中的CNN2，得到值网络地图特征；将所述值网络状态特征、值网络地图特征和所述智能体的编码特征串接，得到智能体当前帧的值网络总体特征；将所述智能体当前帧的值网络总体特征输入到值网络长短时记忆网络，即图1中的LSTM2，并输出智能体的值估计；所述值网络全连接神经网络的参数、所述值网络卷积神经网络的参数和所述值网络长短时记忆网络的参数构成了智能体值网络参数；所述值网络卷积神经网络之后连接一层全连接网络；值网络长短时记忆网络之后连接全连接层；所有智能体共用一个值网络，通过值网络参数共享以及后续值网络更新方式，将促进多智能体协作，同时加快训练过程；

所述权重系数的计算公式为：

其中，

：将智能体i当前t帧的状态特征输入权重全连接神经网络，得到的映射；

S6：重复步骤S1-S5 m次，收集m组训练数据，应用智能体的值估计的权重对所述智能体的值估计做加权构成损失函数，采用策略梯度下降算法进行策略网络参数更新，m取值一般为2^b，这里b取值7；

所述应用所述智能体的值估计构成损失函数的具体表示为：

其中，

V^π(s_t)：在当前t帧，所有智能体在状态s_t时的加权值估计；

V^π(s_t+1)：在t+1帧，所有智能体在状态s_t+1时的加权值估计；

：智能体i在状态

下的值估计；

：智能体i在状态

下的值估计；

：智能体i在当前t帧的权重系数；

：智能体i在当前t+1帧的权重系数；

所述采用策略梯度下降算法进行策略网络梯度计算的公式为：

其中，

：多智能体博弈仿真环境反馈的奖赏值的期望

的梯度，

为

对数值对参数θ的梯度；

∇_θ：策略网络参数θ的梯度；

：softmax函数给出动作值的概率；

实施例2

如图1所示，本发明提供了人机对抗智能体策略制定方法，优选实施例为兵棋推演，选用红方三个算子（重型坦克、重型战车、步兵小队）进行多智能体训练，其中每个算子作为一个智能体，蓝方选用内置示例智能体控制，其包括：

步骤S1，获取兵棋推演环境中各个智能体（重型坦克、重型战车、步兵小队）当前帧的状态信息、当前帧的地图信息。

具体地，智能体的状态信息包括该智能体的属性值、位置信息（维度为36维向量），可视范围内蓝方智能体（包括重型坦克、重型战车、步兵小队）的属性值、位置信息，上述信息构成智能体的状态特征，维度为36*4=144。

地图信息为该智能体为中心的周边地形信息（从林地、城镇居民地等）、高程信息（地形高度）、可视范围信息（是否通视）、攻击等级信息（最大攻击等级），上述信息构成智能体的地图特征，以23*13区域大小计算，维度为23*13*4。

步骤S2，采用全连接神经网络，即图1中的DNN1，处理各个智能体的状态特征，卷积神经网络，即图1中的CNN1，处理各个智能体的地图特征，串接上述处理过的两种特征与智能体的编码送入长短时记忆网络，即图1中的LSTM1，并输出智能体的动作信息。

S2-1，对于其中一个智能体，采用三层全连接神经网络（节点数为128,128,128）处理该智能体的状态特征得到具有较高层语义表达的状态特征表达（维度为128）。采用两层卷积神经网络（卷积核大小为5*5*4*8,5*5*8*16）处理地图特征，之后连接一层全连接网络（节点数位128）得到具有较高层语义表达的地图特征表达（维度为128）。

S2-2，对于该智能体按照其初始化排序进行one-hot编码，重型坦克编码为[1, 0,0]，重型战车编码为[0, 1, 0]，步兵小队编码为[0, 0, 1]。

S2-3，将上述状态特征表达、地图特征表达、智能体编码特征进行串接送入LSTM1网络中得到当前帧该智能体的动作。本实施例中动作包含机动、射击、停止、掩蔽、上车、下车、夺控、空动作，其中机动包含6个方向一个标准六角格的机动，因此动作空间大小为13，基于此LSTM1网络的大小设置为128，LSTM1到动作映射之前加入全连接网络，其节点数位13。通过在全连接层施加softmax函数并基于各个动作值的概率进行动作选择。

S2-4，使用相同的上述策略网络参数重复步骤S2-1到S2-3获得所有智能体（包括重型坦克、重型战车、步兵小队）的动作。

步骤S3，采用全连接神经网络，即图1中的DNN2，处理各个智能体的状态特征，卷积神经网络，即图1中的CNN2，处理各个智能体的地图特征，串接上述处理过的两种特征与智能体的编码送入长短时记忆网络，即图1中的LSTM2，并输出智能体的值估计。

S3-1，对于其中一个智能体，采用三层全连接神经网络（节点数为128,128,128）处理该智能体的状态特征得到具有较高层语义表达的状态特征表达（维度为128）。采用两层卷积神经网络（卷积核大小为5*5*4*8,5*5*8*16）处理地图特征，之后连接一层全连接网络（节点数位128）得到具有较高层语义表达的地图特征表达（维度为128）。

S3-2，对于该智能体按照其初始化排序进行one-hot编码，重型坦克编码为[1, 0,0]，重型战车编码为[0, 1, 0]，步兵小队编码为[0, 0, 1]。

S3-3，将上述状态特征表达、地图特征表达、智能体编码特征进行串接送入长短时记忆网络中得到该智能体的值估计。LSTM2网络的大小设置为128，LSTM2到动作映射之前加入全连接网络，其节点数位1。

S3-4，使用相同的上述策略网络参数重复步骤S3-1到S3-3获得所有智能体（包括重型坦克、重型战车、步兵小队）的值估计。

步骤S4，对各个智能体的状态特征（144维度）通过两层全连接网络（节点数目为32,1）映射并归一化得到各个智能体的值估计的权重，即

；

所述权重系数的计算公式为：

其中，

步骤S5，依据各个智能体预测的动作构成联合动作，并传入兵棋推演环境中进行一步推演，获取各个智能体下一帧的状态信息、地图信息、环境回报信息；

具体地，将上述联合动作送入兵棋推演环境进行环境的一步推演，得到各个智能体下一帧的状态信息、地图信息以及所有智能体统一的回报值。该回报值采用兵棋体验环境中的面板分差表示，即下一帧红方智能体的总得分与当前帧红方智能体的总得分。

步骤S6，重复步骤S1-S5 128步得到每个智能体的一个长度为128的轨迹数据（当仿真环境结束时重置环境以及LSTM初始值），该数据表示为

，整合所有智能体的轨迹数据进行策略网络参数与值网络参数（包括各个智能体值估计权重网络）的更新。

具体地，策略网络梯度计算为：

值网络优化目标为：

该目标优化过程中将采用梯度下降法直接计算。

步骤S7，重复步骤S1-S6直至策略网络参数收敛。

具体地，步骤S1-S5收集数据，步骤S6进行网络训练，当各个智能体策略网络输出的动作概率趋于收敛时，则策略网络收敛。

此时，得到适用于多智能体人机对抗策略制定方法π。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种特征，但这些特征不应限于这些术语。这些术语仅用来将同一类型的特征彼此区分开。例如，在不脱离本发明范围的情况下，第一特征也可以被称为第二特征，类似地，第二特征也可以被称为第一特征。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.人机对抗智能体策略制定方法，其特征在于，包括：

2.根据权利要求1所述的人机对抗智能体策略制定方法，其特征在于，提取多智能体博弈仿真环境中每个智能体当前帧的状态信息构成每个智能体当前帧的状态特征，表现形式为数据向量；提取以智能体为中心的地图信息构成每个智能体当前帧的地图特征，表现形式为三维张量；所述环境回报信息为，由多智能体博弈仿真环境反馈的奖赏值；

所述训练数据的基本形式为