CN114662655A

CN114662655A - 一种基于注意力机制的兵棋推演ai分层决策方法及装置

Info

Publication number: CN114662655A
Application number: CN202210192161.XA
Authority: CN
Inventors: 马宗阳; 邓丽珍; 朱虎; 郑本昌
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2022-02-28
Filing date: 2022-02-28
Publication date: 2022-06-24
Anticipated expiration: 2042-02-28
Also published as: CN114662655B

Abstract

本发明公开了一种基于注意力机制的兵棋推演AI分层决策方法及装置，包括进行分层网络建模与强化学习智能体建模，获取到态势推演初始数据进行预处理；获通过智能体局部观察数据，输出当前所有智能体的总体目标；通过智能体局部观察数据和当前所有智能体的总体目标，输出当前所有智能体的当前应采取的决策；通过当前所有智能体的总体目标，筛选并预处理得到此刻的目标态势；利用注意力机制筛选出与目标态势关联最大的智能体局部信息，并进行态势评估；将当前所有智能体的当前应采取的决策输入到兵棋推演环境中，得到更新之后的新态势，通过所述新旧态势之间的差别计算奖励并训练网络，本发明能够有效的解决兵棋推演环境的动态性问题以及稀疏奖励问题，使AI能够实现自主决策，对不同的想定具有一定的适应能力与较高的胜率。

Description

一种基于注意力机制的兵棋推演AI分层决策方法及装置

技术领域

本发明涉及一种基于注意力机制的兵棋推演AI分层决策方法及装置，属于兵棋推演AI技术领域。

背景技术

兵棋作为一种用于战争研究的工具，有着近200年的发展历史。随着计算机与信息技术的发展，早期的手工兵棋逐渐演化为现代的计算机兵棋。兵棋推演是一种基于兵棋平台的演算机制，推演者可充分运用统计学、概率论、博弈论等科学方法，对战争全过程进行仿真、模拟与推演，可以在实际战争中起到优化战争方案、评估战争效能等作用。随着人工智能的发展，基于兵棋推演的AI出现，通过对有限样本数据的不断深度学习、强化学习，实现识别态势、评估态势、自主决策、监控行动、调整任务等功能，使军事应用人员可以更加聚焦于对抗推演本身，兵棋推演过程和实际作战指挥结合得更密切。基于规则的兵棋推演AI决策方法运用十分广泛，然而，基于规则的兵棋推演算法缺少针对与不同想定以及不同对手的适应能力，所以机器学习方法开始逐渐替代规则，成为智能体智能决策的首选方法。

由于兵棋推演的想定中通常存在较多智能体，且若干智能体存在着不同的类别，这种现象在强化学习算法中被称为多智能体环境。多智能体强化学习近年来成为强化学习领域的一个热门方向，在RTS游戏、棋牌类博弈等领域中都得到了广泛的应用。多智能体强化学习往往涉及两个问题:当智能体的数量增加时，输入和控制空间的维度也会增加，基于单智能体的强化学习方法不能很好地进行扩展，且在多智能体系统中智能体之间可能涉及到合作与竞争等关系，外部环境存在着动态性的问题；兵棋推演环境通常无法提供具体的奖励，例如只有胜利与失败两个标志。这使得智能体探索的过程中难以获得正奖励,导致学习缓慢甚至无法进行学习。并且，许多智能体的动作建模复杂，完成动作所获取的奖励难以体现。这个问题被称为稀疏奖励问题。

由于兵棋推演中的超长时间的复杂决策和稀疏奖励问题，使得层次化强化学习在兵棋推演中的实现成为可能。将动作行为从最原始的动作，抽象到多层的动作，是分层强化学习的主要特征。同时，集中式训练分布式执行的强化学习框架首次将通信学习引入到深度多智能体强化学习中。所有智能体共享一个全局评判网络，使算法在评判状态优劣时能够综合考虑所有智能体的信息。且每个智能体有自己的决策网络,只使用自身的局部观察信息来决策。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种基于注意力机制的兵棋推演AI分层决策方法及装置，分层强化学习能够将复杂的决策动作分解为简单动作，同时解决兵棋推演环境的稀疏奖励问题；含注意力机制的多智能体强化学习框架能够充分的利用智能体的局部观察信息与目标态势信息，有效的进行态势评判与分布式决策执行，克服多智能体环境下不稳定的特点，加强智能体之间的通信。

为达到上述目的，本发明是采用下述技术方案实现的：

第一方面，本发明提供了一种基于注意力机制的兵棋推演AI分层决策方法，包括：

进行分层网络建模与强化学习智能体建模，基于强化学习智能体模型对从兵棋推演平台获取到态势推演初始数据进行预处理；

通过预先获取的智能体局部态势数据输出当前所有智能体的总体目标；

通过智能体局部态势数据和当前所有智能体的总体目标，输出当前所有智能体的当前应采取的决策；

通过当前所有智能体的总体目标，筛选并预处理得到此刻的目标态势；

通过当前的目标态势，利用注意力机制筛选出与目标态势关联最大的智能体局部信息，并进行态势评估；

将当前所有智能体的当前应采取的决策输入到兵棋推演环境中，得到更新之后的新态势，通过所述新旧态势之间的差别计算奖励并训练网络。

进一步的，所述进行分层网络建模与强化学习智能体建模，基于强化学习智能体模型对从兵棋推演平台获取到态势推演初始数据进行预处理，包括：

将传统的强化学习网络分为两层，管理层网络为所有智能体决策当前的整体目标，决策层网络为所有智能体决策当前应执行的动作；

设计智能体的状态空间，即强化学习网络的输入数据形式；

设计智能体的决策空间，即智能体所能采取的所有动作；

设计智能体的奖励函数，采取某项决策后能够获取的奖励；根据状态空间可以对兵棋推演环境提供的原始态势信息进行筛选与预处理。

进一步的，所述通过预先获取的智能体局部态势数据输出当前所有智能体的总体目标，包括：

管理层决策网络将经过预处理过后的智能体局部观察态势信息

进行拼接得到

并实时地输入到管理层的决策神经网络当中，输出当前所有智能体的总体目标g_t。

进一步的，所述通过智能体的局部态势数据和当前所有智能体的总体目标，输出当前所有智能体的当前应采取的决策，包括：

执行层决策网络将智能体态势信息与当前目标进行拼接得到

并实时地输入到执行层的决策神经网络当中，输出当前所有智能体的动作

进一步的，所述通过当前所有智能体的总体目标，筛选并预处理得到此刻的目标态势，包括：

针对于当前目标g_t对当前战场态势信息进行筛选与预处理，得到基于目标的目标态势信息S_t。

进一步的，所述通过当前的目标态势，利用注意力机制筛选出与目标态势关联最大的智能体局部信息，并进行态势评估，其中包含管理层与执行层两个部分：

所述管理层的评估部分包括将当前的目标态势S_t输入到管理层的评估神经网络中，输出当前的总体态势评分；

所述执行层的评估部分，包括：

①每一个智能体拥有一个本地评估网络，通过输入当前的智能体态势信息

得到本地评分V_t ⁱ；

②将目标态势将S_t与智能体的态势信息

输入到多头注意力机制的编码层中；

③因为智能体数量较多，并不是所有智能体都与当前目标相关，所以要对智能体信息进行筛选，通过注意力机制计算权重，获取与当前目标态势最为相关的智能体信息，公式为：

将权重与智能体的本地评分V_t ⁱ加权求和，得到此刻执行层的总体态势评分V_tot，公式为：

进一步的，还包括：通过策略梯度下降法训练管理层与执行层的评判网络与决策网络，其中执行层依靠整体价值V_tot进行训练，其优势函数公式如下：

δ_t＝r_t(O_t,u_t)+γV_tot(O_t+1,S_t+1)-V_tot(O_t,S_t) (3)

其中O_t+1与S_t+1为与环境进行交互之后，环境提供的新态势，该等式基于贝尔曼期望，是对不同时间状态估计的差异，利用优势函数δ_t即可对执行层评估网络与决策网络进行训练。

第二方面，本发明提供一种基于注意力机制的兵棋推演AI决策装置，包括：

预处理单元，用于进行强化学习智能体建模，基于强化学习智能体模型对从兵棋推演平台获取到态势推演初始数据进行预处理；

总体目标输出单元，用于获取智能体态势数据，通过所述智能体态势数据输出当前所有智能体的总体目标；

决策输出单元，用于通过预处理过的态势推演初始数据和当前所有智能体的总体目标，输出当前所有智能体的当前应采取的决策；

目标态势获取单元，用于通过当前所有智能体的总体目标，筛选并预处理得到此刻的目标态势；

计算单元，用于将当前所有智能体的当前应采取的决策输入到兵棋推演环境中，得到更新之后的新态势，通过所述目标态势与新态势之间的差别计算奖励。

第三方面，本发明提供一种基于注意力机制的兵棋推演AI决策装置，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据前述任一项所述方法的步骤。

第四方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述任一项所述方法的步骤。

与现有技术相比，本发明所达到的有益效果：

本发明提供一种基于注意力机制的兵棋推演AI决策方法及装置，分层强化学习能够将复杂的决策动作分解为简单动作，同时解决兵棋推演环境的稀疏奖励问题；含注意力机制的多智能体强化学习框架能够充分的利用智能体的局部观察信息与目标态势信息，有效的进行态势评判与分布式决策执行，克服多智能体环境下不稳定的特点，加强智能体之间的通信，使AI能够实现自主决策，对不同的想定具有一定的适应能力与较高的胜率。

附图说明

图1为本发明的系统流程图；

图2为本发明的网络模型交互图；

图3为本发明的网络细节架构图；

图4为本发明的双层决策网络图；

图5为不同方法双层评估网络图；

图6比较的奖励函数随训练轮数比较图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例1

本实施例介绍一种基于注意力机制的兵棋推演AI决策方法，包括：

将当前所有智能体的当前应采取的决策输入到兵棋推演环境中，得到更新之后的新态势，通过所述目标态势与新态势之间的差别计算奖励并训练网络。

本实施例以Python为实现软件平台，如图1所示，本实施例提供的基于注意力机制的兵棋推演AI决策方法及装置，其应用过程具体涉及如下步骤：

步骤1：对兵棋推演环境进行多智能体建模与分层网络建模，其具体步骤包括：

①分层强化学习网络的设计。因为环境存在着稀疏奖励的特点，智能体复杂的动作往往很难获得正向奖励。所以本发明将整体强化学习网络分解为管理层(Manager)与执行层(Worker)。管理层相当于我方的首脑，目标是给执行层的所有智能体制定一个目标(Goal)，目标可以视为一系列简单动作的集合。而执行层即为环境中的所有智能体，目的是通过简单动作达到管理层所指定的目标。管理层网络与执行层网络有着不同的参数且是独立进行学习的。

②智能体的状态空间设计。战场态势的表示是智能体决策生成的前提。在基于兵棋推演的强化学习方法的状态空间的设计上，应尽可能的接近人类玩家进行兵棋推演时的游戏体验。因为兵棋推演存在着战争迷雾问题，每个智能体仅能够获取到自身周围一定范围内的态势，被称为局部观察态势信息

N为智能体的总个数。

主要由智能体属性、地图属性等几个部分组成，如智能体当前的位置、血量、压制状态、冷却状态等。

③智能体的决策空间设计。因为属于分层强化学习，所以要对双层的动作空间都进行设计。为了使强化学习的动作空间与兵棋推演平台自身的动作空间相符合，执行层的基本动作在本发明中称为

其设计为移动(至附近的六角格)、攻击、掩蔽、停止等。管理层的基本动作在本发明中称为

其设计则需顾全大局。在兵棋推演的环境中，若要在比赛中取得胜利，一种有效的方法为占领夺控点，并在夺控点附近的优势地形中进行放下士兵、打击敌人等防守操作。所以管理层的基本动作可设置为进攻某个夺控点或防守某个夺控点，用于指挥全体智能体的进攻防守方向。其次，由于多智能体动作结算时间有差异，管理层需要在固定周期内为全体智能体决定当前目标，且此周期需长于执行层动作的一般结算时间。在本方法中，管理层每隔200帧决定一次目标点策略。

④智能体的奖励函数设计。因为属于分层强化学习，所以要双层设计不同的奖励函数。管理层因为每200帧决定一次策略，新旧状态之间的差别很大，所以其网络可以使用推演环境提供的奖励，即我方净胜分。对于执行层网络来说，智能体的一次简单动作交互仅需几帧就可以完成。如果采用外在奖励，就会带来稀疏奖励问题。所以其奖励需要详细设计(reward shaping)，主要用于衡量是否完成管理层网络给出的目标。对于不同的目标g，有不同的测算方法。如目标g为进攻主要夺控点，则衡量目标完成程度的公式为：

其中flag为主要夺控点是否占领的标志。dis_t为智能体当前与主要夺控点之间的距离，最后，dis₀为游戏初期的距离。此外，为了体现多智能体的特点，执行层的奖励函数可以是基于事件(包括单个智能体和整个队伍)和加权重的方式实现的，如reward的类型分为“solo”和“team”，solo类型的只分配给做出对出动作的智能体，而team类型则分配给全队。其权重可表示为：

步骤2：智能体决策阶段。由于离线强化学习算法具有不稳定的特点，不适用于分层强化学习中。所以在本发明中，决策层与执行层的强化学习算法都采用在线进行学习的Actor-Critic方法，两层的网络的关系如附图2所示，两层网络的结构如附图3所示。在进行决策前，环境会给算法提供每一个智能体的态势信息。在含有战争迷雾(智能体仅能获取周围一定范围内的态势信息)的兵棋推演环境中，该信息即为局部观察信息

两层网络的决策网络结构图如图4所示。进行决策的具体步骤包括：

①管理层进行决策。在分队级兵棋推演环境中，通常有三到四个智能体，这些智能体公用一个管理层网络。而在群队级的兵棋推演环境中，通常有多倍与分队级的智能体单位。在群队级环境中，一只智能体队伍公用一个管理层网络。管理层网络应每隔固定帧数就为场上所有智能体选取一个目标。由于兵棋推演环境无法提供全局态势信息，管理层网络输入智能体的局部观察信息

并将其进行数据的预处理，拼接为网络输入

输出得到管理层动作空间的概率分布，根据概率得到总体目标

即当前应该进攻或防守哪个夺控点。如当前想定上存在着x个夺控点，管理层网络的动作空间维度即为2x。

②执行层进行决策。执行层同样使用智能体的局部观察

进行决策。但为了加强执行层与管理层之间的通信，输入时需要嵌入此刻的总体目标

用于告知算法此智能体此刻在什么目标下进行决策。因为兵棋推演战场上存在着许多智能体，在多智能体的集中式训练分布式执行框架下，每个智能体应各自使用一个决策网络，所以每个智能体的执行层的决策网络输入形式为

输出为动作空间的概率分布，然后可以根据概率来选择当前动作。当前动作记为

步骤3：态势评估阶段，其包含两个部分，即管理层态势评估与执行层态势评估。管理层评估的是当前的总体态势，所以所有智能体公用一个管理层的评估网络。在步骤2中通过管理层决策可以得到的目标

首先需要筛选出总体态势S_t。如此刻的目标为进攻夺控点A，则总体态势S_t可包含以下信息：夺控点A周围我方智能体数量；夺控点A周围敌方智能体数量；夺控点A占领标志等等。然后在进行态势评估时，管理层评估网络输入S_t，输出得到此刻的态势评分。管理层网络的具体网络结构如图5所示。

执行层进行态势评估时，由于采用了集中式评判分布式执行的框架，所有智能体公用一个执行层评判网络，其为全部智能体评判总体态势得分。这一步骤是本发明的重点，具体根据附图5，分为以下几个步骤：

①每个智能体使用一个单独的本地评估网络，目的是根据本智能体的局部观察

输出本地态势评分(Value)V_t ⁱ。网络可采用单层网络的形式。

②在混合层评估网络中，首先将智能体局部观察

与输入到编码层网络当中进行编码，得到每一个智能体的语义编码

将总体态势S_t通过单层编码网络得到

再输入至注意力机制中。

③注意力模型可以宏观上理解为一个查询(query)到一系列(键key-值value)对的映射，本质上可以表示对元素的value值进行加权求和，而query和key用来计算对应value的权重系数。对应到本发明的模型中，可以通过注意力机制计算目标态势与各智能体局部信息之间的关联性，以赋予不同的权重值。将

作为查询向量，将

作为键向量，将本地评分V_t ⁱ作为值向量，通过双线性映射获取智能体的信息权重

公式以式5形式进行表示。其中W_k与W_q为映射矩阵，是随机初始化的矩阵，d_k为输入向量的维度。

④此外，本发明使用多头注意力机制的形式，目的是将模型分为多个头，形成多个子空间，可以让模型去关注不同方面的信息。每个头使用单独的参数集(W_q,W_k)，将多头进行合并，并且将局部态势评分与注意力机制得到的权重进行点乘并求和，可获得当前的总体态势得分V_tot如公式6所示。式中H为多头注意力机制的头数，一般定为4。N为智能体的总数量。

步骤4：网络训练阶段。因为本发明中的管理层与执行层都是基于Actor-Critic算法进行设计的，所以本发明的网络训练遵从Actor-Critic算法的梯度下降式训练方法。但在多智能体的分布式执行与集中式训练的框架中，网络训练与普通的Actor-Critic算法的训练具有一定的区别。在普通的Actor-Critic算法中，Actor网络，即决策网络使用策略梯度函数生成动作决策并与环境交互，其网络输出为：

π_θ(u|O_t)＝P(u|O_t,θ)≈π(u|O_t) (7)

其中θ为决策网络的内置参数，O_t为当前的态势输入，网络的输出π_θ(u|O_t)为当前动作空间的概率分布，通过概率选择到动作u。其后，算法执行动作u并反馈给环境后产生了新的战场态势O_t+1，以及环境给予奖励r_t。Critic网络，即本发明中的评估网络，负责判断策略的有效性。其输出v(s_t)为状态O_t下所有动作价值函数基于策略π的期望。基于贝尔曼期望，可用时间函数进行估计，则评价动作u优劣性可以使用优势函数δ，公式在式8中进行表示。其中γ为奖励期望的折旧率，在本发明中定为0.9。

δ＝r_t(O_t,u_t)+γV(O_t+1)-V(O_t) (8)

但在基于多智能体的兵棋推演环境下，执行层评估出的总体得分V_tot是每个智能体本地评分V_t ⁱ的加权求和，所以在计算优势函数时，需要将公式8中的V替换为V_tot。其次，执行层网络嵌入了管理层网络得出的目标信息g_t，所以需要将公式8修改为：

δ_t＝r_t(O_t,u_t)+γV_tot(O_t+1,S_t+1)-V_tot(O_t,S_t) (9)

公式9中，若在状态O_t中的动作u为优秀动作，则希望动作u的动作价值函数高于其期望。评估网络的作用是最小化δ_t，使网络的输出能够准确预测动作评分，所以执行层评估网络的损失函数可表示为：

此外，本发明中采用梯度下降的方式来进行决策网络的训练。若决策网络采取了策略π_θ(O_t,u)，且在状态O_t中的动作u为优秀动作，决策网络的目标为增大π_θ(O_t,u)，使在状态s_t下选择动作u的概率升高。则执行层决策网络的损失函数为：

管理层的评估网络与决策网络训练方式均遵从普通的Actor-Critic算法。最后，我们设置对比实验来验证强化学习算法的有效性。实验中，本文算法与普通的强化学习算法Actor-Critic相比较，比较单局游戏中所获取的奖励。实验结果如附图6所示。

综上，本发明提出的一种基于注意力机制与多智能体分层强化学习的AI决策方法，有效的解决了兵棋推演环境动态性与稀疏奖励的问题，可以实现AI的高效决策，取得较高的胜率。

实施例2

本实施例提供一种基于注意力机制的兵棋推演AI决策装置，包括：

实施例3

本实施例提供一种基于注意力机制的兵棋推演AI决策装置，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据实施例1中任一项所述方法的步骤。

实施例4

本实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现实施例1中任一项所述方法的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于注意力机制的兵棋推演AI分层决策方法，其特征在于，包括：

2.根据权利要求1所述的基于注意力机制的兵棋推演AI决策方法，其特征在于，所述进行分层网络建模与强化学习智能体建模，基于强化学习智能体模型对从兵棋推演平台获取到态势推演初始数据进行预处理，包括：

设计智能体的状态空间，即强化学习网络的输入数据形式；

设计智能体的决策空间，即智能体所能采取的所有动作；

3.根据权利要求1所述的基于注意力机制的兵棋推演AI决策方法，其特征在于，所述通过预先获取的智能体局部态势数据输出当前所有智能体的总体目标，包括：

进行拼接得到

4.根据权利要求1所述的基于注意力机制的兵棋推演AI决策方法，其特征在于，所述通过智能体局部态势数据和当前所有智能体的总体目标，输出当前所有智能体的当前应采取的决策，包括：

执行层决策网络将智能体态势信息与当前目标进行拼接得到

5.根据权利要求1所述的基于注意力机制的兵棋推演AI决策方法，其特征在于，所述通过当前所有智能体的总体目标，筛选并预处理得到此刻的目标态势，包括：针对于当前目标g_t对当前战场态势信息进行筛选与预处理，得到基于目标的目标态势信息S_t。

6.根据权利要求1所述的基于注意力机制的兵棋推演AI决策方法，其特征在于，所述通过当前的目标态势，利用注意力机制筛选出与目标态势关联最大的智能体局部信息，并进行态势评估，其中包含管理层与执行层两个部分：

所述执行层的评估部分，包括：

得到本地评分

②将目标态势将S_t与智能体的态势信息

输入到多头注意力机制的编码层中；

7.根据权利要求1所述的基于注意力机制的兵棋推演AI决策方法，其特征在于，还包括：通过策略梯度下降法训练管理层与执行层的评判网络与决策网络，其中执行层依靠整体价值V_tot进行训练，其优势函数公式如下：

δ_t＝r_t(O_t,u_t)+γV_tot(O_t+1,S_t+1)-V_tot(O_t,S_t) (3)

其中O_t+1与S_t+1为与环境进行交互之后，环境提供的新态势，该等式基于贝尔曼期望，是对不同时间状态估计的差异，利用优势函数δ_t即可对执行层的评估网络与决策网络进行训练。

8.一种基于注意力机制的兵棋推演AI决策装置，其特征在于，包括：

9.一种基于注意力机制的兵棋推演AI决策装置，其特征在于：包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据权利要求1～7任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：该程序被处理器执行时实现权利要求1～7任一项所述方法的步骤。