CN116596343A

CN116596343A - 一种基于深度强化学习的智能兵棋推演决策方法

Info

Publication number: CN116596343A
Application number: CN202310612393.0A
Authority: CN
Inventors: 费蓉; 陈汭竹; 李爱民; 吴丽丽; 马梦阳; 王宏博
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2023-05-26
Filing date: 2023-05-26
Publication date: 2023-08-15

Abstract

本发明公开了一种基于深度强化学习的智能兵棋推演决策方法，包括：构建兵棋推演环境中智能体的状态空间；构建适用于兵棋智能推演环境下低优势策略‑价值网络架构；构建作战场景判断模型，作为环境奖励来源依据；在兵棋推演系统中搭建智能决策系统；对所述步骤1至4得到的智能体状态空间、低优势策略‑价值网络架构、作战场景判断模型和智能决策系统所构成的深度神经网络进行训练，得到基于深度强化学习的智能兵棋推演决策模型；在所述智能兵棋推演决策模型中，对当前作战场景状态下的战术兵棋智能体作战决策进行求解。通过上述方式，本发明能够改进战术兵棋智能体在作战推演中产生作战决策的效率，加快作战策略网络训练过程的收敛速度。

Description

一种基于深度强化学习的智能兵棋推演决策方法

技术领域

本发明属于深度强化学习领域，特别是涉及一种基于深度强化学习的智能兵棋推演决策方法。

背景技术

随着高新技术在军事领域的不断发展运用，武器装备的性能参数越来越多、造价越来越高，现代作战体系越来越复杂，作战训练成本也同步激增。为控制训练成本，节约人力物力资源，各国使用仿真技术模拟作战训练。近年来，以深度强化学习为代表的人工智能技术快速发展，使得直接从模拟战场原始数据中快速提取特征，从而对战场态势进行描述、感知并进一步自主决策成为可能。兵棋推演可以模拟对抗的流程和结果，其结果对实际对抗具有借鉴意义。将人工智能技术应用于兵棋推演，形成战术兵棋智能体，对培养智能化作战指挥员打赢未来战争具有深远意义。

兵棋推演中最常见的形式是双方博弈，在该形式下，通常推演双方分别控制甲方和乙方，在指定的任务想定下，对己方资源进行规划和调度，从而完成既定对抗意图。目前，深度强化学习的研究主要应用于博弈方向以及人机对抗上，其中深度Q学习网络(Deep Q-learning Network,DQN)能很好的完成对环境状态的态势理解与决策构建的准确性；同时记忆函数的引入将在可自我博弈的基础上完成对模型的快速训练和较好的准确性。但是在兵棋推演系统中智能体设计上，面对瞬息万变的战场环境与错综复杂的作战场景，智能体在数据学习上周期漫长，策略产出与模型训练收敛时都需要较长时间，尤其是基于深度强化学习的思想和方式实现智能算法，虽然提高了AI在兵棋系统的对抗推演水准，但是较长周期的策略产出是其最大的弊端。

现有技术1CN114722998A中，公开了一种基于CNN-PPO的兵棋推演智能体构建方法。该现有技术采集兵棋推演平台的初始态势数据，并对初始态势数据进行预处理，获得目标态势数据；构建影响力地图模块，将目标态势数据输入影响力地图模块，输出获得影响力特征；基于卷积神经网络和近端策略优化构建混合神经网络模型，将目标态势数据和影响力特征拼接后，输入混合神经网络模型进行模型迭代训练，直到目标函数最小、网络收敛，实现CNN-PPO智能体的构建。该现有技术用于改进在兵棋推演这一复杂场景中智能体计算决策的效率，加快智能体训练过程的收敛速度，但是缺乏有效方法对实际作战场景下智能体策略进行评估，导致其策略的准确性可能不高。

现有技术2CN113723013A中，公开了一种用于连续空间兵棋推演的多智能体决策方法。该方法构建连续空间兵棋推演场景，得到用于兵棋推演的战场环境数据，多智能体进行初始化；构建经验重访数据集；多个智能体进行本地观测；基于CNN提取推演多智能体的多实体特征；多实体特征与多智能体的本地观测数据共同作为多智能体学习的输入，利用基于课程学习奖赏的Q学习训练多智能体；利用训练完成的多智能体进行对战决策。但是，该方法适配于兵棋推演中离散空间性能较差，这种离散空间是指智能体是在有限动作下，战场状态是随每一回合的推演而有限变化的；同时，缺乏有效评估方法对智能体策略进行合理评估。

发明内容

本发明主要解决的技术问题是提供一种基于深度强化学习的智能兵棋推演决策方法，旨在帮助战术兵棋智能体加快产出作战决策。

为解决上述技术问题，本发明提供一种基于深度强化学习的智能兵棋推演决策方法，所述方法包括：

步骤1：构建兵棋推演环境中智能体的状态空间；

步骤2：构建适用于兵棋智能推演环境下低优势策略-价值网络架构；

步骤3：构建作战场景判断模型，作为环境奖励来源依据；

步骤4：在兵棋推演系统中搭建智能决策系统；

步骤5：对所述步骤1至4得到的智能体状态空间、低优势策略-价值网络架构、作战场景判断模型和智能决策系统所构成的深度神经网络进行训练，得到基于深度强化学习的智能兵棋推演决策模型；

步骤6：在所述智能兵棋推演决策模型中，对当前作战场景状态下的战术兵棋智能体作战决策进行求解。

进一步地，所述步骤1的具体实现步骤为：

步骤1.1：构建适用于兵棋推演环境中的战场态势实体分类模型；

所述实体分类模型基于卷积神经网络，结合战场态势图信息，将仿真数据划分为敌情，我情，战场环境三类；

步骤1.2：接收兵棋推演系统中仿真数据，输入至战场态势实体分类模型，得到模型分类结果；

步骤1.3：根据分类结果，构建包含地形矩阵，兵棋位置矩阵，上一步矩阵和是否为先手矩阵的n维战场态势信息矩阵。

进一步地，所述步骤2的具体实施步骤为：

步骤2.1：构建初步的传统策略网络架构，策略网络π(a|s；θ)用于近似策略函数π，给出当前状态s下的动作a，通过策略梯度算法中梯度上升方式更新网络参数θ；

步骤2.2：对传统策略网络架构的策略梯度引入基准线(Baseline)进行改进,构建基准线为状态-价值函数V_π(s_t)的低优势策略网络；

步骤2.3：构建价值网络V(s；w)架构，其中w为价值网络的神经网络参数；s表示战场状态；V为状态-价值函数，输入为战场状态s，输出为数值。价值网络V(s；w)用于近似状态-价值函数，其输出数值用于评判当前状态对于智能体的好坏程度，以改进策略网络，梯度下降方式更新网络参数w；

由于动作-价值函数Q_π是对回报U_t的期望，因此可用强化(Reinforce)方法中观测到的折扣回报u_t拟合Q_π，则可得到预测误差为：

δ_t＝V(s_t；ω)-u_t，

得到梯度：

梯度下降更新状态-价值网络中参数ω，其中γ为学习率：

步骤2.4：构建经验回放池。

步骤2.2具体按以下步骤实施：

步骤2.2.1：在策略梯度中引入基准线进行改进，所述基准线定义为一个不依赖于动作A的函数b，此时策略梯度为：

由于策略函数π为概率密度函数，因此关于a求和后结果为1，因此结果为0，故引入基准线的策略梯度能保证期望不变，即：

由于直接求策略梯度中的期望代价较高，使用蒙特卡洛对期望求近似，在t时刻战术兵棋智能体通过随机抽样采取的动作为a_t～π(·|s_t；θ)，令：

g(a_t)是策略梯度的无偏估计，由于a_t是随机抽样得到的，因此可得随机梯度：

若b的选择越接近于Q_π，则随机策略梯度g(a_t)的方差会越小，策略网络在训练时收敛速度会加快；

步骤2.2.2：选择状态-价值函数V_π(s_t)作为策略梯度中基准线；

其中，状态-价值函数V_π(s_t)定义为：

基准线的引入加快策略网络的收敛速度，则此时的随机梯度为：

其中，动作-价值函数Q_π由强化方法近似，再通过经验回放池中数据可计算得到Q_π的近似值u_t，状态-价值函数V_π(s)使用卷积神经网络V(s；w)近似，即随机梯度可近似为：

步骤2.2.3：构建低优势策略网络；

对初步构建的策略网络引入状态-价值网络V(s；w)作为基准线,采用梯度上升更新策略网络π(a|s；θ)中网络参数：

低优势策略网络中低优势来源于优势函数，优势函数定义为：

A(s,a)＝Q(s,a)-V(s)，

A(s,a)表示在状态s下，某动作a相对于平均而言的优势性，在其恰好存在于步骤2.2.2随机梯度g(a_t；θ)展开式中；若A(s,a)的值越小，说明该动作具有平均性，在策略网络中表现为的随机梯度的方差越小，这种低优势性将加快模型训练速度。

进一步的，步骤2.4具体按以下步骤实施：

步骤2.4.1：将兵器推演过程中，在t+1回合推演前t回合的战场状态s_t，战术兵棋智能体采取的指挥决策a_t，战术兵棋智能体评估值q_t，获得的作战成果效益值r_t以及t+1回合新的战场状态s_t+1作为一个张量[s_t,a_t,q_t,r_t,s_t+1]存入经验池中；

步骤2.4.2：每次训练将从经验回放池中随机抽去最小-批个张量，进行低优势策略-价值网络的训练。

进一步的，所述步骤3中的具体按以下步骤实施：

步骤3.1：通过军事规则先验知识得到作战效能数值库；

其中，作战效能数值库中某一数值来源于某军事规则中规则描述和数值指标，包含毁伤能力值，补给能力值等；

步骤3.2：构建评价网络，输入为当前战场态势，具体为步骤1.3中n维战场态势矩阵，输出为作战效益组合的内部权重，{α,β,ε,...,μ}；

步骤3.3：评价网络输出权重集结合作战效能数值库中指标组合，用于计算在当前状态下，战术兵棋智能体的指挥决策产生的作战成果效益。

进一步的，所述步骤4中的具体按以下步骤实施：

步骤4.1：接收兵棋推演系统每回合战场信息，通过步骤1将战场信息构建为战术兵棋智能体状态空间；

步骤4.2：适配兵棋推演系统决策指令接口，将可行动作概率集中动作映射为战术兵棋智能体决策指令；

步骤4.3：接收兵棋推演系统推演结果，更新决策执行结果。决策执行结果主要包括决策是否执行与决策实际执行效果，其中决策实际执行效果是预设决策值与实际执行值的差异。

进一步的，所述步骤5中的具体按以下步骤实施：

步骤5.1：初始化当前经验回放池；

步骤5.2：初始设置步骤2中两个结构相同的低优势策略-价值网络，且支持自博弈的战术兵棋智能体，其中训练方将一直采用训练过程中最新的神经网络参数，陪训方从过去所保存的神经网络参数集中随机抽样作为自身参数；

步骤5.3：通过步骤1，获取当前战场态势信息，输入至步骤2中低优势策略-价值网络，得到战术兵棋智能体指挥决策与作战评估值，并将战术兵棋智能体指挥决策下达至兵棋推演系统中，结束当前回合，等待对方决策下达；

步骤5.4：兵棋推演系统接收训练方与陪训方的指挥决策进行推演，返回新的战场状态信息，进入下一回合；

步骤5.5：作战场景判断模型分析战场态势信息，计算训练方的作战成功效益值；

步骤5.6：经验回放池收集训练数据并存储；

步骤5.7：当一场兵棋推演结束后，根据经验回放池数据进行网络训练；

步骤5.8：每经过15epoch后，计算策略损失，价值损失，平均奖励；

步骤5.9：训练完成，保存智能兵棋推演决策模型。

进一步的，所述步骤6中的具体按以下步骤实施：

步骤6.1：根据步骤1所构建的智能体状态空间，结合当前作战场景的态势信息，构造智能兵棋推演决策模型的输入矩阵，包括我方兵棋位置矩阵、敌方兵棋位置矩阵、敌方上一步矩阵、是否为先手矩阵和地形矩阵；

步骤6.2：将描述战场态势信息的矩阵输入智能兵棋推演决策模型中，由智能兵棋推演决策模型中的策略网络解得到当前战术兵棋智能体指挥决策。

本发明的有益效果是：本发明聚焦于智能体在兵旗推演系统中自主决策产出过程的改进，构建了符合兵棋规则的战场态势感知方法，提高了策略的合理性；在传统策略-价值网络的基础上提出适用于兵棋推演的低优势策略-价值网络智能决策模型，帮助智能体加快产出作战决策；根据军事规则先验知识构建的作战场景判断模型，给予智能体动作行为的奖励；通过低优势策略-价值网络构建的智能兵棋推演决策模型，实现了在兵棋推演环境中帮助智能体较快学习到合理的策略。

附图说明

图1是本发明一种基于深度强化学习的智能兵棋推演决策方法所依据的流程图；

图2是本发明一种基于深度强化学习的智能兵棋推演决策方法所依据的总体结构示意图；

图3是战术兵棋智能体的状态空间；

图4是红蓝双方岛屿场景推演构设图；

图5是损失函数在训练过程中的变化；

图6是本发明一种基于深度强化学习的智能兵棋推演系统的应用场景示意图。

具体实施方式

此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参照图1流程，本发明实例提供一种基于深度强化学习的智能兵棋推演决策方法。具体步骤如下：

步骤1：构建兵棋推演环境中智能体的状态空间。

步骤1具体包括：

步骤1.1：构建适用于兵棋推演的战场态势实体分类模型。

该实体分类模型基于卷积神经网络，结合战场态势图信息，将仿真数据划分为敌情，我情，战场环境三类。

步骤1.2：将兵棋推演环境的仿真数据输入战场态势实体分类模型，得到模型分类结果。

步骤1.3：根据分类结果，构建n维战场态势信息矩阵，所述n维战场态势信息矩阵包含地形矩阵，兵棋位置矩阵，敌方上一步矩阵和是否为先手矩阵。

n维战场态势信息矩阵构成战术兵棋智能体的状态空间。

战术兵棋智能体的状态空间主要由4个二值矩阵和一个多值矩阵描述。

上述4个二值矩阵分别为我方兵棋位置矩阵、敌方兵棋位置矩阵、敌方上一步矩阵、是否为先手矩阵；多值矩阵为地形矩阵。作为输入信息输入到低优势策略-价值网络中，如图3所示。

兵棋位置矩阵，包括我方兵棋位置矩阵、敌方兵棋位置矩阵。它记录了每个兵棋在地图上的位置，由于兵棋的种类、数量、位置等都会对作战结果产生重要的影响，加入位置矩阵可直接反映兵棋位置，间接反映兵棋数量。通过兵棋位置矩阵，策略网络可以更好地了解战场上的兵棋分布情况，从而制定更加合理的战术。

敌方上一步矩阵记录了上一个动作对应的状态矩阵，通过上一步矩阵，策略网络可充分了解到战场状态的变化情况，从而更好地预测下一步可能的变化趋势，有助于策略网络学习作战的规则和战术。

是否为先手矩阵记录了当前局面是先手还是后手，若我方兵棋智能体是先手则该矩阵为全1矩阵，否则为全0矩阵。该因素对作战对抗的胜负非常重要。先手可率先展开攻势，占据更有利的位置。因此，是否为先手矩阵的加入是有必要的。

这四类矩阵的加入可以使神经网络更全面地了解战场状态和作战规则，从而更好地预测下一步的决策，制定更加合理的战术。

上述一个多值矩阵为地形矩阵，反映了地图上每个位置的地形类型，如平坦地、山地、滩涂等。地形可以影响部队的机动速度、隐蔽性、攻击防御力等方面，对作战有着非常重要的影响。

需要补充的是，为了展示本发明的可行性，本实施例使用的兵棋推演实验场景描述如下：

如图6是本发明一种基于深度强化学习的智能兵棋推演系统的应用场景示意图。

1.作战意图

场景构设如图4所示，对阵双方围绕岛屿夺控进行兵棋推演。战场环境大小为16×16，以六角格坐标量化棋盘，这种六角格的结构使得相邻的六角格之间可以沿六个方向进行机动，且从六角格的对称性，在计算时其中心点到六条边的距离是相等的，设定为100米。采用六角格可以更贴近实际作战环境，适应不规则形状和大小的场景，如凹型与凸型环境。高程在图4中以灰度形式体现，灰度程度越高，代表当前六角格高程越高，图4中高程20以上的六角格灰度最深。

2.作战环境

该兵棋推演实验场景主要包含4类地形：水面、滩涂、平地和植被。六角格参数说明如下表所示：

战场环境参数表

六角格的地形决定其通行等级与限制等级的数值，数值越高，通行难度越大。地形影响通行等级和限制等级的关系如下表所示：

地形与通行等级和限制等级的关系表

平坦地与疏林中限制等级与通行等级都为1，对机动值的消耗最少。而沙泥滩、沙砾滩和密林的限制等级为2，通行等级为1，对机动值消耗较高。在只有为平坦地和疏林的战场环境中，战术兵棋智能体一回合最多能走4格，而在沙泥滩等这类地形中，最多能走2格。深海的限制等级与通行等级最高，兵棋一般是无法进行机动的。

高程变化从0到50，每增加1，平均海拔高度增加10米。主要影响通视与机动能力。

3.作战场景规则

红蓝双方所有棋子在该场景内对抗，实验所设定的主要战役规则如下：

(1)战役最终胜利目标为歼灭敌方单位，双方初始血量为100，任意一方数量归零则战役结束，表明另一方夺控了岛屿；

(2)每一次迭代开始，红蓝棋子初始位置随机产生在岛屿中，且不会出现在彼此射程之内，以增加战役的随机性，使得每一次战斗都具有一定的不确定性，智能体需要灵活应对；

(3)双方拥有相同的武器装备，执行射击直瞄时，造成伤害按距离增加逐步减少，直至超出射程无法射击，间瞄时，按贝塔分布进行伤害修正，以模拟现实中的射击情况，智能体需在射击时进行距离和瞄准的权衡，以达到最佳的战术效果；

(4)该场景中，兵棋自身观测范围是有限的，同时高程差与地形也会影响射击时通视情况，可能导致无法准确命中目标，以模拟现实中的复杂战场环境，智能体需要通过观测和推理来确定目标的位置和可行的决策方案，以便更好地应对战斗情况；

(5)六角格间高程差与地形的限制等级会影响棋子能否机动进入该六角格，地形的通行等级会影响棋子的机动性能，以模拟地形的复杂性和机动力的不同，智能体需要根据环境状态矩阵中包含的地形信息和自身状态，进行合理的移动决策，以便更好地适应战斗环境并实现作战目标；

该作战规则的实际性较高，歼灭敌方单位也是一种常见的胜利目标，双方初始血量为100也能够反映出兵棋在战斗中的真实受损情况与作战时的持久性。同时，兵棋初始位置随机能增加战术的多样性。武器装备的伤害按距离增加逐步减少也符合实际射击的物理规律，而间瞄时按贝塔分布进行伤害修正也能更好地考虑移动射击时对于打击精度的影响，六角格间的高程差和地形对机动进入该六角格的限制也是实际作战中需要考虑的因素之一。同时，该规则具有一定的普适性，因为其规则较为简单，不涉及复杂的战术和策略，易于理解和操作。兵棋的观测范围有限以及地形对通视情况的影响也是一些实际战斗中需要考虑的因素，因此这些规则可以应用于不同的战场环境中，例如城市、丛林、沙漠等不同类型的地形。但是，该规则也存在一定的局限性，因为不同类型的战斗可能存在其他不同的胜利目标，需要根据实际情况进行调整。

步骤2：构建适用于兵棋智能推演环境下低优势策略-价值网络架构。

步骤2具体包括：

步骤2.1：构建初步的传统策略网络架构，策略网络π(a|s；θ)用于近似策略函数π，给出当前状态s下的动作a，通过策略梯度算法中梯度上升方式更新网络参数θ。

其中，θ为策略网络的神经网络参数；a|s是在战场状态s下采取了动作a；π为策略函数，输入为战场状态s，输出为动作a；π(a|s；θ)说明策略网络用于近似策略函数，θ是其神经网络参数。

特别地，传统策略网络可设置m个1×1的过滤器进行降维处理，再接一个全连接层，使用SoftMax激活函数对输出信息归一化处理，输出兵棋的可行动作概率集，供战术兵棋智能体进行动作的选择。

步骤2.2：对传统策略网络架构的策略梯度引入基准线(Baseline)进行改进,构建基准线为状态-价值函数V_π(s_t)的低优势策略网络。

步骤2.2具体包括：

步骤2.2.1：在策略梯度中引入基准线，基准线定义为一个不依赖于智能体动作A的函数b，此时策略梯度为：

g(a_t)是策略梯度的一个无偏估计，由于a_t是随机抽样得到的，那么可得随机梯度：

若b的选择越接近于Q_π，则随机策略梯度g(a_t)的方差会越小，策略网络在训练时收敛速度会加快。

步骤2.2.2：选择状态-价值函数V_π(s_t)作为策略梯度中基准线。状态-价值函数V_π(s_t)定义为：

V_π(s_t)它反映了在当前状态下采取任何行动的预期回报，非常接近Q_π，需要的计算和参数较少，较容易实现和调整，因此在策略网络更新时引入V_π(s_t)作为基准线，在策略网络进行更新时，随机策略梯度方差会很小，能提高策略网络在训练时的稳定性；

由于基准线的引入提供了一个较好的起点和参考点，会加快策略网络的收敛速度，则此时的随机梯度为：

其中，动作-价值函数Q_π由强化(Reinforce)方法近似，再通过经验回放池中数据可计算得到Q_π的近似值u_t，状态-价值函数V_π(s)使用卷积神经网络V(s；w)近似，即随机梯度可近似为：

步骤2.2.3：构建低优势策略网络；

A(s,a)＝Q(s,a)-V(s)，

A(s,a)表示在状态s下，某动作a相对于平均而言的优势性，在其恰好存在于步骤2.2.2随机梯度g(a_t；θ)展开式中，若A(s,a)的值越小，说明该动作具有平均性，在策略网络中表现为的随机梯度的方差越小，这种低优势性将加快模型训练速度。

步骤2.3：构建价值网络V(s；w)架构，其中w为价值网络的神经网络参数；s表示战场状态；V为状态-价值函数，输入为战场状态s，输出为数值。价值网络V(s；w)用于近似状态-价值函数，其输出数值用于评判当前状态对于智能体的好坏程度，以改进策略网络，梯度下降方式更新网络参数w。

由于动作-价值函数Q_π是对回报U_t的期望，因此可用Reinforce方法中观测到的折扣回报u_t拟合Q_π，则可得到预测误差(Prediction error)为：

δ_t＝V(s_t；ω)-u_t，

得到梯度：

梯度下降更新状态-价值网络中参数ω，其中γ为学习率：

特别地，价值网络可设置n个1×1的过滤器进行降维处理，再设置一个具有64个神经元的全连接层，最后再接一个使用tanh激活函数的全连接层，将输出信息约束到[-1,1]之间作为采取当前战场状态好坏的评分。

价值网络与策略网络都设置了过滤器进行降维处理，从而将输入的高维状态矩阵降维到了一个较低维度的特征空间。这种降维操作可能会丢失输入状态矩阵中的某些特征信息，导致在进行计算时出现偏差，并且，若降维操作过于强烈，可能会导致神经网络在训练时上出现欠拟合。但是，降维操作可以大大减少神经网络的计算量，有效减少神经网络的参数数量和计算时间，提高神经网络的训练效率，通过降低输入矩阵维度，从而降低神经网络的复杂度，进而降低神经网络在训练过程中出现过拟合的风险。因此需要在实验中不断调整过滤器的数量，以选择出适当的降维策略，使神经网络在保证准确性、计算效率和泛化能力的同时，出现过拟合情况概率较低。

步骤2.4：构建经验回放池(Replay Buffer)。

步骤2.4具体可以包括：

步骤2.4.1：将兵棋推演过程中，在t+1回合推演前t回合的战场状态s_t，战术兵棋智能体采取的指挥决策a_t，战术兵棋智能体评估值q_t，获得的作战成果效益值r_t以及t+1回合新的战场状态s_t+1作为一个张量(tensor)，[s_t,a_t,q_t,r_t,s_t+1]存入经验池中。

进一步地，经验回放池可存放k个tensor，k一般设置在10e5到10e6之间。在该步骤2.4.1中，描述了经验回放池中存储的每一个tensor的数据内容(当前战场状态，当前采取的动作，当前获得的效益，执行动作后的新状态)以及数据来源。

步骤2.4.2：每次训练将从Replay Buffer中随机抽取最小-批(mini-batch)个张量(tensor)，进行低优势策略-价值网络的训练。

在该步骤2.4.2中，描述了经验回放池在神经网络训练时是如何使用的，从经验回放池ReplayBuffer中随机抽取。

步骤2.5：低优势策略-价值网络中策略更新，在随机策略梯度算法基础上结合状态-价值网络作为基准线，帮助策略网络进行更新。

步骤2.5具体可以包括：

步骤2.5.1：计算在t回合，战场状态s_t下，策略网络π(a|s；θ)采取动作a_t的策略梯度；

其中，t为博弈回合的编号，如第5回合(t＝5)；s_t为第t回合的战场状态；a_t为第t回合策略网络得到的动作；θ为策略网络参数；Q_π是动作-价值函数；V_π是状态-价值函数。

步骤2.5.2：计算ReplayBuffer池中的折扣回报u_t，并用于近似动作-价值函数Q_π，Q_π(s_t,a_t)＝u_t；

步骤2.5.3：梯度上升更新策略网络参数θ，β为学习率：

其中，θ_t代表当前t回合的策略网络参数；θ_t+1代表在更新后t+1回合的策略网络参数；学习率为超参数，一般设置大于0.5，小于1。

其中δ_t为回合t的预测误差，δ_t＝V(s_t；w)-u_t。

步骤2.6：更新价值网络。

步骤2.6具体可以包括：

步骤2.6.1：计算价值梯度，w为价值网络参数：

步骤2.6.2：梯度下降更新状态-价值网络中参数w，α为学习率：

步骤2.7：构建公共卷积层，将当前战场状态提取为特征向量。

低优势-策略价值网络的输入信息首先经过n层公共卷积网络，设置为ReLU激活函数，以避免神经元节点输出恒为0的问题，缓解梯度消失问题，公共卷积层将提取到的特征向量分别输入到策略网络和价值网络。

优选的，针对于步骤1中构建的四类矩阵，可设置三层公共卷积网络，分别设置使用32、64、128个3×3的过滤器(filter)。

步骤3：构建作战场景判断模型，作为环境奖励来源依据。

步骤3具体可以包括：

步骤3.1：通过军事规则先验知识得到作战效能数值库。

所述作战效能数值库中某一数值来源于某军事规则中规则描述和数值指标，包含毁伤能力值，补给能力值等。

步骤3.2：构建评价网络，输入为当前战场态势，具体为步骤1.3中n维战场态势矩阵，输出为作战效益组合的内部权重，{α,β,ε,...,μ}。

步骤3.3：评价网络输出权重集结合作战效能数值库中指标组合，用于计算在当前状态下，战术兵棋智能体的指挥决策产生的作战成果效益。作战成果效益可作为环境奖励，反馈给战术兵棋智能体中深度神经网络，帮助战术兵棋智能体进行学习。

例如，在此兵棋推演场景下，我方下达直瞄指令，由于地形和高程影响造成了j的血量的损失，则作战成果效益基础计算方式可由压制敌方数值和己方力量保存数值构成，数据组成如下：

α敌方血量损失数(j)+μ(β双方直线距离+γ双方机动距离)+λ敌方是否通视，

通视情况在本例中是以高程来体现的，如射击点高程为10，目标点高程为10，但直瞄过程中两点之间存在某个六角格高程为15，则造成不通视的情况发送。

作战场景判断模型根据不同的作战效能数值组合，以适配不同的作战场景的奖励。

步骤4：在兵棋推演系统中搭建智能决策系统。

步骤4具体可以包括：

步骤4.1：接收兵棋推演系统每回合战场信息，通过步骤1将战场信息构建为战术兵棋智能体状态空间。

战场态势实体分类模型将战场信息进行分类，得到的分类结果主要由敌情，我情，战场环境三部分组成。

特别地，敌情与我情中主要包含战场设施、兵力部署、武器装备、兵力编成和后勤保障等实体。战场环境又可分为交通、气象和地理，其中交通包含公路/铁路、航空和水路等实体；气象包含天气预报、机场气象、海浪/海风等实体；地理包含地形地貌、河流水系、兵要地志等实体。

因此，在实验场景设计中考虑到了地形，高程，通行等级和限制等级来模拟真实的作战场景，通过场景规则补充战场态势的完备性。

步骤4.2：适配兵棋推演系统决策指令接口，将可行动作概率集中动作映射为战术兵棋智能体决策指令。

可行动作概率集是动作空间的量化，战术兵棋智能体动作主要包含机动和打击，其动作通过KCP通讯的数据接口下达至兵棋推演平台中，动作空间遵循如下原则：[”动作类别”，”动作参数”]，其中”动作参数”按机动与直瞄指令，设置不同的参数；

例如：直瞄指令的动作表述为[”打击棋子Id”，”受击棋子Id”，”直瞄武器编号”，”打击棋子位置”，”受击棋子位置”]；

如预设机动指令为4个六角格坐标，实际执行值为3个六角格坐标。

步骤5：对所述步骤1至4得到的智能体状态空间、低优势策略-价值网络架构、作战场景判断模型和智能决策系统所构成的深度神经网络进行训练，得到基于深度强化学习的智能兵棋推演决策模型。

步骤5具体可以包括：

步骤5.1：初始化当前经验回放池；

设置经验回放池大小为10e5,设置最小-批(mini-batch)为1，设置神经网络学习率为5e-4，设置折扣回报率λ为0.89。

步骤5.2：初始设置步骤2中两个结构相同的低优势策略-价值网络，且支持自博弈的战术兵棋智能体，其中训练方将一直采用训练过程中最新的神经网络参数，陪训方从过去所保存的神经网络参数集中随机抽样作为自身参数。

步骤5.3：通过步骤1，获取当前战场态势信息，输入至步骤2中低优势策略-价值网络，得到战术兵棋智能体指挥决策与作战评估值，并将战术兵棋智能体指挥决策下达至兵棋推演系统中，结束当前回合，等待对方决策下达。

步骤5.4：兵棋推演系统接收训练方与陪训方的指挥决策进行推演，返回新的战场状态信息，进入下一回合。

步骤5.5：作战场景判断模型分析战场态势信息，计算训练方的作战成功效益值。

步骤5.6：经验回放池收集训练数据并存储。

步骤5.7：当一场兵棋推演结束后，根据经验回放池数据进行网络训练。

步骤5.8：每经过15次迭代(15epoch)后，计算策略损失、价值损失和平均奖励。

步骤5.9：训练完成，保存为智能兵棋推演决策模型。

损失函数在训练过程中的变化如图5所示。

步骤6具体可以包括：

步骤6.2：将描述战场态势信息的矩阵输入智能兵棋推演决策模型中，由智能兵棋推演决策模型中的策略网络求解得到当前战术兵棋智能体指挥决策。

本发明在传统的Actor-Critic方法下，对Actor策略网络进行改进，通过引入基准线提升在兵棋推演场景下，智能体训练的收敛速度，缓和过拟合情况等。该方法聚焦于智能体在兵旗推演系统中自主决策产出过程的改进，构建了符合兵棋规则的战场态势感知方法，提高了策略的合理性；在传统策略-价值网络的基础上提出适用于兵棋推演的低优势策略-价值网络智能决策模型，帮助智能体加快产出作战决策；根据军事规则先验知识构建的作战场景判断模型，给予智能体动作行为的奖励；通过低优势策略-价值网络构建的智能兵棋推演决策模型，实现了在兵棋推演环境中帮助智能体较快学习到合理的策略。

需要说明的是，在本文中，所用的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

以上所述本发明的实施例的序号仅仅为了方便表述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于深度强化学习的智能兵棋推演决策方法，其特征在于，包括以下步骤：

步骤1：构建兵棋推演环境中智能体的状态空间；

步骤3：构建作战场景判断模型，作为环境奖励来源依据；

步骤4：在兵棋推演系统中搭建智能决策系统；

2.根据权利要求1所述基于深度强化学习的智能兵棋推演决策方法，其特征在，所述步骤1中的具体按以下步骤实施：

3.根据权利要求1所述基于深度强化学习的智能兵棋推演决策方法，其特征在于，所述步骤2中的具体按以下步骤实施：

步骤2.2：对传统策略网络架构的策略梯度引入基准线进行改进,构建基准线为状态-价值函数V_π(s_t)的低优势策略网络；

由于动作-价值函数Q_π是对回报U_t的期望，因此可用强化方法中观测到的折扣回报u_t拟合Q_π，则可得到预测误差为：

δ_t＝V(s_t；ω)-u_t，

得到梯度：

梯度下降更新状态-价值网络中参数ω，其中γ为学习率：

步骤2.4：构建经验回放池。

4.根据权利要求3所述基于深度强化学习的智能兵棋推演决策方法，其特征在于，所述步骤2.2具体按以下步骤实施：

其中，状态-价值函数V_π(s_t)定义为：

步骤2.2.3：构建低优势策略网络；

A(s,a)＝Q(s,a)-V(s)，

5.根据权利要求4所述基于深度强化学习的智能兵棋推演决策方法，其特征在于，所述步骤2.4具体按以下步骤实施：

6.根据权利要求2所述基于深度强化学习的智能兵棋推演决策方法，其特征在于，所述步骤3中的具体按以下步骤实施：

步骤3.1：通过军事规则先验知识得到作战效能数值库；

7.根据权利要求1所述基于深度强化学习的智能兵棋推演决策方法，其特征在于，所述步骤4中的具体按以下步骤实施：

8.根据权利要求1所述基于深度强化学习的智能兵棋推演决策方法，其特征在于，所述步骤5中的具体按以下步骤实施：

步骤5.1：初始化当前经验回放池；

步骤5.6：经验回放池收集训练数据并存储；

步骤5.9：训练完成，保存智能兵棋推演决策模型。

9.根据权利要求1所述基于深度强化学习的智能兵棋推演决策方法，其特征在于，所述步骤6中的具体按以下步骤实施：