CN114722701A

CN114722701A - 基于深度强化学习模型的兵棋推演协作策略获取方法

Info

Publication number: CN114722701A
Application number: CN202210270021.XA
Authority: CN
Inventors: 冯旸赫; 梁星星; 刘忠; 程光权; 黄金才; 许乃夫; 陈丽; 姚晨蝶
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2022-03-18
Filing date: 2022-03-18
Publication date: 2022-07-08

Abstract

本发明涉及兵棋推演领域，公开了一种基于深度强化学习模型的兵棋推演协作策略获取方法，本发明在兵棋平台上搭建多智能体系统环境；根据所述多智能体系统环境结合预设元组进行建模，生成决策模型；根据专家先验知识设计子目标，将所述子目标用于奖励塑造；选择分布式决策、集中式训练的多智能体强化学习架构结合分层奖励塑造框架生成基于所述奖励塑造的QMIX算法；通过QMIX算法对所述决策模型进行求解以获取兵棋推演协作策略实现了在兵棋环境中引导多智能体学习到较好的学习策略。

Description

基于深度强化学习模型的兵棋推演协作策略获取方法

技术领域

本申请涉及兵棋推演领域，特别是涉及一种基于深度强化学习模型的兵棋推演协作策略获取方法。

背景技术

在多智能体强化学习(Multi-Agent Reinforcement Learning，MARL)研究中，奖励稀疏的问题同样存在。兵棋推演是一种模拟真实战场和战斗过程的博弈工具，相较于传统强化学习环境，兵棋推演环境具有不完全信息、不确定性、多算子同时决策等特点，需要考虑算子之间的协同和博弈，这些特点一方面增加了强化学习的研究难度，另一方面为强化学习的进一步发展提供了研究平台。

国内外的研究者很早就在兵棋环境中进行人工智能的研究。棋类智能体阿尔法狗战胜围棋世界冠军李世石事件，展现了强化学习技术在智能决策领域的优势，相比于棋类环境，兵棋推演的非完全观测使得它的研究更具有挑战性。现阶段多智能体强化学习在兵棋平台的应用还不多。MARL需要智能体与环境交互并得到大量的数据用于训练智能体，动作空间和状态空间随着算子数目的增加而指数增加，这会导致稀疏奖励问题的发生，进一步阻碍强化学习的训练、收敛。

因此，如何在兵棋环境中引导多智能体学习到较好的学习策略成为了一个亟待解决的技术问题。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供了一种基于深度强化学习模型的兵棋推演协作策略获取方法，旨在解决现有技术无法在兵棋环境中引导多智能体学习到较好的学习策略的技术问题。

为实现上述目的，本发明提供了一种基于深度强化学习模型的兵棋推演协作策略获取方法，所述方法包括：

在兵棋平台上搭建多智能体系统环境；

根据所述多智能体系统环境结合预设元组进行建模，生成决策模型；

根据专家先验知识设计子目标，将所述子目标用于奖励塑造；

选择分布式决策、集中式训练的多智能体强化学习架构结合分层奖励塑造框架生成基于所述奖励塑造的QMIX算法；

通过QMIX算法对所述决策模型进行求解以获取兵棋推演协作策略。

可选地，所述根据所述多智能体系统环境结合预设元组进行建模，生成决策模型的步骤，包括：

使用改进的元组G＝＜S,U,P,r,Z,O,n,γ＞对所述多智能体系统环境进行决策模型的建模，其中s∈S描述红方对训练环境全局态势的观测，在每一个时间步，每个智能体n在可选动作集U_n中选取一个动作，所有智能体选择的动作组成联合动作u∈U≡Uⁿ，联合动作推动环境上的状态转移，状态转移定义如下P(s'|s,u):S×U×S→[0,1]，所有智能体共享同一个奖励函数r(s,u):S×U→γ并且γ∈[0,1)。

可选地，所述根据专家先验知识设计子目标，将所述子目标用于奖励塑造的步骤，包括：

根据专家先验知识确定子目标序列；

确定强化学习所学习的抽象状态，并在所述抽象状态上构建马尔可夫决策模型；

搭建神经网络求解所述马尔可夫决策模型；

对神经网络进行训练，在所述神经网络训练收敛以后使用获得的V(Z)值作为状态的势能，进行奖励塑造。

可选地，所述搭建神经网络求解所述马尔可夫决策模型的步骤，包括：

在所述神经网络中，输入空间维度为四维，当达到第一个子目标时，第一维输入是1，否则是0，第二、三、四维也是如此，经过一层维度为10维的隐藏层，选择使用均值为0，标准差为0.01的正态分布进行参数初始化，输出抽象状态函数值以求解所述马尔可夫决策模型。

可选地，所述选择分布式决策、集中式训练的多智能体强化学习架构结合分层奖励塑造框架生成基于所述奖励塑造的QMIX算法的步骤，包括：

选择分布式决策、集中式训练的多智能体强化学习架构，结合分层奖励塑造框架搭建QMIX算法，所述QMIX算法包含一组DRQN和一个混合网络，组中的每个DRQN网络对应一个分布式执行的策略，混合网络把一组DRQN网络组合输出的一组Qa以一种复杂的非线性模式加权组合，从而输出Qtot。

可选地，所述选择分布式决策、集中式训练的多智能体强化学习架构结合分层奖励塑造框架生成基于所述奖励塑造的QMIX算法的步骤之后，还包括：

将输入信息经过一层MLP网络，选择使用均值为0，标准差为1的正态分布进行参数初始化，并输出一组特征向量；

使用整流线性单元对所述特征向量进行非线性化处理；

将处理好的特征向量和上一步存储的隐藏层信息输入到RNN层中，根据时序训练的要求，将当前时间步的特征向量和上一步的隐藏层信息在RNN层融合生成新的特征向量和新的隐藏层信息；

将RNN层的输出传入最后一层MLP以获得Q值；

采取epislon-greedy的方法，当随机生成的概率小于预设概率时，使用argmax函数，选择状态动作值最大的动作并执行；

在生成的概率小于设定概率时，等概率随机抽取动作并将当前步获得的

存入回放池中，等到网络更新时再取出。

可选地，所述通过QMIX算法对所述决策模型进行求解以获取兵棋推演协作策略的步骤之前，还包括：

获取预设地址中M个智能体的Q值列表；

获取全局状态St并经过一层单独的线形层进行特征处理；

再经过一层绝对值激活函数，对特征进行非线性化处理，以生成混合网络的权重；

输出结果是四个向量＜W₁,W₂,bias₁,bias₂>，这四个向量被用于对第x1个智能体到第xm个智能体的Q值列表进行加权组合；

根据所述Q值列表作为混合网络的输入，经过计算后输出Q_tot(τ,a)值。

本发明根据在兵棋平台上搭建多智能体系统环境；根据所述多智能体系统环境结合预设元组进行建模，生成决策模型；根据专家先验知识设计子目标，将所述子目标用于奖励塑造；选择分布式决策、集中式训练的多智能体强化学习架构结合分层奖励塑造框架生成基于所述奖励塑造的QMIX算法；通过QMIX算法对所述决策模型进行求解以获取兵棋推演协作策略实现了在兵棋环境中引导多智能体学习到较好的学习策略。

附图说明

图1本发明基于深度强化学习模型的兵棋推演协作策略获取方法第一实施例的流程示意图；

图2为本发明基于深度强化学习模型的兵棋推演协作策略获取方法第一实施例状态空间图；

图3为本发明基于深度强化学习模型的兵棋推演协作策略获取方法第一实施例战场态势图；

图4为本发明基于深度强化学习模型的兵棋推演协作策略获取方法第一实施例飞机动作空间示意图；

图5为本发明基于深度强化学习模型的兵棋推演协作策略获取方法第一实施例网络架构图。

图6为本发明基于深度强化学习模型的兵棋推演协作策略获取方法第一实施例混合网络图

图7为本发明基于深度强化学习模型的兵棋推演协作策略获取方法第一实施例神经网络更新过程图。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明实施例提供了一种基于深度强化学习模型的兵棋推演协作策略获取方法，参照图1，图1为本发明基于深度强化学习模型的兵棋推演协作策略获取方法第一实施例的流程示意图。

本实施例中，所述基于深度强化学习模型的兵棋推演协作策略获取方法包括以下步骤：

步骤S10：在兵棋平台上搭建多智能体系统环境。

需要说明的是，本实施例使用的实验环境是全国兵棋推演大赛的兵棋推演平台。作为一款实时策略类兵棋推演平台，全国兵棋推演大赛平台具有如下特点：

1、平台覆盖陆、海、空、天、电全域联合作战，并展示在可视化的统一视场内，通过全局态势接口易于获得。

2、作战单元丰富。包含的地面设施有：指挥所、雷达、机场、装甲车辆、地面导弹、防空高炮等；包含的水面设施有：驱逐舰、航母、扫雷舰等水面舰艇，潜艇等；包含的空中设施有：战斗机、轰炸机、预警机等飞机；此外还包含卫星等现代战争中可能涉及到的武器平台，以及商船、渔船、民用飞机等民用平台。

3、装备数据完备。平台中各作战单元都有其携带传感器的型号参数，同时包含不同类型的挂载，包含导弹、干扰弹等。

4、使命任务多样。平台中的作战单元支持执行截击、护航、巡逻、打击等使命任务，也可以通过编队或任务组合实现更为高级的使命任务。

该平台基于上述特点，借助计算机仿真技术，可以对现实世界的军事问题进行比较逼真的模拟，表示了不对称不完全信息下的动态博弈过程。在该平台上开展研究，对高维复杂环境的以及多智能体互相影响的强化学习研究有着重要意义。本实施例依托全国兵棋推演大赛平台的大洋空战想定构建了一个多智能体训练环境。想定的战场环境位于海洋上空，为东经151.5度到161.0度，北纬23.5度到28.0度的长方形作战区域，包含作战海域和作战空域，南北高度约为500km，东西长度约为1000km。本实施例使用MARL算法控制红方各作战单元，通过与环境交互学习，希望学习得到一个海空协同作战策略，实验情况描述如下：红方航母位于北纬25.52度,东经153.25度的区域、蓝方航母位于北纬26.32度,东经158.65度的区域。经过红蓝方卫星侦察，红方阿里伯克级导弹驱逐舰大致位于北纬25.7,东经155.3度的海域。蓝方阿里伯克级导弹驱逐舰大致位于北纬25.8,东经157.5度的海域。蓝方算子使用传统规划的方法进行控制决策，蓝方指挥官以任务式的指挥方式下达以进攻为主的作战命令，首先向下级明确作战时间和作战任务。对于四架超级大黄蜂战斗机，其具有较好的空战能力，首先将其组织成两个双机编队，向目标空域前进，其任务是确定敌方驱逐舰的具体位置，其任务二是寻找敌方战斗机主力并进行战斗；两架闪电战斗机具有打击海面舰艇的能力，在大黄蜂战斗机发现敌方舰艇具体位置后，出发打击敌方舰艇，尽量避免与敌方空军主力接战。相比与战斗机，由于驱逐舰机动速度较慢，在海面进行巡逻，视我方战斗情况设置巡逻区域。红方各飞机算子使用MARL算法控制，通过与环境交互学习，希望学习得到一个海空协同作战策略。驱逐舰使用规则算法控制进行区域巡逻算法。

在具体实施中，本实施例中单架飞机的观测距离有限，因此存在局部观测状态空间

集中训练中心可以获得来自各架飞机的情报信息，并整合成为全局观测状态空间St。首先介绍每一架飞机的局部观测值

需要进行决策的第x1架飞机的探测距离是一组固定值，包含对空探测距离和对海探测距离。在某时刻其视野范围内共有N架敌方飞机，以及M艘舰船，对第x1架飞机观测到的态势数据进行数据处理，拼接敌我双方的飞机、舰艇及导弹信息，作为局部观测信息，并输入飞机的决策网络，如图2所示。混合网络的输入St，T时刻的全局状态St由我方所有飞机的信息，敌方所有飞机的信息，我方所有舰艇的信息，敌方所有舰艇的信息，所有的导弹信息组成，如图3所示。飞机的动作空间，飞机的速度一共有四档，如下表所示：

飞机速度挡位表

与此同时飞机可以选择的朝向角为360度，为了减小决策空间，本实施例对朝向角进行离散化处理，分为六个朝向，每个朝向间隔六十度。飞机机动动作由挡位和飞机朝向角共同决定，一共有4*6＝24个动作。飞机的动作空间中还包含了打击动作，敌方一共有六架战斗机和一艘驱逐舰，因此单步打击动作为七个动作，单架飞机的动作空间有31个动作，本实施例假设飞机执行单步动作需要一定的时间，所以每个决策时间步都只能执行一个动作。由于在不同时刻，单架飞机的动作空间包含的选择动作会有区别，在实际实验中，飞机要首先判断可选动作，当神经网络输出的动作位于可选动作列表里时，执行相应动作如图4所示。

步骤S20：根据所述多智能体系统环境结合预设元组进行建模，生成决策模型。

进一步地，所述根据所述多智能体系统环境结合预设元组进行建模，生成决策模型的步骤，包括：使用改进的元组G＝＜S,U,P,r,Z,O,n,γ＞对所述多智能体系统环境进行决策模型的建模，其中s∈S描述红方对训练环境全局态势的观测，在每一个时间步，每个智能体n在可选动作集U_n中选取一个动作，所有智能体选择的动作组成联合动作u∈U≡Uⁿ，联合动作推动环境上的状态转移，状态转移定义如下P(s'|s,u):S×U×S→[0,1]，所有智能体共享同一个奖励函数r(s,u):S×U→γ并且γ∈[0,1)。

步骤S30：根据专家先验知识设计子目标，将所述子目标用于奖励塑造。

在具体实施中，本实施例首先介绍原始奖励函数，双方飞机分值为击毁敌方一架飞机获得139分，我方损失一架飞机则损失139分，击毁敌方一艘驱逐舰得分1843分，我方损失一架驱逐舰则损失1843分，该分值由想定本身决定。比赛结束时根据双方得分多少判定胜负。在兵棋推演中，由于作战空间维度高，动作空间选择多，并且敌方单元往往会绕过我方单元直接攻击驱逐舰，因此我方飞机常常面临做很多步决策却得不到任何奖励的情况，最后只是在原地打转。为了解决奖励稀疏这一难题，本文采取专家知识生成的子目标的奖励塑造方法。在本实施例中，海空协同作战任务中，根据专家先验知识设计奖励塑造强化学习算法的子目标以及相关细节。在海空协同作战任务中，根据指挥员的先验知识，存在一些子任务，可以从中提取子目标。本研究从作战全局出发，考虑战术上的全局子目标。与此同时，战场上还存在一些与单个智能体的动作指挥控制有关专家经验，同样也可以作用于子目标设计，不在本研究考虑单智能体本身行动控制的子目标，有待日后研究。红方飞机从机场出发，主要作战目标是击毁敌方驱逐舰，保卫我方驱逐舰。敌方驱逐舰的大致经纬度坐标已由卫星侦察获得，共享至我方所有飞机，起飞后的首要任务是搜索侦察敌方飞机，从而为制定下一步的战术提供指导。本实施例首先设置侦察发现敌方飞机为子目标Sg1，在实现这个子目标前后，作战任务发生巨大变化，由侦察为主的任务转变为打击敌方目标为主。发现敌方目标后，我方智能体需根据空战算子的当前位置，敌方被侦察到的算子的数量、类型和经纬度位置坐标等进行分析研判，通过与环境交互，判断在当前态势下应该先进行空战还是先进行海战。为引导智能体学习这一作战流程，本实施例设置敌方飞机进入我方对空导弹火力射程为Sg2，设置敌方舰艇进入我方对海打击导弹射程为Sg3。当我方态势处于不利情况时，我方飞机应当进入防御位置，因此设置到达防御位置的子目标为Sg4。在到达不同子目标的情况下，智能体拥有不同的势能函数，希望通过学习引导智能体往势能高的状态转移。子目标示例如下表所示。

根据专家知识设置的子目标示例

依此类推，在海空协同作战任务中，根据指挥员的先验知识，会预先制定多个不同阶段的作战意图，根据态势的不同，不同的作战意图也会作一定转换。在执行作战意图实现作战目标前后，战场态势会发生较大的变化，本实施例可以根据指挥员的先验知识，将作战意图设置为强化学习的子目标。设置子目标完成以后，针对不同的子目标，本实施例要设置是否达到子目标的判断条件。对于子目标Sg1，每一决策步本实施例都从情报里解析是否发现敌方战斗机。对于Sg2，发现敌方战斗机后，实时计算我方战斗机距离敌方战斗机的距离，当距离小于给定阈值后，确认达成子目标。子目标判断Sg3的设置方法相同。算法预先设置防御阵位在我方驱逐舰周边，我方战斗机在这个位置可以与驱逐舰一起对敌方战斗机进行拦截，当我方战斗机到达驱逐舰周边位置时，确认到达子目标Sg4。

进一步地，所述根据专家先验知识设计子目标，将所述子目标用于奖励塑造的步骤，包括：根据专家先验知识确定子目标序列；确定强化学习所学习的抽象状态，并在所述抽象状态上构建马尔可夫决策模型；搭建神经网络求解所述马尔可夫决策模型；对神经网络进行训练，在所述神经网络训练收敛以后使用获得的V(Z)值作为状态的势能，进行奖励塑造。

需要说明的是。确定好子目标序列{Sg1,Sg2,Sg3,Sg4}以后，强化学习所学习的抽象状态也确定了，与原理介绍的模型不同，这里的抽象状态空间大小为24＝16，即是否到达Sg1(2个状态)*是否到达Sg2(2个状态)*是否到达Sg3(2个状态)*是否到达Sg4(2个状态)，抽象状态空间表达为{Z₀,Z₁,...,Z₁₆}。在抽象状态上构建马尔可夫决策模型，并搭建神经网络求解该模型，输入空间维度为四维，当达到第一个子目标时，第一维输入是1，否则是0，第二、三、四维也是如此，经过一层维度为10维的隐藏层，选择使用均值为0，标准差为0.01的正态分布进行参数初始化，最后输出层输出抽象状态函数值。神经网络实时更新，当神经网络训练收敛以后，使用获得的V(Z)值作为状态的势能，进行奖励塑造，价值函数是与策略相关。在抽象模型的训练中，我们采取的策略是由具体函数训练所获得的，那么随着具体神经网络训练的进行，下层具体强化学习学到的策略逐渐改进，抽象模型学到的价值函数也越接近状态的真实值，这使得依据价值函数设置的奖励函数对具体强化学习算法的指导作用更加接近最终目标。

进一步地，所述搭建神经网络求解所述马尔可夫决策模型的步骤，包括：

在所述神经网络中，输入空间维度为四维，当达到第一个子目标时，第一维输入是1，否则是0，第二、三、四维也是如此，经过一层维度为10维的隐藏层，选择使用均值为0，标准差为0.01的正态分布进行参数初始化，最后输出层输出抽象状态函数值以求解所述马尔可夫决策模型。

步骤S40：选择分布式决策、集中式训练的多智能体强化学习架构结合分层奖励塑造框架生成基于所述奖励塑造的QMIX算法。

需要说明的是，在MAS中，由于一些约束的存在单个智能体往往很难观测到全局信息，在兵棋推演这样具有战争迷雾的实时策略类博弈环境中更是如此，智能体之间有时会存在通信可以共享信息，但在实际应用中通信也会存在诸多限制。基于上述原因，对于每一个智能体而言，往往需要根据它所处的具体环境获得局部观测，并根据局部观测建立对应的离散式策略。当智能体数量增加时，离散化策略所构成的联合动作决策空间过大会导致传统的单智能体算法失效。针对上述问题，本实施例提出了集中式训练，分布式执行的学习范式。集中训练要求智能体能够获得一个基于全局状态和联合动作的Qtot。当算子数量过多时，Qtot难以直接习得，即使可以习得，也没有直接的方法可以转化成每个算子可以根据单独的观测。为解决这一难题，Tabish Rashid等人提出了QMIX算法。该算法包含一组DRQN(Deep Recurrent Q-Network)和一个混合网络(Mixing Network)，组中的每个DRQN网络对应一个分布式执行的策略，混合网络把一组DRQN网络组合输出的一组Qa以一种复杂的非线性模式加权组合，从而输出Qtot。因此，QMIX算法可以以一种因子化的表示方法来表示中心化动作值函数。这样的表示方法根据智能体的数量变化，可以有很好的伸缩性，并且允许分散化的策略在线性时间内，可以通过单独的argmax操作容易获得结果。

为了保证一致性，该算法需要确保全局最优是由所有算子的局部最优所组成，算法通过约束混合网络的参数为正数，使得上述要求满足：

接下来介绍QMIX算法中神经网络的具体结构。在T时刻，对于每一个智能体a，都有一个DRQN网络输出它单独的值函数，在每一个时间步把当前局部观测值作为输入，如图5所示。

将输入信息经过一层MLP网络，MLP层首先处理态势信息，对于全连接层，选择使用均值为0，标准差为1的正态分布进行参数初始化，并输出一组特征向量，接下来使用整流线性单元(RELU)对特征向量进行非线性化处理。接着，网络将处理好的特征向量和上一步存储的隐藏层信息输入到RNN层中，根据时序训练的要求，将智能体当前时间步的特征向量和上一步的隐藏层信息在RNN层融合生成新的特征向量和新的隐藏层信息，最后将RNN层的输出传入最后一层MLP以获得Q值，此处的Q值是一个N维的向量，表征智能体a选择H个不同动作的状态动作价值函数值。获得智能体a的Q值向量以后，算法采取epislon-greedy的方法，当随机生成的概率小于设定概率时，使用argmax函数，选择状态动作值最大的动作并执行。当生成的概率小于设定概率时，等概率随机抽取动作。接着将当前步获得的

存入回放池中，等到网络更新时再取出。接下来介绍混合网络的构成，假设我方共有M个智能体，依据此方法，获得我方第x1个智能体到第xm个智能体的Q值列表。将该Q值列表作为混合网络的输入，经过网络计算后，输出一个Q_tot(τ,a)值。混合网络的权重由独立的超网络产生。每一个超网络把全局状态St作为输入并生成混合网络的一层参数。图6解释了混合网络和它的超网络。全局状态St先经过一层单独的线形层，进行特征处理，再经过一层绝对值激活函数，对特征进行非线性化处理，而后生成混合网络的权重，线形成和绝对值激活函数被统一称为超网络。为了确保混合网络的权重是非负的，绝对值激活函数是必不可少的超网络组件。超网络的输出结果是四个向量＜W₁,W₂,bias₁,bias₂>，这四个向量被用于对我方第x1个智能体到第xm个智能体的Q值列表进行加权组合。为了使其满足加权需要，将这四个向量重整为一定尺寸的四个矩阵。接下来介绍神经网络的更新过程，如图7所示。首先将

列表输入混合网络，生成Qtot，同时使用目标网络和存储的下一帧观测动作奖励信息，根据公式：

y^tot＝r+γmax_u′Q_tot(τ′,u′,s′；θ^-)

计算出目标网络对当前状态动作对的估值，计算y^tot和Q_tot的差值。这个差值被定义为损失函数并在混合网络和DRQN网络中反向传播，其中θ^-是目标网络的参数。损失函数的公式定义如下式所示，b是从记忆池里采样得到的状态迁移四元组(s,a,s',r)的数量大小。

进一步地，所述选择分布式决策、集中式训练的多智能体强化学习架构结合分层奖励塑造框架生成基于所述奖励塑造的QMIX算法的步骤，包括：选择分布式决策、集中式训练的多智能体强化学习架构，结合分层奖励塑造框架搭建QMIX算法，所述QMIX算法包含一组DRQN和一个混合网络，组中的每个DRQN网络对应一个分布式执行的策略，混合网络把一组DRQN网络组合输出的一组Qa以一种复杂的非线性模式加权组合，从而输出Q_tot。

进一步地，所述选择分布式决策、集中式训练的多智能体强化学习架构结合分层奖励塑造框架生成基于所述奖励塑造的QMIX算法的步骤之后，还包括：将输入信息经过一层MLP网络，选择使用均值为0，标准差为1的正态分布进行参数初始化，并输出一组特征向量；使用整流线性单元对所述特征向量进行非线性化处理；将处理好的特征向量和上一步存储的隐藏层信息输入到RNN层中，根据时序训练的要求，将当前时间步的特征向量和上一步的隐藏层信息在RNN层融合生成新的特征向量和新的隐藏层信息；将RNN层的输出传入最后一层MLP以获得Q值；采取epislon-greedy的方法，当随机生成的概率小于预设概率时，使用argmax函数，选择状态动作值最大的动作并执行；在生成的概率小于设定概率时，等概率随机抽取动作并将当前步获得的

存入回放池中，等到网络更新时再取出。

步骤S50：通过QMIX算法对所述决策模型进行求解以获取兵棋推演协作策略。

进一步地，所述通过QMIX算法对所述决策模型进行求解以获取兵棋推演协作策略的步骤之前，还包括：获取预设地址中M个智能体的Q值列表；获取全局状态St并经过一层单独的线形层进行特征处理；再经过一层绝对值激活函数，对特征进行非线性化处理，以生成混合网络的权重；输出结果是四个向量＜W₁,W₂,bias₁,bias₂>，这四个向量被用于对第x1个智能体到第xm个智能体的Q值列表进行加权组合；根据所述Q值列表作为混合网络的输入，经过计算后输出Q_tot(τ,a)值。

本实施例根据在兵棋平台上搭建多智能体系统环境；根据所述多智能体系统环境结合预设元组进行建模，生成决策模型；根据专家先验知识设计子目标，将所述子目标用于奖励塑造；选择分布式决策、集中式训练的多智能体强化学习架构结合分层奖励塑造框架生成基于所述奖励塑造的QMIX算法；通过QMIX算法对所述决策模型进行求解以获取兵棋推演协作策略实现了在兵棋环境中引导多智能体学习到较好的学习策略。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于深度强化学习模型的兵棋推演协作策略获取方法，其特征在于，所述方法包括：

在兵棋平台上搭建多智能体系统环境；

2.如权利要求1所述的方法，其特征在于，所述根据所述多智能体系统环境结合预设元组进行建模，生成决策模型的步骤，包括：

3.如权利要求1所述的方法，其特征在于，所述根据专家先验知识设计子目标，将所述子目标用于奖励塑造的步骤，包括：

根据专家先验知识确定子目标序列；

搭建神经网络求解所述马尔可夫决策模型；

4.如权利要求3所述的方法，其特征在于，所述搭建神经网络求解所述马尔可夫决策模型的步骤，包括：

5.如权利要求1所述的方法，其特征在于，所述选择分布式决策、集中式训练的多智能体强化学习架构结合分层奖励塑造框架生成基于所述奖励塑造的QMIX算法的步骤，包括：

6.如权利要求5所述的方法，其特征在于，所述选择分布式决策、集中式训练的多智能体强化学习架构结合分层奖励塑造框架生成基于所述奖励塑造的QMIX算法的步骤之后，还包括：

使用整流线性单元对所述特征向量进行非线性化处理；

将RNN层的输出传入最后一层MLP以获得Q值；

存入回放池中，等到网络更新时再取出。

7.如权利要求1至6任一项所述的方法，其特征在于，所述通过QMIX算法对所述决策模型进行求解以获取兵棋推演协作策略的步骤之前，还包括：

获取预设地址中M个智能体的Q值列表；

获取全局状态St并经过一层单独的线形层进行特征处理；