CN113435598A

CN113435598A - 知识驱动下的兵棋推演智能决策方法

Info

Publication number: CN113435598A
Application number: CN202110775172.6A
Authority: CN
Inventors: 程光权; 马扬; 刘忠; 黄金才; 梁星星; 冯旸赫
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-07-08
Filing date: 2021-07-08
Publication date: 2021-09-24
Anticipated expiration: 2041-07-08
Also published as: CN113435598B

Abstract

本发明公开了知识驱动下的兵棋推演智能决策方法，方法包括以下步骤：推演环境间隔仿真步长向智能决策系统传递态势信息，所述态势信息包括直接态势和整合态势；智能决策系统将所述直接态势和整合态势进行融合；根据想定任务确定对抗实体的核心目标，根据所述核心目标划分对抗实体的阶段任务；对抗实体结合战场知识和智能决策进行实体控制；在不同的想定任务下，分配各指令动作的优先级。本发明将任务拆分成多个核心模块，结合战场知识并结合多种智能算法，实现指定任务下智能体效能的快速提升。

Description

知识驱动下的兵棋推演智能决策方法

技术领域

本发明属于兵棋推演技术领域，尤其涉及知识驱动下的兵棋推演智能决策方法。

背景技术

兵棋推演可以模拟对抗的流程和结果，其结果对实际对抗具有借鉴意义。随着人工智能技术的发展，将智能化技术应用到兵棋推演领域，已经成为一种趋势。现有相关研究，多是对框架的概述和介绍，在推演的全阶段使用智能算法进行统一控制和筹划，对算力的要求很高且效果通常不显著。

兵棋对抗推演是对抗演习中的常见对抗样式，也是用于对抗研究和训练的工具，相比于实战对抗演练，兵棋推演能够拟合真实对抗环境和实际对抗态势，由于无需动用真实装备，相比于实兵演习的组织保障需求更低，也能更快的反映战法策略的对抗综合效果。随着人工智能技术日趋成熟并融入对抗指挥实践，智能算法与兵棋对抗推演融合逐步成为计算机和人工智能领域的研究热点，与此相关的研究成果推动了对抗智能化的发展，并为战斗力的提升发挥着日益显著的作用。

近年来，许多研究者探索将人工智能技术应用于兵棋推演上，在推演框架上，非专利文献1分析了兵棋推演面临的瓶颈，指出了对抗智能态势认知是亟需突破的关键环节；非专利文献2提出了基于深度强化学习模型的兵棋推演决策方法框架。非专利文献3在将深度强化学习模型应用到回合制兵棋中；非专利文献4研究了在六角格兵棋中的智能兵棋推演，非专利文献5等研究了多智能体协同进化算法辅助决策。

兵棋推演中最常见的形式是双方博弈，在该形式下，通常推演双方分别控制乙方和甲方，在指定的任务想定下，对己方资源进行规划和调度，从而完成既定对抗意图。目前对兵棋推演的研究多是全局仿真，即在推演的全阶段使用智能算法进行统一控制和筹划，这种智能算法对算力要求很高，且对调参要求很高。针对任务的兵棋推演，其核心是在有限时间内找到合理的解决方案，而不是一味地寻求最优解，因此，上述算法很难适用于有时限要求的兵棋推演场景；此外，在该情景下，任务目标通常比较固定，智能系统对专家经验的使用往往不够充分。

参考文献

非专利文献

1.胡晓峰,贺筱媛,陶九阳.AlphaGo的突破与兵棋推演的挑战[J].科技导报,2017,35(21):49-60.HU X F,HE X Y,TAO J Y,AlphaGo's breakthrough and challengesof wargaming[J].Science&Technology Re-view,2017,35(21):49-60.

2.崔文华,李东,唐宇波,柳少军.基于深度强化学习的兵棋推演决策方法框架[J].国防科技,2020,41(02):113-121.CUI WH,LI D,TANG Y B,et al.Framework ofwargaming decision-making methods based on deep reinforcement learn-ing[J].National Defense Technology,2020,41(02):113-121.

3.Sun,YX；Yuan,B；Zhang,T,et al.Research and Imple-mentation ofIntelligent Decision Based on a Priori Knowledge and DQN Algorithms inWargame Environment[J].ELECTRONICS,2020,09(10):1-21.

4.彭希璐,王记坤,张昶,刘莹,刘改宁.面向智能决策的兵棋推演技术[C].2019第七届中国指挥控制大会,2019.

5.田忠良，刘昊.智能算法在兵棋对抗推演中的应用[J].指挥控制与仿真,2021,43(1):40-47.

发明内容

在兵棋推演中，智能体取得最优解往往存在诸多困难，因此，针对时间有限、任务目标固定的特定情景，为了快速高效完成兵棋推演智能决策任务，本发明提出了一套知识驱动下的兵棋推演智能决策框架，通过结合推演领域知识，并综合运用多种智能决策技术，完成能在指定想定下表现优异的智能体。为在时限任务中，针对具体想定实现智能体，本发明提出了一个知识驱动下的兵棋推演智能决策框架，将任务拆分成多个核心模块，结合战场知识并结合多种智能算法，实现指定任务下智能体效能的快速提升。对抗双方包括甲方和乙方，其中甲方为我方，乙方为对抗方。

本发明公开的知识驱动下的兵棋推演智能决策方法，包括以下步骤：

知识驱动下的兵棋推演智能决策框架如图1所示，该框架由智能决策系统与推演环境两部分组成。推演环境是兵棋推演的引擎，能够独立进行仿真推演，间隔仿真步长向智能决策系统传递态势信息，并从智能决策系统中接收新的动作指令；智能决策系统从环境中接收并处理态势信息，通过结合战场知识驱动每个阶段的任务进程，从而确定每个实体在阶段任务中的地位，此外，战场知识可以直接指导对抗实体在面对特殊情况下的控制方式，在多种智能决策技术的支撑和优先级分配机制的统筹管理下，返回当前状态下的执行动作。态势融合模块将直接态势和整合态势进行融合后，将融合后态势信息输入实体控制模块。实体控制模块包括状态控制，移动控制和打击控制。其中状态控制包括传感器开关，组件参数等，移动控制包括机动参数，航迹规划，特殊动作等，打击控制包括弹目匹配，打击时机等。知识驱动的智能决策系统将战场知识用于指导态势融合，并驱动阶段任务和指导实体控制模块。阶段任务模块中采用智能决策用于决定实体控制中的各模块。

本发明。

附图说明

图1本发明的知识驱动下的兵棋推演智能决策框架；

图2本发明的态势融合分类；

图3本发明的任务阶段转换；

图4本发明的智能决策分类；

图5本发明的推演想定示意图；

图6本发明的态势融合；

图7本发明的任务阶段转换；

图8本发明的推演任务阶段转换；

图9本发明的避弹场景示意图；

图10本发明的水平航向角划分。

具体实施方式

下面结合附图对本发明作进一步的说明，但不以任何方式对本发明加以限制，基于本发明教导所作的任何变换或替换，均属于本发明的保护范围。

态势融合

如图2所示，态势融合包括对直接态势的处理和对态势环境的整合。本实施例中，直接态势的处理包括对态势的数值转换、数值清洗和归一化等。数值转换是对数据单位的变换，比如角度与弧度、时速与秒速等，从而实现相关变量数值上的统一；数值清洗是针对非确定场景下的数据处理方式，在此情境下，甲方获取的敌方信息通常是模糊和不确定的，因此在采用情报前，本发明一方面结合知识和学习方法对该数据的真实性进行检测和甄别，另一方面补充缺失实体的信息，从而降低对系统决策的影响；归一化用于后接机器学习任务时，提前对数据的数值、维度进行规约，从而使得数据分布使用与机器学习任务，本实施例中使用的归一化方法包括最小-最大归一化、z分数归一化和小数定标归一化等。态势环境的整合是针对系统中各模块需求在直接态势基础上二次整理的态势信息，比如对乙方意图的研判等。

战场知识

战场知识是基于人类经验的对抗规律和经验的整合，是专家经验在对抗领域的一种表现形式。专家经验被普遍应用于规划、工业实践和医学等领域，用于指导具体应用和实践。在面向任务的兵棋推演下，虽然推演规模大小不一，但是推演场景是相对固定的，在这种情况下，直接使用纯粹强化学习的方法进行训练，虽然在经过长期的参数调整和训练后甚至会发现人类未曾发现的新策略和战法，但是这种方式通常在时间和计算资源上耗费极大，且效果通常会不显著，因此，对推演任务进行拆解和阶段划分，将全局学习转化成阶段学习和小场景学习是一种可行的替代方案，这个过程需要战场知识。战场知识包含了对推演有意义的各种人类经验和统计规律，比如击毁特定目标需要的弹药数量、乙方目前布局可能存在的意图、特定想定下乙方的薄弱环节等。在知识驱动的智能决策系统中，战场知识存在于方方面面：战场知识指导态势融合，对整合态势进行归纳并给出结论；战场知识驱动阶段任务的推进，进而决定实体控制；此外，战场知识直接对实体控制进行指导和修正。

阶段任务

阶段任务是根据战场知识对推演节点进行的初步划分，在不同的阶段，受控实体的任务和状态会有差异，任务差异主要体现在目标点上，状态差异体现在状态参数上。阶段任务是该阶段相应实体执行的常态任务，在触发特殊事件时，允许实体任务和状态的改变，但是在特殊事件处理完毕后，会返回该任务状态，如图3所示，任务阶段A和任务阶段B互相转换，任务阶段B和触发事件互相转换。此外，不同的任务阶段之间存在状态转换，也允许循环转换的存在，如任务阶段A转换到任务阶段B，又从任务阶段B转换回任务阶段A。

实体控制

实体控制智能决策系统是在智能决策算法支持下，在优先级分配统筹下，通过战场知识指导的对抗单元控制。

实体控制包括状态控制、移动控制和打击控制等。状态控制包括对传感器开关控制和组件参数调节，传感器开关控制包括敌我识别开关、通信开关等，组件参数的调节包括通信频谱调节等；移动控制是特指对可移动实体的控制，包括机动参数控制(速度、航向等)、航迹规划和特殊动作(如规避返航动作)；打击控制是与目标打击相关的控制，包括弹目匹配、打击时机选择等。

状态控制以战场知识控制为主导，移动控制和打击控制通常是在智能决策和战场知识共同指导下实现。

智能决策

智能决策是各种智能算法组成的算法库，用以支持智能决策系统的各种规划，本实施例采用的算法包括强化学习算法、现代优化算法、运筹学方法等，见图4。强化学习算法包括无模型和基于模型的方法等，智能优化方法包括遗传算法，蚁群算法等，运筹学方法包括规划论方法等。

强化学习的智能体随着时间变化同环境进行逐步交互，在每个时间步t，智能体从状态空间S中接收该时刻的状态st，根据策略分布π(a_t|s_t)，从动作空间A中选择该时刻的执行动作a_t，之后根据环境的动态性(奖赏函数R(s_t,a_t,s_t+1)和状态转移函数P(s_t+1|s_t,a_t))，环境返回一个奖赏值r_t+1，并将状态转移到下一时刻s_t+1。每次实验中直到终止状态智能体获得带折扣的累计奖赏值

γ∈(0,1]。该智能体学习的目标是最大化返回期望值。在决策系统中，强化学习负责完成决策任务中专家经验不足的小场景任务。

智能优化方法包括各种启发式优化算法，和运筹学算法结合，可以用于解决通用性问题。在智能决策系统中，特定目标的路径规划和避障、弹目匹配等问题可以由这些算法解决。

优先级分配

优先级分配是对决策系统各模块给出指令的统一安排和调度。在许多推演平台中，受控制体在同一时刻可接并执行多个状态控制指令，但是只能执行一条移动控制或者打击控制指令，这是和受控实体本身的特性相关的。在此情况下，当战场知识、阶段任务和智能决策模块对统一实体下达指令时，部分指令可能会存在冲突和冗余。因此，在系统内部确立固定的优先级顺序，可以保证整个系统输出动作的合理有效。

实施例1

本实施例以某兵棋推演赛事为案例，介绍本发明在兵棋推演中的具体应用形式。

推演想定介绍

推演想定图如图5所示，甲方目标(防守方)：依托地面、海面和空中立体防空火力，守卫己方岛屿2个指挥所重点目标。

乙方目标(进攻方)：综合运用海空突击和支援保障力量，突破甲方防空体系，摧毁甲方2个指挥所重点目标。

乙方设置6种装备共42个对抗单位，以完成突击、预警、侦察、干扰、护航等任务。甲方设置7种装备共30个对抗单位，以完成侦察、预警、防空、地面防卫等任务，同时为甲方配置态势感知装备和对地打击装备，可对乙方机场实施突击，威慑乙方难以投入全部装备进行进攻，增加防守胜率。

表1乙方装备设置

任务	装备	数量	初始位置
				空中突击	对地打击装备	16架	机场
空海探测	态势感知装备	1架	岛屿附近
				干扰压制	干扰机	1架	机场
掩护护航	攻击装备	20架	机场
				舰艇防空	舰艇	2艘	岛屿附近
对空探测	地面雷达	1部	乙方岛屿
				支援保障	机场	1个	乙方岛屿

表2甲方装备设置

任务	装备	数量	初始位置
				空中突击	对地打击装备	8架	南岛机场
空海探测	态势感知装备	1架	南岛附近
				对空探测	地面雷达	2部	每岛1部
空中拦截	攻击装备	12架	南岛机场
				舰艇防空	舰艇	1艘	北岛附近
地面防空	防空装备	3部	北岛1，南岛2
				支援保障	机场	1个	南岛
保卫目标	指挥所	2个	每岛1个

想定分析

本发明从乙方角度进行场景分析，并结合本发明智能推演框架整理相关模块和目标。

在该想定场景中，乙方拥有干扰机，能够有效掩护我方战机靠近敌方目标，是该任务中的打击核心。因此，乙方只有在干扰机协同配合下，才能在面对甲方大量地防和海防时拥有情报优势，此外，态势感知装备作为主要的态势感知实体，是情报获取核心，在乙方前探进攻时，务必保护态势感知装备的生存。乙方的任务阶段划分应该以干扰机和态势感知装备态势为牵引，攻击装备、对地对地打击装备和海防单位为两个核心单元完成使命服务。

1)态势融合

在本想定中，乙方的态势融合内容见图6，直接态势包括甲方和乙方实体的探测信息，如批号，速度，坐标，航向，类型，军别和弹量等，该信息已经经过清洗整理，并提供归一化后数据供智能决策模块使用。整合态势是结合战场知识得到的统计信息，在本想定中，乙方核心关注：1)根据观测到甲方实体分布推测甲方的防御重点在南岛或北岛；2)根据甲方飞机位置判断甲方是否有偷袭我方机场能力；3)根据统计到的打击信息和实体变更信息，统计敌方剩余对空和对地打击能力。

2)阶段任务划分

根据前文对想定的理解，干扰机和态势感知装备是乙方的两个核心目标，因此，阶段划分以干扰机任务进程和态势感知装备有无为核心进行划分。乙方任务阶段划分如图7所示，对每个任务状态还可以细化为虚线框中的次级任务。在每个不同的任务阶段，实体控制的具体参数有区别，比如在前往目标点任务阶段中，任务实体集群以最大速度前往目标点，转换为抵达目标点状态后，受控实体降低速度，以减少在目标点徘徊的转弯半径。图7中，乙方实体任务开始后，进入“态势感知装备存活且两个指挥所均存在”阶段，“态势感知装备存活且两个指挥所均存在”阶段还可分为“单元集结”、“前往目标点”和“抵达目标点”三个次级任务，“态势感知装备存活且两个指挥所均存在”阶段可进入“态势感知装备存活且只剩一个指挥所”和“态势感知装备击毁且两个指挥所均存在”的阶段，“态势感知装备存活且只剩一个指挥所”阶段和“态势感知装备击毁且两个指挥所均存在”阶段可进入“态势感知装备击毁且只剩一个指挥所”阶段，到达这个阶段后，进入“任务完成”阶段。

3)智能决策下的实体控制

乙方实体采用战场知识和智能决策结合的形式进行控制。以攻击装备控制为例，在本任务中，攻击装备控制的核心是移动控制和打击控制，如图8所示。针对移动控制中的不同子任务，采用不同的决策策略。

航迹规划由战场知识确定：在该想定中，战斗机尽量保持在干扰机附近，其航迹随着干扰机任务阶段和位置的变化而变化。

返航规划由路径规划算法确定：对于弹药用尽的实体，其返航过程可以看作一个有障碍物(障碍物指敌方有威胁对空对抗实体)的路径规划问题。

避弹规划由Q学习确定：由于对推演中拦截弹药逼近时，规避时机和规避动作的选取缺乏经验指导，采取小场景学习的方式，专门训练飞机对弹药的规避能力。场景如图9，乙方舰艇射程为145km，当乙方舰艇在不同距离发射弹药后，甲方飞机采取机动动作(规则或强化学习控制)，通过飞机的机动，使得统计被击率尽可能降低。

规则避弹的设置为：当飞机检测到乙方弹药来袭时(被锁定)，采取反向机动的方式进行规避。

基于Q学习的避弹策略的奖励值设置为：若最后成功规避弹药，给予正奖励值，若最后规避弹药失败，给予负奖励。虽然该奖励值的设置具有稀疏性，在实际测试中，由于该训练片段时间相对短，该奖励值满足训练要求。

由于Q学习动作空间为离散的，如图10所示，飞机的水平控制方向根据航向角大小被简化为八个角度：航向角取正北方为0度，每隔45度为一个动作方向。规则模型和训练约5000盘后的学习模型的表现见表3。

表3避弹场景弹药命中率

经过数据分析，学习后的模型的避弹策略为：当发现弹药来袭时，向远离弹药的方向进行机动，当弹药距离自己非常接近时(大约6km左右)，飞机进行大角度全速规避。通过学到的大角度规避动作，在弹药速度有所降低后，学习模型在中距离(125-115km)上的表现超过规则模型，但是当弹药发射距继续缩小时，由于弹药的速度仍然保持高速，无论飞机采取何种末端规避动作，都很难摆脱弹药的袭击。

针对打击控制任务，其核心是实现弹目匹配。目标打击的实现有两个途径：一方面可以由战场知识决定打击距离，并在打击决策时采用基于威胁度评估的弹目匹配等方法，将目标打击转化为通用的整数规划问题，进而用运筹学的方法解决；另一方面可以采用Qmix等多智能体强化学习算法。Qmix采用一个混合网络对单智能体局部值函数进行合并，并在训练学习过程中加入全局状态信息辅助，来提高算法性能。其中每个飞机的动作空间为：{无打击动作，打击敌方飞机1，……，打击敌方飞机n}。

4)优先级分配

在该想定下，由于乙方作为攻击方具备充足打击能力，因此在执行使命时，完成对敌方的打击相对于战损更为重要，在该环境下，一组简单的优先级分配为：打击>避弹>移动。在不同的想定下，通过调整各指令动作的优先级高低，可以迅速调控整个智能决策系统的执行风格，做出适应想定的最优动作。

本发明的有益效果：

针对在兵棋推演的全阶段使用强化学习算法出现的收敛性差和计算要求高的问题，为在有限时间内充分集合各智能决策方法的优势，本发明提出了一套知识驱动下的兵棋推演智能决策框架，通过结合战场知识，结合多种智能决策技术，从而实现特定兵棋推演想定下的有效决策。

基于本发明框架在兵棋赛事中进行开发的智能体，在有100多支有效参赛队的联合对抗智能博弈兵棋推演挑战赛中取得第二名的成绩，验证了本发明方法的有效性。

上述实施例为本发明的一种实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何背离本发明的精神实质与原理下所做的改变、修饰、代替、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.知识驱动下的兵棋推演智能决策方法，应用于知识驱动下的兵棋推演智能决策框架，其特征在于，所述兵棋推演智能决策框架包括智能决策系统与推演环境，所述兵棋推演智能决策方法包括以下步骤：

推演环境间隔仿真步长向智能决策系统传递态势信息，所述态势信息包括直接态势和整合态势；

智能决策系统将所述直接态势和整合态势进行融合；

根据想定任务确定对抗实体的核心目标，根据所述核心目标划分对抗实体的阶段任务；

对抗实体结合战场知识和智能决策进行实体控制；

在不同的想定任务下，分配各指令动作的优先级。

2.根据权利要求1所述的知识驱动下的兵棋推演智能决策方法，其特征在于，所述直接态势包括甲方实体和乙方实体的探测信息，所述直接态势的处理包括对态势的数值转换、数值清洗和归一化。

3.根据权利要求1所述的知识驱动下的兵棋推演智能决策方法，其特征在于，每个阶段任务可进一步划分为次级任务。

4.根据权利要求1所述的知识驱动下的兵棋推演智能决策方法，其特征在于，对抗实体包括多个智能体，强化学习的智能体在每个时间步t从状态空间S中接收该时间步的状态s_t，根据策略分布π(a_t|s_t)，从动作空间A中选择该时间步的执行动作a_t，根据奖赏函数R(s_t,a_t,s_t+1)和状态转移函数P(s_t+1|s_t,a_t)，推演环境返回一个奖赏值r_t+1，并将状态转移到下一时刻s_t+1，重复上述步骤直到终止状态的智能体获得带折扣的累计奖赏值

5.根据权利要求4所述的知识驱动下的兵棋推演智能决策方法，其特征在于，智能体学习的目标是最大化返回期望值。

6.根据权利要求1所述的知识驱动下的兵棋推演智能决策方法，其特征在于，所述实体控制包括状态控制、移动控制和打击控制，所述状态控制包括对传感器开关控制和组件参数调节；移动控制包括机动参数控制、航迹规划和特殊动作，打击控制包括弹目匹配、打击时机选择。

7.根据权利要求6所述的知识驱动下的兵棋推演智能决策方法，其特征在于，所述打击控制由战场知识决定打击距离，并在打击决策时采用基于威胁度评估的弹目匹配方法。

8.根据权利要求6所述的知识驱动下的兵棋推演智能决策方法，其特征在于，所述打击控制还包括采用Qmix多智能体强化学习算法。