CN112861442B

CN112861442B - 基于深度强化学习的多机协同空战规划方法及系统

Info

Publication number: CN112861442B
Application number: CN202110261574.4A
Authority: CN
Inventors: 冯旸赫; 程光权; 施伟; 黄魁华; 黄金才; 刘忠
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-03-10
Filing date: 2021-03-10
Publication date: 2021-12-03
Anticipated expiration: 2041-03-10
Also published as: CN112861442A

Abstract

本发明提出了基于深度强化学习的多机协同空战规划方法及系统，通过将战机视为智能体，构建强化学习智能体模型，通过集中式训练‑分布式执行架构对网络模型进行训练，克服了多机协同时因不同实体间的动作区分度不大，网络模型探索性不强的缺点。通过在奖励值中嵌入专家经验，解决了现有技术中需要大量专家经验支撑的问题。通过经验共享机制，所有智能体共享一套网络参数和经验回放库，解决了单个智能体的策略不只取决于自身的策略和环境的反馈，同时还受其他智能体行为和合作关系的影响问题。通过增加优势值绝对值较大样本的采样概率，使奖励值极大或极小的样本都能影响神经网络的训练，加快算法收敛速度。通过添加策略熵提高智能体的探索能力。

Description

基于深度强化学习的多机协同空战规划方法及系统

技术领域

本发明属于空间协同作战技术领域，尤其是涉及一种基于深度强化学习的多机协同空战规划方法及系统。

背景技术

20世纪90年代以来，信息技术的发展推动了军事变革。传统的各平台运用自身传感器和武器系统对目标进行探测、跟踪、打击的作战样式已不能满足数字化战争的需求。面对现代战争中日趋复杂的战场环境，单一战机因为探测、跟踪和攻击目标的能力十分有限，没有办法独立完成指定的对空作战任务，所以需要多架战机协同作战发挥最大作战效能。

多机协同空战是指由两架或者两架以上的作战飞机互相配合、相互协作，完成对空作战任务的一种战争方式，包括协同机动、协同打击及火力掩护等环节，是现代海、陆、空、天、电一体化作战模式在多机空战中的具体体现。因此，提高多机协同效率，对于掌握战场制空权、提高对空作战任务成功率和减少作战伤亡都具有重大意义。世界各国也越来越关注和重视有助于提高机群整体作战效能的协同空战的研究。然而，相较于单架战机的空战决策，多机协同问题涉及的实体类型更多、决策空间更大、复杂程度更高，国内外对多机协同战术的研究也尚在起步阶段，其解决多机协同空战决策问题的思路主要分为两类：基于传统规划算法和基于人工智能的方法。

基于传统规划算法的方法，是将目标分配问题转化为多约束条件下的最优化问题，并建立效益函数搜索最优策略。研究的具体内容包含目标分配、任务分配、机动决策以及路径规划等方向。

在目标分配方面，高阳阳等人在设计的综合优势函数的基础上，提出了一种改进人工免疫算法，通过交叉变异操作增加种群多样性，提高策略搜索的效率；余敏建等人在对单机空战研究的基础上，建立了多机协同空战优势评价指标体系和目标分配模型，并设计了基于交叉、嫁接、分裂和拼接算子的改进合作协同进化算法，优化目标分配方案；Li Fu等人认为专家系统、最优化理论和信息论等理论是解决目标分配和多机协同空战的主要方法，但其研究并未真正解决模型设计等实际问题，只是描述了一种理论架构；奚之飞等人利用威力势场取代优势函数评估态势，引入目标重要性系数和收益比重系数进行目标分配，最后使用粒子群算法结算指标函数。

在任务分配方面，刁兴华等人将协同任务分配的过程视为复杂联盟的生成过程，设计由联盟特征函数定义的联盟报酬、能力成本、通信开销模型以及任务分配目标函数，最后引入离散粒子群优化算法求解最优方案；Benjamin在文章中介绍了一种贝叶斯重用的方法，通过重用现有策略库中的策略来高效响应新任务实例，但最佳响应的计算在许多情况下都是难以解决的；为突出飞机间的对抗性，姚宗信等人将博弈论模型引入决策方法，构建博弈模型，但这种模型是基于完全信息的静态模型，其实战应用价值不高；BingzhenSun等将该问题抽象化为多元属性模糊决策问题，阐明了一种基于可变精度多元属性多粒模糊粗糙集和维克尔方法的多属性决策方法。

在机动决策方面，左家亮等人建立了中距协同空战训练评估模型，以编队协同搜索和协同机动决策的角度，提出了一种基于高阶导数聚类和相对模糊熵聚类的二次聚类方法，用于寻找编队协同决策与中距空战结果的相关性；丁达理等在文章[自适应预测权重的空战鲁棒机动决策方法]中设计鲁棒态势函数来表征空战态势，利用可达集理论对目标机动意图并利用改进的共生生物算法对机动决策控制量搜索最优解；Xianbing Zhang等人利用专家经验与启发式搜索相结合的方式，指导飞机进行机动决策；周思羽等介绍了基于专家系统、遗传学习系统、人工免疫系统和神经网络的机动决策建模方法。

在路径规划方面，BarisBaspinar等人的文章使用信号时序逻辑的方法，结合时序和逻辑约束的任务规范，构造混合整数线性规划模型，解决了多机系统路径规划的优化控制问题；Dadi等人设计了一种基于人工势的航路规划方法，并引入种子概念改进航路生成模型的多样性，提高了模型决策的适应性和自动化程度，能够实现实时、高效地进行飞机航迹规划。

基于人工智能的方法，主要结合深度强化学习开展研究。深度强化学习在游戏博弈、机器人控制、自主驾驶、军事智能决策等众多领域均有亮眼的表现，是各方研究的热点。作为当前人工智能领域最重要的研究方向之一，该算法同时具备深度学习的感知能力和强化学习的决策能力，这种特性与多机协同空战问题状态空间巨大、要求实时决策等性质相契合，是解决问题的理想方法。

韩统等人在研究中引入协同威胁指数的概念，结合一对一空战的机动决策思想以及基于多目标优化与强化学习的决策方法，构建了多机空战机动决策模型，并验证了强化学习在处理协同攻击机动决策问题时的优越性；闫实等人设计了目标运动过程中的实时威胁隶属度函数，并在强化学习框架下对目标分派问题建模，利用神经网络逼近动作-值函数，相比传统调度方法，该方法有效提升了任务成功率；

综上，基于传统规划算法的方法大多策略保守、计算量大、求解困难、难以实时决策，不能满足多机协同空战智能决策的要求。基于人工智能的方法，虽然在一定程度上满足空战场景下智能协同对抗的要求，但与理想效果仍有较大差距，主要体现在：

1)多机协同问题缺乏统一决策流程框架，传统强化学习算法对多机协同空战场景的适用性不佳：传统算法适用于环境完全可观测的条件下，但真实的空战场景是典型的非完全信息对抗；

2)当前多机对抗的想定中大多数对手方的对抗策略较单一，战场态势的公式化演变较明显。但在真实对抗场景下，对手的策略是未知且实时变化的，这对目前的算法提出了挑战。

发明内容

本发明的目的在于提供一种基于深度强化学习的多机协同空战规划方法及系统，以解决现有技术中在非完全信息对抗、对手策略未知且实时变化的的真实空战场景下，进行多机系统空战决策时，计算量大，求解困难，不能满足实时决策的技术问题。

为解决上述技术问题，本发明所采用的技术方案是：

一种基于深度强化学习的多机协同空战规划方法，包括以下步骤：

步骤1：基于Actor-Critic强化学习框架下的近端策略优化PPO算法，构建Actor动作决策神经网络和Critic动作评价神经网络；

步骤2：将战机视为一个个智能体，使用仿真推演平台产生战场环境态势信息，主要包括敌我战机的实时飞行参数以及对空导弹的实时飞行参数，对所输入的战场环境态势信息进行预处理；

步骤:3：根据预处理后的战场环境态势信息，将待决策的第i个智能体在t时刻的局部环境态势信息s_t,i输入Actor动作决策神经网络，得到每个待决策智能体的动作决策信息a_t,i，并将动作决策信息解码封装为各智能体的操作指令控制各智能体执行新的动作，i＝1...n，n为智能体的数量；

步骤4：将待决策智能体的局部环境态势信息s_t,i、智能体的动作决策信息a_t,i、待决策智能体执行新动作后的环境态势信息s_t+1,i和环境针对该动作反馈的奖励值r_t+1,i按照四元组(s_t,i,a_t,i,s_t+1,i,r_t+1,i)的形式存储进经验回放库，每一个智能体的信息均按照该格式进行存储；

步骤5：重复步骤2至4，直至经验回放库中的样本数量达到可训练所规定的数量；

步骤6：从经验回放库中选择一批样本，将同一时刻的所有智能体的联合状态信息以及所有智能体的动作信息作为一条样本输入到Critic动作评价神经网络进行网络参数的训练更新，将各智能体的局部环境态势信息作为一条样本输入到Actor动作决策神经网络进行网络参数训练更新；

步骤7：随机删除经验回放库中的一部分样本，重复步骤2至5，直至达到训练结束条件，得到训练好的强化学习智能体；

步骤8：将当前待决策智能体的局部环境态势信息输入训练好的强化学习智能体的Actor网络，得到各待决策智能体的动作决策信息，将动作决策信息解码封装为各智能体的操作指令控制各智能体执行新的动作。

本发明还提供了一种基于深度强化学习的多机协同空战规划系统，包括以下模块：

神经网络模型构建模块：采用Actor-Critic强化学习框架下的近端策略优化PPO算法作为内核，包含Actor动作决策神经网络和Critic动作评价神经网络；

态势信息处理模块：用于接收仿真推演平台产生的未经过加工处理的战场环境态势信息，主要包括敌我战机的实时飞行参数以及对空导弹的实时飞行参数，并对这些信息数据进行进行预处理；

动作决策模块：用于根据预处理后的战场环境态势信息，将待决策的第i个智能体在t时刻的局部环境态势信息s_t,i输入Actor动作决策神经网络，得到每个待决策智能体的动作决策信息a_t,i，并将动作决策信息解码封装为各智能体的操作指令控制各智能体执行新的动作，i＝1...n，n为智能体的数量；

经验回放库存储模块：用于管理样本的产生、加工、存储与提取，将待决策智能体的局部环境态势信息s_t,i、智能体的动作决策信息a_t,i、待决策智能体执行新动作后的环境态势信息s_t+1,i和环境针对该动作反馈的奖励值r_t+1,i按照四元组(s_t,i,a_t,i,s_t+1,i,r_t+1,i)的形式存储进经验回放库；

深度强化学习网络训练模块：用于从经验回放库存储模块中采集一批样本，将同一时刻的所有智能体的联合状态信息以及所有智能体的动作信息作为一条样本输入到Critic动作评价神经网络进行网络参数的训练更新，将各智能体的局部环境态势信息作为一条样本输入到Actor动作决策神经网络进行网络参数训练更新；

动作预测模块：用于获取当前待决策智能体的局部环境态势信息输入训练好的深度强化学习网络训练模块中的Actor动作决策神经网络模型中，得到各待决策智能体的动作决策信息，将动作决策信息解码封装为各智能体的操作指令控制各智能体执行新的动作。

采用上述技术方案，本发明具有如下有益效果：

本发明提供一种基于深度强化学习的多机协同空战规划方法及系统，基于Actor-Critic(AC)强化学习框架下的近端策略优化(Proximal Policy Optimization,PPO)算法，构建Actor动作决策神经网络和Critic动作评价神经网络，通过对多智能体分别使用Actor网络进行分布式独立决策，然后各智能体在分布式执行过程中产生的动作以及执行新动作前后的状态及奖励值分别作为一条样本保存在经验回放库中，使用这种分布式决策弥补不同实体间的动作区分度不大，模型探索性不强的缺点。而集中式训练的方式，其优点在于所有智能体共享一套网络参数，在训练网络时考虑实体间的耦合关系，将同一时刻的各智能体的环境态势信息作为全局环境态势信息和所有智能体的动作信息输入到critic网络进行参数更新，防止一个实体的策略影响其他实体的策略，解决算法较难收敛的问题。在计算奖励值时，考虑到专家经验的重要性，奖励值的计算嵌入专家经验，使得神经网络模型的训练更接近于多机协同的空战实际，训练效果更好。所有智能体共享一套网络参数和经验回放池，训练网络时增加优先经验回放机制，并添加策略熵提高智能体的探索能力。真正意义上实现多机决策的协同关系，解决现有空战决策研究只适用于简单的一对一空战场景，泛化性较差，需要大量专家经验支撑，如评价函数、态势估计、飞行动力学模型的设计等等，或者只是简单地将多机问题分解为单机问题，较难提炼出协同战法的缺点。从而使得将当前战场态势信息输入训练好的神经网络模型后，所得到的动作决策方案更有效，且不需要对空战环境以及战机飞行动力学进行建模、对专家经验的需求较小、具有实时决策的能力、模型训练效率高且稳定，实现了使用强化学习算法解决多机协同空战决策问题的技术途径。使用本方法可以解决多机协同作战实体类型众多、状态和动作空间大、协同合作关系复杂程度高等问题，在有限的训练次数下达到良好的效果。

附图说明

图1为本发明多机系统空战决策流程框架图；

图2为PPO算法训练流程图；

图3为集中式训练-分布式执行架构图；

图4为具体实施例中的战场态势信息图；

图5为不同方法有效性对比图；

图6为消融实验算法性能对比图；

图7为累计胜率曲线；

图8为胜率分布图；

图9为双机编队示意图；

图10为三机编队示意图；

图11为包夹战术示意图；

图12为发挥射程优势图；

图13为快速机动避弹图；

图14为诱骗敌方弹药图。

图15为神经网络示意图，(a)为Actor网络，(b)为Critic网络。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图4所示的实验想定环境具体战场态势信息图，该想定中红蓝兵力配置相等，各自包含3架战斗机和一个可起降飞机的基地，想定范围为长1400千米、宽1000千米的长方形公海区域。想定推演的过程为飞机自基地起飞，对己方基地进行护卫，同时对敌方的战斗机和基地进行摧毁。各个实体的具体型号和损失得分见表1和表2。

表1想定实体类型

表2推演事件得分

推演事件	得分
		击毁一架飞机	139
损失一架飞机	-139
		击毁基地	1843
损失基地	-1843

图1-图15示出了本发明一种基于深度强化学习的多机协同空战规划方法，如图1所示，包括以下步骤：

步骤1：基于Actor-Critic强化学习框架下的近端策略优化PPO算法，构建Actor动作决策神经网络和Critic动作评价神经网络，如图2所示；

步骤2：将战机视为一个个智能体，使用仿真模型产生战场环境态势信息，主要包括敌我战机的实时飞行参数以及对空导弹的实时飞行参数，对所输入的战场环境态势信息进行预处理；

本实施例中,战场态势信息包含己方和敌方的两部分实体信息，己方实体信息包含己方飞机和导弹的信息，敌方实体信息包含敌方飞机和导弹的信息。由于战场迷雾，己方和敌方同类型实体的状态信息会有不一致，其中缺失的信息补零处理，数据全部按照去量纲的方式进行缩放。具体见表3。

表3状态空间信息

本实施例中,各智能体的动作控制包含航向、高度、速度、自动开火距离、导弹齐射数量五个类。由于武器数量有限，当弹药耗尽时，自动开火距离以及导弹齐射数量的决策将失效。为了降低决策动作的维度，本实施例中对航向、高度、速度和自动开火距离进行了离散化处理，具体见表4。动作空间维度为6x3x3x6x2为648维。

表4动作空间信息

类别	取值范围
		飞行航向	0°、60°、120°、180°、240°、300°
飞行高度	7620米、10973米、15240米
		飞行速度	低速、巡航、加力
自动开火距离	35海里、40海里、45海里、50海里、60海里、70海里、
		导弹齐射数量	1枚、2枚

本实施例中构建的Actor网络与Critic网络结构大致相同。神经网络示意图如图15所示，(a)为Actor网络，(b)为Critic网络。其中，全局态势信息以及实体个体态势信息，分别经过多层归一化层、卷积层对特征进行压缩与提取，将两部分获得的中间层信息进行拼接，再经过全连接层后输出。Actor网络输出648维动作概率分布，Critic网络输出1维状态评价值。实验超参数设置如表5所示。

表5实验超参数设置

参数名	参数值	参数名	参数值
				网络优化器	Adam	经验库容量	3000
学习率	5e-5	批大小	200
				折扣率	0.9	τ初始值	1.0
裁剪率	0.2	τ<sub>step</sub>	1e-4
				训练开始样本数	1400	τ<sub>temp</sub>	50000

步骤3：根据预处理后的战场环境态势信息，将待决策的第i个智能体在t时刻的局部环境态势信息s_t,i输入Actor动作决策神经网络，得到每个待决策智能体的动作决策信息a_t,i，并将动作决策信息解码封装为各智能体的操作指令控制各智能体执行新的动作，i＝1...n，n为智能体的数量；

步骤4：将待决策智能体的局部环境态势信息s_t，i、智能体的动作决策信息a_t，i、待决策智能体执行新动作后的环境态势信息s_t+1，i和环境针对该动作反馈的奖励值r_t+1，i按照四元组(s_t，i，a_t，i，s_t+1，i，r_t+1，i)的形式存储进经验回放库，每一个智能体的信息均按照该格式进行存储；

本实施例中使用的奖励值指的是使用嵌入专家经验奖励机制，奖励函数为：

r＝(1-τ)·score_total+τ·score_encourage

其中：

score_encourage＝dis_cur-dis_next

score_total为传统奖励项，根据推演事件的得分来决定的，score_encourage为基于专家经验的额外奖励项，dis_cur表示当前时刻智能体距离目标点的距离，dis_next表示下一时刻智能体距离目标点的距离，τ是衰减系数，随着训练的进行，该值按照公式τ＝(τ-τ_step)/τ_temp逐渐减小，τ_step是递减步长，τ_temp是衰减基数。为了避免量纲不统一，将战损得分与嵌入式专家经验的额外奖励值进行归一化，防止变量量纲对计算结果的影响。

由于空战决策问题是专业要求高、系统性较强的研究领域，用于空战的战法战术及策略复杂且丰富，所以专家经验在解决该问题过程中往往具有十分关键的作用。传统奖励函数通常根据实体间交战的输赢判定得分，进而将战损分值score_total作为奖励值r用于网络训练。但是这样的奖励设置最大的问题是过于稀疏，算法很难收敛。为解决这一问题，对奖励函数进行改进，将专家经验嵌入奖励函数中，使得神经网络模型的训练更接近于多机协同的空战实际，训练效果更好。考虑到战机靠近目标点时，神经网络收到的奖励反馈应该变大，所以设计奖励函数在传统奖励基础上增加一个额外奖励项score_encourage。本实施例嵌入专家经验的奖励函数，在训练初期以额外奖励部分占主导，引导战机飞往目标点。随着训练迭代次数增加，传统奖励渐渐占据主导，侧重探索空战的战法战术。解决现有空战决策研究只适用于简单的一对一空战场景，泛化性较差，需要大量专家经验支撑，如评价函数、态势估计、飞行动力学模型的设计等等，或者只是简单地将多机问题分解为单机问题，较难提炼出协同战法的缺点。从而使得将当前战场态势信息输入训练好的神经网络模型后，所得到的动作决策方案更有效，且不需要对空战环境以及战机飞行动力学进行建模、对专家经验的需求较小、具有实时决策的能力、模型训练效率高且稳定，实现了使用强化学习算法解决多机协同空战决策问题的技术途径。

本实施例采用的这种深度强化学习智能体的架构方式为集中式训练-分布式执行的架构设计方式，在单智能体强化学习中，环境的状态转移只与单智能体的动作有关，而多智能体状态的转移依赖于所有智能体的动作；并且，在多智能体系统中，每个智能体所获得的回报不只与自身的动作有关，还与其他智能体有关，通过学习改变其中一个智能体的策略将会影响其他智能体最优策略的选取，且值函数的估计也将不准，这样将很难保证算法的收敛性。因此，我们采用集中式训练-分布式执行的架构，如图3所示，“集中式训练”是指在训练中使用联合状态-动作值函数将同一时刻的所有智能体的联合状态信息以及所有智能体的动作信息作为一条样本V_φ(s，a₁，a₂，…，a_n)输入到Critic动作评价神经网络对智能体进行训练。跟分布式训练(使用局部动作值函数V_φ(s_i，a_i)训练，输入单个智能体的局部状态s_i和动作a_i)相比，联合动作值函数输入的是全局态势信息s和所有实体的动作信息(a₁，a₂，…，an)，是真正对于联合状态-策略的评估。集中式训练的方式，其优点在于所有智能体共享一套网络参数，在训练网络时考虑实体间的耦合关系，使训练更接近于多机协同的空战实际，训练效果更好。

然而，在真正执行的时候，单个智能体只能观测到部分信息(包括部分的状态信息和动作信息)，无法获得其他智能体的动作，甚至无法获得联合状态，因此本实施例中输入决策网络Actor的是单智能体的局部观测信息，输出的是单智能体的决策动作，这就是“分布式执行”。这种决策方式可以弥补不同实体间的动作区分度不大，模型探索性不强的缺点。

本实施例中，从经验回放库中选择一批样本数据的选择方法是：

1)对不同智能体分别计算每个智能体所产生的样本的采样权重，具体为：将参与采样的每个智能体产生的样本分别按照优势值的绝对值，由大至小从1到N进行排序，样本采样权重计算公式：

其中，j表示样本排序序号，P_j就是第j号样本的采样权重，N表示一个智能体包含的样本数量；

本实施例中，优势值的计算公式为：

表示第i个智能体在t时刻产生的样本的优势值,φ表示Critic网络的参数，V_φ(s_t,i)表示Critic网络对第i个智能体在t时刻的状态s_t,i的评价值，r_t,i表示第i个智能体在t时刻获得的环境奖励,γ表示折扣因子，T表示本局仿真推演结束时刻；

2)根据各智能体所产生的样本的采样权重，从经验回放库中对各智能体分别采集预先设定数量的样本。

本实施例中，考虑到神经网络的损失函数受优势值影响，本实施例提出的样本采样权重计算公式，增加了优势值绝对值较大样本的采样概率，提高优势值对采样权重的影响，使奖励值极大或极小的样本都能影响神经网络的训练，加快算法收敛速度。又能充分发挥探索与利用的关系，平衡不同样本采样概率。本实施例在采样时并非将经验库中的所有样本统一计算权重并采样，而是不同智能体分别计算各自产生的样本的采样权重，并根据权重进行采样。这种优先采样机制能够采集不同实体产生的样本，体现不同实体间的合作关系，促使不同智能体向逐渐收敛到相同目标。

本实施例采样时并非将经验回放库中的所有样本统一计算权重并采样，而是不同智能体分别计算各自产生的样本的采样权重，并按照该权重值分别采集预先设定的数量的样本，用于更新网络参数。这种优先采样机制能够采集不同智能体产生的样本，体现不同智能体间的合作关系，促使不同智能体逐渐收敛到相同目标。

本实施例中，对Actor动作决策神经网络模型的网络参数进行更新的方法是：

步骤6.1：计算不同智能体产生的样本在对Actor网络训练时所产生的损失函数值，所述损失函数值为添加策略熵的损失函数值，

其中，

下标i表示第i个智能体，L_i表示第i个智能体的损失函数值，θ_i表示第i个智能体当前更新的新策略，

表示第i个智能体采样时使用的旧策略，L^CLIP(θ_i)表示使用标准PPO强化学习算法计算出来的第i个智能体的损失函数值，

表示第i个智能体在策略θ_i下的策略熵，ε是一个裁剪参数，

表示在策略θ_i下给定状态s_t,i后采取动作a_t,i的概率，p_t(θ_i)表示第i个智能体在新旧策略下产生样本(s_t,i,a_t,i)的概率分布比，A表示动作空间集，clip(x,x_MIN,x_MAX)为裁剪函数，x_MIN为x的最小值，x_MAX为x的最大值。

步骤6.2：根据每个智能体产生的样本在对Actor网络训练时所产生的损失函数值L_i后，经过反向传播，求解出Actor网络参数的更新梯度值J_Ai。

步骤6.3：将不同智能体所产生的样本计算的更新梯度值J_Ai进行加权，按照全局梯度公式分别计算出Actor网络下的全局梯度值为：

n表示智能体总数，w_i表示预先设定的智能体i对全局梯度计算的影响权重。

步骤6.4：根据Actor网络下的全局梯度值对Actor网络参数进行更新。

由于多机交战的策略与战术战法构成丰富、种类多样、风格多变，即便在有限动作空间下，依旧具有涌现出丰富战法的潜力。如果采用传统PPO算法的损失函数，会在一定程度上限制智能体的探索能力，如何在算法收敛速度与智能体探索能力之间权衡是值得思考的问题。因为本发明针对的问题背景是多机协同空战决策，主要强调不同实体间的配合协作，所以在计算损失函数时，使用一种添加策略熵的损失函数值，增加网络的探索能力，并适当减缓执行器网络的收敛速度。并且在计算损失函数时，不是直接计算全局损失，而是结合优先采样机制和经验共享机制，求解不同智能体各自产生的样本的损失值。相应地，其策略熵也单独计算。

对Critic动作评价神经网络模型的网络参数进行更新的方法是：

步骤6.5：计算样本在对Critic动作评价神经网络模型训练时所产生的损失函数值，所述损失函数值计算的具体方法为：

Loss^φ＝r_t+1+γV_φ(s_t+1)-V_φ(s_t)

Loss^φ表示在Critic的网络参数为φ的条件下，t时刻所有智能体的联合状态信息的损失函数值；

步骤6.6：计算Critic动作评价神经网络模型训练时所产生的损失函数值Loss^φ后，经过反向传播，求解出Critic动作评价神经网络的更新梯度值J_C；

步骤6.7：根据Critic动作评价网络下的更新梯度值J_C对Critic动作评价网络参数进行更新。

由于多机空战场景的状态、动作空间庞大，单个智能体能够探索的空间有限，样本使用效率不高。另外，作为典型的多智能体系统，多机协同空战问题中，单个智能体的策略不只取决于自身的策略和环境的反馈，同时还受到其他智能体的动作及与其合作关系的影响，所以设计经验共享机制，该机制包含共享样本经验库和共享网络参数两个方面。

所谓共享样本经验库，将待决策智能体的局部环境态势信息s_t，i、智能体的动作决策信息a_t，i、待决策智能体执行新动作后的环境态势信息s_t+1，i和环境针对该动作反馈的奖励值r_t+1，i按照四元组(s_t，i，a_t，i，s_t+1，i，r_t+1，i)的形式存储进经验回放库，每一个智能体的信息均按照该格式进行存储，每一个智能体的信息均按照该格式进行存储。

所谓共享网络参数，是指使用各智能体所能观测到的部分环境态势信息输入到深度强化学习网络模型中，所有智能体共享一套网络参数，在决策动作时考虑实体间的耦合关系，防止一个智能体的策略影响其他实体的策略，解决算法较难收敛的问题。本实施例中，使用一套网络参数得到所有智能体产生的训练样本。

本实施例中，在更新网络参数后，在新的策略下，不断添加新的样本进入经验回放库，对网络模型进行训练。若经验回放库中的样本数量达到上限，随机删除一定数量的样本后，继续循环。

步骤8：将当前待决策智能体的局部环境态势信息输入训练好的强化学习智能体的Actor网络，得到各待决策智能体的动作决策信息，将动作决策信息解码封装为各智能体的操作指令控制各智能体执行新的动作。使用本方法可以解决多机协同作战实体类型众多、状态和动作空间大、协同合作关系复杂程度高等问题，在有限的训练次数下达到良好的效果。

态势信息处理模块：用于接收仿真推演平台产生的未经过加工处理的战场环境态势信息，主要包括敌我战机的实时飞行参数以及对空导弹的实时飞行参数，并对这些信息数据进行进行预处理；预处理是指对这些信息数据进行清洗、筛选、提取、打包、归一化以及格式化表示，输出加工后的数据；

动作决策模块：用于根据预处理后的战场环境态势信息，将待决策的第i个智能体在t时刻的局部环境态势信息s_t，i输入Actor动作决策神经网络，得到每个待决策智能体的动作决策信息a_t，i，并将动作决策信息解码封装为各智能体的操作指令控制各智能体执行新的动作，i＝1...n，n为智能体的个数；

经验回放库存储模块：用于管理样本的产生、加工、存储与提取，将待决策智能体的局部环境态势信息s_t，i、智能体的动作决策信息a_t，i、待决策智能体执行新动作后的环境态势信息s_t+1，i和环境针对该动作反馈的奖励值r_t+1，i按照四元组(s_t，i，a_t，i，s_t+1，i，r_t+1，i)的形式存储进经验回放库；

动作预测模块：用于获取当前待决策智能体的局部环境态势信息输入训练好的深度强化学习网络训练模块中的Actor动作决策神经网络模型中，得到各待决策智能体的动作决策信息，将动作决策信息解码封装为各智能体的操作指令控制各智能体执行新的动作

下面通过实验来验证本发明所提方法的有效性。

一、各种规划方法对比

如图5所示，分别记录本发明的DRL-MACACDF模型、原始PPO算法模型、高级人类水平的模型与传统规划方法对战的得分曲线。其中，传统PPO算法也采用了“集中式训练-分布式执行”框架；传统规划方法采用的是人工势场避障算法与0-1规划相结合的规则模型；人类高级水平数据来源于第三届全国兵棋推演大赛决赛前三名选手的比赛模型的平均得分。

从图5中可以看出，随着训练次数的增多，DRL-MACACDF模型的得分曲线逐步上升，经过大约1000轮训练后，超越了传统规划方法水平。随着得分进一步上升，曲线大约在6000轮左右开始收敛，得分达到最大值，即无损失全歼敌方实体。相比而言，传统PPO算法效果较差，得分始终为负，远不及传统规划算法水平线。如表6，是DRL-MACACDF和传统PPO算法的实验数据统计。

表6算法有效性实验数据统计

性能参数	平均得分/分	得分标准差	平均胜率/％
				DRL-MACACDF	18.929	10.835	91.472
传统PPO	-21.179	1.698	0

从性能参数可以看出，在15000轮训练中，本发明提出的DRL-MACACDF算法胜率高达91.472％，而原始PPO算法胜率仅为0，性能结果对比十分鲜明。虽然DRL-MACACDF模型的得分标准差偏高，但实验发现，模型在经过训练后，对战能力迅速提升，比赛得分快速变化，所以造成了高标准差。当经过6000轮训练，DRL-MACACDF模型开始收敛后，重新计算DRL-MACACDF模型的得分标准差则仅有1.313，反映出该模型性能稳定，波动较小。实验结果证明，未加改进且缺乏专家经验的传统PPO算法难以解决多机协同对抗决策问题，算法效果比传统规划算法效果还差。相较而言，本发明提出的DRL-MACACDF算法及决策框架，实验效果超过了传统强化学习算法和传统规划算法，性能良好且效果稳定，验证了算法框架的有效性。

二、消融实验

在本发明中，包含四种针对多机协同对抗对策问题背景的改进机制，为研究不同机制对算法性能的影响，设计消融实验，通过在原始PPO算法上增减四种改进机制，比较不同模型效果。经过简单试验，在未使用嵌入式专家经验奖励机制的情况下，不同模型得分都很低，其他机制对算法性能的影响效果并不明显，难以比较性能差异。因此消融实验改为在DRL-MACACDF模型基础上分别去除某一机制，根据实验结果，间接比较不同机制的作用。四种对比算法的设置如表7所示。

表7消融实验设置

表中，DRL-MACCDF-R表示在本发明模型DRL-MACCDF的基础上不考虑嵌入式专家经验奖励机制的模型，DRL-MACCDF-A经验共享机制的模型，DRL-MACCDF-S表示在本发明模型DRL-MACCDF的基础上不考虑自适应权重和优先采样机制的模型，DRL-MACCDF-E表示在本发明模型DRL-MACCDF的基础上不考虑鼓励探索机制的模型。

如图6是消融实验算法性能对比曲线，在传统PPO算法基础上增加四种增强机制对实验性能均有一定程度的提高，由于作用机制不同，其影响程度也存在差别。具体来看，未添加嵌入式专家经验奖励机制的模型性能最差，仅稍优于传统PPO算法水平，所以说专家经验在强化学习中的指导意义巨大，可以给实验性能带来显著提升；未添加经验共享机制的模型与原始DRL-MACACDF模型学习曲线大致相当，但收敛速度相对较慢，且最终收敛得分稍低；无自适应权重及优先采样机制和无鼓励探索机制的模型性能依次降低，其中未添加鼓励探索机制的DRL-MACACDF-E模型前期性能提升较快，但大约在6000轮左右就开始收敛并陷入局部最优，最终落后于DRL-MACACDF-S曲线，不包含自适应权重及优先采样机制的DRL-MACACDF-S模型，前期收敛速度很慢，但模型性能一直在提高，训练到10000轮左右时，反超DRL-MACACDF-E模型。表8统计了四个对比算法相较于传统PPO算法平均得分提高的百分比。

表8消融实验数据统计

消融实验验证，在解决本实施例设计的3v3多机协同空战背景的问题时，本发明提出的DRL-MACACDF算法框架中添加的四种创新增强机制均能提高算法性能，适用于解决多机协同空战决策问题。

三、算法效率分析

算法效率的高低是评价算法优劣的重要指标，模型训练过程中的累计胜率曲线，反映了算法的学习效率，其导数为正值时，代表模型性能正在提高，胜利次数不断增多，曲线斜率越大，则学习效率越高。如图7可以看出，实验开始时算法更新迅速，模型性能提升较快，经过2500轮左右的训练，累计胜率就达到了50％，至6000轮左右时，已经基本完成训练，更新效率开始下降，模型趋于收敛。

进一步，分别抽取经过500轮、1000轮、2000轮、5000轮以及10000轮训练的模型进行交叉对抗，统计100局对抗的平均胜率，绘制胜率分布图如图8。从图8的渐变可以看出，随着训练进行，模型性能有着明显的变化趋势，以最左侧列为例，从500轮训练增加到1000轮训练，新模型就能以高达90.1％的概率赢得胜利，相较于传统强化学习算法，本发明提出的模型能够以很快的速度提升决策能力，随着训练次数增加，模型基本上能以将近100％的概率获胜。当训练从5 000轮增加到10 000轮，模型仅有53.6％的概率获胜，此时胜负基本上是按照相等概率随机分布的。这说明当达到最优解时，模型收敛稳定，且性能没有过大幅度的波动。

四、行为分析

复盘实验数据，总结交战过程中DRL-MACACDF模型涌现出的作战意图、策略、战术与战法。

1)双机与三机编队战术

智能体涌现出自主编队能力，如图9、图10所示，从基地起飞后，智能体会随机采取双机编队或者三机编队前往作战区域，当使用双机编队时，通常智能体会选择从南北两路分别前往作战区域包围敌方飞机，而采用三机编队时，智能体更倾向于从中路挺进，高速机动至交战区主动迎敌。

2)包夹战术

如图11所示，在与敌方飞机对抗时，智能体常常会使用包夹战术，两架战斗机同时从两个方向对敌方飞机发起攻击，充分发挥飞机数量优势，与敌方战机进行缠斗。这种包夹战术表明智能体已经具备控制多机，探索和实现复杂战法的能力。

3)充分发挥武器射程优势

如图12所示，经过训练的智能体学会充分利用武器的有效射程，在敌方飞机进入导弹射程后，立即发射导弹进行攻击，随后调头脱离敌方飞机攻击范围。如果导弹未击落敌机，则再次靠近敌方飞机，重新组织进攻。该战术动作既能有效节约弹药，充分发挥导弹效能，又能最大限度减少己方伤亡。4)快速机动避弹动作

如图13所示，经过仔细复盘战斗机空战中的机动动作，发现智能体的行为涌现出一种明显的快速机动主动避弹的战术动作。当敌方导弹临近己方战斗机时，战斗机会迅速向垂直于导弹瞄准基线的方向机动，之后再重新飞往目标点。采用突然变向的战术动作，大幅降低了战机被击落的概率，经过统计，初始模型中击落一架战机平均需要1-2枚弹，使用经过训练的智能体进行避弹，平均需要4-5枚弹。

5)诱骗敌方弹药战法

另一个明显的战法是诱骗敌方弹药，如图14所示，智能体控制多架战机在敌方火力范围边界试探，引诱敌方进行攻击，当探测到敌方发射导弹对己方飞机攻击后，会机动至敌方攻击范围外，超出敌方导弹射程，待失去导弹攻击的威胁后，会再次进入敌方火力覆盖范围。该策略可以同时控制多架战机诱骗敌方弹药，能够在短时间内大量消耗敌方导弹。

针对多机协同空战决策的问题背景，本发明提出了一种“集中式训练-分布式执行”的多机协同空战决策框架，该框架内置深度强化学习模块，并针对多机空战场景的特点，设计嵌入专家经验的奖励函数、自适应权重的优先采样机制、经验共享机制、鼓励探索的策略熵机制，针对性提高了多机协同对抗场景下深度强化学习算法的效果，有效解决了多机协同空中作战实体类型众多、状态和动作空间巨大、协同合作关系复杂程度高等问题。实验结果证明，本发明方法相较于传统规划算法和PPO算法具有明显优势，进一步，消融实验验证四种性能提升机制都不同程度上增强了算法性能，并且算法效率较高，能在有限的训练次数下达到良好的效果。模型在训练过程中涌现出的大量鲜明的战术战法表明，本发明决策流程框架具有良好的探索能力，能充分挖掘、利用多机空战场景下，不同实体间协同合作的机制以及合作与竞争的战术战法，在战场辅助决策领域具有巨大的应用价值。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于深度强化学习的多机协同空战规划方法，其特征在于，包括以下步骤：

步骤2：将战机视为一个个智能体，使用仿真推演平台产生战场环境态势信息，所述战场态势信息包括敌我战机的实时飞行参数以及对空导弹的实时飞行参数，对所输入的战场环境态势信息进行预处理；

步骤8：将当前待决策智能体的局部环境态势信息输入训练好的强化学习智能体的Actor网络，得到各待决策智能体的动作决策信息，将动作决策信息解码封装为各智能体的操作指令控制各智能体执行新的动作；

步骤4中所述奖励值指的是使用嵌入专家经验奖励机制，奖励函数为：

r＝(1-τ)·score_total+τ·score_encourage

其中：

score_encourage＝dis_cur-dis_next

score_total为传统奖励项，根据推演事件的得分来决定的，score_encourage为基于专家经验的额外奖励项，dis_cur表示当前时刻智能体距离目标点的距离，dis_next表示下一时刻智能体距离目标点的距离，τ是衰减系数，随着训练的进行，该值按照公式τ＝(τ-τ_step)/τ_temp逐渐减小，τ_step是递减步长，τ_temp是衰减基数。

2.根据权利要求1所述的规划方法，其特征在于，步骤6中从经验回放库中选择一批样本数据的选择方法是：

其中，j表示样本排序序号，P_j就是第j号样本的采样权重，N表示一个智能体包含的样本数量，所述优势值的计算公式为：

表示第i个智能体在t时刻产生的样本的优势值，φ表示Critic网络的参数，V_φ(s_t，i)表示Critic网络对第i个智能体在t时刻的状态s_t，i的评价值，r_t，i表示第i个智能体在t时刻获得的环境奖励，γ表示折扣因子，T表示本局仿真推演结束时刻；

3.根据权利要求2所述的规划方法，其特征在于，步骤6中对Actor动作决策神经网络进行网络参数更新的方法是：

其中，

表示第i个智能体采样时使用的旧策略，L^CLIP(θ_i)表示使用标准PP0强化学习算法计算出来的第i个智能体的损失函数值，

表示第i个智能体在策略θ_i下的策略熵，ε是一个裁剪参数，

表示在策略θ_i下给定状态s_t，i后采取动作a_t，i的概率，p_t(θ_i)表示第i个智能体在新旧策略下产生样本(s_t，i，a_t，i)的概率分布比，A表示动作空间集，clip(x，x_MIN，x_MAX)为裁剪函数，x_MIN为x的最小值，x_MAX为x的最大值；

步骤6.2：根据每个智能体产生的样本在对Actor网络训练时所产生的损失函数值L_i后，经过反向传播，求解出Actor网络参数的更新梯度值J_Ai；

n表示智能体总数，w_i表示预先设定的智能体i对全局梯度计算的影响权重；

4.根据权利要求3所述的规划方法，其特征在于，步骤6中对Critic动作评价神经网络进行网络参数更新的方法是：

Loss^φ＝r_t+1+γV_φ(s_t+1)-V_φ(s_t)

5.一种基于深度强化学习的多机协同空战规划系统，其特征在于，包括以下模块：

态势信息处理模块：用于接收仿真推演平台产生的未经过加工处理的战场环境态势信息，所述战场态势信息包括敌我战机的实时飞行参数以及对空导弹的实时飞行参数，并对这些信息数据进行预处理；

动作决策模块：用于根据预处理后的战场环境态势信息，将待决策的第i个智能体在t时刻的局部环境态势信息s_t，i输入Actor动作决策神经网络，得到每个待决策智能体的动作决策信息a_t，i，并将动作决策信息解码封装为各智能体的操作指令控制各智能体执行新的动作，i＝1...n，n为智能体的数量；

经验回放库存储模块：用于管理样本的产生、加工、存储与提取，将待决策智能体的局部环境态势信息s_t，i、智能体的动作决策信息a_t，i、待决策智能体执行新动作后的环境态势信息s_t+1，i和环境针对该动作反馈的奖励值r_t+1，i按照四元组(s_t，i，a_t，i，s_t+1，i，r_t+1，i)的形式存储进经验回放库；所述奖励值指的是使用嵌入专家经验奖励机制，奖励函数为：

r＝(1-τ)·score_total+τ·score_encourage

其中：

score_encourage＝dis_cur-dis_next

score_total为传统奖励项，根据推演事件的得分来决定的，score_encourage为基于专家经验的额外奖励项，dis_cur表示当前时刻智能体距离目标点的距离，dis_next表示下一时刻智能体距离目标点的距离，τ是衰减系数，随着训练的进行，该值按照公式τ＝(τ-τ_step)/τ_temp逐渐减小，τ_step是递减步长，τ_temp是衰减基数；

深度强化学习网络训练模块：用于从经验回放库存储模块中采集每个智能体所产生的一批样本，计算各样本的损失函数和网络参数的更新梯度，将同一时刻的各智能体的环境态势信息作为全局环境态势信息输入到Critic动作评价神经网络进行网络参数更新，将各智能体的局部环境态势信息输入到Actor动作决策神经网络进行网络参数更新；