CN115222199B

CN115222199B - 一种基于胜率预测的空战关键节点确定方法和装置

Info

Publication number: CN115222199B
Application number: CN202210609620.XA
Authority: CN
Inventors: 张�诚; 金磊; 郭子昌; 朱思奇; 朱燎原; 刘会斌
Original assignee: CETC 52 Research Institute
Current assignee: CETC 52 Research Institute
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2023-11-14
Anticipated expiration: 2042-05-31
Also published as: CN115222199A

Abstract

本发明公开了一种基于胜率预测的空战关键节点确定方法和装置，方法包基于多局空战仿真推演的全局势态数据得到样本集；基于每一局空战仿真推演中对战双方的胜负情况为样本集中对应的每一时刻的全局势态数据添加标签；根据全局势态数据的特征构建深度学习网络，设置深度学习网络输出为胜负概率，利用带标签的样本集训练深度学习网络得到胜率预测模型；将实际应用下空战仿真推演的实时全局势态数据输入胜率预测模型，得到实时胜负概率，将与前一时刻的胜负概率的差值绝对值大于阈值的当前时刻确定为关键节点。本发明基于胜率预测筛选出空战训练过程中的关键节点，避免训练评估人员长时间低效回放训练过程数据，可有效提高空战训练评估效率。

Description

一种基于胜率预测的空战关键节点确定方法和装置

技术领域

本发明属于空战势态分析技术领域，具体涉及一种基于胜率预测的空战关键节点确定方法和装置。

背景技术

现代空战中，机载武器作战效能及飞行员作战能力的充分发挥是克敌制胜的关键，世界各主要军事强国历来非常重视空战的战术对抗训练及考核。随着科学技术特别是计算机技术的发展，先后开发了多个系列的空中对抗训练系统，不但功能、性能要求越来越苛刻，而且效能越来越贴近实战要求。近些年来，训练评估成为军事训练活动一个不可或缺的重要环节。

由于空战对抗活动极具复杂性，无论是实战训练评估还是空战系统仿真训练评估，大多数情况下是由训练评估人员根据对战回放数据进行评估，耗时巨大且无法迅速发现关键节点。目前国内外对于空战训练评估的研究更多是侧重于训练评估方法，而对于如何缩短评估时效、快速发现关键节点的研究较少。因此，迫切需要开展关于如何有效缩短训练评估时间、提高评估效率的研究。

发明内容

本发明的目的之一在于提供一种基于胜率预测的空战关键节点确定方法，基于胜率预测筛选出空战训练过程中的关键节点，避免训练评估人员长时间低效回放训练过程数据，可有效提高空战训练评估效率。

为实现上述目的，本发明所采取的技术方案为：

一种基于胜率预测的空战关键节点确定方法，所述基于胜率预测的空战关键节点确定方法，包括：

获取空战仿真推演中每一时刻的全局势态数据直至当局仿真推演结束，基于多局空战仿真推演的全局势态数据得到样本集；

基于每一局空战仿真推演中对战双方的胜负情况为样本集中对应的每一时刻的全局势态数据添加标签；

根据全局势态数据的特征构建深度学习网络，设置深度学习网络输出为胜负概率，利用带标签的样本集训练深度学习网络得到胜率预测模型；

将实际应用下空战仿真推演的实时全局势态数据输入所述胜率预测模型，得到胜率预测模型输出的实时胜负概率，将与前一时刻的胜负概率的差值绝对值大于阈值的当前时刻确定为关键节点。

以下还提供了若干可选方式，但并不作为对上述总体方案的额外限定，仅仅是进一步的增补或优选，在没有技术或逻辑矛盾的前提下，各可选方式可单独针对上述总体方案进行组合，还可以是多个可选方式之间进行组合。

作为优选，所述获取空战仿真推演中每一时刻的全局势态数据直至当局仿真推演结束，基于多局空战仿真推演的全局势态数据得到样本集，包括：

开始一局空战仿真推演，获取空战仿真推演中每一时刻的全局势态数据；

对获取的全局势态数据进行筛选，剔除与局势评估无关的态势数据，得到筛选后的全局势态数据；

当局空战仿真推演结束时，记录该局对战双方的胜负情况，将胜负情况与该局所有时刻的全局态势数据关联；

判断当前的全局势态数据数量是否满足深度学习网络训练需求，若不满足则重复开始空战仿真推演并获取全局势态数据；若满足则输出作为样本集。

作为优选，所述基于每一局空战仿真推演中对战双方的胜负情况为样本集中对应的每一时刻的全局势态数据添加标签，包括：

对样本集中所有全局势态数据进行归一化预处理；

获取每一局空战仿真推演中对战双方的胜负情况，对该局所有时刻的归一化预处理后的全局势态数据添加标签，所述标签采用胜率形式，即标签为[a,b]，若a对应的对战方胜利则置a为1，否则置a为0；若b对应的对战方胜利则置 b为1，否则置b为0。

作为优选，所述根据全局势态数据的特征构建深度学习网络，设置深度学习网络输出为胜负概率，包括：

取深度学习网络为LSTM模型，所述LSTM模型包含输入层、全连接层、 LSTM层、SoftMax层和输出层，且设置SoftMax层的输入向量维度为2，则 SoftMax层的输出为两个0到1之间的数，且两个数的和为1。

作为优选，所述阈值采用最大类间方差法确定，阈值确定过程如下：

将样本集中属于同一局仿真推演的全局势态数据输入胜率预测模型中，得到胜率预测模型输出的每一时刻的胜负概率；

取胜负概率中同一对战方的胜率数据，基于胜率数据计算相邻时刻的胜率差值绝对值；

取胜率差值绝对值中的最大值和最小值，从最小值开始以固定增量取预选阈值直至取至最大值；

基于预选阈值计算关键事件和非关键事件之间的类间方差；

比较基于所有预选阈值计算得到的类间方差，选取类间方差最大的预选阈值作为最终确定的阈值。

作为优选，所述基于预选阈值计算关键事件和非关键事件之间的类间方差，包括：

将一局仿真推演中与前一时刻的胜率差值绝对值大于预选阈值的当前时刻确定为关键事件，其他时刻确定为非关键事件；

计算关键事件和非关键事件之间的类间方差g为：

g＝w₀×w₁×(u₀-u₁)²

式中，w₀、w₁分别为关键事件的数量和非关键事件的数量在一局仿真推演所有时刻的数量中的占比，u₀、u₁分别为关键事件和非关键事件中所有胜率差值绝对值的均值。

本发明的基于胜率预测的空战关键节点确定方法，在空战过程中对战局双方的胜率预测是实时的，从战局开始至对战结束都在前端显示了对当前局势的胜率预测，在胜率预测中使用深度学习模型对态势分析进行胜率预测，深度学习模型可以挖掘数据的深层特征，在大维度的全局态势中找寻出真正影响胜率的关键因素，并且基于实时的胜率预测分析当前全局势态数据中存在的关键节点，实时提取出关键节点以便于复盘。

本发明的目的之二在于提供一种基于胜率预测的空战关键节点确定装置，基于胜率预测筛选出空战训练过程中的关键节点，避免训练评估人员长时间低效回放训练过程数据，可有效提高空战训练评估效率。

为实现上述目的，本发明所采取的技术方案为：

一种基于胜率预测的空战关键节点确定装置，包括处理器以及存储有若干计算机指令的存储器，所述计算机指令被处理器执行时实现所述基于胜率预测的空战关键节点确定方法的步骤。

附图说明

图1为本发明基于胜率预测的空战关键节点确定方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是在于限制本发明。

本实施例提出了一种基于胜率预测的空战关键节点(也称关键事件节点) 确定方法，该方法的具体分为训练和应用两部分，需要先进行训练部分获取胜率预测模型并确定关键节点判断的阈值再进行推理应用部分。

为了更清晰地说明本发明的技术方案，如图1所示，以空战仿真推演为例，具体说明本发明的技术方案实现，且能体现本发明方法具有良好的泛化能力。

以空战仿真推演为例，本发明训练部分的步骤如下：

步骤1、获取空战仿真推演中每一时刻的全局势态数据直至当局仿真推演结束，基于多局空战仿真推演的全局势态数据得到样本集。

为了保证全局势态数据获取的完整性和全面性，本实施例以每一局仿真推演为单位进行数据获取，具体或者过程如下：

1)空战仿真推演开始，从事先设置的全局态势获取接口保存实时获取的全局态势数据；全局态势数据包括当前时刻对战双方所有的飞机、导弹、雷达等相关参数。

2)对实时获取的全局态势数据进行筛选，剔除与局势评估(即胜负状态) 无关的全局态势数据，并对筛选完成后的全局态势数据进行实时保存；本实施例筛选对胜率有影响的态势数据，例如飞机速度、航向角、俯仰角、相对敌方距离，导弹速度、航向角、开眼状态等。

3)当一局仿真推演结束时，记录该局对战双方的胜负情况，将胜负情况与该局的所有时刻筛选后的全局态势数据一并保存。

4)判断当前的全局势态数据数量是否满足深度学习网络训练需求，若不满足重复步骤1、2、3，重复开始空战仿真推演并获取全局势态数据；若满足则输出数据作为样本集。

步骤2、基于每一局空战仿真推演中对战双方的胜负情况为样本集中对应的每一时刻的全局势态数据添加标签。

1)由于深度学习模型对输入数据范围有所要求，若不同位置的数据范围不一致，会导致模型收敛缓慢，甚至不收敛的情况发生，因此对数据的预处理是必要的。本实施例在使用数据之前对保存的所有对局的每一时刻全局态势数据进行预处理。

本实施例中的预处理采用的是归一化的方式，先统计所有采集的原始全局态势数据obs_org每一维度的最大值与最小值，将所有的最大最小值组成态势最大值向量obs_max和态势最小值向量obs_min，归一化的预处理方式如下：

经过归一化预处理后的全局态势向量obs_nor所有数据都会在[0,1]之间，用归一化后的数据训练可以使得模型更快收敛。

2)作为样本集必不可少的是为数据添加标签，本实施例获取每一局空战仿真推演中对战双方的胜负情况，对该局所有时刻的归一化预处理后的全局势态数据添加标签，所述标签采用胜率形式，即标签为[a,b]，若a对应的对战方胜利则置a为1，否则置a为0；若b对应的对战方胜利则置b为1，否则置b为0。

即本实施例中标签采用胜率的形式，即若此局蓝方战败红方胜利，则该局所有时刻的态势数据标签都置为[0,1]，若此局红方战败蓝方胜利，则该局所有时刻的态势数据标签都置为[1,0]。

步骤3、根据全局势态数据的特征构建深度学习网络，设置深度学习网络输出为胜负概率，利用带标签的样本集训练深度学习网络得到胜率预测模型。

本实施例中的深度学习网络采用的是LSTM模型。其具有的输入门、输出门、遗忘门结构设计可以保证数据在同一层之间的有效传输，解决了梯度消失的问题。模型网络结构包含输入层，全连接层，LSTM层、SoftMax层和输出层。

在模组中数据经过SoftMax层后，所有的数据都会归一化至0到1之间，且所有数据的和为1。设置SoftMax层的输入向量维度为2，因此SoftMax层的输出为两个0到1之间的数，且两个数的和为1，符合对战双方胜率的数据格式，与设置的数据标签也能对应。

在利用带标签的样本集训练深度学习网络时，将所有态势数据打乱顺序，并分为数量大小相同的不同批次，本实施例选取批次的大小为128，按批次将样本集中的全局态势数据输入网络，采用交叉熵损失函数对比评估网络输出与对应标签之间的差距，并在损失函数中添加L2正则化项，防止网络模型过拟合，使得模型更具泛化性，能够在未曾训练过得空战场景也具有较好的性能表现。添加L2正则化项后的损失函数如下：

其中LOSS为最终损失函数值，loss为交叉熵损失函数值，α为可调节的超参数，本实施例选取的值为0.001，w为网络模型中的权重。

按照梯度反向传播算法更新网络模型参数，对网络模型进行训练。重复向网络中输入训练数据，直至训练循环次数达到设置数量，完成网络模型训练，得到胜率预测模型，至此胜率预测模型训练完成。

由于在推理应用中需要基于阈值确定关键节点，因此在训练部分需要事先根据样本集中的数据确定阈值，本实施例阈值采用最大类间方差法确定。本实施例中阈值确定过程如下：

a、将样本集中属于同一局仿真推演的全局势态数据输入胜率预测模型中，得到胜率预测模型输出的每一时刻的胜负概率。

b、取胜负概率中属于同一对战方的胜率数据，基于胜率数据计算相邻时刻的胜率差值绝对值。由于对战双方中前后时刻胜率变化绝对值是一样的，因此本实施例中取对战双方中的一方的胜率数据进行计算即可。

c、取胜率差值绝对值中的最大值和最小值，从最小值开始以固定增量取预选阈值直至取至最大值。在阈值确定中首先设定若干个预选阈值，后从预选阈值中筛选出最适合的数据作为阈值。若最小值为0.1，最大值为0.5，固定增量为0.05，则所取的预选阈值为0.1，0.15，0.2，…，0.45，0.5。

d、基于预选阈值计算关键事件和非关键事件之间的类间方差。

将用于训练胜率预测模型的全局态势数据输入至胜率预测模型，得到对局的胜率变化曲线，统计相邻时刻输出的预测胜率差的绝对值。本实施例采用阈值法对关键节点进行判定，计算当前时刻与上一时刻的预测胜率差值绝对值，认定绝对值大于阈值的时刻为影响胜负的关键时间节点。

本实施例将将所有时刻发生的事件分为关键事件和非关键事件两类。具体将一局仿真推演中与前一时刻的胜率差值绝对值大于预选阈值的当前时刻确定为关键事件，其他时刻确定为非关键事件。

计算关键事件和非关键事件之间的类间方差g为：

g＝w₀×w₁×(u₀-u₁)²

式中，w₀、w₁分别为关键事件的数量和非关键事件的数量在一局仿真推演所有时刻的数量中的占比，也可理解为事件发生概率，u₀、u₁分别为关键事件和非关键事件中所有胜率差值绝对值的均值。

e、比较基于所有预选阈值计算得到的类间方差，选取类间方差最大的预选阈值作为最终确定的阈值。类间方差最大时，认为两个类别之前的区分度最大。

以空战仿真推演为例，该发明推理应用部分的步骤如下：

将实际应用下空战仿真推演的实时全局势态数据输入胜率预测模型，得到胜率预测模型输出的实时胜负概率，将与前一时刻的胜负概率的差值绝对值大于阈值的当前时刻确定为关键节点。具体步骤如下：

1)空战仿真引擎初始化，根据战术决策初始化智能体单元控制飞机，开始仿真战术推演。

2)从事先设置的全局态势获取接口保存实时获取的全局态势数据。

3)将获取的全局态势数据先后进行筛选和预处理。

4)将筛选和预处理后的全局态势数据输入训练完成的胜率预测模型，计算前后时刻胜率差的绝对值，与训练部分得出的关键节点阈值v对比，当前后时刻胜率差的绝对值大于阈值v时，认为该时刻为影响空战战局的关键节点，并更新至前端显示界面。

容易理解的是，在推理应用部分，也可仅区对战双方中的一方的胜率预测数据进行关键节点确认。

5)重复步骤2、3、4，直至该局结束，实现空战实时关键节点确定。

本实施例提供了一种在空战过程中，能够实时确定空战关键节点的方法。目前公开的针对空战的关键节点确定方法还比较缺失，且没有针对空战的胜率预测方法，本方案能够处理复杂空战战局态势信息，并进行分析处理提取关键特征，输出实时胜率，实时性高，能够实时地展现战场局势变化。现有的针对游戏的胜率预测，部分是在游戏角色阵容选择完成后，对阵容的胜率进行评估，部分是在玩家进行选择决策时，针对玩家的决策和当前场景进行胜率预测，都不具备实时性。

本方法在预测胜率的基础上，还增加了关键节点的确定，基于最大类间方差法的关键节点确定方法，能够实时确定该时刻是否是影响空战战局的关键节点，使得空战过程展现的更加清晰直接。

在另一个实施例中，本申请还提供了一种基于胜率预测的空战关键节点确定装置，包括处理器以及存储有若干计算机指令的存储器，所述计算机指令被处理器执行时实现所述基于胜率预测的空战关键节点确定方法的步骤。

关于基于胜率预测的空战关键节点确定装置的具体限定可以参见上文中对于基于胜率预测的空战关键节点确定方法的限定，在此不再赘述。

存储器和处理器之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件互相之间可以通过一条或多条通讯总线或信号线实现电性连接。存储器中存储有可在处理器上运行的计算机程序，所述处理器通过运行存储在存储器内的计算机程序，从而实现本发明实施例中的方法。

其中，所述存储器可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。其中，存储器用于存储程序，所述处理器在接收到执行指令后，执行所述程序。

所述处理器可能是一种集成电路芯片，具有数据的处理能力。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)等。可以实现或者执行本发明实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明的保护范围应以所附权利要求为准。

Claims

1.一种基于胜率预测的空战关键节点确定方法，其特征在于，所述基于胜率预测的空战关键节点确定方法，包括：

将实际应用下空战仿真推演的实时全局势态数据输入所述胜率预测模型，得到胜率预测模型输出的实时胜负概率，将与前一时刻的胜负概率的差值绝对值大于阈值的当前时刻确定为关键节点；

其中，所述基于每一局空战仿真推演中对战双方的胜负情况为样本集中对应的每一时刻的全局势态数据添加标签，包括：

对样本集中所有全局势态数据进行归一化预处理；

获取每一局空战仿真推演中对战双方的胜负情况，对该局所有时刻的归一化预处理后的全局势态数据添加标签，所述标签采用胜率形式，即标签为[a,b]，若a对应的对战方胜利则置a为1，否则置a为0；若b对应的对战方胜利则置b为1，否则置b为0；

其中，所述根据全局势态数据的特征构建深度学习网络，设置深度学习网络输出为胜负概率，包括：

取深度学习网络为LSTM模型，所述LSTM模型包含输入层、全连接层、LSTM层、SoftMax层和输出层，且设置SoftMax层的输入向量维度为2，则SoftMax层的输出为两个0到1之间的数，且两个数的和为1；

其中，所述阈值采用最大类间方差法确定，阈值确定过程如下：

基于预选阈值计算关键事件和非关键事件之间的类间方差；

比较基于所有预选阈值计算得到的类间方差，选取类间方差最大的预选阈值作为最终确定的阈值；

其中，所述基于预选阈值计算关键事件和非关键事件之间的类间方差，包括：

计算关键事件和非关键事件之间的类间方差g为：

g＝w₀×w₁×(u₀-u₁)²

2.如权利要求1所述的基于胜率预测的空战关键节点确定方法，其特征在于，所述获取空战仿真推演中每一时刻的全局势态数据直至当局仿真推演结束，基于多局空战仿真推演的全局势态数据得到样本集，包括：

3.一种基于胜率预测的空战关键节点确定装置，包括处理器以及存储有若干计算机指令的存储器，其特征在于，所述计算机指令被处理器执行时实现权利要求1至权利要求2中任意一项所述方法的步骤。