CN116956758B

CN116956758B - 基于对抗过程仿真模型的策略收益预测方法和装置

Info

Publication number: CN116956758B
Application number: CN202311224859.6A
Authority: CN
Inventors: 李冬雪; 彭渊; 曹扬; 吴京辉; 赵思聪; 胡瑞雪
Original assignee: Beijing Aerospace Chenxin Technology Co ltd
Current assignee: Beijing Aerospace Chenxin Technology Co ltd
Priority date: 2023-09-21
Filing date: 2023-09-21
Publication date: 2024-02-02
Anticipated expiration: 2043-09-21
Also published as: CN116956758A

Abstract

本申请提供了一种基于对抗过程仿真模型的策略收益预测方法和装置，属于人工智能技术领域。本申请实施例通过对无人机攻防对抗数据进行采样，能够得到多个训练样本，进而利用多个训练样本，对初始深度神经网络进行训练，得到准确反映无人机博弈对抗过程的对抗过程仿真模型，进而在对抗过程仿真模型实际应用时，通过将目标无人机攻防双方各自对应的当前群体策略信息、当前个体策略信息和当前个体状态信息输入对抗过程仿真模型，能够在短时间内快速预测出目标无人机攻防双方对应的目标策略收益和至少一个目标事件，有效满足无人机攻防对抗紧急情况下攻防策略收益计算的即时性和快速性需求。

Description

基于对抗过程仿真模型的策略收益预测方法和装置

技术领域

本申请涉及人工智能技术领域，特别是涉及一种基于对抗过程仿真模型的策略收益预测方法和装置。

背景技术

近年来，伴随着航空、电子信息技术以及控制理论的不断发展，无人机领域被各国所重视，无人机技术得到长足发展，在各领域越来越受重视。伴随着无人机所涉及的应用领域增加，无人机带来的安全威胁也逐渐增加。例如在机场、监狱、水（核）电站、重要会议、大型集会和体育赛事等重要场所，由于场所安全性等要求，对无人机往往会采取禁飞措施。

当未经许可的无人机进入重要场所后，需要对无人机进行反制和追捕，减少其带来的风险和损失。除了无线电干扰、诱骗控制等反制手段外，还有使用大型无人机、小型无人机集群进行拦截捕获、直接摧毁等方式，这就涉及到双方无人机攻防对抗，攻防双方都会采用相应策略来达到各自的目的，例如，攻击方有二拦一、三拦一等拦截策略，防御方也有降低、升空、快速返航等逃逸策略。因此，在攻防双方博弈对抗过程中，快速计算某个攻击策略和防御策略给双方带来的博弈收益，对双方进行策略选择具有重要指导意义。

作为攻击方，在真正实施策略前，通常会使用仿真的方法来对双方攻防策略对抗的过程和结果进行提前推演，来验证攻击方策略的正确性。然而，目前的仿真系统中通常基于信号级或功能级的攻防双方无人机仿真模型，结合攻防双方无人机的数量、类型、采取的策略等设定，按照时间顺序去对攻防双方无人机仿真模型的对抗过程进行逐帧推演，该种方式速度慢、效率低，而无人机反制通常属于紧急情况，需要在很短的时间内快速得到对抗结果，这种传统的仿真方式难以满足无人机攻防对抗推演的快速性要求。

发明内容

本申请提供一种基于对抗过程仿真模型的策略收益预测方法和装置，以解决传统仿真推演方法存在的速度慢、效率低的问题。

为了解决上述问题，本申请采用了以下的技术方案：

第一方面，本申请实施例提供了一种基于对抗过程仿真模型的策略收益预测方法，所述方法包括：

获取目标无人机攻防双方各自对应的当前群体策略信息、当前个体策略信息和当前个体状态信息；

将所述当前群体策略信息、所述当前个体策略信息和所述当前个体状态信息输入对抗过程仿真模型，输出得到所述目标无人机攻防双方对应的目标策略收益和至少一个目标事件；所述目标策略收益包括攻击方策略收益和防御方策略收益；

其中，所述对抗过程仿真模型通过以下方式训练得到：

对无人机攻防对抗数据进行采样，得到样本数据集；所述样本数据集包括多个训练样本；多个所述训练样本为标注有各自对应的无人机攻防双方的真实事件和真实策略收益的样本数据；

基于多个所述训练样本，对初始深度神经网络进行训练，得到所述对抗过程仿真模型。

在本申请一实施例中，所述初始深度神经网络包括初始特征提取网络和初始预测网络；

基于多个所述训练样本，对初始深度神经网络进行训练，得到所述对抗过程仿真模型的步骤，包括：

针对任一所述训练样本，将所述训练样本对应的群体策略信息、个体策略信息和个体状态信息输入所述初始特征提取网络，输出得到综合特征向量；

将所述综合特征向量输入所述初始预测网络，输出得到针对无人机攻防双方的预测事件和预测策略收益；

基于所述预测事件和所述训练样本对应的真实事件，确定第一损失值；并基于所述预测策略收益和所述训练样本对应的真实策略收益，确定第二损失值；

基于所述第一损失值和所述第二损失值，对所述初始特征提取网络和所述初始预测网络的网络参数进行更新，并执行针对任一所述训练样本，将所述训练样本对应的群体策略信息、个体策略信息和个体状态信息输入所述初始特征提取网络，输出得到综合特征向量的步骤，直到所述初始深度神经网络满足训练截止条件，得到所述对抗过程仿真模型。

在本申请一实施例中，所述初始特征提取网络包括群体策略特征提取子网络、个体策略特征提取子网络和个体状态特征提取子网络；

将所述训练样本对应的群体策略信息、个体策略信息和个体状态信息输入所述初始特征提取网络，输出得到综合特征向量的步骤，包括：

将所述训练样本对应的群体策略信息和个体策略信息输入所述群体策略特征提取子网络，输出得到群体策略特征向量；

将所述训练样本对应的个体策略信息输入所述个体策略特征提取子网络，输出得到个体策略特征向量；

将所述训练样本对应的个体状态信息输入所述个体状态特征提取子网络，输出得到个体状态特征向量；

对所述群体策略特征向量、所述个体策略特征向量和所述个体状态特征向量进行特征融合操作，得到所述综合特征向量。

在本申请一实施例中，所述初始预测网络包括事件序列预测子网络和策略收益预测子网络；

将所述综合特征向量输入所述初始预测网络，输出得到针对无人机攻防双方的预测事件和预测策略收益的步骤，包括：

将所述综合特征向量输入所述事件序列预测子网络，输出得到针对无人机攻防双方的预测事件；

将所述综合特征向量输入所述策略收益预测子网络，输出得到针对无人机攻防双方的预测策略收益。

在本申请一实施例中，对所述群体策略特征向量、所述个体策略特征向量和所述个体状态特征向量进行特征融合操作，得到所述综合特征向量的步骤，包括：

按照以下公式，对所述群体策略特征向量、所述个体策略特征向量和所述个体状态特征向量进行特征融合操作，得到所述综合特征向量：

G=w1×G1+w2×G2+w3×G3；

w1+w2+w3=1；

其中，G表示综合特征向量，G1表示群体策略特征向量，w1表示群体策略特征向量对应的第一权重值，G2表示个体策略特征向量，w2表示个体策略特征向量对应的第二权重值，G3表示个体状态特征向量，w3表示个体状态特征向量对应的第三权重值。

在本申请一实施例中，所述样本数据集还包括多个测试样本，多个所述测试样本为标注有各自对应的无人机攻防双方的真实事件和真实策略收益的样本数据；

基于多个所述训练样本，对初始深度神经网络进行训练，得到所述对抗过程仿真模型的步骤之后，所述方法还包括：

通过所述对抗过程仿真模型对所述测试样本进行预测，得到预测结果；

在所述预测结果满足预设的模型评价指标的情况下，确定所述对抗过程仿真模型满足模型部署要求。

在本申请一实施例中，所述无人机攻防对抗数据包括多个原始对抗数据，不同的原始对抗数据对应不同的对抗时长；

对无人机攻防对抗数据进行采样，得到样本数据集的步骤，包括：

基于目标采样次数和每个所述原始对抗数据各自对应的对抗时长，确定每个所述原始对抗数据各自对应的采样间隔；

按照每个所述原始对抗数据各自对应的采样间隔，对每个所述原始对抗数据进行采样，得到每个所述原始对抗数据各自对应的样本数据；

基于每个所述原始对抗数据各自对应的样本数据，得到所述样本数据集；

按照预设样本分配比例，对所述样本数据集中的样本数据进行划分，得到多个所述训练样本和多个所述测试样本。

第二方面，基于相同发明构思，本申请实施例提供了一种基于对抗过程仿真模型的策略收益预测装置，所述装置包括：

获取模块，用于获取目标无人机攻防双方各自对应的当前群体策略信息、当前个体策略信息和当前个体状态信息；

预测模块，用于将所述当前群体策略信息、所述当前个体策略信息和所述当前个体状态信息输入对抗过程仿真模型，输出得到所述目标无人机攻防双方对应的目标策略收益和至少一个目标事件；所述目标策略收益包括攻击方策略收益和防御方策略收益；

其中，所述基于对抗过程仿真模型的策略收益预测装置还包括：

采样模块，用于对无人机攻防对抗数据进行采样，得到样本数据集；所述样本数据集包括多个训练样本；多个所述训练样本为标注有各自对应的无人机攻防双方的真实事件和真实策略收益的样本数据；

训练模块，用于基于多个所述训练样本，对初始深度神经网络进行训练，得到所述对抗过程仿真模型。

所述训练模块包括：

第一输入子模块，用于针对任一所述训练样本，将所述训练样本对应的群体策略信息、个体策略信息和个体状态信息输入所述初始特征提取网络，输出得到综合特征向量；

第二输入子模块，用于将所述综合特征向量输入所述初始预测网络，输出得到针对无人机攻防双方的预测事件和预测策略收益；

损失值确定子模块，用于基于所述预测事件和所述训练样本对应的真实事件，确定第一损失值；并基于所述预测策略收益和所述训练样本对应的真实策略收益，确定第二损失值；

迭代更新子模块，用于基于所述第一损失值和所述第二损失值，对所述初始特征提取网络和所述初始预测网络的网络参数进行更新，并执行针对任一所述训练样本，将所述训练样本对应的群体策略信息、个体策略信息和个体状态信息输入所述初始特征提取网络，输出得到综合特征向量的步骤，直到所述初始深度神经网络满足训练截止条件，得到所述对抗过程仿真模型。

所述第一输入子模块包括：

第一输入单元，用于将所述训练样本对应的群体策略信息和个体策略信息输入所述群体策略特征提取子网络，输出得到群体策略特征向量；

第二输入单元，用于将所述训练样本对应的个体策略信息输入所述个体策略特征提取子网络，输出得到个体策略特征向量；

第三输入单元，用于将所述训练样本对应的个体状态信息输入所述个体状态特征提取子网络，输出得到个体状态特征向量；

向量融合单元，用于对所述群体策略特征向量、所述个体策略特征向量和所述个体状态特征向量进行特征融合操作，得到所述综合特征向量。

所述第二输入子模块包括：

第四输入单元，用于将所述综合特征向量输入所述事件序列预测子网络，输出得到针对无人机攻防双方的预测事件；

第五输入单元，用于将所述综合特征向量输入所述策略收益预测子网络，输出得到针对无人机攻防双方的预测策略收益。

在本申请一实施例中，所述向量融合单元具体用于按照以下公式，对所述群体策略特征向量、所述个体策略特征向量和所述个体状态特征向量进行特征融合操作，得到所述综合特征向量：

G=w1×G1+w2×G2+w3×G3；

w1+w2+w3=1；

所述基于对抗过程仿真模型的策略收益预测装置还包括：

测试模块，用于通过所述对抗过程仿真模型对所述测试样本进行预测，得到预测结果；

确定模块，用于在所述预测结果满足预设的模型评价指标的情况下，确定所述对抗过程仿真模型满足模型部署要求。

所述采样模块包括：

采样间隔确定子模块，用于基于目标采样次数和每个所述原始对抗数据各自对应的对抗时长，确定每个所述原始对抗数据各自对应的采样间隔；

采样子模块，用于按照每个所述原始对抗数据各自对应的采样间隔，对每个所述原始对抗数据进行采样，得到每个所述原始对抗数据各自对应的样本数据；

样本数据集确定子模块，用于基于每个所述原始对抗数据各自对应的样本数据，得到所述样本数据集；

样本数据划分子模块，用于按照预设样本分配比例，对所述样本数据集中的样本数据进行划分，得到多个所述训练样本和多个所述测试样本。

与现有技术相比，本申请包括以下优点：

本申请实施例提供的一种基于对抗过程仿真模型的策略收益预测方法，通过对无人机攻防对抗数据进行采样，能够得到多个训练样本，进而利用多个训练样本，对初始深度神经网络进行训练，得到准确反映无人机博弈对抗过程的对抗过程仿真模型，进而在对抗过程仿真模型实际应用时，通过将目标无人机攻防双方各自对应的当前群体策略信息、当前个体策略信息和当前个体状态信息输入对抗过程仿真模型，能够在短时间内快速预测出目标无人机攻防双方对应的目标策略收益和至少一个目标事件。本申请实施例通过构建基于深度神经网络的对抗过程仿真模型，能够代替传统的仿真推演方式，更为准确快速地预测目标无人机攻防双方的攻防策略所产生的事件以及策略收益，有效满足无人机攻防对抗紧急情况下攻防策略收益计算的即时性和快速性需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例中一种基于对抗过程仿真模型的策略收益预测方法的步骤流程图。

图2是本申请一实施例中一种对抗过程仿真模型的训练方法的步骤流程图。

图3是本申请一实施例中一种基于对抗过程仿真模型的策略收益预测装置的功能模块示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，当前的无人机攻防博弈收益计算，主要通过攻防双方策略仿真推演的方式，来得到攻防策略产生的对抗结果以及策略收益，该种方式涉及到无人机攻防双方的实体仿真模型。目前常用的仿真模型主要有信号级和功能级两种无人机仿真模型，信号级无人机仿真模型适用于精细的仿真推演，能够保证推演效果，但在推演速度和灵活性上具有一定局限性，简化的功能级无人机仿真模型只对实体的核心功能进行仿真，不关注具体处理细节，运行速度快，更适用于策略/方案的超实时推演或上百万次的大规模智能体仿真训练过程。然而这两种仿真模型都需要去按照时间去对攻防双方的无人机仿真模型的对抗过程进行逐帧推演，速度慢，无法做到根据给定的攻防策略，快速计算出该种攻防策略下某个时刻发生的事件和策略收益，在推演速度上难以满足无人机攻防对抗紧急情况下的推演即时性、快速性需求。

针对传统仿真推演方法存在的速度慢、效率低问题，本申请旨在提供一种基于对抗过程仿真模型的策略收益预测方法，通过构建基于深度神经网络的对抗过程仿真模型，能够代替传统的仿真推演方式，更为准确快速地预测目标无人机攻防双方的攻防策略所产生的事件以及策略收益，有效满足无人机攻防对抗紧急情况下攻防策略收益计算的即时性和快速性需求。

参照图1，示出了本申请一种基于对抗过程仿真模型的策略收益预测方法，该方法可以包括以下步骤：

S101：获取目标无人机攻防双方各自对应的当前群体策略信息、当前个体策略信息和当前个体状态信息。

需要说明的是，目标无人机攻防双方包括目标攻击方和目标防御方，其中，目标攻击方是由至少一个攻击方无人机组成的攻击方集群，目标防御方是由至少一个防御方无人机组成的防御方集群。

在本实施方式中，当前群体策略信息具体包括目标攻击方的无人机集群攻击策略和目标防御方的无人机集群防御策略；当前个体策略信息具体包括目标攻击方的个体攻击策略和目标防御方的个体防御策略；当前个体状态信息具体包括攻击方个体状态信息和防御方个体状态信息。

需要说明的是，群体策略信息表示攻防双方集群的整体策略，关注于攻防双方的无人机集群之间的协同对抗、空间部署和抗毁重构等；个体策略信息表示攻防双方集群中的无人机的个体策略，关注于每个无人机个体采用的机动方式；个体状态信息则表示攻防双方集群中的无人机的状态信息，例如，个体状态信息可以但不限于包括每个无人机个体在攻防对抗中的位置、速度、剩余生命值等信息。

S102：将当前群体策略信息、当前个体策略信息和当前个体状态信息输入对抗过程仿真模型，输出得到目标无人机攻防双方对应的目标策略收益和至少一个目标事件。

在本实施方式中，对抗过程仿真模型用于预测目标攻击方和目标防御方在攻防对抗过程中产生的事件序列和目标策略收益。其中，事件序列由至少一个目标事件组成，目标策略收益包括攻击方策略收益和防御方策略收益。

示例性的，针对攻击方而言，在某个时刻探测到防御方的无人机可以作为一个目标事件，在某个时刻撞击或捕捉到防御方的无人机可以作为另外一个目标事件。需要说明的是，某个时刻探测不到防御方的无人机也可以作为一个目标事件，因此，事件序列是不定长的。

在本实施方式中，通过综合考虑目标无人机攻防双方各自对应的当前群体策略信息、当前个体策略信息和当前个体状态信息，对抗过程仿真模型能够实现对目标策略收益和事件序列的准确预测。

具体而言，参照图2，对抗过程仿真模型是通过以下训练方法训练得到的：

S201：对无人机攻防对抗数据进行采样，得到样本数据集。

需要说明的是，样本数据集包括多个训练样本，多个训练样本均为标注有各自对应的无人机攻防双方的真实事件和真实策略收益的样本数据，并且每个训练样本包括各自对应的群体策略信息、个体策略信息和个体状态信息。

在具体实现中，可以设计各种不同的初始想定，在初始想定下使用无人机攻防双方的无人机集群进行对抗，将双方攻防对抗过程中产生的数据进行间隔采样、记录和存储，进而得到无人机攻防对抗数据。

需要说明的是，初始想定包括设定好的无人机攻防双方的群体策略、个体策略、初始数量、初始编队构型、初始位置、初始速度、初始角度等信息；无人机攻防对抗数据中的每条数据包括对应的初始想定、采样时刻、每个采样时刻的无人机攻防双方的个体状态信息以及对应的事件信息，其中，个体状态信息包括无人机的数量、构型、位置、速度、角度等信息，事件信息包括真实事件和真实策略收益。

在本实施方式中，在采样得到多个训练样本，将会针对任一训练样本，将该训练样本对应的真实事件和真实策略收益标注为该训练样本的标签。其中，真实事件具体包括事件结果、事件发生时间和事件发生概率；而真实策略收益包括攻击方真实策略收益和防御方真实策略收益，具体可以将攻击方的无人机剩余数量和/或剩余生命值确定为攻击方真实策略收益，并将防御方的无人机剩余数量和/或剩余生命值确定为防御方真实策略收益。

S202：基于多个训练样本，对初始深度神经网络进行训练，得到对抗过程仿真模型。

在本实施方式中，通过初始深度神经网络对训练样本进行拟合，可训练得到一个能够准确反映无人机对抗过程的对抗过程仿真模型。

在本实施方式中，假设无人机集群攻击策略有c个，依次为/>；无人机集群防御策略/>有d个，依次为/>；个体攻击策略/>有p个，依次为；个体防御策略/>有q个，依次为/>；攻击方集群有m个无人机，防御方集群有n个无人机，当/>时，表示一对一的攻防对抗；攻防对抗过程中可能产生的预测事件E有f个，依次为e1，e2，/>，ef。

在本实施方式中，初始深度神经网络的输入包含无人机攻防双方各自对应的群体策略信息、个体策略信息和个体状态信息，定义攻击方集群有m个无人机，防御方集群有n个无人机，则初始深度神经网络的输入具体可以用以下公式表示：

（1）；

（2）；

（3）；

（4）；

（5）；

其中，表示无人机集群攻击策略，/>{/>}；/>表示攻击方集群中m个无人机的个体攻击策略集合，/>表示攻击方集群中第i个无人机的个体攻击策略，；/>表示攻击方集群中m个无人机的攻击方个体状态信息集合，表示攻击方集群中第i个无人机的攻击方个体状态信息；/>表示无人机集群防御策略，/>{/>}；/>表示防御方集群中n个无人机的个体防御策略集合，/>表示防御方集群中第i个无人机的个体防御策略，/>；/>表示防御方集群中n个无人机的防御方个体状态信息集合，/>表示防御方集群中i个无人机的防御方个体状态信息。

具体而言，攻击方集群中第i个无人机的攻击方个体状态信息可以用以下公式表示：

（6）；

其中，t表示当前时刻，x、y分别表示无人机的经纬度，h表示无人机飞行高度，v表示无人机速度，θ表示航向角，ɑ表示加速度，hp表示剩余生命值（对应无人机的剩余油量或剩余电量）。

需要说明的是，防御方集群中i个无人机的防御方个体状态信息的具体内容参照公式（6），在此不再赘述。

在本实施方式中，初始深度神经网络的输出包含无人机攻防双方对应的预测策略收益以及由至少一个预测事件构成的事件序列。定义事件序列为SeE，SeE由k个预测事件组成，攻击方预测策略收益为，防御方预测策略收益为/>，则初始深度神经网络的输出具体可以用以下公式表示：

（7）

（8）；

其中，SeE表示事件序列；E_i表示第i个预测事件，E_i∈{e1，e2，...，ef}；t_i表示第i个预测事件的发生时间；p_i表示第i个预测事件的发生概率；表示攻击方预测策略收益；/>表示防御方预测策略收益。

在本实施方式中，初始深度神经网络在输出预测策略收益和预测事件之后，会基于预测策略收益和真实策略收益之间的损失值以及预测事件和真实事件之间的损失值进行反向传播，进而在反向传播的过程中通过计算损失函数的梯度来更新初始深度神经网络的权重和偏置，直到初始深度神经网络满足训练截止条件，得到对抗过程仿真模型。

本申请实施例相较于传统仿真推演需要按照时间顺序去对攻防双方无人机仿真模型的对抗过程进行逐帧推演，通过构建基于深度神经网络的对抗过程仿真模型，能够更为准确快速地预测目标无人机攻防双方的攻防策略所产生的事件以及策略收益，进而有效满足无人机攻防对抗紧急情况下攻防策略收益计算的即时性和快速性需求。

在一个可行的实施方式中，初始深度神经网络包括初始特征提取网络和初始预测网络；S202具体可以包括以下子步骤：

S202-1：针对任一训练样本，将训练样本对应的群体策略信息、个体策略信息和个体状态信息输入初始特征提取网络，输出得到综合特征向量。

在本实施方式中，在初始深度神经网络的训练过程中，将通过初始特征提取网络对群体策略信息、个体策略信息和个体状态信息进行特征提取，以得到便于初始预测网络识别的综合特征向量。该综合特征向量能够综合反映无人机攻防双方群体策略特征、个体策略特征和个体状态特征。

在具体实现中，为了能够有针对性地提取模型输入信息的不同特征，初始特征提取网络具体包括群体策略特征提取子网络、个体策略特征提取子网络和个体状态特征提取子网络，以分别实现对群体策略信息、个体策略信息和个体状态信息的特征提取。

具体而言，S202-1具体可以包括以下子步骤：

S202-1-1：将训练样本对应的群体策略信息和个体策略信息输入群体策略特征提取子网络，输出得到群体策略特征向量。

在本实施方式中，群体策略特征提取子网络用于提取攻防双方集群整体策略中的协同对抗、空间部署和抗毁重构等特征，更关注无人机集群整体的对抗，由于整体的能力离不开每个无人机个体的特征，因此群体策略特征提取子网络的输入除了群体策略信息，还包括个体策略信息，以实现对群体策略特征向量的全面准确提取。

具体而言，假设攻击方集群有m个无人机，防御方集群有n个无人机，则群体策略特征提取子网络的输入可以表示为：

（9）；

其中，表示无人机集群攻击策略，/>表示无人机集群防御策略，/>表示攻击方集群中m个无人机的个体攻击策略集合；/>表示防御方集群中n个无人机的个体防御策略集合。

在具体实现中，由于无人机攻防双方的无人机集群的空间分布均可以抽象为图结构，因此，群体策略特征提取子网络可以由多个图卷积层、1个全连接层和1个激活层成，以实现对群体策略特征向量的提取。

S202-1-2：将训练样本对应的个体策略信息输入个体策略特征提取子网络，输出得到个体策略特征向量。

在本实施方式中，个体策略特征提取子网络用于提取无人机攻防双方在攻防对抗过程中每个无人机个体采用的机动方式等特征，更关注无人机个体的策略。因此，通过将个体策略信息输入个体策略特征提取子网络，可以实现对个体策略特征向量的提取。

示例性的，个体策略特征提取子网络的输入可以表示为：

（10）；

其中，表示攻击方集群中m个无人机的个体攻击策略集合；/>表示防御方集群中n个无人机的个体防御策略集合。

在具体实现中，个体策略特征提取子网络可以由多个全连接层和1个激活层组成，每个全连接层可设置多个神经元，激活层采用ReLU激活函数。

S202-1-3：将训练样本对应的个体状态信息输入个体状态特征提取子网络，输出得到个体状态特征向量。

在本实施方式中，个体状态特征提取子网络用于提取每个无人机个体在攻防对抗中的位置、速度、剩余生命值等状态信息。因此，通过将个体状态信息输入个体状态特征提取子网络，可以实现对个体状态特征向量。

示例性的，个体状态特征提取子网络的输入可以表示为：

（11）；

其中，表示攻击方集群中m个无人机的攻击方个体状态信息集合，/>表示防御方集群中n个无人机的防御方个体状态信息集合。

在具体实现中，个体状态特征提取子网络可以由多个全连接层和1个激活层组成，每个全连接层可设置多个神经元，激活层采用ReLU激活函数。

S202-1-4：对群体策略特征向量、个体策略特征向量和个体状态特征向量进行特征融合操作，得到综合特征向量。

在本实施方式中，通过将初始深度神经网络的输出拆分整合为X₁、X₂和X₃三部分输入，并分别输入到群体策略特征提取子网络、个体策略特征提取子网络和个体状态特征提取子网络三个不同的神经网络中,能够通过神经网络将三部分输入转化成维度一致的三个特征向量，分别为群体策略特征向量G1、个体策略特征向量G2和个体状态特征向量G3。

在具体实现中，可以按照以下公式，对群体策略特征向量、个体策略特征向量和个体状态特征向量进行特征融合操作，得到综合特征向量：

G=w1×G1+w2×G2+w3×G3；（12）

w1+w2+w3=1；（13）

需要说明的是，第一权重值w1、第二权重值w2和第三权重值w3作为超参数，可以根据实际应用需求进行设置。

S202-2：将综合特征向量输入初始预测网络，输出得到针对无人机攻防双方的预测事件和预测策略收益。

在本实施方式中，在初始特征提取网络提取得到综合特征向量之后，将会通过初始预测网络对综合特征向量进行识别，实现对预测事件和预测策略收益的计算。

在具体实现中，初始预测网络包括事件序列预测子网络和策略收益预测子网络，以分别实现对预测事件和预测策略收益的计算。

具体而言，S202-2具体可以包括以下子步骤：

S202-2-1：将综合特征向量输入事件序列预测子网络，输出得到针对无人机攻防双方的预测事件。

在本实施方式中，为实现对预测事件和预测策略收益的准确计算，提高模型的性能和泛化能力，将基于注意力机制（Attention Mechanism）构建事件序列预测子网络和策略收益预测子网络。

在本实施方式中，事件序列预测子网络用于预测攻防对抗过程中可能发生的事件以及事件发生时间和发生概率，输入为综合特征向量，输出得到由不定长的预测事件组成的事件序列。事件序列预测子网络可以由多层循环神经网络组成。

示例性的，事件序列预测子网络的输出可以表示为：

（14）；

其中，SeE表示由至少一个预测事件组成的事件序列。

S202-2-2：将综合特征向量输入策略收益预测子网络，输出得到针对无人机攻防双方的预测策略收益。

在本实施方式中，策略收益预测子网络用于预测攻防对抗策略能够对攻防双方产生的博弈收益，输入为综合特征向量，输出是无人机攻防双方的预测策略收益，具体包括攻击方预测策略收益和防御方预测策略收益。策略收益预测子网络可以由多层全连接层和1个激活层组成，每个全连接层可设置多个神经元，激活层则使用ReLU激活函数。

示例性的，策略收益预测子网络的输出可以表示为：

（15）；

其中，表示攻击方预测策略收益；/>表示防御方预测策略收益。

S202-3：基于预测事件和训练样本对应的真实事件，确定第一损失值；并基于预测策略收益和训练样本对应的真实策略收益，确定第二损失值。

在具体实现中，将采第一损失函数计算第一损失值，采用第二函数计算第二损失值。其中，第一损失函数可以采用LogCosh损失函数，第二损失函数可以采用均方差损失函数。

具体的，假设有N个训练样本，则每个训练样本用表示，其中，其中/>，Xi表示第i个训练样本，/>表示第i个训练样本对应的真实事件，/>表示第i个训练样本对应的真实策略收益，则损失函数公式如下：

（16）；

（17）；

其中，表示LogCosh损失函数，/>表示第i个训练样本对应的预测事件，/>表示第i个训练样本对应的真实事件，/>表示均方差损失函数，/>表示第i个训练样本对应的真实策略收益，/>表示第i个训练样本对应的预测策略收益。

S202-4：基于第一损失值和第二损失值，对初始特征提取网络和初始预测网络的网络参数进行更新，并执行针对任一训练样本，将训练样本对应的群体策略信息、个体策略信息和个体状态信息输入初始特征提取网络，输出得到综合特征向量的步骤，直到初始深度神经网络满足训练截止条件，得到对抗过程仿真模型。

在本实施方式中，每经过一轮训练，都会计算得到对应的第一损失值和第二损失值，进而根据第一损失值和第二损失值，进行反向传播，进而在反向传播的过程中通过计算损失函数的梯度来更新神经网络的权重和偏置，以最小化损失函数为目标，使得群体策略特征提取子网络、个体策略特征提取子网络、个体状态特征提取子网络、事件序列预测子网络和策略收益预测子网络能够更好地拟合训练数据。

在本实施方式中，在本实施方式中，在完成对群体策略特征提取子网络、个体策略特征提取子网络、个体状态特征提取子网络、事件序列预测子网络和策略收益预测子网络的网络参数的更新之后，将会执行下一轮训练，即再次执行S202-1~S202-4的步骤，通过不断的迭代优化，直到初始深度神经网络满足训练截止条件，得到对抗过程仿真模型。

在本实施方式中，训练截止条件可以为：第一损失函数的第一损失值和第二损失函数的第二损失值均处于稳定状态，或者，迭代次数达到目标次数。其中，稳定状态指初始深度神经网络在最近的预设次迭代训练中的第一损失值和第二损失值不再下降或下降幅度小于幅度阈值。

在一个可行的实施方式中，样本数据集还包括多个测试样本，多个测试样本为标注有各自对应的无人机攻防双方的真实事件和真实策略收益的样本数据；S202之后，基于对抗过程仿真模型的策略收益预测方法还可以包括以下步骤：

S203：通过对抗过程仿真模型对测试样本进行预测，得到预测结果。

在本实施方式中，在训练得到对抗过程仿真模型之后，将会通过测试样本对对抗过程仿真模型进行测试，以实现对对抗过程仿真模型实际应用效果的有效评估。

具体而言，预测结果包括多个测试样本各自对应的预测事件和预测策略收益，通过对多个测试样本各自对应的预测事件和真实事件以及预测策略收益和真实策略收益进行统计分析，可以得到针对多个测试样本的预测结果。

S204：在预测结果满足预设的模型评价指标的情况下，确定对抗过程仿真模型满足模型部署要求。

需要说明的是，模型评价指标具体可以包括准确率指标和计算时长指标。其中，准确率表示对抗过程仿真模型针对多个测试样本整体上的预测准确程度；计算时长指标表示对抗过程仿真模型满足时长要求的程度，即反映对抗过程仿真模型能否在指定时长内输出预测结果。

在本实施方式中，通过设置模型评价指标为评估标准，能够全面有效地评估对抗过程仿真模型的预测效果，若预测结果满足模型评价指标，则说明对抗过程仿真模型满足模型部署要求，能够在实际运用中满足相应的预测要求。

在一个可行的实施方式中，无人机攻防对抗数据包括多个原始对抗数据，不同的原始对抗数据对应不同的对抗时长；S201具体可以包括以下步骤：

S201-1：基于目标采样次数和每个原始对抗数据各自对应的对抗时长，确定每个原始对抗数据各自对应的采样间隔。

在本实施方式中，为提高对抗过程仿真模型的训练效果，将会对不同对抗条件下产生的多个原始对抗数据进行采样，以得到数量足够多且高质量的样本数据。

在本实施方式中，为实现对不同原始对抗数据的均衡采用，将会针对不同的原始对抗数据设置相同的目标采样次数，进而通过将每个原始对抗数据各自对应的对抗时长与目标采样次数的比值，确定为采样间隔，可以保证每个原始对抗数据均能采样得到数量与目标采样次数一致的样本数据。

S201-2：按照每个原始对抗数据各自对应的采样间隔，对每个原始对抗数据进行采样，得到每个原始对抗数据各自对应的样本数据。

S201-3：基于每个原始对抗数据各自对应的样本数据，得到样本数据集。

示例性的，设置目标采样次数为H，假设某个原始对抗数据对应的对抗过程时长为T，则该原始对抗数据对应的采样间隔为采样间隔T/H，进而按照T/H对该原始对抗数据进行采样，可以得到H个样本数据；则在原始对抗数据有N条的情况下，可得到H×N个样本数据。对H×N个样本数据进行整合，便可得到样本数据集。

S201-4：按照预设样本分配比例，对样本数据集中的样本数据进行划分，得到多个训练样本和多个测试样本。

在本实施方式，在得到样本数据集之后，为满足模型的训练需求和测试需求，将会对样本数据集中的样本数据进行划分，得到多个训练样本和多个测试样本。

示例性的，预设样本分配比例可以设置为：训练样本数量：测试样本数量=9：1。也就是说，针对样本数据集中的H×N个样本数据，会选取其中的90％作为训练样本，剩余的10％作为测试样本。

在本实施方式中，通过设计各种不同的初始想定，并在初始想定下使用无人机攻防双方的无人机集群进行对抗，将双方攻防对抗过程中产生的数据进行间隔采样、记录和存储，进而得到无人机攻防对抗数据；再通过对无人机攻防对抗数据进行采样，能够得到数量足够多且高质量的样本数据，并将样本数据按照预设样本分配比例划分为训练样本集和测试样本集；然后设计对抗过程仿真模型的神经网络结构和优化算法，并采用以上训练样本集对对抗过程仿真模型的神经网络参数进行迭代训练和优化，得到训练好的对抗过程仿真模型，最后，使用测试样本集对对抗过程仿真模型进行测试，验证对抗过程仿真模型的准确性。

在本实施方式中，基于深度神经网络构建的对抗过程仿真模型，在面向无人机攻防博弈收益计算时，能够有效代替传统的攻防推演方法，能够基于给定的目标无人机攻防双方各自对应的当前群体策略信息、当前个体策略信息和当前个体状态信息，更为准确快速地预测出目标无人机攻防双方采用当前策略会产生的目标事件、目标事件发生的时间、目标事件发生的概率以及给目标无人机攻防双方带来的目标博弈收益，有效满足无人机攻防对抗紧急情况下攻防策略收益计算的即时性和快速性需求。

第二方面，基于相同发明构思，参照图3，本申请实施例提供了一种基于对抗过程仿真模型的策略收益预测装置300，该基于对抗过程仿真模型的策略收益预测装置300包括：

获取模块301，用于获取目标无人机攻防双方各自对应的当前群体策略信息、当前个体策略信息和当前个体状态信息。

预测模块302，用于将当前群体策略信息、当前个体策略信息和当前个体状态信息输入对抗过程仿真模型，输出得到目标无人机攻防双方对应的目标策略收益和至少一个目标事件；目标策略收益包括攻击方策略收益和防御方策略收益。

其中，基于对抗过程仿真模型的策略收益预测装置300包括：

采样模块，用于对无人机攻防对抗数据进行采样，得到样本数据集。样本数据集包括多个训练样本；多个训练样本为标注有各自对应的无人机攻防双方的真实事件和真实策略收益的样本数据。

训练模块，用于基于多个训练样本，对初始深度神经网络进行训练，得到对抗过程仿真模型。

在本申请一实施例中，初始深度神经网络包括初始特征提取网络和初始预测网络。

训练模块包括：

第一输入子模块，用于针对任一训练样本，将训练样本对应的群体策略信息、个体策略信息和个体状态信息输入初始特征提取网络，输出得到综合特征向量。

第二输入子模块，用于将综合特征向量输入初始预测网络，输出得到针对无人机攻防双方的预测事件和预测策略收益。

损失值确定子模块，用于基于预测事件和训练样本对应的真实事件，确定第一损失值；并基于预测策略收益和训练样本对应的真实策略收益，确定第二损失值。

迭代更新子模块，用于基于第一损失值和第二损失值，对初始特征提取网络和初始预测网络的网络参数进行更新，并执行针对任一训练样本，将训练样本对应的群体策略信息、个体策略信息和个体状态信息输入初始特征提取网络，输出得到综合特征向量的步骤，直到初始深度神经网络满足训练截止条件，得到对抗过程仿真模型。

在本申请一实施例中，初始特征提取网络包括群体策略特征提取子网络、个体策略特征提取子网络和个体状态特征提取子网络；第一输入子模块包括：

第一输入单元，用于将训练样本对应的群体策略信息和个体策略信息输入群体策略特征提取子网络，输出得到群体策略特征向量。

第二输入单元，用于将训练样本对应的个体策略信息输入个体策略特征提取子网络，输出得到个体策略特征向量。

第三输入单元，用于将训练样本对应的个体状态信息输入个体状态特征提取子网络，输出得到个体状态特征向量。

向量融合单元，用于对群体策略特征向量、个体策略特征向量和个体状态特征向量进行特征融合操作，得到综合特征向量。

在本申请一实施例中，初始预测网络包括事件序列预测子网络和策略收益预测子网络；第二输入子模块包括：

第四输入单元，用于将综合特征向量输入事件序列预测子网络，输出得到针对无人机攻防双方的预测事件。

第五输入单元，用于将综合特征向量输入策略收益预测子网络，输出得到针对无人机攻防双方的预测策略收益。

在本申请一实施例中，向量融合单元具体用于按照以下公式，对群体策略特征向量、个体策略特征向量和个体状态特征向量进行特征融合操作，得到综合特征向量：

G=w1×G1+w2×G2+w3×G3；

w1+w2+w3=1；

在本申请一实施例中，样本数据集还包括多个测试样本，多个测试样本为标注有各自对应的无人机攻防双方的真实事件和真实策略收益的样本数据；基于对抗过程仿真模型的策略收益预测装置还包括：

测试模块，用于通过对抗过程仿真模型对测试样本进行预测，得到预测结果。

确定模块，用于在预测结果满足预设的模型评价指标的情况下，确定对抗过程仿真模型满足模型部署要求。

在本申请一实施例中，无人机攻防对抗数据包括多个原始对抗数据，不同的原始对抗数据对应不同的对抗时长；采样模块包括：

采样间隔确定子模块，用于基于目标采样次数和每个原始对抗数据各自对应的对抗时长，确定每个原始对抗数据各自对应的采样间隔。

采样子模块，用于按照每个原始对抗数据各自对应的采样间隔，对每个原始对抗数据进行采样，得到每个原始对抗数据各自对应的样本数据。

样本数据集确定子模块，用于基于每个原始对抗数据各自对应的样本数据，得到样本数据集。

样本数据划分子模块，用于按照预设样本分配比例，对样本数据集中的样本数据进行划分，得到多个训练样本和多个测试样本。

需要说明的是，本申请实施例的基于对抗过程仿真模型的策略收益预测装置200的具体实施方式参照前述本申请实施例第一方面提出的基于对抗过程仿真模型的策略收益预测方法的具体实施方式，在此不再赘述。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种基于对抗过程仿真模型的策略收益预测方法和装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于对抗过程仿真模型的策略收益预测方法，其特征在于，所述方法包括：

将所述当前群体策略信息、所述当前个体策略信息和所述当前个体状态信息输入对抗过程仿真模型，输出得到所述目标无人机攻防双方对应的目标策略收益和至少一个目标事件；所述目标策略收益包括攻击方策略收益和防御方策略收益；所述对抗过程仿真模型用于预测所述目标无人机攻防双方在攻防对抗过程中产生的事件序列和目标策略收益，所述事件序列由至少一个目标事件组成；

其中，所述对抗过程仿真模型通过以下方式训练得到：

基于多个所述训练样本，对初始深度神经网络进行训练，得到所述对抗过程仿真模型；

所述初始深度神经网络包括初始特征提取网络和初始预测网络；

将所述综合特征向量输入所述初始预测网络，输出得到针对所述无人机攻防双方的预测事件和预测策略收益；

基于所述第一损失值和所述第二损失值，对所述初始特征提取网络和所述初始预测网络的网络参数进行更新，并执行针对任一所述训练样本，将所述训练样本对应的群体策略信息、个体策略信息和个体状态信息输入所述初始特征提取网络，输出得到综合特征向量的步骤，直到所述初始深度神经网络满足训练截止条件，得到所述对抗过程仿真模型；

所述初始特征提取网络包括群体策略特征提取子网络、个体策略特征提取子网络和个体状态特征提取子网络；

对所述群体策略特征向量、所述个体策略特征向量和所述个体状态特征向量进行特征融合操作，得到所述综合特征向量；

所述初始预测网络包括事件序列预测子网络和策略收益预测子网络；

2.根据权利要求1所述的基于对抗过程仿真模型的策略收益预测方法，其特征在于，对所述群体策略特征向量、所述个体策略特征向量和所述个体状态特征向量进行特征融合操作，得到所述综合特征向量的步骤，包括：

G=w1×G1+w2×G2+w3×G3；

w1+w2+w3=1；

3.根据权利要求1所述的基于对抗过程仿真模型的策略收益预测方法，其特征在于，所述样本数据集还包括多个测试样本，多个所述测试样本为标注有各自对应的无人机攻防双方的真实事件和真实策略收益的样本数据；

4.根据权利要求3所述的基于对抗过程仿真模型的策略收益预测方法，其特征在于，所述无人机攻防对抗数据包括多个原始对抗数据，不同的原始对抗数据对应不同的对抗时长；

5.一种基于对抗过程仿真模型的策略收益预测装置，其特征在于，所述装置包括：

预测模块，用于将所述当前群体策略信息、所述当前个体策略信息和所述当前个体状态信息输入对抗过程仿真模型，输出得到所述目标无人机攻防双方对应的目标策略收益和至少一个目标事件；所述目标策略收益包括攻击方策略收益和防御方策略收益；所述对抗过程仿真模型用于预测所述目标无人机攻防双方在攻防对抗过程中产生的事件序列和目标策略收益，所述事件序列由至少一个目标事件组成；

训练模块，用于基于多个所述训练样本，对初始深度神经网络进行训练，得到所述对抗过程仿真模型；

所述训练模块包括：

迭代更新子模块，用于基于所述第一损失值和所述第二损失值，对所述初始特征提取网络和所述初始预测网络的网络参数进行更新，并执行针对任一所述训练样本，将所述训练样本对应的群体策略信息、个体策略信息和个体状态信息输入所述初始特征提取网络，输出得到综合特征向量的步骤，直到所述初始深度神经网络满足训练截止条件，得到所述对抗过程仿真模型；

所述第一输入子模块包括：

向量融合单元，用于对所述群体策略特征向量、所述个体策略特征向量和所述个体状态特征向量进行特征融合操作，得到所述综合特征向量；

所述第二输入子模块包括：