CN116068889B

CN116068889B - 一种巡飞弹的饱和攻击方法、装置及存储介质

Info

Publication number: CN116068889B
Application number: CN202211701004.3A
Authority: CN
Inventors: 张婷婷; 宋爱国
Original assignee: Army Engineering University of PLA
Current assignee: Army Engineering University of PLA
Priority date: 2022-12-29
Filing date: 2022-12-29
Publication date: 2023-08-15
Anticipated expiration: 2042-12-29
Also published as: CN116068889A

Abstract

本发明公开了一种巡飞弹的饱和攻击方法、装置及存储介质，其方法包括在获取饱和攻击任务后，初始化巡飞弹群中各巡飞弹的观测状态；基于训练后的攻击策略模型根据观测状态生成各巡飞弹的动作策略，并根据动作策略进行机动；获取下一观测状态并返回上一步，直至完成饱和攻击任务；其中，所述攻击策略模型的训练包括：构建巡飞弹群的训练场景，并制定巡飞弹群在训练场景中的饱和攻击训练任务以及奖励函数；构建基于R‑MADDPG算法的攻击策略模型；对攻击策略模型进行初始化并基于饱和攻击训练任务和奖励函数进行训练；本发明能够在少量通信的条件下有效地执行自杀式饱和攻击任务。

Description

一种巡飞弹的饱和攻击方法、装置及存储介质

技术领域

本发明涉及一种巡飞弹的饱和攻击方法、装置及存储介质，属于巡飞弹技术领域。

背景技术

当下，日益复杂的作战任务与战场环境决定了巡飞弹系统必须具备很高的自主性。“自主性”要求系统要在极其不确定的条件下，能够完全排除外界干扰，即使在没有通信或通信不畅的情况下，仍能弥补系统故障所带来的问题，并确保系统长时间良好运行。为实现自主性，系统需要能够针对态势做出基于决策的响应。而机动决策作为自主决策的基础，可以根据当前态势自主选择机动行为，实现避险或迎敌，从而完成任务。目前基于群体智能算法的巡飞弹机动决策方法已取得较大进展，如粒子群算法，狼群算法，和蚁群算法等，但是这些方法有着计算时间长、灵活性不足、智能化程度低的缺点，无法很好满足巡飞弹集群对于无中心化、自主化、自治化的要求。

但因战场的复杂多变，巡飞弹集群的饱和攻击场景往往面临通信拒止环境，且需要面对由高射炮(anti-aircraft artilleries，AAA)、地对空导弹(surface-to-air，SAM)、探测/跟踪雷达(detection/tracking radars)在内的防御诸要素所组成的敌网络化防空体系。因此，巡飞弹集群实施自主饱和攻击面临以下问题：

1)局部的感知能力。机载传感器观测范围有限，单架巡飞弹仅能观测到有限的态势信息。2)有限的通信网络带宽。巡飞弹与地面指控台站基本无法通信，且巡飞弹有限地访问集群内部网络。3)复杂的机动环境。将敌网络化防空体系表示为禁飞区(no-fly-zones，NFZs)，巡飞弹集群的战略打击目标受其拱卫。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种巡飞弹的饱和攻击方法、装置及存储介质，解决了战场通信带宽受限环境中的巡飞弹集群自主饱和攻击问题，训练后的巡飞弹能够在少量通信的条件下有效地执行自杀式饱和攻击任务。

为达到上述目的，本发明是采用下述技术方案实现的：

第一方面，本发明提供了一种巡飞弹的饱和攻击方法，包括：

在获取饱和攻击任务后，初始化巡飞弹群中各巡飞弹的观测状态；

基于训练后的攻击策略模型根据观测状态生成各巡飞弹的动作策略，并根据动作策略进行机动；

获取下一观测状态并返回上一步，直至完成饱和攻击任务；

其中，所述攻击策略模型的训练包括：

构建巡飞弹群的训练场景，并制定巡飞弹群在训练场景中的饱和攻击训练任务以及奖励函数；

构建基于R-MADDPG算法的攻击策略模型；

对攻击策略模型进行初始化并基于饱和攻击训练任务和奖励函数进行训练。

可选的，所述饱和攻击训练任务为在训练场景中设置攻击目标、巡飞弹群以及禁飞区，巡飞弹群中每个巡飞弹起始位置飞行至攻击目标位置，同时避免进入禁飞区或触碰其他巡飞弹。

可选的，所述奖励函数为：

；

式中，；

、/>、/>、/>分别为未进入禁飞区、仿真步数限制、到达攻击目标位置、未触碰其他巡飞弹的奖励；/>、/>、/>、/>分别为未进入禁飞区、仿真步数限制、到达攻击目标位置、未触碰其他巡飞弹的奖励的权重系数；

；

、/>分别为同时攻击的实际奖励和估计奖励；/>、/>分别为同时攻击的实际奖励和估计奖励的权重系数；

；

式中，、/>分别为巡飞弹距离禁飞区中心的距离以及禁飞区的半径，分别为巡飞弹每个回合的仿真步数和仿真步数最大阈值，/>为巡飞弹距离攻击目标位置的距离，/>分别为巡飞弹/>的间距和巡飞弹的安全间距，/>是攻击目标位置的防空间隙，/>为巡飞弹群中巡飞弹的最大攻击时间误差，/>为巡飞弹在每个仿真步数上最大的估计攻击时间误差，/>为攻击目标的半径。

可选的，所述对攻击策略模型进行初始化并基于饱和攻击训练任务和奖励函数进行训练包括：

初始化攻击策略模型，包括对攻击策略模型的策略网络和价值网络；

通过在训练场景中基于策略网络执行饱和攻击训练任务构建各巡飞弹的经验池；

从各巡飞弹的经验池中随机抽取同一仿真步数的数据组成状态转移数据集，基于状态转移数据集更新策略网络和价值网络的权重参数；

将更新后的攻击策略模型替换初始化攻击策略模型带入上述步骤进行迭代，直至达到预设的最大迭代次数。

可选的，所述策略网络和价值网络的结构相同，均包括依次连接的输入层、隐藏层以及输出层，所述输入层包括64个一一对应连接的全连接层和ReLU层，所述隐藏层包括64个LSTM神经元。

可选的，所述构建各巡飞弹的经验池包括：

对于每个巡飞弹，获取巡飞弹在仿真步数/>的观测状态/>；

基于策略网络根据观测状态生成动作策略/>；

根据动作策略驱动巡飞弹/>在训练场景中机动并获取其在仿真步数/>的观测状态/>；

根据奖励函数获取动作策略的奖励值/>；

将观测状态、观测状态/>、动作策略/>奖励值/>以及策略网络的LSTM神经元在巡飞弹/>机动前后的控制参数/>保存为经验数组，记为；

将经验数组存入预构建的经验池中，并重复上述步骤直至经验池中经验数组达到预设数量。

可选的，所述基于状态转移数据集更新策略网络和价值网络的权重参数包括：

状态转移数据集记为，其中：

；

通过状态转移数据集，以最小化价值网络的损失值为目标，更新价值网络的权重参数；

通过状态转移数据集，以最大化价值网络的Q值为目标，通过梯度下降调整策略网络的权重参数；

所述价值网络的损失值为：

；

式中，为期望奖励值，/>为策略网络输出的Q值，/>为折扣因子；

所述梯度下降为：

。

可选的，所述观测状态为：

；

式中，为巡飞弹/>在仿真步数/>的自身位置状态和打击目标位置状态，/>为巡飞弹/>在仿真步数/>获取的其他巡飞弹的通信信息，/>为巡飞弹/>在仿真步数/>的全局通信预算；若/>，则巡飞弹/>发送的通信信息为自身位置状态，若，则巡飞弹/>发送的通信信息为空消息；

所述动作策略为：

；

式中，为巡飞弹/>在仿真步数/>的前向加速度和转向加速度。

第二方面，本发明提供了一种巡飞弹的饱和攻击装置，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据上述方法的步骤。

第三方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

与现有技术相比，本发明所达到的有益效果：

本发明提供的一种巡飞弹的饱和攻击方法、装置及存储介质，通过制定巡飞弹群在训练场景中的饱和攻击训练任务以及奖励函数对攻击策略模型进行训练，在机间避碰、避开NFZs和同时打击几个指标上的有着较好表现，同时够在少量通信的条件下有效地执行自杀式饱和攻击任务。

附图说明

图1是本发明实施例一提供的一种巡飞弹的饱和攻击方法的流程图；

图2是本发明实施例一提供的饱和攻击的作战想定示意图；

图3是本发明实施例一提供的策略网络和价值网络的结构示意图；

图4是本发明实施例一提供的训练奖励曲线图；

图5是本发明实施例一提供的每回合巡飞弹与NFZs间的最小距离示意图；

图6是本发明实施例一提供的距离值100附近的散点图；

图7是本发明实施例一提供的仿真中最大攻击时间误差结果的示意图；

图8是本发明实施例一提供的每回合机间的最小距离的示意图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例一：

如图1所示，本发明实施例提供了一种巡飞弹的饱和攻击方法，包括以下步骤：

1、在获取饱和攻击任务后，初始化巡飞弹群中各巡飞弹的观测状态；

2、基于训练后的攻击策略模型根据观测状态生成各巡飞弹的动作策略，并根据动作策略进行机动；

3、获取下一观测状态并返回上一步，直至完成饱和攻击任务；

其中，攻击策略模型的训练包括：

S1、构建巡飞弹群的训练场景，并制定巡飞弹群在训练场景中的饱和攻击训练任务以及奖励函数；具体的：

（1）、饱和攻击训练任务为在训练场景中设置攻击目标、巡飞弹群以及禁飞区，巡飞弹群中每个巡飞弹起始位置飞行至攻击目标位置，同时避免进入禁飞区或触碰其他巡飞弹。

禁飞区(no-fly-zones，NFZs)的概念，即模拟包括高射炮(anti-aircraftartilleries，AAA)、地对空导弹(surface-to-air，SAM)、探测/跟踪雷(detection/tracking radar)在内的防御诸要素所组成的防空系统，用于拱卫重要战略目标，巡飞弹群利用敌方部署的间隙或薄弱部位插入其纵深或后方，对高价值地面目标进行自杀式饱和攻击，作战想定如图2所示。整个过程巡飞弹决策系统需要通过自主决策，形成飞行轨迹和行为策略，从而实现尽可能地避开NFZs，增加突防成功率，并且多机之间通过时间协同实现饱和攻击。

为描述巡飞弹的机动行为及其状态转移过程。假设所有巡飞弹的飞行高度恒定，巡飞弹的状态为/>，/>表示巡飞弹/>在二维惯性坐标系中的位置，/>是航向角。巡飞弹/>从仿真步数/>到仿真步数/>的近似离散机动模型如下：

；

其中，、/>、/>分别是巡飞弹/>在仿真步数/>的速度、前向加速度和转向加速度，/>为步长时间，巡飞弹/>的动作向量为/>。

为研究饱和攻击场景下的多机协同，还要对时空要素进行分析。其中空间态势作为巡飞弹决策系统的输入信息十分重要。选取机间相对位置信息和巡飞弹与打击目标之间的相对位置信息来描述战场空间态势，其计算方程如公式如下：

；

其中，表示巡飞弹/>与打击目标/>之间的距离，/>表示巡飞弹/>与巡飞弹/>之间的距离，/>、/>表示巡飞弹之间、巡飞弹与打击目标之间的方位角。

时间协同是饱和攻击任务的基本要求和显著特点，即所有巡飞弹同时或在极短时间内到达目标位置，其目的是通过大密度、连续的进攻使敌方防空系统达到饱和，利用敌防空火力间隙确保部分巡飞弹成功突防。为便于分析，需要计算巡飞弹在目标视距上的速度分量和时间，如下：

；

其中，是巡飞弹/>在打击目标/>视距上的速度分量，/>是其达目标位置所需时间，即攻击时间。下式分别表示攻击时间误差以及检验时间协同的标准：

；

其中，是所有巡飞弹中攻击时间误差最大的时间误差，/>表示敌防空火力间隙。

（2）、奖励函数为：

；

式中，；

；

、/>、/>、/>、/>作为权重系数体现每个奖励的相对重要性，与巡飞弹机动路径的期望直接相关。因此我们根据饱和攻击任务的特点将避开禁飞区、仿真步数限制、到达目标位置、机动碰撞规避、同时攻击作为指标并明确指标优先级，然后通过现有技术的帕累托寻优得到相应权重值作为预设值直接使用；/>、、/>、/>、/>。

；

S2、构建基于R-MADDPG算法的攻击策略模型；攻击策略模型包括策略网络和价值网络，如图3所示：

策略网络和价值网络的结构相同，均包括依次连接的输入层、隐藏层以及输出层，输入层包括64个一一对应连接的全连接层和ReLU层，隐藏层包括64个LSTM神经元。

S3、对攻击策略模型进行初始化并基于饱和攻击训练任务和奖励函数进行训练。具体包括；

S301、初始化攻击策略模型，包括对攻击策略模型的策略网络和价值网络；

S302、通过在训练场景中基于策略网络执行饱和攻击训练任务构建各巡飞弹的经验池；

构建各巡飞弹的经验池包括：

对于每个巡飞弹，获取巡飞弹在仿真步数/>的观测状态/>；

基于策略网络根据观测状态生成动作策略/>；

根据奖励函数获取动作策略的奖励值/>；

其中，观测状态为：

；

动作策略为：

；

式中，为巡飞弹/>在仿真步数/>的前向加速度和转向加速度。

S303、从各巡飞弹的经验池中随机抽取同一仿真步数的数据组成状态转移数据集，基于状态转移数据集更新策略网络和价值网络的权重参数；

基于状态转移数据集更新策略网络和价值网络的权重参数包括：

状态转移数据集记为，其中：

；

所述价值网络的损失值为：

；

所述梯度下降为：

。

S304、将更新后的攻击策略模型替换初始化攻击策略模型带入上述步骤进行迭代，直至达到预设的最大迭代次数。

为了验证算法的可行性，本发明模拟的场景包括由高射炮、地对空导弹、探测/跟踪雷达在内的诸要素构成的威胁区域，即禁飞区(NFZs)。对由4架巡飞弹组成的机群进行训练，巡飞弹训练奖励曲线如图4所示。

关于空中突防，我们对随机抽取100次仿真执行结果，用蒙特卡洛分析法对避开NFZs的情况进行研究。图5作为散点图表示巡飞弹到NFZs几何中心的距离，我们对距离值在100左右的区域放大如图6，可以看出大部分执行情形中巡飞弹都可以避开NFZs，仅出现2次违反要求的机动情况，这与巡飞弹初始布设位置和NFZs、打击目标的位置有关，可以通过调整奖励公式中的权重来改进，但可能会降低同时攻击的性能。

在模拟实验中，实现同时打击具有一定难度。因此，我们在图7中研究了最大攻击时间误差，纵坐标表示单回合内最大攻击时间误差。随机抽取100次仿真结果表明，有4次执行的最大时间攻击误差超过0.4s，假设实现饱和攻击的时间误差要求不超过0.4s，即使在最坏情况下，误差依然接接近时间要求，由此表明，训练后的巡飞弹机群可以有效地实现同时打击。图8中研究了机间最小相对距离，在100次仿真中最小机间距离都不小于安全飞行距离20。

实验结果表明本方法在机间避碰、避开NFZs和同时打击几个指标上的有着较好表现，为多智能体深度强化学习应用到巡飞弹集群作战提供方法鉴定。

实施例二：

基于实施例一，本发明实施例提供了一种巡飞弹的饱和攻击装置，包括处理器及存储介质；

存储介质用于存储指令；

处理器用于根据指令进行操作以执行根据上述方法的步骤。

实施例三：

基于实施例一，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种巡飞弹的饱和攻击方法，其特征在于，包括：

获取下一观测状态并返回上一步，直至完成饱和攻击任务；

其中，所述攻击策略模型的训练包括：

构建基于R-MADDPG算法的攻击策略模型；

对攻击策略模型进行初始化并基于饱和攻击训练任务和奖励函数进行训练；

其中，所述奖励函数为：

；

式中，；

；

2.根据权利要求1所述的一种巡飞弹的饱和攻击方法，其特征在于，所述饱和攻击训练任务为在训练场景中设置攻击目标、巡飞弹群以及禁飞区，巡飞弹群中每个巡飞弹起始位置飞行至攻击目标位置，同时避免进入禁飞区或触碰其他巡飞弹。

3.根据权利要求1所述的一种巡飞弹的饱和攻击方法，其特征在于，所述对攻击策略模型进行初始化并基于饱和攻击训练任务和奖励函数进行训练包括：

S301、初始化攻击策略模型，包括对攻击策略模型的策略网络和价值网络进行初始化；

S304、将更新后的攻击策略模型替换初始化攻击策略模型返回步骤S302进行迭代，直至达到预设的最大迭代次数。

4.根据权利要求3所述的一种巡飞弹的饱和攻击方法，其特征在于，所述策略网络和价值网络的结构相同，均包括依次连接的输入层、隐藏层以及输出层，所述输入层包括64个一一对应连接的全连接层和ReLU层，所述隐藏层包括64个LSTM神经元。

5.根据权利要求4所述的一种巡飞弹的饱和攻击方法，其特征在于，所述构建各巡飞弹的经验池包括：

S501、对于每个巡飞弹，获取巡飞弹在仿真步数/>的观测状态/>；

S502、基于策略网络根据观测状态生成动作策略/>；

S503、根据动作策略驱动巡飞弹/>在训练场景中机动并获取其在仿真步数/>的观测状态/>；

S504、根据奖励函数获取动作策略的奖励值/>；

S505、将观测状态、观测状态/>、动作策略/>奖励值/>以及策略网络的LSTM神经元在巡飞弹/>机动前后的控制参数/>保存为经验数组，记为/>；将经验数组存入预构建的经验池中；

S506、重复步骤S501-S505直至经验池中经验数组达到预设数量。

6.根据权利要求4所述的一种巡飞弹的饱和攻击方法，其特征在于，所述观测状态为：

；

式中，为巡飞弹/>在仿真步数/>的自身位置状态和打击目标位置状态，为巡飞弹/>在仿真步数/>获取的其他巡飞弹的通信信息，/>为巡飞弹/>在仿真步数/>的全局通信预算；若/>，则巡飞弹/>发送的通信信息为自身位置状态，若/>，则巡飞弹/>发送的通信信息为空消息；

所述动作策略为：

；

式中，为巡飞弹/>在仿真步数/>的前向加速度和转向加速度。

7.一种巡飞弹的饱和攻击装置，其特征在于，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行根据权利要求1-6任一项所述方法的步骤。

8.计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-6任一项所述方法的步骤。