CN116068889B - 一种巡飞弹的饱和攻击方法、装置及存储介质 - Google Patents
一种巡飞弹的饱和攻击方法、装置及存储介质 Download PDFInfo
- Publication number
- CN116068889B CN116068889B CN202211701004.3A CN202211701004A CN116068889B CN 116068889 B CN116068889 B CN 116068889B CN 202211701004 A CN202211701004 A CN 202211701004A CN 116068889 B CN116068889 B CN 116068889B
- Authority
- CN
- China
- Prior art keywords
- attack
- patrol
- projectile
- fly
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 79
- 229920006395 saturated elastomer Polymers 0.000 title claims abstract description 26
- 238000003860 storage Methods 0.000 title claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 47
- 230000009471 action Effects 0.000 claims abstract description 22
- 238000004891 communication Methods 0.000 claims abstract description 20
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 9
- 238000004088 simulation Methods 0.000 claims description 42
- 230000008569 process Effects 0.000 claims description 17
- 230000007704 transition Effects 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 13
- 230000007123 defense Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 230000001133 acceleration Effects 0.000 claims description 8
- 210000002569 neuron Anatomy 0.000 claims description 6
- 238000003491 array Methods 0.000 claims 2
- 206010010144 Completed suicide Diseases 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 10
- 238000001514 detection method Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000007717 exclusion Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 241000282461 Canis lupus Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T90/00—Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种巡飞弹的饱和攻击方法、装置及存储介质,其方法包括在获取饱和攻击任务后,初始化巡飞弹群中各巡飞弹的观测状态;基于训练后的攻击策略模型根据观测状态生成各巡飞弹的动作策略,并根据动作策略进行机动;获取下一观测状态并返回上一步,直至完成饱和攻击任务;其中,所述攻击策略模型的训练包括:构建巡飞弹群的训练场景,并制定巡飞弹群在训练场景中的饱和攻击训练任务以及奖励函数;构建基于R‑MADDPG算法的攻击策略模型;对攻击策略模型进行初始化并基于饱和攻击训练任务和奖励函数进行训练;本发明能够在少量通信的条件下有效地执行自杀式饱和攻击任务。
Description
技术领域
本发明涉及一种巡飞弹的饱和攻击方法、装置及存储介质,属于巡飞弹技术领域。
背景技术
当下,日益复杂的作战任务与战场环境决定了巡飞弹系统必须具备很高的自主性。“自主性”要求系统要在极其不确定的条件下,能够完全排除外界干扰,即使在没有通信或通信不畅的情况下,仍能弥补系统故障所带来的问题,并确保系统长时间良好运行。为实现自主性,系统需要能够针对态势做出基于决策的响应。而机动决策作为自主决策的基础,可以根据当前态势自主选择机动行为,实现避险或迎敌,从而完成任务。目前基于群体智能算法的巡飞弹机动决策方法已取得较大进展,如粒子群算法,狼群算法,和蚁群算法等,但是这些方法有着计算时间长、灵活性不足、智能化程度低的缺点,无法很好满足巡飞弹集群对于无中心化、自主化、自治化的要求。
但因战场的复杂多变,巡飞弹集群的饱和攻击场景往往面临通信拒止环境,且需要面对由高射炮(anti-aircraft artilleries,AAA)、地对空导弹(surface-to-air,SAM)、探测/跟踪雷达(detection/tracking radars)在内的防御诸要素所组成的敌网络化防空体系。因此,巡飞弹集群实施自主饱和攻击面临以下问题:
1)局部的感知能力。机载传感器观测范围有限,单架巡飞弹仅能观测到有限的态势信息。2)有限的通信网络带宽。巡飞弹与地面指控台站基本无法通信,且巡飞弹有限地访问集群内部网络。3)复杂的机动环境。将敌网络化防空体系表示为禁飞区(no-fly-zones,NFZs),巡飞弹集群的战略打击目标受其拱卫。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种巡飞弹的饱和攻击方法、装置及存储介质,解决了战场通信带宽受限环境中的巡飞弹集群自主饱和攻击问题,训练后的巡飞弹能够在少量通信的条件下有效地执行自杀式饱和攻击任务。
为达到上述目的,本发明是采用下述技术方案实现的:
第一方面,本发明提供了一种巡飞弹的饱和攻击方法,包括:
在获取饱和攻击任务后,初始化巡飞弹群中各巡飞弹的观测状态;
基于训练后的攻击策略模型根据观测状态生成各巡飞弹的动作策略,并根据动作策略进行机动;
获取下一观测状态并返回上一步,直至完成饱和攻击任务;
其中,所述攻击策略模型的训练包括:
构建巡飞弹群的训练场景,并制定巡飞弹群在训练场景中的饱和攻击训练任务以及奖励函数;
构建基于R-MADDPG算法的攻击策略模型;
对攻击策略模型进行初始化并基于饱和攻击训练任务和奖励函数进行训练。
可选的,所述饱和攻击训练任务为在训练场景中设置攻击目标、巡飞弹群以及禁飞区,巡飞弹群中每个巡飞弹起始位置飞行至攻击目标位置,同时避免进入禁飞区或触碰其他巡飞弹。
可选的,所述奖励函数为:
;
式中,;
、/>、/>、/>分别为未进入禁飞区、仿真步数限制、到达攻击目标位置、未触碰其他巡飞弹的奖励;/>、/>、/>、/>分别为未进入禁飞区、仿真步数限制、到达攻击目标位置、未触碰其他巡飞弹的奖励的权重系数;
;
、/>分别为同时攻击的实际奖励和估计奖励;/>、/>分别为同时攻击的实际奖励和估计奖励的权重系数;
;
;
;
;
;
;
式中,、/>分别为巡飞弹距离禁飞区中心的距离以及禁飞区的半径,分别为巡飞弹每个回合的仿真步数和仿真步数最大阈值,/>为巡飞弹距离攻击目标位置的距离,/>分别为巡飞弹/>的间距和巡飞弹的安全间距,/>是攻击目标位置的防空间隙,/>为巡飞弹群中巡飞弹的最大攻击时间误差,/>为巡飞弹在每个仿真步数上最大的估计攻击时间误差,/>为攻击目标的半径。
可选的,所述对攻击策略模型进行初始化并基于饱和攻击训练任务和奖励函数进行训练包括:
初始化攻击策略模型,包括对攻击策略模型的策略网络和价值网络;
通过在训练场景中基于策略网络执行饱和攻击训练任务构建各巡飞弹的经验池;
从各巡飞弹的经验池中随机抽取同一仿真步数的数据组成状态转移数据集,基于状态转移数据集更新策略网络和价值网络的权重参数;
将更新后的攻击策略模型替换初始化攻击策略模型带入上述步骤进行迭代,直至达到预设的最大迭代次数。
可选的,所述策略网络和价值网络的结构相同,均包括依次连接的输入层、隐藏层以及输出层,所述输入层包括64个一一对应连接的全连接层和ReLU层,所述隐藏层包括64个LSTM神经元。
可选的,所述构建各巡飞弹的经验池包括:
对于每个巡飞弹,获取巡飞弹在仿真步数/>的观测状态/>;
基于策略网络根据观测状态生成动作策略/>;
根据动作策略驱动巡飞弹/>在训练场景中机动并获取其在仿真步数/>的观测状态/>;
根据奖励函数获取动作策略的奖励值/>;
将观测状态、观测状态/>、动作策略/>奖励值/>以及策略网络的LSTM神经元在巡飞弹/>机动前后的控制参数/>保存为经验数组,记为;
将经验数组存入预构建的经验池中,并重复上述步骤直至经验池中经验数组达到预设数量。
可选的,所述基于状态转移数据集更新策略网络和价值网络的权重参数包括:
状态转移数据集记为,其中:
;
;
;
通过状态转移数据集,以最小化价值网络的损失值为目标,更新价值网络的权重参数;
通过状态转移数据集,以最大化价值网络的Q值为目标,通过梯度下降调整策略网络的权重参数;
所述价值网络的损失值为:
;
;
式中,为期望奖励值,/>为策略网络输出的Q值,/>为折扣因子;
所述梯度下降为:
。
可选的,所述观测状态为:
;
式中,为巡飞弹/>在仿真步数/>的自身位置状态和打击目标位置状态,/>为巡飞弹/>在仿真步数/>获取的其他巡飞弹的通信信息,/>为巡飞弹/>在仿真步数/>的全局通信预算;若/>,则巡飞弹/>发送的通信信息为自身位置状态,若,则巡飞弹/>发送的通信信息为空消息;
所述动作策略为:
;
式中,为巡飞弹/>在仿真步数/>的前向加速度和转向加速度。
第二方面,本发明提供了一种巡飞弹的饱和攻击装置, 包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据上述方法的步骤。
第三方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
与现有技术相比,本发明所达到的有益效果:
本发明提供的一种巡飞弹的饱和攻击方法、装置及存储介质,通过制定巡飞弹群在训练场景中的饱和攻击训练任务以及奖励函数对攻击策略模型进行训练,在机间避碰、避开NFZs和同时打击几个指标上的有着较好表现,同时够在少量通信的条件下有效地执行自杀式饱和攻击任务。
附图说明
图1是本发明实施例一提供的一种巡飞弹的饱和攻击方法的流程图;
图2是本发明实施例一提供的饱和攻击的作战想定示意图;
图3是本发明实施例一提供的策略网络和价值网络的结构示意图;
图4是本发明实施例一提供的训练奖励曲线图;
图5是本发明实施例一提供的每回合巡飞弹与NFZs间的最小距离示意图;
图6是本发明实施例一提供的距离值100附近的散点图;
图7是本发明实施例一提供的仿真中最大攻击时间误差结果的示意图;
图8是本发明实施例一提供的每回合机间的最小距离的示意图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例一:
如图1所示,本发明实施例提供了一种巡飞弹的饱和攻击方法,包括以下步骤:
1、在获取饱和攻击任务后,初始化巡飞弹群中各巡飞弹的观测状态;
2、基于训练后的攻击策略模型根据观测状态生成各巡飞弹的动作策略,并根据动作策略进行机动;
3、获取下一观测状态并返回上一步,直至完成饱和攻击任务;
其中,攻击策略模型的训练包括:
S1、构建巡飞弹群的训练场景,并制定巡飞弹群在训练场景中的饱和攻击训练任务以及奖励函数;具体的:
(1)、饱和攻击训练任务为在训练场景中设置攻击目标、巡飞弹群以及禁飞区,巡飞弹群中每个巡飞弹起始位置飞行至攻击目标位置,同时避免进入禁飞区或触碰其他巡飞弹。
禁飞区(no-fly-zones,NFZs)的概念,即模拟包括高射炮(anti-aircraftartilleries,AAA)、地对空导弹(surface-to-air,SAM)、探测/跟踪雷(detection/tracking radar)在内的防御诸要素所组成的防空系统,用于拱卫重要战略目标,巡飞弹群利用敌方部署的间隙或薄弱部位插入其纵深或后方,对高价值地面目标进行自杀式饱和攻击,作战想定如图2所示。整个过程巡飞弹决策系统需要通过自主决策,形成飞行轨迹和行为策略,从而实现尽可能地避开NFZs,增加突防成功率,并且多机之间通过时间协同实现饱和攻击。
为描述巡飞弹的机动行为及其状态转移过程。假设所有巡飞弹的飞行高度恒定,巡飞弹的状态为/>,/>表示巡飞弹/>在二维惯性坐标系中的位置,/>是航向角。巡飞弹/>从仿真步数/>到仿真步数/>的近似离散机动模型如下:
;
其中,、/>、/>分别是巡飞弹/>在仿真步数/>的速度、前向加速度和转向加速度,/>为步长时间,巡飞弹/>的动作向量为/>。
为研究饱和攻击场景下的多机协同,还要对时空要素进行分析。其中空间态势作为巡飞弹决策系统的输入信息十分重要。选取机间相对位置信息和巡飞弹与打击目标之间的相对位置信息来描述战场空间态势,其计算方程如公式如下:
;
;
;
;
其中,表示巡飞弹/>与打击目标/>之间的距离,/>表示巡飞弹/>与巡飞弹/>之间的距离,/>、/>表示巡飞弹之间、巡飞弹与打击目标之间的方位角。
时间协同是饱和攻击任务的基本要求和显著特点,即所有巡飞弹同时或在极短时间内到达目标位置,其目的是通过大密度、连续的进攻使敌方防空系统达到饱和,利用敌防空火力间隙确保部分巡飞弹成功突防。为便于分析,需要计算巡飞弹在目标视距上的速度分量和时间,如下:
;
;
其中,是巡飞弹/>在打击目标/>视距上的速度分量,/>是其达目标位置所需时间,即攻击时间。下式分别表示攻击时间误差以及检验时间协同的标准:
;
;
其中,是所有巡飞弹中攻击时间误差最大的时间误差,/>表示敌防空火力间隙。
(2)、奖励函数为:
;
式中,;
、/>、/>、/>分别为未进入禁飞区、仿真步数限制、到达攻击目标位置、未触碰其他巡飞弹的奖励;/>、/>、/>、/>分别为未进入禁飞区、仿真步数限制、到达攻击目标位置、未触碰其他巡飞弹的奖励的权重系数;
;
、/>分别为同时攻击的实际奖励和估计奖励;/>、/>分别为同时攻击的实际奖励和估计奖励的权重系数;
、/>、/>、/>、/>作为权重系数体现每个奖励的相对重要性,与巡飞弹机动路径的期望直接相关。因此我们根据饱和攻击任务的特点将避开禁飞区、仿真步数限制、到达目标位置、机动碰撞规避、同时攻击作为指标并明确指标优先级,然后通过现有技术的帕累托寻优得到相应权重值作为预设值直接使用;/>、、/>、/>、/>。
;
;
;
;
;
;
式中,、/>分别为巡飞弹距离禁飞区中心的距离以及禁飞区的半径,分别为巡飞弹每个回合的仿真步数和仿真步数最大阈值,/>为巡飞弹距离攻击目标位置的距离,/>分别为巡飞弹/>的间距和巡飞弹的安全间距,/>是攻击目标位置的防空间隙,/>为巡飞弹群中巡飞弹的最大攻击时间误差,/>为巡飞弹在每个仿真步数上最大的估计攻击时间误差,/>为攻击目标的半径。
S2、构建基于R-MADDPG算法的攻击策略模型;攻击策略模型包括策略网络和价值网络,如图3所示:
策略网络和价值网络的结构相同,均包括依次连接的输入层、隐藏层以及输出层,输入层包括64个一一对应连接的全连接层和ReLU层,隐藏层包括64个LSTM神经元。
S3、对攻击策略模型进行初始化并基于饱和攻击训练任务和奖励函数进行训练。具体包括;
S301、初始化攻击策略模型,包括对攻击策略模型的策略网络和价值网络;
S302、通过在训练场景中基于策略网络执行饱和攻击训练任务构建各巡飞弹的经验池;
构建各巡飞弹的经验池包括:
对于每个巡飞弹,获取巡飞弹在仿真步数/>的观测状态/>;
基于策略网络根据观测状态生成动作策略/>;
根据动作策略驱动巡飞弹/>在训练场景中机动并获取其在仿真步数/>的观测状态/>;
根据奖励函数获取动作策略的奖励值/>;
将观测状态、观测状态/>、动作策略/>奖励值/>以及策略网络的LSTM神经元在巡飞弹/>机动前后的控制参数/>保存为经验数组,记为;
将经验数组存入预构建的经验池中,并重复上述步骤直至经验池中经验数组达到预设数量。
其中,观测状态为:
;
式中,为巡飞弹/>在仿真步数/>的自身位置状态和打击目标位置状态,/>为巡飞弹/>在仿真步数/>获取的其他巡飞弹的通信信息,/>为巡飞弹/>在仿真步数/>的全局通信预算;若/>,则巡飞弹/>发送的通信信息为自身位置状态,若,则巡飞弹/>发送的通信信息为空消息;
动作策略为:
;
式中,为巡飞弹/>在仿真步数/>的前向加速度和转向加速度。
S303、从各巡飞弹的经验池中随机抽取同一仿真步数的数据组成状态转移数据集,基于状态转移数据集更新策略网络和价值网络的权重参数;
基于状态转移数据集更新策略网络和价值网络的权重参数包括:
状态转移数据集记为,其中:
;
;
;
通过状态转移数据集,以最小化价值网络的损失值为目标,更新价值网络的权重参数;
通过状态转移数据集,以最大化价值网络的Q值为目标,通过梯度下降调整策略网络的权重参数;
所述价值网络的损失值为:
;
;
式中,为期望奖励值,/>为策略网络输出的Q值,/>为折扣因子;
所述梯度下降为:
。
S304、将更新后的攻击策略模型替换初始化攻击策略模型带入上述步骤进行迭代,直至达到预设的最大迭代次数。
为了验证算法的可行性,本发明模拟的场景包括由高射炮、地对空导弹、探测/跟踪雷达在内的诸要素构成的威胁区域,即禁飞区(NFZs)。对由4架巡飞弹组成的机群进行训练,巡飞弹训练奖励曲线如图4所示。
关于空中突防,我们对随机抽取100次仿真执行结果,用蒙特卡洛分析法对避开NFZs的情况进行研究。图5作为散点图表示巡飞弹到NFZs几何中心的距离,我们对距离值在100左右的区域放大如图6,可以看出大部分执行情形中巡飞弹都可以避开NFZs,仅出现2次违反要求的机动情况,这与巡飞弹初始布设位置和NFZs、打击目标的位置有关,可以通过调整奖励公式中的权重来改进,但可能会降低同时攻击的性能。
在模拟实验中,实现同时打击具有一定难度。因此,我们在图7中研究了最大攻击时间误差,纵坐标表示单回合内最大攻击时间误差。随机抽取100次仿真结果表明,有4次执行的最大时间攻击误差超过0.4s,假设实现饱和攻击的时间误差要求不超过0.4s,即使在最坏情况下,误差依然接接近时间要求,由此表明,训练后的巡飞弹机群可以有效地实现同时打击。图8中研究了机间最小相对距离,在100次仿真中最小机间距离都不小于安全飞行距离20。
实验结果表明本方法在机间避碰、避开NFZs和同时打击几个指标上的有着较好表现,为多智能体深度强化学习应用到巡飞弹集群作战提供方法鉴定。
实施例二:
基于实施例一,本发明实施例提供了一种巡飞弹的饱和攻击装置, 包括处理器及存储介质;
存储介质用于存储指令;
处理器用于根据指令进行操作以执行根据上述方法的步骤。
实施例三:
基于实施例一,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (8)
1.一种巡飞弹的饱和攻击方法,其特征在于,包括:
在获取饱和攻击任务后,初始化巡飞弹群中各巡飞弹的观测状态;
基于训练后的攻击策略模型根据观测状态生成各巡飞弹的动作策略,并根据动作策略进行机动;
获取下一观测状态并返回上一步,直至完成饱和攻击任务;
其中,所述攻击策略模型的训练包括:
构建巡飞弹群的训练场景,并制定巡飞弹群在训练场景中的饱和攻击训练任务以及奖励函数;
构建基于R-MADDPG算法的攻击策略模型;
对攻击策略模型进行初始化并基于饱和攻击训练任务和奖励函数进行训练;
其中,所述奖励函数为:
;
式中,;
、/>、/>、/>分别为未进入禁飞区、仿真步数限制、到达攻击目标位置、未触碰其他巡飞弹的奖励;/>、/>、/>、/>分别为未进入禁飞区、仿真步数限制、到达攻击目标位置、未触碰其他巡飞弹的奖励的权重系数;
;
、/>分别为同时攻击的实际奖励和估计奖励;/>、/>分别为同时攻击的实际奖励和估计奖励的权重系数;
;
;
;
;
;
;
式中,、/>分别为巡飞弹距离禁飞区中心的距离以及禁飞区的半径,分别为巡飞弹每个回合的仿真步数和仿真步数最大阈值,/>为巡飞弹距离攻击目标位置的距离,/>分别为巡飞弹/>的间距和巡飞弹的安全间距,/>是攻击目标位置的防空间隙,/>为巡飞弹群中巡飞弹的最大攻击时间误差,/>为巡飞弹在每个仿真步数上最大的估计攻击时间误差,/>为攻击目标的半径。
2.根据权利要求1所述的一种巡飞弹的饱和攻击方法,其特征在于,所述饱和攻击训练任务为在训练场景中设置攻击目标、巡飞弹群以及禁飞区,巡飞弹群中每个巡飞弹起始位置飞行至攻击目标位置,同时避免进入禁飞区或触碰其他巡飞弹。
3.根据权利要求1所述的一种巡飞弹的饱和攻击方法,其特征在于,所述对攻击策略模型进行初始化并基于饱和攻击训练任务和奖励函数进行训练包括:
S301、初始化攻击策略模型,包括对攻击策略模型的策略网络和价值网络进行初始化;
S302、通过在训练场景中基于策略网络执行饱和攻击训练任务构建各巡飞弹的经验池;
S303、从各巡飞弹的经验池中随机抽取同一仿真步数的数据组成状态转移数据集,基于状态转移数据集更新策略网络和价值网络的权重参数;
S304、将更新后的攻击策略模型替换初始化攻击策略模型返回步骤S302进行迭代,直至达到预设的最大迭代次数。
4.根据权利要求3所述的一种巡飞弹的饱和攻击方法,其特征在于,所述策略网络和价值网络的结构相同,均包括依次连接的输入层、隐藏层以及输出层,所述输入层包括64个一一对应连接的全连接层和ReLU层,所述隐藏层包括64个LSTM神经元。
5.根据权利要求4所述的一种巡飞弹的饱和攻击方法,其特征在于,所述构建各巡飞弹的经验池包括:
S501、对于每个巡飞弹,获取巡飞弹在仿真步数/>的观测状态/>;
S502、基于策略网络根据观测状态生成动作策略/>;
S503、根据动作策略驱动巡飞弹/>在训练场景中机动并获取其在仿真步数/>的观测状态/>;
S504、根据奖励函数获取动作策略的奖励值/>;
S505、将观测状态、观测状态/>、动作策略/>奖励值/>以及策略网络的LSTM神经元在巡飞弹/>机动前后的控制参数/>保存为经验数组,记为/>;将经验数组存入预构建的经验池中;
S506、重复步骤S501-S505直至经验池中经验数组达到预设数量。
6.根据权利要求4所述的一种巡飞弹的饱和攻击方法,其特征在于,所述观测状态为:
;
式中,为巡飞弹/>在仿真步数/>的自身位置状态和打击目标位置状态,为巡飞弹/>在仿真步数/>获取的其他巡飞弹的通信信息,/>为巡飞弹/>在仿真步数/>的全局通信预算;若/>,则巡飞弹/>发送的通信信息为自身位置状态,若/>,则巡飞弹/>发送的通信信息为空消息;
所述动作策略为:
;
式中,为巡飞弹/>在仿真步数/>的前向加速度和转向加速度。
7.一种巡飞弹的饱和攻击装置,其特征在于,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据权利要求1-6任一项所述方法的步骤。
8.计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-6任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211701004.3A CN116068889B (zh) | 2022-12-29 | 2022-12-29 | 一种巡飞弹的饱和攻击方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211701004.3A CN116068889B (zh) | 2022-12-29 | 2022-12-29 | 一种巡飞弹的饱和攻击方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116068889A CN116068889A (zh) | 2023-05-05 |
CN116068889B true CN116068889B (zh) | 2023-08-15 |
Family
ID=86179519
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211701004.3A Active CN116068889B (zh) | 2022-12-29 | 2022-12-29 | 一种巡飞弹的饱和攻击方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116068889B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108646589A (zh) * | 2018-07-11 | 2018-10-12 | 北京晶品镜像科技有限公司 | 一种攻击无人机编队的作战模拟训练系统及方法 |
CN109902392A (zh) * | 2019-03-04 | 2019-06-18 | 中国人民解放军海军航空大学 | 无人机群常规攻击模式下的导弹数量需求计算方法 |
CN110412874A (zh) * | 2019-07-25 | 2019-11-05 | 东南大学 | 针对机动目标和时延通信的多导弹协同制导律设计方法 |
CN112631328A (zh) * | 2020-12-12 | 2021-04-09 | 西北工业大学 | 一种多目标协同末制导率方法 |
CN114779823A (zh) * | 2022-05-26 | 2022-07-22 | 南京航空航天大学 | 饱和攻击任务下的无人机协同围捕控制方法 |
CN115239099A (zh) * | 2022-07-06 | 2022-10-25 | 中国人民解放军陆军工程大学 | 一种智能蜂群作战推演系统 |
-
2022
- 2022-12-29 CN CN202211701004.3A patent/CN116068889B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108646589A (zh) * | 2018-07-11 | 2018-10-12 | 北京晶品镜像科技有限公司 | 一种攻击无人机编队的作战模拟训练系统及方法 |
CN109902392A (zh) * | 2019-03-04 | 2019-06-18 | 中国人民解放军海军航空大学 | 无人机群常规攻击模式下的导弹数量需求计算方法 |
CN110412874A (zh) * | 2019-07-25 | 2019-11-05 | 东南大学 | 针对机动目标和时延通信的多导弹协同制导律设计方法 |
CN112631328A (zh) * | 2020-12-12 | 2021-04-09 | 西北工业大学 | 一种多目标协同末制导率方法 |
CN114779823A (zh) * | 2022-05-26 | 2022-07-22 | 南京航空航天大学 | 饱和攻击任务下的无人机协同围捕控制方法 |
CN115239099A (zh) * | 2022-07-06 | 2022-10-25 | 中国人民解放军陆军工程大学 | 一种智能蜂群作战推演系统 |
Non-Patent Citations (1)
Title |
---|
多巡飞弹协同攻击目标优化分配研究;周瑞;黄长强;黄汉桥;董康生;;计算机仿真(第08期);116-120 * |
Also Published As
Publication number | Publication date |
---|---|
CN116068889A (zh) | 2023-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111880563B (zh) | 一种基于maddpg的多无人机任务决策方法 | |
Payne | I, warbot: The dawn of artificially intelligent conflict | |
US20200285995A1 (en) | Robust, scalable and generalizable machine learning paradigm for multi-agent applications | |
Jordan | The future of unmanned combat aerial vehicles: An analysis using the Three Horizons framework | |
CN113791634A (zh) | 一种基于多智能体强化学习的多机空战决策方法 | |
CN105427032A (zh) | 一种无人机对抗决策评估方法 | |
CN113741525B (zh) | 基于策略集合maddpg多无人机协同攻防对抗方法 | |
US9840328B2 (en) | UAS platforms flying capabilities by capturing top human pilot skills and tactics | |
CN108427286B (zh) | 用于强对抗环境下无人机深度决策的训练方法及训练网络 | |
Singer | War of the Machines | |
Qiu et al. | One-to-one air-combat maneuver strategy based on improved TD3 algorithm | |
CN115017759A (zh) | 一种无人机末端自主防御仿真验证平台 | |
Ciolponea | The Integration of Unmanned Aircraft System (UAS) in Current Combat Operations | |
CN114357742A (zh) | 一种干扰机配合下的多机空中突击协同行为模拟方法 | |
CN116068889B (zh) | 一种巡飞弹的饱和攻击方法、装置及存储介质 | |
CN110134138B (zh) | 对抗环境下无人机智能决策的纳什均衡博弈方法及系统 | |
CN115061495B (zh) | 一种基于鹰鸽博弈的无人机群组对抗自主控制方法 | |
Yuksek et al. | Development of UCAV fleet autonomy by reinforcement learning in a wargame simulation environment | |
Zhang et al. | Defense success rate evaluation for UAV swarm defense system | |
King | Robot wars: Autonomous drone swarms and the battlefield of the future | |
US10041774B2 (en) | Multi-hypothesis fire control and guidance | |
Bildik et al. | Development of active decoy guidance policy by utilising multi-agent reinforcement learning | |
Altinoz | Evolving model for synchronous weapon target assignment problem | |
Suseno et al. | Development of air combat effectiveness simulation and analysis scheme for beyond visual range (BVR) case | |
Wang et al. | Over-the-horizon air combat environment modeling and deep reinforcement learning application |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |