CN112800679B

CN112800679B - 一种光电装备防御规划方法、装置、设备及存储介质

Info

Publication number: CN112800679B
Application number: CN202110137687.3A
Authority: CN
Inventors: 郭立红; 李姜; 刘畅; 李岩
Original assignee: Changchun Institute of Optics Fine Mechanics and Physics of CAS
Current assignee: Changchun Institute of Optics Fine Mechanics and Physics of CAS
Priority date: 2021-02-01
Filing date: 2021-02-01
Publication date: 2023-05-02
Anticipated expiration: 2041-02-01
Also published as: CN112800679A

Abstract

本申请公开了一种光电装备防御规划方法、装置、设备及存储介质，该方法包括：利用已有弹道数据训练BP神经网络，得到弹道模型；根据光电防御装备特性设计光电防御装备防御模型；利用弹道模型和光电防御装备防御模型建立武器目标对抗态势图；利用蒙特卡洛树搜索算法和深度学习神经网络算法对武器目标对抗态势图进行预测，训练出深度神经网络；通过训练好的BP神经网络根据输入的来袭导弹属性来预测任意时间的来袭导弹弹道参数；通过训练好的深度神经网络根据来袭导弹弹道参数和光电防御装备参数来求解最优防御策略。这样有效应对光电对抗时效性和复杂性，并能自动应对来袭威胁，减少了人在回路，以及增强了光电防御系统的自动化控制。

Description

一种光电装备防御规划方法、装置、设备及存储介质

技术领域

本发明涉及装备防御策略领域，特别是涉及一种光电装备防御规划方法、装置、设备及存储介质。

背景技术

装备防御规划方法是实现装备自动、半自动防御的一种规划方法，由于在作战对抗中的瞬时性，战机往往稍纵即逝，因而提供一种自动化的防御规划方法显得很有意义，在装备防御策略领域一直是研究的热门问题。

目前，光电装备防御规划方法一般是针对多威胁对单防御装备的威胁排序优化算法，利用来袭威胁的各种属性：速度、种类、各种姿态角、攻击目标、与目标距离等进行威胁排序，进而确定防御装备的干扰顺序，这种方法可以用神经网络、支持向量机等来实现。该方法针对多威胁对单防御装备比较有效，但面对多威胁对多防御装备由于情况的复杂，很难用简单的威胁排序优化方法来解决。

另外，也有利用把来袭威胁的状况和防御装备的状况按步来表示，即应对某一步的威胁，应用何种防御装备防御策略，再针对下一步的威胁，又用何种防御装备策略。该方法可以用数学优化、遗传算法、群算法等实现。该方法一定程度解决了多威胁对多防御装备的问题，但把来袭威胁的状况和防御装备的状况按步来表示，与实际随时间不同步变化的威胁有一定区别，因而该方法说服力有所欠缺。

因此，如何既有效处理威胁又合理规划防御装备的防御，是本领域技术人员亟待解决的技术问题。

发明内容

有鉴于此，本发明的目的在于提供一种光电装备防御规划方法、装置、设备及存储介质，可以有效应对光电对抗时效性和复杂性，并能自动应对来袭威胁，减少人在回路，增强自动化控制。其具体方案如下：

一种光电装备防御规划方法，包括：

利用已有弹道数据训练BP神经网络，得到弹道模型；

根据光电防御装备特性设计光电防御装备防御模型；

利用所述弹道模型和所述光电防御装备防御模型建立武器目标对抗态势图；

利用蒙特卡洛树搜索算法和深度学习神经网络算法对所述武器目标对抗态势图进行预测，训练出深度神经网络；

通过训练好的所述BP神经网络根据输入的来袭导弹属性来预测任意时间的来袭导弹弹道参数；

通过训练好的所述深度神经网络根据所述来袭导弹弹道参数和光电防御装备参数来求解最优防御策略。

优选地，在本发明实施例提供的上述光电装备防御规划方法中，在建立武器目标对抗态势图的同时，还包括：

划定防御区域的不同程度及确立防御区域的毁伤损失分数。

优选地，在本发明实施例提供的上述光电装备防御规划方法中，利用蒙特卡洛树搜索算法和深度学习神经网络算法对所述武器目标对抗态势图进行预测，训练出深度神经网络，具体包括：

以所述武器目标对抗态势图为输入，构建深度神经网络；

在每次所述深度神经网络的迭代中产生自我对抗；

在设定间隔时间点利用自我对抗的深度学习神经网络算法进行训练，并利用蒙特卡洛树搜索算法进行搜索，输出当前对抗状态到下一个对抗状态的概率分布和对抗结果效能。

优选地，在本发明实施例提供的上述光电装备防御规划方法中，利用蒙特卡洛树搜索算法进行搜索，具体包括：

在选择阶段，从根节点或父节点出发向下选择出一个待被拓展的节点；

在扩展阶段，查找到待被拓展的节点对应的尚未拓展的动作，在搜索树中创建一个新节点作为待被拓展的节点的一个新子节点；

在模拟阶段，根据所述武器目标对抗态势图的数据，持续进行武器目标的仿真，直到对抗结束，将对抗结果的效能评分作为新节点的初始评分；

在反向传播阶段，在新节点的模拟结束之后，父节点以及从根节点到待被拓展的节点的路径上的所有节点根据本次模拟的结果来修改自己的累计效能评分；当到达设定迭代次数或设定迭代时间时，选择根节点下评分最好的子节点作为本次决策的预测结果。

优选地，在本发明实施例提供的上述光电装备防御规划方法中，所述武器目标对抗态势图为二维图，光电防御武器和来袭导弹各为一维。

优选地，在本发明实施例提供的上述光电装备防御规划方法中，通过训练好的所述深度神经网络根据所述来袭导弹弹道参数和光电防御装备参数来求解最优防御策略，具体包括：

在设定间隔时间点读取所述来袭导弹弹道参数和光电防御装备参数，利用训练好的所述深度神经网络，确定每个设定间隔时间点对应的毁伤损失分数，得到最优光电武器防御策略。

优选地，在本发明实施例提供的上述光电装备防御规划方法中，所述光电防御装备防御模型包括锁定时间，干扰有效时间，目标转换时间。

本发明实施例还提供了一种光电装备防御规划装置，包括：

BP神经网络训练模块，用于利用已有弹道数据训练BP神经网络，得到弹道模型；

装备防御模型设计模块，用于根据光电防御装备特性设计光电防御装备防御模型；

对抗态势图建立模块，用于利用所述弹道模型和所述光电防御装备防御模型建立武器目标对抗态势图；

深度神经网络训练模块，用于利用蒙特卡洛树搜索算法和深度学习神经网络算法对所述武器目标对抗态势图进行预测，训练出深度神经网络；

目标弹道参数预测模块，用于通过训练好的所述BP神经网络根据输入的来袭导弹属性来预测任意时间的来袭导弹弹道参数；

最优防御策略求解模块，用于通过训练好的所述深度神经网络根据所述来袭导弹弹道参数和光电防御装备参数来求解最优防御策略。

本发明实施例还提供了一种光电装备防御规划设备，包括处理器和存储器，其中，所述处理器执行所述存储器中保存的计算机程序时实现如本发明实施例提供的上述光电装备防御规划方法。

本发明实施例还提供了一种计算机可读存储介质，用于存储计算机程序，其中，所述计算机程序被处理器执行时实现如本发明实施例提供的上述光电装备防御规划方法。

从上述技术方案可以看出，本发明所提供的一种光电装备防御规划方法，包括：利用已有弹道数据训练BP神经网络，得到弹道模型；根据光电防御装备特性设计光电防御装备防御模型；利用弹道模型和光电防御装备防御模型建立武器目标对抗态势图；利用蒙特卡洛树搜索算法和深度学习神经网络算法对武器目标对抗态势图进行预测，训练出深度神经网络；通过训练好的BP神经网络根据输入的来袭导弹属性来预测任意时间的来袭导弹弹道参数；通过训练好的深度神经网络根据来袭导弹弹道参数和光电防御装备参数来求解最优防御策略。

本发明依据已有弹道数据训练模拟导弹弹道数据，使弹道模型预测与现实更为接近，可以为光电装备防御提供现实依据，不仅解决了模型与现实脱节的问题，也使模型在训练过程中对现实预测更加精确，另外蒙特卡洛树可以实现对对抗态势图的预测，神经网络可以实现对对抗态势图的纵向预测，这贴合人在作战中对态势的预测，因而具有预测的合理性，这样有效应对光电对抗时效性和复杂性，并能自动应对来袭威胁，减少了人在回路，以及增强了光电防御系统的自动化控制。此外，本发明还针对光电装备防御规划方法提供了相应的装置、设备及计算机可读存储介质，进一步使得上述方法更具有实用性，该装置、设备及计算机可读存储介质具有相应的优点。

附图说明

为了更清楚地说明本发明实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的光电装备防御规划方法的流程图；

图2为本发明实施例提供的蒙特卡洛树搜索算法的示意图；

图3为本发明实施例提供的光电装备防御规划装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种光电装备防御规划方法，如图1所示，包括以下步骤：

S101、利用已有弹道数据训练BP神经网络，得到弹道模型。

需要说明的是，利用已有弹道数据训练BP神经网络，使得该BP神经网络可以根据输入的初始位置，速度、俯仰角、偏航角、倾斜角弹道倾角、弹道偏角等来预测任意时间的导弹相关数据；该BP神经网络是一个三层BP神经网络，把未知状态看作一个黑箱，把初始弹道属性和导弹飞行时刻作为输入，将该飞行时刻的弹道属性作为输出，采用大量输入输出的实验数据训练BP神经网络，使网络能表达该未知状态方程，然后就可以用训练好的BP神经网络预测系统输出。

S102、根据光电防御装备特性设计光电防御装备防御模型。

具体地，根据现有光电防御装备特性设计光电防御装备的防御模型，包括锁定时间，干扰有效时间，目标转换时间等。

S103、利用弹道模型和光电防御装备防御模型建立武器目标对抗态势图。

在本发明中，抽取了导弹速度、位置、姿态角属性和光电干扰装备的锁定时间，干扰有效时间，目标转换时间等属性作为对抗模拟的计算数据，大大简化了战况的复杂态势，对作战方案的预测和评估有很大作用。

S104、利用蒙特卡洛树搜索算法和深度学习神经网络算法对武器目标对抗态势图进行预测，训练出深度神经网络。

需要说明的是，本发明中的蒙特卡洛树搜索+深度学习网络，已经在围棋等方面证实了其对复杂问题的解决能力。取一个最小时间单位t_Δ，每时间t_Δ观察目标(来袭导弹)状态和武器(光电防御装备中武器)状态，建立目标和武器的状态方程。其中，按照时间顺序构建蒙特卡洛树搜索。

S105、通过训练好的BP神经网络根据输入的来袭导弹属性来预测任意时间的来袭导弹弹道参数。

在实际应用中，利用光电防御系统相关侦查设备获取来袭导弹属性，即目标的初始位置、速度、俯仰角、偏航角、倾斜角弹道倾角、弹道偏角、攻角以及侧滑角等；目标的状态用训练好的BP神经网络来预测，武器开始时采取随机目标射击模式。这里的来袭导弹弹道参数(相关属性)，包括导弹在飞行时间中的导弹位置、导弹速度、俯仰角、偏航角、倾斜角弹道倾角、弹道偏角、攻角以及侧滑角等。具体地，该步骤中的BP神经网络是已经通过数据学习过的训练好的网络，在实际对抗中，已知目标的初始位置、速度、姿态角等属性，以及具体时刻t，将其输入BP神经网络，通过该神经网络可求得时刻t的目标的位置、速度、姿态角等属性。

S106、通过训练好的深度神经网络根据来袭导弹弹道参数和光电防御装备参数来求解最优防御策略。

在本发明实施例提供的上述光电装备防御规划方法中，依据已有弹道数据训练模拟导弹弹道数据，使弹道模型预测与现实更为接近，可以为光电装备防御提供现实依据，不仅解决了模型与现实脱节的问题，也使模型在训练过程中对现实预测更加精确，另外蒙特卡洛树可以实现对对抗态势图的预测，神经网络可以实现对对抗态势图的纵向预测，这贴合人在作战中对态势的预测，因而具有预测的合理性，这样有效应对光电对抗时效性和复杂性，并能自动应对来袭威胁，减少了人在回路，以及增强了光电防御系统的自动化控制。

进一步地，在具体实施时，在本发明实施例提供的上述光电装备防御规划方法中，在步骤S103建立武器目标对抗态势图的同时，还可以包括：划定防御区域的不同程度及确立防御区域的毁伤损失分数。具体地，根据专家意见构建防御区域保护效能地图，划定防御区域的重要程度，并以此确立防御区域毁伤损失分数，用于确立导弹攻击后的毁伤情况。

在具体实施时，在本发明实施例提供的上述光电装备防御规划方法中，步骤S104利用蒙特卡洛树搜索算法和深度学习神经网络算法对武器目标对抗态势图进行预测，训练出深度神经网络，具体可以包括：以武器目标对抗态势图为输入，构建深度神经网络；在每次深度神经网络的迭代中产生自我对抗；在设定间隔时间点利用自我对抗的深度学习神经网络算法进行训练，并利用蒙特卡洛树搜索算法(MCTS)进行搜索，输出当前对抗状态到下一个对抗状态的概率分布和对抗结果效能。

需要说明的是，深度神经网络由一个自我对抗的强化学习算法来训练，用MCTS来运行每一步：首先，深度神经网络初始化随机权重，在每个连续迭代中产生自我对抗；然后，在每个时间步骤t_Δ运行一个MCTS(MCTS第一次运行采取随机策略，随后的运行均依靠神经网络结果)，用于先前神经网络的迭代。以武器目标对抗态势图为输入，通过它经过许多卷积层，参数为θ，输出为一个向量(代表从该对抗状态到下一个对抗状态的概率分布)和一个标量(代表对抗结果的效能)。深度神经网络会尽量拟合蒙特卡洛树搜索的对抗状态转移情况和对抗结果效能，得到的新参数用于下一次自我对抗。通过不断迭代，训练出满足要求的深度神经网络。

当利用目标和武器当时状态形成武器目标对抗态势图后，根据训练好的深度神经网络来输出该对抗状态到下一个对抗状态的概率分布以及对抗结果效能，从而依据可能结果的对抗效能，可以选择最好的武器对抗方式。并且根据光电武器的干扰情况和BP神经网络可以预测下一时间间隔后的来袭目标状态，以再次求解下一个最优防御策略。

在具体实施时，在本发明实施例提供的上述光电装备防御规划方法中，如图2所示，上述步骤中利用蒙特卡洛树搜索算法(MCTS)进行搜索，具体可以包括以下步骤：

在选择阶段，从根节点(首次时选择从根节点开始)或父节点，也就是要做决策的局面R出发向下选择出一个最急迫待被拓展的节点N，即选择向哪个子节点方向生长，选择最需要被拓展的武器目标对抗状态。该武器目标对抗状态首次是随机选择，后续通过深度学习网络选择；

在扩展阶段，在选择阶段结束时候，查找到待被拓展的节点N对应的尚未拓展的动作A，在搜索树中创建一个新节点Nn作为待被拓展的节点N的一个新子节点；Nn的局面就是节点N在执行了动作A之后的局面，即选择的武器目标对抗状态下，选择下一时间t_Δ的武器目标对抗状态；

在模拟阶段，为了让新节点Nn得到一个初始的评分，根据武器目标对抗态势图的数据，持续进行武器目标的仿真，直到对抗结束，将对抗结果的效能评分作为新节点Nn的初始评分；

在反向传播阶段，在新节点Nn的模拟结束之后，父节点以及从根节点到待被拓展的节点N的路径上的所有节点根据本次模拟的结果来修改自己的累计效能评分；每一次迭代都会拓展搜索树，随着迭代次数的增加，搜索树的规模也不断增加；当到达设定迭代次数或设定迭代时间时，选择根节点下评分最好的子节点作为本次决策的预测结果。

在具体实施时，在本发明实施例提供的上述光电装备防御规划方法中，上述武器目标对抗态势图为二维图，光电防御武器和来袭导弹各为一维。这样将对抗态势化作二维图来看待，是对已知对抗模拟思路的一种补充。

在具体实施时，在本发明实施例提供的上述光电装备防御规划方法中，通过训练好的深度神经网络根据来袭导弹弹道参数和光电防御装备参数来求解最优防御策略，具体包括：在设定间隔时间点读取来袭导弹弹道参数和光电防御装备参数，利用训练好的深度神经网络，确定每个设定间隔时间点对应的毁伤损失分数，得到最优光电武器防御策略。

基于同一发明构思，本发明实施例还提供了一种光电装备防御规划装置，由于该装置解决问题的原理与前述一种光电装备防御规划方法相似，因此该装置的实施可以参见光电装备防御规划方法的实施，重复之处不再赘述。

在具体实施时，本发明实施例提供的光电装备防御规划装置，如图3所示，具体包括：

BP神经网络训练模块11，用于利用已有弹道数据训练BP神经网络，得到弹道模型；

装备防御模型设计模块12，用于根据光电防御装备特性设计光电防御装备防御模型；

对抗态势图建立模块13，用于利用弹道模型和光电防御装备防御模型建立武器目标对抗态势图；

深度神经网络训练模块14，用于利用蒙特卡洛树搜索算法和深度学习神经网络算法对武器目标对抗态势图进行预测，训练出深度神经网络；

目标弹道参数预测模块15，用于通过训练好的BP神经网络根据输入的来袭导弹属性来预测任意时间的来袭导弹弹道参数；

最优防御策略求解模块16，用于通过训练好的深度神经网络根据来袭导弹弹道参数和光电防御装备参数来求解最优防御策略。

在本发明实施例提供的上述光电装备防御规划装置中，可以通过上述六个模块的相互作用，使弹道模型预测与现实更为接近，为光电装备防御提供现实依据，不仅解决了模型与现实脱节的问题，也使模型在训练过程中对现实预测更加精确，另外蒙特卡洛树实现对对抗态势图的预测，深度神经网络实现对对抗态势图的纵向预测，这贴合人在作战中对态势的预测，因而具有预测的合理性，有效应对光电对抗时效性和复杂性，并能自动应对来袭威胁，减少了人在回路，以及增强了光电防御系统的自动化控制。

关于上述各个模块更加具体的工作过程可以参考前述实施例公开的相应内容，在此不再进行赘述。

相应的，本发明实施例还公开了一种光电装备防御规划设备，包括处理器和存储器；其中，处理器执行存储器中保存的计算机程序时实现前述实施例公开的光电装备防御规划方法。

关于上述方法更加具体的过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

进一步的，本发明还公开了一种计算机可读存储介质，用于存储计算机程序；计算机程序被处理器执行时实现前述公开的光电装备防御规划方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置、设备、存储介质而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

本发明实施例提供的一种光电装备防御规划方法，包括：利用已有弹道数据训练BP神经网络，得到弹道模型；根据光电防御装备特性设计光电防御装备防御模型；利用弹道模型和光电防御装备防御模型建立武器目标对抗态势图；利用蒙特卡洛树搜索算法和深度学习神经网络算法对武器目标对抗态势图进行预测，训练出深度神经网络；通过训练好的BP神经网络根据输入的来袭导弹属性来预测任意时间的来袭导弹弹道参数；通过训练好的深度神经网络根据来袭导弹弹道参数和光电防御装备参数来求解最优防御策略。本发明依据已有弹道数据训练模拟导弹弹道数据，使弹道模型预测与现实更为接近，可以为光电装备防御提供现实依据，不仅解决了模型与现实脱节的问题，也使模型在训练过程中对现实预测更加精确，另外蒙特卡洛树可以实现对对抗态势图的预测，神经网络可以实现对对抗态势图的纵向预测，这贴合人在作战中对态势的预测，因而具有预测的合理性，这样有效应对光电对抗时效性和复杂性，并能自动应对来袭威胁，减少了人在回路，以及增强了光电防御系统的自动化控制。此外，本发明还针对光电装备防御规划方法提供了相应的装置、设备及计算机可读存储介质，进一步使得上述方法更具有实用性，该装置、设备及计算机可读存储介质具有相应的优点。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的光电装备防御规划方法、装置、设备及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种光电装备防御规划方法，其特征在于，包括：

利用已有弹道数据训练BP神经网络，得到弹道模型；

根据光电防御装备特性设计光电防御装备防御模型；

通过训练好的所述深度神经网络根据所述来袭导弹弹道参数和光电防御装备参数来求解最优防御策略；

其中，利用蒙特卡洛树搜索算法和深度学习神经网络算法对所述武器目标对抗态势图进行预测，训练出深度神经网络，具体包括：

以所述武器目标对抗态势图为输入，构建深度神经网络；

在每次所述深度神经网络的迭代中产生自我对抗；

在设定间隔时间点利用自我对抗的深度学习神经网络算法进行训练，并利用蒙特卡洛树搜索算法进行搜索，输出当前对抗状态到下一个对抗状态的概率分布和对抗结果效能；

其中，利用蒙特卡洛树搜索算法进行搜索，具体包括：

2.根据权利要求1所述的光电装备防御规划方法，其特征在于，在建立武器目标对抗态势图的同时，还包括：

划定防御区域的不同程度及确立防御区域的毁伤损失分数。

3.根据权利要求1所述的光电装备防御规划方法，其特征在于，所述武器目标对抗态势图为二维图，光电防御武器和来袭导弹各为一维。

4.根据权利要求2所述的光电装备防御规划方法，其特征在于，通过训练好的所述深度神经网络根据所述来袭导弹弹道参数和光电防御装备参数来求解最优防御策略，具体包括：

5.根据权利要求1所述的光电装备防御规划方法，其特征在于，所述光电防御装备防御模型包括锁定时间，干扰有效时间，目标转换时间。

6.一种光电装备防御规划装置，其特征在于，包括：

最优防御策略求解模块，用于通过训练好的所述深度神经网络根据所述来袭导弹弹道参数和光电防御装备参数来求解最优防御策略；

其中，深度神经网络训练模块，具体包括：

深度神经网络构建单元，用于以所述武器目标对抗态势图为输入，构建深度神经网络；

自我对抗单元，用于在每次所述深度神经网络的迭代中产生自我对抗；

深度申请网络训练单元，用于在设定间隔时间点利用自我对抗的深度学习神经网络算法进行训练，并利用蒙特卡洛树搜索算法进行搜索，输出当前对抗状态到下一个对抗状态的概率分布和对抗结果效能；

其中，所述深度申请网络训练单元，具体包括：

待被拓展单元确定子单元，用于在选择阶段，从根节点或父节点出发向下选择出一个待被拓展的节点；

新节点确定子单元，用于在扩展阶段，查找到待被拓展的节点对应的尚未拓展的动作，在搜索树中创建一个新节点作为待被拓展的节点的一个新子节点；

新节点初始评分确定子单元，用于在模拟阶段，根据所述武器目标对抗态势图的数据，持续进行武器目标的仿真，直到对抗结束，将对抗结果的效能评分作为新节点的初始评分；

预测结果确定子单元，用于在反向传播阶段，在新节点的模拟结束之后，父节点以及从根节点到待被拓展的节点的路径上的所有节点根据本次模拟的结果来修改自己的累计效能评分；当到达设定迭代次数或设定迭代时间时，选择根节点下评分最好的子节点作为本次决策的预测结果。

7.一种光电装备防御规划设备，其特征在于，包括处理器和存储器，其中，所述处理器执行所述存储器中保存的计算机程序时实现如权利要求1至5任一项所述的光电装备防御规划方法。

8.一种计算机可读存储介质，其特征在于，用于存储计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的光电装备防御规划方法。