CN115222271A

CN115222271A - 基于神经网络的武器目标分配方法

Info

Publication number: CN115222271A
Application number: CN202210899699.4A
Authority: CN
Inventors: 吴建设; 张倩; 张祖磊; 李亚锋; 郜君君; 陈亮
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2022-07-28
Filing date: 2022-07-28
Publication date: 2022-10-21

Abstract

本发明提出了一种基于神经网络的武器目标分配方法，主要解决现有技术无法适用于无人机群打击地面目标这种对时效性要求极高的连续作战场景。其方案是：对已发现目标进行威胁评估并对威胁度排序，依次逐个地对目标分配武器；通过毁伤概率估计得到各个武器对当前待分配目标的打击适宜度，指挥官根据实战经验调整部分适宜度，形成训练数据集和测试数据集；通过训练集对全连接网络模型进行训练，并通过测试数据集选择最佳的全连接网络模型，使用所选的最佳全连接网络模型对每个目标依次进行武器目标分配。本发明不仅能效利用历史作战信息和指挥官的作战经验，而且能减少分配时间，可用于无人机群打击地面目标这种对时效性要求极高的连续作战场景。

Description

基于神经网络的武器目标分配方法

技术领域

本发明属于计算机仿真技术领域，特别涉及一种武器目标分配方法，可用于无人机群对地面的目标打击。

背景技术

武器目标分配问题的关键在于解决将杀伤能力不同的武器，通过分配具有不同威胁的目标可达到作战效能最大的作战效果，其属于一类多资源约束的优化调度问题。

对于大规模作战的场景，武器目标分配问题的复杂度会随着武器和目标数量增加急剧提升，确定最佳解决方案的问题固有的复杂性包括有限的武器资源、必须应对威胁的时间窗口、武器系统之间的负载平衡，以及各种任务和资源的复杂相互依赖性。武器目标分配问题被证明是NP完全问题，对于大规模的分配问题，传统的方法无法在多项式时间内对这种问题进行有效求解。当前多用的遗传算法进行求解时，对快速的动态连续作战场景很难适配，时效性也很难满足实际要求。

另外，当前实际中存在利用历史作战信息的需求，即希望通过从历史作战信息中获得经验，进而更好地指导未来的作战。传统的目标分配方法，无法利用历史作战信息。如基于遗传算法的武器目标分配方法，每次分配都是通过优化固定不变的目标函数来获得分配结果，无法利用之前作战产生的分配信息。

无人机群目标分配可以看作一种指派问题，解决该问题的现有方法主要有矩阵法、启发式遗传模拟退火算法、匈牙利算法。这些方法都是将武器目标分配问题看成静态的，即在某一个固定的时间窗口下进行优化求解，由于在优化求解的过程中无人机的位置和目标的位置都在发生变化，求解的时间越长，位置变化就越明显，分配的效能就降低越多，因此这些复杂度高的方法很难适用在无人机群打击地面目标这样对时效性要求极高的连续作战场景；另外，这些方法都基于确定的规则，很难随着作战的进行和指挥官策略的改动进行动态调整，即无法利用历史作战信息和指挥官作战经验，不能满足实际作战中对智能化决策的要求。

发明内容

本发明的目的在于针对上述现有技术的不足，提出一种基于神经网络的武器目标分配方法，以利用历史作战信息和指挥官作战经验，提高武器目标分配的时效性和应变能力，满足实际作战中对智能化决策的要求。

为实现上述目的，本发明的技术方案包括如下：

(1)根据已获取的敌方目标类型及状态信息，采用层次分析法对敌方目标的进行威胁程度评估，T_j∈[0,1]表示目标j的威胁程度；

(2)根据对敌方目标的威胁程度估计结果，确定当前发现目标的打击优先度大小，并从大到小排序得到打击顺序表，威胁度越大打击优先度越高；

(3)根据打击顺序表依次选择目标进行打击：

3a)对于选择的目标j，根据我方的武器信息和环境信息，并综合敌方目标信息，对武器打击目标的毁伤概率进行估计，计算出各个武器对该目标的毁伤概率P_ij；

3b)根据毁伤概率得到武器i对当前选择目标的打击的毁伤效果P_ij×T_j和效费比

计算出各个武器对该目标的打击适宜度F_i：

其中，α∈[0,1]为毁伤效果权重，v_j为目标j的价值，c_i为武器i的造价；

3c)选择适宜度最大的可用的武器作为打击该目标的分配结果，最后指挥官根据作战经验和实际情况判断该分配结果是否需要调整，如果需要调整，指挥官人工调整相应的打击适宜度；

(4)重复武器目标分配核心步骤(1)-(3)得到A和B两种训练数据，即A为基于规则的作战数据，B为指挥官根据作战经验和实际情况调整过的数据，将A和B数据按照9：1的比例组成训练集和测试集，其中训练集中数据A有90000条，数据B有10000条，测试集中数据A有900条，数据B有100条；

(5)设每架无人机携带两种类型的武器，获取第i架无人机的空间坐标[x_wi,y_wi,z_wi]和当前选择目标的空间坐标[x_j,y_j,z_j]，得到在M架无人机下的维度为3*M+7的网络模型输入向量X：

X＝[x_w1,y_w1,z_w1,...,x_wi,y_wi,z_wi,...,x_wM,y_wM,z_wM,N,E,x_j,y_j,z_j,Belong_j,Type_j]

其中，N为自然环境影响因子，E为电磁环境影响因子，Belong_j为目标所属连队，Type_j为目标的类型；

(6)构建由多层全连接组成的神经网络模型

其中隐藏层的层数为k，每层的节点数为L＝[l₁,l₂,···,l_k]，输出向量为：

维度为2*M，表示各个武器对当前选择目标的打击适宜度；

(7)利用训练集，通过随机梯度下降法算法训练网络模型

利用测试集验证训练后的网络的拟合误差，选择最佳的k和L，得到训练好的网络模型

(8)随着作战进行数据B的不断扩充，每隔一段时间重复步骤(4)-步骤(7)重新训练网络，得到新的网络模型

(9)对当前选择目标j的特征向量X，通过训练好的模型

得到输出向量

使用该神经网络模型

替代3a)和3b)步骤中的适宜度F_i计算过程，重复武器目标分配步骤(1)-步骤(3)。

附图说明

图1为本发明的实现总流程图；

图2为本发明中威胁评估子流程图；

图3为威胁评估多层因素集；

图4为使用基于神经网络的目标分配方法进行目标分配的子流程图；

图5为仿真环境示意图；

图6为练集和测试集上的正确率随训练代数的变化。

具体实施方式

本发明是针对无人机群对地面目标动态连续打击的场景，该场景下所有的地面目标不是同时出现的，且假设：

敌方目标兵种为陆军，以连队为单位在地面行军，敌方目标种类为12种，6个连队根据实际需求配备着不同类型的目标若干。敌方目标以连队为单位，按照一定路线移动。

我方发现敌方动向后，M架无人机起飞，前往目标上空巡航，伺机对目标进行打击。无人机可携带的导弹类型数量为4种，每架无人机可携带两种导弹若干。我方无人机从给的起点到终点进行巡航，根据情报系统随机地、间隔地发现目标，无人机在巡航途中进行武器目标分配。

无人机在巡航的过程中选择当前被发现的地面目标进行打击，使得打击效能最大化。如何和在这种场景下进行目标分配，是本发明需要解决的问题。

以下结合附图对本发明的实施例和效果做进一步详细说明。

参照图1，本实例的实现步骤如下：

步骤1：目标威胁评估。

参照图2，目标威胁评估的具体实现步骤如下：

1.1)建立威胁评估因素集，如图3：

根据在无人机群进攻作战的场景中，敌方地面部队常见的目标有坦克、装甲车、运兵车、侦察车，选取其目标能力、目标意图、距离这三个因素作为目标威胁评估的一级因素；

将目标能力对威胁程度的影响细分为机动能力、干扰能力和防空能力三个二级因素，将距离因素分为目标距无人机的距离和目标距要地的距离两个二级因素；

1.2)对各因素指标进行量化和规范化：

1.2.1)将目标的机动能力、干扰能力、防空能力设为定性指标，分别记为A₁,A₂,A₃，并将三种能力划分为强、中、弱和无四个等级，各个等级对应的量化值分别为0.9、0.6、0.3、0；

1.2.2)将目标意图I分为三大类，分别为进攻、侦察和支援，各个意图对应的量化值分别为0.9、0.7、0.4；

1.2.3)将距离因素设为定量指标，其分为距无人机的距离d₁、距要地的距离d₂，计算方式为：

其中，d'_k为目标和第k个无人机或要地的距离，n为无人机或要地的数量，i＝1表示距无人机的距离d₁，i＝2表示距要地的距离d₂；

1.2.4)将距离d₁，d₂规范化为[0-1]之间的值D₁，D₂，具体计算方式为：

μ＝1.0为距离指标最大值，当距离小于10km时，威胁很大，当距离大于100km时，威胁很小，μ的最小值为0.1，当距离大于10km小于100km时，威胁度随距离的增大而减小，指标μ随距离增大线性减小；

1.3)采用AHP法根据确定各个因素的重要程度给出各因素的权重：

1.3.1)确定判断矩阵：

根据判断矩阵A＝(a_ij)_n×n为对称矩阵的性质，通过步骤1.1)中的威胁评估因素集，设置三个关于指标重要程度的判断矩阵A、B₁、B₂，其中A为目标能力、目标意图、距离三个一级因素的判断矩阵，B₁为目标能力的三个二级因素的判断矩阵，B₂为距离的两个二级因素判断矩阵，A和B₁为3阶方阵，B₂为2阶方阵；

1.3.2)判断矩阵标度定义表，如表1所示：

表1.判断矩阵标度定义

因素i和因素j相比	标度值
		同等重要	1
稍微重要	3
		较强重要	5
强烈重要	7
		极端重要	9
两相邻判断的中间值	2，4，6，8

1.3.3)专家根据判断矩阵标度定义表和实际情况和判断矩阵标度定义表确定三个判断矩阵A、B₁、B₂的标度值，即专家根据经验比较两两因素的重要程度，给出各个判断矩阵的标度值：

例如对于目标能力的判断矩阵A按照如下情况给出标度值：

如果专家认为目标能力和目标意图相比目标能力更重要，且重要程度介于同等重要和稍微重要之间，则根据表1，该矩阵第一行第二列的值A₁₂＝2；

如果专家认为距离和目标能力相比距离更重要，且重要程度介于稍微重要和较强重要之间，则根据表1，该矩阵第三行第一列的值A₃₁＝4；

如果专家认为距离和目标意图相比距离更重要，且重要程度介于较强重要和强烈重要之间，则根据表1，该矩阵第三行第二列的值A₃₂＝6；

最终得到判断矩阵

按照与判断矩阵A同样地方法，由专家确定判断矩阵B₁、B₂为：

1.3.4)对所述三个判断矩阵A、B₁、B₂进行一致性检验：

分别对步骤1.3.3)中给出的判断矩阵A、B₁、B₂实例进行一致性检验，即对应各个判断矩阵，根据一致性指标

和表2中平均随机一致性指标RI标准值，计算一致性检验比例

其中λ_max为要检验矩阵的最大特征值，n为要检验矩阵的维度；

若CR＜0.10，则认为该判断矩阵通过一致性检验；

否则，修改判断矩阵，直到通过一致性检验。

表2.平均随机一致性指标RI标准值

矩阵阶数n	1	2	3	4	5	6	7	8	9	10
											RI	0	0	0.58	0.90	1.12	1.24	1.32	1.41	1.45	1.49

本实例判断矩阵A的最大特征值λ_max＝3.013，一致性检验比例CR＝0.011<0.10，通过一致性检验；判断矩阵B₁的最大特征值λ_max＝3.004，一致性检验比例CR＝0.004<0.10，通过一致性检验。B₂维度为2，一定满足一致性；

1.3.5)使用算数平均法近似计算各个判断矩阵最大特征值λ_max对应的特征向量W：

本实例分别对步骤1.3.3)中给出的判断矩阵A、B₁、B₂计算其特征向量，通过计算，得到：

判断矩阵A的最大特征值λ_max＝3.013，对应的特征向量W_A＝[0.204，0.105，0.691]；

判断矩阵B₁的最大特征值λ_max＝3.004，对应的特征向量

判断矩阵B₂的最大特征值λ_max＝2.000，对应的特征向量为

1.3.6)对各个因素加权求得目标j的威胁度T_j：

其中，A₁，A₂，A₃分别为目标机动能力、干扰能力、防空能力的量化值，I为目标意图的量化值，D₁、D₂分别为距无人机的距离和距要地的距离的量化值，W_A[1]表示目标能力判断矩阵A最大特征值对应的特征向量的第一个值即0.204。

步骤2：根据对敌方目标的威胁程度估计结果，确定当前发现目标的打击优先度大小，并从大到小排序得到打击顺序表Attack_List，威胁度越大打击优先度越高。

步骤3：根据打击顺序表Attack_List依次选择目标进行打击。

3.1)毁伤概率估计：

对于选择的目标j，根据我方的武器信息和环境信息，并综合敌方目标信息，对武器打击目标的毁伤概率进行估计，计算出各个武器对该目标的毁伤概率P_ij，毁伤概率由多个要素共同影响，使用用各个要素量化数值的乘积表示毁伤概率：

P_ij＝N×E×W_ij×H_j×M_ij

其中，P_ij表示武器i对敌方目标j的毁伤概率，N表示自然环境影响因子，E表示电磁对抗影响因子，W_ij表示武器i打击敌方目标j时的能力影响因子，H_j表示敌方目标j防御能力影响因子，M_ij表示武器i和敌方目标j匹配度影响因子，各要素量化方法如下：

3.1.1)在不考虑自然环境和电磁对抗的影响时，N＝1，E＝1；

3.1.2)根据武器的基础命中精度，战斗部重量和打击距离这三个影响因素，计算我方武器的能力影响因子W_ij：

W_ij＝P_base×P_w×P_d

其中，P_base为武器i的基础命中概率，即在环境良好、无电磁干扰、打击距离合适，导弹系统无故障的情况下导弹的命中概率；

P_w为武器威力对精度的影响因素，量化方式为：

w为导弹弹头重量(kg)，w越大P_w就接近1；

P_d为距离影响因子距离对打击精度的影响，取值如下：

r为武器的射程，d为武器和目标的距离，在射程范围[0,r]内，距离对精度的影响忽略，距离影响因子P_d＝1；在射程和1.5倍射程内[r,1.5r]，距离对精度的影响逐渐变大，距离大于1.5r时，距离影响因子P_d＝0，武器无法命中；

3.1.3)根据目标装甲程度、防空能力计算敌方目标j防御能力影响因子H_j：

其中

和

分别为目标j的装甲程度和防空能力的量化值，取值为[1,10]之间的整数。

和

之和越小，H_j就越接近于1；

和

之和越大，H_j就越接近于0.95，即目标的装甲程度、防空能力越强，毁伤概率就越小；

3.1.4)计算武器和目标匹配度对毁伤概率的影响因子：

由于同一武器对不同目标的毁伤概率不同，不同武器对同一目标的毁伤概率不同的情况，说明武器作战是有针对性的，例如穿甲弹对坦克这种重装甲的毁伤概率就大于分散步兵，因此，穿甲弹对坦克目标的毁伤概率相应就较大，将该特性定义为武器与目标的匹配度

根据匹配度

计算武器目标匹配度对毁伤概率的影响因子M_ij：

其中，

为武器i和目标j的匹配度值，取值为[1,10]之间的整数，根据历史作战经验和专家知识归纳总结得出；

3.2)确定目标函数：

在无人机进攻作战场景下，武器目标分配的基本原则是使目标分配结果在满足各个约束的条件下，尽可能的提高作战效能，降低作战代价。

3.2.1)计算毁伤效果

为了尽可能的提高作战效能，需要尽可能地以毁伤概率大的武器打击威胁度高目标，即最大化毁伤效果c，计算如下：

c＝P_ij×T_j，

其中，T_j为目标j的威胁程度，P_ij为武器i对目标j的毁伤概率；

3.2.2)定义效费比：

为了实现目标分配效能的最大化，不能仅仅考虑如何最大程度的摧毁目标，还要考虑单位武器弹药产生的作战效能。例如，大型导弹和小型导弹造价相差10倍，两者打击同一个小型目标时，大型导弹的毁伤概率可能略微高于小型导弹，此时如果只考虑更好的摧毁目标，不考虑代价，将选择大型导弹进行打击。另外，在导弹对某个目标的毁伤概率很低的情况下，仅仅追求毁伤不考虑代价，这样的分配情况会造成很大的浪费，影响后续作战效能的发挥。

为了避免浪费情况，使得武器能够更加合理的使用，由此引出效费比e的定义：

其中v_j为目标j的摧毁价值即目标装备的造价；c_j为武器i的发射代价，即指武器的造价，P_ij为武器i对目标j的毁伤概率；

3.2.3)根据毁伤效果和效费比构造目标函数：

对于作战进程中m个武器，n个目标的一个分配任务，目标分配的一个分配方案X为m×n的矩阵，该矩阵第i行第j列的值X_ij为：

在目标分配场景中，如果不将敌方目标摧毁，我方将受到攻击而产生损失，因此通常会分配多个武器打击目标，尽可能地将其摧毁。由于无人机打击地面场景下的目标分配任务与一般的目标分配有所差异，对目标打击的“紧急程度”不高，即使没有将目标摧毁，也不会立即产生损失。因此需要设定在一次分配任务中需要满足的约束条件，即每个目标最多分配一个武器，每个武器最多发射一次。

综合考虑毁伤程度、效费比，在设定的约束条件下，通过加权求和得到目标函数F：

其中，α和β为毁伤效果和效费比的权重，约束

表示一次分配任务中，一个武器最多使用一次，约束

表示一次分配任务中，一个目标最多分配一个武器；

3.2.3)将目标函数F简化为单目标分配的目标函数F_i：

为了降低上述目标函数的求解的复杂度，将多目标分配简化为单目标的分配，即根据打击顺序表Attack_List，依次选择选择单个目标进行打击，计算出各个武器对该目标的毁伤概率，然后综合考虑毁伤效果和效费比选择最适宜进行打击的武器，得到简化后的目标函数为：

其中，α∈[0,1]为毁伤效果权重，v_j为目标j的价值，c_i为武器i的造价，F_i为武器i对当前选择目标的打击适宜度；

3.3)选择适宜度最大的可用的武器作为打击该目标的分配结果，并由指挥官根据作战经验和实际情况判断该分配结果是否需要调整：

如果需要调整，指挥官人工调整相应的打击适宜度F_i为F_i′；

如果不需要调整，，使用已计算的打击适宜度F_i进行分配打击。

步骤4：构造训练数据集和测试数据集。

重复武器目标分配核心步骤1—步骤3，将得到A和B两种数据，即A为基于规则的作战数据F_i，B为指挥官根据作战经验和实际情况在A的基础上调整过的数据F_i'；

4.1)数据集的形式：

数据A中，每个数据样本的形式为(X,Y_A)，数据B中，每个数据样本的形式为(X,Y_B)，其中，X为一个目标和所有武器对应的特征，Y_A、Y_B为各个武器对该目标的打击适宜度向量，其构成如下：

设每架无人机携带两种类型的武器，获取第i架无人机的空间坐标[x_wi,y_wi,z_wi]和当前选择目标的空间坐标[x_j,y_j,z_j]，得到在M架无人机下的维度为3*M+7的特征向量X：

对M架无人机，每架无人机有两种武器，Y_A、Y_B的维度为2*M，表示各个武器对当前选择目标的打击适宜度；

Y_A＝[F₁,F₂,···,F_i,···,F_n]，

Y_B＝[F₁,F₂,···,F_i',···,F_n]，

其中，A数据的Y_A为各个武器对当前选择目标的打击适宜度向量；

B数据的Y_B表示指挥官调整第i个武器的打击适宜度后，对当前选择目标的打击适宜度向量；

4.2)构造训练数据集和测试数据集：

在特征向量X的各个特征的可行域中，按照均匀分布随机生成不同的特征向量X，然后计算各个武器的打击适宜度F_i组成Y_A，进而构成数据A；

在数据A中，指挥官需选择要调整的数据，将F_i调整为F_i'组成Y_B，构成数据B；

将A和B数据按照9：1的比例构造训练集和测试集，其中训练集中数据A有90000条，数据B有10000条，共100000条数据；

测试集中数据A有900条，数据B有100条，共1000条数据；如果经指挥官调整的数据B在训练集中数量不够10000条或在测试集中不够100条，则通过重复复制的方式进行构造，使得训练集里的数据B达到10000条，测试集里的数据B达到100条。

步骤5：构建由多层全连接组成的神经网络模型

构建由多层全连接组成的神经网络模型

其中隐藏层的层数为k，每层的节点数为L＝[l₁,l₂,···,l_k]，激活函数使用的ReLU函数，输出向量为：

维度为2*M，表示各个武器对当前选择目标的打击适宜度，网络模型

的结构如下：

输入层→第1隐藏层→第2隐藏层→…→第k隐藏层→输出层。

步骤6：训练并选择最佳网络模型

6.1)利用训练集，通过随机梯度下降法算法训练网络模型

6.1.1)将最新的数据B加入到训练集和测试集，设置初始学习率α＝0.1，小批次样本数量mini_batch＝200；

6.1.2)对输入特征向量X＝[x₁,x₂,···,x_i,···,x_n]的每一维x_i进行归一化，得到归一化后的特征向量：X'＝[x′₁,x'₂,···,x′_i,···,x'_n]，其中：

其中，

为第i维的特征的最小值，

为第i维的特征的最大值；

6.1.3)将多输出均方误差损失函数定义为神经网络

的损失函数L(θ)：

其中，θ为神经网络模型

的参数，Y为F_N，是网络模型

的预测值，Y为Y_A、Y_B，是样本的真实值，n是一个小批次的样本数量；

6.1.4)设置衰减系数k＝0.01，λ＝epoch＝100，对学习率α和模型参数θ的每个θ_j进行更新，即：

6.1.5)不断重复步骤6.1.4)，直到λ＝100，停止训练过程，得到确定k和L下的模型

6.2)选择选择最佳的k和L，得到训练好的模型

为了更直观地，定义网络

输出的适宜度最大的武器和真实分配的武器相同的比例为正确率：

其中，n为网络

输出的适宜度最大的武器和真实分配的武器相同的数量，N为测试集样本总量；

先通过设置不同的k和L得到的不同神经网络模型

并对其每个模型使用步骤6.1)的过程进行训练；

再利用测试集计算各个模型的误差或正确率，选择误差或正确率最小的k和L对应的模型作为训练好的模型

步骤7：神经网络模型

进行更新。

随着作战进行，指挥官不定地调整网络输出的

得到Y_B，从而使数据B得到不断扩充，数据A保持不变，每隔一段时间，通过步骤4—步骤6，使用扩充后的训练集和测试集训练和选择网络模型；

随着作战进行而更新的网络模型

包含着历史作战信息和指挥官的作战经验，不仅使得目标分配的速度大大加快，也而且得目标分配更加灵活和智能。

步骤8：在无人机群打击地面目标的场景下，使用练好的网络模型

进行目标分配。

考虑到神经网络正向传播的速度很快，使用神经网络模型

输入一个目标的信息，输出各个武器对该目标的打击适宜度，本实例对各个时间窗口发现的目标按顺序分别进行快速地武器分配，以满足动态的无人机作战场景下的目标分配任务对决策时间的严苛要求，其具体实现是：

对当前选择目标j的特征向量X，通过训练好的模型

得到输出向量

使用该神经网络模型

替换步骤3.1)和步骤3.2)中的适宜度F_i计算得到的Y_A的过程，然后重复进行武器目标分配的核心步骤1—步骤3；

参照图4，本步骤的具体实现如下：

8.1)初始化作战场景：

将一次作战分成多个时间窗口，一个时间窗口作为一次分配任务，可分配若干个目标；

设置敌方各类型目标的数量、初始位置、移动路线、移动速度等信息；设置我方无人机数量，各个无人机携带武器类型及数量、初始位置、移动路线、移动速度等信息，初始化时间窗口T＝1；

8.2)对当前已发现且未被摧毁的目标进行威胁评估，并按威胁度从大到小排序得到打击顺序表Attack_List；

8.3)确定当前时间窗口下打击目标数量n_a，满足条件0≤n_a≤min(N_u,N_{attack_List})，即每个时间窗口下打击目标数量n_a不能大于可用的武器数量N_u，且不超过当前打击顺序表Attack_List的目标数量N_{attack_List}。

8.4)在Attack_List中选择前n_a个目标进行分配打击；

8.5)对当前的战场状态进行更新:

A：根据目标分配结果并按照毁伤概率判断被打击目标是否被摧毁，进行敌方目标状态更新；

B：更新每架无人机的余单弹量；

C：根据敌方防空武器的毁伤概率和距离，判断我方各个无人机是否被摧毁，对我方无人机状态进行更新；

D：根据目标移动路线和速度，更新各个未被摧毁的目标位置；

E：根据无人机的飞行路线和速度，更新无人机的位置。

8.6)作战终止条件判断：

指挥官根据具体情况可设置终止条件为：携带弹药用尽、无人机全被摧毁、连续5个时间窗口没有目标被发现、弹药使用量达到总携带量的80％或特定关键目标被摧毁。

8.7)令T＝T+1，进入下个时间窗口，判断作战终止条件是否触发：

若触发作战终止条件，则停止作战；

若没有触发作战终止条件，则返回步骤8.2)。

本发明效果可通过以下仿真实验进一步说明。

一、仿真条件

仿真实验将无人机平台携带各种类型的武器对地面敌方目标实施打击的作战场景作为主要的模拟仿真实验场景，进行敌我双方对抗场景设定，场景描述如下：

设我方武器库有不同类型的武器若干，导弹类型及参数如表3，一共四种导弹类型。

表3.我方导弹及参数汇总表

武器(导弹)型号	基础精度	威力(战斗部重量/kg)	射程/km	造价/万元
					w<sub>1</sub>	0.90	10	10	40
w<sub>2</sub>	0.85	5	8	15
					w<sub>3</sub>	1.00	20	18	100
w<sub>4</sub>	0.95	20	40	250

作战平台为某型号无人机，可携带各种不同类型的空地导弹，限制每架无人机可携带两种类型的导弹。分别设定两种配置方案如表4，

表4.无人机携带导弹配置方案

无人机配置方案	w<sub>1</sub>	w<sub>2</sub>	w<sub>3</sub>	w<sub>4</sub>
					配置一	0	13	0	3
配置二	10	0	6	0

配置一为无人机携带w₂型导弹13枚，携带w₄型导弹3枚；

配置二为无人机携带w₁型导弹10枚，携带w₃型导弹6枚。

设敌方目标由若干地面装甲连队构成，拥有多种不同装甲战车、坦克、防空武器等装备，目标类型及参数如表5，一共有12种目标类型。

表5.目标类型及参数汇总表

4种武器和12种目标的匹配程度，如表6。

表6.武器——目标匹配度M_ij

敌方的基本作战单位为连队，不同的连队作战功能不同，配备不同类型的装备若干，连队配置表如表7：

表7.不同作战连队配置

仿真环境中一共设置6个敌方作战连队，连队二和连队三以及连队五连队六配置相同，说明两个连队发挥的作战功能相同，属于同一种类型的连队。

无人机群打击地面目标的作战的仿真场景参照图5，敌方单位为作战连队，我方单位为携带不同类型和数量导弹的无人机，在坐标系中对敌我双方各个单位的位置进行描述，仿真环境建立在三维坐标中，战场空间大小设置为40km*40km*4km，地面上分布着敌方六个作战连队，如图5中的蓝色点的六个群落，群落里中不同形状的点代表不同类型的目标，一共12种类型。敌方连队以一定的路线和速度进行移动。红色圆点代表我方的无人机，两种配置方案各5架，共10架。分布在2km～4km的空中，以一定的路线在空中飞行。绿色方块为我方的一处防卫要地，要在一定程度上对该要地进行保护，无人机和目标的连线表示该时间窗口下的分配结果，地面敌方目标由蓝变红代表该目标被摧毁。

我方的侦察系统对地面展开侦查，每个一段时间会将侦察发现的目标信息发送给无人机，无人机根据收到的敌方目标信息进行目标分配，并实施打击。由于侦察系统不能同时发现所有敌方目标，仿真环境中使用随机选取一定数量目标的方式来模拟这种场景。

仿真模拟环境中作战约束条件设置如下：

其一，由于气象和电磁等不稳定因素的影响，侦察探测系统无法同时发现所有的地面目标，在某个特定的时间窗口内，仅能发现有限的目标。

其二，每架无人机上的每种类型导弹在一个时间窗口下最多只能发射一次。

其三，如果适宜度最优武器对应的弹药量为0，或者携带该武器的无人机被摧毁，或者在当前时间窗口下该武器已被占用，那么顺延至适宜度次优的武器。

二、仿真实验内容

仿真1，确定网络结构。

构造10万个样本的训练集和1000样本的测试集。在隐藏层层数为1，节点数为50的网络上进行训练，仿真训练集和测试集上的正确率随训练代数的变化，结果如图6所示。从图6可以看出这样的神经网络模型能够拟合这样的数据集，准确率K₁高于90％，说明基于神经网络的目标分配算法具有可行性。

为了确定全连接网络模型最合适的隐藏层层数和每层节点数，设置不同的隐藏层层数k和隐藏层节点数L进行分别进行训练，分别训练1000代，其结果如表8所示。

表8.不同网络结构的正确率

从表8可以看出，在隐藏层为1、节点数为500的网络训练集上的正确率达到了1.0，这是由于网络节点过多造成了过拟合现象。在隐藏层为1，节点数为200的网络测试集正确率最高，因此可选择该网络结构

进行武器目标分配。

仿真2，在静态和动态这两种不同的作战场景下，分别用本发明的和现有基于遗传算法的目标分配方法进行目标分配实验。

所述遗传算法，其参数设置为：种群数量N＝100，最大迭代次数T_max＝100。神经网络模型为隐藏层1层，节点数200个的全连接网络

所述静态场景设置为：所有目标一次性被发现，10架无人机的20个导弹在同一个时间窗口下实施打击任务。在该时间窗口下，所有的目标和武器平台的位置都是不发生变化的，即静态的。

所述动态场景设置为：所有目标间隔地被发现，10架无人机的20个导弹在多个时间窗口下实施打击任务。在每个时间窗口下，有5个目标被发现，且所有的目标和武器平台的位置都是变化的，这种的动态场景是更接近于真实战场环境的场景。

实验一：在静态场景下对比两种方法在一个时间窗口下的分配效能，效能评价指标使用目标函数F。实验分别α＝[0.4,0.5,0.6,0.7,0.8]的目标函数下进行10次重复实验，得到两种方法分配结果的运行所需时间T(s)和目标函数值F，实验结果如表9和表10。

表9.不同权重参数α下的分配所需时间T(s)

表10.静态场景下不同权重参数α下的目标函数值F

实验结果表9可以看出：本发明分配的时间效率相较于基于遗传算法的武器目标分配方法高出三个数量级，具有高时效性，能够适用于无人机打击地面目标这样的快速连续作战场景。

实验结果表10可以看出：因为本发明对目标函数F进行了简化，分配效能要略差于基于遗传算法的武器目标分配方法，但这种效能差距在对时效性要求极高的无人机群打击地面目标的作战场景下是可以接受的，且较小效能的减小带来时间效率的极大提升。

实验二：在动态场景下由于每个时间窗口发现5个目标，该实验每四个时间窗口凑够20个目标，利用基于遗传算法的目标分配方法每四个窗口分配一次，利用本发明在每个时间窗口下进行分配，因此每种导弹可使用多次，使得导弹的使用更加灵活。

对比两种方法在四个时间窗口下的分配效能，效能评价指标使用目标函数F。实验分别α＝[0.4,0.5,0.6,0.7,0.8]的目标函数下进行10次重复实验，得到两种方法分配结果的目标函数值F，实验结果如表11。

表11.动态场景下不同权重参数α下的目标函数值F

实验结果表11可以看出：在不同权重参数α下的目标函数下，本发明的评价指标F均高于基于遗传算法的目标分配方法。表明本发明在动态场景下的分配效能优于现有的基于遗传算法。本发明的高时效性能够带来分配效能的提升，而现有的时效性较差的算法无法应用于动态快速变化的战场环境。

Claims

1.一种基于神经网络的武器目标分配方法，其特征在于，包括如下步骤：

(3)根据打击顺序表依次选择目标进行打击：

计算出各个武器对该目标的打击适宜度F_i：

(6)构建由多层全连接组成的神经网络模型

维度为2*M，表示各个武器对当前选择目标的打击适宜度；

(7)利用训练集，通过随机梯度下降法算法训练网络模型

(9)对当前选择目标j的特征向量X，通过训练好的模型

得到输出向量

使用该神经网络模型

2.根据权利要求书1所述的方法，其特征在于，所述步骤(1)中采用层次分析法对敌方目标的进行威胁程度评估，实现如下：

(1a)建立评估因素集：

在无人机群进攻作战的场景中，根据敌方地面部队常见的目标有坦克、装甲车、运兵车、侦察车，选取其目标能力、目标意图、距离这三个因素作为目标威胁评估的一级因素；

将目标能力对威胁程度的影响细分为机动能力、干扰能力和防空能力三个二级因素；

将距离因素分为目标距无人机的距离和目标距要地的距离两个二级因素；

(1b)对各因素指标进行量化和规范化：

将目标的机动能力、干扰能力、防空能力设为定性指标，分别记为A₁,A₂,A₃，并将三种能力划分为强、中、弱和无四个等级，各个等级对应的量化值分别为0.9、0.6、0.3、0；

将目标意图I分为三大类，分别为进攻、侦察和支援，各个意图对应的量化值分别为0.9、0.7、0.4；

将距离因素设为定量指标，其分为距无人机的距离d₁、距要地的距离d₂，计算方式为

其中，d'_k为目标和第k个无人机或要地的距离，n为无人机或要地的数量；

将距离d₁，d₂规范化为[0-1]之间的值D₁，D₂，具体计算方式为：

(1c)采用AHP法根据确定各个因素的重要程度给出各因素的权重；

(1c1)通过专家经验得到关于指标重要程度的判断矩阵A、B₁、B₂，其中A为目标能力、目标意图、距离三个一级因素的判断矩阵，B₁为目标能力的三个二级因素的判断矩阵，B₂为距离的两个二级因素判断矩阵，A和B₁的为3阶方阵，B₂为2阶方阵；

(1c2)根据判断矩阵标度定义表，专家根据经验比较两两因素的重要程度，给出各个判断矩阵的标度值；

(1c3)对所述三个判断矩阵A、B₁、B₂进行一致性检验：

对应各个判断矩阵，根据一致性指标

和平均随机一致性指标RI标准值，计算一致性检验比例

其中λ_max为要检验矩阵的最大特征值，n为要检验矩阵的维度，

若CR＜0.10，则认为该判断矩阵通过一致性检验；

否则，修改判断矩阵，直到通过一致性检验。

(1c4)使用算数平均法近似计算各个判断矩阵最大特征值λ_max对应的特征向量：

得到三个判断矩阵的权重向量W_A，W_B1，W_B2；

(1c5)加权求得目标j的威胁度T_j：

3.根据权利要求书1所述的方法，其特征在于，所述步骤(3)中对武器打击目标的毁伤概率进行估计，是先将影响毁伤概率的各要素量化，再用各个要素量化数值的乘积表示毁伤概率：

P_ij＝N×E×W_ij×H_j×M_ij

其中，P_ij表示武器i对目标j的毁伤概率，N表示自然环境影响因子，E表示电磁对抗影响因子，W_ij表示我方武器i能力影响因子，H_j表示敌方目标j防御能力影响因子，M_ij表示武器i和目标j匹配度影响因子。

4.根据权利要求书1所述的方法，其特征在于，所述步骤(6)中的神经网络模型

其输入特征向量X的维度为3*M+7，隐藏层的层数k，每层的节点数为L＝[l₁,l₂,···,l_k]，输出向量为F_N的维度为2*M，M为无人机数量，其结构为：

输入层→第1隐藏层→第2隐藏层→…→第k隐藏层→输出层。

5.根据权利要求书1所述的方法，其特征在于，所述步骤(7)中利用训练集，通过随机梯度下降法训练网络模型

实现如下：

(7a)将最新的数据B加入到训练集和测试集，设置初始学习率α＝0.1，小批次样本数量mini_batch＝200；

(7b)对输入特征向量X＝[x₁,x₂,···,x_n]的每一维x_i进行归一化：

得到归一化后的特征向量X'＝[x₁',x'₂,···,x'_n]；

(7c)将多输出均方误差损失函数定义为神经网络

的损失函数L(θ)：

其中，θ为神经网络模型

的参数，Y为网络预测值，Y为样本真实值，n是一个小批次的样本数量；

(7d)模型参数更新：设置衰减系数k＝0.01，λ＝epoch＝100，对学习率α和模型参数θ的每个θ_j进行更新，即：

。

6.根据权利要求书1所述的方法，其特征在于，所述步骤(7)中利用测试集验证训练后的网络的拟合误差，选择最佳的k和L，实现如下：

先通过设置不同的k和L得到的不同神经网络模型

并对其每个模型进行训练；

再利用测试集计算各个模型的误差，选择误差最小的k和L对应的模型作为训练好的模型