CN114004153A

CN114004153A - 一种基于多源数据融合的侵彻深度预测方法

Info

Publication number: CN114004153A
Application number: CN202111281334.7A
Authority: CN
Inventors: 王继民; 季昌政; 曹颖
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2021-11-01
Filing date: 2021-11-01
Publication date: 2022-02-01

Abstract

本发明公开了一种基于多源数据融合的侵彻深度预测方法，首先，划分对工程算法进行评价的评价区间；在每个评价区间，为每个不同评价区间选择若干较优的工程算法；采用选取的工程算法进行批量样本计算，得到工程计算仿真数据；然后，采用试验数据，建立基于GA‑BP神经网络的无量纲侵彻深度预测模型BP_exp；采用所有的工程计算仿真数据，建立基于GA_BP神经网络的无量纲侵彻深度预测模型BP_cand；最后，采用注意力机制对BP_exp和BP_cand模型输出进行加权融合，最终产生无量纲侵彻深度预测输出。本发明保证了数据具有一定的准确性，同时通过大量工程计算仿真数据避免了实验数据缺少对深度学习模型的影响，产生能够超出已有工程算法准确度的预测模型。

Description

一种基于多源数据融合的侵彻深度预测方法

技术领域

本发明属于信息处理技术领域，特别涉及一种基于多源数据融合的侵彻深度预测方法。

背景技术

防护材料介质的侵彻机理都是通过大量试验数据建立的经验算法来揭示的。侵彻破坏问题是一种非常复杂的物理过程，现有的方法均难以准确详实的还原实际情况，因此实际过程中，工程算法仍然占据重要地位。这类工程算法使用较为简单，只需给出数个参量，即可获得一个预估的无量纲侵彻深度数值。现有侵彻深度的工程算法是本发明人基于自己拥有的试验数据，通过拟合等方式产生的计算公式。受限于实验环境、经济条件等，使用的试验数据常常只能覆盖一部分参数区间，且大多为缩比尺的试验，这导致每个工程算法仅仅能在部分参数范围内使用，不能满足侵彻深度分析的全参数区域。同时工程算法的适用范围没有明确的衡量标准，而且也不清晰。因此如何利用各自工作者手上的试验数据结合现有的工程算法建立侵彻深度预测模型，提高预测的准确度，减轻工程实际应用中对众多工程算法选择存在的困难，成为侵彻研究的一个重要方向。

发明内容

发明目的：为了克服现有技术和应用中存在的不足，本发明提供一种基于多源数据融合的侵彻深度预测方法，充分发挥试验数据的优点，以及各参数区间中不同工程算法的优势，通过数据融合的方式将两者结合，提高侵彻深度预测精度。

技术方案：本发明提供一种基于多源数据融合的侵彻深度预测方法，具体包括以下步骤：

(1)根据领域专家知识及试验数据聚类，划分对工程算法评价的评价区间；

(2)为每个评价区间选择计算精度较优的工程算法，如果该评价区间没有试验数据，则根据领域专家知识选择计算精度较优的工程算法；如果有试验数据，则基于试验数据对工程算法进行性能分析，为选择计算精度较优的工程算法；

(3)在每个评价区间内，采用选取的工程算法进行批量样本计算，得到工程计算仿真数据；

(4)采用试验数据，建立基于GA_BP神经网络的无量纲侵彻深度预测模型BP_exp，网络结构采用BP神经网络，利用遗传算法对网络结构的超参数进行优化；

(5)采用工程计算仿真数据，建立基于GA_BP神经网络的无量纲侵彻深度预测模型BP_cand；

(6)采用注意力机制对BP_exp和BP_cand模型输出进行加权融合，产生GA_Atten_BP_Fusion模型，利用该模型最终产生无量纲侵彻深度预测输出。

进一步地，步骤(1)所述的根据领域专家知识划分评价区间时，由专家给出确定主要的区间划分参数，并给出参数的分段，然后将不同参数的分段组合构成评价区间；根据试验数据聚类进行评价区间划分时，首先计算特征和无量纲侵彻深度之间的相关系数，选择相关系数最高的前k个特征量对试验数据聚类，由专家对聚出的类范围进行评估或者微调，最终确定评价区间。

进一步地，所述步骤(2)的根据试验数据对算法评价的实现过程如下：

针对评价区间R,提取评价区间R内的试验数据构成试验样本集S_R，假设为R选择g个待评价工程算法a₁、a₂、…、a_g，利用S_R和a₁、a₂、…、a_g计算无量纲侵彻深度，并与实际值进行比较，计算算法精度；采用平均绝对百分比误差MAPE作为工程算法计算精度的评价标准：

其中，y_i为真实无量纲侵彻深度值，p_i为计算的无量纲侵彻深度值,n为该评价区间内样本总量；

假设MAPE₁、MAPE₂、…、MAPE_g分别表示工程算法a₁、a₂、…、a_g在所分析参数区间的平均绝对百分比误差，将MAPE_i(i＝1,…,g),按照从低到高排序，取前k个误差对应的算法作为该参数区间的较优的算法。

进一步地，所述步骤(3)实现过程如下：

将工程算法计算所需要的参数在评价区间其范围内进行离散化，然后进行组合，构成大量的输入向量，然后采用该评价区间的工程算法进行计算，得到工程计算仿真数据；假设当前算法需要m个输入参数，每个参数离散化取值分别为p₁,p₂,…,p_m种，那么所有的组合为

种，即当前评价区间中，一个工程算法的批量计算可以产生

个仿真数据；对于实数取值的参数，确定参数的最大值和最小值以及变化步长，就可以离散出该参数所有的可能取值；对枚举类型的参数，可枚举的取值确定了该参数的可能取值。

进一步地，所述步骤(4)包括以下步骤：

(41)构造GA-BP神经网络数据集，工程计算仿真数据集按照矩阵形式构造，具体格式如下：

其中，最后一列为模型输出，即无量纲侵彻深度，其他列为模型的输入，n为数据数量；对输入矩阵进行归一化，将原始的输入矩阵的每列变换到[0,1]区间内；

(42)确定GA_BP神经网络模型的输入特征向量，输出为无量纲侵彻深度，并且统一采用国际单位；

(43)BP神经网络的染色体编码及初始种群生成：

根据式(3)确定隐含层数量H，由遗传算法来确定各隐含层的节点数以及超参数Batch_size和Epoch，以保证网络的性能最优：

H＝log₂ n (3)

其中，H代表隐含层的数量，n代表输入层的节点数，每层隐含层中所含的神经元个数通过遗传算法决定；

GA_BP神经网络中待编码的参数共H+2个，即包含H+2个种群，并设每个种群中包含r个个体；

确定染色体构成后，对初始种群进行编码，并开始不断迭代、进化，直到达到预设迭代次数t后，算法停止，输出t代种群中的最优解；初始化方式为对初始种群进行随机编码，即初始种群中的r个个体的每个基因位均由0或1随机构成；

(44)GA_BP神经网络的适应度函数设计：

第i个体的适应度f_i定义为个体对应的神经网络解在测试集上的误差err_i与1的差值：

f_i＝1-err_i (4)

(45)GA-BP神经网络的遗传操作：

采用自适应的遗传算法进行遗传操作：通过每轮的个体的适应度来动态确定每个个体的变异概率和交叉概率；当个体的适应度越低时，该个体需要提高交叉和变异的概率，进行更新产生后代；当个体的适应度越高时，该个体需要降低交叉和变异的概率，加以保留。

进一步地，所述步骤(6)实现过程如下：

(61)GA_Atten_BP_Fusion的输入InputFeatures为2维特征向量，由BP_exp神经网络模型和BP_cand神经网络模型输出的无量纲侵彻深度经过向量拼接而成；

(62)注意力机制包含全连接层和Softmax层，全连接层后得到对应的注意力权重分布，Softmax层公式表示如下：

Attn(InputFeatures)＝Softmax(MLP(InputFeatures) (5)

其中，MLP代表全连接层的多层感知机；经过Softmax归一化操作后，样本的注意力权重满足：

其中，n代表输入向量的维度，且Attn_i∈[0,1]；

经过加权融合输出的无量纲侵彻深度融合值如下：

其中，pred_{BP_exp}、pred_{BP_cand}分别为BP_exp神经网络模型预测值与BP_cand神经网络模型预测值，Attn₁、Attn₂分别为其对应的注意力权重。

进一步地，所述步骤(45)包括以下步骤：

(451)采用比例法作为选择算子，即种群中各个个体被选中繁衍子代的概率与其适应度函数值比例相当，种群中的第i个个体被选择的概率为P_i，个体的适应度越高，其被选择的概率就越高：

(452)交叉算子模拟胚胎发育过程中染色体交换的过程，使用单点交叉作为交叉算子，每次只交叉一个位置，第i个个体交叉概率Pci：

其中，f_max为群中最高的适应度，f_min为群中最低的适应度，k₁为个体适应度最低时的交叉概率，k₂为适应度最高时个体的交叉概率，保证k₁>k₂，f_i为第i个个体的适应度；

对第i个个体，首先随机确定交叉位置，然后按照概率Pci与父个体交叉配对，父子个体间交换部分信息，生成两个新的子代个体，保留第一个子代个体作为子代种群中的新个体；当个体的二进制编码串长度为l时，父代个体间的交叉位置有l-1个可选，此时单点交叉法可产生l-1种不同的新个体；

(453)对第i个个体，按变异概率Pm_i进行变异，随机选取个体基因的变异位置，若该位置发生变异，其基因若为0则变异为1，反之亦然，第i个个体变异概率Pmi如下：

其中，f_max为群中最高的适应度，f_min为群中最低的适应度，k₃为个体适应度最低时的变异概率，k₄为适应度最高时个体的变异概率，保证k₃>k₃，f_i为第i个个体的适应度。

有益效果：与现有技术相比，本发明的有益效果：本发明相对于单个工程算法，本发明能够在较宽的参数区域实现准确的预测；相比较与现有的仅仅基于试验数据建立的彻深度预测的机器学习模型和深度学习模型，本发明能够采用大量的可信度较高的工程计算仿真数据，提高深度学习模型的准确度；相比较一些将工程算法输出进行融合的预测方法，本发明能够避免不同参数区域时，某些工程算法输出产生较大误差，从而影响到模型的准确度。

附图说明

图1为本发明的流程图；

图2为测试集对不同实验模型的MAPE图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

如图1所示，本发明公开的一种基于多源数据融合的侵彻深度预测方法，结合领域专家知识划分对工程算法进行评价的评价区间；在每个评价区中，选择在本区间计算精度较高的k个工程算法；在每个评价区间，采用选择的工程算法进行批量样本计算，得到工程计算仿真数据；采用试验数据，建立基于GA-BP神经网络的无量纲侵彻深度预测模型BP_exp；采用所有的工程计算仿真数据，建立基于GA_BP神经网络的无量纲侵彻深度预测模型BP_cand；采用注意力机制融合BP_exp和BP_cand的输出，建立最终产生无量纲侵彻深度预测输出。本发明在不同参数区间采用不同工程算法产生仿真数据，既保证了数据的准确性，同时通过大量工程算法仿真数据避免了实验数据缺少对深度学习模型的影响，产生能够超出已有工程算法准确度的预测模型。

步骤1：根据领域专家知识或者试验数据聚类划分工程算法评价区间。预测输出量为无量纲侵彻深度，输入特征量主要包括弹体质量、弹体速度、着靶角度、目标密度等众多特征量，而且不同的工程算法采用的特征量也尽不同。评价区间的划分一般是基于这些重要的特征量进行。

根据领域专家知识划分评价区间时，由专家给出确定主要的区间划分特征，并给出特征的分段，然后将不同特征的分段组合构成评价区间。如首先选择划分特征量，并对特征量进行区间划分。如，将速度划分为低速[0,340)、中速[340,650)、高速[650,)，单位为m/秒；弹体质量划分为低质量[0,50)、中质量[50,500)和高质量[500,)，单位为千克。对这些特征量的区间进行组合，从而将评价空间划分成不同的区域。如根据弹体的速度、质量等划分，产生“低速低质量”、“中速中质量”以及“高速高质量”等不同的评价区间。

根据试验数据聚类进行评价区间划分时，首先计算输入特征和无量纲侵彻深度之间的相关系数，选择相关系数最高的前k个特征量对试验数据进行聚类，由专家对聚类结果进行评估和微调，最终聚出的每个类范围对应一个评价区间。如做混凝土侵彻深度分析时，得到的前两个相关系数最高的特征为着靶速度和弹体质量，然后采用这两个特征量进行试验数据聚类。

评价区间组合要是完备的，能够覆盖所选择特征量组合的所有区域。

步骤2：评价工程算法，选择工程算法。在划分出的每个评价区间中，选择出k个在该评价区间计算精度较高的工程算法。选择的方法包括两个步骤：

(1)根据已有的应用实践总结资料，分析各种工程算法的适用区间，如混凝土侵彻深度算法Young公式，一般在中速区间效果较好。

(2)在(1)无法获得足够的信息前提下，采用试验数据进行算法性能分析。针对评价区间R,提取评价区间R内的试验数据构成试验样本集S_R，假设为R选择g个待评价工程算法a₁、a₂、…、a_g，利用S_R和a₁、a₂、…、a_g计算无量纲侵彻深度，并与实际值进行比较，计算算法精度。采用平均绝对百分比误差MAPE作为工程算法计算精度的评价标准：

其中，y_i为真实无量纲侵彻深度值，p_i为计算的无量纲侵彻深度值,m为该评价区间内样本总量。

步骤3：在每个评价区间内，采用选取的工程算法进行批量样本计算，得到工程计算仿真数据。

在每个评价区间进行批量工程计算得到工程计算仿真数据。将工程算法计算所需要的参数在评价区间其范围内进行离散化，然后进行组合，构成大量的输入向量，然后采用该评价区间的工程算法进行计算，得到工程计算仿真数据。假设当前算法需要m个参数，每个参数离散化取值分别为p₁,p₂,…,p_m种，那么所有的组合为

种，即当前评价区间中，一个工程算法的批量计算可以产生

个仿真数据。参数范围一般包括两种：

1)实数取值范围。针对具有实数取值范围的参数，确定参数的最大值和最小值，以及变化步长，然后自动离散生成该参数的所有取值可能。如中速度区间[340,650)，最小值为340，最大值为650，假设步长设置为10，则可以生成31种取值。

2)枚举取值。如弹头形状，包括平头弹、卵型弹、尖头弹等，取值设置为枚举类型，包括：0.72、0.8、1.14三种取值。

通过批量工程计算得到工程计算仿真数据。由于工程算法也是通过大量试验数据拟合产生的，因此在工程算法精确度较高的区间利用工程算法进行计算，得到的仿真数据具有较高的准确性。把多个该区间的工程算法计算得到的工程仿真数据混合作为训练模型的数据集。

步骤4：采用试验数据，建立基于GA_BP神经网络的无量纲侵彻深度预测模型BP_exp，网络结构采用BP神经网络，利用遗传算法对网络结构的超参数进行优化。主要包括以下步骤：

(1)构造GA-BP神经网络数据集。工程计算仿真数据集按照矩阵形式构造，具体格式如下：

其中，最后一列为模型输出，即无量纲侵彻深度，其他列为模型的输入，n为数据数量；不同特征的量纲差异较大，因此需要对输入矩阵进行归一化，本发明使用min-max方法，将原始的输入矩阵的每列变换到[0,1]区间内，其转换方法如下：

其中，

为经过min-max归一化后的数据，x为未经变换的原始值，x_min、x_max分别为其最小、最大值。按照8:2比例将数据集划分为训练集和测试集。

(2)GA_BP神经网络模型的输入特征向量。输入包括着靶速度、弹体质量、弹体直径、靶标抗压强度、靶标材料密度、弹头CRH、弹头形状因子、弹头长度等8个特征量，输出为无量纲侵彻深度，并且统一采用国际单位。

(3)BP神经网络的染色体编码及初始种群生成。

BP神经网络隐含层数量的增加可帮助提升网络的精度，但可能导致过拟合等不良影响，根据式(4)确定隐含层数量H，由遗传算法来确定各隐含层的节点数以及超参数Batch_size和Epoch，以保证网络的性能最优。

H＝log₂ n (4)

其中，H代表隐含层的数量，n代表输入层的节点数，本发明中为8。每层隐含层中所含的神经元个数通过遗传算法决定。

GA_BP神经网络中待编码的参数共H+2个，即包含H+2个种群，并设每个种群中包含r个个体(染色体)。

确定染色体构成后，对初始种群进行编码，并开始不断迭代、进化，直到达到预设迭代次数t后，算法停止，输出t代种群中的最优解。初始化方式为对初始种群进行随机编码，即初始种群中的r个个体的每个基因位均由0或1随机构成。

(4)GA_BP神经网络的适应度函数设计。

BP神经网络模型在测试集上的误差越小，则该模型的表现越好，对待解问题的适应度越高，因此第i个体的适应度f_i定义为个体对应的神经网络解在测试集上的误差err_i与1的差值，如下式所示：

f_i＝1-err_i (5)

(5)GA-BP神经网络的遗传操作

遗传算法的遗传操作包括三个算子：选择、交叉与变异。本发明采用自适应的遗传算法进行遗传操作。通过每轮的个体的适应度来动态确定每个个体的变异概率和交叉概率。总体的思路是：当个体的适应度越低时，该个体需要提高交叉和变异的概率，进行更新产生后代；当个体的适应度越高时，该个体需要降低交叉和变异的概率，加以保留。

1)选择算子通过对自然界中自然选择现象的模拟从父代种群中挑选表现良好的个体。个体的适应度越大，则其在选择过程中有更高的几率繁衍子代个体。本发明采用最常见的比例法(轮盘赌法)作为选择算子，即种群中各个个体被选中繁衍子代的概率与其适应度函数值比例相当。种群中的第i个个体被选择的概率P_i可表示为下式，个体的适应度越高，其被选择的概率就越高。

2)交叉算子模拟胚胎发育过程中染色体交换的过程，本发明使用单点交叉作为交叉算子，每次只交叉一个位置。第i个个体交叉概率Pci如下：

f_max为群中最高的适应度，f_min为群中最低的适应度，k₁为个体适应度最低时的交叉概率，k₂为适应度最高时个体的交叉概率，保证k₁>k₂。f_i为第i个个体的适应度。

对第i个个体，首先随机确定交叉位置，然后按照概率Pci与父个体交叉配对，父子个体间交换部分信息，生成两个新的子代个体，保留第一个子代个体作为子代种群中的新个体。当个体的二进制编码串长度为l时，父代个体间的交叉位置有l-1个可选，此时单点交叉法可产生l-1种不同的新个体。

3)变异算子模拟胚胎发育过程中可能出现的基因变异现象，对第i个个体，按变异概率Pm_i进行变异，随机选取个体基因的变异位置。对于本发明采用的二进制编码方式而言，若该位置发生变异，其基因若为0则变异为1，反之亦然。第i个个体变异概率Pmi如下：

f_max为群中最高的适应度，f_min为群中最低的适应度，k₃为个体适应度最低时的变异概率，k₄为适应度最高时个体的变异概率，保证k₃>k₃。f_i为第i个个体的适应度。

在遗传操作中，主要的超参数包括：种群规模r、最大迭代次数t，实际使用中，种群规模r与最大迭代次数t的取值越大，遗传算法搜索到的潜在解理论上就越接近最优解，但种群规模与最大迭代次数的值设得越大，遗传算法搜索解空间就越耗时，因此需要找到一个平衡点。

步骤5：基于工程计算仿真数据和GA_BP神经网络模型，训练得到BP_cand模型。

步骤6：利用试验数据，采用注意力机制对BP_cand模型和BP_exp模型输出建立基于权重的融合，从而建立Attn_GA_BP_Fusion融合模型，该模型输出作为最终的输出。

对无量纲侵彻深度预测的流程为，输入经过BP_cand和BP_exp分别产生输出，并通过GA_Attn_BP_Fusion模型进行融合，产生最终的无量纲侵彻深度值。

(1)输入特征InputFeatures为2维特征向量，由BP_exp神经网络模型和BP_cand神经网络模型输出的无量纲侵彻深度经过向量拼接而成。

(2)注意力机制包含全连接层和Softmax层。全连接层后得到对应的注意力权重分布，Softmax层可以在进行归一化的同时使得相对重要的输入的权重更加突出，其公式表示如下，其中MLP代表全连接层的多层感知机。

Attn(InputFeatures)＝Softmax(MLP(InputFeatures) (9)

经过Softmax归一化操作后，样本的注意力权重满足：

其中，n代表InputFeatures的维度，且Attn_i∈[0,1]，满足加权数据融合理论中对于权重的要求，因此将不同数据源对应的注意力权重作为加权数据融合过程中的权重以对不同网络的无量纲侵彻深度决策进行融合。

(3)经过加权融合输出待测数据的无量纲侵彻深度融合值，可表示为：

为了验证基于多源数据融合的侵彻深度预测方法的性能，以混凝土侵彻深度预测为例进行实验，将本发明与已有算法进行对比。参与比较的算法包括：简单平均算法(SimpleAverage，SA)、BP神经网络算法以及现有的经验算法。其中，简单平均算法直接将BP_exp和BP_cand神经网络模型输出的无量纲侵彻深度决策进行简单平均作为无量纲侵彻深度的融合值；基于BP神经网络算法的融合方法使用BP神经网络求解权值以对BP_exp和BP_cand神经网络模型输出的无量纲侵彻深度决策进行融合。

为方便对比，将试验数据集按8:2比例划分为训练集与测试集，将工程计算仿真数据集作为BP_cand模型的训练集，在测试集上上比较本发明提出的方法与现有方法的性能差异，评价指标采用平均绝对百分比误差MAPE。

首先进行评价区间划分，根据速度和质量将混凝土侵彻深度工程算法划分为四个评价区间，如表1所示。

表1混凝土侵彻深度工程算法评价区间表

根据已有的算法文档以及试验数据，在四个区间对工程算法进行选择，各区间选择四个工程算法，如表2所示。

表2各评价区间工程算法候选表

在每个区间进行批量工程计算，对各参数按照表3方式离散化，产生组合样本，并利用各评价区间的候选工程算法计算，产生工程计算仿真数据。

表3经验算法伪数据源生成参数表

在训练GA-BP神经网络的过程中，设定每个遗传种群个个体数r＝30，最大迭代次数为t＝10，交叉概率k₁＝0.9,k₂＝0.1；变异概率k₃＝0.1,k₄＝0.01，对解空间定义如表4：

表4GA-BP解空间定义表

经过10轮迭代后，GA-BP参数如表5。

表5轮迭代后GA-BP参数及误差表

各模型在测试集上的MAPE误差如图2所示，图中虚线表示传统的经验算法中对应最低的MAPE误差，从图中可以看出，基于BP神经网络的模型(BP-exp、BP-cand)和数据融合方法(SA、BPF、GA-Attn-BP-Fusion)的模型在测试集上的MAPE误差整体上优于未采用数据融合方法的模型。基于试验数据源的BP-exp模型的MAPE误差略低于基于经验算法伪数据源的BP-cand模型；数据融合方法中，基于BP-exp和BP-cand预测结果简单平均的SA模型的误差最高，基于遗传算法和注意力机制的加权融合模型的MAPE误差最低。

Claims

1.一种基于多源数据融合的侵彻深度预测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于多源数据融合的侵彻深度预测方法，其特征在于，步骤(1)所述的根据领域专家知识划分评价区间时，由专家给出确定主要的区间划分参数，并给出参数的分段，然后将不同参数的分段组合构成评价区间；根据试验数据聚类进行评价区间划分时，首先计算特征和无量纲侵彻深度之间的相关系数，选择相关系数最高的前k个特征量对试验数据聚类，由专家对聚出的类范围进行评估或者微调，最终确定评价区间。

3.根据权利要求1所述的基于多源数据融合的侵彻深度预测方法，其特征在于，所述步骤(2)的根据试验数据对算法评价的实现过程如下：