CN114036610A

CN114036610A - 一种基于数据增强的侵彻深度预测方法

Info

Publication number: CN114036610A
Application number: CN202111298466.0A
Authority: CN
Inventors: 王继民; 曹颖; 季昌政
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2021-11-04
Filing date: 2021-11-04
Publication date: 2022-02-11

Abstract

本发明公开了一种基于数据增强的侵彻深度预测方法，对预先获取的毁伤数据进行数据异常检测，将毁伤数据分成N个待增强参数区间，并选出少数样本区间；建立SMOTE数据增强方法对少数样本区间的样本进行数据增强；使用Tomeklinks技术对通过数据增强生成的样本进行数据清洗，并将清洗后的样本加入到原数据集中，构成新的扩充数据集；并对数据进行归一化处理；利用网格搜索和交叉验证方法选取最优模型参数，建立GS‑SVR模型；对实际的毁伤数据进行预测。本发明通过新增少数区间样本以规避数据量较少、存在异常值及样本不平衡带来的计算误差，提高模型整体的泛化性，更好地实现对侵彻深度值的预测。

Description

一种基于数据增强的侵彻深度预测方法

技术领域

本发明属于信息技术领域，特别涉及一种基于数据增强的侵彻深度预测方法。

背景技术

由于混凝土结构强度值相对较大，且工程防护能力优越，在军事设施中起到了重要的作用。随着各种先进钻地武器侵彻能力的增强，弹体的侵彻能力和毁伤效果也逐步提升。弹丸侵彻过程复杂，控制因素较多，使混凝土侵彻贯穿非常困难。

目前，国内关于侵彻深度的研究越来越多，多种传统的确定侵彻深度的方法，包含经验公式法、数值计算法和其他一些方法。经验公式主要是基于大量实测数据建立侵彻深度经验公式，包括纯经验公式和不纯经验公式，大约有40种，范围和条件各不相同，主要有Young公式、Bernard公式、别列赞公式、Forrestal公式等。弹体侵彻深度模拟或预测常用的方法是数值计算法，应用大型数值模拟软件，多采用有限元法、有限差分法、离散元法、修正模型参数等等，数值模拟对侵彻目标的模拟结果依赖于网格划分和本构参数，不确定性较大，重复工作量较大，耗时较长，而且严重依赖计算机的能力。传统的方法通常需要根据大量的实测数据进行多次计算，而由于进行大量抗侵彻实验存在成本高昂、周期长、动态数据采集困难等缺点，由此造成样本数据量较少、数据缺乏及样本分布不均衡等问题，张爽等人通过总结对比现有的开坑深度模型以及试验数据的回归分析，揭示了弹体质量和初速度对开坑深度的重要影响。

机器学习与数据挖掘研究，在互联网中的应用成果显著，主要得益于在互联网领域中数据的产生与收集。随着国防通信和互联网的迅速发展，大数据相关产业也应运而生。深度学习取得巨大成功的主要因素来自于大量的标注数据和计算机性能的大幅度提升。机器学习的方法通常用于研究高速弹丸对靶体的侵彻与贯穿过程，神经网络是很好的回归分析的常用机器学习模型,对输入参数和输出目标间具有非线性关系自动提取能力，广泛应用与侵彻贯穿当中。例如，建立了基于BP神经网络的动能杆毁伤指标预测模型；通过将拟合小样本试验数据的BP神经网络和经验公式进行数据融合，用融合模型进行侵彻深度预测，建立一种基于数据融合的混凝土侵彻深度预测模型，提高混凝土侵彻深度预测精度；利用人工神经网络方法较好地预测了混凝土材料侵彻深度并获得满意效果。但神经网络良好的预测能力依赖大量的样本数据，而侵彻试验中一般很难提供大量数据，而且侵彻数据样本量少而且存在离散稀疏的区间，稀疏区间造成分布不平衡，深度学习中的网络结构直接用于不均衡数据效果会很差。因此，小样本学习方法结合数据增强方法，将其应用到毁伤效应预测中，预期效果较好。

发明内容

发明目的：为了克服现有技术中存在的问题，本发明提供一种基于数据增强的侵彻深度预测方法，通过新增少数区间样本以规避数据量较少、存在异常值及样本不平衡带来的计算误差，从而更好地预测侵彻深度值。

技术方案：本发明提供一种基于数据增强的侵彻深度预测方法，具体包括以下步骤：

(1)对预先获取的毁伤数据进行基于偏差的数据异常检测，对采集到的试验样本中的“离群点”进行异常样本检测与剔除；

(2)基于K-Means算法将经过步骤(1)处理过的毁伤数据分成H个待增强参数区间；

(3)对H个待增强参数区间进行分析，确定不平衡区间之间的样本数据数量及不平衡比例，选出少数样本的区间；建立SMOTE数据增强方法对少数样本区间的样本进行数据增强；

(4)使用Tomek links技术对通过数据增强生成的样本进行数据清洗，并将清洗后的样本加入到原数据集中，构成新的扩充数据集S1；

(5)对扩充数据集S1内的所有毁伤数据进行归一化处理；

(6)从每个区间中随机划分训练数据TrainData和测试数据TestData；

(7)利用网格搜索和交叉验证方法选取最优模型参数，建立GS-SVR模型；

(8)利用GS-SVR预测模型对实际的毁伤数据进行预测，利用测试数据TestData来验证模型的性能。

进一步地，所述步骤(1)实现过程如下：

将样本中的着靶速度、弹体质量、弹体直径、靶标抗压强度、CRH、弹头形状因子、弹头长度、靶标材料密度8个特征作为输入，侵彻深度实际值作为输出；首先使用所有的样本训练BP神经网络，用BP神经网络拟合所有试验数据，得到各样本预测值与侵彻深度实际值的绝对百分比误差；BP神经网络的结构为输入层节点数为8，隐藏层节点分别为16，32，64，输出层节点数为1；基于3σ准则，若绝对百分比误差超过3σ，则该样本为异常样本，需要剔除异常样本，规避异常数据在数据增强时带来更多的噪声。

进一步地，所述步骤(2)实现过程如下：

使用K-Means算法对混凝土侵彻效应试验数据进行区间聚类,初始化k个聚类中心,然后计算每个对象到聚类中心的欧式距离；依次比较距离，将进行比较的各数据样本分配到距离最小的簇中，然后以当前簇中所有样本的均值来更新簇心，需要选取合适的k值。

进一步地，所述步骤(3)实现过程如下：

对少数区间的样本通过数据增强的方式来进行新增样本，通过KNN算法，从k个最近的邻居随机选择邻居，S为少数区间样本，x∈S，通过欧式距离计算S中的少数样本x到所有样本的距离，并找出x的k近邻，通过不平衡比例设置一个采样比例来确定采样倍数N，从其k个邻居中随机选取若干个样本，假设选择的近邻为o,对每一个随机选出的样本o，分布与原样本按照如下公式构建新的样本

o_new＝o+rand(0,1)×(x-o)

其中，rand(0,1)代表0到1内的随机数，不包括0和1。

进一步地，所述步骤(4)实现过程如下：

对于少数区间样本集中X每个样本xⁱ，d^j为选中的距离最近的样本，按照公式：

选出距离最近的K个样本{d¹,d²,…,d^k},其中M表示样本的特征数，

表示xⁱ的第m个特征，

表示d^j样本的第m个特征，D(xⁱ,d^j)表示样本xⁱ与d^j之间的欧式距离；设{d¹,d²,…,d^k}中有

个多数区间样本，按照以下两个公式来判断样本xⁱ的类型C，C取0、1、-1时分别为正常样本、边界样本、噪声数据：

通过公式

计算少数区间样本数据集中的每个样本xⁱ到多数区间样本n^j的距离D(xⁱ,n^j)，使得公式D(xⁱ,d^k)<D(xⁱ,n^j)或者D(n^j,d^k)<D(xⁱ,n^j)成立，则称(xⁱ,n^j)是一个Tomeklinks对，从每个Tomeklinks对中删除多数区间样本点，根据r和C计算出少数区间中数据增强后的每个样本周围的样本类别比例，找出C为-1和1的噪声与边界类样本并剔除。

进一步地，所述步骤(7)实现过程如下：

网格搜索是将需要选取的模型参数的取值区间，按照一定的规则划分为若干小区间，然后计算出变量取值的所有组合以及各个组合所对应的目标误差，并通过比较择优选择出在该区间目标误差最小时所对应的参数组合；对参数核函数、惩罚因子和核函数系数的取值区间按照一定的搜索步长进行网格划分；通过将估计函数的参数通过5折交叉验证的方法进行优化,将数据集平均分成不相交的5个子集，一个子集作为测试集，其余子集作为训练集训练，训练集与测试集不相交，得到5个模型的指标，将5个模型指标取平均值，作为5折交叉验证的模型的指标结果。

有益效果：与现有技术相比，本发明的有益效果：本发明提出的基于数据增强混凝土侵彻深度预测方法，在数据质量的问题上，由于原数据集中存在一定的异常值，采用本发明提出的方法，规避了异常数据可能带来的误差以及对预测结果的影响；在数据数量的要求上，因为侵彻数据敏感、保密、试验数据难以获得，数据量较少，通过数据增强增加样本数据，解决现有方法中数据紧缺的问题；同时，在数据分布的问题上，解决了传统方法预测中数据分布的数据不平衡问题，最大程度上平衡各区间内的数据，减少样本不平衡带来一定的误差，从而提高模型整体的泛化性，更好地实现对侵彻深度值进行预测。

附图说明

图1为本发明的流程图；

图2为具体实施例中的实验测试结果评价指标对比图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

本发明提出一种基于数据增强的侵彻深度预测方法，如图1所示，具体包括以下步骤：

步骤1：对预先获取的毁伤数据进行基于偏差的数据异常检测，对采集到的试验样本中的“离群点”进行异常样本检测与剔除。

毁伤领域内的过程数据中可能会存在异常值，异常的数据可能会存在偏差估计,导致样本数据不能很好的代表总体,因此需要对异常值进行处理,毁伤数据满足正态分布，因此采用基于偏差的异常点检测是通过训练BP神经网络，将样本数据中的着靶速度、弹体质量、弹体直径、靶标抗压强度、CRH、弹头形状因子、弹头长度、靶标材料密度8个特征作为输入，侵彻深度实际值作为输出，通过BP神经网络拟合所有试验数据，得到各样本预测值与侵彻深度实际值的绝对百分比误差(Absolute Percentage Error)，由于量测误差、实验误差等原因，数据集中存在一定的异常样本，而3σ准则是建立在正态分布的等精度重复测量基础上而造成奇异数据的干扰或噪声难以满足正态分布，若绝对百分比误差超过3σ，则该样本为异常样本，需要剔除异常样本，规避异常数据在数据增强时带来更多的噪声。

经过计算可得，网络模型结构的隐含层数量应设为3，结合人工法与经验法，经过多次实验并对比实验误差，最终确定BP神经网络模型的结构为输入层节点数为8，隐藏层节点分别为16，32，64，输出层节点数为1时预测效果最佳。使用该模型对数据集进行预测，得到各样本预测值与无量纲试验实测值的绝对百分比误差(Absolute Percentage Error),具体公式如式(1)，若APE>3σ，即认为数据集中存在由于量测误差、实验误差等导致的异常样本，需要将APE>3σ的异常样本进行剔除。原数据集中共有870条数据，剔除异常样本后，确定数据集中有效的剩余数据为826条。

其中，x_real为每条试验数据样本的真实无量纲侵彻深度值，x_pre为每条样本的预测值。

步骤2：基于K-Means算法将经过步骤1处理过的毁伤数据分成H个待增强参数区间。

本实施方式将数据分成4个待增强参数区间。使用K-means聚类方法划分区间。数据集包含着靶速度、弹体质量、弹体直径、靶标抗压强度、弹头CRH、弹头形状因子、弹头长度、靶标材料密度共8个输入参数，输出为无量纲侵彻深度的参数。为验证特征之间存在的相关性，采用皮尔逊相关系数的特征分析方法来评估特征之间的重要性，可知着靶速度,和弹体质量m对侵彻深度影响较大，K-means算法对侵彻效应试验数据的区间聚类主要采用这两个特征进行聚类分析。K-means聚类效果优秀，且与数据在样本集中的次序无关，可以避免乱序训练带来的困扰。给定n个数据样本

与一个数k,

其中，x_i为d维向量，k代表需要聚簇的数量。K-0eans算法按距离远近将n个数据样本分配至各个簇中，不断重复直至平方误差和(SSE)最小时停止。平方误差和(SSE)公式(2)如下：

其中，3(x_i)为距离样本x_i最近的簇中心。

由于参数k的具体取值难以确定，本发明方法通过使用Calinski-Harabaz指标和DBI指标两个指标共同选取合适的k值大小。

Calinski-Harabaz指数又称反差比准则(Variance Ratio Criterion)，通过计算类中各点与类中心的距离平方和来度量类内的紧密度，通过计算各类中心点与数据集中心点距离平方和来度量数据集的分离度，Calinski-Harabaz指标由分离度与紧密度的比值得到。Calinski-Harabaz分数越高，聚类效果越好，当cluster(簇)密集且分离较好时，分数更高，得分计算较快。DBI指标又叫簇确定性指标，用于评价簇内相似度与簇间差异度，DBI值越小，表明簇内相似度和簇间差异度越高，聚类性能越好。

步骤3：对H个待增强参数区间进行分析，确定不平衡区间之间的样本数据数量及不平衡比例确定不平衡区间之间的样本数据数量，选出少数样本的区间；建立SMOTE数据增强方法对少数样本区间的样本进行数据增强。

对若干个待增强参数区间进行分析，确定不同区间之间的样本数据数量，选出少数样本的区间。SMOTE模型根据不平衡区间的数量来确定区间的不平衡比例，确定采样倍数。

建立SMOTE数据增强方法对少数区间样本进行数据增强。SMOTE数据增强技术是对随机过采样算法的一种改进，随机过采样采取简单复制样本的策略来增加少数区间样本，模型容易产生过拟合问题且不够泛化。SMOTE对少数样本区间的样本通过数据增强的方式来进行增强样本并添加到原数据集中。

(1)确定待增强的少样本区间。对若干个待增强参数区间进行分析，确定不平衡区间之间的样本数据数量，若多数样本区间与少数样本区间的不平衡比例大于3:1，选出需要进行数据增强的少数样本的区间；

(2)确定采样倍率。采样倍率N取决于数据集中区间的不平衡程度，计算数据集中的多数样本区间和少数样本区间的不平衡程度(imblalanced level,IL)，则采样倍率的计算公式(3)为如下：

N＝round(IL) (3)

采样倍率是对不平衡度四舍五入后得到的数值。

(3)数据增强。确定少数样本区间的数量，对于该少数样本区间S内的每一个样本x,以欧氏距离为标准计算它到少数样本区间S中所有样本的距离，得到其k近邻，经过多次实验调优，最终确定k的取值。根据样本区间不平衡比例设置采样比例以确定采样倍数N，为平衡少数样本区间和多数样本区间，对少数区间的每一个样本，从其k个邻居中随机选取若干样本进行插值操作，重复N次，最终少数区间的每一个样本各合成N个，所有插值都处于原始样本与其最近邻样本之间的连线上。因此对于每一个少数样本x,从其k个邻居中取若干个样本,假设选择的近邻为o，对每一个随机选出的样本o，构造新样本点加入到少数区间样本集S中，公式如下：

o_new＝x+rand(0,1)×(x-o) (4)

其中，rand(0,1)代表0到1内的随机数，不包括0和1。

步骤4：使用Tomek links技术对通过数据增强生成的样本进行数据清洗，并将清洗后的样本加入到原数据集中，构成新的扩充数据集S1。

数据清洗是处理由数据增强产生的“噪声”样本与边界样本，并将清洗后的样本加入到原数据集中，构成新的扩充数据集。由于一些少数样本区间周围会存在多数样本区间中的一些样本或者少数区间样本位于少数区间和多数区间样本的边缘，导致边缘化严重，随着合成数据增多，边缘数据越来越多，最后导致少数样本区间与多数样本区间的边界模糊，对结果产生一定的干扰。

因此采用TomekLinks技术，可以有效地过滤数据集中的噪声样本、类间重叠样本，对数据进行数据清洗。具体实现过程如下：

表示xⁱ的第m个特征，

通过公式(5)计算少数区间样本数据集中的每个样本xⁱ到多数区间样本n^j的距离D(xⁱ,n^j)，使得公式D(xⁱ,d^k)<D(xⁱ,n^j)或者D(n^j,d^k)<D(xⁱ,n^j)成立，则称(xⁱ,n^j)是一个Tomeklinks对，从每个Tomeklinks对中删除多数区间样本点，根据r和C计算出少数区间中数据增强后的每个样本周围的样本类别比例，由于噪声样本和边界样本会对结果产生一定的干扰，因此找出C为-1和1的噪声与边界类样本并剔除。

步骤5：对扩充数据集S1内的所有毁伤数据进行归一化处理。

实际的侵彻深度预测往往涉及到着靶速度、弹头质量、弹头直径、弹头形状等多种输入参数数据,为了消除这些参数间不同的属性和指标间存在的数量级和量纲的差异,采用min-mux标准化,也称为离差标准化,它将原始数据进行线性变化,通过转化公式将原始值映射到[0,1]之间，转化公式为：

其中X_norm为转换后的值,x为原始值,max(x)取x对应指标的历史最大值，min(x)取x对应指标的历史最小值，经过min-max标准化后,原始值被规约到[0,1]之间。

步骤6：从每个区间中随机划分训练数据TrainData和测试数据TestData。

根据合适的比例从每个区间中随机划分训练数据TrainData和测试数据TestData。训练数据TrainData通过随机种子从经过数据增强操作后每个区间随机选取70％的样本作为训练数据，因为数据增强生成大量不真实的样本数据，在评估过程中使用实际的毁伤数据集作为测试集，测试数据从实际毁伤数据中即未进行数据增强的每个区间随机选取30％的样本作为测试数据。

步骤7：利用网格搜索和交叉验证方法选取最优模型参数，建立GS-SVR模型。利用网格搜索和交叉验证方法选取最优模型参数，建立GS-SVR模型。模型输入是着靶速度、弹体质量、弹体直径、靶标抗压强度、弹头CRH、弹头形状因子、弹头长度、靶标材料密度共8个输入参数，输出是无量纲侵彻深度。

SVR模型主要包含核函数(kernel)、惩罚因子(C)和核函数系数(gamma)，核函数一般常用的有'rbf’，’linear’，’poly’，但是核函数为rbf参数时函数模型的拟合效果最好，C表示对离群点的重视程度，即对误差的容忍度，C值过大时，泛化能力变差，C值过小时容易欠拟合，因此需要通过网格搜索方法选取最合适的惩罚因子C；gamma是’rbf’，’poly’和’sigmoid’的核系数且gamma的值必须大于0，gamma取值不当容易泛化误差出现过拟合。

通常情况下，有很多超参数需要调节，但是手动过程繁杂，为更好地选取最优模型参数，采用网格搜索和交叉验证方法，网格搜索是指定模型估计器的超参数，指定每个参数范围，将各个参数可能的取值进行超参数组合，每组超参数都采用交叉验证来进行评估，确定估计器最好的超参数，最后选出最优参数组合建立模型。K折交叉验证法将原始数据集分成K组，然后以其中1组作为测试集，剩下的K-1组作为一个训练集。使用训练集对模型进行训练，训练好的模型对测试集进行预测，重复上述过程K次，得到K组测试集的预测结果。

因此步骤(8)采用网格搜索和交叉验证方法建立最优模型，估计器采用SVR，指定核函数(kernel)、惩罚因子(C)和核函数系数(gamma)作为估计器的参数值，将各个参数可能的取值进行超参数组合，为了让模型评估更加准确可信，每组超参数都采用K折交叉验证来进行评估。核函数选用’rbf’时模型拟合效果最好，通过枚举法，人工设定C、gamma的取值范围，例如[0.1,0.2,……,100]，将估计函数的参数通过5折交叉验证的方法进行优化来得到最优的学习算法,将数据集平均分成不相交的5个子集，一个子集作为测试集，其余子集作为训练集训练，训练集与测试集不相交，使用训练集对模型进行训练，训练好的模型对测试集进行预测，重复该步骤，对每个模型进行评估，指标结果最优时，得到最高分数0.9093，通过模型最高分数选出模型最优参数，最优参数C为5，gamma为0.9。

网格搜索和交叉验证方法进行模型参数的调优与选取，交叉验证通过多次划分，大大降低了这种由一次随机划分带来的偶然性，从而提高其泛化能力；网格搜索中的每组超参数都采用交叉验证来进行评估。最后选出最优参数组合建立GS-SVR模型。

步骤8：利用GS-SVR预测模型对实际的毁伤数据进行预测，利用测试数据TestData来验证模型的性能。

利用测试数据TestData来验证模型的性能。GS-SVR最优参数模型对测试集预测，测试集从实际毁伤数据中选取一定比例的测试数据集进行验证，最终通过模型的评估结果验证了基于数据增强的混凝土侵彻深度预测方法相比较于其他方法的效果较好。

对于不平衡数据集来说，由于数据增强生成虚假的数据，不适合用准确率作为衡量标准。所建立的模型的质量取决于模型的性能和鲁棒性，为了评价通过数据增强构建的新样本的数据质量，衡量回归预测模型的性能采用了四种不同的评价指标来检验预测精度：平均绝对误差(MAE)、均方误差(MSE)、可释方差得分(EVS)、决定系数(R2)。其中MAE是非负值，模型越好MAE越接近0；MSE本质是在残差平方和(RSS)的基础上除以样本总量，得到每个样本量的平均误差，模型越好越接近0；EVS是解释模型的可释方差，最佳模型的EVS为1，模型越差值越小；R2是判断回归方程的拟合程度模型越差值越小，最佳模型为1。MAE、MSE误差越大说明模型效果越差，EVS与R2值越大，模型越好。对于总体样本点的评价指标评价如下：

y′_i是第i个样本的预测值，y_i是第i个样本的真实值，n是样本的总数。

为了验证本发明的效果,选取实际试验数据集，共包含870条数据、9个字段。所有数据都经过异常缺失处理。

进行对比实验,分析实验结果并检测模型的可用性，使用MSE、MAE、EVS、R2四个评价指标对模型的预测结果进行分析，最终通过模型的评估结果验证了基于数据增强的混凝土侵彻深度预测方法相比较于其他方法的效果较好。

本发明采用人工法，枚举k的多个取值情形，从表1中可以看出，在k的不同取值中，k取4时，Calinski-Harabaz指标达到其最大值，同时DBI指标取得其最小值。对不同k值下各K-Means模型的聚类性能指标的进一步分析可以看出，随着k的增加，Calinski-Harabaz指标呈上升后震荡趋势，在k取7时呈另一局部极大值，在k取4时，取得全局最大值；DBI指标则在k取4、8时处于局部极小值，全局最小值则在k取4时取得。综合Calinski-Harabaz与DBI指标来看，k取4时，聚类性能最好。因此，通过聚类方法根据数据特征进行聚类来划分成A、B、C、D四个区间。

表1不同K值下K-Means性能指标表

根据聚类最佳结果划分为四个区间，具体见表2和表3，划分后的参数区间内样本分布差异比较大，在着靶速度[0,340)m/s、弹体质量[0,500)kg区间内样本数最多(411条)，占比约50％以上，着靶速度(340,650)m/s、弹体质量(0,500)kg区间内样本数达246条，占比约29.8％，着靶速度(650,)m/s、弹体质量[0,500)kg区间内样本数为155条，占比约18.8％，而在着靶速度(0,)m/s、弹体质量[500,)kg区间内样本最少为13条，占比不足2％,显然四个区间内将出现样本处于不平衡状态，这将对模型的训练产生较大的影响、影响模型的泛化能力与收敛速度。通过相关文献阅读可知，若多数区间样本与少数区间样本的比例大于3:1，即采用倍率大于3，则该区间是不平衡的。对若干个待增强参数区间进行分析，A区间与B区间、B区间与C区间的不平衡程度分别为接近1.67和1.59,即采样倍率分别是2和2，而C区间与D区间的不平衡比例达到11:1以上，采样倍率达到12，出现严重不平衡状态，因此，相较于C区间来说，D区间为少数样本区间。不平衡数据会影响训练效果，不能让人满意，因此必须针对混凝土侵彻深度的不平衡问题寻找针对性算法用于训练预测，因此需要建立SMOTE数据增强方法对少数区间样本进行数据增强。

表2各参数区间数据分布表

表3参数区间具体信息表

建立SMOTE数据增强方法对少数样本区间D中的样本进行数据增强，通过数据增强的方式来进行增强样本并添加到原数据集中。首先，采用KNN算法，计算出每个少数样本区间的样本的K个邻近，根据相关文献和实验研究结论，最近邻的个数K值取为5，由上述步骤可知，根据多数样本区间C与少数样本区间D的不平衡度确定采样倍数N为12，对D区间的某一样本，需要根据采样倍率在K近邻中重复12次选取合适的样本数，根据rand值进行随机插值操作，按照合成公式构造新的少数样本，将新样本放入原区间D中，产生新的数据样本区间。经过数据增强后的样本区间分布见表4。

表4数据增强后的区间数据分布

为了验证BAD_SMOTETomek算法解决数据量少及区间数据分布不平衡问题的有效性与可行性，本发明选用GS-SVR结合SMOTE和BAD_SMOTETomek实验比较算法性能。本发明分别采用GS-SVR预测模型对原始数据集(None)、异常检测的原数据(BAD)、异常处理和数据增强(BAD_SMOTE)和BAD_SMOTETOMEK操作的平衡数据集进行预测，BAD_SMOTETOMEK算法生成高质量的小样本数据并与其他几种方法结果做对比。实验结果见表5，其中MAE、MSE、EVS、R2取得最优值的数据用黑色粗体表示。

表5实验结果评价指标比较表

为更直观地观看实验结果，将性能指标以柱状图形式呈现。通过观察图2实验对比结果，得到如下结论：①GS-SVR适合解决小样本容量、非线性和高维回归问题，在解决小样本机器学习问题和处理非线性特征相互作用不依赖整个数据，泛化能力强。②使用SMOTE算法之后，降低了数据集的区间不平衡度，但是由于原始少数区间样本中存在一定的噪声，并且由于SMOTE新合成的少数区间样本意外入侵多数区间样本区域之间造成多数区间样本与少数区间样本之间重叠，放大了数据中的噪声。③BAD_SMOTETomek算法有效过滤了噪声，抑制了SMOTE算法意外扩展少数区间样本区域的现象，降低了两类样本之间的重叠。BAD_SMOTETomek算法不仅克服样本异常、样本量过少而导致的不平衡现象，并且有效避免新合成的样本入侵多数区间样本区域而造成的样本重叠引入新噪声等问题。相对于传统的SMOTE过采样方法，BAD_SMOTETomek算法可以大幅提高模型的预测性能。在混凝土侵彻深度的毁伤效应数据集中，BAD_SMOTETomek算法在该分布中都取得最优的MAE值、MSE值、EVS值、R2值，这是因为毁伤效应数据集中存在小样本区间不平衡的分布情况，而且不平衡的小样本数据影响预测效果，预测效果常常偏向于多数区间的效果性能。采用传统的SMOTE方法在合成新样本数据集之后未考虑新样本之间存在重叠，没有控制样本的生成领域，而BAD_SMOTETomek剔除异常噪声值、合成清洗数据，降低了噪声数据，生成高质量的与原数据分布一致的样本数据集用于更好地预测，从以上结果可以看出，BAD_SMOTETomek可以有效为小样本增强优质数据，提升混凝土侵彻深度预测的整体性能，最终通过模型的评估结果验证了基于数据增强的混凝土侵彻深度预测方法相比较于其他方法的效果较好。