CN113159220B

CN113159220B - 基于随机森林的混凝土侵彻深度经验算法评价方法和装置

Info

Publication number: CN113159220B
Application number: CN202110526328.7A
Authority: CN
Inventors: 张磊; 王继民; 王幸; 孔德锋; 王晓峰; 季昌政
Original assignee: Institute of Engineering Protection National Defense Engineering Research Institute Academy of Military Sciences of PLA
Current assignee: Institute of Engineering Protection National Defense Engineering Research Institute Academy of Military Sciences of PLA
Priority date: 2021-05-14
Filing date: 2021-05-14
Publication date: 2022-02-15
Anticipated expiration: 2041-05-14
Also published as: CN113159220A

Abstract

本发明公开一种基于随机森林的混凝土侵彻深度经验算法评价方法和装置，包括：对采集的试验数据样本集剔除异常数据；对异常剔除后的试验数据样本集进行数据标签化；对标签化的试验数据样本集进行K‑Means算法聚类，得到若干区间数据集，并将它们分别划分为训练集和测试集；采用Bagging算法对训练集进行多次采样，得到若干子采样数据集；分别构建多棵决策树作为基分类器，每棵决策树使用一个子采样数据集进行训练；同时将它们集成起来构成随机森林，将多个算法的优劣评价转化为机器学习范畴中的分类问题，使用相对多数投票法，得出最终的评价结果。本发明技术方案，集成若干弱分类器进行决策，提高模型的精度。

Description

基于随机森林的混凝土侵彻深度经验算法评价方法和装置

技术领域

本发明属于信息技术领域，具体涉及一种基于随机森林的混凝土侵彻深度经验算法评价方法和装置。

背景技术

随着近年来对于侵彻效应研究的深入，各国的研究人员总结出了多个用于侵彻深度预测的经验算法，如Forrestal、BRL、Young等。这些经验算法与建立算法试验数据呈强相关关系，这在一定程度上限制了它们的泛用性。由于侵彻问题是非常复杂的物理过程，依靠现有的理论分析和数值模拟方法难以准确地揭示实际情况，因此在实际工程中，经验算法仍然占据重要地位。

但早期的侵彻经验算法都是通过大量试验得到的，各个算法均在其试验数据分析的基础上进行实弹试验，由于试验数据、研究方法不同和侧重点不同，各个经验算法之间往往存在较大的差别。即所有的经验或半经验算法都具有一定局限性，各自的适用范围和条件都有差异。

各个算法的适用范围受到多种因素影响，如算法开发过程中使用的试验数据分布和算法考虑的参数等。在使用中，算法的评价往往与使用者的经验有关。不同的使用者收集到的数据可能存在较大差异，这也导致了他们在使用这些算法的过程中，算法的性能表现迥异。因此，如何对众多经验算法进行评价成为亟待解决的问题。

发明内容

本发明要解决的技术问题是，提供一种基于随机森林的混凝土侵彻深度经验算法评价方法和装置，集成了若干弱分类器进行决策，提高了模型的精度。

实现上述目的，本发明采用如下的技术方案：

一种基于随机森林的混凝土侵彻深度经验算法评价方法，包括：

步骤1、基于BP神经网络拟合数据分布，对采集的试验数据样本集剔除异常数据所述试验数据样本集包含着靶速度、弹体质量、弹体直径、靶标抗压强度、弹头CRH、弹头形状因子、弹头长度、靶标材料密度、无量纲侵彻深度；

步骤2、对异常剔除后的试验数据样本集进行数据标签化；

步骤3、对标签化的试验数据样本集进行K-Means算法聚类，划分出若干参数区间，得到若干区间数据集，并将它们分别划分为训练集和测试集；

步骤4、采用Bagging算法对训练集进行多次采样，得到若干子采样数据集；分别构建多棵决策树作为基分类器，每棵决策树使用一个子采样数据集进行训练；同时将决策树集成起来构成随机森林，将多个算法的优劣评价转化为机器学习范畴中的分类问题，使用相对多数投票法，得出最终的评价结果。

作为优选，步骤1具体为：使用BP神经网络来对试验数据样本集进行拟合，BP神经网络经过训练得到试验数据分布的BP神经网络模型；使用BP神经网络模型对试验数据样本集进行预测，并与实际的无量纲侵彻深度测量值进行比较，采用相对偏差进行排序，将误差最高的前5％数据剔除，认为剩下的数据均为正常样本。

作为优选，步骤2的数据标签化为：

对于一条数据D_i，假定存在m个经验算法待评价，则有算法值矩阵V＝[v₁v₂...v_m]，并可得偏差矩阵B＝[b₁ b₂...b_m]，经过独热编码(one-hot)后，对于数据D_i，其标签为label＝[0 1 0 ...0]。

作为优选，步骤3中，使用K-Means算法时，设k为需要聚簇的个数，在数据集中随机选取k个样本作为聚类中心，并计算各个样本与k个聚类中心的距离，将该样本归到距离最小的聚类中心所在的簇中；然后重新计算簇中心点，并不断重复，直至聚类中心点位置收敛为止。

作为优选，步骤3中，K-Means算法中，样本的数据点归属于哪个簇是由类间欧式距离决定；经过聚类后，可得到k个簇，从而得到k个参数区间。

作为优选，步骤4中，通过对各个参数区间分别构建随机森林集成分类模型，来对区间内的算法进行评价；具体为：

步骤4.1、使用Bootstrap方法，由原始训练集构建k个子训练集{D₁,D₂,...,D_k}；

步骤4.2、为每个子训练集D_i,i∈[1,k]建立一棵决策树分类器，k个子训练集构成k棵决策树分类器{h(X,θ_i),i＝1,2,...,k}，θ_i为随机变量序列，基分类器每次选取划分属性时，先随机选取一个属性子集，再从中选取最佳属性；假定当前节点属性集包括d个属性，从中选取d'个子属性构成属性子集，d'＝1时，每次随机选择一个属性用于划分；d'＝log₂d，其为经验取值；

步骤4.3、将这k棵基决策树分类器集成起来，采用投票法或平均法等得到最终结果。

本发明还提供一种基于随机森林的混凝土侵彻深度经验算法评价装置，包括：

预处理模块，用于基于BP神经网络拟合数据分布，对采集的试验数据样本集剔除异常数据，所述试验数据样本集包含着靶速度、弹体质量、弹体直径、靶标抗压强度、弹头CRH、弹头形状因子、弹头长度、靶标材料密度、无量纲侵彻深度；

标签化模块，用于对异常剔除后的试验数据样本集进行数据标签化；

聚类模块，用于对标签化的试验数据样本集进行K-Means算法聚类，划分出若干参数区间，得到若干区间数据集，并将它们分别划分为训练集和测试集；

评价模块，用于采用Bagging算法对训练集进行多次采样，得到若干子采样数据集；分别构建多棵决策树作为基分类器，每棵决策树使用一个子采样数据集进行训练；同时将它们集成起来构成随机森林，将多个算法的优劣评价转化为机器学习范畴中的分类问题，使用相对多数投票法，得出最终的评价结果。

作为优选，预处理模块具体为：使用BP神经网络来对试验数据样本集进行拟合，BP神经网络经过训练得到试验数据分布的BP神经网络模型；使用BP神经网络模型对试验数据样本集进行预测，并与实际的无量纲侵彻深度测量值进行比较，采用相对偏差进行排序，将误差最高的前5％数据剔除，认为剩下的数据均为正常样本。

作为优选，标签化模块具体为：

对于一条数据D_i，假定存在m个经验算法待评价，则有算法值矩阵V＝[v₁v₂...v_m]，并可得偏差矩阵B＝[b₁ b₂...b_m]，经过独热编码(one-hot)后，对于数据D_i，其标签为label＝[0 1 0...0]。

本发明的有益效果如下：

(1)数据异常检测

在试验数据采集过程中，由于传感器误差、量测精度等问题不可避免地导致数据中存在一定地异常点。本发明假设采集到的试验数据样本满足正态分布规律，因此可以采用相对偏差来进行异常检测。本文首先采用全部试验数据样本训练一个BP神经网络，训练完毕后，该神经网络模型可视作是一个拟合了所有试验数据样本，且总偏差最小的非线性映射。然后计算各试验数据样本到该映射的距离，距离大于阈值的样本即视作异常样本，将其剔除。

(2)数据标签化

为了将混凝土侵彻毁伤效应领域中的多个经验算法的评价问题转化为传统机器学习中的分类问题，首先需要通过某些指标给各个样本打上特定的标签对数据进行标签化。本方法提出一种基于偏差的方法来对数据进行标签化。对于一条试验数据样本，假定现有n个针对混凝土侵彻毁伤效应的经验算法，各经验算法的偏差可表示为：

其中，x_i表示第i个经验算法的算法值，x_true表示该条试验数据样本的真实无量纲侵彻深度值。该条试验数据样本的标签为i，满足如下条件：

bias_i＝min(bias)

与传统的偏差方法bias_i＝abs(x_i-x_true)不同的是，式考虑了算法值与真实值的绝对百分比偏差。这是由于实际试验中采集到的试验数据样本间，无量纲侵彻深度的幅值跨度较大，采用绝对百分比偏差可以更好的考量算法间的优劣差异。

(3)评价区间聚类

本发明主要针对混凝土侵彻毁伤效应的多经验算法评价，由于各个经验算法研究时使用的试验数据、遵循的理论假设不同，导致各个经验算法在不同的区间内的精度有较大差异，因此需要对采集到的试验数据划分若干个参数区间，分别对这些区间进行算法的评价。

本发明使用K-Means算法对混凝土侵彻毁伤效应试验数据进行区间聚类。该算法操作简单，稳定性好，聚类效果优秀，且与数据在样本集中的次序无关，可以避免乱序训练带来的困扰，是一种经典的聚类算法，在近几十年内被广泛运用于其它算法的数据预处理中。使用K-Means算法时，首先需要确定k值，代表需要聚簇的个数。这k个簇内的相似度最高，而簇间的差异性最大。

(4)模型构建与评价

经过上述步骤后，可得到k个待评价的参数区间和k个数据集。本方法分别在这k个参数区间上训练k个随机森林分类器，并通过试验法来决定随机森林分类器中基分类器决策树的数量。最后，在测试数据集上应用训练得到的随机森林分类器模型，并使用相对多数投票法，得到区间内较优的算法。

本发明基于随机森林的多经验算法集成评价方法和装置，经过异常样本剔除后，首先对原数据集进行聚类，划分出若干参数区间，得到若干区间数据集，并将它们分别划分为训练集和测试集；然后应用Bagging算法对训练集进行多次采样，得到若干子采样数据集；接着分别构建多棵决策树作为基分类器，每棵决策树使用一个子采样数据集进行训练；最后并将它们集成起来构成随机森林，将多个算法的优劣评价转化为机器学习范畴中的分类问题，使用相对多数投票法，得出最终的评价结果。

附图说明

图1为本发明基于随机森林的混凝土侵彻深度经验算法评价方法的总实施流程图；

图2为数据异常检测后数据集的绝对百分比误差图；

图3为K-Means聚簇结果图；

图4基于随机森林的混凝土侵彻深度经验算法评价装置的结构示意图；

图5为本发明的所提出的随机森林模型中不同参数构成的OOB误差图。

具体实施方式

下面对本发明技术方案进行详细说明，但是本发明的保护范围不局限于所述实施例。

如图1所示，本发明提供一种基于随机森林的混凝土侵彻深度经验算法评价方法包括：

步骤1：数据异常检测

给定样本容量为n的数据集D，由于试验数据采集过程中可能存在的传感器误差、量测差异等，数据集D中不可避免的存在异常样本，本方法设定阈值百分比为5％，即认为D中存在5％的异常数据样本。

本方法使用BP神经网络来对D进行拟合，该网络经过训练得到试验数据分布的BP神经网络模型。然后使用该模型对D进行预测，并与实际的无量纲侵彻深度测量值进行比较，并采用相对偏差进行排序，将误差最高的前5％数据剔除，认为剩下的数据均为正常样本，由此得到数据集D'。

步骤2：数据标签化

本发明采用随机森林算法来进行混凝土侵彻深度经验算法的评价，该算法属于监督学习范畴，在使用过程中，需要显式给出各样本所属的类别，因此需要对进行D'标签化。

对于一条数据D_i，假定存在m个经验算法待评价，则有算法值矩阵V＝[v₁v₂...v_m]，并可得偏差矩阵B＝[b₁ b₂...b_m]，b₂偏差最低，经过独热编码后，对于数据D_i，其标签为label＝[0 1 0...0]。

步骤3：评价区间聚类

经过国内外多年研究，针对混凝土侵彻毁伤效应，已形成了多个经验算法。由于各个经验算法研究时使用的试验数据、遵循的理论假设不同，导致各个经验算法在不同的区间内的精度有较大差异，因此需要对采集到的试验数据划分若干个参数区间，分别对这些区间进行算法的评价。

本方法采用K-Means算法进行区间聚类。给定通过步骤2标签化的数据集，其中包含n个数据样本

与一个数k,

其中x_i为d维向量，k代表需要聚簇的数量。K-Means算法按距离远近将n个数据样本分配至各个簇中，不断重复直至平方误差和(SSE)最小时停止。平方误差和(SSE)公式如下：

其中，c(x_i)为距离样本x_i最近的簇中心。

使用K-Means算法时，首先需要确定k值，代表需要聚簇的个数。算法会在数据集中随机选取k个样本作为聚类中心，并计算各个样本与k个聚类中心的距离，将该样本归到距离最小的聚类中心所在的簇中；然后重新计算簇中心点，并不断重复，直至聚类中心点位置收敛为止。K-Means算法得伪代码如表1所示。

表1 K-Means算法

K-Means算法中，数据点归属于哪个簇是由类间距离决定的，不同的距离度量会对结果产生影响，常用距离为欧式距离，如下式所示：

经过聚类后，可得到k个簇，从而可得到k个参数区间，接下来就可以在这k个参数区间内对各经验算法进行评价。

步骤4：模型构建与评价

经过参数聚类后，可得到k个簇(参数区间)，本步骤通过对各个参数区间分别构建随机森林集成分类模型，来对区间内的算法进行评价。

随机森林最早由贝尔实验室的TinKamHo提出，该模型使用相对多数投票法对若干决策树分类器的输出进行决策集成。其实现可分为三步：首先使用Bootstrap方法，由原始训练集构建k个子训练集{D₁,D₂,...,D_k}；

然后为每个子训练集D_i,i∈[1,k]建立一棵决策树分类器，k个子训练集构成k棵决策树分类器{h(X,θ_i),i＝1,2,...,k}，θ_i为随机变量序列，基分类器每次选取划分属性时，先随机选取一个属性子集，再从中选取最佳属性。假定当前节点属性集包括d个属性，从中选取d'个子属性构成属性子集(d'＝d时，退化为传统的Bagging集成决策树方法)，d'＝1时，每次随机选择一个属性用于划分；d'＝log₂d是一个经验取值。最后，将这k棵基决策树分类器集成起来，采用投票法或平均法等得到最终结果。

对于区间i,i∈[1,k]，首先该区间对应的数据集按比例切分为训练集和测试集，接着使用训练集对随机森林分类模型进行训练；完毕后，通过使用测试集对模型进行测试，得到测试集上的类别分布，并按相对多数投票法，得到测试集上支持各个算法的数据条数，认为条数越多的算法效果越佳。

如图4所示，本发明提供一种基于随机森林的混凝土侵彻深度经验算法评价装置，包括：

预处理模块，用于基于BP神经网络拟合数据分布，对采集的试验数据样本集剔除异常数据；

本发明基于随机森林的混凝土侵彻领域经验算法评价方法和装置，可根据有限的数据样本和参数区间对混凝土侵彻领域中的众多经验算法进行评价。评价方法包括数据异常检测、数据标签化、评价区间聚类和模型构建与评价四个步骤：1、数据异常检测：基于BP神经网络拟合数据分布，剔除一定比例的异常数据。2、数据标签化：计算待评价的若干经验算法的算法值，并基于它们与试验实测的真实值的偏差，对数据进行独热(One-Hot)编码。3、评价区间聚类：按着靶速度、弹体质量属性进行K-Means聚类，确定待评价的若干区间。4、模型构建与评价：构建由若干决策树集成决策的随机森林分类模型，并对算法进行评价。与传统的分类方法相比，本方法集成了若干弱分类器进行决策，提高了模型的精度。

实施例1：

为了验证本发明的效果，实验采用实际试验、文献获取的数据作为实验数据，应用本发明提出的基于随机森林的混凝土侵彻深度经验算法评价方法。

1.数据准备

本节以实际试验、文献获取的数据作为实验数据，数据集构成如表2所示。

表2数据集中所有字段的详细信息

2.数据异常检测

首先建立BP神经网络模型，结构如表3所示，使用平均绝对百分比误差和Adam优化器。

表3BP神经网络结构表

Layer	Unit(s)
		Input	8
Hidden_1	16
		Hidden_2	32
Hidden_3	64
		Output	1

训练完成后，使用该模型对数据集进行预测，得到各样本点预测值与无量纲试验实测值的绝对百分比误差如图2所示，按阈值剔除异常点。

3.数据标签化

按步骤2所示方法对异常检测后的数据集D'进行标签化。

4.评价区间聚类

使用K-Means算法进行聚类，多次试验后设定k值为4，聚簇结果如图3所示。根据图中聚簇结果，将待测区间划分、各个区间的候选经验算法如表4所示。

表4待测区间划分表

5.模型构建与评价

图5为本实验数据集应用随机森林方法时，不同参数模型时的OOB误差，可以看出，随着随机森林中基分类器决策树数量增加，整体的OOB误差均呈下降趋势，且决策树数量大于100时，下降趋势明显放缓且呈现波动，其中，最大特征为8的随机森林分类器模型的OOB误差还出现了上升趋势。根据图中误差，选取决策树数量为100、最大特征为8作为本实验采用的模型。

各个待评价区间的测试集结果如表5所示：

表5待测区间测试集结果表

区间	测试集分布	随机森林结果分布	较优算法
				1	4:51,2:15,1:13,0:11,3:2	4:41,1:20,2:19,0:8,3:4	UMIST
2	4:21,0:17,1:6,3:5,2:3	0:28,4:17,3:4,1:3	Young
				3	0:7,1:7,4:5,3:2,2:1	0:9,1:6,2:3,4:3,3:1	Forrestal
4	0:3,4:1,1:1,2:1	0:3,2:2,1:1	Young

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于随机森林的混凝土侵彻深度经验算法评价方法，其特征在于，包括：

步骤1、基于BP神经网络拟合数据分布，对采集的试验数据样本集剔除异常数据，所述试验数据样本集包含着靶速度、弹体质量、弹体直径、靶标抗压强度、弹头CRH、弹头形状因子、弹头长度、靶标材料密度、无量纲侵彻深度参数；步骤1具体为：使用BP神经网络来对试验数据样本集进行拟合，BP神经网络经过训练得到试验数据分布的BP神经网络模型；使用BP神经网络模型对试验数据样本集进行预测，并与实际的无量纲侵彻深度测量值进行比较，采用相对偏差进行排序，将误差最高的前5％数据剔除，认为剩下的数据均为正常样本；

步骤2、对异常剔除后的试验数据样本集进行数据标签化；

步骤4、采用Bagging算法对训练集进行多次采样，得到若干子采样数据集；分别构建多棵决策树作为基分类器，每棵决策树使用一个子采样数据集进行训练；同时将决策树集成起来构成随机森林，将多个算法的优劣评价转化为机器学习范畴中的分类问题，使用多数投票法，得出最终的评价结果。

2.如权利要求1所述的基于随机森林的混凝土侵彻深度经验算法评价方法，其特征在于，步骤2的数据标签化为：

对于一条数据D_i，假定存在m个经验算法待评价，则有算法值矩阵V＝[v₁ v₂ ... v_m]，并可得偏差矩阵B＝[b₁ b₂ ... b_m]，若b₂偏差最低，经过独热编码后，对于数据D_i，其标签为label＝[0 1 0 ... 0]。

3.如权利要求1所述的基于随机森林的混凝土侵彻深度经验算法评价方法，其特征在于，步骤3中，使用K-Means算法时，设k为需要聚簇的个数，在数据集中随机选取k个样本作为聚类中心，并计算各个样本与k个聚类中心的距离，将该样本归到距离最小的聚类中心所在的簇中；然后重新计算簇中心点，并不断重复，直至聚类中心点位置收敛为止。

4.如权利要求1所述的基于随机森林的混凝土侵彻深度经验算法评价方法，其特征在于，步骤3中，K-Means算法中，样本的数据点归属于哪个簇是由类间欧式距离决定；经过聚类后，得到k个簇，从而得到k个参数区间。

5.如权利要求1所述的基于随机森林的混凝土侵彻深度经验算法评价方法，其特征在于，步骤4中，通过对各个参数区间分别构建随机森林集成分类模型，来对区间内的算法进行评价；具体为：

步骤4.3、将这k棵基决策树分类器集成起来，采用投票法或平均法得到最终结果。

6.一种基于随机森林的混凝土侵彻深度经验算法评价装置，其特征在于，包括：

预处理模块，用于基于BP神经网络拟合数据分布，对采集的试验数据样本集剔除异常数据，所述试验数据样本集包含着靶速度、弹体质量、弹体直径、靶标抗压强度、弹头CRH、弹头形状因子、弹头长度、靶标材料密度、无量纲侵彻深度参数；预处理模块具体为：使用BP神经网络来对试验数据样本集进行拟合，该网络经过训练得到试验数据分布的BP神经网络模型；使用BP神经网络模型对试验数据样本集进行预测，并与实际的无量纲侵彻深度测量值进行比较，采用相对偏差进行排序，将误差最高的前5％数据剔除，认为剩下的数据均为正常样本；

评价模块，用于采用Bagging算法对训练集进行多次采样，得到若干子采样数据集；分别构建多棵决策树作为基分类器，每棵决策树使用一个子采样数据集进行训练；同时将它们集成起来构成随机森林，将多个算法的优劣评价转化为机器学习范畴中的分类问题，使用多数投票法，得出最终的评价结果。

7.如权利要求6所述的基于随机森林的混凝土侵彻深度经验算法评价装置，其特征在于，标签化模块具体为：