CN113159220A - 基于随机森林的混凝土侵彻深度经验算法评价方法和装置 - Google Patents

基于随机森林的混凝土侵彻深度经验算法评价方法和装置 Download PDF

Info

Publication number
CN113159220A
CN113159220A CN202110526328.7A CN202110526328A CN113159220A CN 113159220 A CN113159220 A CN 113159220A CN 202110526328 A CN202110526328 A CN 202110526328A CN 113159220 A CN113159220 A CN 113159220A
Authority
CN
China
Prior art keywords
data
algorithm
test data
penetration depth
sample set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110526328.7A
Other languages
English (en)
Other versions
CN113159220B (zh
Inventor
张磊
王继民
王幸
孔德锋
王晓峰
季昌政
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Engineering Protection National Defense Engineering Research Institute Academy of Military Sciences of PLA
Original Assignee
Institute of Engineering Protection National Defense Engineering Research Institute Academy of Military Sciences of PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Engineering Protection National Defense Engineering Research Institute Academy of Military Sciences of PLA filed Critical Institute of Engineering Protection National Defense Engineering Research Institute Academy of Military Sciences of PLA
Priority to CN202110526328.7A priority Critical patent/CN113159220B/zh
Publication of CN113159220A publication Critical patent/CN113159220A/zh
Application granted granted Critical
Publication of CN113159220B publication Critical patent/CN113159220B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开一种基于随机森林的混凝土侵彻深度经验算法评价方法和装置,包括:对采集的试验数据样本集剔除异常数据;对异常剔除后的试验数据样本集进行数据标签化;对标签化的试验数据样本集进行K‑Means算法聚类,得到若干区间数据集,并将它们分别划分为训练集和测试集;采用Bagging算法对训练集进行多次采样,得到若干子采样数据集;分别构建多棵决策树作为基分类器,每棵决策树使用一个子采样数据集进行训练;同时将它们集成起来构成随机森林,将多个算法的优劣评价转化为机器学习范畴中的分类问题,使用相对多数投票法,得出最终的评价结果。本发明技术方案,集成若干弱分类器进行决策,提高模型的精度。

Description

基于随机森林的混凝土侵彻深度经验算法评价方法和装置
技术领域
本发明属于信息技术领域,具体涉及一种基于随机森林的混凝土侵彻深度经验算法评价方法和装置。
背景技术
随着近年来对于侵彻效应研究的深入,各国的研究人员总结出了多个用于侵彻深度预测的经验算法,如Forrestal、BRL、Young等。这些经验算法与建立算法试验数据呈强相关关系,这在一定程度上限制了它们的泛用性。由于侵彻问题是非常复杂的物理过程,依靠现有的理论分析和数值模拟方法难以准确地揭示实际情况,因此在实际工程中,经验算法仍然占据重要地位。
但早期的侵彻经验算法都是通过大量试验得到的,各个算法均在其试验数据分析的基础上进行实弹试验,由于试验数据、研究方法不同和侧重点不同,各个经验算法之间往往存在较大的差别。即所有的经验或半经验算法都具有一定局限性,各自的适用范围和条件都有差异。
各个算法的适用范围受到多种因素影响,如算法开发过程中使用的试验数据分布和算法考虑的参数等。在使用中,算法的评价往往与使用者的经验有关。不同的使用者收集到的数据可能存在较大差异,这也导致了他们在使用这些算法的过程中,算法的性能表现迥异。因此,如何对众多经验算法进行评价成为亟待解决的问题。
发明内容
本发明要解决的技术问题是,提供一种基于随机森林的混凝土侵彻深度经验算法评价方法和装置,集成了若干弱分类器进行决策,提高了模型的精度。
实现上述目的,本发明采用如下的技术方案:
一种基于随机森林的混凝土侵彻深度经验算法评价方法,包括:
步骤1、基于BP神经网络拟合数据分布,对采集的试验数据样本集剔除异常数据所述试验数据样本集包含着靶速度、弹体质量、弹体直径、靶标抗压强度、弹头CRH、弹头形状因子、弹头长度、靶标材料密度、无量纲侵彻深度;
步骤2、对异常剔除后的试验数据样本集进行数据标签化;
步骤3、对标签化的试验数据样本集进行K-Means算法聚类,划分出若干参数区间,得到若干区间数据集,并将它们分别划分为训练集和测试集;
步骤4、采用Bagging算法对训练集进行多次采样,得到若干子采样数据集;分别构建多棵决策树作为基分类器,每棵决策树使用一个子采样数据集进行训练;同时将决策树集成起来构成随机森林,将多个算法的优劣评价转化为机器学习范畴中的分类问题,使用相对多数投票法,得出最终的评价结果。
作为优选,步骤1具体为:使用BP神经网络来对试验数据样本集进行拟合,BP神经网络经过训练得到试验数据分布的BP神经网络模型;使用BP神经网络模型对试验数据样本集进行预测,并与实际的无量纲侵彻深度测量值进行比较,采用相对偏差进行排序,将误差最高的前5%数据剔除,认为剩下的数据均为正常样本。
作为优选,步骤2的数据标签化为:
对于一条数据Di,假定存在m个经验算法待评价,则有算法值矩阵V=[v1v2...vm],并可得偏差矩阵B=[b1 b2...bm],经过独热编码(one-hot)后,对于数据Di,其标签为label=[0 1 0 ...0]。
作为优选,步骤3中,使用K-Means算法时,设k为需要聚簇的个数,在数据集中随机选取k个样本作为聚类中心,并计算各个样本与k个聚类中心的距离,将该样本归到距离最小的聚类中心所在的簇中;然后重新计算簇中心点,并不断重复,直至聚类中心点位置收敛为止。
作为优选,步骤3中,K-Means算法中,样本的数据点归属于哪个簇是由类间欧式距离决定;经过聚类后,可得到k个簇,从而得到k个参数区间。
作为优选,步骤4中,通过对各个参数区间分别构建随机森林集成分类模型,来对区间内的算法进行评价;具体为:
步骤4.1、使用Bootstrap方法,由原始训练集构建k个子训练集{D1,D2,...,Dk};
步骤4.2、为每个子训练集Di,i∈[1,k]建立一棵决策树分类器,k个子训练集构成k棵决策树分类器{h(X,θi),i=1,2,...,k},θi为随机变量序列,基分类器每次选取划分属性时,先随机选取一个属性子集,再从中选取最佳属性;假定当前节点属性集包括d个属性,从中选取d'个子属性构成属性子集,d'=1时,每次随机选择一个属性用于划分;d'=log2d,其为经验取值;
步骤4.3、将这k棵基决策树分类器集成起来,采用投票法或平均法等得到最终结果。
本发明还提供一种基于随机森林的混凝土侵彻深度经验算法评价装置,包括:
预处理模块,用于基于BP神经网络拟合数据分布,对采集的试验数据样本集剔除异常数据,所述试验数据样本集包含着靶速度、弹体质量、弹体直径、靶标抗压强度、弹头CRH、弹头形状因子、弹头长度、靶标材料密度、无量纲侵彻深度;
标签化模块,用于对异常剔除后的试验数据样本集进行数据标签化;
聚类模块,用于对标签化的试验数据样本集进行K-Means算法聚类,划分出若干参数区间,得到若干区间数据集,并将它们分别划分为训练集和测试集;
评价模块,用于采用Bagging算法对训练集进行多次采样,得到若干子采样数据集;分别构建多棵决策树作为基分类器,每棵决策树使用一个子采样数据集进行训练;同时将它们集成起来构成随机森林,将多个算法的优劣评价转化为机器学习范畴中的分类问题,使用相对多数投票法,得出最终的评价结果。
作为优选,预处理模块具体为:使用BP神经网络来对试验数据样本集进行拟合,BP神经网络经过训练得到试验数据分布的BP神经网络模型;使用BP神经网络模型对试验数据样本集进行预测,并与实际的无量纲侵彻深度测量值进行比较,采用相对偏差进行排序,将误差最高的前5%数据剔除,认为剩下的数据均为正常样本。
作为优选,标签化模块具体为:
对于一条数据Di,假定存在m个经验算法待评价,则有算法值矩阵V=[v1v2...vm],并可得偏差矩阵B=[b1 b2...bm],经过独热编码(one-hot)后,对于数据Di,其标签为label=[0 1 0...0]。
本发明的有益效果如下:
(1)数据异常检测
在试验数据采集过程中,由于传感器误差、量测精度等问题不可避免地导致数据中存在一定地异常点。本发明假设采集到的试验数据样本满足正态分布规律,因此可以采用相对偏差来进行异常检测。本文首先采用全部试验数据样本训练一个BP神经网络,训练完毕后,该神经网络模型可视作是一个拟合了所有试验数据样本,且总偏差最小的非线性映射。然后计算各试验数据样本到该映射的距离,距离大于阈值的样本即视作异常样本,将其剔除。
(2)数据标签化
为了将混凝土侵彻毁伤效应领域中的多个经验算法的评价问题转化为传统机器学习中的分类问题,首先需要通过某些指标给各个样本打上特定的标签对数据进行标签化。本方法提出一种基于偏差的方法来对数据进行标签化。对于一条试验数据样本,假定现有n个针对混凝土侵彻毁伤效应的经验算法,各经验算法的偏差可表示为:
Figure BDA0003065973000000041
其中,xi表示第i个经验算法的算法值,xtrue表示该条试验数据样本的真实无量纲侵彻深度值。该条试验数据样本的标签为i,满足如下条件:
biasi=min(bias)
与传统的偏差方法biasi=abs(xi-xtrue)不同的是,式考虑了算法值与真实值的绝对百分比偏差。这是由于实际试验中采集到的试验数据样本间,无量纲侵彻深度的幅值跨度较大,采用绝对百分比偏差可以更好的考量算法间的优劣差异。
(3)评价区间聚类
本发明主要针对混凝土侵彻毁伤效应的多经验算法评价,由于各个经验算法研究时使用的试验数据、遵循的理论假设不同,导致各个经验算法在不同的区间内的精度有较大差异,因此需要对采集到的试验数据划分若干个参数区间,分别对这些区间进行算法的评价。
本发明使用K-Means算法对混凝土侵彻毁伤效应试验数据进行区间聚类。该算法操作简单,稳定性好,聚类效果优秀,且与数据在样本集中的次序无关,可以避免乱序训练带来的困扰,是一种经典的聚类算法,在近几十年内被广泛运用于其它算法的数据预处理中。使用K-Means算法时,首先需要确定k值,代表需要聚簇的个数。这k个簇内的相似度最高,而簇间的差异性最大。
(4)模型构建与评价
经过上述步骤后,可得到k个待评价的参数区间和k个数据集。本方法分别在这k个参数区间上训练k个随机森林分类器,并通过试验法来决定随机森林分类器中基分类器决策树的数量。最后,在测试数据集上应用训练得到的随机森林分类器模型,并使用相对多数投票法,得到区间内较优的算法。
本发明基于随机森林的多经验算法集成评价方法和装置,经过异常样本剔除后,首先对原数据集进行聚类,划分出若干参数区间,得到若干区间数据集,并将它们分别划分为训练集和测试集;然后应用Bagging算法对训练集进行多次采样,得到若干子采样数据集;接着分别构建多棵决策树作为基分类器,每棵决策树使用一个子采样数据集进行训练;最后并将它们集成起来构成随机森林,将多个算法的优劣评价转化为机器学习范畴中的分类问题,使用相对多数投票法,得出最终的评价结果。
附图说明
图1为本发明基于随机森林的混凝土侵彻深度经验算法评价方法的总实施流程图;
图2为数据异常检测后数据集的绝对百分比误差图;
图3为K-Means聚簇结果图;
图4基于随机森林的混凝土侵彻深度经验算法评价装置的结构示意图;
图5为本发明的所提出的随机森林模型中不同参数构成的OOB误差图。
具体实施方式
下面对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述实施例。
如图1所示,本发明提供一种基于随机森林的混凝土侵彻深度经验算法评价方法包括:
步骤1:数据异常检测
给定样本容量为n的数据集D,由于试验数据采集过程中可能存在的传感器误差、量测差异等,数据集D中不可避免的存在异常样本,本方法设定阈值百分比为5%,即认为D中存在5%的异常数据样本。
本方法使用BP神经网络来对D进行拟合,该网络经过训练得到试验数据分布的BP神经网络模型。然后使用该模型对D进行预测,并与实际的无量纲侵彻深度测量值进行比较,并采用相对偏差进行排序,将误差最高的前5%数据剔除,认为剩下的数据均为正常样本,由此得到数据集D'。
步骤2:数据标签化
本发明采用随机森林算法来进行混凝土侵彻深度经验算法的评价,该算法属于监督学习范畴,在使用过程中,需要显式给出各样本所属的类别,因此需要对进行D'标签化。
对于一条数据Di,假定存在m个经验算法待评价,则有算法值矩阵V=[v1v2...vm],并可得偏差矩阵B=[b1 b2...bm],b2偏差最低,经过独热编码后,对于数据Di,其标签为label=[0 1 0...0]。
步骤3:评价区间聚类
经过国内外多年研究,针对混凝土侵彻毁伤效应,已形成了多个经验算法。由于各个经验算法研究时使用的试验数据、遵循的理论假设不同,导致各个经验算法在不同的区间内的精度有较大差异,因此需要对采集到的试验数据划分若干个参数区间,分别对这些区间进行算法的评价。
本方法采用K-Means算法进行区间聚类。给定通过步骤2标签化的数据集,其中包含n个数据样本
Figure BDA0003065973000000061
与一个数k,
Figure BDA0003065973000000062
其中xi为d维向量,k代表需要聚簇的数量。K-Means算法按距离远近将n个数据样本分配至各个簇中,不断重复直至平方误差和(SSE)最小时停止。平方误差和(SSE)公式如下:
Figure BDA0003065973000000063
其中,c(xi)为距离样本xi最近的簇中心。
使用K-Means算法时,首先需要确定k值,代表需要聚簇的个数。算法会在数据集中随机选取k个样本作为聚类中心,并计算各个样本与k个聚类中心的距离,将该样本归到距离最小的聚类中心所在的簇中;然后重新计算簇中心点,并不断重复,直至聚类中心点位置收敛为止。K-Means算法得伪代码如表1所示。
表1 K-Means算法
Figure BDA0003065973000000064
Figure BDA0003065973000000071
K-Means算法中,数据点归属于哪个簇是由类间距离决定的,不同的距离度量会对结果产生影响,常用距离为欧式距离,如下式所示:
Figure BDA0003065973000000072
经过聚类后,可得到k个簇,从而可得到k个参数区间,接下来就可以在这k个参数区间内对各经验算法进行评价。
步骤4:模型构建与评价
经过参数聚类后,可得到k个簇(参数区间),本步骤通过对各个参数区间分别构建随机森林集成分类模型,来对区间内的算法进行评价。
随机森林最早由贝尔实验室的TinKamHo提出,该模型使用相对多数投票法对若干决策树分类器的输出进行决策集成。其实现可分为三步:首先使用Bootstrap方法,由原始训练集构建k个子训练集{D1,D2,...,Dk};
然后为每个子训练集Di,i∈[1,k]建立一棵决策树分类器,k个子训练集构成k棵决策树分类器{h(X,θi),i=1,2,...,k},θi为随机变量序列,基分类器每次选取划分属性时,先随机选取一个属性子集,再从中选取最佳属性。假定当前节点属性集包括d个属性,从中选取d'个子属性构成属性子集(d'=d时,退化为传统的Bagging集成决策树方法),d'=1时,每次随机选择一个属性用于划分;d'=log2d是一个经验取值。最后,将这k棵基决策树分类器集成起来,采用投票法或平均法等得到最终结果。
对于区间i,i∈[1,k],首先该区间对应的数据集按比例切分为训练集和测试集,接着使用训练集对随机森林分类模型进行训练;完毕后,通过使用测试集对模型进行测试,得到测试集上的类别分布,并按相对多数投票法,得到测试集上支持各个算法的数据条数,认为条数越多的算法效果越佳。
如图4所示,本发明提供一种基于随机森林的混凝土侵彻深度经验算法评价装置,包括:
预处理模块,用于基于BP神经网络拟合数据分布,对采集的试验数据样本集剔除异常数据;
标签化模块,用于对异常剔除后的试验数据样本集进行数据标签化;
聚类模块,用于对标签化的试验数据样本集进行K-Means算法聚类,划分出若干参数区间,得到若干区间数据集,并将它们分别划分为训练集和测试集;
评价模块,用于采用Bagging算法对训练集进行多次采样,得到若干子采样数据集;分别构建多棵决策树作为基分类器,每棵决策树使用一个子采样数据集进行训练;同时将它们集成起来构成随机森林,将多个算法的优劣评价转化为机器学习范畴中的分类问题,使用相对多数投票法,得出最终的评价结果。
本发明基于随机森林的混凝土侵彻领域经验算法评价方法和装置,可根据有限的数据样本和参数区间对混凝土侵彻领域中的众多经验算法进行评价。评价方法包括数据异常检测、数据标签化、评价区间聚类和模型构建与评价四个步骤:1、数据异常检测:基于BP神经网络拟合数据分布,剔除一定比例的异常数据。2、数据标签化:计算待评价的若干经验算法的算法值,并基于它们与试验实测的真实值的偏差,对数据进行独热(One-Hot)编码。3、评价区间聚类:按着靶速度、弹体质量属性进行K-Means聚类,确定待评价的若干区间。4、模型构建与评价:构建由若干决策树集成决策的随机森林分类模型,并对算法进行评价。与传统的分类方法相比,本方法集成了若干弱分类器进行决策,提高了模型的精度。
实施例1:
为了验证本发明的效果,实验采用实际试验、文献获取的数据作为实验数据,应用本发明提出的基于随机森林的混凝土侵彻深度经验算法评价方法。
1.数据准备
本节以实际试验、文献获取的数据作为实验数据,数据集构成如表2所示。
表2数据集中所有字段的详细信息
Figure BDA0003065973000000081
Figure BDA0003065973000000091
2.数据异常检测
首先建立BP神经网络模型,结构如表3所示,使用平均绝对百分比误差和Adam优化器。
表3BP神经网络结构表
Layer Unit(s)
Input 8
Hidden_1 16
Hidden_2 32
Hidden_3 64
Output 1
训练完成后,使用该模型对数据集进行预测,得到各样本点预测值与无量纲试验实测值的绝对百分比误差如图2所示,按阈值剔除异常点。
3.数据标签化
按步骤2所示方法对异常检测后的数据集D'进行标签化。
4.评价区间聚类
使用K-Means算法进行聚类,多次试验后设定k值为4,聚簇结果如图3所示。根据图中聚簇结果,将待测区间划分、各个区间的候选经验算法如表4所示。
表4待测区间划分表
Figure BDA0003065973000000092
Figure BDA0003065973000000101
5.模型构建与评价
图5为本实验数据集应用随机森林方法时,不同参数模型时的OOB误差,可以看出,随着随机森林中基分类器决策树数量增加,整体的OOB误差均呈下降趋势,且决策树数量大于100时,下降趋势明显放缓且呈现波动,其中,最大特征为8的随机森林分类器模型的OOB误差还出现了上升趋势。根据图中误差,选取决策树数量为100、最大特征为8作为本实验采用的模型。
各个待评价区间的测试集结果如表5所示:
表5待测区间测试集结果表
区间 测试集分布 随机森林结果分布 较优算法
1 4:51,2:15,1:13,0:11,3:2 4:41,1:20,2:19,0:8,3:4 UMIST
2 4:21,0:17,1:6,3:5,2:3 0:28,4:17,3:4,1:3 Young
3 0:7,1:7,4:5,3:2,2:1 0:9,1:6,2:3,4:3,3:1 Forrestal
4 0:3,4:1,1:1,2:1 0:3,2:2,1:1 Young
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (9)

1.一种基于随机森林的混凝土侵彻深度经验算法评价方法,其特征在于,包括:
步骤1、基于BP神经网络拟合数据分布,对采集的试验数据样本集剔除异常数据,所述试验数据样本集包含着靶速度、弹体质量、弹体直径、靶标抗压强度、弹头CRH、弹头形状因子、弹头长度、靶标材料密度、无量纲侵彻深度参数;
步骤2、对异常剔除后的试验数据样本集进行数据标签化;
步骤3、对标签化的试验数据样本集进行K-Means算法聚类,划分出若干参数区间,得到若干区间数据集,并将它们分别划分为训练集和测试集;
步骤4、采用Bagging算法对训练集进行多次采样,得到若干子采样数据集;分别构建多棵决策树作为基分类器,每棵决策树使用一个子采样数据集进行训练;同时将决策树集成起来构成随机森林,将多个算法的优劣评价转化为机器学习范畴中的分类问题,使用相对多数投票法,得出最终的评价结果。
2.如权利要求1所述的基于随机森林的混凝土侵彻深度经验算法评价方法,其特征在于,步骤1具体为:使用BP神经网络来对试验数据样本集进行拟合,BP神经网络经过训练得到试验数据分布的BP神经网络模型;使用BP神经网络模型对试验数据样本集进行预测,并与实际的无量纲侵彻深度测量值进行比较,采用相对偏差进行排序,将误差最高的前5%数据剔除,认为剩下的数据均为正常样本。
3.如权利要求1所述的基于随机森林的混凝土侵彻深度经验算法评价方法,其特征在于,步骤2的数据标签化为:
对于一条数据Di,假定存在m个经验算法待评价,则有算法值矩阵V=[v1 v2 ... vm],并可得偏差矩阵B=[b1 b2 ... bm],经过独热编码后,对于数据Di,其标签为label=[0 1 0... 0]。
4.如权利要求1所述的基于随机森林的混凝土侵彻深度经验算法评价方法,其特征在于,步骤3中,使用K-Means算法时,设k为需要聚簇的个数,在数据集中随机选取k个样本作为聚类中心,并计算各个样本与k个聚类中心的距离,将该样本归到距离最小的聚类中心所在的簇中;然后重新计算簇中心点,并不断重复,直至聚类中心点位置收敛为止。
5.如权利要求1所述的基于随机森林的混凝土侵彻深度经验算法评价方法,其特征在于,步骤3中,K-Means算法中,样本的数据点归属于哪个簇是由类间欧式距离决定;经过聚类后,得到k个簇,从而得到k个参数区间。
6.如权利要求1所述的基于随机森林的混凝土侵彻深度经验算法评价方法,其特征在于,步骤4中,通过对各个参数区间分别构建随机森林集成分类模型,来对区间内的算法进行评价;具体为:
步骤4.1、使用Bootstrap方法,由原始训练集构建k个子训练集{D1,D2,...,Dk};
步骤4.2、为每个子训练集Di,i∈[1,k]建立一棵决策树分类器,k个子训练集构成k棵决策树分类器{h(X,θi),i=1,2,...,k},θi为随机变量序列,基分类器每次选取划分属性时,先随机选取一个属性子集,再从中选取最佳属性;假定当前节点属性集包括d个属性,从中选取d'个子属性构成属性子集,d'=1时,每次随机选择一个属性用于划分;d'=log2d,其为经验取值;
步骤4.3、将这k棵基决策树分类器集成起来,采用投票法或平均法等得到最终结果。
7.一种基于随机森林的混凝土侵彻深度经验算法评价装置,其特征在于,包括:
预处理模块,用于基于BP神经网络拟合数据分布,对采集的试验数据样本集剔除异常数据,所述试验数据样本集包含着靶速度、弹体质量、弹体直径、靶标抗压强度、弹头CRH、弹头形状因子、弹头长度、靶标材料密度、无量纲侵彻深度参数;
标签化模块,用于对异常剔除后的试验数据样本集进行数据标签化;
聚类模块,用于对标签化的试验数据样本集进行K-Means算法聚类,划分出若干参数区间,得到若干区间数据集,并将它们分别划分为训练集和测试集;
评价模块,用于采用Bagging算法对训练集进行多次采样,得到若干子采样数据集;分别构建多棵决策树作为基分类器,每棵决策树使用一个子采样数据集进行训练;同时将它们集成起来构成随机森林,将多个算法的优劣评价转化为机器学习范畴中的分类问题,使用相对多数投票法,得出最终的评价结果。
8.如权利要求7所述的基于随机森林的混凝土侵彻深度经验算法评价方法,其特征在于,预处理模块具体为:使用BP神经网络来对试验数据样本集进行拟合,该网络经过训练得到试验数据分布的BP神经网络模型;使用BP神经网络模型对试验数据样本集进行预测,并与实际的无量纲侵彻深度测量值进行比较,采用相对偏差进行排序,将误差最高的前5%数据剔除,认为剩下的数据均为正常样本。
9.如权利要求7所述的基于随机森林的混凝土侵彻深度经验算法评价方法,其特征在于,标签化模块具体为:
对于一条数据Di,假定存在m个经验算法待评价,则有算法值矩阵V=[v1 v2 ... vm],并可得偏差矩阵B=[b1 b2 ... bm],经过独热编码后,对于数据Di,其标签为label=[0 1 0... 0]。
CN202110526328.7A 2021-05-14 2021-05-14 基于随机森林的混凝土侵彻深度经验算法评价方法和装置 Active CN113159220B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110526328.7A CN113159220B (zh) 2021-05-14 2021-05-14 基于随机森林的混凝土侵彻深度经验算法评价方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110526328.7A CN113159220B (zh) 2021-05-14 2021-05-14 基于随机森林的混凝土侵彻深度经验算法评价方法和装置

Publications (2)

Publication Number Publication Date
CN113159220A true CN113159220A (zh) 2021-07-23
CN113159220B CN113159220B (zh) 2022-02-15

Family

ID=76875103

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110526328.7A Active CN113159220B (zh) 2021-05-14 2021-05-14 基于随机森林的混凝土侵彻深度经验算法评价方法和装置

Country Status (1)

Country Link
CN (1) CN113159220B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114358441A (zh) * 2022-01-19 2022-04-15 西南石油大学 一种致密气产量的智能分段预测方法
CN115600121A (zh) * 2022-04-26 2023-01-13 南京天洑软件有限公司(Cn) 数据分层分类方法及装置、电子设备、存储介质
CN114358441B (zh) * 2022-01-19 2024-05-31 西南石油大学 一种致密气产量的智能分段预测方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080160646A1 (en) * 2006-12-29 2008-07-03 Cadence Design Systems, Inc. Method, system, and computer program product for predicting thin film integrity, manufacturability, reliability, and performance in electronic designs
US20090125155A1 (en) * 2007-11-08 2009-05-14 Thomas Hill Method and System for Optimizing Industrial Furnaces (Boilers) through the Application of Recursive Partitioning (Decision Tree) and Similar Algorithms Applied to Historical Operational and Performance Data
CN103353988A (zh) * 2013-06-17 2013-10-16 苏州科技学院 异源sar景象特征匹配算法性能评估方法
CN103745454A (zh) * 2013-12-17 2014-04-23 北京大学 一种基于排序学习的图像处理算法或系统的评价方法
US20140172399A1 (en) * 2011-08-30 2014-06-19 Georgia Tech Research Corporation Weld analysis using laser generated narrowband lamb waves
CN110378324A (zh) * 2019-07-15 2019-10-25 易诚高科(大连)科技有限公司 一种基于质量维度的人脸识别算法评估方法
CN110765668A (zh) * 2019-12-03 2020-02-07 中国人民解放军军事科学院国防工程研究院工程防护研究所 一种基于偏差指标的混凝土侵彻深度试验数据异常点检测方法
CN110956004A (zh) * 2019-12-03 2020-04-03 中国人民解放军军事科学院国防工程研究院工程防护研究所 多经验公式与bp神经网络模型融合的混凝土侵彻深度预测算法
CN110956613A (zh) * 2019-11-07 2020-04-03 成都傅立叶电子科技有限公司 基于图像质量的目标检测算法性能归一化评价方法及系统
CN110990461A (zh) * 2019-12-12 2020-04-10 国家电网有限公司大数据中心 大数据分析模型算法选型方法、装置、电子设备及介质
CN112069567A (zh) * 2020-08-07 2020-12-11 湖北交投十巫高速公路有限公司 基于随机森林和智能算法预测混凝土抗压强度的方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080160646A1 (en) * 2006-12-29 2008-07-03 Cadence Design Systems, Inc. Method, system, and computer program product for predicting thin film integrity, manufacturability, reliability, and performance in electronic designs
US20090125155A1 (en) * 2007-11-08 2009-05-14 Thomas Hill Method and System for Optimizing Industrial Furnaces (Boilers) through the Application of Recursive Partitioning (Decision Tree) and Similar Algorithms Applied to Historical Operational and Performance Data
US20140172399A1 (en) * 2011-08-30 2014-06-19 Georgia Tech Research Corporation Weld analysis using laser generated narrowband lamb waves
CN103353988A (zh) * 2013-06-17 2013-10-16 苏州科技学院 异源sar景象特征匹配算法性能评估方法
CN103745454A (zh) * 2013-12-17 2014-04-23 北京大学 一种基于排序学习的图像处理算法或系统的评价方法
CN110378324A (zh) * 2019-07-15 2019-10-25 易诚高科(大连)科技有限公司 一种基于质量维度的人脸识别算法评估方法
CN110956613A (zh) * 2019-11-07 2020-04-03 成都傅立叶电子科技有限公司 基于图像质量的目标检测算法性能归一化评价方法及系统
CN110765668A (zh) * 2019-12-03 2020-02-07 中国人民解放军军事科学院国防工程研究院工程防护研究所 一种基于偏差指标的混凝土侵彻深度试验数据异常点检测方法
CN110956004A (zh) * 2019-12-03 2020-04-03 中国人民解放军军事科学院国防工程研究院工程防护研究所 多经验公式与bp神经网络模型融合的混凝土侵彻深度预测算法
CN110990461A (zh) * 2019-12-12 2020-04-10 国家电网有限公司大数据中心 大数据分析模型算法选型方法、装置、电子设备及介质
CN112069567A (zh) * 2020-08-07 2020-12-11 湖北交投十巫高速公路有限公司 基于随机森林和智能算法预测混凝土抗压强度的方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BAOHUA GU 等: "Modelling classification performance for large data sets: An empirical study", 《COMPUTER SCIENCE》 *
刘海涛: "弹体斜侵彻混凝土靶过程中动态参数测试技术研究", 《中国优秀博硕士学位论文全文数据库(硕士)工程科技Ⅱ辑》 *
尹放林 等: "弹体侵彻深度计算公式对比研究", 《爆炸与冲击》 *
杨正有 等: "带攻角弹体斜侵彻混凝土深度计算公式对比分析", 《四川兵工学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114358441A (zh) * 2022-01-19 2022-04-15 西南石油大学 一种致密气产量的智能分段预测方法
CN114358441B (zh) * 2022-01-19 2024-05-31 西南石油大学 一种致密气产量的智能分段预测方法
CN115600121A (zh) * 2022-04-26 2023-01-13 南京天洑软件有限公司(Cn) 数据分层分类方法及装置、电子设备、存储介质
CN115600121B (zh) * 2022-04-26 2023-11-07 南京天洑软件有限公司 数据分层分类方法及装置、电子设备、存储介质

Also Published As

Publication number Publication date
CN113159220B (zh) 2022-02-15

Similar Documents

Publication Publication Date Title
CN108846259B (zh) 一种基于聚类和随机森林算法的基因分类方法及系统
CN109934269B (zh) 一种电磁信号的开集识别方法和装置
CN109870421B (zh) 一种基于可见光/近红外光谱分析的递增式木材树种分类识别方法
CN110287439A (zh) 一种基于lstm的网络行为异常检测方法
CN110222745A (zh) 一种基于相似性学习及其增强的细胞类型鉴定方法
CN110377605B (zh) 一种结构化数据的敏感属性识别与分类分级方法
CN110134719B (zh) 一种结构化数据敏感属性的识别与分类分级方法
CN110880369A (zh) 基于径向基函数神经网络的气体标志物检测方法及应用
CN107145778B (zh) 一种入侵检测方法及装置
CN106202999B (zh) 基于不同尺度tuple词频的微生物高通量测序数据分析协议
CN107301328B (zh) 基于数据流聚类的癌症亚型精准发现与演化分析方法
CN110826785A (zh) 一种基于k-medoids聚类和泊松逆高斯的高风险路段识别方法
CN106548041A (zh) 一种基于先验信息和并行二进制微粒群算法的肿瘤关键基因识别方法
CN113159220B (zh) 基于随机森林的混凝土侵彻深度经验算法评价方法和装置
CN102930291B (zh) 用于图形图像的k近邻局部搜索遗传自动聚类方法
CN106951728B (zh) 一种基于粒子群优化和打分准则的肿瘤关键基因识别方法
CN105046323A (zh) 一种正则化rbf网络多标签分类方法
CN116564409A (zh) 基于机器学习的转移性乳腺癌转录组测序数据识别方法
CN110010204A (zh) 基于融合网络和多打分策略的预后生物标志物识别方法
CN113469288A (zh) 融合多个机器学习算法的高危人员预警方法
CN105006231A (zh) 基于模糊聚类决策树的分布式大型人口语者识别方法
CN117195027A (zh) 基于成员选择的簇加权聚类集成方法
CN107886071A (zh) 一种纤维增强复合材料损伤声发射信号的处理方法
CN107909090A (zh) 基于测度学习半监督的钢琴乐谱难度识别方法
CN116072302A (zh) 基于有偏随机森林模型的医疗不平衡数据分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant