CN116340746A - 一种基于随机森林改进的特征选择方法 - Google Patents

一种基于随机森林改进的特征选择方法 Download PDF

Info

Publication number
CN116340746A
CN116340746A CN202310309761.4A CN202310309761A CN116340746A CN 116340746 A CN116340746 A CN 116340746A CN 202310309761 A CN202310309761 A CN 202310309761A CN 116340746 A CN116340746 A CN 116340746A
Authority
CN
China
Prior art keywords
random forest
feature selection
accuracy
tree
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310309761.4A
Other languages
English (en)
Inventor
周文进
安云飞
苗世迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of Science and Technology
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN202310309761.4A priority Critical patent/CN116340746A/zh
Publication of CN116340746A publication Critical patent/CN116340746A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于随机森林改进的的特征选择方法,包括以下步骤:先对完整数据集进行缺失值处理、离散化处理;其次建立传统随机森林模型,并计算传统模型准确率,然后计算设定树木颗数时最佳树深度,以最佳深度重新生成随机森林,并且计算新生成森林中每棵树的准确率,选取准确率靠前的一定百分比的树,然后通过计算各个树的数据相似度,排除相似度超过设定值且准确率较小的树,最后计算最终准确率,从而得到改进后的随机森林。导致分类器性能下降的原因往往是因为这些高维度特征中含有无关特征和冗余特征,本发明基于随机森林的改进特征选择方法可以有效进行数据降维,可以实现较高的准确率来达到选择最优子集的目的。

Description

一种基于随机森林改进的特征选择方法
技术领域:
本发明涉及数据分类的技术,尤其是涉及一种基于随机森林改进的特征选择方法,该方法在特征选择方面有着很好的应用。
背景技术:
特征选择(Feature Selection)也称特征子集选择,是从原始特征中选择出一些最有效特征以降低数据集维度的过程,是提高学习算法性能的一个重要手段,目前主要有过滤器、包装器和嵌入式方法三类。
过滤器方法(Filter Methods)是最常用的特征选择方法,通常是针对单变量的,它会假定每个特征都独立于其他特征,最著名的过滤器方法包括卡方检验、相关系数和信息增益指标,但是,这种滤波方法会导致相关特征的丢失。与过滤式特征选择不考虑后续学习器不同,包裹式特征选择(包裹法,Wrapper)直接把最终将要使用的学习器的性能作为特征子集的评价准则。换言之,包裹式特征选择的目的就是为了给定学习器选择最有利于其性能、“量身定做”的特征子集。因为包裹法是基于最终的学习器来进行特征选择的,所以一般而言,在最终学习器性能方面,包裹法要比过滤法特征选择更好;但另一方面,由于在特征选择过程中多次训练学习器,因此包裹式特征选择的计算开销通常比过滤式特征选择大得多。
在过滤式和包裹式特征选择方法中,特征选择过程与学习器训练过程有明显的分别;与此不同,嵌入式特征选择(嵌入法,Embedded)是将特征选择过程与学习器训练过程融为一体,两者在同一个优化过程中完成,即在学习器训练过程中自动地进行了特征选择。常见的嵌入式特征选择有基于L1正则项的嵌入式特征选择、基于树模型的嵌入式特征选择。然而,随机森林具有准确率高、鲁棒性好、易于使用等优点,这使得它成为了目前最流行的机器学习算法之一。
随着大数据时代的到来,数据的维度也在不断增加,数据集的高维性增加了计算和分析的复杂性,为了解决这一问题,本发明采用一种基于随机森林改进的特征选择方法来降低数据特征之间的冗余度和复杂性。
发明内容:
为了解决数据集特征选择的问题,本发明公开了一种基于随机森林改进的的特征选择方法。
为此,本发明提供了如下技术方案:
1.一种基于随机森林改进的特征选择方法,其特征在于,该方法包括以下步骤:
步骤1:数据预处理模块,对完整数据集进行缺失值处理、离散化处理。
步骤2:特征选择模块,采用基于随机森林改进的特征选择方法进行特征选择。
2.根据权利要求1所述的一种基于随机森林改进的特征选择方法,其特征在于,所述步骤1中,数据预处理模块,对完整数据集进行缺失值处理、离散化处理,具体步骤为:
步骤1-1删除数据中含有缺失值的样本;
步骤1-2采用自上而下的、有监督的CAIM离散算法对无缺失值的数据的连续型特征进行离散化处理,处理公式为:
Figure BDA0004147988600000021
其中,qir(i=1,2,...,S;r=1,2,...,n)表示样本中属于i类且属于区间(dr-1,dr]的个数,maxr是所有qir中的最大值,Mi+是属于第i类的样本个数总和,M+r是属于区间(dr-1,dr]的样本个数总和,n表示区间个数。
3.根据权利要求1所述的一种基于随机森林改进的的特征选择方法,其特征在于,所述步骤2中,特征选择模块,采用基于随机森林改进的的特征选择方法进行特征选择,具体步骤为:
步骤2-1将缺失值处理、离散化处理后的数据集设为数据集D;
步骤2-2将数据集D划分为训练集T和测试集S;
步骤2-3使用训练集T建立随机森林模型,通过bagging方式随机并有放回的抽取原始样本种的N个样本构成新的训练样本,当N足够大时,其中约有1/3的样本不在训练样本中,这类数据被称为袋外(out ofbag,OOB)数据。并根据Gini系数最小原则下通过随机选择N棵决策树内部分裂后的每个节点变量的子集来构建多个Cart决策树并组成随机森林;其中Gini系数定义如下:
Figure BDA0004147988600000022
式中,T为给定数据集,Ci为随机选择一个样本并认定为某一类别,
Figure BDA0004147988600000023
为所选样本为Ci类别的概率;
步骤2-4计算训练集T建立的传统随机森林模型在测试集S上的准确率,准确率计算公式为:
Figure BDA0004147988600000031
其中,TP表示真正例,即实际为正预测为正,TN表示真反例,即实际为负预测为负,FP表示假正例,即实际为负但预测为正,FN表示假反例,即实际为正但预测为负;
步骤2-5计算设定树木颗数最佳树深度,以最佳深度重新生成随机森林。根据步骤2-4得到的传统随机森林的准确率以及传统随机森林,从而计算设定树木颗数最佳树深度,因此需要生成的传统随机森林对数据进行分类,对于精度估计,当每个样本属于OOB样本时,每次都会统计其投票数,多数表决的投票将决定分类类别,OOB样本由于未参与建立决策树,可用来估计预测误差,利用OOB误差评估模型性能及量化变量的重要性。变量的重要性定义如下:
Figure BDA0004147988600000032
式中,V(kj)为第j个特征变量的重要性,N为生成的决策树棵树ei为第i个决策树的袋外误差,
Figure BDA0004147988600000034
为随机改变第j个特征变量值后计算的新的袋外误差;
步骤2-6计算训练集T建立的新生成的随机森林模型中的每棵树在测试集S上的准确率,选取准确率靠前的一定百分比的树;
步骤2-7计算各个树的数据相似度,相似度计算公式为:
Figure BDA0004147988600000033
其中,A、B为2组特征向量,长度为n,Ai、Bi代表特征向量第i维的值,min(Ai,Bi)为Ai、Bi中较小的一个值,max(Ai,Bi)则相反;
步骤2-8排除相似度超过设定值且准确率较小的树,最后计算最终准确率,从而得到改进后的随机森林;
步骤2-9使用改进后的随机森林进行特征提取,得到特征子集。
有益效果:
1.本发明是一种基于随机森林改进的特征选择方法,可以有效进行数据降维,能够实现较高的准确率来达到选择最优子集的目的。
2.本发明结合了特征选择中改进的随机森林方法来进行数据的降维,使用改进的随机森林来提升准确率以得到选择最优子集的目的,同时采用树相似度算法,能够利用树的结构特征间接表示树的相似度,可有效应用于大规模数据集。基于随机森林改进的特征选择方法在寻找特征子集方面具有很高的识别能力,实现了特征选择的高效性。
附图说明:
图1为本发明的结构示意图。
图2为本发明实施方式中的基于随机森林改进的特征选择的过程图。
具体实施方式:
为了使本发明的实施例中的技术方案能够清楚和完整地描述,以下结合实施例中的附图,对本发明进行进一步的详细说明。
以ANDI数据库的adnimerge数据集进行特征选择为例,如图1所示,本发明实施例提供一种基于随机森林改进的的特征选择方法,包括以下步骤:
步骤1:数据预处理模块,对完整数据集进行缺失值处理、离散化处理,具体为:
步骤1-1对于原始得到的数据依据专家建议对各个特征进行筛选,将筛选出的不合理数值设置为空值,删除含有缺失值数据的样本;
步骤1-2筛选后的adnimerge数据集共有21个特征,目标变量分为三类,分别为老年痴呆人群(AD)、轻度认知障碍人群(LMCI)和正常人群(CN),进行离散化处理可以更好的方便模型的进行分类,采用自上而下的、有监督的CAIM离散算法对无缺失值数据集的连续型特征进行离散化处理,处理公式为:
Figure BDA0004147988600000041
其中,qir(i=1,2,...,S;r=1,2,...,n)表示样本中属于i类且属于区间(dr-1,dr]的个数,maxr是所有qir中的最大值,Mi+是属于第i类的样本个数总和,M+r是属于区间(dr-1,dr]的样本个数总和,n表示区间个数,此处n取3,caim值越大表明类和特征相关度越大,所选择的断点越合理。
本发明实施方式中的基于随机森林改进的的特征选择过程,如图2所示,具体过程如下:
步骤2:特征选择模块,采用基于随机森林改进的的特征选择方法进行特征选择,具体为:
步骤2-1将缺失值处理、离散化处理后的数据集设为数据集D;
步骤2-2将数据集D划分为训练集T和测试集S;
步骤2-3使用训练集T建立传统随机森林模型,通过bagging方式随机并有放回的抽取原始样本种的N个样本构成新的训练样本,当N足够大时,其中约有1/3的样本不在训练样本中,这类数据被称为袋外(out ofbag,OOB)数据。并根据Gini系数最小原则下通过随机选择N棵决策树内部分裂后的每个节点变量的子集来构建多个Cart决策树并组成随机森林;其中Gini系数定义如下:
Figure BDA0004147988600000051
式中,T为给定数据集,Ci为随机选择一个样本并认定为某一类别,
Figure BDA0004147988600000052
为所选样本为Ci类别的概率;
步骤2-4计算训练集T建立的传统随机森林模型在测试集S上的准确率,准确率计算公式为:
Figure BDA0004147988600000053
其中,TP表示真正例,即实际为正预测为正,TN表示真反例,即实际为负预测为负,FP表示假正例,即实际为负但预测为正,FN表示假反例,即实际为正但预测为负;
步骤2-5计算设定树木颗数最佳树深度,以最佳深度重新生成随机森林。根据步骤2-4得到的传统随机森林的准确率以及评估传统随机森林模型性能及量化变量的重要性,计算设定树木颗数最佳树深度,因此,需要生成的传统随机森林对数据进行分类,对于精度估计,当每个样本属于OOB样本时,每次都会统计其投票数,多数表决的投票将决定分类类别,OOB样本由于未参与建立决策树,可用来估计预测误差,利用OOB误差评估模型性能及量化变量的重要性。变量的重要性定义如下:
Figure BDA0004147988600000054
式中,V(kj)为第j个特征变量的重要性,N为生成的决策树棵树ei为第i个决策树的袋外误差,
Figure BDA0004147988600000055
为随机改变第j个特征变量值后计算的新的袋外误差;
步骤2-6计算训练集T建立的新生成的随机森林模型中的每棵树在测试集S上的准确率,选取准确率靠前的一定百分比的树,准确率计算公式为:
Figure BDA0004147988600000061
其中,TP表示真正例,即实际为正预测为正,TN表示真反例,即实际为负预测为负,FP表示假正例,即实际为负但预测为正,FN表示假反例,即实际为正但预测为负;
步骤2-7计算各个树的数据相似度,相似度计算公式为:
Figure BDA0004147988600000062
其中,A、B为2组特征向量,长度为n,Ai、Bi代表特征向量第i维的值,min(Ai
Bi)为Ai、Bi中较小的一个值,max(Ai,Bi)则相反;
步骤2-8排除相似度超过设定值且准确率较小的树,最后计算最终准确率,从而得到改进后的随机森林,准确率计算公式为:
Figure BDA0004147988600000063
其中,TP表示真正例,即实际为正预测为正,TN表示真反例,即实际为负预测为负,FP表示假正例,即实际为负但预测为正,FN表示假反例,即实际为正但预测为负;
步骤2-9使用改进后的随机森林进行特征选择,得到特征子集。
以上所述是结合附图对本发明的实施例进行的详细介绍,需要指出的是,本文的具体实施方式只是用于帮助理解本发明的方法,对于本技术领域的普通技术人员在依据本发明的前提下,可以做出若干变化和修改,上述变化和修改的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (3)

1.一种基于随机森林改进的特征选择方法,其特征在于,该方法包括以下步骤:
步骤1:数据预处理模块,对完整数据集进行缺失值处理、离散化处理。
步骤2:特征选择模块,采用基于随机森林改进的特征选择方法进行特征选择。
2.根据权利要求1所述的一种基于随机森林改进的特征选择方法,其特征在于,所述步骤1中,数据预处理模块,对完整数据集进行缺失值处理、离散化处理,具体步骤为:
步骤1-1删除数据中含有缺失值的样本;
步骤1-2采用自上而下的、有监督的CAIM离散算法对无缺失值的数据的连续型特征进行离散化处理,处理公式为:
Figure FDA0004147988580000011
其中,qir(i=1,2,...,S;r=1,2,...,n)表示样本中属于i类且属于区间(dr-1,dr]的个数,maxr是所有qir中的最大值,Mi+是属于第i类的样本个数总和,M+r是属于区间(dr-1,dr]的样本个数总和,n表示区间个数。
3.根据权利要求1所述的一种基于随机森林改进的的特征选择方法,其特征在于,所述步骤2中,特征选择模块,采用基于随机森林改进的的特征选择方法进行特征选择,具体步骤为:
步骤2-1将缺失值处理、离散化处理后的数据集设为数据集D;
步骤2-2将数据集D划分为训练集T和测试集S;
步骤2-3使用训练集T建立随机森林模型,通过bagging方式随机并有放回的抽取原始样本种的N个样本构成新的训练样本,当N足够大时,其中约有1/3的样本不在训练样本中,这类数据被称为袋外(out of bag,OOB)数据。并根据Gini系数最小原则下通过随机选择N棵决策树内部分裂后的每个节点变量的子集来构建多个Cart决策树并组成随机森林;其中Gini系数定义如下:
Figure FDA0004147988580000012
式中,T为给定数据集,Ci为随机选择一个样本并认定为某一类别,
Figure FDA0004147988580000013
为所选样本为Ci类别的概率;
步骤2-4计算训练集T建立的传统随机森林模型在测试集S上的准确率,准确率计算公式为:
Figure FDA0004147988580000021
其中,TP表示真正例,即实际为正预测为正,TN表示真反例,即实际为负预测为负,FP表示假正例,即实际为负但预测为正,FN表示假反例,即实际为正但预测为负;
步骤2-5计算设定树木颗数最佳树深度,以最佳深度重新生成随机森林。根据步骤2-4得到的传统随机森林的准确率以及传统随机森林,从而计算设定树木颗数最佳树深度,因此需要生成的传统随机森林对数据进行分类,对于精度估计,当每个样本属于OOB样本时,每次都会统计其投票数,多数表决的投票将决定分类类别,OOB样本由于未参与建立决策树,可用来估计预测误差,利用OOB误差评估模型性能及量化变量的重要性。变量的重要性定义如下:
Figure FDA0004147988580000022
式中,V(kj)为第j个特征变量的重要性,N为生成的决策树棵树ei为第i个决策树的袋外误差,
Figure FDA0004147988580000023
为随机改变第j个特征变量值后计算的新的袋外误差;
步骤2-6计算训练集T建立的新生成的随机森林模型中的每棵树在测试集S上的准确率,选取准确率靠前的一定百分比的树;
步骤2-7计算各个树的数据相似度,相似度计算公式为:
Figure FDA0004147988580000024
其中,A、B为2组特征向量,长度为n,Ai、Bi代表特征向量第i维的值,min(Ai,Bi)为Ai、Bi中较小的一个值,max(Ai,Bi)则相反;
步骤2-8排除相似度超过设定值且准确率较小的树,最后计算最终准确率,从而得到改进后的随机森林;
步骤2-9使用改进后的随机森林进行特征提取,得到特征子集。
CN202310309761.4A 2023-03-28 2023-03-28 一种基于随机森林改进的特征选择方法 Pending CN116340746A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310309761.4A CN116340746A (zh) 2023-03-28 2023-03-28 一种基于随机森林改进的特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310309761.4A CN116340746A (zh) 2023-03-28 2023-03-28 一种基于随机森林改进的特征选择方法

Publications (1)

Publication Number Publication Date
CN116340746A true CN116340746A (zh) 2023-06-27

Family

ID=86889108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310309761.4A Pending CN116340746A (zh) 2023-03-28 2023-03-28 一种基于随机森林改进的特征选择方法

Country Status (1)

Country Link
CN (1) CN116340746A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116579842A (zh) * 2023-07-13 2023-08-11 南开大学 基于用户行为数据的信用数据分析方法及系统
CN117075092A (zh) * 2023-09-05 2023-11-17 海底鹰深海科技股份有限公司 一种基于森林算法的水下声呐侧扫图像小目标检测方法
CN117786543A (zh) * 2024-02-28 2024-03-29 沂水友邦养殖服务有限公司 一种数字化肉鸡养殖信息存储管理方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116579842A (zh) * 2023-07-13 2023-08-11 南开大学 基于用户行为数据的信用数据分析方法及系统
CN116579842B (zh) * 2023-07-13 2023-10-03 南开大学 基于用户行为数据的信用数据分析方法及系统
CN117075092A (zh) * 2023-09-05 2023-11-17 海底鹰深海科技股份有限公司 一种基于森林算法的水下声呐侧扫图像小目标检测方法
CN117786543A (zh) * 2024-02-28 2024-03-29 沂水友邦养殖服务有限公司 一种数字化肉鸡养殖信息存储管理方法及系统
CN117786543B (zh) * 2024-02-28 2024-05-10 沂水友邦养殖服务有限公司 一种数字化肉鸡养殖信息存储管理方法及系统

Similar Documents

Publication Publication Date Title
CN112308158B (zh) 一种基于部分特征对齐的多源领域自适应模型及方法
CN116340746A (zh) 一种基于随机森林改进的特征选择方法
CN109272500B (zh) 基于自适应卷积神经网络的织物分类方法
CN111832647A (zh) 异常流量检测系统及方法
CN108197647B (zh) 一种汽车起动机耐久测试数据的快速聚类方法
CN108614997A (zh) 一种基于改进AlexNet的遥感图像识别方法
CN111783534A (zh) 一种基于深度学习的睡眠分期方法
CN115545086B (zh) 一种可迁移的特征自动选取声学诊断方法及系统
CN112529638B (zh) 基于用户分类和深度学习的服务需求动态预测方法及系统
CN111275165A (zh) 一种基于改进卷积神经网络的网络入侵检测方法
CN116153495A (zh) 一种食管癌患者免疫治疗预后生存预测方法
CN112434662A (zh) 一种基于多尺度卷积神经网络的茶叶病斑自动识别算法
CN113288157A (zh) 基于深度可分离卷积和改进损失函数的心律失常分类方法
CN112926640A (zh) 一种基于两阶段深度特征选择的癌症基因分类方法、设备及存储介质
CN115147341A (zh) 一种基于生物视觉启发的织物表面缺陷分类深度网络方法
CN111737688B (zh) 基于用户画像的攻击防御系统
CN113268370A (zh) 一种根因告警分析方法、系统、设备及存储介质
CN112488188A (zh) 一种基于深度强化学习的特征选择方法
CN116977725A (zh) 一种基于改进卷积神经网络的异常行为识别方法及装置
CN116763324A (zh) 基于多尺度和多注意力的单通道脑电信号睡眠分期方法
CN113609480B (zh) 基于大规模网络流的多路学习入侵检测方法
CN115984946A (zh) 一种基于集成学习的人脸识别模型遗忘方法及系统
CN112465054B (zh) 一种基于fcn的多变量时间序列数据分类方法
Kiruthika et al. Classification of metaphase chromosomes using deep learning neural network
CN115100694A (zh) 一种基于自监督神经网络的指纹快速检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination