CN111488903A - 基于特征权重的决策树特征选择方法 - Google Patents

基于特征权重的决策树特征选择方法 Download PDF

Info

Publication number
CN111488903A
CN111488903A CN202010109760.1A CN202010109760A CN111488903A CN 111488903 A CN111488903 A CN 111488903A CN 202010109760 A CN202010109760 A CN 202010109760A CN 111488903 A CN111488903 A CN 111488903A
Authority
CN
China
Prior art keywords
feature
features
samples
sample
decision tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010109760.1A
Other languages
English (en)
Inventor
周红芳
张家炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Technology
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN202010109760.1A priority Critical patent/CN111488903A/zh
Publication of CN111488903A publication Critical patent/CN111488903A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于特征权重的决策树特征选择算法,具体按照以下步骤实施:步骤1、对数据集进行预处理,得到预处理数据集;步骤2、判断数据集中是否有连续特征:对连续特征使用K‑Means聚类算法进行离散化处理,非连续特征直接进入下一步;步骤3、使用改进后的ReliefF算法对经过步骤2处理过的数据集中的特征集进行过滤,保留在样本分类时与类别相关性高的特征;步骤4、使用经过步骤3过滤得到的特征集构造决策树。通过本发明的方法能够提供特征选择分类准确率,提高F1值。

Description

基于特征权重的决策树特征选择方法
技术领域
本发明属于数据挖掘方法技术领域,涉及基于特征权重的决策树特征选 择方法。
背景技术
在机器学习和数据挖掘领域,往往涉及到很多高维数据集,有时还包含 大量的无关属性和冗余属性,这些属性会导致机器学习算法对于测试集的分 类效果降低,影响各种预测系统在现实中的应用。因此,作为数据预处理阶 段中的一个重要步骤,特征选择可以将属性集中的无关的冗余的属性删除, 提取出与分类有很高的相关性的属性作为特征子集在下一步的分类中进行 使用,最终提升机器学习算法的分类准确率和速度。
特征选择算法主要包含三种方式,分别是过滤式、封装式和嵌入式特征 选择算法。过滤式特征选择的过程独立于数据分类的过程,使用数据的内在 属性对选取的属性进行评价,主要优点是计算速度快、复杂度低,缺点是难 以确定由过滤方法选择的属性是否能使特定的分类器的分类精度最大;封装 式特征选择算法将属性选择的过程放到机器学习算法过程中,通过后面的学 习算法的结果选择最合适的特征子集,该方法将特征选择和分类的决策进行 结合,因此分类准确率高,缺点是计算复杂度高;嵌入式特征选择算法,该方法将特征选择过程嵌入到机器学习算法中,构建训练模型的过程就是特征 选择的过程,例如正则化的L1、L2算法,决策树算法等,其中决策树算法 作为经典的数据挖掘算法,其构成决策树的过程就是特征选择的过程,在决 策树每个节点通过属性对样本进行划分。因此,如何选择属性就成了决策树 算法的一个非常重要的问题。目前经典的决策树算法有基于信息增益、信息 增益率以及基尼指数的特征选择方法。决策树算法的优点是分类准确率高, 构成过程能够很好地解释,并且构建过程简单快速,冗余属性不会影响算法 的分类准确率,对于噪声数据具有很好的鲁棒性,缺点是容易造成过拟合, 构成的决策树模型容易受到样本的影响,子树可能在决策树中重复多次,使 得决策树过于复杂。
发明内容
本发明的目的是提供一种基于特征权重的决策树特征选择方法,解决了 现有技术中存在的由于过拟合导致的决策树模型受到样本的影响,使得分类 准确率的问题。
本发明所采用的技术方案是,基于特征权重的决策树特征选择方法,具 体操作步骤如下:
步骤1、对数据集进行预处理,得到预处理数据集,其中,数据集包含 M个特征和N个样本,N个样本分布在K个类别中,特征集F={f1,f2,...fM}, 样本集S={s1,s2,...sN},类别C={c1,c2,....,cK};
步骤2、判断数据集中是否有连续特征:对连续特征使用K-Means聚类 算法进行离散化处理,非连续特征直接进入下一步;
步骤3、使用改进后的ReliefF算法对经过步骤2处理过的数据集中的 特征集进行过滤,保留在样本分类时与类别相关性高的特征;
步骤4、使用经过步骤3过滤得到的特征集构造决策树。
本发明的特点还在于:
步骤1具体包括:对于数据集中的缺失值使用该列特征的所有特征值的 平均值进行代替;对于数据集中不符合要求的类别值,将每个特征取值转换 为离散型的数字。
步骤2中对连续特征使用K-Means聚类算法进行离散化处理具体按照以 下步骤实施:
步骤2.1、使用轮廓系数法确定每个连续特征的聚类簇数;
步骤2.2、依次将每个样本中的每个连续特征的值按照其与k个聚类中 心的欧式距离的远近划分到不同的簇中,每个簇对应一个离散特征值;
步骤2.3、重复以上的过程将所有连续特征都转换为离散型特征。
步骤2.1具体为:假设聚类簇数为k,设k从2到10,在数据集中随机 选择一个样本i,计算与同一簇中其他样本的欧式距离的平均值a(i),欧 式距离计算公式如下:
Figure BDA0002389561050000031
同时计算样本i与其他簇中每个样本的距离的平均值b(i),轮廓系数 计算公式如下:
Figure BDA0002389561050000032
将轮廓系数值最大时对应的k值作为该连续特征的聚类簇数。
步骤3具体按照以下步骤实施:
步骤3.1、在数据集中随机选择一个样本R,计算R与同类别样本中每 个样本间的欧氏距离,选择k个与R距离最短的同类样本作为最近邻样本, 计算每个与R不同类别的样本中每个样本间的欧式距离,分别在每个不同类 样本集中选择k个与R距离最近的样本作为不同类最近邻;
步骤3.2、将步骤3.1重复M次,计算每个特征的特征权重值W(A), 公式如下:
Figure BDA0002389561050000041
对于离散型特征值,diff(A,Ix,Iy)公式如下:
Figure BDA0002389561050000042
步骤3.3、将经过步骤3.2计算得到的每个特征的特征权重值从大到小 进行排序,形成特征权重向量;
步骤3.4、若特征集中特征个数为奇数,将特征权重向量中的中位数作 为特征权重阈值β,若特征集中特征个数为偶数,将特征权重向量的最中间 两个数的平均值作为特征权重阈值β;
步骤3.5、使用步骤3.4得到的特征权重阈值β对特征集进行过滤,将 特征集中特征权重值小于β的特征进行删除,保留特征权重值大于等于β的 特征。
步骤4具体按照以下步骤实施:
步骤4.1、构造决策树的每一层时计算每个特征的特征权重值;
步骤4.2、选择特征权重值最大的特征作为划分特征,并将该特征从特 征集中删除,进行递归构造决策树,直到达到构造决策树的终止条件,形成 一个决策树。
步骤4.1具体按照以下步骤实施:
步骤4.1.1、在数据集中随机选择一个样本R,计算R与同类别样本中 每个样本间的欧氏距离,选择k个与R距离最短的同类样本作为最近邻样本, 计算每个与R不同类别的样本中每个样本间的欧式距离,分别在每个不同类 样本集中选择k个与R距离最近的样本作为不同类最近邻;
步骤4.1.2、将步骤4.1.1重复M次,计算每个特征的特征权重值W(A), 公式如下:
Figure BDA0002389561050000051
对于离散型特征值,diff(A,Ix,Iy)公式如下:
Figure BDA0002389561050000052
本发明的有益效果为:
1.本发明基于特征权重的决策树特征选择算法,通过改进ReliefF算法 中不能自动确定特征阈值的问题,通过引入中位数概念,将特征集中每个特 征的权重进行排序,将位于中位数的特征权重值作为权重阈值进行特征过 滤,提高了决策树算法的分类准确率以及F1值;
2.本发明基于特征权重的决策树特征选择算法,通过使用特征权重作 为决策树节点构造,在每次选择节点划分特征时计算所有特征的权重值,选 择特征权重值最大的特征作为划分节点的特征,通过使用对于样本分类最重 要的特征,提高构造的决策树的正确性。
附图说明
图1是本发明基于特征权重的决策树特征选择算法的流程图;
图2是数据集中的特征权重值。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明中的相关定义如下:
定义1(特征权重):一个数据集中,首先随机选择一个样本R,然后将 与R类别相同的样本放在一起,计算样本R分别与其同类别样本之间的距离, 选择k个距离最近的样本作为同类最近邻。同时分别计算每个与R不同类的 样本与R之间的距离,在其他的每个类别中分别选择k个与R距离最近的样 本作为不同类最近邻。在计算一个特征的特征权重时,当R与同类别样本出 现很大的差异则该特征被赋予较低的特征权重。当R与其他不同类的样本之 间出现很大的差异则该特征被赋予较高的特征权重。最后,一个特征的权重 值为初始权重值减去同类别的权重值并加上不同类的权重值。
定义2(中位数)指按顺序排列的一组数据中位于中间位置的数,代表 一个样本、种群或概率分布的一个数值,其可将数据集合划分为相等的上下 两部分。对于有限的数集,可以通过将所有观察值高低排序后找到正中间的 一个作为中位数。当观察值有偶数个,通常取最中间的两个数值的平均值作 为中位数。
定义3(F1值)为统计学中用来衡量二分类精确度的指标。同时兼顾了 精确率和召回率。可以看做是模型精确率(precision)和召回率(recall) 的调和平均值,最大值为1,最小值为0,,F1值计算公式如下:
Figure BDA0002389561050000061
定义3(准确率)指在一定实验条件下多个测定值中满足限定条件的测 定值所占的比例。用来同时表示测量结果中系统误差和随机误差大小的程 度,多次测量值的平均值与真值的接近程度。准确率(Accuracy)计算公式 如下:
Figure BDA0002389561050000071
定义4(精确率)指定义为正样本的所有样本中,多大比率真的是正样 本(TP),预测为正样本的所有样本中包含两部分:一种是正样本预测为正 样本(TP),另一种是将原来的负样本预测为正样本(FP)。即预测对的正样 本数量/所有预测为正样本的数量。精确率(precision)计算公式如下:
Figure BDA0002389561050000072
本发明是基于特征权重的决策树特征选择方法,如图1所示,具体按照 以下步骤实施:
步骤1、对数据集进行预处理,得到预处理数据集,其中,数据集包含 M个特征和N个样本,N个样本分布在K个类别中,特征集F={f1,f2,...fM}, 样本集S={s1,s2,...sN},类别C={c1,c2,....,cK};
数据预处理具体包括:对于数据集中的缺失值使用该列特征的所有特征 值的平均值进行代替;对于数据集中不符合要求的类别值,将每个特征取值 转换为离散型的数字;
步骤2、判断数据集中是否有连续特征:对连续特征使用K-Means聚类 算法进行离散化处理,非连续特征直接进入下一步,其中在K-Means算法中 需要确定每个连续特征的聚类簇数,使用轮廓系数法确定聚类的簇数量,假 设聚类的簇数量为k,设k从2到10,在数据集D中随机选择一个样本i, 计算与同一簇中其他样本的欧式距离的平均值a(i),欧式距离计算公式如 下:
Figure BDA0002389561050000081
同时计算样本i与其他簇中每个样本的距离的平均值b(i),轮廓系数 计算公式如下:
Figure BDA0002389561050000082
将轮廓系数值最大时对应的k值作为该连续特征的聚类簇数,按照以上 的方法计算每个连续特征的聚类簇数,并将离散化后的特征放回特征集中, 随后依次将每个样本中的每个连续特征的值按照其与k个聚类中心的欧式距 离的远近划分到不同的簇中,每个簇对应一个离散特征值,重复以上的过程 将所有连续特征都转换为离散型特征;
步骤3、将经过连续特征离散化后的数据集使用五折交叉验证方法划分 为训练集和测试集;
步骤4、使用改进后的ReliefF算法对训练集中的特征集进行过滤,保 留在样本分类时与类别相关性高的特征,具体按照以下步骤实施:
步骤4.1、在数据集中随机选择一个样本R,计算R与同类别样本中每 个样本间的欧氏距离,选择k个与R距离最短的同类样本作为最近邻样本, 计算每个与R不同类别的样本中每个样本间的欧式距离,分别在每个不同类 样本集中选择k个与R距离最近的样本作为不同类最近邻;
步骤4.2、将步骤4.1重复M次,计算每个特征的特征权重值W(A), 公式如下:
Figure BDA0002389561050000083
对于离散型特征值,diff(A,Ix,Iy)公式如下:
Figure BDA0002389561050000091
步骤4.3、将经过步骤4.2计算得到的每个特征的特征权重值从大到小 进行排序,形成特征权重向量;
步骤4.4、若特征集中特征个数为奇数,将特征权重向量中的中位数作 为特征权重阈值β,若特征集中特征个数为偶数,将特征权重向量的最中间 两个数的平均值作为特征权重阈值β,计算得到的数据集中的特征权重值如 图2所示,假设特征权重向量为x(1),x(2)......x(n),当N为奇数,则中位数为 m0.5=X(N+1)/2,当N为偶数,中位数为
Figure BDA0002389561050000092
步骤4.5、使用步骤4.4得到的特征权重阈值β对特征集进行过滤,将 特征集中特征权重值小于β的特征进行删除,保留特征权重值大于等于β的 特征;
步骤5、使用经过步骤4过滤得到的特征集构造决策树,具体按照以下 步骤实施:
步骤5.1、构造决策树的每一层时计算每个特征的特征权重值,具体为:
步骤5.1.1、在数据集中随机选择一个样本R,计算R与同类别样本中 每个样本间的欧氏距离,选择k个与R距离最短的同类样本作为最近邻样本, 计算每个与R不同类别的样本中每个样本间的欧式距离,分别在每个不同类 样本集中选择k个与R距离最近的样本作为不同类最近邻;
步骤5.1.2、将步骤5.1.1重复M次,计算每个特征的特征权重值W(A), 公式如下:
Figure BDA0002389561050000093
对于离散型特征值,diff(A,Ix,Iy)公式如下:
Figure BDA0002389561050000101
步骤5.2、选择特征权重值最大的特征作为划分特征,并将该特征从特 征集中删除,进行递归构造决策树,直到达到构造决策树的终止条件,形成 一个决策树。
步骤6:对测试集进行预测,分别评估测试样本分类的准确率、召回率 以及F1值。
本发明中构造决策树过程如表1所示:
表1算法中构造决策树部分的伪代码
Figure BDA0002389561050000111
其中,计算特征权重的过程如表2所示:
表2计算特征权重过程伪代码
Figure BDA0002389561050000112
Figure BDA0002389561050000121
该方法中特征预过滤部分的伪代码如表3所示:
表3特征预过滤部分的伪代码
Figure BDA0002389561050000122
Figure BDA0002389561050000131
本发明决策树特征选择方法的性能评测:
为验证本发明的有效性,选择四种决策树特征选择算法进行比较,使用 的对比算法分别是:CART算法、ID3算法、C4.5算法以及DRDT算法,这 几种算法分别是基于基尼指数、信息增益、信息增益率以及基于离散率的决 策树算法。
本发明采用11个University of California Irvine(UCI)真实数据集,这 11个数据集具体信息如表4所示:
表4数据集具体信息
Figure BDA0002389561050000141
这11个数据集的特征权重值的分布如图2所示。
实验将在使用了特征预过滤步骤和未使用特征预过滤步骤这两种情况 下,观察这五种算法分别在分类准确率、召回率、F1值这三个方面的表现。
表5和表6分别表示这五种算法在未使用特征预过滤步骤和使用特征预 过滤步骤下在11个数据集上的分类准确率。
表5未使用特征预过滤的分类准确率
Figure BDA0002389561050000142
Figure BDA0002389561050000151
表6使用了特征预过滤的分类准确率
Figure BDA0002389561050000152
由表5所示可看出,未使用特种预过滤步骤的情况下在11个数据集中 基于特征权重的决策树算法(FWDT)有4个数据集的分类准确率是最高的, 同时平均值也非常接近于C4.5算法的分类准确率;由表6所示可看出,在 使用了特征预过滤步骤的情况下11个数据集中,本发明(FWDT)有6个数 据集的分类准确率是最高的,优于其他四种对比算法,并且本发明在这11 个数据集上的平均分类准确率是最高的,达到75.51%,高于其他四种对比 算法。通过对比表5和表6,11个数据集中,使用特征预过滤步骤得到的分 类准确率比未使用特征预过滤步骤得到的准确率高的数据集数量,CART算 法有6个数据集,ID3算法有2个数据集,C4.5算法有3个数据集,DRDT 算法有4个数据集,FWDT算法有6个数据集。
表7和表8分别表示这五种算法在未使用特征预过滤步骤和使用特征预 过滤步骤下在11个数据集上的召回率:
表7未使用特征预过滤的召回率
Figure BDA0002389561050000161
表8使用了特征预过滤的召回率
Figure BDA0002389561050000162
Figure BDA0002389561050000171
由表7所示,在未使用特征预过滤步骤的情况下,C4.5算法在11个数 据集上的平均召回率是最高的为39.09%,11个数据集中本发明在4个数据 集测试的召回率是最高的,同时平均召回率与C4.5算法的结果差别不大; 由表8所示,在使用特征预过滤步骤的情况下,本发明(FWDT)在5个数 据集中的召回率最高,同时平均召回率也是最高的,表现优于其他四种对比 算法。对比表7和表8可以看到,在11个数据集上,使用特征预过滤步骤 得到的召回率比未使用特征预过滤步骤得到的召回率高的数据集数量, CART算法没有,ID3算法和C4.5算法有2个数据集,DRDT算法有4个数 据集,FWDT算法有7个数据集。
表9和表10分别表示这五种算法在未使用特征预过滤步骤和使用特征 预过滤步骤下在11个数据集上的F1值:
表9未使用特征预过滤的F1值
Figure BDA0002389561050000172
Figure BDA0002389561050000181
表10使用了特征预过滤的F1值
Figure BDA0002389561050000182
由表9所示,在未使用特征预过滤步骤的情况下,本发明(FWDT)在 4个数据集上的F1值是最高的,同时11个数据集的平均F1值与C4.5算法 的平均F1值接近。由表10所示,在使用了特征预过滤步骤的情况下,本发 明(FWDT)在6个数据集中的F1值最高,同时11个数据集的平均F1值 也是最高的,优于其他四种对比算法。通过对比表9和表10,在11个数据集上,使用特征预过滤步骤得到的F1值比未使用特征预过滤步骤得到的F1 值高的数据集数量,CART算法有3个数据集,ID3算法有2个数据集,C4.5 算法有2个数据集,DRDT算法有2个数据集,FWDT算法有7个数据集。
通过以上实验分析,可以看到本发明在分类准确率、召回率以及F1值 方面优于其他四种对比算法的结果。

Claims (7)

1.基于特征权重的决策树特征选择算法,其特征在于,具体按照以下步骤实施:
步骤1、对数据集进行预处理,得到预处理数据集,其中,数据集包含M个特征和N个样本,N个样本分布在K个类别中,特征集F={f1,f2,...fM},样本集S={s1,s2,...sN},类别C={c1,c2,...cK};
步骤2、判断数据集中是否有连续特征:对连续特征使用K-Means聚类算法进行离散化处理,非连续特征直接进入下一步;
步骤3、使用改进后的ReliefF算法对经过步骤2处理过的数据集中的特征集进行过滤,保留在样本分类时与类别相关性高的特征;
步骤4、使用经过步骤3过滤得到的特征集构造决策树。
2.根据权利要求1所述的基于特征权重的决策树特征选择算法,其特征在于:所述步骤1具体包括:对于数据集中的缺失值使用该列特征的所有特征值的平均值进行代替;对于数据集中不符合要求的类别值,将每个特征取值转换为离散型的数字。
3.根据权利要求1所述的基于特征权重的决策树特征选择算法,其特征在于:所述步骤2中对连续特征使用K-Means聚类算法进行离散化处理具体按照以下步骤实施:
步骤2.1、使用轮廓系数法确定每个连续特征的聚类簇数;
步骤2.2、依次将每个样本中的每个连续特征的值按照其与k个聚类中心的欧式距离的远近划分到不同的簇中,每个簇对应一个离散特征值;
步骤2.3、重复以上的过程将所有连续特征都转换为离散型特征。
4.根据权利要求3所述的基于特征权重的决策树特征选择算法,其特征在于:所述步骤2.1具体为:假设聚类簇数为k,设k从2到10,在数据集中随机选择一个样本i,计算与同一簇中其他样本的欧式距离的平均值a(i),欧式距离计算公式如下:
Figure FDA0002389561040000021
同时计算样本i与其他簇中每个样本的距离的平均值b(i),轮廓系数计算公式如下:
Figure FDA0002389561040000022
将轮廓系数值最大时对应的k值作为该连续特征的聚类簇数。
5.根据权利要求1所述的基于特征权重的决策树特征选择算法,其特征在于:所述步骤3具体按照以下步骤实施:
步骤3.1、在数据集中随机选择一个样本R,计算R与同类别样本中每个样本间的欧氏距离,选择k个与R距离最短的同类样本作为最近邻样本,计算每个与R不同类别的样本中每个样本间的欧式距离,分别在每个不同类样本集中选择k个与R距离最近的样本作为不同类最近邻;
步骤3.2、将步骤3.1重复M次,计算每个特征的特征权重值W(A),公式如下:
Figure FDA0002389561040000023
对于离散型特征值,diff(A,Ix,Iy)公式如下:
Figure FDA0002389561040000024
步骤3.3、将经过步骤3.2计算得到的每个特征的特征权重值从大到小进行排序,形成特征权重向量;
步骤3.4、若特征集中特征个数为奇数,将特征权重向量中的中位数作为特征权重阈值β,若特征集中特征个数为偶数,将特征权重向量的最中间两个数的平均值作为特征权重阈值β;
步骤3.5、使用步骤3.4得到的特征权重阈值β对特征集进行过滤,将特征集中特征权重值小于β的特征进行删除,保留特征权重值大于等于β的特征。
6.根据权利要求1所述的基于特征权重的决策树特征选择算法,其特征在于:所述步骤4具体按照以下步骤实施:
步骤4.1、构造决策树的每一层时计算每个特征的特征权重值;
步骤4.2、选择特征权重值最大的特征作为划分特征,并将该特征从特征集中删除,进行递归构造决策树,直到达到构造决策树的终止条件,形成一个决策树。
7.根据权利要求6所述的基于特征权重的决策树特征选择算法,其特征在于:所述步骤4.1具体按照以下步骤实施:
步骤4.1.1、在数据集中随机选择一个样本R,计算R与同类别样本中每个样本间的欧氏距离,选择k个与R距离最短的同类样本作为最近邻样本,计算每个与R不同类别的样本中每个样本间的欧式距离,分别在每个不同类样本集中选择k个与R距离最近的样本作为不同类最近邻;
步骤4.1.2、将步骤4.1.1重复M次,计算每个特征的特征权重值W(A),公式如下:
Figure FDA0002389561040000031
对于离散型特征值,diff(A,Ix,Iy)公式如下:
Figure FDA0002389561040000041
CN202010109760.1A 2020-02-22 2020-02-22 基于特征权重的决策树特征选择方法 Pending CN111488903A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010109760.1A CN111488903A (zh) 2020-02-22 2020-02-22 基于特征权重的决策树特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010109760.1A CN111488903A (zh) 2020-02-22 2020-02-22 基于特征权重的决策树特征选择方法

Publications (1)

Publication Number Publication Date
CN111488903A true CN111488903A (zh) 2020-08-04

Family

ID=71798307

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010109760.1A Pending CN111488903A (zh) 2020-02-22 2020-02-22 基于特征权重的决策树特征选择方法

Country Status (1)

Country Link
CN (1) CN111488903A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114706751A (zh) * 2022-03-09 2022-07-05 南京理工大学紫金学院 一种基于改进smote的软件缺陷预测方法
CN117932313A (zh) * 2024-03-25 2024-04-26 武汉体育学院 基于人工智能的皮划艇技术动作预测方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114706751A (zh) * 2022-03-09 2022-07-05 南京理工大学紫金学院 一种基于改进smote的软件缺陷预测方法
CN114706751B (zh) * 2022-03-09 2023-09-15 南京理工大学紫金学院 一种基于改进smote的软件缺陷预测方法
CN117932313A (zh) * 2024-03-25 2024-04-26 武汉体育学院 基于人工智能的皮划艇技术动作预测方法及系统

Similar Documents

Publication Publication Date Title
CN111899882B (zh) 一种预测癌症的方法及系统
CN109635010B (zh) 一种用户特征及特征因子抽取、查询方法和系统
CN111401785A (zh) 一种基于模糊关联规则的电力系统设备故障预警方法
Li et al. Linear time complexity time series classification with bag-of-pattern-features
CN111834010A (zh) 一种基于属性约简和XGBoost的COVID-19检测假阴性识别方法
CN110379521B (zh) 基于信息论的医疗数据集特征选择方法
CN108280236A (zh) 一种基于LargeVis的随机森林可视化数据分析方法
CN114093515A (zh) 一种基于肠道菌群预测模型集成学习的年龄预测方法
CN108509996A (zh) 基于Filter和Wrapper选择算法的特征选择方法
CN111079788A (zh) 一种基于密度Canopy的K-means聚类方法
CN107783998A (zh) 一种数据处理的方法以及装置
CN111291822A (zh) 基于模糊聚类最优k值选择算法的设备运行状态判断方法
CN111488903A (zh) 基于特征权重的决策树特征选择方法
CN115018512A (zh) 基于Transformer神经网络的窃电检测方法及装置
CN110188196A (zh) 一种基于随机森林的文本增量降维方法
CN107423319B (zh) 一种垃圾网页检测方法
CN113139570A (zh) 一种基于最优混合估值的大坝安全监测数据补全方法
JP2001117947A (ja) 高次元データを分類するための方法及びそれにより形成される分類木並びにコンピュータシステム
CN117407732A (zh) 一种基于对抗神经网络的非常规储层气井产量预测方法
CN111709460A (zh) 基于相关系数的互信息特征选择方法
CN114626451A (zh) 基于密度的数据预处理优化方法
CN114417095A (zh) 一种数据集划分方法及装置
CN113052268A (zh) 区间集数据类型下基于不确定性度量的属性约简算法
CN111832645A (zh) 基于离散型乌鸦差分协同搜索算法的分类数据特征选择方法
CN115437960A (zh) 回归测试用例排序的方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200804

RJ01 Rejection of invention patent application after publication