CN112633346A - 一种基于特征交互性的特征选择方法 - Google Patents

一种基于特征交互性的特征选择方法 Download PDF

Info

Publication number
CN112633346A
CN112633346A CN202011495851.XA CN202011495851A CN112633346A CN 112633346 A CN112633346 A CN 112633346A CN 202011495851 A CN202011495851 A CN 202011495851A CN 112633346 A CN112633346 A CN 112633346A
Authority
CN
China
Prior art keywords
feature
subset
interactivity
features
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011495851.XA
Other languages
English (en)
Inventor
周红芳
安蕾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Technology
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN202011495851.XA priority Critical patent/CN112633346A/zh
Publication of CN112633346A publication Critical patent/CN112633346A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于特征交互性的特征选择方法,包括:对数据集进行预处理;将预处理后的数据集分为训练集和测试集;将训练集中SU(fi,C)>0的特征并入Slist子集中,先通过SU值、归一化纯粹交互分数去除数据集中的冗余特征,再采用子集评价函数对不相关特征进行剔除,得到特征子集;将特征子集输入分类器中建立分类器模型;通过测试集对分类器模型进行测试。同时考虑冗余特征和特征间的交互作用,采用上述方式得到的特征进行分类,与现有的特征选择算法相比,在不同分类器上的分类准确率、宏观‑F1值都优于这六种特征选择算法。

Description

一种基于特征交互性的特征选择方法
技术领域
本发明属于技术领域,涉及一种基于特征交互性的特征选择方法。
背景技术
信息化的今天,我们的生活之中充斥着越来越多的数据,虽然这些大规模、高维度的数据为我们提供了越来越丰富的信息,但在这样的数据集上建立有效的预测模型变得越来越困难。同时,大量的不相关和冗余特征会对数据挖掘模型产生负面影响,从而降低模型的性能的应用。因此,我们需要剔除数据当中的冗余特征,并保留相关性、交互性较大的特征,降低无关冗余特征对于样本预测的影响,提升预测的正确性及效率。
特征选择是数据挖掘中非常重要的一个步骤,通过对原始数据进行特征选择,可以剔除不相关或冗余的特征,降低了由于不相关或冗余特征这些无用特征引入的噪声影响。并删除这些无用特征,从而达到减少特征个数,提高模型精确度,减少运行时间的目的。特征选择过程通过识别和删除尽可能多的不相关和冗余特征来提高数据质量,这是由于不相关特征对于提高后期学习算法的预测精度是无用的甚至是有害的,而冗余特征由于携带的信息已蕴含于其他特征中而不会得到更优的预测模型。
目前常见的特征选择方法大致可以分为三类:过滤式、包裹式和嵌入式。过滤式特征选择的过程独立于数据分类的过程,主要优点是计算速度快、复杂度低,缺点是难以确定由过滤方法选择的属性是否能使特定的分类器的分类精度最大。封装式特征选择算法将属性选择的过程放到机器学习算法过程中,通过后面的学习算法的结果选择最合适的特征子集。该方法将特征选择和分类的决策进行结合,因此分类准确率高,缺点是计算复杂度高。嵌入式特征选择方法将特征选择过程嵌入到机器学习算法中,构建训练模型的过程就是特征选择的过程。
在特征选择过程当中,除了识别不相关和冗余特征,近年来,特征选择过程中一个很重要但通常被忽视的问题就是特征间的交互性。大部分特征选择算法基于不同的评价函数能够有效识别不相关特征。但并不是所有算法都能够识别冗余特征同时考虑到特征间的交互作用,一些算法在去除不相关和冗余特征的过程之中可能会导致过度删除,将一些有用的特征误判为冗余特征,分类准确率较低。
发明内容
本发明的目的是提供一种基于特征交互性的特征选择方法,解决了现有技术中存在的分类准确率较低问题。
本发明所采用的技术方案是,一种基于特征交互性的特征选择方法,包括以下步骤:
步骤1、建立数据集Data_set={d1,d2,d3,...dp},o=1,2,3...p,数据集中包括类别C={c1,c2,c3,...cm},i=1,2,3...m、特征F={f1,f2,f3,...fn},j=1,2,3,...n,对数据集进行预处理;
步骤2、将预处理后的数据集分为训练集和测试集;
步骤3、将训练集中SU(fi,C)>0的特征并入Slist子集中,先对Slist子集中强冗余特征进行剔除,得到子集G,再采用子集评价函数对子集G中不相关特征进行剔除,得到特征子集;
步骤4、将特征子集输入分类器中建立分类器模型;
步骤5、通过测试集对分类器模型进行测试。
本发明的特点还在于:
还包括,步骤6、通过评估指标对分类器模型的测试结果进行评估。
步骤1的预处理过程为:先对数据集中的缺失值进行补全,再对数据集中数据进行标准化处理,然后使用等距法对数据集中连续型特征值进行离散化操作。
步骤2中采用十折交叉验证将预处理后的数据集分为训练集和测试集。
步骤3包括以下步骤:
步骤3.1、通过下式计算训练集中每个特征fi与类别C之间SU(fi,C)值:
Figure BDA0002842118240000031
步骤3.2、将SU(fi,C)>0的特征fi形成Slist子集,并从大到小排序;
步骤3.3、循环判断Slist子集中的每个特征fi是否为强冗余特征,并将其剔除,得到子集G;
步骤3.4、采用子集评价函数对子集G中不相关特征进行剔除,得到特征子集,子集评价函数的公式如下所示:
Figure BDA0002842118240000032
步骤3.3包括以下步骤:
步骤3.3.1、假设特征fi为Slist子集中的第一个特征元素,fj为下一个特征元素,将特征fi形成子集Gi;
步骤3.3.2、计算特征fi、特征fj之间的SU(fi,fj)值和特征fi、特征fj与类别C之间的NPIS(fi,fj,C)值,NPIS通过下式计算:
Figure BDA0002842118240000041
步骤3.3.3、若特征fj满足SU(fi,fj)>SU(fj,C)且NPIS(fi,fj,C)<0,则称fj是fi的强冗余特征,将特征fj并入对应fi的子集Gi
步骤3.3.4、重复步骤3.3.1-3.3.3,对Slist子集中的每个特征fi进行判断,则每个特征fi对应一个分组Gi;
步骤3.3.5、将每个子集Gi中的第一个元素组合形成子集G。
步骤3.3包括以下步骤:
步骤3.4.1、将子集G中第一个元素同时形成子集E、子集E'。
步骤3.4.2、计算J(E)、J(E'),如果满足条件J(E')≥J(E)且|E|≠|G|,则进行下一步;
步骤3.4.3、在子集G中找到使J(E)取值最大的特征fx且fx不在子集E之中,将子集E与fx取并集放入子集E';
步骤3.4.4、若子集E'中加入fx之后,仍然满足J(E')≥J(E),则将E'赋给E;
步骤3.4.5、重复步骤3.4.3-3.4.4,直至满足J(E')<J(E)或|E|=|G|;
步骤3.4.6、将子集E作为特征子集输出。
评估指标包括准确率、宏观F1。
本发明的有益效果是:
本发明一种基于特征交互性的特征选择方法,先通过SU值、归一化纯粹交互分数去除数据集中的冗余特征,再采用子集评价函数对不相关特征进行剔除,同时考虑冗余特征和特征间的交互作用,采用上述方式得到的特征进行分类,与其余六种经典的特征选择算法(FFSG、FCBF、mRMR、JMI、MIM、CIFE)进行对比,在不同分类器上的分类准确率、宏观-F1值都优于这六种特征选择算法。
附图说明
图1是本发明一种基于特征交互性的特征选择方法的流程图;
图2是本发明一种基于特征交互性的特征选择方法与其他六种特征选择算法进行对比的实验框架图;
图3是本发明一种基于特征交互性的特征选择方法和其他六种特征选择算法在线性SVM分类器中的准确率结果;
图4是本发明一种基于特征交互性的特征选择方法和其他六种特征选择算法在KNN分类器中的准确率结果;
图5是本发明一种基于特征交互性的特征选择方法和其他六种特征选择算法在CART分类器中的准确率结果;
图6是本发明一种基于特征交互性的特征选择方法在16个数据集上和不同分类器上的平均准确率对比柱状图;
图7是本发明一种基于特征交互性的特征选择方法和其他六种特征选择算法在线性SVM分类器中的宏观F1值结果;
图8是本发明一种基于特征交互性的特征选择方法和其他六种特征选择算法在KNN分类器中的宏观F1值结果;
图9是本发明一种基于特征交互性的特征选择方法和其他六种特征选择算法在CART分类器中的宏观F1值结果;
图10是本发明一种基于特征交互性的特征选择方法在16个数据集上和不同分类器上的平均宏观F1值对比柱状图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
一种基于特征交互性的特征选择方法,如图1所示,包括以下步骤:
步骤1、建立数据集Data_set={d1,d2,d3,...dp},o=1,2,3...p,数据集中包括类别C={c1,c2,c3,...cm},i=1,2,3...m、特征F={f1,f2,f3,...fn},j=1,2,3,...n,先对数据集中的缺失值进行补全,再对数据集中数据进行标准化处理,然后使用等距法对数据集中连续型特征值进行离散化操作;
步骤2、采用十折交叉验证将步骤1处理后的数据集分为训练集和测试集;
步骤3、将训练集中SU(fi,C)>0的特征并入Slist子集中,先对Slist子集中强冗余特征进行剔除,得到子集G,再采用子集评价函数对子集G中不相关特征进行剔除,得到特征子集;
步骤3.1、通过下式计算训练集中每个特征fi与类别C之间SU(fi,C)值:
Figure BDA0002842118240000061
步骤3.2、将SU(fi,C)>0的特征fi并入Slist子集中,并从大到小排序;
步骤3.3、判断Slist子集中的每个特征fi是否为强冗余特征,并将其剔除,得到子集G;
步骤3.3.1、假设特征fi为Slist子集中的第一个特征元素,fj为下一个特征元素,并将特征fi形成子集Gi;
步骤3.3.2、计算特征fi、特征fj之间的SU(fi,fj)值和特征fi、特征fj与类别C之间的NPIS(fi,fj,C)值,NPIS(归一化纯粹交互分数)通过下式计算:
Figure BDA0002842118240000071
步骤3.3.3、若特征fj满足SU(fi,fj)>SU(fj,C)且NPIS(fi,fj,C)<0,则称fj是fi的强冗余特征,将特征fj并入对应fi的子集Gi
步骤3.3.4、重复步骤3.3.1-3.3.3,对Slist子集中的每个特征fi进行判断,则每个特征fi对应一个分组Gi;
步骤3.3.5、将每个子集Gi中的第一个元素组合形成子集G,此时G中的特征即是已经剔除不相关特征和强冗余特征的特征子集。
步骤3.4、由于子集G中仍然存在一些不相关特征,所以采用子集评价函数对子集G中不相关特征进行剔除,得到特征子集,子集评价函数的公式如下所示:
Figure BDA0002842118240000072
步骤3.4.1、将子集G中第一个元素同时形成子集E、子集E'。
步骤3.4.2、计算J(E)、J(E'),如果满足条件J(E')≥J(E)且|E|≠|G|,则进行下一步;
步骤3.4.3、在子集G中找到使J(E)取值最大的特征fx且fx不在子集E之中,将子集E与fx取并集放入子集E';
步骤3.4.4、若子集E'中加入fx之后,仍然满足J(E')≥J(E),则将E'赋给E;
步骤3.4.5、重复步骤3.4.3-3.4.4,直至满足J(E')<J(E)或|E|=|G|;
步骤3.4.6、将子集E作为特征子集输出。
步骤4、将特征子集分别输入分类器SVM、KNN、CART中建立分类器模型;
步骤5、通过测试集对分类器模型进行测试。
步骤6、通过评估指标对分类器模型的测试结果进行评估,评估指标包括准确率、宏观F1,准确率(accuracy)计算公式如下:
Figure BDA0002842118240000081
F1值是召回率和精确率的调和平均数,定义如下:
Figure BDA0002842118240000082
上式中,P为精确率,R指召回率;F1值可以用来度量二分类问题,如果类别数大于2,则可以使用宏平均F1,假设类别数为n,那么宏平均F1是将n类分类问题的F1值看成是n个二分分类问题的F1值的平均,定义如下。
Figure BDA0002842118240000083
通过以上方式,本发明一种基于特征交互性的特征选择方法,先通过SU值、归一化纯粹交互分数去除数据集中的冗余特征,再采用子集评价函数对不相关特征进行剔除,同时考虑冗余特征和特征间的交互作用,采用上述方式得到的特征进行分类,与其余六种经典的特征选择算法(FFSG、FCBF、mRMR、JMI、MIM、CIFE)进行对比,在不同分类器上的分类准确率、宏观-F1值都优于这六种特征选择算法。
实施例
为验证本发明的基于特征交互性的特征选择方法GFS-NPIS的有效性,将该方法与传统的六种特征选择算法进行比较。在16个公开数据集上分别使用GFS-NPIS算法、FFSG算法、FCBF算法、mRMR算法、JMI算法、MIM算法、CIFE算法进行特征选择。通过对比实验,从图2-4三张图中可看到GFS-NPIS算法在16个数据集中的绝大数上的准确率都优于其他六种特征选择算法。从图5中可以明显看出,GFS-NPIS算法在16个数据集上的平均准确率优于其他算法,且在SVM分类器上表现最优。从图6-8看到,GFS-NPIS算法在16个数据集中的绝大数上的宏观F1值都优于其他六种特征选择算法,但表现不如准确率显著。但从图9中可明显看出,相对于其他六种特征选择算法,GFS-NPIS算法在16个数据集上的平均宏观F1值表现最好。16个数据集的详细信息如表1所示。
表1数据集详细信息
Figure BDA0002842118240000091

Claims (8)

1.一种基于特征交互性的特征选择方法,其特征在于,包括以下步骤:
步骤1、建立数据集Data_set={d1,d2,d3,...dp},o=1,2,3...p,所述数据集中包括类别C={c1,c2,c3,...cm},i=1,2,3...m、特征F={f1,f2,f3,...fn},j=1,2,3,...n,对所述数据集进行预处理;
步骤2、将预处理后的所述数据集分为训练集和测试集;
步骤3、将所述训练集中SU(fi,C)>0的特征并入Slist子集中,先对所述Slist子集中强冗余特征进行剔除,得到子集G,再采用子集评价函数对所述子集G中不相关特征进行剔除,得到特征子集;
步骤4、将所述特征子集输入分类器中建立分类器模型;
步骤5、通过测试集对所述分类器模型进行测试。
2.根据权利要求1所述的一种基于特征交互性的特征选择方法,其特征在于,还包括,步骤6、通过评估指标对所述分类器模型的测试结果进行评估。
3.根据权利要求1所述的一种基于特征交互性的特征选择方法,其特征在于,步骤1所述的预处理过程为:先对所述数据集中的缺失值进行补全,再对所述数据集中数据进行标准化处理,然后使用等距法对所述数据集中连续型特征值进行离散化操作。
4.根据权利要求1所述的一种基于特征交互性的特征选择方法,其特征在于,步骤2中采用十折交叉验证将预处理后的数据集分为训练集和测试集。
5.根据权利要求1所述的一种基于特征交互性的特征选择方法,其特征在于,步骤3包括以下步骤:
步骤3.1、通过下式计算训练集中每个特征fi与类别C之间SU(fi,C)值:
Figure FDA0002842118230000021
步骤3.2、将SU(fi,C)>0的特征fi形成Slist子集,并从大到小排序;
步骤3.3、循环判断所述Slist子集中的每个特征fi是否为强冗余特征,并将其剔除,得到子集G;
步骤3.4、采用子集评价函数对所述子集G中不相关特征进行剔除,得到特征子集,所述子集评价函数的公式如下所示:
Figure FDA0002842118230000022
6.根据权利要求5所述的一种基于特征交互性的特征选择方法,其特征在于,步骤3.3包括以下步骤:
步骤3.3.1、假设特征fi为Slist子集中的第一个特征元素,fj为下一个特征元素,将特征fi形成子集Gi;
步骤3.3.2、计算特征fi、特征fj之间的SU(fi,fj)值和特征fi、特征fj与类别C之间的NPIS(fi,fj,C)值,NPIS通过下式计算:
Figure FDA0002842118230000023
步骤3.3.3、若特征fj满足SU(fi,fj)>SU(fj,C)且NPIS(fi,fj,C)<0,则称fj是fi的强冗余特征,将特征fj并入对应fi的子集Gi
步骤3.3.4、重复步骤3.3.1-3.3.3,对所述Slist子集中的每个特征fi进行判断,则每个特征fi对应一个分组Gi;
步骤3.3.5、将每个所述子集Gi中的第一个元素组合形成子集G。
7.根据权利要求5所述的一种基于特征交互性的特征选择方法,其特征在于,步骤3.3包括以下步骤:
步骤3.4.1、将所述子集G中第一个元素同时形成子集E、子集E'。
步骤3.4.2、计算J(E)、J(E'),如果满足条件J(E')≥J(E)且|E|≠|G|,则进行下一步;
步骤3.4.3、在所述子集G中找到使J(E)取值最大的特征fx且fx不在子集E之中,将所述子集E与fx取并集放入子集E';
步骤3.4.4、若子集E'中加入fx之后,仍然满足J(E')≥J(E),则将E'赋给E;
步骤3.4.5、重复步骤3.4.3-3.4.4,直至满足J(E')<J(E)或|E|=|G|;
步骤3.4.6、将子集E作为特征子集输出。
8.根据权利要求1所述的一种基于特征交互性的特征选择方法,其特征在于,所述评估指标包括准确率、宏观F1。
CN202011495851.XA 2020-12-17 2020-12-17 一种基于特征交互性的特征选择方法 Pending CN112633346A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011495851.XA CN112633346A (zh) 2020-12-17 2020-12-17 一种基于特征交互性的特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011495851.XA CN112633346A (zh) 2020-12-17 2020-12-17 一种基于特征交互性的特征选择方法

Publications (1)

Publication Number Publication Date
CN112633346A true CN112633346A (zh) 2021-04-09

Family

ID=75316575

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011495851.XA Pending CN112633346A (zh) 2020-12-17 2020-12-17 一种基于特征交互性的特征选择方法

Country Status (1)

Country Link
CN (1) CN112633346A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112951417A (zh) * 2021-04-15 2021-06-11 北京理工大学 一种医疗时序数据医学特征交互表示方法
CN113283472A (zh) * 2021-04-20 2021-08-20 南京大学 一种基于零阶优化的数据特征选择方法
CN117435906A (zh) * 2023-12-18 2024-01-23 湖南行必达网联科技有限公司 基于交叉熵的新能源汽车配置特征选择方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111709441A (zh) * 2020-05-07 2020-09-25 西安理工大学 基于改进特征子集区分度的行为识别特征选择方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111709441A (zh) * 2020-05-07 2020-09-25 西安理工大学 基于改进特征子集区分度的行为识别特征选择方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
FEATURE SELECTION USING JOINT MUTUAL INFORMATION MAXIMISATION: "Feature selection using Joint Mutual Information Maximisation", 《EXPERT SYSTEMS WITH APPLICATIONS》, vol. 42, no. 22, pages 2 *
ZHONGSHENG HUA 等: "Strong approximate Markov blanket and its application on filter-based feature selection", 《APPLIED SOFT COMPUTING》, vol. 87, pages 1 - 6 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112951417A (zh) * 2021-04-15 2021-06-11 北京理工大学 一种医疗时序数据医学特征交互表示方法
CN113283472A (zh) * 2021-04-20 2021-08-20 南京大学 一种基于零阶优化的数据特征选择方法
CN117435906A (zh) * 2023-12-18 2024-01-23 湖南行必达网联科技有限公司 基于交叉熵的新能源汽车配置特征选择方法
CN117435906B (zh) * 2023-12-18 2024-03-12 湖南行必达网联科技有限公司 基于交叉熵的新能源汽车配置特征选择方法

Similar Documents

Publication Publication Date Title
CN111695626B (zh) 基于混合采样与特征选择的高维度不平衡数据分类方法
CN112633346A (zh) 一种基于特征交互性的特征选择方法
Kim et al. Genetic algorithm to improve SVM based network intrusion detection system
Ibrahim et al. Cluster representation of the structural description of images for effective classification
CN110147321A (zh) 一种基于软件网络的缺陷高风险模块的识别方法
CN110826618A (zh) 一种基于随机森林的个人信用风险评估方法
CN107577605A (zh) 一种面向软件缺陷预测的特征聚类选择方法
CN112836735B (zh) 一种优化的随机森林处理不平衡数据集的方法
CN106021361A (zh) 一种基于序列比对的自适应应用层网络协议报文聚类方法
CN111338950A (zh) 一种基于谱聚类的软件缺陷特征选择方法
CN112364893B (zh) 一种基于数据增强的半监督零样本图像分类方法
CN108280236A (zh) 一种基于LargeVis的随机森林可视化数据分析方法
KR102362872B1 (ko) 인공지능 학습을 위한 클린 라벨 데이터 정제 방법
CN114239083A (zh) 一种基于图神经网络的高效状态寄存器识别方法
CN112070136A (zh) 基于提升度决策树及改进smote对不平衡数据的分类方法
CN113674862A (zh) 一种基于机器学习的急性肾功能损伤发病预测方法
CN112306731B (zh) 基于Spacy词向量的两阶段判别缺陷报告严重程度预测方法
CN113936185A (zh) 一种基于局部密度信息的软件缺陷数据自适应过采样方法
CN117557872A (zh) 一种优化存储模式的无监督异常检测方法及装置
CN112257332A (zh) 一种仿真模型的评估方法及装置
CN115437960A (zh) 回归测试用例排序的方法、装置、设备和存储介质
CN114511002A (zh) 一种面向小样本数据的故障诊断方法及系统
CN114169542A (zh) 用于不完整数据分类的集成学习树构建方法
CN112529156A (zh) 一种基于聚类的神经网络测试多方法混合挑选输入方法
CN113792141A (zh) 基于协方差度量因子的特征选择方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210409

RJ01 Rejection of invention patent application after publication