CN114169406A - 基于对称不确定性联合条件熵的特征选择方法 - Google Patents
基于对称不确定性联合条件熵的特征选择方法 Download PDFInfo
- Publication number
- CN114169406A CN114169406A CN202111363477.2A CN202111363477A CN114169406A CN 114169406 A CN114169406 A CN 114169406A CN 202111363477 A CN202111363477 A CN 202111363477A CN 114169406 A CN114169406 A CN 114169406A
- Authority
- CN
- China
- Prior art keywords
- feature
- features
- candidate
- uncertainty
- symmetry
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010187 selection method Methods 0.000 title claims abstract description 13
- 238000000034 method Methods 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims description 16
- 238000012360 testing method Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 3
- 238000012706 support-vector machine Methods 0.000 description 10
- 238000010276 construction Methods 0.000 description 5
- 238000001914 filtration Methods 0.000 description 5
- 238000013145 classification model Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012856 packing Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于对称不确定性联合条件熵的特征选择方法,通过计算已选特征和候选特征以及分类之间的互信息来选取最优特征,基于对称不确定性联合条件熵的算法不仅考虑了特征和类别之间的相关性,还考虑了特征和特征之间的冗余性。本发明能够快速地定位到与类别相关性强并且与已选特征之间冗余较小的特征,极大的提高了分类的准确性和效率。
Description
技术领域
本发明属于特征选择技术领域,具体涉及基于对称不确定性联合条件熵的特征选择方法。
背景技术
随着科技的发展以及物联网的普及,据统计全国现在已经有9.4亿网民,网络为人民的生活和工作带来极大的遍历。人与人之间进行沟通的效率得到了极大的提高。在互联网给我们带来便利的同时,也出现了很多的弊端,如网上的社交软件和各种信息平台,每秒都会产生海量的数据,这些数据绝大多数是无用的数据,因此我们从海量的数据中获取到有价值的信息就变得极为重要。特性选择是为了从大量的数据中选择出信息量大、与类别高度相关的数据。作为数据的预处理部分,特征选择的好坏直接会对后续的分类结果产生影响。
特征选择主要用于数据的预处理阶段,对数据进行降维,即特征子集选择,从已有的含有M个特征的集合个中选择出N个冗余性小且与类别高度相关的特征来,使得最终构造出的分类模型性能最好。特征选择的步骤一般分为产生过程,评价函数,停止准则,验证过程。
特征选择算法主要分为包装方法、过滤方法以及嵌入方法。过滤式特征选择算法只考虑候选特征集合和目标类之间的相关性的大小,与分类模型的构造过程无关。过滤式的特征选择算法实现难度较低,时间开销较少,MRMR算法是常见的基于过滤式的特征选择算法。包装式算法是将特征选择和模型构建关联起来,两者相互指导,彼此反馈。即用每个特征子集来训练模型,将训练得到的模型的泛化性为选择的子集进行打分,模型的分类性能会影响特征选择的最终结果。包装式特征选择算法的性能较优于过滤式方法,但是计算时间过长,且也容易产生过拟合现象。常见的包装式特征选择算法例如遗传算法。嵌入式特征选择算法将特征选择和模型构建融合在一起,常见的如决策树算法,选择信息增益得分最大的特征进行模型的构建,上述算法存在复杂度高、计算时间长的缺陷。
发明内容
本发明的目的是提供基于对称不确定性联合条件熵的特征选择方法,结合候选特征与已选特征以及类别之间的关系,剔除不相关的特征,提高分类器的分类准确率。
本发明所采用的技术方案是,基于对称不确定性联合条件熵的特征选择方法,具体按照以下步骤实施:
步骤1、对连续型样本数据集的特征值进行离散化处理,得到特征值离散化后的样本数据,并将样本数据按照9:1的比例随机划分出训练集和测试集;
步骤2、将训练集所有样本数据作为候选特征集合F的元素,使用互信息计算集合F中所有候选特征与各个样本所属的类别之间的互信息值,选择出互信息值最大的特征放入集合S中,将去除互信息值最大的特征的候选特征集合F作为候选特征子集F′;
步骤3、遍历候选特征子集F′中每一个候选特征,使用基于对称不确定性联合条件熵的特征选择算法计算每一个候选特征的条件对称不确定度,将对称不确定度最高的候选特征加入集合S中;
步骤4、使用集合S测试分类器分类的准确率,并将得到的准确率与前一次的分类准确率进行比较,若准确率得到提升,则保留该集合S内新添加的特征,作为候选特征子集F′的特征,否则剔除该候选特征;
步骤5、重复步骤3、步骤4,最终得到的集合S内的特征为基于对称不确定性联合条件熵的特征。
本发明的特点还在于:
步骤1连续型样本数据集为ASU特征选择库中的数据集合。
步骤2具体过程为:
步骤2.1、定义一个初始集合为空集的集合S,将特征空间的所有特征作为候选特征集合F的元素,根据公式(1)计算候选特征集合F中每个特征fi与所有类别之间的互信息值I(fi;C);
其中,表示特征fi的特征值离散化的段数,NC是数据集中所有样本所属的类别总数;ck表示第k个类别,p(fij)表示第i个特征对应取第j段离散化后的特征值时所对应的样本数与数据集的所有样本总数的比值,p(ck)表示属于第k个类别的样本的数量占数据集所有样本的比率,p(fi,ck)表示第i个特征对应取第j段离散化后的特征值时且属于第k个类别的所有样本在数据集中所占的比例;
步骤2.2、根据互信息值对所有特征进行降序排序,选择互信息I(fi;C)值最大的候选特征fmax,并放入集合S中,此时得到候选特征子集F′=F-{fmax};
步骤3具体过程为:
步骤3.1、根据公式(3)计算集合S中已选特征fi已知的情况下候选特征子集F′中的候选特征ft和所有类别之间的条件互信息;
步骤3.2、根据公式(4)计算集合S中每一个特征fi与所有类别之间的条件熵大小H(fi|C);
步骤3.3、根据公式(5)计算候选特征子集F′中每一个候选特征ft与所有类别之间的条件熵大小H(ft|C);
步骤3.4、根据公式(6)求出计算特征子集F′中每一个候选特征ft的条件对称不确定度的大小COSU(ft);
其中,M表示集合S中元素的个数。
步骤4所使用的分类器为SVM分类器和KNN分类器。
步骤4具体过程为:去掉训练集和测试集中所有未在集合S中出现的特征,保留集合S中出现的特征,利用训练集分别使用SVM分类器和KNN分类器完成训练,并对测试集的所有样本进行分类,得到两种分类器的平均分类准确率,并将此轮循环中得到的平均准确率与前一轮的平均结果进行比较,若平均准确率得到提升,则保留该集合S内新添加的特征,作为候选特征子集F′中的特征,否则剔除该候选特征。
本发明的有益效果是:
本发明一种基于对称不确定性联合条件熵的特征选择算法,通过计算已选特征和候选特征以及分类之间的互信息来选取最优特征,基于对称不确定性联合条件熵的算法不仅考虑了特征和类别之间的相关性,还考虑了特征和特征之间的冗余性。本发明能够快速地定位到与类别相关性强并且与已选特征之间冗余较小的特征,极大的提高了分类的准确性和效率。
附图说明
图1是本发明基于对称不确定性联合条件熵的特征选择方法的流程图;
图2是本发明与四种对比算法在9种数据集上分别使用KNN分类器实验结果;
图3是本发明与四种对比算法在9种数据集上分别使用SVM分类器实验结果;
图4是本发明与四种对比算法分别使用KNN分类器和SVM分类器的平均实验结果。
具体实施方式
下面结合附图及具体实施方式对本发明进行详细说明。
本发明基于对称不确定性联合条件熵的特征选择方法,如图1所示,具体按照以下步骤实施:
步骤1、从ASU特征选择库中选取连续型样本数据集,对连续型样本数据集的特征值进行离散化处理,得到特征值离散化后的样本数据,并将样本数据按照9:1的比例随机划分出训练集和测试集;样本数据集分别为人脸数据集,生物数据集和文本数据集。其中warpAR10P、orlraws10P、warpPIE10P、TOX_171、SMK_CAN_187、GLI_85为连续数据集。
步骤2、将训练集所有样本数据作为候选特征集合F的元素,使用互信息计算集合F中所有候选特征与各个样本所属的类别之间的互信息值,选择出互信息值最大的特征放入集合S中,将去除互信息值最大的特征的候选特征集合F作为候选特征子集F′;
步骤2具体过程为:
步骤2.1、定义一个初始集合为空集的集合S,将特征空间的所有特征作为候选特征集合F的元素,根据公式(1)计算候选特征集合F中每个特征fi与所有类别之间的互信息值I(fi;C);
其中,表示特征fi的特征值离散化的段数,NC是数据集中所有样本所属的类别总数;ck表示第k个类别,p(fij)表示第i个特征对应取第j段离散化后的特征值时所对应的样本数与数据集的所有样本总数的比值,p(ck)表示属于第k个类别的样本的数量占数据集所有样本的比率,p(fi,ck)表示第i个特征对应取第j段离散化后的特征值时且属于第k个类别的所有样本在数据集中所占的比例;
步骤2.2、根据互信息值对所有特征进行降序排序,选择互信息I(fi;C)值最大的候选特征fmax,并放入集合S中,此时得到候选特征子集F′=F-{fmax};
步骤3、遍历候选特征子集F′中每一个候选特征,使用基于对称不确定性联合条件熵的特征选择算法计算每一个候选特征的条件对称不确定度,将对称不确定度最高的候选特征加入集合S中;
具体过程为:
步骤3.1、根据公式(3)计算集合S中已选特征fi已知的情况下候选特征子集F′中的候选特征ft和所有类别之间的条件互信息;
步骤3.2、根据公式(4)计算集合S中每一个特征fi与所有类别之间的条件熵大小H(fi|C);
步骤3.3、根据公式(5)计算候选特征子集F′中每一个候选特征ft与所有类别之间的条件熵大小H(ft|C);
步骤3.4、根据公式(6)求出计算特征子集F′中每一个候选特征ft的条件对称不确定度的大小COSU(ft);
其中,M表示集合S中元素的个数。
步骤4、去掉训练集和测试集中所有未在集合S中出现的特征,保留集合S中出现的特征,利用训练集分别使用SVM分类器和KNN分类器完成训练,并对测试集的所有样本进行分类,得到两种分类器的平均分类准确率,并将此轮循环中得到的平均准确率与前一轮的平均结果进行比较,若平均准确率得到提升,则保留该集合S内新添加(步骤3中添加)的特征,作为候选特征子集F′中的特征,否则剔除该候选特征。
步骤5、重复步骤3、步骤4,最终得到的集合S内的特征为基于对称不确定性联合条件熵的特征。
在对比实验中,选取数据集warpAR10P、orlraws10P、warpPIE10P、TOX_171、SMK_CAN_187、GLI_85、PCMAC、RELATHE以及BASEHOCK进行本发明的性能测试。以上数据集都是来自ASU特征选择库,分别为人脸数据集,生物数据集和文本数据集。
为了验证基于对称不确定性联合条件熵的特征选择算法的性能,将本发明与SFS,BIRS,BIRSR,IGIS四种算法进行对比。分类器选用的是常见的K最近邻分类器(KNN)和支持向量机分类器(SVM)。
从图2可以看出,当使用KNN分类器时,除了在warpAR10P数据集以及warpPIE10P数据集上本发明的性能不如对比算法,但在其他数据集上的分类准确率均高于对比算法。
从图3所示,可以看出,当使用SVM分类器进行实验时,本发明在SMK_CAN_187、PCMAC、RELATHE以及BASEHOCK数据集上取得了最优结果,而在其他数据集上的性能表现不如对比算法。
从图4可以看出,无论使用SVM分类器还是KNN分类器,本发明的平均分类性能都是最优的。多个数据集上的实验结果表明本发明可以很好地提高分类器的分类性能,是可靠的特征选择算法。
通过上述方式,本发明一种基于对称不确定性联合条件熵的特征选择算法,通过计算已选特征和候选特征以及分类之间的互信息来选取最优特征,基于对称不确定性联合条件熵的算法不仅考虑了特征和类别之间的相关性,还考虑了特征和特征之间的冗余性。本发明能够快速地定位到与类别相关性强并且与已选特征之间冗余较小的特征,极大的提高了分类的准确性和效率。
Claims (6)
1.基于对称不确定性联合条件熵的特征选择方法,其特征在于,具体按照以下步骤实施:
步骤1、对连续型样本数据集的特征值进行离散化处理,得到特征值离散化后的样本数据,并将样本数据按照9:1的比例随机划分出训练集和测试集;
步骤2、将训练集所有样本数据作为候选特征集合F的元素,使用互信息计算集合F中所有候选特征与各个样本所属的类别之间的互信息值,选择出互信息值最大的特征放入集合S中,将去除互信息值最大的特征的候选特征集合F作为候选特征子集F′;
步骤3、遍历候选特征子集F′中每一个候选特征,使用基于对称不确定性联合条件熵的特征选择算法计算每一个候选特征的条件对称不确定度,将对称不确定度最高的候选特征加入集合S中;
步骤4、使用集合S测试分类器分类的准确率,并将得到的准确率与前一次的分类准确率进行比较,若准确率得到提升,则保留该集合S内新添加的特征,作为候选特征子集F′的特征,否则剔除该候选特征;
步骤5、重复步骤3、步骤4,最终得到的集合S内的特征为基于对称不确定性联合条件熵的特征。
2.根据权利要求1所述基于对称不确定性联合条件熵的特征选择方法,其特征在于,步骤1所述连续型样本数据集为ASU特征选择库中的数据集合。
3.根据权利要求1所述基于对称不确定性联合条件熵的特征选择方法,其特征在于,步骤2具体过程为:
步骤2.1、定义一个初始集合为空集的集合S,将特征空间的所有特征作为候选特征集合F的元素,根据公式(1)计算候选特征集合F中每个特征fi与所有类别之间的互信息值I(fi;C);
其中,表示特征fi的特征值离散化的段数,NC是数据集中所有样本所属的类别总数;ck表示第k个类别,p(fij)表示第i个特征对应取第j段离散化后的特征值时所对应的样本数与数据集的所有样本总数的比值,p(ck)表示属于第k个类别的样本的数量占数据集所有样本的比率,p(fi,ck)表示第i个特征对应取第j段离散化后的特征值时且属于第k个类别的所有样本在数据集中所占的比例;
步骤2.2、根据互信息值对所有特征进行降序排序,选择互信息I(fi;C)值最大的候选特征fmax,并放入集合S中,此时得到候选特征子集F′=F-{fmax};
fmax=arg max fi∈F[I(fi;C)] (2)。
4.根据权利要求1所述基于对称不确定性联合条件熵的特征选择方法,其特征在于,步骤3具体过程为:
步骤3.1、根据公式(3)计算集合S中已选特征fi已知的情况下候选特征子集F′中的候选特征ft和所有类别之间的条件互信息;
步骤3.2、根据公式(4)计算集合S中每一个特征fi与所有类别之间的条件熵大小H(fi|C);
步骤3.3、根据公式(5)计算候选特征子集F′中每一个候选特征ft与所有类别之间的条件熵大小H(ft|C);
步骤3.4、根据公式(6)求出计算特征子集F′中每一个候选特征ft的条件对称不确定度的大小COSU(ft);
其中,M表示集合S中元素的个数。
5.根据权利要求1所述基于对称不确定性联合条件熵的特征选择方法,其特征在于,步骤4所使用的分类器为SVM分类器和KNN分类器。
6.根据权利要求5所述基于对称不确定性联合条件熵的特征选择方法,其特征在于,步骤4具体过程为:去掉训练集和测试集中所有未在集合S中出现的特征,保留集合S中出现的特征,利用训练集分别使用SVM分类器和KNN分类器完成训练,并对测试集的所有样本进行分类,得到两种分类器的平均分类准确率,并将此轮循环中得到的平均准确率与前一轮的平均结果进行比较,若平均准确率得到提升,则保留该集合S内新添加的特征,作为候选特征子集F′中的特征,否则剔除该候选特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111363477.2A CN114169406A (zh) | 2021-11-17 | 2021-11-17 | 基于对称不确定性联合条件熵的特征选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111363477.2A CN114169406A (zh) | 2021-11-17 | 2021-11-17 | 基于对称不确定性联合条件熵的特征选择方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114169406A true CN114169406A (zh) | 2022-03-11 |
Family
ID=80479873
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111363477.2A Pending CN114169406A (zh) | 2021-11-17 | 2021-11-17 | 基于对称不确定性联合条件熵的特征选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114169406A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024103436A1 (zh) * | 2022-11-18 | 2024-05-23 | 中国南方电网有限责任公司超高压输电公司检修试验中心 | 设备缺陷数据规则库构建方法及设备缺陷关联性分析方法 |
-
2021
- 2021-11-17 CN CN202111363477.2A patent/CN114169406A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024103436A1 (zh) * | 2022-11-18 | 2024-05-23 | 中国南方电网有限责任公司超高压输电公司检修试验中心 | 设备缺陷数据规则库构建方法及设备缺陷关联性分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111695626A (zh) | 基于混合采样与特征选择的高维度不平衡数据分类方法 | |
CN108363810A (zh) | 一种文本分类方法及装置 | |
CN110837884B (zh) | 基于改进的二元磷虾群算法和信息增益算法的有效混合特征选择方法 | |
Yuan et al. | An improved ensemble learning for imbalanced data classification | |
CN109522544A (zh) | 基于卡方检验的句向量计算方法、文本分类方法及系统 | |
CN106548041A (zh) | 一种基于先验信息和并行二进制微粒群算法的肿瘤关键基因识别方法 | |
CN101604394A (zh) | 一种有限存贮资源下的增量学习分类方法 | |
CN112926640A (zh) | 一种基于两阶段深度特征选择的癌症基因分类方法、设备及存储介质 | |
Xue et al. | An archive based particle swarm optimisation for feature selection in classification | |
CN114169406A (zh) | 基于对称不确定性联合条件熵的特征选择方法 | |
CN111797267A (zh) | 一种医学图像检索方法及系统、电子设备、存储介质 | |
CN1873661A (zh) | 一种遥感影像的人工免疫非监督分类方法 | |
CN108737429B (zh) | 一种网络入侵检测方法 | |
Zhu et al. | Multiobjective evolutionary algorithm-based soft subspace clustering | |
Natarajan et al. | A survey on gene feature selection using microarray data for cancer classification | |
CN110516741A (zh) | 基于动态分类器选择的类别重叠不平衡数据分类方法 | |
Oliveira et al. | Improving cascading classifiers with particle swarm optimization | |
CN109344972A (zh) | 一种基于特征可信度的高效特征选择方法 | |
CN111984762B (zh) | 一种对抗攻击敏感的文本分类方法 | |
Limam et al. | A new hybrid multiclass approach based on KNN and SVM | |
CN110533080B (zh) | 一种基于模糊规则集的乳腺癌细胞图像分类方法 | |
CN114169542A (zh) | 用于不完整数据分类的集成学习树构建方法 | |
CA2494799A1 (en) | Method for clustering decision trees in data classifiers | |
Kashef et al. | MLIFT: enhancing multi-label classifier with ensemble feature selection | |
Chen et al. | An associative classification approach for enhancing prediction of imbalance data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |