CN114169406A

CN114169406A - 基于对称不确定性联合条件熵的特征选择方法

Info

Publication number: CN114169406A
Application number: CN202111363477.2A
Authority: CN
Inventors: 周红芳; 王晨光; 连延彬
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2021-11-17
Filing date: 2021-11-17
Publication date: 2022-03-11

Abstract

本发明公开了基于对称不确定性联合条件熵的特征选择方法，通过计算已选特征和候选特征以及分类之间的互信息来选取最优特征，基于对称不确定性联合条件熵的算法不仅考虑了特征和类别之间的相关性，还考虑了特征和特征之间的冗余性。本发明能够快速地定位到与类别相关性强并且与已选特征之间冗余较小的特征，极大的提高了分类的准确性和效率。

Description

基于对称不确定性联合条件熵的特征选择方法

技术领域

本发明属于特征选择技术领域，具体涉及基于对称不确定性联合条件熵的特征选择方法。

背景技术

随着科技的发展以及物联网的普及，据统计全国现在已经有9.4亿网民，网络为人民的生活和工作带来极大的遍历。人与人之间进行沟通的效率得到了极大的提高。在互联网给我们带来便利的同时，也出现了很多的弊端，如网上的社交软件和各种信息平台，每秒都会产生海量的数据，这些数据绝大多数是无用的数据，因此我们从海量的数据中获取到有价值的信息就变得极为重要。特性选择是为了从大量的数据中选择出信息量大、与类别高度相关的数据。作为数据的预处理部分，特征选择的好坏直接会对后续的分类结果产生影响。

特征选择主要用于数据的预处理阶段，对数据进行降维，即特征子集选择，从已有的含有M个特征的集合个中选择出N个冗余性小且与类别高度相关的特征来，使得最终构造出的分类模型性能最好。特征选择的步骤一般分为产生过程，评价函数，停止准则，验证过程。

特征选择算法主要分为包装方法、过滤方法以及嵌入方法。过滤式特征选择算法只考虑候选特征集合和目标类之间的相关性的大小，与分类模型的构造过程无关。过滤式的特征选择算法实现难度较低，时间开销较少，MRMR算法是常见的基于过滤式的特征选择算法。包装式算法是将特征选择和模型构建关联起来，两者相互指导，彼此反馈。即用每个特征子集来训练模型，将训练得到的模型的泛化性为选择的子集进行打分，模型的分类性能会影响特征选择的最终结果。包装式特征选择算法的性能较优于过滤式方法，但是计算时间过长，且也容易产生过拟合现象。常见的包装式特征选择算法例如遗传算法。嵌入式特征选择算法将特征选择和模型构建融合在一起，常见的如决策树算法，选择信息增益得分最大的特征进行模型的构建，上述算法存在复杂度高、计算时间长的缺陷。

发明内容

本发明的目的是提供基于对称不确定性联合条件熵的特征选择方法，结合候选特征与已选特征以及类别之间的关系，剔除不相关的特征，提高分类器的分类准确率。

本发明所采用的技术方案是，基于对称不确定性联合条件熵的特征选择方法，具体按照以下步骤实施：

步骤1、对连续型样本数据集的特征值进行离散化处理，得到特征值离散化后的样本数据，并将样本数据按照9:1的比例随机划分出训练集和测试集；

步骤2、将训练集所有样本数据作为候选特征集合F的元素，使用互信息计算集合F中所有候选特征与各个样本所属的类别之间的互信息值，选择出互信息值最大的特征放入集合S中，将去除互信息值最大的特征的候选特征集合F作为候选特征子集F′；

步骤3、遍历候选特征子集F′中每一个候选特征，使用基于对称不确定性联合条件熵的特征选择算法计算每一个候选特征的条件对称不确定度，将对称不确定度最高的候选特征加入集合S中；

步骤4、使用集合S测试分类器分类的准确率，并将得到的准确率与前一次的分类准确率进行比较，若准确率得到提升，则保留该集合S内新添加的特征，作为候选特征子集F′的特征，否则剔除该候选特征；

步骤5、重复步骤3、步骤4，最终得到的集合S内的特征为基于对称不确定性联合条件熵的特征。

本发明的特点还在于：

步骤1连续型样本数据集为ASU特征选择库中的数据集合。

步骤2具体过程为：

步骤2.1、定义一个初始集合为空集的集合S，将特征空间的所有特征作为候选特征集合F的元素，根据公式(1)计算候选特征集合F中每个特征f_i与所有类别之间的互信息值I(f_i；C)；

其中，

表示特征f_i的特征值离散化的段数，N_C是数据集中所有样本所属的类别总数；c_k表示第k个类别，p(f_ij)表示第i个特征对应取第j段离散化后的特征值时所对应的样本数与数据集的所有样本总数的比值，p(c_k)表示属于第k个类别的样本的数量占数据集所有样本的比率，p(f_i,c_k)表示第i个特征对应取第j段离散化后的特征值时且属于第k个类别的所有样本在数据集中所占的比例；

步骤2.2、根据互信息值对所有特征进行降序排序，选择互信息I(f_i；C)值最大的候选特征f_max，并放入集合S中，此时得到候选特征子集F′＝F-{f_max}；

步骤3具体过程为：

步骤3.1、根据公式(3)计算集合S中已选特征f_i已知的情况下候选特征子集F′中的候选特征f_t和所有类别之间的条件互信息；

步骤3.2、根据公式(4)计算集合S中每一个特征f_i与所有类别之间的条件熵大小H(f_i|C)；

其中，

表示特征f_i的特征值离散化的段数，N_C是样本的类别总数；

步骤3.3、根据公式(5)计算候选特征子集F′中每一个候选特征f_t与所有类别之间的条件熵大小H(f_t|C)；

其中，

表示特征f_t的特征值离散化的段数；

步骤3.4、根据公式(6)求出计算特征子集F′中每一个候选特征f_t的条件对称不确定度的大小COSU(f_t)；

步骤3.5、根据公式(7)求出平均条件对称不确定度

最大的候选特征f_t，并将候选特征f_t放入集合S中；

其中，M表示集合S中元素的个数。

步骤4所使用的分类器为SVM分类器和KNN分类器。

步骤4具体过程为：去掉训练集和测试集中所有未在集合S中出现的特征，保留集合S中出现的特征，利用训练集分别使用SVM分类器和KNN分类器完成训练，并对测试集的所有样本进行分类，得到两种分类器的平均分类准确率，并将此轮循环中得到的平均准确率与前一轮的平均结果进行比较，若平均准确率得到提升，则保留该集合S内新添加的特征，作为候选特征子集F′中的特征，否则剔除该候选特征。

本发明的有益效果是：

本发明一种基于对称不确定性联合条件熵的特征选择算法，通过计算已选特征和候选特征以及分类之间的互信息来选取最优特征，基于对称不确定性联合条件熵的算法不仅考虑了特征和类别之间的相关性，还考虑了特征和特征之间的冗余性。本发明能够快速地定位到与类别相关性强并且与已选特征之间冗余较小的特征，极大的提高了分类的准确性和效率。

附图说明

图1是本发明基于对称不确定性联合条件熵的特征选择方法的流程图；

图2是本发明与四种对比算法在9种数据集上分别使用KNN分类器实验结果；

图3是本发明与四种对比算法在9种数据集上分别使用SVM分类器实验结果；

图4是本发明与四种对比算法分别使用KNN分类器和SVM分类器的平均实验结果。

具体实施方式

下面结合附图及具体实施方式对本发明进行详细说明。

本发明基于对称不确定性联合条件熵的特征选择方法，如图1所示，具体按照以下步骤实施：

步骤1、从ASU特征选择库中选取连续型样本数据集，对连续型样本数据集的特征值进行离散化处理，得到特征值离散化后的样本数据，并将样本数据按照9:1的比例随机划分出训练集和测试集；样本数据集分别为人脸数据集，生物数据集和文本数据集。其中warpAR10P、orlraws10P、warpPIE10P、TOX_171、SMK_CAN_187、GLI_85为连续数据集。

步骤2具体过程为：

其中，

具体过程为：

其中，

表示特征f_i的特征值离散化的段数，N_C是样本的类别总数；

其中，

表示特征f_t的特征值离散化的段数；

步骤3.5、根据公式(7)求出平均条件对称不确定度

最大的候选特征f_t，并将候选特征f_t放入集合S中；

其中，M表示集合S中元素的个数。

步骤4、去掉训练集和测试集中所有未在集合S中出现的特征，保留集合S中出现的特征，利用训练集分别使用SVM分类器和KNN分类器完成训练，并对测试集的所有样本进行分类，得到两种分类器的平均分类准确率，并将此轮循环中得到的平均准确率与前一轮的平均结果进行比较，若平均准确率得到提升，则保留该集合S内新添加(步骤3中添加)的特征，作为候选特征子集F′中的特征，否则剔除该候选特征。

在对比实验中，选取数据集warpAR10P、orlraws10P、warpPIE10P、TOX_171、SMK_CAN_187、GLI_85、PCMAC、RELATHE以及BASEHOCK进行本发明的性能测试。以上数据集都是来自ASU特征选择库，分别为人脸数据集，生物数据集和文本数据集。

为了验证基于对称不确定性联合条件熵的特征选择算法的性能，将本发明与SFS，BIRS，BIRSR，IGIS四种算法进行对比。分类器选用的是常见的K最近邻分类器(KNN)和支持向量机分类器(SVM)。

从图2可以看出，当使用KNN分类器时，除了在warpAR10P数据集以及warpPIE10P数据集上本发明的性能不如对比算法，但在其他数据集上的分类准确率均高于对比算法。

从图3所示，可以看出，当使用SVM分类器进行实验时，本发明在SMK_CAN_187、PCMAC、RELATHE以及BASEHOCK数据集上取得了最优结果，而在其他数据集上的性能表现不如对比算法。

从图4可以看出，无论使用SVM分类器还是KNN分类器，本发明的平均分类性能都是最优的。多个数据集上的实验结果表明本发明可以很好地提高分类器的分类性能，是可靠的特征选择算法。

通过上述方式，本发明一种基于对称不确定性联合条件熵的特征选择算法，通过计算已选特征和候选特征以及分类之间的互信息来选取最优特征，基于对称不确定性联合条件熵的算法不仅考虑了特征和类别之间的相关性，还考虑了特征和特征之间的冗余性。本发明能够快速地定位到与类别相关性强并且与已选特征之间冗余较小的特征，极大的提高了分类的准确性和效率。

Claims

1.基于对称不确定性联合条件熵的特征选择方法，其特征在于，具体按照以下步骤实施：

2.根据权利要求1所述基于对称不确定性联合条件熵的特征选择方法，其特征在于，步骤1所述连续型样本数据集为ASU特征选择库中的数据集合。

3.根据权利要求1所述基于对称不确定性联合条件熵的特征选择方法，其特征在于，步骤2具体过程为：

其中，

f_max＝arg max f_i∈F[I(f_i；C)] (2)。

4.根据权利要求1所述基于对称不确定性联合条件熵的特征选择方法，其特征在于，步骤3具体过程为：

其中，

表示特征f_i的特征值离散化的段数，N_C是样本的类别总数；

其中，

表示特征f_t的特征值离散化的段数；

步骤3.5、根据公式(7)求出平均条件对称不确定度

最大的候选特征f_t，并将候选特征f_t放入集合S中；

其中，M表示集合S中元素的个数。

5.根据权利要求1所述基于对称不确定性联合条件熵的特征选择方法，其特征在于，步骤4所使用的分类器为SVM分类器和KNN分类器。

6.根据权利要求5所述基于对称不确定性联合条件熵的特征选择方法，其特征在于，步骤4具体过程为：去掉训练集和测试集中所有未在集合S中出现的特征，保留集合S中出现的特征，利用训练集分别使用SVM分类器和KNN分类器完成训练，并对测试集的所有样本进行分类，得到两种分类器的平均分类准确率，并将此轮循环中得到的平均准确率与前一轮的平均结果进行比较，若平均准确率得到提升，则保留该集合S内新添加的特征，作为候选特征子集F′中的特征，否则剔除该候选特征。