CN112860819A

CN112860819A - 一种基于邻域条件互信息的交互特征选择方法

Info

Publication number: CN112860819A
Application number: CN202110305125.5A
Authority: CN
Inventors: 陈红梅; 万继红; 李天瑞; 罗川; 胡节
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2021-03-19
Filing date: 2021-03-19
Publication date: 2021-05-28

Abstract

本发明公开了一种基于邻域条件互信息的交互特征选择方法，首先针对不同的数据类型，利用HCOM距离函数确定每个特征的邻域关系，依据多邻域半径集计算每个特征的邻域相似关系矩阵；其次利用邻域信息探究特征之间的关联性,包含特征与类之间的相关性，特征之间的冗余性和交互性；基于这种关联性，一种最大相关性，最小冗余性和最大交互性(MRmRMI)的特征重要性的评价函数被构建；利用该评价函数对特征的重要性进行评分以获得一个对分类贡献从大到小的一个有序的特征序列；最后，通过在不同分类器上的测试选择出最终的约简特征子集，该特征子集即为所求最佳平均分类性能所对应的特征子集序列。与其他六种流行的特征选择算法比较，本发明方法具有较高的分类性能和更为显著的分类效果。

Description

一种基于邻域条件互信息的交互特征选择方法

技术领域

本发明属于数据挖掘技术领域，是一种针对含噪声和不确定性混合数据的特征选择方法，该方法综合考虑了特征与类之间相关性及特征之间冗余性和交互性。

背景技术

近年来，大数据应用的发展对高维数据的理解和处理提出了更高的要求。特别是，大量具有噪声、无关或冗余特征的数据集为数据挖掘、知识发现和模式识别带来了巨大的挑战。由于维数灾难的存在，如何从所有特征中选择最优的特征子集被认为是各种学习任务中值得研究的课题。针对这一问题，人们提出了许多特征选择方法，这些方法致力于去除不相关的特征，消除特征之间的冗余。

由于不一致、噪声和混合数据在实际模型构建中的普遍存在，以信息理论为代表的不确定性度量被引入邻域粗糙集中用以进行属性约简。近年来，许多基于信息理论的邻域粗糙集特征选择方法取得了很大的进步。然而，这些方法忽略了特征之间由于相互依赖性所产生的交互作用，使得一些重要信息丢失，从而影响最终的学习效果。

特征交互性指的是那些单独的特征出现时与类的相关性不大，但当其与其它特征进行结合时可为分类提供较大的联合信息。例如，在生物数据分析领域，一个复杂机体内生理和病理的改变受到分子间彼此交互的影响。文献1“High-dimensional hybrid featureselection using interaction information-guided search”(S.Nakariyakul,Knowledge-Based Systems,vol.145,pp.59-66,2018)所提出的interactioninformation-guided incremental selection(IGIS)算法中，首先利用互信息衡量特征与类之间的相关性，并选择出具有最大相关性的特征；然后利用信息增益探究特征与已选特征之间的交互性，并选择出具有最大交互的特征；最后利用封装式的方法选择出具有最佳分类精度所对应的特征子集。该过程的流程图如附图1所示。然而，IGIS算法中所刻画的特征与已选特征之间的交互实际上强调的是特征之间的互补性。特征之间的联合交互性并没有得到很好地体现，该方法混淆了特征之间的互补性和交互性；另一方面，不一致和混合数据的存在使得IGIS算法在通用性和可移植性上受到了进一步的限制。迫切需要一种考虑不一致数据和混合数据交互的特征选择方法。

发明内容

鉴于现有技术的以上不足，本发明的目的在于针对含噪声和不确定性的混合数据，通过将特征之间的交互性进行重新刻画，从特征与候选特征之间的关系上进行交互性的探索，获得一种基于邻域条件互信息的交互特征选择方法，使之克服现有技术的以上缺点。

本发明实现发明目的所采用的技术方案是：一种基于邻域条件互信息的交互特征选择方法，首先，针对不同的数据类型，利用HCOM距离函数确定每个特征的邻域关系，依据多邻域半径集计算每个特征的邻域相似关系矩阵；其次，利用邻域信息探究特征之间的关联性，包含特征与类之间的相关性，特征之间的冗余性和交互性；基于这种关联性，一种最大相关性，最小冗余性和最大交互性(MRmRMI)的特征重要性的评价函数被构建；利用该评价函数对特征的重要性进行评分以获得一个对分类贡献从大到小的一个有序的特征序列；最后，通过在不同分类器上的测试选择出最终的约简特征子集，该特征子集即为所求最佳平均分类性能所对应的特征子集序列；包括以下主要操作步骤：

步骤1：混合数据预处理

给定一个邻域决策系统NDS＝(U,F∪D,V,f,δ)，其中，论域U是一个大小为n的样本集，记为U＝{x₁,x₂,…,x_n}；F是一个大小为m的特征集，记为F＝{f₁,f₂,…,f_m}；D＝{d}是一个单决策类；V是特征的值域并表示为

其中

为特征

在所有样本上取值的集合；f:U×(F∪D)→V是一个信息函数，其为每个对象分配属性值；δ是一个邻域参数。

由异构切比雪夫重叠度量HCOM的距离函数在特征

上确定样本的邻域相似关系

针对

所有特征的多邻域半径集被计算为：

其中，

所有样本关于特征

取值的标准差，参数∈用于调节特征的邻域半径，该参数的取值取决于不同数据集中不同特征值的分布特性；论域U上的相似关系矩阵

被获得，其中

为定义在特征

上的一个距离函数；

步骤2：特征关联性分析和定义

特征的关联性被划分为：(1)特征与类之间的相关性；(2)类独立的成对特征冗余性；(3)类依赖的成对特征交互性；具体分析和处理过程如下：

2-1)特征与类之间的相关性度量

给定一个邻域决策系统NDS＝(U,F∪D,V,f,δ)，

是已选特征子集，

是当前候选特征，则

与d之间的邻域互信息

衡量特征与类之间的相关性并将其定义为：

其中，

和δ_d(x_i)分别表示x_i在特征

和d上的邻域；

则表示x_i在组合特征

上的邻域；

最相关的特征具有最大的互信息，这种特征选择策略被称为最大相关准则(Max-Relevance，MR)，将其形式化为：

利用该MR准则可以得到特征与类之间相关性的降序排序；

在特征选择的初始阶段，约简已选特征子集为空，即

具有最大相关性的特征f_s被选为已选特征子集中的第一个特征Red＝{f_s}；

2-2)类独立的成对特征冗余性度量

邻域互信息被引入以衡量当前候选特征

和已选特征f_s之间的冗余性：

给定一个邻域决策系统NDS＝(U,F∪D,V,f,δ)，

是当前候选特征，f_s∈Red是已选特征，则

与f_s之间类独立的成对冗余性定义为：

其中，

和

分别表示x_i在特征

和f_s上的邻域；

则表示x_i在组合特征

上的邻域；

为了去除特征子集中的冗余特征，最小冗余准则(min-Redundancy，mR)被提出并表示为：

2-3)类依赖的成对特征交互性度量

将条件互信息引入邻域粗糙集中以衡量特征之间的这种交互性：

给定一个邻域决策系统NDS＝(U,F∪D,V,f,δ)，

是当前候选特征，

剩余候选特征中的特征，在已知

的条件下，则

与d之间类独立的成对交互性定义为：

其中，

和

分别表示x_i在

和

上的邻域；

最大交互准则(Max-Interaction，MI)被提出并表示为：

步骤3：特征重要性评价函数

依据步骤2所呈现的特征关联性度量，具有最大相关性，最小冗余性和最大交互性的特征期待被选择；据此，构建最大相关最小冗余最大交互MRmRMI的特征重要性评价函数如下：

其中，

该MRmRMI函数被用来衡量一个特征或特征子集对分类的有用程度，通过对其进行评分以获得一个对分类贡献从大到小的一个有序的特征序列；

步骤4：获取最终的最佳特征子集Red_best

利用MRmRMI函数迭代选择出具有最大特征重要性取值的特征

得到一个关于特征重要性的有序序列Red；依序递增地对该有序序列用Matlab中不同的分类器进行性能测试；所获最高分类精度值所对应的有序特征子集即为最终的最佳特征子集Red_best。

采用如上的方案，通过将特征之间的交互性进行重新刻画，从特征与候选特征之间的关系上进行交互性的探索，获得的所求最佳平均分类性能所对应的特征子集序列。与现有流行的特征选择算法比较，本发明方法具有较高的分类性能和更为显著的分类效果。

附图说明

图1为参考文献1中交互信息导向的增量选择算法(IGIS)流程图。

图2为本发明所提出的基于邻域条件互信息的交互特征选择算法(NCMI_IFS)流程图。

图3为本发明基于条件互信息的交互特征选择框架示意图。

图4为对比实验数据集的基本信息表。

图5为本发明与其他特征选择算法在KNN分类器上的平均分类精度(平均值±标准偏差％)对比结果表。

图6为本发明与其他特征选择算法在SVM分类器上的平均分类精度(平均值±标准偏差％)对比结果表。

图7为本发明与其他特征选择算法在CART分类器上的平均分类精度(平均值±标准偏差％)对比结果表。

图8为本发明与其他特征选择算法在NB分类器上的平均分类精度(平均值±标准偏差％)对比结果表。

图9为本发明在混合型和数值型数据集上，平均分类精度随参数的变化与所选特征数的关系示意图。其中，图(a),(b),(c)和(d)分别为本发明在Heart，Anneal，Credit和German四个混合型数据集上平均分类精度随参数变化与所选特征数的关系示意图；图(e),(f),(g)和(h)分别为本发明在Sonar，Glass，Iono和Wave四个数值型数据集上平均分类精度随参数变化与所选特征数的关系示意图。

图10为本发明在符号型数据集上，平均分类精度随所选特征数的关系示意图。其中，图(a),(b),(c)和(d)分别为本发明在Tic-Tac-Toe，Lympho，Zoo和Soy四个符号型数据集上平均分类精度随参数变化与所选特征数的关系示意图。

具体实施方式

下面结合附图对本发明作进一步的详述。

图2可看出本发明与图1为代表的现有技术在总体处理流程上的差异。

图3展示了利用基于邻域条件互信息的交互特征选择算法，从原始特征集到约简的特征子集的计算框架。首先，针对不同的数据类型，利用HCOM距离函数确定每个特征的邻域关系，依据多邻域半径集计算每个特征的邻域相似关系矩阵。其次，利用邻域信息论探究特征之间的关联性，包含特征与类之间的相关性，特征之间的冗余性和交互性。基于这种关联性定义，一种最大相关性，最小冗余性和最大交互性(MRmRMI)的特征重要性的评价函数被构建。接着，利用该评价函数对特征的重要性进行评分，可以获得一个对分类贡献从大到小的一个有序的特征序列。最后，通过在不同分类器上的测试可以选择出最终的约简特征子集，该特征子集为最佳平均分类性能所对应的特征子集序列。

本发明方法包括以下具体步骤：

1.混合数据预处理

分类问题中的数据集可以形式化地表示为邻域决策系统NDS＝(U,F∪D,V,f,δ)。其中，待分类的样本或对象构成NDS的论域，即U＝{x₁,x₂,…,x_n}；用于刻画样本的属性或特征构成条件属性集F＝{f₁,f₂,…,f_m}；D是一个决策属性集；

其中

为特征

为了处理混合数据并实现邻域关系中交的操作，定义了一种异构切比雪夫重叠度量(Heterogeneous Chebyshev-Overlap Metric，HCOM)。

定义1.针对数据的不同类型，HCOM距离函数被计算如下：

其中，

由于特征值的数据分布不同，如果对特定邻域进行全局设置，学习任务的结果会产生偏差。故不使用距离来统一度量邻域的大小，而是考虑不同特征值的分布情形，在不同特征上设置不同的邻域大小，从而得到多邻域半径集的概念。

定义2.针对

所有特征的多邻域半径集被计算为：

其中，

所有样本关于特征

被获得，其中

为定义在特征

上的一个距离函数；

由HCOM距离函数所确定的邻域关系

是一个相似关系。根据定义1和2，论域U上的邻域关系，即邻域相似关系矩阵

可以被获得。

2.特征关联性分析和定义

为了从原始特征集合中获得重要的特征子集，需对特征的重要性进行度量。采用信息理论对特征为分类所提供的信息量的大小进行评估，并将其作为特征重要性的评价指标。为此，特征选择过程中，特征的关联性被分析探讨以确定特征为类的划分所提供的信息贡献。在本发明中，特征的关联性被划分为：(1)特征与类之间的相关性；(2)类独立的成对特征冗余性；(3)类依赖的成对特征交互性。具体分析和定义如下。

(1)特征与类之间的相关性度量

从信息论的视角出发，与类具有较大相关性的特征可为类的划分提供更多的辨识信息。互信息被广泛用于度量特征和类之间的相关性，故将其引入邻域粗糙集中以衡量带有混合性数据(包括数值数据和分类数据)的特征相关性。

定义3.给定一个邻域决策系统NDS＝(U,F∪D,V,f,δ)，U＝{x₁,x₂,…,x_n}，F＝{f₁,f₂,…,f_m}，D＝{d}是一个单决策类，

是已选特征子集，

是当前候选特征，则

与d之间的相关性定义为：

其中，

和

分别表示x_i在特征

和d上的邻域；

则表示x_i在组合特征

上的邻域。

利用该MR准则可以得到特征与类之间相关性的降序排序。

在特征选择的初始阶段，约简(已选)特征子集为空，即

具有最大相关性的特征f_s被选为已选特征子集中的第一个特征Red＝{f_s}。

(2)类独立的成对特征冗余性度量

在考虑特征与类之间相关性的同时，特征与已选特征之间可能存在的关联性可造成数据的冗余，进而降低分类性能。邻域互信息被引入以衡量当前候选特征

和已选特征f_s之间的冗余性。

定义4.给定一个邻域决策系统NDS＝(U,F∪D,V,f,δ)，

是当前候选特征，f_s∈Red是已选特征，则

与f_s之间类独立的成对冗余性定义为：

其中，

和

分别表示x_i在特征

和f_s上的邻域；

则表示x_i在组合特征

上的邻域。

(3)类依赖的成对特征交互性度量

除了考虑(2)和(3)所示的特征关联性外，特征选择过程中可能存在单个特征与类相关性较弱，但成对的联合交互的特征可能为类的划分提供较大的分类信息的情形。为此，本发明将条件互信息引入邻域粗糙集中以衡量特征之间的这种交互性。

定义5.给定一个邻域决策系统NDS＝(U,F∪D,V,f,δ)，

是当前候选特征，

剩余候选特征中的特征，在已知

的条件下，则

与d之间类独立的成对交互性定义为：

其中，

和

分别表示x_i在

和

上的邻域。

特征选择过程中，与剩余候选特征中具有最大交互性的特征期待被选择出来。它们之间的联合交互可为分类提供较大的辨识信息，为此，最大交互准则(Max-Interaction，MI)被提出并表示为：

3.特征重要性评价函数

依据步骤2所呈现的特征关联性度量，具有最大相关性，最小冗余性和最大交互性的特征期待被选择。据此，本发明构建了一种新的最大相关最小冗余最大交互(Max-Relevance min-Redundancy Max-Interaction，MRmRMI)的特征重要性评价函数如下：

其中，

该MRmRMI函数可以被用来衡量一个特征对分类的有用程度，即信息贡献量。也可以将其理解为该特征可以以多大的辨识能力去区分不同的类。它的目的是使得最终所选特征子集最具有代表性和信息量，并且达到相关性，冗余性和交互性的折衷。

本发明的性能评测如下：

为了验证本发明的有效性，实验采用从UCI机器学习库中下载的12个数据集进行测试。这些数据集包含数值型和符号型以反映邻域粗糙集在处理混合数据上的优势，数据集的基本信息如图4所示。

将本发明与其他六种特征选择算法进行对比。这些特征选择算法大致可以分为两类：一类是基于信息论的特征选择算法，如基于互信息的特征选择算法(MIFS)、最小冗余最大相关特征选择算法(mRMR)和基于模糊熵的特征选择算法(FuzzyE)；二是基于邻域粗糙集的特征选择算法，如基于邻域粗糙集的前向属性约简(NFARNRS)、k近邻粗糙集(k-NNRS)和基于变精度k近邻的前向属性约简(FarVPKNN)。

利用K-最近邻(KNN)、支持向量机(SVM)、分类回归树(CART)、朴素贝叶斯(NB)四种常用分类器的平均分类精度来评价特征选择结果的质量。这些分类器从Matlab统计库中得到的，它们代表了用于监督分类的截然不同的分类学习算法。在不同的数据集上进行10次5倍交叉验证，以平均值作为最终的分类性能。

实验对比结果：

实验一分类性能对比

分类性能被认为是验证特征选择算法质量最有效、最直接的方法之一。其中，通常用分类精度来衡量分类性能。为了避免实验结果受到数据稀缺性和计算随机性的影响，对同一特征选择算法在不同数据集上的分类精度进行了平均，并以“Avg.”表示。经过10轮计算，以原始数据集在4种不同分类器上的平均分类精度作为实验比较的基准。最佳分类性能以黑体字突出显示。本发明与六种特征选择算法在四个不同分类器上的分类结果如图5-8所示。

本发明与其他特征选择算法的对比结果可以发现，本发明在大多数数据集上的分类性能优于其他特征选择算法。例如，当KNN被用作测试的分类器时(如图5所示)，本发明在9个数据集上取得了最好的分类性能。虽然该算法在某些数据集上的分类性能不如MIFS(如在Heart和German数据集上)和mRMR(如在Lympho数据集上)算法，但达到了平均分类精度的最大值。

与原始数据的分类性能相比，本发明在四个分类器上的平均分类精度分别提高了13.6％、5.1％、11.9％和9.0％。

图9和图10显示了本发明在四个分类器的平均分类精度随不同参数取值和选择的特征数的变化曲线。参数取值范围为1.0至2.0，步长为0.2。参数的不同取值将导致在获得最佳分类性能时选择的特征数不同。从选择特征个数的角度说明了本发明在特征降维方面的有效性。

Claims

1.一种基于邻域条件互信息的交互特征选择方法，首先，针对不同的数据类型，利用HCOM距离函数确定每个特征的邻域关系，依据多邻域半径集计算每个特征的邻域相似关系矩阵；其次，利用邻域信息探究特征之间的关联性，包含特征与类之间的相关性，特征之间的冗余性和交互性；基于这种关联性，一种最大相关性，最小冗余性和最大交互性MRmRMI的特征重要性的评价函数被构建；利用该评价函数对特征的重要性进行评分以获得一个对分类贡献从大到小的一个有序的特征序列；最后，通过在不同分类器上的测试选择出最终的约简特征子集，该特征子集即为所求最佳平均分类性能所对应的特征子集序列；包括以下主要操作步骤：

步骤1：混合数据预处理