CN112860819A - 一种基于邻域条件互信息的交互特征选择方法 - Google Patents

一种基于邻域条件互信息的交互特征选择方法 Download PDF

Info

Publication number
CN112860819A
CN112860819A CN202110305125.5A CN202110305125A CN112860819A CN 112860819 A CN112860819 A CN 112860819A CN 202110305125 A CN202110305125 A CN 202110305125A CN 112860819 A CN112860819 A CN 112860819A
Authority
CN
China
Prior art keywords
feature
features
neighborhood
subset
relevance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110305125.5A
Other languages
English (en)
Inventor
陈红梅
万继红
李天瑞
罗川
胡节
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Jiaotong University
Original Assignee
Southwest Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Jiaotong University filed Critical Southwest Jiaotong University
Priority to CN202110305125.5A priority Critical patent/CN112860819A/zh
Publication of CN112860819A publication Critical patent/CN112860819A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于邻域条件互信息的交互特征选择方法,首先针对不同的数据类型,利用HCOM距离函数确定每个特征的邻域关系,依据多邻域半径集计算每个特征的邻域相似关系矩阵;其次利用邻域信息探究特征之间的关联性,包含特征与类之间的相关性,特征之间的冗余性和交互性;基于这种关联性,一种最大相关性,最小冗余性和最大交互性(MRmRMI)的特征重要性的评价函数被构建;利用该评价函数对特征的重要性进行评分以获得一个对分类贡献从大到小的一个有序的特征序列;最后,通过在不同分类器上的测试选择出最终的约简特征子集,该特征子集即为所求最佳平均分类性能所对应的特征子集序列。与其他六种流行的特征选择算法比较,本发明方法具有较高的分类性能和更为显著的分类效果。

Description

一种基于邻域条件互信息的交互特征选择方法
技术领域
本发明属于数据挖掘技术领域,是一种针对含噪声和不确定性混合数据的特征选择方法,该方法综合考虑了特征与类之间相关性及特征之间冗余性和交互性。
背景技术
近年来,大数据应用的发展对高维数据的理解和处理提出了更高的要求。特别是,大量具有噪声、无关或冗余特征的数据集为数据挖掘、知识发现和模式识别带来了巨大的挑战。由于维数灾难的存在,如何从所有特征中选择最优的特征子集被认为是各种学习任务中值得研究的课题。针对这一问题,人们提出了许多特征选择方法,这些方法致力于去除不相关的特征,消除特征之间的冗余。
由于不一致、噪声和混合数据在实际模型构建中的普遍存在,以信息理论为代表的不确定性度量被引入邻域粗糙集中用以进行属性约简。近年来,许多基于信息理论的邻域粗糙集特征选择方法取得了很大的进步。然而,这些方法忽略了特征之间由于相互依赖性所产生的交互作用,使得一些重要信息丢失,从而影响最终的学习效果。
特征交互性指的是那些单独的特征出现时与类的相关性不大,但当其与其它特征进行结合时可为分类提供较大的联合信息。例如,在生物数据分析领域,一个复杂机体内生理和病理的改变受到分子间彼此交互的影响。文献1“High-dimensional hybrid featureselection using interaction information-guided search”(S.Nakariyakul,Knowledge-Based Systems,vol.145,pp.59-66,2018)所提出的interactioninformation-guided incremental selection(IGIS)算法中,首先利用互信息衡量特征与类之间的相关性,并选择出具有最大相关性的特征;然后利用信息增益探究特征与已选特征之间的交互性,并选择出具有最大交互的特征;最后利用封装式的方法选择出具有最佳分类精度所对应的特征子集。该过程的流程图如附图1所示。然而,IGIS算法中所刻画的特征与已选特征之间的交互实际上强调的是特征之间的互补性。特征之间的联合交互性并没有得到很好地体现,该方法混淆了特征之间的互补性和交互性;另一方面,不一致和混合数据的存在使得IGIS算法在通用性和可移植性上受到了进一步的限制。迫切需要一种考虑不一致数据和混合数据交互的特征选择方法。
发明内容
鉴于现有技术的以上不足,本发明的目的在于针对含噪声和不确定性的混合数据,通过将特征之间的交互性进行重新刻画,从特征与候选特征之间的关系上进行交互性的探索,获得一种基于邻域条件互信息的交互特征选择方法,使之克服现有技术的以上缺点。
本发明实现发明目的所采用的技术方案是:一种基于邻域条件互信息的交互特征选择方法,首先,针对不同的数据类型,利用HCOM距离函数确定每个特征的邻域关系,依据多邻域半径集计算每个特征的邻域相似关系矩阵;其次,利用邻域信息探究特征之间的关联性,包含特征与类之间的相关性,特征之间的冗余性和交互性;基于这种关联性,一种最大相关性,最小冗余性和最大交互性(MRmRMI)的特征重要性的评价函数被构建;利用该评价函数对特征的重要性进行评分以获得一个对分类贡献从大到小的一个有序的特征序列;最后,通过在不同分类器上的测试选择出最终的约简特征子集,该特征子集即为所求最佳平均分类性能所对应的特征子集序列;包括以下主要操作步骤:
步骤1:混合数据预处理
给定一个邻域决策系统NDS=(U,F∪D,V,f,δ),其中,论域U是一个大小为n的样本集,记为U={x1,x2,…,xn};F是一个大小为m的特征集,记为F={f1,f2,…,fm};D={d}是一个单决策类;V是特征的值域并表示为
Figure BDA0002983275190000031
其中
Figure BDA0002983275190000032
为特征
Figure BDA0002983275190000033
在所有样本上取值的集合;f:U×(F∪D)→V是一个信息函数,其为每个对象分配属性值;δ是一个邻域参数。
由异构切比雪夫重叠度量HCOM的距离函数在特征
Figure BDA0002983275190000034
上确定样本的邻域相似关系
Figure BDA0002983275190000035
针对
Figure BDA0002983275190000036
所有特征的多邻域半径集被计算为:
Figure BDA0002983275190000037
其中,
Figure BDA0002983275190000038
Figure BDA0002983275190000039
所有样本关于特征
Figure BDA00029832751900000310
取值的标准差,参数∈用于调节特征的邻域半径,该参数的取值取决于不同数据集中不同特征值的分布特性;论域U上的相似关系矩阵
Figure BDA00029832751900000311
被获得,其中
Figure BDA00029832751900000312
为定义在特征
Figure BDA00029832751900000313
上的一个距离函数;
步骤2:特征关联性分析和定义
特征的关联性被划分为:(1)特征与类之间的相关性;(2)类独立的成对特征冗余性;(3)类依赖的成对特征交互性;具体分析和处理过程如下:
2-1)特征与类之间的相关性度量
给定一个邻域决策系统NDS=(U,F∪D,V,f,δ),
Figure BDA00029832751900000314
是已选特征子集,
Figure BDA00029832751900000315
是当前候选特征,则
Figure BDA00029832751900000316
与d之间的邻域互信息
Figure BDA00029832751900000317
衡量特征与类之间的相关性并将其定义为:
Figure BDA00029832751900000318
其中,
Figure BDA00029832751900000319
和δd(xi)分别表示xi在特征
Figure BDA00029832751900000320
和d上的邻域;
Figure BDA00029832751900000321
则表示xi在组合特征
Figure BDA0002983275190000041
上的邻域;
最相关的特征具有最大的互信息,这种特征选择策略被称为最大相关准则(Max-Relevance,MR),将其形式化为:
Figure BDA0002983275190000042
利用该MR准则可以得到特征与类之间相关性的降序排序;
在特征选择的初始阶段,约简已选特征子集为空,即
Figure BDA0002983275190000043
具有最大相关性的特征fs被选为已选特征子集中的第一个特征Red={fs};
2-2)类独立的成对特征冗余性度量
邻域互信息被引入以衡量当前候选特征
Figure BDA0002983275190000044
和已选特征fs之间的冗余性:
给定一个邻域决策系统NDS=(U,F∪D,V,f,δ),
Figure BDA0002983275190000045
是当前候选特征,fs∈Red是已选特征,则
Figure BDA0002983275190000046
与fs之间类独立的成对冗余性定义为:
Figure BDA0002983275190000047
其中,
Figure BDA0002983275190000048
Figure BDA0002983275190000049
分别表示xi在特征
Figure BDA00029832751900000410
和fs上的邻域;
Figure BDA00029832751900000411
则表示xi在组合特征
Figure BDA00029832751900000412
上的邻域;
为了去除特征子集中的冗余特征,最小冗余准则(min-Redundancy,mR)被提出并表示为:
Figure BDA00029832751900000413
2-3)类依赖的成对特征交互性度量
将条件互信息引入邻域粗糙集中以衡量特征之间的这种交互性:
给定一个邻域决策系统NDS=(U,F∪D,V,f,δ),
Figure BDA00029832751900000414
是当前候选特征,
Figure BDA00029832751900000415
剩余候选特征中的特征,在已知
Figure BDA00029832751900000416
的条件下,则
Figure BDA00029832751900000417
与d之间类独立的成对交互性定义为:
Figure BDA0002983275190000051
其中,
Figure BDA0002983275190000052
Figure BDA0002983275190000053
分别表示xi
Figure BDA0002983275190000054
Figure BDA0002983275190000055
Figure BDA0002983275190000056
上的邻域;
最大交互准则(Max-Interaction,MI)被提出并表示为:
Figure BDA0002983275190000057
步骤3:特征重要性评价函数
依据步骤2所呈现的特征关联性度量,具有最大相关性,最小冗余性和最大交互性的特征期待被选择;据此,构建最大相关最小冗余最大交互MRmRMI的特征重要性评价函数如下:
Figure BDA0002983275190000058
其中,
Figure BDA0002983275190000059
该MRmRMI函数被用来衡量一个特征或特征子集对分类的有用程度,通过对其进行评分以获得一个对分类贡献从大到小的一个有序的特征序列;
步骤4:获取最终的最佳特征子集Redbest
利用MRmRMI函数迭代选择出具有最大特征重要性取值的特征
Figure BDA00029832751900000510
得到一个关于特征重要性的有序序列Red;依序递增地对该有序序列用Matlab中不同的分类器进行性能测试;所获最高分类精度值所对应的有序特征子集即为最终的最佳特征子集Redbest
采用如上的方案,通过将特征之间的交互性进行重新刻画,从特征与候选特征之间的关系上进行交互性的探索,获得的所求最佳平均分类性能所对应的特征子集序列。与现有流行的特征选择算法比较,本发明方法具有较高的分类性能和更为显著的分类效果。
附图说明
图1为参考文献1中交互信息导向的增量选择算法(IGIS)流程图。
图2为本发明所提出的基于邻域条件互信息的交互特征选择算法(NCMI_IFS)流程图。
图3为本发明基于条件互信息的交互特征选择框架示意图。
图4为对比实验数据集的基本信息表。
图5为本发明与其他特征选择算法在KNN分类器上的平均分类精度(平均值±标准偏差%)对比结果表。
图6为本发明与其他特征选择算法在SVM分类器上的平均分类精度(平均值±标准偏差%)对比结果表。
图7为本发明与其他特征选择算法在CART分类器上的平均分类精度(平均值±标准偏差%)对比结果表。
图8为本发明与其他特征选择算法在NB分类器上的平均分类精度(平均值±标准偏差%)对比结果表。
图9为本发明在混合型和数值型数据集上,平均分类精度随参数的变化与所选特征数的关系示意图。其中,图(a),(b),(c)和(d)分别为本发明在Heart,Anneal,Credit和German四个混合型数据集上平均分类精度随参数变化与所选特征数的关系示意图;图(e),(f),(g)和(h)分别为本发明在Sonar,Glass,Iono和Wave四个数值型数据集上平均分类精度随参数变化与所选特征数的关系示意图。
图10为本发明在符号型数据集上,平均分类精度随所选特征数的关系示意图。其中,图(a),(b),(c)和(d)分别为本发明在Tic-Tac-Toe,Lympho,Zoo和Soy四个符号型数据集上平均分类精度随参数变化与所选特征数的关系示意图。
具体实施方式
下面结合附图对本发明作进一步的详述。
图2可看出本发明与图1为代表的现有技术在总体处理流程上的差异。
图3展示了利用基于邻域条件互信息的交互特征选择算法,从原始特征集到约简的特征子集的计算框架。首先,针对不同的数据类型,利用HCOM距离函数确定每个特征的邻域关系,依据多邻域半径集计算每个特征的邻域相似关系矩阵。其次,利用邻域信息论探究特征之间的关联性,包含特征与类之间的相关性,特征之间的冗余性和交互性。基于这种关联性定义,一种最大相关性,最小冗余性和最大交互性(MRmRMI)的特征重要性的评价函数被构建。接着,利用该评价函数对特征的重要性进行评分,可以获得一个对分类贡献从大到小的一个有序的特征序列。最后,通过在不同分类器上的测试可以选择出最终的约简特征子集,该特征子集为最佳平均分类性能所对应的特征子集序列。
本发明方法包括以下具体步骤:
1.混合数据预处理
分类问题中的数据集可以形式化地表示为邻域决策系统NDS=(U,F∪D,V,f,δ)。其中,待分类的样本或对象构成NDS的论域,即U={x1,x2,…,xn};用于刻画样本的属性或特征构成条件属性集F={f1,f2,…,fm};D是一个决策属性集;
Figure BDA0002983275190000071
其中
Figure BDA0002983275190000072
为特征
Figure BDA0002983275190000073
在所有样本上取值的集合;f:U×(F∪D)→V是一个信息函数,其为每个对象分配属性值;δ是一个邻域参数。
为了处理混合数据并实现邻域关系中交的操作,定义了一种异构切比雪夫重叠度量(Heterogeneous Chebyshev-Overlap Metric,HCOM)。
定义1.针对数据的不同类型,HCOM距离函数被计算如下:
Figure BDA0002983275190000081
其中,
Figure BDA0002983275190000082
由于特征值的数据分布不同,如果对特定邻域进行全局设置,学习任务的结果会产生偏差。故不使用距离来统一度量邻域的大小,而是考虑不同特征值的分布情形,在不同特征上设置不同的邻域大小,从而得到多邻域半径集的概念。
定义2.针对
Figure BDA0002983275190000083
所有特征的多邻域半径集被计算为:
Figure BDA0002983275190000084
其中,
Figure BDA0002983275190000085
Figure BDA0002983275190000086
所有样本关于特征
Figure BDA0002983275190000087
取值的标准差,参数∈用于调节特征的邻域半径,该参数的取值取决于不同数据集中不同特征值的分布特性;论域U上的相似关系矩阵
Figure BDA0002983275190000088
被获得,其中
Figure BDA0002983275190000089
为定义在特征
Figure BDA00029832751900000810
上的一个距离函数;
由HCOM距离函数所确定的邻域关系
Figure BDA00029832751900000811
是一个相似关系。根据定义1和2,论域U上的邻域关系,即邻域相似关系矩阵
Figure BDA00029832751900000812
可以被获得。
2.特征关联性分析和定义
为了从原始特征集合中获得重要的特征子集,需对特征的重要性进行度量。采用信息理论对特征为分类所提供的信息量的大小进行评估,并将其作为特征重要性的评价指标。为此,特征选择过程中,特征的关联性被分析探讨以确定特征为类的划分所提供的信息贡献。在本发明中,特征的关联性被划分为:(1)特征与类之间的相关性;(2)类独立的成对特征冗余性;(3)类依赖的成对特征交互性。具体分析和定义如下。
(1)特征与类之间的相关性度量
从信息论的视角出发,与类具有较大相关性的特征可为类的划分提供更多的辨识信息。互信息被广泛用于度量特征和类之间的相关性,故将其引入邻域粗糙集中以衡量带有混合性数据(包括数值数据和分类数据)的特征相关性。
定义3.给定一个邻域决策系统NDS=(U,F∪D,V,f,δ),U={x1,x2,…,xn},F={f1,f2,…,fm},D={d}是一个单决策类,
Figure BDA0002983275190000091
是已选特征子集,
Figure BDA0002983275190000092
是当前候选特征,则
Figure BDA0002983275190000093
与d之间的相关性定义为:
Figure BDA0002983275190000094
其中,
Figure BDA0002983275190000095
Figure BDA0002983275190000096
分别表示xi在特征
Figure BDA0002983275190000097
和d上的邻域;
Figure BDA0002983275190000098
则表示xi在组合特征
Figure BDA0002983275190000099
上的邻域。
最相关的特征具有最大的互信息,这种特征选择策略被称为最大相关准则(Max-Relevance,MR),将其形式化为:
Figure BDA00029832751900000910
利用该MR准则可以得到特征与类之间相关性的降序排序。
在特征选择的初始阶段,约简(已选)特征子集为空,即
Figure BDA00029832751900000911
具有最大相关性的特征fs被选为已选特征子集中的第一个特征Red={fs}。
(2)类独立的成对特征冗余性度量
在考虑特征与类之间相关性的同时,特征与已选特征之间可能存在的关联性可造成数据的冗余,进而降低分类性能。邻域互信息被引入以衡量当前候选特征
Figure BDA0002983275190000101
和已选特征fs之间的冗余性。
定义4.给定一个邻域决策系统NDS=(U,F∪D,V,f,δ),
Figure BDA0002983275190000102
是当前候选特征,fs∈Red是已选特征,则
Figure BDA0002983275190000103
与fs之间类独立的成对冗余性定义为:
Figure BDA0002983275190000104
其中,
Figure BDA0002983275190000105
Figure BDA0002983275190000106
分别表示xi在特征
Figure BDA0002983275190000107
和fs上的邻域;
Figure BDA0002983275190000108
则表示xi在组合特征
Figure BDA0002983275190000109
上的邻域。
为了去除特征子集中的冗余特征,最小冗余准则(min-Redundancy,mR)被提出并表示为:
Figure BDA00029832751900001010
(3)类依赖的成对特征交互性度量
除了考虑(2)和(3)所示的特征关联性外,特征选择过程中可能存在单个特征与类相关性较弱,但成对的联合交互的特征可能为类的划分提供较大的分类信息的情形。为此,本发明将条件互信息引入邻域粗糙集中以衡量特征之间的这种交互性。
定义5.给定一个邻域决策系统NDS=(U,F∪D,V,f,δ),
Figure BDA00029832751900001011
是当前候选特征,
Figure BDA00029832751900001012
剩余候选特征中的特征,在已知
Figure BDA00029832751900001013
的条件下,则
Figure BDA00029832751900001014
与d之间类独立的成对交互性定义为:
Figure BDA00029832751900001015
其中,
Figure BDA0002983275190000111
Figure BDA0002983275190000112
分别表示xi
Figure BDA0002983275190000113
Figure BDA0002983275190000114
Figure BDA0002983275190000115
上的邻域。
特征选择过程中,与剩余候选特征中具有最大交互性的特征期待被选择出来。它们之间的联合交互可为分类提供较大的辨识信息,为此,最大交互准则(Max-Interaction,MI)被提出并表示为:
Figure BDA0002983275190000116
3.特征重要性评价函数
依据步骤2所呈现的特征关联性度量,具有最大相关性,最小冗余性和最大交互性的特征期待被选择。据此,本发明构建了一种新的最大相关最小冗余最大交互(Max-Relevance min-Redundancy Max-Interaction,MRmRMI)的特征重要性评价函数如下:
Figure BDA0002983275190000117
其中,
Figure BDA0002983275190000118
该MRmRMI函数可以被用来衡量一个特征对分类的有用程度,即信息贡献量。也可以将其理解为该特征可以以多大的辨识能力去区分不同的类。它的目的是使得最终所选特征子集最具有代表性和信息量,并且达到相关性,冗余性和交互性的折衷。
本发明的性能评测如下:
为了验证本发明的有效性,实验采用从UCI机器学习库中下载的12个数据集进行测试。这些数据集包含数值型和符号型以反映邻域粗糙集在处理混合数据上的优势,数据集的基本信息如图4所示。
将本发明与其他六种特征选择算法进行对比。这些特征选择算法大致可以分为两类:一类是基于信息论的特征选择算法,如基于互信息的特征选择算法(MIFS)、最小冗余最大相关特征选择算法(mRMR)和基于模糊熵的特征选择算法(FuzzyE);二是基于邻域粗糙集的特征选择算法,如基于邻域粗糙集的前向属性约简(NFARNRS)、k近邻粗糙集(k-NNRS)和基于变精度k近邻的前向属性约简(FarVPKNN)。
利用K-最近邻(KNN)、支持向量机(SVM)、分类回归树(CART)、朴素贝叶斯(NB)四种常用分类器的平均分类精度来评价特征选择结果的质量。这些分类器从Matlab统计库中得到的,它们代表了用于监督分类的截然不同的分类学习算法。在不同的数据集上进行10次5倍交叉验证,以平均值作为最终的分类性能。
实验对比结果:
实验一 分类性能对比
分类性能被认为是验证特征选择算法质量最有效、最直接的方法之一。其中,通常用分类精度来衡量分类性能。为了避免实验结果受到数据稀缺性和计算随机性的影响,对同一特征选择算法在不同数据集上的分类精度进行了平均,并以“Avg.”表示。经过10轮计算,以原始数据集在4种不同分类器上的平均分类精度作为实验比较的基准。最佳分类性能以黑体字突出显示。本发明与六种特征选择算法在四个不同分类器上的分类结果如图5-8所示。
本发明与其他特征选择算法的对比结果可以发现,本发明在大多数数据集上的分类性能优于其他特征选择算法。例如,当KNN被用作测试的分类器时(如图5所示),本发明在9个数据集上取得了最好的分类性能。虽然该算法在某些数据集上的分类性能不如MIFS(如在Heart和German数据集上)和mRMR(如在Lympho数据集上)算法,但达到了平均分类精度的最大值。
与原始数据的分类性能相比,本发明在四个分类器上的平均分类精度分别提高了13.6%、5.1%、11.9%和9.0%。
图9和图10显示了本发明在四个分类器的平均分类精度随不同参数取值和选择的特征数的变化曲线。参数取值范围为1.0至2.0,步长为0.2。参数的不同取值将导致在获得最佳分类性能时选择的特征数不同。从选择特征个数的角度说明了本发明在特征降维方面的有效性。

Claims (1)

1.一种基于邻域条件互信息的交互特征选择方法,首先,针对不同的数据类型,利用HCOM距离函数确定每个特征的邻域关系,依据多邻域半径集计算每个特征的邻域相似关系矩阵;其次,利用邻域信息探究特征之间的关联性,包含特征与类之间的相关性,特征之间的冗余性和交互性;基于这种关联性,一种最大相关性,最小冗余性和最大交互性MRmRMI的特征重要性的评价函数被构建;利用该评价函数对特征的重要性进行评分以获得一个对分类贡献从大到小的一个有序的特征序列;最后,通过在不同分类器上的测试选择出最终的约简特征子集,该特征子集即为所求最佳平均分类性能所对应的特征子集序列;包括以下主要操作步骤:
步骤1:混合数据预处理
给定一个邻域决策系统NDS=(U,F∪D,V,f,δ),其中,论域U是一个大小为n的样本集,记为U={x1,x2,…,xn};F是一个大小为m的特征集,记为F={f1,f2,…,fm};D={d}是一个单决策类;V是特征的值域并表示为
Figure FDA0002983275180000011
其中
Figure FDA0002983275180000012
为特征
Figure FDA0002983275180000013
在所有样本上取值的集合;f:U×(F∪D)→V是一个信息函数,其为每个对象分配属性值;δ是一个邻域参数。
由异构切比雪夫重叠度量HCOM的距离函数在特征
Figure FDA0002983275180000014
上确定样本的邻域相似关系
Figure FDA0002983275180000015
针对
Figure FDA0002983275180000016
所有特征的多邻域半径集被计算为:
Figure FDA0002983275180000017
其中,
Figure FDA0002983275180000018
Figure FDA0002983275180000019
所有样本关于特征
Figure FDA00029832751800000110
取值的标准差,参数∈用于调节特征的邻域半径,该参数的取值取决于不同数据集中不同特征值的分布特性;论域U上的相似关系矩阵
Figure FDA00029832751800000111
被获得,其中
Figure FDA00029832751800000112
为定义在特征
Figure FDA00029832751800000113
上的一个距离函数;
步骤2:特征关联性分析和定义
特征的关联性被划分为:(1)特征与类之间的相关性;(2)类独立的成对特征冗余性;(3)类依赖的成对特征交互性;具体分析和处理过程如下:
2-1)特征与类之间的相关性度量
给定一个邻域决策系统NDS=(U,F∪D,V,f,δ),
Figure FDA0002983275180000021
是已选特征子集,
Figure FDA0002983275180000022
是当前候选特征,则
Figure FDA0002983275180000023
与d之间的邻域互信息
Figure FDA0002983275180000024
衡量特征与类之间的相关性并将其定义为:
Figure FDA0002983275180000025
其中,
Figure FDA0002983275180000026
和δd(xi)分别表示xi在特征
Figure FDA0002983275180000027
和d上的邻域;
Figure FDA0002983275180000028
则表示xi在组合特征
Figure FDA0002983275180000029
上的邻域;
最相关的特征具有最大的互信息,这种特征选择策略被称为最大相关准则(Max-Relevance,MR),将其形式化为:
Figure FDA00029832751800000210
利用该MR准则可以得到特征与类之间相关性的降序排序;
在特征选择的初始阶段,约简已选特征子集为空,即
Figure FDA00029832751800000211
具有最大相关性的特征fs被选为已选特征子集中的第一个特征Red={fs};
2-2)类独立的成对特征冗余性度量
邻域互信息被引入以衡量当前候选特征
Figure FDA00029832751800000219
和已选特征fs之间的冗余性:
给定一个邻域决策系统NDS=(U,F∪D,V,f,δ),
Figure FDA00029832751800000212
是当前候选特征,fs∈Red是已选特征,则
Figure FDA00029832751800000213
与fs之间类独立的成对冗余性定义为:
Figure FDA00029832751800000214
其中,
Figure FDA00029832751800000215
Figure FDA00029832751800000216
分别表示xi在特征
Figure FDA00029832751800000217
和fs上的邻域;
Figure FDA00029832751800000218
则表示xi在组合特征
Figure FDA0002983275180000031
上的邻域;
为了去除特征子集中的冗余特征,最小冗余准则(min-Redundancy,mR)被提出并表示为:
Figure FDA0002983275180000032
2-3)类依赖的成对特征交互性度量
将条件互信息引入邻域粗糙集中以衡量特征之间的这种交互性:
给定一个邻域决策系统NDS=(U,F∪D,V,f,δ),
Figure FDA0002983275180000033
是当前候选特征,
Figure FDA0002983275180000034
剩余候选特征中的特征,在已知
Figure FDA0002983275180000035
的条件下,则
Figure FDA0002983275180000036
与d之间类独立的成对交互性定义为:
Figure FDA0002983275180000037
其中,
Figure FDA0002983275180000038
Figure FDA0002983275180000039
分别表示xi
Figure FDA00029832751800000310
Figure FDA00029832751800000311
Figure FDA00029832751800000312
上的邻域;
最大交互准则(Max-Interaction,MI)被提出并表示为:
Figure FDA00029832751800000313
步骤3:特征重要性评价函数
依据步骤2所呈现的特征关联性度量,具有最大相关性,最小冗余性和最大交互性的特征期待被选择;据此,构建最大相关最小冗余最大交互MRmRMI的特征重要性评价函数如下:
Figure FDA00029832751800000314
其中,
Figure FDA00029832751800000315
该MRmRMI函数被用来衡量一个特征或特征子集对分类的有用程度,通过对其进行评分以获得一个对分类贡献从大到小的一个有序的特征序列;
步骤4:获取最终的最佳特征子集Redbest
利用MRmRMI函数迭代选择出具有最大特征重要性取值的特征
Figure FDA0002983275180000041
得到一个关于特征重要性的有序序列Red;依序递增地对该有序序列用Matlab中不同的分类器进行性能测试;所获最高分类精度值所对应的有序特征子集即为最终的最佳特征子集Redbest
CN202110305125.5A 2021-03-19 2021-03-19 一种基于邻域条件互信息的交互特征选择方法 Pending CN112860819A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110305125.5A CN112860819A (zh) 2021-03-19 2021-03-19 一种基于邻域条件互信息的交互特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110305125.5A CN112860819A (zh) 2021-03-19 2021-03-19 一种基于邻域条件互信息的交互特征选择方法

Publications (1)

Publication Number Publication Date
CN112860819A true CN112860819A (zh) 2021-05-28

Family

ID=75992046

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110305125.5A Pending CN112860819A (zh) 2021-03-19 2021-03-19 一种基于邻域条件互信息的交互特征选择方法

Country Status (1)

Country Link
CN (1) CN112860819A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113469151A (zh) * 2021-09-03 2021-10-01 深圳市信润富联数字科技有限公司 工业制造中传感器的筛选方法、装置、设备及介质
CN115687899A (zh) * 2022-09-06 2023-02-03 东华大学 基于高维度纺纱数据的混合特征选择方法
CN115718894A (zh) * 2022-11-30 2023-02-28 江西农业大学 一种面向高维复杂数据的在线流特征选择方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113469151A (zh) * 2021-09-03 2021-10-01 深圳市信润富联数字科技有限公司 工业制造中传感器的筛选方法、装置、设备及介质
CN113469151B (zh) * 2021-09-03 2022-02-15 深圳市信润富联数字科技有限公司 工业制造中传感器的筛选方法、装置、设备及介质
CN115687899A (zh) * 2022-09-06 2023-02-03 东华大学 基于高维度纺纱数据的混合特征选择方法
CN115687899B (zh) * 2022-09-06 2024-05-14 东华大学 基于高维度纺纱数据的混合特征选择方法
CN115718894A (zh) * 2022-11-30 2023-02-28 江西农业大学 一种面向高维复杂数据的在线流特征选择方法
CN115718894B (zh) * 2022-11-30 2023-11-17 江西农业大学 一种面向高维复杂数据的在线流特征选择方法

Similar Documents

Publication Publication Date Title
CN112860819A (zh) 一种基于邻域条件互信息的交互特征选择方法
Aziz et al. Dimension reduction methods for microarray data: a review
US9235805B2 (en) Method for providing with a score an object, and decision-support system
Bai et al. Time series classification based on multi-feature dictionary representation and ensemble learning
Mutihac et al. Mining in chemometrics
Prati Combining feature ranking algorithms through rank aggregation
Song et al. Nearest clusters based partial least squares discriminant analysis for the classification of spectral data
Ben Ishak Variable selection using support vector regression and random forests: A comparative study
Kawakubo et al. Rapid feature selection based on random forests for high-dimensional data
Zhou et al. A hybrid feature selection method RFSTL for manufacturing quality prediction based on a high dimensional imbalanced dataset
Ammu et al. Review on feature selection techniques of DNA microarray data
Wong et al. Two-stage classification methods for microarray data
Ivaturi et al. Soft classification techniques for breast cancer detection and classification
Al-Shalabi New feature selection algorithm based on feature stability and correlation
Biglari et al. Feature selection for small sample sets with high dimensional data using heuristic hybrid approach
Karlsson et al. Forests of randomized shapelet trees
Honest A survey on feature selection techniques
Akkaya The Effect of Recursive Feature Elimination with Cross-Validation Method on Classification Performance with Different Sizes of Datasets
Guney et al. A robust ensemble feature selection technique for high‐dimensional datasets based on minimum weight threshold method
Cateni et al. Improving the stability of Sequential Forward variables selection
Hamraz et al. Regulatory Genes Through Robust-SNR for Binary Classification Within Functional Genomics Experiments.
Azmer et al. Comparative analysis of classification techniques for leaves and land cover texture.
Thomas et al. Data mining in proteomic mass spectrometry
Kamalov et al. Forward feature selection: empirical analysis
Anandarao et al. Two-level Filtering method with Extended Lasso and Information Gain in Microarray DataAnalysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210528

RJ01 Rejection of invention patent application after publication