CN110379521B - 基于信息论的医疗数据集特征选择方法 - Google Patents

基于信息论的医疗数据集特征选择方法 Download PDF

Info

Publication number
CN110379521B
CN110379521B CN201910546810.XA CN201910546810A CN110379521B CN 110379521 B CN110379521 B CN 110379521B CN 201910546810 A CN201910546810 A CN 201910546810A CN 110379521 B CN110379521 B CN 110379521B
Authority
CN
China
Prior art keywords
feature
features
value
data set
classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910546810.XA
Other languages
English (en)
Other versions
CN110379521A (zh
Inventor
陈响洲
庾安妮
徐雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan Xinxing Technology Co ltd
Sichuan Chaoyihong Technology Co ltd
Original Assignee
Henan Xinxing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan Xinxing Technology Co ltd filed Critical Henan Xinxing Technology Co ltd
Priority to CN201910546810.XA priority Critical patent/CN110379521B/zh
Publication of CN110379521A publication Critical patent/CN110379521A/zh
Application granted granted Critical
Publication of CN110379521B publication Critical patent/CN110379521B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明公开了一种基于信息论的医疗数据集特征选择方法,包括以下步骤:根据待分析的医疗数据集构建原始高维数据矩阵和标签列,自定义要选取的特征个数T;求取每个特征的对称不确定性SU值;根据SU对所有特征进行降序排列,将SU值最大的特征加入初始为空的特征子集;针对剩余的每个特征fp,求取其SU值以及其与目前已选的所有特征的多变量对称不确定性MSU值,结合SU值和MSU值构建特征的特征评价函数;利用特征评价函数对特征进行评价,将评价值最高的T‑1个特征加入特征子集;结合分类器和K折交叉验证方法对所选特征子集进行评价。本发明方法通过最大化特征与标签的相关性,同时最小化特征之间的冗余性进行特征选择,在计算效率,分类准确率和选择的特征子集规模上明显更优。

Description

基于信息论的医疗数据集特征选择方法
技术领域
本发明属于大数据技术与机器学习领域,特别是一种基于信息论的医疗数据集特征选择方法。
背景技术
在实际应用场景产生的机器学习问题中,都会产生大量复杂的高维数据。大多数数据分析任务的运行时间至少随数据维度的增加呈线性增长,存储、分析高维数据需要消耗大量计算机存储资源,花费很多计算时间。并且很多数据挖掘和机器学习的任务如分类、聚类和回归,只在低维空间取得好效果,如果放置到高维空间会非常困难。所以如何对高维数据进行特征降维,并保持重要信息不丢失是迫在眉睫要解决的问题。
特征选择(Feature Selection,FS)是选择原始特征子集的过程,特征子集通常比原始特征集合小得多。一般特征选择的目标为选择与标签相关(relevant)的特征,并剔除与其他相关特征冗余(redundant)的特征。
广义上,根据与机器学习算法之间的联系,特征选择算法分为三类:Filter方法,Wrapper方法和Embedded方法。Filter方法利用某种统计学的指标作为衡量标准,是一种独立于特定机器学习算法的特征选择方法。相反Wrapper方法的衡量标准是基于某个分类器的表现的,所以总的来说Wrapper方法的计算量更大。Embedded方法综合了以上两种方法,将特征选择和学习器的训练在同一个优化过程中完成。
现存的基于信息论的特征选择方法属于Filter方法,或多或少存在一些弊端。如大多数基于信息理论的方法只能处理离散型数据,无法处理连续型数据。互信息最大化MIM(Mutual Information Maximization)方法只考虑了每个单独的特征与标签的互信息来给特征打分,忽略了特征之间的冗余关系,使得得到的最优特征子集不准确。最小冗余最大相关性mRMR(minimal-Redundancy Maximal-Relevance)方法虽然综合考虑了特征与标签的相关性和特征之间的冗余性,但是计算量大,算法的时间复杂度关于特征数目呈二次方增长,关于样本大小呈线性增长,并且算法在给特征打分时没有考虑条件冗余(ConditionalRedundancy)。FCBF(Fast Correlation Based Filter)方法定义了对称不确定性SU(Symmetrical Uncertainty)给特征进行打分,但是只考虑了两个特征之间的冗余性,无法衡量多个特征的相互依赖程度。
发明内容
本发明的目的在于提供一种计算效率高、选取的特征集合规模小、且利用选取的特征分类准确率高的特征选择的方法。
实现本发明目的的技术解决方案为:基于信息论的医疗数据集特征选择方法,包括以下步骤:
步骤1、根据待分析的医疗数据集构建原始高维数据矩阵和标签列,自定义要选取的特征个数T;其中,T小于医疗数据集的特征总数;
步骤2、根据原始高维数据矩阵和标签列,求取每个特征对称不确定性SU值;
步骤3、根据SU值对所有特征进行降序排列,获得待选的有序特征序列,将SU值最大的特征加入构建的初始为空的特征子集,并将其从待选的有序特征序列中剔除;
步骤4、针对待选的有序特征序列中剩余的每个特征fp,求取其对称不确定性SU值以及其与已选的所有特征关于标签列的多变量对称不确定性MSU值,结合每个特征的SU值和MSU值构建该特征对应的特征评价函数;
步骤5、利用每个特征对应的特征评价函数对该特征进行评价,将评价值最高的T-1个特征加入所述特征子集;
步骤6、根据所得特征子集从原始高维数据矩阵选择相应T个特征对应的数据构建新的医疗数据集,并结合分类器和K折交叉验证方法对所选特征子集进行评价。
本发明与现有技术相比,其显著优点为:1)综合考虑了特征与标签之间的相关性,特征与特征之间的冗余性,选择出的特征子集能够更好的代表原始高维数据;2)采用对称不确定性SU衡量特征与标签的相关性,对互信息量做了归一化处理,并控制其取值范围在[0,1],从而弥补了传统基于互信息特征选择方法倾向于选取取值较大的特征的缺点;3)采用多变量对称不确定性MSU衡量多个特征之间的冗余性,弥补了SU只能衡量成对特征之间关联性的缺陷;4)本发明的方法属于Filter方法,计算过程不依赖于特定的分类器,因此计算效率较高,同时可以选择出规模较小的特征子集,并且仍能保持较高的分类准确率。
下面结合附图对本发明作进一步详细描述。
附图说明
图1为本发明基于信息理论的医疗数据集特征选择方法的流程图。
图2为本发明实施例中选择不同特征数量对应的分类准确率曲线图。
具体实施方式
结合图1,本发明的基于信息理论的医疗数据集特征选择方法,包括以下步骤:
步骤1、根据待分析的医疗数据集构建原始高维数据矩阵和标签列,自定义要选取的特征个数T;其中,T小于医疗数据集的特征总数;
步骤2、根据原始高维数据矩阵和标签列,求取每个特征对称不确定性SU值;
步骤3、根据SU值对所有特征进行降序排列,获得待选的有序特征序列,将SU值最大的特征加入构建的初始为空的特征子集,并将其从待选的有序特征序列中剔除;
步骤4、针对待选的有序特征序列中剩余的每个特征fp,求取其对称不确定性SU值以及其与已选的所有特征关于标签列的多变量对称不确定性MSU值,结合每个特征的SU值和MSU值构建该特征对应的特征评价函数;
步骤5、利用每个特征对应的特征评价函数对该特征进行评价,将评价值最高的T-1个特征加入所述特征子集;
步骤6、根据所得特征子集从原始高维数据矩阵选择相应T个特征对应的数据构建新的医疗数据集,并结合分类器和K折交叉验证方法对所选特征子集进行评价。
进一步地,步骤1中根据待分析的医疗数据集构建原始高维数据矩阵和标签列,具体为:
假设构建原始高维数据矩阵
Figure BDA0002104214580000031
n为医疗数据集样本总数,m为原始特征维数;矩阵M的第一列为标签列,用向量
Figure BDA0002104214580000032
表示,矩阵M除第一列之后的部分为数据矩阵,用矩阵
Figure BDA0002104214580000033
表示;所述数据矩阵的第i行表示第i个样本在所有特征下的观察值,第j列表示第j个特征的所有观察值。
进一步地,步骤2根据原始高维数据矩阵和标签列,计算每个特征的对称不确定性SU值,具体为:
对称性是用于度量特征之间关联的有力指标。互信息的取值易于倾向具有多值的变量,而对称不确定性改善了这一缺点,实际上为互信息的归一化表示。
两个离散型随机变量X={x1,x2,...,xn}和Y={y1,y2,...,yn}的对称不确定性定义为:
Figure BDA0002104214580000034
式中,定义p(xi)为离散型随机变量xi的概率质量函数,H(X)为随机变量X的信息熵,定义为:
Figure BDA0002104214580000041
式中,对数函数默认以2为底,单位为bit。
同理,H(Y)为随机变量Y的信息熵。
在信息论中,信息熵描述了变量不确定性的期望。在Y的条件下,X的条件熵定义为:
Figure BDA0002104214580000042
条件熵H(X|Y)表示关于X在已知Y的条件下不确定性剩余的大小。
定义X和Y的联合分布为p(xi,yj),边缘分布为p(xi),p(yi),变量X和Y的互信息(Mutual Information)I(X;Y)定义为:
Figure BDA0002104214580000043
综上,每个特征的对称不确定性SU值为:
Figure BDA0002104214580000044
式中,Xk表示特征fk对应的高维数据矩阵中第k列数据,y表示标签列,I(Xk,y)表示Xk与y的互信息,H(Xk)、H(y)分别表示Xk、y的信息熵,H(Xk|y)表示在y的条件下,Xk的条件熵。
进一步地,步骤4中求取剩余的每个特征fp与已选的所有特征关于标签列的多变量对称不确定性MSU值,具体为:
假设已加入特征子集的特征有t个,则fp对应的MSU所用公式为:
Figure BDA0002104214580000051
其中,
Figure BDA0002104214580000052
式中,H(X1:t,y)为联合熵。
进一步地,步骤4中由每个特征fp的SU值和MSU值构建该特征对应的特征评价函数为:
JMSU(Xp)=SU(Xp,y)-MSU(X1:t,y)
特征评价函数同时考虑了特征与标签的相关性和特征之间的冗余性。
进一步地,步骤6中结合分类器和K折交叉验证方法对所选的特征子集进行评价,具体为:
步骤6-1、随机将新的医疗数据集中的样本划分为K个样本子集;其中,正例的样本标签由+1表示,反例的样本标签由-1表示;
步骤6-2、将每一个样本子集分别作为测试集,剩余的K-1个样本子集作为训练集,训练分类器,共获得K个分类器;
步骤6-3、(1)求取每个分类器的分类准确率acc:
acc=length(find(Y_test_resu==Y_test))/length(Y_test)
式中,Y_test_resu为分类器预测的标签,Y_test为真实数据标签;
之后对所有分类器的分类准确率acc求平均,获得平均准确率
Figure BDA0002104214580000054
(2)求取每个分类器的均衡分类错误率BER:
Figure BDA0002104214580000053
式中,TP为该分类器正确预测为正例的样本的数量,FN为该分类器错误预测为反例的样本的数量,FP该分类器错误预测为正例的样本的数量,TN为该分类器正确预测为反例的样本的数量;
之后对所有分类器的均衡错误率BER求平均,获得平均均衡错误率
Figure BDA0002104214580000055
(3)求取每个分类器的AUC值,其为ROC曲线下的面积,ROC曲线的纵坐标为真正率TPR,横坐标为假正率FPR:
Figure BDA0002104214580000061
Figure BDA0002104214580000062
AUC与BER之间的关系为:
AUC=1-BER
之后对所有分类器的AUC值求平均,获得平均
Figure BDA0002104214580000063
值;
利用上述平均准确率
Figure BDA0002104214580000064
平均均衡错误率
Figure BDA0002104214580000065
和平均
Figure BDA0002104214580000066
值即可评价特征选择效果,值越大,分类效果也越好,表示选择的特征子集越优。
示例性优选地,步骤6中分类器具体采用KNN分类器。
下面结合实施例对本发明作进一步详细的描述。
实施例
本发明基于信息论的医疗数据集特征选择方法,包括以下内容:
1、根据待分析的医疗数据集构建原始高维数据矩阵和标签列,自定义要选取的特征个数T;其中,T小于医疗数据集的特征总数;
本实施例中采用的医疗数据集是UCI机器学习库的Heart Disease数据集中的Cleveland数据库,该数据库包含76个特征和242个样本。其中,第58个特征是num,是每个样本的标签,代表是否患心脏病。原本的分类目标是预测观察对象是否患心脏病(未患病标签为0),或者患心脏病的种类(标签分别为1,2,3,4),本实施例简化了分类目标,只考虑二分类问题,即预测对象是否患病(患病的标签为+1,未患病的标签为-1)。除去标签,还有75个待选特征,具体如下表1所示:
表1 Heart Disease数据集的特征
Figure BDA0002104214580000067
Figure BDA0002104214580000071
本实施例设定选取的特征个数T=5,10,20,并分别考察分类效果。
2、根据原始高维数据矩阵和标签列,计算每个特征对称不确定性SU值:
对称不确定性SU的计算公式如下:
Figure BDA0002104214580000072
当T分别取5,10,20时,得到的SU值分别如下表2、3、4所示,表格中加粗的是SU的最大值:
表2 T=5时,特征的SU值
Figure BDA0002104214580000073
Figure BDA0002104214580000081
表3 T=10时,特征的SU值
Figure BDA0002104214580000082
表4 T=20时,特征的SU值
Figure BDA0002104214580000083
Figure BDA0002104214580000091
3、根据SU对所有特征进行降序排列,获得待选的有序特征序列,将SU值最大的特征加入构建的初始为空的特征子集,并将其从待选的有序特征序列中剔除;
由上述2得出的SU值降序排列的特征序号分别为:
(1)T=5时:
idxs=[60,66,59,64,62,1,51,67,12,9,44,38,41,32,43,40,71,58,30,34,15,33,23,10,36,70,3,4,29,56,37,35,31,14,21,25,20,24,55,72,19,17,39,26,27,57,22,11,18,16,2,5,6,7,8,13,28,42,45,46,47,48,49,50,52,53,54,61,63,65,68,69,73,74,75]
此时,首先被加入特征集合的是第60个特征laddist。
(2)T=10时:
idxs=[60,66,64,59,62,67,1,51,12,9,38,44,32,43,40,71,41,30,58,15,34,3,4,23,10,36,33,70,29,37,31,35,14,21,25,56,19,20,24,55,26,72,17,27,57,39,22,11,18,16,2,5,6,7,8,13,28,42,45,46,47,48,49,50,52,53,54,61,63,65,68,69,73,74,75]
此时,首先被加入特征集合的是第60个特征laddist。
(3)T=20时:
idxs=[60,66,64,59,62,1,67,51,9,38,12,32,44,43,41,71,40,30,15,58,34,4,10,36,33,3,31,23,29,70,72,21,35,19,14,56,25,37,20,24,55,39,27,26,17,57,18,22,11,16,2,5,6,7,8,13,28,42,45,46,47,48,49,50,52,53,54,61,63,65,68,69,73,74,75]
此时,首先被加入特征集合的是第60个特征laddist。
4、针对待选的有序特征序列中剩余特征的每个特征fp,求取其对称不确定性SU值以及其与目前已选的所有特征关于标签列的多变量对称不确定性MSU值,结合每个特征的SU值和MSU值构建该特征对应的特征评价函数:
JMSU(Xp)=SU(Xp,y)-MSU(X1:t,y)
其中,假设加入待选取的特征后,已加入特征集合的特征有t个,则待选取特征与目前已选的所有特征关于标签列的多变量对称不确定性MSU值为:
Figure BDA0002104214580000092
式中,C(X1:k,y)计算了t个特征及标签之间的相关性和特征与特征之间的冗余关系,能够更好的给候选特征打分,定义为:
Figure BDA0002104214580000101
5、利用每个特征对应的特征评价函数对该特征进行评价,将评价值最高的T-1个特征加入所述特征子集;
由于候选特征数目较多,需要迭代计算评价函数的值,本实施例中只列出选择第二个特征的计算结果:
(1)T=5时:
此时,剩下的候选特征按照SU值降序排序为:
idxleft=[66,59,64,62,1,51,67,12,9,44,38,41,32,43,40,71,58,30,34,15,33,23,10,36,70,3,4,29,56,37,35,31,14,21,25,20,24,55,72,19,17,39,26,27,57,22,11,18,16,2,5,6,7,8,13,28,42,45,46,47,48,49,50,52,53,54,61,63,65,68,69,73,74,75]
经计算JMSU值,idxleft的第15个特征的评价值最大,为0.6734,所以第40个特征oldpeak被选为第二个代表特征加入特征子集。
(2)T=10时:
此时,剩下的候选特征按照SU值降序排序为:
idxsleft=[66,64,59,62,67,1,51,12,9,38,44,32,43,40,71,41,30,58,15,34,3,4,23,10,36,33,70,29,37,31,35,14,21,25,56,19,20,24,55,26,72,17,27,57,39,22,11,18,16,2,5,6,7,8,13,28,42,45,46,47,48,49,50,52,53,54,61,63,65,68,69,73,74,75]
经计算JMSU值,idxleft的第14个特征的评价值最大,为0.6776,所以第40个特征oldpeak被选为第二个代表特征加入特征子集。
(3)T=20时:
此时,剩下的候选特征按照SU值降序排序为:
idxleft=[66,64,59,62,1,67,51,9,38,12,32,44,43,41,71,40,30,15,58,34,4,10,36,33,3,31,23,29,70,72,21,35,19,14,56,25,37,20,24,55,39,27,26,17,57,18,22,11,16,2,5,6,7,8,13,28,42,45,46,47,48,49,50,52,53,54,61,63,65,68,69,73,74,75]
经计算JMSU值,idxleft的第16个特征的评价值最大,为0.6792,所以第40个特征oldpeak被选为第二个代表特征加入特征子集。
6、由原始高维数据矩阵中特征子集T个特征对应的数据构建新的医疗数据集,结合分类器和K折交叉验证方法对所选特征子集进行评价。
本实施例具体采用KNN分类器,并且近邻参数设置为1。分类结果的“混淆矩阵”如下表5所示:
表5二分类的混淆矩阵
Figure BDA0002104214580000111
本实施例采用10折交叉验证方法来评价所选特征子集的优劣。首先将新的医疗数据集随机划分为10个样本子集,然后选取其中的1个样本子集当做测试集,其余的9个样本子集当做训练集。让10个样本子集轮流作为测试集,将该过程重复10次,最终训练得到10个分类器,并根据分类器在测试集上的表现得到10个分类准确率。
经本发明特征选择方法选择出的特征包括由运动引起的ST段压低(STdepression);由运动引起的心绞痛(1代表有,0代表无);贫血状况(3代表正常,6代表固定性缺损,7代表可逆性缺陷);胸痛类型(1代表典型心绞痛,2代表非典型心绞痛,3代表非心绞痛,4代表无症状)等,具体为:
(1)T=5时:
求出的特征编号为:
feature=[60,40,66,62,59]
所对应的特征集合为:{'laddist','oldpeak','rcaprox','cxmain','ladprox'}
经过10折交叉验证得到的分类准确率acc,分类错误率ber和auc值分别如下表6所示:
表6T=5时的10折交叉验证结果
轮次 1 2 3 4 5 6 7 8 9 10
acc(%) 92 95.83 92 100 91.67 83.33 87.5 95.83 91.67 100
ber(%) 6.67 3.33 9.09 8.57 13.33 10 7.14 9.09 0 4.55
auc(%) 93.33 96.67 90.91 91.43 86.67 90 92.86 90.91 100 95.44
由表可知,平均分类准确率为92.57%,平均分类错误率为7.18%,平均AUC为92.82%。
(2)T=10时:
求出的特征编号为:
feature=[60,40,66,59,62,64,67,38,51,9]
所对应的特征集合为:
{'laddist','oldpeak','rcaprox','ladprox','cxmain','om1','rcadist','exang','thal','cp'}
经过10折交叉验证得到的分类准确率acc,分类错误率ber和auc值分别如下表7所示:
表7T=10时的10折交叉验证结果
轮次 1 2 3 4 5 6 7 8 9 10
acc(%) 95.83 100 100 100 95.83 100 100 100 100 96
ber(%) 4.55 0 0 0 7.14 0 0 0 0 6.25
auc(%) 95.45 100 100 100 92.86 94.44 100 100 100 93.75
由表可知,平均分类准确率为98.77%,平均分类错误率为1.79%,平均AUC为98.21%。
(3)T=20时:
求出的特征子集为:
feature=[60,40,66,59,64,62,67,51,38,9,41,71,58,44,1,12,32,43,30,15]
特征集合为
{'laddist','oldpeak','rcaprox','ladprox','om1','cxmain','rcadist','thal','exang','cp','slope','lvx4','lmt','ca','id','chol','thalach','rldv5e','thaltime','years'}
经过10折交叉验证得到的分类准确率acc,分类错误率ber和auc值分别如下表8所示:
表8K'=20时的10折交叉验证结果
轮次 1 2 3 4 5 6 7 8 9 10
acc(%) 95.83 91.67 95.83 91.67 91.67 87.5 91.67 92 100 84
ber(%) 6.25 7.14 8.33 8.57 8.33 10.71 11.11 8.33 0 20
auc(%) 93.75 92.86 91.67 91.43 91.67 89.29 88.89 91.67 100 80
由表可知,平均分类准确率为92.18%,平均分类错误率为8.88%,平均AUC为91.12%。
图2给出了选择不同特征数目下的AUC值,经观察发现,当K=10时,分类效果最好,平均AUC高达98%;并且不是选择的特征数目越多模型的分类效果越好,因为原始数据集中存在不包含鉴别信息的无关特征,本发明提出的特征选择方法剔除了冗余特征,最大化保留了有代表性的特征,在降低计算复杂度的同时提升了分类效果。
本发明实现了对医疗数据集的特征选择,通过最大化特征与标签的相关性,同时最小化特征之间的冗余性进行特征选择。特征选择的结果可解释性高,选择出的特征规模还可由用户自定义,且选择的特征规模大小在一定范围内对分类效果的影响不明显。实验证明,相比较于目前流行的医疗数据集的特征选择方法,本发明的方法在计算效率,分类准确率和选择的特征子集规模上明显更优。

Claims (5)

1.一种基于信息论的医疗数据集特征选择方法,其特征在于,包括以下步骤:
步骤1、根据待分析的医疗数据集构建原始高维数据矩阵和标签列,自定义要选取的特征个数T;其中,T小于医疗数据集的特征总数;
步骤2、根据原始高维数据矩阵和标签列,求取每个特征对称不确定性SU值;所用公式为:
Figure FDA0003686162810000011
式中,Xk表示特征fk对应的高维数据矩阵中第k列数据,y表示标签列,I(Xk,y)表示Xk与y的互信息,H(Xk)、H(y)分别表示Xk、y的信息熵,H(Xk|y)表示在y的条件下,Xk的条件熵;
步骤3、根据SU值对所有特征进行降序排列,获得待选的有序特征序列,将SU值最大的特征加入构建的初始为空的特征子集,并将其从待选的有序特征序列中剔除;
步骤4、针对待选的有序特征序列中剩余的每个特征fp,求取其对称不确定性SU值以及其与已选的所有特征关于标签列的多变量对称不确定性MSU值,结合每个特征的SU值和MSU值构建该特征对应的特征评价函数;特征评价函数为:
JMSU(Xp)=SU(Xp,y)-MSU(X1:t,y);
步骤5、利用每个特征对应的特征评价函数对该特征进行评价,将评价值最高的T-1个特征加入所述特征子集;
步骤6、根据所得特征子集从原始高维数据矩阵选择相应T个特征对应的数据构建新的医疗数据集,并结合分类器和K折交叉验证方法对所选特征子集进行评价。
2.根据权利要求1所述的基于信息论的医疗数据集特征选择方法,其特征在于,步骤1所述根据待分析的医疗数据集构建原始高维数据矩阵和标签列,具体为:
假设构建原始高维数据矩阵
Figure FDA0003686162810000012
n为医疗数据集样本总数,m为原始特征维数;矩阵M的第一列为标签列,用向量
Figure FDA0003686162810000013
表示,矩阵M除第一列之后的部分为数据矩阵,用矩阵
Figure FDA0003686162810000014
表示;所述数据矩阵的第i行表示第i个样本在所有特征下的观察值,第j列表示第j个特征的所有观察值。
3.根据权利要求1所述的基于信息论的医疗数据集特征选择方法,其特征在于,步骤4求取剩余的每个特征fp与已选的所有特征关于标签列的多变量对称不确定性MSU值,具体为:
假设已加入特征子集的特征有t个,则fp对应的MSU所用公式为:
Figure FDA0003686162810000021
其中,
Figure FDA0003686162810000022
式中,H(X1:t,y)为联合熵。
4.根据权利要求1所述的基于信息论的医疗数据集特征选择方法,其特征在于,步骤6所述根据所得特征子集从原始高维数据矩阵选择相应T个特征对应的数据构建新的医疗数据集,并结合分类器和K折交叉验证方法对所选的特征子集进行评价,具体为:
步骤6-1、随机将新的医疗数据集中的样本划分为K个样本子集;其中,正例的样本标签由+1表示,反例的样本标签由-1表示;
步骤6-2、将每一个样本子集分别作为测试集,剩余的K-1个样本子集作为训练集,训练分类器,共获得K个分类器;
步骤6-3、(1)求取每个分类器的分类准确率acc:
acc=length(find(Y_test_resu==Y_test))/length(Y_test)
式中,Y_test_resu为分类器预测的标签,Y_test为真实数据标签;
之后对所有分类器的分类准确率acc求平均,获得平均准确率
Figure FDA0003686162810000023
(2)求取每个分类器的均衡分类错误率BER:
Figure FDA0003686162810000024
式中,TP为该分类器正确预测为正例的样本的数量,FN为该分类器错误预测为反例的样本的数量,FP该分类器错误预测为正例的样本的数量,TN为该分类器正确预测为反例的样本的数量;
之后对所有分类器的均衡错误率BER求平均,获得平均均衡错误率
Figure FDA0003686162810000031
(3)求取每个分类器的AUC值,其为ROC曲线下的面积,ROC曲线的纵坐标为真正率TPR,横坐标为假正率FPR:
Figure FDA0003686162810000032
Figure FDA0003686162810000033
之后对所有分类器的AUC值求平均,获得平均
Figure FDA0003686162810000034
值;
利用上述平均准确率
Figure FDA0003686162810000035
平均均衡错误率
Figure FDA0003686162810000036
和平均
Figure FDA0003686162810000037
值即可评价特征选择效果,值越大,分类效果越好,表示选择的特征子集越优。
5.根据权利要求4所述的基于信息论的医疗数据集特征选择方法,其特征在于,所述分类器具体采用KNN分类器。
CN201910546810.XA 2019-06-24 2019-06-24 基于信息论的医疗数据集特征选择方法 Active CN110379521B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910546810.XA CN110379521B (zh) 2019-06-24 2019-06-24 基于信息论的医疗数据集特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910546810.XA CN110379521B (zh) 2019-06-24 2019-06-24 基于信息论的医疗数据集特征选择方法

Publications (2)

Publication Number Publication Date
CN110379521A CN110379521A (zh) 2019-10-25
CN110379521B true CN110379521B (zh) 2023-04-18

Family

ID=68249142

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910546810.XA Active CN110379521B (zh) 2019-06-24 2019-06-24 基于信息论的医疗数据集特征选择方法

Country Status (1)

Country Link
CN (1) CN110379521B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112802555B (zh) * 2021-02-03 2022-04-19 南开大学 一种基于mvAUC的互补差异表达基因选取方法
CN116226629B (zh) * 2022-11-01 2024-03-22 内蒙古卫数数据科技有限公司 一种基于特征贡献的多模型特征选择方法及系统
CN115440333B (zh) * 2022-11-08 2023-02-24 深圳达实旗云健康科技有限公司 数据采集过程中的数据处理方法、装置、终端设备及介质
CN115718894B (zh) * 2022-11-30 2023-11-17 江西农业大学 一种面向高维复杂数据的在线流特征选择方法
CN117894481A (zh) * 2024-03-15 2024-04-16 长春大学 基于贝叶斯超参数优化梯度提升树心脏病预测方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002059746A1 (en) * 2001-01-26 2002-08-01 Whizbang Labs Method for learning and combining global and local regularities for information extraction and classification
CN107220346A (zh) * 2017-05-27 2017-09-29 荣科科技股份有限公司 一种高维不完整数据特征选择方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002059746A1 (en) * 2001-01-26 2002-08-01 Whizbang Labs Method for learning and combining global and local regularities for information extraction and classification
CN107220346A (zh) * 2017-05-27 2017-09-29 荣科科技股份有限公司 一种高维不完整数据特征选择方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于归一化互信息的FCBF特征选择算法;段宏湘等;《华中科技大学学报(自然科学版)》;20170123(第01期);第52-56页 *

Also Published As

Publication number Publication date
CN110379521A (zh) 2019-10-25

Similar Documents

Publication Publication Date Title
CN110379521B (zh) 基于信息论的医疗数据集特征选择方法
Chen et al. Selecting critical features for data classification based on machine learning methods
Chen et al. Efficient ant colony optimization for image feature selection
US8738534B2 (en) Method for providing with a score an object, and decision-support system
JP2008546046A (ja) マハラノビスの距離の遺伝的アルゴリズムの方法及びシステム
US20080133434A1 (en) Method and apparatus for predictive modeling & analysis for knowledge discovery
CN112633601B (zh) 疾病事件发生概率的预测方法、装置、设备及计算机介质
JP7085513B2 (ja) 情報処理装置、情報処理方法、及びコンピュータプログラム
Liu et al. Feature selection based on sensitivity analysis of fuzzy ISODATA
CN107016416B (zh) 基于邻域粗糙集和pca融合的数据分类预测方法
CN115116614A (zh) 一种健康状态评估方法、装置、设备及存储介质
CN110265151B (zh) 一种基于ehr中异构时态数据的学习方法
Himani et al. A comparative study on machine learning based prediction of citations of articles
Liu et al. RETRACTED ARTICLE: Company financial path analysis using fuzzy c-means and its application in financial failure prediction
Rong et al. Exploring network behavior using cluster analysis
Fang et al. Feature-maximum-dependency-based fusion diagnosis method for COPD
Voyle et al. psychiatric epidemiology
Pan et al. Knowledge discovery in sociological databases: An application on general society survey dataset
WO2023181244A1 (ja) モデル分析装置、モデル分析方法、及び、記録媒体
US20230385664A1 (en) A computer-implemented method for deriving a data processing and inference pipeline
Cuizon Ensemble Predictive Model for Academic Churn Risk Using Plurality Voting
JP5240777B2 (ja) 文書分類装置及び文書分類方法
Carlis et al. RSQRT: An heuristic for estimating the number of clusters to report
Pollard et al. Supervised distance matrices
CN118134047A (zh) 信息预测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230109

Address after: 450000 No. 301-302, floor 3, unit 1, building 9, No. 76, Cuizhu street, high tech Industrial Development Zone, Zhengzhou, Henan Province

Applicant after: Henan Xinxing Technology Co.,Ltd.

Address before: Room 2506, Floor 25, Building 1, No. 188, Section 2, Renmin North Road, Jinniu District, Chengdu, Sichuan 610,000

Applicant before: Sichuan Chaoyihong Technology Co.,Ltd.

Effective date of registration: 20230109

Address after: Room 2506, Floor 25, Building 1, No. 188, Section 2, Renmin North Road, Jinniu District, Chengdu, Sichuan 610,000

Applicant after: Sichuan Chaoyihong Technology Co.,Ltd.

Address before: 210094 Xuanwu District, Jiangsu, Xiaolingwei 200, Nanjing

Applicant before: NANJING University OF SCIENCE AND TECHNOLOGY

GR01 Patent grant
GR01 Patent grant