CN105938523A - 一种基于特征辨识度和独立性的特征选择方法及应用 - Google Patents

一种基于特征辨识度和独立性的特征选择方法及应用 Download PDF

Info

Publication number
CN105938523A
CN105938523A CN201610196013.XA CN201610196013A CN105938523A CN 105938523 A CN105938523 A CN 105938523A CN 201610196013 A CN201610196013 A CN 201610196013A CN 105938523 A CN105938523 A CN 105938523A
Authority
CN
China
Prior art keywords
feature
gene
independence
score
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610196013.XA
Other languages
English (en)
Other versions
CN105938523B (zh
Inventor
谢娟英
王明钊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaanxi Normal University
Original Assignee
Shaanxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaanxi Normal University filed Critical Shaanxi Normal University
Priority to CN201610196013.XA priority Critical patent/CN105938523B/zh
Publication of CN105938523A publication Critical patent/CN105938523A/zh
Application granted granted Critical
Publication of CN105938523B publication Critical patent/CN105938523B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Epidemiology (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种基于特征辨识度与独立性的特征选择方法和应用,其是以特征辨识度度量特征的类间判别能力,以特征独立性度量特征间的相关关系,计算出每个特征的重要度值,并按照降序排列,选择重要度远高于其余特征重要度的前k个特征构成类别区分性能高的特征子集,在肿瘤基因表达谱数据应用中所选择的差异表达基因子集获得较好的时间性能和类别区分性能,本发明计算简单,时间复杂度低,选择效率高,为肿瘤等疾病在临床上的诊断和判别提供参考。

Description

一种基于特征辨识度和独立性的特征选择方法及应用
技术领域
本发明涉及基于特征辨识度和独立性的特征选择方法及其在肿瘤基因表达谱数据中的应用,具体涉及针对生物信息学肿瘤表达谱基因数据挖掘分析的预处理技术领域,是一种针对肿瘤基因表达谱的基因选择方法。
背景技术
含有大量冗余和无关特征的高维数据的涌现,给机器学习和数据挖掘算法带来巨大挑战。特征选择在保持数据分类能力不变前提下,从原始特征集中选择与类别高度相关、相互间尽可能不相关且蕴含原始特征集合大部分或全部分类信息的特征构成特征子集,使建立在该特征子集的分类模型更精确和易理解,有较好解释性,泛化能力好,计算效率高,同时降低了“维数灾难”对算法的影响,使数据分析结果可视化成为可能。
微阵列技术一次性可以获取大量的表达基因,为肿瘤等疾病提供了全新的治疗手段。然而,基因表达谱数据具有高维小样本特点,且存在大量冗余和不相关基因,给基因数据集的分类分析和疾病的诊断带来影响。特征(基因)选择可以从成千上万的基因中剔除冗余和与疾病分类不相关的基因,保留具有高类别区分能力的基因,这不但可以提高疾病的分类识别和预测的准确率,降低疾病诊断时间,减少临床诊断费用,并可促进相应药物的研发,具有重要的生物学意义。
特征选择算法研究主要包括两部分:特征子集搜索和特征子集评估。不同特征搜索策略导致了不同特征选择方法。依据特征选择过程与训练分类模型的学习算法的依赖关系,特征选择算法分为Filter方法和Wrapper方法两大类。Filter方法独立于学习过程,直接根据某种特征评价准则定义特征重要度,选择重要特征构成特征子集,该方法计算效率高、泛化性能好,适用于大规模高维度空间的特征选择任务。Relief、CFS(Correlation based Feature Selector)和mRMR(maximal relevance-minimal redundancy)是经典的Filter特征选择方法。由于Filter方法自身的特点,大部分基于Filter方法的特征选择方法在评价特征重要度时,认为每个特征都是孤立的,并没有考虑到特征间的相关或冗余关系,如卡方检验、相似性度量、信息增益、混信息、Relief和AUC等特征评价准则。为了改善Filter方法中的缺陷和不足,同时保留其效率高、泛化性能好的优点,Guyou等人提出最大相关最小冗余的方法,Wang等人基于层次聚类的方法和Song等基于无向完全图的方法等都取得不错的效果。
Wrapper方法依赖于学习过程,特征子集产生过程依据建立在相应特征子集的分类模型在验证集的性能来完成,一般会选择到比Filter方法性能更优、规模更小的特征子集,但需多次训练分类模型,时间开销大,且在小样本数据集上易产生“过拟合”问题。SVM-RFE(SVM Recursive Feature Elimination)和SVM-SFS(SVM Sequential Forward Search)属于Wrapper方法,且在基因数据集上都取得不错分类效果。集成Filter方法的高效和Wrapper方法的准确于一起的混合特征选择方法能得到更优特征子集,且时间复杂度和Filter相近,是特征选择研究的一个热点。
发明内容
本发明针对特征选择方法中现有技术的缺陷和不足以及在高维数据中存在的时间瓶颈问题,提出了一种基于特征辨识度和独立性的特征选择方法,计算时间复杂度低、选择效率高,尤其对高维、小样本的基因表达谱数据具有较好的时间性能和分类效果。
同时将该方法应用到肿瘤基因表达谱数据中,有效选择基因子集,为医学界提供有效的信息参考。
本发明为了实现上述目的所采用的技术方案是该基于特征辨识度与独立性的特征选择方法由以下步骤组成:
(1)计算每个特征的辨识度
根据特征权重计算方法计算出数据集D中每个特征的权重wi,该数据集表示为D={X1;X2;…;Xm}∈Rm×n,其中包含m个样本,每个样本的特征数为n,第i个特征为fi,1≤i≤n;利用权重wi计算出每个特征的辨识度disi,表达为:
disi=wi
(2)计算每个特征的独立性
根据步骤(1)所计算的每个特征的辨识度disi,利用计算出数据集D中每个特征的独立性indi,其中r为特征间Pearson相关系数绝对值,fi为第i个特征,fj为第j个特征,1≤j≤n,且j≠i;
(3)计算特征的重要度Score
利用步骤(1)所得每个特征的辨识度disi和步骤(2)所得每个特征的独立性indi,根据下式计算出每个特征的重要度Scorei
Scorei=disi×indi
(4)确定特征子集
根据每个特征的重要度Scorei,对数据集D中的所有特征的重要度值降序排列,选取其中重要度明显高于其余特征重要度的前k个特征,1<k<n,组成包含有k个优选特征的特征子集。
上述步骤(1)中特征权重计算方法具体可以选择以下方法之一:
1)Wilcoxon秩和检验方法
利用计算出数据集D中每个特征的Wilcoxon秩和检验值,其中是判别函数,分别表示第v1和v个样本的第fi个特征值,若成立,则取值为1,否则取值0;N0,N1分别代表二类数据集中每类样本的个数;
根据所得Wilcoxon秩和检验值利用wi=max[N0*N1-S(fi),S(fi)]计算出每个特征对应的权值wi
2)D-Score方法
对数据集D中每个特征的权重计算方法定义为下式:
D i = Σ j ′ = 1 c ( x ‾ i ( j ′ ) - x ‾ i ) 2 x ‾ i Σ j ′ = 1 c 1 n j ′ - 1 Σ v = 1 n j ( x v , i ( j ′ ) - x ‾ i ( j ′ ) ) 2 x ‾ i ( j ′ )
其中,Di表示数据集D中第fi个特征的D-Score值,即第fi个特征的权重,c为数据集的类别个数,分别为第i个特征在整个数据集和第j'类数据集上的均值,为第j'类中第v个样本点在第i个特征的特征值,nj'表示第j'类数据集上的样本个数;
3)基于互信息的方法
互信息用于评价两个特征之间或特征与类标的相关性,计算公式如下:
I(fi,Y)=H(Y)-H(Y|fi)
其中,Y表示数据集D的类标向量;I(fi,Y)表示数据集D中每个特征与类标向量Y之间的互信息值,即特征fi的权重;H(Y)为类标向量Y的信息熵;H(Y|fi)为在特征fi取值确定条件下类标向量Y的信息熵;
4)基于对称不确定性的方法
基于对称不确定性方法的计算公式如下:
S U ( f i , Y ) = 2 × I ( f i , Y ) H ( f i ) + H ( Y )
其中,SU(fi,Y)表示数据集中特征fi的对称不确定性值,即特征权重;I(fi,Y)表示数据集D中每个特征与类标向量Y之间的互信息值;H(fi)和H(Y)分别表示每个特征的信息熵和类标向量的信息熵。
上述步骤(2)中特征间Pearson相关系数绝对值r的计算方法为:
r ≡ | ( X 1 - X ‾ 1 ) T ( Y 1 - Y ‾ 1 ) | | | X 1 - X ‾ 1 | | 2 | | Y 1 - Y ‾ 1 | | 2
式(4)中,X1,Y1表示两个待求相关系数的特征向量,是特征向量X1的均值,表示特征向量Y1的均值。
上述步骤(3)具体可以是:以步骤(1)所得的辨识度为横坐标,步骤(2)的独立性为纵坐标,确定出每个特征在坐标轴中的位置,即构造特征独立性与辨识度散点图,则每个特征对应的重要度Scorei即为辨识度与独立性所围成的矩形面积,表示为:
Scorei=disi×indi
上述步骤(4)具体可以是:以每个特征的重要度Scorei为纵轴、特征的个数为横轴建立坐标,描绘出每个特征在坐标中的位置,即得到重要度值降序排列所得的特征点集,沿着纵坐标自上而下选取前k个特征点,组成优选特征子集。
上述的基于特征辨识度和独立性的特征选择方法可以在肿瘤基因表达谱数据中的应用,其具体的实现方法包括以下步骤:
(1)将肿瘤基因表达谱数据按照下式的最大最小化方法进行基因标准化,记D={X1;X2;…;Xm}∈Rm×n,其中包含m个样本,每个样本的基因数为n,第i个基因表示为fi,1≤i≤n;
g i , v = g i . v - m i n ( g i ) m a x ( g i ) - min ( g i )
其中,gi,v表示第i个基因在第v个样本上的表达值,max(gi)表示第i个基因的最大值,min(gi)表示第i个基因的最小值;
(2)将标准化后的基因数据集划分为训练集和测试集,用Wilcoxon秩和检验方法度量训练集中每个基因的权值,并用K-means聚类分析,从各类簇中保留权重大于该簇平均特征权重的基因,构成预选择基因子集,即{f1,f2,…,ft,…,fl},其中,
(3)根据步骤(2)的预选择基因子集中每个基因对应的权重值计算出每个基因对应的辨识度,表示为:
disi=wi
(4)根据步骤(3)所计算的每个基因对应的辨识度disi,利用计算出数据集中对应基因的独立性,其中r为特征间Pearson相关系数绝对值,fi为第i个基因,fj为第j个基因,1≤j≤n,且j≠i;
(5)利用步骤(3)所得每个特征的辨识度disi和步骤(4)所得每个特征的独立性indi,根据下式计算出预选择基因子集中每个基因对应的重要度Scorei
Scorei=disi×indi
(6)依据每个基因的重要度值序列{Score1,Score2,…,Scoret,…,Scorel},对其进行降序排序,得到新的基因重要度值序列{Scorep1,Scorep2,…,Scorept,…,Scorepl},此时对应的基因重要度序列为{fp1,fp2,…,fpt,…,fpl},选取前k个重要度远大于其余基因重要度的优选基因组成基因子集,即{fp1,fp2,fp3,…,fpk},其中
上述步骤(6)之后还可以包括步骤(7),具体是:根据最终基因子集获取降维后的训练数据集将该训练数据集与测试数据集作为SVM分类器的输入数据,测试该最终基因子集分类性能。
步骤(2)中划分基因数据集的方法采用bootstrap方法或k-折交叉验证法。
与已有技术相比,本发明的有益效果主要是:
(1)本发明提出的基于特征辨识度和独立性的特征选择方法,属于特征选择方法中的Filter方法,在克服Filter方法因自身特点而没有考虑特征间冗余和与分类分析任务不相关特征的同时,还保留了该方法效率高的特性。
(2)本发明提出的特征选择方法采用Wilcoxon秩和检验技术度量特征权重,采用K-means聚类技术对特征进行聚类,根据同一类簇内特征相关性高、不同类簇内相关性低的特点,将部分高度冗余特征识别并删除。一方面,可以降低冗余或噪音特征对实验结果的影响,另一方面,可以降低数据维度,加快特征选择过程。
(3)本发明提出的特征选择方法定义特征辨识度来度量特征的类别区分能力,定义特征独立性度量特征间的相关性,并将特征重要度在二维坐标系中以辨识度、独立性与坐标系所围矩形面积来表示,使得任意维度、任意空间分布的特征重要度均可在2维空间展示。
(4)本发明提出的特征选择方法时间复杂度低,解决现有特征选择方法的时间瓶颈问题,尤其对高维、小样本的基因表达谱数据具有较好的时间性能和分类效果,为肿瘤等疾病在临床上的诊断和判别提供参考。
附图说明
图1为本发明特征选择方法在实施例1中数据集上的特征对应所围矩形面积的散点图表示。
图2为本发明特征选择方法在实施例1中数据集上的特征重要度降序排序结果的散点图表示。
图3为本发明提出的基于特征辨识度和独立性的特征选择方法在肿瘤基因表达谱数据中应用的流程图。
图4为本发明特征选择方法在CNS基因数据集上的平均分类准确率曲线图。
图5为本发明特征选择方法在CNS基因数据集上的平均AUC值曲线图。
具体实施方式
以下结合附图和具体实施例对本发明技术方案作进一步说明。
实施例1
本实施例基于特征辨识度和独立性的特征选择方法由如下步骤实现:
(1)随机生成符合正态分布的第一类数据集D1,表示为D1={X1;X2;…;X10}∈R10×50,随机生成符合正态分布的第二类数据集D2,表示为D2={X11;X12;…;X20}∈R10×50,数据集D1和D2都分别包含10个样本,每个样本有50个特征。将数据集D1和D2合并为数据集D,表示为D={X1;X2;…;X20}∈R20×50,其中包含20个样本,分布在2个类别中,每个样本包含有50个特征,之后利用bootstrap方法划分数据集,得到训练集和测试集。
(2)计算每个特征的辨识度
(2.1)利用Wilcoxon秩和检验方法计算出数据集D中每个特征的权重wi,具体是:
利用公式计算出数据集D中每个特征的Wilcoxon秩和检验值;其中是判别函数,分别表示第v1和v个样本在第fi个特征值,若成立,则取值为1,否则取值0;N0,N1分别代表二类数据集中每类样本的个数,第i个特征为fi
根据所得Wilcoxon秩和检验值利用wi=max[N0*N1-S(fi),S(fi)]计算出每个特征对应的权值wi,1≤i≤n;
(2.2)根据每个特征的权重wi计算出每个特征对应的辨识度disi,表达为:
disi=wi
(3)计算每个特征的独立性
根据步骤(1)所计算的每个特征对应的辨识度disi,利用计算出数据集D中每个特征的独立性indi
其中:fi为第i个特征,fj为第j个特征,1≤j≤n,且j≠i,r为特征间Pearson相关系数绝对值,其具体的计算方法为:
r ≡ | ( X 1 - X ‾ 1 ) T ( Y 1 - Y ‾ 1 ) | | | X 1 - X ‾ 1 | | 2 | | Y 1 - Y ‾ 1 | | 2
式(4)中,X1,Y1表示两个待求相关系数的特征向量,是特征向量X1的均值,表示特征向量Y1的均值。
(4)计算特征的重要度Score
以步骤(1)所得的辨识度为横坐标,步骤(2)的独立性为纵坐标,确定出每个特征在坐标轴中的位置,即构造特征独立性与辨识度散点图,如图1,则每个特征对应的重要度Scorei即为辨识度与独立性所围成的矩形面积,表示为:
Scorei=disi×indi
(5)确定特征子集
以每个特征的重要度Scorei为纵轴、特征的个数为横轴建立坐标,描绘出每个特征在坐标中的位置,即图2所示,即得到重要度值降序排列所得的特征点集,沿着纵坐标自上而下选取前k个特征点,组成优选特征子集。
本实施例中,通过度量准则Score度量特征重要性,分类性能好的特征其得分较高,冗余或噪音特征得分较低。将50个特征的重要度Score以其对应的辨识度、独立性与二维坐标系的坐标轴所围矩形面积的散点图表示,其效果图如图1所示。特征重要度的降序排序结果在二维坐标系中的散点图表示如图2所示。如图1图2所示,50个特征中,第48,39和26个特征具有较好的类别区分性能,以此作为最终特征子集。
将得到的最终特征子集对应的训练集和测试集在SVM分类器中训练和测试,可以得到100%完全正确分类的效果,而且当特征子集规模为1(第48个特征)和2(第48和39个特征)时,在SVM分类器中的分类正确率为74.72%和89.81%,说明本发明中提供的特征选择方法所选择的特征子集具有较好的分类性能。
Kruskal Wallis秩和检验是对Wilcoxon秩和检验的扩展,当对于多类的数据集时,可以采用Kruskal Wallis秩和检验法计算特征权重。
实施例2
本实施例的步骤(2)中,数据集D中每个特征的权重wi的计算方法还可以用D-Score方法进行计算,D-Score是一种基于类内、类间距离的特征权重计算方法,具体计算公式如下:
D i = Σ j ′ = 1 c ( x ‾ i ( j ′ ) - x ‾ i ) 2 x ‾ i Σ j ′ = 1 c 1 n j ′ - 1 Σ v = 1 n j ( x v , i ( j ′ ) - x ‾ i ( j ′ ) ) 2 x ‾ i ( j ′ )
其中,Di表示数据集D中第fi个特征的D-Score值,即第fi个特征的权重,c为数据集的类别个数,分别为第i个特征在整个数据集和第j'类数据集上的均值,为第j'类中第v个样本点在第i个特征的特征值。
其他的步骤与实施例1相同。
实施例3
本实施例的步骤(2)中,数据集D中每个特征的权重wi的计算方法还可以用基于互信息的方法进行计算,互信息用于评价两个特征之间或特征与类标的相关性,计算公式如下:
I(fi,Y)=H(Y)-H(Y|fi)
其中,Y表示数据集的类标向量;I(fi,Y)表示数据集中特征fi与类标向量Y之间的互信息值,即特征fi的权重;H(Y)为类标向量Y的信息熵;H(Y|fi)为在特征fi取值确定条件下类标向量Y的信息熵。
对于连续型特征来说,需提前对其进行离散化。
其他的步骤与实施例1相同。
实施例4
本实施例的步骤(2)中,数据集D中每个特征的权重wi的计算方法还可以用基于对称不确定性的方法进行计算,对称不确定性方法可以避免在利用互信息方法计算特征权重时会更倾向于选择那些取值点更分散的特征,其计算公式如下:
S U ( f i , Y ) = 2 × I ( f i , Y ) H ( f i ) + H ( Y )
其中,SU(fi,Y)表示数据集中特征fi的权重;I(fi,Y)表示数据集中特征fi与类标向量Y之间的互信息值;H(fi)和H(Y)分别表示每个特征的信息熵和类标向量的信息熵。
其他的步骤与实施例1相同。
上述实施例1~4所记载的基于特征辨识度和独立性的特征选择方法可以在肿瘤基因表达谱数据中的应用,具体如下:
本实施例中,将本发明提供的基于特征辨识度和独立性的特征选择方法应用于于肿瘤基因表达谱数据集的分类分析中,具体应用数据集D为二类数据集,其中包括结肠癌Colon、中枢神经系统胚胎细胞瘤CNS(Central Nervous SystemEmbryonal Tumor)、白血病Leukemia、上皮细胞癌Carcinoma和乳腺癌BreastCancer疾病基因数据集,各基因数据集具体信息如表1所示。
表1基因数据集信息描述
下面以数据集CNS为例,参见图3,具体的实现步骤为:
(1)将CNS基因表达谱数据按照下式的最大最小化方法进行基因标准化,记D={X1;X2;…;X62}∈R90×7129,其中包含90个样本,每个样本的基因数为7129,第i个基因表示为fi(1≤i≤7129)。
g i , v = g i . v - m i n ( g i ) m a x ( g i ) - min ( g i )
其中,gi,v表示第i个基因在第v个样本上的表达值,max(gi)表示第i个基因的最大值,min(gi)表示第i个基因的最小值;
(2)将标准化后的基因数据集使用bootstrap方法划分为训练集和测试集,假设训练集中样本个数为m1,测试集中样本个数为m2;用Wilcoxon秩和检验方法度量训练集中每个基因的权值,然后用K-means聚类分析,从各类簇中保留权重大于该簇平均特征权重的基因,构成预选择基因子集,即{f1,f2,…,ft,…,fl},其中,
(3)根据步骤(2)的预选择基因子集中每个基因对应的权重值计算出每个基因对应的辨识度,表示为:
disi=wi
(4)根据步骤(3)所计算的每个基因对应的辨识度,利用计算出数据集中对应基因的独立性,其中r为特征间Pearson相关系数绝对值,fi为第i个基因,fj为第j个基因;
(5)利用步骤(3)所得每个特征的辨识度和步骤(4)所得每个特征的独立性,根据下式计算出预选择基因子集中每个基因对应的重要度值;
Scorei=disi×indi
(6)依据每个基因的重要度值序列{Score1,Score2,…,Scoret,…,Scorel},对其进行降序排序,得到新的基因重要度值序列{Scorep1,Scorep2,…,Scorept,…,Scorepl},此时对应的基因重要度序列为{fp1,fp2,…,fpt,…,fpl},选取前50个具有最大Score的基因作为最终基因子集,即{fp1,fp2,fp3,…,fp50},其中
(7)根据最终基因子集获取降维后的训练数据集将该训练数据集与测试数据集作为SVM分类器的输入数据,测试该最终基因子集分类性能。
上述步骤(2)在标准化后的基因数据集还可以采用k-折交叉验证法进行划分,k-折交叉验证法和bootstrap方法均属于常规的数据集划分方法。
为了验证本发明的有益效果,并将本发明提供的基因选择方法与常用的Weight、mRMR、SVM-RFE、Relief和ARCO算法进行比较,其中:
1、Weight是一种基于权重策略与K-means聚类方法的特征选择方法,是集Filter方法和Wrapper方法的混合特征选择方法。
2、mRMR方法基于理想的特征子集,不仅满足特征和类标的相关性尽可能大,而且满足特征子集中的特征之间冗余度尽可能低的思想,利用互信息度量特征与类标和特征之间的相关性来实现特征选择。
3、SVM-RFE是一种典型的Wrapper方法,利用支持向量机权重向量对特征重要性进行评估,并从原始数据集中逐个剔除对分类器贡献小的特征,保留下的特征即为最优特征子集。
4、Relief方法假设相互靠近且同类的样本之间应彼此相似,而相互靠近但不同类的样本应相当不同,是一种特征权重算法,利用各个特征和类别的相关性度量特征不同的权重,权重小于某个阈值的特征将被移除。
5、ARCO是基于AUC最大化与mRMR框架的特征选择方法,使得所选特征子集中特征不仅具有较强的分类性能,且相互之间冗余度低。
将本发明的步骤重复运行100次,基因子集的分类性能以平均正确率和平均AUC(Area under an ROC curve,Receiver operating characteristic curve,ROC)值来评价,得到6种方法随基因子集规模大小而变化的平均正确率Acc和平均AUC曲线图,分别如图4和图5所示。
从图4和图5中实验结果可以看出:本发明提供的基因选择方法在CNS基因数据集的应用上得到了较好的分类效果,在所选基因子集规模大于10时,本发明中的基因选择方法所选基因子集的分类性能最优,当所选基因子集规模小于10时,从图4可见,本发明中基因选择方法所选基因子集的分类性能和对比算法Weight、mRMR和ARCO相当,均优于SVM-RFE和Relief算法;从图5可见,本发明中基因选择方法所选基因子集的分类性能仅次于ARCO算法。
将本发明提供所提供特征选择方法和其它5种方法的平均运行时间进行比较,结果如表2所示。
表2 6种特征选择方法在CNS基因数据集上的平均运行时间比较
从表2本发明中基因选择方法和其它5种对比方法的平均时间对比可见,本发明中基因选择方法在CNS数据集上运行一次的平均时间仅为0.31秒,其效率性能均优于其它对比方法。
综上所述,本发明提出的特征选择方法可以选择出有效的特征区分子集,并且具有较好的时间性能,尤其在肿瘤基因表达谱数据的应用中,其对应的基因子集具有较高的分类效果和时间性能,为肿瘤等疾病的诊断研究和药物研发提供技术支持和理解手段,具有重要的生物学意义。

Claims (9)

1.一种基于特征辨识度与独立性的特征选择方法,其特征在于由以下步骤组成:
(1)计算每个特征的辨识度
根据特征权重计算方法计算出数据集D中每个特征的权重wi,该数据集表示为D={X1;X2;…;Xm}∈Rm×n,其中包含m个样本,每个样本的特征数为n,第i个特征为fi,1≤i≤n;利用权重wi计算出每个特征的辨识度disi,表达为:
disi=wi
(2)计算每个特征的独立性
根据步骤(1)所计算的每个特征的辨识度disi,利用计算出数据集D中每个特征的独立性indi,其中r为特征间Pearson相关系数绝对值,fi为第i个特征,fj为第j个特征,1≤j≤n,且j≠i;
(3)计算特征的重要度Score
利用步骤(1)所得每个特征的辨识度disi和步骤(2)所得每个特征的独立性indi,根据下式计算出每个特征的重要度Scorei
Scorei=disi×indi
(4)确定特征子集
根据每个特征的重要度Scorei,对数据集D中的所有特征的重要度值降序排列,选取其中重要度明显高于其余特征重要度的前k个特征,1<k<n,组成包含有k个优选特征的特征子集。
2.根据权利要求1所述的基于特征辨识度和独立性的特征选择方法,其特征在于步骤(1)中所述的特征权重计算方法具体是以下方法之一:
1)Wilcoxon秩和检验方法
利用计算出数据集D中每个特征的Wilcoxon秩和检验值,其中χ(·)是判别函数,分别表示第v1和v个样本的第fi个特征值,若成立,则χ(·)取值为1,否则取值0;N0,N1分别代表二类数据集中每类样本的个数;
根据所得Wilcoxon秩和检验值利用wi=max[N0*N1-S(fi),S(fi)]计算出每个特征对应的权值wi
2)D-Score方法
对数据集D中每个特征的权重计算方法定义为下式:
D i = Σ j ′ = 1 c ( x ‾ i ( j ′ ) - x ‾ i ) 2 x ‾ i Σ j ′ = 1 c 1 n j ′ - 1 Σ v = 1 n j ( x v , i ( j ′ ) - x ‾ i ( j ′ ) ) 2 x ‾ i ( j ′ )
其中,Di表示数据集D中第fi个特征的D-Score值,即第fi个特征的权重,c为数据集的类别个数,分别为第i个特征在整个数据集和第j'类数据集上的均值,为第j'类中第v个样本点在第i个特征的特征值,nj'表示第j'类数据集上的样本个数;
3)基于互信息的方法
互信息用于评价两个特征之间或特征与类标的相关性,计算公式如下:
I(fi,Y)=H(Y)-H(Y|fi)
其中,Y表示数据集D的类标向量;I(fi,Y)表示数据集D中每个特征与类标向量Y之间的互信息值,即特征fi的权重;H(Y)为类标向量Y的信息熵;H(Y|fi)为在特征fi取值确定条件下类标向量Y的信息熵;
4)基于对称不确定性的方法
基于对称不确定性方法的计算公式如下:
S U ( f i , Y ) = 2 × I ( f i , Y ) H ( f i ) + H ( Y )
其中,SU(fi,Y)表示数据集中特征fi的对称不确定性值,即特征权重;I(fi,Y)表示数据集D中每个特征与类标向量Y之间的互信息值;H(fi)和H(Y)分别表示每个特征的信息熵和类标向量的信息熵。
3.根据权利要求1所述的基于特征辨识度和独立性的特征选择方法,其特征在于所述步骤(2)中特征间Pearson相关系数绝对值r的计算方法为:
r ≡ | ( X 1 - X ‾ 1 ) T ( Y 1 - Y ‾ 1 ) | | | X 1 - X ‾ 1 | | 2 | | Y 1 - Y ‾ 1 | | 2
式(4)中,X1,Y1表示两个待求相关系数的特征向量,是特征向量X1的均值,表示特征向量Y1的均值。
4.根据权利要求1所述的基于特征辨识度和独立性的特征选择方法,其特征在于所述步骤(3)具体是:以步骤(1)所得的辨识度为横坐标,步骤(2)的独立性为纵坐标,确定出每个特征在坐标轴中的位置,即构造特征独立性与辨识度散点图,则每个特征对应的重要度Scorei即为辨识度与独立性所围成的矩形面积,表示为:
Scorei=disi×indi
5.根据权利要求1所述的基于特征辨识度和独立性的特征选择方法,其特征在于所述步骤(4)具体是:以每个特征的重要度Scorei为纵轴、特征的个数为横轴建立坐标,描绘出每个特征在坐标中的位置,即得到重要度值降序排列所得的特征点集,沿着纵坐标自上而下选取前k个特征点,组成优选特征子集。
6.权利要求1所述的基于特征辨识度和独立性的特征选择方法在肿瘤基因表达谱数据中的应用。
7.根据权利要求6所述的基于特征辨识度和独立性的特征选择方法在肿瘤基因表达谱数据中的应用,其具体的实现方法包括以下步骤:
(1)将肿瘤基因表达谱数据按照下式的最大最小化方法进行基因标准化,记D={X1;X2;…;Xm}∈Rm×n,其中包含m个样本,每个样本的基因数为n,第i个基因表示为fi,1≤i≤n;
g i , v = g i , v - m i n ( g i ) m a x ( g i ) - min ( g i )
其中,gi,v表示第i个基因在第v个样本上的表达值,max(gi)表示第i个基因的最大值,min(gi)表示第i个基因的最小值;
(2)将标准化后的基因数据集划分为训练集和测试集,用Wilcoxon秩和检验方法度量训练集中每个基因的权值,并用K-means聚类分析,从各类簇中保留权重大于该簇平均特征权重的基因,构成预选择基因子集,即{f1,f2,…,ft,…,fl},其中,l<<n;
(3)根据步骤(2)的预选择基因子集中每个基因对应的权重值计算出每个基因对应的辨识度,表示为:
disi=wi
(4)根据步骤(3)所计算的每个基因对应的辨识度disi,利用计算出数据集中对应基因的独立性,其中r为特征间Pearson相关系数绝对值,fi为第i个基因,fj为第j个基因,1≤j≤n,且j≠i;
(5)利用步骤(3)所得每个特征的辨识度disi和步骤(4)所得每个特征的独立性indi,根据下式计算出预选择基因子集中每个基因对应的重要度Scorei
Scorei=disi×indi
(6)依据每个基因的重要度值序列{Score1,Score2,…,Scoret,…,Scorel},对其进行降序排序,得到新的基因重要度值序列
{Scorep1,Scorep2,…,Scorept,…,Scorepl},此时对应的基因重要度序列为
{fp1,fp2,…,fpt,…,fpl},选取前k个重要度远大于其余基因重要度的优选基因组成基因子集,即{fp1,fp2,fp3,…,fpk},其中k<<l。
8.根据权利要求7所述的基于特征辨识度和独立性的特征选择方法在肿瘤基因表达谱数据中的应用,其特征在于,所述步骤(6)之后还包括步骤(7),具体是:
根据最终基因子集获取降维后的训练数据集将该训练数据集与测试数据集作为SVM分类器的输入数据,测试该最终基因子集分类性能。
9.根据权利要求7所述的基于特征辨识度和独立性的特征选择方法在肿瘤基因表达谱数据中的应用,其特征在于步骤(2)中划分基因数据集的方法采用bootstrap方法或k-折交叉验证法。
CN201610196013.XA 2016-03-31 2016-03-31 基于特征辨识度和独立性的基因选择方法 Expired - Fee Related CN105938523B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610196013.XA CN105938523B (zh) 2016-03-31 2016-03-31 基于特征辨识度和独立性的基因选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610196013.XA CN105938523B (zh) 2016-03-31 2016-03-31 基于特征辨识度和独立性的基因选择方法

Publications (2)

Publication Number Publication Date
CN105938523A true CN105938523A (zh) 2016-09-14
CN105938523B CN105938523B (zh) 2017-09-22

Family

ID=57151966

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610196013.XA Expired - Fee Related CN105938523B (zh) 2016-03-31 2016-03-31 基于特征辨识度和独立性的基因选择方法

Country Status (1)

Country Link
CN (1) CN105938523B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977413A (zh) * 2017-11-22 2018-05-01 深圳市牛鼎丰科技有限公司 用户数据的特征选择方法、装置、计算机设备和存储介质
CN108763873A (zh) * 2018-05-28 2018-11-06 苏州大学 一种基因分类方法及相关设备
CN109817332A (zh) * 2019-02-28 2019-05-28 南京信息工程大学 基于ct放射组学的胰腺神经内分泌肿瘤的分级方法
CN109840554A (zh) * 2018-12-26 2019-06-04 贵州联科卫信科技有限公司 一种基于svm-rfe-mrmr算法的阿兹海默症mri图像分类方法
CN110097975A (zh) * 2019-04-28 2019-08-06 湖南省蓝蜻蜓网络科技有限公司 一种基于多模型融合的医院感染智能诊断方法及系统
CN110210559A (zh) * 2019-05-31 2019-09-06 北京小米移动软件有限公司 对象筛选方法及装置、存储介质
CN112802555A (zh) * 2021-02-03 2021-05-14 南开大学 一种基于mvAUC的互补差异表达基因选取方法
CN113160881A (zh) * 2021-05-14 2021-07-23 东北大学 一种基于mRMR和MBFA的高维数据特征选择方法
CN114266396A (zh) * 2021-12-21 2022-04-01 国网天津市电力公司 一种基于电网特征智能筛选的暂态稳定判别方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109636248A (zh) * 2019-01-15 2019-04-16 清华大学 适用于电力系统暂态稳定评估的特征选择方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110246409A1 (en) * 2010-04-05 2011-10-06 Indian Statistical Institute Data set dimensionality reduction processes and machines
CN102629305A (zh) * 2012-03-06 2012-08-08 上海大学 一种面向snp数据的特征选择方法
CN104200135A (zh) * 2014-08-30 2014-12-10 北京工业大学 基于MFA score和排除冗余的基因表达谱特征选择方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110246409A1 (en) * 2010-04-05 2011-10-06 Indian Statistical Institute Data set dimensionality reduction processes and machines
CN102629305A (zh) * 2012-03-06 2012-08-08 上海大学 一种面向snp数据的特征选择方法
CN104200135A (zh) * 2014-08-30 2014-12-10 北京工业大学 基于MFA score和排除冗余的基因表达谱特征选择方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977413A (zh) * 2017-11-22 2018-05-01 深圳市牛鼎丰科技有限公司 用户数据的特征选择方法、装置、计算机设备和存储介质
CN108763873A (zh) * 2018-05-28 2018-11-06 苏州大学 一种基因分类方法及相关设备
CN109840554A (zh) * 2018-12-26 2019-06-04 贵州联科卫信科技有限公司 一种基于svm-rfe-mrmr算法的阿兹海默症mri图像分类方法
CN109840554B (zh) * 2018-12-26 2023-05-02 贵州联科卫信科技有限公司 一种基于svm-rfe-mrmr算法的阿兹海默症mri图像分类方法
CN109817332A (zh) * 2019-02-28 2019-05-28 南京信息工程大学 基于ct放射组学的胰腺神经内分泌肿瘤的分级方法
CN110097975A (zh) * 2019-04-28 2019-08-06 湖南省蓝蜻蜓网络科技有限公司 一种基于多模型融合的医院感染智能诊断方法及系统
CN110210559B (zh) * 2019-05-31 2021-10-08 北京小米移动软件有限公司 对象筛选方法及装置、存储介质
CN110210559A (zh) * 2019-05-31 2019-09-06 北京小米移动软件有限公司 对象筛选方法及装置、存储介质
CN112802555A (zh) * 2021-02-03 2021-05-14 南开大学 一种基于mvAUC的互补差异表达基因选取方法
CN112802555B (zh) * 2021-02-03 2022-04-19 南开大学 一种基于mvAUC的互补差异表达基因选取方法
CN113160881A (zh) * 2021-05-14 2021-07-23 东北大学 一种基于mRMR和MBFA的高维数据特征选择方法
CN113160881B (zh) * 2021-05-14 2023-10-20 东北大学 一种基于mRMR和MBFA的高维数据特征选择方法
CN114266396A (zh) * 2021-12-21 2022-04-01 国网天津市电力公司 一种基于电网特征智能筛选的暂态稳定判别方法

Also Published As

Publication number Publication date
CN105938523B (zh) 2017-09-22

Similar Documents

Publication Publication Date Title
CN105938523A (zh) 一种基于特征辨识度和独立性的特征选择方法及应用
Jörnsten Clustering and classification based on the L1 data depth
Jin et al. Machine learning techniques and chi-square feature selection for cancer classification using SAGE gene expression profiles
Sachdeva et al. A systematic method for breast cancer classification using RFE feature selection
CN106202952A (zh) 一种基于机器学习的帕金森疾病诊断方法
CN106683081A (zh) 基于影像组学的脑胶质瘤分子标记物无损预测方法和预测系统
CN108351985A (zh) 用于大规模机器学习的方法和装置
CN105069470A (zh) 分类模型训练方法及装置
CN105160400A (zh) 基于l21范数的提升卷积神经网络泛化能力的方法
CN104966106B (zh) 一种基于支持向量机的生物年龄分步预测方法
Karim et al. OncoNetExplainer: explainable predictions of cancer types based on gene expression data
CN114469120B (zh) 一种基于相似度阈值迁移的多尺度Dtw-BiLstm-Gan心电信号生成方法
Kianmehr et al. Fuzzy clustering-based discretization for gene expression classification
CN109559781A (zh) 一种预测dna-蛋白质结合的双向lstm和cnn模型
CN107273818A (zh) 遗传算法融合差分进化的选择性集成人脸识别方法
CN107066781A (zh) 基于遗传和环境相关的结直肠癌数据模型的分析方法
Liu et al. Comparison of machine learning classifiers for breast cancer diagnosis based on feature selection
CN103793600A (zh) 结合独立分量分析和线性判别分析的癌症预测方法
CN108564009A (zh) 一种基于互信息量的改进特征评价方法
CN111709441A (zh) 基于改进特征子集区分度的行为识别特征选择方法
Khan et al. Breast cancer histological images nuclei segmentation and optimized classification with deep learning
Agarwal et al. A Novel Hybrid System of Detecting Brain Tumors in MRI
Belciug et al. Assessing performances of unsupervised and supervised neural networks in breast cancer detection
Gil et al. Fusion of feature selection methods in gene recognition
CN103902997A (zh) 用于生物细胞显微镜图像分类的特征子空间集成方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170922

Termination date: 20200331