CN105550715A - 一种基于近邻传播聚类的集成分类器构建方法 - Google Patents

一种基于近邻传播聚类的集成分类器构建方法 Download PDF

Info

Publication number
CN105550715A
CN105550715A CN201610043784.5A CN201610043784A CN105550715A CN 105550715 A CN105550715 A CN 105550715A CN 201610043784 A CN201610043784 A CN 201610043784A CN 105550715 A CN105550715 A CN 105550715A
Authority
CN
China
Prior art keywords
sample
matrix
feature
gene
gene expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610043784.5A
Other languages
English (en)
Inventor
孟军
郝涵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201610043784.5A priority Critical patent/CN105550715A/zh
Publication of CN105550715A publication Critical patent/CN105550715A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2111Selection of the most significant subset of features by using evolutionary computational techniques, e.g. genetic algorithms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Physiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

一种基于近邻传播聚类的集成分类器构建方法,包括以下步骤:S1、数据预处理;S2、获取特征距离负矩阵;S3、利用近邻传播聚类算法对特征进行聚类;S4、构建基分类器;S5、重复S4,直到基分类器数量达到预设值;S6、筛选基分类器;S7、基分类器集成。本发明能够与现有的特征过滤方法配合使用,具有更广阔的运用前景;采用bicor相关系数为关联准则利用近邻传播聚类对基因进行分组,并在此基础上采用随机选择的方式构建特征子空间,从而可以获得存在差异性和更优的基分类器;利用多数投票法进行融合基分类器,本发明的方法能够获得更好的分类效果,同时分类性能稳定。

Description

一种基于近邻传播聚类的集成分类器构建方法
技术领域
本发明涉及生物信息学和数据挖掘领域。尤其是针对于基因表达数据的一种基于近邻传播聚类的集成分类器构建方法。
背景技术
癌症(Cancer),亦称恶性肿瘤(Malignantneoplasm),是由控制细胞生长的增殖机制失常而引起的疾病,于2011年,超过心脏病,成为全球第一大死亡原因,而且年新增病例每年都在增加。联合国2014年2月发布的《WorldCancerReport2014》报告中指出,2012年的新增癌症病例达1400万人,到2030年,新增癌症病例还将增加50%,达到每年2160万人。中国的新增癌症病例前景堪忧。报告中指出2012年确诊的新增癌症病例有近一半出现在亚洲,其中大部分在中国,而整个欧洲的新增病例才接近1/4,美洲约占1/5,非洲和中东则刚刚超过8%。
基因芯片技术为癌症诊断研究提供了高效、客观的研究方法。基因芯片(GeneChip)技术,又称DNA微阵列(DNAMicroarray)技术,是20世纪90年代生物学领域的一项重大技术突破,采用cDNA或寡核苷酸片段作为探针,利用4种核苷酸之间互补配对的特性,能够同时快速地检测待测样本细胞或组织中mRNA丰度,进而获得待测样本的基因表达信息。这使研究者们能够同时获得研究对象在任意条件、任意时间下成千上万基因的表达模式,从基因分子层面上研究癌症的产生与发展,为了解癌症、预防癌症、癌症诊断以及遴选抗癌药物等提供了更加快捷、准确的方法手段。自1999年Golub等在Science杂志上发表题为《MolecularClassificationofCancer:ClassDiscoveryandClassPredictionbyGeneExpressionMonitoring》的文章以来,采用基因芯片技术研究癌症诊断问题引起了研究者们的极大兴趣,并逐渐发展成为了生物信息学领域的研究热点之一。
基于基因芯片技术的癌症诊断研究可以看成是对癌症相关的基因表达数据的分类分析。近些年来,很多分类方法被成功应用到对基因表达数据分类当中,如k-近邻(KNearestNeighbors,KNN)、支持向量机(SupportVectorMachine,SVM)、贝叶斯(Bayes,NB)、决策树(DecisionTree,DT)以及Fisher线性判别分析(LinearDiscriminantAnalysis,LDA)等。然而,对同一数据集不同分类器的分类能力不尽相同;而对同一个分类器不同数据集的分类性能也并非都很好。于是,分类性能稳定、鲁棒性更好的集成学习(EnsembleLearning)方法成为基因表达数据分类的重要研究内容。
集成学习是近20年来机器学习研究的热点内容,通过采用多个分类器对同一个问题进行学习,并把多个学习结果按照某一方式融合成一个学习结果。Dietterich分别从统计、计算和表示三个方面对集成分类方法有效的原因进行了分析,并指出集成学习有效的充要条件是个体分类的精度高(所有个体分类器错误率都应当低于0.5)而且是相互独立的(集成分类器中每个分类器之间错误独立的)。与个体分类器相比,集成学习能够显著地提高分类模型的泛化能力和预测准确性,因而被广泛应用到数据挖掘的各个研究领域,尤其是基因表达数据分析领域。
采用集成学习方法对癌症相关的基因表达数据进行研究具有以下意义:
(1)提高癌症诊断准确性。在癌症诊断研究中,如何对测试样本给予一个精确的判断是一个重要的目标。采用单一的分类器获得较高的分类精度并非一件容易的事情,而且单个分类器的学习能力是有局限的。为获得更好的分类效果,集成学习方法把多个不同预测结果有效结合起来,其预测精度通常比只使用一个分类器精度要高。
(2)增强预测模型的稳定性。单分类器的预测性能通常不太稳定,容易受训练数据集和所选分类算法的影响,即不同类型的数据集、或数据集的扰动、或选择不同的分类算法等都能够影响分类模型的训练预测结果。采用集成学习的方法,在一定程度上能够降低诊断模型受这些因素的影响,在更多的应用当中获得稳定的预测结果。
(3)降低分类模型过拟合问题。采用已知的数据集合进行训练单分类器时,通常选择适应度最好的训练模型作为最终分类器,这使得单个分类器模型能够很好的拟合训练数据。但当训练数据与测试数据样本分布不一致时,训练所得到分类模型在测试数据上可能得到一个较差的分类效果,即分类模型出现了过拟合的现象。集成学习方法训练多个存在差异性的分类模型分别进行预测,能够从多个方面认知预测对象,在很大程度上避免过拟合现象的产生,从而提高测试数据的预测精度。
(4)降低高维度的对分类的影响。在基因表达数据分类时,高维度问题困扰了很多分类算法,在分类前通常需要进行特征(基因)选择,而且其选择的好坏也关系到分类效果的好坏。许多基因选择方法通常选择少量的、类标记关联紧密的、彼此之间互不冗余的基因组成基因子集用于分类,然而一个基因子集的分类能力是有限的,同时一个与类标记有关联的、与已选基因相互冗余的基因对分类也会产生影响。采用基于特征选择的集成学习方法,选择多个特征子集分别训练学习模型,然后再把这些模型有效融合,一方面能够把高维度数据对象转换到低维度空间进行处理,降低高维度对分类产生的影响;另一方面可以产生存在差异性的分类模型进行融合,避免基因选择导致的分类信息损失带来的影响,提高模型的预测性能。
而现有的集成学习方法普遍为不经过筛选的集成学习,其准确率有待提高,而由于分类器集成最好要选择单个效果较好、且之间差异较大的个体,因此全部集成不一定能得到最优解;另外,由于普通的聚类方法所产生的基分类器数量固定,并且个体之间差异性也不够明显。
发明内容
本发明的目的是提供一种分类准确率高、性能稳定的基于近邻传播聚类的集成分类器构建方法。
本发明解决现有技术问题所采用的技术方案:一种基于近邻传播聚类的集成分类器构建方法,包括以下步骤:
S1、数据预处理:利用基因数据采集系统获取包括多个样本的基因表达值及样本类标签的基因表达数据矩阵,所述基因表达数据矩阵中的每行为样本基因表达向量、基因表达数据矩阵中除类标签所在列的列向量为基因;将基因表达数据矩阵中的所述样本基因表达向量分组,并分别构成训练样本矩阵、测试样本矩阵和验证样本矩阵;将训练样本矩阵中的列向量作为训练基因,对所述训练基因进行欠抽样;然后对每次欠抽样扰动后的训练基因利用t′检验进行排序并保存每条训练基因在排序中的名次;将每条训练基因在每次扰动后得到的排序名次取均值作为该条训练基因的排序聚合观察值并保存至基因特征排序聚合观察值表;对该基因特征排序聚合观察值表中的排序聚合观察值按照降序排序,得到特征有序表,最后选择特征有序表中位于前K个的排序聚合观察值所对应的训练基因作为列向量组成矩阵特征子集;
S2、获取特征距离负矩阵:包括以下步骤:
A1、利用bicor相关系数衡量特征子集的特征关联:将特征子集中的行向量作为样本特征向量,并计算两样本特征向量X=(x1,x2,...,xM)Y=(y1,y2,...,yM)的bicor相关系数,bicor相关系数的计算公式如下:
b i c o r ( X , Y ) = Σ i = 1 M x ~ i y ~ i
其中:
x ~ i = ( x i - m e d ( X ) ) w i ( x ) Σ k = 1 M [ ( x k - m e d ( X ) ) w k ( x ) ] 2
y ~ i = ( y i - m e d ( Y ) ) w i ( y ) Σ k = 1 M [ ( y k - m e d ( Y ) ) w k ( y ) ] 2
w i ( x ) = ( 1 - u i 2 ) 2 I ( 1 - | u i | )
u i = x i - m e d ( X ) 9 m a d ( X )
I ( 1 - | u i | ) = 1 , 1 - | u i | ≥ 0 0 , o t h e r w i s e
med(.)为向量的中值,mad(.)为向量绝对中位差,M为基因的个数。
A2、获取特征间的关联负矩阵:利用步骤A1得到特征间的bicor相关系数,通过如下公式计算特征之间的关联距离负值s(i,j):
s ( i , j ) = ( b i c o r ( f i , f j ) + 1 2 ) β - 1
其中,β为常量;以s(i,j)作为矩阵元素得到特征间关联距离负矩阵S;
S3、利用近邻传播聚类算法对特征进行聚类:将步骤A2得到的特征间关联距离负矩阵S输入近邻传播聚类函数,并将近邻传播聚类函数的参数值设定为bicor相关系数,将特征子集聚类为M1个簇集作为特征分组;
S4、构建基分类器:从每个特征分组中随机选择一条基因有放回的生成大小为M1的特征集,在该特征集对应的特征子空间中,利用SVM支持向量机训练基分类器;
S5、重复S4,直到基分类器数量达到预设值;
S6、筛选基分类器:利用得到的基分类器预测验证样本矩阵中样本基因表达向量的样本类标签,将预测得到的样本类标签与验证样本矩阵中原有的样本类标签进行对比得到被正确分类的样本数量和未被正确分类的样本数量并根据对比结果计算属于每一个基分类器的kappa系数,筛选出大于预设值阈值的基分类器;其中,kappa系数的公式如下:
K a p p a = p r ( a ) - p r ( e ) 1 - p r ( e )
其中:
Pr ( a ) = C A A L + C N N L Pr ( e ) = C A A + C A N L × C A A + C N A L + C N N + C A N L × C N N + C N A L
kappa混合矩阵为:
CAA表示属于A类被正确分类的数量,CAN表示属于A类未被正确分类的数量,CNA表示属于非A类的未被正确分类的数量,CNN表示属于非A类被正确分类的数量,L为样本总数。
S7、基分类器集成:对于步骤S6得到的基分类器,利用多数投票方法对基分类器的预测值进行融合,得到样本的预测值。
对所述样本基因表达向量分组时,将基因表达数据矩阵中的样本基因表达向量随机均分,并保证每一分组中的样本类标签的正负比例相同。
步骤S1中,将所述样本基因表达向量的分组轮流作为训练样本矩阵、测试样本矩阵和验证样本矩阵。
所述欠抽样的扰动次数为25次。
步骤S1中,利用贝叶斯算法选择特征有序表中排序位于前K个的排序聚合观察值所对应的训练基因表达序列作为列向量组成矩阵特征子集。
步骤A2中,β=2。
步骤S7中,基分类器验证误差小于0.5。
本发明的有益效果在于:
1、本发明能够与现有的特征过滤方法配合使用,具有更广阔的运用前景
2、采用bicor相关系数为关联准则利用近邻传播聚类对基因进行分组,并在此基础上采用随机选择的方式构建特征子空间,从而可以获得存在差异性和更优的基分类器。
3、利用多数投票法进行融合基分类器,在5个常用基因表达数据集的实验结果表明,本发明的方法能够获得更好的分类效果,同时分类性能稳定。
附图说明
图1为本方明的总体设计思路流程图。
具体实施方式
以下结合附图及具体实施方式对本发明进行说明:
如图1所示,本发明的总体设计思路为:首先通过欠抽样对基因表达序列进行数据扰动,利用贝叶斯算法进行基因排序,随后选出排序靠前的基因作为特征子集;计算特征子集中的特征之间的关联距离负矩阵,利用关联距离负矩阵做为选择依据,利用近邻传播聚类算法对选出的特征子集进行聚类,生成一定量的簇集;再随机从每个簇集中随机选择一个基因并使用SVM支持向量机训练基分类器,计算每一个基分类器的kappa系数,利用kappa系数对集成分类器进行优化,筛选出大于阈值的基分类器,最后利用多数投票集成基分类器,具体步骤如下;
如图1所示,一种基于近邻传播聚类的集成分类器构建方法,包括以下步骤:
S1、数据预处理:利用基因数据采集系统获取包括多个样本的基因表达值及样本类标签的基因表达数据矩阵,其中,基因表达数据矩阵中的每行为样本基因表达向量、基因表达数据矩阵中除最后一列类标签外,其余的列向量均为基因;将基因表达数据矩阵中的样本基因表达向量分组,分组时,优选将基因表达数据矩阵中的样本基因表达向量随机均分,并保证每一分组中的样本类标签的正负比例相同。对于样本基因表达向量的分组,采用交叉验证的方式将样本基因表达向量的分组作为训练样本矩阵、测试样本矩阵和验证样本矩阵,即:将样本基因表达向量的分组轮流作为训练样本矩阵、测试样本矩阵和验证样本矩阵,以保证公平。并分别构成训练样本矩阵、测试样本矩阵和验证样本矩阵;将训练样本矩阵中的列向量作为训练基因,对所述训练基因进行欠抽样(即数据扰动),优选扰动次数为25;然后对每次欠抽样扰动后的训练基因利用t′检验进行排序并保存每条训练基因在排序中的名次;将每条训练基因在每次扰动后得到的排序名次取均值作为该条训练基因的排序聚合观察值并保存至基因特征排序聚合观察值表;对该基因特征排序聚合观察值表中的排序聚合观察值按照降序排序,得到特征有序表,最后选择特征有序表中位于前K个的排序聚合观察值所对应的训练基因作为列向量组成矩阵特征子集;
S2、获取特征距离负矩阵:包括以下步骤:
A1、利用bicor相关系数衡量特征子集的特征关联:将特征子集中的行向量作为样本特征向量,并计算两样本特征向量X=(x1,x2,...,xM)和Y=(y1,y2,...,yM)的bicor相关系数,bicor相关系数的计算公式如下:
b i c o r ( X , Y ) = Σ i = 1 M x ~ i y ~ i
其中:
x ~ i = ( x i - m e d ( X ) ) w i ( x ) Σ k = 1 M [ ( x k - m e d ( X ) ) w k ( x ) ] 2
y ~ i = ( y i - m e d ( Y ) ) w i ( y ) Σ k = 1 M [ ( y k - m e d ( Y ) ) w k ( y ) ] 2
w i ( x ) = ( 1 - u i 2 ) 2 I ( 1 - | u i | )
u i = x i - m e d ( X ) 9 m a d ( X )
I ( 1 - | u i | ) = 1 , 1 - | u i | ≥ 0 0 , o t h e r w i s e
med(.)为向量的中值,mad(.)为向量绝对中位差,M为基因的个数。
A2、获取特征间的关联负矩阵:利用步骤A1得到特征间的bicor相关系数,通过如下公式计算特征之间的关联距离负值s(i,j):
s ( i , j ) = ( b i c o r ( f i , f j ) + 1 2 ) β - 1
其中,β为常量;以s(i,j)作为矩阵元素得到特征间关联距离负矩阵S;
S3、利用近邻传播聚类算法对特征进行聚类:将步骤A2得到的特征间关联距离负矩阵S输入近邻传播聚类函数,并将近邻传播聚类函数的参数值设定为bicor相关系数,将特征子集聚类为M1个簇集作为特征分组。
S4、构建基分类器:从每个特征分组中随机选择一条基因有放回的生成大小为M1的特征集,在该特征集对应的特征子空间中,利用SVM支持向量机训练基分类器;
S5、重复S4,直到基分类器数量达到预设值;
S6、筛选基分类器:利用得到的基分类器预测验证样本矩阵中样本基因表达向量的样本类标签,将预测得到的样本类标签与验证样本矩阵中原有的样本类标签进行对比得到被正确分类的样本数量和未被正确分类的样本数量并根据对比结果计算属于每一个基分类器的kappa系数,筛选出大于预设值阈值的基分类器;其中,kappa系数的公式如下:
K a p p a = p r ( a ) - p r ( e ) 1 - p r ( e )
其中:
Pr ( a ) = C A A L + C N N L
Pr ( e ) = C A A + C A N L × C A A + C N A L + C N N + C A N L × C N N + C N A L
kappa混合矩阵为:
CAA表示属于A类被正确分类的数量,CAN表示属于A类未被正确分类的数量,CNA表示属于非A类的未被正确分类的数量,CNN表示属于非A类被正确分类的数量,L为样本的总数。
S7、基分类器集成:对于步骤S6得到的基分类器,利用多数投票方法对基分类器的预测值进行融合,得到样本的预测值。多数投票的具体方法为:对于得到的基分类器a,b,c,对于某样本来说,若基分类器a对该样本的预测值为1(假设是二分类,只有0或者1),基分类器b对该样本的预测值为1,基分类器c对该样本的预测值为0,统计预测值1和0的次数作为预测值的投票次数,将投票次数大于预设阈值的预测值1作为融合后的预测值。通常情况下选择投票次数大于基分类器总个数一半以上的预测值作为融合后的预测值。在所有基分类器的验证误差小于0.5时,基于多数投票方法的集成方法能得到比单分类器更好、更稳定的分类性能。
将本发明所述方法应用于表1中5个常用基因表达数据集,本发明的准确率明显高于现有方法。
表1实验效果对比表
实施例
为使本发明的目的、技术方案和有益效果更加清晰和更易于实验,以下结合具体实施例,并参照附图,对本发明做进一步详细说明。
为了更好的说明本方法的过程,使用了以下这份简单的数据来辅助。
可以看出,这份数据中一共有10个基因,样本标签一共有两个,特征基因有10个。有了以上的信息之后就可以开始本方法中的实验。
步骤1、数据预处理:首先根据样本的类标签把10份样本分成5等份。分类结果如下。
Fold1:46
Fold2:27
Fold3:310
Fold4:58
Fold5:19
选择其中的三份做训练样本矩阵,一份做测试样本矩阵,一份做验证样本矩阵。通过循环的排列这5等份的方式来实现5折交叉验证。这里选择其中一次的结果说明。
Fold1作为测试样本矩阵,Fold2作为验证样本矩阵,Fold3、4、5作为训练样本矩阵。对训练样本矩阵中的训练基因(即训练样本矩阵中的每列向量)进行欠抽样,优选将扰动次数设置为25次;然后对每次扰动后的训练基因利用t′检验进行排序并保存每条训练基因在排序中的名次;将每条训练基因在每次扰动后得到的排序名次取均值作为该训练基因的排序聚合观察值,排序聚合观察值组成训练样本矩阵的基因特征排序聚合观察值表;对该基因特征排序聚合观察值表中的排序聚合观察值按照降序排序,得到特征有序表,最后利用贝叶斯算法选择特征有序表中排序位于前5个的排序聚合观察值6、10、5、9、7。所对应的基因表达序列组成特征子集为AFFX.BioB.5_at、AFFX.BioB.M_at、AFFX.BioB.3-at、AFFX.BioC.3_atandAFFX.BioDn.5_at。
步骤2、获取特征距离负矩阵:包括以下步骤:
A1、利用bicor相关系数衡量特征子集的特征关联:将特征子集中样本基因表达向量作为特征向量,并计算两特征向量X=(x1,x2,...,xM)和Y=(y1,y2,...,yM)的bicor相关系数,bicor相关系数的计算公式如下:
b i c o r ( X , Y ) = Σ i = 1 M x ~ i y ~ i - - - ( 1 )
其中:
x ~ i = ( x i - m e d ( X ) ) w i ( x ) Σ k = 1 M [ ( x k - m e d ( X ) ) w k ( x ) ] 2 - - - ( 2 )
y ~ i = ( y i - m e d ( Y ) ) w i ( y ) Σ k = 1 M [ ( y k - m e d ( Y ) ) w k ( y ) ] 2 - - - ( 3 )
w i ( x ) = ( 1 - u i 2 ) 2 I ( 1 - | u i | ) - - - ( 4 )
u i = x i - m e d ( X ) 9 m a d ( X ) - - - ( 5 )
I ( 1 - | u i | ) = 1 , 1 - | u i | ≥ 0 0 , o t h e r w i s e - - - ( 6 )
med(.)表示取向量的中值,mad(.)表示取向量绝对中位差。M为基因的个数。bicor相关系数是基于Tukey'sbiweight,是Hardin于2007年提出的一种稳定的、高效的、衡量两个对象之间关联的度量
A2、获取特征间的关联负矩阵:利用步骤A1得到特征间的bicor相关系数,通过如下公式计算特征之间的关联距离负值s(i,j):
s ( i , j ) = ( b i c o r ( f i , f j ) + 1 2 ) β - 1 - - - ( 7 )
其中,β为常量;当β=2时分类性能较好。以s(i,j)作为矩阵元素得到特征间关联距离负矩阵S;
步骤3、将步骤A2得到的特征间关联距离负矩阵S输入近邻传播聚类函数,并将近邻传播聚类函数的参数值设定为bicor相关系数,将特征子集中的聚类为M1个簇集作为特征分组。
步骤2-3可使用R语言程序包apcluster中的函数adjacency作为近邻传播聚类系统来实现,其中把adjacency中的corFnc参数设置为bicor,输入特征子集,利用adjacency分别输出正负例的关联矩阵。本发明可归结为二分类问题,类标签采用1或者0,属于1的就是正例,属于0的就是负例。而关联矩阵就是正例的特征之间的特征矩阵,负例的特征之间的特征矩阵,最后把两者的结果取平均值减单位阵做为最后的关联矩阵,最后利用apcluster函数生成特征分组。一共生成了如下的两个特征分组:
分组1:AFFX.BioB.M_atAFFX.BioC.3_at
分组2:AFFX.BioDn.5_atAFFX.BioB.5_atAFFX.BioB.3_at
步骤4、构建基分类器:从每个特征分组中随机选择一条基因有放回的生成大小为M1的特征集,在该特征集对应的特征子空间中,利用SVM支持向量机训练基分类器
步骤5、重复S4,直到基分类器数量满足设定:基分类器的数量是人为设定的,所以重复次数也是可以调节的。
这次简单的实验只设置了一个分类器,使用apcluterR语言包中的apcluster函数生成分类器。
步骤6、筛选基分类器:利用得到的基分类器预测验证样本矩阵中样本基因表达向量的样本类标签,将预测得到的样本类标签与验证样本矩阵中原有的样本类标签进行对比得到被正确分类的样本数量和未被正确分类的样本数量并根据对比结果计算属于每一个基分类器的kappa系数,筛选出大于预设值阈值的基分类器;其中,kappa系数的公式如下:
K a p p a = p r ( a ) - p r ( e ) 1 - p r ( e ) - - - ( 8 )
其中:
Pr ( a ) = C A A L + C N N L - - - ( 9 )
Pr ( e ) = C A A + C A N L × C A A + C N A L + C N N + C A N L × C N N + C N A L - - - ( 10 )
kappa混合矩阵为:
CAA表示属于A类被正确分类的数量,CAN表示属于A类未被正确分类的数量,CNA表示属于非A类的未被正确分类的数量,CNN表示属于非A类被正确分类的数量。
得到分类器以后,计算这个分类器的kappa系数,各项系数分别为,CAA=1,CAN=0,CNA=0,CNN=1,计算出的kappa系数为1。
步骤7、基分类器集成:在基分类器生成以后,采用多数投票方法对基分类器进行融合,得到样本的预测值。有研究表明,在所有基分类器器验证误差小于0.5时,基于多数投票方法的集成方法能得到比单分类器更好、更稳定的分类性能。
因为kappa系数的范围就是0到1之间,而之前计算出的结果为1,从这个结果上也可以看出这个分类器是完美分类,最后的分类精度也验证了这一点,该分类器的分类精确度为100%。
以上内容是结合具体的优选技术方案对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (7)

1.一种基于近邻传播聚类的集成分类器构建方法,其特征在于,包括以下步骤:
S1、数据预处理:利用基因数据采集系统获取包括多个样本的基因表达值及样本类标签的基因表达数据矩阵,所述基因表达数据矩阵中的每行为样本基因表达向量、基因表达数据矩阵中除类标签所在列的列向量为基因;将基因表达数据矩阵中的所述样本基因表达向量分组,并分别构成训练样本矩阵、测试样本矩阵和验证样本矩阵;将训练样本矩阵中的列向量作为训练基因,对所述训练基因进行欠抽样;然后对每次欠抽样扰动后的训练基因利用t′检验进行排序并保存每条训练基因在排序中的名次;将每条训练基因在每次扰动后得到的排序名次取均值作为该条训练基因的排序聚合观察值并保存至基因特征排序聚合观察值表;对该基因特征排序聚合观察值表中的排序聚合观察值按照降序排序,得到特征有序表,最后选择特征有序表中位于前K个的排序聚合观察值所对应的训练基因作为列向量组成矩阵特征子集;
S2、获取特征距离负矩阵:包括以下步骤:
A1、利用bicor相关系数衡量特征子集的特征关联:将特征子集中的行向量作为样本特征向量,并计算两样本特征向量X=(x1,x2,...,xM)和Y=(y1,y2,...,yM)的bicor相关系数,bicor相关系数的计算公式如下:
b i c o r ( X , Y ) = Σ i = 1 M x ~ i y ~ i
其中:
x ~ i = ( x i - m e d ( X ) ) w i ( x ) Σ k = 1 M [ ( x k - m e d ( X ) ) w k ( x ) ] 2
y ~ i = ( y i - m e d ( Y ) ) w i ( y ) Σ k = 1 M [ ( y k - m e d ( Y ) ) w k ( y ) ] 2
w i ( x ) = ( 1 - u i 2 ) 2 I ( 1 - | u i | )
u i = x i - m e d ( X ) 9 m a d ( X )
I ( 1 - | u i | ) = 1, 1 - | u i | > 0 0, o t h e r w i s e
med(.)为向量的中值,mad(.)为向量绝对中位差,M为基因的个数。
A2、获取特征间的关联负矩阵:利用步骤A1得到特征间的bicor相关系数,通过如下公式计算特征之间的关联距离负值s(i,j):
s ( i , j ) = ( b i c o r ( f i , f j ) + 1 2 ) β - 1
其中,β为常量;以s(i,j)作为矩阵元素得到特征间关联距离负矩阵S;
S3、利用近邻传播聚类算法对特征进行聚类:将步骤A2得到的特征间关联距离负矩阵S输入近邻传播聚类函数,并将近邻传播聚类函数的参数值设定为bicor相关系数,将特征子集聚类为M1个簇集作为特征分组;
S4、构建基分类器:从每个特征分组中随机选择一条基因有放回的生成大小为M1的特征集,在该特征集对应的特征子空间中,利用SVM支持向量机训练基分类器;
S5、重复S4,直到基分类器数量达到预设值;
S6、筛选基分类器:利用得到的基分类器预测验证样本矩阵中样本基因表达向量的样本类标签,将预测得到的样本类标签与验证样本矩阵中原有的样本类标签进行对比得到被正确分类的样本数量和未被正确分类的样本数量并根据对比结果计算属于每一个基分类器的kappa系数,筛选出大于预设值阈值的基分类器;其中,kappa系数的公式如下:
K a p p a = p r ( a ) - p r ( e ) 1 - p r ( e )
其中:
Pr ( a ) = C A A L + C N N L
Pr ( e ) = C A A + C A N L × C A A + C N A L + C N N + C A N L × C N N + C N A L
kappa混合矩阵为:
CAA表示属于A类被正确分类的数量,CAN表示属于A类未被正确分类的数量,CNA表示属于非A类的未被正确分类的数量,CNN表示属于非A类被正确分类的数量,L为样本总数。
S7、基分类器集成:对于步骤S6得到的基分类器,利用多数投票方法对基分类器的预测值进行融合,得到样本的预测值。
2.根据权利要求1所述的一种基于近邻传播聚类的集成分类器构建方法,其特征在于,对所述样本基因表达向量分组时,将基因表达数据矩阵中的样本基因表达向量随机均分,并保证每一分组中的样本类标签的正负比例相同。
3.根据权利要求1所述的一种基于近邻传播聚类的集成分类器构建方法,其特征在于,步骤S1中,将所述样本基因表达向量的分组轮流作为训练样本矩阵、测试样本矩阵和验证样本矩阵。
4.根据权利要求1所述的一种基于近邻传播聚类的集成分类器构建方法,其特征在于,所述欠抽样的扰动次数为25次。
5.根据权利要求1所述的一种基于近邻传播聚类的集成分类器构建方法,其特征在于,步骤S1中,利用贝叶斯算法选择特征有序表中排序位于前K个的排序聚合观察值所对应的训练基因表达序列作为列向量组成矩阵特征子集。
6.根据权利要求1所述的一种基于近邻传播聚类的集成分类器构建方法,其特征在于,步骤A2中,β=2。
7.根据权利要求1所述的一种基于近邻传播聚类的集成分类器构建方法,其特征在于,步骤S7中,基分类器验证误差小于0.5。
CN201610043784.5A 2016-01-22 2016-01-22 一种基于近邻传播聚类的集成分类器构建方法 Pending CN105550715A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610043784.5A CN105550715A (zh) 2016-01-22 2016-01-22 一种基于近邻传播聚类的集成分类器构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610043784.5A CN105550715A (zh) 2016-01-22 2016-01-22 一种基于近邻传播聚类的集成分类器构建方法

Publications (1)

Publication Number Publication Date
CN105550715A true CN105550715A (zh) 2016-05-04

Family

ID=55829898

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610043784.5A Pending CN105550715A (zh) 2016-01-22 2016-01-22 一种基于近邻传播聚类的集成分类器构建方法

Country Status (1)

Country Link
CN (1) CN105550715A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292097A (zh) * 2017-06-14 2017-10-24 华东理工大学 基于特征组的特征选择方法、及中医主症选择方法
CN107368707A (zh) * 2017-07-20 2017-11-21 东北大学 基于us‑elm的基因芯片表达数据分析系统及方法
CN107943865A (zh) * 2017-11-10 2018-04-20 阿基米德(上海)传媒有限公司 一种适用于多场景、多类型的音频分类标签方法及系统
CN108171012A (zh) * 2018-01-17 2018-06-15 河南师范大学 一种基因分类方法与装置
CN108400800A (zh) * 2017-01-20 2018-08-14 赵李英记 资料传输架构产生聚类分群资料的方法
CN108520249A (zh) * 2018-04-19 2018-09-11 赵乐 一种细胞分类器的构建方法、装置及系统
JPWO2018079840A1 (ja) * 2016-10-31 2019-09-19 株式会社Preferred Networks 疾患の罹患判定装置、疾患の罹患判定方法及び疾患の罹患判定プログラム
CN112115829A (zh) * 2020-09-09 2020-12-22 贵州大学 一种基于分类器选择性集成的表情识别方法
CN112382342A (zh) * 2020-11-24 2021-02-19 山西三友和智慧信息技术股份有限公司 一种基于集成特征选择的癌症甲基化数据分类方法
CN112767329A (zh) * 2021-01-08 2021-05-07 北京安德医智科技有限公司 图像处理方法及装置、电子设备
CN114241654A (zh) * 2021-12-17 2022-03-25 国开启科量子技术(北京)有限公司 一种分布式量子选票的复合计算方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103186794A (zh) * 2013-03-27 2013-07-03 西安电子科技大学 基于改进的近邻传播聚类的极化sar图像分类方法
CN103632168A (zh) * 2013-12-09 2014-03-12 天津工业大学 一种机器学习中的分类器集成方法
CN103839073A (zh) * 2014-02-18 2014-06-04 西安电子科技大学 一种基于极化特征和近邻传播聚类的极化sar图像分类方法
CN104166856A (zh) * 2014-07-30 2014-11-26 西安电子科技大学 基于近邻传播聚类与区域增长的极化sar图像分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103186794A (zh) * 2013-03-27 2013-07-03 西安电子科技大学 基于改进的近邻传播聚类的极化sar图像分类方法
CN103632168A (zh) * 2013-12-09 2014-03-12 天津工业大学 一种机器学习中的分类器集成方法
CN103839073A (zh) * 2014-02-18 2014-06-04 西安电子科技大学 一种基于极化特征和近邻传播聚类的极化sar图像分类方法
CN104166856A (zh) * 2014-07-30 2014-11-26 西安电子科技大学 基于近邻传播聚类与区域增长的极化sar图像分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ARIE BEN-DAVID: "《Comparison of classification accuracy using Cohen’s Weighted Kappa》", 《EXPERT SYSTEMS WITH APPLICATIONS》 *
孟军 等: "《基于近邻传播聚类的集成特征选择方法》", 《计算机科学》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2018079840A1 (ja) * 2016-10-31 2019-09-19 株式会社Preferred Networks 疾患の罹患判定装置、疾患の罹患判定方法及び疾患の罹患判定プログラム
JP7021097B2 (ja) 2016-10-31 2022-02-16 株式会社Preferred Networks 疾患の罹患判定装置、疾患の罹患判定方法及び疾患の罹患判定プログラム
US10657159B2 (en) 2017-01-20 2020-05-19 Ying-Jih Chao Lee Method for generating a category clustering data using a data transmission structure
CN108400800A (zh) * 2017-01-20 2018-08-14 赵李英记 资料传输架构产生聚类分群资料的方法
CN107292097A (zh) * 2017-06-14 2017-10-24 华东理工大学 基于特征组的特征选择方法、及中医主症选择方法
CN107292097B (zh) * 2017-06-14 2020-02-04 华东理工大学 基于特征组的中医主症选择方法
CN107368707A (zh) * 2017-07-20 2017-11-21 东北大学 基于us‑elm的基因芯片表达数据分析系统及方法
CN107368707B (zh) * 2017-07-20 2020-07-10 东北大学 基于us-elm的基因芯片表达数据分析系统及方法
CN107943865A (zh) * 2017-11-10 2018-04-20 阿基米德(上海)传媒有限公司 一种适用于多场景、多类型的音频分类标签方法及系统
CN108171012A (zh) * 2018-01-17 2018-06-15 河南师范大学 一种基因分类方法与装置
CN108171012B (zh) * 2018-01-17 2020-09-22 河南师范大学 一种基因分类方法与装置
CN108520249A (zh) * 2018-04-19 2018-09-11 赵乐 一种细胞分类器的构建方法、装置及系统
CN112115829A (zh) * 2020-09-09 2020-12-22 贵州大学 一种基于分类器选择性集成的表情识别方法
CN112115829B (zh) * 2020-09-09 2023-02-28 贵州大学 一种基于分类器选择性集成的表情识别方法
CN112382342A (zh) * 2020-11-24 2021-02-19 山西三友和智慧信息技术股份有限公司 一种基于集成特征选择的癌症甲基化数据分类方法
CN112767329A (zh) * 2021-01-08 2021-05-07 北京安德医智科技有限公司 图像处理方法及装置、电子设备
CN114241654A (zh) * 2021-12-17 2022-03-25 国开启科量子技术(北京)有限公司 一种分布式量子选票的复合计算方法及装置
CN114241654B (zh) * 2021-12-17 2023-12-05 国开启科量子技术(北京)有限公司 一种分布式量子选票的复合计算方法及装置

Similar Documents

Publication Publication Date Title
CN105550715A (zh) 一种基于近邻传播聚类的集成分类器构建方法
CN106022473B (zh) 一种融合粒子群和遗传算法的基因调控网络构建方法
Li et al. Gene selection using genetic algorithm and support vectors machines
CN101145171A (zh) 一种基于独立分量集成学习的基因微阵列数据预测方法
CN103678954B (zh) 一种由生物芯片数据构建多类别特异表达分子集及类别网的方法及其应用和评价方法
CN105243296A (zh) 联合mRNA和microRNA表达谱芯片的肿瘤特征基因选择方法
CN101923604A (zh) 基于邻域粗糙集的加权knn肿瘤基因表达谱分类方法
CN106548041A (zh) 一种基于先验信息和并行二进制微粒群算法的肿瘤关键基因识别方法
CN104463251A (zh) 基于集成极端学习机的肿瘤基因表达谱数据识别方法
CN104966106A (zh) 一种基于支持向量机的生物年龄分步预测方法
CN106951728B (zh) 一种基于粒子群优化和打分准则的肿瘤关键基因识别方法
CN113936737B (zh) 一种基于rna基序向量比较rna结构的方法、家族聚类方法、评估变构效应的方法、功能注释的方法、系统和设备
CN109033747B (zh) 基于pls多扰动集成基因选择的肿瘤特异基因识别方法
CN110322968A (zh) 一种疾病类别医学数据的特征选择方法和装置
CN105046106B (zh) 一种用最近邻检索实现的蛋白质亚细胞定位预测方法
Ni et al. A hybrid filter/wrapper gene selection method for microarray classification
CN111951889B (zh) 一种rna序列中m5c位点的识别预测方法及系统
Yang et al. Hybrid methods to select informative gene sets in microarray data classification
Slavkov et al. Evaluation method for feature rankings and their aggregations for biomarker discovery
Liao et al. A support vector machine ensemble for cancer classification using gene expression data
Nguyen et al. Optimizing weighted kernel function for support vector machine by genetic algorithm
Dhawan et al. Application of committee kNN classifiers for gene expression profile classification
Chuang et al. Chaotic genetic algorithm for gene selection and classification problems
Salem et al. K5. merging genetic algorithm with different classifiers for cancer classification using microarrays
Dang et al. NSC-NSGA2: Optimal search for finding multiple thresholds for nearest shrunken centroid

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160504

WD01 Invention patent application deemed withdrawn after publication