CN105550715A

CN105550715A - 一种基于近邻传播聚类的集成分类器构建方法

Info

Publication number: CN105550715A
Application number: CN201610043784.5A
Authority: CN
Inventors: 孟军; 郝涵
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2016-01-22
Filing date: 2016-01-22
Publication date: 2016-05-04

Abstract

一种基于近邻传播聚类的集成分类器构建方法，包括以下步骤：S1、数据预处理；S2、获取特征距离负矩阵；S3、利用近邻传播聚类算法对特征进行聚类；S4、构建基分类器；S5、重复S4，直到基分类器数量达到预设值；S6、筛选基分类器；S7、基分类器集成。本发明能够与现有的特征过滤方法配合使用，具有更广阔的运用前景；采用bicor相关系数为关联准则利用近邻传播聚类对基因进行分组，并在此基础上采用随机选择的方式构建特征子空间，从而可以获得存在差异性和更优的基分类器；利用多数投票法进行融合基分类器，本发明的方法能够获得更好的分类效果，同时分类性能稳定。

Description

一种基于近邻传播聚类的集成分类器构建方法

技术领域

本发明涉及生物信息学和数据挖掘领域。尤其是针对于基因表达数据的一种基于近邻传播聚类的集成分类器构建方法。

背景技术

癌症(Cancer)，亦称恶性肿瘤(Malignantneoplasm)，是由控制细胞生长的增殖机制失常而引起的疾病，于2011年，超过心脏病，成为全球第一大死亡原因，而且年新增病例每年都在增加。联合国2014年2月发布的《WorldCancerReport2014》报告中指出，2012年的新增癌症病例达1400万人，到2030年，新增癌症病例还将增加50％，达到每年2160万人。中国的新增癌症病例前景堪忧。报告中指出2012年确诊的新增癌症病例有近一半出现在亚洲，其中大部分在中国，而整个欧洲的新增病例才接近1/4，美洲约占1/5，非洲和中东则刚刚超过8％。

基因芯片技术为癌症诊断研究提供了高效、客观的研究方法。基因芯片(GeneChip)技术，又称DNA微阵列(DNAMicroarray)技术，是20世纪90年代生物学领域的一项重大技术突破，采用cDNA或寡核苷酸片段作为探针，利用4种核苷酸之间互补配对的特性，能够同时快速地检测待测样本细胞或组织中mRNA丰度，进而获得待测样本的基因表达信息。这使研究者们能够同时获得研究对象在任意条件、任意时间下成千上万基因的表达模式，从基因分子层面上研究癌症的产生与发展，为了解癌症、预防癌症、癌症诊断以及遴选抗癌药物等提供了更加快捷、准确的方法手段。自1999年Golub等在Science杂志上发表题为《MolecularClassificationofCancer：ClassDiscoveryandClassPredictionbyGeneExpressionMonitoring》的文章以来，采用基因芯片技术研究癌症诊断问题引起了研究者们的极大兴趣，并逐渐发展成为了生物信息学领域的研究热点之一。

基于基因芯片技术的癌症诊断研究可以看成是对癌症相关的基因表达数据的分类分析。近些年来，很多分类方法被成功应用到对基因表达数据分类当中，如k-近邻(KNearestNeighbors,KNN)、支持向量机(SupportVectorMachine,SVM)、贝叶斯(Bayes,NB)、决策树(DecisionTree,DT)以及Fisher线性判别分析(LinearDiscriminantAnalysis,LDA)等。然而，对同一数据集不同分类器的分类能力不尽相同；而对同一个分类器不同数据集的分类性能也并非都很好。于是，分类性能稳定、鲁棒性更好的集成学习(EnsembleLearning)方法成为基因表达数据分类的重要研究内容。

集成学习是近20年来机器学习研究的热点内容，通过采用多个分类器对同一个问题进行学习，并把多个学习结果按照某一方式融合成一个学习结果。Dietterich分别从统计、计算和表示三个方面对集成分类方法有效的原因进行了分析，并指出集成学习有效的充要条件是个体分类的精度高(所有个体分类器错误率都应当低于0.5)而且是相互独立的(集成分类器中每个分类器之间错误独立的)。与个体分类器相比，集成学习能够显著地提高分类模型的泛化能力和预测准确性，因而被广泛应用到数据挖掘的各个研究领域，尤其是基因表达数据分析领域。

采用集成学习方法对癌症相关的基因表达数据进行研究具有以下意义：

(1)提高癌症诊断准确性。在癌症诊断研究中，如何对测试样本给予一个精确的判断是一个重要的目标。采用单一的分类器获得较高的分类精度并非一件容易的事情，而且单个分类器的学习能力是有局限的。为获得更好的分类效果，集成学习方法把多个不同预测结果有效结合起来，其预测精度通常比只使用一个分类器精度要高。

(2)增强预测模型的稳定性。单分类器的预测性能通常不太稳定，容易受训练数据集和所选分类算法的影响，即不同类型的数据集、或数据集的扰动、或选择不同的分类算法等都能够影响分类模型的训练预测结果。采用集成学习的方法，在一定程度上能够降低诊断模型受这些因素的影响，在更多的应用当中获得稳定的预测结果。

(3)降低分类模型过拟合问题。采用已知的数据集合进行训练单分类器时，通常选择适应度最好的训练模型作为最终分类器，这使得单个分类器模型能够很好的拟合训练数据。但当训练数据与测试数据样本分布不一致时，训练所得到分类模型在测试数据上可能得到一个较差的分类效果，即分类模型出现了过拟合的现象。集成学习方法训练多个存在差异性的分类模型分别进行预测，能够从多个方面认知预测对象，在很大程度上避免过拟合现象的产生，从而提高测试数据的预测精度。

(4)降低高维度的对分类的影响。在基因表达数据分类时，高维度问题困扰了很多分类算法，在分类前通常需要进行特征(基因)选择，而且其选择的好坏也关系到分类效果的好坏。许多基因选择方法通常选择少量的、类标记关联紧密的、彼此之间互不冗余的基因组成基因子集用于分类，然而一个基因子集的分类能力是有限的，同时一个与类标记有关联的、与已选基因相互冗余的基因对分类也会产生影响。采用基于特征选择的集成学习方法，选择多个特征子集分别训练学习模型，然后再把这些模型有效融合，一方面能够把高维度数据对象转换到低维度空间进行处理，降低高维度对分类产生的影响；另一方面可以产生存在差异性的分类模型进行融合，避免基因选择导致的分类信息损失带来的影响，提高模型的预测性能。

而现有的集成学习方法普遍为不经过筛选的集成学习，其准确率有待提高，而由于分类器集成最好要选择单个效果较好、且之间差异较大的个体，因此全部集成不一定能得到最优解；另外，由于普通的聚类方法所产生的基分类器数量固定，并且个体之间差异性也不够明显。

发明内容

本发明的目的是提供一种分类准确率高、性能稳定的基于近邻传播聚类的集成分类器构建方法。

本发明解决现有技术问题所采用的技术方案：一种基于近邻传播聚类的集成分类器构建方法，包括以下步骤：

S1、数据预处理：利用基因数据采集系统获取包括多个样本的基因表达值及样本类标签的基因表达数据矩阵，所述基因表达数据矩阵中的每行为样本基因表达向量、基因表达数据矩阵中除类标签所在列的列向量为基因；将基因表达数据矩阵中的所述样本基因表达向量分组，并分别构成训练样本矩阵、测试样本矩阵和验证样本矩阵；将训练样本矩阵中的列向量作为训练基因，对所述训练基因进行欠抽样；然后对每次欠抽样扰动后的训练基因利用t′检验进行排序并保存每条训练基因在排序中的名次；将每条训练基因在每次扰动后得到的排序名次取均值作为该条训练基因的排序聚合观察值并保存至基因特征排序聚合观察值表；对该基因特征排序聚合观察值表中的排序聚合观察值按照降序排序，得到特征有序表，最后选择特征有序表中位于前K个的排序聚合观察值所对应的训练基因作为列向量组成矩阵特征子集；

S2、获取特征距离负矩阵：包括以下步骤：

A1、利用bicor相关系数衡量特征子集的特征关联：将特征子集中的行向量作为样本特征向量，并计算两样本特征向量_{X＝(x1,x2,...,xM)}和_{Y＝(y1,y2,...,yM)}的bicor相关系数，bicor相关系数的计算公式如下：

b i c o r (X, Y) = Σ_{i = 1}^{M} {\tilde{x}}_{i} {\tilde{y}}_{i}

其中：

{\tilde{x}}_{i} = \frac{(x_{i} - m e d (X)) w_{i}^{(x)}}{\sqrt{Σ_{k = 1}^{M} {[(x_{k} - m e d (X)) w_{k}^{(x)}]}^{2}}}

{\tilde{y}}_{i} = \frac{(y_{i} - m e d (Y)) w_{i}^{(y)}}{\sqrt{Σ_{k = 1}^{M} {[(y_{k} - m e d (Y)) w_{k}^{(y)}]}^{2}}}

w_{i}^{(x)} = {(1 - u_{i}^{2})}^{2} I (1 - | u_{i} |)

u_{i} = \frac{x_{i} - m e d (X)}{9 m a d (X)}

I (1 - | u_{i} |) = \{\begin{matrix} 1, & 1 - | u_{i} | &GreaterEqual; 0 \\ 0, & o t h e r w i s e \end{matrix}

med(.)为向量的中值，mad(.)为向量绝对中位差，M为基因的个数。

A2、获取特征间的关联负矩阵：利用步骤A1得到特征间的bicor相关系数，通过如下公式计算特征之间的关联距离负值s(i,j)：

s (i, j) = {(\frac{b i c o r (f_{i}, f_{j}) + 1}{2})}^{β} - 1

其中，β为常量；以s(i,j)作为矩阵元素得到特征间关联距离负矩阵S；

S3、利用近邻传播聚类算法对特征进行聚类：将步骤A2得到的特征间关联距离负矩阵S输入近邻传播聚类函数，并将近邻传播聚类函数的参数值设定为bicor相关系数，将特征子集聚类为M1个簇集作为特征分组；

S4、构建基分类器：从每个特征分组中随机选择一条基因有放回的生成大小为M1的特征集，在该特征集对应的特征子空间中，利用SVM支持向量机训练基分类器；

S5、重复S4，直到基分类器数量达到预设值；

S6、筛选基分类器：利用得到的基分类器预测验证样本矩阵中样本基因表达向量的样本类标签，将预测得到的样本类标签与验证样本矩阵中原有的样本类标签进行对比得到被正确分类的样本数量和未被正确分类的样本数量并根据对比结果计算属于每一个基分类器的kappa系数，筛选出大于预设值阈值的基分类器；其中，kappa系数的公式如下：

K a p p a = \frac{p r (a) - p r (e)}{1 - p r (e)}

其中：

\begin{matrix} \Pr (a) = \frac{C^{A A}}{L} + \frac{C^{N N}}{L} \\ \Pr (e) = \frac{C^{A A} + C^{A N}}{L} \times \frac{C^{A A} + C^{N A}}{L} + \frac{C^{N N} + C^{A N}}{L} \times \frac{C^{N N} + C^{N A}}{L} \end{matrix}

kappa混合矩阵为：

C^AA表示属于A类被正确分类的数量，C^AN表示属于A类未被正确分类的数量，C^NA表示属于非A类的未被正确分类的数量，C^NN表示属于非A类被正确分类的数量，L为样本总数。

S7、基分类器集成：对于步骤S6得到的基分类器，利用多数投票方法对基分类器的预测值进行融合，得到样本的预测值。

对所述样本基因表达向量分组时，将基因表达数据矩阵中的样本基因表达向量随机均分，并保证每一分组中的样本类标签的正负比例相同。

步骤S1中，将所述样本基因表达向量的分组轮流作为训练样本矩阵、测试样本矩阵和验证样本矩阵。

所述欠抽样的扰动次数为25次。

步骤S1中，利用贝叶斯算法选择特征有序表中排序位于前K个的排序聚合观察值所对应的训练基因表达序列作为列向量组成矩阵特征子集。

步骤A2中，β＝2。

步骤S7中，基分类器验证误差小于0.5。

本发明的有益效果在于：

1、本发明能够与现有的特征过滤方法配合使用，具有更广阔的运用前景

2、采用bicor相关系数为关联准则利用近邻传播聚类对基因进行分组，并在此基础上采用随机选择的方式构建特征子空间，从而可以获得存在差异性和更优的基分类器。

3、利用多数投票法进行融合基分类器，在5个常用基因表达数据集的实验结果表明，本发明的方法能够获得更好的分类效果，同时分类性能稳定。

附图说明

图1为本方明的总体设计思路流程图。

具体实施方式

以下结合附图及具体实施方式对本发明进行说明：

如图1所示，本发明的总体设计思路为：首先通过欠抽样对基因表达序列进行数据扰动，利用贝叶斯算法进行基因排序，随后选出排序靠前的基因作为特征子集；计算特征子集中的特征之间的关联距离负矩阵，利用关联距离负矩阵做为选择依据，利用近邻传播聚类算法对选出的特征子集进行聚类，生成一定量的簇集；再随机从每个簇集中随机选择一个基因并使用SVM支持向量机训练基分类器，计算每一个基分类器的kappa系数，利用kappa系数对集成分类器进行优化，筛选出大于阈值的基分类器，最后利用多数投票集成基分类器，具体步骤如下；

如图1所示，一种基于近邻传播聚类的集成分类器构建方法，包括以下步骤：

S1、数据预处理：利用基因数据采集系统获取包括多个样本的基因表达值及样本类标签的基因表达数据矩阵，其中，基因表达数据矩阵中的每行为样本基因表达向量、基因表达数据矩阵中除最后一列类标签外，其余的列向量均为基因；将基因表达数据矩阵中的样本基因表达向量分组，分组时，优选将基因表达数据矩阵中的样本基因表达向量随机均分，并保证每一分组中的样本类标签的正负比例相同。对于样本基因表达向量的分组，采用交叉验证的方式将样本基因表达向量的分组作为训练样本矩阵、测试样本矩阵和验证样本矩阵，即：将样本基因表达向量的分组轮流作为训练样本矩阵、测试样本矩阵和验证样本矩阵，以保证公平。并分别构成训练样本矩阵、测试样本矩阵和验证样本矩阵；将训练样本矩阵中的列向量作为训练基因，对所述训练基因进行欠抽样(即数据扰动)，优选扰动次数为25；然后对每次欠抽样扰动后的训练基因利用t′检验进行排序并保存每条训练基因在排序中的名次；将每条训练基因在每次扰动后得到的排序名次取均值作为该条训练基因的排序聚合观察值并保存至基因特征排序聚合观察值表；对该基因特征排序聚合观察值表中的排序聚合观察值按照降序排序，得到特征有序表，最后选择特征有序表中位于前K个的排序聚合观察值所对应的训练基因作为列向量组成矩阵特征子集；

S2、获取特征距离负矩阵：包括以下步骤：

A1、利用bicor相关系数衡量特征子集的特征关联：将特征子集中的行向量作为样本特征向量，并计算两样本特征向量X＝(x₁,x₂,...,x_M)和Y＝(y₁,y₂,...,y_M)的bicor相关系数，bicor相关系数的计算公式如下：

b i c o r (X, Y) = Σ_{i = 1}^{M} {\tilde{x}}_{i} {\tilde{y}}_{i}

其中：

{\tilde{x}}_{i} = \frac{(x_{i} - m e d (X)) w_{i}^{(x)}}{\sqrt{Σ_{k = 1}^{M} {[(x_{k} - m e d (X)) w_{k}^{(x)}]}^{2}}}

{\tilde{y}}_{i} = \frac{(y_{i} - m e d (Y)) w_{i}^{(y)}}{\sqrt{Σ_{k = 1}^{M} {[(y_{k} - m e d (Y)) w_{k}^{(y)}]}^{2}}}

w_{i}^{(x)} = {(1 - u_{i}^{2})}^{2} I (1 - | u_{i} |)

u_{i} = \frac{x_{i} - m e d (X)}{9 m a d (X)}

I (1 - | u_{i} |) = \{\begin{matrix} 1, & 1 - | u_{i} | &GreaterEqual; 0 \\ 0, & o t h e r w i s e \end{matrix}

s (i, j) = {(\frac{b i c o r (f_{i}, f_{j}) + 1}{2})}^{β} - 1

S3、利用近邻传播聚类算法对特征进行聚类：将步骤A2得到的特征间关联距离负矩阵S输入近邻传播聚类函数，并将近邻传播聚类函数的参数值设定为bicor相关系数，将特征子集聚类为M1个簇集作为特征分组。

S5、重复S4，直到基分类器数量达到预设值；

K a p p a = \frac{p r (a) - p r (e)}{1 - p r (e)}

其中：

\Pr (a) = \frac{C^{A A}}{L} + \frac{C^{N N}}{L}

\Pr (e) = \frac{C^{A A} + C^{A N}}{L} \times \frac{C^{A A} + C^{N A}}{L} + \frac{C^{N N} + C^{A N}}{L} \times \frac{C^{N N} + C^{N A}}{L}

kappa混合矩阵为：

C^AA表示属于A类被正确分类的数量，C^AN表示属于A类未被正确分类的数量，C^NA表示属于非A类的未被正确分类的数量，C^NN表示属于非A类被正确分类的数量，L为样本的总数。

S7、基分类器集成：对于步骤S6得到的基分类器，利用多数投票方法对基分类器的预测值进行融合，得到样本的预测值。多数投票的具体方法为：对于得到的基分类器a，b，c，对于某样本来说，若基分类器a对该样本的预测值为1(假设是二分类，只有0或者1)，基分类器b对该样本的预测值为1，基分类器c对该样本的预测值为0，统计预测值1和0的次数作为预测值的投票次数，将投票次数大于预设阈值的预测值1作为融合后的预测值。通常情况下选择投票次数大于基分类器总个数一半以上的预测值作为融合后的预测值。在所有基分类器的验证误差小于0.5时，基于多数投票方法的集成方法能得到比单分类器更好、更稳定的分类性能。

将本发明所述方法应用于表1中5个常用基因表达数据集，本发明的准确率明显高于现有方法。

表1实验效果对比表

实施例

为使本发明的目的、技术方案和有益效果更加清晰和更易于实验，以下结合具体实施例，并参照附图，对本发明做进一步详细说明。

为了更好的说明本方法的过程，使用了以下这份简单的数据来辅助。

可以看出，这份数据中一共有10个基因，样本标签一共有两个，特征基因有10个。有了以上的信息之后就可以开始本方法中的实验。

步骤1、数据预处理：首先根据样本的类标签把10份样本分成5等份。分类结果如下。

Fold1：46

Fold2：27

Fold3：310

Fold4：58

Fold5：19

选择其中的三份做训练样本矩阵，一份做测试样本矩阵，一份做验证样本矩阵。通过循环的排列这5等份的方式来实现5折交叉验证。这里选择其中一次的结果说明。

Fold1作为测试样本矩阵，Fold2作为验证样本矩阵，Fold3、4、5作为训练样本矩阵。对训练样本矩阵中的训练基因(即训练样本矩阵中的每列向量)进行欠抽样，优选将扰动次数设置为25次；然后对每次扰动后的训练基因利用t′检验进行排序并保存每条训练基因在排序中的名次；将每条训练基因在每次扰动后得到的排序名次取均值作为该训练基因的排序聚合观察值，排序聚合观察值组成训练样本矩阵的基因特征排序聚合观察值表；对该基因特征排序聚合观察值表中的排序聚合观察值按照降序排序，得到特征有序表，最后利用贝叶斯算法选择特征有序表中排序位于前5个的排序聚合观察值6、10、5、9、7。所对应的基因表达序列组成特征子集为AFFX.BioB.5_at、AFFX.BioB.M_at、AFFX.BioB.3-at、AFFX.BioC.3_atandAFFX.BioDn.5_at。

步骤2、获取特征距离负矩阵：包括以下步骤：

A1、利用bicor相关系数衡量特征子集的特征关联：将特征子集中样本基因表达向量作为特征向量，并计算两特征向量X＝(x₁,x₂,...,x_M)和Y＝(y₁,y₂,...,y_M)的bicor相关系数，bicor相关系数的计算公式如下：

b i c o r (X, Y) = Σ_{i = 1}^{M} {\tilde{x}}_{i} {\tilde{y}}_{i} - - - (1)

其中：

{\tilde{x}}_{i} = \frac{(x_{i} - m e d (X)) w_{i}^{(x)}}{\sqrt{Σ_{k = 1}^{M} {[(x_{k} - m e d (X)) w_{k}^{(x)}]}^{2}}} - - - (2)

{\tilde{y}}_{i} = \frac{(y_{i} - m e d (Y)) w_{i}^{(y)}}{\sqrt{Σ_{k = 1}^{M} {[(y_{k} - m e d (Y)) w_{k}^{(y)}]}^{2}}} - - - (3)

w_{i}^{(x)} = {(1 - u_{i}^{2})}^{2} I (1 - | u_{i} |) - - - (4)

u_{i} = \frac{x_{i} - m e d (X)}{9 m a d (X)} - - - (5)

I (1 - | u_{i} |) = \{\begin{matrix} 1, & 1 - | u_{i} | &GreaterEqual; 0 \\ 0, & o t h e r w i s e \end{matrix} - - - (6)

med(.)表示取向量的中值，mad(.)表示取向量绝对中位差。M为基因的个数。bicor相关系数是基于Tukey'sbiweight，是Hardin于2007年提出的一种稳定的、高效的、衡量两个对象之间关联的度量

s (i, j) = {(\frac{b i c o r (f_{i}, f_{j}) + 1}{2})}^{β} - 1 - - - (7)

其中，β为常量；当β＝2时分类性能较好。以s(i,j)作为矩阵元素得到特征间关联距离负矩阵S；

步骤3、将步骤A2得到的特征间关联距离负矩阵S输入近邻传播聚类函数，并将近邻传播聚类函数的参数值设定为bicor相关系数，将特征子集中的聚类为M1个簇集作为特征分组。

步骤2-3可使用R语言程序包apcluster中的函数adjacency作为近邻传播聚类系统来实现，其中把adjacency中的corFnc参数设置为bicor，输入特征子集，利用adjacency分别输出正负例的关联矩阵。本发明可归结为二分类问题，类标签采用1或者0，属于1的就是正例，属于0的就是负例。而关联矩阵就是正例的特征之间的特征矩阵，负例的特征之间的特征矩阵，最后把两者的结果取平均值减单位阵做为最后的关联矩阵，最后利用apcluster函数生成特征分组。一共生成了如下的两个特征分组：

分组1：AFFX.BioB.M_atAFFX.BioC.3_at

分组2：AFFX.BioDn.5_atAFFX.BioB.5_atAFFX.BioB.3_at

步骤4、构建基分类器：从每个特征分组中随机选择一条基因有放回的生成大小为M1的特征集，在该特征集对应的特征子空间中，利用SVM支持向量机训练基分类器

步骤5、重复S4，直到基分类器数量满足设定：基分类器的数量是人为设定的，所以重复次数也是可以调节的。

这次简单的实验只设置了一个分类器，使用apcluterR语言包中的apcluster函数生成分类器。

步骤6、筛选基分类器：利用得到的基分类器预测验证样本矩阵中样本基因表达向量的样本类标签，将预测得到的样本类标签与验证样本矩阵中原有的样本类标签进行对比得到被正确分类的样本数量和未被正确分类的样本数量并根据对比结果计算属于每一个基分类器的kappa系数，筛选出大于预设值阈值的基分类器；其中，kappa系数的公式如下：

K a p p a = \frac{p r (a) - p r (e)}{1 - p r (e)} - - - (8)

其中：

\Pr (a) = \frac{C^{A A}}{L} + \frac{C^{N N}}{L} - - - (9)

\Pr (e) = \frac{C^{A A} + C^{A N}}{L} \times \frac{C^{A A} + C^{N A}}{L} + \frac{C^{N N} + C^{A N}}{L} \times \frac{C^{N N} + C^{N A}}{L} - - - (10)

kappa混合矩阵为：

C^AA表示属于A类被正确分类的数量，C^AN表示属于A类未被正确分类的数量，C^NA表示属于非A类的未被正确分类的数量，C^NN表示属于非A类被正确分类的数量。

得到分类器以后，计算这个分类器的kappa系数，各项系数分别为，C^AA＝1，C^AN＝0，C^NA＝0，C^NN＝1，计算出的kappa系数为1。

步骤7、基分类器集成：在基分类器生成以后，采用多数投票方法对基分类器进行融合，得到样本的预测值。有研究表明，在所有基分类器器验证误差小于0.5时，基于多数投票方法的集成方法能得到比单分类器更好、更稳定的分类性能。

因为kappa系数的范围就是0到1之间，而之前计算出的结果为1，从这个结果上也可以看出这个分类器是完美分类，最后的分类精度也验证了这一点，该分类器的分类精确度为100％。

以上内容是结合具体的优选技术方案对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于近邻传播聚类的集成分类器构建方法，其特征在于，包括以下步骤：

S2、获取特征距离负矩阵：包括以下步骤：

b i c o r (X, Y) = Σ_{i = 1}^{M} {\tilde{x}}_{i} {\tilde{y}}_{i}

其中：

{\tilde{x}}_{i} = \frac{(x_{i} - m e d (X)) w_{i}^{(x)}}{\sqrt{Σ_{k = 1}^{M} {[(x_{k} - m e d (X)) w_{k}^{(x)}]}^{2}}}

{\tilde{y}}_{i} = \frac{(y_{i} - m e d (Y)) w_{i}^{(y)}}{\sqrt{Σ_{k = 1}^{M} {[(y_{k} - m e d (Y)) w_{k}^{(y)}]}^{2}}}

w_{i}^{(x)} = {(1 - u_{i}^{2})}^{2} I (1 - | u_{i} |)

u_{i} = \frac{x_{i} - m e d (X)}{9 m a d (X)}

I (1 - | u_{i} |) = \{\begin{matrix} 1, & 1 - | u_{i} | > 0 \\ 0, & o t h e r w i s e \end{matrix}

s (i, j) = {(\frac{b i c o r (f_{i}, f_{j}) + 1}{2})}^{β} - 1

S5、重复S4，直到基分类器数量达到预设值；

K a p p a = \frac{p r (a) - p r (e)}{1 - p r (e)}

其中：

\Pr (a) = \frac{C^{A A}}{L} + \frac{C^{N N}}{L}

\Pr (e) = \frac{C^{A A} + C^{A N}}{L} \times \frac{C^{A A} + C^{N A}}{L} + \frac{C^{N N} + C^{A N}}{L} \times \frac{C^{N N} + C^{N A}}{L}

kappa混合矩阵为：

2.根据权利要求1所述的一种基于近邻传播聚类的集成分类器构建方法，其特征在于，对所述样本基因表达向量分组时，将基因表达数据矩阵中的样本基因表达向量随机均分，并保证每一分组中的样本类标签的正负比例相同。

3.根据权利要求1所述的一种基于近邻传播聚类的集成分类器构建方法，其特征在于，步骤S1中，将所述样本基因表达向量的分组轮流作为训练样本矩阵、测试样本矩阵和验证样本矩阵。

4.根据权利要求1所述的一种基于近邻传播聚类的集成分类器构建方法，其特征在于，所述欠抽样的扰动次数为25次。

5.根据权利要求1所述的一种基于近邻传播聚类的集成分类器构建方法，其特征在于，步骤S1中，利用贝叶斯算法选择特征有序表中排序位于前K个的排序聚合观察值所对应的训练基因表达序列作为列向量组成矩阵特征子集。

6.根据权利要求1所述的一种基于近邻传播聚类的集成分类器构建方法，其特征在于，步骤A2中，β＝2。

7.根据权利要求1所述的一种基于近邻传播聚类的集成分类器构建方法，其特征在于，步骤S7中，基分类器验证误差小于0.5。