CN108171012B

CN108171012B - 一种基因分类方法与装置

Info

Publication number: CN108171012B
Application number: CN201810046229.7A
Authority: CN
Inventors: 孙林; 刘弱南; 张霄雨; 孟新超; 常宝方; 孟玲玲; 王蓝莹; 陈岁岁; 殷腾宇; 李源
Original assignee: Henan Normal University
Current assignee: Henan Normal University
Priority date: 2018-01-17
Filing date: 2018-01-17
Publication date: 2020-09-22
Anticipated expiration: 2038-01-17
Also published as: CN108171012A

Abstract

本发明涉及一种基因分类方法与装置，将LLE算法和AP聚类算法相结合，并利用提出的混合核函数对相似性度量函数进行改进。首先，采用LLE算法将原始高维基因表达数据集映射到低维空间达到降维目的；其次，提出一种新的全局核函数为F型核函数，并将其与高斯核函数线性组合成新的混合核函数，并利用提出的混合核函数计算相似度度量，构建新的相似度矩阵S；然后通过AP聚类算法和相似度矩阵对数据进行聚类，迭代得到最终聚类结果；最后通过和其他聚类方法进行对比，验证本发明算法的有效性和准确性。

Description

一种基因分类方法与装置

技术领域

本发明属于基因分类技术领域，具体涉及一种基因分类方法与装置。

背景技术

随着基因信息量的不断增加，如何对基因数据进行处理，从而得到有用的信息变成了难题。而数据集中通常包含大量的无关基因、冗余基因等，因此如何从海量信息库中分析并获取有效的特征基因子集，从而能够更好选出致病基因成为专家学者研究的重要课题。

聚类分析作为一种有效的数据分析方法，被广泛应用于数据挖掘、机器学习与模式识别、生物信息学等领域。聚类分析主要是将高维数据集聚为不同的类簇，使得类内距离尽可能小，类间距离尽可能大，其目的是更加有效的对高维数据进行分析，消除数据中的冗余数据，从而发现其中少部分潜在的有用数据。迄今为止，研究人员已提出许多聚类算法，如K-means、层次聚类、减法聚类、谱聚类等。大量实验已证明了上述几种聚类算法的有效性，但上述方法仍存在一些不足之处，例如需要事先确定聚类数和聚类中心，人为初始化的聚类数和聚类中心对聚类结果影响较大，不合适的聚类数和聚类中心会产生较差的聚类结果，降低聚类精度。

近邻传播(Affinity Propagation，AP)聚类算法将所有的数据点都看作是潜在的类代表点(Exemplar)，不需要事先确定聚类数目，通过迭代更新每个样本点的可信度和可用度产生聚类中心，此方法克服了传统聚类方法的缺陷。但该算法仍然存在不足之处，比如偏向参数P对聚类结果影响较大、在迭代时容易陷入局部震荡等问题。针对这些问题，许多学者相继提出了一些改进的AP聚类算法。目前的AP聚类算法利用欧氏距离来计算数据点间的相似性，判断两个样本点是否属于同一聚类中心，而欧氏距离将所有的数据点同等看待，忽略了数据本身具有的结构信息，容易造成错分，降低聚类精度。基于核函数的学习方法是一种非线性的信息处理工具，在处理数据时能够保留数据的原有信息，并在处理具有非线性关系的高维复杂模式识别任务时具有很大的优越性。由于混合核函数同时具有全局核函数的泛化能力和局部核函数的学习能力，因此，考虑利用混合核函数改进AP聚类算法中的相似性度量。但针对高维数据容易引起维数灾难、已有的AP聚类方法难以对高维数据进行有效分类等问题，需要将降维方法与聚类分析相结合，达到更好的聚类效果。

公布号为107526946的中国专利提出了“融合自学习和低秩表示的基因表达数据癌症分类方法”，该方法分别利用低秩矩阵和稀疏矩阵上使用一种无监督聚类方法，分别获得基于低秩矩阵和稀疏矩阵的预测结果，该方法利用少量的标注样本的同时提高了预测精度，在一定程度上减少了标注样本的时间和人力成本。但是，由于基因表达数据有很高的维度，现有的聚类方法难以对高维的基因表达数据进行有效分类。

发明内容

本发明的目的是提供一种基因分类方法与装置，用于解决现有基因分类方法聚类效果低的问题。

为解决上述技术问题，本发明提出一种基因分类方法，包括以下方法方案：

方法方案一，包括如下步骤：

1)获取基因表达数据，基因表达数据中包含设定数量的样本，每一样本中包含设定数量的基因，将基因表达数据中各基因进行排列组合形成矩阵，形成的矩阵为基因表达数据矩阵；

2)采用局部线性嵌入算法对所述基因表达数据矩阵进行降维，计算基因表达数据矩阵的线性嵌入矩阵，得到降维后的特征基因子集；

3)采用近邻传播聚类算法对所述特征基因子集进行聚类，得到基因的聚类结果。

方法方案二，在方法方案一的基础上，近邻传播聚类算法中相似度矩阵的构造包括如下步骤：

对特征基因子集中的样本分别建立全局核函数和局部核函数，并对全局核函数和局部核函数进行线性加权，线性加权后得到的函数作为相似性度量来计算所述相似度矩阵。

方法方案三，在方法方案二的基础上，所述局部核函数包括高斯核函数，所述全局核函数包括线性核函数、多项式核函数和sigmoid核函数。

方法方案四，在方法方案三的基础上，所述全局核函数还包括F型核函数，计算式如下：

式中，K(y_i,y_j)为F型核函数，y_i和y_j均为所述特征基因子集中的样本，β为核函数的参数，β∈R。

方法方案五，在方法方案一的基础上，步骤2)包括以下子步骤：

2-1)计算基因表达数据矩阵中所有样本的k个最近邻点；

2-2)根据各个样本的k个最近邻点，构建局部重构权值矩阵；

2-3)利用所述局部重构权值矩阵，计算基因表达数据矩阵的线性嵌入矩阵，得到所述降维后的特征基因子集。

方法方案六，在方法方案二的基础上，全局核函数的参数和局部核函数的参数通过粒子群算法进行寻优得到。

方法方案七、八、九，分别在方法方案二、三、四的基础上，所述近邻传播聚类算法对特征基因子集的聚类包括以下子步骤：

3-1)初始化可信度r(i,k)和可用度a(i,k)，可信度r(i,k)表示样本y_i适合做样本y_k的类代表点的代表程度，可用度a(i,k)表示样本y_i选择样本y_k做类代表点的适合程度；

3-2)根据近邻传播聚类算法，利用所述构造的相似度矩阵分别迭代计算可信度r(i,k)和可用度a(i,k)，直到达到设定迭代次数或迭代收敛，输出基因的聚类结果。

方法方案十、十一、十二，分别在方法方案七、八、九的基础上，可信度r(i,k)和可用度a(i,k)的迭代公式如下：

r^t(i,k)＝(1-λ)×r^t(i,k)+λ×r^t-1(i,k)

a^t(i,k)＝(1-λ)×a^t(i,k)+λ×a^t-1(i,k)

式中，r^t(i,k)为第t次迭代时可信度的值，r^t–1(i,k)为第t–1次迭代时可信度的值，λ为阻尼因子，a^t(i,k)为第t次迭代时可用度的值，a^t–1(i,k)为第t–1次迭代时可用度的值。

为解决上述技术问题，本发明还提出一种基因分类装置，包括以下装置方案：

装置方案一，包括处理器，用于执行实现以下步骤的指令：

装置方案二，在装置方案一的基础上，近邻传播聚类算法中相似度矩阵的构造包括如下步骤：

对特征基因子集中的样本分别建立全局核函数和局部核函数，并对全局核函数和局部核函数进行线性加权，线性加权后得到的函数作为所述相似度矩阵。

装置方案三，在装置方案二的基础上，所述局部核函数包括高斯核函数，所述全局核函数包括线性核函数、多项式核函数和sigmoid核函数。

装置方案四，在装置方案三的基础上，所述全局核函数还包括F型核函数，计算式如下：

装置方案五，在装置方案一的基础上，步骤2)包括以下子步骤：

2-1)计算基因表达数据矩阵中所有样本的k个最近邻点；

2-2)根据各个样本的k个最近邻点，构建局部重构权值矩阵；

装置方案六，在装置方案二的基础上，全局核函数的参数和局部核函数的参数通过粒子群算法进行寻优得到。

装置方案七、八、九，分别在装置方案二、三、四的基础上，所述近邻传播聚类算法对特征基因子集的聚类包括以下子步骤：

装置方案十、十一、十二，分别在装置方案七、八、九的基础上，可信度r(i,k)和可用度a(i,k)的迭代公式如下：

r^t(i,k)＝(1-λ)×r^t(i,k)+λ×r^t-1(i,k)

a^t(i,k)＝(1-λ)×a^t(i,k)+λ×a^t-1(i,k)

本发明的有益效果是：

本发明首先采用局部线性嵌入算法对基因表达数据矩阵进行降维，降维后得到特征基因子集，然后通过选取全局核函数和局部核函数构造相似度矩阵，结合该相似度矩阵采用近邻传播聚类算法对降维后的特征基因子集进行聚类，得到精确的聚类结果。本发明利用局部线性嵌入算法将高维基因表达数据映射到低维空间中获得低维的特征基因子集，将降维方法与聚类分析相结合，达到更好的聚类效果，解决了现有基因的聚类方法难以对高维数据进行有效分类的问题。

进一步，利用线性加权的方式将全局核函数和局部核函数结合构造相似度矩阵，利用近邻传播聚类算法结合该相似度矩阵对特征基因子集聚类，解决了现有技术中欧氏距离的负值构造相似度矩阵进行聚类得到的聚类结果不准确的问题。

进一步，本发明结合了全局核函数和局部核函数的优点构造相似度矩阵，全局核函数和局部核函数线性加权后的混合核函数的学习能力较强、泛化能力也较强，利用构造的相似度矩阵进行AP聚类的效果，比单独采用一种核函数构造相似度矩阵进行AP聚类的效果大大提高。

进一步，本发明构造了全新的全局核函数，即F型核函数，通过实验证明，将F型核函数和高斯核函数线性加权构造相似度矩阵后进行AP聚类的效果最好。

进一步，本发明通过基于智能优化方法中的粒子群优化算法对局部核函数的参数和全局核函数的参数进行优化选取，提高了核函数的性能。

进一步，本发明在迭代可信度和可用度时引入了阻尼因子，避免算法在迭代过程中可能出现震荡，提高了基因聚类的稳定性。

附图说明

图1是本发明的一种基因分类方法流程图；

图2是本发明的另一种基因分类方法流程图；

图3是本发明提出的一种F型核函数示意图；

图4是高斯核函数示意图；

图5是高斯核函数和F型核函数线性加权后的混合核函数示意图；

图6-1是Colon基因数据集的LLE降维结果示意图；

图6-2是Leukemia基因数据集的LLE降维结果示意图；

图6-3是Prostate基因数据集的LLE降维结果示意图；

图7-1是AP聚类算法在LLE降维后的Colon基因数据集的迭代结果示意图；

图7-2是GKAP算法在LLE降维后的Colon基因数据集的迭代结果示意图；

图7-3是FKAP算法在LLE降维后的Colon基因数据集的迭代结果示意图；

图7-4是HKAP算法在LLE降维后的Colon基因数据集的迭代结果示意图；

图8-1是AP聚类算法在LLE降维后的Leukemia基因数据集的迭代结果示意图；

图8-2是GKAP算法在LLE降维后的Leukemia基因数据集的迭代结果示意图；

图8-3是FKAP算法在LLE降维后的Leukemia基因数据集的迭代结果示意图；

图8-4是HKAP算法在LLE降维后的Leukemia基因数据集的迭代结果示意图；

图9-1是AP聚类算法在LLE降维后的Prostate基因数据集的迭代结果示意图；

图9-2是GKAP算法在LLE降维后的Prostate基因数据集的迭代结果示意图；

图9-3是FKAP算法在LLE降维后的Prostate基因数据集的迭代结果示意图；

图9-4是HKAP算法在LLE降维后的Prostate基因数据集的迭代结果示意图；

图10-1是Silhouette指标对Colon、Leukemia和Prostate三种基因数据集的聚类评价结果示意图；

图10-2是F-measure指标对Colon、Leukemia和Prostate三种基因数据集的聚类评价结果示意图。

具体实施方式

2007年，Frey等人在Science杂志上提出的一种近邻传播(AffinityPropagation，AP)聚类算法，该算法将所有的数据点都看作是潜在的类代表点(Exemplar)，不需要事先确定聚类数目，通过迭代更新每个样本点的可信度和可用度产生聚类中心。与传统的聚类方法比较，AP聚类算法具有3个优势：(1)不需要预先指定类的个数，由算法自动形成；(2)能够产生更为稳定的、精确的聚类结果；(3)在达到相同聚类精度的前提下，AP聚类算法需要的时间更少。

本发明拟用AP聚类算法实现基因分类问题，但该算法仍然存在不足之处，比如偏向参数P对聚类结果影响较大、在迭代时容易陷入局部震荡等问题。针对这些问题，许多学者相继提出了一些改进的AP聚类算法。目前，AP聚类算法利用欧氏距离来计算数据点间的相似性，判断两个样本点是否属于同一聚类中心，而欧氏距离将所有的数据点同等看待，忽略了数据本身具有的结构信息，容易造成错分，降低聚类精度。

鉴于已有的AP聚类方法难以对高维的基因表达数据进行有效分类，本发明考虑将降维方法与聚类分析相结合，达到更好的聚类效果。局部线性嵌入(Locally LinearEmbedding，LLE)算法是针对非线性数据维数约简的一种方法，该算法基于流行学习的思想，将高维空间中的数据映射到低维空间中，同时使数据中的每个样本点与其他近邻点关系不变，即保持数据本身的局部线性结构不变，经过线性维数约简后得到低维数据，达到降维的目的。

基于上述考虑，现对局部线性嵌入算法和近邻传播聚类算法进行以下介绍：

局部线性嵌入(Locally Linear Embedding，LLE)算法是Sual L和Roweis S于2000年针对高维数据提出的降维算法，LLE算法认为非线性数据都是局部线性的，且高维空间中线性邻域的样本映射到低维空间之后应该也是相邻或相关的，因此在降维领域被广泛应用。

局部线性嵌入算法的目的是在高维空间Rⁿ中的给定数据集X＝{x₁,x₂,…,x_n}找到存在于R^m空间中的低维数据集Y＝{y₁,y₂,…,y_m}，且m<<n。该算法具体步骤如下：

步骤1：输入D维原始数据集中的N个点x_ij，确定每个样本点的k个邻近点。利用欧氏距离公式计算每个样本点和其他样本点之间的距离并进行排序，选取距离第i个样本最近的k个点作为该样本的最近邻点。距离公式如下：

其中，i,j＝1,2,…,n，k＝1,2,…,D。每个样本点x_i与其余N-1个点的相似性度量采用上述距离公式进行计算，k值通过经验选取，一般要大于输出样本的维数。

步骤2：构建样本数据集的局部重构权值矩阵，最佳线性重构权值计算公式如下：

式中，ε_i是样本x_i和k个邻近点x₁,x₂,…,x_k的线性重构误差函数，较小的ε_i(w)能够得到较好的局部重构权值矩阵，这意味着误差权值越小，x_i和它的近邻点的距离越近；G_jk＝(x_i–x_j)^T(x_i–x_k)为局部格莱姆矩阵；w_ij为线性重构权值，且满足两个约束条件：(1)w_ij＝1，若x_j为x_i的近邻点，否则，w_ij＝0；(2)w_ij的总和为1，这些值也可被称为稀疏约束条件。采用基因表达数据矩阵中样本点的近邻点对其进行重构。此外，最佳权值w_j由拉格朗日乘数法进行计算，公式如下：

其中，G_jk ^-1为矩阵G_jk的逆矩阵，只有G_jk为正定矩阵时存在。其次，最小重构误差函数的权值满足上述约束条件。

步骤3：将数据集的所有样本点映射到低维空间中，利用步骤2中定义的权重矩阵计算输入样本的低维线性嵌入矩阵Y，公式如下：

式中，i,j＝1,2,…,k，(Y_i·Y_ij)表示Y_i和Y_ij的内积，M_ij为稀疏对称半正定矩阵，且Y_i1,Y_i2,…,Y_ik是Y_i的k个近邻点，并满足以下条件：

和

I为d维单位矩阵。

近邻传播聚类是2007年Frey在Science杂志上提出的一种聚类算法，该算法将所有的数据点都看作是潜在的类代表点(Exemplar)，通过数据点之间传递、更新信息，选出一个代表点的集合，最后将每个数据点归属到最近的代表点形成数据点划分。

AP聚类算法基于相似度矩阵S_N×N，此相似度矩阵S可以是对称的，也可以是不对称的，相似度s(i,j)可以通过两个样本点之间的距离进行度量，一般情况下，选择欧氏距离的负值来计算，公式如下：

s(i,j)＝-||x_i-x_j||²

其中，||·||表示欧几里得范数，当i＝j时，对角线上的值s(i,i)称为偏向参数P(Preference)，它决定对应数据点i能否成为类代表点，该值越大，点i成为类代表点的可能性也就越大。通常所有数据点的P值均设置为相同的值，即所有的数据点具有相同的几率成为类代表点。P的取值大小决定了算法产生的类簇个数的多少，取值较大时产生的类簇个数较多，较小时产生的类簇个数较少。

采用AP聚类算法聚类时传递可信度(Responsibility,r)和可用度(Availability,a)两个重要信息。可信度r(i,k)表示点x_k适合做点x_i类代表点的代表程度，可用度a(i,k)则表示点x_i选择点x_k做类代表点的适合程度。迭代公式如下：

算法迭代过程中，当有两个点或者多个点同时适合为同一簇类的聚类代表点的时候，算法就有可能出现振荡，无法收敛。针对这种情况，算法在迭代步骤中引入了阻尼因子(Damping Factor)λ，其中λ∈[0,1]，使得每一次迭代的r(i,k)和a(i,k)的值受上一次迭代值的约束，提高了算法的稳定性，假设当前迭代次数为t，迭代公式如下：

r^t(i,k)＝(1-λ)×r^t(i,k)+λ×r^t-1(i,k)

a^t(i,k)＝(1-λ)×a^t(i,k)+λ×a^t-1(i,k)

AP聚类算法通过迭代更新每一个点的可信度和可用度值，直到达到规定的迭代次数或迭代过程收敛，根据r(i,k)+a(i,k)选出类代表点集，同时将其余的数据点分配给最近的类代表点，形成类簇。由AP聚类算法的过程可知，该算法对参数P非常敏感，偏好值P的大小直接影响每个点自身可以作为聚类中心的可能性大小，一般P值取相似度的平均值得到的聚类数目比较适中，有学者采用智能优化算法如粒子群优化算法对AP聚类算法中涉及的参数进行优化，从而达到更好的聚类效果。

下面结合附图对本发明的具体实施方式作进一步的说明。

实施例一：

如图1所示，本发明的一种基因分类方法，包括以下步骤：

获取基因表达数据，基因表达数据中包含的样本数为第一设定值，每一样本中的基因数为第二设定值，将基因表达数据中各基因进行排列组合形成矩阵，形成的矩阵为基因表达数据矩阵。

采用局部线性嵌入算法对所述基因表达数据矩阵进行降维，计算基因表达数据矩阵的线性嵌入矩阵，得到降维后的特征基因子集。即计算基因表达数据矩阵中所有样本的k个最近邻点，根据各个样本的k个最近邻点，构建局部重构权值矩阵，然后利用该局部重构权值矩阵，计算基因表达数据矩阵的线性嵌入矩阵，得到降维后的特征基因子集。

构造相似度矩阵，然后结合该相似度矩阵，采用近邻传播聚类算法对所述特征基因子集进行聚类，得到基因的聚类结果。具体的，包括以下子步骤：

初始化可信度r(i,k)和可用度a(i,k)，可信度r(i,k)表示样本y_i适合做样本y_k的类代表点的代表程度，可用度a(i,k)表示样本y_i选择样本y_k做类代表点的适合程度。然后，根据近邻传播聚类算法，利用所述构造的相似度矩阵分别迭代计算可信度r(i,k)和可用度a(i,k)，直到达到设定迭代次数或迭代收敛，输出基因的聚类结果。可信度r(i,k)和可用度a(i,k)的迭代公式如下：

r^t(i,k)＝(1-λ)×r^t(i,k)+λ×r^t-1(i,k)

a^t(i,k)＝(1-λ)×a^t(i,k)+λ×a^t-1(i,k)

式中，r^t(i,k)为第t次迭代时可信度的值，r^t–1(i,k)为第t–1次迭代时可信度的值，a^t(i,k)为第t次迭代时可用度的值，a^t–1(i,k)为第t–1次迭代时可用度的值，λ为阻尼因子，该阻尼因子避免了算法在迭代过程中可能出现震荡，提高了基因聚类的稳定性。

本发明首先采用局部线性嵌入算法对基因表达数据矩阵进行降维，降维后得到特征基因子集，然后通过构造的相似度矩阵，采用近邻传播聚类算法对降维后的特征基因子集进行聚类，得到精确的聚类结果。本发明利用局部线性嵌入算法将高维基因表达数据映射到低维空间中获得低维的特征基因子集，将降维方法与聚类分析相结合，达到更好的聚类效果，解决了现有基因的聚类方法难以对高维数据进行有效分类的问题。

为了提高本发明基因分类方法的准确性，上述相似度矩阵是由全局核函数和局部核函数组成，具体构造过程采用如下步骤：分别选取全局核函数和局部核函数，并对全局核函数和局部核函数进行线性加权，线性加权后得到的函数作为相似性度量来计算相似度矩阵。解决了现有技术中欧氏距离的负值构造相似度矩阵进行聚类得到的聚类结果不准确的问题。

核函数的选取应使其为特征空间的一个点积，例如核函数K(x,y)的点积：Φ(x)×Φ(y)＝K(x,y)，对称核函数K(x,y)只要满足Mercer条件即可满足要求。取X＝{x₁,x₂,…,x_n}为空间R^N上的一个有限的高维基因表达数据集，x_i是该空间中的一个向量，其中i＝1,2,…,n，变换到特征空间的向量为Φ(x_i)，其中i＝1,2,…,n。数据点在特征空间H的距离公式定义为：

在高维特征空间中可以用Mercer核函数的方法来表示输入聚类空间中的点积，为k(x_i,x_j)＝<Φ(x)，Φ(y)>，记做k(i,j)。则上述特征空间H的距离公式转变为：

核函数的类型有许多，主要分为全局核函数和局部核函数，全局核函数允许相距很远的数据也可以对核函数值的大小产生重要影响，即离测试点较远的数据对核函数值影响较大，而在测试点附近的数据对核函数值影响很小，它的泛化能力较强，但学习能力较弱；而局部核函数允许相距很近的数据对核函数值的大小有较大影响，即在测试点附近的数据对核函数值影响较大，而离测试点很远的数据对核函数值影响很小，它的学习能力较强，但泛化能力较弱。基于以上特点，将两种核函数进行组合，使它们能够优势互补，从而达到比传统核函数更好的效果。常用的核函数有线性核函数、高斯核函数、多项式核函数、sigmoid核函数。其中高斯核函数是典型的局部核函数，而线性核函数、多项式核函数和sigmoid核函数则是全局核函数。

因此，上述局部核函数可选择高斯核函数，全局核函数可选择线性核函数、多项式核函数或sigmoid核函数。本发明结合了全局核函数和局部核函数的优点构造相似度矩阵，全局核函数和局部核函数线性加权后的混合核函数的学习能力较强、泛化能力也较强，利用构造的相似度矩阵进行AP聚类的效果，比单独采用一种核函数构造相似度矩阵进行AP聚类的效果大大提高。

为了进一步提高AP聚类的效果，本发明构造如下全新的全局核函数，即F型核函数，将该F型核函数和高斯核函数线性加权构造相似度矩阵后进行AP聚类的效果最好。F型核函数的计算式如下：

式中，K(y_i,y_j)为F型核函数，y_i和y_j均为所述特征基因子集中的样本，β为核函数的参数，β∈R。由其表达式可知，该核函数为平移不变核函数。下面给出该平移不变核函数满足支持向量机核函数条件的证明过程。

F型核函数的傅里叶变换如下：

证明：

由上式可知，exp(-jωy)>0，

所以F[k(ω)]>0；而当x趋近于无穷时，积分式趋近于0，所以该积分式为反常积分，积分值取其极限为0，即F[k(ω)]＝0。综上可知F型核函数的傅里叶变换满足F[k(ω)]≥0，即F型核函数可以作为支持向量机核函数。其函数图像如图3所示。图3中显示了当参数β分别取β＝2,2.5,3,3.5时的F型核函数曲线图，由该图可知，F型核函数为全局核函数，具有较好的泛化能力，且泛化能力随参数β的变化而变化。

由于全局核函数的泛化能力强而学习能力弱，局部核函数的学习能力强而泛化能力弱，因此考虑将全局核函数与局部核函数相结合，优势互补，形成新的混合核函数，使其同时具备全局核函数的泛化能力和局部核函数的学习能力。不同的核函数经过线性组合仍为核函数，因此本发明利用线性加权的方式将全局核函数和局部核函数结合成新的混合核函数。由于高斯核函数可以将输入空间映射到无限维的特征空间，结构简单，收敛快速，学习能力强，因此混合核函数中局部核函数选用高斯核函数来进行计算，公式如下：

其中，||·||表示欧几里得范数，x_i和x_j为基因表达数据的样本，1≤i≤n，1≤j≤n，n为基因表达数据中的样本个数，σ∈R。高斯核函数图像如图4所示。

对F型核函数和高斯核函数进行线性组合构成混合核函数，其公式为：

K_mix＝μK_F+(1-μ)K_G

其中，0≤μ≤1，用来调节两种核函数作用的大小。当μ＝1时，混合核函数变为全局核函数；当μ＝0时，混合核函数变为局部核函数。图5为μ取不同的值时，混合核函数的函数图像曲线。

根据混合核函数K_mix重新定义AP聚类算法的相似性度量s(i,j)，其定义如下：

给定一个高维基因表达数据集X＝{x₁,x₂,…,x_n}，利用混合函数计算AP聚类算法的相似性度量，其公式如下：

其中，||·||表示欧几里得范数，x_i和x_j为基因表达数据的样本，1≤i≤n，1≤j≤n，n为基因表达数据中的样本个数，μ,β,σ∈R。

由以上分析可知，核函数的性能依赖于其参数的选择，这是由于核函数及其参数直接决定非线性映射所对应的特征空间，若核函数参数选择不当，则会得到相当差的结果。高斯核函数中的参数σ对核函数影响很大，如果σ过小，则高斯核函数相当于线性核函数，在高维映射过程中会失去非线性映射的特性；如果σ过大，则利用核函数的决策边界对训练样本噪声会非常敏感。F型核函数中的参数β的取值直接决定了该核函数的泛化能力。

由于上述核函数的参数决定了核函数的性能，对于核函数参数的优化通常有三类：基于实验修正的方式，基于数据相关的方式，基于智能优化的方法，如粒子群算法。粒子群优化算法具有变量少、效率高等优点，被广泛用于智能优化领域。因此，本发明通过基于智能优化方法中的粒子群优化算法对局部核函数的参数和全局核函数的参数进行优化选取，以保证核函数的性能。

针对具有复杂结构的高维基因表达数据集，传统的基于距离的聚类方法不能够对其进行有效处理，本发明将LLE算法跟AP聚类算法相结合，并利用提出的混合核函数对相似性度量函数进行改进。首先，采用LLE算法将原始高维基因表达数据集映射到低维空间达到降维目的；其次，通过引入提出的混合核函数将降维后的特征基因子集映射到特征空间改变相似度度量，构建新的相似度矩阵S；然后，通过AP聚类算法和相似度矩阵对数据进行聚类，迭代得到最终聚类结果；最后通过和其他聚类方法进行对比，验证本发明算法的有效性和准确性。

本发明还提出了一种基因分类装置，包括处理器，用于执行实现以下步骤的指令：

1)获取基因表达数据，基因表达数据中包含的样本数为第一设定值，每一样本中的基因数为第二设定值，将基因表达数据中各基因进行排列组合形成矩阵，形成的矩阵为基因表达数据矩阵；

3)结合构造的相似度矩阵，采用近邻传播聚类算法对所述特征基因子集进行聚类，得到基因的聚类结果。

上述实施例中所指的基因分类装置，实际上是基于本发明方法流程的一种计算机解决方案，即一种软件构架，可以应用到计算机中，上述装置即为与方法流程相对应的处理进程。由于对上述方法的介绍已经足够清楚完整，故不再详细进行描述。

实施例二：

为了避免直接使用AP聚类算法对基因表达数据集进行聚类得到较多的聚类数，本发明将LLE算法与基于混合核函数的AP聚类算法相结合，首先，利用LLE算法将原始高维基因数据集映射到低维空间，经过线性维数约简得到特征基因子集；然后利用基于混合核函数的AP聚类算法对降维后的特征基因子集进行聚类，得到最终聚类结果。

如图2所示，具体步骤如下：

数据预处理：利用基因数据采集系统获取原始基因表达数据集，包括多个样本的基因表达值和样本类标签的基因表达数据矩阵，基因表达数据集的描述包括基因数据集的名称、样本数、属性数(即基因数)，以及类别数。基因表达数据矩阵中的每行为基因表达数据的样本，基因表达数据矩阵中除类标签所在列的列向量为基因。例如，原始待聚类的高维基因表达数据矩阵X＝{x₁,x₂,…,x_n}，其中，n为样本数，每个样本有若干个基因。

初始化每个基因表达数据矩阵中的样本的近邻点个数K和降维后的维数d，通过K近邻方式，计算基因表达数据矩阵中的所有样本的近邻点，即：利用欧氏距离公式计算基因表达数据矩阵中每个样本点和其他样本点之间的距离并进行排序，选取距离第i个样本最近的k个点作为该样本的最近邻点。距离公式如下：

式中，x_ik和x_jk为基因表达数据的样本，1≤i≤n，1≤j≤n，n为癌症基因表达谱数据中的样本个数，k＝1,2,…,D，D为基因表达数据矩阵的维数。

根据每个基因表达数据样本的近邻点，构建样本数据集的局部重构权值矩阵；最佳线性重构权值计算公式如下：

式中，ε_i是样本x_i和k个邻近点x₁,x₂,…,x_k的线性重构误差函数，较小的ε_i(w)能够得到较好的局部重构权值矩阵，这意味着误差权值越小，x_i和它的近邻点的距离越近；G_jk＝(x_i-x_j)^T(x_i-x_k)为局部格莱姆矩阵；w_ij为线性重构权值，且满足两个约束条件：(1)w_ij＝1，若x_j为x_i的近邻点，否则，w_ij＝0；(2)w_ij的总和为1，这些值也可被称为稀疏约束条件。采用基因表达数据矩阵中样本点的近邻点对其进行重构。此外，最佳权值w_j由拉格朗日乘数法进行计算，公式如下：

将基因表达数据矩阵X＝{x₁,x₂,…,x_n}的所有样本点映射到低维空间中，利用定义的权重矩阵计算输入基因表达数据样本的低维线性嵌入矩阵，得到降维后的特征基因子集Y，公式如下：

式中，i,j＝1,2,…,k，(Y_i·Y_ij)表示Y_i和Y_ij的内积，M_ij为稀疏对称半正定矩阵，且Y_i1,Y_i2,…,Y_ik是Y_i的k个近邻点，满足条件：

和

I为d维单位矩阵。

对降维后的特征基因子集Y利用改进后的AP聚类算法进行聚类，聚类步骤如下：

初始化可信度r(i,k)＝0，可用度a(i,k)＝0。其中，可信度r(i,k)表示基因表达数据矩阵中的样本x_k适合做样本x_i类代表点的代表程度，可用度a(i,k)则表示基因表达数据矩阵中的样本x_i选择样本x_k做类代表点的适合程度。求解AP聚类算法中的相似度矩阵S，相似度矩阵中的相似性s(i,j)可以通过两个基因表达数据的特征基因子集样本点之间的距离进行计算，本发明中利用提出的混合函数对相似性s(i,j)进行计算，其公式如下：

式中，K_F为F型核函数，K_G为高斯核函数，||·||表示欧几里得范数，x_i和x_j为特征基因子集中的样本，参数μ、σ和β由粒子群优化算法计算得到。

根据AP聚类算法原理，迭代计算可信度r(i,k)，和可用度a(i,k)，计算公式如下：

为了避免算法在迭代过程中可能出现的震荡，在迭代步骤中引入阻尼因子(Damping Factor)λ(λ∈[0,1])，使得每一次迭代的r(i,k)和a(i,k)的值受上一次迭代值的约束，提高了算法的稳定性，假设当前迭代次数为t，迭代公式如下：

r^t(i,k)＝(1-λ)×r^t(i,k)+λ×r^t-1(i,k)

a^t(i,k)＝(1-λ)×a^t(i,k)+λ×a^t-1(i,k)

然后，对特征基因子集中的所有样本点求r(i,k)+a(i,k)的值，找到所有样本点的类中心点，计算类中心个数，判断迭代过程是否满足最大迭代次数，或迭代过程收敛，若满足，则终止；若不满足，则继续迭代，直到得到最终聚类结果。

下面，通过实验验证本发明基因分类方法的有效性。

实验环境：操作系统Windows 7 64位，处理器Intel(R)Core(TM)i5-3470 CPU@3.20GHz，内存4.00GB，采用Matlab 2012b工具箱进行编码。实验数据为三种公开的基因表达谱数据集，这些数据集都为数值型数据，数据集描述如表1所示。为了验证提出的LLE-HKAP算法的有效性，分别与传统的AP聚类算法、单独使用高斯核函数的方法(GKAP)和单独使用F型核函数的方法(FKAP)进行对比分析。

表1基因表达数据集

为评价文中所提LLE-HKAP算法的聚类效果，本发明采用Silhouette和F-measure两个评价指标对聚类结果进行评价。

设一个具有n个样本的基因表达数据集被划分为k个聚类簇C_i(i＝1,2,…,k)，a(t)是在C_j中样本t与C_j中其他所有样本的平均相异度，d(t,C_i)是在C_j中样本t对另一个聚类簇C_i中所有样本的平均差异度，则b(t)＝min{d(t,C_i)}，i,j＝1,2,…,k，i≠j。计算样本t的Silhouette指标Sil的公式如下：

聚类中所有样本的平均Sil值反映了聚类质量，其中最大的Sil值代表最佳的聚类数和聚类质量。F-measure指标利用准确率P(Precision)和召回率R(Recall)对聚类结果进行评价。取值越大说明聚类方法的准确性也高，效果越好。

准确率P和召回率R的计算公式如下：

其中，TP表示被正确聚类出的样本数；FP表示不相关的被聚类出的样本数；FN表示相关的但未被聚类出的样本数。由上述公式可得，F-measure的计算公式：

分别利用AP聚类算法、GKAP算法、FKAP算法和LLE-HKAP算法对Colon、Leukemia和Prostate三种基因数据集进行实验，为了使所提算法更具有说服力，在采用三种对比算法进行实验之前，也对上述三种数据集采用局部线性嵌入算法进行降维，其结果如图6-1、图6-2和图6-3所示。

然后，对LLE降维后的特征基因子集分别利用上述四种算法进行聚类分析，算法中的参数由粒子群算法寻优得到；为证明其聚类结果的有效性，利用Silhouette和F-measure指标对所得聚类结果进行评价。分别利用AP聚类算法、GKAP算法、FKAP算法和LLE-HKAP算法对Colon基因数据集进行实验，具体实验结果如表2和图7-1、图7-2、图7-3、图7-4所示。

表2 Colon数据集的实验结果

由表2和图7-1、图7-2、图7-3、图7-4可知，对于Colon数据集，在利用LLE算法降维后，仅采用传统的AP聚类算法对其聚类的迭代次数为159次，运行时间为1.966s，得出的聚类数为7，与原始数据的类别数相差特别大；利用高斯核函数改进的GKAP算法对其聚类的迭代次数为140次，运行时间为1.763s，所得聚类数为3；利用本发明提出的F型核函数改进的FKAP算法对其聚类的迭代次数为133次，运行时间为1.591s，所得聚类数为4，由此可以证明利用单独的核函数改进AP聚类算法的有效性，但其效果仍不是最优；最后利用本发明提出的将局部的高斯核函数与全局的F型核函数进行线性组合的HKAP算法对LLE降维后的数据进行聚类，其迭代次数和运行时间大大降低，分别为80次和1.138s，且其最终聚类数为2，与原始数据的类别数相同，由此证明了本发明提出的LLE-HKAP算法的有效性。

分别利用AP聚类算法、GKAP算法、FKAP算法和LLE-HKAP算法对Leukemia基因数据集进行实验，实验结果如表3和图8-1、图8-2、图8-3和图8-4所示。

表3 Leukemia数据集的实验结果

由表3和图8-1、图8-2、图8-3和图8-4可知，对于Leukemia数据集，在利用LLE算法降维后，仅采用传统的AP聚类算法对其聚类的迭代次数为157次，运行时间为2.361s，聚类数为6，其效果最差；利用高斯核函数改进的GKAP算法对其聚类的迭代次数为134次，运行时间为1.685s，所得聚类数为4；利用本发明提出的F型核函数改进的FKAP算法对其聚类的迭代次数为132次，运行时间为1.684s，所得聚类数为3。由上述实验结果可知，高斯核函数和F型核函数单独改进AP聚类算法具有一定的有效性；最后利用本发明提出的将局部的高斯核函数与全局的F型核函数进行线性组合的HKAP算法对LLE降维后的数据进行聚类，其迭代次数和运行时间大大降低，分别为82次和1.547s，且其最终聚类数为2，与原始数据的类别数一样，由此证明了本发明提出的LLE-HKAP算法的有效性。

分别利用AP聚类算法、GKAP算法、FKAP算法和LLE-HKAP算法对Prostate基因数据集进行实验，实验结果如表4和图9-1、图9-2、图9-3和图9-4所示。

表4 Prostate数据集的实验结果

由表4和图9-1、图9-2、图9-3和图9-4可知，对于Prostate数据集，在利用LLE算法降维后，仅采用传统的AP聚类算法对其聚类的迭代次数为179次，运行时间为2.714s，得出的聚类数为4，与原始聚类数有一定差别；利用高斯核函数改进的GKAP算法对其聚类的迭代次数为128次，运行时间为1.941s，所得聚类数为2；利用本发明提出的F型核函数改进的FKAP算法对其聚类的迭代次数为149次，运行时间为1.966s，所得聚类数为2。由上述结果可知，对于Prostate数据集，F型核函数和高斯核函数都能准确的聚类出正确的类别数，但F型核函数在迭代次数上稍差于高斯核函数，它们的运行时间相差不大。最后利用本发明提出的将局部的高斯核函数与全局的F型核函数进行线性组合的HKAP算法对LLE降维后的数据进行聚类，其迭代次数和运行时间与单个核函数相比大大降低，分别为69次和1.198s，且其最终聚类数为2，与原始数据的类别数相同，由此证明了本发明提出的LLE-HKAP算法的不仅能够得到正确的类别数，在迭代次数和运行时间两个方面也具有较好的效果。

为进一步验证本发明所提算法的聚类精度，利用Silhouette和F-measure两个聚类指标对所得聚类结果进行评价，其结果如表2、表3、表4和图10-1、图10-2所示。由图10-1、图10-2可知，三种基因数据集在利用实验中给出的四种聚类算法聚类时，本发明提出的LLE-HKAP算法的Silhouette指标和F-measure指标的值均最大，由此表明，本发明的LLE-HKAP算法是有效的。综上，不论是在迭代次数和运行时间的指标上，还是在聚类精度上，都证明了本发明提出的基于LLE和混合核函数的近邻传播聚类算法的有效性。

本发明在传统聚类分析的基础上，结合局部线性嵌入算法和近邻传播聚类算法，对基因数据集进行聚类分析。本发明提出一种新的全局核函数，并与高斯核函数进行线性组合得到新的混合核函数；将提出的混合核函数引入相似度矩阵度量函数中，其参数采用粒子群优化算法进行选取；最后进行实验，利用LLE算法将高维基因数据集映射到低维空间进行降维，并将降维后的特征基因子集利用改进的相似性度量计算相似度矩阵，接着用AP聚类算法对其进行聚类分析，得到最终聚类结果。将本发明算法与传统AP聚类算法以及单个核函数的AP聚类算法进行对比，实验证明本发明提出的LLE-HKAP算法不仅在迭代次数和运行时间上有很大优势，而且具有更高的聚类精度，由此证明了本发明所提算法的有效性和准确性。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种基因分类方法，其特征在于，包括以下步骤：

3)采用近邻传播聚类算法对所述特征基因子集进行聚类，得到基因的聚类结果；

近邻传播聚类算法中相似度矩阵的构造包括如下步骤：

对特征基因子集中的样本分别建立全局核函数和局部核函数，并对全局核函数和局部核函数进行线性加权，线性加权后得到的函数作为相似性度量来计算所述相似度矩阵；

所述全局核函数包括F型核函数，计算式如下：

2.根据权利要求1所述的基因分类方法，其特征在于，所述局部核函数包括高斯核函数，所述全局核函数还包括线性核函数、多项式核函数和sigmoid核函数。

3.根据权利要求1所述的基因分类方法，其特征在于，步骤2)包括以下子步骤：

2-1)计算基因表达数据矩阵中所有样本的k个最近邻点；

2-2)根据各个样本的k个最近邻点，构建局部重构权值矩阵；

4.根据权利要求1所述的基因分类方法，其特征在于，全局核函数的参数和局部核函数的参数通过粒子群算法进行寻优得到。

5.根据权利要求1-2任一项所述的基因分类方法，其特征在于，所述近邻传播聚类算法对特征基因子集的聚类包括以下子步骤：

6.根据权利要求5所述的基因分类方法，其特征在于，可信度r(i,k)和可用度a(i,k)的迭代公式如下：

r^t(i,k)＝(1-λ)×r^t(i,k)+λ×r^t-1(i,k)

a^t(i,k)＝(1-λ)×a^t(i,k)+λ×a^t-1(i,k)

7.一种基因分类装置，其特征在于，包括处理器，用于执行实现以下步骤的指令：

近邻传播聚类算法中相似度矩阵的构造包括如下步骤：

所述全局核函数包括F型核函数，计算式如下：

8.根据权利要求7所述的基因分类装置，其特征在于，所述局部核函数包括高斯核函数，所述全局核函数还包括线性核函数、多项式核函数和sigmoid核函数。

9.根据权利要求7所述的基因分类装置，其特征在于，步骤2)包括以下子步骤：

2-1)计算基因表达数据矩阵中所有样本的k个最近邻点；

2-2)根据各个样本的k个最近邻点，构建局部重构权值矩阵；

10.根据权利要求7所述的基因分类装置，其特征在于，全局核函数的参数和局部核函数的参数通过粒子群算法进行寻优得到。

11.根据权利要求7-8任一项所述的基因分类装置，其特征在于，所述近邻传播聚类算法对特征基因子集的聚类包括以下子步骤：

12.根据权利要求11所述的基因分类装置，其特征在于，可信度r(i,k)和可用度a(i,k)的迭代公式如下：

r^t(i,k)＝(1-λ)×r^t(i,k)+λ×r^t-1(i,k)

a^t(i,k)＝(1-λ)×a^t(i,k)+λ×a^t-1(i,k)