CN111276188B

CN111276188B - 一种基于角度特征的短时序基因表达数据聚类方法

Info

Publication number: CN111276188B
Application number: CN202010060429.5A
Authority: CN
Inventors: 李爱民; 刘雅君; 裴广胜; 刘光明; 费蓉; 周红芳; 王磊; 黑新宏
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2020-01-19
Filing date: 2020-01-19
Publication date: 2023-03-24
Anticipated expiration: 2040-01-19
Also published as: CN111276188A

Abstract

一种基于角度特征的短时序基因表达数据聚类方法，包括以下步骤：步骤1，计算角度特征；步骤2，用Affinity Propagation聚类算法聚类；步骤3，获得功能显著的类；把基因表达变化趋势相似的基因聚为一类，同属于一类的基因有功能相似的趋势；对于每一个基因，相邻时间点的基因表达的变化可以计算出角度特征，反映基因表达的局部变化趋势；对于每个时间点，用换算后的角度间接反映整体的表达水平情况；以这些角度为特征，皮尔森相关系数作为相似性测度，相关系数越大，表示两个基因的表达谱越相似；然后用Affinity Propagation聚类算法聚类；具有聚类结果更能反映基因功能、聚类结果做功能富集分析的p值更小的特点。

Description

一种基于角度特征的短时序基因表达数据聚类方法

技术领域

本发明属于时序基因表达技术领域，具体涉及一种基于角度特征的短时序基因表达数据聚类方法。

背景技术

时序基因表达实验作为一种研究很多生物学过程的方法越来越普遍，比如研究细胞繁殖、发育、对外部刺激的响应等。基因的时序表达数据可以粗略地分为两类：有较少的时间点(一般3到8个时间点)的短时序，超过8个时间点的长时序。据估计现存的时序基因表达数据中，大约80％的时序基因表达数据集都是短时序的。大部分分析时序数据集的算法都是基于通用的聚类方法，比如层次聚类、k-means、Bayesian网络、自组织映射等。尽管这些方法能揭示一些生物学特征，但是它们没有考虑时序数据的时序本质。这些算法一般没有考虑各时间点的先后顺序和依赖关系。最近，一些研究组提出专门针对聚类时序基因表达数据的方法，包括表达谱的连续表示、隐马尔可夫模型以及其他方法。然而，这些算法在长时序数据集表现良好。对于短时序数据，由于采样点数量少导致数据过拟合，效果不佳。

对于短时序基因表达数据，Jason Ernst等人提出一个专门聚类短时序表达数据的算法STEM(Short Time-series Expression Miner)。该算法预先定义一个潜在的实验期望的模型表达谱集合。然后，把基因划分到不同的模型表达谱中。Jason Ernst等人讨论了如何获得这样的模型表达谱集合，以及如何通过permutation tests确定每个表达谱的显著性。Alain B Tchagang等人提出了两个新的能从短时序基因表达数据中提取生物学模型的算法ASTRO(Analysis of Short Time-series using Rank Order preservation)和MiMeSR(minimum mean squared residue)，分别受到秩保序框架和最小均方残差方法的启发。ASTRO也采用permutation test的方法确定显著的聚类。PESTS(A Platform forProcessing Expression of Short Time Series)采用FBPA(the Feature BasedPartitioning around medoids Algorithm)做时序数据的分析。PESTS可以做显著性分析、差异表达的显著性、多重检验校正、聚类分析。

现有的这些针对短时序基因表达数据进行分析的算法或工具都有一些局限性。本发明使用酵母氨基酸挨饿时序基因表达数据。用STEM对700个基因聚类，采用默认的参数，STEM可以聚类约50个，其中GO(Gene Ontology)显著的聚类约13个，其余的37个类都不是GO(Gene Ontology)功能显著的。也就是说大部分聚到一起的基因在功能上不是显著相似的或统计上功能不显著。另外，STEM聚类的结果较为集中。比如，当聚类为50个时，部分类中基因数量达到150个，其余类中的基因数量过少。这有可能将多个不同功能的基因都聚到一个类中。较多的类在一个类中，不利于后续对基因的功能进一步分析。ASTRO可用来从短时序基因表达数据中提取有统计显著性的表达谱，功能较为单一，对于没有被包含在显著表达谱中的基因不能分析。PESTS聚类后得到的结果用GO(Gene Ontology)进行功能富集性分析，其p-value远远大于STEM得到的p-value。

综上所述，这些算法在聚类方面得到的结果并不理想，现有的短时序基因表达数据聚类算法得到的多数类的功能并不显著。这些算法聚类时都采用了一个理论前提有相似功能的基因有相似的表达模式。在短时序基因表达数据方面，简单地应用这个结论，得到的结果并不好。

发明内容

为克服上述现有技术的不足，本发明的目的是提供一种基于角度特征的短时序基因表达数据聚类方法，本发明分析短时序基因表达数据的主要方法是聚类，把基因表达变化趋势相似的基因聚为一类，同属于一类的基因有功能相似的趋势；对于每一个基因，相邻时间点的基因表达的变化可以计算出角度特征，反映基因表达的局部变化趋势；对于每个时间点，用换算后的角度间接反映整体的表达水平情况；以这些角度为特征，皮尔森相关系数作为相似性测度，相关系数越大，表示两个基因的表达谱越相似；然后用AffinityPropagation聚类算法聚类；聚类结果采用GO(Gene Ontology)做功能富集分析；具有聚类结果更能反映基因功能、聚类结果做功能富集分析的p值更小的特点。

为实现上述目的，本发明采用的技术方案是：一种基于角度特征的短时序基因表达数据聚类方法，包括以下步骤：

步骤1，计算角度特征

相邻两个时间点的表达水平推算出来的角度作为表达水平变化的一个特征，因为它反映了一个时间段上表达水平的变化，对于任意的两个相邻的时间点，计算角度，对于给定的一个基因g，计算出一个角度向量v，

v_ig＝arctan((x_(i+1)g-x_ig)/(t_i+1-t_i)) (1)

其中，i＝1，2，…，n-1，n为时间点个数，t_i表示时间点i，x_ig是基因g在时间点i的表达水平，arctan指反正切函数，反正切函数是反三角函数的一种，即正切函数的反函数，v_ig表示基因g在全部n个时间点的角度向量。因此，对于有n个时间点的表达水平，共有n-1个角度，该角度称为一阶角度，一阶角度主要反映相邻两个时间点基因表达水平的变化趋势，

为了确保提取数据特征时尽量减少信息丢失，提取基因表达水平变化的整体变化情况，也转换为角度，便于聚类，计算公式为，

a_ig＝arctan(x_ig) (2)

因此，对于有n个时间点的表达水平，共有n-1个反映整体表达水平的角度。综上，对于任何一个基因，得到(n-1)+(n-1)＝2n-2维的角度向量；

对于任意的两个基因g和h，通过相应位置的角度相似性来衡量它们的表达水平的相似性，采用皮尔森相关系数(Pearson correlation coefficient，PCC)作为相似性测度：

其中，ρ_gh表示基因g的角度向量和基因h的角度向量之间的相关系数，cov(v_g，v_h)表示基因g的角度向量和基因h的角度向量之间的协方差，σ_g表示基因g的角度向量的标准差，σ_h表示基因h的角度向量的标准差，μ_g表示基因g的角度向量的期望，μ_h表示基因h的角度向量的期望，ρ_gh的值越大表示基因g和h的表达越相似；

步骤2，用Affinity Propagation聚类算法聚类

采用Affinity Propagation聚类算法对以上步骤获得的角度特征进行聚类，聚类时，可以指定聚类数量，也可不指定聚类数量，通过改变聚类的数量可以观察数量与性能之间的关系；

步骤3，获得功能显著的类

STEM使用permutation test(置换检验)找出表达谱是显著的类(不是随机产生的表达谱)，STEM把全部的表达谱预先固定下来，然后把全部基因划分到这些表达谱中，但是，这些表达谱中存在没有功能的随机的表达谱，如果把基因划分到这类表达谱中，会误判基因有功能，实际上，permutation test仅考虑了表达谱的基因的数量的多少，并没有考虑其他可以利用的特性。本发明的计算方法，考虑了三个方面的特性，其中之一是基因的数量。

所述的步骤3，利用permutation test计算确定一些显著类，然后再用另外的三个特性来找出重叠的类，具体做法是：

1)度量表达水平波动情况的指标：对于一个类q，求出该类的中心(分别取各个时间点的表达值的中值)，然后求类的中心在全部时间点的最大表达值和最小表达值之差，这是一个度量表达水平波动情况的指标，该差值越大则表达水平变化越大，该类代表的表达谱越不会是随机的，

d_q＝max(m_qi)-min(m_qi) (5)

其中，m_qi表示q类中所有基因在时间点i的表达水平的中值，其中i＝1,2,3…n,n为时间点个数，med表示求中值，r＝1,2,3…R,其中R表示q类中基因总数量，x_qri表示q类中第r个基因在第i个时间点的表达水平，max表示求最大值，min表示求最小值，d_q表示q类的中心在全部时间点的最大表达值和最小表达值之差，即表达水平波动情况；

2)同质性(Homogeneity)：对于一个类，计算各个基因和类中心之间的差异。然后求这些差异的平均值，最后用1减去归一化的平均值，得到同质性(Homogeneity)，

其中，u_qi表示q类在时间点i到时间点i+1之间的角度的中值，其中i＝1，2，3…n-1,n为时间点个数，med表示求中值，v_qri为q类第r个基因在时间点i到时间点i+1之间的角度，R表示q类中基因总数量，I_q表示q类中的各个基因的角度向量与类中心的角度向量的差异的均值，即同质性；

3)衡量聚类结果为功能显著类的程度指标：在满足以上两个条件的前提下，某个类中的基因越多越不随机，也就是说，在表达水平变化较大并且内聚性较好的类中，基因越多越不会是随机的，如果内聚性不好的话，基因越多会导致相反的结果，

某个类q的功能显著的程度为：

SIG_q＝d_q/max(d_y)+2(1-I_q/max(I_y))+2(N_q/max(N_y)) (8)

其中，SIG_q为q类为功能显著类的程度指标(取值范围0～5)，y＝1，2，3…Y，Y为类的数量，d_q表示q类的中心在全部时间点的最大表达值和最小表达值之差，d_y表示y类的中心在全部时间点的最大表达值和最小表达值之差，N_y表示y类中基因的数量，N_q表示q类中基因的数量，I_y表示y类中的各个基因的角度向量与类中心的角度向量的差异的均值，I_q表示q类中的各个基因的角度向量与类中心的角度向量的差异的均值，max表示求最大值。

与现有技术相比，本发明的有益效果是：

本发明提出一种基于角度特征的短时序基因表达数据聚类算法。该算法考虑相邻两个时间点基因表达水平的变化趋势，该趋势采用角度特征表示。多个时间点的角度变化反应整体的表达水平变化趋势。以此来度量不同基因的表达水平变化趋势是否相同。采用的相似性测度为皮尔森相关系数。然后采用Affinity Propagation聚类算法对角度特征向量进行聚类，为了从聚类结果中获得功能显著的类，本发明定义了三个指标：度量表达水平波动情况的指标、同质性(Homogeneity)、衡量聚类结果为功能显著类的程度指标。满足这三个指标的类为最终的功能显著的类，然后采用GO(Gene Ontology)功能富集分析对前一步确定的功能显著的类进行分析。本发明算法与其他当前流行的算法对比可以发现，本发明算法的聚类结果优于当前最为流行的STEM算法。本发明算法可以用于分析短时序基因表达数据，也可用于分析其他领域(如经济、金融等)的短时序数据。

本发明的实验结果如下：

1)数据及数据预处理，本发明使用短时序的酵母氨基酸挨饿基因表达数据，酿酒酵母受氨基酸挨饿时，共采样五个时间点的基因表达水平：分别为0.5小时、1小时、2小时、4小时、6小时，并测量没有受刺激的酿酒酵母细胞的基因表达水平(时间点为0小时)，带有缺失值的基因被过滤掉，表达水平变化不大的基因也被过滤掉(最大表达水平和最小表达水平的倍数小于4的基因被过滤掉)。经过这些条件的过滤，最终保留了700个基因。

2)功能富集的类，首先，用permutation test计算确定一些显著类(图1“permutation方法”)，假设有n个(图1中“前n个显著类”)。用本发明的方法对基因排序，取前面的n个，这n个与permutation test计算确定一些显著类中重叠的类取出来作为最终的显著类(图1中“交集”)。本发明的方法可以提高正确率，得到的类更具有功能富集上的统计意义。并且，越靠前的类是显著类的可能性越大。

计算类的中心代表的表达谱的最大表达水平和最小表达水平的差异、类内各基因的表达水平变化趋势的相似性、类内基因的数量这三个方面的特征。综合考虑得到功能显著类的程度，最后从大到小排序，取前面的n个，这n个与permutation test计算确定一些显著类中重叠的类取出来作为最终的显著类。发现随着聚类数量的增加，准确率略有下降(本发明实验测试了10到70类)，如图2所示。在做聚类分析时，如果聚类的数量较少，那么每个类中的基因数量较多。这种情况做GO功能富集分析时，一般都会呈现出功能显著性。然而，其中的功能显著性的GO项比较多，导致无法准确判断这些基因在特定条件下哪些GO项是真正的功能项。相反，如果聚类数量较多，每个类中的基因数量较少，此时聚类，一般而言，功能显著的类会减少，并且，GO项也会减少。因此，聚类时选择合适的类的数量较为关键。

3)本发明算法(ABClustering)与STEM算法比较，

STEM是专门针对短时序基因表达聚类的常用算法，在酵母氨基酸挨饿时序基因表达数据集上，分别用本发明算法(ABClustering)与STEM算法进行聚类分析，结果如表1所示，由表可以看出，聚类数量较少时，本发明算法和STEM性能相当，聚类数量增多时，本发明算法优于STEM算法。

表1本发明算法(ABClustering)与STEM算法的结果比较

4)GO功能富集分析，通过实验发现，高度相似的表达谱会得到高度相似的功能。不仅在表达水平的变化趋势上相似而且在表达水平值上相似的基因，其功能更具有相似性。

现有的聚类仅考虑了表达谱之间的相关系数，或者仅考虑表达水平对结果的影响。在相似性测度方面，较为有效的方法是，既考虑表达谱之间的欧式距离，又考虑表达谱的相关系数。

用皮尔森相关系数对基因表达谱进行Affinity Propagation聚类，聚类数量为10，用GOTermFinder做功能富集性分析，对于其中5个GO富集的类，分别去掉其中离类的中心的欧式距离最大的约10％的基因。对剩下的基因做GO分析，发现准确率有一定程度提高。同时，p-value有下降，见表2。

表2用皮尔森相关系数聚类

本发明提出一种专门用于对短时序基因表达数据进行聚类的基于角度特征的算法(ABClustering)；ABClustering与STEM相比，获得的聚类的结果在功能上更趋向一致，p-value更小。另外，通过实验发现：在短时序基因表达数据中，高度共表达的基因有高度的共功能趋势。基因的表达谱越相似功能越相似；在相似性测度方面，较为有效的方法是既考虑表达谱之间的欧式距离，又考虑表达谱的相关系数；ABClustering既可以用于短时序基因表达数据聚类，又可以用于其它领域的短时序数据聚类。

附图说明

图1为本发明的显著表达谱的准确率随着聚类数量变化的折线图。

图2为本发明的聚类数量与GO显著比率之间的关系图。

具体实施方式

下面结合附图和实施例对本发明作进一步详细说明。

一种基于角度特征的短时序基因表达数据聚类方法，包括以下步骤：

步骤1，计算角度特征

v_ig＝arctan((x_(i+1)g-x_ig)/(t_i+1-t_i)) (1)

a_ig＝arctan(x_ig) (2)

其中，ρ_gh表示基因g的角度向量和基因h的角度向量之间的相关系数，cov(v_g，v_h)表示基因g的角度向量和基因h的角度向量之间的协方差，σ_g表示基因g的角度向量的标准差，σ_h表示基因h的角度向量的标准差，μ_g表示基因g的角度向量的期望，μ_h表示基因h的角度向量的期望，ρ_gh的值越大表示基因g和h的表达越相似，E表示数学期望；

步骤2，用Affinity Propagation(仿射传播)聚类算法聚类

步骤3，获得功能显著的类

STEM(STEM是Short Time-series Expression Miner的英文缩写)使用permutation test(置换检验)找出表达谱是显著的类(不是随机产生的表达谱)，STEM把全部的表达谱预先固定下来，然后把全部基因划分到这些表达谱中，但是，这些表达谱中存在没有功能的随机的表达谱，如果把基因划分到这类表达谱中，会误判基因有功能，实际上，permutation test仅考虑了表达谱的基因的数量的多少，并没有考虑其他可以利用的特性。本发明的计算方法，考虑了三个方面的特性，其中之一是基因的数量。

d_q＝max(m_qi)-min(m_qi) (5)

某个类q的功能显著的程度为：

SIG_q＝d_q/max(d_y)+2(1-I_q/max(I_y))+2(N_q/max(N_y)) (8)

参见图1，用permutation test计算确定一些显著类(图1“permutation方法”)，假设有n个(图1中“前n个显著类”)。用本发明的方法对基因排序，取前面的n个，这n个与permutation test计算确定一些显著类中重叠的类取出来作为最终的显著类(图1中“交集”)。本发明的方法可以提高正确率，得到的类更具有功能富集上的统计意义。并且，越靠前的类是显著类的可能性越大。

参见图2，在做聚类分析时，如果聚类的数量较少，那么每个类中的基因数量较多。这种情况做GO功能富集分析时，一般都会呈现出功能显著性。然而，其中的功能显著性的GO项比较多，导致无法准确判断这些基因在特定条件下哪些GO项是真正的功能项。相反，如果聚类数量较多，每个类中的基因数量较少，此时聚类，一般而言，功能显著的类会减少，并且，GO项也会减少。因此，聚类时选择合适的类的数量较为关键。

Claims

1.一种基于角度特征的短时序基因表达数据聚类方法，其特征在于，包括以下步骤：

步骤1，计算角度特征

v_ig＝arctan((x_(i+1)g-x_ig)/(t_i+1-t_i)) (1)

其中，i＝1，2，…，n-1，n为时间点个数，t_i表示时间点i，x_ig是基因g在时间点i的表达水平，arctan指反正切函数，反正切函数是反三角函数的一种，即正切函数的反函数，v_ig表示基因g在全部n个时间点的角度向量，因此，对于有n个时间点的表达水平，共有n-1个角度，该角度称为一阶角度，一阶角度主要反映相邻两个时间点基因表达水平的变化趋势，

a_ig＝arctan(x_ig) (2)

因此，对于有n个时间点的表达水平，共有n-1个反映整体表达水平的角度，对于任何一个基因，得到(n-1)+(n-1)＝2n-2维的角度向量；

对于任意的两个基因g和h，通过相应位置的角度相似性来衡量它们的表达水平的相似性，采用皮尔森相关系数作为相似性测度：

步骤2，用Affinity Propagation聚类算法聚类

步骤3，获得功能显著的类

STEM使用permutation test找出表达谱是显著的类，STEM把全部的表达谱预先固定下来，然后把全部基因划分到这些表达谱中，permutation test仅考虑了表达谱的基因的数量的多少，没有考虑其他可以利用的特性。

2.根据权利要求1所述的一种基于角度特征的短时序基因表达数据聚类方法，其特征在于，所述的步骤3，利用permutation test计算确定一些显著类，然后再用另外的三个特性来找出重叠的类，具体做法是：

d_q＝max(m_qi)-min(m_qi) (5)

其中，m_qi表示q类中所有基因在时间点i的表达水平的中值，其中i＝1,2,3…n,n为时间点个数，med表示求中值，r＝1,2,3…R,其中R表示q类中基因总数量，x_qri表示q类中第r个基因在第i个时间点的表达水平，max表示求最大值，min表示求最小值，d_q表示q类的中心在全部时间点的最大表达值和最小表达值之差，即为表达水平波动情况；

2)同质性：对于一个类，计算各个基因和类中心之间的差异，然后求这些差异的平均值，最后用1减去归一化的平均值，得到同质性，

其中，u_qi表示q类在时间点i到时间点i+1之间的角度的中值，其中i＝1，2，3…n-1,n为时间点个数，med表示求中值，v_qri为q类第r个基因在时间点i到时间点i+1之间的角度，R表示q类中基因总数量，I_q表示q类中的各个基因的角度向量与类中心的角度向量的差异的均值，即为同质性；

某个类q的功能显著的程度为：

SIG_q＝d_q/max(d_y)+2(1-I_q/max(I_y))+2(N_q/max(N_y)) (8)

其中，SIG_q为q类为功能显著类的程度指标(取值范围0～5)，y＝1，2，3…Y，Y为类的数量，d_q表示q类的中心在全部时间点的最大表达值和最小表达值之差，d_y表示y类的中心在全部时间点的最大表达值和最小表达值之差，Ny表示y类中基因的数量，Nq表示q类中基因的数量，Iy表示y类中的各个基因的角度向量与类中心的角度向量的差异的均值，Iq表示q类中的各个基因的角度向量与类中心的角度向量的差异的均值，max表示求最大值。