CN111276188B - 一种基于角度特征的短时序基因表达数据聚类方法 - Google Patents

一种基于角度特征的短时序基因表达数据聚类方法 Download PDF

Info

Publication number
CN111276188B
CN111276188B CN202010060429.5A CN202010060429A CN111276188B CN 111276188 B CN111276188 B CN 111276188B CN 202010060429 A CN202010060429 A CN 202010060429A CN 111276188 B CN111276188 B CN 111276188B
Authority
CN
China
Prior art keywords
class
expression
gene
angle
genes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010060429.5A
Other languages
English (en)
Other versions
CN111276188A (zh
Inventor
李爱民
刘雅君
裴广胜
刘光明
费蓉
周红芳
王磊
黑新宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Technology
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN202010060429.5A priority Critical patent/CN111276188B/zh
Publication of CN111276188A publication Critical patent/CN111276188A/zh
Application granted granted Critical
Publication of CN111276188B publication Critical patent/CN111276188B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Bioethics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于角度特征的短时序基因表达数据聚类方法,包括以下步骤:步骤1,计算角度特征;步骤2,用Affinity Propagation聚类算法聚类;步骤3,获得功能显著的类;把基因表达变化趋势相似的基因聚为一类,同属于一类的基因有功能相似的趋势;对于每一个基因,相邻时间点的基因表达的变化可以计算出角度特征,反映基因表达的局部变化趋势;对于每个时间点,用换算后的角度间接反映整体的表达水平情况;以这些角度为特征,皮尔森相关系数作为相似性测度,相关系数越大,表示两个基因的表达谱越相似;然后用Affinity Propagation聚类算法聚类;具有聚类结果更能反映基因功能、聚类结果做功能富集分析的p值更小的特点。

Description

一种基于角度特征的短时序基因表达数据聚类方法
技术领域
本发明属于时序基因表达技术领域,具体涉及一种基于角度特征的短时序基因表达数据聚类方法。
背景技术
时序基因表达实验作为一种研究很多生物学过程的方法越来越普遍,比如研究细胞繁殖、发育、对外部刺激的响应等。基因的时序表达数据可以粗略地分为两类:有较少的时间点(一般3到8个时间点)的短时序,超过8个时间点的长时序。据估计现存的时序基因表达数据中,大约80%的时序基因表达数据集都是短时序的。大部分分析时序数据集的算法都是基于通用的聚类方法,比如层次聚类、k-means、Bayesian网络、自组织映射等。尽管这些方法能揭示一些生物学特征,但是它们没有考虑时序数据的时序本质。这些算法一般没有考虑各时间点的先后顺序和依赖关系。最近,一些研究组提出专门针对聚类时序基因表达数据的方法,包括表达谱的连续表示、隐马尔可夫模型以及其他方法。然而,这些算法在长时序数据集表现良好。对于短时序数据,由于采样点数量少导致数据过拟合,效果不佳。
对于短时序基因表达数据,Jason Ernst等人提出一个专门聚类短时序表达数据的算法STEM(Short Time-series Expression Miner)。该算法预先定义一个潜在的实验期望的模型表达谱集合。然后,把基因划分到不同的模型表达谱中。Jason Ernst等人讨论了如何获得这样的模型表达谱集合,以及如何通过permutation tests确定每个表达谱的显著性。Alain B Tchagang等人提出了两个新的能从短时序基因表达数据中提取生物学模型的算法ASTRO(Analysis of Short Time-series using Rank Order preservation)和MiMeSR(minimum mean squared residue),分别受到秩保序框架和最小均方残差方法的启发。ASTRO也采用permutation test的方法确定显著的聚类。PESTS(A Platform forProcessing Expression of Short Time Series)采用FBPA(the Feature BasedPartitioning around medoids Algorithm)做时序数据的分析。PESTS可以做显著性分析、差异表达的显著性、多重检验校正、聚类分析。
现有的这些针对短时序基因表达数据进行分析的算法或工具都有一些局限性。本发明使用酵母氨基酸挨饿时序基因表达数据。用STEM对700个基因聚类,采用默认的参数,STEM可以聚类约50个,其中GO(Gene Ontology)显著的聚类约13个,其余的37个类都不是GO(Gene Ontology)功能显著的。也就是说大部分聚到一起的基因在功能上不是显著相似的或统计上功能不显著。另外,STEM聚类的结果较为集中。比如,当聚类为50个时,部分类中基因数量达到150个,其余类中的基因数量过少。这有可能将多个不同功能的基因都聚到一个类中。较多的类在一个类中,不利于后续对基因的功能进一步分析。ASTRO可用来从短时序基因表达数据中提取有统计显著性的表达谱,功能较为单一,对于没有被包含在显著表达谱中的基因不能分析。PESTS聚类后得到的结果用GO(Gene Ontology)进行功能富集性分析,其p-value远远大于STEM得到的p-value。
综上所述,这些算法在聚类方面得到的结果并不理想,现有的短时序基因表达数据聚类算法得到的多数类的功能并不显著。这些算法聚类时都采用了一个理论前提有相似功能的基因有相似的表达模式。在短时序基因表达数据方面,简单地应用这个结论,得到的结果并不好。
发明内容
为克服上述现有技术的不足,本发明的目的是提供一种基于角度特征的短时序基因表达数据聚类方法,本发明分析短时序基因表达数据的主要方法是聚类,把基因表达变化趋势相似的基因聚为一类,同属于一类的基因有功能相似的趋势;对于每一个基因,相邻时间点的基因表达的变化可以计算出角度特征,反映基因表达的局部变化趋势;对于每个时间点,用换算后的角度间接反映整体的表达水平情况;以这些角度为特征,皮尔森相关系数作为相似性测度,相关系数越大,表示两个基因的表达谱越相似;然后用AffinityPropagation聚类算法聚类;聚类结果采用GO(Gene Ontology)做功能富集分析;具有聚类结果更能反映基因功能、聚类结果做功能富集分析的p值更小的特点。
为实现上述目的,本发明采用的技术方案是:一种基于角度特征的短时序基因表达数据聚类方法,包括以下步骤:
步骤1,计算角度特征
相邻两个时间点的表达水平推算出来的角度作为表达水平变化的一个特征,因为它反映了一个时间段上表达水平的变化,对于任意的两个相邻的时间点,计算角度,对于给定的一个基因g,计算出一个角度向量v,
vig=arctan((x(i+1)g-xig)/(ti+1-ti)) (1)
其中,i=1,2,…,n-1,n为时间点个数,ti表示时间点i,xig是基因g在时间点i的表达水平,arctan指反正切函数,反正切函数是反三角函数的一种,即正切函数的反函数,vig表示基因g在全部n个时间点的角度向量。因此,对于有n个时间点的表达水平,共有n-1个角度,该角度称为一阶角度,一阶角度主要反映相邻两个时间点基因表达水平的变化趋势,
为了确保提取数据特征时尽量减少信息丢失,提取基因表达水平变化的整体变化情况,也转换为角度,便于聚类,计算公式为,
aig=arctan(xig) (2)
因此,对于有n个时间点的表达水平,共有n-1个反映整体表达水平的角度。综上,对于任何一个基因,得到(n-1)+(n-1)=2n-2维的角度向量;
对于任意的两个基因g和h,通过相应位置的角度相似性来衡量它们的表达水平的相似性,采用皮尔森相关系数(Pearson correlation coefficient,PCC)作为相似性测度:
Figure BDA0002374283760000041
其中,ρgh表示基因g的角度向量和基因h的角度向量之间的相关系数,cov(vg,vh)表示基因g的角度向量和基因h的角度向量之间的协方差,σg表示基因g的角度向量的标准差,σh表示基因h的角度向量的标准差,μg表示基因g的角度向量的期望,μh表示基因h的角度向量的期望,ρgh的值越大表示基因g和h的表达越相似;
步骤2,用Affinity Propagation聚类算法聚类
采用Affinity Propagation聚类算法对以上步骤获得的角度特征进行聚类,聚类时,可以指定聚类数量,也可不指定聚类数量,通过改变聚类的数量可以观察数量与性能之间的关系;
步骤3,获得功能显著的类
STEM使用permutation test(置换检验)找出表达谱是显著的类(不是随机产生的表达谱),STEM把全部的表达谱预先固定下来,然后把全部基因划分到这些表达谱中,但是,这些表达谱中存在没有功能的随机的表达谱,如果把基因划分到这类表达谱中,会误判基因有功能,实际上,permutation test仅考虑了表达谱的基因的数量的多少,并没有考虑其他可以利用的特性。本发明的计算方法,考虑了三个方面的特性,其中之一是基因的数量。
所述的步骤3,利用permutation test计算确定一些显著类,然后再用另外的三个特性来找出重叠的类,具体做法是:
1)度量表达水平波动情况的指标:对于一个类q,求出该类的中心(分别取各个时间点的表达值的中值),然后求类的中心在全部时间点的最大表达值和最小表达值之差,这是一个度量表达水平波动情况的指标,该差值越大则表达水平变化越大,该类代表的表达谱越不会是随机的,
Figure BDA0002374283760000051
dq=max(mqi)-min(mqi) (5)
其中,mqi表示q类中所有基因在时间点i的表达水平的中值,其中i=1,2,3…n,n为时间点个数,med表示求中值,r=1,2,3…R,其中R表示q类中基因总数量,xqri表示q类中第r个基因在第i个时间点的表达水平,max表示求最大值,min表示求最小值,dq表示q类的中心在全部时间点的最大表达值和最小表达值之差,即表达水平波动情况;
2)同质性(Homogeneity):对于一个类,计算各个基因和类中心之间的差异。然后求这些差异的平均值,最后用1减去归一化的平均值,得到同质性(Homogeneity),
Figure BDA0002374283760000061
Figure BDA0002374283760000062
其中,uqi表示q类在时间点i到时间点i+1之间的角度的中值,其中i=1,2,3…n-1,n为时间点个数,med表示求中值,vqri为q类第r个基因在时间点i到时间点i+1之间的角度,R表示q类中基因总数量,Iq表示q类中的各个基因的角度向量与类中心的角度向量的差异的均值,即同质性;
3)衡量聚类结果为功能显著类的程度指标:在满足以上两个条件的前提下,某个类中的基因越多越不随机,也就是说,在表达水平变化较大并且内聚性较好的类中,基因越多越不会是随机的,如果内聚性不好的话,基因越多会导致相反的结果,
某个类q的功能显著的程度为:
SIGq=dq/max(dy)+2(1-Iq/max(Iy))+2(Nq/max(Ny)) (8)
其中,SIGq为q类为功能显著类的程度指标(取值范围0~5),y=1,2,3…Y,Y为类的数量,dq表示q类的中心在全部时间点的最大表达值和最小表达值之差,dy表示y类的中心在全部时间点的最大表达值和最小表达值之差,Ny表示y类中基因的数量,Nq表示q类中基因的数量,Iy表示y类中的各个基因的角度向量与类中心的角度向量的差异的均值,Iq表示q类中的各个基因的角度向量与类中心的角度向量的差异的均值,max表示求最大值。
与现有技术相比,本发明的有益效果是:
本发明提出一种基于角度特征的短时序基因表达数据聚类算法。该算法考虑相邻两个时间点基因表达水平的变化趋势,该趋势采用角度特征表示。多个时间点的角度变化反应整体的表达水平变化趋势。以此来度量不同基因的表达水平变化趋势是否相同。采用的相似性测度为皮尔森相关系数。然后采用Affinity Propagation聚类算法对角度特征向量进行聚类,为了从聚类结果中获得功能显著的类,本发明定义了三个指标:度量表达水平波动情况的指标、同质性(Homogeneity)、衡量聚类结果为功能显著类的程度指标。满足这三个指标的类为最终的功能显著的类,然后采用GO(Gene Ontology)功能富集分析对前一步确定的功能显著的类进行分析。本发明算法与其他当前流行的算法对比可以发现,本发明算法的聚类结果优于当前最为流行的STEM算法。本发明算法可以用于分析短时序基因表达数据,也可用于分析其他领域(如经济、金融等)的短时序数据。
本发明的实验结果如下:
1)数据及数据预处理,本发明使用短时序的酵母氨基酸挨饿基因表达数据,酿酒酵母受氨基酸挨饿时,共采样五个时间点的基因表达水平:分别为0.5小时、1小时、2小时、4小时、6小时,并测量没有受刺激的酿酒酵母细胞的基因表达水平(时间点为0小时),带有缺失值的基因被过滤掉,表达水平变化不大的基因也被过滤掉(最大表达水平和最小表达水平的倍数小于4的基因被过滤掉)。经过这些条件的过滤,最终保留了700个基因。
2)功能富集的类,首先,用permutation test计算确定一些显著类(图1“permutation方法”),假设有n个(图1中“前n个显著类”)。用本发明的方法对基因排序,取前面的n个,这n个与permutation test计算确定一些显著类中重叠的类取出来作为最终的显著类(图1中“交集”)。本发明的方法可以提高正确率,得到的类更具有功能富集上的统计意义。并且,越靠前的类是显著类的可能性越大。
计算类的中心代表的表达谱的最大表达水平和最小表达水平的差异、类内各基因的表达水平变化趋势的相似性、类内基因的数量这三个方面的特征。综合考虑得到功能显著类的程度,最后从大到小排序,取前面的n个,这n个与permutation test计算确定一些显著类中重叠的类取出来作为最终的显著类。发现随着聚类数量的增加,准确率略有下降(本发明实验测试了10到70类),如图2所示。在做聚类分析时,如果聚类的数量较少,那么每个类中的基因数量较多。这种情况做GO功能富集分析时,一般都会呈现出功能显著性。然而,其中的功能显著性的GO项比较多,导致无法准确判断这些基因在特定条件下哪些GO项是真正的功能项。相反,如果聚类数量较多,每个类中的基因数量较少,此时聚类,一般而言,功能显著的类会减少,并且,GO项也会减少。因此,聚类时选择合适的类的数量较为关键。
3)本发明算法(ABClustering)与STEM算法比较,
STEM是专门针对短时序基因表达聚类的常用算法,在酵母氨基酸挨饿时序基因表达数据集上,分别用本发明算法(ABClustering)与STEM算法进行聚类分析,结果如表1所示,由表可以看出,聚类数量较少时,本发明算法和STEM性能相当,聚类数量增多时,本发明算法优于STEM算法。
表1本发明算法(ABClustering)与STEM算法的结果比较
Figure BDA0002374283760000091
4)GO功能富集分析,通过实验发现,高度相似的表达谱会得到高度相似的功能。不仅在表达水平的变化趋势上相似而且在表达水平值上相似的基因,其功能更具有相似性。
现有的聚类仅考虑了表达谱之间的相关系数,或者仅考虑表达水平对结果的影响。在相似性测度方面,较为有效的方法是,既考虑表达谱之间的欧式距离,又考虑表达谱的相关系数。
用皮尔森相关系数对基因表达谱进行Affinity Propagation聚类,聚类数量为10,用GOTermFinder做功能富集性分析,对于其中5个GO富集的类,分别去掉其中离类的中心的欧式距离最大的约10%的基因。对剩下的基因做GO分析,发现准确率有一定程度提高。同时,p-value有下降,见表2。
表2用皮尔森相关系数聚类
Figure BDA0002374283760000101
本发明提出一种专门用于对短时序基因表达数据进行聚类的基于角度特征的算法(ABClustering);ABClustering与STEM相比,获得的聚类的结果在功能上更趋向一致,p-value更小。另外,通过实验发现:在短时序基因表达数据中,高度共表达的基因有高度的共功能趋势。基因的表达谱越相似功能越相似;在相似性测度方面,较为有效的方法是既考虑表达谱之间的欧式距离,又考虑表达谱的相关系数;ABClustering既可以用于短时序基因表达数据聚类,又可以用于其它领域的短时序数据聚类。
附图说明
图1为本发明的显著表达谱的准确率随着聚类数量变化的折线图。
图2为本发明的聚类数量与GO显著比率之间的关系图。
具体实施方式
下面结合附图和实施例对本发明作进一步详细说明。
一种基于角度特征的短时序基因表达数据聚类方法,包括以下步骤:
步骤1,计算角度特征
相邻两个时间点的表达水平推算出来的角度作为表达水平变化的一个特征,因为它反映了一个时间段上表达水平的变化,对于任意的两个相邻的时间点,计算角度,对于给定的一个基因g,计算出一个角度向量v,
vig=arctan((x(i+1)g-xig)/(ti+1-ti)) (1)
其中,i=1,2,…,n-1,n为时间点个数,ti表示时间点i,xig是基因g在时间点i的表达水平,arctan指反正切函数,反正切函数是反三角函数的一种,即正切函数的反函数,vig表示基因g在全部n个时间点的角度向量。因此,对于有n个时间点的表达水平,共有n-1个角度,该角度称为一阶角度,一阶角度主要反映相邻两个时间点基因表达水平的变化趋势,
为了确保提取数据特征时尽量减少信息丢失,提取基因表达水平变化的整体变化情况,也转换为角度,便于聚类,计算公式为,
aig=arctan(xig) (2)
因此,对于有n个时间点的表达水平,共有n-1个反映整体表达水平的角度。综上,对于任何一个基因,得到(n-1)+(n-1)=2n-2维的角度向量;
对于任意的两个基因g和h,通过相应位置的角度相似性来衡量它们的表达水平的相似性,采用皮尔森相关系数(Pearson correlation coefficient,PCC)作为相似性测度:
Figure BDA0002374283760000111
其中,ρgh表示基因g的角度向量和基因h的角度向量之间的相关系数,cov(vg,vh)表示基因g的角度向量和基因h的角度向量之间的协方差,σg表示基因g的角度向量的标准差,σh表示基因h的角度向量的标准差,μg表示基因g的角度向量的期望,μh表示基因h的角度向量的期望,ρgh的值越大表示基因g和h的表达越相似,E表示数学期望;
步骤2,用Affinity Propagation(仿射传播)聚类算法聚类
采用Affinity Propagation聚类算法对以上步骤获得的角度特征进行聚类,聚类时,可以指定聚类数量,也可不指定聚类数量,通过改变聚类的数量可以观察数量与性能之间的关系;
步骤3,获得功能显著的类
STEM(STEM是Short Time-series Expression Miner的英文缩写)使用permutation test(置换检验)找出表达谱是显著的类(不是随机产生的表达谱),STEM把全部的表达谱预先固定下来,然后把全部基因划分到这些表达谱中,但是,这些表达谱中存在没有功能的随机的表达谱,如果把基因划分到这类表达谱中,会误判基因有功能,实际上,permutation test仅考虑了表达谱的基因的数量的多少,并没有考虑其他可以利用的特性。本发明的计算方法,考虑了三个方面的特性,其中之一是基因的数量。
所述的步骤3,利用permutation test计算确定一些显著类,然后再用另外的三个特性来找出重叠的类,具体做法是:
1)度量表达水平波动情况的指标:对于一个类q,求出该类的中心(分别取各个时间点的表达值的中值),然后求类的中心在全部时间点的最大表达值和最小表达值之差,这是一个度量表达水平波动情况的指标,该差值越大则表达水平变化越大,该类代表的表达谱越不会是随机的,
Figure BDA0002374283760000131
dq=max(mqi)-min(mqi) (5)
其中,mqi表示q类中所有基因在时间点i的表达水平的中值,其中i=1,2,3…n,n为时间点个数,med表示求中值,r=1,2,3…R,其中R表示q类中基因总数量,xqri表示q类中第r个基因在第i个时间点的表达水平,max表示求最大值,min表示求最小值,dq表示q类的中心在全部时间点的最大表达值和最小表达值之差,即表达水平波动情况;
2)同质性(Homogeneity):对于一个类,计算各个基因和类中心之间的差异。然后求这些差异的平均值,最后用1减去归一化的平均值,得到同质性(Homogeneity),
Figure BDA0002374283760000132
Figure BDA0002374283760000133
其中,uqi表示q类在时间点i到时间点i+1之间的角度的中值,其中i=1,2,3…n-1,n为时间点个数,med表示求中值,vqri为q类第r个基因在时间点i到时间点i+1之间的角度,R表示q类中基因总数量,Iq表示q类中的各个基因的角度向量与类中心的角度向量的差异的均值,即同质性;
3)衡量聚类结果为功能显著类的程度指标:在满足以上两个条件的前提下,某个类中的基因越多越不随机,也就是说,在表达水平变化较大并且内聚性较好的类中,基因越多越不会是随机的,如果内聚性不好的话,基因越多会导致相反的结果,
某个类q的功能显著的程度为:
SIGq=dq/max(dy)+2(1-Iq/max(Iy))+2(Nq/max(Ny)) (8)
其中,SIGq为q类为功能显著类的程度指标(取值范围0~5),y=1,2,3…Y,Y为类的数量,dq表示q类的中心在全部时间点的最大表达值和最小表达值之差,dy表示y类的中心在全部时间点的最大表达值和最小表达值之差,Ny表示y类中基因的数量,Nq表示q类中基因的数量,Iy表示y类中的各个基因的角度向量与类中心的角度向量的差异的均值,Iq表示q类中的各个基因的角度向量与类中心的角度向量的差异的均值,max表示求最大值。
参见图1,用permutation test计算确定一些显著类(图1“permutation方法”),假设有n个(图1中“前n个显著类”)。用本发明的方法对基因排序,取前面的n个,这n个与permutation test计算确定一些显著类中重叠的类取出来作为最终的显著类(图1中“交集”)。本发明的方法可以提高正确率,得到的类更具有功能富集上的统计意义。并且,越靠前的类是显著类的可能性越大。
参见图2,在做聚类分析时,如果聚类的数量较少,那么每个类中的基因数量较多。这种情况做GO功能富集分析时,一般都会呈现出功能显著性。然而,其中的功能显著性的GO项比较多,导致无法准确判断这些基因在特定条件下哪些GO项是真正的功能项。相反,如果聚类数量较多,每个类中的基因数量较少,此时聚类,一般而言,功能显著的类会减少,并且,GO项也会减少。因此,聚类时选择合适的类的数量较为关键。

Claims (2)

1.一种基于角度特征的短时序基因表达数据聚类方法,其特征在于,包括以下步骤:
步骤1,计算角度特征
相邻两个时间点的表达水平推算出来的角度作为表达水平变化的一个特征,因为它反映了一个时间段上表达水平的变化,对于任意的两个相邻的时间点,计算角度,对于给定的一个基因g,计算出一个角度向量v,
vig=arctan((x(i+1)g-xig)/(ti+1-ti)) (1)
其中,i=1,2,…,n-1,n为时间点个数,ti表示时间点i,xig是基因g在时间点i的表达水平,arctan指反正切函数,反正切函数是反三角函数的一种,即正切函数的反函数,vig表示基因g在全部n个时间点的角度向量,因此,对于有n个时间点的表达水平,共有n-1个角度,该角度称为一阶角度,一阶角度主要反映相邻两个时间点基因表达水平的变化趋势,
为了确保提取数据特征时尽量减少信息丢失,提取基因表达水平变化的整体变化情况,也转换为角度,便于聚类,计算公式为,
aig=arctan(xig) (2)
因此,对于有n个时间点的表达水平,共有n-1个反映整体表达水平的角度,对于任何一个基因,得到(n-1)+(n-1)=2n-2维的角度向量;
对于任意的两个基因g和h,通过相应位置的角度相似性来衡量它们的表达水平的相似性,采用皮尔森相关系数作为相似性测度:
Figure FDA0002374283750000021
其中,ρgh表示基因g的角度向量和基因h的角度向量之间的相关系数,cov(vg,vh)表示基因g的角度向量和基因h的角度向量之间的协方差,σg表示基因g的角度向量的标准差,σh表示基因h的角度向量的标准差,μg表示基因g的角度向量的期望,μh表示基因h的角度向量的期望,ρgh的值越大表示基因g和h的表达越相似,E表示数学期望;
步骤2,用Affinity Propagation聚类算法聚类
采用Affinity Propagation聚类算法对以上步骤获得的角度特征进行聚类,聚类时,可以指定聚类数量,也可不指定聚类数量,通过改变聚类的数量可以观察数量与性能之间的关系;
步骤3,获得功能显著的类
STEM使用permutation test找出表达谱是显著的类,STEM把全部的表达谱预先固定下来,然后把全部基因划分到这些表达谱中,permutation test仅考虑了表达谱的基因的数量的多少,没有考虑其他可以利用的特性。
2.根据权利要求1所述的一种基于角度特征的短时序基因表达数据聚类方法,其特征在于,所述的步骤3,利用permutation test计算确定一些显著类,然后再用另外的三个特性来找出重叠的类,具体做法是:
1)度量表达水平波动情况的指标:对于一个类q,求出该类的中心(分别取各个时间点的表达值的中值),然后求类的中心在全部时间点的最大表达值和最小表达值之差,这是一个度量表达水平波动情况的指标,该差值越大则表达水平变化越大,该类代表的表达谱越不会是随机的,
Figure FDA0002374283750000031
dq=max(mqi)-min(mqi) (5)
其中,mqi表示q类中所有基因在时间点i的表达水平的中值,其中i=1,2,3…n,n为时间点个数,med表示求中值,r=1,2,3…R,其中R表示q类中基因总数量,xqri表示q类中第r个基因在第i个时间点的表达水平,max表示求最大值,min表示求最小值,dq表示q类的中心在全部时间点的最大表达值和最小表达值之差,即为表达水平波动情况;
2)同质性:对于一个类,计算各个基因和类中心之间的差异,然后求这些差异的平均值,最后用1减去归一化的平均值,得到同质性,
Figure FDA0002374283750000032
Figure FDA0002374283750000033
其中,uqi表示q类在时间点i到时间点i+1之间的角度的中值,其中i=1,2,3…n-1,n为时间点个数,med表示求中值,vqri为q类第r个基因在时间点i到时间点i+1之间的角度,R表示q类中基因总数量,Iq表示q类中的各个基因的角度向量与类中心的角度向量的差异的均值,即为同质性;
3)衡量聚类结果为功能显著类的程度指标:在满足以上两个条件的前提下,某个类中的基因越多越不随机,也就是说,在表达水平变化较大并且内聚性较好的类中,基因越多越不会是随机的,如果内聚性不好的话,基因越多会导致相反的结果,
某个类q的功能显著的程度为:
SIGq=dq/max(dy)+2(1-Iq/max(Iy))+2(Nq/max(Ny)) (8)
其中,SIGq为q类为功能显著类的程度指标(取值范围0~5),y=1,2,3…Y,Y为类的数量,dq表示q类的中心在全部时间点的最大表达值和最小表达值之差,dy表示y类的中心在全部时间点的最大表达值和最小表达值之差,Ny表示y类中基因的数量,Nq表示q类中基因的数量,Iy表示y类中的各个基因的角度向量与类中心的角度向量的差异的均值,Iq表示q类中的各个基因的角度向量与类中心的角度向量的差异的均值,max表示求最大值。
CN202010060429.5A 2020-01-19 2020-01-19 一种基于角度特征的短时序基因表达数据聚类方法 Active CN111276188B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010060429.5A CN111276188B (zh) 2020-01-19 2020-01-19 一种基于角度特征的短时序基因表达数据聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010060429.5A CN111276188B (zh) 2020-01-19 2020-01-19 一种基于角度特征的短时序基因表达数据聚类方法

Publications (2)

Publication Number Publication Date
CN111276188A CN111276188A (zh) 2020-06-12
CN111276188B true CN111276188B (zh) 2023-03-24

Family

ID=71003098

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010060429.5A Active CN111276188B (zh) 2020-01-19 2020-01-19 一种基于角度特征的短时序基因表达数据聚类方法

Country Status (1)

Country Link
CN (1) CN111276188B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1710558A (zh) * 2005-07-07 2005-12-21 复旦大学 基于主集分割的基因芯片表达谱数据聚类方法
CN101256641A (zh) * 2008-03-11 2008-09-03 浙江大学 基于模型的聚类法与贝叶斯网络法的基因芯片数据分析法
CN106980775A (zh) * 2017-03-27 2017-07-25 华南师范大学 基于全部连续列一致演化型的时序基因芯片数据挖掘方法
CN108846261A (zh) * 2018-04-26 2018-11-20 浙江工业大学 基于可视图算法的基因表达时序数据分类方法
CN108897984A (zh) * 2018-05-07 2018-11-27 上海理工大学 基于ct影像组学特征与肺癌基因表达间相关性分析方法
CN109829494A (zh) * 2019-01-28 2019-05-31 山西大学 一种基于加权相似性度量的聚类集成方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1452993A1 (en) * 2002-12-23 2004-09-01 STMicroelectronics S.r.l. Method of analysis of a table of data relating to expressions of genes and relative identification system of co-expressed and co-regulated groups of genes
US20060190190A1 (en) * 2005-02-02 2006-08-24 Zohar Yakhini Method and system for analysis of gene-expression data
KR100964181B1 (ko) * 2007-03-21 2010-06-17 한국전자통신연구원 유전자 어휘 분류체계를 이용한 유전자 발현 프로파일군집화 방법 및 그 장치
US8396872B2 (en) * 2010-05-14 2013-03-12 National Research Council Of Canada Order-preserving clustering data analysis system and method

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1710558A (zh) * 2005-07-07 2005-12-21 复旦大学 基于主集分割的基因芯片表达谱数据聚类方法
CN101256641A (zh) * 2008-03-11 2008-09-03 浙江大学 基于模型的聚类法与贝叶斯网络法的基因芯片数据分析法
CN106980775A (zh) * 2017-03-27 2017-07-25 华南师范大学 基于全部连续列一致演化型的时序基因芯片数据挖掘方法
CN108846261A (zh) * 2018-04-26 2018-11-20 浙江工业大学 基于可视图算法的基因表达时序数据分类方法
CN108897984A (zh) * 2018-05-07 2018-11-27 上海理工大学 基于ct影像组学特征与肺癌基因表达间相关性分析方法
CN109829494A (zh) * 2019-01-28 2019-05-31 山西大学 一种基于加权相似性度量的聚类集成方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
一种模糊相似关系的基因表达数据聚类方法;姜永森等;《计算机工程与应用》;20110311(第08期);全文 *
基于传输互表达的基因表达数据聚类分析;王文俊;《模式识别与人工智能》;20121215(第06期);全文 *
基于功能模块的基因表达谱聚类分析;郭政等;《同济大学学报(自然科学版)》;20060228(第02期);全文 *

Also Published As

Publication number Publication date
CN111276188A (zh) 2020-06-12

Similar Documents

Publication Publication Date Title
CN106067034B (zh) 一种基于高维矩阵特征根的配电网负荷曲线聚类方法
CN114114039B (zh) 一种电池系统的单体电芯一致性的评估方法和装置
CN110826618A (zh) 一种基于随机森林的个人信用风险评估方法
CN111062425A (zh) 基于c-k-smote算法的不平衡数据集处理方法
CN109284662B (zh) 一种基于迁移学习的水下声音信号分类方法
Cordero et al. Tracing co-regulatory network dynamics in noisy, single-cell transcriptome trajectories
CN111709454B (zh) 一种基于最优copula模型的多风电场出力聚类评估方法
CN110796159A (zh) 基于k-means算法的电力数据分类方法及系统
Guo et al. An improved oversampling method for imbalanced data–SMOTE based on Canopy and K-means
CN116451097A (zh) 一种自适应确定聚类数的电力负荷数据加权增量聚类方法
CN110909792A (zh) 一种基于改进K-means算法和新聚类有效性指标的聚类分析方法
CN111276188B (zh) 一种基于角度特征的短时序基因表达数据聚类方法
CN112967755A (zh) 一种面向单细胞rna测序数据的细胞类型识别方法
CN111090679B (zh) 基于时序影响和图嵌入的时序数据表示学习方法
CN112149052A (zh) 一种基于plr-dtw的日负荷曲线聚类方法
Sebayang et al. Optimization on Purity K-means using variant distance measure
CN111797899A (zh) 一种低压台区kmeans聚类方法及系统
CN116307250A (zh) 一种基于典型日特征选择的短期负荷预测方法及系统
CN115017988A (zh) 一种用于状态异常诊断的竞争聚类方法
CN115472179A (zh) 面向数字音频删除和插入篡改操作自动检测方法及系统
CN114358191A (zh) 一种基于深度自动编码器的基因表达数据聚类方法
CN112738724B (zh) 一种区域目标人群的精准识别方法、装置、设备和介质
CN108664807A (zh) 基于随机采样及模体压缩的差分隐私dna模体识别的方法
CN113593700B (zh) 分析肺癌进展的方法、装置、设备、介质及程序产品
CN110853655A (zh) 一种基于K-means算法的声纹模型初始方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant