CN103514381B - 整合拓扑属性和功能的蛋白质生物网络模体识别方法 - Google Patents

整合拓扑属性和功能的蛋白质生物网络模体识别方法 Download PDF

Info

Publication number
CN103514381B
CN103514381B CN201310307364.XA CN201310307364A CN103514381B CN 103514381 B CN103514381 B CN 103514381B CN 201310307364 A CN201310307364 A CN 201310307364A CN 103514381 B CN103514381 B CN 103514381B
Authority
CN
China
Prior art keywords
protein
subgraph
networks
bio
interaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310307364.XA
Other languages
English (en)
Other versions
CN103514381A (zh
Inventor
骆嘉伟
李光辉
王伟胜
江海
刘智明
蔡洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN201310307364.XA priority Critical patent/CN103514381B/zh
Publication of CN103514381A publication Critical patent/CN103514381A/zh
Application granted granted Critical
Publication of CN103514381B publication Critical patent/CN103514381B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种整合拓扑属性和功能的蛋白质生物网络模体识别方法,本发明从模体的生物学意义出发,通过整合边聚集系数和GO短语的语义相似性来综合评估蛋白质相互作用的生物显著性,提出了一种整合拓扑属性和功能的蛋白质生物网络模体识别方法(Ecc-GOSS)。本发明实现简单,只需根据PPI信息和基因本体论信息就能够较准确地识别大量的具有生物意义的网络模体,且对蛋白质相互作用大规模数据中普遍存在的比例较高的假阳性具有很好的健壮性。

Description

整合拓扑属性和功能的蛋白质生物网络模体识别方法
技术领域
本发明属于系统生物学领域,涉及一种整合拓扑属性和功能的蛋白质生物网络模体识别方法。
背景技术
在后基因组时代,为更好地理解生物分子交互和运作的机制,功能基因组学研究的主要目标是识别和分析细胞环境中的分子相互作用。蛋白质相互作用是一种特定类型分子相互作用,在传送信号、构建分子机器、参与酶反应等生物过程中起着核心作用。近年来,随着高通量蛋白质组技术的发展,可获得的蛋白质相互作用数据迅速增长。蛋白质相互作用被构建为无向图(其中顶点对应蛋白质,边对应蛋白质之间的相互作用)有助于从网络水平上理解细胞机制的基本构件和组织。蛋白质相互作用网络类似于复杂网络,拥有小世界和无尺度等全局特性。而在2002年由R.Milo等首次提出的网络模体则是其中非常重要的一种局部性质,网络模体定义为一种在给定网络中频繁出现的连通子图,并且其出现的次数要多于在相应的随机网络中的次数,被认为是复杂网络的基本构件块。所以,有效地识别网络模体对预测蛋白质相互作用、预测关键蛋白质及解释特定的生物进程具有十分重要的意义。
网络模体发现的计算复杂度非常高,它涉及到子图的同构测试及需要产生大量的随机网络来确定子图的唯一性。现有的网络模体发现方法主要有精确的枚举法和近似的采样方法。穷尽递归搜索(ERS)、枚举子图(ESU)和紧凑的拓扑模体属于精确方法。边采样方法(ESA)、顶点采样方法(RAND-ESU)及树过滤搜索方法(NEMOFINDER)属于近似方法。最近,Kim等人首次定义生物网络模体为生物上具有显著性的小的连通子图,并指出传统结构上的网络模体不足以解释模体的生物意义,因为部分结构上的非模体也具有生物意义;为有效的发现生物网络模体,Kim提出了EDGEGO-BNM,EDGEBETWEENNESS-BNM,NMF-BNM,NMFGO-BNM和VOLTAGE-BNM五种方法,实验结果表明,基于蛋白质对的共同GO短语深度的EDGEGO-BNM方法和基于边介数的EDGEBETWEENNESS-BNM方法评价结果优于其他方法。
尽管Kim等提出的方法能较好的发现生物网络模体,但仍有几个挑战是研究者必须面对的。首先,目前每一个物种的蛋白质相互作用数据是不完整的;其次,蛋白质相互作用数据存在大量假阳性,特别是从大规模高通量实验得到的数据。对于假阳性,一般是通过使用不同的权重方法来评估相互作用的可靠性。此外,网络模体被认为是复杂网络的基本构件块,且树形结构的子图通常不是模体,那么网络模体中的相互作用是倾向于形成高密度连通的簇。
因此,有必要设计一种整合拓扑属性和功能的蛋白质生物网络模体识别方法。
发明内容
本发明所要解决的技术问题是提供一种整合拓扑属性和功能的蛋白质生物网络模体识别方法,该整合拓扑属性和功能的蛋白质生物网络模体识别方法只需根据PPI信息和基因本体论信息就能够较准确地识别大量的具有生物意义的网络模体,且对蛋白质相互作用大规模数据中普遍存在的比例较高的假阳性具有很好的健壮性。
发明的技术解决方案如下:
一种整合拓扑属性和功能的蛋白质生物网络模体识别方法,包括以下步骤:
1)建立蛋白质相互作用无向图:
输入一组蛋白质相互作用信息,过滤掉其中的重复相互作用和自相互作用,建立蛋白质相互作用无向图G;重复相互作用指一对蛋白质相互作用信息被记录了2次及以上【其被多种实验方法所证实而得到】;
其中,蛋白质相互作用信息指蛋白质-蛋白质关联及其关联可靠性计分的集合;每一对蛋白质-蛋白质关联的成员是具有直接相互作用的两个蛋白质;
2)计算蛋白质相互作用无向图G中每条边的生物显著性值;
3)将蛋白质相互作用无向图G中的每条边按照生物显著性值以非递减的顺序排序,删除最前的r条的边【即较小的生物显著性值的r条边】,得到图G’;
4)采用ESU方法枚举图G’中所有k个顶点的导出子图,所有被查找到的
子图即所要识别的生物网络模体,整个识别过程结束;
所述的ESU方法为枚举子图法。
所述的生物显著性值由下式计算:
p c ( u , v ) = [ C u , v ( 4 ) ] α × [ ss * ( u , v ) ] β
其中α和β都是控制边聚集系数与语义相似性的相对重要性的参数,α和β分别取值为1和2【使查找到的子图在复合物与功能模块中都具有较高的比例】;
为边聚集系数,有 C u , v ( g ) = z u , v ( g ) + 1 s u , v ( g ) ;
ss(u,v)为语义相似性,有 ss ( u , v ) = max c i C u , c j ∈ Cv ISM ( c i , c j ) ;
通过调整参数r,使得在图G’中所查找到的子图数为原图G中子图数的30%;k取值为4和5,即查找顶点数为4和5的导出子图。
从计算角度来看,模体是相对于随机网络而言在真实网络中频繁出现的子图,而从生物学角度来看,模体是指生物网络中的基本构件块。这里参照Kim等提出的生物网络模体的定义,即生物网络模体的发现是尽可能的找到生物上具有显著性的小的连通子图,它不涉及子图的同构测试,也不需要产生大量的随机网络来进行子图的过表达测试。本发明通过在原网络中去掉一些生物上非显著的边来减少查询的子图数目,同时增加了生物网络模体的发现比例。例如,如果去掉20%左右的边,那么原网络中的子图数将减少到30%。
该方法通过整合边聚集系数和GO短语的语义相似性来综合评估蛋白质对的生物显著性,然后根据该值的大小去掉生物上非显著性的边。该方法的基本思想是:(1)生物网络模体的相互作用倾向于形成高密度连通的簇;(2)蛋白质对的GO语义相似性值越大,则两个蛋白质之间发生相互作用的概率越高。
事实上,在GO短语所表示的DAG图中,每一个短语可能有多条不同长度的路径到达根短语,因此,短语的深度不是一个精确的特异性的指标。而且,边介数是一种全局度量,所需的计算复杂度非常高。为了克服以上挑战,本发明提出了一种新的方法Ecc-GOSS:通过整合边聚集系数和GO短语的语义相似性来综合评价蛋白质相互作用的生物显著性,边聚集系数从拓扑结构上能有效地描述两个蛋白质共簇的概率,但它的有效性严重依赖于蛋白质相互作用网络的可靠性,为此,引入GO短语的语义相似性,它能从功能上有效评估蛋白质相互作用的可靠程度。该方法不仅提高了计算效率,而且对于存在的假阳性数据提高了鲁棒性。
有益效果:
本发明的整合拓扑属性和功能的蛋白质生物网络模体识别方法(Ecc-GOSS),从模体的生物学意义出发,通过整合边聚集系数和GO短语的语义相似性来综合评估蛋白质对的生物显著性,在拓扑属性和生物功能两方面得到了一个较好的融合。本发明实现简单,只需根据PPI信息和基因本体论信息就能够较准确地识别大量的具有生物意义的网络模体,为进一步研究提供有价值的参考信息,且对蛋白质相互作用大规模数据中普遍存在的比例较高的假阳性具有很好的健壮性。
实验证明,Ecc-GOSS有效地克服了生物网络中的假阳性数据,使查找到的子图在复合物与功能模块中都具有较高的比例,且相比于其他方法具有最高的GO短语聚类分数,具体实验参数和对比表详见实施例。
附图说明
图1是本发明Ecc-GOSS的流程图;
图2是蛋白质相互作用无向图实例;
图3是6种非同构的4顶点子图的形状和标签;
图4是6种方法在DIPCorenetwrok中找到的4顶点的6种子图的相对频率;
图5是6种方法在Y2k网络中找到的4顶点的6种子图的相对频率。
具体实施方式
以下将结合附图和具体实施例对本发明做进一步详细说明:
实施例1:
一、基于整合拓扑属性和功能的蛋白质生物网络模体识别模型
本发明将生物网络模体定义为:通过整合边聚集系数和GO短语的语义相似性来综合评估蛋白质对的生物显著性,然后根据该值的大小去掉生物上非显著性的边,在剩余子图中查找到的小规模连通子图。
为了清晰描述基于整合拓扑属性和功能的蛋白质生物网络模体识别模型,发明人将该模型的相关定义如下:
这里提出了一个衡量蛋白质对的生物显著性值指标pc,其表达形式如下:
p c ( u , v ) = [ C u , v ( 4 ) ] α × [ ss * ( u , v ) ] β
其中,代表4阶环边聚集系数,ss *(u,v)代表蛋白质uv的语义相似性。
基于整合拓扑属性和功能的蛋白质生物网络模体识别模型的目标是识别具有生物显著性的小规模连通子图。通过在原网络中去掉一些生物上非显著的边来减少查询的子图数目,同时增加了生物网络模体的发现比例。例如,如果去掉20%左右的边,那么原网络中的子图数将减少到30%。
基于整合拓扑属性和功能的蛋白质生物网络模体识别方法的整个流程如图1所示。首先输入一组蛋白质相互作用信息和相关基因本体论信息。方法Ecc-GOSS可以划分为6个子过程:
1)建立蛋白质相互作用无向图:输入一组蛋白质相互作用信息,过滤其中的重复相互作用和自相互作用,建立蛋白质相互作用无向图G(如图2所示);
其中,蛋白质相互作用信息指蛋白质-蛋白质关联及其关联可靠性计分的集合;每一对蛋白质-蛋白质关联的成员是具有直接相互作用的两个蛋白质;重复相互作用指一对蛋白质相互作用信息被记录了2次及以上【其被多种实验方法所证实而得到】;
2)计算图G中每条边的边聚集系数;
3)计算图G中每条边的语义相似性;
4)计算图G中每条边的生物显著性值;
5)图G中的每条边按照生物显著性值以非递减的顺序排序,去掉前r条较小的边【即较小的生物显著性值的r条边】,得到图G’;
6)采用ESU方法枚举图G’中所有k个顶点的导出子图,所有被查找的子图即所要识别的生物网络模体,整个识别过程结束。
二、基于整合拓扑属性和功能的蛋白质生物网络模体识别方法有效性验证
为了验证方法Ecc-GOSS的有效性,将Ecc-GOSS方法应用于两个酵母蛋白质相互作用数据集,一个来源于相互作用的蛋白质数据库(DIP,DatabaseofInteractingProteins),使用的是酵母20101010版本的核心数据集,记为DIPCorenetwrok,去掉自相互作用和冗余的相互作用后总共包括2158个蛋白质和4301个相互作用;另一个来源于高通量的实验数据,使用其中的2455个高置信度水平的相互作用,总共含有988个蛋白质,通常称为Y2k网络。由于这个网络是一个大规模图,因此只限于考虑大小为4和5的子图。将方法Ecc-GOSS与ESU、RAND-ESU、MFINDER、EDGEGO-BNM和EDGEBETWEENNESS-BNM等5个方法在预测生物网络模体的包含在复合物中的比例、包含在功能模块中的比例及GO短语聚类分数等方面进行了比较。此外,在本实例中,还分析了参数α、β的设置对方法结果的影响及生物网络模体与结构网络模体的关系。
模体包含在复合物
若一个已知蛋白质复合物包含了子图g的所有顶点,则称子图g被包含在蛋白质复合物中。‘模体包含在复合物中的比例’定义为包含在复合物中的子图数与全部发现的子图数之比。
模体包含在功能模块
类似于上面的方法,若一个已知蛋白质功能模块包含了子图g的所有顶点,则称子图g被包含在蛋白质功能模块中。‘模体包含在功能模块中的比例’定义为包含在功能模块中的子图数与全部发现的子图数之比。
在具体实验中,使用具有蛋白质功能注解的MIPS(MunichInformationCenterforProteinSequences:ftp://ftpmips.gsf.de/yeast/)中CYGD(ComprehensiveYeastGenomeDatabase)数据库中的数据集。用于分析和比较的蛋白质复合物列表选用complexcat_data_18052006,功能注解表选用funcat_2.1_data_20070316.
GOterm聚类分数
使用超几何聚集分布来计算子图g中某个GO短语的p-value,如下所示
p - value = 1 - Σ i = 0 k - 1 M i N - M n - i N n
其中N为背景分布中的蛋白质数,这里使用SGD(SaccharomycesGenomeDatabase:http://genome-www.stanford.edu/Saccharomyces/)数据库中的蛋白质的GO注释,M为背景分布中注释了该GOterm的蛋白质数,n为所分析的子图g的大小,k为该子图中标注了该GOterm的蛋白质数。
因为GO短语由BP、MF、CC三个相对独立的本体组成,因此需分别计算子图g在这三个域中的p-value。子图g在一个域中的p-value为该子图所注释的该域中的GOterm中的最小p-value。参照先前的p-value阈值设置,当子图g的p-value<0.1时,才认为该子图是显著性的。
采用GO::TermFinder软件包来计算子图的p-value(withBonferronicorrected),但该软件包一次只能处理一个子图,因此使用Perl语言开发了一个过程来批量处理多个子图。
为评估方法找到的所有子图的生物显著性,计算聚类分数:
clustering score = 1 - &Sigma; i = 1 n s min ( pi ) + ( ni &CenterDot; cutoff ) ( n s + n i ) &CenterDot; cutoff
其中ns为显著性子图的数,ni为非显著性子图数,min(pi)为显著性子图的最小p-value(i=1tons).
1.方法Ecc-GOSS与其他方法比较结果分析
表1:DIPCorenetwork中4顶点生物网络模体的结果
为产生30%子图,在Ecc-GOSS方法中参数r=861,(α,β)=(1,2)
表2:DIPCorenetwork中5顶点生物网络模体的结果
为产生30%子图,在Ecc-GOSS方法中参数r=517,(α,β)=(1,2)
表3:Y2knetwork中4顶点生物网络模体的结果
为产生30%子图,在Ecc-GOSS方法中参数r=884,(α,β)=(1,2)
表4:Y2knetwork中5顶点生物网络模体的结果
为产生30%子图,在Ecc-GOSS方法中参数r=794,(α,β)=(1,2)
使用ESU方法枚举所有大小为4或5个顶点的子图,而所有其他方法通过调整参数,产生大约30%的子图。表1比较了6种方法在DIPCorenetwork中发现4顶点生物网络模体的性能,每种评价方法的最好结果在表中使用粗体标记,可以看到,EDGEBETWEENNESS-BNM方法对于‘模体包含在复合物中的比例’指标值最高,而Ecc-GOSS方法在其它几个性能指标上要优于其他方法,特别是在GO聚类分数的三个指标上。该实验结果表明,相比于蛋白质对的共同GO深度,蛋白质对的GO短语语义相似性更具有生物显著性。在表2给出了5个顶点的生物网络模体的结果,类似于表1中的结果,除了‘模体包含在复合物中的比例’指标外,Ecc-GOSS方法在其它的指标上得到了最好的结果。
同样在Y2k网络中,使用上述6种方法查找生物网络模体。表3和表4分别给出了4个顶点和5个顶点的生物网络模体的结果。与在DIPCorenetwork中的结果一致,相比于其他方法,Ecc-GOSS方法总体上的性能是最好的。且从实验结果可以看到,相比于EDGEGO-BNM方法,Ecc-GOSS方法在‘模体包含在功能模块中的比例’指标上有一定的下降,但在‘模体包含在复合物中的比例’指标上得到了提高,这在一定程度上是由于Ecc-GOSS方法整合了拓扑结构信息和生物信息的结果。因为拓扑属性有利于提高‘模体包含在复合物中的比例’,正如EDGEBETWEENNESS-BNM方法在该指标上明显优于其他方法。这也意味着通过使用网络的拓扑结构信息(如边介数、边聚集系数等)来发现蛋白质复合物是可行的。
2.参数α、β的设置对方法结果的影响
表5:α、β的不同组合对DIPCorenetwork中4顶点生物网络模体的结果影响
α反映边聚集系数对相互作用的生物显著性的相对重要程度,β反映蛋白质对的GO语义相似性对相互作用的生物显著性的相对重要程度。α、β的不同组合对方法的结果有很大的影响,表5给出了α、β的不同组合对DIPCorenetwork中4顶点生物网络模体的结果影响。可以看到,当(α,β)=(1,0)时,即仅考虑边聚集系数的作用,得到的子图包含在复合物中的比例是最高的,而其余指标值是最低的;但随着β的增加,即考虑增加蛋白质对的GO语义相似性的作用时,得到的子图包含在复合物中的比例在逐渐减少,而其余指标值在逐渐增加,反之亦然。同时该实验结果进一步表明,利用拓扑结构信息可以发现蛋白质复合物,而整合GO注释信息有利于发现蛋白质功能模块。
3.生物网络模体与结构网络模体的关系
表6:DIPCorenetwork中4顶点的6种子图统计特性
表7:Y2knetwork中4顶点的6种子图统计特性
表8:DIPCorenetwork中4顶点的6种子图的相对频率
方法 C~ C^ CN Cr CF CR
ESU 0.01 0.10 0.49 0.00 0.00 0.39
RAND-ESU 0.01 0.10 0.50 0.00 0.00 0.39
MFINDER 0.04 0.20 0.38 0.02 0.01 0.35
EDGEGO-BNM 0.04 0.18 0.40 0.01 0.01 0.36
EDGEBW-BNM 0.04 0.19 0.45 0.02 0.01 0.29
Ecc-GOSS 0.04 0.19 0.38 0.01 0.01 0.37
表9:Y2knetwork中4顶点的6种子图的相对频率
方法 C~ C^ CN Cr CF CR
ESU 0.05 0.09 0.33 0.01 0.20 0.33
RAND-ESU 0.05 0.09 0.32 0.00 0.20 0.34
MFINDER 0.12 0.17 0.37 0.01 0.14 0.19
EDGEGO-BNM 0.06 0.12 0.36 0.01 0.15 0.30
EDGEBW-BNM 0.14 0.22 0.37 0.01 0.13 0.14
Ecc-GOSS 0.07 0.12 0.35 0.01 0.15 0.30
在考察生物网络模体与结构网络模体的关系,通过使用FANMOD软件分别得到DIPCorenetwork、Y2k网络中的每一种4顶点的类型子图的统计特性,具体见表6、表7。第一列为每一种子图的标签,第二列为在原网络中每一种子图的频率,第三、四列分布为与原网络具有相同度分布的1000个随机网络的平均频率和标准差。最后两列的Z-score和P-value给出了每一种类型子图的结构统计性。当一类子图的Z-score大于2.0或者它的P-value小于0.01,则其为一个结构上的网络模体。图4、图5分别显示了以上6种方法在DIPCorenetwork、Y2k网络中找到的4顶点的6种子图的相对频率,其中水平轴列出了6种类型子图,纵轴给出了它的相对频率,具体频率值分别见表8、表9。从图中可以明显看到,尽管除了ESU方法,所有其它方法只产生30%的子图,但每一种子图的相对频率与ESU所得到的是相近的。这表明Ecc-GOSS方法也适用于找到结构网络模体。

Claims (2)

1.一种整合拓扑属性和功能的蛋白质生物网络模体识别方法,其特征在于,包括以下步骤:
1)建立蛋白质相互作用无向图:
输入一组蛋白质相互作用信息,过滤掉其中的重复相互作用和自相互作用,建立蛋白质相互作用无向图G;重复相互作用指一对蛋白质相互作用信息被记录了2次及以上;
其中,蛋白质相互作用信息指蛋白质-蛋白质关联及其关联可靠性计分的集合;每一对蛋白质-蛋白质关联的成员是具有直接相互作用的两个蛋白质;
2)计算蛋白质相互作用无向图G中每条边的生物显著性值;
3)将蛋白质相互作用无向图G中的每条边按照生物显著性值以非递减的顺序排序,删除最前的r条的边,得到图G’;
4)采用ESU方法枚举图G’中所有k个顶点的导出子图,所有被查找到的子图即所要识别的生物网络模体,整个识别过程结束;
所述的ESU方法为枚举子图法;
所述的生物显著性值由下式计算:
其中α和β都是控制边聚集系数与语义相似性的相对重要性的参数,α和β分别取值为1和2;
为边聚集系数,有
ss(u,v)为语义相似性,有
2.根据权利要求1所述的整合拓扑属性和功能的蛋白质生物网络模体识别方法,其特征在于,通过调整参数r, 使得在图G’中所查找到的子图数为原图G中子图数的30%;k取值为4和5,即查找顶点数为4和5的导出子图。
CN201310307364.XA 2013-07-22 2013-07-22 整合拓扑属性和功能的蛋白质生物网络模体识别方法 Active CN103514381B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310307364.XA CN103514381B (zh) 2013-07-22 2013-07-22 整合拓扑属性和功能的蛋白质生物网络模体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310307364.XA CN103514381B (zh) 2013-07-22 2013-07-22 整合拓扑属性和功能的蛋白质生物网络模体识别方法

Publications (2)

Publication Number Publication Date
CN103514381A CN103514381A (zh) 2014-01-15
CN103514381B true CN103514381B (zh) 2016-05-18

Family

ID=49897090

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310307364.XA Active CN103514381B (zh) 2013-07-22 2013-07-22 整合拓扑属性和功能的蛋白质生物网络模体识别方法

Country Status (1)

Country Link
CN (1) CN103514381B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480467B (zh) * 2016-06-07 2020-11-03 王�忠 一种判别或比较药物作用模块的方法
CN106295249A (zh) * 2016-08-08 2017-01-04 温州大学 基于复杂生物网络集的频繁模式挖掘基因功能的预测方法
CN106295247A (zh) * 2016-08-08 2017-01-04 温州大学 基于复杂生物网络集的频繁模式挖掘老鼠基因共表达因的预测方法
CN106295248A (zh) * 2016-08-08 2017-01-04 温州大学 基于复杂生物网络集的频繁模式挖掘酵母菌基因共表达团的预测方法
CN106503482B (zh) * 2016-09-14 2018-10-09 王�忠 一种用于定量分析药物干预前后生物分子网络中模块变化的方法
CN108733976B (zh) * 2018-05-23 2021-12-03 扬州大学 基于融合生物与拓扑特征的关键蛋白质识别方法
CN109767809B (zh) * 2019-01-16 2023-06-06 中南大学 蛋白质相互作用网络的对齐方法
CN110059228B (zh) * 2019-03-11 2021-11-30 西安电子科技大学 一种dna数据集植入模体搜索方法及其装置与存储介质
CN110322926B (zh) * 2019-07-26 2021-06-08 电子科技大学 miRNA海绵模块的识别方法和装置
CN110706743A (zh) * 2019-10-14 2020-01-17 福建师范大学 一种平衡采样与图检索的蛋白质互作网络模体检测方法
CN110910958A (zh) * 2019-10-15 2020-03-24 平安科技(深圳)有限公司 基因定位方法、装置、计算机设备及存储介质
CN113470738B (zh) * 2021-07-03 2023-07-14 中国科学院新疆理化技术研究所 基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101246520A (zh) * 2008-03-18 2008-08-20 中南大学 基于距离判定的蛋白质复合物识别方法
CN102176223A (zh) * 2011-01-12 2011-09-07 中南大学 基于关键蛋白质和局部适应的蛋白质复合物识别方法
EP2600269A2 (en) * 2011-12-03 2013-06-05 Medeolinx, LLC Microarray sampling and network modeling for drug toxicity prediction

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101246520A (zh) * 2008-03-18 2008-08-20 中南大学 基于距离判定的蛋白质复合物识别方法
CN102176223A (zh) * 2011-01-12 2011-09-07 中南大学 基于关键蛋白质和局部适应的蛋白质复合物识别方法
EP2600269A2 (en) * 2011-12-03 2013-06-05 Medeolinx, LLC Microarray sampling and network modeling for drug toxicity prediction

Also Published As

Publication number Publication date
CN103514381A (zh) 2014-01-15

Similar Documents

Publication Publication Date Title
CN103514381B (zh) 整合拓扑属性和功能的蛋白质生物网络模体识别方法
CN105279397B (zh) 一种识别蛋白质相互作用网络中关键蛋白质的方法
Koutra et al. Algorithms for graph similarity and subgraph matching
Leung et al. Predicting protein complexes from PPI data: a core-attachment approach
Niedermeier Reflections on multivariate algorithmics and problem parameterization
CN112420127A (zh) 基于二级结构和多模型融合的非编码rna与蛋白质相互作用预测方法
CN104992078B (zh) 一种基于语义密度的蛋白质网络复合物识别方法
CN103778349A (zh) 一种基于功能模块的生物分子网络分析的方法
CN112214335B (zh) 基于知识图谱和相似度网络的Web服务发现方法
Yu et al. Predicting protein complex in protein interaction network-a supervised learning based method
CN111462820A (zh) 基于特征筛选和集成算法的非编码rna预测方法
CN111540405B (zh) 一种基于快速网络嵌入的疾病基因预测方法
CN115512772A (zh) 一种基于标记基因和集成学习的高精度单细胞聚类方法及系统
CN116157537A (zh) 用于从单细胞基因组学数据集中对细胞进行子采样的方法和系统
Kelil et al. A general measure of similarity for categorical sequences
CN112270950A (zh) 一种基于网络增强和图正则的融合网络药物靶标关系预测方法
CN116543832A (zh) 基于多尺度超图卷积的疾病-miRNA关系预测方法、模型及应用
Ucar et al. Effective pre-processing strategies for functional clustering of a protein-protein interactions network
Chiu et al. Ap-based consensus clustering for gene expression time series
Korfiati et al. Predicting human miRNA target genes using a novel computational intelligent framework
CN115295079A (zh) 基于元图学习的长链非编码rna亚细胞定位预测方法
Zhang et al. A hybrid graph-theoretic method for mining overlapping functional modules in large sparse protein interaction networks
Yu et al. Protein complex identification based on weighted ppi network with multi-source information
CN113257341A (zh) 一种基于深度残差网络的蛋白质残基间距离分布预测方法
Palukuri et al. Supervised community detection in protein-interaction networks

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant