CN105138866A - 一种基于蛋白质相互作用网络和网络拓扑结构特征识别蛋白质功能的方法 - Google Patents
一种基于蛋白质相互作用网络和网络拓扑结构特征识别蛋白质功能的方法 Download PDFInfo
- Publication number
- CN105138866A CN105138866A CN201510494750.3A CN201510494750A CN105138866A CN 105138866 A CN105138866 A CN 105138866A CN 201510494750 A CN201510494750 A CN 201510494750A CN 105138866 A CN105138866 A CN 105138866A
- Authority
- CN
- China
- Prior art keywords
- mrow
- protein
- msub
- network
- msup
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 230000004853 protein function Effects 0.000 title claims abstract description 42
- 230000004850 protein–protein interaction Effects 0.000 title claims abstract description 11
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 157
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 144
- 230000003993 interaction Effects 0.000 claims abstract description 19
- 238000012706 support-vector machine Methods 0.000 claims abstract description 18
- 238000011160 research Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 70
- 230000006916 protein interaction Effects 0.000 claims description 33
- 238000012512 characterization method Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 108010016626 Dipeptides Proteins 0.000 claims description 3
- 102000010410 Nogo Proteins Human genes 0.000 claims description 3
- 108010077641 Nogo Proteins Proteins 0.000 claims description 3
- 150000001413 amino acids Chemical class 0.000 claims description 3
- 230000031018 biological processes and functions Effects 0.000 claims description 3
- 239000003596 drug target Substances 0.000 claims description 3
- 230000004879 molecular function Effects 0.000 claims description 3
- 238000000547 structure data Methods 0.000 claims description 3
- 102000003839 Human Proteins Human genes 0.000 claims description 2
- 108090000144 Human Proteins Proteins 0.000 claims description 2
- 239000002184 metal Substances 0.000 claims 1
- 238000005070 sampling Methods 0.000 abstract description 4
- 230000035945 sensitivity Effects 0.000 description 11
- 238000002790 cross-validation Methods 0.000 description 10
- 230000008827 biological function Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 239000003153 chemical reaction reagent Substances 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012514 protein characterization Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006555 catalytic reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 229920002521 macromolecule Polymers 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 108090000765 processed proteins & peptides Proteins 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于蛋白质相互作用网络和网络拓扑结构特征识别蛋白质功能的方法。首先,构建节点和边加权的蛋白质相互作用网络,节点代表蛋白质、边代表其相互作用;然后,采用蛋白质一级结构描述符和蛋白质-蛋白质相互作用信任得分对网络中的节点和边加权;收集蛋白质功能注释数据,构建数据集,基于图论,提出新的具有全局和局部信息地网络拓扑结构特征蛋白质;最后,采用最小冗余最大相关方法选择特征、利用支持向量机构建模型预测蛋白质功能。本发明的蛋白质功能预测方法显著优于现有技术,对序列相似性和采样具有鲁棒性,同时由于不需要蛋白质的三维结构等信息,本方法简单、快速、准确、高效,有望应用于蛋白组学等研究领域。
Description
技术领域
本发明属于蛋白质组学技术技术领域。更具体地,涉及一种基于蛋白质相互作用网络和网络拓扑结构特征识别蛋白质功能的方法。
背景技术
蛋白质是一个由一条或多条肽链组成的生物大分子,是细胞的基本功能单元。在有机体中,蛋白质执行各种各样的生物功能,例如:DNA的复制与转录、催化生物反应、运输生物活性分子等。因此,蛋白质的功能注释是在分子水平上阐明生命本质的一个重要步骤,对于病理机制的研究以及潜在药物靶标的识别具有重要的作用。随着高通量测序技术的飞速发展,各种各样的数据库已经存储了海量的蛋白质序列信息。可是,仅很少一部分具有功能注释,例如:截止2015年7月,UniProtKB数据库存储了5千多万条蛋白质序列信息,可是仅大约54万条蛋白质具有功能注释信息。非常明显,不可能采用传统的实验方法在合理的时间内测定如此多的蛋白质的功能。因此,发展快速、高效和准确的理论方法识别蛋白质功能已经成为蛋白组学的一个研究热点。
现有的理论方法通常采用蛋白质同源性或者三级结构相似性识别蛋白质功能。但是,这些方法都有一些缺陷,例如:基于同源性的方法没有考虑到同源性蛋白质可以在漫长的进化过程中获得不同的生物功能这一情况。基于结构相似性的方法没有考虑到纵使两个蛋白质的三维结构高度相似,但是关键活性位点的残基的改变就可以改变蛋白质的生物功能这一情况。
发明内容
本发明要解决的技术问题是克服现有蛋白质能够预测技术的缺陷和不足,提供一种新的简单、高效和准确的蛋白质功能识别方法——网络拓扑结构特征,在蛋白质相互作用网络拓扑结构特征的基础上,利用最小冗余和最大相关方法获得最优特征子集,采用支持向量机构建模型对蛋白质功能开展识别研究,该表征方法不仅考虑了蛋白质一级结构信息,而且还包含了网络拓扑结构信息,预测结果明显优于文献报道结果,有望应用于蛋白组学研究以及潜在药物靶标的识别等技术领域。
本发明的目的是提供一种基于蛋白质相互作用网络和网络拓扑结构特征识别蛋白质功能的方法。
本发明另一目的是提供上述方法的应用。
本发明上述目的通过以下技术方案实现:
一种基于蛋白质相互作用网络和网络拓扑结构特征识别蛋白质功能的方法,包括以下步骤:
S1.收集数据集,构建节点和边加权的蛋白质相互作用网络
收集蛋白质与蛋白质相互作用数据集,构建节点和边加权的蛋白质相互作用网络;在网络中,节点表示蛋白质,边表示相互作用;计算蛋白质一级结构特征,对节点加权;利用蛋白质-蛋白质相互作用信息得分,对边加权;
S2.收集蛋白质功能注释数据,构建数据集
收集具有功能注释信息的蛋白质,同时收集负样本,所述负样本是指不具有某一特定功能的蛋白质;根据收集的具有某一特定功能的蛋白质和没有这一特定功能的蛋白质构建数据集;
S3.基于网络拓扑结构特征表征蛋白质
基于图论,同时考虑节点权重和边权重,计算具有全局信息和局部网络拓扑结构信息的特征表征蛋白质,其表示如下:
式中,vi和vi(L)是给定节点i和i(L)的权重;上角标“F”表示蛋白质vi(L)具有某一功能;vi和vi(L)顶点之间的路径距离等于L,并且顶点i,i(1),…,i(L-1),i(L)均包含在这条路径上;NP是距离等于L的路径数目;
其中,ei,i(1)是两个顶点i和i(1)之间的边权重,中上角标“F”表示i(1)具有某一功能;
式中,NF和|NF|分别表示具有某一功能的蛋白质集合,以及集合中元素的数目;
其中,表示在两个具有某一功能的蛋白质之间的边的数目,并且这些蛋白质和蛋白质i之间的距离等于L;N表示蛋白质集合,并且集合中元素和蛋白质vi之间的距离也等于L,但是这些蛋白质没有某一特定的功能;因此,NF是集合N的子集;
其中,Degvi(L)是具有某一特定功能的蛋白质i(L)的度值,即邻居蛋白质的数目;
式中,|NF|表示集合中元素的数目;
式中,NI和NF表示蛋白质集合,其中蛋白质与蛋白质i和具有某一特定功能的蛋白质之间的距离为L;NIF和集合NI和NF的交集,|NIF|表示交集中元素的数目;
其中,NPi F是长度为L的路径数目,在这些路径中顶点和终点蛋白质均具有某一特定的功能,并且中间节点包含蛋白质i;NPF也是长度为L的路径数目,在这些路径中顶点和终点蛋白质均具有某一特定的功能,但是中间节点不包含蛋白质i;
S4.构建模型识别蛋白质功能
基于网络拓扑结构特征,利用最小冗余最大相关方法选择最优特征子集,基于支持向量机建模工具构建模型,识别蛋白质功能。
其中,作为一种具体的可实施优化方案,步骤S1的具体方法为:
S11.从HIPPIE数据库收集人类蛋白质-蛋白质相互作用数据,去除自相互作用、重复相互作用数据和相互作用信任得分为0的相互作用数据;
S12.根据蛋白质获得号,从UniprotKB/Swiss-Prot数据库获取蛋白质一级结构数据,计算蛋白质一级结构描述符,利用蛋白质相互作用信息得分,构建节点和边加权的蛋白质相互作用网络,同时采用蛋白质一级结构描述符和蛋白质-蛋白质相互作用信任得分对网络中的节点和边加权;网络中,节点表示蛋白质,边表示相互作用,节点权重是蛋白质一级结构特征,边权重是相互作用信任得分;
其中,S12所述蛋白质一级结构描述符包括氨基酸组成、二肽组成、各种自相关描述符以及组成、转变和分布。
另外,作为一种具体的可实施优化方案,步骤S2的具体方法为:
S21.从UniProtKB/Swiss-Prot数据库中收集基于基因本体论注释的有分子功能和生物过程注释信息的蛋白质,删除具有理论推测信息注释的蛋白质;
S22.从NoGO数据库收集没有某一特定功能注释的蛋白质;
S23.根据收集的具有某一特定功能的蛋白质和没有这一特定功能的蛋白质构建数据集。
另外优选地,步骤S4所述支持向量机的参数采用格点搜索方法进行优化,优化后的支持向量机的参数如下:
支持向量机核函数设置为径向基核函数,对于GO:0044281,惩罚参数C设置为21,核函数参数设置为2-1;对于GO:0044822,惩罚参数C设置为25,核函数参数设置为2-1;对于GO:0007165,惩罚参数C设置为23,核函数参数设置为2- 3;对于GO:0010467,惩罚参数C设置为215,核函数参数设置为21;对于GO:0045087,惩罚参数C设置为23,核函数参数设置为2-1;对于GO:0044267,惩罚参数C设置为23,核函数参数设置为2-15;对于GO:0007596,惩罚参数C设置为211,核函数参数设置为2-5。
本发明在构建蛋白质功能识别方法中,步骤S1收集具有较高可信度的人类蛋白质相互作用信息,步骤S2收集较高可信度的蛋白质功能注释信息以及不具有某一特定功能的蛋白质,步骤S3提出能够表征蛋白质全局和局部网络拓扑结构信息的特征,步骤S4优化蛋白质网络拓扑结构特征和支持向量机参数,构建最优模型识别蛋白质功能。保证了该方法预测结果的显著优异性。
另外,上述基于蛋白质相互作用网络和网络拓扑结构特征识别蛋白质功能的方法,在蛋白质功能识别、蛋白组学研究以及潜在药物靶标的识别方面的应用,也都应在本发明的保护范围之内。
本发明通过大量的研究和探索,提出了一种新的蛋白质功能表征方法——网络拓扑结构特征,该表征方法不仅包含了蛋白质一级结构信息,而且还包括了全局和局部网络拓扑结构信息,将其与最小冗余最大相关特征选择方法和支持向量机建模方法相结合,建立了蛋白质功能识别新方法。并且基于构建的数据集,进行了10-折交叉验证,并与现有文献报道方法进行了比较,预测结果显著优于文献报道方法,表明了本发明方法的有效性和显著进步性。
本发明具有以下有益效果:
本发明提供的蛋白质功能识别方法基于蛋白质相互作用网络的方法识别蛋白质功能,不仅克服了传统方法的缺点,而且具有快速和高效等特点,在蛋白组学研究中具有重要的实际应用意义。
本发明的蛋白质功能识别方法中,构建了节点和边加权的蛋白质相互作用网络,通过引入节点权重和边权重,解决克服了现有方法通常只把蛋白质考虑为一个单纯的数学上的节点,忽视了蛋白质的物理化学等性质,并且没有考虑来自于实验的蛋白质相互作用数据的假阳性问题。
同时,本发明从蛋白质相互作用网络方面提出了新的具有全局和局部拓扑结构信息的蛋白质表征方法,本发明的网络拓扑结构特征相对于传统的功能域组成和本体论组成等蛋白质表征方法,具有显著的预测优势,对序列相似性和采样具有鲁棒性。
本发明的蛋白质功能识别方法简单、快速和准确,有望用于蛋白组学等研究领域。
附图说明
图1为本发明流程示意图。
图2为10折交叉验证的受试者操作特征曲线和精度-召回曲线。
图3为10折交叉验证的统计平均结果。
图4为各种方法的10折交叉验证结果。
具体实施方式
以下结合说明书附图和具体实施例来进一步说明本发明,但实施例并不对本发明做任何形式的限定。在不背离本发明精神和实质的情况下,对本发明方法、步骤或条件所作的简单修改或替换,均属于本发明的范围。
除非特别说明,本发明采用的试剂、方法和设备为本技术领域常规试剂、方法和设备。除非特别说明,以下实施例所用试剂和材料均为市购。
实施例1
1、收集数据集,构建节点和边加权的蛋白质相互作用网络
从HIPPIE数据库收集人类蛋白质-蛋白质相互作用数据,去除自相互作用、重复相互作用以及相互作用得分为0的相互作用。根据蛋白质获得号,从UniprotKB/Swiss-Prot数据库获取蛋白质一级结构数据,计算氨基酸组成、二肽组成、自相关描述符和组成、转变和分布等蛋白质一级结构描述符。构建节点和边加权的蛋白质-蛋白质相互作用网络,节点表示蛋白质,边表示相互作用,节点权重是蛋白质一级结构特征,边权重是相互作用信任得分。
2、收集蛋白质功能注释数据,构建数据集
从UniProtKB/Swiss-Prot数据库收集基于基因本体论有分子功能和生物过程注释信息的蛋白质,删除具有理论推测信息注释的蛋白质。从NoGO数据库收集没有某一特定功能注释的蛋白质。根据收集的具有某一特定功能的蛋白质和没有这一特定功能的蛋白质构建数据集。
3、基于网络拓扑结构特征表征蛋白质
对于一个给定的蛋白质i,采用广度优先搜索算法和路径长度参数L搜索蛋白质相互作用网络,根据获得的结果计算8类具有全局和局部信息的网络拓扑结构特征:
式中,vi和vi(L)是给定节点i和i(L)的权重;上角标“F”表示蛋白质vi(L)具有某一功能;vi和vi(L)顶点之间的路径距离等于L,并且顶点i,i(1),…,i(L-1),i(L)均包含在这条路径上;NP是距离等于L的路径数目;
其中,ei,i(1)是两个顶点i和i(1)之间的边权重,中上角标“F”表示i(1)具有某一功能;
式中,NF和|NF|分别表示具有某一功能的蛋白质集合,以及集合中元素的数目;
其中,表示在两个具有某一功能的蛋白质之间的边的数目,并且这些蛋白质和蛋白质i之间的距离等于L;N表示蛋白质集合,并且集合中元素和蛋白质vi之间的距离也等于L,但是这些蛋白质没有某一特定的功能;因此,NF是集合N的子集;
其中,Degvi(L)是具有某一特定功能的蛋白质i(L)的度值,即邻居蛋白质的数目;
式中,|NF|表示集合中元素的数目;
式中,NI和NF表示蛋白质集合,其中蛋白质与蛋白质i和具有某一特定功能的蛋白质之间的距离为L;NIF和集合NI和NF的交集,|NIF|表示交集中元素的数目;
其中,NPi F是长度为L的路径数目,在这些路径中顶点和终点蛋白质均具有某一特定的功能,并且中间节点包含蛋白质i;NPF也是长度为L的路径数目,在这些路径中顶点和终点蛋白质均具有某一特定的功能,但是中间节点不包含蛋白质i。
连接8种网络拓扑结构特征为一个17670维的特征向量表征蛋白质。
4、构建模型识别蛋白质功能
基于17670维的特征向量,采用最小冗余最大相关方法优化最优特征子集。采用格点搜索方法优化支持向量机参数,构建模型。利用预测准确度、敏感性、特异性、精确度、马氏相关系数、受试者操作特征曲线和精度-召回曲线评估模型预测性能。
5、结果
(1)使用最小冗余最大相关算法分别从17670维的特征向量中构建了包含5,10,15,……,1000个特征的200个数据集。支持向量机核函数为径向基核函数,采用格点搜索方法对惩罚参数C以22为步长从2-5到215、核参数γ以2-2为步长从23到2-15进行组合优化。基于最优特征子集和最优支持向量机参数的10-折交叉验证结果表1和图2所示。
表1.基于最优特征子集和支持向量机的10-折交叉验证结果
对于基因本体论条目0044281,模型获得了74.58%的准确度,75.10%的敏感性,74.05%的特异性,74.32%的精确度和0.4915的马氏相关系数。
对于基因本体论条目0007596,获得了最高95.71%的准确度,97.38%的敏感性,94.05%的特异性,94.24%的精确度和0.9148的马氏相关系数。
对于其他基因本体论条目,模型获得的准确度、敏感性、特异性、精确度和马氏相关系数分别位于[82.91,92.03],[80.07,92.26],[84.78,91.84],[84.19,91.84]和[0.6586,0.8407]区间范围内。受试者操作特征曲线和精度-召回曲线下面积分别位于[0.8101,0.9785]和[0.8094,0.9664]区间范围内。
这些结果表明本发明的网络拓扑结构特征是有效的,并且构建的模型能够识别蛋白质功能。
(2)在数据集的构建中,重复随机选择与正样本相互数目的负样本,构建10个基准数据集。基于最优特征子集和支持向量机参数的10折交叉验证结果如图3所示。
对于基因本体论条目:0044281,准确度、敏感性、特异性、精确度和马氏相关系数的平均值分别是74.62%,74.52%,74.72%,74.68%和0.4924,分别接近表1中结果。对应的标准偏差仅是1.13%,1.38%,1.58%,1.29%和0.0225。
对于基因本体论条目:0007596,准确度、敏感性、特异性、精确度和马氏相关系数的平均值分别是95.81%,97.61%,94.01%,94.23%和0.9170,与表1中结果的差值非常小。对应标准偏差仅是0.58%,0.99%,1.12%,0.97%和0.0114。
对于其他基因本体论条目,准确度、敏感性、特异性和精确度值与表1中结果的差值都在[-3.27%,3.23%]范围之内,马氏相关系数差值都在[-0.0346,0.0125]范围之内。
这些结果表明,本发明方法对负样本的选择具有鲁棒性,负样本仅选择1次是合理的。
(3)采用CD-HIT软件对数据集中的蛋白质进行序列比对,删除序列相似性大于40%的蛋白质,构建非冗余蛋白质功能数据集。基于最优特征子集和支持向量机模型的10-折交叉验证如表1所示。
对于基因本体论条目:0044281,虽然获得了最低的准确度、敏感性、特异性、精确度和马氏相关系数,但是仅比基准数据集结果低了2.03%,3.77%,0.29%,1.21%和0.0404。
对于基因本体论条目:0044822,0007165,0010467,0045087和0044267,非冗余数据集和基准数据集准确度的最大差值为3.25%,最小仅为0.84%。
对于基因本体论条目:0007596,虽然非冗余数据集的准确度、敏感性、特异性、精确度和马氏相关系数降低了大概18%,但是本发明方法仍然获得了78.21%的准确度,77.43%的敏感性,78.99%的特异性,78.66%的准确度和0.5643的马氏相关系数。
这些结果表明,发明方法对蛋白质序列相似性具有鲁棒性。
(4)基于构建的基准数据集,采用传统的序列相似性和网络邻居方法对蛋白质功能进行了识别。在序列相似性方法中,采用BLOSUM50矩阵和Needleman-Wunsch算法比较两个蛋白质的序列相似性,一个具有最高序列相似性的蛋白质的功能被赋予查询蛋白质。在网络邻居方法中,网络邻居蛋白质中具有最大比例的功能被赋予查询蛋白质。本发明方法和两种传统方法的10-折交叉验证结果如图4所示。
对于所有的基因本体论条目,虽然基于网络邻居的方法获得了最高的预测敏感性:82.30%,93.73%,92.73%,99.54%,99.01%,97.67%和98.57%,但是却获得了最低的准确度(仅39.45%,17.59%,18.25%,14.11%,10.47%,12.50%和14.29%)、特异性、精确度和马氏相关系数。表明网络邻居方法通常导致结果具有较高的假阳性。序列相似性方法获得的准确度、特异性、精确度和马氏相关系数分别在[66.84%,72.96%],[59.09%,67.74%],[64.76%,70.79%]和[0.3402,0.4617]范围之内。
本发明方法获得了最高的准确度、特异性、精确度和马氏相关系数,分别在[74.58%,95.17%],[74.05%,94.05%],[74.32%,94.24%]和[0.4915,0.9148]范围内。这些结果表明,本发明方法优于网络邻居和序列相似性的传统方法,提出的网络拓扑结构特征能够很好的表征蛋白质。
综上所述,本发明基于图论和蛋白质相互作用网络,提出了具有全局和局部信息的蛋白质网络拓扑结构表征蛋白质。基于非冗余数据集和重复采样的10折交叉验证结果表明发明方法对序列相似性和采样具有鲁棒性。基准数据集的10折交叉验证结果表明本发明方法显著优于现有文献报道方法,表明了本发明方法的有效性和显著进步性。
Claims (10)
1.一种基于蛋白质相互作用网络和网络拓扑结构特征识别蛋白质功能的方法,其特征在于,包括以下步骤:
S1.收集数据集,构建节点和边加权的蛋白质相互作用网络
收集蛋白质与蛋白质相互作用数据集,构建节点和边加权的蛋白质相互作用网络;在网络中,节点表示蛋白质,边表示相互作用;计算蛋白质一级结构特征,对节点加权;利用蛋白质-蛋白质相互作用信息得分,对边加权;
S2.收集蛋白质功能注释数据,构建数据集
收集具有功能注释信息的蛋白质,同时收集负样本,所述负样本是指不具有某一特定功能的蛋白质;根据收集的具有某一特定功能的蛋白质和没有这一特定功能的蛋白质构建数据集;
S3.基于网络拓扑结构特征表征蛋白质
基于图论,同时考虑节点权重和边权重,计算具有全局信息和局部网络拓扑结构信息的特征表征蛋白质,其表示如下:
式中,v i 和v i(L)是给定节点i和i(L)的权重;上角标“F”表示蛋白质v i(L)具有某一功能;v i 和v i(L)顶点之间的路径距离等于L,并且顶点i,i(1),…,i(L-1),i(L)均包含在这条路径上;NP是距离等于L的路径数目;
其中,e i,i(1) 是两个顶点i和i(1)之间的边权重,中上角标“F”表示i(1)具有某一功能;
式中,N F 和|N F |分别表示具有某一功能的蛋白质集合,以及集合中元素的数目;
其中,表示在两个具有某一功能的蛋白质之间的边的数目,并且这些蛋白质和蛋白质i之间的距离等于L;N表示蛋白质集合,并且集合中元素和蛋白质v i 之间的距离也等于L,但是这些蛋白质没有某一特定的功能;因此,N F 是集合N的子集;
其中,Deg vi(L)是具有某一特定功能的蛋白质i(L)的度值,即邻居蛋白质的数目;
式中,|N F |表示集合中元素的数目;
式中,N I 和N F 表示蛋白质集合,其中蛋白质与蛋白质i和具有某一特定功能的蛋白质之间的距离为L;N IF 和集合N I 和N F 的交集,|N IF |表示交集中元素的数目;
其中,是长度为L的路径数目,在这些路径中顶点和终点蛋白质均具有某一特定的功能,并且中间节点包含蛋白质i;也是长度为L的路径数目,在这些路径中顶点和终点蛋白质均具有某一特定的功能,但是中间节点不包含蛋白质i;
S4.构建模型识别蛋白质功能
基于网络拓扑结构特征,利用最小冗余最大相关方法选择最优特征子集,基于支持向量机建模工具构建模型,识别蛋白质功能。
2.根据权利要求1所述基于蛋白质相互作用网络和网络拓扑结构特征识别蛋白质功能的方法,其特征在于,步骤S1的具体方法为:
S11.从HIPPIE数据库收集人类蛋白质-蛋白质相互作用数据,去除自相互作用、重复相互作用数据和相互作用信任得分为0的相互作用数据;
S12.根据蛋白质获得号,从UniprotKB/Swiss-Prot数据库获取蛋白质一级结构数据,计算蛋白质一级结构描述符,利用蛋白质相互作用信息得分,构建节点和边加权的蛋白质相互作用网络,同时采用蛋白质一级结构描述符和蛋白质-蛋白质相互作用信任得分对网络中的节点和边加权;网络中,节点表示蛋白质,边表示相互作用,节点权重是蛋白质一级结构特征,边权重是相互作用信任得分;
其中,S12所述蛋白质一级结构描述符包括氨基酸组成、二肽组成、各种自相关描述符以及组成、转变和分布。
3.根据权利要求1所述基于蛋白质相互作用网络和网络拓扑结构特征识别蛋白质功能的方法,其特征在于,步骤S2的方法为:
S21.从UniProtKB/Swiss-Prot数据库中收集基于基因本体论注释的有分子功能和生物过程注释信息的蛋白质,删除具有理论推测信息注释的蛋白质;
S22.从NoGO数据库收集没有某一特定功能注释的蛋白质;
S23.根据收集的具有某一特定功能的蛋白质和没有这一特定功能的蛋白质构建数据集。
4.根据权利要求1所述基于蛋白质相互作用网络和网络拓扑结构特征识别蛋白质功能的方法,其特征在于,步骤S4所述支持向量机的参数采用格点搜索方法进行优化,优化后的支持向量机的参数如下:
支持向量机核函数设置为径向基核函数,对于GO:0044281,惩罚参数C设置为21,核函数参数设置为2-1;对于GO:0044822,惩罚参数C设置为25,核函数参数设置为2-1;对于GO:0007165,惩罚参数C设置为23,核函数参数设置为2-3;对于GO:0010467,惩罚参数C设置为215,核函数参数设置为21;对于GO:0045087,惩罚参数C设置为23,核函数参数设置为2-1;对于GO:0044267,惩罚参数C设置为23,核函数参数设置为2-15;对于GO:0007596,惩罚参数C设置为211,核函数参数设置为2-5。
5.根据权利要求1所述基于蛋白质相互作用网络和网络拓扑结构特征识别蛋白质功能的方法,其特征在于,步骤S1收集具有较高可信度的人类蛋白质相互作用信息。
6.根据权利要求1所述基于蛋白质相互作用网络和网络拓扑结构特征识别蛋白质功能的方法,其特征在于,步骤S2收集较高可信度的蛋白质功能注释信息以及不具有某一特定功能的蛋白质。
7.根据权利要求1所述基于蛋白质相互作用网络和网络拓扑结构特征识别蛋白质功能的方法,其特征在于,步骤S3提出能够表征蛋白质全局和局部网络拓扑结构信息的特征。
8.根据权利要求1所述基于蛋白质相互作用网络和网络拓扑结构特征识别蛋白质功能的方法,其特征在于,步骤S4优化蛋白质网络拓扑结构特征和支持向量机参数,构建最优模型识别蛋白质功能。
9.权利要求1~8任一所述基于蛋白质相互作用网络和网络拓扑结构特征识别蛋白质功能的方法在蛋白质功能识别方面的应用。
10.权利要求1~8任一所述基于蛋白质相互作用网络和网络拓扑结构特征识别蛋白质功能的方法在蛋白组学研究以及潜在药物靶标的识别方面的应用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510494750.3A CN105138866A (zh) | 2015-08-12 | 2015-08-12 | 一种基于蛋白质相互作用网络和网络拓扑结构特征识别蛋白质功能的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510494750.3A CN105138866A (zh) | 2015-08-12 | 2015-08-12 | 一种基于蛋白质相互作用网络和网络拓扑结构特征识别蛋白质功能的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105138866A true CN105138866A (zh) | 2015-12-09 |
Family
ID=54724211
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510494750.3A Pending CN105138866A (zh) | 2015-08-12 | 2015-08-12 | 一种基于蛋白质相互作用网络和网络拓扑结构特征识别蛋白质功能的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105138866A (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105678108A (zh) * | 2016-01-11 | 2016-06-15 | 天津师范大学 | 一种全局比对的蛋白互作网络融合方法 |
CN105868583A (zh) * | 2016-04-06 | 2016-08-17 | 东北师范大学 | 一种基于序列使用代价敏感集成和聚类预测表位的方法 |
CN105868581A (zh) * | 2016-03-23 | 2016-08-17 | 华南理工大学 | 一种基于随机聚类森林的全基因组蛋白质功能预测方法 |
CN105930688A (zh) * | 2016-04-18 | 2016-09-07 | 福州大学 | 基于改进pso算法的蛋白质功能模块检测方法 |
CN105975804A (zh) * | 2016-04-29 | 2016-09-28 | 南京邮电大学 | 一种基于生物网络的蛋白质复合物求取方法 |
CN106529203A (zh) * | 2016-12-21 | 2017-03-22 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种miRNA调控蛋白质相互作用网络的miRNA靶蛋白预测方法 |
CN106528668A (zh) * | 2016-10-23 | 2017-03-22 | 哈尔滨工业大学深圳研究生院 | 一种基于可视化网络的二阶代谢质谱化合物检测方法 |
CN106909807A (zh) * | 2017-02-14 | 2017-06-30 | 同济大学 | 一种基于多元数据预测药物靶向蛋白互作的预测方法 |
CN107368702A (zh) * | 2017-06-02 | 2017-11-21 | 西安电子科技大学 | 一种构建miRNA调控网络的方法 |
CN107977548A (zh) * | 2017-12-05 | 2018-05-01 | 东软集团股份有限公司 | 预测蛋白质间相互作用的方法、装置、介质及电子设备 |
CN108171010A (zh) * | 2017-12-01 | 2018-06-15 | 华南师范大学 | 基于半监督网络嵌入模型的蛋白质复合体检测方法与装置 |
CN108804871A (zh) * | 2017-05-02 | 2018-11-13 | 中南大学 | 基于最大邻居子网的关键蛋白质识别方法 |
CN110070909A (zh) * | 2019-03-21 | 2019-07-30 | 中南大学 | 一种基于深度学习的融合多特征的蛋白质功能预测方法 |
CN110136773A (zh) * | 2019-04-02 | 2019-08-16 | 上海交通大学 | 一种基于深度学习的植物蛋白质互作网络构建方法 |
CN110263780A (zh) * | 2018-10-30 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 实现异构图、分子空间结构性质识别的方法、装置和设备 |
CN110534155A (zh) * | 2019-08-29 | 2019-12-03 | 合肥工业大学 | 基于最大相关最小冗余的快速封装式基因选择方法 |
CN110648726A (zh) * | 2019-09-23 | 2020-01-03 | 清华大学 | 基于网络靶标的药物网络药理学智能和定量分析方法与系统 |
CN112309509A (zh) * | 2019-10-15 | 2021-02-02 | 腾讯科技(深圳)有限公司 | 化合物性质预测方法、装置、计算机设备及可读存储介质 |
CN114300041A (zh) * | 2021-12-30 | 2022-04-08 | 山西大学 | 一种蛋白质互作网络功能模块挖掘方法及系统 |
CN115497555A (zh) * | 2022-08-16 | 2022-12-20 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 多物种蛋白质功能预测方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101710364A (zh) * | 2009-12-14 | 2010-05-19 | 重庆大学 | 一种蛋白质与rna相互作用位点计算识别方法 |
CN102176223A (zh) * | 2011-01-12 | 2011-09-07 | 中南大学 | 基于关键蛋白质和局部适应的蛋白质复合物识别方法 |
CN103778349A (zh) * | 2014-01-29 | 2014-05-07 | 思博奥科生物信息科技(北京)有限公司 | 一种基于功能模块的生物分子网络分析的方法 |
-
2015
- 2015-08-12 CN CN201510494750.3A patent/CN105138866A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101710364A (zh) * | 2009-12-14 | 2010-05-19 | 重庆大学 | 一种蛋白质与rna相互作用位点计算识别方法 |
CN102176223A (zh) * | 2011-01-12 | 2011-09-07 | 中南大学 | 基于关键蛋白质和局部适应的蛋白质复合物识别方法 |
CN103778349A (zh) * | 2014-01-29 | 2014-05-07 | 思博奥科生物信息科技(北京)有限公司 | 一种基于功能模块的生物分子网络分析的方法 |
Non-Patent Citations (4)
Title |
---|
WOOYOUNG KIM.: "Prediction of essential proteins using topological properties in Go-pruned PPI network based on machine learning methods", 《TSINGHUA SCIENCE AND TECHNOLOGY》 * |
ZHAN CHAO LI,ET AL.: "Large-scale identification of potential drug targets based on the topological features of human protein-protein interaction network", 《ANALYTICA CHIMICA ACTA》 * |
ZHANCHAO LI,ET AL.: "Identification of human protein complexes from local sub-graphs of protein–protein interaction network based on random forest with topological structure features", 《ANALYTICA CHIMICA ACTA》 * |
李占潮,等.: "基于一级结构信息预测蛋白质与蛋白质相互作用", 《第十届全国计算(机)化学学术会议论文摘要集》 * |
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105678108A (zh) * | 2016-01-11 | 2016-06-15 | 天津师范大学 | 一种全局比对的蛋白互作网络融合方法 |
CN105868581A (zh) * | 2016-03-23 | 2016-08-17 | 华南理工大学 | 一种基于随机聚类森林的全基因组蛋白质功能预测方法 |
CN105868581B (zh) * | 2016-03-23 | 2018-09-14 | 华南理工大学 | 一种基于随机聚类森林的全基因组蛋白质功能预测方法 |
CN105868583B (zh) * | 2016-04-06 | 2018-08-10 | 东北师范大学 | 一种基于序列使用代价敏感集成和聚类预测表位的方法 |
CN105868583A (zh) * | 2016-04-06 | 2016-08-17 | 东北师范大学 | 一种基于序列使用代价敏感集成和聚类预测表位的方法 |
CN105930688A (zh) * | 2016-04-18 | 2016-09-07 | 福州大学 | 基于改进pso算法的蛋白质功能模块检测方法 |
CN105930688B (zh) * | 2016-04-18 | 2017-06-06 | 福州大学 | 基于改进pso算法的蛋白质功能模块检测方法 |
CN105975804A (zh) * | 2016-04-29 | 2016-09-28 | 南京邮电大学 | 一种基于生物网络的蛋白质复合物求取方法 |
CN106528668A (zh) * | 2016-10-23 | 2017-03-22 | 哈尔滨工业大学深圳研究生院 | 一种基于可视化网络的二阶代谢质谱化合物检测方法 |
CN106529203A (zh) * | 2016-12-21 | 2017-03-22 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种miRNA调控蛋白质相互作用网络的miRNA靶蛋白预测方法 |
CN106909807A (zh) * | 2017-02-14 | 2017-06-30 | 同济大学 | 一种基于多元数据预测药物靶向蛋白互作的预测方法 |
CN106909807B (zh) * | 2017-02-14 | 2019-02-01 | 同济大学 | 一种基于多元数据预测药物靶向蛋白互作的预测方法 |
CN108804871B (zh) * | 2017-05-02 | 2021-06-25 | 中南大学 | 基于最大邻居子网的关键蛋白质识别方法 |
CN108804871A (zh) * | 2017-05-02 | 2018-11-13 | 中南大学 | 基于最大邻居子网的关键蛋白质识别方法 |
CN107368702A (zh) * | 2017-06-02 | 2017-11-21 | 西安电子科技大学 | 一种构建miRNA调控网络的方法 |
CN108171010A (zh) * | 2017-12-01 | 2018-06-15 | 华南师范大学 | 基于半监督网络嵌入模型的蛋白质复合体检测方法与装置 |
CN108171010B (zh) * | 2017-12-01 | 2021-09-14 | 华南师范大学 | 基于半监督网络嵌入模型的蛋白质复合体检测方法与装置 |
CN107977548B (zh) * | 2017-12-05 | 2020-04-07 | 东软集团股份有限公司 | 预测蛋白质间相互作用的方法、装置、介质及电子设备 |
CN107977548A (zh) * | 2017-12-05 | 2018-05-01 | 东软集团股份有限公司 | 预测蛋白质间相互作用的方法、装置、介质及电子设备 |
CN110263780B (zh) * | 2018-10-30 | 2022-09-02 | 腾讯科技(深圳)有限公司 | 实现异构图、分子空间结构性质识别的方法、装置和设备 |
CN110263780A (zh) * | 2018-10-30 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 实现异构图、分子空间结构性质识别的方法、装置和设备 |
CN110070909B (zh) * | 2019-03-21 | 2022-12-09 | 中南大学 | 一种基于深度学习的融合多特征的蛋白质功能预测方法 |
CN110070909A (zh) * | 2019-03-21 | 2019-07-30 | 中南大学 | 一种基于深度学习的融合多特征的蛋白质功能预测方法 |
CN110136773A (zh) * | 2019-04-02 | 2019-08-16 | 上海交通大学 | 一种基于深度学习的植物蛋白质互作网络构建方法 |
CN110534155A (zh) * | 2019-08-29 | 2019-12-03 | 合肥工业大学 | 基于最大相关最小冗余的快速封装式基因选择方法 |
CN110648726B (zh) * | 2019-09-23 | 2021-10-01 | 清华大学 | 基于网络靶标的药物网络药理学智能和定量分析方法与系统 |
CN110648726A (zh) * | 2019-09-23 | 2020-01-03 | 清华大学 | 基于网络靶标的药物网络药理学智能和定量分析方法与系统 |
CN112309509B (zh) * | 2019-10-15 | 2021-05-28 | 腾讯科技(深圳)有限公司 | 化合物性质预测方法、装置、计算机设备及可读存储介质 |
CN112309509A (zh) * | 2019-10-15 | 2021-02-02 | 腾讯科技(深圳)有限公司 | 化合物性质预测方法、装置、计算机设备及可读存储介质 |
CN114300041A (zh) * | 2021-12-30 | 2022-04-08 | 山西大学 | 一种蛋白质互作网络功能模块挖掘方法及系统 |
CN114300041B (zh) * | 2021-12-30 | 2024-10-15 | 山西大学 | 一种蛋白质互作网络功能模块挖掘方法及系统 |
CN115497555A (zh) * | 2022-08-16 | 2022-12-20 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 多物种蛋白质功能预测方法、装置、设备及存储介质 |
CN115497555B (zh) * | 2022-08-16 | 2024-01-05 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 多物种蛋白质功能预测方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105138866A (zh) | 一种基于蛋白质相互作用网络和网络拓扑结构特征识别蛋白质功能的方法 | |
Basith et al. | iGHBP: computational identification of growth hormone binding proteins from sequences using extremely randomised tree | |
CN110289050B (zh) | 一种基于图卷积和词向量的药物-靶标相互作用预测方法 | |
Maillet et al. | COMMET: comparing and combining multiple metagenomic datasets | |
US20200294628A1 (en) | Creation or use of anchor-based data structures for sample-derived characteristic determination | |
US20150142334A1 (en) | System, method and computer-accessible medium for genetic base calling and mapping | |
Jia et al. | NucPosPred: Predicting species-specific genomic nucleosome positioning via four different modes of general PseKNC | |
Emami et al. | Computational predictive approaches for interaction and structure of aptamers | |
US20020072887A1 (en) | Interaction fingerprint annotations from protein structure models | |
Nanni et al. | Set of approaches based on 3D structure and position specific-scoring matrix for predicting DNA-binding proteins | |
CN115394348A (zh) | 基于图卷积网络的lncRNA亚细胞定位预测方法、设备及介质 | |
CN116157537A (zh) | 用于从单细胞基因组学数据集中对细胞进行子采样的方法和系统 | |
Karagoz et al. | Assessment of high-confidence protein–protein interactome in yeast | |
Dai et al. | A stacked ensemble learning framework with heterogeneous feature combinations for predicting ncRNA-protein interaction | |
Wang et al. | Consistent dissection of the protein interaction network by combining global and local metrics | |
Tarafder et al. | RBSURFpred: modeling protein accessible surface area in real and binary space using regularized and optimized regression | |
CN110444249B (zh) | 一种基于计算的预测荧光蛋白质的方法 | |
Kern et al. | Predicting interacting residues using long-distance information and novel decoding in hidden markov models | |
CN115295079A (zh) | 基于元图学习的长链非编码rna亚细胞定位预测方法 | |
CN110592093B (zh) | 一种能够识别EpCAM蛋白的核酸适体及其制备方法与应用 | |
Faridoon et al. | Combining SVM and ECOC for identification of protein complexes from protein protein interaction networks by integrating amino acids’ physical properties and complex topology | |
CN113257341A (zh) | 一种基于深度残差网络的蛋白质残基间距离分布预测方法 | |
Li et al. | Protein function prediction using frequent patterns in protein-protein interaction networks | |
Yang | Biological pattern discovery with R: Machine learning approaches | |
CN118522346B (zh) | 一种蛋白质结合位点预测方法、系统、介质、设备及产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20151209 |
|
WD01 | Invention patent application deemed withdrawn after publication |