CN108830043A - 基于结构网络模型的蛋白质功能位点预测方法 - Google Patents
基于结构网络模型的蛋白质功能位点预测方法 Download PDFInfo
- Publication number
- CN108830043A CN108830043A CN201810643576.8A CN201810643576A CN108830043A CN 108830043 A CN108830043 A CN 108830043A CN 201810643576 A CN201810643576 A CN 201810643576A CN 108830043 A CN108830043 A CN 108830043A
- Authority
- CN
- China
- Prior art keywords
- protein
- network
- parameters
- residue
- residues
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000004853 protein function Effects 0.000 title abstract description 6
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 128
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 128
- 238000007637 random forest analysis Methods 0.000 claims abstract description 20
- 230000000694 effects Effects 0.000 claims description 19
- 230000003281 allosteric effect Effects 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 16
- 230000001419 dependent effect Effects 0.000 claims description 8
- 230000035945 sensitivity Effects 0.000 claims description 8
- 230000003197 catalytic effect Effects 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 5
- 239000002904 solvent Substances 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 230000003542 behavioural effect Effects 0.000 abstract 1
- 238000005259 measurement Methods 0.000 abstract 1
- 238000013459 approach Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000008848 allosteric regulation Effects 0.000 description 2
- 241000590568 Dynamine Species 0.000 description 1
- OYTKINVCDFNREN-UHFFFAOYSA-N amifampridine Chemical compound NC1=CC=NC=C1N OYTKINVCDFNREN-UHFFFAOYSA-N 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002209 hydrophobic effect Effects 0.000 description 1
- 239000003446 ligand Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012900 molecular simulation Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000019491 signal transduction Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000032895 transmembrane transport Effects 0.000 description 1
- 230000032258 transport Effects 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于结构网络模型的蛋白质功能位点预测方法,包括:预测蛋白质结合位点;输入关于演化、物理化学性质、结构以及动态性这四个方面衡量蛋白质中每个残基的性质;基于蛋白质的三维结构对每个蛋白质构建其点加权的蛋白质结构网络(Node‑weighted Protein Structure Network,NPSN);定义并计算点加权的蛋白质结构网络的参数;基于以上网络参数,利用随机森林模型预测蛋白质中的别构残基的概率。整合残基物理化学性质、序列信息、蛋白质结构特征、动态特征,节省时间,适用于大规模的、批量蛋白质功能位点预测,并提高预测的准确性。
Description
技术领域
本发明涉及蛋白质,特别是涉及基于结构网络模型的蛋白质功能位点预测方法。
背景技术
蛋白质是生命活动的物质基础,几乎与所有的生命活动紧密联系在一起。在各种生命过程中蛋白质发挥着多种多样的功能,如信号传导、存储和运输、机械支撑、跨膜运输、神经信号的产生和传递等。蛋白质一般是通过和其它分子,如DNA、RNA、配体或其它蛋白质等的相互作用来实现自己的功能,但并不是蛋白质中所有的残基都直接参与了蛋白质功能的执行。直接参与了蛋白质功能的残基被称为功能性残基,它们对蛋白质的功能通常起了关键的作用。
别构残基是指蛋白质中上与正构位点在位置上有一定距离的结合位点,在别构调控中起着重要的作用。别构调控是生物体系中广泛存在的功能调节方式。蛋白质别构残基的预测是掌握蛋白质功能和生物过程的基础,同时也是生物医学数据分析技术领域的热点。
目前现有的蛋白质别构位点的计算预测方法主要可以分为两类:基于序列的方法和基于结构的方法。其中,基于蛋白质结构网络的方法也是基于蛋白质三维结构的。
传统技术存在以下技术问题:
1)基于序列的方法往往对序列保守性要求较高,对于序列相似度较低的情况下则计算结果并不准确;
2)基于结构的方法如基于分子模拟的方法,计算复杂度较高,耗时较长,较难进行批量的蛋白质功能位点的预测;而基于模板的方法对于没有相似结构的蛋白质预测结果差;
3)基于蛋白质结构网络的方法忽略了残基本身的性质,忽略了残基的异质性并且视为均一的、无差别的节点;
4)泛化性差,目前方法往往是针对一种类型的蛋白质功能残基的预测,可扩展性差。
发明内容
基于此,有必要针对上述技术问题,提供一种基于结构网络模型的蛋白质功能位点预测方法,整合残基物理化学性质、序列信息、蛋白质结构特征、动态特征,节省时间,适用于大规模的、批量蛋白质功能位点预测,并提高预测的准确性。
一种基于结构网络模型的蛋白质功能位点预测方法,包括:
预测蛋白质结合位点;
输入关于演化、物理化学性质、结构以及动态性这四个方面衡量蛋白质中每个残基的性质;
基于蛋白质的三维结构对每个蛋白质构建其点加权的蛋白质结构网络(Node-weightedProtein Structure Network,NPSN);
定义并计算点加权的蛋白质结构网络的参数;
基于以上网络参数,利用随机森林模型预测蛋白质中的别构残基的概率。
在另外的一个实施例中,步骤“预测蛋白质结合位点;”中,利用CAVITY软件预测蛋白质结合位点。
在另外的一个实施例中,步骤“输入关于演化、物理化学性质、结构以及动态性这四个方面衡量蛋白质中每个残基的性质;”中,具体的参数包括:保守分数、质量、疏水性、极性、相对溶剂可及表面积和柔性;其中,以上所有残基的性质都进行蛋白质内归一化。
在另外的一个实施例中,步骤“基于蛋白质的三维结构对每个蛋白质构建其点加权的蛋白质结构网络(Node-weightedProtein Structure Network,NPSN);”具体包括:
据残基间环境依赖接触能确定网络中的边:NPSN的邻接矩阵中的元素AMij定义为:
其中eij表示残基i和残基j之间的环境依赖接触能,其定义为
eij=-ln(NijN00Ci0Cj0/Ni0Nj0CijC00)
其中,Nij、Ni0、Nj0和N00表示结构中的接触数目,Cij、Ci0,、Cj0和C00为对应参考状态下的参数;
据残基的特性定义网络中节点的权重:NPSN中节点(残基)i的权重wi定义为:
wi=ji,mi,hi,pi,1-si,or fi
其中ji、mi,、hi、pi、si和fi代表归一化后的JSD保守性分数、质量、疏水性、极性SA和柔性;
这样,每个蛋白质将构建6个分别基于残基不同特性的NPSN。
在另外的一个实施例中,步骤“定义并计算点加权的蛋白质结构网络的参数;”具体包括:
若NPSN中有n个节点(残基),残基i具有wi为权重的加权网络参数为:
加权度
其中,为残基i的权重;
加权介数
其中,是节点i与节点j之间并且通过节点v的最短路径的条数;节点i与节点j之间的最短路径的条数;
加权中心度
其中,dij是网络中节点i和j之间的距离;
综上,每个蛋白质在基于6种残基的性质构建了6个NPSN,而对于每个NPSN中的残基都有3个加权参数,因此每个残基共有18个网络参数。
在另外的一个实施例中,步骤“基于以上网络参数,利用随机森林模型预
测蛋白质中的别构残基的概率。”具体包括:
1、随机选取18个网络参数中m个参数(m=3,4,5,…,18)以进行随机森林树的构建;
2、对数据集随机分成十组,每次选择其中的一组为测试集,剩余九组为训练集;
3、对训练集进行欠抽样以构建新的训练集,然后对此新的训练集的残基的m个参数构建随机森林树;
4、对2和3步骤重复100次,并以这100次预测的平均预测效果作为最终m个参数的预测效果;
5、预测效果评价指标:敏感性(Sensitivity,SEN)、特异性(Specificity,SPE)、精确度(Accuracy,ACC)、F1值、Matthews相关系数(Matthews correlation coefficient,MCC)
通过遍历这18个网络参数遍历,最终得到13个参数K1-s、B1-s、C1-s、Km、Cm、Kh、Bh、Ch、Kp、Bp、Cp、Bf和Kj构建的模型具有最优的效果。
在另外的一个实施例中,按照步骤“预测蛋白质结合位点;输入关于演化、物理化学性质、结构以及动态性这四个方面衡量蛋白质中每个残基的性质;基于蛋白质的三维结构对每个蛋白质构建其点加权的蛋白质结构网络(Node-weightedProteinStructureNetwork,NPSN);定义并计算点加权的蛋白质结构网络的参数;”类似的方法构建预测催化残基的方法,具体的得到14个参数B1-s、C1-s、Km、Cm、Kh、Bh、Ch、Kp、Bp、Cp、Kf、Bf、Cf构和Cj构建随机森林模型。
上述基于结构网络模型的蛋白质功能位点预测方法,整合残基物理化学性质、序列信息、蛋白质结构特征、动态特征,节省时间,适用于大规模的、批量蛋白质功能位点预测,并提高预测的准确性。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一项所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一项所述方法的步骤。
一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任一项所述的方法。
附图说明
图1为本申请实施例提供的一种基于结构网络模型的蛋白质功能位点预测方法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参阅图1,一种基于结构网络模型的蛋白质功能位点预测方法,包括:
预测蛋白质结合位点;
输入关于演化、物理化学性质、结构以及动态性这四个方面衡量蛋白质中每个残基的性质;
基于蛋白质的三维结构对每个蛋白质构建其点加权的蛋白质结构网络(Node-weightedProtein Structure Network,NPSN);
定义并计算点加权的蛋白质结构网络的参数;
基于以上网络参数,利用随机森林模型预测蛋白质中的别构残基的概率。
在另外的一个实施例中,步骤“预测蛋白质结合位点;”中,利用CAVITY软件预测蛋白质结合位点。
在另外的一个实施例中,步骤“输入关于演化、物理化学性质、结构以及动态性这四个方面衡量蛋白质中每个残基的性质;”中,具体的参数包括:保守分数、质量、疏水性、极性、相对溶剂可及表面积和柔性;其中,以上所有残基的性质都进行蛋白质内归一化。
在另外的一个实施例中,步骤“基于蛋白质的三维结构对每个蛋白质构建其点加权的蛋白质结构网络(Node-weightedProtein Structure Network,NPSN);”具体包括:
据残基间环境依赖接触能确定网络中的边:NPSN的邻接矩阵中的元素AMij定义为:
其中eij表示残基i和残基j之间的环境依赖接触能,其定义为
eij=-ln(NijN00Ci0Cj0/Ni0Nj0CijC00)
其中,Nij、Ni0、Nj0和N00表示结构中的接触数目,Cij、Ci0,、Cj0和C00为对应参考状态下的参数;
据残基的特性定义网络中节点的权重:NPSN中节点(残基)i的权重wi定义为:
wi=ji,mi,hi,pi,1-si,or fi
其中ji、mi,、hi、pi、si和fi代表归一化后的JSD保守性分数、质量、疏水性、极性SA和柔性;
这样,每个蛋白质将构建6个分别基于残基不同特性的NPSN。
在另外的一个实施例中,步骤“定义并计算点加权的蛋白质结构网络的参数;”具体包括:
若NPSN中有n个节点(残基),残基i具有wi为权重的加权网络参数为:
加权度
其中,为残基i的权重;
加权介数
其中,是节点i与节点j之间并且通过节点v的最短路径的条数;节点i与节点j之间的最短路径的条数;
加权中心度
其中,dij是网络中节点i和j之间的距离;
综上,每个蛋白质在基于6种残基的性质构建了6个NPSN,而对于每个NPSN中的残基都有3个加权参数,因此每个残基共有18个网络参数。
在另外的一个实施例中,步骤“基于以上网络参数,利用随机森林模型预
测蛋白质中的别构残基的概率。”具体包括:
1、随机选取18个网络参数中m个参数(m=3,4,5,…,18)以进行随机森林树的构建;
2、对数据集随机分成十组,每次选择其中的一组为测试集,剩余九组为训练集;
3、对训练集进行欠抽样以构建新的训练集,然后对此新的训练集的残基的m个参数构建随机森林树;
4、对2和3步骤重复100次,并以这100次预测的平均预测效果作为最终m个参数的预测效果;
5、预测效果评价指标:敏感性(Sensitivity,SEN)、特异性(Specificity,SPE)、精确度(Accuracy,ACC)、F1值、Matthews相关系数(Matthews correlation coefficient,MCC)
通过遍历这18个网络参数遍历,最终得到13个参数K1-s、B1-s、C1-s、Km、Cm、Kh、Bh、Ch、Kp、Bp、Cp、Bf和Kj构建的模型具有最优的效果。
在另外的一个实施例中,按照步骤“预测蛋白质结合位点;输入关于演化、物理化学性质、结构以及动态性这四个方面衡量蛋白质中每个残基的性质;基于蛋白质的三维结构对每个蛋白质构建其点加权的蛋白质结构网络(Node-weightedProteinStructureNetwork,NPSN);定义并计算点加权的蛋白质结构网络的参数;”类似的方法构建预测催化残基的方法,具体的得到14个参数B1-s、C1-s、Km、Cm、Kh、Bh、Ch、Kp、Bp、Cp、Kf、Bf、Cf构和Cj构建随机森林模型。
上述基于结构网络模型的蛋白质功能位点预测方法,整合残基物理化学性质、序列信息、蛋白质结构特征、动态特征,节省时间,适用于大规模的、批量蛋白质功能位点预测,并提高预测的准确性。更具体地,比传统的蛋白质网络模型提供了更多的信息(整合了残基的物理化学性质、序列信息、蛋白质结构及动态特征等;整合了残基的能量关系;);考虑了蛋白质结构网络中,节点(残基)的异质性;不依赖于模板,限制少;不仅可以提供位点水平的预测还可以提供残基水平的预测;可移植性强,可通过选择合适的残基特征作为网络节点的权重,应用于不同类型的蛋白质功能位点的预测中;耗时少,构建简单,可以应用了高通量的蛋白质数据集中。
步骤1.利用CAVITY软件预测蛋白质结合位点。CAVITY是基于几何的方法模拟微观动力学过程。
步骤2.从演化、物理化学性质、结构以及动态性这四个方面衡量蛋白质中每个残基的性质,具体的参数如下:
1)保守分数(Jensen-Shannon Divergence,JSD):用BLAST方法寻找该蛋白质序列的同源序列,然后构造PSSM矩阵,计算残基的保守性分数;
2)质量(Mass):提取自AAindex数据库;
3)疏水性(Hydrophobic):提取自AAindex数据库;
4)极性(Polar):提取自AAindex数据库;
5)相对溶剂可及表面积(Solvent accessibility,SA):利用DSSP算法计算残基的相对溶剂可及表面积;
6)柔性(Flexibility):柔性可以反应残基的构象变化,通过DynaMine方法计算。
以上所有残基的性质都进行蛋白质内归一化。
步骤3.基于蛋白质的三维结构对每个蛋白质构建其点加权的蛋白质结构网络(Node-weighted Protein Structure Network,NPSN)。
1)据残基间环境依赖接触能确定网络中的边:NPSN的邻接矩阵中的元素AMij定义为:
其中eij表示残基i和残基j之间的环境依赖接触能,其定义为
eij=-ln(NijN00Ci0Cj0/Ni0Nj0CijC00)
其中,Nij、Ni0、Nj0和N00表示结构中的接触数目,Cij、Ci0,、Cj0和C00为对应参考状态下的参数。
2)据残基的特性定义网络中节点的权重:NPSN中节点(残基)i的权重wi定义为:
wi=ji,mi,hi,pi,1-si,or fi
其中ji、mi,、hi、pi、si和fi代表归一化后的JSD保守性分数、质量、疏水性、极性SA和柔性。
这样,每个蛋白质将构建6个分别基于残基不同特性的NPSN。
步骤4.定义并计算点加权的蛋白质结构网络的参数
若NPSN中有n个节点(残基),残基i具有wi为权重的加权网络参数为:
1)加权度
其中,为残基i的权重。
2)加权介数
其中,是节点i与节点j之间并且通过节点v的最短路径的条数;节点i与节点j之间的最短路径的条数。
3)加权中心度
其中,dij是网络中节点i和j之间的距离。
综上,每个蛋白质在基于6种残基的性质构建了6个NPSN,而对于每个NPSN中的残基都有3个加权参数,因此每个残基共有18个网络参数。
步骤5.基于以上网络参数,利用随机森林模型预测蛋白质中的别构残基的概率。
1)随机选取18个网络参数中m个参数(m=3,4,5,…,18)以进行随机森林树的构建;
2)对数据集随机分成十组,每次选择其中的一组为测试集,剩余九组为训练集;
3)对训练集进行欠抽样以构建新的训练集,然后对此新的训练集的残基的m个参数构建随机森林树;
4)对2)-3)步骤重复100次,并以这100次预测的平均预测效果作为最终m个参数的预测效果。
5)预测效果评价指标:敏感性(Sensitivity,SEN)、特异性(Specificity,SPE)、精确度(Accuracy,ACC)、F1值、Matthews相关系数(Matthews correlation coefficient,MCC)
我们通过遍历这18个网络参数遍历,最终得到13个参数K1-s、B1-s、C1-s、Km、Cm、Kh、Bh、Ch、Kp、Bp、Cp、Bf和Kj构建的模型具有最优的效果。
由于目前没有直接预测别构残基的模型,为了便于比较。我们与别构位点预测的方法进行了比较。步骤1中预测到的结合位点中包含至少一个别构残基的位点为别构位点,我们的模型成功预测了82个蛋白质中63个蛋白质中的别构位点,优于另外两种基于支持向量机算法的别构位点预测方法Allosite(41/82)和AlloPred(23/82)。
步骤6.方法移植于催化残基的预测
按照上述步骤1-5类似的方法,我们构建了预测催化残基的方法,具体的得到14个参数B1-s、C1-s、Km、Cm、Kh、Bh、Ch、Kp、Bp、Cp、Kf、Bf、Cf构和Cj构建随机森林模型。可见我们的方法以最少的参数得到了较好的预测效果且算法简单。
表1 NPSN预测结果比较
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于结构网络模型的蛋白质功能位点预测方法,其特征在于,包括:
预测所述蛋白质结合位点;
输入关于演化、物理化学性质、结构以及动态性这四个方面衡量蛋白质中每个残基的性质;
基于蛋白质的三维结构对每个蛋白质构建其点加权的蛋白质结构网络(Node-weighted Protein Structure Network,NPSN);
定义并计算点加权的蛋白质结构网络的参数;
基于以上网络参数,利用随机森林模型预测蛋白质中的别构残基的概率。
2.根据权利要求1所述的基于结构网络模型的蛋白质功能位点预测方法,其特征在于,步骤“预测蛋白质结合位点;”中,利用CAVITY软件预测蛋白质结合位点。
3.根据权利要求1所述的基于结构网络模型的蛋白质功能位点预测方法,其特征在于,步骤“输入关于演化、物理化学性质、结构以及动态性这四个方面衡量蛋白质中每个残基的性质;”中,具体的参数包括:保守分数、质量、疏水性、极性、相对溶剂可及表面积和柔性;其中,以上所有残基的性质都进行蛋白质内归一化。
4.根据权利要求1所述的基于结构网络模型的蛋白质功能位点预测方法,其特征在于,步骤“基于蛋白质的三维结构对每个蛋白质构建其点加权的蛋白质结构网络(Node-weighted Protein Structure Network,NPSN);”具体包括:
据残基间环境依赖接触能确定网络中的边:NPSN的邻接矩阵中的元素AMij定义为:
其中eij表示残基i和残基j之间的环境依赖接触能,其定义为
eij=-ln(NijN00Ci0Cj0/Ni0Nj0CijC00)
其中,Nij、Ni0、Nj0和N00表示结构中的接触数目,Cij、Ci0,、Cj0和C00为对应参考状态下的参数;
据残基的特性定义网络中节点的权重:NPSN中节点(残基)i的权重wi定义为:
wi=ji,mi,hi,pi,1-si,or fi
其中ji、mi,、hi、pi、si和fi代表归一化后的JSD(Jensen-Shannon Divergence)保守性分数、质量、疏水性、极性SA和柔性;
这样,每个蛋白质将构建6个分别基于残基不同特性的NPSN。
5.根据权利要求1所述的基于结构网络模型的蛋白质功能位点预测方法,其特征在于,步骤“定义并计算点加权的蛋白质结构网络的参数;”具体包括:
若NPSN中有n个节点(残基),残基i具有wi为权重的加权网络参数为:
加权度
其中,为残基i的权重;
加权介数
其中,是节点i与节点j之间并且通过节点v的最短路径的条数;节点i与节点j之间的最短路径的条数;
加权中心度
其中,dij是网络中节点i和j之间的距离;
综上,每个蛋白质在基于6种残基的性质构建了6个NPSN,而对于每个NPSN中的残基都有3个加权参数,因此每个残基共有18个网络参数。
6.根据权利要求1所述的基于结构网络模型的蛋白质功能位点预测方法,其特征在于,步骤“基于以上网络参数,利用随机森林模型预测蛋白质中的别构残基的概率。”具体包括:
1、随机选取18个网络参数中m个参数(m=3,4,5,…,18)以进行随机森林树的构建;
2、对数据集随机分成十组,每次选择其中的一组为测试集,剩余九组为训练集;
3、对训练集进行欠抽样以构建新的训练集,然后对此新的训练集的残基的m个参数构建随机森林树;
4、对2和3步骤重复100次,并以这100次预测的平均预测效果作为最终m个参数的预测效果;
5、预测效果评价指标:敏感性(Sensitivity,SEN)、特异性(Specificity,SPE)、精确度(Accuracy,ACC)、F1值、Matthews相关系数(Matthews correlation coefficient,MCC)
通过遍历这18个网络参数遍历,最终得到13个参数K1-s、B1-s、C1-s、Km、Cm、Kh、Bh、Ch、Kp、Bp、Cp、Bf和Kj构建的模型具有最优的效果。
7.根据权利要求1所述的基于结构网络模型的蛋白质功能位点预测方法,其特征在于,按照步骤“预测蛋白质结合位点;输入关于演化、物理化学性质、结构以及动态性这四个方面衡量蛋白质中每个残基的性质;基于蛋白质的三维结构对每个蛋白质构建其点加权的蛋白质结构网络(Node-weighted Protein Structure Network,NPSN);定义并计算点加权的蛋白质结构网络的参数;”类似的方法构建预测催化残基的方法,具体的得到14个参数B1-s、C1-s、Km、Cm、Kh、Bh、Ch、Kp、Bp、Cp、Kf、Bf、Cf构和Cj构建随机森林模型。
8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1到7任一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1到7任一项所述方法的步骤。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1到7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810643576.8A CN108830043B (zh) | 2018-06-21 | 2018-06-21 | 基于结构网络模型的蛋白质功能位点预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810643576.8A CN108830043B (zh) | 2018-06-21 | 2018-06-21 | 基于结构网络模型的蛋白质功能位点预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108830043A true CN108830043A (zh) | 2018-11-16 |
CN108830043B CN108830043B (zh) | 2021-03-30 |
Family
ID=64141872
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810643576.8A Active CN108830043B (zh) | 2018-06-21 | 2018-06-21 | 基于结构网络模型的蛋白质功能位点预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108830043B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109817275A (zh) * | 2018-12-26 | 2019-05-28 | 东软集团股份有限公司 | 蛋白质功能预测模型生成、蛋白质功能预测方法及装置 |
CN111091871A (zh) * | 2019-12-19 | 2020-05-01 | 上海交通大学 | 基于融合领域规则和深度学习的蛋白质信号肽及其切割位点预测实现方法 |
CN115295072A (zh) * | 2022-10-10 | 2022-11-04 | 山东大学 | 基于图神经网络的蛋白质相互作用位点预测方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130237612A1 (en) * | 2011-11-11 | 2013-09-12 | The Trustees Of Columbia University In The City Of New York | Leucine beta roll domains and uses thereof |
CN106446602A (zh) * | 2016-09-06 | 2017-02-22 | 中南大学 | 蛋白质分子中rna结合位点的预测方法及系统 |
CN107463795A (zh) * | 2017-08-02 | 2017-12-12 | 南昌大学 | 一种识别酪氨酸翻译后修饰位点的预测算法 |
CN107563150A (zh) * | 2017-08-31 | 2018-01-09 | 深圳大学 | 蛋白质结合位点的预测方法、装置、设备及存储介质 |
CN107622182A (zh) * | 2017-08-04 | 2018-01-23 | 中南大学 | 蛋白质局部结构特征的预测方法及系统 |
-
2018
- 2018-06-21 CN CN201810643576.8A patent/CN108830043B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130237612A1 (en) * | 2011-11-11 | 2013-09-12 | The Trustees Of Columbia University In The City Of New York | Leucine beta roll domains and uses thereof |
CN106446602A (zh) * | 2016-09-06 | 2017-02-22 | 中南大学 | 蛋白质分子中rna结合位点的预测方法及系统 |
CN107463795A (zh) * | 2017-08-02 | 2017-12-12 | 南昌大学 | 一种识别酪氨酸翻译后修饰位点的预测算法 |
CN107622182A (zh) * | 2017-08-04 | 2018-01-23 | 中南大学 | 蛋白质局部结构特征的预测方法及系统 |
CN107563150A (zh) * | 2017-08-31 | 2018-01-09 | 深圳大学 | 蛋白质结合位点的预测方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
KEUNWAN PARK 等: ""Modeling allosteric signal propagation using protein structure networks"", 《BMC BIOINFORMATICS》 * |
严文颖: ""氨基酸相互作用网络的构建、分析及应用"", 《中国博士学位论文全文数据库-基础科学辑》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109817275A (zh) * | 2018-12-26 | 2019-05-28 | 东软集团股份有限公司 | 蛋白质功能预测模型生成、蛋白质功能预测方法及装置 |
CN109817275B (zh) * | 2018-12-26 | 2020-12-01 | 东软集团股份有限公司 | 蛋白质功能预测模型生成、蛋白质功能预测方法及装置 |
CN111091871A (zh) * | 2019-12-19 | 2020-05-01 | 上海交通大学 | 基于融合领域规则和深度学习的蛋白质信号肽及其切割位点预测实现方法 |
CN111091871B (zh) * | 2019-12-19 | 2022-02-18 | 上海交通大学 | 蛋白质信号肽及其切割位点预测实现方法 |
CN115295072A (zh) * | 2022-10-10 | 2022-11-04 | 山东大学 | 基于图神经网络的蛋白质相互作用位点预测方法及系统 |
CN115295072B (zh) * | 2022-10-10 | 2023-01-24 | 山东大学 | 基于图神经网络的蛋白质相互作用位点预测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108830043B (zh) | 2021-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022206320A1 (zh) | 预测模型训练、数据预测方法、装置和存储介质 | |
Vlasblom et al. | Markov clustering versus affinity propagation for the partitioning of protein interaction graphs | |
Khan et al. | iPhosY-PseAAC: Identify phosphotyrosine sites by incorporating sequence statistical moments into PseAAC | |
CN108830043B (zh) | 基于结构网络模型的蛋白质功能位点预测方法 | |
CN110827924B (zh) | 基因表达数据的聚类方法、装置、计算机设备及存储介质 | |
CN113299346B (zh) | 分类模型训练和分类方法、装置、计算机设备和存储介质 | |
KR20170052344A (ko) | 신규 물질 탐색 방법 및 장치 | |
CN110874437A (zh) | 一种基于多重兴趣点对排序的个性化兴趣点推荐方法 | |
Cannoodt et al. | dyngen: a multi-modal simulator for spearheading new single-cell omics analyses | |
CN116386724A (zh) | 蛋白质相互作用的预测方法、装置、电子设备及存储介质 | |
Istalkar et al. | A Canberra distance-based complex network classification framework using lumped catchment characteristics | |
CN112105081A (zh) | 一种基于改进生物地理学优化算法的高精度无线定位方法 | |
Gao et al. | Balanceali: multiple PPI network alignment with balanced high coverage and consistency | |
CN113079462A (zh) | 无线传感器网络节点定位方法 | |
CN110739028B (zh) | 一种基于k-近邻约束矩阵分解的细胞系药物响应预测方法 | |
Radu et al. | Node fingerprinting: an efficient heuristic for aligning biological networks | |
Li et al. | Evolving spatial clusters of genomic regions from high-throughput chromatin conformation capture data | |
CN113782092A (zh) | 一种生存期预测模型的生成方法及装置、存储介质 | |
KR20180119443A (ko) | 가우시안 프로세스 회귀분석을 이용한 클러스터링 방법 및 그 장치 | |
Patra et al. | Disjoint motif discovery in biological network using pattern join method | |
Zhang et al. | Revealing the mechanism of lymphoid and myeloid cell differentiation and transdifferentiation through landscape quantification | |
Hu et al. | Mining, modeling, and evaluation of subnetworks from large biomolecular networks and its comparison study | |
CN113038596B (zh) | 室内定位方法、装置、设备及计算机可读存储介质 | |
Wang et al. | A novel network-based computational method to predict protein phosphorylation on tyrosine sites | |
CN109256215A (zh) | 一种基于自回避随机游走的疾病关联miRNA预测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |