CN104200130A - 一种基于树结构副本交换和片段组装的蛋白质结构预测方法 - Google Patents

一种基于树结构副本交换和片段组装的蛋白质结构预测方法 Download PDF

Info

Publication number
CN104200130A
CN104200130A CN201410353661.2A CN201410353661A CN104200130A CN 104200130 A CN104200130 A CN 104200130A CN 201410353661 A CN201410353661 A CN 201410353661A CN 104200130 A CN104200130 A CN 104200130A
Authority
CN
China
Prior art keywords
protein
conformation
energy
mentioned
protein conformation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410353661.2A
Other languages
English (en)
Other versions
CN104200130B (zh
Inventor
张贵军
秦传庆
周晓根
郝小虎
梅珊
陈先跑
李章维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201410353661.2A priority Critical patent/CN104200130B/zh
Publication of CN104200130A publication Critical patent/CN104200130A/zh
Application granted granted Critical
Publication of CN104200130B publication Critical patent/CN104200130B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于树结构副本交换和片段组装的蛋白质结构预测方法,包括以下步骤:将蛋白质构象依据副本交换思想,从而在利于保留多个副本的信息基础上,增强对蛋白质构象空间的搜索,利用树数据结构的优势,加上使用能量分层和蛋白质中间构象的形状信息,并且采用特定的权重函数来对整个蛋白质构象空间的分别采用一定的概率来选定作为编译的副本,导向蛋白质构象朝能量低的路径步进,并且尽量保留蛋白质构象的多样性,达到最终预测蛋白质自然态的目的。本发明可以大大减少计算量,缩短计算时间,同时保证搜索到能量较低的构象。

Description

一种基于树结构副本交换和片段组装的蛋白质结构预测方法
技术领域
本发明涉及计算机应用领域,生物信息学,算法优化,最优化理论,分子信息学,特别涉及一种蛋白质结构三维结构预测方法。
背景技术
生物信息学通过综合利用生物学,计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。是当前研究的一个热点。生物信息学研究成果已经被广泛应用于序列比对,蛋白质比对,基因识别分析,分子进化,序列重叠群装配,遗传密码,药物设计,生物系统,蛋白质结构预测等。其中蛋白质结构预测是生物信息学领域的一个重要的分支。
蛋白质分子在生物体的细胞活动中有很大的作用,生物体的许多活动都是以蛋白质的活性作为基础。蛋白质分子的结构决定蛋白质分子功能。因此,对生物分子结构和生物活性态建模对理解并治疗与蛋白质相关的疾病有很大的帮助作用。并且对工程蛋白的制造有指导意义。
蛋白质分子的结构可在实验室环境下采用实验条件予以获得。主要的方法是:X射线晶体衍射、核磁共振技术以及电子显微镜[3]等。但是在实验室条件下获得蛋白质分子结构也存在代价大、时间周期比较长的难题。因此,这也催生出使用计算机的运算能力和计算机算法来实现蛋白质结构的预测的方法。
蛋白质的氨基酸序列信息决定蛋白质的三维结构(Anfinsen1973)的这个观点被广泛地接受,也是使用计算机实现蛋白质结构预测的理论依据。但是利用计算机的运算能力和优化算法通过蛋白质的序列信息来预测蛋白质的三维结构,也就是说蛋白质折叠问题仍然是一个难题。
蛋白质结构预测的困难主要在两个方面,首先是蛋白质结构预测所使用的能量模型不精确,其次是蛋白质的构象空间是极其庞大和复杂的。
发明内容
为了克服现有的蛋白质结构预测方式的计算量较大、计算时间比较长的不足,本发明提供一种基于树结构副本交换和片段组装的蛋白质结构预测方法,采用将分层和离散化的方法,可以大大减少计算量,缩短计算时间,同时保证搜索到能量较低的构象,达到预测蛋白质结构的目的。
本发明解决其技术问题所采用的技术方案是:
一种基于树结构副本交换和片段组装的蛋白质结构预测方法,所述预测方法包括以下步骤:
A1、蛋白质构象处理,过程如下;
STEP1.1、根据获得的蛋白质氨基酸序列使用Rosetta套装软件pose_from_sequence函数构建蛋白质长链;
STEP1.2、并将获取的蛋白质长链使用Rosetta构建的Mover对象SwitchResidueTypeSetMover,使用其apply方法将构建的蛋白质长链的全原子构象转换成骨链原子构象,该蛋白质构象用pose表示;
STEP1.3、将上述转换完成pose使用随机数分别给定每个氨基酸位置的(α,β,ω);
STEP1.4、将上述的STEP1.1、STEP1.2、STEP1.3步骤执行n次,n是副本总数;
A2、片段库构建,过程如下;
STEP2.1、将蛋白质的序列提交到提供根据特定序列产生片段库的服务器网站,服务器处理完成之后返回特定的片段库文件;
STEP2.2、使用Rosetta软件套装构建的Mover对象ClassicFragmentMover,根据给定的片段文件构建此对象;
A3、温度参数KT列表设置,过程如下;
STEP3.1、根据副本数目,设定相同数目的KT列表的大小;
STEP3.2、使用Rosetta提供的score3力场模型构建能量函数scorefxn;
STEP3.3、根据KT列表和pose对象以及scorefxn实例化Rosetta软件套装提供的MonteCarlo对象,组成一个列表mc,其大小和KT列表相同;
A4、蛋白质构象的能量计算
STEP4.1、采用上述的scorefxn计算pose对象得到能量值;
STEP4.2、根据上述求得的能量值进行分层处理,具体是根据蛋白质的能量分布,进行层处理,本程序按照两个能量单位一层进行处理,根据能量值得到本pose对象所处的能量空间的位置;
A5、蛋白质形状特征提取,过程如下;
STEP5.1、首先传入蛋白质对象;
STEP5.2、从上述对象里面提取出来各个采样点的坐标,所述坐标是三维的笛卡尔坐标,假定采样点的坐标共有n个;
STEP5.3、由公式(1)求得上述对象的质心坐标,即几何中心坐标centroid(x,y,z);
x = 1 n Σ i = 1 n x i y = 1 n Σ i = 1 n y i z = 1 n Σ i = 1 n z i - - - ( 1 )
STEP5.4、由公式(2)迭代求得离上述对象的质心坐标centroid(x,y,z)最远的采样点坐标farest(x,y,z);
Dis tan ce = ( ( x i - x ) 2 + ( y i - y ) 2 + ( z i - z ) 2 ) - - - ( 2 )
STEP5.5、由公式(2)迭代求得离上述对象的质心坐标centroid(x,y,z)最远的采样点坐标farest_farest(x,y,z);
STEP5.6、分别由公式(3)迭代求得各个采样点与centroid(x,y,z)的平均距离CentroidAverage;
CentroidAverage = Σ i = 1 4 n ( ( x i - x ) 2 + ( y i - y ) 2 + ( z i - z ) 2 ) / ( 4 n ) - - - ( 3 )
STEP5.7、分别由公式(4)迭代求得各个采样点与farest(x,y,z)的平均距离FarestAverage
FarestAverage = Σ i = 1 4 n ( ( x i - x ) 2 + ( y i - y ) 2 + ( z i - z ) 2 ) / ( 4 n ) - - - ( 4 )
STEP5.8、分别由公式(5)迭代求得各个采样点与farest_farest(x,y,z)的平均距离FarestFarestAverage
FarestFarestAverage = Σ i = 1 4 n ( ( x i - x ) 2 + ( y i - y ) 2 + ( z i - z ) 2 ) / ( 4 n ) - - - ( 5 )
STEP5.9、将上述STEP5.6、5.7和5.8步骤之中获得的每个分量组成一个三维向量(6),这个三维向量就代表了当前这个对象的特征向量;
FeatureVectorq=(CentroidAverage,FarestAverage,FarestFarestAverage)   (6)
STEP5.10、将上述的三维向量中的每一维按照tick(本程序取值为5)大小取定维度形成一个小的格子,这个格子代表了本蛋白质对象在形状空间上所处的位置;
A6、根据上述求得的能量层位置和形状空间位置存储初始构象对象,将构象存储到树结构的特定位置采用同样的方法构建n个此种类型的树结构;
A7、蛋白质的构象的扰动;
A8、将内存中的蛋白质构象的信息用文件的形式保存到电脑磁盘,并将相应的数据用散点图的形式输出,并输出最好的蛋白质构象;
进一步,所述步骤A7中,过程如下:
STEP7.1、根据树结构中存储的蛋白质构象,选定能量水平,根据树数据结构中已有的蛋白质构象动态创建能量水平的列表,使用相应权重函数确定的概率选定能量层级层,并对此求得的概率取反,从而达到低能量层的构象被选中的概率大;
STEP7.2、根据树结构中特定能量水平存储的蛋白质构象,选定形状空间的位置,根据树数据结构中已有的蛋白质构象动态创建形状空间的列表,根据相应的权重函数确定的概率选定形状空间;
STEP7.3、根据树结构中特定能量水平和特定形状空间格子中的蛋白质构象,选定特定的蛋白质构象;在格子中选定蛋白质构象采用均匀概率分布;
STEP7.4、将选定的蛋白质构象从树数据结构中取出,使用上述构建的片段库扰动对象ClassicFragmentMover的apply方法进行扰动处理;
STEP7.5、根据特定的mc列表中特定索引位置的MonteCarlo对象进行评判是否接受扰动之后的蛋白质构象;
STEP7.6、若接受则将新产生的蛋白质构象重新确定能两层的位置以及形状空间的位置,将新产生的蛋白质构象放入对应的数数据结构;若不接受则丢弃,返回到扰动前的蛋白质构象;
STEP7.7、重复STEP7.1-STEP7.6完成n个树数据结构的第一次迭代;
STEP7.8、副本交换,将上述迭代一次之后的相邻的树数据结构之间进行副本交换,过程是KT参数次高赋予最高的,次次高赋予次高,以此类推;
STEP7.9、重复STEP7.1-STEP7.8,直到完成特定数目的迭代。
本发明的技术构思为:将蛋白质构象依据副本交换思想,从而增加蛋白质构象空间的多样性,采用树的数据结构,并且使用能量分层和形状信息,达到有力搜索蛋白质构象空间的低能量部分并且保持蛋白质形状的多样性。
本发明的有益效果为:有效降低搜索代价、效率较高。
附图说明
图1是程序输出1ENH构象和标准蛋白质比对的散点图。
图2是程序输出1ENH最好构象和标准蛋白质比对图(其中绿色构象是程序输出)。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1和图2,一种基于树结构副本交换和片段组装的蛋白质结构预测方法
,所述预测方法包括以下步骤:
A1、蛋白质构象处理,采用ID号为1ENH,其序列sequence是RPRTAFSSEQLARLKREFNENRYLTERRRQQLSSELGLNEAQIKIWFQNKRAKI,过程如下;
STEP1.1、根据获得的蛋白质氨基酸序列sequence使用Rosetta套装软件pose_from_sequence函数构建蛋白质长链;
STEP1.2、并将获取的蛋白质长链使用Rosetta构建的Mover对象SwitchResidueTypeSetMover,使用其apply方法将构建的蛋白质长链的全原子构象转换成骨链原子构象,该蛋白质构象用pose表示,从来减小程序的计算压力;
STEP1.3、将上述转换完成pose使用随机数分别给定每个氨基酸位置的(α,β,ω)设定成(120,-120,180);
STEP1.4、将上述的STEP1、STEP2、STEP3步骤执行8次;
A2、片段库构建,过程如下;
STEP2.1、将sequence提交到提供根据特定序列产生片段库的服务器网站(http://robetta.bakerlab.org/fragmentqueue.jsp?id=34657),服务器处理完成之后返回特定的片段库文件,主要文件是三片段和九片段的文件;
STEP2.2、使用Rosetta软件套装的Mover对象ClassicFragmentMover,根据给定的片段文件构建此对象,本方法默认使用3片段文件构建;
A3、温度参数KT列表设置,过程如下;
STEP3.1、根据副本数目,设定相同数目的KT列表的大小为8;
STEP3.2、使用Rosetta提供的score3力场模型构建能量函数scorefxn;
STEP3.3、根据KT列表和pose对象以及scorefxn实例化Rosetta软件套装提供的MonteCarlo对象,组成一个列表mc,其大小和KT列表相同,均为8;
A4、蛋白质构象的能量计算,过程如下:
STEP4.1、采用上述的scorefxn计算pose对象得到能量值energy;
STEP4.2、根据上述求得的energy进行分层处理,具体是根据蛋白质的能量分布,进行层处理,本程序按照两个能量单位一层进行处理,根据能量值得到本pose对象所处的能量空间的位置;
A5、蛋白质形状特征提取,过程如下;
STEP5.1、首先读入pose;
STEP5.2、从上述pose中取出待处理原子(相当于采样点)的三维坐标(作为示例只是对蛋白质分子的骨链氨基酸中的原子坐标进行了提取,也就是蛋白质分子的每个氨基酸的N原子、Cα原子、C原子、O原子四个原子进行坐标数据的处理,由于每个氨基酸均有这四种原子。因此,其数目是相同的均等于蛋白质之中氨基酸的数目);
STEP5.3、根据上述的坐标求解出蛋白质分子的质心坐标centroid(x,y,z)(也就是蛋白质分子的几何中心);
计算公式如下:
蛋白质1ENH有n=54(为了一般性,下文仍然使用n作为代替)个氨基酸,根据STEP2已经获得的各个原子的坐标分别为:
N1(Nx1,Ny1,Nz1)……Nn(Nxn,,Nyn.,Nzn),共n个N原子
Cα1(Cαx1,Cαy1,Cαz1)……Cαn(Cαxn,Cαyn,Cαzn),共n个Cα原子
C1(Cx1,Cy1,Cz1)……Cn(Cxn,Cyn,Czn),共n个C原子
O1(Ox1,Oy1,Oz1)……On(Oxn,,Oyn.,Ozn),共n个O原子
centroid(x,y,z)质心的坐标计算方式如下:
centroid(x,y,z)中的x分量计算如下:
x = 1 n Σ i = 1 n N xi + 1 n Σ i = 1 n C αxi + 1 n Σ i = 1 n C xi + 1 n Σ i = 1 n O xi
centroid(x,y,z)中的y分量计算如下:
y = 1 n Σ i = 1 n N yi + 1 n Σ i = 1 n C αyi + 1 n Σ i = 1 n C yi + 1 n Σ i = 1 n O yi
centroid(x,y,z)中的z分量计算如下:
z = 1 n Σ i = 1 n N zi + 1 n Σ i = 1 n C αzi + 1 n Σ i = 1 n C zi + 1 n Σ i = 1 n O zi
STEP5.4、根据上述求得的质心坐标求解离质心最远的原子坐标farest(x,y,z),这需要迭代所有的蛋白质分子中的骨链原子(N,Cα,C,O)坐标和质心坐标centroid(x,y,z)的距离,从中选择离质心最远的原子;
求解原子坐标ATOM(xi,yi,zi)和质心坐标centroid(x,y,z)的距离公式如下:
Dis tan ce = ( ( x i - x ) 2 + ( y i - y ) 2 + ( z i - z ) 2 )
根据这个公式迭代求解得到离质心坐标centroid(x,y,z)最远的原子坐标farest(x,y,z)。
STEP5.5、根据上述求得的质心坐标求解离farest(x,y,z)最远的原子坐标farest_farest(x,y,z),这需要迭代所有的蛋白质分子中的骨链原子(N,Cα,C,O)坐标和质心坐标farest(x,y,z)的距离,从中选择离farest(x,y,z)最远的原子;
STEP5.6、求得各个原子坐标和质心坐标centroid(x,y,z)的平均距离CentroidAverage;
计算公式如下:
假设这个蛋白质分子有n个氨基酸,根据上边的描述每个氨基酸骨链原子之中均有4个类型的原子(N,Cα,C,O),可以将这四个原子统称为ATOM(xi,yi,zi),共有4n个原子。
计算各个原子和质心坐标的平均距离:
CentroidAverage = Σ i = 1 4 n ( ( x i - x ) 2 + ( y i - y ) 2 + ( z i - z ) 2 ) / ( 4 n )
STEP5.7、求得各个原子坐标和上述求得坐标farest(x,y,z)的平均距离FarestAverage;
计算公式如下:
假设这个蛋白质分子有n个氨基酸,根据上边的描述每个氨基酸骨链原子之中均有4个类型的原子(N,Cα,C,O),可以将这四个原子统称为ATOM(xi,yi,zi),共有4n个原子。
计算各个原子和nearest(x,y,z)的平均距离:
FarestAverage = Σ i = 1 4 n ( ( x i - x ) 2 + ( y i - y ) 2 + ( z i - z ) 2 ) / ( 4 n )
STEP5.8、求得各个原子坐标和上述求得坐标farest_farest(x,y,z)的平均距离FarestFarestAverage;
计算公式如下:
假设这个蛋白质分子有n个氨基酸,根据上边的描述每个氨基酸骨链原子之中均有4个类型的原子(N,Cα,C,O),可以将这四个原子统称为ATOM(xi,yi,zi),共有4n个原子。
计算各个原子和farest(x,y,z)的平均距离:
FarestFarestAverage = Σ i = 1 4 n ( ( x i - x ) 2 + ( y i - y ) 2 + ( z i - z ) 2 ) / ( 4 n )
STEP5.9、将上述所求得3个分量组成一个三维维的蛋白质特征向量;
FeatureVectorq=(CentroidAverage,FarestAverage,FarestFarestAverage)
STEP10、将上述的三维向量中的每一维按照tick(本程序取值为5)大小取定维度形成一个小的格子,这个格子代表了pose对象在形状空间上所处的位置;
A6、根据上述求得的能量层位置和形状空间位置存储初始构象对象,将构象存储到树结构的特定位置采用同样的方法构建8个此种类型的树结构。
A7、蛋白质的构象的扰动;
STEP7.1、根据树结构中存储的蛋白质构象,选定能量水平。根据树数据结构中已有的蛋白质构象动态创建能量水平的列表,使用权重函数ω(l)=E(l)2确定的概率选定能量层级层,并对此求得的概率取反,从而达到低能量层的构象被选中的概率大;
STEP7.2、根据树结构中特定能量水平存储的蛋白质构象,选定形状空间的位置。根据树数据结构中已有的蛋白质构象动态创建形状空间的列表,根据1.0/[(1.0+nsel)*nconfs]权重函数确定的概率选定形状空间,其中nsel记录一个格子被选择频度,也就是当前格子被选择的次数除以所有当前能量水平的格子选择的次数,nconfs是当前格子中构象的数目;
STEP7.3、根据树结构中特定能量水平和特定形状空间格子中的蛋白质构象,选定特定的蛋白质构象。本次在格子中选定蛋白质构象采用均匀概率分布,即格子中每个构象选定的概率相等;
STEP7.4、将选定的蛋白质构象从树数据结构中取出,使用上述构建的片段库扰动对象ClassicFragmentMover的apply方法进行扰动处理;
STEP7.5、根据特定的mc列表中特定索引位置的MonteCarlo对象进行评判是否接受扰动之后的蛋白质构象;
STEP7.6、若接受则将新产生的蛋白质构象重新确定能两层的位置以及形状空间的位置,将新产生的蛋白质构象放入对应的数数据结构;若不接受则丢弃,返回到扰动前的蛋白质构象;
STEP7.7、重复STEP7.1-STEP7.6完成8个树数据结构的第一次迭代;
STEP7.8、副本交换,将上述迭代一次之后的相邻的树数据结构之间进行副本交换,过程是KT参数次高赋予最高的,次次高赋予次高,以此类推;
STEP9、重复STEP7.1-STEP7.8,直到完成特定数目的迭代;
A8、将内存中的蛋白质构象的信息用文件的形式保存到电脑磁盘,并将相应的数据用散点图的形式输出,并输出最好的蛋白质构象;
本实例以1ENH蛋白质构象预测作为例子,一种基于树结构副本交换和片段组装的蛋白质结构预测方法,包括以下步骤:
A1、蛋白质构象处理,采用ID号为1ENH,其序列sequence是RPRTAFSSEQLARLKREFNENRYLTERRRQQLSSELGLNEAQIKIWFQNKRAKI;
STEP1.1、根据获得的蛋白质氨基酸序列sequence使用Rosetta套装软件pose_from_sequence函数构建蛋白质长链;
STEP1.2、并将获取的蛋白质长链使用Rosetta构建的Mover对象SwitchResidueTypeSetMover,使用其apply方法将构建的蛋白质长链的全原子构象转换成骨链原子构象,该蛋白质构象用pose表示,从来减小程序的计算压力;
STEP1.3、将上述转换完成pose使用随机数分别给定每个氨基酸位置的(α,β,ω)设定成(120,-120,180);
STEP1.4、将上述的STEP1、STEP2、STEP3步骤执行8次;
A2、片段库构建;
STEP2.1、将sequence提交到提供根据特定序列产生片段库的服务器网站(http://robetta.bakerlab.org/fragmentqueue.jsp?id=34657),服务器处理完成之后返回特定的片段库文件,主要文件是三片段和九片段的文件;
STEP2.2、使用Rosetta软件套装的Mover对象ClassicFragmentMover,根据给定的片段文件构建此对象,本方法默认使用3片段文件构建;
A3、温度参数KT列表设置;
STEP3.1、根据副本数目,设定相同数目的KT列表的大小为8;
STEP3.2、使用Rosetta提供的score3力场模型构建能量函数scorefxn;
STEP3.3、根据KT列表和pose对象以及scorefxn实例化Rosetta软件套装提供的MonteCarlo对象,组成一个列表mc,其大小和KT列表相同,均为8;
A4、蛋白质构象的能量计算
STEP4.1、采用上述的scorefxn计算pose对象得到能量值energy;
STEP4.2、根据上述求得的energy进行分层处理,具体是根据蛋白质的能量分布,进行层处理,本程序按照两个能量单位一层进行处理,根据能量值得到本pose对象所处的能量空间的位置;
A5、蛋白质形状特征提取;
STEP5.1、首先读入pose;
STEP5.2、从上述pose中取出待处理原子(相当于采样点)的三维坐标(作为示例只是对蛋白质分子的骨链氨基酸中的原子坐标进行了提取,也就是蛋白质分子的每个氨基酸的N原子、Cα原子、C原子、O原子四个原子进行坐标数据的处理,由于每个氨基酸均有这四种原子。因此,其数目是相同的均等于蛋白质之中氨基酸的数目);
STEP5.3、根据上述的坐标求解出蛋白质分子的质心坐标centroid(x,y,z)(也就是蛋白质分子的几何中心);
计算公式如下:
蛋白质1ENH有n=54(为了一般性,下文仍然使用n作为代替)个氨基酸,根据STEP2已经获得的各个原子的坐标分别为:
N1(Nx1,Ny1,Nz1)……Nn(Nxn,,Nyn.,Nzn),共n个N原子
Cα1(Cαx1,Cαy1,Cαz1)……Cαn(Cαxn,Cαyn,Cαzn),共n个Cα原子
C1(Cx1,Cy1,Cz1)……Cn(Cxn,Cyn,Czn),共n个C原子
O1(Ox1,Oy1,Oz1)……On(Oxn,,Oyn.,Ozn),共n个O原子
centroid(x,y,z)质心的坐标计算方式如下:
centroid(x,y,z)中的x分量计算如下:
x = 1 n Σ i = 1 n N xi + 1 n Σ i = 1 n C αxi + 1 n Σ i = 1 n C xi + 1 n Σ i = 1 n O xi
centroid(x,y,z)中的y分量计算如下:
y = 1 n Σ i = 1 n N yi + 1 n Σ i = 1 n C αyi + 1 n Σ i = 1 n C yi + 1 n Σ i = 1 n O yi
centroid(x,y,z)中的z分量计算如下:
z = 1 n Σ i = 1 n N zi + 1 n Σ i = 1 n C αzi + 1 n Σ i = 1 n C zi + 1 n Σ i = 1 n O zi
STEP5.4、根据上述求得的质心坐标求解离质心最远的原子坐标farest(x,y,z),这需要迭代所有的蛋白质分子中的骨链原子(N,Cα,C,O)坐标和质心坐标centroid(x,y,z)的距离,从中选择离质心最远的原子;
求解原子坐标ATOM(xi,yi,zi)和质心坐标centroid(x,y,z)的距离公式如下:
Dis tan ce = ( ( x i - x ) 2 + ( y i - y ) 2 + ( z i - z ) 2 )
根据这个公式迭代求解得到离质心坐标centroid(x,y,z)最远的原子坐标farest(x,y,z)。
STEP5.5、根据上述求得的质心坐标求解离farest(x,y,z)最远的原子坐标farest_farest(x,y,z),这需要迭代所有的蛋白质分子中的骨链原子(N,Cα,C,O)坐标和质心坐标farest(x,y,z)的距离,从中选择离farest(x,y,z)最远的原子;
STEP5.6、求得各个原子坐标和质心坐标centroid(x,y,z)的平均距离CentroidAverage;
计算公式如下:
假设这个蛋白质分子有n个氨基酸,根据上边的描述每个氨基酸骨链原子之中均有4个类型的原子(N,Cα,C,O),可以将这四个原子统称为ATOM(xi,yi,zi),共有4n个原子。
计算各个原子和质心坐标的平均距离:
CentroidAverage = Σ i = 1 4 n ( ( x i - x ) 2 + ( y i - y ) 2 + ( z i - z ) 2 ) / ( 4 n )
STEP5.7、求得各个原子坐标和上述求得坐标farest(x,y,z)的平均距离FarestAverage;
计算公式如下:
假设这个蛋白质分子有n个氨基酸,根据上边的描述每个氨基酸骨链原子之中均有4个类型的原子(N,Cα,C,O),可以将这四个原子统称为ATOM(xi,yi,zi),共有4n个原子。
计算各个原子和nearest(x,y,z)的平均距离:
FarestAverage = Σ i = 1 4 n ( ( x i - x ) 2 + ( y i - y ) 2 + ( z i - z ) 2 ) / ( 4 n )
STEP5.8、求得各个原子坐标和上述求得坐标farest_farest(x,y,z)的平均距离FarestFarestAverage;
计算公式如下:
假设这个蛋白质分子有n个氨基酸,根据上边的描述每个氨基酸骨链原子之中均有4个类型的原子(N,Cα,C,O),可以将这四个原子统称为ATOM(xi,yi,zi),共有4n个原子。
计算各个原子和farest(x,y,z)的平均距离:
FarestFarestAverage = Σ i = 1 4 n ( ( x i - x ) 2 + ( y i - y ) 2 + ( z i - z ) 2 ) / ( 4 n )
STEP5.9、将上述所求得3个分量组成一个三维维的蛋白质特征向量;
FeatureVectorq=(CentroidAverage,FarestAverage,FarestFarestAverage)
STEP5.10、将上述的三维向量中的每一维按照tick(本程序取值为5)大小取定维度形成一个小的格子,这个格子代表了pose对象在形状空间上所处的位置;
A6、根据上述求得的能量层位置和形状空间位置存储初始构象对象,将构象存储到树结构的特定位置采用同样的方法构建8个此种类型的树结构。
A7、蛋白质的构象的扰动;
STEP7.1、根据树结构中存储的蛋白质构象,选定能量水平。根据树数据结构中已有的蛋白质构象动态创建能量水平的列表,使用权重函数ω(l)=E(l)2确定的概率选定能量层级层,并对此求得的概率取反,从而达到低能量层的构象被选中的概率大;
STEP7.2、根据树结构中特定能量水平存储的蛋白质构象,选定形状空间的位置。根据树数据结构中已有的蛋白质构象动态创建形状空间的列表,根据1.0/[(1.0+nsel)*nconfs]权重函数确定的概率选定形状空间,其中nsel记录一个格子被选择频度,也就是当前格子被选择的次数除以所有当前能量水平的格子选择的次数,nconfs是当前格子中构象的数目;
STEP7.3、根据树结构中特定能量水平和特定形状空间格子中的蛋白质构象,选定特定的蛋白质构象。本次在格子中选定蛋白质构象采用均匀概率分布,即格子中每个构象选定的概率相等;
STEP7.4、将选定的蛋白质构象从树数据结构中取出,使用上述构建的片段库扰动对象ClassicFragmentMover的apply方法进行扰动处理;
STEP7.5、根据特定的mc列表中特定索引位置的MonteCarlo对象进行评判是否接受扰动之后的蛋白质构象;
STEP7.、若接受则将新产生的蛋白质构象重新确定能两层的位置以及形状空间的位置,将新产生的蛋白质构象放入对应的数数据结构;若不接受则丢弃,返回到扰动前的蛋白质构象;
STEP7.7、重复STEP7.1-STEP7.6完成8个树数据结构的第一次迭代;
STEP7.8、副本交换,将上述迭代一次之后的相邻的树数据结构之间进行副本交换,过程是KT参数次高赋予最高的,次次高赋予次高,以此类推;
STEP7.9、重复STEP7.1-STEP7.8,直到完成特定数目12000次的迭代;
A8、将内存中的蛋白质构象的信息用文件的形式保存到电脑磁盘,并将相应的数据用散点图的形式输出,并输出最好的蛋白质构象;
本程序的最好结果和实验室测定的自然态蛋白质最小平方根偏差是,本方法的输出结果予以附图说明。
以上阐述的是本发明给出的一个实例表现出来的优良优化效果,显然本发明不仅适合上述实施例,在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。

Claims (2)

1.一种基于树结构副本交换和片段组装的蛋白质结构预测方法,其特征在于:所述预测方法包括以下步骤:
A1、蛋白质构象处理,过程如下:
STEP1.1、根据获得的蛋白质氨基酸序列使用Rosetta套装软件pose_from_sequence函数构建蛋白质长链;
STEP1.2、并将获取的蛋白质长链使用Rosetta构建的Mover对象SwitchResidueTypeSetMover,使用其apply方法将构建的蛋白质长链的全原子构象转换成骨链原子构象,该蛋白质构象用pose表示;
STEP1.3、将上述转换完成pose使用随机数分别给定每个氨基酸位置的(α,β,ω);
STEP1.4、将上述的STEP1.1、STEP1.2、STEP1.3步骤执行n次,n是副本总数;
A2、片段库构建,过程如下:
STEP2.1、将蛋白质的序列提交到提供根据特定序列产生片段库的服务器网站,服务器处理完成之后返回特定的片段库文件;
STEP2.2、使用Rosetta软件套装构建的Mover对象ClassicFragmentMover,根据获得的片段库文件构建此对象;
A3、温度参数KT列表设置,过程如下:
STEP3.1、根据副本数目,设定相同数目的KT列表的大小;
STEP3.2、使用Rosetta提供的score3力场模型构建能量函数scorefxn;
STEP3.3、根据KT列表和pose对象以及scorefxn实例化Rosetta软件套装提供的MonteCarlo对象,组成一个列表mc,其大小和KT列表相同;
A4、蛋白质构象的能量计算,过程如下:
STEP4.1、采用上述的scorefxn计算pose对象得到能量值;
STEP4.2、根据上述求得的能量值进行分层处理,具体是根据蛋白质的能量分布,进行层处理,本程序按照两个能量单位一层进行处理,根据能量值得到本pose对象所处的能量空间的位置;
A5、蛋白质形状特征提取,过程如下:
STEP5.1、首先传入蛋白质对象;
STEP5.2、从上述对象里面提取出来各个采样点的坐标,所述坐标是三维的笛卡尔坐标,假定采样点的坐标共有n个;
STEP5.3、由公式(1)求得上述对象的质心坐标,即几何中心坐标centroid(x,y,z);
x = 1 n Σ i = 1 n x i y = 1 n Σ i = 1 n y i z = 1 n Σ i = 1 n z i - - - ( 1 )
STEP5.4、由公式(2)迭代求得离上述对象的质心坐标centroid(x,y,z)最远的采样点坐标farest(x,y,z);
Dis tan ce = ( ( x i - x ) 2 + ( y i - y ) 2 + ( z i - z ) 2 ) - - - ( 2 )
STEP5.5、由公式(2)迭代求得离上述对象的质心坐标centroid(x,y,z)最远的采样点坐标farest_farest(x,y,z);
STEP5.6、分别由公式(3)迭代求得各个采样点与centroid(x,y,z)的平均距离CentroidAverage;
CentroidAverage = Σ i = 1 4 n ( ( x i - x ) 2 + ( y i - y ) 2 + ( z i - z ) 2 ) / ( 4 n ) - - - ( 3 )
STEP5.7、分别由公式(4)迭代求得各个采样点与farest(x,y,z)的平均距离FarestAverage
FarestAverage = Σ i = 1 4 n ( ( x i - x ) 2 + ( y i - y ) 2 + ( z i - z ) 2 ) / ( 4 n ) - - - ( 4 )
STEP5.8、分别由公式(5)迭代求得各个采样点与farest_farest(x,y,z)的平均距离FarestFarestAverage
FarestFarestAverage = Σ i = 1 4 n ( ( x i - x ) 2 + ( y i - y ) 2 + ( z i - z ) 2 ) / ( 4 n ) - - - ( 5 )
STEP5.9、将上述STEP5.6、5.7和5.8步骤之中获得的每个分量组成一个三维向量(6),这个三维向量就代表了当前这个对象的特征向量;
FeatureVectorq=(CentroidAverage,FarestAverage,FarestFarestAverage)   (6)
STEP5.10、将上述的三维向量中的每一维按照tick大小取定维度形成一个小的格子,这个格子代表了本蛋白质对象在形状空间上所处的位置;
A6、根据上述求得的能量层位置和形状空间位置存储初始构象对象,将构象存储到树结构的特定位置采用同样的方法构建n个此种类型的树结构;
A7、蛋白质的构象的扰动;
A8、将内存中的蛋白质构象的信息用文件的形式保存到电脑磁盘,并将相应的数据用散点图的形式输出,并输出最好的蛋白质构象。
2.如权利要求1所述的基于树结构副本交换和片段组装的蛋白质结构预测方法,其特征在于:所述步骤A7中,过程如下:
STEP7.1、根据树结构中存储的蛋白质构象,选定能量水平,根据树数据结构中已有的蛋白质构象动态创建能量水平的列表,使用相应权重函数确定的概率选定能量层级层,并对此求得的概率取反,从而达到低能量层的构象被选中的概率大;
STEP7.2、根据树结构中特定能量水平存储的蛋白质构象,选定形状空间的位置,根据树数据结构中已有的蛋白质构象动态创建形状空间的列表,根据相应的权重函数确定的概率选定形状空间;
STEP7.3、根据树结构中特定能量水平和特定形状空间格子中的蛋白质构象,选定特定的蛋白质构象;在格子中选定蛋白质构象采用均匀概率分布;
STEP7.4、将选定的蛋白质构象从树数据结构中取出,使用上述构建的片段库扰动对象ClassicFragmentMover的apply方法进行扰动处理;
STEP7.5、根据特定的mc列表中特定索引位置的MonteCarlo对象进行评判是否接受扰动之后的蛋白质构象;
STEP7.6、若接受则将新产生的蛋白质构象重新确定能两层的位置以及形状空间的位置,将新产生的蛋白质构象放入对应的数数据结构;若不接受则丢弃,返回到扰动前的蛋白质构象;
STEP7.7、重复STEP7.1-STEP7.6完成n个树数据结构的第一次迭代;
STEP7.8、副本交换,将上述迭代一次之后的相邻的树数据结构之间进行副本交换,过程是KT参数次高赋予最高的,次次高赋予次高,以此类推;
STEP7.9、重复STEP7.1-STEP7.8,直到完成特定数目的迭代。
CN201410353661.2A 2014-07-23 2014-07-23 一种基于树结构副本交换和片段组装的蛋白质结构预测方法 Active CN104200130B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410353661.2A CN104200130B (zh) 2014-07-23 2014-07-23 一种基于树结构副本交换和片段组装的蛋白质结构预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410353661.2A CN104200130B (zh) 2014-07-23 2014-07-23 一种基于树结构副本交换和片段组装的蛋白质结构预测方法

Publications (2)

Publication Number Publication Date
CN104200130A true CN104200130A (zh) 2014-12-10
CN104200130B CN104200130B (zh) 2017-08-11

Family

ID=52085423

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410353661.2A Active CN104200130B (zh) 2014-07-23 2014-07-23 一种基于树结构副本交换和片段组装的蛋白质结构预测方法

Country Status (1)

Country Link
CN (1) CN104200130B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933328A (zh) * 2015-06-08 2015-09-23 浙江工业大学 一种基于副本交换的变步长蛋白质构象空间搜索方法
CN104951670A (zh) * 2015-06-08 2015-09-30 浙江工业大学 一种基于距离谱的群体构象空间优化方法
CN104951669A (zh) * 2015-06-08 2015-09-30 浙江工业大学 一种用于蛋白质结构预测的距离谱构建方法
CN105046101A (zh) * 2015-06-08 2015-11-11 浙江工业大学 一种基于副本交换和局部增强策略的群体构象空间搜索方法
CN105787292A (zh) * 2014-12-18 2016-07-20 中国科学院大连化学物理研究所 蛋白质折叠的并行预测方法
CN105975806A (zh) * 2016-04-26 2016-09-28 浙江工业大学 一种基于距离约束副本交换的蛋白质结构预测方法
CN106055920A (zh) * 2016-06-02 2016-10-26 浙江工业大学 一种基于阶段性多策略副本交换的蛋白质结构预测方法
CN106096326A (zh) * 2016-06-02 2016-11-09 浙江工业大学 一种基于质心变异策略的差分进化蛋白质结构预测方法
CN107111690A (zh) * 2014-12-23 2017-08-29 皇家飞利浦有限公司 用于序列对齐的系统、方法、和装置
CN109461472A (zh) * 2018-08-30 2019-03-12 浙江工业大学 一种基于副本交换和有偏分布估计的蛋白质构象空间优化方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050026217A1 (en) * 2001-12-27 2005-02-03 Celestar Lexico-Sciences, Inc. Protein structure prediction device, protein structure prediction method, program, and recording medium
CN103413067A (zh) * 2013-07-30 2013-11-27 浙江工业大学 一种基于抽象凸下界估计的蛋白质结构预测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050026217A1 (en) * 2001-12-27 2005-02-03 Celestar Lexico-Sciences, Inc. Protein structure prediction device, protein structure prediction method, program, and recording medium
CN103413067A (zh) * 2013-07-30 2013-11-27 浙江工业大学 一种基于抽象凸下界估计的蛋白质结构预测方法

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105787292A (zh) * 2014-12-18 2016-07-20 中国科学院大连化学物理研究所 蛋白质折叠的并行预测方法
CN105787292B (zh) * 2014-12-18 2018-12-07 中国科学院大连化学物理研究所 蛋白质折叠的并行预测方法
CN107111690A (zh) * 2014-12-23 2017-08-29 皇家飞利浦有限公司 用于序列对齐的系统、方法、和装置
CN105046101B (zh) * 2015-06-08 2018-06-01 浙江工业大学 一种基于副本交换和局部增强策略的群体构象空间搜索方法
CN104951669A (zh) * 2015-06-08 2015-09-30 浙江工业大学 一种用于蛋白质结构预测的距离谱构建方法
CN105046101A (zh) * 2015-06-08 2015-11-11 浙江工业大学 一种基于副本交换和局部增强策略的群体构象空间搜索方法
CN104951670A (zh) * 2015-06-08 2015-09-30 浙江工业大学 一种基于距离谱的群体构象空间优化方法
CN104933328A (zh) * 2015-06-08 2015-09-23 浙江工业大学 一种基于副本交换的变步长蛋白质构象空间搜索方法
CN104951670B (zh) * 2015-06-08 2018-03-16 浙江工业大学 一种基于距离谱的群体构象空间优化方法
CN105975806A (zh) * 2016-04-26 2016-09-28 浙江工业大学 一种基于距离约束副本交换的蛋白质结构预测方法
CN106055920A (zh) * 2016-06-02 2016-10-26 浙江工业大学 一种基于阶段性多策略副本交换的蛋白质结构预测方法
CN106096326B (zh) * 2016-06-02 2018-09-07 浙江工业大学 一种基于质心变异策略的差分进化蛋白质结构预测方法
CN106055920B (zh) * 2016-06-02 2018-09-18 浙江工业大学 一种基于阶段性多策略副本交换的蛋白质结构预测方法
CN106096326A (zh) * 2016-06-02 2016-11-09 浙江工业大学 一种基于质心变异策略的差分进化蛋白质结构预测方法
CN109461472A (zh) * 2018-08-30 2019-03-12 浙江工业大学 一种基于副本交换和有偏分布估计的蛋白质构象空间优化方法
CN109461472B (zh) * 2018-08-30 2021-02-26 浙江工业大学 一种基于副本交换和有偏分布估计的蛋白质构象空间优化方法

Also Published As

Publication number Publication date
CN104200130B (zh) 2017-08-11

Similar Documents

Publication Publication Date Title
CN104200130A (zh) 一种基于树结构副本交换和片段组装的蛋白质结构预测方法
CN109964278B (zh) 通过并行评估分类器输出校正第一分类器中的误差
Deng et al. Protein structure prediction
Zhang et al. TOUCHSTONE II: a new approach to ab initio protein structure prediction
Li et al. Protein secondary structure optimization using an improved artificial bee colony algorithm based on AB off-lattice model
Nepomuceno et al. Biclustering of gene expression data by correlation-based scatter search
CN103714265B (zh) 一种基于蒙特卡洛局部抖动和片段组装的蛋白质三维结构预测方法
CN103984878A (zh) 一种基于树搜索和片段组装的蛋白质结构预测方法
CN103473482B (zh) 基于差分进化和构象空间退火的蛋白质三维结构预测方法
CN106575320A (zh) 结合亲和力预测系统和方法
Wang et al. Artificial intelligence-based multi-objective optimization protocol for protein structure refinement
Strobl et al. On simulated annealing phase transitions in phylogeny reconstruction
Solis-Vasquez et al. Evaluating the energy efficiency of OpenCL-accelerated AutoDock molecular docking
Gao et al. High-performance deep learning toolbox for genome-scale prediction of protein structure and function
Yusuf Insights into the in-silico research: current scenario, advantages, limits, and future perspectives
Ye et al. Organic crystal structure prediction via coupled generative adversarial networks and graph convolutional networks
Dai et al. Feature selection of high-dimensional biomedical data using improved SFLA for disease diagnosis
Xiao et al. Modeling and active learning for experiments with quantitative-sequence factors
Du et al. A flexible data-free framework for structure-based de novo drug design with reinforcement learning
Ding et al. Spatial Optimization of Land Use Pattern toward Carbon Mitigation Targets—A Study in Guangzhou
Liu et al. Heuristic energy landscape paving for protein folding problem in the three-dimensional HP lattice model
Dai et al. Parallel option pricing with BSDE method on GPU
Dall'Igna Júnior et al. Performance and parameterization of the algorithm Simplified Generalized Simulated Annealing
Cancino et al. A multi-criterion evolutionary approach applied to phylogenetic reconstruction
Joshi et al. Multi-species network inference improves gene regulatory network reconstruction for early embryonic development in Drosophila

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant