CN112085246A

CN112085246A - 一种基于残基对距离约束的蛋白质结构预测方法

Info

Publication number: CN112085246A
Application number: CN202010708524.1A
Authority: CN
Inventors: 张贵军; 李亭; 刘俊; 周晓根; 陈芳
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-07-22
Filing date: 2020-07-22
Publication date: 2020-12-15

Abstract

一种基于残基对距离约束的蛋白质结构预测方法，首先，采用片段重组和片段组装策略，广泛的搜索构象空间；然后利用预测的残基距离图实时构建局部扰动模型，利用差分进化算法快速求解扰动量，生成结构多样化的候选构象，进一步改善二级结构间的位置关系。最终，提高整体结构的精度和效率。本发明提供一种预测精度较高的基于残基对距离约束的蛋白质结构预测方法。

Description

一种基于残基对距离约束的蛋白质结构预测方法

技术领域

本发明涉及生物信息学、计算机应用领域，尤其涉及的是一种基于残基对距离约束的蛋白质结构预测方法。

背景技术

蛋白质是生命活动的重要承担者。全面理解蛋白质的生物学功能是人类探索生命奥秘的必经之路。从新陈代谢到疾病免疫，都离不开蛋白质的作用。蛋白质只有折叠成特定的三维结构才能行使其生物学功能。“结构决定功能”是蛋白质组学相关研究领域的重要指导准则。通过获取蛋白质的三维结构，来分析和理解蛋白质生物学功能是最为有效的方法之一。

目前，蛋白质的三维结构主要通过生物湿实验的方法获取。生物湿实验测定蛋白质结构的方法主要包括X射线晶体衍射、核磁共振、冷冻电镜技术。这类方法最为准确但是十分复杂，存在耗时、费力、成本高的问题，而且不能精确测定氨基酸残基数目较多的蛋白质三维结构。

随着高通量测序技术的飞速发展，未测定结构的蛋白数量也在不断增大。因此，急需一种高通量的蛋白质结构获取新方法。在理论探索和应用需求的双重推动下，根据Anfinsen法则，利用生物计算手段来预测蛋白质结构在20世纪末得到了蓬勃发展。根据氨基酸序列预测蛋白质三维结构的方法主要有同源建模法和从头预测法。从头预测方法直接基于蛋白质的物理或知识能量模型，利用优化算法在构象空间中搜索全局最优解。全世界范围内有许多研究机构致力于研究利用生物大数据、人工智能、系统优化技术预测蛋白质三维结构，并逐渐应用于疾病诊断和药物设计，其中具有代表性的研究团队有美国华盛顿的David Baker实验室、美国密歇根大学的张阳实验室等。国内越来越多的高校和研究机构也加入到蛋白质结构预测的研究当中。

蛋白质结构预测是一个高维复杂的非凸多模态优化问题。现有的方法一方面由于能量函数的不精确，在构象搜索时不能得到令人满意的结果；另一方面优化方法采样能力不足，极易陷入局部最优，影响预测精度。

因此，现有的蛋白质结构预测方法存在能量函数不精确、采样效率低、预测精度不足等问题，需要改进。

发明内容

为了解决现有的蛋白质结构预测方法存在能量函数不精确、采样效率低、预测精度不足等问题，本发明提出了一种基于残基对距离约束的蛋白质结构预测方法。首先，基于预测的残基对距离分布，构建了基于残基对距离的势能函数；然后，利用片段重组和组装大范围搜索构象空间，形成较为完整的拓扑结构；最后，设计了基于残基对距离约束的loop区域采样策略，进一步提升预测精度，最终达到提整体结构精度的目的。

本发明解决其技术问题所采用的技术方案是：

一种基于残基对距离约束的蛋白质结构预测方法，包括以下步骤：

1)输入预测蛋白质的目标序列，获取片段库和残基对距离分布文件，过程如下：

1.1)根据目标蛋白质序列从ROBETTA服务器(http://www.robetta.org/)上获取3片段和9片段的片段库文件，根据目标蛋白质序列从trRosetta服务器(https://yanglab.nankai.edu.cn/trRosetta/)上获取预测的残基对距离分布文件；

1.2)残基对距离数据处理：去除残基对序列分离小于6的残基对；对残基对距离分布进行高斯拟合，得到距离均值和方差，根据方差由小到大对残基对进行排序；

2)设置参数：种群规模NP、迭代次数G；

3)种群初始化：利用Rosetta协议第一阶段产生种群规模为NP的种群T＝{T₁,T₂,...,T_NP}，其中T_n表示种群T中的第n个蛋白质构象，n∈{1,2,...,NP}，用Rosettascore3能量函数计算种群中每个个体的能量，个体T_i的能量为score3(T_i)；

4)根据处理后的残基对距离数据构建个体的距离势能函数：

其中var_ij是残基对(i,j)距离高斯拟合出的方差值，D_ij是目标个体残基i和残基j之间的真实距离，d_ij是预测得到的残基i和残基j之间的距离；

5)设g＝1，其中g∈{1,2,...,G}；

6)设n＝1，其中n∈{1,2,...,NP}；

7)片段重组，过程如下：

7.1)从种群T中随机选择三个互异且不同于目标构象T_i的构象T_r1、T_r2和T_r3，从T_i、T_r2和T_r3中随机选择三个不同位置的片段f₁、f₂和f₃，片段长度为9；

7.2)用片段f₁、f₂和f₃替换构象T_r1中相应位置的片段，生成重组构象T′；

8)片段组装，过程如下：

8.1)从重组构象T′中随机选择一个窗口宽度为3的滑动窗口W_f，从与滑动窗口W_f相应的片段库中随机选择一个片段替换原有片段，生成构象T″；

8.2)利用Rosetta score3能量函数计算构象T′和T″的能量，并根据boltzmann准则决定片段组装是否接收；

8.3)若未接收，转至步骤8.1)，重新进行片段组装；

9)loop区域采样，过程如下：

9.1)利用DSSP算法获取目标构象的二级结构，随机选择一个loop区域，记作[L^b,L^e]；从处理后的残基对距离中选取残基分别在该loop区域两侧的非loop结构的残基对，按照二级结构对该loop区域左右两侧的非loop区域进行排序，距离该loop区域越近权重越大，记(i₁,i₂)是第i对残基所在二级结构相对于选定loop区域的索引，若i₁小于i₂，权重

否则，

9.2)根据选择出的距离残基对构建loop区域采样模型：

其中N为接触对的数量，

为残基对(i,j)之间的C_β原子距离，

为预测的残基对(i,j)距离；

9.3)以[L^b,L^e]中的二面角扰动量

为变量，以最小化D_{local_score}为目标，利用差分进化算法求解10组扰动量；其中

和

分别表示第l个残基的二面角

和ψ上的扰动量，l∈{L^b,L^b+1,…,L^e}；

9.4)用生成的10组扰动量分别对构象T″进行loop区域扰动，生成10个候选构象

10)构象更新，过程如下：

10.1)设i＝1，其中i∈{1,2,...,10}；

10.2)计算构象T_n和

的Rosetta score3能量和Dscore，并根据距离势能的大小和boltzmann准则决定是否用

替换T_n；若替换成功，转至步骤11)；

10.3)i＝i+1；若i≤10，转至步骤10.2)；

11)n＝n+1；若n≤NP，转至步骤6)；

12)g＝g+1；若g≤G，转至步骤5)；

13)对最后一代蛋白质构象按照距离势能进行排序，以距离势能最小的构象作为预测结果。

本发明的有益效果为：首先采用片段重组和片段组装策略，广泛的搜索构象空间。然后利用预测的残基距离图实时构建局部扰动模型，利用差分进化算法快速求解扰动量，生成结构多样化的候选构象，进一步改善二级结构间的位置关系。最终，提高整体结构的精度和效率。

附图说明

图1是一种基于残基对距离约束的蛋白质结构预测方法对蛋白质1E2A进行结构预测时采样到的构象的RMSD分布图。

图2是一种基于残基对距离约束的蛋白质结构预测方法对蛋白质1E2A进行结构预测得到的三维结构图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1和图2，一种基于残基对距离约束的蛋白质结构预测方法，包括以下步骤：

2)设置参数：种群规模NP、迭代次数G；

4)根据处理后的残基对距离数据构建个体的距离势能函数：

5)设g＝1，其中g∈{1,2,...,G}；

6)设n＝1，其中n∈{1,2,...,NP}；

7)片段重组，过程如下：

8)片段组装，过程如下：

8.3)若未接收，转至步骤8.1)，重新进行片段组装；

9)loop区域采样，过程如下：

否则，

9.2)根据选择出的距离残基对构建loop区域采样模型：

其中N为接触对的数量，

为残基对(i,j)之间的C_β原子距离，

为预测的残基对(i,j)距离；

9.3)以[L^b,L^e]中的二面角扰动量

和

分别表示第l个残基的二面角

和ψ上的扰动量，l∈{L^b,L^b+1,…,L^e}；

10)构象更新，过程如下：

10.1)设i＝1，其中i∈{1,2,...,10}；

10.2)计算构象T_n和

替换T_n；若替换成功，转至步骤11)；

10.3)i＝i+1；若i≤10，转至步骤10.2)；

11)n＝n+1；若n≤NP，转至步骤6)；

12)g＝g+1；若g≤G，转至步骤5)；

本实施例以序列长度为102的蛋白质1E2A为实施例，一种基于残基对距离约束的蛋白质结构预测方法，包括以下步骤：

1)输入蛋白质1E2A的蛋白质序列，获取片段库和残基对距离分布文件，过程如下：

1.1)根据1E2A蛋白质序列从ROBETTA服务器(http://www.robetta.org/)上获取3片段和9片段的片段库文件，根据目标蛋白质序列从trRosetta服务器(https://yanglab.nankai.edu.cn/trRosetta/)上获取预测的残基对距离分布文件；

2)设置参数：种群规模NP＝200、迭代次数G＝1000；

4)根据处理后的残基对距离数据构建个体的距离势能函数：

5)设g＝1，其中g∈{1,2,...,G}；

6)设n＝1，其中n∈{1,2,...,NP}；

7)片段重组，过程如下：

8)片段组装，过程如下：

8.3)若未接收，转至步骤8.1)，重新进行片段组装；

9)loop区域采样，过程如下：

否则，

9.2)根据选择出的距离残基对构建loop区域采样模型：

其中N为接触对的数量，

为残基对(i,j)之间的C_β原子距离，

为预测的残基对(i,j)距离；

9.3)以[L^b,L^e]中的二面角扰动量

和

分别表示第l个残基的二面角

和ψ上的扰动量，l∈{L^b,L^b+1,…,L^e}；

10)构象更新，过程如下：

10.1)设i＝1，其中i∈{1,2,...,10}；

10.2)计算构象T_n和

替换T_n；若替换成功，转至步骤11)；

10.3)i＝i+1；若i≤10，转至步骤10.2)；

11)n＝n+1；若n≤NP，转至步骤6)；

12)g＝g+1；若g≤G，转至步骤5)；

以序列长度为102的蛋白质1E2A为实施例，运用以上方法预测得到了该蛋白质的近天然态构象，其构象更新示意图如图1所示，预测的蛋白质的均方根偏差为

预测结构如图2所示。

以上阐述的是本发明给出的一个实施例展现出来的一个优良结果，本发明不仅适合上述实施例，在不偏离本发明基本思想及不超出本发明实质内容的前提下可对其做种种改进加以实施。

Claims

1.一种基于残基对距离约束的蛋白质结构预测方法，其特征在，所述蛋白质结构预测方法包括以下步骤：

1.1)根据目标蛋白质序列从ROBETTA服务器上获取3片段和9片段的片段库文件，根据目标蛋白质序列从trRosetta服务器上获取预测的残基对距离分布文件；

2)设置参数：种群规模NP、迭代次数G；

3)种群初始化：利用Rosetta协议第一阶段产生种群规模为NP的种群T＝{T₁,T₂,...,T_NP}，其中T_n表示种群T中的第n个蛋白质构象，n∈{1,2,...,NP}，用Rosetta score3能量函数计算种群中每个个体的能量，个体T_i的能量为score3(T_i)；

4)根据处理后的残基对距离数据构建个体的距离势能函数：

5)设g＝1，其中g∈{1,2,...,G}；

6)设n＝1，其中n∈{1,2,...,NP}；

7)片段重组，过程如下：

8)片段组装，过程如下：

8.3)若未接收，转至步骤8.1)，重新进行片段组装；

9)loop区域采样，过程如下：

否则，

9.2)根据选择出的距离残基对构建loop区域采样模型：

其中N为接触对的数量，

为残基对(i,j)之间的C_β原子距离，

为预测的残基对(i,j)距离；

9.3)以[L^b,L^e]中的二面角扰动量

和

分别表示第l个残基的二面角

和ψ上的扰动量，l∈{L^b,L^b+1,…,L^e}；

10)构象更新，过程如下：

10.1)设i＝1，其中i∈{1,2,...,10}；

10.2)计算构象T_n和T_i ^*的Rosetta score3能量和Dscore，并根据距离势能的大小和boltzmann准则决定是否用T_i ^*替换T_n；若替换成功，转至步骤11)；

10.3)i＝i+1；若i≤10，转至步骤10.2)；

11)n＝n+1；若n≤NP，转至步骤6)；

12)g＝g+1；若g≤G，转至步骤5)；