CN107145764A

CN107145764A - 一种双重分布估计引导的蛋白质构象空间搜索方法

Info

Publication number: CN107145764A
Application number: CN201710148984.1A
Authority: CN
Inventors: 张贵军; 郝小虎; 谢腾宇; 周晓根; 王柳静
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2017-03-14
Filing date: 2017-03-14
Publication date: 2017-09-08
Anticipated expiration: 2037-03-14
Also published as: CN107145764B

Abstract

一种双重分布估计引导的蛋白质构象空间搜索方法，同时启动多条Monte Carlo轨迹，并根据当前所有轨迹个体信息构建能量分布概率模型和历史接受概率模型，根据两个概率模型选择一条Monte Carlo轨迹执行下一次搜索，使得搜索过程主要向能量更低的区域进行，并以一定的概率在高能量区域进行搜索，在一定程度上克服了能量模型不精确的问题，最终得到一系列近天然态构象。本发明在蛋白质结构预测中应用，可以得到预测精度较高、复杂度较低的构象。

Description

一种双重分布估计引导的蛋白质构象空间搜索方法

技术领域

本发明涉及生物信息学、计算机应用领域，尤其涉及的是一种双重分布估计引导的蛋白质构象空间搜索方法。

背景技术

生物信息学是生命科学和计算机科学交叉领域的一个研究热点。生物信息学研究成果目前已经被广泛应用于基因发现和预测、基因数据的存储管理、数据检索与挖掘、蛋白质结构预测、基因和蛋白质同源关系预测、序列分析与比对等。基因组规定了所有构成该生物体的蛋白质，基因规定了组成蛋白质的氨基酸序列。虽然蛋白质由氨基酸的线性序列组成，但是，它们只有折叠形成特定的空间结构才能具有相应的活性和相应的生物学功能。了解蛋白质的空间结构不仅有利于认识蛋白质的功能，也有利于认识蛋白质是如何执行功能的。确定蛋白质的结构的是非常重要的。目前，蛋白质序列数据库的数据积累的速度非常快，但是，已知结构的蛋白质相对比较少。尽管蛋白质结构测定技术有了较为显著的进展，但是，通过实验方法确定蛋白质结构的过程仍然非常复杂，代价较高。因此，实验测定的蛋白质结构比已知的蛋白质序列要少得多。另一方面，随着DNA测序技术的发展，人类基因组及更多的模式生物基因组已经或将要被完全测序，DNA序列数量将会急增，而由于DNA序列分析技术和基因识别方法的进步，我们可以从DNA推导出大量的蛋白质序列。这意味着已知序列的蛋白质数量和已测定结构的蛋白质数量(如蛋白质结构数据库PDB中的数据)的差距将会越来越大。人们希望产生蛋白质结构的速度能够跟上产生蛋白质序列的速度，或者减小两者的差距。

目前主要的技术瓶颈在于两个方面，第一方面在于采样方法，现有技术对构象空间采样能力不强，另一方面在于构象更新方法，现有技术对构象的更新精度仍然不足。因此，现有的构象空间搜索方法存在不足，需要改进。

发明内容

为了克服现有的蛋白质结构预测构象空间优化方法存在采样效率较低、复杂度较高、预测精度较低的不足，本发明提出一种双重分布估计引导的蛋白质构象空间搜索方法。同时启动多条Monte Carlo轨迹，并根据当前所有轨迹个体信息构建能量分布概率模型和历史接受概率模型，根据两个概率模型选择一条Monte Carlo轨迹执行下一次搜索，使得搜索过程主要向能量更低的区域进行，并以一定的概率在高能量区域进行搜索，在一定程度上克服了能量模型不精确的问题，最终得到一系列近天然态构象。

本发明解决其技术问题所采用的技术方案是：

一种双重分布估计引导的蛋白质构象空间搜索方法，所述方法包括以下步骤：

1)给定输入序列信息；

2)参数初始化：设置Monte Carlo轨迹条数K、迭代次数G和能量平衡因子δ；

3)构象初始化：根据给定输入序列，生成K个伸展链初始个体；

4)对步骤3)中的K个个体根据RosettaScore3分别计算能量，加上能量平衡因子δ后，存入能量列表EnergyList中；

5)对EnergyList中的所有元素求和得到能量总和E_sum；

6)对EnergyList执行反转操作，即将其中所有元素逆序排列；

7)对EnergyList中的元素执行以下操作：EnergyList[i]/E_sum，其中i表示列表索引值，i的取值从0到K-1；

8)将EnergyList[i]/E_sum存入对应位置的能量分布概率列表p_Cur中；

9)创建接收列表AcceptList；

10)计算总评价次数A_sum；

11)对AcceptList中的每个元素做以下操作：AcceptList[i]＝1，其中i表示列表索引值，i的取值从0到K-1；

12)将1/A_sum存入对应位置的接受分布概率列表p_His中；

13)开始迭代：

13.1)根据p_Cur和p_His这两个概率分布，选出一条Monte Carlo轨迹，执行片段组装过程，生成新的构象p_MC；

13.2)根据RosettaScore3计算新生成构象的能量E(p_MC)；

13.3)依据Bolztmann准则接受新生成的构象，如果没有接收当前构象，直接转到步骤14)，如果接受当前构象，则取得该轨迹在列表中的索引值j；

13.4)EnergyList[j]更新为E(p_MC)+δ，重新计算E_sum，A_sum增加1，AcceptList[j]增加1；

13.5)重新计算p_Cur和p_His：p_Cur[i]＝EnergyList[i]/E_sum，p_His[i]＝AcceptList[i]/A_sum；14)判断是否达到最大迭代次数G；

14.1)若当前迭代次数小于G，返回步骤13)；

14.2)若当前迭代次数等于G，结束。

本发明的技术构思为：同时启动多条Monte Carlo轨迹，并根据当前所有轨迹个体信息构建能量分布概率模型和历史接受概率模型，根据两个概率模型选择一条MonteCarlo轨迹执行下一次搜索，使得搜索过程主要向能量低的区域进行，并以一定的概率在高能量区域进行搜索，在一定程度上克服了能量模型不精确的问题，最终得到一系列近天然态构象。

本发明的有益效果为：本发明在蛋白质结构预测中应用，可以得到预测精度较高、复杂度较低的构象。

附图说明

图1是能量概率分布情况示意图。

图2是目标蛋白质T0773-D1预测结构和实验室测定结构的三维示意图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1和图2，一种双重分布估计引导的蛋白质构象空间搜索方法，所述方法包括以下步骤：

1)给定输入序列信息；

5)对EnergyList中的所有元素求和得到能量总和E_sum；

6)对EnergyList执行反转操作，即将其中所有元素逆序排列；

9)创建接收列表AcceptList；

10)计算总评价次数A_sum；

12)将1/A_sum存入对应位置的接受分布概率列表p_His中；

13)开始迭代：

13.2)根据RosettaScore3计算新生成构象的能量E(p_MC)；

14.1)若当前迭代次数小于G，返回步骤13)；

14.2)若当前迭代次数等于G，结束。

本实施例以目标蛋白质T0773-D1为实施例，一种双重分布估计引导的蛋白质构象空间搜索方法，所述方法包括以下步骤：

1)给定输入序列信息；

2)参数初始化：设置Monte Carlo轨迹条数K＝100，迭代次数G＝1000000，能量平衡因子δ＝500；

5)对EnergyList中的所有元素求和得到能量总和E_sum；

6)对EnergyList执行反转操作，即将其中所有元素逆序排列；

9)创建接收列表AcceptList；

10)计算总评价次数A_sum；

12)将1/A_sum存入对应位置的接受分布概率列表p_His中；

13)开始迭代：

13.2)根据RosettaScore3计算新生成构象的能量E(p_MC)；

14.1)若当前迭代次数小于G，返回步骤13)；

14.2)若当前迭代次数等于G，结束。

以上阐述的是本发明给出的一个实施例表现出来的优良效果，显然本发明不仅适合上述实施例，在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。

Claims

1.一种双重分布估计引导的蛋白质构象空间搜索方法，其特征在于：所述方法包括以下步骤：

1)给定输入序列信息；

5)对EnergyList中的所有元素求和得到能量总和E_sum；

6)对EnergyList执行反转操作，即将其中所有元素逆序排列；

9)创建接收列表AcceptList；

10)计算总评价次数A_sum；

12)将1/A_sum存入对应位置的接受分布概率列表p_His中；

13)开始迭代：

13.2)根据RosettaScore3计算新生成构象的能量E(p_MC)；

13.5)重新计算p_Cur和p_His：p_Cur[i]＝EnergyList[i]/E_sum，p_His[i]＝AcceptList[i]/A_sum；

14)判断是否达到最大迭代次数G；

14.1)若当前迭代次数小于G，返回步骤13)；

14.2)若当前迭代次数等于G，结束。