CN109378034A

CN109378034A - 一种基于距离分布估计的蛋白质预测方法

Info

Publication number: CN109378034A
Application number: CN201810986059.0A
Authority: CN
Inventors: 张贵军; 王小奇; 马来发; 周晓根; 胡俊
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2018-08-28
Filing date: 2018-08-28
Publication date: 2019-02-22
Anticipated expiration: 2038-08-28
Also published as: CN109378034B

Abstract

一种基于距离分布估计的蛋白质预测方法，首先，基于过程的构象解知识以及统计学习来预测距离分布，并将其用来指导构象搜索；其次，在遗传算法的基本框架下，对每个目标个体完成基于片段组装的变异，并根据距离分布的知识和能量函数对目标个体和变异个体分别进行评价，选出适应度较高的个体进入下一代种群。本发明提出一种预测精度高、计算代价低的基于距离分布估计的蛋白质预测方法。

Description

一种基于距离分布估计的蛋白质预测方法

技术领域

本发明涉及一种生物学信息学、智能优化、计算机应用领域，尤其涉及的是一种基于距离分布估计的蛋白质预测方法。

背景技术

蛋白质是由氨基酸脱水缩合形成的生物大分子，它参与生物体内的绝大多数化学反应，对人类的健康起着决定性作用。准确掌握蛋白质的结构和功能对疾病研究和生物制药都有重要意义。在计算生物学领域，通过计算机手段根据氨基酸序列预测蛋白质三维结构。这类方法不仅可以利用计算机的并行算法减少三维结构的预测时间，而且预测过程简单成本低廉，因此这类方法相比于实验方法更能得到广泛应用。由于蛋白质结构本身的复杂性，到目前为止蛋白质三维结构的预测仍是一个有待进一步解决的难题。

从头预测方法直接基于蛋白质物理或知识能量模型，利用优化算法在构象空间搜索全局最低能量构象解，但是由于能量函数不精确，导致数学上的最优解并不一定对应于目标蛋白的天然态结构，从而阻碍了高性能算法在蛋白质结构从头预测领域中的应用。因此，分子动力学模拟、蒙特卡罗算法以及进化算法等方法虽然在解决一些小蛋白方面取得了显著的成果，但随着序列的增长，则这些方法采样效率低，预测精度低。最新研究表明，利用残基与残基间的距离信息不仅可以预测构蛋白质三维结构骨架，还可以作为挑选蛋白质候选结构的评分项。因此，预测残基对的距离就成为了进一步提高蛋白质三维结构预测精度一个非常重要手段。可是目前基于机器学习的残基对距离预测方法使用的大多都是传统机器学习模型，这些模型往往不能很好的建模蛋白质序列。如何提高残基间的距离的预测，并利用残基间的距离信息引导蛋白质构象的搜索，是生物信息领域中的关键。

因此，现有的蛋白质结构预测方法在预测精度和采样效率方面存在着缺陷，需要改进。

发明内容

为了克服现有的蛋白质结构预测中能量函数不精确、预测精度较低的不足，本发明提出一种采样效率高、预测精度高的基于距离分布估计的蛋白质预测方法。

本发明解决其技术问题所采用的技术方案是：

一种基于距离分布估计的蛋白质预测方法，所述方法包括以下步骤：

1)给定输入序列信息；

2)能量函数E(x)采用Rosetta的打分函数score3；

3)参数初始化：设置种群规模Psize，学习阶段迭代次数G₁，搜索阶段最大的迭代次数G_max，连续拒绝数C_max，窗口长度l，距离间隔为r，参数t，结构相似度阈值R_cut，初始温度常数KT；

4)基于过程的构象知识构建距离分布，过程如下：

4.1)启动Psize条轨迹，每条轨迹采样G₁次；在采样中对每个个体进行片段组装，并利用Monte Carlo机制判断是否接收该片段的插入，记录接收的总次数Num，并且将每一次接收后的构象保存到构象集 X＝{x_i|i∈N⁺且i＜Num}；

4.2)对构象集X中所有的构象进行聚类选出潜在的构象，操作如下：

4.2.1)在当前构象集X中，选出能量最低的构象x,x∈X，将x从X中移到构象集X′；

4.2.2)依次计算构象集X中的每一个构象x_i与x基于Cα原子的均方根偏差R；如果R≤R_cut，则将x_i从X中移到构象集X′；

4.2.3)统计构象集X′中含有的构象个数Num′，如果Num′＞t·Num，则转至步骤4.3.4)，否则转至步骤4.3.1)；

4.2.4)利用构象集X′中所有构象x′,x′∈X′的结构信息，以滑动窗口的形式遍历计算每个残基对的空间距离d′_mn，其中n＝m+l；

4.2.5)以r为间隔进行划分，统计构象集X′中d′_mn落入各个距离区间 [a,b]的构象个数即a＜d′_mn≤b，则其中b＝a+r 且a＞0,b＜3.78l。如果构象集X′中没有d′_mn落入区间[a,b]，则

4.2.6)目标个体所有组成目标个体的距离分布；

5)对构象集X′中所有的构象根据能量进行排序，选出能量最低的前Psize个构象并进行编号x′_j,j∈{j＝1,...,Psize}为潜在构象；

6)对每个目标个体x′_j,j∈{j＝1,...,Psize}进行如下操作：

6.1)利用能量函数计算构象x′_j的能量E(x′_j)；

6.2)对个体x′_j进行片段组装生成个体并计算个体的能量

6.3)根据公式计算x′_j和的能量变化；如果ΔE＜0，则直接接收个体为变异个体x″_j；如果ΔE≥0，根据公式p＝e^-ΔE/kT计算玻尔兹曼概率p；

6.4)如果p＞rand其中rand∈[0,1]的随机数，则接受个体为变异个体x″_j转至步骤7)，否则更新变异拒绝次数，进行步骤6.5)；

6.5)如果连续拒绝了C_max次，则增大温度常数，即KT＝KT+1，否则温度常数保持不变；

7)对每个目标个体x′_j,j∈{j＝1,.2..,Psize}和变异个体x″_j,j∈{j＝1,.2..,Psize}进行如下选择操作：

7.1)遍历计算目标个体x′_j中第m和第n个残基Cα原子间的距离确定出所对应的区间[a,b]，并将距离分布中对应的赋给变量N_mn，即

7.2)根据公式计算目标个体x′_j的距离分布得分；

7.3)同理就算变异个体x″_j的距离分布得分S(x″_j)；

7.4)利用能量函数分别计算目标个体x′_j和变异个体x″_j的能量E(x′_j)和

7.5)如果则变异个体x″_j直接进入下一代，并作为下一代的父代个体，否则进入步骤7.6)；

7.6)根据公式ΔS＝S(x″_j)-S(x′_j)计算目标个体与变异个体的距离分布得分差，如果ΔS＜0则变异个体x″_j进入下一代，并作为下一代的父代个体，否则个体x′_j进入下一代。

8)判断是否达到最大迭代代数G_max，若是，则输出结果，否则转至步骤6)。

本发明的技术构思为：首先，基于过程的构象解知识以及统计学习来预测距离分布，并将其用来指导构象搜索；其次，在遗传算法的基本框架下，对每个目标个体完成基于片段组装的变异，并根据距离分布的知识和能量函数对目标个体和变异个体分别进行评价，选出适应度较高的个体进入下一代种群。

本发明的有益效果表现在：一方面通过距离分布信息指导种群更新，降低了由于能量函数不精确带来的误差，进而大大提高了预测精度；另一方面，利用种群中的并行变异过程，提高了种群的多样性，并可以有效地跳出局部最优。

附图说明

图1是基于距离分布估计的蛋白质预测方法的基本流程图。

图2是基于距离分布估计的蛋白质预测方法对蛋白质4uex进行结构预测时的构象更新示意图。

图3是基于距离分布估计的蛋白质预测方法对蛋白质4uex进行结构预测得到的三维结构图。

下面结合附图对本发明作进一步描述。

参照图1～图3，一种基于距离分布估计的蛋白质预测方法，所述方法包括以下步骤：

1)给定输入序列信息；

2)能量函数E(x)采用Rosetta的打分函数score3；

4)基于过程的构象知识构建距离分布，过程如下：

4.2.6)目标个体所有组成目标个体的距离分布；

6)对每个目标个体x′_j,j∈{j＝1,...,Psize}进行如下操作：

6.1)利用能量函数计算构象x′_j的能量E(x′_j)；

6.2)对个体x′_j进行片段组装生成个体并计算个体的能量

7.2)根据公式计算目标个体x′_j的距离分布得分；

7.3)同理就算变异个体x″_j的距离分布得分S(x″_j)；

本实施例序列长度为82的α折叠蛋白质4uex为实施例，一种基于距离分布估计的蛋白质预测方法，其中包含以下步骤：

1)给定输入序列信息；

2)能量函数E(x)采用Rosetta的打分函数score3；

3)参数初始化：设置种群规模Psize＝200，学习阶段迭代次数G₁＝5000，搜索阶段最大的迭代次数G_max＝200，连续拒绝数C_max＝150，窗口长度l＝12，距离间隔为r＝2，参数t＝0.3，结构相似度阈值初始温度常数KT＝2.0；

4)基于过程的构象知识构建距离分布，过程如下：

4.2.6)目标个体所有组成目标个体的距离分布；

6)对每个目标个体x′_j,j∈{j＝1,...,Psize}进行如下操作：

6.1)利用能量函数计算构象x′_j的能量E(x′_j)；

6.2)对个体x′_j进行片段组装生成个体并计算个体的能量

7.2)根据公式计算目标个体x′_j的距离分布得分；

7.3)同理就算变异个体x″_j的距离分布得分S(x″_j)；

以序列长度为82的α折叠蛋白质4uex为实施例，运用以上方法得到了该蛋白质的近天然态构象，最小均方根偏差为平均均方根偏差为预测结构如图3所示。

以上说明是本发明以4uex蛋白质为实例所得出的预测效果，并非限定本发明的实施范围，在不偏离本发明基本内容所涉及范围的前提下对其做各种变形和改进，不应排除在本发明的保护范围之外。

Claims

1.一种基于距离分布估计的蛋白质预测方法，其特征在于：所述方法包括以下步骤：

1)给定输入序列信息；

2)能量函数E(x)采用Rosetta的打分函数score3；

4)基于过程的构象知识构建距离分布，过程如下：

4.1)启动Psize条轨迹，每条轨迹采样G₁次；在采样中对每个个体进行片段组装，并利用Monte Carlo机制判断是否接收该片段的插入，记录接收的总次数Num，并且将每一次接收后的构象保存到构象集X＝{x_i|i∈N⁺且i＜Num}；

4.2)对构象集X中所有的构象进行聚类选出潜在的构象，具体操作如下：

4.2.5)以r为间隔进行划分，统计构象集X′中d′_mn落入各个距离区间[a,b]的构象个数即a＜d′_mn≤b，则其中b＝a+r且a＞0,b＜3.78l。如果构象集X′中没有d′_mn落入区间[a,b]，则

4.2.6)目标个体所有组成目标个体的距离分布；

6)对每个目标个体x′_j,j∈{j＝1,...,Psize}进行如下操作：

6.1)利用能量函数计算构象x′_j的能量E(x′_j)；

6.2)对个体x′_j进行片段组装生成个体并计算个体的能量

7.2)根据公式计算目标个体x′_j的距离分布得分；

7.3)同理就算变异个体x″_j的距离分布得分S(x″_j)；

8)判断是否达到最大迭代代数G_max，若达到最大迭代代数，则输出结果，否则转至步骤6)。