CN109658979B

CN109658979B - 一种基于片段库信息增强的蛋白质结构预测方法

Info

Publication number: CN109658979B
Application number: CN201910018660.5A
Authority: CN
Inventors: 张贵军; 刘俊; 彭春祥; 胡俊; 周晓根; 王柳静
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-01-09
Filing date: 2019-01-09
Publication date: 2021-06-18
Anticipated expiration: 2039-01-09
Also published as: CN109658979A

Abstract

一种基于片段库信息增强的蛋白质结构预测方法，首先，根据片段库中片段的二级结构与预测的蛋白质二级结构的匹配度建立二级结构评分模型，然后根据过滤因子控制筛选力度，将二级结构匹配得分较差的片段从片段库中删除，再利用片段组装技术对片段库中的片段进行组合优化生成预测蛋白质结构，从而提高蛋白质结构预测的效率和精度。本发明提供一种预测精度较高的基于片段库信息增强的蛋白质结构预测方法。

Description

一种基于片段库信息增强的蛋白质结构预测方法

技术领域

本发明涉及生物信息学、计算机应用领域，尤其涉及的是一种基于片段库信息增强的蛋白质结构预测方法。

背景技术

随着2003年人类基因组计划正式宣布完成，人类已经破解第一遗传密码，即DNA以三个核苷酸为一组的密码子转译为蛋白质氨基酸序列的过程。然而，蛋白质如何从氨基酸序列折叠成特定的三维结构任是未解之谜。蛋白质的三维结构决定了其特定的生物功能，因此如何高效的获取蛋白质三维结构成为生物信息学领域的重要研究课题。

获取蛋白质三维结构的途径主要有两种。第一种途径是利用实验方法直接测定蛋白质的三维结构，这类方法包括X射线晶体衍射、核磁共振、冷冻电镜技术等，这类方法所需的资金投入高、测定周期长，并且不能适用于所有类型的蛋白质。第二种途径是利用生物大数据、人工智能和系统优化技术直接从蛋白质氨基酸序列预测其三维结构，这类方法以计算机为基础，所需的成本较低，能够高效的预测蛋白质三维结构。全世界范围内有许多研究机构正在研究第二类方法，并逐渐应用于疾病诊断和药物设计，其中具有代表性的研究团队有美国华盛顿的David Baker实验室、美国密歇根大学的张阳实验室等。国内越来越多的高校和研究机构也加入到蛋白质结构预测的研究当中。

目前，大多数蛋白质结构预测方法都用到了片段组装技术。首先，利用深度学习的方法根据预测蛋白质的氨基酸序列从蛋白质数据库中提取结构片段组成片段库；然后，在能量函数的引导下利用片段组装技术对片段库中的片段进行组合优化生成预测蛋白质结构。然而，片段库中的信息不都是有效的，甚至存在一些错误信息，这些错误信息的存在不仅增加了计算代价而且会对预测蛋白质的精度产生不利影响。

因此，目前蛋白质结构预测方法使用的片段库包含一些不利信息，造成蛋白质结构预测的效率和精度较低，需要进行改进。

发明内容

为了减小片段库中不利信息降低预测蛋白质的精度，本发明提供一种预测精度较高的基于片段库信息增强的蛋白质结构预测方法。首先，根据片段库中片段的二级结构与预测的蛋白质二级结构的匹配度建立二级结构评分模型，然后根据过滤因子控制筛选力度，将二级结构匹配得分较差的片段从片段库中删除，再利用片段组装技术对片段库中的片段进行组合优化生成预测蛋白质结构，从而提高蛋白质结构预测的效率和精度。

本发明解决其技术问题所采用的技术方案是：

一种基于片段库信息增强的蛋白质结构预测方法，包括以下步骤：

1)输入预测蛋白质的序列信息和预测的二级结构信息；

2)设置参数：片段长度为3的片段库过滤因子filter3，片段长度为9的片段库过滤因子filter9，片段组装次数M，玻尔兹曼温度因子KT；

3)筛选片段库信息，过程如下：

3.1)设r＝1，r∈{1,2,…,L-f+1}；其中r表示滑动窗口编号，L为蛋白质序列长度，f∈{3,9}为滑动窗口的宽度；

3.2)计算滑动窗口的二级结构最高分，过程如下：

3.2.1)设第n号残基预测的二级结构为α-helical、β-strand和loop的置信度分别为

和

其中n∈{r,r+1,…,r+f-1}；

3.2.2)第r个滑动窗口的二级结构总分为：

3.3)对滑动窗口对应的片段库进行筛选，过程如下：

3.3.1)设k＝1，k∈{1,2,…,200}；其中k表示片段库中片段的编号；

3.3.2)计算片段k的二级结构得分：

其中

表示第n号残基在该片段中的真实二级结构，H和E分别表示二级结构为α-helical和β-strand；

3.3.3)决定是否从片段库中去除片段k，过程如下：

3.3.3.1)若f＝3，执行步骤2.3.3.2)；否则执行步骤2.3.3.3)；

3.3.3.2)若

则将片段k从片段库中去除，转至步骤2.3.4)；

3.3.3.3)若

则将片段k从片段库中去除；

3.3.4)k＝k+1；

3.3.5)若k≤200，转至步骤2.3.2)；否则，转至步骤2.4)；

3.4)r＝r+1；

3.5)若r≤L-f+1，转至步骤2.2)；否则，片段库筛选完成，得到信息增强的片段库；

4)利用信息增强的片段库进行片段组装，过程如下：

4.1)设m＝1，m∈{1,2,…,M}；

4.2)执行片段插入操作，过程如下：

4.2.1)若m≤0.5*M，执行步骤4.2.2)；否则执行步骤4.2.3)；

4.2.2)从当前构象P^target中随机选择一个窗口宽度为3的滑动窗口，从该滑动窗口对应的片段长度为3的片段库中随机选择一个片段替换原有片段，生成新的构象P^trial，转至步骤4.3)；

4.2.3)从当前构象P^target中随机选择一个窗口宽度为9的滑动窗口，从该滑动窗口对应的片段长度为9的片段库中随机选择一个片段替换原有片段，生成新的构象P^trial；

4.3)利用能量函数计算构象P^target和P^trial的能量E^target和E^trial；

4.4)计算替换概率：

4.5)生成均匀随机小数p_rand，p_rand∈[0,1]；若p_rand＜p，用新构象替换当前构象P^target＝P^trial，否则不进行替换；

4.6)m＝m+1；

4.7)若m≤M，转至步骤4.2)；否则，片段组装完成；

5)输出片段组装后的构象作为预测结果。

本发明的有益效果为：利用预测的蛋白结构二级结构信息对片段库进行筛选，去除二级结构匹配较差的片段，从而提高片段库的质量，减小计算代价的同时提高预测蛋白质的精度。

附图说明

图1是一种基于片段库信息增强的蛋白质结构预测方法对蛋白质1WN2进行结构预测时的构象更新示意图。

图2是一种基于片段库信息增强的蛋白质结构预测方法对蛋白质1WN2进行结构预测得到的三维结构图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1和图2，一种基于片段库信息增强的蛋白质结构预测方法，包括以下步骤：

1)输入预测蛋白质的序列信息和预测的二级结构信息；

3)筛选片段库信息，过程如下：

3.2)计算滑动窗口的二级结构最高分，过程如下：

和

其中n∈{r,r+1,…,r+f-1}；

3.2.2)第r个滑动窗口的二级结构总分为：

3.3)对滑动窗口对应的片段库进行筛选，过程如下：

3.3.2)计算片段k的二级结构得分：

其中

3.3.3)决定是否从片段库中去除片段k，过程如下：

3.3.3.1)若f＝3，执行步骤2.3.3.2)；否则执行步骤2.3.3.3)；

3.3.3.2)若

则将片段k从片段库中去除，转至步骤2.3.4)；

3.3.3.3)若

则将片段k从片段库中去除；

3.3.4)k＝k+1；

3.3.5)若k≤200，转至步骤2.3.2)；否则，转至步骤2.4)；

3.4)r＝r+1；

4)利用信息增强的片段库进行片段组装，过程如下：

4.1)设m＝1，m∈{1,2,…,M}；

4.2)执行片段插入操作，过程如下：

4.2.1)若m≤0.5*M，执行步骤4.2.2)；否则执行步骤4.2.3)；

4.4)计算替换概率：

4.6)m＝m+1；

4.7)若m≤M，转至步骤4.2)；否则，片段组装完成；

5)输出片段组装后的构象作为预测结果。

本实施例以序列长度为118的蛋白质1WN2为实施例，一种基于片段库信息增强的蛋白质结构预测方法，包括以下步骤：

1)输入预测蛋白质的序列信息和预测的二级结构信息；

2)设置参数：片段长度为3的片段库过滤因子filter3＝0.85，片段长度为9的片段库过滤因子filter9＝0.9，片段组装次数M＝36000，玻尔兹曼温度因子KT＝2；

3)筛选片段库信息，过程如下：

3.2)计算滑动窗口的二级结构最高分，过程如下：

和

其中n∈{r,r+1,…,r+f-1}；

3.2.2)第r个滑动窗口的二级结构总分为：

3.3)对滑动窗口对应的片段库进行筛选，过程如下：

3.3.2)计算片段k的二级结构得分：

其中

3.3.3)决定是否从片段库中去除片段k，过程如下：

3.3.3.1)若f＝3，执行步骤2.3.3.2)；否则执行步骤2.3.3.3)；

3.3.3.2)若

则将片段k从片段库中去除，转至步骤2.3.4)；

3.3.3.3)若

则将片段k从片段库中去除；

3.3.4)k＝k+1；

3.3.5)若k≤200，转至步骤2.3.2)；否则，转至步骤2.4)；

3.4)r＝r+1；

4)利用信息增强的片段库进行片段组装，过程如下：

4.1)设m＝1，m∈{1,2,…,M}；

4.2)执行片段插入操作，过程如下：

4.2.1)若m≤0.5*M，执行步骤4.2.2)；否则执行步骤4.2.3)；

4.4)计算替换概率：

4.6)m＝m+1；

4.7)若m≤M，转至步骤4.2)；否则，片段组装完成；

5)输出片段组装后的构象作为预测结果。

以氨基酸序列长度为118的蛋白质1WN2为实施例，运用以上方法得到了该蛋白质的近天然态构象，其构象更新示意图如图1所示，预测的蛋白质的均方根偏差为

预测结构如图2所示。

以上阐述是本发明给出的一个实施的预测效果，本发明不仅适合上述实施例，在不偏离本发明基本思想及不超出本发明实质内容的前提下可对其做种种改进加以实施。

Claims

1.一种基于片段库信息增强的蛋白质结构预测方法，其特征在于：所述蛋白质结构预测方法包括以下步骤：

1)输入预测蛋白质的序列信息和预测的二级结构信息；

3)筛选片段库信息，过程如下：

3.2)计算滑动窗口的二级结构最高分，过程如下：

和

其中n∈{r,r+1,…,r+f-1}；

3.2.2)第r个滑动窗口的二级结构总分为：

3.3)对滑动窗口对应的片段库进行筛选，过程如下：

3.3.2)计算片段k的二级结构得分：

其中

3.3.3)决定是否从片段库中去除片段k，过程如下：

3.3.3.1)若f＝3，执行步骤3.3.3.2)；否则执行步骤3.3.3.3)；

3.3.3.2)若

则将片段k从片段库中去除，转至步骤2.3.4)；

3.3.3.3)若

则将片段k从片段库中去除；

3.3.4)k＝k+1；

3.3.5)若k≤200，转至步骤3.3.2)；否则，转至步骤3.4)；

3.4)r＝r+1；

3.5)若r≤L-f+1，转至步骤3.2)；否则，片段库筛选完成，得到信息增强的片段库；

4)利用信息增强的片段库进行片段组装，过程如下：

4.1)设m＝1，m∈{1,2,…,M}；

4.2)执行片段插入操作，过程如下：

4.2.1)若m≤0.5*M，执行步骤4.2.2)；否则执行步骤4.2.3)；

4.4)计算替换概率：

4.6)m＝m+1；

4.7)若m≤M，转至步骤4.2)；否则，片段组装完成；

5)输出片段组装后的构象作为预测结果。