CN106372456A

CN106372456A - 一种基于深度学习Residue2vec的蛋白质结构预测方法

Info

Publication number: CN106372456A
Application number: CN201610735964.XA
Authority: CN
Inventors: 张贵军; 俞旭锋; 周晓根; 郝小虎; 王柳静
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2016-08-26
Filing date: 2016-08-26
Publication date: 2017-02-01
Anticipated expiration: 2036-08-26
Also published as: CN106372456B

Abstract

一种基于深度学习Residue2vec的蛋白质结构预测方法，给定输入序列信息，将PDB网站上已知的蛋白质结构看成语料库进行训练，将结构已知的蛋白质分割成长度为n的残基，通过CBOW模型结合Huffman编码，获取每个残基在向量空间中的表示，通过计算残基向量之间的距离来判断残基间的相似性，从而获取查询序列每个残基位置上的前N个片段结构，构成了Residue2vec的片段库；然后对查询序列进行随机折叠构成初始构象；之后随机选取其中一个长度为n的残基，与片段库中的片段进行二面角的替换；进而比较能量，若能量减小则接收构象，若能量增大则以Metropolis准则接收构象，通过不断迭代最终获得亚稳态构象。本发明查询序列中匹配度较高、预测精度较高。

Description

一种基于深度学习Residue2vec的蛋白质结构预测方法

技术领域

本发明涉及生物信息学、计算机应用领域，尤其涉及的是一种基于深度学习Residue2vec的蛋白质结构预测方法。

背景技术

蛋白质分子在生物细胞化学反应过程中起着至关重要的作用。它们的结构模型和生物活性状态对我们理解和治愈多种疾病有重要的意义。蛋白质只有折叠成特定的三维结构才能产生其特有的生物学功能。因此，要了解蛋白质的功能，就必须获得其三维空间结构。

蛋白质结构从头预测方法需要解决两个基本问题：(1)构建适当的能量模型来计算蛋白质内不同原子之间的相互作用；(2)发展有效算法来寻找构象空间能量的全局极小值。早期的研究重点关注发展有效算法搜索构象空间，来确定体系势能曲面的全局极小点，而随着氨基酸序列的增长，蛋白质分子体系自由度增大，在全原子力场模型上的构象空间优化成为一个极具挑战的问题。

蛋白质三级结构预测是生物信息学的一个重要任务。蛋白质构象优化问题现在面临最大的挑战是对极其复杂的蛋白质能量函数曲面进行搜索。基于物理和知识的能量模型存在一个重要问题，其捕获相邻残基间微小相互作用的能力有限。而这些微小的相互作用，主宰者蛋白质局部结构的扭转倾向。通过基于物理和知识的能量模型计算局部相互作用，可能会导致误差的积累，因而很大程度上降低获得近天然态构象的可能性。通过对PDB数据库中已知局部构象的采样，利用片段进行替换，相当于将模建的蛋白质结构从一个局部能量极小转换成另一个局部能量极小，而不用克服局部能量壁垒，一方面见笑了搜索空间，另一方面提高了计算速度。

当前有以下几种比较成功的从头预测方法：张阳与Jeffrey Skolnick合作的TASSER(Threading/Assembly/Refinement)方法、David Baker及团队设计的Rosetta方法、Shehu等设计的FeLTr方法等。但是到目前还没有一种十分完善的方法来预测蛋白质的三维结构，即使获得了很好的预测结果，但也只是针对某些蛋白质而言的，目前主要的技术瓶颈在于两个方面，第一方面在于采样方法，现有技术对构象空间采样能力不强，另一方面在于构象更新方法，现有技术对构象的更新精度仍然不足。

因此，如何构建查询序列中匹配度较高的片段库成为了亟待解决的关键问题。

发明内容

为了克服现有的蛋白质结构预测方法的查询序列中匹配度较低、预测精度较低的不足，本发明构建匹配度较高的片段库，基于自然语言处理(NLP)中词向量的思想，本发明提出一种查询序列中匹配度较高、预测精度较高的基于深度学习Residue2vec的蛋白质结构预测方法。

本发明解决其技术问题所采用的技术方案是：

一种基于深度学习Residue2vec的蛋白质结构预测方法，所述预测方法包括以下步骤：

1)给定输入序列信息；

2)构建模板库中的残基向量：

2.1)从蛋白质数据库网站上下载分辨率小于的高精度蛋白质，其中为距离单位，米；去除相似度大于预设阈值的冗余多肽链，得到非冗余蛋白质模板库；

2.2)通过滑动窗口将非冗余蛋白质模板分割为长度为n的残基；

2.3)通过CBOW模型结合Huffman编码，在神经网络中对残基模型进行建模，同时也获得残基在向量空间中的表示；

2.4)针对查询序列中每个位置上的残基，通过残基向量计算距离来判断残基间的相似性；

2.5)选取与查询序列每个残基位置上距离最近的前N个残基，构建了查询序列的片段库；

3)初始化：最大迭代次数iteration，能量函数选用Rosetta Score3，温度为T，玻尔兹曼常数为k；

4)开始迭代，设置i＝1：

4.1)通过Rosetta Score3能量函数计算构象能量为E₁，随机选取构象中某一位置上长度为n的残基，随机从片段库中选一个残基片段将其替换；

4.2)计算片段替换后的残基能量E₂，比较E₁和E₂，若E₂<E₁，则接收组装后的新构象，若E₂>E₁，则根据概率：P＝e^-△E/(kT)接收构象，其中e为自然常数，△E＝E₂-E₁；

4.3)若构象在连续的预设次数迭代中均未改变时，则提高温度T来改变接收概率，当构象再次被接收时，温度恢复至初始值；

5)i＝i+1，并判断i是否大于设定的最大迭代次数iteration，如果不满足则转至4.1)；如果满足，则输出结果。

本发明的技术构思为：基于自然语言处理中word2vec的思想，将查询序列看成输入文本，将PDB网站上已知的蛋白质结构看成语料库进行训练，将结构已知的蛋白质分割成长度为n的残基，通过CBOW模型结合Huffman编码，获取每个残基在向量空间中的表示，通过计算残基向量之间的距离来判断残基间的相似性，从而获取查询序列每个残基位置上的前N个片段结构，构成了Residue2vec的片段库。然后对查询序列进行随机折叠构成初始构象；之后随机选取其中一个长度为n的残基，与片段库中的片段进行二面角的替换；进而比较能量，若能量减小则接收构象，若能量增大则以Metropolis准则接收构象，通过不断迭代最终获得亚稳态构象。

本发明的有益效果为：构建匹配度较高的片段库，基于自然语言处理(NLP)中词向量的思想，查询序列中匹配度较高，预测精度较高。

附图说明：

图1是测试序列3GWL在种群更新过程中RMSD和能量值的关系示意图。

图2是测试序列3GWL预测结构与实验室测定结构的三维构象示意图。

具体实施方式：

下面结合附图对本发明作进一步描述。

参照图1和图2，一种基于深度学习Residue2vec的蛋白质结构预测方法，所述构象空间优化方法包括以下步骤：

1)给定输入序列信息；

2)构建模板库中的残基向量：

2.1)从蛋白质数据库(PDB)网站上下载分辨率小于的高精度蛋白质，其中为距离单位，米；去除相似度大于预设阈值(例如30％)的冗余多肽链，得到非冗余蛋白质模板库；

4)开始迭代，设置i＝1：

4.3)若构象在连续的预设次数(例如150次)次迭代中均未改变时，则提高温度T来改变接收概率，当构象再次被接收时，温度恢复至初始值；

本实施例以序列长度为135的蛋白质3GWL为实施例，一种基于深度学习Residue2vec的蛋白质结构预测方法，其中包含以下步骤：

1)给定输入序列信息；

2)构建模板库中的残基向量：

2.1)从蛋白质数据库(PDB)网站上下载分辨率小于的高精度蛋白质，其中为距离单位，米；去除相似度大于30％的冗余多肽链，得到非冗余蛋白质模板库；

2.2)通过滑动窗口将非冗余蛋白质模板分割为长度为n＝3的残基；

2.5)选取与查询序列每个残基位置上距离最近的前N＝200个残基，构建了查询序列的片段库；

3)初始化：最大迭代次数iteration＝10000，能量函数选用Rosetta Score3，温度为T，玻尔兹曼常数为k；

4)开始迭代，设置i＝1：

4.3)若构象在连续的150次迭代中均未改变时，则提高温度T来改变接收概率，当构象再次被接收时，温度恢复至初始值；

以上阐述的是本发明给出的一个实施例表现出来的优良效果，显然本发明不仅适合上述实施例，在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。

Claims

1.一种基于深度学习Residue2vec的蛋白质结构预测方法，其特征在于：所述优化方法包括以下步骤：

1)给定输入序列信息；

2)构建模板库中的残基向量：

4)开始迭代，设置i＝1：