CN112085245A

CN112085245A - 一种基于深度残差神经网络的蛋白质残基接触预测方法

Info

Publication number: CN112085245A
Application number: CN202010704130.9A
Authority: CN
Inventors: 张贵军; 卢升荣; 刘俊; 熊章宗; 周晓根
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-07-21
Filing date: 2020-07-21
Publication date: 2020-12-15

Abstract

一种基于深度残差神经网络的蛋白质残基接触预测方法，首先，通过蛋白质数据库构建数据集；其次，利用HHblits构建所有序列的MSA，根据进化信息提取序列谱特征、香农熵特征、协方差特征，作为神经网络的输入，生成神经网络的标签文件；然后，将数据集输入到神经网络中训练神经网络；最后，将测试序列输入到神经网络中进行预测。本发明提供一种能够有效辅助蛋白质结构预测的蛋白质残基接触预测方法，能够提高蛋白质结构预测的精度。

Description

一种基于深度残差神经网络的蛋白质残基接触预测方法

技术领域

本发明涉及生物信息学、计算机应用领域，尤其涉及的是一种基于深度残差神经网络的蛋白质残基接触预测方法。

背景技术

蛋白质是生命系统中最丰富的有机分子。这些分子在结构和功能上比其他种类的大分子更加多样化。一个细胞内的生命系统都包含数千种蛋白质，每一种都有独特的功能。蛋白质在细胞或有机体中起着广泛的作用。蛋白质结构是一个有着几百上千种残基的复杂系统，残基之间通过相互作用形成稳定的三维结构，以实现特定的功能。在生物体内，基因序列决定了氨基酸序列的构成，氨基酸序列决定了蛋白质的空间结构，而蛋白质的功能与蛋白质的空间结构有着密不可分的联系。因此要研究蛋白质的功能就要从蛋白质的结构入手。然而目前已知的蛋白质结构的数量相对于基因序列的数量少之又少，蛋白质的三维结构可以通过实验的方式求解，但是过程复杂，比较繁琐。通过x射线晶体学的解决可以产生非常好的结果，但是它需要一个纯净的蛋白质样品来形成相对无瑕疵的晶体。核磁共振的解决局限于小的可溶性蛋白。因此，从氨基酸序列预测蛋白质结构是缩小蛋白质结构数量与氨基酸序列数量之间差距的关键。

接触图是表示蛋白质残基在一定距离阈值内接触状况的矩阵，为蛋白质的三维结构预测提供了信息。因此蛋白质残基接触预测是蛋白质结构预测的重要环节之一。

蛋白质残基接触图预测能为蛋白质结构预测提供精度保障，因此需要对蛋白质残基接触图预测方法进行研究。

发明内容

为了提高现有的蛋白质结构预测方法的精度，本发明提出了一种基于深度残差神经网络的蛋白质残基接触预测方法，用来辅助蛋白质结构预测，提高预测精度。

本发明解决其技术问题所采用的技术方案是：

一种基于深度残差神经网络的蛋白质残基接触预测方法，所述方法包括以下步骤：

1)构建数据集：从蛋白质数据库PDB中选择序列相似度低于20％、序列长度在40-500之间的4000个氨基酸序列，从中随机选择300个序列作为测试集，剩余的序列作为训练集；

2)氨基酸序列进化信息分析，操作如下：

2.1)利用HHsuite软件包中的HHblits在UniRef30序列数据库中搜索数据集中每条序列的多序列比对文件；

2.2)基于生成的多序列比对文件，计算多序列比对文件中第i号残基为A类型氨基酸的概率f_i(A)，其中A∈{A,C,D,E,F,G,H,I,K,L,M,N,Q,R,S,T,V,W,Y,-},i∈{1,2,…,L}，L为多序列比对文件中单条序列的长度，f_i(A)计算公式如下：

其中M表示多序列比对文件中序列的条数，m表示当前序列是多序列比对文件中的第几条，m∈{1,2,…,M}，P_i ^m表示多序列比对中第m行第i列残基的类型，

表示

和A是否相等，相等则为1，不等则为0；

2.3)计算多序列比对文件中第i号残基为A，且第j号残基为B的概率f_ij(A,B)，其中A和B均∈{A,C,D,E,F,G,H,I,K,L,M,N,Q,R,S,T,V,W,Y,-}，其中i和j均∈{1,2,…,L}，L为多序列比对文件中单条序列的长度，f_ij(A,B)计算公式如下：

其中M表示多序列比对文件中序列的条数，m表示当前序列是多序列比对文件中的第几条，m∈{1,2,…,M}，

表示多序列比对中第m行第i列中的残基类型；

表示多序列比对中第m行第j列残基的类型；

表示

和A是否相等，相等则为1，不等则为0；

表示

和B是否相等，相等则为1，不等则为0；

2.4)根据步骤2.2)和2.3)中得到的f_i(A)和f_ij(A,B)计算香农熵S_i，i表示多序列比对文件中的第i列，i∈{1,2,…,L}，L为多序列比对文件中单条序列的长度，S_i计算公式如下：

其中A∈{A,C,D,E,F,G,H,I,K,L,M,N,Q,R,S,T,V,W,Y,-}；

3)构建神经网络输入特征及标签文件，过程如下：

3.1)计算协方差矩阵Q，协方差矩阵的每个特征计算公式如下:

其中

表示第i号残基为A、第j号残基为B情况下的协方差，其中i和j均∈{1,2,…,L}；

3.2)构建输入特征集：由f_i(A)公式生成的序列谱特征的维度为L*21维，L为多序列比对文件中单条序列的长度，由S_i公式生成的香农熵特征的维度为L*1维，通过条带化的方式将序列谱特征的维度转换为L*L*42维，将香农熵特征的维度转换为L*L*2维，然后和协方差矩阵的L*L*441维特征一起组成L*L*485维输入特征；

3.3)建立数据集样本标签：在PDB数据库中搜索每一个训练蛋白的结构文件，并计算每个结构内部两两残基间的欧式距离，以

为阈值判断残基对是否接触，当距离小于

表明该残基对接触，接触图相应位置置1，否则表明该残基对不接触，接触图相应位置置0；

4)神经网络训练：本发明采用的是残差网络，采用二进制交叉熵函数作为损失函数；采用He initialization初始化网络权重，He initialization是网络权重初始化方法；开发平台采用Pytorch，学习率设置为0.001，批处理大小为7个训练样本为一个批次；训练过程使用马修斯相关系数作为评价指标，记录马修斯相关系数的最大值，如果记录了最大值之后，连续10代的最大值都保持不变，则停止训练；

5)预测测试集序列接触图，利用HHsuite软件包中的HHblits在UniRef30序列数据库中搜索测试序列的多序列比对文件，然后根据3.1)中序列特征生成步骤生成测试序列的序列特征，输入到神经网络中进行预测，最终生成一个contact文件，contact文件中包含神经网络生成的接触信息，然后根据contact文件中的置信度进行排序，用于辅助蛋白质结构预测。

本发明的技术构思为：首先，通过蛋白质数据库构建数据集；其次，利用HHblits构建所有序列的MSA，根据进化信息提取序列谱特征、香农熵特征、协方差特征，作为神经网络的输入，生成神经网络的标签文件；然后，将数据集输入到神经网络中训练神经网络；最后，将测试序列输入到神经网络中进行预测。

本发明的有益效果为：基于深度残差神经网络的蛋白质残基接触预测方法能够利用大量的已测定蛋白质序列信息，提取待预测蛋白质序列的共同进化信息，进而预测蛋白质残基接触，用于辅助蛋白质结构预测，提高蛋白质结构预测精度。

附图说明

图1是一种基于深度残差神经网络的蛋白质残基接触预测方法总流程图。

图2是一种基于深度残差神经网络的蛋白质残基接触预测方法神经网络架构图。

图3是一种基于深度残差神经网络的蛋白质残基接触预测方法预测蛋白质1B4B的接触图结果。

图4是利用一种基于深度残差神经网络的蛋白质残基接触预测方法预测蛋白质1B4B的接触图辅助蛋白质结构预测得到的蛋白质三维结构。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～图4，一种基于深度残差神经网络的蛋白质残基接触预测方法，所述方法包括以下步骤：

2)氨基酸序列进化信息分析，操作如下：

表示多序列比对中第m行第i列残基的类型，

表示

和A是否相等，相等则为1，不等则为0；

表示多序列比对中第m行第i列中的残基类型；

表示多序列比对中第m行第j列残基的类型；

表示

和A是否相等，相等则为1，不等则为0；

表示

和B是否相等，相等则为1，不等则为0；

其中A∈{A,C,D,E,F,G,H,I,K,L,M,N,Q,R,S,T,V,W,Y,-}；

3)构建神经网络输入特征及标签文件，过程如下：

3.1)计算协方差矩阵Q，协方差矩阵的每个特征计算公式如下:

其中

为阈值判断残基对是否接触，当距离小于

本实例以一个蛋白质序列1B4B为例，一种基于深度残差神经网络的蛋白质残基接触预测方法，所述方法包括以下步骤：

2)氨基酸序列进化信息分析，操作如下：

表示多序列比对中第m行第i列残基的类型，

表示

和A是否相等，相等则为1，不等则为0；

表示多序列比对中第m行第i列中的残基类型；

表示多序列比对中第m行第j列残基的类型；

表示

和A是否相等，相等则为1，不等则为0；

表示

和B是否相等，相等则为1，不等则为0；

其中A∈{A,C,D,E,F,G,H,I,K,L,M,N,Q,R,S,T,V,W,Y,-}；

3)构建神经网络输入特征及标签文件，过程如下：

3.1)计算协方差矩阵Q，协方差矩阵的每个特征计算公式如下:

其中

为阈值判断残基对是否接触，当距离小于

5)预测蛋白质1B4B的接触图：利用HHsuite软件包中的HHblits在UniRef30序列数据库中搜索1B4B的多序列比对文件，然后根据3.1)中序列特征生成步骤生成测试序列的序列特征，输入到神经网络中进行预测，最终生成一个contact文件，contact文件中包含神经网络生成的接触信息，然后根据contact文件中的置信度进行排序，用于辅助蛋白质结构预测。

以氨基酸序列长度为72的蛋白质1B4B为实施例，运用以上方法预测得到该蛋白质的接触图，其接触图如图3所示；将该接触图加入到蛋白质结构预测软件Rosetta中辅助结构预测，预测的蛋白质的均方根偏差为

预测结构图如图4所示。

以上阐述的是本发明给出的一个实施例表现出来的良好效果，本发明不仅适合上述实施例，在不偏离本发明基本思想及不超出本发明实质内容的前提下可对其做种种改进加以实施。