CN112085247A

CN112085247A - 一种基于深度学习的蛋白质残基接触预测方法

Info

Publication number: CN112085247A
Application number: CN202010709538.5A
Authority: CN
Inventors: 张贵军; 熊章宗; 卢升荣; 陈芳; 李亭
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-07-22
Filing date: 2020-07-22
Publication date: 2020-12-15

Abstract

一种基于深度学习的蛋白质残基接触预测方法，包括以下步骤：首先从PDB库中下载蛋白质氨基酸的序列和结构信息，构建残基对接触矩阵；使用HHblits对UniClust30数据库进行搜索，生成多序列比对文件；其次，对每个蛋白质序列通过多序列比对提取序列特征；再次，将序列特征互信息与协方差合并为一个442维L*L大小的输入特征，构建全卷积残差网络，并在所述输入特征和标签接触矩阵上进行训练。本发明提供了一种预测效率与准确性较高的基于深度学习的蛋白质残基接触预测方法。

Description

一种基于深度学习的蛋白质残基接触预测方法

技术领域

本发明涉及生物信息学、计算机应用领域，尤其涉及的是一种基于深度学习的蛋白质残基接触预测方法。

背景技术

DNN模型在基于图像和语言的问题上表现出色。最近，这种优良的性能已经扩展到蛋白质结构预测领域，残基与残基间的接触是DNN模型在蛋白质结构预测中产生重大影响的一个应用领域，在全球蛋白质结构预测大赛CASP12和13中，其准确性得到了显著提高。

残基与残基间接触在维持蛋白质的天然结构和引导蛋白质折叠中起着关键作用，这些接触的残基对通常具有较大的分离，但在三维结构中显示出非常接近的关系。长期以来，人们观察到，只要有足够的蛋白质残基-残基接触的正确信息，就有可能阐明蛋白质的折叠。蛋白质接触预测将为一系列工作带来好处，包括折叠识别、从头开始的蛋白质折叠、蛋白质三维模型质量评估和从头设计蛋白质。

蛋白质的三维结构可以通过生物实验进行测定，但是过程复杂，成本昂贵。例如，通过x射线晶体衍射测定蛋白质结构的精度很高，但是它需要一个纯净的蛋白质样品来形成相对无瑕疵的晶体。核磁共振方法则局限于小的可溶性蛋白。因此，根据氨基酸序列预测蛋白质三维结构是实现高通量蛋白质结构获取的关键，而基于深度学习的蛋白质残基接触预测是其中的关键一环。

发明内容

针对以上技术问题。本发明提出了一种基于深度学习的蛋白质残基接触预测方法，不仅降低了测算成本，而且提高了计算效率。

本发明解决其技术问题所采用的技术方案是：

一种基于深度学习的蛋白质残基接触预测方法，所述方法包括以下步骤：

1)首先从PDB库中下载蛋白质的序列和结构信息，然后根据蛋白质结构各残基的三维空间坐标计算出每个残基对之间的欧式距离，如果距离小于

则表示为1，反之为0，并构建残基对接触矩阵；

2)每个蛋白质序列使用HHblits对UniClust30数据库进行搜索，生成多序列比对文件；

3)对每个蛋白质序列通过其MSA提取序列特征，过程如下：

3.1)计算A型氨基酸在第i列的出现频率f_i(A)：

其中M为多序列比对中的序列个数，L为序列长度，i∈{1,2,...,L}，A∈{A,C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y,-}，

表示为序列m的第i号残基是否为A型，是则为1，反之为0；

3.2)计算残基对i和j的类型分别为A和B的频率f_ij(A,B)：

其中M为多序列比对中的序列个数，L为序列长度，i,j∈{1,2,...,L}，A,B∈{A,C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y,-}，

表示为序列m的第i号残基是否为A型，是则为1，反之为0，

表示为序列m的第i号残基是否为B型，是则为1，反之为0；

3.3)计算第i列和j列的互信息MI，生成一个L*L大小的特征图，L为序列长度：

3.4)计算协方差，生成一个441维L*L大小的特征图，L为序列长度：

4)将序列特征互信息与协方差合并为一个442维L*L大小的输入特征，构建全卷积残差网络，并在所述输入特征和标签接触矩阵上进行训练，全卷积残差网络构建过程如下：

4.1)全卷积残差网络由1个卷积层和10个残差块以及输出层组成，输出层由1个1×1滤波器的二维卷积层和一个sigmoid非线性函数组成，卷积层可以表示为Conv(X,W,H,D),其中X为输入特征，W和H分别为卷积核的宽度和高度，D为卷积核的数量，该卷积层表示为Conv(X,1,1,64)，该层将输入维数从442降至64，残差块由两个卷积层堆叠而成，残差块表示为Res(X)＝σ(Conv(σ(Conv(X,3,3,64)),5,5,64)+X)，其中σ为ReLU激活函数；

4.2)网络权重使用Xavier均匀分布初始化，使用SGD方法对网络权值进行优化，初始学习率为0.01，使用二元交叉熵作为损失函数；

5)对于待预测的蛋白质，首先提取其序列特征，然后将序列特征输入到残差网络中，输出结果即为蛋白质中每个残基对的接触预测得分；

6)使用k-means聚类方法对输出结果进行聚类，将输出结果分为接触和不接触两类。

本发明的有益效果主要表现在：利用深度学习技术强大的学习能力提高了蛋白质残基间接触预测的效率与准确性，充分利用序列间残基相互关系，提高了预测的可靠性。

附图说明

图1是基于深度学习的蛋白质残基接触预测方法网络架构图。

图2是基于深度学习的蛋白质残基接触预测方法对蛋白1A6M预测得到的接触图。

图3是基于深度学习的蛋白质残基接触预测方法对蛋白1A6M进行结构预测得到的三维结构图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～图3，一种基于深度学习的蛋白质残基接触预测方法，包括以下步骤：

则表示为1，反之为0，并构建残基对接触矩阵；

3)对每个蛋白质序列通过其MSA提取序列特征，过程如下：

3.1)计算A型氨基酸在第i列的出现频率f_i(A)：

表示为序列m的第i号残基是否为A型，是则为1，反之为0；

3.2)计算残基对i和j的类型分别为A和B的频率f_ij(A,B)：

表示为序列m的第i号残基是否为A型，是则为1，反之为0，

表示为序列m的第i号残基是否为B型，是则为1，反之为0；

以序列长度为151的蛋白质1A6M为实施例，一种基于深度学习的蛋白质残基接触预测方法，包括以下步骤：

则表示为1，反之为0，并构建残基对接触矩阵；

3)对每个蛋白质序列通过其MSA提取序列特征，过程如下：

3.1)计算A型氨基酸在第i列的出现频率f_i(A)：

表示为序列m的第i号残基是否为A型，是则为1，反之为0；

3.2)计算残基对i和j的类型分别为A和B的频率fij(A,B)：

表示为序列m的第i号残基是否为A型，是则为1，反之为0，

表示为序列m的第i号残基是否为B型，是则为1，反之为0；

5)提取蛋白质1A6M的序列特征，然后将序列特征输入到残差网络中，输出结果即为蛋白质1A6M中每个残基对的接触预测得分；

以序列长度为151的蛋白质1A6M为实施例，运用以上方法得到了该蛋白质残基间的接触情况，并用于蛋白质三维结构预测，预测的蛋白质的均方根偏差为

预测结果如图2和图3所示。

以上阐述的是本发明给出的一个实施例表现出来的优良效果，显然本发明不仅适合上述实施例，而且在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。