CN113257341A

CN113257341A - 一种基于深度残差网络的蛋白质残基间距离分布预测方法

Info

Publication number: CN113257341A
Application number: CN202110483806.0A
Authority: CN
Inventors: 张贵军; 杨涛; 刘俊; 侯铭桦; 郭赛赛; 冯琼琼; 周晓根
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2021-08-13

Abstract

一种基于深度残差网络的蛋白质残基间距离分布预测方法，首先构建数据集，制作标签数据，获取多序列比对文件，以序列相似度为60％提取多序列比对文件；对20种氨基酸类型和gap进行编码；按照随机分配三张残基接触图权重合成一张新的接触图特征；搭建深度残差神经网络模型，将提取出的特征信息维度规范化处理，合并成一个491维L*L大小的输入特征；输入到深度残差网络模型中，经过数据降维，特征提取和反向传播参数，迭代50次后获得训练模型；将待测的蛋白质序列和特征信息输入到训练的模型中得到残基间的距离在每个距离区间的概率；本发明提供了一种基于深度残差网络的蛋白质残基间距离分布预测方法。

Description

一种基于深度残差网络的蛋白质残基间距离分布预测方法

技术领域

本发明涉及生物信息学、计算机应用领域，尤其涉及的是一种基于深度残差网络的蛋白质残基间距离分布预测方法

背景技术

残差网络模型刚被提出时，就在图像识别领域引起了极大的关注，在图像检测问题的特征提取表现出色，比人类的分辨能力出色。近年来，这种残差网络结构已经应用到生物信息学领域，可以用来预测蛋白质序列残基与残基间的接触信息和距离分布信息，从蛋白质序列定义在单个残基和残基对之间的特征先验信息来预测氨基酸之间的接触信息和距离概率分布。同时，利用深度卷积神经网络，在对蛋白质序列上每对残基进行计算得分时，通过扩大感受野，能够考虑到更多的先验信息；在对蛋白质序列的一些特征矩阵做数据处理时，通过卷积参数共享，对所有的残基对同时预测，大大节约了预测时间。

蛋白质残基间的距离分布提供了丰富的蛋白质空间几何约束信息，可以引导蛋白质向天然态折叠，提高结构预测精度。蛋白质残基间距离的精确预测将为高精度的蛋白质结构预测提供重要保障，对蛋白质功能的理解、靶向药物的设计、改造和合成蛋白质都有着关键的作用。

传统方法通过生物实验来测定蛋白质三维结构，耗时费力，代价极高。随着基因测序技术的快速发展和人工智能的兴起，利用深度学习技术，从氨基酸序列预测蛋白质残基间距离概率分布引导蛋白质折叠，成为实现高通量获取蛋白质三维结构关键手段。

发明内容

针对以上技术问题。本发明提出了一种基于深度残差网络的蛋白质残基间距离分布预测方法，提高了蛋白质残基间距离的预测精度，可用于辅助蛋白质三维结构预测。

本发明解决其技术问题所采用的技术方案是：

一种基于深度残差网络的蛋白质残基间距离分布预测方法，所述方法包括以下步骤：

1)构建数据集：先对蛋白质结构关系数据库SCOPe中蛋白质结构域以序列相似度30％聚类，选取每个类的代表蛋白质得到设定数量蛋白质；进一步过滤掉SPACI分数低于设定分值的低质量蛋白质，选择序列长度在设定长度之间的蛋白质，得到数据集；从构建的数据集中随机挑出一部分蛋白作为测试集，另一部分蛋白作为验证集，剩余蛋白用作训练集；

2)制作标签数据：对数据集中的每一个蛋白质，根据序列每个残基中Cβ原子的三维空间坐标，计算出每对残基之间的欧式距离，如果残基中不包含Cβ原子，以Cα原子代替；根据残基对之间的距离信息划分16个距离区间，分别为

大于

表示最后一个区间，对这16个区间标号0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15；残基对间的距离落入哪个区间取对应的标号作为标签值；

3)获取多序列比对文件：利用HHblits工具，设定最大序列相似度90％、覆盖率75％对Uniclust30序列数据库搜索，得到目标序列的同源序列组成的多序列比对文件；以序列相似度为60％过滤多序列比对文件，计算有效序列数S_val，公式如下：

其中S为多序列比对文件中序列的数目，

为1表示序列m和n的第i号残基相同，否则为0，L表示序列的长度；

4)对20种氨基酸类型和gap进行编码,分别表示为：丙氨酸A:1，半胱氨酸C:2，天冬氨酸D:3，谷氨酸E:4，苯丙氨酸F:5，甘氨酸G:6，组氨酸H:7，异亮氨酸I:8，赖氨酸K:9，亮氨酸L:10，甲硫氨酸M:11，天冬酰胺N:12，脯氨酸P:13，谷氨酰胺Q:14，精氨酸R:15，丝氨酸S:16，苏氨酸T：17，缬氨酸V:18，色氨酸W:19，酪氨酸Y:20，gap:21；

5)计算残基间平均接触势能，过程如下：

5.1)采用Miyazawa和Jernigan等效接触势能，其数值表示不同种类的氨基酸之间相互作用的强度，接触势能数值越大，残基相互作用越不稳定，容易偏离平衡位置，数值越小，残基之间的相互作用越稳定，越难偏离平衡位置，残基间相互接触势能值如图3所示；

5.2)利用残基对之间相互接触势能计算多序列比对文件中每对残基之间的平均接触势能Mcp，公式如下：

其中

表示多序列比对中第S条序列的第i号残基A，第j号残基B之间的接触势能值，其中A和B表示20种常见的氨基酸，特征数据维度为1*L*L，L表示多序列比对文件中一条序列的残基数目；

6)根据多序列比对文件计算序列氨基酸频率谱特征，过程如下：

6.1)计算氨基酸在序列某个位置出现的概率，公式如下：

其中N_A为氨基酸A在有效的MSA中某一列出现次数。

6.2)为了防止出现矩阵数据稀疏的情况，做如下转化：

获得21*L的数据特征文件，对序列频率谱信息做水平遍历和垂直遍历处理将序列谱特征维度变成42*L*L,L表示多序列比对文件中某条序列的残基数目；

7)根据有效多序列比对文件计算在残基间协方差特征，过程如下：

Cov_ij＝f_ij(A,B)-f_i(A)f_j(B)

其特征数据维度为441*L*L，L表示多序列比对文件中某条序列的残基数目。

8)将目标蛋白质序列输入到PSIPRED二级结构预测器中，得到序列在某个区域二级结构信息(螺旋、片层、卷曲)；根据氨基酸编码方式处理数据，对二级结构特征信息做水平条带化、垂直条带化处理，将序列的二级结构特征维度转换成6*L*L，L表示多序列比对文件中某条序列的残基数目；

9)将目标序列输入到PSICOV接触预测服务器、RaportX-Contact预测服务器、Spot-Contact预测服务器，分别获得目标蛋白质是接触图X₁，X₂和X₃，将3个残基的接触图合成一张新的残基接触图。按照如下方式进行合成：

X＝m₁X₁+m₂X₂+m₃X₃

其中m₁、m₂、m₃∈(0,1)，且m₁+m₂+m₃＝1，X即为合成的目标序列残基接触图；

10)搭建残差网络模型：

10.1)深度残差网络由输入层、30个残差块结构和输出层组成；输入层由1个1×1滤波器的二维卷积层；残差块由两个卷积层、一个归一化层组成；输出层由一个1×1滤波器的二维卷积核和一个Softmax非线性函数组成；

10.2)使用Xavier均匀分布初始化，使用Adam Optimizer方法对网络权重进行优化，依照设定的初始学习率，使用多元交叉熵CrossEntropyLoss作为损失函数；

11)训练模型参数：将协方差、平均接触势能、序列频率谱和二级结构特征和接触图特征X融合成一个491*L*L的特征数据输入到残差网络中，经过数据降维，特征提取，反向传播，总共训练设定次数得到训练模型参数；

12)提取测试集序列特征信息，输入到训练的模型中，可以得到每对残基落入每个区间的概率的分布情况，可用于约束蛋白质的折叠。

进一步，所述步骤1)中，先对蛋白质结构关系数据库SCOPe中蛋白质结构域以序列相似度30％聚类，选取每个类的代表蛋白质得到10596个蛋白质；进一步过滤掉SPACI分数低于0.4分的低质量蛋白质，选择序列长度在30至300之间的蛋白质，得到包含6791个蛋白质作为数据集；从构建的数据集中随机挑出91个蛋白作为测试集，700个蛋白作为验证集，剩余6000个蛋白用作训练集。

本发明的有益效果主要表现在：利用深度残差网络强大的信息提取能力提高了蛋白质残基间距离分布的效率与准确性，利用序列残基的特征先验信息，提高了预测的可靠性，蛋白质残基间距离信息用于引导蛋白质折叠，大大提高了结构预测精度。

附图表说明

图1是一种基于深度残差网络的蛋白质残基间距离分布预测方法的整体流程图。

图2是一种基于深度残差网的络蛋白质残基间距离分布预测方法对蛋白3ZXQ_A预测得到的距离分布图。

图3是Miyazawa和Jernigan残基等效接触势能值。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1、图2和图3，一种基于深度残差网络的蛋白质残基间距离分布预测方法，包括以下步骤：

大于

其中S为多序列比对文件中序列的数目，

5)计算残基间平均接触势能，过程如下：

其中

6.1)计算氨基酸在序列某个位置出现的概率，公式如下：

其中N_A为氨基酸A在有效的MSA中某一列出现次数。

6.2)为了防止出现矩阵数据稀疏的情况，做如下转化：

Cov_ij＝f_ij(A,B)-f_i(A)f_j(B)

X＝m₁X₁+m₂X₂+m₃X₃

10)搭建残差网络模型：

所述步骤1)中，先对蛋白质结构关系数据库SCOPe中蛋白质结构域以序列相似度30％聚类，选取每个类的代表蛋白质得到10596个蛋白质；进一步过滤掉SPACI分数低于0.4分的低质量蛋白质，选择序列长度在30至300之间的蛋白质，得到包含6791个蛋白质作为数据集；从构建的数据集中随机挑出91个蛋白作为测试集，700个蛋白作为验证集，剩余6000个蛋白用作训练集。

以序列长度为124残基的蛋白质3ZXQ_A为实施例，一种基于深度残差网络的蛋白质残基间距离分布预测方法，包括以下步骤：

1)构建数据集：先对蛋白质结构关系数据库SCOPe中蛋白质结构域以序列相似度30％聚类，选取每个类的代表蛋白质得到10596个蛋白质；进一步过滤掉SPACI分数低于0.4分的低质量蛋白质，选择序列长度在30至300之间的蛋白质，得到包含6791个蛋白质作为数据集；从构建的数据集中随机挑出91个蛋白作为测试集，700个蛋白作为验证集，剩余6000个蛋白的用作训练集；

大于

其中S为多序列比对文件中序列的数目，

5)计算残基间平均接触势能，过程如下：

其中

6.1)计算氨基酸在序列某个位置出现的概率，公式如下：

其中N_A为氨基酸A在有效的MSA中某一列出现次数。

6.2)为了防止出现矩阵数据稀疏的情况，做如下转化：

Cov_ij＝f_ij(A,B)-f_i(A)f_j(B)

X＝m₁X₁+m₂X₂+m₃X₃

10)搭建残差网络模型：

10.2)使用Xavier均匀分布初始化，使用Adam Optimizer方法对网络权重进行优化，初始学习率为0.01，使用多元交叉熵CrossEntropyLoss作为损失函数；

11)训练模型参数：将协方差、平均接触势能、序列频率谱和二级结构特征和接触图特征X融合成一个491*L*L的特征数据输入到残差网络中，经过数据降维，特征提取，反向传播，总共训练50次得到训练模型参数；

以上阐述的是本发明给出的一个实施例表现出来的优良效果，显然本发明不仅适合上述实施例，而且在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。

Claims

1.一种基于深度残差网络的蛋白质残基间距离分布预测方法，其特征在于，所述方法包括以下步骤：

大于

其中S为多序列比对文件中序列的数目，

5)计算残基间平均接触势能，过程如下：

其中

6.1)计算氨基酸在序列某个位置出现的概率，公式如下：

其中N_A为氨基酸A在有效的MSA中某一列出现次数；

6.2)为了防止出现矩阵数据稀疏的情况，做如下转化：

Cov_ij＝f_ij(A,B)-f_i(A)f_j(B)

其特征数据维度为441*L*L，L表示多序列比对文件中某条序列的残基数目；

8)将目标蛋白质序列输入到PSIPRED二级结构预测器中，得到序列在某个区域二级结构信息，即螺旋、片层或卷曲；根据氨基酸编码方式处理数据，对二级结构特征信息做水平条带化、垂直条带化处理，将序列的二级结构特征维度转换成6*L*L，L表示多序列比对文件中某条序列的残基数目；

9)将目标序列输入到PSICOV接触预测服务器、RaportX-Contact预测服务器、Spot-Contact预测服务器，分别获得目标蛋白质是接触图X₁，X₂和X₃，将3个残基的接触图合成一张新的残基接触图，按照如下方式进行合成：

X＝m₁X₁+m₂X₂+m₃X₃

10)搭建残差网络模型：

10.2)使用Xavier均匀分布初始化，使用Adam Optimizer方法对网络权重进行优化，按照设定的初始学习率，使用多元交叉熵CrossEntropyLoss作为损失函数；

12)提取测试集序列特征信息，输入到训练的模型中，得到每对残基落入每个区间的概率的分布情况，用于约束蛋白质的折叠。

2.如权利要求1所述的基于深度残差网络的蛋白质残基间距离分布预测方法，其特征在于，所述步骤1)中，先对蛋白质结构关系数据库SCOPe中蛋白质结构域以序列相似度30％聚类，选取每个类的代表蛋白质得到10596个蛋白质；进一步过滤掉SPACI分数低于0.4分的低质量蛋白质，选择序列长度在30至300之间的蛋白质，得到包含6791个蛋白质作为数据集；从构建的数据集中随机挑出91个蛋白作为测试集，700个蛋白作为验证集，剩余6000个蛋白用作训练集。