CN113611354A

CN113611354A - 一种基于轻量级深度卷积网络的蛋白质扭转角预测方法

Info

Publication number: CN113611354A
Application number: CN202110759327.7A
Authority: CN
Inventors: 杨伟; 文云光; 李艳萍; 葛文庚
Original assignee: Henan University
Current assignee: Xi'an Huaqi Zhongxin Technology Development Co ltd
Priority date: 2021-07-05
Filing date: 2021-07-05
Publication date: 2021-11-05
Anticipated expiration: 2041-07-05
Also published as: CN113611354B

Abstract

本发明公开一种基于轻量级深度卷积网络的蛋白质扭转角预测方法，包括：基于PISCES服务器构建蛋白质扭转角数据集；从RCSB PDB数据库中抽取各蛋白质序列中每个氨基酸残基对应的扭转角Phi和Psi，并加入数据集中；将uniref90数据库与各蛋白质序列进行多序列比对，生成对应蛋白质序列的PSSM谱矩阵，基于PSSM谱矩阵及氨基酸的物理化学特性，构造蛋白质序列特征；设计残差模块，并基于该模块构建预测蛋白质扭转角的深度卷积网络模型；构建训练网络模型的损失函数；基于构建的损失函数训练网络模型；基于训练后的网络模型进行蛋白质扭转角的预测。本发明不仅能精确地预测蛋白质扭转角，还具有模型小，预测速度快的优点。

Description

一种基于轻量级深度卷积网络的蛋白质扭转角预测方法

技术领域

本发明属于生物信息学技术领域，尤其涉及一种基于轻量级深度卷积网络的蛋白质扭转角预测方法。

背景技术

基于蛋白质的氨基酸序列预测扭转角是计算分子生物学中的一个重要任务。蛋白质的功能是由其结构决定的。然而采用实验方法如X射线晶体衍射和核磁共振确定蛋白质结构是极其昂贵和耗时的。因此，通过计算的方式确定蛋白质的结构是非常有必要的。对于一个由L个氨基酸残基组成的蛋白质链，其蛋白质骨架是由氮原子，α-碳原子和碳原子组成的重复序列：N⁽¹⁾、

C⁽¹⁾、N⁽²⁾、

C⁽²⁾、…、N^(L)、C⁽ _α ^L)、C^(L)。特别地，扭转角Psi是由N⁽ⁱ⁾,

和C⁽ⁱ⁾确定的平面与

C⁽ⁱ⁾和N⁽ⁱ⁺¹⁾确定的平面之间的二面角。扭转角Phi是由C⁽ⁱ⁾、N⁽ⁱ ⁺¹⁾和

确定的平面与N⁽ⁱ⁺¹⁾,

和C⁽ⁱ⁺¹⁾确定的平面之间的二面角。由于相邻骨架原子之间的键长和角度是固定的，唯一不确定的只有其扭转角，所以确定了其扭转角，就确定了其骨架结构。因此，精确地预测蛋白质的扭转角是非常重要的，扭转角的预测结果不仅可用于基于模板的三级结构预测和折叠识别，而且还可用于确定蛋白质结构的类别。

目前，一些深度学习方法如堆叠的稀疏自编码器、深度循环受限玻尔兹曼机[H.Li,J.Hou,B.Adhikari,Q.Lyu,and J.Cheng,“Deep learning methods for proteintorsion angle prediction,”BMC Bioinf.,vol.18,no.1,p.417,2017.]和双向循环神经网络[Heffernan,R.,Yang,Y.,Paliwal,K.&Zhou,Y.Capturing non-local interactionsby long short-term memory bidirectional recurrent neural networks forimproving prediction of protein secondary structure,backbone angles,contactnumbers and solvent accessibility.Bioinformatics 33,2842–2849(2017).]等已经被成功地应用于蛋白质扭转角的预测。然而这些模型都存在参数多、网络模型大和预测时间长的缺点。

发明内容

本发明针对现有蛋白质扭转角预测模型存在的参数多、网络模型大和预测时间长的问题，提出一种基于轻量级深度卷积网络的蛋白质扭转角预测方法，该方法采用蛋白质氨基酸的物理化学性质和PSSM谱矩阵表示蛋白质序列特征，基于深度可分离卷积设计的轻量级卷积网络实现蛋白质扭转角的预测，本发明提出的方法不仅能够精确地预测蛋白质扭转角，而且具有模型小，预测速度快的优点。

为了实现上述目的，本发明采用以下技术方案：

一种基于轻量级深度卷积网络的蛋白质扭转角预测方法，包括：

步骤1：基于PISCES服务器构建蛋白质扭转角数据集，所述蛋白质扭转角数据集包括多个蛋白质序列；

步骤2：采用BioPython从RCSB PDB数据库中抽取所述蛋白质扭转角数据集中各蛋白质序列中每个氨基酸残基对应的扭转角Phi和Psi，并将所述扭转角Phi和Psi加入蛋白质扭转角数据集中；

步骤3：将uniref90数据库与蛋白质扭转角数据集中的各蛋白质序列进行多序列比对，生成对应蛋白质序列的PSSM谱矩阵，基于蛋白质序列的PSSM谱矩阵及氨基酸的物理化学特性，构造蛋白质序列特征；

步骤4：设计残差模块，并基于设计的残差模块构建预测蛋白质扭转角的深度卷积网络模型；所述残差模块涉及的计算操作包括：一维卷积、一维批处理归一化、Hard-Swish激活函数、平均池化、全连接和残差连接；

步骤5：构建训练预测蛋白质扭转角的深度卷积网络模型的损失函数；

步骤6：基于构建的损失函数训练预测蛋白质扭转角的深度卷积网络模型；

步骤7：基于训练后的预测蛋白质扭转角的深度卷积网络模型进行蛋白质扭转角的预测。

进一步地，所述步骤1包括：

基于PISCES服务器从蛋白质结构数据库中挑选出分辨率小于

和序列一致性低于25％的蛋白质序列m个，加入蛋白质扭转角数据集中。

进一步地，在所述步骤2之后，还包括：

将蛋白质扭转角数据集划分为训练集、验证集和测试集。

进一步地，所述步骤3包括：

对于蛋白质扭转角数据集中的每个蛋白质序列，通过调用PSI-BLAST程序将其与uniref90数据库中的蛋白质序列执行多序列比对，生成对应蛋白质序列的PSSM谱矩阵，在PSSM谱矩阵中，每个氨基酸残基对应一个20维的数值向量；将该向量与表示蛋白质序列对应的氨基酸物理化学特性的7维数值向量进行拼接，获得蛋白质序列的最终特性表示。

进一步地，所述残差模块中一维卷积运算的表达式为：

其中，

是卷积运算，x_in和x_out分别是卷积的输入张量和输出张量，k是卷积核，b是偏置向量。

进一步地，所述残差模块使用的Hard-Swish激活函数的表达式为：

其中x为输入数据；relu6(x+3)表示把x+3小于0的变成0，大于6的取6。

进一步地，所述残差模块使用的一维卷积为深度可分离一维卷积。

进一步地，构建的预测蛋白质扭转角的深度卷积网络模型中，对于给定的蛋白质序列，卷积网络为每个氨基酸残基输出四个值：sin(φ),cos(φ),sin(ψ)和cos(ψ)；则扭转角Phi和Psi的值分别通过φ＝arctan(sin(φ)/cos(φ))和ψ＝arctan(sin(ψ)/cos(ψ))进行计算。

进一步地，所述步骤5中的损失函数为：

其中N是mini-batch中的蛋白质序列个数，L是蛋白质序列的长度，4表示扭转角Psi和Phi的正弦值及余弦值组成的向量长度，λ是权值衰减的正则化参数，W为卷积网络的权值参数，

是预测网络的输出，Y∈R^N×L×4为

对应的真实张量。

与现有技术相比，本发明具有的有益效果：

本发明采用蛋白质氨基酸的物理化学性质和PSSM谱矩阵表示蛋白质序列特征，基于深度可分离卷积设计的轻量级卷积网络实现蛋白质扭转角的预测，本发明提出的方法不仅能够精确地预测蛋白质扭转角，而且具有模型小，预测速度快的优点。

附图说明

图1为本发明实施例一种基于轻量级深度卷积网络的蛋白质扭转角预测方法的基本流程图；

图2为本发明实施例一种基于轻量级深度卷积网络的蛋白质扭转角预测方法中构建的残差模块结构示意图；

图3为本发明实施例一种基于轻量级深度卷积网络的蛋白质扭转角预测方法中构建的预测蛋白质扭转角的深度卷积网络模型结构示意图。

具体实施方式

下面结合附图和具体的实施例对本发明做进一步的解释说明：

如图1所示，一种基于轻量级深度卷积网络的蛋白质扭转角预测方法，包括：

步骤S101：基于PISCES服务器构建蛋白质扭转角数据集，所述蛋白质扭转角数据集包括多个蛋白质序列；具体地，PISCES服务器是蛋白质序列挑选服务器，能够根据用户指定的结构质量和最大序列一致性从蛋白质结构数据库(PDB)中挑选满足标准的数据集；

步骤S102：采用BioPython从RCSB PDB数据库中抽取所述蛋白质扭转角数据集中各蛋白质序列中每个氨基酸残基对应的扭转角Phi和Psi，并将所述扭转角Phi和Psi加入蛋白质扭转角数据集中；

步骤S103：将uniref90数据库与蛋白质扭转角数据集中的各蛋白质序列进行多序列比对，生成对应蛋白质序列的PSSM谱矩阵，基于蛋白质序列的PSSM谱矩阵及氨基酸的物理化学特性，构造蛋白质序列特征；

步骤S104：设计残差模块，并基于设计的残差模块构建预测蛋白质扭转角的深度卷积网络模型；所述残差模块涉及的计算操作包括：一维卷积、一维批处理归一化、Hard-Swish激活函数、平均池化、全连接和残差连接；

步骤S105：构建训练预测蛋白质扭转角的深度卷积网络模型的损失函数；

步骤S106：基于构建的损失函数训练预测蛋白质扭转角的深度卷积网络模型；

步骤S107：基于训练后的预测蛋白质扭转角的深度卷积网络模型进行蛋白质扭转角的预测。

进一步地，所述步骤S101包括：

基于PISCES服务器从蛋白质结构数据库中挑选出分辨率小于

和序列一致性低于25％的蛋白质序列m个，加入蛋白质扭转角数据集中。作为一种可实施方式，基于PISCES服务器从蛋白质结构数据库中挑选出分辨率小于

和序列一致性低于25％的蛋白质序列10701个。

进一步地，所述步骤S102包括：

基于构建的数据集中的PDBID，首先从RCSB PDB数据库中下载pdb文件；然后使用BioPython工具包中的PDBParser处理pdb文件；对应蛋白质序列中的扭转角值可以通过调用Polypeptide类中的函数get_phi_psi_list()获得。每个氨基酸残基对应一个Phi和Psi。

具体地，在所述步骤S102之后，还包括：

将蛋白质扭转角数据集划分为训练集、验证集和测试集。作为一种可实施方式，对于蛋白质扭转角数据集中的10701个蛋白质序列及各蛋白质序列对应的扭转角数据，随机选择9677个蛋白质序列及其对应的扭转角数据作为训练集，512个蛋白质序列及其对应的扭转角数据作为验证集，剩余的512个蛋白质序列及其对应的扭转角数据作为测试集。

进一步地，所述步骤S103包括：

首先从链接ftp://ftp.ebi.ac.uk/pub/databases/uniprot/current_release/uniref/中下载uniref90数据库；然后，对于蛋白质扭转角数据集中的每个蛋白质序列，通过调用PSI-BLAST程序将其与uniref90数据库中的蛋白质序列执行多序列比对，生成对应蛋白质序列的PSSM谱矩阵，在PSSM谱矩阵中，每个氨基酸残基对应一个20维的数值向量；将该向量与表示蛋白质序列对应的氨基酸物理化学特性(包括亲水性、疏水性、带电性、分子量、可及性、体积和比容)的7维数值向量进行拼接，获得蛋白质序列的最终特征表示。例如，对于一个长度为N的蛋白质序列，其对应的特征矩阵大小为N×27。

进一步地，所述步骤S104中：

残差模块中卷积运算的表达式为：

其中，

批处理归一化的目的是将每一个通道中的特征都归一化到标准正态分布。通过引入批处理归一化，不仅能够提高网络的训练速度，而且能够防止网络过拟合到某个特定样本并因此提高网络的泛化能力。

残差模块使用的Hard-Swish激活函数的表达式为：

其中x为输入数据，relu6(x+3)表示把x+3小于0的变成0，大于6的取6，即relu6(x+3)＝min(max(0,x+3),6)。Hard-Swish激活函数与Swish激活函数相比能够在性能不变的情况下保持较低的计算量。特别地，Hard-Swish函数在输入值小于零的区间依然能进行梯度更新。具体地，对于预测蛋白质扭转角的深度卷积网络模型中的第一个残差模块的输入数据为蛋白质序列特征向量。

为了降低运算量，本发明使用深度可分离一维卷积。深度可分离卷积通过将普通卷积拆分为逐通道卷积(即分组卷积，组数量与输入通道数相同，一个卷积核负责一个通道，一个通道只被一个卷积核卷积)和逐点卷积(卷积核大小为1的卷积)显著减少了卷积计算所需要的参数量并因此降低了计算量。

在输入数据进入模块时，由于使用了深度可分离卷积降低运算量，所以本发明先将通道数增加，再进行批处理归一化、Hard-Swish非线性激活和逐通道卷积操作。这是因为数据通过激活函数层时，会不可避免的丢失部分通道中的信息。如果有更多的通道，那么信息可能仍然保存在其他通道中。而由于使用了可分离卷积降低运算量，可以在通道数增加的情况下保持运算量不增加，所以可以将通道数增加后再进行后续处理。本发明选择将输入通道数增加为输入通道的k倍。

此外，为了挖掘通道之间的关联性，本发明为残差模块引入了通道注意力操作，即依次进行平均池化，全连接，Hard-Swish非线性激活，全连接，Sigmoid非线性激活，将输出结果作为权重与深度卷积的结果逐通道依次相乘。该操作通过对通道的依赖性进行建模可以提高网络的表示能力。特别地，通过逐通道调整特征，可以让重要的通道特征得到更多关注，并抑制那些不重要的通道特征。

基于设计的残差模块，本发明构建了用于扭转角预测的深度卷积网络模型(如图3所示)。特别地，本发明采用n个连续的残差模块来捕获蛋白质序列中氨基酸残基之间的局部和非局部相互作用。对于给定的蛋白质序列，卷积网络将为每个氨基酸残基输出四个值：即sin(φ),cos(φ),sin(ψ)和cos(ψ)，其中φ为扭转角Phi，ψ为扭转角Psi。则扭转角Phi和Psi的值可分别通过φ＝a r c t a n(φs i n()φ/和ψ＝arctan(sin(ψ)/cos(ψ))进行计算。

进一步地，所述步骤S105中：

令

是预测网络的输出，其中N是mini-batch中的蛋白质序列个数，L是蛋白质序列的长度，4表示扭转角Psi和Phi的正弦值及余弦值组成的向量长度。此外，令与

对应的真实张量为Y∈R^N×L×4。则基于均方误差可定义如下的损失函数：

其中λ是权值衰减的正则化参数，W为卷积网络的权值参数。

进一步地，所述步骤S106中：

为了训练预测蛋白质扭转角的深度卷积网络模型，本发明首先采用kaiming_normal方法初始化卷积层中的权值参数，同时将偏置参数设置为0；然后采用Adam优化器基于步骤S105中的损失函数训练预测蛋白质扭转角的深度卷积网络；作为一种可实施方式，训练时mini-batch大小(N)为32，Adam的学习率为0.001。特别地，为了防止网络过拟合训练数据，我们在每个卷积层中引入了p值为0.1的Dropout，并且采用基于验证集的早停法终止网络训练，具体地，早停法的容忍值(patience)为8。

综上，本发明采用蛋白质氨基酸的物理化学性质和PSSM谱矩阵表示蛋白质序列特征，基于深度可分离卷积设计的轻量级卷积网络实现蛋白质扭转角的预测，本发明提出的方法不仅能够精确地预测蛋白质扭转角，而且具有模型小，预测速度快的优点。

以上所示仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于轻量级深度卷积网络的蛋白质扭转角预测方法，其特征在于，包括：

2.根据权利要求1所述的一种基于轻量级深度卷积网络的蛋白质扭转角预测方法，其特征在于，所述步骤1包括：

基于PISCES服务器从蛋白质结构数据库中挑选出分辨率小于

3.根据权利要求2所述的一种基于轻量级深度卷积网络的蛋白质扭转角预测方法，其特征在于，在所述步骤2之后，还包括：

将蛋白质扭转角数据集划分为训练集、验证集和测试集。

4.根据权利要求1所述的一种基于轻量级深度卷积网络的蛋白质扭转角预测方法，其特征在于，所述步骤3包括：

5.根据权利要求1所述的一种基于轻量级深度卷积网络的蛋白质扭转角预测方法，其特征在于，所述残差模块中一维卷积运算的表达式为：

其中，

6.根据权利要求1所述的一种基于轻量级深度卷积网络的蛋白质扭转角预测方法，其特征在于，所述残差模块使用的Hard-Swish激活函数的表达式为：

7.根据权利要求1所述的一种基于轻量级深度卷积网络的蛋白质扭转角预测方法，其特征在于，所述残差模块使用的一维卷积为深度可分离一维卷积。

8.根据权利要求1所述的一种基于轻量级深度卷积网络的蛋白质扭转角预测方法，其特征在于，构建的预测蛋白质扭转角的深度卷积网络模型中，对于给定的蛋白质序列，卷积网络为每个氨基酸残基输出四个值：sin(φ),cos(φ),sin(ψ)和cos(ψ)；则扭转角Phi和Psi的值分别通过φ＝arctan(sin(φ)/cos(φ))和ψ＝arctan(sin(ψ)/cos(ψ))进行计算。

9.根据权利要求1所述的一种基于轻量级深度卷积网络的蛋白质扭转角预测方法，其特征在于，所述步骤5中的损失函数为：

是预测网络的输出，

为

对应的真实张量。