CN112116950A

CN112116950A - 基于深度度量学习的蛋白质折叠识别方法

Info

Publication number: CN112116950A
Application number: CN202010948824.7A
Authority: CN
Inventors: 於东军; 刘岩
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2020-09-10
Filing date: 2020-09-10
Publication date: 2020-12-22
Anticipated expiration: 2040-09-10
Also published as: CN112116950B

Abstract

本发明公开了一种基于深度度量学习的蛋白质折叠识别方法包括：对蛋白质进行编码，得到蛋白质序列的数字表达；将蛋白质序列的数字表达输入到SSA模型，获得蛋白质残基‑残基潜在的关系图，并将关系图固定为设定大小；将关系图输入到训练好的卷积神经网络中，获取分类层前一层的输出作为深度特征；将深度特征输入到训练好的孪生网络中得到最终的蛋白质特征；基于蛋白质特征计算查询蛋白与模板蛋白之间的欧式距离，将与查询蛋白质距离最近的模板蛋白质的折叠类型分配给查询蛋白质。本发明使用孪生网络，使得相同折叠类型的蛋白对之间的距离更近，不同折叠的蛋白质对之间的距离更远。

Description

基于深度度量学习的蛋白质折叠识别方法

技术领域

本发明属于生物信息学预测蛋白质结构领域，具体为一种基于深度度量学习的蛋白质折叠识别方法。

背景技术

随着基因工程的不断推进，人类已知的蛋白质序列信息呈指数级增长，但是对于蛋白质的生物特性与结构，却知之甚少。这是因为即使对单个蛋白质而言，了解其功能与三维结构也是一项艰巨的任务。所以要理解所有这些序列，最好的方法就是通过搜索数据库，将它们与其他已知功能与结构的蛋白质联系起来，提高这种算法仍然是当今生物信息学领域重大的挑战之一。蛋白质折叠识别的核模板匹配思想就是基于此，它的目标是对一个新的蛋白质(已知序列)，通过相似度比对，与查询蛋白最相似的模板蛋白在蛋白质的折叠方式上与查询蛋白越相似。此外还有把蛋白质折叠识别看成一个分类问题，对于一个查询蛋白，直接把查询蛋白分类到最大可能的折叠类型。

上面两种思想的关键在于从蛋白质序列中抽取强大的蛋白质特征表示。Fletez-Brant等人(Fletez-Brant,Christopher,et al."kmer-SVM:a web server foridentifying predictive regulatory sequence features in genomic data sets."Nucleic acids research 41.W1(2013):W544-W556.)提出了一种通过计算连续邻近残基的频率来提取特征的方法，这种方法有效地从蛋白质序列中捕捉了局部鉴别信息。Shen和Chou(Shen,Hong-Bin,and Kuo-Chen Chou."Ensemble classifier for protein foldpattern recognition."Bioinformatics 22.14(2006):1717-1722.)利用伪氨基酸(PseAAC)方法将序列信息、疏水性信息和亲水性信息结合在一起，以区分不同的蛋白质特征。Dong(Dong,Qiwen,Shuigeng Zhou,and Jihong Guan."A new taxonomy-basedprotein fold recognition approach based on autocross-covariancetransformation."Bioinformatics 25.20(2009):2655-2662.)等人结合自协方差变换和PSSM提取进化信息去提高蛋白质的折叠识别率。

最近几年深度学习方法给计算机视觉，自然语言处理，语言识别等研究领域带来了巨大的革命。比如Hou等人(Hou,Jie,Badri Adhikari,and Jianlin Cheng."DeepSF:deep convolutional neural network for mapping protein sequences to folds."Bioinformatics 34.8(2018):1295-1303.)使用1D的卷积神经网络直接把蛋白质序列分类到已知的1195种折叠中。Liu等人(Liu,Bin,Chen-Chen Li,and Ke Yan."DeepSVM-fold:protein fold recognition by combining support vector machines and pairwisesequence similarity scores generated by deep learning networks."Briefings inBioinformatics(2019).)结合卷积神经网络与长短时记忆网络从PSSM矩阵中提取进化信息从而提高蛋白质折叠识别率。但是这些方法存在以下几个问题：如何有效地度量两个蛋白质之间的距离，以及如何更进一步的加强蛋白质特征的鉴别性。

发明内容

本发明的目的在于提出了一种基于深度度量学习的蛋白质折叠识别方法。

实现本发明目的的技术方案为：一种基于深度度量学习的蛋白质折叠识别方法，包括：

对蛋白质进行编码，得到蛋白质序列的数字表达；

将蛋白质序列的数字表达输入到SSA模型，取模型输出层的上一层输出作为蛋白质残基-残基潜在的关系图，并将关系图固定为设定大小；

将蛋白质残基-残基潜在的关系图输入到训练好的卷积神经网络中，获取分类层前一层的输出作为深度特征；

将深度特征输入到训练好的孪生网络中得到最终的蛋白质特征；

基于蛋白质特征计算查询蛋白与模板蛋白之间的欧式距离，将与查询蛋白质距离最近的模板蛋白质的折叠类型分配给查询蛋白质。

优选地，采用抽样或者填充操作将关系图固定为设定大小。

优选地，关系图大小固定为256×256。

优选地，卷积神经网络的训练过程为：

将蛋白质残基-残基潜在的关系图输入卷积神经网络中，以交叉熵损失作为网络的目标函数，使用随机梯度下降算法优化卷积神经网络的参数。

优选地，孪生网络的训练过程为：

构建孪生网络训练样本，将孪生网络训练样本输入输入到孪生网络的两个子网络中对孪生网络，使用随机梯度下降算法学习孪生网络的参数，当网络迭代设定次数的时候，训练终止；

孪生网络训练样本的构建方法为：

将卷积神经网络训练样本输入到训练好的卷积神经网络，获得训练样本的深度特征；

从卷积神经网络训练样本中随机选择若干对样本对应的深度特征作为孪生网络训练样本，若每对样本的蛋白质折叠类型属于同一类型，将该对样本标签设为0，否则设为1。

优选地，孪生网络的损失函数为：

其中，W表示为整个孪生网络需要学习的参数，N为蛋白质样本对，Y为两个蛋白质是否为同一折叠类型的标签，D_W为两个蛋白质深度特征之间的欧式距离，m为设置的阈值。

本发明与现有技术相比，其显著优点为：

1.本发明提高了蛋白质折叠识别的识别精度：使用深度卷积神经网络与传统机器学习的策略，使得模型可以自动从这种非标准化的蛋白质残基接触图中学习到强大的蛋白质结构信息，提高了识别蛋白质折叠类型的精度；

2.本发明提高了蛋白质折叠的识别速度:SSA模型是一个已经训练好的深度循环神经网络模型，可以直接对蛋白质序列预测出蛋白质残基与残基之间的关系，是目前为止最快的蛋白质残基接触图预测方法；深度神经网络虽然训练过程比较慢，但是一旦网络模型参数训练完成，预测过程非常迅速，如果使用GPU加速器，识别速度会更加快速，大大的缩短了蛋白质折叠的识别时间。

3.本发明使用孪生网络，使得相同折叠类型的蛋白对之间的距离更近，不同折叠的蛋白质对之间的距离更远。

附图说明

图1为蛋白质折叠的深度网络结构图。

图2为基于深度度量学习的蛋白质折叠识别方法的流程图。

具体实施方式

为了更好的了解本发明的技术内容，下面结合附图对本发明作进一步的说明。

如图2所示，一种基于深度度量学习的蛋白质折叠识别方法，具体实施步骤为：

步骤1：数据预处理，使用one-hot编码分别对N组蛋白质训练数据进行编码，得到蛋白质序列的数字表达；

步骤2：把蛋白质序列的One-hot编码输入到SSA蛋白质残基与残基接触图预测工具中，本发明使用的SSA程序来在于(https://github.com/tbepler/protein-sequence- embedding-iclr2019)，从而预测出非标准化的蛋白质残基与残基之间的接触图，本发明中使用的是SSA模型输出层的上一层输出作为蛋白质残基-残基潜在的关系矩阵Potentialprotein residue relationship matrix，对于蛋白质结构而言，这种蛋白质残基-残基潜在的关系矩阵不仅包含了蛋白质残基与残基之间的接触信息，同时也包含了其他潜在的结构信息；

步骤3：使用抽样和填充的操作使得蛋白质残基-残基潜在的关系矩阵Potentialprotein residue relationship大小固定为256×256。抽样的具体操作如下：当蛋白质序列的长度大于256时，直接把256之后的残基去掉，对于小于256的蛋白质序列，对其进行补0。这样经过处理所有的数据尺寸都为256×256，获得N个大小256×256的矩阵，构成训练样本。

步骤4：训练卷积神经网络：将训练样本输入到图1的卷积神经网络结构中，以交叉熵损失作为网络的目标函数，使用随机梯度下降算法去优化卷积神经网络的参数。

如图1所示，下面给出卷积神经网络框架的具体结构：

输入层：由于SSA输出是一个L×L大小的矩阵，L为蛋白质序列的长度，是不定量，因为最后全连接层的存在需要统一设计成256×256，通道为1的矩阵作为输入数据尺寸；

卷积层：包含13个卷积层，每个卷积层都不会改变前一层的特征图长和宽；通过卷积可以实现通道数的增加。假设输入图片尺寸为(batch size,3,256,256)，如果希望这一层的输出特征图尺寸为(batch_size,64,256,256)，需要使用64个尺寸为3x3并且3个通道的卷积核；

BatchNorm层:一种可用于防止过拟合的技术，通常设置在卷积层与池化层之间；

最大池化层：包含5个池化层，分别分布在2或者3次卷积以后。池化层的作用是降低特征图尺寸并且能提高网络抗干扰能力；

全连接层：卷积层输出的特征图需要进行维度和尺寸变换操作，才能送入全连接层；

Dropout层:一种防止网络训练过拟合的技术，一般参数值设置为0.5；

Softmax分类层：用于对查询样本进行分类。

步骤5：特征提取。使用步骤4训练好的深度卷积神经网络模型，将训练样本再次输入到步骤4训练好的深度卷积神经网络中，为了保证最后提取的蛋白质序列特征的完整性，使用分类层之前的全连接层的输出作为蛋白质序列的初始特征，命名为深度特征；

步骤6：生成孪生网络的训练样本。随机地从步骤4中使用的训练样本中选择一对样本，如果两个蛋白质折叠属于同一种类型，则将两条蛋白质标签设置为0，否则设置为1。

步骤7：训练孪生网络。孪生网路的参数为5层，第一层的节点数为2048，第二层的节点数为4096，第三层的节点数为4096，第四层的节点数为4096，第五层的节点数设置为1024。把步骤6产生的训练孪生网络的样本对应的深度特征分别输入到孪生网络的两个子网络中对孪生网络进行训练。本发明使用的孪生网络的损失函数为：

其中W表示为整个孪生网络需要学习的参数，此处两个网络共享所有的参数，N为蛋白质样本对，Y为两个蛋白质是否为同一折叠类型的标签，为两个蛋白质深度特征之间的欧式距离，m为人为设置的阈值，表示希望正蛋白质对之间的距离越小越好，负蛋白质之间的距离大于阈值m越好。使用随机梯度下降算法去学习孪生网络的参数，此外，网络的学习率设置为0.001，batchsize设置为48，即每次输入设定对数步骤6生成的样本。当网络迭代设定次数的时候，训练终止，保存网络参数。

步骤8：为查询蛋白分配蛋白质折叠类型。把查询蛋白与模板蛋白的蛋白质序列经过步骤1-3，得到修正好的蛋白质残基-残基潜在的关系矩阵Potential protein residuerelationship；然后利用步骤4训练好的卷积神经网络抽取它们的深度特征；接着在用步骤7训练好的孪生网络从它们的深度特征中得到查询蛋白与模板蛋白最终的特征表示；最后分别计算查询蛋白与模板蛋白质之间的欧式距离并对其排序，与查询蛋白最近的模板蛋白的折叠类型被分配给查询蛋白。

本发明利用深度卷积神经网络技术从蛋白质残基接触图中学习蛋白质的空间结构特征，并使用孪生网络把这些特征映射到嵌入空间中，使得同折叠类型的蛋白质之间的距离越近，不同类蛋白质折叠类型之间的距离越远。最后使用这些特征与模板蛋白进行比对，得到正确的折叠类型。

本发明借鉴了深度卷积神经网络强大的自动特征学习能力，不用借助人工设计的特征，使得蛋白质的特征选择更加全面；本发明借鉴了深度度量学习的思想，同过网络训练可以使得相同类别的蛋白质特征对之间距离更近，不同类别的蛋白质特征对之间的距离更远，从而有益于分类。

虽然本发明已经以较佳实施例揭露如上，然其并非用以限度本发明。本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰。因次，本发明的保护范围当视权利要求书所界定者为准。

Claims

1.一种基于深度度量学习的蛋白质折叠识别方法，其特征在于，包括：

对蛋白质进行编码，得到蛋白质序列的数字表达；

2.根据权利要求1所述基于深度度量学习的蛋白质折叠识别方法，其特征在于，采用抽样或者填充操作将关系图固定为设定大小。

3.根据权利要求1所述基于深度度量学习的蛋白质折叠识别方法，其特征在于，关系图大小固定为256×256。

4.根据权利要求1所述基于深度度量学习的蛋白质折叠识别方法，其特征在于，卷积神经网络的训练过程为：

5.根据权利要求1所述基于深度度量学习的蛋白质折叠识别方法，其特征在于，孪生网络的训练过程为：

孪生网络训练样本的构建方法为：

6.根据权利要求5所述基于深度度量学习的蛋白质折叠识别方法，其特征在于，孪生网络的损失函数为：