CN114596913A

CN114596913A - 基于深度中心点模型的蛋白质折叠识别方法及系统

Info

Publication number: CN114596913A
Application number: CN202210180117.7A
Authority: CN
Inventors: 杨伟; 张蕾; 郭悰
Original assignee: Henan University
Current assignee: Xi'an Huaqi Zhongxin Technology Development Co ltd
Priority date: 2022-02-25
Filing date: 2022-02-25
Publication date: 2022-06-07
Anticipated expiration: 2042-02-25
Also published as: CN114596913B

Abstract

本发明属于计算生物学技术领域，公开一种基于深度中心点模型的蛋白质折叠识别方法及系统，该方法的目标是学习一个将每个蛋白质链映射为单位向量的深度嵌入网络，使得在嵌入空间中折叠类型相同的蛋白质链距离较近，折叠类型不同的蛋白质链距离较远。为此，本发明首先采用预训练的蛋白质语言模型将蛋白质的氨基酸序列表示成嵌入特征矩阵，然后通过同时最小化每个蛋白质链与其目标中心点的距离和最大化每个蛋白质链与其他非目标中心点的距离来学习深度嵌入网络，最后基于学习的深度嵌入网络进行蛋白质折叠类别的预测。总之，本发明通过采用深度嵌入学习技术能够精确地预测蛋白质的折叠类别。

Description

基于深度中心点模型的蛋白质折叠识别方法及系统

技术领域

本发明属于计算生物学技术领域，尤其涉及一种基于深度中心点模型的蛋白质折叠识别方法及系统。

背景技术

蛋白质是生命活动的主要承担者，其具有催化、信号传导、运输和分子识别等多种功能。特别地，蛋白质的功能是由其三维结构确定的。为了测定蛋白质的三维结构，常用的实验方法有冷冻电镜、X射线晶体衍射和核磁共振等。然而，这些实验方法不仅花费较多而且非常耗时，所以采用计算方法基于给定蛋白质的氨基酸序列预测其三级结构对理解蛋白质的功能是极其必要的。由于具有相同折叠类型的蛋白质通常具有相似的结构和功能，因此精确预测的蛋白质折叠可以显著提高基于模板的三维结构建模精度。

为了确定给定蛋白质的折叠类型，当前的主流方法有两类：基于分类的折叠识别和基于检索的折叠识别。前者把蛋白质折叠识别看作多类分类问题，代表的算法有：TAXFOLD、FP-Pred、和ProFold[Villegas-Morcillo,A.,et al.,Protein FoldRecognition from Sequences using Convolutional and Recurrent NeuralNetworks.IEEE/ACM Trans Comput Biol Bioinform,2020.]。这类方法通常包括两个阶段：特征抽取和分类器训练。然而其缺点是不能应用到训练集以外的折叠类别。目前已知的折叠类型有1000多个，并且随着越来越多的蛋白质结构数据被发布，会有更多的新折叠类型被发现。基于检索的折叠识别通过将查询蛋白质与已知结构的模板蛋白质集合进行比较，把最相似的蛋白质的折叠类型指派给查询蛋白。早期的方法主要通过序列到序列的比对和谱特征到谱特征的比对进行相似性检索。近来提出的方法主要采用深度学习技术将蛋白质映射到嵌入空间中，然后在嵌入空间中使用欧氏距离或余弦相似性距离进行相似性检索[Villegas-Morcillo,A.,V.Sanchez,and A.M.Gomez,FoldHSphere:deephyperspherical embeddings for protein fold recognition.BMC Bioinformatics,2021.22(1)]。特别地，基于检索的折叠识别方法能够自然地扩展到未见的折叠类别识别。

存在的基于检索的折叠识别方法主要采用通过多序列比对导出的谱特征进行折叠识别。特别地，谱特征的质量不仅显著依赖于蛋白质序列数据库中同源序列的数量，而且不能充分利用大规模蛋白质序列数据库的信息。

发明内容

本发明针对现有的通过多序列比对导出的谱特征进行折叠识别的方法中，谱特征的质量不仅显著依赖于蛋白质序列数据库中同源序列的数量，而且不能充分利用大规模蛋白质序列数据库的信息的问题，提出一种基于深度中心点模型的蛋白质折叠识别方法及系统。

为了实现上述目的，本发明采用以下技术方案：

本发明一方面提出一种基于深度中心点模型的蛋白质折叠识别方法，包括：

步骤1：确定蛋白质折叠训练数据集和测试数据集，所述蛋白质折叠训练数据集和测试数据集均包含多条蛋白质链；

步骤2：采用预训练的蛋白质语言模型ProtT5-XL-UniRef50生成蛋白质折叠训练数据集中蛋白质链的嵌入矩阵；

步骤3：构建深度嵌入网络用于蛋白质折叠识别，所述深度嵌入网络由两个卷积块、一个软池化操作层、两个全链接层、一个Dropout层和一个归一化层组成；

步骤4：确定训练深度嵌入网络的目标函数；

步骤5：基于蛋白质折叠训练数据集和训练深度嵌入网络的目标函数训练深度嵌入网络；

步骤6：基于蛋白质折叠训练数据集、测试数据集和训练好的深度嵌入网络预测蛋白质链的折叠类别。

进一步地，所述步骤1包括：

采用LINDAHL数据集作为蛋白质折叠测试数据集，基于数据库SCOPe 2.06构造蛋白质折叠训练数据集。

进一步地，每个所述卷积块包含一个一维卷积层、一个批处理归一化层和一个Hardswish激活函数。

进一步地，所述深度嵌入网络的输入是一个大小为N×1024×L的三维张量X和一个大小为N×L的二元矩阵M，其中N表示mini-batch中蛋白质链的个数，L表示mini-batch中最长蛋白质链的长度。

进一步地，在构造mini-batch时，通过二元矩阵M来指示填充位置，对较短蛋白质链的嵌入特征矩阵进行零填充，M中元素M_ij＝1表示mini-batch中第i个蛋白质链的第j个残基是真实存在的，M_ij＝0表示mini-batch中第i个蛋白质链的第j个残基不存在，并且该位置在嵌入矩阵中对应的向量是填充的全零向量。

进一步地，软池化操作层的输出矩阵Y按如下公式进行计算：

其中L表示mini-batch中最长蛋白质链的长度，N表示mini-batch中蛋白质链的个数，A表示第二个卷积块输出的特征张量。

进一步地，所述步骤4包括：

在嵌入空间中为训练数据集中的每个折叠类别指派一个中心点向量；令第k个折叠类别的中心点向量为c^(k)∈R^d，则称其为折叠类别为k的蛋白质链的目标中心点向量，其他中心点向量为折叠类别为k的蛋白质链的非目标中心点向量；

给定一个mini-batch，令向量t表示mini-batch中蛋白质链的真实标签向量，Y_i,:表示第i个蛋白质链在嵌入空间中对应的嵌入向量，将目标函数定义为如下的形式：

其中N表示mini-batch中蛋白质链的个数，d_ij＝1-<Y_i,:,c^(j)>表示第i个蛋白质链与第j个中心点向量间的余弦距离，m是需要调整的间隔参数，铰链损失函数[·]₊＝max(·,0)。

进一步地，在深度嵌入网络训练开始之前，所有中心点向量都被随机初始化为单位向量，并在深度嵌入网络的训练过程中与网络参数同时进行更新。

进一步地，所述步骤6包括：

首先采用训练好的深度嵌入网络将训练数据集中的所有蛋白质链映射到嵌入空间，得到训练数据集中各蛋白质链对应的嵌入向量，基于各嵌入向量及对应的折叠类型构造查询模板集；然后将测试蛋白质链映射为嵌入向量，并计算其与查询模板集中的每个嵌入向量的余弦相似性距离，最后通过K近邻分类器对测试蛋白质链进行蛋白质折叠类型识别。

本发明另一方面提出一种基于深度中心点模型的蛋白质折叠识别系统，包括：

数据集确定模块，用于确定蛋白质折叠训练数据集和测试数据集，所述蛋白质折叠训练数据集和测试数据集均包含多条蛋白质链；

嵌入矩阵生成模块，用于采用预训练的蛋白质语言模型ProtT5-XL-UniRef50生成蛋白质折叠训练数据集中蛋白质链的嵌入矩阵；

网络构建模块，构建深度嵌入网络用于蛋白质折叠识别，所述深度嵌入网络由两个卷积块、一个软池化操作层、两个全链接层、一个Dropout层和一个归一化层组成；

目标函数得出模块，用于确定训练深度嵌入网络的目标函数；

网络训练模块，用于基于蛋白质折叠训练数据集和训练深度嵌入网络的目标函数训练深度嵌入网络；

折叠类别识别模块，用于基于蛋白质折叠训练数据集、测试数据集和训练好的深度嵌入网络预测蛋白质链的折叠类别。

进一步地，所述数据集确定模块具体用于：

进一步地，软池化操作层的输出矩阵Y按如下公式进行计算：

进一步地，所述目标函数得出模块具体用于：

进一步地，所述折叠类别识别模块具体用于：

与现有技术相比，本发明具有的有益效果：

本发明基于嵌入特征学习蛋白质的深度嵌入表示。通过引入软池化层，本发明设计的深度嵌入网络能够在最大保持残基级特征信息的情况下将任意长度的蛋白质链映射为固定长度的单位向量。因此，本发明提出的折叠识别方法和系统能够精确地进行蛋白质折叠类别预测。

附图说明

图1为本发明实施例一种基于深度中心点模型的蛋白质折叠识别方法的基本流程图；

图2为本发明实施例设计的深度嵌入网络结构示意图；

图3为本发明实施例蛋白质折叠类别预测的流程图；

图4为本发明实施例一种基于深度中心点模型的蛋白质折叠识别系统架构示意图。

具体实施方式

下面结合附图和具体的实施例对本发明做进一步的解释说明：

如图1所示，一种基于深度中心点模型的蛋白质折叠识别方法，包括：

步骤S101：确定蛋白质折叠训练数据集和测试数据集，所述蛋白质折叠训练数据集和测试数据集均包含多条蛋白质链；

步骤S102：采用预训练的蛋白质语言模型ProtT5-XL-UniRef50生成蛋白质折叠训练数据集中蛋白质链的嵌入矩阵；

步骤S103：构建深度嵌入网络用于蛋白质折叠识别，所述深度嵌入网络由两个卷积块、一个软池化操作层、两个全链接层、一个Dropout层和一个归一化层组成；

步骤S104：确定训练深度嵌入网络的目标函数；

步骤S105：基于蛋白质折叠训练数据集和训练深度嵌入网络的目标函数训练深度嵌入网络；

步骤S106：基于蛋白质折叠训练数据集、测试数据集和训练好的深度嵌入网络预测蛋白质链的折叠类别。

进一步地，步骤S101中，本发明采用广泛使用的LINDAHL数据集作为蛋白质折叠测试集。LINDAHL数据集是由Lindahl和Elofsson于2000年构造的，其包含976条蛋白质链，并且任意两条蛋白质链之间的序列一致性低于40％。此外，本发明基于数据库SCOPe 2.06(https://scop.berkeley.edu/statistics/ver＝2.06)构造蛋白质折叠训练集和验证集。特别地，为了保证构造的数据集独立于LINDAHL数据集，本发明采用了三个软件包CD-HIT-2D、MMseqs2和BLAST对SCOPe 2.06进行过滤，以便删除SCOPe 2.06中与LINDAHL数据集中蛋白质链相似的蛋白质链。最后的数据集包含16133个蛋白质链，共有1154个折叠类别。特别地，我们选择15000个蛋白质链作为训练集，剩余的1133个蛋白质链作为验证集。

进一步地，步骤S102中，为了预测给定蛋白质链的折叠类型，需要把每个蛋白质链中的氨基酸残基表示成数值向量。当前主流的折叠识别方法主要使用PSSM谱矩阵来表示蛋白质链。然而生成PSSM谱矩阵需要对大规模蛋白质序列数据库UniRef90或UniRef50执行耗时的多序列比对操作，并且PSSM谱特征的质量在很大程度上依赖于序列数据库中存在的与给定查询蛋白质同源的蛋白质序列数量。为此，本发明采用预训练的蛋白质语言模型生成的嵌入矩阵来表示每个蛋白质链。特别地，当前具有代表性的蛋白质语言模型有ESM-1b、ProtBert、ProtBert-BFD、ProtT5-XXL-BFD和ProtT5-XL-U50等。这些模型都是基于Transformer网络架构对大规模蛋白质序列数据库进行自监督学习获得的。通过自监督学习，蛋白质语言模型的输出表示已经包含了氨基酸残基的生物属性信息。考虑到ProtT5-XL-U50对下游任务能提供较好的支持，本发明采用其作为生成嵌入矩阵的蛋白质语言模型。对于一个长度为L的蛋白质链，ProtT5-XL-U50输出的嵌入特征矩阵大小为L×1024。

进一步地，步骤S103中，本发明的目标是学习一个将蛋白质链映射到嵌入空间的非线性映射，使得在嵌入空间中折叠类别相同的蛋白质链的距离较近，而折叠类别不同的蛋白质链的距离较远。为此，本发明设计了一个深度嵌入网络执行非线性映射。图2给出了深度嵌入网络的架构，其由两个卷积块、一个软池化操作层(Soft pooling)、两个全链接层(FC)、一个Dropout层和一个归一化层(Normalize)组成。特别地，每个卷积块包含一个一维卷积层(Conv1D)、一个批处理归一化层(BN)和一个Hardswish激活函数。卷积层的卷积核大小为7，输出通道数为1024。第一个全连接层后面跟着执行了一个非线性激活函数ReLU。在两个全连接层之间引入Dropout的目的是为了避免嵌入网络过拟合训练数据。

嵌入网络的输入是一个大小为N×1024×L的三维张量X和一个大小为N×L的二元矩阵M，其中N表示mini-batch中蛋白质链的个数，L表示mini-batch中最长蛋白质链的长度。注意，不同蛋白质链的长度通常是不同的。在构造mini-batch时，需要对较短蛋白质链的嵌入特征矩阵进行零填充，为此本发明引入二元矩阵M来指示填充位置。特别地，M中元素M_ij＝1表示mini-batch中第i个蛋白质链的第j个残基是真实存在的，M中元素M_ij＝0表示第j个残基不存在并且该位置在嵌入矩阵中对应的向量是填充的全零向量。注意，二元矩阵M只用于嵌入网络的软池化操作层。本发明在嵌入网络中引入软池化操作层的目的是在将每个蛋白质链表示成一个向量的情况下保留输入特征映射更多的信息。假定第二个卷积块输出的特征张量为A，则软池化操作层的输出矩阵Y按如下公式进行计算：

从公式中可以看出，输出矩阵Y主要由张量A中较大的响应值决定，并且张量A中填充位置对应的响应值对矩阵Y的计算没有任何影响。

此外，嵌入网络的最后一层是归一化层，其目的是将每个蛋白质链的嵌入向量转换为d维的单位向量，这样所有蛋白质链都被映射到一个单位超球上。假定第i个蛋白质链在全连接层FC2的输出矩阵中对应的向量为a，则归一化层将其转换为

其中ε是为了避免出现除以0而设置的较小正数。在本发明中，ε被设置为0.00001。

进一步地，步骤S104中，为了构造指导网络参数学习的目标函数，本发明在嵌入空间中为训练数据集中的每个折叠类别指派一个中心点向量。令第k个折叠类别的中心点向量为c^(k)∈R^d，则称其为折叠类别为k的蛋白质链的目标中心点向量，其他中心点向量为折叠类别为k的蛋白质链的非目标中心点向量。学习的目标是使得每个蛋白质链与其目标中心点向量保持较近的距离，而与其他非目标中心点向量保持一定的间隔。为此，给定一个mini-batch，令向量t表示mini-batch中蛋白质链的真实标签向量，Y_i,:表示第i个蛋白质链在嵌入空间中对应的嵌入向量，本发明将目标函数定义为如下的形式：

其中d_ij＝1-<Y_i,:,c^(j)>表示第i个蛋白质链与第j个中心点向量间的余弦距离，m是需要调整的间隔参数，铰链损失函数[·]₊＝max(·,0)。

需要注意的是所有中心点向量在训练开始之前都被随机初始化为单位向量，并在网络的训练过程中与网络参数同时进行更新。

进一步地，步骤S105中，为了基于训练集学习深度嵌入网络参数，本发明采用学习率为0.001的Adam优化器最小化步骤S104中的目标函数。此外，mini-batch的大小为32，权值衰减参数weight_decay为0.0005，嵌入空间的维度d为512，dropout的比率为0.2，间隔参数m设置为0.1。当目标函数的值在连续5个epoch中不再下降时就停止训练。

进一步地，步骤S106中，为了对给定蛋白质链进行预测，本发明首先采用训练好的深度嵌入网络将训练数据集中的所有蛋白质链映射到嵌入空间，得到训练数据集中各蛋白质链对应的嵌入向量。特别地，我们将这些嵌入向量及其对应的折叠类型构造的集合称为查询模板集。然后将测试蛋白质链映射为嵌入向量，并计算其与查询模板集中的每个嵌入向量的余弦相似性距离，最后通过K近邻分类器对测试蛋白质链进行类型指派。图3给出了基于训练好的深度嵌入网络进行蛋白质折叠类别识别的示意图。

在上述实施例的基础上，如图4所示，本发明还提出一种基于深度中心点模型的蛋白质折叠识别系统，包括：

进一步地，所述数据集确定模块具体用于：

进一步地，软池化操作层的输出矩阵Y按如下公式进行计算：

进一步地，所述目标函数得出模块具体用于：

进一步地，所述折叠类别识别模块具体用于：

综上，本发明基于嵌入特征学习蛋白质的深度嵌入表示。通过引入软池化层，本发明设计的深度嵌入网络能够在最大保持残基级特征信息的情况下将任意长度的蛋白质链映射为固定长度的单位向量。因此，本发明提出的折叠识别方法和系统能够精确地进行蛋白质折叠类别预测。

以上所示仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于深度中心点模型的蛋白质折叠识别方法，其特征在于，包括：

步骤4：确定训练深度嵌入网络的目标函数；

2.根据权利要求1所述的基于深度中心点模型的蛋白质折叠识别方法，其特征在于，所述步骤1包括：

3.根据权利要求1所述的基于深度中心点模型的蛋白质折叠识别方法，其特征在于，每个所述卷积块包含一个一维卷积层、一个批处理归一化层和一个Hardswish激活函数。

4.根据权利要求1所述的基于深度中心点模型的蛋白质折叠识别方法，其特征在于，所述深度嵌入网络的输入是一个大小为N×1024×L的三维张量X和一个大小为N×L的二元矩阵M，其中N表示mini-batch中蛋白质链的个数，L表示mini-batch中最长蛋白质链的长度。

5.根据权利要求4所述的基于深度中心点模型的蛋白质折叠识别方法，其特征在于，在构造mini-batch时，通过二元矩阵M来指示填充位置，对较短蛋白质链的嵌入特征矩阵进行零填充，M中元素M_ij＝1表示mini-batch中第i个蛋白质链的第j个残基是真实存在的，M_ij＝0表示mini-batch中第i个蛋白质链的第j个残基不存在，并且该位置在嵌入矩阵中对应的向量是填充的全零向量。

6.根据权利要求5所述的基于深度中心点模型的蛋白质折叠识别方法，其特征在于，软池化操作层的输出矩阵Y按如下公式进行计算：

7.根据权利要求1所述的基于深度中心点模型的蛋白质折叠识别方法，其特征在于，所述步骤4包括：

8.根据权利要求7所述的基于深度中心点模型的蛋白质折叠识别方法，其特征在于，在深度嵌入网络训练开始之前，所有中心点向量都被随机初始化为单位向量，并在深度嵌入网络的训练过程中与网络参数同时进行更新。

9.根据权利要求1所述的基于深度中心点模型的蛋白质折叠识别方法，其特征在于，所述步骤6包括：

10.一种基于深度中心点模型的蛋白质折叠识别系统，其特征在于，包括：