CN112185466B

CN112185466B - 直接利用蛋白质多序列联配信息构建蛋白质结构的方法

Info

Publication number: CN112185466B
Application number: CN202011016871.4A
Authority: CN
Inventors: 卜东波; 鞠富松; 朱建伟
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2020-09-24
Filing date: 2020-09-24
Publication date: 2023-05-23
Anticipated expiration: 2040-09-24
Also published as: CN112185466A

Abstract

本发明提出一种直接利用蛋白质多序列联配信息构建蛋白质结构的方法和系统，包括：使用第一编码器为蛋白质多序列联配信息中每个残基位置提取上下文表示作为该残基位置所处的结构环境；使用聚合器根据该结构环境聚合每个残基对编码特征向量，将得到该蛋白质多序列联配信息中残基对的聚合特征作为初始关联性；根据所有残基对的全局上下文，使用第二编码器细化该初始关联性，得到该蛋白质多序列联配信息中每一个残基对的最终关联性，根据该最终关联性生成该蛋白质多序列联配信息中残基间距离，基于该残基间距离构建蛋白质的三级结构。本发明直接从多序列联配学习残基间距离，因此可以提高残基间距离预测的精度，显著提高了蛋白质空间结构的预测精度。

Description

直接利用蛋白质多序列联配信息构建蛋白质结构的方法

技术领域

本发明属于生物和计算机技术领域，并特别涉及一种直接利用蛋白质多序列联配信息构建蛋白质结构的方法和系统。

背景技术

蛋白质结构预测系统(例如AlphaFold，RaptorX-Contact和trRosetta)最近取得的飞跃，

其中的核心技术之一是残基间接触或距离的预测。近期的进展表明：准确的残基间距离可用于为构建高精度的蛋白质三级结构。

现有的残基间距离预测都是基于残基间的“共进化”现象，即：在蛋白质进化过程中，有相互作用的两个残基中的一个残基发生变异时，另一个残基也要发生相应的变异，以维持相互作用，进而维持整体空间结构以及生物学功能。基于上述生物学观察，研究者提出了多种统计模型和算法以预测残基间的相互作用，并进一步预测残基间距离。

现有的残基间相互作用预测方法，大多使用直接关联性分析技术：直接关联性分析尝试建模和测量两个氨基酸之间直接关联性的强度，并排除间接关联性。虽然直接关联性分析很有效，但它具有如下两方面的不足：

(1)直接关联性分析不是直接使用目标蛋白质的多序列联配(Multiple sequencealignment，MSA)，而是基于其进一步处理后的数据(例如协方差)，从而造成多序列联配中原始信息的丢失；

(2)直接关联性分析基于的前提是：残基间协方差阵包含残基间直接关联关系；然而，此前提并不总是成立。如图1所示，两个蛋白的多序列联配非常不同；从条件分布可以看出，第一个多序列联配中残基1和2之间的直接关联性更强。然而，从上述两个多序列联配计算出的协方差矩阵完全相同；这意味着基于协方差矩阵无法区分这两个蛋白质。实际上，由于任意两个位置上的残基具有相同的联合分布，导致二体统计量都无法区分这两个多序列联配。

计算两个残基的条件分布是推断直接相关性的一条可行途径，但由于样本空间大且数据不足，导致难以实施。

发明内容

本发明的目的是解决上述现有技术的间接利用多序列联配导致信息丢失的缺陷，提出了一种直接从多序列联配学习残基间距离的方法及系统。本发明的核心和重点是基于蛋白质多序列联配信息，先预测蛋白质残基间距离，最终预测蛋白质的三级结构。本发明由于直接从多序列联配学习残基间距离的神经网络模型CopulaNet和系统ProFOLD；因此可以显著提高残基间距离预测的精度，显著提高了蛋白质空间结构的预测精度。

针对现有技术的不足，本发明提出一种直接利用蛋白质多序列联配信息构建蛋白质结构的方法，其中包括：

步骤1、使用第一编码器为蛋白质多序列联配信息中每个残基位置提取上下文表示作为该残基位置所处的结构环境；

步骤2、使用聚合器根据该结构环境聚合每个残基对编码特征向量，将得到该蛋白质多序列联配信息中残基对的聚合特征作为初始关联性；根据所有残基对的全局上下文，使用第二编码器细化该初始关联性，得到该蛋白质多序列联配信息中每一个残基对的最终关联性，根据该最终关联性生成该蛋白质多序列联配信息中残基间距离，基于该残基间距离构建蛋白质的三级结构。

所述的直接利用蛋白质多序列联配信息构建蛋白质结构的方法，其中该第一编码器为一维残差网络，该第二编码器为二维残差网络。

所述的直接利用蛋白质多序列联配信息构建蛋白质结构的方法，其中该步骤1包括：使用多序列联配工具寻找蛋白质的同源序列，以建立该蛋白质的蛋白质多序列联配信息。

所述的直接利用蛋白质多序列联配信息构建蛋白质结构的方法，其中该步骤2包括：

对于由两个残基位置i和j构成的残基对，将其聚合特征表示为h∈R^D×L×L，其中D是聚合器的输出通道数目，L为该蛋白质序列的残基总数，残基对的聚合特征为：

h(i，j)＝CONCAT{f(i)，f(j)，g(i，j)}

其中f(i)表示位置i的一维特征，f(j)表示位置j的一维特征，g(i，j)表示位置i和j的二维特征。

所述的直接利用蛋白质多序列联配信息构建蛋白质结构的方法，其中训练该第一编码器、该第二编码器和该聚合器的过程为从蛋白质结构数据库抽取出的蛋白质结构组成训练集，并在此训练集上训练包含该第一编码器、该第二编码器和该聚合器的神经网络，该神经网络的输入为蛋白质的多序列联配，输出是残基间距离；损失函数是交叉熵；优化器是Adam。

本申请还提出了一种直接利用蛋白质多序列联配信息构建蛋白质结构的系统，其中包括：

第一编码器，用于为蛋白质多序列联配信息中每个残基位置提取上下文表示作为该残基位置所处的结构环境；

聚合器，用于根据该结构环境聚合每个残基对编码特征向量，将得到该蛋白质多序列联配信息中残基对的聚合特征作为初始关联性；

第一编码器，用于根据所有残基对的全局上下文，细化该初始关联性，得到该蛋白质多序列联配信息中每一个残基对的最终关联性，根据该最终关联性生成该蛋白质多序列联配信息中残基间距离，基于该残基间距离构建蛋白质的三级结构。

所述的直接利用蛋白质多序列联配信息构建蛋白质结构的系统，其中该第一编码器为一维残差网络，该第二编码器为二维残差网络。

所述的直接利用蛋白质多序列联配信息构建蛋白质结构的系统，其中该第一编码器包括：使用多序列联配工具寻找蛋白质的同源序列，以建立该蛋白质的蛋白质多序列联配信息。

所述的直接利用蛋白质多序列联配信息构建蛋白质结构的系统，其中该聚合器包括：

h(i，j)＝CONCAT{f(i)，f(j)，g(i，j)}

所述的直接利用蛋白质多序列联配信息构建蛋白质结构的系统，其中训练该第一编码器、该第二编码器和该聚合器的过程为从蛋白质结构数据库抽取出的蛋白质结构组成训练集，并在此训练集上训练包含该第一编码器、该第二编码器和该聚合器的神经网络，该神经网络的输入为蛋白质的多序列联配，输出是残基间距离；损失函数是交叉熵；优化器是Adam。

由以上方案可知，本发明的优点在于：

在第13届国际蛋白质结构预测竞赛(Critical assessment of proteinstructure prediction,CASP)所使用的数据集CASP13上将ProFOLD与包括AlphaFold和trRosetta等最新技术进行了比较。为了公平起见，本发明使用相同的多序列联配重现了trRosetta的结果。从CASP13下载了AlphaFold的预测结果任务，并以与ProFOLD和trRosetta相同的方式进行评估。

图4显示了CASP13数据集的总体性能。在所有104个蛋白中，ProFOLD的平均得分达到0.742，高于AlphaFold(A7D)的0.699。

无模板类别的蛋白通常被认为比有模板的蛋白更难预测。如图3a所示，在31个无模板类别的蛋白上，ProFOLD的平均得分为0.658，优于trRosetta(0.582)和AlphaFold(0.580)。本发明的方法在31个蛋白中的18个达到了0.7以上的打分，相比之下，AlphaFold(A7D)和trRosetta分别仅在12个和7个蛋白中达到了上述精度。

在有模板的蛋白上，即使不使用模板，ProFOLD也可以达到与同源建模方法相当的水平。对在61个蛋白上，ProFOLD的平均得分达到0.785，和CASP13上表现最佳的组Zhang-server(0.787)在同一水平。本发明的方法也优于AlphaFold(0.761)和trRosetta(0.719)。

ProFOLD能生成更准确的残基接触预测。本发明将ProFOLD与三种基于最新神经网络的方法(RaptorX-Contact，AlphaFold和trRosetta)进行了比较。图3c显示了CASP13上远距离残基接触(序列中至少有24个残基隔开的残基对)预测的性能。结果表明ProFOLD和显著优于现有的预测方法。例如对于前L/5，L/2和L个远程接触预测结果，ProFOLD的精度为0.808、0.673和0.536，优于CASP13的的最好结果AlphaFold(分别高出0.117、0.100和0.088)。

附图说明

图1为本发明方法优势示意图；

图2为本发明方法流程图；

图3为方法效果比较图；

图4为不同方法在数据集CASP13上预测性能的比较图表。

具体实施方式

发明人在进行残基间距离预测研究时，发现现有技术中该项缺陷是由传统统计模型间接使用多序列联配造成的信息丢失导致的，发明人经过神经网络研究发现，解决该项缺陷可以通过使用深度神经网络直接从多序列联配学习残基间距离来实现。其中训练该深度神经网络的过程为从蛋白质结构数据库(Protein DataBank,PDB)抽取出的蛋白质结构组成训练集，并在此训练集上训练神经网络。神经网络的输入是蛋白质的多序列联配，输出是残基间距离；损失函数是交叉熵；优化器是Adam。

本发明提出CopulaNet神经网络模型，使用神经网络直接处理多序列联配，目标是学习残基间的条件分布，即直接关联性(图2)。首先，本发明使用编码器(一维残差网络)为每个待预测蛋白质中的某个残基提取上下文结构环境有关的表示，以描述该位置残基在所处结构环境下的突变倾向性；然后，本发明使用聚合器计算残基对之间的条件联合概率(即：Copula)，从而提取残基对的关联性；最后，本发明通过考虑所有残基对的全局上下文，使用二维残差网络进一步细化得到的关联性，并进而预测出残基间距离。

为使得预测结果与多序列联配中的序列顺序无关，编码器以相同且独立的方式处理多序列联配中的每条同源序列。假设待预测的目标蛋白序列包含L个残基，编码器会将每条同源序列编码为64*L的特征向量。为了使每个位置的特征向量可以表示该位置的上下文信息，本发明将编码器构造为一维残差网络。该网络包含8个残差块，每个残差块包括两个具有64个通道的卷积层和两个批量标准化层，并使用指数线性单元激活函数。

聚合器的目的是聚合每个残基对编码特征向量。具体地说，考虑一个有L个残基的蛋白序列，以及一个包含K个同源序列的多序列联配。通过对多序列联配中的第k条同源序列应用编码器模块，本发明获得了C×L个特征，记为X_k∈R^C*L，其中C代表编码器模块的输出通道数目。对于任何两个位置i和j，本发明将其聚合特征表示为h∈R^D×L×L，其中D是聚合器模块的输出通道数目，计算公式如下：

h(i，j)＝CONCAT{f(i)，f(j)，g(i，j)}

一维特征f∈R^C×L计算公式为：

其中X_k代表第k条同源序列在位置i处的编码特征，w_k表示此序列的权重，即：与第k条序列等同度大于80％的序列数的倒数。

所有序列权重之和。

二维特征g∈R^C×C×L×L的计算公式为：

其中g(i，j)表示位置i和j之间的聚合二维特征，

表示外积运算。

总结来说，聚合特征具有C×2(一维特征)+C×C(二维特征)通道。本发明将编码器模块的输出通道数目C设为64，因此通过聚合器模块，本发明可以对任意残基对获得4224个聚合特征。

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

图2以目标蛋白质(序列为AAEEKTEFDVILK，共13个残基)为例，展示本项专利所提方法ProFOLD的预测过程。

第一步：使用多序列联配工具寻找此蛋白质的同源序列，并建立多序列联配。图中展示目标蛋白质与4条同源序列的联配。

第二步：使用编码器计算目标蛋白质每个位置的一维特征向量，形成13x64的特征矩阵；

第三步：使用聚合器计算每个残基对之间的聚合特征(共4224个特征)；

第四步：计算残基间直接相关关系强度，并进而计算出残基间距离；

第五步：依据残基对之间的距离估计值，预测出蛋白质三级结构。

以下为与上述方法实施例对应的系统实施例，本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

h(i，j)＝CONCAT{f(i)，f(j)，g(i，j)}

Claims

1.一种直接利用蛋白质多序列联配信息构建蛋白质结构的方法，其特征在于，包括：

步骤2、使用聚合器根据该结构环境聚合每个残基对编码特征向量，将得到该蛋白质多序列联配信息中残基对的聚合特征作为初始关联性；根据所有残基对的全局上下文，使用第二编码器细化该初始关联性，得到该蛋白质多序列联配信息中每一个残基对的最终关联性，根据该最终关联性生成该蛋白质多序列联配信息中残基间距离，基于该残基间距离构建蛋白质的三级结构；

其中该第一编码器包括：使用多序列联配工具寻找蛋白质的同源序列，以建立该蛋白质的蛋白质多序列联配信息；

该步骤2包括：

h(i,j)＝CONCAT{f(i),f(j),g(i,j)}

其中f(i)表示位置i的一维特征，f(j)表示位置j的一维特征，g(i,j)表示位置i和j的二维特征；

一维特征f∈R^C×L计算公式为：

其中X_k代表第k条同源序列在位置i处的编码特征，w_k表示与第k条序列等同度大于80％的序列数的倒数；

代表所有序列权重之和；

二维特征g∈R^C×C×L×L的计算公式为：

其中g(i，j)表示位置i和j之间的聚合二维特征，

表示外积运算。

2.如权利要求1所述的直接利用蛋白质多序列联配信息构建蛋白质结构的方法，其特征在于，该第一编码器为一维残差网络，该第二编码器为二维残差网络。

3.如权利要求1所述的直接利用蛋白质多序列联配信息构建蛋白质结构的方法，其特征在于，训练该第一编码器、该第二编码器和该聚合器的过程为从蛋白质结构数据库抽取出的蛋白质结构组成训练集，并在此训练集上训练包含该第一编码器、该第二编码器和该聚合器的神经网络，该神经网络的输入为蛋白质的多序列联配，输出是残基间距离；损失函数是交叉熵；优化器是Adam。

4.一种直接利用蛋白质多序列联配信息构建蛋白质结构的系统，其特征在于，包括：

第二编码器，用于根据所有残基对的全局上下文，细化该初始关联性，得到该蛋白质多序列联配信息中每一个残基对的最终关联性，根据该最终关联性生成该蛋白质多序列联配信息中残基间距离，基于该残基间距离构建蛋白质的三级结构；

该步骤2包括：

h(i,j)＝CONCAT{f(i),f(j),g(i,j)}

一维特征f∈R^C×L计算公式为：

代表所有序列权重之和；

二维特征g∈R^C×C×L×L的计算公式为：

其中g(i，j)表示位置i和j之间的聚合二维特征，

表示外积运算。

5.如权利要求4所述的直接利用蛋白质多序列联配信息构建蛋白质结构的系统，其特征在于，该第一编码器为一维残差网络，该第二编码器为二维残差网络。

6.如权利要求4所述的直接利用蛋白质多序列联配信息构建蛋白质结构的系统，其特征在于，训练该第一编码器、该第二编码器和该聚合器的过程为从蛋白质结构数据库抽取出的蛋白质结构组成训练集，并在此训练集上训练包含该第一编码器、该第二编码器和该聚合器的神经网络，该神经网络的输入为蛋白质的多序列联配，输出是残基间距离；损失函数是交叉熵；优化器是Adam。