CN113192559A

CN113192559A - 基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法

Info

Publication number: CN113192559A
Application number: CN202110502536.3A
Authority: CN
Inventors: 杨跃东; 袁乾沐; 卢宇彤
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-05-08
Filing date: 2021-05-08
Publication date: 2021-07-30
Anticipated expiration: 2041-05-08
Also published as: CN113192559B

Abstract

本发明公开了一种基于深层图卷积网络的蛋白质‑蛋白质相互作用位点预测方法，包括步骤如下：根据蛋白质的序列和结构信息，提取节点特征矩阵和包含边信息的邻接矩阵，共同构成蛋白图表征；采用基于初始残差和恒等映射的深层图卷积；深层图卷积的最后一层图卷积层的输出输入一个多层感知机，完成构建深层图卷积神经网络；将训练数据提取得到蛋白图表征，采用五折交叉验证方法对深层图卷积神经网络进行训练；将待测数据通过提取得到蛋白图表征，并输入训练好的深层图卷积神经网络，实现对蛋白‑蛋白相互作用位点的预测。本发明能更充分地利用蛋白质空间结构信息，进一步提高蛋白‑蛋白相互作用位点预测的准确率。

Description

基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法

技术领域

本发明涉及生物信息技术领域，更具体的，涉及一种基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法。

背景技术

蛋白-蛋白相互作用(PPI)在信号传导、物质运输和新陈代谢等生理活动中扮演重要角色。识别蛋白-蛋白复合物之间参与物理接触的氨基酸(即蛋白-蛋白相互作用位点)有助于构建蛋白-蛋白相互作用网络、预测蛋白功能、揭示疾病机理和新药研发。然而，用双杂交试验和亲和力纯化等传统实验方法来识别PPI 位点成本高且耗时长。因此，研发能准确预测PPI位点的计算方法有很大的实际意义。

目前预测PPI位点的计算方法可根据方法所需的信息分为两大类：

第一类是基于蛋白序列的方法，此类方法只需蛋白质的氨基酸序列信息即可做出预测，但它们的预测准确率通常非常有限；二类是基于蛋白结构的方法，此类方法需要蛋白质中氨基酸的三维原子坐标信息来预测PPI位点，而它们的预测准确率通常更高，且由于目前结构已知但功能未知的蛋白质越来越多，基于结构的预测方法有很大实际意义。

大多数现有的PPI位点预测方法基于机器学习技术，其中蛋白质会被编码成特征矩阵。常用的蛋白特征包括独热(one-hot)编码、进化保守性信息、二级结构、相对溶解性(RSA)和氨基酸物理化学性质等。提取蛋白质特征后，各种各样的机器学习技术可被应用于PPI位点预测，如最近的基于序列的方法DELPHI 使用了包含卷积神经网络和循环神经网络的集成框架；基于结构的方法 DeepPPISP使用卷积神经网络提取蛋白质全局信息。

然而，这些方法都只将蛋白质视作一维序列，从而去学习序列上相近的氨基酸的相互关系。由于蛋白质是一个折叠的三维结构，这些方法忽略了在序列上相距很远，但在三维空间上相距很近的氨基酸带来的影响。另一方面，基于结构的方法SPPIDER考虑到了这点，并利用带权平均的方法整合空间上相距

以内的氨基酸的特征。然而，这种选择邻居的方式基于一个较随意的距离阈值，且不能提取到空间上相距较远的氨基酸信息，而线性的平均也不能有效模拟空间相邻的氨基酸之间的复杂关系。

发明内容

现有的PPI位点预测方法大多数只提取序列上相邻的氨基酸信息，又或者是过于简单地整合空间结构信息，为了解决现有方法的以上存在的不足，本发明提出了一种基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法，其能更充分地利用蛋白质空间结构信息，进一步提高蛋白-蛋白相互作用位点预测的准确率。

为实现上述本发明目的，采用的技术方案如下：

一种基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法，所述的方法包括步骤如下：

S1：根据蛋白质的序列和结构信息，提取节点特征矩阵和包含边信息的邻接矩阵，共同构成蛋白图表征；

S2：采用基于初始残差和恒等映射的深层图卷积，以捕获高阶空间邻近氨基酸的特征；并在深层图卷积的最后一层图卷积层的输出输入一个多层感知机，实现最终预测每一个氨基酸的蛋白相互作用概率，完成构建深层图卷积神经网络；

S3：将训练数据通过步骤S1提取得到蛋白图表征，采用五折交叉验证方法对步骤S2得到的深层图卷积神经网络进行训练；

S4：将待测数据通过步骤S1提取得到蛋白图表征，并输入步骤S3训练好的深层图卷积神经网络，实现对蛋白-蛋白相互作用位点的预测。

步骤S1，通过提取进化信息和结构信息这两组氨基酸特征作为蛋白质的节点特征；

其中所述的进化信息包括位置特异性打分矩阵和隐马尔可夫模型特征；

对于长度为n的蛋白质序列中的每个氨基酸，生成20维的位置特异性打分矩阵、20维的隐马尔可夫模型特征和14维结构信息，最终组成维度为n×54的节点特征矩阵。

进一步地，在位置特异性打分矩阵或隐马尔可夫模型特征中，每个氨基酸被编码成一个20维的向量，并利用最大-最小值归一化将特征向量中的值归一化至0-1之间；其中，最大-最小值归一化的表达式如下：

其中，v是原始特征值；Min和Max是此特征类型在训练集中观察到的最小值和最大值。

再进一步地，所述的结构信息包括以下的蛋白质结构特征：

a)9维的one-hot二级结构特征，其中前8维代表8种不同的二级结构类型，最后一维代表未知的二级结构；

b)肽骨架扭转角的正弦值和余弦值；

c)通过对应氨基酸类型的最大溶解性表面积归一化得到的氨基酸相对溶解性；

最终，每个氨基酸生成14维的结构特征。

再进一步地，步骤S1，所述的邻接矩阵的构建具体如下：

使用维度为n×n的邻接矩阵表示蛋白图中的边，邻接矩阵的构建分为两步：

a)根据蛋白质的PDB文件，获取每个氨基酸残基的Cα原子坐标，并计算所有残基对之间的欧氏距离，得到蛋白距离图；

b)设定一个距离阈值，将蛋白距离图中大于该距离阈值的距离值转换成0，小于或等于该距离阈值的距离值转换成1，从而得到离散的邻接矩阵。

再进一步地，步骤S2，所述的基于初始残差和恒等映射的深层图卷积的表达式如下：

H^(l+1)＝σ(((1-α)PH^(l)+αH⁽⁰⁾)((1-β_l)I_n+β_lW^(l)))

式中，σ表示线性整流函数；H^(l)表示经过第l+1层卷积层之前的节点隐含状态；H^(l ⁺¹⁾表示经过第l+1层卷积层之后的节点隐含状态；W^(l)表示可训练的权重矩阵；α和β_l为超参数；P表示归一化后的邻接矩阵。

再进一步地，所述的多层感知机预测每一个氨基酸的蛋白相互作用概率如下：

Y′＝Softmax(H^(L)W+b)

其中，H^(L)表示第L层图卷积层的输出；W为权重矩阵；b为偏置项；

为n个氨基酸的预测值；Softmax函数将网络的输出归一化为两个预测类别的概率分布。

再进一步地，对训练数据采用五折交叉验证方法，即训练数据被随机划分为五折，每次使用其中的四折训练深层图卷积神经网络，并利用最后一折评估深层图卷积神经网络的性能；

重复5次，并计算五折的平均性能，以此来优化特征组合和超参数选择。

再进一步地，设置

其中λ为超参数。

再进一步地，采用8层的图卷积神经网络，网络隐含单元维度为256；α设置为0.7；λ设置为1.5；将蛋白距离图转换成离散邻接矩阵的距离阈值设置为

本发明的有益效果如下：

(1)本发明将蛋白质看作一个无向连通图，其中节点是氨基酸，边是由氨基酸间距离计算得到的氨基酸接触信息；而蛋白-蛋白相互作用位点预测问题被视作图节点分类问题来解决。

(2)本发明利用基于初始残差连接和恒等映射的深层图卷积神经网络，以捕获高阶空间邻近氨基酸的特征，提高蛋白-蛋白相互作用预测准确率。

(3)本发明可直接推广至其他类型的蛋白质功能位点预测任务中，如蛋白- 小分子配体结合位点预测。

附图说明

图1是实施例1所述的方法的总体网络框架。

图2是实施例1根据所述的方法进行模型消融实验的实验数据。

图3是实施例1本实施例所述的方法(A)与LSTM(B)的预测结果示意图。

具体实施方式

下面结合附图和具体实施方式对本发明做详细描述。

实施例1

如图1所示，一种基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法，所述的方法包括步骤如下：

在一个具体的实施例中，步骤S1，通过提取进化信息和结构信息这两组氨基酸特征作为蛋白质的节点特征；

所述的进化信息：由于进化上保守的氨基酸通常会包含某些重要的基序，这些基序可能和蛋白质结合倾向性等重要蛋白性质有关。

本实施例所述的进化信息采用了两种进化信息：位置特异性打分矩阵 (PSSM)和隐马尔可夫模型特征(HMM)；

具体来说，所述的位置特异性打分矩阵PSSM是通过运行v2.10.1版的 PSI-BLAST将目标蛋白序列与UniRef90数据库进行比对得到，其中软件中的迭代次数设置为3，E-value设置为0.001。所述的隐马尔可夫模型特征HMM是通过运行v3.0.3版的HHblits并使用软件默认参数将目标蛋白序列和UniClust30数据库进行比对得到。

在PSSM或HMM特征矩阵中，每个氨基酸被编码成一个20维的向量，并利用最大-最小值归一化(式1)将特征向量中的值归一化至0-1之间；其中，最大-最小值归一化的表达式如下：

所述的结构信息：本实施例通过DSSP软件，对蛋白质提取了三种类型的结构特征：

a)9维的one-hot二级结构特征，其中前8维代表8种不同的二级结构类型，最后一维代表未知的二级结构。

b)肽骨架扭转角(PHI和PSI)的正弦值和余弦值(4维)。

c)通过对应氨基酸类型的最大溶解性表面积(ASA)归一化得到的氨基酸相对溶解性(RSA)。

最终通过DSSP，每个氨基酸生成14维(9+4+1)的结构特征。

综上所述，本实施例对于长度为n的蛋白质序列中的每个氨基酸，生成20 维的PSSM、20维的HMM和14维结构信息，最终组成维度为n×54的节点特征矩阵。

在一个具体的实施例中，步骤S1，所述的邻接矩阵的构建具体如下：

本实施例使用维度为n×n的邻接矩阵表示蛋白图中的边，邻接矩阵的构建分为两步：

b)设定一个距离阈值，将蛋白距离图中大于该距离阈值的距离值转换成0，小于或等于该距离阈值的距离值转换成1，从而得到离散的邻接矩阵。此距离阈值根据模型在训练数据集上的性能表现来确定，最终设为

在一个具体的实施例中，如图1所示，本实施例的总体网络框架，其中带有初始残差连接和恒等映射的L层图卷积神经网络(GCN)根据邻接矩阵聚合空间上邻近氨基酸的特征，并最终通过一个多层感知机(MLP)将最后一个图卷积层的输出转换成PPI位点预测结果。

对于一个包含n个氨基酸的蛋白质，本实施例将其表示为由节点特征矩阵

和邻接矩阵

构成的蛋白图，其中m为每个节点的特征维度(即 54)。邻接矩阵可被归一化为P＝D^-1/2AD^-1/2，其中D为邻接矩阵A的对角度矩阵。由此，图卷积操作便可通过以下公式计算：

H^(l+1)＝σ(PH^(l)W^(l))

其中，σ代表线性整流函数(ReLU)；H^(l)表示经过第l+1层卷积层之前的节点隐含状态；H^(l+1)表示经过第l+1层卷积层之后的节点隐含状态；W^(l)为可训练的权重矩阵。

但是浅层的GCN不能提取高阶邻居节点的信息，而简单的深层GCN又会出现过平滑问题，即经过多次节点聚合，图中每个节点的特征表示趋于一致，从而无法区分。本实施例采用基于初始残差和恒等映射的深层图卷积来解决深层 GCN的过平滑问题，从而使其有效捕获高阶邻居节点的信息：

所述的基于初始残差和恒等映射的深层图卷积的表达式如下：

H^(l+1)＝σ(((1-α)PH^(l)+αH⁽⁰⁾)((1-β_l)I_n+β_lW^(l)))

与普通GCN相比，有两处变化：一是平滑表示PH^(l)通过初始残差连接与第一层的H⁽⁰⁾相连；二是第l层的权重矩阵W^(l)加上了一个单位矩阵I_n。初始残差保证了即使网络层数很深，每个节点最后的表示都会至少保留一部分原始的输入信息，以此来减缓过平滑效应；恒等映射则通过使权重矩阵的衰减随着网络加深而自适应增加，从而使得深层的GCN模型至少达到和浅层一样的效果。本实施例设置

其中λ为超参数。

在一个具体的实施例中，所述的深层图卷积的最后一层图卷积层的输出输入一个多层感知机(MLP)，从而最终预测每一个氨基酸的蛋白相互作用概率：

所述的多层感知机预测每一个氨基酸的蛋白相互作用概率如下：

Y′＝Softmax(H^(L)W+b)

为n个氨基酸的预测值；Softmax函数将网络的输出归一化为两个预测类别的概率分布(非蛋白相互作用位点及蛋白相互作用位点)。

综上，本实施例主要分为两步：第一步是蛋白质特征提取，根据蛋白质的序列和结构信息生成节点特征矩阵和包含边信息的邻接矩阵，共同构成蛋白图；第二步是利用带有初始残差连接和恒等映射的L层图卷积网络聚合空间上邻近氨基酸的特征，并最终通过一个多层感知机将图卷积层的输出转换成PPI位点预测。本方法的总体流程如图1所示。

在一个具体的实施例中，对深层图卷积神经网络训练方面，本实施例对训练数据采取五折交叉验证，即训练数据被随机划分为五折，每次使用其中的四折训练模型，并利用最后一折评估模型的性能。此过程重复五次，并计算五折的平均性能，以此来优化特征组合和超参数选择。最终，本实施例采用了8层的图卷积神经网络，网络隐含单元维度为256，α设置为0.7，λ设置为1.5，学习率为0.001，权重衰减(weight decay)为0，批次大小(batchsize)为1。网络单元随机丢弃率(dropout rate)设置为0.1，用以避免出现过拟合。将蛋白距离图转换成离散邻接矩阵的距离阈值设置为

本实施例使用1.6.0版的Pytorch搭建模型，并使用交叉熵损失函数(cross-entropy loss)和Adam优化器优化模型的内部参数。本方法使用一个英伟达GeForce GTX 1080Ti GPU进行训练，训练最多持续50 个周期，大约花费15分钟。

为了进一步验证本实施例所述的方法的技术效果，本实施例采用了三个公开且被广泛使用的数据集用于模型的训练和测试：Dset_186，Dset_164和Dset_72，其中Dset_186和Dset_164是由蛋白数据库(PDB)中的蛋白-蛋白复合物提取并整理过滤得到的；而Dset_72是由蛋白-蛋白对接基准数据集提取得到的。在这些数据集中，蛋白相互作用位点被定义为在形成蛋白-蛋白复合物的过程中丢失绝对溶解表面积大于的

的蛋白表面氨基酸。将这三个数据集合并为一个数据集，并使用BLASTClust软件去除序列相似性大于25％的冗余蛋白，最终得到395 条蛋白链。随机选择335条蛋白链作为训练集，并使用剩下的60条蛋白链作为独立测试。

和其他方法一样，我们使用准确率(ACC)、精确度(Precision)、召回率 (Recall)、F1值、马修斯相关系数(MCC)、接收者操作特征曲线下面积(AUROC) 和精确度-召回率曲线下面积(AUPRC)作为评估本实施例所述的方法性能的指标(指标越大，表示模型预测越准确)。其中AUROC和AUPRC与预测概率转换成二元预测结果所用的阈值无关，故反映了本实施例所述的方法的总体性能。对于其他与阈值相关的指标，我们通过最大化每个模型的F1值得到对应的最佳阈值，从而计算相应指标。

下面具体介绍三组实验结果，以证明本实施例的优势：

(1)模型消融实验

为了证明本实施例所使用的初始残差连接和恒等映射的作用，以及使用深层图卷积神经网络的优势，我们进行了如图2所示的模型消融实验。由此可见，仅使用初始残差和恒等映射，都只能部分减缓过平滑效应；然而当初始残差和恒等映射同时使用时(即本发明)，本实施例深层图卷积神经网络的性能会随着网络的加深而提升，并在8层时达到最好的性能，且继续加深网络并不会导致性能下降。

(2)与现有其他方法的对比

将本实施例所述的方法与四种基于序列的方法(PSIVER、SCRIBER、DLPred 和DELPHI)以及两种基于结构的方法(DeepPPISP和SPPIDER)进行比较。此外，还使用相同的节点特征搭建了一个两层的双向长短期记忆(LSTM)模型用以控制变量，评估空间信息和深层图卷积神经网络的作用。

如表1所示，本发明在测试集上AUPRC达到0.429，相比四种基于序列的方法(AUPRC0.190到0.319)性能提升很大。基于结构的方法DeepPPISP性能较差，这是因为它在氨基酸表征上没有使用RSA这个重要特征。另一方面， SPPIDER简单地考虑了空间邻居的信息，这使得它的性能达到仅此于本发明的水平，并且略高于LSTM。然而，通过利用深层图网络架构充分提取空间信息，本发明在AUPRC和MCC指标上分别超越LSTM 18.2％和21.5％；并超越SPPIDER 15.0％和16.8％。

表1.与其他方法的性能对比。DeepPPISP的结果通过使用它的源代码来重新训练得到；PSIVER和 SPPIDER的预测结果由它们的网络服务器生成；星号(*)标记的方法的预测结果从https://delphi.csd.uwo.ca/ 处获取。

(3)假阳性位点的空间分布

为了进一步阐明空间信息和深层图卷积对于预测PPI位点的作用，我们选取了一个具体的例子(人类鸟嘌呤核苷酸交换因子，PDB ID：1R8S_E)来测试对比本发明(A)与LSTM(B)的预测结果，结果如图3所示，其中假阴性、真阳性和假阳性分别显示为浅灰色、深灰色和黑色。在这个例子中，一共有187个氨基酸，其中40个是蛋白结合位点。本发明预测了47个结合位点，其中32个为真阳性，MCC为0.660。相比之下，LSTM预测了52个结合位点，其中仅25个为真阳性，MCC为0.404，且其预测的假阳性数量比本发明方法多80％。

由图3可见，本发明预测的假阳性位点大部分都位于真实的PPI位点周围，而LSTM预测了很多空间上孤立散布且离真实PPI位点很远的假阳性位点。可见，由于空间信息的约束，本发明不仅预测准确率更高，且其错误预测的结合位点也会更靠近真实位点，也就更有可能是潜在的蛋白结合位点。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法，其特征在于：所述的方法包括步骤如下：

2.根据权利要求1所述的基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法，其特征在于：步骤S1，通过提取进化信息和结构信息这两组氨基酸特征作为蛋白质的节点特征；

3.根据权利要求2所述的基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法，其特征在于：在位置特异性打分矩阵或隐马尔可夫模型特征中，每个氨基酸被编码成一个20维的向量，并利用最大-最小值归一化将特征向量中的值归一化至0-1之间；其中，最大-最小值归一化的表达式如下：

4.根据权利要求2所述的基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法，其特征在于：所述的结构信息包括以下的蛋白质结构特征：

b)肽骨架扭转角的正弦值和余弦值；

最终，每个氨基酸生成14维的结构特征。

5.根据权利要求1所述的基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法，其特征在于：步骤S1，所述的邻接矩阵的构建具体如下：

6.根据权利要求1～5任一项所述的基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法，其特征在于：步骤S2，所述的基于初始残差和恒等映射的深层图卷积的表达式如下：

H^(l+1)＝σ(((1-α)PH^(l)+αH⁽⁰⁾)((1-β_l)I_n+β_lW^(l)))

式中，σ表示线性整流函数；H^(l)表示经过第l+1层卷积层之前的节点隐含状态；H^(l+1)表示经过第l+1层卷积层之后的节点隐含状态；W^(l)表示可训练的权重矩阵；α和β_l为超参数；P表示归一化后的邻接矩阵。

7.根据权利要求6所述的基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法，其特征在于：所述的多层感知机预测每一个氨基酸的蛋白相互作用概率如下：

Y′＝Softmax(H^(L)W+b)

8.根据权利要求7所述的基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法，其特征在于：对训练数据采用五折交叉验证方法，即训练数据被随机划分为五折，每次使用其中的四折训练深层图卷积神经网络，并利用最后一折评估深层图卷积神经网络的性能；

9.根据权利要求8所述的基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法，其特征在于：设置

其中λ为超参数。

10.根据权利要求9所述的基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法，其特征在于：采用8层的图卷积神经网络，网络隐含单元维度为256；α设置为0.7；λ设置为1.5；将蛋白距离图转换成离散邻接矩阵的距离阈值设置为