CN115588463A

CN115588463A - 基于深度学习挖掘蛋白质相互作用类型的预测方法

Info

Publication number: CN115588463A
Application number: CN202211320402.0A
Authority: CN
Inventors: 黄剑平; 方杨越
Original assignee: Hangzhou Normal University
Current assignee: Hangzhou Normal University
Priority date: 2022-10-26
Filing date: 2022-10-26
Publication date: 2023-01-10

Abstract

本发明涉及基于深度学习挖掘蛋白质相互作用类型的预测方法。本发明通过构建蛋白质相互作用类型预测模型SE3NET‑PPI，仅需要蛋白质序列信息即可完成端到端的训练，将蛋白质3D结构信息转化成SE(3)不变矩阵图并使用卷积神经网络CNN和金字塔池化技术SPP对结构特征进行提取；根据所述蛋白质相互作用数据库中的蛋白质对构建蛋白质相互作用网络，然后将蛋白质序列经过预训练模型嵌入层得到蛋白质节点特征以及前述的蛋白质相互作用网络输入到同构图神经网络GIN提取蛋白质网络的拓扑信息结构。将上述特征经特征融合后输入到MLP中，输出蛋白质对对应的作用类别的预测结果；融合了蛋白质的序列信息、结构信息以及PPI网络的拓扑信息来预测蛋白质相互作用类型，提高了预测准确率。

Description

基于深度学习挖掘蛋白质相互作用类型的预测方法

技术领域

本发明属于计算机辅助药物设计技术领域，涉及一种基于深度学习挖掘蛋白质相互作用类型的预测方法。

背景技术

作为细胞中常见的分子之一，蛋白质在生物体内各种生物过程的调节中起到至关重要的作用。生物细胞的活性由相互作用的蛋白质通过代谢途径和非复合物来控制，蛋白质-蛋白质相互作用(PPI)网络和转录调节网络对于调节细胞及其信号起非常重要的作用。此外，从实用角度来看，PPI的监测和研究能够为具有医学适用性的诊断和治疗靶点提供有趣和重要的候选者，从而促进新药的设计。因此，预测PPI是系统生物学的一个基础研究课题，近年来受到了越来越多的关注。

预测PPI的方法大致有两种，基于实验的方法和基于计算的方法。然而，基于实验室的方法通常存在耗时和劳动密集的缺点，所获得的结果通常不可靠，且具有很大的不确定性。此外，由于近年来高通量技术的发展，产生了大量蛋白质组学数据，迫切需要从累积的PPI数据中学习可靠的计算方法来准确预测未知的PPI。基于计算方法地发展大概分为两个阶段。早期研究基于机器学习(ML)，这些方法提供了可行的解决方案，但其性能受到PPI特征表示和模型表达能力的限制。随着深度学习在计算机视觉和自然语言处理领域取得了巨大成功，深度学习(DL)作为一种可以自动学习具有多个抽象层次的数据表示且无需先验知识的强大工具收到了广泛的关注。最近深入学习在预测PPI中的应用已经引起了详细讨论，许多研究表明，深度学习已然成为作为预测PPI的强大工具，从而带来科学发现和实用解决方案。例如在Chen等人的工作，其提出了一个仅用蛋白质序列信息的端到端框架PIPR，其采用孪生架构，使用带残差连接深度双向递归卷积神经网络，在三个蛋白质预测问题上①蛋白质分类类别问题，②蛋白质二分类分体，③蛋白质亲和度问题取得了不错的成绩，但该模型并未融合蛋白质的结构信息以及网络拓扑信息。基于此，本发明设计一个基于深度学习的SE3NET-PPI模型，通过融合PPI网络的拓扑结构和蛋白质结构特征以提升模型预测蛋白质相互作用类型的准确性。

发明内容

本发明的目的就是针对现有蛋白质相互作用类型预测方法的评估框架不合理、准确率低的缺点，提出一种基于深度学习、融合蛋白质结构信息和蛋白质相互作用网络拓扑信息，能提高蛋白质之间相互作用类型预测的准确率的方法。

本发明具体包括如下步骤：

步骤一、构建数据集，具体为：

首先，获取现有公开数据库中蛋白质序列信息以及对应的蛋白质结构信息，筛选出蛋白质序列长度为2700以下的蛋白质构成蛋白质序列结构数据库。

然后，根据蛋白质序列结构数据库中蛋白质编号在Uniport网站中匹配蛋白质相互作用数据库STRING的STRING ID，根据STRING ID在STRING数据库收集对应的蛋白质相互作用对以及该相互作用对的对应的作用类型，构建蛋白质相互作用数据库。

最后，从蛋白质相互作用数据库中随机选择3000个、9000个以及使用该数据库全部蛋白质生成3个数据量不一的数据集String_3000、String_9000和String_all；

并将所述3个数据集进行同源性聚类，设置为小于等于40％。

步骤二、构建蛋白质相互作用网络，并划分测试集和训练集：

根据数据集String_3000、String_9000和String_all中的所有蛋白质相互作用对构建蛋白质相互作用网络；然后使用随机游走Random、深度优先算法DFS以及广度优先算法BFS将三个数据集划分为训练集和测试集，其中训练集占该数据集的80％，剩下20％为测试集。完成上述操作后，将有九个数据集(三个数据集以三种划分方式划分，分别为String_3000-BFS、String_3000-DFS、String_3000-Random、String_9000-BFS、String_9000-DFS、String_9000-Random、String_all-BFS、String_all-DFS以及String_all-Random)。

步骤三：构建蛋白质相互作用类型预测模型SE3NET-PPI，并对模型进行训练；

蛋白质相互作用类型预测模型SE3NET-PPI包括结构模块、蛋白质网络模块和预测模块；

结构模块采用孪生架构，即由两个结构相同，且权重共享的神经网络拼接而成。

在结构模块中，将蛋白质信息结构数据库中的蛋白质结构信息转化为SE(3)不变矩阵图，然后将SE(3)不变矩阵图输入到卷积神经网络CNN中并得到卷积后的特征向量；将卷积后的特征向量经金字塔池化层SPP进行平均池化操作，得到池化后的特征向量；最后，将所有经过池化操作后的特征向拼接在一起得到蛋白质结构特征向量，并使用多层感知机(MLP)将蛋白质结构特征向量转化为特定长度的特征向量。

具体为：从蛋白质结构文件中获取每个氨基酸残基的C_α原子坐标并表示为C∈R^L ^×3，其中L为蛋白质序列长度，c_i是第i个残基的C_α原子的三维坐标，并通过||c_i-c_j||₂公式计算其之间的欧式距离来构建SE(3)不变矩阵图D∈R^L×L；将SE(3)不变矩阵图D∈R^L×L输入到CNN中并得到卷积后的特征向量D_conv；使用三个不同大小的池化窗口

对卷积后的特征向量D_conv进行不同视野上的特征进行平均池化操作得到池化后的特征向量

最后将所有经过池化操作后的特征向量

拼接在一起即

将F_spp输入到多层感知机MLP得到S∈R²⁵⁶。

基于孪生架构，输入一对蛋白质结构信息文件，经过上述步骤后，得到一对蛋白质结构特征S_i∈R²⁵⁶、S_j∈R²⁵⁶。

在蛋白质网络模块中，使用ProtT5蛋白质预训练模型将蛋白质序列信息转化为对应的蛋白质序列特征向量；通过蛋白质序列特征向量得到蛋白质相互作用网络的蛋白质节点特征，将蛋白质相互作用网络的蛋白质节点特征和蛋白质相互作用网络的相互作用关系特征(边特征)输入同构图神经网络GIN层；蛋白质相互作用网络的相互作用关系特征(边特征)通过蛋白质相互作用网络获得。

具体为：将某一蛋白质的节点特征与其度值为1的邻居蛋白质的节点特征进行求和操作，即

使用MLP来更新当前蛋白质节点，即

输入节点特征和边特征得到数据集中所有蛋白质的网络拓扑信息特征G，然后筛选出预测的蛋白质对特征G_i∈R²⁵⁶、G_j∈R²⁵⁶。

在预测模块中，采用特征融合将结构模块输出的一对蛋白质结构特征和蛋白质网络模块输出的蛋白质对特征拼接起来得到特征融合向量，将特征融合向量输入到MLP中，输出是一个1*7维的0，1矩阵，表示蛋白质对其对应的作用类别的预测；

具体为：采用特征融合将结构模块输出的一对蛋白质结构特征S_i∈R²⁵⁶以及S_j∈R²⁵⁶和蛋白质网络模块输出的蛋白质对特征G_i∈R²⁵⁶以及G_j∈R²⁵⁶拼接起来得到一对信息丰富的潜在向量分别表示为F_i∈R⁵¹²，F_j∈R⁵¹²,即F_i＝[S_i；G_i]，F_j＝[S_j；G_j],然后通过以下公式来计算蛋白质对的特征信息F_ij：

mul_i,j＝F_C⊙F_j；F_ij＝[diff_i,j,mul_i,j]；

其中，

代表对每个元素进行差值计算，diff_i,j代表差值计算的结果；⊙代表阿达玛积，mul_i,j代表阿达玛积计算的结果。

将特征融合向量F_ij输入到一层MLP层中，输出是一个1*7维的0，1矩阵，表示蛋白质对其对应的作用类别的预测，即y_ij＝MLP(F_ij)。

使用训练集中数据对SE3NET-PPI模型进行训练，得到蛋白质相互作用类型预测模型SE3NET-PPI，对未知相互作用关系类型进行预测。

本方法对比现有的方法，通过构建蛋白质相互作用类型预测模型SE3NET-PPI，仅需要蛋白质序列信息即可完成端到端的训练，将蛋白质3D结构信息转化成SE(3)不变矩阵图并使用卷积神经网络CNN和金字塔池化技术SPP对结构特征进行提取；根据所述蛋白质相互作用数据库中的蛋白质对构建蛋白质相互作用网络，然后将蛋白质序列经过预训练模型嵌入层得到蛋白质节点特征以及前述的蛋白质相互作用网络输入到同构图神经网络GIN提取蛋白质网络的拓扑信息结构。将上述特征经特征融合后输入到MLP中，输出蛋白质对对应的作用类别的预测结果；融合了蛋白质的序列信息、结构信息以及PPI网络的拓扑信息来预测蛋白质相互作用类型，提高了预测准确率。

附图说明

图1为本发明的流程图；

图2为蛋白质相互作用类型预测模型的结构图。

具体实施方式

下面结合附图及具体实施例，进一步阐述本发明。应理解，实施例仅用于说明本发明而不用于限制本发明的范围。

如图1所示，一种基于深度学习挖掘蛋白质相互作用类型的预测方法，具体包括如下步骤：

步骤一、构建数据集，具体为：

首先，获取蛋白质的结构文件(其中包含蛋白质序列信息以及蛋白质结构信息)，构建蛋白质序列结构数据库；

本实施例中通过检索Uniport网站中所有的人类子集蛋白质并下载对应蛋白质的序列信息，将前述的序列信息输入到AlphaFold2模型中获得人类子集的所有蛋白质结构文件，然后筛选出蛋白质序列长度为2700以下的蛋白质构成蛋白质序列结构数据库；

然后，根据蛋白质序列结构数据库中蛋白质编号(Uniport ID)在Uniport网站中匹配蛋白质相互作用数据库STRING的STRING ID，根据STRING ID在STRING数据库收集对应的蛋白质相互作用对以及该相互作用对的对应的作用类型，构建蛋白质相互作用数据库。

最后，从蛋白质相互作用数据库中随机选择3000个、9000个以及使用该数据库全部蛋白质生成3个数据量不一的数据集String_3000、String_9000和String_all，并将所述3个数据集进行同源性聚类(消除蛋白质序列的一部分相似性)，设置为小于等于40％。

通过以上步骤获得蛋白质序列结构数据库和模型训练评估用的三个数据集(该数据集中包含了数量不同的蛋白质相互作用对以及该相互作用对的对应作用类型)。

步骤二、将步骤一得到三个数据集String_3000、String_9000以及String_all分别按照深度优先搜索算法BFS、广度优先搜索算法DFS和随机划分算法Random三种划分方式来划分成9个数据集用于后续模型效果的科学评估；

9个数据集中，每个数据集用80％的蛋白质相互作用对进行训练，剩余20％用于测试。训练集的每一个样本都是由一个对蛋白质相互作用对组成，对于每一个蛋白质相互作用对，有7种类别的标签，分别对应7种蛋白质相互作用类型(反应、结合、翻译后修饰、激活、抑制、催化和表达)，如果这对蛋白有相应类型的相互作用则标记为1，否则标记为0，值得注意的是一对蛋白质可能有多个相互作用类型。测试集则是一个对蛋白质相互作用对组成，它们的相互作用关系类型是未知的。

步骤三、构建如图2所示的蛋白质相互作用类型预测模型SE3NET-PPI，并对模型进行训练；具体步骤如下：

(1)蛋白质结构特征提取：将蛋白质序列经过AlphaFold2预测输出的3D结构信息；3D结构信息转化成SE(3)不变矩阵图并使用卷积神经网络CNN和金字塔池化技术SPP对结构特征进行提取。

(2)蛋白质相互作用网络拓扑信息特征提取：根据所述蛋白质相互作用数据库中的蛋白质对构建蛋白质相互作用网络，然后将蛋白质序列经过预训练模型嵌入层得到蛋白质节点特征以及前述的蛋白质相互作用网络输入到同构图神经网络GIN提取蛋白质网络的拓扑信息结构。

(3)特征融合：通过将结构模块输出的一对蛋白质结构特征S_i∈R²⁵⁶以及S_j∈R²⁵⁶和蛋白质网络模块输出的一对蛋白质特征G_i∈R²⁵⁶以及G_j∈R²⁵⁶拼接起来得到一对信息丰富的潜在向量分别表示为F_i∈R⁵¹²，F_j∈R⁵¹²,即F_i＝[S_i；G_i]，F_j＝[S_j；G_j],然后通过以下公式来计算蛋白质对的特征信息F_ij。

mul_i,j＝F_C⊙F_j

F_ij＝[diff_i,j,mul_i,j]

其中，

所述预测层用于给出相互作用类型的预测结果；具体为将前述的特征融合向量F_ij输入到一层MLP层中，输出是一个1*7维的0，1矩阵，表示蛋白质对其对应的作用类别的预测，即y_ij＝MLP(F_ij)。

使用训练集中数据对SE3NET-PPI模型进行训练，训练参数如下：Learning rate:0.001、Optimizer:AdamW、Batch_size:256、Dropout0.5。

对于给定一个训练集X_train及其蛋白质相互作用类型Y_train，使用多任务二进制交叉熵作为损失函数进行训练：

损失函数：

其中，

表示真实的蛋白质相互作用类型；

表示模型预测出来的蛋白质相互作用类型；n表示参与训练的蛋白质对的个数。

步骤四：利用不同的测试集对已训练好的蛋白质相互作用类型预测模型SE3NET-PPI进行预测，获取模型在不同测试集的测试效果并给出评价。

本发明扩展了AlphaFold2的工作，引入SE(3)不变矩阵图以及金字塔池化层技术来提取蛋白质的结构信息用于预测蛋白；融合蛋白质的结构和蛋白质之间的相互作用网络信息来提升蛋白质相互作用类型预测模型的预测准确率。

Claims

1.基于深度学习预测蛋白质相互作用类型的方法，其特征在于：具体包括如下步骤：

步骤一、构建数据集，具体为：

首先，获取现有公开数据库中蛋白质序列信息以及对应的蛋白质结构信息，筛选出蛋白质序列长度为2700以下的蛋白质构成蛋白质序列结构数据库；

然后，根据蛋白质序列结构数据库中蛋白质编号在Uniport网站中匹配蛋白质相互作用数据库STRING的STRING ID，根据STRING ID在STRING数据库收集对应的蛋白质相互作用对以及该相互作用对的对应的作用类型，构建蛋白质相互作用数据库；

根据步骤一数据集String_3000、String_9000和String_all中所有蛋白质相互作用对构建蛋白质相互作用网络；使用随机游走Random、深度优先算法DFS以及广度优先算法BFS将数据集String_3000、String_9000和String_all演变为九个数据集，分别为String_3000-BFS、String_3000-DFS、String_3000-Random、String_9000-BFS、String_9000-DFS、String_9000-Random、String_all-BFS、String_all-DFS以及String_all-Random；并将所有数据集中数据划分为训练集和测试集；

步骤三、构建蛋白质相互作用类型预测模型SE3NET-PPI，并对模型进行训练；

结构模块采用孪生架构，即由两个结构相同，且权重共享的神经网络拼接而成；

在结构模块中，将蛋白质信息结构数据库中的蛋白质结构信息转化为SE(3)不变矩阵图，然后将SE(3)不变矩阵图输入到卷积神经网络CNN中并得到卷积后的特征向量；将卷积后的特征向量经金字塔池化层SPP进行平均池化操作，得到池化后的特征向量；最后，将所有经过池化操作后的特征向拼接在一起得到蛋白质结构特征向量，并使用多层感知机MLP将蛋白质结构特征向量转化为特定长度的特征向量；

基于孪生架构，输入一对蛋白质结构信息文件，经过上述步骤后，得到一对蛋白质结构特征向量；

在蛋白质网络模块中，使用ProtT5蛋白质预训练模型将蛋白质序列信息转化为对应的蛋白质序列特征向量；通过蛋白质序列特征向量得到蛋白质相互作用网络的蛋白质节点特征，将蛋白质相互作用网络的蛋白质节点特征和蛋白质相互作用网络的相互作用关系特征输入同构图神经网络GIN层；蛋白质相互作用网络的相互作用关系特征通过蛋白质相互作用网络获得；

2.如权利要求1所述的基于深度学习预测蛋白质相互作用类型的方法，其特征在于：步骤一所述3个数据集同源性聚类小于等于40％。

3.如权利要求1所述的基于深度学习预测蛋白质相互作用类型的方法，其特征在于：

在结构模块中，从蛋白质结构文件中获取每个氨基酸残基的C_α原子坐标并表示为C∈R^L ^×3，其中L为蛋白质序列长度，c_i是第i个残基的C_α原子的三维坐标，并通过||c_i-c_j||₂公式计算其之间的欧式距离来构建SE(3)不变矩阵图D∈R^L×L；将SE(3)不变矩阵图D∈R^L×L输入到CNN中并得到卷积后的特征向量D_conv；使用三个不同大小的池化窗口

最后将所有经过池化操作后的特征向量

拼接在一起即

将F_spp输入到多层感知机MLP得到S∈R²⁵⁶；

基于孪生架构，输入一对蛋白质结构信息文件，经过上述步骤后，得到一对蛋白质结构特征S_i∈R²⁵⁶以及S_j∈R²⁵⁶。

4.如权利要求1所述的基于深度学习预测蛋白质相互作用类型的方法，其特征在于：

在蛋白质网络模块中，将某一蛋白质的节点特征与其度值为1的邻居蛋白质的节点特征进行求和操作，即

使用MLP来更新当前蛋白质节点，即

输入节点特征和边特征得到数据集中所有蛋白质的网络拓扑信息特征G，然后筛选出预测的蛋白质对特征G_j∈R²⁵⁶、G_j∈R²⁵⁶。

5.如权利要求1所述的基于深度学习预测蛋白质相互作用类型的方法，其特征在于：

在预测模块中，采用特征融合将结构模块输出的一对蛋白质结构特征S_i∈R²⁵⁶以及S_j∈R²⁵⁶和蛋白质网络模块输出的蛋白质对特征G_i∈R²⁵⁶以及G_j∈R²⁵⁶拼接起来得到一对信息丰富的潜在向量分别表示为F_i∈R⁵¹²，F_j∈R⁵¹²,即F_i＝[S_i；G_i]，F_j＝[S_j；G_j],然后通过以下公式来计算蛋白质对的特征信息

其中，

代表对每个元素进行差值计算，diff_i,j代表差值计算的结果；⊙代表阿达玛积，mul_i,j代表阿达玛积计算的结果；

将特征融合向量F_ij输入到MLP中，输出是一个1*7维的0，1矩阵，表示蛋白质对其对应的作用类别的预测。