CN113611360A

CN113611360A - 一种基于深度学习和XGBoost的蛋白质-蛋白质相互作用位点预测方法

Info

Publication number: CN113611360A
Application number: CN202110921719.9A
Authority: CN
Inventors: 黄国华; 王攀; 张桂阳
Original assignee: Shaoyang University
Current assignee: Shaoyang University
Priority date: 2021-08-11
Filing date: 2021-08-11
Publication date: 2021-11-05

Abstract

本发明公开了一种基于深度学习和XGBoost的蛋白质‑蛋白质相互作用位点预测方法，包括步骤：根据蛋白质的序列信息、进化信息和结构信息编码得到蛋白质的局部特征和全局特征，对深度学习模型DeepPPISP超参数进行微调，微调后训练DeepPPISP模型训练后的模型充当特征提取器，将特征提取器的最后第三层的输出视为蛋白质的预处理特征向量。XGBoost模型作为最终的分类器，将特征提取器得到的预处理特征向量的训练数据输入到XGBoost模型进行10折交叉验证来对XGBoost模型的超参数进行微调，再对微调后的XGBoost模型进行训练，最后利用训练后XGBoost模型来预测未知蛋白质的作用位点。本发明充分利用蛋白质的序列信息、进化信息和结构信息编码后的局部特征和全局特征来提升预测蛋白质‑蛋白质相互作用位点的预测效果。

Description

一种基于深度学习和XGBoost的蛋白质-蛋白质相互作用位点预测方法

技术领域

本发明涉及计算生物信息学领域，特别是涉及一种基于深度学习和XGBoost的蛋白质-蛋白质相互作用位点预测方法。

背景技术

蛋白质是机体内的一种重要的物质，蛋白质对机体的细胞功能、疾病、代谢等具有重要的调控作用，机体内蛋白质的功能主要通过蛋白质和蛋白质的相互作用来实现，对蛋白质相互作用的认识有助于理解细胞机制，蛋白质-蛋白质相互作用通常是根据蛋白质-蛋白质相互作用的位点来确定，由于现有技术的限制，蛋白质-蛋白质相互作用位点的检测仍然是一项具有挑战性的任务。

通过生物实验研究方法来鉴定蛋白质相互作用位点存在费用相对比较昂贵和时间周期长等缺点，自从Jones和Thornton在1997年开创了预测和分析蛋白质-蛋白质相互作用位点的计算方法以来，目前计算的方法来预测蛋白质-蛋白质相互作用位点的方法超过30种；2005年Bradford等人提出了一种基于支持向量机的方法，取得了不错的预测结果；2007年Li等人提出了一种基于条件随机场(CRFs)的蛋白质相互作用位点预测的方法，实验结果表明，基于条件随机场(CRFs)的方法是一种强大而稳健的蛋白质相互作用位点预测方法，可用于指导生物学家对蛋白质进行特异性实验；2010年Murakami等人提出了一种使用朴素贝叶斯分类器来训练序列特征，并且使用核密度估计方法估计每个序列特征的条件概率，通过留一法交差验证取得了30.6%的预测准确率；2014年Singh等人提出了一种神经网络的方法，在蛋白质-蛋白质相互作用的研究和应用取得了良好的性能。

这些机器学习的计算方法根据特征来源划分可以分为三类：基于序列的特征、基于结构特征和序列特征和结构特征结合的特征，基于序列的特征计算成本较低，但不包含蛋白质的结构信息；由于大多数蛋白质的结构都是未知的，蛋白质的结构信息一般都是通过计算预测的方法获得的，因此含有噪声，有时会严重影响后续的识别；在预测蛋白质相互作用位点时，相互作用位点的邻域信息对确定蛋白质相互作用位点具有重要意义；Zeng等人证明了包含全局特征可以提高预测蛋白-蛋白相互作用位点的性能；但是在将蛋白质序列的结构信息编码的过程中，会丢失一些信息，此外局部和全局特征也包含噪声；基于深度学习的编码器很好地解决了上述两个问题，受此启发，本发明提出了一种基于深度学习和极限梯度提升树（XGBoost）相结合的方法(称为DeepPPISP-XGB)，先使用Zeng等人提出的DeepPPISP深度学习模型和数据集来预训练，再使用XGBoost模型来预测未知的蛋白质-蛋白质相互作用位点。

发明内容

本发明主要从深度学习的算法方面作为出发点，针对现有方法预测效果存在的不足，提供了一个基于深度学习和XGBoost相结合的蛋白质-蛋白质相互作用位点预测的方法，使用深度学习模型作为氨基酸序列的特征提取器，因为深度学习算法有强大的能力来表示对象，我们使用训练数据集来训练DeepPPISP模型，使用DeepPPISP中最后第三层的输出作为输入表示；通过验证数据集对XGBoost模型进行了优化和训练；对于未知的蛋白序列，使用训练过的XGBoost模型预测蛋白质-蛋白质相互作用位点。

为了解决上述问题，本发明提出了一个基于深度学习和XGBoost的蛋白质-蛋白质相互作用位点预测的方法，具体步骤如下。

步骤1：利用蛋白质的序列信息、进化信息和结构信息编码得到局部特征和全局特征。

步骤2：将深度学习模型DeepPPISP视为特征提取器，将特征提取器最后第三层输出的蛋白质预处理特征向量，从而得到所有样本的最终特征。

步骤3：构建极限梯度提升树（XGBoost）模型并利用步骤2得到的训练数据通过10折交叉验证对模型的超参数进行微调，再对微调后的XGBoost模型进行训练。

步骤4：利用训练后的XGBoost模型预测未知蛋白质的相互作用位点。

步骤1，利用蛋白质的序列信息、进化信息和结构信息编码得到局部特征和全局特征。

其中局部特征采用滑动窗口大小为2*m+1的窗口的方法进行提取，滑动窗口的原理如附图2所示，即一个窗口内包含2*m+1个残基，中心位置残基的上下游各有m个残基来表示其领域信息，若窗口内残基数目少于2*m+1，则在首端或末端用相应数量的0填充；残基的局部特征编码为（2*m+1）×49维的特征向量。

其中全局特征需要统一每条蛋白质序列中残基的个数为n个，若残基数少于n，则用相应数量的0填充；若多余n，则剪除掉；残基的全局特征编码为n*49维的特征向量。

进一步地，在全局特征和局部特征进行特征编码中，每个残基将由20维One-hot编码的序列特征向量、20维的位置特异性打分矩阵(PSSM)特征向量以及9维二级结构特征（DSSP）的特征向量表示。

步骤2，将深度学习模型DeepPPISP视为特征提取器，将特征提取器最后第三层输出的蛋白质预处理特征向量。

首先构建深度学习模型DeepPPISP；构建的模型主要有1个嵌入层，3个不同尺度的卷积层，2个完全连接层，2个RELU层，2个扁平化层和1个输出层：

（1）嵌入层由一层全连接层构成，其目的是为了将稀疏向量转为密集向量；

（2）卷积神经网络是深度学习领域局部特征提取的常用方法，核心思想是捕捉局部特征，本发明采用文本卷积神经网络，对于一个n*k的文本序列，n代表文本序列的长度，k代表embedding的维度，每个卷积核的宽度和embedding的维度保持一致，整个卷积核只在矩阵的长度维度上进行滑动；通过卷积核卷积之后得到的特征图，从而获得不同抽象层次的语义信息；

（3）RELU层引入的非线性因素，缓解了过拟合的发生，在输入大于0时才激活一个节点，当输入小于0时，输出为零，当输入大于0时，输出等于输入，假设Z_i,j,k表示第K个通道第（i,j）位置激活函数的输入，那么输出表示为：a_i,j,k=max(Z_i,j,k,0)；

（4）扁平化层常用在从卷积层到全连接层的过渡，其作用是能够把多维的输入转为一维的输出；

（5）全连接层中的每个神经元都连接到前一层中的神经元，其作用是将训练得到的特征进行整合，降低特征的维度，方便分类模型进行分类；

（6）输出层含有sigmoid函数，将全连接层输出的一维特征映射在0-1之间，假设全连接层的输出为x，则输出层的输出表示为

。

进一步地利用微调后深度学习模型DeepPPISP再进行训练，将训练后的深度学习模型DeepPPISP视为特征提取器，并且得到特征提取器最后第三层的蛋白质预处理特征向量。

步骤3，构建极限梯度提升树（XGBoost）模型并利用步骤2得到的训练数据预处理特征向量通过10折交叉验证对模型的超参数进行微调，再对微调后的XGBoost模型进行训练。

首先构建XGBoost模型；XGBoost是一种基于决策树的梯度提升算法，而且采用并行和分布式的计算机制，能够有效的提升算法的运算速度，广泛运用于机器学习、数据挖掘和文本分类等领域；学习的目标函数可以表示为

，

表示损失函数，通常定义为

，

表示为正则化项。

进一步地将特征提取器最后第三层的预处理特征向量的训练数据输入到XGBoost模型进行10倍交叉验证，即将训练数据分成10份，每次取其中的9份用于训练，剩余的1份用于验证，重复十次并计算平均性能，以此来优化模型的超参数。

利用训练数据对优化后的XGBoost模型进行训练。

步骤4，利用训练后的模型预测未知蛋白质的相互作用位点。

需要说明的是。

针对不同的蛋白质数据集，深度学习的模型参数的设定往往有很大不同，需要通过实验确定最佳的参数。

本发明的有益结果如下。

（1）本发明将局部特征和全局特征相结合，同时利用蛋白质的序列信息、进化信息和结构信息编码，使得深度模型能够获取更多有用的信息进行学习。

（2）本发明利用深度学习模型DeepPPISP作为特征提取器，有效的去除了数据的噪声信息，提高了预测的效果。

本发明的构思为：利用蛋白质的序列信息、进化信息和结构信息编码得到蛋白质的局部特征和全局特征，再输入到深度学习模型DeepPPISP进行特征提取，因为深度学习算法有强大的能力来表示对象，我们使用训练数据集来训练DeepPPISP模型，并使用验证集来微调超参数，使用DeepPPISP中最后第三层的输出作为输入表示，通过训练数据对XGBoost模型进行优化和训练，能够快速有效的预测未知的蛋白质-蛋白质相互作用位点。

附图说明

图1是本发明方法的流程图。

图2是滑动窗口的方法提取局部特征的邻域信息图。

图3是深度学习模型DeepPPISP网络结构图。

图4是XGBoost模型与其他分类模型比较的ROC曲线图。

图5是XGBoost模型与其他分类模型比较的PR曲线图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步说明。

本专利实现流程如附图1所示，主要分别三个阶段：训练深度学习模型提取特征、训练XGBoost模型和预测蛋白质-蛋白质相互作用位点，步骤如下。

将深度学习模型DeepPPISP视为特征提取器，将特征提取器最后第三层输出的蛋白质预处理特征向量，DeepPPISP模型的结构如附图3所示。

其中嵌入层由一个全连接层构成，其目的是为了将稀疏向量转为密集向量，从而充分的利用one-hot编码的蛋白质序列信息，输入和输出维度为（20*500，20*500），使用RELU函数作为激活函数。

其中多尺度文本卷积神经网络采用三个不同尺度二维卷积并行构建，卷积核大小分别为（13，49）、（15，49）和（17，49），滤波器都为228个，都使用RELU函数作为激活函数，池化层采用核的大小为（500，1）最大池化。

其中全连接层一共两层，上一个全连接层的输出作为下一个全连接层的输入，两个全连接层的输入和输出维度依次为（1027，1024）和（1024，256），都使用RELU函数作为激活函数。

其中输出层包括一个全连接层和激活函数，全连接层的输入和输出维度为（256，1），使用sigmoid函数作为激活函数。

特征提取器最后第三层输出的蛋白质预处理特征向量，即得到训练后深度模型的全连接层上一层的输出。

将特征提取器得到的训练数据平均分成10份，其中9份用于训练，剩余的1份用于测试，重复10次进行交叉验证，通过验证最终设置XGBoost模型迭代器数量为393、学习率为0.07和树的最大深度为5，此时能够达到最优的验证结果，再利用训练数据对优化后XGBoost模型进行训练。

最终将训练后的XGBoost模型用于预测未知蛋白质的相互作用位点。

本实施例的数据集是将分辨率小于3.0 Å和同源性小于25%的Dset_186、Dset_72、Dset_164三个基准数据集中没有定义蛋白质二级结构(DSSP)文件的两个蛋白质序列去除，得到的420条分为两个部分83.3%的用作训练样本，16.7%用作测试样本，再将训练样本的90%用于训练，剩余的10%用于验证，最终得到300条蛋白质序列（包含65869个残基）用于训练，50条蛋白质序列（包含7319个残基）用于验证，70条蛋白质序列（包含11791个残基）用于测试。

和其他方法一样，使用准确率（ACC）、精确度（Precision）、召回率（Recall）、F1值、接受者操作曲线下的面积（AUROC）、精确度-召回率曲线下的面积（AUPRC）和马修斯相关系数（MCC）作为本发明的评价指标，评价指标越高表示预测的效果越好。

下面通过三组实验验证本实施例的优势。

（1）与其他先进算法比较。

为了验证本实施例的算法优势，将本实施例的方法得到的结果分别与DeepPPISP、SCRIBER、IntPred等八种先进的算法比较，实验结果如下表所示（最好的结果以粗体突出显示），本实施例的方法得到的Recall、F1值、AUROC、AUPRC和MCC得分是所有方法里面最高，虽然ACC得分不如ISIS方法，但在其他方面的性能明显低于本实施例的方法；

。

（2）验证XGBoost模型的预测性能。

为了进一步验证DeepPPISP-XGB的预测性能，我们使用了决策树、随机森林（RF）、支持向量机（SVM）和极限随机数（ERT）四种传统机器学习分类算法进行蛋白质-蛋白质相互作用位点预测，这些模型在Scikit-Learn包(v0.24.2)中实现，该包在计算生物学中得到了广泛应用；如附图4和附图5所示，XGBoost模型的ROC和PRC独立测试的结果分别为0.681和0.339，显著优于其他4个分类模型。

（3）验证全局特征的重要性。

在去除全局特征后，我们训练了本实施例的模型。模型的参数与含有全局特征训练时的参数完全相同。下表显示了利用局部特征预测蛋白质-蛋白质相互作用位点的性能；除了ACC外结合了全局特征独立测试的评价指标均高于只有局部特征的结果，实验结果表明加入全局特征有利于改善蛋白质-蛋白质相互作用位点的预测；

。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于深度学习和XGBoost的蛋白质-蛋白质相互作用位点预测方法，步骤如下：

步骤1：利用蛋白质的序列信息、进化信息和结构信息编码得到局部特征和全局特征；

步骤2：将深度学习模型DeepPPISP视为特征提取器，将特征提取器最后第三层输出的蛋白质预处理特征向量，从而得到所有样本的最终特征；

步骤3：构建极限梯度提升树（XGBoost）模型并利用步骤2得到的训练数据通过10折交叉验证对模型的超参数进行微调，再对微调后的XGBoost模型进行训练；

2.根据权利要求项1所述一种基于深度学习和XGBoost的蛋白质-蛋白质相互作用位点预测方法，其特征在于：在所述的步骤1中包括以下内容：

局部特征采用滑动窗口大小为2*m+1的窗口的方法进行提取，滑动窗口的原理如附图2所示，一个窗口内包含2*m+1个残基，中心位置残基的上下游各有m个残基来表示其领域信息，若窗口内残基数目少于2*m+1，则在首端或末端用相应数量的0填充；残基的局部特征编码为（2*m+1）×49维的特征向量；全局特征需要统一每条蛋白质序列中残基的个数为n个，若残基数少于n，则用相应数量的0填充；若多余n，则剪除掉；残基的全局特征编码为n*49维的特征向量。

3.根据权利要求项2所述一种基于深度学习和XGBoost的蛋白质-蛋白质相互作用位点预测方法，其特征在于：在全局特征和局部特征进行特征编码中，每个残基将由20维One-hot编码的序列特征向量、20维的位置特异性打分矩阵(PSSM)特征向量以及9维二级结构特征（DSSP）的特征向量表示。

4.根据权利要求项1所述一种基于深度学习和XGBoost的蛋白质-蛋白质相互作用位点预测方法，其特征在于：在所述的步骤2中包括以下内容：

4.1 构建深度学习模型DeepPPISP，构建的模型主要有1个嵌入层，3个不同尺度的卷积层，2个完全连接层，2个RELU层，2个扁平化层和1个输出层：

4.2 微调深度学习模型DeepPPISP再进行训练，将训练后的深度学习模型DeepPPISP视为特征提取器，并且得到特征提取器最后第三层的蛋白质预处理特征向量。

5.根据权利要求项1所述一种基于深度学习和XGBoost的蛋白质-蛋白质相互作用位点预测方法，其特征在于：在所述的步骤3中包括以下内容：构建XGBoost模型，再利用训练数据对优化后的XGBoost模型进行训练。

6.根据权利要求项1所述一种基于深度学习和XGBoost的蛋白质-蛋白质相互作用位点预测方法，其特征在于：在所述的步骤4中包括以下内容：利用训练后的XGBoost模型预测未知蛋白质的相互作用位点。