CN111667884A

CN111667884A - 基于注意力机制使用蛋白质一级序列预测蛋白质相互作用的卷积神经网络模型

Info

Publication number: CN111667884A
Application number: CN202010535854.5A
Authority: CN
Inventors: 宫秀军; 马晓文
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-06-12
Filing date: 2020-06-12
Publication date: 2020-09-15
Anticipated expiration: 2040-06-12
Also published as: CN111667884B

Abstract

本发明公开一种基于注意力机制使用蛋白质一级序列预测蛋白质相互作用的卷积神经网络模型，为双层网络结构，每层网络依次包括嵌入层，卷积层，注意力层，全局平均池化层；预测时，将蛋白质的两条序列分别输入到一层网络的嵌入层，然后依次经过卷积层，注意力层，全局平均池化层处理，最后将两层网络所输出的特征向量合并为一条特征向量输入到全连接层，通过sigmoid完成蛋白质相互作用的分类，输出预测结果值。本发明用于对蛋白质相互作用进行预测，经验证预测效果好。

Description

基于注意力机制使用蛋白质一级序列预测蛋白质相互作用的卷积神经网络模型

技术领域

本发明涉及生物信息学和深度学习技术领域，特别是涉及一种基于注意力机制使用蛋白质一级序列预测蛋白质相互作用的卷积神经网络模型。

背景技术

目前，研究者已经利用机器学习方法研究蛋白质相互作用，经典机器学习算法，需要做复杂的特征工程，选择最佳特征，降低数据维度，并选择一个合适的机器学习算法才能发挥良好的性能。因此，机器学习更适用于较小的数据集。此外，由于机器学习对数据和底层算法有着深入的了解，对更改模型设计和调整参数也更简单。当前最先进的预测几乎都使用了基于机器学习的集成学习方法，该算法集成多个模型训练，形成一个强大的技术集，然后以某种策略结合做出总体预测，其预测结果精确度比单个模型精确度精确的多。

随着计算机硬件和深度学习的发展，以生物技术尤其是以生物质谱为核心的蛋白质组学大数据分析迎来了新的发展机遇。相对于传统机器学习方法，深度学习强调从海量数据中学习，不需要特征工程，直接将数据进行简单的处理就可以输入到网络，解决了海量数据存在高维，冗余以及高噪等传统机器学习算法难以处理的问题。此外，蛋白质组学往往存在着多维特征，包含数以万计的定量信息，常见的机器学习往往无法充分捕捉到数据中的丰富信息，深度学习经过多层神经网络，能够自动从网络中学习到隐藏的复杂的表示以及表示之间的关系，展现出强大的数据挖掘能力和数据分析能力，而且深度学习模型的预测准确率也明显高于传统的机器学习方法，为蛋白质相互作用的预测发挥出更大的作用

基于蛋白质一级序列，使用计算方法来预测蛋白质相互作用其效果在不断进步，但仍然存在以下问题：对于蛋白质的一级结构来说，如何建立起蛋白质序列中各个氨基酸之间长距离的依赖关系来更好的学习序列整体信息以及如何捕捉到对蛋白质相互作用具有较大作用的氨基酸是序列问题研究面临的挑战。

发明内容

本发明的目的是针对上述背景技术中所提出的问题，而提供一种基于注意力机制使用蛋白质一级序列预测蛋白质相互作用的卷积神经网络模型，利用深度学习模型，利用蛋白质一级序列进行蛋白质相互作用的预测。

为实现本发明的目的所采用的技术方案是：

一种基于注意力机制使用蛋白质一级序列预测蛋白质相互作用的卷积神经网络模型，其通过以下步骤获得：

构建蛋白质相互作用数据集；

构建基于注意力机制的卷积神经网络；

利用数据集对上述的卷积神经网络进行训练，并经参数调整以及评估，最终获得能对蛋白质相互作用进行预测的卷积神经网络模型；

上述的卷积神经网络模型为双层网络结构，每层网络依次包括嵌入层，卷积层，注意力层，全局平均池化层；预测时，将蛋白质的两条序列分别输入到一层网络的嵌入层，然后依次经过卷积层，注意力层，全局平均池化层处理，最后将两层网络所输出的特征向量合并为一条特征向量输入到全连接层，通过sigmoid完成蛋白质相互作用的分类，输出预测结果值。

其中，所述注意力层包含三种注意力机制，包括基于蛋白质序列对之间的多头注意力机制，基于蛋白质对各序列内部的多头自注意力机制以及结合以上两种多头注意力机制的双层注意力机制；

基于蛋白质序列对之间的多头注意力机制，首先对每条蛋白质序列进行蛋白质序列对之间的多头注意力计算，然后再进行合并；

基于蛋白质对各序列内部的多头自注意力机制，首先对每条序列单独进行多头自注意力的计算，然后再进行合并；

双层注意力机制首先对每条序列单独进行多头自注意力的计算，然后对输出的结果与另一条蛋蛋白质序列进行蛋白质序列对之间的多头注意力计算，是以上两种注意力机制的结合。

其中，模型训练时，首先对蛋白质序列经过预处理后，蛋白质序列中每个氨基酸都用一个整数来代替，氨基酸与整数之间的映射数字随机产生，然后输入所述嵌入层中处理，所述嵌入层首先将预处理后的蛋白质序列进行one-hot编码，并以one-hot编码后的向量作为输入，输入到嵌入矩阵；嵌入矩阵是一个全连接网络，使用随机权重初始化，训练网络时，首先通过前向传播计算损失函数，然后通过反向传播求取嵌入矩阵里各个参数的导数，最后再梯度下降更新嵌入矩阵；训练过程中，嵌入矩阵会不断更新，不断学习不同氨基酸之间相对位置的关系从而获得不同氨基酸之间的语义相似性；之后one-hot向量与嵌入矩阵进行矩阵运算，得到转换后的低维且能保留氨基酸之间语义关系的蛋白质序列的词向量表示。

其中，所述卷积层，分为卷积操作和池化操作两部分；卷积操作用来进行特征提取，每个神经元首先对局部感知，然后在高层将局部信息进行堆叠得到全局信息；池化层用于特征降维，减少参数数量，同时提高模型的容错性；

所述卷积层包括三层，每个卷积操作后连接一个池化操作，三层的卷积操作，其卷积核大小分别是7,5，3，步长都为1，不使用填充，激活函数选择ReLU激活函数，每层的过滤器个数设置为16；池化操作的采样核大小设置为2。

其中，经过注意力层操作后，每条蛋白质向量表示为2D向量，全局平均池化操作后，每条蛋白质序列都表示为1D向量，将每个蛋白质对的一维向量合并，输入到全连接层。

其中，当输出预测结果大于等于0.5，则代表蛋白质对有相互作用，当输出预测结果小于0.5，则代表蛋白质对没有相互作用。

其中，模型训练时所选择的蛋白质序列是长度范围在50到1200之间的相互作用序列对，长度小于1200的序列，需要在序列头部进行补零条填充操作，使得每条蛋白质序列的长度均为1200，序列中氨基酸经嵌入层的编码后，每个氨基酸都用128维的向量表示，最终在嵌入层，每条蛋白质序列编码为1200*128的矩阵。

本发明通过构建三种基于不同的注意力机制的卷积神经网络，分别在基准数据集，外部测试集，以及其他物种数据集上训练深度学习分类模型，来对蛋白质相互作用进行预测。

附图说明

图1是本发明的基于注意力机制使用蛋白质一级序列预测蛋白质相互作用的卷积神经网络模型的结构示意图。

图2是多头注意力机制的计算流程图。

图3是基于蛋白质序列对之间的多头注意力机制的计算处理示意图。

图4是基于蛋白质对各序列内部的多头自注意力机制计算处理示意图。

图5是双层注意力机制的计算处理示意图。

图6是本发明基于注意力机制使用蛋白质一级序列预测蛋白质相互作用的卷积神经网络模型的预测流程图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提出的基于注意力机制的卷积神经网络模型，将蛋白质的两条序列分别输入到嵌入层，卷积层，注意力层，全局池化层，最后将两输出的特征向量合并为一条特征向量输入到全连接层，完成蛋白质之间的相互作用分类。

其中，在注意力层部分构建三种注意力机制，分别是基于蛋白质序列对之间的多头注意力机制，基于蛋白质对各序列内部的多头自注意力机制以及结合以上两种机制的双层注意力机制。

此外，使用全局平均池化层代替传统神经网络的多层全连接层，一方面可以减少模型训练时间，另一方面防止过拟合。由于注意力层部分的运算能够并行，同样能够减少模型训练的时间，提高预测效率。

如图1所示，本发明的基于注意力机制使用蛋白质一级序列预测蛋白质相互作用的卷积神经网络模型，首先将蛋白质的两条序列首先进行简单编码，然后分别输入到嵌入层，卷积层，注意力层，全局池化层，最后将两个输出的特征向量合并为一条特征向量再输入到全连接层，并通过sigmoid完成蛋白质相互作用的分类。在注意力层部分构建三种注意力机制，分别是基于蛋白质序列对之间的多头注意力机制，基于蛋白质对各序列内部的多头自注意力机制以及结合以上两种机制的双层注意力机制，三种注意力机制各有侧重，在模型训练中，使用Adam优化器，交叉熵函数作为损失函数。

(1)嵌入层

自然语言处理中，词嵌入的目的是将语言中的单词转换为计算机能够处理的矩阵和向量形式，同时降低输入样本的维度，并寻找单词之间的相似性。该向量或矩阵能够表示出在语义层面上各单词之间的相互信息。对于蛋白质序列，如果只对序列进行简单编码，即每个氨基酸映射为一个整数，那各个氨基酸之间都是孤立的，既不能达到降维的效果，也不能表示出氨基酸与整个序列上下文的关系。受到自然语言处理中词嵌入的启发，可以将蛋白质序列看作是文本向量，每个氨基酸看作单词，将词嵌入方法用在蛋白质序列编码中，首先对蛋白质序列经过预处理后，序列中每个氨基酸都用一个整数来代替，氨基酸与整数之间的映射数字随机产生。嵌入层首先将预处理后的蛋白质序列进行one-hot编码，并以one-hot编码后的向量作为输入，输入到嵌入矩阵。嵌入矩阵是一个全连接网络，使用随机权重进行初始化，在使用数据集训练网络时，首先通过前向传播计算损失函数，然后通过反向传播求取嵌入矩阵里各个参数的导数，最后再梯度下降更新嵌入矩阵，在训练的过程中，嵌入矩阵会不断更新，不断学习不同氨基酸之间相对位置的关系从而获得不同氨基酸之间的语义相似性。之后one-hot向量与嵌入矩阵进行矩阵运算，得到转换后的低维且能保留氨基酸之间语义关系的蛋白质序列的词向量表示。

本发明实验中，由于选取蛋白质序列长度范围在50到1200之间的相互作用序列对，长度小于1200的序列，需要在序列头部进行补零条填充操作，使得每条蛋白质序列的长度均为1200，序列中氨基酸经嵌入层的编码后，每个氨基酸都用128维的向量表示，最终在嵌入层，每条蛋白质序列编码为1200*128的矩阵。

(2)卷积层

卷积层，分为卷积操作和池化操作两个部分。卷积操作用来进行特征提取，每个神经元首先对局部感知，然后在高层将局部信息进行堆叠得到全局信息。池化层的作用要用于特征降维，减少参数数量，同时提高模型的容错性。对于卷积神经网络，卷积层的计算和池化层的计算都相当重要，过滤器的个数，卷积核的大小，步长值的大小，填充方式、激活函数的选择，以及池化层的策略都会对最终模型的输出，卷积计算的复杂度产生影响。

实验中发现，卷积层卷积核的设置应该小而深，单独使用小的卷积核效果不理想，堆叠起来多个小的卷积核，性能会有较好的提升，但当卷积核大小大于9*9时，会导致相对较大的卷积计算量，模型性能反而也没有提升。其次卷积核大小设置应为奇数，这样每个过滤器都能够有中心像素，能够确定过滤器的位置。在本发明的实验中，设置了三层卷积层，每个卷积操作后连接一个池化操作。三层的卷积操作，卷积核大小分别是7,5，3，步长都为1，不使用填充，激活函数选择ReLU激活函数，每层的过滤器个数设置为16。对于池化操作，采样核大小设置为2。关于本发明中卷积核的设置，卷积核为7的卷积层效果相当于3个串联的3×3卷积层串联的效果，具体实现上有3个串联的3*3卷积层代替，同样卷积核为5的卷积层，其效果相当于2个3*3的卷积层串联的效果，实现上同样由2个串联的3*3卷积层代替，这样做的目的是为了减少参数量，减少计算的复杂度，且增加更多的Relu激活函数产生的非线性变换。

(3)注意力层

在处理序列任务上，注意力机制具有良好的性能，注意力机制的引入解决了卷积神经网络，循环神经网络中不能对输入序列建立长距离依赖关系的问题。因此本发明将注意力机制用在处理蛋白质序列，最终预测蛋白质序列对是否有相互作用。其核心思想是通过获取蛋白质序列全局信息，并从中关注到重要信息，来进行蛋白质相互作用的预测。

注意力机制的计算过程，本质上就是学习出一个权重分布再进行加权求和。可以描述为：给定一个能够衡量当前任务所关注对象Key的相关程度的向量Query，通过与Key进行相似度计算得到相关度值，相关度越高，则对整个序列越重要，然后将此相关度值转化为注意力权重概率分布，也就是权重系数，权重系数是通过SoftMax函数对这些权重进行归一化处理，并输出相应的权重概率。最后与Key对应value值的加权求和得到最终的注意力数值，用来进行下一个阶段的预测，一般Key的值等于Value。

本发明在注意力层部分构建三种注意力机制，分别是基于蛋白质序列对之间的多头注意力机制，基于蛋白质对各序列内部的多头自注意力机制以及结合以上两种机制的双层注意力机制，三种注意力机制各有侧重。三种机制都是对卷积层输出的特征图使用多头注意力机制。多头注意力机制是注意力机制的一种扩展，是通过集成多个独立的注意力计算实现。

多头注意力机制的计算如图2所示，首先对Query，Key，Value分别进行线性变换，线性变换由不加激活函数的全连接网络实现，然后将Query，Key，value分成多个子区间也就是多头，每个头大小相同，分别对每个头进行单个注意力计算。最后对多个头的计算结果进行合并再进行一次线性变换，最后与Value进行加权求和。当头的个数为1时，即直接对整个序列进行注意力计算，采用多头注意力机制使得模型在不同的子空间里学习到相关的信息，具有集成的效果，能够防止过拟合。此外，为保证蛋白质序列长度为最大长度1200时，预处理阶段通过Padding操作，填充“零”，使蛋白质序列变为定长。为消除无意义的零对模型的影响，使用mask操作，排除padding带来的效应。

本发明的提出的三种注意力机制不同点在于多头注意力机制计算所关注的序列不同，基于蛋白质序列对之间的多头注意力机制，首先对每条蛋白质序列进行蛋白质序列对之间的多头注意力计算，然后再进行合并，关注的是序列对之间的关系如图3。基于蛋白质对各序列内部的多头自注意力机制，首先对每条序列单独进行多头自注意力的计算，然后再进行合并，关注的是序列对各序列内部之间的关系如图4。双层注意力机制首先对每条序列单独进行多头自注意力的计算，然后对输出的结果与另一条蛋蛋白质序列进行蛋白质序列对之间的多头注意力计算，是以上两种注意力机制的结合，如图5。

(4)全局平均池化层

经过注意力层操作后，每条蛋白质向量表示为2D向量，全局平均池化操作后，每条蛋白质序列都表示为1D向量，将每个蛋白质对的一维向量合并，输入到分类器。

本发明采用全局平均池化层来代替传统卷积神经网络中使用的全连接层。原因如下，全连接网络在处理注意力层得到的特征图(feature map)时，能够通过众多的参数和激活函数转换来获得足够多的非线性特征，参数容易造成过拟合。而全局平均池化层直接对注意力层输出后feature map的计算出整张图的平均池化，每个feature map形成特征点，由于注意力层的输出共有16个feature map,则最终形成16个特征点。使用全局平均池化，一方面可以减少过拟合，另一方面，经过实验测试，全局平均池化表现稳定，预测效果与使用全连接网络相差不多。

(5)全连接层

全局平均池化后输入到分类器，该分类器采用含有一个神经元，激活函数为Sigmoid的Dense层。当输出结果大于等于0.5，则代表蛋白质对有相互作用，当输出结果小于0.5，则代表蛋白质对没有相互作用。最后模型的训练采用Adam优化器实现快速，再使用随机梯度下降(SGD)达到最优，损失函数使用二元交叉熵。

表1

本发明涉及到多个蛋白质相互作用数据库，对相互作用的蛋白质序列做出预处理，选取了基准数据集，外部测试集，以及其他物种数据集。数据集的来源，规模以及预处理方式介绍如下：

1、基准数据集

基准数据集的构造来源于pan提供的蛋白质相互作用数据库，该数据库有4个数据集，分别是：1)正样本数据集A，共有来自9476个蛋白质的36630个蛋白质相互作用对；2)负样本数据集B，共有来自2184个蛋白质的36480个蛋白质相互作用对；3)置信度低于25％蛋白质构成的正样本数据集C，共有来自2502个蛋白质的3899个蛋白质相互作用对；4)置信度低于25％蛋白质构成的负样本D，共有来自661个蛋白质的4262个蛋白质相互作用对；5)正样本占50％，负样本占50％的数据集E，共有来自842个蛋白质的1882个蛋白质相互作用对。4个数据集的正样本构造基于可靠的化学实验方法，数据来源于人类蛋白质数据库(HPRD2010)，负样本的构造基于细胞定位注释方法，来源于Swiss-Prot蛋白质序列数据库。下载后的数据集中每个蛋白质对格式如图六：蛋白质序列号分别为NP_00363.1，NP_001073594.1，每个序号都对应着由若干氨基酸组成的蛋白质序列。

本发明的基准数据集由数据集A，数据集B，和数据集E构造，原始数据共有73952个蛋白质对。经统计，大部分的蛋白质序列长度都在50到1200之间，因此本实验中数据得预处理如下：去除蛋白质序列中氨基酸数量少于50，以及氨基酸数量大于1200的蛋白质相互作用对以及去除序列中包含不常见的氨基酸B,J,O,U,X,Z的蛋白质相互作用对。

预处理后，基准数据集上，最终得到60554个蛋白质对，其中正样本有29058个蛋白质对，负样本有31496个蛋白质对。从预处理后的样本中，为保证样本平衡按正负样本比例随机选择十分之一的样本作为测试集合，即测试集共有6056个样本，其中正样本有2906个蛋白质对，负样本有3150个蛋白质对。基准数据集的规模如表2.

表2

2、外部测试集

测试集用于评估模型的泛化能力，通过测试集测试已经训练好的模型的决策能力。本发明设计了4组外部测试集，对于以下4组外部测试集的预处理方式同基准数据集，去除长度不合法以及包含不合法氨基酸的相互作用对，外部测试集的来源以及构造如下：

HPRD 2010版数据集：该数据集取自人类蛋白质参考数据库(HPRD)，该数据库的包含了从30000多个蛋白质中提取的41000对条相互作用蛋白质对。首先去除了和基准数据集中相同的相互作用对，再经过预处理，之后共得到8008个蛋白质对。

DIP 2016版数据集，该数据集取自DIP数据库，DIP库包括蛋白质的信息、相互作用的信息和检测相互作用的实验技术三个部分，取出相互作用的蛋白质对并经过预处理后共得到4514个蛋白质相互作用对。

HIPPIE(HQ)v2.0版本数据集，该数据集取自人类整合蛋白质相互作用参考数据库(HIPPIE)，该数据库根据置信度得分将蛋白质相互作用对分为低质量的LQ数据和高质量的HQ数据，该置信度得分阈值为0.73。本测试集选择高质量HQ数据，经过预处理，HQ数据共有25701个蛋白质相互作用对。

inWeb_inbiomap(HQ)最新版数据集，该数据集取自inWeb_inbiomap数据库，整合了8个大型人类蛋白质相互作用数据库。同样根据置信度得分将蛋白质相互作用对分为低质量的LQ数据和高质量的HQ数据，该置信度得分阈值为1.0。本测试集选择高质量HQ数据，经过预处理，HQ数据共有128591个蛋白质相互作用对。

最终外部测试数据集的规模如表3，且测试数据中只包含正样本。

表3

3、其他物种数据集

此外，本发明还构建了其他物种数据集，分别是大肠杆菌数据集，果蝇数据集，秀丽隐杆线虫数据集，这些数据集的阳性样本都是从DIP数据库中获得，阴性样本是通过配对来自不同亚细胞位置的蛋白质产生的，还有家鼠数据集，从Mint数据库下载。经过预处理后，家鼠数据集由于只包含正样本，因此只做测试集，对于其余物种的数据集，按正负样本比例选取其中十分之一的样本作为测试集，最终其他物种数据集的规模如表4。

表4

本发明在注意力层部分分别使用基于蛋白质作用对之间的多头注意力机制，记做模型一，基于蛋白质序列内部的多头自注意力机制，记做模型二，以及结合以上两种机制的双层注意力机制,记做模型三。使用不同的注意力计算模型，以及对特征图划分子区间的不同，都会对模型最终的预测效果产生影响。由于卷积层输出为16个特征图，因此，对模型一和模型二划分子区间个数分别为1,2,4,8,16，每个区间特征图个数对应分别为16,8,4,2,1。

在基准数据集上，分别对两个模型的不同分区采用十折交叉验证的方法训练模型，十折交叉采用分层采样，确保在训练集和测试集中各个类别蛋白质对的比例与基准数据集中原始比例相同。然后选择在每个分区中十折交叉验证中效果最好的模型预测保留测试集。

模型一结果分析如下：表5，表6，表7，表8，表9分别是模型一划分特征图个数分别是1,2,4,8,16，即Head分别等于1,2,4,8,16时，十折交叉验证每折的结果，十折的均值以及保留测试集的结果。由下表得，当head＝16时，模型一在交叉验证集上效果最好，准确率，roc_auc,mcc,f1score,精确率，召回率各项指标均值分别为0.988733，0.998027，0.977468，0.988256，0.988596，0.987956。但在保留测试集上，各项指标容易过拟合，不如在交叉验证集合上表现的好。相反，当Head＝8时，模型一在保留测试集上效果最好，各项指标与交叉验证集上的结果相差不大，其各项评价指标达到最高，准确率达到0.988276，roc_auc值达到,0.995889，mcc值达到0.976516,f1score值达到0.987765,精确率达到0.989299，召回率达到0.986235。

表5：模型一，Head＝1，Per Head Size＝16

表6：模型一，Head＝2，Per Head Size＝8

表7模型一，Head＝4，Per Head Size＝4

表8模型一，Head＝8，Per Head Size＝2

表9模型一，Head＝16，Per Head Size＝1

模型2结果分析如下：表10，表11，表12，表13，表14分别是模型2划分特征图个数分别是1,2,4,8,16，即Head分别等于1,2,4,8,16时，十折交叉验证每折的结果，十折的均值以及保留测试集的结果。由下表得，同样当head＝16时，模型二在交叉验证集上效果最好，准确率，roc_auc,mcc,f1score,精确率，召回率各项指标均值分别为0.987779，0.997538，0.975595，0.987192，0.990003，0.984477。但在保留测试集上，各项指标容易过拟合，不如在交叉验证集合上表现的好。相反，当Head＝4时，模型二在保留测试集上效果最好，各项指标与交叉验证集上的结果相差不大，其各项评价指标达到最高，准确率达到0.988276，roc_auc值达到0.996333，mcc值达到0.976514，f1score值达到0.987778,精确率达到0.988288，召回率达到0.987268。

表10：模型二，Head＝1，Per Head Size＝16

表11：模型二，Head＝2，Per Head Size＝8

表12：模型二，Head＝4，Per Head Size＝4

表13：模型二，Head＝8，Per Head Size＝2

表14：模型二，Head＝16，Per Head Size＝1

模型三，首先使用基于序列内部的多头自注意力机制，由模型二实验结果可知，到head＝4时，预测结果达到最优，因此，在模型三中，我们先固定序列内部多头自注意力机制的头个数，然后再调整第二层序列间的多头注意力机制的头个数。结果分析如下：表15，表16，表17，表18，表19分别是第二层注意力划分特征图个数分别是1，2，4，8，16，即Head分别等于1，2，4，8，16时，十折交叉验证每折的结果，十折的均值以及保留测试集的结果。由下表得，同样当head＝16时，模型二在交叉验证集上效果最好，准确率，roc＿auc，mcc，f1score，精确率，召回率各项指标均值分别为0.989633，0.997773，0.979251，0.989163，0.989857，0.988530。但在保留测试集上，各项指标容易过拟合，不如在交叉验证集合上表现的好。相反，当Head＝2时，模型三在保留测试集上效果最好，各项指标与交叉验证集上的结果相差不大，其各项评价指标达到最高，准确率达到0.988276，roc＿auc值达到0.995558，mcc值达到0.976514，f1score值达到0.988276，精确率达到0.987952，召回率达到0.987612。

表15：模型三，Head＝1，Per Head Size＝16

表16：模型三，Head＝2，Per Head Size＝8

表17：模型三，Head＝4，Per Head Size＝4

表18：模型三，Head＝8，Per Head Size＝2

表19：模型三，H ead＝16，Per H ead Size＝1

为验证本发明所提模型具有好的预测效果，表20，选出了本发明中基于注意力机制的卷积神经网络的三种模型，与Shen，Guo，You，Sun，Zhang，Pan，Li的在预测人类蛋白质相互作用的工作做出对比。通过对比，可以看出本发明提出的基于注意力机制的卷积神经网络有着非常好的预测性能，比You，Shen的预测精度高出约14％，比guo的预测精度高出8％，比Zhang’s高出4％，比Sun，Pan的预测精度高出1.63％，略高于Li的预测精度，虽然在基准数据集上，两者相差不多，但在本发明的外部测试集以及其他物种测试集上，较Li的性能有很大的提升。

表20

外部测试集上的实验结果如下：

本发明构建了四个外部测试集，从基准数据集的实验结果可知，在使用基于蛋白质作用对之间的多头注意力机制，记做模型一，对卷积层的特征图分头个数为8时，预测精度达到最高，在使用基于蛋白质序列内部的多头自注意力机制时，记做模型二，对卷积层的特征图分头为4时，预测精度达到最高。在使用基于双层注意力机制时，对卷积层的特征图分头个数分别是4，2时，预测精度达到最高。因此，表二十一前三列是在使用最优参数的注意力模型下预测四个外部测试集的结果。由于外部测试集样本只有正样本，则衡量模型的指标只列出准确率。Li’s，Sun’s，Pan’s的工作用来作对比。由表结果可知，模型三的预测性能最好，在四个外部数据集上的准确率分别达到，0.985237，0.963921，0.961250，0.936631，在前两个数据集比Li’s工作高出0.6％.2.0％，，在后两个数集上略高于Li’s工工作。比Pan’s预测精度在前三个数据集高出约9.3％，6.3％，11.1％，在后三个数据集比Sun’s预测精度分别高出，2.6％，3.8％，2.5％，略低于HPRD数据集。

表21

其他物种数据集上的实验结果如下：

基准数据集和外部测试集使用的都是人类蛋白质数据库，为验证模型的有效性，本发明构造了果蝇，大肠杆菌，线虫，家鼠的蛋白质相互作用数据集。由于在基准数据集上，可知基于蛋白质作用对之间的多头注意力机制，记做模型一，对卷积层的特征图分头个数为8时，预测精度达到最高，在使用基于蛋白质序列内部的多头自注意力机制时，记做模型二，对卷积层的特征图分头个数为4时，预测精度达到最高。在使用双层注意力机制时，记做模型三，对卷积层的特征图分头个数为4，2时，预测精度达到最高。因此，分别使用模型一head＝8，模型二head＝4，模型三head＝4，2在线虫，果蝇，大肠杆菌三个其他物种上测试本发明所提模型的有效性。同样，首先在原始数据集中按正负样本比例划分出保留测试集，占原始样本的十分之一。其余样本用于十折交叉验证。

表22，表23，表24分别是三种模型在线虫，果蝇，大肠杆菌在各数据集上交叉验证集的均值以及在保留测试集上的预测结果。在表22中，三种模型在交叉验证集上各指标预测的均值分别为：0.990322，0.998216，0.980812，0.990128，0.996867，0.983574，模型二预测性能最好，各项指标分别为：0.990617 0.998512

0.981318 0.990476 0.997260，0.983784。在表23中，三种模型在交叉验证集上各指标预测的均值分别为：0.992744，0.998632，0.985279，0.992655，0.998689，0.986568模型三预测性能最好，各项指标分别为：0.991487，0.99713，，0.983082 0.991579 0.9989400.984326。在表24中，三种模型在交叉验证集上各指标预测的均值分别为：0.977855，0.993693，0.956997，0.977438，0.990783，0.964527模型三预测性能最好，各项指标分别为0.977155 0.991122 0.954736 0.976426 0.992272，0.961078。

表22

表23

表24

此外，本发明又构造了三组对比实验，用来证明本发明三种模型的泛化性能和预测性能。分别用Li’s,Guo’s和Sun’s方法来与本发明的基于注意力机制的卷积神经网络的两种模型进行对比。对比结果如表25。由对比结果可看出，本发明在果蝇，线虫，大肠杆菌数据集上达到的精度最好分别是0.990617，0.991487，0.977155，比sun’s结果分别高出1.2％,5.6％,4.4％，比guo’s结果分别高出1.7％,2.9％,2.4％，比li’s结果分别高出,0.4％,0.7％,1.9％。

表25

以上所述仅是本发明的优选实施方式，应当指出的是，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.基于注意力机制使用蛋白质一级序列预测蛋白质相互作用的卷积神经网络模型，其特征在于，其通过以下步骤获得：

构建蛋白质相互作用数据集；

构建基于注意力机制的卷积神经网络；

2.根据权利要求1所述的卷积神经网络模型，其特征在于，所述注意力层包含三种注意力机制，包括基于蛋白质序列对之间的多头注意力机制，基于蛋白质对各序列内部的多头自注意力机制以及结合以上两种多头注意力机制的双层注意力机制；

3.根据权利要求1所述的卷积神经网络模型，其特征在于，模型训练时，首先对蛋白质序列经过预处理后，蛋白质序列中每个氨基酸都用一个整数来代替，氨基酸与整数之间的映射数字随机产生，然后输入所述嵌入层中处理，所述嵌入层首先将预处理后的蛋白质序列进行one-hot编码，并以one-hot编码后的向量作为输入，输入到嵌入矩阵；嵌入矩阵是一个全连接网络，使用随机权重初始化，训练网络时，首先通过前向传播计算损失函数，然后通过反向传播求取嵌入矩阵里各个参数的导数，最后再梯度下降更新嵌入矩阵；训练过程中，嵌入矩阵会不断更新，不断学习不同氨基酸之间相对位置的关系从而获得不同氨基酸之间的语义相似性；之后one-hot向量与嵌入矩阵进行矩阵运算，得到转换后的低维且能保留氨基酸之间语义关系的蛋白质序列的词向量表示。

4.根据权利要求1所述的卷积神经网络模型，其特征在于，所述卷积层，分为卷积操作和池化操作两部分；卷积操作用来进行特征提取，每个神经元首先对局部感知，然后在高层将局部信息进行堆叠得到全局信息；池化层用于特征降维，减少参数数量，同时提高模型的容错性；

5.根据权利要求1所述的卷积神经网络模型，其特征在于，经过注意力层操作后，每条蛋白质向量表示为2D向量，全局平均池化操作后，每条蛋白质序列都表示为1D向量，将每个蛋白质对的一维向量合并，输入到全连接层。

6.根据权利要求1所述的卷积神经网络模型，其特征在于，当输出预测结果大于等于0.5，则代表蛋白质对有相互作用，当输出预测结果小于0.5，则代表蛋白质对没有相互作用。

7.根据权利要求1所述的卷积神经网络模型，其特征在于，模型训练时所选择的蛋白质序列是长度范围在50到1200之间的相互作用序列对，长度小于1200的序列，需要在序列头部进行补零条填充操作，使得每条蛋白质序列的长度均为1200，序列中氨基酸经嵌入层的编码后，每个氨基酸都用128维的向量表示，最终在嵌入层，每条蛋白质序列编码为1200*128的矩阵。