CN116386733A

CN116386733A - 基于多视角多尺度多注意力机制的蛋白质功能预测方法

Info

Publication number: CN116386733A
Application number: CN202310381110.6A
Authority: CN
Inventors: 邓赵红; 王中宇; 吴敬; 未志胜; 王蕾; 王士同
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2023-04-11
Filing date: 2023-04-11
Publication date: 2023-07-04

Abstract

本发明属于蛋白质序列智能功能预测领域，涉及一种基于多视角多尺度多注意力机制的蛋白质功能预测方法。该方法包括训练阶段和使用阶段两部分，训练阶段初始多视角特征提取模块、多视角深度多尺度多注意力分类器学习模型和多视角自适应决策网络。初始多视角特征提取模块使用四种编码特征从蛋白质序列中提取特征，分别为基于独热编码的序列特征、基于进化信息的序列特征、基于深度语义模型的序列特征以及基于重叠理化特性编码的序列特征。本发明为每个视角设计特定的多尺度多注意力深度神经网络模型，提取深度特征并完成对蛋白质功能的初步预测。最后，引入了多视角自适应决策机制，以平衡每个视角对最终预测结果的相对重要性。

Description

基于多视角多尺度多注意力机制的蛋白质功能预测方法

技术领域

本发明属于智能蛋白质功能预测领域，涉及一种基于多视角多尺度多注意力机制的蛋白质功能预测方法。

背景技术

蛋白质是生命体内的重要分子，具有多种生物学功能，在生物体内发挥着不可获取的作用。随着人们对蛋白质组学的研究愈发深入，许多蛋白质在生物调控过程中所发挥的作用被揭示。例如，蛋白质在许多疾病的发生和发展中起着重要作用，如癌症、心血管疾病和神经退行性疾病等。此外，许多药物的作用机制也涉及到蛋白质的结构和功能。因此，对蛋白质功能的研究具有重大意义，涉及生命科学、药物研发、基因工程和生物技术等多个领域。

蛋白质的功能是一个多方面的概念，通常被用来描述目标蛋白质在生物体内部的生化反应、细胞活动和生物表现型等场景下所发挥的作用。后基因组时代，随着序列基因组学项目识别的蛋白质数量的爆炸式增长，早期基于定量生化实验验证的蛋白质功能预测的方法已经无法满足需求。然而，随着序列基因组项目识别的蛋白质数量的爆炸式增长，通过实验来验证蛋白质的功能已经远远不能满足序列数量日益增长的实际需求。研究发现，计算方法可以通过蛋白质的序列、结构、基因表达谱、蛋白质-蛋白质相关作用网络、组学数据以及已知功能蛋白质的功能信息等数据推断目标蛋白质的功能。因此寻找能够从蛋白质数据中挖掘功能信息的智能方法成为蛋白质组学研究的一个很重要的研究方向。

现在有很多方法可以利用机器学习模型从蛋白质序列中预测蛋白质功能，但大多局限于能够获取此类完整数据的少数蛋白质组学。很少有方法仅使用蛋白质序列信息进行蛋白质功能预测研究。如何合理有效的利用蛋白质序列层面的特征对蛋白质功能进行推断依然是一个重要的挑战。

发明内容

本发明实现了一种基于多视角多尺度多注意力机制的蛋白质功能预测方法，该方法包括训练阶段和使用阶段两部分，训练阶段包括初始多视角特征提取模块、多视角深度多尺度多注意力分类器学习模型和多视角自适应决策网络。

训练阶段：初始多视角特征提取模块使用四种不同理论基础的蛋白质序列编码技术将蛋白质序列转换为机器可读的数值型特征，四种编码特征分别为：基于独热编码的序列特征、基于进化信息的序列特征、基于深度语义模型的序列特征以及基于重叠理化特性编码的序列特征；然后对初始的四个序列视角特征构建出四个深度多尺度多注意力分类器学习模型，分别对各个视角特征进行训练，以获得不同视角子模型对目标蛋白质序列的初步功能预测结果；获取的初步预测结果用于多视角自适应决策网络，以学习各个视角结果对最终决策的平衡权重；

使用阶段：获取待测蛋白质序列，利用四种编码特征技术构建出目标序列的初始多视角特征；再利用针对多视角特征集合训练出来的四个深度多尺度多注意力分类器获取的4个视角的初步预测结果；接着使用训练出来的自适应决策网络综合4个视角的预测结果，自适应学习各个视角的平衡权重，得到最终的预测结果；

所述的基于多视角多尺度多注意力机制的蛋白质功能预测方法集合深度学习技术和多视角决策机制等技术，从蛋白质序列中有效的识别了序列中蕴含的功能鉴别信息，它将深度学习与蛋白质的多视角序列特征联系起来，更全面的表达了序列的功能鉴别信息。

蛋白质序列是一段用氨基酸描述的生物遗传物质，深度卷积模型无法处理字符信息，所以需要先将氨基酸序列进行预处理，转换成程序所能接受的数值形式。独热编码是目前较为流行的编码技术，其原理是将一条由n种元素组成的长度为m的文字序列构建为一个n*m的矩阵，其中把每种元素转化成n维的标准正交基向量填充至m长度中的对应位置。人类体内最常见的氨基酸一共有20种，然而在实际测序过程中，部分蛋白质序列中存在目前还未确定的氨基酸，在序列中通常以X表示。因此，以蛋白质序列来说，独热编码会对序列中的氨基酸进行逐一编码，每个氨基酸都会输出一个21维向量，向量中对应氨基酸的位置会被设为“1”，其它所有位置的元素都为“0”。这样对于一个长度为L的氨基酸序列，得到的独热编码特征是一个L×21的二维矩阵。编码效果如图1所示。

上述方法构建的初始特征矩阵虽然对提取特征有帮助，但由于任意两个氨基酸向量乘积为0，完全忽略了氨基酸之间的相关性，所以使用进化信息得到的位置特异性得分矩阵可能会更好的表达序列信息。我们使用本地化局部序列比对工具(Basic LocalAlignment Search Tool，BLAST)获得蛋白质序列的同源性图谱。对于每条目标氨基酸序列，我们进行迭代次数为3且敏感度阈值为0.001的同源比对。比对完成后，序列中的每个氨基酸字符会输出20个得分，从而得到一个20维矢量的PSSM。这样对于一个长度为L的氨基酸序列，得到的位置特异性得分矩阵是一个L×20的二维矩阵。

近年来，分布式表征技术在自然语言处理领域得到了迅速的发展。分布式表征技术使用稠密向量表示文本序列，可以一定程度上描述文本之间的语义距离。对于蛋白质序列，由于不同的氨基酸片段往往有着不同的生物学功能，因此对序列语义信息的描述也极为重要。本专利所采用的语义特征为微调后的ProtBERT模型从目标序列中抽取出的分布式特征。ProtBERT是一种基于BERT的深度无监督的氨基酸序列语言模型，它在原始BERT的基础上增加了层数，并在UniRef100蛋白质序列数据集上完成预训练。与基于卷积神经网络的模型和基于循环神经网络的模型相比，ProtBERT使用自注意力机制对序列中的每个字符与并行的其他序列字符相比较，从而扩大了全局感受野，能够更有效的捕捉全局上下文信息。具体来说，对于长度为L的序列，首先使用ProtBERT模型提取语义层级的特征，得到大小为L×1024的特征矩阵。然后，使用主元比例为95％的主成分分析模型对语义特征进行降维，最后得到大小为L×292的特征矩阵。

此外，根据氨基酸的理学性质，可将具有共同特性的氨基酸归为一组。根据理化性质的不同，可将氨基酸分为10类，包括：Polar(NQSDECTKRHYW)，Positive(KHR),Negative(DE)，Charged(KHRDE)，Hydrophobic(AGCTIVLKHFYWM)，Aliphatic(IVL)，Aromatic(FYWH)，Small(PNDTCAGSV)，Tiny(ASGC)以及Proline(P)。特别地，一种氨基酸可以同时拥有多个理化性质，如残基A，它同时拥有：Hydrophobic、Aliphatic、Small和Tiny等性质。为此，需要设计一个10维向量(由0/1组成)来表示每个氨基酸的理化性质。具体来说，若氨基酸具有某个理化性质，则该10维向量对应位置的值设为1，反之设为0。最终，对于长度为L的氨基酸序列，将得到大小为L×10的特征矩阵。

该部分的具体步骤如下：

第一步：使用原始蛋白质序列的独热编码特征矩阵得到蛋白质初始特征X¹。

第二步：使用BLAST(本地化局部比对工具)获取原始蛋白质序列的序列相似性图谱，并使用Sigmoid函数对图谱中元素进行归一化，得到蛋白质进化信息初始特征X²。

第三步：使用微调后的ProtBERT语言模型从原始蛋白质序列中提取蛋白质语义信息初始特征X³。

第四步：使用原始蛋白质序列的重叠特性编码技术得到蛋白质理化性质初始特征X⁴。得到初步多视角数据集D＝{X¹,X²,X³,X⁴,y}

本发明的多视角深度多尺度多注意力分类器学习模型使用带注意力机制的卷积神经网络对蛋白质序列的各个视角特征进行自动提取以及预测。对于原始的蛋白质序列，经过预处理后可以得到蛋白质独热编码特征、进化信息特征、语义信息特征以及理化特性信息特征，针对四个不同视角的特征，分别构建四个不同的功能预测分类器来对不同视角特征进行深度特征自动提取以及功能的初步预测。

CNN网络在训练时采用最后一层输出层的结果计算误差并进行反向传播，由此来进行网络的学习。因为倒数第二层计算得到的特征向量到输出层只经过一个全连接层，可以认为根据网络输出层训练优化网络结构的同时，对倒数第二层输出特征向量的表达也进行了优化，即网络在训练的同时也学习到了更好的特征表达，所以选择网络倒数第二层的输出作为网络学习到的特征。通过卷积神经网络的自动学习获得的特征，具有比原始特征更小的维度，并且得到的特征是经过非线性组合的具有更好划分能力的特征，可以使后续的分类模型具有更好的泛化效果。

图2为每个视角特征使用的多尺度多注意力深度网络架构图。I可表示任意视角的初始特征矩阵，用X表示由多级卷积编码器(Multi-level convolutional encoder，MLCE)抽取的卷积模式特征。为了尽可能多的采集到关键功能鉴别特征，本专利构建了一个多尺度深度特征提取器从卷积特征X中抽取多尺度深度特征。首先构建了一个具有三层结构的特征金字塔，得到特征X_T。然后，为了扩大感受野同时建立不同尺度特征之间的关联，我们并行使用四个具有不同膨胀率的膨胀卷积从X_T中提取特征并拼接输出特征集合，得到X_D，最后，通过1×1卷积将组合后的特征X_D转化为最终的多尺度深度特征。研究表明，蛋白质功能预测可能受到不同区域氨基酸残基之间长程信息的影响。因此，在获得多尺度深度特征后，我们基于自注意力机制建立长距离氨基酸片段之间的信息依赖。最后，我们使用多层感知器(Multilayer Percepton，MLP)预测每个标签的得分，并使用Sigmoid函数将预测得分转换到[0,1]区间内的概率值。Sigmoid函数的表达如下：

此外，网络的损失函数采用交叉熵损失函数，该函数的定义如下：

其中N是训练序列集合总数，l是可预测的标签数，

表示预测概率值，y_ij∈{0,1}代表第i条序列的第j个标签位置的真实值。

该部分的具体步骤如下：

第一步：利用X¹，y对目标蛋白质序列进行多尺度多注意力机制分类器训练，取网络的最终输出用做目标氨基酸序列的初步预测结果

第二步：利用X²，y对目标蛋白质序列进行多尺度多注意力机制分类器训练，取网络的最终输出用做目标氨基酸序列的初步预测结果

第三步：利用X³，y对目标蛋白质序列进行多尺度多注意力机制分类器训练，取网络的最终输出用做目标氨基酸序列的初步预测结果

第四步：利用X⁴，y对目标蛋白质序列进行多尺度多注意力机制分类器训练，取网络的最终输出用做目标氨基酸序列的初步预测结果

得到多视角初步预测结果集/>

考虑上述四个视角的氨基酸序列表示方法的基础理论存在很大差异，这启发我们对四个视角的预测结果进行综合决策以提高预测性能。因此，本发明将提出的自适应决策网络作为最终的综合分类器，通过对训练网络的反馈学习，可以为每个视角特征对应的初步预测结果生成一个平衡权重，并给出最终的多视角预测结果。

该部分的具体步骤如下：

第一步：对测试数据使用初始多视角特征构建模型构建初步多视角测试数据集

第二步：使用多视角多尺度多注意力机制分类器得到多视角初步预测结果集

第三步：使用训练好的自适应决策网络对多视角测试初步预测结果集

进行综合决策，得到多视角预测结果/>

第四步：使用Diamond工具获取测试集中序列与训练集中序列之间的相似度，得到基于同源性方法的预测结果

第五步：使用加权模型综合多视角预测结果

和同源性方法预测结果/>

得到最终预测结果。

本发明的优点包括以下几点：

1)初始多视角蛋白质序列特征的构建：蛋白质序列有很多构建特征的方法，用不同方式构造出的特征都具有一定的效果，也各有优缺点。使用多视角特征来进行蛋白质序列的特征提取以及预测可以很好的将不同构造方法特征的优势结合起来。

2)多尺度多注意力机制分类器的构建：为了提高各视角深度特征的有效性，基于最初的多视角数据，设计了一个具有特征金字塔结构的多尺度深度特征提取器来捕获局部特征，并采用多头注意力机制来捕获局部特征之间的长程依赖信息。

3)自适应决策网络的构建：利用神经网络学习技术，基于多视角初步预测结果集进行学习，来获得可靠性更高的预测结果。

附图说明

图1是本发明的算法方法框架图。

图2是本发明的不同视角初步功能预测结果获取算法框架图。

图3是本发明的自注意力算法框架图。

具体实施方式

下面结合附图和实施例对本发明进行详细的描述。

如图1～图3所示，本发明实现了一种基于多视角多尺度多注意力机制的蛋白质功能预测方法，该方法包括初始多视角特征提取模块、多视角多尺度多注意力分类器学习模型和自适应决策网络三部分。初始多视角特征提取模块部分获得原始蛋白质序列的初始的多视角特征；多视角多尺度多注意力分类器学习模型部分对初始多视角特征进行深度特征学习以及初步功能的预测，获得多视角初步预测结果集；自适应决策网络部分使用获取的多视角初步预测结果集，训练可以学习各个视角结果的重要性权重以及给出综合决策，得到最终预测结果。

训练阶段的具体步骤。本方法的初始多视角特征构建部分首先从原始蛋白质序列中提取出基于独热编码的序列特征、基于进化信息的序列特征、基于深度语义模型的序列特征以及基于重叠理化特性编码的序列特征，构造成共有4个视角的多视角数据。

实施例1

根据上述方法的实施方式，针对CAFA3挑战赛数据集的蛋白质序列数据完成实施例。该数据集包含66841条蛋白质序列。每条蛋白质序列的长度都不一样，所以我们统一规定了一个长度2000，不足的用0来填充。表1展示了本发明所用方法MMSMAPlus和目前该领域先进方法的对比结果。

表1实施例1中的本算法的性能指标

其中MMSMA是本专利提出的多视角神经网络模型版本，MMSMAPlus是本专利提出的最终预测版本模型。

从上表可以看出，和AUPR指标评估上，MMSMAPlus在MFO、BPO取得了最佳性能，并在CCO评估中排名第二(仅次于DeepGOPlus)。在MMSMAPlus中，所提出的深度网络模型MMSMA在MFO和BPO上的S_min评估中取得了最优性能，而S_min指标取决于假阴性、假阳性的数量和GO术语的信息量。这表明预测结果中，MMSMA预测的术语集合更具体。

实施例2

为了从单物种角度体现本发明方法的预测精度，针对人类蛋白质组蛋白质序列数据完成实施例。该数据集包含18673条蛋白质序列。表2展示了本发明所用方法MMSMAPlus和目前该领域先进方法在人类蛋白质组数据集上的对比结果。

表2实施例2中的本算法的性能指标

通过在人类蛋白质组序列数据集上的评估比较，可以发现，所提出的扩展版本模型MMSMAPlus在三个子本体上的F_max、S_min和AUPR评估中均取得了最优性能。相比于基于统计学理论的

方法，MMSMAPlus在MFO、BPO和CCO上的F_max指标上分别提升了39.5％、23.4％和19.3％。同源性方法中DiamondScore显著优于BLAST，而与DiamondScore相比，MMSMAPlus在MFO、BPO和CCO上的F_max指标上分别提升了5.9％、5.6％和11.4％。最后，与深度网络模型DeepGOCNN及所提出的深度网络多视角模型MMSMA相比，MMSMAPlus除了具有多视角学习外，还具有同源性和深度网络信息。因此，DeepGOCNN和MMSMAPlus之间的比较结果表明，所提出的多视角深度学习技术充分地利用了蛋白质序列信息。

Claims

1.基于多视角多尺度多注意力机制的蛋白质功能预测方法，其特征在于，步骤如下：

第一步：使用独热编码技术将原始蛋白质序列编码为数值矩阵，作为初始蛋白质序列特征X¹；

第二步：使用BLAST获取原始蛋白质序列的序列相似性图谱，并使用Sigmoid函数对图谱中元素进行归一化，得到蛋白质进化信息初始特征X²；

第三步：使用微调后的ProtBERT语言模型从原始蛋白质序列中提取蛋白质语义信息初始特征X³；

第四步：使用原始蛋白质序列的重叠特性编码技术得到蛋白质理化性质初始特征X⁴；得到初步多视角数据集D＝{X¹,X²,X³,X⁴,y}

第五步：利用X¹，y对目标蛋白质序列进行多尺度多注意力机制分类器训练，取网络的最终输出用做目标氨基酸序列的初步预测结果

第六步：利用X²，y对目标蛋白质序列进行多尺度多注意力机制分类器训练，取网络的最终输出用做目标氨基酸序列的初步预测结果

第七步：利用X³，y对目标蛋白质序列进行多尺度多注意力机制分类器训练，取网络的最终输出用做目标氨基酸序列的初步预测结果

第八步：利用X⁴，y对目标蛋白质序列进行多尺度多注意力机制分类器训练，取网络的最终输出用做目标氨基酸序列的初步预测结果

得到多视角初步预测结果集D＝

第九步：对测试数据使用初始多视角特征构建模型构建初步多视角测试数据集

第十步：使用多视角多尺度多注意力机制分类器得到多视角初步预测结果集

第十一步：使用训练好的自适应决策网络对多视角测试初步预测结果集

进行综合决策，得到多视角预测结果/>

第十二步：使用Diamond工具获取测试集中序列与训练集中序列之间的相似度，得到基于同源性方法的预测结果

第十三步：使用加权模型综合多视角预测结果

和同源性方法预测结果/>

得到最终预测结果。

2.如权利要求1所述的基于多视角多尺度多注意力机制的蛋白质功能预测方法，其特征在于：所述第五步、第六步、第七步、第八步中的多尺度多注意力机制分类器，结构相同，包括1个三层级联卷积神经网络，1个多尺度深度特征提取模块，1个多头注意力机制和1个标签预测层；第一个模块为三层级联卷积神经网络，得到一个512*2000的特征图；第二个模块为多尺度深度特征提取模块，得到一个512*2000的特征图；第三个模块为多头注意力机制，得到1个512*1的特征图；第四个模块的标签预测层包含一个全连接层以及一个Sigmoid层，将1个512*1的特征图转换为一个1*标签数的向量，并经过Sigmoid层得到预测得分。

3.如权利要求1或2所述的基于多视角多尺度多注意力机制的蛋白质功能预测方法，其特征在于：所述的第五步、第六步、第七步、第八步中的多尺度多注意力机制分类器的神经网络结构的最后一层使用Sigmoid函数作为激活函数来引入非线性变换。

4.如权利要求1或2所述的基于多视角多尺度多注意力机制的蛋白质功能预测方法，其特征在于：所述的第五步、第六步、第七步、第八步中的多尺度多注意力机制分类器的神经网络结构的损失函数采用交叉熵损失函数，交叉熵损失函数，该函数的定义如下：

其中N是训练序列集合总数，l是可预测的标签数，

5.如权利要求3所述的基于多视角多尺度多注意力机制的蛋白质功能预测方法，其特征在于：所述的第五步、第六步、第七步、第八步中的多尺度多注意力机制分类器的神经网络结构的损失函数采用交叉熵损失函数，交叉熵损失函数，该函数的定义如下：

其中N是训练序列集合总数，l是可预测的标签数，