CN116825198B

CN116825198B - 基于图注意机制的肽序列标签鉴定方法

Info

Publication number: CN116825198B
Application number: CN202310866226.9A
Authority: CN
Inventors: 李闯; 刘纯洋; 李小龙; 何典; 黄华; 王和诗
Original assignee: Hunan University of Technology
Current assignee: Hunan University of Technology
Priority date: 2023-07-14
Filing date: 2023-07-14
Publication date: 2024-05-10
Anticipated expiration: 2043-07-14
Also published as: CN116825198A

Abstract

本公开实施例中提供了一种基于图注意机制的肽序列标签鉴定方法，属于生物信息学技术领域，具体包括：对二级质谱图进行预处理，并基于图论构建谱峰连接图生成候选肽序列标签集；利用标签注意力模块构建标签嵌入矩阵，从训练数据中提取候选序列标签集中标签之间的顺序相关性；通过卷积神经网络模块进行特征提取，并将特征作为通道注意力模块的输入提取蛋白质序列的组成相关性；将标签注意力模块和通道注意力模块融合，构建完整的标签分类模型，从而生成肽序列标签；将肽序列标签在蛋白质数据库中进行搜索得到理论质谱图，并其与实验质谱图进行匹配打分，得到二级质谱图对应的蛋白质序列。通过本公开的方案，提高了计算效率、精准度和适应性。

Description

基于图注意机制的肽序列标签鉴定方法

技术领域

本公开实施例涉及生物信息学技术领域，尤其涉及一种基于图注意机制的肽序列标签鉴定方法。

背景技术

在蛋白质组学中，基于肽序列标签的数据库搜索算法是de novo方法和数据库搜索算法的结合，是蛋白质组学中利用串联质谱数据鉴定蛋白质的关键技术。利用de novo方法得到局部肽序列，再利用该序列进行数据库搜索，最终确定蛋白质序列。

随着蛋白质组数据库的不断扩充和质谱数据量的急剧增加，需要鉴定的氨基酸序列数量也随之增多。目前，已有的鉴定方法已无法满足研究人员的需求。

目前存在着两种主要的蛋白质鉴定方法：基于数据库搜索和从头测序。然而，这些方法都存在一些缺陷。

数据库搜索方法：严重依赖于蛋白质数据库的正确性，无法鉴定出翻译后修饰的蛋白质，并且由于搜索空间大，计算时间很长。

从头测序方法：不依赖数据库，需要高质量的MS/MS谱，不能有效分辨图谱中信号模糊区域的x型离子和y型离子，可靠性较低。

肽序列标签方法：能有效地处理数据库规模过大和蛋白质的翻译后修饰等问题。不能根据每个实验谱信息生成准确的序列标签。

可见，亟需一种计算效率和适应性高的基于图注意机制的肽序列标签鉴定方法。

发明内容

有鉴于此，本公开实施例提供一种基于图注意机制的肽序列标签鉴定方法，至少部分解决现有技术中存在计算效率和适应性较差的问题。

本公开实施例提供了一种基于图注意机制的肽序列标签鉴定方法，包括：

步骤1，对二级质谱图进行预处理，并基于图论构建谱峰连接图生成候选肽序列标签集；

步骤2，利用标签注意力模块构建标签嵌入矩阵，从训练数据中提取候选序列标签集中标签之间的顺序相关性；

步骤3，通过卷积神经网络模块对二级质谱图的谱峰连接矩阵、顶点关联度矩阵和质量误差矩阵进行特征提取，并将特征作为通道注意力模块的输入提取蛋白质序列的组成相关性；

步骤4，将标签注意力模块和通道注意力模块融合，构建完整的标签分类模型，从而生成肽序列标签；

步骤5，将肽序列标签在蛋白质数据库中进行搜索得到理论质谱图，并其与实验质谱图进行匹配打分，得到二级质谱图对应的蛋白质序列。

根据本公开实施例的一种具体实现方式，所述步骤1具体包括：

步骤1.1，筛除二级质谱图中排名在规定谱峰数量之外的谱峰；

步骤1.2，对于一个已知母体质量M的二级质谱图A中的质量峰值F，获取其质量顶点；

步骤1.3，合并在间距精度η以内的的顶点，并添加质量为0和母体质量为M的两个顶点作为图的开始点和结束点；

步骤1.4，当两个顶点的质量差在误差范围内等于一个或多个氨基酸残基质量的总和时，将它们连接起来，并记录该边质量对应的所有可能的氨基酸或氨基酸组合，重复该操作直到遍历完所有顶点将二级质谱转换为有向无环图，建立谱峰连接图；

步骤1.5，利用深度优先算法或者动态规划算法获取所有能从开始点到结束点的路径，得到N条蛋白质长序列；

步骤1.6，通过裂解从N条蛋白质长序列中获取长度不定的候选肽序列标签集。

根据本公开实施例的一种具体实现方式，所述步骤2具体包括：

步骤2.1，将候选序列标签作为输入，利用预训练模型提取候选肽序列标签集T中的候选序列标签嵌入向量；

步骤2.2，将候选肽序列标签集T中所有候选序列标签进行步骤2.1的操作，形成标签嵌入矩阵；

步骤2.3，采用完全连接层对每个标签嵌入矩阵的嵌入向量的维度进行缩放，得到缩放后的标签嵌入矩阵；

步骤2.4，根据缩放后的标签嵌入矩阵构建标签图；

步骤2.5，利用图注意网络获取标签图中顺序相关性增强的标签特征。

根据本公开实施例的一种具体实现方式，所述步骤3具体包括：

步骤3.1，遍历谱峰连接图，得到谱峰连接矩阵、顶点关联度矩阵和质量误差矩阵，然后将所有矩阵相加得到当前谱的特征矩阵；

步骤3.2，通过卷积神经网络模块对特征矩阵进行特征提取；

步骤3.3，将提取到的特征输入通道注意力模块提取蛋白质序列的组成相关性。

根据本公开实施例的一种具体实现方式，所述步骤3.3具体包括：

步骤3.3.1，使用1x1的卷积层将提取到的特征压缩成一个紧凑的向量其中，计算公式为x_k2＝f^1×1(x_k)，f^1×1(·)为卷积核大小为1x1的卷积层；

步骤3.3.2，利用大小为1x1、组数为g的卷积核进行分组卷积，并通过全局池化操作对得到的特征进行处理，从而得到特征向量其中，计算公式为x_k3＝f^pool(f^group(x_k2))，f^group(·)为分组卷积运算，f^pool(·)为全局最大池化层，将特征向量x_k3分为g组，每组特征/>中包含C2/g个特征，此时/>

步骤3.3.3，计算每对通道特征和/>的相关边，得到边集相关矩阵E_c，从而构建通道相关图G_c(V_c,E_c)，然后利用图注意网络学习节点之间的相关性，得到特征/>其公式为x_k4＝GAT(G_c)；

步骤3.3.4，将特征x_k4和特征x_k2相乘，然后将输出结果与特征x_k2相加，得到最终结果特征x_k2'作为蛋白质序列的组成相关性。

根据本公开实施例的一种具体实现方式，所述步骤4具体包括：

步骤4.1，调整标签注意力模块和通道注意力模块的输出特征大小，得到新的特征向量，利用哈达玛积计算特征中每个元素与嵌入候选肽标签之间的关系，得到肽标签关系特征；

步骤4.2，使用softmax函数对肽标签关系特征S在所有元素上进行归一化，然后利用哈达玛积得到肽标签关系增强特征；

步骤4.3，通过两层全连接层，生成最终的预测向量作为肽序列标签，并使用交叉熵损失函数训练整个模型。

根据本公开实施例的一种具体实现方式，所述步骤5具体包括：

步骤5.1，根据母体质荷比初步搜索出符合质量的蛋白质，再将肽序列标签对应的肽标签按概率排序，选取前预设数量的肽标签，对其对应的蛋白质数据库进行筛选，得到含有肽标签的肽序列；

步骤5.2，将含有肽标签的肽序列作为理论质谱图，与预处理之后的实验质谱图计算匹配分值，得到二级质谱图对应的氨基酸序列，其中，所述匹配分值包括高强度匹配的峰值百分比、连续匹配序列长度和质量偏差；

步骤5.3，通过C-Sore将匹配分值整合，取最高分的氨基酸序列作为该二级质谱图的正确蛋白质序列。

根据本公开实施例的一种具体实现方式，所述连续匹配序列长度的计算公式为

其中，cf是理论质谱图中的裂解信号总数，tf为两图中最长的序列匹配长度，length(p)为肽段长度；

所述质量偏差的计算公式为

其中，T为最大的质量偏差，md是用来计算峰值p与其对应离子之间质量偏差的计算函数；

所述C-Sore将匹配分值整合的公式为

其中，SH为高强度匹配的峰值百分比。

本公开实施例中的基于图注意机制的肽序列标签鉴定方案，包括：步骤1，对二级质谱图进行预处理，并基于图论构建谱峰连接图生成候选肽序列标签集；步骤2，利用标签注意力模块构建标签嵌入矩阵，从训练数据中提取候选序列标签集中标签之间的顺序相关性；步骤3，通过卷积神经网络模块对二级质谱图的谱峰连接矩阵、顶点关联度矩阵和质量误差矩阵进行特征提取，并将特征作为通道注意力模块的输入提取蛋白质序列的组成相关性；步骤4，将标签注意力模块和通道注意力模块融合，构建完整的标签分类模型，从而生成肽序列标签；步骤5，将肽序列标签在蛋白质数据库中进行搜索得到理论质谱图，并其与实验质谱图进行匹配打分，得到二级质谱图对应的蛋白质序列。

本公开实施例的有益效果为：1.通过对二级质谱文件进行预处理，并基于图论构建谱峰连接图生成候选肽序列标签；利用标签注意力模块提取候选序列标签之间的顺序相关性；通过卷积神经网络模块对谱峰连接矩阵、顶点关联度矩阵和质量误差矩阵进行特征提取，并将特征作为通道注意力模块的输入提取蛋白质序列的组成相关性；将两个注意力模块有效融合，构建完整的标签分类模型，从而生成肽序列标签；利用肽标签在蛋白质数据库中进行搜索获得相关蛋白质序列，对理论质谱图和实验质谱图进行匹配打分，得到二级质谱对应的氨基酸序列；

2.利用标签注意力模块自动构建标签关系矩阵，从训练数据中有效地提取候选序列标签之间的顺序相关性，显式地建立标签之间的相关性；利用通道注意力模块获取增强的串联质谱数据特征，可以隐含地捕获标签之间的相关性，增强蛋白质序列组成之间的相关性。

3.采用改进的图注意力网络，它使用图注意网络生成一种基于稀疏矩阵操作的GAT层。这种GAT层通过自注意操作来计算自注意系数，并采用MSA扩展子空间的探索能力，使存储复杂度降低至节点和边的线性级别。这让GAT模型能够在更大的图数据集上执行，有效缓解通过人工构建训练标签的邻接矩阵存在的缺陷。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本公开实施例提供的一种基于图注意机制的肽序列标签鉴定方法的流程示意图；

图2为本公开实施例提供的一种基于图注意机制的肽序列标签鉴定方法的具体实施流程示意图；

图3为本公开实施例提供的一种标签注意力模块处理流程示意图；

图4为本公开实施例提供的一种通道注意力模块处理流程示意图。

具体实施方式

下面结合附图对本公开实施例进行详细描述。

以下通过特定的具体实例说明本公开的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本公开的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

需要说明的是，下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见，本文中所描述的方面可体现于广泛多种形式中，且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开，所属领域的技术人员应了解，本文中所描述的一个方面可与任何其它方面独立地实施，且可以各种方式组合这些方面中的两者或两者以上。举例来说，可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外，可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。

还需要说明的是，以下实施例中所提供的图示仅以示意方式说明本公开的基本构想，图式中仅显示与本公开中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

另外，在以下描述中，提供具体细节是为了便于透彻理解实例。然而，所属领域的技术人员将理解，可在没有这些特定细节的情况下实践所述方面。

本公开实施例提供一种基于图注意机制的肽序列标签鉴定方法，所述方法可以应用于生物医疗场景的蛋白质序列鉴定过程中。

参见图1，为本公开实施例提供的一种基于图注意机制的肽序列标签鉴定方法的流程示意图。如图1和图2所示，所述方法主要包括以下步骤：

进一步的，所述步骤1具体包括：

具体实施时，对二级质谱文件进行预处理，并基于图论构建谱峰连接图生成候选肽序列标签(Peptide Sequence Tag)的步骤可以如下所示：

此步骤使用的数据集是人工合成蛋白质数据集ProteomeTools1，该数据集可以从protenmeXchange蛋白质数据库中下载。

A)利用数据格式转换工具pParse(将原始格式转换为二级质谱文件格式。

B)通过过滤掉排名在规定谱峰数量之外的谱峰得到高质量的二级质谱数据。为了尽可能多的保留谱峰信息，不再增加同位素峰和其他噪音峰的删除操作。同时为了提高模型的准确度，对峰值强度进行归一化。

C)对于一个已知母体质量M的二级质谱图A中的质量峰值F，可以产生b离子和y离子的质量顶点，其中b离子类型包括b,b²⁺,b-H₂O,b-NH₂等离子碎片，y离子类型包括y,y²⁺,y-NH₃等离子碎片。

D)合并在间距精度η以内的的顶点，并添加质量为0和母体质量为M的两个顶点作为图的开始点和结束点。其中通过分析最常见离子类型之间的偏移直方图，间距精度η一般为0.5Da。

E)当两个顶点的质量差在误差范围内等于一个或多个氨基酸残基质量的总和时，将它们连接起来，并记录该边质量对应的所有可能的氨基酸或氨基酸组合。重复该操作，直到遍历完所有顶点将二级质谱转换为有向无环图，即可建立谱峰连接图G_F(D,E)。其中当顶点质量D₁和D₂之间满足以下公式：|||D₁-D₂|-D_AAi||＜ε，则连接顶点D₁和D₂，D_AAi包括所有氨基酸质量和所有单修饰的氨基酸的质量。

F)利用深度优先算法或者动态规划算法获取所有能从开始点到结束点的路径，得到n条蛋白质长序列。

G)通过裂解从N条蛋白质长序列中获取长度不定的候选肽序列标签集。具体来说，为了降低谱峰连接图中包含错误氨基酸的影响，将长度为L_i的蛋白质长序列n_i碎裂为长度不定的候选肽标签集T。令T_uv表示裂解之后产生的长度为u的第v个标签，其中3<u<k，0<v<L_i-u+1，裂解之后候选肽标签集T为：T＝{T¹,T²,···Tⁿ}，其中Tⁿ为：

在上述实施例的基础上，所述步骤2具体包括：

步骤2.4，根据缩放后的标签嵌入矩阵构建标签图；

具体实施时，利用LAM模块自动构建标签关系矩阵，从训练数据中有效地提取候选序列标签之间的顺序相关性，显式地建立标签之间的相关性的步骤可以如图3所示。

A)将候选序列标签作为输入，利用预训练模型GloVE(一个全局对数双线性回归模型)对候选肽标签集T中的候选序列标签提取嵌入向量，即通过公式：x＝f_g(w)提取嵌入向量x，其中w∈R^26×u为序列标签的氨基酸组成，x∈R^26×u，26由20中氨基酸残基、3个翻译后修饰PTM残基与3个特殊信号(开始，结束，填充)组成，u为嵌入向量的尺寸大小。

B)将T中所有候选序列标签进行上述操作，构造出一个标签嵌入矩阵Ew∈R^T×26×u。

C)为了更有效地利用图注意网络中的多头点生成，采用完全连接层对每个嵌入向量的维度进行缩放。即将向量x的维数投影到C2的维数：x'＝Wx+b，其中权重偏置向量/>故/>同理经过缩放后的标签嵌入矩阵为/>

D)用上述过程产生的E'w作为节点集V_T，缩放后的嵌入向量x’经过公式：E_T(V_T ⁱ,V_T ^j)＝(V_T ⁱ)^TV_T ^j作为边集E_T构建标签图G_T(V_T,E_T)。

E)利用图注意网络获取标签图G_T中顺序相关性增强的标签特征V_T’。图注意网络GAT(The Graph Attention Network)，能自动构造邻接矩阵A，有效缓解人工构建训练标签的邻接矩阵存在的缺陷。对于一个全连通图G(V,E)，计算图中节点V_i的自注意系数e_ij，得到节点特征V_j对节点特征V_i的重要性。为了节省计算成本，利用自注意操作来计算自注意系数，然后利用MSA(The Multi-head Attention Operation)扩展子空间的探索能力，最后对MSA输出使用ReLU非线性激活，利用批归一化层加速模型的训练过程。其中MSA过程的具体公式为：

其中‖为拼接运算，W₀为共享矩阵,为平行注意头，比例因子d_s＝d/H。

在上述实施例的基础上，所述步骤3具体包括：

步骤3.2，通过卷积神经网络模块对特征矩阵进行特征提取；

进一步的，所述步骤3.3具体包括：

具体实施时，利用CAM模块获取增强的串联质谱数据特征，可以隐含地捕获标签之间的相关性，增强蛋白质序列组成之间的相关性。具体流程可以如图4所示。

A)遍历谱峰连接图G_F(D,E)，得到谱峰连接矩阵E_f、顶点关联度矩阵E_d、质量误差矩阵E_m，然后将所有矩阵相加得到当前谱的特征矩阵。具体说明如下：

谱峰连接矩阵E_f∈R^Len×1，Len为二级质谱对应的质荷比的大小，由二级质谱中碎片离子质量的最大值和二级质谱的分辨率共同决定；1表示质量，在二级质谱图中，当峰存在时即顶点存在，此时该质量被赋值为1，否则为0，每个二级质谱图可以被表示为Lenx1大小的矩阵。

顶点关联度是指谱峰连接图中指向顶点的边数和指出顶点的边数之和，即当一个顶点存在两条边相连时数值为2，不存在边时数值为0，遍历谱峰连接图从而得到顶点关联度矩阵E_d∈R^Len×Len。

质量误差矩阵E_m∈R^Len×Ltp是用来计算谱峰观测离子与谱峰理论离子的质荷比之间的差值。首先，将前缀质量(prefix mass)定义为当前氨基酸质量加上相应末端质量，其中相应末端质量为N端离子质量或是C端离子质量。例如现有氨基酸序列为{A,T,C}其为N端离子，则前缀质量为prefix mass＝mass(A)+mass(T)+mass(C)+mass(N-ion)。计算前缀质量加上相应b离子和y离子的质量，用M_theo∈R^Len×Ltp来表示质量理论矩阵，其中Len为二级质谱对应的质荷比的大小，Ltp为离子类型数。将大小为Len的质量向量在第二个维度上扩展长度为Ltp，并命名为观测矩阵M_obser∈R^Len×Ltp。其次，用公式D＝M_theo-M_obser计算理论矩阵与观测矩阵之间的误差，每个元素表示一个观测峰值的m/z值与一个氨基酸类型和离子类型对的理论m/z值之间的差值。最后，利用激活函数σ(D)判断观测到的峰值与理论峰值的质荷比位置是否相匹配，即在观测离子与理论离子质荷比之间的差值在给定误差范围内，将元素标记为1，否则为0。其中激活函数σ(D)＝exp{-|D|*C}，由于模型的简单性和高可用型，将网络可训练的参数C固定在100。

相加三个矩阵得到当前谱的特征矩阵E_k，矩阵总的特征向量维数加起来是Lenx(Len+1+Ltp)。

B)通过CNN模块对谱峰连接矩阵、顶点关联度矩阵和质量误差矩阵进行特征提取。由于卷积网络的高层包含丰富的谱图知识信息，根据CNN网络提取的特征具有较强的识别能力，因此利用经过预训练的CNN来提取二级质谱图的特征，并将CNN模块的最后一层卷积层提取出的特征作为CAM的输入。具体来说，通过CNN模块的公式为x_k＝f_cnn(E_k；θ)，其中f_cnn(·)为特征提取模块，x_k∈R^{Len×(Len+1+Ltp)}为从最后一层卷积层提取的特征，θ为网络权值。

C)对CNN模块提取的特征，使用CAM模块提取蛋白质序列的组成相关性，该模型采用图注意网络可以自动构造相关矩阵来获取通道特征的相关性。具体的CAM模块的构建过程如下：

①为了减少计算量和参数，使用1x1的卷积层减少高级特征x_k的通道维数，将其压缩成一个紧凑的向量计算公式为x_k2＝f^1×1(x_k)，其中f^1×1(·)为卷积核大小为1x1的卷积层。

②利用大小为1x1、组数为g的卷积核进行分组卷积，并通过全局池化操作对得到的特征进行处理，从而得到特征向量计算公式为x_k3＝f^pool(f^group(x_k2))，其中f^group(·)为分组卷积运算，f^pool(·)为全局最大池化层。将特征向量x_k3分为g组，每组特征中包含C₂/g个特征，此时/>

③通过公式计算每对通道特征/>和/>的相关边，得到边集相关矩阵E_c，根据通道特征之间相关性越高，相关性得分越高，从而构建通道相关图G_c(V_c,E_c)。然后利用图注意网络学习节点之间的相关性，得到特征/>其公式为x_k4＝GAT(G_c)。通过GAT建立节点间的相关性，可以确定一个通道特征受其他特征的影响程度。相关性高的特征可以获得更高的关注值，从而促进通道特征之间的相关性。

④将特征x_k4和特征x_k2相乘，然后将输出结果与特征x_k2相加，即通过公式得到最终结果特征x_k2'作为蛋白质序列的组成相关性。

进一步的，所述步骤4具体包括：

具体实施时，将两个注意力模块融合，能有效地融合多维度的肽标签特征，进一步提高模型的性能。

A)调整LAM模块和CAM模块的输出特征大小，得到新的特征向量和/>融合这两个新的特征向量，这样能有效地融合这两个注意模块的输出特征。然后，利用哈达玛积计算特征中每个元素与嵌入候选肽标签之间的关系，具体公式为：S＝x_k2”⊙V_T”，其中/>表示已学会的肽标签关系特征。

B)使用softmax函数对肽标签关系特征S在所有元素上进行归一化，然后利用哈达玛积得到肽标签关系增强特征具体公式如下：/>S_a＝∑q'⊙S'，其中S’为上一层网络输出的肽标签关系向量。

D)通过两层全连接层，生成最终的预测向量y∈R^T，同时，还可以使用交叉熵损失函数训练整个模型，以使得模型的预测精度进一步提高。其中损失函数公式为：

其中f1(·)和f2(·)表示全连接层操作，y表示参考标签向量，σ(·)是sigmoid函数。

在上述实施例的基础上，所述步骤5具体包括：

进一步的，所述连续匹配序列长度的计算公式为

所述质量偏差的计算公式为

所述C-Sore将匹配分值整合的公式为

其中，SH为高强度匹配的峰值百分比。

具体实施时，利用预测得到肽标签结合数据库搜索方法，提出了一种基于图注意机制的肽序列标签鉴定算法，能高效地鉴定蛋白质序列。

A)经过读取数据库中的蛋白质并进行模拟水解，建立起相关蛋白质数据库。根据母体质荷比初步搜索出符合质量的蛋白质，再根据步骤四得到的前十个高概率的肽标签，对这部分蛋白质数据库进行筛选，经过两次搜索可以得到含有肽标签的肽序列。

B)将含有肽标签的肽序列作为理论质谱图，与预处理之后的实验质谱图进行匹配打分，得到二级质谱对应的氨基酸序列。其中，匹配打分从高强度匹配的峰值百分比S_H、连续匹配序列长度S_F和质量偏差S_MD三个角度来对两个质谱图进行匹配打分，。

C)通过C-Sore将三个分数整合，取最高分的氨基酸序列作为该二级质谱图的正确蛋白质序列。具体计算如下：

对于S_H，先逐个匹配碎裂离子，如果两个质谱图的碎裂离子都存在，则match(p_j)＝1，如果不存在，则match(p_j)＝0，然后全部加和取平均，得到S_H。

对于S_F，计算公式为：其中cf是理论质谱图中的裂解信号总数，tf为两图中最长的序列匹配长度。length(p)为肽段长度。

对于S_MD，利用以下公式来计算，其中T为最大的质量偏差，md是用来计算峰值p与其对应离子之间质量偏差的计算函数：

最后C-Sore利用以下公式将三个分数进行整合处理：

本实施例提供的基于图注意机制的肽序列标签鉴定方法，通过对二级质谱文件进行预处理，并基于图论构建谱峰连接图生成候选肽序列标签；利用LAM模块提取候选序列标签之间的顺序相关性；通过CNN模块对谱峰连接矩阵、顶点关联度矩阵和质量误差矩阵进行特征提取，并将特征作为CAM模块的输入提取蛋白质序列的组成相关性；将两个注意力模块有效融合，构建完整的标签分类模型，从而生成肽序列标签；利用肽标签在蛋白质数据库中进行搜索获得相关蛋白质序列，对理论质谱图和实验质谱图进行匹配打分，得到二级质谱对应的氨基酸序列；利用LAM模块自动构建标签关系矩阵，从训练数据中有效地提取候选序列标签之间的顺序相关性，显式地建立标签之间的相关性；利用CAM模块获取增强的串联质谱数据特征，可以隐含地捕获标签之间的相关性，增强蛋白质序列组成之间的相关性；采用改进的图注意力网络，它使用图注意网络生成一种基于稀疏矩阵操作的GAT层。这种GAT层通过自注意操作来计算自注意系数，并采用MSA扩展子空间的探索能力，使存储复杂度降低至节点和边的线性级别。这让GAT模型能够在更大的图数据集上执行，有效缓解通过人工构建训练标签的邻接矩阵存在的缺陷。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。

应当理解，本公开的各部分可以用硬件、软件、固件或它们的组合来实现。

以上所述，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于图注意机制的肽序列标签鉴定方法，其特征在于，包括：

所述步骤2具体包括：

步骤2.4，根据缩放后的标签嵌入矩阵构建标签图；

步骤2.5，利用图注意网络获取标签图中顺序相关性增强的标签特征；

所述步骤3具体包括：

步骤3.2，通过卷积神经网络模块对特征矩阵进行特征提取；

步骤3.3，将提取到的特征输入通道注意力模块提取蛋白质序列的组成相关性；

所述步骤3.3具体包括：

步骤3.3.1，使用1x1的卷积层将提取到的特征压缩成一个紧凑的向量其中，Len为二级质谱对应的质荷比的大小，Ltp为离子类型数，C₂表示维数，计算公式为x_k2＝f^1×1(x_k)，f^1×1(·)为卷积核大小为1x1的卷积层；

步骤3.3.4，将特征x_k4和特征x_k2相乘，然后将输出结果与特征x_k2相加，得到最终结果特征x_k2'作为蛋白质序列的组成相关性；

所述步骤4具体包括：

步骤4.3，通过两层全连接层，生成最终的预测向量作为肽序列标签，并使用交叉熵损失函数训练整个模型；

2.根据权利要求1所述的方法，其特征在于,所述步骤1具体包括：

步骤1.4，当两个顶点的质量差在误差范围内等于一个或多个氨基酸残基质量的总和时，将它们连接起来形成一条边，并记录该边质量对应的所有可能的氨基酸或氨基酸组合，重复步骤1.4直到遍历完所有顶点将二级质谱转换为有向无环图，建立谱峰连接图；

3.根据权利要求2所述的方法，其特征在于,所述步骤5具体包括：

4.根据权利要求3所述的方法，其特征在于,所述连续匹配序列长度的计算公式为

所述质量偏差的计算公式为

所述C-Sore将匹配分值整合的公式为

其中，SH为高强度匹配的峰值百分比。