CN116825198B - 基于图注意机制的肽序列标签鉴定方法 - Google Patents
基于图注意机制的肽序列标签鉴定方法 Download PDFInfo
- Publication number
- CN116825198B CN116825198B CN202310866226.9A CN202310866226A CN116825198B CN 116825198 B CN116825198 B CN 116825198B CN 202310866226 A CN202310866226 A CN 202310866226A CN 116825198 B CN116825198 B CN 116825198B
- Authority
- CN
- China
- Prior art keywords
- tag
- mass
- sequence
- peptide
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 108090000765 processed proteins & peptides Proteins 0.000 title claims abstract description 105
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000007246 mechanism Effects 0.000 title claims abstract description 15
- 239000011159 matrix material Substances 0.000 claims abstract description 83
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 57
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 57
- 238000004364 calculation method Methods 0.000 claims abstract description 23
- 230000003595 spectral effect Effects 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 20
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 16
- 239000000203 mixture Substances 0.000 claims abstract description 16
- 238000013145 classification model Methods 0.000 claims abstract description 7
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 38
- 238000001228 spectrum Methods 0.000 claims description 28
- 238000001819 mass spectrum Methods 0.000 claims description 27
- 230000006870 function Effects 0.000 claims description 17
- 150000001413 amino acids Chemical class 0.000 claims description 14
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 12
- 238000003776 cleavage reaction Methods 0.000 claims description 10
- 230000007017 scission Effects 0.000 claims description 10
- 238000010586 diagram Methods 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 7
- 101710141454 Nucleoprotein Proteins 0.000 claims description 6
- 125000000539 amino acid group Chemical group 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 108010033276 Peptide Fragments Proteins 0.000 claims description 4
- 102000007079 Peptide Fragments Human genes 0.000 claims description 4
- 150000002500 ions Chemical class 0.000 description 23
- 230000008569 process Effects 0.000 description 5
- 230000004913 activation Effects 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 238000004949 mass spectrometry Methods 0.000 description 3
- 230000004481 post-translational protein modification Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000004885 tandem mass spectrometry Methods 0.000 description 2
- 108010026552 Proteome Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004899 c-terminal region Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000007062 hydrolysis Effects 0.000 description 1
- 238000006460 hydrolysis reaction Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 102000035123 post-translationally modified proteins Human genes 0.000 description 1
- 108091005626 post-translationally modified proteins Proteins 0.000 description 1
- 238000012509 protein identification method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本公开实施例中提供了一种基于图注意机制的肽序列标签鉴定方法,属于生物信息学技术领域,具体包括:对二级质谱图进行预处理,并基于图论构建谱峰连接图生成候选肽序列标签集;利用标签注意力模块构建标签嵌入矩阵,从训练数据中提取候选序列标签集中标签之间的顺序相关性;通过卷积神经网络模块进行特征提取,并将特征作为通道注意力模块的输入提取蛋白质序列的组成相关性;将标签注意力模块和通道注意力模块融合,构建完整的标签分类模型,从而生成肽序列标签;将肽序列标签在蛋白质数据库中进行搜索得到理论质谱图,并其与实验质谱图进行匹配打分,得到二级质谱图对应的蛋白质序列。通过本公开的方案,提高了计算效率、精准度和适应性。
Description
技术领域
本公开实施例涉及生物信息学技术领域,尤其涉及一种基于图注意机制的肽序列标签鉴定方法。
背景技术
在蛋白质组学中,基于肽序列标签的数据库搜索算法是de novo方法和数据库搜索算法的结合,是蛋白质组学中利用串联质谱数据鉴定蛋白质的关键技术。利用de novo方法得到局部肽序列,再利用该序列进行数据库搜索,最终确定蛋白质序列。
随着蛋白质组数据库的不断扩充和质谱数据量的急剧增加,需要鉴定的氨基酸序列数量也随之增多。目前,已有的鉴定方法已无法满足研究人员的需求。
目前存在着两种主要的蛋白质鉴定方法:基于数据库搜索和从头测序。然而,这些方法都存在一些缺陷。
数据库搜索方法:严重依赖于蛋白质数据库的正确性,无法鉴定出翻译后修饰的蛋白质,并且由于搜索空间大,计算时间很长。
从头测序方法:不依赖数据库,需要高质量的MS/MS谱,不能有效分辨图谱中信号模糊区域的x型离子和y型离子,可靠性较低。
肽序列标签方法:能有效地处理数据库规模过大和蛋白质的翻译后修饰等问题。不能根据每个实验谱信息生成准确的序列标签。
可见,亟需一种计算效率和适应性高的基于图注意机制的肽序列标签鉴定方法。
发明内容
有鉴于此,本公开实施例提供一种基于图注意机制的肽序列标签鉴定方法,至少部分解决现有技术中存在计算效率和适应性较差的问题。
本公开实施例提供了一种基于图注意机制的肽序列标签鉴定方法,包括:
步骤1,对二级质谱图进行预处理,并基于图论构建谱峰连接图生成候选肽序列标签集;
步骤2,利用标签注意力模块构建标签嵌入矩阵,从训练数据中提取候选序列标签集中标签之间的顺序相关性;
步骤3,通过卷积神经网络模块对二级质谱图的谱峰连接矩阵、顶点关联度矩阵和质量误差矩阵进行特征提取,并将特征作为通道注意力模块的输入提取蛋白质序列的组成相关性;
步骤4,将标签注意力模块和通道注意力模块融合,构建完整的标签分类模型,从而生成肽序列标签;
步骤5,将肽序列标签在蛋白质数据库中进行搜索得到理论质谱图,并其与实验质谱图进行匹配打分,得到二级质谱图对应的蛋白质序列。
根据本公开实施例的一种具体实现方式,所述步骤1具体包括:
步骤1.1,筛除二级质谱图中排名在规定谱峰数量之外的谱峰;
步骤1.2,对于一个已知母体质量M的二级质谱图A中的质量峰值F,获取其质量顶点;
步骤1.3,合并在间距精度η以内的的顶点,并添加质量为0和母体质量为M的两个顶点作为图的开始点和结束点;
步骤1.4,当两个顶点的质量差在误差范围内等于一个或多个氨基酸残基质量的总和时,将它们连接起来,并记录该边质量对应的所有可能的氨基酸或氨基酸组合,重复该操作直到遍历完所有顶点将二级质谱转换为有向无环图,建立谱峰连接图;
步骤1.5,利用深度优先算法或者动态规划算法获取所有能从开始点到结束点的路径,得到N条蛋白质长序列;
步骤1.6,通过裂解从N条蛋白质长序列中获取长度不定的候选肽序列标签集。
根据本公开实施例的一种具体实现方式,所述步骤2具体包括:
步骤2.1,将候选序列标签作为输入,利用预训练模型提取候选肽序列标签集T中的候选序列标签嵌入向量;
步骤2.2,将候选肽序列标签集T中所有候选序列标签进行步骤2.1的操作,形成标签嵌入矩阵;
步骤2.3,采用完全连接层对每个标签嵌入矩阵的嵌入向量的维度进行缩放,得到缩放后的标签嵌入矩阵;
步骤2.4,根据缩放后的标签嵌入矩阵构建标签图;
步骤2.5,利用图注意网络获取标签图中顺序相关性增强的标签特征。
根据本公开实施例的一种具体实现方式,所述步骤3具体包括:
步骤3.1,遍历谱峰连接图,得到谱峰连接矩阵、顶点关联度矩阵和质量误差矩阵,然后将所有矩阵相加得到当前谱的特征矩阵;
步骤3.2,通过卷积神经网络模块对特征矩阵进行特征提取;
步骤3.3,将提取到的特征输入通道注意力模块提取蛋白质序列的组成相关性。
根据本公开实施例的一种具体实现方式,所述步骤3.3具体包括:
步骤3.3.1,使用1x1的卷积层将提取到的特征压缩成一个紧凑的向量其中,计算公式为xk2=f1×1(xk),f1×1(·)为卷积核大小为1x1的卷积层;
步骤3.3.2,利用大小为1x1、组数为g的卷积核进行分组卷积,并通过全局池化操作对得到的特征进行处理,从而得到特征向量其中,计算公式为xk3=fpool(fgroup(xk2)),fgroup(·)为分组卷积运算,fpool(·)为全局最大池化层,将特征向量xk3分为g组,每组特征/>中包含C2/g个特征,此时/>
步骤3.3.3,计算每对通道特征和/>的相关边,得到边集相关矩阵Ec,从而构建通道相关图Gc(Vc,Ec),然后利用图注意网络学习节点之间的相关性,得到特征/>其公式为xk4=GAT(Gc);
步骤3.3.4,将特征xk4和特征xk2相乘,然后将输出结果与特征xk2相加,得到最终结果特征xk2'作为蛋白质序列的组成相关性。
根据本公开实施例的一种具体实现方式,所述步骤4具体包括:
步骤4.1,调整标签注意力模块和通道注意力模块的输出特征大小,得到新的特征向量,利用哈达玛积计算特征中每个元素与嵌入候选肽标签之间的关系,得到肽标签关系特征;
步骤4.2,使用softmax函数对肽标签关系特征S在所有元素上进行归一化,然后利用哈达玛积得到肽标签关系增强特征;
步骤4.3,通过两层全连接层,生成最终的预测向量作为肽序列标签,并使用交叉熵损失函数训练整个模型。
根据本公开实施例的一种具体实现方式,所述步骤5具体包括:
步骤5.1,根据母体质荷比初步搜索出符合质量的蛋白质,再将肽序列标签对应的肽标签按概率排序,选取前预设数量的肽标签,对其对应的蛋白质数据库进行筛选,得到含有肽标签的肽序列;
步骤5.2,将含有肽标签的肽序列作为理论质谱图,与预处理之后的实验质谱图计算匹配分值,得到二级质谱图对应的氨基酸序列,其中,所述匹配分值包括高强度匹配的峰值百分比、连续匹配序列长度和质量偏差;
步骤5.3,通过C-Sore将匹配分值整合,取最高分的氨基酸序列作为该二级质谱图的正确蛋白质序列。
根据本公开实施例的一种具体实现方式,所述连续匹配序列长度的计算公式为
其中,cf是理论质谱图中的裂解信号总数,tf为两图中最长的序列匹配长度,length(p)为肽段长度;
所述质量偏差的计算公式为
其中,T为最大的质量偏差,md是用来计算峰值p与其对应离子之间质量偏差的计算函数;
所述C-Sore将匹配分值整合的公式为
其中,SH为高强度匹配的峰值百分比。
本公开实施例中的基于图注意机制的肽序列标签鉴定方案,包括:步骤1,对二级质谱图进行预处理,并基于图论构建谱峰连接图生成候选肽序列标签集;步骤2,利用标签注意力模块构建标签嵌入矩阵,从训练数据中提取候选序列标签集中标签之间的顺序相关性;步骤3,通过卷积神经网络模块对二级质谱图的谱峰连接矩阵、顶点关联度矩阵和质量误差矩阵进行特征提取,并将特征作为通道注意力模块的输入提取蛋白质序列的组成相关性;步骤4,将标签注意力模块和通道注意力模块融合,构建完整的标签分类模型,从而生成肽序列标签;步骤5,将肽序列标签在蛋白质数据库中进行搜索得到理论质谱图,并其与实验质谱图进行匹配打分,得到二级质谱图对应的蛋白质序列。
本公开实施例的有益效果为:1.通过对二级质谱文件进行预处理,并基于图论构建谱峰连接图生成候选肽序列标签;利用标签注意力模块提取候选序列标签之间的顺序相关性;通过卷积神经网络模块对谱峰连接矩阵、顶点关联度矩阵和质量误差矩阵进行特征提取,并将特征作为通道注意力模块的输入提取蛋白质序列的组成相关性;将两个注意力模块有效融合,构建完整的标签分类模型,从而生成肽序列标签;利用肽标签在蛋白质数据库中进行搜索获得相关蛋白质序列,对理论质谱图和实验质谱图进行匹配打分,得到二级质谱对应的氨基酸序列;
2.利用标签注意力模块自动构建标签关系矩阵,从训练数据中有效地提取候选序列标签之间的顺序相关性,显式地建立标签之间的相关性;利用通道注意力模块获取增强的串联质谱数据特征,可以隐含地捕获标签之间的相关性,增强蛋白质序列组成之间的相关性。
3.采用改进的图注意力网络,它使用图注意网络生成一种基于稀疏矩阵操作的GAT层。这种GAT层通过自注意操作来计算自注意系数,并采用MSA扩展子空间的探索能力,使存储复杂度降低至节点和边的线性级别。这让GAT模型能够在更大的图数据集上执行,有效缓解通过人工构建训练标签的邻接矩阵存在的缺陷。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本公开实施例提供的一种基于图注意机制的肽序列标签鉴定方法的流程示意图;
图2为本公开实施例提供的一种基于图注意机制的肽序列标签鉴定方法的具体实施流程示意图;
图3为本公开实施例提供的一种标签注意力模块处理流程示意图;
图4为本公开实施例提供的一种通道注意力模块处理流程示意图。
具体实施方式
下面结合附图对本公开实施例进行详细描述。
以下通过特定的具体实例说明本公开的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本公开的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
还需要说明的是,以下实施例中所提供的图示仅以示意方式说明本公开的基本构想,图式中仅显示与本公开中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
另外,在以下描述中,提供具体细节是为了便于透彻理解实例。然而,所属领域的技术人员将理解,可在没有这些特定细节的情况下实践所述方面。
本公开实施例提供一种基于图注意机制的肽序列标签鉴定方法,所述方法可以应用于生物医疗场景的蛋白质序列鉴定过程中。
参见图1,为本公开实施例提供的一种基于图注意机制的肽序列标签鉴定方法的流程示意图。如图1和图2所示,所述方法主要包括以下步骤:
步骤1,对二级质谱图进行预处理,并基于图论构建谱峰连接图生成候选肽序列标签集;
进一步的,所述步骤1具体包括:
步骤1.1,筛除二级质谱图中排名在规定谱峰数量之外的谱峰;
步骤1.2,对于一个已知母体质量M的二级质谱图A中的质量峰值F,获取其质量顶点;
步骤1.3,合并在间距精度η以内的的顶点,并添加质量为0和母体质量为M的两个顶点作为图的开始点和结束点;
步骤1.4,当两个顶点的质量差在误差范围内等于一个或多个氨基酸残基质量的总和时,将它们连接起来,并记录该边质量对应的所有可能的氨基酸或氨基酸组合,重复该操作直到遍历完所有顶点将二级质谱转换为有向无环图,建立谱峰连接图;
步骤1.5,利用深度优先算法或者动态规划算法获取所有能从开始点到结束点的路径,得到N条蛋白质长序列;
步骤1.6,通过裂解从N条蛋白质长序列中获取长度不定的候选肽序列标签集。
具体实施时,对二级质谱文件进行预处理,并基于图论构建谱峰连接图生成候选肽序列标签(Peptide Sequence Tag)的步骤可以如下所示:
此步骤使用的数据集是人工合成蛋白质数据集ProteomeTools1,该数据集可以从protenmeXchange蛋白质数据库中下载。
A)利用数据格式转换工具pParse(将原始格式转换为二级质谱文件格式。
B)通过过滤掉排名在规定谱峰数量之外的谱峰得到高质量的二级质谱数据。为了尽可能多的保留谱峰信息,不再增加同位素峰和其他噪音峰的删除操作。同时为了提高模型的准确度,对峰值强度进行归一化。
C)对于一个已知母体质量M的二级质谱图A中的质量峰值F,可以产生b离子和y离子的质量顶点,其中b离子类型包括b,b2+,b-H2O,b-NH2等离子碎片,y离子类型包括y,y2+,y-NH3等离子碎片。
D)合并在间距精度η以内的的顶点,并添加质量为0和母体质量为M的两个顶点作为图的开始点和结束点。其中通过分析最常见离子类型之间的偏移直方图,间距精度η一般为0.5Da。
E)当两个顶点的质量差在误差范围内等于一个或多个氨基酸残基质量的总和时,将它们连接起来,并记录该边质量对应的所有可能的氨基酸或氨基酸组合。重复该操作,直到遍历完所有顶点将二级质谱转换为有向无环图,即可建立谱峰连接图GF(D,E)。其中当顶点质量D1和D2之间满足以下公式:|||D1-D2|-DAAi||<ε,则连接顶点D1和D2,DAAi包括所有氨基酸质量和所有单修饰的氨基酸的质量。
F)利用深度优先算法或者动态规划算法获取所有能从开始点到结束点的路径,得到n条蛋白质长序列。
G)通过裂解从N条蛋白质长序列中获取长度不定的候选肽序列标签集。具体来说,为了降低谱峰连接图中包含错误氨基酸的影响,将长度为Li的蛋白质长序列ni碎裂为长度不定的候选肽标签集T。令Tuv表示裂解之后产生的长度为u的第v个标签,其中3<u<k,0<v<Li-u+1,裂解之后候选肽标签集T为:T={T1,T2,···Tn},其中Tn为:
步骤2,利用标签注意力模块构建标签嵌入矩阵,从训练数据中提取候选序列标签集中标签之间的顺序相关性;
在上述实施例的基础上,所述步骤2具体包括:
步骤2.1,将候选序列标签作为输入,利用预训练模型提取候选肽序列标签集T中的候选序列标签嵌入向量;
步骤2.2,将候选肽序列标签集T中所有候选序列标签进行步骤2.1的操作,形成标签嵌入矩阵;
步骤2.3,采用完全连接层对每个标签嵌入矩阵的嵌入向量的维度进行缩放,得到缩放后的标签嵌入矩阵;
步骤2.4,根据缩放后的标签嵌入矩阵构建标签图;
步骤2.5,利用图注意网络获取标签图中顺序相关性增强的标签特征。
具体实施时,利用LAM模块自动构建标签关系矩阵,从训练数据中有效地提取候选序列标签之间的顺序相关性,显式地建立标签之间的相关性的步骤可以如图3所示。
A)将候选序列标签作为输入,利用预训练模型GloVE(一个全局对数双线性回归模型)对候选肽标签集T中的候选序列标签提取嵌入向量,即通过公式:x=fg(w)提取嵌入向量x,其中w∈R26×u为序列标签的氨基酸组成,x∈R26×u,26由20中氨基酸残基、3个翻译后修饰PTM残基与3个特殊信号(开始,结束,填充)组成,u为嵌入向量的尺寸大小。
B)将T中所有候选序列标签进行上述操作,构造出一个标签嵌入矩阵Ew∈RT×26×u。
C)为了更有效地利用图注意网络中的多头点生成,采用完全连接层对每个嵌入向量的维度进行缩放。即将向量x的维数投影到C2的维数:x'=Wx+b,其中权重偏置向量/>故/>同理经过缩放后的标签嵌入矩阵为/>
D)用上述过程产生的E'w作为节点集VT,缩放后的嵌入向量x’经过公式:ET(VT i,VT j)=(VT i)TVT j作为边集ET构建标签图GT(VT,ET)。
E)利用图注意网络获取标签图GT中顺序相关性增强的标签特征VT’。图注意网络GAT(The Graph Attention Network),能自动构造邻接矩阵A,有效缓解人工构建训练标签的邻接矩阵存在的缺陷。对于一个全连通图G(V,E),计算图中节点Vi的自注意系数eij,得到节点特征Vj对节点特征Vi的重要性。为了节省计算成本,利用自注意操作来计算自注意系数,然后利用MSA(The Multi-head Attention Operation)扩展子空间的探索能力,最后对MSA输出使用ReLU非线性激活,利用批归一化层加速模型的训练过程。其中MSA过程的具体公式为:
其中‖为拼接运算,W0为共享矩阵,为平行注意头,比例因子ds=d/H。
步骤3,通过卷积神经网络模块对二级质谱图的谱峰连接矩阵、顶点关联度矩阵和质量误差矩阵进行特征提取,并将特征作为通道注意力模块的输入提取蛋白质序列的组成相关性;
在上述实施例的基础上,所述步骤3具体包括:
步骤3.1,遍历谱峰连接图,得到谱峰连接矩阵、顶点关联度矩阵和质量误差矩阵,然后将所有矩阵相加得到当前谱的特征矩阵;
步骤3.2,通过卷积神经网络模块对特征矩阵进行特征提取;
步骤3.3,将提取到的特征输入通道注意力模块提取蛋白质序列的组成相关性。
进一步的,所述步骤3.3具体包括:
步骤3.3.1,使用1x1的卷积层将提取到的特征压缩成一个紧凑的向量其中,计算公式为xk2=f1×1(xk),f1×1(·)为卷积核大小为1x1的卷积层;
步骤3.3.2,利用大小为1x1、组数为g的卷积核进行分组卷积,并通过全局池化操作对得到的特征进行处理,从而得到特征向量其中,计算公式为xk3=fpool(fgroup(xk2)),fgroup(·)为分组卷积运算,fpool(·)为全局最大池化层,将特征向量xk3分为g组,每组特征/>中包含C2/g个特征,此时/>
步骤3.3.3,计算每对通道特征和/>的相关边,得到边集相关矩阵Ec,从而构建通道相关图Gc(Vc,Ec),然后利用图注意网络学习节点之间的相关性,得到特征/>其公式为xk4=GAT(Gc);
步骤3.3.4,将特征xk4和特征xk2相乘,然后将输出结果与特征xk2相加,得到最终结果特征xk2'作为蛋白质序列的组成相关性。
具体实施时,利用CAM模块获取增强的串联质谱数据特征,可以隐含地捕获标签之间的相关性,增强蛋白质序列组成之间的相关性。具体流程可以如图4所示。
A)遍历谱峰连接图GF(D,E),得到谱峰连接矩阵Ef、顶点关联度矩阵Ed、质量误差矩阵Em,然后将所有矩阵相加得到当前谱的特征矩阵。具体说明如下:
谱峰连接矩阵Ef∈RLen×1,Len为二级质谱对应的质荷比的大小,由二级质谱中碎片离子质量的最大值和二级质谱的分辨率共同决定;1表示质量,在二级质谱图中,当峰存在时即顶点存在,此时该质量被赋值为1,否则为0,每个二级质谱图可以被表示为Lenx1大小的矩阵。
顶点关联度是指谱峰连接图中指向顶点的边数和指出顶点的边数之和,即当一个顶点存在两条边相连时数值为2,不存在边时数值为0,遍历谱峰连接图从而得到顶点关联度矩阵Ed∈RLen×Len。
质量误差矩阵Em∈RLen×Ltp是用来计算谱峰观测离子与谱峰理论离子的质荷比之间的差值。首先,将前缀质量(prefix mass)定义为当前氨基酸质量加上相应末端质量,其中相应末端质量为N端离子质量或是C端离子质量。例如现有氨基酸序列为{A,T,C}其为N端离子,则前缀质量为prefix mass=mass(A)+mass(T)+mass(C)+mass(N-ion)。计算前缀质量加上相应b离子和y离子的质量,用Mtheo∈RLen×Ltp来表示质量理论矩阵,其中Len为二级质谱对应的质荷比的大小,Ltp为离子类型数。将大小为Len的质量向量在第二个维度上扩展长度为Ltp,并命名为观测矩阵Mobser∈RLen×Ltp。其次,用公式D=Mtheo-Mobser计算理论矩阵与观测矩阵之间的误差,每个元素表示一个观测峰值的m/z值与一个氨基酸类型和离子类型对的理论m/z值之间的差值。最后,利用激活函数σ(D)判断观测到的峰值与理论峰值的质荷比位置是否相匹配,即在观测离子与理论离子质荷比之间的差值在给定误差范围内,将元素标记为1,否则为0。其中激活函数σ(D)=exp{-|D|*C},由于模型的简单性和高可用型,将网络可训练的参数C固定在100。
相加三个矩阵得到当前谱的特征矩阵Ek,矩阵总的特征向量维数加起来是Lenx(Len+1+Ltp)。
B)通过CNN模块对谱峰连接矩阵、顶点关联度矩阵和质量误差矩阵进行特征提取。由于卷积网络的高层包含丰富的谱图知识信息,根据CNN网络提取的特征具有较强的识别能力,因此利用经过预训练的CNN来提取二级质谱图的特征,并将CNN模块的最后一层卷积层提取出的特征作为CAM的输入。具体来说,通过CNN模块的公式为xk=fcnn(Ek;θ),其中fcnn(·)为特征提取模块,xk∈RLen×(Len+1+Ltp)为从最后一层卷积层提取的特征,θ为网络权值。
C)对CNN模块提取的特征,使用CAM模块提取蛋白质序列的组成相关性,该模型采用图注意网络可以自动构造相关矩阵来获取通道特征的相关性。具体的CAM模块的构建过程如下:
①为了减少计算量和参数,使用1x1的卷积层减少高级特征xk的通道维数,将其压缩成一个紧凑的向量计算公式为xk2=f1×1(xk),其中f1×1(·)为卷积核大小为1x1的卷积层。
②利用大小为1x1、组数为g的卷积核进行分组卷积,并通过全局池化操作对得到的特征进行处理,从而得到特征向量计算公式为xk3=fpool(fgroup(xk2)),其中fgroup(·)为分组卷积运算,fpool(·)为全局最大池化层。将特征向量xk3分为g组,每组特征中包含C2/g个特征,此时/>
③通过公式计算每对通道特征/>和/>的相关边,得到边集相关矩阵Ec,根据通道特征之间相关性越高,相关性得分越高,从而构建通道相关图Gc(Vc,Ec)。然后利用图注意网络学习节点之间的相关性,得到特征/>其公式为xk4=GAT(Gc)。通过GAT建立节点间的相关性,可以确定一个通道特征受其他特征的影响程度。相关性高的特征可以获得更高的关注值,从而促进通道特征之间的相关性。
④将特征xk4和特征xk2相乘,然后将输出结果与特征xk2相加,即通过公式得到最终结果特征xk2'作为蛋白质序列的组成相关性。
步骤4,将标签注意力模块和通道注意力模块融合,构建完整的标签分类模型,从而生成肽序列标签;
进一步的,所述步骤4具体包括:
步骤4.1,调整标签注意力模块和通道注意力模块的输出特征大小,得到新的特征向量,利用哈达玛积计算特征中每个元素与嵌入候选肽标签之间的关系,得到肽标签关系特征;
步骤4.2,使用softmax函数对肽标签关系特征S在所有元素上进行归一化,然后利用哈达玛积得到肽标签关系增强特征;
步骤4.3,通过两层全连接层,生成最终的预测向量作为肽序列标签,并使用交叉熵损失函数训练整个模型。
具体实施时,将两个注意力模块融合,能有效地融合多维度的肽标签特征,进一步提高模型的性能。
A)调整LAM模块和CAM模块的输出特征大小,得到新的特征向量和/>融合这两个新的特征向量,这样能有效地融合这两个注意模块的输出特征。然后,利用哈达玛积计算特征中每个元素与嵌入候选肽标签之间的关系,具体公式为:S=xk2”⊙VT”,其中/>表示已学会的肽标签关系特征。
B)使用softmax函数对肽标签关系特征S在所有元素上进行归一化,然后利用哈达玛积得到肽标签关系增强特征具体公式如下:/>Sa=∑q'⊙S',其中S’为上一层网络输出的肽标签关系向量。
D)通过两层全连接层,生成最终的预测向量y∈RT,同时,还可以使用交叉熵损失函数训练整个模型,以使得模型的预测精度进一步提高。其中损失函数公式为:
其中f1(·)和f2(·)表示全连接层操作,y表示参考标签向量,σ(·)是sigmoid函数。
步骤5,将肽序列标签在蛋白质数据库中进行搜索得到理论质谱图,并其与实验质谱图进行匹配打分,得到二级质谱图对应的蛋白质序列。
在上述实施例的基础上,所述步骤5具体包括:
步骤5.1,根据母体质荷比初步搜索出符合质量的蛋白质,再将肽序列标签对应的肽标签按概率排序,选取前预设数量的肽标签,对其对应的蛋白质数据库进行筛选,得到含有肽标签的肽序列;
步骤5.2,将含有肽标签的肽序列作为理论质谱图,与预处理之后的实验质谱图计算匹配分值,得到二级质谱图对应的氨基酸序列,其中,所述匹配分值包括高强度匹配的峰值百分比、连续匹配序列长度和质量偏差;
步骤5.3,通过C-Sore将匹配分值整合,取最高分的氨基酸序列作为该二级质谱图的正确蛋白质序列。
进一步的,所述连续匹配序列长度的计算公式为
其中,cf是理论质谱图中的裂解信号总数,tf为两图中最长的序列匹配长度,length(p)为肽段长度;
所述质量偏差的计算公式为
其中,T为最大的质量偏差,md是用来计算峰值p与其对应离子之间质量偏差的计算函数;
所述C-Sore将匹配分值整合的公式为
其中,SH为高强度匹配的峰值百分比。
具体实施时,利用预测得到肽标签结合数据库搜索方法,提出了一种基于图注意机制的肽序列标签鉴定算法,能高效地鉴定蛋白质序列。
A)经过读取数据库中的蛋白质并进行模拟水解,建立起相关蛋白质数据库。根据母体质荷比初步搜索出符合质量的蛋白质,再根据步骤四得到的前十个高概率的肽标签,对这部分蛋白质数据库进行筛选,经过两次搜索可以得到含有肽标签的肽序列。
B)将含有肽标签的肽序列作为理论质谱图,与预处理之后的实验质谱图进行匹配打分,得到二级质谱对应的氨基酸序列。其中,匹配打分从高强度匹配的峰值百分比SH、连续匹配序列长度SF和质量偏差SMD三个角度来对两个质谱图进行匹配打分,。
C)通过C-Sore将三个分数整合,取最高分的氨基酸序列作为该二级质谱图的正确蛋白质序列。具体计算如下:
对于SH,先逐个匹配碎裂离子,如果两个质谱图的碎裂离子都存在,则match(pj)=1,如果不存在,则match(pj)=0,然后全部加和取平均,得到SH。
对于SF,计算公式为:其中cf是理论质谱图中的裂解信号总数,tf为两图中最长的序列匹配长度。length(p)为肽段长度。
对于SMD,利用以下公式来计算,其中T为最大的质量偏差,md是用来计算峰值p与其对应离子之间质量偏差的计算函数:
最后C-Sore利用以下公式将三个分数进行整合处理:
本实施例提供的基于图注意机制的肽序列标签鉴定方法,通过对二级质谱文件进行预处理,并基于图论构建谱峰连接图生成候选肽序列标签;利用LAM模块提取候选序列标签之间的顺序相关性;通过CNN模块对谱峰连接矩阵、顶点关联度矩阵和质量误差矩阵进行特征提取,并将特征作为CAM模块的输入提取蛋白质序列的组成相关性;将两个注意力模块有效融合,构建完整的标签分类模型,从而生成肽序列标签;利用肽标签在蛋白质数据库中进行搜索获得相关蛋白质序列,对理论质谱图和实验质谱图进行匹配打分,得到二级质谱对应的氨基酸序列;利用LAM模块自动构建标签关系矩阵,从训练数据中有效地提取候选序列标签之间的顺序相关性,显式地建立标签之间的相关性;利用CAM模块获取增强的串联质谱数据特征,可以隐含地捕获标签之间的相关性,增强蛋白质序列组成之间的相关性;采用改进的图注意力网络,它使用图注意网络生成一种基于稀疏矩阵操作的GAT层。这种GAT层通过自注意操作来计算自注意系数,并采用MSA扩展子空间的探索能力,使存储复杂度降低至节点和边的线性级别。这让GAT模型能够在更大的图数据集上执行,有效缓解通过人工构建训练标签的邻接矩阵存在的缺陷。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。
应当理解,本公开的各部分可以用硬件、软件、固件或它们的组合来实现。
以上所述,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以权利要求的保护范围为准。
Claims (4)
1.一种基于图注意机制的肽序列标签鉴定方法,其特征在于,包括:
步骤1,对二级质谱图进行预处理,并基于图论构建谱峰连接图生成候选肽序列标签集;
步骤2,利用标签注意力模块构建标签嵌入矩阵,从训练数据中提取候选序列标签集中标签之间的顺序相关性;
所述步骤2具体包括:
步骤2.1,将候选序列标签作为输入,利用预训练模型提取候选肽序列标签集T中的候选序列标签嵌入向量;
步骤2.2,将候选肽序列标签集T中所有候选序列标签进行步骤2.1的操作,形成标签嵌入矩阵;
步骤2.3,采用完全连接层对每个标签嵌入矩阵的嵌入向量的维度进行缩放,得到缩放后的标签嵌入矩阵;
步骤2.4,根据缩放后的标签嵌入矩阵构建标签图;
步骤2.5,利用图注意网络获取标签图中顺序相关性增强的标签特征;
步骤3,通过卷积神经网络模块对二级质谱图的谱峰连接矩阵、顶点关联度矩阵和质量误差矩阵进行特征提取,并将特征作为通道注意力模块的输入提取蛋白质序列的组成相关性;
所述步骤3具体包括:
步骤3.1,遍历谱峰连接图,得到谱峰连接矩阵、顶点关联度矩阵和质量误差矩阵,然后将所有矩阵相加得到当前谱的特征矩阵;
步骤3.2,通过卷积神经网络模块对特征矩阵进行特征提取;
步骤3.3,将提取到的特征输入通道注意力模块提取蛋白质序列的组成相关性;
所述步骤3.3具体包括:
步骤3.3.1,使用1x1的卷积层将提取到的特征压缩成一个紧凑的向量其中,Len为二级质谱对应的质荷比的大小,Ltp为离子类型数,C2表示维数,计算公式为xk2=f1×1(xk),f1×1(·)为卷积核大小为1x1的卷积层;
步骤3.3.2,利用大小为1x1、组数为g的卷积核进行分组卷积,并通过全局池化操作对得到的特征进行处理,从而得到特征向量其中,计算公式为xk3=fpool(fgroup(xk2)),fgroup(·)为分组卷积运算,fpool(·)为全局最大池化层,将特征向量xk3分为g组,每组特征/>中包含C2/g个特征,此时/>
步骤3.3.3,计算每对通道特征和/>的相关边,得到边集相关矩阵Ec,从而构建通道相关图Gc(Vc,Ec),然后利用图注意网络学习节点之间的相关性,得到特征/>其公式为xk4=GAT(Gc);
步骤3.3.4,将特征xk4和特征xk2相乘,然后将输出结果与特征xk2相加,得到最终结果特征xk2'作为蛋白质序列的组成相关性;
步骤4,将标签注意力模块和通道注意力模块融合,构建完整的标签分类模型,从而生成肽序列标签;
所述步骤4具体包括:
步骤4.1,调整标签注意力模块和通道注意力模块的输出特征大小,得到新的特征向量,利用哈达玛积计算特征中每个元素与嵌入候选肽标签之间的关系,得到肽标签关系特征;
步骤4.2,使用softmax函数对肽标签关系特征S在所有元素上进行归一化,然后利用哈达玛积得到肽标签关系增强特征;
步骤4.3,通过两层全连接层,生成最终的预测向量作为肽序列标签,并使用交叉熵损失函数训练整个模型;
步骤5,将肽序列标签在蛋白质数据库中进行搜索得到理论质谱图,并其与实验质谱图进行匹配打分,得到二级质谱图对应的蛋白质序列。
2.根据权利要求1所述的方法,其特征在于,所述步骤1具体包括:
步骤1.1,筛除二级质谱图中排名在规定谱峰数量之外的谱峰;
步骤1.2,对于一个已知母体质量M的二级质谱图A中的质量峰值F,获取其质量顶点;
步骤1.3,合并在间距精度η以内的的顶点,并添加质量为0和母体质量为M的两个顶点作为图的开始点和结束点;
步骤1.4,当两个顶点的质量差在误差范围内等于一个或多个氨基酸残基质量的总和时,将它们连接起来形成一条边,并记录该边质量对应的所有可能的氨基酸或氨基酸组合,重复步骤1.4直到遍历完所有顶点将二级质谱转换为有向无环图,建立谱峰连接图;
步骤1.5,利用深度优先算法或者动态规划算法获取所有能从开始点到结束点的路径,得到N条蛋白质长序列;
步骤1.6,通过裂解从N条蛋白质长序列中获取长度不定的候选肽序列标签集。
3.根据权利要求2所述的方法,其特征在于,所述步骤5具体包括:
步骤5.1,根据母体质荷比初步搜索出符合质量的蛋白质,再将肽序列标签对应的肽标签按概率排序,选取前预设数量的肽标签,对其对应的蛋白质数据库进行筛选,得到含有肽标签的肽序列;
步骤5.2,将含有肽标签的肽序列作为理论质谱图,与预处理之后的实验质谱图计算匹配分值,得到二级质谱图对应的氨基酸序列,其中,所述匹配分值包括高强度匹配的峰值百分比、连续匹配序列长度和质量偏差;
步骤5.3,通过C-Sore将匹配分值整合,取最高分的氨基酸序列作为该二级质谱图的正确蛋白质序列。
4.根据权利要求3所述的方法,其特征在于,所述连续匹配序列长度的计算公式为
其中,cf是理论质谱图中的裂解信号总数,tf为两图中最长的序列匹配长度,length(p)为肽段长度;
所述质量偏差的计算公式为
其中,T为最大的质量偏差,md是用来计算峰值p与其对应离子之间质量偏差的计算函数;
所述C-Sore将匹配分值整合的公式为
其中,SH为高强度匹配的峰值百分比。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310866226.9A CN116825198B (zh) | 2023-07-14 | 2023-07-14 | 基于图注意机制的肽序列标签鉴定方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310866226.9A CN116825198B (zh) | 2023-07-14 | 2023-07-14 | 基于图注意机制的肽序列标签鉴定方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116825198A CN116825198A (zh) | 2023-09-29 |
CN116825198B true CN116825198B (zh) | 2024-05-10 |
Family
ID=88120236
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310866226.9A Active CN116825198B (zh) | 2023-07-14 | 2023-07-14 | 基于图注意机制的肽序列标签鉴定方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116825198B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117095743B (zh) * | 2023-10-17 | 2024-01-05 | 山东鲁润阿胶药业有限公司 | 一种小分子肽阿胶的多肽谱匹配数据分析方法及系统 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5538897A (en) * | 1994-03-14 | 1996-07-23 | University Of Washington | Use of mass spectrometry fragmentation patterns of peptides to identify amino acid sequences in databases |
CN103852513A (zh) * | 2012-11-29 | 2014-06-11 | 中国科学院计算技术研究所 | 一种基于hcd与etd质谱图的肽段从头测序方法及系统 |
CN104034792A (zh) * | 2014-06-26 | 2014-09-10 | 云南民族大学 | 基于质荷比误差识别能力的蛋白质二级质谱鉴定方法 |
CN106770605A (zh) * | 2016-11-14 | 2017-05-31 | 中国科学院计算技术研究所 | 从头测序方法及装置 |
CA2967752A1 (en) * | 2016-05-18 | 2017-11-18 | Bioinformatics Solutions Inc. | Methods and systems for assembly of protein sequences |
CN107727727A (zh) * | 2017-11-13 | 2018-02-23 | 复旦大学 | 一种蛋白质鉴定方法及系统 |
CN110277136A (zh) * | 2019-07-05 | 2019-09-24 | 湖南大学 | 蛋白质序列数据库并行搜索鉴定方法与装置 |
CN111091871A (zh) * | 2019-12-19 | 2020-05-01 | 上海交通大学 | 基于融合领域规则和深度学习的蛋白质信号肽及其切割位点预测实现方法 |
CN112767997A (zh) * | 2021-02-04 | 2021-05-07 | 齐鲁工业大学 | 一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法 |
CN113096722A (zh) * | 2021-03-17 | 2021-07-09 | 浙江工业大学 | 基于内积自注意力神经网络的蛋白质磷酸化位点预测方法 |
CN113921086A (zh) * | 2021-09-14 | 2022-01-11 | 上海中科新生命生物科技有限公司 | 基于质谱分析的蛋白质从头肽测序方法及系统 |
CN115394355A (zh) * | 2022-08-18 | 2022-11-25 | 电子科技大学 | 一种基于多头注意力的蛋白质翻译后修饰预测方法 |
CN115862742A (zh) * | 2022-12-15 | 2023-03-28 | 北京航空航天大学 | 基于自注意力机制的双向肽段测序方法及应用 |
CN115938490A (zh) * | 2023-03-07 | 2023-04-07 | 之江实验室 | 一种基于图表示学习算法的代谢物鉴定方法、系统和设备 |
CN116312750A (zh) * | 2023-02-24 | 2023-06-23 | 成都佩德生物医药有限公司 | 一种多肽功能预测方法及装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2445529A1 (en) * | 2001-04-09 | 2002-10-17 | Mds Proteomics, Inc. | Methods and systems for searching genomic databases |
JP6079439B2 (ja) * | 2013-05-29 | 2017-02-15 | 株式会社島津製作所 | タンパク質又はペプチドの分析方法及び分析装置 |
US11573239B2 (en) * | 2017-07-17 | 2023-02-07 | Bioinformatics Solutions Inc. | Methods and systems for de novo peptide sequencing using deep learning |
EP3841585A4 (en) * | 2018-08-20 | 2022-08-03 | NantOmics, LLC | METHODS AND SYSTEMS FOR IMPROVED PREDICTION OF THE MAJOR HISTOCOMPATIBILITY COMPLEX (MHC) PEPTIDE BINDING OF NEOEPITOPES USING A RECURRENT NEURAL NETWORK ENCODER AND ATTENTION WEIGHTING |
US11644470B2 (en) * | 2019-04-15 | 2023-05-09 | Bioinformatics Solutions Inc. | Systems and methods for de novo peptide sequencing using deep learning and spectrum pairs |
CN111951887B (zh) * | 2020-07-27 | 2024-06-28 | 深圳市新合生物医疗科技有限公司 | 基于深度学习的白细胞抗原与多肽结合亲和力预测方法 |
-
2023
- 2023-07-14 CN CN202310866226.9A patent/CN116825198B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5538897A (en) * | 1994-03-14 | 1996-07-23 | University Of Washington | Use of mass spectrometry fragmentation patterns of peptides to identify amino acid sequences in databases |
CN103852513A (zh) * | 2012-11-29 | 2014-06-11 | 中国科学院计算技术研究所 | 一种基于hcd与etd质谱图的肽段从头测序方法及系统 |
CN104034792A (zh) * | 2014-06-26 | 2014-09-10 | 云南民族大学 | 基于质荷比误差识别能力的蛋白质二级质谱鉴定方法 |
CA2967752A1 (en) * | 2016-05-18 | 2017-11-18 | Bioinformatics Solutions Inc. | Methods and systems for assembly of protein sequences |
CN106770605A (zh) * | 2016-11-14 | 2017-05-31 | 中国科学院计算技术研究所 | 从头测序方法及装置 |
CN107727727A (zh) * | 2017-11-13 | 2018-02-23 | 复旦大学 | 一种蛋白质鉴定方法及系统 |
CN110277136A (zh) * | 2019-07-05 | 2019-09-24 | 湖南大学 | 蛋白质序列数据库并行搜索鉴定方法与装置 |
CN111091871A (zh) * | 2019-12-19 | 2020-05-01 | 上海交通大学 | 基于融合领域规则和深度学习的蛋白质信号肽及其切割位点预测实现方法 |
CN112767997A (zh) * | 2021-02-04 | 2021-05-07 | 齐鲁工业大学 | 一种基于多尺度卷积注意力神经网络的蛋白质二级结构预测方法 |
CN113096722A (zh) * | 2021-03-17 | 2021-07-09 | 浙江工业大学 | 基于内积自注意力神经网络的蛋白质磷酸化位点预测方法 |
CN113921086A (zh) * | 2021-09-14 | 2022-01-11 | 上海中科新生命生物科技有限公司 | 基于质谱分析的蛋白质从头肽测序方法及系统 |
CN115394355A (zh) * | 2022-08-18 | 2022-11-25 | 电子科技大学 | 一种基于多头注意力的蛋白质翻译后修饰预测方法 |
CN115862742A (zh) * | 2022-12-15 | 2023-03-28 | 北京航空航天大学 | 基于自注意力机制的双向肽段测序方法及应用 |
CN116312750A (zh) * | 2023-02-24 | 2023-06-23 | 成都佩德生物医药有限公司 | 一种多肽功能预测方法及装置 |
CN115938490A (zh) * | 2023-03-07 | 2023-04-07 | 之江实验室 | 一种基于图表示学习算法的代谢物鉴定方法、系统和设备 |
Non-Patent Citations (5)
Title |
---|
MCtandem: an efficient tool for large-scale peptide identification on many integrated core (MIC) architecture;Chuang Li 等;《BMC Bioinformatics 》;20190717;第20卷;1-13 * |
sAMPpred-GAT: prediction of antimicrobial peptide by graph attention network and predicted peptide structure;Ke Yan 等;《Bioinformatics》;20221107;第39卷(第1期);1-8 * |
SWPepNovo: An Efficient De Novo Peptide Sequencing Tool for Large-scale MS/MS Spectra Analysis;Chuang Li 等;《Int J Biol Sci》;20190703;第15卷(第9期);1787-1801 * |
基于Attention Bi-LSTM模型构建蛋白质诱饵序列库;曾祥利;马洁;朱云平;舒坤贤;;重庆邮电大学学报(自然科学版);20200815(第04期);157-165 * |
基于多头注意力机制和残差神经网络的肽谱匹配打分算法;闵鑫 等;计算机应用;20200131(第06期);1830-1836 * |
Also Published As
Publication number | Publication date |
---|---|
CN116825198A (zh) | 2023-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3872650A1 (en) | Method for footprint image retrieval | |
CN111259786B (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
CN116825198B (zh) | 基于图注意机制的肽序列标签鉴定方法 | |
CN108665441A (zh) | 一种近似重复图像检测方法及装置,电子设备 | |
CN113362899B (zh) | 一种基于深度学习的蛋白质质谱数据的分析方法及系统 | |
CN114821342B (zh) | 一种遥感影像道路提取方法及系统 | |
CN113591508B (zh) | 基于人工智能目标识别的条码解码方法、装置及存储介质 | |
CN112837315A (zh) | 一种基于深度学习的输电线路绝缘子缺陷检测方法 | |
CN103714148B (zh) | 基于稀疏编码分类的sar图像检索方法 | |
CN101976352A (zh) | 基于小样本学习和稀疏表示的多光照人脸识别方法 | |
CN114627162A (zh) | 一种基于视频上下文信息融合的多模态密集视频描述方法 | |
CN117173449A (zh) | 基于多尺度detr的航空发动机叶片缺陷检测方法 | |
CN114973136A (zh) | 一种极端条件下场景图像识别方法 | |
CN111523404A (zh) | 一种基于卷积神经网络和稀疏表示的部分人脸识别方法 | |
Ge et al. | DePS: an improved deep learning model for de novo peptide sequencing | |
Barroso-Laguna et al. | Scalenet: A shallow architecture for scale estimation | |
Ying et al. | Isda: Position-aware instance segmentation with deformable attention | |
CN117173595A (zh) | 基于改进YOLOv7的无人机航拍图像目标检测方法 | |
CN115862742A (zh) | 基于自注意力机制的双向肽段测序方法及应用 | |
CN113257341A (zh) | 一种基于深度残差网络的蛋白质残基间距离分布预测方法 | |
CN111797916A (zh) | 一种恒星光谱分类方法 | |
CN116486907B (zh) | 一种基于a星算法的蛋白质序列标签测序方法 | |
Li | Dpnovo: A deep learning model combined with dynamic programming for de novo peptide sequencing | |
Ali-bey et al. | BoQ: A Place is Worth a Bag of Learnable Queries | |
Luo et al. | A lightweight network for fast semantic segmentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |