CN115620818A - 一种基于自然语言处理的蛋白质质谱肽段验证方法 - Google Patents
一种基于自然语言处理的蛋白质质谱肽段验证方法 Download PDFInfo
- Publication number
- CN115620818A CN115620818A CN202210998028.3A CN202210998028A CN115620818A CN 115620818 A CN115620818 A CN 115620818A CN 202210998028 A CN202210998028 A CN 202210998028A CN 115620818 A CN115620818 A CN 115620818A
- Authority
- CN
- China
- Prior art keywords
- peptide fragment
- information
- matching
- pos
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Epidemiology (AREA)
- Analytical Chemistry (AREA)
- Public Health (AREA)
- Chemical & Material Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于自然语言处理的蛋白质质谱肽段验证方法,将自然语言处理(NLP)中的深度学习模型Transformer改进并应用在了对数据库搜索软件输出的肽段谱图匹配(PSMs)结果进行验证,利用了现在非常热门的深度学习模型Transformer,在对数据库搜索软件输出的PSMs有着非常强大的分类效果。本申请在对PSMs进行特征提取时充分利用了实验数据,理论肽段序列以及匹配分数等信息,在进行PSMs分类时对信息的利用率达到了最高,具有很高的分类效果。
Description
技术领域
本发明涉及蛋白质组学中蛋白质质谱分析技术领域,具体涉及一种基于自然语言处理的蛋白质质谱肽段验证方法。
背景技术
蛋白质组学研究的一个主要目标就是对细胞中的蛋白质复合物进行定性和定量。液相色谱和串联质谱法(LC-MS/MS)已经成为蛋白质组学大规模分析的首要方法。在蛋白质组学分析流程中,样品中的蛋白质通常先被胰蛋白酶消化成更小的肽段,然后通过质谱仪得到由这些肽段生成的一级质谱图(MS1)。但是仅通过MS1是无法推断出样品中含有哪些蛋白质,因此还需将肽段碎裂得到更小的碎片离子,通过分析这些碎片离子生成的二级质谱图(MS2)就可以鉴定出样品中的蛋白质种类。
对于复杂蛋白样品的高通量分析,自动化的数据库搜索软件例如SEQUEST,MSFragger,MaxQuant等被用来进行MS2的搜索工作。这些应用程序将每张实验谱图与计算机生成的理论谱图库进行匹配,从而得到实验谱图与理论谱图之间的相似性分数,然后给每个实验谱图分配给数据库中总体得分最高的肽段,从而完成谱图与肽段的匹配,也称为Peptide-Spectrum-Matches(PSMs)。
虽然通过数据库搜索软件能够得到实验谱图与理论肽段的匹配结果,然而由于实验谱图具有大量的噪声,并且数据库搜索得到的肽段谱图匹配(PSMs)往往未进行校准,从而使定性比较困难,因此减少了整体识别的准确性。为了克服这个问题,不少算法被发明用于对数据库搜索软件的结果进行PSMs的重新校准,现在主流的软件有基于贝叶斯统计的PeptideProphet、基于支持向量机(SVM) 的Percolator以及最新的肽段鉴定验证工具pValid。
传统方法主要包括:
PeptideProphet
PeptideProphet[1]提出了一个用于估计肽段谱图匹配(PSMs)准确性的统计模型,利用期望最大化算法,分析和学习区分正确与不正确PSMs结果,根据数据库搜索分数和其他原始数据来评估PSMs的正确概率。
PeptideProphet将数据库搜索分数:X1,X2,…,XS,转化为一个判别分数F,判别分数是数据库搜索得分的加权组合,由公式(1)计算:
其中,F为所得出对判别分数;C0为一常数;Ci则是第i个数据库搜索分数Xi的权重。
PeptideProphet利用判别分数F来计算给定的PSM匹配是正确的可能性。利用贝叶斯定律,分别有“+”,“-”表示正确和不正确的PSM匹配,对于由一组数据库搜索分数X1,X2,…,XS转换的判别分数F,其正确概率可以用公式(2) 计算:
其中p(+|F)表示当判别分数为F时,对应匹配正确的概率值;p(F|+), p(F|-)分别为当匹配为正确和不正确时,对应匹配的判别分数为F的概率值; p(+)和p(-)则是在所有PSMs中正确和不正确匹配的先验概率。
Percolator
Percolator采用了半监督式机器学习方式,采用支持向量机(SVM)对方式将数据库搜索软件对每组PSM的打分结果作为特征参数加以综合考虑,最终对于每一个PSM给定一个综合评定的q-value值。
由于不同数据库搜索引擎给出的数据集特征参数是不同的,因此针对不同数据库搜索引擎的Percolator被相继开发出来。Mascot Percolator是针对 Mascot搜库引擎的质控工具。而PepDistiller在Mascot Percolator的基础上进行了改进:引入了肽段胰酶切端个数(NTT)以提高半酶切搜库的灵敏度。 X!Tandem Percolator是针对搜库引擎X!Tandem设计的质控工具,MS-GF+ Percolator是针对搜库引擎MS-GF+设计的质控工具,OmssaPercolator是针对搜库引擎Omssa设计的质控工具。
pValid
pValid基于支持向量机(SVM)设计,使用确定的3个特征用于对正确和错误的PSMs进行分类。对于每一个PSM匹配,PSM实使用的3个特征分别是:
(1)由数据库搜索软件pFind计算的这个PSM的初步得分(PSM score)。
(2)原始谱图与理论谱图预测软件pDeep所预测的理论谱图之间的余弦相似度。
(3)原始谱图中的保留时间与保留时间预测软件pPreadRT所预测的理论保留时间的相对偏差。
在pValid中,使用LIVSVM训练SVM分类器,并使用径向基函数作为SVM 的核函数。pValid会报告一个SVM评分S,用于判断一个PSM的可信度。一般情况下,在选择一个SVM评分的阈值后,如果S小于阈值,则该PSM被判断可能是一个错误的匹配;相反,如果S大于该阈值,该匹配则被认为是正确的匹配。
PeptideProphet是典型的基于概率模型过滤PSM结果的方法。该方法将数据库搜索软件的分数进行线性加权,得到了一个判别函数。利用贝叶斯公式和先验分布得到质谱-肽段之间正确匹配和错误匹配的概率,在此基础之上获得最终鉴定的肽段列表。
Percolator和pValid使用了半监督式机器学习方式。它采用支持向量机 (SVM)的方式将数据库搜索软件的特征参数加以综合考虑。最终对于每一个 PSM给定一个综合评定的q-value值。
概率分布模型需要预设概率分布的形式,但是实际应用中总会存在常规分布难以描述的情况。非参概率密度函数拟合提供了一种通用的概率密度描述方式,其基本思想是利用一系列核函数(如高斯函数)的叠加来任意精度地拟合观测数据的分布。
Percolator和pValid的一个缺点是不能适用于所有的搜库引擎,因为不同搜库引擎给出的数据集特征参数是不同的。
上述介绍的质控工具都是针对单搜库引擎的结果进行处理的,并且在进行 PSMs验证的时候只用到了数据库搜索软件单一的输出报告,然而不同的搜库引擎即使是处理同一批质谱数据产生的结果也会有差异。
发明内容
为了解决现有技术存在的缺陷,本发明提供了一种基于自然语言处理的蛋白质质谱肽段验证方法,采用更新的模型来替代传统的概率模型已经机器学习模型,并且在对数据库搜索软件输出的PSMs结果进行验证时使用更多的数据信息来作为模型的输入。
本发明采用的技术解决方案是:一种基于自然语言处理的蛋白质质谱肽段验证方法,包括以下步骤:
(1)获取样品及其数据集和数据准备:获得样品的质谱数据,并将质谱数据通常会被送入搜库引擎进行分析,质谱数据既可以通过质谱仪器产出,也可以从质谱公共数据库中下载。目前常用的质谱仪包括:ThermoFisher公司生产的的 LTQ系列,AppliedBiosystems公司生产的QSTAR系列以及Bruker Daltonics 公司生产的FLEX系列等。常用的质谱公共数据库包括PRIDE Archive, PeptideAtlas,Open ProteomicsDatabase和iProX等。
质谱数据需要在搜库引擎中与蛋白序列数据库进行比对,在选取蛋白序列数据库时需要与质谱数据相吻合。蛋白序列库可以从多个公共数据库下载,其中最常用的有UniProt/Swissprot和NCBI的RefSeq。
常用的搜库引擎有SEQUEST、Mascot、X!Tandem、MSFragger和MS-GF+等。目标-诱饵策略的一个优势在于它几乎适用于所有的搜库引擎。
提取对应二级质谱图(MS2)的理论肽段匹配信息和在肽段谱图匹配过程中所用到的匹配分数以及原始谱图的m/z序列信息;
(2)数据预处理:提取了我们所需要理论肽段,谱图信息,匹配分数信息,对其进行数据标准化,数据类型转换操作后再将其输入进Transformer模型进行分析,输出一个处于0~1的概率值,用于评估肽段谱图匹配(PSMs)的可信度。
所述的步骤(1)中送入搜库引擎进行分析具体步骤为:
采用目标-诱饵策略进行混合搜库和分开搜库。
所述的混合搜库为:将诱饵序列和目标序列整合为一个序列库送入搜库引擎进行搜库。对于每一个谱图,搜库引擎必须在目标库和诱饵库中选择最佳匹配。正确的匹配必定来源于目标库,而错误的匹配既可能来源于目标库也可能来源于诱饵库。
所述的分开搜库为:使用搜库引擎对目标序列库和诱饵序列库分别进行搜索。所有高于打分阈值的来自目标序列库和诱饵序列库的PSM都被用来计算假阳性率(FDR)。
所述的步骤(1)中提取对应二级质谱图(MS2)的理论肽段匹配信息和在肽段谱图匹配过程中所用到的匹配分数以及原始谱图的m/z序列信息的具体步骤为:对于数据库搜索软件输出的两个文件——后缀分别为.pepxml和.pin,其中我们从.pepxml文件中提取对应MS2的理论肽段匹配信息;从.pin文件中提取在肽段谱图匹配过程中所用到的匹配分数;最后再从原始mzml文件中提取原始谱图的m/z序列信息。
所述的步骤(2)中提取理论肽段的具体步骤为:
每一张原始数据中的MS2,在进行数据库搜索之后软件都会为其匹配数据库中的一条理论肽段,将理论肽段作为Transformer模型的一个输入,用来表征匹配的理论信息。
所述的步骤(2)中提取匹配分数的具体步骤为:
每一张原始数据中的MS2,我们利用其理论肽段来匹配MS2中的m/z序列作为原始数据信息;而从搜库软件输出的文件中包含数据库搜索过程中的匹配分数以及MS2的基本信息,将其作为匹配的分数信息。
所述的步骤(2)中数据标准化,数据类型转换的具体步骤为:
对于理论肽段,通过建立一个字典,每一种氨基酸都会有一个特定的阿拉伯数字与之对应;对于原始数据,将其全部乘以10000用来扩大小数位的距离;对于匹配信息,将其进行极差标准化;
操作方法为:首先需要找出该指标的最大值Xmax和最小值Xmin,并计算极差R=Xmax-Xmin,然后用该变量的每一个观察值X减去最小值Xmin,再除以极差R,计算如下公式:
X’=(X-Xmin)/(Xmax-Xmin)。
所述的步骤(2)中Transformer模型包括Encoder模块和Decoder的模块,
Encoder模块:最开始模型的输入会进入Positional Embedding进行位置编码,获取输入理论肽段的表示向量X,X由肽段原始序列的Embedding和单词位置的PositionalEmbedding相加得到;
接下来将经过Positional Embedding的输入X放入Multi-Head Attention 中进行计算,将肽段从每个氨基酸序列独自的Embedding信息转换为对于肽段整体的Embedding;
在经过多头注意力的计算之后,X会继续经过一个残差连接,就是把上一层的输入X和上一层的输出SubLayer(X)加起来,计算可由下公式,求得:
X′=X+SubLayer(X);
之后经过的是LayerNormalization,将每一行的每一个元素减去这行的均值,再除以这行的标准差,从而得到归一化后的数值;
最后的前馈网络也就是简单的两层线性映射再经过激活函数一下,如下公式:
X′=Relu(X*W1*W2);
其中,X′为输出,X为输入,Relu是激活函数,W1和W2是权重;
上述的Positional Embedding,Multi-Head Attention,残差连接和前馈网络就构成Transformer中的Encoder模块;
Decoder的模块:将其中的一个Self-Attention模块被换成了 Mask-Self-Attention模块;
Mask-Self-Attention之后是残差连接,再接下去是一个Slef-Attetion结构,之后会进入前馈神经网络,在Decoder之后,会使用线性层对输出进行纬度的转换,之后利用softmax将其归一化,加上新的线性层将纬度压缩到1维,并用Sigmoid函数将其转变为0~1上的概率。
所述的Encoder模块中模型的输入会进入Sinusoidal Position Encoding 进行位置编码,Sinusoidal Position Encoding使用正余弦函数表示绝对位置,通过两者乘积得到相对位置,位置pos+k的positional encoding可以被位置pos线性表示,反应其相对位置关系,
对于位置pos+k的positional encoding,可用如下公式计算:
由于pos和pos+k相对距离k是常数,所以PEpos+k可以被PEpos线性表示,有:
其中ωi=1/10002i/dmodel;
PEpos+k和PEpos的内积会随着相对位置的递增而减小,从而表征位置的相对距离。
本发明的有益效果是:本发明提供了一种基于自然语言处理的蛋白质质谱肽段验证方法,将自然语言处理(NLP)中的深度学习模型Transformer改进并应用在了对数据库搜索软件输出的PSMs结果进行验证,本发明在对数据库搜索软件输出的PSMs结果进行验证上不但利用了所有的输出文件,同时还利用了质谱的原始数据,通过将各种不同的数据采集方式DDA,DIA以及ddaPASEF的特征进行分析,并采用特征的并集作为模型的输入特征,本发明利用了现在非常热门的深度学习模型Transformer,在对数据库搜索软件输出的PSMs有着非常强大的分类效果。本申请在对PSMs进行特征提取时充分利用了实验数据,理论肽段序列以及匹配分数等信息,在进行PSMs分类时对信息的利用率达到了最高,具有很高的分类效果。
附图说明
图1为本发明验证方法原理流程图。
图2为Attention结构图。
图3为Multi-head Self-attention结构图。
图4为Transformer结构图。
图5为Encoder结构图。
图6为Decoder结构图。
图7为模型训练loss曲线图。
图8为测试集的ROC曲线图。
图9为训练集和测试集的评价指标表。
具体实施方式
以下结合附图和下述实施方式进一步说明本发明,应理解,附图和下述实施方式仅用于说明本发明,而非限制本发明。
Transformer模块
Attention机制
注意力机制(Attention)最初是产生于对人类视觉相关的研究,模仿人类观察事物时会有选择地去关注事物的一分特征,而忽略事物的其他一些信息。传统的sequence-to-sequence模型自身存在一些缺点,例如,对较长的输入序列进行压缩时会导致其中一些关键信息的丢失,这种模型也没办法在输入和输出序列之间的对齐进行建模,这也会导致输出结果由于受输入序列的某些部分的影响而与期望结果相差许多。
Attention机制就是查询(query)到主键(key)和值(value)对的映射,见图2。在这里首先计算Query和每个Key进行点乘计算(Mat Mul),然后再使用Softmax函数进行归一化从而来得到Q与K之间的相关性即权重,最后再用所得权重与V进行点乘得到最终值。
Multi-head Self-attention机制
对于普通的Attention而言,在寻找Q与K之间的相关性时总是单个地去对应,即Q、K只有一个,而对于较为复杂语音或语言而言,通常不同字句之间有很多种不同的关系,所以这是单个Q、K之间的对应关系就不太能过够完整推导出语句的完整意义,所以就增加了Q、K、V的数量,即Multi-head Self-attention。
图3a为多头注意力的结构示意图,图3b为多头注意力中按比缩放的点积注意力部分的内部结构。Transformer使用的多头注意力机制有3个输入:Q、K、 V,其中按比缩放的点积注意力所对应的公式如下:
由于当深度(dK)比较大的时候会导致点积结果增大,就会让Softma x函数向梯度较小的方向变化,从而产生梯度的消失,在公式(3)中,通过将点积注意力(QKT)除以深度(dK)的平方根,就解决了这一问题。
对于Multi-head Self-attention而言,它在计算的时候总是将全部的信息同时进行点乘,这样做虽然提高了并行计算的效率,但是却缺少了有用的相关位置信息。
Positional Encoding
由于Transformer模型中的Multi-head Selfattention机制没有包含不同元素之间的位置信息,于是就给输入数据加上了一种位置编码,对应公式如下:
在公式(4)中,pos代表每个词在语句之中的位置,dmodel表示词向量的维度,i为词向量的位置。通过将位置信息除以1 0002i/dmodel,就能让s in和cos的表示范围从2π扩展到1000π,最后在将其与源数据相加即可得到包含有位置编码的数据。
实施例1:
在本申请中,我们使用一个来自PRIDE Archive中的DDA数据集进行分析。
首先,我们从公共数据库PRIDE Archive中下载所需原始数据,获取原始数据之后,我们将其放入数据库搜索软件中进行搜库分析。搜库软件会报告所用原始数据中每张MS2的Peptide-Spectrum-Match结果,并输出后缀为.pepxml 和.pin的两个文件。在得到PSMs结果文件后,我们提取PSMs文件以及原始数据中的特征,并将其输入进修改后的Transformer模型。Transformer对于每一组PSM最终会输出一个处于0~1的概率值,用于评估这组PSM的可信度。
具体步骤如下所示:
步骤一:获取样品及其数据集和数据预处理:
A1.获取样品及其数据集
数据获取的具体逻辑顺序为:读取下载地址,确定为PRIDE库地址,获取 PRIDEPXD标识符,修正下载地址为可执行的FTP下载链接,下载标记为mzML 文件到以PXD为文件名的文件夹。
数据集:PXD028735
实验数据使用由人类K562,酵母和大肠杆菌(E.coli)全蛋白质组消化物组成的样品生成了全面的LC-MS/MS数据集[5]。两个杂交蛋白质组样品A和 B含有已知数量的人,酵母和大肠杆菌胰蛋白肽,如Navaro等人所述。连续三次准备,以包括处理可变性。此外,通过混合六个母料中每个批次的六分之一 (65%w/w人类,22.5%w/w酵母和12.5%w/w大肠杆菌)来创建QC样品。这些商业裂解物分别测量和三重混合蛋白质组混合物,使用六个LC-MS/MS 平台上可用的DDA和DIA采集方法,即SCEX TripleTOF 5600和TripleTOF 6600 +,Thermo Orbitrap QE HF-X,Waters Synapt G2-Si和Synapt XS和布鲁克 timsTOF Pro。
完整的数据集通过ProteomeXchange公开提供给蛋白质组学社区,数据集标识符为:PXD028735。
数据集可通过以下网页链接获取:https://www.ebi.ac.uk/pride/archive/ projects/PXD028735
A2.数据准备
在获取PXD028735数据集后,我们挑选其中由Thermo Orbitrap QE HF-X 仪器中采集方式为DDA的数据进行分析。
从公共数据库PRIDE Archive中下载对原始数据文件格式后缀为.raw,由于本申请实例所选的数据库搜索软件为MSFragger,MSFragger并没有办法直接处理.raw格式的原始文件。因此我们使用MsConvert软件对原始文件进行格式转换,将其转化为后缀为.mzml的通用格式。
接下来我们将.mzml格式的原始数据输入MSFragger软件中进行数据库的搜索,最终,MSFragger报告了格式后缀为.pepxml和.pin的两种文件。其中,后缀为.pepxml的文件中包含了原始数据谱图的基本信息,谱图所匹配到的肽段序列的信息,搜库后的总分数;后缀为.pin的文件包含了搜库软件在进行肽段和谱图匹配时用到的所有打分指标输出的分数。
A3数据预处理
(1)理论肽段提取:对于后缀为.pepxml文件,其中包含着对于每张原始MS2 匹配到的理论肽段,我们将其提取出来。由于每条肽段的长度都不确定,因此我们设定最大肽段长度(60个氨基酸)来作为统一的标准,对于不足60的肽段将会自动补齐。
(2)实验数据提取:对于后缀为.mzml的原始数据,我们通过提取其中每张 MS2的质荷比m/z序列,同时由MSFragger报告的每张MS2匹配到的理论肽段,我们将其进行理论的碎裂用来匹配原始谱图中的m/z序列,最后将匹配到的理论离子输出作为原始数据。对于后缀为.pepxml和.pin的文件,我们提取其中的肽段谱图匹配分数以及谱图的基本信息作为匹配信息。
(3)数据标准化与类型转换:对于理论肽段,我们通过建立一个字典,每一种氨基酸都会有一个特定的阿拉伯数字与之对应;对于原始数据,我们将其全部乘以10000用来扩大小数位的距离;对于匹配信息,我们将其进行极差标准化,极差标准化法,是消除变量量纲和变异范围影响的方法。
具体的操作方法为:首先需要找出该指标的最大值Xmax和最小值Xmin,并计算极差R=Xmax-Xmin,然后用该变量的每一个观察值X减去最小值Xmin,再除以极差R,计算如公式(5):
X’=(X-Xmin)/(Xmax-Xmin) (5)
步骤二:Encoder:
transformer的结构是一个编码-解码结构。输入序列先进行Embedding,经过Encoder之后结合上一次output再输入Decoder,最后用softmax计算序列下一个单词的概率。本申请将模型进行了修改,在原本的Transformer输出层后加上了全连阶层,并且用Sigmoid作为激活函数,模型如图4所示。
Encoder
首先我们详细讲解一下Encoder的构建,Encoder的框架图如图5所示。最开始模型的输入会进入上文所提到的Positional Embedding进行位置编码,获取输入理论肽段的表示向量X,X由肽段原始序列的Embedding和单词位置的 Positional Embedding相加得到。
接下来将经过Positional Embedding的输入X放入Multi-Head Attention 中进行计算,Multi-Head Attention,其实可以理解为就是在计算相关性。在这一步,将肽段从每个氨基酸序列独自的Embedding信息转换为对于肽段整体的Embedding。
在经过多头注意力的计算之后,X会继续经过一个残差连接,就是把上一层的输入X和上一层的输出SubLayer(X)加起来,计算可由公式(6)求得:
X′=X+SubLayer(X) (6)
之后经过的是LayerNormalization(作用是把神经网络中隐藏层归一为标准正态分布,加速收敛),具体操作是将每一行的每一个元素减去这行的均值, 再除以这行的标准差,从而得到归一化后的数值。
最后的前馈网络也就是简单的两层线性映射再经过激活函数一下,如公式 (7):
X′=Relu(X*W1*W2) (7)
其中,X′为输出,X为输入,Relu是激活函数,W1和W2是权重。
上述的Positional Embedding,Multi-Head Attention,残差连接和前馈网络就构成Transformer中的一个Encoder模块。
步骤3:Decoder
Decoder的构建如图6所示,整体上来说Decoder的模块与Encoder是相似的,只不过其中的一个Self-Attention模块被换成了Mask-Self-Attention 模块。Mask-Self-Attention是在Self-Attention的基础上利用了下三角矩阵对上三角部分进行掩码,这一步的作用是为了防止在预测阶段后面的序列对前面的序列产生影响。
Mask-Self-Attention之后是残差连接,再接下去是一个Slef-Attetion结构,之后会进入前馈神经网络,这几个模块与Encoder的一致,在这里不展开描述。
在Decoder之后,会使用线性层对输出进行纬度的转换,之后利用softmax 将其归一化。原本到这里Transformer就已经结束,但是由于在PSMs验证的工作中,我们需要对其进行二分类,因此本申请在原本Transformer模型上加上了新的线性层将纬度压缩到1维,并用Sigmoid函数将其转变为0~1上的概率。
性能:
对于模型性能的评价,我们通过观察训练过程中的loss曲线,训练结束后数据集二分类指标结果以及数据集的ROC曲线来评估。
其中二分类指标的计算
实际\预测 | 预测为真 | 预测为假 |
实际为真 | TP | FN |
实际为假 | FP | TN |
TP:实际为正、且划分为正的样本数,真正数。
FP:实际为负、但划分为正的样本数,假正数。
TP:实际为负、且划分为负的样本数,真负数。
FN:实际为正、但划分为负的样本数,假负数。
在本申请的案例中,我们将原始数据分为训练集和测试集进行模型的训练。训练集用于对模型的训练,测试集用于检测模型的性能。
图7展现了在训练过程中训练集和测试集的loss曲线变化,可以从图中看出训练的过程中模型收敛非常快,表明模型的训练非常顺利。
图8是测试集的ROC曲线,ROC的横坐标是假阳性率(False Positive Rate, FPR),纵坐标为真阳性率(True Positive Rate,TPR),计算公式分别如下:
FPR=FP/N
TPR=TP/P
其中,N是真实负样本的个数,FP是N个负样本中被分类器预测为正样本的个数。P是真实正样本的个数,TP是P个正样本中被分类器预测为正样本的个数。
ROC曲线的面积越大说明分类效果越好,由图8可知本申请的模型在测试集上的分类效果卓越。
图9的表1是训练集和测试集所有的分类指标结果,其中AUC就是对应ROC曲线的面积。由表中我们可以看出无论是在测试集还是训练集上,本模型对于数据的分类指标结果都在99.9%以上。
本申请利用了现在非常热门的深度学习模型Transformer,在对数据库搜索软件输出的PSMs有着非常强大的分类效果。本申请在对PSMs进行特征提取时充分利用了实验数据,理论肽段序列以及匹配分数等信息,在进行PSMs分类时对信息的利用率达到了最高,具有很高的分类效果。
实施例2:
Positional Embedding
本申请使用模型在进行Positional Embedding的时候用的方法是编码绝对位置,利用三角函数,直接对不同的位置随机初始化一个position embedding,加到wordembedding上输入模型,作为参数进行训练。
对于Positional Embedding的替换可以使用相对位置编码。下面介绍一种编码相对位置的方法:Sinusoidal Position Encoding。
Sinusoidal Position Encoding使用正余弦函数表示绝对位置,通过两者乘积得到相对位置,这样设计的好处是位置pos+k的positional encoding可以被位置pos线性表示,反应其相对位置关系。
对于位置pos+k的positional encoding,可用如下公式计算:
由于pos和pos+k相对距离k是常数,所以PEpos+k可以被PEpos线性表示,有:
其中ωi=1/10002i/dmodel。
PEpos+k和PEpos的内积会随着相对位置的递增而减小,从而表征位置的相对距离。但是不难发现,由于距离的对称性,Sinusoidal Position Encoding虽然能够反映相对位置的距离关系,但是无法区分方向。
结论
1.本申请将自然语言处理(NLP)中的深度学习模型Transformer改进并应用在了对数据库搜索软件输出的PSMs结果进行验证。
2.本申请在对数据库搜索软件输出的PSMs结果进行验证上不但利用了所有的输出文件,同时还利用了质谱的原始数据。
3.本申请通过将各种不同的数据采集方式:DDA,DIA以及ddaPASEF的特征进行分析,并采用特征的并集作为模型的输入特征。
各位技术人员须知:虽然本发明已按照上述具体实施方式做了描述,但是本发明的发明思想并不仅限于此发明,任何运用本发明思想的改装,都将纳入本专利专利权保护范围内。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种基于自然语言处理的蛋白质质谱肽段验证方法,其特征在于,包括以下步骤:
(1)获取样品及其数据集和数据准备:获得样品的质谱数据,并将质谱数据通常会被送入搜库引擎进行分析,提取对应二级质谱图(MS2)的理论肽段匹配信息和在肽段谱图匹配过程中所用到的匹配分数以及原始谱图的m/z序列信息;
(2)数据预处理:提取了我们所需要理论肽段,谱图信息,匹配分数信息,对其进行数据标准化,数据类型转换操作后再将其输入进Transformer模型进行分析,输出一个处于0~1的概率值,用于评估肽段谱图匹配(PSMs)的可信度。
2.根据权利要求1所述的一种基于自然语言处理的蛋白质质谱肽段验证方法,其特征在于,所述的步骤(1)中送入搜库引擎进行分析具体步骤为:
采用目标-诱饵策略进行混合搜库和分开搜库。
3.根据权利要求2所述的一种基于自然语言处理的蛋白质质谱肽段验证方法,其特征在于,所述的混合搜库为:将诱饵序列和目标序列整合为一个序列库送入搜库引擎进行搜库。
4.根据权利要求2所述的一种基于自然语言处理的蛋白质质谱肽段验证方法,其特征在于,所述的分开搜库为:使用搜库引擎对目标序列库和诱饵序列库分别进行搜索。
5.根据权利要求1所述的一种基于自然语言处理的蛋白质质谱肽段验证方法,其特征在于,所述的步骤(1)中提取对应二级质谱图(MS2)的理论肽段匹配信息和在肽段谱图匹配过程中所用到的匹配分数以及原始谱图的m/z序列信息的具体步骤为:对于数据库搜索软件输出的两个文件——后缀分别为.pepxml和.pin,其中我们从.pepxml文件中提取对应MS2的理论肽段匹配信息;从.pin文件中提取在肽段谱图匹配过程中所用到的匹配分数;最后再从原始mzml文件中提取原始谱图的m/z序列信息。
6.根据权利要求1所述的一种基于自然语言处理的蛋白质质谱肽段验证方法,其特征在于,所述的步骤(2)中提取理论肽段的具体步骤为:
每一张原始数据中的MS2,在进行数据库搜索之后软件都会为其匹配数据库中的一条理论肽段,将理论肽段作为Transformer模型的一个输入,用来表征匹配的理论信息。
7.根据权利要求1所述的一种基于自然语言处理的蛋白质质谱肽段验证方法,其特征在于,所述的步骤(2)中提取匹配分数的具体步骤为:
每一张原始数据中的MS2,我们利用其理论肽段来匹配MS2中的m/z序列作为原始数据信息;而从搜库软件输出的文件中包含数据库搜索过程中的匹配分数以及MS2的基本信息,将其作为匹配的分数信息。
8.根据权利要求1所述的一种基于自然语言处理的蛋白质质谱肽段验证方法,其特征在于,所述的步骤(2)中数据标准化,数据类型转换的具体步骤为:
对于理论肽段,通过建立一个字典,每一种氨基酸都会有一个特定的阿拉伯数字与之对应;对于原始数据,将其全部乘以10000用来扩大小数位的距离;对于匹配信息,将其进行极差标准化;
操作方法为:首先需要找出该指标的最大值Xmax和最小值Xmin,并计算极差R=Xmax-Xmin,然后用该变量的每一个观察值X减去最小值Xmin,再除以极差R,计算如下公式:
X’=(X-Xmin)/(Xmax-Xmin)。
9.根据权利要求1所述的一种基于自然语言处理的蛋白质质谱肽段验证方法,其特征在于,所述的步骤(2)中Transformer模型包括Encoder模块和Decoder的模块,
Encoder模块:最开始模型的输入会进入Positional Embedding进行位置编码,获取输入理论肽段的表示向量X,X由肽段原始序列的Embedding和单词位置的PositionalEmbedding相加得到;
接下来将经过Positional Embedding的输入X放入Multi-Head Attention中进行计算,将肽段从每个氨基酸序列独自的Embedding信息转换为对于肽段整体的Embedding;
在经过多头注意力的计算之后,X会继续经过一个残差连接,就是把上一层的输入X和上一层的输出SubLayer(X)加起来,计算可由下公式,求得:
X′=X+SubLayer(X);
之后经过的是LayerNormalization,将每一行的每一个元素减去这行的均值,再除以这行的标准差,从而得到归一化后的数值;
最后的前馈网络也就是简单的两层线性映射再经过激活函数一下,如下公式:
X′=Relu(X*W1*W2);
其中,X′为输出,X为输入,Relu是激活函数,W1和W2是权重;
上述的Positional Embedding,Multi-Head Attention,残差连接和前馈网络就构成Transformer中的Encoder模块;
Decoder的模块:将其中的一个Self-Attention模块被换成了Mask-Self-Attention模块;
Mask-Self-Attention之后是残差连接,再接下去是一个Slef-Attetion结构,之后会进入前馈神经网络,在Decoder之后,会使用线性层对输出进行纬度的转换,之后利用softmax将其归一化,加上新的线性层将纬度压缩到1维,并用Sigmoid函数将其转变为0~1上的概率。
10.根据权利要求9所述的一种基于自然语言处理的蛋白质质谱肽段验证方法,其特征在于,所述的Encoder模块中模型的输入会进入Sinusoidal Position Encoding进行位置编码,Sinusoidal Position Encoding使用正余弦函数表示绝对位置,通过两者乘积得到相对位置,位置pos+k的positional encoding可以被位置pos线性表示,反应其相对位置关系,
对于位置pos+k的positional encoding,可用如下公式计算:
PE(pot+k,2i)=sin(ωi·(pos+k))=sin(ωipos)cos(ωik)+cos(ωipos)sin(ωik)
PE(pos+k,2i+1)=cos(ωi·(pos+k))=cos(ωipos)cos(ωik)-sin(ωipos)sin(ωik);
由于pos和pos+k相对距离k是常数,所以PEpos+k可以被PEpos线性表示,有:
其中ωi=1/10002i/dmodel;
PEpos+k和PEpos的内积会随着相对位置的递增而减小,从而表征位置的相对距离。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210998028.3A CN115620818A (zh) | 2022-08-19 | 2022-08-19 | 一种基于自然语言处理的蛋白质质谱肽段验证方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210998028.3A CN115620818A (zh) | 2022-08-19 | 2022-08-19 | 一种基于自然语言处理的蛋白质质谱肽段验证方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115620818A true CN115620818A (zh) | 2023-01-17 |
Family
ID=84856918
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210998028.3A Pending CN115620818A (zh) | 2022-08-19 | 2022-08-19 | 一种基于自然语言处理的蛋白质质谱肽段验证方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115620818A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117034017A (zh) * | 2023-09-07 | 2023-11-10 | 云鉴康(杭州)医疗科技有限公司 | 一种基于深度学习的质谱图分类方法、系统、介质及设备 |
-
2022
- 2022-08-19 CN CN202210998028.3A patent/CN115620818A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117034017A (zh) * | 2023-09-07 | 2023-11-10 | 云鉴康(杭州)医疗科技有限公司 | 一种基于深度学习的质谱图分类方法、系统、介质及设备 |
CN117034017B (zh) * | 2023-09-07 | 2024-03-19 | 云鉴康(杭州)医疗科技有限公司 | 一种基于深度学习的质谱图分类方法、系统、介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110687072B (zh) | 一种基于光谱相似度的校正集和验证集的选择及建模方法 | |
CN105527359B (zh) | 基于正反库特征信息匹配的蛋白质二级质谱鉴定方法 | |
Granholm et al. | A cross-validation scheme for machine learning algorithms in shotgun proteomics | |
CN110838340B (zh) | 一种不依赖数据库搜索的蛋白质生物标志物鉴定方法 | |
JP6715451B2 (ja) | マススペクトル解析システム,方法およびプログラム | |
CN107563448B (zh) | 基于近红外光谱分析的样本空间聚类划分法 | |
Yu et al. | Maximizing the sensitivity and reliability of peptide identification in large‐scale proteomic experiments by harnessing multiple search engines | |
US20040143402A1 (en) | System and method for scoring peptide matches | |
CN113643756B (zh) | 一种基于深度学习的蛋白质相互作用位点预测方法 | |
CN106570351A (zh) | 基于谱图相似度计算的搜库匹配结果的计算机模拟统计验证方法 | |
CN114783539B (zh) | 一种基于光谱聚类的中药成分分析方法及系统 | |
CN110349621B (zh) | 肽段-谱图匹配可信度检验方法、系统、存储介质及装置 | |
CN115620818A (zh) | 一种基于自然语言处理的蛋白质质谱肽段验证方法 | |
CN118471348B (zh) | 基于人工智能的人体体液光谱分析方法及系统 | |
CN107025387B (zh) | 一种用于癌症生物标志物识别的方法 | |
CN114611582A (zh) | 一种基于近红外光谱技术分析物质浓度的方法及系统 | |
Salmi et al. | Filtering strategies for improving protein identification in high‐throughput MS/MS studies | |
Higdon et al. | LIP index for peptide classification using MS/MS and SEQUEST search via logistic regression | |
Karimi et al. | Identification of discriminatory variables in proteomics data analysis by clustering of variables | |
Webb-Robertson et al. | A Bayesian integration model of high-throughput proteomics and metabolomics data for improved early detection of microbial infections | |
WO2000028573A2 (en) | Data analysis | |
CN112151109B (zh) | 用于评价生物分子交联质谱鉴定随机性的半监督学习方法 | |
Lokhov et al. | Database search post‐processing by neural network: Advanced facilities for identification of components in protein mixtures using mass spectrometric peptide mapping | |
CN108388774A (zh) | 一种多肽谱匹配数据的在线分析方法 | |
CN109145887B (zh) | 一种基于光谱潜变量混淆判别的阈值分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |