CN110349621B

CN110349621B - 肽段-谱图匹配可信度检验方法、系统、存储介质及装置

Info

Publication number: CN110349621B
Application number: CN201910482412.6A
Authority: CN
Inventors: 周文婧; 杨皓; 曾文锋; 张昆; 迟浩; 贺思敏
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2019-06-04
Filing date: 2019-06-04
Publication date: 2021-08-27
Anticipated expiration: 2039-06-04
Also published as: CN110349621A

Abstract

本发明提出一种肽段‑谱图匹配可信度检验方法、系统、存储介质及装置，包括：将待检测结果中图谱数据输入至开放式搜索引擎，得到待检测结果的鉴定结果；获取限定式搜索引擎对待检测结果的打分，得到第一分值，同时提取第一分值排前n名候选肽段；获取开放式搜索引擎对鉴定结果的打分，得到第二分值，同时提取第二分值排前n名候选肽段；预测每个候选肽段的理论谱图，计算每张理论谱图与待检测结果中图谱数据的余弦相似度，并统计余弦相似度中的最高值；提取由待检测结果的第一分值、第二分值、余弦相似度和最高余弦相似度值组成的四维特征；将四维特征输入至使用SVM训练的离线模型，得到待检测结果的可信度检验结果。

Description

肽段-谱图匹配可信度检验方法、系统、存储介质及装置

技术领域

本发明涉及计算蛋白质组学领域，并特别涉及一种肽段-谱图匹配可信度检验方法、系统、存储介质及装置。

背景技术

计算蛋白质组学是使用计算技术和信息检索技术解析蛋白质组学质谱数据的一门学科，它对蛋白质的鉴定以及生物生理过程的研究都具有重要意义。随着质谱仪的发展，串联质谱图的采集速度和数目急剧增加，一次质谱实验能够采集到百万量级的质谱图。虽然领域内发展了大量搜索引擎对质谱数据进行深度和高效地解析，但却无法避免这大规模数据带来的严重的质量控制问题。

目前计算蛋白质组学领域内对鉴定结果的可信度进行检验的方法主要有：传统的TDA(Target-Decoy Approach，目标诱饵库)方法、改进的TDA方法、陷阱库检验方法和合成肽段检验方法。

传统TDA方法的核心思想是通过蛋白质序列反转或随机置换的方式，构造与目标蛋白质数据库相同规模的诱饵蛋白质数据库。该方法假设一次随机匹配(也即错误匹配)发生在目标库和诱饵库中的概率相同，那么便可以通过鉴定到的诱饵库结果的数目去估计鉴定到的目标库结果中的错误鉴定结果数目，此时的FDR(False Discovery Rate，假发现率)等于鉴定到的诱饵库结果的数目除以鉴定到的目标库结果的数目。

改进的TDA方法通过对现有TDA方法进行子类鉴定结果单独计算FDR、通过线性拟合等方法重新估计子类鉴定结果中的诱饵库数目，弥补子类数据鉴定数目较少时带来的传统TDA方法计算的FDR不准确的问题。

陷阱库检验方法在要搜索的蛋白质数据库中添加一些无关蛋白质作为陷阱进行匹配，如果一张谱图在只搜索相关蛋白质库时得到一条肽段，在搜索相关蛋白质和陷阱蛋白质合并构成的陷阱库时匹配到陷阱蛋白质，那么认为该谱图在搜索相关蛋白质库时得到的鉴定结果是不可信的。

合成肽段检验方法首先会合成鉴定到的肽段，随后在相同的液相色谱条件、质谱仪参数等情况下进行打谱，通过计算该鉴定结果对应的原始谱图与合成肽段对应的合成谱图的余弦相似度，判断鉴定结果的可信度。一般以0.9作为合成肽段检验的余弦相似度阈值，达到或超过这个阈值则认为鉴定结果可信；反之，低于该阈值则认为鉴定结果不可信。

传统的TDA方法以及改进的TDA方法只能估计鉴定结果的群体可信度，无法估计单个鉴定结果的个体可信度。陷阱库检验方法虽然能估计个体可信度，也能应用于大规模鉴定结果，但检验结果的可信度不高。合成肽段检验方法虽然能检验个体可信度且检验能力较强，但合成过程的时间和金钱消耗较大，无法对大规模数据的鉴定结果逐一进行个体可信度检验。

发明内容

本发明的技术目的是解决计算蛋白质组学领域对蛋白质搜索引擎鉴定结果的质量控制不足的问题，通过设计可信度检验方法的两种评价指标，研究这些指标与搜索引擎评价指标之间的关系，确立了可信度检验方法的实际应用标准。同时本发明从开放式搜索以及理论谱图预测方法中挖掘出肽段和谱图匹配的重要特征，使用SVM(Support VectorMachine，支持向量机)方法对鉴定结果的个体可信度进行预测，开发了高效、精准及自动化的可信度检验软件pValid，pValid的检验能力超越了领域内的检验金标准——合成肽段检验方法，同时也远超陷阱库检验方法。

具体来说，本发明提供了一种肽段-谱图匹配可信度检验方法，其中包括：

步骤1、将质谱实验搜索得到的肽段-谱图匹配数据作为待检测结果，将该待检测结果中图谱数据输入至开放式搜索引擎，得到该待检测结果的鉴定结果；

步骤2、获取限定式搜索引擎对该待检测结果的打分，得到第一分值，同时提取第一分值排前n名候选肽段，n为预设的正整数；获取该开放式搜索引擎对该鉴定结果的打分，得到第二分值，同时提取第二分值排前n名候选肽段；

步骤3、预测每个该候选肽段的理论谱图，计算每张理论谱图与该待检测结果中图谱数据的余弦相似度，并统计该余弦相似度中的最高值；

步骤4、提取由该待检测结果的第一分值、第二分值、余弦相似度和最高值组成的四维特征；

步骤5、将该四维特征输入至使用SVM训练的离线模型，进行可信度打分，根据打分判断鉴定结果的类别，作为该待检测结果的可信度检验结果。

所述的肽段-谱图匹配可信度检验方法，其中该开放式搜索引擎具有和限定式搜索引擎相同的打分机制和搜索参数。

所述的肽段-谱图匹配可信度检验方法，其中该步骤4包括：

步骤41、提取该限定式搜索引擎对鉴定结果的第一分值，作为特征1；

步骤42、提取该开放式搜索引擎对该鉴定结果的第二分值，作为特征2；

步骤43、提取第一分值最高的候选肽段的理论谱图与该待检测结果中图谱数据的余弦相似度，作为特征3；

步骤44、提取所有候选肽段中理论谱图与该待检测结果中图谱数据的最高余弦相似度，作为特征4，集合该特征1、该特征2、该特征3和该特征4作为该四维特征。

所述的肽段-谱图匹配可信度检验方法，其中该离线模型的训练方法包括：

步骤51、使用多引擎的交集鉴定结果作为标注集，使用该限定式搜索引擎重新搜索该标注集中的谱图，重新搜索的结果中与多引擎交集一致的鉴定结果作为正样本，与多引擎鉴定结果不一致的作为负样本，集合该正样本和该负样本作为样本集合；

步骤52、对该样本集合中样本提取该四维特征，并将该训练集中样本的四维特征归一化到[0,1]，得到训练集；

步骤53、使用分类模型对该训练集进行训练，得到预测结果；

步骤54、统计该预测结果中正样本中为阳性结果的比例，作为FPR；统计该预测结果中负样本中为阴性结果的比例，作为FNR，若FPR和FNR均小于等于预设阈值，则训练完成，否则，调整该分类模型的参数，重新训练该分类模型。

本发明还提出了一种肽段-谱图匹配可信度检验系统，其中包括：

模块1、将质谱实验搜索得到的肽段-谱图匹配数据作为待检测结果，将该待检测结果中图谱数据输入至开放式搜索引擎，得到该待检测结果的鉴定结果；

模块2、获取限定式搜索引擎对该待检测结果的打分，得到第一分值，同时提取第一分值排前n名候选肽段，n为预设的正整数；获取该开放式搜索引擎对该鉴定结果的打分，得到第二分值，同时提取第二分值排前n名候选肽段；

模块3、预测每个该候选肽段的理论谱图，计算每张理论谱图与该待检测结果中图谱数据的余弦相似度，并统计该余弦相似度中的最高值；

模块4、提取由该待检测结果的第一分值、第二分值、余弦相似度和最高值组成的四维特征；

模块5、将该四维特征输入至使用SVM训练的离线模型，进行可信度打分，根据打分判断鉴定结果的类别，作为该待检测结果的可信度检验结果。

所述的肽段-谱图匹配可信度检验系统，其中该开放式搜索引擎具有和限定式搜索引擎相同的打分机制和搜索参数。

所述的肽段-谱图匹配可信度检验系统，其中该模块4包括：

模块41、提取该限定式搜索引擎对鉴定结果的第一分值，作为特征1；

模块42、提取该开放式搜索引擎对该鉴定结果的第二分值，作为特征2；

模块43、提取第一分值最高的候选肽段的理论谱图与该待检测结果中图谱数据的余弦相似度，作为特征3；

模块44、提取所有候选肽段中理论谱图与该待检测结果中图谱数据的最高余弦相似度，作为特征4，集合该特征1、该特征2、该特征3和该特征4作为该四维特征。

所述的肽段-谱图匹配可信度检验系统，其中该离线模型的训练系统包括：

模块51、使用多引擎的交集鉴定结果作为标注集，使用该限定式搜索引擎重新搜索该标注集中的谱图，重新搜索的结果中与多引擎交集一致的鉴定结果作为正样本，与多引擎鉴定结果不一致的作为负样本，集合该正样本和该负样本作为样本集合；

模块52、对该样本集合中样本提取该四维特征，并将该训练集中样本的四维特征归一化到[0,1]，得到训练集；

模块53、使用分类模型对该训练集进行训练，得到预测结果；

模块54、统计该预测结果中正样本中为阳性结果的比例，作为FPR；统计该预测结果中负样本中为阴性结果的比例，作为FNR，若FPR和FNR均小于等于预设阈值，则训练完成，否则，调整该分类模型的参数，重新训练该分类模型。

本发明还提出了一种存储介质，其中用于存储执行所述肽段-谱图匹配可信度检验方法的程序。

本发明还提出了一种数据处理装置，其中包括处理单元和该存储介质，该处理单元调用并执行该存储介质中的程序。

由以上方案可知，本发明的优点在于：

总结来说，本发明有如下四点贡献：1)首次提出可信度检验方法的评价指标FPR和FNR；2)首次研究可信度检验方法的评价指标与搜索引擎评价指标之前的关系，确立了可信度检验方法可以实际应用的标准；3)使用开放式搜索和理论谱图预测两种方法提取肽段和谱图匹配特征；4)使用机器学习技术支持向量机对特征进行训练，训练得到的模型的检验能力超越了领域内的检验金标准——合成肽段检验方法，同时也远超陷阱库检验方法。

本发明在鉴定结果的可信度评估问题上，与领域内现有的两种个体可信度检验方法——陷阱库方法和合成肽段方法做了比较。合成肽段数据中的实验证明pValid的FPR比合成肽段检验方法的FPR低0.02％，比陷阱库检验方法高0.03％。pValid的FNR与合成肽段检验方法的FNR相同，且比陷阱库方法的FNR低了15倍。

使用pValid检验并排除可疑结果后，鉴定结果的错误率降低了59倍，从1.18％降低到0.02％，也即鉴定结果的准确度得到了提升。在提升鉴定结果的准确度的同时，pValid也能将鉴定结果的灵敏度保持在排除可疑结果前的99.97％，仅低于陷阱库检验保持的99.98％的灵敏度记录。

附图说明

图1a为FPR和FNR的计算定义图；

图1b为pValid中SVM离线模型训练流程图；

图2为本发明整体流程图；

图3为数据处理装置图。

具体实施方式

本发明提出的可信度检验方法正是为了解决上述可信度检验方法中存在的问题，本发明解决了以下三个技术问题：1)对鉴定结果进行个体可信度检验；2)保证检验结果的精准性；3)对大规模鉴定结果进行快速、高效的自动化检验。

针对上述问题，本发明提出了以下关键点：

关键点1，提出了可信度检验方法的两个评价指标——FPR(False PositiveRate，假阳率)和FNR(False Negative Rate，假阴率)。FPR衡量了一种可信度检验方法将真实正确的鉴定结果判别为可疑鉴定结果的比例，FNR衡量了这种可信度检验方法将真实错误的鉴定结果判别为可信鉴定结果的比例。FPR和FNR两个指标越小，说明这种可信度检验方法对正确鉴定结果和错误鉴定结果的区分能力越强。

关键点2，研究了可信度检验方法评价指标与搜索引擎评价指标之间的关系，确立了可信度检验方法可以实际应用的标准。可信度检验方法可以用于排除搜索引擎鉴定结果中的检验可疑结果，FPR越低，排除可疑结果后鉴定结果的灵敏度越高；FNR越低，排除可疑结果后鉴定结果的准确度越高。只有当FPR和FNR之和小于1时，排除检验方法检验为可疑的结果后，鉴定结果的准确度才会提升，也只有满足这种条件才是一种有效的可信度检验方法，也即可信度检验方法可以实际应用的标准是该检验方法的FPR和FNR之和小于1。

关键点3，从开放式搜索方法和理论谱图预测方法中提取能代表鉴定结果中肽段和谱图匹配情况的四个重要特征：1)pFind引擎对该鉴定结果的打分，在本发明中，待检验的结果是pFind引擎的鉴定结果；2)Open-pFind引擎对相同谱图鉴定结果的打分，其中搜索引擎在搜索质谱数据的时候，既进行搜索又对搜索结果进行匹配打分；3)pDeep预测谱图与原始实验谱图(待检验的鉴定结果的谱图)的余弦相似度；4)pFind和Open-pFind各自前三名候选肽段的pDeep预测谱图与原始实验谱图的余弦相似度的最高值，即六个候选肽段中的最高值。本发明基于SVM方法对这些特征进行训练，提出了一种自动化的个体可信度检验方法pValid。

发明人在对蛋白质搜索引擎给出的鉴定结果中的肽段和谱图的匹配情况进行研究时，发现影响鉴定结果鉴定准确性的两大主要因素被大多数搜索引擎所遗漏。第一个因素是搜索空间的完备性，常规的限定式搜索模式只能考虑特定的酶切形式和少量的修饰类型，但在生物实验中，常常由于实验时间、温度等实验条件的影响，并非所有肽段都是特异性酶切形式；由于实验中使用的相关药剂，也常常会引入一些意外的修饰情况，常规的限定式搜索模式不能对这些意外情况进行处理，所以限定式搜索的空间是比较局限的，一旦正确结果不存在于搜索空间内，将无法得到正确的鉴定结果。开放式搜索可以考虑所有的酶切形式和肽段上所有可能发生的修饰形式，在更完备的空间内搜索可能存在的肽段，这种情况下得到的鉴定结果经过了更多的竞争，理论上来说，开放式搜索结果的准确性高于限定式搜索的鉴定结果。

影响肽段和谱图匹配情况的第二个因素是碎片离子的理论峰强度。对于蛋白质搜索引擎，在进行肽段和实验谱图匹配打分的过程中，会先对肽段生成理论的碎片离子峰谱图，对生成的理论谱图与实验谱图计算相似度，从而进行肽段和实验谱图的匹配打分。然而，对于所有的蛋白质搜索引擎，都给肽段的理论碎片离子赋予了相同的强度，这与实验谱图中肽段碎裂产生的不同碎片离子峰强度高低不一的现象相悖。本发明采用了理论谱图预测软件pDeep，对所有鉴定到的肽段的碎片离子峰强度进行理论谱图预测。同时，本发明考虑到搜索引擎对每张谱图输出了丰富的候选肽段信息，打分排在第二名和第三名的候选肽段都是第一名肽段的强有力的竞争者，所以我们在进行理论谱预测时，考虑了开放式搜索和限定式搜索各自的前三名候选肽段，对所有候选肽段都计算了理论谱图与实验谱图的相似度，并提取了相应的相似度特征。

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

如图2所示，本发明的技术方案可以分为5个步骤：

步骤1，将质谱实验搜索得到的每个图谱作为待检测结果——“肽段-谱图匹配”，英文简称为PSM(Peptide-spectrum match)，将该待检测结果中图谱数据输入至开放式搜索引擎，得到该待检测结果的鉴定结果。待检测的结果是PSM，但是输入给开放式搜索引擎的是谱图数据(没有肽段匹配信息)，开放式搜索引擎再次搜索谱图数据，再次得到“肽段-谱图匹配”，即给每张谱图赋予一条肽段信息。蛋白质搜索引擎包括限定式搜索引擎和开放式搜索引擎；

步骤2，对于每一个该待检测结果，获取限定式搜索引擎pFind对该待检测结果进行打分，得到第一分值，同时提取第一分值排前n名候选肽段，n为预设的正整数，n在此实施例中为3但并不以此为限。对于每一个鉴定结果，获取开放式搜索引擎Open-pFind对该鉴定结果进行打分，得到第二分值，同时提取第二分值排前n名候选肽段；

步骤3，使用理论谱图预测方法pDeep得到每个候选肽段的理论谱图，计算每张理论谱图与该待检测结果的余弦相似度，并统计该余弦相似度中的最高值。

步骤4，提取由该待检测结果的第一分值、第二分值、余弦相似度和最高值组成的四维特征。对于每个待检测结果，提取该待检测结果的第一分值、第二分值、理论谱图与实验谱图的余弦相似度及该待检测结果对应的谱图在pFind和Open-pFind共6个候选肽段中最高的理论谱图和实验谱图的余弦相似度，作为四维特征。

步骤5，使用SVM训练的离线模型进行可信度打分，根据打分判断鉴定结果的类别。

所述步骤1中还包括

步骤11，选取和限定式搜索引擎具有相同打分机制的开放式搜索引擎。

步骤12，在开放式搜索引擎中设定与限定式引擎相同的搜索参数，酶切类型和修饰类型除外。

所述步骤2中还包括：

步骤21，根据鉴定结果的标记形式(无标记或重同位素标记)，在候选肽段文件中提取对应标记形式的候选肽段。如果鉴定结果是无标记形式，那么只提取无标记形式的前三名候选肽段；如果鉴定结果是重同位素标记形式，则提取重同位素标记形式的前三名候选肽段。

步骤22，处理候选肽段中的突变情况，如果候选肽段发生了某种突变，则将候选肽段的氨基酸修改为突变后的氨基酸。

步骤23，处理候选肽段中的超范围修饰情况，如果候选肽段发生了不能被pDeep预测的修饰，那么将这条候选肽段从预测列表中删除。

所述步骤3中还包括：

步骤31，在pDeep软件中设置与原始实验相同的质谱仪器及碎裂能量参数。

步骤32，对所有候选肽段生成理论谱图。

步骤33，计算所有候选肽段的理论谱图与实验谱图的余弦相似度。

所述步骤4中还包括：

步骤41，提取pFind对鉴定结果的打分，作为特征1。

步骤42，提取Open-pFind对相同谱图鉴定结果的打分，作为特征2。

步骤43，提取pFind打分排名第一的候选肽段的pDeep预测的理论谱图与实验谱图的余弦相似度，作为特征3。

步骤44，提取六个候选肽段中pDeep理论谱图与实验谱图的最高余弦相似度，作为特征4，集合该特征1、特征2、特征3和特征4作为该四维特征。

所述步骤5中还包括：

步骤51，样本集构建方法：使用多引擎(pFind、MaxQuant和PEAKS)的交集鉴定结果作为标注集，使用pFind重新搜索标注集中的谱图。重新搜索的结果中与多引擎交集一致的鉴定结果作为正样本，与多引擎鉴定结果不一致的作为负样本。

步骤52，对样本集中的样本提取四维特征，并将特征归一化到[0,1]，得到训练集。

步骤53，使用分类模型，例如LIBSVM对训练集进行训练，使用径向基核函数。

步骤54，对LIBSVM的预测结果进行分析，计算相应的FPR和FNR(图1a)。FPR的计算方式为正样本中预测为阳性(可疑)结果的比例，FNR的计算方式为负样本中预测为阴性(可信)结果的比例。如果FPR和FNR均不高于合成肽段的FPR(0.06％)和FNR(1.44％)，则训练完成；反之，调整LIBSVM参数，重新训练分类模型。最后，得到了LIBSVM离线模型(离线模型训练过程见图1b)。

步骤55，使用与离线模型相同的特征归一化方法对鉴定结果的四维特征进行归一化。

步骤56，使用SVM离线模型对鉴定结果给出可信度打分。

步骤57，根据打分给出检验结果，如果打分高于或者等于0.5，认为该鉴定结果是可信结果；反之，认为该鉴定结果是可疑结果(pValid实际应用过程如图1b中实线箭头标注的Pratical usage workflow所示)。

以下为与上述方法实施例对应的系统实施例，本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

所述的肽段-谱图匹配可信度检验系统，其中该模块4包括：

如图3所示，本发明还提出了一种数据处理装置，其中包括处理单元和该存储介质，该处理单元调用并执行该存储介质中的程序。

Claims

1.一种肽段-谱图匹配可信度检验方法，其特征在于，包括：

步骤1、将质谱实验搜索得到的肽段-谱图匹配数据作为待检测结果，将该待检测结果中谱图数据输入至开放式搜索引擎，得到该待检测结果的鉴定结果；

步骤3、预测每个该候选肽段的理论谱图，计算每张理论谱图与该待检测结果中谱图数据的余弦相似度，并统计该余弦相似度中的最高余弦相似度；

步骤4、提取该限定式搜索引擎对鉴定结果的第一分值，作为特征1；提取该开放式搜索引擎对该鉴定结果的第二分值，作为特征2；提取第一分值最高的候选肽段的理论谱图与该待检测结果中谱图数据的余弦相似度，作为特征3；提取所有候选肽段中理论谱图与该待检测结果中谱图数据的最高余弦相似度，作为特征4；集合该特征1、该特征2、该特征3和该特征4作为四维特征；

2.如权利要求1所述的肽段-谱图匹配可信度检验方法，其中该开放式搜索引擎和该限定式搜索引擎具有除酶切类型和修饰类型外相同的打分机制和搜索参数。

3.如权利要求1所述的肽段-谱图匹配可信度检验方法，其中该离线模型的训练方法包括：

4.一种肽段-谱图匹配可信度检验系统，其特征在于，包括：

模块1、将质谱实验搜索得到的肽段-谱图匹配数据作为待检测结果，将该待检测结果中谱图数据输入至开放式搜索引擎，得到该待检测结果的鉴定结果；

模块3、预测每个该候选肽段的理论谱图，计算每张理论谱图与该待检测结果中谱图数据的余弦相似度，并统计该余弦相似度中的最高余弦相似度；

模块4、提取该限定式搜索引擎对鉴定结果的第一分值，作为特征1；提取该开放式搜索引擎对该鉴定结果的第二分值，作为特征2；提取第一分值最高的候选肽段的理论谱图与该待检测结果中谱图数据的余弦相似度，作为特征3；提取所有候选肽段中理论谱图与该待检测结果中谱图数据的最高余弦相似度，作为特征4；集合该特征1、该特征2、该特征3和该特征4作为四维特征；

5.如权利要求4所述的肽段-谱图匹配可信度检验系统，其中该开放式搜索引擎和该限定式搜索引擎具有除酶切类型和修饰类型外相同的打分机制和搜索参数。

6.如权利要求4所述的肽段-谱图匹配可信度检验系统，其中该离线模型的训练系统包括：

7.一种存储介质，其特征在于，用于存储执行权利要求1-3中任意一种肽段-谱图匹配可信度检验方法的程序。

8.一种数据处理装置，其特征在于，包括处理单元和如权利要求7所述的存储介质，该处理单元调用并执行该存储介质中的程序。