CN111524549B

CN111524549B - 一种基于离子索引的整体蛋白质鉴定方法

Info

Publication number: CN111524549B
Application number: CN202010244337.2A
Authority: CN
Inventors: 王振振; 孙瑞祥; 迟浩; 贺思敏
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2023-04-25
Anticipated expiration: 2040-03-31
Also published as: CN111524549A

Abstract

本发明涉及一种基于离子索引的整体蛋白质鉴定方法与系统，其流程包括质谱的预处理、蛋白质变体的鉴定和可信度打分，其中在质谱的预处理过程中增加母离子在多电荷状态下理论与实验同位素模式匹配误差之和作为特征进行母离子候选电荷范围的剪枝及候选母离子的打分排序，在蛋白质变体的鉴定过程中使用序列标签技术获取候选蛋白质，并使用母离子质量约束，及蛋白质枚举的两翼标签和质谱上提取的标签来获取所有可能的两端截断的候选蛋白质序列，最后使用滑动窗口技术进行优化。本发明通过以上技术创新，能够在鉴定系统维持高效的基础上，提高了鉴定算法的灵敏度和速度，增加了可检测蛋白质的数量范围。

Description

一种基于离子索引的整体蛋白质鉴定方法

技术领域

本申请总地涉及生物信息学，具体来说，涉及生物信息学中的蛋白质鉴定领域，更具体涉及一种基于离子索引的整体蛋白质鉴定方法与系统。

背景技术

生物信息学是包含了分子生物学、遗传学、计算机科学、数学和统计学等多个学科的综合性学科。该学科通过计算的角度来解决大规模、密集的生物问题。最常见的处理方式是从分子层面上对生物过程进行建模，并从收集到的数据中进行推论(参见LeskA.Introduction to bioinformatics[M].Oxford university press,2014.)。组学(Omics)作为生物信息学中一个重要研究方向，包括了基因组学(Genome)、蛋白质组学(Proteome)和代谢组学(Metabolome)等。随着人类基因组计划的完成，蛋白质组学(Proteomics)已经逐渐成为了21世纪生物学的热点研究方向。蛋白质组学致力于通过研究蛋白质通路和网络结构来分析细胞和器官所形成的信息流，进而最终理解与发现蛋白质的相关功能(参见Horgan R P,Kenny L C.The Obstetrician Gynaecologis,2011,13(3):189-195)。

发明内容

本本发明的目的为解决以上问题，根据母离子多电荷的特性，对于每一个母离子计算在多电荷状态下理论与实验同位素模式匹配误差之和，根据该特征进行母离子候选电荷范围的剪枝及候选母离子的打分排序，最终实现快速、精准地导出可信母离子。此外，本申请使用序列标签技术实现了N/C端多端截断的蛋白质鉴定。使用序列标签技术获取候选蛋白质，并使用母离子质量约束，及蛋白质枚举的两翼标签和质谱上提取的标签来获取所有可能的两端截断的候选蛋白质序列，最后使用滑动窗口技术进行优化。

具体的，本发明的一个方面公开了一种基于离子索引的整体蛋白质鉴定方法，包括：

步骤1，获得候选蛋白质的串联谱图和可信母离子；

步骤2，对候选蛋白质建立序列标签索引表；

步骤3，根据修饰数据库中的信息以及用户设置的修饰数目建立修饰质量索引；

步骤4，从所述串联谱图中提取查询谱峰，用所述查询谱峰检索所述序列标签索引表，获取每张串联谱图的候选蛋白质；

步骤5，对于所述候选蛋白质检查其N/C端截断情况，为每个所述候选蛋白质保留有效序列片段；

步骤6，对每一个所述候选蛋白质序列，根据其母离子质量偏差检索所述修饰质量索引，获取候选修饰组合，得到候选蛋白质变体；

步骤7，对每一个所述候选蛋白质变体进行修饰位点定位和细打分，使用SVM模型对所有串联谱图的所述候选蛋白质变体进行重打分，得到每个候选蛋白质变体的SVM分值，其中所述SVM模型是通过将与各个串联谱图匹配的样本蛋白质变体作为训练样本训练得到的；

步骤8，取每张串联谱图SVM打分第一名的蛋白质变体结果，将所有的蛋白质变体-谱图匹配(Proteoform-Spectrum Match,PrSM)按照打分排序。

在本发明的另一个方面，所述步骤1包括：

步骤11，枚举所有候选串联谱图，对于每一个候选串联谱图，找到相应的先导谱图，及前后各5张一级谱，并在其中枚举母离子的最高峰位置和电荷状态，确定一个候选母离子；

步骤12，对每一个所述候选母离子，先计算其在其不同的电荷状态下理论与实验同位素模式匹配误差，然后计算其在多电荷状态下理论与实验同位素模式匹配误差之和，将所述误差之和作为特征值，并根据所述特征值排序，对同一个串联质谱下最高峰位置相同、电荷状态不同的所述候选母离子，保留其中特征值前5的所述候选母离子进入后续处理。

步骤13，对保留的所述候选母离子进行全量特征提取，使用所述离线LightGBM和在线SVM模型对待测母离子进行打分，二者打分结果进行线性加权加和，判断候选母离子是否为可信母离子并输出可信母离子。

在本发明的另一方面，步骤5包括：

在确定串联质谱及候选蛋白质序列后，枚举单端的蛋白质标签位置，然后根据串联谱图中提取的标签及枚举标签得到的标签计算质量差，得到可能的单端截断蛋白质变体序列；

在确定串联质谱及候选蛋白质序列后，利用滑动窗口技术来枚举蛋白质两翼的标签位置，然后根据串联谱图中提取到的标签及枚举标签得到的两翼标签来确定两翼的质量差，获取所有的双端截断蛋白质变体序列。

在本发明的另一方面，提出一种电子设备，其特征在于，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现如前面中任一方面所述方法的步骤。

在本发明的另一方面，还提出一种计算机可读储存介质，其上储存有计算机程序，其中，所述程序被处理器执行时实现上述各方面基于离子索引的整体蛋白质鉴定的方法。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

与现有技术相比，本发明在图谱预处理阶段可以导出更多可信母离子，同时最终的TD完整蛋白质鉴定结果精度和灵敏度都更高，同时数据处理速度更快。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，其中：

图1为本发明预处理阶段导出可信母离子的工作流程图；

图2为本发明的双端截断蛋白质鉴定图示。

具体实施方式

基于TD质谱技术的鉴定流程通常可分为质谱预处理、蛋白质变体鉴定和可信度打分，本发明提出，在质谱预处理阶段通过挖掘整体蛋白质特征来优化谱图预处理软件，在蛋白质变体鉴定阶段通过序列标签技术实现双端截断蛋白质鉴定。

与现有技术不同，发明人发现Top-down数据中母离子往往存在高质量，多电荷的特性，导致同一个母离子在一级谱中存在多个连续电荷状态，并且发现这一特性在一级谱中是普遍存在的。对于每一个测得的特定电荷数量，测得的数据下对应的是同一个母离子的完整同位素分布。本发明基于以上分析确定一个关键特征值，即母离子多电荷状态下理论与实验同位素模式匹配误差之和。以此特征值为重点构建一个标注集，并利用该标注集训练离线LightGBM模型，用训练好的该模型和在线SVM模型进一步对待测的母离子进行有权重的重新打分，从而获得可信度更高的母离子。

同时，在蛋白质变体鉴定阶段，发明人提出了可以鉴定双端截断蛋白质变体的算法，基于Tag索引，利用两翼质量限制和母离子质量约束的实现鉴定，并利用滑动窗口技术进行优化。

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。需要说明的是，本说明书中出现的谱图均指质谱图。本实施例采用的数据集为人类组蛋白母离子标注数据集，以及用于训练了离线模型的鼠脑标注数据集(鼠脑母离子标注数据集)。其中人类组蛋白数据集为来自PNNL的EMSL实验室公开发表的人类组蛋白的Top-down数据集。该批数据采用的质谱仪为LTQ Orbitrap Velos，采用碎裂方式有CID和ETD。整个人类组蛋白数据集共有5个raw文件，合计22,755张串联质谱。鼠脑数据集该批数据来自美国西北大学Neil Kelleher的实验室。

根据本发明的一个实施例，所述基于离子索引的整体蛋白质鉴定方法技包括：

步骤1，进行串联质谱图预处理，获得候选蛋白质的串联谱图和可信母离子。

其中根据本发明一个实施例，包括：

步骤11，计算每一个候选串联谱图的母离子特征，确定候选母离子。即枚举所有候选串联谱图，对于每一个候选串联谱图，通过扫描(scan)号找到相应的先导谱图，及前后各5张一级谱，并在其中枚举母离子的最高峰位置和电荷状态，从而唯一地确定一个候选母离子。

步骤12，对每一个所述候选母离子，根据其在多电荷状态下理论与实验同位素模式匹配误差之和筛选所述候选母离子。具体的，对每一个候选母离子，计算母离子在多电荷状态下理论与实验同位素模式匹配误差之和，将该误差之和作为特征值，并根据该特征值排序，对同一个串联质谱下最高峰位置相同、电荷状态不同的母离子，保留特征值Top 5的母离子进入后续环节。

其中，母离子在多电荷状态下理论与实验同位素模式匹配误差之和的计算方式如下：首先在先导谱图中枚举最高峰以及电荷C来确定候选母离子，然后再额外地枚举电荷范围[C-delta,C+delta]来获取每一个候选母离子在多电荷下实验与理论同位素模式分布，最后统计候选母离子的偏差绝对值之和，用来衡量候选母离子的正确性。本申请采用MaxIsoDevSum(一个极大值)减去当前母离子多电荷下理论与实验同位素模式偏差之和作为IsoDevSum的最终值。这意味着当枚举电荷错误或者枚举的最高峰为噪音峰时，在连续的多张一级谱上它对应的多电荷下质量误差窗口内出现同位素模式的偏差之和会较大，IsoDevSum会较小，而正确的母离子对应的偏差之和会较小，对应的IsoDevSum会较大。

步骤13，对筛选后的候选母离子，使用离线LightGBM和在线SVM模型对待测母离子进行打分，输出所述可信母离子；其中，所述离线LightGBM和在线SVM模型是用已知母离子数据集作为训练样本训练得到的。其中，用训练好的离线LightGBM和在线SVM模型对待测母离子进行打分，二者打分结果进行线性加权加和，并据此来判断候选母离子是否为可信母离子。具体的，步骤13在现有技术母离子导出流程中加入了离线模型打分模块。离线主要在粗打分粗筛后，在细打分阶段和在线机器学习模型共同决定一个候选母离子是否导出，例如将鼠脑母离子标注集进行随机采样，80％用于离线模型的训练，剩余20％标注数据，最后用人类组蛋白母离子标注数据集进行评价。而现有技术的缺陷在于，pParseTD1.0和2.0采用的是粗打分后对于候选母离子再进行在线机器学习细打分。理论上，由于正负例的选择是基粗结果所以后续细打分中尽管添加了多个特征，但是模型会趋向拟合粗打分结果，即认为粗打分所使用的四个特征为重要特征，这也直接导致细打分没能达到理想的效果，所以本步骤在现有技术流程中加入离线LightGBM模型。

步骤2，对候选蛋白质建立序列标签索引表。对蛋白质序列数据库优先提取对蛋白质序列数据库优先提取标签长度为5的Tag(如果Tag数量低于阈值则提取长度为数量低于阈值则提取长度为4的Tag)，然后建立Tag索引。高精度质谱数据保证了能提取到的索引。高精度质谱数据保证了能提取到的Tag长度增加。而Tag特异性随着其长度的增加而强，综合考虑速和灵敏，最后采用优先提取5长度的Tag。

步骤3，根据修饰数据库中的信息以及用户设置的修饰数目建立修饰质量索引。

步骤4，从谱图中提取查询谱峰，用查询谱峰检索序列标签索引表获取每张谱图的候选蛋白质。其中需要注意的是，获取质谱图并不在本发明要做的事情范围之内，因为该质谱图是生物、化学实验室已经将蛋白质样品(可能是多种蛋白的混合样品)使用质谱仪进行质谱分析并产生质谱图之后，使用本发明的系统来分析他们的质谱图，从中鉴定到蛋白质变体。因此，谱图是已知的，作为本发明系统输入的一部分，质谱图可包括一个物种的所有蛋白质样品。

步骤5，对于上述候选蛋白质检查其N/C端截断情况，为每个蛋白质保留有效序列片段。

根据本发明的一个实施例，所述步骤5包括：

步骤51，在确定串联质谱及候选蛋白质序列后，枚举单端的蛋白质标签(Tag)位置，然后根据谱图中提取的标签及枚举标签得到的标签计算质量差，进而得到可能的单端截断蛋白质变体序列。具体的，对于每一个候选蛋白质，将其拥有的Tag先按照位置排序，位置相同按照Tag的可信度打分排序，这样每一个候选蛋白质就得到了有序的Tag列表。根据蛋白质序列上N端或C端的Tag获取理论两翼质量，结合串联质谱中提取的Tag得到实验两翼质量，这样就能确定两翼质量的偏差值，从而确定N端或C端截断情况。本发明通过枚举Tag位置在最左侧的N个Tag和最右侧N个Tag(pTop3.0中N为3)为N端或C端Tag，从而来确定实验两翼质量。

步骤52，在确定串联质谱及候选蛋白质序列后，利用滑动窗口技术来枚举蛋白质两翼的标签位置，然后根据谱图中提取到的标签及枚举标签得到的两翼标签来确定两翼的质量差，进而获取所有的双端截断蛋白质变体序列。

现有技术无法准确鉴定到N端和C端同时因为水解而断裂的蛋白质序列，只能通过开大窗口得到对应的蛋白，却无法给出变体。但是如果简单地枚举两翼Tag，时间复杂度较高。步骤52利用滑动窗口技巧来对进行优化，从而实现线性时间复杂度来获取所有可能的候选双端截断蛋白质序列。例如，如图2，候选蛋白质序列上最左侧Tag为FVKTL，所以理论左翼质量为372Da，候选蛋白质序列上最右侧，候选蛋白质序列上最右侧Tag为VLRL，所以理论右翼质量为270Da。因为满足母离子的质量约束条件，所以我们使用双指针i，j同时向右边扫描。对于指针i，对应的是N端截断位置的Tag-KTLT，所以左翼实际质量为为113Da。同理，枚举的最右侧Tag是LVLR，所以右翼质量是156Da。我们可以将实际N端质量减去理论端质量减去理论N端质量得到113-372＝-259，故可知N端掉了MQ。同理，156-270＝-114，故可知C端掉了GG。在保证母离子质量约束的前提下然后依次移动右左指针，重复上述过程直到找出所有合法的N/C端同时截断蛋白质序列。在模拟数据集上至少能提高在模拟数据集上至少能提高3％的召回率。

步骤6，对每一个候选蛋白质序列，根据其母离子质量偏差差(谱图母离子质量减去候选蛋白质质量)检索修饰质量索引，获取候选修饰组合，并推导修饰位点的位置，得到候选蛋白质变体。

步骤7，对每一个候选蛋白质变体进行修饰位点定位和细打分，然后使用SVM模型对所有串联谱图的所述候选蛋白质变体进行重打分，得到每个候选蛋白质变体的SVM分值，其中所述SVM模型是通过将与各个串联谱图匹配的样本蛋白质变体作为训练样本训练得到的，其训练过程为：为每张谱图保留细打分前十名的蛋白质变体。根据预先设定的排名阈值，为每张谱图保留细打分分值排名最靠前的该排名阈值个蛋白质变体，将与各个谱图匹配的蛋白质变体作为训练样本输入至SVM模型进行训练。

步骤8，取每张谱图SVM打分第一名的蛋白质变体结果，将所有的蛋白质变体-谱图匹配按照打分排序，估计其错误发现率FDR，输出最终鉴定结果。即最终鉴定结果是一些高可信的蛋白质变体-谱图对，包含谱图ID、谱图母离子质量、匹配蛋白质名称、匹配蛋白质序列、母离子质量偏差、修饰名称和位点、匹配到的碎片离子数目等信息。

本实施例的技术效果如下：

第一，本实施例在谱图预处理阶段，通过母离子多电荷下理论与实验同位素模式匹配偏差之和这一关键的特征，在人类组蛋白母离子标注集上，与现有技术pParseTD1.0和pParseTD2.0对比，平均多召回了～7％的正确母离子，且速度提升1.5倍；而在鼠脑数据集和MSD数据集上的测试表明，在保证到处倍数最少的前提下，灵敏度至少提升3％，同时速度提升了至少1.5倍。

第二，本发明在标签索引的基础上，使用两翼质量偏差实现了索引的基础上，使用两翼质量偏差实现了N/C端双截断蛋白质的鉴定。利用滑动窗口技术优化使得引擎的灵敏度有了进一步提升，并利用滑动窗口技术优化至线性复杂度。在模拟数据集上能够比现有技术pTop2.0多召回227个蛋白质变体，比pTop1.2能够多召回862个正确蛋白质变体，能召回模拟谱中所有理论上能召回的N/C端截断蛋白质变体端截断蛋白质变体，经验证，多召回的鉴定结果中，蛋白质序列的N端和C端都存在截断。

第三，为更好地评测搜索引擎性能，本申请设计并生成了模拟数据集，并在模拟数据集，复杂数据集和15N标记数据集上，以定性和定量相结合的方式对本申请的pTop3.0与现有技术的pTop1.2，pTop2.0，TopPIC和Informed-Proteomics(IP)等多个同类型软件进行了全面的评测与对比。结果表明，pTop3.0在多个数据集上比pTop1.2的解析率平均高出22％，比pTop2.0平均高出10％，比TopPIC平均高出26％，与IP基本持平。同时，pTop3.0能比pTop1.2平均多鉴定到61％的蛋白质变体，比pTop2.0平均多鉴定到25％，比TopPIC平均多鉴定到约一倍。因为pTop3.0的预处理软件pParseTD3.0支持混合谱导出，即鉴定结果中一个支持混合谱导出，即鉴定结果中一个scan能对应多个蛋白质变体，而IP不支持混合谱导出，所以不支持混合谱导出，所以pTop3.0能在解析率与IP大致持平的情况下，比IP多鉴定到24％的蛋白质变体。此外，pTop3.0速度是pTop2.0的1.5倍，比IP快291倍，比倍，比TopPIC快501倍。

综上，本发明与现行的技术方案相比，能够在维持高效的情况下，增加了算法效率，即在算法中增加了可信母离子数量，并且同时使得算法的实用性扩展，可以实现了N/C端双截断蛋白质的鉴定。在多个数据集上，鉴定到的蛋白质变体数目平均提高20％，为整体蛋白质的鉴定提供了有力的支持。

尽管本实施例的框图以功能上分开的方式来描述组件，但这样的描述仅为了说明的目的。图中所示的组件可以任意地进行组合或被分为独立的软件、固件和/或硬件组件。而且，无论这样的组件是如何被组合或划分的，它们都可以在同一计算装置或多个计算装置上执行，其中多个计算装置可以是由一个或多个网络连接。

尽管已经描述该方法和系统的实施例，但是此实施例是示例性的并且不以任何方式限制所述方法和系统的范围。相关领域中的技术人员在不脱离所描述方法和系统的最宽范围的情况下可以对所描述的方法和系统的形式和细节进行修改。因此，本申请描述的方法和系统的范围不应该通过此示例性实施例来限定，而是应该根据所附权利要求书和其等价范围来限定。

Claims

1.一种基于离子索引的整体蛋白质鉴定方法，包括下列步骤：

步骤1，获得候选蛋白质的串联谱图和可信母离子；

步骤2，对候选蛋白质建立序列标签索引表；

步骤8，取每张串联谱图SVM打分第一名的蛋白质变体结果，将所有的蛋白质变体-谱图匹配(Proteoform-Spectrum Match,PrSM)按照打分排序；其中步骤1包括：

步骤11，计算每一个候选串联谱图的母离子特征，确定候选母离子；

步骤12，对每一个所述候选母离子，根据其在多电荷状态下理论与实验同位素模式匹配误差之和筛选所述候选母离子；

步骤13，对筛选后的候选母离子，使用离线LightGBM和在线SVM模型对待测母离子进行打分，输出所述可信母离子；其中，所述离线LightGBM和在线SVM模型是用已知母离子数据集作为训练样本训练得到的；以及

其中步骤5包括：在确定串联质谱及候选蛋白质序列后，利用滑动窗口技术来枚举蛋白质两翼的标签位置，然后根据串联谱图中提取到的标签及枚举标签得到的两翼标签来确定所述两翼的质量差，获取所有的双端截断蛋白质变体序列。

2.根据权利要求1所述的整体蛋白质鉴定方法，其中步骤11包括：枚举所有候选串联谱图，对于每一个候选串联谱图，找到相应的先导谱图，及前后各5张一级谱，并在其中枚举母离子的最高峰位置和电荷状态，确定一个候选母离子。

3.根据权利要求1所述的整体蛋白质鉴定方法，其中步骤12包括：对每一个所述候选母离子，先计算其在其不同的电荷状态下理论与实验同位素模式匹配误差，然后计算其在多电荷状态下理论与实验同位素模式匹配误差之和，将所述误差之和作为特征值，并根据所述特征值排序，对同一个串联质谱下最高峰位置相同、电荷状态不同的所述候选母离子，保留其中特征值前5的所述候选母离子进入后续处理。

4.根据权利要求1所述的整体蛋白质鉴定方法，其中步骤13包括：对保留的所述候选母离子进行全量特征提取，使用所述离线LightGBM和在线SVM模型对待测母离子进行打分，二者打分结果进行线性加权加和，判断候选母离子是否为可信母离子并输出所述可信母离子。

5.根据权利要求1所述的整体蛋白质鉴定方法，其中步骤5还包括：在确定串联质谱及候选蛋白质序列后，枚举单端的蛋白质标签位置，然后根据串联谱图中提取的标签及枚举标签得到的标签计算质量差，得到可能的单端截断蛋白质变体序列。

6.根据权利要求1所述的整体蛋白质鉴定方法，其中步骤8具体包括：为每张串联谱图保留细打分前十名的所述蛋白质变体，使用一个SVM模型对所有串联谱图的候选的所述细打分前十名的所述蛋白质变体进行重打分，得到每个候选蛋白质变体的SVM分值，其中所述SVM模型是通过将与各个串联谱图匹配的样本蛋白质变体作为训练样本训练得到的。

7.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现如权利要求1至6中任一项所述方法的步骤。

8.一种计算机可读储存介质，其上储存有计算机程序，其中，所述程序被处理器执行时实现上述权利要求1至6其中任一项所述方法的步骤。