CN111489789B

CN111489789B - 一种提高质谱磷酸化修饰位点鉴定通量和准确性的方法

Info

Publication number: CN111489789B
Application number: CN202010318724.6A
Authority: CN
Inventors: 薛宇; 周嘉琦; 林少峰; 王晨玮
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2020-04-21
Filing date: 2020-04-21
Publication date: 2021-10-15
Anticipated expiration: 2040-04-21
Also published as: CN111489789A

Abstract

本发明属于生物信息领域，公开了一种提高质谱磷酸化修饰位点鉴定通量和准确性的方法，包括以下步骤：(1)将磷酸化组质谱数据库中多个样本的质谱鉴定磷酸化修饰组原始数据用多种搜库引擎按假阳性率FDR要求进行重新搜库；(2)去冗合并得到训练集；(3)将训练集作为机器学习输入样本，构建基于训练数据的机器学习模型；(4)利用模型对位点进行预测得到每个位点的打分排序，再利用该打分筛选出FDR满足目标FDR要求的位点，从而得到各搜库引擎工具整合之后的总位点。本发明通过对方法的整体处理流程的设计进行改进，同时采用多种搜库引擎，能够有效克服现有技术中对于蛋白质磷酸化修饰位点鉴定无法跨样本、准确性差和通量低方面的缺陷。

Description

一种提高质谱磷酸化修饰位点鉴定通量和准确性的方法

技术领域

本发明属于生物信息领域，更具体地，涉及一种提高质谱磷酸化修饰位点鉴定通量和准确性的方法，能够针对现阶段高通量质谱技术鉴定翻译后修饰位点，利用整合多工具和机器学习的方法提高蛋白质磷酸化修饰位点鉴定通量和准确性。

背景技术

蛋白质磷酸化是细胞内十分重要的翻译后修饰，是由特定位点的蛋白质激酶催化把磷酸基团转移到蛋白质底物上的过程，该过程调控着细胞基本进程，例如细胞周期、细胞生长和分化等。近年来，随着蛋白质领域相关技术的发展，运用串联质谱技术鉴定蛋白质的磷酸化修饰位点成为主流，其主要方法是将磷酸化蛋白质经过蛋白酶消化后，纯化出磷酸化多肽，再通过串联质谱，采集原始数据，利用开源软件即搜库引擎进行数据库检索，最终筛选假阳性率(False Discovery Rate,FDR)小于1％的磷酸化修饰肽段，从而鉴定出磷酸化修饰位点。

在中国普通发明专利说明书CN103268432A中公开了一种基于串联质谱鉴定蛋白质磷酸化修饰位点的方法，其利用开源软件将质谱采集的原始数据转化为可视化格式的数据，并利用Mascot和pFind搜库引擎进行数据库检索，筛选假阳性概率FDR值小于1％的磷酸化修饰肽段，利用p-value做为重新定位后的磷酸化修饰位点可信度值，Score做为重新定位后磷酸化修饰位点对应的得分，并对鉴定获得的蛋白质磷酸化修饰位点重新定位及评估。

上述方法操作简单，在一定程度上提高了基于串联质谱进行蛋白质磷酸化修饰位点鉴定结果的可信度，但却不能有效提高修饰位点鉴定通量；另一方面，该方法仅仅使用了两种搜库引擎进行数据库检索，却未能明确两种程序各自在修饰位点鉴定准确性当中的贡献度，且不能说明这两种程序与其他常用搜库引擎(如MaxQuant、MyriMatch、Comet等)在位点鉴定通量和准确性当中的优劣性；再者，由于技术水平的种种局限，譬如提升基础质谱鉴定水平技术的难度较大、其中有一种搜库引擎Mascot为商用程序难以获取等，该方法未能在大样本，尤其像不同癌症病人样本当中得到广泛应用。

发明内容

针对现有技术的以上缺陷或改进需求，本发明的目的在于提供一种提高质谱磷酸化修饰位点鉴定通量和准确性的方法，其中通过对方法的整体处理流程的设计进行改进，同时采用多种搜库引擎，与现有技术相比能够有效克服现有技术中对于蛋白质磷酸化修饰位点鉴定无法跨样本、准确性差和通量低方面的缺陷，得到的跨样本多引擎整合提高蛋白质磷酸化修饰位点鉴定通量和鉴定准确性的方法，可直接在已有质谱原始数据上进行操作，可用于各类蛋白质相关组学，尤其是疾病相关的蛋白质组学和修饰组学分析。

为实现上述目的，按照本发明，提供了一种提高质谱磷酸化修饰位点鉴定通量和准确性的方法，其特征在于，包括以下步骤：

(1)将预先选定的磷酸化组质谱数据库中多个样本的质谱鉴定磷酸化修饰组原始数据用多种搜库引擎按预先设定的初始假阳性率FDR要求进行重新搜库；

(2)将所述步骤(1)中多种搜库引擎鉴定到的磷酸化修饰位点进行去冗合并，得到训练集；

(3)将所述步骤(2)得到的训练集作为机器学习输入样本，该训练集中的每一个位点在每种搜库引擎当中的最高分值作为特征值，构建基于训练数据的机器学习模型；

(4)利用所述步骤(3)得到的模型，对所述步骤(2)得到的训练集中的各个磷酸化修饰位点进行重新预测或者对其他未知样本集中的各个磷酸化修饰位点进行预测，得到每个位点的打分排序，再利用该打分筛选出假阳性率FDR满足预先设定的目标假阳性率FDR要求的位点，从而得到各搜库引擎工具整合之后的总位点；

并且，所述步骤(4)中的所述预先设定的目标假阳性率FDR要求要严于所述步骤(1)中的所述预先设定的初始假阳性率FDR要求。

作为本发明的进一步优选，所述步骤(1)中，所述多种搜库引擎为至少3种搜库引擎。

作为本发明的进一步优选，所述步骤(2)还对所述训练集中的数据进行阳性样本和阴性样本的标记；对于任意一个数据，若被至少2种搜库引擎鉴定到，则被标记为阳性样本；否则，被标记为阴性样本。

作为本发明的进一步优选，所述步骤(1)中，所述多种搜库引擎选自MaxQuant、pFind、MyriMatch、Comet、MS Amanda、MS-GF+、Tide、X！Tandem、OMSSA。

作为本发明的进一步优选，所述步骤(3)中，所述训练具体是基于逻辑回归训练。

作为本发明的进一步优选，所述方法还包括步骤：

(5)利用所述步骤(4)得到的总位点进行磷酸化修饰定量，得到磷酸化肽段强度。

作为本发明的进一步优选，所述步骤(1)中的所述预先设定的初始假阳性率FDR要求为假阳性率FDR小于2％；

所述步骤(4)中的所述预先设定的目标假阳性率FDR要求为假阳性率FDR小于1％。

作为本发明的进一步优选，所述步骤(1)中，所述预先选定的磷酸化组质谱数据库为PRIDE数据库和CPTAC数据库。

通过本发明所构思的以上技术方案，与现有技术相比，由于整合搜库鉴定方法，不仅能够提高基于质谱鉴定蛋白质磷酸化修饰位点的准确性，还能够大幅度提高在单个样本当中的修饰位点数鉴定通量(提高约1倍)及多个样本的鉴定总通量(提高约5％)。该方法对样本制备或串联质谱均无技术要求，完全基于后续数据处理和搜库引擎整合及模型训练预测打分方法。

附图说明

图1是本发明磷酸化组跨样本多引擎整合鉴定总体流程示意图。

图2是实施例1中肺癌磷酸化组跨样本多引擎整合鉴定流程示意图。

图3是实施例1中肺癌磷酸化组跨样本多引擎整合鉴定在单个样本中的鉴定结果和传统单一搜库引擎鉴定结果的比较。

图4是实施例1中肺癌磷酸化组跨样本多引擎整合鉴定结果和传统单一搜库引擎鉴定结果的比较。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，本发明总体来说，是①通过②和③得到机器学习的输入修饰位点④；⑦通过⑤的机器学习训练模型预测打分，再通过⑥的FDR筛选过程得到。本发明中提高质谱磷酸化修饰位点鉴定通量和准确性的方法包括以下步骤：

(3)将所述步骤(2)得到的训练集作为机器学习输入样本，该训练集中的每一个位点在每种搜库引擎当中的最高分值作为特征值，构建基于训练数据的机器学习模型；若某个位点同时出现在多个搜库引擎中，在去冗步骤中对该位点取特征值最高的情况(即多个搜库引擎当中的该位点分值最高的为该位点的特征值)；

本发明中，搜库引擎的数量可不设上限，尤其可采用各种的开放搜库引擎。

另外，步骤(2)中还可包括对所述训练集中的数据进行阳性样本和阴性样本的标记作用；对于任意一个数据，若被至少2种搜库引擎鉴定到，则被标记为阳性样本；否则，被标记为阴性样本。阴性样本和阳性样本可作为模型训练当中的输入标签使用，使所得模型成为一个二分类模型，如，被预测为阳性的位点会被标为1，被预测为阴性的位点会被标为0，最终利用模型预测得到的位点打分是其为1或为0的概率，因此，区分输入阴阳性样本标签为模型构建提供一个隐性的分类标准，供机器模型训练过程使用，能够进一步提高位点鉴定准确性。

实施例1

图2展示了按照本发明进行的肺癌磷酸化组跨样本多引擎鉴定整合流程。所用到的肺癌磷酸化组质谱数据来源于PRIDE和CPTAC公共数据库，包括①肺癌磷酸化组原始质谱数据和②正常肺部组织磷酸化组原始质谱数据，①由③多种搜库引擎限定FDR小于2％进行数据库检索，并进行④去冗整合后，得到⑤作为训练样本的磷酸化修饰位点，然后，再将⑤当中被≥2个引擎鉴定到的作为阳性样本，<2个引擎鉴定到的作为阴性样本，每个位点在每种引擎中的分值作为特征值(feature)，共9个特征值进行⑥逻辑回归训练，接下来，使用获得的模型对全部位点进行重新预测，得到每个磷酸化修饰位点的打分排序，再利用该打分⑦筛选FDR值小于1％的位点，得到⑧各工具整合之后鉴定到的磷酸化修饰总位点，并给出每个修饰位点的可信度打分。另外，还可以在⑧的基础上，对其进行磷酸化修饰定量，如利用MaxQuant工具进行定量，得到⑨肺癌磷酸化肽段强度，同时，对正常肺部组织的磷酸化修饰质谱数据当中也进行定量，得到⑩正常肺部组织的磷酸化肽段强度，将两种定量所得的强度进行比较，得到

肺癌和正常肺部组织的差异磷酸化修饰位点或蛋白质，最后进行下一步的实验分析。

图3展示了在232个单个肺癌样本中，使用按照本发明进行的磷酸化组跨样本多引擎整合方法鉴定到的磷酸化位点数与传统单一工具鉴定到的磷酸化位点数之间的差异。根据统计结果可知，由整合方法在单个样本中鉴定到的位点数对比传统单一工具鉴定到的最大位点数，最高倍数可达16.65倍(333：20，PRIDE样本1号)，最低为0.14倍(139：946，PIRDE样本119号)，平均为1.87倍，换而言之，整合方法比传统方法鉴定单个样本中磷酸化位点数有平均约1倍的提升。

图4展示了按照本发明进行的磷酸化组跨样本多引擎整合鉴定方法在232个肺癌样本中共鉴定到的总磷酸化位点为155,711个，而依靠单一工具鉴定到的磷酸化位点，分别为MaxQuant的96,043个、pFind的90,809个、MyriMatch的148,766个、Comet的61,054个、MSAmanda的139,766个、MS-GF+的112,848个、Tide的42,674个、X！Tandem的97,430个和OMSSA的51,002个。整合鉴定的方法，对比单一工具鉴定到的最大位点数(MyriMatch:148,766)，有了约4.67％(近5％)的提升，对比单一工具鉴定到的最小位点数(Tide:42,674)，则有了265％的提升，而相较于单一工具鉴定到的平均位点数(93,377)，也有近66.8％的提升。由此可见，整合鉴定的方法对比传统单一工具鉴定的方法，鉴定能力存在一定程度的提升。

本发明在研发过程中遇到了一定的技术难点，主要包括以下方面：1、目前为止并没有统一的对大样本的蛋白质磷酸化组数据进行收集整合的工作；2、众多工具所使用的算法思路不同，因此将每种搜库引擎整合在一起的步骤有较大难度；3、不同样本的质量参差不齐，对每个样本当中鉴定到的磷酸化位点进行质量控制的步骤有一定难度；4、不同样本的来源不同，导致无法通用；5、每种搜素引擎要求的输入输出文件不同，因此整合过程中需要进行与其对应的数据格式转换；6、许多搜库引擎没有可视化软件界面，需要利用源程序和命令行进行磷酸化组数据搜库操作，因此对于整合人员的代码掌握水平要求较高；7、由于原始磷酸化组质谱数据量巨大，利用多种搜库引擎进行重新搜库的时间和计算成本很高，因此整合过程对于计算资源和时间开销要求均较高；8、用各种搜库工具重新搜库的结果并非可读性较高的文本文件，提取磷酸化修饰位点的工作量巨大。正因如此，其他学者往往不会考虑本发明中的处理方法。

而针对以上难点，本发明采取了以下手段：1、本发明首先将现有已发表的磷酸化蛋白质组学数据进行了人工收集整合，为后续研究提供了较为完整的数据集支持；2、将每种工具的源程序提取，利用原始质谱数据，得到搜库结果数据之后人为进行FDR筛选等操作；3、提供统一的蛋白质原始序列库文件及反向库文件(计算FDR过程需要蛋白质的真实序列和被污染的序列，一般反向序列被视作被污染序列)，并在每种引擎当中设置统一的参数进行重新搜库，以便对每种搜库引擎所鉴定到的磷酸化位点进行质量控制；4、不同来源的样本在相同培养条件下(如肿瘤细胞在未经任何药物处理条件下)的质谱数据被提取，保证了跨样本数据的通用性；5、明确各种搜库引擎的输入输出文件要求，将原始质谱文件进行手工转换，输出文件经代码处理为统一格式，以便整合；6、明确各种搜库引擎的使用规则和参数意义，逐一进行重新搜库；7、计算资源来自于本发明团队所属大型服务器和个人计算机，尽量使用代码提交命令，节约时间；8、将各种搜库引擎对磷酸化组数据进行重新搜库的结果进行针对其的个性化代码处理，整合工作的总代码量达到16765行。

在每种引擎的参数设置方面，本发明可采用以下设置：1、部分搜库引擎需要手动设置修饰类型，如在MyriMatch程序中，磷酸化修饰需在参数文件中设置“[STY]*79.966”，具体表示分子量增加一个磷酸根的质量79.966，并加在丝氨酸(S),苏氨酸(T)和酪氨酸(Y)残基上；2、不同样本所选择的标记方法不同，因此在每种引擎当中，需要手动设置每种标记方式，例如，若样本被非label-free形式标记，则需要手动设置标记对应的分子量增加情况，如SILAC标记类型中被4,4,5,5-D4标记的L-赖氨酸相比于轻型赖氨酸增加了4-Da分子量，而被13C6和15N4标记的L-赖氨酸相比于轻型赖氨酸增加了8-Da分子量等，其他标记类型同样也是针对增加的分子量进行设置，在此不再赘述；3、标准蛋白质库文件和反库文件的参数设置在每种搜库引擎中不同，需要根据各个搜库引擎的说明文档对其进行个性化设置，如在Tide程序中，需要修改参数文件default.params，明确反库文件名称和路径；4、每种搜库工具的输入输出文件不同，需要在输入文件参数处明确输入文件类型，并在输出文件参数处明确输出文件类型，如在MS-GF+程序中，命令行参数-s后跟输入文件名称(格式形如input.mgf)，参数-o后跟输出文件名称(格式形如output.mzid)。

本发明方法中用到的搜库引擎可以是已开发的任何蛋白质组及修饰组学搜库引擎，如MaxQuant(该搜库引擎的详细内容可参见Tyanova,S.,Temu,T.,Cox,J.The MaxQuantcomputational platform for mass spectrometry-based shotgun proteomics.NatProtoc,2016,11(12):2301-2319)、pFind(该搜库引擎的详细内容可参见Chi,H.,Liu,C.,Yang,H.,et al.Comprehensive identification of peptides in tandem mass spectrausing an efficient open search engine.Nat Biotechnol,2018)、MyriMatch(该搜库引擎的详细内容可参见Tabb,D.L.,Fernando,C.G.,Chambers,M.C.MyriMatch:highlyaccurate tandem mass spectral peptide identification by multivariatehypergeometric analysis.J Proteome Res,2007,6(2):654-61)、Comet(该搜库引擎的详细内容可参见Eng,J.K.,Hoopmann,M.R.,Jahan,T.A.,et al.A deeper look intoComet--implementation and features.J Am Soc Mass Spectrom,2015,26(11):1865-74)、MS Amanda(该搜库引擎的详细内容可参见Dorfer,V.,Pichler,P.,Stranzl,T.,etal.MS Amanda,a universal identification algorithm optimized for high accuracytandem mass spectra.J Proteome Res,2014,13(8):3679-84)、MS-GF+(该搜库引擎的详细内容可参见Kim,S.,Pevzner,P.A.MS-GF+makes progress towards a universaldatabase search tool for proteomics.Nat Commun,2014,5:5277)、Tide(该搜库引擎的详细内容可参见Diament,B.J.,Noble,W.S.Faster SEQUEST searching for peptideidentification from tandem mass spectra.J Proteome Res,2011,10(9):3871-9)、X！Tanderm(该搜库引擎的详细内容可参见Xu,M.,Li,Z.,Li,L.Combining percolator withX！Tandem for accurate and sensitive peptide identification.J Proteome Res,2013,12(6):3026-33)、OMSSA(该搜库引擎的详细内容可参见Geer,L.Y.,Markey,S.P.,Kowalak,J.A.,et al.Open mass spectrometry search algorithm.J Proteome Res,2004,3(5):958-64)。

本发明方法中用到的机器学习方法可以是已开发的任何机器学习策略，如以逻辑回归为例的监督学习算法、非监督学习算法、半监督学习算法和强化学习算法等(机器学习算法详细内容参见《机器学习》，周志华，清华大学出版社，2016年1月，ISBN：978-7-302-206853-6)。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种提高质谱磷酸化修饰位点鉴定通量和准确性的方法，其特征在于，包括以下步骤：

2.如权利要求1所述提高质谱磷酸化修饰位点鉴定通量和准确性的方法，其特征在于，所述步骤(1)中，所述多种搜库引擎为至少3种搜库引擎。

3.如权利要求2所述提高质谱磷酸化修饰位点鉴定通量和准确性的方法，其特征在于，所述步骤(2)还对所述训练集中的数据进行阳性样本和阴性样本的标记；对于任意一个数据，若被至少2种搜库引擎鉴定到，则被标记为阳性样本；否则，被标记为阴性样本。

4.如权利要求1所述提高质谱磷酸化修饰位点鉴定通量和准确性的方法，其特征在于，所述步骤(1)中，所述多种搜库引擎选自MaxQuant、pFind、MyriMatch、Comet、MS Amanda、MS-GF+、Tide、X！Tandem、OMSSA。

5.如权利要求1所述提高质谱磷酸化修饰位点鉴定通量和准确性的方法，其特征在于，所述步骤(3)中，所述训练具体是基于逻辑回归训练。

6.如权利要求1所述提高质谱磷酸化修饰位点鉴定通量和准确性的方法，其特征在于，所述方法还包括步骤：

7.如权利要求1-6任意一项所述提高质谱磷酸化修饰位点鉴定通量和准确性的方法，其特征在于，所述步骤(1)中的所述预先设定的初始假阳性率FDR要求为假阳性率FDR小于2％；

8.如权利要求1-7任意一项所述提高质谱磷酸化修饰位点鉴定通量和准确性的方法，其特征在于，所述步骤(1)中，所述预先选定的磷酸化组质谱数据库为PRIDE数据库和CPTAC数据库。