CN103884806B - 结合二级质谱和机器学习算法的蛋白质组无标记定量方法 - Google Patents

结合二级质谱和机器学习算法的蛋白质组无标记定量方法 Download PDF

Info

Publication number
CN103884806B
CN103884806B CN201210563271.9A CN201210563271A CN103884806B CN 103884806 B CN103884806 B CN 103884806B CN 201210563271 A CN201210563271 A CN 201210563271A CN 103884806 B CN103884806 B CN 103884806B
Authority
CN
China
Prior art keywords
albumen
sample
frequency
occurrences
peptide section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210563271.9A
Other languages
English (en)
Other versions
CN103884806A (zh
Inventor
张丽华
吴琪
梁振
曲焱焱
蒋好
张玉奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Institute of Chemical Physics of CAS
Original Assignee
Dalian Institute of Chemical Physics of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Institute of Chemical Physics of CAS filed Critical Dalian Institute of Chemical Physics of CAS
Priority to CN201210563271.9A priority Critical patent/CN103884806B/zh
Publication of CN103884806A publication Critical patent/CN103884806A/zh
Application granted granted Critical
Publication of CN103884806B publication Critical patent/CN103884806B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明涉及一种结合二级质谱强度和机器学习算法的蛋白质组无标记定量方法,用于蛋白质组水平的绝对和相对定量分析。该方法首先需要在液相色谱-串级质谱系统上分析用于建立训练数据集的蛋白质组实际样品的酶解肽段混合物以及待分析的蛋白质组样品的酶解肽段混合物。样品总量可以通过细胞计数或测定蛋白浓度得知,根据上一步算得的百分比和样品总量即可以计算每一个蛋白的绝对量。将同一个蛋白在不同样品中的绝对量进行比较即可以获得该蛋白在不同样品中的相对定量信息。该方法无论是在绝对定量还是相对定量上都具有良好的准确度。

Description

结合二级质谱和机器学习算法的蛋白质组无标记定量方法
技术领域
本发明属于基于质谱技术的蛋白质组学定量方法,具体地涉及了一种结合二级质谱强度和机器学习算法的蛋白质组无标记绝对和相对定量方法。
背景技术
基于质谱的蛋白质组学技术已逐渐由定性转为定量。定量蛋白质组学对于疾病生物标志物的发现等具有重要作用。组学规模的绝对定量可以让我们动态监测样品中的蛋白质在时空中的变化情况。目前单个或几个蛋白质的量可以通过加入已知量同位素标记的肽段或蛋白获得,但蛋白质组学规模的绝对定量仍然只能由无标记的实验策略结合新型的计算方法来实现。
绝对定量的计算方法经历了几个阶段的发展:从最初基于序列覆盖率的emPAI方法到基于二级质谱图计数(SC)的NSAF方法,再到后来基于二级质谱中匹配上理论碎片的离子强度加和的SIN方法。但这些方法都没有考虑到不同性质的肽段在液质联用系统上响应不同的问题。Lu等在2007年发表了APEX方法(LuPeng,VogelChristine,WangRong,YaoXin,andMarcotteEdwardM,Nat.Biotechnol.,2007,1,117-124),第一次将肽段在液质联用系统上的响应概率引入到蛋白质组绝对定量中。他首先根据肽段的序列计算每条肽段的不同理化性质,再结合肽段在质谱上是否被检测到,利用这些信息构建训练数据集,然后用机器学习算法对训练数据集进行训练并生成预测模型用以预测定量数据集中的理论肽段在同一系统上的响应概率,然后将一个蛋白所有理论肽段的响应概率累加作为该蛋白的校正因子。最后采用SC作为定量依据,结合校正因子、蛋白的鉴定概率和样品中的蛋白总量计算每个蛋白的绝对量。目前该方法已由Braisted等用Java编程语言封装成软件,称之为APEXQuantitativeProteomicsTool(BraistedJohn,KuntumallaSrilatha,VogelChristine,MarcotteEdward,RodriguesAlan,WangRong,HuangShih-Ting,FerlantiErik,SaeedAlexander,FleischmannRobert,PetersonScott,PieperRembert,BMCBioinformatics,2008,9:529doi:10.1186/1471-2105-9-529)。但是,基于SC的方法存在着各种缺点例如准确度不高、对计数过小的蛋白难以定量等。Asara(AsaraJohnM,ChristofkHeatherR,FreimarkLisaMandCantleyLewisC,Proteomics,2008,5,994-999)等发现采用归属于一个蛋白的所有二级质谱图中的全部碎片离子强度加和再除以此蛋白的SC比单纯使用SC作为定量依据能增大定量的线性范围。但是这种方法没有考虑肽段在液质联用系统上的响应差异问题,导致相同量的不同蛋白的计算值差异较大,即定量结果不够准确。
发明内容
本发明的目的是结合现有方法的优点并克服它们各自的缺点,进一步提高定量的准确度。本发明提供了一种采用二级质谱强度作为定量依据并引入机器学习算法校正不同性质的肽段在液质联用系统上响应差异问题的新方法用于蛋白质组水平的绝对和相对定量。相比已有方法,该方法能明显提高定量的准确度。
本发明中的方法包括如下步骤(图1):
(1)将用于构建训练数据集的已知蛋白质实际样品的酶解肽段混合物在液相色谱-串级质谱系统上运行获得原始质谱数据文件(采用不同厂商的质谱仪器所产生的原始数据文件格式不一致,例如Thermo公司的RAW文件,Agilent公司的d文件夹等),原始数据文件经过Mascot数据库搜索(数据库搜索时加入反库、随机库或伪库序列以控制假阳性率)后获得样品中的蛋白列表,以及归属于每个蛋白的肽段列表和归属于每个肽段的二级质谱图列表,再经过TransProteomicPipeline(TPP)处理得到存储鉴定列表和蛋白鉴定概率的XML文件,然后用SINQ软件(TrudgianDavidC,RidlovaGabriela,FischerRoman,MackeenMukramM,TernetteNicola,AcutoOreste,KesslerBenediktM,ThomasBenjamin,Proteomics,2011,14,2790-2797)中用于计算PSM的q值的Perl源代码处理XML文件将鉴定结果的假阳性率(q值即假阳性率)控制到合理范围内即获得筛选后的蛋白列表及其鉴定概率,同时也包含筛选后的归属于每个蛋白的肽段列表和筛选后的归属于每个肽段的二级质谱图列表。以筛选后的所有肽段的序列为起点,采用APEXQuantitativeProteomicsTool中用于构建训练数据集的Java代码计算每条肽段的若干个物理化学性质并以数字表示,然后在理化性质的后面附上肽段在质谱上是否被检测到(检测到为Obs,未检测到为Not),这样一个包含肽段序列、理化性质以及在质谱上检测到与否的列表即是训练数据集(arff文件)。在同一个液相色谱-串级质谱系统上运行待分析样品的酶解肽段混合物,所采用的酶和构建训练数据集时使用的酶一致。原始数据文件同样经过上述的Mascot数据库搜索、TPP处理和假阳性率控制后获得筛选后的蛋白质鉴定列表,同样也包括筛选后的归属于每个蛋白的肽段序列列表和筛选后的归属于每个肽段的二级质谱图列表;
(2)将步骤(1)中获得的训练数据集arff文件导入机器学习算法Weka工具包中进行预测并生成预测模型(model文件);
(3)采用APEXQuantitativeProteomicsTool中用于计算蛋白校正因子的Java代码对待分析样品的蛋白质序列数据库fasta文件按照步骤(1)中所采用酶的特异性进行理论酶切获得理论肽段列表并计算它们的若干个理化性质,将它们导入步骤(2)中生成的预测模型即可输出每条理论肽段在该液相色谱-串级质谱系统上的响应概率(为一个0到1之间的数),将一个蛋白所有理论肽段在此液相色谱-串级质谱系统上的响应概率累加作为该蛋白的校正因子;
(4)采用Xcalibur软件(ThermoFisher公司)将归属于每个鉴定到蛋白的所有二级质谱中的全部碎片离子强度加和作为定量依据,除以步骤(3)中获得的校正因子后再乘以蛋白的鉴定概率,然后以其对待分析样品中的全部鉴定蛋白做归一化,得到每个蛋白相对于样品总量的百分比;通过细胞计数或蛋白浓度测定获知样品中的蛋白质总量,乘以该百分比即可以算得每个蛋白的绝对量;
(5)对于两个及以上样品做蛋白含量的差异分析时,首先需要将每个样品均进行两次及以上平行的液相色谱-串级质谱分析,采用步骤(1)-(4)描述的方法计算每次平行分析中每个样品中所有蛋白的绝对量。然后采用PowerLawGlobalErrorModel(PLGEM)统计学模型的R工具包在合理的p值(0<p≤0.1)下进行差异蛋白的检测;输入所有鉴定到的蛋白在多份样品中多次进样计算得到的绝对量,PLGEM模型即可判断哪些蛋白具有显著性差异,且该显著性差异正确的概率为(1-p)。
本发明具有如下优点:
1.结合了作为定量依据的二级质谱强度动态范围宽和采用机器学习算法校正定量依据后减小不同肽段在液质联用系统上响应差异这两方面的优点,获得更准确的定量结果。
2.在搜库结果的后处理步骤中加入了采用反库、随机库或伪库序列控制假阳性率的方法,可以获得更可靠的鉴定结果。
3.此方法不仅可以用于绝对定量,也可结合PLGEM统计学工具进行差异蛋白检测即相对定量的分析。
附图说明
图1为该方法的流程示意图。
图2为UPS2蛋白在LTQXL和OrbitrapVelos上采用酵母和鼠脑两个训练数据集训练得到的定量结果图。
图3为UPS1蛋白在相对定量的测试样品D和E中比值的密度分布曲线。
具体实施方式
下面通过实施例对本发明进行具体描述,有必要在此指出的是本实施例只用于对本发明进行进一步说明,不能理解为对本发明保护范围的限制,该领域的技术熟练人员可以根据上述发明的内容做出一些非本质的改进和调整。
实施例1
1.采用酵母和鼠脑提取蛋白的胰蛋白酶酶解产物作为训练数据集的数据来源,分别在一维nano-RPLC-MS/MS系统上运行5次。质谱仪为Thermo公司的LTQXL和OrbitrapVelos。采用购自Sigma公司的UPS2标准蛋白混合物作为定量数据集测试方法的效果。UPS2标准蛋白混合物由48个来源于人的标准蛋白混合而成,其浓度跨越6个数量级,在每个数量级上有8个性质各异的蛋白。将UPS2的胰蛋白酶酶解产物在相同的系统上运行5次。UPS2在柱上的绝对量从5amol到500fmol,跨越6个数量级。
将原始数据RAW文件用TPP(version4.6)中的msconvert.exe组件转换成mgf格式,再采用Mascot(version2.3.02)数据库搜索引擎对mgf文件进行搜索。搜索三个样品采用的数据库分别是:(1)酵母:2012年8月31日从Swissprot数据库中下载的酵母序列加上它们的反序列;(2)鼠脑:RAT的IPI数据库3.87版加上它们的反序列;(3)UPS2:48个UPS2蛋白序列加上前述酵母的反序列。对于两种质谱仪的其他搜库参数相同的部分还有:只考虑+2、+3及+4价的母离子;固定修饰为C(Carbamidomethylation),可变修饰为M(Oxidation)。针对LTQXL的母离子质量容忍度为2Da而子离子质量容忍度为1Da;针对OrbitrapVelos的质量容忍度分别是:母离子10ppm而子离子0.5Da。
将酵母和鼠脑蛋白5次进样的搜库结果合并,依次经过TPP的组件PeptideProphet和ProteinProphet处理,得到未经筛选的鉴定结果;再利用SINQ软件中的Perl源代码筛选鉴定结果,使得搜库结果中来源于反序列PSM的q值小于等于1%,即假阳性率小于等于1%。采用APEXQuantitativeProteomicsTool中的源代码将搜索酵母或鼠脑数据时使用的数据库中的全部蛋白序列理论酶切,再选取鉴定结果中蛋白概率为1且SC≥50(LTQXL)或70(OrbitrapVelos)酶解产生的理论肽段计算它们的35个物理化学性质,并结合它们的鉴定信息构建出两个训练数据集。
对于UPS2蛋白5次进样的搜库结果,分别进行PeptideProphet和ProteinProphet处理以及采用SINQ软件的Perl源代码控制假阳性率后,从最终的导出结果文件.pep.xml和.prot.xml中获得归属于每个鉴定到蛋白的肽段列表和归属于每个肽段的二级质谱图列表。同一个UPS2蛋白至少在3次进样中被鉴定到则认为是可靠鉴定。鉴定结果如下:在LTQXL上共鉴定到22个UPS2蛋白,分布在3个数量级上,500fmol8个,50fmol8个,5fmol6个;在OrbitrapVelos上共鉴定到30个UPS2蛋白,分布在4个数量级上:500fmol8个,50fmol8个,5fmol8个,500amol6个。
2.采用WekaMachineLearningSoftware的Java源代码对刚才获得的两个训练数据集进行训练,所采用的机器学习算法用weka代码表示具体是:weka.classifiers.meta.CostSensitiveClassifier-cost-matrix″[costmatrix]″-S1-Wweka.classifiers.meta.Bagging---P100-S1-I10-Wweka.classifiers.trees.RandomForest---I10-K5-S1。得到由酵母和鼠脑分别生成的两个预测模型。
3.采用WekaMachineLearningSoftware的Java源代码对搜索定量数据的数据库进行理论胰蛋白酶酶切,采用上一步中生成的两个预测模型分别预测每条肽段在该液相色谱-串级质谱系统上的响应概率,将每个UPS2蛋白所有理论肽段在系统上的响应概率累加作为该蛋白的校正因子。每个蛋白的校正因子有两个,分别来源于酵母和鼠脑产生的预测模型。
4.采用Xcalibur软件,从UPS2蛋白5次进样的详细鉴定列表以及它们对应的二级质谱mgf文件中提取二级质谱碎片离子强度计算归属于每个UPS2蛋白所有二级质谱中的全部碎片离子强度加和作为定量依据,规定蛋白总量C为1,再按照公式(a)所示的方法计算每个蛋白的APEX-SMT。将每个可靠鉴定蛋白(至少在3次进样中被鉴定到)的APEX-SMT求平均(不管鉴定到几次,都除以5)则算得此蛋白的最终绝对量。每个蛋白的最终绝对量的计算值有四个,分别来源于两种质谱仪器以及两种预测模型的组合。将同一摩尔量级上的多个蛋白的最终计算绝对量按照不同仪器和预测模型对应求平均值和标准偏差,以实际进样量的log10为x轴,计算值的log10为y轴,以及标准偏差为y的误差棒作图,如图2所示。从图中可以看到,无论在哪种仪器上计算值与实际进样量都保持着高度一致(最低摩尔量级的一致性稍差,这主要是由质谱本身的检测动态范围所限制),且误差棒的大小也在合理的范围内;通过比较图2A与图2B以及图2C与图2D可以看到,采用不同物种构建的训练数据集对定量结果几乎没有影响。
实施例2
1.相对定量的测试数据集来源于ClinicalProteomicTechnologyAssessmentforCancer(CPTAC),从http://www.proteomecommons.org/网站下载得到(hash:NGX3cBUAZXSWvc+6XFNIdVhpLPJTO87lzAxUQmwwR2KHUwWDrdFwV1dso3bvxf7HeXZ4C/juqwEUIz4boC9H3HcLrxEAAAAAAAAmDw==),数据集的名称为Study6OrbitrapO86。该数据集中含有5个样品A-E,每个样品中含等量的酵母提取蛋白(60ng/μL),并依次含有0.24,0.74,2.2,6.7,20fmol/μL的UPS1标准蛋白混合物,使得每两个相邻样品中的UPS1蛋白的变化倍数为3倍而酵母蛋白含量不变。UPS1与UPS2相似,只是48个标准蛋白是等摩尔混合。每个样品在OrbitrapXL质谱仪上重复进样3次。由于样品A和B中的UPS1蛋白含量极低,故将它们中的酵母蛋白作为训练数据集的数据来源;以样品D和E中的UPS1蛋白作为定量数据集。数据库检索以及后处理的流程和实施例1绝大部分相同,不同之处有3点:
(1)搜索定量数据时采用的数据库,为48个UPS1蛋白序列加上酵母蛋白的序列再加上它们两者的反序列。
(2)选取酵母鉴定结果中鉴定概率为1且SC≥30的蛋白的理论肽段构建训练数据集。
(3)对于样品D和E,蛋白被任一次进样鉴定到都算作有效鉴定,共鉴定到44个UPS1蛋白和1074个酵母蛋白。
2.采用和实施例1中一样的weka代码对训练数据集进行训练并生成预测模型。
3.对搜索定量数据的数据库进行理论酶切,采用上一步中生成的预测模型预测每条肽段在该液相色谱-串级质谱系统上的响应概率,将每个UPS1蛋白所有理论肽段在系统上的响应概率累加作为该蛋白的校正因子。
4.从样品D和E各3次进样的鉴定结果和它们对应的二级谱图mgf文件中提取二级质谱碎片离子强度计算归属于每个鉴定到的蛋白所有二级质谱中的全部碎片离子强度加和作为定量依据,规定蛋白总量C为1,再按照公式(a)所示的方法计算每个蛋白的APEX-SMT。
采用穷尽式的计算方法计算UPS1蛋白在样品D和E之间的变化倍数:将两样品各3次进样的定量结果命名为D1,D2,D3和E1,E2,E3。对同一个UPS1蛋白计算所有9组定量比值E1/D1,E2/D1,E3/D1,E1/D2,E2/D2,E3/D2,E1/D3,E2/D3,E3/D3。将所有的定量比值经过log2转换成用Matlab(versionR2010b)的ksdensity函数(参数均默认)画密度分布曲线,如图3所示。图中的竖虚线表示理论的变化倍数,可以看到概率密度基本上平均分布在理论值的两侧,说明该方法在计算蛋白的变化倍数上具有较高的准确性。
将同一个蛋白在两样品中3次进样的APEX-SMT数据做成PLGEM要求的expressiondata的形式传入PLGEMRpackage来检测差异蛋白信息。PLGEM的具体参数设置如下:p=0.1;trimAllZeroRows=TRUE;zeroMeanOrSD=″trim″;numberofiterationsofthepermutation=2000。最终计算得到共239个差异蛋白,其中30个是UPS1蛋白,209个是酵母蛋白。根据前面的阐述,UPS1蛋白的确是差异蛋白而酵母蛋白则不是,说明在p=0.1的情况下方法的灵敏度为30/44=68.2%,而方法的错误率为209/1074=19.5%,且上述结论正确的概率为90%,显示出该方法在差异蛋白检测方面的优良性能。

Claims (5)

1.结合二级质谱和机器学习算法的蛋白质组无标记定量方法,其特征在于,包括以下步骤:
(1)将用于构建训练数据集的已知蛋白质实际样品的酶解肽段混合物在液相色谱-串级质谱系统上运行获得原始质谱数据文件,原始数据文件经过Mascot数据库搜索后获得样品中的蛋白列表,以及归属于每个蛋白的肽段列表和归属于每个肽段的二级质谱图列表,再经过TransProteomicPipeline(TPP)处理得到存储鉴定列表和蛋白鉴定概率的XML文件,将它们导入SINQ软件中用于计算肽段与谱图匹配(PSM)q值的Perl源代码计算每个PSM的q值,其中q值即是假阳性率,将假阳性率控制到合理范围内,即获得筛选后的蛋白列表及其鉴定概率,同时也包含筛选后的归属于每个蛋白的肽段列表和筛选后的归属于每个肽段的二级质谱图列表;以筛选后的所有肽段的序列为起点,采用APEXQuantitativeProteomicsTool中用于构建训练数据集的Java代码计算每条肽段的1~35个物理化学性质并以数字表示,然后在理化性质的后面附上肽段在质谱上是否被检测到,检测到为Obs,未检测到为Not,这样一个包含肽段序列、理化性质以及在质谱上检测到与否的列表即是训练数据集arff文件;
在同一个液相色谱-串级质谱系统上运行待分析样品的酶解肽段混合物,所采用的酶和构建训练数据集时使用的酶一致;原始数据文件同样经过上述的Mascot数据库搜索、TPP处理和假阳性率控制后获得筛选后的蛋白质鉴定列表,同样也包括筛选后的归属于每个蛋白的肽段序列列表和筛选后的归属于每个肽段的二级质谱图列表;
(2)将步骤(1)中获得的训练数据集arff文件导入机器学习算法Weka软件中进行预测并生成数学预测模型model文件;
(3)采用APEXQuantitativeProteomicsTool中用于计算蛋白校正因子的Java代码对待分析样品的蛋白质序列数据库fasta文件按照步骤(1)中所采用酶的特异性进行理论酶切获得理论肽段列表并计算它们的1~35个物理化学性质,性质的种类和构建训练数据集时相同;将肽段及它们的物理化学性质导入步骤(2)中生成的数学预测模型model文件即可输出每条理论肽段在该液相色谱-串级质谱系统上的响应概率为一个0到1之间的数,将归属于每个蛋白的所有理论肽段在此液相色谱-串级质谱系统上的响应概率累加作为该蛋白的校正因子;
(4)采用Xcalibur软件将归属于待分析样品中鉴定到的每个蛋白所有二级质谱图中的全部碎片离子强度加和作为定量依据,除以步骤(3)中获得的蛋白校正因子再乘以TPP给出的蛋白鉴定概率得到对该蛋白含量的表征值;对所有蛋白均计算该表征值,每个蛋白的表征值除以所有蛋白表征值的总和即是该蛋白相对于样品中所有蛋白含量的百分比,乘以样品中的蛋白总量即算得每个蛋白的绝对量。
2.根据权利要求1所述的方法,其特征在于:
(5)对于两个及以上样品做蛋白含量的差异分析时,首先需要将每个样品均进行两次及以上平行的液相色谱-串级质谱分析,采用步骤(1)-(4)描述的方法计算每次平行分析中每个样品中所有蛋白的绝对量;
然后采用统计学方法判断在两份或多份样品中哪些蛋白存在显著性差异。
3.根据权利要求1所述的方法,其特征在于:步骤(1)中用于建立训练数据集的实际样品不能是待分析样品本身;Mascot数据库搜索时加入反库、随机库或伪库序列以控制鉴定结果的假阳性率,假阳性率是指来源于反库、随机库或伪库序列的PSM与来源于正库序列的PSM的比值,假阳性率的合理范围是指在0~10%之间;肽段的35个物理化学性质包括:分子量、氨基酸个数、丙氨酸的出现频率、半胱氨酸的出现频率、天冬氨酸的出现频率、谷氨酸的出现频率、苯丙氨酸的出现频率、甘氨酸的出现频率、组氨酸的出现频率、异亮氨酸的出现频率、赖氨酸的出现频率、亮氨酸的出现频率、甲硫氨酸的出现频率、天冬酰胺的出现频率、脯氨酸的出现频率、谷氨酰胺的出现频率、精氨酸的出现频率、丝氨酸的出现频率、苏氨酸的出现频率、缬氨酸的出现频率、色氨酸的出现频率、酪氨酸的出现频率、被包埋在蛋白质内部的氨基酸个数、疏水性、等电点、pH=7时的净电荷、平均净电荷、总的正电荷、平均正电荷、α螺旋的总归一化频率、α螺旋的平均归一化频率、β卷曲的总归一化频率、β卷曲的平均归一化频率、β折叠的总归一化频率、β折叠的平均归一化频率;
训练样品和待分析样品的最终鉴定结果列表都是通过对原始数据文件依次经过数据库检索、检索结果后处理以及假阳性率控制这三步产生。
4.根据权利要求1所述的方法,其特征在于:步骤(4)的具体计算过程为:将归属于每个鉴定到蛋白的所有二级质谱中的全部碎片离子强度加和作为定量依据,除以步骤(3)中获得的校正因子后再乘以蛋白的鉴定概率,然后以其对待分析样品中的全部鉴定蛋白做归一化,得到每个蛋白相对于样品总量的百分比;通过细胞计数或蛋白浓度测定获知样品中的蛋白质总量,乘以该百分比即算得每个蛋白的绝对量,用公式(a)表示为:
A P E X - SMT i = p i ( SMT i O i ) &Sigma; k = 1 N p k ( SMT k O k ) &times; C - - - ( a )
pi为蛋白i的鉴定概率,SMTi为归属于蛋白i的所有二级质谱中的全部碎片离子强度加和,Oi为蛋白i的校正因子,N为待分析样品中鉴定到的蛋白质总数,N为大于等于1的正整数,pk为N个蛋白中第k个的鉴定概率,SMTk为N个蛋白中归属于第k个蛋白的所有二级质谱中的全部碎片离子强度加和,Ok为N个蛋白中第k个蛋白的校正因子;C为待分析样品中的蛋白质总量;计算的结果APEX-SMTi即是蛋白i的绝对量。
5.根据权利要求2所述的方法,其特征在于:步骤(5)的显著性差异蛋白的检测采用PowerLawGlobalErrorModel(PLGEM)统计学模型的R工具包在合理的p值,其中0<p≤0.1下进行;以PLGEM的固定输入格式expressiondata的格式输入所有鉴定到的蛋白在多份样品中多次进样计算得到的绝对量,PLGEM模型即可判断哪些蛋白具有显著性差异,且该显著性差异正确的概率为(1-p)。
CN201210563271.9A 2012-12-21 2012-12-21 结合二级质谱和机器学习算法的蛋白质组无标记定量方法 Active CN103884806B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210563271.9A CN103884806B (zh) 2012-12-21 2012-12-21 结合二级质谱和机器学习算法的蛋白质组无标记定量方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210563271.9A CN103884806B (zh) 2012-12-21 2012-12-21 结合二级质谱和机器学习算法的蛋白质组无标记定量方法

Publications (2)

Publication Number Publication Date
CN103884806A CN103884806A (zh) 2014-06-25
CN103884806B true CN103884806B (zh) 2016-01-27

Family

ID=50953817

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210563271.9A Active CN103884806B (zh) 2012-12-21 2012-12-21 结合二级质谱和机器学习算法的蛋白质组无标记定量方法

Country Status (1)

Country Link
CN (1) CN103884806B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105136925A (zh) * 2015-08-26 2015-12-09 中南大学 一种中药所含系列成分检测鉴定的分析系统
CN105527359B (zh) * 2015-11-19 2017-10-31 云南民族大学 基于正反库特征信息匹配的蛋白质二级质谱鉴定方法
WO2018133553A1 (zh) * 2017-01-20 2018-07-26 北京蛋白质组研究中心 健康人尿蛋白质组定量参考范围的建立和获取疾病相关尿蛋白标志物的方法
CN108334752B (zh) * 2017-01-20 2020-09-04 北京松果天目健康管理有限公司 建立健康人尿蛋白质组定量参考范围的方法及健康人尿蛋白质组数据库
CN109839469A (zh) * 2017-11-28 2019-06-04 中国科学院大连化学物理研究所 一种基于疏水性氨基酸特异性蛋白酶的蛋白质分析方法
CN108491690B (zh) * 2018-03-16 2020-06-05 中国科学院数学与系统科学研究院 一种蛋白质组学中肽段的肽段定量效率预测方法
CN111208299B (zh) * 2018-11-21 2021-05-28 中国科学院大连化学物理研究所 一种交联肽段定性定量分析方法
CN113474841A (zh) * 2019-02-22 2021-10-01 3M创新有限公司 使用核酸扩增测定的靶生物体的机器学习量化
CN115112778B (zh) * 2021-03-19 2023-08-04 复旦大学 一种疾病蛋白质生物标志物鉴定方法
CN113284563B (zh) * 2021-04-20 2024-04-09 厦门大学 一种蛋白质质谱定量分析结果的筛选方法及系统
CN114639444B (zh) * 2022-03-31 2022-12-27 南京医科大学 一种基于深度学习提高单细胞蛋白质组鉴定覆盖率的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101055558A (zh) * 2006-04-14 2007-10-17 中国科学院计算技术研究所 基于质谱数据同位素模式的质谱有效峰选取方法
WO2010109022A1 (en) * 2009-03-27 2010-09-30 Universitetet I Oslo Quantitative proteomics method
CN102473247A (zh) * 2009-06-30 2012-05-23 陶氏益农公司 用于在包含分子遗传标志物的植物和动物数据集中挖掘关联规则,继而利用由这些关联规则创建的特征进行分类或预测的机器学习方法的应用

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102012102875B4 (de) * 2011-04-04 2024-04-18 Wisconsin Alumni Research Foundation Vorläuferauswahl mit einem Artificial-Intelligence-Algorithmus erhöht Abdeckung und Reproduzierbarkeit von proteomischen Proben

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101055558A (zh) * 2006-04-14 2007-10-17 中国科学院计算技术研究所 基于质谱数据同位素模式的质谱有效峰选取方法
WO2010109022A1 (en) * 2009-03-27 2010-09-30 Universitetet I Oslo Quantitative proteomics method
CN102473247A (zh) * 2009-06-30 2012-05-23 陶氏益农公司 用于在包含分子遗传标志物的植物和动物数据集中挖掘关联规则,继而利用由这些关联规则创建的特征进行分类或预测的机器学习方法的应用

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Calculating absolute and relative protein abundance from mass spectrometry-based protein expression data;Christine Vogel et al.;《NATURE PROTOCOLS》;20080821;第3卷(第9期);Page 1444-1451 *
Comparative evaluation of label-free SINQ normalized spectral index quantitation in the central proteomics facilities pipeline;David C. Trudgian et al.;《Proteomics》;20111231;第11卷;第2790页摘要,第2791页右栏末句,第2792页左栏首段,2.4节 *
Label-Free Protein Quantitation Using Weighted Spectral Counting;Christine Vogel et al.;《Methods in Molecular Biology》;20120507;第893卷;Page 1 "Abstract",脚注,Page 2第2-4段,Page3 2.1-2.2节,Page 4-10第3.2-3.4节,Page 14 Fig 1,Page 15 Fig 2,Page 16 Fig 3,Page 17 Table 1 *
NSI and NSMT: usages of MS/MS fragment ion intensity for sensitive differential proteome detection and accurate protein fold change calculation in relative label-free proteome quanti&#64257;cation;Qi Wu et al.;《Analyst》;20120419;第137卷;第3148页2.4节,第3150页右栏末段,3.3节,Fig 3 *
The APEX Quantitative Proteomics Tool: Generating protein quantitation estimates from LC-MS/MS proteomics results;John C Braisted et al.;《BMC Bioinformatics》;20081209;第9卷(第529期);全文 *
蛋白质组学质谱平台肽段可检测性预测研究进展;徐长明 等;《分析化学》;20100228;第38卷(第2期);286-292页 *

Also Published As

Publication number Publication date
CN103884806A (zh) 2014-06-25

Similar Documents

Publication Publication Date Title
CN103884806B (zh) 结合二级质谱和机器学习算法的蛋白质组无标记定量方法
Picotti et al. Full dynamic range proteome analysis of S. cerevisiae by targeted proteomics
Colangelo et al. Review of software tools for design and analysis of large scale MRM proteomic datasets
Li et al. A software suite for the generation and comparison of peptide arrays from sets of data collected by liquid chromatography-mass spectrometry* S
Xu et al. MassMatrix: a database search program for rapid characterization of proteins and peptides from tandem mass spectrometry data
Nesvizhskii et al. Analysis and validation of proteomic data generated by tandem mass spectrometry
CN107328842B (zh) 基于质谱谱图的无标蛋白质定量方法
Keller et al. Software pipeline and data analysis for MS/MS proteomics: the trans-proteomic pipeline
KR101341591B1 (ko) N―연결형 당펩티드의 동정 및 정량을 위한 생물정보처리 분석 방법
Fenyö et al. Mass spectrometric protein identification using the global proteome machine
Curran et al. Computer aided manual validation of mass spectrometry-based proteomic data
Ahrné et al. An improved method for the construction of decoy peptide MS/MS spectra suitable for the accurate estimation of false discovery rates
MacCoss Computational analysis of shotgun proteomics data
CN108491690B (zh) 一种蛋白质组学中肽段的肽段定量效率预测方法
Wong et al. msmsEval: tandem mass spectral quality assignment for high-throughput proteomics
Ng et al. Algorithms for de-novo sequencing of peptides by tandem mass spectrometry: A review
Feng et al. Selected reaction monitoring to measure proteins of interest in complex samples: a practical guide
Quandt et al. Using synthetic peptides to benchmark peptide identification software and search parameters for MS/MS data analysis
Zhang et al. PeakSelect: preprocessing tandem mass spectra for better peptide identification
Moruz et al. Mass fingerprinting of complex mixtures: protein inference from high-resolution peptide masses and predicted retention times
Saito et al. AYUMS: an algorithm for completely automatic quantitation based on LC-MS/MS proteome data and its application to the analysis of signal transduction
Yu et al. Integrated platform for manual and high‐throughput statistical validation of tandem mass spectra
KR101311412B1 (ko) 당 동정을 위한 새로운 생물정보처리 분석 방법
Niu et al. Determination of monoisotopic masses of chimera spectra from high‐resolution mass spectrometric data by use of isotopic peak intensity ratio modeling
Matthiesen et al. Analysis of mass spectrometry data in proteomics

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant