CN116153392A - 一种自动化靶向蛋白质组学定性定量分析方法 - Google Patents
一种自动化靶向蛋白质组学定性定量分析方法 Download PDFInfo
- Publication number
- CN116153392A CN116153392A CN202211553825.7A CN202211553825A CN116153392A CN 116153392 A CN116153392 A CN 116153392A CN 202211553825 A CN202211553825 A CN 202211553825A CN 116153392 A CN116153392 A CN 116153392A
- Authority
- CN
- China
- Prior art keywords
- polypeptide
- file
- retention time
- standard
- library
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 90
- 238000004445 quantitative analysis Methods 0.000 title claims abstract description 25
- 238000004451 qualitative analysis Methods 0.000 title claims abstract description 21
- 108090000765 processed proteins & peptides Proteins 0.000 claims abstract description 196
- 229920001184 polypeptide Polymers 0.000 claims abstract description 183
- 102000004196 processed proteins & peptides Human genes 0.000 claims abstract description 183
- 238000001819 mass spectrum Methods 0.000 claims abstract description 38
- 238000006243 chemical reaction Methods 0.000 claims abstract description 9
- 230000014759 maintenance of location Effects 0.000 claims description 44
- 238000004949 mass spectrometry Methods 0.000 claims description 16
- 230000007704 transition Effects 0.000 claims description 15
- 238000004458 analytical method Methods 0.000 claims description 11
- 238000007385 chemical modification Methods 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 11
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 9
- 150000001413 amino acids Chemical class 0.000 claims description 8
- 102000007079 Peptide Fragments Human genes 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 108090000623 proteins and genes Proteins 0.000 claims description 7
- 102000004169 proteins and genes Human genes 0.000 claims description 7
- 108010033276 Peptide Fragments Proteins 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 239000000203 mixture Substances 0.000 claims description 4
- 238000012896 Statistical algorithm Methods 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 238000011049 filling Methods 0.000 claims description 3
- 238000002347 injection Methods 0.000 claims description 3
- 239000007924 injection Substances 0.000 claims description 3
- 239000002243 precursor Substances 0.000 claims description 3
- 230000035945 sensitivity Effects 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 2
- 238000003556 assay Methods 0.000 claims 1
- 238000004364 calculation method Methods 0.000 abstract description 14
- 150000002500 ions Chemical class 0.000 description 15
- 101150027978 UMOD gene Proteins 0.000 description 14
- 238000012986 modification Methods 0.000 description 11
- 230000004048 modification Effects 0.000 description 11
- 239000000523 sample Substances 0.000 description 9
- 230000000875 corresponding effect Effects 0.000 description 7
- 238000002372 labelling Methods 0.000 description 6
- 239000000463 material Substances 0.000 description 6
- 238000006467 substitution reaction Methods 0.000 description 6
- 238000011002 quantification Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 108010026552 Proteome Proteins 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 239000007788 liquid Substances 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 239000008186 active pharmaceutical agent Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 239000012472 biological sample Substances 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000004907 flux Effects 0.000 description 2
- 238000002552 multiple reaction monitoring Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000003908 quality control method Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- KDXKERNSBIXSRK-UHFFFAOYSA-N Lysine Natural products NCCCCC(N)C(O)=O KDXKERNSBIXSRK-UHFFFAOYSA-N 0.000 description 1
- 239000004472 Lysine Substances 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 125000003636 chemical group Chemical group 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000000155 isotopic effect Effects 0.000 description 1
- 238000011068 loading method Methods 0.000 description 1
- 239000011259 mixed solution Substances 0.000 description 1
- 108091005601 modified peptides Proteins 0.000 description 1
- 239000013062 quality control Sample Substances 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Chemical & Material Sciences (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
本发明关于一种自动化靶向蛋白质组学定性定量分析方法,首先获得质谱MRM数据文件、质谱方法文件、多肽标准库并分别进行格式转化;对MRM数据文件基于TraML库文件进行匹配,生成包含映射的mzML格式文件annotated.mzML;使用OpenSwathFeatureXMLToTSV模块,基于featureXML的TraML库文件生成出可读的tsv文件;挑选出最准确的重标多肽的峰和内源多肽的峰;根据重标多肽的峰和内源多肽的峰即进行定量分析。通过在实验层面和计算层面两个部分进行优化,实现自动化、高通量的靶向蛋白质组学定性定量分析,显著提高了对靶向蛋白质组的鉴定准确性和效率。
Description
技术领域
本发明属于医学检验技术领域,具体是关于一种自动化靶向蛋白质组学定性定量分析方法。
背景技术
靶向蛋白质组学是一种基于高灵敏度、高精度质谱的靶向定量技术,能够对目标蛋白质/肽段(包括有修饰的肽段)进行选择性检测,从而实现对目标蛋白质/肽段的精准定量,主要是根据质荷比和保留时间确定的,质荷比是该条多肽的氨基酸质量和(mass)除以携带的电荷价态,保留时间是根据多肽在液相色谱仪中的亲疏水性计算出流出的时间,根据这两大特性,基本可以对多肽做定性;随后根据多肽在质谱中的信号,拟合成峰后,计算曲线下面积,即可实现定量。现有技术通过Skyline、Multiquant等可视化的蛋白质组学软件,事先将每条多肽的属性如质荷比、保留时间等信息输入到软件中,软件根据输入的信息,将识别到的每个质谱信号拟合成峰,需要人工通过经验挑选出目标的峰,并手动划分峰的边界,峰下的面积总和(峰面积)即为该多肽的质谱定量值,导出并代入标准曲线后可计算出肽段的浓度。
遗憾的是现有技术的靶向蛋白质组学鉴定方法存在下述多种缺陷,第一,目前已有的方法不能实现全自动化。蛋白质组组成高度复杂,质谱仪器公司提供的软件或者已有的软件,挑选肽段峰时,会时常受到干扰离子影响,每个峰需要人工凭借经验挑选出正确峰,进而得到峰面积,人工挑峰会出现误判,两个人操作可能得到的结果不同,同一人多次操作也有可能得到不同的结果。第二,无法高通量操作,由于需要人工导入数据,每一条多肽需要人工确认准确性,再由人工导出,如图1所示。假设需要对多个样本进行分析就需要分别点击查看数据,不仅耗时耗力,而且容易出错。第三,对计算机要求高,由于目前的软件都是基于windows系统开发,若要同时导入多个样本,样本的数据都需要写在运行内存中,若接近内存上限,即会导致宕机,之前导入的数据需要重新分批导入或者花更长时间等待加载。
前述背景技术知识的记载旨在帮助本领域普通技术人员理解与本发明较为接近的现有技术,同时便于对本申请发明构思及技术方案的理解,应当明确的是,在没有明确的证据表明上述内容在本专利申请的申请日前已公开的情况下,上述背景技术不应当用于评价本申请技术方案的新创性。
发明内容
为解决上述背景技术中提及的至少一种技术问题,本发明的目的旨在提供一种自动化靶向蛋白质组学定性定量分析方法,通过在实验层面和计算层面两个部分进行优化,实现自动化、高通量的靶向蛋白质组学定性定量分析,显著提高了对靶向蛋白质组的鉴定准确性和效率。
本申请在实验和计算两个层面对现有的靶向蛋白质组学鉴定方法进行改进,在实验样本处理过程中,设计添加了人工合成的重标多肽,该重标多肽与生物样本的内源多肽序列一致,但在特定的氨基酸上进行了C、N同位素的替代性化学修饰,这一方法能够保证合成多肽与内源多肽的理论保留时间一致,质荷比的差值固定,随着加大合成多肽的浓度,质谱很容易识别合成多肽的信号,进而找到内源多肽的信号;在计算层面,针对每个型号的质谱不同参数设计一套最适合当前状态的多肽标准库,用于精确匹配到真实信号,结合合成多肽信号稳定的特性,将合成多肽精准的挑选出来,再计算出合理的合成多肽与内源多肽的保留时间偏差,将最可信的内源多肽的峰挑出来。经过上述改进,本申请可提供一种自动化、高通量靶向蛋白质组学定性定量分析方法,显著提高了对靶向蛋白质组的鉴定准确性和效率。
为了实现上述目的,本发明提供如下技术方案。
靶向蛋白质组学鉴定中多肽标准库的建立方法,包括:
步骤一、获取蛋白ID、多肽ID、碎裂后的子离子ID、质荷比、保留时间、CE、判断是否轻标重标;根据质谱方法设置文件,按照格式规则处理成多个字符串形式;
步骤二、获取多肽的理论信号强度,对少数样本进行DDA非靶向质谱方法分析,获得DDA的定量结果,结果中包含了多肽信号强度信息,最后根据多肽序列匹配出对应的信号强度;
步骤三、设置化学修饰的方法文件,将化学修饰的属性按照文件中要求的格式填入文件,并在对应的多肽氨基酸序列中添加修饰的ID;
步骤四、使用OpenSwathAssayGenerator模块根据预定的标准对肽段质谱库文件中所有的transitions进行注释,对transitions按最小数量为1的标准过滤,生成TraML格式文件;对transitions进行按最小数量为1的标准过滤能够提高检测肽的灵敏度,最终生成的TraML格式文件可用于标准化交换和传输transitions列表数据。
步骤一中,多肽ID即多肽的氨基酸序列,包括重标多肽和内源多肽。
步骤一中,所述重标多肽与内源多肽的氨基酸序列一致,但在特定的氨基酸上进行了化学修饰,具体是在特定的氨基酸上进行了C、N同位素的替代性化学修饰,使得重标多肽与内源多肽的理论保留时间一致、质荷比差值固定。重标多肽与内源多肽的理论保留时间一致、质荷比差值固定,通过加大重标多肽的浓度,能够轻易识别出重标多肽信号,进而识别到内源多肽的信号。
步骤三中,所述化学修饰的属性包括修饰的位点、修饰的化学式、质量。
设计添加了人工合成的重标多肽,其与内源多肽的理论保留时间一致,质荷比的差值固定,随着加大合成多肽的浓度,质谱很容易识别合成多肽的信号,进而找到内源多肽的信号;针对每个型号的质谱不同参数设计一套最适合当前状态的多肽标准库,用于精确匹配到真实信号,结合合成多肽信号稳定的特性,将合成多肽精准的挑选出来,再计算出合理的合成多肽与内源多肽的保留时间偏差,将最可信的内源多肽的峰挑出来;多肽标准库的建立有助于自动化、高通量的多肽定性定量分析。
由前述方法获得的多肽标准库。
由前述方法获得的多肽标准库在自动化靶向蛋白质组学定性定量分析中的应用。
一种自动化靶向蛋白质组学定性定量分析方法,包括:
1)数据输入:获得质谱MRM数据文件、质谱方法文件、多肽标准库文件;
2)格式转换:将质谱MRM数据文件转换为mzML文件,将质谱方法文件、肽段质谱库文件转换为tsv库文件;
3)匹配分析:使用MRMMapper模块,对mzML格式的MRM数据文件基于TraML库文件进行匹配,生成包含映射的mzML格式文件annotated.mzML;
4)母离子匹配结果输出:使用OpenSwathFeatureXMLToTSV模块,基于featureXML的TraML库文件生成出可读的tsv文件;
5)挑峰:挑选出最准确的重标多肽的峰和内源多肽的峰;
6)分析:根据重标多肽的峰和内源多肽的峰即可进行定量分析。
进一步的,步骤1)数据输入中,质谱MRM数据文件包括wiff文件与wiff.scan文件,一个样本由一组wiff文件与wiff.scan文件组成。
进一步的,步骤1)数据输入中,质谱方法文件是xlsx文件。
进一步的,步骤1)数据输入中,肽段质谱库文件是xls文件,包括重标多肽和内源多肽。
进一步的,步骤2)格式转换中,wiff及wiff.scan格式是质谱仪器供应商专有的、封闭的质谱数据编码格式,为了方便后续特征提取,使用MSConvert利用厂商提供的API将质谱MRM数据转换为开放格式mzML或mzXML文件。
进一步的,步骤2)格式转换中,使用字符串分割、重命名、匹配等数据处理方法将质谱方法文件与肽段质谱库文件转换为适用于后续OpenMS处理的tsv或csv库文件。
进一步的,步骤3)匹配分析中,根据采用仪器的精密度设置前体离子误差,采用多映射的算法为mzML文件的色谱图匹配一个或多个映射目标,并生成包含映射的mzML格式文件annotated.mzML。
进一步的,步骤5)挑峰中,依据(a1)、(a2)、(a3)中的任一方法挑出重标多肽的峰:
(a1)、根据标准库的每条多肽的保留时间,设置偏差范围x,在允许的偏差范围内确认重标多肽;
(a2)、使用鉴定到的信号最高的多肽作为重标多肽,并导出第二高的信号值,若第一和第二信号的比值低于b倍,在实验层面上优化,提高重标的进样量;
(a3)、使用鉴定到的信号最高的多肽作为待选重标多肽,将保留时间数据用线性拟合或多项式拟合的方式,计算出Δrt,最后根据差值计算出合理的保留时间对应的重标多肽。
进一步的,步骤(a2)中,b=2-50。
进一步的,步骤5)挑峰中,依据(b1)、(b2)、(b3)、(b4)的任一方法挑出内源多肽的峰:
(b1)使用鉴定到的信号最高的多肽作为内源多肽;
(b2)使用混合样本(质谱的每天质控样本,所有样本的混合液,具有高稳定性)计算重标多肽的保留时间以及最近的内源多肽的保留时间,计算出所有样本对应多肽的保留时间差值,使用统计学算法,采用m倍的IQR值(四分位距)作为保留时间时间偏差,最终应用在临床样本中;
(b3)使用人工挑选的方式,随机挑选c个数量的混合样本,确认保留时间偏差值范围,再采用n倍的IQR值(四分位距)作为保留时间时间偏差,最终应用在临床样本中;
(b4)使用迭代的方法,不断修正保留时间偏差,验证人工的挑选混合样本的多肽。
进一步的,步骤(b2)中,混合样本是质谱的每天质控样本,所有样本的混合液,具有高稳定性。
进一步的,步骤(b2)中,m=2-5。
进一步的,步骤(b3)中,n=2-5。
计算机存储介质,所述计算机存储介质中存储有至少一个计算机程序,当所述计算机程序被执行时,能够执行前述所述靶向蛋白质组学鉴定中多肽标准库的建立方法或自动化靶向蛋白质组学定性定量分析方法。
计算机装置,所述计算机装置包括处理器、存储器以及存储在存储器上的计算机程序,其中所述计算机程序包括指令,当所述指令被所述计算机装置执行时,使得所述装置执行前述所述靶向蛋白质组学鉴定中多肽标准库的建立方法或自动化靶向蛋白质组学定性定量分析方法。
本申请的有益效果为:方法分别在实验层面和计算层面做了方法的创新。在实验角度,我们设计添加了人工合成的重标多肽序列,该序列与生物样本内源的多肽序列一致,但在指定的氨基酸上添加了化学修饰,这一方法能够保证合成的重标多肽与内源多肽的理论保留时间一致,质荷比的差值固定(化学基团的质量变化),随着加大合成多肽的浓度,质谱很容易识别合成多肽的信号,进而找到内源多肽的信号。在计算层面,我们舍弃人工挑峰的方法,针对每个型号的质谱不同参数设计一套最适合当前状态的多肽标准库,用于精确匹配到真实信号,使用现有基于linux的工具OpenMS,将所有的信号拟合成峰,通过算法对合成多肽的峰形(标准为正态分布,根据左右两边的对称性计算得分)、保留时间偏差(根据事先设计的保留时间,计算差值)等特征打分,再结合合成多肽信号稳定的特性,将合成多肽精准的挑选出来,再设计算法计算出合理的合成多肽与内源多肽的保留时间偏差将最可信的内源多肽的峰挑出来,我们将整个设计、计算流程封装,命名为ASTM方法。本发明方法通过自动化计算方法解决重复性差的问题,通过优化自动化计算方法解决高通量的问题以及降低计算机性能,通过引入对照多肽,解决质谱不稳定,定量不准的问题,通过以上优化,提高了对靶向蛋白质组的鉴定准确性和效率,在蛋白质组学鉴定领域具有较大的应用潜力。
在符合本领域常识的基础上,上述各优选条件,可以相互组合,得到具体实施方式。
本发明涉及到的原料或试剂均为普通市售产品,涉及到的操作如无特殊说明均为本领域常规操作。
本发明为实现上述目的而采用了上述技术方案,弥补了现有技术的不足,设计合理,操作方便。
附图说明
为让本发明的上述和/或其他目的、特征、优点与实例能更明显易懂,所附附图的说明如下:
图1是多条多肽分析时的Skyline界面示意图;
图2是分析方法步骤流程图;
图3是本申请分析方法ASTM与MultiQuant、Skyline方法的对比效果图。
具体实施方式
本领域技术人员可以借鉴本文内容,适当替换和/或改动工艺参数实现,然而特别需要指出的是,所有类似的替换和/或改动对本领域技术人员来说是显而易见的,它们都被视为包括在本发明。本发明所述产品和制备方法已经通过较佳实例进行了描述,相关人员明显能在不脱离本发明内容、精神和范围内对本文所述的产品和制备方法进行改动或适当变更与组合,来实现和应用本发明技术。
除非另有定义,本文所使用的技术和科学术语,具有本发明所属领域的普通技术人员通常所理解的相同的含义。本发明使用本文中所描述的方法和材料;但本领域中已知的其他合适的方法和材料也可以被使用。本文中所描述的材料、方法和实例仅是说明性的,并不是用来作为限制。所有出版物、专利申请案、专利案、临时申请案、数据库条目及本文中提及的其它参考文献等,其整体被并入本文中作为参考。若有冲突,以本说明书包括定义为准。
除非另外说明,所有的百分数、份数、比例等都以重量计。
当以范围、优选范围或一系列上限优选值和下限优选值给出数量、浓度或者其它数值或参数时,应理解其具体公开了由任何较大的范围限值或优选值和任何较小的范围限值或优选值的任何一对数值所形成的所有范围,而无论范围是否分别被公开。例如,当描述“1至5(1~5)”的范围时,所描述的范围应理解为包括“1至4(1~4)”、“1至3(1~3)”、“1至2(1~2)”、“1至2(1~2)和4至5(4~5)”、“1至3(1~3)和5”等的范围。除非另外说明,在本文描述数值范围之处,所述范围均包括范围端值以及该范围内的所有整数和分数。
除非具体说明,本文所描述的材料、方法和实例仅是示例性的,而非限制性的。尽管与本文所述的那些方法和材料类似或等同的方法和材料可用于本发明的实施或测试,但本文仍描述了合适的方法和材料。
缩略语和关键术语定义
ASTM:自动化靶向蛋白质组学定性定量分析方法的命名,Automatic peakpicking software for MRM;
MRM:质谱多反应监测,multiple reaction monitoring;
重标多肽:重标、重标肽,即人工合成的多肽;
内源多肽:又称轻标多肽、轻标、轻标肽,即样本中自然存在的内源性的多肽;
OpenMS:自动导峰的工具;
CE:碰撞能量;
DDA:质谱非依赖型采集模式。
以下详细描述本发明。
实施例1:
提供一种自动化靶向蛋白质组学定性定量分析方法ASTM,包括建立多肽标准库和定性定量分析两个部分。
第一部分,建立多肽标准库,具体步骤包括:
步骤一、获取蛋白ID、多肽ID(即多肽的氨基酸序列,包括重标多肽和内源多肽,其中重标多肽是在保持内源多肽氨基酸序列的基础上,在特定的氨基酸上进行了C、N同位素的替代性修饰得到,从而使得重标多肽与内源多肽的理论保留时间一致、质荷比差值固定)、碎裂后的子离子ID、质荷比、保留时间、CE、判断是否轻标重标;根据质谱方法设置文件,按照格式规则处理成多个字符串形式;
步骤二、获取多肽的理论信号强度,对少数样本进行DDA非靶向质谱方法分析,获得DDA的定量结果,结果中包含了多肽信号强度信息,最后根据多肽序列匹配出对应的信号强度;
步骤三、设置化学修饰的方法文件,将包括修饰位点、修饰的化学式和质量等的化学修饰的属性按照文件中要求的格式填入文件,并在对应的多肽氨基酸序列中添加修饰的ID;
步骤四、使用OpenSwathAssayGenerator模块根据预定的标准对肽段质谱库文件中所有的transitions进行注释,对transitions按最小数量为1的标准过滤,生成TraML格式文件;对transitions进行按最小数量为1的标准过滤能够提高检测肽的灵敏度,最终生成的TraML格式文件可用于标准化交换和传输transitions列表数据。
其中,步骤三中以编号为“UniMod:259”的多肽在K氨基酸进行修饰需在方法文件中编辑添加如下化学信息:
<umod:mod title="Label:13C(6)15N(2)"full_name="13C(6)15N(2)Silaclabel"username_of_poster="hs01"group_of_poster="users"date_time_posted="2004-08-30 16:23:02"date_time_modified="2014-06-0909:40:49"approved="1"record_id="259">
<umod:specificity hidden="1"site="K"position="Anywhere"classification="Isotopic label"spec_group="1">
<umod:misc_notes>Used in SILAC experiment</umod:misc_notes>
</umod:specificity>
<umod:delta mono_mass="8.014199"avge_mass="7.9427"composition="C(-6)13C(6)N(-2)15N(2)">
<umod:element symbol="C"number="-6"/>
<umod:element symbol="13C"number="6"/>
<umod:element symbol="N"number="-2"/>
<umod:element symbol="15N"number="2"/>
</umod:delta>
<umod:alt_name>heavy lysine</umod:alt_name>
<umod:xref>
第二部分,定性定量分析,如图2所示,具体步骤包括:
1)数据输入:获得
质谱MRM数据文件,包括wiff文件与wiff.scan文件,一个样本由一组wiff文件与wiff.scan文件组成;
质谱方法文件,xlsx格式文件;和
多肽标准库文件,即第一部分所得多肽标准库,xls格式文件,多肽标准库文件中包括重标多肽和内源多肽;
2)格式转换:wiff及wiff.scan格式是质谱仪器供应商专有的、封闭的质谱数据编码格式,为了方便后续特征提取,使用MSConvert利用厂商提供的API将质谱MRM数据转换为开放格式mzML或mzXML文件;使用字符串分割、重命名、匹配等数据处理方法将质谱方法文件与肽段质谱库文件转换为适用于后续OpenMS处理的tsv或csv库文件;
3)匹配分析:使用MRMMapper模块,对mzML格式的MRM数据文件基于TraML库文件进行匹配,根据采用仪器的精密度设置前体离子误差为0.1,采用多映射的算法为mzML文件的色谱图匹配一个或多个映射目标,并生成包含映射的mzML格式文件annotated.mzML;
4)母离子匹配结果输出:使用OpenSwathFeatureXMLToTSV模块,基于featureXML的TraML库文件生成出可读的tsv文件;
5)挑峰:挑选出最准确的重标多肽的峰和内源多肽的峰:
挑选出重标多肽的峰:使用鉴定到的信号最高的多肽作为重标多肽,并导出第二高的信号值,若第一和第二信号的比值低于b(2-5)倍,在实验层面上优化,提高重标的进样量;
挑选出内源多肽的峰:使用混合样本(质谱的每天质控样本,所有样本的混合液,具有高稳定性)计算重标多肽的保留时间以及最近的内源多肽的保留时间,计算出所有样本对应多肽的保留时间差值,使用统计学算法,采用m(2-5)倍的IQR值(四分位距)作为保留时间时间偏差,最终应用在临床样本中;
6)分析:根据重标多肽的峰和内源多肽的峰即可进行定量分析。
本申请方法分别在实验层面和计算层面上做了创新,设计了重标多肽,通过加大重标多肽的浓度,质谱很容易识别到其信号,进而易于找到内源多肽的信号;计算层面,舍弃了人工挑峰的方法,针对每个型号的质谱不同参数设计一套最适合当前状态的多肽标准库,用于精确匹配到真实信号,将最可信的内源多肽的峰挑出来,通过自动化计算方法解决重复性差的问题,通过优化自动化计算方法解决高通量的问题以及降低计算机性能,通过引入对照多肽,解决质谱不稳定,定量不准的问题,通过以上优化,提高了对靶向蛋白质组的鉴定准确性和效率,在蛋白质组学鉴定领域具有较大的应用潜力。
实施例2:
实验方法/方案设计:
1)使用人工挑峰积峰的方式MultiQuant与Skyline,记录300个母离子的峰面积;
2)使用实施例1所述的ASTM方法,导出300个母离子的峰面积;
3)计算三个方法导出的峰面积的差异;
4)对于三个方法都鉴定到的母离子,使用统计方法计算相关性及变异系数;
5)对于ASTM方法未鉴定到但MultiQuant、Skyline鉴定到的母离子,检查原始谱图,得到峰面积和保留时间,查看缺失的真实原因。
实验结果如图3所示,从图3可知,0-122个母离子范围,MultiQuant未鉴定到峰型,ASTM有48个(39%)母离子鉴定到,可以认为是噪音,Skyliney有122个(100%)母离子鉴定到,ASTM比Skyline更能够去除噪音;123-300个母离子范围,MultiQuant鉴定到峰型并有峰面积,Skyline的峰面积与MultiQuant的结果高度相关(r=0.9996),ASTM与MultiQuant的相关性略低(r=0.9898)。
对于三个方法都鉴定到的母离子,使用统计方法计算相关性及变异系数如表1和表2所示。每两个方法之间的相关性均高于0.995,可重复性高。
表1、MultiQuant、Skyline与ASTM的相关性
表2、MultiQuant、Skyline与ASTM的变异系数CV
由表2可知计算变异系数的结果,使用ASTM方法的积峰数值与其他两个方法的cv中位数在0.15左右,鉴定数值总体偏高。
对于ASTM方法未鉴定到但MultiQuant、Skyline鉴定到的母离子,检查原始谱图,得到峰面积和保留时间,查看缺失的真实原因,多数情况下,ASTM鉴定是正确的。
上述实施例中的常规技术为本领域技术人员所知晓的现有技术,故在此不再详细赘述。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
尽管对本发明已作出了详细的说明并引证了一些具体实施例,但是对本领域熟练技术人员来说,只要不离开本发明的精神和范围可作各种变化或修正是显然的。
虽然上述具体实施方式已经显示、描述并指出应用于各种实施方案的新颖特征,但应理解,在不脱离本公开内容的精神的前提下,可对所说明的装置或方法的形式和细节进行各种省略、替换和改变。另外,上述各种特征和方法可彼此独立地使用,或可以各种方式组合。所有可能的组合和子组合均旨在落在本公开内容的范围内。上述许多实施方案包括类似的组分,并且因此,这些类似的组分在不同的实施方案中可互换。虽然已经在某些实施方案和实施例的上下文中公开了本发明,但本领域技术人员应理解,本发明可超出具体公开的实施方案延伸至其它的替代实施方案和/或应用以及其明显的修改和等同物。因此,本发明不旨在受本文优选实施方案的具体公开内容限制。
本发明未尽事宜均为公知技术。
Claims (10)
1.一种多肽标准库的建立方法,其特征在于包括:
步骤一、获取蛋白ID、多肽ID、碎裂后的子离子ID、质荷比、保留时间、CE、判断是否轻标重标;根据质谱方法设置文件,按照格式规则处理成多个字符串形式;
步骤二、获取多肽的理论信号强度,对少数样本进行DDA非靶向质谱方法分析,获得DDA的定量结果,结果中包含了多肽信号强度信息,最后根据多肽序列匹配出对应的信号强度;
步骤三、设置化学修饰的方法文件,将化学修饰的属性按照文件中要求的格式填入文件,并在对应的多肽氨基酸序列中添加修饰的ID;
步骤四、使用OpenSwathAssayGenerator模块根据预定的标准对肽段质谱库文件中所有的transitions进行注释,对transitions按最小数量为1的标准过滤,生成TraML格式文件;对transitions进行按最小数量为1的标准过滤能够提高检测肽的灵敏度,最终生成的TraML格式文件可用于标准化交换和传输transitions列表数据。
2.根据权利要求1所述的方法,其特征在于:
多肽ID即多肽的氨基酸序列,包括重标多肽和内源多肽;
所述重标多肽与内源多肽的氨基酸序列一致,但在特定的氨基酸上进行了化学修饰,使得重标多肽与内源多肽的理论保留时间一致、质荷比差值固定。
3.由权利要求1或2所述方法获得的多肽标准库。
4.由权利要求1或2所述方法获得的多肽标准库在自动化靶向蛋白质组学定性定量分析中的应用。
5.一种自动化靶向蛋白质组学定性定量分析方法,其特征在于包括:
1)数据输入:获得质谱MRM数据文件、质谱方法文件、权利要求1或2所述方法获得的多肽标准库;
2)格式转换:将质谱MRM数据文件转换为mzML文件,将质谱方法文件、肽段质谱库文件转换为tsv库文件;
3)匹配分析:使用MRMMapper模块,对mzML格式的MRM数据文件基于TraML库文件进行匹配,生成包含映射的mzML格式文件annotated.mzML;
4)母离子匹配结果输出:使用OpenSwathFeatureXMLToTSV模块,基于featureXML的TraML库文件生成出可读的tsv文件;
5)挑峰:挑选出最准确的重标多肽的峰和内源多肽的峰;
6)分析:根据重标多肽的峰和内源多肽的峰即可进行定量分析。
6.根据权利要求5所述的方法,其特征在于:
步骤2)格式转换中,将质谱MRM数据转换为开放格式mzML或mzXML文件;和/或
步骤2)格式转换中,将质谱方法文件与肽段质谱库文件转换为适用于后续OpenMS处理的tsv或csv库文件。
7.根据权利要求6所述的方法,其特征在于:
步骤3)匹配分析中,根据采用仪器的精密度设置前体离子误差,采用多映射的算法为mzML文件的色谱图匹配一个或多个映射目标,并生成包含映射的mzML格式文件annotated.mzML。
8.根据权利要求5-7任一项所述的方法,其特征在于:
步骤5)挑峰中,依据(a1)、(a2)、(a3)中的任一方法挑出重标多肽的峰:
(a1)、根据标准库的每条多肽的保留时间,设置偏差范围x,在允许的偏差范围内确认重标多肽;
(a2)、使用鉴定到的信号最高的多肽作为重标多肽,并导出第二高的信号值,若第一和第二信号的比值低于b倍,在实验层面上优化,提高重标的进样量;
(a3)、使用鉴定到的信号最高的多肽作为待选重标多肽,将保留时间数据用线性拟合或多项式拟合的方式,计算出Δrt,最后根据差值计算出合理的保留时间对应的重标多肽;
步骤5)挑峰中,依据(b1)、(b2)、(b3)、(b4)的任一方法挑出内源多肽的峰:
(b1)使用鉴定到的信号最高的多肽作为内源多肽;
(b2)使用混合样本计算重标多肽的保留时间以及最近的内源多肽的保留时间,计算出所有样本对应多肽的保留时间差值,使用统计学算法,采用m倍的IQR值作为保留时间时间偏差,最终应用在临床样本中;
(b3)使用人工挑选的方式,随机挑选c个数量的混合样本,确认保留时间偏差值范围,再采用n倍的IQR值作为保留时间时间偏差,最终应用在临床样本中;
(b4)使用迭代的方法,不断修正保留时间偏差,验证人工的挑选混合样本的多肽。
9.计算机存储介质,所述计算机存储介质中存储有至少一个计算机程序,其特征在于:当所述计算机程序被执行时,能够执行权利要求1或2所述靶向蛋白质组学鉴定中多肽标准库的建立方法或权利要求5-8任一项所述自动化靶向蛋白质组学定性定量分析方法。
10.计算机装置,所述计算机装置包括处理器、存储器以及存储在存储器上的计算机程序,其中所述计算机程序包括指令,其特征在于:当所述指令被所述计算机装置执行时,使得所述装置执行权利要求1或2所述靶向蛋白质组学鉴定中多肽标准库的建立方法或权利要求5-8任一项所述自动化靶向蛋白质组学定性定量分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211553825.7A CN116153392B (zh) | 2022-12-06 | 2022-12-06 | 一种自动化靶向蛋白质组学定性定量分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211553825.7A CN116153392B (zh) | 2022-12-06 | 2022-12-06 | 一种自动化靶向蛋白质组学定性定量分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116153392A true CN116153392A (zh) | 2023-05-23 |
CN116153392B CN116153392B (zh) | 2024-01-26 |
Family
ID=86339805
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211553825.7A Active CN116153392B (zh) | 2022-12-06 | 2022-12-06 | 一种自动化靶向蛋白质组学定性定量分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116153392B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030224967A1 (en) * | 2001-12-28 | 2003-12-04 | Hunt Donald F. | Systems and methods for the analysis of protein phosphorylation |
CN102495127A (zh) * | 2011-11-11 | 2012-06-13 | 暨南大学 | 一种基于概率统计模型的蛋白质二级质谱鉴定方法 |
CN103897035A (zh) * | 2013-09-04 | 2014-07-02 | 北京理工大学 | 用于早期糖尿病诊断的多肽标志物 |
-
2022
- 2022-12-06 CN CN202211553825.7A patent/CN116153392B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030224967A1 (en) * | 2001-12-28 | 2003-12-04 | Hunt Donald F. | Systems and methods for the analysis of protein phosphorylation |
CN102495127A (zh) * | 2011-11-11 | 2012-06-13 | 暨南大学 | 一种基于概率统计模型的蛋白质二级质谱鉴定方法 |
CN103897035A (zh) * | 2013-09-04 | 2014-07-02 | 北京理工大学 | 用于早期糖尿病诊断的多肽标志物 |
Also Published As
Publication number | Publication date |
---|---|
CN116153392B (zh) | 2024-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Anjo et al. | SWATH‐MS as a tool for biomarker discovery: From basic research to clinical applications | |
Wenger et al. | COMPASS: A suite of pre‐and post‐search proteomics software tools for OMSSA | |
Ketterlinus et al. | Fishing for biomarkers: analyzing mass spectrometry data with the new ClinProTools™ software | |
CN105334279B (zh) | 一种高分辨质谱数据的处理方法 | |
Wessels et al. | LC‐MS/MS as an alternative for SDS‐PAGE in blue native analysis of protein complexes | |
Colantonio et al. | The clinical application of proteomics | |
Stancliffe et al. | DecoID improves identification rates in metabolomics through database-assisted MS/MS deconvolution | |
CN104170052A (zh) | 用于改进的质谱分析法定量作用的方法和装置 | |
Kuich et al. | Maui-VIA: a user-friendly software for visual identification, alignment, correction, and quantification of gas chromatography–mass spectrometry data | |
Pluskal et al. | Metabolomics data analysis using MZmine | |
CN109856310B (zh) | 基于hplc-ms的去除代谢物离子峰表中假阳性质谱特征的方法 | |
CN111537659A (zh) | 一种筛选生物标志的方法 | |
Yu et al. | Quantitative challenges and their bioinformatic solutions in mass spectrometry-based metabolomics | |
CN116153392B (zh) | 一种自动化靶向蛋白质组学定性定量分析方法 | |
Zhang et al. | PeakSelect: preprocessing tandem mass spectra for better peptide identification | |
CN114200048A (zh) | Lc-ms下机数据的处理方法及处理装置 | |
Guo et al. | Turning Metabolomics Data Processing from a “Black Box” to a “White Box” | |
Prunier et al. | Fast alignment of mass spectra in large proteomics datasets, capturing dissimilarities arising from multiple complex modifications of peptides | |
US11600359B2 (en) | Methods and systems for analysis of mass spectrometry data | |
Theodoridis et al. | LC‐MS‐Based Nontargeted Metabolomics | |
Cannataro et al. | The EIPeptiDi tool: enhancing peptide discovery in ICAT-based LC MS/MS experiments | |
Kil et al. | Towards a comprehensive bioinformatic analysis of the NIST reference mAb | |
JP5679257B2 (ja) | 測定データの取得・評価方法 | |
MassBank Database Committee | Proposal: Recommendation on measuring and providing mass spectra as chemical information of organic molecules (secondary publication) | |
Wang et al. | SWATH-MS in proteomics: current status |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |