CN104765984B - 一种生物质谱数据库快速建立与搜索的方法 - Google Patents
一种生物质谱数据库快速建立与搜索的方法 Download PDFInfo
- Publication number
- CN104765984B CN104765984B CN201510125438.7A CN201510125438A CN104765984B CN 104765984 B CN104765984 B CN 104765984B CN 201510125438 A CN201510125438 A CN 201510125438A CN 104765984 B CN104765984 B CN 104765984B
- Authority
- CN
- China
- Prior art keywords
- theoretical
- database
- biological molecule
- mass
- large biological
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000004949 mass spectrometry Methods 0.000 title claims abstract description 21
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 32
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 32
- 238000002474 experimental method Methods 0.000 claims description 5
- 239000012634 fragment Substances 0.000 claims description 4
- 230000000155 isotopic effect Effects 0.000 claims description 4
- 239000002243 precursor Substances 0.000 claims description 3
- 235000000346 sugar Nutrition 0.000 claims description 3
- 239000004215 Carbon black (E152) Substances 0.000 claims description 2
- 229930195733 hydrocarbon Natural products 0.000 claims description 2
- 150000002430 hydrocarbons Chemical class 0.000 claims description 2
- 102000039446 nucleic acids Human genes 0.000 claims description 2
- 108020004707 nucleic acids Proteins 0.000 claims description 2
- 150000007523 nucleic acids Chemical class 0.000 claims description 2
- 238000012360 testing method Methods 0.000 claims 3
- 238000005034 decoration Methods 0.000 claims 2
- 150000002500 ions Chemical class 0.000 claims 2
- 238000000205 computational method Methods 0.000 claims 1
- 238000013467 fragmentation Methods 0.000 claims 1
- 238000006062 fragmentation reaction Methods 0.000 claims 1
- 230000008685 targeting Effects 0.000 claims 1
- 238000001819 mass spectrum Methods 0.000 abstract description 33
- 238000004885 tandem mass spectrometry Methods 0.000 abstract description 15
- 150000001720 carbohydrates Chemical class 0.000 abstract 1
- 230000003247 decreasing effect Effects 0.000 abstract 1
- 238000004458 analytical method Methods 0.000 description 9
- 238000012986 modification Methods 0.000 description 9
- 230000004048 modification Effects 0.000 description 9
- 229920002521 macromolecule Polymers 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 5
- 241000588724 Escherichia coli Species 0.000 description 3
- 150000001413 amino acids Chemical class 0.000 description 3
- 230000035772 mutation Effects 0.000 description 3
- 238000003672 processing method Methods 0.000 description 3
- 125000003275 alpha amino acid group Chemical group 0.000 description 2
- 102000003839 Human Proteins Human genes 0.000 description 1
- 108090000144 Human Proteins Proteins 0.000 description 1
- 108010026552 Proteome Proteins 0.000 description 1
- 108020004729 UniProt protein families Proteins 0.000 description 1
- 102000006668 UniProt protein families Human genes 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000132 electrospray ionisation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 150000004676 glycans Chemical class 0.000 description 1
- 229920001282 polysaccharide Polymers 0.000 description 1
- 239000005017 polysaccharide Substances 0.000 description 1
- 102000004196 processed proteins & peptides Human genes 0.000 description 1
- 108090000765 processed proteins & peptides Proteins 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 150000008163 sugars Chemical class 0.000 description 1
- 238000010846 tandem mass spectrometry analysis Methods 0.000 description 1
Landscapes
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
本发明涉及一种生物质谱数据库快速建立与搜索的方法,本搜索方法基于所述质谱的原始一级质谱和候选生物大分子,靶向在线计算与动态存储二级质谱数据库。与现有技术相比,本发明的方法对高通量的质谱解析效率有着显著的提升,可以避免大量不必要数据计算任务,大幅减少搜索所需的时间和硬盘存储空间,适用于高通量的大数据的解析,特别是生物大分子(如蛋白质,糖类)质谱及串级质谱高效解析及结构准确鉴定。
Description
技术领域
本发明涉及一种生物质谱数据库快速建立与搜索的方法,主要涉及与生物质谱相关的系统生物学领域,包括蛋白质组学、糖组学等技术领域。
背景技术
随着软电离技术(如电喷雾电离)及高分辨质量分析器(如轨道阱)的发展和商业化,质谱越来越多地用于生物大分子(如蛋白质、多糖)的分析。
中国专利CN 103389335 A公布了一种通过分析生物大分子质谱数据来鉴定生物大分子一级结构和组成的分析装置和方法。该分析装置和方法基于所述生物大分子的原始一级和二级质谱,通过同位素峰质荷比及轮廓指纹比对从而对该生物大分子进行鉴定。上述分析装置和方法直接利用质谱仪所采集的原始实验质谱数据,对前体离子和碎片离子同位素轮廓中每个原始实验同位素峰的精确质荷比和相对强度与相应的理论值进行比对,分别用于从数据库中找到候选生物大分子和利用串级质谱确认其中可信度最高的一个,从而对生物分子进行高可信度的定性、定量分析。
在生物信息学技术方面,与肽段的质谱鉴定方法相似,完整蛋白质的鉴定同样也是主要采用数据库搜索的方法。在蛋白质鉴定中,我们需要考虑蛋白质不同的变体形式(包括修饰、氨基酸突变等),如何根据蛋白质的序列生成的候选变体数据库成为搜索的一个难题,种类多,计算量大。对于完整的蛋白质,发生修饰等变化的位点数目可能要多很多,这样,我们容许一个蛋白质序列上的可变修饰位点数就会增加,当可变修饰位点数增加到10个以上时,再考虑到每个位点上可能修饰类型的不同,组合起来容易产生数量巨大的蛋白质变体形式,就可能出现指数爆炸的情况。而且,若再考虑氨基酸突变等组合形式,蛋白质变体形式将再指数增长,这也是现有处理方法的一个主要瓶颈。由于蛋白质变体的数量巨大,传统基于数据库的蛋白质搜索引擎的方法需要在搜索之前对所有的蛋白质变体的理论一级谱和二级谱进行计算和存储,既要花费大量的时间,又要占用大量的硬盘存储空间。数据库中,大量的理论的二级质谱数据在搜索过程并未被使用,属于不必要计算。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种避免大量不必要数据计算任务、平均计算量小、高效高通量的生物质谱数据库快速建立与搜索的方法。
本发明的目的可以通过以下技术方案来实现:
一种生物质谱数据库快速建立与搜索的方法,包括以下步骤:
(1)根据标准生物大分子数据库中的序列与修饰信息,分别生成所有对应生物大分子变体的理论一级质谱数据库;
(2)将生物大分子实验的一级质谱与理论的一级质谱相比较,找出所有与该一级质谱对应的候选生物大分子变体;
(3)确定数据库中是否有以上所有候选生物大分子变体的二级质谱数据,若无,则靶向地在线计算该生物大分子的理论二级质谱数据,并将其存放于数据库中,若有,则直接进行下一步的匹配;
(4)将生物大分子实验的二级质谱数据与候选生物大分子变体的理论的二级质谱相比较,进行匹配;
(5)循环以上(2)-(4)步骤,直到确定所有二级质谱对应的生物大分子。
指生物大分子实验的二级质谱数据与候选生物大分子变体的理论的二级质谱相似度达到指定要求。
步骤(1)中生成所有对应生物大分子变体的理论一级质谱数据库的方法为:根据对应生物大分子变体的序列、修饰等信息,计算出对应前体离子的分子式,并根据该分子式计算出与实验一级质谱对应的单同位素质量或同位素轮廓,该方法为常规处理方法,在此不作详细阐述。
步骤(3)中靶向地在线计算该生物大分子的理论二级质谱数据的计算方法为:模拟质谱仪中二级质谱的特征,将该生物大分子进行碎裂,计算出所有理论的碎片离子的分子式,并根据该分子式计算出与实验二级质谱对应的单同位素质量或同位素轮廓,该方法为常规处理方法,在此不作详细阐述。
步骤(3)中,所有理论的二级质谱数据都是在搜索的过程中在线计算与动态存储的,判断是否计算某一生物大分子变体理论二级质谱的条件是:(1)该生物大分子变体是实验的一级质谱与理论的一级质谱匹配得到的候选生物大分子变体;(2)使用的数据库中不包含该生物大分子变体的二级质谱数据。
所述的生物大分子为蛋白质、核酸、糖或碳氢化合物。
本发明涉及的方法同样适用于其他质谱以及任何需要预先建立数据库的数据库搜索。
本发明搜索方法基于所述质谱的原始一级和二级质谱的数据库搜索策略,通过靶向在线计算的方式生成与存储二级质谱数据库。所有需要计算的理论二级质谱数据都是在本次的搜索过程中必需使用到的,从而避免了大量不必要数据的计算任务与存储。而且,该数据库具备可完善性,即通常一个体系的数据库是可以反复使用的,每一次的使用都可能有新的理论二级质谱被计算并添加进该数据库中,起到不断完善数据库的作用。与现有技术相比,本发明的解析方法对高通量的质谱解析效率有着显著的提升,可以大幅减少搜索所需的时间和硬盘存储空间,适用于高通量的大数据的解析,特别是生物大分子(如蛋白质,糖类)质谱及串级质谱高效解析及结构准确鉴定。
具体实施方式
下面结合具体实施例对本发明进行详细说明。
实施例
一种蛋白质质谱数据库快速建立与搜索的方法,包括以下步骤:
(1)根据标准蛋白质序列数据库中的序列与修饰信息,分别生成所有对应蛋白变体的理论一级质谱数据库。
(2)将实验的一级质谱与理论的一级质谱相比较,找出所有与该一级质谱对应的候选蛋白质变体。
(3)首先确定数据库中是否有以上所有候选蛋白质的二级质谱数据,若无,则靶向地在线计算该蛋白的理论二级质谱数据,并将其存放于数据库中,若有,则直接进行下一步的匹配。
(4)将实验的二级质谱数据与候选蛋白质的理论的二级质谱相比较,进行匹配;
(5)循环以上(2)-(4)步骤,直到确定所有二级质谱对应的生物大分子。
步骤(3)中,所有理论的二级质谱数据都是在搜索的过程中在线计算与动态存储,判断是否计算某一蛋白质变体理论二级质谱的条件是:(1)该蛋白质变体是实验的一级质谱与理论的一级质谱匹配得到的候选蛋白质;(2)使用的数据库中不包含该蛋白质变体的二级质谱数据。
以大肠杆菌为例,从UniProt蛋白质数据库(www.uniprot.org)获得的大肠杆菌的中氨基酸序列长度为1-200的所有序列信息,通过对不同修饰的组合,共得到2883种理论蛋白质变体,采用传统方法需要计算2883种蛋白质变体的理论一级质谱及二级质谱。在对一个用反相色谱-串级质谱分析大肠杆菌整体蛋白质组得到的数据组中第1500-20000个质谱图进行搜索时,实验一级质谱与理论的一级质谱匹配得到的候选蛋白质变体共有840种。采用本发明方法后只需计算840(相对于2883)种蛋白变体的理论二级谱,计算量相比减少70.9%。人类蛋白质按氨基酸序列有20000多个,如果考虑修饰和氨基酸突变,其整体蛋白质变体的数量至少在百万数量级;对如此大数据库进行分析时,本发明方法将大大提高分析的通量。
上述的对实施例的描述是为便于该技术领域的普通技术人员能理解和使用发明。熟悉本领域技术的人员显然可以容易地对这些实施例做出各种修改,并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此,本发明不限于上述实施例,本领域技术人员根据本发明的揭示,不脱离本发明范畴所做出的改进和修改都应该在本发明的保护范围之内。
Claims (5)
1.一种生物质谱数据库快速建立与搜索的方法,其特征在于,包括以下步骤:
(1)根据标准生物大分子数据库中的序列与修饰信息,分别生成所有对应生物大分子变体的理论一级质谱数据库;
(2)将生物大分子的实验一级质谱与理论一级质谱相比较,找出所有与实验一级质谱对应的候选生物大分子变体;
(3)确定数据库中是否有以上所有候选生物大分子变体的二级质谱数据,若无,则靶向地在线计算该生物大分子的理论二级质谱数据,并将其存放于数据库中,若有,则直接进行下一步的匹配;
(4)将生物大分子实验的二级质谱数据与候选生物大分子变体的理论的二级质谱相比较,进行匹配;
(5)循环以上(2)-(4)步骤,直到确定所有二级质谱对应的生物大分子。
2.根据权利要求1所述的一种生物质谱数据库快速建立与搜索的方法,其特征在于,步骤(1)中生成所有对应生物大分子变体的理论一级质谱数据库的方法为:根据对应生物大分子变体的序列、修饰信息,计算出对应前体离子的分子式,并根据该分子式计算出与实验一级质谱对应的单同位素质量或同位素轮廓。
3.根据权利要求1所述的一种生物质谱数据库快速建立与搜索的方法,其特征在于,步骤(3)中靶向地在线计算该生物大分子的理论二级质谱数据的计算方法为:模拟质谱仪中二级质谱的特征,将该生物大分子进行碎裂,计算出所有理论的碎片离子的分子式,并根据该分子式计算出与实验二级质谱对应的单同位素质量或同位素轮廓。
4.根据权利要求1所述的一种生物质谱数据库快速建立与搜索的方法,其特征在于,步骤(3)中,所有理论的二级质谱数据都是在搜索的过程中在线计算与动态存储的,判断是否计算某一生物大分子变体理论二级质谱的条件是:
(1)该生物大分子变体是实验的一级质谱与理论的一级质谱匹配得到的候选生物大分子变体;
(2)使用的数据库中不包含该生物大分子变体的二级质谱数据。
5.根据权利要求1所述的一种生物质谱数据库快速建立与搜索的方法,其特征在于,所述的生物大分子为蛋白质、核酸、糖或碳氢化合物。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510125438.7A CN104765984B (zh) | 2015-03-20 | 2015-03-20 | 一种生物质谱数据库快速建立与搜索的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510125438.7A CN104765984B (zh) | 2015-03-20 | 2015-03-20 | 一种生物质谱数据库快速建立与搜索的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104765984A CN104765984A (zh) | 2015-07-08 |
CN104765984B true CN104765984B (zh) | 2017-07-11 |
Family
ID=53647809
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510125438.7A Expired - Fee Related CN104765984B (zh) | 2015-03-20 | 2015-03-20 | 一种生物质谱数据库快速建立与搜索的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104765984B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095448A (zh) * | 2015-07-24 | 2015-11-25 | 浙江大远智慧制药工程技术有限公司 | 一种适用于天然产物质谱数据解析的数据库构建方法 |
CN106093224B (zh) * | 2016-06-01 | 2018-10-26 | 同济大学 | 一种多糖同时富集与近同重标记的定量分析方法 |
CN106404883B (zh) * | 2016-09-07 | 2019-11-29 | 同济大学 | 一种基于质谱分析的多糖拓扑结构解析方法 |
CN106990159A (zh) * | 2017-05-04 | 2017-07-28 | 同济大学 | 一种基于全准同重二乙基标记的蛋白质定量方法 |
CA3103229A1 (en) * | 2018-06-11 | 2019-12-19 | Merck Sharp & Dohme Corp. | Complex molecule substructure identification systems, apparatuses and methods |
CN109507348B (zh) * | 2018-10-24 | 2021-05-18 | 科迈恩(北京)科技有限公司 | 聚合物型药用辅料组成成分的计算机辅助分析系统及方法 |
CN111370072B (zh) * | 2020-03-04 | 2020-11-17 | 西湖大学 | 基于数据非依赖采集质谱的分子组学数据结构的实现方法 |
CN111551626A (zh) * | 2020-05-18 | 2020-08-18 | 苏州市汉诺生物科技有限公司 | 基于分子组成和结构指纹识别的串级质谱解析方法 |
CN113744814B (zh) * | 2021-07-22 | 2023-07-07 | 暨南大学 | 基于贝叶斯后验概率模型的质谱数据搜库方法及系统 |
CN113658645A (zh) * | 2021-08-12 | 2021-11-16 | 碳硅(杭州)生物科技有限责任公司 | 一种质谱数据压缩方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103389335A (zh) * | 2012-05-11 | 2013-11-13 | 中国科学院大连化学物理研究所 | 一种鉴定生物大分子的分析装置和方法 |
CN104076115A (zh) * | 2014-06-26 | 2014-10-01 | 云南民族大学 | 基于峰强度识别能力的蛋白质二级质谱鉴定方法 |
CN104076098A (zh) * | 2013-03-29 | 2014-10-01 | 中国科学院大连化学物理研究所 | 等重二甲基化标记蛋白质定量方法 |
WO2014163153A1 (ja) * | 2013-04-03 | 2014-10-09 | 株式会社島津製作所 | 質量分析方法及び質量分析データ処理装置 |
-
2015
- 2015-03-20 CN CN201510125438.7A patent/CN104765984B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103389335A (zh) * | 2012-05-11 | 2013-11-13 | 中国科学院大连化学物理研究所 | 一种鉴定生物大分子的分析装置和方法 |
CN104076098A (zh) * | 2013-03-29 | 2014-10-01 | 中国科学院大连化学物理研究所 | 等重二甲基化标记蛋白质定量方法 |
WO2014163153A1 (ja) * | 2013-04-03 | 2014-10-09 | 株式会社島津製作所 | 質量分析方法及び質量分析データ処理装置 |
CN104076115A (zh) * | 2014-06-26 | 2014-10-01 | 云南民族大学 | 基于峰强度识别能力的蛋白质二级质谱鉴定方法 |
Non-Patent Citations (1)
Title |
---|
《蛋白质数据库对蛋白质组鉴定的影响》;邵晨,孙伟;《中国生物医学工程学报》;20130430;第32卷(第2期);第129-134页 * |
Also Published As
Publication number | Publication date |
---|---|
CN104765984A (zh) | 2015-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104765984B (zh) | 一种生物质谱数据库快速建立与搜索的方法 | |
Beausoleil et al. | A probability-based approach for high-throughput protein phosphorylation analysis and site localization | |
US8975577B2 (en) | System and method for grouping precursor and fragment ions using selected ion chromatograms | |
Yuan et al. | pParse: A method for accurate determination of monoisotopic peaks in high‐resolution mass spectra | |
Van Riper et al. | Mass spectrometry-based proteomics: basic principles and emerging technologies and directions | |
CN114965728B (zh) | 用数据非依赖性采集质谱分析生物分子样品的方法和设备 | |
US10878944B2 (en) | Methods for combining predicted and observed mass spectral fragmentation data | |
CN104820011B (zh) | 一种蛋白质翻译后修饰定位的方法 | |
Xiao et al. | Top-down protein identification using isotopic envelope fingerprinting | |
US20040180446A1 (en) | Methods and devices for identifying biopolymers using mass spectroscopy | |
Xiao et al. | Are neutral loss and internal product ions useful for top-down protein identification? | |
Liu et al. | Automated iterative MS/MS acquisition: a tool for improving efficiency of protein identification using a LC–MALDI MS workflow | |
Bischoff et al. | Genomic variability and protein species—Improving sequence coverage for proteogenomics | |
EP3341737B1 (en) | Rapid scoring of lc-ms/ms peptide data | |
EP3844507A1 (en) | Identification and scoring of related compounds in complex samples | |
Brownstein et al. | Paired single residue‐transposed Lys‐N and Lys‐C digestions for label‐free identification of N‐terminal and C‐terminal MS/MS peptide product ions: ultrahigh resolution Fourier transform ion cyclotron resonance mass spectrometry and tandem mass spectrometry for peptide de novo sequencing | |
CN106990159A (zh) | 一种基于全准同重二乙基标记的蛋白质定量方法 | |
Di Silvestre et al. | Bottom-up proteomics | |
Choo et al. | Tandem mass spectrometry data quality assessment by self-convolution | |
Liu et al. | An approach for peptide identification by de novo sequencing of mixture spectra | |
Volchenboum et al. | Rapid validation of Mascot search results via stable isotope labeling, pair picking, and deconvolution of fragmentation patterns | |
Yan et al. | Spectra library assisted de novo peptide sequencing for HCD and ETD spectra pairs | |
Chalkley | Improving peptide identification using empirical scoring systems | |
Liu et al. | De novo sequencing assisted approach for characterizing mixture MS/MS spectra | |
Liu et al. | PRIMA: peptide robust identification from MS/MS spectra |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170711 Termination date: 20200320 |