CN104765984B - 一种生物质谱数据库快速建立与搜索的方法 - Google Patents

一种生物质谱数据库快速建立与搜索的方法 Download PDF

Info

Publication number
CN104765984B
CN104765984B CN201510125438.7A CN201510125438A CN104765984B CN 104765984 B CN104765984 B CN 104765984B CN 201510125438 A CN201510125438 A CN 201510125438A CN 104765984 B CN104765984 B CN 104765984B
Authority
CN
China
Prior art keywords
biological molecule
theoretical
large biological
mass
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510125438.7A
Other languages
English (en)
Other versions
CN104765984A (zh
Inventor
肖开捷
田志新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201510125438.7A priority Critical patent/CN104765984B/zh
Publication of CN104765984A publication Critical patent/CN104765984A/zh
Application granted granted Critical
Publication of CN104765984B publication Critical patent/CN104765984B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本发明涉及一种生物质谱数据库快速建立与搜索的方法,本搜索方法基于所述质谱的原始一级质谱和候选生物大分子,靶向在线计算与动态存储二级质谱数据库。与现有技术相比,本发明的方法对高通量的质谱解析效率有着显著的提升,可以避免大量不必要数据计算任务,大幅减少搜索所需的时间和硬盘存储空间,适用于高通量的大数据的解析,特别是生物大分子(如蛋白质,糖类)质谱及串级质谱高效解析及结构准确鉴定。

Description

一种生物质谱数据库快速建立与搜索的方法
技术领域
本发明涉及一种生物质谱数据库快速建立与搜索的方法,主要涉及与生物质谱相关的系统生物学领域,包括蛋白质组学、糖组学等技术领域。
背景技术
随着软电离技术(如电喷雾电离)及高分辨质量分析器(如轨道阱)的发展和商业化,质谱越来越多地用于生物大分子(如蛋白质、多糖)的分析。
中国专利CN 103389335 A公布了一种通过分析生物大分子质谱数据来鉴定生物大分子一级结构和组成的分析装置和方法。该分析装置和方法基于所述生物大分子的原始一级和二级质谱,通过同位素峰质荷比及轮廓指纹比对从而对该生物大分子进行鉴定。上述分析装置和方法直接利用质谱仪所采集的原始实验质谱数据,对前体离子和碎片离子同位素轮廓中每个原始实验同位素峰的精确质荷比和相对强度与相应的理论值进行比对,分别用于从数据库中找到候选生物大分子和利用串级质谱确认其中可信度最高的一个,从而对生物分子进行高可信度的定性、定量分析。
在生物信息学技术方面,与肽段的质谱鉴定方法相似,完整蛋白质的鉴定同样也是主要采用数据库搜索的方法。在蛋白质鉴定中,我们需要考虑蛋白质不同的变体形式(包括修饰、氨基酸突变等),如何根据蛋白质的序列生成的候选变体数据库成为搜索的一个难题,种类多,计算量大。对于完整的蛋白质,发生修饰等变化的位点数目可能要多很多,这样,我们容许一个蛋白质序列上的可变修饰位点数就会增加,当可变修饰位点数增加到10个以上时,再考虑到每个位点上可能修饰类型的不同,组合起来容易产生数量巨大的蛋白质变体形式,就可能出现指数爆炸的情况。而且,若再考虑氨基酸突变等组合形式,蛋白质变体形式将再指数增长,这也是现有处理方法的一个主要瓶颈。由于蛋白质变体的数量巨大,传统基于数据库的蛋白质搜索引擎的方法需要在搜索之前对所有的蛋白质变体的理论一级谱和二级谱进行计算和存储,既要花费大量的时间,又要占用大量的硬盘存储空间。数据库中,大量的理论的二级质谱数据在搜索过程并未被使用,属于不必要计算。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种避免大量不必要数据计算任务、平均计算量小、高效高通量的生物质谱数据库快速建立与搜索的方法。
本发明的目的可以通过以下技术方案来实现:
一种生物质谱数据库快速建立与搜索的方法,包括以下步骤:
(1)根据标准生物大分子数据库中的序列与修饰信息,分别生成所有对应生物大分子变体的理论一级质谱数据库;
(2)将生物大分子实验的一级质谱与理论的一级质谱相比较,找出所有与该一级质谱对应的候选生物大分子变体;
(3)确定数据库中是否有以上所有候选生物大分子变体的二级质谱数据,若无,则靶向地在线计算该生物大分子的理论二级质谱数据,并将其存放于数据库中,若有,则直接进行下一步的匹配;
(4)将生物大分子实验的二级质谱数据与候选生物大分子变体的理论的二级质谱相比较,进行匹配;
(5)循环以上(2)-(4)步骤,直到确定所有二级质谱对应的生物大分子。
指生物大分子实验的二级质谱数据与候选生物大分子变体的理论的二级质谱相似度达到指定要求。
步骤(1)中生成所有对应生物大分子变体的理论一级质谱数据库的方法为:根据对应生物大分子变体的序列、修饰等信息,计算出对应前体离子的分子式,并根据该分子式计算出与实验一级质谱对应的单同位素质量或同位素轮廓,该方法为常规处理方法,在此不作详细阐述。
步骤(3)中靶向地在线计算该生物大分子的理论二级质谱数据的计算方法为:模拟质谱仪中二级质谱的特征,将该生物大分子进行碎裂,计算出所有理论的碎片离子的分子式,并根据该分子式计算出与实验二级质谱对应的单同位素质量或同位素轮廓,该方法为常规处理方法,在此不作详细阐述。
步骤(3)中,所有理论的二级质谱数据都是在搜索的过程中在线计算与动态存储的,判断是否计算某一生物大分子变体理论二级质谱的条件是:(1)该生物大分子变体是实验的一级质谱与理论的一级质谱匹配得到的候选生物大分子变体;(2)使用的数据库中不包含该生物大分子变体的二级质谱数据。
所述的生物大分子为蛋白质、核酸、糖或碳氢化合物。
本发明涉及的方法同样适用于其他质谱以及任何需要预先建立数据库的数据库搜索。
本发明搜索方法基于所述质谱的原始一级和二级质谱的数据库搜索策略,通过靶向在线计算的方式生成与存储二级质谱数据库。所有需要计算的理论二级质谱数据都是在本次的搜索过程中必需使用到的,从而避免了大量不必要数据的计算任务与存储。而且,该数据库具备可完善性,即通常一个体系的数据库是可以反复使用的,每一次的使用都可能有新的理论二级质谱被计算并添加进该数据库中,起到不断完善数据库的作用。与现有技术相比,本发明的解析方法对高通量的质谱解析效率有着显著的提升,可以大幅减少搜索所需的时间和硬盘存储空间,适用于高通量的大数据的解析,特别是生物大分子(如蛋白质,糖类)质谱及串级质谱高效解析及结构准确鉴定。
具体实施方式
下面结合具体实施例对本发明进行详细说明。
实施例
一种蛋白质质谱数据库快速建立与搜索的方法,包括以下步骤:
(1)根据标准蛋白质序列数据库中的序列与修饰信息,分别生成所有对应蛋白变体的理论一级质谱数据库。
(2)将实验的一级质谱与理论的一级质谱相比较,找出所有与该一级质谱对应的候选蛋白质变体。
(3)首先确定数据库中是否有以上所有候选蛋白质的二级质谱数据,若无,则靶向地在线计算该蛋白的理论二级质谱数据,并将其存放于数据库中,若有,则直接进行下一步的匹配。
(4)将实验的二级质谱数据与候选蛋白质的理论的二级质谱相比较,进行匹配;
(5)循环以上(2)-(4)步骤,直到确定所有二级质谱对应的生物大分子。
步骤(3)中,所有理论的二级质谱数据都是在搜索的过程中在线计算与动态存储,判断是否计算某一蛋白质变体理论二级质谱的条件是:(1)该蛋白质变体是实验的一级质谱与理论的一级质谱匹配得到的候选蛋白质;(2)使用的数据库中不包含该蛋白质变体的二级质谱数据。
以大肠杆菌为例,从UniProt蛋白质数据库(www.uniprot.org)获得的大肠杆菌的中氨基酸序列长度为1-200的所有序列信息,通过对不同修饰的组合,共得到2883种理论蛋白质变体,采用传统方法需要计算2883种蛋白质变体的理论一级质谱及二级质谱。在对一个用反相色谱-串级质谱分析大肠杆菌整体蛋白质组得到的数据组中第1500-20000个质谱图进行搜索时,实验一级质谱与理论的一级质谱匹配得到的候选蛋白质变体共有840种。采用本发明方法后只需计算840(相对于2883)种蛋白变体的理论二级谱,计算量相比减少70.9%。人类蛋白质按氨基酸序列有20000多个,如果考虑修饰和氨基酸突变,其整体蛋白质变体的数量至少在百万数量级;对如此大数据库进行分析时,本发明方法将大大提高分析的通量。
上述的对实施例的描述是为便于该技术领域的普通技术人员能理解和使用发明。熟悉本领域技术的人员显然可以容易地对这些实施例做出各种修改,并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此,本发明不限于上述实施例,本领域技术人员根据本发明的揭示,不脱离本发明范畴所做出的改进和修改都应该在本发明的保护范围之内。

Claims (5)

1.一种生物质谱数据库快速建立与搜索的方法,其特征在于,包括以下步骤:
(1)根据标准生物大分子数据库中的序列与修饰信息,分别生成所有对应生物大分子变体的理论一级质谱数据库;
(2)将生物大分子的实验一级质谱与理论一级质谱相比较,找出所有与实验一级质谱对应的候选生物大分子变体;
(3)确定数据库中是否有以上所有候选生物大分子变体的二级质谱数据,若无,则靶向地在线计算该生物大分子的理论二级质谱数据,并将其存放于数据库中,若有,则直接进行下一步的匹配;
(4)将生物大分子实验的二级质谱数据与候选生物大分子变体的理论的二级质谱相比较,进行匹配;
(5)循环以上(2)-(4)步骤,直到确定所有二级质谱对应的生物大分子。
2.根据权利要求1所述的一种生物质谱数据库快速建立与搜索的方法,其特征在于,步骤(1)中生成所有对应生物大分子变体的理论一级质谱数据库的方法为:根据对应生物大分子变体的序列、修饰信息,计算出对应前体离子的分子式,并根据该分子式计算出与实验一级质谱对应的单同位素质量或同位素轮廓。
3.根据权利要求1所述的一种生物质谱数据库快速建立与搜索的方法,其特征在于,步骤(3)中靶向地在线计算该生物大分子的理论二级质谱数据的计算方法为:模拟质谱仪中二级质谱的特征,将该生物大分子进行碎裂,计算出所有理论的碎片离子的分子式,并根据该分子式计算出与实验二级质谱对应的单同位素质量或同位素轮廓。
4.根据权利要求1所述的一种生物质谱数据库快速建立与搜索的方法,其特征在于,步骤(3)中,所有理论的二级质谱数据都是在搜索的过程中在线计算与动态存储的,判断是否计算某一生物大分子变体理论二级质谱的条件是:
(1)该生物大分子变体是实验的一级质谱与理论的一级质谱匹配得到的候选生物大分子变体;
(2)使用的数据库中不包含该生物大分子变体的二级质谱数据。
5.根据权利要求1所述的一种生物质谱数据库快速建立与搜索的方法,其特征在于,所述的生物大分子为蛋白质、核酸、糖或碳氢化合物。
CN201510125438.7A 2015-03-20 2015-03-20 一种生物质谱数据库快速建立与搜索的方法 Expired - Fee Related CN104765984B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510125438.7A CN104765984B (zh) 2015-03-20 2015-03-20 一种生物质谱数据库快速建立与搜索的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510125438.7A CN104765984B (zh) 2015-03-20 2015-03-20 一种生物质谱数据库快速建立与搜索的方法

Publications (2)

Publication Number Publication Date
CN104765984A CN104765984A (zh) 2015-07-08
CN104765984B true CN104765984B (zh) 2017-07-11

Family

ID=53647809

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510125438.7A Expired - Fee Related CN104765984B (zh) 2015-03-20 2015-03-20 一种生物质谱数据库快速建立与搜索的方法

Country Status (1)

Country Link
CN (1) CN104765984B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095448A (zh) * 2015-07-24 2015-11-25 浙江大远智慧制药工程技术有限公司 一种适用于天然产物质谱数据解析的数据库构建方法
CN106093224B (zh) * 2016-06-01 2018-10-26 同济大学 一种多糖同时富集与近同重标记的定量分析方法
CN106404883B (zh) * 2016-09-07 2019-11-29 同济大学 一种基于质谱分析的多糖拓扑结构解析方法
CN106990159A (zh) * 2017-05-04 2017-07-28 同济大学 一种基于全准同重二乙基标记的蛋白质定量方法
EP3794599A4 (en) * 2018-06-11 2022-02-23 Merck Sharp & Dohme Corp. HINGED POINT METHODS FOR IDENTIFICATION OF COMPLEX MOLECULAR SUBSTRUCTURES
CN109507348B (zh) * 2018-10-24 2021-05-18 科迈恩(北京)科技有限公司 聚合物型药用辅料组成成分的计算机辅助分析系统及方法
CN111370072B (zh) * 2020-03-04 2020-11-17 西湖大学 基于数据非依赖采集质谱的分子组学数据结构的实现方法
CN111551626A (zh) * 2020-05-18 2020-08-18 苏州市汉诺生物科技有限公司 基于分子组成和结构指纹识别的串级质谱解析方法
CN113744814B (zh) * 2021-07-22 2023-07-07 暨南大学 基于贝叶斯后验概率模型的质谱数据搜库方法及系统
CN113658645A (zh) * 2021-08-12 2021-11-16 碳硅(杭州)生物科技有限责任公司 一种质谱数据压缩方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103389335A (zh) * 2012-05-11 2013-11-13 中国科学院大连化学物理研究所 一种鉴定生物大分子的分析装置和方法
CN104076115A (zh) * 2014-06-26 2014-10-01 云南民族大学 基于峰强度识别能力的蛋白质二级质谱鉴定方法
CN104076098A (zh) * 2013-03-29 2014-10-01 中国科学院大连化学物理研究所 等重二甲基化标记蛋白质定量方法
WO2014163153A1 (ja) * 2013-04-03 2014-10-09 株式会社島津製作所 質量分析方法及び質量分析データ処理装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103389335A (zh) * 2012-05-11 2013-11-13 中国科学院大连化学物理研究所 一种鉴定生物大分子的分析装置和方法
CN104076098A (zh) * 2013-03-29 2014-10-01 中国科学院大连化学物理研究所 等重二甲基化标记蛋白质定量方法
WO2014163153A1 (ja) * 2013-04-03 2014-10-09 株式会社島津製作所 質量分析方法及び質量分析データ処理装置
CN104076115A (zh) * 2014-06-26 2014-10-01 云南民族大学 基于峰强度识别能力的蛋白质二级质谱鉴定方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《蛋白质数据库对蛋白质组鉴定的影响》;邵晨,孙伟;《中国生物医学工程学报》;20130430;第32卷(第2期);第129-134页 *

Also Published As

Publication number Publication date
CN104765984A (zh) 2015-07-08

Similar Documents

Publication Publication Date Title
CN104765984B (zh) 一种生物质谱数据库快速建立与搜索的方法
EP1766394B1 (en) System and method for grouping precursor and fragment ions using selected ion chromatograms
US10878944B2 (en) Methods for combining predicted and observed mass spectral fragmentation data
CN114965728B (zh) 用数据非依赖性采集质谱分析生物分子样品的方法和设备
JP2007256126A (ja) 質量分析システム
CN104820011B (zh) 一种蛋白质翻译后修饰定位的方法
Freestone et al. Group-walk: a rigorous approach to group-wise false discovery rate analysis by target-decoy competition
AU2022290368A1 (en) Method and apparatus for identifying molecular species in a mass spectrum
US20040180446A1 (en) Methods and devices for identifying biopolymers using mass spectroscopy
EP4078600A1 (en) Method and system for the identification of compounds in complex biological or environmental samples
Zhang et al. PeakSelect: preprocessing tandem mass spectra for better peptide identification
Brunner et al. ICPLQuant–A software for non‐isobaric isotopic labeling proteomics
US20220392757A1 (en) Physical-chemical property scoring for structure elucidation in ion spectrometry
JP2021536567A (ja) 複合試料内の関連化合物の同定およびスコア化
Degroeve et al. A reproducibility‐based evaluation procedure for quantifying the differences between MS/MS peak intensity normalization methods
Di Silvestre et al. Bottom-up proteomics
Zhang et al. ICPD-a new peak detection algorithm for LC/MS
Choo et al. Tandem mass spectrometry data quality assessment by self-convolution
Köcher et al. Altered Mascot search results by changing the m/z range of MS/MS spectra: analysis and potential applications
Eriksson et al. Modeling mass spectrometry-based protein analysis
Liu et al. PRIMA: peptide robust identification from MS/MS spectra
Timm et al. Peak intensity prediction for pmf mass spectra using support vector regression
Keich et al. Appendix to: Controlling the FDR in imperfect matches to an incomplete database
Liu et al. An Approach for Matching Mixture MS/MS Spectra with a Pair of Peptide Sequences in a Protein Database
LaMarche Methods for comparing metaproteomic data in the absence of metagenomic information

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170711

Termination date: 20200320

CF01 Termination of patent right due to non-payment of annual fee