CN103177198B - 一种蛋白质鉴定方法 - Google Patents

一种蛋白质鉴定方法 Download PDF

Info

Publication number
CN103177198B
CN103177198B CN201110441720.8A CN201110441720A CN103177198B CN 103177198 B CN103177198 B CN 103177198B CN 201110441720 A CN201110441720 A CN 201110441720A CN 103177198 B CN103177198 B CN 103177198B
Authority
CN
China
Prior art keywords
est
albumen
protein
group
mass spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110441720.8A
Other languages
English (en)
Other versions
CN103177198A (zh
Inventor
周若
闻博
汪建
王俊
杨焕明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BGI Technology Solutions Co Ltd
Original Assignee
BGI Technology Solutions Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGI Technology Solutions Co Ltd filed Critical BGI Technology Solutions Co Ltd
Priority to CN201110441720.8A priority Critical patent/CN103177198B/zh
Publication of CN103177198A publication Critical patent/CN103177198A/zh
Application granted granted Critical
Publication of CN103177198B publication Critical patent/CN103177198B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明涉及一种基于EST序列的蛋白鉴定方法,以及一种基于蛋白质数据库和EST序列的蛋白鉴定方法。

Description

一种蛋白质鉴定方法
技术领域
本发明涉及蛋白质鉴定领域。更具体而言,本发明涉及基于数据库的蛋白质搜索鉴定方法。本发明还涉及一种构建用于蛋白质搜索鉴定的数据库的方法。
背景技术
随着近十年来基因组学(Genomics)及基因测序技术的快速发展,对基因产物蛋白质的研究也逐渐进入了生物学家的视野里,一个与基因组(Genome)对应的名词“蛋白质组(Proteome)”应运而生。蛋白质组是指一个基因组对应的所有蛋白质,或者是细胞、组织在特定条件和时间下表达的所有蛋白质。蛋白质组学(Proteomics)是指研究蛋白质组的组成、结构、性质与功能的学科。蛋白质的鉴定是整个蛋白质组学最基础和关键的。
目前,可以高通量鉴定蛋白质的基于质谱的技术主要有以下两种:基于数据库的蛋白质搜索鉴定方法和不需要数据库的蛋白质从头自主(denovo)鉴定方法。其中后者对质谱数据精度要求极高而尚未得到广泛应用。在基于数据库的蛋白质鉴定方法中,首先将蛋白质样品蛋白酶水解成多肽混合物,然后经过液相色谱分离并被离子化,进入质谱后,经过电子转移裂解(ETD)或碰撞诱导裂解(CID)裂解,形成肽段碎片离子进行二级质谱,产生实验的二级质谱图;同时将数据库中的蛋白质经过蛋白质质谱鉴定软件通过计算机进行理论的蛋白酶解、电离、碎裂、质谱,产生理论的二级质谱图。然后,将理论的二级质谱图和实验的二级质谱图进行相似性的谱图打分,选取得分最高的理论谱对应的肽段作为实验的质谱图的匹配肽段。再将这些匹配肽段合并得到对应的蛋白质。
由以上基于数据库的蛋白质鉴定方法可以看出,该方法高度依赖于数据库,在数据库中没有的蛋白是无法通过该方法鉴定。目前,有大量生物未被测序,其蛋白数据并不完备甚至很少,对基于数据库的蛋白质鉴定方法造成很大局限。
发明内容
为了克服上述蛋白数据不足带来的缺陷,发明人提供了一种基于EST(表达序列标签)序列的蛋白鉴定方法。
在本发明的第一方面,本发明提供了一种基于EST序列的蛋白鉴定方法,步骤包括:
1)使蛋白质样品成多肽片段的混合物并进行质谱,产生质谱图;
2)将相应物种的EST序列数据根据密码子原则六框翻译成EST氨基酸序列,形成EST氨基酸序列库;
3)将上述质谱图相对于上述EST氨基酸序列库进行数据库搜索,对于每一张质谱图,如果有搜索结果,将搜索到的EST氨基酸序列组成一个组;
4)将同一组中的EST氨基酸序列对应的EST序列进行拼接,具有重叠部分的EST序列拼接成更长的大片段,经过拼接后该组EST序列变成拼接后的大片段和与不能拼接的单体;
5)将一组中的大片段和单体分别比对到蛋白质数据库(优选地,动物的数据与所有动物的蛋白质数据库比对,植物的数据就与所有植物的蛋白质数据库比对),对每个大片段和单体挑选比对分值最高且大于第一阈值的蛋白质,确定该组对应于一个蛋白或几个蛋白;
6)若是一组里的大片段和单体若比对到不同蛋白,将大片段对应的蛋白与其他单体进行比对,若比对分值满足第二阈值,则认为该组代表所述大片段对应的蛋白;
7)仅代表的一个蛋白的组对相应质谱图被鉴定为该蛋白。
在本发明的第二方面,本发明还提供了一种基于蛋白质数据库和EST序列的蛋白鉴定方法,步骤包括:
1)使蛋白质样品成多肽片段的混合物并进行质谱,产生质谱图;
2)将相应物种的EST数据序列根据密码子原则六框翻译成EST氨基酸序列,形成EST氨基酸序列库;
3)将上述质谱图相对于第一蛋白质数据库进行数据库搜索,对于每一张质谱图,如果有搜索结果,搜索到的蛋白即为对该质谱图鉴定到的蛋白;
4)将其他质谱图相对于上述EST氨基酸序列库进行数据库搜索,对于每一张质谱图,如果有搜索结果,将搜索到的EST氨基酸序列组成一个组;
5)将同一组中的EST氨基酸序列对应的EST序列进行拼接,具有重叠部分的EST序列拼接成更长的大片段,经过拼接后该组EST序列变成拼接后的大片段和与不能拼接的单体;
6)将一组中的大片段和单体分别比对到第二蛋白质数据库(优选地,动物的数据与所有动物的蛋白质数据库比对,植物的数据就与所有植物的蛋白质数据库比对),对每个大片段和单体挑选比对分值最大且大于第一阈值的蛋白质,确定该组对应于一个蛋白或几个蛋白;
7)若是一组里的大片段和单体若比对到不同蛋白,将大片段对应的蛋白与其他单体进行比对,若比对分值满足第二阈值,则认为该组代表所述大片段对应的蛋白;
8)仅代表的一个蛋白的组对相应质谱图被鉴定为该蛋白。
对于部分未测序的非模式生物来说,没有完整的蛋白数据及基因组数据,且从头自主鉴定技术并未成熟的前提下,对这些生物的蛋白质鉴定捉襟见肘。本发明基于EST序列的鉴定方法很好的解决了这一难题,EST序列作为信使RNA的反转录物cDNA的片段,与蛋白质的关系密切,对非模式生物的蛋白质及生命活动的研究有较大帮助。
附图说明
图1显示了基于质谱的蛋白质数据库鉴定方法。图为一般蛋白质数据库搜索流程图。
图2显示了基于EST序列的蛋白质搜索方法。图为基于EST序列的蛋白质搜索方法流程图。
图3的柱状图显示了基于EST氨基酸序列库(EST_Protein)的搜索结果和基于NCBI动物蛋白质数据库(NCBIanimal)的搜索结果的比较。
图4的文氏图显示了EST氨基酸序列库(EST_Protein)的得到的1197个蛋白和搜索NCBI动物蛋白质数据库(NCBIanimal)得到的499个蛋白之间的关系。
具体实施方式
产生质谱图可以通过本领域中常见的质谱仪,按照厂商说明进行,例如所述质谱仪为赛默飞(Thermo Scientific)科技公司研制的LTQObitrap。也可以通过服务商产生质谱图,例如华大基因蛋白质谱平台。质谱图与蛋白质数据库搜索可以本领域中已有的方法进行。一般而言,质谱仪会附带搜索算法和软件,所述软件例如Matrixscience研发的Mascot。
例如,如图1所示,在一个实施方案中,复杂的蛋白质混合样品(Complex ProteinMixture)经过酶解、离子化、碎裂进入质谱仪形成实验质谱数据(ExperimentalFragmentation Spectrum),同时数据库(Protein database)里的蛋白质在电脑中进行模拟水解、离子化、碎裂、形成理论质谱(Theoretical Fragmentation Spectrum),将理论质谱和实验质谱进行相似性匹配打分,根据得分高低,选择与实验谱匹配分数最高的理论谱对应的肽段作为该实验谱的鉴定结果,再对鉴定结果进行一个置信度的评估,过滤掉假阳性的结果,最后再归并成最终的可信蛋白质。
EST是从随机的cDNA(与mRNA互补的DNA)克隆进行5’端和3’端单次测序获得的cDNA序列,是完整基因的一部分。在EST数据库中,EST的长度一般从20到7000bp,平均长度为360±120bp。相对于蛋白组序列和基因组,EST序列在测序上更为简单且可用数据量较大。即使一些未被测序的物种,仍有大量的EST序列数据可用。EST数据库可以来自在线数据库,例如www.ncbi.nlm.nih.gov/dbEST/。
在本发明的EST氨基酸序列库的构建过程中,将EST序列根据密码子原则六框翻译成氨基酸序列可以通过蛋白质鉴定软件如Mascot进行,然后蛋白质鉴定软件由进行蛋白质搜索鉴定、过滤。即,在上述方法中,步骤2)和步骤3)可以由一个软件进行。
本发明中,DNA和蛋白质之间的比对是将DNA序列根据密码子原则六框翻译后与蛋白质比对,这是本领域技术人员可以理解并且可以做到的。例如,可以使用如BlastX的软件进行,或者在线进行,参见http://blast.ncbi.nlm.nih.gov/Blast.cgi。
在本发明中,blastX比对若比对分值满足一定阈值,则认为比对的两序列相同。BlastX比对的E-value值越小,两序列相同的机率越大。可以使用本领域常用的阈值标准,例如,在本发明的方法中,所述第一阈值可以是1e-5至1e-30,优选1e-10至1e-20,例如1e-15;所述第二阈值可以是1e-10至1e-50,优选1e-20至1e-40,例如1e-30。
在本发明中,蛋白质数据库可以是样品来自的物种的蛋白质数据库;与所述物种同属、同科、同目、同纲、同门、同界的蛋白质数据库;或者所有物种的蛋白质数据库。在一个优选实施方案中,如果所述物种是动物,则所述蛋白质数据库包括所有动物蛋白;如果所述物种是植物,则所述蛋白质数据库包括所有植物蛋白。
实施例
以从Thermo Scientific LTQ Orbitrap Velos质谱仪下机的牡蛎的质谱数据为例对本发明进行示例性描述。
目前,牡蛎没有许多可用的蛋白质数据,却有1287131条EST序列(获自http://www.ncbi.nlm.nih.gov/nucest/)。通过Mascot(获自http://www.ncbi.nlm.nih.gov/nucest/),将这些EST序列根据密码子原则经过六框翻译构建出EST氨基酸序列库(11488120条序列)。然后,对NCBInr动物蛋白质数据库(2608768条序列,获自http://www.ncbi.nlm.nih.gov/protein)和所述构建EST氨基酸序列库分别进行Mascot搜索。Mascot搜索参数如下:
Mascot搜索参数
搜索上述两数据库的结果如下:
图3的直方图显示了以上鉴定结果。从图3可以看出,基于EST氨基酸序列库的搜索结果在识别谱图、鉴定肽段、鉴定蛋白这三个方面都大大优于基于NCBI动物蛋白质数据库的搜索结果。
至此搜索NCBI动物蛋白质数据库的蛋白质鉴定工作已经完成,但搜索EST氨基酸序列库的鉴定工作还没有结束。搜索得到的EST氨基酸序列库的1779个EST翻译序列并不是真正的蛋白。按本发明方法的步骤,利用序列拼接软件TGICL对鉴定中同一组里的EST翻译片段对应的EST序列进拼接组装,在将组装后的核酸序列大片段与NCBI动物蛋白质数据库的蛋白进行BLASTX比对,选择最佳比对的蛋白作为最后的鉴定蛋白。经上述后,1779个EST翻译序列变成1197个来自NCBI动物蛋白质数据库的蛋白,这也大大的超过了直接搜索NCBI动物蛋白质数据库得到的499个蛋白。将这1197个蛋白和之前搜索NCBI动物蛋白质数据库的499个蛋白进行比较发现,有334个蛋白重叠,参见图4的文氏图。
从较大的重叠部分(334个蛋白)可以看出,基于EST氨基酸序列库搜索鉴定方法具有很高准确性。此外,利用EST氨基酸序列库比直接搜索NCBI动物蛋白质数据库多鉴定出的863个蛋白,表明该种方法在搜索未测序的生物的强大之处。同时,结合EST氨基酸序列库和NCBI动物蛋白质数据库可以更全面地鉴定可能的蛋白质,例如在该实施例中鉴定了1362个蛋白质。

Claims (9)

1.一种基于EST序列的蛋白鉴定方法,步骤包括:
1)使蛋白质样品成多肽片段的混合物并进行质谱,产生质谱图;
2)将相应物种的EST序列数据根据密码子原则六框翻译成EST氨基酸序列,形成EST氨基酸序列库;
3)将上述质谱图相对于上述EST氨基酸序列库进行数据库搜索,对于每一张质谱图,如果有搜索结果,将搜索到的EST氨基酸序列组成一个组;
4)利用TGICL软件将同一组中的EST氨基酸序列对应的EST序列进行拼接,具有重叠部分的EST序列拼接成更长的大片段,经过拼接后该组EST序列变成拼接后的大片段和与不能拼接的单体;
5)将一组中的大片段和单体分别比对到蛋白质数据库,对每个大片段和单体挑选比对分值最高且大于第一阈值的蛋白质,确定该组对应于一个蛋白或几个蛋白,其中所述第一阈值是1e-5至1e-30;
6)若是一组里的大片段和单体若比对到不同蛋白,将大片段对应的蛋白与其他单体进行比对,若比对分值满足第二阈值,则认为该组代表所述大片段对应的蛋白,其中所述第二阈值是1e-10至1e-50;
7)仅代表的一个蛋白的组对相应质谱图被鉴定为该蛋白。
2.权利要求1的方法,其中所述蛋白质数据库是样品来自的物种的蛋白质数据库;与所述物种同属、同科、同目、同纲、同门、同界的蛋白质数据库。
3.一种基于蛋白质数据库和EST序列的蛋白鉴定方法,步骤包括:
1)使蛋白质样品成多肽片段的混合物并进行质谱,产生质谱图;
2)将相应物种的EST数据序列根据密码子原则六框翻译成EST氨基酸序列,形成EST氨基酸序列库;
3)将上述质谱图相对于第一蛋白质数据库进行数据库搜索,对于每一张质谱图,如果有搜索结果,搜索到的蛋白即为对该质谱图鉴定到的蛋白;
4)将其他质谱图相对于上述EST氨基酸序列库进行数据库搜索,对于每一张质谱图,如果有搜索结果,将搜索到的EST氨基酸序列组成一个组;
5)利用TGICL软件将同一组中的EST氨基酸序列对应的EST序列进行拼接,具有重叠部分的EST序列拼接成更长的大片段,经过拼接后该组EST序列变成拼接后的大片段和与不能拼接的单体;
6)将一组中的大片段和单体分别比对到第二蛋白质数据库,对每个大片段和单体挑选比对分值最大且大于第一阈值的蛋白质,确定该组对应于一个蛋白或几个蛋白,其中所述第一阈值是1e-5至1e-30;
7)若是一组里的大片段和单体若比对到不同蛋白,将大片段对应的蛋白与其他单体进行比对,若比对分值满足第二阈值,则认为该组代表所述大片段对应的蛋白,其中所述第二阈值是1e-10至1e-50;
8)仅代表的一个蛋白的组对相应质谱图被鉴定为该蛋白。
4.权利要求3的方法,其中所述第一蛋白质数据库是样品来自的物种蛋白质数据库,并且/或者其中所述第二蛋白质数据库是样品来自的物种的蛋白质数据库;与所述物种同属、同科、同目、同纲、同门、同界的蛋白质数据库。
5.权利要求1或3的方法,其中所述EST数据来自公共数据库或商业数据库。
6.权利要求1或3的方法,其中所述第一阈值是1e-10至1e-20;并且/或者所述第二阈值是1e-20至1e-40。
7.权利要求1或3的方法,其中所述第一阈值是1e-15。
8.权利要求1或3的方法,其中所述第二阈值是1e-30。
9.权利要求1或3的方法,其中所述比对通过软件BlastX进行。
CN201110441720.8A 2011-12-26 2011-12-26 一种蛋白质鉴定方法 Active CN103177198B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110441720.8A CN103177198B (zh) 2011-12-26 2011-12-26 一种蛋白质鉴定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110441720.8A CN103177198B (zh) 2011-12-26 2011-12-26 一种蛋白质鉴定方法

Publications (2)

Publication Number Publication Date
CN103177198A CN103177198A (zh) 2013-06-26
CN103177198B true CN103177198B (zh) 2016-11-23

Family

ID=48637048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110441720.8A Active CN103177198B (zh) 2011-12-26 2011-12-26 一种蛋白质鉴定方法

Country Status (1)

Country Link
CN (1) CN103177198B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105116044B (zh) * 2015-08-14 2018-06-22 中国海洋大学 一种使用专属性肽段组鉴别梅花参的方法
GB2607739B (en) * 2018-06-06 2023-04-05 Bruker Daltonics Gmbh & Co Kg Targeted protein characterization by mass spectrometry

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101130775A (zh) * 2007-06-27 2008-02-27 中山大学 一种新的信号芋螺毒素序列、制备方法及其应用

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003015001A2 (en) * 2001-08-03 2003-02-20 Synt:Em S.A. Method for identification of protein function
WO2008083331A2 (en) * 2006-12-29 2008-07-10 The Regents Of The University Of Colorado Diagnostic and therapeutic target for autoimmune diseases and uses thereof

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101130775A (zh) * 2007-06-27 2008-02-27 中山大学 一种新的信号芋螺毒素序列、制备方法及其应用

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
在飞蝗两型转变中takeout蛋白功能的研究;于芹;《中国优秀硕士学位论文数据库 农业科技辑》;20110715(第07期);全文 *
蛋白质组学研究中的质谱鉴定与生物信息学分析;刘康 等;《棉花学报》;20081231;第20卷(第4期);摘要,第1.3,2.3-2.5节 *

Also Published As

Publication number Publication date
CN103177198A (zh) 2013-06-26

Similar Documents

Publication Publication Date Title
Keilhauer et al. Accurate protein complex retrieval by affinity enrichment mass spectrometry (AE-MS) rather than affinity purification mass spectrometry (AP-MS)
US10309968B2 (en) Methods and systems for assembly of protein sequences
Yates et al. Automated protein identification using microcolumn liquid chromatography-tandem mass spectrometry
Alves et al. Advancement in protein inference from shotgun proteomics using peptide detectability
US6393367B1 (en) Method for evaluating the quality of comparisons between experimental and theoretical mass data
Hartmann et al. N‐terminomics and proteogenomics, getting off to a good start
Xiao et al. Top-down protein identification using isotopic envelope fingerprinting
O'Bryon et al. Flying blind, or just flying under the radar? The underappreciated power of de novo methods of mass spectrometric peptide identification
Loo et al. Proteomics in molecular diagnosis: typing of amyloidosis
US20210020270A1 (en) Constrained de novo sequencing of neo-epitope peptides using tandem mass spectrometry
JP2008281411A (ja) タンパク質データベース検索法および記録媒体
Bandeira Spectral networks: a new approach to de novo discovery of protein sequences and posttranslational modifications
CN103177198B (zh) 一种蛋白质鉴定方法
Specht et al. Concerted action of the new Genomic Peptide Finder and AUGUSTUS allows for automated proteogenomic annotation of the Chlamydomonas reinhardtii genome
CN106404878B (zh) 基于多组学丰度信息的蛋白质二级质谱鉴定方法
JP4841414B2 (ja) 質量分析を用いたアミノ酸配列解析方法、アミノ酸配列解析装置、アミノ酸配列解析用プログラム、及びアミノ酸配列解析用プログラムを記録した記録媒体
Yan et al. NovoHCD: de novo peptide sequencing from HCD spectra
JP5874587B2 (ja) アミノ酸配列解析方法及び装置
Alves et al. Robust accurate identification of peptides (RAId): deciphering MS2 data using a structured library search with de novo based statistics
Bandeira Protein identification by spectral networks analysis
KR100531207B1 (ko) 단백질 동정시스템
CN108388774A (zh) 一种多肽谱匹配数据的在线分析方法
CN103488913A (zh) 一种用于利用测序数据将肽映射到蛋白质的计算方法
WO2010094300A1 (en) A method for determining in silico- a set of selected target epitopes
Piga et al. Spatially Resolved Molecular Approaches for the Characterisation of Non-Invasive Follicular Tumours with Papillary-like Features (NIFTPs)

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: BGI TECHNOLOGY SOLUTIONS CO., LTD.

Free format text: FORMER OWNER: BGI-SHENZHEN CO., LTD.

Effective date: 20130717

Free format text: FORMER OWNER: BGI-SHENZHEN

Effective date: 20130717

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20130717

Address after: Science and Technology Pioneer Park, comprehensive building, Beishan Industrial Zone, Yantian District, Guangdong, Shenzhen 201, China

Applicant after: BGI Technology Solutions Co., Ltd.

Address before: North Road No. 146, building 11F-3 Industrial Zone in Yantian District of Shenzhen city of Guangdong Province in 518083

Applicant before: BGI-Shenzhen Co., Ltd.

Applicant before: BGI-Shenzhen

C14 Grant of patent or utility model
GR01 Patent grant