CN103177198B

CN103177198B - 一种蛋白质鉴定方法

Info

Publication number: CN103177198B
Application number: CN201110441720.8A
Authority: CN
Inventors: 周若; 闻博; 汪建; 王俊; 杨焕明
Original assignee: BGI Technology Solutions Co Ltd
Current assignee: BGI Technology Solutions Co Ltd
Priority date: 2011-12-26
Filing date: 2011-12-26
Publication date: 2016-11-23
Anticipated expiration: 2031-12-26
Also published as: CN103177198A

Abstract

本发明涉及一种基于EST序列的蛋白鉴定方法，以及一种基于蛋白质数据库和EST序列的蛋白鉴定方法。

Description

一种蛋白质鉴定方法

技术领域

本发明涉及蛋白质鉴定领域。更具体而言，本发明涉及基于数据库的蛋白质搜索鉴定方法。本发明还涉及一种构建用于蛋白质搜索鉴定的数据库的方法。

背景技术

随着近十年来基因组学(Genomics)及基因测序技术的快速发展，对基因产物蛋白质的研究也逐渐进入了生物学家的视野里，一个与基因组(Genome)对应的名词“蛋白质组(Proteome)”应运而生。蛋白质组是指一个基因组对应的所有蛋白质，或者是细胞、组织在特定条件和时间下表达的所有蛋白质。蛋白质组学(Proteomics)是指研究蛋白质组的组成、结构、性质与功能的学科。蛋白质的鉴定是整个蛋白质组学最基础和关键的。

目前，可以高通量鉴定蛋白质的基于质谱的技术主要有以下两种：基于数据库的蛋白质搜索鉴定方法和不需要数据库的蛋白质从头自主(denovo)鉴定方法。其中后者对质谱数据精度要求极高而尚未得到广泛应用。在基于数据库的蛋白质鉴定方法中，首先将蛋白质样品蛋白酶水解成多肽混合物，然后经过液相色谱分离并被离子化，进入质谱后，经过电子转移裂解(ETD)或碰撞诱导裂解(CID)裂解，形成肽段碎片离子进行二级质谱，产生实验的二级质谱图；同时将数据库中的蛋白质经过蛋白质质谱鉴定软件通过计算机进行理论的蛋白酶解、电离、碎裂、质谱，产生理论的二级质谱图。然后，将理论的二级质谱图和实验的二级质谱图进行相似性的谱图打分，选取得分最高的理论谱对应的肽段作为实验的质谱图的匹配肽段。再将这些匹配肽段合并得到对应的蛋白质。

由以上基于数据库的蛋白质鉴定方法可以看出，该方法高度依赖于数据库，在数据库中没有的蛋白是无法通过该方法鉴定。目前，有大量生物未被测序，其蛋白数据并不完备甚至很少，对基于数据库的蛋白质鉴定方法造成很大局限。

发明内容

为了克服上述蛋白数据不足带来的缺陷，发明人提供了一种基于EST(表达序列标签)序列的蛋白鉴定方法。

在本发明的第一方面，本发明提供了一种基于EST序列的蛋白鉴定方法，步骤包括：

1)使蛋白质样品成多肽片段的混合物并进行质谱，产生质谱图；

2)将相应物种的EST序列数据根据密码子原则六框翻译成EST氨基酸序列，形成EST氨基酸序列库；

3)将上述质谱图相对于上述EST氨基酸序列库进行数据库搜索，对于每一张质谱图，如果有搜索结果，将搜索到的EST氨基酸序列组成一个组；

4)将同一组中的EST氨基酸序列对应的EST序列进行拼接，具有重叠部分的EST序列拼接成更长的大片段，经过拼接后该组EST序列变成拼接后的大片段和与不能拼接的单体；

5)将一组中的大片段和单体分别比对到蛋白质数据库(优选地，动物的数据与所有动物的蛋白质数据库比对，植物的数据就与所有植物的蛋白质数据库比对)，对每个大片段和单体挑选比对分值最高且大于第一阈值的蛋白质，确定该组对应于一个蛋白或几个蛋白；

6)若是一组里的大片段和单体若比对到不同蛋白，将大片段对应的蛋白与其他单体进行比对，若比对分值满足第二阈值，则认为该组代表所述大片段对应的蛋白；

7)仅代表的一个蛋白的组对相应质谱图被鉴定为该蛋白。

在本发明的第二方面，本发明还提供了一种基于蛋白质数据库和EST序列的蛋白鉴定方法，步骤包括：

2)将相应物种的EST数据序列根据密码子原则六框翻译成EST氨基酸序列，形成EST氨基酸序列库；

3)将上述质谱图相对于第一蛋白质数据库进行数据库搜索，对于每一张质谱图，如果有搜索结果，搜索到的蛋白即为对该质谱图鉴定到的蛋白；

4)将其他质谱图相对于上述EST氨基酸序列库进行数据库搜索，对于每一张质谱图，如果有搜索结果，将搜索到的EST氨基酸序列组成一个组；

5)将同一组中的EST氨基酸序列对应的EST序列进行拼接，具有重叠部分的EST序列拼接成更长的大片段，经过拼接后该组EST序列变成拼接后的大片段和与不能拼接的单体；

6)将一组中的大片段和单体分别比对到第二蛋白质数据库(优选地，动物的数据与所有动物的蛋白质数据库比对，植物的数据就与所有植物的蛋白质数据库比对)，对每个大片段和单体挑选比对分值最大且大于第一阈值的蛋白质，确定该组对应于一个蛋白或几个蛋白；

7)若是一组里的大片段和单体若比对到不同蛋白，将大片段对应的蛋白与其他单体进行比对，若比对分值满足第二阈值，则认为该组代表所述大片段对应的蛋白；

8)仅代表的一个蛋白的组对相应质谱图被鉴定为该蛋白。

对于部分未测序的非模式生物来说，没有完整的蛋白数据及基因组数据，且从头自主鉴定技术并未成熟的前提下，对这些生物的蛋白质鉴定捉襟见肘。本发明基于EST序列的鉴定方法很好的解决了这一难题，EST序列作为信使RNA的反转录物cDNA的片段，与蛋白质的关系密切，对非模式生物的蛋白质及生命活动的研究有较大帮助。

附图说明

图1显示了基于质谱的蛋白质数据库鉴定方法。图为一般蛋白质数据库搜索流程图。

图2显示了基于EST序列的蛋白质搜索方法。图为基于EST序列的蛋白质搜索方法流程图。

图3的柱状图显示了基于EST氨基酸序列库(EST_Protein)的搜索结果和基于NCBI动物蛋白质数据库(NCBIanimal)的搜索结果的比较。

图4的文氏图显示了EST氨基酸序列库(EST_Protein)的得到的1197个蛋白和搜索NCBI动物蛋白质数据库(NCBIanimal)得到的499个蛋白之间的关系。

具体实施方式

产生质谱图可以通过本领域中常见的质谱仪，按照厂商说明进行，例如所述质谱仪为赛默飞(Thermo Scientific)科技公司研制的LTQObitrap。也可以通过服务商产生质谱图，例如华大基因蛋白质谱平台。质谱图与蛋白质数据库搜索可以本领域中已有的方法进行。一般而言，质谱仪会附带搜索算法和软件，所述软件例如Matrixscience研发的Mascot。

例如，如图1所示，在一个实施方案中，复杂的蛋白质混合样品(Complex ProteinMixture)经过酶解、离子化、碎裂进入质谱仪形成实验质谱数据(ExperimentalFragmentation Spectrum)，同时数据库(Protein database)里的蛋白质在电脑中进行模拟水解、离子化、碎裂、形成理论质谱(Theoretical Fragmentation Spectrum)，将理论质谱和实验质谱进行相似性匹配打分，根据得分高低，选择与实验谱匹配分数最高的理论谱对应的肽段作为该实验谱的鉴定结果，再对鉴定结果进行一个置信度的评估，过滤掉假阳性的结果，最后再归并成最终的可信蛋白质。

EST是从随机的cDNA(与mRNA互补的DNA)克隆进行5’端和3’端单次测序获得的cDNA序列，是完整基因的一部分。在EST数据库中，EST的长度一般从20到7000bp，平均长度为360±120bp。相对于蛋白组序列和基因组，EST序列在测序上更为简单且可用数据量较大。即使一些未被测序的物种，仍有大量的EST序列数据可用。EST数据库可以来自在线数据库，例如www.ncbi.nlm.nih.gov/dbEST/。

在本发明的EST氨基酸序列库的构建过程中，将EST序列根据密码子原则六框翻译成氨基酸序列可以通过蛋白质鉴定软件如Mascot进行，然后蛋白质鉴定软件由进行蛋白质搜索鉴定、过滤。即，在上述方法中，步骤2)和步骤3)可以由一个软件进行。

本发明中，DNA和蛋白质之间的比对是将DNA序列根据密码子原则六框翻译后与蛋白质比对，这是本领域技术人员可以理解并且可以做到的。例如，可以使用如BlastX的软件进行，或者在线进行，参见http://blast.ncbi.nlm.nih.gov/Blast.cgi。

在本发明中，blastX比对若比对分值满足一定阈值，则认为比对的两序列相同。BlastX比对的E-value值越小，两序列相同的机率越大。可以使用本领域常用的阈值标准，例如，在本发明的方法中，所述第一阈值可以是1e-5至1e-30，优选1e-10至1e-20，例如1e-15；所述第二阈值可以是1e-10至1e-50，优选1e-20至1e-40，例如1e-30。

在本发明中，蛋白质数据库可以是样品来自的物种的蛋白质数据库；与所述物种同属、同科、同目、同纲、同门、同界的蛋白质数据库；或者所有物种的蛋白质数据库。在一个优选实施方案中，如果所述物种是动物，则所述蛋白质数据库包括所有动物蛋白；如果所述物种是植物，则所述蛋白质数据库包括所有植物蛋白。

实施例

以从Thermo Scientific LTQ Orbitrap Velos质谱仪下机的牡蛎的质谱数据为例对本发明进行示例性描述。

目前，牡蛎没有许多可用的蛋白质数据，却有1287131条EST序列(获自http://www.ncbi.nlm.nih.gov/nucest/)。通过Mascot(获自http://www.ncbi.nlm.nih.gov/nucest/)，将这些EST序列根据密码子原则经过六框翻译构建出EST氨基酸序列库(11488120条序列)。然后，对NCBInr动物蛋白质数据库(2608768条序列，获自http://www.ncbi.nlm.nih.gov/protein)和所述构建EST氨基酸序列库分别进行Mascot搜索。Mascot搜索参数如下：

Mascot搜索参数

搜索上述两数据库的结果如下：

图3的直方图显示了以上鉴定结果。从图3可以看出，基于EST氨基酸序列库的搜索结果在识别谱图、鉴定肽段、鉴定蛋白这三个方面都大大优于基于NCBI动物蛋白质数据库的搜索结果。

至此搜索NCBI动物蛋白质数据库的蛋白质鉴定工作已经完成，但搜索EST氨基酸序列库的鉴定工作还没有结束。搜索得到的EST氨基酸序列库的1779个EST翻译序列并不是真正的蛋白。按本发明方法的步骤，利用序列拼接软件TGICL对鉴定中同一组里的EST翻译片段对应的EST序列进拼接组装，在将组装后的核酸序列大片段与NCBI动物蛋白质数据库的蛋白进行BLASTX比对，选择最佳比对的蛋白作为最后的鉴定蛋白。经上述后，1779个EST翻译序列变成1197个来自NCBI动物蛋白质数据库的蛋白，这也大大的超过了直接搜索NCBI动物蛋白质数据库得到的499个蛋白。将这1197个蛋白和之前搜索NCBI动物蛋白质数据库的499个蛋白进行比较发现，有334个蛋白重叠，参见图4的文氏图。

从较大的重叠部分(334个蛋白)可以看出，基于EST氨基酸序列库搜索鉴定方法具有很高准确性。此外，利用EST氨基酸序列库比直接搜索NCBI动物蛋白质数据库多鉴定出的863个蛋白，表明该种方法在搜索未测序的生物的强大之处。同时，结合EST氨基酸序列库和NCBI动物蛋白质数据库可以更全面地鉴定可能的蛋白质，例如在该实施例中鉴定了1362个蛋白质。

Claims

1.一种基于EST序列的蛋白鉴定方法，步骤包括：

4)利用TGICL软件将同一组中的EST氨基酸序列对应的EST序列进行拼接，具有重叠部分的EST序列拼接成更长的大片段，经过拼接后该组EST序列变成拼接后的大片段和与不能拼接的单体；

5)将一组中的大片段和单体分别比对到蛋白质数据库，对每个大片段和单体挑选比对分值最高且大于第一阈值的蛋白质，确定该组对应于一个蛋白或几个蛋白，其中所述第一阈值是1e-5至1e-30；

6)若是一组里的大片段和单体若比对到不同蛋白，将大片段对应的蛋白与其他单体进行比对，若比对分值满足第二阈值，则认为该组代表所述大片段对应的蛋白，其中所述第二阈值是1e-10至1e-50；

7)仅代表的一个蛋白的组对相应质谱图被鉴定为该蛋白。

2.权利要求1的方法，其中所述蛋白质数据库是样品来自的物种的蛋白质数据库；与所述物种同属、同科、同目、同纲、同门、同界的蛋白质数据库。

3.一种基于蛋白质数据库和EST序列的蛋白鉴定方法，步骤包括：

5)利用TGICL软件将同一组中的EST氨基酸序列对应的EST序列进行拼接，具有重叠部分的EST序列拼接成更长的大片段，经过拼接后该组EST序列变成拼接后的大片段和与不能拼接的单体；

6)将一组中的大片段和单体分别比对到第二蛋白质数据库，对每个大片段和单体挑选比对分值最大且大于第一阈值的蛋白质，确定该组对应于一个蛋白或几个蛋白，其中所述第一阈值是1e-5至1e-30；

7)若是一组里的大片段和单体若比对到不同蛋白，将大片段对应的蛋白与其他单体进行比对，若比对分值满足第二阈值，则认为该组代表所述大片段对应的蛋白，其中所述第二阈值是1e-10至1e-50；

8)仅代表的一个蛋白的组对相应质谱图被鉴定为该蛋白。

4.权利要求3的方法，其中所述第一蛋白质数据库是样品来自的物种蛋白质数据库，并且/或者其中所述第二蛋白质数据库是样品来自的物种的蛋白质数据库；与所述物种同属、同科、同目、同纲、同门、同界的蛋白质数据库。

5.权利要求1或3的方法，其中所述EST数据来自公共数据库或商业数据库。

6.权利要求1或3的方法，其中所述第一阈值是1e-10至1e-20；并且/或者所述第二阈值是1e-20至1e-40。

7.权利要求1或3的方法，其中所述第一阈值是1e-15。

8.权利要求1或3的方法，其中所述第二阈值是1e-30。

9.权利要求1或3的方法，其中所述比对通过软件BlastX进行。