CN105956416B

CN105956416B - 一种快速自动分析原核生物蛋白质基因组学数据的方法

Info

Publication number: CN105956416B
Application number: CN201610303315.2A
Authority: CN
Inventors: 杨明坤; 张珈; 洪斌; 葛峰
Original assignee: Hubei King Technology Co Ltd
Current assignee: Hubei King Technology Co Ltd
Priority date: 2016-05-10
Filing date: 2016-05-10
Publication date: 2018-07-13
Anticipated expiration: 2036-05-10
Also published as: CN105956416A

Abstract

本发明提供一种快速自动分析原核生物蛋白质基因组学数据的方法，用户只需提供质谱数据与对应的数据库文件，并设置简单的检索参数；本发明既可完成蛋白质基因组数据的检索，同时还能够兼容用户自定义的数据检索结果，从而提高了蛋白质组学数据的鉴定覆盖率；本发明预先整合了不同算法的搜库引擎，弥补单一检索方法的不足；本发明还能兼容用户自定义的搜库结果，具有很好的兼容性，最大限度的提高了肽段鉴定覆盖率；本发明中自动完成新基因的功能注释，并首次实现了蛋白质翻译后修饰的大规模鉴定以及非标记定量蛋白质组学的分析，真正实现了蛋白质基因组学数据的自动快速深度分析。

Description

一种快速自动分析原核生物蛋白质基因组学数据的方法

技术领域

本发明涉及蛋白质基因组数据分析方法，具体涉及一种自动快速分析原核生物蛋白质基因组学数据的方法。

背景技术

随着高通量DNA测序技术的飞速发展，人类完成了越来越多的物种的基因组测序。基因组测序的目的是更加了解参与生物学功能的基因组成以及功能。因此，基因组注释的基本任务是确定基因与其他元件的位置和结构，并确定这些基因和元件具体的具有怎样的生物学功能。目前，这种基因组注释方法主要依赖于DNA与RNA序列信息；而相比于基因组或转录组注释，蛋白质组学则能够直接研究编码基因翻译出的蛋白质产物，因此蛋白质组学比基因组或转录组学注释基因组获得更直接的结果，同时蛋白质组学还可以发现由于知识不足导致的基因从头预测算法遗漏的基因和基因结构注释的错误，以及蛋白质存在的特有的翻译后修饰现象。因此，要完成对基因组的更加精确更加完整的注释，则需要整合多种类型的组学数据进行注释。近年来，随着生物质谱技术的迅速发展，实现了蛋白质的高覆盖鉴定，利用蛋白质组学数据进行基因组注释也成为可能，并兴起了一个利用蛋白质组学数据进行基因组注释的新的研究方向-蛋白质基因组学(蛋基组学，Proteogenomics)。

蛋基组学，就是利用蛋白质组学数据，结合基因组与转录组等多组学数据对基因组进行注释。最先由Jaffe等人于2004年首次提出，采用高通量质谱数据匹配基因组直接翻译得到蛋白序列的方法，在仅有810kb大小的细菌基因组上直接鉴定开放阅读框(openreading frame，ORF)，通过此方法，Jaffe等人对原有基因组信息进行了验证与补充，并修订了约10％的ORF。随着蛋白质组学技术手段日益成熟，高灵敏度、高精度的质谱仪使得完全覆盖蛋白质组也成为可能，如人类蛋白质组数据中84％的蛋白已被鉴定到，因此，蛋白质组数据不仅可以实现对基因组序列的重新注释、发现新基因，还能用于系统发现蛋白质特有的翻译后事件(如翻译后修饰和信号肽等)。虽然目前蛋白质基因组学的研究发展较快，但是也存在以下几个方面的问题：a.在数据库构建方面，整合多组学数据库，能获得覆盖度更广的蛋白序列数据库，但也会造成数据库过大，使得质谱鉴定搜索引擎无法应对；b.大部分研究数据存在质量控制问题，比如仅通过PSM水平的全局FDR直接获得鉴定蛋白质集合，没有对新鉴定到的肽段进行精确的FDR控制；c.多数据整合和质量控制工具非常缺乏，无法实现增量式的基因组注释，这在很大程度上阻碍了蛋白质基因组学的发展；d.海量的质谱数据，也使得数据的共享和传输非常不便，也限制了蛋白质基因组学的推广。

目前，针对蛋白质基因组数据分析的主要软件包括Peppy、PPLine、PGTools与Genosuite等，然而，这些软件设定的方法局限性比较高，仅适用于特定高分辨质谱仪器产生的数据以及几种常见的数据库检索程序，并且，这些软件的使用设定均较为复杂，需要用户具有较深的蛋白质组学研究方面的背景，应用范围也受到很大的限制，并未实现数据的自动快速分析；此外，这些软件也无法应对目前海量的质谱采集数据，以及由于数据库的过大带来的搜索空间的膨胀，使得蛋白质基因组学的研究受到限制。

发明内容

有鉴于此，本发明的目的在于提出了一种自动快速分析蛋白质基因组数据的方法，克服了以往蛋白质基因组学数据分析复杂繁琐的步骤，能够实现蛋白质基因组学数据的一键式分析，本发明还首次实现蛋白质基因组数据的蛋白质翻译后修饰的大规模鉴定与非标记定量蛋白质组学分析。

为了实现上述发明目的，本发明提供以下技术方案：

本发明提供了一种快速自动分析原核生物蛋白质基因组学数据的方法，包括以下步骤：

1)对基因组数据进行六阅读框翻译，对转录组数据、EST序列以及非编码RNA数据进行三阅读框翻译，构建蛋白序列数据库文件，对原始质谱数据进行格式转化得到转化后的质谱数据，对数据库检索参数定义；

2)选择具有不同算法的数据检索引擎，对步骤1)所述转化后的质谱数据进行数据库检索，得到检索结果；

3)整合所述步骤2)得到的检索结果和用户自定义的搜索引擎检索鉴定结果，并将鉴定到的肽段回贴基因组，进行假阳性概率计算，根据计算结果删除假阳性肽段，得到筛选后的肽段信息；

4)根据所述步骤3)得到的筛选后的肽段，一类用于验证已注释编码基因的表达和结构，另一类用于发现新基因和校正已注释基因的结构，得到新基因，并综合转录组信息，利用对应的转录单元对重注释的新基因进行验证；

5)对所述步骤4)得到的新基因进行功能注释；

6)采用蛋白质非限制性翻译后修饰分析方法，对所述步骤1)中得到的转化后的质谱数据进行蛋白质翻译后修饰的大规模鉴定；

7)对所述步骤1)中的质谱数据进行全细胞蛋白的非标记定量分析。

优选的，所述步骤1)中基因组、转录组、EST序列以及非编码RNA数据多组学数据进行整合，去除序列相同的冗余数据，构建了蛋白序列数据库。

优选的，所述步骤2)中不同算法的数据检索引擎为MSGFPlus、X！Tandem、MSAmanda、OMSSA和Comet的一种或多种。

优选的，结合全局FDR和类别FDR筛选策略，所述步骤3)中筛选后的肽段信息为假阳性率<1％的肽段信息，全局FDR筛选策略具体为肽谱匹配水平的FDR值小于1％的肽段信息，类别FDR筛选策略具体为新鉴定到的肽段的FDR值小于1％的肽段信息。

优选的，所述步骤4)中新基因的鉴定方法具体是：将鉴定到的所有肽段与蛋白质数据库进行全序列比对，能够匹配的肽段为已知的蛋白肽段，不能匹配上的肽段为新肽段，将所述新肽段比对到基因组中，预测新基因的起始与终止位置，并鉴定是否存在已知基因结构的改变。

优选的，所述步骤4)中新基因的序列的鉴定方法具体是：根据新基因的长度，unique肽段数，肽段长度与得分，是否具有起始密码子，是否具有稀有密码子来预测新基因序列以及基因结构改变的序列。

优选的，所述unique肽段数为>2，所述起始密码子为ATG、GTG、TTG或CTG，所述起始密码子出现概率：ATG>GTG>TTG>CTG，所述稀有密码子为ATA或ATT。

优选的，所述步骤5)中新基因功能注释是通过Uniprot数据库对鉴定到的新基因进行GO功能注释。

优选的，所述步骤6)中蛋白质翻译后修饰的大规模鉴定为：主要利用MODa和InspecT数据库行蛋白质翻译后修饰检索，再利用Unimod数据库对翻译后修饰类型进行匹配。

优选的，所述步骤7)中全细胞蛋白的定量分析为：主要利用X！Tandem数据库检索引擎进行蛋白定量检索，根据所述定量检索的结果，采用统计谱图数的方法进行蛋白定量统计。

本发明提供一种快速自动分析原核生物蛋白质基因组学数据的方法，用户只需提供质谱数据与对应的数据库文件，并设置简单的检索参数；本发明既可完成蛋白质基因组数据的检索，同时还能够兼容用户自定义的数据检索结果，从而提高了蛋白质组学数据的鉴定覆盖率；本发明中预先整合了多种不同算法的搜库引擎，弥补单一检索方法的不足；同时，本发明还能兼容用户自定义的搜库结果，具有很好的兼容性，并最大限度的提高了肽段鉴定覆盖率；本发明中自动完成新基因的功能注释，并首次实现了蛋白质翻译后修饰的大规模鉴定以及非标记定量蛋白质组学的分析，真正实现了蛋白质基因组学数据的自动快速深度分析。

进一步的，本发明中预测新基因序列与基因模式改变的序列，不仅考虑了新基因的长度，匹配的肽段数，肽段得分以及长度，最重要的是考虑了起始密码子出现的概率以及稀有密码子，提高了新基因与结构改变的基因的鉴定率。

附图说明

图1为一种自动快速分析原核生物蛋白质基因组学数据的方法的流程图。

具体实施方式

1)对基因组数据进行六阅读框翻译，对转录组数据、EST序列以及非编码RNA数据进行三阅读框翻译，并枚举起始密码子，构建蛋白序列数据库文件，对原始质谱数据进行格式转化得到转化后的质谱数据，对数据库检索参数定义；

5)对所述步骤4)得到的新基因进行功能注释；

本发明提供的一种快速自动分析原核生物蛋白质基因组学数据的方法，既可完成蛋白质基因组数据的检索，同时还能够兼容用户自定义的数据检索结果，从而提高了蛋白质组学数据的鉴定覆盖率；并且，本发明还首次实现了蛋白质翻译后修饰的大规模鉴定以及非标记定量蛋白质组学的分析，真正实现了蛋白质基因组学数据的自动快速分析。

本发明中，对基因组数据进行六阅读框翻译，对转录组数据、EST序列以及非编码RNA数据进行三阅读框翻译，构建蛋白序列数据库文件，对原始质谱数据进行格式转化得到转化后的质谱数据，对数据库检索参数定义。

本发明整合了所述步骤1)中基因组、转录组、EST序列以及非编码RNA数据多组学数据，去除序列相同的冗余数据，构建了蛋白序列数据库。

得到转化后的质谱数据后，本发明对转化后的质谱数据进行不同算法数据库检索，所述检索引擎优选为MSGFPlus、X！Tandem、MSAmanda、OMSSA和Comet的一种或多种。

得到检索结果后，本发明对检索结果和用户自定义的检索鉴定结果进行整合，整合后的结果进行假阳性概率计算，根据计算结果删除假阳性肽段。本发明优选结合全局FDR和类别FDR筛选策略，所述筛选后的肽段信息为假阳性率<1％的肽段信息，全局FDR筛选策略具体为肽谱匹配水平的FDR值小于1％的肽段信息，类别FDR筛选策略具体为新鉴定到的肽段的FDR值小于1％的肽段信息。

得到筛选后的肽段信息后，一类用于验证已注释编码基因的表达和结构，另一类用于发现新基因和校正已注释基因的结构，得到新基因，并综合转录组信息，利用对应的转录单元对重注释的新基因进行验证。

本发明对所述新基因的鉴定方法具体优选为：将鉴定到的所有肽段与蛋白质数据库进行全序列比对，能够匹配的肽段为已知的蛋白肽段，不能匹配上的肽段为新肽段，将所述新肽段比对到基因组中，预测新基因的起始与终止位置，并鉴定是否存在已知基因结构的改变。

本发明对所述新基因的序列的鉴定方法优选对下列因素进行限定：根据新基因的长度，unique肽段数，肽段长度与得分，是否具有起始密码子，是否具有稀有密码子来预测新基因序列以及基因结构改变的序列。

本发明对所述unique肽段数优选为>2，所述起始密码子优选为ATG、GTG、TTG或CTG，所述起始密码子出现概率：ATG>GTG>TTG>CTG，所述稀有密码子优选为ATA或ATT。

得到新基因与结构改变的基因后，本发明对得到的新基因进行功能注释。所述的新基因功能注释是通过Uniprot数据库对鉴定到的新基因进行GO功能注释。

转化后的质谱数据，本发明对转化后的质谱数据进行蛋白质翻译后修饰的大规模鉴定和全细胞蛋白的非标记定量分析。所述蛋白质翻译后修饰的大规模鉴定优选为：主要利用MODa和InspecT数据库行蛋白质翻译后修饰检索，再利用Unimod数据库对翻译后修饰类型进行匹配。

同时，得到质谱数据后，本发明对质谱数据进行全细胞蛋白的非标记定量分析。本发明中，所述全细胞蛋白的定量分析优选为：主要利用X！Tandem数据库检索引擎进行蛋白定量检索，根据所述定量检索的结果，采用统计谱图数的方法进行蛋白定量统计。

下面结合实施例对本发明提供的一种快速自动分析原核生物蛋白质基因组学数据的方法进行详细的说明，但是不能把它们理解为对本发明保护范围的限定。

实施例1和实施例2中质谱数据分别来自已发表的文章[Muller,S.A.,Findeiss,S.,Pernitzsch,S.R.,Wissenbach,D.K.,Stadler,P.F.,Hofacker,I.L.,von Bergen,M.,and Kalkhof,S,“Identification ofnew protein coding sequences and signalpeptidase cleavage sites of Helicobacter pylori strain 26695byproteogenomics”,Journal ofproteomics,2013,86,27-42]与[Albrethsen,J.,Agner,J.,Piersma,S.R.,Hojrup,P.,Pham,T.V.,Weldingh,K.,Jimenez,C.R.,Andersen,P.,andRosenkrands,I.,“Proteomic Profiling of Mycobacterium tuberculosis IdentifiesNutrient-starvation-responsive Toxin-antitoxin Systems”,Molecular&CellularProteomics,2013,12,1180-1191]。

实施例1幽门螺杆菌新编码基因与翻译后修饰的大规模鉴定，步骤如下：

1)从NCBI网站下载幽门螺杆菌全基因组序列，转录组序列，GFF格式文件，GBK格式文件，蛋白质组的蛋白库序列(1469个已知的蛋白序列)，本发明运用perl语言程序，按照六阅读/三阅读框翻译的方法，翻译得到蛋白库文件；再利用ProteoWizard将原始数据转化为标准的mgf格式文件；最后统一配置检索引擎搜库参数。

2)五种不同算法的检索引擎自动进行搜库检索，并进行新基因与结构改变的基因的鉴定，如表1所示，通过本发明的方法，共鉴定到40个新基因与4个N末端延长的基因，包括了317个新的unique肽段；本方法得到的鉴定结果与原文献鉴定的结果进行比较，新肽段与新基因的鉴定数目都有很大的提高，比较结果见表1。

表1 本发明与常规方法鉴定到的新基因与结构改变的基因的数目比较

3)本方法自动利用MODa与InspecT数据库检索引擎，进行蛋白质翻译后修饰检索，并根据Unimod数据库(www.unimod.org)，对翻译后修饰类型进行匹配，共鉴定到307种不同的蛋白质翻译后修饰种类，结果见表2。

表2 本发明大规模鉴定到的蛋白质翻译后修饰种类

实施例2

结核分枝杆菌新编码基因与蛋白质非标记定量分析，步骤如下：

1)采用与实施例1同样的方法，提供结核分枝杆菌全基因组序列，转录组序列，GFF格式文件，GBK格式文件，蛋白质组的蛋白库序列，本发明运用perl语言程序，按照六阅读和三阅读框翻译的方法，翻译得到蛋白库文件；再利用ProteoWizard将原始数据转化为标准的mgf格式文件；最后统一配置检索引擎搜库参数。

2)五种不同算法的检索引擎自动进行搜库检索，并进行新基因与结构改变的基因的鉴定，如表3所示，通过本发明的方法，共鉴定到10个新基因与9个N末端延长的基因，包括了559个新的unique肽段；本方法得到的鉴定结果与原文献鉴定的结果进行比较，新肽段与新基因的鉴定数目都有很大的提高。

3)利用ProteoWizard将原始数据转化为另外一种标准的格式文件mzXML，本方法自动利用X！Tandem进行蛋白质定量分析与结果统计，共检测到791个显著变化的基因，其中表达量下调的基因有306个(ratio<0.5)，表达量上调的基因有485个(ratio>1.5)。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当了解，本发明适用于所有原核蛋白质基因组学的数据，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围中。

由以上实施例可知，采用本发明的方法，在新基因与结构改变的基因的鉴定数量方面均有大幅提高，同时还首次鉴定到大规模的蛋白质翻译后修饰，并对蛋白进行了定量分析。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种快速自动分析原核生物蛋白质基因组学数据的方法，其特征在于，步骤如下：

5)对所述步骤4)得到的新基因进行功能注释；

2.根据权利要求1所述的方法，其特征在于，所述步骤1)中基因组、转录组、EST序列以及非编码RNA数据多组学数据进行整合，去除序列相同的冗余数据，构建了蛋白序列数据库。

3.根据权利要求1所述的方法，其特征在于，所述步骤2)中不同算法的数据检索引擎为MSGFPlus、X！Tandem、MSAmanda、OMSSA和Comet的一种或多种。

4.根据权利要求1所述的方法，其特征在于，结合全局FDR和类别FDR筛选策略，所述步骤3)中筛选后的肽段信息为假阳性率<1％的肽段信息，全局FDR筛选策略具体为肽谱匹配水平的FDR值小于1％的肽段信息，类别FDR筛选策略具体为新鉴定到的肽段的FDR值小于1％的肽段信息。

5.根据权利要求1所述的方法，其特征在于，所述步骤4)中新基因与结构改变的基因的鉴定方法具体是：将鉴定到的所有肽段与蛋白质数据库进行全序列比对，能够匹配的肽段为已知的蛋白肽段，不能匹配上的肽段为新肽段，将所述新肽段比对到基因组中，预测新基因的起始与终止位置，并鉴定是否存在已知基因结构的改变。

6.根据权利要求1或4所述的方法，其特征在于，所述步骤4)中新基因的序列以及基因结构改变的序列的鉴定方法具体是：根据新基因的长度，unique肽段数，肽段长度与得分，是否具有起始密码子，是否具有稀有密码子来预测新基因序列以及基因结构改变的序列。

7.根据权利要求6所述的方法，其特征在于，所述unique肽段数为>2，所述起始密码子为ATG、GTG、TTG或CTG，所述起始密码子出现概率：ATG>GTG>TTG>CTG，所述稀有密码子为ATA或ATT。

8.根据权利要求1所述的方法，其特征在于，所述步骤5)中新基因功能注释是通过Uniprot数据库对鉴定到的新基因进行GO功能注释。

9.根据权利要求1所述的方法，其特征在于，所述步骤6)中蛋白质翻译后修饰的大规模鉴定为：主要利用MODa和InspecT数据库行蛋白质翻译后修饰检索，再利用Unimod数据库对翻译后修饰类型进行匹配。

10.根据权利要求1所述的方法，其特征在于，所述步骤7)中全细胞蛋白的定量分析为：主要利用X！Tandem数据库检索引擎进行蛋白定量检索，根据所述定量检索的结果，采用统计谱图数的方法进行蛋白定量统计。