CN106404878A

CN106404878A - 基于多组学丰度信息的蛋白质二级质谱鉴定方法

Info

Publication number: CN106404878A
Application number: CN201610737420.7A
Authority: CN
Inventors: 谢尚潜; 肖传乐; 谢志
Original assignee: Zhongshan Ophthalmic Center
Current assignee: Zhongshan Ophthalmic Center
Priority date: 2016-08-26
Filing date: 2016-08-26
Publication date: 2017-02-15
Anticipated expiration: 2036-08-26
Also published as: CN106404878B

Abstract

本发明公开了一种基于多组学丰度信息的蛋白质二级质谱鉴定方法。该基于多组学丰度信息的蛋白质二级质谱鉴定方法包括如下步骤：1)利用转录组或翻译组多组学的丰度信息数据和实验图谱数据的初步鉴定结果，构建初步鉴定蛋白和多组学丰度信息的对应关系；2)通过初步关系评估多组学丰度信息的蛋白鉴定能力；3)将多组学丰度信息的蛋白鉴定能力融入到实验图谱和理论图谱的肽段打分中，选择得分最高的肽段作为此实验图谱的最终鉴定结果。基于多组学丰度信息的蛋白质二级质谱鉴定方法的鉴定有效质谱量和蛋白质肽段数均高于目前的算法，同时能多核并行快速运行，鉴定效率大大提高。

Description

基于多组学丰度信息的蛋白质二级质谱鉴定方法

技术领域

本发明涉及蛋白质二级质谱鉴定领域，特别是涉及一种基于多组学丰度信息的蛋白质二级质谱鉴定方法。

背景技术

蛋白质鉴定是蛋白质组学研究的基本问题，也是深入进行蛋白质表达分析，功能和互作等相关研究的重要基础。串联质谱技术(Tandem Mass Spectrometry,MS/MS)以高灵敏和高通量等特点使蛋白质大规模鉴定成为可能，并逐渐成为蛋白质鉴定的主流方法。串联质谱方法通过确定肽段氨基酸序列而鉴定蛋白质，因此蛋白质鉴定实质上是肽段的鉴定。数据库搜索方法是目前最广泛使用的肽段鉴定方法，其通过实验图谱和数据库中肽段的理论图谱进行匹配打分，将得分最高的理论图谱肽段作为实验图谱的肽段鉴定结果(图1)。在鉴定过程中，构建匹配打分模型是数据库搜索方法的核心，常见的打分模型主要考虑实验图谱的自身特征信息，如匹配峰数目、碎片离子峰强度和m/z误差识别能力等。目前高通量实验图谱本身能被鉴定到的图谱比例不高(约25％左右)是蛋白质鉴定研究中普遍存在的一个问题。

发明内容

基于此，有必要提供一种能多核并行快速运行，鉴定效率提高的基于多组学丰度信息的蛋白质二级质谱鉴定方法。

一种基于多组学丰度信息的蛋白质二级质谱鉴定方法，包括如下步骤：

(1)将转录组或翻译组的二代测序碱基序列定位到参考基因组，根据定位到的位置获得每个基因的丰度信息；

(2)将蛋白质的质谱实验图谱利用Proverb蛋白鉴定方法进行初步鉴定，统计每个蛋白的初步鉴定结果；

(3)根据基因注释信息将基因和蛋白名称一一匹配，确定基因不同程度丰度信息初步鉴定蛋白数目，并计算得到每个丰度区间的初步蛋白的鉴定概率；

(4)对丰度区间的丰度值和初步蛋白鉴定概率构建丰度信息的蛋白鉴定能力模型，根据模型获得每个基因对应丰度信息的蛋白鉴定能力；

(5)在蛋白质谱的实验图谱与理论图谱的打分中融入蛋白相应基因的蛋白鉴定能力，将每张实验图谱的在理论图谱中的所有匹配得分进行排序，选择最高得分的肽段作为图谱鉴定结果，并对结果进行质量控制。

在其中一个实施例中，步骤(1)所述的将转录组或翻译组的二代测序碱基序列定位到参考基因组，根据定位到的位置获得每个基因的丰度信息，具体包括如下步骤：

(2.1)利用Fanse2软件获得多组学序列的比对结果信息，包括正反链、染色体名称和染色体位置信息，分别记为r_strand、r_chrom和r_pos，提取所有已知基因注释信息的染色体名、起始位置、终止位置和正反链，记为g_chrom、g_start、g_end和g_strand；

(2.2)初始化每个基因的比对结果存储数组gene_read＝0，读取一个序列的r_strand、r_chrom和r_pos信息，把该序列的信息与所有基因的信息比较，判断该序列是否位于基因上；如果以下三个条件的同时成立，则认为序列位于基因上，此时该基因的gene_read数加1；三个条件如下：r_strand＝g_strand；r_chrom＝g_chrom；r_pos>＝g_start并且r_pos<＝g_end；

(2.3)逐个读取序列的信息，重复步骤2)直到处理一个样本的所有比对序列信息，其基因的存储数组中的值即为比对到各个基因上的序列数记为g_read，将数组的所有值累加即为总的序列比对数记为R_mapped，根据以下公式计算多组学基因的丰度信息FPKM值：FPKM＝g_read×10⁹/(R_mapped×g_length)，其中基因长度g_length＝g_end–g_start。

在其中一个实施例中，步骤(3)具体包括如下步骤：

(3.1)匹配利用Proverb方法鉴定到的蛋白和基因，得到每个基因对应蛋白的丰度信息FPKM值；

(3.2)将丰度信息值分为步长为1的300等分区间，计算每个区间中初步鉴定到的蛋白个数，第i个区间的鉴定到蛋白个数记为Ni，初步鉴定到的所有蛋白数记为Nt，把鉴定到的蛋白个数(Ni)比上所有蛋白数(Nt)即为每个丰度信息区间的蛋白鉴定概率，计算方法为：Ni/Nt。

4、根据权利要求1所述的基于多组学丰度信息的蛋白质二级质谱鉴定方法，其特征在于，步骤(4)具体包括如下步骤：

(4.1)根据步骤(3)中每个区间的FPKM值和蛋白鉴定概率值建立两者关系的统计定量化模型，模型的关系式如下：

其中x为基因的丰度信息FPKM值，y为相应FPKM值的蛋白鉴定概率；当x值大于L(L＝300)时，取x恒等于300；

(4.2)统计每一基因的FPKM值，并将其FPKM值代入步骤(4.1)中的关系模型中，根据计算获得的y值定量化基因丰度信息的蛋白鉴定能力。

在其中一个实施例中，步骤(5)所述的打分过程具体包括如下步骤：

(5.1)逐个读取实验图谱峰信息判断理论图谱和实验图谱是否匹配，如果理论图谱和实验图谱对应峰的荷质比之差小于等于质谱仪的测量误差，则认为这个峰匹配，之后记录其匹配的信息；

(5.2)设E为产生的理论碎片个数，K为理论图谱和实验图谱的匹配个数，Q代表随机匹配概率事件，i为随机匹配概率，r为多组学丰度信息的先验概率，P为E个理论峰中有K个峰匹配的概率；则P由下面二项式分别概率密度函数计算：

其中factor＝全局相对高峰个数/实验图谱的峰范围；

(5.3)待分析实验图谱和理论图谱进行连续匹配峰的打分，设E1为理论图谱产生的理论连续匹配个数，K1为实验图谱实际连续匹配的个数，B_factor为背景值，B_factor＝统计大量实验图谱连续匹配的平均值/统计大量对应理论图谱连续匹配的平均值，Q1反映了某一图谱在步骤(5.2)匹配情况下连续匹配的概率，P1在E1个理论连续匹配个数中实际存有K1个连续匹配的概率，由下面二项式分布概率密度函数计算：

所述待分析实验图谱和理论图谱连续匹配个数具体是指图谱中两两连续匹配的对数；

(5.4)对匹配峰强度信息进行分析，求得强度因子，具体过程为：

设M_I为统计所有实验图谱中某两个氨基酸产生的峰大于等于最强峰的33％的个数，设M_E为期望总的离子的个数，则两个氨基酸中间的断裂概率Yi通过下式得到：

Yi＝M_I/M_E；

进而得到强度因子Infactor为(1+Ym+Bm)/(1+0.155*m_p)，其中Ym＝∑Yi，Bm＝∑Bi；Ym和Bm分别为实验图谱强度大于全局最强峰的33％的匹配峰Yi和Bi分值之和；m_p为一张实验图谱中强度大于最强峰的33％的匹配个数；0.155是理论平均匹配值；

(5.5)结合上述步骤(5.2)，(5.3)和(5.4)的打分方法，采用下面公式得到肽段的得分：

PEP_S＝Infactor*(-10)*log₁₀(P*P1)；

(5.6)对计算的PEP_S分数去除背景值，首先设在真实库和随机库统计概率相等的背景值为其在某种情况下的背景值B_B，背景值B_B是经过贝叶斯网络学习得到的，计算去背景值肽段得分PEP_S_M：

PEP_S_M＝PEP_S-B_B；

(5.7)取出下一个肽段，重复执行步骤(5.1)-(5.6)，直到符合此图谱母离子误差的所有肽段均被打分处理；

(5.8)对此图谱所有候选肽段的得分PEP_S_M进行排序，得分最高理论肽段作为当前图谱的鉴定结果。

在其中一个实施例中，步骤(5)所述的鉴定结果采用FDR<＝0.01进行质量控制，得出最终鉴定结果。

在其中一个实施例中，所述质量控制具体包括如下步骤：

1)统计待分析图谱所有二级图谱中的鉴定结果肽段得分最小值和最大值；

2)统计在最小值和最大值之间，其中大于每个分值的鉴定结果中真实库和随机库肽段的个数，并计算每个分值为阀值时的FDR的值；

3)按得分值从小到大寻找每个分值，直到找到FDR<＝0.01时，此分值为待分析图谱的整体阀值；

4)根据步骤3)找到整体阀值，以此阀值过滤待分析图谱的鉴定结果，小于此阀值的结果被过滤掉，其结果作为待分析图谱的最终鉴定结果。

本发明涉及的基于多组学丰度信息的蛋白质二级质谱鉴定方法具有如下的优点及效果：

(1)本发明主要对生物质谱产生的二级质谱数据进行解释和鉴定，在鉴定过程中充分利用转录组和翻译组多组学的先验丰度信息，其鉴定有效质谱的数量和蛋白质肽段数量均高于目前常用的算法和软件，其中Mascot是现在最广泛使用的二级质谱鉴定方法，本发明的鉴定结果要优于Mascot。

(2)本发明方法的打分模型主要是基于二项式分布统计模型，但在打分模型中融入了转录组和翻译组先验概率的全新打分模型。其方法在考虑匹配、连续匹配以及b,y离子匹配的基础上考虑多组学的先验蛋白鉴定能力信息，完全有区别于以前仅利用质谱实验图谱信息的方法。

(3)本发明方法在实现中建立了动态的翻译后修饰检索方法，可以动态设置230多种翻译后修饰，节约大量蛋白质数据库检索的空间；同时本发明利用并行机制建立多核运算，使高通量蛋白质质谱鉴定更加快速和高效。

附图说明

图1为二级质谱鉴定的基本流程图；

图2为本发明一实施例基于多组学丰度信息的蛋白质二级质谱鉴定方法基本流程图。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。

本实施例涉及了一种基于多组学丰度信息的蛋白质二级质谱鉴定方法。

参见图2所示，该基于多组学丰度信息的蛋白质二级质谱鉴定方法包括以下步骤：

(1)将转录组或翻译组的二代测序碱基序列定位到参考基因组，根据定位到的位置获得每个基因的丰度信息。

(2)将蛋白质的质谱实验图谱利用Proverb蛋白鉴定方法进行初步鉴定，统计每个蛋白的初步鉴定结果。

(3)根据基因注释信息将基因和蛋白名称一一匹配，确定基因不同程度丰度信息初步鉴定蛋白数目，并计算得到每个丰度区间的初步蛋白的鉴定概率。

(4)对丰度区间的丰度值和初步蛋白鉴定概率构建丰度信息的蛋白鉴定能力模型，根据模型获得每个基因对应丰度信息的蛋白鉴定能力。

(5)在蛋白质谱的实验图谱与理论图谱的打分中融入蛋白相应基因的蛋白鉴定能力，将每张实验图谱的在理论图谱中的所有匹配得分进行排序，选择最高得分的肽段作为本发明方法的图谱鉴定结果，并对结果进行质量控制。

本发明所述步骤(1)中将多组学数据比对到参考基因组的具体步骤如下：

(1.1)利用Fanse2软件获得多组学序列的比对结果信息，如表1所示：包括正反链、染色体名称和染色体位置信息，分别记为r_strand、r_chrom和r_pos，提取所有已知基因注释信息的染色体名、起始位置、终止位置和正反链，如表2所示：包括基因所在染色体、基因起始位置、终止位置以及正反链信息，记为g_chrom、g_start、g_end和g_strand。

表1.多组学序列比对参考基因组的结果

表2.注释基因的详细信息

(1.2)初始化每个基因的比对结果存储数组gene_read＝0，读取一个序列的r_strand、r_chrom和r_pos信息，把该序列的信息与所有基因的信息比较，判断该序列是否位于基因上。如果以下三个条件的同时成立，则认为序列位于基因上，此时该基因的gene_read数加1。三个条件如下：r_strand＝g_strand；r_chrom＝g_chrom；r_pos>＝g_start并且r_pos<＝g_end。

(1.3)逐个读取序列的信息，重复步骤(1.2)直到处理一个样本的所有比对序列信息，其基因的存储数组中的值即为比对到各个基因上的序列数记为g_read，将数组的所有值累加即为总的序列比对数记为R_mapped，根据以下公式计算多组学基因的丰度信息FPKM值：FPKM＝g_read×10⁹/(R_mapped×g_length)，其中基因长度g_length＝g_end–g_start。

依次根据步骤(1.3)的计算方式获得每个基因的丰度信息FPKM值。

所述步骤(2)利用Proverb统计真实鉴定到的蛋白作为初步鉴定蛋白用于构建对应基因丰度信息的关系模型，proverb鉴定结果如表3所示：

表3.Proverb初步真实蛋白统计结果

所述步骤(3)具体包括如下步骤：

(3.1)逐一匹配Proverb方法鉴定到的蛋白和基因，得到每个基因对应蛋白的丰度信息FPKM值；如gene20002在多组学比对结果中的丰度信息FPKM值为5.6，则认为相应的蛋白NP_068533.1的先验丰度信息为5.6。

(3.2)将所有基因的对应丰度信息FPKM值分为步长为1的300等分区间，计算每个区间中初步鉴定到的蛋白个数，第i个区间的鉴定到蛋白个数记为Ni，初步鉴定到的所有蛋白数记为Nt。把鉴定到的蛋白个数(Ni)比上所有蛋白数(Nt)即为每个丰度信息区间的蛋白鉴定概率，计算方法为：Ni/Nt。如gene20002的FPKM值为5.6，则将gene20002划分到第5个区间，而第5个区间包含了FPKM处于5-6之间的所有基因。相应的鉴定蛋白概率为相应基因的真实蛋白的个数/总蛋白的个数。300个FPKM区间对应的蛋白鉴定概率如表4所示：

表4.FPKM300区间对应的蛋白鉴定概率

所述步骤(4)建立真实蛋白和FPKM关系模型具体包括如下步骤：

(4.1)根据步骤(3)中每个区间的FPKM值和蛋白鉴定概率值建立两者关系的统计定量化模型，模型的关系式如下：y＝0.0425*log10(x)+0.3193；

其中x为基因的丰度信息FPKM值，y为相应FPKM值的蛋白鉴定概率。当x值大于300时，y＝0.0425*log10(300)+0.3193。

(4.2)统计每一基因的FPKM值，并将其FPKM值代入步骤(4.1)中的关系模型，根据计算获得的y值定量化基因丰度信息FPKM的蛋白鉴定能力。

所述步骤(5)具体的匹配打分过程包括：

其中factor＝全局相对高峰个数/实验图谱的峰范围；

Yi＝M_I/M_E；

(5.5)结合上述步骤(5.2)，步骤(5.3)和步骤(5.4)的打分方法，采用下面公式得到肽段的得分：

PEP_S＝Infactor*(-10)*log₁₀(P*P1)；

PEP_S_M＝PEP_S-B_B；

所述步骤(5)针对所有实验图谱鉴定结果进行整体假阳性控制，具体包括以下步骤：

4)根据步骤3)找到整体阀值，以此阀值过滤待分析图谱的鉴定结果，也就是说小于此阀值的结果被过滤掉，其结果作为待分析图谱的最终鉴定结果。

本实施例涉及的基于多组学丰度信息的蛋白质二级质谱鉴定方法具有如下的优点及效果：

(1)本实施例涉及的基于多组学丰度信息的蛋白质二级质谱鉴定方法主要对生物质谱产生的二级质谱数据进行解释和鉴定，在鉴定过程中充分利用转录组和翻译组多组学的先验丰度信息，其鉴定有效质谱的数量和蛋白质肽段数量均高于目前常用的算法和软件，其中Mascot是现在最广泛使用的二级质谱鉴定方法，本发明的鉴定结果要优于Mascot。

(2)本实施例涉及的基于多组学丰度信息的蛋白质二级质谱鉴定方法的打分模型主要是基于二项式分布统计模型，但在打分模型中融入了转录组和翻译组先验概率的全新打分模型。其方法在考虑匹配、连续匹配以及b,y离子匹配的基础上考虑多组学的先验蛋白鉴定能力信息，完全有区别于以前仅利用质谱实验图谱信息的方法。

(3)本实施例涉及的基于多组学丰度信息的蛋白质二级质谱鉴定方法在实现中建立了动态的翻译后修饰检索方法，可以动态设置230多种翻译后修饰，节约大量蛋白质数据库检索的空间；同时本发明利用并行机制建立多核运算，使高通量蛋白质质谱鉴定更加快速和高效。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于多组学丰度信息的蛋白质二级质谱鉴定方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于多组学丰度信息的蛋白质二级质谱鉴定方法，其特征在于，步骤(1)所述的将转录组或翻译组的二代测序碱基序列定位到参考基因组，根据定位到的位置获得每个基因的丰度信息，具体包括如下步骤：

3.根据权利要求1所述的基于多组学丰度信息的蛋白质二级质谱鉴定方法，其特征在于，步骤(3)具体包括如下步骤：

4.根据权利要求1所述的基于多组学丰度信息的蛋白质二级质谱鉴定方法，其特征在于，步骤(4)具体包括如下步骤：

y = \{\begin{matrix} a \cdot l o g (x) + b & x \leq L \\ a \cdot l o g (L) + b & x > L \end{matrix}

5.根据权利要求1所述的基于多组学丰度信息的蛋白质二级质谱鉴定方法，其特征在于，步骤(5)所述的打分过程具体包括如下步骤：

\{\begin{matrix} Q = (i + f a c t o r) \cdot (1 - r) \\ P = (\begin{matrix} K \\ E \end{matrix}) Q^{K} {(1 - Q)}^{E - K} \end{matrix}

其中factor＝全局相对高峰个数/实验图谱的峰范围；

\{\begin{matrix} Q 1 = (B_f a c t o r) \cdot (1 - r) \cdot K / E \\ P 1 = (\begin{matrix} K 1 \\ E 1 \end{matrix}) Q 1^{K 1} {(1 - Q 1)}^{E 1 - K 1} \end{matrix}

Yi＝M_I/M_E；

PEP_S＝Infactor*(-10)*log₁₀(P*P1)；

PEP_S_M＝PEP_S-B_B；

6.根据权利要求1所述的基于多组学丰度信息的蛋白质二级质谱鉴定方法，其特征在于，步骤(5)所述的鉴定结果采用FDR<＝0.01进行质量控制，得出最终鉴定结果。

7.根据权利要求6所述的基于多组学丰度信息的蛋白质二级质谱鉴定方法，其特征在于，所述质量控制具体包括如下步骤：