CN106404878A - 基于多组学丰度信息的蛋白质二级质谱鉴定方法 - Google Patents

基于多组学丰度信息的蛋白质二级质谱鉴定方法 Download PDF

Info

Publication number
CN106404878A
CN106404878A CN201610737420.7A CN201610737420A CN106404878A CN 106404878 A CN106404878 A CN 106404878A CN 201610737420 A CN201610737420 A CN 201610737420A CN 106404878 A CN106404878 A CN 106404878A
Authority
CN
China
Prior art keywords
gene
identification
collection
illustrative plates
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610737420.7A
Other languages
English (en)
Other versions
CN106404878B (zh
Inventor
谢尚潜
肖传乐
谢志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongshan Ophthalmic Center
Original Assignee
Zhongshan Ophthalmic Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongshan Ophthalmic Center filed Critical Zhongshan Ophthalmic Center
Priority to CN201610737420.7A priority Critical patent/CN106404878B/zh
Publication of CN106404878A publication Critical patent/CN106404878A/zh
Application granted granted Critical
Publication of CN106404878B publication Critical patent/CN106404878B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6803General methods of protein analysis not limited to specific proteins or families of proteins
    • G01N33/6848Methods of protein analysis involving mass spectrometry

Abstract

本发明公开了一种基于多组学丰度信息的蛋白质二级质谱鉴定方法。该基于多组学丰度信息的蛋白质二级质谱鉴定方法包括如下步骤:1)利用转录组或翻译组多组学的丰度信息数据和实验图谱数据的初步鉴定结果,构建初步鉴定蛋白和多组学丰度信息的对应关系;2)通过初步关系评估多组学丰度信息的蛋白鉴定能力;3)将多组学丰度信息的蛋白鉴定能力融入到实验图谱和理论图谱的肽段打分中,选择得分最高的肽段作为此实验图谱的最终鉴定结果。基于多组学丰度信息的蛋白质二级质谱鉴定方法的鉴定有效质谱量和蛋白质肽段数均高于目前的算法,同时能多核并行快速运行,鉴定效率大大提高。

Description

基于多组学丰度信息的蛋白质二级质谱鉴定方法
技术领域
本发明涉及蛋白质二级质谱鉴定领域,特别是涉及一种基于多组学丰度信息的蛋白质二级质谱鉴定方法。
背景技术
蛋白质鉴定是蛋白质组学研究的基本问题,也是深入进行蛋白质表达分析,功能和互作等相关研究的重要基础。串联质谱技术(Tandem Mass Spectrometry,MS/MS)以高灵敏和高通量等特点使蛋白质大规模鉴定成为可能,并逐渐成为蛋白质鉴定的主流方法。串联质谱方法通过确定肽段氨基酸序列而鉴定蛋白质,因此蛋白质鉴定实质上是肽段的鉴定。数据库搜索方法是目前最广泛使用的肽段鉴定方法,其通过实验图谱和数据库中肽段的理论图谱进行匹配打分,将得分最高的理论图谱肽段作为实验图谱的肽段鉴定结果(图1)。在鉴定过程中,构建匹配打分模型是数据库搜索方法的核心,常见的打分模型主要考虑实验图谱的自身特征信息,如匹配峰数目、碎片离子峰强度和m/z误差识别能力等。目前高通量实验图谱本身能被鉴定到的图谱比例不高(约25%左右)是蛋白质鉴定研究中普遍存在的一个问题。
发明内容
基于此,有必要提供一种能多核并行快速运行,鉴定效率提高的基于多组学丰度信息的蛋白质二级质谱鉴定方法。
一种基于多组学丰度信息的蛋白质二级质谱鉴定方法,包括如下步骤:
(1)将转录组或翻译组的二代测序碱基序列定位到参考基因组,根据定位到的位置获得每个基因的丰度信息;
(2)将蛋白质的质谱实验图谱利用Proverb蛋白鉴定方法进行初步鉴定,统计每个蛋白的初步鉴定结果;
(3)根据基因注释信息将基因和蛋白名称一一匹配,确定基因不同程度丰度信息初步鉴定蛋白数目,并计算得到每个丰度区间的初步蛋白的鉴定概率;
(4)对丰度区间的丰度值和初步蛋白鉴定概率构建丰度信息的蛋白鉴定能力模型,根据模型获得每个基因对应丰度信息的蛋白鉴定能力;
(5)在蛋白质谱的实验图谱与理论图谱的打分中融入蛋白相应基因的蛋白鉴定能力,将每张实验图谱的在理论图谱中的所有匹配得分进行排序,选择最高得分的肽段作为图谱鉴定结果,并对结果进行质量控制。
在其中一个实施例中,步骤(1)所述的将转录组或翻译组的二代测序碱基序列定位到参考基因组,根据定位到的位置获得每个基因的丰度信息,具体包括如下步骤:
(2.1)利用Fanse2软件获得多组学序列的比对结果信息,包括正反链、染色体名称和染色体位置信息,分别记为r_strand、r_chrom和r_pos,提取所有已知基因注释信息的染色体名、起始位置、终止位置和正反链,记为g_chrom、g_start、g_end和g_strand;
(2.2)初始化每个基因的比对结果存储数组gene_read=0,读取一个序列的r_strand、r_chrom和r_pos信息,把该序列的信息与所有基因的信息比较,判断该序列是否位于基因上;如果以下三个条件的同时成立,则认为序列位于基因上,此时该基因的gene_read数加1;三个条件如下:r_strand=g_strand;r_chrom=g_chrom;r_pos>=g_start并且r_pos<=g_end;
(2.3)逐个读取序列的信息,重复步骤2)直到处理一个样本的所有比对序列信息,其基因的存储数组中的值即为比对到各个基因上的序列数记为g_read,将数组的所有值累加即为总的序列比对数记为R_mapped,根据以下公式计算多组学基因的丰度信息FPKM值:FPKM=g_read×109/(R_mapped×g_length),其中基因长度g_length=g_end–g_start。
在其中一个实施例中,步骤(3)具体包括如下步骤:
(3.1)匹配利用Proverb方法鉴定到的蛋白和基因,得到每个基因对应蛋白的丰度信息FPKM值;
(3.2)将丰度信息值分为步长为1的300等分区间,计算每个区间中初步鉴定到的蛋白个数,第i个区间的鉴定到蛋白个数记为Ni,初步鉴定到的所有蛋白数记为Nt,把鉴定到的蛋白个数(Ni)比上所有蛋白数(Nt)即为每个丰度信息区间的蛋白鉴定概率,计算方法为:Ni/Nt。
4、根据权利要求1所述的基于多组学丰度信息的蛋白质二级质谱鉴定方法,其特征在于,步骤(4)具体包括如下步骤:
(4.1)根据步骤(3)中每个区间的FPKM值和蛋白鉴定概率值建立两者关系的统计定量化模型,模型的关系式如下:
其中x为基因的丰度信息FPKM值,y为相应FPKM值的蛋白鉴定概率;当x值大于L(L=300)时,取x恒等于300;
(4.2)统计每一基因的FPKM值,并将其FPKM值代入步骤(4.1)中的关系模型中,根据计算获得的y值定量化基因丰度信息的蛋白鉴定能力。
在其中一个实施例中,步骤(5)所述的打分过程具体包括如下步骤:
(5.1)逐个读取实验图谱峰信息判断理论图谱和实验图谱是否匹配,如果理论图谱和实验图谱对应峰的荷质比之差小于等于质谱仪的测量误差,则认为这个峰匹配,之后记录其匹配的信息;
(5.2)设E为产生的理论碎片个数,K为理论图谱和实验图谱的匹配个数,Q代表随机匹配概率事件,i为随机匹配概率,r为多组学丰度信息的先验概率,P为E个理论峰中有K个峰匹配的概率;则P由下面二项式分别概率密度函数计算:
其中factor=全局相对高峰个数/实验图谱的峰范围;
(5.3)待分析实验图谱和理论图谱进行连续匹配峰的打分,设E1为理论图谱产生的理论连续匹配个数,K1为实验图谱实际连续匹配的个数,B_factor为背景值,B_factor=统计大量实验图谱连续匹配的平均值/统计大量对应理论图谱连续匹配的平均值,Q1反映了某一图谱在步骤(5.2)匹配情况下连续匹配的概率,P1在E1个理论连续匹配个数中实际存有K1个连续匹配的概率,由下面二项式分布概率密度函数计算:
所述待分析实验图谱和理论图谱连续匹配个数具体是指图谱中两两连续匹配的对数;
(5.4)对匹配峰强度信息进行分析,求得强度因子,具体过程为:
设M_I为统计所有实验图谱中某两个氨基酸产生的峰大于等于最强峰的33%的个数,设M_E为期望总的离子的个数,则两个氨基酸中间的断裂概率Yi通过下式得到:
Yi=M_I/M_E;
进而得到强度因子Infactor为(1+Ym+Bm)/(1+0.155*m_p),其中Ym=∑Yi,Bm=∑Bi;Ym和Bm分别为实验图谱强度大于全局最强峰的33%的匹配峰Yi和Bi分值之和;m_p为一张实验图谱中强度大于最强峰的33%的匹配个数;0.155是理论平均匹配值;
(5.5)结合上述步骤(5.2),(5.3)和(5.4)的打分方法,采用下面公式得到肽段的得分:
PEP_S=Infactor*(-10)*log10(P*P1);
(5.6)对计算的PEP_S分数去除背景值,首先设在真实库和随机库统计概率相等的背景值为其在某种情况下的背景值B_B,背景值B_B是经过贝叶斯网络学习得到的,计算去背景值肽段得分PEP_S_M:
PEP_S_M=PEP_S-B_B;
(5.7)取出下一个肽段,重复执行步骤(5.1)-(5.6),直到符合此图谱母离子误差的所有肽段均被打分处理;
(5.8)对此图谱所有候选肽段的得分PEP_S_M进行排序,得分最高理论肽段作为当前图谱的鉴定结果。
在其中一个实施例中,步骤(5)所述的鉴定结果采用FDR<=0.01进行质量控制,得出最终鉴定结果。
在其中一个实施例中,所述质量控制具体包括如下步骤:
1)统计待分析图谱所有二级图谱中的鉴定结果肽段得分最小值和最大值;
2)统计在最小值和最大值之间,其中大于每个分值的鉴定结果中真实库和随机库肽段的个数,并计算每个分值为阀值时的FDR的值;
3)按得分值从小到大寻找每个分值,直到找到FDR<=0.01时,此分值为待分析图谱的整体阀值;
4)根据步骤3)找到整体阀值,以此阀值过滤待分析图谱的鉴定结果,小于此阀值的结果被过滤掉,其结果作为待分析图谱的最终鉴定结果。
本发明涉及的基于多组学丰度信息的蛋白质二级质谱鉴定方法具有如下的优点及效果:
(1)本发明主要对生物质谱产生的二级质谱数据进行解释和鉴定,在鉴定过程中充分利用转录组和翻译组多组学的先验丰度信息,其鉴定有效质谱的数量和蛋白质肽段数量均高于目前常用的算法和软件,其中Mascot是现在最广泛使用的二级质谱鉴定方法,本发明的鉴定结果要优于Mascot。
(2)本发明方法的打分模型主要是基于二项式分布统计模型,但在打分模型中融入了转录组和翻译组先验概率的全新打分模型。其方法在考虑匹配、连续匹配以及b,y离子匹配的基础上考虑多组学的先验蛋白鉴定能力信息,完全有区别于以前仅利用质谱实验图谱信息的方法。
(3)本发明方法在实现中建立了动态的翻译后修饰检索方法,可以动态设置230多种翻译后修饰,节约大量蛋白质数据库检索的空间;同时本发明利用并行机制建立多核运算,使高通量蛋白质质谱鉴定更加快速和高效。
附图说明
图1为二级质谱鉴定的基本流程图;
图2为本发明一实施例基于多组学丰度信息的蛋白质二级质谱鉴定方法基本流程图。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。
本实施例涉及了一种基于多组学丰度信息的蛋白质二级质谱鉴定方法。
参见图2所示,该基于多组学丰度信息的蛋白质二级质谱鉴定方法包括以下步骤:
(1)将转录组或翻译组的二代测序碱基序列定位到参考基因组,根据定位到的位置获得每个基因的丰度信息。
(2)将蛋白质的质谱实验图谱利用Proverb蛋白鉴定方法进行初步鉴定,统计每个蛋白的初步鉴定结果。
(3)根据基因注释信息将基因和蛋白名称一一匹配,确定基因不同程度丰度信息初步鉴定蛋白数目,并计算得到每个丰度区间的初步蛋白的鉴定概率。
(4)对丰度区间的丰度值和初步蛋白鉴定概率构建丰度信息的蛋白鉴定能力模型,根据模型获得每个基因对应丰度信息的蛋白鉴定能力。
(5)在蛋白质谱的实验图谱与理论图谱的打分中融入蛋白相应基因的蛋白鉴定能力,将每张实验图谱的在理论图谱中的所有匹配得分进行排序,选择最高得分的肽段作为本发明方法的图谱鉴定结果,并对结果进行质量控制。
本发明所述步骤(1)中将多组学数据比对到参考基因组的具体步骤如下:
(1.1)利用Fanse2软件获得多组学序列的比对结果信息,如表1所示:包括正反链、染色体名称和染色体位置信息,分别记为r_strand、r_chrom和r_pos,提取所有已知基因注释信息的染色体名、起始位置、终止位置和正反链,如表2所示:包括基因所在染色体、基因起始位置、终止位置以及正反链信息,记为g_chrom、g_start、g_end和g_strand。
表1.多组学序列比对参考基因组的结果
表2.注释基因的详细信息
(1.2)初始化每个基因的比对结果存储数组gene_read=0,读取一个序列的r_strand、r_chrom和r_pos信息,把该序列的信息与所有基因的信息比较,判断该序列是否位于基因上。如果以下三个条件的同时成立,则认为序列位于基因上,此时该基因的gene_read数加1。三个条件如下:r_strand=g_strand;r_chrom=g_chrom;r_pos>=g_start并且r_pos<=g_end。
(1.3)逐个读取序列的信息,重复步骤(1.2)直到处理一个样本的所有比对序列信息,其基因的存储数组中的值即为比对到各个基因上的序列数记为g_read,将数组的所有值累加即为总的序列比对数记为R_mapped,根据以下公式计算多组学基因的丰度信息FPKM值:FPKM=g_read×109/(R_mapped×g_length),其中基因长度g_length=g_end–g_start。
依次根据步骤(1.3)的计算方式获得每个基因的丰度信息FPKM值。
所述步骤(2)利用Proverb统计真实鉴定到的蛋白作为初步鉴定蛋白用于构建对应基因丰度信息的关系模型,proverb鉴定结果如表3所示:
表3.Proverb初步真实蛋白统计结果
所述步骤(3)具体包括如下步骤:
(3.1)逐一匹配Proverb方法鉴定到的蛋白和基因,得到每个基因对应蛋白的丰度信息FPKM值;如gene20002在多组学比对结果中的丰度信息FPKM值为5.6,则认为相应的蛋白NP_068533.1的先验丰度信息为5.6。
(3.2)将所有基因的对应丰度信息FPKM值分为步长为1的300等分区间,计算每个区间中初步鉴定到的蛋白个数,第i个区间的鉴定到蛋白个数记为Ni,初步鉴定到的所有蛋白数记为Nt。把鉴定到的蛋白个数(Ni)比上所有蛋白数(Nt)即为每个丰度信息区间的蛋白鉴定概率,计算方法为:Ni/Nt。如gene20002的FPKM值为5.6,则将gene20002划分到第5个区间,而第5个区间包含了FPKM处于5-6之间的所有基因。相应的鉴定蛋白概率为相应基因的真实蛋白的个数/总蛋白的个数。300个FPKM区间对应的蛋白鉴定概率如表4所示:
表4.FPKM300区间对应的蛋白鉴定概率
所述步骤(4)建立真实蛋白和FPKM关系模型具体包括如下步骤:
(4.1)根据步骤(3)中每个区间的FPKM值和蛋白鉴定概率值建立两者关系的统计定量化模型,模型的关系式如下:y=0.0425*log10(x)+0.3193;
其中x为基因的丰度信息FPKM值,y为相应FPKM值的蛋白鉴定概率。当x值大于300时,y=0.0425*log10(300)+0.3193。
(4.2)统计每一基因的FPKM值,并将其FPKM值代入步骤(4.1)中的关系模型,根据计算获得的y值定量化基因丰度信息FPKM的蛋白鉴定能力。
所述步骤(5)具体的匹配打分过程包括:
(5.1)逐个读取实验图谱峰信息判断理论图谱和实验图谱是否匹配,如果理论图谱和实验图谱对应峰的荷质比之差小于等于质谱仪的测量误差,则认为这个峰匹配,之后记录其匹配的信息;
(5.2)设E为产生的理论碎片个数,K为理论图谱和实验图谱的匹配个数,Q代表随机匹配概率事件,i为随机匹配概率,r为多组学丰度信息的先验概率,P为E个理论峰中有K个峰匹配的概率;则P由下面二项式分别概率密度函数计算:
其中factor=全局相对高峰个数/实验图谱的峰范围;
(5.3)待分析实验图谱和理论图谱进行连续匹配峰的打分,设E1为理论图谱产生的理论连续匹配个数,K1为实验图谱实际连续匹配的个数,B_factor为背景值,B_factor=统计大量实验图谱连续匹配的平均值/统计大量对应理论图谱连续匹配的平均值,Q1反映了某一图谱在步骤(5.2)匹配情况下连续匹配的概率,P1在E1个理论连续匹配个数中实际存有K1个连续匹配的概率,由下面二项式分布概率密度函数计算:
所述待分析实验图谱和理论图谱连续匹配个数具体是指图谱中两两连续匹配的对数;
(5.4)对匹配峰强度信息进行分析,求得强度因子,具体过程为:
设M_I为统计所有实验图谱中某两个氨基酸产生的峰大于等于最强峰的33%的个数,设M_E为期望总的离子的个数,则两个氨基酸中间的断裂概率Yi通过下式得到:
Yi=M_I/M_E;
进而得到强度因子Infactor为(1+Ym+Bm)/(1+0.155*m_p),其中Ym=∑Yi,Bm=∑Bi;Ym和Bm分别为实验图谱强度大于全局最强峰的33%的匹配峰Yi和Bi分值之和;m_p为一张实验图谱中强度大于最强峰的33%的匹配个数;0.155是理论平均匹配值;
(5.5)结合上述步骤(5.2),步骤(5.3)和步骤(5.4)的打分方法,采用下面公式得到肽段的得分:
PEP_S=Infactor*(-10)*log10(P*P1);
(5.6)对计算的PEP_S分数去除背景值,首先设在真实库和随机库统计概率相等的背景值为其在某种情况下的背景值B_B,背景值B_B是经过贝叶斯网络学习得到的,计算去背景值肽段得分PEP_S_M:
PEP_S_M=PEP_S-B_B;
(5.7)取出下一个肽段,重复执行步骤(5.1)-(5.6),直到符合此图谱母离子误差的所有肽段均被打分处理;
(5.8)对此图谱所有候选肽段的得分PEP_S_M进行排序,得分最高理论肽段作为当前图谱的鉴定结果。
所述步骤(5)针对所有实验图谱鉴定结果进行整体假阳性控制,具体包括以下步骤:
1)统计待分析图谱所有二级图谱中的鉴定结果肽段得分最小值和最大值;
2)统计在最小值和最大值之间,其中大于每个分值的鉴定结果中真实库和随机库肽段的个数,并计算每个分值为阀值时的FDR的值;
3)按得分值从小到大寻找每个分值,直到找到FDR<=0.01时,此分值为待分析图谱的整体阀值;
4)根据步骤3)找到整体阀值,以此阀值过滤待分析图谱的鉴定结果,也就是说小于此阀值的结果被过滤掉,其结果作为待分析图谱的最终鉴定结果。
本实施例涉及的基于多组学丰度信息的蛋白质二级质谱鉴定方法具有如下的优点及效果:
(1)本实施例涉及的基于多组学丰度信息的蛋白质二级质谱鉴定方法主要对生物质谱产生的二级质谱数据进行解释和鉴定,在鉴定过程中充分利用转录组和翻译组多组学的先验丰度信息,其鉴定有效质谱的数量和蛋白质肽段数量均高于目前常用的算法和软件,其中Mascot是现在最广泛使用的二级质谱鉴定方法,本发明的鉴定结果要优于Mascot。
(2)本实施例涉及的基于多组学丰度信息的蛋白质二级质谱鉴定方法的打分模型主要是基于二项式分布统计模型,但在打分模型中融入了转录组和翻译组先验概率的全新打分模型。其方法在考虑匹配、连续匹配以及b,y离子匹配的基础上考虑多组学的先验蛋白鉴定能力信息,完全有区别于以前仅利用质谱实验图谱信息的方法。
(3)本实施例涉及的基于多组学丰度信息的蛋白质二级质谱鉴定方法在实现中建立了动态的翻译后修饰检索方法,可以动态设置230多种翻译后修饰,节约大量蛋白质数据库检索的空间;同时本发明利用并行机制建立多核运算,使高通量蛋白质质谱鉴定更加快速和高效。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (7)

1.一种基于多组学丰度信息的蛋白质二级质谱鉴定方法,其特征在于,包括如下步骤:
(1)将转录组或翻译组的二代测序碱基序列定位到参考基因组,根据定位到的位置获得每个基因的丰度信息;
(2)将蛋白质的质谱实验图谱利用Proverb蛋白鉴定方法进行初步鉴定,统计每个蛋白的初步鉴定结果;
(3)根据基因注释信息将基因和蛋白名称一一匹配,确定基因不同程度丰度信息初步鉴定蛋白数目,并计算得到每个丰度区间的初步蛋白的鉴定概率;
(4)对丰度区间的丰度值和初步蛋白鉴定概率构建丰度信息的蛋白鉴定能力模型,根据模型获得每个基因对应丰度信息的蛋白鉴定能力;
(5)在蛋白质谱的实验图谱与理论图谱的打分中融入蛋白相应基因的蛋白鉴定能力,将每张实验图谱的在理论图谱中的所有匹配得分进行排序,选择最高得分的肽段作为图谱鉴定结果,并对结果进行质量控制。
2.根据权利要求1所述的基于多组学丰度信息的蛋白质二级质谱鉴定方法,其特征在于,步骤(1)所述的将转录组或翻译组的二代测序碱基序列定位到参考基因组,根据定位到的位置获得每个基因的丰度信息,具体包括如下步骤:
(2.1)利用Fanse2软件获得多组学序列的比对结果信息,包括正反链、染色体名称和染色体位置信息,分别记为r_strand、r_chrom和r_pos,提取所有已知基因注释信息的染色体名、起始位置、终止位置和正反链,记为g_chrom、g_start、g_end和g_strand;
(2.2)初始化每个基因的比对结果存储数组gene_read=0,读取一个序列的r_strand、r_chrom和r_pos信息,把该序列的信息与所有基因的信息比较,判断该序列是否位于基因上;如果以下三个条件的同时成立,则认为序列位于基因上,此时该基因的gene_read数加1;三个条件如下:r_strand=g_strand;r_chrom=g_chrom;r_pos>=g_start并且r_pos<=g_end;
(2.3)逐个读取序列的信息,重复步骤2)直到处理一个样本的所有比对序列信息,其基因的存储数组中的值即为比对到各个基因上的序列数记为g_read,将数组的所有值累加即为总的序列比对数记为R_mapped,根据以下公式计算多组学基因的丰度信息FPKM值:FPKM=g_read×109/(R_mapped×g_length),其中基因长度g_length=g_end–g_start。
3.根据权利要求1所述的基于多组学丰度信息的蛋白质二级质谱鉴定方法,其特征在于,步骤(3)具体包括如下步骤:
(3.1)匹配利用Proverb方法鉴定到的蛋白和基因,得到每个基因对应蛋白的丰度信息FPKM值;
(3.2)将丰度信息值分为步长为1的300等分区间,计算每个区间中初步鉴定到的蛋白个数,第i个区间的鉴定到蛋白个数记为Ni,初步鉴定到的所有蛋白数记为Nt,把鉴定到的蛋白个数(Ni)比上所有蛋白数(Nt)即为每个丰度信息区间的蛋白鉴定概率,计算方法为:Ni/Nt。
4.根据权利要求1所述的基于多组学丰度信息的蛋白质二级质谱鉴定方法,其特征在于,步骤(4)具体包括如下步骤:
(4.1)根据步骤(3)中每个区间的FPKM值和蛋白鉴定概率值建立两者关系的统计定量化模型,模型的关系式如下:
y = a &CenterDot; l o g ( x ) + b x &le; L a &CenterDot; l o g ( L ) + b x > L
其中x为基因的丰度信息FPKM值,y为相应FPKM值的蛋白鉴定概率;当x值大于L(L=300)时,取x恒等于300;
(4.2)统计每一基因的FPKM值,并将其FPKM值代入步骤(4.1)中的关系模型中,根据计算获得的y值定量化基因丰度信息的蛋白鉴定能力。
5.根据权利要求1所述的基于多组学丰度信息的蛋白质二级质谱鉴定方法,其特征在于,步骤(5)所述的打分过程具体包括如下步骤:
(5.1)逐个读取实验图谱峰信息判断理论图谱和实验图谱是否匹配,如果理论图谱和实验图谱对应峰的荷质比之差小于等于质谱仪的测量误差,则认为这个峰匹配,之后记录其匹配的信息;
(5.2)设E为产生的理论碎片个数,K为理论图谱和实验图谱的匹配个数,Q代表随机匹配概率事件,i为随机匹配概率,r为多组学丰度信息的先验概率,P为E个理论峰中有K个峰匹配的概率;则P由下面二项式分别概率密度函数计算:
Q = ( i + f a c t o r ) &CenterDot; ( 1 - r ) P = K E Q K ( 1 - Q ) E - K
其中factor=全局相对高峰个数/实验图谱的峰范围;
(5.3)待分析实验图谱和理论图谱进行连续匹配峰的打分,设E1为理论图谱产生的理论连续匹配个数,K1为实验图谱实际连续匹配的个数,B_factor为背景值,B_factor=统计大量实验图谱连续匹配的平均值/统计大量对应理论图谱连续匹配的平均值,Q1反映了某一图谱在步骤(5.2)匹配情况下连续匹配的概率,P1在E1个理论连续匹配个数中实际存有K1个连续匹配的概率,由下面二项式分布概率密度函数计算:
Q 1 = ( B _ f a c t o r ) &CenterDot; ( 1 - r ) &CenterDot; K / E P 1 = K 1 E 1 Q 1 K 1 ( 1 - Q 1 ) E 1 - K 1
所述待分析实验图谱和理论图谱连续匹配个数具体是指图谱中两两连续匹配的对数;
(5.4)对匹配峰强度信息进行分析,求得强度因子,具体过程为:
设M_I为统计所有实验图谱中某两个氨基酸产生的峰大于等于最强峰的33%的个数,设M_E为期望总的离子的个数,则两个氨基酸中间的断裂概率Yi通过下式得到:
Yi=M_I/M_E;
进而得到强度因子Infactor为(1+Ym+Bm)/(1+0.155*m_p),其中Ym=∑Yi,Bm=∑Bi;Ym和Bm分别为实验图谱强度大于全局最强峰的33%的匹配峰Yi和Bi分值之和;m_p为一张实验图谱中强度大于最强峰的33%的匹配个数;0.155是理论平均匹配值;
(5.5)结合上述步骤(5.2),(5.3)和(5.4)的打分方法,采用下面公式得到肽段的得分:
PEP_S=Infactor*(-10)*log10(P*P1);
(5.6)对计算的PEP_S分数去除背景值,首先设在真实库和随机库统计概率相等的背景值为其在某种情况下的背景值B_B,背景值B_B是经过贝叶斯网络学习得到的,计算去背景值肽段得分PEP_S_M:
PEP_S_M=PEP_S-B_B;
(5.7)取出下一个肽段,重复执行步骤(5.1)-(5.6),直到符合此图谱母离子误差的所有肽段均被打分处理;
(5.8)对此图谱所有候选肽段的得分PEP_S_M进行排序,得分最高理论肽段作为当前图谱的鉴定结果。
6.根据权利要求1所述的基于多组学丰度信息的蛋白质二级质谱鉴定方法,其特征在于,步骤(5)所述的鉴定结果采用FDR<=0.01进行质量控制,得出最终鉴定结果。
7.根据权利要求6所述的基于多组学丰度信息的蛋白质二级质谱鉴定方法,其特征在于,所述质量控制具体包括如下步骤:
1)统计待分析图谱所有二级图谱中的鉴定结果肽段得分最小值和最大值;
2)统计在最小值和最大值之间,其中大于每个分值的鉴定结果中真实库和随机库肽段的个数,并计算每个分值为阀值时的FDR的值;
3)按得分值从小到大寻找每个分值,直到找到FDR<=0.01时,此分值为待分析图谱的整体阀值;
4)根据步骤3)找到整体阀值,以此阀值过滤待分析图谱的鉴定结果,小于此阀值的结果被过滤掉,其结果作为待分析图谱的最终鉴定结果。
CN201610737420.7A 2016-08-26 2016-08-26 基于多组学丰度信息的蛋白质二级质谱鉴定方法 Active CN106404878B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610737420.7A CN106404878B (zh) 2016-08-26 2016-08-26 基于多组学丰度信息的蛋白质二级质谱鉴定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610737420.7A CN106404878B (zh) 2016-08-26 2016-08-26 基于多组学丰度信息的蛋白质二级质谱鉴定方法

Publications (2)

Publication Number Publication Date
CN106404878A true CN106404878A (zh) 2017-02-15
CN106404878B CN106404878B (zh) 2019-03-19

Family

ID=58005197

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610737420.7A Active CN106404878B (zh) 2016-08-26 2016-08-26 基于多组学丰度信息的蛋白质二级质谱鉴定方法

Country Status (1)

Country Link
CN (1) CN106404878B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763872A (zh) * 2018-04-25 2018-11-06 华中科技大学 一种分析预测癌症突变影响lir模体功能的方法
CN111220690A (zh) * 2018-11-27 2020-06-02 中国科学院大连化学物理研究所 一种低丰度蛋白质翻译后修饰组的直接质谱检测方法
CN117095743A (zh) * 2023-10-17 2023-11-21 山东鲁润阿胶药业有限公司 一种小分子肽阿胶的多肽谱匹配数据分析方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040175838A1 (en) * 2003-02-10 2004-09-09 Jarman Kristin H. Peptide identification
CN102495127A (zh) * 2011-11-11 2012-06-13 暨南大学 一种基于概率统计模型的蛋白质二级质谱鉴定方法
CN103488913A (zh) * 2012-06-13 2014-01-01 安捷伦科技有限公司 一种用于利用测序数据将肽映射到蛋白质的计算方法
CN104076115A (zh) * 2014-06-26 2014-10-01 云南民族大学 基于峰强度识别能力的蛋白质二级质谱鉴定方法
CN105527359A (zh) * 2015-11-19 2016-04-27 云南民族大学 基于正反库特征信息匹配的蛋白质二级质谱鉴定方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040175838A1 (en) * 2003-02-10 2004-09-09 Jarman Kristin H. Peptide identification
CN102495127A (zh) * 2011-11-11 2012-06-13 暨南大学 一种基于概率统计模型的蛋白质二级质谱鉴定方法
CN103488913A (zh) * 2012-06-13 2014-01-01 安捷伦科技有限公司 一种用于利用测序数据将肽映射到蛋白质的计算方法
CN104076115A (zh) * 2014-06-26 2014-10-01 云南民族大学 基于峰强度识别能力的蛋白质二级质谱鉴定方法
CN105527359A (zh) * 2015-11-19 2016-04-27 云南民族大学 基于正反库特征信息匹配的蛋白质二级质谱鉴定方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄泽炽: "基于串联质谱和数据库搜索算法鉴定蛋白质的研究", 《中国优秀硕士学位论文全文数据库-基础科学辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763872A (zh) * 2018-04-25 2018-11-06 华中科技大学 一种分析预测癌症突变影响lir模体功能的方法
CN108763872B (zh) * 2018-04-25 2019-12-06 华中科技大学 一种分析预测癌症突变影响lir模体功能的方法
CN111220690A (zh) * 2018-11-27 2020-06-02 中国科学院大连化学物理研究所 一种低丰度蛋白质翻译后修饰组的直接质谱检测方法
CN117095743A (zh) * 2023-10-17 2023-11-21 山东鲁润阿胶药业有限公司 一种小分子肽阿胶的多肽谱匹配数据分析方法及系统
CN117095743B (zh) * 2023-10-17 2024-01-05 山东鲁润阿胶药业有限公司 一种小分子肽阿胶的多肽谱匹配数据分析方法及系统

Also Published As

Publication number Publication date
CN106404878B (zh) 2019-03-19

Similar Documents

Publication Publication Date Title
CN102495127B (zh) 一种基于概率统计模型的蛋白质二级质谱鉴定方法
CN110473594B (zh) 病原微生物基因组数据库及其建立方法
CN104076115B (zh) 基于峰强度识别能力的蛋白质二级质谱鉴定方法
CN104166706B (zh) 基于代价敏感主动学习的多标签分类器构建方法
US20080139396A1 (en) Method of Identifying Sugar Chain Structure and Apparatus For Analyzing the Same
CN104034792A (zh) 基于质荷比误差识别能力的蛋白质二级质谱鉴定方法
CN106404878A (zh) 基于多组学丰度信息的蛋白质二级质谱鉴定方法
CN103852513B (zh) 一种基于hcd与etd质谱图的肽段从头测序方法及系统
CN103810200B (zh) 开放式蛋白质鉴定的数据库搜索方法及其系统
CN104215729B (zh) 串联质谱数据母离子检测模型训练方法及母离子检测方法
CN104182658B (zh) 一种串联质谱谱图鉴定方法
CN103245714A (zh) 基于候选肽段区分度标记图谱的蛋白质二级质谱鉴定方法
CN104765984A (zh) 一种生物质谱数据库快速建立与搜索的方法
CN107229842A (zh) 一种基于局部图的三代测序序列校正方法
CN113362892B (zh) 一种短串联重复序列重复数的检测和分型方法
CN111292807B (zh) 一种单细胞转录组数据中分析双细胞的方法
CN105823883B (zh) 基于泊松分布模型的蛋白质二级质谱鉴定方法
CN116681645A (zh) 一种裂缝缺陷的检测模型及其实现方法
CN114530200B (zh) 基于计算snp熵值的混合样本鉴定方法
CN106911512B (zh) 在可交换图中基于博弈的链接预测方法及系统
CN115433768A (zh) 一种基于ngs扩增子测序技术的igh超突变检测方法及系统
CN114416824A (zh) 基于模体信息的复杂网络关键节点挖掘的方法
CN107729719A (zh) 一种从头测序方法
CN114550170A (zh) 基于分组信息辅助的r带染色体核型图像识别方法及系统
CN108388774A (zh) 一种多肽谱匹配数据的在线分析方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant