CN106198706A - 一种对多肽交联肽段进行质谱鉴定的假发现率控制方法 - Google Patents

一种对多肽交联肽段进行质谱鉴定的假发现率控制方法 Download PDF

Info

Publication number
CN106198706A
CN106198706A CN201610497295.7A CN201610497295A CN106198706A CN 106198706 A CN106198706 A CN 106198706A CN 201610497295 A CN201610497295 A CN 201610497295A CN 106198706 A CN106198706 A CN 106198706A
Authority
CN
China
Prior art keywords
peptide
cross
linking
discovery rate
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610497295.7A
Other languages
English (en)
Other versions
CN106198706B (zh
Inventor
樊盛博
迟浩
孟佳明
卢珊
尹吉澧
孙瑞祥
董梦秋
贺思敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201610497295.7A priority Critical patent/CN106198706B/zh
Publication of CN106198706A publication Critical patent/CN106198706A/zh
Application granted granted Critical
Publication of CN106198706B publication Critical patent/CN106198706B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6803General methods of protein analysis not limited to specific proteins or families of proteins
    • G01N33/6848Methods of protein analysis involving mass spectrometry

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Urology & Nephrology (AREA)
  • Immunology (AREA)
  • Biomedical Technology (AREA)
  • Hematology (AREA)
  • Cell Biology (AREA)
  • Medicinal Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Microbiology (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Food Science & Technology (AREA)
  • Biotechnology (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明提供一种对多肽交联肽段进行质谱鉴定的假发现率控制方法,包括:1)对于每张谱图,基于肽段匹配模型,在存储了单条肽段结构的数据库中进行搜索,得出匹配的n肽交联的鉴定结果;数据库既包括真实肽段结构也包括诱饵肽段结构;2)对于每个谱图的鉴定结果,根据该鉴定结果中分别匹配到真实肽段结构和诱饵假肽段结构的肽段数目,将该鉴定结果归类至鉴定结果集合Rk,其中Rk来表示n肽交联鉴定结果中,有k条肽段为诱饵肽段结构,(n‑k)条肽段为真实肽段结构的鉴定结果集合,0≤k≤n,n为不小于3的自然数;3)计算n肽交联的假发现率FDR(n)。本发明更加准确地估计多肽交联肽段质谱鉴定的假发现率;能够帮助提高鉴定的准确率和鉴定率。

Description

一种对多肽交联肽段进行质谱鉴定的假发现率控制方法
技术领域
本发明涉及生物信息学技术领域,具体地说,本发明涉及一种对多肽交联肽段进行质谱鉴定的假发现率控制方法。
背景技术
蛋白质鉴定是当代生物学研究中一项基础技术。近二十年来,随着质谱技术(MassSpectrometry,MS)突飞猛进的发展,串联质谱技术(Tandem Mass Spectrometry,MS/MS)已成为蛋白质鉴定的主流技术,并促成了蛋白质组学的形成和壮大。经过几代人在算法和仪器上的不懈努力,高精度质谱技术下高通量蛋白质鉴定已经达到了一个相当高的水平,如Mann等人在2011年利用Orbitrap Velos质谱仪和MaxQuant软件已能在Hela细胞上采集的二级谱图中鉴定到58%的谱图,而利用本发明的发明人2013年开发的pFind软件可在相同数据集上鉴定80%以上的谱图。
另一方面,蛋白质交联技术近年来也在不断发展。蛋白质交联技术是利用化学试剂来作为交联剂(linker)结合蛋白质肽段,在蛋白质之间形成稳定共价交联的技术。如果将蛋白质交联技术与质谱鉴定技术结合,就可以高通量地进行多种蛋白质内部结构和蛋白质间相互作用的分析。并且,通过交联剂的粘合作用,可以固定原本不稳定的、容易变化的相互作用化学键,从而帮助研究这类广泛存在的弱相互作用关系。为便于描述,蛋白质交联与质谱鉴定技术相结合的技术称为交联质谱技术。
如前文所述,交联质谱技术存在诸多应用前景,然而,目前主流的蛋白质质谱鉴定技术都是针对单肽鉴定的基于数据库搜索的质谱鉴定方案,如果直接将这些质谱鉴定方案套用到多肽交联肽段的鉴定中,可能出现准确率过低、鉴定率过低等问题,其中一个重要原因就是传统的目标-诱饵库假发现率控制(False Discovery Rate,FDR)方法不能简单套用到交联质谱技术中。
基于数据库搜索方法的质谱数据鉴定会在一定程度上产生随机匹配情况,使鉴定结果中存在着不正确的结果,因此需要进行假发现率控制。在传统的基于数据库搜索方法的单肽质谱数据鉴定中,通常使用目标-诱饵库技术进行假发现率控制。在目标-诱饵库假发现率控制方案主要是:将数据库进行处理,生成含有标记的随机诱饵数据库,然后将目标库和诱饵库进行合并,在合并后的数据库中进行数据库搜索得到鉴定结果。再利用鉴定结果中匹配到诱饵库的谱图数量来估计目标数据库中随机匹配的数目,得到假发现率。再基于假发现率调整搜索引擎的匹配度阈值或者其它参数,从而在尽可能提高鉴定率的同时实现假发现率控制。
然而,对于交联质谱数据,其数据库中的候选肽规模庞大,随机匹配更容易发生,传统的目标-诱饵库控制假发现率(False Discovery Rate,FDR)的方法已经不能适用。为解决这一问题,一种思路是针对交联肽段的特点,利用随机交联剂质量或者随机交联位点氨基酸的配置来构建专门针对交联肽段的诱饵库,然后利用该诱饵库和针对交联肽段的目标库混合,再基于传统的目标-诱饵库方案进行假发现率控制。然而,这类方法仍存在较大缺陷,例如:随机的交联剂质量和氨基酸的含量均难以准确估计,二者的估计值与实际值的差别很容易导致所估计的假发现率出现较大偏差。
因此,当前迫切需要一种适合于对多肽交联肽段进行质谱鉴定的假发现率控制解决方案。
发明内容
因此,本发明的任务是一种适合于对多肽交联肽段进行质谱鉴定的假发现率控制解决方案。
根据本发明的一个方面,提供了一种对多肽交联肽段进行质谱鉴定的假发现率控制方法,包括下列步骤:
1)对于每张谱图,基于肽段匹配模型,在存储了单条肽段结构的数据库中进行搜索,得出匹配的n肽交联的鉴定结果;其中,所述存储了单条肽段结构的数据库既包括真实肽段结构也包括诱饵肽段结构;
2)对于每个谱图的鉴定结果,根据该鉴定结果中分别匹配到真实肽段结构和诱饵假肽段结构的肽段数目,将该鉴定结果归类至鉴定结果集合Rk,其中Rk来表示n肽交联鉴定结果中,有k条肽段为诱饵肽段结构,(n-k)条肽段为真实肽段结构的鉴定结果集合,0≤k≤n,n为不小于3的自然数;
3)计算n肽交联的假发现率FDR(n);
F D R ( n ) = Σ k = 1 n ( - 1 ) k + 1 D k D 0
其中,Dk表示属于鉴定结果集合Rk的鉴定结果数目。
其中,所述步骤1)和步骤2)之间还包括步骤:
1a)推断出每张谱图的鉴定结果是属于蛋白内交联结果还是蛋白间交联结果;对于鉴定结果属于蛋白内交联的谱图集合和鉴定结果属于蛋白间交联的谱图集合,分别执行所述步骤2);
所述步骤2)中,对属于蛋白内交联的谱图的鉴定结果和属于蛋白间交联的谱图的鉴定结果分开归类;
所述步骤3)中,分别计算蛋白内交联情形下的n肽交联假发现率和蛋白间交联情形下的n肽交联假发现率。
其中,所述步骤1a)中,如果一个鉴定结果的n肽交联的n条肽段分别来自于同一个蛋白质,那么判断该鉴定结果属于蛋白内交联;反之,判断该鉴定结果属于蛋白间交联。
其中,所述步骤1a)中,对于一个鉴定结果,采用AC自动机算法推断该鉴定结果的每条肽段所属的一个或多个蛋白质,如果至少有一个蛋白质是鉴定结果中的n条肽段共有的,那么就判断该鉴定结果属于蛋白内交联;如果没有任何一个蛋白质是该鉴定结果中的n条肽段共有的,那么就判断该鉴定结果属于蛋白间交联。
其中,所述步骤1)中,所述存储了单条肽段结构的数据库的构建方法包括下列子步骤:
11)构建单肽目标库,基于所述单肽目标库构建单肽诱饵库;
12)将单肽目标库和单肽诱饵库合并构成所述存储了单条肽段结构的数据库。
其中,所述步骤11)中,所述单肽诱饵库是将单肽目标库中的蛋白序列反转,由反转后的蛋白序列所组成的数据库。
在一个实施例中,所述假发现率控制方法还包括步骤:
4)根据n肽交联的假发现率调整所述肽段匹配模型的打分阈值。
在另一个实施例中,所述假发现率控制方法还包括步骤:
4)根据蛋白内交联情况下的n肽交联的假发现率对蛋白内交联的鉴定结果进行过滤,向用户输出假发现率小于预设的假发现率阈值的蛋白内交联的鉴定结果;根据蛋白间交联情况下的n肽交联的假发现率对蛋白间交联的鉴定结果进行过滤,向用户输出假发现率小于预设的假发现率阈值的蛋白间交联的鉴定结果。
其中,所述肽段匹配模型为单肽匹配模型或二肽交联匹配模型。
与现有技术相比,本发明具有下列技术效果:
1、本发明能够更加准确地估计对多肽交联肽段进行质谱鉴定的假发现率。
2、本发明能够帮助提高对多肽交联肽段进行质谱鉴定的准确率和鉴定率。
附图说明
以下,结合附图来详细说明本发明的实施例,其中:
图1示出了本发明一个实施例的对多肽交联肽段进行质谱鉴定的假发现率控制方法的流程图。
具体实施方式
本发明的基本思想是利用成熟的单肽诱饵库识别多肽交联鉴定结果中每一条肽段是否正确,再根据这些识别结果综合估算多肽交联鉴定的假发现率。
下面结合附图和实施例对本发明做进一步地说明。
图1示出了本发明一个实施例的用于n肽交联鉴定的假发现率控制方法的流程图,该流程包括下列步骤:
步骤1:构建单肽诱饵库和单肽目标库。其中,单肽目标库是存储了大量结构已知的单条肽段的序列结构的数据库。单肽诱饵库是将单肽目标库中的蛋白序列反转,然后将反转后的蛋白序列组成的数据库(具体方法可参考文献:Elias JE,Gygi SP:Target-decoysearch strategy for increased confidence in large-scale proteinidentifications by mass spectrometry.Nature Methods 2007,4(3):207-214.)。
步骤2:将步骤1所构建的单肽诱饵库和单肽目标库混合,将混合后的单肽结构数据库作为进行n肽交联鉴定的搜索范围。其中n表示发生交联的肽段数目。
步骤3:使用已标注的n肽交联蛋白质数据集,根据步骤2所设的搜索范围,基于肽段匹配模型对各个谱图进行鉴定,记录每张谱图的鉴定结果。对于每张谱图,基于肽段匹配模型都可以根据匹配打分是否超过阈值,得出鉴定结果,即该谱图所对应的n肽交联所含的n个单肽。本实施例中,每个谱图对应一个n肽交联鉴定结果。
本实施例中,肽段匹配模型是基于单肽匹配的n肽匹配模型。在一个具体实现的实例中,可以基于单肽匹配对所需鉴定的谱图进行鉴定,得出n个匹配打分最高的单肽,然后将这n个单肽作为n肽交联所含的n个单肽。其中,肽段匹配可基于马尔可夫模型的碎片离子打分系统和线性支持向量机多特征机器学习打分系统实现。例如:先进行数据库搜索,用肽段匹配模型找到每张谱图的候选肽段,再用基于线性支持向量机多特征机器学习打分系统对肽谱匹配结果进行重打分得出鉴定结果。
当然,这并非是本发明唯一的n肽交联匹配方案。例如,在另一个实施例中,肽段匹配模型是可以直接得出所需鉴定的谱图是由哪n个单肽交联而成的n肽交联匹配模型。再例如,在又一个实施例中,基于单肽匹配模型和二肽交联匹配模型来鉴定n肽交联。在具体实现上,可以利用二肽交联匹配模型对所需鉴定的谱图进行鉴定,得出匹配打分最高的一个或多个二肽交联,然后再利用单肽匹配模型对所需鉴定的谱图进行鉴定,得出二肽交联匹配模型未鉴定出的若干个单肽,最后得出n肽交联所含的全部n个单肽。
总之,本发明中,具体采用什么样的模型不限(例如可使用基于马尔可夫模型的碎片离子打分系统和线性支持向量机多特征机器学习打分系统),只要其数据库由单肽诱饵库和单肽目标库合成,且能够得到n肽交联的鉴定结果即可。
步骤4:对所有谱图的鉴定结果进行分类和统计。每张谱图的鉴定结果中,n个单肽可能全部来自单肽目标库,也可能全部来自单肽诱饵库,也可能部分来自单肽目标库部分来自单肽诱饵库。基于传统的目标-诱饵库假发现率控制理论,可以认为,如果鉴定结果匹配到诱饵库就视为鉴定结果错误。那么本实施例中,n肽交联中的每条肽段都有正确或者错误两种可能,那么谱图的鉴定结果就可能存在2n种情形,本步骤中,将这2n种情形划分为n+1个分类,分别是:
第0分类:0条肽段来自于单肽诱饵库,n条肽段来自于单肽目标库;
第1分类:1条肽段来自于单肽诱饵库,n-1条肽段来自于单肽目标库;
第2分类:2条肽段来自于单肽诱饵库,n-2条肽段来自于单肽目标库;
……
第k分类:k条肽段来自于单肽诱饵库,n-k条肽段来自于单肽目标库;
……
第n分类:n条肽段来自于单肽诱饵库,0条肽段来自于单肽目标库。
对每张谱图,分别识别其鉴定结果属于哪一种情形,即可将其归到相应的类别,对所有谱图归类完毕后,统计每一类别的谱图数目。为方便描述,下文中用Rk来表示n肽交联鉴定结果中,有k条肽段来自于诱饵库,(n-k)条肽段来自于目标库的鉴定结果集合,用Dk来表示属于Rk的鉴定结果数目,其中0≤k≤n。
步骤5:计算n肽交联的假发现率FDR(n)。
F D R ( n ) = Σ k = 1 n ( - 1 ) k + 1 D k D 0
下面给出FDR(n)计算公式的证明过程。
在一批搜索谱图中,由于谱图中各条肽段的碎裂情况不同,每张谱图的谱峰信息能够可靠支持鉴定的肽段数目也不同。在最坏的情况下,谱图中的谱峰信息不能支持任何一条交联肽段的鉴定;在最好的情况下,n条交联肽段每一条都有足够的谱峰支持;其它的情况下,谱峰信息仅能支持n肽交联中部分肽段的鉴定。所以引入概念Mk和Sk,Mk表示谱峰信息可靠支持(n-k)条肽段,而另外k条肽段的谱峰信息不足无法可靠鉴定的谱图集合,Sk代表属于Mk的谱图数目,0≤k≤n,则显然有:
S = Σ k = 0 n S k - - - ( 1 )
当谱峰信息不能可靠支持某条肽段的鉴定时,该条肽段就会存在被随机匹配到诱饵库的可能。假设对于n肽交联中这个位置的肽段,在鉴定时被随机匹配到单肽目标库和单肽诱饵库的概率比为1:1,则对于谱峰信息能够可靠支持(n-k)条肽段鉴定而另外k条肽段的谱峰信息不足的谱图,则在步骤4的分类方式下,其n肽交联鉴定结果实际上只存在(k+1)种可能的分类。
对于集合Mk中的所有谱图,各谱图的鉴定结果中,属于第i分类的数目Di同属于第0分类的数目D0的比率如下:
D i D 0 = k i k 0 = k i , ( 0 ≤ i ≤ k ) - - - ( 2 )
其中,表示从k个不同元素中取出i个元素的所有组合的个数。
进一步地,对于谱图Mk,对于其(k+1)种鉴定结果Di的数目,有下式成立:
D i = k i D 0 , ( 0 ≤ i ≤ k ) - - - ( 3 )
f ( k , i ) = k i f ( k , 0 ) , ( 0 ≤ i ≤ k ) - - - ( 4 )
其中,f(k,i)表示来自于Mk被鉴定为Di的数目。f(k,0)表示来自于Mk被鉴定为D0的数目。
从鉴定结果的角度来考虑。对于某一类鉴定结果Dp,它可能且仅可能来自于(n-q+1)类别的谱图Mq(p≤q≤n)的鉴定结果。因此有下式成立:
D p = Σ q = p n f ( q , p ) - - - ( 5 )
特别地,对于n条肽段鉴定为全部来自于单肽目标库的鉴定结果D0,有:
D 0 = Σ q = 0 n f ( q , 0 ) - - - ( 6 )
其中,来自于谱图M0的结果为正确结果,其它结果为随机匹配结果。利用假发现率估计公式估计鉴定结果中的随机匹配,对于n肽交联,有下式:
F D R ( n ) = Σ q = 1 n f ( q , 0 ) Σ q = 0 n f ( q , 0 ) - - - ( 7 )
接下来计算f(k,0),即来自于Mk谱图的被鉴定为R0的结果数目D0。当k=n时,由(5)可得Dn=f(n,n),Sn类型的谱图没有信息可以可靠支持任意一条肽段鉴定,n条肽段全部为随机匹配,故f(n,0)=f(n,n)=Dn
再考虑k<n的情况,则有如下递推式成立:
f ( k , 0 ) = D n , k = n D k - &Sigma; i = k + 1 n f ( i , k ) , k < n - - - ( 8 )
,i=kifk,0(0≤i≤k)(4),fi,k=ikf(i,0)。由此:
f ( k , 0 ) = D n , k = n D k - &Sigma; i = k + 1 n f ( i , 0 ) , k < n - - - ( 1 )
由此式可知,由Dk(1≤k≤n)组成。其中,Dk出现在项f(1,0),f(2,0),…,f(k,0)中。对于某一k,我们定义函数g(i,k)表示Dk在f(i,0)中的系数(1≤i≤k),由公式
(1),可推得如下递推式:
g ( i , k ) = 1 , i = k - &Sigma; j = i + 1 k j i g ( j ) , 1 &le; i &le; k - 1 - - - ( 10 )
中Dk的系数是接下来由公式 (10)计算g(i,k)的解析式。
猜测
利用数学归纳法进行证明。首先,当i=k时,有g(k)=1成立。
假设在i+1,i+2,…,k的情况下都成立,下面推导在i的情况下也成立。
在数学上,已知有等式
j i k j = k i k - i j - i - - - ( 11 )
以及
( - 1 + 1 ) k = &Sigma; s = 0 k ( - 1 ) k - s k s - - - ( 12 )
成立。可对g(i,k)进行如下推导:
g ( i , k ) = - &Sigma; j = i + 1 k g ( j ) j i
= - &Sigma; j = i + 1 k ( - 1 ) k - j j i k j
= - &Sigma; j = i + 1 k ( - 1 ) k - j k i k - i j - i
= - k i &Sigma; j = i + 1 k ( - 1 ) k - j k - i j - i
= - k i &Sigma; j - i = 1 k - i ( - 1 ) ( k - i ) - ( j - i ) k - i j - i
= - k i ( ( - 1 + 1 ) k - i - ( - 1 ) k - i )
= ( - 1 ) k - i k i
得证
因此有:
&Sigma; i = 1 k g ( i ) = &Sigma; i = 1 k ( - 1 ) k - i k i = ( - 1 + 1 ) k - ( - 1 ) k k 0 = ( - 1 ) k + 1 - - - ( 14 )
所以,中Dk的系数是(-1)k+1,将其代入式
(7),并注意到并注意到因此有下式成立:
F D R ( n ) = &Sigma; k = 1 n ( - 1 ) k + 1 D k D 0 - - - ( 15 )
步骤6:根据n肽交联的假发现率FDR(n)调整肽段匹配模型的打分阈值。例如:当步骤5所计算的假发现率FDR(n)大于预设的假发现率阈值时,提高n肽交联匹配模型的打分阈值,当步骤5所计算的假发现率FDR(n)显著小于预设的假发现率阈值时,则可以减小n肽交联匹配模型的打分阈值以提高鉴定率,减少漏检。
进一步地,在一个优选实施例中,根据鉴定结果所显示的蛋白内交联和蛋白外交联(也称为蛋白间交联)进行了区分,分别估计蛋白内交联和蛋白外交联的假发现率,以进一步提高n肽交联的假发现率估计的准确性。
该实施例中,仍然执行前述步骤1至3,分别得出每张谱图的鉴定结果。然后执行步骤3a。
步骤3a:进行蛋白推断,推断出每张谱图的搜索结果是属于蛋白内交联结果还是蛋白间交联结果。如果一个n肽交联的n条肽段分别来自于同一个蛋白质,那么称其为蛋白内n肽交联,反之,则称其为蛋白间n肽交联。
本实施例中,采用AC自动机算法推断肽段所属的蛋白质。众所周知,肽段是蛋白的一部分,对于任意一个肽段(实际上是一个氨基酸序列),AC自动机算法能够根据这个肽段推断出含有该肽段的所有的蛋白质。因此,一个肽段可能同时推出几个蛋白质,本实施例中,如果有一个蛋白质是n肽交联中的n条子肽段共有的,那么就判断该n肽交联为蛋白内交联;如果没有任何一个蛋白质是n肽交联中的n条子肽段共有的,那么就判断该n肽交联为蛋白间交联。
步骤3a完毕之后,再执行步骤4。
与前述实施例不同,本实施例的步骤4中,分别对推断为蛋白内交联与推断为蛋白间交联的谱图的鉴定结果进行分类和统计。蛋白内交联的鉴定结果分类和统计方法与前述实施例的步骤4相同,蛋白间交联的鉴定结果分类和统计方法也与前述实施例的步骤4相同,因此此处不再赘述。
步骤4执行完后再执行步骤5。
本实施例的步骤5中,分别计算蛋白内交联情况下的n肽交联的假发现率和蛋白间交联情况下的n肽交联的假发现率。计算方法与前述实施例中的步骤5相同,不再赘述。
步骤5执行完后再执行步骤6。
步骤6:根据蛋白内交联情况下的n肽交联的假发现率对蛋白内交联的鉴定结果进行过滤,向用户输出假发现率小于预设的假发现率阈值(例如5%)的蛋白内交联的鉴定结果;根据蛋白间交联情况下的n肽交联的假发现率对蛋白间交联的鉴定结果进行过滤,向用户输出假发现率小于预设的假发现率阈值(例如5%)的蛋白间交联的鉴定结果。
为验证上述优选实施例的效果,发明人以三肽交联为例进行了测试。发明人基于同一个假发现率阈值,在10个标准蛋白的数据集上进行测试,过滤方式采取分开过滤时(即蛋白内交联三肽和蛋白间交联三肽分别计算FDR),能够鉴定到312张谱图。而采取合并过滤方式时(即不区分蛋白内和蛋白间交联,使用所有谱图的鉴定结果统一计算FDR),能够鉴定到260张谱图。可以看出,在使用同一假发现率阈值的前提下(也就是说,在假发现率基本一致的前提下),采取分开过滤得到的结果比合并过滤更多,能够显著的提升谱图的鉴定率。
最后应说明的是,以上实施例仅用以描述本发明的技术方案而不是对本技术方法进行限制,本发明在应用上可以延伸为其它的修改、变化、应用和实施例,并且因此认为所有这样的修改、变化、应用、实施例都在本发明的精神和教导范围内。

Claims (9)

1.一种对多肽交联肽段进行质谱鉴定的假发现率控制方法,其特征在于,包括下列步骤:
1)对于每张谱图,基于肽段匹配模型,在存储了单条肽段结构的数据库中进行搜索,得出匹配的n肽交联的鉴定结果;其中,所述存储了单条肽段结构的数据库既包括真实肽段结构也包括诱饵肽段结构;
2)对于每个谱图的鉴定结果,根据该鉴定结果中分别匹配到真实肽段结构和诱饵假肽段结构的肽段数目,将该鉴定结果归类至鉴定结果集合Rk,其中Rk来表示n肽交联鉴定结果中,有k条肽段为诱饵肽段结构,(n-k)条肽段为真实肽段结构的鉴定结果集合,0≤k≤n,n为不小于3的自然数;
3)计算n肽交联的假发现率FDR(n);
F D R ( n ) = &Sigma; k = 1 n ( - 1 ) k + 1 D k D 0
其中,Dk表示属于鉴定结果集合Rk的鉴定结果数目。
2.根据权利要求1所述的假发现率控制方法,其特征在于,所述步骤1)和步骤2)之间还包括步骤:
1a)推断出每张谱图的鉴定结果是属于蛋白内交联结果还是蛋白间交联结果;对于鉴定结果属于蛋白内交联的谱图集合和鉴定结果属于蛋白间交联的谱图集合,分别执行所述步骤2);
所述步骤2)中,对属于蛋白内交联的谱图的鉴定结果和属于蛋白间交联的谱图的鉴定结果分开归类;
所述步骤3)中,分别计算蛋白内交联情形下的n肽交联假发现率和蛋白间交联情形下的n肽交联假发现率。
3.根据权利要求2所述的假发现率控制方法,其特征在于,所述步骤1a)中,如果一个鉴定结果的n肽交联的n条肽段分别来自于同一个蛋白质,那么判断该鉴定结果属于蛋白内交联;反之,判断该鉴定结果属于蛋白间交联。
4.根据权利要求3所述的假发现率控制方法,其特征在于,所述步骤1a)中,对于一个鉴定结果,采用AC自动机算法推断该鉴定结果的每条肽段所属的一个或多个蛋白质,如果至少有一个蛋白质是鉴定结果中的n条肽段共有的,那么就判断该鉴定结果属于蛋白内交联;如果没有任何一个蛋白质是该鉴定结果中的n条肽段共有的,那么就判断该鉴定结果属于蛋白间交联。
5.根据权利要求1所述的假发现率控制方法,其特征在于,所述步骤1)中,所述存储了单条肽段结构的数据库的构建方法包括下列子步骤:
11)构建单肽目标库,基于所述单肽目标库构建单肽诱饵库;
12)将单肽目标库和单肽诱饵库合并构成所述存储了单条肽段结构的数据库。
6.根据权利要求5所述的假发现率控制方法,其特征在于,所述步骤11)中,所述单肽诱饵库是将单肽目标库中的蛋白序列反转,由反转后的蛋白序列所组成的数据库。
7.根据权利要求1所述的假发现率控制方法,其特征在于,所述假发现率控制方法还包括步骤:
4)根据n肽交联的假发现率调整所述肽段匹配模型的打分阈值。
8.根据权利要求2所述的假发现率控制方法,其特征在于,所述假发现率控制方法还包括步骤:
4)根据蛋白内交联情况下的n肽交联的假发现率对蛋白内交联的鉴定结果进行过滤,向用户输出假发现率小于预设的假发现率阈值的蛋白内交联的鉴定结果;根据蛋白间交联情况下的n肽交联的假发现率对蛋白间交联的鉴定结果进行过滤,向用户输出假发现率小于预设的假发现率阈值的蛋白间交联的鉴定结果。
9.根据权利要求1所述的假发现率控制方法,其特征在于,所述肽段匹配模型为单肽匹配模型或二肽交联匹配模型。
CN201610497295.7A 2016-06-29 2016-06-29 一种对多肽交联肽段进行质谱鉴定的假发现率控制方法 Active CN106198706B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610497295.7A CN106198706B (zh) 2016-06-29 2016-06-29 一种对多肽交联肽段进行质谱鉴定的假发现率控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610497295.7A CN106198706B (zh) 2016-06-29 2016-06-29 一种对多肽交联肽段进行质谱鉴定的假发现率控制方法

Publications (2)

Publication Number Publication Date
CN106198706A true CN106198706A (zh) 2016-12-07
CN106198706B CN106198706B (zh) 2019-02-01

Family

ID=57463331

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610497295.7A Active CN106198706B (zh) 2016-06-29 2016-06-29 一种对多肽交联肽段进行质谱鉴定的假发现率控制方法

Country Status (1)

Country Link
CN (1) CN106198706B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111208299A (zh) * 2018-11-21 2020-05-29 中国科学院大连化学物理研究所 一种交联肽段定性定量分析方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005078447A1 (ja) * 2004-02-17 2005-08-25 Nec Corporation ペプチドのc末端アミノ酸配列の分析方法
CN1769891A (zh) * 2004-11-03 2006-05-10 中国科学院计算技术研究所 一种使用串联质谱数据鉴定肽的方法
CN101714187A (zh) * 2008-10-07 2010-05-26 中国科学院计算技术研究所 一种规模化蛋白质鉴定中的索引加速方法及相应的系统
CN103439441A (zh) * 2013-08-26 2013-12-11 中国科学院数学与系统科学研究院 一种基于子集错误率估计的肽鉴定方法
CN103852513A (zh) * 2012-11-29 2014-06-11 中国科学院计算技术研究所 一种基于hcd与etd质谱图的肽段从头测序方法及系统
CN104182658A (zh) * 2014-08-06 2014-12-03 中国科学院计算技术研究所 一种串联质谱谱图鉴定方法
CN105527359A (zh) * 2015-11-19 2016-04-27 云南民族大学 基于正反库特征信息匹配的蛋白质二级质谱鉴定方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005078447A1 (ja) * 2004-02-17 2005-08-25 Nec Corporation ペプチドのc末端アミノ酸配列の分析方法
CN1769891A (zh) * 2004-11-03 2006-05-10 中国科学院计算技术研究所 一种使用串联质谱数据鉴定肽的方法
CN101714187A (zh) * 2008-10-07 2010-05-26 中国科学院计算技术研究所 一种规模化蛋白质鉴定中的索引加速方法及相应的系统
CN103852513A (zh) * 2012-11-29 2014-06-11 中国科学院计算技术研究所 一种基于hcd与etd质谱图的肽段从头测序方法及系统
CN103439441A (zh) * 2013-08-26 2013-12-11 中国科学院数学与系统科学研究院 一种基于子集错误率估计的肽鉴定方法
CN104182658A (zh) * 2014-08-06 2014-12-03 中国科学院计算技术研究所 一种串联质谱谱图鉴定方法
CN105527359A (zh) * 2015-11-19 2016-04-27 云南民族大学 基于正反库特征信息匹配的蛋白质二级质谱鉴定方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ELIAS JOSHUA E. ET AL.: "Target-Decoy Search Strategy for Mass Spectrometry-Based Proteomics", 《 METHODS IN MOLECULAR BIOLOGY》 *
攀盛博等: "蛋白质结构与相互作用研究新方法——交联质谱技术", 《生物化学与生物物理进展》 *
沈瑶瑶等: "蛋白质相互作用研究进展", 《生命科学》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111208299A (zh) * 2018-11-21 2020-05-29 中国科学院大连化学物理研究所 一种交联肽段定性定量分析方法
CN111208299B (zh) * 2018-11-21 2021-05-28 中国科学院大连化学物理研究所 一种交联肽段定性定量分析方法

Also Published As

Publication number Publication date
CN106198706B (zh) 2019-02-01

Similar Documents

Publication Publication Date Title
JP4549314B2 (ja) イオン化分子フラグメントを分類するための方法、装置、及びプログラム製品
US6393367B1 (en) Method for evaluating the quality of comparisons between experimental and theoretical mass data
CN104076115B (zh) 基于峰强度识别能力的蛋白质二级质谱鉴定方法
ES2432677T3 (es) Método de identificación de péptidos y proteínas a partir de datos de espectrometría de masas
EP1047108A2 (en) A method of determining peptide sequences by mass spectrometry
US7409296B2 (en) System and method for scoring peptide matches
CN103245714B (zh) 基于候选肽段区分度标记图谱的蛋白质二级质谱鉴定方法
US8694264B2 (en) Mass spectrometry system
Razumovskaya et al. A computational method for assessing peptide‐identification reliability in tandem mass spectrometry analysis with SEQUEST
CN106018535A (zh) 一种完整糖肽鉴定的方法与系统
Eriksson et al. A model of random mass‐matching and its use for automated significance testing in mass spectrometric proteome analysis
CN106198706B (zh) 一种对多肽交联肽段进行质谱鉴定的假发现率控制方法
CN106650779B (zh) 谱图相似度的计算方法
US11875880B2 (en) Systems and methods for calculating protein confidence values
US20040175838A1 (en) Peptide identification
CN103177198B (zh) 一种蛋白质鉴定方法
Lokhov et al. Database search post‐processing by neural network: Advanced facilities for identification of components in protein mixtures using mass spectrometric peptide mapping
US20050131647A1 (en) Calculating confidence levels for peptide and protein identification
Fridman et al. The probability distribution for a random match between an experimental-theoretical spectral pair in tandem mass spectrometry
Fang et al. Feature selection in validating mass spectrometry database search results
Baginsky et al. AuDeNS: a tool for automatic de novo peptide sequencing
Colinge et al. A systematic statistical analysis of ion trap tandem mass spectra in view of peptide scoring
Spivak Analysis of mass spectrometry data for protein identification in complex biological mixtures
Tschager Algorithms for Peptide Identification via Tandem Mass Spectrometry
Price Optimising the Statistical Pipeline for Quantitative Proteomics

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant