CN103852513B - 一种基于hcd与etd质谱图的肽段从头测序方法及系统 - Google Patents
一种基于hcd与etd质谱图的肽段从头测序方法及系统 Download PDFInfo
- Publication number
- CN103852513B CN103852513B CN201210501813.XA CN201210501813A CN103852513B CN 103852513 B CN103852513 B CN 103852513B CN 201210501813 A CN201210501813 A CN 201210501813A CN 103852513 B CN103852513 B CN 103852513B
- Authority
- CN
- China
- Prior art keywords
- peptide section
- spectrum peak
- spectrogram
- mass
- novo sequencing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明提供一种基于HCD与ETD质谱图的肽段从头测序方法及系统,该方法包括:步骤1,将HCD与ETD的质谱图对应起来形成一个新质谱图,对所述新质谱图进行预处理,检测出有效谱峰并删除干扰谱峰;步骤2,根据所述有效谱峰构建有向无环图;步骤3,在所述有向无环图中寻找符合权重规则的路径,并根据所述路径生成候选肽段;步骤4,将所述候选肽段与所述新质谱图进行匹配打分,按照打分结果将所述候选肽段进行排序并输出。本发明弥补了单种碎裂类型引起的谱峰不全的缺点,结合HCD与ETD谱图各自的优点,提高从头测序的准确度。同时在从头测序之前进行预处理,去除大量同位素谱峰与噪音谱峰,避免其对从头测序算法造成干扰。并利用更加有区分度的打分算法,提高了从头测序的性能。
Description
技术领域
本发明涉及生物信息领域,特别是涉及一种基于HCD与ETD质谱图的肽段从头测序方法及系统。
背景技术
利用串联质谱进行肽段和蛋白质鉴定已经成为当前蛋白质组学的核心技术。目前基于串联质谱技术的蛋白质鉴定主要有两条技术路线:数据库搜索(databasesearching)和肽段从头测序(denovopeptidesequencing)。由于蛋白质数据库的迅速发展与完善,数据库搜索成为了目前蛋白质鉴定的主要技术。然而,从头测序方法不依赖现有的数据库,根据肽段有规律碎裂的特点,直接从图谱中推导出肽段的序列,能够分析新物种或者基因组未测序物种的串联质谱数据,具有数据库搜索方法不可替代的优势。
但肽段从头测序方法并没有像数据库搜索方法一样得到广泛使用,主要原因有两点:(1)质谱碎裂信息不完整,相当多的谱图无法使用从头测序方法获取完整肽段,比如连续没有碎裂信息的氨基酸数目太多;(2)从头测序方法相当于在所有满足母离子质量误差范围内的氨基酸组合里搜索正确肽段,搜索空间大,以致计算速度非常慢。另外,一般认为一根谱峰只能匹配一种类型的离子,因此在质谱图中搜索路径需要考虑反对称约束,而在有向无环图中搜索反对称路径是NP-hard问题。
针对这两点原因,本发明采用HCD(higher-energycollisionaldissociation,高能碰撞裂解)与ETD(ElectronTransferDissociation,电子转移裂解)互补谱图对来增加肽段碎裂信息,并在此基础上设计一种新的从头测序方法。由于使用两种不同类型的谱图联用,一种谱图中缺失的碎裂信息可能在互补的谱图中找到。另外,HCD谱图的内部离子以及ETD的氢重排现象在pNovo+中都被考虑,使得本发明提出的方法,在精度上较同类算法有较大提高。同时,本发明不依赖于反对称约束的限制,设计并实现了快速的前k路径搜索算法,提高了从头测序方法的精度。
发明内容
本发明的目的是利用HCD与ETD谱图的优点,提高从头测序的准确度。同时在从头测序之前进行预处理,去除大量同位素谱峰与噪音谱峰,避免其对从头测序算法造成干扰。并利用更加有区分度的打分算法,提高从头测序的性能。
为了实现上述目的,本发明提供一种基于HCD与ETD质谱图的肽段从头测序方法,其特征在于,包括:
步骤1,将HCD与ETD的质谱图对应起来,形成一个新质谱图,对所述新质谱图进行预处理,检测出有效谱峰并删除干扰谱峰;
步骤2,根据所述有效谱峰构建有向无环图;
步骤3,在所述有向无环图中寻找符合权重规则的路径,并根据所述路径生成候选肽段;
步骤4,将所述候选肽段与所述新质谱图进行匹配打分,按照打分结果将所述候选肽段进行排序并输出。
所述步骤1包括:
步骤11,将所述新质谱图中的所有谱峰权重设置为谱峰强度的自然对数值;
步骤12,判断谱峰的电荷状态,并挑选单同位素谱峰。
步骤13,根据所述自然对数值删除比所述单同位素谱峰强度小的谱峰;
步骤14,将所述新质谱图中的对应母离子附近的谱峰删除,其中谱图中没有碎裂的整个肽段离子称为母离子。
所述步骤2包括:
步骤21,将所述有效谱峰按照其离子生成多种结点,所述多种结点的质荷比与权重和其相应的原谱峰相等;
步骤22,在所述多种结点中,将质量接近的多个结点合并为一个新结点,该新结点的质荷比等于所述多个结点质荷比的平均值,该新结点的权重等于所述多个节点的权重之和;
步骤23,根据谱峰及其质量之间的关系,将质荷比相差为一个氨基酸质量或者两个氨基酸质量之和的任意两个结点之间连接一条边,得到所述有向无环图。
所述步骤3包括:
步骤31,利用前k长路径搜索算法得到所述有向无环图中权重最高的部分路径;
步骤32,对所述部分路径,采用宽度优先搜索的方法,生成具有确定序列的候选肽段。
所述步骤4包括:
步骤41,对于所述候选肽段进行筛选并排序,得到排名符合条件的部分序列;
步骤42,对所述部分序列进行肽段和谱图匹配的打分,并按照分数值进行排序,得到排名符合条件的部分肽段排序结果并输出。
为实现上述目的,本发明还提供一种基于HCD与ETD质谱图的肽段从头测序系统,其特征在于,包括:
预处理模块,用于将HCD与ETD的质谱图对应起来形成一个新质谱图,对所述新质谱图进行预处理,检测出有效谱峰并删除干扰谱峰;
构建模块,根据所述有效谱峰构建有向无环图;
候选肽段生成模块,用于在所述有向无环图中寻找符合权重规则的路径,并根据所述路径生成候选肽段;
排序输出模块,用于将所述候选肽段与所述新质谱图进行匹配打分,按照打分结果将所述候选肽段进行排序并输出。
所述预处理模块包括:
设置模块,将所述新质谱图中的所有谱峰权重设置为谱峰强度的自然对数值;
判断模块,判断谱峰的电荷状态,并挑选单同位素谱峰。
第一删除模块,根据所述自然对数值删除比所述单同位素谱峰强度小的谱峰,并根据所述自然对数值删除与肽段母离子对应的谱峰;
第二删除模块,将所述新质谱图中的对应母离子附近的谱峰删除,其中谱图中没有碎裂的整个肽段离子称为母离子。
所述构建模块包括:
结点生成模块,将所述有效谱峰按照其离子生成多种结点,所述多种结点的质荷比与权重和其相应的原谱峰相等;
结点合并模块,在所述多种结点中,将质量接近的多个结点合并为一个新结点,该新结点的质荷比等于所述多个结点质荷比的平均值,该新结点的权重等于所述多个节点的权重之和;
关联图生成模块,根据谱峰及其质量之间的关系,将质荷比相差为一个氨基酸质量或者两个氨基酸质量之和的任意两个结点之间连接一条边,得到所述有向无环图。
所述候选肽段生成模块包括:
计算权重模块,利用前k长路径搜索算法得到所述有向无环图中权重最高的部分路径;
搜索序列模块,对所述部分路径,采用宽度优先搜索的方法,生成具有确定序列的候选肽段。
所述排序输出模块包括:
筛选排序模块,对于所述候选肽段进行筛选并排序,得到排名符合条件的部分序列;
匹配打分模块,对所述部分序列进行肽段和谱图匹配的打分,并按照分数值进行排序,得到排名符合条件的部分肽段排序结果并输出。
本发明的有益效果在于:
1.联用HCD与ETD谱图,可以较好地弥补单种碎裂类型引起的谱峰不全的缺点,结合二者自身的优点,提高从头测序的准确度。
2.在从头测序之前进行预处理,去除大量同位素谱峰与噪音谱峰,避免其对从头测序算法造成干扰。
3.利用更加有区分度的打分算法,提高了从头测序的性能。
以下结合附图和具体实施例对本发明进行详细描述,但不作为对本发明的限定。
附图说明
图1为本发明的基于HCD与ETD质谱图的肽段从头测序方法流程图;
图2为本发明的基于HCD与ETD质谱图的肽段从头测序系统示意图;
图3是本发明的不同离子类型的区别示意图。
具体实施方式
下面结合附图和具体实施例对本发明技术方案进行详细的描述,以更进一步了解本发明的目的、方案及功效,但并非作为本发明所附权利要求保护范围的限制。
图1是本发明的基于HCD与ETD质谱图的肽段从头测序方法流程图。如图所示,该方法包括:
步骤1,将HCD与ETD的质谱图对应起来形成一个新质谱图,对所述新质谱图进行预处理,检测出有效谱峰并删除干扰谱峰;
步骤2,根据所述有效谱峰构建有向无环图;
步骤3,在所述有向无环图中寻找符合权重规则的路径,并根据所述路径生成候选肽段;
步骤4,将所述候选肽段与所述新质谱图进行匹配打分,按照打分结果将所述候选肽段进行排序并输出。
该方法之前先设定必要的从头测序参数,包括母离子与碎片离子的误差、选用的离子类型、氨基酸的质量值、酶切类型、谱图文件路径、输出文件路径等。
步骤1中的操作方式为,按照指定的文件路径,读取质谱图信息,将来自于同一个HCD与ETD谱图文件对应起来。一般来讲,由于质谱仪的设置是固定的,因此同一个母离子碎裂形成的不同文件,它们的扫描号的差值是固定的。
步骤1包括:
步骤11,将谱图中的所有谱峰权重设置为谱峰强度的自然对数值。
步骤12,判断谱峰的电荷状态,并挑选单同位素谱峰。
步骤13,根据所述自然对数值删除比所述单同位素谱峰强度小的谱峰;
步骤14,将所述新质谱图中的对应母离子附近的谱峰,以及其中性丢失,如失去水分子及氨分子的谱峰删除。这是由于母离子相关谱峰强度通常比较大,它们对肽段从头测序没有帮助反而有误导作用,其中谱图中没有碎裂的整个肽段离子称为母离子。
步骤12的操作方式为,假设母离子电荷为e,对于一根谱峰,若它在同位素峰序列中,依此按e,e-1,e-2,e-3,…,2+,1+,找出最适合该同位素峰序列的价态。再选取同位素峰序列中质荷比最小的谱峰p以及比p强度大的所有谱峰。保留强度比谱峰p强度大的谱峰一是避免删除部分有效峰,二是在ETD谱图中还包含大量的c-H离子和z+H离子。对于那些不在同位素峰序列中的谱峰,ETD只考虑1+,而HCD既考虑1+又考虑2+,然后,把所有峰谱根据它们可能的电荷状态转换成单电荷谱峰。
步骤2包括:
步骤21,将谱图的谱峰按照不同离子的假设,生成不同的结点。结点的质荷比与权重和原谱峰相等。
步骤22,步骤21中产生的所有结点中,如果有质量非常接近的,则将它们合并为一个结点,新结点的质荷比等于它们质荷比的平均值,而权重等于它们的权重之和。
步骤23,添加起始结点和终止结点,它们的质荷比分别为0和母离子质量M减一个水分子(H2O)的质量,权重均设置为0。
步骤24,对任意两个结点,如果它们的质荷比相差δ等于一个或者两个氨基酸质量之和,则它们之间连接一条边。这样,就根据谱峰及其质量之间的关系,得到了一张谱峰关联图。特别地,由于其自身的特征,它是一张有向无环图。
步骤21的具体操作方式为,对于HCD谱图,考虑y,b,a,y-NH3,y-H2O,bH2O和bNH3离子。对于ETD谱图,考虑c,z,c-H和z+H离子。离子类型的获得也可以使用离子类型发现算法进行独立的处理与发现,然后在本步骤内指定。之后,把每根谱峰按离子类型转化成对应碎裂位置的单电荷的b离子。最后,把HCD与ETD所有的谱峰合并构成一个新谱图。
如图3所示,图3是不同离子类型的区别示意图。图中的肽段序列由4个氨基酸组成。对于不同氨基酸之间的肽键连接(以粗线标记),断裂后形成的N端和C端离子分别称为b离子和y离子。类似的,在肽键的两侧断裂可以分别形成a离子和x离子,c离子和z离子。离子的下标值代表了该离子含有氨基酸的个数。例如y3代表了该肽段的一种具体的碎片离子,含有3个氨基酸。碎片离子可以发生中性丢失,例如y离子丢失氨分子或水分子可分别表示为yNH3和yH2O。由于在各种不同类型的谱图中离子的强度不同,对于HCD谱图,主要考虑y,b,a,y-NH3,y-H2O,b-H2O和b-NH3离子。对于ETD谱图,则考虑c,z,c-H和z+H离子。
步骤22的具体操作方式为,扫描所有的谱峰,如果发现两根谱峰的间距小于等于设定的阈值d,则将它们合并为一个结点,新结点的质荷比等于它们质荷比的平均值,权重则等于它们的权重之和。阈值d可以为预先设置的碎片离子误差值,如0.01Da(Dalton)。
步骤23的具体操作方式为,将所有的结点按照质荷比的大小按照从小到大排序,然后,在该序列的首尾分别加入两个结点,它们的质荷比分别为0和母离子质量M减一个水分子(H2O)的质量,权重均设置为0。这里,权重也可以置为任意数值,由于每条路径都会经过这两个结点,因此它们的权重值对算法的精度没有影响。
步骤24的具体操作方式为,首先计算所有氨基酸的质量值以及两种氨基酸组合的质量值,并将所有的质量值进行排序,生成有序表D。然后,计算任意两个结点之间的质荷比差值。由于在上述步骤中,所有结点均对应了一个单电荷的b离子,因此,这个差值即为质量差值。将此差值在D中寻找与其对应的氨基酸或氨基酸组合,并把这两个结点的边标记为这些氨基酸或氨基酸组合。例如,如果两个结点之间的差值为129.06,这是氨基酸Q的质量,同时也是氨基酸组合AG的质量,因此,这条边被标记为[Q/AG/GA],代表这条边对应的氨基酸可能有以上三种排列情况。
在步骤24中,如果事先指定了某些可能的修饰质量,比如在氨基酸M上增加15.99Da。如果所有的M均要求增加,则直接在步骤24执行之前改变M的质量。另一种情况,是M增加15.99Da或不增加任何质量,这两种情况同时存在。这时候,本发明使用一个未被氨基酸表示利用的字母,如J,表示M增加15.99Da的质量,M仍然表示其原始质量。
步骤3包括,
步骤31,使用图论中的前k长路径搜索算法,得到上述有向无环图中权重最高的部分路径。需要设置保存路径数的最大限制P。在算法运行过程中,利用最大优先队列随时保存该图中权重最高的不超过P条路径。路径的权重定义为路径经过结点的所有权重之和。
步骤32,对上述获得的路径,采用宽度优先搜索的方法,生成具有确定序列的候选肽段。
步骤32的具体操作方式为,对于每条路径,考虑其中的每条边对应的所有可能氨基酸的排列,生成对应的肽段序列。例如,对于某条路径p,它对应的所有边的标记依次为A、E、H、V、[Q/AG/GA]、T、[N/GG]、K,则共有六条肽段被生成:AEHVQTNK、AEHVQTGGK、AEHVAGTNK、AEHVAGTGGK、AEHVGATNK、AEHVGATGGK。生成方式为采用宽度优先搜索,对每一条路径从左至右依次扫描生成所有合适的肽段序列。
步骤4包括:
步骤41,对于候选肽段进行粗筛选,使用简单规则进行排序,并筛选出排名较高的部分序列。
步骤42,对筛选出的若干结果,进行肽段和谱图匹配的打分,并按照分数值进行排序,得到排名靠前的部分结果。
步骤43,将得到的序列结果信息输出到指定的文件。
步骤41的具体实施方式为,首先定义变量GAPpep如下:
GAPpep=Lpep-Lpath
上述等式中,Lpep是肽段中氨基酸的数目,Lpath是生成该肽段所在路径的边的数目。对于一个肽段,GAP值越小,认为该肽段越可信。因此,在本步骤中首先对所有候选肽段按GAP值从小到大排序。例如,对于上述路径A、E、H、V、[Q/AG/GA]、T、[N/GG]、K产生的肽段中,肽段AEHVQTNK的GAP值为0,而AEHVAGTGGK的GAP值为2。因此,AEHVQTNK应排在AEHVAGTGGK的前面。根据预先设置的阈值T,最多有T条候选肽段被保留下来。
步骤42的具体实施方式为,给定谱图S和肽段P,假定有n根谱峰匹配上肽段P的碎裂离子,则S和P的匹配打分为:
其中,k1和t是可变参数,pi是第i根匹配上S的谱峰,avrg_length是所有候选肽段的平均长度,它可以从实验谱的母离子质量估计而来,mass_error表示实验离子与理论离子的质量偏差绝对值,intensity(pi)表示pi峰的强度,len(p)表示肽段P的长度。对于HCD和ETD谱图,分别计算肽段与这两个谱图的打分分数,并相加,作为最终的结果分数。
图2为本发明的基于HCD与ETD质谱图的肽段从头测序系统示意图。如图2所示,该系统包括:
预处理模块10,用于将HCD与ETD的质谱图对应起来形成一个新质谱图,对所述新质谱图进行预处理,检测出有效谱峰并删除干扰谱峰;
构建模块11,根据所述有效谱峰构建有向无环图;
候选肽段生成模块12,用于在所述有向无环图中寻找符合权重规则的路径,并根据所述路径生成候选肽段;
排序输出模块13,用于将所述候选肽段与所述新质谱图进行匹配打分,按照打分结果将所述候选肽段进行排序并输出。
该系统也要在之前先设定必要的从头测序参数,包括母离子与碎片离子的误差、选用的离子类型、氨基酸的质量值、酶切类型、谱图文件路径、输出文件路径等。
预处理模块10中的操作方式为,按照指定的文件路径,读取质谱图信息,将来自于同一个HCD与ETD谱图文件对应起来。一般来讲,由于质谱仪的设置是固定的,因此同一个母离子碎裂形成的不同文件,它们的扫描号的差值是固定的。
预处理模块10包括:
设置模块,将谱图中的所有谱峰权重设置为谱峰强度的自然对数值。
判断模块,判断谱峰的电荷状态,并挑选单同位素谱峰。
第一删除模块,根据所述自然对数值删除比所述单同位素谱峰强度小的谱峰;
第二删除模块,将所述新质谱图中的对应母离子附近的谱峰,以及其中性丢失,如失去水分子及氨分子的谱峰删除。这是由于母离子相关谱峰强度通常比较大,它们对肽段从头测序没有帮助反而有误导作用,其中谱图中没有碎裂的整个肽段离子称为母离子。
判断模块的操作方式为,假设母离子电荷为e,对于一根谱峰,若它在同位素峰序列中,依此按e,e-1,e-2,e-3,…,2+,1+,找出最适合该同位素峰序列的价态。再选取同位素峰序列中质荷比最小的谱峰p以及比p强度大的所有谱峰。保留强度比谱峰p强度大的谱峰一是避免删除部分有效峰,二是在ETD谱图中还包含大量的c-H离子和z+H离子。对于那些不在同位素峰序列中的谱峰,ETD只考虑1+,而HCD既考虑1+又考虑2+,然后,把所有峰谱根据它们可能的电荷状态转换成单电荷谱峰。
构建模块11包括:
结点生成模块,将谱图的谱峰按照不同离子的假设,生成不同的结点。结点的质荷比与权重和原谱峰相等。
结点合并模块,步骤21中产生的所有结点中,如果有质量非常接近的,则将它们合并为一个结点,新结点的质荷比等于它们质荷比的平均值,而权重等于它们的权重之和。
添加起始结点和终止结点,它们的质荷比分别为0和母离子质量M减一个水分子(H2O)的质量,权重均设置为0。
关联图生成模块,对任意两个结点,如果它们的质荷比相差δ等于一个或者两个氨基酸质量之和,则它们之间连接一条边。这样,就根据谱峰及其质量之间的关系,得到了一张谱峰关联图。特别地,由于其自身的特征,它是一张有向无环图。
结点生成模块的具体操作方式为,对于HCD谱图,考虑y,b,a,y-NH3,y-H2O,bH2O和bNH3离子。对于ETD谱图,考虑c,z,cH和z+H离子。离子类型的获得也可以使用离子类型发现算法进行独立的处理与发现,然后在本步骤内指定。之后,把每根谱峰按离子类型转化成对应碎裂位置的单电荷的b离子。最后,把HCD与ETD所有的谱峰合并构成一个新谱图。
如图3所示,图3是不同离子类型的区别示意图。图中的肽段序列由4个氨基酸组成。对于不同氨基酸之间的肽键连接(以粗线标记),断裂后形成的N端和C端离子分别称为b离子和y离子。类似的,在肽键的两侧断裂可以分别形成a离子和x离子,c离子和z离子。离子的下标值代表了该离子含有氨基酸的个数。例如y3代表了该肽段的一种具体的碎片离子,含有3个氨基酸。碎片离子可以发生中性丢失,例如y离子丢失氨分子或水分子可分别表示为yNH3和y--H2O。由于在各种不同类型的谱图中离子的强度不同,对于HCD谱图,主要考虑y,b,a,y-NH3,y-H2O,bH2O和b-NH3离子。对于ETD谱图,则考虑c,z,cH和z+H离子。
结点合并模块的具体操作方式为,扫描所有的谱峰,如果发现两根谱峰的间距小于等于设定的阈值d,则将它们合并为一个结点,新结点的质荷比等于它们质荷比的平均值,权重则等于它们的权重之和。阈值d可以为事先设置的碎片离子误差值,如0.01Da。
将所有的结点按照质荷比的大小按照从小到大排序,然后,在该序列的首尾分别加入两个结点,它们的质荷比分别为0和母离子质量M减一个水分子(H2O)的质量,权重均设置为0。这里,权重也可以置为任意数值,由于每条路径都会经过这两个结点,因此它们的权重值对算法的精度没有影响。
关联图生成模块的具体操作方式为,首先计算所有氨基酸的质量值以及两种氨基酸组合的质量值,并将所有的质量值进行排序,生成有序表D。然后,计算任意两个结点之间的质荷比差值。由于在上述步骤中,所有结点均对应了一个单电荷的b离子,因此,这个差值即为质量差值。将此差值在D中寻找与其对应的氨基酸或氨基酸组合,并把这两个结点的边标记为这些氨基酸或氨基酸组合。例如,如果两个结点之间的差值为129.06,这是氨基酸Q的质量,同时也是氨基酸组合AG的质量,因此,这条边被标记为[Q/AG/GA],代表这条边对应的氨基酸可能有以上三种排列情况。
在关联图生成模块中,如果事先指定了某些可能的修饰质量,比如在氨基酸M上增加15.99Da。如果所有的M均要求增加,则直接在步骤1034执行之前改变M的质量。另一种情况,是M增加15.99Da或不增加任何质量,这两种情况同时存在。这时候,本发明使用一个未被氨基酸表示利用的字母,如J,表示M增加15.99Da的质量,M仍然表示其原始质量。
候选肽段生成模块12包括,
计算权重模块,使用图论中的前k长路径搜索算法,得到上述有向无环图中权重最高的部分路径。需要设置保存路径数的最大限制P。在算法运行过程中,利用最大优先队列随时保存该图中权重最高的不超过P条路径。路径的权重定义为路径经过结点的所有权重之和。
搜索序列模块,对上述获得的路径,采用宽度优先搜索的方法,生成具有确定序列的候选肽段。
搜索序列模块的具体操作方式为,对于每条路径,考虑其中的每条边对应的所有可能氨基酸的排列,生成对应的肽段序列。例如,对于某条路径p,它对应的所有边的标记依次为A、E、H、V、[Q/AG/GA]、T、[N/GG]、K,则共有六条肽段被生成:AEHVQTNK、AEHVQTGGK、AEHVAGTNK、AEHVAGTGGK、AEHVGATNK、AEHVGATGGK。生成方式为采用宽度优先搜索,对每一条路径从左至右依次扫描生成所有合适的肽段序列。
排序输出模块13包括:
筛选排序模块,对于候选肽段进行粗筛选,使用简单规则进行排序,并筛选出排名较高的部分序列。
匹配打分模块,对筛选出的若干结果,进行肽段和谱图匹配的打分,并按照分数值进行排序,得到排名靠前的部分结果。将得到的序列结果信息输出到指定的文件。
筛选排序模块的具体实施方式为,首先定义变量GAPpep如下:
GAPpep=Lpep-Lpath
上述等式中,Lpep是肽段中氨基酸的数目,Lpath是生成该肽段所在路径的边的数目。对于一个肽段,GAP值越小,认为该肽段越可信。因此,在本步骤中首先对所有候选肽段按GAP值从小到大排序。例如,对于上述路径A、E、H、V、[Q/AG/GA]、T、[N/GG]、K产生的肽段中,肽段AEHVQTNK的GAP值为0,而AEHVAGTGGK的GAP值为2。因此,AEHVQTNK应排在AEHVAGTGGK的前面。根据预先设置的阈值T,最多有T条候选肽段被保留下来。
匹配打分模块的具体实施方式为,给定谱图S和肽段P,假定有n根谱峰匹配上肽段P的碎裂离子,则S和P的匹配打分为:
其中,k1和t是可变参数,pi是第i根匹配上S的谱峰,avrg_length是所有候选肽段的平均长度,它可以从实验谱的母离子质量估计而来,mass_error表示实验离子与理论离子的质量偏差绝对值,intensity(pi)表示pi峰的强度,len(p)表示肽段P的长度。对于HCD和ETD谱图,分别计算肽段与这两个谱图的打分分数,并相加,作为最终的结果分数。
当然,本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
Claims (10)
1.一种基于HCD与ETD质谱图的肽段从头测序方法,其特征在于,包括:
步骤1,将HCD与ETD的质谱图对应起来形成一个新质谱图,对所述新质谱图进行预处理,检测出有效谱峰并删除干扰谱峰;
步骤2,根据所述有效谱峰构建有向无环图;
步骤3,在所述有向无环图中寻找符合权重规则的路径,并根据所述路径生成候选肽段;
步骤4,将所述候选肽段与所述新质谱图进行匹配打分,按照打分结果将所述候选肽段进行排序并输出。
2.如权利要求1所述的肽段从头测序方法,其特征在于,所述步骤1包括:
步骤11,将所述新质谱图中的所有谱峰权重设置为谱峰强度的自然对数值;
步骤12,判断谱峰的电荷状态,并挑选单同位素谱峰;
步骤13,根据所述自然对数值删除比所述单同位素谱峰强度小的谱峰;
步骤14,将所述新质谱图中的对应母离子附近的谱峰删除,其中谱图中没有碎裂的整个肽段离子称为母离子。
3.如权利要求1所述的肽段从头测序方法,其特征在于,所述步骤2包括:
步骤21,将所述有效谱峰按照其离子生成多种结点,所述多种结点的质荷比与权重和其相应的原谱峰相等;
步骤22,在所述多种结点中,将质量接近的多个结点合并为一个新结点,该新结点的质荷比等于所述多个结点质荷比的平均值,该新结点的权重等于所述多个节点的权重之和;
步骤23,根据谱峰及其质量之间的关系,将质荷比相差为一个氨基酸质量或者两个氨基酸质量之和的任意两个结点之间连接一条边,得到所述有向无环图。
4.如权利要求1所述的肽段从头测序方法,其特征在于,所述步骤3包括:
步骤31,利用前k长路径搜索算法得到所述有向无环图中权重最高的部分路径;
步骤32,对所述部分路径,采用宽度优先搜索的方法,生成具有确定序列的候选肽段。
5.如权利要求1所述的肽段从头测序方法,其特征在于,所述步骤4包括:
步骤41,对于所述候选肽段进行筛选并排序,得到排名符合条件的部分序列;
步骤42,对所述部分序列进行肽段和谱图匹配的打分,并按照分数值进行排序,得到排名符合条件的部分肽段排序结果并输出。
6.一种基于HCD与ETD质谱图的肽段从头测序系统,其特征在于,包括:
预处理模块,用于将HCD与ETD的质谱图对应起来形成一个新质谱图,对所述新质谱图进行预处理,检测出有效谱峰并删除干扰谱峰;
构建模块,根据所述有效谱峰构建有向无环图;
候选肽段生成模块,用于在所述有向无环图中寻找符合权重规则的路径,并根据所述路径生成候选肽段;
排序输出模块,用于将所述候选肽段与所述新质谱图进行匹配打分,按照打分结果将所述候选肽段进行排序并输出。
7.如权利要求6所述的肽段从头测序系统,其特征在于,所述预处理模块包括:
设置模块,将所述新质谱图中的所有谱峰权重设置为谱峰强度的自然对数值;
判断模块,判断谱峰的电荷状态,并挑选单同位素谱峰;
第一删除模块,根据所述自然对数值删除比所述单同位素谱峰强度小的谱峰,并根据所述自然对数值删除与肽段母离子对应的谱峰;
第二删除模块,将所述新质谱图中的对应母离子附近的谱峰删除,其中谱图中没有碎裂的整个肽段离子称为母离子。
8.如权利要求6所述的肽段从头测序系统,其特征在于,所述构建模块包括:
结点生成模块,将所述有效谱峰按照其离子生成多种结点,所述多种结点的质荷比与权重和其相应的原谱峰相等;
结点合并模块,在所述多种结点中,将质量接近的多个结点合并为一个新结点,该新结点的质荷比等于所述多个结点质荷比的平均值,该新结点的权重等于所述多个节点的权重之和;
关联图生成模块,根据谱峰及其质量之间的关系,将质荷比相差为一个氨基酸质量或者两个氨基酸质量之和的任意两个结点之间连接一条边,得到所述有向无环图。
9.如权利要求6所述的肽段从头测序系统,其特征在于,所述候选肽段生成模块包括:
计算权重模块,利用前k长路径搜索算法得到所述有向无环图中权重最高的部分路径;
搜索序列模块,对所述部分路径,采用宽度优先搜索的方法,生成具有确定序列的候选肽段。
10.如权利要求6所述的肽段从头测序系统,其特征在于,所述排序输出模块包括:
筛选排序模块,对于所述候选肽段进行筛选并排序,得到排名符合条件的部分序列;
匹配打分模块,对所述部分序列进行肽段和谱图匹配的打分,并按照分数值进行排序,得到排名符合条件的部分肽段排序结果并输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210501813.XA CN103852513B (zh) | 2012-11-29 | 2012-11-29 | 一种基于hcd与etd质谱图的肽段从头测序方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210501813.XA CN103852513B (zh) | 2012-11-29 | 2012-11-29 | 一种基于hcd与etd质谱图的肽段从头测序方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103852513A CN103852513A (zh) | 2014-06-11 |
CN103852513B true CN103852513B (zh) | 2016-01-06 |
Family
ID=50860421
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210501813.XA Active CN103852513B (zh) | 2012-11-29 | 2012-11-29 | 一种基于hcd与etd质谱图的肽段从头测序方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103852513B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104134015B (zh) * | 2014-07-25 | 2017-05-03 | 中国科学院计算技术研究所 | 一种蛋白质翻译后修饰的定位方法及系统 |
CN104182658B (zh) * | 2014-08-06 | 2017-05-03 | 中国科学院计算技术研究所 | 一种串联质谱谱图鉴定方法 |
CN104951668A (zh) * | 2015-04-07 | 2015-09-30 | 上海大学 | 基于级联神经网络结构的蛋白质关联图的预测方法 |
CN106872554B (zh) * | 2015-12-13 | 2019-06-11 | 中国科学院大连化学物理研究所 | 基于模糊判别和逻辑推理的蛋白酶解液的分析方法 |
CN106198706B (zh) * | 2016-06-29 | 2019-02-01 | 中国科学院计算技术研究所 | 一种对多肽交联肽段进行质谱鉴定的假发现率控制方法 |
CN109544344B (zh) * | 2018-12-24 | 2021-07-02 | 众安信息技术服务有限公司 | 基于dag的区块链的交易处理方法及设备 |
CN116486907B (zh) * | 2023-01-10 | 2024-04-30 | 湖南工商大学 | 一种基于a星算法的蛋白质序列标签测序方法 |
CN116248680B (zh) * | 2023-05-11 | 2023-08-01 | 湖南工商大学 | 一种从头肽段测序方法、装置及相关设备 |
CN116825198B (zh) * | 2023-07-14 | 2024-05-10 | 湖南工商大学 | 基于图注意机制的肽序列标签鉴定方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1340162A (zh) * | 1999-01-20 | 2002-03-13 | 宝洁公司 | 多肽测序的方法和试剂盒 |
CN1749269A (zh) * | 2004-07-16 | 2006-03-22 | 安捷伦科技有限公司 | 用于串联质谱从头测序的肽的连续衍生化 |
EP2081025A1 (en) * | 2008-01-15 | 2009-07-22 | Universiteit Utrecht Holding B.V. | Method for determining the amino acid sequence of peptides |
CN101871945A (zh) * | 2010-06-13 | 2010-10-27 | 中国科学院计算技术研究所 | 谱库的生成方法和串联质谱谱图鉴定方法 |
-
2012
- 2012-11-29 CN CN201210501813.XA patent/CN103852513B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1340162A (zh) * | 1999-01-20 | 2002-03-13 | 宝洁公司 | 多肽测序的方法和试剂盒 |
CN1749269A (zh) * | 2004-07-16 | 2006-03-22 | 安捷伦科技有限公司 | 用于串联质谱从头测序的肽的连续衍生化 |
EP2081025A1 (en) * | 2008-01-15 | 2009-07-22 | Universiteit Utrecht Holding B.V. | Method for determining the amino acid sequence of peptides |
CN101871945A (zh) * | 2010-06-13 | 2010-10-27 | 中国科学院计算技术研究所 | 谱库的生成方法和串联质谱谱图鉴定方法 |
Non-Patent Citations (2)
Title |
---|
Effectiveness of CID, HCD, and ETD with FT MS/MS for Degradomic-Peptidomic Analysis: Comparison of Peptide Identification Methods;Yufeng Shen等;《Journal of Proteome Research》;20110616;第10卷;第3929-3943页 * |
串联质谱图谱从头测序算法研究进展;孙汉昌等;《生物化学与生物物理进展》;20101231;第37卷(第12期);第1278-1288页 * |
Also Published As
Publication number | Publication date |
---|---|
CN103852513A (zh) | 2014-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103852513B (zh) | 一种基于hcd与etd质谱图的肽段从头测序方法及系统 | |
CN102495127B (zh) | 一种基于概率统计模型的蛋白质二级质谱鉴定方法 | |
CN103810200B (zh) | 开放式蛋白质鉴定的数据库搜索方法及其系统 | |
JP6020315B2 (ja) | 質量分析データ処理方法及び質量分析データ処理装置 | |
CN104076115B (zh) | 基于峰强度识别能力的蛋白质二级质谱鉴定方法 | |
CN113362899B (zh) | 一种基于深度学习的蛋白质质谱数据的分析方法及系统 | |
Kim et al. | Combined analysis of double Higgs production via gluon fusion at the HL-LHC in the effective field theory approach | |
WO2005090963A1 (en) | Method of identifying sugar chain structure and apparatus for analyzing the same | |
CN103902591A (zh) | 构建决策树分类器的方法及装置 | |
CN104182658B (zh) | 一种串联质谱谱图鉴定方法 | |
CN104215729B (zh) | 串联质谱数据母离子检测模型训练方法及母离子检测方法 | |
CN106529204B (zh) | 一种基于半监督学习的交联质谱多谱排序方法 | |
CN106018535A (zh) | 一种完整糖肽鉴定的方法与系统 | |
CN104965020A (zh) | 多级质谱生物大分子结构鉴定方法 | |
CN107220625A (zh) | 一种对样品的libs光谱自动识别分类方法 | |
CN101055558B (zh) | 基于质谱数据同位素模式的质谱有效峰选取方法 | |
Zhang et al. | Improved approximation algorithms for the maximum happy vertices and edges problems | |
CN106033501B (zh) | 一种交联二肽快速鉴定方法 | |
CN103324888A (zh) | 基于家族样本的病毒特征自动提取方法及系统 | |
CN108108659B (zh) | 基于经验模态分解的孤岛检测关键特征提取方法 | |
CN108491690A (zh) | 一种蛋白质组学中肽段的肽段定量效率预测方法 | |
Basharat et al. | TopFD-a proteoform feature detection tool for top-down proteomics | |
CN106770605B (zh) | 从头测序方法及装置 | |
CN106404878A (zh) | 基于多组学丰度信息的蛋白质二级质谱鉴定方法 | |
CN105758928A (zh) | 一种糖结构鉴定方法及糖结构鉴定装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder |
Address after: 100190 No. 6 South Road, Zhongguancun Academy of Sciences, Beijing, Haidian District Patentee after: Institute of Computing Technology, Chinese Academy of Sciences Patentee after: NATIONAL INSTITUTE OF BIOLOGICAL SCIENCES, BEIJING Address before: 100190 No. 6 South Road, Zhongguancun Academy of Sciences, Beijing, Haidian District Patentee before: Institute of Computing Technology, Chinese Academy of Sciences Patentee before: NATIONAL INSTITUTE OF BIOLOGICAL SCIENCES, BEIJING |
|
CP01 | Change in the name or title of a patent holder |