CN104134015B - 一种蛋白质翻译后修饰的定位方法及系统 - Google Patents

一种蛋白质翻译后修饰的定位方法及系统 Download PDF

Info

Publication number
CN104134015B
CN104134015B CN201410360277.5A CN201410360277A CN104134015B CN 104134015 B CN104134015 B CN 104134015B CN 201410360277 A CN201410360277 A CN 201410360277A CN 104134015 B CN104134015 B CN 104134015B
Authority
CN
China
Prior art keywords
modification
quality
amino acid
protein
protein sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410360277.5A
Other languages
English (en)
Other versions
CN104134015A (zh
Inventor
罗兰
孙瑞祥
迟浩
贺思敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201410360277.5A priority Critical patent/CN104134015B/zh
Publication of CN104134015A publication Critical patent/CN104134015A/zh
Application granted granted Critical
Publication of CN104134015B publication Critical patent/CN104134015B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明提供一种蛋白质翻译后修饰的定位方法,包括对于一条蛋白质序列,计算发生的修饰的总质量,得到该总质量对应的一个或多个修饰组合;将与所述蛋白质序列上的每个氨基酸对应的一个或多个修饰集合作为图中的顶点,根据所述一个或多个修饰组合连接该顶点,并且根据与所述蛋白质序列对应的谱图设置该顶点的权值。其中,所述修饰集合是从所述蛋白质序列的第一个氨基酸到对应的氨基酸上能够发生的修饰的集合并且是所述一个或多个修饰组合中的一个修饰组合的子集。所述方法还包括根据路径上所有顶点的权值选择所述图中的路径,并且将该路径转换为修饰位点信息。本发明提高了对修饰位点的定位速度,并且同时支持用户指定的任意修饰。

Description

一种蛋白质翻译后修饰的定位方法及系统
技术领域
本发明涉及生物信息学领域,以及更具体地,涉及一种蛋白质翻译后修饰的定位方法及系统。
背景技术
在基于质谱技术的计算蛋白质组学领域里,常用的蛋白质鉴定方法是“自底向上(Bottom-up,BU)”的数据库搜索算法,即先鉴定酶切肽段,然后根据鉴定到的肽段推断蛋白质。尽管这种方法简单易操作并且灵敏度和通量均比较高,但是肽段在酶切过程中丢失了原始蛋白质的一些信息,直接由鉴定肽段推断出原始蛋白质由于缺乏信息具有很多不确定性的因素,而且有些被鉴定到的蛋白质仅有少数几条肽段,蛋白质序列覆盖率低,特别是对于发生多翻译后修饰(蛋白质的氨基酸侧链上结合了一些调控生命过程的化学基团)的蛋白质鉴定、修饰间的相互作用等研究无法提供足够的信息。而“自顶向下(Top-down,TD)”的蛋白质鉴定方法则不需要酶切,可以具有完整的翻译后修饰信息,能够直接对原始蛋白质变体(“Proteoform”)进行鉴定。其中,蛋白质变体是指由同一个基因所形成的所有不同形式的蛋白质分子。由基因到蛋白质,中途的基因突变、RNA可变剪切和蛋白质上翻译后修饰等情况都可能会导致相同的基因产生不同形式的蛋白质,它们统称为蛋白质变体。
随着分离技术和质谱技术的快速发展,利用质谱仪检测蛋白质的技术越来越成熟,但是后端的生物信息学分析技术的发展非常缓慢,目前可用的完整蛋白质鉴定方法非常少,而且运行速度较慢、对多修饰的处理能力有限。其中,ProSight软件仅能够鉴定通过“鸟枪法”标注的那部分修饰位点;MS-Align-E虽然支持用户指定任意的修饰,但是消耗的时间和空间都非常大;研究人员还指出:在3.4GHz的PC机上采用3252张谱图搜索1个目标蛋白质需要超过8小时的时间,若搜索整个人类蛋白质序列库中的9万多个蛋白质,则时间可能需要按月来计。这主要是因为对于完整蛋白质来说,由于序列较长、可能的修饰位点数较多,枚举所有修饰位点是否发生修饰以及发生何种修饰是对计算的极大挑战。如果在蛋白质序列上有t种不同的可修饰氨基酸,每种氨基酸各有m1,m2,...,mt个,而每个氨基酸上可以发生的修饰数目分别为n1,n2,...,nt种,则一共需枚举种情况。以人类组蛋白H4为例,通过UniProt数据库中的修饰位点信息计算理论的蛋白质变体形式就有260亿种。
综上所述,现有的修饰定位技术或者不支持用户指定任意修饰,或者虽然支持用户指定任意的修饰但定位速度很慢。
发明内容
为提高对修饰位点进行定位的速度并且同时支持用户指定任意修饰,根据本发明的一个实施例,提供一种蛋白质翻译后修饰的定位方法,包括:
步骤1)、对于一条蛋白质序列,计算发生的修饰的总质量,得到该总质量对应的一个或多个修饰组合;
步骤2)、将与所述蛋白质序列上的每个氨基酸对应的一个或多个修饰集合作为图中的顶点,根据所述一个或多个修饰组合连接该顶点,并且根据与所述蛋白质序列对应的谱图设置该顶点的权值;其中,所述修饰集合是从所述蛋白质序列的第一个氨基酸到对应的氨基酸上能够发生的修饰的集合并且是所述一个或多个修饰组合中的一个修饰组合的子集;
步骤3)、根据路径上所有顶点的权值选择所述图中的路径,并且将该路径转换为修饰位点信息。
在一个实施例中,在步骤2)中,按照以下步骤连接图中的顶点:
对于相邻的氨基酸对应的两个修饰集合B、B’,其中B’是后一个氨基酸对应的修饰集合,如果B=B’,则在所述图中建立从B对应的顶点到B’对应的顶点的有向边;或者如果B’=B∪{x},并且修饰x属于所述一个或多个修饰组合并且能够发生在B’对应的氨基酸上,则在所述图中建立从B对应的顶点到B’对应的顶点的有向边。
在一个实施例中,在步骤2)中,根据顶点对应的蛋白质的N端和C端离子与谱图中谱峰的匹配结果设置该顶点的权值,包括以下步骤:
步骤A)、根据与所述蛋白质序列对应的谱图中谱峰的质量建立哈希表M,以及计算所述顶点对应的蛋白质的N端和C端离子的质量并且向下取整;其中,哈希表M中的第i个元素表示质量为i,其元素值表示质量为i的谱峰的编号;
步骤B)、对于取整后的N端和C端离子的质量,查询与其中每个质量匹配的谱峰;其中,查找与一个质量m匹配的谱峰包括:
查询哈希表M得到第m个元素和第m+1个元素所对应的谱峰的编号M[m]和M[m+1],如果在M[m]和M[m+1]之间存在质量在m的允许误差范围内的谱峰,则质量m有匹配上的谱峰;
步骤C)、如果取整后的N端和C端离子的质量均有匹配上的谱峰,则将所述顶点的权值设置为2;如果取整后的N端和C端离子的质量的其中一个有匹配上的谱峰,则将所述顶点的权值设置为1;否则设置为0。
在进一步的实施例中,按照以下步骤建立哈希表M:
步骤a)、为哈希表M分配预定空间;
步骤b)、依次读入与所述蛋白质序列对应的谱图中的每个谱峰,将该谱峰的质量向下取整为n,如果哈希表M中的第n个元素为空则将该谱峰的编号写入第n个元素;
步骤c)、当所有谱峰读入完毕,将哈希表M中为空的元素写入前一元素的值。
在一个实施例中,步骤3)包括:选择路径上所有顶点的权值之和较大的前k条路径。
在一个实施例中,在步骤3)中,按照以下步骤将所选择的路径转换为修饰位点信息:
从所选择的路径的起点开始遍历,如果相邻顶点中后一个顶点对应的修饰集合B’比前一个顶点对应的修饰集合B多一个修饰,则与修饰集合B’对应的氨基酸上发生了该修饰,将该修饰与修饰位点对加入该路径的修饰位点信息。
在一个实施例中,步骤1)之前还包括:根据用户指定的修饰,建立修饰组合与该修饰组合的质量的索引表;其中所述修饰组合中的修饰数目小于预定数目且所述修饰组合的质量小于预定质量。步骤1)包括:
步骤11)、根据所述蛋白质序列的每个氨基酸残基的质量计算蛋白质的理论质量;并且根据与所述蛋白质序列对应的谱图计算该谱图的母离子质量;
步骤12)、将所述母离子质量与所述理论质量的差值作为发生的修饰的总质量;
步骤13)、查询索引表得到该总质量对应的一个或多个修饰组合。
在一个实施例中,所述方法还包括:
步骤4)、根据所述修饰位点信息与所述蛋白质序列构成候选蛋白质变体,根据候选蛋白质变体与所述谱图的匹配程度选择一个蛋白质变体。
在进一步的实施例中,步骤4)包括:
步骤41)、根据与所选路径对应的修饰位点信息和所述蛋白质序列构成候选蛋白质变体,按照其谱图碎裂方式生成与候选蛋白质变体对应的理论碎片离子;
步骤42)、将所得到的理论碎片离子质量与所述谱图进行匹配,根据匹配上的谱峰的强度和匹配偏差对与该匹配对应的候选蛋白质变体打分;
步骤43)、选择打分最高的候选蛋白质变体作为结果。
根据本发明的一个实施例,还提供一种蛋白质翻译后修饰的定位系统,包括:
用于对于一条蛋白质序列,计算发生的修饰的总质量,得到该总质量对应的一个或多个修饰组合的设备;
用于将与所述蛋白质序列上的每个氨基酸对应的一个或多个修饰集合作为图中的顶点,根据所述一个或多个修饰组合连接该顶点,并且根据与所述蛋白质序列对应的谱图设置该顶点的权值的设备;其中,所述修饰集合是从所述蛋白质序列的第一个氨基酸到对应的氨基酸上能够发生的修饰的集合并且是所述一个或多个修饰组合中的一个修饰组合的子集;
用于根据路径上所有顶点的权值选择所述图中的路径,并且将该路径转换为修饰位点信息的设备。
采用本发明可以达到如下的有益效果:
1、根据实验与理论母离子之间的质量差推测修饰组合,缩减了搜索修饰组合的空间,避免了枚举其他无效的修饰组合,提高了定位的时间效率。
2、根据用户指定的可变修饰生成索引表,方便对每组输入谱图与蛋白质序列对进行检索,从而定位修饰组合。
3、采用构建有向无环图的方法进行修饰定位,在计算碎片离子质量时,由于图中每层顶点所对应的氨基酸残基质量和相等,所以对于每层顶点该氨基酸残基质量和无需重复计算,从而进一步提高了定位的时间效率。
通过实验发现,本发明提供的方法与现有技术相比,定位速度可提高30-50倍。
附图说明
以下附图仅对本发明做示意性说明和解释,并不限定本发明的范围,其中:
图1是根据本发明一个实施例的蛋白质翻译后修饰的定位方法的流程图;
图2是根据本发明一个实施例的蛋白质翻译后修饰的定位方法的示意图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图说明本发明的具体实施方式。
根据本发明的一个实施例,提供一种蛋白质翻译后修饰的定位方法。
参考图1且概括而言,该方法可包括:第一步、根据用户指定的可变修饰,建立修饰总质量与对应的修饰组合的索引表;第二步、对于待定位的蛋白质序列及其对应的谱图,按照实验和理论母离子之间的质量差,查询索引表并得到该质量差所对应的修饰组合;第三步、根据谱图及其对应的蛋白质序列和修饰组合构建有向无环图,寻找顶点权值之和最大的前k名路径,生成该路径对应的修饰位点信息;第四步、将修饰位点信息与蛋白质序列一起构成候选蛋白质变体,并将其与对应的谱图进行匹配细打分,最后选择打分最高的结果输出。下面将分别描述这些步骤:
第一步:输入用户指定的可变修饰,根据各修饰质量生成所有可能的修饰组合,建立修饰总质量与对应的修饰组合的索引表。其中,可变修饰与固定修饰相对,是指蛋白质序列中的氨基酸上可能发生该修饰,也可能不发生。
在一个实施例中,本步骤可包括以下子步骤:
1、设置参数,包括每个蛋白质允许发生的最大修饰数目、最大修饰总质量,以及各氨基酸的残基质量等。
2、输入用户指定的可变修饰信息(包括修饰名称、质量、位点、类型等信息)、读入内存,并按输入顺序进行编号。
3、将每个修饰的质量分别取整后(例如四舍五入)存入数组A中。
4、对用户输入的每个修饰,设定一个计数器并初始化为0。这些计数器记录在当前考虑的修饰组合中对应修饰的数目。
5、开辟一个三维数组,用于存储修饰总质量所对应的修饰组合。
6、按照修饰的编号,依次考虑修饰组合的起点并移动修饰组合终点的位置,考虑该修饰组合的中间能加入哪些修饰,同时记录当前修饰组合的总质量,并且将该修饰组合存储到三维数组中该总质量所对应的二维数组中,直至生成的修饰组合中的修饰超过最大修饰数目或者总质量超过最大修饰总质量时停止。从而得到修饰组合与对应的修饰总质量的索引表。
举例来说,假设有编号为0、1、2的三种修饰,先设定修饰组合的起点和终点都是0,则得到的修饰组合就有0,00,000,…,直到修饰数目或总质量超过限制。然后终点设为1,可以得到01,001,0001,…,00..01;011,0011,…,0…011;0111,00111,…,0…0111等等。接着设定起点为0终点为2,以此类推,就生成了所有可能的修饰组合。
以上描述了生成修饰组合的一种方式,应理解可采用任何公知的组合方式来组合所输入的修饰,并且将生成的修饰总质量以及对应的修饰组合分别存入索引表中。其中,所生成的修饰组合不超过所设置的最大修饰数目,并且修饰总质量不超过所设置的最大修饰总质量
第二步:输入待定位的蛋白质序列及其对应的谱图,按照实验和理论母离子之间的质量差,查询第一步得到的索引表并得到该质量差所对应的修饰组合。
在一个实施例中,本步骤可包括以下子步骤:
1、对输入的蛋白质序列,根据其每个氨基酸残基的质量计算该蛋白质的理论质量。
2、根据谱图采集时选择离子的单同位素峰和离子电荷,计算出该谱图的母离子质量。将该质量减去上一步中得到的理论质量即可以得到可能发生的修饰的总质量。
3、根据上一步推出的修饰的总质量,查询第一步中得到的索引表,得到与该修饰总质量对应的所有修饰组合情况。
第三步:根据谱图及对应的蛋白质序列和所有修饰组合构建有向无环图,寻找顶点权值之和最大的前k名路径,生成该路径对应的修饰位点信息。
在一个实施例中,本步骤可以包括如下子步骤:
1、对于输入的谱图、对应的蛋白质序列和从上一步得到的所有修饰组合,构建顶点带有权值的有向无环图G,具体包括:
a、将谱图中所有的谱峰按照谱峰质量建立哈希表M(例如可采用数组形式),即预先分配足够大的空间给哈希表M并初始化为全0,依次读入该谱图中所有的谱峰(应理解,输入谱图中的谱峰是按照谱峰质量有序的),将谱峰的质量向下取整为m,若在M中第m个元素的值为0,则将读入谱峰的编号写入到M的第m个元素,否则继续读入下一根谱峰。当所有谱峰读入完毕之后,扫描一遍数组M,若M的某一元素为0,则将其值赋为前一个元素值。
b、根据蛋白质序列,依次考虑每个氨基酸,生成其在有向无环图G中对应的顶点集。将图G中的顶点按照蛋白质序列分层,第i层的顶点记为[i,B],每层因对应的B不同可能有多个顶点。其中,i表示氨基酸在蛋白质序列中的位置,即层数;B表示蛋白质中从第1到第i的所有氨基酸上发生的修饰集合,是根据质量差得到的所有修饰组合(即输入的修饰组合)中的一个修饰组合的子集,可以为空。
c、生成G中相邻层次的顶点间的有向边,其中只有第i层与第i+1层之间满足一定的关系才会连边,即如果结点[i,B]与[i+1,B’]之间满足以下两个条件之一:(1)B=B’;(2)B'=B∪{x},其中修饰x属于输入的修饰组合且可以发生在第i+1个氨基酸上;则这两个顶点之间存在一条从[i,B]到[i+1,B’]的边。
d、求所有顶点的权值。
其中所有顶点的初始权值为0,对于顶点[i,B],计算出其对应的蛋白质的N端(左端)和C端(右端)离子的质量。接着,根据得到的质量分别去查询哈希表M,根据查询结果设置该顶点的权值。包括以下过程:
d1、对于顶点[i,B],N端离子的计算方式为:结合谱图的碎裂方式,考虑蛋白质序列从第1个氨基酸到第i个氨基酸的所有氨基酸残基质量和,并且加上修饰组合B中所有修饰的质量和。
d2、对于顶点[i,B],C端离子的计算方式为:结合谱图的碎裂方式,考虑蛋白质序列从最后一个氨基酸到第i个氨基酸的所有氨基酸残基质量和,并且加上修饰组合的总质量与修饰集合B的总质量的差。
对于第i层的所有顶点来说,从第1个氨基酸到第i个氨基酸的所有氨基酸残基质量和,以及从最后一个氨基酸到第i个氨基酸的所有氨基酸残基质量和是相同的,因此无需对每个顶点重复计算,提高了效率。
d3、分别利用步骤d1和d2得到的质量去查询哈希表M。
每个质量的查询方法如下:将该质量向下取整后得到m,查询哈希表M的第m和第m+1个元素对应的元素值,依次考虑编号为M[m]和M[m+1]之间的谱峰是否在查询质量的允许误差范围内,若存在这样的谱峰,则认为该查询质量在输入谱图中有匹配上的谱峰,否则认为没有匹配上的谱峰。
举例来说,若编号为M[m]和M[m+1]之间的谱峰的质量为m1Da,由于质谱仪测量的谱峰质量存在一定的误差,如±0.001Da(一般是按ppm计,这里为了简便按Da计),在查询质量m是否匹配上该谱峰时,如果m在[m1-0.001,m1+0.001]的范围内,则认为匹配上;否则认为没有匹配上。
d4、若在哈希表M中能够查询到与N端和C端离子匹配的谱峰,则该顶点的权值为2,若只有一个能够查询到匹配谱峰,则该顶点的权值为1,否则权值为0。
2、图G中以蛋白质序列的第一个氨基酸对应的顶点为起点,以最后一个氨基酸对应的顶点为终点,寻找图G中从起点到终点的路径,选择路径上的顶点权值之和最大的前k条路径。
3、将得到的前k条路径转换为修饰在蛋白质序列上的位置信息,即修饰位点信息。其中,对于前k条路径中的每一条,按照下述过程转换为修饰位点信息:
a、从起点开始遍历,若第i+1个顶点对应的修饰集合B’比第i个顶点对应的修饰集合B多一个修饰,则蛋白质的第i+1个氨基酸上发生了该种修饰。
b、当遍历完该路径之后,就得到了修饰编号与修饰位点对的集合,将这些信息作为该蛋白质的修饰位点信息返回。
第四步:将修饰位点信息与蛋白质序列一起构成k个候选蛋白质变体,并将候选蛋白质变体与对应的谱图进行匹配细打分,最后选择打分最高的结果输出。
在一个实施例中,本步骤可包括以下子步骤:
1、根据修饰位点信息和输入的蛋白质序列构成的k个候选蛋白质变体,按照谱图碎裂方式生成该候选蛋白质变体的理论碎片离子。
2、将理论碎片离子与输入的谱图进行匹配,根据匹配上的谱峰的强度和偏差对每组匹配给一个打分。
匹配与上文计算有向无环图的顶点权值一样,采用理论的碎片离子质量m去查询谱峰,观察该质量m是否落在某个谱峰质量m1的±delta_M(系统偏差)之间。如果匹配上,则当谱峰强度越高,且偏差绝对值越小时,打分越高。
3、最后将打分最高的匹配所对应的蛋白质变体作为结果输出。
下文以用户指定的三种修饰类型Acetyl、Dimethyl和Methyl为例,描述本发明提供的蛋白质翻译后修饰的定位过程。其中,参数设置如下:每个蛋白质允许发生的最大修饰数目为10个,最大修饰总质量为1000Da。
步骤101、输入Acetyl、Dimethyl和Methyl信息,建立修饰总质量与对应的修饰组合的索引表。
具体过程包括:读取Acetyl、Dimethyl和Methyl信息、将名称、质量等信息读入内存,并将其编号分别设置为x1、x2和x3(参见图2)。将三种修饰的质量按四舍五入取整后存入数组A,得到A=[42,28,14]。对于每个修饰,设定一个计数器并且开辟一个三维数组B(索引表),用于存储所有可能的修饰总质量所对应的修饰组合(最大修饰数目不超过10个且最大修饰总质量不超过1000Da)。例如,以{1,1,2,3,3}表示一个修饰组合,其中发生了2个x1号修饰、1个x2号修饰和2个x3号修饰,则该修饰组合的质量为m=2×A[1]+A[2]+2×A[3],将该修饰组合作为数组B中的第m个元素所对应的二维数组中的一项。
步骤102、输入谱图及其对应的蛋白质序列,按照实验和理论母离子之间的质量差,查询步骤101中的索引表,得到该质量对应的修饰组合。
具体过程包括:对读入的蛋白质序列,根据每个氨基酸残基的质量计算该蛋白质的理论质量。读入谱图数据,根据该谱图采集时选择离子的单同位素峰和离子电荷,计算出该谱图的母离子质量。将该质量减去所计算的理论质量即可以得到可能发生的修饰的总质量。根据该修饰总质量,查询步骤101中得到的索引表,得到该质量对应的二维数组,即符合要求的所有的修饰组合。在本示例中,实验和理论质量差为84Da,通过查询索引表B得到{1,2,3},即表示蛋白质KGGAKRHRKV需要发生1个Acetyl、1个Dimethyl和1个Methyl修饰才能与输入的谱图在质量上一致。
步骤103、根据谱图及其对应的蛋白质序列和修饰组合,构建有向无环图,寻找顶点权值之和最大的前k名路径,生成前k名路径所对应的修饰位点信息。
具体过程包括以下3个子步骤:
1、根据输入的谱图、该谱图对应的蛋白质序列和步骤102中得到的修饰组合,构建顶点带有权值的有向无环图G。
如图2所示,修饰组合θ指示x1和x3号修饰可在K上发生且x2号修饰可在R上发生,则蛋白质序列KGGAKRHRKV的每个氨基酸可对应一个或多个顶点。在图2中,第0层为初始状态,只有一个空集B0,第1层的氨基酸K上可发生x1和x3号修饰,也可以不发生修饰,所以顶点包括[1,B0]、[1,B1]、[1,B3](图2中简化为B0、B1、B3),其中修饰集合B1={x1}、B3={x3}。由于同一个氨基酸上一般不能同时发生多个修饰,所以这一层只有这三种情况,其他层的顶点可依此类推。
2、在图G中以第0层的顶点为起点,以最后一个氨基酸V对应的顶点为终点,寻找图G中从起点到终点的顶点权值之和最大的前k条路径。如图2所示,虚线路径上的顶点的权值均为1且权值之和最大,则选择该路径。
3、将所选路径转换为修饰在蛋白质序列上的位置信息,即修饰位点信息。参见图2,由于上一步所选的路径为P=([0,B0],[1,B1],[2,B1],[3,B1],[4,B1],[5,B1],[6,B4],[7,B4],[8,B4],[9,B7],[10,B7]),则其对应的修饰位点信息为:x1号修饰发生在第一个氨基酸上,x2号修饰发生在第6个氨基酸上,以及x3号修饰发生在第9个氨基酸上。
步骤104、将步骤103得到的修饰位点信息与蛋白质序列构成候选蛋白质变体,将候选蛋白质变体与对应的谱图进行匹配细打分,最后将打分最高的结果作为结果输出。
具体过程包括:按照谱图碎裂方式生成这些蛋白质变体的理论碎片离子,将理论碎片离子与输入的谱图进行匹配,根据匹配上的谱峰的强度和偏差对每组匹配给出打分。最后将打分最高的蛋白质变体作为结果输出。图2仅示出了一个候选蛋白质变体,因此可省略本步骤。
为验证本发明提供的蛋白质翻译后修饰的定位方法及系统的有效性,发明人在人类IPI数据库(IPI Human v3.87)中分别对本发明提供的方法和现有技术(MS-Align-E)进行了实验,其中可变修饰包括Acetyl[K]、Acetyl[S]、Phospho[S]、Dimethyl[R]、Dimethyl[K]、Trimethyl[K]、Methyl[K]、Methyl[R]。实验结果表明:采用本发明提供的定位方法得到的结果与现有技术较一致,但现有技术在使用40G内存的情况下运行时间为3.18天,而本发明在使用1.2G内存的情况下运行时间为90分钟,速度提高了约50倍。
应当理解,虽然本说明书是按照各个实施例描述的,但并非每个实施例仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
以上所述仅为本发明示意性的具体实施方式,并非用以限定本发明的范围。任何本领域的技术人员,在不脱离本发明的构思和原则的前提下所作的等同变化、修改与结合,均应属于本发明保护的范围。

Claims (12)

1.一种蛋白质翻译后修饰的定位方法,包括:
步骤1)、对于一条蛋白质序列,计算发生的修饰的总质量,得到该总质量对应的一个或多个修饰组合;
步骤2)、将与所述蛋白质序列上的每个氨基酸对应的一个或多个修饰集合作为有向无环图中的顶点,根据所述一个或多个修饰组合连接该顶点,并且根据与所述蛋白质序列对应的谱图设置该顶点的权值;其中,所述修饰集合是从所述蛋白质序列的第一个氨基酸到对应的氨基酸上能够发生的修饰的集合并且是所述一个或多个修饰组合中的一个修饰组合的子集;
步骤3)、根据路径上所有顶点的权值选择所述有向无环图中的路径,并且将该路径转换为修饰位点信息;
在所述步骤2)中,按照以下步骤连接有向无环图中的顶点:
对于相邻的氨基酸对应的两个修饰集合B、B’,其中B’是后一个氨基酸对应的修饰集合,如果B=B’,则在所述有向无环图中建立从B对应的顶点到B’对应的顶点的有向边;或者
如果B’=B∪{x},并且修饰x属于所述一个或多个修饰组合并且能够发生在B’对应的氨基酸上,则在所述有向无环图中建立从B对应的顶点到B’对应的顶点的有向边。
2.根据权利要求1所述的方法,在步骤2)中,根据顶点对应的蛋白质的N端和C端离子与谱图中谱峰的匹配结果设置该顶点的权值。
3.根据权利要求2所述的方法,其中,按照以下步骤设置顶点的权值:
步骤A)、根据与所述蛋白质序列对应的谱图中谱峰的质量建立哈希表M,以及计算所述顶点对应的蛋白质的N端和C端离子的质量并且向下取整;其中,哈希表M中的第i个元素表示质量为i,其元素值表示质量为i的谱峰的编号;
步骤B)、对于取整后的N端和C端离子的质量,查询与其中每个质量匹配的谱峰;其中,查找与一个质量m匹配的谱峰包括:
查询哈希表M得到第m个元素和第m+1个元素所对应的谱峰的编号M[m]和M[m+1],如果在M[m]和M[m+1]之间存在质量在m的允许误差范围内的谱峰,则质量m有匹配上的谱峰;
步骤C)、如果取整后的N端和C端离子的质量均有匹配上的谱峰,则将所述顶点的权值设置为2;如果取整后的N端和C端离子的质量的其中一个有匹配上的谱峰,则将所述顶点的权值设置为1;否则设置为0。
4.根据权利要求3所述的方法,其中,按照以下步骤建立哈希表M:
步骤a)、为哈希表M分配预定空间;
步骤b)、依次读入与所述蛋白质序列对应的谱图中的每个谱峰,将该谱峰的质量向下取整为n,如果哈希表M中的第n个元素为空则将该谱峰的编号写入第n个元素;
步骤c)、当所有谱峰读入完毕,将哈希表M中为空的元素写入前一元素的值。
5.根据权利要求3或4所述的方法,其中,步骤3)包括:
选择路径上所有顶点的权值之和较大的前k条路径。
6.根据权利要求1所述的方法,在步骤3)中,按照以下步骤将所选择的路径转换为修饰位点信息:
从所选择的路径的起点开始遍历,如果相邻顶点中后一个顶点对应的修饰集合B’比前一个顶点对应的修饰集合B多一个修饰,则与修饰集合B’对应的氨基酸上发生了该修饰,将该修饰与修饰位点对加入该路径的修饰位点信息。
7.根据权利要求1所述的方法,其中,所述修饰集合包括空集。
8.根据权利要求1所述的方法,其中,步骤1)之前还包括:
根据用户指定的修饰,建立修饰组合与该修饰组合的质量的索引表;其中所述修饰组合中的修饰数目小于预定数目且所述修饰组合的质量小于预定质量。
9.根据权利要求8所述的方法,其中,步骤1)包括:
步骤11)、根据所述蛋白质序列的每个氨基酸残基的质量计算蛋白质的理论质量;并且根据与所述蛋白质序列对应的谱图计算该谱图的母离子质量;
步骤12)、将所述母离子质量与所述理论质量的差值作为发生的修饰的总质量;
步骤13)、查询索引表得到该总质量对应的一个或多个修饰组合。
10.根据权利要求1所述的方法,还包括:
步骤4)、根据所述修饰位点信息与所述蛋白质序列构成候选蛋白质变体,根据候选蛋白质变体与所述谱图的匹配程度选择一个蛋白质变体。
11.根据权利要求10所述的方法,其中,步骤4)包括:
步骤41)、根据与所选路径对应的修饰位点信息和所述蛋白质序列构成候选蛋白质变体,按照其谱图碎裂方式生成与候选蛋白质变体对应的理论碎片离子;
步骤42)、将所得到的理论碎片离子质量与所述谱图进行匹配,根据匹配上的谱峰的强度和匹配偏差对与该匹配对应的候选蛋白质变体打分;
步骤43)、选择打分最高的候选蛋白质变体作为结果。
12.一种蛋白质翻译后修饰的定位系统,包括:
用于对于一条蛋白质序列,计算发生的修饰的总质量,得到该总质量对应的一个或多个修饰组合的设备;
用于将与所述蛋白质序列上的每个氨基酸对应的一个或多个修饰集合作为有向无环图中的顶点,根据所述一个或多个修饰组合连接该顶点,并且根据与所述蛋白质序列对应的谱图设置该顶点的权值的设备;其中,所述修饰集合是从所述蛋白质序列的第一个氨基酸到对应的氨基酸上能够发生的修饰的集合并且是所述一个或多个修饰组合中的一个修饰组合的子集;其中按照以下步骤连接有向无环图中的顶点:对于相邻的氨基酸对应的两个修饰集合B、B’,其中B’是后一个氨基酸对应的修饰集合,如果B=B’,则在所述有向无环图中建立从B对应的顶点到B’对应的顶点的有向边;或者如果B’=B∪{x},并且修饰x属于所述一个或多个修饰组合并且能够发生在B’对应的氨基酸上,则在所述有向无环图中建立从B对应的顶点到B’对应的顶点的有向边;
用于根据路径上所有顶点的权值选择所述有向无环图中的路径,并且将该路径转换为修饰位点信息的设备。
CN201410360277.5A 2014-07-25 2014-07-25 一种蛋白质翻译后修饰的定位方法及系统 Active CN104134015B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410360277.5A CN104134015B (zh) 2014-07-25 2014-07-25 一种蛋白质翻译后修饰的定位方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410360277.5A CN104134015B (zh) 2014-07-25 2014-07-25 一种蛋白质翻译后修饰的定位方法及系统

Publications (2)

Publication Number Publication Date
CN104134015A CN104134015A (zh) 2014-11-05
CN104134015B true CN104134015B (zh) 2017-05-03

Family

ID=51806690

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410360277.5A Active CN104134015B (zh) 2014-07-25 2014-07-25 一种蛋白质翻译后修饰的定位方法及系统

Country Status (1)

Country Link
CN (1) CN104134015B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104820011B (zh) * 2015-04-21 2017-10-24 同济大学 一种蛋白质翻译后修饰定位的方法
CN107622184B (zh) * 2017-09-29 2020-01-21 中国科学院计算技术研究所 氨基酸可信度和修饰位点定位的评估方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810200A (zh) * 2012-11-12 2014-05-21 中国科学院计算技术研究所 开放式蛋白质鉴定的数据库搜索方法及其系统
CN103852513A (zh) * 2012-11-29 2014-06-11 中国科学院计算技术研究所 一种基于hcd与etd质谱图的肽段从头测序方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080280317A1 (en) * 2004-08-27 2008-11-13 Northeastern University Comprehensive Characterization Of Complex Proteins At Trace Levels

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810200A (zh) * 2012-11-12 2014-05-21 中国科学院计算技术研究所 开放式蛋白质鉴定的数据库搜索方法及其系统
CN103852513A (zh) * 2012-11-29 2014-06-11 中国科学院计算技术研究所 一种基于hcd与etd质谱图的肽段从头测序方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
质谱蛋白质组中肽段及其修饰鉴定算法研究;邵明芝;《万方数据库》;20101229;第11-12页第2.3.1节 *
预测和鉴定蛋白质翻译后修饰的生物信息方法;李虹等;《现代生物医学进展》;20080930;第8卷(第9期);第1279-1735页 *

Also Published As

Publication number Publication date
CN104134015A (zh) 2014-11-05

Similar Documents

Publication Publication Date Title
D'Abrusco et al. Unveiling the nature of unidentified gamma-ray sources. I. A new method for the association of gamma-ray blazars
CN106156082B (zh) 一种本体对齐方法及装置
CN103886082B (zh) 对兴趣点的位置信息进行校验的方法和设备
CN108984785A (zh) 一种基于历史数据和增量的指纹库的更新方法及装置
CN105956416B (zh) 一种快速自动分析原核生物蛋白质基因组学数据的方法
CN103902701B (zh) 一种数据存储系统和存储方法
CN102004804B (zh) 一种范围型数据的存储及查询方法
Zhao et al. Antibody-specified B-cell epitope prediction in line with the principle of context-awareness
CN105718628B (zh) 面向公差技术的装配体几何要素误差传递关系图表示和构建方法
CN102411679B (zh) 一种蛋白质鉴定的大规模分布式并行加速方法及其系统
CN104134015B (zh) 一种蛋白质翻译后修饰的定位方法及系统
KR20210082105A (ko) 부동산 실거래가 예측을 위한 학습 모델 생성장치
Gross et al. Unveiling ecological assembly rules from commonalities in trait distributions
Yong et al. From the static interactome to dynamic protein complexes: Three challenges
CN101294970B (zh) 蛋白质三维结构的预测方法
CN109143161A (zh) 基于混合指纹质量评价模型的高精度室内定位方法
CN115620252A (zh) 轨迹纠偏方法、装置、计算机设备和存储介质
CN107426610A (zh) 视频信息同步方法及装置
CN103870548B (zh) 空间数据库的访问控制方法
Matthiesen Algorithms for database-dependent search of MS/MS data
CN109063095A (zh) 一种面向聚类集成的权重计算方法
CN104537254A (zh) 一种基于社会统计数据的精细化制图方法
CN103870562A (zh) 一种智能楼宇系统中的规则验证方法及系统
CN110232063A (zh) 层级数据查询方法、装置、计算机设备和存储介质
CN103593409A (zh) 实时数据库检索方法及检索系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant