CN107729719B - 一种从头测序方法 - Google Patents

一种从头测序方法 Download PDF

Info

Publication number
CN107729719B
CN107729719B CN201710913734.2A CN201710913734A CN107729719B CN 107729719 B CN107729719 B CN 107729719B CN 201710913734 A CN201710913734 A CN 201710913734A CN 107729719 B CN107729719 B CN 107729719B
Authority
CN
China
Prior art keywords
spectrogram
trypsin
mirror image
mass
amino acid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710913734.2A
Other languages
English (en)
Other versions
CN107729719A (zh
Inventor
杨皓
迟浩
曾文锋
周文婧
刘超
贺思敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201710913734.2A priority Critical patent/CN107729719B/zh
Publication of CN107729719A publication Critical patent/CN107729719A/zh
Application granted granted Critical
Publication of CN107729719B publication Critical patent/CN107729719B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本发明提一种从头测序方法,该方法包括:在通过酶切产生的两个数据集中查找镜像肽段对应的镜像谱图;从所述镜像谱图中检测高可信谱峰和普通谱峰;根据所述高可信谱峰和普通谱峰构建有向无环图,其中,所述高可信谱峰对应的结点是高可信结点,普通谱峰对应的结点是普通结点;基于所构建的有向无环图生成候选肽段。本发明的方法利用镜像谱图相互佐证,能够提高肽段从头测序的准确率。

Description

一种从头测序方法
技术领域
本发明涉及生物信息技术领域,尤其涉及一种从头测序方法。
背景技术
目前,基于质谱数据的蛋白质鉴定方法分为两类:数据库搜索和肽段从头测序。由于蛋白质数据库的不断发展和完善,数据库搜索是鉴定蛋白质的主要方法。然而,由于从头测序方法不依赖于现有的数据库,其根据肽段有规律碎裂的特点,直接从谱图中推导出肽段序列,对于鉴定未知蛋白质、翻译后修饰以及氨基酸突变等具有数据库搜索方法不可替代的优势。
现有的从头测序方法主要分为三类:化学标记技术、质谱技术和基于算法的测序。基于化学标记技术的方法,可以将肽段的N端、C端、或者两者同时进行标记,使得信号离子拥有质量差信息,通过质量差信息来有效区分信号峰以及噪音峰,例如,使用18O的H2O进行标记,使得所有y离子均有2Da(Dalton)的质量偏差,从而有效的区分b离子和噪声峰;基于质谱技术的方法,采用三级谱碎裂技术,在常规的二级谱基础上,选择高峰再次进行碎裂,使得谱图的信噪比更高、数据质量更好,此外,基于质谱技术的方法还可利用不同碎裂方式的结合,例如CID+ETD、HCD+ETD、CID+HCD+ETD,或者利用最近出现的激光的UVPD(351nmultraviolet photodissociation)碎裂方式,该种方式会产生明显多的y离子系列,几乎很少的b离子,这样不用去识别每根峰的离子类型(b还是y);基于算法的测序方法包括:Open-pNovo、Novor、Uvnovo和DeepNovo等,其中Open-pNovo使用RankBoost排序方法对结果进行重排序,Novor使用决策树为氨基酸以及肽段进行打分,Uvnovo使用随机森林为每条肽段进行打分,DeepNovo使用深度学习来推断下一个氨基酸类型。
然而,现有的从头测序方法存在两个问题:1)离子碎裂不全,从而无法区分AB和BA两种情况,导致相当多的谱图无法使用从头测序方法获取完整肽段;2)谱峰的离子类型未知,一般认为一根峰只能匹配一种类型的离子,因此,在谱峰的离子类型未知的情况下,需要枚举每根峰的离子类型,在计算候选肽段时需要考虑反对称约束进行求解,而这是个NP难(NP-hard)问题。
因此,需要对现有技术进行改进,以克服从头测序方法存在的缺陷。
发明内容
本发明的目的在于提供一种改进的肽段从头测序方法,其利用镜像谱图互相佐证来提高肽段鉴定的准确度。
根据本发明的第一方面,提供了一种从头测序方法。该方法包括以下步骤:
步骤1:在通过酶切产生的两个数据集中查找镜像肽段对应的镜像谱图;
步骤2:从所述镜像谱图中检测高可信谱峰和普通谱峰;
步骤3:根据所述高可信谱峰和普通谱峰构建有向无环图,其中,所述高可信谱峰对应的结点是高可信结点,普通谱峰对应的结点是普通结点;
步骤4:基于所构建的有向无环图生成候选肽段。
在本发明的从头测序方法中,所述两个数据集是使用胰蛋白酶在氨基酸K、R的C端酶切产生的数据集以及使用镜像胰蛋白酶在氨基酸的K、R的N端酶切产生的数据集。
在本发明的从头测序方法中,将形式为A1A2…Al[K/R/-]和[K/R/-]A1A2…Al的两条肽段是镜像肽段,前者是胰蛋白酶产生的肽段,后者是镜像胰蛋白酶产生的肽段,Ai至Al是20种氨基酸的任意一种,“-”表示无氨基酸,K表示氨基酸K,R表示氨基酸R。
在本发明的从头测序方法中,步骤1包括:
对于某张胰蛋白酶谱图T,在镜像胰蛋白酶数据集中查找符合镜像肽段母离子质量差的谱图L;
将与谱图L匹配度最高的肽段转化为胰蛋白酶谱图对应的肽段,并将转后的肽段与谱图T进行匹配打分;
将谱图T匹配度最高的肽段转化为镜像胰蛋白酶谱图对应的肽段,并将转换后的肽段与谱图L进行匹配打分;
综合两个打分获得打分结果,如果打分结果超过阈值,则谱图T和L是镜像谱图。
在本发明的从头测序方法中,所述高可信谱峰是满足下列公式中任一项的谱峰:
mq=mp+128
mq=mp+156
mq=mp-128
mq=mp-156
mq=(Q+1)-(mp+128)
mq=(Q+1)-(mp+156)
mq=(Q+1)-(mp-128)
mq=(Q+1)-(mp-156)
其中,mp和ip分别表示胰蛋白酶谱图中第p根谱峰的质量和强度,mq和iq分别表示镜像胰蛋白酶谱图中第q根谱峰的质量和强度,Q表示镜像胰蛋白酶谱图的母离子质量。
在本发明的从头测序方法中,步骤3包括:
如果Pp和Qq是高可信谱峰,根据其离子类型转化为一个高可信结点ps=[ms,is],其中is=ip+iq,如果Pp是b离子,则ms=mp-1,如果Pp是y离子,则ms=P-mp
如果Pp是普通谱峰,将其转化两个普通结点pr=[mr,ir]和pt=[mt,it],其中,mr=mp-1,mt=P-mp,ir=it=ip
其中,Pp表示胰蛋白酶谱图中第p根谱峰,mp和ip分别表示胰蛋白酶谱图中第p根谱峰的质量和强度,Qq表示镜像胰蛋白谱图中第q根谱峰,mq和iq分别表示镜像胰蛋白酶谱图中第q根谱峰的质量和强度,P表示胰蛋白酶谱图的母离子质量,mr,ir分别表示结点pr的质量和强度,mt,it分别表示结点pt的质量和强度;
增加起点和终点,其中,起点的质量设为0Dalon,终点质量设为胰蛋白酶谱图的母离子质量P Dalon,起点和终点的强度均设为0。
在本发明的从头测序方法中,步骤3还包括:
计算两两高可信结点的质量偏差,并查找质量偏差低于预定阈值的氨基酸排列,如果找到氨基酸排列,则连接该两个高可信结点并将边标注为找到的氨基酸排列;
根据所述有向无环图中的全长路径,将所述有向无环图分割成多个个子图,每个子图只包括两个高可信结点mi和mi+1和多个普通结点;
对于每个子图mi→mi+1,计算两两普通结点的质量偏差,并查找等于该质量偏差的氨基酸排列,如果找到氨基酸排列,则连接该两个普通结点得到子路径并将边标注为找到的氨基酸排列。
在本发明的从头测序方法中,步骤4包括:
将所述有向无环图中得到的路径拼接起来得到所有的候选肽段;
将所述所有候选肽段与胰蛋白酶谱图进行匹配打分;
将所述所有候选肽段转化为镜像胰蛋白酶对应的肽段序列,并将转换后的序列与镜像胰蛋白酶谱图进行匹配打分;
结合两个打分对所述所有候选肽段进行筛选并排序,以输出符合条件的候选肽段。
与现有技术相比,本发明的优点在于:通过使用两种酶在氨基酸的酶切形成镜像,两种酶酶切产生的肽段具有更完整的碎裂离子;此外,通过两张镜像谱图互相佐证,能够有效判断谱峰的离子类型。
附图说明
以下附图仅对本发明作示意性的说明和解释,并不用于限定本发明的范围,其中:
图1示出了根据本发明一个实施例的从头测序方法的流程图;
图2示出了根据本发明一个实施例的生成有向无环图的示例;
图3示出了根据本发明一个实施例的计算氨基酸排列的示意图;
图4示出了根据本发明的一个实施例的切割子图的示意;
图5示出了基于本发明的从头测序方法的软件流程。
具体实施方式
为了使本发明的目的、技术方案、设计方法及优点更加清楚明了,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
图1示出了根据本发明一个实施例的从头测序方法的流程图。如图所示,该方法包括:
第一步、获得trypsin和LysargiNase数据集
此步骤包括使用LysargiNase(镜像胰蛋白酶)酶在氨基酸K、R的N端酶切,使用trypsin(胰蛋白酶)在氨基酸的K、R的C端酶切,然后,选择酶切成为镜像的肽段进行从头测序。
通过测序仪器产生trypsin数据集和LysargiNase数据集,其中,每个数据集中包括成千上万条肽段以及几十万张的二级谱图,每个谱图对应一条肽段序列,通过现有的从头测序方法可以直接从谱图信息找到肽段序列。
在从头测序过程中,根据肽谱匹配打分将某张谱图对应的肽段进行排序。肽谱匹配打分表示谱图与肽段的匹配程度,其基本过程包括:首先,计算肽段序列的碎裂离子的质量,例如,对于序列ACDEFK,会产生有A、AC、ACD、ACDE和ACDEF这五个前缀的b离子,以及产生K、FK、EFK、DEFK和CDEFK这五个后缀的y离子;然后,在谱图中对应的质量位置查找,如果出现谱峰,则得到谱峰对应的强度值,如果不出现谱峰,将认为强度值为0,将所有强度值求和,得到的打分作为这张谱图与这条肽段的肽谱匹配打分。总之,匹配的谱峰越多,匹配到的谱峰强度越大,则打分越大,说明谱图与肽段的匹配程度越高。
通过此步骤可获得每张谱图与多个肽段的匹配结果,例如,打分最高的是第一名肽段,表示该肽段与该张谱图最匹配。
第二步、查找镜像谱图
首先,查找镜像肽段,在本发明的实施例中,如果两条肽段的形式分别是A1A2…Al[K/R/-]和[K/R/-]A1A2…Al,则认为这两条肽段是镜像肽段,前者是trypsin产生的肽段,后者是LysargiNase产生的肽段,其中Ai是20种氨基酸(使用26个大写英文字母表示,其中,去掉字母B、J、O、U、X、Z)的任意一种,“-”表示无氨基酸,K表示氨基酸K,R表示氨基酸R。例如,GLEWVAR和KGLEWVA是镜像肽段、GLEWVAR和GLEWVA也是镜像肽段。根据该定义,将镜像肽段分为如下七类,参见表1,其中,母离子质量差表示镜像肽段中的trypsin肽段母离子质量减LysargiNase肽段母离子质量。
表1:镜像肽段的分类
Figure BDA0001425419150000061
接下来,基于表1对镜像肽段的分类查找镜像谱图,在本文中,将镜像肽段形成的谱图称为镜像谱图。在一个实例中,查找镜像谱图的过程包括:
对于某张trypsin谱图T,根据表1给出的母离子质量差,在LysargiNase数据集中查找符合要求的LysargiNase谱图,例如,找到谱图L;
将谱图L的从头测序第一名结果(即匹配度最高的肽段),根据表1转化为trypsin谱图对应的肽段,与T进行匹配打分;
将谱图T的从头测序第一名结果,同样根据表1转化为LysargiNase谱图对应的肽段,与L进行匹配打分;
将两个打分求和,如果打分超过用户设置的阈值(例如,阈值可设置为10分),则认为T和L是镜像谱图。
第三步、在镜像谱图中查找高可信谱峰和普通谱峰
此步骤的目的在于,从镜像谱图中查找有效谱峰并根据谱峰的质量、强度区分为高可信谱峰和普通谱峰,并进一步判断高可信谱峰的离子类型。
首先,确定高可信谱峰和普通谱峰,假设P和Q分别是trypsin和LysargiNase谱图的母离子质量,Pp=[mp,ip]表示trypsin谱图中第p根谱峰,其中,mp和ip分别表示谱峰的质量和强度;Qq=[mq,iq]表示LysargiNase谱图中第q根谱峰,其中,mq和iq分别表示谱峰的质量和强度。如果满足以下八个公式中的任意一个,则认为Pp和Qq是高可信谱峰,如果Pp在LysargiNase谱图中找不到任何谱峰形成高可信谱峰,那么认为Pp是普通谱峰。
mq=mp+128 (1)
mq=mp+156 (2)
mq=mp-128 (3)
mq=mp-156 (4)
mq=(Q+1)-(mp+128) (5)
mq=(Q+1)-(mp+156) (6)
mq=(Q+1)-(mp-128) (7)
mq=(Q+1)-(mp-156) (8)
接下来,根据高可信谱峰满足的公式类别判断离子类型。参见下表2所示,其中,“/”表示氨基酸无法判断,例如,如果Pp和Qq满足上述公式1,则认为Pp和Qq均是b离子类型,trypsin谱图的最后一个氨基酸无法判断,LysargiNase谱图的第一个氨基酸是K。
表2:高可信谱峰的离子类型
Figure BDA0001425419150000071
第四步:将trypsin和LysargiNase谱图合并且转化为有向无环图
在此步骤中,根据谱峰的离子类型,生成不同的结点,以构成有向无环图,包括以下过程:
如果Pp和Qq是高可信谱峰,则根据表2判断的离子类型转化为一个结点ps=[ms,is],其中is=ip+iq,如果Pp是b离子,那么ms=mp-1,如果是y离子,ms=P-mp
如果Pp是普通谱峰,那么无法判断离子类型,所以需要转化两个结点pr=[mr,ir]和pt=[mt,it],其中,mr=mp-1,mt=P-mp,ir=it=ip
在有向无环图中增加一个起点和终点,质量分别为0Da和trypsin谱图的母离子质量P Da,两个结点的强度均设置为0。在此步骤中,将高可信谱峰转化为的结点称作高可信结点,普通谱峰转化为的结点称作普通结点。
参见图2示意的生成有向无环图的例子,其中,示意了镜像肽段是GLEWVAR、KGLEWVA的trypsin谱图和LysargiNase谱图,以及转换后的有向无环图。谱图中的横坐标m/z表示质荷比,是质量除以电荷,纵坐标表示谱峰的强度(intensity),trypsin谱图中的y3离子与LysargiNase谱图的b5离子质量服从公式8,所以根据表2可以判断trypsin的y3属于y离子,LysargiNase的b5属于b离子,并且trypsin谱图的最后一个氨基酸是R,在构成的有向无环图中2、3、4、5是高可信结点,1和6是普通结点,S是起点,E是终点,例如,对于结点1,对应的是G至L,由于在trypsin谱图中,G至L对应的谱峰为b1和y6,均丢失了(标识为lost),然而,在LysargiNase谱图中,b2对应的位置正好存在谱峰,进行了补齐,但由于trypsin没谱峰的导致其是普通结点,而对于结点2,表示从L至E,其对应的高可信谱峰y5和b3,因此,形成高可信结点。
应理解的是,高可信谱峰和普通谱峰的离子类型,也可使用现有的离子类型发现算法进行独立的发现,然后将其用于构建有向无环图。
第五步,将有向无环图切割为多个子图。
在某些情况下,符合高可信结点之间质量差的氨基酸排列可能存储很多组合,因此,为了提高搜索有向无环图的效率,可将有向无环图进一步切割为多个子图。概括而言,切割子图的过程包括:计算有向无环图的全长路径;根据全长路径,将有向无环图切割成多个子图。具体包括:
步骤A)、计算有向无环图的全长路径
在一个实例中,计算全长路径的过程包括:
步骤51:在有向无环图中,仅考虑高可信谱峰,计算两两高可信结点的质量偏差,如果质量偏差低于预定的阈值,则查找是否存在对应该质量偏差的氨基酸排列。
在有些情况下,由于高可信谱峰数目可能不多,导致两两高可信谱峰的质量偏差过大,所以与传统的从头测序方法不同,在本文中考虑所有小于500Da的质量偏差。
为了能够快速计算任意质量偏差的所有氨基酸排列情况,本发明设计了如图3所示的索引方式,其时间复杂度为O(1)。如图3所示,给定质量为359.101Da,在数组B(ArrayB)中直接索引359101位置(将浮点数乘以1000转化为整数,以便于进行索引),内容为“156,3”,前一个数字156表示在数组A(Array A)的156位置,后一个数字3表示数组A的后续3个元素均是所要查找的目标,所以直接索引到数组A的156位置,数组A的第一维列出了氨基酸排列(Amino acid arrangement),第二维是各个氨基酸排列对应的实际质量,对应数组A的156位置,找到三个氨基酸排列,即DDE、DED和EDD,其对应的实际质量是359096,该实际质量与给定质量的偏差在用户指定的质量误差范围之内。
步骤52,如果找到氨基酸排列,则将两个结点连接边,并将两个结点的边标注为找到的所有的氨基酸排列,例如,某条边被标记为[DDE/DED/EDD],代表这条边对应的氨基酸可能有以上三种情况,边的打分等于质量大的结点的强度。例如,结点的强度设置为谱峰强度的自然对数值。
步骤53,在有向无环图中查找从起点到终点的前k条全长路径,其中k是用户设置值,例如,设置为2。
步骤B)、根据全长路径,将有向无环图切割成多个子图。
假设得到的某条全长路径为m0→m1→…→ml,其中,m0为0Da,ml为P Da,将该全长路径切割成多个子图的过程包括:
根据上述的全长路径,将有向无环图分割成l个子图(每个子图只包括两个高可信结点mi和mi+1,但可以包含非常多的普通结点)。对于每个子图mi→mi+1,仅考虑质量在这个子图范围内的所有普通结点,由于在某些情况下,普通结点可能过多,所以为了简化,仅保留强度前
Figure BDA0001425419150000091
个结点;
枚举两两普通结点,计算质量偏差,根据图3所示的索引表查找是否存在氨基酸排列。如果存在,则连接边,边的打分为质量大的结点的打分。子图中具有连接边的路径称为子路径。
图4是切割子图的示例,其中,结点1和6是高可信结点,它们之间的质量差为411.2Da,在该示例中由于有多个氨基酸排列符合这个质量,所以使用普通结点2,3,4,5连接边,得到的唯一的子序列为SGAVP。
第六步、形成候选肽段并对候选肽段排序。
此步骤包括将全长路径中各子路径进行连接,形成候选肽段,对于所有候选肽段,分别与trypsin和LysargiNase谱图进行匹配打分,将打分求和结果作为最终打分。具体包括以下过程:
将一条全长路径的所有子图得到的子路径拼接起来,例如。得到的某条全长路径为m0→m1→…→ml,针对其中的某个子图mi→mi+1得到某条子路径对应的肽段序列是ai1ai2…aik,将所有这些子图对应的序列拼接起来得到:a01a02…a0s……al-11al-12…al-1t,所有这些拼接出来的序列称为候选肽段,具体地,对于某条路径,考虑其中的每条边对应的所有可能氨基酸排列,生成对应的肽段序列,例如,某条路径对应的所有边的标记依次为A、E、H、[Q\AG\GA],则共有六条肽段生成:AEHQ、AEHAG、AEHGA;
将所有候选肽段与trypsin谱图进行匹配打分;
将候选肽段序列根据表1转化为LysargiNase对应的序列,然后与LysargiNase谱图进行匹配打分;
结合两个打分结果作为最终该候选肽段的打分,例如,将两个打分求和;
根据打分对所有候选肽段进行排序,并筛选出排名较高的肽段,例如,输出打分前10的候选肽段。
本发明可以实现为软件、硬件或软硬件结合的方法。发明人基于本发明的思想,设计了基于镜像数据集的从头测序软件,在本文中称为pNovo M算法,利用本发明的pNovoM算法进行从头测序的基本流程参见图5所示,包括:从trypsin和LysargiNase数据集中查找镜像谱图;分别对tryps in谱图和LysargiNase谱图进行预处理,例如,去掉母离子和母离子失水、失氨峰,以避免这些干扰谱峰影响肽段鉴定的准确度;将预处理后的谱图进行合并;利用pNovoM算法进行从头测序;获得候选肽段序列等。
为了进一步验证本发明的效果,发明将基于本发明开发的pNovoM与目前从头测序领域性能最好的两个软件pNovo+和PEAKS进行了对比分析。在两个抗体数据集上,总共59个镜像肽段,每个镜像肽段均有100-200张谱图,对于每个镜像肽段,pNovoM平均召回的谱图比例为87%,显著高于pNovo+的54%和PEAKS的57%;在两个大规模的真实数据集上,控制错误率在5%的条件下,pNovoM比pNovo+多召回44.4%的谱图、比PEAKS多召回151.6%的谱图;在肽段水平上,pNovoM比pNovo+多召回31.9%的肽段、比PEAKS多召回103.9%的肽段。此外,发现pNovoM多召回的鉴定结果,主要是长肽段(共同鉴定部分长度超过18个氨基酸的比例只有3.2%,而pNovoM单独鉴定该部分为15.2%),因此证明pNovoM对于长肽段鉴定有明显的优势。最后,还发现从头测序结果很容易在N端出现错误,79%的错误鉴定结果均来自于N端缺少离子的证据,而pNovoM能够有效利用LysargiNase谱图和trypsin谱图,将N端测序错误降低到仅为8%。
需要说明的是,虽然上文按照特定顺序描述了各个步骤,但是并不意味着必须按照上述特定顺序来执行各个步骤,实际上,这些步骤中的一些可以并发执行,甚至改变顺序,只要能够实现所需要的功能即可。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (9)

1.一种从头测序方法,包括以下步骤:
步骤1:在通过酶切产生的两个数据集中查找镜像肽段对应的镜像谱图,其中,所述两个数据集是使用胰蛋白酶在氨基酸K、R的C端酶切产生的数据集以及使用镜像胰蛋白酶在氨基酸的K、R的N端酶切产生的数据集;
步骤2:从所述镜像谱图中检测高可信谱峰和普通谱峰;
步骤3:根据所述高可信谱峰和普通谱峰构建有向无环图,其中,所述高可信谱峰对应的结点是高可信结点,普通谱峰对应的结点是普通结点;
步骤4:基于所构建的有向无环图生成候选肽段。
2.根据权利要求1所述的从头测序方法,其中,形式为A1A2…Al[K/R/-]和[K/R/-]A1A2…Al的两条肽段是镜像肽段,前者是胰蛋白酶产生的肽段,后者是镜像胰蛋白酶产生的肽段,Ai至Al是20种氨基酸的任意一种,“-”表示无氨基酸,K表示氨基酸K,R表示氨基酸R。
3.根据权利要求1所述的从头测序方法,其中,步骤1包括:
对于某张胰蛋白酶谱图T,在镜像胰蛋白酶数据集中查找符合镜像肽段母离子质量差的谱图L;
将与谱图L匹配度最高的肽段转化为胰蛋白酶谱图对应的肽段,并将转后的肽段与谱图T进行匹配打分;
将谱图T匹配度最高的肽段转化为镜像胰蛋白酶谱图对应的肽段,并将转换后的肽段与谱图L进行匹配打分;
综合两个打分获得打分结果,如果打分结果超过阈值,则谱图T和L是镜像谱图。
4.根据权利要求1所述的从头测序方法,其中,所述高可信谱峰是满足下列公式中任一项的谱峰:
mq=mp+128
mq=mp+156
mq=mp-128
mq=mp-156
mq=(Q+1)-(mp+128)
mq=(Q+1)-(mp+156)
mq=(Q+1)-(mp-128)
mq=(Q+1)-(mp-156)
其中,mp和ip分别表示胰蛋白酶谱图中第p根谱峰的质量和强度,mq和iq分别表示镜像胰蛋白酶谱图中第q根谱峰的质量和强度,Q表示镜像胰蛋白酶谱图的母离子质量。
5.根据权利要求1所述的从头测序方法,其中,步骤3包括:
如果Pp和Qq是高可信谱峰,根据其离子类型转化为一个高可信结点ps=[ms,is],其中is=ip+iq,如果Pp是b离子,则ms=mp-1,如果Pp是y离子,则ms=P-mp
如果Pp是普通谱峰,将其转化两个普通结点pr=[mr,ir]和pt=[mt,it],其中,mr=mp-1,mt=P-mp,ir=it=ip
其中,Pp表示胰蛋白酶谱图中第p根谱峰,mp和ip分别表示胰蛋白酶谱图中第p根谱峰的质量和强度,Qq表示镜像胰蛋白谱图中第q根谱峰,mq和iq分别表示镜像胰蛋白酶谱图中第q根谱峰的质量和强度,P表示胰蛋白酶谱图的母离子质量,mr,ir分别表示结点pr的质量和强度,mt,it分别表示结点pt的质量和强度;
增加起点和终点,其中,起点的质量设为0 Dalon,终点质量设为胰蛋白酶谱图的母离子质量P Dalon,起点和终点的强度均设为0。
6.根据权利要求5所述的从头测序方法,其中,步骤3还包括:
计算两两高可信结点的质量偏差,并查找质量偏差低于预定阈值的氨基酸排列,如果找到氨基酸排列,则连接该两个高可信结点并将边标注为找到的氨基酸排列;
根据所述有向无环图中的全长路径,将所述有向无环图分割成多个子图,每个子图只包括两个高可信结点mi和mi+1和多个普通结点;
对于每个子图mi→mi+1,计算两两普通结点的质量偏差,并查找等于该质量偏差的氨基酸排列,如果找到氨基酸排列,则连接该两个普通结点得到子路径并将边标注为找到的氨基酸排列。
7.根据权利要求1至6中任一项所述的从头测序方法,其中,步骤4包括:
将所述有向无环图中得到的路径拼接起来得到所有的候选肽段;
将所述所有候选肽段与胰蛋白酶谱图进行匹配打分;
将所述所有候选肽段转化为镜像胰蛋白酶对应的肽段序列,并将转换后的序列与镜像胰蛋白酶谱图进行匹配打分;
结合两个打分对所述所有候选肽段进行筛选并排序,以输出符合条件的候选肽段。
8.一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现根据权利要求1至7中任一项所述方法的步骤。
9.一种计算机设备,包括存储器和处理器,在所述存储器上存储有能够在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7中任一项所述的方法的步骤。
CN201710913734.2A 2017-09-30 2017-09-30 一种从头测序方法 Active CN107729719B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710913734.2A CN107729719B (zh) 2017-09-30 2017-09-30 一种从头测序方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710913734.2A CN107729719B (zh) 2017-09-30 2017-09-30 一种从头测序方法

Publications (2)

Publication Number Publication Date
CN107729719A CN107729719A (zh) 2018-02-23
CN107729719B true CN107729719B (zh) 2020-05-26

Family

ID=61208429

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710913734.2A Active CN107729719B (zh) 2017-09-30 2017-09-30 一种从头测序方法

Country Status (1)

Country Link
CN (1) CN107729719B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110349621B (zh) * 2019-06-04 2021-08-27 中国科学院计算技术研究所 肽段-谱图匹配可信度检验方法、系统、存储介质及装置
CN111798939B (zh) * 2020-06-02 2022-11-08 中山大学 一种晶体结构数据库构建方法及结构搜索方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1930296A (zh) * 2004-03-05 2007-03-14 拜尔作物科学有限公司 具有增加的淀粉磷酸化酶活性的植物
CN103403157A (zh) * 2011-01-31 2013-11-20 旭化成化学株式会社 苯丙酮酸还原酶及使用该酶制造光学活性苯基乳酸及4-羟基苯基乳酸的制造方法
EP3336200A1 (en) * 2010-11-19 2018-06-20 The Regents Of The University Of Michigan Prostate cancer ncrna and uses thereof

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1930296A (zh) * 2004-03-05 2007-03-14 拜尔作物科学有限公司 具有增加的淀粉磷酸化酶活性的植物
EP3336200A1 (en) * 2010-11-19 2018-06-20 The Regents Of The University Of Michigan Prostate cancer ncrna and uses thereof
CN103403157A (zh) * 2011-01-31 2013-11-20 旭化成化学株式会社 苯丙酮酸还原酶及使用该酶制造光学活性苯基乳酸及4-羟基苯基乳酸的制造方法

Also Published As

Publication number Publication date
CN107729719A (zh) 2018-02-23

Similar Documents

Publication Publication Date Title
Jones et al. Improving sensitivity in proteome studies by analysis of false discovery rates for multiple search engines
CN103245714B (zh) 基于候选肽段区分度标记图谱的蛋白质二级质谱鉴定方法
CN109670318B (zh) 一种基于核控制流图循环验证的漏洞检测方法
WO2016205286A1 (en) Automatic entity resolution with rules detection and generation system
WO2011000991A1 (es) Método de identificación de péptidos y proteínas a partir de datos de espectrometría de masas
WO2018218788A1 (zh) 一种基于全局种子打分优选的三代测序序列比对方法
JP2007132919A (ja) イオン化分子フラグメントを分類するための方法、装置、及びプログラム製品
CN104076115A (zh) 基于峰强度识别能力的蛋白质二级质谱鉴定方法
EP1695255B1 (en) Methods and systems for protein and peptide evidence assembly
CN107729719B (zh) 一种从头测序方法
US7979214B2 (en) Peptide identification
CN114093415B (zh) 肽段可检测性预测方法及系统
EP1820133B1 (en) Method and system for identifying polypeptides
CN108388774A (zh) 一种多肽谱匹配数据的在线分析方法
Schrinner et al. The longest run subsequence problem
He et al. Optimization-based peptide mass fingerprinting for protein mixture identification
Doğan et al. Automatic identification of highly conserved family regions and relationships in genome wide datasets including remote protein sequences
CN107622184B (zh) 氨基酸可信度和修饰位点定位的评估方法
Bhatia et al. Constrained de novo sequencing of peptides with application to conotoxins
CN116486907B (zh) 一种基于a星算法的蛋白质序列标签测序方法
Veretnik et al. Identifying structural domains in proteins
CN111524549B (zh) 一种基于离子索引的整体蛋白质鉴定方法
CN117746993A (zh) 镜像肽段质谱图对识别方法
Fang et al. Feature selection in validating mass spectrometry database search results
CN111091865B (zh) MoRFs预测模型的生成方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant