CN103389335A

CN103389335A - 一种鉴定生物大分子的分析装置和方法

Info

Publication number: CN103389335A
Application number: CN2012101465191A
Authority: CN
Inventors: 田志新
Original assignee: Dalian Institute of Chemical Physics of CAS
Current assignee: Dalian Institute of Chemical Physics of CAS
Priority date: 2012-05-11
Filing date: 2012-05-11
Publication date: 2013-11-13

Abstract

本发明涉及一种通过分析生物大分子质谱数据来鉴定生物大分子一级结构和组成的分析装置和方法。该分析装置和方法基于所述生物大分子的原始一级和二级质谱，通过同位素峰质荷比及轮廓指纹比对从而对该生物大分子进行鉴定。本发明的分析装置和方法直接利用质谱仪所采集的原始数据，对母体离子和碎片离子的原始单同位素峰的精确质荷比和相对强度与相应的理论值进行比对，分别用于从数据库中找到候选生物大分子和利用串级质谱确认其中可信度最高的一个，从而对生物分子进行高可信度的定性、定量分析。本发明还涉及包括本发明的分析装置和质谱仪的生物大分子鉴定系统。

Description

一种鉴定生物大分子的分析装置和方法

技术领域

本发明涉及一种通过质谱分析鉴定生物大分子的分析装置和方法，具体来说，该分析装置和方法基于所述生物大分子的原始质谱通过本发明的指纹图谱比对算法借助于数据库搜索从而对该生物大分子进行分析和鉴定，是一种新型的生物大分子数据库搜索分析装置和方法。

背景技术

在现今的后基因时代，基于液相色谱-质谱联用的蛋白质组学和糖组学已经成为对蛋白质组和糖类进行高通量和高灵敏度定性、定量表征的主要分析手段。对健康及病理条件下的蛋白质体系进行差异表征，就能发现疾病标记物。疾病标记物能用于疾病的风险评估、早期诊断和治疗，指导药物的开发，监测病人对药物的反应及药效。定性分析是蛋白质表征的第一步。多肽及蛋白质的定性分析就是获得其氨基酸序列及其该序列中一些特殊氨基酸上的翻译后修饰。糖类的定性分析则是获得单糖的种类及其各个单糖之间的连接方式。所有这些定性分析都依赖于一级质谱图中母体离子及二级质谱图中碎片离子单同位素质量或平均质量的实验值与理论值的数值比较。然而质谱直接测量的是母体离子及碎片离子的同位素轮廓(包括所以单个同位素峰的质荷比和强度，每个离子有多个同位素峰)，而不是单同位素质量或平均质量。因此，在对由串级质谱分析所获得的原始数据组进行数据库搜索以前，一级质谱和二级质谱中的同位素轮廓首先必须先被团簇化，然后按一定的算法被转化成单同位素质量或平均质量。该过程被叫做“去同位素”或“卷积”。自从上世纪末蛋白质组学开始兴起以来，“去同位素”算法可谓层出不穷(1-6)，例如AID-MS(7)，ESI-ISOCONV(8)，LASSO(6)，MapQuant(9)，MasSPIKE(10)，MATCHING(11)，msInspect(12)，Peplist(13)，quadratic deisotoping(14)，RAPID(15)，THRASH(16)，Wang’s method(17)，Zhang’s program(18)，ZSCORE(4)。所有这些算法及其相应的应用程序使得对复杂蛋白质体系串级质谱分析所得的数以千计的一级和二级质谱图进行高通量分析和全面鉴定成为可能。

即使质谱前端的高分辨分离的方法和技术得到了越来越大的发展，对复杂蛋白质体系的液质分析中，仍旧有多个蛋白质同时出峰；加上每个多肽或蛋白质在质谱图中以多个高价态的形式出现，所以无论是一级质谱图还是二级质谱图中的同位素分布都错综复杂。对不同多肽或蛋白质不同价态的同位素轮廓进行团簇化然后将它们转化成单同位素质量或平均质量仍旧是一个巨大的挑战，更不用提低强度的同位素轮廓或相互重叠的同位素轮廓。当一个离子的同位素峰轮廓与平均氨基酸(averagine)的同位素峰轮廓进行匹配时，所获得的单同位素质量或平均质量常常偏离正确值1-2道尔顿(7)。母体离子转换质量的错误率甚至高达40％(19)。如果母体离子或其碎片离子的质量测量是错误的，下游的定性、定量分析都是徒劳；更不用提假阳性的评估。除了不正确的质量转换以外，现有的“去同位素”算法还有一些其他的不足。一些算法只能处理最强的同位素峰；而另外一些算法只能处理质量在10000道尔顿以下的多肽或蛋白质的谱图。同时这些算法通常是暗含在一些应用程序中，用户对去同位素过程中所使用到的参数的控制非常有限。

因此，在本领域中需要一种更大程度地保留原始数据信息，同时在分析过程中根据用户的需要在提高同位素分辨率的同时尽可能地降低背景或尽可能多地去除不感兴趣的信息的数据库搜索方法、相关的计算算法以及相应的数据分析方法。

发明内容

为了解决本领域的上述问题，作出了本发明。

因此，在第一个方面，本发明提供了一种鉴定生物大分子的分析方法(下面有时简称为“本发明的方法”)，该方法包括以下步骤：

(1)采集待分析生物大分子(可以是多肽、蛋白质或糖类)的质谱数据，所述质谱数据包括一级质谱和二级质谱并且包含该分子的同位素分布中同位素峰的质荷比和相应的强度；

(2)按照待分析生物大分子的种类，从与生物大分子的种类相关的公共数据库(如蛋白质的常用数据库是Uniprot，www.uniprot.org)中下载包含与所述生物大分子关联的所有关联生物大分子的数据，形成用户数据库，所述关联生物大分子包括所述待分析生物大分子的所有可能的修饰形式或异构体；

(3)计算出所述用户数据库中包含的每个关联生物大分子在实验一级质谱采集的质荷比m/z范围内不同价态(z，电荷的数量)下的每个同位素轮廓中的相对强度最高的同位素峰的质荷比，并将这些质荷比依次列在用户数据库中新增的以PM为行首代码的数据行中；

(4)从待分析的生物大分子的一级质谱图开始，在囚禁窗口内找到强度最高的同位素峰作为第一同位素峰，并取其m/z与所述用户数据库中在步骤(3)所建立的PM行中的所有的质荷比进行比对，若找到质荷比相近(按预先指定的范围，如1-20ppm)的最强同位素峰，则将与该最强同位素峰所对应的关联生物大分子确定为初始候选生物大分子，并进行下述步骤的操作；若没有在所述用户数据库中找到相近的质荷比，则取所述第一同位素峰左边的同位素峰(被称为第二同位素峰，第一同位素峰右边的同位素峰则被称为第三同位素峰)重复上述比对；如此往复；

(5)取步骤(4)中筛选到的所有初始候选生物大分子的理论同位素轮廓中高于预设的同位素峰强度阈值IPACO的所有同位素峰的质荷比在预设的同位素峰质荷比偏差IPMD范围内(如10ppm)在上述一级质谱的囚禁窗口内找相应的实验质荷比，并对相应的满足IPMD要求的实验同位素峰进一步计算其同位素峰相对强度偏差IPAD，如果与IPACO以上的所有理论同位素峰对应的实验同位素峰的IPMD和IPAD都满足预先指定的阈值(IPMD≤15ppm，IPAD≤30％)，则被比对的相应初始候选生物大分子被确定为与待分析的生物大分子的母体离子相关的候选生物大分子；

(6)将步骤(5)中确定的候选生物大分子的归一化同位素轮廓从上述一级质谱中去除，将剩余的一级质谱图重复步骤(4)至步骤(5)，直至最终剩余的一级质谱图中的最强同位素峰的强度低于预定的一级质谱强度阈值(Primary Abundance Threshold，PAT)和找到所有候选生物大分子。

在一个优选的实施方案中，本发明的方法还包括下面的步骤(也可称为碎片离子的自上而下筛选法)：

(i)计算所述每个关联生物大分子在按预定的m/z范围的二级质谱中在不同类型(如蛋白质的电子转移解离给出c/z型碎片离子；碰撞诱导解离给出b/y型碎片离子)及不同价态下的每一个碎片离子的同位素轮廓中的相对强度最大的同位素峰的质荷比，并将这些质荷比依次列在所述用户数据库中新增的以FM为行首代码的数据行中；

(ii)与上述步骤(4)和(5)相同的方式从所述候选生物大分子的二级质谱图中第一同位素峰开始，寻找步骤(6)中得到的每一个候选生物大分子的所有匹配碎片离子，直到最终剩余的二级质谱图中的最强同位素峰的强度低于预定的二级质谱强度阈值(Secondary Abundance Threshold，SAT)；

(iii)收集在步骤(ii)中获得的每一个候选生物大分子的所有匹配碎片离子，分别计算每一个候选生物大分子的PMFs以及PTM_系数，经计算后其碎片离子的PMFs和PTM_系数符合预定的PMFs以及PTM_系数参数范围的候选生物大分子被鉴定为初始生物大分子ID；该初始蛋白ID的归一化的同位素轮廓将被从原始一级质谱图中去除，形成一个新的一级质谱图，以便于其他母体离子的搜索；

(iv)将上述初始生物大分子IDs中PMFs最高的生物大分子ID作为候选生物大分子ID。

在另一个优选的实施方案中，本发明的方法还包括下面的步骤(也可称为碎片离子的靶向筛选法)：

(i)计算所述每个关联生物大分子在按预定的m/z范围的二级质谱中在不同类型(如蛋白质的电子转移解离给出c/z型碎片离子；碰撞诱导解离给出b/y型碎片离子)及不同价态下的每一个碎片离子的同位素轮廓中的相对强度最大的同位素峰的质荷比，并将这些质荷比依次列在所述用户数据库中新增的以FM为行首代码的数据行中。

(ii)取步骤(5)中获得的候选生物大分子在步骤(i)中所建立的数据库中所对应的碎片离子质荷比依次在二级质谱图中以预定的IPACO、IPAD和IPMD参数进行靶向比对，

(iii)收集在步骤(ii)中获得的所有匹配的碎片离子，分别计算每一个候选生物大分子的PMFs和PTM_系数，经计算后其碎片离子的PMFs和PTM_系数符合预定的PMFs和PTM_系数参数范围的候选蛋白被鉴定为初始生物大分子ID；

(iv)对其他所有候选生物大分子重复步骤(ii)和(iii)；

(v)将上述初始生物大分子IDs中PMFs最高的生物大分子作为候选生物大分子ID。

在本发明的方法中，所述待分析的生物大分子为一个生物大分子或两个以上的生物大分子的混合物。

在另一个优选的实施方案中，在本发明方法的步骤(5)中比对时，允许以预定的离群百分比和离群最大偏差扩展满足IPACO、IPMD和IPAD的同位素峰的数量，其中同位素峰强度离群百分比IPADO的取值范围为0-50％，优选0-20％；同位素峰强度离群最大偏差IPADOM的取值为100％，优选50％；同位素峰峰质荷比偏差离群百分比的取值范围为0-40％，由选0-20％；同位素峰离群质荷比最大偏差IPMDOM的取值范围是0-50ppm，优选0-30ppm。

在本发明的方法中，在用户数据库中的关联生物大分子的FM和PM按照质荷比增加或减小的顺序排列。

在本发明的方法的一个优选实施方案中，在步骤(ii)中采用所述目标生物大分子的价位信息进行辅助比对。

当生物大分子是多肽或蛋白质时，对于最终获得的候选生物大分子ID以蛋白序列外加翻译后修饰作为标准进行分组，去除重复的ID，其中对于每个相同的ID，只保留PMFs最高的ID作为最终的生物大分子ID。

在第二个方面，本发明提供了一种鉴定生物大分子的分析装置(在后面有时简称为“本发明的装置”)，所述装置包括以下模块：

(1)控制模块；

(2)数据采集模块，所述数据采集模块被配置成采集待分析生物大分子的质谱数据，所述质谱数据包括一级质谱和二级质谱并且包含所述生物大分子的同位素分布中同位素峰的质荷比m/z和相应的强度；

(3)用户数据库生成模块，所述数据库生成模块被配置成按照待分析生物大分子的种类，从与生物大分子的种类相关的公共数据库中下载包含与所述生物大分子关联的所有关联生物大分子的数据，形成用户数据库，所述关联生物大分子包括所述待分析生物大分子的所有可能的修饰形式或异构体；

(4)母体离子排序模块，所述计算排序模块被配置成计算出所述用户数据库中包含的每个关联生物大分子在实验一级质谱采集的质荷比范围内不同价态下的每个同位素轮廓中的相对强度最高的同位素峰的质荷比，并将这些质荷比依次列在用户数据库中新增的以PM为行首代码的数据行中；

(5)初始候选分子确定模块，所述初始候选分子确定模块被配置成从待分析的生物大分子的一级质谱图开始，在囚禁窗口内找到强度最高的同位素峰作为第一同位素峰，并取其m/z与由计算排序模块所建立的所述用户数据库中数据行中的所有的质荷比进行比对，若找到质荷比相近的最强同位素峰，则将与该最强同位素峰所对应的关联生物大分子确定为初始候选生物大分子，若没有在所述用户数据库中找到相近的质荷比，则取所述第一同位素峰左边的同位素峰重复上述比对；其中一级质谱进行测量的待分析的生物大分子在不同价态下的未经解离的离子称为母体离子；

(6)候选分子确定模块，所述候选分子确定模块被配置成将筛选到的所有初始候选生物大分子的理论同位素轮廓中高于预设的同位素峰强度阈值IPACO的所有同位素峰的质荷比在预设的同位素峰质荷比偏差IPMD范围内在上述一级质谱的囚禁窗口内找相应的实验质荷比，并对相应的满足IPMD要求的实验同位素峰进一步计算其同位素峰相对强度偏差IPAD，如果与IPACO以上的所有理论同位素峰对应的实验同位素峰的IPMD和IPAD都满足预先指定的阈值，则被比对的相应初始候选生物大分子被确定为与待分析的生物大分子的母体离子相关的候选生物大分子；

在本发明的装置的一个优选实施方案中，所述控制模块被配置成将候选分子模块确定的候选生物大分子的归一化同位素轮廓从上述一级质谱中去除，并控制初始候选分子确定模块和候选分子确定模块分析剩余的一级质谱图，直至最终剩余的一级质谱图中的最强同位素峰的强度低于预定的一级质谱强度阈值和找到所有候选生物大分子。

在本发明的装置的另一个优选实施方案中，本发明的装置还可以包括下面的模块：

(i)碎片离子排序模块，所述碎片离子排序模块被配置成计算所述每个关联生物大分子在按预定的m/z范围的二级质谱中在不同类型及不同价态下的每一个碎片离子的同位素轮廓中的相对强度最大的同位素峰的质荷比，并将这些质荷比依次列在所述用户数据库中新增的以FM为行首代码的数据行中；

其中所述初始候选分子确定模块和所述候选分子确定模块进一步被配置成：从所述候选生物大分子的二级质谱图中第一同位素峰开始，寻找每一个候选生物大分子的所有匹配碎片离子，直到最终剩余的二级质谱图中的最强同位素峰的强度低于预定的二级质谱强度阈值，然后收集获得的每一个候选生物大分子的所有匹配碎片离子，分别计算每一个候选生物大分子的PMFs以及PTM_系数，经计算后其碎片离子的PMFs和PTM_系数符合预定的PMFs以及PTM_系数参数范围的候选生物大分子被鉴定为初始生物大分子ID；其中该初始生物大分子ID的归一化的同位素轮廓将被从原始一级质谱图中去除，形成一个新的一级质谱图，以便于对其他母体离子的搜索；并且上述初始生物大分子IDs中PMFs最高的生物大分子ID被作为候选生物大分子ID。

在本发明的装置的又一个优选实施方案中，本发明的装置还可以包括下面的模块：

其中所述初始候选分子确定模块和所述候选分子确定模块进一步被配置成：将每一个候选生物大分子在所述用户数据库中所对应的碎片离子质荷比依次在二级质谱图中以预定的IPACO、IPAD和IPMD参数进行靶向比对；收集获得的所有匹配的碎片离子，分别计算每一个候选生物大分子的PMFs和PTM_系数，经计算后其碎片离子的PMFs和PTM_系数符合预定的PMFs和PTM_系数参数范围的候选生物大分子被鉴定为初始生物大分子ID；并且上述初始生物大分子IDs中PMFs最高的生物大分子被作为候选生物大分子ID。

在本发明的分析装置的一个具体实施方案中，如上所述，所述待分析生物大分子可以为一个生物大分子或两个以上生物大分子的混合物。所述生物大分子可以是多肽、蛋白质或糖类。

在本发明的分析装置的一个优选实施方案中，所述初始候选分子确定模块被配置成在比对时，允许以预定的离群百分比和离群最大偏差扩展满足IPACO、IPMD和IPAD的同位素峰的数量，其中同位素峰强度离群百分比IPADO的取值范围为0-50％，优选0-20％；同位素峰强度离群最大偏差IPADOM的取值为100％，优选50％；同位素峰峰质荷比偏差离群百分比的取值范围为0-40％，由选0-20％；同位素峰离群质荷比最大偏差IPMDOM的取值范围是0-50ppm，优选0-30ppm。

在本发明的分析装置的一个优选实施方案中，在用户数据库中的关联生物大分子的FM和PM可以按照质荷比增加或减小的顺序排列。

在本发明的分析装置的又一个优选实施方案中，所述初始候选分子确定模块采用所述目标生物大分子的价位信息进行辅助比对。

在本发明的分析装置的又一个优选实施方案中，所述装置还包括分组模块，所述分组模块被配置成在所述生物大分子是多肽时，对于最终获得的候选生物大分子ID以蛋白序列外加翻译后修饰作为标准进行分组，去除重复的ID，其中对于每个相同的ID，只保留PMFs最高的ID作为最终的生物大分子ID。

在此要说明的是，本发明的装置的各个实施方案所包括的各个模块或执行的功能与本发明的方法步骤的各个实施方案是一一对应的或相适应的。换句话说，本发明的方法可以以计算机数据处理的方式来实现，例如通过执行与本发明的方法相应的功能的硬件设备来实施，也可以通过以程序、指令等形式执行的计算机流程来实施。因此，包括上述计算功能模块的计算机硬件设备以及包括与上述计算功能模块一一对应的计算机流程的方法步骤均包涵在本发明的范围内。当然，本发明的分析方法也可以以计算机数据处理以外的其他数据处理方式来实施，例如，以人工计算或其他计算工具的方式等等。优选采用计算机数据处理的方式实施本发明的分析方法。

本发明的分析装置可根据需要包括用于进行数据处理、输入指令、输出数据的其他必要硬件设备、模块或装置，诸如存储装置(诸如内部存储器、硬盘存储器等)、显示装置、输入输出模块、输入装置、打印设备等，还可包括网络通信模块通过局域网、互联网连接远程数据库。

在第三个方面，本发明还提供了一种生物大分子鉴定系统，所述系统包括本发明的分析装置和质谱仪，所述分析装置与所述质谱仪可通信地电连接，其中本发明的分析装置中的控制模块控制数据采集模块从所述质谱仪获取待分析生物大分子的质谱数据。

本发明的有益效果：

本发明直接利用质谱对生物大分子的测量数据(也就是离子同位素轮廓中每一个同位素峰的质荷比和相对强度)进行数据库搜索，准确快速地对待分析大分子进行定性分析鉴定。有效地绕开了传统方法中去同位素(将每一个离子的同位素轮廓按一定的算法转换成单同位素质量或平均质量)的步骤。由于去同位素算法非常多而且每一种算法产生的结果都很不一样，使得数据库搜索缺乏一个通用的、大家都认可的评价机制。本发明的同位素峰质荷比及轮廓指纹比对不对数据进行任何预处理，搜索参数直观且全部由用户选择和控制，不同的用户对同一数据的分析将得到同样的结果。因此，该发明有望成为通用型生物大分子数据库搜索系统。

附图说明

图1、ProteinGoggle的工作流程示意图。A＝算法(Algorithm)，F＝过滤(Filter)(参数)，iE＝同位素轮廓(isotopic Envelop)，Y＝是(Yes)，N＝否(No)，DB＝数据库(DataBase)，A1＝同位素峰质荷比比对(isotopic peakm/z matching)，A2＝同位素峰质荷比及轮廓指纹比对(isotopic M/z andEnvelop Fingerprinting，iMEF)，F1＝最大允许质荷比误差(maximum m/zerror tolerance)，F2＝IPACO+IPAD+IPMD，F3＝IPACO，IPAD，IPMD+PMFs+PTM_Score。

图2、蛋白质数据库中蛋白质信息存储示例：兔子泛素(P62895)。列举了母体离子不同价态下的同位素轮廓中的最强同位素峰的质荷比及其相应c和z型离子碎片的质荷比。

图3、基于表1中氧化泛素(z＝10)数据的同位素峰质荷比及轮廓指纹比对(iMEF)。如果用户选用IPACO≥5％，IPMD≤15ppm，IPAD≤30％，IPADO＝40％，和IPADOM＝100％，相对强度大于或等于5％的11个同位素峰(如图中红色虚线长方形所示)全部匹配上，从而通过比对。该蛋白质将成为候选蛋白质进行下一步的碎片离子比对。

图4、泛素整体蛋白质电喷雾一级质谱。

图5、泛素整体蛋白质+10价离子(m/z 857.38)电子转移解离二级质谱。

图6、基于表2中泛素(z＝10)数据的同位素峰质荷比及轮廓指纹比对(iMEF)。如果用户选用IPACO≥5％，IPMD≤15ppm和IPAD≤30％，相对强度大于或等于5％的11个同位素峰(如图中红色虚线长方形所示)全部匹配上，从而通过比对。该蛋白质将成为候选蛋白质进行下一步的碎片离子比对。

图7、泛素+10价离子ETD解离匹配碎片及其在蛋白质氨基酸序列中的位置示意图。当过滤参数选用IPACO≥5％，IPMD≤10ppm，PMFs≥10％和IPAD≤25％时，共有8个碎片离子匹配上。

图8、泛素+10价离子ETD解离匹配碎片及其在蛋白质氨基酸序列中的位置示意图。当过滤参数选用IPACO≥5％，IPMD≤10ppm，PMFs≥10％和IPAD≤50％时，共有38个碎片离子匹配上。

图9、泛素+10价离子ETD解离匹配碎片。IPACO≥5％，IPMD≤10ppm，PMFs≥10％和IPAD≤25％，共有8个碎片离子匹配上。

图10、泛素+10价离子ETD解离匹配碎片。IPACO≥5％，IPMD≤10ppm，PMFs≥10％和IPAD≤50％，共有38个碎片离子匹配上。

具体实施方式

术语定义和缩写

下面给出本文中所使用的一些术语的定义。

一级质谱：对生物大分子进行的直接质谱检测(也就是没有解离)得到的质谱。

二级质谱：每一个母体离子被单独囚禁后进行解离，得到其碎片离子；对这些碎片离子进行质谱检测所得到的质谱叫作二级质谱。

母体离子：是指生物大分子整体分子离子，也就是未解离前的质谱(即一级质谱)中观察到的离子。

碎片离子：二级质谱中的每一个离子都是被囚禁母体离子的碎片离子。

囚禁窗口：即m/z范围，该范围内的所有离子都被单独选出来进行串级质谱分析，也就是解离；该范围外的所有离子则被抛弃。

PM(英文Parent M/z的缩写)：即母体离子的m/z。

FM(英文Fragment M/z的缩写)：即碎片离子的m/z。

理论同位素轮廓：从生物大分子的理论分子式(元素C、H、N、O、S等的组成)计算得到的每一个离子的所有同位素的m/z和相对强度，其中每一个同位素的m/z和相对强度构成一个理论同位素峰。

实验同位素轮廓：质谱仪测到的每一个离子的所有同位素的m/z和相对强度，其中每一个同位素的m/z和相对强度构成一个实验同位素峰。

一级质谱强度阈值(Primary Abundance Threshold，PAT)：用户指定的一级质谱的一个相对强度，该强度以下的同位素峰都被认为是噪声。

二级质谱强度阈值(Secondary Abundance Threshold，PAT)：用户指定的二级质谱的一个相对强度，该强度以下的同位素峰都被认为是噪声。

同位素峰强度阈值(Isotopic Peak Abundance CutOff，IPACO)：理论同位素峰分布中，只有相对强度高于此值的同位素峰参与跟相应的实验同位素峰的比较。IPACO的取值范围是0-50％，优选0-10％。

同位素峰强度偏差(Isotopic Peak Abundance Deviation，IPAD)：实验同位素峰的相对强度相对于对应的理论同位素峰的相对强度的百分比误差。IPAD的取值范围是0-90％，优选0-50％。对于每一个实验同位素峰，其IPAD的数学定义如下：

同位素峰质荷比偏差(Isotopic Peak M/z Deviation，IPMD)：实验同位素峰m/z相对于对应的理论同位素峰m/z以ppm为单位的误差。IPMD的取值范围是0-30ppm，优选0-20ppm。对于每一个实验同位素峰，其IPMD的数学定义如下：

同位素峰强度偏差离群百分比(Isotopic Peak Abundance DeviationOutliers，IPADO)：满足IPACO的所有同位素峰中，允许超过IPAD的同位素峰的最大百分比。IPADO的取值范围是0-50％，优选0-20％。

同位素峰强度离群最大偏差(Isotopic Peak Abundance Deviation Outliermaximum，IPADOM)：离群同位素峰相对强度的最大允许IPAD。IPADOM的取值是10-50％，优选10-30％。

同位素峰质荷比偏差离群百分比(Isotopic Peak m/z Deviation Outliers，IPMDO)：满足IPACO的所有同位素峰中，允许超过IPMD的同位素峰的最大百分比。IPMDO的取值范围是0-40％，优选0-20％。

同位素峰质荷比离群最大偏差(Isotopic Peak m/z Deviation Outliermaximum，IPMDOM)：离群同位素峰m/z的最大允许IPMD。IPADOM的取值范围是0-50ppm，优选0-30ppm。

匹配离子百分比(Percentage of Matching Fragments，PMFs)：单个蛋白最少匹配碎片的百分比(相对于理论碎片个数的最大值，2(n-1)，n为该蛋白质氨基酸的总数。PMFs的取值范围是1-99％，优选5-50％。

翻译后修饰系数(Post Translational Modification Score，PTM_Score，即PTM_系数)：能独立确立翻译后修饰位点的非重复的碎片离子的个数。当一个蛋白中出现多个修饰时，每一个修饰的翻译后修饰系数分开定义。PTM_Score的取值范围是≥1，优选≥2。

下面结合附图说明实现本发明的优选实施方式。

本发明涉及一种全新的组学生物大分子(多肽，蛋白质，及糖类)数据库搜索算法，被称为同位素峰质荷比及轮廓指纹比对(isotopic m/z and EnvelopFingerprinting，缩写为iMEF)。该算法的核心是母体离子及碎片离子的理论同位素轮廓(包括每个单个同位素峰的质荷比及强度)与相应的实验值进行直接比对，不将实验同位素峰转换成单同位素质量或平均质量。该算法将被应用于多肽、蛋白质，及糖类数据库搜索的三个搜索引擎中，分别叫做Peptidegoggle，ProteinGoggle，和GlycanGoggle。

下面将以蛋白质数据库搜索为例，参照图1对iMEF算法进行具体说明。

步骤一：原始实验数据组转化

如果一级质谱和二级质谱是以包络(profile)格式采集，那么这些质谱图将首先被转化成中心线(centroid)格式。在转化中，用高斯函数或洛伦茨函数对每一个包络同位素峰进行拟合，以获得中心质荷比及相应的强度。反之，如果一级质谱和二级质谱是以中心线(centroid)格式采集，那么这一步就跳过。

步骤二：个性化蛋白质数据库的建立

先从UniProt(http://www.uniprot.gov)网站上按一定的限制标准(即，生物大分子的种类，如蛋白质名称、物种、细胞内位置，等)下载纯文本文件(flat txt)格式的蛋白质原始数据库(在本发明中也称为“关联数据库”)。用户有选择性地从该原始数据库中选取自己感兴趣的信息(如ID，CC(功能)，SQ，氨基酸的变化(包括VAR_SEQ，VARIANT，CONFLICT，UNSURE，NON_STD，等)，翻译后修饰(包括MOD_RES，CROSSTALK，DIFULFID，CARBOHYD，LIPID，BINDING，METAL，等))以及数据库外的变化(如，失水，氨，磷酸，等)建立一个个性化的蛋白质数据库(在本发明中也称为“用户数据库”)，囊括用户所感兴趣的所有可能的蛋白修饰形式和异构体。每个蛋白质不同价态下的最强同位素峰在实验一级质谱m/z范围(如500-2000)内的质荷比都被计算出来，并被单独列在一行中，该行以“PM”(Parent ion M/z，母体离子质荷比)为行首代码。图2中以原始泛素蛋白为例列举了该母体离子在实验采集范围500-2000中的所有相关信息。值得注意的是，该数据库中的各个蛋白质可以以一些特殊的方式(如质荷比增加的顺序)来排列，或者分成多个不同质荷比范围的子区或独立的子库来提高搜索速度和通量。

对每一个蛋白异构体，每种类型、不同价态下的所有碎片离子最强同位素峰的质荷比都列在以“FM”(Fragment ion M/z，碎片离子质荷比)为行首代码的一行中。碎片离子的价态小于等于母体离子的价态，同时m/z在实验二级质谱的m/z范围内。对ECD和ETD二级质谱，c和z离子是默认的离子类型；对CID和HCD二级质谱，b和y离子是默认的离子类型。用户可自行添加特殊的离子类型，如中性分子(水、氨气、磷酸)丢失离子。值得注意的是，母体离子和碎片离子最强同位素峰的质荷比原则上可以在搜索过程中在线计算，但整体搜索速度可能会慢一些。当ProteinGoggle程序运行起来后，可尝试对两种方式的速度进行统计比较。步骤三：对一个给定的母体离子，寻找候选蛋白

步骤(1)：从第一个二级质谱图的母体离子开始，通过谱图中除“同位素峰去除清单”外、实验母体离子囚禁窗口内的最强同位素峰(简称第一同位素峰)的质荷比与数据库中的所有质荷比的比对来获得初始候选蛋白。用户指定比对的质荷比误差范围(如15ppm)，同时可以选择是否用价态信息来辅助比对。该比对简称为“比对I”。如果“比对I”中找到了初始候选蛋白，就直接去步骤(4)，省略步骤(2)和(3)；要不然的话，把第一个索引同位素峰的质荷比加到“同位素峰去除清单”中，然后去步骤(2)。

步骤(2)：用第一同位素峰左边的同位素峰(简称第二同位素峰)重复“比对I”。如果找到了初始候选蛋白，就直接去步骤(4)，省略步骤(3)；要不然的话，把第二个索引同位素峰的质荷比加到“同位素峰去除清单”中，然后去步骤(3)。

步骤(3)：用第一同位素峰右边的同位素峰(简称第三同位素峰)重复“比对I”。如果找到了初始候选蛋白，就直接去步骤(4)；要不然的话，把第三个索引同位素峰的质荷比加到“同位素峰去除清单”中，然后去步骤(1)。

步骤(4)：每个初始候选蛋白高于IPACO的所有同位素峰的质荷比及强度分别与相应的实验值进行比对，简称为“比对II”。如果该比对通过用户指定的所有过滤参数(IPAD和IPMD)，这个蛋白就被加到该母体离子的候选蛋白清单中。要不然的话，上一步骤中的索引同位素峰就被加到“同位素峰去除清单”中，然后重复步骤(2)。

步骤四：碎片离子的比对

碎片离子的比对可采用自上而下筛选法或靶向筛选法。自上而下筛选法中，碎片离子的同位素质荷比及轮廓指纹比对，正如步骤三一样，从实验二级质谱图中最强的同位素峰开始，只是寻找匹配的碎片离子而不再是母体离子。靶向筛选法中，对每一个母体离子的候选蛋白，所有理论碎片离子最强同位素峰的质荷比根据用户指定的质荷比误差范围(如10ppm)依次与相应的实验值进行靶向比对，看其是否被实验观察到。每一个理论碎片离子高于IPACO的同位素轮廓(在线计算)与相应的被观察到的实验值根据用户指定的过滤参数(IPAD和IPMD)进行同位素质荷比及轮廓指纹比对。所有匹配的碎片离子然后被收集起来，用来计算PMFs和PTM_系数。通过用户指定的PMFs和PTM_系数的候选蛋白就成为初始蛋白ID。同一个母体离子的多个初始蛋白ID中PMFs最高的蛋白将成为自步骤三开始的最强实验同位素轮廓所对应的原始蛋白ID。该原始蛋白ID的归一化的同位素轮廓将被从原始一级质谱图中去除，形成一个新的一级质谱图，以便于其他母体离子的搜索。

重复步骤三和四直到所剩余一级质谱图中的最强同位素峰的强度低于用户所指定的PAT。如果有多个蛋白同时被囚禁做二级质谱，每一个母体离子都单独进行数据库搜索，尽管它们会共享同一个二级质谱图和同样一套碎片离子。所以一个二级质谱可能给出多个原始蛋白ID。从一次液相色谱-串级质谱分析中得到的所有原始蛋白ID放在一起进行下一步处理。

有时在一个母体离子或碎片离子IPACO范围内的同位素峰在质荷比IPMD或相对强度IPAD上有较大的偏差，从而离群。用户可选择IPADO，IPADOM，IPMDO和IPMDOM来放松比对的要求，但以牺牲鉴定的可信度为代价。表1和图3以低强度的氧化泛素(z＝10)说明了这种情形的存在。

表1、氧化泛素(P62975，z＝10)理论同位素轮廓与相应的实验值的比较。

在本发明中，IPACO，IPAD，IPMD，IPADO，IPADOM，IPMD，IPMDO，IPMDOM的选择可以由用户自行确定，而没有任何的限制，在实施本发明时，本领域技术人员可以借鉴本发明中公开的上述参数范围。

步骤五：对原始蛋白ID进行分组

从一次液相色谱-串级质谱分析中得到的所有原始蛋白ID在微软Access中以蛋白质序列外加翻译后修饰做标准进行分组，去除重复的ID。对每一个相同的ID，只保留PMFs最高的ID作为最终ID。

实施例

下面以泛素为例，说明本发明的方法。

1.质谱实验

泛素蛋白质溶液(200nmol/L，甲醇∶水＝3∶1(体积比)，甲酸1％(体积比))用注射器以300nL/min流速经电喷雾(喷嘴内径20μm，嘴尖处10μm，高压2.30KV，质谱进样毛细管长度64cm，内径500μm，温度300℃)喷入带电子转移解离(Electron Transfer Dissociation，ETD)的轨道阱质谱仪(Thermo Scientific)中进行串级质谱分析。一级质谱图如图4所示。其中+10价离子(m/z 857.38)以±3Da的窗口被囚禁进行ETD解离(母体离子自动增益控制为5×10⁵，ETD试剂自由基负离子(fluoranthene)自动增益控制为1×10⁵，反应时间为8μs)，解离后的二级质谱图见图5。

2.数据库搜索

1)母体离子的同位素质荷比及轮廓指纹比对

如果用户选择IPACO≥5％，IPMD≤15ppm和IPAD≤30％作为比对匹配的标准，IPACO≥5％的11个同位素峰全部匹配上，从而通过比对，如表2和图6所示。该蛋白质的理论解离谱进一步与实验解离谱进行第二步的碎片离子同位素质荷比及轮廓指纹比对。

表2、泛素(P62975，z＝10)理论同位素轮廓与相应的实验值的比较。

2)碎片离子的同位素质荷比及轮廓指纹比对

碎片离子的同位素质荷比及轮廓指纹比对有自上而下筛选法和靶向筛选法。本实施例中以靶向筛选法进行上述泛素+10价离子ETD二级解离谱的比对。如果用户选用IPACO≥5％，IPMD≤10ppm，PMFs≥10％和IPAD≤25％，将有8个碎片匹配上(图7和图9)，符合所有参数要求，因此该候选蛋白质就是母体离子比对时从数据库中找到的蛋白质。当然，如果用户提高IPAD的阈值，则有更多地匹配碎片离子。例如，当IPAD选用50％时，则有38个匹配碎片离子(图8和图10)。

参考文献

1.M.Mann，C.K.Meng，J.B.Fenn，Interpreting Mass-Spectra of MultiplyCharged Ions.Anal Chem 61，1702(Aug 1，1989).

2.M.Sturm et al.，OpenMS-An open-source software framework for massspectrometry.Bmc Bioinformatics 9，(Mar 26，2008).

3.B.B.Reinhold，V.N.Reinhold，Electrospray ionization mass spectrometry：Deconvolution by an Entropy-Based algorithm J Am Soc Mass Spectr 3，207(1992).

4.Z.Zhang，A.G.Marshall，A universal algorithm for fast and automatedcharge state deconvolution of electrospray mass-to-charge ratio spectra.J AmSoc Mass Spectr 9，225(1998).

5.M.R.Hoopmann，G.L.Finney，M.J.MacCoss，High-speed data reduction，feature detection and MS/MS spectrum quality assessment of shotgunproteomics data sets using high-resolution mass Spectrometry.Anal Chem 79，5620(Aug 1，2007).

6.P.C.Du，R.H.Angeletti，Automatic deconvolution of isotope-resolvedmass spectra using variable selection and quantized peptide mass distribution.Anal Chem 78，3385(May 15，2006).

7.L.Chen，S.K.Sze，H.Yang，Automated intensity descent algorithm forinterpretation of complex high-resolution mass spectra.Anal Chem 78，5006(Jul 15，2006).

8.M.Wehofsky，R.Hoffmann，Automated deconvolution and deisotoping ofelectrospray mass spectra.J Mass Spectrom 37，223(Feb，2002).

9.K.C.Leptos，D.A.Sarracino，J.D.Jaffe，B.Krastins，G.M.Church，MapQuant：Open-source software for large-scale protein quantification.Proteomics 6，1770(Mar，2006).

10.P.Kaur，P.B.O′Connor，Algorithms for automatic interpretation of highresolution mass spectra.J Am Soc Mass Spectr 17，459(Mar，2006).

11.J.Fernandez-De-Cossio et al.，Automated interpretation of mass spectra ofcomplex mixtures by matching of isotope peak distributions.Rapid CommunMass Sp 18，2465(2004).

12.M.Bellew et al.，A suite of algorithms for the comprehensive analysis ofcomplex protein mixtures using high-resolution LC-MS.Bioinformatics 22，1902(Aug 1，2006).

13.X.J.Li，E.C.Yi，C.J.Kemp，H.Zhang，R.Aebersold，A software suite forthe generation and comparison of peptide arrays from sets of data collected byliquid chromatography-mass spectrometry.Mol Cell Proteomics 4，1328(Sep，2005).

14.J.Samuelsson，D.Dalevi，F.Levander，T.Rognvaldsson，Modular，scriptable and automated analysis tools for high-throughput peptide massfingerprinting.Bioinformatics 20，3628(Dec 12，2004).

15.K.Park et al.，Isotopic peak intensity ratio based algorithm fordetermination of isotopic clusters and monoisotopic masses of polypeptidesfrom high-resolution mass spectrometric data.Anal Chem 80，7294(Oct 1，2008).

16.D.M.Horn，R.A.Zubarev，F.W.McLafferty，Automated reduction andinterpretation of high resolution electrospray mass spectra of large molecules.JAm Soc Mass Spectr 11，320(Apr，2000).

17.W.X.Wang et al.，Quantification of proteins and metabolites by massspectrometry without isotopic labeling or spiked standards.Anal Chem 75，4818(Sep 15，2003).

18.X.Zhang et al.，An automated method for the analysis of stable isotopelabeling data in proteomics.J Am Soc Mass Spectr 16，1181(Jul，2005).

19.B.Shin et al.，Postexperiment monoisotopic mass filtering and refinement(PE-MMR)of tandem mass spectrometric data increases accuracy of peptideidentification in LC/MS/MS.Mol Cell Proteomics 7，1124(Jun，2008).

Claims

1.一种鉴定生物大分子的分析方法，所述方法包括以下步骤：

(1)采集待分析生物大分子的质谱数据，所述质谱数据包括一级质谱和二级质谱并且包含所述生物大分子的同位素分布中同位素峰的质荷比m/z和相应的强度；

(2)按照待分析生物大分子的种类，从与生物大分子的种类相关的公共数据库中下载包含与所述生物大分子关联的所有关联生物大分子的数据，形成用户数据库，所述关联生物大分子包括所述待分析生物大分子的所有可能的修饰形式或异构体；

(3)计算出所述用户数据库中包含的每个关联生物大分子在实验一级质谱采集的质荷比范围内不同价态下的每个同位素轮廓中的相对强度最高的同位素峰的质荷比，并将这些质荷比依次列在用户数据库中新增的以PM为行首代码的数据行中；

(4)从待分析的生物大分子的一级质谱图开始，在囚禁窗口内找到强度最高的同位素峰作为第一同位素峰，并取其m/z与所述用户数据库中在步骤(3)所建立的数据行中的所有的质荷比进行比对，若找到质荷比相近的最强同位素峰，则将与该最强同位素峰所对应的关联生物大分子确定为初始候选生物大分子，并进行下面的步骤操作；若没有在所述用户数据库中找到相近的质荷比，则取所述第一同位素峰左边的同位素峰重复上述比对；其中一级质谱进行测量的待分析的生物大分子在不同价态下的未经解离的离子称为母体离子；

(5)取步骤(4)中筛选到的所有初始候选生物大分子的理论同位素轮廓中高于预设的同位素峰强度阈值IPACO的所有同位素峰的质荷比在预设的同位素峰质荷比偏差IPMD范围内在上述一级质谱的囚禁窗口内找相应的实验质荷比，并对相应的满足IPMD要求的实验同位素峰进一步计算其同位素峰相对强度偏差IPAD，如果与IPACO以上的所有理论同位素峰对应的实验同位素峰的IPMD和IPAD都满足预先指定的阈值，则被比对的相应初始候选生物大分子被确定为与待分析的生物大分子的母体离子相关的候选生物大分子；

(6)将步骤(5)中确定的候选生物大分子的归一化同位素轮廓从上述一级质谱中去除，将剩余的一级质谱图重复步骤(4)至步骤(5)，直至最终剩余的一级质谱图中的最强同位素峰的强度低于预定的一级质谱强度阈值和找到所有候选生物大分子。

2.权利要求1所述的方法，该方法还包括下面的步骤：

(i)计算所述每个关联生物大分子在按预定的m/z范围的二级质谱中在不同类型及不同价态下的每一个碎片离子的同位素轮廓中的相对强度最大的同位素峰的质荷比，并将这些质荷比依次列在所述用户数据库中新增的以FM为行首代码的数据行中；

(ii)与上述步骤(4)和(5)相同的方式从所述候选生物大分子的二级质谱图中第一同位素峰开始，寻找步骤(6)中得到的每一个候选生物大分子的所有匹配碎片离子，直到最终剩余的二级质谱图中的最强同位素峰的强度低于预定的二级质谱强度阈值；

(iii)收集在步骤(ii)中获得的每一个候选生物大分子的所有匹配碎片离子，分别计算每一个候选生物大分子的PMFs以及PTM_系数，经计算后其碎片离子的PMFs和PTM_系数符合预定的PMFs以及PTM_系数参数范围的候选生物大分子被鉴定为初始生物大分子ID；其中该初始生物大分子ID的归一化的同位素轮廓将被从原始一级质谱图中去除，形成一个新的一级质谱图，以便于其他母体离子的搜索；

3.权利要求1所述的方法，该方法还包括下面的步骤：

(ii)取步骤(5)中获得的候选生物大分子在步骤(i)中所建立的数据库中所对应的碎片离子质荷比依次在二级质谱图中以预定的IPACO、IPAD和IPMD参数进行靶向比对；

(iii)收集在步骤(ii)中获得的所有匹配的碎片离子，分别计算每一个候选生物大分子的PMFs和PTM_系数，经计算后其碎片离子的PMFs和PTM_系数符合预定的PMFs和PTM_系数参数范围的候选生物大分子被鉴定为初始生物大分子ID；

(iv)对其他所有候选生物大分子重复步骤(ii)和(iii)；

4.权利要求1-3中任一项所述的方法，其特征在于所述待分析生物大分子为一个生物大分子或两个以上生物大分子的混合物。

5.权利要求1-4中任一项所述的方法，其特征在于在步骤(5)中比对时，允许以预定的离群百分比和离群最大偏差扩展满足IPACO、IPMD和IPAD的同位素峰的数量，其中同位素峰强度离群百分比IPADO的取值范围为0-50％，优选0-20％；同位素峰强度离群最大偏差IPADOM的取值为100％，优选50％；同位素峰峰质荷比偏差离群百分比的取值范围为0-40％，由选0-20％；同位素峰离群质荷比最大偏差IPMDOM的取值范围是0-50ppm，优选0-30ppm。

6.权利要求1-5中任一项所述的方法，其特征在于在用户数据库中的关联生物大分子的FM和PM按照质荷比增加或减小的顺序排列。

7.权利要求1-6中任一项所述的方法，其特征在于在步骤(ii)中采用所述目标生物大分子的价位信息进行辅助比对。

8.权利要求1-7中任一项所述的方法，其特征在于所述生物大分子是多肽或糖类。

9.权利要求8中任一项所述的方法，其特征在于所述生物大分子是多肽，且对于最终获得的候选生物大分子ID以蛋白序列外加翻译后修饰作为标准进行分组，去除重复的ID，其中对于每个相同的ID，只保留PMFs最高的ID作为最终的生物大分子ID。