CN1749269A

CN1749269A - 用于串联质谱从头测序的肽的连续衍生化

Info

Publication number: CN1749269A
Application number: CN200510084517.4A
Authority: CN
Inventors: 巴里·E·博伊斯; 戈登·R·尼古拉; 刘宏斌
Original assignee: Agilent Technologies Inc
Current assignee: Agilent Technologies Inc
Priority date: 2004-07-16
Filing date: 2005-07-18
Publication date: 2006-03-22
Also published as: EP1617223A3; CN1766636A; US20060014210A1; US7371514B2; EP1617223A2

Abstract

本发明公开了通过化学反应对用于质谱分析的待分析物进行的连续衍生化。所述衍生化增强了MS技术对于分析蛋白质样品的用途，特别是通过串联MS/MS来确定多肽的序列时。本发明描述了用于对多肽进行测序以及在蛋白质分析中使用测序数据的精确质量分析技术。

Description

用于串联质谱从头测序的肽的连续衍生化

技术领域

本发明涉及使用质谱对蛋白质或多肽进行测序的方法。

背景技术

蛋白质是细胞结构的基本生物单位，其由通过肽键连接在一起的氨基酸的线性序列形成。该一级氨基酸序列确定了蛋白质的三维特征和功能。普通氨基酸有二十种，每种都具有氨基、带有独特侧链的碳原子和羧基。mRNA在核糖体上进行翻译的期间，蛋白质的肽键主链通过连接一个氨基酸的羧基与随后的氨基酸的N-末端氨基的键来有序形成。所得到的若干氨基酸的线性链包括第一个氨基酸(带有氨基的N-末端氨基酸)和最后一个氨基酸(带有羧基的C-末端氨基酸)。虽然蛋白质的长度在几个肽的肽激素到超过1500个氨基酸的范围内变动，但是大多数蛋白质通常为100至300个氨基酸那么长。

因为蛋白质的结构与最终的生理功能直接相关，测定蛋白质的氨基酸序列是生物医学研究和医药学上长期以来的基本课题。传统地，氨基酸分析包括用实验化学技术测定经纯化的蛋白质消化物中每种氨基酸的相对百分比，以及识别各个肽残基。蛋白质测序是艰苦的工作，其包括用酶将很大量的经过纯化的蛋白质消化成肽片段，接着是Edman降解和对重叠序列的对齐。目前，由于对用于蛋白质测序的更加精确的方法的需求的增长，使用质谱分析(MS)对蛋白质测序已获得了巨大的进步。DNA基因组测序、计算机信息学和使用质谱分析的灵敏的蛋白质分析方法正联合传统的蛋白质化学，极大地推动了被称为“蛋白质组学”的科学研究的新兴领域的出现。

蛋白质组学是蛋白质研究的领域之一，其研究对生物的蛋白质补足组(complement)进行的大规模或总体分析(Aebersold and Mann，2003，Nature 422：198)。蛋白质组学在研究、诊断以及临床应用中有着不可替代的重要性，因为其将来自若干技术学科的信息与细胞功能及生理联系了起来，所述技术学科包括化学、遗传学、细胞成像和基于芯片或微阵列的蛋白质分析或DNA分析。实践中，蛋白质组学要求在短时间内对大量蛋白质的复杂数据进行详细分析。蛋白质分析的参数包括一级氨基酸序列，以及缺失，剪切重排(splice rearrangement)，多态性，突变，取代以及其它翻译后修饰(post-translational modifications，PTMs)，例如磷酸化、乙酰化、硝化、磺化、氧化、甲基化、糖基化、交联。对蛋白质及其相关形式的高通量分析对生物学、生理学和医药学研究都极其重要，其可被用于临床诊断应用。

质谱分析(MS)在蛋白质组学中是潜在的有用工具，因为其对质量高度灵敏的测量可以通过氨基酸序列来鉴别出一些蛋白质(Aebersold andGoodlett，Chem.Rev.101：269-295，2001；reviewed in Mann，et al.，2001，Ann.Rev.Biochemistry 70：437；Kinter and Sherman，Protein sequencing andIdentification Using Tandem Mass Spectrometry，Wiley，NY，2000)。因为每种氨基酸或氨基酸残基的链理论上可以通过对其质量进行的精确测量来检测出来，因此对质量的足够精确的测量使得可对各种氨基酸进行鉴别。当样品处理和MS技术都高度精确时，就可以确定形成多肽分子的氨基酸的实际序列。此外，如果用高度精确且可信赖的方法检测到了与一种氨基酸的已知质量的偏差，这就表示该氨基酸已被修饰，因此使得对上述蛋白质结构的所述修饰(例如缺失、剪切重排、多态性、突变、取代以及翻译后修饰)能被检测到，在蛋白质组学研究中所述修饰通常非常重要。

质谱分析涉及在气相中对经过电离的待分析物进行的分析，其中使用：对待分析物进行电离的离子源，测量经过电离的待分析物的质荷比(M/Z)的质量分析仪，以及记录每个m/z值处离子数目的检测器。MS装置还可以与分离技术联合，以改进分析复杂混合物的能力。此外，可以将MS仪器进行组合来提高灵敏度和选择性。很多种不同的MS仪器都可用于蛋白质测序。关于离子源的方面，电喷雾电离化(electrosprayionization，ESI)和基质辅助激光解吸附/电离化(matrix-assisted laserdesorption/ionization，MALDI)是对蛋白质或肽电离化以进行分析的两种常用技术。ESI对来自溶液的待分析物进行电离化，MALDI中使用当暴露于光能时能促进解吸附和电离化的“基质”(matrix)，对样品进行解吸附并电离化。MALDI产生出来的主要是来自肽的带单一电荷的离子。如下文中更为详细的描述所述，串联(tandem)MS/MS是使用至少两种MS部件的技术，其是用于对多肽进行MS分析的常用方法。

质量分析仪有若干种，包括离子阱分析仪、飞行时间(TOF)分析仪、四极分析仪、扇形磁场分析仪以及傅立叶变换离子回旋(FT-MS)分析仪，每种都有着不同的分析特性。上述分析仪可以单独使用，或者可以串联组合，以使MS分析的灵敏度和效用最大化。例如，MALDI离子源通常与TOF分析仪耦合，但也可以与四极离子阱耦合，以及与组合式TOF仪器或FT-MS耦合。例如，在TOF-TOF中，两个TOF部件被碰撞室分开。在混合型的四极TOF装置中，碰撞室被置于四极滤质器和TOF分析仪之间。上述例子阐明了从完整的MS装置或从选自上述仪器的部件组合成“串联”质谱装置的方式。串联MS的基本特征是从离子的片段化(fragmentation)模式中获得的结构信息。对串联MS/MS仪器的设计使其可以具有多功能性以及增强的灵敏度，这取决于分析的目标和待分析物的化学组成。在可获得的MS设备中，MALDI-MS/MS是优选用于肽分析的方法，虽然其它也可以使用。Aebersold and Goodlett，2001；Cramer andCorless，Rapid Comm.in Mass Spectrom.15：2058-2066，2001；其它MS仪器组合见Aebersold and Mann，2003。

对通过片段化从蛋白质获得的一组肽而言，获得对其精确的质量测量的能力使得通过质谱进行的多肽分析容易起来，所述片段化是在使用用于蛋白水解的特异性切割酶之后发生于特定的氨基酸序列上的。对蛋白质进行鉴别的原理假设：用规定的蛋白酶水解之后，不同氨基酸序列的蛋白质产生的一组肽构成对特定的蛋白质来说独一无二的蛋白质质量指纹(fingerprint)。如果用基于实验中精确观察到的肽的质量指纹而选定的质量来搜索含有该特定蛋白质序列的序列数据库，将该数据库与蛋白酶的片段化规则联合起来，就可以期待能够在该数据库中正确地鉴别出所述蛋白质来。如下文更详细的描述所示，存在有若干种情况，其中，实验中观察到的质谱不能转化为对实际蛋白质组成或序列的正确预测。

通过上述方法进行的蛋白质鉴别涉及一些基本步骤：(i)通过使用对氨基酸序列有特异性的切割试剂来对样品蛋白质进行消化，以产生肽，使得羧基-或氨基-末端的残基以合理的确定度被已知。例如，胰蛋白酶在消化片段的羧基末端产生精氨酸(R)或赖氨酸(K)。因此，经胰蛋白酶消化的肽的N-末端(除了N-最末端的一个)可被鉴别为在蛋白质序列中紧接着K或R残基的氨基酸。(ii)消化之后，在质谱仪中对肽或多肽的质量进行尽可能精确的测量。(iii)在计算机中对实验蛋白质片段的质量数据进行处理，将其与计算机数据库中的数据进行比较，并且使用用于实验中所用的蛋白水解方法的规则，以产生一系列理论质量，与测量出的一系列质量进行比较。(iv)用算法来对测量出的一系列肽质量与上述对数据库中每个蛋白质预测的一系列质量进行比较，以及对每一匹配给出一个分数值，该分数值表示了匹配程度的排名。该方法通常被称为“计算机”消化(″in silico″digestion)，通过质量分析对蛋白质进行正确的鉴别取决于测量出的质量与数据库中含有的相应数据之间的关系。然而，该方法中存在有很多困难。显然，对待鉴别的蛋白质而言，其序列必须要存在于用于比较的序列数据库中。另外，蛋白质混合物的消化物对质量分析来说存在一个问题，因为不易明确复杂的肽混合物中哪个肽来自于特定的蛋白质。测量精确度的提高将降低实验获得的质量与序列数据库中相应质量匹配的潜在错误，因此将增加数据库搜索的严谨度。

如果对纯粹的蛋白质进行消化，将得到的肽的质量与为该蛋白质预测出的一系列肽质量进行比较，典型地，将产生两种观察结果。第一种是并非所有预测出的肽都被检测到。第二种是一些测量出的肽质量并不在从该蛋白质预测出的一系列质量之中。第一个问题，遗漏的质量，通常是由于可能发生于质谱分析之前或期间的很多问题所导致的，例如低溶解度、选择性吸收、离子抑制、选择性电离、很短或很长的肽长度、遗漏的或不恰当的蛋白水解切割或其它导致样品丢失或使特定的肽很少或无法被MS检测到的人为因素。这是很关键的缺陷，因为遗漏的肽质量可能含有很有意义的生物信息。因此，未被检出的肽质量是通过质谱进行的蛋白质鉴别的一个重大问题，并且，其可能是错误鉴别或遗漏鉴别的唯一的主要来源。

片段离子谱是通过被称为碰撞诱导裂解(CID)的方法来产生的，所述方法中，肽的酰胺键被破坏，之后是对片段离子谱的记录。对酰胺键的切割导致b-离子(含有N-末端)和y-离子(含有C-末端)的产生。经胰蛋白酶水解的肽的高品质的MS/MS谱典型地会显示显著的b和y-离子系列。如果对10残基肽的每个酰胺键而言，仅有上述两种离子产生的话，所述的片段离子谱将含有18个峰。理想地，b或y型占主导地位的长的稳定离子系列将被回收。实际中，肽的片段化是不定的，且取决于基团部分(moiety)，这在分析中导致缺口及困难。产生片段离子的多样性和不定性使得从肽的MS/MS谱来鉴别肽和测序变得复杂。使对MS/MS谱的解读变复杂的因素是：遗漏的离子集合、内部重排、后续片段化以及多电荷状况。还需要考虑的是片段离子峰强度与离子系列来源和片段质量之间的关系、氨基酸残基及其衍生物对相邻酰胺键切割的影响、以及氨基酸组成和中性片段化丢失之间的联系。

现有若干种方法用于MS蛋白质从头测序(de novo sequencing)，其随着待分析蛋白质的大小和纯度而变动。虽然已有一些数据被发表出来，但是对经过部分纯化且未被消化的蛋白质进行的MS序列分析(术语为从上至下的测序)或者对来自整个细胞的蛋白质的表达分析，在技术上仍然是困难的，其部分因为样品的复杂性(Zabrouskov et al.，Mol.Cell.Proteomics 2：1253，2003；Sze et al.，PNAS 99：1774-1779，2002)。

先进行肽的串联MS分析、然后进行计算机化数据库搜索在高通量蛋白质组学研究中也很常用。近来在多维分离技术和自动数据采集及分析领域取得的进展已进一步增加了用该方法分析生物样品中多肽的通量。然而，该方法的主要缺陷是对高品质的实验MS谱依然有严格的依赖性，因为理论上的肽序列是通过用实验谱与计算机产生的理论谱进行匹配来确定的。虽然越来越多不同生物的基因组都已被测序，但目前数据库仍然无法覆盖当今生物学研究中所用到的模式生物的整个集合。此外，由于数据库的错误、不完全的转录剪切信息(通常出现于真核细胞中)以及多肽的翻译后修饰，来源于基因组的预测得到的多肽序列信息通常无法可靠地预测实际的多肽信息。已知的对蛋白质和肽的翻译后化学修饰及翻译后酶学修饰的数量在持续增加。目前已知有超过200种的对蛋白质的翻译后修饰。随着此类修饰的多样性、幅度和频率被意识到，对数据库产生的MS谱的完美质谱匹配的可能性应会降低。因此，上述生物过程可能会显著地妨碍数据库搜索以及对生物样品中蛋白质精确的序列测定。

近来的文章表明，改进的MS分析方法可以鉴别来自其它mRNA剪切、单点突变以及共翻译修饰和翻译后修饰的蛋白质异构体(Mann andJensen，Nat.Biotech.21：255-261，2003评论)。化学衍生化法可与亲和色谱联合起来，鉴别特定的氨基酸修饰。在固定金属亲和柱色谱前对带负电荷的氨基酸残基进行酯化，接着是MS/MS分析，会改进对磷酸化肽的鉴别(Ficarro，Nat.Biotechnol.20：301-305，2002)。MacCoss用毛细多维液相色谱，接着使用MS/MS分析，来分析用三种不同的蛋白水解酶消化过的蛋白质，并获得了对于重叠的肽的序列结果，其减少了作图修饰(mapping modification)的不确定性，并检测出了磷酸化位点(MacCosset al.，PNAS 99：7900-7905，2002)。Claverol et al.使用将凝胶分离的蛋白质和ESI-MS/MS结合起来的策略，以测定酪蛋白的磷酸化和糖基基元(Claverol，et al.，Mol.Cell.Proteomics 2：483-493，2003)。用MALDI-TOF和目标LC-MS/MS的组合鉴别出了暴露于毒素导致的化学诱导蛋白质修饰(Person，et al.Chem.Res.Toxicol 16：598-608，2003)。

Cagney注意到，他们的实验结果是典型的肽MS/MS实验，因为其中观察到了较长却不完全的y-离子系列(Cagney and Emili，2002)。大多数从头进行的肽MS/MS谱或者是不完全的，或者是太复杂的，以至于不能被精确地转化为对肽的测序。这主要是由于方向性导致的困难(N-末端离子与C-末端离子的区别)、片段化的低效率、内部片段化、片段化期间产生的不同类型离子(即b、y、a、c、x和z型)的存在、不完全的b和y系列的离子组的存在以及它们丢失NH₃和H₂O基团的倾向。上述各种不同的片段化离子可以以非常不同的量被产生，其中每种都有特征性的在质谱仪中被检测到的能力。因此，多肽的MS/MS谱可表现为强度差别极大的高度复杂的表观质量系列。由于MS/MS谱外观所固有的复杂性，从头进行的对肽的测序并不完全具有对多肽进行序列测定的能力。序列错误和复合因素，例如多态性、差异性剪切或蛋白质的翻译后修饰的存在，导致了对有效的从头测序策略的需求(Cagney，2002)。如果可通过对MS/MS谱的分析来直接对肽的序列进行有序的确定，那就将给蛋白质组学带来很大的好处。

人们对于从头测序的尝试关注于针对方向性和易变化的肽键的技术困难，以在保持确定氨基酸精确度的同时简化或增强对谱的解读。此外，并非所有的肽都可被溶解，这是由肽的内在化学结构以及MS分析期间其对片段化的多种倾向导致的。若干种氨基酸显示出特定的困难，例如，异亮氨酸和亮氨酸具有相同的质量(异构体)；赖氨酸和谷氨酰胺的质量相近(同量异位，isobaric)，且难于分辨；将酸性氨基酸，天冬氨酸和谷氨酸与其它氨基酸连接起来的酰胺键较之其它酰胺键更易发生变化，导致了肽在此类位点的脆弱性；位置紧接着N-末端氨基酸的氨基酸容易对片段化产生抗性；以及，组氨酸和脯氨酸非常难于被分析，尤其是邻近天冬氨酸的脯氨酸。考虑到上述的技术困难存在并需要复杂的数据分析，错误或不完全的质谱分析导致从头蛋白质测序中蛋白质序列的错误就很有可能了。

近来，包括同位素标记和化学衍生化的基于MS/MS的方法，已经改善了MS谱的解读(Cagney and Emili，2002评论)。使用¹⁶O/¹⁸O标记，改进了对y-离子的鉴别，但还降低了信号强度(Munchbach et al.，Anal.Chem.72：4047-4057，2000；Uttenweiler-Joseph et al.，Proteomics 1：668，2001)。另一种方法涉及到对肽中羧基的甲酯化(Hunt，et al.，PNAS 83：6233，1986；Goodlett，et al.，Rapid Commun.Mass Spectrom.15：1214，2001)。该反应增加了天冬氨酸和谷氨酸羧基侧链的质量，还修饰了C-末端的羧基。然而，对同位素标记和甲基化而言，经修饰的谱都应仍与原始的未被衍生的肽的谱进行比较。因此，对肽进行的化学标记可能需要额外的会使高通量测序变慢的实验及计算机步骤。质谱分析(MS)涉及在气相中对经过电离的待分析物进行的分析，其中使用：对待分析物进行电离的离子源，测量经过电离的待分析物的质荷比(M/Z)的质量分析仪，以及记录每个m/z值处离子数目的检测器。MS装置还可以与分离技术联合，以改进分析复杂混合物的能力。此外，可以将MS仪器进行组合来提高灵敏度和选择性。很多种不同的MS仪器都可用于蛋白质测序。关于离子源的方面，电喷雾电离化(ESI)和基质辅助激光解吸附/电离化(MALDI)是对蛋白质或肽电离化以进行分析的两种常用技术。ESI对来自溶液的待分析物进行电离化，MALDI中使用当暴露于光能时能促进解吸附和电离化的“基质”，对样品进行解吸附并电离化。MALDI产生出来的主要是来自肽的带单一电荷的离子。如下文中更为详细的描述所述，串联MS/MS是使用至少两种MS部件的技术，其是用于对多肽进行MS分析的常用方法。

质谱分析(MS)涉及在气相中对经过电离的待分析物进行的分析，其中使用：对待分析物进行电离的离子源，测量经过电离的待分析物的质荷比(M/Z)的质量分析仪，以及记录每个m/z值处离子数目的检测器。MS装置还可以与分离技术联合，以改进分析复杂混合物的能力。此外，可以将MS仪器进行组合来提高灵敏度和选择性。很多种不同的MS仪器都可用于蛋白质测序。关于离子源的方面，电喷雾电离化(ESI)和基质辅助激光解吸附/电离化(MALDI)是对蛋白质或肽电离化以进行分析的两种常用技术。ESI对来自溶液的待分析物进行电离化，MALDI中使用当暴露于光能时能促进解吸附和电离化的“基质”，对样品进行解吸附并电离化。MALDI产生出来的主要是来自肽的带单一电荷的离子。如下文中更为详细的描述所述，串联MS/MS是使用至少两种MS部件的技术，其是用于对多肽进行MS分析的常用方法。

在MS分析之前对肽的N-末端进行化学修饰已被发现能改进MS分析。用活性N-羟基琥珀酰亚胺酯在N-末端引入季铵基团，增加了MALDIMS的灵敏度(Bartlet-Jones，et al.，Rapid Comm.Mass Spectrom.8：737，1994)。Cardenas，et al用N-琥珀酰亚胺-2-(3-吡啶基)乙酸酯与肽进行反应，接着进行液相色谱分离及ESI-MS/MS分析(Cardenas，et al.，RapidComm.Mass Spectrum.11：1271-1278，1997)。该反应修饰了N-末端的氨基酸以及赖氨酸的氨基。Keough et al.报道：将磺酸基添加到经胰蛋白酶水解的肽的N末端，会增加片段化的灵敏度，较之天然的肽会产生更高产量的片段离子。(WO 02/08767；2003/0032056；WO 02/095419；PNAS 96：7131-7134，1999；Rapid Commun.Mass Spectrom 15：2227-2239，2001)。通过对酰胺氮的质子化对酰胺键进行去稳定，在MALDI和ESI(AP MALDI与离子阱MS组合)电离化条件下会产生广泛的片段化。经磺酸化的含有天冬氨酸、谷氨酸和被氧化的甲硫氨酸的肽的MS/MS谱显示，肽主链上的片段化更加一致。此外，Keogh et al.观察到了脯氨酸残基上N-末端一侧的优先片段化，这增强了对脯氨酸的识别。

人们已发现，在分析之前对肽的C-末端氨基酸进行化学修饰能形成更长且更稳定的y-离子系列。已有若干种对C-末端进行化学修饰的方法被报道用于赖氨酸。如上所述，通常在通过MS进行的多肽分析中使用胰蛋白酶消化来进行片段化，因为得到的片段会可靠地以精氨酸(R)或赖氨酸(K)结尾，因此建立起C-末端的部分。虽然已知精氨酸会产生异常强的MS信号，但赖氨酸却难于被检测到。然而，可对赖氨酸进行化学修饰以增强其信号(见Peters，WO 03/056299)。这种修饰可使赖氨酸的质量与谷氨酰胺的质量区别开。Cagney和Emili(2002)使用了一种相似的手段，其中对C末端赖氨酸进行差别胍酯化(guanidination)，接着进行LC-ESI-MS/MS分析(Cagney，Emili，Nat.Biotech.20：163-170，2002)。Guet al(Gu et al.，J.Am.Soc.Mass Spectrom.14：1-7，2003)利用了加入氘标记的(重)赖氨酸。

Peters et al.(Peters，et al.，WO 03/056299)描述了一种不同的用于C-末端赖氨酸的化学衍生化方法，其指出，当用一组特别的试剂，例如2-甲氧基-4，5-二氢-1-H-咪唑(称为“咪唑”)来修饰多肽C-末端的赖氨酸时，得到的MS/MS谱的复杂度将被很大地降低。Peters et al.注意到，对y-离子系列的鉴别会被改进，因此使得对氨基酸序列的检测更为精确。

通过对肽进行化学衍生化获得的对MS/MS谱的简化，以及随之改善的对氨基酸序列数据进行鉴别的能力，显示了发展高品质的片段化谱以及获得完整的b-离子以及尤其是y-离子序列的长系列的潜力，并提供了用于从头测序的实用手段。改进的从头质量测量的分辨率增加了序列测定的精确度，也减少了对计算机预测性的蛋白质序列分析的依赖。然而，虽然化学修饰能增加MS分析的可靠性和实用性，增强从头测序的能力，但仍有若干疑难问题的技术挑战还未得到解决，大量在生物学上很重要的肽的特征通过现有的MS技术目前还不能被阐明。此外，肽测序和蛋白质鉴别对计算机数据库的依赖，总是涉及预测和近似，而非实验数据，因此，增加了无法从所述数据中检测出来的错误的可能性。因此，理想地，对多肽的质量分析将允许产生精确可靠的多肽序列，所述多肽序列利用了对所述肽中每个氨基酸的从头鉴别。

考虑到肽的片段化所固有的复杂性和对MS谱的分析的困难，用于对肽进行化学衍生化的不同方法的组合还未完全发展起来。对蛋白质组学以及对肽的复杂混合物的分析而言，一般公认仅有非常简单并且极端有效的化学衍生化步骤能与蛋白质组学兼容。如果化学反应引入了任何杂质，那么肽的样品将变得甚至更为复杂，因此使得MS分析及其后的数据处理复杂化。(Mann and Jensen，Nat.Biotech.21：255-261，2003)。因此，虽然化学衍生化法是用于质谱分析的已知工序，但是使用多种不相关的衍生化技术被认为将会向肽的质量分析引入显著的复杂度和复杂性，使用从头测序来对肽的线性氨基酸序列进行完全的测定仍然是很困难的。

发明内容

本发明是对用于质谱分析的多肽进行化学衍生化的新颖的手段。本发明既包括方法，又包括物质的组合物；特别而言，本发明包括化学衍生物，所述衍生物的与MS仪器相关的系列用途，改进的数据分析技术，所述技术应用于连续衍生化的多肽的方法，用于测定经过特定修饰的肽的氨基酸序列，本发明还包括用于质量分析中上述所有用途的方法和装置。在某些实施方式中，本发明还包括用于MS数据分析的新技术，其中使用了谱的数据，计算数据库以及使用实验获得的MS数据以鉴别蛋白质、鉴别肽或肽的序列的软件和算法，以及对多肽进行从头测序的软件和算法。

本发明的优点源自对肽进行测序的数据品质的提高，所述提高基于质量测量的品质的改进，以及通过氨基酸的质量来鉴别氨基酸的谱数据的强度和品质的改进。根据本发明所获得的上述数据展示了关于肽的质量的关键信息，提供了定性和定量的关于MS谱信息的改进，使得在定性和定量方面都优于现有技术并能进行从头测序的分析得以开展。

本发明的改进和优点来自用化学功能基团和经过特别选择和设计的反应技术对多肽进行的连续(serial)衍生化，所述反应技术用于用串联MS产生出有改进的谱数据。所述的连续衍生化促进了通过串联MS进行从头测序的最终目标——偏向一种类型的离子片段系列，使得每个氨基酸残基产生可被测量的离子的可能性近似相等。当开展对下述多肽的质量分析时，对数据品质的所述改进是特别重要的，所述多肽是已知在基于其氨基酸组成、序列或翻译后修饰的情况下对质量测量和测序来说都存在问题的。存在独特问题的多肽通常是酸性氨基酸，天冬氨酸和谷氨酸残基，因为多肽中上述残基及其相邻残基之间的酰胺键具有更易成片段的固有属性。因此，对上述序列和其它存在问题的序列而言，含有上述种类的肽被电离化时会产生不可预料的片段化模式。另一个内在问题是脯氨酸这种氨基酸，因为其残基具有独特的构型结构，所述结构易于成片段，这使得对邻近脯氨酸的序列数据的获取复杂化了。

上述存在问题的例子对基于MS的多肽测序造成了显著的障碍，因为在给氨基酸残基指明身份的过程中的每一个不确定性的实例都会向任何后续的样品分析(例如蛋白质的鉴别或实验数据与蛋白质组数据库的比较)引入不确定性。因为上述原因，本发明提供的对谱的数据的品质的改进就转化为蛋白质研究领域中的切实可行的改进。

因为本发明的连续衍生化在经过连续衍生化的多肽的片段化特性方面提供了优点，所以在质谱上获得了定性和定量的明显改进。对质谱特征的改进，特别是对MS/MS图案外观的简化，以若干条途径被实现。因为酰胺键片段化的可预测性增加，就更容易检测到单个的氨基酸残基，也可以以更高的精确度和确定度来确定质量的值。此外，对更多的残基的质量值的检测能力提高，增加了所述谱的总的品质，因为该改进使得更大片段的多肽序列的单个残基可被确定。

MS谱品质提高的另一方面在于信噪比的增加：该比率在定量基础上增加，简单地，是由于对单个的残基产生了更强的信号。定性地，本发明产生了更多的峰，从中可以读出质量测量数据，其中，测序离子的绝对数量较之非测序离子有所增加。实践中，从侧链片段化获得的离子、水离子和其它噪音信号都减少了。非测序离子的减少在谱的质量方面提供了显著的优点，因为很多非测序离子与正常的测序离子具有相近的质量值，前者的出现向多肽序列测定引入了不确定性和潜在的错误。总而言之，上述所有方面有利于减少通常出现于谱的数据中的缺口。

在所述谱表观品质的方面，更多的中等强度的峰被观察到，对于鉴别那些用以鉴别特定的肽或可被识别的肽的组合的y离子的峰的序列的能力也增加了。由经过改进的谱提供的另一项优点是可以减少的片段化能量来进行质量分析的能力。因此，本发明中提高的片段化过程的可靠性、离子的可检测性和信噪比可以依次有利地改变用于MS分析中的仪器的分析参数。降低片段化能量的能力本身或其中，也通过减少非生产性的(non-productive)离子片段化而改进了所述的谱。

在优选的实施方式中，本发明包括至少两个化学反应步骤，其中，每一个都是对多肽中存在的独特的部分(moiety)的衍生化。该方法被称为连续衍生化，因为使用了两种截然不同的标记方法。实验室中进行的化学反应步骤可依次或平行地于下述环境中进行，其中，所述的化学反应不干扰对所述肽的修饰，或者不干扰试剂之间的交叉反应，以这样的方式使得待分析的肽的所述反应和衍生化得到折衷。典型地，连续衍生化在已经或将要被消化以产生多肽片段的样品上进行，典型地，其具有至少两个不相关联的化学标记步骤：在第一个步骤，消化之后对多肽进行衍生化，以建立活性末端及获得第一种衍生物，以协助对单个残基的鉴别。第一个衍生化步骤的例子是赖氨酸衍生化，例如Peters，et al.(WO 03/056299)所描述的方法。在第二个衍生化步骤中，已经过第一个衍生化步骤衍生化的多肽，例如赖氨酸(特别是C-末端的赖氨酸)被衍生化的那些，被用于进行第二次化学衍生化，其中会独特地修饰与第一次衍生化不同的部分。第二次衍生化的一个例子是对羧基的烷基化，例如，对天冬氨酸残基的羧基进行甲基化。所述开展两种独特的对肽的部分进行衍生化的方法区别于使用核同位素作为质量标签或使用两步化学反应，所述化学反应利用了保护基团在单次化学衍生化中保护特定的肽的部分。

对连续衍生化的描述在此被描述为两个步骤的方法，因为进行了两次独特的衍生化。本文中描述的单个衍生化的步骤可按照任何顺序展开，也可同时进行。因为对赖氨酸的衍生化可以在用酶进行消化或对多肽进行化学片段化之后发生，该衍生化步骤在顺序上可作为第一个或第二个步骤被有利地进行，这取决于待分析物或其它实验参数。

在一种优选的实施方式中，多肽或蛋白质样品在经胰蛋白酶消化之后进行第一次衍生化，其优选标记胰蛋白酶水解片段的C-末端残基，典型地，产生C-末端赖氨酸的咪唑衍生物。第一或单一的经衍生化的多肽与第二衍生化试剂反应，以在羧基处对多肽的酸性残基侧链产生额外的衍生化。如上所示，本发明的一种优选实施方式包含基于Peter，et al.(WO03/056299)的第一衍生化技术及随后的第二次衍生化的组合，所述第二次衍生化包含对酸性残基上羧基的甲基化。因为Peters et al.的技术趋向于关注多肽待分析物在酸性残基周围的片段化，因而第二次衍生化就协助解决用于酸性残基的谱的数据，并且其对于提高所述谱的整体品质具有协同效应。

当使用假定的或实际的蛋白质序列数据库和蛋白质本体数据库(protein identity database)时，本发明提供的优点就转化为MS数据的实用性增加。可被鉴别出来的每种额外的可靠的氨基酸残基都增加了蛋白质测序和蛋白质鉴别的精确度，并改进了将实验确定的序列与基因组或蛋白质组数据库的成员进行比较的能力。

本发明导致的改进的谱的数据的另一应用是鉴别出样品中蛋白质或多肽待分析物的变异体或修饰。很多重要的生理条件是由对蛋白质或多肽的修饰导致的或伴随的，所述修饰可于含有来自病人的多肽的生物样品中检测到，所述生物样品例如血液、尿、唾液、脑脊髓、体液、腹水、血浆、细胞或组织样品或提取物或常用于分析方法的其它物质。采用上述样品，对蛋白质或多肽待分析物的精确实验测量允许基于对多肽的测量出的质谱图案与假定或标准质谱图案的比较的分析和诊断。所述标准质谱图案可以代表正常的待分析物，或者代表已知表示疾病状态或已知的生理条件、或特定的目标基因型的待分析物。在该种实施方式中，实验获得的序列被与标准或参照进行比较，其差异与标准物或参照物和病人的待分析物之间存在的特定修饰或改变相关。该测量出的差异因此能鉴别出突变，多态性，剪切重排，缺失，取代或其它翻译后修饰，例如磷酸化、乙酰化、氧化、甲基化、凝胶化、糖基化等。

本发明适用于很多类型的质量分析装置。

附图说明

图1A和图1B是咪唑标记的肽(SEQ ID NO：1)GLQYLLEK的MS/MS谱(MALDI/Q-TOF)，已用Peters et al.(WO 03/056299)的技术对所述的在肽赖氨酸残基处进行了衍生化，并对羧酸酯(carboxylate)基团进行了甲基化。肽(SEQ ID NO：1)GLQYLLEK产生自β晶状体球蛋白(牛眼晶状体)的胰蛋白酶消化产物。y1离子及其片段，即215.1、170.1和152.1a.m.u.在所述的谱中占优势，因此抑制了其它的y-离子，尤其是质量较高的那些。这可能导致对所述的肽氨基末端残基鉴别的遗漏。在图1B中，经过连续衍生化的肽的谱具有较好的y-离子强度分布，因此有助于对序列中每个氨基酸的鉴别。

图2A和2B是咪唑标记的肽(SEQ ID NO：2)CDENILWLDYK的MS/MS谱(MALDI/Q-TOF)，所述的肽产生自丙酮酸激酶(兔肌肉)的胰蛋白酶消化产物。对多肽进行分析的一个额外问题是，羧基末端到酸性残基即谷氨酸和天冬氨酸的肽键，在某些序列情况下易于被破坏，导致MS/MS谱仅有一些占据优势的峰，不足以确定所述的肽的全长序列。如图2A中所示的那些，对肽的分析产生的MS/MS谱数据对这种情况进行了例证。与相应的未经过衍生化的肽相比较，经过连续衍生化的肽对谱品质的改进(图2B)是非常显著的，而且从这样的谱中可以容易地确定出肽的序列。

图3A和图3B是咪唑标记的肽(SEQ ID NO：1)GLQYLLEK的MS/MS谱，已用Peters et al.(WO 03/056299)的技术用咪唑对所述的肽的羧基末端的赖氨酸和氨基末端的赖氨酸进行了衍生化，所述的肽产生自β-晶状体球蛋白(牛眼晶状体)的胰蛋白酶消化产物。虽然在肽的氨基末端的伯胺通常不与咪唑试剂反应，但是当肽的氨基末端的氨基酸残基是甘氨酸的时候，该N-末端会以较慢的速率被衍生化。由于y-离子系列不完全以及y、a、b和一些c离子的存在，来自此类双标记肽的MS/MS谱难于被从头解读。当同样的肽被连续衍生化后，y-离子系列变成了所述谱中占据优势的特征，从头解读变得更为容易更为精确，如图3B所示。

图4A和图4B。Lys-C可被用于消化蛋白质，以增加羧基末端赖氨酸的出现，这可能会增加用于鉴别的蛋白质序列的覆盖范围。然而，Lys-C消化之后得到的肽通常具有内部的精氨酸，这使得它们的MS/MS谱难于被解读，即使是在咪唑衍生化之后，如图4A所示。对来自细胞色素C(牛心脏)的同样的肽(SEQ ID NO：3)(图4B)进行连续衍生化之后的MS/MS谱显示了直到内部精氨酸的长且占据优势的y-离子系列，使得该肽序列的长段可被读出。

图5是本发明的方法的一种实施方式，其中除了必要的连续衍生化之外还包括若干可选的步骤。所述方法的组成包括对改进的质谱数据的分析，以进行从头的肽序列分析、在后续分析中使用序列数据、以及开展大量需要精确序列信息的肽分析步骤中的任何一种。

具体实施方式

定义：

本文中使用的术语“烷基化试剂”指如本文中所述的能与氨基酸的羧酸酯基团反应以产生烷基衍生物的化合物。

术语“质量分析”指一种方法，其中，对氨基酸残基的鉴别是通过对质荷比(M/Z)的测量来确定的。

“多肽”指包含通过肽键相连的氨基酸残基、相关的天然形成的结构变异体、以及合成的非天然形成的其类似物的聚合物，相关的天然形成的其结构变异体，以及合成的非天然形成的其类似物。术语“多肽”还包括作为较大多肽的切割、消化或片段化产物存在的多个氨基酸，其中，切割、消化或片段化是通过化学、生化、电离、机械或其它反应发生的。术语“蛋白质”典型地指较大的多肽。术语“肽”典型地指短的多肽。

本发明涉及改善肽的MS/MS谱品质的方法，因此肽序列(以及，可能地，某些翻译后修饰)可直接被确定，而不需要基因组信息的在先知识。如上所述，用于蛋白质鉴别和测序的质谱分析方法被广泛应用于蛋白质组学的领域。质谱分析可以定义出多肽序列的特征，或者确定蛋白质或多肽序列的两种形式之间的不同之处。对来自两种生物学条件，例如来自癌症与正常细胞，的蛋白质表达的比较，可揭示出对应于癌症状态的独一无二的蛋白质或一组蛋白质。在蛋白质组学中用质谱分析来从头获得序列信息的能力要求高度精确的MS技术、MS/MS谱的可靠产生、以及解释肽片段化由此鉴别出大量的特定残基从而产生真实可靠的序列信息的能力。为达到此目的，必须克服使用MS数据来确定肽的序列的过程中的若干已知的问题。根据本发明，肽被连续衍生化，以对片段化特征进行控制，使得得到的MS/MS谱中的y-离子展现出更加近似相等的强度，且使缺口和非测序数据点最少化。

从头测序中的重要参数包括多肽片段的片段离子方向性(directionality)氨基(b-离子)或羧基(y-离子)末端上离子电荷保持性。一旦片段离子定向的方向性已被指定，就可以通过确定特定氨基酸残基的质量来从头获得肽序列。从头序列信息能产生对应于整个肽的较大部分的各单个残基的延长且可靠的鉴别，并在从头数据用于数据库搜索时增强分析能力。但是，对从头获得的序列与通过数据库搜索发现的序列的比较，也可用于分析实验和理论数据之间的差异本身。当从头序列与从数据库搜索获得的序列不同时，该差异可以被归因于一种生物学现象，所述现象可在含有其序列被实验性测定的多肽的样品即生物样品中被鉴别出。该特定的基于肽的分析可以通过任何已知的下述技术来开展，所述技术中，可基于质量来确定特定的分子形式。它们包括磷酸化、乙酰化、氧化、硝化、甲基化、硅化(silation)、糖基化、交联等。虽然示出了利用MALDI/Q-TOF的具体例子，但本领域的技术人员可以认识到，该方法可被延伸到其它的MS接口(举例而言，电喷雾电离化MS)、另外的MS电离化体系、片段化手段以及质谱仪。如例子所示，甲基化导致C末端赖氨酸被咪唑衍生化的肽中氨基酸侧链羧基的转化。去除羧酸酯基团离子化的电荷可能增加在片段化期间破坏邻近的肽键所需要的能量，因此，产生具有改进的y-离子强度分布的MS/MS谱。对样品进行处理以促进特定的片段化特征的能力极大地简化了对序列的从头鉴别(即，对线型氨基酸序列的“召唤(calling)”)。

本发明改进了对来自本文公开的经过连续衍生化的多肽的肽数据进行的测序后分析。在一些情况下，本发明改进了可被开展的测序后数据分析的品质。在另一些情况下，对谱数据品质的改进使得目前由于肽序列质量分析的开展中所固有的困难而无法实现的新技术变得可行。

本发明可以使序列解读足够简化，以允许自动分析的进行，例如，通过开发及使用计算机算法，所述算法用于对肽进行自动从头序列召唤，以及对翻译后修饰的确定，以及将上述方法用于高通量蛋白质组学分析。

本发明展示了对酸性残基的甲基化与C-末端赖氨酸衍生化的组合，以及后续的质谱分析。本领域的技术人员可以想到在酸性残基侧链上，或多肽链的其它位置上，或若干功能性基团上进行额外的化学修饰，以便对从头的序列召唤精确度做出改进。类似地，本发明不限于其所要求的通过使用特定的连续化学衍生化方法，其还包括设计质谱仪器以利用该化学衍生化体系的潜力，例如通过对来自连续衍生化的特定片段化体系进行最优化来设计质谱仪器。

虽然连续衍生化种类和技术被特异性地设计来协助使用串联MS/MS的从头多肽测序，但其应用还可延伸至其中从多肽的质量所获得的信息被下述的连续衍生化所改进的任何质谱分析。此外，虽然某些技术被描述为优选的，例如对赖氨酸的衍生化以及对酸性残基羧基的烷基化，但大量的其它衍生化是可以考虑的。当然，将一种特定的衍生化的顺序指定为“第一”或“第二”可以是完全任意的，术语“连续”不应被解释为排除了在反应条件允许的情况下对多肽的两个不相关的化学部分的同时标记。

用同位素标签来产生同位素类似物不被认为是本发明的衍生化步骤。连续衍生化还排除了对带有保护基团的单一标记种类的使用。在此类情况下，多肽上仅有单一的目标部分被标记，但是保护基团使某些允许基于单一标记的存在而产生定量差异的化学环境被区别开。

相反地，在连续衍生化中，两种不相关的标记策略被用于对目标多肽的两个部分的独立衍生化，优选地，在对两种或多种标记来说实质上全部可用的位点进行。第一次衍生化的优选实施例由Peters et al.PCT/US02/35581，WO 03/056299提供，其全文通过引用的方式被特别地包括在本文中。典型地，用能破坏多肽酰胺键的化学反应来切割含有完整蛋白质、蛋白质片段或多肽片段或其它多肽待分析物的样品。

虽然本说明书中为了阐释的目的使用了胰蛋白酶的消化，但是其它特定的消化也是可能的，其包括但不限于胰凝乳蛋白酶、内蛋白酶、Arg C或Lys C，化学片段化方法，例如溴化氰切割、羟胺切割、BNPS-Skatole等。然而，胰蛋白酶(或内蛋白酶)切割是优选的，因为得到的多肽具有C-末端赖氨酸或精氨酸残基的特征。USP 5,821,063提供了用于多肽的通用消化方法。当然，赖氨酸残基的衍生化发生于末端赖氨酸和内部赖氨酸，虽然对末端赖氨酸的标记对于测序的目的来说是特别有用的。

Peters et al.通过连接具有任何如下结构式的咪唑衍生物来对赖氨酸残基进行衍生化：

其中，每个R都是可从下述基团中独立选择出的功能基团，所述基团是氢、氘、卤素、羟基、氰基、可选的被取代的烷基、可选的被取代的烷基氨基甲酰基、可选的被取代的烷氧基、可选的被取代的烷氧基羰基、可选的被取代的芳基、可选的被取代的芳氧基、可选的被取代的芳氧基羰基、可选的被取代的芳基氨基甲酰基、可选的被取代的硅氧烷基(siloxanly)以及亲和标签。

下标“m”是从0-7的整数，其中，连接两个氮的环表示：具有2至12个额外环原子的可选被取代的单环或双环系统，其中，环原子选自碳、氧、氮、硫和硅，其中，前述的环原子可选地可被取代。

在Peters et al.的一种优选实施方式中，所述标记具有如下结构式：

其中，R¹、R²、R³和R⁴都是可从下述基团中独立选择出的功能基团，所述基团是氢、氘、卤素、羟基、氰基、可选的被取代的烷基、可选的被取代的烷基氨基甲酰基、可选的被取代的烷氧基、可选的被取代的烷氧基羰基、可选的被取代的芳基、可选的被取代的芳氧基、可选的被取代的芳氧基羰基、可选的被取代的芳基氨基甲酰基以及亲和标签；或在另一种实施方式中，R²、R³和其与之相连的碳，联合形成了n元碳环、杂环、芳环或芳基杂环，其中n是从大约4至大约8之间的整数。优选地，形成5元或6元环。然而，在某些实施方式中，y是0，其邻接的碳原子和R¹与R²都不存在，以形成4元环。

R⁵选自氢、卤素、羟基、可选的被取代的烷基、可选的被取代的烷氧基、可选的被取代的芳基和亲和标签。在结构式I中，下标“y”是0、1或2。

在另一种实施方式中，Peters et al.描述了如下结构式的化合物：

其中，每个R都各自独立地选自：氢、氘、卤素、羟基、氰基、可选的被取代的烷基、可选的被取代的烷基氨基甲酰基、可选的被取代的烷氧基、可选的被取代的烷氧基羰基、可选的被取代的芳基、可选的被取代的芳氧基、可选的被取代的芳氧基羰基、可选的被取代的芳基氨基甲酰基、可选的被取代的硅氧烷基以及亲和标签。

下标“m”是从0-7的整数，其中，连接两个氮的环表示：具有2至12个额外环原子的可选被取代的单环或双环系统，其中，环原子选自碳、氧、氮、硫和硅。结构式II中，LG是离去基团。

在一种优选的实施方式中，所述标记具有如下结构式：

R⁵选自氢、卤素、羟基、可选的被取代的烷基、可选的被取代的烷氧基、可选的被取代的芳基和亲和标签。LG是X-CH₃，其中X是杂原子例如O和S。下标“y”是0、1或2。

上述结构式的一种特别优选的实施方式是2-甲氧基-4，5-二氢-1H-咪唑，上述衍生化的一种优选的实施例会在经胰蛋白酶消化的多肽的C末端赖氨酸残基处产生咪唑衍生物。

除Peters et al.公开的种类之外，很多其它的对多肽的衍生化也是已知的，其可作为本发明的要素付诸于实践。上述技术中的很多都已知具有选择性的反应特征，以产生在MS/MS谱中可观察到的特征特性。如上所述，用于测定某些多肽的肽序列的独特的困难是由存在于该多肽中的特定的功能基团以及其独特的化学性质带来的。这些单个问题中的若干种可用本发明的范围内包含的各种不同的单一衍生化技术来逐一解决。另一个例子是由Caguex et al.提出的，其中使用了O-甲基异脲来对多肽序列进行处理，Nature Biotechnology 20：163-170(2002)。然而，从头测序增加的实用性是基于对谱的品质做出的定性或定量的改进的。该方法展示了一个例子：对赖氨酸进行单一衍生化，以此试图改进片段化特征以及对测序数据品质有用的质量数据。

第一次衍生化不仅仅限于那些关于对C-末端残基进行标记以改进占优势的y-离子谱的方法。Carderas et al.Rapid Comm.Mass Spectrum.Vol.II，1271-1278(1997)先对肽进行了标记，再经过LC柱及后续的ESI MS/MS分析。衍生化反应在传统的LC装置中进行，其中，用经过修饰的胰蛋白酶对蛋白质样品进行消化，再用N-琥珀酰亚胺-2(3-吡啶基)乙酸酯(SPA)进行嵌入式衍生化。得到的N-末端吡啶乙酰基衍生物和赖氨酸侧链氨基与胰蛋白酶-OH基团的部分标记共同存在。该技术能帮助区分同量异位的残基和偏向于形成b-离子的CID片段化途径的改变。

在Bhikhabbai et al.PCT/US02/16247中描述了对肽的N-末端残基进行额外的功能衍生化，其中，用带有磺酰部分和经活化的酸部分的酸性试剂进行了水相衍生化。该反应的特征在于：由于其趋向于降低MS检测的灵敏度，因而其需要较大的样品。在对衍生化反应的选择方面，从多肽片段的C-末端导致片段化反应以产生能在测序分析中对残基进行鉴别的y-离子的能力应与此类衍生化会极显著地降低获得的质谱的灵敏度这一趋势相平衡。Bhikhabbai et al.的衍生化可通过与下述步骤组合来实现，所述步骤保护某些特定官能团的反应，否则这些官能团将被衍生化。磺酰部分和经活化的酸的部分的组合将在每个赖氨酸残基处导致磺化反应。为了保护赖氨酸残基免受该反应，使用鸟嘌呤化(guanination)反应的保护手段被用于对赖氨酸侧链进行特别保护，以防止其在衍生化步骤中发生反应。此种保护的基团反应对该种衍生化来说是必要的，特别是使用胰蛋白酶消化因此在肽片段的C-末端产生了多个赖氨酸或精氨酸残基的时候。将保护基团与经活化的酸的部分和磺酰部分联合使用，是本文描述的连续衍生化范畴内的单一衍生化步骤。

Keough et al.(WO 00/43792)描述了另一种单一衍生化，其中用，例如磺基或双磺基衍生物，来获得用一个或多个pKa值小于2的酸的部分对多肽的N-末端进行的衍生化。该衍生化试图以电荷位点特异性的方式在多肽的酰胺键产生选择性切割，以使单一系列中仅有y-离子的选择性检测可以实现。

如上所述，第二个衍生化步骤帮助解决了存在独特问题的质量测量问题，并检测到了在单一衍生化的多肽中的问题。对酸性侧链中羧基进行烷基化的实施例是一个优选的实施例，其与本发明的原理一致，所述原理是：改变被衍生化的肽的片段化特征，以给出具有近似等同的强度的占优势的y-离子系列。

对谷氨酸和天冬氨酸及其衍生物、等同物的酸性氨基酸侧链的羧基的烷基化是如下面的实施例1中所述来获得的。对肽中羧基的烷基化帮助区分y离子与存在的其它任何离子(包括化学噪音)。在一个优选的甲基化的实施例中，该反应还增加了多肽片段的质量，每个羧基增加了14个质量单位。天冬氨酸和谷氨酸的酸性侧链不存在的时候，仅有C-末端的羧基能被观察到了进行了反应，以及显示出所述的14个质量单位的变化。

通常，烷基化对羧基进行了标记，以形成带有直链、分支或叔烷基的酯，如下述结构式所示：

CH₃(-CH₂)_n

其中，n＝0-3，所述的烷基种类可以是甲基、乙基、丙基、正丙基、异丙基、丁基、正丁基、异丁基、仲丁基或叔丁基等种类，其中，甲基是优选的。

烷基化反应向蛋白质酸性侧链的羧基加上了烷基基团，对甲基化而言是加上了14个am。特别地，该反应发生于天冬氨酸、谷氨酸和S-羧甲基化的半胱氨酸。该反应导致了与酸性侧链数目及被选用的烷基种类相关的质量变化，还对本文所述的MS/MS谱产生了改进。消化或其它片段化可发生于被衍生化或未被衍生化的多肽上，以定位酸性残基。因此，如上所述，典型地，术语“烷基化”或“甲基化”表示形成羧基的烷基酯或甲基酯，然而，该反应可能并不总是导致酯化，所述的烷基化还可以引起羧基周围电荷分布的改变，这仍然提供了本发明的优点，而不是严格地限于形成烷基酯。

如前所述，本发明还包括用于下列过程的方法：对肽进行的衍生化、对经过衍生化的肽的质量分析、测定经过衍生化的肽的氨基酸序列、序列分析以及其它若干基于使用来自经连续衍生化的肽的数据的特定方法。上述方法中的初始化步骤可以包括为了质量分析来分离和制备待分析物。典型地，该步骤包括获得含有多肽的样品，从样品中分离出所述的多肽(虽然对某些样品而言，该步可以忽略)，以及通过纯化、消化或其它方式制备用于衍生化步骤的多肽。然后如上所述对待分析物进行第一次和第二次化学衍生化。如果所述反应不包括竞争，或不妨碍对肽的标记，或不包含待分析物的结构或化学组成，所述步骤可以同时进行。一旦样品/待分析物已制备好，就可以进行质量分析并获得谱，其中，用MS/MS来测量多肽片段，并获得经衍生化的多肽的质量/电荷数据。该质谱包括将肽片段的质量/电荷比与氨基酸序列相关联的数据，并可以包括以任何形式存在的下述定性或定量的数据，所述数据可用于判断出关于包括有氨基酸序列的所述待分析物的信息。

除原本的序列数据外，所述的谱还可以含有反映关于基础(underlying)肽的非序列信息的数据，包括该肽的化学信息，包括糖基化、水合或其它化学修饰。对第一个待分析物的非序列信息可被用于直接确定关于第一个待分析物的信息，或可被用来与第二个待分析物的序列信息或非序列信息、或从中获得第一个或第二个待分析物的样品的序列信息或非序列信息进行比较。在蛋白质组学分析中，比较两种待分析的肽的形式时，该种类型的数据分析是特别有用的。

所述的特定技术包括：测量待分析物的实验或实际质量、测定待分析物的氨基酸序列、测量实验或实际质量与基于组成原子的分子量的理论值之间的差异、以及确定对任何多肽种类而言，获得的实验值与理论值或已知的质量数据之间的差异的来源。

质量分析数据或谱可与已知的测序算法一起使用，以产生所述肽待分析物的氨基酸序列(Taylor and Johnson，Rapid Communications in MassSpectrometry，11，1067-1075m 1997；Chen，et al.，Journal of ComputationalBiology，8(6)，571-583，2001；Dancik，et al.，Journal of Computational Biology，6，327-342，1999；Eng，et al.，J.Am.Soc.Spectrom.，5：976-989，1994；Mann &Wilm，Anal.Chem.，66：4390-4399，1994)。上述算法是公知的，并且不考虑质量分析数据的精确度和精确性，其具有一定程度的实用性。由本发明提供的对数据获取和质谱品质的改进增加了测序算法的实用性，并增加了可被精确测定的序列长度和序列信息的精确度。本发明的方法包括将可获得的测序算法应用到从经过连续衍生化的多肽的质量分析获得的序列信息上，以及获得经过独特衍生化的多肽或片段的序列信息。

使用用本发明测定出来的精确的氨基酸序列数据，可仅从对部分氨基酸序列的精确测定和对蛋白质数据库的搜索来进行对部分或全长蛋白质的鉴别。在很多蛋白质组学的研究和基本的生物试验中，关键的测定是对有时存在于生物样品中的待分析物蛋白质的鉴别。典型地，通过对实验测定的氨基酸序列与全长蛋白质及被鉴别出的蛋白质片段的数据库中的大量参照氨基酸序列进行比对，上述蛋白质组学数据库得以被执行。很容易认识到，序列信息精确度和多肽待分析物中鉴别出来的序列数量的增加，将改进用对照测序对实验测定出的多肽片段进行的比较和鉴别的实用性。因此，本发明的一个方面是利用从经过本文所述的连续衍生化的多肽的质量分析所获得的序列数据来鉴别蛋白质，所述鉴别是通过如下方式实现的：向蛋白质数据库提交从MS实验数据测定的氨基酸序列，以鉴别待分析物和/或鉴别作为样品组分的待分析物。

已经表明，连续的(没有缺口的连续序列)五个或更多氨基酸的序列可被用于搜索数据库从而以高度的置信度来鉴别蛋白质(Mann & Wilm，Anal.Chem.，66：4390-4399，1994)。氨基酸序列的上述长度已被称为关键长度序列标签。更长的氨基酸序列标签可以显著地提高鉴别的精确性，当数据库中的很多蛋白质共享一定量的进化保守序列时，这是非常有用的。更长的氨基酸序列标签还可以增加对没有完全或足够测序的基因组的生物的蛋白质鉴别的置信度。然而，当在序列标签中发现缺口时(例如，用三氨基酸标签加上不定长度的缺口接着是二氨基酸的标签，来代替五个连续氨基酸的标签)，蛋白质鉴别就变得非常困难。更多的蛋白质可与更小的序列标签相匹配，而且因为两个小标签的方向性也是未知的，所述的蛋白质鉴别就非常不可靠了。Mann和Wilm已经提出：对85％置信度的蛋白质鉴别而言，最小的序列标签应当有至少三个至四个连续的残基，但是明显地，更长的序列标签是有好处的。

如上所述，本发明的技术对蛋白质中的翻译后修饰进行MS/MS分析是特别有用的。上述修饰被广义定义为：在信使RNA已翻译成氨基酸序列之后发生的多肽序列或化学上的任何改变。翻译后修饰在蛋白质组学分析和对与疾病相关的临床样品里蛋白质的分析中特别重要。很多类型的翻译后修饰，例如糖基化以及本文中描述的其它修饰，是已知与特定的疾病状态一致的，或者其可以表明在对病人的诊断中有临床上的重要意义的生理条件。在某些情况下，用本发明所述的连续衍生化方法来改进多肽片段的质谱的能力，还使通过对多肽待分析物的质量的直接测量和与参照值的比较来对特定的翻译后修饰进行的检测和鉴别变得可行。在上述情况下，实验性地开展质量分析，以测量多肽片段的质量，将该质量与所述多肽片段的期待质量进行比较，所述多肽片段是经过或未经过翻译后修饰的。例如，加入水分子，作为对多肽片段的翻译后水合，将增加18的质量，即加入的水分子的质量。当对多肽片段的质量分析产生了与天然多肽相差18个单位的数字时，就鉴别出了翻译后修饰。可对下述所有类型的翻译后修饰进行类似的分析，所述翻译后修饰中可制造出天然多肽较之被修饰的多肽在质量测量上的差异，并且参照质量是已知的。

类似地，这对于对给定的经历过翻译后修饰的肽序列中的特定残基进行的鉴别也有着相当重要的意义。例如，在拥有超过一个潜在修饰位点的肽中。其中一个例子是具有两个磷酸化潜在位点的肽序列。为了鉴别出独特的修饰位点，通过MS/MS片段化进行的从头序列分析可以区分两个潜在的修饰位点，因为MS/MS片段化图案应当显示出漂移了磷酰基团的额外质量(80amu)的恰当质量的y-离子，所述额外质量被添加到连接有磷酰基团的氨基酸残基的质量上。因此，除任何附属修饰的质量之外，MS/MS谱信息还包括取决于氨基芳基质量的漂移。以下是明显的：与已知氨基酸质量不一致的相邻的y-离子之间的质量漂移可作为修饰(包括已知的和有待被了解的翻译后修饰)存在情况的判断据。

当质量分析中的任何差异都可被归因于疾病或有临床意义的任何生理条件时，类似的能力是存在的。例如，当蛋白质突变已知是针对特定疾病状态的，并且当该突变是已知的及能导致与天然多肽或代表正常或非疾病状态的多肽的质量差异，通过比较病人样品中多肽待分析物的质量与天然或非疾病状态的已知质量，就可以从质量分析来做出临床诊断。对此种应用而言，仅需要对本发明的方法加以调整，以包括如下步骤：在上述连续衍生化之前将所述的多肽待分析物从病人样品中分离出来。此外，对质量数据或谱的数据处理包括如下步骤：确定至少一个包含有病人样品的一部分的多肽片段的质量，将该结果与非疾病状态的已知质量相比较。对病人样品和正常样品的比较能显示出疾病状态是否存在。因为本发明的连续衍生化增强了串联MS/MS以高通量模式进行从头肽测序的能力，本发明还增加了用MS/MS技术来进行用于对多肽序列的任何检测的大规模筛选和临床诊断的实用性。

本领域的技术人员明显知道，本发明增加的对多肽测序的实用性还可以转化为增加的对多肽数据库使用中的基因组分析的实用性。任何时候，只要多肽序列已知，就可以确定出理论多核苷酸序列，可以在已知的数据库中针对与已知序列的相似性进行搜索，即，通过BLAST或其它已知的技术。在本发明方法的范畴内，在开展基因组分析中对多核苷酸序列进行确定的实用性增加，仅仅需要从对经过连续衍生化的多肽的质量分析进行到对多肽序列的测定，通过已知技术对理论的多核苷酸序列进行确定，以及使用现有的多核苷酸数据库来使多肽待分析物的序列与编码所述多肽片段或含有所述片段的全长多肽的基础的多核苷酸序列关联起来。

如上述关于蛋白质组学研究的例子所述，在蛋白质样品中检测改变(例如突变或翻译后修饰)的能力可与编码所述蛋白质的基础的多核苷酸序列联合起来，以进行基于所述经过连续衍生化的多肽序列的基因组学研究。在蛋白质组学应用中，来自实验获得的多核苷酸序列的数据可被用以分析实验确定的多核苷酸序列和参照序列之间的差异，所述差异可被鉴别出，并与疾病或其它生理条件相关联。在每种此类应用中，本发明提供的基本的优点是对经过连续衍生化的多肽的质量分析产生的谱或质量数据与参照值之间的比较，所述参照值或者是关于已知多肽的质量的，或者是关于已知多肽的序列的。因此，对本发明产生的数据的比较可以包含对实验获得的质量数据与含有参照质量数据的数据库之间的比较，或者对实验获得的序列数据与含有参照序列数据的数据库之间的比较，或者是上述二者的组合。

实施例1衍生化及咪唑肽及对羧基的甲基化

八个蛋白质，β-酪蛋白(牛奶)、肌红蛋白(马心脏)、细胞色素c(牛心脏)、β-晶状体球蛋白(牛眼晶状体)、钙调蛋白(牛脑)、人血清蛋白、丙酮酸激酶(兔肌肉)和人转铁蛋白被单独溶解于含有8M尿素、100mM NH₄HCO₃、pH为8.5、终浓度为大约2mg/ml的缓冲液中。每种蛋白质取大约200μg，先用三(2-羧乙基)-盐酸磷化氢在37℃进行30分钟的还原，再在室温用碘代乙酰胺与其进行反应30分钟。得到的蛋白质溶液被稀释四倍，至最终的尿素浓度为2M，以40∶1加入胰蛋白酶，在37℃培养过夜。通过加入少量乙酸来终止消化反应。细胞色素c和转铁蛋白按照上面描述的那样被还原和烷基化。不经稀释就将Lys-C以100∶1加入到蛋白质溶液中，并在37℃培养过夜，再用乙酸来终止反应。

为了用咪唑来修饰肽羧基末端的赖氨酸，将30μl(-10μg)蛋白质的胰蛋白酶消化产物与20μl 1M的咪唑贮藏液(例如，终浓度为400mM的2-甲氧基-4，5-二氢-1-H-咪唑)混合。在60℃对该反应混合物进行3小时的培养，用5μl的冰醋酸来终止反应。在C18旋转柱(Pierce)上对肽进行纯化，分为两半并冻干。其中一半被溶于50∶50v/v的甲醇：水中，用MALDI-MS/MS加以分析。为衍生化羧酸酯基团，将另一半溶于100μl作为烷基化试剂的2M甲醇HCl中，在室温培养2小时(Ficarro et al.，Nature Biotechnology，2002，20：301-305)。通过冻干来终止该反应。被冻干的肽混合物被重新溶解于50∶50v/v的甲醇∶水中，用MALDI-MS/MS加以分析。用此方法对八种不同的蛋白质分别进行试验。如本领域的技术人员所知，为增加单个蛋白质的蛋白质序列覆盖度，或为了分析更为复杂的蛋白质混合物，例如蛋白质复合物，或者甚至是细胞的全部溶解产物，还可通过单独的或多维的分离技术(例如液相色谱)来对经过衍生化的肽进行分离，然后用合适的质谱方法对其进行分析，例如通过MALDI-MS/MS或在线的电喷雾电离化MS/MS。来自细胞色素、丙酮酸激酶和β-晶状体球蛋白的有代表性的MS/MS谱被展示出来。

与相应的未经过衍生化的肽(图1、2、3和4的A图)相比，经连续衍生化的肽(图1、2、3和4的B图)在谱的品质方面取得的改进是很显著的，从上述的谱中可以容易地确定肽的序列。在所有情况下，较之未经过衍生化的肽，对经过羧酸酯衍生化的肽进行肽片段化需要更高的碰撞能量，这代表着经过稳定化的肽键。通过破坏酸性残基的羧酸酯侧链产生的y离子不再占据优势地位，例如图2中A部分的y2离子所示。并且，通常地，y1离子及其片段不再是MS/MS谱中的优势特征了。这两项改进使得更高质量的y离子能被检测到。总体而言，经过羧酸酯衍生化的肽在MS/MS谱上产生了具有更加完全的y-离子系列和均匀分布的峰强度的片段，这是从头测序中所期待的特征。

参考图1A和图1B，图1A是从对肽(SEQ ID No：1)进行的MALDI/Q-TOF MS分析中获得的MS/MS数据，所述的肽已用Peters et al(WO 03/056299)描述的技术在赖氨酸残基处进行了衍生化。如图1A所示，某些特征在对被测序的氨基酸进行直接译码时可能存在问题。所述y离子及其片段，即215.1、170.1和152.1a.m.u.在所述的谱中占据优势地位，并抑制了其它的y离子，特别是具有较高质量的那些。对系列中其它y离子的抑制增加了对肽中氨基末端残基错误鉴别的可能性。与之相比，图1B展示了已经过实质性改进的y-离子强度分布和经过改进的鉴别组成序列的能力。

对下述多肽的分析可能导致另外的问题，所述多肽中联系羧基末端和酸性残基(例如谷氨酸和天冬氨酸)的肽键，在某些序列情况下易于被破坏，导致MS/MS谱仅有少数占据优势的峰，不足以确定所述肽的全长序列。这可能导致对所述肽中残基的鉴别被遗漏。图2A中显示的对肽(SEQ ID No：2)的分析产生的MS/MS谱的数据示例性地说明了这一情况。图2B显示了对多肽片段进行甲基化之后谱的品质的改进。

参考图3A，从其中羧基末端的赖氨酸和氨基末端的甘氨酸都被咪唑衍生化了的肽(SEQ ID No：1)获得的MS/MS谱显示：虽然在肽的氨基末端的一级胺通常不与咪唑试剂反应，但是当肽的氨基末端的氨基酸是甘氨酸时，N末端就会以较慢的速率被衍生化。由于y-离子系列不完全以及y、a、b和一些c离子的存在，来自此类双标记肽的MS/MS谱难于从头被解读。当根据本发明对同样的肽进行连续标记后，y-离子系列变成了所述谱中占据优势的特征，从头解读变得更为容易更为精确，如图3B所示。

参考图4，从具有内部精氨酸的肽(SEQ ID No：3)获得的MS/MS谱。Lys-C通常被用于消化蛋白质，以增加羧基末端赖氨酸残基的出现，这增加了将实验确定的序列用于蛋白质鉴别的能力。然而，内部的精氨酸残基使得所述的MS/MS谱难于被解读，即使是在咪唑衍生化之后，如图4A所示。图4B显示了有所改进的MS/MS谱，其来自对同样的肽的酸性残基的羧基进行的烷基化，其显示了直到内部精氨酸的氨基酸残基系列，因此允许对长序列标签的测定。

本发明包括含有用于进行上述连续衍生化的试剂和说明书的工具包。对每个工具包而言，所述试剂包括但不限于：烷基化试剂、特异性甲基化试剂例如甲醇氯化氢、经活化的咪唑化合物例如2-甲氧基-4，5-二氢-1-H-咪唑、缓冲液、溶剂和容器。所述工具包还可以包括反应管、混合管和显示化学反应完成程度的指示剂。该工具包包括进行上述连续衍生化反应的书面的说明书，其还可以包括用于分析从本发明的实践中获得的质量数据或质量谱的说明书。该工具包还包括用于在质谱分析之前色谱清除反应产物的固相设备。

实践中，用标准的MS/MS设备和系统来分析所述的多肽待分析物，所述设备和系统典型地包括电离化腔、质量检测器的接口、质量检测器和数据分析系统。所述数据分析系统包括用于对质量分析数据进行分析及报告的计算机或数据处理器，显示质谱的显示单元(例如视频监视器)和/或打印机。对序列分析而言，计算机/数据处理器包括用于开展序列计算和显示或打印氨基酸序列的软件。可用相同的或单独的计算机/数据处理器来提交序列数据，以进行数据库分析、蛋白质鉴别或上述的蛋白质组学或基因组学分析。

只要不与本公开矛盾，本说明书中引用的所有文献和专利申请文件都以参考文献的方式被包括进本文中，就像每件单独的文献或专利申请文件被特别且单独地指出以参考文献的方式被包括进来一样。

虽然为了清楚理解的目的，前述的发明某些细节是通过详细阐述和实施例的方式来描述的，但是根据本发明的教导，可在不超过所附的权利要求的精神或范围的情况下，做出某些改变和修改，这对本领域技术人员来说是很明显的。

序列表

<110>安捷伦科技有限公司

巴里·E·博伊斯

戈登·R·尼古拉

刘宏斌

<120>用于串联质谱从头测序的肽的连续衍生化

<130>10040405KTM7374

<140>还未转让

<141>2004-07-16

<160>3

<170>PatentIn version 3.2

<210>1

<211>8

<212>PRT

<213>牛

<220>

<221>MISC_FEATURE

<223>来自β-晶状体球蛋白(牛眼晶状体)的肽

<400>1

Gly Leu Gln Tyr Leu Leu Glu Lys

1 5

<210>2

<211>11

<212>PRT

<213>兔

<220>

<221>MISC_FEATURE

<223>来自丙酮酸激酶(兔肌肉)的肽

<400>2

Cys Asp Glu Asn Ile Leu Trp Leu Asp Tyr Lys

1 5 10

<210>3

<211>11

<212>PRT

<213>牛

<220>

<221>MISC_FEATURE

<223>来自细胞色素c(牛心脏)的肽

<400>3

Gly Glu Arg Glu Asp Leu Ile Ala Try Leu Lys

1 5 10

Claims

1.一种多肽，具有包含赖氨酸和谷氨酸或天冬氨酸的氨基酸序列，并具有至少两种化学衍生物，所述多肽包括：

所述赖氨酸的咪唑衍生物；以及

所述谷氨酸或天冬氨酸的羧基的烷基衍生物。

2.如权利要求1所述的多肽，其中所述的咪唑是2-甲氧基-4，5-二氢-1H-咪唑。

3.如权利要求1所述的多肽，其中所述的烷基衍生物是甲基。

4.如权利要求1所述的多肽，其中所述的烷基衍生物选自乙基、丙基、正丙基、异丙基、丁基、正丁基、异丁基、仲丁基或叔丁基或其组合。

5.如权利要求1所述的多肽，其中所述的赖氨酸是C末端的赖氨酸。

6.如权利要求1所述的多肽，其中所述的赖氨酸是内部的赖氨酸。

7.一种对多肽进行质量分析的方法，其包括：

通过用咪唑与所述多肽反应来对多肽进行衍生化，以产生具有赖氨酸的咪唑衍生物的经衍生化的多肽；

通过用烷基化试剂与所述多肽反应来对多肽进行衍生化，以产生经过衍生化的多肽片段，所述多肽片段具有谷氨酸或天冬氨酸的酸性侧链羧基的烷基衍生物，其中，上述这些衍生化步骤产生经过连续衍生化的、同时具有赖氨酸的咪唑衍生物和被烷基化的羧基的多肽；以及

获得对所述经过连续衍生化的多肽的质量分析。

8.如权利要求7所述的方法，还包括在用咪唑与所述多肽反应之前对所述多肽进行消化的步骤。

9.如权利要求7所述的方法，还包括从所述质量分析来确定所述经过了连续衍生化的多肽的氨基酸序列。

10.如权利要求7所述的方法，其中所述的用咪唑与所述多肽反应的步骤是利用2-甲氧基-4，5-二氢-1H-咪唑来进行的。

11.如权利要求7所述的方法，其中所述的用烷基化试剂与所述多肽反应的步骤包括对所述的羧基进行甲基化。

12.如权利要求7所述的方法，其中所述的用烷基化试剂与所述多肽反应的步骤产生羧基的烷基衍生物，所述烷基选自乙基、丙基、正丙基、异丙基、丁基、正丁基、异丁基、仲丁基和叔丁基以及其组合所构成的组。

13.一种检测多肽待分析物序列的方法，所述方法包括：

用咪唑与所述多肽待分析物反应，以产生具有经咪唑衍生化的赖氨酸的经衍生化的多肽待分析物；

用烷基化试剂与所述多肽待分析物反应，以产生经过衍生化的多肽待分析物，所述经过衍生化的多肽待分析物在谷氨酸或天冬氨酸的酸性侧链处具有经过烷基化的羧基，其中，这些反应步骤产生了经过连续衍生化的多肽；

对所述经过连续衍生化的多肽待分析物进行质量分析；以及

从所述的质量分析来确定所述经过连续衍生化的多肽待分析物的氨基酸序列。

14.如权利要求13所述的方法，还包括将所述氨基酸序列与参照序列进行比较。

15.如权利要求14所述的方法，还包括确定所述氨基酸序列质量与所述参照序列质量之间的差异。

16.如权利要求14所述的方法，还包括将所述比较与所述氨基酸序列的翻译后修饰联系起来。

17.如权利要求13所述的方法，还包括从病人样品中分离多肽待分析物的步骤，其中，所述的多肽待分析物是指示疾病是否存在的蛋白质。

18.如权利要求14所述的方法，还包括在用咪唑与所述多肽待分析物反应之前对所述多肽进行消化。