在一个较佳实施方式中,本发明提供上述一组质量标记物,其中,组中各标记物具有有共同质量的质量指示部分,并且组中各标记物具有唯一的聚集质量。这种第一类型的标记物组的例子在图4中给出。
在另一可选择的更佳的实施方式中,组中各标记物具有共同的聚集质量,并且组中各标记物具有有唯一质量的质量指示部分。这种第二类型的标记物组的例子在图3中给出。
该组标记物并不受到上述两个较佳实施方式的限制,可包括如两种类型的标记物,但条件是,如上所述,所有的标记物通过质谱法分析都是可区分的。
较佳的是,在第二类型的标记物组中,组中各质量指示部分具有共同的基本结构,组中各质量归一化部分具有共同的基本结构,并且组中各质量标记物含有一个或多个质量调节部分,该质量调节部分被连接于质量指示部分和/或质量归一化部分的基本结构上或者位于这些结构之中。在这个实施方式中,组中每一个质量指示部分含有不同数量的质量调节部分,组中每一质量标记物具有相同数量的质量调节部分。
在整篇说明书中,所述的“共同的基本结构”是指两个或多个部分共享有一个结构,该结构具有基本上相同的结构构架、骨架或核心。这种构架或骨架可以是如苯基醚部分。该构架或骨架可含有与其侧接的取代基,或者用其中没有改变共同的基本结构的原子或同位素取代。
通常,上述第二类型的标记物组含有具有下式的质量标记物:
M(A)y-L-X(A)z式中,M是质量归一化部分,X是质量指示部分,A是质量调节部分,L是可断裂的连接物,y和z是0或0以上的整数,y+z是1或1以上的整数。较佳的是,M是抗碎裂性基团,L是在与其它分子或原子碰撞时易断裂的连接物,X较佳是预先电离的具有抗碎裂性的基团。M和X的质量总和与该组的所有成员相同。较佳的是,M和X具有相同的基本结构或核心结构,这种结构被质量调节部分修饰。该质量调节部分确保M和X的质量总和与组中所有的质量标记物相同,但保证了每个X具有不同的(唯一的)质量。
具有上述结构的优选质量标记物组是其组中每种标记物具有下述结构的组:式中,R是氢或者是取代的或未取代的脂族、芳族、环状的或杂环状的基团,L是可断裂的连接物,A是质量调节部分,每个p是相同的,并且是0或0以上的整数,每个y′可以相同或不同,为0-4的整数,所有的y′的总和等于y,每个z′可以相同或不同,是0-4的整数,所有的z′的总和等于z。较佳的是,R是H,L是酰胺键,p=0,A是氟原子。
在本文中,R基团上的取代模式根本不受到限制。取代基可包括任何有机基团和/或一种或多种选自元素周期表中的IIIA、IVA、VA、VIA或VIIA族的原子,如B、Si、N、P、O或S原子或者卤原子(如F、Cl、Br或I)。
当取代基包括有机基团时,该有机基团可包括烃基。烃基可包括直链基团、支链基团或者环状基团。独立地,所述烃基可包括脂族基团或芳族基团。同样独立地,该烃基可包括饱和的或不饱和的基团。
当烃含有不饱和基团时,它可含有一个或多个烯烃官能度和/或一个或多个炔烃官能度。当烃含有直链或支链基团时,它可含有一个或多个伯、仲和/或叔烷基。当烃含有环状基团时,它可含有芳环、脂族环、杂环基团和/或这些基团的融合环衍生物。因而所述环状基团可含有苯、萘、蒽、茚、芴、吡啶、喹啉、噻吩、苯并噻吩、呋喃、苯并呋喃、吡咯、吲哚、咪唑、噻唑和或噁唑基团,以及上述基团的区域异构体(regioisomer)。
对烃基中的碳原子数并没有特殊的限制,但通常,烃基含有1-40个碳原子。因而,烃基可以是低级烃(1-6个碳原子)或高级烃(7个或7个以上碳原子,如7-40个碳原子)。环状基团的环中的原子数也没有特殊的限制,但环状基团的环可含有3-10个原子,如3、4、5、6或7个原子。
上述定义的含有杂原子的基团以及上面定义的其它基团可含有一个或多个杂原子,这些杂原子选自元素周期表中的IIIA、IVA、VA、VIA或VIIA族中的任何原子,如B、Si、N、P、O或S原子或者卤原子(如F、Cl、Br或I)。因而,取代基可含有有机化学中一个或多个任何一种普通官能团,如羟基、羧基、酯基、醚基、醛基、酮基、胺基、酰胺基、亚胺基、巯基、硫醚基、硫酸根、磺酸根和磷酸根。取代基还可含有这些基团的衍生物,如羧酸酐和羧酸卤化物。
此外,任何取代基可含有两种以上上述定义的取代基和/或官能团的组合。
对本发明质量标记物的阵列并没有特殊的限制,只要它们含有大量的本发明的阵列标记物组。较佳的是,所述阵列含有两组以上、三组以上、四组以上或五组或五组以上质量标记物。较佳的是,阵列中各质量标记物具有下述任一结构:
(S)x-M(A)y-L-X(A)z
M(A)y-(S)x-L-X(A)z其中,S是质量系列修饰基团,M是质量归一化部分,X是质量指示部分,A是质量调节部分,L是可断裂的连接物,x是0或0以上整数,y和z是0或0以上整数,y+z是1或1以上整数。
上述类型的质量标记物的优选阵列是其质量标记物具有下述任一结构的阵列:式中,R是氢或者是取代的或未取代的脂族、芳族、环状的或杂环状的基团,每个p是相同的,并且是0或0以上的整数,x是0或0以上的整数,任一组中的每个x与该阵列中其它每组中的x不同,每个y′可以相同或不同,为0-4的整数,所有的y′的总和等于y,每个z′可以相同或不同,是0-4的整数,所有的z′的总和等于z。图7描述了这种类型的阵列。
在另一较佳的方面,质量标记物的阵列可含有具有下述任一结构的阵列标记物:
S(A*)r-M(A)y-L-X(A)z
M(A)y-S(A*)r-L-X(A)z式中,S是质量系列修饰基团,M是质量归一化部分,X是质量指示部分,A是所述质量指示部分和质量归一化部分的质量调节部分,A*可以与A相同或不同,且是所述质量系列修饰基团的质量调节部分,L是可断裂的连接物,r是0或0以上的整数,阵列中有一组或多组质量标记物的r至少为1,y和z是0或0以上的整数,x+y是1或1以上整数。较佳的是,M是抗断裂基团,L是在与别的分子或原子碰撞时易断裂的连接物,X较佳是预先电离的、具有抗碎裂性的基团。S一般是基团,这样标记物组的阵列的各成员含有其质量较佳以4道尔顿与该阵列中的其它每个成员中的其它每个S相分离的S。从而,各不同组的质量标记物具有不同(唯一)的质量。
上述后一种类型的质量标记物的较佳阵列是其阵列标记物具有下述任一结构的阵列:
式中,R是氢或者是取代的或未取代的脂族、芳族、环状的或杂环状的基团,每个p是相同的,并且是0或0以上的整数,x是0或0以上的整数,阵列中所有的质量标记物的x都相同,每个y′可以相同或不同,为0-4的整数,所有的y′的总和等于y,每个z′可以相同或不同,是0-4的整数,所有的z′的总和等于z,每个r′可以相同或不同,所有r′的总和等于r。图6描述了这种类型的阵列。
在本发明的上述组和阵列中,对M、X和S基团的共同的基本结构并没有特殊的限制,它们可包括环状的和/或非环状的基团。对M、X和S的性质也没有特殊的限制。但是,较佳的是,M和/或X,和/或S含有基本(核心)结构——环状基团,如芳基、环烷基或杂环基。这些基团可以是未取代的,但较佳是取代的基团。M、X和/或S可分别含有由上述环状单体形成的寡聚物或聚合物,其中环状单体通过抗断裂的键或基团连接。
对于M、X和S,芳基醚,如苯基醚基团及其寡聚物和聚合物,尤其是取代的芳基醚是优选的共同的基本结构。
对可断裂的连接基团L并没有什么特殊的限制。但是,较佳的是,L含有可通过碰撞而断裂的基团,和/或L在质谱仪中可断裂。较佳的是,基团L含有酰胺键。
在另一较佳的方面中,本发明提供可与分析物分子反应的质量标记物组和阵列,所述质量标记物具有下述形式:
Re-L′-标记物 或者 Re-L′-S-标记物式中,Re是使质量标记物与分析物分子中的适当的官能基团共价地反应的反应性的官能度或基团,如(但不限于)核苷酸寡核苷酸、多核苷酸、氨基酸、肽或多肽。L′是可断裂或不可断裂的连接物,标记物是上述定义的组或阵列中任一种质量标记物。S的定义与上面的相同。L′可以是可断裂的连接物,如果需要,它可以是如上所定义的可断裂的连接物L。
在本发明上述方面的较佳实施方式中,L和/或L′在质谱仪中可断裂,并且较佳在质谱仪的离子源中可断裂。连接基团
在上下文的讨论中提到用于将感兴趣的分子连接到本发明的质量标记化合物上的连接基团。各种各样的连接物在本领域中是已知的,这类连接物可被引入本发明的质量标记物及其共价连接的分析物之间。这类连接物中的一些是可断裂的。寡乙二醇或聚乙二醇或它们的衍生物可用作连接物,如在Maskos,U.和Southern,E.M.,《核酸研究》(Nucleic Acids Research),20:1679-1684,1992中所公开的那些连接物。虽然基于琥珀酸的连接物通常是碱不稳定性,并因而与许多寡核苷酸合成仪中进行的碱介导的去保护步骤不相容,从而使它们在标记寡核苷酸的应用中较少优选使用,但是它们还是被广泛应用。
丙炔醇是双功能连接物,它提供的连接在寡核苷酸合成的条件下稳定,并且是用于本发明涉及寡核苷酸应用的优选连接物。类似地,6-氨基己醇是连接适当官能化的分子的有用的双功能试剂,它也是优选的连接物。
各种已知的可断裂的连接基团可与本发明的化合物一起使用,如光可断裂的连接物。邻位-硝基苄基是已知的光断裂的连接物,尤其是2-硝基苄酯和在苄胺键断裂的2-硝基苄胺。关于可断裂的连接物的综述,可参见Lloyd-Williams等人,Tetrahedron49,11065-11133,1993,该文中包括了许多光可断裂的连接物和化学可断裂的连接物。
WO 00/02895公开了乙烯基砜化合物作为可断裂的连接物,这类化合物也可用于本发明,尤其是用于标记多肽、肽和氨基酸。本文将该申请的内容纳入作为参考。
WO 00/02895公开了硅化合物用作连接物,这类连接物在气相中通被碱断裂。这些连接物也可用于本发明,尤其是涉及标记寡核苷酸的应用。本文将申请的内容纳入作为参考。
在下面的讨论中将提到使本发明的化合物连接于其它化合物(不论是报道基团或者是分析物分子)的反应性官能度Re。可将多种反应性官能度引入本发明的质量标记物中。
下面的表1列出可与生物分子中发现的亲核官能度反应,产生两个实体间的共价键的一些反应性官能度。对于寡核苷酸合成,常常在分子的末端引入伯胺或硫醇,使该分子被标记。可将下面列出的任何一个官能度引入本发明的化合物中,使质量标记物被连接到感兴趣的分子上。如果需要,可使用反应性官能度来引入另一具有另一反应性官能度的连接基团。表1中的内容并不详尽,本发明并不局限于仅使用这些列出的官能度。
表1
应注意的是,在使用本发明的质量指示物标记寡核苷酸的应用中。上述一些反应性官能度或它们的所产生的连接基团在引入寡核苷酸合成仪前可能要进行保护。较佳的是,未保护的酯、硫醚和硫酯、胺以及酰胺键最好被取消,因为它们在寡核苷酸合成仪中通常是不稳定的。各种各样的保护基团在本领域中是已知的,可使用这些保护基团来保护化学键不发生不需要的副反应。
下面的讨论将提到“带电官能度”和增溶基团。可将这些基团引入质量标记物(如本发明的质量指示物)中,以促进电离和溶解。指示物的选择取决于使用阳离子检测还是阴离子检测。表2列出了一些官能度,这些官能度可被引入质量指示物中,以促进阳电离或阴电离。表中的内容并不详尽,本发明并不局限于仅使用这些所列出的官能度。
表2
WO 00/02893公开了为了改进质量指示物的电离而使用金属离子结合部分,如冠醚或卟啉。这些部分也可用于本发明的质量指示物。
本发明的质量指示物的成分较佳具有抗碎裂性,这样该指示物的断裂位点可由易于被碰撞引起的解离所破坏的键的引入所控制。芳基醚是这类具有抗碎裂性的化合物的例子,它们可用于本发明。这些化合物也是化学惰性的或者是热稳定的。WO 99/32501更详细地讨论了聚醚在质谱法中的应用,本文将此申请的内容纳入作为参考。
过去,芳基醚合成的一般方法是以芳基溴与苯酚在铜粉末的存在下,在约200℃时的Ullmann偶联为基础〔代表性文献:H.Stetter、G.Duve,Chemische Berichte,87(1954),1699〕。已使用不同的金属催化剂发展了芳基醚合成的较温和的方法,但反应的温度仍为100-120℃〔M.Iyoda、M.Sakaitani、H.Otsuka、M.Oda,Tetrahedron Letters,26(1985),477〕。这是生产聚醚质量标记物的优选途径。参见下面的实施例中给予的FT77的合成。最近发表的方法提供一种生产聚醚质量标记物的最佳途径,因为该途径是在比较早方法更温和的条件下进行的(D.E.Evans、J.L Katz、T.R.West,Tetrahedron Lett.,39(1998),2937〕。
本发明还提供一组两个或多个探针,组中各探针不同,它们与唯一的质量标记物或质量标记物的唯一组合连接,这些质量标记物选自上述定义的质量标记物的组或阵列。
还提供的是探针的阵列,该阵列含有两组或多组探针,其中,任一组中的各探针连接于唯一的质量标记物或者质量标记物的唯一的组合,这些质量标记物选自上述定义的质量标记物组,并且,其中任一组中的探针连接于相同的质量标记物组中的质量标记物,并且各组探针连接于上述定义的质量标记物阵列中唯一的质量标记物组的质量标记物。
在一个实施方式中,各探针较佳连接于质量标记物的唯一组合,各组合可通过质量标记物组中的各质量标记物的存在或缺乏而得以区分,和/或通过连接于探针的各质量标记物的数量而得以区分。这就是本发明的“混合模式”,因为探针可被连接于质量标记物的混合物。
在上述方面,对探针的性质并没有特殊的限制。但较佳的是,各探针包含生物分子。可使用任何生物分子,但该生物分子较佳选自DNA、RNA、寡核苷酸、核酸碱基、肽、多肽、蛋白质和氨基酸。
在一个较佳实施方式中,本发明提供具有下述形式的质量标记的分析物组和阵列,如核苷酸、寡核苷酸和多核苷酸:
分析物-L′-标记物 或者 分析物-L′-S-标记物式中,L′和S的定义如上,标记物是选自上述任何组和阵列中的质量标记物。
在上述方面,对分析物的性质并没有特殊的限制。但较佳的是,各分析物包含生物分子。可使用任何生物分子,但该生物分子较佳选自DNA、RNA、寡核苷酸、核酸碱基、肽、多肽、蛋白质和氨基酸。
在一个实施方式中,各分析物较佳连接于独特的质量标记物的组合,各组合通过质量标记物组中各质量标记物的存在或缺乏而得以区分,和/或通过连接于探针的各质量标记物的数量而得以区别。如上所述,这就是本发明的“混合模式”,因为探针可连接于质量标记物的混合物。
如上所述,本发明提供一种分析的方法,该方法包括通过采用质谱法鉴别对分析物独特的质量标记物或质量标记物的组合,从而检测该分析物,其中,质量标记物是上述质量标记物的组和阵列中的质量标记物。这类方法并没有特殊的限制,只要它有利于使用本发明的质量标记物鉴别分析物。例如,该方法可以是核酸测序的方法,或者是通过检测样品中蛋白质的数量来描述一个或多个基因的表达的方法。该方法特别有利,因为它可用于容易地同时分析大量的分析物。但该方法还具有单独分析单种分析物的优点,因为使用本发明的质量标记物,可获得比常规质谱更清楚的质谱,从而使得该方法准确和敏感。
在另一较佳实施方式中,本发明提供一种方法,该方法包括:
(a)使一种或多种分析物与探针组或探针阵列接触,组或阵列中的各探针对至少一种分析物特异,其中,各探针如上所述;
(b)通过检测对分析物特异的探针鉴别分析物。
在这个实施方式中,较佳的是,在采用质谱法检测质量标记物之前,先从探针上解离下标记物。
这个具体实施方式的方法的性质并没有特殊的限制。但较佳的是,该方法包括使一种或多种核酸与一组杂交探针接触。该组杂交探针通常包括达到256个四聚体的组,组中各探针具有不同组合的核酸碱基。这个方法可适合用于鉴别靶核酸的存在,或者可用于一种或多种核酸模板的引物延伸测序的逐步式的方法。
本发明的质量标记物特别适合用于二维分析的方法,这主要是由于大量的标记物可同时得以区分。因而,这些标记物可用于双向凝胶电泳的方法,或者用于二维质谱法。
因而,在一方面,本发明提供一种二维质谱法分析的方法,它包括:
(a)提供一种或多种分析物,各分析物用对该分析物唯一的质量标记物或质量标记物的组合标记,其中,这些质量标记物选自上述质量标记物组或阵列;
(b)将质量标记物从分析物中解离;
(c)检测质量标记物;
(d)在质谱仪中解离质量标记物,以从质量归一化部分中释放出质量指示部分;
(e)检测质量指示部分;
(f)在第一方向上,在质量标记物的质谱的基础上鉴别分析物,在第二方向上鉴别质量指不部分的质谱。
在此方法中,较佳的是,在步骤(c)中,选择质量的质量标记物或者质量的选择范围是选择为检测而选择的。还较佳的是,在步骤(e)中,具有特殊的质量或质量的特殊范围的质量指示部分是为检测而选择的。
在另一方面,本发明提供一种分析的方法,该方法包括:
(a)在分析物的第一特性的基础上,对标记的分析物的混合物进行第一分离处理;
(b)在分析物的第二特性的基础上,对分离的分析物进行第二分离处理;
(c)通过检测分析物的标记物,从而检测该分析物;其中,分析物用选自上述质量标记物组或阵列的质量标记物标记。
分析物的特性没有特殊的限制。但是,在这个实施方式的步骤(a)和/或(b)中,较佳是根据分析物的长度或质量将它们分离。还较佳的是,在步骤(a)和/或(b)中,分析物是根据它们的等电点而被分离。通常,这些分析物含有一个或多个蛋白质、多肽、肽、氨基酸或核酸,或者它们的片段。特别优选的是,在各个分离步骤中使用凝胶电泳。在这个实施方式中,该方法是双向凝胶电泳法。
在另一方面,本发明提供一种表征核酸的方法,该方法包括;
(a)提供一组核酸片段,各片段具有可断裂地连接于其上、用于鉴别该片段特征的质量标记物,这些质量标记物选自上述质量标记物组或阵列;
(b)在它们的长度的基础上分离这些片段;
(c)解离各片段,以释放出其质量标记物;
(d)采用质谱法测定各质量标记物,以描述片段的长度与各片段特征的关系。
通常,本发明这方面的方法用于表征cDNA。较佳的是,此方法包括:
(a)使含有一组含一种或多种cDNA或其片段的样品暴露于断裂剂中,该断裂剂识别预定的序列,并在距离预定序列已知偏移位置的基准位点上进行切割,从而产生一组末端片段,所述预定序列接近各cDNA或其片段的一端;
(b)将衔接子寡核苷酸连接于各基准位点上,该寡核苷酸含有样品断裂剂的识别位点;
(c)将这组末端片段暴露于样品断裂剂中,该断裂剂与上述识别位点结合,并从该识别位点开始,在已知偏移位置的样品位点上进行切割,从而在各个末端片段中产生来自未知序列和预定长度达到6个碱基的的粘性末端序列;
(d)根据序列的长度将该组末端片段分成亚组;
(e)如下测定各粘性末端序列:
(i)用标记的杂交探针阵列探测,该阵列含有所有可能的预定长度的碱基序列;
(ii)连接这些杂交到粘性末端序列上的探针;
(iii)通过鉴别标记物,较佳是通过定量标记物,测定哪些探针被连接。其中,这些标记物是来自上述组或阵列的质量标记物。
在这个方法中,较佳采用毛细管电泳、HPLC或凝胶电泳分离末端片段组。
在本发明的又一方面中,本发明提供一种表征核酸的方法,该方法包括,在至少一种标记的末端碱基的存在下,从一个或多个核酸模板产生Sanger梯核酸片段,然后鉴别该片段的长度及其末端碱基,其中,该标记物对该末端碱基特异,并且是来自上面定义的组或阵列中的质量标记物。
在本发明的这个方面,较佳的是,所有四种末端碱基都在相同反应区中存在。该方法通常包括,从存在于相同反应区中的大量核酸模板产生Sanger梯核酸片段,然后鉴别所产生的各核酸片段的长度、产生该片段的模板的身份以及该片段的末端碱基,其中,在产生这些片段之前,先使标记的引物核苷酸或寡核苷酸杂交到各模板上,而各引物上的标记物对该引物所杂交的模板特异,从而鉴别该模板。对鉴别模板的这类标记物没有特殊的限制。但较佳的是,该鉴别模板用的标记物是选自上面定义的组和阵列中的质量标记物。
本发明方法的另一方面提供一种核酸测序的方法,该方法包括:
(a)获得靶核酸组,该组中包含一条或多条将要测序的单链DNA,每条DNA以唯一的量存在,并具有一个引物,为该核酸提供双链部分用于连接;
(b)使核酸组与杂交探针的阵列接触,各探针包含可断裂地连接于预定长度的已知碱基序列上的标记物,该阵列包含该预定长度的所有可能的碱基序列,这些碱基序列不能相互连接,其中,在连接酶的存在下,在使具有与位于各核酸的双链部分附近的单链核酸互补的碱基序列的探针与该双链部分连接的条件下,进行接触,从而形成延伸的双链部分,该部分不能与更多的探针连接;
(c)除去所有未连接的探针;接着进行如下步骤:
(d)将连接的探针解离,释放出各标记物;
(e)记录各标记物的数量;
(f)激活延伸的双链部分,使能够在其上进行连接;其中
(g)步骤(b)和(f)作为一轮循环,重复进行足够多次,以通过测定释放的各标记物的序列来测定单链核酸或各单链核酸的序列;其中,杂交探针的标记物是来自上面定义的组和阵列中的各标记物。
在本发明的这个方面,较佳的是,杂交探针是一组256个四聚体,组中各探针具有不同组合的核酸碱基。
如已经提到的,较佳的是,在本方法所有的上述方面中,通过采用质谱法同时分析物的质量标记物或质量标记物的组合,从而检测两种或多种分析物。
本发明的混合模式可用于上述所有的方法。在这个实施方式中,由选自质量标记物组或阵列中的质量标记物的独特组合鉴别各分析物,各组合由该组或阵列中的各质量标记物的存在与否加以区别,和/或由各质量标记物的数量加以区分。
如果本方法用于两种或多种分析物的同时分析,则在一些方面,较佳的是,在采用质谱法检测质量标记物之前,先根据这些分析物的质量将它们分离。较佳的是,分离步骤是色谱步骤(如液相色谱法)或凝胶电泳。类型2的标记物在这些实施方式中是特别有利的,因为该组中所有标记物的聚集质量相同,因此,在进行色谱分离步骤中,所有分析物的移动性同样受到这些标记物的影响。
通常,在本发明的方法中,用来检测质量标记物的质谱仪包含一个或多个质量分析仪,这些质量分析仪能使特定的质量或质量范围的离子通过,以进行检测,和/或它们能使离子解离。较佳的是,使用这种质量分析仪选择对一种或多种已知的质量标记物特异的特定质量或质量范围的离子,使所选择的离子解离,然后检测解离产物,鉴别出能指示所选择的质量标记物的离子模型。在特别优选的方法中,质谱仪包含三个四极质量分析仪。在这个实施方式中,第一质量分析仪通常用于选择具有特定质量或质量范围的离子,第二质量分析仪用于解离所选择的离子,而第三分析仪用于检测可得到的离子。
上述方法的一个较佳实施方式提供了一种分析质量标记的分析物分子的方法,该方法包括:
1.从质量标记物所结合的感兴趣的分子上将该质量标记物解离;
2.使解离的质量标记物电离;
3.选择预定质荷比的离子,该质荷比对应于质量分析仪中已知质量标记物的优选离子的质荷比;
4.通过碰撞诱导这些选择的离子解离;
5.检测碰撞产物以鉴别指示所选择的质量标记物的碰撞产物。
较佳的是,从质量标记物结合的核酸中解离质量标记物的过程是在质谱仪中进行的,较佳在离子源中进行。还较佳的是,质量标记物是预先电离的。在这个实施方式中,这些标记物仅需从液相或固相转变成气相(如果这些质量标记物是在液相或固相中的话)。通常,由质谱仪的离子源中的质量标记物的解离引起质量标记物的电离步骤。
较佳的是,在串联仪器的第一质量分析仪中进行选择预定质荷比的离子的第3步。然后,根据上述第4步,将所选择的离子导入分离的碰撞孔中,它们在这些孔中与气体或固体表面碰撞。然后,根据上述第5步,将碰撞产物导入串联仪器的另一质量分析仪中,以检测碰撞产物。用于本发明的典型的串联仪器包括三重四极质谱仪、串联式扇形场仪器和四极飞行时间质谱仪。
还优选的是,上述选择预定质荷比的离子的第三步、使所选择的离子与气体碰撞的第四步和检测碰撞产物的第五步是在质谱仪的相同区域内进行的。这可以在如离子俘获质量分析仪和傅立叶变换离子回旋共振质谱仪中进行。
在另一优选的实施方式中,本发明提供一种分析质量标记的分析物分子的方法,该方法包括:
1.从质量标记物所结合的感兴趣的分子上将该质量标记物解离;
2.使解离的质量标记物电离;
3.选择预定质荷比的离子,该质荷比对应于质量分析仪中已知质量标记物的优选离子的质荷比;
4.通过碰撞诱导这些选择的离子解离;
5.检测一种以上的碰撞产物,以鉴别指示所选择的质量标记物的碰撞产物离子模型,又可鉴别标记的核酸。
在本发明的这个实施方式的优选方面,从质量标记物结合的核酸上解离质量标记物的过程是在质谱仪中进行的,较佳是在离子源中进行。
在这个实施方式的某些优选方面,质量标记物是预先电离的,仅需将它们由液相或固相转变成气相(如果质量标记物是在液相或固相中的话)。
在其它优选的方面,由质谱仪离子源中的质量标记物的解离引起质量标记物的电离步骤。
在某些方面,在串联仪器的第一质量分析仪中进行选择具有预定质荷比的离子的第3步。然后,根据上述第4步,将所选择的离子导入分离的碰撞孔中,在该孔中,这些离子与气体或固体表面碰撞。然后,根据上述第5步,将碰撞产物导入串联仪器的另一质量分析仪中,检测碰撞产物。典型的串联仪器包括三重四极质谱仪、串联式扇形场仪器和四极飞行时间质谱仪。
在另一较佳实施方式中,所述选择具有预定质荷比的离子的第3步、使所选择的离子与气体碰撞的第4步和检测碰撞产物的第5步是在质谱仪的相同区域内进行的。这可以在离子俘获质量分析仪和傅立叶变换离子回旋共振质谱仪中进行。串联质谱法
以损失一些敏感性为代价,采用串联质谱法(MS/MS)检测本发明的质量标记物在选择性方面可获得极大的增益。为了阐述本发明,现在对串联质谱法进行一些讨论,在此参照三重四极质谱仪进行描述。三重四极可容易地阐述MS/MS的原理。
四极质量分析仪主要是一个质量过滤器,它可在任何时候设置为仅使具有特定质荷比的离子通过。四极包含4个平行的棒状电极,这些电极形成一个通道。将由正弦射频电势叠加的直流电势施加到棒状电极上。进入由平行的棒状电极形成的通道的离子跟踪复杂的轨道,对于特定的直流电势和射频电势,只有具有预定质荷比的离子具有稳定的轨道,这将使它们通过该通道。通过改变所施加的电势,可将该四极制成超越整个质荷比范围的扫描,该质荷比可达到约4000。
图1显示三重四极(Q)的排列。三个分离的四极质谱分析仪串联连接。第一个四极下文称为Q1,类似地,第二个四极称为Q2,第三个称为Q3。四极Q1和Q3通常以扫描模式使用。扫描的速率非常高。或者,可将Q1和Q3用作“门”,这些门仅使经选择的离子通过。四极Q2以非扫描的模式使用,其中,它起到离子聚焦设备的作用。当Q2是高真空时,所有的离子都通过Q2。当将气体注入Q2中时,进入的离子与气体碰撞,许多离子获得足够的能量来断裂。这就是“碰撞诱导解离”(CID)。
研究了三重四极的一个特殊用途。假设离子是在离子源(A+、B+、C+、D+等)中产生的。如果使所有的这些离子通过Q1,而Q2和Q3以扫描模式运行,则会产生完全的质谱(图11的质谱1)。质谱1显示包含分子的离子A+到D+以及各种各样的碎片离子的质谱。
现在,假设Q1设置为仅仅可通过A+离子,Q2处于低压状态。A+离子通过Q2和Q3,并被检测到(图12中的质谱2)。新的质谱现在已“清除”了被Q1拒绝的其它离子(B+、C+等)。通过将Q1设置为在对应于感兴趣的分析物的特定离子种类的有限质量系列内扫描,可从注入质谱仪中的同一样品中检测到多种分析物。这称为“选择性离子监测”。
然而,三重四极可用于获得进一步的选择性。A+可从几种来源获得(如,几种离子可具有相同的质荷比,都为100,但有不同的组成,如C7H16、C6H12O、C5H8O等)。假设两有种组成的A+离子(A1 +和A2 +),它们都具有相同的标称质量(图13和14中的质谱3和4)。如果在Q1中选择A+离子,并在Q2中进行CID,则Q3的扫描将产生图15所示的质谱5。这就是“混合”质谱。
假设已知离子P+、Q+(或仅仅是P+)可清楚地揭示A1 +的存在。即,已知发生A1 +→P++Q+的断裂(反应)。不在Q3中扫描所有的离子,取而代之的是将Q3设置为仅检测P+离子。从而,在离开离子源后,离子A+、B+……被还原成正确的A+(=A1 +、A2 +)离子,这些离子进入Q2中。
经CID后,仅有碎片离子P+被选择,这些离子仅仅是A1 +的特征。这被称为“单一或选择性反应监测”,这种监测是高度选择的。更一般地说,进入Q1的离子的完全质谱(图11的质谱1)在Q3中被还原成P+(图16中的质谱6),而已知这些离子仅仅涉及A1 +。
在随后的一些讨论中,实施例涉及使用本发明的质量标记物鉴别核苷酸或寡核苷酸。同样可能的是,本发明的标记物可与蛋白质或肽或其它分析物一起使用,并且为了实施例的目的提及了寡核苷酸。为了分析寡核苷酸,假定质量标记物通过可断裂的连接物共价连接于寡核苷酸。可采用各种机制将连接物断裂,这些机制包括热断裂、化学断裂、锥形电压(cone voltage)断裂或光致断裂。在下述关于质量标记物的性能的讨论中,假设这些标记物已在电离期间或之前从它们所结合的核酸中解离下来。英国专利申请GB 9815163.2和GB 9815164.0公开了优选的可断裂的连接物及其使用方法。图20用示意图列出了优选的断裂方法。
根据本发明的第一方面,可将选择性离子监测(SIM)与选择性反应监测(SRM)结合的原理用于质量标记技术,从而产生二维检测方法。如果A1 +是从质量标记物获得的离子,并因此是已知的组成和端裂模式的离子,那么在电离步骤中,不论产生多少离子,都可在没有其它离子的任何干扰的情况下,通过在三重四极的第一四极中使A+离子通过,然后检测A1 +断裂产物,即在三重四极的第三极中仅通过P+离子,从而鉴别该质量标记物。要检测哪一个M/Z范围是无关紧要的,并且也不再需要在质谱中寻找“清晰”的窗口。
如上所述,本发明的一个方面提供可以式M-L-X表示的质量标记物。作为一个例子,A
1 +可以是下式所示的标记物的分子离子:
因此,M是苄基,L是酰胺键,X是吡啶基。将苄基环连接到吡啶基环的酰胺键特别易于通过碰撞而断裂。因此,在碰撞时,A
1 +产生以下碎片离子:
这表示P
+。因此,P
+的检测意味着存在A
1 +,也即存在标记物中的一种。该标记物已被从所有其它离子中选择性地鉴别出来,这有效地消除了“背景”污染。这意味着标记的分析物不需要完全纯化,并且这些标记物不需要在质谱仪外从分析物中解离和分离出来。采用这一原理,通常可提供一类用作质量标记物的有用的化合物,所有这些标记物具有通式M-L-X,其中,M通过易断裂的键L(如酰胺键)连接于X,而X是用SRM检测的离子。因此,X与以上所示的断裂产物类似,称为P
+。
根据本发明的一个方面,以上阐述的质量标记物的结构通常可提供一组有用的质量标记物,所有的标记物都具有相同的质量,但是它们仍易于被SRM分解。使M0、M1……M4和X0、X1……X4成为M-L-X一半的同位形,其中L是连接M和X的酰胺键。可再次使用上述样品。如果这种结构被氟取代,则可产生图2所示的成分。这些标记物成分可组合形成如下的质量标记物MX(暂时忽略可断裂的键L):
M0X4、M1X3、M2X2、M3X1、M4X0这五种物质具有完全相同的质量(图3)。因此,如果在三重四极的Q1中选择一种质量标记物,则仅有其质量等于MmXn(m=0-4,n=4-0)的离子会被选择。Q1被设置为仅寻找MX离子。如图21所示,如果在Q2中进行CID,则可将Q3设置为仪让离子X0、X1、X2、X3和X4通过。
因此,在所有具有相同质量的标记物中,在Q1中会有5种质量标记物被选择,然后可在Q3中鉴别下面所示的断裂反应。如果在Q3中检测到139的质量,则它必须由M3X1产生,依此类推:
M0X4 +→X4 +(m/z 193)
M1X3 +→X3 +(m/z 175)
M2X2 +→X2 +(m/z 157)
M3X1 +→X1 +(m/z 139)
M0X4 +→X0 +(m/z 121)
本方法的选择过程可用图17中的二维质谱——质谱7形象化表示。
在另一方法中,可合成不同组的质量标记物。在这种分析模式中,SRM与“选择性离子监测”(SIM)组合。在SIM模式的分析中,第一四极(Q1)选择性扫描了预定的质量,仅让具有预定质量的离子通过。
再次考虑到图2和3中的M0、M1、M2、M3、M4和X0,可组合这些标记物成分可组合产生5种具有不同质量的标记物,分别是M0X0、M1X0、M2X0、M3X0和M4X0。现在,假设三重四极的Q1设置为选择这5种质量,那么Q3仅需设置为检测1个质量(X0),如图4所示。
因此,质谱仪仅检测1种固定的离子(X0)。由于X0必须仅仅来自M0X0、M1X0、M2X0、M3X0和M4X0,并且已知这些物质已在Q1中被选择,所以这提供了质量标记的另一种模式。现在,可由5个特殊的“单一反应”中的一个来鉴别5种不同的分析物:
M0X0→X0
M1X0→X0
M2X0→X0
M3X0→X0
M4X0→X0这产生了不同的二维质谱,如图18的质谱8所示。
可将上述两种方法组合。假设选择M0、M1、M2、M3表示二核苷酸的第一个碱基。第二个碱基的特点以X0、X1、X2和X3表示,产生16种不同的质量标记物,如表3所示:
表3
二核苷酸质量标记物 |
AAM0X3 |
ACM0X2 |
AGM0X1 |
ATM0X0 |
二核苷酸质量标记物 |
CCM1X2 |
CAM1X3 |
CGM1X1 |
CTM1X0 |
二核苷酸质量标记物 |
GGM2X1 |
GAM2X3 |
GCM2X2 |
GTM2X0 |
二核苷酸质量标记物 |
TTM3X0 |
TAM3X3 |
TCM3X2 |
TGM3X1 |
各质量标记物将具有7种不同质量中的一种,它们可在串联仪器的第一质量分析仪中选择。使用第二质量分析仪中鉴别的碰撞产物鉴别二聚体。因此,用8种标记物成分可能产生16种质量标记物。所有这些标记物的完全质量二维质谱在图19的质谱9中显示。类似地,如果需要256种质量标记物,则两组16种成分,即M0到M15和X0到X15,会产生足够的标记物,其中,各标记物会具有31种不同的质量中的一种。
根据本发明的另一方面,使用质量系列修饰基团还可能产生质量标记物组的阵列。根据本发明的这个方面,组中各标记物具有相同的质量,但是可被SRM分解的一组标记物,可通过将组中的各成员连接到质量系列修饰基团上而扩展成附加组标记物,所述质量系列修饰基团将该组中各成员的质量按预定量转移,从而产生总质量与第一组不同的第二组标记物。因此,在质量分析仪的第一四极中采用SIM,使两组不同的质量标记物离子通过,然后通过监测两组标记物的相同的碎片种类,在第三四极中分析碰撞产物。使用不同的质量系列修饰基团,可产生与在质谱仪中轻松地分析那样清楚的许多不同组的标记物。
较佳的是,质量系列修饰基团(S)是抗碎裂性基团,这样当各个S基团连接到标记物组中的各成员上时,产生新的标记物组,这些基团明显地从标记物的阵列中的其它每一个标记物中分解。在本文中,“可分解”指阵列中的各组标记物较佳以至少约4道尔顿与其它每一组分离。这将确保质谱中一种标记物的同位素峰不会与另一种标记物的峰重叠。在本发明这方面的优选实施方式中,S基团是取代的或未取代的环状基团,如芳基、环烷基和杂环基,优选通过醚键连接于SRM可分解的质量标记基团组的成员。阵列中的各组可具有相同的S基团,但具有不同水平的取代,以确保各组互不相同。这类标记物的阵列的例子在图6中显示。在此阵列中,F原子用作取代基(调节部分),但可使用其它的取代基,如甲基。应弄清楚的是,这类标记物的阵列对任何结合的分析物分子的移动性将具有非常类似的影响。
可使用甲基取代的苯基将附加组的标记物加到这种阵列中,也可用甲基和氟基取代的苯基。甲基与氟基的质量的不同之处在于甲基比氟基少4道尔顿,这样可产生如此明显的阵列的标记物,这些标记物对所结合的分析物的移动性的影响或许是最小的。
在本发明这方面的其它优选的实施方式中,S基团是环状基团如芳基、环烷基和杂环基的寡聚物或聚合物,这些基团也可以是取代的基团。尤其是,优选的S基团是聚芳基醚。这种阵列的一个例子在图7中显示。
根据本发明的另一方面,通过用本发明质量标记物的不同组合标记分析物,可进一步利用上述原理。如上所述,这个实施方式是混合模式标记。当必须鉴别大量分析物中的任何一个单独的分析物时,例如,在组合化学中,可选择标记物如M0X3、M1X2、M2X1、M3X0的混合物。该混合物与分析物连接,这样将存在特定数量的各标记物。例如,aM0X3+bM1X2+cM2X1+dM3X0,其中a=b=b=d=1(图5)。如果等量的四种标记物(a=b=c=d=0.25)在相同的反应中结合于一种分析物,则它们之间的化学连接反应不可能区分。当寡核苷酸被标记时,该寡聚物将以每个核苷酸或寡核苷酸1个以上标记物被质量标记。表4显示三种质量标记物的形式:
表4
其中“*”可表示在标记位置处的2H或13C同位素。应清楚的是,可使用不同的取代基,如氟或甲基。一种混合方式是如图8所示的方式。通过混合物中与分析物分子结合的不同的标记物的存在或缺乏的组合,可产生8种不同的模式。
考虑不同类型的模式,如表5所示,其中,5种标记物中的每一种的比例在它们与所结合的分析物连接时是不同的。
表5
P |
O |
R |
S |
T |
2 |
2 |
2 |
2 |
2 |
2 |
2 |
2 |
1 |
2 |
2 |
2 |
2 |
0 |
2 |
2 |
2 |
1 |
2 |
2 |
… |
… |
… |
… |
… |
0 |
0 |
1 |
0 |
2 |
0 |
0 |
0 |
2 |
2 |
0 |
0 |
0 |
1 |
2 |
0 |
0 |
0 |
0 |
2 |
使用以3种不同比例即0、1或2存在的4种质量标记物P、Q、R和S,可有效地产生3种各种标记物的不同实体,这意味着可产生可能的81种不同的质谱模型。较佳的是,这些标记物中还有一种成分对于其它成分的比例维持恒定(T),以起到内部标记物的作用,针对这一内部标记物,质谱仪数据系统可比较P、Q、R和S的相对比例。这意味着使用5种标记物的混合物,可鉴别3聚体寡核苷酸中天然核苷酸的所有64种组合。
在上述例子中,P、Q、R和S可以是图3所示的标记物形式,因而,这5种标记物的质量相同,并且它们可在如三重四极或Q-TOF仪器的第一四极中从背景污染物中通过。与三重四极的第二四极中的气浴碰撞形成的断裂模型和在第三四极中的检测在图9中显示。
可以看出该原理可延伸。在本发明的一些方面中,最好是要采用上述策略标记256种可能的四聚体。需要产生7种不同的标记物,这些标记物以上面显示的所有可能的组合比例混合。或者,如果这些标记物是图6或7中显示的形式,则如图6所示,通过使用4种不同的质量系列修饰基团,以产生不同组的5种标记物,从而可产生上述实施例所示的4组81种编码类型。这会产生足够的标记物,以编码所有可能的256种四聚体。
本发明这方面的原理还可进一步延伸。考虑含有所有256种可能的天然核苷酸的组合的DNA四聚体库。该系列中的每个四聚体可以1到256的数字表示,即AAAA表示为1,AAAC表示为2,到TTTT表示为256。
数值1到256以二进制表示,例如,可表示为计算机存储寄存器中表示的数目的形式。在寄存器中有一系列的开关,这些开关可表示数值28、27、26、25、24、23、22、21和20。为了表示1-256中的任何一个数值,这些开关处于开和关的状态,以便这些二进制数的幂的总和表示原始的十进制数,如下面的表6所示:
表6
|
28 |
27 |
26 |
25 |
24 |
23 |
22 |
21 |
20 |
1 |
关 |
关 |
关 |
关 |
关 |
关 |
关 |
关 |
开 |
2 |
关 |
关 |
关 |
关 |
关 |
关 |
关 |
开 |
关 |
3 |
关 |
关 |
关 |
关 |
关 |
关 |
关 |
开 |
开 |
4 |
关 |
关 |
关 |
关 |
关 |
关 |
开 |
关 |
关 |
… |
… |
… |
… |
… |
… |
… |
… |
… |
… |
255 |
关 |
开 |
开 |
开 |
开 |
开 |
开 |
开 |
开 |
256 |
开 |
关 |
关 |
关 |
关 |
关 |
关 |
关 |
关 |
使用质量标记物分子可获得与这些数值类似的表示方法,其中,储存器中的各开关由特定分子的存在或缺乏表示。因而,为了鉴别四聚体,可使用标记物的混合物标记该四聚体,该混合物表示鉴别该四聚体的数量,例如,如果AACG由数字7表示,则可用表示22的分子与表示21和20的分子的混合物标记该四聚体,从而将其鉴别。
事实上,在用不同数量的特定取代基或同位素(如不同数量的质量调节部分,如氟原子或不同的氘同位素)取代核心分子的基础上,这些分子可表示为一系列的分子。因此,20可由无氟取代基的核心分子表示,21可由具有1个氟取代基的核心分子表示,类似地,28可由具有8个氟取代基的核心分子表示。当采用质谱法分析这些分子时,它们可与互补的成分组合,以产生9种同量异位的标记物,这些标记物可在串联仪器中分析。
因此,在四聚体为AACG的例子中,可用上面显示的标记物0、1和2标记此寡聚物。很明显,如图10所示,其它所有可能的四聚体可以这种二进制的方式表示,并且仅仅需要8种基本的标记物来鉴别它们。采用SRM进行DNA测序
使用上述形式的质量标记物可有效地进行Sanger测序梯分析。Sanger方法学的常规DNA测序使用DNA聚合酶将大量的二脱氧/脱氧核苷酸加到寡核苷酸引物中,然后以模板特异性的方式退火,产生单链DNA模板。当将终止核苷酸,即二脱氧核苷酸加到模板补充物中时,可随机终止此过程。当在变性聚丙烯酰胺凝胶上或毛细管中分离随机终止的链时,产生了“DNA梯”。通常采用聚丙烯酰胺凝胶电泳,根据长度分离终止片段,接着检测该“DNA梯”,可收集到序列信息。在常规的半自动和自动DNA测序仪中(如Perkin Elmer的ABI377或MolecularDynamics的MegaBACE),使用荧光标记物F1、F2、F3和F4,通过将荧光标记物加到一种终止核苷酸中或者反应中使用的引物中,从而鉴别出四种终止碱基A、C、G和T。然后寻找通过扫描凝胶或毛细管的检测器的四种染料,读取此序列梯。其它荧光检测形式也是可能的。给单一模板测序
在质谱法中,用荧光标记物替换质量标记物(如图3所示的M0X4、M1X3、M2X2、M3X1、M4X0)。现在,用M1X3标记腺苷的二脱氧终止子。类似地,用M2X2标记胞苷的二脱氧终止子,用M3X1标记鸟苷的终止子,用M4X0标记胸苷的终止子。以在线的方式,在条带从毛细管中洗脱出来时,将它们喷射入适当的串联质量分析仪的离子源中,如根据本发明的一个方面用于分析质量标记的核酸的三重四极。通常,在离子源中,这些标记物从序列梯各片段的终止碱基中解离下来,进入三重四极的第一质量分析仪Q1中。Q1设置为仅仅让MX的分子离子通过,而Q3设置为寻找标记物X0到X4。可能需要的是,质量中的一种,比如X4应用作内部标准,即该质量总是存在,而X0、X1、X2和X3是相对于X4进行测量的。
在另一种方法中,可用图4所示的4种标记物标记这四种终止核苷酸,这样现在用M1X0标记腺苷的二脱氧终止子。类似地,用M2X0标记胞苷的二脱氧终止子,用M3X0标记鸟苷的终止子,而用M4X0标记胸苷的终止子。如果需要,可将标记物M0X0用作内部标准。在这个实施方式中,三重四极的Q1设置为让标记物M4X0到M0X0的分子离子通过,而Q3设置为寻找标记物X0。
除了核苷酸终止子标记的测序外,也可进行引物标记的测序。PCT/GB98/02048提供了引物标记的测序的详细描述,该测序可使用本发明的质量标记物。具有质量标记物的模板的多重测序
使用本发明的质量标记物可同时分析一种以上的模板,这是因为可开发4种以上的标记物。这意味着可产生多组4种标记物,以根据上述基于最初由Sanger设计的方法进行多模板的分析。关于核酸模板的多重测序的详细描述由PCT/GB98/02048提供,该测序可使用本发明的质量标记物。
可将图6或7所示形式的质量标记物用于多重分析多DNA序列。在质谱仪中可通过不同的质量系列修饰物从其它每一组中分解的各组5个标记物,可用于鉴别单一模板,如果需要,可将一个多余的标记物用作大小/数量的标准。但是,4个一组的标记物已足以进行测序,大小标准不是必需的。因而,使用图6所示的20个标记物的阵列来同时分析5个模板的Sanger反应产物是可能的。基因表达的描述(Profiling)
已发展了各种分析从聚腺苷酸化信使RNA衍生的互补DNA群的方法。大量的这种方法是以通过电泳分离扩增的cDNA库,检测不同大小的扩增产物或限制产物为基础。通常,这些技术的基础是:由衍生自聚腺苷酸化信使RNA的互补DNA(cDNA)库中的成员产生特征性的限制片段或扩增产物。
示差显示〔Laing和Pardee,《科学》(Science),257,967-971,1992〕是基于电泳的基因表达描述的经典方法。已发展了这种技术的概念,导致这种技术得以改进地继承。基于“分子指标”的表达描述方法使用了IIS型或IP型的限制性内切核酸酶如Sibson(PCT/GB93/0145)或Kato(EP0 735 144 A1),这是一类继承的例子。尤其是WO 98/48047公开了基于毛细管电泳质谱法(CEMS)的分子指标法。
在此方法中,使用锚定的和生物素化的多腺苷引物合成cDNA,这可确保所有的cDNA以固定的长度的短多A尾终止。在“锚定引物”cDNA制备中,使用具有大约18个脱氧胸苷残基的寡核苷酸俘获和注入携带mRNA的多A,该寡核苷酸的3′端具有三种剩余的碱基中的一种,它将引物锚定在多A链的末端上。引物的生物素化使cDNA被固定在抗生物素蛋白化的固相载体上。可用普通的II类限制性内切核酸酶切割这些被俘获的cDNA。这使3′末端的限制性片段留在固相载体上,而其它片段则被洗掉。将一个衔接子连接到所得的已知的粘性末端上。将该衔接子设计成携带II类限制性内切核酸酶结合位点。这些酶结合它们的靶序列,但在远离结合位点确定数量的碱基处将潜伏DNA(underlying DNA)切割。这些酶中的某些产生交错切口;例如,fok1产生不明确的4bp粘性末端。如果用这种酶处理cDNA群,则粘性末端将暴露在群中各cDNA的衔接末端中。使用一类衔接子分子来探测那4种暴露的碱基。有了4bp的不明确的粘性末端,将存在256种可能的候选物。为了鉴别这些探针,使用可断裂的连接物使这些探针标记上质量标记物,以致一种独特的质量标记物鉴别256种可能的4bp衔接子中的每一种。这产生了一组根据普通的II类限制性内切核酸酶的切割而具有不同长度的片段,和该cDNA的5′末端上256种可能的质量标记的衔接子的一种。
然后在长度的基础上,采用毛细管电泳,接着分析连接于cDNA片段末端的质量标记物,从而分离这些质量标记的3′限制性片段。直接将CE柱填充到电喷射质谱仪或相等的质谱仪中。在电离时,这些标记物在质谱仪中从它们所结合的限制性片段中解离下来。测定各条带中存在的对应于不同的限制性片段长度的从毛细管电泳柱上洗脱下来的各质量标记物的数量。这个过程获得各cDNA的信号,可用这种信号检索数据库。
这种技术较佳是使用256种质量标记物。采用常规的方法进行质量标记可产生质量标记物阵列,这些质量标记物以约4道尔顿分离,该阵列跨越了1000道尔顿以上的质量范围。不可能的是,在所有的标记物都对所结合的cDNA限制性片段的迁移产生相同的影响时可产生这些标记物的阵列。这意味着必须使用复杂的校正算法来计算移动中的差异,并精确测定片段长度。但是,本发明的这些质量指示物和相关的质量标记物非常适合用于上述方法,以产生其对相关的分析物分子的迁移的影响相同的质量指示物阵列,以及直接测定具有高敏感性和优异的信噪比的片段长度。
第二类电泳技术是以采用普通的II类限制性内切核酸酶为基础,该酶用于将引物序列导入cDNA限制性片段中。使用标记的引物进行的PCR扩增可产生不同的限制性片段,这可用于鉴别它们所结合的mRNA。这类方法包括US5,712,126中所述的方法,该文公开了一种将衔接子导入限制性内切核酸酶消化的cDNA片段中的方法,该衔接子使选择性扩增以及3′末端cDNA片段的标记得以进行。类似地,WO 99/02727公开了一种扩增3′末端限制性片段的方法,该方法使用固相载体和探测邻近已知限制性位点的未知序列的PCR引物。在这种技术中,使用生物素锚定的引物制备cDNA,这确保了所有的cDNA都以具有固定长度的短多A尾终止,并且所有的cDNA都可固定在固相基质上。多T引物可在其5′端额外携带一引物序列。然后用普通的II类限制性内切核酸酶切割俘获的cDNA。将衔接子连接到所得的已知的粘性末端上。该衔接子设计为携带一个引物序列。然后使所得的双链构建物变性。如果需要,可将没有固定的链洗掉。将一类与衔接子引物互补的引物加到上述经变性的混合物中,该引物在邻近该衔接子引物的未知序列上有4个碱基的重叠。这4个碱基的重叠产生256种可能的引物。为了鉴别这些探针,使用可断裂的连接物将它们标记上质量标记物,这样,在质谱仪中,256种可能的4bp重叠中的每一种都可用唯一的可鉴别的标记物鉴别。这产生了一组根据普通的II类限制性内切核酸酶的切割而具有不同长度的片段,和在cDNA的5′末端的256种可能的质量标记的引物的一种。视需要,可进行变性和引物延伸循环多次。如果仅仅用衔接子引物位点,则可进行线性扩增。这使cDNA定量的失真比指数扩增小。如果需要进行指数扩增,那么用于俘获mRNA的多T寡聚物还必须携带一个引物位点。如果必须分析少的组织样品,那么尽管存在潜在的cDNA频率失真,但可能仍需要进行指数扩增。
再一,在限制性片段的长度的基础上,采用毛细管电泳,接着分析cDNA片段末端上的质量标记物,从而分离出质量标记物的3′限制性片段。这种技术与WO98/48047中公开的一样,较佳是使用256种质量标记物进行,因而同样地受益于本发明质量标记物的有利特征。
因此,在本发明的另一方面,本发明提供一种分析的方法,该方法包括下述步骤:
1.提供一组具有不同长度的质量标记的核酸片段,其中这些质量标记物表现出标记的核酸的特征;
2.在标记的片段的大小的基础上将它们分离;
3.从标记的片段分离质量标记物;
4.在质谱仪中检测质量标记物。
在本发明这方面的某些实施方式中,该试验测定核酸或一系列核酸的序列。在以Sanger梯的产生为基础的测序实施方式中,质量标记物鉴别各片段的终止核苷酸,并且,各片段由一组4种标记物鉴别。在Sanger测序实施方式中,标记物是以质量标记的引物或标记的终止核苷酸导入的。
在本发明这方面的其它实施方式中,该试验用于测定表达的RNA分子的身份和数量。在优选的实施方式中,采用WO 98/48047或WO 99/02727中公开的方法制备质量标记的核酸。在采用这些方法的实施方式中,分别通过质量标记的衔接子的连接作用或质量标记的引物的延伸作用,将质量标记物导入核酸片段中。对于本领域熟练的技术人员来说,应清楚的是,基于核酸片段大小的基因表达描述的其它方法,如PCT/GB93/0145、EP-A-0 735 144或US5,712,126中公开的方法,都适于使用本发明的标记物。
在本发明的优选实施方式中,在尺寸的基础上分离分析物的步骤是采用毛细管电泳或高效液相层析法进行,使用如Transgenomic Inc.(San Jose,加利福尼亚州,美国)提供的和US5,585,236、US5,772,889以及其它申请中公开的系统。较佳的是,这种分离是使用质谱仪以在线的方式进行。
在优选的实施方式中,将质量标记物从它们所结合的分析物中分离出来的步骤在质谱仪的离子源中进行。在PCT/GB98/00127中公开了使质量标记物在质谱仪的离子源中易于从它所结合的分析物上解离的连接物。在PCT/GB98/00127中公开了增加采用质谱法检测质量标记物的敏感性的化合物。
对于本领域熟练的技术人员来说,应清楚的是,其它定尺寸的试验也适于使用本发明的质量标记物,包括如Grossman P.D.等人在《核酸研究》〔“Nucleic AcidsResearch”,1994年10月25日,22(21):4527-34)中公开的复合的基因型试验。这种试验将极大地受益于复合到较高数量级并仍容易地分解片段大小的能力。蛋白质表达描述和双向凝胶电泳
描述蛋白质的技术,即编录组织中表达的所有蛋白质的身份和数量的技术,在自动化或处理量方面还没有得到很好的发展。描述一组蛋白质的传统方法是双向电泳〔R.A.Van Bogelen.,E.R.Olson,《双向蛋白质凝胶在生物技术中的应用》(“Application of two-dimensional protein gels in biotechnology”),Biotechnol.Ann.Rev.,1:69-103,1995〕。在这个方法中,在窄的凝胶带上分离从生物样品中抽提得到的蛋白质样品。第一次分离通常在蛋白质的等电点基础上将它们分离。然后将整条凝胶带靠一长方形的凝胶(如聚丙烯酰胺凝胶)的一个边缘放置。之后,凝胶带中被分离的蛋白质在第二条凝胶带中根据它们的大小被电泳分离,如采用十二烷基硫酸钠-聚丙烯酰胺凝胶电泳(SDS-PAGE)。这种方法的速度慢,而且很难自动化。它在其最简单的显现方面也相对不敏感。一旦分离结束,蛋白质必须是可见的。这通常涉及到使用可在视觉上检测的试剂或荧光染色凝胶。也采用放射性标记和放射自显影术。在另外一些方法中,在分离前,可先使荧光染料可共价连接于样品中的蛋白质。染料的共价添加可改变蛋白质的移动性,因而,这有时不太可取,尤其是如果是与双向凝胶影像的公众数据库进行比较的情况。使蛋白质在凝胶上可视化后,通常需要在凝胶的特定点上鉴别蛋白质。通常将该点从凝胶中切下,从凝胶基质中抽提蛋白质。然后采用各种技术鉴别抽提得到的蛋白质。优选的技术包括蛋白质的消化,接着进行微测序。已作了许多改进,以增加双向凝胶电泳对蛋白质的分辨率,并增进该系统的敏感性。增进双向凝胶电泳的敏感性及其分辨率的一种方法是采用质谱法分析凝胶的特定位点中的蛋白质〔Jungblut P.,Thiede B.,《采用MALDI质谱法从双向凝胶中鉴别蛋白质》(“Proteinidentification from 2-D gels be MALDI mass spectrometry”),Mass Spectrom.Rev.,16,145-162,1997〕。这样的一种方法是在凝胶中进行胰蛋白酶消化,接着采用质谱法分析胰蛋白酶消化片段,产生肽质量指纹。如果需要序列信息,可进行串联质谱法分析。
目前,双向分析是相对慢的“批量”方法。它的再现性也不是非常好,而且分析凝胶也很昂贵。由于基于凝胶的分析的大多数成本都在对各凝胶的处理上,所以,需要的是能在双向凝胶上同时复合许多样品。如果用不同的、独立的可检测的标记物标记不同样品中的蛋白质是可能的话,那么可在同一凝胶上同时分析各样品中的蛋白质。这对于需要随着特定生物体中的相同蛋白质在多个时间点上的性质进行的研究特别有价值,例如,在监测细菌如何在一预定的时间过程中对药物应答的研究中。类似地,将从多位患有相同疾病的患者获得的活检材料与相应的对照进行比较,需要确保从不同的样品获得的相同蛋白质在凝胶上的相同位点停止。使所有的样品在相同的凝胶上移动,可对不同的样品进行比较,而勿需考虑到凝胶分离的再现性。为了达到这个目标,需要对不同样品中的蛋白质的移动性的影响相同的一系列标记物,这样各样品中被不同的标记物标记的特定蛋白质仍将停留在凝胶的相同位置上,而与其标记物无关。
最近,在采用质谱法分析由液相色谱或毛细管电泳分级分离的全蛋白质方面已作出尝试〔Dolnik V,《蛋白质的毛细管区带电泳》(“Capillary zone electrophoreisof proteins”),Electrophoresis,18,2353-2361,1997〕。已测试了利用毛细管电泳质谱法的在线系统。但是,采用质谱法分析全蛋白质受到许多困难的困扰。第一个困难是,对复杂的质谱进行分析需要使单种蛋白质达到多种电离状态。第二个主要缺点是,目前对于高分子量的种类,即其质量大于约4千道尔顿的离子,质谱仪的质量分辨率还非常差,因此要分辨质量接近的蛋白质是困难的。第三个缺点是,采用串联质谱法对全蛋白质作进一步分析也是困难的,因为全蛋白质的断裂模型非常复杂,且难以解释。
PCT/GB98/00201和PCT/GB99/03258描述了通过分离从混合物中的蛋白质得到的C末端肽,并采用质谱法对它们进行分析,从而表征蛋白质的复杂混合物的方法。所述的方法可用于测定样品中蛋白质存在与否,但不会得出这些样品之间的比较数据。这些方法没有描述同时分析多个样品的技术,而这类技术对于多样品中的蛋白质表达水平的定量比较或许是必需的。
EP-A-0 594 164描述了在使用N末端测序试剂在C末端肽测序的方法中分离从蛋白质得到的C末端肽的方法。在此方法中,用在C末端一侧的赖氨酸残基解离的内肽酶消化感兴趣的蛋白质。所得的肽与DITC聚苯乙烯反应,该DITC聚苯乙烯与所有游离的氨基基团反应。可用三氟乙酸(TFA)解离与DITC聚苯乙烯反应的N末端氨基,从而释放出所有肽的N末端。但是,赖氨酸的ε-氨基没有被解离,因此,所有的非末端肽被保留在载体上,仅有C末端肽释放。根据该文献,回收这些C末端肽用于微测序。
《自然生物技术》〔Nature Biotechnology,17:994-999(1999)〕公开了采用“同位素编码的亲和标记物”俘获从蛋白质得到的肽,从而进行蛋白质表达分析。在这篇文章中,作者描述了生物素连接物的使用,该连接物与巯基反应,以俘获带有半胱氨酸的肽。从一个来源得到的蛋白质样品与生物素连接物反应,然后用内肽酶解离。然后,在抗生物素蛋白化的珠上可分离含有肽的生物素化的半胱氨酸,用于接下来的质谱分析。通过用生物素连接物标记一个样品,和用生物素连接物的变性形式标记第二个样品,可对两个样品进行定量比较。然后使样品中的各肽表示为质谱中的一对峰,其中,相对峰高度表示它们的相对表达水平。
这篇文献中的方法有许多局限。在这种“同位素编码”方法的各种局限中,第一个是,蛋白质中巯基的存在的可靠性——许多蛋白质没有巯基,而其它有一些。在这种方法的一个变化中,可将连接物设计成与其它侧链反应(如胺),但是,由于许多蛋白质含有一种以上赖氨酸残基,这这种方法中,每个蛋白质将分离出多条肽。这可能不会减少足以进行质谱法分析的样品的复杂性。含有太多种类的样品可能会受到“离子抑制”的困扰,即某些种类比其它种类优先电离,这种情况通常出现在较不复杂的样品中的质谱中。通过蛋白质的侧链将其俘获通常要么使每种蛋白质产生太多的肽,要么使某些蛋白质一起遗漏。
这种方法的第二个局限是用来在比较从不同样品得到的蛋白质的表达水平的方法中。使用亲和标记物的不同的同位素变体标记各样品,每种样品中的每条肽在质谱中会产生额外的峰,这意味着如果一起分析两份样品,则在质谱中将会有两倍多的峰。类似地,如果一起分析三份样品,质谱将比单独分析一份样品要复杂三倍。试图采用这种方法比较两份或三份样品是可行的,但是,这很可能是一种局限,因为峰数增加会增加两种不同的肽在质谱中具有重叠峰的可能性。
该文献的作者报道的另一局限是由标记物引起的移动性的改变。这些作者报道,在用未变性的标记物标记的相同的肽之后,标记了变性的生物素标记物的肽有一点洗脱。
综上所述,本发明的又一目的是,提供同时测定复杂的多肽混合物的许多样品中多肽的身份和相对数量的改进方法。本发明这方面的另一目的是,确保所有的蛋白质在分析中表现。本发明的这方面还有一个目的是,提供可对多份样品同时进行定量分析,在与从单一样品得到的质谱进行比较时,没有显著地增加质谱的复杂性的质量标记物和技术。本发明这方面的最后一个目的是,提供对标记的肽的移动性具有相同的影响的标记物,这样在色谱法分离后具有不同标记物的相同肽的样品将一同洗脱。
因此,本发明另一优选的实施方式提供一种分析含有一种以上蛋白质的蛋白质样品的方法,该方法包括:
1.用至少一种分离的可分解的质量标记物标记样品中的肽、多肽和/或蛋白质,该质量标记物从本发明的组和阵列中获得,这样,各肽、多肽和/或蛋白质都被标记上对该蛋白质唯一的标记物或其组合;
2.采用质谱法分析这些标记的肽、多肽和/或蛋白质,较佳是根据本发明的一个方面如串联质谱法进行分析,以检测连接于蛋白质的标记物。然后可鉴别该样品中的标记的肽,并测定它们的相对表达水平。
较佳的是,对多份样品采用上述方法。还较佳的是,对于许多样品中的每一份样品,在进行上述标记步骤(1)之前,先使用断裂剂(尤其是序列特异性断裂剂)将肽从混合物中的多肽中分离出来。在标记步骤(1)后,如果需要可将样品集中。任选地,在标记步骤(1)和/或集中样品后,采用凝胶电泳、等电聚焦电泳、液相色谱法或其它适当的方法,将肽、多肽和/或蛋白质从样品中分离出来,较佳是产生分离的部分。这些部分可以是凝胶上的条带或点,或者是从色谱法分离得到的液体部分。可使用第二种分离步骤进一步分离从一个分离步骤中获得的部分。类似地,进一步分离得到的部分可再次分级分离,直到蛋白质足以分解,以用于接下去的分析步骤中。
因此,本发明的这个方面提供本发明上述标记物和方法的进一步应用。本发明标记物组或阵列可用于增加生物体中蛋白质的双向凝胶电泳分析的处理量。每一种质量标记物都会以相同的方式改变它所结合的蛋白质的移动性,但它仍可独立地被检测到。在将质谱法用于分析从双向凝胶电泳获得的蛋白质的已知用途中,如肽质量指纹法,需要从凝胶中抽提出蛋白质,并将其纯化,以除去去污剂(如SDS)和来自凝胶的其它污染。本发明的标记物可使从凝胶得到的蛋白质的相对未纯化的抽提物直接导入质谱仪中,然后可采用本发明的方法,在污染材料的背景中鉴别结合的标记物。
在本发明这方面的一个特别优选的实施方式中,对多份样品采用下述方法:
1.对于许多样品中的每一份,使用序列特异性断裂剂从混合物中的多肽中分离肽;
2.用本发明的标记物标记各样品中分离的肽,这样每份样品由独特的标记物鉴别:
3.集中标记的样品;
4.任选地,采用色谱法或电泳法分离该集中的和标记的肽;
5.采用串联质谱法分析标记的样品,以鉴别样品中标记的肽和测定它们的相对表达水平。
本发明这方面的另一优选实施方式提供了一种分析一系列蛋白质样品的方法,各样品含有一种以上蛋白质,该方法包括:
1.使各份样品的蛋白质与至少一种分离的可分解的质量标记物发生共价反应,该质量标记物从本发明的组和阵列中获得,这样,各样品的蛋白质被标记上一种或多种质量标记物,该标记物不同于和其它每一份样品的蛋白质反应的标记物;
2.集中质量标记的样品;
3.采用凝胶电泳、等电聚焦电泳、液相色谱法或其它适当的方法分离该集中的样品,以产生分离的部分。这些部分可以是凝胶上的条带或点,或者是从色谱法分离得到的液体部分。可使用第二种分离技术进一步分离从一个分离步骤中获得的部分。类似地,进一步分离得到的部分可再次分级分离,直到所述蛋白质足以分解,以用于接下去的分析步骤中;
4.采用质谱法分析这些部分,较佳的是,根据本发明的一个方面检测连接于蛋白质的标记物。
本发明这方面的又一优选实施方式提供一种鉴别样品中的蛋白质的方法,该样品含有一种以上蛋白质,该方法包括:
1.使样品中的蛋白质与至少一种分离的可分解的质量标记物发生共价反应,该质量标记物从本发明的组和阵列中获得;
2.采用凝胶电泳、等电聚焦电泳、液相色谱法或其它适当的方法分离蛋白质,以产生分离的部分。这些部分可以是凝胶上的条带或点,或者是从色谱法分离得到的液体部分。可使用第二种分离技术进一步分离从一个分离步骤中获得的部分。类似地,进一步分离得到的部分可再次分级分离,直到所述蛋白质足以分解,以用于接下去的分析步骤中;
3.用序列特异性断裂剂消化该部分中的蛋白质;
4.任选地使样品中的蛋白质与附加的质量标记物反应;
5.采用液相色谱质谱法分析消化的部分,其中,通过检测连接于这些肽的质量标记物,测定质量标记的肽从液相色谱柱步骤中洗脱出来的时间。较佳是根据本发明的一个方面进行质谱分析,以检测连接于蛋白质的标记物;
6.比较步骤5的液相色谱质谱法分析得到的标记的肽的洗脱特征与数据库中的特征,也确定该蛋白质以前是否已被鉴别。
本发明这方面的又一优选实施方式提供从一系列蛋白质样品中鉴别一种蛋白质的方法,所述各样品含有一种以上的蛋白质,该方法包括;
1.使各份样品的蛋白质与至少一种分离的可分解的质量标记物发生共价反应,该质量标记物从本发明的组和阵列中获得,这样,各样品的蛋白质被标记上一种或多种质量标记物,该标记物不同于和其它每一份样品的蛋白质反应的标记物;
2.集中质量标记的样品;
3.采用凝胶电泳、等电聚焦电泳、液相色谱法或其它适当的方法分离该集中的样品,以产生分离的部分。这些部分可以是凝胶上的条带或点,或者是从色谱法分离得到的液体部分。可使用第二种分离技术进一步分离从一个分离步骤中获得的部分。类似地,进一步分离得到的部分可再次分级分离,直到蛋白质足以分解,以用于接下去的分析步骤中;
4.用序列特异性断裂剂消化所述部分中的蛋白质,以产生针对样品中的各蛋白质的特征肽;
5.任选地使样品中的蛋白质与附加的质量标记物反应;
6.采用液相色谱质谱法分析消化的部分,其中,通过检测连接于这些肽的质量标记物,测定质量标记的肽从液相色谱柱步骤中洗脱出来的时间。较佳是根据本发明的一个方面进行质谱分析,以检测连接于所述蛋白质的标记物;
7.比较步骤6的液相色谱质谱法分析得到的标记的肽的洗脱特征与数据库中的特征,也确定该蛋白质以前是否已经被鉴别。
本发明上述优选实施方式的步骤1涉及本发明的质量标记物与一组蛋白质的反应性侧链的共价反应。本领域已知该反应性侧链官能度可以选择性地反应。反应性侧链包括赖氨酸、丝氨酸、苏氨酸、酪氨酸和半胱氨酸。半胱氨酸常自身交联,形成二硫键。为了本发明的目的,不需要将这些二硫键破坏,但半胱氨酸侧链可以是高度反应性的,并且易于与各种试剂反应。如果该二硫键存在,可使用巯基乙醇将它们还原成一对巯基。巯基在弱碱性的条件下可被碘乙酸(Aldrich)选择性加帽,这促进了硫醇盐离子的形成(Mol.Microbiol.,5:2293,1991)。适当的弱碱是碳酸盐。为了本发明的目的,其反应性官能度是碘乙酰基的本发明的质量标记物可与分析物蛋白质的巯基反应。在其它实施方式中,可用其反应性官能度是异氰酸盐基的质量标记物处理该组蛋白质。异氰酸盐几乎专门地与蛋白质N末端的α-氨基反应,并且与任何赖氨酸ε-氨基反应,即在温和条件下(即,室温,中性溶剂)与伯胺反应,产生脲衍生物。也可将这些试剂制成在较高温度下,在适当的催化剂(如吡啶)或锡化合物(如甲锡烷基月桂酸二丁酯)的存在下,与任何携带羟基的侧链(如丝氨酸、苏氨酸和酪氨酸侧链)反应,以产生尿烷衍生物。在另一实施方式中,可用其反应性官能度是甲硅烷基(如氯硅烷)的质量标记物处理该组蛋白质。这些化合物易与大多数反应性官能基团反应。胺衍生物在水性条件下不稳定,因此如果需要,可将它们水解成游离的胺。还可将磺酰氯用作质量标记物上的反应性基团,用于选择性地与具有游离胺(如赖氨酸)的质量标记物反应。羧酸侧链处理也可与本发明的标记物反应,虽然通常需要激活这些侧链,以确保它们会反应。通常将乙酸酐用于此目的。这会形成游离羧酸的混合酐,然后可使这种混合酐与亲核官能度(如胺)反应。
上述特殊的实施方式仅仅是阐述使侧链官能度选择性地与质量标记物反应的优选方法的例子。各种各样的反应性基团在本领域中是已知的,它们当中的许多种都可用于完成本发明这些方面的第一步。还需要的是,使样品中蛋白质的一种类型以上的侧链与不同的质量标记物反应。如果要同时分析多份样品,则可使用两种或多种标记物标记每一份样品。这会从各蛋白质中获得更多的信息,从而有助于该蛋白质的鉴别。
在本发明这个方面的后两个实施方式的步骤3和4中,C末端被修饰的蛋白质与序列特异性断裂剂反应。在一些实施方式中,可使用序列特异性内切蛋白酶,如胰蛋白酶、胰凝乳蛋白酶、凝血酶或其它酶。断裂剂也可以是化学剂。这些试剂较佳是可挥发的,以便使未反应的试剂易于去除。适当的化学断裂剂包括溴化氰和BNPS-甲基吲哚,前者在甲硫氨酸残基处解离,后者在色氨酸残基处解离(D.LCrimmins等人,Anal.Biochem.,187:27-38,1990)。
在本发明这个方面的上述优选实施方式中,分级分离蛋白质的步骤较佳是采用双向凝胶电泳进行,在第一向中进行等电聚焦电泳,在第二向中进行SDS-PAGE。然后使凝胶可视化,以鉴别蛋白质已迁移到凝胶上的哪个位置上。然后将这些点从凝胶上切下,之后从切下的凝胶点中抽提出蛋白质。然后,采用电喷射质谱法或其它一些合适的电离方法直接分析这些抽提得到的蛋白质。或者,可使用质谱仪(如HPLC质谱仪)在线进行进一步的分级分离。
在本发明这方面的后两个优选实施方式的步骤3和4中,可使消化的蛋白质任选地与本发明附加的质量标记物反应。这对于本发明同时分析多份样品的后一个优选实施方式更为重要。大多数的酶消化和一些化学断裂方法使游离的胺留在经消化的分级分离的蛋白质的所得肽上,这些胺可与质量标记物反应。这意味着在所有的肽上将出现相同的标记物,并且可选择性检测这些标记物,从而使该分析的敏感性最大化。
在本发明这方面的后两个优选实施方式的步骤6和7中,通过消化分级分离的蛋白质产生的肽的洗脱特征可用于检索预先形成的数据库,以确定这些蛋白质以前是否已被鉴别。可采用串联质谱法进一步分析从液相色谱柱上洗脱出来并进入质谱仪中的肽,以确定可用来鉴别蛋白质的序列信息。可使用肽序列数据检索蛋白质序列数据库,或可将其翻译成核酸序列数据,以检索核酸序列数据库。翻译后修饰的肽的分离
碳水化合物常常以蛋白质的翻译后修饰出现。这些碳水化合物常常具有羰基。可将羰基标记,使蛋白质携带这类修饰,从而将它们检测或分离。生物胞素酰肼(Pierce & Warriner Ltd,Chester,UK)与许多碳水化合物种类中的羰基反应〔E.A.Bayer等人,Anal.Biochem.,170,271-281,《生物胞素酰肼——采用亲和素-生物素技术进行的糖缀合物中的唾液酸、半乳糖和其它糖类的选择性标记物》(“Biocytin hydrazide——a selective label for sialic acid,galactose,and others sugars inglycoconjugates using avidin biotin technology″),1988〕。从而可将复杂的混合物中具有碳水化合物修饰的蛋白质生物素化。然后可用内切蛋白酶(如胰蛋白酶)处理蛋白质混合物,以从蛋白质中获得肽。然后,可使用抗生物素蛋白化的固相载体分离生物素化的并由此进行碳水化合物修饰的肽。可以这种方式处理一系列的样品,并使所获得的肽与本发明的质量标记物反应,这样从各样品得到的肽都具有质量标记物或质量标记物的组合,这些质量标记物与从该样品获得的肽是相关的。较佳的是,从各样品得到的肽具有不同的质量标记物。然后,采用液相色谱串联质谱法分析这些质量标记的具有碳水化合物的肽。
许多研究组已经报道了与各种蛋白质中的磷酸酪氨酸残基结合产生的抗体的方法〔例如,参见A.R.Frackelton等人,Methods Enzymol.,201,79-92,《抗磷酸酪酸的单克隆抗体的产生及其在含有磷酸酪氨酸的蛋白质的亲和纯化中的应用》(“Generation of monoclonal antibodies against phosphotyrosine and their use foraffinity purification of phosphotyrosine-containing proteins″),1991,以及MethodsEnzymol.中的其它文章〕。这意味着通过亲和层析,使用这些抗体作为亲和柱配体,可分离出已由酪氨酸磷酸化作用进行翻译后修饰的大比例的蛋白质。
这些磷酸酪氨酸结合抗体可用于本发明的内容中,以分离出含有磷酸酪氨酸残基的肽。因此,可用序列特异性内肽酶处理复杂混合物中的蛋白质,以产生游离的肽。然后,可使这些肽通过抗磷酸酪氨酸抗体柱,该柱会留住含有磷酸酪氨酸基团的肽。可以这种方式处理一系列的样品,所获得的肽与本发明的质量标记物反应,这样,从各样品获得的肽具有质量标记物或质量标记物组合,这些标记物与从该样品得到的肽是相关的。较佳的是,从各样品获得的肽具有不同的质量标记物。然后,可采用液相色谱串联质谱法分析这些质量标记的具有磷酸酪氨酸的肽。从蛋白质中分离的末端肽
本发明蛋白质表达描述的优选方法是,仅仅从样品的各蛋白质中分离出一条肽。如果所分离的肽片段足够长,则该片段对于它的亲本蛋白质是特异的。在本发明这个方面的第一步中,从许多份复杂蛋白质混合物的样品中的每一份中的各蛋白质分离出肽。在这个方面的一些实施方式中,较佳是分离出末端的肽。末端肽的分离保证了每种蛋白质至一条且仅有一条肽被分离。在PCT/GB98/00201和PCT/GB99/03258中讨论了从多肽的末端分离肽的方法。
因此,本发明的这个方面提供一种蛋白质描述的方法,该方法包括:
(a)用断裂剂处理含有一组许多多肽的样品,已知该断裂剂识别多肽链中的特殊氨基酸残基或序列,以在切割位点进行解离,从而将该组多肽解离,产生肽段;
(b)从其片段化的样品中分离出一组肽片段,这些片段具有作为参考末端的多肽的N末端或C末端,每条肽在另一端在接近该参考末端处具有切割位点;
(c)在分离这些肽片段之前或之后,用从本发明的质量标记物组或阵列获得的质量标记物或质量标记物的组合标记多肽的每一个参考末端,其中,各参考末端与它的标记物或标记物的组合是相关的;
(d)采用质谱法测定一条或多条分离的片段的特征序列,所述特征序列是从切割位点开始有预定数量的氨基酸残基的序列;其中,特征序列表征了各多肽。
本发明这个方面提供的另一优选的方法是,使用第二种断裂剂来产生更多的片段,这些片段可自身被鉴别,并可用于表征它们的亲本多肽或蛋白质。这种方法包括:
(a)使含有一条或多条多肽的样品与第一断裂剂接触,产生多肽片段;
(b)分离出一条或多条多肽片段,各片段含有从其被片段化的样品中获得的多肽的N末端或C末端;
(c)在分离多肽片段之前或之后,用从本发明的质量标记物组或阵列获得的质量标记物或质量标记物的组合标记多肽的每一个末端,其中,各末端与它的标记物或标记物的组合是相关的;
(d)采用质谱法鉴别分离的片段;
(e)使用第二种断裂剂,对该样品重复上述步骤(a)-(d),所述第二种断裂剂在与第一断裂剂作用位点不同的位点上解离;
(f)由步骤(d)和(e)中鉴别得到的片段表征上述样品中的一条或多条多肽。
在上述两种方法中,标记参考末端的步骤可在分离片段之前或之后进行,如果需要,也可在将这些片段从它们的亲本多肽或蛋白质解离下来之前进行。
关于肽片段的分离,在本发明这方面的优选实施方式中,可采用下述方法从蛋白质的复杂混合物中分离末端肽,该方法包括以下步骤:
1.用Lys-C特异性断裂酶完全消化蛋白质的复杂混合物,即在最接近赖氨酸残基的肽键处切割的试剂,该残基在C末端一侧;
2.使所得的肽与活化的固相载体接触,该载体将与游离的氨基反应;
3.任选地使俘获的肽与双功能性试剂反应,该试剂具有至少一个胺反应性官能度;
4.使俘获的肽与一种试剂接触,该试剂在载体上的各肽的α氨基上进行解离。不是C末端的所有的肽具有将它们共价连接于固相载体的赖氨酸残基。从而,游离的C末端肽被选择性释放;
5.任选地,使所释放的肽与第二种固相载体接触,该肽将与步骤3中使用的该双功能性试剂的第二反应性官能度反应,以俘获不与第一载体正确反应的任何肽;
6.回收在溶液中保持游离的肽。
在本方法的优选实施方式中,复杂混合物中的蛋白质被一种试剂变性、还原及处理,以在蛋白质中加上巯基。标准的方法涉及,在pH8.5的具有作为变性剂的高浓度盐酸胍(6-8M)的缓冲液中,在作为还原剂的过量的巯基乙醇或二硫苏糖醇,以及过量的加帽剂(如乙烯吡啶)存在下,使这些蛋白质变性。
在本方法的步骤1中,用Lys-C特异性断裂酶完全消化蛋白质的复杂混合物,该酶可以是如从产酶溶杆菌(Lysobacter enzymogenes)(Boehringer Mannheim)获得的内肽酶Lys-C。
在本方法的步骤2中,使所得的肽与固相载体接触,该载体与胺反应。在优选的实施方式中,该固相载体是用异硫氰酸盐化合物衍生化得到的。在一个实施方式中,使该组肽在碱的存在下与异硫氰酸盐玻璃(DITC玻璃,Sigma-Aldrich Ltd,Dorset,England)反应。这将通过任何游离的氨基使该载体俘获所有的肽。
步骤3是任选的,但该步骤是较佳的。可能很难保证所有的非C末端肽与第一固相载体在赖氨酸侧链氨基和N末端α-氨基上完全反应。仅通过赖氨酸侧链氨基反应的肽在接下去的步骤中将维持着与该载体连接。仅通过它们的α-氨基反应的肽将与C末端肽一起从载体上解离下来。这个步骤使非C末端肽与C末端肽得以区分。在这个任选的步骤中,双功能性试剂可是M-琥珀酰亚胺基[4-乙烯基磺酰基]苯甲酸酯(从Pierce & Warriner Ltd.,Chester,UK获得的SVSB)。这种化合物含有连接于巯基反应性乙烯基砜部分的胺反应性N-羟基琥珀酰亚胺酯。该化合物非常易于通过酯官能度与胺反应,而不需乙烯基砜的反应,并且在较后阶段它可单独与巯基反应。因而,SVSB在弱碱性的条件下与载体上所有的游离胺反应。在大大过量的SVSB化合物存在下,并且假设载体上的肽是固定的,则SVSB将仅通过琥珀酰亚胺官能度与肽反应,而使乙烯基砜部分保持游离,以用于进一步的反应。在另一实施方式中,任何未反应的胺可与偶联于胺反应性官能度的生物素反应,如N-羟基琥珀酰亚胺(NHS)生物素(Sigma-Aldrich Ltd.,Dorset,England)。这使不完全反应的肽在随后被俘获在抗生物素蛋白化的珠上,或者在亲和俘获柱中的抗生物素蛋白化的树脂上。
在本发明的步骤4中,使俘获的肽与在载体上各肽的α-氨基上解离的试剂接触。在将DITC玻璃用作胺反应性载体的实施方式中,使肽与适当的挥发性酸反应,如三氟乙酸(TFA),这种酸将N末端氨基酸从载体上各肽中解离下来。不是C末端的所有的肽都具有将它们共价连接于固相载体的赖氨酸残基。因而,游离的C末端肽被选择性地释放。
任选的步骤5是优选的,尤其是如果进行任选的步骤3的话。通过此步骤将除去没有与胺反应性载体完全反应的非C末端肽。如果SVSB用于标记仅通过它们的α-氨基反应的非C末端肽的话,则它们将具有反应性官能度,这种官能度将使它们可与用适当的亲核剂(优选巯基)衍生得到的固相载体反应。如果在步骤4中使用了DITC玻璃(这种做法是优选的),则可使用TFA将肽从载体上释放出来。通过将TFA蒸发掉,以三氟乙酸盐的形式回收释放的肽。然后,将肽再悬浮在pH约为7的缓冲液中,或者就放在适当的中性溶剂中,如二甲基甲酰胺、二甲基亚砜或水与丙酮的混合物。然后,将肽加到经巯基衍生化的载体中。在pH7,在SVSB处理的肽上剩余的乙烯基官能度将几乎专门与巯基载体反应,而不与由肽从DITC玻璃载体上解离而暴露出来的游离胺反应。巯基衍生化的Tentagel可从RappPolymere GmbH(Tubingen,德国)购得,或者可通过将硅胶与3-巯基丙基三甲氧基硅烷培育而制备巯基衍生化的载体。
在本方法的步骤6中,回收释放的肽。如果采用任选的步骤3和5,则肽可能存在于各种各样的溶剂或缓冲液中。在优选的实施方式中,将选择具有挥发性的溶剂或缓冲液。如果直接从第一载体(在优选实施方式中,该载体是DITC玻璃)中回收肽,这些肽有可能存在于可挥发的TFA中。较佳是采用蒸发溶剂或缓冲液的方法从这些可挥发的溶剂或缓冲液中回收这些肽。采用这种方法分离的肽将具有游离的α-氨基,这些氨基可用于与本发明的标记物反应。标记分离的肽
可在本发明这方面描述的蛋白质表达描述中使用本发明任一种质量标记物。图22和23所示的质量标记物特别优选用于本发明,尤其是本发明的这个方面。这些化合物具有乙烯基砜反应性基团,该基团使这些化合物能与游离的胺和巯基进行加成反应。如果每条肽仅需一种标记物,那么可在用序列特异性内肽酶解离前,先用加帽剂处理复杂混合物中的蛋白质。苯基、乙基和甲基乙烯基砜将与游离的胺和巯基反应,并将它们封住,同时仍允许胰蛋白酶对该加帽的蛋白质进行解离。如果乙烯基砜部分尤其是乙基乙烯基砜和甲基乙烯基砜没有被封阻,则赖氨酸的ε胺残基将与两个乙烯基砜部分反应。
在连接标记物后,这些标记的肽将具有一个质量,该质量由于该标记物的质量而变动。肽的质量可足以鉴别源蛋白质。在这个例子中,仅需对标记物进行检测,这可通过用三重四极监测进行的选择反应而实现,下文将有详细描述。简言之,三重四极的第一四极设置为让其质荷比对应于感兴趣的肽的离子通过,将其调整为标记物的质量。然后,在第二四极中,使所选择的离子进行碰撞诱导解离(CID)。在用于肽分析的各种条件下,这些离子将大部分在分子中的酰胺键上片段化。图22和23中的标记物具有酰胺键,该键在断裂时释放出标记物的末端预电离部分。虽然标记物都具有相同的质量,但是末端部分是不同的,因为在酰胺键的任一侧链上的取代基不同。因此,这些标记物互不相同。结合了特定质量的离子的标记物片段的存在应可证实该离子是肽,并且从不同样品得到的标记物的相对峰高度将给出肽的样品中肽的相对数量的信息。如果因为样品中许多末端肽都具有相同的末端质量,或者因为该肽是未知,而该质量不足以鉴别肽,则可通过完整的CID质谱分析来测定序列信息。图24显示两份样品的肽的理论质谱,该肽具有H2N-gly-leu-ala-ser-glu-COOH的序列,其中,各样品连接于一种具有图23所示的式子的标记物。该质谱是理想化的,因为它仅仅显示b系列片段,而没有显示其它的片段或任何噪声峰,但是,它阐述了该质谱被清楚地分成对应于肽片段峰的较高质量区域,和对应于质量标记物峰的较低质量区域。如果需要,该肽片段峰可用于鉴别肽,而该质量标记物峰则给出关于肽的相对数量的信息。采用色谱法或电泳分离标记的肽
在本发明的这个方面中,较佳的是,在进行质谱分析之前的步骤中,先对标记的末端肽进行色谱法分离。较佳是进行高效液相色谱法(HPLC),该仪器可直接与质谱仪连接,这样在肽从色谱柱上洗脱下来后进行在线分析。可采用HPLC进行各种分离技术,但较流行的做法是在进行质谱法之前,采用反向色谱法进行肽的分离。毛细管区带电泳是另一分离方法,此方法也可直接与质谱仪连接,以自动分析洗脱的样品。这些和其它分级分离的技术都可在采用质谱法进行分析之前应用,以减少肽的混合物的复杂性。采用串联质谱法进行蛋白质定量和鉴别
在本发明这方面的方法中,采用串联质谱法分析标记的分离肽。
如早先所讨论的,串联质谱仪对具有预定质荷比的离子进行了选择和片段化,如通过碰撞诱导解离(CID)。然后,可检测这些片段,提供关于所选择离子的结构信息。在串联质谱仪中采用CID分析肽时,观察到特征性的断裂模式,由此可测定肽的序列。天然的肽通常在肽骨架的酰胺键上随机地断裂,产生一系列成为该肽的特征的离子。通常将离子的电荷保留在该离子的N末端片段上的CID片段序列称为an、bn、cn等,分别指在第n个肽键上解离得到的片段。类似地,将电荷保留在离子的C末端片段上的片段系列称为xn、yn、zn等。这种表示法在下述示意图1中描述:
示意图1
胰蛋白酶和凝血酶是用于串联质谱法的优选的断裂剂,因为它们在分子的两端产生具有碱性基团的肽,即在N末端产生α-氨基,在C末端产生赖氨酸或精氨酸侧链。这有利于形成带双倍电荷的离子,其中,带电中心在该分子的相反的末端上。这些带双倍电荷的离子经CID后产生C末端离子系列和N末端离子系列。这有助于确定肽的序列。一般而言,在给定肽的CID质谱中观察到只有一种或两种可能的离子系列。在以四极为基础的仪器的典型的低能碰撞中,N末端片的b系列或C末端片段的y系列占优。如果分析带双倍电荷的离子,则常常检测到这两个系列。通常,y系列比b系列占优。
如果用于本发明方法的分离肽是如上述采用DITC玻璃分离得到的C末端肽,则这些肽在分离后,在它们的N末端将具有游离的胺,这有利于使用本发明的标记物进行标记。如上所述,这些标记物都可具有相同的质量,这样所分析的每份样品中的等价的肽的质量将改变相同的量。这些肽的CID将从标记物中产生片段。标记物片段的强度可表示要测定的每份样品中的等价肽的相对数量。只要电荷仍保留在标记物上,将本发明的质量标记物共价连接于分离肽的N末端,将使片段离子的b系列的质量被标记物的质量改变。由于用于每一份分析样品的标记物的质量相同,所以只要标记的肽的碰撞诱导断裂在肽骨架上发生,对于所有的样品,将只有一种离子系列产生。这意味着由其片段离子鉴别标记的肽是可能的,并且对于任何给定的肽,不管同时分析的样品的数量是多少,肽的片段系列将只有一种。标记物自身的片段化将产生各样品的峰特征。这些峰将在相对低的质量范围内产生(见图24)。在三重四极仪器的帮助下,较佳是使用选择的反应监测,以获得这些峰的最敏感的检测。这些峰的相对敏感性将是原始样品中获得的肽的源蛋白质的相对量的指示。在天然的肽中,片段离子的b系列的强度比y系列低。由于具有了包括如季铵中心的适当的碱性质量标记物或“预电离”的质量标记物,离子片段的b系列的强度得以增强。遗憾的是,如果使用C末端肽,则不能保证C末端氨基酸是碱性的,因此y系列的片段离子可能是弱的。使用y系列测定结构信息可能需要这些肽的C末端携带一个碱基或一个“预电离”的基团。
所获得的质谱的“噪音”使得采用串联质谱法对蛋白质,尤其是蛋白质的混合物进行的分析变得复杂。从生物样品中分离得到的蛋白质通常受到缓冲剂、变性剂和去污剂的污染,所有这些试剂都将峰引入质谱中。结果,在质谱中污染峰比肽的峰还要多,从而鉴别出对应于肽的峰就成为一个主要的问题,尤其是难以分离的小样品蛋白质。结果,在进详细的CID分析前,先要采用各种方法来测定哪个峰对应于肽。以三重四极为基础的仪器允许进行“前体离子扫描”〔参见WilmM.等人,Anal.Chem.,68(3)527-33,《未分离的肽混合物的母离子扫描》(“Parention scans of unseparated peptide mixtures″),1996〕。以“单一反应监测”的模式进行三重四极处理,其中,第一四极扫描整个质量范围,然后在第二四极中使每一个通过的离子进行CID处理。将第三四极设置为仅检测一种特异性片段离子,该离子通常是从肽得到的特征性片段离子,如铵离子。采用四极/飞行时间质谱仪的另一方法,通过鉴别进行CID处理时产生质荷比比母离子高的子系离子的离子,从而扫描带双倍电荷的离子。鉴别带双倍电荷的离子的另一方法是,在光谱中寻找具有适当强度比的仅分开0.5道尔顿的峰组,这类峰组可能指示该离子是相同的,区别仅在于分子中存在13C的比例。
通过使用本发明的质量标记物标记肽,可展望获得一种新形式的前体离子扫描,其中,在对该标记的肽进行CID处理后,由对应于本发明的质量标记物的片段的存在来鉴别肽峰。特别是,可使用一种以上质量标记物标记采用本发明方法从各样品中分离得到的肽。可使用“前体离子扫描”标记物和样品特异性标记物的等摩尔混合物标记各样品中的肽,其中,该“前体离子扫描”用于所有的样品中。这样,不同样品中肽的水平变化将不会对前体离子扫描中的肽峰的鉴别产生不利的影响。
鉴别和选择肽离子后,较佳是对它们进行CID处理。所得的CID质谱通常是非常复杂的,并且确定CID质谱中哪些峰对应于有意义的肽片段系列是由质谱法确定肽的序列中的另一问题。Shevchenko等人,Rapid Commun.Mass Spec.,11,1015-1024(1997)描述了另一种方法,该方法涉及用1∶1的16O/18O水中的胰蛋白酶处理蛋白质,以进行分析。水解反应产生两组肽,第一组肽的末端羧基含有16O,第二组的末端羧基含有18O。因此,对于样品中的每一条肽,应有相等强度的双峰,该双峰的距离是2道尔顿。这会被固有的肽同位素峰变得略微复杂,但可用于双峰的CID质谱的自动扫描。可通过两个片段的差别确定双峰间的质量差异,以鉴别其氨基酸。如果分离了N末端肽,那么这种方法可与本发明的方法一起应用。